CN109299235A - 知识库搜索方法、装置及计算机可读存储介质 - Google Patents

知识库搜索方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109299235A
CN109299235A CN201811096202.5A CN201811096202A CN109299235A CN 109299235 A CN109299235 A CN 109299235A CN 201811096202 A CN201811096202 A CN 201811096202A CN 109299235 A CN109299235 A CN 109299235A
Authority
CN
China
Prior art keywords
knowledge point
knowledge
weight
knowledge base
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811096202.5A
Other languages
English (en)
Other versions
CN109299235B (zh
Inventor
周俊琨
石卢靖
许扬
温利聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811096202.5A priority Critical patent/CN109299235B/zh
Priority to PCT/CN2018/123597 priority patent/WO2020056979A1/zh
Publication of CN109299235A publication Critical patent/CN109299235A/zh
Application granted granted Critical
Publication of CN109299235B publication Critical patent/CN109299235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据技术,揭露了一种知识库搜索方法,包括:获取所述知识库与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据;计算所述预设知识库中每一条知识点的权值系数;根据所述权值系数以及对所述知识点的历史操作行为数据,利用预设的算法,计算利用所述当前接收的关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述当前接收的关键字搜索到所有知识点进行排序呈现给用户。本发明还提出一种知识库搜索装置以及一种计算机可读存储介质。本发明实现了知识库的精准搜索。

Description

知识库搜索方法、装置及计算机可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于知识内容和用户行为协同的知识库搜索方法、装置及计算机可读存储介质。
背景技术
知识库是指具有咨询性质的数据库,这种知识库是共享的。从今后的发展来看,巨型知识库将会出现。顾名思义,在巨型知识库中,存在海量的信息,因此,在知识库中快速、准确地寻找特定问题的解决方案并不是一件容易的事情。
传统的知识库搜索方案中,当接收到用户输入一个特定问题时,所采用的搜索算法大多是基于知识文本本身的相关性来进行搜索排序的,这种搜索排序结果可能并不能使用户快速、准确地找到问题的答案,给用户及/或客户带来不好的使用体验。
例如,随着人们收入水平的不断提高,人们可能会越来越关注金融信息,如存在哪些理财产品、哪些保险服务,哪些产品更适合自己等等。因此,人们可能会通过电话或者网络的方式向金融企业的客服进行询问。由于金融产品成千上万,客服并不能详细了解每一款金融产品,因此,需要向企业的知识库中进行搜索。如何能够做到快速且准确地回答客户的询问,完全依赖于企业知识库的搜索结果。
发明内容
本发明提供一种知识库搜索方法、装置及计算机可读存储介质,其主要目的在于当用户在知识库中进行搜索时,给用户呈现出精准的搜索结果。
为实现上述目的,本发明提供的一种知识库搜索方法,包括:
获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据;
计算所述知识库中每一条知识点的权值系数;
根据所述权值系数以及所述知识点的历史操作行为数据,利用预设的算法,计算利用所述当前接收的关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述当前接收的关键字搜索到所有知识点进行排序呈现给用户。
可选地,所述获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据,包括:
接收用户输入到所述知识库的关键字,并对接收的关键字执行分词操作;
获取所有用户在所述知识库的历史搜索记录,将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录;及
计算所述历史搜索记录中的知识点的历史操作行为数据。
可选地,所述计算所述历史搜索记录中的知识点的历史操作行为数据包括:
根据相匹配的历史搜索记录被执行的预设操作行为数据,统计每个相匹配的历史搜索记录中最后一条被执行预设操作行为的知识点;
计算所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比;
统计每个相匹配的历史搜索记录中除去最后一条知识点的其他条被执行预设操作行为的知识点;
计算其中每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比;
其中,所述预设操作行为包括对所述历史搜索记录中的知识点的点击行为。
可选地,所述计算所述预设知识库中每一条知识点的权值系数,包括:
获取所述预设知识库中的所有知识点;
对每一条知识点中的所有内容按照预先确定的分词规则执行分词操作,得到每一条知识点中的文档分词;及
计算每一条知识点以及其中的文档分词的一种或者多种权值系数。
可选地,所述预设的算法为:
其中:
Nd为知识点的个数,i为第几个分词,n为共n个分词;
Lbw为最后一次操作行为权重,是根据最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比预先设置的;
Bw为操作行为权重,是根据每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比预先设置的;及
Tf、Idf、Tw、Fw、Kw及Norm为每一条知识点以及其中的文档分词的权值系数,分别代表所述每个知识点中的文档分词的词频、反词频、词权重以及位置权重,以及每一个知识点的知识权重、长度归一化因子。
此外,为实现上述目的,本发明还提供一种知识库搜索装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的知识库搜索程序,所述知识库搜索程序被所述处理器执行时实现如下步骤:
获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据;
计算所述知识库中每一条知识点的权值系数;
根据所述权值系数以及所述知识点的历史操作行为数据,利用预设的算法,计算利用所述当前接收的关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述当前接收的关键字搜索到所有知识点进行排序呈现给用户。
可选地,所述获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据,包括:
接收用户输入到所述知识库的关键字,并对接收的关键字执行分词操作;
获取所有用户在所述知识库的历史搜索记录,将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录;及
计算所述历史搜索记录中的知识点的历史操作行为数据。
可选地,统计每个相匹配的历史搜索记录中最后一条被执行预设操作行为的知识点;
计算所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比;
统计每个相匹配的历史搜索记录中除去最后一条知识点的其他条被执行预设操作行为的知识点;
计算其中每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比;
其中,所述预设操作行为包括对所述历史搜索记录中的知识点的点击行为。
可选地,所述预设的算法为:
其中:
Nd为知识点的个数,i为第几个分词,n为共n个分词;
Lbw为最后一次操作行为权重,是根据最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比预先设置的;
Bw为操作行为权重,是根据每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比预先设置的;及
Tf、Idf、Tw、Fw、Kw及Norm为每一条知识点以及其中的文档分词的权值系数,分别代表所述每个知识点中的文档分词的词频、反词频、词权重以及位置权重,以及每一个知识点的知识权重、长度归一化因子。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库搜索程序,所述知识库搜索程序可被一个或者多个处理器执行,以实现如上所述的知识库搜索方法的步骤。
本发明提出的知识库搜索方法、装置及计算机可读存储介质,在用户利用关键字在一个知识库中进行搜索时,结合所述知识库中所有知识的内容权重以及所有用户在所述知识库中搜索时的操作行为,对利用所述关键字搜索得到的知识点进行排序,从而可以给用户呈现出精准的搜索结果。
附图说明
图1为本发明一实施例提供的知识库搜索方法的流程示意图;
图2为本发明一实施例提供的知识库搜索装置的内部结构示意图;
图3为本发明一实施例提供的知识库搜索装置中知识库搜索程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种知识库搜索方法。参照图1所示,为本发明一实施例提供的知识库搜索方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,知识库搜索方法包括:
S1、接收用户输入到预设知识库的关键字,并对接收的关键字执行分词操作。
本发明较佳实施例中,所述用户可以是某一个金融企业,如中国平安等的客服人员。当所述客服人员通过电话、网页、APP、或者微信等渠道接收到一个用户询问时,可以根据所述用户询问向该金融企业的知识库中输入一个关键字,如“平安的尊宏人生有什么特点”。本发明较佳实施例在接收到所述关键字后,对当前接收的关键字执行分词操作。
本发明较佳实施例采用长词优先原则,根据预存的词库对接收的关键字进行分词。
例如,所述长词优先原则指的是:对于一个需要分词的短语T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”。
所述预存的词库可以包括常规的词库以及特定词库,如金融词库和产品词库等。例如,根据常规的词库,可以得到“平安”、“人生”、“什么”、“特点”等分词,但是根据金融词库,可以得到“尊宏人生”这个分词。因此,本发明较佳实施例对所述关键字“平安的尊宏人生有什么特点”进行分词后,可以得到的分词为“平安”、“的”、“尊宏人生”、“有”、“什么”、“特点”。
进一步地,本发明较佳实施例中,还可以进一步对得到的分词进行过滤处理,具体地,过滤处理采用以下任一种或两种方式:方式一:根据词性进行过滤,保留名词、动词以及形容词;方式二:根据频次进行过滤,保留频次大于频次阈值的分词,其中,频次是指分词在知识库中出现的频率或者次数。
S2、获取所有用户在所述预设知识库的历史搜索记录。
例如,用户A1以第一关键字进行搜索,得到数量为N1条的知识点;用户A2以第二关键字进行搜索,得到数量为N2条的知识点;用户A3以第三关键字进行搜索,得到数量为N3条的知识点等等,则获取包括每一次搜索的关键字以及对应得到的知识点的所有用户的历史搜索记录。
S3、将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录。
根据上述例子,本发明较佳实施例将第一关键字、第二关键字以及第三关键字按照上述介绍的方法进行分词操作。
进一步地,本发明较佳实施例将根据第一关键字得到的分词与上述根据当前接收的关键字得到的分词进行比较,得到两者的相似度,将根据第二关键字得到的分词与上述根据当前接收的关键字得到的分词进行比较,得到两者的相似度,以及将根据第三关键字得到的分词与上述根据当前接收的关键字得到的分词进行比较,得到两者的相似度。当相似度大于一个预设数值,如50%,则认为该条历史搜索纪录当前接收的关键字匹配。
所述相似度的计算可以是比较两者相同的分词占所有分词的百分比。
在一个实施例中,根据当前接收的关键字,得到的分词为“平安”、“尊宏人生”、“什么”、“特点”,根据所述历史搜索记录中的第一关键字,得到的分词为“平安”、“尊宏人生”、“特点”,则两者的相似度为75%。
进一步地,在本发明其他实施例中,也可以根据一些特定的词库,如金融词库和产品词库,赋予每个分词不同的权值。例如,“尊宏人生”为来于自产品词库,则可以赋予该分词1.5的权值等。
S4、获取相匹配的历史搜索记录被执行的预设操作行为。
本发明较佳实施例中,所述预设操作行为为对所述历史搜索记录中的知识点的点击行为。
在一个实施例中,根据上述匹配,用户A1以第一关键字进行搜索,得到数量为N1条的知识点,以及以第二关键字进行搜索,得到数量为N2条的知识点为相匹配的历史搜索记录,则获取该条历史搜索记录的点击行为。
假设,以第一关键字进行搜索,得到的N1条的知识点包括t1、t2、t3、t4、t5、t6、t7、t8、t9以及t10,其中用户通过点击行为依次查看了知识点t1、t3、t4以及t8,则获取的点击行为依次包括所述知识点t1、t3、t4以及t8;以第二关键字进行搜索,得到的N2条的知识点包括t1、t11、t2、t5、t12、t13、t8、t14,以及t15,其中用户通过点击行为依次查看了知识点t1、t11、t5以及t8,则获取的点击行为依次包括所述知识点t1、t11、t5以及t8。
S5、统计每个相匹配的历史搜索记录中最后一条被执行预设操作行为的知识点,并计算所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比。
根据上述例子,以第一关键字进行搜索,得到的N1条的知识点包括t1、t2、t3、t4、t5、t6、t7、t8、t9以及t10,其中用户通过点击行为依次查看了知识点t1、t3、t4以及t8,则最后一条被点击的知识点为t8。
本案其中一个实施例根据上述流程,共得到三条相匹配的历史搜索记录,其中,第一条相匹配的历史搜索记录中,t8为用户最后一次点击的知识点,第二条相匹配的历史搜索记录中,t15为用户最后一次点击的知识点,以及第三条相匹配的历史搜索记录中,t8为用户最后一次点击的知识点,则知识点t8的百分比为67%,知识点t15的百分比为33%。
应该了解,用户最后一次点击的知识点可能代表该知识点解决了用户的问题。
S6、统计每个相匹配的历史搜索记录中除去最后一条知识点的其他条被执行预设操作行为的知识点,并计算其中每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比。
根据上述例子,以第一关键字进行搜索,得到的N1条的知识点包括t1、t2、t3、t4、t5、t6、t7、t8、t9以及t10,其中用户通过点击行为依次查看了知识点t1、t3、t4以及t8,则除去最后一条知识点的其他条被点击的知识点依次为t1、t3、t4。
本发明其中一个实施例根据上述流程,共得到三条相匹配的历史搜索记录,其中,第一条相匹配的历史搜索记录中,除去最后一条知识点的其他条被点击的知识点为t1、t3、t4;第二条相匹配的历史搜索记录中,除去最后一条知识点的其他条被点击的知识点为t1、t5、t6;以及第三条相匹配的历史搜索记录中,除去最后一条知识点的其他条被点击的知识点为t3、t7、t8;,则知识点t1的第二百分比为67%、知识点t3的第二百分比为67%、知识点t4、t5、t6、t7、t8的第二百分比均为33%。
S7、获取所述预设知识库中的所有知识点,并对每一条知识点中的所有内容按照预先确定的分词规则执行分词操作,得到每一条知识点中的文档分词。
优选地,所述预先确定的分词规则如下:
按预设类型标点符号(例如,“,”、“。”、“!”、“;”等等)对获取的各个信息进行短句拆分(例如,从信息起始位置至第一个预设类型标点符号之间的信息为一个短句;若信息结束位置无预设类型标点符号,则从倒数第一个预设类型标点符号至信息结束位置之间的信息为一个短句,且针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句;若信息结束位置有预设类型标点符号,则针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句);
对拆分的每一个短句,采用长词优先原则,根据预设的词库进行分词(例如,长词优先原则指的是:对于一个需要分词的短语T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”;例如,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”时,短语“平安推出了尊宏人生产品”的切分结果为“平安”/“推出”/“了”/“尊宏人生”/“产品”)。
进一步地,本发明较佳实施例中,还可以进一步对得到的分词进行过滤处理,具体地,过滤处理采用以下任一种或两种方式:方式一:根据词性进行过滤,保留名词、动词以及形容词;方式二:根据频次进行过滤,保留频次大于频次阈值的分词,其中,频次是指分词在知识库中出现的频率或者次数。
本发明较佳实施例中,所述预存的词库包括常规的词库,以及特定词库,如金融词库和产品词库等。
S8、计算每一条知识点以及其中的文档分词的一种或者多种权值系数。
本发明较佳实施例中,计算所述每个知识点中的文档分词的词频(Tf)、反词频(Idf)、词权重(Tw)以及位置权重(Fw),并计算所述每一个知识点的知识权重(Kw)、长度归一化因子(Norm)等。
其中:
所述词频(Tf)指的是每个文档分词在包含该文档分词的知识点中出现的次数;
所述反词频(Idf)指的是每个文档分词在整个资料库中出现的次数;
词权重(Tw)是指每个文档分词的来源不同,其词权重不同,例如,若某一个文档分词来自于特定词库,如金融词库和产品词库等,则该文档分词的权重较高,例如设置为1.2,非来自于所述特定词库的文档分词的权重较低,例如设置为1;
位置权重(Fw)是指每个文档分词在知识点中的位置不同,则其权重不同,例如,若某一个文档分词位于知识点的标题中,则所述文档分词的位置权重较高,例如设置为1.2,若某一个文档分词位于知识点的正文中,则所述文档分词的位置权重较低,例如设置为1,以及若某一个文档分词位于知识点的附件中,则所述文档分词的位置权重更低,例如设置为0.8;
所述知识点的知识权重(Kw)为所述知识点中每个文档分词的词频-反词频的加权求和,即Kw=Tf1*Idf1+Tf2*Idf2+...+Tfn*Idfn;
所述知识点的长度归一化因子Norm=1/(1+知识点的文本长度/1000);
S9,根据上述每一条知识点以及其中的文档分词的一种或者多种预设的权值系数,以及所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比及每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比,利用预设的算法,计算每一条知识点的权值Weight,并根据所述权值,将所有知识点进行排序呈现给用户。
本发明较佳实施例中,所述预设的算法为:
其中:
Nd为知识点的个数,i为第几个分词,n为共n个分词;
Lbw为最后一次操作行为权重,是根据最后一条被点击的知识点的百分比设置的。
例如,一条知识点被最后一条被点击的百分比大于80%,可以设置该知识点的权重为1.4;一条知识点被最后一条被点击的百分比大于50%但是小于等于80%,可以设置该知识点的权重为1.3;一条知识点被最后一条被点击的百分比大于30%但是小于等于50%,可以设置该知识点的权重为1.2;一条知识点被最后一条被点击的百分比小于30%,可以设置该知识点的权重为1.1,否则,若一条知识点重来没有被最有一条点击过,则其权重为1;
Bw为操作行为权重,是根据被点击但非最后一条被点击的知识点的百分比设置的。
例如,一条知识点被被点击的百分比大于80%,可以设置该知识点的权重为1.2;一条知识点被被点击的百分比大于50%但是小于等于80%,可以设置该知识点的权重为1.15;一条知识点被点击的百分比大于30%但是小于等于50%,可以设置该知识点的权重为1.1;一条知识点被点击的百分比小于30%,可以设置该知识点的权重为1.05,否则,若一条知识点重来没有被点击过,则其权重为1。
本发明其他实施例中,所述预设的算法也可以为:
其中:
Cw是每一条知识点的渠道权重;
例如,当某一个知识点与当前搜索属于同一渠道,如同属客服人工搜索、或同属机器人智能搜索等,则所述知识点的渠道权重(Cw)设置为1.2,否则,若不属于相同的渠道,则设置为1.0。
W是每一条知识点的所属公司权重;
例如,当某一个知识点与当前搜索属于同一公司,如同属寿险组公司,所述知识点的公司权重(W)设置为1.2,否则,若不属于相同的公司,则设置为1.0。
发明还提供一种知识库搜索装置。参照图2所示,为本发明一实施例提供的知识库搜索装置的内部结构示意图。
在本实施例中,所述知识库搜索装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该知识库搜索装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是知识库搜索装置1的内部存储单元,例如该知识库搜索装置1的硬盘。存储器11在另一些实施例中也可以是知识库搜索装置1的外部存储设备,例如知识库搜索装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括知识库搜索装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于知识库搜索装置1的应用软件及各类数据,例如知识库搜索程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行知识库搜索程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-EmittingDiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在知识库搜索装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及知识库搜索程序01的知识库搜索装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对知识库搜索装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有知识库搜索程序01;处理器12执行存储器11中存储的知识库搜索程序01时实现如下步骤:
步骤一、接收用户输入到预设知识库的关键字,并对接收的关键字执行分词操作。
本发明较佳实施例中,所述用户可以是某一个金融企业,如中国平安等的客服人员。当所述客服人员通过电话、网页、APP、或者微信等渠道接收到一个用户询问时,可以根据所述用户询问向该金融企业的知识库中输入一个关键字,如“平安的尊宏人生有什么特点”。本发明较佳实施例在接收到所述关键字后,对当前接收的关键字执行分词操作。
本发明较佳实施例,所述分词操作采用长词优先原则,根据预存的词库对接收的关键字进行分词。
例如,所述长词优先原则指的是:对于一个需要分词的短语T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”。
所述预存的词库可以包括常规的词库以及特定词库,如金融词库和产品词库等。例如,根据常规的词库,可以得到“平安”、“人生”、“什么”、“特点”等分词,但是根据金融词库,可以得到“尊宏人生”这个分词。因此,本发明较佳实施例对所述关键字“平安的尊宏人生有什么特点”进行分词后,可以得到的分词为“平安”、“的”、“尊宏人生”、“有”、“什么”、“特点”。
进一步地,本发明较佳实施例中,还可以进一步对得到的分词进行过滤处理,具体地,过滤处理采用以下任一种或两种方式:方式一:根据词性进行过滤,保留名词、动词以及形容词;方式二:根据频次进行过滤,保留频次大于频次阈值的分词,其中,频次是指分词在知识库中出现的频率或者次数。
步骤二、获取所有用户在所述预设知识库的历史搜索记录。
例如,用户A1以第一关键字进行搜索,得到数量为N1条的知识点;用户A2以第二关键字进行搜索,得到数量为N2条的知识点;用户A3以第三关键字进行搜索,得到数量为N3条的知识点等等,则获取包括每一次搜索的关键字以及对应得到的知识点的所有用户的历史搜索记录。
步骤三、将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录。
根据上述例子,本发明较佳实施例将第一关键字、第二关键字以及第三关键字按照上述介绍的方法进行分词操作。
进一步地,本发明较佳实施例将根据第一关键字得到的分词与上述根据当前接收的关键字得到的分词进行比较,得到两者的相似度,将根据第二关键字得到的分词与上述根据当前接收的关键字得到的分词进行比较,得到两者的相似度,以及将根据第三关键字得到的分词与上述根据当前接收的关键字得到的分词进行比较,得到两者的相似度。当相似度大于一个预设数值,如50%,则认为该条历史搜索纪录当前接收的关键字匹配。
所述相似度的计算可以是比较两者相同的分词占所有分词的百分比。
在一个实施例中,根据当前接收的关键字,得到的分词为“平安”、“尊宏人生”、“什么”、“特点”,根据所述历史搜索记录中的第一关键字,得到的分词为“平安”、“尊宏人生”、“特点”,则两者的相似度为75%。
进一步地,在本发明其他实施例中,也可以根据一些特定的词库,如金融词库和产品词库,赋予每个分词不同的权值。例如,“尊宏人生”为来于自产品词库,则可以赋予该分词1.5的权值等。
步骤四、获取相匹配的历史搜索记录被执行的预设操作行为。
本发明较佳实施例中,所述预设操作行为为对所述历史搜索记录中的知识点的点击行为。
在一个实施例中,根据上述匹配,用户A1以第一关键字进行搜索,得到数量为N1条的知识点,以及以第二关键字进行搜索,得到数量为N2条的知识点为相匹配的历史搜索记录,则获取该条历史搜索记录的点击行为。
假设,以第一关键字进行搜索,得到的N1条的知识点包括t1、t2、t3、t4、t5、t6、t7、t8、t9以及t10,其中用户通过点击行为依次查看了知识点t1、t3、t4以及t8,则获取的点击行为依次包括所述知识点t1、t3、t4以及t8;以第二关键字进行搜索,得到的N2条的知识点包括t1、t11、t2、t5、t12、t13、t8、t14,以及t15,其中用户通过点击行为依次查看了知识点t1、t11、t5以及t8,则获取的点击行为依次包括所述知识点t1、t11、t5以及t8。
步骤五、统计每个相匹配的历史搜索记录中最后一条被执行预设操作行为的知识点,并计算所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比。
根据上述例子,以第一关键字进行搜索,得到的N1条的知识点包括t1、t2、t3、t4、t5、t6、t7、t8、t9以及t10,其中用户通过点击行为依次查看了知识点t1、t3、t4以及t8,则最后一条被点击的知识点为t8。
本案其中一个实施例根据上述流程,共得到三条相匹配的历史搜索记录,其中,第一条相匹配的历史搜索记录中,t8为用户最后一次点击的知识点,第二条相匹配的历史搜索记录中,t15为用户最后一次点击的知识点,以及第三条相匹配的历史搜索记录中,t8为用户最后一次点击的知识点,则知识点t8的百分比为67%,知识点t15的百分比为33%。
应该了解,用户最后一次点击的知识点可能代表该知识点解决了用户的问题。
步骤六、统计每个相匹配的历史搜索记录中除去最后一条知识点的其他条被执行预设操作行为的知识点,并计算其中每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比。
根据上述例子,以第一关键字进行搜索,得到的N1条的知识点包括t1、t2、t3、t4、t5、t6、t7、t8、t9以及t10,其中用户通过点击行为依次查看了知识点t1、t3、t4以及t8,则除去最后一条知识点的其他条被点击的知识点依次为t1、t3、t4。
本发明其中一个实施例根据上述流程,共得到三条相匹配的历史搜索记录,其中,第一条相匹配的历史搜索记录中,除去最后一条知识点的其他条被点击的知识点为t1、t3、t4;第二条相匹配的历史搜索记录中,除去最后一条知识点的其他条被点击的知识点为t1、t5、t6;以及第三条相匹配的历史搜索记录中,除去最后一条知识点的其他条被点击的知识点为t3、t7、t8;,则知识点t1的第二百分比为67%、知识点t3的第二百分比为67%、知识点t4、t5、t6、t7、t8的第二百分比均为33%。
步骤七、获取所述预设知识库中的所有知识点,并对每一条知识点中的所有内容按照预先确定的分词规则执行分词操作,得到每一条知识点中的文档分词。
优选地,所述预先确定的分词规则如下:
按预设类型标点符号(例如,“,”、“。”、“!”、“;”等等)对知识点中的内容进行短句拆分(例如,从信息起始位置至第一个预设类型标点符号之间的信息为一个短句;若信息结束位置无预设类型标点符号,则从倒数第一个预设类型标点符号至信息结束位置之间的信息为一个短句,且针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句;若信息结束位置有预设类型标点符号,则针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句);
对拆分的每一个短句,采用长词优先原则,根据预设的词库进行分词(例如,长词优先原则指的是:对于一个需要分词的短语T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”;例如,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”时,短语“平安推出了尊宏人生产品”的切分结果为“平安”/“推出”/“了”/“尊宏人生”/“产品”)。
进一步地,本发明较佳实施例中,还可以进一步对得到的分词进行过滤处理,具体地,过滤处理采用以下任一种或两种方式:方式一:根据词性进行过滤,保留名词、动词以及形容词;方式二:根据频次进行过滤,保留频次大于频次阈值的分词,其中,频次是指分词在知识库中出现的频率或者次数。
本发明较佳实施例中,所述预存的词库包括常规的词库,以及特定词库,如金融词库和产品词库等。
步骤八、计算每一条知识点以及其中的文档分词的一种或者多种权值系数。
本发明较佳实施例中,计算所述每个知识点中的文档分词的词频Tf、反词频Idf、词权重Tw以及位置权重Fw,并计算所述每一个知识点的知识权重Kw、长度归一化因子Norm等。
其中:
所述词频Tf指的是每个文档分词在包含该文档分词的知识点中出现的次数;
所述反词频Idf指的是每个文档分词在整个资料库中出现的次数;
词权重Tw是指每个文档分词的来源不同,其词权重不同,例如,若某一个文档分词来自于特定词库,如金融词库和产品词库等,则该文档分词的权重较高,例如设置为1.2,非来自于所述特定词库的文档分词的权重较低,例如设置为1;
位置权重Fw是指每个文档分词在知识点中的位置不同,则其权重不同,例如,若某一个文档分词位于知识点的标题中,则所述文档分词的位置权重较高,例如设置为1.2,若某一个文档分词位于知识点的正文中,则所述文档分词的位置权重较低,例如设置为1,以及若某一个文档分词位于知识点的附件中,则所述文档分词的位置权重更低,例如设置为0.8;
所述知识点的知识权重Kw为所述知识点中每个文档分词的词频-反词频的加权求和,即Kw=Tf1*Idf1+Tf2*Idf2+...+Tfn*Idfn;
所述知识点的长度归一化因子Norm=1/(1+知识点的文本长度/1000);
步骤九、根据上述每一条知识点以及其中的文档分词的一种或者多种预设的权值系数,以及所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比及每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比,利用预设的算法,计算每一条知识点的权值Weight,并根据所述权值,将所有知识点进行排序呈现给用户。
本发明较佳实施例中,所述预设的算法为:
其中:
Nd为知识点的个数,i为第几个分词,n为共n个分词;
Lbw为最后一次操作行为权重,是根据最后一条被点击的知识点的百分比设置的。
例如,一条知识点被最后一条被点击的百分比大于80%,可以设置该知识点的权重为1.4;一条知识点被最后一条被点击的百分比大于50%但是小于等于80%,可以设置该知识点的权重为1.3;一条知识点被最后一条被点击的百分比大于30%但是小于等于50%,可以设置该知识点的权重为1.2;一条知识点被最后一条被点击的百分比小于30%,可以设置该知识点的权重为1.1,否则,若一条知识点重来没有被最有一条点击过,则其权重为1;
Bw为操作行为权重,是根据被点击但非最后一条被点击的知识点的百分比设置的。
例如,一条知识点被被点击的百分比大于80%,可以设置该知识点的权重为1.2;一条知识点被被点击的百分比大于50%但是小于等于80%,可以设置该知识点的权重为1.15;一条知识点被点击的百分比大于30%但是小于等于50%,可以设置该知识点的权重为1.1;一条知识点被点击的百分比小于30%,可以设置该知识点的权重为1.05,否则,若一条知识点重来没有被点击过,则其权重为1。
本发明其他实施例中,所述预设的算法也可以为:
其中:
Cw是每一条知识点的渠道权重;
例如,当某一个知识点与当前搜索属于同一渠道,如同属客服人工搜索、或同属机器人智能搜索等,则所述知识点的渠道权重(Cw)设置为1.2,否则,若不属于相同的渠道,则设置为1.0。
W是每一条知识点的所属公司权重;
例如,当某一个知识点与当前搜索属于同一公司,如同属寿险组公司,所述知识点的公司权重(W)设置为1.2,否则,若不属于相同的公司,则设置为1.0。
可选地,在其他实施例中,知识库搜索程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述知识库搜索程序在知识库搜索装置中的执行过程。
例如,参照图3所示,为本发明知识库搜索装置一实施例中的知识库搜索程序的程序模块示意图,该实施例中,所述知识库搜索程序可以被分割为关键字接收模块10、用户行为分析模块20、知识点内容分析模块30以及搜索模块40,示例性地:
所述关键字接收模块10用于:接收用户输入到预设知识库的关键字,并对接收的关键字执行分词操作。
所述用户行为分析模块20用于:获取所有用户在所述预设知识库的历史搜索记录,将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据。
所述知识点内容分析模块30用于:获取所述预设知识库中的所有知识点,并对每一条知识点中的所有内容按照预先确定的分词规则执行分词操作,得到每一条知识点中的文档分词,并计算每一条知识点以及其中的文档分词的一种或者多种权值系数。
所述搜索模块40用于:根据所述权值系数以及对所述知识点的历史操作行为数据,利用预设的算法,计算利用所述关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述关键字搜索到所有知识点进行排序呈现给用户。
上述关键字接收模块10、用户行为分析模块20、知识点内容分析模块30以及搜索模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库搜索程序,所述知识库搜索程序可被一个或多个处理器执行,以实现如下操作:
接收用户输入到预设知识库的关键字,并对接收的关键字执行分词操作;
获取所有用户在所述预设知识库的历史搜索记录,将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据;
获取所述预设知识库中的所有知识点,并对每一条知识点中的所有内容按照预先确定的分词规则执行分词操作,得到每一条知识点中的文档分词,并计算每一条知识点以及其中的文档分词的一种或者多种权值系数;
根据所述权值系数以及对所述知识点的历史操作行为数据,利用预设的算法,计算利用所述关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述关键字搜索到所有知识点进行排序呈现给用户。
本发明计算机可读存储介质具体实施方式与上述知识库搜索装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种知识库搜索方法,其特征在于,所述方法包括:
获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据;
计算所述知识库中每一条知识点的权值系数;
根据所述权值系数以及所述知识点的历史操作行为数据,利用预设的算法,计算利用所述当前接收的关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述当前接收的关键字搜索到所有知识点进行排序呈现给用户。
2.如权利要求1所述的知识库搜索方法,其特征在于,所述获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据,包括:
接收用户输入到所述知识库的关键字,并对接收的关键字执行分词操作;
获取所有用户在所述知识库的历史搜索记录,将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录;及
计算所述历史搜索记录中的知识点的历史操作行为数据。
3.如权利要求2所述的知识库搜索方法,其特征在于,所述计算所述历史搜索记录中的知识点的历史操作行为数据包括:
根据相匹配的历史搜索记录被执行的预设操作行为数据,统计每个相匹配的历史搜索记录中最后一条被执行预设操作行为的知识点;
计算所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比;
统计每个相匹配的历史搜索记录中除去最后一条知识点的其他条被执行预设操作行为的知识点;
计算其中每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比;
其中,所述预设操作行为包括对所述历史搜索记录中的知识点的点击行为。
4.如权利要求3所述的知识库搜索方法,其特征在于,所述计算所述预设知识库中每一条知识点的权值系数,包括:
获取所述预设知识库中的所有知识点;
对每一条知识点中的所有内容按照预先确定的分词规则执行分词操作,得到每一条知识点中的文档分词;及
计算每一条知识点以及其中的文档分词的一种或者多种权值系数。
5.如权利要求4所述的知识库搜索方法,其特征在于,所述预设的算法为:
其中:
Nd为知识点的个数,i为第几个分词,n为共n个分词;
Lbw为最后一次操作行为权重,是根据最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比预先设置的;
Bw为操作行为权重,是根据每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比预先设置的;及
Tf、Idf、Tw、Fw、Kw及Norm为每一条知识点以及其中的文档分词的权值系数,分别代表所述每个知识点中的文档分词的词频、反词频、词权重以及位置权重,以及每一个知识点的知识权重、长度归一化因子。
6.一种知识库搜索装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的知识库搜索程序,所述知识库搜索程序被所述处理器执行时实现如下步骤:
获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据;
计算所述知识库中每一条知识点的权值系数;
根据所述权值系数以及所述知识点的历史操作行为数据,利用预设的算法,计算利用所述当前接收的关键字搜索到的每一条知识点的权值,并根据所述权值,将利用所述当前接收的关键字搜索到所有知识点进行排序呈现给用户。
7.如权利要求6所述的知识库搜索装置,其特征在于,所述获取所述知识库中与当前接收的关键字相匹配的历史搜索记录,并计算所述历史搜索记录中的知识点的历史操作行为数据,包括:
接收用户输入到所述知识库的关键字,并对接收的关键字执行分词操作;
获取所有用户在所述知识库的历史搜索记录,将所述历史搜索记录的关键字执行分词操作,并与当前接收的关键字进行匹配,以查找到与当前接收的关键字匹配的历史搜索记录;及
计算所述历史搜索记录中的知识点的历史操作行为数据。
8.如权利要求7所述的知识库搜索装置,其特征在于,统计每个相匹配的历史搜索记录中最后一条被执行预设操作行为的知识点;
计算所述每个最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比;
统计每个相匹配的历史搜索记录中除去最后一条知识点的其他条被执行预设操作行为的知识点;
计算其中每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比;
其中,所述预设操作行为包括对所述历史搜索记录中的知识点的点击行为。
9.如权利要求8所述的知识库搜索装置,其特征在于,所述预设的算法为:
其中:
Nd为知识点的个数,i为第几个分词,n为共n个分词;
Lbw为最后一次操作行为权重,是根据最后一条被执行预设操作行为的知识点占所有最后一条被执行预设操作行为的知识点的百分比预先设置的;
Bw为操作行为权重,是根据每一条被执行预设操作行为的知识点占所有被执行预设操作行为的知识点的百分比预先设置的;及
Tf、Idf、Tw、Fw、Kw及Norm为每一条知识点以及其中的文档分词的权值系数,分别代表所述每个知识点中的文档分词的词频、反词频、词权重以及位置权重,以及每一个知识点的知识权重、长度归一化因子。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有知识库搜索程序,所述知识库搜索程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的知识库搜索方法的步骤。
CN201811096202.5A 2018-09-19 2018-09-19 知识库搜索方法、装置及计算机可读存储介质 Active CN109299235B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811096202.5A CN109299235B (zh) 2018-09-19 2018-09-19 知识库搜索方法、装置及计算机可读存储介质
PCT/CN2018/123597 WO2020056979A1 (zh) 2018-09-19 2018-12-25 知识库搜索方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811096202.5A CN109299235B (zh) 2018-09-19 2018-09-19 知识库搜索方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109299235A true CN109299235A (zh) 2019-02-01
CN109299235B CN109299235B (zh) 2023-04-25

Family

ID=65163532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811096202.5A Active CN109299235B (zh) 2018-09-19 2018-09-19 知识库搜索方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109299235B (zh)
WO (1) WO2020056979A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046177A (zh) * 2019-04-24 2019-07-23 北京思特奇信息技术股份有限公司 一种知识提取的方法、系统、存储介质及计算机设备
CN111259129A (zh) * 2020-01-19 2020-06-09 中国平安人寿保险股份有限公司 数据报表搜索方法、装置、电子设备及存储介质
CN112163066A (zh) * 2020-09-08 2021-01-01 天讯瑞达通信技术有限公司 人工智能模型训练方法、知识点推送方法、装置和介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035512B (zh) * 2020-09-02 2023-08-18 中国银行股份有限公司 知识库的检索方法、装置、电子设备及计算机存储介质
CN112541064A (zh) * 2020-12-09 2021-03-23 联仁健康医疗大数据科技股份有限公司 健康评测方法、装置、计算机设备及存储介质
CN113158091A (zh) * 2021-03-24 2021-07-23 北京奇艺世纪科技有限公司 一种召回方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123332A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
CN107885874A (zh) * 2017-11-28 2018-04-06 上海智臻智能网络科技股份有限公司 数据查询方法和装置、计算机设备及计算机可读存储介质
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
CN102591969A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 基于用户历史行为提供搜索结果的方法及服务器
US10554779B2 (en) * 2017-01-31 2020-02-04 Walmart Apollo, Llc Systems and methods for webpage personalization
CN108335137B (zh) * 2018-01-31 2021-07-30 北京三快在线科技有限公司 排序方法及装置、电子设备、计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123332A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN107885874A (zh) * 2017-11-28 2018-04-06 上海智臻智能网络科技股份有限公司 数据查询方法和装置、计算机设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046177A (zh) * 2019-04-24 2019-07-23 北京思特奇信息技术股份有限公司 一种知识提取的方法、系统、存储介质及计算机设备
CN111259129A (zh) * 2020-01-19 2020-06-09 中国平安人寿保险股份有限公司 数据报表搜索方法、装置、电子设备及存储介质
CN111259129B (zh) * 2020-01-19 2024-04-30 中国平安人寿保险股份有限公司 数据报表搜索方法、装置、电子设备及存储介质
CN112163066A (zh) * 2020-09-08 2021-01-01 天讯瑞达通信技术有限公司 人工智能模型训练方法、知识点推送方法、装置和介质
CN112163066B (zh) * 2020-09-08 2023-12-05 天讯瑞达通信技术有限公司 人工智能模型训练方法、知识点推送方法、装置和介质

Also Published As

Publication number Publication date
CN109299235B (zh) 2023-04-25
WO2020056979A1 (zh) 2020-03-26

Similar Documents

Publication Publication Date Title
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
Ding et al. Entity discovery and assignment for opinion mining applications
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
WO2020237856A1 (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
US20060206306A1 (en) Text mining apparatus and associated methods
US20140180934A1 (en) Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
US20210026835A1 (en) System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
de Oliveira et al. Fs-ner: a lightweight filter-stream approach to named entity recognition on twitter data
CN110909120B (zh) 简历搜索/投递方法、装置、系统及电子设备
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112199588A (zh) 舆情文本筛选方法及装置
WO2021051934A1 (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
AU2018313274B2 (en) Diversity evaluation in genealogy search
CN111177372A (zh) 一种科技成果的分类方法、装置、设备及介质
US10353927B2 (en) Categorizing columns in a data table
Manh et al. Extractive Multi-document Summarization using K-means, Centroid-based Method, MMR, and Sentence Position
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN110738048B (zh) 一种关键词提取方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant