CN105786851A - 问答知识库的构建方法、提供搜索的方法及装置 - Google Patents
问答知识库的构建方法、提供搜索的方法及装置 Download PDFInfo
- Publication number
- CN105786851A CN105786851A CN201410812103.8A CN201410812103A CN105786851A CN 105786851 A CN105786851 A CN 105786851A CN 201410812103 A CN201410812103 A CN 201410812103A CN 105786851 A CN105786851 A CN 105786851A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- search
- historical
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000009411 base construction Methods 0.000 title claims abstract description 5
- 238000012216 screening Methods 0.000 claims description 64
- 238000001914 filtration Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 17
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 9
- 240000003768 Solanum lycopersicum Species 0.000 description 9
- 235000013601 eggs Nutrition 0.000 description 9
- 230000006399 behavior Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种问答知识库的构建方法、提供搜索的方法及装置,其中,问答知识库的构建方法包括:分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;将生成的所述数据结构对作为问答知识库数据项进行存储。本发明基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。
Description
技术领域
本发明涉及信息搜索领域,特别是一种问答知识库的构建方法和装置,以及利用问答知识库数据项提供搜索的方法和装置。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
相关技术中,基于用户的提问(即用户输入问答类搜索词),现有搜索引擎给出的搜索结果以搜索词的相关性进行排序,搜索结果杂乱无章不直观,用户需要一个个筛选,效率较低,也非常不便捷。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问答知识库的构建方法和装置,以及利用问答知识库数据项提供搜索的方法和装置。
依据本发明的一个方面,提供了一种问答知识库的构建方法,包括:分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;将生成的所述数据结构对作为问答知识库数据项进行存储。
可选地,对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
可选地,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对,包括:计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
可选地,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对,包括:基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
依据本发明的另一个方面,提供了一种利用问答知识库数据项提供搜索的方法,包括:接收来自用户的当前问答类搜索词;利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
可选地,将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户,包括:将筛选出的所述问答对作为搜索结果提供给所述用户。
可选地,在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对,包括:基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
依据本发明的又一个方面,还提供了一种问答知识库的构建装置,包括:
分析器,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器,适于将生成的所述数据结构对作为问答知识库数据项进行存储。
可选地,所述数据结构对生成器对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
筛选器,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
可选地,所述筛选器还适于:计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
可选地,所述筛选器还适于:基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
依据本发明的再一个方面,还提供了一种利用问答知识库数据项提供搜索的装置,包括:
数据输入器,适于接收来自用户的当前问答类搜索词;
查找器,适于利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
可选地,所述数据输出器将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:
选取器,适于在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
所述数据输出器,还适于将筛选出的所述问答对作为搜索结果提供给所述用户。
可选地,所述选取器还适于:基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
在本发明提供的技术方案中,首先分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息,随后对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,进而将生成的数据结构对作为问答知识库数据项进行存储。搜索日志中的历史问答类搜索词体现网络中海量搜索用户的搜索行为,且历史问答类搜索词对应的问答对是用户从基于历史问答类搜索词得到的搜索结果中确认或有过实际点击的问答对,其能够反映用户对于问答对的质量的认可度。本发明基于搜索日志生成架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,基于生成的数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。并且,基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的问答知识库的构建方法的流程图;
图2示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的方法的流程图;
图3示出了相关技术中当前问答类搜索词为“西红柿鸡蛋的做法”的搜索结果示意图;
图4示出了采用本发明的技术方案提供的当前问答类搜索词为“西红柿鸡蛋的做法”的一种搜索结果示意图;
图5示出了采用本发明的技术方案提供的当前问答类搜索词为“西红柿鸡蛋的做法”的另一种搜索结果示意图;
图6示出了根据本发明一个实施例的问答知识库的构建装置的结构示意图;
图7示出了根据本发明另一个实施例的问答知识库的构建装置的结构示意图;
图8示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图;以及
图9示出了根据本发明另一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明提供了一种问答知识库的构建方法。图1示出了根据本发明一个实施例的问答知识库的构建方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S106。
步骤S102、分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息。
步骤S104、对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对。
步骤S106、将生成的数据结构对作为问答知识库数据项进行存储。
在本发明提供的技术方案中,首先分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息,随后对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,进而将生成的数据结构对作为问答知识库数据项进行存储。搜索日志中的历史问答类搜索词体现网络中海量搜索用户的搜索行为,且历史问答类搜索词对应的问答对是用户从基于历史问答类搜索词得到的搜索结果中确认或有过实际点击的问答对,其能够反映用户对于问答对的质量的认可度。本发明基于搜索日志生成架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,基于生成的数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。并且,基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
上文步骤S102中提及的问答对的有效特征信息可以为经过网络中海量搜索用户对问答对确认的有效信息,比如对问答对有过实际点击,对问答对进行的评价信息,等等,其能够反映搜索用户对于问答对的质量的认可度。
在实施步骤S104之前,本发明实施例还可以对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。本发明提供了两种优选的筛选策略,在一种优选的筛选策略中,可以计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值,进而在该历史问答类搜索词对应的问答对中,选取相关性值大于或等于预设阈值的问答对。例如,某历史问答类搜索词对应的问答对为问答对1、问答对2以及问答对3,此时分别计算该历史问答类搜索词与问答对1、问答对2、问答对3中问题和/或答案的相关性值,进而在问答对1、问答对2以及问答对3中,选取相关性值大于或等于预设阈值的问答对。这里,计算相关性值可以利用现有的计算文本相关性的算法得到,此处不再赘述。在另一种优选的筛选策略中,可以在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。这里的第一预设筛选条件可以根据实际需求进行设置,如基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。仍以上述例子为例,某历史问答类搜索词对应的问答对为问答对1、问答对2以及问答对3,分别对问答对1、问答对2、问答对3的有效特征信息进行统计,统计出问答对1的实际点击次数为100次,问答对2的实际点击次数为1000次,问答对3的实际点击次数为200次,假设预设频率为500次,则筛选出的该历史问答类搜索词对应的问答对为问答对2。当然,上述列举仅是示意性的,在实际应用中,历史问答类搜索词对应的问答对可能是上千条、上万条甚至上百万条,且预设频率也可以根据实际情况进行调整。此外,若有效特征信息为对问答对进行的评价信息,则可以将其量化,以便进行筛选。
相应的,在上述构建的问答知识库的基础上,本发明还提供了一种利用问答知识库数据项提供搜索的方法。图2示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的方法的流程图。如图2所示,该方法至少包括以下步骤S202至步骤S206。
步骤S202、接收来自用户的当前问答类搜索词。
步骤S204、利用问答知识库数据项,查找与当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息。
步骤S206、将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户。
本发明基于数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
在实施步骤S206之前,本发明还可以在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对。这里的第二预设筛选条件可以根据实际需求进行设置,如基于对有效特征信息进行统计,统计得到有效特征频率最高所对应的问答对,进而将统计后有效特征频率最高所对应的问答对作为搜索结果提供给用户。例如,与当前问答类搜索词匹配的至少一个历史问答类搜索词为词A、词B以及词C,词A对应的问答对为问答对a1、a2、a3、a4,词B对应的问答对为问答对b1、b2、b3,词C对应的问答对为问答对c1、c2、c3、c4、c5、c6,此时统计各个问答对的实际点击次数,得到实际点击次数最多所对应的问答对,并作为搜索结果提供给用户。
进一步地,步骤S206中作为搜索结果的问答对有多个时,本发明还可以将多条问答对合并为一条整合问答对结果提供给用户。例如,可以将有效特征频率最高所对应的问答对截取问题及答案数据段嵌入到整合问答对结果中,其它问答对仅提取问题特征嵌入到整合问答对结果中。举例来说,用户输入的当前问答类搜索词为“西红柿鸡蛋的做法”,如图3所示为相关技术中当前问答类搜索词为“西红柿鸡蛋的做法”的搜索结果示意图。采用本发明提供的技术方案,利用问答知识库数据项,查找与当前问答类搜索词“西红柿鸡蛋的做法”匹配的至少一个历史问答类搜索词为“西红柿鸡蛋的做法”、“西红柿鸡蛋汤的做法”等等,进而将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户。图4示出了采用本发明的技术方案提供的当前问答类搜索词为“西红柿鸡蛋的做法”的搜索结果示意图,通过对比图3和图4,图3中的搜索结果杂乱无章不直观,用户需要一个个筛选,图4中直接将问题的答案或相关知识作为搜索结果提供给用户,简化了用户筛选的工作。进一步地,作为搜索结果的问答对有多个时,可以将有效特征频率最高所对应的问答对截取问题及答案数据段嵌入到整合问答对结果中,其它问答对仅提取问题特征嵌入到整合问答对结果中,如图5所示。此外,图5中,选取其它问答对中的两条提取其问题特征嵌入到整合问答对结果中,并生成向该问答知识库发起依据当前搜索词“西红柿鸡蛋的做法”的垂直搜索请求的链接元素“更多相关问题”,将该链接元素与显式的问答结果合并为一条整合问答对结果。
基于同一发明构思,本发明实施例还提供了一种问答知识库的构建装置,以实现上述问答知识库的构建方法。
图6示出了根据本发明一个实施例的问答知识库的构建装置的结构示意图。参见图6,该装置至少可以包括:分析器610、数据结构对生成器620以及知识库构建器630。
现介绍本发明实施例的问答知识库的构建装置的各组成或器件的功能以及各部分间的连接关系:
分析器610,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器620,与分析器610相耦合,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器630,与数据结构对生成器620相耦合,适于将生成的数据结构对作为问答知识库数据项进行存储。
在一个实施例中,图7示出了根据本发明另一个实施例的问答知识库的构建装置的结构示意图。参见图7,上述数据结构对生成器620对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:筛选器710,与分析器610以及数据结构对生成器620相耦合,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
在一个实施例中,上述筛选器710还适于:计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取相关性值大于或等于预设阈值的问答对;或者,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
在一个实施例中,上述筛选器710还适于:基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
相应的,本发明实施例还提供了利用问答知识库数据项提供搜索的装置,以实现上述利用问答知识库数据项提供搜索的方法。
图8示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图。参见图8,该装置至少可以包括:数据输入器810、查找器820以及数据输出器830。
现介绍本发明实施例的利用问答知识库数据项提供搜索的装置的各组成或器件的功能以及各部分间的连接关系:
数据输入器810,适于接收来自用户的当前问答类搜索词;
查找器820,与数据输入器810相耦合,适于利用问答知识库数据项,查找与当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器830,与查找器820相耦合,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户。
在一个实施例中,图9示出了根据本发明另一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图。参见图9,上述数据输出器830将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户之前,还包括:选取器910,与查找器820以及数据输出器830相耦合,适于在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
上述数据输出器830,还适于将筛选出的问答对作为搜索结果提供给用户。
在一个实施例中,上述选取器910还适于:基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明提供的技术方案中,首先分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息,随后对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,进而将生成的数据结构对作为问答知识库数据项进行存储。搜索日志中的历史问答类搜索词体现网络中海量搜索用户的搜索行为,且历史问答类搜索词对应的问答对是用户从基于历史问答类搜索词得到的搜索结果中确认或有过实际点击的问答对,其能够反映用户对于问答对的质量的认可度。本发明基于搜索日志生成架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,基于生成的数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。并且,基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的问答知识库的构建装置以及利用问答知识库数据项提供搜索的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明还公开了:
A1、一种问答知识库的构建方法,包括:
分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
将生成的所述数据结构对作为问答知识库数据项进行存储。
A2、根据A1所述的方法,其中,对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
A3、根据A1-A2任一项所述的方法,其中,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对,包括:
计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,
在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
A4、根据A1-A3任一项所述的方法,其中,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
A5、一种利用问答知识库数据项提供搜索的方法,包括:
接收来自用户的当前问答类搜索词;
利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
A6、根据A5所述的方法,其中,
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户,包括:将筛选出的所述问答对作为搜索结果提供给所述用户。
A7、根据A5-A6任一项所述的方法,其中,在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
B8、一种问答知识库的构建装置,包括:
分析器,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器,适于将生成的所述数据结构对作为问答知识库数据项进行存储。
B9、根据B8所述的装置,其中,所述数据结构对生成器对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
筛选器,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
B10、根据B8-B9任一项所述的装置,其中,所述筛选器还适于:
计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,
在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
B11、根据B8-B10任一项所述的装置,其中,所述筛选器还适于:
基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
B12、一种利用问答知识库数据项提供搜索的装置,包括:
数据输入器,适于接收来自用户的当前问答类搜索词;
查找器,适于利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
B13、根据B12所述的装置,其中,所述数据输出器将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:
选取器,适于在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
所述数据输出器,还适于将筛选出的所述问答对作为搜索结果提供给所述用户。
B14、根据B12-B13任一项所述的装置,其中,所述选取器还适于:
基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
Claims (10)
1.一种问答知识库的构建方法,包括:
分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
将生成的所述数据结构对作为问答知识库数据项进行存储。
2.根据权利要求1所述的方法,其中,对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
3.根据权利要求1-2任一项所述的方法,其中,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对,包括:
计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,
在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
4.根据权利要求1-3任一项所述的方法,其中,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
5.一种利用问答知识库数据项提供搜索的方法,包括:
接收来自用户的当前问答类搜索词;
利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
6.根据权利要求5所述的方法,其中,
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户,包括:将筛选出的所述问答对作为搜索结果提供给所述用户。
7.根据权利要求5-6任一项所述的方法,其中,在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
8.一种问答知识库的构建装置,包括:
分析器,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器,适于将生成的所述数据结构对作为问答知识库数据项进行存储。
9.根据权利要求8所述的装置,其中,所述数据结构对生成器对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
筛选器,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
10.一种利用问答知识库数据项提供搜索的装置,包括:
数据输入器,适于接收来自用户的当前问答类搜索词;
查找器,适于利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410812103.8A CN105786851A (zh) | 2014-12-23 | 2014-12-23 | 问答知识库的构建方法、提供搜索的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410812103.8A CN105786851A (zh) | 2014-12-23 | 2014-12-23 | 问答知识库的构建方法、提供搜索的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105786851A true CN105786851A (zh) | 2016-07-20 |
Family
ID=56378104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410812103.8A Pending CN105786851A (zh) | 2014-12-23 | 2014-12-23 | 问答知识库的构建方法、提供搜索的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105786851A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391382A (zh) * | 2017-08-08 | 2017-11-24 | 北京云测信息技术有限公司 | 一种目标搜索方法和装置 |
WO2018166115A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 客服问答数据的处理方法、电子装置及计算机可读存储介质 |
WO2019153612A1 (zh) * | 2018-02-09 | 2019-08-15 | 平安科技(深圳)有限公司 | 问答数据处理方法、电子装置及存储介质 |
WO2019210624A1 (zh) * | 2018-05-04 | 2019-11-07 | 平安科技(深圳)有限公司 | 特征筛选方法、装置、计算机设备和存储介质 |
CN112131338A (zh) * | 2020-06-05 | 2020-12-25 | 支付宝(杭州)信息技术有限公司 | 一种建立问答对的方法及装置 |
CN113407813A (zh) * | 2021-06-28 | 2021-09-17 | 北京百度网讯科技有限公司 | 确定候选信息的方法、确定查询结果的方法、装置、设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080625A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 知識構築装置、プログラムおよび知識構築方法 |
CN101986293A (zh) * | 2010-09-03 | 2011-03-16 | 百度在线网络技术(北京)有限公司 | 用于在搜索界面中呈现搜索答案信息的方法及设备 |
CN103246697A (zh) * | 2013-03-28 | 2013-08-14 | 百度在线网络技术(北京)有限公司 | 一种用于确定近义序列簇的方法与设备 |
CN103365932A (zh) * | 2012-04-11 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种网页搜索方法和装置 |
CN103455535A (zh) * | 2013-05-08 | 2013-12-18 | 深圳市明唐通信有限公司 | 基于历史咨询数据构建知识库的方法 |
CN103577556A (zh) * | 2013-10-21 | 2014-02-12 | 北京奇虎科技有限公司 | 一种获取问答对的相关联程度的装置和方法 |
CN103942279A (zh) * | 2014-04-01 | 2014-07-23 | 百度(中国)有限公司 | 搜索结果的展现方法和装置 |
CN103995870A (zh) * | 2014-05-21 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 交互式搜索方法和装置 |
CN104102723A (zh) * | 2014-07-21 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 搜索内容提供方法和搜索引擎 |
-
2014
- 2014-12-23 CN CN201410812103.8A patent/CN105786851A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080625A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 知識構築装置、プログラムおよび知識構築方法 |
CN101986293A (zh) * | 2010-09-03 | 2011-03-16 | 百度在线网络技术(北京)有限公司 | 用于在搜索界面中呈现搜索答案信息的方法及设备 |
CN103365932A (zh) * | 2012-04-11 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种网页搜索方法和装置 |
CN103246697A (zh) * | 2013-03-28 | 2013-08-14 | 百度在线网络技术(北京)有限公司 | 一种用于确定近义序列簇的方法与设备 |
CN103455535A (zh) * | 2013-05-08 | 2013-12-18 | 深圳市明唐通信有限公司 | 基于历史咨询数据构建知识库的方法 |
CN103577556A (zh) * | 2013-10-21 | 2014-02-12 | 北京奇虎科技有限公司 | 一种获取问答对的相关联程度的装置和方法 |
CN103942279A (zh) * | 2014-04-01 | 2014-07-23 | 百度(中国)有限公司 | 搜索结果的展现方法和装置 |
CN103995870A (zh) * | 2014-05-21 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 交互式搜索方法和装置 |
CN104102723A (zh) * | 2014-07-21 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 搜索内容提供方法和搜索引擎 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018166115A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 客服问答数据的处理方法、电子装置及计算机可读存储介质 |
CN107391382A (zh) * | 2017-08-08 | 2017-11-24 | 北京云测信息技术有限公司 | 一种目标搜索方法和装置 |
CN107391382B (zh) * | 2017-08-08 | 2020-11-20 | 北京云测信息技术有限公司 | 一种目标搜索方法和装置 |
WO2019153612A1 (zh) * | 2018-02-09 | 2019-08-15 | 平安科技(深圳)有限公司 | 问答数据处理方法、电子装置及存储介质 |
WO2019210624A1 (zh) * | 2018-05-04 | 2019-11-07 | 平安科技(深圳)有限公司 | 特征筛选方法、装置、计算机设备和存储介质 |
CN112131338A (zh) * | 2020-06-05 | 2020-12-25 | 支付宝(杭州)信息技术有限公司 | 一种建立问答对的方法及装置 |
CN112131338B (zh) * | 2020-06-05 | 2024-02-09 | 支付宝(杭州)信息技术有限公司 | 一种建立问答对的方法及装置 |
CN113407813A (zh) * | 2021-06-28 | 2021-09-17 | 北京百度网讯科技有限公司 | 确定候选信息的方法、确定查询结果的方法、装置、设备 |
CN113407813B (zh) * | 2021-06-28 | 2024-01-26 | 北京百度网讯科技有限公司 | 确定候选信息的方法、确定查询结果的方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11714835B2 (en) | Organizing survey text responses | |
CN105786851A (zh) | 问答知识库的构建方法、提供搜索的方法及装置 | |
US20160203316A1 (en) | Activity model for detecting suspicious user activity | |
Grindrod et al. | A matrix iteration for dynamic network summaries | |
CN105868256A (zh) | 处理用户行为数据的方法和系统 | |
CN103823888B (zh) | 一种基于节点亲密度的社交网站好友推荐方法 | |
CN107861981B (zh) | 一种数据处理方法及装置 | |
US9864855B2 (en) | Verification data processing method and device and storage medium | |
CN103077254B (zh) | 网页获取方法和装置 | |
US20130132851A1 (en) | Sentiment estimation of web browsing user | |
CN109086356B (zh) | 大规模知识图谱的错误连接关系诊断及修正方法 | |
CN104933100A (zh) | 关键词推荐方法和装置 | |
CN105893427A (zh) | 资源搜索方法以及服务器 | |
CN111475402B (zh) | 程序功能的测试方法及相关装置 | |
CN112383828B (zh) | 一种具有类脑特性的体验质量预测方法、设备及系统 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
CN109558531A (zh) | 新闻信息推送方法、装置以及计算机设备 | |
CN108121741B (zh) | 网站质量评估方法及装置 | |
Wlodarczyk et al. | Current trends in predictive analytics of big data | |
KR101727831B1 (ko) | 소셜 네트워크에서의 커뮤니티 그룹 추적 방법 | |
CN104899859B (zh) | 自动选择滤波器参数的系统、方法及存储介质 | |
CN105786791B (zh) | 数据主题获取方法及装置 | |
CN102999590B (zh) | 识别官方网站的方法和系统 | |
CN106599289A (zh) | 在搜索结果页中聚合动漫类资讯信息的方法及装置 | |
Estrada Vargas et al. | A Study of Wavelet Analysis and Data Extraction from Second‐Order Self‐Similar Time Series |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |