CN105786851A - 问答知识库的构建方法、提供搜索的方法及装置 - Google Patents

问答知识库的构建方法、提供搜索的方法及装置 Download PDF

Info

Publication number
CN105786851A
CN105786851A CN201410812103.8A CN201410812103A CN105786851A CN 105786851 A CN105786851 A CN 105786851A CN 201410812103 A CN201410812103 A CN 201410812103A CN 105786851 A CN105786851 A CN 105786851A
Authority
CN
China
Prior art keywords
question
answer
search word
history
class search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410812103.8A
Other languages
English (en)
Inventor
孙林
王建刚
陈培军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410812103.8A priority Critical patent/CN105786851A/zh
Publication of CN105786851A publication Critical patent/CN105786851A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种问答知识库的构建方法、提供搜索的方法及装置,其中,问答知识库的构建方法包括:分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;将生成的所述数据结构对作为问答知识库数据项进行存储。本发明基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。

Description

问答知识库的构建方法、提供搜索的方法及装置
技术领域
本发明涉及信息搜索领域,特别是一种问答知识库的构建方法和装置,以及利用问答知识库数据项提供搜索的方法和装置。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
相关技术中,基于用户的提问(即用户输入问答类搜索词),现有搜索引擎给出的搜索结果以搜索词的相关性进行排序,搜索结果杂乱无章不直观,用户需要一个个筛选,效率较低,也非常不便捷。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问答知识库的构建方法和装置,以及利用问答知识库数据项提供搜索的方法和装置。
依据本发明的一个方面,提供了一种问答知识库的构建方法,包括:分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;将生成的所述数据结构对作为问答知识库数据项进行存储。
可选地,对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
可选地,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对,包括:计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
可选地,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对,包括:基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
依据本发明的另一个方面,提供了一种利用问答知识库数据项提供搜索的方法,包括:接收来自用户的当前问答类搜索词;利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
可选地,将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户,包括:将筛选出的所述问答对作为搜索结果提供给所述用户。
可选地,在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对,包括:基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
依据本发明的又一个方面,还提供了一种问答知识库的构建装置,包括:
分析器,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器,适于将生成的所述数据结构对作为问答知识库数据项进行存储。
可选地,所述数据结构对生成器对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
筛选器,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
可选地,所述筛选器还适于:计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
可选地,所述筛选器还适于:基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
依据本发明的再一个方面,还提供了一种利用问答知识库数据项提供搜索的装置,包括:
数据输入器,适于接收来自用户的当前问答类搜索词;
查找器,适于利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
可选地,所述数据输出器将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:
选取器,适于在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
所述数据输出器,还适于将筛选出的所述问答对作为搜索结果提供给所述用户。
可选地,所述选取器还适于:基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
在本发明提供的技术方案中,首先分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息,随后对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,进而将生成的数据结构对作为问答知识库数据项进行存储。搜索日志中的历史问答类搜索词体现网络中海量搜索用户的搜索行为,且历史问答类搜索词对应的问答对是用户从基于历史问答类搜索词得到的搜索结果中确认或有过实际点击的问答对,其能够反映用户对于问答对的质量的认可度。本发明基于搜索日志生成架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,基于生成的数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。并且,基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的问答知识库的构建方法的流程图;
图2示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的方法的流程图;
图3示出了相关技术中当前问答类搜索词为“西红柿鸡蛋的做法”的搜索结果示意图;
图4示出了采用本发明的技术方案提供的当前问答类搜索词为“西红柿鸡蛋的做法”的一种搜索结果示意图;
图5示出了采用本发明的技术方案提供的当前问答类搜索词为“西红柿鸡蛋的做法”的另一种搜索结果示意图;
图6示出了根据本发明一个实施例的问答知识库的构建装置的结构示意图;
图7示出了根据本发明另一个实施例的问答知识库的构建装置的结构示意图;
图8示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图;以及
图9示出了根据本发明另一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明提供了一种问答知识库的构建方法。图1示出了根据本发明一个实施例的问答知识库的构建方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S106。
步骤S102、分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息。
步骤S104、对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对。
步骤S106、将生成的数据结构对作为问答知识库数据项进行存储。
在本发明提供的技术方案中,首先分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息,随后对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,进而将生成的数据结构对作为问答知识库数据项进行存储。搜索日志中的历史问答类搜索词体现网络中海量搜索用户的搜索行为,且历史问答类搜索词对应的问答对是用户从基于历史问答类搜索词得到的搜索结果中确认或有过实际点击的问答对,其能够反映用户对于问答对的质量的认可度。本发明基于搜索日志生成架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,基于生成的数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。并且,基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
上文步骤S102中提及的问答对的有效特征信息可以为经过网络中海量搜索用户对问答对确认的有效信息,比如对问答对有过实际点击,对问答对进行的评价信息,等等,其能够反映搜索用户对于问答对的质量的认可度。
在实施步骤S104之前,本发明实施例还可以对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。本发明提供了两种优选的筛选策略,在一种优选的筛选策略中,可以计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值,进而在该历史问答类搜索词对应的问答对中,选取相关性值大于或等于预设阈值的问答对。例如,某历史问答类搜索词对应的问答对为问答对1、问答对2以及问答对3,此时分别计算该历史问答类搜索词与问答对1、问答对2、问答对3中问题和/或答案的相关性值,进而在问答对1、问答对2以及问答对3中,选取相关性值大于或等于预设阈值的问答对。这里,计算相关性值可以利用现有的计算文本相关性的算法得到,此处不再赘述。在另一种优选的筛选策略中,可以在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。这里的第一预设筛选条件可以根据实际需求进行设置,如基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。仍以上述例子为例,某历史问答类搜索词对应的问答对为问答对1、问答对2以及问答对3,分别对问答对1、问答对2、问答对3的有效特征信息进行统计,统计出问答对1的实际点击次数为100次,问答对2的实际点击次数为1000次,问答对3的实际点击次数为200次,假设预设频率为500次,则筛选出的该历史问答类搜索词对应的问答对为问答对2。当然,上述列举仅是示意性的,在实际应用中,历史问答类搜索词对应的问答对可能是上千条、上万条甚至上百万条,且预设频率也可以根据实际情况进行调整。此外,若有效特征信息为对问答对进行的评价信息,则可以将其量化,以便进行筛选。
相应的,在上述构建的问答知识库的基础上,本发明还提供了一种利用问答知识库数据项提供搜索的方法。图2示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的方法的流程图。如图2所示,该方法至少包括以下步骤S202至步骤S206。
步骤S202、接收来自用户的当前问答类搜索词。
步骤S204、利用问答知识库数据项,查找与当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息。
步骤S206、将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户。
本发明基于数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
在实施步骤S206之前,本发明还可以在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对。这里的第二预设筛选条件可以根据实际需求进行设置,如基于对有效特征信息进行统计,统计得到有效特征频率最高所对应的问答对,进而将统计后有效特征频率最高所对应的问答对作为搜索结果提供给用户。例如,与当前问答类搜索词匹配的至少一个历史问答类搜索词为词A、词B以及词C,词A对应的问答对为问答对a1、a2、a3、a4,词B对应的问答对为问答对b1、b2、b3,词C对应的问答对为问答对c1、c2、c3、c4、c5、c6,此时统计各个问答对的实际点击次数,得到实际点击次数最多所对应的问答对,并作为搜索结果提供给用户。
进一步地,步骤S206中作为搜索结果的问答对有多个时,本发明还可以将多条问答对合并为一条整合问答对结果提供给用户。例如,可以将有效特征频率最高所对应的问答对截取问题及答案数据段嵌入到整合问答对结果中,其它问答对仅提取问题特征嵌入到整合问答对结果中。举例来说,用户输入的当前问答类搜索词为“西红柿鸡蛋的做法”,如图3所示为相关技术中当前问答类搜索词为“西红柿鸡蛋的做法”的搜索结果示意图。采用本发明提供的技术方案,利用问答知识库数据项,查找与当前问答类搜索词“西红柿鸡蛋的做法”匹配的至少一个历史问答类搜索词为“西红柿鸡蛋的做法”、“西红柿鸡蛋汤的做法”等等,进而将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户。图4示出了采用本发明的技术方案提供的当前问答类搜索词为“西红柿鸡蛋的做法”的搜索结果示意图,通过对比图3和图4,图3中的搜索结果杂乱无章不直观,用户需要一个个筛选,图4中直接将问题的答案或相关知识作为搜索结果提供给用户,简化了用户筛选的工作。进一步地,作为搜索结果的问答对有多个时,可以将有效特征频率最高所对应的问答对截取问题及答案数据段嵌入到整合问答对结果中,其它问答对仅提取问题特征嵌入到整合问答对结果中,如图5所示。此外,图5中,选取其它问答对中的两条提取其问题特征嵌入到整合问答对结果中,并生成向该问答知识库发起依据当前搜索词“西红柿鸡蛋的做法”的垂直搜索请求的链接元素“更多相关问题”,将该链接元素与显式的问答结果合并为一条整合问答对结果。
基于同一发明构思,本发明实施例还提供了一种问答知识库的构建装置,以实现上述问答知识库的构建方法。
图6示出了根据本发明一个实施例的问答知识库的构建装置的结构示意图。参见图6,该装置至少可以包括:分析器610、数据结构对生成器620以及知识库构建器630。
现介绍本发明实施例的问答知识库的构建装置的各组成或器件的功能以及各部分间的连接关系:
分析器610,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器620,与分析器610相耦合,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器630,与数据结构对生成器620相耦合,适于将生成的数据结构对作为问答知识库数据项进行存储。
在一个实施例中,图7示出了根据本发明另一个实施例的问答知识库的构建装置的结构示意图。参见图7,上述数据结构对生成器620对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:筛选器710,与分析器610以及数据结构对生成器620相耦合,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
在一个实施例中,上述筛选器710还适于:计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取相关性值大于或等于预设阈值的问答对;或者,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
在一个实施例中,上述筛选器710还适于:基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
相应的,本发明实施例还提供了利用问答知识库数据项提供搜索的装置,以实现上述利用问答知识库数据项提供搜索的方法。
图8示出了根据本发明一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图。参见图8,该装置至少可以包括:数据输入器810、查找器820以及数据输出器830。
现介绍本发明实施例的利用问答知识库数据项提供搜索的装置的各组成或器件的功能以及各部分间的连接关系:
数据输入器810,适于接收来自用户的当前问答类搜索词;
查找器820,与数据输入器810相耦合,适于利用问答知识库数据项,查找与当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器830,与查找器820相耦合,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户。
在一个实施例中,图9示出了根据本发明另一个实施例的利用问答知识库数据项提供搜索的装置的结构示意图。参见图9,上述数据输出器830将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给用户之前,还包括:选取器910,与查找器820以及数据输出器830相耦合,适于在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
上述数据输出器830,还适于将筛选出的问答对作为搜索结果提供给用户。
在一个实施例中,上述选取器910还适于:基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明提供的技术方案中,首先分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息,随后对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,进而将生成的数据结构对作为问答知识库数据项进行存储。搜索日志中的历史问答类搜索词体现网络中海量搜索用户的搜索行为,且历史问答类搜索词对应的问答对是用户从基于历史问答类搜索词得到的搜索结果中确认或有过实际点击的问答对,其能够反映用户对于问答对的质量的认可度。本发明基于搜索日志生成架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对,基于生成的数据结构对对外提供搜索服务时,能够将匹配用户搜索词的历史问答类搜索词对应的问答对作为搜索结果直接提供给当前搜索用户,即充分利用海量搜索用户的力量,将海量搜索用户认可的问答对作为搜索结果提供给当前搜索用户,提高搜索结果的准确性,提升用户搜索体验。并且,基于海量搜索用户的主观性意见,可以大幅提升问答知识库的适用范围,使其能够更好的理解用户。另外,本发明能够直接将用户搜索词与历史问答类搜索词匹配,得到与用户搜索词匹配的历史问答类搜索词对应的问答对,而无需针对各问答对与用户搜索词进行匹配操作,可以提高匹配效率。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的问答知识库的构建装置以及利用问答知识库数据项提供搜索的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明还公开了:
A1、一种问答知识库的构建方法,包括:
分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
将生成的所述数据结构对作为问答知识库数据项进行存储。
A2、根据A1所述的方法,其中,对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
A3、根据A1-A2任一项所述的方法,其中,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对,包括:
计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,
在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
A4、根据A1-A3任一项所述的方法,其中,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
A5、一种利用问答知识库数据项提供搜索的方法,包括:
接收来自用户的当前问答类搜索词;
利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
A6、根据A5所述的方法,其中,
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户,包括:将筛选出的所述问答对作为搜索结果提供给所述用户。
A7、根据A5-A6任一项所述的方法,其中,在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
B8、一种问答知识库的构建装置,包括:
分析器,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器,适于将生成的所述数据结构对作为问答知识库数据项进行存储。
B9、根据B8所述的装置,其中,所述数据结构对生成器对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
筛选器,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
B10、根据B8-B9任一项所述的装置,其中,所述筛选器还适于:
计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,
在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
B11、根据B8-B10任一项所述的装置,其中,所述筛选器还适于:
基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
B12、一种利用问答知识库数据项提供搜索的装置,包括:
数据输入器,适于接收来自用户的当前问答类搜索词;
查找器,适于利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
B13、根据B12所述的装置,其中,所述数据输出器将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:
选取器,适于在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
所述数据输出器,还适于将筛选出的所述问答对作为搜索结果提供给所述用户。
B14、根据B12-B13任一项所述的装置,其中,所述选取器还适于:
基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。

Claims (10)

1.一种问答知识库的构建方法,包括:
分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
将生成的所述数据结构对作为问答知识库数据项进行存储。
2.根据权利要求1所述的方法,其中,对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
3.根据权利要求1-2任一项所述的方法,其中,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对,包括:
计算该历史问答类搜索词与其对应的问答对中问题和/或答案的相关性值;在该历史问答类搜索词对应的问答对中,选取所述相关性值大于或等于预设阈值的问答对;或者,
在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对。
4.根据权利要求1-3任一项所述的方法,其中,在该历史问答类搜索词对应的问答对中,筛选出有效特征信息满足第一预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,筛选出统计后有效特征频率大于预设频率所对应的问答对。
5.一种利用问答知识库数据项提供搜索的方法,包括:
接收来自用户的当前问答类搜索词;
利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
6.根据权利要求5所述的方法,其中,
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户之前,还包括:在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对;
将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户,包括:将筛选出的所述问答对作为搜索结果提供给所述用户。
7.根据权利要求5-6任一项所述的方法,其中,在匹配的至少一个历史问答类搜索词中,筛选出有效特征信息满足第二预设筛选条件的问答对,包括:
基于对有效特征信息进行统计,得到有效特征频率最高所对应的问答对。
8.一种问答知识库的构建装置,包括:
分析器,适于分析搜索日志,得到至少一个历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据结构对生成器,适于对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对;
知识库构建器,适于将生成的所述数据结构对作为问答知识库数据项进行存储。
9.根据权利要求8所述的装置,其中,所述数据结构对生成器对于各个历史问答类搜索词,生成至少一个包括该历史问答类搜索词、相应的问答对以及问答对的有效特征信息的数据结构对之前,还包括:
筛选器,适于对于各个历史问答类搜索词,按照预设的筛选策略筛选该历史问答类搜索词对应的问答对。
10.一种利用问答知识库数据项提供搜索的装置,包括:
数据输入器,适于接收来自用户的当前问答类搜索词;
查找器,适于利用问答知识库数据项,查找与所述当前问答类搜索词匹配的至少一个历史问答类搜索词,其中,所述问答知识库数据项的架构包括历史问答类搜索词、相应的问答对以及问答对的有效特征信息;
数据输出器,适于将匹配的至少一个历史问答类搜索词对应的问答对作为搜索结果提供给所述用户。
CN201410812103.8A 2014-12-23 2014-12-23 问答知识库的构建方法、提供搜索的方法及装置 Pending CN105786851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410812103.8A CN105786851A (zh) 2014-12-23 2014-12-23 问答知识库的构建方法、提供搜索的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410812103.8A CN105786851A (zh) 2014-12-23 2014-12-23 问答知识库的构建方法、提供搜索的方法及装置

Publications (1)

Publication Number Publication Date
CN105786851A true CN105786851A (zh) 2016-07-20

Family

ID=56378104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410812103.8A Pending CN105786851A (zh) 2014-12-23 2014-12-23 问答知识库的构建方法、提供搜索的方法及装置

Country Status (1)

Country Link
CN (1) CN105786851A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391382A (zh) * 2017-08-08 2017-11-24 北京云测信息技术有限公司 一种目标搜索方法和装置
WO2018166115A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 客服问答数据的处理方法、电子装置及计算机可读存储介质
WO2019153612A1 (zh) * 2018-02-09 2019-08-15 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
WO2019210624A1 (zh) * 2018-05-04 2019-11-07 平安科技(深圳)有限公司 特征筛选方法、装置、计算机设备和存储介质
CN112131338A (zh) * 2020-06-05 2020-12-25 支付宝(杭州)信息技术有限公司 一种建立问答对的方法及装置
CN113407813A (zh) * 2021-06-28 2021-09-17 北京百度网讯科技有限公司 确定候选信息的方法、确定查询结果的方法、装置、设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
CN101986293A (zh) * 2010-09-03 2011-03-16 百度在线网络技术(北京)有限公司 用于在搜索界面中呈现搜索答案信息的方法及设备
CN103246697A (zh) * 2013-03-28 2013-08-14 百度在线网络技术(北京)有限公司 一种用于确定近义序列簇的方法与设备
CN103365932A (zh) * 2012-04-11 2013-10-23 腾讯科技(深圳)有限公司 一种网页搜索方法和装置
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103577556A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN103942279A (zh) * 2014-04-01 2014-07-23 百度(中国)有限公司 搜索结果的展现方法和装置
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080625A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 知識構築装置、プログラムおよび知識構築方法
CN101986293A (zh) * 2010-09-03 2011-03-16 百度在线网络技术(北京)有限公司 用于在搜索界面中呈现搜索答案信息的方法及设备
CN103365932A (zh) * 2012-04-11 2013-10-23 腾讯科技(深圳)有限公司 一种网页搜索方法和装置
CN103246697A (zh) * 2013-03-28 2013-08-14 百度在线网络技术(北京)有限公司 一种用于确定近义序列簇的方法与设备
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103577556A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN103942279A (zh) * 2014-04-01 2014-07-23 百度(中国)有限公司 搜索结果的展现方法和装置
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018166115A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 客服问答数据的处理方法、电子装置及计算机可读存储介质
CN107391382A (zh) * 2017-08-08 2017-11-24 北京云测信息技术有限公司 一种目标搜索方法和装置
CN107391382B (zh) * 2017-08-08 2020-11-20 北京云测信息技术有限公司 一种目标搜索方法和装置
WO2019153612A1 (zh) * 2018-02-09 2019-08-15 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
WO2019210624A1 (zh) * 2018-05-04 2019-11-07 平安科技(深圳)有限公司 特征筛选方法、装置、计算机设备和存储介质
CN112131338A (zh) * 2020-06-05 2020-12-25 支付宝(杭州)信息技术有限公司 一种建立问答对的方法及装置
CN112131338B (zh) * 2020-06-05 2024-02-09 支付宝(杭州)信息技术有限公司 一种建立问答对的方法及装置
CN113407813A (zh) * 2021-06-28 2021-09-17 北京百度网讯科技有限公司 确定候选信息的方法、确定查询结果的方法、装置、设备
CN113407813B (zh) * 2021-06-28 2024-01-26 北京百度网讯科技有限公司 确定候选信息的方法、确定查询结果的方法、装置、设备

Similar Documents

Publication Publication Date Title
CN105786851A (zh) 问答知识库的构建方法、提供搜索的方法及装置
CN104462508A (zh) 基于知识图谱的人物关系搜索方法和装置
AU2013329525C1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN104933100A (zh) 关键词推荐方法和装置
CN104050286B (zh) 一种提供搜索结果整合的方法和装置
CN107861981A (zh) 一种数据处理方法及装置
CN105912636B (zh) 一种基于Map/Reduce的ETL数据处理方法和装置
CN104699751A (zh) 一种基于搜索词进行搜索推荐的方法和装置
CN105488221A (zh) 一种在搜索界面推荐查询词进行搜索的方法和系统
CN105786874A (zh) 基于百科词条构建问答知识库数据项的方法和装置
CN104462512A (zh) 基于知识图谱的汉语信息搜索方法和装置
US20120215770A1 (en) Structured relevance - a mechanism to reveal why data is related
CN104331419A (zh) 衡量新闻重要性的方法和装置
CN105786875A (zh) 提供问答对数据搜索结果的方法和装置
CN104462554A (zh) 问答页面相关问题推荐方法和装置
CN104699845A (zh) 基于提问类搜索词的搜索结果提供方法及装置
CN103617241A (zh) 搜索信息处理方法、浏览器终端与服务器
CN104462504A (zh) 基于搜索中提供推理过程数据的方法和装置
US8799192B2 (en) Deriving a nested chain of densest subgraphs from a graph
CN105786871A (zh) 基于搜索词的问答类搜索结果呈现方法和装置
CN104462556A (zh) 问答页面相关问题推荐方法和装置
CN104317929A (zh) 搜索结果呈现优化方法和装置
CN105786872A (zh) 基于用户搜索提供问答onebox的方法和装置
CN103177110A (zh) 搜索成套图像的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720