CN109033229B - 问答处理方法和装置 - Google Patents

问答处理方法和装置 Download PDF

Info

Publication number
CN109033229B
CN109033229B CN201810716146.4A CN201810716146A CN109033229B CN 109033229 B CN109033229 B CN 109033229B CN 201810716146 A CN201810716146 A CN 201810716146A CN 109033229 B CN109033229 B CN 109033229B
Authority
CN
China
Prior art keywords
question
answer
query
segment
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810716146.4A
Other languages
English (en)
Other versions
CN109033229A (zh
Inventor
时迎超
吕雅娟
郑俊强
丁宇辰
刘凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810716146.4A priority Critical patent/CN109033229B/zh
Publication of CN109033229A publication Critical patent/CN109033229A/zh
Application granted granted Critical
Publication of CN109033229B publication Critical patent/CN109033229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种问答处理方法和装置。该方法包括:采用多个不同的问答服务引擎获取查询问题对应的多种候选答案以及每种候选答案的置信度;根据所述多种候选答案及其置信度进行中控决策;根据中控决策的结果,确定所述查询问题对应的最终答案。本发明实施例能够结合多个不同的问答服务引擎的优点,给出用户更加全面、准确的答案。

Description

问答处理方法和装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种问答处理方法和装置。
背景技术
从早期的图书馆检索系统,专家系统,到现在的搜索引擎,快速并准确地获取信息一直是人们梦寐以求的目标。尤其是在信息浩如烟海的今天,随着时代的发展,一方面数据不断膨胀,越来越多,已经可称为海量;另一方面,用户的需求越来越精细化,多样化,基于关键词的搜索引擎越来越不能满足用户的需求。智能问答可以通过最先进的自然语言处理技术理解用户的需求,并基于用户需求利用深度学习等技术对互联网数据进行深加工,从而准确、快速的为用户提供所需要的精准的答案。智能对话是搜索引擎的未来形态。
传统的问答系统基于比较单一的数据源或者模型。单一的数据源或者单一的引擎往往在某一类问题上比较强势。例如基于知识图谱的问题大系统在SPO问题上效果比较好;基于问答对的问答系统对于客服类问题比较好。
但是在开放域上有着各种各样的问题,一个引擎基于单一的数据源或者模型很难解决这些问题。
发明内容
本发明实施例提供一种问答处理方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种问答处理方法,包括:
采用多个不同的问答服务引擎获取查询问题对应的多种候选答案以及每种候选答案的置信度;
根据所述多种候选答案及其置信度进行中控决策;
根据中控决策的结果,确定所述查询问题对应的最终答案。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,采用多个不同的问答服务引擎获取查询问题对应的多种候选答案,包括采用以下方式中的至少两种:
采用信息检索问答IR-QA引擎搜索查询问题对应的候选答案;
采用知识图谱问答KG-QA引擎搜索查询问题对应的候选答案;
采用基于问答对的问答系统引擎搜索查询问题对应的候选答案。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,采用IR-QA引擎搜索查询问题对应的候选答案,包括:
采用自然语言技术对查询语句进行问题理解,得到各查询问题;
采用信息检索方法从全局语料中检索出与所述查询问题的答案相关的各候选片段;
对各所述候选片段进行片段选择,得到各答案片段;
采用阅读理解模型在各答案片段中定位,得到选定片段。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,采用自然语言技术对查询语句进行问题理解,得到各查询问题,包括:
对各查询语句进行问题识别,得到各查询语句中包括的查询问题;
对各所述查询问题进行分类,得到各所述查询问题的问题类型;
对各所述查询问题进行答案类型识别,得到各所述查询问题的答案类型。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第四种实现方式中,对各所述候选片段进行片段选择,得到各答案片段,包括:
采用初筛模型对各所述候选片段进行片段初筛,从各候选片段中过滤掉非答案片段;
采用各排序模型对过滤后的候选片段进行片段精排;
从片段精排的结果中,基于各候选片段的排序得分,选出高置信度的所有答案片段。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第五种实现方式中,采用IR-QA引擎搜索查询问题对应的候选答案,还包括:利用选定片段生成符合自然语言的候选答案。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第六种实现方式中,采用IR-QA引擎搜索查询问题对应的候选答案,还包括:
如果查询问题的问题类型属于主观观点类,则将所述查询问题的各答案片段进行观点聚合,得到包括聚合观点的候选答案。
结合第一方面或其任意一种实现方式,本发明实施例在第一方面的第七种实现方式中,根据所述多种候选答案及其置信度进行中控决策,包括:对所述多种候选答案及其置信度,按照对应的权重进行加权计算。
第二方面,本发明实施例提供了一种问答处理装置,包括:
多引擎问答模块,用于采用多个不同的问答服务引擎获取查询问题对应的多种候选答案以及每种候选答案的置信度;
中控决策模块,用于根据所述多种候选答案及其置信度进行中控决策;
答案确定模块,用于根据中控决策的结果,确定所述查询问题对应的最终答案。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,多引擎模块包括以下子模块的至少两个:
IR-QA引擎子模块,用于采用IR-QA引擎搜索查询问题对应的候选答案;
KG-QA引擎子模块,用于采用KG-QA引擎搜索查询问题对应的候选答案;
基于问答对的问答系统引擎子模块,用于采用基于问答对的问答系统引擎搜索查询问题对应的候选答案。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,IR-QA引擎子模块包括:
问题理解子模块,用于采用自然语言技术对查询语句进行问题理解,得到各查询问题;
片段检索子模块,用于采用信息检索方法从全局语料中检索出与所述查询问题的答案相关的各候选片段;
片段选择子模块,用于对各所述候选片段进行片段选择,得到各答案片段;
答案定位子模块,用于采用阅读理解模型在各答案片段中定位,得到选定片段。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,问题理解子模块还包括:
问题识别子模块,用于对各查询语句进行问题识别,得到各查询语句中包括的查询问题;
问题分类子模块,用于对各所述查询问题进行分类,得到各所述查询问题的问题类型;
答案类型识别子模块,用于对各所述查询问题进行答案类型识别,得到各所述查询问题的答案类型。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第四种实现方式中,所述片段选择子模块还用于:
采用初筛模型对各所述候选片段进行片段初筛,从各候选片段中过滤掉非答案片段;
采用各排序模型对过滤后的候选片段进行片段精排;
从片段精排的结果中,基于各候选片段的排序得分,选出高置信度的所有答案片段。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第五种实现方式中,所述IR-QA引擎子模块还包括:
答案生成子模块,用于利用选定片段生成符合自然语言的候选答案。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第六种实现方式中,所述IR-QA引擎子模块还包括:
观点聚合子模块,用于如果查询问题的问题类型属于主观观点类,则将所述查询问题的各答案片段进行观点聚合,得到包括聚合观点的候选答案。
结合第二方面或其任意一种实现方式,本发明实施例在第二方面的第七种实现方式中,所述中控决策模块还用于对所述多种候选答案及其置信度,按照对应的权重进行加权计算。
第三方面,本发明实施例提供了一种问答处理装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,问答处理装置的结构中包括处理器和存储器,所述存储器用于存储支持问答处理装置执行上述问答处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于所述装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储问答处理装置所用的计算机软件指令,其包括用于执行上述问答处理方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:能够结合多个引擎的优点,给出用户更加全面、准确的答案。
上述技术方案中的另一个技术方案具有如下优点或有益效果:能够直接给出问题的答案,减少用户的阅读成本;面向开放域的智能问答系统,可以适配不同的应用场景;通过深度学习技术,能够生成符合自然语言的答案,使得回答的整体效果更好。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的问答处理方法的流程图。
图2示出根据本发明实施例的问答处理方法的流程图。
图3示出根据本发明实施例的问答处理方法的流程图。
图4示出根据本发明实施例的问答处理方法的流程图。
图5示出根据本发明实施例的问答处理装置的结构框图。
图6示出根据本发明实施例的问答处理装置的结构框图。
图7示出根据本发明实施例的问答处理装置的结构框图。
图8示出根据本发明实施例的问答处理系统的应用示例的示意图。
图9示出KG-QA引擎的示意图。
图10示出基于问答对的问答系统引擎的示意图。
图11示出IR-QA引擎的示意图。
图12示出IR-QA引擎的片段精排的示意图。
图13示出IR-QA引擎的答案定位的示意图。
图14示出根据本发明实施例的问答处理装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的问答处理方法的流程图。如图1所示,该问答处理方法可以包括以下步骤:
步骤101、采用多个不同的问答服务引擎获取查询问题对应的多种候选答案以及每种候选答案的置信度;
步骤102、根据所述多种候选答案及其置信度进行中控决策;
步骤103、根据中控决策的结果,确定所述查询问题对应的最终答案。
在本发明实施例中,可以先对查询语句进行问题理解,然后通过中控模块将查询语句中包括的查询问题分发到多个引擎分别进行搜索。最后通过中控模块,对多种搜索引擎的候选答案进行中控决策,对所述多种候选答案及其置信度,按照对应的权重进行加权计算。然后,根据加权计算的结果选择出优质的最终答案。
在一种可能的实现方式中,采用多个不同的问答服务引擎获取查询问题对应的多种候选答案,包括采用以下方式中的至少两种:
采用信息检索问答IR-QA引擎搜索查询问题对应的候选答案;
采用知识图谱问答KG-QA引擎搜索查询问题对应的候选答案;
采用基于问答对的问答系统引擎搜索查询问题对应的候选答案。
其中,基于问答对的问答系统可以有多种,例如,一种简单的示例为键值对问答(KV-QA)系统。
在一种可能的实现方式中,如图2所示,采用IR-QA引擎搜索查询问题对应的候选答案,包括:
步骤201、采用自然语言技术对查询语句进行问题理解,得到各查询问题;
步骤202、采用信息检索方法从全局语料中检索出与所述查询问题的答案相关的各候选片段;
步骤203、对各所述候选片段进行片段选择,得到各答案片段;
步骤204、采用阅读理解模型在各答案片段中定位,得到选定片段。
在一种可能的实现方式中,采用IR-QA引擎搜索查询问题对应的候选答案,还包括:步骤205、利用选定片段生成符合自然语言的候选答案。
在一种可能的实现方式中,采用IR-QA引擎搜索查询问题对应的候选答案,还包括:步骤206、如果查询问题的问题类型属于主观观点类,则将所述查询问题的各答案片段进行观点聚合,得到包括聚合观点的候选答案。
在本实施例中,IR-QA引擎对查询语句进行问题理解、片段检索、片段选择、答案定位、答案生成(可选)和观点聚合(可选)。在片段检索得到各候选片段后,可以基于问题类别建立的多排序(Rank)模型对各候选片段进行重排序,进而进行片段选择。基于阅读理解技术进行答案定位后,在答案生成阶段,对于选定片段可以基于深度学习的答案生成技术,生成符合自然语言的候选答案。此外,对于主观观点类问题,还可以将各答案片段进行观点聚合,得到包括聚合观点的候选答案。
在一种可能的实现方式中,如图3所示,采用自然语言技术对查询语句进行问题理解,得到各查询问题,包括:
步骤301、对各查询语句进行问题识别,得到各查询语句中包括的查询问题;
步骤302、对各所述查询问题进行分类,得到各所述查询问题的问题类型;
步骤303、对各所述查询问题进行答案类型识别,得到各所述查询问题的答案类型。
其中,用户输入的查询语句可能包括是问题的内容,也可以包括不是问题的内容,例如闲聊、指令、服务等各种需求。采用自然语言技术和机器学习分类算法建立问题识别模型,采用问题分类模型可以识别出查询语句是否包括问题。问题类型可以有多种,例如实体、方法、评价、是非、原因等类型。问题分类模型还可以识别出查询问题属于哪一类。此外,对于不同类型的问题,所需要的答案类型还可以再进一步识别,得到更加具体的答案类型。例如,对于实体类问题“某个电影好不好看”,其答案类型属于电影类。
在一种可能的实现方式中,如图4所示,在步骤203中,对各所述候选片段进行片段初筛、片段精排和片段优选,得到各答案片段,具体包括:
步骤401、采用初筛模型对各所述候选片段进行片段初筛,从各候选片段中过滤掉非答案片段。其中,初筛模型可以采用机器学习算法构建,初筛模型的特征可以包括但不限于QT(query-title,查询语句与标题)相关性、简单的QP(query-paragraph,查询语句与段落)相关性和答案类型的简单特征等。非答案片段包括但不限边框信息、低质内容、相关性差的内容等。这样,可以基于一些简单特征,采用机器学习分类技术和高召回策略,将大概率不是答案的片段过滤掉,从而减少后续的计算,提高整体性能。
步骤402、采用各排序模型对过滤后的候选片段进行片段精排。其中,所述排序模型可以是基于机器学习算法建立的,根据问题分类的结果,针对实体类别、描述类别和是非类别的问题分别构建不同的排序模型。模型特征包括类别无关的特征比如QT特征、QP特征、权威性特征、投票特征、对齐特征、列表特征、公共字串特征等等。类别相关特征包括实体特征、数字特征、定义特征、HOW特征、WHY特征、是非特征、语言特征等等(数十个特征)。
步骤403、从片段精排的结果中,基于各候选片段的排序得分,选出高置信度的所有答案片段。例如,设置一个阈值,排序得分高于这个阈值的属于高置信度的答案片段。
然后,在步骤204中,基于阅读理解模型,结合所有选择的答案片段,融入问题分类、LAT等特征,定位出精准答案的位置。
在一种可能的实现方式中,在采用阅读理解算法建立排序模型时,可以综合考虑公共特征(QT相关性、QP相关性和答案权威性等)和类别特征(问题类别和/或答案类型),建立多种排序模型,将正确的片段(para)利用排序的方法找出来。例如:基于答案类型的实体问题QP匹配模型,基于观点分类观点问题QP匹配模型,基于核心词对齐的HOW(如何)类问题QP匹配模型,基于核心词对齐的WHY(为什么)类问题QP匹配模型等。
图5示出根据本发明实施例的问答处理装置的结构框图。如图5所示,该问答处理装置,可以包括:
多引擎模块41,用于采用多个不同的问答服务引擎获取查询问题对应的多种候选答案;
中控决策模块43,用于根据所述多种候选答案及其置信度进行中控决策;
答案确定模块45,用于根据中控决策的结果,确定所述查询问题对应的最终答案。
在一种可能的实现方式中,如图6所示,多引擎模块41包括以下子模块的至少两个:
IR-QA引擎子模块51,用于采用IR-QA引擎搜索查询问题对应的候选答案;
KG-QA引擎子模块53,用于采用KG-QA引擎搜索查询问题对应的候选答案;
基于问答对的问答系统引擎子模块55,用于采用基于问答对的问答系统引擎搜索查询问题对应的候选答案。
在一种可能的实现方式中,所述中控决策模块还用于对所述多种候选答案及其置信度,按照对应的权重进行加权计算。
在一种可能的实现方式中,如图7所示,IR-QA引擎子模块51包括:
问题理解子模块61,用于采用自然语言技术对查询语句进行问题理解,得到各查询问题;
片段检索子模块63,用于采用信息检索方法从全局语料中检索出与所述查询问题的答案相关的各候选片段;
片段选择子模块65,用于对各所述候选片段进行片段选择,得到各答案片段;
答案定位子模块67,用于采用阅读理解模型在各答案片段中定位,得到选定片段。
在一种可能的实现方式中,如图7所示,所述IR-QA引擎子模块51还包括:答案生成子模块68,用于利用选定片段生成符合自然语言的候选答案。
在一种可能的实现方式中,如图7所示,所述IR-QA引擎子模块51还包括:观点聚合子模块69,用于如果查询问题的问题类型属于主观观点类,则将所述查询问题的各答案片段进行观点聚合,得到包括聚合观点的候选答案。
在一种可能的实现方式中,问题理解子模块61还包括:
问题识别子模块,用于对各查询语句进行问题识别,得到各查询语句中包括的查询问题;
问题分类子模块,用于对各所述查询问题进行分类,得到各所述查询问题的问题类型;
答案类型识别子模块,用于对各所述查询问题进行答案类型识别,得到各所述查询问题的答案类型。
在一种可能的实现方式中,所述片段选择子模块65还用于:
采用初筛模型对各所述候选片段进行片段初筛,从各候选片段中过滤掉非答案片段;
采用各排序模型对过滤后的候选片段进行片段精排;
从片段精排的结果中,基于各候选片段的排序得分,选出高置信度的所有答案片段。
在一种可能的实现方式中,该装置还包括:
排序模型建立模块,用于采用自然语言技术建立多个排序模型。例如:基于答案类型的实体问题QP匹配模型,基于观点分类观点问题QP匹配模型,基于核心词对齐的HOW(如何)类问题QP匹配模型,基于核心词对齐的WHY(为什么)类问题QP匹配模型等。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
在一个应用示例中,可以采用本发明实施例的问答处理方法搭建面向开放域的智能问答系统。采用问答系统能够更为准确地理解以自然语言形式描述的用户提问,从异构语料库或问答知识库中查找或推断出简洁、精确的答案。相对于搜索引擎,问答系统能更好地理解用户提问的真实意图,同时更有效地满足用户的信息需求。本发明实施例主要聚焦在开放域通用智能问答,这种技术可以迁移到客服等领域上。
如图8所示,整个智能问答系统是一个多引擎可扩展的通用问答系统,引擎包括但不限于以下类型:
IR-QA(Information Retrieval Question Answering,信息检索问答系统)引擎是基于海量数据的检索式QA系统;利用海量的网页数据和搜索引擎技术,完成搜索引擎的最后一公里的工作。基于搜索引擎返回的结果,精准定位出问题的答案,并给出优质的结果。
KG-QA(Knowledge Graph Question Answering,知识图谱问答系统)引擎是基于知识图谱答案生成的问答系统,参见图9,可以复用公司积累的先进的知识图谱数据及技术。
基于问答对的问答系统引擎,例如KV-QA(Key Value Question Answering键值对问答系统)引擎,参见图10。该引擎基于线下挖掘的问答对,线上基于QQ(问题与问题)匹配技术,满足用户需求。基于问答对的问答系统分为线上和线下部分,线下部分主要基于各种技术进行问答对的挖掘和校验,并存入到问答知识库中,问答知识库可以实时更新。而线上就基于问答知识库,通过QQ匹配的方式满足用户的需求。
这几类引擎,在数据来源、加工方式、匹配方式、覆盖场景方面不尽相同。KG-QA准确高但是覆盖有限,基于非结构化的IR-QA覆盖高但是污染大,基于问答对的问答系统的问答对挖掘和生成还有非常大的挑战。如图8所示,对查询语句进行问题理解后,通过中控模块的中控分发功能,可以将查询问题分发到各个引擎进行搜索。当然,也可以将查询语句直接分发到各问答系统分别进行问题理解,和搜索。最后通过中控模块的中控决策功能,从多种搜索引擎的答案中综合选择更优的答案例如置信度高的答案、权重大且置信度高的答案、置信度与权重乘积较大的答案等。
参见图11,IR-QA系统的主要流程包括:问题理解->片段检索->答案生成。在这个流程中的片段检索阶段,引入用于进行片段选择的重排序(ReRank)模块,该模块可以基于问题类别的多排序(Rank)模型进行排序。在答案生成阶段,引入了基于阅读理解技术的答案定位,以及基于深度学习的答案生成技术。
一、问题理解模块:
其中,问答系统的问题理解模块可以理解用户意图。例如,可以复用大搜索基础NLP(Natural Language Processing,自然语言处理)的能力,基于知识库、上下位词典等,对查询语句进行语义扩展、术语(term)重要性计算、实体识别、改写纠错、口语化处理等。针对问答系统任务开展了问题识别、问题分类、答案类型识别等任务。
1、问题识别任务:问答系统主要是解决用户自然语言表达的知识性问答需求的查询语句(query),但是在不同的应用环境中,用户的输入往往不局限于查询问题。例如会有闲聊、指令、服务等需求query。为了更好的满足用户,可以先执行问题识别任务,后续针对识别出的问题给出答案,非问题的则另行处理或不处理。例如,可以应用自然语言技术和机器学习分类算法建立问题识别模型,采用问题识别模型将用户的query分成问题query和非问题query。
2、问题分类任务:用户的问题多种多样,有问观点的、问事实的等。不同的问题的满足方式、解决策略不尽相同。为了更好的满足用户,执行问题识别任务。问题分类可以基于机器学习分类算法来实现对query的问题的分类,例如:分为实体、方法、评价、是非、原因等问题类型,如果query包括“怎么去除厨房重油污”,可以将该query的问题类型确定为方法类。
3、答案类型识别:简单的答案分类可以是比较粗粒度的。例如:对于实体类问题,用户到底想要什么实体的答案,是电影、人名,还是国家、球队。答案类型识别可以识别出用户要的到底是什么类型的答案,从而指导后面的问题定位和答案生成。
二、片段检索模块
片段检索模块主要利用信息检索技术从全局语料中检索出包含答案的候选片段,然后传递给片段选择模块。对于不同的信息语料、业务场景,可以采用的检索方法也有多种形式。例如,利用百度拥有海量的网页库,以及先进的检索技术的优势,直接借助搜索引擎获取query的相关文档,然后基于文档生成候选片段。
三、片段选择模块
片段选择模块主要是从片段检索模块得到的大量片段中,找到可以回答问题的片段。由于一个问题检索出的片段成千上万,如果想准确找到正确的片段需要复杂的算法,以及大量的算力。为了更高效的选出优质片段,在片段选择模块,采用多层筛选的策略,分为片段初筛、片段精排和片段优选等多个模块。
1、片段初筛。该模块基于一些简单特征,采用机器学习分类技术、高召回策略,将大概率不是答案的片段过滤掉。例如,将边框信息、低质内容、相关性差的内容等过滤掉。在进行片段初筛时,还可以综合考虑之前识别出的问题类型和/或答案类型等特征,将低质片段过滤掉。
2、片段精排。参见图12,该模块主要采用多文档阅读理解技术和机器学习算法,尽可能的把正确的片段(para)利用排序的方法找出来。由于不同类型的问题,其答案差别比较大,所以如果采用统一的排序(rank)模型,在特征设计设计上可能会顾此失彼,难以面面俱到的照顾每个类型的问题。因此,结合问题分类模型输出的问题类型等,针对不同类型的问题分别建立排序模型,达到了非常好的效果。
在排序模型的特征设计上,可以包括公共特征,如QT相关性、QP相关性、答案权威性等;还可以包括类别特征例如;问题类别和答案类别。
排序模型的种类可以有多种,例如:基于答案类型的实体问题QP匹配模型,基于观点分类观点问题QP匹配模型,基于核心词对齐的HOW类问题QP匹配模型,基于核心词对齐的WHY类问题QP匹配模型等。
采用各种排序模型可以计算出每个片段的置信度,然后按照置信度从高到低的顺序排列。
3、片段优选。
基于片段精排的结果,选择正确的结果,在这一步主要是收集片段精排的结果,并基于多结果投票等,选出置信度高的结果片段作为最终的候选优质结果,基于片段优选获取的片段的正确率>90%.
四、答案定位。
在片段选择之后,对于每个问题,可以获取若干的高质量片段。与传统的方法相比,本方案获取的是若干片段,而不是一个片段。答案选择就是在这若干片段中间,找到最优的答案以及其位置。如图13所示,采用例如V-NET阅读理解算法,从多个结果中,选择出最优质的答案。将问题通过例如RNN(Recurrent Neural Network,循环神经网络)编码后进行多文档校验,校验不同文档间的答案语义,找出最受证据“支持”的答案。例如,问题包括“热点效应是什么”,从各种答案片段中可以选择出最优质的答案“所谓热点效应是当受热物体中的电子,因随高温梯度由高温区向低温区移动时,所产生的一种电流或电荷堆积的一种现象”。
五、答案生成。
基于答案定位的输出,生成用户问题的答案,主要包括:自然语言答案生成。答案定位能找到问题的答案的位置以及答案内容,但是定位到的答案内容有时候不能很好的作为答案直接给用户。例如,采用基于复制(copy)机制的答案生成技术,来生成问题的答案。
例如:query=“刘某某的老婆是谁”,答案片段=“2008年初,刘某某和A在一个盛会上联名做善事,而这个盛会规定只有亲人才可以联名,因此A也被坊间视为“刘太太”。同年,刘某某与A注册结婚”。在语音场景下,如果直接把答案片段作为答案播报出来,即冗长,且有点答非所问,不够智能。而如果只是把具体定位的答案“A”播报出来,相比较整个片段会好一些,但是不够自然。一种理想的方式是能够以自然语言的形式播报出来。例如“刘某某的老婆是A”。
六、观点聚合。
针对主观观点类的问题,如果是助手类机器人,可以直接给出有一定主观偏向性的内容。例如query=“某品牌手机好不好用”,answer=“我感觉不好用”。但是在实际的问答场景下,用户希望得到的是大家的观点,可以将观点进行聚合,来得到聚合的观点。例如大家对某些食物持有的观点有哪些,分布是什么等,这样可以更好的辅助用户决策。示例如下:
query=“某品牌手机好不好用”。
answer=“60%的人认为好用,具体优点如下:(1)触摸屏操作极为流畅,我也曾使用过当时的某品牌某款手机,那个触摸的感觉是天差地别;(2)网页浏览非常轻松;(3)某品牌的娱乐功能也是相当的强大,而这种强大的娱乐功能让某品牌超越了其他手机很大的距离。40%的人认为不好用,主要缺点如下:(1)默认系统缺少很多其他手机的基本功能,例如彩信,例如复制粘贴,例如录音机;(2)默认系统的中文输入法不好用,手写有手写的问题,拼音有拼音问题;(3)系统被某品牌限制的太死,所以想实现一些功能必须得大量依赖越狱之后的第三方应用,暂时还没有完美的解决办法。”
优点如下:
结合多个引擎的优点,给出用户更加全面、准确的答案。
能够直接给出问题的答案,减少用户的阅读成本,一目了然;
面向开放域的智能问答系统,可以适配不同的应用场景;
引入了深度学习技术,让整体效果更上一个台阶。
图14示出根据本发明实施例的问答处理装置的结构框图。如图14所示,该问答处理装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的问答处理方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种问答处理方法,其特征在于,包括:
采用多个不同的问答服务引擎获取查询问题对应的多种候选答案以及每种候选答案的置信度;
根据所述多种候选答案及其置信度进行中控决策;
根据中控决策的结果,确定所述查询问题对应的最终答案;
其中,采用多个不同的问答服务引擎获取查询问题对应的多种候选答案,包括:采用信息检索问答系统IR-QA引擎搜索查询问题对应的候选答案,具体包括:采用自然语言技术对查询语句进行问题理解,得到各查询问题;采用信息检索方法从全局语料中检索出与所述查询问题的答案相关的各候选片段;对各所述候选片段进行片段选择,得到各答案片段;采用阅读理解模型在各答案片段中定位,得到选定片段;
对各所述候选片段进行片段选择,得到各答案片段,包括:采用初筛模型对各所述候选片段进行片段初筛,从各候选片段中过滤掉非答案片段;采用多种排序模型对过滤后的候选片段进行片段精排;从片段精排的结果中,基于各候选片段的排序得分,选出高置信度的所有答案片段;其中,多种排序模型是采用阅读理解算法且基于公共特征和类别特征建立的。
2.根据权利要求1所述的方法,其特征在于,采用多个不同的问答服务引擎获取查询问题对应的多种候选答案,还包括以下方式中的至少之一:
采用知识图谱问答系统KG-QA引擎搜索查询问题对应的候选答案;
采用基于问答对的问答系统引擎搜索查询问题对应的候选答案。
3.根据权利要求1所述的方法,其特征在于,采用自然语言技术对查询语句进行问题理解,得到各查询问题,包括:
对各查询语句进行问题识别,得到各查询语句中包括的查询问题;
对各所述查询问题进行分类,得到各所述查询问题的问题类型;
对各所述查询问题进行答案类型识别,得到各所述查询问题的答案类型。
4.根据权利要求1至3中任一项所述的方法,其特征在于,采用IR-QA引擎搜索查询问题对应的候选答案,还包括:
利用选定片段生成符合自然语言的候选答案。
5.根据权利要求1至3中任一项所述的方法,其特征在于,采用IR-QA引擎搜索查询问题对应的候选答案,还包括:
如果查询问题的问题类型属于主观观点类,则将所述查询问题的各答案片段进行观点聚合,得到包括聚合观点的候选答案。
6.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述多种候选答案及其置信度进行中控决策,包括:
对所述多种候选答案及其置信度,按照对应的权重进行加权计算。
7.一种问答处理装置,其特征在于,包括:
多引擎模块,用于采用多个不同的问答服务引擎获取查询问题对应的多种候选答案以及每种候选答案的置信度;
中控决策模块,用于根据所述多种候选答案及其置信度进行中控决策;
答案确定模块,用于根据中控决策的结果,确定所述查询问题对应的最终答案;
其中,所述多引擎模块包括IR-QA引擎子模块,用于采用IR-QA引擎搜索查询问题对应的候选答案;
所述IR-QA引擎子模块包括:
问题理解子模块,用于采用自然语言技术对查询语句进行问题理解,得到各查询问题;
片段检索子模块,用于采用信息检索方法从全局语料中检索出与所述查询问题的答案相关的各候选片段;
片段选择子模块,用于对各所述候选片段进行片段选择,得到各答案片段;
答案定位子模块,用于采用阅读理解模型在各答案片段中定位,得到选定片段;
所述片段选择子模块还用于:采用初筛模型对各所述候选片段进行片段初筛,从各候选片段中过滤掉非答案片段;采用多种排序模型对过滤后的候选片段进行片段精排;从片段精排的结果中,基于各候选片段的排序得分,选出高置信度的所有答案片段;其中,多种排序模型是采用阅读理解算法且基于公共特征和类别特征建立的。
8.根据权利要求7所述的装置,其特征在于,所述多引擎模块还包括以下子模块的至少之一:
KG-QA引擎子模块,用于采用KG-QA引擎搜索查询问题对应的候选答案;
基于问答对的问答系统引擎子模块,用于采用基于问答对的问答系统引擎搜索查询问题对应的候选答案。
9.根据权利要求7所述的装置,其特征在于,问题理解子模块还包括:
问题识别子模块,用于对各查询语句进行问题识别,得到各查询语句中包括的查询问题;
问题分类子模块,用于对各所述查询问题进行分类,得到各所述查询问题的问题类型;
答案类型识别子模块,用于对各所述查询问题进行答案类型识别,得到各所述查询问题的答案类型。
10.根据权利要求7至9中任一项所述的装置,其特征在于,所述IR-QA引擎子模块还包括:
答案生成子模块,用于利用选定片段生成符合自然语言的候选答案。
11.根据权利要求7至9中任一项所述的装置,其特征在于,所述IR-QA引擎子模块还包括:
观点聚合子模块,用于如果查询问题的问题类型属于主观观点类,则将所述查询问题的各答案片段进行观点聚合,得到包括聚合观点的候选答案。
12.根据权利要求7至9中任一项所述的装置,其特征在于,所述中控决策模块还用于对所述多种候选答案及其置信度,按照对应的权重进行加权计算。
13.一种问答处理装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201810716146.4A 2018-06-29 2018-06-29 问答处理方法和装置 Active CN109033229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810716146.4A CN109033229B (zh) 2018-06-29 2018-06-29 问答处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810716146.4A CN109033229B (zh) 2018-06-29 2018-06-29 问答处理方法和装置

Publications (2)

Publication Number Publication Date
CN109033229A CN109033229A (zh) 2018-12-18
CN109033229B true CN109033229B (zh) 2021-06-11

Family

ID=65521364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810716146.4A Active CN109033229B (zh) 2018-06-29 2018-06-29 问答处理方法和装置

Country Status (1)

Country Link
CN (1) CN109033229B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472113B (zh) * 2019-02-26 2022-08-26 杭州蓦然认知科技有限公司 一种智能交互引擎优化方法、装置、设备
CN109885661A (zh) * 2019-02-27 2019-06-14 上海优谦智能科技有限公司 教育场景下的问答系统
CN110096699B (zh) * 2019-03-20 2023-06-09 华南师范大学 基于语义的机器阅读理解的候选答案筛选方法和系统
CN111949798B (zh) * 2019-05-15 2024-02-02 北京百度网讯科技有限公司 图谱的构建方法、装置、计算机设备和存储介质
CN110209786A (zh) * 2019-05-28 2019-09-06 北京百度网讯科技有限公司 是非类答案的显示方法、装置、计算机设备和存储介质
US11521078B2 (en) * 2019-07-10 2022-12-06 International Business Machines Corporation Leveraging entity relations to discover answers using a knowledge graph
CN112328800A (zh) * 2019-08-05 2021-02-05 上海交通大学 自动生成编程规范问题答案的系统及方法
CN110532348B (zh) * 2019-09-04 2022-03-22 网易(杭州)网络有限公司 问答对数据的生成方法、装置及电子设备
CN110704585A (zh) * 2019-09-29 2020-01-17 出门问问信息科技有限公司 一种问答方法、装置及计算机可读介质
CN110750633B (zh) * 2019-10-22 2022-03-29 思必驰科技股份有限公司 用于确定问题的答案的方法及装置
CN111027327B (zh) * 2019-10-29 2022-09-06 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN110837549B (zh) * 2019-11-06 2023-08-11 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN111177359A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 多轮对话方法和装置
CN111681765B (zh) * 2020-04-29 2023-08-11 华南师范大学 一种医学问答系统的多模型融合方法
CN111538825B (zh) 2020-07-03 2020-10-16 支付宝(杭州)信息技术有限公司 知识问答方法、装置、系统、设备及存储介质
CN112507089A (zh) * 2020-11-25 2021-03-16 厦门渊亭信息科技有限公司 一种基于知识图谱的智能问答引擎及其实现方法
CN112860865A (zh) * 2021-02-10 2021-05-28 达而观信息科技(上海)有限公司 一种智能问答的实现方法、装置、设备及存储介质
CN113886556B (zh) * 2021-12-07 2022-02-25 北京云迹科技有限公司 一种问题回答方法、装置和电子设备
CN114936276A (zh) * 2022-06-07 2022-08-23 来也科技(北京)有限公司 答案生成方法、装置、电子设备及存储介质
CN115238101B (zh) * 2022-09-23 2023-01-03 中国电子科技集团公司第十研究所 一种面向多类型知识库的多引擎智能问答系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592540B2 (en) * 2015-07-07 2020-03-17 Google Llc Generating elements of answer-seeking queries and elements of answers
CN107633060B (zh) * 2017-09-20 2020-05-26 联想(北京)有限公司 一种信息处理方法及电子设备
CN107944560B (zh) * 2017-12-08 2018-12-25 神思电子技术股份有限公司 一种自然语言语义推理方法
CN108153876B (zh) * 2017-12-26 2021-07-23 爱因互动科技发展(北京)有限公司 智能问答方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备

Also Published As

Publication number Publication date
CN109033229A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033229B (zh) 问答处理方法和装置
Singhal et al. Use of deep learning in modern recommendation system: A summary of recent works
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US9449271B2 (en) Classifying resources using a deep network
CN105005564B (zh) 一种基于问答平台的数据处理方法和装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN109446407A (zh) 关联推荐方法、装置、计算机设备和存储介质
CN109804364A (zh) 知识图谱构建系统及方法
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
JP2014501422A (ja) ユーザ意図の有無に基づく検索キーワードの推薦
CN104836720A (zh) 交互式通信中进行信息推荐的方法及装置
Cheng et al. On effective personalized music retrieval by exploring online user behaviors
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN112035688B (zh) 资源搜索方法及装置、搜索设备及存储介质
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
Vicente-López et al. An automatic methodology to evaluate personalized information retrieval systems
CN111625680A (zh) 确定搜索结果的方法及装置
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
Khushhal et al. Question retrieval using combined queries in community question answering
US20130091131A1 (en) Meta-model distributed query classification
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN115062135A (zh) 一种专利筛选方法与电子设备
CN111353052B (zh) 一种多媒体对象推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant