CN112749265A

CN112749265A - 一种基于多信息源的智能问答系统

Info

Publication number: CN112749265A
Application number: CN202110025105.2A
Authority: CN
Inventors: 张宇; 尹治博; 施琦; 齐乐
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-04
Anticipated expiration: 2041-01-08
Also published as: CN112749265B

Abstract

本发明提出了一种基于多信息源的智能问答系统，所述系统具体包括基于知识库的问答模块KBQA、基于文档集的问答模块DBQA、基于常问问题集的问答模块QuesSimQA、第三方API模块和多元答案验证模块；对于用户的问题，所述KBQA模块、DBQA模块、QuesSimQA模块和第三方API模块分别给出一个答案，再通过多源答案验证模块对各个模块提供的答案进行验证打分排序，将得分最高的答案提交给用户；解决了知识库和常问问题集大小有限的问题，还解决了基于文档集的问答系统不易于支持复杂推理和网页文本质量较差的问题。

Description

一种基于多信息源的智能问答系统

技术领域

本发明涉及信息获取领域，具体地，涉及一种基于多信息源的智能问答系统。

背景技术

问答系统作为一项提高互联网用户获取信息效率的技术，越来越受到学术界及工业界的关注。问答系统的应用场景非常广泛，例如在检索系统中，Google浏览器针对检索系统返回的Top-1结果进行优化，通过问答系统直接将页面中的答案返回给用户，无需用户再点击进入页面查找。另外，在聊天机器人中应用也较为广泛，比如阿里小蜜、微软小冰、微软Cortana等等。在聊天机器人中主要用于解决协助商家解决用户提出的常见问题，节省了人工客服的开支，或是简单的和用户闲聊，为用户解答一些常识性问题。

目前，大多的问答系统，根据答案来源类型可分为基于知识库的问答系统、基于常问问题集的问答系统和基于文档库的问答系统。知识库是结构化的语义知识库，用于以符号形式描述物理世界中的概念及相互关系，其基本组成单位是三元组(SPO：Subject，Predicate, Object分别为主语，属性，宾语)，三元组的基本形式包括实体1-关系-实体2和概念-属性-概念值，基于知识库的问答系统，如(毛麾.基于知识库的问答系统[J].现代计算机(专业版),2019(08):92-95.)，对用户的问题进行语义理解和解析，进而利用知识库进行查询，推理得出答案，该类型的问答系统侧重精准的问题理解和答案查询，对于事实类型的问题而言，准确率较高，但通常给出较短的答案，不能很好的回答解释等类型的问题。常问问题集是包含许多问答对的集合，利用问答对的形式来组织知识，已是自然语言格式，质量较高，基于常问问题集的问答系统，如(高旭杨.基于语句相似度计算的FAQ问答系统设计[D].浙江大学,2018.)，首先在问答对中查找与用户问题相似的候选问题集，接着利用相似度计算技术，在候选问题集中找到最相似的问句，将该问句的答案返回给用户，但是问答对数量有限，可能不包含用户的问题。文档集包括大量的文本和互联网网页，基于文档集的问答系统，如(邓志捷.基于阅读理解技术的问答系统设计与实现[D].北京邮电大学,2019.)，根据用户的问题，在已有的文档库中搜索相关的文档，然后利用机器阅读理解技术从检索出的相关文档中抽取出答案返回给用户，但存在精度不高，网页内容质量较差等问题。

大多数的问答系统的答案来源单一，仅使用知识库或常问问题集或文档集作为答案来源。存在如下问题：

1.以知识库作为答案源的问答系统提供的答案往往较短，对于解释或原因等类型的问题，回答较差，并且结构化的知识库总是有限的。

2.以常问问题集作为答案源的问答系统中的问答对数量也有限，问答对可能不包含用户提问的相关问题，从而无法返回正确答案。

3.以文档集作为答案源的问答系统文利用文本寻找答案，存在着精度问题并且不容易支持复杂查询和推理。

发明内容

本发明为了解决上述问题，以多种信息源，即知识库、常问问题集、文档集以及第三方API作为答案来源，提出了一种基于多信息源的智能问答系统。

本发明是通过以下方案实现的：

一种基于多信息源的智能问答系统：所述系统具体包括基于知识库的问答模块KBQA、基于文档集的问答模块DBQA、基于常问问题集的问答模块QuesSimQA、第三方API模块和多元答案验证模块；对于用户的问题，所述KBQA模块、DBQA模块、QuesSimQA模块和第三方API模块分别给出一个答案，再通过多源答案验证模块对各个模块提供的答案进行验证打分排序，将得分最高的答案提交给用户。

进一步地，在所述基于知识库的问答模块KBQA中，进行实体链接和关系识别；

所述实体链接的目的是识别问题中的主体实体并将其链接到知识库定义的某个实体上；所述关系识别的目标是识别问题中的关系或关系链，将其匹配到知识库定义的关系上；

所述关系识别提出了一种基于双向树结构的模型，所述模型分为关系表示模块、双向树结构问题表示模块、匹配模块和输出模块；所述关系表示模块对将关系转化为向量表示，所述双向树问题表示模块利用句法信息获得问题中每个词的表示，所述匹配模块结合问题和关系的信息将序列信息与句法信息融合，所述输出模块输出问题-关系对的语义相似度。

进一步地，在所述基于文档集的问答模块DBQA中，从多篇相关文档中找到问题的答案，进行检索相关文档和答案抽取；

所述检索相关文档，根据用户的问题，在已有的文档库搜索与问句相关的文档；所述答案抽取，从返回的大量网页和文档中抽取出用户需要的内容；

所述检索相关文档提出了基于多文档的抽取式阅读理解模型，所述模型分为词嵌入层、上下文编码层、篇章与问句交互层、建模层和指针网络输出层；

所述词嵌入层将文本单词转化为向量化表示，所述上下文编码层基于词嵌入层编码的语言信息在句子级别上挖掘上下文信息，所述篇章与问题交互层通过注意力机制将问题和篇章进行对齐、显出篇章中与问题最相关的部分，所述建模层学习交互之后的基于上下文的序列表示，所述指针网络输出层根据篇章词的概率分布分别预测答案的开始位置和结束位置。

进一步地，在基于常问问题集的问答模块QuesSimQA中，首先利用检索系统从常问问题集总抽取若干候选答案，构成候选问题集合，然后利用相似度计算技术计算用户提问和候选问题集合中的问题间的相似度，对候选问题集合重新排序，最后据排序结果找出和用户提问最相似的问题，并将其答案作为候选答案返回给用户。

进一步地，在基于常问问题集的问答模块QuesSimQA中提出了基于全信息传递的深层循环神经网络D-FITN模型，在所述模型中，提出了基于记忆机制的注意力机制，能够随着层数的加深更新交互信息，从而将交互信息从浅层传递到深层；在所述模型中结合残差链接和稠密链接，提出了一种原始-平均混合链接机制，能够固定每一层输入的维度，完整的保存原始信息以及历史上所有的隐层信息，传递句子的语义信息；

所述模型分为嵌入层、深度交互层和预测层，所述编码层将文本转化为向量表示，所述深度交互层中抽取融合了文本的上下文和文本间交互信息的文本表示，所述预测层对文本间的关系进行预测。

进一步地，所述第三方API模块的问答为使用百度地图API来回答用户询问交通相关的问题，使用天气API来回答用户询问天气相关的问题。

进一步地，所述多源答案验证模块使用基于文本包含的多源答案验证方法，即识别两个句子之间的语义包含关系，当句子P可以够推理出Q,那么P蕴含Q；判断问题和文档、问题与答案间的包含关系，排除不相关的问答系统答案；

所述多源答案验证模块以Bert模型为基础的文本蕴含识别模型，作为计算两个句子之间蕴含性大小的模型，模型的输入为两个句子，并通过特殊标记符号予以分割，得到的输出即为一串向量序列，取其中的第一个标记，作为最终的输出。

本发明有益效果：

(1)本发明中的基于多信息源的智能问答系统利用多种信息作为答案来源，包括知识库、常问问题集和文档集，文档集中包含大量的网页内容，可以解决知识库和常问问题集大小有限的问题；知识库支持复杂推理，常问问题集中包含专家标注的高质量答案，可以解决基于文档集的问答系统不易于支持复杂推理和网页文本质量较差的问题。

(2)本发明中的基于多信息源的智能问答系统中，基于知识库的问答模块、基于常问问题集中的问答模块和基于文档集的问答模块可认为是三种单信息源的问答系统；收集100条数据对各个模块和整个系统进行测试，本发明中的基于多信息源的智能问答系统，优于各个单信息源问答模块的效果，提升了问答系统的效果；

所述多源答案验证模块以Bert模型为基础的文本蕴含识别模型，作为计算两个句子之间蕴含性大小的模型，模型的输入为两个句子，并通过特殊标记符号予以分割，得到的输出即为一串向量序列。取其中的第一个标记，作为最终的输出。

附图说明

图1为本发明的系统图；

图2为本发明的一种基于双向树结构的关系识别模型；

图3为本发明的一种基于多文档的抽取式阅读理解模型；

图4为本发明的QuesSimQA模块的问答流程图；

图5为本发明的一种基于全信息传递的深层循环神经网络(D-FITN)；

图6为本发明的多源答案验证模块的流程图；

图7为本发明的文本蕴含识别模型。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是通过以下方案实现的：

一种基于多信息源的智能问答系统：所述系统具体包括基于知识库的问答模块KBQA、基于文档集的问答模块DBQA、基于常问问题集的问答模块QuesSimQA、第三方API模块(如地图API和天气API等)和多元答案验证模块；对于用户的问题，所述KBQA模块、DBQA 模块、QuesSimQA模块和第三方API模块分别给出一个答案，再通过多源答案验证模块对各个模块提供的答案进行验证打分排序，将得分最高的答案提交给用户。

在所述基于知识库的问答模块KBQA中，进行实体链接和关系识别；

为了解决现有的方法没有考虑句法信息的问题，提出了一种基于双向树结构的关系识别模型，如图2，所述模型分为关系表示模块、双向树结构问题表示模块、匹配模块和输出模块；所述关系表示模块对将关系转化为向量表示，所述双向树问题表示模块利用句法信息获得问题中每个词的表示，所述匹配模块结合问题和关系的信息将序列信息与句法信息融合，所述输出模块输出问题-关系对的语义相似度。

使用NLPCC2016KBQA数据集对模型进行训练测试，在NLPCC2016KBQA的测试集上达到了79.2％的准确率。

在所述基于文档集的问答模块DBQA中，从多篇相关文档中找到问题的答案，进行检索相关文档和答案抽取；

检索系统返回的可能是大量的网页和文档，而用户只需要一些简单的包括这些问题的一段话、一个句子或者几个词语；所述检索相关文档提出了基于多文档的抽取式阅读理解模型，如图3，所述模型分为词嵌入层、上下文编码层、篇章与问句交互层、建模层和指针网络输出层；

使用DuReader数据集作为训练测试模型，在DuReader的测试集上的ROUGE-L评价指标(模型抽取的答案文本与真实标注答案的最长公共子序列LCS上的召回率和准确率比值)为51.14。

在所述基于常问问题集的问答模块QuesSimQA中，首先利用检索系统从常问问题集总抽取若干候选答案，构成候选问题集合，然后利用相似度计算技术计算用户提问和候选问题集合中的问题间的相似度，对候选问题集合重新排序，最后据排序结果找出和用户提问最相似的问题，并将其答案作为候选答案返回给用户。

提出了基于全信息传递的深层循环神经网络D-FITN模型，如图5，在所述模型中，提出了基于记忆机制的注意力机制，能够随着层数的加深更新交互信息，从而将交互信息从浅层传递到深层；在所述模型中结合残差链接和稠密链接，提出了一种原始-平均混合链接机制，能够固定每一层输入的维度，完整的保存原始信息以及历史上所有的隐层信息，传递句子的语义信息；

在中文的开放域相似度计算语料LCQMC上进行了实验，LCQMC来源于百度知道，包含约24万对问句作为训练集，8800对作为开发集以及12500对作为测试集。该语料包含的语言现象丰富，可以作为验证我们模型有效性的实验语料，也可作为冬奥相关数据集的预训练语料。实验的评价指标是准确率和F1值，我们将我们的模型和已有模型进行对比，实验结果如表1。

表1

所述第三方API模块的问答为使用百度地图API来回答用户询问交通相关的问题，使用天气API来回答用户询问天气相关的问题。

所述多源答案验证模块使用基于文本包含的多源答案验证方法，即识别两个句子之间的语义包含关系，当句子P可以够推理出Q,那么P蕴含Q；判断问题和文档、问题与答案间的包含关系，排除不相关的问答系统答案。

所述多源答案验证模块以Bert模型为基础的文本蕴含识别模型，如图7，作为计算两个句子之间蕴含性大小的模型，模型的输入为两个句子，并通过特殊标记符号予以分割，得到的输出即为一串向量序列，取其中的第一个标记，作为最终的输出。

使用CQNLI数据集训练并测试模型，在CQNLI的测试集上的准确率为82％，平均每条的响应时间为0.09s。

以一个完整的QA系统为例，用户的问题是“从景点A出发，怎么去景点B？”

这个问题会送到基于知识库的问答模块(KBQA)，基于文档集的问答模块(DBQA)，基于常问问题集的问答模块(FAQ)和其他一些第三方API。每个模块都会给出一个答案。

DBQA模块给出的答案是：“做公交车，全程1.6公里”。

KBQA模块给出的答案是：“公交车10路”。

FAQ模块给出的答案是：“步行即可”。

第三方API，如地图类的API给出答案是“从景点A不行410米，到达景点A东站，乘坐10路，经过1站到达景点B站，步行340米到达景点B”。

各个QA模块对问题的回答如表2所示：

表2各个QA模块对问题的回答

将各个模块的答案输入到多源答案验证模型，对每个答案进行打分；

结果如下表3所示：

表3多源答案校验模型对答案打分

本发明所述系统返回得分最高的答案，即地图类API给出的答案‘从景点A不行410米，到达景点A东站，乘坐10路，经过1站到达景点B站，步行340米到达景点B’。

本发明中，不仅仅可以使用多源答案验证模块对各模块的输出答案进行打分排序选择最优答案，也可以对用户问题进行问题类型分类，不同的问答模块处理不同的类型问题，如识别用户的问题类型为询问天气，则直接将天气API给出的答案作为问答系统的输出答案。

以上对本发明所提出的一种基于多信息源的智能问答系统，进行了详细介绍，本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多信息源的智能问答系统，其特征在于：所述系统具体包括基于知识库的问答模块KBQA、基于文档集的问答模块DBQA、基于常问问题集的问答模块QuesSimQA、第三方API模块和多元答案验证模块；对于用户的问题，所述KBQA模块、DBQA模块、QuesSimQA模块和第三方API模块分别给出一个答案，再通过多源答案验证模块对各个模块提供的答案进行验证打分排序，将得分最高的答案提交给用户。

2.根据权利要求1所述系统，其特征在于，在所述基于知识库的问答模块KBQA中，进行实体链接和关系识别；

3.根据权利要求1所述系统，其特征在于，在所述基于文档集的问答模块DBQA中，从多篇相关文档中找到问题的答案，进行检索相关文档和答案抽取；

4.根据权利要求1所述系统，其特征在于，在所述基于常问问题集的问答模块QuesSimQA中，首先利用检索系统从常问问题集总抽取若干候选答案，构成候选问题集合，然后利用相似度计算技术计算用户提问和候选问题集合中的问题间的相似度，对候选问题集合重新排序，最后据排序结果找出和用户提问最相似的问题，并将其答案作为候选答案返回给用户。

5.根据权利要求4所述的系统，其特征在于：在基于常问问题集的问答模块QuesSimQA中，提出了基于全信息传递的深层循环神经网络D-FITN模型，在所述模型中，提出了基于记忆机制的注意力机制，能够随着层数的加深更新交互信息，从而将交互信息从浅层传递到深层；在所述模型中结合残差链接和稠密链接，提出了一种原始-平均混合链接机制，能够固定每一层输入的维度，完整的保存原始信息以及历史上所有的隐层信息，传递句子的语义信息；

6.根据权利要求1所述系统，其特征在于，所述第三方API模块的问答为使用百度地图API来回答用户询问交通相关的问题，使用天气API来回答用户询问天气相关的问题。

7.根据权利要求1所述系统，其特征在于，所述多源答案验证模块使用基于文本包含的多源答案验证方法，即识别两个句子之间的语义包含关系，当句子P可以够推理出Q,那么P蕴含Q；判断问题和文档、问题与答案间的包含关系，排除不相关的问答系统答案；