CN113076431A

CN113076431A - 机器阅读理解的问答方法、装置、计算机设备及存储介质

Info

Publication number: CN113076431A
Application number: CN202110465589.2A
Authority: CN
Inventors: 程华东; 舒畅; 陈又新; 李剑锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-06
Anticipated expiration: 2041-04-28
Also published as: WO2022227165A1; CN113076431B

Abstract

本发明公开了一种机器阅读理解的问答方法、装置、计算机设备及存储介质，所述方法包括获取用户提问的问句，对问句分类后分别进行预处理；获取经预处理的问句中的实体类型、意图类型及关键词表；根据实体类型和关键词表检索文档库得到答案文档集；将所述答案文档集中的文档进行切段和冗余过滤得到答案段落集；通过计算问句与答案段落集中每个段落的相关度分数得到优选段落集；根据优选段落集中的每个段落和问句以及问句的意图类型得到问句答案集；对所述问句答案集中的问句答案进行排序得到最优答案。本发明的技术方案实现了跨文档、跨段落阅读理解获取答案，机器阅读理解模型构建简单，表达能力强，成本低，同时提高了获取问句答案的准确率。

Description

机器阅读理解的问答方法、装置、计算机设备及存储介质

技术领域

本发明涉及人机问答技术领域，尤其涉及一种机器阅读理解的问答方法、装置、计算机设备及存储介质。

背景技术

机器阅读理解是一种利用算法使计算机理解文章语义并回答相关问题的技术。机器阅读理解的输入为文章和问题文本，输出为问题答案，当前，绝大多数机器阅读理解的问答系统基于深度学习的卷积神经网络和循环神经网络来实现，深度学习的特点是模型能根据训练集上预测的准确度直接优化参数，不断提高模型性能，一般用于解决事实类问题和定义类问题的回答，对于复杂问题的回答，通常需要构建知识图谱来解决。

现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统，具体实现时需要添加各种注意力机制，由此导致了模型的构建复杂，表达能力差的问题。另一方面，现有的机器阅读理解问答系统对于复杂的问题的回答，通常采用构建知识图谱的处理方式，然而构建知识图谱的实现复杂，成本极高。

发明内容

基于此，有必要针对上述技术问题，提供一种机器阅读理解的问答方法、装置、计算机设备及存储介质，以解决现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统，模型构建复杂，表达能力差的问题以及对于复杂问题处理需要构建知识图谱所导致的实现复杂，构建成本高的问题。

第一方面，本发明实施例提供一种机器阅读理解的问答方法，包括：

获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理。

获取经过预处理的所述问句中的实体类型、意图类型及关键词表。

根据所述实体类型和所述关键词表检索文档库，得到答案文档集。

将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集。

使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集。

将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT 的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集。

根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。

第二方面，本发明实施例提供一种机器阅读理解的问答装置，包括：

问句预处理模块，用于获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理。

问句特征提取模块，用于获取经过预处理的所述问句中的实体类型、意图类型及关键词表。

文档检索模块，用于根据所述实体类型和所述关键词表检索文档库，得到答案文档集。

文档切段处理模块，用于将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集。

段落相关度计算模块，用于使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集。

问句答案提取模块，用于将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集。

问句答案排序模块，用于根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述机器阅读理解的问答方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述机器阅读理解的问答方法的步骤。

本发明提供的机器阅读理解的问答方法、装置、计算机设备及存储介质通过获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理；获取经过预处理的所述问句中的实体类型、意图类型及关键词表；根据所述实体类型和所述关键词表检索文档库，得到答案文档集；将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集；使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集；将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集；根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种；解决了现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统，模型构建复杂，表达能力差的问题以及对于复杂问题处理需要构建知识图谱所导致的实现复杂，构建成本高的问题；本发明的技术方案实现了跨文档、跨段落阅读理解获取答案，机器阅读理解模型构建简单，表达能力强，成本低，同时又提高了获取问句答案的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中机器阅读理解的问答方法的一应用环境示意图；

图2是本发明一实施例中机器阅读理解的问答方法的一实现流程图；

图3是本发明一实施例中机器阅读理解的问答方法的步骤S1的流程图；

图4是本发明一实施例中机器阅读理解的问答方法的步骤S2的流程图；

图5是本发明一实施例中机器阅读理解的问答方法的步骤S3的流程图；

图6是本发明一实施例中机器阅读理解的问答方法的步骤S4的流程图；

图7是本发明一实施例中机器阅读理解的问答装置的原理框图；

图8是本发明一实施例中机器阅读理解的问答装置的问句预处理模块原理框图；

图9是本发明一实施例中机器阅读理解的问答装置的问句特征提取模块原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的机器阅读理解的问答方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种机器阅读理解的问答方法，以该方法应用在图 1中的服务端为例进行说明，包括以下步骤S1-S7：

S1、获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理。

对于用户问题中的问句获取，可以直接由用户的语音提问得到，也可以由用户输入问题文本得到，此处不作限制，在一实施例中，通过采集用户提问的语音来获取用户问题中的问句。

在一实施例中，如图3所示，所述步骤S1中，即获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理，包括：

S11、使用基于BERT的文本分类模型对所述问句进行分类；所述问句类型包括简单问句和复杂问句，所述复杂问句包括时间约束句、最值句、是否句及并列句。

BERT是一种能够生成句子中词向量表示以及句子向量表示的深度学习模型，其生成的向量表示可以用于词级别的自然语言处理任务和句子级别的任务，例如词级别的任务有序列标注，句子级别的任务有文本分类。

在一实施例中，所述问句类型包括简单问句和复杂问句，所述复杂问句进一步分为时间约束句、最值句、是否句及并列句。

所述简单问句，如：“白马寺的方丈是谁？”。

所述时间约束句，如：“2019年，少林寺的门票需要多少钱？”，其中“2019年”即为时间约束句中的时间约束。

所述最值句，如：“中国最高的佛塔有多高？”。

所述是否句，如：“南怀瑾的儿子是南小舜吗？”。

所述并列句，如：“白马寺方丈是谁？住持又是谁？”，所述并列句由若干个简单问句组成，其中部分简单问句省略了问句的主语。

S12、对分类后的所述复杂问句分别进行处理，得到所述复杂问句中的特征信息。

对于所述时间约束句，使用基于BERT的序列标注模型提取出句中的时间约束；对于所述最值句，根据句中最值词将所述最值句分为不同的最值类型；所述最值类型包括上限最值和下限最值；对于所述是否句，使用基于BERT的序列标注模型提取出句中待判定答案；对于所述并列句，拆分为若干个独立子句。

对于所述时间约束句，如：“2019年，少林寺的门票需要多少钱？”，抽取出句中的时间约束“2019年”。

对于所述最值句，如：“中国最高的佛塔有多高？”，根据句中最值词“最高”，将所述最值句分为不同的最值类型；所述最值类型包括上限最值和下限最值。所述最值类型为上限最值的最值词包括但不限于“最大，最好，最多，最早，最棒，最牛，最强，最高”，所述最值类型为下限最值的最值词包括但不限于“最小，最坏，最少，最晚，最差，最弱，最矮”。在一实施例中，对于所述最值句，经过一正则表达式来判断所述最值句的最值类型，所述正则表达式如下：

re_max＝re.complie("最大|最好|最多|最早|最棒|最牛|最强|最高")

re_min＝re.complie("最小|最坏|最少|最晚|最差|最弱|最矮")

对于所述是否句，如：“南怀瑾的儿子是南小舜吗？”，此类问句的答案包括肯定答案和否定答案，肯定答案如：“南怀瑾的儿子是南小舜”，否定答案如：“南怀瑾的儿子不是南小舜”，可见，对于所述是否句，其答案就包含在问句中，只需判定所述答案的正误即可，在一实施例中，所述是否句中的待判定答案为“南小舜”，提取所述是否句中的待判定答案为“南小舜”。

对于所述并列句，如：“白马寺方丈是谁？住持又是谁？”，该并列句由两个简单句组成，即“白马寺方丈是谁？”和“住持又是谁？”，其中“住持又是谁？”缺失的主体为句子主语“白马寺”。在一实施例中，将所述并列句“白马寺方丈是谁？住持又是谁？”，拆分得到两个独立子句为“白马寺方丈是谁？”，“住持又是谁？”。

S13、将分类后的所述复杂问句分别转化为对应的简单问句。

对于所述时间约束句，删除句中的时间约束，得到对应的简单问句；对于所述最值句，删除句中的最值词，得到对应的简单问句；对于所述是否句，删除句中的待判定答案，得到对应的简单问句；对于所述并列句，补充所述独立子句缺失的主体，得到若干个对应的简单问句。

对于所述时间约束句，如：“2019年，少林寺的门票需要多少钱？”，删除句中的时间约束“2019年”，得到对应的简单句为“少林寺的门票需要多少钱？”。

对于所述最值句，如：“中国最高的佛塔有多高？”，删除句中的最值词“最高”，得到对应的简单问句为：“中国__的佛塔有多高？”。

对于所述是否句，如：“南怀瑾的儿子是南小舜吗？”，删除句中的待判定答案“南小舜”，得到对应的简单问句为：“南怀瑾的儿子是__吗？”。

对于所述并列句，如：“白马寺方丈是谁？住持又是谁？”，将该并列句拆分得到两个独立子句为“白马寺方丈是谁？”，“住持又是谁？”，补充所述独立子句“住持又是谁？”缺失的主语“白马寺”，得到简单问句“白马寺住持又是谁？”，从而得到所述并列句“白马寺方丈是谁？住持又是谁？”，所对应的两个简单问句为“白马寺方丈是谁？”和“白马寺住持又是谁？”。对于所述并列句的拆分可根据标点符号来进行，在一实施例中，利用一正则表达式来完成对所述并列句的拆分，正则表达式如下所示：

re_split＝re.compile("。|\.|！|！|？|\？")

S2、获取经过预处理的所述问句中的实体类型、意图类型及关键词表。

简单问句包括所述问句类型为简单问句的问句以及所述问句类型为复杂问句的问句转化得到的对应的简单问句。

在一实施例中，如图4所示，所述步骤S2中，即获取经过预处理的所述问句中的实体类型、意图类型及关键词表，包括：

S21、使用NER算法识别所述简单问句，得到所述简单问句中的实体类型。

命名实体识别(Named Entity Recognition)简称NER，是指从文本中识别出具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。例如，对于下面一段文字：

6月15日，河南省文物考古研究所曹操高陵文物队公开发表声明承认：“从来没有说过出土的珠子是墓主人的”

调用NER算法识别出的实体结果为：

{"organization":{"河南省文物考古研究所":[[6,15]],"文物队":[[20,22]]},"name":{"曹操":[[16,17]]}}}

对于这段话识别得到“河南省文物考古研究所”的实体类型为机构名，“文物队”的实体类型为为专有名词，“曹操”的实体类型为人，并且上述实体类型在文本中的具体位置也都能识别出来，[[6,15]]，[[20,22]]，[[16,17]]即为上述实体类型在文本中的具体位置。

NER算法是计算机深度学习领域的一种开源的算法，实现了机器识别实体，算法主要原理基于分类思想和最大概率序列思想，基于分类的思想，就是把文本的每一个字符的标签视为一个类别，采用分类算法或者模型进行分类，而最大概率序列思想就是把NER理解为序列标注问题，对每个字符前后出现的字符的合理性预测。

在一实施例中，用户提出如下问题：

王亭之本名叫什么？

依空法师在哪个寺庙出家？

依空法师是哪一年出家的？

调用NER算法，可得到上述问题问句中“王亭之”、“依空法师”的实体类型为人，“寺庙”的实体类型为专有名词。

S22、使用意图识别模型识别所述简单问句，得到所述简单问句的意图类型。

意图识别是指对用户提出的问题中的问句进行识别，从而得到用户提问意图倾向。意图识别实质上是一个分类的问题，基于意图识别模型共有9种意图类型包括bool、why、 what、how、where、when、how_many、which、other。意图识别模型是开源的数据模型，常用的实现方法有基于词典模板的规则分类、基于过往日志匹配、基于分类模型进行意图识别。

在一实施例中对下列问题的进行意图识别结果为：

问句：“王亭之本名叫什么？”的意图类型为“what”。

问句：“依空法师在哪个寺庙出家？”的意图类型为“where”。

问句：“依空法师是哪一年出家的？”的意图类型为“when”。

S23、使用分词工具对所述简单问句进行分词和去停用词，得到第一关键词表。

英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”，计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，对于句子“我是一个学生”，分词的结果是：我_是_一个_学生。中文分词技术属于自然语言处理技术范畴，现有的分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

停用词为计算机检索中的虚字、非检索用字，在搜索引擎优化中，为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为停用词。通常意义上，停用词大致可分为如下两类：第一类是使用十分广泛，在文本中出现过于频繁的一些词。比如英文的“i”、“is”、“what”，中文的“我”、“就”之类词几乎在每个文档上均会出现，查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果，难于缩小搜索范围提高搜索结果的准确性，同时还会降低搜索的效率。第二类是文本中出现频率很高，但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”。比如“SEO研究院是原创的SEO博客”这句话中的“是”、“的”就是两个停用词。

在一实施例中，对于问句“王亭之本名叫什么？”，“依空法师在哪个寺庙出家？”，“依空法师是哪一年出家的？”，进行分词和去停用词后得到的第一关键词表中的关键词包括：“王亭之、本名、依空法师、寺庙、出家”。

S24、使用LDA主题模型提取所述简单问句中的关键词，得到第二关键词表。

LDA(Latent Dirichlet Allocation)，即潜在狄利克雷分布，LDA主题模型是一种文档生成模型，是一种非监督机器学习技术。它认为一篇文档是有多个主题的，而每个主题又对应着不同的词。一篇文档的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某一个词，这样就生成了这篇文档的第一个词，不断重复这个过程，就生成了整篇文章。对于LDA主题模型的使用是上述文档生成过程的逆过程，即根据一篇得到的文档，去寻找出这篇文档的主题，以及这些主题所对应的词。更具体地解释，比如一句子的内容为：“自从乔布斯去世之后，iPhone再难以产生革命性的创新了”

通过使用LDA主题模型，该句子将对应两个主题topic1，topic2，进而，主题topic1会对应一些词如：“苹果创始人”，“苹果手机”,主题topic2会对应一些词如：“重大革新”，“技术突破’，LDA主题模型可以挖掘句子中的潜在词或者找到两篇没有相同词的文档之间的联系。

为了提高根据关键词对文档进行检索阶段召回率，采用LDA主题模型对问句进行关键词提取。在一实施例中，使用LDA主题模型对问句“王亭之本名叫什么？”，“依空法师在哪个寺庙出家？”，“依空法师是哪一年出家的？”，提取得到的第二关键词表中的关键词包括：包括：王亭之、法师、作家。其中有部分关键词并未在问句中出现，属于所述问句中的潜在词。

S25、合并所述第一关键词表和第二关键词表，得到所述简单问句的关键词表。

在一实施例中，将第一关键词表“王亭之、本名、依空法师、寺庙、出家”和第二关键词表“王亭之、法师、作家”，合并得到所述简单问句的关键词表，其中的关键词包括：“王亭之、本名、依空法师、寺庙、出家、法师、作家”。

S3、根据所述实体类型和所述关键词检索文档库，得到答案文档集。

在一实施例中，如图5所示，所述步骤S3中，即根据所述实体类型和所述关键词检索文档库，得到答案文档集，包括：

S31：根据所述简单问句的实体类型，筛选所述文档库，得到第一文档集。

从整个文档库的文档中，筛选出于实体类型相同的文档集，将其设定为第一文档集。在一实施例中，对于问句：“依空法师在哪个寺庙出家？”，依空法师的实体类型是人，所以从整个文档集中筛选过滤出与人有关的文档，得到对应实体类型为人的第一文档集。

S32：根据所述简单问句的关键词表，检索所述文档库的倒排表，得到第二文档集。

倒排表是用来记录有哪些文档包含了某个单词，一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号，单词在这个文档中出现的次数及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项，包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排表。

在按照关键词查找文档时,待检索的文档按照关键词建立倒排表,以此实现对文档的快速检索，在一实施例中的倒排表如下表1所示:

表1

依空法师	“依空法师-百度百科.txt”、“依空法师-互动百科.txt”
		寺庙	“白马寺-百度百科.txt”、“双林寺-百度百科.txt”、…
住持	“圣严法师-百度百科.txt”、“少林寺-百度百科.txt”

在一实施例中，所述步骤S32中，即根据所述简单问句的关键词表，检索所述文档库的倒排表，得到第二文档集，还包括：

对于所述时间约束句对应的简单问句，根据所述时间约束句中的时间约束对所述第二文档集进行再次筛选。

在一实施例中，时间约束句如：“2019年，少林寺的门票需要多少钱？”，根据时间约束“2019年”对所述第二文档集中的文档进行再次筛选，保留包含所述时间约束句中的时间约束“2019年”的文档，从而减少了后续文档的处理量，提高了问答系统的运行效率。

S33：对所述第一文档集和所述第二文档集取交集，得到答案文档集。

在一实施例中，可以根据不同文档的记录编号不同，对所述第一文档集和所述第二文档集取交集，从而得到答案文档集。

S4、将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集。

在一实施例中，如图6所示，所述步骤S4中，即将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集，包括：

S41：将所述答案文档集中的文档按照段落标记切分段落，合并已切分的段落，得到第一段落集。

S42：使用局部敏感哈希算法对所述第一段落集进行冗余过滤，得到答案段落集。

局部敏感哈希算法是一种通过设计满足特殊性质即局部敏感的哈希函数，主要用于提高相似查询效率，由于其局部敏感的特殊性质，以及在高维数据上相当于k-d树等方法的优越性，局部敏感哈希算法被广泛地运用于各种检索，包括但不仅限于文本、音频、图片、视频、基因等领域。

Simhash算法是局部敏感哈希算法中的一种，用于计算文档的相似度，其主要思想是降维，将高维的特征向量映射成低维的特征向量，即把文档降维到hash数字，通过两个向量的海明距离来确定文章是否重复或者高度近似。具体地，通过Simhash算法能将一篇文章映射成64bit，再比较两篇文章的64bit的海明距离，就能知道文章的相似程度，例如，若两篇文章的海明距离<＝3，就认为这两篇文章很相近，判断它们是重复的文章。

在一实施例中,比如：对于以下段落集合：

段落1：“谈锡永，以笔名王亭之驰誉于世。他是专栏作家，亦是中国画的专家。”

段落2：“王亭之(1935年－)，本名谈锡永，笔名王亭之，是专栏作家，也是中国画的专家。”

调用Simhash算法处理后得到：Simhash(段落1,段落2)＝8,小于预设的相似阈值15，则这两段内容是极度相似的，只需要保留1个，选择保留长度最长的一个段落，即删除段落1，保留段落2，从而实现了对于多个相似段落的冗余过滤。

S5、使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集。

文本相似度计算是自然语言处理中必不可少的重要环节，具体实现的算法和模型也有多种，包括欧式距离、曼哈顿距离、余弦相似度等等，对于本申请中问句段落相关度的计算基于自然语言处理的文本相似度计算方法，通过计算所述问句和所述答案段落集中每个段落的相关度分数，实现对可能包含问句答案的段落的进一步筛选过滤。

在一实施例中，取相关度分数最高的10个段落作为优选段落集，对于以下段落使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数的具体处理过程如下：

段落1：“王亭之在80年代的学校及知识分子爱读的《明报》副刊撰写专栏《因话提话》十多年，有一班固定的读者。”

用户问句为：“王亭之本名叫什么？”

计算段落和问句的相关度分数如下：

Model(PASSAGE＝段落1，QUERY＝问句)＝0.1856，即问句与段落1匹配的分数是0.1856。

Model(PASSAGE＝段落2，QUERY＝问句)＝0.7856，即问句与段落2匹配的分数是0.7856。

显然段落2的相关度分数远大于段落1的相关度分数，段落2与所述问句更加相关，也就是所述问句的答案出现在段落2中的概率更大。

S6、将所述优选段落集中的每个段落和所述问句以及所述所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集。

机器阅读理解和问答任务指的是给定一个问题和一个或多个文本，训练的问答系统可以依据文本找出问题答案。传统的解决阅读理解与问答任务的方法有基于特征的逻辑回归模型。随着深度学习的流行，Google提出了BERT模型，该模型只需要进行简单的fine-tuning，便可在英文数据集SQuAD获得SOTA结果，并且超越了人类的表现。同样的，对模型进行修改以适用中文文本，可用于实现基于BERT对中文文本的阅读理解答案提取。

S7、使用统计特征来对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案的通顺程度及最值类型中的一种或多种。

对所述问句答案集中的问句答案进行排序，根据问句答案在文档中出现的次数，以及问句答案与问句的意图类型的是否匹配，比如问句：“依空法师在哪个寺庙出家？”，这个问句的意图类型是“what”，答案集合中有“白马寺，洛阳，汉代”，其中“汉代”对应的意图类型为“when”，“洛阳”对应的意图类型为“where”,“白马寺”对应的意图类型为“what”,显然“白马寺”的匹配度最高。

对所述问句答案集中的问句答案进行排序，还根据问句答案的通顺程度。比如问句答案“依空法师在白马寺出家”比“依空法师在汉代出家”的通顺程度高，在一实施例中，对于所述问句答案的通顺程度可以使用5-gram语言模型来衡量。n-gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)，通常可以从大规模文本或音频语料库生成n-gram模型。在本实施例中调用5-gram语言模型来衡量替换问子后的句子通顺程度。

特别地，根据所述问句的最值类型对问句答案进行排序，只针对所述最值句。

在一实施例中，所述步骤S7中，即根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种，包括：

对于所述时间约束句，根据所述统计特征对转化后对应的简单问句的问句答案进行排序，将排序得到的最优答案作为所述时间约束句的最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度。

对于所述最值句，根据所述统计特征对转化后对应的简单问句的问句答案进行排序，将排序得到的最优答案作为所述最值句的最优答案；所述统计特征包括所述最值句的最值类型。

对于所述是否句，根据所述统计特征对转化后对应的简单问句的问句答案进行排序，将排序得到的最优答案作为简单问句的最优答案，判断所述最优答案与所述是否句中提取的待判定答案是否相同，得到所述是否句的最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度。

对于所述并列句，根据所述统计特征对转化后对应的若干个简单问句的问句答案进行排序，将排序得到的最优答案作为各简单问句的最优答案，合并每个所述简单问句的最优答案，得到所述并列句的最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度。

在一实施例中，对于所述简单问句，如：“白马寺的方丈是谁？”，直接得到最优答案为“白马寺的方丈是空明大师。”

对于所述时间约束句，如：“2019年，少林寺的门票需要多少钱？”，其转化得到的对应简单问句为“少林寺的门票需要多少钱？”，在一实施例中，根据时间约束“2019年”，对文档进行了过滤和排除，因此最终的优选答案不需要再考虑时间约束的问题，其对应的简单问句“少林寺的门票需要多少钱？”经处理得到的最优答案即为所述时间约束句的最优答案，示例性地，所述时间约束句的最优答案为“少林寺的门票为100元”。

对于所述最值句，如：“中国最高的佛塔有多高？”不根据统计特征对所述问句答案集中的问句答案进行排序，而是根据所述最值句对应的简单问句的最值类型对所述问句答案集中的问句答案进行排序，对于所述最值句的最值类型具体分为上限最值和下限最值，在一实施例中，用数字1表示上限最值，用数字0表示下限最值，根据数字排序即可得到所述最值句的最优答案。

对于所述是否句，如：“南怀瑾的儿子是南小舜吗？”，其中的待判断答案为“南小舜”，在一实施例中，所述是否句对应的简答问句“南怀瑾的儿子是__吗？”，处理得到的最优答案为“南怀瑾的儿子是南小舜”，经判断可知所述是否句对应的简单问句的最优答案与所述是否句中待判定答案“南小舜”相同，从而得到所述是否句“南怀瑾的儿子是南小舜吗？”的最优答案为“南怀瑾的儿子是南小舜”。

对于所述并列句，如：“白马寺方丈是谁？住持又是谁？”，经拆分和补充独立子句缺失主体后得到两个简单问句为“白马寺方丈是谁？”，“白马寺住持又是谁？”，在一实施例中，上述两个简单问句的最优答案分别为“白马寺方丈是空明大师”，“白马寺住持是空凡大师”，将所述并列句对应的两个简单问句的最优答案合并得到“白马寺方丈是空明大师，白马寺住持是空凡大师”，即为所述并列句的最优答案。

在本发明实施例中，通过获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理；获取经过预处理的所述问句中的实体类型、意图类型及关键词表；根据所述实体类型和所述关键词表检索文档库，得到答案文档集；将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集；使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集；将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集；根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种；解决了现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统，模型构建复杂，表达能力差的问题以及对于复杂问题处理需要构建知识图谱所导致的实现复杂，构建成本高的问题；本发明的技术方案实现了跨文档、跨段落阅读理解获取答案，机器阅读理解模型构建简单，表达能力强，成本低，同时又提高了获取问句答案的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种机器阅读理解的问答装置，该机器阅读理解的问答装置与上述实施例中机器阅读理解的问答方法一一对应。如图7所示，该机器阅读理解的问答装置包括问句预处理模块1、问句特征提取模块2、文档检索模块3、文档切段处理模块4、段落相关度计算模块5、问句答案提取模块6、问句答案排序模块7。各功能模块详细说明如下：

问句预处理模块1，用于获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理。

问句特征提取模块2，用于获取经过预处理的所述问句中的实体类型、意图类型及关键词表。

文档检索模块3，用于根据所述实体类型和所述关键词表检索文档库，得到答案文档集。

文档切段处理模块4，用于将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集。

段落相关度计算模块5，用于使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集。

问句答案提取模块6，用于将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集。

问句答案排序模块7，用于根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。

在一实施例中，如图8所示，所述问句预处理模块1，包括问句分类单元11、问句信息提取单元12、问句转换处理单元13。各功能模块详细说明如下：

问句分类单元11，用于使用基于BERT的文本分类模型对所述问句进行分类；所述问句类型包括复杂问句和简单问句，所述复杂问句包括时间约束句、最值句、是否句及并列句。

问句信息提取单元12，用于对分类后的所述复杂问句分别进行处理，得到所述复杂问句中的特征信息。

问句转换处理单元13，将分类后的所述复杂问句分别转化为对应的简单问句。

在一实施例中，如图9所示，所述问句特征提取模块2，包括问句实体类型提取单元21、问句意图类型识别单元22、问句第一关键词表获取单元23、问句第二关键词表获取单元24、问句关键词表合并单元25。各功能模块详细说明如下：

问句实体类型提取单元21，用于使用NER算法识别所述简单问句，得到所述简单问句中的实体类型。

问句意图类型识别单元22，用于使用意图识别模型识别所述简单问句，得到所述简单问句的意图类型。

问句第一关键词表获取单元23，用于使用LDA主题模型提取所述简单问句中的关键词，得到第二关键词表。

问句第二关键词表获取单元24，用于使用LDA主题模型提取所述简单问句中的关键词，得到第二关键词表。

问句关键词表合并单元25，用于合并所述第一关键词表和第二关键词表，得到所述简单问句的关键词表。

关于机器阅读理解的问答装置的具体限定可以参见上文中对于机器阅读理解的问答方法的限定，在此不再赘述。上述机器阅读理解的问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种机器阅读理解的问答方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中机器阅读理解的问答方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中机器阅读理解的问答方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程 ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种机器阅读理解的问答方法，其特征在于，包括：

获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理；

获取经过预处理的所述问句中的实体类型、意图类型及关键词表；

根据所述实体类型和所述关键词表检索文档库，得到答案文档集；

将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集；

使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集；

将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集；

2.如权利要求1所述的机器阅读理解的问答方法，其特征在于，所述获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理，包括：

使用基于BERT的文本分类模型对所述问句进行分类；所述问句类型包括简单问句和复杂问句，所述复杂问句包括时间约束句、最值句、是否句及并列句；

对分类后的所述复杂问句分别进行处理，得到所述复杂问句中的特征信息；对于所述时间约束句，使用基于BERT的序列标注模型提取出句中的时间约束；对于所述最值句，根据句中最值词将所述最值句分为不同的最值类型；所述最值类型包括上限最值和下限最值；对于所述是否句，使用基于BERT的序列标注模型提取出句中待判定答案；对于所述并列句，拆分为若干个独立子句；

将分类后的所述复杂问句分别转化为对应的简单问句；对于所述时间约束句，删除句中的时间约束，得到对应的简单问句；对于所述最值句，删除句中的最值词，得到对应的简单问句；对于所述是否句，删除句中的待判定答案，得到对应的简单问句；对于所述并列句，补充所述独立子句缺失的主体，得到若干个对应的简单问句。

3.如权利要求2所述的机器阅读理解的问答方法，其特征在于，简单问句包括所述问句类型为简单问句的问句以及所述问句类型为复杂问句的问句转化得到的对应的简单问句；

所述获取经过预处理的所述问句中的实体类型、意图类型及关键词表，包括：

使用NER算法识别所述简单问句，得到所述简单问句中的实体类型；

使用意图识别模型识别所述简单问句，得到所述简单问句的意图类型；

使用分词工具对所述简单问句进行分词和去停用词，得到第一关键词表；

使用LDA主题模型提取所述简单问句中的关键词，得到第二关键词表；

合并所述第一关键词表和第二关键词表，得到所述简单问句的关键词表。

4.如权利要求2所述的机器阅读理解的问答方法，其特征在于，所述根据所述实体类型和所述关键词表检索文档库，得到答案文档集，包括：

根据所述简单问句的实体类型，筛选所述文档库，得到第一文档集；

根据所述简单问句的关键词表，检索所述文档库的倒排表，得到第二文档集；

对所述第一文档集和所述第二文档集取交集，得到答案文档集。

5.如权利要求4所述的机器阅读理解的问答方法，其特征在于，所述根据所述简单问句的关键词表，检索所述文档库的倒排表，得到第二文档集，还包括：

6.如权利要求1所述的机器阅读理解的问答方法，其特征在于，所述将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集，包括：

将所述答案文档集中的文档按照段落标记切分段落，合并已切分的段落，得到第一段落集；

使用局部敏感哈希算法对所述第一段落集进行冗余过滤，得到答案段落集。

7.如权利要求2所述的机器阅读理解的问答方法，其特征在于，所述根据统计特征对所述问句答案集中的问句答案进行排序，得到最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种，包括：

对于所述时间约束句，根据所述统计特征对转化后对应的简单问句的问句答案进行排序，将排序得到的最优答案作为所述时间约束句的最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度；

对于所述最值句，根据所述统计特征对转化后对应的简单问句的问句答案进行排序，将排序得到的最优答案作为所述最值句的最优答案；所述统计特征包括所述最值句的最值类型；

对于所述是否句，根据所述统计特征对转化后对应的简单问句的问句答案进行排序，将排序得到的最优答案作为简单问句的最优答案，判断所述最优答案与所述是否句中提取的待判定答案是否相同，得到所述是否句的最优答案；所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度；

8.一种机器阅读理解的问答装置，其特征在于，包括：

问句预处理模块，用于获取用户问题中的问句，对所述问句进行分类，根据问句类型分别对所述问句进行预处理；

问句特征提取模块，用于获取经过预处理的所述问句中的实体类型、意图类型及关键词表；

文档检索模块，用于根据所述实体类型和所述关键词表检索文档库，得到答案文档集；

文档切段处理模块，用于将所述答案文档集中的文档进行切段和冗余过滤，得到答案段落集；

段落相关度计算模块，用于使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数，选取相关度分数最高的若干个段落组成优选段落集；

问句答案提取模块，用于将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型，得到所述优选段落集中的每个段落对应的问句答案，将全部所述问句答案组成问句答案集；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述机器阅读理解的问答方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述机器阅读理解的问答方法的步骤。