CN111858878B

CN111858878B - 从自然语言文本中自动提取答案的方法、系统及存储介质

Info

Publication number: CN111858878B
Application number: CN202010558804.9A
Authority: CN
Inventors: 侯聪; 陈运文; 纪达麒; 桂洪冠; 文敏; 白良俊
Original assignee: Daguan Data Co ltd
Current assignee: Daguan Data Co ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2023-12-22
Anticipated expiration: 2040-06-18
Also published as: CN111858878A

Abstract

本发明公开了一种从自然语言文本中自动提取答案的方法、系统及存储介质，所述方法包括以下步骤：将自然语言文本切分为多个段落；分别获取各个段落的问题匹配特征向量；将各段落的问题匹配特征向量输入初筛分类模型，筛选得到问题相关段落；利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率；并选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出。本发明可以对任意长度文本进行问题答案的提取，不会出现计算量按平方规律增长的情况，有效地提高了计算机的数据处理速度，提高了答案提取的准确率。

Description

从自然语言文本中自动提取答案的方法、系统及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种从自然语言文本中自动提取答案的方法、系统及存储介质。

背景技术

从自然语言文本中自动化提取答案的定义是：首先给出一个自然语言文本，同时给出一个自然语言表达的问题；如果问题的答案在该自然语言文本中存在，那么系统可以自动提取出此问题的答案，如果该自然语言文本中没有问题的答案，则系统可以判断出在此条件下问题无法回答。

从非结构化自然文本中提取答案的技术可以利用海量的非结构化文本获取相关问题的答案，在知识库建设、智能客服、法律咨询等多方面均有很大的应用前景。2015年以来，由于基于深度学习的机器阅读理解模型的提出，以及一系列大规模机器阅读理解数据集的公布，如CNN&Daily Mail、SQuAD、MS MARCO等。使得从非结构化文本中提取答案的技术逐渐被关注，成为了学术界和工业界的研究热点。

目前从非结构化文本中提取答案都是基于神经网络技术，结构上包含三个部分：特征提取、问题/文本交互、答案提取。以BERT模型的提出作为分界，特征提取包含两大类：1、基于RNN/CNN编码器的模型，如BiDAF、R-Net等，基于RNN/CNN编码器的阅读理解模型计算量适中，但编码能力相对较弱，答案准确率相对于基于self-attention的模型来说比较低。2、基于self-attention编码器的模型，编码器包括BERT、XLNet等，虽然准确率较高，但模型复杂，计算复杂度按输入文本长度的平方增加，处理长文本的计算量过大，由于GPU的显存限制造成无法计算或计算速度缓慢的问题，影响答案提取效率。

发明内容

有鉴于此，本发明提供了一种从自然语言文本中自动提取答案的方法、系统及存储介质，用以解决现有技术中存在的问题，通过将高精度的self-attention模型应用于长文本中，取消了对输入自然语言文本的长度限制，同时也加快了计算速度，提高了数据处理的速度和效率。

一种从自然语言文本中自动提取答案的方法，包括以下步骤：

S1，将自然语言文本切分为多个段落；

S2，分别获取各个段落的问题匹配特征向量；

S3，将各段落的问题匹配特征向量输入初筛分类模型，筛选得到问题相关段落；

S4，利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率；

并选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出。

优选地，所述步骤S1中，将自然语言文本切分为多个段落时，每个段落包含的字符数不超过预设的字符数阈值。

优选地，所述字符数阈值根据计算机的GPU显存容量来定。

优选地，所述步骤S2中获取各段落的问题匹配特征向量的具体步骤为：

分别将各段落的文本内容与问题进行交互，提取得到各个段落的与问题相关的语义特征；

根据各个段落的语义特征，对应生成各个段落的问题匹配特征向量。

优选地，所述语义特征包括段落内容与问题之间的词汇重合度和字符重合度，问题词汇在段落中的召回率，段落与问题的编辑距离，段落与问题的词汇相似度。

优选地，将段落的文本内容与问题进行交互，提取得到段落的与问题相关的语义特征。

优选地，所述步骤S3中筛选问题相关段落具体步骤为：

构建初筛分类模型；

将各个段落的问题匹配特征向量输入初筛分类模型，得到其各自的用于评判其段落内容与问题相关度的相关性分数；

剔除相关性分数低于预设的相关性阈值的段落，并将剩余的相关性分数高于预设的相关性阈值的段落作为问题相关段落。

优选地，所述初筛分类模型是基于GBDT的二分类模型。

优选地，所述步骤S4中利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率的具体步骤为：

分别将各个问题相关段落与问题进行拼接，得到模型输入序列；

分别计算各个问题相关段落的人工特征；

将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型，得到各个问题相关段落包含答案的概率，各个问题相关段落中包含的疑似答案、疑似答案的疑似概率；

根据问题相关段落包含答案的概率值大小，从问题相关段落中筛选出目标段落；

从目标段落的所有疑似答案中选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出；若否，则未找到问题的答案。

优选地，根据问题相关段落包含答案的概率值大小，从问题相关段落中筛选出目标段落时，剔除问题相关段落包含答案的概率值小于设定阈值的段落，并将问题相关段落包含答案的概率值大于设定阈值的段落作为目标段落；

若所有的问题相关段落包含答案的概率值均小于设定阈值，则直接输出未找到问题的答案。

优选地，所述人工特征包括问题相关段落内的每个字符是否出现在问题中、每个字符附近窗口内的字词在问题中的召回率、每个字符是否为停用词，以及问题相关段落内的每个词语是否出现在问题中。

一种存储介质，其存储有计算机指令，该指令被处理器执行时实现从自然语言文本中自动提取答案的方法的步骤。

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现从自然语言文本中自动提取答案的方法。

一种从自然语言文本中自动提取答案的系统，包括：

段落切分模块，用于将自然语言文本切分为多个段落；

特征提取模块，用于提取各个段落的与问题相关的语义特征，从而得到其各自对应的问题匹配特征向量；

段落初筛模块，用于根据各个段落的问题匹配特征向量，筛选得到与问题相关度较高的问题相关段落；

阅读理解模块，用于将问题相关段落与问题拼接得到的模型输入序列以及问题相关段落的人工特征输入阅读理解模型，并根据阅读理解模型的输出结果输出问题的答案。

优选地，所述阅读理解模块包括：

拼接模块，用于将问题相关段落与问题进行拼接，得到模型输入序列；

人工特征计算模块，用于计算各个问题相关段落的人工特征；

数据处理模块，用于将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型，得到各个问题相关段落包含答案的概率，各个问题相关段落中包含的疑似答案、疑似答案的疑似概率；

答案处理模块，用于根据问题相关段落包含答案的概率值大小，从问题相关段落中筛选出目标段落，并从目标段落的所有疑似答案中筛选出问题的答案进行输出。

本发明的有益效果是：

本发明通过将长文本切分为多个段落，从多个段落中初步筛选得到与问题相关度较高的问题相关段落，然后将问题相关段落的模型输入序列和人工特征输入阅读理解模型，可以在不降低模型参数规模的情况下，实现对任意长度自然文本的问题答案的提取，不会出现计算量按平方规律增长的情况，有效地提高了计算机的数据处理速度；同时，在数据处理复杂度可控的前提下，可以大概率排除掉无关段落对答案抽取阶段的干扰，提高了答案提取的准确率和提取效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明方法的流程图。

图2是本发明阅读理解模型的结构图。

图3是本发明系统的系统框图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体的实施例并结合附图对本申请做进一步的详细描述。

本发明给出一种从自然语言文本中自动提取答案的方法，包括以下步骤：

S1，将自然语言文本切分为多个段落。

将自然语言文本D切分为N_p个段落{P₁,P₂,...}时，每个段落包含的字符数不超过预设的字符数阈值L_max，字符数阈值L_max的大小根据当前计算环境硬件条件(如计算机的GPU显存容量)来定。

S2，分别获取各个段落的问题匹配特征向量。

具体地，首先，分别将N_p个段落{P₁,P₂,...}的文本内容与问题Q进行交互，提取得到各个段落的与问题相关的语义特征；

所述语义特征包括某个段落P的段落内容与问题Q之间的词汇重合度和字符重合度，问题词汇在段落中的召回率，段落与问题的编辑距离，段落与问题的词汇相似度。

然后，根据各个段落的语义特征，对应生成各个段落的问题匹配特征向量，即N_p个段落{P₁,P₂,...}对应生成N_p个问题匹配特征向量{V₁,V₂,...}。

S3，将各段落的问题匹配特征向量输入初筛分类模型，筛选得到问题相关段落。

具体地，首先，构建初筛分类模型，初筛分类模型是基于GBDT的二分类模型，该模型利用大量的相关/非相关段落的标注数据进行训练。

然后，将N_p个段落对应的问题匹配特征向量{V₁,V₂,...}输入初筛分类模型，得到N_p个段落各自的用于评判其段落内容与问题相关度的相关性分数{S₁,S₂,...}。

然后，剔除相关性分数低于预设的相关性阈值S_min的段落，并将剩余的相关性分数高于预设的相关性阈值S_min的段落作为问题相关段落。

S4，利用阅读理解模型，分别获取各个问题相关段落中包含的疑似答案及其疑似概率；并选取出疑似概率最高的疑似答案，判断该疑似答案的疑似概率是否高于预设的疑似阈值，若是，将该疑似答案作为问题的答案进行输出。

具体地，输出问题的答案的步骤为：

首先，分别将步骤S3中筛选出的各个问题相关段落与问题进行拼接，得到模型输入序列，假设步骤S3中筛选出N_f个问题相关段落(N_f≤N_p)，则将这N_f个问题相关段落与问题Q进行拼接，会得到N_f个模型输入序列{X₁,X₂,...}；

分别计算各个问题相关段落的人工特征，即N_f个问题相关段落对应计算得到N_f个人工特征{F₁,F₂,...}，

所述人工特征包括某一问题相关段落内的每个字符是否出现在问题中、每个字符附近窗口内的字词在问题中的召回率、每个字符是否为停用词，以及问题相关段落内的每个词语是否出现在问题中。

其次，将N_f个问题相关段落的模型输入序列{X₁,X₂,...}及其对应的人工特征{F₁,F₂,...}输入阅读理解模型，最终输出各个问题相关段落包含答案的概率{P^passage ₁,P^passage ₂,...}，以及各个问题相关段落中包含的前n个疑似答案{{A₁₁,A₁₂,...,A_1n},{A₂₁,A₂₂,...,A_2n},...}、疑似答案对应的疑似概率{{P₁₁,P₁₂,...,P_1n},{P₂₁,P₂₂,...,P_2n},...}；

阅读理解模型是一个基于BERT的阅读理解模型，其基于self-attention架构，上层拼接Pointer和多层感知机(MLP)，该模型经过大量的非结构化文本的预训练及阅读理解任务标注数据的监督训练。

然后，根据问题相关段落包含答案的概率值大小，从问题相关段落中筛选出目标段落。

从问题相关段落中筛选出目标段落时，剔除问题相关段落包含答案的概率值P^passage小于设定阈值P^passage _min的段落，并将问题相关段落包含答案的概率值P^passage大于设定阈值P^passage _min的段落作为目标段落；

若所有的问题相关段落包含答案的概率值均小于设定阈值P^passage _min，则直接输出“未找到问题的答案”。

最后，从目标段落的所有疑似答案中选取出疑似概率最高的疑似答案A^final，其对应的答案概率为P^final，判断该疑似答案的疑似概率P^final是否高于预设的疑似阈值P_min，若是，将该疑似答案A^final作为问题的答案进行输出；若否，则未找到问题的答案。

下面通过举例具体说明本发明的从自然语言文本中自动提取答案的方法。

假设存在一篇网购索赔政策文档D，网购索赔政策文档D的长度为5000个字符。某人对该文档提出了一个问题Q。

利用本发明的从自然语言文本中自动提取答案的方法获取问题Q的答案的步骤为：

S1、切分文档。

将网购索赔政策文档D切分为段落长度不超过512个字符的10个段落。

S2、获取各段落的问题匹配特征向量。

分别将10个段落的文本内容与问题Q进行交互，提取得到各个段落的与问题相关的语义特征，对应生成各个段落的问题匹配特征向量，即生成10个问题匹配特征向量。

S3、筛选问题相关段落。

将10个问题匹配特征向量输入基于GBDT的初筛分类模型，得到其各自的相关性分数，排除相关性分数低于设定阈值的段落，假设有7个段落与问题Q的相关性不足，则将这7个段落排除，将剩余3个段落作为问题相关段落进入下一处理步骤。

S4，阅读理解模型计算。

分别将3个问题相关段落与问题Q进行拼接，得到其各自的模型输入序列；并分别计算这3个问题相关段落人工特征；

然后，将这3个问题相关段落的模型输入序列及其对应的人工特征输入阅读理解模型，每个段落分别得到本段落是否包含答案的概率P^passage、以及前3位的疑似答案及各个疑似答案对应的答案概率。

假设这3个问题相关段落中有一个段落的P^passage小于阈值，则此段落将被排除，剩余两个问题相关段落作为目标段落。

剩余的2个目标段落中分别包含有3个疑似答案，将这6个疑似答案按照其答案概率的高低进行排序，选取出疑似概率最高的疑似答案，如果该疑似答案的疑似概率值高于设定的阈值，则将该疑似答案作为问题的答案进行输出；若否，输出“文本中未找到问题的答案”。

本发明的从自然语言文本中自动提取答案的系统，包括段落切分模块、特征提取模块、段落初筛模块和阅读理解模块。

段落切分模块，用于将自然语言文本切分为多个段落。

特征提取模块，用于提取各个段落的与问题相关的语义特征，从而得到其各自对应的问题匹配特征向量。

段落初筛模块，用于根据各个段落的问题匹配特征向量，筛选得到与问题相关度较高的问题相关段落。

具体地，所述阅读理解模块包括拼接模块、人工特征计算模块、数据处理模块和答案处理模块。

拼接模块，用于将问题相关段落与问题进行拼接，得到模型输入序列。

人工特征计算模块，用于计算各个问题相关段落的人工特征。

数据处理模块，用于将各个问题相关段落的模型输入序列和人工特征输入阅读理解模型，得到各个问题相关段落包含答案的概率，各个问题相关段落中包含的疑似答案、疑似答案的疑似概率。

本发明的存储介质，其存储有计算机指令，该指令被处理器执行时实现本发明的从自然语言文本中自动提取答案的方法的步骤。

本发明的计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明的从自然语言文本中自动提取答案的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种从自然语言文本中自动提取答案的方法，其特征在于，包括以下步骤：

S1，将自然语言文本切分为多个段落；

S2，分别获取各个段落的问题匹配特征向量；

具体地，分别将各个问题相关段落与问题进行拼接，得到模型输入序列；

分别计算各个问题相关段落的人工特征，所述人工特征包括问题相关段落内的每个字符是否出现在问题中、每个字符附近窗口内的字词在问题中的召回率、每个字符是否为停用词，以及问题相关段落内的每个词语是否出现在问题中；

2.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S1中，将自然语言文本切分为多个段落时，每个段落包含的字符数不超过预设的字符数阈值。

3.根据权利要求2所述的从自然语言文本中自动提取答案的方法，其特征在于，所述字符数阈值根据计算机的GPU显存容量来定。

4.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S2中获取各段落的问题匹配特征向量的具体步骤为：

5.根据权利要求4所述的从自然语言文本中自动提取答案的方法，其特征在于，所述语义特征包括段落内容与问题之间的词汇重合度和字符重合度，问题词汇在段落中的召回率，段落与问题的编辑距离，段落与问题的词汇相似度。

6.根据权利要求4所述的从自然语言文本中自动提取答案的方法，其特征在于，将段落的文本内容与问题进行交互，提取得到段落的与问题相关的语义特征。

7.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，所述步骤S3中筛选问题相关段落具体步骤为：

构建初筛分类模型；

8.根据权利要求7所述的从自然语言文本中自动提取答案的方法，其特征在于，所述初筛分类模型是基于GBDT的二分类模型。

9.根据权利要求1所述的从自然语言文本中自动提取答案的方法，其特征在于，根据问题相关段落包含答案的概率值大小，从问题相关段落中筛选出目标段落时，剔除问题相关段落包含答案的概率值小于设定阈值的段落，并将问题相关段落包含答案的概率值大于设定阈值的段落作为目标段落；

10.一种存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至9中任一项所述的从自然语言文本中自动提取答案的方法的步骤。

11.一种计算机设备，其特征在于，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至9中任一项所述的从自然语言文本中自动提取答案的方法。

12.一种利用权利要求1-9中任一项所述的方法从自然语言文本中自动提取答案的系统，其特征在于，包括：

段落切分模块，用于将自然语言文本切分为多个段落；

13.根据权利要求12所述的从自然语言文本中自动提取答案的系统，其特征在于，所述阅读理解模块包括：