CN111680264A

CN111680264A - 一种多文档阅读理解方法

Info

Publication number: CN111680264A
Application number: CN202010311182.XA
Authority: CN
Inventors: 彭德光; 孙健
Original assignee: Chongqing Megalight Technology Co ltd
Current assignee: Chongqing Megalight Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-09-18
Anticipated expiration: 2040-04-20
Also published as: CN111680264B

Abstract

本发明提出一种多文档阅读理解方法，包括：创建文档库；获取询问文本，根据所述询问文本从所述文档库中提取多个关联文档；根据所述询问文本与所述多个关联文档的相似度，获取每个所述关联文档中的对应所述询问文本的关联段落；根据多个所述关联文档对应的关联段落间的跨度，获取所述询问文本对应的答案概率分布；根据所述答案概率分布创建答案分类模型；本发明可有效提高从大量文档中获取问题解答的效率和准确性。

Description

一种多文档阅读理解方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种多文档阅读理解方法。

背景技术

目前大多数问题回答模型无法扩展到文档或多文档输出，并且单纯地将这些模型独立地应用于每个段落，通常会导致它们被无关紧要的文本分散注意力。尤其针对海量的数据库文档，问题查询获取的答案往往包含大量的噪声，且不利于获取准确的答案。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种多文档阅读理解方法，主要解决海量数据答案寻优准确率低的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种多文档阅读理解方法，包括：

创建文档库；

获取询问文本，根据所述询问文本从所述文档库中提取多个关联文档；

根据所述询问文本与所述多个关联文档的相似度，获取每个所述关联文档中的对应所述询问文本的关联段落；

根据多个所述关联文档对应的关联段落间的距离，获取所述询问文本对应的答案概率分布；

根据所述答案概率分布创建答案分类模型。

可选地，获取所述询问文本中的关键词；

根据所述关键词通过词频统计从所述文档库中选出多个关联文档。

可选地，根据所述询问文本创建问题向量；

根据每个所述关联文档中个段落的向量表示创建对应的所述关联文档的向量空间；

根据所述向量空间与所述问题向量的相似度，获取每个所述关联文档中与所述询问文本对应的关联段落。

可选地，对所述询问文本进行字符级拆分，获取字符序列；

对所述询问文本进行词级拆分，获取单词序列；

将所述字符序列和所述单词序列进行连接，获取问题序列；

将所述问题序列输入神经网络获取所述问题向量。

可选地，将所述问题向量嵌入所述关联段落，获取关联向量。

可选地，选取其中一个所述关联向量对应作为候选代表；

根据其他所述关联向量与所述候选代表的位置距离，初始化各关联向量的概率分布。

可选地，构建基于所述关联向量概率分布的目标函数；

根据所述目标函数构造训练模型，将所述关联向量输入所述训练模型获取答案分类。

可选地，通过所述训练模型获取其中一个关联段落中的单词与其他关联段落中的单词的相似度，建立该关联段落与其他关联段落的映射关系，将映射结果融入对应的关联向量作为所述训练模型的输入。

可选地，通过softmax函数对所述训练模型的输出进行分类。

如上所述，本发明一种多文档阅读理解方法，具有以下有益效果。

根据多个文档间的关联段落概率分布对答案进行评估，可有效提高大量数据处理的准确性。

附图说明

图1为本发明一实施例中多文档阅读理解的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种多文档阅读理解方法，包括步骤S01-S05。

在步骤S01中，创建文档库：

根据文档所属技术领域，将文档进行归类，将同一类别的文档存入数据库中创建文档库。如法律判决文书，通常可分为交通事故类、民事纠纷类、刑事类等类别，针对不同类别创建对应的文档库，当用户需要咨询交通事故类问题时，可在交通事故判决书对应的文档库中查询用户所需答案。由于每日产生的判决文书体量巨大，可定期对文档库进行更新。

在步骤S02中，获取询问文本，根据询问文本从文档库中提取多个关联文档；

在一实施例中，可通过用户界面采集用户输入的询问文本，或收集网页论坛中的用户的询问文本，作为模型训练的样本。可对询问文本中的关键词或短语进行标注，根据标注信息，提取询问文本中的关键词或短语。根据提取的关键词，对文档库中文本进行词频统计。在另一实施例中，可采用TF-IDF方法，统计询问文本中关键词在文档库中的单个文档中的出现频率，并统计出现对应关键词的文档数，通过词频比率计算获取统计相似度，根据相似度预先设定的相似度阈值判断哪些文档可作为询问文本对应的关联文档。

在步骤S03中，根据询问文本与多个关联文档的相似度，获取每个关联文档中的对应询问文本的关联段落；

在一实施例中，可对询问文本进行预处理，包括询问文本分别进行字符级拆分和词级拆分。将询问文本拆分成单个字符，并将单个字符组成字符序列；同时将询问文本拆分成单个单词，并将单个单词依次组成单词序列，将单词序列和字符序列拼接在一起，构成询问文本的问题序列。将问题序列输入神经网络中，获取询问文本语义表示的问题向量。神经网络可采用卷积神经网络。

在一实施例中，对前述步骤得到的关联文档进行分段处理，获取每个段落的向量表示。将多个段落的向量表示整合成对应关联文档的向量空间。

计算问题向量与各关联文档的向量空间中的向量的相似度，相似度计算可采用欧氏距离法或余弦距离计算方法。可根据预设的相似度阈值判断哪些段落为询问文本对应的关联段落。如问题向量与关联文档A中的i，j，k段落相似度高于70％，则将i，j，k作为询问文本的关联段落。

在一实施例中，可将问题向量嵌入关联段落中，获取关联向量。在进行问题嵌入前，可将问题向量和关联段落对应的段落向量输入双向GRU网络中，通过GRU网络的更新门和重置门获取对应段落相对于询问文本的权重。在GRU网络输入层前设置dropout，对输入按一定比率进行舍弃，以较少计算的数据量，提高效率，其中比率可设置为0.2。

进而，通过双向注意力流模型中的注意力机制，分别计算关联段落中的单词与询问文本中单词的相似度，根据相似度调整对应关联段落相对于询问文本的权重。根据权重将问题向量中的特征嵌入对应的段落向量中，获取关联向量，其中相似度越高则权重越高。设询问文本中包含单词A对应问题向量中的特征a，则A与相应关联段落中单词的相似度达到设定阈值(如0.7)，则可将特征a嵌入关联段落相似单词在关联向量中的位置。

在步骤S04中，根据多个关联文档对应的关联段落间的距离，获取询问文本对应的答案概率分布；

在一实施例中，选取其中一个关联向量对应的段落作为候选代表，候选代表的选取可采用随机选取的方式。

在一实施例中，可对关联段落在对应关联文档中的位置进行标注，根据标注的位置信息，获取其他关联段落到候选代表对应的关联段落的位置距离，根据位置距离初始化各关联向量的概率分布。位置距离较小的具有较高的概率。关联向量对应的概率分布即为答案概率分布。

在步骤S05中，根据答案概率分布创建答案分类模型。

在一实施例中，可构造基于关联向量概率分布的目标函数；根据目标函数构造训练模型。目标函数可表示为

其中，P(x_i)表示第x_i各关联向量相对于问题向量的概率分布；N表示关联向量的数量；J(x_i)为正则项，可根据实际应用采用L1或L2范数表示对应关联向量与问题向量的距离；α表示正则化系数，可根据实际应用进行设置和调整。

训练模型可设置一层自我注意层，通过自我注意层获取其中一个关联段落中的单词和其他关联段落中的单词的相似度，从而建立关联段落之间的映射关系。自我注意层连接一个双向GRU网络，将关联段落间的映射关系与关联向量相加作为下一步模型训练的输入。同样的，在GRU网络输入层前设置dropout，对输入按一定比率进行舍弃，以较少计算的数据量，提高效率，其中比率可设置为0.2。

在一实施例中，训练模型的最后一层中，可采用双向GRU网络，结合ReLU线性函数计算每个输出节点对应的答案分数。具体的，可将隐藏层与输入串联，并馈入GRU和线性层中预测每个关联段落对应的答案评分。

在一实施例中，训练模型的输出经过softmax函数归一化后对输出进行分类，得到分类模型。

可将用户输入的询问文本直接输入训练好的分类模型中，根据分类模型的输出，获取询问文本对应的优选答案。

综上所述，本发明一种多文档阅读理解方法，通过多个关联文档中的关联段落进行分类评估，可有效提高从海量数据中获取问题解答的效率，提高获取答案的准确性。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多文档阅读理解方法，其特征在于，包括：

创建文档库；

根据所述答案概率分布创建答案分类模型。

2.根据权利要求1所述的多文档阅读理解方法，其特征在于，

获取所述询问文本中的关键词；

3.根据权利要求1所述的多文档阅读理解方法，其特征在于，

根据所述询问文本创建问题向量；

4.根据权利要求3所述的多文档阅读理解方法，其特征在于，

对所述询问文本进行字符级拆分，获取字符序列；

对所述询问文本进行词级拆分，获取单词序列；

将所述字符序列和所述单词序列进行连接，获取问题序列；

将所述问题序列输入神经网络获取所述问题向量。

5.根据权利要求3所述的多文档阅读理解方法，其特征在于，

将所述问题向量嵌入所述关联段落，获取关联向量。

6.根据权利要求5所述的多文档阅读理解方法，其特征在于，

选取其中一个所述关联向量对应段落作为候选代表；

7.根据权利要求6所述的多文档阅读理解方法，其特征在于，

构建基于所述关联向量概率分布的目标函数；

8.根据权利要求7所述的多文档阅读理解方法，其特征在于，

通过所述训练模型获取其中一个关联段落中的单词与其他关联段落中的单词的相似度，建立该关联段落与其他关联段落的映射关系，将映射结果融入对应的关联向量作为所述训练模型的输入。

9.根据权利要求7所述的多文档阅读理解方法，其特征在于，

通过softmax函数对所述训练模型的输出进行分类。