CN113010655B

CN113010655B - 一种机器阅读理解的回答与干扰项生成方法、装置

Info

Publication number: CN113010655B
Application number: CN202110288495.2A
Authority: CN
Inventors: 蔡毅; 吴欣; 徐静云
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-12-16
Anticipated expiration: 2041-03-18
Also published as: CN113010655A

Abstract

本发明公开了一种机器阅读理解的回答与干扰项生成方法、装置，方法是将机器阅读理解领域中的干扰项生成与机器问答任务结合起来，通过联合学习机制同时促进生成答案和干扰项这两个任务的性能提升。本发明能实现良好的机器问答，在给定一篇文章和一个关于此文章的问题的情况下，能够准确地回答相关问题并且生成答案对应的干扰项，可广泛应用于机器阅读领域或者智能出题领域。

Description

一种机器阅读理解的回答与干扰项生成方法、装置

技术领域

本发明涉及自然语言处理的机器阅读理解领域，具体涉及一种机器阅读理解的回答与干扰项生成方法、装置。

背景技术

机器阅读理解(Machine Reading Comprehension，MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式，因此机器阅读理解属于自然语言处理(NLP)的范畴，也是其中最新最热门的课题之一。近些年来，随着机器学习，特别是深度学习的发展，机器阅读理解研究有了长足的进步，并在实际应用中崭露头角。

近年来随着深度学习的不断发展，越来越多的机器阅读理解算法开始采用基于深度神经网络的模型，通过在可观的样本上训练，算法在一定程度上能够理解人类语言的语义。然而，自然语言中包含的语义复杂多变，想要机器能够完全理解人类语言中的语义并完整正确的回答一个问题还无法彻底实现。所以，目前机器阅读理解领域较多采用选择题的方式对机器的理解能力进行检验。即给定一篇上下文和一个问题，机器要从若干选项中筛选出正确答案。相比于不给选项，完全直接地回答一个问题，选择题的形式可以降低答题的难度。

然而，现有的机器阅读理解技术只关注了文章、问题中的语义信息，忽略了干扰项中的语义信息。而在实际的学习过程中，人们常常提及答题者在做题的时候需要理解出题人的意思，这其实就是说在回答一个问题的时候要揣摩每一个干扰项为什么要这样设置，这样可以帮助答题者更快更准确的找到问题的正确答案。可见，干扰项中的语义信息对于答题而言存在着参考价值，能一定程度上帮助阅读理解。

发明内容

本发明的第一目的在于解决现有技术的不足，提出一种机器阅读理解的回答与干扰项生成方法，能够实现良好的机器问答，可广泛应用于机器阅读领域或者智能出题领域。

本发明的第二目的在于提出一种机器阅读理解的回答与干扰项生成装置。

本发明的第三目的在于提出一种计算机可读存储介质。

本发明的第四目的在于提出一种计算设备。

本发明的第一目的可以通过如下技术方案实现：

一种机器阅读理解的回答与干扰项生成方法，包括以下步骤：

1)、获取预训练语言模型L，该模型用于提取语料的文本特征；

构建机器阅读理解数据集，数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成；

2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中，模型输出对应的文本特征向量F；

3)、将每个样本的文本特征向量F分别输入两个神经网络解码器中，两个神经网络解码器分别输出文章与问题所对应的答案预测结果A_p、干扰项预测结果O_p；

4)、计算答案预测结果A_p与对应样本的正确答案A之间的误差L_A，干扰项预测结果O_p与对应样本的正确干扰项O之间的误差L_O，通过联合学习的方式对两个神经网络解码器进行反向传播训练；

5)、对于待回答和生成干扰项的文章和问题，利用预训练语言模型L提取文本特征向量F，再将文本特征向量F分别输入到训练完成的两个神经网络解码器，两个神经网络解码器分别输出该问题的答案和干扰项。

优选的，在步骤1)中，预训练语言模型的类型包括GPT-2、BERT。

更进一步的，预训练语言模型采用已训练完成的现有预训练语言模型，或者利用若干无标注语料，通过自监督的方式训练得到。

优选的，文本特征向量的生成过程如下：

首先，将文章P与问题Q的文本内容进行拼接，得到一条完整的输入文本X：

其中，

为文本拼接符，把Q的文本内容拼接到P的后面，形成一个更长的文本；

然后，将文本X输入到预训练语言模型L中，输出文本X中每个组成词语对应的特征向量F_i，i∈[1,n]，并组成对应的特征向量序列F_all：

F_all＝{F₁,F₂,...,F_n}

其中，n为文本X的词语个数，即文本X中的每个词语都有一个对应的特征向量；再计算特征序列F_all的平均值，得到文本X的整体特征表示F：

F＝mean(F_all)

其中，mean表示平均函数，即对F_all中的所有向量取平均。

优选的，两个神经网络解码器D₁和D₂均为长短期记忆神经网络，用于根据文本特征输出对应的文本序列；

将文本特征向量F输入到神经网络解码器D₁中，得到正确答案的预测结果A_p：

A_P＝D₁(F)

将文本特征F向量输入D₂到中，得到干扰项的预测结果O_p：

O_P＝D₂(F)。

优选的，所述步骤4)的具体过程为：

4.1)、计算答案预测结果A_p与正确答案A之间的误差L_A：

L_A＝CrossEntropy(A,A_p)

其中，CrossEntropy是误差计算公式，用以计算两个文本序列对应位置的误差；

4.2)、计算答案预测结果O_p与正确答案O之间的误差L_O：

L_O＝CrossEntropy(O,O_p)

4.3)、使用联合学习的方式将L_A和L_O两个误差结合起来得到最终误差L，并通过梯度下降反向传播的方法对两个神经网络解码器的参数进行更新；

最终误差L的计算公式为：

L＝αL_A+(1-α)L_O

其中，α为调节因子，用于平衡L_A和L_O在数值上的差异。

本发明的第二目的可以通过如下技术方案实现：

一种机器阅读理解的回答与干扰项生成装置，其特征在于，包括：预训练语言模型获取模块、数据集构建模块、文本特征向量生成模块、预测结果生成模块、解码器训练模块、答案及干扰项生成模块；

其中，预训练语言模型获取模块用于获取预训练语言模型L，该模型用来提取语料的文本特征；

数据集构建模块用于构建机器阅读理解数据集，数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成；

文本特征向量生成模块用于将数据集中每个样本的文章P与问题Q的文本内容或者将待回答和生成干扰项的文章和问题的文本内容输入到预训练语言模型L中，由模型输出对应的文本特征向量F；

预测结果生成模块用于将每个样本的文本特征向量F分别输入两个神经网络解码器中，由两个神经网络解码器分别输出文章与问题所对应的答案预测结果A_p、干扰项预测结果O_p；

解码器训练模块用于计算答案预测结果A_p与对应样本的正确答案A之间的误差L_A，干扰项预测结果O_p与对应样本的正确干扰项O之间的误差L_O，通过联合学习的方式对两个神经网络解码器进行反向传播训练；

答案及干扰项生成模块用于将待回答和生成干扰项的文章和问题的文本特征向量F分别输入到训练完成的两个神经网络解码器，由两个神经网络解码器分别输出该问题的答案和干扰项。

本发明的第三目的可以通过如下技术方案实现：

一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的机器阅读理解的回答与干扰项生成方法。

本发明的第四目的可以通过如下技术方案实现：

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的机器阅读理解的回答与干扰项生成方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明利用预训练语言模型捕获文本的语义信息，在文章、问题信息的基础上，将干扰项的信息也引入到用于生成回答的网络模型中，让模型能够了解干扰项的生成模式，更好地避开干扰项，提高回答的准确率，实现良好的机器问答，可应用于机器阅读领域。与此同时，本发明也可用于干扰项的生成，可以用在智能出题领域，全自动地生成干扰项，减轻出题者的压力。

(2)本发明将机器阅读理解领域中的干扰项生成与机器问答任务结合起来，通过联合学习机制同时促进生成答案和干扰项这两个任务的性能提升，在给定一篇文章和一个关于此文章的问题的情况下，能够准确地回答相关问题并且生成答案对应的干扰项。

附图说明

图1为本发明机器阅读理解的回答与干扰项生成方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例提供了一种机器阅读理解的回答与干扰项生成方法，可应用于机器阅读领域如智能应答机器人，也可以应用于智能出题领域如考试专用系统，如图1所示，方法包括以下步骤：

1)、获取预训练语言模型L，该模型用于提取语料的文本特征。

构建机器阅读理解数据集，数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成。

预训练语言模型的思想是创建一个黑匣子，该黑匣子可以理解输入的语言，然后可以要求使用该语言执行任何特定任务。首先向语言模型提供大量未注释的数据(例如完整的Wikipedia文具)，这使模型可以学习各种单词的用法以及该语言的一般编写方式，再将模型转移到NLP任务，在模型中将其馈给另一个较小的任务特定数据集，该任务特定数据集用于微调和创建能够执行特定任务的最终模型。

这里，预训练语言模型可以是常用的语言模型，如GPT-2，BERT等，可直接采用已训练完成的现有模型，也可以利用若干无标注语料，通过自监督的方式训练得到所需模型。数据集可采集语料库(如试题库等)中的相关语料来构建得到。干扰项可以是从输入的文章当中抽取出相关的部分文本，通过随意匹配拼合来构成，其构成的是一个看似合理但错误的回答，可使问题无法真正被回答。

2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中，模型输出对应的文本特征向量F，过程具体如下：

2.1)、将文章P与问题Q的文本内容进行拼接，得到一条完整的输入文本X：

其中，

2.2)、将文本X输入到预训练语言模型L中，输出文本X中每个组成词语对应的特征向量F_i，i∈[1,n]，并组成对应的特征向量序列F_all：

F_all＝{F₁,F₂,...,F_n}

其中，n为文本X的词语个数，即文本X中的每个词语都有一个对应的特征向量；

2.3)、计算特征序列F_all的平均值，得到文本X的整体特征表示F：

F＝mean(F_all)

其中，mean表示平均函数，即对F_all中的所有向量取平均。

这里，两个神经网络解码器D₁和D₂均为长短期记忆神经网络，能够根据文本特征输出对应的文本序列。

将文本特征向量F输入到神经网络解码器D₁中，可得到正确答案的预测结果A_p：

A_P＝D₁(F)

将文本特征F向量输入D₂到中，可得到干扰项的预测结果O_p：

O_P＝D₂(F)

开始使用D₁时A_p可能不理想，因此需要后续通过反向传播的方式训练D₁，使得A_p逐渐接近正确答案A。同样，开始使用D₂时O_p可能不理想，因此也需要后续通过反向传播的方式训练D₂，使得O_p逐渐接近正确的干扰项O。

4)、计算答案预测结果A_p与对应样本的正确答案A之间的误差L_A，干扰项预测结果O_p与对应样本的正确干扰项O之间的误差L_O，通过联合学习的方式对两个神经网络解码器进行反向传播训练，过程如下：

4.1)、计算答案预测结果A_p与正确答案A之间的误差L_A：

L_A＝CrossEntropy(A,A_p)

4.2)、计算答案预测结果O_p与正确答案O之间的误差L_O：

L_O＝CrossEntropy(O,O_p)

这里的CrossEntropy是一种常用的误差计算公式，用以计算两个文本序列对应位置的误差。

4.3)、为使两个神经网络解码器同时学习如何预测正确答案与干扰项，并且能够相互促进彼此的训练效果，使用联合学习的方式将L_A和L_O两个误差结合起来得到最终误差L，并通过梯度下降反向传播的方法对两个神经网络解码器的参数进行更新：

L＝αL_A+(1-α)L_O

其中，α为调节因子，用于平衡L_A和L_O在数值上的差异。

5)、对于待回答和生成干扰项的文章和问题，按照步骤2)，利用预训练语言模型L提取文本特征向量F，再将文本特征向量F分别输入到训练完成的两个神经网络解码器，两个神经网络解码器分别输出该问题的答案和干扰项。

实施例2

本实施例提供了一种机器阅读理解的回答与干扰项生成装置，可实现实施例1所述的机器阅读理解的回答与干扰项生成方法，该装置包括：预训练语言模型获取模块、数据集构建模块、文本特征向量生成模块、预测结果生成模块、解码器训练模块、答案及干扰项生成模块。

预训练语言模型获取模块、数据集构建模块分别连接文本特征向量生成模块，文本特征向量生成模块、预测结果生成模块、解码器训练模块依次连接，数据集构建模块连接解码器训练模块，特征向量生成模块、解码器训练模块分别连接答案及干扰项生成模块。

文本特征向量生成模块用于将数据集中每个样本的文章P与问题Q的文本内容，或者将待回答和生成干扰项的文章和问题的文本内容输入到预训练语言模型L中，由模型输出对应的文本特征向量F；

在此需要说明的是，本实施例的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3

本实施例提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的机器阅读理解的回答与干扰项生成方法，具体如下：

本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例提供了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的机器阅读理解的回答与干扰项生成方法，具体如下：

本实施例中所述的计算设备可以是台式电脑、笔记本电脑或其他具有处理器功能的终端设备。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种机器阅读理解的回答与干扰项生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法，其特征在于，在步骤1)中，预训练语言模型的类型包括GPT-2、BERT。

3.根据权利要求2所述的机器阅读理解的回答与干扰项生成方法，其特征在于，预训练语言模型采用已训练完成的现有预训练语言模型，或者利用若干无标注语料，通过自监督的方式训练得到。

4.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法，其特征在于，文本特征向量的生成过程如下：

其中，

F_all＝{F₁,F₂,...,F_n}

再计算特征向量序列F_all的平均值，得到文本X的整体特征表示F：

F＝mean(F_all)

其中，mean表示平均函数，即对F_all中的所有向量取平均。

5.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法，其特征在于，两个神经网络解码器D₁和D₂均为长短期记忆神经网络，用于根据文本特征输出对应的文本序列；

A_P＝D₁(F)

将文本特征F向量输入到D₂中，得到干扰项的预测结果O_p：

O_P＝D₂(F)。

6.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法，其特征在于，所述步骤4)的具体过程为：

4.1)、计算答案预测结果A_p与正确答案A之间的误差L_A：

L_A＝CrossEntropy(A,A_p)

4.2)、计算答案预测结果O_p与正确答案O之间的误差L_O：

L_O＝CrossEntropy(O,O_p)

最终误差L的计算公式为：

L＝αL_A+(1-α)L_O

其中，α为调节因子，用于平衡L_A和L_O在数值上的差异。

7.一种机器阅读理解的回答与干扰项生成装置，其特征在于，包括：预训练语言模型获取模块、数据集构建模块、文本特征向量生成模块、预测结果生成模块、解码器训练模块、答案及干扰项生成模块；

8.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至6中任一项所述的机器阅读理解的回答与干扰项生成方法。

9.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至6中任一项所述的机器阅读理解的回答与干扰项生成方法。