CN113627152B

CN113627152B - 一种基于自监督学习的无监督机器阅读理解训练方法

Info

Publication number: CN113627152B
Application number: CN202110805842.4A
Authority: CN
Inventors: 孙乐; 边宁; 韩先培; 陈波
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-05-16
Anticipated expiration: 2041-07-16
Also published as: CN113627152A

Abstract

本发明公开了一种基于自监督学习的无监督机器阅读理解训练方法，其步骤包括：1)对于语料库中的自然语言文本段落，首先查找该自然语言文本段落中符合设定条件的词或词组，并将其中的一个词或词组替换为设定符号；2)利用替换后的段落训练机器阅读理解模型；训练过程中，机器阅读理解模型根据段落中所述设定符号的上下文信息，从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置。本发明能够利用语料库自身的信息，直接学习机器阅读理解所需的能力，而不需要任何人工标注的阅读理解数据，也不需要利用启发式规则人工合成训练数据，所训练模型鲁棒性高。

Description

一种基于自监督学习的无监督机器阅读理解训练方法

技术领域

本发明涉及一种机器阅读理解模型训练方法，特别是一种基于自监督学习的无监督机器阅读理解模型训练方法，属于自然语言处理技术领域。

背景技术

机器阅读理解技术是指给定一个文本段落和一个相关的问题，利用机器学习的方法训练模型，使模型能够从文本段落中提取问题的答案。

机器阅读理解技术是构建智能信息服务的支撑技术之一。互联网文本数据包含着大量的信息和知识，但是这些数据以非结构化的方式储存。以信息检索为主的传统信息获取技术难以满足用户精细化和多样化的信息需求。以机器阅读理解为核心构建的自动问答系统为解决用户的精细化信息需求提供了有效手段。

机器阅读理解模型往往依赖大量人工标注的训练数据进行训练，难以直接应用于新的领域和低资源语言。现有的预训练语言模型并非为阅读理解任务所设计，预训练语言模型关注的上下文相关词预测能力与阅读理解所需的答案提取能力之间存在能力偏差。现有的基于合成数据的无监督机器阅读理解方法难以生成高质量的阅读理解数据，使用这些合成数据训练的机器阅读理解模型难以满足真实应用场景对性能和鲁棒性的要求。

自监督学习是指通过设计自监督训练任务，利用无标注数据本身的信息训练模型，使模型具备特定能力的技术。

发明内容

为更有效地训练无监督机器阅读理解模型，本发明提供了一种基于自监督学习的无监督机器阅读理解训练方法。

内容包括：(一)针对机器阅读理解的自监督学习任务及其训练方法；(二)用于无监督阅读理解模型的问句转换方法。针对机器阅读理解的自监督学习任务能够利用语料库自身的信息，直接学习机器阅读理解所需的能力。用于无监督阅读理解模型的问句转换方法与自监督学习相配合，解决无标注语料中的陈述句与阅读理解任务中的问句之间句法不一致的问题。

本发明所采用的技术方案概述如下：

一种基于自监督学习的无监督机器阅读理解训练方法，包括以下部分：

1)自监督学习任务的设定和训练：输入语料库中的每个自然语言文本段落，自监督学习任务首先寻找段落中重复出现的有意义的词或词组，并将其中的一个词或词组替换为设定的[MASK]符号(通常设定为特殊的字符，与一般英语单词不同)；然后利用统计信息对替换后的段落进行筛选；最后训练机器阅读理解模型根据段落中[MASK]符号的上下文信息，从替换后的段落中定位一个连续的字符串(通过预测字符串的起止位置)，填补段落中的[MASK]位置。

2)面向无监督机器阅读理解的问句转换方法：在模型测试和应用阶段，在将阅读理解任务中的问句输入经过上述训练的机器阅读理解模型之前，将问句转换为带有[MASK]符号的陈述句，从而保持模型训练阶段和测试(应用)阶段输入数据形式的一致性；在这一阶段的转换中，寻找问句中出现的疑问词，将疑问词替换为[MASK]；再将转换后所得陈述句输入模型中，获取答案。

进一步地，技术1)部分选取的有意义的词或词组是指满足以下条件的字符串：(1)该字符串在文本段落中出现次数t满足2≤t≤4；(2)该字符串不包括停止词和标点符号；(3)该字符串的长度不大于5个词。通过该约束条件，使得被替换成[MASK]的词或词组包含更多的信息，从而有利于训练机器阅读理解模型。

进一步地，技术1)部分所涉及的数据筛选部分包括定义自监督数据的打分函数：

(1)Score_Pass：计算段落中所有词的TF-IDF值之和。

(2)Score_Mask：计算被替换的词组中所有词的TF-IDF值之和。

(3)Score_ans：计算[MASK]的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度。

数据的打分为上述三个分数的加权和，即

Score＝Score_Pass+αScore_Mask+βScore_ans

其中α和β为超参数。综合利用三个打分函数对数据进行排序，能够进一步选择有利于训练阅读理解模型的数据。

进一步地，技术1)部分还包括一个迭代数据筛选机制。迭代数据筛选机制利用在一部分自监督数据(上述筛选后的若干段落)上训练得到的模型，对剩余的数据进行打分，去除分数低于某一设定阈值的自监督数据，利用剩余的自监督数据进行下一个迭代轮次的训练。该迭代数据筛选机制能够在模型迭代训练的过程中对数据进行进一步的筛选，以保证最终用于训练阅读理解模型的数据的质量。

进一步地，技术2)部分使用基于模板的问句转换算法，将问句中的疑问代词替换为带有[MASK]字符的模板，从而将问句转换为陈述句。该问句转换方法能够有效解决问答情境下的问句与模型训练情境下的陈述句之间的句法结构不一致的问题。

与现有技术相比，本发明的有益效果是：

1)提出了针对机器阅读理解的自监督学习任务及其训练方法，能够利用语料库自身的信息，直接学习机器阅读理解所需的能力，而不需要任何人工标注的阅读理解数据，也不需要利用启发式规则人工合成训练数据。

2)提出了用于无监督阅读理解模型的问句转换方法，能够有效解决无标注语料中的陈述句与阅读理解任务中的问句之间的句法不一致问题，提高了阅读理解模型的鲁棒性。

附图说明

图1为针对机器阅读理解的自监督学习训练方法流程图。

图2为模型测试时，将阅读理解任务中的问句转换为带有[MASK]符号的陈述句的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面对本发明做进一步详细说明。

本发明包括一种基于自监督学习的无监督机器阅读理解训练方法，包括两个关键部分：

1)自监督学习任务的设定和训练：输入语料库中的每个自然语言文本段落，自监督学习任务首先寻找段落中重复出现的有意义的词或词组，并将其中的一个词或词组替换为设定的[MASK]符号；然后利用统计信息对替换后的段落进行筛选；最后训练机器阅读理解模型根据段落中[MASK]符号的上下文信息，从替换后的段落中定位一个连续的字符串(通过预测字符串的起止位置)，填补段落中的[MASK]位置。

2)面向无监督机器阅读理解的问句转换方法：在模型测试和应用阶段，在将阅读理解任务中的问句输入经过上述训练的机器阅读理解模型之前，将问句转换为带有[MASK]符号的陈述句，从而保持模型训练阶段和测试(应用)阶段输入数据形式的一致性。

自监督学习任务：

具体地，本发明设计的针对机器阅读理解的自监督任务可形式化地表示为

给定一个带有[MASK]字符的文本段落p_mask，自监督任务要求机器阅读理解模型在该段落中预测一个字符串的开始和结束位置[i_start,i_end]，这个字符串可以填充[MASK]字符的内容。

例如，在图1所示的文本段落中，第二个“vitamin D”被替换为[MASK]字符，自监督任务要求机器阅读理解系统预测第一个“vitamin D”的起止位置，利用第一个“vitamin D”填充这个[MASK]位置。

与现有的预训练语言模型不同，该自监督任务将填补[MASK]字符的方式限制为段落中的一个连续字符串。通过该自监督任务的训练，机器阅读理解模型能够自动学习挖掘文本段落中句子之间深层关联关系的能力，以及准确地从段落中提取所需的字符串的能力，这是机器阅读理解所需的核心能力。

为了更有效地进行自监督学习训练，被替换为[MASK]字符的部分应该是有意义的词组，具有足够的信息量。为此，首先寻找在文本段落中出现两次的字符串，并选取需要满足以下条件的字符串：

(1)该字符串在文本段落中出现次数t满足2≤t≤4，因为频率过高的字符串往往是信息量低的；

(2)该字符串不包括停止词和标点符号，因为停止词和标点符号通常不会出现在问题的简短答案中；

(3)该字符串的长度不大于5个词，因为过长的字符串的上下文能够提供的信息较少。

自监督学习使用交叉熵损失函数训练机器阅读理解模型。给定一个p_mask，训练目标是最大化正确的起止位置的对数概率。具体地，训练目标函数为

其中

和

表示机器阅读理解模型输出的起止位置的概率，j是训练数据的编号，N是训练数据总数。

数据排序筛选：

使用一个数据排序筛选机制去除自监督学习数据中过于容易预测的低质量数据。该数据排序机制使用基于TF-IDF的数据打分函数，包含三个部分：

(1)Score_Pass：为了评估文本段落的质量，排除无意义的段落，计算段落中所有词的TF-IDF值之和。

(2)Score_Mask：为了评估被替换为[MASK]字符的词组的信息量，避免替换过于简单的、无意义的词组，计算被替换的词组中所有词的TF-IDF值之和。

(3)Score_ans：为了在存在多个答案位置的情况中选取更好的答案位置，计算[MASK]的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度，上下文为大小为10个词的窗口。两个句子(词语序列)之间可以利用各个词的TF-IDF数值计算相似度。

数据的打分为上述三个分数的加权和，即

Score＝Score_Pass+αScore_Mask+βScore_ans

其中α和β为超参数。

根据该分数对所有自监督数据由大到小进行排序，取分数最高的前N条数据进行自监督学习。

通过数据排序机制，机器阅读理解模型能够利用更高质量的段落进行更有效的学习。

迭代数据筛选：

在自监督数据中，并非所有的数据中的[MASK]字符都是可预测的，而这与阅读理解任务的设定不一致。为了减少这类不可预测的数据，使用了一个迭代数据筛选机制，以滤除预测概率低的自监督数据。

具体地，自监督数据首先被划分为5组。首先使用一组数据训练机器阅读理解模型，然后利用训练后的模型计算下一组各个数据的预测概率，去除概率小于某一设定阈值τ的数据。再利用剩余的数据继续训练机器阅读理解模型。重复上述过程，直到5组数据都被用于训练。

为计算数据的预测概率，首先利用模型计算文本段落中各个单词位置为开始和结束位置的概率，则一个子字符串的概率为其头尾的开始/结束概率的乘积。取子字符串概率最高的20个子字符串，对其概率进行Softmax归一化，数据的预测概率则为其中正确答案字符串的归一化概率，如果正确答案没有包含在概率最高的20个子字符串中，则数据的预测概率为0。

机器阅读理解模型：

本发明中的机器阅读理解模型可采取多种不同结构的模型，包括但不限于基于BERT(Bidirectional Encoder Representations from Transformers)等预训练语言模型的机器阅读理解模型。

问句转换：

在模型测试和实际使用阶段，为了解决无标注语料中的陈述句与阅读理解任务中的问句之间存在句法不一致问题，需要将问句转换为带有[MASK]符号的陈述句。具体地，如图2所示，在问题输入机器阅读理解模型之前，首先使用基于模板的问句转换算法，将问句中的疑问代词替换为带有[MASK]字符的模板，从而将问句转换为陈述句。随后，机器阅读理解模型根据转换后的陈述句，从给定的文本段落中抽取问题的答案。

以上实施例仅用于说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于自监督学习的无监督机器阅读理解训练方法，其步骤包括：

1）对于语料库中的自然语言文本段落，首先查找该自然语言文本段落中符合设定条件的词或词组，并将其中的一个词或词组替换为设定符号；利用统计信息对替换后的段落进行筛选，得到用于训练机器阅读理解模型的段落；其中筛选方法为：首先计算段落中所有词的TF-IDF值之和、计算被替换的词组中所有词的TF-IDF值之和、计算所述设定符号的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度；然后根据计算段落的分值，选取分值最高的前N条数据；其中α和β为超参数；

2）利用替换后的段落训练机器阅读理解模型；训练过程中，机器阅读理解模型根据段落中所述设定符号的上下文信息，从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置。

2.如权利要求1所述的方法，其特征在于，还包括一个迭代数据筛选机制；该迭代数据筛选机制利用在一部分自监督数据上训练得到的机器阅读理解模型，对剩余的自监督数据进行打分，去除分数低于设定阈值的自监督数据，利用剩余的自监督数据进行下一个迭代轮次的训练；所述自监督数据为利用统计信息筛选后所得的段落。

3.如权利要求1所述的方法，其特征在于，所述设定条件包括：(1)字符串在段落中重复出现；(2) 字符串不包括停止词和标点符号；(3) 字符串的长度不大于5个词。

4.如权利要求3所述的方法，其特征在于，重复出现次数t满足2≤t≤4。

5.如权利要求1或2所述的方法，其特征在于，所述设定符号为非英语单词。

6.一种机器阅读理解模型获取答案的方法，其步骤包括：

2）利用替换后的段落训练机器阅读理解模型；训练过程中，机器阅读理解模型根据段落中所述设定符号的上下文信息，从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置；

3）将阅读理解任务中的问句输入训练后的机器阅读理解模型之前，将问句中的疑问词转换为所述设定符号并将该问句转换为陈述句；然后将该陈述句输入训练后的机器阅读理解模型，训练后的机器阅读理解模型根据该陈述句从给定的文本段落中抽取对应的答案。

7.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。