CN108717413A

CN108717413A - 一种基于假设性半监督学习的开放领域问答方法

Info

Publication number: CN108717413A
Application number: CN201810253156.9A
Authority: CN
Inventors: 潘博远; 蔡登�; 姜兴华; 陈哲乾; 赵洲; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-10-30
Anticipated expiration: 2038-03-26
Also published as: CN108717413B

Abstract

本发明公开了一种基于假设性半监督学习的开放领域问答方法，包括：(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来；(2)假设给定问答训练集自带的文章是唯一的正标签，从语料库中抽取的所有文章都是负标签；(3)构建深度学习模型，通过训练一个文章打分器学习正标签的特征，训练一个阅读器从文章中选择正确答案；(4)进行文章相关性排序，将相关性高的前n个文章送入打分器内打分并根据分数重新标签；(5)重复步骤3和步骤4，直到模型收敛；(6)模型训练完毕，进行开放领域问答应用。利用本发明可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和答案的准确率。

Description

一种基于假设性半监督学习的开放领域问答方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于假设性半监督学习的开放领域问答方法。

背景技术

近年来，开放领域问答问题成为了自然语言处理中十分热门和棘手的问题。在这个任务中，给定一个语料库和一个问题，算法系统将从语料库中返回一个答案。它和机器阅读理解最大的不同就是它除了根据文章回答问题外还增加了从语料库寻找文章的过程。开放领域问答系统的应用十分广泛，因为传统的搜索引擎只能满足很小部分人需求并且返回的答案大部分只是网页链接而不是一个具体的答案。一个能从大量语料库中抽取文章并给出理想答案的问答系统能够被广泛应用到例如体育、法律、医学等领域。

由于知识库技术的发展，早期的开放领域问答任务都用知识库来作为知识来源。然而，人们也随之发现建造一个新知识库是十分耗时耗力的，并且知识库单一的结构也使很多问题得不到令人满意的答案。最近，由于机器阅读理解技术的发展，由原始文档组成的语料库顶替知识库进入了人们的视野。在2017年的国际自然语言处理顶级会议AnnualMeeting of the Association for Computational Linguistics中，论文《ReadingWikipedia to Answer Open-Domain Questions》的第3页到第5页公开了一种叫DrQA的开放领域问答方法，它在几个公开数据集上取得了可观的效果并受到了业内的好评和广泛应用。然而，这样的算法是在抽取文档这一步使用简单的信息检索系统然后直接将结果不加区分地送入阅读理解步骤中，所以过于简单并且没有语义分析，这将导致很多同义句的问题失去了能够匹配到包含答案的文章的机会。

发明内容

本发明提供了一种基于假设性半监督学习的开放领域问答方法，同时训练一个文章打分器和一个阅读器，可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和最终答案的准确率。

一种基于假设性半监督学习的开放领域问答方法，包括以下步骤：

(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来；

(2)假设给定问答训练集自带的文章是唯一的正标签，从语料库中抽取的所有文章都是负标签；

(3)构建深度学习模型，通过训练一个文章打分器来学习正标签文章的特征，同时训练一个阅读器以从文章中选择正确答案；

(4)进行文章相关性排序，将相关性高的前n个文章送入打分器内打分并根据分数重新标签；

(5)重复步骤3和步骤4，直到整个深度学习模型收敛；

(6)模型训练完毕，进行开放领域问答应用。

本发明将问答数据集中每个问题给定的文章和从语料库中抽取的文章混在一起，并假设只有问答数据集的文章是正标签，其余都是负的。同时训练一个文章打分器和一个阅读器，通过不断优化文章打分器来学习正标签文章的特征，希望能够对类似的文章打高分。在随后的训练步骤中不断地选一些相关度很高的抽取出来的文章进行重新标注，以增强正标签文章的多样性和整个算法的鲁棒性。整个算法以最大化正确答案的概率和打分系统对正标签的分数为目标来优化每个步骤。

步骤(1)的具体步骤为：将所有文章用词频-逆向文件频率加权的词袋来表示，并使用二维的n-gram模型对所有短语进行特征表达，设定每个问题匹配的文章数量后，使用倒排索引来匹配相关文章。

步骤(3)中，所述的文章打分器的训练过程为：

首先利用词向量Glove对所有的单词进行词嵌入，然后使用词性标注和实体命名识别获得文本的语法和语义信息，使用双向的长短时记忆网络对文本进行编码，并用一个矩阵来表达一篇文章，最后根据文章和问题的匹配度对文章进行打分，公式为：

s^k＝max(softmax(H^k*u^T)*H^k)

其中，H^k是第k篇文章P^k的表达矩阵，u^T是问题q的表达向量u的转置。

所述阅读器的训练过程为：

使用现有的知识库WordNet作为辅助工具，使用长短时记忆网络对文本进行编码，并引用注意力机制，得到文章和问题的注意力向量，计算公式为：

其中，h_i为文章第i个词的表达向量，u_j为问题第j个词的表达向量，F是关于WordNet向量r的一个非线性函数，ReLU是激活函数，e_ij为文章第i个词和问题第j个词的注意力向量。

得到文章和问题的注意力向量后，使用非线性函数获得答案字符串首字符和末字符的概率分布：

P_start＝softmax(exp(HW_su))

P_end＝softmax(exp(HW_eu))

其中，H为文章第i个词的表达向量的整合矩阵，u为问题第j个词的表达向量的加权平均向量，W_s和W_e是两个训练参数，P_start和P_end为答案字符串首字符和末字符的概率分布。

对于训练的模型，我们将文章打分器和阅读器的目标函数用一个线性函数结合了起来。在文章打分器中，我们的目标是最大化正标签文章的分数；在阅读器中，我们最大化正确答案首尾字母的概率；最终我们用一个线性函数将它们结合。

步骤(4)中用到了半监督学习，所述的相关性排序使用余弦距离函数，根据负标签的文章与原文章的距离进行排序。

训练模型时，目标函数由两部分的线性组合构成：目标函数1为最大化文章打分器对正确文章的打分，目标函数2为最大化阅读器给出的正确答案的概率分布。

步骤(6)中，在应用模型的时候，将之前文章打分器和阅读器的结果结合起来进行筛选，得到置信度最大的答案。

本发明基于假设性半监督学习方法具有以下有益效果：

1、本方法使用半监督学习的算法来自动重新标注从语料库中抽取的文章标签，不依赖任何外部知识来源或者人工标注，因此本方法可以被延用到大量的相关领域。

2、本发明的文章打分器采用深度学习神经网络模型来对文章和问题做出语义分析，避免了检索过程中单纯依靠字符串匹配所带来的信息遗漏。对于从语料库中抽取的文章做了后续的语意分析处理以匹配到正确的答案。

3、本发明充分利用了现有机器阅读理解数据集的信息，使用已有的高质量大型开源问答数据集中的文章和问题二元组来进行训练，使得人工匹配的高质量文章的特征能够被充分学习。

附图说明

图1为本发明基于假设性半监督学习的开放领域问答方法的流程示意图；

图2为本发明基于假设性半监督学习的开放领域问答方法的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好的理解本发明。

如图1所示，一种基于假设性半监督学习的开放领域问答方法，如图2所示，为本发明的结构示意图。本发明方法的具体步骤如下：

S01，使用信息检索技术从语料库中将与问题q相关的文章抽取出来。我们将所有文档用词频-逆向文件频率加权的词袋来表示，并使用二维的n-gram模型对所有短语进行特征表达。我们使用倒排索引来匹配相关文章，每个问题匹配的文章数量设定为5个。

S02，假设给定问答训练集自带的文章P^g是唯一的正标签，从语料库中抽取的所有文章{Pⁱ}_i＝1:N都是负标签。我们使用斯坦福阅读问答数据集作为训练集，这个数据集的形式是一个个的三元组(问题，文章，答案)，其中文章是包含这个问题的答案的。在开放领域问答任务中，我们本应只被提供二元组(问题，答案)，但我们使用机器阅读理解的数据集来训练，希望能够让模型学习正确文章的特征来提升从语料库中抽取文章的准确率。我们训练的时候使用三元组，然后针对问题使用步骤S01中的信息检索技术从语料库中抽取5篇文章，与三元组中的文章混合在一起。我们假设三元组中的文章是正标签，从语料库中抽取出来的所有文章都是负标签。

S03，通过优化一个文章打分器来学习正标签的特征，训练阅读器以从文章中选择正确答案。我们的整个深度学习模型大致分为两个部分，一个是文章打分器，另一个是阅读器。我们的文章打分器是给定一个问题和一个文章，然后根据文章和问题的匹配度对这个文章进行打分。

我们首先利用词向量Glove对所有的单词进行词嵌入，然后使用词性标注和实体命名识别获得文本的语法和语义信息。我们使用双向的长短时记忆网络对文本进行编码，并用一个矩阵来表达一篇文章。

然后使用下面的公式来计算每个文章的分数：

s^k＝max(softmax(H^k*u^T)*H^k)

值得注意的是，在训练中我们将三元组中的文章和抽取的文章混在一起，不加分别地送入打分器来打分；在测试过程中，打分器将不会得到三元组中给定的正确文章，它的全部文章都来自从语料库中抽取的文章。

我们的阅读器是给定二元组(问题，文章)，从文章中找出问题的答案(是文章中的一个连续字符串)并输出。为了增强模型对词语类型的理解，我们使用现有的知识库WordNet作为辅助工具。与之前的文章打分器相同，我们也使用长短时记忆网络落编码输入的文本并引用注意力机制来增强模型的理解能力：

在获得了文章和问题的注意力向量后，我们使用一个简单的非线性函数来获得答案的概率分布：

P_start＝softmax(exp(HW_su))

P_end＝softmax(exp(HW_eu))

其中，H为上文中h_i的整合矩阵，u为上文中u_j的表达向量的加权平均向量，W_s和W_e是两个训练参数，P_start和P_end为答案字符串首字符和末字符的概率分布。

对于训练的目标函数，我们将文章打分器和阅读器的目标函数用一个线性函数结合了起来。在文章打分器中，我们的目标是最大化正标签文章的分数；在阅读器中，我们最大化正确答案首尾字母的概率；最终我们用一个线性函数将它们结合。

S04，逐渐根据文章的相关性挑选一部分负标签来重新标注，以增强正标签的多样性。这一步我们就用到了半监督学习，因为我们不希望原本训练集三元组中的文章是唯一的正标签，因为这样会导致语料库中与训练集形式不同的文章被打很低的分。我们使用余弦距离函数来决定哪些文章需要被重新定义标签。与原文章距离最小的几篇文章将被优化后的打分器重新打分，根据分数的高低来决定是否需要被重新标签。训练时，我们的目标函数由两部分的线性组合构成：目标函数1为最大化文章打分器对正确文章的打分，目标函数2为最大化阅读器给出的正确答案的概率分布。

S05，重复S03和S04，直到整个深度学习模型收敛。

S06，在使用模型的时候，我们将之前文章打分器和阅读器的结果相乘，得到综合分数最高的答案。

为验证本发明方法的有效性，在SQuAD、WebQuestion、WikiMoviews、CuratedTREC四个数据集上进行了对比实验。SQuAD数据集是斯坦福大学公开的机器阅读理解数据集，包括了训练集中的八万个样例和测试集中的一万个样例；WebQuestion是从知识库Freebase抽取的问答数据集；WikiMoviews是基于OMDb和MovieLens知识库所构建的问答数据集，答案都能从维基百科中找到；CuratedTREC是基于TREC而为开放领域问答任务专门设计的数据集。

本实验在测试集上与目前最有效的同类方法DrQA做了比较，对比结果如表1所示。从结果看出，我们的方法(HSSL)相比于同类方法在四个数据集上都具有明显更高的准确率。我们也对本发明所用到的各项方法做出了对比试验(表1前5行)，可以看到在减去了任何一项后我们的方法都在EM匹配和F1分数上有所下降。

表1

同时，我们也设计实验证明了我们提出的算法对文章检索质量的帮助。如表2所示，我们在四个数据集上分别尝试了不用文章打分器而直接将信息检索系统的结果无差别地输入到阅读器中。结果显示我们的方法显著提高了正确答案的召回率(Recall)。在SQuAD数据集上我们的方法将召回率提升了8个百分点，在其余数据集上也提升了接近4个百分点左右。

表2

由于当前高质量的大型训练数据集以英文文本为主，我们采用的都是英文数据集。我们在表3中列出了几个例子以证明本方法的有效性，其中上半部分是问答数据集中给出的问题，答案和文章三元组；下半部分是从语料库中检索出并由打分器给出的排名最高的三篇文章。可以看出，我们的打分器对于和原文章最像的检索文章给了很高的分数，对于含有正确答案的文章也给了较高的分数。

表3

Claims

1.一种基于假设性半监督学习的开放领域问答方法，其特征在于，包括以下步骤：

(5)重复步骤3和步骤4，直到整个深度学习模型收敛；

(6)模型训练完毕，进行开放领域问答应用。

2.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法，其特征在于，步骤(1)的具体步骤为：

将所有文章用词频-逆向文件频率加权的词袋来表示，并使用二维的n-gram模型对所有短语进行特征表达，设定每个问题匹配的文章数量后，使用倒排索引来匹配相关文章。

3.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法，其特征在于，步骤(3)中，所述的文章打分器的训练过程为：

s^k＝max(softmax(H^k*u^T)*H^k)

4.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法，其特征在于，步骤(3)中，所述阅读器的训练过程为：

使用现有的知识库WordNet作为辅助工具，使用长短时记忆网络对文本进行编码，并引用注意力机制，得到文章和问题的注意力向量，最后使用非线性函数获得答案字符串首字符和末字符的概率分布：

P_start＝softmax(exp(HW_su))

P_end＝softmax(exp(HW_eu))

5.根据权利要求4所述的基于假设性半监督学习的开放领域问答方法，其特征在于，所述文章和问题的注意力向量的计算公式为：

6.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法，其特征在于，步骤(4)中，所述的相关性排序使用余弦距离函数，根据负标签的文章与原文章的距离进行排序。

7.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法，其特征在于，步骤(6)中，在模型应用时，将文章打分器和阅读器的结果结合起来进行筛选，得到分数最高的答案。