CN112417119A

CN112417119A - 一种基于深度学习的开放域问答预测方法

Info

Publication number: CN112417119A
Application number: CN202011299830.0A
Authority: CN
Inventors: 徐玉鹏; 程帆; 张冬梅
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-26

Abstract

本发明涉及一种基于深度学习的开放域问答预测方法，该方法包括以下步骤：S1：获取维基百科训练语料并对其建立索引；S2：根据问题通过检索获得相关性最高的多篇文章，并切分成段落，最终输出多个得分最高的段落；S3：使用SQuAD数据集训练一个机器阅读理解模型；S4：以多个得分最高的段落以及问题作为输入，通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。与现有技术相比，本发明具有高效、精确、快速等优点。

Description

一种基于深度学习的开放域问答预测方法

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于深度学习的开放域问答预测方法。

背景技术

机器阅读理解(MRC)旨在教机器阅读和理解人类语言，这是自然语言理解(NLP)领域的长期目标，随着深度学习的蓬勃发展，机器阅读理解任务也取得了极大的突破。

类似IBM的DeepQA这样的大型QA系统依赖与多个知识源来回答问题，除了维基百科，它还使用了知识库(knowledge base)，新闻以及图书等，但是这样的系统过度依赖冗余的信息来正确回答问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的开放域问答预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的开放域问答预测方法，该方法包括以下步骤：

S1：获取维基百科训练语料并对其建立索引；

S2：根据问题通过检索获得相关性最高的多篇文章，并切分成段落，最终输出多个得分最高的段落；

S3：使用SQuAD数据集训练一个机器阅读理解模型；

S4：以多个得分最高的段落以及问题作为输入，通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。

所述的步骤S1具体包括以下步骤：

S11：获取维基百科语料作为知识库；

S12：对维基百科语料进行分词预处理(tokenize)；

S13：对维基百科文章建立索引。

所述的步骤S2中，根据问题从维基百科的文章中检索获得相关性最高的5篇文章。

所述的步骤S2具体包括以下步骤：

S21：对问题进行预处理，得到问题的bag-of-words信息；

S22：通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。

所述的步骤S3具体包括以下步骤：

S31：段落编码：首次将段落p中的每一个段落token(分词)p_i表示为一个特征向量

并且其作为多层LSTM网络的输入，则有：

其中，下标m为段落token的总数；

S32：问题编码：以问题的每一个问题tokenq_i的词向量作为另一个LSTM网络输入，并且将隐藏单元拼接成一个向量{q₁,…,q_l}→q，通过q＝∑_jb_jq_j计算得到问题的编码，其中，b_j为问题中第j个词的重要程度。

所述的步骤S32中，问题中第j个词的重要程度b_j的计算式为：

其中，w为要学习的权重，q_j、q_j′分别为问题中第j和j′个词。

所述的步骤S4中，以段落向量{P₁,…,P_m}和问题向量q作为输入，分别训练两个分类器来预测答案的开始和结束位置。

所述的步骤S4中，在训练阶段，采用双线性函数计算每个token作为开始和结束位置的概率，则有：

P_start(i)∝exp(p_iW_sq)

P_end(i)∝exp(p_iW_eq)

其中，P_start(i)为第i个段落token p_i作为开始位置的概率，P_end(i)为第i个段落token p_i作为结束位置的概率，W_s和W_e分别为答案片段开始和结束位置的可学习的参数矩阵。

所述的步骤S4中，在预测阶段，选择答案片段位置为token i到token i′，其中i≤i′≤i+15，并且最大化P_start(i)×P_end(i′)。

所述的步骤S4中，以5个得分最高的段落以及问题作为输入，通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。

与现有技术相比，本发明具有以下优点：

一、本发明使用TF-IDF方法，高效地从百万级别文章中找出相关度最高的多篇文章。

二、在本发明中，只有维基百科一个知识源，这样能够迫使模型非常精确。

三、本发明中阅读理解模型使用多层LSTM模型来预测答案片段在文章中的起始位置，准确快速。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的模型架构图。

图3为本发明的具体实施过程。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1-3所示，本发明提供一种基于深度学习的开放域问答系统实现方法，包括以下步骤：

1)获取维基百科样本数据，进行预处理；

2)根据问题检索出相关性最高的段落；

3)使用SQuAD数据集训练一个多层LSTM模型；

4)将候选段和问题作为输入，输入LSTM模型，获得答案在文章中的起始位置；

各步骤具体过程如下：

步骤1)获取维基百科样本数据，进行预处理，具体包括：

11)从wiki官网下载英文语料，下载完成后对每篇文章只保留文本数据，去掉表格，列表等结构化数据；

12)对文本数据进行规范化处理；

13)使用StanfordCoreNLPTokenizer对文本数据进行tokenize；

14)使用TF-IDF方法对各个文章建立索引

步骤2)根据问题检索出相关性最高的段落，具体包括：

21)对问题进行预处理，得到问题的bag-of-words信息；

22)通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章；

步骤3)使用SQuAD数据集训练一个多层LSTM机器阅读理解模型

31)段落编码Paragraphencoding：首次把段落p中的每一个tokenp_i表示为一个特征向量

并且把他们作为输入，输入到多层LSTM网络

32)问题编码Questionencoding：以问题的每一个tokenq_i的wordembedding作为输入，输入给另一个LSTM网络，并且把隐藏单元拼接成一个向量：

{q₁,…,q_l}→q

通过q＝∑_jb_jq_j计算得到问题的encoding，其中b_j是问题中每一个词的重要程度，计算方法如下：

其中w是要学习的权重；

步骤4)将候选段和问题作为输入，输入LSTM模型，获得答案在文章中的起始位置，具体包括：

41)以段落向量{P₁,…,P_m}和问题向量q作为输入，分别训练两个分类器来预测答案的开始和结束位置，具体的，使用双线性函数来计算每个token作为开始和结束位置的概率：

P_start(i)∝exp(p_iW_sq)

P_end(i)∝exp(p_iW_eq)

42)在预测阶段，选择答案片段位置tokeni到tokeni′，其中i≤i′≤i+15，并且最大化P_start(i)×P_end(i′)，W_s和W_e分别为答案片段开始和结束位置的可学习的参数矩阵。

本发明使用Wikipedia作为唯一的知识源，通过对wikipedia建立索引，以及使用深度学习模型来实现机器阅读理解模型，成功实现了一个开放域的问答系统。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的开放域问答预测方法，其特征在于，该方法包括以下步骤：

S1：获取维基百科训练语料并对其建立索引；

S3：使用SQuAD数据集训练一个机器阅读理解模型；

2.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S1具体包括以下步骤：

S11：获取维基百科语料作为知识库；

S12：对维基百科语料进行分词预处理；

S13：对维基百科文章建立索引。

3.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S2中，根据问题从维基百科的文章中检索获得相关性最高的5篇文章。

4.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S2具体包括以下步骤：

S21：对问题进行预处理，得到问题的bag-of-words信息；

5.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S3具体包括以下步骤：

S31：段落编码：首次将段落p中的每一个段落token p_i表示为一个特征向量

并且其作为多层LSTM网络的输入，则有：

其中，下标m为段落token的总数；

S32：问题编码：以问题的每一个问题token q_i的词向量作为另一个LSTM网络输入，并且将隐藏单元拼接成一个向量{q₁，...，q_l}→q，通过q＝∑_jb_jq_j计算得到问题的编码，其中，b_j为问题中第j个词的重要程度。

6.根据权利要求5所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S32中，问题中第j个词的重要程度b_j的计算式为：

7.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S4中，以段落向量{P₁，...，P_m}和问题向量q作为输入，分别训练两个分类器来预测答案的开始和结束位置。

8.根据权利要求7所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S4中，在训练阶段，采用双线性函数计算每个token作为开始和结束位置的概率，则有：

P_siart(i)∝exp(p_iW_sq)

P_end(i)∝exp(p_iW_eq)

其中，P_start(i)为第i个段落token p_i作为开始位置的概率，P_end(i)为第i个段落tokenp_i作为结束位置的概率，W_s和W_e分别为答案片段开始和结束位置的可学习的参数矩阵。

9.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S4中，在预测阶段，选择答案片段位置为token i到token i′，其中i≤i′≤i+15，并且最大化P_siart(i)×P_end(i′)。

10.根据权利要求1所述的一种基于深度学习的开放域问答预测方法，其特征在于，所述的步骤S4中，以5个得分最高的段落以及问题作为输入，通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。