CN112445887B

CN112445887B - 基于检索的机器阅读理解系统的实现方法及装置

Info

Publication number: CN112445887B
Application number: CN201910808954.8A
Authority: CN
Inventors: 严德美; 周小多; 程龚; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2024-05-03
Anticipated expiration: 2039-08-29
Also published as: CN112445887A

Abstract

基于检索的机器阅读理解系统的实现方法及装置，包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块，文本初步检索模块被配置为事先构造领域文档集合，提取文档集合特征，将用户提出的问题和领域文档集合中的文档计算相似度，返回相似度最高的前x个文档给检索结果重排序模块，检索结果重排序模块根据所得x个文档与问题重新计算相关性，并将相关性最高的文档传导至机器阅读理解模块，机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明针对用户的问题找到最相关的文档，将得到的文档和用户的问题交给机器阅读理解模型，最终得到问题对应的答案，构成了一个基于检索的机器阅读理解系统，提高问题类搜索的效率。

Description

基于检索的机器阅读理解系统的实现方法及装置

技术领域

本发明属于计算机技术领域，涉及文本检索和自然语言的机器阅读理解，为一种基于检索的机器阅读理解系统。

技术背景

随着科技的发展，信息的高效和快速的获取对人们来说越来越重要，当用户在网络搜索问题的答案时，现有的搜索引擎不仅仅返回一个检索文档的列表，而是同时会阅读和理解这些互联网文档并且高亮显示最有可能的答案在检索结果的前列。如何利用文本检索和机器阅读理解技术来帮助用户查找到满意的答案，是自然语言处理和信息检索技术研究领域中的一个经典课题。文本检索作为信息检索的一个子领域，让机器具备从海量的互联网文本中检索出用户所需的相关文本；机器阅读理解作为自然语言理解的一个子领域，让机器具备自然语言的阅读理解与问答能力，一直是学术界和工业界关注的热点问题，也是目前智能语音和人机交互的核心难题。机器阅读理解(Machine ReadingComprehension)是让机器像人类一样通过阅读自然语言文本，然后经过推理总结，从而能够精准地回答和阅读内容相关的问题。

机器阅读理解方法分为两类：分别为生成式和抽取式。生成式是从理论上来说不受知识的局限，对于问题自动生成答案，但是生成式有时生成的答案和用户的问题没关系，语法和句式上存在很大错误，不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章进行训练，让机器具备阅读理解的能力，并对测试集中的新问题，在相关文章中抽取出相应的答案。相对于生成式来说，抽取式的技术优势更加明显，应用更为广泛。

近年来机器阅读理解的进步主要归功于：大规模以篇章、问题、答案三元组形式的监督数据集的构建，以及深度神经阅读理解模型的发展。传统的方法大多是基于规则的词袋方法加上一些语言学上的处理，例如词干、语义类别识别和指代消解，这种方法的代表是DEEP READ系统；或者是手动地基于词汇和语义对应生成一些规则，这种方法的代表是QUARC系统。在2013年到2015年期间，研究者们创建了以篇章、问题、答案三元组形式的人工标注的阅读理解数据集并且将阅读理解问题形式化为一个监督学习的问题，他们希望能够训练一个统计学模型将篇章，问题对映射到对应的答案。自斯坦福机器阅读理解数据集SQuAD问世以来，经过谷歌、斯坦福大学、艾伦研究院、微软、腾讯、百度、科大讯飞等在内的众多研究机构的不懈努力，形成了机器阅读理解的pipleline，即“词嵌入，语义编码，语义交互，答案边界预测”这样一套四层机器阅读理解模型体系，这种体系的代表方法有BIDAF，Match-LSTM，R-net，QANet等。该体系主要思想是：首先将问题和篇章中的每个词映射到高维语义空间，其次将问题和篇章分别进行编码，以获得关于上下文的信息，接着将问题的编码和篇章的编码进行融合使得机器学习到语义交互信息，然后根据语义交互信息生成边界开始位置和边界结束位置的概率分布，分别取最大概率值对应的边界起始位置，由边界起始位置从文章中抽取出答案片段。

现在，通过搜索引擎来搜索问题，会返回问题相关的网页，用户需要点击网页进行浏览，查找自己需要的答案。然而有时候问题答案对应的网页可能会排得靠后并且用户需要阅读长长的网页内容才能找到答案，这个过程很耗时，如果搜索引擎能够针对用户的问题，准确为用户返回问题对应的答案，这将会极大的节省用户宝贵的时间，提高搜索效率，并且带来良好的用户体验。

发明内容

本发明要解决的问题是：现有技术中，搜索引擎的反馈为一系列网页文档，不能直接返回答案，针对问题搜索答案的效率不高。

本发明的技术方案为：基于检索的机器阅读理解系统的实现方法，包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块，文本初步检索模块被配置为事先构造领域文本集合，提取文本集合特征，对用户提出的问题，与领域文本集合中的文档计算相似度，得到相似度最高的前x个文档作为初步排序结果，将初步排序结果返回给检索结果重排序模块，检索结果重排序模块根据所述x个文档与问题重新计算相关性，并将相关性最高的文档传导至机器阅读理解模块，机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。

作为优选方式，所述文本初步检索模块事先构造领域文本集合，提取文本集合特征，包括：

根据基于检索的机器阅读理解系统所要对应的领域构建领域文本集合，对搜集的文档进行分词，使用基于bigram的TFIDF方法提取文档的词频特征，提取文档的词频特征具体方法为：

TFIDF_{uni_bi}＝log(tf+1)×log((N-Nt+0.5)/(Nt+0.5))

其中tf表示unigram,bigram的token对应的频率，Nt表示unigram,bigram的token所出现的文档数目，N表示总的文档数目；将每个文档表示成unigram,bigram的token的向量形式，即TFIDF_{uni_bi}值组成的矩阵，对于用户提出的问题也表示成相应的向量形式，将问题向量与文档集合对应的矩阵进行点积，对文档按照点积值进行降序排列，返回点积值最大的前x篇文档。

作为优选方式，所述检索结果重排序模块对初步排序结果进行重排序，具体如下：

将用户提出的问题与初步检索得到的x篇文档分别计算score值，计算方式如下：

其中query_n-gram表示用户提出问题的n-gram集合，content_n-gram表示文档的n-gram集合，com表示两个集合交集的元素数目，count(query_n-gram)表示query_n-gram集合元素数目，这里M取4，最后取score最大的文档和用户提出的问题传导至机器阅读理解模块。

作为优选方式，所述机器阅读理解模块包括四层结构，第一层是词的预训练表示层，根据文本语料通过无监督学习的方法ELMo训练得到关于词的向量表示；第二层是上下文表示层，用于将上一层得到的词向量的表示经过两层的双向GRU层；第三层是双向注意力层，实现文章到问题的注意力机制和问题到文章的注意力机制，以获得文章关于问题的表示和问题关于文章的表示；第四层是答案指针层，计算注意力分布，将注意力分布作为一个软性的指针来输出答案的开始位置和结束位置，抽取出问题对应的答案。

本发明还提出了基于检索的机器阅读理解系统的实现装置，所述装置具有数据处理器和存储器，在所述装置中配置有计算机程序，所述计算机程序被执行时实现上述的基于检索的机器阅读理解方法。

本发明在现有技术的基础上进一步研究，提出了一种新的基于检索的机器阅读理解解决方案。通过构建领域文档集合，提取文档特征向量，将用户的问题转换成对应的特征向量，利用特征向量的点积计算问题与文档的相似度，根据相似度进行排序，对排序结果进行重排序得到最相关的文档，将得到的文档和用户的问题交给机器阅读理解模型，最终得到问题对应的答案，构成了一个基于检索的机器阅读理解系统。

本发明能够有效实现根据问题来进行的机器阅读理解，有利于提高检索效率。

附图说明

图1为本发明基于检索的机器阅读理解系统整体示意图。

图2为本发明机器阅读理解模型框架示意图。

具体实施方式

本发明提出了一种基于检索的机器阅读理解系统的实现方法，根据用户输入的检索问题，由机器阅读理解后，直接返回用户问题对应的答案，包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块，文本初步检索模块构造领域文本集合，提取文本集合特征，对用户提出的问题，与领域文本集合中的文档计算相似度，得到相似度初步排序结果，检索结果重排序模块选择相似度高几个文档与问题再计算相关性，并将相关性最高的文档传导至机器阅读理解模块，机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明中提到的“文本”“文档”和“文章”三个术语，这是三个不同的概念，文本是一个抽象概念，是对互联网上的文字集合的一种抽象(抽象说法)，文档表示一个文本实体，比如说一个网页文本中的文字组成了一个文档，而文章(英文对应为passage)是指文档里面文字表述的一个段落。

所述文本初步检索模块事先构造领域文本集合，提取文本集合特征，包括：

TFIDF_{uni_bi}＝log(tf+1)×log((N-Nt+0.5)/(Nt+0.5))

其中tf表示unigram,bigram的token对应的频率，Nt表示unigram,bigram的token所出现的文档数目，N表示总的文档数目，加0.5是为了防止算术异常的情况；将每个文档表示成unigram,bigram的token的向量形式，即TFIDF_{uni_bi}值组成的矩阵，对于用户提出的问题也表示成相应的向量形式，将问题向量与文档集合对应的矩阵进行点积，对文档按照点积值进行降序排列，返回点积值最大的前x篇文档。

检索结果重排序模块对初步排序结果进行重排序，具体如下：

机器阅读理解模块包括四层结构，第一层是词的预训练表示层，根据文本语料通过无监督学习的方法ELMo训练得到关于词的向量表示；第二层是上下文表示层，用于将上一层得到的词向量的表示经过两层的双向GRU层；第三层是双向注意力层，实现文章到问题的注意力机制和问题到文章的注意力机制，以获得文章关于问题的表示和问题关于文章的表示；第四层是答案指针层，计算注意力分布，将注意力分布作为一个软性的指针来输出答案的开始位置和结束位置，抽取出问题对应的答案。

机器阅读理解模块基于神经网络模型实现，下面介绍优选实现方式。

所述双向注意力层，用于获得文章到问题的注意力和问题到文章的注意力，具体如下：

令H∈R^2d×T,U∈R^2d×J分别表示文章和问题的上下文表示向量，T，J分别表示文章中词数和问题中词数，R表示实数集合，d表示维度，首先计算文章和问题的相似度矩阵S_tj，计算方式如下：

S_tj＝σ(H_:t,U_:j)∈R

σ(h,u)＝V_s ^Ttanh(W_s[h；u])

t、j分别表示T、J的变量，H_:t、U_:j分别是H和U的第t、j列向量，[h；u]表示h,u拼接形成的向量，W_s[h；u]表示矩阵乘法，V_s、W_s为相似度计算参数；

文章到问题的注意力通过以下式子得到：

问题到文章的注意力通过以下式子得到：

softmax_row(S)、softmax_col(S)分别表示对矩阵S的行运算和列运算，矩阵S的元素即为S_tj；最后上下文表示向量和注意力向量合并起来产生问题感知的文章表示向量G，具体如下：

所述的答案指针层和计算注意力分布具体如下：

先构建答案循环网络的初始状态向量：

s_j＝V^Ttanh(W_uU_j+W_vV_r)

W_u∈R^2d×2d，V∈R^2d，W_v∈R^2d×2d，V_r∈R^2d为循环网络参数，U_j∈R^2d为问题中第j个词的向量表示；

然后利用答案指针获得开始位置的概率分布start，并得到预测答案开始位置p_start：

开始位置Lstart_z＝V^Ttanh(W_GG_:z+W_rr)

开始位置概率

p_start＝argmax(start₁,start₂,…,start_T)。

将注意力分布作为一个软性的指针来输出答案的结束位置，利用开始位置的概率分布和答案指针网络来计算结束位置的概率分布end_i，并得到预测答案结束位置p_end，具体如下：

h_e＝RNN(h_e-1,c)

结束位置Lend_z＝V^Ttanh(W_GG_:z+W_hh_e)

结束位置概率

p_end＝argmax(end₁,end₂,…,end_T)

h_e和h_e-1表示RNN网络中的隐状态。

上述计算中，利用交叉熵计算损失，使用梯度下降法和误差反向传播来求解循环神经网络模型的参数，具体如下：

θ←θ-∈Δθ

L(θ)表示交叉熵损失，表示求偏导，∈为学习率，K表示start和end的向量长度，表示标注的真实的开始和结束位置的分布。start和end都是向量,/>是标注的真实的开始结束位置，来自于用户标注的数据，/>是指取start的第/>项，比如那/>就表示start的第三项。利用交叉熵计算损失，以及使用梯度下降法和误差反向传播来求解循环神经网络模型的参数，为现有神经网络的常用计算手段，不再详述。

本发明还提供基于检索的机器阅读理解系统的实现装置，所述装置具有数据处理器和存储器，在所述装置中配置有计算机程序，所述计算机程序被执行时实现上述的基于问题检索进行机器阅读理解得到答案的方法。

下面结合附图，以一个实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。应当理解，表述中所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

步骤101：文本初步检索模块采用Les_MMRC数据集来构建领域文本，使用python分词工具包对数据集中的文章集合和问题进行分词，得到文章和问题中unigram和bigram集合，n-gram是计算机语言学和概率论范畴内的概念，是指给定的一段文本或语音中n个项目(item)的序列，n＝1时称为unigram，n＝2称为bigram，本发明中以词为一个项目，unigram表示单个词，比如“阅读”“理解”，bigram表示连续的两个词，比如“阅读理解”，token表示一个词块的统称，比如上述的“阅读”“理解”“阅读理解”都是一个token，使用murmur3 hash将unigram和bigram token哈希到词的id，hashsize设置为2²³，基于文档集建立基于bigram的TFIDF矩阵，行代表id，列代表文档号docid，对于问题也计算对应的TFIDF向量，将问题向量与文档集矩阵相乘，取值最高的前10篇文档，这里使用scipy包里的sparse进行稀疏矩阵存储和运算。

步骤102：检索结果重排序模块对前一模块的10篇文章和问题。

计算字符级别的n-gram的匹配度，这里将分词后的问题和文章分别重新拼接成完整的句子再进行计算，并选择匹配度最高的文章作为重排序模块的结果。

步骤103：机器阅读理解模块，根据检索结果重排序模块得到的文章和问题得到相应的预训练特征向量X∈R^2d×T、Q∈R^2d×J，将文章和问题的特征表示输入上下文表示层得到文章和问题的上下文表示H∈R^2d×T、U∈R^2d×J，紧接着输入双向注意力层得到双向注意力表示G∈R^8d×T，最后输入到答案指针层获得答案的开始位置和结束位置p_start、p_end，最终根据开始结束位置从文章中抽取出问题对应答案，本模块使用TensorFlow进行实现，batchsize设置为128，学习率设置为0.001，dropout设置为0.2，训练的优化器选择Adam,训练10个epochs，每个epoch结束之后在验证集上进行模型的评价。文章最大词数设置为400，问题最大词数设置为80，答案最大词数设置为40。

步骤103所述得到预训练特征向量，其过程为将Les_MMRC数据集中的训练集和验证集中的文章和问题使用中文标点符号[。？！]等分成句子集合，使用ELMo源码(https://github.com/allenai/bilm-tf)预训练特征向量，其中projection_dim设置为150，其余参数和源码一样，最终训练得到的向量维度为300，即d＝150。

作为优选，步骤103所述上下文表示层由两层的双向GRU组成，num_units设置为150。

步骤103所述双向注意力层中的σ(h,u)＝V_s ^Ttanh(W_s[h；u])，其中W_s∈R^2d×4d，V_s∈R^2d为参数，为对S中行使用softmax进行归一化操作，/>为对S中列使用softmax进行归一化操作。

步骤103中，答案指针层的神经网络模型为s_j＝V^Ttanh(W_uU_j+W_vV_r)，其中W_u∈R^2d×2d，V∈R^2d，W_u∈R^2d×2d，V_r∈R^2d为参数，U_j∈R^2d为问题中第j个词的向量表示，注意力分布的公式Lstart_z＝V^Ttanh(W_GG_:z+W_rr)中，W_G∈R^2d×2d，V∈R^2d，W_r∈R^2d×2d为参数，G_:z∈R^2d为双向注意力表示的第j项，h_e＝RNN(h_e-1,c)为c经过一次RNN之后的结果。

步骤103所述的从文章中抽取出问题对应答案为从文章中取出p_start到p_end之间的词组成答案，具体为content[p_start:p_start+1]，其中content为文章分词之后的结果。

步骤103所述的在验证集上进行模型的评价，评价指标使用的自然语言处理领域常见指标Bleu-4和Rouge-L，每一个epoch结束之后在验证集上对当前训练的模型进行评价，得到当前epoch两个指标的得分BleuScore,RougeScore，与当前最大的Rouge-L的得分maxRougeScore比较，若当前epoch的RougeScore大于maxRougeScore，则保存训练的模型并将maxRougeScore更新为RougeScore，否则不变，初始maxRougeScore等于0。

Claims

1.基于检索的机器阅读理解系统的实现方法，其特征是包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块，文本初步检索模块被配置为事先构造领域文本集合，提取文本集合特征，对用户提出的问题，与领域文本集合中的文档计算相似度，得到相似度最高的前x个文档作为初步排序结果，将初步排序结果返回给检索结果重排序模块，检索结果重排序模块根据所述x个文档与问题重新计算相关性，并将相关性最高的文档传导至机器阅读理解模块，机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案；

所述检索结果重排序模块对初步排序结果进行重排序，具体如下：

其中query_n-gram表示用户提出问题的n-gram集合，content_n-gram表示文档的n-gram集合，com表示两个集合交集的元素数目，count(query_n-gram)表示query_n-gram集合元素数目，这里M取4，最后取score最大的文档和用户提出的问题传导至机器阅读理解模块；

所述机器阅读理解模块包括四层结构，第一层是词的预训练表示层，根据文本语料通过无监督学习的方法ELMo训练得到关于词的向量表示；第二层是上下文表示层，用于将上一层得到的词向量的表示经过两层的双向GRU层；第三层是双向注意力层，实现文章到问题的注意力机制和问题到文章的注意力机制，以获得文章关于问题的表示和问题关于文章的表示；第四层是答案指针层，计算注意力分布，将注意力分布作为一个软性的指针来输出答案的开始位置和结束位置，抽取出问题对应的答案；

所述双向注意力层，被设计成获得文章到问题的注意力和问题到文章的注意力，具体如下：

令H∈R^2d×T，U∈R^2d×J分别表示文章和问题的上下文表示向量，T，J分别表示文章中词数和问题中词数，R表示实数集合，d表示维度，首先计算文章和问题的相似度矩阵S_tj，计算方式如下：

S_tj＝σ(H_：t，U_：j)∈R

t、j分别表示T、J的变量，H_：t、U_：j分别是H和U的第t、j列向量，[h；u]表示h，u拼接形成的向量，W_s[h；u]表示矩阵乘法，V_s、W_s为相似度计算参数；

文章到问题的注意力通过以下式子得到：

问题到文章的注意力通过以下式子得到：

2.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法，其特征是所述文本初步检索模块事先构造领域文本集合，提取文本集合特征，包括：

TFIDF_{uni_bi}＝log(tf+1)×log((N-Nt+0.5)/(Nt+0.5))

其中tf表示unigram，bigram的token对应的频率，Nt表示unigram，bigram的token所出现的文档数目，N表示总的文档数目；将每个文档表示成unigram，bigram的token的向量形式，即TFIDF_{uni_bi}值组成的矩阵，对于用户提出的问题也表示成相应的向量形式，将问题向量与文档集合对应的矩阵进行点积，对文档按照点积值进行降序排列，返回点积值最大的前x篇文档。

3.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法，其特征是所述的答案指针层和计算注意力分布基于循环神经网络RNN实现，具体如下：

先构建答案循环网络的初始状态向量：

s_j＝V^Ttanh(W_uU_j+W_vV_r)

W_u，V，W_v，V_r为循环网络参数，U_j为问题中第j个词的向量表示；

开始位置Lstart_z＝V^Ttanh(W_GG_：z+W_rr)

开始位置概率分布

p_start＝argmax(start₁，start₂，...，start_T)。

4.根据权利要求3所述的基于检索的机器阅读理解系统的实现方法，其特征是所述的将注意力分布作为一个软性的指针来输出答案的结束位置具体为：利用开始位置的概率分布和答案指针网络来计算结束位置的概率分布end，并得到预测答案结束位置p_end，具体如下：

h_e＝RNN(h_e-1，c)

结束位置Lend_z＝V^Ttanh(W_GG_j+W_hh_e)

结束位置概率分布

p_end＝argmax(end₁，end₂，...，end_T)

h_e和h_e-1表示RNN网络中的隐状态。

5.根据权利要求1或3或4所述的基于检索的机器阅读理解系统的实现方法，其特征是利用交叉熵计算损失，使用梯度下降法和误差反向传播来求解循环神经网络模型的参数，具体如下：

θ←θ-∈Δθ

L(θ)表示交叉熵损失，表示求偏导，∈为学习率，K表示start和end的向量长度，表示标注的真实的开始和结束位置的分布。

6.基于检索的机器阅读理解系统的实现装置，其特征是所述装置具有数据处理器和存储器，在所述装置中配置有计算机程序，所述计算机程序被执行时实现权利要求1-5任一项所述的方法。