一种面向全局的机器阅读理解建模中的候选答案筛选方法
技术领域
本发明涉及一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。
背景技术
大规模数据集在一个研究领域的推进中发挥着极其重要的作用。在机器阅读理解领域也发布了几个数据集,极大地促进了此领域的研究。例如针对SQuAD数据集,有几个机器阅读理解模型的性能已经超过了人工标注。中文方面规模较大的数据集则是DuReader,它是一份大规模的人工标注的面向真实世界的开放领域的阅读理解数据集,其中的问题和篇章均收集于搜索引擎,答案也均为人工标注。
在阅读理解任务中,对于一个问题,可能存在多篇文章可以提供必要的答案信息。但是,如果将所有篇章的所有段落均送入流行的阅读理解模型中,将极大降低训练和预测的效率。因此,需要预先进行候选答案筛选。目前答案筛选的方法是:从每个篇章中根据召回率筛选一个段落作为候选答案段落,然后从每个候选答案段落中根据F1值选取一个候选答案片段,并从中选取一个得分最高的作为最佳候选答案片段。只有所筛选的候选答案段落和这个最佳候选答案片段会被输入阅读理解模型进行训练和最终的预测。
显然,现有的答案段落筛选方法是一种局部贪心方法,不能处理一个篇章中多个段落均与问题相关的现象,并且会受到篇章数的影响而生成过多或过少的候选答案。而候选答案片段的选择标准与候选答案段落的选择并不一致,有可能遗漏F1值更优的最佳候选答案片段。
发明内容
本发明为了解决目前候选答案筛选方法的不足,提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,对每个篇章的每个段落-------最主要的不同根据F1值筛选每个段落中的候选答案片段在所有的候选答案片段中,选择F1值最大作为最佳候选答案片段;所述候选答案筛选方法可以面向所有篇章的所有段落筛选出多个候选答案,并在全局范围内筛选出最佳候选答案片段。所采取的技术方案如下:
一种基于逻辑回归的面向全局的候选答案段落筛选方法,所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。
进一步地,所述候选答案筛选方法的具体步骤如下:
步骤一:输入问题、问题所对应的全部篇章,以及拟筛选的候选答案段落数量P’;
步骤二:计算问题与全部篇章中各个段落的文本片段间的F1值;
步骤三:将各文本片段依据F1值进行降序排序,定位出F1值最高的文本片段作为最佳候选答案片段;
步骤四:依次提取所述篇章中所有段落P的每个段落与问题之间的5个特征,并将提取获得的特征形成特征向量;
步骤五:将步骤五所述特征向量依次送入逻辑回归模型中,利用逻辑回归模型和所述特征向量对各个段落与所述问题之间的相关性进行打分,获得所述所有段落中每个段落与问题之间的相关性分数;
步骤六:将各个段落按照步骤五获得的相关性分数的降序形式进行排列,形成段落序列,将步骤三获得的最佳候选答案片段所在段落无条件强制放置在所述段落序列的首位;根据拟筛选的候选答案段落数量,在含有最佳候选答案片段所在段落的段落序列中筛选出从首位开始顺序后的P’个段落,所述P’个段落即为候选答案段落集合;
步骤七:最终输出所述最佳候选答案片段以及包含所述最佳候选答案片段所在段落的候选答案段落集合,用于机器阅读理解深度学习模型的训练。
进一步地,所述逻辑回归模型的模型结构为:
z=θ0+θ1x1+θ2x2+θ3x3+…+θnxn
其中,为步骤二所述特征向量;为逻辑回归模型要训练的模型参数;hθ(x)为模型预测结果,表示输入的特征向量对应的段落与其问题之间的相关性得分。
进一步地,所述段落和问题之间的特征包括段落和问题之间的recall(召回率)得分、段落和问题之间的F1(精确值和召回率的调和均值)得分、TF-IDF(term frequency-inverse document frequency,词频-逆文档频率)余弦相似度、当前段落是否第一个段落、段落和问题之间的BLEU(Bilingual Evaluation Understudy,双语互译质量评估辅助工具)得分和段落和问题之间相交的词的个数。
进一步地,所述TF-IDF余弦相似度的计算是通过将段落和问题均采用向量空间模型表示为向量后,对段落中的每个词均进行TF*IDF加权,然后计算并获得两个向量之间的TF-IDF余弦相似度,余弦相似度计算公式如下:
其中分别为问题和段落的TF-IDF特征向量表示,n为向量的维度。
本发明有益效果:
本发明所述一种面向全局的机器阅读理解建模中的候选答案筛选方法克服了在现有方法中,候选答案片段的定位是基于上一阶段的候选答案段落筛选的,也即候选答案片段的定位的范围是局限于上一阶段筛选到的段落内的技术偏见,本发明所述候选答案筛选方法在候选答案筛选过程中的训练时采用全局选择(全篇所有段落,即包括候选答案段落筛选和候选答案片段定位)并在测试时采用逻辑回归方法筛选答案段落。本发明所述候选答案筛选方法有效提高了候选答案段落筛选的效果,相较于传统筛选方法提升了15.82%。最终本发明提出的候选答案筛选方法可以使最终的阅读理解模型性能在BLEU-4(Bilingual Evaluation Understudy,4-gram)上取得了6.25个点的提升,在ROUGE-L(Longest Common Subsequence based Recall-Oriented Understudy for GistingEvaluatio)上取得4.79个点的提升。
附图说明
图1为本发明所述选答案筛选方法的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。
实施例1:
本实施例提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,如图1所示,所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。
所述候选答案筛选方法的具体步骤如下:
步骤一:输入问题、问题所对应的全部篇章,以及拟筛选的候选答案段落数量P’;
步骤二:计算问题与全部篇章中各个段落的文本片段间的F1值;
步骤三:将各文本片段依据F1值进行降序排序,定位出F1值最高的文本片段作为最佳候选答案片段;
步骤四:依次提取所述篇章中所有段落P的每个段落与问题之间的5个特征,并将提取获得的特征形成特征向量;
步骤五:将步骤五所述特征向量依次送入逻辑回归模型中,利用逻辑回归模型和所述特征向量对各个段落与所述问题之间的相关性进行打分,获得所述所有段落中每个段落与问题之间的相关性分数;
步骤六:将各个段落按照步骤五获得的相关性分数的降序形式进行排列,形成段落序列,将步骤三获得的最佳候选答案片段所在段落无条件强制放置在所述段落序列的首位;根据拟筛选的候选答案段落数量,在含有最佳候选答案片段所在段落的段落序列中筛选出从首位开始顺序后的P’个段落,所述P’个段落即为候选答案段落集合;
步骤七:最终输出所述最佳候选答案片段以及包含所述最佳候选答案片段所在段落的候选答案段落集合,用于机器阅读理解深度学习模型的训练。
所述逻辑回归模型的模型结构为:
z=θ0+θ1x1+θ2x2+θ3x3+…+θnxn
其中,为步骤二所述特征向量;为逻辑回归模型要训练的模型参数;hθ(x)为模型预测结果,表示输入的特征向量对应的段落与其问题之间的相关性得分。
所述段落和问题之间的特征包括6个特征,所述6个特征分别为:
Recall:段落和问题之间的recall得分;
F1:段落和问题之间的F1得分;如图1所示,通过计算F1得分来对各个段落评估,在决定最终进入逻辑回归模型的段落时,如果候选答案片段所在的段落不在上一阶段确定的段落集合中,则将该候选答案片段所在段落作为正例加入预筛选的候选段落集合。
上述根据所述F1得分来对各个段落评估的方法有效提高了候选答案筛选的准确度,极大程度上提高了本发明所述候选答案筛选方法的性能指标。
TF-IDF余弦相似度:TF-IDF矩阵的创建是基于包括训练集、开发集和测试集在内的全数据集上的。段落和问题均采用向量空间模型(Vector Space Model)表示为向量,每个词均被TF*IDF加权,然后计算两个向量之间的余弦相似度;
是否第一个段落:标示该段落是否是所在篇章的第一个段落,如果是,则标为1,反之标为0;
BLEU:段落和问题之间的BLEU得分;
词相交个数:段落和问题之间相交的词的个数。
其中,所述TF-IDF余弦相似度的计算是通过将段落和问题均采用向量空间模型表示为向量后,对段落中的每个词均进行TF*IDF加权,然后计算并获得两个向量之间的TF-IDF余弦相似度,余弦相似度计算公式如下:
其中分别为问题和段落的TF-IDF特征向量表示,n为向量的维度。。
实施例2
本实施例提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,所述候选答案筛选方法的具体流程如表1所示:
表1:全局范围内候选答案段落筛选流程
本实施例中所述候选答案筛选方法,其在训练时,标注包含答案的段落为类别1,其余为类别0,当预测时,每个段落均会预测得到一个概率值标示这该段落包含答案的可能性。本实施例中将样本随机分成6:4来进行参数的选择,采用全局筛选策略,设置所选段落数为固定值5。
对于本实施例所述候选答案筛选方法与现有的baseline策略下的候选答案筛选方法进行对比试验,其实验结果和分析过程如下:
1、筛选后的候选答案段落的评估
从DuReader数据集中随机抽取了Search子集的开发集的100个问题进行分析和改进,对于采样得到的100个问题,每个问题下的各个段落均被手工标示了1和0,分别表示含有答案片段以及不含有答案片段,同时也标示出了各个段落中包含的答案子串。表格1是候选答案段落筛选的结果,在这里对基于机器学习的候选答案段落筛选进行了测试,并与已有解决方案进行了对比。
表格2.候选答案段落筛选评估结果
表格2是已有解决方案和通过应用逻辑回归方法采用测试集策略进行候选答案段落筛选的评估结果,所谓测试集策略是指每个段落与问题计算相关性得分后再进一步筛选。基于逻辑回归方法在测试集策略下进行候选答案段落筛选的性能取得了显著提升。
表格3.候选答案片段定位评估结果
表格3中的结果分别是已有解决方案和全局定位候选答案片段的结果,结果说明采用全局定位方式能获取得到更精确的候选答案片段。
2、候选答案筛选对于最终阅读理解模型性能的影响
伴随DuReader数据集发布的还有两个baseline系统,分别是基于Match-LSTM模型和BiDAF模型,两个模型的提出均针对SQuAD数据集,而其中BiDAF的改进版在SQuAD数据集上取得过单模型最优性能,因此,本实施例选用BiDAF模型作为实验的基准模型。
由于self-attention机制在一些NLP的工作中显示出不错的性能,因此,将self-attention层引入BiDAF模型中,同时将训练目标更新为共享归一形式,使得模型输出的得分在各个段落之间可比。最后将Glove预训练得到的词向量载入了模型。在此基础上,进行了预处理改进后的实验。
实验参数设置上,采用Glove算法在DuReader全数据集上预训练了300维的词向量,设置各层的神经元个数为150。使用Adam算法对模型进行训练,设置初始学习率为0.001,batch大小设为32。试验后的最终新型如表4所示:
表格5.机器阅读理解模型的最终性能
表格5中第一个实验是改进后的模型的性能,后两个个实验结果均基于改进后的模型。第二行结果表示当保持训练集预处理与baseline系统一致,仅将测试时改为采用基于机器学习方案时,在BLEU-4和ROUGE-L上均取得较大提升,这表明测试时的候选答案段落筛选确实对系统性能起着极大影响,而基于机器学习的方法使得更加相关的段落被送入模型,从而提高了模型挑选到更加准确的答案片段的概率。第三行中训练时预处理采用全局方式(包括候选答案段落筛选和候选答案片段定位),但测试时采用基于机器学习的方案,相较于第一行,在BLEU-4上有了进一步的提升,证实了对于训练时全局选择(包括候选答案段落筛选和候选答案片段定位)以及测试时基于机器学习方法筛选答案段落的有效性。
虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应该以权利要求书所界定的为准。