CN110688479B

CN110688479B - 一种用于生成式摘要的评估方法及排序网络

Info

Publication number: CN110688479B
Application number: CN201910764862.4A
Authority: CN
Inventors: 曹亚男; 徐灏; 尚燕敏; 刘燕兵; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-06-17
Anticipated expiration: 2039-08-19
Also published as: CN110688479A

Abstract

本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量：第一，运用语言模型来评估语言的流畅度；第二，使用相似度模型评估文本和摘要之间的语义相关性；第三，为了有效评估实体、专有词的复现程度，引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量，大大提高了评估的准确性。

Description

一种用于生成式摘要的评估方法及排序网络

技术领域

本发明属于人工智能技术领域，涉及一种用于生成式摘要的评估方法及排序网络。

背景技术

随着深度学习技术的快速发展，自动文摘成为了可能。目前，评估生成摘要的评测指标是Rouge分数。根据评测粒度(词格)的不同，Rouge分数可以分为Rouge-N、Rouge-L、Rouge-W、Rouge-S等。

第一，Rouge-N，它表示的是生成摘要和真实摘要中n格单词的召回情况，具体的公式是

其中分母表示真实摘要中n格单词的个数，分子则表示的是真实摘要和自动摘要共同出现的n格单词的个数。

第二，Rouge-L，L表示的是最长公共序列，其具体公式分别是最长公共子序列的召回率，准确率和F测度：

和

其中X是长度为m的真实摘要；而Y是长度为n的生成摘要，β为精确率和召回率的比值。

第三，Rouge-W是在Rouge-L的基础上改变不同的对应权重计算而得到的计算方法。

第四，Rouge-S，S表示skip-grams，即在匹配真实摘要和生成摘要时，允许跳过N个单词，如skip-bigram，即最多允许跳过两个单词。

现有的自动摘要评估指标Rouge分数的本质是匹配原文与摘要的共现程度，生成式摘要模型也采用这种评估指标。但是，Rouge分数忽略了生成式摘要的语言多样性以及文本与摘要的语义相关性，使得基于Rouge分数的评估方法不合理。

发明内容

本发明提出了一种新型的评估生成式摘要质量的评估方法及排序网络，用于评估生成式摘要，其从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量，大大提高了评估的准确性。具体来说，本发明从三个方面来评估摘要质量：第一，运用语言模型来评估语言的流畅度。第二，使用相似度模型评估文本和摘要之间的语义相关性。第三，为了有效评估实体、专有词的复现程度，引入原文信息量模型来评估。

本申请提案能从多个层面有效地评估生成式摘要的质量，并且本发明可对不同的数据集进行自适应的调整参数。

本发明提供了一种用于生成式摘要的排序网络，其特征在于，包括语言模型、相似度模型、原文信息量模型和评估模块；其中，

语言模型，用于计算文本的生成式摘要的摘要语言流畅度Score_1；

相似度模型，用于计算文本的生成式摘要与文本的相似度Score_2；

原文信息量模型，用于计算文本的生成式摘要的摘要实体覆盖率Score_3和共现词程度Score_4；

评估模块，用于对文本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4进行加权计算，得到该文本的生成式摘要的评估结果。

排序网络还包括一权重优化模块，用于基于训练集中样本的真实摘要和基于训练集中各样本的生成式摘要的摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4，通过贝叶斯优化算法选择摘要语言流畅度Score_1、生成式摘要与文本的相似度Score_2、摘要实体覆盖率Score_3和共现词程度Score_4的权重；其中，训练集中每一样本对应一三元组(X，Y′，Y_all)，Y_all＝{Y_1,Y_2,…，Y_m}，Y_m为文本X通过第m个生成式摘要系统生成的生成式摘要，Y′为文本X的真实摘要Y′。

本发明用于生成式摘要的排序网络的评估方法为：

步骤1，将每一所选文本X通过多个生成式摘要系统，得到多个摘要，组成摘要候选项Y_all＝{Y_1,Y_2,…，Y_m}，并将文本X，真实摘要Y′和摘要候选项Y_all一一配对，组成训练集。

步骤2，将步骤1中的训练集分别通过已经训练好的语言模型、相似度模型和原文信息量模型得到每一生成式摘要的Score_1，Score_2，Score_3和Score_4。

步骤3，基于所述训练集中样本的真实摘要，通过贝叶斯优化选择该训练集下Score_1，Score_2，Score_3和Score_4的权重比值。可以使用经验值或启发式方法来设计权重比，也可以使用参数网格搜索，随机搜索等算法来实现，贝叶斯优化是为了自动化找到该训练集下最适应的参数，其优化目标，即是最大化验证集上的分数和。

步骤4，使用步骤2的分数和步骤3的权重，加权得到每个文本对应的摘要候选项中每个摘要的分数，最终摘要按分数从高到低输出。

步骤5，对于一待生成摘要的文本a，生成该文本a的多个摘要，并计算每一摘要的Score_1、Score_2、Score_3和Score_4，然后根据步骤3确定的权重加权计算该文本a各摘要的摘要分数，确定该文本a各摘要的评估结果。

所述步骤1中，得到摘要候选项过程如下：

步骤1.1，将文本X经过预处理，与已训练的生成式摘要系统的处理尽可能一致，比如去除特殊字符，数字清理等。

步骤1.2，将步骤1.1处理好的文本送入到m个生成摘要系统中，得到m个摘要Y_all＝{Y_1,Y_2,…，Y_m}，并将其一一配对(X,Y′,Y_all)后，随机切分为训练集、验证集和测试集。

所述步骤2中，如图1所示，包含三个模块，这三个模型可以并行执行。

语言模型

语言模型是对语句的概率分布的建模，衡量了语言序列片段符合真实句子的概率。本模块使用统计语言模型n格语言模型算法来评估摘要的语言流畅性(参考Croft,W.Bruce,and John Lafferty,eds.Language modeling for informationretrieval.Vol.13.Springer Science&Business Media,2013)。给定句子集合S∈Y_i(可以来自一篇或者多篇文档，对于本发明而言S为一个摘要中的句子集合)，句子集合S有m个单词，表示为w_1,w_2,···,w_m。由链式法则，可以得到句子概率P(w_1,w_2,…,w_m)＝P(w_1)P(w_2│w_1)…P(w_m|w_1…w_(m-1))，根据马尔科夫链假设，当前词i出现的概率只依赖于单词i的前n-1个词，即P(w_i│w_1…w_(i-1))＝P(w_i|w_(i-n+1)…w_(i-1))，基于上式，可以得到2格语言语言模型，表示为P(w_1,w_2,···,w_m)＝Π_(i-1)^m P(w_i|w_(i-1))。为了采样真实语言分布，本模型所使用的参数是由中文维基百科数据集在语言模型上训练得到的。训练语言模型的工具是Kenlm(参考Heafield,Kenneth."KenLM:Fasterand smaller language model queries."Proceedings of the sixth workshop onstatistical machine translation.Association for Computational Linguistics,2011)，训练设置采用默认设置和5格语言语言模型。

在应用阶段，设摘要由m个词组成，表示为y_1,y_2,···,y_m，将其输入到训练好的语言模型中，归一化后得到摘要的语言流畅度Score_1。从这里可以看出，Score_1分数越高，语言流畅度越高。

相似度模型

相似度模型用于评估生成摘要与原文在语义上的相关性。基于语言模型的词表示方法可用于探索自然语言内在的依赖关系并对这种依赖关系进行建模。在训练阶段，使用的词向量特征由上文提到的中文维基百科数据集训练得到，训练词向量所采用的工具是谷歌开源的Word2Vec模型，词向量特征维度设置为k维。

在应用阶段，设文本X由n个词组成，表示为x₁,x₂,···,x_n，摘要由m个词组成，表示为y₁,y₂,···,y_m，其中x_i，y_j分别表示文本中第i个词的词向量和摘要中第j个词的词向量。使用句子词向量和的平均值来表示句子的向量，那么文本和摘要的向量X^w,Y^w分别表示为：

和

使用常见的余弦相似度来衡量两个句子的空间距离，即：

其中t表示词向量的第t维，归一化得到摘要与文本(原文)的相似度Score_2，可以看出Score_2与相关性成正比。

原文信息量模型

为衡量摘要所包含原文信息程度，分别从摘要所包含文本出现的实体数以及原文和摘要的共现词程度两方面进行考察。为标注摘要所包含原文实体数，使用斯坦福命名实体识别器，其是一个基于条件随机场分类器的实体识别器，分别预设识别人名、地名、机构名、专有名词等。本小节使用SNER来分别标注摘要和原文实体数，有摘要实体覆盖率Score_3＝摘要中实体数/文本实体数。而对于摘要的共现词程度，使用原有指标Rougg-L的F-测度，令其为Score_4。

定义最终的分数为S_f＝λ₁*Score_1+λ₂*Score_2+λ₃*Score_3+λ₄*Score_4，其中λ₁，λ₂，λ₃和λ₄是权重参数，用来控制评估摘要质量的侧重角度。

所述步骤3中，权重训练过程如下：

步骤3.1,使用步骤1.2得到的训练集，以最大化S_f为目标，调整各参数的权重，即有Λ^*＝argmax_λ∈SS_f(λ)。其中S是λ的候选参数集。其目标是寻找合适的参数集λ，使得S_f(λ)的值最大化。本步骤中采用贝叶斯优化算法，利用贝叶斯先验知识，通常能够更快地搜索到最佳参数。贝叶斯优化算法的基本思想是先对S_f(λ)假设一个先验分布，然后利用后续获取到的信息，来不断优化假设分布，从而获得最佳模型。具体使用dragonfly工具来优化参数。

步骤3.2，通过采集函数α更新λ:λ_n+1＝argmax_xα(λ,D_n)。

步骤3.3，验证目标函数S_f(n+1)。

步骤3.4，更新采样数据D_n+1＝{D_n,(λ_n+1,S_f(n+1))}。

步骤3.5，更新优化模型。

步骤3.6，重复步骤3.2至步骤3.6，直至参数达到最优值，得到对应的参数值。

与现有技术相比，本发明的积极效果为：

1、提出了一种用于生成式摘要的排序网络，分别从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量，大大提高了评估的准确性；

2、提出了一个参数训练框架，可以动态地增加多个评估模型，以及针对不同的数据集，调整不同模型的权重比例。

本发明是用于评估生成式摘要，在原有的Rouge分数上，引入了摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面的评估信息，并提供了不同状况下，动态调整各模型的权重比。甚至，可以动态增加或删减摘要评估模型。

附图说明

图1为一种用于生成式摘要的排序网络模型图；

图2为用于生成式摘要的排序网络流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下参照附图，对本发明作进一步详细说明。

采用两种数据集分别是中文数据集和英文数据集，中文数据集是比较广泛采用的大规模短文本摘要数据集(LCSTS)，包含240万来自新浪微博的文本摘要对。英文数据集是多模态句子摘要数据集MMSS，其是个一个包含文本、图像和摘要(X,Y,I)三元组的数据集，其中文本和摘要来自广泛评测摘要系统的Gigawords数据集，图像通过搜索引擎检索获得。最后，经过人工筛选获得(X,Y,I)三元组数据集，其中包括训练集为66000个样本，验证集和测试集分别为2000个样本。

其中生成摘要系统有Seq2Seq+Attention机制的模型，基于强化学习的生成模型和基于生成对抗网络的摘要模型，具体流程如图2所示：

步骤1，将文本X通过多个生成式摘要系统，得到多个摘要，组成摘要候选项Y_all＝{Y₁,Y₂,…，Y_m}，并将文本X，真实摘要Y′和摘要候选项Y_all一一配对，组成训练集，针对于MMSS数据集，X包含文本和图像共同的特征。

步骤2，将步骤1中的训练集分别通过已经训练好的语言模型、相似度模型和原文信息量模型得到每一生成式摘要的Score₁，Score₂，Score₃和Score₄。

步骤3，基于所述训练集中样本的真实摘要，通过贝叶斯优化选择该训练集下Score₁，Score₂，Score₃和Score₄的权重比值，两个数据集上得到参数均为：λ₁＝0.2，λ₂＝0.3，

λ₃＝0.2和λ₄＝0.6。

步骤4，使用步骤2的分数和步骤3的权重，加权得到每个文本对应的摘要候选项中每个生成式摘要的分数，最终摘要按分数从高到低输出。

为了比较本发明的用于生成式摘要的效果，现分别采用Seq2Seq+Attention机制的模型(ABS)，基于强化学习的生成模型(RL)和基于生成对抗网络的摘要模型(GAN)。LCSTS结果样例如表1所示和对应分数如表2所示，MMSS结果样例如表3所示和对应分数如表4所示：

表1在LCSTS数据上多个生成模型生成的样例

R:	XX警方确认李xx吸毒被捕(图)
		SEQ2SQ:	XX警方李xx吸毒被捕系歌手_UNK_UNK_UNK_UNK_UNK
RL:	网传李xx吸毒被抓，李xx是歌手
		GAN:	XX警方确认李xx吸毒被捕，警方抓获TAGNUM人

表2在LCSTS数据集上各模块的分数

模型	Score<sub>1</sub>	Score<sub>2</sub>	Score<sub>3</sub>	Score<sub>4</sub>	S<sub>f</sub>
						ABS	0.55	0.58	0.71	0.92	1.049
RL	0.92	0.61	0.76	0.87	1.117
						GAN	0.72	0.57	0.82	0.92	1.113

表3在MMSS数据上多个生成模型生成的样例

R:	UNK credit union losses at$#$.$#$bln dlrs:central bank
		SEQ2SQ:	japan credit losses billion
RL:	japan credit losses$###$billion yen
		GAN:	japan's bank losses$###$billion yen

表4在MMSS数据集上各模块的分数

模型	Score<sub>1</sub>	Score<sub>2</sub>	Score<sub>3</sub>	Score<sub>4</sub>	S<sub>f</sub>
						ABS	0.43	0.63	0.54	0.49	0.731
RL	0.76	0.62	0.72	0.79	1.028
						GAN	0.78	0.63	0.84	0.76	1.053

实验结果表明在LCSTS数据集上，该样例采用基于强化学习的模型生成的摘要质量最优，因其对应的语言流畅度分数相对更高。然而，如果根据原来的方案Rouge-L的F-测度，即Score₄在ABS和GAN都很高，但是显然，RL的语言流畅度分数要好一些。在MMSS数据集上，该样例采用基于强化学习的模型生成的摘要质量最优，因其对应的实体分数相对更高。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。