CN111400487A

CN111400487A - 一种文本摘要的质量评价方法

Info

Publication number: CN111400487A
Application number: CN202010178615.9A
Authority: CN
Inventors: 刘博�; 申利彬
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-14
Filing date: 2020-03-14
Publication date: 2020-07-10
Anticipated expiration: 2040-03-14
Also published as: CN111400487B

Abstract

一种文本摘要质量评价方法属于自然语言处理领域，针对模型生成文本质量问题。深度学习下的文本生成技术已经取得了很大的进步，可以针对一篇文本生成相关的摘要，可以保证摘要的抽象性和多样性。但是深度学习模型生成的摘要还是存在词语重复，语义不相关的问题，不能直接用于生产环境，而且人工审核难度大。本方法针对深度学习模型生成的摘要进行质量评价，设计了语言质量网络和语义质量网络，主要从语法和语义两方面解决生成文本的质量评价问题。本方法使得摘要质量评价的效率得到很大提升。

Description

一种文本摘要的质量评价方法

技术领域：

本发明属于自然语言生成领域，尤其涉及序列到序列文本摘要评价的相关方法。

背景技术：

随着信息技术的快速发展，信息爆炸正在冲击着人们的生活。一方面，现在互联网存在大量网页与文本，但是其中内容相关的文本之间存在大量多余的内容，人们阅读和获取这些重复内容耗费了大量的时间与精力。另一方面，社会发展加快人们的生活节奏，越来越碎片化的时间驱使人们通过互联网获取内容，而不是通过传统的书籍等纸质资料。因此为了解决如何精准的从大量的文本信息中提取其中的主要内容，并且可以自动化的保证摘要的质量已经是当今学术的研究热点。

文本摘要技术是从一篇文章或多篇文章中提取满足用户或应用需求的内容，加以组织后生成一篇内容完整形式的摘要。文本摘要的评价方法是文本摘要技术研究与发展的一个关键部分，规范合理的评价标准可以促进文本摘要技术发展。但同时自动文本摘要评价方法也是极具争议的，至今面临着许多挑战。1998年K.S.Jones提出从广义的角度将自动文本摘要的评价方法大致分为两类：一种称为内部评价(Intrinsic)方法，它通过直接分析摘要的质量来评价文本摘要系统，内部评价主要评价文本摘要的连贯性和内容的完整性。另一种称为外部评价(Extrinsic)方法，它是一种间接评价方法，将自动文本摘要应用于某一个特殊的任务中，根据文摘完成这项任务的效果来评价自动文摘系统的性能。国内学者关于第一类型的评价方法做过很多研究，1997年北京大学的俞士汶等人提出了一种机械式的文摘质量自动评价方法，采用了Edmundson的句子重合率的方法。2005年哈尔滨工业大学的张姝等人提出了基于向量空间模型的文本相似度评价方法。国外也有学者做过很多研究，2002年英国谢菲尔德大学Saggio等人提出了三种基于文摘内容相似度的自动评价方法，分别是基于余弦相似度，单元覆盖和最长公共子串的方法。2004年Chin-Yew Lin等人参考机器翻译自动评价方法BLEU提出了ROUGE(Recall2

Oriented Underst udy for Gisting Evaluation)评价方法。目前学术界主要使用的研究方法是Rouge，但是以上方法都有一些缺点。国内学者提出的方法是基于句子级别的评价，粒度大，方法有些粗糙。国外学者提出的方法虽然是目前主流使用的方法，但是Rouge方法并不能反映出句子的语法准确度，在分数相差不大的摘要系统上，Rouge评价指标也并不能很好的区分相关系统。众所周知，合理的评价指标可以对优化自动摘要模型有着良好的促进作用，因此选择一个可以自动评价自动文摘的句子流畅读和语义相似度的方法至关重要。

发明内容

本发明主要解决的技术问题是设计摘要语言质量评价网络和语言相似度评价网络，可以自动从语言质量和语义相似度两个维度对模型生成的摘要进行合理性评价。语言质量评价网络与语言相似度评价网络是基于大规模预训练模型进行微调，需要的训练集少，而且训练时间短，可以很快的完成模型的训练。另外大规模预训练模型可以保证语言质量评价网络和语义相似网络的可靠性，最后由两个网络的分数进行综合得到摘要的质量得分。

本发明面向单篇章对应单个摘要的文本数据，提出一种摘要语言质量评价网络和语义质量评价网络。对文本数据首先去除空格以及特殊字符，并根据频率去除低频词或字，然后构建出我们所需要的字典，字典的key为词，value为每个词的对应的id。然后将需要处理的文章根据字典转换为相应的id，根据预训练模型Bert的词嵌入规则，构建文本的位置id和片段id，最后分别获取token的向量和位置向量与片段向量，最后将三者向量相加得到Embedding层。可用的摘要不仅需要保证生成的摘要是语言通顺的，还需要保证摘要表达的意思是文章的主要内容，且摘要表达了一个完整的语义。为了达到这样的目的，我们设计了语言质量评价网络和语义相似网络，保证高分摘要的可用性，并且可以根据单独的得分，有针对性的对摘要模型进行调整优化。

为了实现上述目的，本发明采用以下技术方案：首先根据需要构建训练数据集，针对语言质量网络我们使用一些模型推理得到的

一种自动文本摘要质量评价方法包括以下步骤：

步骤1、构建语言质量网络的正负样本，并进行文本数据的处理。

步骤2、构建语言相似网络的正负样本，并进行文本数据的处理。

步骤3、微调语言质量网络，直至模型收敛。

步骤4、微调语言相似网络，直至模型收敛。

步骤5、融合语言质量得分和语义相似得分，得出摘要质量得分

作为优选，步骤1具体包括以下步骤：

步骤1.1、从训练集中选择一部分数据作为摘要质量模型的微调数据集A

步骤1.2、将数据集A分为两份，数据集AB和数据集AC，使用一个模型推理数据集AB，得到的摘要作为负样本，数据集AC作为正样本。

作为优选，步骤2具体包括以下步骤：

步骤2.1、从训练集中选择一部分数据作为摘要语义相似模型的微调数据集D；

步骤2.2、将数据集D分为四份，分别为DE、DF、DG、DH；

步骤2.3、数据集DF随机与DG配对，构建相似句对的负样本；

步骤2.4、将DH中的摘要句切割为两部分，选择50％前半部分与50％后半部分，作为负样本；

步骤2.5、最后DE作为正样本。

作为优选，步骤5具体包括以下步骤：

步骤5.1、将摘要质量模型得到的质量分数与摘要语义相似模型的分数进行相乘，得到摘要质量分数。

摘要样本作为负样本，使用人工标注的摘要作为正样本。针对语义相似网络，使用两种策略构建负样本。第一种策略是对人工标注的摘要进行随机配对，第二种策略是将人工标注的摘要进行切割，例如原来摘要有100字，我们仅取前50个字或者后50个字，造成语义的不完整。根据这两种策略构建语义相似网络的数据集，不仅可以评价模型生成摘要的语言通顺程度，还可以保证语义相关，语义完整的摘要z分高。语言质量网络如Model1公式所示，

其中r表示一个二值向量0或1，是由伯努利模型以p概率产生。σ作为激活函数，引入非线性因素。W是连接预训练模型输出与质量网络输入的权重向量，其中W的初始化方式使用Xavier方法，

n_i表示该单元的输入数量，n_i+1表示该单元的输出数量。X为输入向量，b为偏置初始值为0.1，Sigmoid函数作为激活函数计算出最后的质量得分。语义相似度网络如Model2公式所示，

Model2＝sigmoid(σ(W₂σ(W₁X+b₁)+b₂))

W₁是通用语义空间转为相似语义空间的参数向量，b₁为偏置值，W₂为相似语义空间进一步转换的参数向量，b₂为偏置值。W₁，W₂参数的初始化方法与Model1的参数初始化方法一致。最后将两个Model得分进行综合，得到摘要的质量得分。

与现有技术相比，本发明具有以下明显优势：

本发明方法采用质量评价网络与语义相似网络综合评价摘要质量，相对其他评价方法，本发明方法有三点优势，第一：摘要质量评价网络与摘要相似网络是基于大规模预训练模型，基于预训练模型的优势，在少量数据的情况下就可以快速收敛，并且可以利用预训练模型在大规模数据上学习到的语言学知识。第二：其它的摘要评价方式是基于生成的摘要与人工书写摘要词语的共现程度，不能判断生成摘要在语法上的正确性，语言质量评价网络可以基于一句话是否符合我们人书写句子的习惯打分。这样得到高分的摘要，语言通顺没有语法错误。第三:语义相似网络因为在构建数据集时加入了只有一半字数的摘要作为负样本，因此评价模型不仅可以判断生成的摘要是否与原文相关，还可以判断生成的摘要是否语义完整。综上所述，本文提出的摘要质量网络与摘要相似网络可以从多个维度评价摘要，具有快速训练，质量高，准确率高的优势。

附图说明：

图1为本发明所涉及方法的流程图

图2摘要质量网络结构原理图

图3摘要相似网络结构原理图

图4不同模型摘要质量得分平均值

图5不同模型传统评价指标Rouge得分

具体实施方式：

以下结合具体网络模型实例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机一台，1080显卡1块；

在这一部分，我们进行了广泛的实验，以探讨我们提出的方法的影响。本发明设计的网络架构运行流程图如图1所示，具体包括以下步骤：

步骤1，构建摘要质量网络训练集

步骤1.1，构建摘要质量网络训练集，首先选取20000条篇章和摘要数据对

步骤1.2，将20000条篇章数据对平均分为两份，其中一份数据的篇章送入训练好的RNN模型中生成摘要

步骤1.3，将10000条RNN模型生成的摘要作为负样本，另外10000条摘要作为正样本，构件出一份20000条摘要质量网络训练集

步骤2，构建摘要相似网络训练集

步骤2.1，选取,30000条篇章和摘要数据对，平均分为3份

步骤2.2，第一份10000条数据作为正样本；第二份10000条数据再分为两份，得到5000条篇章摘要打乱后的样本作为负样本；第三份10000条数据将摘要的句子长度从中间截断，5000条保留前半部分，5000条保留后半部分，最后得到一个25000条数据的训练集

步骤3，选择损失函数为交叉熵损失函数(Cross Entropy Loss)：

步骤4，加载预训练模型，训练摘要质量网络

步骤4.1，设置预训练模型后接的全连接网络节点个数为1024

步骤4.2，Dropout值设置为0.9

步骤4.3，打印出Loss与Accuracy的变化图像，当Loss与Accuracy收敛时停止迭代

步骤5，加载预训练模型，训练摘要相似网络，

步骤5.1，设置预训练模型后接的全连接网络为1024和512

步骤5.2，打印出Loss与Accuracy的变化图像，当Loss与Accuracy收敛时停止迭代

步骤6，最后将摘要质量得分与摘要相似得分相乘，得到最终的摘要质量得分

表1显示了模型生成的摘要在不同评价指标上的得分，从表1可以看出对于模型生成质量较差的摘要，摘要质量得分与人工评价得分更加相似，如第5、第6条数据。而模型根据文章抽象出来的摘要，如第3、第4条数据，摘要质量与人工评分接近，但是Rouge_l的得分明显有偏差，不能考虑摘要的多样性。如图4所示，展示了不同模型在摘要质量得分的分布，图5展示了传统评价指标Rouge的得分分布，从图中可以看出摘要质量得分分布更加合理，且对模型的区分度更加明确，对能力差的模型给出其优势与劣势，为后续优化模型提供方向。传统评价指标Rouge对Lstm模型和Transformer模型的区分度很小，然而这两个模型在结构上具有很大的差异，从图4可以得出Lstm模型在语言质量和语义质量上与Transformer模型依然具有差距。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

表1不同摘要质量得分

Claims

1.一种自动文本摘要质量评价方法，其特征在于，包括以下步骤：

步骤1、构建语言质量网络的正负样本，并进行文本数据的处理；

步骤2、构建语言相似网络的正负样本，并进行文本数据的处理；

步骤3、微调语言质量网络，直至模型收敛；

步骤4、微调语言相似网络，直至模型收敛；

步骤5、融合语言质量得分和语义相似得分，将摘要质量模型得到的质量分数与摘要语义相似模型的分数进行相乘，得出摘要质量得分。

2.根据权利要求1所述的方法，其特征在于：

步骤1具体包括以下步骤：

步骤1.1、从训练集中选择一部分数据作为摘要质量模型的微调数据集A；

3.根据权利要求1所述的方法，其特征在于：

步骤2具体包括以下步骤：

步骤2.2、将数据集D分为四份，分别为DE、DF、DG、DH；

步骤2.3、数据集DF随机与DG配对，构建相似句对的负样本；

步骤2.5、最后DE作为正样本。

4.根据权利要求1所述的方法，其特征在于：

摘要样本作为负样本，使用人工标注的摘要作为正样本；针对语义相似网络，使用两种策略构建负样本；第一种策略是对人工标注的摘要进行随机配对，第二种策略是将人工标注的摘要进行切割。

5.根据权利要求1所述的方法，其特征在于：

语言质量网络如Model1公式所示，

其中r表示一个二值向量0或1，是由伯努利模型以p概率产生；σ作为激活函数，W是连接预训练模型输出与质量网络输入的权重向量，X为输入向量，b为偏置初始值为0.1，Sigmoid函数作为激活函数计算出最后的质量得分；

语义相似度网络如Model2公式所示，

Model2＝sigmoid(σ(W₂σ(W₁X+b₁)+b₂))

W₁是通用语义空间转为相似语义空间的参数向量，b₁为偏置值，W₂为相似语义空间进一步转换的参数向量，b₂为偏置值；最后将两个Model得分进行综合，得到摘要的质量得分。

6.根据权利要求1所述的方法，其特征在于：

对文本数据进行数据处理，具体包括删除文本中的特殊字符与空格，然后使用开源工具jieba进行分词，并根据停用此表，去除停用词，最后得到处理后的数据样本。