CN109543512A

CN109543512A - 图文摘要的评价方法

Info

Publication number: CN109543512A
Application number: CN201811173277.9A
Authority: CN
Inventors: 周玉; 朱军楠; 张家俊; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-03-29

Abstract

本发明属于自然语言技术领域，具体提供一种图文摘要的评价方法及装置，旨在解决现有技术缺少对图文摘要进行评价从而导致摘要以单模态形式输出的问题。为此目的，本发明提供了一种图文摘要的评价方法，包括计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值；获取待测摘要的图片和参考摘要的图片之间的准确度；基于预先构建的图文相似度计算模型获取待测摘要中图片和文本的相似度；基于预先构建的图文摘要评价模型并根据ROUGE值、准确度以及相似度获取对待测摘要的评价值。基于上述步骤，本发明提供的方法可以从多个方面综合考虑影响摘要评价的因素，可以很好地模拟人工评价的过程，进而提高摘要评价的准确度和处理效率。

Description

图文摘要的评价方法

技术领域

本发明属于自然语言技术领域具体涉及一种图文摘要的评价方法。

背景技术

自动摘要是利用计算机系统自动实现文本分析、内容归纳和摘要自动生成的技术，可以按读者(或用户)的要求以简洁的形式表达原文的主要内容。自动摘要技术能够有效地帮助读者(或用户)从检索到的文章中寻找感兴趣的内容，提高阅读速度和质量。该技术可以将文档压缩为更为简洁的表达，并且保证涵盖原始文档有价值的主题。

传统的自动摘要技术一般是单模态摘要，即输入全部为文本。随着技术的发展，多模态自动摘要技术出现。多模态自动摘要的输入为多个模态，包括文本、音频、视频和图像等，随着信息的载体越来越丰富多样，当用户通过搜索引擎对某一特定事件进行检索时，返回的内容往往不局限于文本，还可能来源于视频和图像模态。多模态自动摘要技术可以对来自于多模态的信息进行提炼，从而帮助用户在短时间获取多媒体信息。

现有的多模态自动摘要技术输出都局限于单模态形式，如只是文本或者图片等，很大程度上是因为对多模态形式摘要的评价方式的缺失，如何对摘要进行合理地评价很大程度上会影响摘要的准确度。

因此，如何提出一种合理地对图文摘要进行评价从而提高图文摘要的准确度的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术缺少对图文摘要进行评价从而导致摘要以单模态形式输出的问题，本发明的第一方面提供了一种图文摘要的评价方法，包括：

计算预先获取的待测摘要的文本和参考摘要的文本之间的 ROUGE值；

获取所述待测摘要的图片和所述参考摘要的图片之间的准确度；

基于预先构建的图文相似度计算模型获取所述待测摘要中图片和文本的相似度；

基于预先构建的图文摘要评价模型并根据所述ROUGE值、准确度以及相似度获取对所述待测摘要的评价值；

其中，所述图文相似度计算模型和图文摘要评价模型是分别基于预设的图片描述数据集和评价得分数据集并利用机器学习算法所构建的神经网络模型及线性回归模型。

在上述方案的优选技术方案中，“计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值”的步骤包括：

获取所述待测摘要的文本和参考摘要的文本之间多个初始 ROUGE值；

分别计算多个所述初始ROUGE值与预先获取的人工评价的相关性，将相关性最高的初始ROUGE值作为所述待测摘要的文本和参考摘要的文本之间的ROUGE值。

在上述方案的优选技术方案中，“获取所述待测摘要的图片和所述参考摘要的图片之间的准确度”的步骤包括：

判断所述待测摘要的图片是否与所述参考摘要的图片相同，

若相同，则所述待测摘要的图片和所述参考摘要的图片之间的准确度为1；

若不相同，则所述待测摘要的图片和所述参考摘要的图片之间的准确度为0。

在上述方案的优选技术方案中，在“基于预先构建的图文相似度计算模型获取所述待测摘要中图片和文本的相似度”的步骤之前，所述方法还包括：

分别获取所述图片文本数据集的图片和图片描述数据对应的特征向量；

利用机器学习算法并根据所述图片和图片描述数据对应的特征向量训练所述图文相似度计算模型。

在上述方案的优选技术方案中，“利用机器学习算法并根据所述图片和图片描述数据对应的特征向量训练所述图文相似度计算模型”的步骤包括：

根据下式所示的最大间隔损失函数并利用机器学习算法训练所述图文相似度计算模型：

其中，L表示所述最大间隔损失函数，β表示最大间隔参数， s()表示余弦相似度，i、c分别表示所述图片和文本对应的特征向量，表示与特征向量i不匹配的文本对应的特征向量，表示与特征向量c不匹配的图片对应的特征向量。

在上述方案的优选技术方案中，在“基于预先构建的图文摘要评价模型并根据所述ROUGE值、准确度以及相似度获取对所述待测摘要的评价”的步骤之前，所述方法还包括：

分别获取所述评价得分数据集中图文摘要的文本和参考摘要的文本之间的ROUGE值、图文摘要的图片和参考摘要的图片之间的准确度、图文摘要中图片和文本的相似度以及图文摘要的人工评价得分；

利用线性回归算法并根据所述评价得分数据集中的ROUGE 值、准确度、相似度以及人工评价得分训练所述图文摘要评价模型。

在上述方案的优选技术方案中，“利用线性回归算法并根据所述评价得分数据集中的ROUGE值、准确度、相似度以及人工评价得分训练所述图文摘要评价模型”的步骤包括：

按照下式所述的线性回归函数并利用线性回归算法训练所述图文摘要评价模型：

y＝f(m1，m2，m3)

其中，m1表示所述评价得分数据集中的ROUGE值，m2表示所述评价得分数据集中的准确度，m3表示所述评价得分数据集中的相似度，f(·)表示线性回归函数，y表示所述评价得分数据集中的人工评价得分。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

1、本发明提供的图文摘要的评价方法，通过获取待测摘要和参考摘要的文本之间的ROUGE值、图片之间的准确度，以及待测摘要中图片和文本的相似度，计算待测摘要的评价值，从多个方面综合考虑影响摘要评价的因素，可以很好地模拟人工评价的过程，进而提高摘要评价的准确度；

2、本发明提供的图文摘要的评价方法，通过预先构建的图文摘要评价模型计算待测摘要的评价值之前，利用机器学习算法和预设的评价得分数据集训练图文摘要评价模型，以人工评价得分作为目标训练图文摘要评价模型，从而使计算得到的待测摘要的评价值接近人工评价，并且实现了对待测摘要评价的自动化流程，提高了处理效率。

附图说明

图1为本发明一种实施例的图文摘要的评价方法的主要步骤示意图；

图2为本发明一种实施例中参考摘要和待测摘要的对比图；

图3为本发明一种实施例中图片描述数据对应的特征向量描述的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性的给出了本实施例中图文摘要的评价方法的主要步骤。如图1所示，本实施例中图文摘要的评价方法包括下述步骤：

步骤S101：计算预先获取的图文摘要的文本和参考摘要的文本之间的ROUGE值。

本发明实施例的图文摘要的评价方法可以对多模态的信息进行提炼，帮助用户在短时间内获取多媒体信息。具体地，参阅附图2，图2示例性地给出了本实施例中参考摘要和待测摘要的对比图，以图2 中的内容为例进行说明，图2左边上部是参考摘要的文本摘要，图2左边的下部是参考摘要的图片摘要，图2右边是待测摘要的图文摘要，m1表示评价得分数据集中的ROUGE值，m2表示评价得分数据集中的准确度， m3表示评价得分数据集中的相似度。为了得到与人为评价接近的图文摘要的评价结果，可以先计算图文摘要的文本和参考摘要的文本之间的 ROUGE值。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 是评估文本摘要的一组指标，通过将自动生成的摘要与一组参考摘要(通常是人工生成的)进行比较计算，得出相应的分值，以衡量自动生成的摘要与参考摘要之间的“相似度”。ROUGE值可以包括ROUGE-N(N＝1、 2、3、4，N表示元词的数量)、ROUGE-L、ROUGE-SU4等。

在本发明实施例中，可以计算待测摘要的文本和参考摘要的文本之间多个初始ROUGE值，其中多个初始ROUGE值可以是ROUGE-1、 ROUGE-2、ROUGE-L，分别计算多个初始ROUGE值与预先获取的人工评价的相关性，将相关性最高的初始ROUGE值作为待测摘要和参考摘要的文本之间的ROUGE值。

通过计算待测摘要和参考摘要文本之间的ROUGE值，统计两者之间重叠的基本单元，来评价摘要的质量，可以提高后期评价的稳定性和鲁棒性。

步骤S102：获取待测摘要的图片和参考摘要的图片之间的准确度。

在实际应用中，用户可以通过摘要中的图片快速地获得想要获取的信息，因此待测摘要中的图片对于待测摘要的评价具有重要的作用。在本发明实施例中，可以通过判断待测摘要中的图片是否与参考摘要的图片相同来获取待测摘要和参考摘要图片之间的准确度。

具体地，若待测摘要的图片和参考摘要的图片是相同的，则待测摘要的图片和参考摘要的图片之间的准确度为1；

若待测摘要的图片和参考摘要的图片是不同的，则待测摘要的图片和参考摘要的图片之间的准确度为0。

步骤S103：基于预先构建的图文相似度计算模型获取待测摘要中图片和文本的相似度。

具体地，可以分别获取图片描述数据集的图片和图片描述数据对应的特征向量，实际应用中，可以将图片经过VGG19神经网络进行特征提取，得到4096维的图片特征向量，再通过转换矩阵将其转换为1024 维的图片特征向量；可以将图片描述数据经过单向GRU(Gated Recurrent Unit)神经网络进行特征提取，得到1024维的图片描述数据序列向量，再通过最大时间池化操作，将序列向量转换为单一的特征向量。

得到图片和图片描述数据对应的特征向量后，将其输入预先训练好的图文相似度计算模型，得到待测摘要中图片和文本的相似度。

在实际应用中，可以基于最大间隔损失函数并根据图片和图片描述数据对应的特征向量训练图文相似度计算模型。

具体可以按照如下公式所示的方法训练图文相似度计算模型：

其中，L表示最大间隔损失函数，β表示最大间隔参数，s()表示余弦相似度，i、c分别表示图片和图片描述数据对应的特征向量，表示与特征向量i不匹配的图片描述数据对应的特征向量，表示与特征向量 c不匹配的图片对应的特征向量。

下面结合具体的实例进行分析，参阅附图3，图3示例性地给出了本实施例中图片描述数据对应的特征向量描述的示意图：

c:“'Tiny'was one of the first four-legged creatures to move ontoland”

:“The animal is called dog.”

在本发明实施例中，图片描述数据可以是描述图片内容的文本，上述图片中i和c在语义上是匹配的，训练目标是让i和c在向量空间的距离较近，相对地，i和的距离应该较远。若则i和c 的相似度要显著大于i和的相似度，此时的模型的损失为0；反之，可以将损失通过反向传播算法去更新模型的参数，当最大间隔损失函数值下降到一个极值附近，即，始终在某个极值附近(如5％)震荡，则图文相似度计算模型收敛。

步骤S104：基于预先构建的图文摘要评价模型并根据 ROUGE值、准确度以及相似度获取对待测摘要的评价。

为了得到更准确的摘要评价，可以预先对图文摘要评价模型进行训练，具体的训练方法可以如下所示：

可以预先获取一部分样本的人工评价得分，如450个样本，人工评价得分为1-5分，可以是针对一段图文摘要给出5分，表明该图文摘要可以很好地概括多媒体信息的内容。将人工评价得分作为目标变量，利用线性回归的方式将预先构建的评价得分数据集的ROUGE值、准确度、相似度作为输入变量去拟合目标变量，具体地可以按照如下公式所示的方法训练图文摘要评价模型：

y＝f(m1，m2，m3)

m1表示评价得分数据集中的ROUGE值，m2表示评价得分数据集中的准确度，m3表示评价得分数据集中的相似度，f(·)表示线性回归函数，y表示评价得分数据集中的人工评价得分。将最终训练完成的线性回归作为图文摘要评价模型。

参阅表1，表1给出了图片重要性、文本重要性以及图文之间相关性的不同指标和人工打分之间的相关度比较。我们通过对450个图文摘要的样例进行人工打分，并将这些打分和每个指标分别计算 Pearson、Spearman以及Kendall系数。从附表1中可以看出，在文本重要性度量里面ROUGE-L与人的评价相关度最高；而图片重要性度量里面图片准确度(IP，Image Precision)相关度最高；图片文本相关度里面，对图文和图文摘要中每个单句的相似度取最大值的相关度最高。

表1：图片重要性、文本重要性以及图文之间相关性的不同指标和人工打分之间的相关度比较结果

表1中的AVGsim、MAXsim、Img-Sum分别代表取图片和摘要中单句相似度的平均值、最大值以及图片和整段摘要的相似度。Hist、 Temp分别代表图片直方图之间的相似度和根据模板匹配的方法计算的相似度。表2还给出了通过线性回归得到的最终的评价方法与人工评价的相关度，这是在150篇新的测试文档中进行的对比实验。

表2：通过线性回归得到的最终的评价方法与人工评价的相关度结果：

指标	Pearson	Spearman	Kendall
				ROUGE-L	.3488	.3554	.2669
MAX<sub>sim</sub>	.2541	.2339	.1773
				IP	.5982	.5966	.5485
LR(本发明)	.6646	.6644	.5265

从表2可以看出本发明的评价方法相关性相比于其他单个的指标有显著的提升，这也说明了本发明提出的评价方法能够较好的吻合人工评价的分数，也说明了本发明方法的有效性。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种图文摘要的评价方法，其特征在于包括：

计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值；

其中，所述图文相似度计算模型和图文摘要评价模型是分别基于预设的图片描述数据集和评价得分数据集并利用机器学习算法所构建的神经网络模型和线性回归模型。

2.根据权利要求1所述的图文摘要的评价方法，其特征在于，“计算预先获取的待测摘要的文本和参考摘要的文本之间的ROUGE值”的步骤包括：

获取所述待测摘要的文本和参考摘要的文本之间多个初始ROUGE值；

3.根据权利要求1所述的图文摘要的评价方法，其特征在于，“获取所述待测摘要的图片和所述参考摘要的图片之间的准确度”的步骤包括：

判断所述待测摘要的图片是否与所述参考摘要的图片相同；

4.根据权利要求1所述的图文摘要的评价方法，其特征在于，在“基于预先构建的图文相似度计算模型获取所述待测摘要中图片和文本的相似度”的步骤之前，所述方法还包括：

5.根据权利要求4所述的图文摘要的评价方法，其特征在于，“利用机器学习算法并根据所述图片和图片描述数据对应的特征向量训练所述图文相似度计算模型”的步骤包括：

其中，L表示所述最大间隔损失函数，β表示最大间隔参数，s()表示余弦相似度，i、c分别表示所述图片和文本对应的特征向量，表示与特征向量i不匹配的文本对应的特征向量，表示与特征向量c不匹配的图片对应的特征向量。

6.根据权利要求1所述的图文摘要的评价方法，其特征在于，在“基于预先构建的图文摘要评价模型并根据所述ROUGE值、准确度以及相似度获取对所述待测摘要的评价”的步骤之前，所述方法还包括：

利用线性回归算法并根据所述评价得分数据集中的ROUGE值、准确度、相似度以及人工评价得分训练所述图文摘要评价模型。

7.根据权利要求6所述的图文摘要的评价方法，其特征在于，“利用线性回归算法并根据所述评价得分数据集中的ROUGE值、准确度、相似度以及人工评价得分训练所述图文摘要评价模型”的步骤包括：

y＝f(m1,m2,m3)