CN114912512A

CN114912512A - 一种对图像描述的结果进行自动评估的方法

Info

Publication number: CN114912512A
Application number: CN202210392208.7A
Authority: CN
Inventors: 张建兵; 马海程; 马征; 黄博; 何亮; 戴新宇; 黄书剑; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-08-16

Abstract

本发明提供了一种对图像描述的结果进行自动评估的方法，包括：步骤1，分别抽取图像和文本的场景图；步骤2，利用多模态预训练模型CLIP对相关元素进行编码；步骤3，计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性，提高了无标注场景下质量评价的可信度；本发明使用CLIP模型对图像、文本、场景图进行编码，不仅确保了语义空间的一致性，大大提高了场景图相似度比较的准确性，还保证了编码能力的可更新性。

Description

一种对图像描述的结果进行自动评估的方法

技术领域

本发明属于图像描述的质量评估领域，尤其涉及一种对图像描述的结果进行自动评估的方法。

背景技术

随着当今社会经济文化科技的快速发展，多模态研究方兴未艾，而图像描述技术作为连接不同模态(图像与文本)之间的桥梁变得至关重要。对于图像描述系统生成的描述结果，需要用量化的评判标准评价其生成质量，这就是图像描述的质量评估。图像描述的评估已经成为了图像描述领域一个被广泛研究和讨论的问题。

对于图像描述质量评估问题，最直接的解决方法是人工评测，即业内专家逐个对图像描述系统生成的描述句子打分。人工打分的维度主要从一致性、流利性和丰富度来进行考量。但人工评测需要投入大量的人工成本，如时间与金钱。因此，自动图像描述质量评估应运而生。

目前，自动图像描述质量评估主要分为两个方向，第一个方向是有参考译文的图像描述质量评估，如BLEU、METEOR、CIDEr等评测指标，就是在给定人工标注的句子，即参考句子(reference)的情况下，通过比较图像描述系统生成的句子与参考句子之间的相似度来评价生成句子的质量。

第二个方向是无参考句子的图像描述质量评估，是仅给定图像描述系统中的输入图像和生成句子的情况下，对的质量直接进行评估的方法，并不依赖人工标注的句子(reference)。目前在该场景下有两类解决方案，一种是它把图像描述的质量评估问题定义为一项有监督的学习预测任务，即可以通过特征提取器来提取反映生成句子质量的显式或者隐式的特征，然后利用带质量标签的训练数据训练一个质量评估模型。这样，在没有人工给定参考句子的情况下即可评价，例如QE；而另一种方法则是直接借助一些预训练模型，对给定的图像和生成句子分别进行特征提取，然后计算其相似度作为句子质量的分数，例如CLIPScore。这样就可以对未见过的系统生成句子进行质量预测，也可以做到在线实时评价。

目前常用的无参考译文图像描述质量评估方法主要有两种，第一种是基于它把图像描述的质量评估问题定义为一项有监督的学习预测任务，即可以通过特征提取器来提取反映生成句子质量的显式或者隐式的特征，然后利用带质量标签的训练数据训练一个质量评估模型。这样，在没有人工给定参考句子的情况下即可评价，例如QE：

【论文1】Quality Estimation for Image Captions Based on Large-scaleHuman Evaluations

这种方法主要利用大规模已有的标注数据直接训练，其缺点是需要大规模有质量标注的数据，并且后续模型评价依赖于训练数据特点或需要再做迁移学习，此方法与本文所述方案路线不同，仅作介绍。

另一种技术方案应用场景较为广泛，即利用已有模型，分别获取图像和文本的特征表示，然后计算二者的相似度作为质量评价，具有代表性的有以下两类方案：

【论文2】VIFIDEL:Evaluating the visual fidelity of image descriptions

该方法先利用目标检测的标签信息组成向量表示图像，然后和句子之间利用 WMD方法计算二者之间的相似度。但是这种方案的图像表示以及文本的特征表示并不准确，经过WMD计算后和人工打分相关度较低；从指标的设计原理来看，包含图像中的内容越多就会得到更高的分数，同时，指标还存在随者检测目标数量的增多而下降的问题。与此方案类似的还有指标SFs(参考文献：Pranav Agarwal et al.“Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in imagecaptioning models”arXiv:Computer Vision and Pattern Recognition(2020):n.pag)。

【论文3】CLIPScore:A Reference-free Evaluation Metric for ImageCaptioning

该方法是目前已知无标注场景下和人工评价相关度达到最高的指标。其主要利用当前效果较好的多模态预训练模型CLIP分别对句子进行编码(参考文献：Alec Radford etal.“Learning Transferable Visual Models From Natural Language Supervision”arXiv: Computer Vision and Pattern Recognition(2021):n.pag)，得到图像特征表示I以及句子特征表示S，然后计算特征I、S之间的相似度，从而获取句子和图像之间的相似度作为句子的分数。

在针对无标注场景下的图像描述质量评价，目前主要方案以【论文2】和【论文 3】为代表，但这两个方案都有一些弊端。

前者为代表的相关方案，主要重心集中在如何先利用目标检测等手段获取图像中的主要目标，然后再用这些目标来作为图像的表示，以这种方法将图像和文本置于同一语义空间进行比较。但这种方案一方面忽略了图像中存在的物体之间的关系，物体的属性等信息，造成误差；另一方面，这种方案严重依赖于目标检测器和语义编码器的质量，存在累积误差，因此在实验对比中，和人工评价的相关度较低。

后者代表的指标，主要的思路在于直接利用在大规模语料训练而得的多模态编码器进行编码图文数据，其优势在于具有较强的编码能力，特征抽取相对准确，因而在相关数据集(Flickr8k)上和人工评价的肯德尔相关系数达到已知最好。但经过结果分析发现，此类指标过渡依赖于多模态预训练模型的编码，忽略了主体与关系在图像描述质量评价中的重要性，从而导致句子中主语和图像主要目标完全不同时仍然会得到较高的分数，从而导致和人工评价具有较大的差距。

发明内容

发明目的：现有的图像描述质量评估方法在利用预训练模型简单对图文进行编码后，忽略了主体与关系的重要性，从而导致指标和人工评价相关度不高，对图像描述模型的评价不够准确，在一定程度上限制了模型的发展。

本发明通过使用场景图来解决上述问题。通过分别抽取图像和文本的场景图，在原本特征编码的基础上来对图文的匹配程度做出规范，从而提高指标和人工评价的相关性，更好的规范和引导图像描述模型的发展。

本发明具体提供了一种对图像描述的结果进行自动评估的方法，包括以下步骤：

步骤1，分别抽取图像和文本的场景图；

步骤2，利用多模态预训练模型CLIP对相关元素进行编码；

步骤3，计算得到句子质量评价的最终分数。

步骤1包括：

步骤101，输入图像IMG并由图像描述模型生成描述句子Sent；

步骤102，训练得到一个图像场景图生成器，记作SGG-TDE；

步骤103，得到文本场景图生成器，记作SPICE-SG；

步骤104，使用图像场景图生成器SGG-TDE，输入图像IMG，得到图像IMG对应场景图IMG-SG；

步骤105，使用文本场景图生成器SPICE-SG，输入描述句子Sent，得到描述句子Sent对应场景图Sent-SG。

步骤2包括：

步骤201，部署多模态预训练模型CLIP，多模态预训练模型CLIP能够分别编码图像和文本，输出特征表示；

步骤202，根据图像IMG对应场景图IMG-SG和描述句子Sent对应场景图Sent- SG，从文本场景图中提出涉及目标和关系，记作(K,L)；对图像场景图IMG-SG中无效信息进行过滤，从过滤后的场景图中抽取涉及目标和关系，记作(M,N)；M表示图像中的目标集合，N表示图像中的关系集合，K表示文本中的目标集合，L表示文本中的关系集合；

步骤203，使用CLIP模型对图像IMG、描述句子Sent分别进行特征编码，特征编码分别记作Img∈R^1*D、Txt∈R^1*D；R^1*D是1*D维的实数矩阵；D是模型编码的固定维度，本发明中为512；

步骤204，利用CLIP模型对(M，N)集合中的每个元素进行编码，图像场景图对应的目标编码和关系编码分别记作Img_obj、Img_rel，在数学上分别表示为： <Img_obj∈R^|M|*D,Img_rel∈R^|N|*D>，|M|表示集合M的元素个数；

步骤205，利用CLIP模型对(K,L)集合中的每个元素进行编码，文本场景图对应的目标编码和关系编码分别记作Txt_obj、Txt_rel，数学上分别表示为：<Txt_obj∈ R^|K|*D,Txt_rel∈R^|L|*D>；

步骤206，用每个目标各自对应关系的特征对编码表示进行更新；

步骤207，用每个关系对应的目标编码对其本身进行更新；

步骤208，循环执行步骤206、207k次，本方法中k＝2。

步骤206包括：设关系集合N中与目标a有关的关系组成关系子集A，目标a的特征表示为

关系集合A＝a₁,a₂,…,a_p，则

其中 a∈Img_obj，

表示第k个关系a_k的特征编码，以此更新矩阵Img_obj，k取值为1～p， t₅是中间参数，本方法中t₅＝0.6。

步骤207包括：设关系r＝(x,z,y)，其中x,y分别表示关系z对应的目标，x为主体，y为客体，例如(猫，抓，老鼠)，

其中

初始为模型CLIP对关系r的编码表示，以此更新矩阵Img_rel，t₆是中间参数，本方法中 t₆＝0.5。

步骤3包括：

步骤301，计算原始图像和文本的编码相似度F_base；

步骤302，计算图像和文本目标集合特征编码矩阵之间的精确度P_obj；

步骤303，计算图像和文本目标集合之间的召回率R_obj；

步骤304，以调和平均值F_obj作为图像目标集合与文本目标集合之间的相似度分数，

步骤305，计算图像和文本关系集合特征编码矩阵之间的精确度

表示图像关系编码和文本关系编码计算所得的关系相似度矩阵，

表示取相似度矩阵

中|L|列最大值的和；

步骤306，计算图像和文本关系集合特征编码矩阵之间的召回率

其中

表示取相似度矩阵

中|N| 行最大值的和；

步骤307，以调和平均值

作为图像关系集合与文本目标集合之间的相似度分数；

步骤308，计算最终得分CLIP-SG。

步骤301中，采用如下公式计算原始图像和文本的编码相似度F_base：

F_base＝cosin(Img,Txt)，其中Img表示图像经过模型CLIP编码后的特征向量， Txt表示句子经过模型CLIP编码后的特征向量，cosin为余弦相似度计算。

步骤302中，采用如下公式计算图像和文本目标集合特征编码矩阵之间的精确度P_obj：

其中h_ij表示相似度矩阵

中的第i行第j个元素，

表示取相似度矩阵

中|K|列最大值的和。

步骤303中，采用如下公式计算图像和文本目标集合之间的召回率R_obj：

其中

表示取|M|行最大值的和。

步骤308中，采用如下公式计算最终得分CLIP-SG：

CLIP-SG＝αF_base+βF_obj+γF_rel，

其中α、β、γ为权重参数，人为设置，本方法中具体值为0.5，0.4，0.1，F_base为步骤301所得，表示图像和文本的全局相似度，F_obj为步骤304所得，表示图像和文本目标集合之间的一致性分数，F_rel为步骤307所得，表示图像和文本之间关系集合的一致性分数。

有益效果：从技术层面来说，本发明的技术方案具有如下效果：

1)基于场景图来辅助判断图像和文本之间的一致性，提高了无标注场景下质量评价的可信度；

2)使用CLIP模型对图像、文本、场景图进行编码，不仅确保了语义空间的一致性，大大提高了场景图相似度比较的准确性，还保证了编码能力的可更新性；

3)采用节点级别的相似度比较，在细粒度上对图像和句子的相似度比较，使得与人工评价更相关；

4)加权融合不同角度考虑的分数，更换不同模型时更加灵活。

从应用层面来说，本发明的技术方案具有如下效果：

1)由于预训练模型的强大编码能力，本发明对于图像的适应范围更广；

2)场景图和编码模块独立，本发明可以根据相关领域的发展方便替换模型；

3)加权融合可以帮助适应不同的场景下对目标、关系的重视程度；

4)本发明与人工评价相关度更高；

5)模型实现简单，计算效率高。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/ 或其他方面的优点将会变得更加清楚。

图1是图像场景图举例示意图。

图2是文本场景图举例示意图。

图3是图像、文本场景图生成流程图。

图4是CLIP编码流程图。

图5是CLIP-SG计算流程图。

图6是解释如何通过相似度矩阵计算调和平均值。

具体实施方式

本发明提供了一种对图像描述的结果进行自动评估的方法，包括：

步骤1，定义一个已经训练好的待测图像描述模型，模型的输入是图像，输出是文本；

步骤2，使用已训练好图像场景图抽取模型抽取图像场景图，得到目标集合，目标关系集合，形式如图1；，图1、2中英文即为场景图解析结果，无特殊含义，即图像中的目标与关系：

Helmet：头盔；

Man：男人；

Backpack：背包；

Glove：手套；

Grass：草地；

Tree：树；

Wheel：轮胎；

Riding：骑着..；

Has:有；

Behind：在…后；

On:在…上；

Wear：穿着；

Motorcycle：摩托车；

Field：场地；

Dry：干的；

Ride in：骑着…；

步骤3，使用已有的文本场景图模型抽取图像描述模型输出句子的场景图，得到句子目标集合及句子目标关系集合，形式如图2；

步骤4：对图像场景图中不重要的信息进行过滤，例如“人有头”、“猫有尾巴”等，结果为简化后的场景图，含有图像中的重要目标，以及目标之间的关系。

步骤5，使用多模态预训练模型对图像、句子、步骤4所得目标集合中的每个目标、关系集合中的每个关系分别作特征编码；

步骤6，使用节点对应的关系特征来对其本身的特征进行更新，即每个目标都有各自对应的关系集合，使用这些关系特征的均值和节点本身的特征作加权融合，以作为目标新的特征，形成Img_obj特征矩阵。

步骤7，计算图像、输出句子的特征向量相似度，记作F_base；

步骤8，按照BERTScore所述计算方法(参考文献：Tianyi Zhang et al.“BERTScore: Evaluating Text Generation with BERT”International Conference onLearning Representations(2020))，计算图像目标集合与文本目标集合特征向量相似度矩阵，并得F_obj；

步骤9，按照BERTScore所述计算方法(参考文献：Tianyi Zhang et al.“BERTScore: Evaluating Text Generation with BERT”International Conference onLearning Representations(2020).)，计算图像目标关系集合与文本目标关系集合特征向量相似度矩阵，并得F_rel；

步骤10，计算CLIP-SG＝αF_base+βF_obj+γF_rel为输出句子的质量得分。

实施例1

下面结合图3、4、5的具体实施例进行描述，本文实施了一种基于场景图来改进图像描述质量评估的方法。主要涉及到三个部分，一是利用已训练场景图模型分别抽取图像和文本的场景图并过滤无效信息，二是利用多模态预训练模型对图像、文本、以及场景图进行编码并利用关系特征更新目标集合特征，三是分别计算各类特征向量之间的相似度并加权融合。

本文提出的方法首先利用场景图模型分别抽取图像和文本场景图，具体流程图如图3所示。

步骤101，输入图像IMG并由图像描述模型生成描述句子，记作Sent，形式如“agirl is eating banana near a dog”。

步骤102，按照参考论文：Kaihua Tang et al.“Unbiased Scene GraphGeneration From Biased Training”Computer Vision and Pattern Recognition(2020)所描述的方法，训练得到一个图像场景图生成器，记作SGG-TDE。

步骤103，针对文本，按照参考论文：Peter Anderson et al.“SPICE:SemanticPropositional Image Caption Evaluation”European Conference on Computer Vision(2016)所述方法，得到文本场景图生成器，记作SPICE-SG。

步骤104，使用步骤102所得SGG-TDE，输入图像IMG，得到该图像对应场景图，记作IMG-SG，形式如图1所示。

步骤105，使用步骤103所得SPICE-SG，输入101所述Sent，得到该句子对应场景图，记作Sent-SG，形式如图2所示。

然后利用多模态预训练模型CLIP对相关元素进行编码，流程图如图4所示：

步骤201，根据论文：Alec Radford et al.“Learning Transferable VisualModels From Natural Language Supervision”arXiv:Computer Vision and PatternRecognition(2021):n.pag，部署CLIP 模型，该模型可以分别编码图像和文本，输出为其特征表示。

步骤202，根据步骤104，得图像IMG对应场景图IMG-SG，根据步骤105所述得句子Sent对应场景图Sent-SG。从文本场景图中抽取涉及目标和关系，记作(K,L)；对图像场景图IMG-SG中无效信息进行过滤，例如“人有头”、“猫有尾巴”等，从过滤后的场景图中抽取涉及目标和关系，记作(M,N)。

步骤203，使用CLIP对步骤101所述图像、文本分别进行编码,特征编码分别记作Img,Txt；

步骤204，利用CLIP对步骤202所述(M，N)两个集合中的每个元素进行编码，图像对应的目标和关系编码分别记作Img_obj，Img_rel；

步骤205，利用CLIP对步骤202所述(K，L)两个集合中得每个元素进行编码，文本对应的特征编码分别记作Txt_obj，Txt_rel；

步骤206，用每个目标各自对应关系的特征对其编码表示进行更新，设目标a对应的关系集合为A，目标a的特征表示为

关系集合A＝a₁,a₂,…,a_p，则

其中

表示关系a_k的特征编码，以此更新矩阵 Img_obj，本方法中t₅＝0.6。

步骤207，用每个关系对应的目标编码对其本身进行更新，设关系r＝(x,z,y),其中 x,y分别表示关系z对应的目标，

其中

以此更新矩阵Img_rel,本方法中t₆＝0.5。

步骤208，循环执行步骤206、207k次，本方法中k＝2。

以上得到了相关元素的特诊编码，最后将对这些编码的相似度进行计算比较，具体流程如图5；

当场景图模型分别抽取得到图像和文本的场景图后，在获取目标集合和关系集合之后，利用CLIP模型对图像、文本、目标集合、关系集合进行编码，如图4所示。

接下来，将针对图4所述得到的特征向量进行相似度计算，计算过程如下：

步骤301，计算原始图像和文本的编码相似度，F_base＝cosin(Img,Txt)，即一个 0到1之间的实数，表示图像和文本之间全局特征的相似度。

步骤302，计算图像和文本目标集合特征编码矩阵之间的相似度，计算精确率

其中Img_obj，Txt_obj分别表示图像和文本中目标特征向量，数学上，Img_obj∈R^|M|*D，Txt_obj∈R^|K|*D，D表示CLIP编码向量的固定维度，本方法中是512维；其中h_ij表示相似度矩阵

中的第i行第j个元素。

步骤303，计算图像和文本目标集合之间的召回率

步骤304，以调和平均值

作为图像目标集合与文本目标集合之间的相似度分数。举例如图6所示，图像目标集合Img_obj为[banana,girl,desk,dog, toy],文本目标集合Txt_obj为[apple,table,cat,boy],每个单词都有一个512维的向量来表示，两两之间计算余弦相似度，得到图6相似度矩阵，计算P_obj＝(0.762+0.183+0.217+0.238)/4＝0.35,R_obj＝(0.762+0.059+0.183+0.217+0.238)/5＝ 0.29,F_obj＝2*(P*R)/(P+R)＝0.317。

步骤307，以调和平均值

作为图像关系集合与文本目标集合之间的相似度分数。

步骤308，计算最终得分CLIP-SG＝αF_base+βF_obj+γF_rel，其中α、β、γ为权重参数，人为设置，本方法中具体值为0.5，0.4，0.1，F_base为步骤301所得，表示图像和文本的全局相似度，F_obj为步骤304所得，表示图像和文本目标集合之间的一致性分数，F_rel为步骤307所得，表示图像和文本之间关系集合的一致性分数。最终 CLIP-SG为0到1之间的实数，表示无标注场景下，模型生成的句子Sent对图像Img 的描述质量。经过实验证明，本方法与人工评价相关度较高。

本发明提供了一种对图像描述的结果进行自动评估的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种对图像描述的结果进行自动评估的方法，其特征在于，包括以下步骤：

步骤1，分别抽取图像和文本的场景图；

步骤2，利用多模态预训练模型CLIP对相关元素进行编码；

步骤3，计算得到句子质量评价的最终分数。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

步骤101，输入图像IMG并由图像描述模型生成描述句子Sent；

步骤102，训练得到一个图像场景图生成器，记作SGG-TDE；

步骤103，得到文本场景图生成器，记作SPICE-SG；

3.根据权利要求2所述的方法，其特征在于，步骤2包括：

步骤202，根据图像IMG对应场景图IMG-SG和描述句子Sent对应场景图Sent-SG，从文本场景图中提出涉及目标和关系，记作(K，L)；对图像场景图IMG-SG中无效信息进行过滤，从过滤后的场景图中抽取涉及目标和关系，记作(M，N)；M表示图像中的目标集合，N表示图像中的关系集合，K表示文本中的目标集合，L表示文本中的关系集合；

步骤203，使用CLIP模型对图像IMG、描述句子Sent分别进行特征编码，特征编码分别记作Img∈R^1*D、Txt∈R^1*D；R^1*D是1*D维的实数矩阵；D是模型编码的固定维度；

步骤204，利用CLIP模型对(M，N)集合中的每个元素进行编码，图像场景图对应的目标编码和关系编码分别记作Img_obj、Img_rel，在数学上分别表示为：<Img_obj∈R^|M|*D，Img_rel∈R^|N|*D>，|M|表示集合M的元素个数；

步骤205，利用CLIP模型对(K，L)集合中的每个元素进行编码，文本场景图对应的目标编码和关系编码分别记作Txt_obj、Txt_rel，数学上分别表示为：<Txt_obj∈R^|K|*D，Txt_rel∈R^|L|*D>；

步骤207，用每个关系对应的目标编码对其本身进行更新；

步骤208，循环执行步骤206、207k次。

4.根据权利要求3所述的方法，其特征在于，步骤206包括：设关系集合N中与目标a有关的关系组成关系子集A，目标a的特征表示为