CN114912512A - 一种对图像描述的结果进行自动评估的方法 - Google Patents

一种对图像描述的结果进行自动评估的方法 Download PDF

Info

Publication number
CN114912512A
CN114912512A CN202210392208.7A CN202210392208A CN114912512A CN 114912512 A CN114912512 A CN 114912512A CN 202210392208 A CN202210392208 A CN 202210392208A CN 114912512 A CN114912512 A CN 114912512A
Authority
CN
China
Prior art keywords
image
text
img
relation
scene graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210392208.7A
Other languages
English (en)
Inventor
张建兵
马海程
马征
黄博
何亮
戴新宇
黄书剑
陈家骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210392208.7A priority Critical patent/CN114912512A/zh
Publication of CN114912512A publication Critical patent/CN114912512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种对图像描述的结果进行自动评估的方法,包括:步骤1,分别抽取图像和文本的场景图;步骤2,利用多模态预训练模型CLIP对相关元素进行编码;步骤3,计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性,提高了无标注场景下质量评价的可信度;本发明使用CLIP模型对图像、文本、场景图进行编码,不仅确保了语义空间的一致性,大大提高了场景图相似度比较的准确性,还保证了编码能力的可更新性。

Description

一种对图像描述的结果进行自动评估的方法
技术领域
本发明属于图像描述的质量评估领域,尤其涉及一种对图像描述的结果进行自动评估的方法。
背景技术
随着当今社会经济文化科技的快速发展,多模态研究方兴未艾,而图像描述技术作为连接不同模态(图像与文本)之间的桥梁变得至关重要。对于图像描述系统生成的描述结果,需要用量化的评判标准评价其生成质量,这就是图像描述的质量评估。图像描述的评估已经成为了图像描述领域一个被广泛研究和讨论的问题。
对于图像描述质量评估问题,最直接的解决方法是人工评测,即业内专家逐个对图像描述系统生成的描述句子打分。人工打分的维度主要从一致性、流利性和丰富度来进行考量。但人工评测需要投入大量的人工成本,如时间与金钱。因此,自动图像描述质量评估应运而生。
目前,自动图像描述质量评估主要分为两个方向,第一个方向是有参考译文的图像描述质量评估,如BLEU、METEOR、CIDEr等评测指标,就是在给定人工标注的句子,即参考句子(reference)的情况下,通过比较图像描述系统生成的句子与参考句子之间的相似度来评价生成句子的质量。
第二个方向是无参考句子的图像描述质量评估,是仅给定图像描述系统中的输入图像和生成句子的情况下,对的质量直接进行评估的方法,并不依赖人工标注的句子(reference)。目前在该场景下有两类解决方案,一种是它把图像描述的质量评估问题定义为一项有监督的学习预测任务,即可以通过特征提取器来提取反映生成句子质量的显式或者隐式的特征,然后利用带质量标签的训练数据训练一个质量评估模型。这样,在没有人工给定参考句子的情况下即可评价,例如QE;而另一种方法则是直接借助一些预训练模型,对给定的图像和生成句子分别进行特征提取,然后计算其相似度作为句子质量的分数,例如CLIPScore。这样就可以对未见过的系统生成句子进行质量预测,也可以做到在线实时评价。
目前常用的无参考译文图像描述质量评估方法主要有两种,第一种是基于它把图像描述的质量评估问题定义为一项有监督的学习预测任务,即可以通过特征提取器来提取反映生成句子质量的显式或者隐式的特征,然后利用带质量标签的训练数据训练一个质量评估模型。这样,在没有人工给定参考句子的情况下即可评价,例如QE:
【论文1】Quality Estimation for Image Captions Based on Large-scaleHuman Evaluations
这种方法主要利用大规模已有的标注数据直接训练,其缺点是需要大规模有质量标注的数据,并且后续模型评价依赖于训练数据特点或需要再做迁移学习,此方法与本文所述方案路线不同,仅作介绍。
另一种技术方案应用场景较为广泛,即利用已有模型,分别获取图像和文本的特征表示,然后计算二者的相似度作为质量评价,具有代表性的有以下两类方案:
【论文2】VIFIDEL:Evaluating the visual fidelity of image descriptions
该方法先利用目标检测的标签信息组成向量表示图像,然后和句子之间利用 WMD方法计算二者之间的相似度。但是这种方案的图像表示以及文本的特征表示并不准确,经过WMD计算后和人工打分相关度较低;从指标的设计原理来看,包含图像中的内容越多就会得到更高的分数,同时,指标还存在随者检测目标数量的增多而下降的问题。与此方案类似的还有指标SFs(参考文献:Pranav Agarwal et al.“Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in imagecaptioning models”arXiv:Computer Vision and Pattern Recognition(2020):n.pag)。
【论文3】CLIPScore:A Reference-free Evaluation Metric for ImageCaptioning
该方法是目前已知无标注场景下和人工评价相关度达到最高的指标。其主要利用当前效果较好的多模态预训练模型CLIP分别对句子进行编码(参考文献:Alec Radford etal.“Learning Transferable Visual Models From Natural Language Supervision”arXiv: Computer Vision and Pattern Recognition(2021):n.pag),得到图像特征表示I以及句子特征表示S,然后计算特征I、S之间的相似度,从而获取句子和图像之间的相似度作为句子的分数。
在针对无标注场景下的图像描述质量评价,目前主要方案以【论文2】和【论文 3】为代表,但这两个方案都有一些弊端。
前者为代表的相关方案,主要重心集中在如何先利用目标检测等手段获取图像中的主要目标,然后再用这些目标来作为图像的表示,以这种方法将图像和文本置于同一语义空间进行比较。但这种方案一方面忽略了图像中存在的物体之间的关系,物体的属性等信息,造成误差;另一方面,这种方案严重依赖于目标检测器和语义编码器的质量,存在累积误差,因此在实验对比中,和人工评价的相关度较低。
后者代表的指标,主要的思路在于直接利用在大规模语料训练而得的多模态编码器进行编码图文数据,其优势在于具有较强的编码能力,特征抽取相对准确,因而在相关数据集(Flickr8k)上和人工评价的肯德尔相关系数达到已知最好。但经过结果分析发现,此类指标过渡依赖于多模态预训练模型的编码,忽略了主体与关系在图像描述质量评价中的重要性,从而导致句子中主语和图像主要目标完全不同时仍然会得到较高的分数,从而导致和人工评价具有较大的差距。
发明内容
发明目的:现有的图像描述质量评估方法在利用预训练模型简单对图文进行编码后,忽略了主体与关系的重要性,从而导致指标和人工评价相关度不高,对图像描述模型的评价不够准确,在一定程度上限制了模型的发展。
本发明通过使用场景图来解决上述问题。通过分别抽取图像和文本的场景图,在原本特征编码的基础上来对图文的匹配程度做出规范,从而提高指标和人工评价的相关性,更好的规范和引导图像描述模型的发展。
本发明具体提供了一种对图像描述的结果进行自动评估的方法,包括以下步骤:
步骤1,分别抽取图像和文本的场景图;
步骤2,利用多模态预训练模型CLIP对相关元素进行编码;
步骤3,计算得到句子质量评价的最终分数。
步骤1包括:
步骤101,输入图像IMG并由图像描述模型生成描述句子Sent;
步骤102,训练得到一个图像场景图生成器,记作SGG-TDE;
步骤103,得到文本场景图生成器,记作SPICE-SG;
步骤104,使用图像场景图生成器SGG-TDE,输入图像IMG,得到图像IMG对应场景图IMG-SG;
步骤105,使用文本场景图生成器SPICE-SG,输入描述句子Sent,得到描述句子Sent对应场景图Sent-SG。
步骤2包括:
步骤201,部署多模态预训练模型CLIP,多模态预训练模型CLIP能够分别编码图像和文本,输出特征表示;
步骤202,根据图像IMG对应场景图IMG-SG和描述句子Sent对应场景图Sent- SG,从文本场景图中提出涉及目标和关系,记作(K,L);对图像场景图IMG-SG中无效信息进行过滤,从过滤后的场景图中抽取涉及目标和关系,记作(M,N);M表示图像中的目标集合,N表示图像中的关系集合,K表示文本中的目标集合,L表示文本中的关系集合;
步骤203,使用CLIP模型对图像IMG、描述句子Sent分别进行特征编码,特征编码分别记作Img∈R1*D、Txt∈R1*D;R1*D是1*D维的实数矩阵;D是模型编码的固定维度,本发明中为512;
步骤204,利用CLIP模型对(M,N)集合中的每个元素进行编码,图像场景图对应的目标编码和关系编码分别记作Imgobj、Imgrel,在数学上分别表示为: <Imgobj∈R|M|*D,Imgrel∈R|N|*D>,|M|表示集合M的元素个数;
步骤205,利用CLIP模型对(K,L)集合中的每个元素进行编码,文本场景图对应的目标编码和关系编码分别记作Txtobj、Txtrel,数学上分别表示为:<Txtobj∈ R|K|*D,Txtrel∈R|L|*D>;
步骤206,用每个目标各自对应关系的特征对编码表示进行更新;
步骤207,用每个关系对应的目标编码对其本身进行更新;
步骤208,循环执行步骤206、207k次,本方法中k=2。
步骤206包括:设关系集合N中与目标a有关的关系组成关系子集A,目标a的特征表示为
Figure RE-GDA0003719923610000041
关系集合A=a1,a2,…,ap,则
Figure RE-GDA0003719923610000042
其中 a∈Imgobj
Figure RE-GDA0003719923610000043
表示第k个关系ak的特征编码,以此更新矩阵Imgobj,k取值为1~p, t5是中间参数,本方法中t5=0.6。
步骤207包括:设关系r=(x,z,y),其中x,y分别表示关系z对应的目标,x为主体,y为客体,例如(猫,抓,老鼠),
Figure RE-GDA0003719923610000051
其中
Figure RE-GDA0003719923610000052
初始为模型CLIP对关系r的编码表示,以此更新矩阵Imgrel,t6是中间参数,本方法中 t6=0.5。
步骤3包括:
步骤301,计算原始图像和文本的编码相似度Fbase
步骤302,计算图像和文本目标集合特征编码矩阵之间的精确度Pobj
步骤303,计算图像和文本目标集合之间的召回率Robj
步骤304,以调和平均值Fobj作为图像目标集合与文本目标集合之间的相似度分数,
Figure RE-GDA0003719923610000053
步骤305,计算图像和文本关系集合特征编码矩阵之间的精确度
Figure RE-GDA0003719923610000054
Figure RE-GDA0003719923610000055
Figure RE-GDA00037199236100000515
表示图像关系编码和文本关系编码计算所得的关系相似度矩阵,
Figure RE-GDA0003719923610000056
表示取相似度矩阵
Figure RE-GDA0003719923610000057
中|L|列最大值的和;
步骤306,计算图像和文本关系集合特征编码矩阵之间的召回率
Figure RE-GDA0003719923610000059
Figure RE-GDA00037199236100000510
其中
Figure RE-GDA00037199236100000511
表示取相似度矩阵
Figure RE-GDA00037199236100000512
中|N| 行最大值的和;
步骤307,以调和平均值
Figure RE-GDA00037199236100000513
作为图像关系集合与文本目标集合之间的相似度分数;
步骤308,计算最终得分CLIP-SG。
步骤301中,采用如下公式计算原始图像和文本的编码相似度Fbase
Fbase=cosin(Img,Txt),其中Img表示图像经过模型CLIP编码后的特征向量, Txt表示句子经过模型CLIP编码后的特征向量,cosin为余弦相似度计算。
步骤302中,采用如下公式计算图像和文本目标集合特征编码矩阵之间的精确度Pobj
Figure RE-GDA00037199236100000514
其中hij表示相似度矩阵
Figure RE-GDA0003719923610000061
中的第i行第j个元素,
Figure RE-GDA0003719923610000062
表示取相似度矩阵
Figure RE-GDA0003719923610000063
中|K|列最大值的和。
步骤303中,采用如下公式计算图像和文本目标集合之间的召回率Robj
Figure RE-GDA0003719923610000064
其中
Figure RE-GDA0003719923610000065
表示取|M|行最大值的和。
步骤308中,采用如下公式计算最终得分CLIP-SG:
CLIP-SG=αFbase+βFobj+γFrel
其中α、β、γ为权重参数,人为设置,本方法中具体值为0.5,0.4,0.1,Fbase为步骤301所得,表示图像和文本的全局相似度,Fobj为步骤304所得,表示图像和文本目标集合之间的一致性分数,Frel为步骤307所得,表示图像和文本之间关系集合的一致性分数。
有益效果:从技术层面来说,本发明的技术方案具有如下效果:
1)基于场景图来辅助判断图像和文本之间的一致性,提高了无标注场景下质量评价的可信度;
2)使用CLIP模型对图像、文本、场景图进行编码,不仅确保了语义空间的一致性,大大提高了场景图相似度比较的准确性,还保证了编码能力的可更新性;
3)采用节点级别的相似度比较,在细粒度上对图像和句子的相似度比较,使得与人工评价更相关;
4)加权融合不同角度考虑的分数,更换不同模型时更加灵活。
从应用层面来说,本发明的技术方案具有如下效果:
1)由于预训练模型的强大编码能力,本发明对于图像的适应范围更广;
2)场景图和编码模块独立,本发明可以根据相关领域的发展方便替换模型;
3)加权融合可以帮助适应不同的场景下对目标、关系的重视程度;
4)本发明与人工评价相关度更高;
5)模型实现简单,计算效率高。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。
图1是图像场景图举例示意图。
图2是文本场景图举例示意图。
图3是图像、文本场景图生成流程图。
图4是CLIP编码流程图。
图5是CLIP-SG计算流程图。
图6是解释如何通过相似度矩阵计算调和平均值。
具体实施方式
本发明提供了一种对图像描述的结果进行自动评估的方法,包括:
步骤1,定义一个已经训练好的待测图像描述模型,模型的输入是图像,输出是文本;
步骤2,使用已训练好图像场景图抽取模型抽取图像场景图,得到目标集合,目标关系集合,形式如图1;,图1、2中英文即为场景图解析结果,无特殊含义,即图像中的目标与关系:
Helmet:头盔;
Man:男人;
Backpack:背包;
Glove:手套;
Grass:草地;
Tree:树;
Wheel:轮胎;
Riding:骑着..;
Has:有;
Behind:在…后;
On:在…上;
Wear:穿着;
Motorcycle:摩托车;
Field:场地;
Dry:干的;
Ride in:骑着…;
步骤3,使用已有的文本场景图模型抽取图像描述模型输出句子的场景图,得到句子目标集合及句子目标关系集合,形式如图2;
步骤4:对图像场景图中不重要的信息进行过滤,例如“人有头”、“猫有尾巴”等,结果为简化后的场景图,含有图像中的重要目标,以及目标之间的关系。
步骤5,使用多模态预训练模型对图像、句子、步骤4所得目标集合中的每个目标、关系集合中的每个关系分别作特征编码;
步骤6,使用节点对应的关系特征来对其本身的特征进行更新,即每个目标都有各自对应的关系集合,使用这些关系特征的均值和节点本身的特征作加权融合,以作为目标新的特征,形成Imgobj特征矩阵。
步骤7,计算图像、输出句子的特征向量相似度,记作Fbase
步骤8,按照BERTScore所述计算方法(参考文献:Tianyi Zhang et al.“BERTScore: Evaluating Text Generation with BERT”International Conference onLearning Representations(2020)),计算图像目标集合与文本目标集合特征向量相似度矩阵,并得Fobj
步骤9,按照BERTScore所述计算方法(参考文献:Tianyi Zhang et al.“BERTScore: Evaluating Text Generation with BERT”International Conference onLearning Representations(2020).),计算图像目标关系集合与文本目标关系集合特征向量相似度矩阵,并得Frel
步骤10,计算CLIP-SG=αFbase+βFobj+γFrel为输出句子的质量得分。
实施例1
下面结合图3、4、5的具体实施例进行描述,本文实施了一种基于场景图来改进图像描述质量评估的方法。主要涉及到三个部分,一是利用已训练场景图模型分别抽取图像和文本的场景图并过滤无效信息,二是利用多模态预训练模型对图像、文本、以及场景图进行编码并利用关系特征更新目标集合特征,三是分别计算各类特征向量之间的相似度并加权融合。
本文提出的方法首先利用场景图模型分别抽取图像和文本场景图,具体流程图如图3所示。
步骤101,输入图像IMG并由图像描述模型生成描述句子,记作Sent,形式如“agirl is eating banana near a dog”。
步骤102,按照参考论文:Kaihua Tang et al.“Unbiased Scene GraphGeneration From Biased Training”Computer Vision and Pattern Recognition(2020)所描述的方法,训练得到一个图像场景图生成器,记作SGG-TDE。
步骤103,针对文本,按照参考论文:Peter Anderson et al.“SPICE:SemanticPropositional Image Caption Evaluation”European Conference on Computer Vision(2016)所述方法,得到文本场景图生成器,记作SPICE-SG。
步骤104,使用步骤102所得SGG-TDE,输入图像IMG,得到该图像对应场景图,记作IMG-SG,形式如图1所示。
步骤105,使用步骤103所得SPICE-SG,输入101所述Sent,得到该句子对应场景图,记作Sent-SG,形式如图2所示。
然后利用多模态预训练模型CLIP对相关元素进行编码,流程图如图4所示:
步骤201,根据论文:Alec Radford et al.“Learning Transferable VisualModels From Natural Language Supervision”arXiv:Computer Vision and PatternRecognition(2021):n.pag,部署CLIP 模型,该模型可以分别编码图像和文本,输出为其特征表示。
步骤202,根据步骤104,得图像IMG对应场景图IMG-SG,根据步骤105所述得句子Sent对应场景图Sent-SG。从文本场景图中抽取涉及目标和关系,记作(K,L);对图像场景图IMG-SG中无效信息进行过滤,例如“人有头”、“猫有尾巴”等,从过滤后的场景图中抽取涉及目标和关系,记作(M,N)。
步骤203,使用CLIP对步骤101所述图像、文本分别进行编码,特征编码分别记作Img,Txt;
步骤204,利用CLIP对步骤202所述(M,N)两个集合中的每个元素进行编码,图像对应的目标和关系编码分别记作Imgobj,Imgrel
步骤205,利用CLIP对步骤202所述(K,L)两个集合中得每个元素进行编码,文本对应的特征编码分别记作Txtobj,Txtrel
步骤206,用每个目标各自对应关系的特征对其编码表示进行更新,设目标a对应的关系集合为A,目标a的特征表示为
Figure RE-GDA0003719923610000091
关系集合A=a1,a2,…,ap,则
Figure RE-GDA0003719923610000092
Figure RE-GDA0003719923610000101
其中
Figure RE-GDA0003719923610000102
表示关系ak的特征编码,以此更新矩阵 Imgobj,本方法中t5=0.6。
步骤207,用每个关系对应的目标编码对其本身进行更新,设关系r=(x,z,y),其中 x,y分别表示关系z对应的目标,
Figure RE-GDA0003719923610000103
其中
Figure RE-GDA0003719923610000104
以此更新矩阵Imgrel,本方法中t6=0.5。
步骤208,循环执行步骤206、207k次,本方法中k=2。
以上得到了相关元素的特诊编码,最后将对这些编码的相似度进行计算比较,具体流程如图5;
当场景图模型分别抽取得到图像和文本的场景图后,在获取目标集合和关系集合之后,利用CLIP模型对图像、文本、目标集合、关系集合进行编码,如图4所示。
接下来,将针对图4所述得到的特征向量进行相似度计算,计算过程如下:
步骤301,计算原始图像和文本的编码相似度,Fbase=cosin(Img,Txt),即一个 0到1之间的实数,表示图像和文本之间全局特征的相似度。
步骤302,计算图像和文本目标集合特征编码矩阵之间的相似度,计算精确率
Figure RE-GDA0003719923610000105
其中Imgobj,Txtobj分别表示图像和文本中目标特征向量,数学上,Imgobj∈R|M|*D,Txtobj∈R|K|*D,D表示CLIP编码向量的固定维度,本方法中是512维;其中hij表示相似度矩阵
Figure RE-GDA0003719923610000106
中的第i行第j个元素。
步骤303,计算图像和文本目标集合之间的召回率
Figure RE-GDA0003719923610000107
步骤304,以调和平均值
Figure RE-GDA0003719923610000108
作为图像目标集合与文本目标集合之间的相似度分数。举例如图6所示,图像目标集合Imgobj为[banana,girl,desk,dog, toy],文本目标集合Txtobj为[apple,table,cat,boy],每个单词都有一个512维的向量来表示,两两之间计算余弦相似度,得到图6相似度矩阵,计算Pobj=(0.762+0.183+0.217+0.238)/4=0.35,Robj=(0.762+0.059+0.183+0.217+0.238)/5= 0.29,Fobj=2*(P*R)/(P+R)=0.317。
步骤305,计算图像和文本关系集合特征编码矩阵之间的精确度
Figure RE-GDA0003719923610000109
Figure RE-GDA00037199236100001010
步骤306,计算图像和文本关系集合特征编码矩阵之间的召回率
Figure RE-GDA0003719923610000111
Figure RE-GDA0003719923610000112
步骤307,以调和平均值
Figure RE-GDA0003719923610000113
作为图像关系集合与文本目标集合之间的相似度分数。
步骤308,计算最终得分CLIP-SG=αFbase+βFobj+γFrel,其中α、β、γ为权重参数,人为设置,本方法中具体值为0.5,0.4,0.1,Fbase为步骤301所得,表示图像和文本的全局相似度,Fobj为步骤304所得,表示图像和文本目标集合之间的一致性分数,Frel为步骤307所得,表示图像和文本之间关系集合的一致性分数。最终 CLIP-SG为0到1之间的实数,表示无标注场景下,模型生成的句子Sent对图像Img 的描述质量。经过实验证明,本方法与人工评价相关度较高。
本发明提供了一种对图像描述的结果进行自动评估的方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种对图像描述的结果进行自动评估的方法,其特征在于,包括以下步骤:
步骤1,分别抽取图像和文本的场景图;
步骤2,利用多模态预训练模型CLIP对相关元素进行编码;
步骤3,计算得到句子质量评价的最终分数。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤101,输入图像IMG并由图像描述模型生成描述句子Sent;
步骤102,训练得到一个图像场景图生成器,记作SGG-TDE;
步骤103,得到文本场景图生成器,记作SPICE-SG;
步骤104,使用图像场景图生成器SGG-TDE,输入图像IMG,得到图像IMG对应场景图IMG-SG;
步骤105,使用文本场景图生成器SPICE-SG,输入描述句子Sent,得到描述句子Sent对应场景图Sent-SG。
3.根据权利要求2所述的方法,其特征在于,步骤2包括:
步骤201,部署多模态预训练模型CLIP,多模态预训练模型CLIP能够分别编码图像和文本,输出特征表示;
步骤202,根据图像IMG对应场景图IMG-SG和描述句子Sent对应场景图Sent-SG,从文本场景图中提出涉及目标和关系,记作(K,L);对图像场景图IMG-SG中无效信息进行过滤,从过滤后的场景图中抽取涉及目标和关系,记作(M,N);M表示图像中的目标集合,N表示图像中的关系集合,K表示文本中的目标集合,L表示文本中的关系集合;
步骤203,使用CLIP模型对图像IMG、描述句子Sent分别进行特征编码,特征编码分别记作Img∈R1*D、Txt∈R1*D;R1*D是1*D维的实数矩阵;D是模型编码的固定维度;
步骤204,利用CLIP模型对(M,N)集合中的每个元素进行编码,图像场景图对应的目标编码和关系编码分别记作Imgobj、Imgrel,在数学上分别表示为:<Imgobj∈R|M|*D,Imgrel∈R|N|*D>,|M|表示集合M的元素个数;
步骤205,利用CLIP模型对(K,L)集合中的每个元素进行编码,文本场景图对应的目标编码和关系编码分别记作Txtobj、Txtrel,数学上分别表示为:<Txtobj∈R|K|*D,Txtrel∈R|L|*D>;
步骤206,用每个目标各自对应关系的特征对编码表示进行更新;
步骤207,用每个关系对应的目标编码对其本身进行更新;
步骤208,循环执行步骤206、207k次。
4.根据权利要求3所述的方法,其特征在于,步骤206包括:设关系集合N中与目标a有关的关系组成关系子集A,目标a的特征表示为
Figure FDA0003596133940000021
关系集合A=a1,a2,...,ap,则
Figure FDA0003596133940000022
其中a∈Imgobj
Figure FDA0003596133940000023
表示第k个关系ak的特征编码,以此更新矩阵Imgobj,k取值为1~p,t5是中间参数。
5.根据权利要求4所述的方法,其特征在于,步骤207包括:设关系r=(x,z,y),其中x,y分别表示关系z对应的目标,x为主体,y为客体,
Figure FDA0003596133940000024
其中
Figure FDA0003596133940000025
Figure FDA0003596133940000026
初始为模型CLIP对关系r的编码表示,以此更新矩阵Imgrel,t6是中间参数。
6.根据权利要求5所述的方法,其特征在于,步骤3包括:
步骤301,计算原始图像和文本的编码相似度Fbase
步骤302,计算图像和文本目标集合特征编码矩阵之间的精确度Pobj
步骤303,计算图像和文本目标集合之间的召回率Robj
步骤304,以调和平均值Fobj作为图像目标集合与文本目标集合之间的相似度分数,
Figure FDA0003596133940000027
步骤305,计算图像和文本关系集合特征编码矩阵之间的精确度
Figure FDA0003596133940000028
Figure FDA0003596133940000029
Figure FDA00035961339400000210
表示图像关系编码和文本关系编码计算所得的关系相似度矩阵,
Figure FDA00035961339400000211
表示取相似度矩阵
Figure FDA00035961339400000212
中|L|列最大值的和;
步骤306,计算图像和文本关系集合特征编码矩阵之间的召回率
Figure FDA00035961339400000213
Figure FDA00035961339400000214
其中
Figure FDA00035961339400000215
表示取相似度矩阵
Figure FDA00035961339400000216
中|N|行最大值的和;
步骤307,以调和平均值
Figure FDA0003596133940000031
作为图像关系集合与文本目标集合之间的相似度分数;
步骤308,计算最终得分CLIP-SG。
7.根据权利要求6所述的方法,其特征在于,步骤301中,采用如下公式计算原始图像和文本的编码相似度Fbase
Fbase=cosin(Img,Txt),其中Img表示图像经过模型CLIP编码后的特征向量,Txt表示句子经过模型CLIP编码后的特征向量,cosin为余弦相似度计算。
8.根据权利要求7所述的方法,其特征在于,步骤302中,采用如下公式计算图像和文本目标集合特征编码矩阵之间的精确度Pobj
Figure FDA0003596133940000032
其中hij表示相似度矩阵
Figure FDA0003596133940000033
中的第i行第j个元素,
Figure FDA0003596133940000034
表示取相似度矩阵
Figure FDA0003596133940000035
中|K|列最大值的和。
9.根据权利要求8所述的方法,其特征在于,步骤303中,采用如下公式计算图像和文本目标集合之间的召回率Robj
Figure FDA0003596133940000036
其中
Figure FDA0003596133940000037
表示取|M|行最大值的和。
10.根据权利要求9所述的方法,其特征在于,步骤308中,采用如下公式计算最终得分CLIP-SG:
CLIP-SG=αFbase+βFobj+γFrel
其中α、β、γ为权重参数。
CN202210392208.7A 2022-04-14 2022-04-14 一种对图像描述的结果进行自动评估的方法 Pending CN114912512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210392208.7A CN114912512A (zh) 2022-04-14 2022-04-14 一种对图像描述的结果进行自动评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210392208.7A CN114912512A (zh) 2022-04-14 2022-04-14 一种对图像描述的结果进行自动评估的方法

Publications (1)

Publication Number Publication Date
CN114912512A true CN114912512A (zh) 2022-08-16

Family

ID=82764781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210392208.7A Pending CN114912512A (zh) 2022-04-14 2022-04-14 一种对图像描述的结果进行自动评估的方法

Country Status (1)

Country Link
CN (1) CN114912512A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690004A (zh) * 2024-02-01 2024-03-12 暗物智能科技(广州)有限公司 图文数据质量的确定方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553445A (zh) * 2021-07-28 2021-10-26 北京理工大学 一种生成视频描述的方法
WO2021243706A1 (zh) * 2020-06-05 2021-12-09 中山大学 一种跨语言生成提问的方法和装置
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN114332519A (zh) * 2021-12-29 2022-04-12 杭州电子科技大学 一种基于外部三元组和抽象关系的图像描述生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021243706A1 (zh) * 2020-06-05 2021-12-09 中山大学 一种跨语言生成提问的方法和装置
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN113553445A (zh) * 2021-07-28 2021-10-26 北京理工大学 一种生成视频描述的方法
CN114332519A (zh) * 2021-12-29 2022-04-12 杭州电子科技大学 一种基于外部三元组和抽象关系的图像描述生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690004A (zh) * 2024-02-01 2024-03-12 暗物智能科技(广州)有限公司 图文数据质量的确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN112069408A (zh) 一种融合关系抽取的推荐系统及方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN107480194B (zh) 多模态知识表示自动学习模型的构建方法及系统
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN111859938B (zh) 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN114065848A (zh) 一种基于预训练情感嵌入的中文方面级别情感分类方法
CN113704392A (zh) 文本中实体关系的抽取方法、装置、设备及存储介质
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
Gong et al. A semantic similarity language model to improve automatic image annotation
CN112801217B (zh) 文本相似度判断方法、装置、电子设备以及可读存储介质
CN114912512A (zh) 一种对图像描述的结果进行自动评估的方法
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
CN114022687A (zh) 一种基于增强学习的图像描述对抗生成方法
CN113380360A (zh) 一种基于多模态病历图的相似病历检索方法及系统
Zheng et al. Weakly-supervised image captioning based on rich contextual information
Bashmal et al. Language Integration in Remote Sensing: Tasks, datasets, and future directions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination