CN114612767B - 一种基于场景图的图像理解与表达方法、系统与存储介质 - Google Patents

一种基于场景图的图像理解与表达方法、系统与存储介质 Download PDF

Info

Publication number
CN114612767B
CN114612767B CN202210243982.1A CN202210243982A CN114612767B CN 114612767 B CN114612767 B CN 114612767B CN 202210243982 A CN202210243982 A CN 202210243982A CN 114612767 B CN114612767 B CN 114612767B
Authority
CN
China
Prior art keywords
key
target entity
target
image
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210243982.1A
Other languages
English (en)
Other versions
CN114612767A (zh
Inventor
匡平
刘晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210243982.1A priority Critical patent/CN114612767B/zh
Publication of CN114612767A publication Critical patent/CN114612767A/zh
Application granted granted Critical
Publication of CN114612767B publication Critical patent/CN114612767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质,应用于图像理解与表达领域,针对现有技术存在的图像表达准确率和效率均较低的问题;本发明提出了基于关键中心点估计的视觉场景图生成方法,不使用大量目标检测锚框和后处理手段,提升了场景图生成的准确率和效率,并充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系,使得图像内容表达语句更准确、更贴近图像内容本身;本发明还引入先验语料知识,补足场景图生成过程中关系谓词等词汇输出的缺失,提升了图像内容理解与表达的表达语句准确率和拟人化水平;相比于现有技术,本发明的图像表达准确率和效率均有显著的提升。

Description

一种基于场景图的图像理解与表达方法、系统与存储介质
技术领域
本发明属于图像处理领域,特别涉及一种视觉场景图生成技术。
背景技术
图像内容理解与表达,如图1所示,即给定一张输入图像,而后需要机器去感知图像中的目标实体、属性、捕捉画面中的关系,最后生成一段对于图像内容理解的描述性质的表达语句。
图像内容理解与表达领域随着研究的不断深入,主要发展出三条较为成熟的技术路线:模板方法、相似性检索方法和基于编解码及衍生结构方法。基于模板的图像内容理解与表达方法,使用较为传统的视觉依存关系提取图像中的视觉特征,表达阶段使用句法树构建模板式的表达模型;基于相似性检索的图像内容理解与表达方法,通过检索向量空间中最接近与先验数据集中图像内容表达的方式,查询与当前图像模态输入最接近的句式以生成图像表达;基于编解码及衍生结构的方法,使用深度学习方法中卷积神经网络等相关技术构建以提取视觉特征的编码器,并使用基于循环神经网络的解码结构将视觉特征解码为输出语义序列。
1)模板方法:基于模板的方法在图像内容表达过程中使用最大熵语言模型、马尔科夫随机场等相关传统方法构建句法树,并根据先验模板将多个单词或词组组合成对应的图像内容表达。Kulkarni等人于2013年提出了Baby Talk模型,基于条件随机场计算一元图像电势,结合语料库中的高阶文本电势模板,推理出合适的单词和词组并最终形成图像表达。Yang等人提出的图像表达策略通过预测核心句子表达结构中最有可能出现的名词、动词、场景和介词,结合先验语料库模板,实现图像理解与表达。
2)基于相似性检索的方法,多利用图像视觉的相似性而并非直接使用深度学习方法构建对应的理解与表达模型,其方法并非直接理解图像内容而是寻找与先验数据库中数据的相似关联,从本质上将图像理解与表达任务转换为图像检索任务。Mason等人通过估计查询图像的视觉内容的词频解决了视觉噪声与先验数据库中数据的对齐问题,通过寻找相似语义的已标注图像以形成图像表达。
3)基于编解码及衍生结构的方法,是现有研究的主流方法。在原始机器翻译任务中由循环神经网络构建的编解码器中,输入序列与输出序列必须遵守等长的规则,而OVinyals等人提出了Show and Tell模型,将原有机器翻译任务中使用循环神经网络构建的的编码器换成了处理视觉任务的卷积神经网络结构,为图像提取视觉特征,依然使用原有的解码器结构输出序列,解决了编解码器结构中输入输出长度对齐的问题。Kelvin Xu等人提出Show,Attend and Tell模型,将注意力机制引入编解码器结构,使模型能够自动学习需要重点关注的对象,并在输出序列中生成相应的图像表达。Chen等人不仅在编解码器中加入了注意力机制,并改变了解码器部分循环神经网络本身的结构,使模型不仅能够从图像内容理解中获得图像表达,还能从图像表达中获得对图像内容理解的相关图像特征,并提高了运算的整体性能。
现有技术存在以下问题:
(1)现有主流的图像内容理解与表达方法为基于编解码及衍生结构的方法,如图2所示,在该方法中编码器并未充分关注图像内容中实体与属性、实体与实体、实体与背景之间的关系,不能够在解码阶段形成体现图像内容中“关系”的准确图像表达。
(2)编解码器结构中,编码器作为视觉特征提取的重要环节,该环节的准确率和效率直接影响了整个图像内容理解与表达的准确率和效率。但在现有的利用视觉场景图生成器作为编码器的图像内容理解与表达编解码结构中编码阶段视觉探测器的方法中,多基于二阶段的目标检测器方法,使用了大量锚框和后处理程序,准确率和效率均较低。
(3)解码器在解码阶段输出的语言表达语句不够贴近图像内容本身,不够拟人化。
发明内容
为解决上述技术问题,本发明提出一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质。
本发明采用的技术方案之一为:一种基于视觉场景图生成的图像内容理解与表达系统,包括:场景生成器、先验字典、MGCN融合模块、语言解码器;场景生成器的输入为单幅图像,场景生成器的输出为实体、属性、关系特征;MGCN融合模块将先验字典提供的先验语料知识和场景生成器的输出,进行融合,得到可解码视觉特征;语言解码器为通过对视觉特征进行解码,得到对图像内容理解的表达语句。
本发明采用的技术方案之二为:一种基于视觉场景图生成的图像内容理解与表达方法,包括:
在编码阶段利用基于视觉场景图生成的视觉探测器,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G;
在编解码融合阶段,引入先验字典D中的先验语料知识,使用多模态图卷积神经网络对视觉场景图G中的视觉特征与先验字典中的语言特征进行重编码,并输出抽象特征组
Figure BDA0003542159370000031
最后在解码阶段由基于循环神经网络的语言解码模型将抽象特征组
Figure BDA0003542159370000032
输出成为输出语句序列S。
本发明采用的技术方案之三为:一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行一种基于视觉场景图生成的图像内容理解与表达方法的步骤。
本发明采用的技术方案之四为:一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行一种基于视觉场景图生成的图像内容理解与表达方法的步骤。
本发明的有益效果:本发明使用视觉场景图生成器作为图像内容理解与表达的编码器,充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系,使得图像内容表达语句更准确、更贴近图像内容本身;本发明首次提出基于关键中心点估计的视觉场景图生成方法,不使用大量目标检测锚框和后处理手段,提升了场景图生成的准确率和效率;本发明在编解码融合阶段引入了先验字典中的先验语料知识,并提出了基于多模态图卷积神经网络的先验字典融合方法,引入先验语料知识,补足场景图生成过程中关系谓词等词汇输出的缺失,提升了图像内容理解与表达的表达语句准确率和拟人化水平。
附图说明
图1为本发明背景技术中给出的图像内容理解与表达任务示意图;
图2为本发明背景技术中给出的现有主流编解码方法结构图;
图3为本发明的系统结构实现框图;
图4为本发明的方法流程图;
图5为本发明系统的主干网络结构图;
图6为本发明系统的颈部网络结构图;
图7为本发明编码阶段的处理流程图;
图8为本发明系统的MGCN先验字典融合网络结构图;
图9为本发明编解码融合阶段处理流程;
图10为本发明解码阶段处理流程。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
实施例1
如图3所示,本发明的一种基于视觉场景图生成的图像内容理解与表达系统,包括:场景生成器、先验字典、MGCN融合模块、语言解码器;场景生成器为基于关键中心点估计的视觉场景图生成器,该场景生成器的输入为单幅图像,场景生成器的输出为实体、属性、关系特征;MGCN融合模块为基于多模态图卷积网络MGCN,用于将先验字典提供的先验语料知识和场景生成器的输出,进行融合,得到可解码视觉特征;语言解码器为基于循环神经网络的语言解码器,通过对视觉特征进行解码,得到对图像内容理解的表达语句。
实施例2
如图4所示,本发明的一种基于视觉场景图生成的图像内容理解与表达方法,包括:在编码阶段利用基于视觉场景图生成的视觉探测器,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G。在编解码融合阶段,引入先验字典D中的先验语料知识,使用多模态图卷积神经网络对视觉场景图中的视觉特征与先验字典中的语言特征进行重编码,并输出用于解码器解码的抽象特征组
Figure BDA0003542159370000041
最后在解码阶段由基于循环神经网络的语言解码模型将特征组
Figure BDA0003542159370000042
输出成为输出语句序列s。
Encoder:I→f→G
Figure BDA0003542159370000043
Figure BDA0003542159370000044
实施例3
本发明系统中的场景生成器结构包括:主干网络、颈部网络和检测头,主干网络的输入即场景生成器的输入,为单幅图像;主干网络的输出为视觉特征,所述视觉特征作为颈部网络的输入,颈部网络的输出为具有特征融合信息及特征维度的视觉特征图,具有特征融合信息及特征维度的视觉特征图通过检测头输出,其中检测头设置了五个输出结构分别为:属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。
在主干网络中:
如图5所示,基于DLA网络结构使用全卷积层上采样和分层跳跃连接进行预测输出,基于迭代深度聚合的计算方法处理特征图各分辨率的对应特征。本发明在底层增加了5个256通道的尺寸为3×3的聚合节点,并在这些汇聚节点和不同步长的卷积层输出头均添加了跳跃连接。并在每一个步长的卷积层输出头分别输出对应尺度的结果。这里包括5个步长,分别为64、32、16、8、4,这5个步长的卷积层输出头,分别对应输出属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。
在颈部网络中:
如图6所示,使用特征金字塔构建一个用于输出多尺度特征预测的模块。特征金字塔结构允许在主干网特征提取后跨不同尺度特征进行信息交换。通过对较高等级的特征进行上采样,然后对较低等级的特征进行累加,得到一个具有相同通道数的特征映射金字塔。
实施例4
本发明方法中在编码阶段生成场景图的过程如图7所示,包括以下步骤:
A1、将输入图像传入编码阶段的视觉场景图生成模型;
A2、图像通过共享的主干网络结构,提取对应维度的初级视觉特征;这里的共享应理解为:利用同一个网络,在不同的网络阶段可以输出不同的内容,比如图5中的5项输出一样,相当于共享的是每一项输出前的结构;
A3、初级视觉特征经过颈部形成多尺度的五类高级特征输出;
A4、五类高级视觉特征分别经过五个检测头形成对应的五类输出;具体包括以下分步骤:
A41、由关键中心点热力图、关键中心点偏置、目标尺寸框三类输出形成对于目标实体检测和尺寸的回归。
A411、关键中心点热力图预测:令为I∈RW×H×3为宽度为W,高度为H的三通道输入图像,R表示实数集,令关键中心点热力图为
Figure BDA0003542159370000051
经过主干网络和颈部对热力图真值进行下采样,利用高斯卷积核函数
Figure BDA0003542159370000052
将真值分散形成关键中心点热力图。采用DLA网络获得输入图像对应的热力图为本领域公知技术,本发明在此不做详细阐述。
其中,W为输入图像的宽度,H为输入图像的高度,τ为总步长,Ck表示需要预测的单一目标实例的关键中心点个数,本发明中默认为Ck=1,本发明中σp为目标尺度的自适应方差,用p表示预测出的关键点,对齐进行下采样得到其对应关键点
Figure BDA0003542159370000061
Figure BDA0003542159370000062
表示
Figure BDA0003542159370000063
在x方向的映射,
Figure BDA0003542159370000064
表示
Figure BDA0003542159370000065
在y方向的映射。
A412、由关键中心点热力图计算热力图偏置:当同一个目标存在两个高斯核函数重叠时,只取热力图的局部极大值作为目标实体的唯一中心关键点,即只取
Figure BDA0003542159370000066
的目标作为整个流程的有效回归目标。为防止在获得热力图的过程因正负样本不平衡而带来的问题,使用像素级Focal Loss逻辑回归函数
Figure BDA0003542159370000067
对其进行修正:
Figure BDA0003542159370000068
其中,α与β为超参数,在训练过程中将其手动设置为4和8,N是输入图像I中的中心关键点个数。
A413、计算关键中心点偏置并预测目标实体中心关键点:在图像的下采样过程中,预测值会因为数据离散而产生一定偏差,为了平衡因为样本离散而带来的偏差,对每一个中心关键点同步输出关键中心点偏置量O,并使用L1 Loss函数LO对该偏移量的训练进行惩罚,损失函数LO如下式所示:
Figure BDA0003542159370000069
Figure BDA00035421593700000610
表示
Figure BDA00035421593700000611
点的偏移量,R为超参数;
本发明定义目标实体的中心关键点坐标为Oi,则Oi可由下式求出:
Figure BDA00035421593700000612
其中,Oi表示第i个点的关键中心点坐标,
Figure BDA00035421593700000613
表示第i个点的关键中心点的横坐标,
Figure BDA00035421593700000614
表示第i个点的关键中心点的纵坐标,
Figure BDA00035421593700000615
表示第i个点的左下角横坐标,
Figure BDA00035421593700000616
表示第i个点的右上角横坐标,
Figure BDA00035421593700000617
表示第i个点的左下角纵坐标,
Figure BDA00035421593700000619
表示第i个点的右上角纵坐标;
A414、计算尺寸回归偏置量并回归目标尺寸边缘框:由该中心关键点坐标可以回归出的该目标实体的尺寸边缘框Si可定义为:
Figure BDA00035421593700000618
同样,在对目标实体的尺寸边缘框的回归过程中也是用L1 Loss函数作为损失函数,并定义为Ls,如下式所示:
Figure BDA0003542159370000071
A415、计算目标实体预测的总体目标损失函数:总体目标函数为:
Figure BDA0003542159370000072
其中,N表示输入图像I中的中心关键点个数,λO与λS为实验所需超参数,在本实施例中分别将其设置为λO=1.25、λS=0.15。
本领域技术人员可知,通过步骤A41可以获得目标实体关键中心点集
Figure BDA0003542159370000073
A42、属性识别,形成针对目标实体的属性
属性识别:利用共享主干网络中步长为64的网络结构预测目标实体的属性a,这里关于目标实体的属性可以理解为用来做定语的形容词。
A43、关系关联场进行关系预测,具体包括以下分步骤:
A431、相关内容定义:关系关联场是一个二维的向量场F={Fp}∈Rρ×2×h×w,其中,本发明用ρ表示数据集(这的数据集指编码器模型的训练数据集mscoco2014)中的谓词数量,而
Figure BDA0003542159370000074
Figure BDA0003542159370000075
表示实数域。每一个二维向量场Fp中的谓词p都表示着图像中所有目标实体之间的一对关系。定义一张输入图像中的目标实体为M,则可以定义二元关系R={ri→j},其中,ri→j表示目标实体mi与目标实体mj之间存在谓词关系pi→j的三元关系,ri→j可以表示为如下公式:
ri→j=(mi,pi→j,mj)
A432、建立关系关联场表达式并计算关系关联场:定义目标实体的关键中心点Oi传播到另一目标实体关键中心点Oj的路径为
Figure BDA0003542159370000076
由此可以推导出任意一个目标实体关键中心点P(x,y)的关系关联场Fp,x,y为:
Figure BDA0003542159370000077
其中,ei→j表示水平方向的路径积分,路径
Figure BDA0003542159370000078
由在一组落在目标实体关键中心点之间的矩形区域上的点组成,即:
Figure BDA0003542159370000081
其中,P表示关键点类,p表示P中的某个关键中心点,有
Figure BDA0003542159370000082
作为从i到j方向上的关系长度,可表示为:
Figure BDA0003542159370000083
而,
Figure BDA0003542159370000084
是从i到j方向的正交方向上关系半宽度,即目标实体关键中心点半径的最小值,
Figure BDA0003542159370000085
可由如下公式得出。
Figure BDA0003542159370000086
同样,在计算关系关联场的过程中,也可能出现向量在某一点重叠的情况,因此,本发明对所有关系关联场Fp中包含特定谓词关系p的关系三元组进行取平均值的计算。则有:
Figure BDA0003542159370000087
其中,qc(x,y)表示任意一点q(x,y)处的非零向量个数。
A433、计算损失函数:使用smooth L1损失函数Lr构建预测关系关联场的损失函数LR,LR的计算方式如下公式所示:
Figure BDA0003542159370000088
其中,E为与F尺寸相同的像素级加权张量,而对于权重E的确定而言,共有三种情况:
如果点(x,y)恰好在具有关系p的两个目标实体的连线上,则有:
Ep,x,y=1
如果点(x,y)不在具有关系p的两个目标实体的连线上,但与该连线距离很小时,则有:
Bp,x,y∈(0,1)
如果并非以上两种情况,则有Ep,x,y=0。
A434、计算关系关联场路径积分得出关系关联分数:对于
Figure BDA0003542159370000089
Figure BDA00035421593700000810
这两个候选的目标实体关键中心点,将其通过检测头所预测的类别分数
Figure BDA00035421593700000811
Figure BDA00035421593700000812
沿着
Figure BDA00035421593700000813
Figure BDA00035421593700000814
的路径连线,可以求得其关系关联场分数
Figure BDA0003542159370000091
这里的类别是通过基于DLA网络结构中步长为4的检测头所识别出的输入图像中的实体目标类别,比如人、猫、狗等实体目标。
随后,计算其在
Figure BDA0003542159370000092
上投影的平均值,计算公式为:
Figure BDA0003542159370000093
可以将路径积分Ki→j定义为关系存在的置信区间:
Figure BDA0003542159370000094
其中,ui→j=|πi→j|表示πi→j中包含点的个数。由于关系关联场与对象和类别无关,因此将目标实体的类别分数与路径积分相乘,得到关系谓词的总体响应置信分数。本发明使用如下算法所示的路径积分以计算在一对目标实体关键中心点之间连线方向上的关系关联分数。
Figure BDA0003542159370000095
另外,对于每一个关系谓词所在的通道进行空间积分,因此Ki→j表示所有关系谓词所预测的关系三元组
Figure BDA0003542159370000096
的置信度分数。其中,本发明方法中积分可以是负的,存在负数积分的情况即表示目标实体之间的相反关系,这些负数积分可以理解为Ki→j的取反,即Ki→j=-Kj→i
A5、输出图像视觉场景图:在整个场景图的生成过程中可以将目标函数定义为L,计算目标损失函数L=LD+LR并输出场景图。本领域技术人员应知,在深度学习算法中采用损失函数来对深度学习模型的参数进行自动惩罚和调整,深度学习算法中的参数自动惩罚和调整为现有成熟技术,本发明中不做详细说明。
实施例5
本发明编码融合阶段的实现过程如图9所示,包括以下步骤:
B1、先验字典的构建。先验知识语料库选型,并对语料库进行数据预处理,最终形成适合于本发明的先验字典。本步骤中采用Visual Genome数据集作为先验字典,这里预处理为常规处理过程,具体的:将所有单词均改为了英文小写。同时,删除了出现次数小于5次的单词,并将对于图像内容的表达语句精简到16个单词及以内单词数组成的表达语句,获得了总共包含10369个单词的训练集样本。
B2、构建如图8所示的基于MGCN的先验字典融合网络,包括:全连接层FC1、全连接层FC2、全连接层FC3、全连接层FC4。
B3、关系融合嵌入:先验字典将为编码器补充更为丰富的关系谓词,根据A43中的关系关联场三元关系,可由如下公式得出关系嵌入
Figure BDA0003542159370000108
Figure BDA0003542159370000101
B4、属性融合嵌入:先验字典将为编码器补充更为丰富的属性形容词,给定一个目标实体oi与其在前文中属性检测头输出的全部属性
Figure BDA0003542159370000102
可由如下公式得出属性嵌入
Figure BDA0003542159370000103
Figure BDA0003542159370000104
其中,n表示该目标实体所拥有的属性数量;
B5、目标实体融合嵌入:将目标实体oi融合映射到目标实体融合嵌入特征
Figure BDA0003542159370000105
中。目标实体融合嵌入特征
Figure BDA0003542159370000106
可由如下公式得出
Figure BDA0003542159370000107
其中,oj∈sub(oi)表示目标实体oj为目标实体oi的客体,ok∈obj(oi)表示目标实体ok为目标实体oi的客体。
本实施例中的先验字典也可以是其他能提供丰富的关系为词、名词和属性形容词的数据集,比如mscoco2017、mscoco2014等,但是本发明所采用的Visual Genome数据集,能获得比其他数据集更好的效果。
实施例6
本发明解码阶段的实现过程如图10所示,包括以下步骤:
C1、可解码的视觉特征输入;
C2、计算图像内容表达最大概率似然。本发明参照Show and Tell的方法,定义解码结构得出符合真值的图像内容表达的最大概率为Pmax,可由如下公式得出。
Figure BDA0003542159370000111
其中,λ为模型参数,I是原始输入图像;
并结合链式法则,消去概率P对模型训练的影响对联合概率进行建模可得如下公式,其中,n为输出描述语句的长度。
Figure BDA0003542159370000112
C3、建立门控单元并计算状态刷新。使用循环神经网络构建该模型的基本结构,并在k-1之前的可变长度的单词由固定长度的隐藏层hk标识,当存在新的输入
Figure BDA0003542159370000113
时用非线性函数Y即一个长短期记忆网络LSTM模块以更新这个单元。
Figure BDA0003542159370000114
使用记忆单元C作为整个模块的核心。该记忆单元的行为基于门控原理构建,使用遗忘门f、输入门i和输出门o三种常见的门控结构来控制当前单元是否丢弃、读取和输出单元内的值。对于三种门控单元的状态更新如下算法2所示,其中,⊙代表门控单元的值的乘积,矩阵W标识预训练的模型结构参数。
Figure BDA0003542159370000121
C4、预测值输出:解码器由多个可变长度LSTM结构串联组成,每一个LSTM结构包含一个输入门、一个遗忘门、一个输出门,最终将通过一个Softmax层进行图像内容表达语句的预测。解码器的损失函数可以用每一步单词预测的负对数似然的和来表示:
Figure BDA0003542159370000122
实施例7
对于图2中的输入图像,采用本发明的方法翻译得到的语句为:a young woman ina green sweater is happily holding a video game remote;一般情况下对应的人工翻译结果为:a young woman smiling holding a video game remote;可见采用本发明的方法识别出的目标实体包括:woman、sweater、video game remote,而现有的翻译结果仅识别出了woman、video game remote两个实体,采用本发明的方法识别出的属性包括:young、green、happily;采用本发明的方法识别出的目标实体之间的关系包括:in、holding;显然采用本发明的方法可以识别出更多目标实体以及目标实体之间的关联关系,对于图像内容的理解与表达相比于现有技术更加准确、丰富。
本发明的图像内容理解与表达模型准确率评估与现有技术的对比结果如表1所示。
本发明通过引入先验字典中的先验语料知识,补充了词库丰富度,根据表1中的CIDEr-D指标可知,本发明的方法生成的图像表达语句更拟人;本发明更关注图像内容本身的关系,根据表1中BLEU@1/4指标,可知采用本发明方法取得了优秀的准确率水平;本发明的编码阶段模型性能对比评估结果如表2所示,本发明提出了编码阶段新的场景图生成方式,根据表2中的指标Speed(s/image),可知本发明的方法获得了更高的效率。
表1图像内容理解与表达模型准确率评估结果
Figure BDA0003542159370000131
本领域的技术人员应知BLEU@1/4、METEOR、ROUGE-L、CIDEr-D为自然语言处理机器翻译常用评价指标;BLEU@1/4用于评价模型生成的句子相比于人工翻译的句子的准确率,METEOR用于评价模型生成的句子的召回率,ROUGE-L用于匹配模型生成的句子相比于人工翻译的句子之间的最长公共序列,CIDEr-D用于评价模型生成的句子与人工翻译的句子的相似度。
本实施例表1中的现有技术SCST可以参见:Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger[C]//IEEE.IEEE,2017:6517-6525.
本实施例表1中的现有技术LSTM-A可以参见:Vinyals O,Toshev A,Bengio S,etal.Show and Tell:A Neural Image Caption Generator[C].2015 IEEE Conference onComputerVision and Pattern Recognition(CVPR).IEEE,2015.
本实施例表1中的现有技术Up-Down可以参见:Anderson P,He X,Buehler C,etal.Bottom-Up and Top-Down Attention for Image Captioning and Visual QuestionAnswering[J].2017.
本实施例表1中的现有技术GCN-LSTM可以参见:Xu D,Zhu Y,Choy C B,etal.Scene Graph Generation by Iterative Message Passing[J].IEEE ComputerSociety,2017.
表2编码阶段模型性能对比评估结果
Figure BDA0003542159370000141
本实施例表2中的现有技术MOTIFS可以参见:Tang K,Niu Y,Huang J,etal.Unbiased Scene Graph Generation from Biased Training[J].2020.
本实施例表2中的现有技术GPS-Net可以参见:Lin X,Ding C,Zeng J,et al.GPS-Net:Graph Property Sensing Network for Scene Graph Generation[C]//IEEE.IEEE,2020.
本实施例表2中的现有技术Graph R-CNN可以参见:Yang J,Lu J,Lee S,etal.Graph R-CNN for Scene Graph Generation[J].European Conference on ComputerVision,2018.
本实施例表2中的现有技术Pixels2Graph可以参见:Newell A,Deng J.Pixels toGraphs by Associative Embedding[J].2017.
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,包括:
S1、基于关键中心点估计,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G;步骤S1基于DLA网络结构提取五个不同尺度下的视觉特征,得到高级语义特征组f,根据尺度从高到低,五个视觉特征分别为:属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场;
关系关联场的计算过程为:
首先,定义关系关联场为一个二维的向量场
Figure FDA0003883949920000011
ρ表示数据集中的谓词数量,
Figure FDA0003883949920000012
Figure FDA0003883949920000013
表示实数域;每一个二维向量场Fp中的谓词p表示着图像中所有目标实体之间的一对关系;定义一张输入图像中的目标实体为M,定义二元关系R={ri→j},其中,ri→j表示目标实体mi与目标实体mj之间存在谓词关系pi→j的三元关系,ri→j表示为如下公式:
ri→j=(mi,pi→j,mj)
其次,定义目标实体的关键中心点Oi传播到另一目标实体关键中心点Oj的路径为
Figure FDA0003883949920000014
则任意一个目标实体关键中心点关键P(x,y)的关系关联场Fp,x,y为:
Figure FDA0003883949920000015
其中,ei→j表示水平方向的路径积分,路径
Figure FDA0003883949920000016
由一组落在目标实体关键中心点之间的矩形区域上的点组成;
对于
Figure FDA0003883949920000017
Figure FDA0003883949920000018
这两个候选的目标实体关键中心点,将这两个点各自的类别分数
Figure FDA0003883949920000019
Figure FDA00038839499200000110
沿着
Figure FDA00038839499200000111
Figure FDA00038839499200000112
的路径连线,得到这两个点关系关联场类别分数
Figure FDA00038839499200000113
随后,计算两个候选的目标实体关键中心点
Figure FDA00038839499200000114
Figure FDA00038839499200000115
Figure FDA00038839499200000116
上投影的平均值,计算公式为:
Figure FDA00038839499200000117
将路径积分Ki→j定义为关系存在的置信区间:
Figure FDA0003883949920000021
其中,ui→j=|πi→j|表示πi→j中包含点的个数;
最后,将目标实体的类别分数与路径积分相乘,得到关系谓词的总体响应置信分数;
S2、引入先验字典D中的先验语料知识,对视觉场景图G中的视觉特征与先验字典中的语言特征进行重编码,并输出抽象特征组
Figure FDA0003883949920000022
S3、将抽象特征组
Figure FDA0003883949920000023
输出成为输出语句序列S。
2.根据权利要求1所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,所述关键中心点热力图的计算过程为:
记输入图像为I,I∈RW×H×3,记关键中心点热力图为
Figure FDA0003883949920000024
Figure FDA0003883949920000025
对热力图真值进行下采样,利用高斯卷积核函数
Figure FDA0003883949920000026
将真值分散形成关键中心点热力图;
其中,W为输入图像的宽度,H为输入图像的高度,τ为总步长,Ck表示需要预测的单一目标实例的关键中心点个数,σt为目标尺度的自适应方差,t表示预测出的关键点,对齐进行下采样得到其对应关键点
Figure FDA0003883949920000027
Figure FDA0003883949920000028
表示
Figure FDA0003883949920000029
点在x方向的映射,
Figure FDA00038839499200000210
表示
Figure FDA00038839499200000211
点在y方向的映射。
3.根据权利要求2所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,所述关键中心点偏置的计算过程为:
对每一个中心关键点同步输出关键中心点偏置量O,并使用L1 Loss函数LO对该偏置量的训练进行惩罚,所述Loss函数LO如下式所示:
Figure FDA00038839499200000212
Figure FDA00038839499200000214
表示
Figure FDA00038839499200000213
点的偏移量,R为超参数,N是输入图像I中的中心关键点个数;
由关键中心点热力图计算热力图偏置:当同一个目标存在两个高斯核函数重叠时,只取热力图的局部极大值作为目标实体的唯一中心关键点,即只取
Figure FDA0003883949920000031
的目标作为整个流程的有效回归目标;为防止在获得热力图的过程因正负样本不平衡而带来的问题,使用像素级Focal Loss逻辑回归函数
Figure FDA0003883949920000038
对其进行修正:
Figure FDA0003883949920000032
其中,α与β为超参数,在训练过程中将其手动设置为4和8,N是输入图像I中的中心关键点个数。
4.根据权利要求3所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,目标尺寸框的计算过程为:
根据中心关键点坐标回归出的该目标实体的尺寸边缘框Si,表达式为:
Figure FDA0003883949920000033
其中,
Figure FDA0003883949920000034
表示第i个中心关键点的左下角横坐标,
Figure FDA0003883949920000035
表示第i个中心关键点的右上角横坐标,
Figure FDA0003883949920000036
表示第i个中心关键点的左下角纵坐标,
Figure FDA0003883949920000037
表示第i个中心关键点的右上角纵坐标。
5.根据权利要求1所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,步骤S2具体包括以下分步骤:
S21、确定先验字典;
S22、根据先验字典提供的关系谓词,关系关联场三元关系,得到关系嵌入;
S23、根据先验字典提供的属性形容词,根据目标实体与其在步骤S1中输出的全部属性,计算得到属性嵌入;
S24、将目标实体融合映射到目标实体融合嵌入特征中。
6.一种基于视觉场景图生成的图像内容理解与表达系统,其特征在于,包括:场景生成器、先验字典、MGCN融合模块、语言解码器;场景生成器基于关键中心点估计,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G;MGCN融合模块将先验字典提供的先验语料知识和场景生成器的输出,进行融合,得到可解码视觉特征;语言解码器为通过对视觉特征进行解码,得到对图像内容理解的表达语句;
具体的场景生成器基于DLA网络结构提取五个不同尺度下的视觉特征,得到高级语义特征组f,根据尺度从高到低,五个视觉特征分别为:属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场;
关系关联场的计算过程为:
首先,定义关系关联场为一个二维的向量场F={Fp}∈Rρ×2×h×w,ρ表示数据集中的谓词数量,
Figure FDA0003883949920000041
Figure FDA0003883949920000042
表示实数域;每一个二维向量场Fp中的谓词p表示着图像中所有目标实体之间的一对关系;定义一张输入图像中的目标实体为M,定义二元关系R={ri→j},其中,ri→j表示目标实体mi与目标实体mj之间存在谓词关系pi→j的三元关系,ri→j表示为如下公式:
ri→j=(mi,pi→j,mj)
其次,定义目标实体的关键中心点Oi传播到另一目标实体关键中心点Oj的路径为
Figure FDA0003883949920000043
则任意一个目标实体关键中心点关键P(x,y)的关系关联场Fp,x,y为:
Figure FDA0003883949920000044
其中,
Figure FDA0003883949920000045
表示水平方向的路径积分,路径
Figure FDA0003883949920000046
由一组落在目标实体关键中心点之间的矩形区域上的点组成;
对于
Figure FDA0003883949920000047
Figure FDA0003883949920000048
这两个候选的目标实体关键中心点,将这两个点各自的类别分数
Figure FDA0003883949920000049
Figure FDA00038839499200000410
沿着
Figure FDA00038839499200000411
Figure FDA00038839499200000412
的路径连线,得到这两个点关系关联场类别分数
Figure FDA00038839499200000413
随后,计算两个候选的目标实体关键中心点
Figure FDA00038839499200000414
Figure FDA00038839499200000415
Figure FDA00038839499200000416
上投影的平均值,计算公式为:
Figure FDA00038839499200000417
将路径积分Ki→j定义为关系存在的置信区间:
Figure FDA00038839499200000418
其中,ui→j=|πi→j|表示πi→j中包含点的个数;
最后,将目标实体的类别分数与路径积分相乘,得到关系谓词的总体响应置信分数。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行权利要求1-5任意一项所述方法的步骤。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行权利要求1-5任意一项所述方法的步骤。
CN202210243982.1A 2022-03-11 2022-03-11 一种基于场景图的图像理解与表达方法、系统与存储介质 Active CN114612767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210243982.1A CN114612767B (zh) 2022-03-11 2022-03-11 一种基于场景图的图像理解与表达方法、系统与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210243982.1A CN114612767B (zh) 2022-03-11 2022-03-11 一种基于场景图的图像理解与表达方法、系统与存储介质

Publications (2)

Publication Number Publication Date
CN114612767A CN114612767A (zh) 2022-06-10
CN114612767B true CN114612767B (zh) 2022-11-15

Family

ID=81863868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210243982.1A Active CN114612767B (zh) 2022-03-11 2022-03-11 一种基于场景图的图像理解与表达方法、系统与存储介质

Country Status (1)

Country Link
CN (1) CN114612767B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063410B (zh) * 2022-08-04 2023-01-10 中建电子商务有限责任公司 一种基于无锚点目标检测的钢管计数方法
CN116383797B (zh) * 2023-05-31 2023-08-22 北京顶象技术有限公司 一种无缺口滑动验证码及其生成方法
CN116524513B (zh) * 2023-07-03 2023-10-20 中国科学技术大学 开放词表场景图生成方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111667535A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种针对遮挡场景下的六自由度位姿估计方法
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN113111857A (zh) * 2021-05-10 2021-07-13 金华高等研究院 基于多模态信息融合的人体姿态估计方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576107B2 (en) * 2013-07-09 2017-02-21 Biosense Webster (Israel) Ltd. Model based reconstruction of the heart from sparse samples
CN109214566B (zh) * 2018-08-30 2021-02-26 华北水利水电大学 基于长短期记忆网络的风电功率短期预测方法
CN110569704B (zh) * 2019-05-11 2022-11-22 北京工业大学 一种基于立体视觉的多策略自适应车道线检测方法
CN111626116B (zh) * 2020-04-21 2022-12-27 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN112509051A (zh) * 2020-12-21 2021-03-16 华南理工大学 一种基于仿生学的自主移动平台环境感知与建图方法
CN112733624B (zh) * 2020-12-26 2023-02-03 电子科技大学 室内密集场景的人流密度检测方法、系统存储介质及终端
CN113591573A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 多任务学习深度网络模型的训练及目标检测方法、装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667535A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种针对遮挡场景下的六自由度位姿估计方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN112464016A (zh) * 2020-12-17 2021-03-09 杭州电子科技大学 一种基于深度关系自注意力网络的场景图生成方法
CN113111857A (zh) * 2021-05-10 2021-07-13 金华高等研究院 基于多模态信息融合的人体姿态估计方法
CN113836339A (zh) * 2021-09-01 2021-12-24 淮阴工学院 一种基于全局信息和位置嵌入的场景图生成方法

Also Published As

Publication number Publication date
CN114612767A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Wang et al. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
US20220245347A1 (en) Entity recognition method, apparatus, electronic device and computer readable storage medium
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
CN115238690A (zh) 一种基于bert的军事领域复合命名实体识别方法
CN112256904A (zh) 一种基于视觉描述语句的图像检索方法
Li et al. Adapting clip for phrase localization without further training
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
Nam et al. A survey on multimodal bidirectional machine learning translation of image and natural language processing
Belharbi et al. Deep neural networks regularization for structured output prediction
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN114332288A (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
Zheng et al. Weakly-supervised image captioning based on rich contextual information
CN117609536A (zh) 基于语言引导的指称表达理解推理网络系统及推理方法
Xu et al. Obj-glove: Scene-based contextual object embedding
CN116168437A (zh) 基于多任务的预测模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant