CN114612767A - 一种基于场景图的图像理解与表达方法、系统与存储介质 - Google Patents
一种基于场景图的图像理解与表达方法、系统与存储介质 Download PDFInfo
- Publication number
- CN114612767A CN114612767A CN202210243982.1A CN202210243982A CN114612767A CN 114612767 A CN114612767 A CN 114612767A CN 202210243982 A CN202210243982 A CN 202210243982A CN 114612767 A CN114612767 A CN 114612767A
- Authority
- CN
- China
- Prior art keywords
- key
- target
- image
- target entity
- image content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000000007 visual effect Effects 0.000 claims abstract description 65
- 230000014509 gene expression Effects 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 7
- 238000012805 post-processing Methods 0.000 abstract description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000001507 sample dispersion Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质,应用于图像理解与表达领域,针对现有技术存在的图像表达准确率和效率均较低的问题;本发明提出了基于关键中心点估计的视觉场景图生成方法,不使用大量目标检测锚框和后处理手段,提升了场景图生成的准确率和效率,并充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系,使得图像内容表达语句更准确、更贴近图像内容本身;本发明还引入先验语料知识,补足场景图生成过程中关系谓词等词汇输出的缺失,提升了图像内容理解与表达的表达语句准确率和拟人化水平;相比于现有技术,本发明的图像表达准确率和效率均有显著的提升。
Description
技术领域
本发明属于图像处理领域,特别涉及一种视觉场景图生成技术。
背景技术
图像内容理解与表达,如图1所示,即给定一张输入图像,而后需要机器去感知图像中的目标实体、属性、捕捉画面中的关系,最后生成一段对于图像内容理解的描述性质的表达语句。
图像内容理解与表达领域随着研究的不断深入,主要发展出三条较为成熟的技术路线:模板方法、相似性检索方法和基于编解码及衍生结构方法。基于模板的图像内容理解与表达方法,使用较为传统的视觉依存关系提取图像中的视觉特征,表达阶段使用句法树构建模板式的表达模型;基于相似性检索的图像内容理解与表达方法,通过检索向量空间中最接近与先验数据集中图像内容表达的方式,查询与当前图像模态输入最接近的句式以生成图像表达;基于编解码及衍生结构的方法,使用深度学习方法中卷积神经网络等相关技术构建以提取视觉特征的编码器,并使用基于循环神经网络的解码结构将视觉特征解码为输出语义序列。
1)模板方法:基于模板的方法在图像内容表达过程中使用最大熵语言模型、马尔科夫随机场等相关传统方法构建句法树,并根据先验模板将多个单词或词组组合成对应的图像内容表达。Kulkarni等人于2013年提出了Baby Talk模型,基于条件随机场计算一元图像电势,结合语料库中的高阶文本电势模板,推理出合适的单词和词组并最终形成图像表达。Yang等人提出的图像表达策略通过预测核心句子表达结构中最有可能出现的名词、动词、场景和介词,结合先验语料库模板,实现图像理解与表达。
2)基于相似性检索的方法,多利用图像视觉的相似性而并非直接使用深度学习方法构建对应的理解与表达模型,其方法并非直接理解图像内容而是寻找与先验数据库中数据的相似关联,从本质上将图像理解与表达任务转换为图像检索任务。Mason等人通过估计查询图像的视觉内容的词频解决了视觉噪声与先验数据库中数据的对齐问题,通过寻找相似语义的已标注图像以形成图像表达。
3)基于编解码及衍生结构的方法,是现有研究的主流方法。在原始机器翻译任务中由循环神经网络构建的编解码器中,输入序列与输出序列必须遵守等长的规则,而OVinyals等人提出了Show and Tell模型,将原有机器翻译任务中使用循环神经网络构建的的编码器换成了处理视觉任务的卷积神经网络结构,为图像提取视觉特征,依然使用原有的解码器结构输出序列,解决了编解码器结构中输入输出长度对齐的问题。Kelvin Xu等人提出Show,Attend and Tell模型,将注意力机制引入编解码器结构,使模型能够自动学习需要重点关注的对象,并在输出序列中生成相应的图像表达。Chen等人不仅在编解码器中加入了注意力机制,并改变了解码器部分循环神经网络本身的结构,使模型不仅能够从图像内容理解中获得图像表达,还能从图像表达中获得对图像内容理解的相关图像特征,并提高了运算的整体性能。
现有技术存在以下问题:
(1)现有主流的图像内容理解与表达方法为基于编解码及衍生结构的方法,如图2所示,在该方法中编码器并未充分关注图像内容中实体与属性、实体与实体、实体与背景之间的关系,不能够在解码阶段形成体现图像内容中“关系”的准确图像表达。
(2)编解码器结构中,编码器作为视觉特征提取的重要环节,该环节的准确率和效率直接影响了整个图像内容理解与表达的准确率和效率。但在现有的利用视觉场景图生成器作为编码器的图像内容理解与表达编解码结构中编码阶段视觉探测器的方法中,多基于二阶段的目标检测器方法,使用了大量锚框和后处理程序,准确率和效率均较低。
(3)解码器在解码阶段输出的语言表达语句不够贴近图像内容本身,不够拟人化。
发明内容
为解决上述技术问题,本发明提出一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质。
本发明采用的技术方案之一为:一种基于视觉场景图生成的图像内容理解与表达系统,包括:场景生成器、先验字典、MGCN融合模块、语言解码器;场景生成器的输入为单幅图像,场景生成器的输出为实体、属性、关系特征;MGCN融合模块将先验字典提供的先验语料知识和场景生成器的输出,进行融合,得到可解码视觉特征;语言解码器为通过对视觉特征进行解码,得到对图像内容理解的表达语句。
本发明采用的技术方案之二为:一种基于视觉场景图生成的图像内容理解与表达方法,包括:
在编码阶段利用基于视觉场景图生成的视觉探测器,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G;
本发明采用的技术方案之三为:一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行一种基于视觉场景图生成的图像内容理解与表达方法的步骤。
本发明采用的技术方案之四为:一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行一种基于视觉场景图生成的图像内容理解与表达方法的步骤。
本发明的有益效果:本发明使用视觉场景图生成器作为图像内容理解与表达的编码器,充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系,使得图像内容表达语句更准确、更贴近图像内容本身;本发明首次提出基于关键中心点估计的视觉场景图生成方法,不使用大量目标检测锚框和后处理手段,提升了场景图生成的准确率和效率;本发明在编解码融合阶段引入了先验字典中的先验语料知识,并提出了基于多模态图卷积神经网络的先验字典融合方法,引入先验语料知识,补足场景图生成过程中关系谓词等词汇输出的缺失,提升了图像内容理解与表达的表达语句准确率和拟人化水平。
附图说明
图1为本发明背景技术中给出的图像内容理解与表达任务示意图;
图2为本发明背景技术中给出的现有主流编解码方法结构图;
图3为本发明的系统结构实现框图;
图4为本发明的方法流程图;
图5为本发明系统的主干网络结构图;
图6为本发明系统的颈部网络结构图;
图7为本发明编码阶段的处理流程图;
图8为本发明系统的MGCN先验字典融合网络结构图;
图9为本发明编解码融合阶段处理流程;
图10为本发明解码阶段处理流程。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
实施例1
如图3所示,本发明的一种基于视觉场景图生成的图像内容理解与表达系统,包括:场景生成器、先验字典、MGCN融合模块、语言解码器;场景生成器为基于关键中心点估计的视觉场景图生成器,该场景生成器的输入为单幅图像,场景生成器的输出为实体、属性、关系特征;MGCN融合模块为基于多模态图卷积网络MGCN,用于将先验字典提供的先验语料知识和场景生成器的输出,进行融合,得到可解码视觉特征;语言解码器为基于循环神经网络的语言解码器,通过对视觉特征进行解码,得到对图像内容理解的表达语句。
实施例2
如图4所示,本发明的一种基于视觉场景图生成的图像内容理解与表达方法,包括:在编码阶段利用基于视觉场景图生成的视觉探测器,从输入图像中提取图像中各个层次的高级语义特征组f,并生成视觉场景图G。在编解码融合阶段,引入先验字典D中的先验语料知识,使用多模态图卷积神经网络对视觉场景图中的视觉特征与先验字典中的语言特征进行重编码,并输出用于解码器解码的抽象特征组最后在解码阶段由基于循环神经网络的语言解码模型将特征组输出成为输出语句序列s。
Encoder:I→f→G
实施例3
本发明系统中的场景生成器结构包括:主干网络、颈部网络和检测头,主干网络的输入即场景生成器的输入,为单幅图像;主干网络的输出为视觉特征,所述视觉特征作为颈部网络的输入,颈部网络的输出为具有特征融合信息及特征维度的视觉特征图,具有特征融合信息及特征维度的视觉特征图通过检测头输出,其中检测头设置了五个输出结构分别为:属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。
在主干网络中:
如图5所示,基于DLA网络结构使用全卷积层上采样和分层跳跃连接进行预测输出,基于迭代深度聚合的计算方法处理特征图各分辨率的对应特征。本发明在底层增加了5个256通道的尺寸为3×3的聚合节点,并在这些汇聚节点和不同步长的卷积层输出头均添加了跳跃连接。并在每一个步长的卷积层输出头分别输出对应尺度的结果。这里包括5个步长,分别为64、32、16、8、4,这5个步长的卷积层输出头,分别对应输出属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。
在颈部网络中:
如图6所示,使用特征金字塔构建一个用于输出多尺度特征预测的模块。特征金字塔结构允许在主干网特征提取后跨不同尺度特征进行信息交换。通过对较高等级的特征进行上采样,然后对较低等级的特征进行累加,得到一个具有相同通道数的特征映射金字塔。
实施例4
本发明方法中在编码阶段生成场景图的过程如图7所示,包括以下步骤:
A1、将输入图像传入编码阶段的视觉场景图生成模型;
A2、图像通过共享的主干网络结构,提取对应维度的初级视觉特征;这里的共享应理解为:利用同一个网络,在不同的网络阶段可以输出不同的内容,比如图5中的5项输出一样,相当于共享的是每一项输出前的结构;
A3、初级视觉特征经过颈部形成多尺度的五类高级特征输出;
A4、五类高级视觉特征分别经过五个检测头形成对应的五类输出;具体包括以下分步骤:
A41、由关键中心点热力图、关键中心点偏置、目标尺寸框三类输出形成对于目标实体检测和尺寸的回归。
A411、关键中心点热力图预测:令为I∈RW×H×3为宽度为W,高度为H的三通道输入图像,R表示实数集,令关键中心点热力图为经过主干网络和颈部对热力图真值进行下采样,利用高斯卷积核函数将真值分散形成关键中心点热力图。采用DLA网络获得输入图像对应的热力图为本领域公知技术,本发明在此不做详细阐述。
其中,W为输入图像的宽度,H为输入图像的高度,τ为总步长,Ck表示需要预测的单一目标实例的关键中心点个数,本发明中默认为Ck=1,本发明中σp为目标尺度的自适应方差,用p表示预测出的关键点,对齐进行下采样得到其对应关键点 表示在x方向的映射,表示在y方向的映射。
A412、由关键中心点热力图计算热力图偏置:当同一个目标存在两个高斯核函数重叠时,只取热力图的局部极大值作为目标实体的唯一中心关键点,即只取的目标作为整个流程的有效回归目标。为防止在获得热力图的过程因正负样本不平衡而带来的问题,使用像素级Focal Loss逻辑回归函数对其进行修正:
其中,α与β为超参数,在训练过程中将其手动设置为4和8,N是输入图像I中的中心关键点个数。
A413、计算关键中心点偏置并预测目标实体中心关键点:在图像的下采样过程中,预测值会因为数据离散而产生一定偏差,为了平衡因为样本离散而带来的偏差,对每一个中心关键点同步输出关键中心点偏置量O,并使用L1 Loss函数LO对该偏移量的训练进行惩罚,损失函数LO如下式所示:
本发明定义目标实体的中心关键点坐标为Oi,则Oi可由下式求出:
其中,Oi表示第i个点的关键中心点坐标,表示第i个点的关键中心点的横坐标,表示第i个点的关键中心点的纵坐标,表示第i个点的左下角横坐标,表示第i个点的右上角横坐标,表示第i个点的左下角纵坐标,表示第i个点的右上角纵坐标;
A414、计算尺寸回归偏置量并回归目标尺寸边缘框:由该中心关键点坐标可以回归出的该目标实体的尺寸边缘框Si可定义为:
同样,在对目标实体的尺寸边缘框的回归过程中也是用L1 Loss函数作为损失函数,并定义为Ls,如下式所示:
A415、计算目标实体预测的总体目标损失函数:总体目标函数为:
其中,N表示输入图像I中的中心关键点个数,λO与λS为实验所需超参数,在本实施例中分别将其设置为λO=1.25、λS=0.15。
A42、属性识别,形成针对目标实体的属性
属性识别:利用共享主干网络中步长为64的网络结构预测目标实体的属性a,这里关于目标实体的属性可以理解为用来做定语的形容词。
A43、关系关联场进行关系预测,具体包括以下分步骤:
A431、相关内容定义:关系关联场是一个二维的向量场F={Fp}∈Rρ×2×h×w,其中,本发明用ρ表示数据集(这的数据集指编码器模型的训练数据集mscoco2014)中的谓词数量,而 表示实数域。每一个二维向量场Fp中的谓词p都表示着图像中所有目标实体之间的一对关系。定义一张输入图像中的目标实体为M,则可以定义二元关系R={ri→j},其中,ri→j表示目标实体mi与目标实体mj之间存在谓词关系pi→j的三元关系,ri→j可以表示为如下公式:
ri→j=(mi,pi→j,mj)
同样,在计算关系关联场的过程中,也可能出现向量在某一点重叠的情况,因此,本发明对所有关系关联场Fp中包含特定谓词关系p的关系三元组进行取平均值的计算。则有:
其中,qc(x,y)表示任意一点q(x,y)处的非零向量个数。
A433、计算损失函数:使用smooth L1损失函数Lr构建预测关系关联场的损失函数LR,LR的计算方式如下公式所示:
其中,E为与F尺寸相同的像素级加权张量,而对于权重E的确定而言,共有三种情况:
如果点(x,y)恰好在具有关系p的两个目标实体的连线上,则有:
Ep,x,y=1
如果点(x,y)不在具有关系p的两个目标实体的连线上,但与该连线距离很小时,则有:
Bp,x,y∈(0,1)
如果并非以上两种情况,则有Ep,x,y=0。
A434、计算关系关联场路径积分得出关系关联分数:对于与这两个候选的目标实体关键中心点,将其通过检测头所预测的类别分数与沿着与的路径连线,可以求得其关系关联场分数这里的类别是通过基于DLA网络结构中步长为4的检测头所识别出的输入图像中的实体目标类别,比如人、猫、狗等实体目标。
可以将路径积分Ki→j定义为关系存在的置信区间:
其中,ui→j=|πi→j|表示πi→j中包含点的个数。由于关系关联场与对象和类别无关,因此将目标实体的类别分数与路径积分相乘,得到关系谓词的总体响应置信分数。本发明使用如下算法所示的路径积分以计算在一对目标实体关键中心点之间连线方向上的关系关联分数。
另外,对于每一个关系谓词所在的通道进行空间积分,因此Ki→j表示所有关系谓词所预测的关系三元组的置信度分数。其中,本发明方法中积分可以是负的,存在负数积分的情况即表示目标实体之间的相反关系,这些负数积分可以理解为Ki→j的取反,即Ki→j=-Kj→i。
A5、输出图像视觉场景图:在整个场景图的生成过程中可以将目标函数定义为L,计算目标损失函数L=LD+LR并输出场景图。本领域技术人员应知,在深度学习算法中采用损失函数来对深度学习模型的参数进行自动惩罚和调整,深度学习算法中的参数自动惩罚和调整为现有成熟技术,本发明中不做详细说明。
实施例5
本发明编码融合阶段的实现过程如图9所示,包括以下步骤:
B1、先验字典的构建。先验知识语料库选型,并对语料库进行数据预处理,最终形成适合于本发明的先验字典。本步骤中采用Visual Genome数据集作为先验字典,这里预处理为常规处理过程,具体的:将所有单词均改为了英文小写。同时,删除了出现次数小于5次的单词,并将对于图像内容的表达语句精简到16个单词及以内单词数组成的表达语句,获得了总共包含10369个单词的训练集样本。
B2、构建如图8所示的基于MGCN的先验字典融合网络,包括:全连接层FC1、全连接层FC2、全连接层FC3、全连接层FC4。
其中,n表示该目标实体所拥有的属性数量;
其中,oj∈sub(oi)表示目标实体oj为目标实体oi的客体,ok∈obj(oi)表示目标实体ok为目标实体oi的客体。
本实施例中的先验字典也可以是其他能提供丰富的关系为词、名词和属性形容词的数据集,比如mscoco2017、mscoco2014等,但是本发明所采用的Visual Genome数据集,能获得比其他数据集更好的效果。
实施例6
本发明解码阶段的实现过程如图10所示,包括以下步骤:
C1、可解码的视觉特征输入;
C2、计算图像内容表达最大概率似然。本发明参照Show and Tell的方法,定义解码结构得出符合真值的图像内容表达的最大概率为Pmax,可由如下公式得出。
其中,λ为模型参数,I是原始输入图像;
并结合链式法则,消去概率P对模型训练的影响对联合概率进行建模可得如下公式,其中,n为输出描述语句的长度。
C3、建立门控单元并计算状态刷新。使用循环神经网络构建该模型的基本结构,并在k-1之前的可变长度的单词由固定长度的隐藏层hk标识,当存在新的输入时用非线性函数Y即一个长短期记忆网络LSTM模块以更新这个单元。
使用记忆单元C作为整个模块的核心。该记忆单元的行为基于门控原理构建,使用遗忘门f、输入门i和输出门o三种常见的门控结构来控制当前单元是否丢弃、读取和输出单元内的值。对于三种门控单元的状态更新如下算法2所示,其中,⊙代表门控单元的值的乘积,矩阵W标识预训练的模型结构参数。
C4、预测值输出:解码器由多个可变长度LSTM结构串联组成,每一个LSTM结构包含一个输入门、一个遗忘门、一个输出门,最终将通过一个Softmax层进行图像内容表达语句的预测。解码器的损失函数可以用每一步单词预测的负对数似然的和来表示:
实施例7
对于图2中的输入图像,采用本发明的方法翻译得到的语句为:a young woman ina green sweater is happily holding a video game remote;一般情况下对应的人工翻译结果为:a young woman smiling holding a video game remote;可见采用本发明的方法识别出的目标实体包括:woman、sweater、video game remote,而现有的翻译结果仅识别出了woman、video game remote两个实体,采用本发明的方法识别出的属性包括:young、green、happily;采用本发明的方法识别出的目标实体之间的关系包括:in、holding;显然采用本发明的方法可以识别出更多目标实体以及目标实体之间的关联关系,对于图像内容的理解与表达相比于现有技术更加准确、丰富。
本发明的图像内容理解与表达模型准确率评估与现有技术的对比结果如表1所示。
本发明通过引入先验字典中的先验语料知识,补充了词库丰富度,根据表1中的CIDEr-D指标可知,本发明的方法生成的图像表达语句更拟人;本发明更关注图像内容本身的关系,根据表1中BLEU@1/4指标,可知采用本发明方法取得了优秀的准确率水平;本发明的编码阶段模型性能对比评估结果如表2所示,本发明提出了编码阶段新的场景图生成方式,根据表2中的指标Speed(s/image),可知本发明的方法获得了更高的效率。
表1图像内容理解与表达模型准确率评估结果
本领域的技术人员应知BLEU@1/4、METEOR、ROUGE-L、CIDEr-D为自然语言处理机器翻译常用评价指标;BLEU@1/4用于评价模型生成的句子相比于人工翻译的句子的准确率,METEOR用于评价模型生成的句子的召回率,ROUGE-L用于匹配模型生成的句子相比于人工翻译的句子之间的最长公共序列,CIDEr-D用于评价模型生成的句子与人工翻译的句子的相似度。
本实施例表1中的现有技术SCST可以参见:Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger[C]//IEEE.IEEE,2017:6517-6525.
本实施例表1中的现有技术LSTM-A可以参见:Vinyals O,Toshev A,Bengio S,etal.Show and Tell:A Neural Image Caption Generator[C].2015 IEEE Conference onComputerVision and Pattern Recognition(CVPR).IEEE,2015.
本实施例表1中的现有技术Up-Down可以参见:Anderson P,He X,Buehler C,etal.Bottom-Up and Top-Down Attention for Image Captioning and Visual QuestionAnswering[J].2017.
本实施例表1中的现有技术GCN-LSTM可以参见:Xu D,Zhu Y,Choy C B,etal.Scene Graph Generation by Iterative Message Passing[J].IEEE ComputerSociety,2017.
表2编码阶段模型性能对比评估结果
本实施例表2中的现有技术MOTIFS可以参见:Tang K,Niu Y,Huang J,etal.Unbiased Scene Graph Generation from Biased Training[J].2020.
本实施例表2中的现有技术GPS-Net可以参见:Lin X,Ding C,Zeng J,et al.GPS-Net:Graph Property Sensing Network for Scene Graph Generation[C]//IEEE.IEEE,2020.
本实施例表2中的现有技术Graph R-CNN可以参见:Yang J,Lu J,Lee S,etal.Graph R-CNN for Scene Graph Generation[J].European Conference on ComputerVision,2018.
本实施例表2中的现有技术Pixels2Graph可以参见:Newell A,Deng J.Pixels toGraphs by Associative Embedding[J].2017.
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
2.根据权利要求1所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,步骤S1基于DLA网络结构提取五个不同尺度下的视觉特征,得到高级语义特征组f,根据尺度从高到低,五个视觉特征分别为:属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。
4.根据权利要求3所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,所述关键中心点偏置的计算过程为:
对每一个中心关键点同步输出关键中心点偏置量O,并使用L1 Loss函数LO对该偏置量的训练进行惩罚,所述损失函数LO如下式所示:
A412、由关键中心点热力图计算热力图偏置:当同一个目标存在两个高斯核函数重叠时,只取热力图的局部极大值作为目标实体的唯一中心关键点,即只取的目标作为整个流程的有效回归目标。为防止在获得热力图的过程因正负样本不平衡而带来的问题,使用像素级Focal Loss逻辑回归函数对其进行修正:
其中,α与β为超参数,在训练过程中将其手动设置为4和8,N是输入图像I中的中心关键点个数。
6.根据权利要求5所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,关系关联场的计算过程为:
首先,定义关系关联场为一个二维的向量场F={Fp}∈Rρ×2×h×w,ρ表示数据集中的谓词数量, 表示实数域;每一个二维向量场Fp中的谓词p表示着图像中所有目标实体之间的一对关系;定义一张输入图像中的目标实体为M,定义二元关系R={ri→j},其中,ri→j表示目标实体mi与目标实体mj之间存在谓词关系pi→j的三元关系,ri→j表示为如下公式:
ri→j=(mi,pi→j,mj)
将路径积分Ki→j定义为关系存在的置信区间:
其中,ui→j=|πi→j|表示πi→j中包含点的个数;
最后,将目标实体的类别分数与路径积分相乘,得到关系谓词的总体响应置信分数。
7.根据权利要求2所述的一种基于视觉场景图生成的图像内容理解与表达方法,其特征在于,步骤S2具体包括以下分步骤:
S21、确定先验字典;
S22、根据先验字典提供的关系谓词,关系关联场三元关系,得到关系嵌入;
S23、根据先验字典提供的属性形容词,根据目标实体与其在步骤S1中输出的全部属性,计算得到属性嵌入;
S24、将目标实体融合映射到目标实体融合嵌入特征中。
8.一种基于视觉场景图生成的图像内容理解与表达系统,其特征在于,包括:场景生成器、先验字典、MGCN融合模块、语言解码器;场景生成器的输入为单幅图像,场景生成器的输出为实体、属性、关系特征;MGCN融合模块将先验字典提供的先验语料知识和场景生成器的输出,进行融合,得到可解码视觉特征;语言解码器为通过对视觉特征进行解码,得到对图像内容理解的表达语句。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210243982.1A CN114612767B (zh) | 2022-03-11 | 2022-03-11 | 一种基于场景图的图像理解与表达方法、系统与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210243982.1A CN114612767B (zh) | 2022-03-11 | 2022-03-11 | 一种基于场景图的图像理解与表达方法、系统与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114612767A true CN114612767A (zh) | 2022-06-10 |
CN114612767B CN114612767B (zh) | 2022-11-15 |
Family
ID=81863868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210243982.1A Active CN114612767B (zh) | 2022-03-11 | 2022-03-11 | 一种基于场景图的图像理解与表达方法、系统与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612767B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063410A (zh) * | 2022-08-04 | 2022-09-16 | 中建电子商务有限责任公司 | 一种基于无锚点目标检测的钢管计数方法 |
CN116383797A (zh) * | 2023-05-31 | 2023-07-04 | 北京顶象技术有限公司 | 一种无缺口滑动验证码及其生成方法 |
CN116524513A (zh) * | 2023-07-03 | 2023-08-01 | 中国科学技术大学 | 开放词表场景图生成方法、系统、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2856035A1 (en) * | 2013-07-09 | 2015-01-09 | Biosense Webster (Israel) Ltd. | Model based reconstruction of the heart from sparse samples |
CN109214566A (zh) * | 2018-08-30 | 2019-01-15 | 华北水利水电大学 | 基于长短期记忆网络的风电功率短期预测方法 |
CN110569704A (zh) * | 2019-05-11 | 2019-12-13 | 北京工业大学 | 一种基于立体视觉的多策略自适应车道线检测方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN111626116A (zh) * | 2020-04-21 | 2020-09-04 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
CN112464016A (zh) * | 2020-12-17 | 2021-03-09 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
CN112509051A (zh) * | 2020-12-21 | 2021-03-16 | 华南理工大学 | 一种基于仿生学的自主移动平台环境感知与建图方法 |
CN112733624A (zh) * | 2020-12-26 | 2021-04-30 | 电子科技大学 | 室内密集场景的人流密度检测方法、系统存储介质及终端 |
CN113111857A (zh) * | 2021-05-10 | 2021-07-13 | 金华高等研究院 | 基于多模态信息融合的人体姿态估计方法 |
CN113591573A (zh) * | 2021-06-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 多任务学习深度网络模型的训练及目标检测方法、装置 |
CN113836339A (zh) * | 2021-09-01 | 2021-12-24 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
-
2022
- 2022-03-11 CN CN202210243982.1A patent/CN114612767B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2856035A1 (en) * | 2013-07-09 | 2015-01-09 | Biosense Webster (Israel) Ltd. | Model based reconstruction of the heart from sparse samples |
CN109214566A (zh) * | 2018-08-30 | 2019-01-15 | 华北水利水电大学 | 基于长短期记忆网络的风电功率短期预测方法 |
CN110569704A (zh) * | 2019-05-11 | 2019-12-13 | 北京工业大学 | 一种基于立体视觉的多策略自适应车道线检测方法 |
CN111626116A (zh) * | 2020-04-21 | 2020-09-04 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
CN111612103A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN112464016A (zh) * | 2020-12-17 | 2021-03-09 | 杭州电子科技大学 | 一种基于深度关系自注意力网络的场景图生成方法 |
CN112509051A (zh) * | 2020-12-21 | 2021-03-16 | 华南理工大学 | 一种基于仿生学的自主移动平台环境感知与建图方法 |
CN112733624A (zh) * | 2020-12-26 | 2021-04-30 | 电子科技大学 | 室内密集场景的人流密度检测方法、系统存储介质及终端 |
CN113111857A (zh) * | 2021-05-10 | 2021-07-13 | 金华高等研究院 | 基于多模态信息融合的人体姿态估计方法 |
CN113591573A (zh) * | 2021-06-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 多任务学习深度网络模型的训练及目标检测方法、装置 |
CN113836339A (zh) * | 2021-09-01 | 2021-12-24 | 淮阴工学院 | 一种基于全局信息和位置嵌入的场景图生成方法 |
Non-Patent Citations (2)
Title |
---|
XINGYI ZHOU ET AL.: "Objects as Points", 《ARXIV》 * |
ZHE CAO ET AL.: "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063410A (zh) * | 2022-08-04 | 2022-09-16 | 中建电子商务有限责任公司 | 一种基于无锚点目标检测的钢管计数方法 |
CN116383797A (zh) * | 2023-05-31 | 2023-07-04 | 北京顶象技术有限公司 | 一种无缺口滑动验证码及其生成方法 |
CN116383797B (zh) * | 2023-05-31 | 2023-08-22 | 北京顶象技术有限公司 | 一种无缺口滑动验证码及其生成方法 |
CN116524513A (zh) * | 2023-07-03 | 2023-08-01 | 中国科学技术大学 | 开放词表场景图生成方法、系统、设备及存储介质 |
CN116524513B (zh) * | 2023-07-03 | 2023-10-20 | 中国科学技术大学 | 开放词表场景图生成方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114612767B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
Wang et al. | Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval | |
CN114612767B (zh) | 一种基于场景图的图像理解与表达方法、系统与存储介质 | |
Wang et al. | Multilayer dense attention model for image caption | |
US20220245347A1 (en) | Entity recognition method, apparatus, electronic device and computer readable storage medium | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111291556A (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN115238690A (zh) | 一种基于bert的军事领域复合命名实体识别方法 | |
CN115482418B (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
Cheng et al. | A semi-supervised deep learning image caption model based on Pseudo Label and N-gram | |
Chen et al. | A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN112256904A (zh) | 一种基于视觉描述语句的图像检索方法 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
Li et al. | Adapting clip for phrase localization without further training | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
Belharbi et al. | Deep neural networks regularization for structured output prediction | |
Nam et al. | A survey on multimodal bidirectional machine learning translation of image and natural language processing | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |