CN114612767B

CN114612767B - 一种基于场景图的图像理解与表达方法、系统与存储介质

Info

Publication number: CN114612767B
Application number: CN202210243982.1A
Authority: CN
Inventors: 匡平; 刘晨阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-11-15
Anticipated expiration: 2042-03-11
Also published as: CN114612767A

Abstract

本发明公开一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质，应用于图像理解与表达领域，针对现有技术存在的图像表达准确率和效率均较低的问题；本发明提出了基于关键中心点估计的视觉场景图生成方法，不使用大量目标检测锚框和后处理手段，提升了场景图生成的准确率和效率，并充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系，使得图像内容表达语句更准确、更贴近图像内容本身；本发明还引入先验语料知识，补足场景图生成过程中关系谓词等词汇输出的缺失，提升了图像内容理解与表达的表达语句准确率和拟人化水平；相比于现有技术，本发明的图像表达准确率和效率均有显著的提升。

Description

一种基于场景图的图像理解与表达方法、系统与存储介质

技术领域

本发明属于图像处理领域，特别涉及一种视觉场景图生成技术。

背景技术

图像内容理解与表达，如图1所示，即给定一张输入图像，而后需要机器去感知图像中的目标实体、属性、捕捉画面中的关系，最后生成一段对于图像内容理解的描述性质的表达语句。

图像内容理解与表达领域随着研究的不断深入，主要发展出三条较为成熟的技术路线：模板方法、相似性检索方法和基于编解码及衍生结构方法。基于模板的图像内容理解与表达方法，使用较为传统的视觉依存关系提取图像中的视觉特征，表达阶段使用句法树构建模板式的表达模型；基于相似性检索的图像内容理解与表达方法，通过检索向量空间中最接近与先验数据集中图像内容表达的方式，查询与当前图像模态输入最接近的句式以生成图像表达；基于编解码及衍生结构的方法，使用深度学习方法中卷积神经网络等相关技术构建以提取视觉特征的编码器，并使用基于循环神经网络的解码结构将视觉特征解码为输出语义序列。

1)模板方法：基于模板的方法在图像内容表达过程中使用最大熵语言模型、马尔科夫随机场等相关传统方法构建句法树，并根据先验模板将多个单词或词组组合成对应的图像内容表达。Kulkarni等人于2013年提出了Baby Talk模型，基于条件随机场计算一元图像电势，结合语料库中的高阶文本电势模板，推理出合适的单词和词组并最终形成图像表达。Yang等人提出的图像表达策略通过预测核心句子表达结构中最有可能出现的名词、动词、场景和介词，结合先验语料库模板，实现图像理解与表达。

2)基于相似性检索的方法，多利用图像视觉的相似性而并非直接使用深度学习方法构建对应的理解与表达模型，其方法并非直接理解图像内容而是寻找与先验数据库中数据的相似关联，从本质上将图像理解与表达任务转换为图像检索任务。Mason等人通过估计查询图像的视觉内容的词频解决了视觉噪声与先验数据库中数据的对齐问题，通过寻找相似语义的已标注图像以形成图像表达。

3)基于编解码及衍生结构的方法，是现有研究的主流方法。在原始机器翻译任务中由循环神经网络构建的编解码器中，输入序列与输出序列必须遵守等长的规则，而OVinyals等人提出了Show and Tell模型，将原有机器翻译任务中使用循环神经网络构建的的编码器换成了处理视觉任务的卷积神经网络结构，为图像提取视觉特征，依然使用原有的解码器结构输出序列，解决了编解码器结构中输入输出长度对齐的问题。Kelvin Xu等人提出Show,Attend and Tell模型，将注意力机制引入编解码器结构，使模型能够自动学习需要重点关注的对象，并在输出序列中生成相应的图像表达。Chen等人不仅在编解码器中加入了注意力机制，并改变了解码器部分循环神经网络本身的结构，使模型不仅能够从图像内容理解中获得图像表达，还能从图像表达中获得对图像内容理解的相关图像特征，并提高了运算的整体性能。

现有技术存在以下问题：

(1)现有主流的图像内容理解与表达方法为基于编解码及衍生结构的方法，如图2所示，在该方法中编码器并未充分关注图像内容中实体与属性、实体与实体、实体与背景之间的关系，不能够在解码阶段形成体现图像内容中“关系”的准确图像表达。

(2)编解码器结构中，编码器作为视觉特征提取的重要环节，该环节的准确率和效率直接影响了整个图像内容理解与表达的准确率和效率。但在现有的利用视觉场景图生成器作为编码器的图像内容理解与表达编解码结构中编码阶段视觉探测器的方法中，多基于二阶段的目标检测器方法，使用了大量锚框和后处理程序，准确率和效率均较低。

(3)解码器在解码阶段输出的语言表达语句不够贴近图像内容本身，不够拟人化。

发明内容

为解决上述技术问题，本发明提出一种基于视觉场景图生成的图像内容理解与表达方法、系统与存储介质。

本发明采用的技术方案之一为：一种基于视觉场景图生成的图像内容理解与表达系统，包括：场景生成器、先验字典、MGCN融合模块、语言解码器；场景生成器的输入为单幅图像，场景生成器的输出为实体、属性、关系特征；MGCN融合模块将先验字典提供的先验语料知识和场景生成器的输出，进行融合，得到可解码视觉特征；语言解码器为通过对视觉特征进行解码，得到对图像内容理解的表达语句。

本发明采用的技术方案之二为：一种基于视觉场景图生成的图像内容理解与表达方法，包括：

在编码阶段利用基于视觉场景图生成的视觉探测器，从输入图像中提取图像中各个层次的高级语义特征组f，并生成视觉场景图G；

在编解码融合阶段，引入先验字典D中的先验语料知识，使用多模态图卷积神经网络对视觉场景图G中的视觉特征与先验字典中的语言特征进行重编码，并输出抽象特征组

最后在解码阶段由基于循环神经网络的语言解码模型将抽象特征组

输出成为输出语句序列S。

本发明采用的技术方案之三为：一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行一种基于视觉场景图生成的图像内容理解与表达方法的步骤。

本发明采用的技术方案之四为：一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行一种基于视觉场景图生成的图像内容理解与表达方法的步骤。

本发明的有益效果：本发明使用视觉场景图生成器作为图像内容理解与表达的编码器，充分理解了图像内容本身里目标实体和实体之间、实体和属性、实体和背景之间的关系，使得图像内容表达语句更准确、更贴近图像内容本身；本发明首次提出基于关键中心点估计的视觉场景图生成方法，不使用大量目标检测锚框和后处理手段，提升了场景图生成的准确率和效率；本发明在编解码融合阶段引入了先验字典中的先验语料知识，并提出了基于多模态图卷积神经网络的先验字典融合方法，引入先验语料知识，补足场景图生成过程中关系谓词等词汇输出的缺失，提升了图像内容理解与表达的表达语句准确率和拟人化水平。

附图说明

图1为本发明背景技术中给出的图像内容理解与表达任务示意图；

图2为本发明背景技术中给出的现有主流编解码方法结构图；

图3为本发明的系统结构实现框图；

图4为本发明的方法流程图；

图5为本发明系统的主干网络结构图；

图6为本发明系统的颈部网络结构图；

图7为本发明编码阶段的处理流程图；

图8为本发明系统的MGCN先验字典融合网络结构图；

图9为本发明编解码融合阶段处理流程；

图10为本发明解码阶段处理流程。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

实施例1

如图3所示，本发明的一种基于视觉场景图生成的图像内容理解与表达系统，包括：场景生成器、先验字典、MGCN融合模块、语言解码器；场景生成器为基于关键中心点估计的视觉场景图生成器，该场景生成器的输入为单幅图像，场景生成器的输出为实体、属性、关系特征；MGCN融合模块为基于多模态图卷积网络MGCN，用于将先验字典提供的先验语料知识和场景生成器的输出，进行融合，得到可解码视觉特征；语言解码器为基于循环神经网络的语言解码器，通过对视觉特征进行解码，得到对图像内容理解的表达语句。

实施例2

如图4所示，本发明的一种基于视觉场景图生成的图像内容理解与表达方法，包括：在编码阶段利用基于视觉场景图生成的视觉探测器，从输入图像中提取图像中各个层次的高级语义特征组f，并生成视觉场景图G。在编解码融合阶段，引入先验字典D中的先验语料知识，使用多模态图卷积神经网络对视觉场景图中的视觉特征与先验字典中的语言特征进行重编码，并输出用于解码器解码的抽象特征组

最后在解码阶段由基于循环神经网络的语言解码模型将特征组

输出成为输出语句序列s。

Encoder：I→f→G

实施例3

本发明系统中的场景生成器结构包括：主干网络、颈部网络和检测头，主干网络的输入即场景生成器的输入，为单幅图像；主干网络的输出为视觉特征，所述视觉特征作为颈部网络的输入，颈部网络的输出为具有特征融合信息及特征维度的视觉特征图，具有特征融合信息及特征维度的视觉特征图通过检测头输出，其中检测头设置了五个输出结构分别为：属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。

在主干网络中：

如图5所示，基于DLA网络结构使用全卷积层上采样和分层跳跃连接进行预测输出，基于迭代深度聚合的计算方法处理特征图各分辨率的对应特征。本发明在底层增加了5个256通道的尺寸为3×3的聚合节点，并在这些汇聚节点和不同步长的卷积层输出头均添加了跳跃连接。并在每一个步长的卷积层输出头分别输出对应尺度的结果。这里包括5个步长，分别为64、32、16、8、4，这5个步长的卷积层输出头，分别对应输出属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场。

在颈部网络中：

如图6所示，使用特征金字塔构建一个用于输出多尺度特征预测的模块。特征金字塔结构允许在主干网特征提取后跨不同尺度特征进行信息交换。通过对较高等级的特征进行上采样，然后对较低等级的特征进行累加，得到一个具有相同通道数的特征映射金字塔。

实施例4

本发明方法中在编码阶段生成场景图的过程如图7所示，包括以下步骤：

A1、将输入图像传入编码阶段的视觉场景图生成模型；

A2、图像通过共享的主干网络结构，提取对应维度的初级视觉特征；这里的共享应理解为：利用同一个网络，在不同的网络阶段可以输出不同的内容，比如图5中的5项输出一样，相当于共享的是每一项输出前的结构；

A3、初级视觉特征经过颈部形成多尺度的五类高级特征输出；

A4、五类高级视觉特征分别经过五个检测头形成对应的五类输出；具体包括以下分步骤：

A41、由关键中心点热力图、关键中心点偏置、目标尺寸框三类输出形成对于目标实体检测和尺寸的回归。

A411、关键中心点热力图预测：令为I∈R^W×H×3为宽度为W，高度为H的三通道输入图像，R表示实数集，令关键中心点热力图为

经过主干网络和颈部对热力图真值进行下采样，利用高斯卷积核函数

将真值分散形成关键中心点热力图。采用DLA网络获得输入图像对应的热力图为本领域公知技术，本发明在此不做详细阐述。

其中，W为输入图像的宽度，H为输入图像的高度，τ为总步长，C_k表示需要预测的单一目标实例的关键中心点个数，本发明中默认为C_k＝1，本发明中σ_p为目标尺度的自适应方差，用p表示预测出的关键点，对齐进行下采样得到其对应关键点

表示

在x方向的映射，

表示

在y方向的映射。

A412、由关键中心点热力图计算热力图偏置：当同一个目标存在两个高斯核函数重叠时，只取热力图的局部极大值作为目标实体的唯一中心关键点，即只取

的目标作为整个流程的有效回归目标。为防止在获得热力图的过程因正负样本不平衡而带来的问题，使用像素级Focal Loss逻辑回归函数

对其进行修正：

其中，α与β为超参数，在训练过程中将其手动设置为4和8，N是输入图像I中的中心关键点个数。

A413、计算关键中心点偏置并预测目标实体中心关键点：在图像的下采样过程中，预测值会因为数据离散而产生一定偏差，为了平衡因为样本离散而带来的偏差，对每一个中心关键点同步输出关键中心点偏置量O，并使用L1 Loss函数L_O对该偏移量的训练进行惩罚，损失函数L_O如下式所示：

表示

点的偏移量，R为超参数；

本发明定义目标实体的中心关键点坐标为Oⁱ，则Oⁱ可由下式求出：

其中，Oⁱ表示第i个点的关键中心点坐标，

表示第i个点的关键中心点的横坐标，

表示第i个点的关键中心点的纵坐标，

表示第i个点的左下角横坐标，

表示第i个点的右上角横坐标，

表示第i个点的左下角纵坐标，

表示第i个点的右上角纵坐标；

A414、计算尺寸回归偏置量并回归目标尺寸边缘框：由该中心关键点坐标可以回归出的该目标实体的尺寸边缘框Sⁱ可定义为：

同样，在对目标实体的尺寸边缘框的回归过程中也是用L1 Loss函数作为损失函数，并定义为L_s，如下式所示：

A415、计算目标实体预测的总体目标损失函数：总体目标函数为：

其中，N表示输入图像I中的中心关键点个数，λ_O与λ_S为实验所需超参数，在本实施例中分别将其设置为λ_O＝1.25、λ_S＝0.15。

本领域技术人员可知，通过步骤A41可以获得目标实体关键中心点集

A42、属性识别，形成针对目标实体的属性

属性识别：利用共享主干网络中步长为64的网络结构预测目标实体的属性a，这里关于目标实体的属性可以理解为用来做定语的形容词。

A43、关系关联场进行关系预测，具体包括以下分步骤：

A431、相关内容定义：关系关联场是一个二维的向量场F＝{F_p}∈R^ρ×2×h×w，其中，本发明用ρ表示数据集(这的数据集指编码器模型的训练数据集mscoco2014)中的谓词数量，而

表示实数域。每一个二维向量场F_p中的谓词p都表示着图像中所有目标实体之间的一对关系。定义一张输入图像中的目标实体为M，则可以定义二元关系R＝{r^i→j}，其中，r^i→j表示目标实体mⁱ与目标实体m^j之间存在谓词关系p^i→j的三元关系，r^i→j可以表示为如下公式：

r^i→j＝(mⁱ，p^i→j，m^j)

A432、建立关系关联场表达式并计算关系关联场：定义目标实体的关键中心点Oⁱ传播到另一目标实体关键中心点O^j的路径为

由此可以推导出任意一个目标实体关键中心点P(x，y)的关系关联场F_p，x，y为：

其中，e^i→j表示水平方向的路径积分，路径

由在一组落在目标实体关键中心点之间的矩形区域上的点组成，即：

其中，P表示关键点类，p表示P中的某个关键中心点，有

作为从i到j方向上的关系长度，可表示为：

而，

是从i到j方向的正交方向上关系半宽度，即目标实体关键中心点半径的最小值，

可由如下公式得出。

同样，在计算关系关联场的过程中，也可能出现向量在某一点重叠的情况，因此，本发明对所有关系关联场F_p中包含特定谓词关系p的关系三元组进行取平均值的计算。则有：

其中，q_c(x，y)表示任意一点q(x，y)处的非零向量个数。

A433、计算损失函数：使用smooth L1损失函数L_r构建预测关系关联场的损失函数L_R，L_R的计算方式如下公式所示：

其中，E为与F尺寸相同的像素级加权张量，而对于权重E的确定而言，共有三种情况：

如果点(x，y)恰好在具有关系p的两个目标实体的连线上，则有：

E_p，x，y＝1

如果点(x，y)不在具有关系p的两个目标实体的连线上，但与该连线距离很小时，则有：

B_p，x，y∈(0，1)

如果并非以上两种情况，则有E_p,x,y＝0。

A434、计算关系关联场路径积分得出关系关联分数：对于

与

这两个候选的目标实体关键中心点，将其通过检测头所预测的类别分数

与

沿着

与

的路径连线，可以求得其关系关联场分数

这里的类别是通过基于DLA网络结构中步长为4的检测头所识别出的输入图像中的实体目标类别，比如人、猫、狗等实体目标。

随后，计算其在

上投影的平均值，计算公式为：

可以将路径积分K^i→j定义为关系存在的置信区间：

其中，u^i→j＝|π^i→j|表示π^i→j中包含点的个数。由于关系关联场与对象和类别无关，因此将目标实体的类别分数与路径积分相乘，得到关系谓词的总体响应置信分数。本发明使用如下算法所示的路径积分以计算在一对目标实体关键中心点之间连线方向上的关系关联分数。

另外，对于每一个关系谓词所在的通道进行空间积分，因此K^i→j表示所有关系谓词所预测的关系三元组

的置信度分数。其中，本发明方法中积分可以是负的，存在负数积分的情况即表示目标实体之间的相反关系，这些负数积分可以理解为K^i→j的取反，即K^i→j＝-K^j→i。

A5、输出图像视觉场景图：在整个场景图的生成过程中可以将目标函数定义为L，计算目标损失函数L＝L_D+L_R并输出场景图。本领域技术人员应知，在深度学习算法中采用损失函数来对深度学习模型的参数进行自动惩罚和调整，深度学习算法中的参数自动惩罚和调整为现有成熟技术，本发明中不做详细说明。

实施例5

本发明编码融合阶段的实现过程如图9所示，包括以下步骤：

B1、先验字典的构建。先验知识语料库选型，并对语料库进行数据预处理，最终形成适合于本发明的先验字典。本步骤中采用Visual Genome数据集作为先验字典，这里预处理为常规处理过程，具体的：将所有单词均改为了英文小写。同时，删除了出现次数小于5次的单词，并将对于图像内容的表达语句精简到16个单词及以内单词数组成的表达语句，获得了总共包含10369个单词的训练集样本。

B2、构建如图8所示的基于MGCN的先验字典融合网络，包括：全连接层FC1、全连接层FC2、全连接层FC3、全连接层FC4。

B3、关系融合嵌入：先验字典将为编码器补充更为丰富的关系谓词，根据A43中的关系关联场三元关系，可由如下公式得出关系嵌入

B4、属性融合嵌入：先验字典将为编码器补充更为丰富的属性形容词，给定一个目标实体o_i与其在前文中属性检测头输出的全部属性

可由如下公式得出属性嵌入

其中，n表示该目标实体所拥有的属性数量；

B5、目标实体融合嵌入：将目标实体o_i融合映射到目标实体融合嵌入特征

中。目标实体融合嵌入特征

可由如下公式得出

其中，o_j∈sub(o_i)表示目标实体o_j为目标实体o_i的客体，o_k∈obj(o_i)表示目标实体o_k为目标实体o_i的客体。

本实施例中的先验字典也可以是其他能提供丰富的关系为词、名词和属性形容词的数据集，比如mscoco2017、mscoco2014等，但是本发明所采用的Visual Genome数据集，能获得比其他数据集更好的效果。

实施例6

本发明解码阶段的实现过程如图10所示，包括以下步骤：

C1、可解码的视觉特征输入；

C2、计算图像内容表达最大概率似然。本发明参照Show and Tell的方法，定义解码结构得出符合真值的图像内容表达的最大概率为P_max，可由如下公式得出。

其中，λ为模型参数，I是原始输入图像；

并结合链式法则，消去概率P对模型训练的影响对联合概率进行建模可得如下公式，其中，n为输出描述语句的长度。

C3、建立门控单元并计算状态刷新。使用循环神经网络构建该模型的基本结构，并在k-1之前的可变长度的单词由固定长度的隐藏层h_k标识，当存在新的输入

时用非线性函数Y即一个长短期记忆网络LSTM模块以更新这个单元。

使用记忆单元C作为整个模块的核心。该记忆单元的行为基于门控原理构建，使用遗忘门f、输入门i和输出门o三种常见的门控结构来控制当前单元是否丢弃、读取和输出单元内的值。对于三种门控单元的状态更新如下算法2所示，其中，⊙代表门控单元的值的乘积，矩阵W标识预训练的模型结构参数。

C4、预测值输出：解码器由多个可变长度LSTM结构串联组成，每一个LSTM结构包含一个输入门、一个遗忘门、一个输出门，最终将通过一个Softmax层进行图像内容表达语句的预测。解码器的损失函数可以用每一步单词预测的负对数似然的和来表示：

实施例7

对于图2中的输入图像，采用本发明的方法翻译得到的语句为：a young woman ina green sweater is happily holding a video game remote；一般情况下对应的人工翻译结果为：a young woman smiling holding a video game remote；可见采用本发明的方法识别出的目标实体包括：woman、sweater、video game remote，而现有的翻译结果仅识别出了woman、video game remote两个实体，采用本发明的方法识别出的属性包括：young、green、happily；采用本发明的方法识别出的目标实体之间的关系包括：in、holding；显然采用本发明的方法可以识别出更多目标实体以及目标实体之间的关联关系，对于图像内容的理解与表达相比于现有技术更加准确、丰富。

本发明的图像内容理解与表达模型准确率评估与现有技术的对比结果如表1所示。

本发明通过引入先验字典中的先验语料知识，补充了词库丰富度，根据表1中的CIDEr-D指标可知，本发明的方法生成的图像表达语句更拟人；本发明更关注图像内容本身的关系，根据表1中BLEU@1/4指标，可知采用本发明方法取得了优秀的准确率水平；本发明的编码阶段模型性能对比评估结果如表2所示，本发明提出了编码阶段新的场景图生成方式，根据表2中的指标Speed(s/image)，可知本发明的方法获得了更高的效率。

表1图像内容理解与表达模型准确率评估结果

本领域的技术人员应知BLEU@1/4、METEOR、ROUGE-L、CIDEr-D为自然语言处理机器翻译常用评价指标；BLEU@1/4用于评价模型生成的句子相比于人工翻译的句子的准确率，METEOR用于评价模型生成的句子的召回率，ROUGE-L用于匹配模型生成的句子相比于人工翻译的句子之间的最长公共序列，CIDEr-D用于评价模型生成的句子与人工翻译的句子的相似度。

本实施例表1中的现有技术SCST可以参见：Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger[C]//IEEE.IEEE,2017:6517-6525.

本实施例表1中的现有技术LSTM-A可以参见：Vinyals O,Toshev A,Bengio S,etal.Show and Tell:A Neural Image Caption Generator[C].2015 IEEE Conference onComputerVision and Pattern Recognition(CVPR).IEEE,2015.

本实施例表1中的现有技术Up-Down可以参见：Anderson P,He X,Buehler C,etal.Bottom-Up and Top-Down Attention for Image Captioning and Visual QuestionAnswering[J].2017.

本实施例表1中的现有技术GCN-LSTM可以参见：Xu D,Zhu Y,Choy C B,etal.Scene Graph Generation by Iterative Message Passing[J].IEEE ComputerSociety,2017.

表2编码阶段模型性能对比评估结果

本实施例表2中的现有技术MOTIFS可以参见：Tang K,Niu Y,Huang J,etal.Unbiased Scene Graph Generation from Biased Training[J].2020.

本实施例表2中的现有技术GPS-Net可以参见：Lin X,Ding C,Zeng J,et al.GPS-Net:Graph Property Sensing Network for Scene Graph Generation[C]//IEEE.IEEE,2020.

本实施例表2中的现有技术Graph R-CNN可以参见：Yang J,Lu J,Lee S,etal.Graph R-CNN for Scene Graph Generation[J].European Conference on ComputerVision,2018.

本实施例表2中的现有技术Pixels2Graph可以参见：Newell A,Deng J.Pixels toGraphs by Associative Embedding[J].2017.

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于视觉场景图生成的图像内容理解与表达方法，其特征在于，包括：

S1、基于关键中心点估计，从输入图像中提取图像中各个层次的高级语义特征组f，并生成视觉场景图G；步骤S1基于DLA网络结构提取五个不同尺度下的视觉特征，得到高级语义特征组f，根据尺度从高到低，五个视觉特征分别为：属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场；

关系关联场的计算过程为：

首先，定义关系关联场为一个二维的向量场

ρ表示数据集中的谓词数量，

表示实数域；每一个二维向量场F_p中的谓词p表示着图像中所有目标实体之间的一对关系；定义一张输入图像中的目标实体为M，定义二元关系R＝{r^i→j}，其中，r^i→j表示目标实体mⁱ与目标实体m^j之间存在谓词关系p^i→j的三元关系，r^i→j表示为如下公式：

r^i→j＝(mⁱ,p^i→j,m^j)

其次，定义目标实体的关键中心点Oⁱ传播到另一目标实体关键中心点O^j的路径为

则任意一个目标实体关键中心点关键P(x,y)的关系关联场F_p,x,y为：

其中，e^i→j表示水平方向的路径积分，路径

由一组落在目标实体关键中心点之间的矩形区域上的点组成；

对于

与

这两个候选的目标实体关键中心点，将这两个点各自的类别分数

与

沿着

与

的路径连线，得到这两个点关系关联场类别分数

随后，计算两个候选的目标实体关键中心点

与

在

上投影的平均值，计算公式为：

将路径积分K^i→j定义为关系存在的置信区间：

其中，u^i→j＝|π^i→j|表示π^i→j中包含点的个数；

最后，将目标实体的类别分数与路径积分相乘，得到关系谓词的总体响应置信分数；

S2、引入先验字典D中的先验语料知识，对视觉场景图G中的视觉特征与先验字典中的语言特征进行重编码，并输出抽象特征组

S3、将抽象特征组

输出成为输出语句序列S。

2.根据权利要求1所述的一种基于视觉场景图生成的图像内容理解与表达方法，其特征在于，所述关键中心点热力图的计算过程为：

记输入图像为I，I∈R^W×H×3，记关键中心点热力图为

对热力图真值进行下采样，利用高斯卷积核函数

将真值分散形成关键中心点热力图；

其中，W为输入图像的宽度，H为输入图像的高度，τ为总步长，C_k表示需要预测的单一目标实例的关键中心点个数，σ_t为目标尺度的自适应方差，t表示预测出的关键点，对齐进行下采样得到其对应关键点

表示

点在x方向的映射，

表示

点在y方向的映射。

3.根据权利要求2所述的一种基于视觉场景图生成的图像内容理解与表达方法，其特征在于，所述关键中心点偏置的计算过程为：

对每一个中心关键点同步输出关键中心点偏置量O，并使用L1 Loss函数L_O对该偏置量的训练进行惩罚，所述Loss函数L_O如下式所示：

表示

点的偏移量，R为超参数，N是输入图像I中的中心关键点个数；

由关键中心点热力图计算热力图偏置：当同一个目标存在两个高斯核函数重叠时，只取热力图的局部极大值作为目标实体的唯一中心关键点，即只取

的目标作为整个流程的有效回归目标；为防止在获得热力图的过程因正负样本不平衡而带来的问题，使用像素级Focal Loss逻辑回归函数

对其进行修正：

4.根据权利要求3所述的一种基于视觉场景图生成的图像内容理解与表达方法，其特征在于，目标尺寸框的计算过程为：

根据中心关键点坐标回归出的该目标实体的尺寸边缘框Sⁱ，表达式为：

其中，

表示第i个中心关键点的左下角横坐标，

表示第i个中心关键点的右上角横坐标，

表示第i个中心关键点的左下角纵坐标，

表示第i个中心关键点的右上角纵坐标。

5.根据权利要求1所述的一种基于视觉场景图生成的图像内容理解与表达方法，其特征在于，步骤S2具体包括以下分步骤：

S21、确定先验字典；

S22、根据先验字典提供的关系谓词，关系关联场三元关系，得到关系嵌入；

S23、根据先验字典提供的属性形容词，根据目标实体与其在步骤S1中输出的全部属性，计算得到属性嵌入；

S24、将目标实体融合映射到目标实体融合嵌入特征中。

6.一种基于视觉场景图生成的图像内容理解与表达系统，其特征在于，包括：场景生成器、先验字典、MGCN融合模块、语言解码器；场景生成器基于关键中心点估计，从输入图像中提取图像中各个层次的高级语义特征组f，并生成视觉场景图G；MGCN融合模块将先验字典提供的先验语料知识和场景生成器的输出，进行融合，得到可解码视觉特征；语言解码器为通过对视觉特征进行解码，得到对图像内容理解的表达语句；

具体的场景生成器基于DLA网络结构提取五个不同尺度下的视觉特征，得到高级语义特征组f，根据尺度从高到低，五个视觉特征分别为：属性、关键中心点热力图、关键中心点偏置、目标尺寸框和关系关联场；

关系关联场的计算过程为：

首先，定义关系关联场为一个二维的向量场F＝{F_p}∈R^ρ×2×h×w，ρ表示数据集中的谓词数量，