CN115170449B

CN115170449B - 一种多模态融合场景图生成方法、系统、设备和介质

Info

Publication number: CN115170449B
Application number: CN202210759668.9A
Authority: CN
Inventors: 刘伟峰; 马力文; 王亚宁
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi Tejing Zhixin Technology Co ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-09-22
Anticipated expiration: 2042-06-30
Also published as: CN115170449A

Abstract

本发明提供一种多模态融合场景图生成方法、系统、设备和介质，将给定图片生成图像场景图；对给定图片中的文字语义描述生成并转换为语义场景图；基于图像场景图和语义场景图节点的相似度程度将其对齐并生成融合的目标场景图；利用两个场景图的优势实现互补，得到覆盖更全面、交互信息更精确的高质量场景图；基于图像生成场景图的方法能够全面捕捉到图像中的目标，获得简单的位置关系或常见的交互关系；基于语义描述生成场景图的方法包含关键目标的交互信息，获得更精准的交互信息；利用语义场景图包含高级交互关系的特点，解决在场景图生成任务中数据集存在长尾分布、高级语义交互关系出现频次少的问题。

Description

一种多模态融合场景图生成方法、系统、设备和介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种多模态融合场景图生成方法、系统、设备和介质

背景技术

场景图可以表示出图像中的物体及其交互关系，它以图结构的形式展示图像信息，节点代表目标物体的类别，有向边代表物体间的交互关系。由图像直接生成场景图是指不使用外部信息，仅以图像作为输入。在探索图像信息时发现上下文信息对场景图的生成至关重要。但是现有技术中的场景图存在局部信息的不完整性，其一般采用对图像的全局上下文信息建模，一般有两种建模方式，一种是基于带有记忆网络的RNN，另一种是使用图神经网络计算各节点之间的交互关系，以此来预测物体以及交互关系的标签。

图像生成场景图(ISG)，能够全面捕捉到图像中的目标，但只能够获得简单的位置关系或者常见的交互关系。现阶段目标间的关系预测存在很严重的长尾问题，图像中的目标交互关系通常被预测为简单的位置关系，比如“on”、“beside”、“under”等，或者被预测为最常见的从属关系，比如“has”、“of”等。

发明内容

针对现有技术中存在的问题，本发明提供一种多模态融合场景图生成方法、系统、设备和介质，能够准确的生成场景图。

本发明是通过以下技术方案来实现：

一种多模态融合场景图生成方法，其特征在于，包括以下步骤：

S1：对给定图片进行目标识别得到目标特征以及子图特征，根据目标特征和子图特征推理关系类别，生成图像场景图；

S2：对给定图片中的文字语义描述生成依赖树得到语义图，将语义图转换为语义场景图；

S3：基于图像场景图和语义场景图节点的相似度程度将其进行对齐；

S4：使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息，将每个节点输入进一个完全连接网络，计算每个节点的输出信息，对图像场景图中的每个节点聚合语义场景图的传入信息以及本图的传入信息，得到每个节点的聚合信息，生成融合的目标场景图。

进一步，所述步骤S1中对给定图片目标识别包括以下步骤：

使用区域建议网络对给定图片进行识别得到N个目标，且目标区域建议为：

f_RPN(I)＝{o₀,o₁,…,o_N-1}；

其中，f_RPN(·)为RPN模块，o_i为检测出的第i个目标，由一个边界框b_i表示，b_i＝[x_i,y_i,w_i,h_i]；边界框由4个元素组成，(x_i,y_i)为其左上顶点的坐标， w_i和h_i分别表示边界框的宽和高；

将N个目标两两结合组成短语区域建议，产生N(N-1)个对象对，这些短语区域建议用有向边完全连接生成关系图；

对目标区域建议和短语区域建议采用最大值抑制方法，减小数量规模，得到目标建议和子图建议并生成相应的目标特征与子图特征。

进一步，所述根据目标特征和子图特征推理关系类别包括以下步骤：

基于目标特征采用Faster R-CNN得到预测目标类别；基于图像中物体特征和子图特征联合预测得到关系类别，所述关系类别为：

其中，x_o和x_S分别为目标特征与子图特征，分别为目标o_i、o_j的特征，/>表示物体o_i、o_j所在的子图S_k的特征；

使用图像中的物体特征作为卷积核从特征图中提取关系，所述子图特征图卷积结果为：

其中，为子图特征图以第i个物体作为卷积核的卷积结果，/>为卷积操作，同理可以得到子图特征图以第j个物体作为卷积核的卷积结果/>

将与子图特征/>拼接，使用一个全连接层来预测目标间的关系类别为：

其中，FC(·)为全连接层，其包含一层Softmax层；

在训练过程中，通过目标检测损失和关系分类损失来优化图像场景图的生成过程，使得生成的图像场景图更加接近真值，损失函数为：

L＝λ_pcL_pc+λ_ocL_oc+λ_brL_br·1(object)；

其中，L_pc为谓词分类损失，L_oc为物体分类损失，L_br为边界框回归损失；λ_pc、λ_oc和λ_br为超参数；1(object)为如果边界框内是目标则为1，如果是背景信息则为0。

进一步，对于L_pc谓词的检测，使用Softmax函数，输出为所有候选谓词的概率；L_pc为交叉熵损失；

目标检测分类的损失也定义为交叉熵损失，对于边界框回归损失，采用 smoothL1损失。

进一步，生成图像场景图包括以下步骤：

用一个矩阵表示场景图，其中对角位置(i,i)为第i个物体，(i,j)位置上的元素为第i和第j个物体的关系短语；对于第i个对象，根据其细化特征被预测为某个物体或者背景，第(i,j)个短语根据短语特征被预测为某个谓词或者无关，生成图像场景图。

进一步，步骤S3基于图像场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤；

图像场景图中的节点为v_i(i＝1,…,n₁)，语义场景图的节点为v_j(j＝1,…,n₂)，计算图像场景图中每个节点与语义场景图中每个节点的成对相似度：

其中，<·>为：

<x,y>＝φ(x)^Tφ(y)；

其中，φ(·)为可训练的全连接层，T为转置；

选取最高的相似度值对应的节点作为对应节点，每次计算时不排除已经成对的节点，当某个节点对应的节点已经被选取成对，则再次比较，选取匹配度最大的一对作为成对节点，剩下的重新计算。

进一步，所述步骤S4中聚合信息为：

其中，场景图中目标节点为v_i，对应语义场景图中的节点为v′_i，φ_←为另一个可训练的完全连接网络，为语义场景图中节点v′_i的输出信息；j为与节点i有边关联的节点，为边的权重；

所述节点间传递消息的传播机制为：

其中，为t时刻节点i的聚合信息，/>为上一时间步节点i的状态；σ为Sigmoid函数；U和V是可训练矩阵，z_i控制遗忘信息，r_i控制新信息，/>为新产生的信息，⊙表示矩阵的点乘。

基于语义描述的多模态融合场景图生成系统，包括：

图像场景图生成模块，用于对给定图片进行目标识别得到目标特征以及子图特征，根据目标特征和子图特征推理关系类别，生成图像场景图；

语义场景图生成模块，用于对给定图片中的文字语义描述生成依赖树得到语义图，将语义图转换为语义场景图；

对齐模块，用于基于图像场景图和语义场景图节点的相似度程度将其进行对齐；

融合模块，用于使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息，将每个节点输入进一个完全连接网络，计算每个节点的输出信息，对图像场景图中的每个节点聚合语义场景图的传入信息以及本图的传入信息，得到每个节点的聚合信息，生成融合的目标场景图。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种多模态融合场景图生成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现一种多模态融合场景图生成方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供一种多模态融合场景图生成方法、系统、设备和介质，对给定图片进行目标识别得到目标特征以及子图特征，根据目标特征与子图特征推理关系类别，生成图像场景图；对给定图片中的文字语义描述生成依赖树得到语义图，将语义图转换为语义场景图；基于图像场景图和语义场景图节点的相似度程度将其进行对齐；使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息，将每个节点输入进一个完全连接网络，计算每个节点的输出信息，对图像场景图中的每个节点聚合语义场景图的传入信息以及本图的传入信息，得到每个节点的聚合信息，生成融合的目标场景图；本申请利用两个场景图的优势实现互补，能够得到覆盖更全面、交互信息更精确的高质量场景图。基于图像生成场景图的方法能够全面捕捉到图像中的目标，且能够获得简单的位置关系或者常见的交互关系；基于语义描述生成场景图的方法虽然不能全面的获得图像中的目标，但是包含关键目标的交互信息，获得更精准的交互信息；利用语义场景图包含高级交互关系的特点，解决在场景图生成任务中数据集存在长尾分布、高级语义交互关系出现频次少的问题。

附图说明

图1为本发明一种多模态融合场景图生成方法流程图；

图2为本发明具体实施例中对目标区域建议和短语区域建议采用最大值抑制方法示意图；

图3为本发明具体实施例中关系推测示意图；

图4为本发明具体实施例中图像场景图生成示意图；

图5为本发明具体实施例中生成融合的目标场景图示意图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供一种多模态融合场景图生成方法，如图1所示，包括以下步骤：

S1：对给定图片进行目标识别得到目标特征以及子图特征，根据目标特征与子图特征推理关系类别，生成图像场景图；

优选的，所述步骤S1中对给定图片目标识别包括以下步骤：

f_RPN(I)＝{o₀,o₁,…,o_N-1}；

具体的，使用区域建议网络(Region Proposal Network，RPN)识别出N 个目标；

对目标区域建议和短语区域建议采用最大值抑制方法，从而减小数量规模，如图2所示；由于很多关系设计到重叠区域，对这些区域共享特征表示以减少中间表示的数量，从而减少计算成本。候选关系对应于两个对象的联合边界框，将其得分定义为两个目标建议框得分的乘积，之后采用最大值抑制来控制相似的包围框的数量，这些合并的边界框共享一个统一的表示来描述他们的相互作用。

针对图像目标以及子图得到两组建议即目标建议和子图建议，使用 RoI-Pooling来生成相应的特征。对于目标建议，采用特征向量表示边界框中的目标。对于子图建议，采用二维特征图来表示，二维特征图可以更清楚的表示目标之间的空间关系。

优选的，所述根据目标特征与子图特征推理关系类别包括以下步骤：

首先，将提取到的目标特征与子图特征分别记为x_o和x_S。对于物体类别，利用目标特征经Faster R-CNN直接预测得到目标类别，对于关系类别的预测，使用图像中物体的特征结合子图特征来联合预测：

其中，分别为目标o_i、o_j的特征，/>为物体o_i、o_j所在的子图 S_k的特征。

其次，不同的目标物体对应子图特征的不同区域，一个子图涉及到多个目标对，因此使用图像中的物体特征作为卷积核从特征图中提取关系：

其中，表示子图特征图以第i个物体作为卷积核的卷积结果，/>代表卷积操作。同理可以得到子图特征图以第j个物体作为卷积核的卷积结果/>

然后，将与子图特征/>拼接起来，使用一个全连接层来预测目标间的关系，即

其中，FC(·)为全连接层，包含一层Softmax层。

如图3所示为关系推测示意图。

最后，在训练过程中，通过目标检测损失和关系分类损失来优化场景图的生成过程，使得生成的场景图更加接近真值。损失函数定义为：

L＝λ_pcL_pc+λ_ocL_oc+λ_brL_br·1(object)；

其中，L_pc为谓词分类损失，L_oc为物体分类损失，L_br为边界框回归损失；λ_pc、λ_oc和λ_br为超参数；1(object)表示如果边界框内是目标则为1，如果是背景信息则为0。对于谓词检测，使用Softmax函数，输出为所有候选谓词的概率。L_pc定义为交叉熵损失。同理，目标检测分类的损失也定义为交叉熵损失。对于边界框回归损失，采用smooth L1损失。

优选的，生成图像场景图包括以下步骤：

具体的，如图4所示，矩阵示意图中不同的交互以不同的颜色区分，空的黑色表方格表示没有交互关系，左右以不同形式的格子区分节点的聚合信息和向外输出信息。右图中的方型表示节点，代表检测出的物体，圆形表示物体间的交互关系。

优选的，步骤S3基于图像场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤；

其中，<·>为：

<x,y>＝φ(x)^Tφ(y)；

其中，φ(·)为可训练的全连接层，T为转置。

优选的，如图5所示，所述步骤S4中聚合信息为：

所述节点间传递消息的传播机制为：

本发明提供的一种优选实施例为：

本申请采用视觉基因组(Visual Genome，VG)作为数据集，VG共包含 108077张图像，包含区域描述、目标及其边界框、属性、关系、区域的图结构、场景图等。平均每幅图像包含38个对象和22个关系。在场景图生成任务中，VG数据集是应用最广泛的基准。

采用VG作为基础数据集，对数据集进行预处理，选择其中150个出现最频繁对象类别和50个关系。在清理之后，每张图像平均包含大约12个对象和6对关系。将清理后的数据集按照7:3划分训练集和测试集，其中训练集包含5000张图像作为验证集。

对于图像场景图生成部分，使用Faster R-CNN模型来预测对象类和关系，以ResNet作为骨干网络。使用预训练模型初始化，使用随机梯度下降法训练模型参数，初始化学习率为0.001，批次大小为4。将真值对象类别和真值关系类别发送到网络训练模型，损失函数采用预测值与真值之间的交叉熵损失。

由于数据集部分标注稀疏，可能导致预测错误，所以准确度、精确度已经不能够证明模型的好坏。针对这个问题，本实施例采用召回率TOP K Recall(R@K)作为评价场景图生成模型的指标，表示预测的分数最高的三元组出现在真值三元组中的比例。在我们的实验中K分别取50、100来观测实验结果。

为了说明本申请提出的融合方法对场景图生成有促进作用，设置对比试验，对比模型包括IMP、IMP+模型、MSDN模型、KERN模型以及MOTIFS模型。

模型评估在三个子任务上进行，分别为：①谓词分类(PredCls)：给定物体的真值边界框，识别物体之间的交互关系；②短语识别(PhrCls)：根据物体的真实位置来预测谓词类别和物体类别；③场景图生成(SGGen)：检测物体并识别他们之间的关系。对于物体，如果其分类正确且边界框与真值重合度大于50％，则判定其被检测到；对于关系，如果主语物体和宾语物体识别成功且谓词预测正确，则判定其被检测到。实验结果如表1所示。

表1实验数据表

表1为本申请提出方法与IMP+、MSDN、KERN、MOTIFS、GB-Net在R@50 和R@100的对比结果中，加粗数据为表现最好的。IMP是直接从图像生成场景图，仅考虑单一模态的信息，IMP+是对数据集优化而提出的改进版的IMP。 MSDN是在三个不同语义层次进行场景理解，提出一种结构用于细化特征，这种结构在三个不同的语义层次之间进行信息传递。MOTIFS模型指出有效的场景图必须捕获对象之间的依赖关系，其设计了一种机制来编码全局上下文，从而提高模型的质量。KERN针对数据集中关系的分布严重不均匀的情况，探索物体对之间的统计相关性，学习路由机制来传播节点之间的消息。 GB-Net和本申请类似，他利用常识图作为先验知识，在常识图和场景图之间传递消息，从而提升模型的质量。表中可以看出在PredCls任务上，当K 取50时，本申请结果与GB-Net模型的差距不大，提升0.3％；K取100时， GB-Net表现最好，这表明引入外部知识对模型有积极作用。在PhrCls任务上，本申请方法表现最优，当K分别取50、100时，比现有模型提高1.2％和 1.0％。在SGGen任务上，在K取50时，本申请方法表现最好，而K取100 时，MOTIFS模型比本申请结果高0.3％。综合三个任务的综合表现，本申请模型在场景图生成任务上表现较好。

本申请提出的融合模型是利用数据集中已经存在的语义描述，在场景图级别上做融合。为了验证语义场景图对融合场景图的贡献，针对是否融入语义场景图进行消融实验，将仅基于图像场景图的模型记为ISG，将融合模型记为ISG+SSG，对比结果如表2所示。

表2消融实验结果

表2中的实验结果表明，基于语义描述的语义场景图对融合场景图有积极贡献，在三个子任务上均有提升效果。其中，在SSGen任务上提升效果最为明显，当K分别取50和100时，ISG+SSG比ISG方法提升6.2％和7％。

本发明提供基于语义描述的多模态融合场景图生成系统，包括：

图像场景图生成模块，用于对给定图片进行目标识别得到目标特征以及子图特征，根据目标特征与子图特征推理关系，生成图像场景图；

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于一种多模态融合场景图生成方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM 存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关一种多模态融合场景图生成方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种多模态融合场景图生成方法，其特征在于，包括以下步骤：

S3：基于图像场景图和语义场景图节点的相似度程度将节点进行对齐；

S4：使用GGNN在对齐后的图像场景图和语义场景图之间的节点间传递消息，将每个节点输入进一个完全连接网络，计算每个节点的输出信息，对图像场景图中的每个节点聚合语义场景图的传入信息以及本图的传入信息，得到每个节点的聚合信息，生成融合的目标场景图；

所述步骤S1中对给定图片目标识别包括以下步骤：

；

其中，为RPN模块，/>为检测出的第/>个目标，由一个边界框/>表示，，/>；边界框由4个元素组成，/>为其左上顶点的坐标，/>和/>分别表示边界框的宽和高；

将个目标两两结合组成短语区域建议，产生/>个对象对，这些短语区域建议用有向边完全连接生成关系图；

对目标区域建议和短语区域建议采用最大值抑制方法，减小数量规模，得到目标建议和子图建议并生成相应的目标特征与子图特征；

所述根据目标特征和子图特征推理关系类别包括以下步骤：

；

其中，和/>分别为目标特征与子图特征，/>、/>分别为目标/>、/>的特征，/>表示物体/>、/>所在的子图/>的特征；

；

其中，为子图特征图以第/>个物体作为卷积核的卷积结果，/>为卷积操作，同理可以得到子图特征图以第/>个物体作为卷积核的卷积结果/>；

将、/>与子图特征/>拼接，使用一个全连接层来预测目标间的关系类别为：

；

其中，为全连接层，其包含一层Softmax层；

；

其中，为谓词分类损失，/>为物体分类损失，/>为边界框回归损失；/>、/>和为超参数；/>为如果边界框内是目标则为1，如果是背景信息则为0；

所述步骤S4中聚合信息为：

；

其中，场景图中目标节点为，对应语义场景图中的节点为/>，/>为另一个可训练的完全连接网络，/>为语义场景图中节点/>的输出信息；/>为与节点/>有边关联的节点，/>为边的权重；

所述节点间传递消息的传播机制为：

；

其中，为/>时刻节点/>的聚合信息，/>为上一时间步节点/>的状态；/>为Sigmoid函数；/>和/>是可训练矩阵， />控制遗忘信息，/>控制新信息，/>为新产生的信息，/>表示矩阵的点乘。

2.根据权利要求1所述一种多模态融合场景图生成方法，其特征在于，对于谓词的检测，使用Softmax函数，输出为所有候选谓词的概率；/>为交叉熵损失；

目标检测分类的损失也定义为交叉熵损失，对于边界框回归损失，采用smooth L1损失。

3.根据权利要求1所述一种多模态融合场景图生成方法，其特征在于，生成图像场景图包括以下步骤：

用一个矩阵表示场景图，其中对角位置为第/>个物体，/>位置上的元素为第/>和第/>个物体的关系短语；对于第/>个对象，根据其细化特征被预测为某个物体或者背景，第/>个短语根据短语特征被预测为某个谓词，生成图像场景图。

4.根据权利要求3所述一种多模态融合场景图生成方法，其特征在于，步骤S3基于图像场景图和语义场景图节点的相似度程度将其进行对齐包括以下步骤；

图像场景图中的节点为，语义场景图的节点为/>，计算图像场景图中每个节点与语义场景图中每个节点的成对相似度：

；

其中，为：

；

其中，为可训练的全连接层，T为转置；

5.基于语义描述的多模态融合场景图生成系统，其特征在于，基于权利要求1-4任一项所述一种多模态融合场景图生成方法，包括：

对齐模块，用于基于图像场景图和语义场景图节点的相似度程度将节点进行对齐；

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述一种多模态融合场景图生成方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述一种多模态融合场景图生成方法的步骤。