CN113836339A

CN113836339A - 一种基于全局信息和位置嵌入的场景图生成方法

Info

Publication number: CN113836339A
Application number: CN202111021629.0A
Authority: CN
Inventors: 胡荣林; 赵志勇; 董甜甜; 张新新; 王媛媛; 马鸿泰; 邵鹤帅; 冯万利; 朱全银; 何旭琴; 秦齐
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-24
Anticipated expiration: 2041-09-01
Also published as: CN113836339B

Abstract

本发明涉及计算机视觉技术领域，公开了一种基于全局信息和位置嵌入的场景图生成方法，基于大型数据集中的图像，由Faster‑RCNN得到高级特征图和每个实体信息并且对目标位置编码；将特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接；利用LSTM的注意力网络得到目标上下文信息；构建边上下文生成的解码信息和目标图关系的生成融合方式；通过关系计算得到最终场景图。与现有技术相比，本发明将目标特征融入原始图像的视觉信息的方法，加入位置编码信息，连接全局信息和加权信息，提升整体视觉特征对于单一目标的影响，提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性，召回率有明显提升。

Description

一种基于全局信息和位置嵌入的场景图生成方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于全局信息和位置嵌入的场景图生成方法。

背景技术

在场景图生成研究过程中，由于数据集标注时人为的主观性造成了视觉关系长尾分布，导致自然的数据集偏置问题，其中视觉关系长尾分布是指少数关系在大量数据中聚集，多数关系存在少部分数据集中，在关系推理时，对于依赖数据的模型结构，模型会过拟合少数关系类别，在真正的关系推理上收效甚微。因此在场景图生成方法中除了提出高复杂度的模型结构，更多的是对数据集标注的偏置进行研究。针对数据集标注的偏置问题，现有的解决方法主要从节点消息传递，引入知识先验，联合上下文信息出发，在候选场景图的节点和边上更新信息，对实体视觉特征，语义信息，空间信息进行融合推理。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于全局信息和位置嵌入的场景图生成方法，将目标特征融入原始图像的视觉信息的方法，加入位置编码信息，连接全局信息和加权信息，提升整体视觉特征对于单一目标的影响，提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性，在与先前工作的实验效果对比上，召回率有明显提升。

技术方案：本发明提供了一种基于全局信息和位置嵌入的场景图生成方法，包括如下步骤：

步骤1：基于数据集中的图像，由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息并且对目标位置编码，所述实体信息包括目标视觉特征、目标边界框坐标、类别语义编码信息；

步骤2：将步骤1中高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络输出残差连接目标特征；

步骤3：对步骤2得到的目标特征利用基于注意力的LSTM网络得到目标上下文信息，利用LSTM解码获取目标分类矩阵；

步骤4：构建边上下文生成的解码信息，以步骤3中目标分类矩阵为边上下文解码的输入，构建目标特征到边连接特征的主谓宾关系生成融合方式，所述生成融合方式为非线性的的主宾融合方式；

步骤5：根据步骤4中融合方式，得到关系概率分布向量，根据最大分数概率对应的索引，从索引与谓词的一一对应的列表中得到关系谓词，并可视化得到最终场景图表示。

进一步地，所述步骤1中由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息的具体步骤为：

步骤1.1：对于整个VG视觉基因组数据集，预处理之后，利用Faster-RCNN模型作为目标检测器，目标检测器的基本网络用VGG16卷积网络，通过VGG16将原始图像映射为高维视觉特征图；

步骤1.2：由Faster-RCNN模型中的RPN网络生成实体信息；

步骤1.3：对边界框进行显示计算得到位置编码。

进一步地，所述步骤2具体方法为：

步骤2.1：将步骤1中映射的高维视觉特征图进行自适应平均池化得到可对齐融合的视觉特征图；

步骤2.2：对步骤2.1中可对齐融合的视觉特征图和实体信息采用拼接的融合方式，得到融合特征，并将其作为自注意力机制网络的输入，并对目标类别进行语义词向量的转换；

步骤2.3：构建自注意力机制网络结构，用三个全连接层分别计算融合特征，得到经过自注意力机制网络计算后的残差连接目标特征，其中输出维度为输入维度的二倍，便于残差连接时的维度对齐。

进一步地，所述步骤3具体方法为：

步骤3.1：对于步骤2中得到的残差连接目标特征利用双向LSTM提取上下文信息，对于每个节点特征其中融入了其他各目标节点的信息特征；

步骤3.2：对于隐层状态在解码前引入注意力机制计算方式，构建注意力机制的可学习参数，得到目标的相关概率度量；

步骤3.3：用LSTM解码得到目标分类矩阵，并将其作为边上下文解码的输入。

进一步地，所述步骤4具体方法为：

步骤4.1：将目标视觉特征、残差连接目标特征、目标分类矩阵进行融合得到全局信息，通过双向LSTM解码得到边上下文特征；

步骤4.2：构建非线性的的主宾融合方式，得到关系度量分数。

进一步地，所述步骤5具体方法为：

步骤5.1：步骤4中的目标图关系索引出其代表的主宾类别，将图关系以主语-谓语-宾语的格式保存为txt文件；

步骤5.2：将步骤1中的目标边界框坐标映射到原始图像中，对目标在原图像中类别和区域标记进行可视化。

有益效果：

本发明基于视觉基因组(VG)数据集，通过目标检测，结合上下文主要关系推理网络，对图像中的目标构建关系的抽象表示，得到场景图的生成结果。本发明将目标特征融入原始图像的视觉信息的方法，加入位置编码信息，连接全局信息和加权信息，提升整体视觉特征对于单一目标的影响，提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性，在与先前工作的实验效果对比上，召回率有明显提升。

附图说明

图1为基于全局信息和位置嵌入的场景图生成方法整体流程图；

图2为检测目标的可视化和关系的文本表示；

图3为目标检测融合特征结构图；

图4为边上下文编解码生成场景图流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种基于全局信息和位置嵌入的场景图生成方法，如图1所示为基于全局位置嵌入的场景图生成方法整体流程图，基于大型数据集中的图像，由Faster-RCNN方法得到高级特征图和每个实体信息并且对目标位置编码；将高级特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接；利用LSTM的注意力网络得到目标上下文信息；构建边上下文生成的解码信息和目标图关系的生成融合方式；通过关系计算得到最终场景图。

下面通过具体实施例说明本发明提供的基于全局位置嵌入的场景图生成方法。

步骤1：基于大型数据集Visual Genome(VG)图像，由Faster-RCNN模型得到高维视觉特征图和每个实体信息并且对目标位置编码；

步骤1.1：对于整个VG视觉基因组数据集，预处理之后的每个图像的场景图平均有11.6个对象和6.2个关系；

步骤1.2：数据被分为一个训练集和一个测试集，训练集包括75651张图像，其中有5000张图像作为验证集，剩余的32422张图像作为测试集；

步骤1.3：Faster-RCNN模型作为目标检测器，检测器的基本网络用VGG16卷积网络，通过VGG16将原始图像映射为高维视觉特征图；

步骤1.4：由Faster-RCNN模型中的RPN网络生成实体信息，包括每个目标视觉特征，目标边界框坐标，类别语义编码信息；

其中，对于位置显示编码，定义每个实体目标对应一个边界框b_i,令边界候选框集合B＝{b₁,b₂,…,b_n},b_i＝(X_i1,Y_i1,X_i2,Y_i2)，b_i∈R⁴,其中(X_i1,Y_i1)相对于原图像位置为目标的左上角坐标，(X_i2,Y_i2)为右下角坐标，由于得到的实体信息只有区域范围不能反应目标的位置大小关系，这里对边界框进行显示计算编码得到P_b＝{p₁,p₂,…,p_n}：

X_c＝(X_i1+X_i2)/2

Y_c＝(Y_i1+Y_i2)/2

S_xy＝(Y_i1-Y_i2)×(X_i2-X_i1),{Y_i1>Y_i2,X_i2>X_i1}

p_i＝(b_i,X_c,Y_c,S_xy)

为了对齐输入的融合特征和广泛的信息空间，对P_b进行全连接调整，由7维到输出维度大小为128得到P_a，P_a∈R^n×128。

步骤2：将高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接；

步骤2.1：定义VGG16提取的图像高级视觉特征为C₁，C₁∈R^n×512×w×h，将C₁自适应平均池化得到映射的可对齐融合的视觉特征C₂∈R^n×512；

步骤2.2：定义检测器得到实体信息集合为O＝{o₁,o₂,…,o_n},o_i∈R⁴⁰⁹⁶，特征图和实体信息采用拼接的融合方式，得到融合特征，作为自注意力机制网络的输入，具体融合计算方式如下：

C₃＝[O：L_e：P_a：C₂],C₃∈R^n×4936

其中，L_e∈R^n×200为目标类别分布概率的语义词向量；

步骤2.3：构建自注意力机制结构，用三个全连接层分别计算融合特征，其中输出维度为输入维度的二倍，便于残差连接时的维度对齐，计算方式如下：

C_5i＝C_3i+FC(C_4i(VC_3i))),C_5i∈R⁴⁹³⁶

其中，Q，K，V分别为全连接层的学习参数，FC全连接操作将C_4i(VC_3i)的2468维变换到4936维与C_3i逐元素相加。

步骤3：利用基于注意力的LSTM网络得到目标上下文信息；

步骤3.1：对于步骤2.3得到的目标特征用双向LSTM提取上下文信息，特征计算方式如下：

H_1i＝biLSTM(C_5i)

其中，H_1i为目标o_i在LSTM编码后的隐层状态，此节点特征包含上下文中的各目标信息；

步骤3.2：对于隐层状态在解码前引入注意力机制计算方式，构建注意力机制的可学习参数，具体计算如下：

W_2i＝tanh(W₁H_1i)

S_i＝H_1iA_i,S_i∈R²⁵⁶,i＝{1,…,n}

其中，W₁和U为注意力机制结构中的的可学习参数，W₁和U由(0，1)区间的均匀分布初始化，tanh为激活函数，对W_2i归一化得到A_i权重，与H_1i相乘得到目标的相关概率度量。

步骤4：构建边上下文生成的解码信息和目标图关系的生成融合方式；

步骤4.1：对于解码信息，将目标视觉特征o_i，自注意力机制输出的残差连接的特征C_5i，目标分类矩阵C_6i进行融合得到全局信息，通过双向LSTM解码得到边上下文特征，具体计算方式如下：

E_i＝biLSTM[o_i：C_5i：C_6i],E_i∈R^2×4096

步骤4.2：构建非线性的的主宾融合方式，将E_i分为主语E_oi宾语和E_si特征，计算方式如下：

E_i＝[E_oi：E_si]

其中，E_oi，E_si∈R⁴⁰⁹⁶，边的表示为R_i具体计算如下：

R_i＝max((E_oi+E_si)-(E_oi-E_si)²,0)

步骤5：通过关系索引和可视化得到最终场景图；

步骤5.1：步骤4.2中的图关系索引出其代表的主宾类别，将图关系以(主语-谓语-宾语)的格式保存为txt文件；

步骤5.2：将步骤1.4中的目标边界框坐标映射到原始图像中，对目标在原图像中类别和区域标记进行可视化。

针对上述的场景图生成方法，实验结果在关系分类(PredCls)、场景图分类(SGCls)、场景图生成(SGGen)三个子任务上进行评估，其中，关系分类任务为给定目标的真实位置边框和类别标签，对目标间的关系进行分类，场景图分类任务为给定目标的真实位置边框,首先预测边框中目标的标签，其次对目标对间的关系进行分类，场景图生成任务为只给定一张原始图像，不仅要对图像中的目标进行检测得到目标的边界框信息，目标的标签，还要对目标对间的关系进行分类。采用Top-K召回率作为评价指标，记作Recall@K，是表示在前K个预测关系中，正确预测的分类出现的比例，在本发明中K分别取值为20，50，100；如表1所示在三个子任务上的召回率结果统计。

表1

	Recall@20	Recall@50	Recall@100
				PredCls	60.5	66.0	67.6
SGCls	36.9	39.4	40.1
				SGGen	22.3	27.7	30.5

本发明可与计算机系统结合，从而完成场景中的目标检测和关系识别与分类。

本发明创造性的提出了基于全局位置嵌入的场景图生成方法，将全局信息和位置编码融合作为目标的特征，通过注意力加权的网络得到显著关系组合，并且提高了目标检测的准确度，综合特征融合的方法，在场景图检测生成中得到最终结果。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于全局信息和位置嵌入的场景图生成方法，其特征在于，包括如下步骤：

步骤 1：基于数据集中的图像，由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息并且对目标位置编码，所述实体信息包括目标视觉特征、目标边界框坐标、类别语义编码信息；

步骤 2：将步骤1中高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络输出残差连接目标特征；

步骤 3：对步骤2得到的目标特征利用基于注意力的LSTM网络得到目标上下文信息，利用LSTM解码获取目标分类矩阵；

步骤 4：构建边上下文生成的解码信息，以步骤3中目标分类矩阵为边上下文解码的输入，构建目标特征到边连接特征的主谓宾关系生成融合方式，所述生成融合方式为非线性的的主宾融合方式；

步骤 5：根据步骤4中融合方式，得到关系概率分布向量，根据最大分数概率对应的索引，从索引与谓词的一一对应的列表中得到关系谓词，并可视化得到最终场景图表示。

2.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法，其特征在于，所述步骤1中由Faster-RCNN目标检测模型得到高维视觉特征图和每个实体信息的具体步骤为：

步骤 1.1：对于整个VG视觉基因组数据集，预处理之后，利用Faster-RCNN模型作为目标检测器，目标检测器的基本网络用VGG16卷积网络，通过VGG16将原始图像映射为高维视觉特征图；

步骤 1.2：由Faster-RCNN模型中的RPN网络生成实体信息；

步骤1.3：对边界框进行显示计算得到位置编码。

3.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法，其特征在于，所述步骤2具体方法为：

步骤 2.1：将步骤1中映射的高维视觉特征图进行自适应平均池化得到可对齐融合的视觉特征图；

步骤 2.2：对步骤2.1中可对齐融合的视觉特征图和实体信息采用拼接的融合方式，得到融合特征，并将其作为自注意力机制网络的输入，并对目标类别进行语义词向量的转换；

步骤 2.3：构建自注意力机制网络结构，用三个全连接层分别计算融合特征，得到经过自注意力机制网络计算后的残差连接目标特征，其中输出维度为输入维度的二倍，便于残差连接时的维度对齐。

4.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法，其特征在于，所述步骤3具体方法为：

步骤 3.1：对于步骤2中得到的残差连接目标特征利用双向LSTM提取上下文信息，对于每个节点特征其中融入了其他各目标节点的信息特征；

步骤 3.2：对于隐层状态在解码前引入注意力机制计算方式，构建注意力机制的可学习参数，得到目标的相关概率度量；

步骤 3.3：用LSTM解码得到目标分类矩阵，并将其作为边上下文解码的输入。

5.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法，其特征在于，所述步骤4具体方法为：

步骤 4.1：将目标视觉特征、残差连接目标特征、目标分类矩阵进行融合得到全局信息，通过双向LSTM解码得到边上下文特征；

步骤 4.2：构建非线性的的主宾融合方式，得到关系度量分数。

6.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法，其特征在于，所述步骤5具体方法为：

步骤 5.1：步骤 4中的目标图关系索引出其代表的主宾类别，将图关系以主语-谓语-宾语的格式保存为txt文件；

步骤 5.2：将步骤1中的目标边界框坐标映射到原始图像中，对目标在原图像中类别和区域标记进行可视化。