CN116416334A

CN116416334A - 一种基于原型的嵌入网络的场景图生成方法

Info

Publication number: CN116416334A
Application number: CN202310337066.9A
Authority: CN
Inventors: 许辉; 郑超凡; 陈奇盛; 张明星; 尹鹏; 郭嘉琪; 邵杰
Original assignee: Research Institute Of Yibin University Of Electronic Science And Technology
Current assignee: Research Institute Of Yibin University Of Electronic Science And Technology
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-11

Abstract

本发明公开了一种基于原型的嵌入网络的场景图生成方法，包括以下分步骤：S1、获取图像，将图像输入目标检测器，得到若干具有特征的图像实例；S2、通过基于原型的嵌入网络对图像实例进行建模，得到主体、客体和谓词，进而得到主客体的关系表示以及谓词原型；S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示，得到主客体‑谓词的匹配结果；S4、根据主客体‑谓词的匹配结果进行图像的场景图生成，完成场景图生成。本发明，通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型，并在主客体和谓词之间建立匹配以进行关系识别，解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。

Description

一种基于原型的嵌入网络的场景图生成方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于原型的嵌入网络的场景图生成方法。

背景技术

近年来，深度神经网络因为性能优越而被广泛应用于各个领域。除了基础的图像分类、目标检测等认知任务以外，一些需要更高层次语义理解的应用任务随着视觉认知与自然语言处理的发展也受到的极大的关注，比如图像描述生成和图像问答等。然而，基础的认知任务都是孤立地对待图像中的实例，忽视了不同实例之间的视觉关系信息，从而无法充分理解图像中的视觉内容。

图像场景图生成就是一个专门检测不同实例之间的视觉关系的一项任务，其使用图结构的形式来表示视觉关系，其中节点表示图像中检测到的实例，边表示实例与实例之间的关系，包含了不同的关系谓词信息。场景图生成任务可以为下游任务提供一种中等层次的图像抽象特征，便于进一步加工。

然而，由于众多可能的主宾组合在视觉外观上的差异，导致每个谓语范畴内都存在较大的类内变异，如“man-eating-pizza,giraffe-eating-leaf”，在模型的潜在空间而不同类别之间存在严重的类间相似性，如:“man-holding-plate,man-eating-pizza”。上述挑战使得当前的场景图生成方法无法获得可靠的关系预测的鲁棒特征。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于原型的嵌入网络的场景图生成方法解决了目前的场景图生成方法不能捕获紧凑和可区分的关系特征表示的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于原型的嵌入网络的场景图生成方法，包括以下分步骤：

S1、获取图像，将图像输入目标检测器，得到若干具有特征的图像实例；

S2、通过基于原型的嵌入网络(PE-Net)对图像实例进行建模，得到主体、客体和谓词，进而得到主客体的关系表示以及谓词原型；

S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示，得到主客体-谓词的匹配结果；

S4、根据主客体-谓词的匹配结果进行图像的场景图生成，完成场景图生成。

进一步地：所述S1中，图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。

进一步地：所述S2中，得到主体、客体和谓词的方法具体为：

SA1、根据图像实例的特征得到实例变化的语义内容；

SA2、根据实例变化的语义内容构建主体、客体和谓词。

进一步地：所述SA1中，实例变化的语义内容包括第一～第三语义内容，得到第一语义内容v_s、第二语义内容v_o和第三语义内容u_p的表达式具体为：

式中，W_s，W_o，W_p均为可学习的参数，t_s，t_o，t_p均为类别标签的词嵌入，f(·)为全连接层，h(·)为将视觉特征转化到语义空间的视觉语义函数，

为连接运算，σ(·)为sigmoid激活函数，⊙为为哈达玛乘积，x_s为第一视觉特征，x_o为第二视觉特征，x_u为联合特征；

所述SA2中，构建主体s、客体o和谓词p的表达式具体为：

s＝W_st_s+v_s

o＝W_ot_o+v_o

p＝W_pt_p+u_p。

进一步地：所述S2中，得到主客体的关系表示以及谓词原型的方法具体为：

根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换，得到主客体的关系表示以及谓词原型；

其中，所述主客体与对应的谓词在公共语义空间中进行匹配的表达式

主客体的关系表示r以及谓词原型c的表达式具体为：

c＝W_pt_p

式中，

ReLU为激活函数。

进一步地：所述S3中，基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配；

所述原型引导学习的方法具体为构建第一损失函数和三元损失函数，所述第一损失函数

的表达式具体为：

式中，

为一元运算，τ为可学习的温度超参数，c_t为真值类别的谓词原型，c_j为第j个类别的谓词原型，N为谓词原型类别的数量。

进一步地：得到所述三元损失函数的方法具体为：

SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离，得到第一距离集；

SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离，得到第二距离集；

SB3、将第二距离集进行递增排序得到第三距离集，选择第三距离集中前k₁个欧式距离取平均值，得到负原型的距离；

SB4、将真值类别的谓词原型的欧式距离作为正原型的距离，根据正原型的距离和负原型的距离构造三元损失函数。

进一步地：所述SB1中，第一距离集G的表达式具体为：

式中，g_j为主客体的关系表示与第j个类别的谓词原型c_j之间的欧式距离，其表达式具体为：

所述SB4中，所述三元损失函数

的表达式具体为：

式中，max(·)为最大值函数，g⁺为正原型的距离，g^-为负原型的距离，γ₁为第一超参数。

进一步地：所述S3中，基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度；

所述原型正则化方法具体为构建第二损失函数和第三损失函数；

其中，所述第二损失函数

的表达式具体为：

式中，s_ij为第i个类别的谓词原型c_i与第j个类别的谓词原型c_j的余弦相似度；

构建所述第三损失函数的方法具体为：

SC1、计算每个类别的谓词原型之间的欧式距离，得到第一距离矩阵；

其中，第一距离矩阵

R为矩阵，其中第i个类别的谓词原型c_i与第j个类别的谓词原型c_j之间的欧氏距离d_ij的表达式具体为：

SC2、将第一距离矩阵中的每一行元素按递增顺序排序，得到第二距离矩阵；

其中，第二距离矩阵

d′_ij为第二距离矩阵中第i个类别的谓词原型c_i与第j个类别的谓词原型c_j之间的欧氏距离；

SC3、选择第二距离矩阵的每行上前k₂个欧氏距离进行加宽，得到加宽距离；

其中，计算加宽距离d^-的表达式具体为：

SC4、根据加宽距离构造第三损失函数；

其中，第三损失函数

的表达式具体为：

式中，γ₂为第二超参数，其用于调整距离边缘。

进一步地：所述S3中，基于原型的嵌入网络的损失函数

的表达式具体为：

得到主客体-谓词的匹配结果的方法具体为：

选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果，其中，得到所述余弦相似度最高的类别的谓词原型res_r的表达式具体为：

式中，q_i为主客体的关系表示r与第i个类别的谓词原型c_i的相似性。

本发明的有益效果为：

(1)本发明提供了一种基于原型的嵌入网络的场景图生成方法，通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型，并在主客体和谓词之间建立匹配以进行关系识别，解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。

(2)本发明通过原型引导学习来帮助基于原型的嵌入网络有效地学习主客体-谓词的匹配，并设计原型正则化方法来缓解由于谓词语义重叠引起的主客体-谓词模糊匹配，从而解决谓词语义重叠导致的模糊匹配问题，实现主客体-谓词的精确匹配。

附图说明

图1为一种基于原型的嵌入网络的场景图生成方法流程图。

图2为一种基于原型的嵌入网络的场景图生成方法的具体实施框架图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

如图1所示，在本发明的一个实施例中，一种基于原型的嵌入网络的场景图生成方法，包括以下分步骤：

S2、通过基于原型的嵌入网络对图像实例进行建模，得到主体、客体和谓词，进而得到主客体的关系表示以及谓词原型；

所述S1中，图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。

所述S2中，得到主体、客体和谓词的方法具体为：

SA1、根据图像实例的特征得到实例变化的语义内容；

SA2、根据实例变化的语义内容构建主体、客体和谓词。

所述SA1中，实例变化的语义内容包括第一～第三语义内容，得到第一语义内容v_s、第二语义内容v_o和第三语义内容u_p的表达式具体为：

第一语义内容v_s、第二语义内容v_o和第三语义内容u_p用于建模来自相同主语、宾语和谓语类的每个实例的多样性。

所述SA2中，构建主体s、客体o和谓词p的表达式具体为：

s＝W_St_s+v_s

o＝W_ot_o+v_o

p＝W_pt_p+u_p。

所述S2中，得到主客体的关系表示以及谓词原型的方法具体为：

主客体的关系表示r以及谓词原型c的表达式具体为：

c＝W_pt_p

式中，

ReLU为激活函数。

本发明基于原型的紧凑且可区分的表示对图像实例进行建模，得到主客体的关系表示以及谓词原型。

本发明将主客体与对应的谓词在公共语义空间中进行匹配，其公式定义如下所示：

然而谓词特征随着主客体的不同而不同，这使得基于原型的嵌入网络无法有效地学习匹配，因此，将上述公式进行等价变换，得到确定性匹配目标如下所示：

所述S3中，基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配；

在本实施例中，原型引导学习的方法用于帮助基于原型的嵌入网络学习主客体和对应谓词的匹配，使主客体的关系表示接近其对应的谓词原型，本发明利用主客体的关系表示与谓词原型之间的余弦相似度来实现，实现为第一损失函数和三元损失函数。

的表达式具体为：

式中，

为一元运算，τ为可学习的温度超参数，c_t为真值类别的谓词原型，t为真值类别的下标，c_j为第j个类别的谓词原型，N为谓词原型类别的数量。

得到所述三元损失函数的方法具体为：

SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离，得到第一距离集

SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离，得到第二距离集B＝G\{g_t}；

SB3、将第二距离集进行递增排序得到第三距离集

选择第三距离集中前k₁个欧式距离取平均值，得到负原型的距离；

所述SB1中，第一距离集G的表达式具体为：

所述SB2中，第二距离集B＝G\{g_t}；

所述SB3中，第三距离集

得到负原型的距离的表达式具体为g^-：

所述SB4中，所述正原型的距离g⁺＝g_t，所述三元损失函数

的表达式具体为：

式中，max(·)为最大值函数，g⁺为正原型的距离，g^-为负原型的距离，γ₁为第一超参数，其用于调整主客体的关系表示与负原型的距离之间的距离阈值。

所述S3中，基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度；

本发明点的原型正则化方法具体为：通过扩大原型之间的区别来鼓励谓词原型的类别间分离，从而缓解谓词之间语义重叠引起的模糊匹配，以进行精确的主客体-谓词匹配。

其中，所述第二损失函数

的表达式具体为：

得到第二损失函数

的方法具体为：

计算谓词原型之间的余弦相似度，得到相似度矩阵S如下所示：

其中，谓词原型矩阵C＝[c₀；c₁；...；c_N]，

通过归一化其中的向量得到，s_ij表示第i个类别的谓词原型c_i与第j个类别的谓词原型c_j的余弦相似度。

引入S的l_2，1范数，并将其最小化来降低每对谓词原型的余弦相似度方式，使它们在语义空间中具有独特性，其计算公式如下：

构建所述第三损失函数的方法具体为：

其中，第一距离矩阵

其中，第二距离矩阵

其中，计算加宽距离d^-的表达式具体为：

SC4、根据加宽距离构造第三损失函数；

其中，第三损失函数

的表达式具体为：

式中，γ₂为第二超参数，其用于调整距离边缘。

所述S3中，用公共嵌入空间中对应的谓词(即F(s，o)≈p)匹配主客体((s，o))进行关系识别，在原型的嵌入网络的训练阶段，基于原型的嵌入网络的损失函数

的表达式具体为：

得到主客体-谓词的匹配结果的方法具体为：

在原型的嵌入网络的测试阶段，选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果，其中，得到所述余弦相似度最高的类别的谓词原型res_r的表达式具体为：

如图2所示，本发明将图片输入检测器，得到若干具有特征的图像实例，例如男人、球拍、衬衫和手对应特征的图像实例，进而构建主体、客体和谓词，根据主客体与对应的谓词在公共语义空间中进行匹配的表达式

得到主客体的关系表示和谓词原型，其中谓词原型包括“穿”、“握”和“拥有”，根据谓词原型进行内部聚拢和类间推远，并利用主客体的关系表示进行匹配，最后生成场景图。

实施例2：

本实施例针对实施例1的具体仿真实验：

在本实施例中，实验条件为：系统：Ubuntu 20.04，软件：Python 3.7，处理器：Intel(R)Xeon(R)CPU E5-2678v3@2.50GHz×2，内存：256GB。

测试说明：依次使用每种算法对数据集中的训练集进行训练，训练完毕后，分别用每种算法对该数据集测试集上的图片进行预测，得到所预测的场景图。

图像场景图生成任务的具体测试包括三个子任务：

1)谓词分类：给定一张图片中所有实例的边界框以及实例标签，然后对实例之间的关系进行检测分类；

2)场景图分类：给定一张图片中所有实例的边界框，需要对实例进行分类以及检测实例之间的关系；

3)场景图检测：给定一张图片，从零预测一个场景图。

所使用的评估指标包括：Recall@K(R@K)和mean Recall@K(mR@K)。其中Recall@K是指在前K个预测的关系谓词中，正确的谓词所占的比例；meanRecall@K是指每一种关系谓词的Recall@K的均值。所使用的两种评价指标都是值越大代表性能越好，测试结果如表1和表2所示：

通过表1和表2的实验结果对比，可以得知在使用相同的通用场景图生成方法下，本方案的性能更优，这些结果验证了我们所提出的方法的有效性。

本发明的有益效果为：本发明提供了一种基于原型的嵌入网络的场景图生成方法，通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型，并在主客体和谓词之间建立匹配以进行关系识别，解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。

本发明通过原型引导学习来帮助基于原型的嵌入网络有效地学习主客体-谓词的匹配，并设计原型正则化方法来缓解由于谓词语义重叠引起的主客体-谓词模糊匹配，从而解决谓词语义重叠导致的模糊匹配问题，实现主客体-谓词的精确匹配。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。