CN112861848B

CN112861848B - 基于动作条件已知的视觉关系检测方法及系统

Info

Publication number: CN112861848B
Application number: CN202011508606.8A
Authority: CN
Inventors: 徐良; 李永露; 陈鸣阳; 郝琰; 卢策吾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-04-08
Anticipated expiration: 2040-12-18
Also published as: CN112861848A

Abstract

一种基于动作条件已知的视觉关系检测方法及系统，通过多模态特征提取器从现有数据集中提取出多模态特征，在基础视觉关系检测网络中添加嵌入损失函数对多模态特征进行规则化处理，再通过背景物体建模引入有效背景物体并减少噪声，即将检测物体两两组合并引入背景物体作为辅助并生成训练集，对神经网络进行训练，最后将训练后的神经网络从待测图像中提取出物体对的交互预测，即采用同样的数据处理以及前向传播得到图片中的物体检测结果以及物体两两之间的关系分类结果。本发明基于机器学习、深度学习，能够促进图像场景理解、人与物体交互理解，并应用到图像索引、图像生成、图像描述以及视觉问答系统等应用中。

Description

基于动作条件已知的视觉关系检测方法及系统

技术领域

本发明涉及的是一种计算机视觉和模式识别领域的技术，具体是一种基于动作条件已知的视觉关系检测方法及系统。

背景技术

视觉关系检测的目标是推断出图像或视频中检测物体两两之间的相对关系，其中：视觉关系包括空间位置、对比、交互等类型。视觉关系检测是计算机视觉的重要分支，能够促进图像场景理解、人与物体交互理解，并能够广泛地应用到图像检索、图像生成、图像描述、视觉问答等任务中。

目前关于视觉关系检测的研究大多使用物体检测网络得到的物体视觉特征进行关系分类，而忽视视觉关系的类内多样性，从而难以学到最优的、鲁棒的视觉关系检测表征；同时，目前的研究通过信息传递和注意力机制引入背景物体信息来提升关系检测性能会引入噪声。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于动作条件已知的视觉关系检测方法及系统，基于机器学习、深度学习，能够促进图像场景理解、人与物体交互理解，并应用到图像索引、图像生成、图像描述以及视觉问答系统等应用中。

本发明是通过以下技术方案实现的：

本发明涉及一种基于动作条件已知的视觉关系检测方法，通过关系检测网络中的多模态特征提取器从现有数据集中提取出多模态特征，在关系检测网络中的基础视觉关系检测网络中添加嵌入损失函数对多模态特征进行规则化处理，再通过关系检测网络中的背景物体建模引入有效背景物体并减少噪声，即将检测物体两两组合并引入背景物体作为辅助并生成训练集，对关系检测网络进行训练，最后将训练后的关系检测网络从待测图像中提取出物体对的交互预测，即采用同样的数据处理以及前向传播得到图片中的物体检测结果以及物体两两之间的关系分类结果。

所述的多模态特征包括：视觉特征、语言特征和空间特征，其中：视觉特征通过经过 COCO预训练的卷积神经网络进行物体检测，得到物体检测结果(边界框、物体检测类别、物体检测分数)经过池化操作提取的每个物体的视觉特征；对图像数据集中的动作名称及物体名称，经过固定参数的BERT语言模型提取动作及物体的语言特征；空间特征为物体边界框坐标之间的相对位置关系。

所述的多模态特征提取器结合视觉、语言以及空间特征，视觉特征通过固定参数的物体检测网络提取出检测物体区域特征，语言特征为检测物体类别的语言的向量表征，空间特征为检测物体的坐标信息。

所述的规则化处理是指：通过嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征。

所述的背景物体建模是指：对不同的动作类别引入环境中不同的背景物体信息，从而最大化引入有效物体并减少噪声。

所述的神经网络进行训练是指：通过嵌入损失函数和关系分类损失加权求和得到总损失，然后用梯度优化方法反向传播，迭代更新网络参数。

技术效果

本发明在视觉关系检测任务中，通过引入嵌入损失函数规则化特征表征，使得得到的特征能够更好地进行关系分类，同时通过更加细粒度的方式建模背景物体信息，从而最大化引入有效物体并减少引入噪声。

与现有技术相比，本发明以视觉关系为条件规则化多模态特征，从而优化其表征，同时对不同的动作类别引入环境中不同的背景物体信息，最大化引入有效物体减少噪声，检测精度非常理想，且是端到端模型，能够并行计算，同时同时泛化性能好，能够应用到包括视觉关系检测、人与物体交互检测等多个任务中。

附图说明

图1为本发明流程图；

图2为本发明关系检测网络示意图；

图3为本发明效果示意图。

具体实施方式

如图2所示，为实施例涉及的一种基于动作条件已知的关系检测网络，包括：多模态特征提取模块、基础视觉关系检测模块、背景物体模块以及动作分类模块，其中：多模态特征提取模块与基础视觉关系检测模块相连并传输物体检测结果信息，基础视觉关系检测模块与背景物体模块相连并传输规则化后的多模态特征信息，背景物体模块与动作分类模块相连并传输背景物体信息，最后多模态特征提取模块、基础视觉关系检测模块、背景物体模块将得到的特征传输给动作分类模块得到关系分类结果。

如图1所示，为本实施例涉及上述系统的视觉关系检测方法，包括以下步骤：

步骤1，从输入图片和数据集动作、物体名称中提取出视觉特征、语言特征和空间特征作为多模态特征；

所述的视觉特征，使用带有物体框和视觉关系标注的图像数据集，用固定参数的经过 COCO数据集预训练的Faster-RCNN网络检测带有物体框和视觉关系标注的图像数据集，即对输入图片进行物体检测并保留检测分数高于0.05的物体，得到物体框之后，通过感兴趣区域池化操作得到每个检测出的物体的视觉特征。

所述的语言特征，使用开源的BERT预训练语言模型分别提取不同数据集中动作名称及物体名称的语言表征，维度为768。

所述的空间特征，将通过Faster-RCNN网络检测出的物体按<主语-宾语>方式配对，再将主语物体与宾语物体的坐标进行归一化，得到两者之间的相对位置关系特征。

所述的主语物体与宾语物体的坐标进行归一化是指：将物体的横纵坐标分别除以图像长和宽归一化到0-1之间；

步骤2，使用嵌入损失函数规则化多模态特征，具体步骤包括：

2.1)将步骤1得到的视觉特征、语言特征和空间特征分别通过一层可学习的线性变换将维度映射到512维，然后将映射后的视觉特征、语言特征合并后再通过一层可训练的线性变换映射到512维，将空间特征单独通过一层可训练的线性变换到512维；

所述的一层可学习的线性变换是指：一个全连接层。

所述的合并是指：将视觉特征、语言特征在特征维度上进行组合。

2.2)将步骤2.1得到的表征通过两层全连接层得到动作分类结果以及主语-宾语是否交互的二分类结果，同时通过添加嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征。

所述的全连接层的维度分别为512和动作分类个数；

所述的嵌入损失函数，基于对数似然的嵌入损失函数来约束多模态表征，使其在特征空间中靠近其对应的视觉关系的语言特征，并远离其他视觉关系的语言特征，该损失函数

其中：i为pair数量的下标，r为动作数量下标，N为pair总数量，w_r为动作r的语言特征，f_i为第i个pair的多模态表征，

为指示函数，即当第i个pair的动作类别为r时，

否则，

步骤3，使用动作条件已知背景物体建模，具体步骤包括：

3.1)对于步骤1得到的每个物体对，该物体对的背景物体为除该物体对之外的其他检测出的物体，(例如一幅图检测出5个物体，那么对于一个物体对(2个物体)，剩下的3个物体即为背景物体)通过计算物体的视觉特征与语言特征之间的线性变换后的内积，得到物体之间的隐式关系，计算方式为

其中：：Softmax代表softmax操作，

和φ_v/s为一层可学习的全连接层，维度为 512，p和q代表物体下标，

和

分别物体p和物体q的视觉特征和语言特征。最终将得到的S_v(p，q)和S_s(p，q)进行平均，得到物体p和物体q之间的隐式关系；

3.2)通过低秩双线性池化操作和注意力机制操作，将不同视觉关系的语言表征与图卷积中的节点特征结合，得到在不同视觉关系类别条件下的背景物体与主语/宾语物体之间的隐式关系矩阵。

所述的低秩双线性池化操作具体为：a_r，i＝P^T(σ(U^Tz_i⊙V^Te_r))+b，其中：P、U、V均为可学习的线性变换，b为bias项，z_i为图中节点i的表征，e_r为视觉关系r的语言特征，σ为激活函数tanh，⊙为按元素乘操作；

所述的注意力机制操作具体为：a’_r，i＝Softmax(φ_a(a_r，i))，z’_i＝a’_r，iz_i，其中：Softmax 代表softmax操作，φ_a为一层可学习的全连接层，a_r，i为物体i对动作r的识别重要性，由上一步得到，之后将得到的a’_r，i乘以原节点特征z_i，从而得到z’_i；

3.3)利用步骤3.2得到的不同视觉关系类别条件下的隐式关系矩阵，通过图卷积网络进行不同物体之间的信息传递，使得主语/宾语物体能够和背景物体进行信息交互融合；

所述的信息传递是指：通过隐式关系矩阵和图卷积操作，图中的每个节点都和其相邻节点进行信息的交互，从而使得图中每个节点都包含其邻接节点的特征。具体为Z^(l+1)＝σ(A· Z^(l)·W^(l))，其中：l为图卷积操作的层数下标，A为步骤3.1得到的隐式关系矩阵，W为可学习的权重矩阵，通过一层可学习的全连接层实现，σ为激活函数ReLU；

将经过步骤3.3信息传递后的带有背景物体信息的主语/宾语特征通过一层可训练的线性变换到512维，再与步骤2得到的视觉、语言和空间特征进行合并得到多模态特征；

所述的合并是指：将其与视觉特征、语言特征、空间特征在特征维度上进行组合。

步骤4，如图2所示，用开源训练集训练关系检测网络，具体包括：

4.1)将来自开源VRD、VisualGenome、V-COCO数据集的训练图片和对应的物体、视觉关系标注作为训练集，输入关系检测网络，计算综合损失函数，并用梯度反向传播算法对神经网络参数进行迭代优化。

所述的综合损失函数为：分类损失函数、交互二分类损失函数、嵌入损失函数的加权求和，权重均为1。

4.2)用梯度反向传播算法对神经网络参数进行迭代优化，得到训练好的视觉关系检测模型。

本实施例中对VRD数据集学习率设置为3e-4且每4000步减小为原来的0.5倍，对于VisualGenome数据集，学习率设置为3e-4且每35,000步减小为原来的0.7倍；VRD数据集训练迭代10次，Visual Genome数据集训练迭代8次，批大小分别为30和50；V-COCO数据集中训练方法与基础方法(iCAN)保持一致；

如图3所示，为网络输出的视觉关系检测结果，右侧方形框内为物体名称，连接方框的线代表两者之间的视觉关系结果。

与现有技术相比，视觉关系检测在常见的视觉关系检测数据集(VRD，VisualGenome) 上，视觉关系检测准确率提升8.5％和5.7％，同时在人-物体交互数据集(V-COCO)上，交互关系检测准确率提升7.1％。

经过具体实际实验，本实施例中对VRD数据集学习率设置为3e-4且每4000步减小为原来的0.5倍，对于Visual Genome数据集，学习率设置为3e-4且每35,000步减小为原来的 0.7倍；VRD数据集训练迭代10次，Visual Genome数据集训练迭代8次，批大小分别为30和50；V-COCO数据集中训练方法与基础方法(iCAN)保持一致，实验结果如下表所示：

表1

表2

表3

与基础方法使用同样的物体检测框结果，量化结果显示本发明能够取得更好的视觉关系分类结果，视觉关系检测在常见的视觉关系检测数据集(VRD，Visual Genome)上，视觉关系检测准确率提升8.5％和5.7％，同时在人-物体交互数据集(V-COCO)上，交互关系检测准确率提升 7.1％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于动作条件已知的视觉关系检测方法，其特征在于，通过多模态特征提取器从现有数据集中提取出多模态特征，在基础视觉关系检测网络中添加嵌入损失函数对多模态特征进行规则化处理，再通过背景物体建模引入有效背景物体并减少噪声，即将检测物体两两组合并引入背景物体作为辅助并生成训练集，对神经网络进行训练，最后将训练后的神经网络从待测图像中提取出物体对的交互关系预测，即采用同样的数据处理以及前向传播得到图片中的物体检测结果以及物体两两之间的关系分类结果；

所述的多模态特征包括：视觉特征、语言特征和空间特征，其中：视觉特征通过经过COCO预训练的卷积神经网络进行物体检测，得到物体检测结果经过池化操作提取的每个物体的视觉特征；对图像数据集中的动作名称及物体名称，经过固定参数的BERT语言模型提取动作及物体的语言特征；空间特征为物体边界框坐标之间的相对位置关系；

所述的规则化处理是指：通过嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征；

所述的背景物体建模是指：对不同的动作类别引入环境中不同的背景物体信息，从而最大化引入有效物体并减少噪声；

为指示函数，即当第i个pair的动作类别为r时，

否则，

2.根据权利要求1所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的多模态特征提取器结合视觉、语言以及空间特征，视觉特征通过固定参数的物体检测网络提取出检测物体区域特征，语言特征为检测物体类别的语言的向量表征，空间特征为检测物体的坐标信息。

3.根据权利要求1所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的规则化处理，具体包括：

2.1)将多模态特征中的视觉特征、语言特征和空间特征分别通过一层可学习的线性变换将维度映射到512维，然后将映射后的视觉特征、语言特征合并后再通过一层可训练的线性变换映射到512维，将空间特征单独通过一层可训练的线性变换到512维；

2.2)将表征通过两层全连接层得到动作分类结果以及主语-宾语是否交互的二分类结果，同时通过添加嵌入损失函数使得多模态特征靠近其对应的动作类别特征且远离其他动作类别特征。

4.根据权利要求1所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的背景物体建模，具体包括：

3.1)对于步骤1得到的每个物体对，该物体对的背景物体为除该物体对之外的其他检测出的物体，通过计算物体的视觉特征与语言特征之间的线性变换后的内积，得到物体之间的隐式关系，计算方式为

其中：Softmax代表softmax操作，

和

为一层可学习的全连接层，维度为512，p和q代表物体下标，

和

分别物体p和物体q的视觉特征和语言特征，最终将得到的S_v(p，q)和S_s(p，q)进行平均，得到物体p和物体q之间的隐式关系；

3.2)通过低秩双线性池化操作和注意力机制操作，将不同视觉关系的语言表征与图卷积中的节点特征结合，得到在不同视觉关系类别条件下的背景物体与主语/宾语物体之间的隐式关系矩阵；

3.3)利用不同视觉关系类别条件下的隐式关系矩阵，通过图卷积网络进行不同物体之间的信息传递，使得主语/宾语物体能够和背景物体进行信息交互融合，将经过信息传递后的带有背景物体信息的主语/宾语特征通过一层可训练的线性变换到512维，再与视觉、语言和空间特征进行合并得到多模态特征。

5.根据权利要求4所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的低秩双线性池化操作具体为：a_r，i＝P^T(σ(U^Tz_i⊙V^Te_r))+b，其中：P、U、V均为可学习的线性变换，b为bias项，z_i为图中节点i的表征，e_r为视觉关系r的语言特征，σ为激活函数tanh，⊙为按元素乘操作。

6.根据权利要求4所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的注意力机制操作具体为：a’_r，i＝Softmax(φ_a(a_r，i))，z’_i＝a’_r，iz_i，其中：Softmax代表softmax操作，φ_a为一层可学习的全连接层，a_r，i为物体i对动作r的识别重要性，由上一步得到，之后将得到的a’_r，i乘以原节点特征z_i，从而得到z’_i。

7.根据权利要求4所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的信息传递是指：通过隐式关系矩阵和图卷积操作，图中的每个节点都和其相邻节点进行信息的交互，从而使得图中每个节点都包含其邻接节点的特征，即Z^(l+1)＝σ(A·Z^(l)·W^(l))，其中：l为图卷积操作的层数下标，A为隐式关系矩阵，W为可学习的权重矩阵，通过一层可学习的全连接层实现，σ为激活函数ReLU。

8.根据权利要求1所述的基于动作条件已知的视觉关系检测方法，其特征是，所述的神经网络进行训练是指：通过嵌入损失函数和关系分类损失加权求和得到总损失，然后用梯度优化方法反向传播，迭代更新网络参数。

9.一种实现上述任一权利要求所述方法的基于动作条件已知的关系检测网络，其特征在于，包括：多模态特征提取模块、基础视觉关系检测模块、背景物体模块以及动作分类模块，其中：多模态特征提取模块与基础视觉关系检测模块相连并传输物体检测结果信息，基础视觉关系检测模块与背景物体模块相连并传输规则化后的多模态特征信息，背景物体模块与动作分类模块相连并传输背景物体信息，最后多模态特征提取模块、基础视觉关系检测模块、背景物体模块将得到的特征传输给动作分类模块得到关系分类结果。