CN116758298A

CN116758298A - 一种基于多尺度可变形Transformer网络的人与物交互检测方法

Info

Publication number: CN116758298A
Application number: CN202211447645.0A
Authority: CN
Inventors: 刘盛; 郭炳男; 张峰; 陈俊皓; 陈瑞祥
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-09-15

Abstract

本发明公开了一种基于多尺度可变形Transformer网络的人与物交互检测方法，将待检测图像输入到多尺度骨干网络提取特征，并输入至可变形Transformer编码器中完成多尺度特征的编码，得到视觉上下文特征；然后将视觉上下文特征输入到级联架构的可变形Transformer解码器，得到人与物解码特征和动作解码特征；将人与物解码特征通过一个嵌入层以及FFN网络，检测得到人与物体的边界框和物体类别，将动作解码特征通过FFN网络，检测得到动作类别；最后将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测，在待检测图像中绘制显示得到最终的结果。本发明引入级联可变形解码器结构，以一致性地获得复杂环境中的交互预测。

Description

一种基于多尺度可变形Transformer网络的人与物交互检测方法

技术领域

本申请属于人与物交互检测技术领域，尤其涉及一种基于多尺度可变形Transformer网络的人与物交互检测方法。

背景技术

人与物体交互(HOI)检测是智能机器人领域的一个重要组成部分，它关注人与物体之间的交互。与目标检测相比，它更加关注动作和场景理解，这对于机器理解人类活动具有重要意义。具体来说，HOI检测从输入图像中预测一组三元组，三元组包括相应交互的人和物体的位置，以及交互类别。在复杂、多变的环境中智能、高效地定位人与物对并预测相应的交互，这是一个十分具有挑战性的任务。

定位和交互识别是HOI(人与物交互)检测中的两个主要任务，需要较高的图像和场景理解水平。目前存在HOI检测方法通常依赖于单一架构来解决这两个任务。然而，这样的策略往往会忽略两个不同任务之间的内在联系。同时，以往的方法受限于尺度信息的缺失，效果不理想。

发明内容

本申请的目的是提供一种基于多尺度可变形Transformer网络的人与物交互检测方法，以克服背景计数中所指出的技术问题。

一种基于多尺度可变形Transformer网络的人与物交互检测方法，包括：

将待检测图像输入到多尺度骨干网络提取特征，将提取的各个尺度的特征展平为一维向量，并输入至可变形Transformer编码器中完成多尺度特征的编码，得到视觉上下文特征；

将视觉上下文特征输入到级联架构的可变形Transformer解码器，得到人与物解码特征和动作解码特征；

将人与物解码特征通过一个嵌入层以及FFN网络，检测得到人与物体的边界框和物体类别，将动作解码特征通过FFN网络，检测得到动作类别；

将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测，在待检测图像中绘制显示得到最终的结果。

进一步的，所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。

进一步的，所述人与物解码器和动作解码器均包括若干层可变形解码层，每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。

进一步的，所述人与物解码器，执行如下操作：

初始化查询向量，将所述查询向量分为长度相等的人物交互查询向量和位置查询向量，并将位置查询向量通用一个线性层得到锚框变量；

将人物交互查询向量和位置查询向量重新拼接获得人与物查询向量，分别作为第一层可变形解码层中可变形多头自注意力模块的Q、V和K向量，经过可变形多头自注意力模块后输出多头注意力向量；

将多头注意力向量与锚框变量进行相加操作后，与锚框变量和视觉上下文特征一起输入多尺度可变形自注意力模块得到多尺度可变形向量；

将多尺度可变形向量输入到下一层可变形解码层，作为下一层可变形解码层中可变形多头自注意力模块的Q、V和K向量，进行与第一层可变形解码层同样的操作，最终将最后一层可变形解码层的输出作为人与物解码特征。

进一步的，所述动作解码器，执行如下操作：

将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量，输入到动作解码器对应的可变形解码层；

在动作解码器的每一层可变形解码层中，将动作查询向量作为可变形多头自注意力模块的Q、V和K向量，经过可变形多头自注意力模块后输出多头注意力向量；

在动作解码器的每一层可变形解码层中，将多头注意力向量、视觉上下文特征以及上一层可变形解码层的输出，输入到多尺度可变形自注意力模块得到多尺度可变形向量；

将动作解码器最后一层可变形解码层的输出作为动作解码特征。

本申请提出的一种基于多尺度可变形Transformer网络的人与物交互检测方法，使用多尺度的骨干网络提取图像特征，并结合可变形Transformer编码器，以提取上下文多尺度特征，从而在空间尺度上引入不同对象的位置和大小变化，以获得更准确和更健壮的视觉特征表示。此外，该方法引入级联可变形解码器结构，以一致性地获得复杂环境中的交互预测。

附图说明

图1为本申请人与物交互检测方法流程图；

图2为本申请多尺度可变形Transformer网络示意图；

图3为本申请可变形Transformer解码器示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，本申请提供的一种基于多尺度可变形Transformer网络的人与物交互检测方法，包括：

步骤S1、将待检测图像输入到多尺度骨干网络提取特征，将提取的各个尺度的特征展平为一维向量，并输入至可变形Transformer编码器中完成多尺度特征的编码，得到视觉上下文特征。

本申请采用Swin Ttransformer的多尺度骨干网络来提取初步的分层图像视觉特征。给定一张图像输入至多尺度骨干网络后，得到这4个尺度的特征图，其中C_s是通过多层骨干网络计算后，得到的转换维度，C_l＝256，并将其拼接输入可变形(Deformable)Transformer编码器，生成视觉上下文特征V_m。

本申请级联解码的网络结构如图2所示，在经过骨干网络提取多尺度信息，并通过视觉编码器获得视觉上下文特征之后，将视觉上下文特征以共享的方式输入至人与物解码器以及动作解码器中。在图2中，将可变形(Deformable)Transformer编码器的整个编码过程表示为对视觉信息的编码，将这一块的整体架构称为视觉编码器(Visual Encoder)。可变形Transformer编码器采用位置编码将多尺度特征图以及位置编码输入可变形编码器来生成视觉上下文特征/>其中C_d是C_s通过1×1的卷积操作变换得到，N_m则表示单通道特征图的像素总和，视觉上下文特征输入到后续的可变形解码器来解码HOI特征。

步骤S2、将视觉上下文特征输入到级联架构的可变形Transformer解码器，得到人与物解码特征和动作解码特征。

本实施例级联架构的可变形Transformer解码器(Deformable TransformerDecoder)包括级联的人与物解码器和动作解码器。

步骤S1通过一个骨干网络以及可变形的Transformer编码器获得视觉上下文特征V_m后，本步骤将V_m分别输入到人与物解码器和动作解码器。

如图2所示，人与物解码器和动作解码器，均包含若干层可变形解码层(Deformable Transformer Decoder Layer)，每一个可变形解码层包括DeformableMulti-Head attention(可变形多头自注意力模块)与Multi-Scale DeformableAttention(多尺度可变形自注意力模块)两个自注意力模块。

在人与物解码器中，首先是初始化一个长度为N(本实例中设置为300)的查询向量，为了在训练过程中加强对视觉信息融合，本申请将查询向量等分为人与物交互查询向量与位置查询向量，并通过位置查询向量经过线形层生成可学习的锚框变量，将其与两种查询向量一起输入可变形解码层，具体的解码细节如图3所示。在图3中，两种查询向量拼接后作为多头自注意力操作的参数输入，并输入至多尺度可变形自注意力模块，与可学习的锚框变量和视觉上下文特征运算，得到最后的人与物解码特征F_ho。如图3所示，本实施例人与物解码器，执行如下操作：

步骤S2.1、初始化查询向量，将所述查询向量分为长度相等的人物交互查询向量和位置查询向量，并将位置查询向量通用一个线性层得到锚框变量。

本实施例可变形Transformer解码器，首先初始化一个查询向量，该查询向量的长度为N，在本申请中将该长度设置为300，并将其分为长度相等的两部分，即人物交互查询向量(human object interaction) 与位置查询向量/>并将位置查询向量通过线性层(Linear)生成可学习的锚框变量/>可变形的锚框变量具体表示为(x,y)坐标。

步骤S2.2、将人物交互查询向量和位置查询向量重新拼接获得人与物查询向量，分别作为第一层可变形解码层中可变形多头自注意力模块的Q、V和K向量，经过可变形多头自注意力模块后输出多头注意力向量。

人与物解码器的架构如图3所示，在人与物解码器中包含l层可变形解码层，在获得了可学习的锚框变量后，通过将人物交互查询向量Q_hoi与位置查询向量Q_pos重新拼接获得人与物查询向量，具体表示为：

Q_ho＝[Q_hoi,Q_pos]；

其中，

接下来，Q_ho被送入一个多尺度可变形头自注意力模块，然后在查询向量和视觉上下文特征V_m之间进行多尺度可变形注意力操作。

具体的，将人物交互查询向量Q_hoi与位置查询向量Q_pos重新拼接，分别作为可变形多头自注意力模块的Q、V和K向量，经过可变形多头自注意力模块后输出多头注意力向量M_ha，表示为：

M_ha＝MultiHeadAttn(Q,V,K)。

步骤S2.3、将多头注意力向量与锚框变量进行相加操作后，与锚框变量和视觉上下文特征一起输入多尺度可变形自注意力模块得到多尺度可变形向量。

本步骤将多头注意力向量M_ha与锚框变量进行相加操作后，与锚框变量、视觉上下文特征一起输入到多尺度可变形自注意力模块得到多尺度可变形向量M_sda，获得多尺度可变形向量的过程可具体可表示为：

其中，Q_da＝M_ha+a,ref＝a。

步骤S2.4、将多尺度可变形向量输入到下一层可变形解码层，作为下一层可变形解码层中可变形多头自注意力模块的Q、V和K向量，进行与第一层可变形解码层同样的操作，最终将最后一层可变形解码层的输出作为人与物解码特征。

在每一个可变形解码层(Deformable Decoder Layer)中，会输出解码的人与物查询向量，表示为i表示为当前层数，/>

对于第i(i>1)层可变形解码层中，多头注意力向量M_ha可表示为

M_ha＝MultiHeadAttn(Q,V,K)

其中

对于第i(i>1)层可变形解码层中，多尺度可变形向量M_sda即可表示为：

其中，Q_da＝M_ha+a,ref＝a。

本申请将最后一层更新输出的表示为解码的人与物解码特征F_ho，解码得到的人与物解码特征表示为：/>bs为模型设置的batch size，在本实例中设置为4。与直接从视觉特征序列中提取人类交互特征不同，本实施例使用一个单独的可变形解码器来获得带有位置信息的显著的人与物特征。

为了更好地结合人与物特征来预测交互信息，本申请中专门构建了一个可变形的动作解码器来单独构建动作特征。动作解码器基于视觉上下文特征V_m和更新后的人与物查询向量Q_ho嵌入得到的动作查询Q_a来完成解码运算。

如图2，本申请提出的动作解码器将更新后的人与物查询向量Q_ho输入至动作嵌入函数获得动作查询Q_a。接着在使用动作解码器来获取动作解码特征F_act。本实施例动作解码器，执行如下操作：

步骤S3.1、将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量，输入到动作解码器对应的可变形解码层。

本实施例，将人与物解码器每一可变形解码层的输出通过动作嵌入函数得到动作查询向量，具体表示为：

其中，Embedding_(a)是定义的动作嵌入函数，其主要由多个嵌入层运算得到。

步骤S3.2、在动作解码器的每一层可变形解码层中，将动作查询向量作为可变形多头自注意力模块的Q、V和K向量，经过可变形多头自注意力模块后输出多头注意力向量。

在动作解码器的可变形解码层中，多头注意力向量M_ha可表示为：

M_ha＝MultiHeadAttn(Q，V，K)

其中i表示当前的层数。

步骤S3.3、在动作解码器的每一层可变形解码层中，将多头注意力向量、视觉上下文特征以及上一层可变形解码层的输出，输入到多尺度可变形自注意力模块得到多尺度可变形向量。

本实施例中，多尺度可变形向量M_sda即可表示为：

其中，(i＝1时，/>)。

步骤S3.3、将动作解码器最后一层可变形解码层的输出作为动作解码特征。

本实施例将最后一层更新输出的人与物查询向量表示为解码的动作解码特征F_act，其中/>通过这种方式，交互一致性得以进一步保持。

步骤S3、将人与物解码特征通过一个嵌入层以及FFN网络，检测得到人与物体的边界框和物体类别，将动作解码特征通过FFN网络，检测得到动作类别。

本实施例在得到解码后的人与物解码特征F_ho和动作解码特征F_act后，人与物解码特征通过嵌入层后被嵌入为嵌入过程表示为：

其中Embedding_(ho)是定义的人与物嵌入函数，其主要由多个嵌入层运算得到。

和F_act分别在交互头网络中使用FFN(前馈网络)来预测{h_box，o_bbox，o_cls，a_cls}，具体如下所示：

a_cls＝FFN_act(F_act)，

其中，分别表示物体类别和动作类别，C_o，C_a分别表示物体和动作的类别数。/>分别表示人与物体的边界框，由中心点与归一化参考点预测得到。

步骤S4、将检测得到的人与物体的边界框、物体类别和动作类别通过非极大值抑制滤除重复的预测，在待检测图像中绘制显示得到最终的结果。

如前所述，一个HOI预测结果由以下四个部分表示：人的边界框、物体边界框、物体类别和动作类别。

在步骤S3中，人与物解码器分支预测人、物体的边界框对和对应的物体类别，然后在动作解码器分支中单独预测动作类别，接着交互头网络针对不同的特征信息使用FFN网络来预测结果。在形式上，第i个查询向量对应的预测结果表示如下：

该预测结果是通过一个非极大值(NMS)抑制处理后的表示形式，其中在通过使用NMS算法处理重复框后，将前K个置信度得分最高的结果作为最终预测。

在NMS算法中，主要是计算不同HOI实例之间的IoU值，其可以表示为：

其中，i和j表示不同的人或者物的索引，计算出IoU值后，使用阈值δ剔除得分较低的HOI实例并返回最后的结果，获取了最后的预测结果后，就可以在原图像中绘制显示。

本申请使用基于查询向量的方法的训练方法，在训练阶段使用匈牙利匹配算法匹配每个真实值与预测值。网络的整体损失函数由三个部分组成，第一部分为边界框损失函数，第二部分/>为交叉重叠合并损失，第三部分/>为分类损失：

其中，λ₁，λ₂，λ₃是用于调整每个损失的权重的参数。

其中，在损失中，x∈(h，o)表示该损失函数统计human(人)与object(物体)的边界框损失，y∈(h，o表示统计人与物体的交叉重叠合并损失，而z∈(o，a)则表示统计object(物体)与action(动作)的分类损失。

需要说明的是，本申请人与物解码器，在训练时，初始化查询向量，可以通过随机生成。而在实际的应用中，则可以采用训练好的网络参数来初始化查询向量。关于初始化查询向量，是本领域比较成熟的计数，这里不再赘述。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述基于多尺度可变形Transformer网络的人与物交互检测方法，包括：

2.根据权利要求1所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述级联架构的可变形Transformer解码器包括级联的人与物解码器和动作解码器。

3.根据权利要求2所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述人与物解码器和动作解码器均包括若干层可变形解码层，每一个可变形解码层包括可变形多头自注意力模块和多尺度可变形自注意力模块。

4.根据权利要求3所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述人与物解码器，执行如下操作：

5.根据权利要求3所述的基于多尺度可变形Transformer网络的人与物交互检测方法，其特征在于，所述动作解码器，执行如下操作：