CN115147931A

CN115147931A - 基于detr的人物成对解码交互的人与物交互检测方法

Info

Publication number: CN115147931A
Application number: CN202210864552.1A
Authority: CN
Inventors: 刘盛; 张峰; 陈俊皓; 郭炳男; 陈瑞祥
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-04

Abstract

本发明公开了一种基于DETR的人物成对解码交互的人与物交互检测方法，将图片通过训练好的DETR模型，获得人物目标框、目标类别和查询向量，从而减少模型训练时间。然后将查询向量和目标类别输入到查询向量分类器，得到人的查询向量、物的查询向量和物的类别；将物的类别输入到语义网络，得到物的语义查询向量，融合物的查询向量和物的语义查询向量，得到融合的物查询向量，将融合的物查询向量和人的查询向量进行合并，得到对象查询向量。最后将对象查询向量输入到成对融合检测网络，实现人物交互检测。本发明提高了人与物交互检测的精度，扩大了网络的感受野，提高了网络的性能。

Description

基于DETR的人物成对解码交互的人与物交互检测方法

技术领域

本申请属于人-物交互检测技术领域，尤其涉及一种基于DETR的人物成对解码交互的人与物交互检测方法。

背景技术

人-物交互检测是目标检测的下游任务，是目前热门的计算机视觉任务。相比于目标检测检测目标框和目标类别，人-物交互检测定位图像中的交互人-物对，并对动作进行分类。

在Transformer模型未被应用在视觉任务前，人-物交互检测算法往往使用卷积网络提取视觉特征，如HO-RCNN，这是典型的基于卷积神经网络的人-物交互检测算法，算法利用R-CNN定位相关区域，骨干网络裁剪特征后再通过多分支融合特征；STIGPN则利用图卷积迭代特征信息。但是这些方法仍存在着局限性，即传统卷积网络无法引入全局信息，同样也会造成特征污染。

近期，基于端到端的检测变换器网络DETR(Detection Transformer)算法开始流行，其使用深度自注意力来代替卷积，能够引入全局信息来完成集合预测。DETR算法是用于处理目标检测问题，因此将DETR引入目标检测下游任务人-物关系检测，乃至视觉的各领域是一个十分自然的想法。QPIC算法就是将DETR引入人-物关系交互检测领域，将其作为一个基础的检测器，并提取相应上下文信息，预测最终的三元组集合。

但是基于DETR直接完成三元组集合预测的相关人-物交互检测算法仍存在着一些问题，其一是训练困难，这是Transformer模型带来的劣势；其二是将单一的查询(Query)作为一个整体预测特征，而忽视了多个查询(Queries)之间的更符合直觉的特征联系，因此需要设计一种特殊的结构来融合相应的特征联系。同时，最后所预测的<human,object,interaction>三元组缺少相应的可靠性判断，需要一个语义模型来进行约束。

发明内容

本申请提出了一种基于DETR的人物成对解码交互的人与物交互检测方法，来减少训练资源，结合语义模态提高人-物交互检测精度。

为了实现上述目的，本申请技术方案如下：

一种基于DETR的人物成对解码交互的人与物交互检测方法，包括：

将原始图像经过骨干网络得到的特征图注入训练好DETR网络，所述DETR网络包括编码器、解码器和MLP层，获得解码器输出的查询向量，以及DETR网络最终输出的目标框及目标类别；

将查询向量和目标类别输入到查询向量分类器，得到人的查询向量、物的查询向量和物的类别；

将物的类别输入到语义网络，得到物的语义查询向量；

融合物的查询向量和物的语义查询向量，得到融合的物查询向量，将融合的物查询向量和人的查询向量进行合并，得到对象查询向量；

将对象查询向量输入到成对融合检测网络，实现人物交互检测。

进一步的，所述语义网络包括空间注意力模块和语义聚合模块，所述语义空间注意力模块输入特征为数据集的动词嵌入向量，输出语义空间注意力特征；

所述语义聚合模块输入特征为所述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别，语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征，与物的类别通过另一个线性层得到的特征相乘，将结果依次通过线性层、归一化层、ReLU激活函数和线性层后加上物的类别，然后输入到Transformer层得到物的语义查询向量。

进一步的，所述融合物的查询向量和物的语义查询向量，得到融合的物查询向量，包括：

将物的查询向量和物的语义查询向量相加后通过ReLU激活函数，减去物的查询向量和物的语义查询向量相减后的平方。

进一步的，所述成对融合检测网络依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层；

所述改进的Transformer编码器，输入特征分别是对象查询向量和成对框位置编码，在改进的Transformer编码器中，将对象查询向量配对后与成对框位置编码结合，通过线性层和sigmoid激活函数，得到第一分支的输出；将对象查询向量复制后与成对框位置编码元素相乘，得到第二分支的输出；将两个分支的输出元素相乘后通过线性层，并与输入的对象查询向量相加，再经过归一化层，前向传播层和归一化层，输出成对查询向量；

在成对融合模块中，成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合操作后，经过线性层后相乘，之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量；

将融合了多种特征的成对查询向量经过Transformer解码器解码后，输出MLP中，得到人-物交互动作的概率分数，从而完成对人-物交互动作的检测。

进一步的，所述基于DETR的人物成对解码交互的人与物交互检测方法，还包括：

计算网络整体损失函数，进行反向传播，更新网络参数；

其中，网络整体损失函数为：

L_total＝L_a+L_SKL

其中，L_total表示整体损失函数，L_a和L_SKL分别表示动词交叉熵损失函数和语义相对熵损失函数；

所述的动词交叉熵损失函数L_a为：

其中，

N_q表示为动词的种类数量，

表示为统计与物体对应的预测动词类别数量，Φ表示总共的真实值的集合，

表示在预测集合中，l_f为焦点损失，l_f(p_t)＝-α_t(1-p_t)^γlog(p_t)，α_t为抑制正负样本参数失衡参数，γ为控制简易/困难样本数量失衡参数，p_t为样本，其中

表示真实动词类别；

所述的语义相对熵损失函数L_SKL为：

其中

是数据集中动词对称条件分布，A是语义空间注意力模块处理过的动词的邻接矩阵，

是KL散度损失函数；

可以通过以下计算获得：

其中N_p是数据集中动词数量，c_ij为：

A可以通过以下计算获得：

其中τ是缩放归一化语义内积softmax分布的温度参数，

是语义空间注意力模块处理过的动词嵌入向量，T是转置符号。

本申请提出的一种基于DETR的人物成对解码交互的人与物交互检测方法，使用训练完成的DETR模型，减轻训练耗时长的问题。为了增强特征在语义模态上的表征，添加语义模态提高人-物交互检测的精度。添加Transformer模块提高了网络提取全局信息的能力，扩大了网络的感受野，提高了网络的性能。最后提出了语义相对熵损失函数，加强了网络对语义进行监督。

附图说明

图1为本申请基于DETR的人物成对解码交互的人与物交互检测方法流程图；

图2为本申请整体网络结构示意图；

图3为本申请DETR网络结构示意图；

图4为本申请实施例多模态融合网络结构示意图；

图5为本申请实施例语义网络结构示意图；

图6为成对融合检测网络结构示意图；

图7为本申请实施例改进的Transformer编码器结构示意图；

图8为本申请实施例成对融合模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

如图1所示，一种基于DETR的人物成对解码交互的人与物交互检测方法，包括：

S1、将原始图像经过骨干网络得到的特征图注入训练好DETR网络，所述DETR网络包括编码器、解码器和MLP层，获得解码器输出的查询向量，以及DETR网络最终输出的目标框及目标类别。

如图2所示，本申请整个网络包括骨干网络、DETR网络、多模态融合网络、语义网络和成对融合检测网络，以下详细阐述原始图像经过上述网络实现人物交互检测的过程。

首先通过骨干网提取原始图像的全局视觉特征，本实施例骨干网可以采用ResNet50。

在提取到原始图像的全局视觉特征后，将其输入到训练好DETR网络。如图3所示，DETR网络包括编码器、解码器和MLP层，输入特征从输入侧到输出侧依次经过N个Transformer编码层、N个Transformer解码层和一个MLP层，在本模型中N为6。

需要注意的是，本申请DETR网络包括两部分，一是解码器最后的输出特征，即查询向量(Queries)；二是DETR网络最后MLP层的输出，即目标框和目标类别。

S2、将查询向量和目标类别输入到查询向量分类器，得到人的查询向量、物的查询向量和物的类别。

如图4所示，多模态融合网络包括查询向量(Queries)分类器和模态融合模块。

DETR网络解码器输出的查询向量，以及DETR网络MLP层输出的目标类别，查询向量和目标类别一一对应输入到查询向量分类器，得到人的查询向量(Human Queries)、物的查询向量(Object Queries)和物的类别(Object Classes)。物的类别信息由DETR网络得到的对象类别经过筛选后将类别为人的对象去除后得到。

具体的，查询向量分类器首先根据数据集对象标签(共80类)中的对应索引将MLP层输出的目标类别中对应人的索引(人的索引为1)、对应物的索引和对应背景的索引进行划分，分为人、物和背景集群，人和物的集群中的元素数量要大于等于K1小于等于K2,(K1,K2为超参，人为设定)若人或物集群中元素数量为K，小于K1，则将背景集群中将对应的目标类别的置信度分数进行从大到小排序，保留前K1-K个目标类别，使得集群元素数量满足条件；若人或物集群中元素数量为K，大于K2，则将集群中对应的目标类别的置信度分数进行从大到小排序，保留前K2个目标类别，使得集群元素数量满足条件；得到人和物的集群后根据集群中的目标类别得到对应的人和物查询向量；最后输出物的集群中的物的类别，对应的物的查询向量和人的集群中的人的类别对应的人的查询向量。

步骤S3、将物的类别输入到语义网络，得到物的语义查询向量。

本实施例语义网络如图5所示，包括语义空间注意力模块和语义聚合模块。

其中，语义空间注意力模块用于学习数据集的动词嵌入向量(embeddings)，学习到数据集中物与动作关系分布。

而语义聚合模块，根据输入的物的类别，结合数据集中物与动作关系分布，得到物的语义查询向量。

具体的，语义空间注意力模块所采用的数据集为V-COCO和HICO-DET，这两个数据集是用于检测人物交互动作的数据集，数据集包括图像和对应的标签，标签包括交互对象的人和物的目标框、对象的类别标签(对象包括人和物)和交互动作类别标签。语义空间注意力模块统计数据集中的对应的物和动作类别得到关系分布用于后续处理。

语义空间注意力模块输入特征为数据集的动词嵌入向量，经过包含注意力层和ReLU激活函数的循环网络将特征累加。注意力层将输入特征分别经过三个线性层的到query，key和value特征，再用query特征和key特征的转置矩阵相乘后除以隐藏层维度的开方得到注意力图特征，然后将注意力图特征经过softmax后与value特征相乘，最后将模块产生的特征和输入特征相加作为模块的输出特征，称为语义空间注意力特征。空间注意力机制是本领域比较成熟的技术，这里不再赘述。

语义聚合模块输入特征为上述语义空间注意力模块输出的语义空间注意力特征和查询向量分类器输出的物的类别，依次经过交叉注意力层和Transformer层。在交叉注意力层中，语义空间注意力特征通过线性层、ReLU激活函数、线性层、sigmoid激活函数得到注意力特征，与物的类别通过另一个线性层得到的特征相乘，将结果依次通过线性层、归一化层(layerNorm)、ReLU激活函数和线性层后加上物的类别，然后输入到Transformer层得到物的语义查询向量。

Transformer层将输入特征分别经过三个线性层得到query，key和value特征，再用query特征和key特征的转置矩阵相乘后得到注意力图特征，之后将注意力图特征经过softmax后与value特征相乘，最后通过线性层、layerNorm层、ReLU激活函数和线性层后加上输入特征作为语义聚合模块的输出特征。Transformer是本领域比较成熟的技术，这里不再赘述。

本实施例语义网络根据多模态融合网络中的查询向量分类器筛选物的类别信息作为输入来得到对应的语义查询。

步骤S4、融合物的查询向量和物的语义查询向量，得到融合的物查询向量，将融合的物查询向量和人的查询向量进行合并，得到对象查询向量。

多模态融合网络将语义网络返回的物的语义查询向量，与查询向量分类器输出的物的查询向量进行融合，所述融合在模态融合模块中进行，得到融合的物查询向量。模态融合模块中，输入两个特征相加后通过ReLU激活函数，然后减去两个特征相减后的平方。

然后将融合的物查询向量和人的查询向量进行合并，得到对象查询向量，即将M个人的查询向量和N个模态融合的物查询向量进行连接(Concatenate)处理,得到M+N个查询向量。

步骤S5、将对象查询向量输入到成对融合检测网络，实现人物交互检测。

如图6所示，所述成对融合检测网络包括多个阶段，依次包括改进的Transformer编码器、成对融合模块、Transformer解码器和MLP层。

其中，改进的Transformer编码器，输入特征分别是对象查询向量和成对框位置编码，其中成对框位置编码是由对应的一对人和物的目标框的坐标长宽和交并比(IoU)组成的向量作为输入，通过线性层和ReLU激活函数得到，关于成对框位置编码是本领域比较成熟的技术，这里不再赘述。

如图7所示，在改进的Transformer编码器中，将对象查询向量配对后与成对框位置编码结合，通过线性层和sigmoid激活函数，得到第一分支的输出；将对象查询向量复制后与成对框位置编码元素相乘，得到第二分支的输出；将两个分支的输出元素相乘后通过线性层，并与输入的对象查询向量相加，再经过归一化层(layerNorm层)，前向传播层(FFN)和归一化层，输出成对查询向量。

其中配对操作将人和物的查询向量进行了两两配对，使得查询向量维度从256变为512，而复制操作则将人和物的查询向量分别进行复制，使得查询向量维度也从256变为512，由此二者在保留单一查询向量特征的同时，编码了成对特征信息。

如图8所示，在成对融合模块中，成对查询向量分别与成对框位置编码和经过自适应平均池化的全局视觉特征进行结合(concatenate)操作后，经过线性层后相乘，之后依次经过ReLU激活函数、线性层和ReLU激活函数得到最后的融合了多种特征的成对查询向量。

最后，将融合了多种特征的成对查询向量经过Transformer解码器解码后，输出MLP中，得到人-物交互动作的概率分数，从而完成对人-物交互动作的检测。

在一个具体的实施例中，本申请在训练网络，还计算网络整体损失函数，进行反向传播，更新网络参数。其中，网络整体损失函数由动词交叉熵损失函数L_a和语义相对熵损失函数L_SKL线性融合，其中：

所述的动词交叉熵损失函数L_a为：

其中，

N_q表示为动词的种类数量，

表示为统计与物体对应的预测动词类别数量，Φ表示总共的ground-truth(真实值)的集合，

表示在预测集合中。l_f为焦点损失(Focal loss)，焦点损失具体表现为l_f(p_t)＝-α_t(1-p_t)^γlog(p_t)，α_t为抑制正负样本参数失衡参数，γ为控制简易/困难样本数量失衡参数，p_t为样本。因此在

动词损失中，使用l_f来计算真实动词类别与预测动词类别的损失，其中

表示真实动词类别。

所述的语义相对熵损失函数L_SKL为：

其中

是数据集中动词对称条件分布，A是语义空间注意力模块处理过的动词embeddings的邻接矩阵，

是KL散度损失函数。

可以通过以下计算获得

其中N_p是数据集中动词数量，c_ij为

A可以通过以下计算获得：

其中τ是缩放归一化语义内积softmax分布的温度参数(temperature)，

是语义空间注意力模块处理过的某个动词embedding，T是转置符号。

所述网络整体损失函数为：

L_total＝L_a+L_SKL

其中，L_total表示整体损失函数，L_a和L_SKL分别表示动词交叉熵损失函数和语义相对熵损失函数。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。