CN116311493A

CN116311493A - 一种基于编码解码架构的两阶段人-物交互检测方法

Info

Publication number: CN116311493A
Application number: CN202211623429.7A
Authority: CN
Inventors: 张强; 王昊中; 候亚庆
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-06-23

Abstract

本发明属于计算机视觉技术领域，具体涉及一种基于编码解码架构的两阶段人‑物交互检测方法。本发明实现了共享了骨干网络下全局上下文级记忆编码的提取与实例级记忆编码的高效融合，摒弃了传统的定长查询序列配合匈牙利匹配的训练模式，采用变长查询序列进行一对一训练预测；充分挖掘DETR的多层解码器预测结果以提升目标检测表现，并设计了一个匹配对级的注意力机制模块，能够自适应的学习人和物体之间的隐藏关系；提出的方法在V‑COCO和HICO‑DET两个数据集上进行了测试，其结果超越了现有的最好水平。

Description

一种基于编码解码架构的两阶段人-物交互检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于编码解码架构的两阶段人-物交互检测方法。

背景技术

近年来，人工智能的发展势头强盛，科研工作者以及产业投资人不仅将眼光局限于传统的通过观测外界自然环境来识别物体的视觉感知任务，如目标检测，语义分割等，而逐渐对能够思考获得物体之间的上下文关系信息，解读出图像或者场景的潜在信息的图像语义理解任务感兴趣。这其中就包括人-物交互检测任务。人-物交互检测任务旨在能正确识别和定位人和物体的实例基础上，发掘人-物对之间的交互关系，将相对复杂的人类活动简化成对<人，物体，动作>三元组的预测。作为图像语义理解的一项基本任务，对进一步推进人工智能研究从观测感知层次到思考理解层次起到重大作用，同时也促进众多计算机视觉领域方向的发展，包括动作理解，视觉问题回答等。接下来详细介绍这一领域中相关的背景技术。

(1)人体交互检测数据集介绍

任务交互检测任务中的公开数据集的数量较多，常规使用基于单张RGB图像的V-COCO以及HICO-DET数据集。V-COCO是常用人-物交互检测的评估数据集，共计2533张训练图像，2867张验证图像，4946张测试图像。对象类取自MS-COCO数据集已有的图像；使用简化的词汇，在不同的对象类中指定了26种常见的动作。mAP计算动作的平均AP。在场景一下要求图片中无物体的交互要准确预测其物体不存在，场景二只需保证其交互动作准确。而HICO-DET数据集同样使用MS-COCO数据集中的80个对象类别和常用动词来创建每个对象的交互类别，共计37633张训练图像、9546张测试图像，共127个动作，600个人-物交互三元组。同样存在无标记图片；mAP计算600个三元组的平均AP；完全模式所有图片上的预测都被考虑在内，而已知物体模式则只统计存在标签的图片中的预测准确的物体对应三元组的mAP。

(2)基于Transformer的人-物交互检测方法

近几年，由于深度学习注意力技术在计算机视觉领域中的广泛应用，特别是基于Transformer技术的迅速发展，人-物交互检测方法取得了长足的进步。DETR的出现启发了许多科研人员，HOI-Trans和QPIC的研究者发现在DETR原有两个预测头的基础上增添交互动作分类头和人-物定位框头，并依靠匈牙利匹配算法能够适应本领域的要求。

但单阶段方法面临多任务学习难题，如何平衡目标检测任务和动作识别任务是一个挑战。AS-NET提出实例感知注意力模块能够将实例分支和交互分支的抽象特征进行融合，并通过预测关键点偏移进行匹配。HOIR将解码器解耦并平行训练，通过HO指针匹配，而CDN将原本的解码器解耦并级联，实例解码器学习物体和人的信息，通过查询嵌入方式传递给交互动作分类解码器；DT则更进一步，将编码器和解码器分别解耦成三份，通过基础解码器生成统一特征以及注意力融合模块辅助实例和交互解码器推理的方式促进结果提升；CPC则通过改进了训练策略，利用增强的解码路径来提高Transformer的HOI检测，即在预测HOI的同时通过人-物特征来预测交互，人-交互特征来预测物，物-交互特征来预测人三个任务进行增强学习。

随着Transformer应用的深入，一些科研人员尝试在原有视觉特征基础上融入文本特征，提升表现。OCN提出了动词语义模块，能够将预先提取的动词特征进行语义增强，通过多模态校准与视觉特征融合进行推理；CATN则通过探究发现，利用外部目标检测器提供的物体类别先验的文本嵌入信息作为物体查询序列的初始化有助于结果的提升；GEN-VLKT则利用大规模预训练多模态模型CLIP，提取标签的文本嵌入来初始化分类器，并采用模仿损失以最小化交互解码器和CLIP之间的视觉特征距离。

UPT方案则第一个将Transformer引进至两阶段人-物目标检测，提出了单数-成对转化器，能将一阶段和人和物体特征和学习到的位置编码融合，通过合作和竞争编码器得到成对的预测结果。

(3)人-物交互检测目前困境

首先，训练一阶段的HOI检测模型本质是一个多任务优化问题，会因为每个子任务优化方向不一致导致最终结果收敛到次优解。对于HOI检测，其至少也需要优化四个子任务，人的边界框，物体的边界框，物体的类别以及动作交互类别，收敛的难度要大于目标检测。因此，现阶段的一阶段方案普遍依赖预训练的目标检测模型权重作为初始权重且收敛速度较慢，限制了方法的迁移，改进和推广。

其次，现有的两阶段方法基本缺乏抽取全局上下文特征来辅助推理，导致推理有些武断。两阶段方法固定了预训练目标检测器网络的权重并使用其提供的特征和预测结果，将问题转化为如何从已有的特征中挖掘人-物对的交互信息，避免了多目标优化带来的困扰。但存在假设前提，目标检测器提供的外观定位特征的确能够区分不同人-物交互对动作的异同，而且外部环境特征对动作的识别影响较小以致可以舍弃。然而，交互动作可以分为直接接触动作和间接接触动作，有些直接动作可以由周围环境推理得出，而间接接触动作通常能用于推理的动作并不在人和物的边界框内，需要额外推理特征。现有许多方法引入联合区域，文本特征以及骨骼点来增强动作识别结果，却忽视了直接从图像本身提取特征带来的益处。在第一阶段提取特征的基础上如何对特征进行处理并设计结构来进一步提取图片的全局上下文特征也是本发明探讨的主题。

发明内容

本发明主要解决现有技术下对两阶段人-物交互检测方法的拓展不够全面，缺乏从全局上下文来辅助推理的手段以及缺乏一个从人-物匹配对级别进行注意力特征融合的机制，提出了一种基于编码解码架构的两阶段人-物交互检测方法，其目的是提升在公开数据集的结果。

本发明的技术方案：

一种基于编码解码架构的两阶段人-物交互检测方法，包括以下步骤：

步骤100，分别准备V-COCO和HICO-DET公开的人-物交互检测数据集；

步骤200，对数据集进行预处理。

进一步的，所述步骤200，对数据集进行预处理，包括如下步骤：

步骤201，训练阶段对图像进行随机水平翻转；

步骤202，调整图片大小并随机剪裁，或直接调整图片大小；

步骤203，针对数据集中图片的RGB通道已经给定的均值和方差，进行正则化；

步骤204，推理阶段调整图片大小并进行正则化；

步骤300，构建DETR目标检测器，在步骤100形成的数据集上训练目标检测模型；

具体的，DETR目标检测器包含三个主要部分：(1)Resnet主干网络，用于从图片中提取一个紧凑的特征表示以防止后续注意力操作导致的显存爆炸问题；(2)采用多头自注意力以及前馈网络的多层堆叠的Transformer编码解码器，Transformer编码器将主干网络提取的特征结合二维正弦静态位置编码进行处理成为Transformer编码器记忆编码，Transformer解码器利用交叉注意力机制提取Transformer编码器记忆编码的有用部分输出对象查询特征；(3)查询对象头(前馈网络)接受Transformer解码器输出的对象查询特征并输出预测结果；

其包括如下步骤：

步骤301，读取预训练参数文件，加载在MS-COCO大规模图像目标检测数据集上的预训练的模型权重；

步骤302，从步骤200处理生成的数据集中读取图像和物体标签以及物体的边界框，划分训练集和验证集；

步骤303，将训练数据分批次输入到Resnet骨干网络，获得对应的特征图、掩码矩阵以及位置编码；

步骤304，特征图、掩码矩阵以及位置编码经过Transformer编码器生成对应的编码器记忆编码以供解码器使用；

步骤305，在Transformer解码器中输入步骤303获得的掩码矩阵和位置编码，步骤304获得的Transformer编码器特征以及查询嵌入和查询序列输入，通过交叉注意力机制获得对象查询特征，再经过查询对象头(前馈网络)获得对应的查询预测结果；

步骤306，训练阶段采用匈牙利二部图匹配方式和真实标签一对一匹配；推断阶段采用端到端的没有任何后处理方式获得查询结果；

步骤400，使用步骤100的数据集，根据人-物交互检测任务要求进行数据预处理；

进一步的，所述步骤400，对数据集进行预处理，主要操作同步骤200，但在训练阶段改变图像的亮度、对比度和饱和度；

步骤500，构建基于编码解码架构的两阶段人-物交互检测器。

具体的，一个两阶段人-物交互检测任务，可以视为目标检测任务的下游任务因此在第一阶段(即步骤300)的DETR目标检测器的基础上设置三个下游模块，构建第二阶段的基于编码解码架构的两阶段人-物交互检测器，三个下游模块分别是全局上下文编码器模块、匹配对级别注意力融合模块以及匹配对交互解码器。

全局上下文编码器模块的主要作用是从图像特征中再次提取可用于交互检测的全局上下文记忆编码，并能够与局部实例记忆编码进行融合，获得融合记忆编码；匹配对级别注意力融合模块的主要作用是将不同人和物体的特征进行融合，形成匹配对级别的特征，进行后续推理；而匹配对交互解码器将全局上下文编码器模块的融合记忆编码以及匹配对级别注意力融合模块的匹配对级别的特征通过交叉注意力机制进行融合，通过交互动作检测头(即前馈层)输出预测结果；

步骤600，基于编码解码架构的两阶段人-物交互检测器的结构设计，利用步骤300中DETR目标检测器生成的目标检测结果和特征，进行下游的人-物交互预测训练。包括以下步骤：

步骤601，第一阶段的DETR目标检测器多层解码器得到的查询预测和查询特征经过非最大抑制操作过滤重复的预测并选择一定数量的人和物体的实例；

步骤602，基于编码解码架构的两阶段人-物交互检测器中的匹配对级别注意力融合模块，将每一对人-物的定位框中心位置、定位框的高宽，以及相对距离和重叠度，输入匹配对位置编码器获得位置编码，同筛选后实例特征一同输入匹配对级别注意力融合器，得到匹配对级别的特征；

步骤603，基于编码解码架构的两阶段人-物交互检测器中的全局上下文编码器模块，DETR目标检测器的Resnet骨干网络输出的特征通过全局上下文编码器编码成全局上下文记忆编码，通过交叉残差技术与Transformer编码器输出的局部实例记忆编码融合，获得融合记忆编码。

具体的，交叉残差技术是指将输入Transformer编码器之前的特征通过线性层和全局上下文编码器输出的全局上下文记忆编码相加，输入全局上下文编码器之前的特征通过线性层和Transformer编码器输出的局部实例记忆编码相加，最后通过连接操作获得融合记忆编码；

步骤604，基于编码解码架构的两阶段人-物交互检测器中的匹配对交互解码器模块，融合记忆编码以及匹配对级别特征输入到匹配对交互解码器，通过交互动作检测头(即前馈层)输出一个多标签的动作预测结果，与之前预测的实例置信度相乘作为交互置信度。

本发明的有益效果：

本发明提出了一个新颖的基于编码器-解码器的两阶段人-物交互检测框架，实现了共享了骨干网络下全局上下文级记忆编码的提取与实例级记忆编码的高效融合，摒弃了传统的定长查询序列配合匈牙利匹配的训练模式，采用变长查询序列进行一对一训练预测；

充分挖掘DETR的多层解码器预测结果以提升目标检测表现，并设计了一个匹配对级的注意力机制模块，能够自适应的学习人和物体之间的隐藏关系；

提出的方法在V-COCO和HICO-DET两个数据集上进行了测试，其结果超越了现有的最好水平。

附图说明

图1是本发明的基于编码解码架构的两阶段人-物交互检测方法的流程图；

图2是本发明提供的基于编码解码架构的两阶段人-物交互检测器的结构示意图；

图3(a)和图3(b)分别为DETR目标检测器中Transformer编码器和解码器的原理示意图；

图4是本发明提供的基于匹配对级注意力模块的流程结构示意图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

如图1和图2所示，本实施例提供的基于编码解码架构的两阶段目标检测方法，包括以下步骤：

步骤200，对数据集进行预处理；

步骤201，训练阶段对图像进行随机水平翻转；

步骤202，调整图片大小并随机剪裁，或直接调整图片大小；

步骤204，推理阶段调整图片大小并进行正则化；

步骤300，构建DETR目标检测器，在步骤100形成的数据集上训练目标检测模型。

步骤303，将训练数据分批次输入到Resnet骨干网络，每个批次中图像的大小存在差别，通过空白补零的方式使一个批次的图片尺寸都相等。Resnet骨干网络会将图片的长宽尺寸降维至1/16，将一批3通道RGB图像转换成一个2048通道的特征图，并根据原有图像的空白补零位置，利用最近插值运算得到特征图的掩码矩阵并利用二维正弦静态位置编码方法(见公式1)生成对应位置编码，其中pos表示该词在句子中的位置，i表示位置编码的当前维度，d_model是固定维度，大小为256；

步骤304，通过一个1*1卷积层将2048维度的特征图降维至256维度，将特征矩阵的宽高压平连同掩码矩阵和位置编码输入Transformer编码器。Transformer编码器是一个多层堆叠的多头自注意力模块，其中查询序列，键序列和值序列都为输入的特征矩阵，经过不同初始化的线性层加工，查询序列和键序列会与位置编码相加后进行矩阵乘法，其结果除以通道数的根号下二次方，经过softmax归一化后与值序列进行矩阵相乘，同时值序列还会以残差的方式相加并正则化，最后结果通过前馈层输出，见公式2以及图3(b)，其中Q、K和V分别为查询序列，键序列和值序列，d_kl是固定维度，大小为256；

步骤305，定义固定长度的空白查询序列作为输入查询序列，并使用可学习的查询嵌入输入作为交叉注意力机制的查询序列。步骤304获得的Transformer编码特征作为解码器的记忆编码输入，与步骤303获得的掩码矩阵和位置编码一并输入，作为交叉注意力机制的键序列和值序列。交叉注意力机制除了查询序列是初始空白序列，键序列和值序列是记忆编码输入外其余与步骤304提到的自注意力机制相同。通过交叉注意力机制能将不同长度大小的记忆编码输入转换成为固定长度大小。输出结果经过自注意力层和前馈层输出。最后，通过查询对象头(前馈层)获得对应的查询预测结果。整个编码器层经过多层堆叠，每一层通过辅助损失进行优化，具体的，参见图3(a)；

步骤306，训练阶段会采用匈牙利二部图匹配方式和真实标签一对一匹配。推断阶段会端到端没有任何后处理方式获得查询结果。

具体的，匈牙利二部图匹配会定义得分函数，类似损失函数的定义，详见公式3，其中

和b_i分别为预测和实际定位框坐标，/>

为预测类别置信度，y为实际标签，/>

为预测结果。我们选择与标签得分最高的查询作为优化目标。因此在推理阶段预测数目相对较少，可以直接输出预测结果，无需复杂的非最大抑制等后处理过程；

步骤400，使用步骤100的数据集，根据人-物交互检测任务要求进行数据预处理。

步骤500，构建基于编码解码架构的两阶段人-物交互检测器。

步骤601，设定第一阶段DETR目标检测器有100个查询序列，因此可以获得100*6层的查询结果，经过非最大抑制后处理过滤重复的预测并选择一定数量的人和物体的实例，具体的，实例个数按照大于0.2的置信度同时不要少于4个或者多余15个，如果违反我们会选择排序后置信度高的实例，对于人和物体分别进行操作；

步骤602，基于编码解码架构的两阶段人-物交互检测器中的匹配对级别注意力融合模块，将每一对人-物的定位框中心位置、定位框的高宽，以及相对距离和重叠度，输入匹配对位置编码器获得位置编码，同筛选后实例特征一同输入匹配对级别注意力融合器，得到匹配对级别的特征。

具体的，位置编码器是多层线性层，将维度从36上升至128，256，256，512并进行ReLU激活层激活，获得位置编码。匹配对级别注意力融合器参照图4，位置编码E_spat作为匹配对级别注意力融合器的查询序列，其大小为(N,N,512)，N为实例个数。其次，键序列和值序列为第一阶段筛选后实例特征Feat_Pair_inst，其大小为(N,256)。不同于一般的交叉注意力，我们计算匹配对级别的注意力不采用矩阵相乘，而将其更改为实例配对与位置编码连接后经过线性层&Sigmoid输出注意力矩阵W_pair，其大小为(N,N,1)。最后与复制后值向量Feat_Repeat_inst的相乘相加并通过前馈层FFN层增强得到大小为(N,256)的特征矩阵，实现早期特征融合。同时为了提升表现，采用了多层堆叠以及多头注意力技术。最后选取人和不同物的特征进行连接，获得(M,512)的匹配对级别的特征Q_HOF，其中M为人与物匹配对个数。具体参见公式4到公式6；

W_pair＝Sigmoid(Concat(Feat_Pair_inst,E_spat)) (4)

具体的，本发明的全局上下文编码器可以采用但不限于Transformer编码器架构，采用了共享DETR的冻结Resnet骨干提供特征经过线性层输出x_GCE在经过编码器输出M_GCE。交叉残差技术将第一阶段的特征x_DETR的映射与M_GCE相加，将x_GCE与M_DETR的映射相加，最后两个分支串联，实现最终输出的融合记忆编码M_CR整合了全局和局部信息辅助训练，详见公式7；

M_CR＝Concat(GCE(x_GCE+pos)+linear(x_DETR),linear(M_DETR)+x_GCE) (7)

步骤604，基于编码解码架构的两阶段人-物交互检测器中的匹配对交互解码器模块，融合记忆编码以及匹配对级别特征输入到匹配对交互解码器，通过交互动作检测头输出一个多标签的动作预测结果，与之前预测的实例置信度相乘作为交互置信度。

具体的，本发明匹配对交互解码器放弃了匈牙利二部图匹配算法进行训练，直接采用变长查询序列，其长度为匹配对数量M。查询序列为匹配对级别的特征Q_HOF，记忆编码采用全局上下文编码器模块的输出M_CR，解码器为Transformer解码器，输出特征经过前馈层FFN变为交互预测置信度V，详见公式8。

V＝FFN(PID(Q_HOF,M_CR)) (8)

本发明在训练阶段先训练DETR目标检测器，再使用第一阶段提供的实例特征经过全局上下文编码器模块，匹配对级别注意力融合模块，匹配对交互解码器训练人户交互检测。在推理阶段可以做到实时推理。

在HICO-DET和V-COCO基准数据集上进行了实验。

对于HICO-DET数据集，在完全模式下，与基线方法UPT相比，本发明的方法在不引入诸如多模态文本语义信息以及不采用更强大的骨干的基础上将mAP从31.66/32.31提高到33.89/35.15，相对提升为7.0％/8.8％。与同样采用基于Transformer的一阶段方法CDN和QPIC相比，分别获得了7.8％/9.6％和16.6％/17.6％的相对收益。在已知物体模式下，与基线方法相比有6.6％/8.86％的相对收益。

在V-COCO数据集上，与基线方法UPT相比，场景一下的mAP从59.0/60.7提升为67.9/70.0，提升幅度15.1％/15.4％，场景二下的mAP从64.5/66.2提升至70.13/72.32，提升幅度为8.7％/9.2％。与原有最好方案DT相比，也有2.6％的相对提升。

经测试，本发明实施例提供的基于编码解码架构的两阶段任务交互检测方法可以在开源数据集取得良好成绩同时，在实际场合能够得到应用。且方法解决了现今推理缺乏全局视野的问题，具有原创性。

Claims

1.一种基于编码解码架构的两阶段人-物交互检测方法，其特征在于，包括以下步骤：

步骤200，对数据集进行预处理；

步骤201，训练阶段对图像进行随机水平翻转；

步骤202，调整图片大小并随机剪裁，或直接调整图片大小；

步骤204，推理阶段调整图片大小并进行正则化；

具体的，DETR目标检测器包含三个主要部分：(1)Resnet主干网络，用于从图片中提取一个紧凑的特征表示以防止后续注意力操作导致的显存爆炸问题；(2)采用多头自注意力以及前馈网络的多层堆叠的Transformer编码解码器，Transformer编码器将主干网络提取的特征结合二维正弦静态位置编码进行处理成为Transformer编码器记忆编码，Transformer解码器利用交叉注意力机制提取Transformer编码器记忆编码的有用部分输出对象查询特征；(3)查询对象头接受Transformer解码器输出的对象查询特征并输出预测结果；

其包括如下步骤：

主要操作同步骤200，但在训练阶段改变图像的亮度、对比度和饱和度；

步骤500，构建基于编码解码架构的两阶段人-物交互检测器；

具体的，一个两阶段人-物交互检测任务，可以视为目标检测任务的下游任务因此在第一阶段即步骤300的DETR目标检测器的基础上设置三个下游模块，构建第二阶段的基于编码解码架构的两阶段人-物交互检测器，三个下游模块分别是全局上下文编码器模块、匹配对级别注意力融合模块以及匹配对交互解码器；

具体的，全局上下文编码器模块的主要作用是从图像特征中再次提取可用于交互检测的全局上下文记忆编码，并能够与局部实例记忆编码进行融合，获得融合记忆编码；匹配对级别注意力融合模块的主要作用是将不同人和物体的特征进行融合，形成匹配对级别的特征，进行后续推理；而匹配对交互解码器将全局上下文编码器模块的融合记忆编码以及匹配对级别注意力融合模块的匹配对级别的特征通过交叉注意力机制进行融合，通过交互动作检测头输出预测结果；

步骤600，基于编码解码架构的两阶段人-物交互检测器的结构设计，利用步骤300中DETR目标检测器生成的目标检测结果和特征，进行下游的人-物交互预测训练；包括以下步骤：

步骤603，基于编码解码架构的两阶段人-物交互检测器中的全局上下文编码器模块，DETR目标检测器的Resnet骨干网络输出的特征通过全局上下文编码器编码成全局上下文记忆编码，通过交叉残差技术与Transformer编码器输出的局部实例记忆编码融合，获得融合记忆编码；