CN114241606A

CN114241606A - 一种基于自适应集学习预测的人物交互检测方法

Info

Publication number: CN114241606A
Application number: CN202111606465.8A
Authority: CN
Inventors: 杨楠楠; 潘斌
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2021-12-26
Filing date: 2021-12-26
Publication date: 2022-03-25

Abstract

本发明公开了一种基于自适应集学习预测的人物交互（human object interaction，HOI）检测方法。采用目标清晰的两阶段检测方法进行HOI检测，在第一阶段，采用经典的深度学习卷积神经网络ResNet‑50进行实例检测，提取目标图像的对象实例；在第二阶段，将自定义的可训练交互查询集映射到一个带有编码器‑解码器的交互预测集上，每个查询将通过实例感知注意力模块自适应地聚合来自全局上下文与交互相关的特性。最后，将每个真实值与交互预测进行匹配，对训练过程进行自适应监督。逻辑清晰的两阶段HOI检测方法与传统的人物交互相比极大的提高了检测效率和检测准确性。

Description

一种基于自适应集学习预测的人物交互检测方法

技术领域

本发明主要涉及深度学习技术的图像处理领域，具体内容是涉及一种基于自适应集学习预测的人物交互检测方法。

背景技术

人体行为识别技术是人工智能学科在机器视觉领域的重要研究内容，被广泛的应用于无人商店、智能视频监控、公共安全和虚拟现实等领域。人物交互（human-objectinteraction，HOI）检测是目标检测、行为识别、视觉关系检测等的交叉学科，应用现代计算机技术实现人物交互检测，旨在识别现实特定场景下人与物体之间的相互作用，包括人和物的定位和交互的识别。目前人物交互检测可以与计算机视觉的其它工作协作以完成更复杂的深度学习任务，如动作检索、字幕生成、虚拟现实等等，具有广阔的应用前景。

人物交互检测是视觉理解行为识别技术的子任务，他往往需要对图片或者视频中模糊、复杂且难以识别的行为进行分析判断，对于关系学习，场景理解和动作理解都具有重要的意义。人物交互检测最早来源于对人和物的动作理解，研究人员发现人周边的与人交互的物体对于人的动作识别能够提供很强的判别信息。传统的针对人物交互检测的工作主要通过手工提取特征，通常工作比较繁琐，并且从真实世界中采取的人物交互检测数据往往存在着长尾分布和零样本学习等问题。近年来，随着深度学习的发展以及相关人物交互检测数据集的出现，研究人员对于人物交互检测的兴趣逐渐加强。与视觉关系检测使用<物体A，谓语，物体B>定义关系表达式类似，人物交互检测使用<人，谓语，物体>来定义人物交互之间的最终检测关系组合。

目前的HOI检测主要通过两阶段检测和一阶段检测方法展开工作。两阶段方法是目标检测和交互检测的串行工作；一阶段方法是利用上下文信息进行整体的人物交互检测工作，可分为基于锚的方法和基于点的方法，基于锚的方法根据每个联合框检测交互，基于点的方法在每个交互关键点上进行推理，如人物对交互的中心点。但整体上，无论是两阶段还是一阶段的工作都是通过全局检测模型将空间、外观与人体姿态和语言在内的感知信息进行整合，生成现实场景中人物对的交互关系检测。近年来深度学习卷积神经网络与注意力机制的繁荣发展，也推进了基于局部身体部位的HOI检测方法的发展。此外，更多的研究人员还从语义规律、视觉相关性和上下文相关信息等等的不同角度对图像视频的理解展开了更为细粒度的研究。随着深度学习与人工智能技术的蓬勃发展，人物交互检测技术在高效率、高速率和实时性等方面展开深度研究。

发明内容

随着视觉识别技术取得快速进展，物体检测、语义分割和动作识别等领域都有相当成熟的技术支持，但是，理解场景不仅需要检测单个实例对象，还需要识别对象之间的视觉关系，而其中最重要的视觉关系检测是识别每个人如何与周围物体相互作用的，这就是人物交互检测的主要研究目的。目前人物交互检测的研究工作已经扩展到物体功能、空间位置、人物姿态和语义描述等多个层面。随着目标检测和人体行为识别等领域技术的发展与融合，人物交互检测技术更趋向于联系全局上下文精准的局部特征来引导学习和预测。近年来，从机器视觉发展而来的人物交互检测，大都利用深度学习方法展开研究。通过特征提取的一般方法提取人与物体的区域特征，进行人和物体的定位；利用图片中的上下文信息、空间信息、语义信息、人体姿态信息等进行人物交互的检测。视觉特征提取和语义特征提取在理论上隶属于两个不同的模型，人物交互检测如何高效率地进行特征融合是研究人员需要解决的问题。

为了克服现有技术存在的不足，提出一种基于自适应集学习预测的人物交互检测方法。定义了一个具有多个可学习嵌入的交互查询集和一个交互预测集，每个交互查询集都由基于转换器的解码器映射到交互预测集上，通过从全局上下文中聚合与交互相关的特征，并将每个真实情况与交互预测相匹配，展示了对特征聚合和监督的自适应能力。

本发明采用逻辑清晰的两阶段方法进行HOI检测。

（1）实例检测：采用ResNet-50经典卷积神经网络结构进行人和物体的实例检测，提取实例的检测框、实例类别和实例检测得分，为交互检测阶段提供重要的先验知识。

（2）交互检测：将一个可训练的交互查询集映射到一个带有编码器-解码器的交互预测集，每个查询通过实例感知注意力模块自适应地聚合来自全局上下文与交互相关的特征。

（3）监督预测：通过将图片中每个真实交互与预测交互进行匹配，对训练过程进行自适应的监督。

把上述（1）（2）阶段进行融合得到性能较好的HOI检测模型，具有鲜明的创新点：（1）通过把HOI检测转化为基于自适应集学习预测的检测方法，在没有任何额外的人体姿势和语言特征的情况下，仅利用图片中提供的上下文环境自适应的提取人、物特征，提高了检测精度。（2）在交互检测阶段，采用一个有效简洁的编码器-解码器结构。抛弃了传统的CNN和RNN，完全由Attention机制组成，使得模型的复杂度和参数都相应的减少了，并且可以一步到位的捕捉全局和局部的联系、并行计算减少了模型的训练时间。（3）设计以检测到的实例为中心的实例感知注意力模块，将实例和检测到的交互进行匹配，得到最终检测到的HOI检测三元组。（4）训练阶段把检测到的交互与真实环境下的交互进行匹配，设计合理的损失函数，增强了模型检测的准确率和泛化能力。

本发明在现有数据集HICO-DET和V-COCO均取得了较好的检测效果。设计基于自适应集学习预测的人物交互检测方法，能够自动聚合来自图片上下文的特征信息，代替传统的需要融合实例外观、空间、人体姿势等得到复杂交互特征的工作。考虑以检测到的实例为中心的注意力模块，充分利用多种不同卷积神经网络结构的优势，突出图像中人、物的信息区域，使得我们能够收集主要的特征信息，促进HOI检测的准确率和速率。

附图说明

图1为本发明的整体流程图。

图2为本发明的网络结构设计图。

图3为本发明的编码器-解码器框图。

具体实施方式

为了使本发明有更好的检测效果，下面结合附图声明和具体实施方案，进行更加详细的描述。需要说明的是，此处所描述的具体实施方案仅用于解释本发明，并不用于限定本发明。

参考图1的整体流程图，首先，把原始图片输入到实例检测模块中，图像输入到ResNet-50卷积神经网络结构中进行人和物体的实例检测操作，提取对象的检测框、实例类别和实例检测得分。其次，将检测到的人、物类别特征序列输入到交互检测模块的编码器-解码器结构中，将特征序列转化为预测序列，再通过softmax函数得到交互类别分数，最终得到最符合特定场景下的检测三元组<人，谓语，物体>。

参考图3的网络结构设计图，首先，把图片输入到实例检测模块，通过卷积神经网络模型ResNet-50进行特征提取得到特征图和类别特征序列I∈R^(W×H×C)；然后把I输入到交互检测模块中，编码器先把特征序列I和定义的可学习嵌入查询集Q融合编码，得到实例的编码特征序列I_e∈R^(w×h×c)，I_e通过以实例为中心的实例感知注意力模块处理，此时模型仅仅把注意力放在检测框里的人和物上，避免其他冗余信息的干扰，提高模型的检测效率。解码器把实例感知注意力模块处理过后的特征序列进行解码操作，再与定义的交互预测集P进行融合得到交互预测结果I_d∈R^(w×h×c)；最后，在匹配策略中引入全连接神经网络将图片中每个真实交互与预测交互进行匹配，对训练过程进行自适应的监督得到最终的交互类别得分。

考虑每个模块在训练过程中的匹配损失，如下列所述。

（1）实例检测模块，构建ResNet-50模型的损失函数L_r如公式（1）所示：

（1）

其中，N表示样本数量，M表示类别的数量，y_i表示样本i的标签，如果样本i的真实类别等于c取1，否则取0，p_i表示预测类别的置信度分数。

（2）交互预测模块，按照DETR检测器构建基于自适应集的交互检测损失，首先，计算实例特征F_d和交互特征F_r之间的亲和力得分图A，如公式（2）所示：

（2）

然后应用softmax函数获得实例感知注意力权重矩阵M，如公式（3）所示：

（3）

其中，M_ij表示第j个检测到的实例相对于第i个预测到的交互的注意力权重。

综合编码器-解码器阶段的交互检测阶段设计如公式（4）所示的损失函数：

（4）

其中，

表示特征参数，

表示预测交互类别得分，

表示真实交互类别得分。

（3）综合加权上述损失函数，得到本发明模型的损失函数。如公式（5）所示：

（5）

其中，

是设定的参数因子。

参考图2的编码器解码器框图，我们设置6个编码块和相对应的6个解码块，参考所有的生成模型使用方法，编码器的输出会作为解码器的输入。此时，第一层的编码器把由ResNet-50提取的类别特征序列与自定义的可学习嵌入查询集融合进行卷积操作，每层的输出再与另外的查询集进行求和向下层编码器传递。经过6层编码器块之后，设置以实例为中心的感知注意力模块，把注意力集中在人和与人进行交互的物体上面。然后进行解码操作，把实例感知注意力特征序列与定义的可嵌入交互预测集进行融合解码得到交互预测结果。最终调整损失函数最小得到最终检测的人物交互检测三元组<人，谓语，物体>。

上述具体实施方式根据图例进行讲解，清晰明确。但本发明的实施方式并不限定于此，从事该技术人员在未背离本发明精神和原则下所做的任何修改、替换、改进，均包含在发明的保护范围内。

Claims

1.一种基于自适应集学习预测的人物交互检测方法，其特征在于，该方法采用实例检测模块进行实例特征提取和交互检测模块进行交互分类预测。

2.根据权利要求1所述的基于自适应集学习预测的人物交互检测方法，其特征在于，该方法在实例检测模块采用了ResNet-50卷积神经网络结构。

3.根据权利要求1所述的基于自适应集学习预测的人物交互检测方法，其特征在于，该方法在交互检测模块采用了改进的编码器-解码器网络结构。

4.根据权利要求1、2、3所述的一种基于自适应集学习预测的人物交互检测方法，其特征在于，具体包括以下步骤：

S1.把数据集HICO-DET或V-COCO中图片按顺序传输给实例检测模块；

S2.将图像经过ResNet-50网络结构进行实例类别特征提取，利用卷积神经网络提取人物类别特征序列；

S3.将经实例检测模块得到的类别特征序列输入到交互检测模块中；

S4.首先把实例检测模块得到的类别特征与自定义的可学习嵌入查询集融合编码，输入到编码器结构中进行交互检测预处理；

S5.把编码器结构得到的特征序列输入以实例为中心的实例感知注意力模块处理，把注意力转移到人、物本身，去除冗余的特征信息，方便后续人物交互的检测；

S6.将感知注意力模块得到的特征序列与自定义的可学习交互预测集进行融合解码，将图像中的人物交互部分放大显示，此时，得到的特征序列已经满足了实际的需求；

S7. 最后进行计算预测的交互类别得分，得到与真实交互最相似的类别。