CN116662587B

CN116662587B - 基于查询生成器的人物交互检测方法、装置及设备

Info

Publication number: CN116662587B
Application number: CN202310942873.3A
Authority: CN
Inventors: 张洪博; 林王凯; 雷庆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-03
Anticipated expiration: 2043-07-31
Also published as: CN116662587A

Abstract

本发明公开了一种基于查询生成器的人物交互检测方法、装置及设备，方法包括以下步骤：读取待检测的目标图像；利用特征提取器对所述目标图像进行特征提取获得图像特征；随机初始化一组人‑物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息；经由不同的解码器将输入的图像特征、查询向量和位置信息解码为特征向量组；根据所述特征向量组得到人物交互的预测结果。本发明将查询向量视为候选的人物交互检测结果，通过初始化人‑物对的先验边界框，来从中生成所需的查询向量，能够更精准且高效地进行人物交互行为识别。

Description

基于查询生成器的人物交互检测方法、装置及设备

技术领域

本发明涉及图像处理领域，尤其涉及一种基于查询生成器的人物交互检测方法、装置及设备。

背景技术

从第一张图片的产生，图像便作为信息的重要载体被无数研究人员密切关注着，并不断通过提高图像的清晰度和分辨率来获得更丰富的数字信息。但随着摄像技术的高速发展，仅依靠人力处理图像数据已逐渐力不从心。因而许多研究人员开始将注意力放至新兴的计算机技术上，打算借助计算机来自动处理大量的图像数据。

随着计算机科学相关技术的突飞猛进，新一代人工智能技术从自然语言处理、计算机视觉等方面极大地提高了计算机的视觉、听觉等认知能力。计算机视觉作为人工智能技术的主要发展方向之一，处理的数据包括图片、视频等复杂的数字信息。受益于目前深度学习和计算机视觉的深入研究，关于图像内容理解的研究也正在逐渐转向更高层的场景语义理解中，不再仅仅是对图像进行大致地分类，而是进行更细致的定位、分割等工作。但由于这些任务仍然主要关注图像中像素点的数字信息，缺乏对图像内容的整体理解，因而行为识别、动作预测等场景理解任务被广泛关注。同样地，人物交互检测任务也属于场景语义理解范畴，并且需要考虑更多信息。一般的行为识别只考虑了“人”本身的动作，而人物交互检测在考虑动作的基础之上，还需要考虑在图像环境中人与周围其他物体之间的关系，因此该任务的检测结果通常被定义为一组包含人、物体和交互动作的三元组。例如在智能家居监控中，一般的行为识别只能识别出“人正在走”或者“人在站立”，而人物交互检测能够识别出“人站立在高椅上”或者“人拿着刀在行走”，从而对危险行为进行预警，实现了对场景的更深层理解。

人物交互检测任务不仅需要识别图像中所有的人与物体，还需要把正在发生交互行为的人和物体归为人-物对，并对每个人-物对进行交互分类器，其预测结果通常可表示为人的框、物体框、物体类和交互类别。基于此，人物交互检测任务可细分为两个子任务，实例检测器和交互分类器，并依据不同的子任务解决顺序，将该任务的解决方法分为两类范式，二阶段方法和一阶段方法。二阶段方法采用先检测后分类的策略，相对独立地处理两个子任务。目前，大多数二阶段方法依赖于第一阶段中实例检测器的效果，并通过在第二阶段分类中添加额外的上下文信息来提升检测精度。但由于该类范式对实例检测器的准确度过于依赖，且需要更多的计算资源和更长的推理时间，后续的研究人员提出了一阶段方法，将两个子任务视为一个整体，通过并行式处理实例检测器和交互分类器，来减少昂贵的计算代价并提高推理速度。现有的大多数一阶段方法，主要可划分为基于关键点策略和基于transformer编解码器这两类。基于关键点策略的一阶段方法利用预测的交互点或关键点来指代人—物对和交互行为，实现了实时的检测方式并在精度上持平二阶段方法。而基于transformer编解码器的方法则采用了目标检测中DETR的结构设计，在卷积神经网络（CNN）提取图像特征后，借助编解码器的注意力机制进行集合预测，不仅实现了实时的检测方式，而且在精度上明显超过了先前的一阶段和二阶段方法。由于这类高效的方法吸引了大量研究者的关注，在近段时间成为了人物交互检测的主要方法之一。

然而，现有基于transformer编解码器的一阶段方法，在网络结构中的检测器颈部，只依照DETR中的单解码器结构进行人物交互检测，造成了实例检测器和交互分类器两个子任务间特征分布不平衡的问题。为了解决该问题，有研究者提出将单解码器拆分成分别用于实例检测器和交互分类器的两个解码器。但仅仅依靠两个独立的解码器进行人物交互检测，又会使得两个解码器获得的特征缺乏相关性，从而造成定位出的一对人和物体和预测的交互行为不存在对应关系，这是实现多个解码器进行多个子任务的关键问题。而现有方法为了解决该问题，通常采用添加注意力模块和后处理匹配算法来提高子任务间的关联度。但这些方法大多依赖于注意力机制，而忽略了人-物对与交互动作间的固有相关性。

最新的研究Query-Based Pairwise Human-Object Interaction Detectionwith Image-Wide Contextual Information（QPIC）引入了DETR式的网络结构进行人物交互检测，其网络结构包含作为提取特征骨干的卷积神经网络、作为颈部检测器的transformer编解码器和作为头部分类的前向网络。QPIC利用transformer编解码器集合预测的特性，可以实时地进行实例检测器和交互分类器，并且在效果上明显超过先前基于关键点策略的一阶段方法。

然而，在使用transformer编解码器进行人物交互检测的过程中，如果只是按照QPIC的方式采用DETR式的结构进行识别，很容易因为实例检测器和交互分类器属于不同的任务范畴，而造成单解码器下特征分布不平衡的问题。此外，如果为了解决上述问题，而直接将单解码器拆分为两个子任务解码器，又会使得两个子任务间缺乏关联，并造成预测的人-物对和交互动作无法对应上，只能通过添加额外的后处理算法来得到完整的人物交互检测结果，如图1展示了HOTR方法下所采用的后处理算法，这也使得模型性能受到后处理算法的约束。

发明内容

有鉴于此，本发明的目的在于提供一种基于查询生成器的人物交互检测方法、装置及设备，以改善上述问题。

本发明实施例提供了一种基于查询生成器的人物交互检测方法，其包括以下步骤：

读取待检测的目标图像；

利用特征提取器对所述目标图像进行特征提取获得图像特征；

随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息；

经由不同的解码器将输入的图像特征、查询向量和位置信息解码为特征向量组；

根据所述特征向量组得到人物交互的预测结果。

优选地，所述特征提取器由一个卷积神经网络模块和transformer编码器组成；则利用特征提取器对所述目标图像进行特征提取获得图像特征，具体包括：

将所述目标图像输入卷积神经网络模块，以得到卷积特征图/>；

生成与所述卷积特征图同等大小的固定位置编码/>；

将所述固定位置编码作为卷积特征图/>的空间位置信息，与所述卷积特征图/>一同输入至transformer编码器中，以得到编码后的图像特征/>。

优选地，随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息，具体包括：

随机初始化一组人-物对的先验边界框；其中，/>表示人的先验边界框，表示物的先验边界框；

向所述查询生成器输入所述图像特征和人-物对的先验边界框/>，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点；

基于所述三组关键点采样视觉特征以及空间特征；

基于所述视觉特征和空间特征计算得到实例检测器的实例查询向量及其位置信息/>和交互分类器的分类查询向量/>及其位置信息/>。

优选地，向所述查询生成器输入所述图像特征和人-物对的先验边界框，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点，具体包括：

根据人-物对的先验边界框从图像特征/>中获取人的第一区域特征/>和物体的第二区域特征/>作为感兴趣区域的区域特征；

把第一区域特征和第二区域特征/>按特征维合并以得到表征人-物对的第三区域特征/>，定义为：

表示从根据人的先验边界框/>从图像特征/>中裁剪得到的区域特征，/>表示从根据物的先验边界框/>从图像特征/>中裁剪得到的区域特征；将三个区域特征/>分别通过一个卷积层和一个多层感知机以预测得到人的点/>、物体点/>和交互点/>三组关键点；其中，所述三组关键点使用tanh激活函数归一化至-1到1之间。

优选地，基于所述三组关键点采样视觉特征和构建空间关系，具体包括：

分别使用人的点、物体点/>和交互点/>对第三区域特征/>做双线性插值采样操作，生成了人的视觉特征/>、物体视觉特征/>和交互动作视觉特征/>；

构建所述三组关键点的空间关系，将交互点视为人的点/>和物体点/>之间的原点；

分别将人的点和物体点/>与原点连接并组成对应的两个向量：/>；

计算这两个向量间的夹角，并以此生成这两个向量的变换矩阵/>；

把变换矩阵从二维展平成一维，并通过一个全连接层得到空间特征/>。

优选地，基于所述视觉特征和空间特征计算得到实例检测器的实例查询向量及其位置信息/>和交互分类器的分类查询向量/>及其位置信息/>，具体包括：

聚合视觉特征和空间特征得到人的特征、物体特征/>和交互特征/>；其中：

为逐元素相乘操作；

对人的特征、物体特征/>和交互特征/>进行合并操作，并通过一个多层感知机得到混合后的特征/>；

对混合后的特征分割后得到与实例检测器对应的实例查询向量/>和与交互分类器对应的分类查询向量/>；其表示为：

是合并操作，/>是分割操作；

分别对人-物对的先验边界框和交互点/>使用正弦嵌入函数得到实例查询向量的位置信息/>和分类查询向量的位置信息/>；其中：

是正弦嵌入函数，用于将点坐标转化为特征向量。

优选地，经由不同的解码器把输入的图像特征、查询向量和位置信息解码为特征向量组，具体包括：

将生成的实例查询向量和分类查询向量/>乘以上一层解码器输出的解码特征向量/>，得到保存先前有效信息的查询向量/>；

将查询向量、查询位置信息、图像特征和对应的位置信息分别输入相应的解码器中，由解码器输出解码后的特征向量；其中：

为当前层的实例检测器，/>为当前层的交互分类器，/>为检测器输出的特征向量，/>为分类器输出的特征向量；

在每层输出特征向量后，根据实例检测器的特征向量更新人-物对的先验边界框：

其中为最终预测人的边界框的前向网络，/>为最终预测物体边界框的前向网络，/>是把值归一化到0至1的激活函数。

优选地，根据所述特征向量得到人物交互的预测结果，具体包括：

将最后一层解码器输出的特征向量经过用于预测的头部前向网络，得到包含人的边界框/>、物体边界框/>、物体类别/>和交互类别/>的人物交互预测结果；其表示为：

其中，为最终预测人的边界框的前向网络，/>为最终预测物体边界框的前向网络，/>为预测物体类别的前向网络，/>为预测交互类别的前向网络，/>和/>均为激活函数。

本发明实施例还提供了一种基于查询生成器的人物交互检测装置，其包括以下步骤：

图像读取单元，用于读取待检测的目标图像；

特征提取单元，用于利用特征提取器对所述目标图像进行特征提取获得图像特征；

查询向量生成单元，用于随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息；

解码单元，用于经由不同的解码器把输入的图像特征、查询向量和位置信息解码为特征向量组；

预测单元，用于根据所述特征向量得到人物交互的预测结果。

本发明实施例还提供了一种基于查询生成器的人物交互检测设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的基于查询生成器的人物交互检测方法。

综上所述，本实施例与现有技术相比至少具有如下优点：

1、本实施例借助transformer编解码器集合预测的特性，实现了端到端实时检测的效果，并且本实施例考虑了人物交互检测任务与transformer编解码器结构的关系，针对不同的子任务，使用不同的解码器去处理；

2、不同于以往方法中直接初始化整个查询向量的操作，本实施例将查询向量视为候选的人物交互检测结果，通过初始化人-物对的先验边界框，来从中生成所需的查询向量；

3、本实施例的查询生成器，通过预测关键点的方式来生成具有强相关性的查询向量，从而解决子任务解码器间关联性弱的问题，并避免使用额外的后处理算法。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的HOTR方法中所使用的后处理算法的原理示意图；

图2为本发明第一实施例提供的基于查询生成器的人物交互检测方法的流程示意图；

图3为本发明实施例的整体流程图；

图4为特征提取器的工作原理图；

图5为解码器和查询生成器的结构关系图；

图6为特征提取器的工作原理图；

图7为交互点、人的点和物体点之间的空间关系图；

图8为本发明第二实施例提供的基于查询生成器的人物交互检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图2及图3，本发明第一实施例提供了一种基于查询生成器的人物交互检测方法，其可由基于查询生成器的人物交互检测设备（以下检测检测设备）来执行，特别的，由所述检测设备内的一个或者多个处理器来执行，以实现如下步骤：

S101，读取待检测的目标图像。

在本实施例中，所述检测设备可为台式计算机、笔记本电脑、平板电脑、工作站或者服务器等具有图像和数据处理能力的计算设备，本发明不做具体限定。

S102，利用特征提取器对所述目标图像进行特征提取获得图像特征。

具体地，在本实施例中，所述特征提取器由一个卷积神经网络模块和transformer编码器组成。在进行特征提取时，首先将所述目标图像输入卷积神经网络模块，以得到卷积特征图/>，然后生成与所述卷积特征图/>同等大小的固定位置编码/>，最后将所述固定位置编码/>作为卷积特征图/>的空间位置信息，与所述卷积特征图/>一同输入至transformer编码器中，以得到编码后的图像特征/>，如图4所示。

S103，随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息。

在本实施例中，如图5所示，本实施例使用查询生成器来生成输入进每层实例检测器和交互分类器的两组查询向量。

其中，为了构建每个人-物对和其对应的交互动作之间的相关性，查询生成器只需输入编码后的图像特征和人-物对的先验边界框/>，根据先验边界框获取相应的感兴趣区域（ROIs）的区域特征，然后从区域特征中预测包含人的点、物体点和交互点在内的三组关键点，并使用关键点采样视觉特征和构建空间关系，最终返回实例检测器的实例查询向量/>和交互分类器的分类查询向量/>。此外，由于生成的查询向量来自于先验边界框，所以查询向量组的长度取决于先验边界框的数量，其具体结构如图6所示。

具体地：

S1031，随机初始化一组人-物对的先验边界框。

其中，表示人的先验边界框，/>表示物的先验边界框。

S1032，向所述查询生成器输入所述图像特征和人-物对的先验边界框/>，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点。

其中，在进行关键点预测时，首先根据人-物对的先验边界框从图像特征中获取人的第一区域特征/>和物体的第二区域特征/>，并把两个区域特征按特征维合并以得到人-物对的第三区域特征/>，定义为：

其中，表示根据人的先验边界框/>从图像特征/>中裁剪得到的区域特征，/>表示从根据物的先验边界框/>从图像特征/>中裁剪得到的区域特征。

然后，将这三个区域特征分别通过一个卷积层（Conv）和一个多层感知机（MLP）去预测得到人的点/>、物体点/>和交互点/>。由于这些关键点在采样时需要归一化至-1到1之间，因此还需对预测的关键点使用tanh激活函数。这些计算步骤定义为：

S1033，基于所述三组关键点采样视觉特征以及空间特征。

S1034，基于所述视觉特征和空间特征计算得到实例检测器的实例查询向量及其位置信息/>和交互分类器的分类查询向量/>及其位置信息/>。

具体地，为了获得更加丰富的信息，在对这三类关键点采样获得视觉特征的同时，还构建了这三类关键点的空间特征。对于视觉特征，分别使用人的点、物体点/>和交互点/>对人-物对的第三区域特征/>做双线性插值采样操作，生成了人的视觉特征/>、物体视觉特征/>和交互动作视觉特征/>。这些计算步骤可表示如下：

对于空间特征，本实施例构建三类关键点的空间关系，将交互点视为人的点和物体点之间的原点，然后分别将人的点和物体点与原点连接并组成对应的两个向量：，如图7所示。

接着，进一步计算这两个向量间的夹角，并以此生成这两个向量的变换矩阵/>，用来表示这三类关键点的空间关系。最终把变换矩阵/>从二维展平成一维，并通过一个全连接层（FC）来得到空间特征/>。这些操作步骤可表示如下：

总之，基于上述操作，本实施例进一步聚合视觉特征和空间特征来得到人的特征、物体特征/>和交互特征/>，定义为：

其中为逐元素相乘操作。

在经过特征采样及聚合部分之后，对人的特征、物体特征/>和交互特征/>进行合并操作，并通过一个多层感知机（MLP）得到混合后的特征/>，最终对该特征分割后得到生成器所生成的实例查询向量/>和分类查询向量/>。这些操作步骤表示如下：

其中是合并操作，/>是分割操作。

此外，本实施例还分别对人-物对的先验边界框和交互点/>使用正弦嵌入函数来得到实例查询向量的位置信息/>和分类查询向量的位置信息/>。其中：

这里，是正弦嵌入函数，将点坐标转化为特征向量，与QPIC 中的DETR式的网络结构相同。

S104，经由不同的解码器将输入的图像特征、查询向量和位置信息解码为特征向量组；

具体地，如图5所示。除了第一层外，把生成的查询向量乘以上一层解码器输出的解码特征向量/>，得到保存先前有效信息的查询向量Q_ins及Q_act。然后将查询向量、查询位置信息、图像特征和对应的位置信息分别输入相应的解码器中，由解码器输出解码后的特征向量。该步骤可表示为：

其中为当前层的实例检测器，/>为当前层的交互分类器，/>为检测器输出的特征向量，/>为分类器输出的特征向量。

此外，如图5所示，在每层输出特征向量后，实例检测的特征向量会被用来更新人-物对的先验边界框：

其中，为最终预测人的边界框的前向网络，/>为最终预测物体边界框的前向网络，/>是把值归一化到0至1的激活函数。

S105，根据所述特征向量组得到人物交互的预测结果。

其中，具体地：

综上所述，本实施例与现有技术相比至少具有如下优点：

1、本实施例借助transformer编解码器集合预测的特性，实现了端到端实时检测的效果。并且本实施例考虑了人物交互检测任务与transformer编解码器结构的关系，针对不同的子任务，使用不同的解码器去处理。

2、不同于以往方法中直接初始化整个查询向量的操作，本实施例将查询向量视为候选的人物交互检测结果，通过初始化人-物对的先验边界框，来从中生成所需的查询向量。

为进一步对本实施例的理解，下面对本将以一实际的实验来说明本实施例的应用。

其中，本实施例提出的人物交互检测方法分别在HICO-DET和V-COCO两个主要的基准数据集上进行了实验。这两个数据集均使用mAP值作为评价指标，值越高代表预测准确度越高。

对于HICO-DET数据集，提供了两种不同的实验设置：Default和Known-Object用于评估性能，在Default设置下，每个HOI类别的平均精度（AP）会平等地在每张测试图像上计算，而在Known-Object设置下，每个HOI类别的AP只在含有该物体的测试图像上计算。在每一种实验设置下，均针对两个HOI类别子集计算mAP值：全部的HOI类别（Full）、少于10张训练图像的稀有HOI类（Rare）。

对于V-COCO数据集，也提供了两种不同的实验场景。在场景1中，对测试图像内不存在的物体，认定其真实边界框为0值；在场景2中，则忽略测试图像内不存在的物体。

此外，与QPIC相同，本实施例分别使用了ResNet-50和ResNet-101来充当特征提取器中的卷积神经网络模块。表1和表2显示了本实施例提出的方法相较于现有的方法取得有效的结果。其中‘-’表示原方法未提供实验结果。

表1 本实施例与现有方法在HICO-DET上的对比

表2 本实施例与现有方法在V-COCO上的对比

请参阅图8，本发明第二实施例还提供了一种基于查询生成器的人物交互检测装置，其包括：

图像读取单元210，用于读取待检测的目标图像；

特征提取单元220，用于利用特征提取器对所述目标图像进行特征提取获得图像特征；

查询向量生成单元230，用于随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息；

解码单元240，用于经由不同的解码器把输入的图像特征、查询向量和位置信息解码为特征向量组；

预测单元250，用于根据所述特征向量得到人物交互的预测结果。

本发明第三实施例还提供了一种基于查询生成器的人物交互检测设备，其包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的基于查询生成器的人物交互检测方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，电子设备或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于查询生成器的人物交互检测方法，其特征在于，包括以下步骤：

读取待检测的目标图像；

利用特征提取器对所述目标图像进行特征提取获得图像特征；其中，所述特征提取器由一个卷积神经网络模块和transformer编码器组成；则利用特征提取器对所述目标图像进行特征提取获得图像特征，具体包括：将所述目标图像输入卷积神经网络模块，以得到卷积特征图/>；生成与所述卷积特征图/>同等大小的固定位置编码/>；将所述固定位置编码/>作为卷积特征图/>的空间位置信息，与所述卷积特征图/>一同输入至transformer编码器中，以得到编码后的图像特征/>；

随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息；其中，具体包括：随机初始化一组人-物对的先验边界框；其中，/>表示人的先验边界框，/>表示物的先验边界框；向所述查询生成器输入所述图像特征/>和人-物对的先验边界框/>，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点；基于所述三组关键点采样视觉特征以及空间特征；基于所述视觉特征和空间特征计算得到实例检测器的实例查询向量/>及其位置信息/>和交互分类器的分类查询向量及其位置信息/>；其中，向所述查询生成器输入所述图像特征/>和人-物对的先验边界框/>，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点，具体包括：根据人-物对的先验边界框/>从图像特征/>中获取人的第一区域特征/>和物体的第二区域特征/>作为感兴趣区域的区域特征；把第一区域特征/>和第二区域特征/>按特征维合并以得到表征人-物对的第三区域特征/>，定义为：

表示从根据人的先验边界框/>从图像特征/>中裁剪得到的区域特征，表示从根据物的先验边界框/>从图像特征/>中裁剪得到的区域特征；将三个区域特征/>分别通过一个卷积层和一个多层感知机以预测得到人的点/>、物体点和交互点/>三组关键点；其中，所述三组关键点使用tanh激活函数归一化至-1到1之间；

根据所述特征向量组得到人物交互的预测结果。

2.根据权利要求1所述的基于查询生成器的人物交互检测方法，其特征在于，基于所述三组关键点采样视觉特征和构建空间关系，具体包括：

3.根据权利要求2所述的基于查询生成器的人物交互检测方法，其特征在于，基于所述视觉特征和空间特征计算得到实例检测器的实例查询向量及其位置信息/>和交互分类器的分类查询向量/>及其位置信息/>，具体包括：

为逐元素相乘操作；

是合并操作，/>是分割操作；

是正弦嵌入函数，用于将点坐标转化为特征向量。

4.根据权利要求3所述的基于查询生成器的人物交互检测方法，其特征在于，经由不同的解码器把输入的图像特征、查询向量和位置信息解码为特征向量组，具体包括：

5.根据权利要求4所述的基于查询生成器的人物交互检测方法，其特征在于，根据所述特征向量得到人物交互的预测结果，具体包括：

其中，为最终预测人的边界框的前向网络，/>为最终预测物体边界框的前向网络，/>为预测物体类别的前向网络，/>为预测交互类别的前向网络，和/>均为激活函数。

6.一种基于查询生成器的人物交互检测装置，其特征在于，包括：

图像读取单元，用于读取待检测的目标图像；

特征提取单元，用于利用特征提取器对所述目标图像进行特征提取获得图像特征；其中，所述特征提取器由一个卷积神经网络模块和transformer编码器组成；则特征提取单元具体用于：将所述目标图像输入卷积神经网络模块，以得到卷积特征图/>；生成与所述卷积特征图/>同等大小的固定位置编码/>；将所述固定位置编码/>作为卷积特征图/>的空间位置信息，与所述卷积特征图/>一同输入至transformer编码器中，以得到编码后的图像特征/>；

查询向量生成单元，用于随机初始化一组人-物对的先验边界框，将所述图像特征与所述先验边界框共同输入查询生成器，并基于所述查询生成器生成每层实例检测器和交互分类器所需的两组查询向量以及查询向量的位置信息；其中，具体包括：随机初始化一组人-物对的先验边界框；其中，/>表示人的先验边界框，/>表示物的先验边界框；向所述查询生成器输入所述图像特征/>和人-物对的先验边界框/>，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点；基于所述三组关键点采样视觉特征以及空间特征；基于所述视觉特征和空间特征计算得到实例检测器的实例查询向量/>及其位置信息/>和交互分类器的分类查询向量/>及其位置信息/>；其中，向所述查询生成器输入所述图像特征和人-物对的先验边界框/>，并根据先验边界框获取图像特征/>的感兴趣区域的区域特征，从所述区域特征中预测包含人的点、物体点和交互点的三组关键点，具体包括：根据人-物对的先验边界框/>从图像特征/>中获取人的第一区域特征/>和物体的第二区域特征/>作为感兴趣区域的区域特征；把第一区域特征/>和第二区域特征/>按特征维合并以得到表征人-物对的第三区域特征/>，定义为：

7.一种基于查询生成器的人物交互检测设备，其特征在于，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如权利要求1至5任意一项所述的基于查询生成器的人物交互检测方法。