CN117953590A

CN117953590A - 一种三元交互动作检测方法、系统、设备及介质

Info

Publication number: CN117953590A
Application number: CN202410354226.5A
Authority: CN
Inventors: 高芳裙; 张彦铎; 吴云韬; 卢涛; 唐盼; 王砾伟; 李圳
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; Wuhan Institute of Technology; Hubei University of Arts and Science
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; Wuhan Institute of Technology; Hubei University of Arts and Science
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-04-30

Abstract

本发明涉及一种三元交互动作检测方法、系统、设备及介质，方法包括：获取待测三元关系交互动作图像；确定待测三元关系交互动作图像的降维特征图；为降维特征图上每个预设区域添加位置信息，确定全局信息图；利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；将预测交互动作信息转换为三元检测框信息和交互动作类别。解决了现有技术无法对三元交互动作信息进行完整的描述，不仅降低了预测出的该交互动作信息的区域范围的准确性，还降低了该交互动作信息对应的交互动作类别的准确性的问题。

Description

一种三元交互动作检测方法、系统、设备及介质

技术领域

本发明涉及图像交互动作检测技术领域，尤其涉及一种三元交互动作检测方法、系统、设备及介质。

背景技术

交互动作检测图像技术是人工智能领域飞速发展的一个分支。常规交互动作检测图像任务的目的就是通过检测和识别从复杂的自然场景图像中找出所有的交互对象及交互动作实例，在确定它们在图像中位置的同时还要确定交互动作类别，以此来获取动作信息。这对无人商超、安防、自动驾驶、医疗康复等大量现实世界应用具有重要价值。

随着深度神经网络强大的表示能力，交互动作检测图像近年来取得了良好的进展。然而，由于使用工具操作的交互动作场景中以人为中心，考虑与人交互的工具具有多义性，多重交互性等特点，数据变化所揭示的不同模式，以及实际应用所需的苛刻条件，在使用工具操作的交互动作场景中进行交互动作识别仍然是一个巨大的挑战，是计算机视觉领域的核心问题之一。

目前，完成对物体之间交互动作检测的方法，一类是基于图像描述方法，根据检测到的场景图中所有物体之间的关系，生成物体之间的关系的交互关系表达。但是，由于图像中丰富的背景信息造成输出信息的冗余，不能描述感兴趣区域的交互关系。另一类是利用人物交互检测方法，生成对图像中两者交互关系的文字描述，只能表达人与物体二者关系，在面临使用工具操作的场景中，缺乏复杂动作的表达，无法描述完整的三元关系交互信息，很难获得令人满意的结果。

现有技术只能准确检测到两个物体之间的简单交互动作信息，而人使用工具操作物体的三元交互动作信息较为复杂，现有技术无法对三元交互动作信息进行完整的描述，不仅降低了预测出的该交互动作信息的区域范围的准确性，还降低了该交互动作信息对应的交互动作类别的准确性。

发明内容

为了克服现有技术无法对三元交互动作信息进行完整的描述，不仅降低了预测出的该交互动作信息的区域范围的准确性，还降低了该交互动作信息对应的交互动作类别的准确性的问题，本发明提供了一种三元交互动作检测方法、系统、设备及介质。

第一方面，为了解决上述技术问题，本发明提供了一种三元交互动作检测方法，包括：

获取待测三元关系交互动作图像；其中，三元关系交互动作图像中包含有人、物体和工具的交互动作；

确定待测三元关系交互动作图像的降维特征图；

为降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，位置信息为预设区域在降维特征图上的位置；

利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；

将预测交互动作信息转换为三元检测框信息和交互动作类别。

第二方面，本发明还提供了一种三元交互动作检测系统，包括：

获取模块，用于获取待测三元关系交互动作图像；其中，三元关系交互动作图像中包含有人、物体和工具的交互动作；

确定模块，用于确定待测三元关系交互动作图像的降维特征图；

添加模块，用于为降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，位置信息为预设区域在降维特征图上的位置；

融合模块，用于利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；

转换模块，用于将预测交互动作信息转换为三元检测框信息和交互动作类别。

第三方面，本发明还提供了一种计算设备，包括存储器、处理器及存储在存储器上并在处理器上运行的程序，处理器执行程序时实现如上述的一种三元交互动作检测方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在终端设备上运行时，使得终端设备执行一种三元交互动作检测方法的步骤。

本发明的有益效果是：通过确定待测三元关系交互动作图像的降维特征图，实现图像的降维，使得图像中的人、工具、物体和交互的信息能够更丰富和直观的进行展示，从而便于后续对图像中的有效的人、工具、物体和交互的信息进行提取并摒弃无用信息。然后为降维特征图添加位置信息，确定全局信息图，能够增强图像中的三元交互动作信息。再将全局信息图和预设的查询规则进行融合，能够通过查询规则获得包含有丰富的人、工具、物体和交互的信息的预测交互动作信息，使得待测三元关系交互动作图像的三元交互动作信息能够更加完整和准确的被描述出来，从而能够提高该预测交互动作信息转化而成的三元检测框信息和交互动作类别的准确性。

附图说明

图1为本发明一种三元交互动作检测方法的流程示意图；

图2为本发明一种三元交互动作检测方法的结构示意图。

具体实施方式

下列实施例是对本发明的进一步解释和补充，对本发明不构成任何限制。

以下结合附图描述本发明实施例的一种三元交互动作检测方法、系统、设备及介质。

本发明实施例的一种三元交互动作检测方法，该方法应用于终端设备，本申请方案中以终端设备为执行主体，对本申请方案进行说明，终端设备用于执行一种三元交互动作检测方法的步骤。

如图1所示，本发明提供了一种三元交互动作检测方法，包括：

步骤S1，获取待测三元关系交互动作图像；其中，三元关系交互动作图像中包含有人、物体和工具的交互动作；

步骤S2，确定待测三元关系交互动作图像的降维特征图；

步骤S3，为降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，位置信息为预设区域在降维特征图上的位置；

步骤S4，利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；其中，查询规则为查询出全局信息图中人物特征、工具特征、物体特征、交互动作特征的规则；

步骤S5，将预测交互动作信息转换为三元检测框信息和交互动作类别。

本实施例的一种三元交互动作检测方法，通过确定待测三元关系交互动作图像的降维特征图，实现图像的降维，使得图像中的人、工具、物体和交互的信息能够更丰富和直观的进行展示，从而便于后续对图像中的有效的人、工具、物体和交互的信息进行提取并摒弃无用信息。然后为降维特征图添加位置信息，确定全局信息图，能够增强图像中的三元交互动作信息。再将全局信息图和预设的查询规则进行融合，能够通过查询规则获得包含有丰富的人、工具、物体和交互的信息的预测交互动作信息，使得待测三元关系交互动作图像的三元交互动作信息能够更加完整和准确的被描述出来，从而能够提高该预测交互动作信息转化而成的三元检测框信息和交互动作类别的准确性。

可选地，确定待测三元交互动作图像的降维特征图，包括：

对待测三元关系交互动作图像进行语义特征提取，获得语义特征图；

对语义特征图进行降维，获得降维特征图。

本实施例中，通过先对待测三元关系交互动作图像进行语义特征提取，并降维，使得获得三维降维特征图中能够包含待测三元关系交互动作图像中丰富且直观的语义信息，能够增加该图像中三元交互动作信息的有用信息，便于后续对该待测三元关系交互动作图像的三元检测框信息和交互动作类别进行预测。

可选地，对语义特征图进行降维，获得降维特征图，包括：

使用拉平操作对语义特征图的空间维度折叠为一维，获得一维的降维特征图。

本实施例中，对语义特征图进行降维，能够将语义特征图中的特征信息能够以更丰富且直观的形式进行展示，便于后续对图像中的有效的人、工具、物体和交互的信息进行提取并摒弃无用信息。

可选地，为降维特征图上每个预设区域添加位置信息，确定全局信息图，包括：

将降维特征图划分为预设数量的图像块；其中，每个图像块作为一个预设区域；

对每个图像块在降维特征图中的位置进行编码，获得降维特征图的位置编码；

将位置编码添加至降维特征图中，获得全局信息图。

本实施例中，通过对降维特征图划分预设数量的图像块，并对每个图像块的位置进行编码，获得降维特征图的位置编码，再将位置编码添加至降维特征图中，获得全局信息图，使得全局信息图中包含了丰富的语义特征信息和图像块的位置信息，进一步增加了图像中的有用信息，使得图像中三元交互动作信息能够更加完整的进行描述，提高了后续获得的三元检测框信息和交互动作类别的准确性。

可选地，利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息，包括：

将全局信息图作为Value，并将全局信息图与位置编码之和作为Key，以及将位置编码与预设的查询规则之和作为Query；

获取预设的多头注意力机制的每个头中Value对应的第一权重、Key对应的第二权重和Query对应的第三权重；

在每个头中，利用Value、第一权重、Key、第二权重、Query和第三权重，计算头的输出信息，计算公式如下：

where head_i = Attention(QW^Q_i, KW^K_i, VW^V_i)；

其中，where head_i为第i个头，Attention为第i个头对应的注意力机制，Q为Query，W^Q_i为第三权重，为可学习的第一参数矩阵，K为Key，W^K_i为第二权重，为可学习的第二参数矩阵，V为Value，W^V_i为第一权重，为可学习的第三参数矩阵；

将各个输出信息进行拼接，获得拼接信息，并对拼接信息进行线性变换，获得预测交互动作信息，计算公式如下：

MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O；

其中，MultiHead为多头注意力机制，MultiHead，Concat为拼接函数，head_h为第h个头的输出信息，W^O为可学习的第四参数矩阵。

本实施例中，通过对多头注意力机制中的每个头设置不同的权重，并将全局信息图、位置编码和预设的查询规则在多头注意力机制中的每个头中进行特征融合后获得输出信息，对各个输出信息进行拼接和线性变换，使得待测三元关系交互动作图像中的语义特征、位置信息能够反复的进行融合，增强了预测交互动作信息的有用信息，该有用信息为人物特征、工具特征、物体特征、交互动作特征，从而能够进一步提高预测交互动作信息的准确性。

在一些实施例中，多头注意力机制为多头交叉注意力（Multi-Head CrossAttention），它允许模型将注意力分配给输入特征的不同部分，以便更好地理解人、工具和物体之间的复杂交互。多头注意力机制的输入为：global_memory（全局信息图）、positional_encoding（全局信息图的位置编码）和预设的查询规则（human tool objectinteraction_Queries，HTOI_Queries）。global_memory：形状为 (N, d_model)，其中 N 是图像的序列长度，d_model是特征维度。positional_encoding：位置编码，增加图像的序列的位置信息，形状与global_memory相同。HTOI_Queries： HTOI查询向量，用于指导关注特定的人-工具-物体交互，形状为(M, d_model)，其中M是查询的数量。多头注意力机制中，Value（V，值）、Key（K，键）、Query（Q，查询）未加权重时，查询 (Q)：由 HTOI_Queries 和positional_encoding 组合而成，表示为 Q = HTOI_Queries + positional_encoding，键(K)：由 global_memory 和 positional_encoding 组合而成，表示为 K = global_memory+ positional_encoding，值 (V)：直接来自 global_memory，表示为 V = global_memory。多头注意力机制中，将 Q, K, V 分别线性投影到 h 个不同的空间，其中 h 是头的数量。对每个头，计算注意力权重并应用到 V 上，得到每个头的输出。将所有头的输出拼接起来，再次进行线性投影得到最终的输出。对于每个头，计算 head_i = Attention(Q_i, K_i,V_i)，其中 Q_i, K_i, V_i 是分别对应第 i 个头的查询、键和值。拼接所有头的输出Concat(head_1, ..., head_h)。对拼接后的结果进行线性变换得到最终的多头交叉注意力输出。每个头计算输出信息的公式为：

；

其中，Attention为一个头的注意力机制，Q为查询， K为键、V为值， softmax为激活函数，T为转置，dk为键的维度。

可选地，将预测交互动作信息转换为三元检测框信息和交互动作类别，包括：

将预测交互动作信息输入预设多层神经网络中，执行以下步骤：

对预测交互动作信息进行特征提取，获得至少一个人物边界框信息、至少一个物体边界框信息和至少一个工具边界框信息；

将各个人物边界框信息、各个物体边界框信息和各个工具边界框信息进行三三组合，获得多个组合对；其中，三三组合表征了将各个人物边界框信息中的一个人物边界框信息、各个物体边界框信息中的一个物体边界框信息和各个工具边界框信息中的一个工具边界框信息组合成一个组合对；

根据各个组合对的组合情况，确定预测交互动作信息对应的三元检测框信息；其中，三元检测框信息中包含有人、物体和工具的交互动作特征，组合情况表征了人物边界框信息、物体边界框信息和工具边界框信息组合后三者是否具有重合部分的情况；

在预设的交互分类库中查找出每个三元检测框中人、物体和工具的交互动作特征对应的交互动作类别。

本实施例中，将预测交互动作信息中的人物特征、工具特征、物体特征和交互动作特征进行提取，能够确定出对应的至少一个人物边界框信息、至少一个物体边界框信息和至少一个工具边界框信息，并进行三三组合。由于三者具有重合部分时，三者间具有交互动作的概率越大。而根据每个组合对的组合情况，能够确定出三者具有重合部分的组合对，将该组合对对应的全部信息作为预测交互动作信息对应的三元检测框信息，能够提高三元检测框信息的准确性。

预设多层神经网络为训练完成的基于Transformer的深度学习网络模型，深度学习网络模型由编码器和解码器组成，用于实现三元关系交互动作特征的提取、多尺度语义信息的融合、交互动作信息的预测和人、工具、对象三元物体的预测。深度学习网络模型进行模型训练时的数据集中的图像为通过工业摄像头或者相机在三元关系的不同工业场景中进行拍摄得到的三元关系交互动作图像经过数据增强处理后形成的预设数量的图像，或者从目前存在的公开动作检测图像数据集HICO中选取符合需要的高质量的动作图像；值得注意的是，所准备的动作图像中的三元关系交互动作实例包含的人、工具、对象应当清晰、丰富，或者还可以利用PIL工具包将采集的三元关系交互动作合成到常规场景图像中，得到一定规模的合成交互动作图像。其中，数据增强处理的方式包括随机缩放、随机旋转、随机裁剪、亮度增强中的一种或多种。例如，随机缩放：短尺寸从640到896（间隔32）中进行选择，长尺寸不超过2000。又例如，随机旋转：使图像在正负90度之间进行旋转。又例如，随机裁剪，对图像进行裁剪，确保裁剪图像不会切割三元关系交互动作实例；又例如，亮度增强，调亮图像的亮度。

本发明实施例制备的数据集还需完成对交互动作图像数据集的数据集中的图像正负样本的划分。在通过上述方法制备得到的数据集中确定正负样本的划分，图像样本包括：正样本，其包括图像中的所有能清晰确定坐标信息以及人、工具及对象的交互动作内容的三元关系交互动作实例，且将其视为交互动作图像的前景目标部分；负样本，其包括场景图像中的极端模糊无法分辨的背景部分。对数据集中的图像进行正负样本的划分后，将全部正样本的图像组成用于模型训练的数据集，能够提高训练图像的有效性，从而能够减少模型中对干扰图像的无效处理，进而能够提高模型训练的效率。同时，若目标训练集中的每个图像预测出的三元检测框信息和对应的真实三元交互框信息的重合度均满足要求，且目标训练集中的每个图像预测出的交互动作类别和对应的真实三元交互动作类别均相同，确定深度学习网络模型训练完成，获得预设多层神经网络。若目标训练集中的每个图像预测出的三元检测框信息和对应的真实三元交互框信息的重合度中存在至少一个重合度不满足要求，和/或，目标训练集中的每个图像预测出的交互动作类别中存在至少一个交互动作类别和对应的真实三元交互动作类别不相同，则调整深度学习网络模型的网络参数，直到各个重合度均满足要求，且目标训练集中的每个图像预测出的交互动作类别和对应的真实三元交互动作类别均相同。其中，网络参数包括图像查询迭代次数、学习率、动态解码器的头数、dropout率、损失权重因子。通过对目标数据集中每个图像中人、工具和物体之间的交互动作所处预设范围内的区域进行Ground-Truth人工标注，确定每个图像的真实三元交互框信息和真实三元交互动作类别，便于利用HTOI（human tool object interaction）实例匹配器来自动对预测出的各个三元检测框信息和对应的真实三元交互框信息、预测出的各个交互动作类别和对应的真实三元交互动作类别进行验证，从而确定深度学习网络模型是否训练完成。

HTOI实例匹配器，是指将预测的人物-工具-物体交互（HTOI）实例与真实的HTOI实例进行匹配，以评估模型的性能。匹配的目标是将每个预测的HTOI实例与其对应的真实HOI实例进行匹配，以确定是否正确预测了人物、工具、物体和交互的标识和位置。在进行匹配之前，通常需要定义一些匹配规则，包括位置匹配、关系类别匹配和一对一匹配。其中，位置匹配：通过计算预测框（预测框为人物框、工具框或物体框）与对应的真实框之间的IoU（交并比，即预测框与对应的真实框的交集和并集的比值）来确定它们的位置是否匹配。如果IoU大于阈值，则认为位置匹配成功。关系类别匹配：通过比较预测的人物类别、工具类别、物体类别和关系类别、交互类别与真实类别，确定它们是否匹配。如果类别匹配成功，则认为它们是匹配出的实例。一对一匹配：在匹配过程中，需要确保每个真实实例只匹配一个预测实例，每个预测实例也只匹配一个真实实例。这可以通过选择最佳匹配来实现，例如选择IoU最高的匹配。

HOI实例是一个七元组（ch, cr, ct, ci, co, bh, bt, bo），其中（ch, cr, ct）表示人物、关系和工具的类别置信度，ci表示工具、交互和物体三者之间的交互类别置信度，（bh,bt, bo）是人物、工具和物体的边界框。两阶段的HOI检测器首先使用物体检测器预测物体提案（ch, bh），（ct, bt），（co, bo），然后枚举检测到的（各个人物边界框、工具边界框和物体边界框的三三组合）组合对，通过动作交互分类来预测工具、交互和物体三者之间的交互ci，计算公式如下：

p(h,t,o,i)≈p(h)p(t)p(o)p(i|h,t,o)；

其中，p(h,t,o,i)为工具、交互和物体三者之间的交互概率，p(h)为人物边界框置信度，p(t)为工具边界框置信度，p(o)为物体边界框置信度，p(i|h,t,o)为在给定人物边界框h、工具边界框t和物体边界框o的情况下，交互i发生的概率，通常由一个多流交互识别模型实现。在这种方法中，检测器和分类器是分别优化的。

将HTOI检测视为预测和真实数据之间的二分图匹配的集合预测问题，直接预测HTOI集合中的元素，并以统一的方式优化提出的HTOI匹配损失。通过将HTOI检测问题转化为集合预测问题，并统一优化HTOI匹配损失，可以更好地捕捉HTOI实例之间的相互关系和交互动作。这种方法的优点在于，它可以从全局角度考虑HTOI检测问题，避免了传统方法中的分步骤处理，并且可以更好地处理HTOI实例之间的关系和交互。通过预测和匹配HTOI实例，HTOI检测器试图近似这个概率分布，以识别和定位图像中的人物、工具物体和交互。

用P = p i , i = 1, 2, ..., N表示预测的HTOI集合，N被选择为大于图像中HTOI关系数量的值，用G = g i , i = 1, 2, ..., M, , ..., />表示真实的HTOI集合，其中M ≤ N。M表示图像中真实HTOI实例的数量。通过将/>填充到真实集合中，使得两个集合的长度相等。

上述动作检测算法HTOI是通过优化来得到最优的结果。通过原图标注结果和输出结果之间的成对的对比损失来进行优化，是群体优化算法。通过定义一个损失代价，将匹配定义为一个单射函数：σG→P，来进行成对匹配，其中σ（i）是分配给第i个真实值HOI的预测值HOI的索引。匹配成本函数定义如下：

；

其中，为对比损失，N为集合中预测值的数量，/>为成本损失代价，/>为第i个真实值，/>为第i个预测值。

在训练的每个步骤中，我们首先需要找到真实值集合和当前预测值集合之间的最优一对一匹配。我们设计了以下用于HOI的匹配成本函数：

；

其中，为成本损失代价，/>为第i个真实值，/>为第i个预测值，/>为人物、物体和交互的类别标签，/>，/>为真实值/>对应的动作类别，/>为预测值对应的动作类别，/>为第一权重参数，/>为第j个组合对中人物h、工具t和物体o的交互i的类别置信度，/>为第二权重参数，/>为第k个组合对人物h边界框、工具t边界框和物体o边界框组合而成的组合框，/>为第k个组合框的回归损失。我们使用匈牙利算法来解决二分图匹配：

；

其中，为目标损失值，/>为集合中预测值的数量，arg min为取/>的最小值的函数，/>为对比损失。

匹配代价函数考虑了物体、动作和交互之间的匹配损失。通过最小化匹配成本，可以找到最佳的匹配方式，从而优化预设多层神经网络（HTOI模型，人、工具、物体检测模型）的训练。

可选地，根据各个组合对的组合情况，确定预测交互动作信息对应的三元检测框信息，包括：

确定每个人物边界框信息对应的人物置信度，并确定每个物体边界框信息对应的物体置信度，以及确定每个工具边界框信息对应的工具置信度；

根据各个人物置信度、各个物体置信度和各个工具置信度，确定每个组合对的三元交互概率；其中，一个组合情况对应一个三元交互概率；

三元交互概率的计算公式如下：

p(h,t,o,i)≈p(h)p(t)p(o)p(i|h,t,o)；

其中，p(h,t,o,i)为工具、交互和物体三者之间的三元交互概率，p(h)为人物置信度，p(t)为工具置信度，p(o)为物体置信度，p(i|h,t,o)为在给定人物边界框h、工具边界框t和物体边界框o的情况下，交互i发生的概率。

对于每个三元交互概率，若三元交互概率满足要求，则将对应的人物边界框信息、物体边界框信息和工具边界框信息之和作为预测交互动作信息的一个三元检测框信息。

本实施例中，根据各个人物边界框信息对应的人物置信度、各个物体边界框信息对应的物体置信度和各个工具边界框信息对应的工具置信度来计算三元交互概率。三元交互概率满足要求时，说明该三元交互概率对应的人物、工具和物体之间具有交互动作概率满足要求。将各个三元交互概率中满足要求的三元交互概率对应的人物边界框信息、物体边界框信息和工具边界框信息之和作为预测交互动作信息的一个三元检测框信息，该三元检测框信息中具有人物、工具和物体之间具有交互动作的概率较大，从而能够提高预测出的三元检测框信息的准确性。

在一些实施例中，通过几个MLP分支，将每个预测交互动作信息转换为一个三元交互实例（三元交互实例包括三元检测框信息和交互动作类别）。具体而言，有三个一层MLP分支分别用于预测人物置信度、物体置信度和交互置信度，还有两个三层MLP分支用于预测人物边界框和物体边界框。所有用于预测置信度的一层MLP分支都使用softmax函数。例如，对于人的置信度分支，输出大小为2。对于物体置信度分支和交互置信度分支，输出大小为C+1，表示数据集中定义的所有C种物体或动词的置信度。对于人物和物体框分支，输出大小为4。最后获得的三元检测框信息中包括框的归一化中心坐标（xc，yc）、高度和宽度。

本发明一种三元交互动作检测方法的网络结构图包括骨干网络（backbone）、Transformer编码器-解码器和多层感知器（MLP）。骨干网络：使用卷积神经网络（CNN）作为骨干网络，从输入图像中提取视觉特征。首先，将彩色的待测三元关系交互动作图像输入骨干网络中提取语义特征，生成一个形状为（H，W，C）的语义特征图，语义特征图包含待测三元关系交互动作图像中的高级语义概念。然后，使用1×1卷积层将语义特征图的通道维度从C降低到d。即使用flatten操作将语义特征图的空间维度折叠为一维，这样就得到了一个形状为[H×W，d]的降维特征图flatten feature。这种空间维度的转换很重要，因为接下来的Transformer编码器需要一个序列作为输入，因此可以将特征图解释为长度为H×W的序列，序列中每个时间步的值是一个大小为d的向量。其中，使用ResNet作为骨干网络，并将语义特征图conv-5的维度从C=2048降低到d=256。编码器：编码器基于标准的Transformer架构，包括多头自注意力机制模块和前馈神经网络（FFN）。理论上，Transformer架构是置换不变的。为了使其能够区分序列中的相对位置，将降维特征图中预设数量的图像块在降维特征图中位置进行编码，获得的降维特征图位置编码添加到多头注意力机制的每个注意力层的输入中。将降维特征图flatten feature和位置编码的和输入到Transformer编码器中，以总结全局信息，即，将位置编码添加至降维特征图中，获得全局信息图global memory。解码器：解码器层也基于Transformer架构，在编码器层的基础上增加了一个额外的多头交叉注意力机制。解码器利用多头交叉注意力机制，将全局信息图global memory、预设的查询规则HTOI queries和位置编码进行融合，即：将全局信息图作为Value，并将全局信息图与位置编码之和作为Key，以及将位置编码与预设的查询规则之和作为Query；获取预设的多头注意力机制的每个头中Value对应的第一权重、Key对应的第二权重和Query对应的第三权重；在每个头中，利用Value、第一权重、Key、第二权重、Query和第三权重，计算头的输出信息；将各个输出信息进行拼接，获得拼接信息；对拼接信息进行线性变换，获得预测交互动作信息output embeddings。多层感知器（MLP）用于将解码器输出的预测交互动作信息转换为三元检测框信息和交互动作类别。

本发明提供的三元交互动作检测方法，通过设计的基于Transformer架构的端到端交互动作检测方法，利用图像编码器从输入的场景图中提取多尺度图像特征，使用含有多个动态注意力机制头的解码器迭代更新图像查询，实现检测阶段的损失梯度回流，以达到优化检测的目的。设计的交互动作检测的架构能够稳定实现交互动作场景动作检测特征与识别特征提取、多尺度语义信息融合、物体边界框信息预测和动作序列预测，提高了三元关系交互动作检测的精确度，适用于多种现实场景下的三元关系交互动作检测与识别，特别是适合需要对持有工具操作的交互动作进行准确检测与识别的情况。不仅减轻了对图像中复杂背景的干扰，实现专注于场景中人操作工具对象定位的特点，对无人商超、安防、自动驾驶、医疗康复等大量现实世界应用具有重要价值。

如图2所示，本发明提供了一种三元交互动作检测系统，包括：

可选地，确定模块，具体用于：

对语义特征图进行降维，获得降维特征图。

可选地，确定模块，具体用于：

可选地，添加模块，具体用于：

将位置编码添加至降维特征图中，获得全局信息图。

可选地，融合模块，具体用于：

在每个头中，利用Value、第一权重、Key、第二权重、Query和第三权重，计算头的输出信息；

将各个输出信息进行拼接，获得拼接信息；

对拼接信息进行线性变换，获得预测交互动作信息。

可选地，转换模块，具体用于：

将各个人物边界框信息、各个物体边界框信息和各个工具边界框信息进行三三组合，获得多个组合对；

根据各个组合对的组合情况，确定预测交互动作信息对应的三元检测框信息；其中，三元检测框信息中包含有人、物体和工具的交互动作特征；

可选地，转换模块，具体用于：

根据各个人物置信度、各个物体置信度和各个工具置信度，确定每个组合对的三元交互概率；

本发明实施例的一种计算设备，包括存储器、处理器及存储在存储器上并在处理器上运行的程序，处理器执行程序时实现上述一种三元交互动作检测方法的部分或全部步骤。

其中，计算设备可以选用电脑，相对应地，其程序为电脑软件，且上述关于本发明的一种计算设备中的各参数和步骤，可参考上文中一种三元交互动作检测方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例中一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在运行时，执行上述的一种三元交互动作检测方法的步骤。

其中，计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开实施例方法的全部或部分步骤。而前述的计算机可读存储介质可以是非暂态计算机可读存储介质，包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态计算机可读存储介质。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种三元交互动作检测方法，其特征在于，包括：

获取待测三元关系交互动作图像；其中，所述三元关系交互动作图像中包含有人、物体和工具的交互动作；

确定所述待测三元关系交互动作图像的降维特征图；

为所述降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，所述位置信息为所述预设区域在所述降维特征图上的位置；

利用预设的多头注意力机制，将所述全局信息图和预设的查询规则进行融合，确定预测交互动作信息；

将所述预测交互动作信息转换为三元检测框信息和交互动作类别。

2.根据权利要求1所述的方法，其特征在于，所述确定所述待测三元交互动作图像的降维特征图，包括：

对所述待测三元关系交互动作图像进行语义特征提取，获得语义特征图；

对所述语义特征图进行降维，获得降维特征图。

3.根据权利要求2所述的方法，其特征在于，对所述语义特征图进行降维，获得降维特征图，包括：

使用拉平操作对所述语义特征图的空间维度折叠为一维，获得一维的降维特征图。

4.根据权利要求1所述的方法，其特征在于，所述为所述降维特征图上每个预设区域添加位置信息，确定全局信息图，包括：

将所述降维特征图划分为预设数量的图像块；其中，每个图像块作为一个预设区域；

对每个所述图像块在所述降维特征图中的位置进行编码，获得所述降维特征图的位置编码；

将所述位置编码添加至所述降维特征图中，获得全局信息图。

5.根据权利要求4所述的方法，其特征在于，所述利用预设的多头注意力机制，将所述全局信息图和预设的查询规则进行融合，确定预测交互动作信息，包括：

将所述全局信息图作为Value，并将所述全局信息图与所述位置编码之和作为Key，以及将所述位置编码与预设的查询规则之和作为Query；

获取预设的多头注意力机制的每个头中所述Value对应的第一权重、所述Key对应的第二权重和所述Query对应的第三权重；

在每个头中，利用所述Value、所述第一权重、所述Key、所述第二权重、所述Query和所述第三权重，计算所述头的输出信息；

将各个输出信息进行拼接，获得拼接信息；

对所述拼接信息进行线性变换，获得预测交互动作信息。

6.根据权利要求1所述的方法，其特征在于，所述将所述预测交互动作信息转换为三元检测框信息和交互动作类别，包括：

将所述预测交互动作信息输入预设多层神经网络中，执行以下步骤：

对所述预测交互动作信息进行特征提取，获得至少一个人物边界框信息、至少一个物体边界框信息和至少一个工具边界框信息；

根据各个组合对的组合情况，确定所述预测交互动作信息对应的三元检测框信息；其中，所述三元检测框信息中包含有人、物体和工具的交互动作特征；

在预设的交互分类库中查找出每个所述三元检测框中人、物体和工具的交互动作特征对应的交互动作类别。

7.根据权利要求6所述的方法，其特征在于，所述根据各个组合对的组合情况，确定所述预测交互动作信息对应的三元检测框信息，包括：

根据各个人物置信度、各个物体置信度和各个工具置信度，确定每个所述组合对的三元交互概率；

对于每个三元交互概率，若所述三元交互概率满足要求，则将对应的人物边界框信息、物体边界框信息和工具边界框信息之和作为所述预测交互动作信息的一个三元检测框信息。

8.一种三元交互动作检测系统，其特征在于，包括：

获取模块，用于获取待测三元关系交互动作图像；其中，所述三元关系交互动作图像中包含有人、物体和工具的交互动作；

确定模块，用于确定所述待测三元关系交互动作图像的降维特征图；

添加模块，用于为所述降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，所述位置信息为所述预设区域在所述降维特征图上的位置；

融合模块，用于利用预设的多头注意力机制，将所述全局信息图和预设的查询规则进行融合，确定预测交互动作信息；

转换模块，用于将所述预测交互动作信息转换为三元检测框信息和交互动作类别。

9.一种计算设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种三元交互动作检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1至7任一项所述的一种三元交互动作检测方法的步骤。