CN114782995A

CN114782995A - 一种基于自注意力机制的人交互行为检测方法

Info

Publication number: CN114782995A
Application number: CN202210500534.5A
Authority: CN
Inventors: 应凯宁; 王振华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-07-22

Abstract

本发明公开了一种基于自注意力机制的人交互行为检测方法，将预处理后的视频片段输入到构建好的识别网络模型，经过骨干网络提取时空特征，将提取的时空特征进行降维，然后将降维后时空特征进行展平，再进行位置编码得到含有位置信息的特征向量，将含有位置信息的特征向量输入到编码器中得到共享特征。然后通过两个解码器得到实例嵌入与交互关系嵌入，最后通过相似度解码器得到每一个实例与交互关系之间的实例交互特征，通过一个分类操作得到每一个实例与交互关系之间的相似度，确定每一实例所属的交互关系。

Description

一种基于自注意力机制的人交互行为检测方法

技术领域

本申请属于人交互行为检测技术领域，尤其涉及一种基于自注意力机制的人行为交互检测方法。

背景技术

对人交互行为理解是在计算机视觉领域非常基础的一个任务，其对下游任务都有很多帮助，比如视频监控、关键事件检索、全体行为理解以及体育分析。人交互行为理解的任务要求是对视觉信号中的人交互情况进行预测，其中要求对场景中的每一个人进行定位和动作类别预测，以及找出人与人之间的交互关系。由于交互这种行为比较抽象复杂，因此计算机完成精确的交互行为预测往往面临着较大的挑战。

现阶段的人交互行为理解主要有两个方向，分别为人交互行为分类以及人交互行为检测。人交互行为分类是近期比较热门的一个方向，给定一个场景以及给定了场景中的人的定位(目标框)，模型需要在此基础上对每一个人进行动作识别以及交互关系预测。

Spatio-Temporal CRF将识别任务分为了两个阶段，其中第一个阶段基于局部的视觉特征来区分交互与无交互，动作以及活动；在第二个阶段，动作以及活动将在局部预测结果的基础上使用全局的一种方式进行预测。基于这种假设，该方法提出了一种新颖的条件随机场(CRF)对交互行为进行时空建模。

CAGNet提出了一种一致性感知图网络对人与人进行建模，该方法由三个模块组成，首先使用了骨干网络用于提取视觉特征，一个因子图网络用于学习三阶交互关系以及一个一致性感知模块来强行地匹配动作识别以及交互预测的一致性，这种将交互人群用图的方式进行建模，并且采用一些逻辑对预测进行约束的方法在人交互行为分类上取得了先进的效果。

然而对人的交互行为检测却是一个很少被提及以及研究的方向，交互行为检测需要在仅仅给定场景的情况下，对场景中的人进行定位、分类以及交互情况预测，与对人交互行为分类相比多了检测的过程。

发明内容

本申请的目的是提供一种基于自注意力机制的人行为交互检测方法，较好地解决了交互行为检测问题，并且取得了令人满意的结果。

为了实现上述目的，本申请技术方案如下：

一种基于自注意力机制的人交互行为检测方法，包括：

对于待检测的图像帧，取其前后预设数量的图像帧组成一个视频片段，对视频片段进行预处理；

将预处理后的视频片段输入到快慢双通道网络SlowFast中，将所述快慢双通道网络SlowFast双通道输出的特征进行拼接，得到提取到的时空特征；

将提取的时空特征进行降维，然后将降维后时空特征进行展平，再进行位置编码得到含有位置信息的特征向量；

将含有位置信息的特征向量输入到神经网络Transformer的编码器中得到共享特征，将共享特征和实例查询输入到实例解码器，得到实例特征，将共享特征和交互关系查询输入到交互关系解码器，得到交互关系特征，并分别将实例特征和交互关系特征输入到预测网络中，进行分类、回归以及嵌入操作；

将嵌入操作得到的实例嵌入与交互关系嵌入拼接为实例交互对，然后将实例交互对和共享特征输入相似度解码器，得到每一个实例与交互关系之间的实例交互特征，通过一个分类操作得到每一个实例与交互关系之间的相似度，确定每一实例所属的交互关系。

进一步的，所述编码器包括6个多头注意力模块，每个多头注意力模块包括多头自注意力层、标准层、全连接层和标准层。

进一步的，所述实例解码器、交互关系解码器和相似度解码器，分别包括6个多头注意力模块，每个多头注意力模块包括多头自注意力层、标准层、多头交叉注意力连接层、标准层、全连接层和标准层。

进一步的，所述确定每一实例所属的交互关系，包括：

根据实例与交互关系之间的相似度，取最大相似度对应的交互关系作为实例所属的交互关系。

进一步的，所述交互关系中，没有实例从属的交互关系为无效交互关系。

本申请提出的一种基于自注意力机制的人行为交互检测方法，将预处理后的视频片段输入到构建好的识别网络模型，经过骨干网络提取时空特征，将提取的时空特征进行降维，然后将降维后时空特征进行展平，再进行位置编码得到含有位置信息的特征向量，将含有位置信息的特征向量输入到编码器中得到共享特征。然后通过两个解码器得到实例嵌入与交互关系嵌入，最后通过相似度解码器得到每一个实例与交互关系之间的实例交互特征，通过一个分类操作得到每一个实例与交互关系之间的相似度，确定每一实例所属的交互关系。本申请提出了一个新颖的基于自注意力的网络模型，将人交互行为检测任务变为一个分组的任务，从而方便的实现了人交互行为检测，且检测效果较好。

附图说明

图1为本申请一种基于自注意力机制的人交互行为检测方法流程图；

图2为本申请实施例识别网络模型结构示意图；

图3为本申请实施例编码器结构示意图；

图4为本申请实施例解码器结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于自注意力机制的人交互行为检测方法，包括：

步骤S1、对于待检测的图像帧，取其前后预设数量的图像帧组成一个视频片段，对视频片段进行预处理。

对于待检测的图像帧，也就是感兴趣的目标帧，需要对该帧进行人交互行为检测。本申请构建的识别网络模型在进行检测时，将待检测的图像帧作为中间帧，取其前后预设数量的图像帧组成一个视频片段，将视频片段输入到构建的识别网络模型(如图2所示)进行处理，得到检测结果。

本申请识别网络模型的输入为视频片段，上下帧给中间帧动作提供了上下文信息，识别网络模型最后输出对中间帧的人交互行为检测结果。

例如采用了5帧或8帧视频片段作为输入，其中5帧视频片段中第3帧为感兴趣的目标帧，而8帧视频片段中可以是第四针或第5帧视频为感兴趣的目标帧。本申请对感兴趣目标帧前后添加的视频帧不作严格的限制。

本实施例对视频片段还进行预处理，包括尺寸缩放、标准化等操作。在训练识别网络模型和对待识别图像帧进行识别时，对视频的处理方式是不同的。在训练的过程中，为了增强模型的泛化性能，需要对视频进行数据增广，首先将视频缩放至固定大小，在本方法中使用的大小为256×256，之后会对图片进行随机的翻转，也就是每一次的训练视频都以0.5的概率进行左右翻转，这样训练集的数据量增加了一倍，下一步对图像的像素值进行标准化，因为输入图片的像素范围为0到255，在这个范围内进行训练是不稳定，有必要将图片的像素值等比缩放到0至1。在训练好识别网络模型后，采用训练好的识别网络模型进行测试和正式识别时，不需要对视频进行数据增广，只需要保持与训练的时候一致的推理输入即可，具体来讲，只需要将视频进行缩放以及标准化即可。

在本实施例中，给定一个输入视频片段V_raw∈R^8×3×H×W，其中8代表8帧，3代表RGB通道数，H和W表示图像的高与宽，经过数据预处理后，变为V_input∈R^{8×3×256×256}。

步骤S2、将预处理后的视频片段输入到快慢双通道网络SlowFast中，将所述快慢双通道网络SlowFast双通道输出的特征进行拼接，得到提取到的时空特征。

本实施例采用了本领域中较为流行的快慢双通道网络SlowFast作为骨干网络，其核心是对同一个视频片段应用两个平行的卷积神经网络，一个慢通道，一个快通道。其中卷积神经网络本实施例采用的是ResNet50，要求的输入为Video∈R^{8×3×256×256}，8代表视频帧数，3代表RGB通道数，256代表宽高。SlowFast的输出有2个分支，分别为具有运动信息的Fast分支，以及具有空间信息的Slow分支。Fast分支对时间上的特征采样率变高，有助于提升运动特征的获取。在本申请中需要将两个分支进行融合，这里采用对特征进行调整形状(reshape)之后直接进行拼接，得到拼接后的时空特征。

具体的，将处理后的视频片段输入至SlowFast骨干网络用于提取图像特征，其中网络的输出为Fast∈R^{2×2048×16×16}以及Slow∈R^{8×256×16×16}，之后需要将两个不同分支进行合并，合并的方式如下：

Feat＝concatenate(Fast.reshape(4,1024,16,16),Slow.reshape(4,512,16,16))；

其中，concatenate操作表示张量(tensor)的拼接，reshape表示对张量进行变形，其中括号内的内容为变形后的形状，最终得到拼接后的时空特征Feat∈R^{4×1536×16×16}。

步骤S3、将提取的时空特征进行降维，然后将降维后时空特征进行展平，再进行位置编码得到含有位置信息的特征向量。

本步骤对骨干网络输出的特征进行降维，因为输入特征的通道数为1536，这个通道数对后续的模块来说复杂度过高，所以有必要在这里先对特征图进行降维，本实施例选取的维数为384。

本实施例识别网络模型的骨干网络之后，还包括一个编码器和两个解码器，编码器和解码器都由自注意力模块组成。自注意力模块的输入需要为序列，因此需要对输入的特征进行展平(flatten)操作，生成对应的特征向量。

之后本申请还给序列带上位置信息，本实施例采用比较流行的正余弦位置编码，其中每一个位置维度的编码长度为128，一共有三个位置维度(空间x和y以及时间t)，位置编码的形状与展平的特征向量一样，所以只需要将特征向量与位置编码进行相加即可。

具体的，对Feat∈R^{4×1536×16×16}进行降维并且展平后得到Flatten∈R^1024×384。

本实施例位置编码使用正余弦编码，将特征图上的所有像素进行位置编码，目的是为了使得特征图具有相对位置信息，具体如下：

其中

i表示一维坐标索引，pos表示属于哪一维度(空间或者时间)，其中d＝384，之后只需要将位置编码与展平后的特征向量相加即可得到Vector。其中位置编码包括空间上的二维以及时间上的一维。

步骤S4、将含有位置信息的特征向量输入到神经网络Transformer的编码器中得到共享特征，将共享特征和实例查询输入到实例解码器，得到实例特征，将共享特征和交互关系查询输入到交互关系解码器，得到交互关系特征，并分别将实例特征和交互关系特征输入到预测网络中，进行分类、回归以及嵌入操作。

本申请所采用的神经网络Transformer包括一个编码器和两个解码器。其中一个解码器是实例解码器，用于预测待检测图像帧中的实例特征；另一个解码器是交互关系解码器，用于预测待检测图像帧中的交互关系特征。

具体的，将Vector输入到一个Transformer的编码器Encoder中，其中Encoder由多头自注意力模块(Self-Attention)组成。如图3所示，编码器包括6个多头注意力模块，每个多头注意力模块包括多头自注意力层、标准层、全连接层和标准层。

具体过程如下：

Q,K,V表示常见注意力的三个组成部分，分别为Query，Key，Value，都是由特征向量组成，softmax是深度学习领域一个比较流行的激活函数，在这里d_k是为了使得梯度计算更加稳定，经过编码器以后生成了共享特征Memory∈R^1024×512。

之后将共享特征输入到两个不同的解码器中，其中解码器与编码器一样都由自注意力模块组成。如图4所示，实例解码器、交互关系解码器和相似度解码器，分别包括6个多头注意力模块，每个多头注意力模块包括多头自注意力层、标准层、多头交叉注意力连接层、标准层、全连接层和标准层。

实例解码器(instance decoder)的输入包括两个部分，分别为Memory和M个实例查询(instance query)，实例查询是可学习(可优化)的特征向量，经过训练优化之后它是数据集特征的一个的估计，作为模型在推理时候的初始值(类比于目标检测中的anchor)。经过解码器之后，会输出M个实例特征(instance feature)，对于每一个输出的实例特征Feature_instance，将其输入预测网络中，输出一个实例(即一个人)的信息，包括定位(目标框)、动作以及嵌入(用于求取相似度)，其中这些预测网络是在解码器之外，被所有的实例特征所共享的，其中目标框和动作会经过2个不同的回归头(regression head)后得到，嵌入直接通过一个前馈神经网络变换空间得到：

Instance_bbox＝Sigmoid(FFN_reg(Feature_instance))

Instance_action＝Sigmoid(FFN_action(Feature_instance))

Instance_embed＝FFN_embed(Feature_instance)

FFN表示前馈神经网络(全连接层、激活函数的封装)，不同的下标用于预测不同的输出，Sigmoid是一个激活函数，用于求取概率，Instance_bbox表示这个人的目标框坐标，Instance_action表示动作类别概率分布，Instance_embed则表示实例的语义嵌入。

另一个解码器为交互关系解码器(group decoder)，该解码器输入包括两个部分，分别为Memory和N个交互关系查询(group query)，经过解码器之后，会输出N个交互关系特征(group feature)，对于每一个输出的交互关系特征Feature_group，将其输入预测网络中，会输出一组交互关系的信息，包括定位(交互发生的目标框)以及交互关系嵌入(用于求取相似度)，其中这些预测网络是在解码器之外，被所有的交互关系特征所共享的，其中目标框1个回归头后得到，嵌入直接通过一个前馈神经网络变换空间得到：

group_bbox＝Sigmoid(FFN_reg(Feature_group))

group_embed＝FFN_embed(Feature_group)

其中group_bbox表示这个交互组的目标框坐标，group_embed则表示实例的语义嵌入。

步骤S5、将嵌入操作得到的实例嵌入与交互关系嵌入拼接为实例交互对，然后将实例交互对和共享特征输入相似度解码器，得到每一个实例与交互关系之间的实例交互特征，通过一个分类操作得到每一个实例与交互关系之间的相似度，确定每一实例所属的交互关系。

将实例嵌入与交互关系嵌入进行组合(特征拼接)，得到M×N个实例交互对，将实例交互对以及共享特征输入至相似度解码器及分类器，得到每一个实例与每一个交互组之间的相似度，通过相似度来筛选交互情况。

本步骤将两个解码器的结果进行统一组合，就可以得到场景中的交互情况，包括一共有几组交互行为以及每一组交互有哪些实例。

本实施例将M个Instance_embed以及N个group_embed进行组合拼接，一共可以得到N×M个instance-group实例交互对(pair)，将这些实例交互对输入至相似度解码器中，其中相似度解码器还接受共享解码器中的输出共享特征，相似度解码器输出为实例交互特征，对于其中的每一个实例特征i，相对于交互关系j的实例交互特征，表示为

然后通过一个全连接层以及激活函数sigmoid求得这个实例特征与交互关系特征的相似度，表示i实例属于这个交互关系的概率。

在一个具体的实施例中，所述确定每一实例所属的交互关系，包括：

即对于每一个实例，可以获取其对N个交互关系的相似度，取其中最大的相似度的交互关系作为所属的交互关系即可，这种操作对所有的M个实例进行以后，可以得到所有的实例所属的交互关系，那些没有实例从属的交互关系就是无效交互关系。

需要说明的是，本申请中编码器、实例解码器、交互解码器、相似度解码器都采用了自注意力模块，采用自注意力模块来作为解码器或编码器，是本领域比较成熟的技术，这里不再赘述。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于自注意力机制的人交互行为检测方法，其特征在于，所述基于自注意力机制的人交互行为检测方法，包括：

2.根据权利要求1所述的基于自注意力机制的人交互行为检测方法，其特征在于，所述编码器包括6个多头注意力模块，每个多头注意力模块包括多头自注意力层、标准层、全连接层和标准层。

3.根据权利要求1所述的基于自注意力机制的人交互行为检测方法，其特征在于，所述实例解码器、交互关系解码器和相似度解码器，分别包括6个多头注意力模块，每个多头注意力模块包括多头自注意力层、标准层、多头交叉注意力连接层、标准层、全连接层和标准层。

4.根据权利要求1所述的基于自注意力机制的人交互行为检测方法，其特征在于，所述确定每一实例所属的交互关系，包括：

5.根据权利要求4所述的基于自注意力机制的人交互行为检测方法，其特征在于，所述交互关系中，没有实例从属的交互关系为无效交互关系。