CN114613004B

CN114613004B - 一种人体动作的轻量化在线检测方法

Info

Publication number: CN114613004B
Application number: CN202210206087.2A
Authority: CN
Inventors: 程建; 夏子瀛; 刘思宇; 王琪; 马琦钧
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-08-01
Anticipated expiration: 2042-02-28
Also published as: CN114613004A

Abstract

本发明属于视频处理技术领域，具体涉及一种人体动作的轻量化在线检测方法，本发明包括：步骤1：采集视频数据并标注分块；步骤2：对视频块预处理并生成在线检测数据集；步骤3：基于SlowFast构建特征提取网络，得到视频块特征；步骤4：构建基于双路孪生网络对特征进行辨别性映射；步骤5：构建基于Informer概率稀疏注意力与注意力蒸馏的时序编码器，得到时序编码特征；步骤6：构建基于Informer概率稀疏注意力的时序解码器进行时序解码，将解码结果送入分类器得到人体动作在线检测结果,基于多时态检测结果对整体网络联合优化；本发明通过上述技术方案，极大减少了时序推理运算量，提高了在线动作检测效率和精度。

Description

一种人体动作的轻量化在线检测方法

技术领域

本发明属于视频处理技术领域，具体涉及一种人体动作的轻量化在线检测方法。

背景技术

目前，人体动作在线检测任务要求在一个视频流中，根据已观测到的多帧图像结合当前时刻图像帧对该时刻的人体动作进行识别。人体动作在线检测是视频理解领域一个极具挑战性的任务，在不取得完整时空动作信息的前提下对人体动作进行实时帧级动作类别划分，要求模型更高更快的时序推理能力，这对于该领域的发展存在重大研究意义。另一方面，人体动作在线检测对于多项现实任务具有发展意义，由于该技术无需对动作完整观测即可对动作进行识别，从而使智能设备对该动作实时做出反应，在视频监控、无人驾驶与智能人机交互等技术领域存在极大的应用价值。

现有人体动作在线检测方法主要是基于深度循环神经网络对人体动作进行在线识别。该类方法通过将多个连续视频块提取特征后送入循环神经序列进行时序推理得到在线检测结果，该类方法受限于循环神经网络自身的序列结构特性，必须将按时间顺序进行逐步推理，计算耗时耗力，且对于长序列输入不仅推理缓慢无法做到实时检测，且推理过程随网络加深中会大量丢失时间信息。因此现有技术的人体动作在线检测效率和精度普遍较低。

发明内容

本发明拟提供一种人体动作的轻量化在线检测方法，拟解决人体动作在线检测效率和精度较低的问题。

为解决上述技术问题，本发明采用的技术方案如下：

一种人体动作的轻量化在线检测方法，包括以下步骤：

步骤1：采集人体动作视频数据，对人体动作视频进行标注分块，得到作为训练样本的多个视频块序列；

步骤2：对步骤1中得到的所有视频块做预处理，得到视频序列数据集，并将视频序列数据集分为测试集和训练集；

步骤3：基于SlowFast模型构建特征提取网络，并基于所构建的特征提取网络提取人体动作在线检测数据集中的每个视频块的特征，得到视频块时空特征；

步骤4：基于双路孪生网络设计辨别性特征映射网络，并基于所述辨别性特征映射网络对视频块时空特征进行辨别性映射，得到映射向量；

步骤5：基于Informer模型的概率稀疏注意力与注意力蒸馏，构建时序编码器，并通过时序编码器对映射向量进行特征编码，得到编码向量序列；

步骤6：基于Informer模型的概率稀疏注意力构建时序解码器，并通过时序解码器对编码向量序列进行时序解码，得到解码结果；将解码结果送入分类器得到人体动作在线检测结果，并基于多时态的检测结果对整体网络联合优化；

对整体网络联合优化的具体步骤如下：

步骤A:对过去时刻以及未来时刻进行人体动作识别，得到预测概率p_i，具体为：

p_i＝Classifier(y_i) (i＝-T+1,...P,i≠0)；

其中y_i表示解码输出序列中第i个解码向量，Classifier()表示动作识别分类器，由一个输出维度为动作类别数的全连接层和Softmax函数级联而成；

步骤B：利用标准交叉熵函数计算过去时刻预测损失L_p以及未来时刻损失L_f，具体的：

其中g_i表示第i个视频块对应的动作标签，p_i为该时刻预测概率；

步骤C：对于现在时刻，将y中过去时刻与未来时刻向量平均后与y₀级联得到人体动作在线预测向量Y；将人体动作在线预测向量Y送入分类器后得到人体在线动作检测概率p₀,并用标准交叉熵计算预测损失L_n：

并利用多时态联合损失函数L对整体网络参数进行优化，其表达式为：

其中λ₁,λ₂为人为设定的平衡系数，L_c表示对比损失，最后将p₀中概率最大的动作类别作为在线动作检测结果。

本发明采用孪生网络对特征序列进行映射，增加输入时序特征序列辨别性。为了减少长时信息丢失与时序推理的时间问题，本发明基于Informer模型的概率稀疏注意力构建时序编码器进行时序推理，并结合注意力蒸馏进一步的提高推理效率。采用Informer模型的概率稀疏注意力构建时序解码器，通过多时态融合生成式解码提升人体动作在线检测精度和速度。

优选的，所述步骤1包括以下步骤：

步骤1.1：采用影像设备采集人体动作视频数据；

步骤1.2：对人体动作视频数据中的人体动作做时序上的标注；

步骤1.3：对人体动作视频数据按预设的固定时间长度进行分块，得到视频块序列；

步骤1.4：设定输入时间序列长度，按时间顺序将长度为序列长度的视频块序列作为单个训练样本。

优选的，所述步骤2包括以下步骤：

步骤2.1：将训练样本中的所有视频块序列中的图像帧分辨率修改为256*256；

步骤2.2：对修改后的图像帧分辨率进行随机裁剪，得到图像帧分辨率为224*224的视频块序列数据集；

步骤2.3：将原始视频(刚采集到的视频数据)按照1:1的比例划分为训练集和测试集，分别用于训练和测试。

优选的，为了获取更优的特征提取能力，所述步骤3中构建特征提取网络时，还需将特征提取网络在Kinetics数据集上进行训练。

优选的，步骤3中所述的特征提取网络结构采用SlowFast模型中的date layer的时序抽取操作，以及Slow Pathway中的conv1到res5的卷积层和池化层。

优选的，所述双路孪生网络采用两层共享参数的全连接层网络构建，使用Xavier初始化策略对全连接层网络的网络参数进行初始化，即：层输入维度为f_in，层输出维度为f_out，其初始化参数ω服从均值为0，方差为的高斯分布：

网络训练时，将步骤3中输出的视频块时空特征序列x_-T+1,…,x₂,x₁,x₀中的x₀与序列的其余特征{x_-T+1,…,x₂,x₁}分别配对，得到(x_-T+1,x₀),…,(x₁,x₀)特征对序列，其中x₀代表当前时刻的视频块时空特征；将经过配对的特征对送入辨别性特征映射网络进行训练，通过对比损失L_C对辨别性特征映射网络进行优化，其表达式为：

其中W为网络参数，当X₁,X₂为同一类别时Y＝1，否则Y＝0，D_w为两向量间的欧式距离，m为向量间距离阈值。

优选的，所述时序编码器首先将输入的特征向量序列进行位置编码，加入序列的位置信息，基于Informer编码器对z进行编码，得到编码后的向量序列h；

h＝EN(z)；

利用概率稀疏自注意力层计算z的中序列间的时序自注意力，利用注意力蒸馏层对注意力序列进行蒸馏压缩；采用多个概率稀疏注意力和注意力蒸馏层级联而成，数量为n:n-1。

优选的，所述时序解码器构建出P个可学习向量，且时序解码器所构建的向量维度与步骤4中的输出维度相同，且与步骤4中的输出向量级联，利用1个概率稀疏注意力层计算可学习向量间的自注意力后，再通过一个全注意力层计算与编码输出间的互注意力，得到过去、现在以及未来三时态解码向量。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明通过使用对比学习的孪生网络对特征序列进行映射，增加了输入时序特征序列辨别性；并且为了减少长时信息丢失与时序推理的时间问题，基于Informer模型的概率稀疏注意力结构构建时序编码器进行时序推理，并结合注意力蒸馏进一步提高推理效率。采用Informer模型的概率稀疏注意力构建时序解码器，通过多时态融合生成式解码提升人体动作在线检测精度与速度。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的流程示意图；

图2为本发明的数据样本构建流程图；

图3为本发明所构建的视频块特征提取网络结构图；

图4为本发明的时序解码器结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1和附图4对本发明的实施例作详细描述；

一种人体动作的轻量化在线检测方法，包括以下步骤：

所述步骤1包括以下步骤：

步骤1.1：采用影像设备采集人体动作视频数据；

所述步骤2包括以下步骤：

步骤3：基于SlowFast模型构建特征提取网络，并基于所构建的特征提取网络提取人体动作在线检测数据集中的每个视频块的特征，得到视频块时空特征；为了获取更优的特征提取能力，在构建特征提取网络时，还需将特征提取网络在Kinetics数据集上进行训练。所述的特征提取网络结构采用SlowFast模型中的date layer的时序抽取操作，以及Slow Pathway中的conv1到res5的卷积层和池化层。

步骤4：基于双路孪生网络设计辨别性特征映射网络，并基于所述辨别性特征映射网络对视频块时空特征进行辨别性映射，得到映射向量；所述双路孪生网络采用两层共享参数的全连接层网络构建，使用Xavier初始化策略对全连接层网络的网络参数进行初始化，即：层输入维度为f_in，层输出维度为f_out，其初始化参数ω服从均值为0，方差为的高斯分布：

步骤5：基于Informer模型的概率稀疏注意力与注意力蒸馏，构建时序编码器，并通过时序编码器对映射向量进行特征编码，得到编码向量序列；所述时序编码器首先将输入的映射向量序列进行位置编码，加入序列的位置信息，基于Informer编码器对z进行编码，得到编码后的向量序列h；

h＝EN(z)；

步骤6：基于Informer模型的概率稀疏注意力构建时序解码器，并通过时序解码器对编码向量序列进行时序解码，得到解码结果；所述时序解码器构建出P个可学习向量，且时序解码器所构建的向量维度与步骤4中的输出维度相同，且与步骤4中的输出向量级联，利用1个概率稀疏注意力层计算可学习向量间的自注意力后，再通过一个全注意力层计算与编码输出间的互注意力，得到过去、现在以及未来三时态解码向量。

将解码结果送入分类器得到人体动作在线检测结果，并基于多时态的检测结果对整体网络联合优化。对整体网络联合优化的具体步骤如下：

p_i＝Classifier(y_i) (i＝-T+1,...P,i≠0)；

本发明采用孪生网络对特征序列进行映射，增加输入时序特征序列辨别性。为了减少长时信息丢失与时序推理的时间问题，本发明基于Informer概率稀疏注意力构建时序编码器进行时序推理，并结合注意力蒸馏进一步的提高推理效率。采用Informer概率稀疏注意力构建时序解码器，通过多时态融合生成式解码提升人体动作在线检测精度和速度。

下面通过具体的实施方式对本发明作出进一步的描述：

步骤1：利用影响设备采集原始视频，人为对视频中的人体动作进行时序上的标注，将所采集的原始视频按帧率τ进行采样后，得到该视频图像的帧序列；设定视频块长度为L，按时间顺序将每L帧图像组成一个视频块(chunk)，每个视频块对应的原始视频时间的长度为特别的，对于帧序列尾部不足长度L的视频块，通过复制该视频块最后一帧图像来补足长度L。本发明使用视频块作为最小时间处理单元，形状为3×L×H×W，其中H和W表示图像的高和宽，将该视频块的中间帧(/>帧)所对应的动作类别作为该视频块的动作类别。

步骤2：对经过步骤1得到的视频块进行预处理；在本实施例中，首先将视频块的图像帧分别率调整为256*256，再对图像帧进行随机裁剪得到224*224分别率的图像帧，预处理后视频块的形状为3×L×224×224；对原视频以随机抽取的方式，按照1:1的比例将原始视频(刚获取到未经过处理的视频)划分为训练集和测试集，对每个视频中基于预处理的视频块序列构建数据样本；具体的，按原始视频时间顺序对视频块进行排列；设定输入序列长度为T的时间窗，以步长1对视频块序列进行重叠滑窗，每次得到长度为T的视频块序列作为一个数据样本，其数据形状为T×3×L×224×224，具体操作步骤如图2所示。

步骤3：为增加同类时空特征间的相似性与异类时空特征间的辨别性，基于对比学习中双路孪生网络的思想设计辨别性特征映射模块。本实施例中，利用双层全连接层进行模块构建，其输出维度分别为1024，2048，使用Xavier初始化策略对该模块网络参数进行初始化，具体的，层输入维度为f_in，层输出维度为f_out，其初始化参数为：

网络训练时，将步骤3中输出的视频块时空特征序列x_-T+1,…,x₂,x₁,x₀中的x₀与序列特征分别配对，得到(x_-T+1,x₀),…,(x₁,x₀)特征对序列，其中x₀代表当前时刻的视频块时空特征，将该视频块时空特征送入映射模块进行训练，通过对比损失对该模块进行优化，其表达式为：

其中，W为网络参数，当X₁,X₂为同一类别时Y＝1，否则Y＝0，D_w为两向量间的欧式距离，m为向量间距离阈值，在本实例中m＝0.25。最后得到辨别性映射向量序列x′。

步骤5：如图4所示，基于Informer模型的稀疏注意力机制构建时序编码器，通过所构建的时序编码器对映射后的特征进行编码。具体的，将特征序列进行位置编码以加入序列位置信息，在本实施例中，采用固定位置编码生成编码向量，表达式如下所示：

其中，pos代表位置下标，i代表向量维度下标，d_model表示编码向量维度，在本实例中与映射后特征序列相同，为2048。将生成位置向量与x′相加得到编码后向量z作为编码器输入。基于时序编码器对z进行编码，得到编码后向量序列h：

h＝EN(z)；

具体的，利用概率稀疏自注意力(ProbAttention)层计算z中序列间的时序自注意力，利用注意力蒸馏层对注意力序列进行蒸馏压缩，具体表达式如下：

h_i＝Distil(ProbAtten(h_i-1,h_i-1,c))(h₀＝z)；

其中c表示稀疏系数，h_i表示第i个注意力蒸馏层的输出，蒸馏层函数表达式为：

Distil(h_i′)＝MaxPool(ELU(Conv1d(h_i′)))；

其中：卷积层卷积核大小为3，步长为1，padding为1，最大池化层核大小为3，步长为2，padding为1。具体地，在本实例中c＝5，注意力输出维度为1024，并使用4个概率稀疏注意力层以及3个注意力蒸馏层构成时序编码器，最后编码输出形状为

步骤6：如图4所示，基于Informer解码器结构构建时序解码器，并将时序解码器的解码结果送入分类器得到人体动作在线检测结果。设定预测长度P，首先生成P个维度为1×1024的可学习向量作为预测解码向量，将步骤104中所得映射向量与预测解码向量级联得到解码输入向量X_d，其形状为(T+P)×1024。基于时序解码器对X_d进行时序解码，得到解码输出y。具体地，将X_d送入概率稀疏注意力层计算解码序列间自注意力后再通过全注意力层计算与编码输出序列间的互注意力，其表达式为：

在本实例中，设定动作类别数量为N,构建输入维度为1024，输出维度为N的分类层。训练时，首先对过去时刻以及未来时刻进行人体动作识别，得到预测概率p_i，具体为：

p_i＝Classifier(y_i) (i＝-T+1,...P,i≠0)；

利用标准交叉熵函数计算过去时刻预测损失L_p以及未来时刻损失L_f，具体的：

其中g_i表示第i个视频块对应的动作标签。对于现在时刻，将y中过去时刻与未来时刻向量平均后与y₀级联得到人体动作在线预测向量Y。将预测向量Y送入分类器后得到人体在线动作检测概率p₀,并用标准交叉熵计算预测损失L_n：

其中λ₁,λ₂为人为设定的平衡系数，在本实例中λ₁＝0.25,λ₂＝0.25。

最后将p₀中概率最大的动作类别作为在线动作检测结果。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种人体动作的轻量化在线检测方法，其特征在于，包括以下步骤：

对整体网络联合优化的具体步骤如下：

p_i＝Classifier(y_i)(i＝-T+1,...P,i≠0)；

2.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，所述步骤1包括以下步骤：

步骤1.1：采用影像设备采集人体动作视频数据；

3.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，所述步骤2包括以下步骤：

步骤2.3：将原始视频数据按照1:1的比例划分为训练集和测试集，分别用于训练和测试。

4.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，所述步骤3中构建特征提取网络时，还需将特征提取网络在Kinetics数据集上进行训练。

5.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，步骤3中所述的特征提取网络结构采用SlowFast模型中的date layer的时序抽取操作，以及SlowPathway中的conv1到res5的卷积层和池化层。

6.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，所述双路孪生网络采用两层共享参数的全连接层网络构建，使用Xavier初始化策略对全连接层网络的网络参数进行初始化，即：层输入维度为f_in，层输出维度为f_out，其初始化参数ω服从均值为0，方差为的高斯分布：

7.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，所述时序编码器首先将输入的特征向量序列进行位置编码，加入序列的位置信息，基于Informer编码器对z进行编码，得到编码后的向量序列h；

h＝EN(z)；

8.根据权利要求1所述的一种人体动作的轻量化在线检测方法，其特征在于，所述时序解码器构建出P个可学习向量，且时序解码器所构建的向量维度与步骤4中的输出维度相同，且与步骤4中的输出向量级联，利用1个概率稀疏注意力层计算可学习向量间的自注意力后，再通过一个全注意力层计算与编码输出间的互注意力，得到过去、现在以及未来三时态解码向量。