CN114926900A

CN114926900A - 一种前背景分离的人体动作在线检测方法

Info

Publication number: CN114926900A
Application number: CN202210532569.7A
Authority: CN
Inventors: 程建; 夏子瀛; 刘思宇; 侯琴; 吴雨恒
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-19
Anticipated expiration: 2042-05-10
Also published as: CN114926900B

Abstract

本发明属于视频处理技术领域，具体涉及一种前背景分离的人体动作在线检测方法，本发明包括：采集包含人体动作的视频数据并做时序标注；对原始视频数据进行预处理生成数据集；构建基于I3D的骨干网络进行特征提取；构建特征映射模块，设计基于特征模长的对比损失函数，对前背景特征进行初次分离；构建可学习的前景记忆特征与互注意力模块，计算特征序列元素与前景的相似性以分离前背景；构建基于自注意力机制的时序推理器，结合前背景分离结果对特征序列编码；构建分类器基于编码结果完成对人体动作的在线检测。本发明在极少增加模型运算量的前提下，极大提高了待检测人体动作视频帧与历史视频帧之间的辨别性，进而提高人体动作在线检测的检测精度。

Description

一种前背景分离的人体动作在线检测方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种前背景分离的人体动作在线检测方法。

背景技术

在信息通信技术以及多媒体技术日益发展的数字化时代背景下，视频或在线视频流已成为人类日常社交、安防分析以及智能城市等多个技术领域的关键信息载体，对视频内容进行分析和理解相关技术的需求也日益增加。其中，对视频中的人类动作检测与识别，是视频分析与理解问题的重要组成部分。现有基于视频的人体动作分析与理解技术主要集中于对已剪辑好的视频中的人体动作进行识别以及对未剪辑的视频中的动作进行检测分类，难以满足现实各类应用任务如无人驾驶，智慧监控等应用中的实时分析应用需求，人体动作在线检测为以上技术缺陷提供了一种解决方法。

人体动作在线检测任务要求基于已观测到的历史视频图像信息以及当前时刻的图像信息，对当前时刻的人体动作进行识别。该任务可应用于在线视频流中，可实现对人体动作的实时检测。现有的动作在线检测方法中，主要基于深度学习进行实现。具体地，由于该任务无法得到未来动作信息，现有方法主要基于RNN以及Transformer等时序推理模型，通过特征映射及计算注意力等方式，探寻当前时刻图像与历史帧序列中各图像间的相关性，通过增加非相关帧间特征的距离或对图像序列进行相关性加权，提升模型推理时当前图像与其余非相关图像之间的辨别性，以提高检测性能。

然而，由于人体动作与背景间存在类间差异大，类内差异小的特性，且各类动作背景间表现差异极大，几乎不存在共享语义信息。因此当前时刻图像帧与其余历史图像帧间的相关性无论从原始图像层面还是特征层面都并不明显，从而导致现有基于相关性分析的人体动作在线检测方法无法有效提升帧间辨别性，进而导致检测精度普遍较低。

发明内容

为了解决上述现有技术中存在的技术问题，本发明提供了一种前背景分离的人体动作在线检测方法，拟解决现有人体检测方法中动作与背景的特征辨别性不足而导致的检测精度较低的问题。

本发明采用的技术方案如下：

一种前背景分离的人体动作在线检测方法，包括以下步骤：

步骤1：采集包含人体动作的视频数据，并对视频数据中的人体动作标注动作起始时间、结束时间以及动作类别，得到原始视频数据集；

步骤2：对原始视频数据集按预定比例进行随机划分得到训练集和测试集，并分别对原始视频数据集中的数据进行预处理和构建训练样本；

步骤3：基于I3D(Inflated 3D ConvNet)构建特征提取模块，对原始视频数据集中的数据进行特征提取，得到人体动作特征；

步骤4：构建基于多层感知机的特征映射模块，并通过基于特征模长设计的对比损失对输入特征序列中的前背景特征在特征空间中分离；

步骤5：构建维度与步骤4中的输出维度相同的可学习前景记忆特征向量与基于互注意力的相似性度量模块，得到与输入特征序列对应的前背景类别概率向量；

步骤6：构建基于自注意力机制的时序推理器，利用步骤5中得到的前背景类别概率向量对输入特征序列进行加权后，输入时序推理器进行编码，得到编码序列特征；

步骤7：构建分类器，并将构建的分类器送入编码序列特征得到人体动作在线检测结果，并基于结果通过联合损失函数对模型进行优化。

本发明首先采用基于特征模长的对比损失函数在特征空间上提升前景与背景特征之间的特征辨别性后，基于互注意力机制计算与可学习前景特征向量的特征相似性，进而得到各图像前背景类别概率向量。基于以上分离结果对原特征提取输出的特征序列进行加权，并送入基于自注意力机制搭建的时序推理器进行时序编码，最后通过分类器得到在线动作检测结果，有效提高人体动作在线检测的精度。

优选的，所述步骤2包括以下步骤：

步骤2.1：按照预定的比例将原始视频数据集随机划分得到训练集和测试集；

步骤2.2：将原始视频数据集中的原始视频以32FPS进行抽帧，得到RGB图像帧序列；

步骤2.3：将RGB图像帧序列的分辨率调整至256*256，并对训练集中的视频数据进行随机裁剪得到分辨率为224*224的图像，并以概率p进行随机翻转；并将测试集中的视频数据的分辨率大小调整至224*224；

步骤2.4：对经过步骤2.3处理的RGB图像帧序列采用TVL1算法计算光流图像；

步骤2.5：将包含16帧RGB图像和16帧光流图像的16帧图像构成一组视频块，作为动作特征提取的最小单元，以L个单元构成输入的单个训练样本X＝(x_-L+1,...,x₀)。

优选的，步骤3中所述的特征提取模块，基于I3D网络结构，由1个3D卷积模块以及3个Inception模块组成，对步骤2中输出序列进行特征提取后分别得到维度为N的RGB特征向量以及光流特征向量，并将RGB特征向量以及光流特征向量级联得到人体动作特征X_f。

优选的，步骤4中所述的多层感知机由两层输入输出维度相等，且大小为N的线性层级联而成，所述多层感知机的输出为特征序列X′_c。

优选的，步骤4中所述的基于特征模长设计的对比损失的表达式如下：

式中：M表示前背景特征模长分离阈值，

与

分别表示输入特征序列X′_c中第i个前景特征第j个背景特征的2范数大小，A和B分别表示输入特征序列中前景特征与背景特征的数目。

优选的，所述步骤5包括以下步骤：

步骤5.1：使用线性层将输入特征序列X′_c映射为X_fb，维度大小为N；

步骤5.2：使用参数初始化方法构建长度为N的可学习前景记忆特征向量；

步骤5.3：使用矩阵乘法计算X_fb中各特征与前景记忆特征向量的相似性；具体表达式如下所示：

式中：S表示相似性；

表示记忆特征向量的转置，N表示X_fb的维度大小。

步骤5.4：基于相似性使用Sigmoid函数计算二分类前背景类别预测概率；具体表达式如下所示：

p_fb＝Sigmoid(S)；

式中：p_fb表示前背景类别预测概率；

步骤5.5：基于前背景类别预测概率使用基于Focal Loss二元交叉熵损失对特征映射模块以及相似性度量模块中的网络进行优化；具体表达式如下所示：

式中：

表示交叉熵损失，p_fb,l与y_fb,l分别表示样本中第l单元的前背景类别预测概率与真实标签；

优选的，所述步骤6包括以下步骤：

步骤6.1：通过一个全连接层将特征序列X_f映射至维度N得到X′_f；根据前背景类别预测概率，设定激活阈值，再使用阶跃函数得到二值序列，具体表达式如下所述：

S＝ε(p_fb-θ_f)

式中：S_i表示二值序列S中的第i个元素，对S中的元素进行复制与升维，得到

其中L表示时间长度，N表示特征维数；p_fb表示前背景类别预测概率；θ_f表示激活阈值；P_fb,i表示二值序列中第i个元素的前背景类别预测概率；

步骤6.2：基于二值序列，使用残差连接对X′_f进行加权，得到待推理样本，具体表达式如下所述：

X′＝X′_f+X′_f⊙S′；

步骤6.3：使用自注意力模块与全连接层组成的时序编码器对待推理样本进行时序推理并进行编码，得到编码序列特征，具体表达式为：

Y＝Reasoner(X′)；

式中：Y表示编码序列特征。

本发明由步骤6.1中的映射网络、步骤6.2中的加权操作以及步骤6.3中的时序编码器共同构成所述时序推理器。

优选的，所述时序编码器由一个自注意力层与一个全连接层组成，自注意力层和全连接层的输入输出均存在残差连接。

优选的，步骤7中通过分类器得到在线动作预测概率后，将在线动作预测概率中概率最大的动作/背景类别作为动作在线检测结果，使用交叉熵损失函数

计算损失，其表达式为：

式中：pⁿ,yⁿ分别表示在线动作预测概率与真实动作标签。

联合损失函数

为：

式中：α表示损失平衡系数；L_c为前背景分离对比损失；

为二元交叉熵损失。

本发明的有益效果包括：本发明从前背景分离的角度出发，采用基于对比损失与可学习前景特征向量的互注意力相似性计算，实现对输入特征序列所属前背景类别的有效分离；基于分离结果对输入特征进行加权有效提升了待检测图像帧与历史帧间的特征辨别性，进一步结合自注意力模块与分类器进行在线动作检测，并通过联合损失优化模型以有效提升在线动作检测精度。

附图说明

图1为本发明中一种前背景分离的人体动作在线检测方法流程示意图；

图2为本发明中数据预处理流程图；

图3为本发明中特征提取模块结构图；

图4为本发明中一种前背景分离的动作检测器结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1和附图4对本发明的实施例作进一步的详细说明：

以下结合具体实施例对本发明作进一步详细描述：

参见附图1所示，一种背景分离的人体动作在线检测方法，包括以下步骤：

步骤1中：利用视频采集设备采集原始人体动作视频数据，通过人工进行动作在时序上的标注，得到原始视频数据集；具体包括动作起始时间s，动作结束时间e以及动作类别c。其中动作起始时间s与结束时间e标注的时间精度为毫秒级。

步骤2中：对原始视频图像进行预处理。首先对原始视频数据进行随机划分，具体为按比例1:1将已采集的n个视频随机划分为训练集和测试集。对训练集和测试集中的视频按32FPS进行抽帧处理，使连续16帧图像包含原视频中0.5s的信息。将原始分辨率为W×H的抽帧图像分辨率改为256×256。对于训练集图像通过随机裁剪与概率为0.5的随机翻转操作进行数据增强，对于训练集则将分辨率改为224×224以保证与训练集图像分辨率大小一致。对各视频使用TVL1算法计算视频的光流图，其输出光流图分辨率为224×224。最后以16帧连续视频图像(分别包含16帧RGB图像和16帧光流图像)为一组构成视频块作为后续特征提取的输入单元，以连续L个单元作为单个训练样本和测试样本X＝(x_-L+1,...,x₀),在本实例中L＝64，其详细处理步骤如图2所示。

步骤3中：基于I3D网络结构构建双流特征提取器，分别对输入序列中各单元提取外观特征和运动特征。特征提取器结构由1个卷积模块和3个Inception模块组成。经过特征提取后分别得到RGB特征f_i ^RGB与光流特征f_i ^FLOW，维度都为N＝1024，其中i＝{-L+1,...,0}。将RGB特征f_i ^RGB与光流特征f_i ^FLOW在特征维度级联，得到输入序列中各单元时空特征

后，得到本发明中前背景分离的人体动作在线检测器输入X_f＝{f_-L+1,...,f_-1,f₀}。

步骤4中：将X_f输入到特征映射模块，该模块由两层输入输出维度相等，大小为2N的线性层构成，这里的线性层结构为：全连接层-ReLU层-Dropout层(p＝0.5)，模块输出为X′_c＝{f′_-L+1,...,f′_-1,f′₀}。以上线性层通过基于模长的前背景分离对比损失作为映射损失进行优化，其表达式为：

其中M表示前背景特征模长分离阈值，

与

分别表示输入特征序列X′_c中第i个前景特征第j个背景特征的2范数大小，A和B分别表示输入特征序列中前景特征与背景特征的数目，在本实例中M＝50。

步骤5中：将X′_c输入到基于互注意力的相似性度量模块，具体为首先将X′_c输入一个线性层得到

使用标准正态分布初始化一个可学习前景记忆特征向量f_m，作为动作示例。之后基于矩阵乘法计算X_fb与f_m之间的相似性S，其表达式为：

其中

使用Sigmoid函数计算二分类前背景类别预测概率p_fb，其表达式为：

p_fb＝Sigmoid(S)；

其中

在训练过程中，使用基于Focal Loss二元交叉熵损失作为前背景分离损失

对上述网络进行优化，其表达式为：

其中

与

分别表示该样本中第l单元的前背景预测概率与真实标签，γ表示调制系数，L表示单元序列长度，本实例中γ＝2。

步骤6中：首先通过一个全连接层将特征序列X_f映射至维度N＝1024得到X′_f。基于前背景分离结果p_fb对特征序列X′_f时序编码。具体为设定激活阈值θ_f，本实例中θ_f＝0.5，使用阶跃函数ε(x)得到二值序列S,其表达式为：

S＝ε(p_fb-θ_f)

其中S_i表示S中的第i个元素，

对S中的元素进行复制与升维，得到

N与X′_f中的单元维度相同，本实例中N＝1024。之后使用残差连接基于S′对X′_f进行加权，得到待推理样本X′，具体表达式为：

X′＝X′_f+X′_f⊙S′；

将X′送入基于自注意力模块与全连接层组成的时序编码器进行时序推理并编码。为了在编码过程中加入X′各单元的位置信息，需要对X′进行位置编码，在本实例中使用可学习的位置编码

P中各元素使用标准正态分布进行初始化，位置编码后送入自注意力模块计算注意力A：

通过A对X′加权并残差连接后得到X_A：

X_A＝(A+I)X′；

将X_A送入线性层进行映射，本实例中的线性层为单层全连接层，映射后得到编码特征序列Y＝{y_-L+1,...,y_-1,y₀}：

Y＝X_A+ReLU(FC(X_A))；

其中FC表示全连接层。

步骤7中：将编码特征序列Y中表示当前时刻的待检测编码特征

取出，设动作类别总数为num_a，加上背景类，构造一个输入维度为N，输出维度为num_a+1的单层全连接层作为分类器Classifier，将y₀映射至类别空间后，使用Softmax函数得到在线动作检测概率

并将p中概率最大的动作/背景类别作为动作在线检测结果：

p＝Softmax(Classifier(y₀))；

使用交叉熵损失函数

计算检测损失，其表达式为：

其中pⁿ,yⁿ分别表示在线动作预测概率与真实动作标签。

最后基于以上步骤中的多个损失函数构造联合损失函数

对检测器进行优化：

其中

表示检测损失，

分别表示前背景分离损失和映射损失，α表示平衡系数，在本实例中α＝0.5。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种前背景分离的人体动作在线检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种前背景分离的人体动作在线检测方法，其特征在于，所述步骤2包括以下步骤：

3.根据权利要求1所述的一种前背景分离的人体动作在线检测方法，其特征在于，步骤3中所述的特征提取模块，基于I3D网络结构，由1个3D卷积模块以及3个Inception模块组成，对步骤2中输出序列进行特征提取后分别得到维度为N的RGB特征向量以及光流特征向量，并将RGB特征向量以及光流特征向量级联得到人体动作特征序列X_f。

4.根据权利要求1所述的一种前背景分离的人体动作在线检测方法，其特征在于，步骤4中所述的多层感知机由两层输入输出维度相等，且大小为N的线性层级联而成，所述多层感知机的输出为特征序列X′_c。

5.根据权利要求1所述的一种前背景分离的人体动作在线检测方法，其特征在于，步骤4中所述的基于特征模长设计的对比损失的表达式如下：