CN113705394A

CN113705394A - 一种长短时域特征结合的行为识别方法

Info

Publication number: CN113705394A
Application number: CN202110935756.5A
Authority: CN
Inventors: 张栗粽; 田玲; 段贵多; 解修蕊; 许毅; 罗光春; 张勇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-26
Anticipated expiration: 2041-08-16
Also published as: CN113705394B

Abstract

本发明提供一种长短时域特征结合的行为识别方法，属于人工智能深度学习视频理解行为识别技术领域，包括S1：获取包含人类行为的视频，预处理后得到与视频对应的目标视频帧序列；S2：构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络，残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成；S3：基于目标视频帧序列和预设目标行为类别对行为识别网络进行训练，得到训练完成的行为识别模型；S4：将待检测视频预处理后得到待检测视频帧序列，输入至训练完成的行为识别模型中，得到待检测视频的目标行为类别，实现待检测视频中人类行为的识别，提升模型运动特征建模能力及时空特征和运动特征的交互效率。

Description

一种长短时域特征结合的行为识别方法

技术领域

本发明属于人工智能深度学习视频理解行为识别技术领域，具体涉及一种长短时域特征结合的行为识别方法。

背景技术

随着互联网技术的不断升级以及存储设备容量的不断攀升，网络视频数量激增，更大的数据规模促使了视频处理技术的发展。如何利用计算机高效、准确地处理视频数据和识别视频信息，成为亟需解决的重要问题。其中，对视频中人类行为的识别是视频理解的核心问题，主要的技术方案可以分为传统行为识别方法和基于深度学习的行为识别算法。

模式识别和匹配技术是传统行为识别方法的核心，但由于其计算复杂，时效性差，准确度较低，渐渐难以适应如今信息爆炸的历史背景。随着深度学习的发展，基于深度学习的行为识别算法渐渐成为当前视频分析的首选。

基于深度学习的行为识别方法主要遵循两种不同的基础架构：双流卷积神经网络和三维卷积神经网络，但上述两种方法都存在一定问题。

基于双流卷积神经网络结构的行为识别方法存在两个难以避免的问题，其一为光流的提取需要大量的时序以及算力资源；其二为RGB流和光流的训练是分离的，信息融合往往仅在网络的末尾，难以发生有效的特征级交互。

尽管三维卷积神经网络整体计算量低于一般的双流卷积神经网络，但其卷积核维度的扩充依然带来了额外的计算开销。同时，经过大量的局部卷积操作后，远距离帧之间的相互作用变得极其有限，难以捕获有效的时空信息。

针对上述两种方法存在的问题，一些研究者提出了各自的解决方案，对本发明所提技术影响较大的有两个，分别是TEA和TSM。

TEA构建了一个独特的运动激励(motion excitation，ME)模块，该模块计算时空特征中相邻帧的特征级时序差异，结合注意力机制，利用特征级时序差异来激发原始特征的运动敏感通道，最后与输入的时空特征形成正反馈。然而TEA存在的问题是仅使用时空特征相邻帧矢量差的均值来刻画视频的运动特征，该策略容易导致像素级差异的极化以及帧间相似性信息的丢失。

为了加强远距离帧的特征交互频率，TSM创造性地使用了位移(shift)算子，该算子可以实现限定条件下视频帧序列的重排列，即帧序重构。帧序重构和卷积操作交替进行，实现远距离帧交互频率的提升。然而，TSM中位移算子的参数来源于手工和大量的实验测算，缺乏灵活性，难以适应差异化的数据场景。同时，基于经验值的位移模板无法保证参数的最优化。

发明内容

针对上述现有技术中存在的技术问题，本发明提出了一种长短时域特征结合的行为识别方法，通过采用短时域运动特征增强模块和长时域运动特征集成模块，实现对视频行为识别的可靠建模。

本发明具体技术方案如下：

一种长短时域特征结合的行为识别方法，其特征在于，包括以下步骤：

步骤1：获取包含人类行为的视频，对视频进行预处理，得到与视频对应的目标视频帧序列，目标视频帧序列的大小为[N，T，C，H，W]；其中，N为批次大小；T为目标视频帧序列的帧长度；C为特征的通道数；H为特征的高度；W为特征的宽度；

步骤2：构建以ResNet(残差网络)50网络为骨干网络、包含50个残差块的行为识别网络，所述残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成，构建行为识别网络的过程具体为：

步骤2.1：初始化行为识别网络的网络参数；

步骤2.2：将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块，获得短时域输出特征X^o，增强特征中的运动敏感部分，具体为：

步骤2.2.1：以通道数为C的特征X为短时域运动特征增强模块的输入特征图，经过1×1的卷积层降低特征X的通道数目后，得到通道数为C/16的特征X^r，以提升效率；

步骤2.2.2：去除特征X^r的头一帧，并在去除头一帧处填充0，得到头相邻帧序列

去除特征X^r的尾一帧，并在去除尾一帧处填充0，得到尾相邻帧序列

步骤2.2.3：为了防止头相邻帧序列

和尾相邻帧序列

的过度不匹配，先将头相邻帧序列

和尾相邻帧序列

分别通过3×3的2维卷积层，然后分别使用矢量差和余弦相似度计算头相邻帧序列

和尾相邻帧序列

的差异M(t)和相似度P(t)：

其中，conv_trans代表3×3的2维卷积层；*代表相乘；cos(A，B)代表A与B之间的余弦相似度计算；

步骤2.2.4：分别按照帧长度T堆叠差异M(t)和相似度P(t)，对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵P^a；

步骤2.2.5：分别采用平均池化和最大池化处理差异运动矩阵M，经softmax层归一化处理后，对应得到平均池化运动矩阵M^a和最大池化运动矩阵M^m，平均池化运动矩阵M^a、最大池化运动矩阵M^m和归一化相似度运动矩阵P^a均在某个侧面反映了头相邻帧序列

和尾相邻帧序列

之间的差异，即视频运动特征，并且彼此之间存在互补性；

步骤2.2.6：对平均池化运动矩阵M^a、最大池化运动矩阵M^m和归一化相似度运动矩阵P进行通道维度的加权，得到最终的运动矩阵F：

F＝α*M^a+β*M^m+γ*P^a

其中，α、β和γ均为超参数，α+β+γ＝1，α的取值范围为0.2～0.4，β的取值为0.1；

步骤2.2.7：将运动矩阵F通过1×1的2维卷积层，其通道数扩展为C，然后通过sigmoid函数以及线性变换对运动矩阵F进行归一化，得到最终的注意力权重F^s：

F^s＝2*δ(conv_exp*F-1)

其中，conv_exp代表1×1的2维卷积层；δ(·)代表sigmoid函数；

步骤2.2.8：将注意力权重F^s与特征X进行通道维度的点乘，得到的向量再与特征X相加，得到短时域输出特征X^o，在增强特征X中的运动敏感部分的同时保证背景信息在全训练过程中不丢失，短时域输出特征X^o为：

X^o＝X+X⊙F^s

其中，⊙代表点乘；

步骤2.3：将短时域输出X^o通过第一个残差块中的长时域运动特征集成模块，获得长时域输出特征X′，提升特征中远距离帧的交互频率，具体为：

步骤2.3.1：在通道维度上将短时域输出特征X^°按顺序划分为四个通道数均为C/4的切片，分别为第0切片X₀、第1切片X₁、第2切片X₂和第3切片X₃；

步骤2.3.2：构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组，所述1维位移算子层用于实现帧序列的重构，假设待重构帧序列的大小为[N，T，C/4，H，W]，先将待重构帧序列重排为[N，H，W，C/4，T]的重排待重构帧序列，再形变为[NHW，C/4，T]的形变待重构帧序列，经大小为(，3)的1维卷积层后，变为[NHW，C/4，T]的重构后帧序列，然后形变为[N，H，W，C/4，T]的形变重构后帧序列，最后重排为[N，T，C/4，H，W]的重排重构后帧序列；

步骤2.3.3：将第1切片X₁通过卷积组，得到卷积后第1切片X₁′；卷积后第1切片X₁′与第2切片X₂通过残差连接相加后，通过卷积组得到卷积后第2切片X₂′；卷积后第2切片X₂再与第3切片X₃通过残差连接相加后，通过卷积组得到卷积后第3切片X₃′，最终形成一个级联的残差结构，为特征提取过程提供了多种尺度的感受野；

卷积后第1切片X₁′、卷积后第2切片X₂′和卷积后第3切片X₃′分别通过以下公式表示：

X′₁＝conv_spt2*SMM(conv_spt1*X₁)

X′_i＝conv_spt2*SMM(conv_spt1*(X_i+X_i′))，i＝2，3

其中，conv_spt1和conv_spt2均代表3×3的2维卷积层；SMM(·)代表1维位移算子层；

步骤2.3.4：将第0切片X₀、卷积后第1切片X₁′、卷积后第2切片X₂′和卷积后第3切片X₃′在通道维度上进行拼接，获得长时域输出特征X′；

步骤2.4：将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X，返回步骤2.2，直到通过骨干网络中的所有残差块，完成对视频整体时空特征和运动特征的学习，得到残差块输出向量X^*；

步骤2.5：将残差块输出向量X^*通过骨干网络中的全连接层，输出维度与预设的目标行为类别数目相同的输出向量X^c；

步骤3：基于步骤1所得目标视频帧序列和预设的目标行为类别对行为识别网络进行训练，得到训练完成的行为识别模型；

步骤4：将待检测视频进行步骤1所述预处理，得到待检测视频帧序列，输入至步骤3所得训练完成的行为识别模型中，得到待检测视频的目标行为类别，实现待检测视频中人类行为的识别。

进一步地，步骤1中预处理的过程具体包括：

步骤1.1：视频帧切分：对视频进行帧提取，获得所有的视频帧，将视频帧按顺序均分为N组；

步骤1.2：获取帧序列：在N组视频帧的每组视频帧中各随机提取一帧，组成帧序列；

步骤1.3：将帧序列中每个视频帧的大小统一缩放为255×255；

步骤1.4：将帧序列中每个视频帧的中心剪裁成224×224大小的区域，按顺序堆叠获得目标帧序列。

进一步地，步骤3中训练的具体过程为：以步骤1所得目标视频帧序列为行为识别网络的输入，预设的目标行为类别为训练目标，通过反向传播算法和随机梯度下降对行为识别网络进行训练，反向传播算法所采用的损失函数为全连接层输出的输出向量X^c与目标行为类别对应向量的交叉熵损失。

本发明的有益效果为：

1.本发明提出了一种长短时域特征结合的行为识别方法，通过构建并训练以ResNet50网络为骨干网络，短时域运动特征增强模块和长时域运动特征集成模块为残差块的行为识别网络，在丰富整体行为识别网络的感受野的同时，从短、长时域两方面提升模型整体的运动特征建模能力；并结合注意力机制和残差网络，保证了时空特征和运动特征的充分交互，实现了可靠的运动建模；

2.短时域运动特征增强模块基于通道注意力构建，采用多种不同的运动特征建模方法(包括矢量差极值、矢量差平均值和余弦相似度)，增强原始特征中的运动敏感部分，提升了空间信息和运动信息的特征级交互效率；

3.长时域运动特征集成模块通过利用可训练的1维位移算子层，实现训练过程中帧序的重排列，提升远距离帧的交互频率，进而提升长时域运动信息的建模能力。

附图说明

图1为本发明实施例1提出的长短时域特征结合的行为识别方法的识别流程图；

图2为本发明实施例1提出的长短时域特征结合的行为识别方法中短时域运动特征增强模块的工作原理示意图；

图3为本发明实施例1提出的长短时域特征结合的行为识别方法中长时域运动特征集成模块的工作原理示意图；

图4为本发明实施例1提出的长短时域特征结合的行为识别方法中1维位移算子层的工作原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，结合以下具体实施例，并参照附图，对本发明做进一步的说明。

下述非限制性实施例可以使本领域的普通技术人员更全面的理解本方明，但不以任何方式限制本发明。

实施例1

本实施例提供了一种长短时域特征结合的行为识别方法，包括以下步骤：

步骤1：获取并输入包含人类行为的视频数据，对视频数据进行预处理，得到与视频对应的目标视频帧序列，目标视频帧序列的大小为[N，T，C，H，W]；其中，N为批次大小；T为目标视频帧序列的帧长度；C为特征的通道数；H为特征的高度；W为特征的宽度；其中，预处理的过程具体为：

步骤1.1：视频帧切分：对视频数据进行帧提取，获得所有的视频帧，将视频帧按顺序均分为N组；

步骤1.3：将帧序列中每个视频帧的大小统一缩放为255×255；

步骤1.4：将帧序列中每个视频帧的中心剪裁成224×224大小的区域，按顺序堆叠获得目标帧序列；

步骤2：构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络，所述残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成，构建行为识别网络的过程具体为：

步骤2.1：初始化行为识别网络的网络参数；

步骤2.2：将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块，获得短时域输出特征X^o，增强特征中的运动敏感部分，工作原理示意图如图2所示，具体为：

步骤2.2.1：以通道数为C的特征X为短时域运动特征增强模块的输入特征图，经过1×1的2维卷积层降低特征X的通道数目后，得到通道数为C/16的特征X^r，以提升效率；

步骤2.2.2：进行时序分割，去除特征X^r的头一帧，并在去除头一帧处填充0，得到头相邻帧序列

步骤2.2.3：为了防止头相邻帧序列

和尾相邻帧序列

的过度不匹配，先将头相邻帧序列

和尾相邻帧序列

和尾相邻帧序列

的差异M(t)和相似度P(t)：

和尾相邻帧序列

之间的差异，即视频运动特征，并且彼此之间存在互补性；

F＝α*M^a+β*M^m+γ*P^a

F^s＝2*δ(conv_exp*F-1)

其中，conv_exp代表1×1的2维卷积层；δ(·)代表sigmoid函数；

步骤2.2.8：将注意力权重F^s与特征X进行通道维度的点乘，得到的向量再与特征X相加，得到短时域输出特征X^o，在增强特征X中的运动敏感部分的同时保证背景信息在全训练过程中不丢失，短时域输出特征X^°为：

X^°＝X+X⊙F^s

其中，⊙代表点乘；

步骤2.3：将短时域输出X^o通过第一个残差块中的长时域运动特征集成模块，获得长时域输出特征X′，提升特征中远距离帧的交互频率，工作原理示意图如图3所示，具体为：

步骤2.3.1：在通道维度上将短时域输出特征X^o按顺序划分为四个通道数均为C/4的切片，分别为第0切片X₀、第1切片X₁、第2切片X₂和第3切片X₃；

步骤2.3.2：构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组，所述1维位移算子层用于实现帧序列的重构，工作原理示意图如图4所示，假设待重构帧序列的大小为[N，T，C/4，H，W]，先将待重构帧序列重排为[N，H，W，C/4，T]的重排待重构帧序列，再形变为[NHW，C/4，T]的形变待重构帧序列，经大小为(，3)的1维卷积层后，变为[NHW，C/4，T]的重构后帧序列，然后形变为[N，H，W，C/4，T]的形变重构后帧序列，最后重排为[N，T，C/4，H，W]的重排重构后帧序列；

卷积后第1切片X₁′、卷积后第2切片X′₂和卷积后第3切片X′₃分别通过以下公式表示：

X′₁＝conv_spt2*SMM(conv_spt1*X₁)

X′_i＝conv_spt2*SMM(conv_spt1*(X_i+X_i′))，i＝2，3

步骤2.3.4：将第0切片X₀、卷积后第1切片X₁′、卷积后第2切片X′₂和卷积后第3切片X₃′在通道维度上进行拼接，获得长时域输出特征X′；

步骤2.4：将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X，返回步骤2.2输入至下一个残差块，以此重复49次，直到通过骨干网络中的所有残差块，完成对视频整体时空特征和运动特征的学习，得到残差块输出向量X^*；

步骤3：以步骤1所得目标视频帧序列为行为识别网络的输入，预设的目标行为类别为训练目标，通过反向传播算法和随机梯度下降对行为识别网络进行训练，反向传播算法所采用的损失函数为全连接层输出的输出向量X^c与目标行为类别对应向量的交叉熵损失，最终得到训练完成的行为识别模型；

步骤4：待检测视频的识别流程图如图1所示，将待检测视频进行步骤1所述预处理，得到待检测视频帧序列，输入至步骤3所得训练完成的行为识别模型中，经50次迭代后，得到待检测视频的目标行为类别(人体行为识别分类)，即全连接层输出的输出向量X^c中最大数值所对应的目标行为类别，并输出分类结果，实现待检测视频中人类行为的识别。

Claims

1.一种长短时域特征结合的行为识别方法，其特征在于，包括以下步骤：

步骤1：获取包含人类行为的视频，预处理后得到目标视频帧序列，大小为[N，T，C，H，W]；其中，N为批次大小；T为目标视频帧序列的帧长度；C、H、W分别为特征的通道数、高度和宽度；

步骤2：构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络，残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成，过程具体为：

步骤2.1：初始化行为识别网络的网络参数；

步骤2.2：将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块，获得短时域输出特征X^o，具体为：

步骤2.2.1：以特征X为短时域运动特征增强模块的输入特征图，经1×1的卷积层得到通道数为C/16的特征X^r；

步骤2.2.3：将头相邻帧序列

和尾相邻帧序列

阳尾相邻帧序列

的差异M(t)和相似度P(t)：

步骤2.2.4：分别按照帧长度T堆叠差异M(t)和相似度P(t)，对应得到差异运动矩阵M和相似度运动矩阵P，将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵P^a；

步骤2.2.5：分别采用平均池化和最大池化处理差异运动矩阵M，经softmax层归一化处理后，对应得到平均池化运动矩阵M^a和最大池化运动矩阵M^m；

步骤2.2.6：对平均池化运动矩阵M^a、最大池化运动矩阵M^m和归一化相似度运动矩阵P^a进行通道维度的加权，得到最终的运动矩阵F：

F＝α*M^a+β*M^m+γ*P^a

步骤2.2.7：将运动矩阵F通过1×1的2维卷积层，通道数扩展为C，再归一化得到最终的注意力权重F^s：

F^s＝2*δ(conv_exp*F-1)

其中，conv_exp代表1×1的2维卷积层；δ(·)代表sigmoid函数；

步骤2.2.8：将注意力权重F^s与特征X进行通道维度的点乘，得到的向量再与特征X相加，得到短时域输出特征X^o：

X^o＝X+X⊙F^s

其中，⊙代表点乘；

步骤2.3：将短时域输出X^°通过第一个残差块中的长时域运动特征集成模块，获得长时域输出特征X′，提升特征中远距离帧的交互频率，具体为：

步骤2.3.3：将第1切片X₁通过卷积组，得到卷积后第1切片X₁′；卷积后第1切片X₁′与第2切片X₂通过残差连接相加后，通过卷积组得到卷积后第2切片X₂′；卷积后第2切片X₂再与第3切片X₃通过残差连接相加后，通过卷积组得到卷积后第3切片X₃′；

卷积后第1切片X₁′、卷积后第2切片X′₂和卷积后第3切片X₃′分别通过以下公式表示：

X′₁＝conv_spt2*SMM(conv_spt1*X₁)

X′_i＝conv_spt2*SMM(conv_spt1*(X_i+X_i′))，i＝2，3

步骤2.4：将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X，返回步骤2.2，直到通过骨干网络中的所有残差块，得到残差块输出向量X^*；

步骤4：将待检测视频进行步骤1所述预处理，得到待检测视频帧序列，输入至步骤3所得训练完成的行为识别模型中，得到待检测视频的目标行为类别。

2.根据权利要求1所述长短时域特征结合的行为识别方法，其特征在于，步骤1中预处理的过程具体包括：

步骤1.3：将帧序列中每个视频帧的大小统一缩放为255×255；

3.根据权利要求2所述长短时域特征结合的行为识别方法，其特征在于，步骤3中训练的具体过程为：以步骤1所得目标视频帧序列为行为识别网络的输入，预设的目标行为类别为训练目标，通过反向传播算法和随机梯度下降对行为识别网络进行训练，反向传播算法所采用的损失函数为全连接层输出的输出向量X^c与目标行为类别对应向量的交叉熵损失。