CN114419729A

CN114419729A - 一种基于轻量双流网络的行为识别方法

Info

Publication number: CN114419729A
Application number: CN202111551418.8A
Authority: CN
Inventors: 王俊; 陈宗信; 周焕来; 张洋; 刘博文; 余梦鹏; 李玉琳; 贾海涛
Original assignee: Yituo Communications Group Co ltd
Current assignee: Yituo Communications Group Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-29

Abstract

本发明公开了一种基于轻量双流网络的行为识别方法，属于图像处理技术领域。其具体步骤为：S1行为识别实验数据集制作；S2基于所提出轻量双流网络框架，对行为识别数据集进行网络模型训练；S3采用自蒸馏技术，提取在标注标签外的软信息，用于进一步提高模型的识别准确率,使用自我迭代，自我学习的方法，提高训练速度以及识别准确率；S4通过轻量双流网络对输入的视频进行行为识别。本发明是一种基于轻量双流网络的行为识别方法，利用ActionNet模拟生成光流信息，大大提高了计算速度，使得行为识别的实时性和准确率得以提高。

Description

一种基于轻量双流网络的行为识别方法

技术领域

本发明属于图像处理技术领域，具体涉及基于双流网络的行为识别技术。

背景技术

计算机视觉是由计算机科学和工程、信号处理、统计学和认知科学等多门学科交叉融合的一门综合性学科，其中，人体行为识别是计算机视觉领域的一个热门话题，在机器人行为研究、智能人机交互、智能视频监控、仿真虚拟现实、智能安防、运动员辅助训练等方面具有很大地探索和应用价值，被国内外学者和研究人员广泛关注。

现有的行为识别方法主要有双流网络、3D卷积网络和混合网络等。3D卷积网络使用三维卷积核提取视频中的时空信息和运动轨迹，与应用于单帧RGB图像的二维卷积相比，三维卷积更适用于视频序列，可以提升行为识别的准确度和鲁棒性。混合网络指将不同网络混合提取视频特征，不同的网络架构组件具有不同的侧重点和优点，多种结构的结合使用可以有效提取时空信息和运动信息。结合方式的多样性，使得混合结构具有很大的潜力和很高的热度。双流网络指将卷积信息分为两部分：时间域和空间域，两条网络流结构互不干扰。从单帧RGB图像中获取环境、物体等空间信息，从连续光流场中获取目标的运动信息，最终将双流的提取特征融合，得到识别结果。双流网络以其强调时空特性而具有较好的准确度，但视频的光流计算非常复杂，计算速度较慢，训练硬件要求高，还要求视频预处理，这些问题严重影响双流网络的实时应用。

发明内容

本发明的目的在于使用轻量双流网络进行行为识别，利用隐式光流网络模拟生成光流，提取视频序列的运动轨迹等时间信息，将时间信息于空间信息融合分类，得到行为识别结果。

本发明改进的基于轻量双流网络的行为识别方法，包括下列步骤：

步骤1：行为识别实验数据集制作，包括训练集和验证集，将包含行为的小段视频制作成双流网络可用来训练的数据集；

数据集制作的具体步骤为：

步骤101：将一小段包含行为的视频，例如在加油站抽烟或者打电话的视频，切割成帧；

步骤102：随后在小段视频切割的帧内，随机选取16张，放在同一个文件夹中，每一个文件夹代表着某一类行为，用作数据集；

步骤103：重复步骤101和102的操作，获取足够多的数据集；

步骤104：将数据集按8比2的比例分成训练集和验证集，在训练集和验证集中要将每一类行为作好标注分类。

步骤2：基于所提出轻量双流网络框架，对行为识别数据集进行网络模型训练；

其中轻量双流网络框架的具体步骤为：

步骤201：首先将数据集内的视频帧通过空间域CNN卷积网络，提取视频序列的空间特征；

步骤202：将数据集内的帧序列输入时间域特征提取网络，空间域特征提取网络包括ActionNet和时间域CNN卷积网络两部分，可提取视频序列的时间特征；

步骤203：将视频序列的空间特征和时间特征进行融合，输入分类器后得到行为识别结果，再进行神经网络回归运算，计算对应网络损失值从而进行网络后向传播更新网络参数。

步骤3：根据步骤2训练得到的行为识别模型，采用自蒸馏技术，提取在标注标签外的软信息，用于进一步提高模型的识别准确率。使用自我迭代，自我学习的方法，提高训练速度以及识别准确率。

步骤4：使用轻量双流网络对输入的视频进行行为识别，输入为一段包含单人或者多人行为的视频，输出为视频行为识别结果。

其中行为识别具体步骤为：

步骤401：将输入的视频通过目标检测和跟踪网络，获取同一个人一连串的视频序列；

步骤402：将视频序列送入轻量双流网络中，通过空间域和时间域特征提取网络，分别提取视频的空间特征和时间特征，最后将特征进行融合，得到视频特征信息；

步骤403：将融合后的视频特征信息传输到多标签分类器中，多标签分类可以提取视频中的多种行为，适用于多种复杂情况，最终得到行为识别结果。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)在保证算法识别准确度的同时，对时间域特征提取网络进行轻量化，与传统的光流网络相比，计算速度，算法实时性，视频帧率等均有较大提高。

(2)采用端到端和自蒸馏的训练方法，可以有效地避免对视频的预处理，同时提取在标注标签外的软信息，用于进一步提高模型的识别准确率。使用自我迭代，自我学习的方法，提高训练速度以及识别准确率。

(3)采用多标签分类器，多标签分类区别于传统的单一标签，同一视频序列有可能存在多种行为，更适用于日常生活中的各种复杂情景。

附图说明

图1为轻量双流网络框架示意图；

图2为ActionNet网络生成光流图；

图3为本网络与其他网络行为识别准确率对比图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本具体实施方式中，行为识别实验数据集制作，包括训练集和验证集。将一小段包含行为的视频，例如在加油站抽烟或者打电话的视频，切割成帧；随后在小段视频切割的帧内，随机选取16张，放在同一个文件夹中，每一个文件夹代表着某一类行为，用作数据集；在获得大量数据集后，将数据集按8比2的比例分成训练集和验证集，在训练集和验证集中要将每一类行为作好标注分类，用作训练。

本具体实施方式中，基于所提出的轻量双流网络结构，如图1所示，网络包含空间特征提取网络和时间信息提取网络两部分。将数据集内的视频帧通过空间域CNN卷积网络，提取视频序列的空间特征。将数据集内的帧序列输入时间域特征提取网络，空间域特征提取网络包括ActionNet和时间域CNN卷积网络两部分，可提取视频序列的时间特征。两个网络是并行的，对一段视频同时提取，最后将时间特征和空间特征进行融合。输入分类器后得到行为识别结果，再进行神经网络回归运算，计算对应网络损失值从而进行网络后向传播更新网络参数。

本具体实施方式中，MotionNet是一个全卷积网络，由收缩部分和扩展部分组成。收缩部分是卷积层的堆叠，扩展部分由卷积层和反卷积层组合而成。首先是一个专注于小位移运动的网络。对于真实世界中的视频，我们经常遇到前景运动，也就是人类感兴趣的动作区域较小，而背景的运动占主导的问题。因此，整个网络中采用3×3卷积核来检测局部的微小运动。网络中保留高频出现的图像细节供以后使用。网络的前两个卷积层不使用stride。我们使用stride卷积代替池化来进行图像下采样，因为池化对密集的每像素预测任务有影响。

本具体实施方式中，ActionNet在多尺度上计算多个loss。由于收缩部分和膨胀部分之间的跳过连接，中间损失可以使彼此规则化，并引导较早的层更快地收敛到最终目标。三种损耗函数，可帮助我们产生更好的光流。这些损失函数如下。

标准的逐像素重建误差损失函数：

Vx,Vy是水平和垂直方向上的估计光流。使用空间变换器模块执行反扭曲。使用鲁棒的凸误差函数，即广义的Charbonnier惩罚，来减少outliers的影响,h,w表示图像I₁,I₂的高度和宽度。

孔径平滑度损失函数，孔径问题导致在非纹理化区域中估计运动时造成歧义：

是在每个方向上的估计流场V^X的梯度。同样

是V^Y的梯度。广义Charbonnier惩罚与像素损失函数相同。

结构相似度损失函数，可帮助我们学习帧的结构。SSIM是一种感知质量度量。给定两个K×K图像块I_p1和I_p2，其计算公式为：

在此，μ_p1,μ_p2是图像块I_p1和I_p2的平均值，σ_p1和σ_p2是图像块I_p1和I_p2的方差，而σp1p2是这两个图像块的协方差。c₁和c₂是两个常数，用于稳定小分母的除法。K设置为8，而c₁和c₂分别为0.0001和0.001。为了比较两个图像I₁和I₁’之间的相似性，我们采用滑动窗口方法将图像划分为局部块。滑动窗口的步幅在水平和垂直方向上均设置为8。SSIM损失函数定义为：

其中N是在滑动步幅为8的情况下我们可以从图像中提取的补丁数量，n是补丁索引。I_1n,I'_1n是来自原始图像I_1n和重构图像I'_1n的两个对应的块。这种简单的策略可以显着提高估算流的质量。它迫使我们的ActionNet产生具有清晰运动边界的流场。

因此，总损失函数是像素重建误差损失函数，孔径平滑度损失函数和基于区域的结构相似度损失函数的加权和。

L_s＝u₁L_pixel+u₂L_smooth+y₃L_ssim

其中权重u₁,u₂,u₃表示训练过程中不同指标的相对重要性。我们可以在五个尺度(flow2到flow6)上进行预测，因此ActionNet的总损失函数是损失函数L_s的加权和：

本具体实施方式中，光流会在均匀区域引入伪影，为了解决这个问题，在扩展部分的反卷积层之间插入其他卷积层，以产生更平滑的运动估计。

本具体实施方式中，ActionNet需要和时间域CNN卷积网络结合，将这两个模块组合为一个阶段并进行端到端训练。有多种方法可以设计这样的组合，将动作特征投射到动作标签上。堆叠和分支，都是效果较好的方式。

堆叠是最直接的方法，只是将ActionNet放在时间流的前面，将ActionNet视为现成的流量估计器。

在体系结构设计方面，分支更加优雅。它使用单个网络进行运动特征提取和动作分类。卷积特征在两个任务之间共享。

本轻量双流网络中使用了堆叠的方式，将运动特征投影到动作标签。。在保持与空间流互补的同时，实现了更好的动作识别性能。

对于堆叠，首先需要对生成的光流进行归一化，然后再将其送到encoding卷积层。将大于20像素的运动裁剪为20像素。然后，我们对裁剪后的流进行归一化和量化以使其范围介于0到255之间。这种归一化非常重要，为此网络中设计了一个新的归一化层。为了捕获相对长期的运动依赖，需要输入多个连续光流场的堆叠。与仅使用单个流场相比，包含10个光流场的堆叠可以获得更高的行为识别准确率。

通过ActionNet网络后生成的光流场如图2所示，并将其生成的光流效果与TVL1网络和FlowNet2网络进行对比。

图3为本网络和其他网络在准确率和fps上的对比图，本网络为light Two-streamCNNs,与TVL1，FlowNet，FlowNet2，NextFLow等网络进行对比，在准确率上轻量双流网络与传统深度卷积双流网络相近，但是fps上也就是处理速度上快了10倍。

本具体实施方式中，采用自蒸馏技术和端到端训练。本网络的端到端训练，输入数据是未经任何人为加工的原始样本形式，后续则是堆叠在输入层上的包括时序特征提取网络和空间特征提取网络等操作层。避免了数据预处理带来的误差还有多模块结合的误差积累等问题。自蒸馏技术提取在标注标签外的软信息，用于进一步提高模型的识别准确率。使用自我迭代，自我学习的方法，提高训练速度以及识别准确率。

本具体实施方式中，采用多标签分类的分类方法，进一步提升准确率。多标签分类指同一视频内可能有多种行为的标签，相比于softmax等传统单标签分类器，多标签分类可以提取视频中的多种行为，而且单一行为预测值之间互不冲突，适用于多种复杂情况，最终得到更为准确的行为识别结果。

Claims

1.一种基于轻量双流网络的行为识别方法，其特征在于，包括下列步骤：

数据集制作的具体步骤为：

步骤103：重复步骤101和102的操作，获取足够多的数据集；

其中轻量双流网络框架的具体步骤为：

步骤201：首先将数据集内的帧通过空间域CNN卷积网络，提取视频序列的空间特征；

其中行为识别具体步骤为：