CN112183240B

CN112183240B - 一种基于3d时间流和并行空间流的双流卷积行为识别方法

Info

Publication number: CN112183240B
Application number: CN202010951064.5A
Authority: CN
Inventors: 熊海良; 周智伟; 许玉丹; 王宏蕊; 张雅琪; 沈航宇
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-07-22
Anticipated expiration: 2040-09-11
Also published as: CN112183240A

Abstract

本发明公开了一种基于3D时间流和并行空间流的双流卷积行为识别方法，包括如下步骤：首先对于输入视频，进行光流块提取；其次对输入视频进行分段，抽取视频帧，并剪裁出人体部分；然后将光流块输入3D卷积神经网络，将剪裁帧输入并行空间流卷积网络；最后将并行空间流的分类结果进行融合，并与时间流得分进行拼接形成全连接层，最后经过输出层输出识别结果。本发明利用人体部分剪裁以及并行的空间流网络进行单帧识别，在空间上提高了单帧的识别准确率，同时利用3D卷积神经网络进行光流的动作特征提取，提高了时间流部分的识别准确率，并利用最后的单层神经网络结合空间外观特征和时间动作特征进行决策融合，提高了整体的识别效果。

Description

一种基于3D时间流和并行空间流的双流卷积行为识别方法

技术领域

本发明涉及一种人体行为识别技术领域，特别涉及一种基于3D时间流和并行空间流的双流卷积行为识别方法。

背景技术

随着互联网多媒体的发展，特别是5G技术的快速商用，大规模的摄像头每时每刻都有大量的视频产生并传输，这对于公共安全监控会产生巨大的压力。为了应对信息爆炸，对视频进行分析处理是十分必要且迫在眉睫的。视频中的人体行为识别是计算机视觉领域的一个重要分支，对于公共安全分析和智慧城市建设至关重要。

视频行为识别算法在2012年卷积神经网络提出之前，以传统算法为主，其中取得效果最好的是改进稠密光流法，这种算法需要手工提取特征，识别率高，但计算复杂，效率低。自深度学习应用于该领域之后，计算高效的卷积神经网络进入大家的视野。双流卷积神经网络是这些模型中较为有效的模型，它将RGB图像和光流图像分开处理，使用同样结构的网络模型，最后通过融合两个网络的结果进行预测。但是该方法需要预先提取光流，故光流图像的存储和计算成本过高，且准确率不足以应用于实际场景，对于特征信息的提取有待提高。此外，视频场景中的光照强度、复杂场景等因素，也在一定程度上影响着模型的准确率。

发明内容

为解决上述技术问题，本发明提供了一种基于3D时间流和并行空间流的双流卷积行为识别方法，以达到提取更多表征信息，增加时间流计算效率，提高预测准确率的目的。

为达到上述目的，本发明的技术方案如下：

一种基于3D时间流和并行空间流的双流卷积行为识别方法，包括如下步骤：

(1)对于输入视频，随机抽取多个正序视频帧，进行光流提取，形成多个光流块；同时对原始输入视频进行分段，在每个视频段中进行单视频帧抽取，并对所抽取的多个单视频帧进行人体部分剪裁，获得剪裁帧；

(2)将提取的光流块输入3D时间流卷积神经网络，同时将获得的剪裁帧分别单帧输入并行空间流卷积网络，对两路网络分别进行训练，得到3D时间流卷积神经网络判别模型和并行空间流卷积网络判别模型，分别输出各模型对视频中动作的得分；

(3)将并行空间流卷积网络判别模型的得分结果进行融合；

(4)将并行空间流卷积网络的融合结果和3D时间流卷积神经网络判别模型的得分结果进行拼接形成一个全连接层，输入单层神经网络进行训练，得到一个决策模型，最后对整体模型进行训练调整，得到最终模型；

(5)最后将原始视频通过步骤(1)至步骤(4)输入训练好的模型，获得最终行为识别结果。

上述方案中，步骤(1)中，对输入视频随机选取8帧视频帧，并对这8帧图片分别进行双向光流提取，按序堆叠，得到8个拥有8帧光流图的光流块，光流提取计算方式如下：

其中，

u＝[1:w],v＝[1:h],k＝[-L+1:L].

p₁＝(u,v),p_k＝p_k-1+d_τ+k-2(p_k-1),k＞1.

其中，(u,v)代表视频帧中的像素点，

和

分别代表第τ+k-1帧像素点p_k在x方向和y方向的位移量，d_τ+k-2(p_k-1)代表第τ+k-1帧中像素点p_k的位移矢量，w表示图片的宽度，h表示图片的高度，L表示光流前向堆叠或反向堆叠的帧数。

上述方案中，步骤(1)中，将原始输入视频平均分成N段，在视频起始端和末端舍弃多余帧，同时从N段视频段中分别提取一帧图像；使用YOLO v3网络进行目标检测，具体为：将所述抽取的视频帧输入YOLO v3网络，基于输入图像得到人体部分位置框坐标及大小，舍弃空白帧，然后根据位置框剪裁出人体部分，并通过尺寸变换处理成统一尺寸。

上述方案中，YOLO v3边界框类别置信度计算公式如下：

P_CCS＝P(C|obj)*P(obj)*I

其中，P(C|obj)是各个边界框置信度下的条件概率，P(obj)是边界框含有目标的可能性大小，当边界框包含目标时，P(obj)＝1，否则P(obj)＝0；I是预测框与实际框的交并比，P_CSS是边界框类别置信度，表示边界框匹配目标的好坏；

代价函数如下：

其中，x，y，w，h，C分别是检测框的中心横坐标、中心纵坐标、宽、高和置信度的目标值，α、β分别是各个误差项的权重，I_i,j表示第i个单元存在目标，该单元中第j个边界框负责预测，

表示不存在目标，n²表示图片分成的单元数，m表示每个单元预测的边界框数，

分别是预测检测框的中心横坐标、中心纵坐标、宽高和置信度。

上述方案中，步骤(2)中，所述3D时间流卷积神经网络含有8个卷积层、5个池化层、1个归一化层、2个全连接层和一个分类层；其中，所述卷积层卷积核大小都为3×3×3，步长为2×2×2；所述池化层采用3维随机池化，池化核大小取1×2×2，步长大小为1×2×2；所述分类层神经元个数为动作类别数；3D时间流卷积神经网络需先进行单独的预训练，将从原始视频中提取的光流图片和真实标签输入3D时间流卷积神经网络进行训练，在代价函数趋于平缓时，改变学习率，反复迭代，将最终得到的模型参数作为3D卷积神经网络的参数；最后通过该模型，输出所识别的动作类别得分。

上述方案中，步骤(2)中，所述并行空间流卷积网络采用N个残差网络Resnet-101,将N个网络并行排列，模型之间实现参数共享，同时处理N帧图像；所述并行空间流卷积网络使用预训练的参数作为初始参数，使用输入视频帧进行单独训练，将训练完的参数作为模型参数；通过该模型输出视频中动作类别得分。

上述方案中，步骤(3)中，所述并行空间流卷积网络在得分融合时直接进行均值融合。

上述方案中，步骤(4)中，所述单层神经网络的决策模型只有一个输入层和一个输出层，输出层神经元的数量为动作类别数，输入层神经元数为输出层的两倍；将空间流的融合得分和时间流的得分进行拼接，输入到决策模型中，进行监督学习，反复训练，得到模型参数；并通过整体模型进行训练调整，得到最终模型。

进一步的技术方案中，整体模型的代价函数如下：

其中，M₁是并行空间流卷积网络的输出，M₂是3D时间流卷积网络的输出,m是批大小，yⁱ是实际标签，W是单层神经网络的权重，N是视频切分的段数，σ(·)是激活函数，o_i是并行空间流卷积网络中第i个网络的输出结果。

上述方案中，模型训练时，对于同一输入视频，多次迭代时，输入光流块和空间视频帧都是随机的。

通过上述技术方案，本发明提供的一种基于3D时间流和并行空间流的双流卷积行为识别方法在双流卷积的基础上进行创新，对时间流的输入，每次都随机抽取多帧进行光流提取，模型舍弃二维卷积网络，改用三维卷积网络，以提取更多的表征信息；空间流的输入使用剪裁帧作为输入图片，模型采用并行二维卷积网络，以提高识别准确率。在训练好的两个分支模型基础上，训练得出决策模型，最后进行整体模型的训练从而微调，得到最终的双流模型，以得出最终的识别结果。最终达到提取更多表征信息，增加时间流计算效率，提高预测准确率的效果。因此，本发明具有如下有益效果：

(1)本发明采用目标检测的方法获取人体部分位置框，并进行剪裁，一定程度上减少了环境的影响，使网络模型聚焦于人体部分。

(2)本发明采用N个并行的2D卷积网络获取更加准确的识别结果，在一定程度上降低了由于单帧选取问题引起的识别错误概率。

(3)本发明采用3D卷积网络进行光流的特征提取，获得了更深层次的特征信息。

(4)本发明采用模型隔离训练，在分支结果的基础上进行决策模型训练，并基于整体模型微调，有效地防止了过拟合，高效地结合了空间外观信息和动作信息，提升了识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于3D时间流和并行空间流的双流卷积行为识别方法流程示意图；

图2为YOLO v3网络结构示意图；

图3为视频目标裁剪示意图；

图4为3D卷积网络结构示意图；

图5为三维随机池化示意图；

图6为并行空间流卷积网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于3D时间流和并行空间流的双流卷积行为识别方法，如图1所示，具体实施例如下：

一、视频处理

(1)对于输入视频，随机抽取多个正序视频帧，进行光流提取，形成多个光流块，具体如下：

对输入视频随机选取8帧视频帧，并对这8帧图片分别进行双向光流提取，按序堆叠，得到8个拥有8帧光流图的光流块，光流提取计算方式如下：

其中，

u＝[1:w],v＝[1:h],k＝[-L+1:L].

p₁＝(u,v),p_k＝p_k-1+d_τ+k-2(p_k-1),k＞1.

其中，(u,v)代表视频帧中的像素点，

和

(2)同时对原始输入视频进行分段，在每个视频段中进行单视频帧抽取，并对所抽取的多个单视频帧进行人体部分剪裁，获得剪裁帧，具体如下：

将原始输入视频平均分成N段，在视频起始端和末端舍弃多余帧，同时从N段视频段中分别提取一帧图像；使用如图2所示的YOLO v3网络进行目标检测，具体为：将抽取的视频帧输入YOLO v3网络，基于输入图像得到人体部分位置框坐标及大小，舍弃空白帧，然后根据位置框剪裁出人体部分，并通过尺寸变换处理成统一尺寸。剪裁效果如图3所示。即YOLO v3网络去除了空白帧，并将之后的网络注意力全部转移到了人体动作区域。

YOLO v3边界框类别置信度计算公式如下：

P_CCS＝P(C|obj)*P(obj)*I

代价函数如下：

二、输入网络模型进行训练

(1)将提取的光流块输入3D时间流卷积神经网络，如图4所示，3D时间流卷积神经网络含有8个卷积层、5个池化层、1个归一化层、2个全连接层和一个分类层；其中，卷积层卷积核大小都为3×3×3，步长为2×2×2；如图5所示，池化层采用3维随机池化，训练和测试时的计算方式不同，训练时的具体计算步骤如下：

计算感受野内每个元素所占权重，计算方式如下：

其中，a_i是感受野内某个元素的值，p_i是每个元素所占的比重。

按概率随机抽取元素作为最终的池化值a。

测试时的具体计算方式如下：

a＝∑p_ia_i

其中，a_i是感受野内某个元素的值，p_i是每个元素所占的比重，a是随机池化得到的值。

池化核大小取1×2×2，步长大小为1×2×2；分类层神经元个数为动作类别数；3D时间流卷积神经网络需先进行单独的预训练，将从原始视频中提取的光流图片和真实标签输入3D时间流卷积神经网络进行训练，在代价函数趋于平缓时，改变学习率，反复迭代，将最终得到的模型参数作为3D卷积神经网络的参数；最后通过该模型，输出所识别的动作类别得分。

(2)同时将获得的剪裁帧分别单帧输入并行空间流卷积网络，如图6所示，并行空间流卷积网络采用N个残差网络Resnet-101,将N个网络并行排列，模型之间实现参数共享，同时处理N帧图像，并行空间流卷积网络使用预训练的参数作为初始参数，使用输入视频帧进行单独训练，将训练完的参数作为模型参数；通过该模型输出视频中动作类别得分。

三、将并行空间流卷积网络判别模型的得分结果进行融合，在得分融合时直接进行均值融合。

四、将并行空间流卷积网络的融合结果和3D时间流卷积神经网络判别模型的得分结果进行拼接形成一个全连接层，输入单层神经网络进行训练，得到一个决策模型，最后对整体模型进行训练调整，得到最终模型；

单层神经网络的决策模型只有一个输入层和一个输出层，输出层神经元的数量为动作类别数，输入层神经元数为输出层的两倍；将空间流的融合得分和时间流的得分进行拼接，输入到决策模型中，进行监督学习，反复训练，得到模型参数；并通过整体模型进行训练调整，得到最终模型。

整体模型的代价函数如下：

模型训练时，对于同一输入视频，多次迭代时，输入光流块和空间视频帧都是随机的。

五、最后将原始视频通过步骤一至步骤四输入训练好的模型，获得最终行为识别结果。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，包括如下步骤：

(3)将并行空间流卷积网络判别模型的得分结果进行融合；

(5)最后将原始视频通过步骤(1)至步骤(4)输入训练好的模型，获得最终行为识别结果；

步骤(2)中，所述3D时间流卷积神经网络含有8个卷积层、5个池化层、1个归一化层、2个全连接层和一个分类层；其中，所述卷积层卷积核大小都为3×3×3，步长为2×2×2；所述池化层采用3维随机池化，池化核大小取1×2×2，步长大小为1×2×2；所述分类层神经元个数为动作类别数；3D时间流卷积神经网络需先进行单独的预训练，将从原始视频中提取的光流图片和真实标签输入3D时间流卷积神经网络进行训练，在代价函数趋于平缓时，改变学习率，反复迭代，将最终得到的模型参数作为3D卷积神经网络的参数；最后通过该模型，输出所识别的动作类别得分；

步骤(2)中，所述并行空间流卷积网络采用N个残差网络Resnet-101，将N个网络并行排列，模型之间实现参数共享，同时处理N帧图像；所述并行空间流卷积网络使用预训练的参数作为初始参数，使用输入视频帧进行单独训练，将训练完的参数作为模型参数；通过该模型输出视频中动作类别得分。

2.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，步骤(1)中，对输入视频随机选取8帧视频帧，并对这8帧图片分别进行双向光流提取，按序堆叠，得到8个拥有8帧光流图的光流块，光流提取计算方式如下：

其中，

u＝[1:w],v＝[1:h],k＝[-L+1:L].

p₁＝(u,v),p_k＝p_k-1+d_τ+k-2(p_k-1),k＞1.

其中，(u,v)代表视频帧中的像素点，

和

3.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，步骤(1)中，将原始输入视频平均分成N段，在视频起始端和末端舍弃多余帧，同时从N段视频段中分别提取一帧图像；使用YOLO v3网络进行目标检测，具体为：将所述抽取的视频帧输入YOLO v3网络，基于输入图像得到人体部分位置框坐标及大小，舍弃空白帧，然后根据位置框剪裁出人体部分，并通过尺寸变换处理成统一尺寸。

4.根据权利要求3所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，YOLO v3边界框类别置信度计算公式如下：

P_CCS＝P(C|obj)*P(obj)*I

代价函数如下：

5.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，步骤(3)中，所述并行空间流卷积网络在得分融合时直接进行均值融合。

6.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，步骤(4)中，所述单层神经网络的决策模型只有一个输入层和一个输出层，输出层神经元的数量为动作类别数，输入层神经元数为输出层的两倍；将空间流的融合得分和时间流的得分进行拼接，输入到决策模型中，进行监督学习，反复训练，得到模型参数；并通过整体模型进行训练调整，得到最终模型。

7.根据权利要求6所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，整体模型的代价函数如下：

8.根据权利要求1-7任一项所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法，其特征在于，模型训练时，对于同一输入视频，多次迭代时，输入光流块和空间视频帧都是随机的。