CN111950444A

CN111950444A - 一种基于时空特征融合深度学习网络的视频行为识别方法

Info

Publication number: CN111950444A
Application number: CN202010796456.9A
Authority: CN
Inventors: 杨戈
Original assignee: Beijing Normal University Zhuhai
Current assignee: Beijing Normal University Zhuhai
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-17

Abstract

本发明公开了一种基于时空特征融合深度学习网络的视频行为识别方法采用独立的两个网络分别提取视频的时间和空间信息，每个网络都在CNN的基础上加入了LSTM学习视频时间信息，并以一定的策略将时间、空间信息融合。FSTFN比Tran提出的不引入时空网络的网络模型在数据集上准确率提升了7.5％，比普通双流网络模型数据集上准确率提升了4.7％且对视频采用分段的方式，每一个视频样本采样多个片段，输入CNN和LSTM组成的网络，通过覆盖整个视频的时间范围，解决了视频行为识别存在的长时依赖问题，在CNN末端引入视觉注意力机制，降低非视觉主体在网络模型中的权值，提高了视频图像帧中视觉主体的影响力，较好地利用了视频的空间特征。

Description

一种基于时空特征融合深度学习网络的视频行为识别方法

【技术领域】

本发明涉及视频行为识别方法，具体涉及一种基于时空特征融合深度学习网络的视频行为识别方法。

【背景技术】

视频内容行为识别旨在对视频片段进行分类以确定行为类型。目前视频内容行为识别技术主要分为两大方向：采用传统提取特征的方式和使用深度学习建立端到端预测网络模型的方式。

基于传统行为识别方法是先设计并提取相关视觉特征，然后对这些特征进行编码，最后采用统计机器学习中相关分类方法得到预测分类结果。

深度学习网络模型大多是端到端模型，用卷积神经网络(Convolutional NeuralNetworks，CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)等对数据集进行学习，学习到网络参数后对视频进行预测分类。

现有的技术方案分别是C3D网络、双流网络模型和LRCN等；

其中C3D网络利用时空信息的直接解决方案是对视频执行3D卷积。3D卷积是通过将3D内核卷积应用到视频中来实现的，是一种对2D-CNN的扩展，称作C3D(3D-CNN)其卷积核得到的特征图也是3D的，并没有融合，给定视频数据是RGB三通道，高h宽w，分辨率为h×w，C3D的卷积核边长k深度为d，即规格为k×k×d。比起2D-CNN，C3D显然更适合学习带有时序信息的图像数据(视频)，对视频进行处理得到的多帧特征图经融合的输出；

双流网络(Two-Stream Network)模型，是使用两个独立的时空CNN，通过后期融合将两个网络输出合并。空间网络从单视频RGB帧进行行为识别，而时间网络则从密集的光流中进行识别行为，双流网络中空间CNN结构类似Karpathy中的单帧结构，即给定一个行为视频，每个视频帧将分别通过空间网络，并为每个帧分配一个行为标签，对于同一个行为视频的所有帧，给定的行为标签是一样，即这个行为的标签，双流网络中时间CNN则对几个连续帧之间的光流位移场进行分析，以学习时间特征，对输出的时间特征和空间网络识别得到图像预测。

LRCN(Long-term Recurrent Convolutional Networks)与固定数量输入帧的堆栈式学习的网络不同，它不限于固定长度输入帧，可以学习识别更复杂的行为，视频有序帧图像进入网络模型，首先应用2D-CNN获取图像帧的特征图，之后把这些特征图按时序输入后面的LSTM并得到一组时序向量。这种网络模型有很好的适应性，因为可以看到该网络模型是对CNN和LSTM的结合，输入既可以是单帧图像，也可是时序视频，与之对应得到的输出是图像预测或序列预测。

以上方法均存在长时依赖问题和空间特征挖掘不充分的问题，由于行为有持续性，要想准确识别一个行为，往往依赖一个较长的时间片段，没有长时间范围的分析，容易把一种行为识别为其他行为，虽然长时的片段分析可以提高识别准确率，但过长的时间分析带来的是更复杂的网络结构和成倍的训练量；而且目前研究对视频动态时间特征的提取明显不足，仅通过C3D或循环神经网络从RGB(Red-Green-Blue)中获取，但单一特征还是不足以充分提取视频时间维度的动态特征，对空间特征的提取同样不够充分，现有网络模型容易混淆产生误判。

【发明内容】

为解决上述问题，提出通过两个网络分别提取时间、空间信息并加以融合，采用多片段输入的方式来处理较大范围视频帧信息，最后引入软注意力机制来减少由于背景高度相似带来的识别错误的一种基于时空特征融合深度学习网络的视频行为识别方法；

一种基于时空特征融合深度学习网络的视频行为识别方法，其特征包括以下步骤：

(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集，小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息，所述网络由CNN和LSTM组成的。

(2)对视频采用分段的方式，每一个视频样本采样多个片段，输入CNN和LSTM组成的网络。

(3)对采样的多个片段进行RGB色彩差异提取，处理后以得到RGB信息，

(4)在CNN末端引入视觉注意力机制，降低非视觉主体在网络模型中的权值，提高视频图像帧中视觉主体的影响力。

(5)进行光流帧提取，提取光流作为动态特征，充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入，进一步挖掘视频行为分析的动态特征。

(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时，将视频数据采样成多个片段分别输入到两个网络中

(7)视频帧的RGB信息进入到空间特征网络，得到空间特征预测得分，而光流输入到时间特征网络进行融合，得到时间特征预测得分

(8)在拿到空间和时间特征预测得分后，进行融合成为FSTFN最后的预测输出

进一步地、所述视频采用分段的方式为先将视频平均划分成N+1段，编号0,1,…,N，在[1,N]段范围内对片段的前半部分进行连续采样，以此保留视频的时间特征。即除去视频的开头段，取剩下N段(对应编号1,2,…,N)，对这N段区间的前1/2区间进行连续采样。设视频长度为T，每段起始时间为kT/(N+1)，只对该段前1/2采样，采样的区间为：

进一步地、所述光流帧提取采用Lucas-Kanade密集光流算法，计算时刻t和时刻t+δ_t两帧间各个像素点的位移。

其算法步骤如下：

a)、读入视频；

b)、对视频进行帧分解，分解为T帧；

c)、对图片灰度化；

d)、求解水平与垂直方向梯度f_w、f_h；

e)、for i in T-1:取第i帧和i+1帧图像I求解时间方向的梯度f_t；

for遍历图像区域:

for遍历图像的3×3子区域:

对九个像素联立方程，进行最小二乘拟合；

按式

求解得到两个方向的光流

保存该帧光流场；

f)、输出视频所有光流帧特征；

g)、调用分段预处理算法，对光流场图像分段。

进一步地、所述RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t，对于宽高规格为w×h的图片有：

式中x∈[0,w),y∈[0,h)，进而对连续5帧的P_diff叠加得到RGB色彩差异。

其算法步骤如下：

a)、读入视频；

b)、对视频进行帧分解分解为T帧；

c)、for i in[0,T-1]://遍历每一帧；

取第i帧和i+1帧图像；

for遍历图像每个像素点；

求解两帧之间R、G、B三个色彩通道值的差

保存该帧RGB色彩差异；

d)、输出视频所有RGB色彩差异特征图像；

e)、调用分段预处理算法，对光流场图像分段。

进一步地、所述注意力机制是FSTFN在CNN和LSTM之间引入了的，注意力机制包含软注意力(Soft Attention)机制与硬注意力(Hard Attention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1]；后者要么是0或1，注意力机制中的掩码即权重的计算为设计函数G，对每个特征向量g_i，计算其得分s_i。计算的根据是g_i与注意力机制关注的视觉主体(用向量表征)的相关性，得分越高说明相关性越大。对于计算出的s_i经由softmax得到权重γ_i，即:γ_i＝softmax(s_i)。

进一步地、所述融合成为FSTFN的策略的方式为在融合光流特征和RGB色彩差异特征时采用片段融合，在总分预测上采用全局融合。

进一步地、所述片段融合指先对每个片段的时间和空间网络做加法融合，并进行softmax分类，得到的每个片段的softmax分类结果后加权得到网络模型的预测。

进一步地、所述全局融合，是在每个片段的每个网络均先各自经过softmax得到分类得分，即得到两倍于片段数个分类得分：各个片段时间网络得分和空间网络得分。所有时间网络得分相加得到时间网络总分，空间网络总分同理，最后空间网络总分和时间网络总分相加融合。

本发明用独立的两个网络分别提取视频的时间和空间信息，每个网络都在CNN的基础上加入了LSTM学习视频时间信息，并以一定的策略将时间、空间信息融合。FSTFN比Tran提出的不引入时空网络的网络模型在数据集上准确率提升了7.5％，比普通双流网络模型数据集上准确率提升了4.7％。

本发明对视频采用分段的方式，每一个视频样本采样多个片段，输入CNN和LSTM组成的网络，通过覆盖整个视频的时间范围，解决了视频行为识别存在的长时依赖问题。

本发明在CNN末端引入视觉注意力机制，降低非视觉主体在网络模型中的权值，提高了视频图像帧中视觉主体的影响力，较好地利用了视频的空间特征。

本发明提取光流作为动态特征输入到时间CNN中，进一步挖掘视频行为分析的动态特征，在数据集上引入这两个特征的FSTFN比不引入时识别准确率提升了13.7％。

【附图说明】

图1为FSTFN总体框架图；

图2为空间特征网络内部结构图；

图3为时间特征网络的内部结构图；

图4为视觉注意力机制流程图；

图5为本实施例的空间网络总分和时间网络总分相加融合的策略方式示意图；

图6为本实施例的融合光流特征和RGB色彩差异特征时段融合策略方式示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅用于解释本发明，并不用于限定本发明。

(2)对视频采用分段的方式，每一个视频样本采样多个片段，输入CNN和LSTM组成的网络，其中视频采用分段的方式为先将视频平均划分成N+1段，编号0,1,…,N，在[1,N]段范围内对片段的前半部分进行连续采样，以此保留视频的时间特征。即除去视频的开头段，取剩下N段(对应编号1,2,…,N)，对这N段区间的前1/2区间进行连续采样。设视频长度为T，每段起始时间为k T/(N+1)，只对该段前1/2采样，采样的区间为：

(3)对采样的多个片段进行RGB色彩差异提取，处理后以得到RGB信息，其中RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t，对于宽高规格为w×h的图片有：

其算法步骤如下：

a)、读入视频；

b)、对视频进行帧分解分解为T帧；

c)、for i in[0,T-1]://遍历每一帧；

取第i帧和i+1帧图像；

for遍历图像每个像素点；

求解两帧之间R、G、B三个色彩通道值的差

保存该帧RGB色彩差异；

d)、输出视频所有RGB色彩差异特征图像；

e)、调用分段预处理算法，对光流场图像分段。

(4)在CNN末端引入视觉注意力机制，降低非视觉主体在网络模型中的权值，提高视频图像帧中视觉主体的影响力，其中注意力机制是FSTFN在CNN和LSTM之间引入了的，注意力机制包含软注意力(Soft Attention)机制与硬注意力(Hard Attention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1]；后者要么是0或1，注意力机制中的掩码即权重的计算为设计函数G，对每个特征向量g_i，计算其得分s_i。计算的根据是g_i与注意力机制关注的视觉主体(用向量表征)的相关性，得分越高说明相关性越大。对于计算出的s_i经由softmax得到权重γ_i，即:γ_i＝softmax(s_i)。

(5)进行光流帧提取，提取光流作为动态特征，充分挖掘视频行为的时间信息，将水平和垂直方向的光流场作为时间网络中CNN的输入，进一步挖掘视频行为分析的动态特征，其中光流帧提取采用Lucas-Kanade密集光流算法，计算时刻t和时刻t+δ_t两帧间各个像素点的位移；

其算法步骤如下：

a)、读入视频；

b)、对视频进行帧分解，分解为T帧；

c)、对图片灰度化；

d)、求解水平与垂直方向梯度f_w、f_h；

e)、for i in T-1:取第i帧和i+1帧图像I求解时间方向的梯度f_t；

for遍历图像区域:

for遍历图像的3×3子区域:

对九个像素联立方程，进行最小二乘拟合；

按式

求解得到两个方向的光流

保存该帧光流场；

f)、输出视频所有光流帧特征；

g)、调用分段预处理算法，对光流场图像分段。

(6)时间特征网络学习了光流和RGB色彩差异两种特征，同时，将视频数据采样成多个片段分别输入到两个网络中。

(7)视频帧的RGB信息进入到空间特征网络，得到空间特征预测得分，而光流输入到时间特征网络进行融合，得到时间特征预测得分，融合成为FSTFN的策略的方式为在融合光流特征和RGB色彩差异特征时采用片段融合，其中片段融合指先对每个片段的时间和空间网络做加法融合，并进行softmax分类，得到的每个片段的softmax分类结果后加权得到网络模型的预测。

(8)在拿到空间和时间特征预测得分后，，在总分预测上采用全局融合，全局融合，是在每个片段的每个网络均先各自经过softmax得到分类得分，即得到两倍于片段数个分类得分，各个片段时间网络得分和空间网络得分，所有时间网络得分相加得到时间网络总分，空间网络总分同理，最后空间网络总分和时间网络总分相加融合，进行融合成为FSTFN最后的预测输出。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时空特征融合深度学习网络的视频行为识别方法，其特征包括以下步骤：

(8)在拿到空间和时间特征预测得分后，进行融合成为FSTFN最后的预测输出。

2.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述视频采用分段的方式为先将视频平均划分成N+1段，编号0,1,…,N，在[1,N]段范围内对片段的前半部分进行连续采样，以此保留视频的时间特征。即除去视频的开头段，取剩下N段(对应编号1,2,…,N)，对这N段区间的前1/2区间进行连续采样。设视频长度为T，每段起始时间为k T/(N+1)，只对该段前1/2采样，采样的区间为：

3.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述光流帧提取采用Lucas-Kanade密集光流算法，计算时刻t和时刻t+δ_t两帧间各个像素点的位移。

其算法步骤如下：

a)、读入视频；

b)、对视频进行帧分解，分解为T帧；

c)、对图片灰度化；

d)、求解水平与垂直方向梯度f_w、f_h；

e)、for i in T-1:取第i帧和i+1帧图像I求解时间方向的梯度f_t；

for遍历图像区域:

for遍历图像的3×3子区域:

对九个像素联立方程，进行最小二乘拟合；

按式

求解得到两个方向的光流

保存该帧光流场；

f)、输出视频所有光流帧特征；

g)、调用分段预处理算法，对光流场图像分段。

4.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t，对于宽高规格为w×h的图片有：

其算法步骤如下：

a)、读入视频；

b)、对视频进行帧分解分解为T帧；

c)、for i in[0,T-1]://遍历每一帧；

取第i帧和i+1帧图像；

for遍历图像每个像素点；

求解两帧之间R、G、B三个色彩通道值的差

保存该帧RGB色彩差异；

d)、输出视频所有RGB色彩差异特征图像；

e)、调用分段预处理算法，对光流场图像分段。

5.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述注意力机制是FSTFN在CNN和LSTM之间引入了的，注意力机制包含软注意力(Soft Attention)机制与硬注意力(Hard Attention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1]；后者要么是0或1，注意力机制中的掩码即权重的计算为设计函数G，对每个特征向量g_i，计算其得分s_i。计算的根据是g_i与注意力机制关注的视觉主体(用向量表征)的相关性，得分越高说明相关性越大。对于计算出的s_i经由softmax得到权重γ_i，即:γ_i＝softmax(s_i)。

6.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述融合成为FSTFN的策略的方式为在融合光流特征和RGB色彩差异特征时采用片段融合，在总分预测上采用全局融合。

7.根据权利要求6所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述片段融合指先对每个片段的时间和空间网络做加法融合，并进行softmax分类，得到的每个片段的softmax分类结果后加权得到网络模型的预测。

8.根据权利要求6所述的一种基于时空特征融合深度学习网络的视频行为识别方法，其特征在于：所述全局融合，是在每个片段的每个网络均先各自经过softmax得到分类得分，即得到两倍于片段数个分类得分：各个片段时间网络得分和空间网络得分，所有时间网络得分相加得到时间网络总分，空间网络总分同理，最后空间网络总分和时间网络总分相加融合。