CN113807318B

CN113807318B - 一种基于双流卷积神经网络和双向gru的动作识别方法

Info

Publication number: CN113807318B
Application number: CN202111182076.7A
Authority: CN
Inventors: 王仲文; 胡凯; 庞子超; 解帅; 崔梦宇
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2023-10-31
Anticipated expiration: 2041-10-11
Also published as: CN113807318A

Abstract

本发明公开了一种基于双流卷积神经网络和双向GRU的动作识别方法，包括以下步骤：对视频等间距采样M帧图像，缩放；将第一帧图像输入空间流CNN，得到空间流特征图；计算堆叠，将其输入时间流CNN，得到时间流特征图；级联，使用三层卷积神经网络融合，得到融合后的特征图；将特征图送入两层全连接层，然后送入softmax函数得到单帧分类结果；继续以上的步骤，计算剩余帧的分类结果；将识别结果送入双向门控单元，得到各视频抽样帧的分类结果h_t；基于高斯加权的融合方式，将M组h_t进行融合，得到最终的视频分类结果，本方法在保持模型准确性的情况下，减少了模型参数，简化了模型结构，提高了模型运算速度；采用高斯加权融合的方式，提高了分类结果的可靠性。

Description

一种基于双流卷积神经网络和双向GRU的动作识别方法

技术领域

本发明专利属于人工智能领域中的计算机视觉技术，尤其涉及一种基于双流卷积神经网络和双向GRU的动作识别方法。

背景技术

在互联网大数据的时代背景下，越来越多的视频被共享，如何快速从海量的视频资源中提取信息具有极高的研究和应用价值。视频中的人体行为识别也逐渐成为计算机视觉领域的一大研究热点，并在公共视频监控、人机交互、科学认知、医疗康复等领域得到了广泛的应用。近年来，随着计算机算力水平的不断提高，深度学习得到了深入的发展，基于深度学习的行为识别算法逐渐崭露头角。

目前，基于深度学习的行为识别算法主要分为三类：单流网络模型方法、双流网络模型方法、多流网络模型方法。其中双流网络模型以神经科学理论作为依据，兼顾视频的时空特征，该类方法结果与主观结果一致性较高，而且适用性强，具有较高的泛化性和拓展性，目前双流网络模型方法被广泛采用。

对于视频序列等含有上下文相关性的数据，人们提出了具有记忆能力的神经网络模型，大致分为四类：

(1)循环神经网络(Recurrent Neural Network，RNN)。循环神经网络具有记忆性、参数共享的特点，因此在对序列的非线性特征进行学习时具有一定优势。但是，循环神经网络存在梯度消失和梯度爆炸等问题，只适用于处理短视频序列，不能很好地处理长视频序列。

(2)长短期记忆神经网络(Long Short-Term Memory，LSTM)。LSTM网络用一个记忆单元替换原来RNN模型中的隐藏层节点，其关键在于存在细胞状态来存储历史信息，设计了三个门结构通过Sigmoid函数和逐点乘积操作来更新或删除细胞状态里的信息，解决了梯度消失和梯度爆炸的问题。

(3)双向长短期记忆神经网络(Bi Long Short-Term Memory，BLSTM)。此网络模型在LSTM网络的基础上既考虑了视频的正向序列特性，也考虑了视频的逆向序列特性，对视频的序列特性表征较为完整。

(4)双向门循环单元(Bi Gate Recurrent Unit，BGRU)。此网络模型在BLSTM的基础上将LSTM中的遗忘门与输入门合并为更新门。重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量。双向门循环单元在保证模型准确率的同时大幅提升了运算速度。

上文所提到的双流网络模型方法的泛化性和拓展性较好，因此，人们在此模型的基础上提出了很多改进模型，如将双流网络模型与具有记忆能力的神经网络融合，形成“双流网络模型+具有记忆力的神经网络”的结构。现有效果较好的融合方式是“双流网络模型+BLSTM”的结构。优点是有效提高了识别准确率，缺点是庞大的参数使得该类模型的复杂度和训练难度大幅提高。而如今，双向门循环单元(BGRU)是一种准确且简洁的神经网络模型，它可以在保证模型准确率的基础上减少现有具有记忆能力的神经网络模型的复杂度，为解决上述问题提供了工具。

双向门循环单元(BGRU)由两个相反方向的单向GRU组成，而对于单向GRU而言，随着状态的累积，模型所含有的历史信息越多，则其准确率越高。当正向与逆向GRU叠加时，以输入GRU的特征次序为横轴，模型准确率为纵轴，模型准确率呈现“中间高，两边低”分布。此时，“双流网络模型+BLSTM”采用取均值的方式融合识别结果，不能很好地利用模型的双向特性，影响了其进一步应用。而高斯分布具有“中间高，两边低”、对称且平滑的特点，与模型准确率的分布大致相同，可以充分利用模型的双向特性，为解决上述问题提供了工具。

如果有一种方法，能够充分利用双向门循环单元(BGRU)的简洁性的特点，将之与双流网络模型有机结合，那么相对于现有的“双流网络模型+BLSTM”的结构，可以在提高识别准确率的同时减少网络参数和训练难度。同时根据BGRU的双向特点(中间输出的准确率较首尾输出的准确率更高)，在结果融合时采用高斯加权融合的方式，得出一种高性能的行为识别算法，那么就可以是对双流网络模型进行了更加有效的优化，增加了这种方案的行为识别算法的工程性和准确性。

查阅现有的专利、论文，并未发现相关的资料。

发明内容

本发明目的在于提供一种基于双流卷积神经网络和双向GRU的行为识别方法，充分利用双向门循环单元(BGRU)，将之与双流网络模型有机结合，相对于现有的“双流网络模型+BLSTM”的结构，可以在提高识别准确率的同时减少网络参数和训练难度。

技术方案：为实现上述目的，本发明采用的技术方案为：

利用现有的双流网络模型提取视频特征，与兼顾准确性和简洁性的双向门循环单元(BGRU)结合，采用高斯加权融合的方式融合识别结果，在提高识别准确率的同时减少了网络参数和训练难度。

其方案为：

(1)对输入视频进行预处理，抽取视频帧并进行缩放与裁剪，计算堆叠的光流；

(2)将抽取的第一帧分解为红、绿、蓝三通道输入空间流CNN提取特征，将第一帧对应的堆叠的光流输入时间流CNN提取特征；

(3)将第一帧的空间流和时间流特征融合输入两层全连接层再通过softmax函数得到单帧分类结果并输入双向GRU网络；

(4)以同样的步骤计算剩余帧的融合特征并输入双向GRU网络；

(3)对双向GRU网络的输出使用高斯加权融合，输出行为识别结果。

本发明基于双流卷积神经网络和双向GRU的行为识别方法，包含以下步骤：

预处理部分(步骤1～步骤2):

步骤1)，对输入的视频进行等间距采样，一段输入视频等间距采样M帧图像，记为img_i，i∈[1,M]。如img₁表示第一帧。对采样得到的每帧图像，再抽取其后的连续(L-1)帧图像组成一个帧块，记为img_ij，其中i∈[1,M],j∈[1,L]，如img₁₁表示第一帧块的第一帧；

步骤2)，对采样得到的图像进行同样的缩放，将图像缩放至大小为N*N，得到预处理图片。

空间流特征提取部分(步骤3～步骤5):

步骤3)将第一帧图像img₁分解为红、绿、蓝三个通道，获得三个通道下的图像X_n(x,y)，其中n代表第n通道，n为大于等于1小于等于3的整数，第1、第2、第3通道分别代表红、绿、蓝三个通道；x、y分别为图像中像素点的横向坐标、纵向坐标；

步骤4)，将分解得到的3通道图输入卷积神经网络(CNN)；

步骤5)，得到第一帧图像的空间流特征图。

时间流特征提取部分(步骤6～步骤7):

步骤6)，计算第一帧光流的堆叠；

步骤7)，将计算得到堆叠的光流输入卷积神经网络(CNN)，得到时间流特征图。

双流特征融合部分(步骤8)：

步骤8)，将空间流网络输出的特征图与时间流网络输出的特征图级联，然后使用三层卷积神经网络融合。

全连接与输出部分(步骤9～步骤10):

步骤9)，将特征图送入两层全连接层，得到全连接层输出结果export，然后送入softmax函数得到第一帧的单帧识别分类结果；

步骤10)，使用与步骤3至步骤9同样的方法计算剩余帧的识别结果，直到得到所有的M帧单帧分类结果。

双向门循环单元(BGRU)部分(步骤11):

步骤11)，将该视频均匀抽样M帧的单帧分类结果送入双向门控单元(BGRU)，GRU模型的更新公式如下：

r_t＝σ(W_r·[h_t-1,x_t])#式1

z_t＝σ(W_z·[h_t-1,x_t])#式2

上述公式可以使用h_t＝GRU(x_t,h_t-1)表示，其中r_t表示t时刻的重置门，σ表示sigmod函数；x_t表示t时刻的输入，z_t表示t时刻的更新门，表示t时刻的候选激活状态，h_t表示t时刻的激活状态，即初步分类结果，h_t-1表示t时刻的隐层状态(即(t-1)时刻的激活状态)，W_r,W_z,W为权值矩阵。

BGRU由两个相反方向的单向GRU组成，BGRU在t时刻的激活状态通过前向激活状态和逆向激活状态/>加权求和得到，其计算公式为：

其中w_t,v_t为权值矩阵，b_t为偏置。最终分别得到M帧图像的h_t。

高斯加权融合部分(步骤12)：

步骤12)，提出新的基于高斯加权的融合方式，将M组h_t(分别为h₁,h₂……h_M,)采用高斯加权融合的方式进行融合，得到视频最终分类结果output，其公式如下：

其中，f(i)为高斯分布函数，output[i]表示视频最终分类结果output中的第i个元素，μ是均值，为M/2；s²为方差，此处为1(s为标准差，其值为1)；output中值最大的元素所对应的行为分类标签即为最终的动作识别结果。

神经网络训练部分(步骤13):

步骤13)，使用随机梯度下降算法(SGD)训练神经网络，并根据计算得到的梯度更新参数。

本发明相比现有技术：

(1)将双流网络模型与轻量级的双向门循环单元(BGRU)结合；

(2)采用高斯加权融合的方式融合识别结果；

与现有技术相比，本发明具有以下优点：

(1)在空间流和时间流分别使用vgg-16网络，充分提取了视频的空间信息和时间信息；使用双向GRU既考虑了视频的正向序列特性，也考虑了视频的逆向序列特性，对视频的序列特性表征较为完整，同时在保持模型准确性的情况下，减少了模型参数，简化了模型结构，提高了模型运算速度；

(2)结果融合时根据BGRU的双向特点(中间输出的准确率较首尾输出的准确率更高)采用高斯加权融合的方式，提高了分类结果的可靠性。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的特征融合步骤的流程图。

图3是本发明实施例的特征融合步骤的数据流图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

请参考图1，图1示出了本实施例的流程图，其中：

预处理部分(步骤1～步骤2):

步骤1)，采用公开的UCF-101数据集，对输入的视频进行等间距采样，一段输入视频等间距采样25帧图像，记为img_i，i∈[1,25]。如img₁表示第一帧。对采样得到的每帧图像，再抽取其后的连续9帧图像组成一个帧块(共10帧)，记为img_ij，其中i∈[1,25],j∈[1,10]，如img₁₁表示第一帧块的第一帧；

步骤2)，对采样得到的图像进行同样的缩放，将图像缩放至大小为256*256。

空间流特征提取部分(步骤3～步骤5):

步骤4)，将分解得到的3通道图输入vgg-16网络；

步骤5)，得到第一帧图像的特征图。

时间流特征提取部分(步骤6～步骤7):

步骤6)，计算第一帧光流的堆叠。

步骤7)，将特征图输入vgg-16网络。

图2示出了特征融合步骤的流程图，图3示出了本实施例的特征融合步骤的数据流，其步骤如下：

双流特征融合部分(步骤8)：

全连接与输出部分(步骤9～步骤10):

步骤9)，将特征图送入两层全连接层，然后送入softmax函数得到单帧分类结果。

步骤10)，使用与步骤3至步骤9同样的方法计算剩余帧的分类结果。

双向门循环单元(BGRU)部分(步骤11):

步骤11)，将该视频均匀抽样25帧的分类结果送入双向门控单元(BGRU)，GRU模型的更新公式如下：

r_t＝σ(W_r·[h_t-1,x_t])#式10

z_t＝σ(W_z·[h_t-1,x_t])#式11

上述公式可以使用h_t＝GRU(x_t,h_t-1)表示，其中r_t表示t时刻的重置门，σ表示sigmod函数；x_t表示t时刻的输入，z_t表示t时刻的更新门，表示t时刻的候选激活状态，h_t表示t时刻的激活状态，即初步分类结果，h_t-1表示t时刻的隐层状态(即(t-1)时刻的激活状态)，W_r,W_z,W为权值矩阵。BGRU由两个相反方向的单向GRU组成，BGRU在t时刻的激活状态通过前向激活状态/>和逆向激活状态/>加权求和得到，其计算公式为：

其中w_t,v_t为权值矩阵，b_t为偏置。最终分别得到25帧图像的h_t。

高斯加权融合部分(步骤12)：

步骤12)，提出新的基于高斯加权的融合方式，将25组h_t(分别为h₁,h₂……h₂₅,)采用高斯加权融合的方式进行融合，得到视频动作识别的最终分类结果output，其公式如下：

其中，f(i)为高斯分布函数,output[i]为output中的第i个元素，μ是均值，为25/2；s²为方差，此处为1(s为标准差，其值为1)；output中值最大的元素所对应的行为分类标签即为最终的动作识别结果。

神经网络训练部分(步骤13):

步骤13)，使用随机梯度下降算法(SGD)训练神经网络，并根据计算得到的梯度更新参数：

所述步骤4中的vgg-16网络是一种较深的卷积神经网络，其结构包含：13个卷积层，每个卷积层都不会改变前一层的特征图的长和宽；通过Conv(卷积)可以实现通道数的增加；5个池化层，分别分布在2或者3次卷积以后。池化层的作用是降低特征图尺寸并且能提高网络抗干扰能力；vgg-16网络输出特征图大小为7*7*512。

所述步骤6中堆叠光流的计算过程为：密集的光流可以视为连续帧t和t+1之间的一组位移矢量场。记第t帧中的点(u,v)，第t帧的光流为I_t，其计算公式如下：

其中u＝[1；w],v＝[1:h],k＝[1；L]，w为图像的宽度，h为图像的长度，L为帧数。

所述步骤8的级联操作公式如下：

其中y表示级联后的特征图，为空间流网络输出的特征图上某个位置(α,β,d)，其中α表示第α行，β表示第β列，d表示第d张特征图，s表示空间，/>为时间流网络输出的特征图上某个位置(α,β,d)，t表示时间。级联融合得到的特征图大小为7*7*1024。

所述步骤8的三层卷积神经网络融合操作中，卷积核大小分别为3*3*512、3*3*1024、1*1*512，其中最后一层卷积起到降低维数的作用，最终得到输出特征图的大小为7*7*512，与原特征图大小一致。

所述步骤9中的softmax函数公式如下：

其中，export表示全连接层输出结果，P表示概率，即单帧分类结果，P(i)表示单帧分类结果中的第i个值，k表示export中第k个元素，export[]表示export中第i个元素，i∈[1,101]，P表示概率，exp()表示以自然对数e为底数的指数函数。

所述步骤13的随机梯度下降法(SGD)分为以下几步：

(1)计算输出层的梯度，表示输出层(第Q层)第q个节点的梯度，其计算公式如下：

其中o_q表示第Q层第q个节点的输出，t_q表示第Q层第q个节点的标签。

(2)计算隐含层的梯度，表示第G个隐含层第g个节点的梯度，其计算公式如下：

其中o_g表示第G个隐含层第g个节点的标签值,表示第G个隐含层上一层(第J层)第j个节点的梯度，w_ab表示权值矩阵第a行第b列的值。

(3)根据计算得到的梯度更新参数。

本发明提出的基于双流卷积神经网络和双向GRU的行为识别方法，在UCF-101数据集上的识别率是92.9％，比基于双流卷积神经网络的行为识别方法提升了1.5％。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，包括以下步骤：

对输入的视频等间距采样M帧图像，再对采样的图像缩放，得到预处理后的图像；

将预处理后的第一帧图像输入空间流CNN提取特征，得到空间流特征图；

计算第一帧光流的堆叠，将堆叠特征图输入时间流CNN提取特征，得到时间流特征图；

将空间流特征图与时间流特征图级联，然后使用三层卷积神经网络融合，得到融合后的特征图；

将融合后的特征图送入两层全连接层，得到全连接层输出结果export，然后送入softmax函数得到第一帧的单帧分类结果；

继续以上的步骤，计算剩余帧的识别结果，直到得到M帧单帧分类结果；

将M帧单帧分类结果送入双向门控单元，得到各视频抽样帧的初步分类结果h_t，其中，t∈[1,M]；

基于高斯加权的融合方式，将M组h_t采用高斯加权融合的方式进行融合，得到视频最终分类结果，其公式如下：

其中，f(i)为高斯分布函数，output[i]表示视频最终分类结果中的第i个元素，μ是均值，为M/2；s²为方差，此处为1，s为标准差，其值为1；

视频最终分类结果中值最大的元素所对应的行为分类标签即为最终的动作识别结果。

2.根据权利要求1所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，将预处理后的第一帧图像分解为红、绿、蓝三个通道，再将分解得到的3通道图输入至空间流CNN提取特征。

3.根据权利要求2所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，门控循环单元模型GRU的更新公式如下：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

上述公式可以使用h_t＝GRU(x_t,h_t-1)表示，其中r_t表示t时刻的重置门，σ表示sigmod函数；x_t表示t时刻的输入，z_t表示t时刻的更新门，/>表示t时刻的候选激活状态，h_t表示t时刻的激活状态，即初步分类结果，h_t-1表示t时刻的隐层状态，即(t-1)时刻的激活状态，W_r,W_z,W为权值矩阵。

4.根据权利要求3所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，双向门控循环单元BGRU由两个相反方向的单向GRU组成，BGRU在t时刻的激活状态通过前向激活状态和逆向激活状态/>加权求和得到，其计算公式为：

其中w_t,v_t为权值矩阵，b_t为偏置，最终分别得到M帧图像的h_t。

5.根据权利要求4所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，使用随机梯度下降算法训练神经网络，并根据计算得到的梯度更新参数。

6.根据权利要求5所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，空间流CNN和时间流CNN分别使用vgg-16网络。

7.根据权利要求6所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，堆叠光流的计算过程为：密集的光流视为连续帧t和t+1之间的一组位移矢量场，记第t帧中的点(u,v)，第t帧的光流为I_t，其计算公式如下：

其中，u＝[1，w],v＝[1，m],k＝[1，L]，w为图像的宽度，m为图像的长度，L为第t帧的光流的帧数。

8.根据权利要求7所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，级联操作公式如下：

其中y表示级联后的特征图，为空间流网络输出的特征图上某个位置(α,β,d)，其中α表示第α行，β表示第β列，d表示第d张特征图，s表示空间，/>为时间流网络输出的特征图上某个位置(α,β,d)，t表示时间。

9.根据权利要求8所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，softmax函数为：

其中export表示全连接层输出结果，P表示概率，即单帧分类结果,

P(i)表示单帧分类结果中的第i个值；

其中，P(i)表示单帧分类结果中的第i个概率值，export[i]表示全连接层输出结果中的第i个元素，export[k]表示全连接层输出结果中的第k个元素，i，k∈[1,101]，exp()表示以自然对数e为底数的指数函数。

10.根据权利要求9所述的一种基于双流卷积神经网络和双向GRU的动作识别方法，其特征在于，随机梯度下降法分为以下几步：

计算输出层的梯度，表示输出层，即第Q层，第q个节点的梯度，其计算公式如下：

其中o_q表示第Q层第q个节点的输出，t_q表示第Q层第q个节点的标签；

计算隐含层的梯度，表示第G个隐含层第g个节点的梯度，其计算公式如下：

其中o_g表示第G个隐含层第g个节点的标签值,表示第G个隐含层上一层，即第J层，第j个节点的梯度，w_ab表示权值矩阵第a行第b列的值。