CN110347874B

CN110347874B - 一种基于循环神经网络的视频分类方法

Info

Publication number: CN110347874B
Application number: CN201910584906.5A
Authority: CN
Inventors: 杨阳; 汪政; 关祥
Original assignee: Chengdu Aohaichuan Technology Co ltd
Current assignee: Chengdu Aohaichuan Technology Co ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2023-06-02
Anticipated expiration: 2039-07-01
Also published as: CN110347874A

Abstract

本发明公开了一种基于循环神经网络的视频分类方法，在现有GRU视频分类的基础上，在GRU的训练过程中，创新性地利用泰勒级数对门控循环单元进行解释，通过在GRU的训练过程中引入泰勒级数中的余项，辅助GRU的参数训练。由于泰勒级数中，误差与级数的阶数有关，阶数越大误差越小，所以，本发明通过构造一个高阶的泰勒级数用于辅助GRU训练，减少了视频分类误差。同时，本发明建立了门控循环单元与泰勒级数的联系，进一步地，通过这种联系，GRU的泛化能力得到了解释。

Description

一种基于循环神经网络的视频分类方法

技术领域

本发明属于视频信息挖掘技术领域，更为具体地讲，涉及一种基于循环神经网络的视频分类方法。

背景技术

视频分类是指给定一个视频片段，对其中包含的内容进行分类。类别通常是动作(如做蛋糕)、场景(如海滩)、物体(如桌子)等，其中又以视频动作分类最为热门，毕竟动作本身就包含“动”态的因素，不是“静“态的图像所能描述的。

现有视频分类方法主要有采用基于循环神经网络(Recurrent Neural Network,简称RNN)的序列建模方法和卷积神经网络(Convolutional Neural Networks,简称CNN)的序列建模方法。基于RNN的序列建模方法是通过对视频序列进行逐帧采样，使用重复的计算模块反复计算，实时地得到视频的分类预测结果；基于CNN的序列建模方法则是将固定长度的视频片段全部输入卷积神经网络，对其进行特征提取，并得到视频分类的预测结果。

相较于基于CNN的序列建模方法，基于RNN的序列建模无法获取全局信息，所以往往伴随较大的误差。而基于CNN的序列建模方法则无法实时地对视频进行分类，且必须获取完整的固定长度的视频序列，这样例如，在真实场景中，监控摄像头需要实时地判断异常事件，基于CNN的序列建模方法只能设置固定的判断节点，无法对事件进行实时响应。

其他基于RNN或CNN的改进视频分类方法虽然会提升准确度，但是对建立模型进行改进往往伴随着巨大的计算资源和时间资源消耗，使得这些复杂的模型无法有效的布置在低成本的设备上。

同时，现有的视频分类方法，无论基于RNN、CNN的序列建模方法或者这两种方法的改进方法，都往往被认为是缺乏可解释性的。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于循环神经网络的视频分类方法，对基于RNN的序列建模方法进行改进，在不改变模型结构即增加计算资源和时间资源消耗的前提下，使其具有可解释性，以提升视频分类的准确度。

为实现上述发明目的，本发明基于循环神经网络的视频分类方法，其特征在于，包括以下步骤：

(1)、在门控循环单元(Gated Recurrent Unit，简称GRU)的训练过程中，构建余项R_t：

R_t＝tanh(n_t(W_hRh_t-1+b_hR+W_iRx_t+b_iR))U(0,1) (1)

其中，t表示当前视频帧、t-1表示上一视频帧，U(0,1)为[0,1]的均匀分布行向量，W_hR、b_hR、W_iR、b_iR均为待训练的参数矩阵，x_t为当前视频帧的表观特征，h_t-1为输入上一帧后的状态信息，n_t为隐状态(一个控制变化量的项)，tanh为双曲正切激活函数；

(2)、在GRU训练过程每一步的当前状态信息(输入当前帧后的状态信息)h_t为：

h_t＝(1-z_t)n_t+z_th_t-1+R_t (2)

其中，z_t为更新门；

(3)、在GRU视频分类过程每一步的当前状态信息(输入当前帧后的状态信息)h_t为：

h_t＝(1-z_t)n_t+z_th_t-1 (3)。

本发明的目的是这样实现的。

本发明基于循环神经网络的视频分类方法，在现有GRU视频分类的基础上，在GRU的训练过程中，创新性地利用泰勒级数对门控循环单元进行解释，通过在GRU的训练过程中引入泰勒级数中的余项，辅助GRU的参数训练。由于泰勒级数中，误差与级数的阶数有关，阶数越大误差越小，所以，本发明通过构造一个高阶的泰勒级数用于辅助GRU训练，减少了视频分类误差。同时，本发明建立了门控循环单元与泰勒级数的联系，进一步地，通过这种联系，GRU的泛化能力得到了解释。

附图说明

图1是现有技术中基于RNN的序列建模方法一种具体实例的架构示意图；

图2是现有技术中GRU网络模型示意图；

图3是带有泰勒余项的GRU网络模型示意图；

图4是GRU与带余项GRU视频分类准确度一具体实例曲线图；

图5是GRU与带余项GRU损失函数一具体实例曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

现有技术中，视频分类预测大多基于RNN、CNN或者这两种方法的改进方法。但是，这种基于神经网络的方法往往被认为是缺乏可解释性的。同时，对视频分类模型(RNN、CNN)的改进伴随着巨大的参数数量以及计算复杂度的提升。使得这些复杂的视频分类模型无法有效的布置在低成本的设备上。本发明创新性利用泰勒级数对门控循环单元(循环神经网络的一种)进行解释，通过在门控循环单元的训练过程中引入泰勒级数中的余项，辅助门控循环单元的参数训练。使得在不改变模型结构的前提下，提升视频分类预测的准确度。

下面将分步骤介绍。

1、现有技术框架

在视频分类中，有两种非常重要的特征：表观特征(appearance)和时序特征(dynamics)。如图1所示，现有方法是使用残差网络ResNet152提取视频中每一帧图像的表观特征，再通过RNN得到这些图像信息的时序特征，最后对这些时序特征进行线性变换得到每一帧的分类结果，从而完成分类预测。

2、门控循环单元与泰勒级数

循环神经网络(Recurrent Neural Network，RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的循环神经网络。其中，被广泛应用的是图2中的门控循环单元(Gated Recurrent Unit,GRU)。对于本发明所处理的视频任务，通过ResNet152得到的视频帧的表观特征xt被逐个输入进GRU中，GRU通过如下公式，得到该帧当前状态信息h_t：

r_t＝σ(W_irx_t+W_hrh_t-1+b_r) (4)

z_t＝σ(W_izx_t+W_hzh_t-1+b_z) (5)

n_t＝tanh(W_inx_t+b_in+r_t(W_hnh_t-1+b_bn)) (6)

h_t＝(1-z_t)n_t+z_th_t-1 (7)

其中，W_ir、W_hr、W_iz、W_hz、W_in、W_hn、b_r、b_r、b_bn均为待训练的参数矩阵，r_t、z_t表示重置门和更新门。重置门控制前一状态有多少信息被写入到当前的状态信息ht上，重置门越小，前一状态的信息被写入的越少。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。

公式(7)表示GRU中状态信息的更新方法。GRU的状态信息都是由输入上一帧后的状态信息经过增加一个控制变化量的项n_t进行更新。

在本发明中，将该更新过程解释为一个泰勒级数。其中GRU的变化量来自公式(6)的n_t，是通过当前输入帧与输入上一帧后的状态信息经过两次非线性变换得到，可以被视作一个二阶泰勒级数的子项。由于泰勒级数中，误差与级数的阶数有关，阶数越大误差越小。所以，本发明中，GRU通过构造一个高阶的泰勒级数，减少视频分类模型的分类误差。

本发明建立了循环神经网络与泰勒级数的联系。进一步的，通过这种联系，GRU的泛化能力得到了解释。

3、带有泰勒余项的门控循环单元

本发明创造性地将泰勒级数的余项表达引入GRU的训练过程，进一步的提升GRU的泛化能力。泰勒方法通过级数形式构造出解析函数的近似数值解，其中余项规定了该近似的误差上界。在上一节中，已经利用GRU隐式的构建了解析函数的数值解。进一步地，本发明在训练过程中隐式的构建余项上界，迫使神经网络在可控的误差范围内训练，从而提高视频分类模型的泛化能力。

根据泰勒公式，余项的上界由最高阶的梯度决定。这里，无法显式的构造高阶梯度，近似的利用GRU的梯度表达式(6)得到余项的近似表达。余项的构造如下：

R_t＝tanh(n_t(W_hRh_t-1+b_hR+W_iRx_t+b_iR))U(0,1) (1)

其中，U(0,1)为[0,1]的均匀分布行向量，W_hR、b_hR、W_iR、b_iR均为待训练的参数矩阵，x_t为当前视频帧的表观特征，h_t-1为输入上一帧后的状态信息，n_t为隐状态，tanh为双曲正切激活函数。

如图3所示，最后在GRU训练过程每一步的当前状态信息(输入当前帧后的状态信息)h_t为：

h_t＝(1-z_t)n_t+z_th_t-1+R_t (2)

其中，z_t为更新门。

4、GRU视频分类

在GRU视频分类过程每一步的当前状态信息(输入当前帧后的状态信息)h_t为：

h_t＝(1-z_t)n_t+z_th_t-1 (3)

传统的GRU是在每一状态，更新状态信息。而本发明创新性的将误差估计引入模型训练，使得在训练过程中得到状态信息的分布，最终在优化过程中迫使整个分布趋近于真实分布，从而辅助了模型的优化，得到更强的泛化能力。另一方面，误差估计余项只作用于模型的训练过程，在实际使用中不参与计算。

综上所述，本发明在不改变模型结构，不额外增加计算量的前提下，通过训练过程中引入误差估计余项，提升了模型的准确度。

在大型视频分类数据集UCF101下测试了模型，内含13320个短视频，包括5大类动作(人和物体交互，肢体动作，人与人交互，演奏音乐器材，各类运动)共101个类别。如图4所示，带余项的GRU在该数据集下，无论是训练准确度(GRU+Remainder train)还是测试准确度(GRU+Remainder test)在各训练轮数均分别高于不带余项的GRU的训练准确度(GRUtrain)还是测试准确度(GRU test)。进一步地，如图5所示，无论训练还是测试的损失下降速度还是准确度的提升速率，带余项的GRU(GRU+Remainder train、GRU+Remainder test)在各训练轮数均分别比不带余项的GRU(GRU train、GRU test)更快。这说明本发明所提出的带余项的方法不仅可以提升模型准确度，而且大幅度的提高了优化速度。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于循环神经网络的视频分类方法，其特征在于，在现有门控循环单元(GatedRecurrent Unit，简称GRU)视频分类的基础上，在GRU的训练过程中，利用泰勒级数对门控循环单元进行解释，通过在GRU的训练过程中引入泰勒级数中的余项，辅助GRU的参数训练，具体包括以下步骤：

(1)、在GRU训练过程中，构建余项R_t：

R_t＝tanh(n_t(W_hRh_t-1+b_hR+W_iRx_t+b_iR))U(0,1)(1)

其中，t表示当前视频帧、t-1表示上一视频帧，U(0,1)为[0,1]的均匀分布行向量，W_hR、b_hR、W_iR、b_iR均为待训练的参数矩阵，x_t为当前视频帧的表观特征，h_t-1为输入上一帧后的状态信息，n_t为隐状态，tanh为双曲正切激活函数；

(2)、在GRU训练过程每一步的当前状态信息h_t为：

h_t＝(1-z_t)n_t+z_th_t-1+R_t(2)

其中，z_t为更新门；

(3)、在GRU视频分类过程每一步的当前状态信息h_t为：

h_t＝(1-z_t)n_t+z_th_t-1(3)。