CN110347874B - 一种基于循环神经网络的视频分类方法 - Google Patents

一种基于循环神经网络的视频分类方法 Download PDF

Info

Publication number
CN110347874B
CN110347874B CN201910584906.5A CN201910584906A CN110347874B CN 110347874 B CN110347874 B CN 110347874B CN 201910584906 A CN201910584906 A CN 201910584906A CN 110347874 B CN110347874 B CN 110347874B
Authority
CN
China
Prior art keywords
gru
video classification
taylor series
video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910584906.5A
Other languages
English (en)
Other versions
CN110347874A (zh
Inventor
杨阳
汪政
关祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aohaichuan Technology Co ltd
Original Assignee
Chengdu Aohaichuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aohaichuan Technology Co ltd filed Critical Chengdu Aohaichuan Technology Co ltd
Priority to CN201910584906.5A priority Critical patent/CN110347874B/zh
Publication of CN110347874A publication Critical patent/CN110347874A/zh
Application granted granted Critical
Publication of CN110347874B publication Critical patent/CN110347874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环神经网络的视频分类方法,在现有GRU视频分类的基础上,在GRU的训练过程中,创新性地利用泰勒级数对门控循环单元进行解释,通过在GRU的训练过程中引入泰勒级数中的余项,辅助GRU的参数训练。由于泰勒级数中,误差与级数的阶数有关,阶数越大误差越小,所以,本发明通过构造一个高阶的泰勒级数用于辅助GRU训练,减少了视频分类误差。同时,本发明建立了门控循环单元与泰勒级数的联系,进一步地,通过这种联系,GRU的泛化能力得到了解释。

Description

一种基于循环神经网络的视频分类方法
技术领域
本发明属于视频信息挖掘技术领域,更为具体地讲,涉及一种基于循环神经网络的视频分类方法。
背景技术
视频分类是指给定一个视频片段,对其中包含的内容进行分类。类别通常是动作(如做蛋糕)、场景(如海滩)、物体(如桌子)等,其中又以视频动作分类最为热门,毕竟动作本身就包含“动”态的因素,不是“静“态的图像所能描述的。
现有视频分类方法主要有采用基于循环神经网络(Recurrent Neural Network,简称RNN)的序列建模方法和卷积神经网络(Convolutional Neural Networks,简称CNN)的序列建模方法。基于RNN的序列建模方法是通过对视频序列进行逐帧采样,使用重复的计算模块反复计算,实时地得到视频的分类预测结果;基于CNN的序列建模方法则是将固定长度的视频片段全部输入卷积神经网络,对其进行特征提取,并得到视频分类的预测结果。
相较于基于CNN的序列建模方法,基于RNN的序列建模无法获取全局信息,所以往往伴随较大的误差。而基于CNN的序列建模方法则无法实时地对视频进行分类,且必须获取完整的固定长度的视频序列,这样例如,在真实场景中,监控摄像头需要实时地判断异常事件,基于CNN的序列建模方法只能设置固定的判断节点,无法对事件进行实时响应。
其他基于RNN或CNN的改进视频分类方法虽然会提升准确度,但是对建立模型进行改进往往伴随着巨大的计算资源和时间资源消耗,使得这些复杂的模型无法有效的布置在低成本的设备上。
同时,现有的视频分类方法,无论基于RNN、CNN的序列建模方法或者这两种方法的改进方法,都往往被认为是缺乏可解释性的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于循环神经网络的视频分类方法,对基于RNN的序列建模方法进行改进,在不改变模型结构即增加计算资源和时间资源消耗的前提下,使其具有可解释性,以提升视频分类的准确度。
为实现上述发明目的,本发明基于循环神经网络的视频分类方法,其特征在于,包括以下步骤:
(1)、在门控循环单元(Gated Recurrent Unit,简称GRU)的训练过程中,构建余项Rt
Rt=tanh(nt(WhRht-1+bhR+WiRxt+biR))U(0,1) (1)
其中,t表示当前视频帧、t-1表示上一视频帧,U(0,1)为[0,1]的均匀分布行向量,WhR、bhR、WiR、biR均为待训练的参数矩阵,xt为当前视频帧的表观特征,ht-1为输入上一帧后的状态信息,nt为隐状态(一个控制变化量的项),tanh为双曲正切激活函数;
(2)、在GRU训练过程每一步的当前状态信息(输入当前帧后的状态信息)ht为:
ht=(1-zt)nt+ztht-1+Rt (2)
其中,zt为更新门;
(3)、在GRU视频分类过程每一步的当前状态信息(输入当前帧后的状态信息)ht为:
ht=(1-zt)nt+ztht-1 (3)。
本发明的目的是这样实现的。
本发明基于循环神经网络的视频分类方法,在现有GRU视频分类的基础上,在GRU的训练过程中,创新性地利用泰勒级数对门控循环单元进行解释,通过在GRU的训练过程中引入泰勒级数中的余项,辅助GRU的参数训练。由于泰勒级数中,误差与级数的阶数有关,阶数越大误差越小,所以,本发明通过构造一个高阶的泰勒级数用于辅助GRU训练,减少了视频分类误差。同时,本发明建立了门控循环单元与泰勒级数的联系,进一步地,通过这种联系,GRU的泛化能力得到了解释。
附图说明
图1是现有技术中基于RNN的序列建模方法一种具体实例的架构示意图;
图2是现有技术中GRU网络模型示意图;
图3是带有泰勒余项的GRU网络模型示意图;
图4是GRU与带余项GRU视频分类准确度一具体实例曲线图;
图5是GRU与带余项GRU损失函数一具体实例曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
现有技术中,视频分类预测大多基于RNN、CNN或者这两种方法的改进方法。但是,这种基于神经网络的方法往往被认为是缺乏可解释性的。同时,对视频分类模型(RNN、CNN)的改进伴随着巨大的参数数量以及计算复杂度的提升。使得这些复杂的视频分类模型无法有效的布置在低成本的设备上。本发明创新性利用泰勒级数对门控循环单元(循环神经网络的一种)进行解释,通过在门控循环单元的训练过程中引入泰勒级数中的余项,辅助门控循环单元的参数训练。使得在不改变模型结构的前提下,提升视频分类预测的准确度。
下面将分步骤介绍。
1、现有技术框架
在视频分类中,有两种非常重要的特征:表观特征(appearance)和时序特征(dynamics)。如图1所示,现有方法是使用残差网络ResNet152提取视频中每一帧图像的表观特征,再通过RNN得到这些图像信息的时序特征,最后对这些时序特征进行线性变换得到每一帧的分类结果,从而完成分类预测。
2、门控循环单元与泰勒级数
循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的循环神经网络。其中,被广泛应用的是图2中的门控循环单元(Gated Recurrent Unit,GRU)。对于本发明所处理的视频任务,通过ResNet152得到的视频帧的表观特征xt被逐个输入进GRU中,GRU通过如下公式,得到该帧当前状态信息ht
rt=σ(Wirxt+Whrht-1+br) (4)
zt=σ(Wizxt+Whzht-1+bz) (5)
nt=tanh(Winxt+bin+rt(Whnht-1+bbn)) (6)
ht=(1-zt)nt+ztht-1 (7)
其中,Wir、Whr、Wiz、Whz、Win、Whn、br、br、bbn均为待训练的参数矩阵,rt、zt表示重置门和更新门。重置门控制前一状态有多少信息被写入到当前的状态信息ht上,重置门越小,前一状态的信息被写入的越少。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。
公式(7)表示GRU中状态信息的更新方法。GRU的状态信息都是由输入上一帧后的状态信息经过增加一个控制变化量的项nt进行更新。
在本发明中,将该更新过程解释为一个泰勒级数。其中GRU的变化量来自公式(6)的nt,是通过当前输入帧与输入上一帧后的状态信息经过两次非线性变换得到,可以被视作一个二阶泰勒级数的子项。由于泰勒级数中,误差与级数的阶数有关,阶数越大误差越小。所以,本发明中,GRU通过构造一个高阶的泰勒级数,减少视频分类模型的分类误差。
本发明建立了循环神经网络与泰勒级数的联系。进一步的,通过这种联系,GRU的泛化能力得到了解释。
3、带有泰勒余项的门控循环单元
本发明创造性地将泰勒级数的余项表达引入GRU的训练过程,进一步的提升GRU的泛化能力。泰勒方法通过级数形式构造出解析函数的近似数值解,其中余项规定了该近似的误差上界。在上一节中,已经利用GRU隐式的构建了解析函数的数值解。进一步地,本发明在训练过程中隐式的构建余项上界,迫使神经网络在可控的误差范围内训练,从而提高视频分类模型的泛化能力。
根据泰勒公式,余项的上界由最高阶的梯度决定。这里,无法显式的构造高阶梯度,近似的利用GRU的梯度表达式(6)得到余项的近似表达。余项的构造如下:
Rt=tanh(nt(WhRht-1+bhR+WiRxt+biR))U(0,1) (1)
其中,U(0,1)为[0,1]的均匀分布行向量,WhR、bhR、WiR、biR均为待训练的参数矩阵,xt为当前视频帧的表观特征,ht-1为输入上一帧后的状态信息,nt为隐状态,tanh为双曲正切激活函数。
如图3所示,最后在GRU训练过程每一步的当前状态信息(输入当前帧后的状态信息)ht为:
ht=(1-zt)nt+ztht-1+Rt (2)
其中,zt为更新门。
4、GRU视频分类
在GRU视频分类过程每一步的当前状态信息(输入当前帧后的状态信息)ht为:
ht=(1-zt)nt+ztht-1 (3)
传统的GRU是在每一状态,更新状态信息。而本发明创新性的将误差估计引入模型训练,使得在训练过程中得到状态信息的分布,最终在优化过程中迫使整个分布趋近于真实分布,从而辅助了模型的优化,得到更强的泛化能力。另一方面,误差估计余项只作用于模型的训练过程,在实际使用中不参与计算。
综上所述,本发明在不改变模型结构,不额外增加计算量的前提下,通过训练过程中引入误差估计余项,提升了模型的准确度。
在大型视频分类数据集UCF101下测试了模型,内含13320个短视频,包括5大类动作(人和物体交互,肢体动作,人与人交互,演奏音乐器材,各类运动)共101个类别。如图4所示,带余项的GRU在该数据集下,无论是训练准确度(GRU+Remainder train)还是测试准确度(GRU+Remainder test)在各训练轮数均分别高于不带余项的GRU的训练准确度(GRUtrain)还是测试准确度(GRU test)。进一步地,如图5所示,无论训练还是测试的损失下降速度还是准确度的提升速率,带余项的GRU(GRU+Remainder train、GRU+Remainder test)在各训练轮数均分别比不带余项的GRU(GRU train、GRU test)更快。这说明本发明所提出的带余项的方法不仅可以提升模型准确度,而且大幅度的提高了优化速度。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于循环神经网络的视频分类方法,其特征在于,在现有门控循环单元(GatedRecurrent Unit,简称GRU)视频分类的基础上,在GRU的训练过程中,利用泰勒级数对门控循环单元进行解释,通过在GRU的训练过程中引入泰勒级数中的余项,辅助GRU的参数训练,具体包括以下步骤:
(1)、在GRU训练过程中,构建余项Rt
Rt=tanh(nt(WhRht-1+bhR+WiRxt+biR))U(0,1)(1)
其中,t表示当前视频帧、t-1表示上一视频帧,U(0,1)为[0,1]的均匀分布行向量,WhR、bhR、WiR、biR均为待训练的参数矩阵,xt为当前视频帧的表观特征,ht-1为输入上一帧后的状态信息,nt为隐状态,tanh为双曲正切激活函数;
(2)、在GRU训练过程每一步的当前状态信息ht为:
ht=(1-zt)nt+ztht-1+Rt(2)
其中,zt为更新门;
(3)、在GRU视频分类过程每一步的当前状态信息ht为:
ht=(1-zt)nt+ztht-1(3)。
CN201910584906.5A 2019-07-01 2019-07-01 一种基于循环神经网络的视频分类方法 Active CN110347874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910584906.5A CN110347874B (zh) 2019-07-01 2019-07-01 一种基于循环神经网络的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910584906.5A CN110347874B (zh) 2019-07-01 2019-07-01 一种基于循环神经网络的视频分类方法

Publications (2)

Publication Number Publication Date
CN110347874A CN110347874A (zh) 2019-10-18
CN110347874B true CN110347874B (zh) 2023-06-02

Family

ID=68177592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910584906.5A Active CN110347874B (zh) 2019-07-01 2019-07-01 一种基于循环神经网络的视频分类方法

Country Status (1)

Country Link
CN (1) CN110347874B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436703B (zh) * 2021-07-02 2022-07-15 上海交通大学 基于神经网络的运动步数数据的运动模式推断方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127306A1 (en) * 2016-01-18 2017-07-27 Arisan Therapeutics Adamatane derivatives for the treatment of filovirus infection
CN108846199A (zh) * 2018-06-12 2018-11-20 华能澜沧江水电股份有限公司 基于时空一体化的特高拱坝变形时空序列预测方法
CN109948861A (zh) * 2019-03-26 2019-06-28 西南交通大学 一种基于模态分解及深度学习的城轨短时客流预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017127306A1 (en) * 2016-01-18 2017-07-27 Arisan Therapeutics Adamatane derivatives for the treatment of filovirus infection
CN108846199A (zh) * 2018-06-12 2018-11-20 华能澜沧江水电股份有限公司 基于时空一体化的特高拱坝变形时空序列预测方法
CN109948861A (zh) * 2019-03-26 2019-06-28 西南交通大学 一种基于模态分解及深度学习的城轨短时客流预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
On Human Motion Prediction Using Recurrent Neural Networks;Julieta Martinez;《2017 IEEE Conference on Computer Vision and Pattern Recognition 》;全文 *
卷积神经网络特征重要性分析及增强特征选择模型;卢泓宇等;《软件学报》(第11期);全文 *
基于RNN的人脸老化方法研究;刘振宇等;《通信技术》(第04期);全文 *

Also Published As

Publication number Publication date
CN110347874A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
Varol et al. Long-term temporal convolutions for action recognition
US10032498B2 (en) Memory cell unit and recurrent neural network including multiple memory cell units
CN109816095B (zh) 基于改进门控循环神经网络的网络流量预测方法
EP3620990A1 (en) Capturing network dynamics using dynamic graph representation learning
Zhu et al. Stability of Markovian jump neural networks with impulse control and time varying delays
US20170228618A1 (en) Video classification method and apparatus
US11170256B2 (en) Multi-scale text filter conditioned generative adversarial networks
Mei et al. Signal processing on graphs: Estimating the structure of a graph
CN111259738B (zh) 人脸识别模型构建方法、人脸识别方法及相关装置
CN109271876B (zh) 基于时间演化建模和多示例学习的视频动作检测方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN109977893B (zh) 基于层次显著性通道学习的深度多任务行人再识别方法
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
Stanić et al. R-sqair: Relational sequential attend, infer, repeat
CN104200441A (zh) 基于高阶奇异值分解的磁共振图像去噪方法
CN110347874B (zh) 一种基于循环神经网络的视频分类方法
Xie et al. Learning cycle-consistent cooperative networks via alternating MCMC teaching for unsupervised cross-domain translation
Ma et al. Few-shot Visual Learning with Contextual Memory and Fine-grained Calibration.
Salem A basic recurrent neural network model
Henderson et al. Spike event based learning in neural networks
CN111160170B (zh) 一种自学习的人体行为识别与异常检测方法
Qi et al. Research on deep learning expression recognition algorithm based on multi-model fusion
CN111062291B (zh) 一种机器人视觉跟踪方法及系统
CN110288002A (zh) 一种基于稀疏正交神经网络的图像分类方法
WO2021223747A1 (zh) 视频处理方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant