CN111209433A - 一种基于特征增强的视频分类算法 - Google Patents
一种基于特征增强的视频分类算法 Download PDFInfo
- Publication number
- CN111209433A CN111209433A CN202010006568.XA CN202010006568A CN111209433A CN 111209433 A CN111209433 A CN 111209433A CN 202010006568 A CN202010006568 A CN 202010006568A CN 111209433 A CN111209433 A CN 111209433A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- classification
- input
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于特征增强的视频分类算法涉及视频处理技术领域,方法包括:首先将待分类视频分为K段,在每段中随机选择帧或者等距离选择帧;通过预先训练好的CNN模型来提取每一帧的图像特征,将每一帧特征输入特征融合层的池化模块,池化模块将提取的特征聚合成整个视频的压缩表示;根据每一段中的视频表示输入到特征增强层,特征增强层能够增加重要特征的权重,并减少非重要特征的权重,然后通过聚合函数从K个片段中相同类别得分得到某个类别的最终分数。本发明能够有效的提高分类效率,通过分为K段采样,解决了视频相邻帧相似度高的问题,通过特征增强层选择更重要的特征有效的提高了分类准确率。
Description
技术领域
本发明属于视频信息内容发掘技术,更具体的是,设计一种基于注意力的特征增强的视频分类。
背景技术
近年来,得益于深度学习强大的特征提取能力,视频内容的识别和分析取得了突
破性进展。视频内容识别的核心在于视频特征的提取,视频特征是视频本身所具有的物理性质,能够从不同的角度反映视频内容。
目前主流的视频分类的方法有三大类:基于LSTM的方法,基于3D卷积的方法和基于双流的方法。基于LSTM的方法将视频的每一帧用卷积网络提取出每一帧的特征,然后将每一个特征作为一个时间点,依次输入到LSTM中。由于LSTM并不限制序列的长度,所以这种方法可以处理任意长度的视频。但同时,因为LSTM本身有梯度消失和爆炸的问题,往往难以训练出令人满意的效果。而且,由于LSTM需要一帧一帧得进行输入,所以速度也比不上其他的方法。
基于3D卷积的方法将原始的2D卷积核扩展到3D。类似于2D卷积在空间维度的作用方式,它可以在时间维度自底向上地提取特征。基于3D卷积的方法往往能得到不错的分类精度。但是,由于卷积核由2D扩展到了3D,其参数量也成倍得增加了,所以网络的速度也会相应下降。
基于双流网络的方法会将网络分成两支。其中一支使用2D卷积网络来对稀疏采样的图片帧进行分类,另一支会提取采样点周围帧的光流场信息,然后使用一个光流网络来对其进行分类。两支网络的结果会进行融合从而得到最终的类标。基于双流的方法可以很好地利用已有的2D卷积网络来进行预训练,同时光流又可以建模运动信息,所以精度往往也很高。但是由于光流的提取过程很慢,所以整体上制约了这一方法的速度。
发明内容
本发明的目的在于克服现有技术的不足,将视频分为K段,缩短每次处理的时间序列,通过对每段特征的融合,再增加重要的特征从而提高分类的准确率与效率。
为实现上述发明目的,本发明一种基于特征增强机制的视频分类方法,其特征在于,包括以下步骤:
将待分类视频分为K(3)段;在每段中每隔n帧采样一帧。
获取每段视频中的空间特征:将每段中所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征,通过卷积神经网络CNN提取输入视频的空间特征。
通过LSTM循环神经网络融合每段中的时间特征和空间。
然后在每段中取对应的LSTM网络每个时刻取的输出输入到一个全连接层降维到1024维,可以起到降维,保留有用信息等作用。
将全连接层的输出作为特征增强层的输入,在每段的特征增强模块中采用一种注意力机制来增加相关重要的权重。
将特征增强层输入到分类模块,分类模块将得到的表示作为输入,并输出预定义标签集的分数,得到每段视频的分类结果。
融合K段中的K个结果,最终得到整个视频的分类结果。
其中,所述LSTM循环神经网络部分包括:
设输入视频为X={x1,x2,…,xn},N表示每段输入视频的总帧数,通过卷积神经网络CNN提取,输入视频的空间特征为V={v1,v2,…,vn},vi表示第i帧视频图像的特征向量,i=1,2,…,n;
更新当前时刻LSTM网络状态;
ht=OtCt
其中,ft、it、Ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和Ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和Ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表达式为Af、Af、Ac,bi、bf、bc分别为待学习参数。计算每个时刻对应的输出类别进行梯度更新,所有参数初始化采用随机初始化的方法。
其中,所述特征增强层部分包括:
先初始化一个权重矩阵W,b。特征增强公式为:
Y=σ(WX+b)☉X
其中,X是输入特征向量,σ是逐个元素的sigmoid激活函数,☉是逐个元素相乘。W和b是可训练的参数向量σ(WX+b)代表应用于输入特征X的个体维度的一组学习门。
其中,所述分类模块采用SoftMax函数分类器,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类,具体如下:
其中,i表示k的某个分类,gi表示该分类的值。
所述每段结果融合共识部分采用简单的均匀平均法来表示,即对每段n个结果的分数求和取平均就是最后的结果集。
附图说明
图1是本发明基于特征增强的视频分类方法流程图
图2是整体网络的结构图
具体实施方式
下面结合附图和实施例,对本发明作做一步的详细说明。特别指出的是以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所以实施例,都属于本发明的保护范围。
本发明提供一种基于特征增强的视频分类方法,能够提高视频分类的准确率和效率。
图1是本发明基于特征增强的视频分类方法的流程图,下面根据图1介绍具体流程:
首先本文需要用到预先训练的图像处理模型,视觉特征包括来自在Imagenet上训练的公共可用的Inception网络的最后一个完全连接层的ReLU激活。
在步骤101中,获取包括视频类别的视频。本实施例采用HMDB-51和UCF-101数据集进行模型的仿真和验证分析,HMDB-51数据集包含6766个视频,视频内容主要来自电影片段,分为51个类别,每个类别都包含至少101个视频,数据集的划分采用7/3原则。UCF-101数据集是从现实生活中收集的视频识别数据集,视频内容全部来源于YouTube视频,包含13320个视频,共101类视频类别,是迄今为止最具挑战性的视频识别数据集之一。其中训练集,验证集,测试集的比例可以是8:1:1。
在步骤102中,视频采样可以参考TSN(Temporal Segment Networks)采样方法,首先将视频分为K段,K一般取3,在每段中每隔n帧采样一帧,这样可以避免视频中相邻帧有大量冗余的问题。
在步骤103中,将采好样的关键帧输入到预训练好的模型中提取空间特征,对于空间特征提取部分,本实施例采用GoogLeNet的Inception-v3结构,并在2012年的imageNet上进行预训练,然后固定Inception-v3网络参数,提取pooling3层特征作为视频的空间特征,特征大小为2048维。
在步骤104中,在每段提取空间特征之后,采用LSTM神经网络融合每段的时间特征,对于时间特征提取部分,设置LSTM网络的层数为1层,输入单元个数为2048,隐藏单元个数为512。
步骤105中,构建一个全连接层,这一层是每一个单元都和前一层的每一个单元相连接,所以神经元数量为2048个,激活函数采用双正切曲线。
步骤106中,在特征增强层中,首先随机初始化矩阵W,b,保证和输入矩阵相同维度。将全连接层提取后的特征与矩阵W相乘,通过反向传播更新W的值,从而增大重要的特征的权重,减少非重要特征的权重。
步骤107中,每段的结果采用SoftMax函数进行分类,得到每个类别的分值。其中SoftMax函数表示如下:
其中,i表示k的某个分类,gi表示该分类的值。
步骤108中,融合所有段的结果,对每段的类别分值进行简单的求和取平均就是最终的分类结果。
以上训练方法用Adam优化算法进行训练,初始学习率为0.001,最大迭代次数为20000。
Claims (4)
1.一种视频分类方法,其特征在于,包括:
将待分类视频分为K段;
将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征;
在K段中根据上一步输出结果,进行特征融合,获得每一段的综合特征,
根据特征融合的结果进行特征增强,增加对分类重要的特征权重,同时减少不重要的特征权重;
根据特征增强后的结果输入到分类模块,得到每段的类别;
再通过特征融合函数融合K段的分类结果,最终得到分类结果。
2.根据权利要求1所述的方法,其特征在于:
将视频分为K段及采样的方法为:将其分为3段,在每段中随机采样15到20帧左右,或者每隔1s取一次。
3.根据权利要求1所述的方法,其特征在于:
在采样后的帧通过预先训练的CNN图像特征提取模型,采用Inception网络模型,并将Inception网络的降采样层的输出作为每一帧图像的特征,然后再将其输入到循环神经网络中,采取LSTM作为循环神经网络的处理单元,最后一个时刻的输出即特征融合后的结果,过程如下:
3.1通过卷积神经网络CNN提取输入视频的空间特征;
设输入视频为X={x1,x2,…,xn},N表示每段输入视频的总帧数,通过Inception网络模型提取,输入视频的空间特征为V={v1,v2,…,vn},vi表示第i帧视频图像的特征向量,i=1,2,…,n;
3.2更新当前时刻LSTM网络状态;
ht=OtCt
4.根据权利要求1所述的方法,其特征在于:
在每段中对应的LSTM网络每个时刻取平均作为特征增强层的输入,
在每段的特征增强模块中采用一种注意力机制来增加相关重要的权重,先初始化一个权重矩阵W,b;
Y=σ(WX+b)☉X
其中,X是输入特征向量,σ是逐个元素的sigmoid激活函数,⊙表示逐个元素相乘;W和b是可训练的参数;向量σ(WX+b)代表应用于输入特征X的个体维度的一组学习门;
其中,所述分类模块采用SoftMax函数分类器,它将多个神经元的输出,映射到(0,1)区间内,看成概率来理解,从而来进行多分类,具体如下:
其中,i表示k的某个分类,gi表示该分类的值;
所述每段结果融合共识部分采用均匀平均法来表示,即对每段n个结果的分数求和取平均就是最后的结果集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010006568.XA CN111209433A (zh) | 2020-01-03 | 2020-01-03 | 一种基于特征增强的视频分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010006568.XA CN111209433A (zh) | 2020-01-03 | 2020-01-03 | 一种基于特征增强的视频分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111209433A true CN111209433A (zh) | 2020-05-29 |
Family
ID=70786577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010006568.XA Pending CN111209433A (zh) | 2020-01-03 | 2020-01-03 | 一种基于特征增强的视频分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183669A (zh) * | 2020-11-04 | 2021-01-05 | 北京航天泰坦科技股份有限公司 | 图像分类方法和装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
US20180032846A1 (en) * | 2016-08-01 | 2018-02-01 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
-
2020
- 2020-01-03 CN CN202010006568.XA patent/CN111209433A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032846A1 (en) * | 2016-08-01 | 2018-02-01 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
Non-Patent Citations (1)
Title |
---|
JEFF DONAHUE: "Long-Term Recurrent Convolutional Networks for Visual Recognition and Description", 《IEEE》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183669A (zh) * | 2020-11-04 | 2021-01-05 | 北京航天泰坦科技股份有限公司 | 图像分类方法和装置、设备及存储介质 |
CN112183669B (zh) * | 2020-11-04 | 2024-02-13 | 航天科工(北京)空间信息应用股份有限公司 | 图像分类方法和装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510012B (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109389055B (zh) | 基于混合卷积和注意力机制的视频分类方法 | |
Sun et al. | Lattice long short-term memory for human action recognition | |
Kollias et al. | Recognition of affect in the wild using deep neural networks | |
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
Cheng et al. | Facial expression recognition method based on improved VGG convolutional neural network | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
Hou et al. | Improving variational autoencoder with deep feature consistent and generative adversarial training | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN110334589B (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
Tian et al. | Ear recognition based on deep convolutional network | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
Wang et al. | Basketball shooting angle calculation and analysis by deeply-learned vision model | |
CN110610138A (zh) | 一种基于卷积神经网络的面部情感分析方法 | |
Saqib et al. | Intelligent dynamic gesture recognition using CNN empowered by edit distance | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss | |
Zhao et al. | Cbph-net: A small object detector for behavior recognition in classroom scenarios | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200529 |
|
WD01 | Invention patent application deemed withdrawn after publication |