CN108764084B - 基于空域分类网络和时域分类网络融合的视频分类方法 - Google Patents
基于空域分类网络和时域分类网络融合的视频分类方法 Download PDFInfo
- Publication number
- CN108764084B CN108764084B CN201810475657.1A CN201810475657A CN108764084B CN 108764084 B CN108764084 B CN 108764084B CN 201810475657 A CN201810475657 A CN 201810475657A CN 108764084 B CN108764084 B CN 108764084B
- Authority
- CN
- China
- Prior art keywords
- video
- network
- classification network
- test
- domain classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于空域分类网络和时域分类网络融合的视频分类方法,主要解决现有视频分类方法准确率低的问题。其实现方案为1)获取训练集和测试视频;2)从训练集中提取视频帧;3)使用训练集对卷积神经网络进行训练;4)对从训练集中提取的视频帧提取特征;5)使用训练集对空域分类网络进行训练;6)使用训练集对时域分类网络进行训练;7)使用训练后的空域分类网络和时域分类网络对测试视频进行分类,并对空域分类网络和时域分类网络的分类结果进行融合,完成对视频的分类。本发明相比现有视频分类方法有效提高了分类准确率,可用于视频的特征提取和识别。
Description
技术领域
本发明属于图像处理技术领域,更进一步设计一种视频的计算机分类方法,可用于视频的特征提取和识别。
背景技术
随着互联网技术的不断普及和视频压缩存储技术的日益发展,互联网上所能获取的视频数量呈现了爆炸式的增长。如何对海量的视频数据进行分析管理,就成为了目前亟需解决的重要问题。其中,视频分类技术是视频分析的基础。如果新增的互联网视频不能被适当的标记和分类,用户就无法有效的利用互联网获取或者共享这些视频文件。早期的视频分类方法往往分为两步。第一步是提取一种或多种视频特征,第二步是利用分类器对提取到的特征进行分类。但是这类算法过度依赖所提取特征的质量,而且不能充分获取视频中复杂的视频模式,因此对视频的分类准确率并不理想。
近年来,深度神经网络在计算机视觉领域取得了巨大成功,它能够借助层次化的结构,从训练数据中学习复杂多样的特征模式,从而有效提取输入数据的特征。研究人员也提出了多种基于深度神经网络的视频分类技术,使得视频分类方法的效果得到了明显的提升。但是研究表明,在一些情况下,对输入视频数据添加细微干扰,如改变部分像素点像素值后,深度神经网络对于输入样本的识别结果可能会产生严重错误。这是由于深度神经网络的本质在于理解训练数据的统计特性,从训练数据中学习其中复杂多样的特征模式。一旦数据的统计特性改变,就会影响深度神经网络的分类结果。而人工标记的过程就能够排除此类干扰的影响,因此理解并模拟人工标记过程中人类的认知方式对提高视频分类方法的效果,有着重要的意义。此外,目前一些分类效果较好的基于深度神经网络的视频分类方法大多包含两个独立的空域分类网络和时域分类网络,需要分别进行网络结构的设计和网络参数的训练,设计难度较大,训练耗时较多。同时,现有的视频分类方法的分类准确率仍然有待提高。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于空域分类网络和时域分类网络融合的视频分类方法,以降低网络的设计难度和训练时间,提升了视频的分类准确率。
本发明的技术方案是:利用深度神经网络技术,同时提取视频的时域特征和空域特征,学习视频中复杂多样的特征模式;分别从空域和时域对视频的类别进行分析;融合空域和时域的分析结果,得到最终对视频的分类结果。其实现步骤包括如下:
1)获取训练集和测试视频:
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest;
7)使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类:
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中pt(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果。
本发明与现有技术相比,具有以下优点:
1)本发明由于在空域分类网络和时域分类网络中使用相同的卷积神经网络进行特征提取,降低了网络结构设计的难度和网络训练所需的时间;
2)本发明由于在空域分类网络中提取了全部视频帧的视觉注意力特征,提升了分类准确率。
附图说明
图1是本发明的实施流程图;
图2是用本发明在空域分类网络分类结果所占权重不同时,对极光视频分类数据库的分类准确率图。
具体实施方式
以下结合附图和具体实例,对本发明的技术方案和效果进一步详细描述:
参照图1,本发明的实现步骤如下:
步骤1,获取训练集和测试视频。
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest。
步骤3,对卷积神经网络进行训练。
3f)根据交叉熵的均值lc,使用反向传播算法更新卷积神经网络参数,得到训练后的卷积神经网络Z。
psk={psk(1),psk(2),...psk(m),...psk(M)},
其中psk(m)为空域分类网络上训练集视频xk属于第m类视频的概率,其计算方法为:
5d)计算训练集视频xk的标签yk和psk之间的交叉熵lsk:
lsk=-log(psk(yk));
5f)根据交叉熵的均值ls,使用反向传播算法更新空域分类网络参数,得到训练后的空域分类网络。
6d)将时域分类网络上的一维特征向量vtk输入到soft-max分类器,得到时域分类网络上训练集视频xk属于不同视频类别的概率:
ptk={ptk(1),ptk(2),...ptk(m),...ptk(M)},
其中ptk(m)为时域分类网络上训练集视频xk属于第m类视频的概率;
6e)计算训练集视频xk的标签yk和ptk之间的交叉熵ltk:
ltk=-log(ptk(yk));
6f)求时域分类网络训练集X上交叉熵的均值lt:
6g)根据交叉熵的均值lt,使用反向传播算法更新时域分类网络参数,得到训练后的时域分类网络。
步骤7,使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类。
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中,ps(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中,pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果,完成对测试视频xtest的分类。
本发明的效果可通过以下实验进一步说明。
1.实验条件
实验硬件设备:PC台式机,CPU为i7-5930K,显卡为英伟达GTX Titan X,内存容量128GB。
实验软件平台:64位Ubuntu 14.04.3操作系统下的MATLAB R2015B和caffe深度学习工具包。
2.实验内容
实验1.为了选取空域分类网络分类结果所占权重w,用本发明所提视频分类方法,使用不同空域分类网络分类结果所占权重w,对极光视频数据库进行分类,计算分类准确率,结果如图2,其中横坐标表示空域分类网络分类结果所占权重w的取值,纵坐标表示在极光视频分类数据库上的分类准确率。
从图2可见,空域分类网络分类结果所占权重w为0.2时,本发明所提视频分类方法对极光视频数据库进行分类的分类准确率最高。
实验2.用本发明和现有的四种极光视频分类方法,TDTM,DOWSIFT-DM,3DPCANet和3DPCANet-BRVLBP,对极光视频数据库进行分类,计算其分类准确率,结果如表1:
表1.本发明和现有极光视频分类方法在极光视频分类数据库上的分类准确率
方法 | 分类准确率 |
TDTM | 80.81% |
DOWSIFT-DM | 87.19% |
3DPCANet | 90.30% |
3DPACNet-BRVLBP | 92.10% |
本发明 | 94.69% |
从表1可见,在对极光视频数据库进行分类时,本发明所提视频分类方法较现有极光视频分类方法,在分类准确率上有所提升。
实验3.用本发明和现有的四种人类行为视频分类方法,MDM,BOWF,IOP-ARM和SPHOG,对人类行为视频数据库进行分类,计算分类准确率,结果如表2:
表2.本发明和现有人类行为视频分类方法在人类行为视频数据库上的分类准确率
方法 | 分类准确率 |
MDM | 87.19% |
BOWF | 92.30% |
IOP-ARM | 89.10% |
SPHOG | 89.80% |
本发明 | 94.82% |
从表2可见,在对人类行为视频数据库进行分类时,本发明所提视频分类方法较现有人类行为视频分类方法,在分类准确率上有所提升。
Claims (2)
1.基于空域分类网络和时域分类网络融合的视频分类方法,包括:
1)获取训练集和测试视频:
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest;
psk={psk(1),psk(2),...psk(m),...psk(M)},
其中psk(m)为空域分类网络上训练集视频xk属于第m类视频的概率,其计算方法为:
5d)计算训练集视频xk的标签yk和psk之间的交叉熵lsk:
lsk=-log(psk(yk));
5f)根据交叉熵的均值ls,使用反向传播算法更新空域分类网络参数,得到训练后的空域分类网络;
6d)将一维特征向量vtk输入到soft-max分类器,得到时域分类网络上训练集视频xk属于不同视频类别的概率:
ptk={ptk(1),ptk(2),...ptk(m),...ptk(M)},
其中ptk(m)为时域分类网络上训练集视频xk属于第m类视频的概率;
6e)计算训练集视频xk的标签yk和ptk之间的交叉熵ltk:
ltk=-log(ptk(yk));
6f)求时域分类网络训练集X上交叉熵的均值lt:
6g)根据交叉熵的均值lt,使用反向传播算法更新时域分类网络参数,得到训练后的时域分类网络;
7)使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类:
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中ps(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810475657.1A CN108764084B (zh) | 2018-05-17 | 2018-05-17 | 基于空域分类网络和时域分类网络融合的视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810475657.1A CN108764084B (zh) | 2018-05-17 | 2018-05-17 | 基于空域分类网络和时域分类网络融合的视频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108764084A CN108764084A (zh) | 2018-11-06 |
CN108764084B true CN108764084B (zh) | 2021-07-27 |
Family
ID=64008577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810475657.1A Active CN108764084B (zh) | 2018-05-17 | 2018-05-17 | 基于空域分类网络和时域分类网络融合的视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764084B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614517B (zh) * | 2018-12-04 | 2023-08-01 | 广州市百果园信息技术有限公司 | 视频的分类方法、装置、设备及存储介质 |
CN111382616B (zh) * | 2018-12-28 | 2023-08-18 | 广州市百果园信息技术有限公司 | 视频分类方法、装置及存储介质、计算机设备 |
CN109740670B (zh) | 2019-01-02 | 2022-01-11 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN109858419A (zh) * | 2019-01-23 | 2019-06-07 | 广州智慧城市发展研究院 | 一种自下而上-自上而下的行为识别系统 |
CN109919110B (zh) * | 2019-03-13 | 2021-06-04 | 北京航空航天大学 | 视频关注区域检测方法、装置及设备 |
CN110287816B (zh) * | 2019-06-05 | 2021-12-28 | 北京字节跳动网络技术有限公司 | 车门动作检测方法、装置和计算机可读存储介质 |
CN113080907B (zh) * | 2021-04-14 | 2022-10-25 | 贵州省人民医院 | 脉搏波信号处理方法及装置 |
CN114943286B (zh) * | 2022-05-20 | 2023-04-07 | 电子科技大学 | 一种基于时域特征与空域特征融合的未知目标判别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8917764B2 (en) * | 2011-08-08 | 2014-12-23 | Ittiam Systems (P) Ltd | System and method for virtualization of ambient environments in live video streaming |
CN104966104A (zh) * | 2015-06-30 | 2015-10-07 | 孙建德 | 一种基于三维卷积神经网络的视频分类方法 |
CN105550699A (zh) * | 2015-12-08 | 2016-05-04 | 北京工业大学 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
-
2018
- 2018-05-17 CN CN201810475657.1A patent/CN108764084B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8917764B2 (en) * | 2011-08-08 | 2014-12-23 | Ittiam Systems (P) Ltd | System and method for virtualization of ambient environments in live video streaming |
CN104966104A (zh) * | 2015-06-30 | 2015-10-07 | 孙建德 | 一种基于三维卷积神经网络的视频分类方法 |
CN105550699A (zh) * | 2015-12-08 | 2016-05-04 | 北京工业大学 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
Non-Patent Citations (5)
Title |
---|
A Multi-size Kernels CNN with Eye Movement Guided Task-Specific Initialization for Aurora Image Classification;Bing Han 等;《CCCV 2017》;20171231;533-544 * |
Predicting eye fixations using convolutional neural networks;Nian Liu 等;《2015 IEEE International Conference of Computer Vision and Pattern Recognition(CVPR)》;20150612;362-370 * |
Two-stream Collaborative Learning with Spatial-Temporal Attention for Video Classification;Yuxin Peng 等;《arXiv》;20171109;1-14 * |
基于时空域深度特征两级编码融合的视频分类;智洪欣 等;《计算机应用研究》;20180331;第35卷(第3期);926-929 * |
基于空-时域特征决策级融合的人体行为识别算法;李艳荻 等;《光学学报》;20180328;第38卷(第8期);0810001-1-0810001-14 * |
Also Published As
Publication number | Publication date |
---|---|
CN108764084A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764084B (zh) | 基于空域分类网络和时域分类网络融合的视频分类方法 | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN109614979B (zh) | 一种基于选择与生成的数据增广方法及图像分类方法 | |
CN111160533B (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
WO2021051598A1 (zh) | 文本情感分析模型训练方法、装置、设备及可读存储介质 | |
CN111026914B (zh) | 视频摘要模型的训练方法、视频摘要生成方法及装置 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN105550699A (zh) | 一种基于cnn融合时空显著信息的视频识别分类方法 | |
CN107743225B (zh) | 一种利用多层深度表征进行无参考图像质量预测的方法 | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN105528620B (zh) | 一种联合鲁棒主成分特征学习与视觉分类方法及系统 | |
Ju et al. | Fusing global and local features for generalized ai-synthesized image detection | |
CN112819020A (zh) | 训练分类模型的方法和装置及分类方法 | |
CN111210402A (zh) | 人脸图像质量评分方法、装置、计算机设备及存储介质 | |
Xu et al. | Two-stage temporal modelling framework for video-based depression recognition using graph representation | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN110210562B (zh) | 基于深度网络和稀疏Fisher矢量的图像分类方法 | |
CN109214275B (zh) | 一种基于深度学习的低俗图片识别方法 | |
Chen et al. | Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video | |
CN113255789B (zh) | 基于对抗网络和多被试脑电信号的视频质量评价方法 | |
CN115063630A (zh) | 基于解耦迁移的联邦学习方法在计算机视觉上的应用 | |
CN114943862A (zh) | 一种基于结构性解析字典学习的两阶段图像分类方法 | |
CN110135306B (zh) | 基于角度损失函数的行为识别方法 | |
Mi | Face image recognition via collaborative representation on selected training samples | |
CN114333022B (zh) | 角色特征提取模型的训练方法、角色识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |