CN108764084B - 基于空域分类网络和时域分类网络融合的视频分类方法 - Google Patents

基于空域分类网络和时域分类网络融合的视频分类方法 Download PDF

Info

Publication number
CN108764084B
CN108764084B CN201810475657.1A CN201810475657A CN108764084B CN 108764084 B CN108764084 B CN 108764084B CN 201810475657 A CN201810475657 A CN 201810475657A CN 108764084 B CN108764084 B CN 108764084B
Authority
CN
China
Prior art keywords
video
network
classification network
test
domain classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810475657.1A
Other languages
English (en)
Other versions
CN108764084A (zh
Inventor
韩冰
褚福跃
王平
高新波
连慧芳
张萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810475657.1A priority Critical patent/CN108764084B/zh
Publication of CN108764084A publication Critical patent/CN108764084A/zh
Application granted granted Critical
Publication of CN108764084B publication Critical patent/CN108764084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于空域分类网络和时域分类网络融合的视频分类方法,主要解决现有视频分类方法准确率低的问题。其实现方案为1)获取训练集和测试视频;2)从训练集中提取视频帧;3)使用训练集对卷积神经网络进行训练;4)对从训练集中提取的视频帧提取特征;5)使用训练集对空域分类网络进行训练;6)使用训练集对时域分类网络进行训练;7)使用训练后的空域分类网络和时域分类网络对测试视频进行分类,并对空域分类网络和时域分类网络的分类结果进行融合,完成对视频的分类。本发明相比现有视频分类方法有效提高了分类准确率,可用于视频的特征提取和识别。

Description

基于空域分类网络和时域分类网络融合的视频分类方法
技术领域
本发明属于图像处理技术领域,更进一步设计一种视频的计算机分类方法,可用于视频的特征提取和识别。
背景技术
随着互联网技术的不断普及和视频压缩存储技术的日益发展,互联网上所能获取的视频数量呈现了爆炸式的增长。如何对海量的视频数据进行分析管理,就成为了目前亟需解决的重要问题。其中,视频分类技术是视频分析的基础。如果新增的互联网视频不能被适当的标记和分类,用户就无法有效的利用互联网获取或者共享这些视频文件。早期的视频分类方法往往分为两步。第一步是提取一种或多种视频特征,第二步是利用分类器对提取到的特征进行分类。但是这类算法过度依赖所提取特征的质量,而且不能充分获取视频中复杂的视频模式,因此对视频的分类准确率并不理想。
近年来,深度神经网络在计算机视觉领域取得了巨大成功,它能够借助层次化的结构,从训练数据中学习复杂多样的特征模式,从而有效提取输入数据的特征。研究人员也提出了多种基于深度神经网络的视频分类技术,使得视频分类方法的效果得到了明显的提升。但是研究表明,在一些情况下,对输入视频数据添加细微干扰,如改变部分像素点像素值后,深度神经网络对于输入样本的识别结果可能会产生严重错误。这是由于深度神经网络的本质在于理解训练数据的统计特性,从训练数据中学习其中复杂多样的特征模式。一旦数据的统计特性改变,就会影响深度神经网络的分类结果。而人工标记的过程就能够排除此类干扰的影响,因此理解并模拟人工标记过程中人类的认知方式对提高视频分类方法的效果,有着重要的意义。此外,目前一些分类效果较好的基于深度神经网络的视频分类方法大多包含两个独立的空域分类网络和时域分类网络,需要分别进行网络结构的设计和网络参数的训练,设计难度较大,训练耗时较多。同时,现有的视频分类方法的分类准确率仍然有待提高。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于空域分类网络和时域分类网络融合的视频分类方法,以降低网络的设计难度和训练时间,提升了视频的分类准确率。
本发明的技术方案是:利用深度神经网络技术,同时提取视频的时域特征和空域特征,学习视频中复杂多样的特征模式;分别从空域和时域对视频的类别进行分析;融合空域和时域的分析结果,得到最终对视频的分类结果。其实现步骤包括如下:
1)获取训练集和测试视频:
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest
2)提取训练集X中训练集视频xk的全部视频帧
Figure BDA0001664405170000021
其中,τ=1,2,...,T,T为视频xk中所包含视频帧的数目,以训练集视频xk的标签yk作为全部视频帧
Figure BDA0001664405170000022
的标签;
3)以全部视频帧
Figure BDA0001664405170000023
及其标签yk作为训练数据,对卷积神经网络进行训练,得到训练好的卷积神经网络Z;
4)提取全部视频帧
Figure BDA0001664405170000024
的特征:
4a)计算全部视频帧
Figure BDA0001664405170000025
的视觉注意力特征
Figure BDA00016644051700000212
4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征
Figure BDA0001664405170000026
进行提取,得到空域特征矩阵
Figure BDA0001664405170000027
4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧
Figure BDA0001664405170000028
进行特征提取,得到时域特征矩阵
Figure BDA0001664405170000029
5)利用空域特征矩阵
Figure BDA00016644051700000210
对空域分类网络进行训练;
6)利用时域特征矩阵
Figure BDA00016644051700000211
对时域分类网络进行训练;
7)使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类:
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中pt(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果。
本发明与现有技术相比,具有以下优点:
1)本发明由于在空域分类网络和时域分类网络中使用相同的卷积神经网络进行特征提取,降低了网络结构设计的难度和网络训练所需的时间;
2)本发明由于在空域分类网络中提取了全部视频帧的视觉注意力特征,提升了分类准确率。
附图说明
图1是本发明的实施流程图;
图2是用本发明在空域分类网络分类结果所占权重不同时,对极光视频分类数据库的分类准确率图。
具体实施方式
以下结合附图和具体实例,对本发明的技术方案和效果进一步详细描述:
参照图1,本发明的实现步骤如下:
步骤1,获取训练集和测试视频。
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest
步骤2,提取训练集X中训练集视频xk的全部视频帧
Figure BDA0001664405170000031
2a)将训练集X中训练集视频xk输入到商用ffmpeg数字音视频处理软件中,提取训练集视频xk的全部视频帧
Figure BDA0001664405170000041
其中,τ=1,2,...,T,T为视频xk中所包含视频帧的数目;
2b)以训练集视频xk的标签yk作为全部视频帧
Figure BDA0001664405170000042
的标签。
步骤3,对卷积神经网络进行训练。
3a)使用卷积神经网络对全部视频帧
Figure BDA0001664405170000043
进行提取,得到卷积特征矩阵
Figure BDA0001664405170000044
3b)将卷积特征矩阵
Figure BDA0001664405170000045
转换为卷积神经网络上的一维特征向量
Figure BDA0001664405170000046
3c)将卷积神经网络上的一维特征向量
Figure BDA0001664405170000047
输入到soft-max分类器,计算全部视频帧
Figure BDA0001664405170000048
属于不同标签的概率:
Figure BDA0001664405170000049
其中
Figure BDA00016644051700000410
为卷积神经网络上全部视频帧
Figure BDA00016644051700000411
标签为m的概率,m=1,2,...,M,M为视频类别数;
3d)计算全部视频帧
Figure BDA00016644051700000412
的标签yk
Figure BDA00016644051700000413
之间的交叉熵
Figure BDA00016644051700000414
Figure BDA00016644051700000415
3e)求卷积神经网络在训练集X上交叉熵的均值:
Figure BDA00016644051700000416
3f)根据交叉熵的均值lc,使用反向传播算法更新卷积神经网络参数,得到训练后的卷积神经网络Z。
步骤4,提取全部视频帧
Figure BDA00016644051700000417
的特征。
4a)计算全部视频帧
Figure BDA00016644051700000418
的视觉注意力特征
Figure BDA00016644051700000419
4a1)提取全部视频帧
Figure BDA00016644051700000420
自下而上的视觉注意力特征
Figure BDA00016644051700000421
Figure BDA00016644051700000422
的维度为h*w,其中h为全部视频帧
Figure BDA00016644051700000423
的高,w为全部视频帧
Figure BDA00016644051700000424
的宽;
4a2)提取全部视频帧
Figure BDA00016644051700000425
自上而下的视觉注意力特征
Figure BDA00016644051700000426
Figure BDA00016644051700000427
的维度为h*w;
4a3)将自下而上的视觉注意力特征
Figure BDA00016644051700000428
和自上而下的视觉注意力特征
Figure BDA00016644051700000429
进行拼接,得到全部视频帧
Figure BDA00016644051700000430
的视觉注意力特征
Figure BDA00016644051700000431
Figure BDA00016644051700000432
的维度为h*w*2;
4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征
Figure BDA00016644051700000433
进行提取,得到空域特征矩阵
Figure BDA0001664405170000051
4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧
Figure BDA0001664405170000052
进行特征提取,得到时域特征矩阵
Figure BDA0001664405170000053
步骤5,利用空域特征矩阵
Figure BDA0001664405170000054
对空域分类网络进行训练。
5a)将空域特征矩阵
Figure BDA0001664405170000055
转换为空域分类网络上的一维特征向量
Figure BDA0001664405170000056
5b)将空域分类网络上的一维特征向量
Figure BDA0001664405170000057
输入到soft-max分类器,计算空域分类网络上全部视频帧
Figure BDA0001664405170000058
属于不同视频类别的概率:
Figure BDA0001664405170000059
其中
Figure BDA00016644051700000510
为空域分类网络上全部视频帧
Figure BDA00016644051700000511
属于第m类视频的概率;
5c)根据训练集视频xk中全部视频帧
Figure BDA00016644051700000512
属于不同视频类别的概率
Figure BDA00016644051700000513
计算空域分类网络上训练集视频xk属于不同视频类别的概率:
psk={psk(1),psk(2),...psk(m),...psk(M)},
其中psk(m)为空域分类网络上训练集视频xk属于第m类视频的概率,其计算方法为:
Figure BDA00016644051700000514
5d)计算训练集视频xk的标签yk和psk之间的交叉熵lsk
lsk=-log(psk(yk));
5e)求空域分类网络在训练集X上交叉熵的均值:
Figure BDA00016644051700000515
5f)根据交叉熵的均值ls,使用反向传播算法更新空域分类网络参数,得到训练后的空域分类网络。
步骤6,利用时域特征矩阵
Figure BDA00016644051700000516
对时域分类网络进行训练。
6a)将时域特征矩阵
Figure BDA00016644051700000517
输入到时域分类网络中的长短时记忆网络单元中,得到时刻τ=1时的网络输出
Figure BDA00016644051700000518
和网络状态
Figure BDA00016644051700000519
6b)将时域特征矩阵
Figure BDA0001664405170000061
和网络状态
Figure BDA0001664405170000062
共同输入到时域分类网络中的长短时记忆网络单元中,得到网络输出
Figure BDA0001664405170000063
和网络状态
Figure BDA0001664405170000064
τ=2,3,...,T;
6c)将全部时刻上的网络输出
Figure BDA0001664405170000065
按顺序首尾相接得到时域分类网络上的一维特征向量vtk
6d)将时域分类网络上的一维特征向量vtk输入到soft-max分类器,得到时域分类网络上训练集视频xk属于不同视频类别的概率:
ptk={ptk(1),ptk(2),...ptk(m),...ptk(M)},
其中ptk(m)为时域分类网络上训练集视频xk属于第m类视频的概率;
6e)计算训练集视频xk的标签yk和ptk之间的交叉熵ltk
ltk=-log(ptk(yk));
6f)求时域分类网络训练集X上交叉熵的均值lt:
Figure BDA0001664405170000066
6g)根据交叉熵的均值lt,使用反向传播算法更新时域分类网络参数,得到训练后的时域分类网络。
步骤7,使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类。
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中,ps(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中,pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果,完成对测试视频xtest的分类。
本发明的效果可通过以下实验进一步说明。
1.实验条件
实验硬件设备:PC台式机,CPU为i7-5930K,显卡为英伟达GTX Titan X,内存容量128GB。
实验软件平台:64位Ubuntu 14.04.3操作系统下的MATLAB R2015B和caffe深度学习工具包。
2.实验内容
实验1.为了选取空域分类网络分类结果所占权重w,用本发明所提视频分类方法,使用不同空域分类网络分类结果所占权重w,对极光视频数据库进行分类,计算分类准确率,结果如图2,其中横坐标表示空域分类网络分类结果所占权重w的取值,纵坐标表示在极光视频分类数据库上的分类准确率。
从图2可见,空域分类网络分类结果所占权重w为0.2时,本发明所提视频分类方法对极光视频数据库进行分类的分类准确率最高。
实验2.用本发明和现有的四种极光视频分类方法,TDTM,DOWSIFT-DM,3DPCANet和3DPCANet-BRVLBP,对极光视频数据库进行分类,计算其分类准确率,结果如表1:
表1.本发明和现有极光视频分类方法在极光视频分类数据库上的分类准确率
方法 分类准确率
TDTM 80.81%
DOWSIFT-DM 87.19%
3DPCANet 90.30%
3DPACNet-BRVLBP 92.10%
本发明 94.69%
从表1可见,在对极光视频数据库进行分类时,本发明所提视频分类方法较现有极光视频分类方法,在分类准确率上有所提升。
实验3.用本发明和现有的四种人类行为视频分类方法,MDM,BOWF,IOP-ARM和SPHOG,对人类行为视频数据库进行分类,计算分类准确率,结果如表2:
表2.本发明和现有人类行为视频分类方法在人类行为视频数据库上的分类准确率
方法 分类准确率
MDM 87.19%
BOWF 92.30%
IOP-ARM 89.10%
SPHOG 89.80%
本发明 94.82%
从表2可见,在对人类行为视频数据库进行分类时,本发明所提视频分类方法较现有人类行为视频分类方法,在分类准确率上有所提升。

Claims (2)

1.基于空域分类网络和时域分类网络融合的视频分类方法,包括:
1)获取训练集和测试视频:
从已标记类别的视频数据库中任取N个视频组成训练集:X={x1,x2,...,xk,...,xN},其中xk是第k个训练集视频,xk的标签为yk,k=1,2,...,N;
将剩余视频组成测试集,从测试集中取一个视频作为测试视频xtest
2)提取训练集X中训练集视频xk的全部视频帧
Figure FDA0003112493970000011
其中,τ=1,2,...,T,T为视频xk中所包含视频帧的数目,以训练集视频xk的标签yk作为全部视频帧
Figure FDA0003112493970000012
的标签;
3)以全部视频帧
Figure FDA0003112493970000013
及其标签yk作为训练数据,对卷积神经网络进行训练,得到训练好的卷积神经网络Z;
4)提取全部视频帧
Figure FDA0003112493970000014
的特征:
4a)计算全部视频帧
Figure FDA0003112493970000015
的视觉注意力特征
Figure FDA0003112493970000016
4b)使用步骤3)训练好的卷积神经网络Z对视觉注意力特征
Figure FDA0003112493970000017
进行提取,得到空域特征矩阵
Figure FDA0003112493970000018
4c)使用步骤3)训练好的卷积神经网络Z对全部视频帧
Figure FDA0003112493970000019
进行特征提取,得到时域特征矩阵
Figure FDA00031124939700000110
5)利用空域特征矩阵
Figure FDA00031124939700000111
对空域分类网络进行训练;按如下步骤进行:
5a)将空域特征矩阵
Figure FDA00031124939700000112
转换为一维特征向量
Figure FDA00031124939700000113
5b)将一维特征向量
Figure FDA00031124939700000114
输入到soft-max分类器,计算空域分类网络上全部视频帧
Figure FDA00031124939700000115
属于不同视频类别的概率:
Figure FDA00031124939700000116
其中
Figure FDA00031124939700000117
为空域分类网络上全部视频帧
Figure FDA00031124939700000118
属于第m类视频的概率;
5c)根据训练集视频xk中全部视频帧
Figure FDA0003112493970000021
属于不同视频类别的概率
Figure FDA0003112493970000022
计算空域分类网络上训练集视频xk属于不同视频类别的概率:
psk={psk(1),psk(2),...psk(m),...psk(M)},
其中psk(m)为空域分类网络上训练集视频xk属于第m类视频的概率,其计算方法为:
Figure FDA0003112493970000023
5d)计算训练集视频xk的标签yk和psk之间的交叉熵lsk
lsk=-log(psk(yk));
5e)求空域分类网络在训练集X上交叉熵的均值:
Figure FDA0003112493970000024
5f)根据交叉熵的均值ls,使用反向传播算法更新空域分类网络参数,得到训练后的空域分类网络;
6)利用时域特征矩阵
Figure FDA0003112493970000025
对时域分类网络进行训练;按如下步骤进行:
6a)将时域特征矩阵
Figure FDA0003112493970000026
输入到时域分类网络中的长短时记忆网络单元中,得到时刻τ=1时的网络输出
Figure FDA0003112493970000027
和网络状态
Figure FDA0003112493970000028
6b)将时域特征矩阵
Figure FDA0003112493970000029
和网络状态
Figure FDA00031124939700000210
共同输入到时域分类网络中的长短时记忆网络单元中,得到网络输出
Figure FDA00031124939700000211
和网络状态
Figure FDA00031124939700000212
6c)将全部时刻上的网络输出
Figure FDA00031124939700000213
按顺序首尾相接得到训练集视频xk的一维特征向量vtk
6d)将一维特征向量vtk输入到soft-max分类器,得到时域分类网络上训练集视频xk属于不同视频类别的概率:
ptk={ptk(1),ptk(2),...ptk(m),...ptk(M)},
其中ptk(m)为时域分类网络上训练集视频xk属于第m类视频的概率;
6e)计算训练集视频xk的标签yk和ptk之间的交叉熵ltk
ltk=-log(ptk(yk));
6f)求时域分类网络训练集X上交叉熵的均值lt:
Figure FDA0003112493970000031
6g)根据交叉熵的均值lt,使用反向传播算法更新时域分类网络参数,得到训练后的时域分类网络;
7)使用训练后的空域分类网络和时域分类网络对测试视频xtest进行分类:
7a)使用步骤5)训练后的空域分类网络计算空域分类网络上测试视频xtest属于不同视频类别的概率:
ps={ps(1),ps(2),...,ps(m),...ps(M)},
其中ps(m)是空域分类网络上测试视频xtest属于第m类视频的概率,m=1,2,...,M,M为视频类别数;
7b)使用步骤6)训练后的时域分类网络计算时域分类网络上测试视频xtest属于不同视频类别的概率:
pt={pt(1),pt(2),...,pt(m),...,pt(M)},
其中pt(m)是时域分类网络上测试视频xtest属于第m类视频的概率;
7c)根据7a)和7b)的结果,计算测试视频xtest属于第m类视频的概率:
p(m)=wps(m)+(1-w)pt(m),
其中w是空域分类网络的分类结果所占的权重;
7d)将p(m)中最大值所对应的视频类别,作为测试视频xtest的分类结果。
2.根据权利要求1所述的方法,其特征在于,其中步骤4a)中计算全部视频帧
Figure FDA0003112493970000032
的视觉注意力特征
Figure FDA0003112493970000033
按如下步骤进行:
4a1)提取全部视频帧
Figure FDA0003112493970000034
自下而上的视觉注意力特征
Figure FDA0003112493970000035
Figure FDA0003112493970000038
的维度为h*w,其中h为全部视频帧
Figure FDA0003112493970000036
的高,w为全部视频帧
Figure FDA0003112493970000037
的宽;
4a2)提取全部视频帧
Figure FDA0003112493970000041
自上而下的视觉注意力特征
Figure FDA0003112493970000042
Figure FDA0003112493970000048
的维度为h*w;
4a3)将自下而上的视觉注意力特征
Figure FDA0003112493970000043
和自上而下的视觉注意力特征
Figure FDA0003112493970000044
进行拼接,得到全部视频帧
Figure FDA0003112493970000045
的视觉注意力特征
Figure FDA0003112493970000046
Figure FDA0003112493970000047
的维度为h*w*2。
CN201810475657.1A 2018-05-17 2018-05-17 基于空域分类网络和时域分类网络融合的视频分类方法 Active CN108764084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810475657.1A CN108764084B (zh) 2018-05-17 2018-05-17 基于空域分类网络和时域分类网络融合的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810475657.1A CN108764084B (zh) 2018-05-17 2018-05-17 基于空域分类网络和时域分类网络融合的视频分类方法

Publications (2)

Publication Number Publication Date
CN108764084A CN108764084A (zh) 2018-11-06
CN108764084B true CN108764084B (zh) 2021-07-27

Family

ID=64008577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810475657.1A Active CN108764084B (zh) 2018-05-17 2018-05-17 基于空域分类网络和时域分类网络融合的视频分类方法

Country Status (1)

Country Link
CN (1) CN108764084B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614517B (zh) * 2018-12-04 2023-08-01 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN111382616B (zh) * 2018-12-28 2023-08-18 广州市百果园信息技术有限公司 视频分类方法、装置及存储介质、计算机设备
CN109740670B (zh) 2019-01-02 2022-01-11 京东方科技集团股份有限公司 视频分类的方法及装置
CN109858419A (zh) * 2019-01-23 2019-06-07 广州智慧城市发展研究院 一种自下而上-自上而下的行为识别系统
CN109919110B (zh) * 2019-03-13 2021-06-04 北京航空航天大学 视频关注区域检测方法、装置及设备
CN110287816B (zh) * 2019-06-05 2021-12-28 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN113080907B (zh) * 2021-04-14 2022-10-25 贵州省人民医院 脉搏波信号处理方法及装置
CN114943286B (zh) * 2022-05-20 2023-04-07 电子科技大学 一种基于时域特征与空域特征融合的未知目标判别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8917764B2 (en) * 2011-08-08 2014-12-23 Ittiam Systems (P) Ltd System and method for virtualization of ambient environments in live video streaming
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8917764B2 (en) * 2011-08-08 2014-12-23 Ittiam Systems (P) Ltd System and method for virtualization of ambient environments in live video streaming
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Multi-size Kernels CNN with Eye Movement Guided Task-Specific Initialization for Aurora Image Classification;Bing Han 等;《CCCV 2017》;20171231;533-544 *
Predicting eye fixations using convolutional neural networks;Nian Liu 等;《2015 IEEE International Conference of Computer Vision and Pattern Recognition(CVPR)》;20150612;362-370 *
Two-stream Collaborative Learning with Spatial-Temporal Attention for Video Classification;Yuxin Peng 等;《arXiv》;20171109;1-14 *
基于时空域深度特征两级编码融合的视频分类;智洪欣 等;《计算机应用研究》;20180331;第35卷(第3期);926-929 *
基于空-时域特征决策级融合的人体行为识别算法;李艳荻 等;《光学学报》;20180328;第38卷(第8期);0810001-1-0810001-14 *

Also Published As

Publication number Publication date
CN108764084A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108764084B (zh) 基于空域分类网络和时域分类网络融合的视频分类方法
CN108229338B (zh) 一种基于深度卷积特征的视频行为识别方法
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN111160533B (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
WO2021051598A1 (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN111026914B (zh) 视频摘要模型的训练方法、视频摘要生成方法及装置
CN108537119B (zh) 一种小样本视频识别方法
CN105550699A (zh) 一种基于cnn融合时空显著信息的视频识别分类方法
CN107743225B (zh) 一种利用多层深度表征进行无参考图像质量预测的方法
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN105528620B (zh) 一种联合鲁棒主成分特征学习与视觉分类方法及系统
Ju et al. Fusing global and local features for generalized ai-synthesized image detection
CN112819020A (zh) 训练分类模型的方法和装置及分类方法
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
Xu et al. Two-stage temporal modelling framework for video-based depression recognition using graph representation
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN110210562B (zh) 基于深度网络和稀疏Fisher矢量的图像分类方法
CN109214275B (zh) 一种基于深度学习的低俗图片识别方法
Chen et al. Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video
CN113255789B (zh) 基于对抗网络和多被试脑电信号的视频质量评价方法
CN115063630A (zh) 基于解耦迁移的联邦学习方法在计算机视觉上的应用
CN114943862A (zh) 一种基于结构性解析字典学习的两阶段图像分类方法
CN110135306B (zh) 基于角度损失函数的行为识别方法
Mi Face image recognition via collaborative representation on selected training samples
CN114333022B (zh) 角色特征提取模型的训练方法、角色识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant