CN114419524A - 一种基于伪光流辅助的视频分类方法及系统 - Google Patents

一种基于伪光流辅助的视频分类方法及系统 Download PDF

Info

Publication number
CN114419524A
CN114419524A CN202210316304.3A CN202210316304A CN114419524A CN 114419524 A CN114419524 A CN 114419524A CN 202210316304 A CN202210316304 A CN 202210316304A CN 114419524 A CN114419524 A CN 114419524A
Authority
CN
China
Prior art keywords
pseudo
optical flow
video
convolution
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210316304.3A
Other languages
English (en)
Other versions
CN114419524B (zh
Inventor
卢修生
鲍虎军
程乐超
杨非
宋明黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210316304.3A priority Critical patent/CN114419524B/zh
Publication of CN114419524A publication Critical patent/CN114419524A/zh
Application granted granted Critical
Publication of CN114419524B publication Critical patent/CN114419524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于伪光流辅助的视频分类方法及系统,能够计算伪光流特征并利用其辅助进行视频分类,其中伪光流计算模块利用相关性计算/卷积/转置卷积等操作,无监督地估计伪光流特征,然后将其融合到主干网络中,从而对段间运动信息进行有效显式建模;伪光流激励模块则在将伪光流特征对通道维度取均值后,用来对主干网络中的视频卷积特征进行空间注意力操作,从而使得主干网络更关注与运动信息更相关的空间位置。本发明实现方法简便,思路灵活,在动作视频数据集上取得了显著的分类效果提升。

Description

一种基于伪光流辅助的视频分类方法及系统
技术领域
本发明涉及视频分类技术领域,尤其是涉及一种基于伪光流辅助的视频分类方法及系统。
背景技术
随着通信技术的发展,我们已经从“文字时代”、“图片时代”步入了“视频时代”,智能视频分析技术逐渐成为研究热点,并在智能安防、鉴黄鉴恐、人机交互等领域得到了广泛应用,而动作视频分类任务作为智能视频分析领域的基础任务,吸引了众多研究者的关注。
在视频分类任务中主要有两种研究思路:一是从原始视频中取连续的视频段(如16帧)输入到深度网络中,对其时空特征进行建模,代表性方法有C3D,I3D,R(2+1)D等;二是对原始视频分段后进行采样,然后将各段的采样帧输入到深度网络中,再将其识别结果融合起来作为视频分类结果,代表性方法有TSN,TSM,TEA等。
本发明主要延续第二种研究思路,现有的TSM/TEA等网络通过时域转移(TemporalShift)、1D按通道时域卷积(Channel-wise Temporal Convolution)、计算帧差等方法对各段采样的视频帧间信息进行时域建模,但是一方面这些方法或者缺乏对帧间运动信息的显式计算,或者计算方法过于简单;另一方面因为视频帧是由各段中采样得到,所以帧间信息复杂多变,难以建模,这两方面的原因影响了现有方法的视频分类准确率。
本发明中,取得了良好的识别效果。
发明内容
为解决现有技术的不足,通过显式计算各段视频帧间的伪光流特征辅助视频分类,实现提高视频分类准确度的目的,本发明采用如下的技术方案:
一种基于伪光流辅助的视频分类方法,包括如下步骤:
步骤S1:对输入的视频样本进行均匀分段,在每个视频段中随机采样一帧,并将视频帧输入到主干网络中;
步骤S2:在主干网络的每层(Layer)之后,将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中,计算相邻段视频帧深度特征之间的相关性,并得到伪光流特征;
步骤S3:将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块,首先对两种特征进行加权融合,然后将伪光流特征在通道上取均值操作后,用于对融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到空间加权特征;
步骤S4:各段采样视频帧的识别结果融合后,得到视频样本的分类结果,通过分类结果与视频样本的真值,采用交叉熵损失函数(Cross Entropy Loss Function)进行训练,用于分类阶段获取最终的视频分类结果。
进一步地,所述步骤S2中,计算相邻段视频帧深度特征之间的相关性(Correlation Layer),再通过多个卷积层(Convolution Layer)和转置卷积层(Transposed Convolution Layer)计算伪光流特征,最后通过一层卷积将其通道数与各层视频特征进行对齐。
进一步地,在计算伪光流特征时,首先对输入特征利用卷积操作减少通道数,以降低整个模块的运算开销,然后计算相邻段视频帧深度特征之间的相关性,除最后一层卷积映射用于特征对齐外,其他各层均共享参数,以便于网络训练。
进一步地,所述步骤S2中,对于相邻段采样得到的视频帧
Figure 100002_DEST_PATH_IMAGE001
Figure 424116DEST_PATH_IMAGE002
m表示第m个 视频段,第
Figure 100002_DEST_PATH_IMAGE003
层网络提取得到的卷积特征为
Figure 38637DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
Figure 37817DEST_PATH_IMAGE006
表示主干网络,则计算得 到的伪光流特征为:
Figure 40277DEST_PATH_IMAGE008
其中
Figure 100002_DEST_PATH_IMAGE009
表示计算两项卷积特征之间的相关性操作,
Figure 656066DEST_PATH_IMAGE010
表示包含多个卷 积层的卷积操作,
Figure 100002_DEST_PATH_IMAGE011
表示包含多个转置卷积层的转置卷积操作。
Figure 871016DEST_PATH_IMAGE012
中包含了各视频段采样帧之间的运动信息,可以用来辅助进行视频分类。
进一步地,所述步骤S3中,首先对于第
Figure 521440DEST_PATH_IMAGE003
层网络对应的卷积特征
Figure 179954DEST_PATH_IMAGE004
与伪光流 特征
Figure DEST_PATH_IMAGE013
,进行加权融合操作如下:
Figure 100002_DEST_PATH_IMAGE015
其中
Figure 938832DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE017
表示权重超参数,
Figure 691893DEST_PATH_IMAGE018
表示加权融合后的卷积特征,其中既包含了 原始网络提取的视频时空特征,又包含了POPCM模块显式计算得到的伪光流运动特征,具有 更强的表达能力;
然后,基于伪光流特征
Figure 462403DEST_PATH_IMAGE012
,计算特征权重如下:
Figure 291819DEST_PATH_IMAGE020
其中
Figure 100002_DEST_PATH_IMAGE021
表示在光流特征
Figure 131468DEST_PATH_IMAGE012
的通道维度上进行取均值操作,再通过
Figure 970111DEST_PATH_IMAGE022
卷积操作和
Figure 100002_DEST_PATH_IMAGE023
激活操作,计算在空间各位置上的权重
Figure 798389DEST_PATH_IMAGE024
Figure 319413DEST_PATH_IMAGE024
中包含了各 空间位置与运动信息的相关程度;
最后,通过权重
Figure 600352DEST_PATH_IMAGE024
,对加权融合特征
Figure 242686DEST_PATH_IMAGE018
进行空间注意力操作:
Figure 971477DEST_PATH_IMAGE026
其中
Figure 100002_DEST_PATH_IMAGE027
表示点乘操作,
Figure 877116DEST_PATH_IMAGE028
表示加权特征,其中与运动信息更加相关的空间位 置特征得到了加强,残差操作则降低了权重
Figure 442089DEST_PATH_IMAGE024
的学习难度,加权特征
Figure 100002_DEST_PATH_IMAGE029
作为视频帧
Figure 606223DEST_PATH_IMAGE030
所在深度网络的下一层输入,继续进行特征提取。
进一步地,所述步骤S4中,将段视频帧的识别结果进行均匀融合后,得到视频样本的分类预测结果:
Figure 940253DEST_PATH_IMAGE032
其中
Figure 100002_DEST_PATH_IMAGE033
表示输入视频样本,
Figure 469323DEST_PATH_IMAGE030
表示从第
Figure 521593DEST_PATH_IMAGE034
段视频样本中选取的视频帧,
Figure 100002_DEST_PATH_IMAGE035
表示视 频样本共切分为
Figure 223838DEST_PATH_IMAGE035
段,
Figure 677953DEST_PATH_IMAGE036
表示视频帧
Figure 456554DEST_PATH_IMAGE030
提取的视频卷积特征,
Figure 100002_DEST_PATH_IMAGE037
表示主干网络,
Figure 714228DEST_PATH_IMAGE038
表 示全连接层;
采用交叉熵损失函数进行训练:
Figure 439739DEST_PATH_IMAGE040
其中,N表示样本数目,C表示类别数目,nc分别为NC的索引,
Figure 100002_DEST_PATH_IMAGE041
表示视频样本 真实类别标签,
Figure 466470DEST_PATH_IMAGE042
表示视频样本预测类别标签。
进一步地,所述主干网络基于残差网络ResNet50框架进行扩展,在各网络层的每个块(Block)中,使用2D卷积和1D按通道卷积同时进行时空建模,1D按通道卷积采用等价于TSM网络中时域转移操作(Temporal Shift)的方式进行初始化。
一种基于伪光流辅助的视频分类系统,包括主干网络、伪光流计算模块和伪光流激励模块;
所述主干网络,用于获取相邻段的采样视频帧,并在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入伪光流计算模块;对各段采样视频帧的识别结果进行融合,得到视频样本的分类结果,通过分类结果与视频样本的真实类别,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果;
所述伪光流计算模块,用于计算相邻段视频帧深度特征之间的相关性,进而得到伪光流特征;将得到的伪光流特征与视频帧卷积特征,输入伪光流激励模块;
所述伪光流激励模块,对伪光流特征与视频帧卷积特征进行加权融合,再对伪光流特征在通道上取均值操作,然后用于对融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到的空间加权特征用于视频帧的识别。
进一步地,所述伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层,相关性层用于计算相邻段视频帧深度特征之间的相关性,卷积层和转置卷积层用于计算伪光流特征,映射卷积层将其通道数与各层视频特征进行对齐。
进一步地,所述伪光流激励模块包括加权融合层、取均值层、卷积层和激活层,加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合,得到融合特征;对于伪光流特征,依次通过取均值层、卷积层和激活层,进行取均值操作、卷积操作和激活操作,得到特征空间权重,然后将空间权重与融合特征相乘后,再与融合特征相加,得到空间加权特征。
本发明的优势和有益效果在于:
本发明的一种基于伪光流辅助的视频分类方法及装置,利用相关性计算/卷积/转置卷积等操作,无监督地计算伪光流特征,并将其作为较为准确的段间运动信息估计融合到主干网络中,从而对段间运动信息进行有效建模。此外类似空间注意力机制,伪光流特征在通道上取均值操作后,用来对主干网络中的视频卷积特征进行空间加权,从而使得主干网络更关注与运动信息更加相关的空间位置。
附图说明
图1是本发明实施例中的方法流程图。
图2是本发明实施例中POPCM模式的流程图。
图3是本发明实施例中POPEM模式的流程图。
图4是本发明实施例中其他方法与本方法在Sth-Sth V1数据集上的视频分类结果对比图。
图5是本发明实施例中的系统结构图。
图6是本发明实施例中的装置结构图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
一种基于伪光流辅助的视频分类方法,主要解决动作视频分类问题,定义有
Figure DEST_PATH_IMAGE043
个 视频样本的训练数据集
Figure 884813DEST_PATH_IMAGE044
,
Figure DEST_PATH_IMAGE045
为视频样本,
Figure 629784DEST_PATH_IMAGE046
为视频动作标 签。定义分类模型的预测结果为
Figure DEST_PATH_IMAGE047
,其中
Figure 424564DEST_PATH_IMAGE048
为网络参数,
Figure DEST_PATH_IMAGE049
表示映射函 数,
Figure 135880DEST_PATH_IMAGE050
维实数空间。在主干网络的conv1/conv2_x/conv3_x层之后,加入所提出的伪 光流计算模块(POPCM,Pseudo Optical Flow Computing Module)和伪光流激励模块 (POPEM,Pseudo Optical Flow Excitation Module),如图1所示。具体地,在伪光流计算模 块中,首先通过相关性层(Correlation Layer)计算当前帧中特征点与相邻帧周围
Figure DEST_PATH_IMAGE051
空间 邻域内特征点的相关性,再通过三个卷积层和两个转置卷积层提取伪光流特征,最后使用 一层卷积实现特征通道数的匹配;在伪光流激励模块中,首先对视频卷积特征和伪光流特 征进行加权融合,然后将伪光流特征经过取均值层和卷积层后对视频特征进行空间加权, 如图2所示。进一步地,为了易于网络训练,在插入的所有伪光流计算模块中,除最后一层卷 积映射以外其它层均共享参数。本实施例中,采用Pytorch框架进行实验,并使用初始学习 率为0.01的随机梯度下降SGD优化器与MultiStepLR调度器。在Something-Something V1数 据集上设置训练55个迭代,在第30和45次迭代调整学习率。批处理大小为64,视频分段数
Figure 928386DEST_PATH_IMAGE052
,伪光流激励模块中融合权重
Figure DEST_PATH_IMAGE053
Figure 160653DEST_PATH_IMAGE054
。主干网络使用了在ImageNet上预 训练的ResNet50网络进行初始化,而且其各块(Block)中的1D按通道卷积采用等价于TSM网 络中时域转移操作(Temporal Shift)的方式进行初始化。
如图1所示,视频分类方法具体包括如下步骤:
步骤S1:对输入的视频样本进行均匀分段,在每个视频段中随机采样一帧,并将视频帧输入到主干网络中。
主干网络基于残差网络ResNet50框架进行扩展,在各网络层的每个块(Block)中,使用2D卷积和1D按通道卷积同时进行时空建模。1D按通道卷积采用等价于TSM网络中时域转移操作(Temporal Shift)的方式进行初始化。
具体地,对于视频样本
Figure 290283DEST_PATH_IMAGE033
,将其均匀切分为
Figure 307918DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE055
,对于第
Figure 582910DEST_PATH_IMAGE034
段视频
Figure 318785DEST_PATH_IMAGE056
,随机选取视频帧
Figure 986527DEST_PATH_IMAGE030
,通过主干网络提取得到的视频卷积特征为
Figure 107936DEST_PATH_IMAGE036
,其中
Figure 38983DEST_PATH_IMAGE037
表示主 干网络。
步骤S2:如图2所示,在主干网络的每层(Layer)之后,将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中,在计算伪光流特征时,首先对输入特征利用卷积操作减少通道数,以降低整个模块的运算开销,然后计算相邻段视频帧深度特征之间的相关性(Correlation Layer),再通过多个卷积层(Convolution Layer)和转置卷积层(Transposed Convolution Layer)计算伪光流特征,最后通过一层卷积将其通道数与各层视频特征进行对齐,得到伪光流特征,除最后一层卷积用于映射外,其他各层均共享参数,以便于网络训练。
最后一层卷积的作用是将伪光流特征的通道数映射到和视频特征一致,POPCM中其它层都是共享的,例如:得到的伪光流特征通道里为49,但是网络第1/2/3层输出的卷积特征通道数分别为64/256/512,所以需要进行映射。
对于相邻段采样得到的视频帧
Figure 262153DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE057
m表示第m个视频段,第
Figure 186116DEST_PATH_IMAGE058
层网络提取得 到的卷积特征为
Figure DEST_PATH_IMAGE059
Figure 912764DEST_PATH_IMAGE060
Figure 60717DEST_PATH_IMAGE037
表示主干网络,则估计得到的伪光流特征为:
Figure 708867DEST_PATH_IMAGE008
其中
Figure 718411DEST_PATH_IMAGE009
表示计算两项卷积特征之间的相关性操作,
Figure 79992DEST_PATH_IMAGE010
表示包含多个卷 积层的卷积操作,
Figure 883999DEST_PATH_IMAGE011
表示包含多个转置卷积层的转置卷积操作;
Figure 81763DEST_PATH_IMAGE012
中包含了各视频段采样帧之间的运动信息,可以用来辅助进行视频分类。
步骤S3:如图3所示,将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块,首先对两种特征进行加权融合,然后将伪光流特征在通道上取均值操作后,用于对加权融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到空间加权特征。
首先对于第
Figure 629419DEST_PATH_IMAGE058
层网络对应的卷积特征
Figure 111084DEST_PATH_IMAGE059
与伪光流特征
Figure 85994DEST_PATH_IMAGE012
,进行加权融 合操作如下:
Figure DEST_PATH_IMAGE061
其中
Figure 239894DEST_PATH_IMAGE016
Figure 846368DEST_PATH_IMAGE017
表示权重超参数,
Figure 870956DEST_PATH_IMAGE018
表示加权融合后的卷积特征,其中既包含了 原始网络提取的视频时空特征,又包含了POPCM模块显式计算得到的伪光流运动特征,具有 更强的表达能力;
然后,基于伪光流特征
Figure 282346DEST_PATH_IMAGE012
,计算特征权重如下:
Figure 438390DEST_PATH_IMAGE020
其中
Figure 327848DEST_PATH_IMAGE021
表示在光流特征
Figure 269259DEST_PATH_IMAGE012
的通道维度上进行取均值操作,再通过卷 积核(Kernel Size)大小为3x3的
Figure 851550DEST_PATH_IMAGE022
卷积操作和
Figure 494890DEST_PATH_IMAGE023
激活操作,计算在空间各 位置上的权重
Figure 188040DEST_PATH_IMAGE024
Figure 983957DEST_PATH_IMAGE024
中包含了各空间位置与运动信息的相关程度。
最后,通过权重
Figure 189680DEST_PATH_IMAGE024
,对加权融合特征
Figure 71048DEST_PATH_IMAGE018
进行空间注意力操作:
Figure 302309DEST_PATH_IMAGE026
其中
Figure 952733DEST_PATH_IMAGE027
表示点乘操作,
Figure 126095DEST_PATH_IMAGE028
表示加权特征,其中与运动信息更加相关的空间位 置特征得到了加强,残差操作则降低了权重
Figure 760338DEST_PATH_IMAGE024
的学习难度,加权特征
Figure 795290DEST_PATH_IMAGE029
作为视频帧
Figure 300221DEST_PATH_IMAGE030
所在深度网络的下一层输入,继续进行特征提取。
步骤S4:各段采样视频帧的识别结果融合后,得到视频样本的分类结果,通过分类结果与视频样本的真值,采用交叉熵损失函数(Cross Entropy Loss Function)进行训练,用于分类阶段获取最终的视频分类结果。
将段视频帧的识别结果进行均匀融合后,得到视频样本的分类预测结果:
Figure 644484DEST_PATH_IMAGE032
其中
Figure 703707DEST_PATH_IMAGE033
表示输入视频样本,
Figure 276770DEST_PATH_IMAGE030
表示从第
Figure 151054DEST_PATH_IMAGE034
段视频样本中选取的视频帧,
Figure 416951DEST_PATH_IMAGE035
表示视 频样本共切分为
Figure 494628DEST_PATH_IMAGE035
段,
Figure 136962DEST_PATH_IMAGE036
表示视频帧
Figure 131332DEST_PATH_IMAGE030
提取的视频卷积特征,
Figure 568129DEST_PATH_IMAGE037
表示主干网络,
Figure 336365DEST_PATH_IMAGE038
表 示全连接层;
采用交叉熵损失函数进行训练:
Figure 494640DEST_PATH_IMAGE040
其中,N表示样本数目,C表示类别数目,nc分别为NC的索引,
Figure 94248DEST_PATH_IMAGE041
表示视频样本 真实类别标签,
Figure 967526DEST_PATH_IMAGE042
表示视频样本预测类别标签。
通过交叉熵损失函数的训练,得到整个POFN伪光流网络的最优参数,参数包括提出的POPCM和POPEM模块的参数,以及conv1/conv2_x/conv3_x/conv4_x/conv5_x层中的2D卷积,1D按通道卷积,BN层等参数。虽然主干网络使用在ImageNet上预训练的ResNet50网络进行初始化,但是在训练过程中参数仍然微调更新。
如图4所示,在Something-Something V1(Sth-Sth V1)数据集上,将本发明实施例中的方法(POFN: Pseudo Optical Flow Network,伪光流网络)与其他方法(TSN、TSM、TSN+(2+1)D)进行比较,通过的视频分类结果得分可以看出,本方法的效果优于其他方法。其中TSN:Temporal Segment Network,时域分割网络,TSM: Temporal Shift Module,时域转移模块,TSN + (2+1)D: Temporal Segment Network with (2+1)D Convolution,使用(2+1)D卷积操作的时域分割网络。
如图5所示,一种基于伪光流辅助的视频分类系统,包括主干网络、伪光流计算模块和伪光流激励模块;
主干网络,用于获取相邻段的采样视频帧,并在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入伪光流计算模块;对各段采样视频帧的识别结果进行融合,得到视频样本的分类结果,通过分类结果与视频样本的真实类别,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果;
伪光流计算模块,用于计算相邻段视频帧深度特征之间的相关性,进而得到伪光流特征。将得到的伪光流特征与视频帧卷积特征,输入伪光流激励模块;
具体地,伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层,相关性层用于计算相邻段视频帧深度特征之间的相关性,卷积层和转置卷积层用于计算伪光流特征,映射卷积层将其通道数与各层视频特征进行对齐。
伪光流激励模块,对伪光流特征与视频帧卷积特征进行加权融合,再对伪光流特征在通道上取均值操作,然后用于对融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到的空间加权特征用于视频帧的识别。
具体地,伪光流激励模块包括加权融合层、取均值层、卷积层和激活层,加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合,得到融合特征。对于伪光流特征,依次通过取均值层、卷积层和激活层,进行取均值操作、卷积操作和激活操作,得到特征空间权重,然后将空间权重与融合特征相乘后,再与融合特征相加,得到空间加权特征。
与前述一种基于伪光流辅助的视频分类方法的实施例相对应,本发明还提供了一种基于伪光流辅助的视频分类装置的实施例。
参见图6,本发明实施例提供的一种基于伪光流辅助的视频分类装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于伪光流辅助的视频分类方法。
本发明一种基于伪光流辅助的视频分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种基于伪光流辅助的视频分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于伪光流辅助的视频分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于伪光流辅助的视频分类方法,其特征在于包括如下步骤:
步骤S1:对输入的视频样本进行均匀分段,在每个视频段中随机采样一帧,并将视频帧输入到主干网络中;
步骤S2:在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中,计算相邻段视频帧深度特征之间的相关性,并得到伪光流特征;
步骤S3:将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块,首先对两种特征进行加权融合,然后将伪光流特征在通道上取均值操作后,用于对融合后的深度特征进行空间加权,得到加权特征;
步骤S4:将各段采样视频帧的识别结果融合后,得到视频样本的分类结果,通过分类结果与视频样本的真值,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果。
2.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述步骤S2中,计算相邻段视频帧深度特征之间的相关性,再通过多个卷积层和转置卷积层计算伪光流特征,最后通过一层卷积将其通道数与各层视频特征进行对齐。
3.根据权利要求2所述的一种基于伪光流辅助的视频分类方法,其特征在于:在计算伪光流特征时,首先对输入特征利用卷积操作减少通道数,然后计算相邻段视频帧深度特征之间的相关性,除最后一层卷积映射用于特征对齐外,其他各层均共享参数。
4.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述步骤 S2中,对于相邻段采样得到的视频帧
Figure DEST_PATH_IMAGE001
Figure 681698DEST_PATH_IMAGE002
m表示第m个视频段,第
Figure DEST_PATH_IMAGE003
层网络提取得到 的卷积特征为
Figure 254631DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 142690DEST_PATH_IMAGE006
表示主干网络,则计算得到的伪光流特征为:
Figure 396954DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE009
表示计算两项卷积特征之间的相关性操作,
Figure 720313DEST_PATH_IMAGE010
表示包含多个卷积层 的卷积操作,
Figure DEST_PATH_IMAGE011
表示包含多个转置卷积层的转置卷积操作。
5.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述步骤 S3中,首先对于第
Figure 792044DEST_PATH_IMAGE003
层网络对应的卷积特征
Figure 511607DEST_PATH_IMAGE004
与伪光流特征
Figure 382611DEST_PATH_IMAGE012
,进行加权融合操 作如下:
Figure 520331DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE015
Figure 966225DEST_PATH_IMAGE016
表示权重超参数,
Figure DEST_PATH_IMAGE017
表示加权融合后的卷积特征;
然后,基于伪光流特征
Figure 235401DEST_PATH_IMAGE018
,计算特征权重如下:
Figure 706834DEST_PATH_IMAGE020
其中
Figure DEST_PATH_IMAGE021
表示在光流特征
Figure 620432DEST_PATH_IMAGE018
的通道维度上进行取均值操作,再通过
Figure 519118DEST_PATH_IMAGE022
卷积操作和
Figure DEST_PATH_IMAGE023
激活操作,计算在空间各位置上的权重
Figure 698426DEST_PATH_IMAGE024
Figure 963098DEST_PATH_IMAGE024
中包含了各空间位置 与运动信息的相关程度;
最后,通过权重
Figure 75410DEST_PATH_IMAGE024
,对加权融合特征
Figure 879418DEST_PATH_IMAGE017
进行空间注意力操作:
Figure 77181DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE027
表示点乘操作,
Figure 546209DEST_PATH_IMAGE028
表示加权得到的特征,加权特征
Figure DEST_PATH_IMAGE029
作为视频帧
Figure 231137DEST_PATH_IMAGE030
所在深度网络的下一层输入,继续进行特征提取。
6.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述步骤S4中,将段视频帧的识别结果进行均匀融合后,得到视频样本的分类预测结果:
Figure 471625DEST_PATH_IMAGE032
其中
Figure DEST_PATH_IMAGE033
表示输入视频样本,
Figure 625526DEST_PATH_IMAGE030
表示从第
Figure 226140DEST_PATH_IMAGE034
段视频样本中选取的视频帧,
Figure DEST_PATH_IMAGE035
表示视频样 本共切分为
Figure 719570DEST_PATH_IMAGE035
段,
Figure 380227DEST_PATH_IMAGE036
表示视频帧
Figure 287003DEST_PATH_IMAGE030
提取的视频卷积特征,
Figure DEST_PATH_IMAGE037
表示主干网络,
Figure 645303DEST_PATH_IMAGE038
表示全 连接层;
采用交叉熵损失函数进行训练:
Figure 835982DEST_PATH_IMAGE040
其中,N表示样本数目,C表示类别数目,nc分别为NC的索引,
Figure DEST_PATH_IMAGE041
表示视频样本真实 类别标签,
Figure 152694DEST_PATH_IMAGE042
表示视频样本预测类别标签。
7.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述主干网络基于残差网络ResNet50框架进行扩展,在各网络层的每个块中,使用2D卷积和1D按通道卷积同时进行时空建模,1D按通道卷积采用时域转移操作的方式进行初始化。
8.一种基于伪光流辅助的视频分类系统,包括主干网络、伪光流计算模块和伪光流激励模块,其特征在于:
所述主干网络,用于获取相邻段的采样视频帧,并在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入伪光流计算模块;对各段采样视频帧的识别结果进行融合,得到视频样本的分类结果,通过分类结果与视频样本的真实类别,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果;
所述伪光流计算模块,用于计算相邻段视频帧深度特征之间的相关性,进而得到伪光流特征;将得到的伪光流特征与视频帧卷积特征,输入伪光流激励模块;
所述伪光流激励模块,对伪光流特征与视频帧卷积特征进行加权融合,再对伪光流特征在通道上取均值操作,然后用于对融合后的深度特征进行空间加权,得到的加权特征用于视频帧的识别。
9.根据权利要求8所述的一种基于伪光流辅助的视频分类系统,其特征在于:所述伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层,相关性层用于计算相邻段视频帧深度特征之间的相关性,卷积层和转置卷积层用于计算伪光流特征,映射卷积层将其通道数与各层视频特征进行对齐。
10.根据权利要求8所述的一种基于伪光流辅助的视频分类系统,其特征在于:所述伪光流激励模块包括加权融合层、取均值层、卷积层和激活层,加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合,得到融合特征;对于伪光流特征,依次通过取均值层、卷积层和激活层,进行通道取均值操作、卷积操作和激活操作,得到特征空间权重,然后将空间权重与融合特征相乘后,再与融合特征相加,得到空间加权特征。
CN202210316304.3A 2022-03-29 2022-03-29 一种基于伪光流辅助的视频分类方法及系统 Active CN114419524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210316304.3A CN114419524B (zh) 2022-03-29 2022-03-29 一种基于伪光流辅助的视频分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210316304.3A CN114419524B (zh) 2022-03-29 2022-03-29 一种基于伪光流辅助的视频分类方法及系统

Publications (2)

Publication Number Publication Date
CN114419524A true CN114419524A (zh) 2022-04-29
CN114419524B CN114419524B (zh) 2022-08-05

Family

ID=81264101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210316304.3A Active CN114419524B (zh) 2022-03-29 2022-03-29 一种基于伪光流辅助的视频分类方法及系统

Country Status (1)

Country Link
CN (1) CN114419524B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197586A (zh) * 2017-12-12 2018-06-22 北京深醒科技有限公司 脸部识别方法和装置
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108288015A (zh) * 2017-01-10 2018-07-17 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN109063549A (zh) * 2018-06-19 2018-12-21 中国科学院自动化研究所 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN109740419A (zh) * 2018-11-22 2019-05-10 东南大学 一种基于Attention-LSTM网络的视频行为识别方法
CN110246160A (zh) * 2019-06-20 2019-09-17 腾讯科技(深圳)有限公司 视频目标的检测方法、装置、设备及介质
CN110378348A (zh) * 2019-07-11 2019-10-25 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN113158972A (zh) * 2021-05-12 2021-07-23 山东浪潮科学研究院有限公司 基于光流估测的视频分类张量构造方法
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法
CN113963301A (zh) * 2021-11-04 2022-01-21 西安邮电大学 一种时空特征融合的视频火灾烟雾探测方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288015A (zh) * 2017-01-10 2018-07-17 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN108197586A (zh) * 2017-12-12 2018-06-22 北京深醒科技有限公司 脸部识别方法和装置
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN109063549A (zh) * 2018-06-19 2018-12-21 中国科学院自动化研究所 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN109740419A (zh) * 2018-11-22 2019-05-10 东南大学 一种基于Attention-LSTM网络的视频行为识别方法
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN110246160A (zh) * 2019-06-20 2019-09-17 腾讯科技(深圳)有限公司 视频目标的检测方法、装置、设备及介质
CN110378348A (zh) * 2019-07-11 2019-10-25 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN113158972A (zh) * 2021-05-12 2021-07-23 山东浪潮科学研究院有限公司 基于光流估测的视频分类张量构造方法
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法
CN113963301A (zh) * 2021-11-04 2022-01-21 西安邮电大学 一种时空特征融合的视频火灾烟雾探测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOXIA LUO等: "An Modified Video Stream Classification Method Which Fuses Three-Dimensional Convolutional Neural Network", 《2019 INTERNATIONAL CONFERENCE ON MACHINE LEARNING, BIG DATA AND BUSINESS INTELLIGENCE (MLBDBI)》 *
XINGYU XU等: "Violent Video Classification Based on Spatial-Temporal Cues Using Deep Learning", 《2018 11TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID)》 *
孙宁等: "结合注意力机制与时空特征融合的长时程行为识别方法", 《合肥工业大学学报(自然科学版)》 *
梁鸿等: "融入时序激励机制的人体行为识别", 《计算机工程与设计》 *

Also Published As

Publication number Publication date
CN114419524B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
US11200424B2 (en) Space-time memory network for locating target object in video content
CN111832570B (zh) 一种图像语义分割模型训练方法及系统
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN112749666B (zh) 一种动作识别模型的训练及动作识别方法与相关装置
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及系统
CN115731505B (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
CN114663798B (zh) 一种基于强化学习的单步视频内容识别方法
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN113435430A (zh) 基于自适应时空纠缠的视频行为识别方法、系统、设备
Wei et al. A robust image watermarking approach using cycle variational autoencoder
CN115565177A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN114170558B (zh) 用于视频处理的方法、系统、设备、介质和产品
Su et al. Physical model and image translation fused network for single-image dehazing
Qin et al. Depth estimation by parameter transfer with a lightweight model for single still images
CN110659641B (zh) 一种文字识别的方法、装置及电子设备
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
Lu et al. Siamese graph attention networks for robust visual object tracking
CN117830537A (zh) 一种弱监督的3d场景图生成方法、装置、设备及介质
CN113610016A (zh) 视频帧特征提取模型的训练方法、系统、设备及存储介质
CN114419524B (zh) 一种基于伪光流辅助的视频分类方法及系统
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN117095460A (zh) 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统
CN116704433A (zh) 基于上下文感知关系预测编码的自监督群体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant