CN115063731B - 基于两阶段运动建模和注意力的动作视频分类方法和系统 - Google Patents

基于两阶段运动建模和注意力的动作视频分类方法和系统 Download PDF

Info

Publication number
CN115063731B
CN115063731B CN202210980577.8A CN202210980577A CN115063731B CN 115063731 B CN115063731 B CN 115063731B CN 202210980577 A CN202210980577 A CN 202210980577A CN 115063731 B CN115063731 B CN 115063731B
Authority
CN
China
Prior art keywords
motion information
video
convolution
short
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210980577.8A
Other languages
English (en)
Other versions
CN115063731A (zh
Inventor
卢修生
赵思成
程乐超
苏慧
宋明黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210980577.8A priority Critical patent/CN115063731B/zh
Publication of CN115063731A publication Critical patent/CN115063731A/zh
Application granted granted Critical
Publication of CN115063731B publication Critical patent/CN115063731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统,包括以下步骤:步骤S1:构建采样帧输入至主干网络;步骤S2:第一阶段段内运动信息建模,输出包含短时运动信息的视频卷积特征;步骤S3:第二阶段段间运动信息建模,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;步骤S4:经过全连接层后得到各视频段的分类结果并融合,训练网络。本发明利用卷积神经网络的多层次结构,在网络的较低层和较高层分别提取段内运动信息和段间运动信息,达到分阶段运动综合建模的目的。此外,本发明计算视频卷积特征各空间块之间的注意力关系,使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。

Description

基于两阶段运动建模和注意力的动作视频分类方法和系统
技术领域
本发明涉及计算机视觉与模式识别技术领域,尤其涉及一种基于两阶段运动建模和注意力的动作视频分类方法和系统。
背景技术
随着移动互联网的发展,视频作为一种信息媒介已经深入影响到我们的生活。视频分析技术在自动驾驶、智能安防和机器人等领域都得到了广泛应用。动作视频分类任务作为视频分析领域的核心任务,在科研界与工业界都引起了众多关注。与图像相比视频增加了时间维度,所以如何对视频中的时域运动信息进行建模是研究的核心问题。
在传统视觉时代,手工设计视频描述子的发展沿着两个方向:(1)将二维图像描述子推广到三维视频描述子,如3D SIFT、HOG3D描述子等;(2)提取视频帧的特征再进行后处理来代表整个视频的特征,如DTF、IDT描述子等。而在深度学习时代来临之后,视频深度网络的发展仍然继承了以上两个方向:(1)使用3D卷积直接对连续视频段进行建模,如C3D、I3D模型等;(2)从原始视频采样视频帧,然后提取视频帧的特征再进一步处理作为整个视频的特征,如TSN、TSM模型等。其中在第二种研究方向中,一般通过显式的时域建模模块来提取运动信息,在Something-Something等动作相关数据集上取得了更好的识别效果,且相较于第一类方法有更低的运算开销。比如目前的TSN/TSM/TEA等方法在对原始视频分段后,对各段采样视频帧通过时域转移操作、运动激励模块等方式进行运动建模。但是这些方法只关注了段间长时运动概况,而忽视了段内短时运动细节,从而丢失了视频中关键性运动信息,而跨段时域建模也加大了动作解析的难度,影响了视频识别效果。
为此,我们提出一种基于两阶段运动建模和注意力的动作视频分类方法和系统以解决上述技术问题。
发明内容
本发明为了解决上述技术问题,提供一种基于两阶段运动建模和注意力的动作视频分类方法和系统。
本发明采用的技术方案如下:
一种基于两阶段运动建模和注意力的动作视频分类方法,包括以下步骤:
步骤S1:对输入的原始视频进行均匀分段,每个视频段随机采样连续多帧,得到采样帧,并将所有所述采样帧输入至主干网络;
步骤S2:在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模,在每层利用多个2D卷积和1D按深度卷积的串联组合分别进行空域建模和时域建模,所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征;
步骤S3:在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模,在每层利用多个2D卷积、1D按深度卷积和空间块注意力模块的串联组合分别进行空域建模、时域建模和空间块注意力操作,所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
步骤S4:各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果,并将所述分类结果进行平均融合得到原始视频的分类结果,采用交叉熵损失函数对所述主干网络进行训练。
进一步地,所述步骤S2具体包括以下子步骤:
步骤S21:在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模;
步骤S22:依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息,输出包含短时运动信息的视频卷积特征;
步骤S23:通过卷积核大小、填充大小、步长的参数设置,将所述包含短时运动信息的视频卷积特征在时间尺度降为一。
进一步地,所述步骤S3具体包括以下子步骤:
步骤S31:在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模;
步骤S32:以所述包含短时运动信息的视频卷积特征作为输入,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段之间的长时运动信息,得到融合了短时运动信息和长时运动信息的视频卷积特征;
步骤S33:利用空间块注意力模块实现空间上长距离地信息交互,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
进一步地,所述步骤S33具体包括以下子步骤:
步骤S331:利用空间块注意力模块将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块,得到多个空间块;
步骤S332:计算每个空间块与所有空间块之间的相关性矩阵,利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权,得到加权后特征;
步骤S333:将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
进一步地,所述主干网络基于ResNet50模型进行扩展。
本发明还提供一种基于两阶段运动建模和注意力的动作视频分类系统,包括:
采样模块:用于对输入的原始视频进行均匀分段,每个视频段随机采样连续多帧,得到采样帧,并将所有所述采样帧输入至主干网络;
第一阶段段内运动信息建模模块:用于在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模,在每层利用多个2D卷积和1D按深度卷积的串联组合分别进行空域建模和时域建模,所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征;
第二阶段段间运动信息建模模块:用于在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模,在每层利用多个2D卷积、1D按深度卷积和空间块注意力模块的串联组合分别进行空域建模、时域建模和空间块注意力操作,所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
融合及训练模块:用于各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果,并将所述分类结果进行平均融合得到原始视频的分类结果,采用交叉熵损失函数对所述主干网络进行训练。
进一步地,所述第一阶段段内运动信息建模模块,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息,输出包含短时运动信息的视频卷积特征;并且通过卷积核大小、填充大小、步长的参数设置,使得所述包含短时运动信息的视频卷积特征在时间尺度降为一。
进一步地,所述第二阶段段间运动信息建模模块,以所述包含短时运动信息的视频卷积特征作为输入,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段之间的长时运动信息,得到融合了短时运动信息和长时运动信息的视频卷积特征;然后利用空间块注意力模块实现空间上长距离地信息交互,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
进一步地,所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后,计算每个空间块与所有空间块之间的相关性矩阵,利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权,得到加权后特征,再将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
本发明的有益效果是:本发明基于层次化建模理论,利用卷积神经网络的多层结构,在网络的较低层进行段内运动信息提取,同时在网络的较高层进行段间运动信息刻画,从而达到分阶段运动信息综合建模的效果。此外所提出的方法在对视频卷积特征空间分块后,计算各空间块之间的注意力关系,从而使得模型同时具有了卷积操作的短距离和注意力机制的长距离建模能力,而且与按空间点计算注意力相比,本方法所得到的注意力信息具有更好的空间平滑性,且有着更低的运算开销。本发明在一定程度上解决了现有的视频分类网络缺乏对段内短时运动和段间长时运动的综合考虑从而影响模型时域表达能力的问题。
附图说明
图1为本发明一种基于两阶段运动建模和注意力的动作视频分类方法的流程示意图;
图2为本发明具体方法的流程示意图;
图3为本发明一种基于两阶段运动建模和注意力的动作视频分类系统的结构示意图;
图4为实施例所提出的空间块注意力模块框架图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1-图2,一种基于两阶段运动建模和注意力的动作视频分类方法,包括以下步骤:
步骤S1:对输入的原始视频进行均匀分段,每个视频段随机采样连续多帧,得到采样帧,并将所有所述采样帧输入至主干网络;
所述主干网络基于ResNet50模型进行扩展;
对于输入的原始视频P,首先将其均匀划分为N段
Figure DEST_PATH_IMAGE001
,对于第 n个视频段
Figure DEST_PATH_IMAGE002
,随机抽取 M张连续采样帧
Figure DEST_PATH_IMAGE003
。假设
Figure DEST_PATH_IMAGE004
表示网络模型,那么第l层网络得到的输入视频P对应的视频卷积特征可表示为
Figure DEST_PATH_IMAGE005
,视频段
Figure 957058DEST_PATH_IMAGE002
对应的视频卷积特征可表示为
Figure DEST_PATH_IMAGE006
步骤S2:在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模,在每层利用多个2D卷积和1D按深度卷积的串联组合分别进行空域建模和时域建模,所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征;
步骤S21:在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模;
步骤S22:依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息,输出包含短时运动信息的视频卷积特征;
步骤S23:通过卷积核大小、填充大小、步长的参数设置,将所述包含短时运动信息的视频卷积特征在时间尺度降为一。
假设
Figure DEST_PATH_IMAGE007
表示第l 层网络中的2D卷积操作,
Figure DEST_PATH_IMAGE008
表示第l 层网络中的1D按深度卷积操作。那么经过网络的较低层(前 s层)后,对于视频段
Figure DEST_PATH_IMAGE009
可得到包含短时运动信息的视频卷积特征
Figure 35102DEST_PATH_IMAGE006
,其中l≤s。注意在网络前 s层中,
Figure 408315DEST_PATH_IMAGE008
操作是在各视频段内的连续采样帧的深度特征
Figure DEST_PATH_IMAGE010
上进行,用于提取各视频段内相邻所述采样帧间的短时运动信息,且经过第 s层后,视频段
Figure 865841DEST_PATH_IMAGE009
对应的包含短时运动信息的视频卷积特征
Figure DEST_PATH_IMAGE011
在时间尺度降为一。
Figure DEST_PATH_IMAGE012
步骤S3:在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模,在每层利用多个2D卷积、1D按深度卷积和空间块注意力模块的串联组合分别进行空域建模、时域建模和空间块注意力操作,所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
步骤S31:在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模;
步骤S32:以所述包含短时运动信息的视频卷积特征作为输入,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段之间的长时运动信息,得到融合了短时运动信息和长时运动信息的视频卷积特征;
经过网络的较高层(第 s层之后网络层)中的2D卷积和1D按深度卷积后可得到输入的原始视频 P的融合了短时运动信息和长时运动信息的视频卷积特征
Figure DEST_PATH_IMAGE013
,其中l>s 。注意第 s层之后网络层中,
Figure 476951DEST_PATH_IMAGE008
操作是在各视频段
Figure 627310DEST_PATH_IMAGE002
间的深度特征
Figure DEST_PATH_IMAGE014
之间进行,用于刻画视频段之间的长时运动信息,且此处
Figure DEST_PATH_IMAGE015
组合隐含了多个块(Block)中的卷积操作。
Figure DEST_PATH_IMAGE016
步骤S33:利用空间块注意力模块实现空间上长距离地信息交互,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
步骤S331:利用空间块注意力模块将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块,得到多个空间块;
在空间块注意力模块中首先将视频段
Figure 691081DEST_PATH_IMAGE002
对应的融合了短时运动信息和长时运动信息的视频卷积特征
Figure 483456DEST_PATH_IMAGE006
在空间上按照k*k进行划分。
步骤S332:计算每个空间块与所有空间块之间的相关性矩阵,利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权,得到加权后特征;
步骤S333:将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
计算第i块融合了短时运动信息和长时运动信息的视频卷积特征
Figure 355597DEST_PATH_IMAGE017
和第 j块融合了短时运动信息和长时运动信息的视频卷积特征
Figure DEST_PATH_IMAGE018
之间的相关性矩阵
Figure 414208DEST_PATH_IMAGE019
,然后将相关性矩阵
Figure DEST_PATH_IMAGE020
作为权重矩阵作用于所述融合了短时运动信息和长时运动信息的视频卷积特征
Figure 27592DEST_PATH_IMAGE006
并进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征
Figure 233445DEST_PATH_IMAGE021
。相关性矩阵
Figure 350305DEST_PATH_IMAGE019
中包含了各空间块间的依赖关系,加权和融合操作实现了空间上的长距离地信息交互,而且空间块注意力模块作为自注意力操作的空间平滑版本,具有更低的计算开销:
Figure DEST_PATH_IMAGE022
Figure 842467DEST_PATH_IMAGE023
其中Conv表示1*1 积运算,且在公式中省略了空间划分后的特征重组操作。
步骤S4:各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果,并将所述分类结果进行平均融合得到原始视频的分类结果,采用交叉熵损失函数对所述主干网络进行训练。
假设 F表示全连接层,那么第l = 5卷积层后,将视频段
Figure 287355DEST_PATH_IMAGE009
对应的融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征
Figure DEST_PATH_IMAGE024
经过全连接层得到视频段的分类结果
Figure 421533DEST_PATH_IMAGE025
,然后将各视频段的分类结果平均融合得到输入视频 P的类别预测结果:
Figure DEST_PATH_IMAGE026
假设
Figure 127320DEST_PATH_IMAGE027
表示样本数目,
Figure DEST_PATH_IMAGE028
表示类别数目,那么所采用的交叉熵损失函数表示为:
Figure 524804DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE030
表示真实类别标签,
Figure 50463DEST_PATH_IMAGE031
表示预测类别标签。
参见图3,一种基于两阶段运动建模和注意力的动作视频分类系统,包括:
采样模块:用于对输入的原始视频进行均匀分段,每个视频段随机采样连续多帧,得到采样帧,并将所有所述采样帧输入至主干网络;
第一阶段段内运动信息建模模块:用于在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模,在每层利用多个2D卷积和1D按深度卷积的串联组合分别进行空域建模和时域建模,所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征;
所述第一阶段段内运动信息建模模块,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息,输出包含短时运动信息的视频卷积特征;并且通过卷积核大小、填充大小、步长的参数设置,使得所述包含短时运动信息的视频卷积特征在时间尺度降为一;
第二阶段段间运动信息建模模块:用于在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模,在每层利用多个2D卷积、1D按深度卷积和空间块注意力模块的串联组合分别进行空域建模、时域建模和空间块注意力操作,所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
所述第二阶段段间运动信息建模模块,以所述包含短时运动信息的视频卷积特征作为输入,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段之间的长时运动信息,得到融合了短时运动信息和长时运动信息的视频卷积特征;然后利用空间块注意力模块实现空间上长距离地信息交互,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后,计算每个空间块与所有空间块之间的相关性矩阵,利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权,得到加权后特征,再将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
融合及训练模块:用于各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果,并将所述分类结果进行平均融合得到原始视频的分类结果,采用交叉熵损失函数对所述主干网络进行训练。
实施例:
本发明主要解决动作视频的识别问题,这里正式定义有
Figure 863698DEST_PATH_IMAGE027
个视频样本的训练数据集
Figure DEST_PATH_IMAGE032
Figure 421063DEST_PATH_IMAGE033
为视频样本,
Figure DEST_PATH_IMAGE034
为视频动作标签。定义分类模型的预测结果为
Figure 255027DEST_PATH_IMAGE035
,其中
Figure DEST_PATH_IMAGE036
为网络参数,
Figure 267982DEST_PATH_IMAGE037
为映射函数。
在实验中,将输入视频均匀分为 8段,对每个视频段随机采样连续 3帧。在训练时从视频帧中随机裁剪 224*224大小的区域作为网络输入,在测试时则裁剪视频帧中心位置224*224大小的区域作为输入,并使用了水平翻转等数据增强方式和归一化等预处理方法。
参见图2所示,所提出的两阶段运动建模网络包含5个网络层,设置s = 1,即在conv1层进行第一阶段段内运动信息建模模块,在conv2_x/conv3_x/conv4_x/conv5_x层进行第二阶段段间运动信息建模。conv1层中包含一组2D卷积和1D按深度卷积,其中2D卷积的卷积核大小(Convolution Kernel Size)为 7*7,步长(Stride)为 2,能够将输入视频帧空间分辨率由 224*224降采样到 112*112;1D按深度卷积用来对属于同一视频段的相邻帧间进行短时运动建模,其卷积核大小为3,步长为 1,填充大小为 0,以保证各视频段时空特征在经过conv1层之后在时域维度大小为一。conv2_x/conv3_x/conv4_x/conv5_x层分别包含3、4、6、3个块(Block),考虑到运算开销与分类效果的折衷(conv2_x层对应的视频卷积特征空间维度太大所以运算开销大,conv4_x、conv5_x对应视频卷积特征空间维度太小对分类效果影响有限),只在conv3_x中插入了空间块注意力模块。即在conv2_x/conv4_x/conv5_x层的每个块包含一个2D卷积和1D按深度卷积的组合,在conv3_x层的每个块中包含了一个2D卷积、1D按深度卷积和空间块注意力模块的组合结构。另外还应用了瓶颈结构(Bottleneck Architecture)和残差连接(Residual Connection)来降低运算开销和加速网络训练,其2D卷积和1D按深度卷积的卷积核大小分别为 3*3和 3,在此阶段1D按深度卷积用来对不同视频段采样帧之间进行长时运动建模。
参见图4所示,空间块注意力模块(Spatial Patch-wise Attention Module,SPAM)包含了分割(Divide)、重组(Reshape)、拼装(Piece)等操作,其中分割操作将视频卷积特征在空间上划分为 7*7的块,重组操作将各空间块的特征按照通道维度拼接起来(或者反之),拼装操作是分割的逆操作。在此模块中,经过 1*1卷积和分割重组操作后,利用矩阵乘法计算得到各空间块之间的相关性矩阵,再经过Softmax后作用于视频卷积特征,然后将加权后的视频卷积特征在经过重组与拼装操作后,与输入特征进行累加融合,从而起到空间块之间长距离信息传递的作用。与以像素点为单位的注意力操作相比,计算空间块之间的依赖关系既具有平滑稳定效果,又大大降低了时间开销。
本发明的方法使用Pytorch框架进行实验,使用初始学习率为0.01的随机梯度下降SGD优化器与MultiStepLR调度器。在Something-Something V1数据集上设置训练60个迭代,在第30、45和55次迭代调整学习率。批处理大小为64,视频分段数N = 8。主干网络使用在ImageNet上预训练的ResNet50网络进行初始化。conv1层中的1D时域卷积使用Pytorch默认初始化(Kaiming初始化),conv2_x/conv3_x/conv4_x/conv5_x层中的1D时域卷积使用等价于TSM网络中时域转移操作的方式进行初始化。Something-Something V1数据集包含108499个动作视频,174个动作类别,每个视频有2-6秒,被划分为训练集、验证集和测试集分别包括了86017、11522和10960个动作视频。
下表1中比较了所提出的两阶段运动建模网络(Two-stage Motion ModelingNetwork,TMMN)与现有方法在Something-Something V1数据集上的识别结果,在其训练集上进行训练,验证集上进行测试,通过视频分类准确率的比较可以看出,在Top1/Top5指标上,本方法都取得了最好的分类结果。所比较的方法包括TSN:Temporal Segment Network,时域分割网络;TRN-Multiscale:Multiscale Temporal Relation Network,多尺度时域关系网络;TSM: Temporal Shift Module,时域转移模块;TEINet:Temporal Enhancement-and-Interaction Network,时域增强和交互网络;TSN + (2+1)D: Temporal SegmentNetwork with (2+1)D Convolution,使用(2+1)D卷积操作的时域分割网络;TEA:TemporalExcitation and Aggregation,时域激发和聚合网络。
表1各方法在Something-Something V1数据集上的动作视频分类结果比较
Figure DEST_PATH_IMAGE039
综上所述,从表1中各方法的视频分类结果比较中可以看出,与TSN、TSM等方法只关注视频中的空域表观信息和长时运动信息相比,本发明利用深度卷积网络的层次化结构,对输入视频的短时和长时运动特征进行分阶段建模,得到同时包含局部运动细节和全局运动上下文的视频卷积特征。进一步地,本发明利用空间块注意力模块计算各空间块之间的关联关系,从而使所述网络模型同时具备了卷积操作的短距离建模能力和注意力机制的长距离建模能力,提升了模型的分类性能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于两阶段运动建模和注意力的动作视频分类方法,其特征在于,包括以下步骤:
步骤S1:对输入的原始视频进行均匀分段,每个视频段随机采样连续多帧,得到采样帧,并将所有所述采样帧输入至主干网络;
步骤S2:在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模,前s层每层有多个串联组合,所述串联组合由2D卷积和1D按深度卷积构成,在每层利用每个串联组合的2D卷积和1D按深度卷积分别进行空域建模和时域建模,所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征;
步骤S3:在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模,后s层每层有多个串联组合,所述串联组合由2D卷积、1D按深度卷积和空间块注意力模块构成,在每层利用每个串联组合的2D卷积、1D按深度卷积和空间块注意力模块分别进行空域建模、时域建模和空间块注意力操作,所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
步骤S4:各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果,并将所述分类结果进行平均融合得到原始视频的分类结果,采用交叉熵损失函数对所述主干网络进行训练。
2.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法,其特征在于,所述步骤S2具体包括以下子步骤:
步骤S21:在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模;
步骤S22:依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息,输出包含短时运动信息的视频卷积特征;
步骤S23:通过卷积核大小、填充大小、步长的参数设置,将所述包含短时运动信息的视频卷积特征在时间尺度降为一。
3.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法,其特征在于,所述步骤S3具体包括以下子步骤:
步骤S31:在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模;
步骤S32:以所述包含短时运动信息的视频卷积特征作为输入,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段之间的长时运动信息,得到融合了短时运动信息和长时运动信息的视频卷积特征;
步骤S33:利用空间块注意力模块实现空间上长距离地信息交互,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
4.如权利要求3所述的一种基于两阶段运动建模和注意力的动作视频分类方法,其特征在于,所述步骤S33具体包括以下子步骤:
步骤S331:利用空间块注意力模块将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块,得到多个空间块;
步骤S332:计算每个空间块与所有空间块之间的相关性矩阵,利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权,得到加权后特征;
步骤S333:将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
5.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法,其特征在于,所述主干网络基于ResNet50模型进行扩展。
6.一种基于两阶段运动建模和注意力的动作视频分类系统,其特征在于,包括:
采样模块:用于对输入的原始视频进行均匀分段,每个视频段随机采样连续多帧,得到采样帧,并将所有所述采样帧输入至主干网络;
第一阶段段内运动信息建模模块:用于在所述主干网络的任意层第s层将所述主干网络进行分段,在所述主干网络的前s层进行第一阶段段内运动信息建模,前s层每层有多个串联组合,所述串联组合由2D卷积和1D按深度卷积构成,在每层利用每个串联组合的2D卷积和1D按深度卷积分别进行空域建模和时域建模,所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征;
第二阶段段间运动信息建模模块:用于在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模,后s层每层有多个串联组合,所述串联组合由2D卷积、1D按深度卷积和空间块注意力模块构成,在每层利用每个串联组合的2D卷积、1D按深度卷积和空间块注意力模块分别进行空域建模、时域建模和空间块注意力操作,所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;
融合及训练模块:用于各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果,并将所述分类结果进行平均融合得到原始视频的分类结果,采用交叉熵损失函数对所述主干网络进行训练。
7.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统,其特征在于,所述第一阶段段内运动信息建模模块,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息,输出包含短时运动信息的视频卷积特征;并且通过卷积核大小、填充大小、步长的参数设置,使得所述包含短时运动信息的视频卷积特征在时间尺度降为一。
8.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统,其特征在于,所述第二阶段段间运动信息建模模块,以所述包含短时运动信息的视频卷积特征作为输入,依次利用2D卷积提取空域表观信息,利用1D按深度卷积提取各视频段之间的长时运动信息,得到融合了短时运动信息和长时运动信息的视频卷积特征;然后利用空间块注意力模块实现空间上长距离地信息交互,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
9.如权利要求8所述的一种基于两阶段运动建模和注意力的动作视频分类系统,其特征在于,所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后,计算每个空间块与所有空间块之间的相关性矩阵,利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权,得到加权后特征,再将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作,得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。
CN202210980577.8A 2022-08-16 2022-08-16 基于两阶段运动建模和注意力的动作视频分类方法和系统 Active CN115063731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210980577.8A CN115063731B (zh) 2022-08-16 2022-08-16 基于两阶段运动建模和注意力的动作视频分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980577.8A CN115063731B (zh) 2022-08-16 2022-08-16 基于两阶段运动建模和注意力的动作视频分类方法和系统

Publications (2)

Publication Number Publication Date
CN115063731A CN115063731A (zh) 2022-09-16
CN115063731B true CN115063731B (zh) 2022-11-11

Family

ID=83207932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980577.8A Active CN115063731B (zh) 2022-08-16 2022-08-16 基于两阶段运动建模和注意力的动作视频分类方法和系统

Country Status (1)

Country Link
CN (1) CN115063731B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN113343950A (zh) * 2021-08-04 2021-09-03 之江实验室 一种基于多特征融合的视频行为识别方法
CN114494981A (zh) * 2022-04-07 2022-05-13 之江实验室 一种基于多层次运动建模的动作视频分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN113343950A (zh) * 2021-08-04 2021-09-03 之江实验室 一种基于多特征融合的视频行为识别方法
CN114494981A (zh) * 2022-04-07 2022-05-13 之江实验室 一种基于多层次运动建模的动作视频分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatio-Temporal Slowfast Self-Attention Network For Action Recognition;Myeongjun Kim,等;《2020 IEEE International Conference on Image Processing (ICIP)》;20200930;第2206-2210页 *
多模态数据支持的学习投入评测:现状、启示与研究趋向;张琪等;《远程教育杂志》;20200120(第01期);第78-88页 *

Also Published As

Publication number Publication date
CN115063731A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN107506712B (zh) 一种基于3d深度卷积网络的人类行为识别的方法
CN109886358B (zh) 基于多时空信息融合卷积神经网络的人体行为识别方法
CN113486726B (zh) 一种基于改进卷积神经网络的轨道交通障碍物检测方法
CN107784293A (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN112396027A (zh) 基于图卷积神经网络的车辆重识别方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN113239869B (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及系统
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取系统和方法
CN112488055B (zh) 一种基于渐进图注意力网络的视频问答方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN114333070A (zh) 一种基于深度学习的考生异常行为检测方法
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及系统
CN106257496A (zh) 海量网络文本与非文本图像分类方法
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
CN110688927A (zh) 一种基于时序卷积建模的视频动作检测方法
Wang et al. Intermediate fused network with multiple timescales for anomaly detection
CN108446605B (zh) 复杂背景下双人交互行为识别方法
Wu et al. Single shot multibox detector for vehicles and pedestrians detection and classification
CN111539445A (zh) 一种半监督特征融合的对象分类方法及系统
Wang et al. Satellite video scene classification using low-rank sparse representation two-stream networks
CN116798123A (zh) 一种个性化联邦学习下的视频行为识别方法
Li A deep learning-based text detection and recognition approach for natural scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant