CN112926396A - 一种基于双流卷积注意力的动作识别方法 - Google Patents

一种基于双流卷积注意力的动作识别方法 Download PDF

Info

Publication number
CN112926396A
CN112926396A CN202110116862.0A CN202110116862A CN112926396A CN 112926396 A CN112926396 A CN 112926396A CN 202110116862 A CN202110116862 A CN 202110116862A CN 112926396 A CN112926396 A CN 112926396A
Authority
CN
China
Prior art keywords
attention
motion
feature
video
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110116862.0A
Other languages
English (en)
Other versions
CN112926396B (zh
Inventor
李平
马浩男
曹佳晨
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110116862.0A priority Critical patent/CN112926396B/zh
Publication of CN112926396A publication Critical patent/CN112926396A/zh
Application granted granted Critical
Publication of CN112926396B publication Critical patent/CN112926396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双流卷积注意力的动作识别方法。本发明方法首先对视频做预处理获得帧图像序列与光流图像序列,并分别提取视频的外观特征表示与动作特征表示;然后构建卷积注意力模块获得帧图像和光流图像的注意力特征表示,并通过双流融合模块对两种注意力表示进行信息融合;接着训练利用卷积注意力机制和双流融合方法的动作识别模型,并根据该模型对预处理后的新视频输出其动作类别。本发明方法不仅利用通道注意力和时空注意力捕获视频动作内容的潜在模式和时空关系,还通过双流融合从全局角度对视频的外观特征与运动特征进行信息融合,有效缓解了视频长期时序依赖的时序信息缺失问题,提高了动作识别的准确度。

Description

一种基于双流卷积注意力的动作识别方法
技术领域
本发明属于计算机技术领域,尤其是视频分析中的动作识别技术领域,具体涉及一 种基于双流卷积注意力的动作识别方法。
背景技术
近年来,各类视频数据与日俱增,如何识别视频的动作内容成为许多视频处理任务 的基础研究课题。动作识别技术主要是根据视频的内容给出视频动作的类别,在辅助驾驶、视频内容审核、个性化推荐等多个应用场景有着十分重要的社会价值。例如,在车 辆辅助驾驶场景,动作识别技术可以帮助用户通过手势给导航系统发出指令,提升人们 的驾驶舒适度;在视频内容审核中,动作识别系统可以辅助人工进行视频内容审核,从 而提高审核效率、降低人力成本;在视频个性化推荐中,动作识别技术将视频按照内容 进行分类,根据用户感兴趣的话题类别为其推荐个性化的视频内容。目前,基于深度学 习技术的视频动作识别模型能够以远高于人工处理的效率完成动作分类任务,这将节省 大量的人工开销。
卷积神经网络(Convolutional Neural Networks,CNN)在图像识别、目标检测等计算机视觉任务上带来显著的性能提升。不同于单幅图像,由图像帧序列构成的视频需 要考虑帧与帧之间的时序关系,所以研究人员提出了多种考虑时序信息的动作识别方法。 例如,三维卷积神经网络(3D ConvNets)在二维卷积神经网络(2D ConvNets)的基础 上对其卷积核加入时序维度,通过时序卷积捕获时序信息,有效提高识别准确率;双流 (Two-Stream)方法则分别使用彩色(RGB)图像和光流(Optical Flow)图像提取空间 视觉特征和时序运动特征,再对两种特征识别结果进行融合,从而准确理解视频动作内 容。此外,视频可能存在与动作类别无关的内容,而无关内容将干扰模型的识别准确率。 对此,目前主要采用两种方法解决该问题:1)利用长短期记忆网络(LSTM,Long Short-Term Memory)对卷积神经网络提取的图像帧特征进行处理,具体通过记忆单元保留关键特征 并遗忘无关信息,以减少无关内容对模型性能的影响;2)利用视觉注意力(Visual Attention)机制在特征图的空间维度计算对应的注意力图,据此获取图像帧的关键视觉 区域所表达的信息,并抑制无关内容所在的低注意力权重区域对模型的不利影响。
现有的视频动作识别方法仍存在一些不足:第一,不同视频帧内部的关键信息存在 差异,且不同帧的重要程度不相同,所以单一的视觉注意力无法有效捕获关键信息;第二,三维卷积神经网络受限于卷积核尺寸,仅能提取小范围内多帧的短期依赖时序信息,缺少对长期依赖时序信息的提取;第三,多数基于双流的方法直接将两种特征的动作识 别结果进行加权求和,未考虑对空间特征和运动特征进行信息融合。因此,为了应对上 述不足,本发明从通道时空关系和特征融合的角度出发,提出一种基于双流卷积注意力 的动作识别方法,以提高视频动作识别准确率。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于双流卷积注意力的动作识别 方法,利用卷积注意力机制完成通道和时空维度的动作信息特征提取,通过双流融合刻画长期依赖时序关系,以便获得更能反映视频数据潜在模式的特征表示,提升模型的动 作识别精度。
本发明方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow,分别提取视频的外观特征表示FRGB和运动特征表示FFlow
步骤(2).构建卷积注意力模块,输入为外观特征表示FRGB和动作特征表示FFlow,输出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征表示
Figure BDA0002921042770000021
和运动注意力特征表示
Figure BDA0002921042770000022
步骤(3).构建双流融合模块C,输入为外观注意力特征表示
Figure BDA0002921042770000023
和运动注意力特征 表示
Figure BDA0002921042770000024
输出为外观双流特征表示ZRGB和运动双流特征表示ZFlow
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进 行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。
进一步,步骤(1)具体是:
(1-1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列
Figure BDA0002921042770000025
其中,N表示RGB帧图像总数目,
Figure BDA0002921042770000026
表示序列中第i幅、宽为w、高为h的RGB 三通道图像;视频V包含动作类别标记
Figure BDA0002921042770000027
其中L为动作类别总数;v=10~30;
(1-2).对RGB帧图像序列VRGB采用卢卡斯-卡纳德方法计算,得到对应的光流图像序 列
Figure BDA0002921042770000031
Figure BDA0002921042770000032
表示第i帧包含竖直方向与水平方向双通道的光流图像,
Figure BDA0002921042770000033
(1-3).将RGB帧图像序列VRGB和光流图像序列VFlow分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示
Figure BDA0002921042770000034
Figure BDA0002921042770000035
其中
Figure BDA0002921042770000036
为m帧RGB图像组成的片段,
Figure BDA0002921042770000037
为m帧光流图像组成的片段;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D(Inflated 3D ConvNets)作为视觉特征提取器
Figure BDA0002921042770000038
分别提取SRGB对应的外观特征表示
Figure BDA0002921042770000039
和SFlow对应的运动特征表示
Figure BDA00029210427700000310
其中,
Figure BDA00029210427700000311
Figure BDA00029210427700000312
分 别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′。
再进一步,步骤(2)具体是:
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力 模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感 知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和 三维卷积层f7×7×7(·);
(2-2).采用(2-1)方法对外观特征表示FRGB构建对应的外观卷积注意力模块
Figure BDA00029210427700000313
包 括通道注意力模块
Figure BDA00029210427700000314
和时空注意力模块
Figure BDA00029210427700000315
(2-3).通道注意力模块
Figure BDA00029210427700000316
的输入为
Figure BDA00029210427700000317
输出为k段的c′个通道的通道 注意力权重序列
Figure BDA00029210427700000318
其中,通道注意力权重
Figure BDA00029210427700000319
Figure BDA00029210427700000320
分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作,MLP(·)由神经元数分别为c′、c′/2、c′的三层全连接层构成,σ(·)表示Sigmoid函数;
(2-4).时空注意力模块
Figure BDA00029210427700000321
的输入为通道注意力权重序列
Figure BDA00029210427700000322
加权的特征图
Figure BDA0002921042770000041
Figure BDA0002921042770000042
符号表示逐元素乘法操作;输出为时空注意力权重序列
Figure BDA0002921042770000043
其中,时空注意力权重
Figure RE-GDA0003000607830000044
Figure RE-GDA0003000607830000045
f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1 的三维卷积层,
Figure RE-GDA0003000607830000046
分别表示对特征 图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维 度上的拼接操作;
(2-5).对外观特征表示FRGB使用通道注意力权重序列
Figure BDA0002921042770000047
和时空注意力权重序列
Figure BDA0002921042770000048
加权得到外观注意力特征表示
Figure BDA0002921042770000049
其中,
Figure BDA00029210427700000410
表示外观注意力特征图,
Figure BDA00029210427700000411
(2-6).采用(2-1)方法对运动特征表示FFlow构建对应的运动卷积注意力模块
Figure BDA00029210427700000412
其构建方式与外观卷积注意力模块
Figure BDA00029210427700000413
相同;由此得到运动注意力特征表示
Figure BDA00029210427700000414
表示运动注意力特征图。
更进一步,步骤(3)具体是:
(3-1).双流融合模块C用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;
(3-2).双流融合模块C的输入为外观注意力特征表示
Figure BDA00029210427700000415
和运动注意力特征表示
Figure BDA00029210427700000416
输出为外观双流特征表示
Figure BDA00029210427700000417
和运动双流特征表示
Figure BDA00029210427700000418
其中,
Figure BDA00029210427700000419
Figure BDA00029210427700000420
分别表示双流特征融合并残差连接后的第j 段外观双流特征图和运动双流特征图;
Figure BDA00029210427700000421
Figure BDA00029210427700000422
其中,特征降维层θ(·)、φ(·)、g(·)均 表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、 g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作,
Figure BDA0002921042770000051
表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表 示一个卷积核大小为1×1×1、输入通道数为
Figure BDA0002921042770000052
输出通道数为c'的三维卷积层,WZ(·)将特 征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的 相加操作。
又进一步,步骤(4)具体是:
(4-1).对外观双流特征表示ZRGB中的各段外观双流特征图
Figure BDA0002921042770000053
进行三维时空平均池 化,
Figure BDA0002921042770000054
对运动双流特征表示ZFlow中的各段运动双流特征图
Figure BDA0002921042770000055
进行三维时空平均池化,
Figure BDA0002921042770000056
然后将其池化后的结果输入至由全连接层与Softmax层构成的输出层
Figure BDA0002921042770000057
中,得到各段 的外观动作得分
Figure BDA0002921042770000058
和运动动作得分
Figure BDA0002921042770000059
Figure BDA00029210427700000510
Figure BDA00029210427700000511
均 表示经过Softmax层归一化后的动作类别概率;
(4-2).计算各段的外观动作得分RRGB的平均值,得到平均外观动作得分
Figure BDA00029210427700000512
计算各段的运动动作得分RFlow的平均值,得到平均运动动作得分
Figure BDA00029210427700000513
Figure BDA00029210427700000514
Figure BDA00029210427700000515
的平均,作为视频的最终动作得分
Figure BDA00029210427700000516
(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵(Cross Entropy)损失,利用随机梯度下降算法调整更新输出层
Figure BDA00029210427700000517
双流融合模块C、外观卷积注意力模 块
Figure BDA00029210427700000518
以及运动卷积注意力模块
Figure BDA00029210427700000519
的参数,完成动作识别模型的构建;
(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′RGB和运动特征表示 F′Flow,并将其输入至动作识别模型获得动作得分
Figure BDA00029210427700000520
根据动作得分获得视频内容的 动作类别
Figure BDA00029210427700000521
Figure BDA00029210427700000522
为R′中得分最高元素所对应的索引,完成动作识别任务。
本发明相比现有方法有以下不同点与创新点:1)本发明用卷积注意力机制进行视频 特征提取,不同于简单的视觉注意力机制,该机制同时计算通道注意力和时空注意力,使得提取的特征表示更能反映视频的动作内容;2)本发明采用的双流融合模块以整段特征表示为输入,可以从全局角度提取各段内部的时空特征表示,有效缓解了长期依赖问 题中的时序信息缺失;3)本发明通过卷积层映射和Softmax层归一化将外观特征与运动特 征有效融合,并用残差连接将融合特征与原始特征相加,进一步丰富特征信息量。
本发明方法适用于视频内含有干扰内容但对准确率要求较高的动作内容识别,其优 点在于:1)通过提取特征图的卷积注意力,即分别提取通道注意力和时空注意力,准确地捕获视频动作内容的潜在模式和时空关系;2)使用三维卷积层挖掘相邻帧间的短期依赖时序信息,并在全局特征表示学习中获取长期依赖时序关系,充分考虑相邻帧间的局 部语义信息与各视频段的全局语义信息;3)通过双流融合模块将运动特征与外观特征相 互融合,增加了视频特征表示的多样性。本发明能有效刻画视频的长短期时序关系、提 取视频的局部与全局特征,并对其外观特征与运动特征相互融合,可广泛应用于辅助驾 驶、视频内容审核、个性化推荐等多个场景。
附图说明
图1为本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
基于双流卷积注意力的动作识别方法,首先将给定的视频进行预处理并提取外观特 征表示和运动特征表示;然后将两种特征表示输入至卷积注意力模块得到捕获视频关键 内容的外观注意力特征表示和运动注意力特征表示;随后通过双流融合模块将两种注意 力特征表示相互融合得到外观与运动信息相结合的双流特征表示;最后利用双流特征表 示确定视频内容的动作类别。该方法利用卷积注意力机制捕获视频动作的潜在模式、有效刻画长短期依赖的时序关系、学习融合外观和运动信息的视频特征表示,从而更好地 识别视频中包含的动作。
如图1,该方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow, 分别提取视频的外观特征表示FRGB和运动特征表示FFlow。具体是:
(1-1).对视频V以每秒20帧的采样率进行处理,得到RGB帧图像序列
Figure BDA0002921042770000061
其中,N表示RGB帧图像总数目,
Figure BDA0002921042770000062
表示序列中第i幅、宽为w、高为h的RGB 三通道图像;视频V包含动作类别标记
Figure BDA0002921042770000063
其中L为动作类别总数;v=10~30;
(1-2).对RGB帧图像序列VRGB采用卢卡斯-卡纳德方法计算,得到对应的光流图像序 列
Figure BDA0002921042770000071
Figure BDA0002921042770000072
表示第i帧包含竖直方向与水平方向双通道的光流图像,
Figure BDA0002921042770000073
VFlow包括N幅光流图像;
(1-3).将RGB帧图像序列VRGB和光流图像序列VFlow分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示
Figure BDA0002921042770000074
Figure BDA0002921042770000075
其中
Figure BDA0002921042770000076
为m帧RGB图像组成的片段,
Figure BDA0002921042770000077
为m帧光流图像组成的片段;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D(Inflated 3D ConvNets)作为视觉特征提取器
Figure BDA00029210427700000722
分别提取SRGB对应的外观特征表示
Figure BDA0002921042770000078
和SFlow对应的运动特征表示
Figure BDA0002921042770000079
其中,
Figure BDA00029210427700000710
Figure BDA00029210427700000711
分 别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′。
步骤(2).构建卷积注意力模块,输入为外观特征表示FRGB和动作特征表示FFlow,输出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征表示
Figure BDA00029210427700000712
和运动注意力特征表示
Figure BDA00029210427700000713
具体是:
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力 模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感 知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和 三维卷积层f7×7×7(·);
(2-2).采用(2-1)方法对外观特征表示FRGB构建对应的外观卷积注意力模块
Figure BDA00029210427700000714
包 括通道注意力模块
Figure BDA00029210427700000715
和时空注意力模块
Figure BDA00029210427700000716
(2-3).通道注意力模块
Figure BDA00029210427700000717
的输入为
Figure BDA00029210427700000718
输出为k段的c′个通道的通道 注意力权重序列
Figure BDA00029210427700000719
其中,通道注意力权重
Figure BDA00029210427700000720
Figure BDA00029210427700000721
分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作,MLP(·)由神经元数分别为c′、c′/2、c′的三层全连接层构成,σ(·)表示Sigmoid函数;
(2-4).时空注意力模块
Figure BDA0002921042770000081
的输入为通道注意力权重序列
Figure BDA0002921042770000082
加权的特征图
Figure BDA0002921042770000083
Figure BDA0002921042770000084
符号表示逐元素乘法操作;输出为时空注意力权重序列
Figure BDA0002921042770000085
其中,时空注意力权重
Figure RE-GDA0003000607830000086
Figure RE-GDA0003000607830000087
f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1 的三维卷积层,
Figure RE-GDA0003000607830000088
分别表示对特征 图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维 度上的拼接操作;
(2-5).对外观特征表示FRGB使用通道注意力权重序列
Figure BDA0002921042770000089
和时空注意力权重序列
Figure BDA00029210427700000810
加权得到外观注意力特征表示
Figure BDA00029210427700000811
其中,
Figure BDA00029210427700000812
表示外观注意力特征图,
Figure BDA00029210427700000813
(2-6).采用(2-1)方法对运动特征表示FFlow构建对应的运动卷积注意力模块
Figure BDA00029210427700000814
其构建方式与外观卷积注意力模块
Figure BDA00029210427700000815
相同;由此得到运动注意力特征表示
Figure BDA00029210427700000816
表示运动注意力特征图。
步骤(3).构建双流融合模块C,输入为外观注意力特征表示
Figure BDA00029210427700000817
和运动注意力特征 表示
Figure BDA00029210427700000818
输出为外观双流特征表示ZRGB和运动双流特征表示ZFlow。具体是:
(3-1).双流融合模块C中的“双流”是指外观注意力特征表示数据流和运动注意力特 征数据流,该模块用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;
(3-2).双流融合模块C的输入为外观注意力特征表示
Figure BDA00029210427700000819
和运动注意力特征表示
Figure BDA00029210427700000820
输出为外观双流特征表示
Figure BDA00029210427700000821
和运动双流特征表示
Figure BDA00029210427700000822
其中,
Figure BDA00029210427700000823
Figure BDA00029210427700000824
分别表示双流特征融合并残差连接后的第j 段外观双流特征图和运动双流特征图;
Figure BDA0002921042770000091
Figure BDA0002921042770000092
其中,特征降维层θ(·)、φ(·)、g(·)均 表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、 g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作,
Figure BDA0002921042770000093
表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表 示一个卷积核大小为1×1×1、输入通道数为
Figure BDA0002921042770000094
输出通道数为c'的三维卷积层,WZ(·)将特 征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的 相加操作。
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型,将新视频进 行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。具体是:
(4-1).对外观双流特征表示ZRGB中的各段外观双流特征图
Figure BDA0002921042770000095
进行三维时空平均池 化,
Figure BDA0002921042770000096
对运动双流特征表示ZFlow中的各段运动双流特征图
Figure BDA0002921042770000097
进行三维时空平均池化,
Figure BDA0002921042770000098
然后将其池化后的结果输入至由全连接层与Softmax层构成的输出层
Figure BDA0002921042770000099
中,得到各段的外观动作得分
Figure BDA00029210427700000910
和运动动作得分
Figure BDA00029210427700000911
Figure BDA00029210427700000912
Figure BDA00029210427700000913
均 表示经过Softmax层归一化后的动作类别概率;
(4-2).计算各段的外观动作得分RRGB的平均值,得到平均外观动作得分
Figure BDA00029210427700000914
计算各段的运动动作得分RFlow的平均值,得到平均运动动作得分
Figure BDA00029210427700000915
Figure BDA00029210427700000916
Figure BDA00029210427700000917
的平均,作为视频的最终动作得分
Figure BDA00029210427700000918
(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵(Cross Entropy)损失,利用随机梯度下降算法调整更新输出层
Figure BDA00029210427700000919
双流融合模块C、外观卷积注意力模 块
Figure BDA00029210427700000920
以及运动卷积注意力模块
Figure BDA00029210427700000921
的参数,完成动作识别模型的构建;
(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′RGB和运动特征表示F′Flow,并将其输入至动作识别模型获得动作得分
Figure BDA0002921042770000101
根据动作得分获得视频内容的动作类别
Figure BDA0002921042770000102
Figure BDA0002921042770000103
为R′中得分最高元素所对应的索引,完成动作识别任务。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不 应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员 根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种基于双流卷积注意力的动作识别方法,其特征在于,该方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow,分别提取视频的外观特征表示FRGB和运动特征表示FFlow
步骤(2).构建卷积注意力模块,输入为外观特征表示FRGB和动作特征表示FFlow,输出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征表示
Figure FDA0002921042760000011
和运动注意力特征表示
Figure FDA0002921042760000012
步骤(3).构建双流融合模块C,输入为外观注意力特征表示
Figure FDA0002921042760000013
和运动注意力特征表示
Figure FDA0002921042760000014
输出为外观双流特征表示ZRGB和运动双流特征表示ZFlow
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。
2.如权利要求1所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(1)具体是:
(1-1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列
Figure FDA0002921042760000015
其中,N表示RGB帧图像总数目,
Figure FDA0002921042760000016
表示序列中第i幅、宽为w、高为h的RGB三通道图像;视频V包含动作类别标记
Figure FDA0002921042760000017
其中L为动作类别总数;v=10~30;
(1-2).对RGB帧图像序列VRGB采用卢卡斯-卡纳德方法计算,得到对应的光流图像序列
Figure FDA0002921042760000018
fi Flow表示第i帧包含竖直方向与水平方向双通道的光流图像,
Figure FDA0002921042760000019
(1-3).将RGB帧图像序列VRGB和光流图像序列VFlow分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示
Figure FDA00029210427600000110
Figure FDA00029210427600000111
其中
Figure FDA00029210427600000112
为m帧RGB图像组成的片段,
Figure FDA00029210427600000113
为m帧光流图像组成的片段;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征提取器
Figure FDA0002921042760000021
分别提取SRGB对应的外观特征表示
Figure FDA0002921042760000022
和SFlow对应的运动特征表示
Figure FDA0002921042760000023
其中,
Figure FDA0002921042760000024
Figure FDA0002921042760000025
分别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′。
3.如权利要求2所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(2)具体是:
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和三维卷积层f7×7×7(·);
(2-2).采用(2-1)方法对外观特征表示FRGB构建对应的外观卷积注意力模块
Figure RE-FDA0003000607820000026
包括通道注意力模块
Figure RE-FDA0003000607820000027
和时空注意力模块
Figure RE-FDA0003000607820000028
(2-3).通道注意力模块
Figure RE-FDA0003000607820000029
的输入为
Figure RE-FDA00030006078200000210
输出为k段的c′个通道的通道注意力权重序列
Figure RE-FDA00030006078200000211
其中,通道注意力权重
Figure RE-FDA00030006078200000212
Figure RE-FDA00030006078200000213
分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作,MLP(·)由神经元数分别为c′、c′/2、c′的三层全连接层构成,σ(·)表示Sigmoid函数;
(2-4).时空注意力模块
Figure RE-FDA00030006078200000214
的输入为通道注意力权重序列
Figure RE-FDA00030006078200000215
加权的特征图
Figure RE-FDA00030006078200000216
Figure RE-FDA00030006078200000217
符号表示逐元素乘法操作;输出为时空注意力权重序列
Figure RE-FDA00030006078200000218
其中,时空注意力权重
Figure RE-FDA00030006078200000219
Figure RE-FDA00030006078200000220
f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层,
Figure RE-FDA0003000607820000031
分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维度上的拼接操作;
(2-5).对外观特征表示FRGB使用通道注意力权重序列
Figure RE-FDA0003000607820000032
和时空注意力权重序列
Figure RE-FDA0003000607820000033
加权得到外观注意力特征表示
Figure RE-FDA0003000607820000034
其中,
Figure RE-FDA0003000607820000035
表示外观注意力特征图,
Figure RE-FDA0003000607820000036
(2-6).采用(2-1)方法对运动特征表示FFlow构建对应的运动卷积注意力模块
Figure RE-FDA0003000607820000037
其构建方式与外观卷积注意力模块
Figure RE-FDA0003000607820000038
相同;由此得到运动注意力特征表示
Figure RE-FDA0003000607820000039
Figure RE-FDA00030006078200000310
表示运动注意力特征图。
4.如权利要求3所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(3)具体是:
(3-1).双流融合模块
Figure FDA00029210427600000311
用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;
(3-2).双流融合模块
Figure FDA00029210427600000312
的输入为外观注意力特征表示
Figure FDA00029210427600000313
和运动注意力特征表示
Figure FDA00029210427600000314
输出为外观双流特征表示
Figure FDA00029210427600000315
和运动双流特征表示
Figure FDA00029210427600000316
其中,
Figure FDA00029210427600000317
Figure FDA00029210427600000318
分别表示双流特征融合并残差连接后的第j段外观双流特征图和运动双流特征图;
Figure FDA00029210427600000319
Figure FDA00029210427600000320
其中,特征降维层θ(·)、φ(·)、g(·)均表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作,
Figure FDA00029210427600000321
表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表示一个卷积核大小为1×1×1、输入通道数为
Figure FDA00029210427600000322
输出通道数为c'的三维卷积层,WZ(·)将特征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的相加操作。
5.如权利要求4所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(4)具体是:
(4-1).对外观双流特征表示ZRGB中的各段外观双流特征图
Figure FDA0002921042760000041
进行三维时空平均池化,
Figure FDA0002921042760000042
对运动双流特征表示ZFlow中的各段运动双流特征图
Figure FDA0002921042760000043
进行三维时空平均池化,
Figure FDA0002921042760000044
然后将其池化后的结果输入至由全连接层与Softmax层构成的输出层
Figure FDA0002921042760000045
中,得到各段的外观动作得分
Figure FDA0002921042760000046
和运动动作得分
Figure FDA0002921042760000047
Figure FDA0002921042760000048
均表示经过Softmax层归一化后的动作类别概率;
(4-2).计算各段的外观动作得分RRGB的平均值,得到平均外观动作得分
Figure FDA0002921042760000049
计算各段的运动动作得分RFlow的平均值,得到平均运动动作得分
Figure FDA00029210427600000410
Figure FDA00029210427600000411
Figure FDA00029210427600000412
的平均,作为视频的最终动作得分
Figure FDA00029210427600000413
(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵损失,利用随机梯度下降算法调整更新输出层
Figure FDA00029210427600000414
双流融合模块
Figure FDA00029210427600000415
外观卷积注意力模块
Figure FDA00029210427600000416
以及运动卷积注意力模块
Figure FDA00029210427600000417
的参数,完成动作识别模型的构建;
(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′RGB和运动特征表示F′Flow,并将其输入至动作识别模型获得动作得分
Figure FDA00029210427600000418
根据动作得分获得视频内容的动作类别
Figure FDA00029210427600000419
Figure FDA00029210427600000420
为R′中得分最高元素所对应的索引,完成动作识别任务。
CN202110116862.0A 2021-01-28 2021-01-28 一种基于双流卷积注意力的动作识别方法 Active CN112926396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110116862.0A CN112926396B (zh) 2021-01-28 2021-01-28 一种基于双流卷积注意力的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110116862.0A CN112926396B (zh) 2021-01-28 2021-01-28 一种基于双流卷积注意力的动作识别方法

Publications (2)

Publication Number Publication Date
CN112926396A true CN112926396A (zh) 2021-06-08
CN112926396B CN112926396B (zh) 2022-05-13

Family

ID=76167714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110116862.0A Active CN112926396B (zh) 2021-01-28 2021-01-28 一种基于双流卷积注意力的动作识别方法

Country Status (1)

Country Link
CN (1) CN112926396B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420697A (zh) * 2021-07-01 2021-09-21 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及系统
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法
CN113850182A (zh) * 2021-09-23 2021-12-28 浙江理工大学 基于DAMR_3DNet的动作识别方法
CN113920581A (zh) * 2021-09-29 2022-01-11 江西理工大学 一种时空卷积注意力网络用于视频中动作识别的方法
CN114612979A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 一种活体检测方法及装置、电子设备、存储介质
CN114648722A (zh) * 2022-04-07 2022-06-21 杭州电子科技大学 一种基于视频多路径时空特征网络的动作识别方法
CN114758285A (zh) * 2022-06-14 2022-07-15 山东省人工智能研究院 基于锚自由和长时注意力感知的视频交互动作检测方法
CN114863356A (zh) * 2022-03-10 2022-08-05 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN114882403A (zh) * 2022-05-05 2022-08-09 杭州电子科技大学 基于渐进注意力超图的视频时空动作定位方法
CN114998799A (zh) * 2022-06-07 2022-09-02 山东省人工智能研究院 基于全局知识挖掘和前景注意力的交互视频动作检测方法
CN115019239A (zh) * 2022-07-04 2022-09-06 福州大学 一种基于时空交叉注意力的实时动作定位方法
CN116434343A (zh) * 2023-04-25 2023-07-14 天津大学 基于高低频双支路的视频动作识别方法
WO2023216721A1 (zh) * 2022-05-11 2023-11-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN117746512A (zh) * 2024-02-19 2024-03-22 河海大学 一种基于双流点云序列的行为识别方法
CN113989940B (zh) * 2021-11-17 2024-03-29 中国科学技术大学 视频数据中动作识别方法、系统、设备与存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李明阳: "基于双流神经网络的人体行为识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王毅,马翠红,毛志强: "基于时空双流融合网络与Attention 模型的行为识别", 《计算机应用与软件》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420697A (zh) * 2021-07-01 2021-09-21 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及系统
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法
CN113673307B (zh) * 2021-07-05 2024-03-29 浙江工业大学 一种轻量型的视频动作识别方法
CN113850182A (zh) * 2021-09-23 2021-12-28 浙江理工大学 基于DAMR_3DNet的动作识别方法
CN113920581A (zh) * 2021-09-29 2022-01-11 江西理工大学 一种时空卷积注意力网络用于视频中动作识别的方法
CN113920581B (zh) * 2021-09-29 2024-04-02 江西理工大学 一种时空卷积注意力网络用于视频中动作识别的方法
CN113989940B (zh) * 2021-11-17 2024-03-29 中国科学技术大学 视频数据中动作识别方法、系统、设备与存储介质
CN114612979A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 一种活体检测方法及装置、电子设备、存储介质
CN114612979B (zh) * 2022-03-09 2024-05-31 平安科技(深圳)有限公司 一种活体检测方法及装置、电子设备、存储介质
CN114863356B (zh) * 2022-03-10 2023-02-03 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN114863356A (zh) * 2022-03-10 2022-08-05 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及系统
CN114648722B (zh) * 2022-04-07 2023-07-18 杭州电子科技大学 一种基于视频多路径时空特征网络的动作识别方法
CN114648722A (zh) * 2022-04-07 2022-06-21 杭州电子科技大学 一种基于视频多路径时空特征网络的动作识别方法
CN114882403B (zh) * 2022-05-05 2022-12-02 杭州电子科技大学 基于渐进注意力超图的视频时空动作定位方法
CN114882403A (zh) * 2022-05-05 2022-08-09 杭州电子科技大学 基于渐进注意力超图的视频时空动作定位方法
WO2023216721A1 (zh) * 2022-05-11 2023-11-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN114998799A (zh) * 2022-06-07 2022-09-02 山东省人工智能研究院 基于全局知识挖掘和前景注意力的交互视频动作检测方法
CN114758285A (zh) * 2022-06-14 2022-07-15 山东省人工智能研究院 基于锚自由和长时注意力感知的视频交互动作检测方法
CN115019239A (zh) * 2022-07-04 2022-09-06 福州大学 一种基于时空交叉注意力的实时动作定位方法
CN116434343B (zh) * 2023-04-25 2023-09-19 天津大学 基于高低频双支路的视频动作识别方法
CN116434343A (zh) * 2023-04-25 2023-07-14 天津大学 基于高低频双支路的视频动作识别方法
CN117746512A (zh) * 2024-02-19 2024-03-22 河海大学 一种基于双流点云序列的行为识别方法

Also Published As

Publication number Publication date
CN112926396B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
Wang et al. Hybrid feature aligned network for salient object detection in optical remote sensing imagery
CN112766158B (zh) 基于多任务级联式人脸遮挡表情识别方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
WO2021218238A1 (zh) 图像处理方法和图像处理装置
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
Bashmal et al. Language Integration in Remote Sensing: Tasks, datasets, and future directions
CN116958740A (zh) 基于语义感知和自适应对比学习的零样本目标检测方法
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN113688864B (zh) 一种基于分裂注意力的人-物交互关系分类方法
Huang et al. Modeling multiple aesthetic views for series photo selection
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction
CN115546885A (zh) 一种基于增强时空特征的动作识别方法及系统
CN117392392B (zh) 一种割胶线识别与生成方法
CN116486101B (zh) 一种基于窗口注意力的图像特征匹配方法
CN114782977B (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant