CN114373194A - 基于关键帧与注意力机制的人体行为识别方法 - Google Patents

基于关键帧与注意力机制的人体行为识别方法 Download PDF

Info

Publication number
CN114373194A
CN114373194A CN202210042736.XA CN202210042736A CN114373194A CN 114373194 A CN114373194 A CN 114373194A CN 202210042736 A CN202210042736 A CN 202210042736A CN 114373194 A CN114373194 A CN 114373194A
Authority
CN
China
Prior art keywords
segment
space
frame
attention
consensus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210042736.XA
Other languages
English (en)
Inventor
刘永涛
赵君喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210042736.XA priority Critical patent/CN114373194A/zh
Publication of CN114373194A publication Critical patent/CN114373194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

基于关键帧与注意力机制的人体行为识别方法,其步骤为:将动作视频等时划分为多个片段;从每个片段中提取关键帧和堆叠光流;使用加入坐标注意力Coordinate Attention的双流卷积神经网络提取时空特征;通过Softmax函数计算出每个片段对应的时空预测分数,并融合所有片段的时空预测分数,得到整个视频的空间共识和时间共识;最后将这两种共识进行加权融合,得到最终的行为识别结果。基于UCF101和HMDB51数据集进行了实验,验证了方法的有效性。与目前主流的行为识别方法相比,本发明方法在识别准确率上取得了较好的效果。

Description

基于关键帧与注意力机制的人体行为识别方法
技术领域
本发明涉及视频图像处理和计算机视觉等领域,具体涉及一种基于关键帧与注意力机制的人体行为识别新方法。
背景技术
人体行为识别有着广泛的应用前景,如智能视频监控、视频摘要、智能接口、人机交互、体育视频分析、视频检索等。目前行为识别方法主要分为传统方法和基于深度学习的方法。相比于传统方法,深度学习方法可以识别复杂结构,具有良好的特征提取能力和泛化能力。
一种常用的基于深度学习的行为识别方法是双流网络。双流网络是二维卷积神经网络中的典型代表,该方法利用两个CNN分别从视频中的单帧RGB图像和多帧光流图像中提取行为的时空特征。通过融合两个CNN的得分来预测行为类别,此方法获得了较好的行为识别准确率。但双流网络采样策略过于稀疏,对于长时序视频会丢失视频中的重要信息,所以双流网络对长视频行为识别效果差。
发明内容
本发明针对双流神经网络对长视频序列建模效果差,以及背景信息干扰导致特征提取不充分的问题,基于双流神经网络,提出了一种基于关键帧与注意力机制的人体行为识别方法,通过视频分段,后期融合各分段预测分数,形成视频级预测,实现对长视频序列建模;为保证输入空间流卷积神经网络的图片包含更多空间信息,选用关键帧作为输入;将注意力机制加入双流卷积神经网络中,旨在网络能够关注重要信息,提取关键特征。本方法能够提高行为识别准确率,具备较高的有效性和鲁棒性。
基于关键帧与注意力机制的人体行为识别方法,包括以下步骤:
步骤1,对动作视频进行等时划分,分为K个片段;
步骤2,从每个片段中提取关键帧和堆叠光流分别作为空间流卷积神经网络和时间流卷积神经网络的输入;
步骤3,使用加入坐标注意力Coordinate Attention的双流卷积神经网络从每个片段中的关键帧和堆叠光流中提取时空特征;
步骤4,通过Softmax函数计算每个片段对应的时空预测分数,并融合所有片段的时空预测分数,得到整个视频中行为类别的空间共识和时间共识;
步骤5,将空间共识分数和时间共识分数进行加权融合,得到最终的行为识别结果。
进一步地,步骤2中,提取关键帧具体过程为:通过差分法计算得到每个片段中当前帧I(x,y,t)与前一帧I(x,y,t-1)的差分图像u(x,y,t),计算所有帧对应帧间差分图的平均帧间差分强度m(t),最后对每个片段中所有帧按照平均帧间差分强度m(t)进行排序,选择平均帧间差分强度最大的一帧作为本片段输入的关键帧。
进一步地,步骤2中,提取堆叠光流具体过程为:通过OpenCV计算得到每个片段中所有图像的稠密光流图dt(u,v),包括垂直分量
Figure BDA0003470929520000021
和水平分量
Figure BDA0003470929520000022
选取每个片段中以提取的关键帧为中心的L帧图像的光流图,若关键帧所在时间位置为t,则选取[t-L/2,t+L/2]之间帧的光流图;为表示一系列帧之间的运动,将每个片段中选取的连续L帧的光流在通道上堆叠为It∈RW×H×2L作为每个片段的时间流卷积神经网络输入。
进一步地,步骤3中,双流卷积神经网络的两个流使用相同的网络架构,使BN-Inception网络,由9个Inception模块组成,每个Inc eption模块包含两种不同大小的卷积,即1×1,3×3卷积,还包括一个3×3的最大池化层;卷积层和池化层得到的特征拼接在一起作为最终的输出,也是下一个模块的输入;在每个Inception模块后连接一个Coordinate Attention以对提取的特征进行加权,使网络能够关注到重要通道以及重要位置的信息。
进一步地,步骤3中,Coordinate Attention计算权重对特征加权具体过程为:对于输入特征向量X∈RC×H×W,C为通道数,H和W分别为特征图的高和宽,先使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行特征聚合,拼接生成的两个特征图,使用一个共享的1×1卷积进行变换F1,经过非线性激活函数作用后,生成f∈RC/r×(H+W),r是缩减率,接着沿空间维度对f切分为两个单独的张量fh∈RC/r×H和fw∈RC /r×W,利用另外2个1×1卷积变换Fh和Fw分别将fh和fw变换为与输入X具有相同通道数的张量,对输出gh和gw进行扩展,分别作为注意力权重,最后与输入特征相乘。
进一步地,步骤4中,使用Softmax函数对BN-Inception网络最后一个全连接层的输出值进行指数变换和归一化后,得到每个片段对应的时空预测分数,然后通过聚合函数融合所有片段的时空预测分数;采用均匀平均、最大值和加权平均三种不同形式的聚合函数,通过对比结果,选择最佳聚合函数对所有片段的时空预测分数进行融合。
进一步地,步骤5中,空间流卷积神经网络与时间流卷积神经网络因其输入不同,所以最终识别性能不同,融合空间共识分数和时间共识分数时应考虑不同的权重,融合后即得到最终的行为识别结果。
本发明达到的有益效果为:本方法对双流卷积神经网络进行改进,将视频进行分段,分别使用双流网络提取时空特征,并在后期对各个分段进行融合,形成视频级预测,解决了双流卷积神经网络对长视频序列建模效果差的问题,并使用空间信息更加丰富的关键帧作为空间流卷积网络的输入,同时在网络中加入了注意力机制,使网络能够提取到关键特征,从而提高识别准确率。通过实验结果表明,本方法不仅能够准确地识别测试数据集上随尺度、位置、轮廓等人员变化的人类行为,而且对噪声和其它影响因素鲁棒性强,具有很好的实用性。
附图说明
图1是本发明实施例中的行为识别流程示意图。
图2是本发明实施例中的提取关键帧流程示意图。
图3是本发明实施例中的提取堆叠光流流程示意图。
图4是本发明实施例中的Inception模块结构图。
图5是本发明实施例中的CoordinateAttention对输入特征进行加权流程示意图。
图6是本发明实施例中的不同方法分类准确率比较图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明实施例提供的基于关键帧与注意力机制的人体行为识别方法,具体步骤如下:
步骤1,将动作视频等时划分为K个片段。
步骤2,从每个片段中提取关键帧和堆叠光流。
步骤3,使用加入Coordinate Attention(坐标注意力)的双流卷积神经网络从每个片段的关键帧和堆叠光流中提取时空特征。
步骤4,通过Softmax函数计算每个片段对应的时空预测分数,融合所有片段的时空预测分数,得到整个视频中行为类别的空间共识和时间共识。
步骤5,将空间共识分数和时间共识分数进行加权融合,得到最终的行为识别结果。
针对步骤1:对动作视频进行等时划分,分为K(实验中K=3)个片段。
针对步骤2:从每个片段中提取关键帧和堆叠光流。
提取关键帧,如图2所示,具体过程如下:
(1)通过差分法计算得到每个片段中当前帧I(x,y,t)与前一帧I(x,y,t-1)的差分图像u(x,y,t),帧差公式为
u(x,y,t)=|I(x,y,t)-I(x,y,t-1)|
(2)计算所有帧对应帧间差分图的平均帧间差分强度m(t),计算公式为
Figure BDA0003470929520000061
此式中的W和H代表单帧图像的宽和高。
(3)对每个片段中所有帧按照平均帧间差分强度m(t)进行排序,选择平均帧间差分强度最高的一帧作为本片段输入的关键帧。
提取堆叠光流,如图3所示,具体过程如下:
(1)通过OpenCV计算得到每个片段中所有图像的稠密光流图dt(u,v),包含垂直分量
Figure BDA0003470929520000062
和水平分量
Figure BDA0003470929520000063
(2)选取每个片段中以提取的关键帧为中心的连续L(实验中L=10)帧图像的光流图,若关键帧所在时间位置为t,则选取在[t-L/2,t+L/2]之间帧的光流图。
(3)为表示一系列帧之间的运动,将每个片段中选取的连续L帧的光流在通道上堆叠为It∈RW×H×2L作为每个片段的时间流卷积神经网络输入。堆叠公式为:
Figure BDA0003470929520000064
Figure BDA0003470929520000065
针对步骤3:使用加入Coordinate Attention(坐标注意力)的双流卷积神经网络从每个片段中的关键帧和堆叠光流中提取时空特征。
双流卷积神经网络的两个流使用相同的网络架构,本发明使用的神经网络是BN-Inception网络,BN-Inception骨干网络由9个Incepti on模块连接而成,Inception模块网络架构如图4所示,每个Inceptio n模块包含两种不同大小的卷积,即1×1,3×3卷积,还包括一个3×3的最大池化层,通过两种卷积和池化层来提取四种不同尺度的特征,把多尺度特征拼接在一起作为最终的输出,也是下一个模块的输入。Inception模块还引入BN层来加快网络训练和收敛的速度,并且控制梯度爆炸防止梯度消失,然后通过Relu层进行非线性映射,进一步防止过拟合。Coordinate Attention是一种注意力机制,在每个Incept ion模块后连接一个Coordinate Attention可以对提取的特征进行加权,使网络能够关注到重要通道以及重要位置的特征。
Coordinate Attention计算权重对特征加权,如图5所示,具体过程如下:
(1)若经Inception模块提取的特征为X∈RC×H×W,(C为通道数,H,W分别为特征图的高和宽),使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行特征聚合,计算公式为:
Figure BDA0003470929520000071
Figure BDA0003470929520000072
其中,h、w分别代表特征图的高和宽的取值范围,0≤h<H,0≤w<W。xc代表每个通道中特征图当前位置的特征值。
以上两个变换分别沿两个空间方向聚合特征,生成一对方向感知特征图。两种转换可以让注意力区块捕捉到一个空间方向上的长程依赖关系,并保存另一个空间方向上的精确位置信息,这有助于网络更准确地定位感兴趣的对象。
(2)拼接生成的两个特征图,使用一个共享的1×1卷积进行变换F1,在非线性激活函数作用后,生成fc∈RC/r×(H+W),计算公式为:
Figure BDA0003470929520000081
其中,[.,.]是指沿空间维度进行拼接操作,δ是非线性激活函数,f的维度为C/r,r是缩减率,作用是减少通道数,从而减少计算量。
(3)沿空间维度把fc切分为两个单独的张量
Figure BDA0003470929520000082
Figure BDA0003470929520000083
利用另外2个1×1卷积变换Fh和Fw分别将
Figure BDA0003470929520000084
Figure BDA0003470929520000085
变换为与输入X具有相同通道数的张量,计算公式为:
Figure BDA0003470929520000086
Figure BDA0003470929520000087
其中,σ是simoid函数。
(4)对
Figure BDA0003470929520000088
Figure BDA0003470929520000089
进行扩展,分别作为注意力权重,最后与输入特征相乘,计算公式为:
Figure BDA00034709295200000810
其中,yc是输入特征通过注意力机制后得到的加权特征。
针对步骤4:通过Softmax函数计算每个片段对应的时空预测分数,并融合所有片段的时空预测分数,得到整个视频中行为类别的空间共识和时间共识。
使用Softmax函数对BN-Inception网络最后一个全连接层的输出值进行指数变换和归一化后,得到每个片段对应的时空预测分数。然后通过聚合函数融合所有片段的时空预测分数,本发明采用均匀平均、最大值和加权平均三种不同形式的聚合函数,通过对比结果,选择最佳聚合函数对所有片段的时空预测分数进行融合。
针对步骤5:将空间共识分数和时间共识分数进行加权融合,得到最终的行为识别结果。具体过程如下:
(1)空间流卷积神经网络与时间流卷积神经网络因其输入不同,所以最终识别性能不同。融合空间共识分数和时间共识分数时,应考虑不同的权重。融合公式为:
S=αS+βS
其中,S为时空融合分数,S,S分别为空间共识分数和时间共识分数,α,β分别为空间共识分数和时间共识分数的权重。实验中,α=1,β=1.5。
(2)得到最终的行为识别结果后,进行实验分析。
实验使用两个不同类型的人体行为数据集UCF101和HMDB51。其中,UCF101数据库包含13320个视频剪辑和101个行为类别。这些行为分为人物互动、身体动作、人人互动、演奏乐器和运动5种。HMDB51数据库由6766个视频剪辑和51个行为类别组成。对于这两个数据集,采用相同的测试规则:采用数据集本身提供的3种划分,最终识别正确率取3种划分实验结果的平均值。此外,为了防止出现过拟合,对训练数据进行了剪切、旋转和尺度变换等数据扩增处理。
本实验使用带动量的随机梯度下降法SGD训练网络。mini-batch的大小为8,动量为0.9。训练学习率初始化为0.00001,每10个训练迭代衰减为当前学习率的0.1。训练一共进行200次迭代。所有神经网络模型的训练和测试均基于PyTorch框架实现。
实验分析分为以下3个方面:
1.分析对比使用不同聚合函数对识别准确率的影响。
在将不同片段的预测概率进行融合时,本发明采用了均匀平均、最大值和加权平均三种不同形式的聚合函数,通过对比实验结果,选择最佳聚合函数对所有片段的时空预测分数进行融合。实验结果如表1所示。
表1.使用不同聚合函数的行为分类准确率
Figure BDA0003470929520000101
由表1可以看出,使用均匀平均函数在UCF101和HMDB51两个数据集上的分类准确率分别为93.6%和69.8%,相比于其他两种聚合函数,准确率有一定的提升,所以本实施例最后选择均匀平均函数对所有片段的时空预测分数进行融合。
2.分析对比是否使用关键帧和有无注意力机制对识别准确率的影响。
本发明使用关键帧作为空间流卷积网络的输入,为体现出关键帧的效果,通过随机采样的帧作为输入与其进行对比;本发明使用加入注意力机制的网络来提取时空特征,为体现出注意力机制的效果,使用未加入注意力机制的网络来提取时空特征与其进行对比。实验结果如表2所示。
表2.是否关键帧和有无注意力机制的行为分类准确率
Figure BDA0003470929520000111
由表2可以看出,关键帧含有更加丰富的空间信息,使用关键帧作为空间流卷积网络的输入,与随机采样的帧相比,分类准确率有了一定的提升;注意力机制能够使网络更有效地集中在关键信息处,能够更好地提取行为的关键信息,加入注意力机制后,在两个数据集上的分类准确率也有明显的提升。
3.分析对比本发明与其他最新的行为识别方法。
为了验证本发明方法的有效性,在UCF101和HMDB51数据集上,与近年来主流的IDT、TSN、Two-Stream、C3D等人体行为识别方法进行了比较,实验结果如表3和图6所示。
表3.本发明与现有人体行为识别算法分类准确率比较
Figure BDA0003470929520000112
Figure BDA0003470929520000121
由表3和图6可以看出,本发明基于双流卷积网络算法进行改进,针对长时间视频时空建模,在UCF101和HMDB51数据集上分别取得了93.6%和69.8%的识别准确率,对比双流方法分别提高了5.6%和10.4%,与其他现有人体行为识别算法相比,本发明方法也获得了更高的识别准确率。
本发明提出的一种基于关键帧与注意力机制的人体行为识别新方法,即将视频进行分段,并在后期融合各个分段,形成视频级预测,使用包含更多空间信息的关键帧作为空间流卷积神经网络的输入,同时,在双流卷积神经网络中加入注意力机制,使网络更有效地集中在关键信息处,提取关键特征,使得本发明方法在复杂场景下对摄像机的视角变化、距离变化具有较强的鲁棒性,有利于提高真实环境下行为识别的准确率。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

1.基于关键帧与注意力机制的人体行为识别方法,其特征在于:包括以下步骤:
步骤1,对动作视频进行等时划分,分为K个片段;
步骤2,从每个片段中提取关键帧和堆叠光流分别作为空间流卷积神经网络和时间流卷积神经网络的输入;
步骤3,使用加入坐标注意力Coordinate Attention的双流卷积神经网络从每个片段中的关键帧和堆叠光流中提取时空特征;
步骤4,通过Softmax函数计算每个片段对应的时空预测分数,并融合所有片段的时空预测分数,得到整个视频中行为类别的空间共识和时间共识;
步骤5,将空间共识分数和时间共识分数进行加权融合,得到最终的行为识别结果。
2.根据权利要求1所述的基于关键帧与注意力机制的人体行为识别方法,其特征在于:步骤2中,提取关键帧具体过程为:通过差分法计算得到每个片段中当前帧I(x,y,t)与前一帧I(x,y,t-1)的差分图像u(x,y,t),计算所有帧对应帧间差分图的平均帧间差分强度m(t),最后对每个片段中所有帧按照平均帧间差分强度m(t)进行排序,选择平均帧间差分强度最大的一帧作为本片段输入的关键帧。
3.根据权利要求1所述的基于关键帧与注意力机制的人体行为识别方法,其特征在于:步骤2中,提取堆叠光流具体过程为:通过OpenCV计算得到每个片段中所有图像的稠密光流图dt(u,v),包括垂直分量
Figure FDA0003470929510000011
和水平分量
Figure FDA0003470929510000012
选取每个片段中以提取的关键帧为中心的L帧图像的光流图,若关键帧所在时间位置为t,则选取[t-L/2,t+L/2]之间帧的光流图;为表示一系列帧之间的运动,将每个片段中选取的连续L帧的光流在通道上堆叠为It∈RW×H×2L作为每个片段的时间流卷积神经网络输入。
4.根据权利要求1所述的基于关键帧与注意力机制的人体行为识别方法,其特征在于:步骤3中,双流卷积神经网络的两个流使用相同的网络架构,使BN-Inception网络,由9个Inception模块组成,每个Inception模块包含两种不同大小的卷积,即1×1,3×3卷积,还包括一个3×3的最大池化层;卷积层和池化层得到的特征拼接在一起作为最终的输出,也是下一个模块的输入;在每个Inception模块后连接一个Coordinate Attention以对提取的特征进行加权,使网络能够关注到重要通道以及重要位置的信息。
5.根据权利要求1所述的基于关键帧与注意力机制的人体行为识别方法,其特征在于:步骤3中,Coordinate Attention计算权重对特征加权具体过程为:对于输入特征向量X∈RC×H×W,C为通道数,H和W分别为特征图的高和宽,先使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行特征聚合,拼接生成的两个特征图,使用一个共享的1×1卷积进行变换F1,经过非线性激活函数作用后,生成f∈RC/r×(H+W),r是缩减率,接着沿空间维度对f切分为两个单独的张量fh∈RC/r×H和fw∈RC/r×W,利用另外2个1×1卷积变换Fh和Fw分别将fh和fw变换为与输入X具有相同通道数的张量,对输出gh和gw进行扩展,分别作为注意力权重,最后与输入特征相乘。
6.根据权利要求1所述的基于关键帧与注意力机制的人体行为识别方法,其特征在于:步骤4中,使用Softmax函数对BN-Incepti on网络最后一个全连接层的输出值进行指数变换和归一化后,得到每个片段对应的时空预测分数,然后通过聚合函数融合所有片段的时空预测分数;采用均匀平均、最大值和加权平均三种不同形式的聚合函数,通过对比结果,选择最佳聚合函数对所有片段的时空预测分数进行融合。
7.根据权利要求1所述的基于关键帧与注意力机制的人体行为识别方法,其特征在于:步骤5中,空间流卷积神经网络与时间流卷积神经网络因其输入不同,所以最终识别性能不同,融合空间共识分数和时间共识分数时应考虑不同的权重,融合后即得到最终的行为识别结果。
CN202210042736.XA 2022-01-14 2022-01-14 基于关键帧与注意力机制的人体行为识别方法 Pending CN114373194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210042736.XA CN114373194A (zh) 2022-01-14 2022-01-14 基于关键帧与注意力机制的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210042736.XA CN114373194A (zh) 2022-01-14 2022-01-14 基于关键帧与注意力机制的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN114373194A true CN114373194A (zh) 2022-04-19

Family

ID=81144653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210042736.XA Pending CN114373194A (zh) 2022-01-14 2022-01-14 基于关键帧与注意力机制的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN114373194A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019239A (zh) * 2022-07-04 2022-09-06 福州大学 一种基于时空交叉注意力的实时动作定位方法
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN117523669A (zh) * 2023-11-17 2024-02-06 中国科学院自动化研究所 手势识别方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法
WO2020173226A1 (zh) * 2019-02-28 2020-09-03 华中科技大学 一种时空行为检测方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
WO2020173226A1 (zh) * 2019-02-28 2020-09-03 华中科技大学 一种时空行为检测方法
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019239A (zh) * 2022-07-04 2022-09-06 福州大学 一种基于时空交叉注意力的实时动作定位方法
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN117523669A (zh) * 2023-11-17 2024-02-06 中国科学院自动化研究所 手势识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
CN110555387B (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN109919032B (zh) 一种基于动作预测的视频异常行为检测方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110853074B (zh) 一种利用光流增强目标的视频目标检测网络系统
CN112784810B (zh) 手势识别方法、装置、计算机设备和存储介质
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN111260738A (zh) 基于相关滤波和自适应特征融合的多尺度目标跟踪方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN112884742A (zh) 一种基于多算法融合的多目标实时检测、识别及跟踪方法
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN111339908A (zh) 基于多模态信息融合与决策优化的组群行为识别方法
Yi et al. Human action recognition based on action relevance weighted encoding
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
Martin et al. 3D attention mechanism for fine-grained classification of table tennis strokes using a Twin Spatio-Temporal Convolutional Neural Networks
Liu et al. Video face detection based on improved SSD model and target tracking algorithm
CN113033283B (zh) 一种改进的视频分类系统
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination