CN117115911A - 一种基于注意力机制的超图学习动作识别系统 - Google Patents

一种基于注意力机制的超图学习动作识别系统 Download PDF

Info

Publication number
CN117115911A
CN117115911A CN202311090556.XA CN202311090556A CN117115911A CN 117115911 A CN117115911 A CN 117115911A CN 202311090556 A CN202311090556 A CN 202311090556A CN 117115911 A CN117115911 A CN 117115911A
Authority
CN
China
Prior art keywords
time
hypergraph
space
attention mechanism
action recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311090556.XA
Other languages
English (en)
Inventor
马楠
吴祉璇
梁晔
郭聪
汪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202311090556.XA priority Critical patent/CN117115911A/zh
Publication of CN117115911A publication Critical patent/CN117115911A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的超图学习动作识别系统,实现对人体动作进行识别的功能,其中包括如下步骤:首先通过可学习阈值构建时间注意力模块,将不同视角视频动作帧输入到时间注意力模块中,从而提取动作的关键帧,为后续网络学习降低计算成本;然后将动作的关键帧输入到基于动态时空注意力机制的超图卷积模块中,获取动作的显著性区域,通过多尺度时空残差模块学习时空高阶语义特征;再进行数据划分、训练模型和保存模型等操作。在调用模型检测过程中,通过加载模型,由网络的识别部分输出动作识别结果。本发明解决了视频序列中行为动作的时空特征存在网络计算参数量大的问题,获取人体关节点信息完备性,提高动作识别准确率。

Description

一种基于注意力机制的超图学习动作识别系统
技术领域
本发明涉及深度学习、机器视觉、动作识别的技术领域,具体地说是一种基于注意力机制的超图学习动作识别系统。
背景技术
动作识别是智能时代机器视觉研究领域的热点,使得人和机器之间形成自然的交互认知,并在众多智能化领域得到应用,其中对于如行人、交警等行为精准识别是无人驾驶应用落地要解决的重要实际问题。目前一些方法采用注意力机制帮助神经网络关注视频中重要区域,提取关键特征,从而避免了噪声干扰与信息冗余,有效提升模型性能。一些研究人员采用时空注意力机制,不仅包含空间域的静态信息,还包含时间域的运动信息,有效聚合了时间和空间维度的全局和局部关系。基于这些想法,本系统设计时空超图注意力模块,可通过获取不同帧关节点之间的高阶语义特征,实现高效行为识别任务。
发明内容
针对上述现有技术中的不足,本发明提出一种基于注意力机制的超图学习动作识别系统引入可学习阈值选择视频中的关键帧,从而去除不相关冗余帧的信息;将动作的关键帧输入到基于动态时空注意力机制的超图卷积模块中,获取动作的显著性区域,区分类内相似动作对;最后通过多尺度时空残差模块有效实现了行为动作识别。
本发明采用的技术方案为一种基于注意力机制的超图学习动作识别系统,包括基于可学习阈值的时间注意力模块、基于动态时空注意力机制的超图卷积模块、多尺度时空残差模块和动作识别模块;
所述基于可学习阈值的时间注意力模块包括计算运动信息、设置可学习阈值、计算关键帧运动特征各类操作以及1×1卷积核增强关键帧特征图,计算动态时间特征图形成时间注意,以获得最终关键帧特征集合;
所述基于动态时空注意力机制的超图卷积模块包括时空超图构建、自注意力机制和时空超图卷积,从关键帧特征集合中以不同帧相同部位的人体关节点构建时空超图,然后通过自注意力机制更新关联矩阵,得到关节点之间的相关性,引入时空超图卷积对行为动作的显著区域进行特征提取;
所述多尺度时空残差模块包括一个多尺度超图卷积层和五个基于多尺度特征表示的卷积模块用于提取和学习时空特征,最终实现动作识别;
所述动作识别模块对训练的模型进行验证,输入动作视频数据,通过保存的模型输出动作识别结果。
进一步地,基于可学习阈值的时间注意力模块,采用可学习阈值提取多视视频中的关键帧信息。首先计算当前帧和相邻帧特征图的时间差以提取运动信息,再通过与可学习的阈值进行比较,得到关键帧特征图集合;然后通过1×1卷积核增强关键帧特征图;最后与当前帧的特征连接起来,聚合当前帧的特征,获得最终关键帧特征集合。
进一步地,基于动态时空注意力机制的超图卷积模块,是从关键帧特征集合将不同帧的人体关节点分为躯干、手、腿三部分构建时空超图,并提取人体关节点多视时空超图的高阶特征,输入到自注意力机制模块中进行人体关节点的全局建模,最后通过时空超图卷积获得动作的显著性区域。
进一步地,多尺度时空残差模块首先将动作的显著性区域特征采用多尺度超图卷积层捕捉不同帧之间的时序信息变化,再将特征输入基于多尺度特征表示的卷积模块建模长时间和短时间的语义信息,然后将残差连接放置在相邻的两个模块之间,以获取局部和非局部关节之间的依赖关系,最终实现动作识别。
进一步地,采用NTU RGB+D和自采集的交警手势数据集的训练集进行训练,为了客观反映动作识别结果,使用交叉熵损失函数来衡量训练效果,经过多次迭代后当损失值趋于稳定后,保存为训练模型。进一步地,动作识别模块采用NTU RGB+D和自采集的交警手势数据集的测试集进行验证。
本方法一种基于注意力机制的超图学习动作识别系统,可以在pc端交互设备上进行行人、动作识别。该系统不仅提高了复杂场景下动作识别问题,提高了无人驾驶环境中对车辆周围行人、交警动作的识别速度,并在交叉领域提供准确的动作识别算法。
附图说明
图1是一种基于注意力机制的超图学习动作识别系统总体流程图。
图2是一种基于注意力机制的超图学习动作识别系统总体网络结构图。
具体实施方式
以下参照附图及实施例对本方法进行详细的说明:
本发明系统通过可学习阈值构建时间注意力模块,将不同视角视频动作帧输入到时间注意力模块中,从而提取动作的关键帧,为后续网络学习降低计算成本;然后将动作的关键帧输入到基于动态时空注意力机制的超图卷积模块中,获取动作的显著性区域,通过多尺度时空残差模块学习时空高阶语义特征;再进行数据划分、训练模型和保存模型等操作。在调用模型检测过程中,通过加载模型,由网络的识别部分输出动作识别结果。本发明解决了视频序列中行为动作的时空特征存在网络计算参数量大的问题,获取人体关节点信息完备性,提高动作识别准确率。
附图1可知,按照一种基于注意力机制的超图学习动作识别系统的一优选实施例,包括:
(1)使用基于可学习阈值的时间注意力模块,该模块使用视频序列的运动信息并引入可学习阈值选择视频中的关键帧,从而去除不相关冗余帧的信息;
(2)构建基于动态时空注意力机制的超图卷积模块,该模块捕获动作中不同帧关节点之间的高阶语义关系,输入到动态时空注意力模块中,学习身体部位关节点特征之间关联以获得动作的显著性区域;
(3)采用多尺度时空残差模块结合残差连接结构对视频数据的长短距离进行关联,从而获取局部和非局部关节之间的依赖关系。
(3)NTU RGB+D和自采集的交警手势数据集分为训练集和测试集,训练模型并保存模型;
(4)输入待识别的动作视频数据并加载模型进行动作识别;
(5)输出识别结果。
附图2可知,按照一种基于注意力机制的超图学习动作识别系统的一优选实施例,包括:
(1)基于可学习阈值的时间注意力模块和基于动态时空注意力机制的超图卷积模块输入特征通道数为64,输出特征通道数为64。
(2)多尺度时空残差模块输入特征通道数为64,输出特征通道数为128,最终的分类通过Softmax函数计算得到。
上述方案中优选的是,所述基于可学习阈值的时间注意力模块,通过获得动态时间特征图形成时间注意。分为以下四个步骤:
(1)将多视数据中每帧关节点信息作为输入,其中p=1,2,…,P表示视角,t=1,2,…,T表示时间,I表示人体关节点数,C表示坐标即为(x,y);/>表示集合中的数都属于实数。
(2)计算动作的运动信息mp(t),用公式表示为:
mp(t)=xp(t)-xp(t-1)=x[:,t]-x[:,t-1]
其中,关节点坐标集合Cin表示坐标信息,Tin表示帧。
(3)设置一个可学习阈值核其中特征均值/>其中mp(t)表示动作的运动信息,/>表示特征均值,t=1,2,…,T表示时间。
(4)将运动mp(t)与TF的差值进行比较,以确定第t帧是否为关键帧,如果两者比较结果为正,则将第t帧标记为关键帧;否则不是。最终被选为关键帧的特征集合KF(t)={mp(t)|mp(t)-TF>0}。
上述方案中优选的是,所述基于动态时空注意力机制的超图卷积模块对于每个节点的查询向量/>关键向量/>和值向量/>分别通过线性变换得到节点特征/>通过SoftMax函数对每对节点之间的相关性/>运用/>更新,再将这些矢量加权求和得到最终的结果/>用公式表示为:
其中,
采用多头注意力机制提取H次特征得到最终组合结果
再通过时空超图卷积对关联特征进行提取,用公式表示为:
其中,fout(·)表示输出,K是预定义的最大节点之间距离,Wk和Mk表示卷积运算和调整权重值可学习参数, 表示更新后的拉普拉斯矩阵,其中/>和/>分别表示第p个时空超图中超边度和顶点度的对角矩阵。
上述方案中优选的是,所述多尺度时空残差模块是通过有序堆叠一个多尺度超图卷积层和五个基于多尺度特征表示的卷积模块层用于提取和学习时空特征。主要分为以下两个个步骤:
(1)多尺度超图卷积层添加了一个简单的可学习超图剩余掩码动态地加强、削弱、添加或删除边。
其中,用零附近的随机值初始化,允许每个多尺度上下文选择最合适的掩码。
(2)将上面的变换进行连接操作,基于多尺度特征表示的卷积模块是由五个分支组成,每个分支包含1×1卷积以减少通道维数;第二、三和四分支分别包含三种不同伸缩因子的深度可分离卷积,在减少参数数量的同时提取不同时间特征信息;第五分支用于将特征集中在单个帧内。
上述方案中优选的是,所述一种基于注意力机制的超图学习动作识别系统使用交叉熵损失函数:其中yi为One-Hot向量,表示动作类的groundtruth。经过多次迭代后当损失值趋于稳定后,保存为训练模型。
上述方案中优选的是,所述一种基于注意力机制的超图学习动作识别系统训练过程中批量大小为64,训练时用SGD优化算法(动量为0.9),权重衰减设为0.0005,训练时epoch设置为70,初始学习率设为0.1。在NTU RGB+D和自采集的交警手势数据集上进行训练。

Claims (6)

1.一种基于注意力机制的超图学习动作识别系统,其特征在于,包括基于可学习阈值的时间注意力模块、基于动态时空注意力机制的超图卷积模块、多尺度时空残差模块和动作识别模块;
所述基于可学习阈值的时间注意力模块包括计算运动信息、设置可学习阈值、计算关键帧运动特征各类操作以及1×1卷积核增强关键帧特征图,计算动态时间特征图形成时间注意,以获得最终关键帧特征集合;
所述基于动态时空注意力机制的超图卷积模块包括时空超图构建、自注意力机制和时空超图卷积,从关键帧特征集合中以不同帧相同部位的人体关节点构建时空超图,然后通过自注意力机制更新关联矩阵,得到关节点之间的相关性,引入时空超图卷积对行为动作的显著区域进行特征提取;
所述多尺度时空残差模块包括一个多尺度超图卷积层和五个基于多尺度特征表示的卷积模块用于提取和学习时空特征,最终实现动作识别;
所述动作识别模块对训练的模型进行验证,输入动作视频数据,通过保存的模型输出动作识别结果。
2.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统,其特征在于:基于可学习阈值的时间注意力模块,采用可学习阈值提取多视视频中的关键帧信息;首先计算当前帧和相邻帧特征图的时间差以提取运动信息,再通过与可学习的阈值进行比较,得到关键帧特征图集合;然后通过1×1卷积核增强关键帧特征图;最后与当前帧的特征连接起来,聚合当前帧的特征,获得最终关键帧特征集合。
3.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统,其特征在于:基于动态时空注意力机制的超图卷积模块,是从关键帧特征集合将不同帧的人体关节点分为躯干、手、腿三部分构建时空超图,并提取人体关节点多视时空超图的高阶特征,输入到自注意力机制模块中进行人体关节点的全局建模,最后通过时空超图卷积获得动作的显著性区域。
4.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统,其特征在于:多尺度时空残差模块首先将动作的显著性区域特征采用多尺度超图卷积层捕捉不同帧之间的时序信息变化,再将特征输入基于多尺度特征表示的卷积模块建模长时间和短时间的语义信息,然后将残差连接放置在相邻的两个模块之间,以获取局部和非局部关节之间的依赖关系,最终实现动作识别。
5.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统,其特征在于:采用NTU RGB+D和自采集的交警手势数据集的训练集进行训练,为了客观反映动作识别结果,使用交叉熵损失函数来衡量训练效果,经过多次迭代后当损失值趋于稳定后,保存为训练模型。
6.如权利要求1所述的一种基于注意力机制的超图学习动作识别系统,其特征在于:动作识别模块采用NTU RGB+D和自采集的交警手势数据集的测试集进行验证。
CN202311090556.XA 2023-08-28 2023-08-28 一种基于注意力机制的超图学习动作识别系统 Pending CN117115911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311090556.XA CN117115911A (zh) 2023-08-28 2023-08-28 一种基于注意力机制的超图学习动作识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311090556.XA CN117115911A (zh) 2023-08-28 2023-08-28 一种基于注意力机制的超图学习动作识别系统

Publications (1)

Publication Number Publication Date
CN117115911A true CN117115911A (zh) 2023-11-24

Family

ID=88793378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311090556.XA Pending CN117115911A (zh) 2023-08-28 2023-08-28 一种基于注意力机制的超图学习动作识别系统

Country Status (1)

Country Link
CN (1) CN117115911A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690190A (zh) * 2024-01-31 2024-03-12 吉林大学 基于超图文本对比的水下动作识别方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690190A (zh) * 2024-01-31 2024-03-12 吉林大学 基于超图文本对比的水下动作识别方法、系统及存储介质
CN117690190B (zh) * 2024-01-31 2024-08-13 吉林大学 基于超图文本对比的水下动作识别方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN106709461B (zh) 基于视频的行为识别方法及装置
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN113221663B (zh) 一种实时手语智能识别方法、装置及系统
JP2020126624A (ja) ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
KR102462934B1 (ko) 디지털 트윈 기술을 위한 영상 분석 시스템
CN110135249A (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN114529984B (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN114937083B (zh) 一种应用于动态环境的激光slam系统及方法
CN112446253B (zh) 一种骨架行为识别方法及装置
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN117854155B (zh) 一种人体骨骼动作识别方法及系统
Wu et al. Attention Mechanism Based on Improved Spatial-Temporal Convolutional Neural Networks for Traffic Police Gesture Recognition
CN117809109A (zh) 基于多尺度时间特征的行为识别方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
KR102178469B1 (ko) 교사-학생 프레임워크 기반의 소프트 타겟 학습방법을 이용한 보행자 포즈 방향 추정 방법 및 시스템
Lei et al. Continuous action recognition based on hybrid CNN-LDCRF model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination