CN115170613A - 一种基于时序分级与重组机制的人体运动预测方法 - Google Patents
一种基于时序分级与重组机制的人体运动预测方法 Download PDFInfo
- Publication number
- CN115170613A CN115170613A CN202210833048.5A CN202210833048A CN115170613A CN 115170613 A CN115170613 A CN 115170613A CN 202210833048 A CN202210833048 A CN 202210833048A CN 115170613 A CN115170613 A CN 115170613A
- Authority
- CN
- China
- Prior art keywords
- time sequence
- attention
- convolution unit
- time
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于时序分级与重组机制的人体运动预测方法,首先采用时序分级模块完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征,然后将低阶、中阶、高阶的时序特征输入时序重组模块,在所述时序重组模块完成时序特征的重组,得到重组时序特征,最后将重组时序特征,依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作,得到后处理特征,对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。本发明能显著减少由于人体姿态的时空不连续性造成的误差累积,有效避免对卷积核尺寸大小的依赖。
Description
技术领域
本申请属于人体运动预测技术领域,尤其涉及一种基于时序分级与重组机制的人体运动预测方法。
背景技术
对人体运动的感知、识别和预测对于机器人接触外界、辅助人类非常重要。特别是对于人的运动预测,在人与机器人交互过程中反馈人的行为是智能机器人的基本技术。此外,该技术的发展与应用在自主驾驶、公共安全、医疗康复、运动检测、多媒体应用等领域也发挥着不可或缺的作用,这必然是未来智能机器人研究的一大趋势。然而,对于非智能体来说,实现自然、高精度的人体运动预测并不是一件简单的事情。人体行为的复杂性和人体的灵活性导致预测姿态的不连续性和误差累积,将极大地影响其实际应用进展。
针对这些挑战,国内外已经有了许多优秀的不同解决方案。基于序列数据建模的RNN及其变种LSTM和GRU对于时序信息处理具有天然的优势。然而,人类运动的高度随机性、非线性和不确定性使得简单序列网络容易引发误差积累问题。此外,考虑到人体结构固有的连接关系,一般基于人体的主要关节构建人体骨架的数学模型。卷积神经网络(CNN)对二维规则数据具有良好的空间结构感知能力,但通常在人体骨骼等拓扑不规则数据上无法取得良好的效果。图卷积网络(GCN)能够很好地构造和表征不规则结构数据,通过节点和图卷积建模人体结构的方法得到了逐步的推广。但人体的灵活性决定了用全局骨架建模来表示局部节点的运动是很难的。LTD方法利用离散馀弦变换(DCT)对时域信息进行编码,将时域信息转换到频域进行计算。在利用多层GCN网络进行高精度预测的工作中,构建了一个时空架构。但是,增加输入序列的数量并没有增强LTD的性能,这与常识相反。在LTD的基础上,TIM方法以更直观、更易理解的方式提取和融合多尺度时间信息,并将其代替DCT作为GCN的输入。然而,该方法严重依赖于时间维度卷积核大小的选择,其通过使用5组卷积核来提取时域特征并进行组合,完成多尺度时序特征的融合。
发明内容
本申请提出了一种基于时序分级与重组机制的人体运动预测方法,来减少人体运动预测过程中姿态的不连续与误差的累计问题。
为了实现上述目的,本申请技术方案如下:
一种基于时序分级与重组机制的人体运动预测方法,包括:
对原始时序人体骨架数据进行预处理,得到初始特征;
将初始特征输入时序分级模块,初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元,完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征;
将低阶、中阶、高阶的时序特征输入时序重组模块,分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组,得到重组时序特征;
将重组时序特征,依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作,得到后处理特征;
对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
进一步的,所述对原始时序人体骨架数据进行预处理,得到初始特征,包括:
输入原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及ReLU函数,及一个增强图注意力与时序卷积单元完成数据初始化,形成初始特征。
进一步的,所述增强图注意力与时序卷积单元包括通道注意力模块、图注意力模块和时序卷积模块,其中:
所述通道注意力模块,同时对原始输入特征使用平均池化与最大池化操作来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成通道注意力特征;
所述图注意力模块,包括局部图注意力分支与全局图注意力分支,所述局部图注意力分支包括第一分支和第二分支,第一分支和第二分支分别包括一阶邻接矩阵、二维归一化和ReLU激活函数,第一分支和第二分支的输出经过元素相乘后,再输入到二维卷积、二维归一化、ReLU激活函数和Dropout函数,得到局部图注意力分支的输出;所述全局图注意力分支包括全局图注意力模块、二维卷积、二维归一化、ReLU激活函数和Dropout函数;将通道注意力特征分别输入局部图注意力分支与全局图注意力分支,将局部图注意力分支的输出、全局图注意力分支的输出与原始输入特征聚合生成图注意力特征;
所述时序卷积模块,包括一个时序卷积单元,所述时序卷积单元包括二维卷积、二维归一化、ReLU激活函数和Dropout函数,所述图注意力特征输入到时序卷积单元完成对于时序信息的提取,然后与原始输入特征各元素相加,形成增强图注意力与时序卷积单元的输出。
进一步的,所述将初始特征输入时序分级模块,初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元,完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征,其中:
第一个增强图注意力与时序卷积单元将输入的特征通道由32变换至64,且设置时序卷积的步长参数为2,通过该操作,将时间维度尺寸由64变换为32,并将其输出作为第二个增强图注意力与时序卷积单元的输入;
第二个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化,形成第一个时序分级模块的输出,输出低阶时序特征,同时该输出也是第三个增强图注意力与时序卷积单元的输入;
第三个增强图注意力与时序卷积单元将输入特征的通道由64变换至128,且设置时序卷积的步长参数为2,将时间维度尺寸由32变换至16,并将其输出作为第四个增强图注意力与时序卷积单元的输入;
第四个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化,形成第二个时序分级模块的输出,输出中阶时序特征,同时该输出也是第五个增强图注意力与时序卷积单元的输入;
第五个增强图注意力与时序卷积单元将输入特征的通道由128变换为256,且设置时序卷积的步长为2,将时间维度尺寸由16变换至8,并将其输出作为第六个增强图注意力与时序卷积单元的输入;
第六个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化,形成第三个时序分级模块的输出,输出高阶时序特征;
所述第一个至第六个增强图注意力与时序卷积单元为时序分级模块中的增强图注意力与时序卷积单元。
进一步的,所述将低阶、中阶、高阶的时序特征输入时序重组模块,分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组,得到重组时序特征,包括:
将高阶时序特征,作为时序重组模块内第一个增强图注意力与时序卷积单元的输入,将输入的特征通道由256变换至128,不改变时间维度的尺寸,形成第一个增强图注意力与时序卷积单元的输出;
将第一个增强图注意力与时序卷积单元的输出,经过第二个增强图注意力与时序卷积单元,将输入的特征通道由128变换至32,不改变时间维度的尺寸,形成第二个增强图注意力与时序卷积单元的输出;
将第一个增强图注意力与时序卷积单元的输出与中阶时序特征,进行并和操作,在时间维度将两者串联,并经过一个二维归一化与ReLU激活函数,其结果输入第三个增强图注意力与时序卷积单元,将输入特征通道由128变换至64,此时时间维度的尺寸为24,形成第三个增强图注意力与时序卷积单元的输出;
将第三个增强图注意力与时序卷积单元的输出,经过第四个增强图注意力与时序卷积单元,将输入特征的通道由64变换至32,不改变时间维度的尺寸,形成第四个增强图注意力与时序卷积单元的输出;
将第三个增强图注意力与时序卷积单元的输出与低阶时序特征,进行并和操作,在时间维度将两者串联,并经过一个二维归一化与ReLU激活函数,其结果输入第五个增强图注意力与时序卷积单元,将输入特征通道由64变换至32,此时时间维度的尺寸为56,形成第五个增强图注意力与时序卷积单元的输出;
将第五个增强图注意力与时序卷积单元的输出,经过第六个增强图注意力与时序卷积单元,不改变通道与时间维度的尺寸,形成第六个增强图注意力与时序卷积单元的输出;
将第二个、第四个、第六个增强图注意力与时序卷积单元的输出及初始特征进行并和操作,在时间维度将四者串联,并经过一个二维归一化和ReLU激活函数,合并后时间维度尺寸为152,形成时序重组模块最终输出的重组时序特征;
所述第一个至第六个增强图注意力与时序卷积单元为时序重组模块中的增强图注意力与时序卷积单元。
本申请提出了一种基于时序分级与重组机制的人体运动预测方法,构建了一种增强图注意力与时序卷积单元(AGATB),融合时空信息,并利用分级和重组机制对时序特征进行分级和重组,大大降低了对网络卷积核大小的依赖,可以有效聚合空间与时间特征,并设计了一种时序分级与重组机制,在AGATB的基础上,大大降低了对网络卷积核大小的依赖,使最终的输出特征包含了丰富的多尺度时序信息。本申请可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。
附图说明
图1为本申请基于时序分级与重组机制的人体运动预测方法流程图;
图2为本申请实施例整体网络结构示意图;
图3为本申请增强图注意力与时序卷积单元网络示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于时序分级与重组机制的人体运动预测方法,包括:
步骤S1、对原始时序人体骨架数据进行预处理,得到初始特征。
本实施例对原始时序人体骨架数据进行预处理,包括:输入原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及ReLU函数,及一个增强图注意力与时序卷积单元(AGATB)完成数据初始化,形成初始特征。
具体的,对输入网络的人体骨架序列数据进行预处理,如图2中的输入数据(b,66,10),b表示模型训练的batch size为b,66表示每帧骨架数据大小为66,10表示整个序列在时间维度由10帧组成。通过线性变换扩展为预设维度的数据,即通过全连接网络将时间维度10映射扩展为64,且拆分每帧骨架数据66为3和22两个维度,3表示xyz三通道,22表示一共22个骨架节点,最终得到数据格式为(b,3,64,22),以满足后续对通道与节点分开计算的要求。再依次将数据经过二维归一化(BN-2D)、二维卷积把通道由3扩展为32、二维归一化(BN-2D)、ReLU激活函数以及一个增强图注意力与时序卷积单元(AGATB),完成数据预处理,形成初始特征。
需要说明的是,本实施例对输入的原始时序人体骨架数据进行预处理,最后采用了一个增强图注意力与时序卷积单元(AGATB),形成初始时空特征,为后续时序分级模块和时序重组模块进一步处理数据时空特征提供必要特征基础。
其中,增强图注意力与时序卷积单元(AGATB),如图3所示,包括通道注意力模块、图注意力模块和时序卷积模块,其中:
所述通道注意力模块,同时对原始输入特征使用平均池化与最大池化操作来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成通道注意力特征;
所述图注意力模块,包括局部图注意力分支与全局图注意力分支,所述局部图注意力分支包括第一分支和第二分支,第一分支和第二分支分别包括一阶邻接矩阵、二维归一化和ReLU激活函数,第一分支和第二分支的输出经过元素相乘后,再输入到二维卷积、二维归一化、ReLU激活函数和Dropout函数,得到局部图注意力分支的输出;所述全局图注意力分支包括全局图注意力模块、二维卷积、二维归一化、ReLU激活函数和Dropout函数;将通道注意力特征分别输入局部图注意力分支与全局图注意力分支,将局部图注意力分支的输出、全局图注意力分支的输出与原始输入特征聚合生成图注意力特征;
所述时序卷积模块,包括一个时序卷积单元,所述时序卷积单元包括二维卷积、二维归一化、ReLU激活函数和Dropout函数,所述图注意力特征输入到时序卷积单元完成对于时序信息的提取,然后与原始输入特征各元素相加,形成增强图注意力与时序卷积单元的输出。
具体的,将AGATB的输入特征输入到通道注意力模块,通道注意力模块同时使用平均池化(Average Pool)与最大池化操作(Max Pool)来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成通道注意力特征。
平均池化(Average Pool)与最大池化操作(Max Pool)的输出,分别经过MLP层处理后,通过元素相加完成数据融合(⊕表示矩阵元素一一相加)。再经过一个Sigmoid激活函数,形成通道注意力图。
所述MLP层依次由一维卷积、ReLU激活函数、一维卷积串接构成。
上述处理采用如下公式表示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,σ表示Sigmod激活函数。MLP(AvgPool(F)表示对输入特征F进行平均池化操作后再进行MLP操作,MLP(MaxPool(F))表示对输入特征F进行最大池化操作后再进行MLP操作,Mc(F)表示通道注意力特征。
然后,将通道注意力特征分别输入局部图注意力模块与全局图注意力模块。如图3所示,局部图注意力模块包括第一分支和第二分支,第一分支和第二分支分别包括:一阶邻接矩阵GCN Connection、二维归一化BatchNorm2D和ReLU激活函数,第一分支和第二分支的输出经过元素相乘后,再输入到二维卷积、二维归一化、ReLU激活函数和Dropout函数。
局部图注意力模块可以表示为:
其中,σ表示Sigmod激活函数,X表示输入数据,W是一个用于将输入通道转换为输出通道的可学习的转换矩阵,M是一个可学习的掩码矩阵,为图卷积核,其中A为人体骨架节点的一阶邻接矩阵(GCN Connection),而I是节点的自连接矩阵(GCNSymmetry),表示矩阵元素一一相乘,Y1为局部图注意力模块的输出。
如图3所示,全局图注意力分支包括全局图注意力模块(Global GraphAttention)、二维卷积、二维归一化、ReLU激活函数和Dropout函数。
全局图注意力模块可以表示为:
K为多头注意力机制的头数,Bk是一个自适应全局邻接矩阵,Ck是一个可学习的全局邻接矩阵,Wk是一个可学习的输入输出通道的转换矩阵,Y2为全局图注意力模块的输出。k属于1~K。
最后将局部图注意力模块与全局图注意力模块的输出,与AGATB的输入特征各元素相加,形成增强的图注意力特征。
接下来,将增强的图注意力特征输入到一个时序卷积单元(TCN),该单元由一个固定卷积尺寸(5,1)的二维卷积、二维归一化、ReLU激活函数、Dropout函数组成,完成对于时序信息的提取,并与AGATB的输入特征各元素相加,形成最终的包含时空特征的增强图注意力与时序卷积单元(AGATB)的输出。后续每个AGATB单元均按此操作执行。
步骤S2、将初始特征输入时序分级模块,初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元,完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征。
本实施例将初始特征输入时序分级模块,该模块由六个增强图注意力与时序卷积单元(AGATB)串联组成,在提取空间特征的同时,依次由低阶到高阶提取时序特征,并将各阶段的特征传递给时序重组模块。其中,低阶、中阶、高阶的时序特征分别是第2个、第4个、第6个增强图注意力与时序卷积单元输出的时序特征。
如图2所示,针对输入的初始特征,时序分级模块执行如下操作:
第一个AGATB将输入的特征通道由32变换至64,且设置时序卷积的步长参数为2,通过该操作,将时间维度尺寸由64变换为32,并将其输出作为第二个AGATB的输入;第二个AGATB不对输入特征的尺寸做任何变化,形成第一个时序分级模块的输出,输出低阶时序特征,同时该输出也是第三个AGATB的输入;第三个AGATB将输入特征的通道由64变换至128,且设置时序卷积的步长参数为2,将时间维度尺寸由32变换至16,并将其输出作为第四个AGATB的输入;第四个AGATB不对输入特征的尺寸做任何变化,形成第二个时序分级模块的输出,输出中阶时序特征,同时该输出也是第五个AGATB的输入;第五个AGATB将输入特征的通道由128变换为256,且设置时序卷积的步长为2,将时间维度尺寸由16变换至8,并将其输出作为第六个AGATB的输入;第六个AGATB不对输入特征的尺寸做任何变化,形成第三个时序分级模块的输出,输出高阶时序特征。由此形成三个不同阶层的输出,作为时序重组模块的输入。
步骤S3、将低阶、中阶、高阶的时序特征输入时序重组模块,分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组,得到重组时序特征。
如图2所示,针对时序分级模块输出的三组特征,时序重组模块执行如下操作:
将时序分级阶段的第三个输出,也就是高阶时序特征,作为时序重组模块内第一个AGATB的输入,将输入的特征通道由256变换至128,不改变时间维度的尺寸,形成第一个AGATB的输出;
将第一个AGATB的输出,经过第二个AGATB,将输入的特征通道由128变换至32,不改变时间维度的尺寸,形成第二个AGATB的输出;
将第一个AGATB的输出与时序分级阶段的第二个输出(中阶时序特征),进行并和操作,在时间维度将两者串联,并经过一个二维归一化与ReLU激活函数,其结果输入第三个AGATB,将输入特征通道由128变换至64,此时时间维度的尺寸为24,形成第三个AGATB的输出;
将第三个AGATB的输出,经过第四个AGATB,将输入特征的通道由64变换至32,不改变时间维度的尺寸,形成第四个AGATB的输出;
将第三个AGATB的输出与时序分级阶段的第一个输出(低阶时序特征),进行并和操作,在时间维度将两者串联,并经过一个二维归一化与ReLU激活函数,其结果输入第五个AGATB,将输入特征通道由64变换至32,此时时间维度的尺寸为56,形成第五个AGATB的输出;
将第五个AGATB的输出,经过第六个AGATB,不改变通道与时间维度的尺寸,形成第六个AGATB的输出;
将第二个、第四个、第六个AGATB的输出及初始特征进行并和操作,在时间维度将四者串联,并经过一个二维归一化和ReLU激活函数,合并后时间维度尺寸为152,形成时序重组模块最终输出的重组时序特征。
本实施例将时序分级模块的各阶特征输入到时序重组模块,该模块也由6个增强图注意力与时序卷积单元(AGATB)组成,分成三组分别处理高阶时序特征、高阶与中阶并和的时序特征,高中低三阶并和的时序特征,最后将三者与初始特征并和,时序重组模块输出重组时序特征。
步骤S4、将重组时序特征,依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作,得到后处理特征。
具体的,针对时序重组模块的输出特征,使用一个如图2中所示的AGATB模块,维持通道尺寸32与时间维度尺寸152不变,对时序重组模块的输出特征进一步提取时空特征,完成并和操作的特征融合,此时输出特征的维度为(b,32,152,22),b为模型训练的batchsize,32为通道维度尺寸,152为时间维度尺寸,22为骨架节点数。通过一个二维卷积,将通道32恢复为3,再进行一次维度变换,合并通道与骨架节点,变换数据维度为(b,66,152)。最终使用一个线性变换,将时间维度152转换为20,其为输入帧数与预测的帧数之和,完成最终的数据后处理,得到后处理特征。
步骤S5、对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
具体的,使用Slice操作从原始输入数据时间维度的末尾切割(b,66,1)作为残差与后处理结果元素一一相加得到最终的预测结果(b,66,20),⊕表示矩阵元素一一相加。
需要说明的是,本发明设计了一种增强图注意力与时序卷积单元(AGATB),通过聚合通道注意力、图注意力与时间卷积单元,可以有效地提取空间与时间维度特征。同时设计了一种时序分级与重组的机制,解决了时序卷积过分依赖卷积核尺寸,需要多种卷积核配合提取多尺度时序特征的问题。在固定卷积核尺寸的前提下,通过时序分级模块,使用6个串联的AGATB单元,间隔设置卷积步长为2,将时间维度尺寸改变为1/2,以使下一个AGATB的时序卷积拥有更大的感受野,在相同的卷积核尺寸下得到高阶特征,完成对时序特征由低层至高层的分层次提取。而时序重组模块,则通过6个AGATB单元的组合,将时序分级模块输出的高阶、中阶、低阶特征,通过并和操作由高至低依次合并,最终完成对于多尺度时序特征的提取与融合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于时序分级与重组机制的人体运动预测方法,其特征在于,所述基于时序分级与重组机制的人体运动预测方法,包括:
对原始时序人体骨架数据进行预处理,得到初始特征;
将初始特征输入时序分级模块,初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元,完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征;
将低阶、中阶、高阶的时序特征输入时序重组模块,分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组,得到重组时序特征;
将重组时序特征,依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作,得到后处理特征;
对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
2.根据权利要求1所述的基于时序分级与重组机制的人体运动预测方法,其特征在于,所述对原始时序人体骨架数据进行预处理,得到初始特征,包括:
输入原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及ReLU函数,及一个增强图注意力与时序卷积单元完成数据初始化,形成初始特征。
3.根据权利要求1或2所述的基于时序分级与重组机制的人体运动预测方法,其特征在于,所述增强图注意力与时序卷积单元包括通道注意力模块、图注意力模块和时序卷积模块,其中:
所述通道注意力模块,同时对原始输入特征使用平均池化与最大池化操作来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成通道注意力特征;
所述图注意力模块,包括局部图注意力分支与全局图注意力分支,所述局部图注意力分支包括第一分支和第二分支,第一分支和第二分支分别包括一阶邻接矩阵、二维归一化和ReLU激活函数,第一分支和第二分支的输出经过元素相乘后,再输入到二维卷积、二维归一化、ReLU激活函数和Dropout函数,得到局部图注意力分支的输出;所述全局图注意力分支包括全局图注意力模块、二维卷积、二维归一化、ReLU激活函数和Dropout函数;将通道注意力特征分别输入局部图注意力分支与全局图注意力分支,将局部图注意力分支的输出、全局图注意力分支的输出与原始输入特征聚合生成图注意力特征;
所述时序卷积模块,包括一个时序卷积单元,所述时序卷积单元包括二维卷积、二维归一化、ReLU激活函数和Dropout函数,所述图注意力特征输入到时序卷积单元完成对于时序信息的提取,然后与原始输入特征各元素相加,形成增强图注意力与时序卷积单元的输出。
4.根据权利要求1所述的基于时序分级与重组机制的人体运动预测方法,其特征在于,所述将初始特征输入时序分级模块,初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元,完成时序特征由低阶至高阶的分层,得到低阶、中阶、高阶的时序特征,其中:
第一个增强图注意力与时序卷积单元将输入的特征通道由32变换至64,且设置时序卷积的步长参数为2,通过该操作,将时间维度尺寸由64变换为32,并将其输出作为第二个增强图注意力与时序卷积单元的输入;
第二个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化,形成第一个时序分级模块的输出,输出低阶时序特征,同时该输出也是第三个增强图注意力与时序卷积单元的输入;
第三个增强图注意力与时序卷积单元将输入特征的通道由64变换至128,且设置时序卷积的步长参数为2,将时间维度尺寸由32变换至16,并将其输出作为第四个增强图注意力与时序卷积单元的输入;
第四个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化,形成第二个时序分级模块的输出,输出中阶时序特征,同时该输出也是第五个增强图注意力与时序卷积单元的输入;
第五个增强图注意力与时序卷积单元将输入特征的通道由128变换为256,且设置时序卷积的步长为2,将时间维度尺寸由16变换至8,并将其输出作为第六个增强图注意力与时序卷积单元的输入;
第六个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化,形成第三个时序分级模块的输出,输出高阶时序特征;
所述第一个至第六个增强图注意力与时序卷积单元为时序分级模块中的增强图注意力与时序卷积单元。
5.根据权利要求1所述的基于时序分级与重组机制的人体运动预测方法,其特征在于,所述将低阶、中阶、高阶的时序特征输入时序重组模块,分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组,得到重组时序特征,包括:
将高阶时序特征,作为时序重组模块内第一个增强图注意力与时序卷积单元的输入,将输入的特征通道由256变换至128,不改变时间维度的尺寸,形成第一个增强图注意力与时序卷积单元的输出;
将第一个增强图注意力与时序卷积单元的输出,经过第二个增强图注意力与时序卷积单元,将输入的特征通道由128变换至32,不改变时间维度的尺寸,形成第二个增强图注意力与时序卷积单元的输出;
将第一个增强图注意力与时序卷积单元的输出与中阶时序特征,进行并和操作,在时间维度将两者串联,并经过一个二维归一化与ReLU激活函数,其结果输入第三个增强图注意力与时序卷积单元,将输入特征通道由128变换至64,此时时间维度的尺寸为24,形成第三个增强图注意力与时序卷积单元的输出;
将第三个增强图注意力与时序卷积单元的输出,经过第四个增强图注意力与时序卷积单元,将输入特征的通道由64变换至32,不改变时间维度的尺寸,形成第四个增强图注意力与时序卷积单元的输出;
将第三个增强图注意力与时序卷积单元的输出与低阶时序特征,进行并和操作,在时间维度将两者串联,并经过一个二维归一化与ReLU激活函数,其结果输入第五个增强图注意力与时序卷积单元,将输入特征通道由64变换至32,此时时间维度的尺寸为56,形成第五个增强图注意力与时序卷积单元的输出;
将第五个增强图注意力与时序卷积单元的输出,经过第六个增强图注意力与时序卷积单元,不改变通道与时间维度的尺寸,形成第六个增强图注意力与时序卷积单元的输出;
将第二个、第四个、第六个增强图注意力与时序卷积单元的输出及初始特征进行并和操作,在时间维度将四者串联,并经过一个二维归一化和ReLU激活函数,合并后时间维度尺寸为152,形成时序重组模块最终输出的重组时序特征;
所述第一个至第六个增强图注意力与时序卷积单元为时序重组模块中的增强图注意力与时序卷积单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833048.5A CN115170613A (zh) | 2022-07-14 | 2022-07-14 | 一种基于时序分级与重组机制的人体运动预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833048.5A CN115170613A (zh) | 2022-07-14 | 2022-07-14 | 一种基于时序分级与重组机制的人体运动预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170613A true CN115170613A (zh) | 2022-10-11 |
Family
ID=83495796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210833048.5A Pending CN115170613A (zh) | 2022-07-14 | 2022-07-14 | 一种基于时序分级与重组机制的人体运动预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170613A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475518A (zh) * | 2023-12-27 | 2024-01-30 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
-
2022
- 2022-07-14 CN CN202210833048.5A patent/CN115170613A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475518A (zh) * | 2023-12-27 | 2024-01-30 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
CN117475518B (zh) * | 2023-12-27 | 2024-03-22 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
Wang et al. | Qtt-dlstm: A cloud-edge-aided distributed lstm for cyber–physical–social big data | |
Dony et al. | Neural network approaches to image compression | |
CN114882421B (zh) | 一种基于时空特征增强图卷积网络的骨架行为识别方法 | |
Aujla et al. | DLRS: deep learning-based recommender system for smart healthcare ecosystem | |
Luo et al. | Color image compression based on quaternion neural network principal component analysis | |
CN104899921A (zh) | 基于多模态自编码模型的单视角视频人体姿态恢复方法 | |
CN112487200B (zh) | 一种改进的包含多重边信息与多任务学习的深度推荐方法 | |
CN115170613A (zh) | 一种基于时序分级与重组机制的人体运动预测方法 | |
CN111241076B (zh) | 一种基于张量链分解的流式数据增量处理方法及装置 | |
CN111193618B (zh) | 一种基于张量计算的6g移动通信系统及其数据处理方法 | |
CN115620510A (zh) | 一种基于自适应窗口注意力提取时空依赖的交通流预测方法 | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
CN114240999A (zh) | 一种基于增强图注意力与时间卷积网络的运动预测方法 | |
CN112733918B (zh) | 基于注意力机制的图分类方法及化合物毒性预测方法 | |
CN114841342A (zh) | 一种基于张量的高效Transformer的架构方法 | |
CN112613405B (zh) | 任意视角动作识别方法 | |
CN114741532A (zh) | 基于多尺度分散动态路由的知识图谱补全方法及系统 | |
Shi et al. | Building footprint extraction with graph convolutional network | |
CN112926517A (zh) | 一种人工智能监控方法 | |
CN113011495A (zh) | 基于gtn的多元时间序列分类模型及其构建方法 | |
Huang et al. | Trendformer: Trend adaptive transformer for traffic flow prediction | |
Xuan et al. | Skeleton based human action recognition with relative position encoding | |
Tan et al. | Multi-Channel Spatio-Temporal GCN for Human Pose Forecasting | |
CN117218581A (zh) | 一种基于多层感知机细粒度张量分解压缩的视频识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |