CN115170613A

CN115170613A - 一种基于时序分级与重组机制的人体运动预测方法

Info

Publication number: CN115170613A
Application number: CN202210833048.5A
Authority: CN
Inventors: 刘盛; 张少波; 高飞; 陈胜勇; 柯正昊; 柯程远
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-11

Abstract

本发明公开了一种基于时序分级与重组机制的人体运动预测方法，首先采用时序分级模块完成时序特征由低阶至高阶的分层，得到低阶、中阶、高阶的时序特征，然后将低阶、中阶、高阶的时序特征输入时序重组模块，在所述时序重组模块完成时序特征的重组，得到重组时序特征，最后将重组时序特征，依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作，得到后处理特征，对原始时序人体骨架数据进行切割处理得到残差，将后处理结果与残差进行元素相加得到最终的预测结果。本发明能显著减少由于人体姿态的时空不连续性造成的误差累积，有效避免对卷积核尺寸大小的依赖。

Description

一种基于时序分级与重组机制的人体运动预测方法

技术领域

本申请属于人体运动预测技术领域，尤其涉及一种基于时序分级与重组机制的人体运动预测方法。

背景技术

对人体运动的感知、识别和预测对于机器人接触外界、辅助人类非常重要。特别是对于人的运动预测，在人与机器人交互过程中反馈人的行为是智能机器人的基本技术。此外，该技术的发展与应用在自主驾驶、公共安全、医疗康复、运动检测、多媒体应用等领域也发挥着不可或缺的作用，这必然是未来智能机器人研究的一大趋势。然而，对于非智能体来说，实现自然、高精度的人体运动预测并不是一件简单的事情。人体行为的复杂性和人体的灵活性导致预测姿态的不连续性和误差累积，将极大地影响其实际应用进展。

针对这些挑战，国内外已经有了许多优秀的不同解决方案。基于序列数据建模的RNN及其变种LSTM和GRU对于时序信息处理具有天然的优势。然而，人类运动的高度随机性、非线性和不确定性使得简单序列网络容易引发误差积累问题。此外，考虑到人体结构固有的连接关系，一般基于人体的主要关节构建人体骨架的数学模型。卷积神经网络(CNN)对二维规则数据具有良好的空间结构感知能力，但通常在人体骨骼等拓扑不规则数据上无法取得良好的效果。图卷积网络(GCN)能够很好地构造和表征不规则结构数据，通过节点和图卷积建模人体结构的方法得到了逐步的推广。但人体的灵活性决定了用全局骨架建模来表示局部节点的运动是很难的。LTD方法利用离散馀弦变换(DCT)对时域信息进行编码，将时域信息转换到频域进行计算。在利用多层GCN网络进行高精度预测的工作中，构建了一个时空架构。但是，增加输入序列的数量并没有增强LTD的性能，这与常识相反。在LTD的基础上，TIM方法以更直观、更易理解的方式提取和融合多尺度时间信息，并将其代替DCT作为GCN的输入。然而，该方法严重依赖于时间维度卷积核大小的选择，其通过使用5组卷积核来提取时域特征并进行组合，完成多尺度时序特征的融合。

发明内容

本申请提出了一种基于时序分级与重组机制的人体运动预测方法，来减少人体运动预测过程中姿态的不连续与误差的累计问题。

为了实现上述目的，本申请技术方案如下：

一种基于时序分级与重组机制的人体运动预测方法，包括：

对原始时序人体骨架数据进行预处理，得到初始特征；

将初始特征输入时序分级模块，初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元，完成时序特征由低阶至高阶的分层，得到低阶、中阶、高阶的时序特征；

将低阶、中阶、高阶的时序特征输入时序重组模块，分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组，得到重组时序特征；

将重组时序特征，依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作，得到后处理特征；

对原始时序人体骨架数据进行切割处理得到残差，将后处理结果与残差进行元素相加得到最终的预测结果。

进一步的，所述对原始时序人体骨架数据进行预处理，得到初始特征，包括：

输入原始时序人体骨架数据，通过线性变换扩展为预设维度的数据，并依次经过二维归一化、通道扩展、二维归一化及ReLU函数，及一个增强图注意力与时序卷积单元完成数据初始化，形成初始特征。

进一步的，所述增强图注意力与时序卷积单元包括通道注意力模块、图注意力模块和时序卷积模块，其中：

所述通道注意力模块，同时对原始输入特征使用平均池化与最大池化操作来提取空间与时间特征，并将两者的结果使用一个权值共享的MLP层来聚合形成通道注意力特征；

所述图注意力模块，包括局部图注意力分支与全局图注意力分支，所述局部图注意力分支包括第一分支和第二分支，第一分支和第二分支分别包括一阶邻接矩阵、二维归一化和ReLU激活函数，第一分支和第二分支的输出经过元素相乘后，再输入到二维卷积、二维归一化、ReLU激活函数和Dropout函数，得到局部图注意力分支的输出；所述全局图注意力分支包括全局图注意力模块、二维卷积、二维归一化、ReLU激活函数和Dropout函数；将通道注意力特征分别输入局部图注意力分支与全局图注意力分支，将局部图注意力分支的输出、全局图注意力分支的输出与原始输入特征聚合生成图注意力特征；

所述时序卷积模块，包括一个时序卷积单元，所述时序卷积单元包括二维卷积、二维归一化、ReLU激活函数和Dropout函数，所述图注意力特征输入到时序卷积单元完成对于时序信息的提取，然后与原始输入特征各元素相加，形成增强图注意力与时序卷积单元的输出。

进一步的，所述将初始特征输入时序分级模块，初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元，完成时序特征由低阶至高阶的分层，得到低阶、中阶、高阶的时序特征，其中：

第一个增强图注意力与时序卷积单元将输入的特征通道由32变换至64，且设置时序卷积的步长参数为2，通过该操作，将时间维度尺寸由64变换为32，并将其输出作为第二个增强图注意力与时序卷积单元的输入；

第二个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化，形成第一个时序分级模块的输出，输出低阶时序特征，同时该输出也是第三个增强图注意力与时序卷积单元的输入；

第三个增强图注意力与时序卷积单元将输入特征的通道由64变换至128，且设置时序卷积的步长参数为2，将时间维度尺寸由32变换至16，并将其输出作为第四个增强图注意力与时序卷积单元的输入；

第四个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化，形成第二个时序分级模块的输出，输出中阶时序特征，同时该输出也是第五个增强图注意力与时序卷积单元的输入；

第五个增强图注意力与时序卷积单元将输入特征的通道由128变换为256，且设置时序卷积的步长为2，将时间维度尺寸由16变换至8，并将其输出作为第六个增强图注意力与时序卷积单元的输入；

第六个增强图注意力与时序卷积单元不对输入特征的尺寸做任何变化，形成第三个时序分级模块的输出，输出高阶时序特征；

所述第一个至第六个增强图注意力与时序卷积单元为时序分级模块中的增强图注意力与时序卷积单元。

进一步的，所述将低阶、中阶、高阶的时序特征输入时序重组模块，分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组，得到重组时序特征，包括：

将高阶时序特征，作为时序重组模块内第一个增强图注意力与时序卷积单元的输入，将输入的特征通道由256变换至128，不改变时间维度的尺寸，形成第一个增强图注意力与时序卷积单元的输出；

将第一个增强图注意力与时序卷积单元的输出，经过第二个增强图注意力与时序卷积单元，将输入的特征通道由128变换至32，不改变时间维度的尺寸，形成第二个增强图注意力与时序卷积单元的输出；

将第一个增强图注意力与时序卷积单元的输出与中阶时序特征，进行并和操作，在时间维度将两者串联，并经过一个二维归一化与ReLU激活函数，其结果输入第三个增强图注意力与时序卷积单元，将输入特征通道由128变换至64，此时时间维度的尺寸为24，形成第三个增强图注意力与时序卷积单元的输出；

将第三个增强图注意力与时序卷积单元的输出，经过第四个增强图注意力与时序卷积单元，将输入特征的通道由64变换至32，不改变时间维度的尺寸，形成第四个增强图注意力与时序卷积单元的输出；

将第三个增强图注意力与时序卷积单元的输出与低阶时序特征，进行并和操作，在时间维度将两者串联，并经过一个二维归一化与ReLU激活函数，其结果输入第五个增强图注意力与时序卷积单元，将输入特征通道由64变换至32，此时时间维度的尺寸为56，形成第五个增强图注意力与时序卷积单元的输出；

将第五个增强图注意力与时序卷积单元的输出，经过第六个增强图注意力与时序卷积单元，不改变通道与时间维度的尺寸，形成第六个增强图注意力与时序卷积单元的输出；

将第二个、第四个、第六个增强图注意力与时序卷积单元的输出及初始特征进行并和操作，在时间维度将四者串联，并经过一个二维归一化和ReLU激活函数，合并后时间维度尺寸为152，形成时序重组模块最终输出的重组时序特征；

所述第一个至第六个增强图注意力与时序卷积单元为时序重组模块中的增强图注意力与时序卷积单元。

本申请提出了一种基于时序分级与重组机制的人体运动预测方法，构建了一种增强图注意力与时序卷积单元(AGATB)，融合时空信息，并利用分级和重组机制对时序特征进行分级和重组，大大降低了对网络卷积核大小的依赖，可以有效聚合空间与时间特征，并设计了一种时序分级与重组机制，在AGATB的基础上，大大降低了对网络卷积核大小的依赖，使最终的输出特征包含了丰富的多尺度时序信息。本申请可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。

附图说明

图1为本申请基于时序分级与重组机制的人体运动预测方法流程图；

图2为本申请实施例整体网络结构示意图；

图3为本申请增强图注意力与时序卷积单元网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提出了一种基于时序分级与重组机制的人体运动预测方法，包括：

步骤S1、对原始时序人体骨架数据进行预处理，得到初始特征。

本实施例对原始时序人体骨架数据进行预处理，包括：输入原始时序人体骨架数据，通过线性变换扩展为预设维度的数据，并依次经过二维归一化、通道扩展、二维归一化及ReLU函数，及一个增强图注意力与时序卷积单元(AGATB)完成数据初始化，形成初始特征。

具体的，对输入网络的人体骨架序列数据进行预处理，如图2中的输入数据(b,66,10)，b表示模型训练的batch size为b，66表示每帧骨架数据大小为66，10表示整个序列在时间维度由10帧组成。通过线性变换扩展为预设维度的数据，即通过全连接网络将时间维度10映射扩展为64，且拆分每帧骨架数据66为3和22两个维度，3表示xyz三通道，22表示一共22个骨架节点，最终得到数据格式为(b,3,64,22)，以满足后续对通道与节点分开计算的要求。再依次将数据经过二维归一化(BN-2D)、二维卷积把通道由3扩展为32、二维归一化(BN-2D)、ReLU激活函数以及一个增强图注意力与时序卷积单元(AGATB)，完成数据预处理，形成初始特征。

需要说明的是，本实施例对输入的原始时序人体骨架数据进行预处理，最后采用了一个增强图注意力与时序卷积单元(AGATB)，形成初始时空特征，为后续时序分级模块和时序重组模块进一步处理数据时空特征提供必要特征基础。

其中，增强图注意力与时序卷积单元(AGATB)，如图3所示，包括通道注意力模块、图注意力模块和时序卷积模块，其中：

具体的，将AGATB的输入特征输入到通道注意力模块，通道注意力模块同时使用平均池化(Average Pool)与最大池化操作(Max Pool)来提取空间与时间特征，并将两者的结果使用一个权值共享的MLP层来聚合形成通道注意力特征。

平均池化(Average Pool)与最大池化操作(Max Pool)的输出，分别经过MLP层处理后，通过元素相加完成数据融合(⊕表示矩阵元素一一相加)。再经过一个Sigmoid激活函数，形成通道注意力图。

所述MLP层依次由一维卷积、ReLU激活函数、一维卷积串接构成。

上述处理采用如下公式表示：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

其中，σ表示Sigmod激活函数。MLP(AvgPool(F)表示对输入特征F进行平均池化操作后再进行MLP操作，MLP(MaxPool(F))表示对输入特征F进行最大池化操作后再进行MLP操作，M_c(F)表示通道注意力特征。

然后，将通道注意力特征分别输入局部图注意力模块与全局图注意力模块。如图3所示，局部图注意力模块包括第一分支和第二分支，第一分支和第二分支分别包括：一阶邻接矩阵GCN Connection、二维归一化BatchNorm2D和ReLU激活函数，第一分支和第二分支的输出经过元素相乘后，再输入到二维卷积、二维归一化、ReLU激活函数和Dropout函数。

局部图注意力模块可以表示为：

其中，σ表示Sigmod激活函数，X表示输入数据，W是一个用于将输入通道转换为输出通道的可学习的转换矩阵，M是一个可学习的掩码矩阵，

为图卷积核，其中A为人体骨架节点的一阶邻接矩阵(GCN Connection)，而I是节点的自连接矩阵(GCNSymmetry)，

表示矩阵元素一一相乘，Y1为局部图注意力模块的输出。

如图3所示，全局图注意力分支包括全局图注意力模块(Global GraphAttention)、二维卷积、二维归一化、ReLU激活函数和Dropout函数。

全局图注意力模块可以表示为：

K为多头注意力机制的头数，B_k是一个自适应全局邻接矩阵，C_k是一个可学习的全局邻接矩阵，W_k是一个可学习的输入输出通道的转换矩阵，Y2为全局图注意力模块的输出。k属于1～K。

最后将局部图注意力模块与全局图注意力模块的输出，与AGATB的输入特征各元素相加，形成增强的图注意力特征。

接下来，将增强的图注意力特征输入到一个时序卷积单元(TCN)，该单元由一个固定卷积尺寸(5,1)的二维卷积、二维归一化、ReLU激活函数、Dropout函数组成，完成对于时序信息的提取，并与AGATB的输入特征各元素相加，形成最终的包含时空特征的增强图注意力与时序卷积单元(AGATB)的输出。后续每个AGATB单元均按此操作执行。

步骤S2、将初始特征输入时序分级模块，初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元，完成时序特征由低阶至高阶的分层，得到低阶、中阶、高阶的时序特征。

本实施例将初始特征输入时序分级模块，该模块由六个增强图注意力与时序卷积单元(AGATB)串联组成，在提取空间特征的同时，依次由低阶到高阶提取时序特征，并将各阶段的特征传递给时序重组模块。其中，低阶、中阶、高阶的时序特征分别是第2个、第4个、第6个增强图注意力与时序卷积单元输出的时序特征。

如图2所示，针对输入的初始特征，时序分级模块执行如下操作：

第一个AGATB将输入的特征通道由32变换至64，且设置时序卷积的步长参数为2，通过该操作，将时间维度尺寸由64变换为32，并将其输出作为第二个AGATB的输入；第二个AGATB不对输入特征的尺寸做任何变化，形成第一个时序分级模块的输出，输出低阶时序特征，同时该输出也是第三个AGATB的输入；第三个AGATB将输入特征的通道由64变换至128，且设置时序卷积的步长参数为2，将时间维度尺寸由32变换至16，并将其输出作为第四个AGATB的输入；第四个AGATB不对输入特征的尺寸做任何变化，形成第二个时序分级模块的输出，输出中阶时序特征，同时该输出也是第五个AGATB的输入；第五个AGATB将输入特征的通道由128变换为256，且设置时序卷积的步长为2，将时间维度尺寸由16变换至8，并将其输出作为第六个AGATB的输入；第六个AGATB不对输入特征的尺寸做任何变化，形成第三个时序分级模块的输出，输出高阶时序特征。由此形成三个不同阶层的输出，作为时序重组模块的输入。

步骤S3、将低阶、中阶、高阶的时序特征输入时序重组模块，分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组，得到重组时序特征。

如图2所示，针对时序分级模块输出的三组特征，时序重组模块执行如下操作：

将时序分级阶段的第三个输出，也就是高阶时序特征，作为时序重组模块内第一个AGATB的输入，将输入的特征通道由256变换至128，不改变时间维度的尺寸，形成第一个AGATB的输出；

将第一个AGATB的输出，经过第二个AGATB，将输入的特征通道由128变换至32，不改变时间维度的尺寸，形成第二个AGATB的输出；

将第一个AGATB的输出与时序分级阶段的第二个输出(中阶时序特征)，进行并和操作，在时间维度将两者串联，并经过一个二维归一化与ReLU激活函数，其结果输入第三个AGATB，将输入特征通道由128变换至64，此时时间维度的尺寸为24，形成第三个AGATB的输出；

将第三个AGATB的输出，经过第四个AGATB，将输入特征的通道由64变换至32，不改变时间维度的尺寸，形成第四个AGATB的输出；

将第三个AGATB的输出与时序分级阶段的第一个输出(低阶时序特征)，进行并和操作，在时间维度将两者串联，并经过一个二维归一化与ReLU激活函数，其结果输入第五个AGATB，将输入特征通道由64变换至32，此时时间维度的尺寸为56，形成第五个AGATB的输出；

将第五个AGATB的输出，经过第六个AGATB，不改变通道与时间维度的尺寸，形成第六个AGATB的输出；

将第二个、第四个、第六个AGATB的输出及初始特征进行并和操作，在时间维度将四者串联，并经过一个二维归一化和ReLU激活函数，合并后时间维度尺寸为152，形成时序重组模块最终输出的重组时序特征。

本实施例将时序分级模块的各阶特征输入到时序重组模块，该模块也由6个增强图注意力与时序卷积单元(AGATB)组成，分成三组分别处理高阶时序特征、高阶与中阶并和的时序特征，高中低三阶并和的时序特征，最后将三者与初始特征并和，时序重组模块输出重组时序特征。

步骤S4、将重组时序特征，依次通过一个增强图注意力与时序卷积单元、二维卷积、维度变换、线性变换操作，得到后处理特征。

具体的，针对时序重组模块的输出特征，使用一个如图2中所示的AGATB模块，维持通道尺寸32与时间维度尺寸152不变，对时序重组模块的输出特征进一步提取时空特征，完成并和操作的特征融合，此时输出特征的维度为(b,32,152,22)，b为模型训练的batchsize，32为通道维度尺寸，152为时间维度尺寸，22为骨架节点数。通过一个二维卷积，将通道32恢复为3，再进行一次维度变换，合并通道与骨架节点，变换数据维度为(b,66,152)。最终使用一个线性变换，将时间维度152转换为20，其为输入帧数与预测的帧数之和，完成最终的数据后处理，得到后处理特征。

步骤S5、对原始时序人体骨架数据进行切割处理得到残差，将后处理结果与残差进行元素相加得到最终的预测结果。

具体的，使用Slice操作从原始输入数据时间维度的末尾切割(b,66,1)作为残差与后处理结果元素一一相加得到最终的预测结果(b,66,20)，⊕表示矩阵元素一一相加。

需要说明的是，本发明设计了一种增强图注意力与时序卷积单元(AGATB)，通过聚合通道注意力、图注意力与时间卷积单元，可以有效地提取空间与时间维度特征。同时设计了一种时序分级与重组的机制，解决了时序卷积过分依赖卷积核尺寸，需要多种卷积核配合提取多尺度时序特征的问题。在固定卷积核尺寸的前提下，通过时序分级模块，使用6个串联的AGATB单元，间隔设置卷积步长为2，将时间维度尺寸改变为1/2，以使下一个AGATB的时序卷积拥有更大的感受野，在相同的卷积核尺寸下得到高阶特征，完成对时序特征由低层至高层的分层次提取。而时序重组模块，则通过6个AGATB单元的组合，将时序分级模块输出的高阶、中阶、低阶特征，通过并和操作由高至低依次合并，最终完成对于多尺度时序特征的提取与融合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于时序分级与重组机制的人体运动预测方法，其特征在于，所述基于时序分级与重组机制的人体运动预测方法，包括：

对原始时序人体骨架数据进行预处理，得到初始特征；

2.根据权利要求1所述的基于时序分级与重组机制的人体运动预测方法，其特征在于，所述对原始时序人体骨架数据进行预处理，得到初始特征，包括：

3.根据权利要求1或2所述的基于时序分级与重组机制的人体运动预测方法，其特征在于，所述增强图注意力与时序卷积单元包括通道注意力模块、图注意力模块和时序卷积模块，其中：

4.根据权利要求1所述的基于时序分级与重组机制的人体运动预测方法，其特征在于，所述将初始特征输入时序分级模块，初始特征在时序分级模块中依次通过六个增强图注意力与时序卷积单元，完成时序特征由低阶至高阶的分层，得到低阶、中阶、高阶的时序特征，其中：

5.根据权利要求1所述的基于时序分级与重组机制的人体运动预测方法，其特征在于，所述将低阶、中阶、高阶的时序特征输入时序重组模块，分别通过增强图注意力与时序卷积单元在所述时序重组模块完成时序特征的重组，得到重组时序特征，包括：