CN114386582A

CN114386582A - 一种基于对抗训练注意力机制的人体动作预测方法

Info

Publication number: CN114386582A
Application number: CN202210047220.4A
Authority: CN
Inventors: 张强; 范宣哲; 于华; 候亚庆; 周东生
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-22

Abstract

本发明属于人机交互技术领域，涉及人机交互中人体动作的预测，具体为一种基于对抗训练注意力机制的人体动作预测方法。本发明在原始Transformer模型的基础上，对Transformer内部注意力计算机理进行变换优化，设计了一种称为可变形的Transformer模型，用于提取人体运动的时间特征和空间特征，进而捕获长时范围内各个关节点之间的相互依赖关系，从而高效地预测长时范围内的人体动作。其次，本发明引入了对抗训练机制训练所提出的网络模型，将上述生成运动预测的过程作为生成器，并引入连续性判别器和真实性判别器来验证所生成序列的时间平滑性和连续性，以此来缓解首帧不连续问题。

Description

一种基于对抗训练注意力机制的人体动作预测方法

技术领域

本发明属于人机交互技术领域，涉及人机交互中人体动作的预测，具体为一种基于对抗训练注意力机制的人体动作预测方法。

背景技术

近年来，随着人工智能技术在计算机领域的快速发展，人机交互的研究受到越来越多研究者的关注。人类具有对周围动态环境实时预测的能力，如何让机器人模仿人类的预测能力，成为人机交互领域中的研究热点之一。在一个自然且高效的人机交互过程中，机器人只有及时感知周围环境，才能安全的完成交互，从而规划并执行后续任务。因此，准确的预测人体动作对于确保高效的人机交互具有重要的意义。迄今为止，由于人体运动结构的复杂性以及人类主观意图的不确定性，人体运动预测仍存在很多值得改进空间。以下将详细介绍人体动作预测的研究进展。

(1)基于递归神经网络的人体动作预测

基于递归神经网络(RNNs)的方法近几年在人体运动预测领域取得了阶段性的成功。RNNs类方法通过迭代多个隐藏状态来聚合长时间范围内人体运动的上下文信息，从而对长时范围内人体运动信息之间的相互依赖关系进行建模，进而完成预测。然而，人体动作信息/数据本身具有时间和空间维度的属性，RNNs更加关注人体动作在时间维度的依赖性，而忽略了在空间维度的信息依赖建模。这类方法对动作的预测误差会随着时间的推移持续增大，对于长时间的动作预测的结果往往收敛到静态姿势。

(2)基于图神经网络的人体动作预测

图神经网络(GCNs)由于其较高的泛化性和可解释性已/而被应用到人体动作预测领域，该类方法通过将人体骨骼点表示为图来捕捉人体运动的空间维度以来关系，从而在一定程度上从增加信息观测维度的角度上缓解了RNNs类方法在人体运动预测方面存在的问题。GCNs通过在时间维度依赖上添加辅助性的空间相关性来探索所有关节之间的全局依赖关系，将整个骨骼点序列看成是隐式的、不受限制的图结构。然而大多数现有的基于GCNs的方法无法表征人体关节之间的先验拓扑关系，因此在进行长时间范围内的人体运动预测时通常会遇到观测数据最后一帧与预测数据第一帧之间存在较大差别的现象，即首帧不连续问题。

(3)基于Transformer的人体动作预测

Transformer是2017年谷歌团队提出的一种基于注意力机制的网络模型，由于其卓越的长时依赖建模能力而被广泛应用在各个领域。Transformer旨在将序列的不同位置联系起来，计算序列中各个位置之间的关联性，进而表达更大范围的依赖性。目前Transformer已经成功地被用于人体动作预测领域/问题，但是由于Transformer模型注意力机制需要以点积的形式计算任意两个位置之间的相似性，在输入数据维度较大且交互/依赖复杂的情况下，会导致整个模型的计算效率呈指数下降并占用大量内存。

基于以上信息，可以看出如何高效且准确地预测长时范围内的人体动作，仍然是一个相当具有挑战性的问题，需要进一步研究与完善。

发明内容

本发明的目的是为了解决预测人体动作时首帧不连续问题以及Transformer模型中的注意力机制在预测人体动作时存在的计算资源消耗以及首帧不连续问题。本发明提供一种新的注意力机制用于人体动作的时空特征提取，同时引入了生成对抗训练机制将人体运动预测问题转化为生成问题。具体来说，本发明在原始Transformer模型的基础上，对Transformer内部注意力计算机理进行变换优化，设计了一种称为可变形的Transformer模型，用于提取人体运动的时间特征和空间特征，进而捕获长时范围内各个关节点之间的相互依赖关系，从而高效地预测长时范围内的人体动作。其次，本发明引入了对抗训练机制训练所提出的网络模型，将上述生成运动预测的过程作为生成器，并引入连续性判别器和真实性判别器来验证所生成序列的时间平滑性和连续性，以此来缓解首帧不连续问题。

本发明的技术方案：

一种基于对抗训练注意力机制的人体动作预测方法，具体包括以下步骤：

步骤S1：人体运动数据预处理；首先读取人体动作姿态数据集中全部的3D骨骼点数据，将所有的人体骨骼分解为关节点并嵌入为特征进行表示；具体如下：

假设输入的人体动作序列为X，将人体动作序列通过线性层投影到高维特征空间Eⁿ(例如64或128)，n表示人体序列的帧数，每一帧表示某一个时刻的具体动作；并在特征空间中嵌入关节点的正弦位置编码以确定各人体关节点的相对位置。

步骤S2：将预处理后的人体动作数据分为时间维度和空间维度，通过基于可变形的Transformer时空注意力机制获取人体动作的时间和空间特征；具体如下：

由于Transformer模型在获取长时依赖时表现出的巨大潜力，本发明在此考虑将Transformer模型引入到人体动作预测领域。Transformer模型的优势在于自注意力机制，它使用softmax函数计算任意两两位置之间的匹配情况，由此来计算每个位置之间的关联程度。假设输入序列为X，将X投影成Q、K和V三个矩阵表示，注意力计算公式如下：

其中，QK^T用于计算任意两个位置之间的信息匹配，d表示矩阵的维度，softmax将输出最终的匹配情况。但其计算机制也会导致计算和存储成本的复杂度是输入序列长度的二次方项。随着输入序列长度以及输入数据复杂度的增加，模型的计算复杂度和计算成本也会大幅度增加。

考虑到上述问题，本发明设计了一种基于可变形的Transformer注意力机制，目的在于解决原始Transformer模型中注意力机制在预测人体动作时引起的计算复杂度过高的问题，去掉原始Transformer中注意力机制所依赖的softmax函数。

本发明提出的基于可变形的Transformer注意力机制具体过程如下：

首先将注意力计算公式泛化为以下表示：

其中，sim()指代相似性计算函数，M表示空间尺度N或时间范围T。i和j分别表示不同的位置。需要注意的是相似性计算函数sim()必须是非负值才能用来定义注意力函数。本发明在此限制基础上引入了新的核函数

由此公式(2)进一步表示为：

进一步地，将公式(3)的分子进行向量化，同时利用矩阵乘法的结合律，公式(3)的分子的计算顺序可以表示为：

注意到在softmax对应的特征函数是无限维的，使得softmax函数无法线性化。为了保证公式(4)同样适用于其他注意力的计算，需要保证公式(4)的计算结果仍然具有分布特性。因此本发明引入一个正相似函数作为核函数函数的具体实现。核函数

表达如下：

选择上述核函数是因为它能大幅度避免其他函数带来的非零损失。之后，分别将投影矩阵Q和K经核函数进行变换，并改变之前注意力的计算顺序，先将K、V进行矩阵计算获得全局特征向量，再与Q相乘得到最终的注意力分布。以上操作在Transformer基础上将softmax函数进行了拆分以及核函数的替换，使得整体模型的计算复杂度从O(n²)降低到O(n)。本发明将以上过程称为基于可变形的Transformer注意力机制。

在时间维度的注意力计算方面，本发明通过上述设计的基于可变形的Transformer注意力机制来获取同一关节点的时间依赖，并以此来更新当前关节点的嵌入信息。首先将输入X序列嵌入到高维空间

其中，

表示每个输入帧的时间特征表示，n表示输入帧数量，T表示时间序列长度，D表示投影维度。为了更加精确的捕获人体动作的特征，本发明参考原始Transformer处理机制，采用多头注意力机制，旨在通过不同的投影过程获取更多的输入特征信息。具体地，将E_t投影到多个矩阵表示Q^(n,i)，K^(n,i)，V^(n,i)，head_i＝Attention(Q^(n,i),K^(n,i),V^(n,i))，其中i代表头的数量。之后将多个头的信息汇总起来得到时间维度的特征信息，

其中W^(n,O)表示对时间特征进行聚合时的权重矩阵。通过计算各个关节点的时间依赖，最终汇集并更新同一关节点所有时间步的信息。

在空间维度的注意力计算方面，本发明通过基于可变形的Transformer注意力机制关注同一帧中不同关节点之间的空间依赖关系，即获取某一关节点对其他关节点的注意程度，明确地从数据中学习人体动态模式和各关节位置之间的空间相互依赖。首先将输入X序列嵌入到高维空间

其中

表示每个输入帧的空间特征表示，n表示输入帧数量，T表示时间序列长度。与时间注意力机制相似，空间注意力机制也采用多头注意力机制。具体地，将E_t投影到多个矩阵表示Q⁽ⁱ⁾，K⁽ⁱ⁾，V⁽ⁱ⁾，

其中i代表头的数量。之后将多个头的信息汇总起来得到空间维度的特征信息

W^(O)表示对空间特征进行聚合时的权重矩阵，对同一时刻的所有关节信息进行特征聚合。

步骤S3：聚合人体动作的时间信息和空间信息来预测下一帧人体动作；具体如下：

通过步骤中S2提取到了人体动作的时间和空间特征，分别汇集了时间信息和空间信息，通过把两者进行相加融合得到人体动作的全维度信息，构建下一帧的关节点，进而组成整体骨骼，即下一时刻的人体动作。依次重复上述步骤，生成人体动作序列。

步骤S4：将生成的人体动作序列过程作为生成器，引入对抗训练机制来生成更加真实的人体动作；具体如下：

为了缓解预测过程中存在的首帧不连续性问题，本发明引入了改进的对抗训练机制(Wasserstein Generative Adversarial Networks-gradient penalty，WGAN-GP)。具体地，将步骤S3的人体动作生成序列过程作为生成器(Generator，G)，并且设计了一个真实性判别器(D_f)和一个连续性判别器(D_c)。真实性判别器旨在通过损失函数最小化生成的人体动作序列分布P_g和真实动作序列分布之间P_r的距离，使生成的人体姿势更真实；连续性判别器的目的是促使生成的序列与历史观测序列的衔接更加平滑，以解决首帧不连续问题。假设生成的序列为

真实序列是X，

为数据分布的期望值，

为生成的序列与实际数据之间的插值，则WGAN-GP优化网络的训练方式通过以下损失函数L_adv进行：

其中，λ为惩罚系数。该机制可以在长时间范围内生成可靠的运动序列，使训练过程更加稳定。

与现有技术相比，本发明具有以下优点：

本发明所提供的基于对抗训练注意力机制的人体动作预测方法，设计了基于Transformer的可变形的注意力机制，用于人体动作的时间和空间特征提取，将捕捉到的时间和空间信息进行融合，预测人体动作序列且能捕获长时间范围内的人体动作运动依赖；本发明所提供的改进的对抗训练机制以及真实性判别器和连续性判别器，可以在长时间范围内产生更真实且连续的人体运动序列，使训练过程更加稳定。

附图说明

图1是本发明所提供的基于对抗训练注意力机制的人体动作预测方法的整体流程结构示意图。

图2是本发明所提供的基于Transformer的可变形的时空注意力机制的示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步详细说明，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例公开了一种基于对抗训练注意力机制的人体动作预测方法，其详细网络结构原理图如图1所示。具体步骤如下：

(1)人体动作关节点数据处理

本实施例中，使用的是Human3.6m数据集，次数据集包含15个动作。从数据集中读取全部数据，比如“跑步”，需要遍历所有的文件，按文件读取数据。将人体分为32个关节点，并用序列X＝{x₁,x₂,…,x_t}∈R^T×NF表示，其中T表示时间范围；N是人体关节的数量；F表示人体关节表示方法的维度，人体关节表示方法有多种，例如：三维位置、旋转矩阵、角度轴或四元组，在本实施例中使用旋转矩阵进行表示；

表示人体姿态；

表示关节N在时刻t的表示。本实施例通过线性投影层将所有的人体关节投影到d维空间中，在本实施例中设置为d＝128，同时为了标注出人体动作不同关节点的相对位置，注入正弦位置编码，最终输出关节嵌入表示E。

指定进行训练时的观测帧的长度，在本实施例中设置为50。按照指定的批次对数据进行训练，每一个批次有32组训练数据，共迭代500次。对于短期预测，输入观测序列为2秒(共50帧)，未来预测序列为400毫秒(共10帧)。对于长期预测，输入观测序列为相同的2秒和未来预测序列为1000毫秒。

(2)通过时空注意力机制获取人体动作的时空特征，对输入的人体骨架进行特征学习，得到输入骨架的特征。

将步骤S1处理的数据按照批次输入到基于Transformer的可变形时空注意力机制中分别进行时间和空间特征提取，本实施例采用多头注意力机制，将输入信息划分为8个头，同时堆叠了4个可变形的transformer时空注意力机制。其详细网络结构原理图如图2所示。

具体地，使用一个线性层将输入信息投影到维度为128的表示空间，之后将特征空间划分，并利用时间模块和空间模块进行特征提取。时间模块获取32个身体关节点随时间的变化趋势，利用时间可变形Transformer注意力机制关注人体不同关节点随时间的变化趋势，通过同一关节的历史帧之间的依赖更新每个关节的嵌入。同时通过采用多头机制将d维表示投影到子空间中，聚合不同人体动作同一关节的动作信息

n表示某一关节点。

其中，W^(n,O)表示对时间特征进行聚合时的权重矩阵。head₁,…,head_H分别表示不同的注意力头，H表示注意力头的数量，本实施例中的设置为8。

空间模块捕捉在同一帧中22个关节点之间的相互影响。空间可变形Transformer注意力机制关注人体关节的相互依赖关系，更新关节点嵌入表示。利用多头机制对时刻t的所有关节信息进行聚合，计算空间关节总和

其中，W^(O)表示对空间特征进行聚合时的权重矩阵，head₁,…,head_H分别表示不同的注意力头，H表示注意力头的数量，本实施例中的设置为8。

此外，在每个时空注意力模块放置了基于位置的前馈网络(FFN)，FFN引入了非线性变化(ReLu激活函数)，从而增加了模型的表现能力。层归一化可以防止层内的数值尺度变化过大，从而有利于保持梯度可感，进而能够加快训练速度并且提高泛化性能。同时，在每个多头注意力机制和FFN层后面都添加一个含残差连接的标准化(Layer Norm)层，用于对数据进行标准化。

(3)聚合时间和空间信息特征预测下一个人体动作

基于上述步骤中可变形的Transformer时空注意力机制获取到人体动作的时间特征

和空间特征

通过计算时间特征

和空间特征

的加和来获取全局信息。之后利用全局信息预测下一个人体动作。不断重复此步骤，直至产生10帧人体动作。

(4)使用改进的对抗训练机制训练整体网络

为了解决生成序列的首帧不连续问题，本发明引入了WGAN-GP对抗训练机制来解决这个问题，通过设计对抗损失函数来解决不连续问题。具体来说，将上述动作预测过程作为生成器G，引入一个真实性判别器(D_f)和一个连续性判别器(D_c)来验证生成序列的真实性和连续性。真实性判别器旨在通过最小化生成的人体姿势

和真实值X_gt之间的距离，使生成的人体姿势更真实；连续性判别器的目的是促使生成的序列

与真实序列{X,X_gt}一样连续，以解决首帧不连续问题。该机制可以在长时间范围内生成可靠的运动序列，使训练过程更加稳定。假设生成的序列为

真实序列是X，E(·)为数据分布的期望值，

为生成的序列与实际数据之间的插值，则WGAN-GP优化训练网络方式如下：

其中，λ为惩罚系数。通过该损失函数不断优化生成的人体动作序列，该过程使用的是Adam优化器。

该机制可以在长时间范围内生成可靠的运动序列，使训练过程更加稳定。

Claims

1.一种基于对抗训练注意力机制的人体动作预测方法，其特征在于，具体包括以下步骤：

假设输入的人体动作序列为X，为了进行更好的特征提取，将人体动作序列通过线性层投影到高维特征空间Eⁿ，n表示人体序列的帧数，每一帧表示某一个时刻的具体动作；并在特征空间中嵌入关节点的正弦位置编码以确定各人体关节点的相对位置；

所述的基于可变形的Transformer注意力机制过程如下：

首先将注意力计算公式泛化为以下表示：

其中，sim()指代相似性计算函数，M表示空间尺度N或时间范围T；i和j分别表示不同的位置；相似性计算函数sim()是非负值，因此引入新的核函数

由此公式(2)进一步表示为：

进一步地，将公式(3)的分子进行向量化，同时利用矩阵乘法的结合律，公式(3)的分子的计算顺序表示为：

为了保证公式(4)同样适用于其他注意力的计算，需要保证公式(4)的计算结果仍然具有分布特性，因此引入一个正相似函数作为核函数函数的具体实现，核函数

表达如下：

之后，假设输入序列为X，将X投影成Q、K和V三个矩阵表示，分别将投影矩阵Q和K经核函数进行变换，并改变之前注意力的计算顺序，先将K、V进行矩阵计算获得全局特征向量，再与Q相乘得到最终的注意力分布；

在时间维度的注意力计算，通过基于可变形的Transformer注意力机制来获取同一关节点的时间依赖，并以此来更新当前关节点的嵌入信息，具体为：首先将输入X序列嵌入到高维空间

其中

表示每个输入帧的时间特征表示，n表示输入帧数量，T表示时间序列长度，D表示投影维度；并采用多头注意力机制，通过不同的投影过程获取更多的输入特征信息，具体为：将Eⁿ投影到多个矩阵表示Q^(n,i)，K^(n,i)，V^(n,i)，head_i＝Attention(Q^(n,i),K^(n,i),V^(n,i))，其中i代表头的数量；之后将多个头的信息汇总起来得到时间维度的特征信息，

W^(n,O)表示对时间特征进行聚合时的权重矩阵；通过计算各个关节点的时间依赖，最终汇集并更新同一关节点所有时间步的信息；

在空间维度的注意力计算，通过基于可变形的Transformer注意力机制关注同一帧中不同关节点之间的空间依赖关系，即获取某一关节点对其他关节点的注意程度，明确地从数据中学习人体动态模式和各关节位置之间的空间相互依赖，具体为：首先将输入X序列嵌入到高维空间

其中

表示每个输入帧的空间特征表示，n表示输入帧数量，T表示时间序列长度；并采用多头注意力机制，具体为：将E_t投影到多个矩阵表示Q⁽ⁱ⁾，K⁽ⁱ⁾，V⁽ⁱ⁾，

其中i代表头的数量；之后将多个头的信息汇总起来得到空间维度的特征信息

W^(O)表示对空间特征进行聚合时的权重矩阵，对同一时刻的所有关节信息进行特征聚合；

通过步骤中S2提取到了人体动作的时间和空间特征，分别汇集了时间信息和空间信息，通过把两者进行相加融合得到人体动作的全维度信息，构建下一帧的关节点，进而组成整体骨骼，即下一时刻的人体动作；依次重复，生成人体动作序列；

将步骤S3的人体动作生成序列过程作为生成器，并且设计一个真实性判别器和一个连续性判别器；真实性判别器通过损失函数最小化生成的人体动作序列分布P_g和真实动作序列分布之间P_r的距离，使生成的人体姿势更真实；连续性判别器促使生成的序列与历史观测序列的衔接更加平滑，以解决首帧不连续问题；假设生成的序列为

真实序列是X，

为数据分布的期望值，

为生成的序列与实际数据之间的插值，则对抗训练机制优化训练网络方式通过以下损失函数L_adv进行：

其中，λ为惩罚系数。