CN114386582A - 一种基于对抗训练注意力机制的人体动作预测方法 - Google Patents

一种基于对抗训练注意力机制的人体动作预测方法 Download PDF

Info

Publication number
CN114386582A
CN114386582A CN202210047220.4A CN202210047220A CN114386582A CN 114386582 A CN114386582 A CN 114386582A CN 202210047220 A CN202210047220 A CN 202210047220A CN 114386582 A CN114386582 A CN 114386582A
Authority
CN
China
Prior art keywords
human body
sequence
time
attention
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210047220.4A
Other languages
English (en)
Inventor
张强
范宣哲
于华
候亚庆
周东生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210047220.4A priority Critical patent/CN114386582A/zh
Publication of CN114386582A publication Critical patent/CN114386582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人机交互技术领域,涉及人机交互中人体动作的预测,具体为一种基于对抗训练注意力机制的人体动作预测方法。本发明在原始Transformer模型的基础上,对Transformer内部注意力计算机理进行变换优化,设计了一种称为可变形的Transformer模型,用于提取人体运动的时间特征和空间特征,进而捕获长时范围内各个关节点之间的相互依赖关系,从而高效地预测长时范围内的人体动作。其次,本发明引入了对抗训练机制训练所提出的网络模型,将上述生成运动预测的过程作为生成器,并引入连续性判别器和真实性判别器来验证所生成序列的时间平滑性和连续性,以此来缓解首帧不连续问题。

Description

一种基于对抗训练注意力机制的人体动作预测方法
技术领域
本发明属于人机交互技术领域,涉及人机交互中人体动作的预测,具体为一种基于对抗训练注意力机制的人体动作预测方法。
背景技术
近年来,随着人工智能技术在计算机领域的快速发展,人机交互的研究受到越来越多研究者的关注。人类具有对周围动态环境实时预测的能力,如何让机器人模仿人类的预测能力,成为人机交互领域中的研究热点之一。在一个自然且高效的人机交互过程中,机器人只有及时感知周围环境,才能安全的完成交互,从而规划并执行后续任务。因此,准确的预测人体动作对于确保高效的人机交互具有重要的意义。迄今为止,由于人体运动结构的复杂性以及人类主观意图的不确定性,人体运动预测仍存在很多值得改进空间。以下将详细介绍人体动作预测的研究进展。
(1)基于递归神经网络的人体动作预测
基于递归神经网络(RNNs)的方法近几年在人体运动预测领域取得了阶段性的成功。RNNs类方法通过迭代多个隐藏状态来聚合长时间范围内人体运动的上下文信息,从而对长时范围内人体运动信息之间的相互依赖关系进行建模,进而完成预测。然而,人体动作信息/数据本身具有时间和空间维度的属性,RNNs更加关注人体动作在时间维度的依赖性,而忽略了在空间维度的信息依赖建模。这类方法对动作的预测误差会随着时间的推移持续增大,对于长时间的动作预测的结果往往收敛到静态姿势。
(2)基于图神经网络的人体动作预测
图神经网络(GCNs)由于其较高的泛化性和可解释性已/而被应用到人体动作预测领域,该类方法通过将人体骨骼点表示为图来捕捉人体运动的空间维度以来关系,从而在一定程度上从增加信息观测维度的角度上缓解了RNNs类方法在人体运动预测方面存在的问题。GCNs通过在时间维度依赖上添加辅助性的空间相关性来探索所有关节之间的全局依赖关系,将整个骨骼点序列看成是隐式的、不受限制的图结构。然而大多数现有的基于GCNs的方法无法表征人体关节之间的先验拓扑关系,因此在进行长时间范围内的人体运动预测时通常会遇到观测数据最后一帧与预测数据第一帧之间存在较大差别的现象,即首帧不连续问题。
(3)基于Transformer的人体动作预测
Transformer是2017年谷歌团队提出的一种基于注意力机制的网络模型,由于其卓越的长时依赖建模能力而被广泛应用在各个领域。Transformer旨在将序列的不同位置联系起来,计算序列中各个位置之间的关联性,进而表达更大范围的依赖性。目前Transformer已经成功地被用于人体动作预测领域/问题,但是由于Transformer模型注意力机制需要以点积的形式计算任意两个位置之间的相似性,在输入数据维度较大且交互/依赖复杂的情况下,会导致整个模型的计算效率呈指数下降并占用大量内存。
基于以上信息,可以看出如何高效且准确地预测长时范围内的人体动作,仍然是一个相当具有挑战性的问题,需要进一步研究与完善。
发明内容
本发明的目的是为了解决预测人体动作时首帧不连续问题以及Transformer模型中的注意力机制在预测人体动作时存在的计算资源消耗以及首帧不连续问题。本发明提供一种新的注意力机制用于人体动作的时空特征提取,同时引入了生成对抗训练机制将人体运动预测问题转化为生成问题。具体来说,本发明在原始Transformer模型的基础上,对Transformer内部注意力计算机理进行变换优化,设计了一种称为可变形的Transformer模型,用于提取人体运动的时间特征和空间特征,进而捕获长时范围内各个关节点之间的相互依赖关系,从而高效地预测长时范围内的人体动作。其次,本发明引入了对抗训练机制训练所提出的网络模型,将上述生成运动预测的过程作为生成器,并引入连续性判别器和真实性判别器来验证所生成序列的时间平滑性和连续性,以此来缓解首帧不连续问题。
本发明的技术方案:
一种基于对抗训练注意力机制的人体动作预测方法,具体包括以下步骤:
步骤S1:人体运动数据预处理;首先读取人体动作姿态数据集中全部的3D骨骼点数据,将所有的人体骨骼分解为关节点并嵌入为特征进行表示;具体如下:
假设输入的人体动作序列为X,将人体动作序列通过线性层投影到高维特征空间En(例如64或128),n表示人体序列的帧数,每一帧表示某一个时刻的具体动作;并在特征空间中嵌入关节点的正弦位置编码以确定各人体关节点的相对位置。
步骤S2:将预处理后的人体动作数据分为时间维度和空间维度,通过基于可变形的Transformer时空注意力机制获取人体动作的时间和空间特征;具体如下:
由于Transformer模型在获取长时依赖时表现出的巨大潜力,本发明在此考虑将Transformer模型引入到人体动作预测领域。Transformer模型的优势在于自注意力机制,它使用softmax函数计算任意两两位置之间的匹配情况,由此来计算每个位置之间的关联程度。假设输入序列为X,将X投影成Q、K和V三个矩阵表示,注意力计算公式如下:
Figure BDA0003472444360000041
其中,QKT用于计算任意两个位置之间的信息匹配,d表示矩阵的维度,softmax将输出最终的匹配情况。但其计算机制也会导致计算和存储成本的复杂度是输入序列长度的二次方项。随着输入序列长度以及输入数据复杂度的增加,模型的计算复杂度和计算成本也会大幅度增加。
考虑到上述问题,本发明设计了一种基于可变形的Transformer注意力机制,目的在于解决原始Transformer模型中注意力机制在预测人体动作时引起的计算复杂度过高的问题,去掉原始Transformer中注意力机制所依赖的softmax函数。
本发明提出的基于可变形的Transformer注意力机制具体过程如下:
首先将注意力计算公式泛化为以下表示:
Figure BDA0003472444360000042
其中,sim()指代相似性计算函数,M表示空间尺度N或时间范围T。i和j分别表示不同的位置。需要注意的是相似性计算函数sim()必须是非负值才能用来定义注意力函数。本发明在此限制基础上引入了新的核函数
Figure BDA0003472444360000043
由此公式(2)进一步表示为:
Figure BDA0003472444360000044
进一步地,将公式(3)的分子进行向量化,同时利用矩阵乘法的结合律,公式(3)的分子的计算顺序可以表示为:
Figure BDA0003472444360000045
注意到在softmax对应的特征函数是无限维的,使得softmax函数无法线性化。为了保证公式(4)同样适用于其他注意力的计算,需要保证公式(4)的计算结果仍然具有分布特性。因此本发明引入一个正相似函数作为核函数函数的具体实现。核函数
Figure BDA0003472444360000051
表达如下:
Figure BDA0003472444360000052
选择上述核函数是因为它能大幅度避免其他函数带来的非零损失。之后,分别将投影矩阵Q和K经核函数进行变换,并改变之前注意力的计算顺序,先将K、V进行矩阵计算获得全局特征向量,再与Q相乘得到最终的注意力分布。以上操作在Transformer基础上将softmax函数进行了拆分以及核函数的替换,使得整体模型的计算复杂度从O(n2)降低到O(n)。本发明将以上过程称为基于可变形的Transformer注意力机制。
在时间维度的注意力计算方面,本发明通过上述设计的基于可变形的Transformer注意力机制来获取同一关节点的时间依赖,并以此来更新当前关节点的嵌入信息。首先将输入X序列嵌入到高维空间
Figure BDA0003472444360000053
其中,
Figure BDA0003472444360000054
表示每个输入帧的时间特征表示,n表示输入帧数量,T表示时间序列长度,D表示投影维度。为了更加精确的捕获人体动作的特征,本发明参考原始Transformer处理机制,采用多头注意力机制,旨在通过不同的投影过程获取更多的输入特征信息。具体地,将Et投影到多个矩阵表示Q(n,i),K(n,i),V(n,i),headi=Attention(Q(n,i),K(n,i),V(n,i)),其中i代表头的数量。之后将多个头的信息汇总起来得到时间维度的特征信息,
Figure BDA0003472444360000055
Figure BDA0003472444360000056
其中W(n,O)表示对时间特征进行聚合时的权重矩阵。通过计算各个关节点的时间依赖,最终汇集并更新同一关节点所有时间步的信息。
在空间维度的注意力计算方面,本发明通过基于可变形的Transformer注意力机制关注同一帧中不同关节点之间的空间依赖关系,即获取某一关节点对其他关节点的注意程度,明确地从数据中学习人体动态模式和各关节位置之间的空间相互依赖。首先将输入X序列嵌入到高维空间
Figure BDA0003472444360000061
其中
Figure BDA0003472444360000062
表示每个输入帧的空间特征表示,n表示输入帧数量,T表示时间序列长度。与时间注意力机制相似,空间注意力机制也采用多头注意力机制。具体地,将Et投影到多个矩阵表示Q(i),K(i),V(i)
Figure BDA0003472444360000063
其中i代表头的数量。之后将多个头的信息汇总起来得到空间维度的特征信息
Figure BDA0003472444360000064
W(O)表示对空间特征进行聚合时的权重矩阵,对同一时刻的所有关节信息进行特征聚合。
步骤S3:聚合人体动作的时间信息和空间信息来预测下一帧人体动作;具体如下:
通过步骤中S2提取到了人体动作的时间和空间特征,分别汇集了时间信息和空间信息,通过把两者进行相加融合得到人体动作的全维度信息,构建下一帧的关节点,进而组成整体骨骼,即下一时刻的人体动作。依次重复上述步骤,生成人体动作序列。
步骤S4:将生成的人体动作序列过程作为生成器,引入对抗训练机制来生成更加真实的人体动作;具体如下:
为了缓解预测过程中存在的首帧不连续性问题,本发明引入了改进的对抗训练机制(Wasserstein Generative Adversarial Networks-gradient penalty,WGAN-GP)。具体地,将步骤S3的人体动作生成序列过程作为生成器(Generator,G),并且设计了一个真实性判别器(Df)和一个连续性判别器(Dc)。真实性判别器旨在通过损失函数最小化生成的人体动作序列分布Pg和真实动作序列分布之间Pr的距离,使生成的人体姿势更真实;连续性判别器的目的是促使生成的序列与历史观测序列的衔接更加平滑,以解决首帧不连续问题。假设生成的序列为
Figure BDA0003472444360000071
真实序列是X,
Figure BDA0003472444360000072
为数据分布的期望值,
Figure BDA0003472444360000073
为生成的序列与实际数据之间的插值,则WGAN-GP优化网络的训练方式通过以下损失函数Ladv进行:
Figure BDA0003472444360000074
其中,λ为惩罚系数。该机制可以在长时间范围内生成可靠的运动序列,使训练过程更加稳定。
与现有技术相比,本发明具有以下优点:
本发明所提供的基于对抗训练注意力机制的人体动作预测方法,设计了基于Transformer的可变形的注意力机制,用于人体动作的时间和空间特征提取,将捕捉到的时间和空间信息进行融合,预测人体动作序列且能捕获长时间范围内的人体动作运动依赖;本发明所提供的改进的对抗训练机制以及真实性判别器和连续性判别器,可以在长时间范围内产生更真实且连续的人体运动序列,使训练过程更加稳定。
附图说明
图1是本发明所提供的基于对抗训练注意力机制的人体动作预测方法的整体流程结构示意图。
图2是本发明所提供的基于Transformer的可变形的时空注意力机制的示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步详细说明,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例公开了一种基于对抗训练注意力机制的人体动作预测方法,其详细网络结构原理图如图1所示。具体步骤如下:
(1)人体动作关节点数据处理
本实施例中,使用的是Human3.6m数据集,次数据集包含15个动作。从数据集中读取全部数据,比如“跑步”,需要遍历所有的文件,按文件读取数据。将人体分为32个关节点,并用序列X={x1,x2,…,xt}∈RT×NF表示,其中T表示时间范围;N是人体关节的数量;F表示人体关节表示方法的维度,人体关节表示方法有多种,例如:三维位置、旋转矩阵、角度轴或四元组,在本实施例中使用旋转矩阵进行表示;
Figure BDA0003472444360000081
表示人体姿态;
Figure BDA0003472444360000082
表示关节N在时刻t的表示。本实施例通过线性投影层将所有的人体关节投影到d维空间中,在本实施例中设置为d=128,同时为了标注出人体动作不同关节点的相对位置,注入正弦位置编码,最终输出关节嵌入表示E。
指定进行训练时的观测帧的长度,在本实施例中设置为50。按照指定的批次对数据进行训练,每一个批次有32组训练数据,共迭代500次。对于短期预测,输入观测序列为2秒(共50帧),未来预测序列为400毫秒(共10帧)。对于长期预测,输入观测序列为相同的2秒和未来预测序列为1000毫秒。
(2)通过时空注意力机制获取人体动作的时空特征,对输入的人体骨架进行特征学习,得到输入骨架的特征。
将步骤S1处理的数据按照批次输入到基于Transformer的可变形时空注意力机制中分别进行时间和空间特征提取,本实施例采用多头注意力机制,将输入信息划分为8个头,同时堆叠了4个可变形的transformer时空注意力机制。其详细网络结构原理图如图2所示。
具体地,使用一个线性层将输入信息投影到维度为128的表示空间,之后将特征空间划分,并利用时间模块和空间模块进行特征提取。时间模块获取32个身体关节点随时间的变化趋势,利用时间可变形Transformer注意力机制关注人体不同关节点随时间的变化趋势,通过同一关节的历史帧之间的依赖更新每个关节的嵌入。同时通过采用多头机制将d维表示投影到子空间中,聚合不同人体动作同一关节的动作信息
Figure BDA0003472444360000091
n表示某一关节点。
Figure BDA0003472444360000092
其中,W(n,O)表示对时间特征进行聚合时的权重矩阵。head1,…,headH分别表示不同的注意力头,H表示注意力头的数量,本实施例中的设置为8。
空间模块捕捉在同一帧中22个关节点之间的相互影响。空间可变形Transformer注意力机制关注人体关节的相互依赖关系,更新关节点嵌入表示。利用多头机制对时刻t的所有关节信息进行聚合,计算空间关节总和
Figure BDA0003472444360000093
Figure BDA0003472444360000094
其中,W(O)表示对空间特征进行聚合时的权重矩阵,head1,…,headH分别表示不同的注意力头,H表示注意力头的数量,本实施例中的设置为8。
此外,在每个时空注意力模块放置了基于位置的前馈网络(FFN),FFN引入了非线性变化(ReLu激活函数),从而增加了模型的表现能力。层归一化可以防止层内的数值尺度变化过大,从而有利于保持梯度可感,进而能够加快训练速度并且提高泛化性能。同时,在每个多头注意力机制和FFN层后面都添加一个含残差连接的标准化(Layer Norm)层,用于对数据进行标准化。
(3)聚合时间和空间信息特征预测下一个人体动作
基于上述步骤中可变形的Transformer时空注意力机制获取到人体动作的时间特征
Figure BDA0003472444360000095
和空间特征
Figure BDA0003472444360000096
通过计算时间特征
Figure BDA0003472444360000097
和空间特征
Figure BDA0003472444360000098
的加和来获取全局信息。之后利用全局信息预测下一个人体动作。不断重复此步骤,直至产生10帧人体动作。
(4)使用改进的对抗训练机制训练整体网络
为了解决生成序列的首帧不连续问题,本发明引入了WGAN-GP对抗训练机制来解决这个问题,通过设计对抗损失函数来解决不连续问题。具体来说,将上述动作预测过程作为生成器G,引入一个真实性判别器(Df)和一个连续性判别器(Dc)来验证生成序列的真实性和连续性。真实性判别器旨在通过最小化生成的人体姿势
Figure BDA0003472444360000101
和真实值Xgt之间的距离,使生成的人体姿势更真实;连续性判别器的目的是促使生成的序列
Figure BDA0003472444360000102
与真实序列{X,Xgt}一样连续,以解决首帧不连续问题。该机制可以在长时间范围内生成可靠的运动序列,使训练过程更加稳定。假设生成的序列为
Figure BDA0003472444360000103
真实序列是X,E(·)为数据分布的期望值,
Figure BDA0003472444360000104
为生成的序列与实际数据之间的插值,则WGAN-GP优化训练网络方式如下:
Figure BDA0003472444360000105
其中,λ为惩罚系数。通过该损失函数不断优化生成的人体动作序列,该过程使用的是Adam优化器。
该机制可以在长时间范围内生成可靠的运动序列,使训练过程更加稳定。

Claims (1)

1.一种基于对抗训练注意力机制的人体动作预测方法,其特征在于,具体包括以下步骤:
步骤S1:人体运动数据预处理;首先读取人体动作姿态数据集中全部的3D骨骼点数据,将所有的人体骨骼分解为关节点并嵌入为特征进行表示;具体如下:
假设输入的人体动作序列为X,为了进行更好的特征提取,将人体动作序列通过线性层投影到高维特征空间En,n表示人体序列的帧数,每一帧表示某一个时刻的具体动作;并在特征空间中嵌入关节点的正弦位置编码以确定各人体关节点的相对位置;
步骤S2:将预处理后的人体动作数据分为时间维度和空间维度,通过基于可变形的Transformer时空注意力机制获取人体动作的时间和空间特征;具体如下:
所述的基于可变形的Transformer注意力机制过程如下:
首先将注意力计算公式泛化为以下表示:
Figure FDA0003472444350000011
其中,sim()指代相似性计算函数,M表示空间尺度N或时间范围T;i和j分别表示不同的位置;相似性计算函数sim()是非负值,因此引入新的核函数
Figure FDA0003472444350000012
由此公式(2)进一步表示为:
Figure FDA0003472444350000013
进一步地,将公式(3)的分子进行向量化,同时利用矩阵乘法的结合律,公式(3)的分子的计算顺序表示为:
Figure FDA0003472444350000014
为了保证公式(4)同样适用于其他注意力的计算,需要保证公式(4)的计算结果仍然具有分布特性,因此引入一个正相似函数作为核函数函数的具体实现,核函数
Figure FDA0003472444350000021
表达如下:
Figure FDA0003472444350000022
之后,假设输入序列为X,将X投影成Q、K和V三个矩阵表示,分别将投影矩阵Q和K经核函数进行变换,并改变之前注意力的计算顺序,先将K、V进行矩阵计算获得全局特征向量,再与Q相乘得到最终的注意力分布;
在时间维度的注意力计算,通过基于可变形的Transformer注意力机制来获取同一关节点的时间依赖,并以此来更新当前关节点的嵌入信息,具体为:首先将输入X序列嵌入到高维空间
Figure FDA0003472444350000023
其中
Figure FDA0003472444350000024
表示每个输入帧的时间特征表示,n表示输入帧数量,T表示时间序列长度,D表示投影维度;并采用多头注意力机制,通过不同的投影过程获取更多的输入特征信息,具体为:将En投影到多个矩阵表示Q(n,i),K(n,i),V(n,i),headi=Attention(Q(n,i),K(n,i),V(n,i)),其中i代表头的数量;之后将多个头的信息汇总起来得到时间维度的特征信息,
Figure FDA0003472444350000025
W(n,O)表示对时间特征进行聚合时的权重矩阵;通过计算各个关节点的时间依赖,最终汇集并更新同一关节点所有时间步的信息;
在空间维度的注意力计算,通过基于可变形的Transformer注意力机制关注同一帧中不同关节点之间的空间依赖关系,即获取某一关节点对其他关节点的注意程度,明确地从数据中学习人体动态模式和各关节位置之间的空间相互依赖,具体为:首先将输入X序列嵌入到高维空间
Figure FDA0003472444350000026
其中
Figure FDA0003472444350000027
表示每个输入帧的空间特征表示,n表示输入帧数量,T表示时间序列长度;并采用多头注意力机制,具体为:将Et投影到多个矩阵表示Q(i),K(i),V(i)
Figure FDA0003472444350000031
其中i代表头的数量;之后将多个头的信息汇总起来得到空间维度的特征信息
Figure FDA0003472444350000032
W(O)表示对空间特征进行聚合时的权重矩阵,对同一时刻的所有关节信息进行特征聚合;
步骤S3:聚合人体动作的时间信息和空间信息来预测下一帧人体动作;具体如下:
通过步骤中S2提取到了人体动作的时间和空间特征,分别汇集了时间信息和空间信息,通过把两者进行相加融合得到人体动作的全维度信息,构建下一帧的关节点,进而组成整体骨骼,即下一时刻的人体动作;依次重复,生成人体动作序列;
步骤S4:将生成的人体动作序列过程作为生成器,引入对抗训练机制来生成更加真实的人体动作;具体如下:
将步骤S3的人体动作生成序列过程作为生成器,并且设计一个真实性判别器和一个连续性判别器;真实性判别器通过损失函数最小化生成的人体动作序列分布Pg和真实动作序列分布之间Pr的距离,使生成的人体姿势更真实;连续性判别器促使生成的序列与历史观测序列的衔接更加平滑,以解决首帧不连续问题;假设生成的序列为
Figure FDA0003472444350000033
真实序列是X,
Figure FDA0003472444350000034
为数据分布的期望值,
Figure FDA0003472444350000035
为生成的序列与实际数据之间的插值,则对抗训练机制优化训练网络方式通过以下损失函数Ladv进行:
Figure FDA0003472444350000036
其中,λ为惩罚系数。
CN202210047220.4A 2022-01-17 2022-01-17 一种基于对抗训练注意力机制的人体动作预测方法 Pending CN114386582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210047220.4A CN114386582A (zh) 2022-01-17 2022-01-17 一种基于对抗训练注意力机制的人体动作预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210047220.4A CN114386582A (zh) 2022-01-17 2022-01-17 一种基于对抗训练注意力机制的人体动作预测方法

Publications (1)

Publication Number Publication Date
CN114386582A true CN114386582A (zh) 2022-04-22

Family

ID=81201797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210047220.4A Pending CN114386582A (zh) 2022-01-17 2022-01-17 一种基于对抗训练注意力机制的人体动作预测方法

Country Status (1)

Country Link
CN (1) CN114386582A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205737A (zh) * 2022-07-05 2022-10-18 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统
CN115830402A (zh) * 2023-02-21 2023-03-21 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205737A (zh) * 2022-07-05 2022-10-18 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统
CN115830402A (zh) * 2023-02-21 2023-03-21 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备
CN115830402B (zh) * 2023-02-21 2023-09-12 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备

Similar Documents

Publication Publication Date Title
Wang et al. Learning discriminative features by covering local geometric space for point cloud analysis
Lebailly et al. Motion prediction using temporal inception module
Deshpande et al. Computational creativity via assisted variational synthesis of mechanisms using deep generative models
CN114386582A (zh) 一种基于对抗训练注意力机制的人体动作预测方法
Wang et al. Storm: Structure-based overlap matching for partial point cloud registration
CN116152267A (zh) 基于对比性语言图像预训练技术的点云实例分割方法
Xing et al. Deformable generator networks: Unsupervised disentanglement of appearance and geometry
CN114329232A (zh) 一种基于科研网络的用户画像构建方法和系统
Karnowski et al. Deep spatiotemporal feature learning with application to image classification
Deshpande et al. An image-based approach to variational path synthesis of linkages
Li et al. Online low-rank representation learning for joint multi-subspace recovery and clustering
Zhang et al. View-based 3-D CAD model retrieval with deep residual networks
Li et al. A deep graph structured clustering network
Wang et al. Deep generative mixture model for robust imbalance classification
Yu et al. Deep learning for topology optimization design
Zhao et al. Visual attention model for cross-sectional stock return prediction and end-to-end multimodal market representation learning
Jin et al. Deepwalk-aware graph convolutional networks
Tan et al. Deep adaptive fuzzy clustering for evolutionary unsupervised representation learning
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
Xi et al. Weighted contrastive learning using pseudo labels for facial expression recognition
Howard et al. Distinct variation pattern discovery using alternating nonlinear principal component analysis
Xia et al. Efficient synthesis of compact deep neural networks
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
CN115223201A (zh) 基于单目序列图像的三维人体关节点估算方法、系统及装置
Chen et al. Face recognition using DCT and hierarchical RBF model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination