CN114049435A

CN114049435A - 一种基于Transformer模型的三维人体重建方法及系统

Info

Publication number: CN114049435A
Application number: CN202111314592.0A
Authority: CN
Inventors: 孙庆平; 周世哲; 肖懿
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-02-15

Abstract

本发明公开一种基于Transformer模型的三维人体重建方法及系统，该方法步骤包括：S01.输入人体图像进行特征提取，得到图像特征；S02.对提取到的图像特征进行上采样得到采样后特征，输入至由多个残差块叠加构成的网络，提取得到关键点的局部特征；以及为网格中每个顶点生成局部特征；S03.对提取的图像特征进行全局特征提取；S04.使用图像特征预测参数化人体模型，得到人体网格以及对应的关键点位置；S05.将局部特征、全局特征与人体网格、关键点位置进行拼接，输入至Transformer模型中，以预测最终的网格顶点以及关键点位置。本发明具有实现方法简单、重建效率以及精度高等优点。

Description

一种基于Transformer模型的三维人体重建方法及系统

技术领域

本发明涉及三维人体模型构建技术领域，尤其涉及一种基于Transformer模型的三维人体重建方法及系统。

背景技术

当前VR(虚拟现实)/VR(增强现实)、3D电影与动画的制作、互动式游戏设计以及虚拟试衣等领域，都需要重建准确的三维人体模型。针对于三维人体模型重建，目前多数都是使用高精度的扫描仪或者运动捕捉系统实现，该类方法虽然建模的精度较高，但是相应的需要花费大量的时间和成本。

现有技术中，三维人体重建算法主要可以分为基于优化的方法和基于学习的方法。其中基于优化的方法通常是利用传统优化方法，通过迭代的方式去重建三维人体模型，但由于直接从2D图像去恢复图像中人的3D模型十分困难，因此这种方法需要通过直接估计一组稀疏的参数，比如SCAPE、SMPL等来降低重建任务的难度，从而在一定的程度能够重建出准确的三维人体模型。但是由于受限于传统优化算法的弊端，该类方法对重建算法的初始化要求很高，容易陷入局部最优解。此外，基于优化的人体重建方法一般需要花大量时间才能迭代优化出一个合理的模型。

相比于基于优化的方法，基于学习的三维人体重建方法在效率方面具有明显的优势。基于学习的三维人体重建方法通常可以分为model-based(模型相关)的方法和model-free(模型无关)的方法。其中model-based的方法与基于优化的方法类似，只不过是利用深度学习技术去直接预测SMPL参数，这种直接预测模板参数虽然能使得重建任务变简单，但是往往重建的结果又受限于模板本身，比如缺少细节。而model-free方法通常利用深度学习技术直接预测三维人体模型的网格顶点，这样重建的结果不会受限于模板的表现能力。

目前model-free方法大多是利用卷积神经网络直接提取一个全局特征，然后利用图卷积等方法直接预测网格顶点，但是该类方法不仅实现复杂，需要进行大量的计量，且由于单纯的全局特征会存在缺少细节信息的问题，因而最终的重建精度实际并不高。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、重建效率以及精度高的基于Transformer模型的三维人体重建方法及系统。

一种基于Transformer模型的三维人体重建方法，步骤包括：

S01.图像特征提取：输入人体图像，利用卷积神经网络对输入的所述人体图像进行特征提取，得到图像特征F；

S02.局部特征提取：对提取到的图像特征F进行上采样得到采样后特征F′，将所述采样后特征F′输入至由多个残差块叠加构成的网络，提取得到关键点的局部特征；以及为网格中每个顶点生成一个与人体姿势相关的局部特征，得到网格顶点的局部特征；

S03.全局特征提取：对提取的所述图像特征F进行全局特征提取；

S04.空间位置提取：使用所述图像特征F预测参数化人体模型，得到人体网格以及所述人体网格对应的关键点位置；

S05.将提取的所述局部特征、全局特征与所述人体网格、关键点位置进行拼接，拼接后得到的特征向量序列输入至Transformer模型中，以预测最终的三维人体网格顶点以及关键点位置，实现三维人体重建。

进一步的，所述Transformer模型包括上下两层，每层均包括Transformer block，下层用于解耦合关键点和网格顶点，使用下层中Transformer block分别对关键点和人体网格顶点进行编码，得到编码后的关键点与网格顶点；将所述编码后的关键点与网格顶点一起作为上层中Transformer block的输入，由所述上层中Transformer block融合关键点和网格顶点的信息。

进一步的，所述步骤S02中，通过线性混合蒙皮权重将得到的所述关键点的局部特征进行线性组合，得到所述网格顶点的局部特征。

进一步的，所述步骤S02中，还包括从所述采样后特征F′回归关键点位置，使用关键点误差函数监督所述网络提取关键点的局部特征的过程，以使得得到的局部特征编码了关键点位置信息。

进一步的，所述步骤S03中，将提取的所述图像特征F进行最大池化处理后输入至多层感知器，编码得到所述全局特征。

进一步的，所述步骤S04中，使用误差反馈迭代模型预测所述参数化人体模型，预测出一个初步与输入人体图像对齐的三维人体模型，由预测出的所述三维人体模型得到所述人体网格以及对应的所述关键点位置；所述步骤S05中，通过将所述人体网格以及对应的所述关键点位置作为Transformer模型的位置编码信息，以使得所述位置编码信息与输入人体图像对齐。

进一步的，所述步骤S05中，将所述全局特征、关键点的局部特征、网格顶点的局部特征进行拼接，所述特征向量序列S₀包括对应关键点的第一向量序列k₀以及对应网格顶点的第二向量序列v₀，使用关键点和网格顶点的空间位置分别对所述第一向量序列k₀、第二向量序列v₀进行位置编码。

进一步的，所述步骤S05中，还包括在所述Transformer模型中，根据人体的分割信息对关键点和网格顶点进行mask处理，其中对所述关键点进行随机遮罩，并对所述关键点所对应的人体语言分割的网格顶点进行遮罩。

一种基于Transformer模型的三维人体重建装置，包括：

图像特征提取模块，用于输入人体图像，利用卷积神经网络对输入的所述人体图像进行特征提取，得到图像特征F；

局部特征提取模块，用于对提取到的图像特征F进行上采样得到采样后特征F′，将所述采样后特征F′输入至由多个残差块叠加构成的网络，提取得到关键点的局部特征；以及为网格中每个顶点生成一个与人体姿势相关的局部特征，得到网格顶点的局部特征；

全局特征提取模块，用于对提取的所述图像特征F进行全局特征提取；

空间位置提取模块，用于使用所述图像特征F预测参数化人体模型，得到人体网格以及所述人体网格对应的关键点位置；

Transformer模型模块，用于将提取的所述局部特征、全局特征与所述人体网格、关键点位置进行拼接，拼接后得到的特征向量序列输入至Transformer模型中，以预测最终的三维人体网格顶点以及关键点位置，实现三维人体重建。

一种计算机装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序以执行如上述方法。

为解决上述技术问题，本发明提出的技术方案为：

与现有技术相比，本发明的优点在于：

1、本发明通过在特征编码中间层增加一个关键点引导的信息，实现关键点引导的局部特征提取，结合全局特征自感知方式使得能提取得到丰富的细节信息，同时通过将关键点的局部特征、网格顶点的局部特征和全局特征以及关键点位置一并输入Transformer模型进行网格顶点以及关键点位置的预测，能够结合局部特征和全局特征之间的关系从单张RGB图像预测出精准的人体三维模型，从而实现精准的三维人体重建。

2、本发明进一步在关键点相关的局部特征基础上，利用线性混合蒙皮方式，对关键点的局部特征进行线性组合，从而为每个网格顶点也提取了一个局部特征，不仅能够提取得到丰富的细节信息，且相比于传统直接为每个顶点编码局部特征的方式，还可以大大减少计算量，无需依赖于各种复杂模型，可以降低实现复杂程度，能够有效提高效率以及精度。

3、本发明进一步通过使用分层的Transformer模型，在下层解耦合关键点信息和顶点信息，在上层中将编码的信息再次进行融合，通过该先解耦合再融合的操作，能够融合出关键点和网格顶点之间的有用信息进行人体网格预测，进一步提高三维人体模型重建的精度。

4、本发明进一步通过依据人体分割的先验信息进行遮罩处理，在遮罩处理中充分考虑了关键点token和网格顶点token的语义信息，相比于传统直接对人体关键点、和网格顶点都进行随机的遮罩处理方式，能够匹配于人体三维重建的特性而实现更为有效的遮罩处理，且当遮罩了某些关键点和相应的网格顶点时，还能根据输入的局部和全局特征去推断被遮罩处理的顶点位置，从而使得模型在使用时，输入的图像中即便存在人的手或其他部位被遮挡，依然能够有效的预测出这些遮挡的部位，有效提高重建的抗干扰以及灵活性。

附图说明

图1是本实施例基于Transformer模型的三维人体重建方法的实现流程示意图。

图2是本实施例中实现局部特征提取的实现流程示意图。

图3是本实施例中实现全局特征提取的实现流程示意图。

图4是本实施例中采用的Transformer模型的结构示意图。

图5是本实施例中基于Transformer模型实现三维人体重建的流程示意图。

图6是本实施例基于Transformer模型实现三维人体重建的详细实现原理示意图。

图7是本实施例基于Transformer模型实现三维人体重建的详细实现流程示意图。

图8是本发明在具体应用实施例中得到的重建结果示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1～7所示，本实施例基于Transformer模型的三维人体重建方法的步骤包括：

S01.图像特征提取：输入人体R G B图像，利用卷积神经网络对输入的人体R G B图像进行特征提取，得到图像特征F。

具体利用卷积神经网络从输入的人体RGB图像中提取特征

可采用ResNet深度残差网络。

S02.局部特征提取：对提取到的图像特征F进行上采样得到采样后特征F′，将采样后特征F′输入至由多个残差块叠加构成的网络，提取得到关键点的局部特征；以及为网格中每个顶点生成一个与人体姿势相关的局部特征，得到网格顶点的局部特征。

在提取得到图像特征F后进行上采样操作得到特征

上采样过程是具体可以通过叠加三层反卷积操作实现，即通过反卷积将resnet输出的特征图先上采样。通过引入与人体关键点位置相关的局部特征，可以提取得到细节信息，从而使得重建的人体模型具有细节信息，提高重建的精度。

如图2所示，本实施例具体将采样后特征F′输入叠加四个残差块的网络，编码关键点的局部特征

即由残差块输出一个24＊1024的局部特征，24为关键点的个数，以分别为24个关键点提取一个局部特征。同时利用SMPL模板中的混合蒙皮权重将局部特征

(431＊24)进行线性组合，为网格中每个顶点生成一个独立的与人体姿势相关的局部特征

得到网格顶点的局部特征，以使得可以为每个网格顶点编码一个局部特征(431＊1024)，431为网格顶点个数。

本实施例局部特征具体是先通过反卷积将resnet输出的特征图先上采样，然后再通过残差块后输出与关键点相关的局部特征，对编码的关键点的局部特征，同时利用线性混合蒙皮方式，对关键点的局部特征进行线性组合，从而为每个网格顶点也提取了一个局部特征，不仅能够提取得到丰富的细节信息，且相比于传统直接为每个顶点编码局部特征的方式，还可以大大减少计算量，无需依赖于各种复杂模型，可以降低实现复杂程度，能够有效提高效率以及精度。

本实施例在上述局部特征提取过程中，还包括从采样后特征F′回归关键点位置，使用关键点误差函数监督网络提取关键点的局部特征的过程，以使得得到的局部特征编码了关键点位置信息，即通过从F′预测热图来回归人体关键点，使得特征F′中编码与人体姿势相关的特征。通过引入关键点误差监督网络的学习过程，增加一个关键点位置去监督局部特征的提取，使得局部特征是与关键点信息十分相关的，即局部特征高度编码了关键点位置信息，从而可以提取到局部特征编码正确的关键点位置信息，基于准确的关键点的位置信息可以进一步确保人体重建的精度。

S03.全局特征提取：对提取的图像特征F进行全局特征提取。

如图3所示，本实施例具体将由卷积神经网络提取的图像特征F进行最大池化处理后，输入至多层感知器MLP，编码得到全局特征

MLP具体由两个合1024个神经元的全连接层构成，每个全连接层后面接一个dropout层。

本实施例局部特征与全局特征均是直接从输入的R G B图像中，不会丢失图像像素中的有用信息。

S04.空间位置提取：使用图像特征F预测参数化人体模型，得到人体网格以及人体网格对应的关键点位置。

具体从图像特征F利用IEF(误差反馈迭代)模型预测SMPL参数化人体模型通过SMPL参数

参数

可以得到人体网格

然后利用关键点回归函数f可以得到人体网格M₀对应的关键点位置。

上述IEF模块具体由两个含1024个神经元的全连接层组成每层后连接一个dropout层。同时，为了降低模型的计算量，以及为了使得模型更好的去训练，本是私立中人体网格M₀是从6890个顶点降采样到431个顶点得到的，SMPL模型中的θ参数使用的6dof的表示方式。

S05.Transformer模型重建：将提取的局部特征、全局特征与人体网格、关键点位置进行拼接，拼接后得到的特征向量序列输入至Transformer模型中，以预测最终的三维人体网格顶点以及关键点位置，实现三维人体重建。

本实施例先将全局特征、局部特征进行拼接，拼接后结果再分别与关键点位置、人体网格相拼接，得到特征向量序列

特征向量序列S₀包括对应关键点的第一向量序列

以及对应网格顶点的第二向量序列

最后，将序列S₀作为Transformer模型的输入预测最终的三维人体网格顶点

以及关键点位置

Transformer模块具体输入为提取的关键点特征(24＊2048，24个关键点，每个关键点有1024维的局部特征和2014维的全局特征和网格顶点特征(431＊2048)。

Transformer能够很好的编码输入序列，充分的融合输入序列信息，且利用Transformer模型进行人体重建，可以降低实现复杂程度。本实施例利用Transformer的上述特性，使用Transformer模型来实现人体重建，在Transformer模型中使用多头自注意机制，能够更好的编码网格中顶点与顶点之间的关系，则通过提取关键点的局部特征、网格顶点的局部特征和全局特征以及关键点位置一并输入Transformer模型进行网格顶点以及关键点位置的预测，能够结合局部特征和全局特征之间的关系Transformer模型预测出更加精准的人体三维模型，从而实现精准的三维人体重建。

本实施例Transformer模型采用分层Transformer，每个Transformer encoder是一种分层的Transformer模型，具体包括上下两层，每层均包括Transformer block，下层用于解耦合关键点和网格顶点，在下层分别包含两个Transformer block以用于分别针对关键点输入序列k和人体网格顶点输入序列v进行编码，得到编码后的关键点与网格顶点；然后在上层将关键点输入序列和人体网格顶点输入序列拼接起来作为上层Transformerblock的输入，由上层中Transformer block融合关键点和网格顶点的信息。即在下层通过两个Transformer block分别针对关键点和网格顶点编码出关键点与关键点之间的关系以及顶点与顶点之间的关系，然后在上层将编码后的关键点和网格顶点一起作为Transformer block的输入，可以融合出关键点和网格顶点之间的有用信息，以用于直接预测人体网格。

本实施例通过使用分层Transformer模型，先将关键点信息和网格顶点信息解耦合分开编码，可以分别学习出关键点信息和网格顶点信息各自最优的信息，然后在上层的Transformer block同时考虑该关键点信息和网格顶点信息，可以有效将关键点信息和网格顶点信息进行融合。

如图4、5所示，本实施例将特征向量序列S₀通过简单的线性映射后输入Transformer Encoder，输出直接是预测的网格顶点。Transformer encoder模型分为上下两层，每层都通过Transformer block实现，每个Transformer block包含两个LN层和一个多头自注意模块(MHSA)以及一个MLP层。由下层解耦合关键点和网格顶点，分别使用Transformer block对输入的关键点tokenk_l-1和网格顶点token v_l-1进行编码，其中l表示第l层Transformer encoder(本实施例l最大取3)。当l＝1时，k₀，v₀是通过将全局特征向量F_global分别拼接

同时加上关键点以及网格顶点的位置编码后得到。在上层将下层解耦的关键点token k_l和网格顶点token v_l作为Transformer block的输入，融合关键点与网格的信息。为了直接预测网格的三维坐标，每个Transformer encoder后面连接一个线性映射层，以将Transformer encoder输出的特征降维。

上述步骤S04中，具体使用误差反馈迭代模型预测参数化人体模型，预测出一个初步与输入人体图像对齐的三维人体模型，由预测出的三维人体模型得到人体网格以及对应的关键点位置；步骤S05中，通过将人体网格以及对应的关键点位置作为Transformer模型的位置编码信息，以使得位置编码信息与输入人体图像对齐。即Transformer模型中输入的token中所使用到的位置编码，是通过步骤S04中的IEF估计得到的，首先通过一个误差反馈迭代模型预测出一个初步与图像对齐的三维人体模型，然后将模型相应的每个关键点和网格顶点的空间位置(x，y，z)拼接后作为Transformer的位置编码，可以使Transformer模型的位置编码能够与输入的图像对齐。

上述步骤S05中，还包括在Transformer模型中，根据人体的分割信息对关键点和网格顶点进行mask处理，其中对关键点进行随机遮罩，并对关键点所对应的人体语言分割的网格顶点进行遮罩。即首先网格顶点按照与关键点的对应关系分成24个部分，当进行遮罩处理时，首先对关键点token进行随机遮罩，然后根据对应关系遮罩处理相对应的网格顶点token。举例来说，先对左手的关键点进行遮罩处理，相应的再在人体网格顶点中，左手所对应的所有网格顶点进行相应的遮罩。

在人体重建中，人体构造是有一定规则的，也就是说每一个关键点都对应着一些网格顶点，本实施例通过依据人体分割的先验信息进行遮罩处理，在遮罩处理中充分考虑了关键点token和网格顶点token的语义信息，相比于传统直接对人体关键点、和网格顶点都进行随机的遮罩处理方式，能够匹配于人体三维重建的特性而实现更为有效的遮罩处理，且当遮罩了某些关键点和相应的网格顶点时，还能根据输入的局部和全局特征去推断被遮罩处理的顶点位置，从而使得模型在使用时，输入的图像中即便存在人的手或其他部位被遮挡，依然能够有效的预测出这些遮挡的部位，有效提高重建的抗干扰以及灵活性。

在具体应用实施例中，上述步骤S01中所使用的反卷积如表1中的decoder block部分所示，步骤S02中所使用的残差块配置如表1中stacked residual block部分所示。

表1反卷积及残差块配置参数

如图6、7所示，本实施例首先从输入图像中提取图像特征后，分别提取一个全局特征和局部特征，其中通过先通过上采样图像中的特征然后通过特定的残差块模型输出关键点的局部特征，紧接着使用线性混合蒙皮权重对提取的关键点特征进行线性组合得到人体模型网格的局部特征(如图2所示)，全局特征通过如图3所示的全连接网络提取得到，同时为了提取的局部特征与重建的任务密切相关，在整个特征提取流程的中间步骤加入一个特定的关键点监督；然后将得到的全局特征分别与关键点的局部特征以及网格顶点的局部特征拼接起来形成了一系列的特征序列，并使用关键点和网格顶点的三维空间位置分别对相应的特征序列进行位置编码，同时使用误差反馈迭代模型预测一个粗略与图像对齐的SMPL模型，以使得位置编码能够与输入的图像相对齐，然后利用预测的SMPL模型对特征序列编码位置信息，最后将编码了位置信息的特征序列作为Transformer模型输入，最终得到预测的三维人体模型网格以及关键点位置。在具体应用实施例中采用上述方法得到的重建效果如图8所示，其中图8(a)对应为原图、(b)～(d)分别对应为不同视角下的重建效果。

本发明通过在特征编码中间层增加一个关键点引导的信息，实现关键点引导的局部特征提取，结合全局特征自感知方式使得能提取得到丰富的细节信息，同时通过将关键点的局部特征、网格顶点的局部特征和全局特征以及关键点位置一并输入Transformer模型进行网格顶点以及关键点位置的预测，能够结合局部特征和全局特征之间的关系从单张RGB图像预测出精准的人体三维模型，从而实现精准的三维人体重建。进一步的局部特征的编码只需要先编码关键点特征，再通过蒙皮权重进行线性组合，就能够为每个网格编码一个合理的局部特征，由于关键点的数目远远小于网格顶点的数目，因而局部特征编码效率相比于传统编码方式更高。进一步的通过使用分层的Transformer模型，在下层解耦合关键点信息和顶点信息，在上层中将编码的信息再次进行融合，通过该先解耦合再融合的操作，能够融合出关键点和网格顶点之间的有用信息进行人体网格预测，进一步提高三维人体模型重建的精度。

本实施例基于Transformer模型的三维人体重建装置的包括：

图像特征提取模块，用于输入人体图像，利用卷积神经网络对输入的人体图像进行特征提取，得到图像特征F；

局部特征提取模块，用于对提取到的图像特征F进行上采样得到采样后特征F′，将采样后特征F′输入至由多个残差块叠加构成的网络，提取得到关键点的局部特征；以及为网格中每个顶点生成一个与人体姿势相关的局部特征，得到网格顶点的局部特征；

全局特征提取模块，用于对提取的图像特征F进行全局特征提取；

空间位置提取模块，用于使用图像特征F预测参数化人体模型，得到人体网格以及人体网格对应的关键点位置；

Transformer模型模块，用于将提取的局部特征、全局特征与人体网格、关键点位置进行拼接，拼接后得到的特征向量序列输入至Transformer模型中，以预测最终的三维人体网格顶点以及关键点位置，实现三维人体重建。

本实施例基于Transformer模型的三维人体重建装置与上述基于Transformer模型的三维人体重建方法为——对应，在此不再——赘述。

本实施例计算机装置，包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行计算机程序，处理器用于执行计算机程序以执行如上述方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于Transformer模型的三维人体重建方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于Transformer模型的三维人体重建方法，其特征在于，所述Transformer模型包括上下两层，每层均包括Transformer block，下层用于解耦合关键点和网格顶点，使用下层中Transformer block分别对关键点和人体网格顶点进行编码，得到编码后的关键点与网格顶点；将所述编码后的关键点与网格顶点一起作为上层中Transformer block的输入，由所述上层中Transformer block融合关键点和网格顶点的信息。

3.根据权利要求1所述的基于Transformer模型的三维人体重建方法，其特征在于，所述步骤S02中，通过线性混合蒙皮权重将得到的所述关键点的局部特征进行线性组合，得到所述网格顶点的局部特征。

4.根据权利要求1所述的基于Transformer模型的三维人体重建方法，其特征在于，所述步骤S02中，还包括从所述采样后特征F′回归关键点位置，使用关键点误差函数监督所述网络提取关键点的局部特征的过程，以使得得到的局部特征编码了关键点位置信息。

5.根据权利要求1所述的基于Transformer模型的三维人体重建方法，其特征在于，所述步骤S03中，将提取的所述图像特征F进行最大池化处理后输入至多层感知器，编码得到所述全局特征。

6.根据权利要求1～5中任意一项所述的基于Transformer模型的三维人体重建方法，其特征在于，所述步骤S04中，使用误差反馈迭代模型预测所述参数化人体模型，预测出一个初步与输入人体图像对齐的三维人体模型，由预测出的所述三维人体模型得到所述人体网格以及对应的所述关键点位置；所述步骤S05中，通过将所述人体网格以及对应的所述关键点位置作为Transformer模型的位置编码信息，以使得所述位置编码信息与输入人体图像对齐。

7.根据权利要求1～5中任意一项所述的基于Transformer模型的三维人体重建方法，其特征在于，所述步骤S05中，将所述全局特征、关键点的局部特征、网格顶点的局部特征进行拼接，所述特征向量序列S₀包括对应关键点的第一向量序列k₀以及对应网格顶点的第二向量序列v₀，使用关键点和网格顶点的空间位置分别对所述第一向量序列k₀、第二向量序列v₀进行位置编码。

8.根据权利要求1～5中任意一项所述的基于Transformer模型的三维人体重建方法，其特征在于，所述步骤S05中，还包括在所述Transformer模型中，根据人体的分割信息对关键点和网格顶点进行mask处理，其中对所述关键点进行随机遮罩，并对所述关键点所对应的人体语言分割的网格顶点进行遮罩。

9.一种基于Transformer模型的三维人体重建系统，其特征在于，包括：

10.一种计算机装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～8中任意一项所述方法。