CN117808976A

CN117808976A - 一种三维模型构建方法、装置、存储介质及电子设备

Info

Publication number: CN117808976A
Application number: CN202410236989.XA
Authority: CN
Inventors: 王宏升; 林峰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-02
Anticipated expiration: 2044-03-01
Also published as: CN117808976B

Abstract

本说明书公开了一种三维模型构建方法、装置、存储介质及电子设备，通过特征提取模型提取人体二维图像中的得到第一人体外观特征向量，通过扩散模型对第一人体外观特征向量进行特征补充，可使得该人体二维图像中被遮挡的人体部位的外观特征被补充，得到第二人体外观特征向量，根据补充后的人体外观特征向量，即第二人体外观特征向量，构建人体三维模型，提高了人体三维模型的准确性。

Description

一种三维模型构建方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机领域，尤其涉及一种三维模型构建方法、装置、存储介质及电子设备。

背景技术

随着计算机视觉技术的发展，现如今已经可以实现从视频影像或者多张二维图像中，构建出人体的三维模型，该人体的三维模型还原了视频影像或多张二维图像中人体的形态、姿态等人体外观。通常可通过人工智能技术训练出的人体三维模型生成模型，得到人体三维模型。例如，将视频中的每帧二维图像输入人体三维模型生成模型，该人体三维模型生成模型提取人体二维图像中人体的三维姿态和形状信息，即人体图像特征，以生成人体三维模型。但实际上视频中的人体二维图像中的人体的某些部位可能存在被遮挡的情况，那么，该人体三维模型生成模型无法获取完整的人体三维姿态，会降低生成的人体三维模型的准确性。

基于此，本说明书提供一种三维模型构建方法。

发明内容

本说明书提供一种三维模型构建方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种三维模型构建方法，所述方法包括：

获取待构建人体三维模型的若干人体二维图像；

将所述若干人体二维图像输入特征提取模型，得到所述特征提取模型输出的所述若干人体二维图像的第一人体外观特征向量；

将所述第一人体外观特征向量输入预先训练好的扩散模型，以使所述扩散模型对所述第一人体外观特征向量进行特征向量补充，得到补充后的第一人体外观特征向量，作为第二人体外观特征向量；

将所述第二人体外观特征向量输入人体三维模型生成模型，得到所述人体三维模型生成模型构建的所述若干人体二维图像对应的人体三维模型。

可选地，将所述若干人体二维图像输入特征提取模型之前，所述方法还包括：

针对每个人体二维图像，对该人体二维图像进行预处理，其中，所述预处理包括图像缩放、图像增强。

可选地，特征提取模型包括若干个特征提取网络，每个特征提取网络的分辨率不同；

将所述若干人体二维图像输入特征提取模型，得到所述特征提取模型输出的所述若干人体二维图像的第一人体外观特征向量，具体包括：

针对每个人体二维图像，将该人体二维图像输入特征提取模型中的每个特征提取网络，得到每个特征提取网络输出的该人体二维图像的初始特征图；

融合所有特征提取网络输出的该人体二维图像的初始特征图，得到融合特征图；

通过预设转换方法，将所述融合特征图转换为人体外观特征向量，得到第一人体外观特征向量。

可选地，将所述第一人体外观特征向量输入预先训练好的扩散模型之前，所述方法还包括：

确定所述若干人体二维图像的拍摄时间；

根据所述拍摄时间，将所述若干人体二维图像的第一人体外观特征向量进行融合，得到融合后的第一人体外观特征向量；

通过时间卷积网络及时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，得到优化人体外观特征向量，作为第一人体外观特征向量。

可选地，通过时间卷积网络及时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，具体包括：

将所述融合后的第一人体外观特征向量输入三维残差神经网络编码器，以使所述三维残差神经网络编码器对所述融合后的第一人体外观特征向量进行编码，得到人体外观编码向量；

将所述人体外观编码向量输入时间卷积网络，以使所述时间卷积网络对所述人体外观编码向量进行卷积，得到人体外观时间特征向量；

根据所述人体外观时间特征向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化。

可选地，根据所述人体外观时间特征向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，具体包括：

获取所述若干人体二维图像的人体视频影像；

通过双向编码器提取所述人体视频影像的时间词向量；

根据词向量编码器对所述时间词向量进行编码，得到编码后的时间词向量；

根据所述人体外观时间特征向量、所述编码后的时间词向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化。

可选地，根据所述人体外观时间特征向量、所述编码后的时间词向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，具体包括：

通过时间注意力网络，对所述人体外观时间特征向量进行解码，得到解码后的所述人体外观时间特征向量，并作为权重向量；

将所述编码后的时间词向量及所述权重向量输入交叉注意力网络，得到所述交叉注意力网络输出的时间提示向量，作为优化特征向量。

可选地，训练所述扩散模型，具体包括：

获取样本人体二维图像；

根据所述样本人体二维图像，确定所述样本人体二维图像的样本人体外观特征向量，作为标签；

将所述样本人体外观特征向量输入所述扩散模型，以使所述扩散模型对所述样本人体外观特征向量添加预设噪声，得到添加噪声后的样本人体外观特征向量，其中，所述预设噪声服从高斯分布；

通过所述扩散模型，对所述添加噪声后的样本人体外观特征向量进行预设次数的噪声去除，得到预测人体外观特征向量，其中，每次去除的噪声服从高斯分布；

根据所述标签及所述预测人体外观特征向量，对所述扩散模型进行训练。

本说明书提供了一种三维模型构建装置，所述装置包括：

图像获取模块，用于获取待构建人体三维模型的若干人体二维图像；

第一特征向量获取模块，用于将所述若干人体二维图像输入特征提取模型，得到所述特征提取模型输出的所述若干人体二维图像的第一人体外观特征向量；

第二特征向量获取模块，用于将所述第一人体外观特征向量输入预先训练好的扩散模型，以使所述扩散模型对所述第一人体外观特征向量进行特征向量补充，得到补充后的第一人体外观特征向量，作为第二人体外观特征向量；

人体模型构建模块，用于将所述第二人体外观特征向量输入人体三维模型生成模型，得到所述人体三维模型生成模型构建的所述若干人体二维图像对应的人体三维模型。

可选地，所述装置还包括：

预处理模块，用于针对每个人体二维图像，对该人体二维图像进行预处理，其中，所述预处理包括图像缩放、图像增强。

所述第一特征向量获取模块具体用于，针对每个人体二维图像，将该人体二维图像输入特征提取模型中的每个特征提取网络，得到每个特征提取网络输出的该人体二维图像的初始特征图；融合所有特征提取网络输出的该人体二维图像的初始特征图，得到融合特征图；通过预设转换方法，将所述融合特征图转换为人体外观特征向量，得到第一人体外观特征向量。

可选地，所述装置还包括：

优化模块，用于将所述第一人体外观特征向量输入预先训练好的扩散模型之前，确定所述若干人体二维图像的拍摄时间；根据所述拍摄时间，将所述若干人体二维图像的第一人体外观特征向量进行融合，得到融合后的第一人体外观特征向量；通过时间卷积网络及时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，得到优化人体外观特征向量，作为第一人体外观特征向量。

可选地，所述优化模块具体用于，将所述融合后的第一人体外观特征向量输入三维残差神经网络编码器，以使所述三维残差神经网络编码器对所述融合后的第一人体外观特征向量进行编码，得到人体外观编码向量；将所述人体外观编码向量输入时间卷积网络，以使所述时间卷积网络对所述人体外观编码向量进行卷积，得到人体外观时间特征向量；根据所述人体外观时间特征向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化。

可选地，所述优化模块具体用于，获取所述若干人体二维图像的人体视频影像；通过双向编码器提取所述人体视频影像的时间词向量；根据词向量编码器对所述时间词向量进行编码，得到编码后的时间词向量；根据所述人体外观时间特征向量、所述编码后的时间词向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化。

可选地，所述优化模块具体用于，通过时间注意力网络，对所述人体外观时间特征向量进行解码，得到解码后的所述人体外观时间特征向量，并作为权重向量；将所述编码后的时间词向量及所述权重向量输入交叉注意力网络，得到所述交叉注意力网络输出的时间提示向量，作为优化特征向量。

可选地，所述装置还包括：

训练模块，用于获取样本人体二维图像；根据所述样本人体二维图像，确定所述样本人体二维图像的样本人体外观特征向量，作为标签；将所述样本人体外观特征向量输入所述扩散模型，以使所述扩散模型对所述样本人体外观特征向量添加预设噪声，得到添加噪声后的样本人体外观特征向量，其中，所述预设噪声服从高斯分布；通过所述扩散模型，对所述添加噪声后的样本人体外观特征向量进行预设次数的噪声去除，得到预测人体外观特征向量，其中，每次去除的噪声服从高斯分布；根据所述标签及所述预测人体外观特征向量，对所述扩散模型进行训练。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述三维模型构建方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述三维模型构建方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

从本说明书提供的三维模型构建方法可以看出，通过特征提取模型提取人体二维图像中的得到第一人体外观特征向量，通过扩散模型对第一人体外观特征向量进行特征补充，可使得该人体二维图像中被遮挡的人体部位的外观特征被补充，得到第二人体外观特征向量，根据补充后的人体外观特征向量，即第二人体外观特征向量，构建人体三维模型，提高了人体三维模型的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种三维模型构建方法的流程示意图；

图2为本说明书提供的特征提取流程示意图；

图3为本说明书提供的优化特征流程示意图；

图4为本说明书提供的训练扩散模型的流程示意图；

图5为本说明书提供的一种三维模型构建装置的示意图；

图6为本说明书提供的一种对应于图1的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种三维模型构建方法的流程示意图，包括以下步骤：

S100：获取待构建人体三维模型的若干人体二维图像。

构建人体三维模型通常需要提取人体二维图像中的人体图像特征，再根据人体图像特征进行构建。人体图像特征包括人体二维图像中人体的三维姿态、形态等，即人的姿势、体型、外貌等。但人体二维图像中的人体可能存在被遮挡的情况，尤其是对于视频影像中的人体，视频影像中人体是动态变化的，被遮挡情况的可能性也较高。由于若待构建人体三维模型的人体存在被遮挡等情况，导致特征提取模型无法提取到被遮挡区域的特征，那么，人体三维模型生成模型可能无法构建被遮挡区域的人体三维模型部分，或者直接对被遮挡区域周围的人体图像特征进行插值，作为被遮挡区域的人体模型特征，再进行构建。但无论是前者还是后者，构建的人体三维模型的准确性不高。因此，本说明书提供一种三维模型构建方法。本说明书的执行主体可为训练扩散模型的服务器，也可为部署了人体三维模型生成模型的服务器或其他电子设备，本说明说对此不作限制，为了便于说明，本说明书以服务器为执行主体进行说明。

为了进行人体三维模型构建，需要先获取待构建人体三维模型的若干人体二维图像，该人体二维图像可为视频影像中每帧的人体二维图像。那么，服务器可先读取人体视频影像文件，将该人体视频影像文件逐帧处理为人体二维图像，即获取该人体视频影像文件中每帧人体二维影像。其中，将视频影像文件逐帧处理为二维图像的方法较多，且发展较为成熟，本说明书对此不再赘述。

S102：将所述若干人体二维图像输入特征提取模型，得到所述特征提取模型输出的所述若干人体二维图像的第一人体外观特征向量。

图2为本说明书提供的特征提取流程示意图，如图2所示。

为了提高获取的人体图像特征的准确性，服务器还可对若干人体二维图像进行预处理。即针对每个人体二维图像，对该人体二维图像进行预处理，其中，预处理可包括图像缩放、图像增强、归一化等。再将预处理后的若干人体二维图像输入特征提取模型，当然，也可不进行预处理，直接将若干人体二维图像输入特征提取模型，得到该特征提取模型输出的该若干人体二维图像的第一人体外观特征向量。

具体的，特征提取模型包括若干个特征提取网络，每个特征提取网络的分辨率不同。针对每个人体二维图像，将该人体二维图像输入特征提取模型中的每个特征提取网络，得到每个特征提取网络输出的该人体二维图像的初始特征图，特征提取网络可为卷积神经网络，本说明书对此不做限制。如图2所示，该特征提取模型中包括第一分辨率特征提取网络、第二分辨率特征提取网络及第三分辨率特征提取网络，第一分辨率特征提取网络的分辨率高于第二分辨率特征提取网络及第三分辨率特征提取网络，第二分辨率特征提取网络的分辨率高于第三分辨率特征提取网络。为了使得特征提取模型的输入与输出形式一致，还可在该特征提取模型中设置残差结构。

将人体二维图像输入特征提取模型后，每个特征提取网络均对该人体二维图像进行特征提取，得到若干初始特征图。为了获取准确率较高的特征，可将所有初始特征图进行融合，得到可表征二维图像的图像特征，即融合所有特征提取网络输出的该人体二维图像的初始特征图，得到融合特征图。服务器可直接将所有初始特征进行拼接，得到融合特征图，也可根据其他融合方法进行融合，本说明书对此不作限制。

接着，通过预设转换方法，将该融合特征图转换为人体外观特征向量，得到第一人体外观特征向量，该第一人体外观特征向量即为人体二维图像的人体图像特征，如人体的姿态特征、体型特征等。该预设转换方法可包括全局平均池化、全局最大池化等，本说明书对此不做限制。

S104：将所述第一人体外观特征向量输入预先训练好的扩散模型，以使所述扩散模型对所述第一人体外观特征向量进行特征向量补充，得到补充后的第一人体外观特征向量，作为第二人体外观特征向量。

由于视频中的人体可能存在被遮挡情况，那么该被遮挡的区域则无法进行人体三维构建或直接根据插值的方式得到被遮挡区域的人体图像特征，进行构建得到的人体三维模型准确性较低。因此，本说明书通过扩散模型补充被遮挡的人体的特征。扩散模型是对输入数据进行加噪再去噪，以还原输入数据中的真实特征分布，输入数据可为人体二维图像、人体图像特征等。对人体图像特征进行加噪和去噪的过程可以被看作是对人体图像特征分布的建模过程，扩散模型可学习给定噪声下的原始人体图像特征分布。通过这种方式，扩散模型可以学到人体图像特征的真实分布，而不是仅仅记住训练数据中的具体样本。那么，扩散模型可根据学习到的人体图像特征的分布，对被遮挡的人体区域的特征进行补充，提高了人体三维模型构建的准确性。

具体的，将该第一人体外观特征向量输入预先训练好的扩散模型，扩散模型中的噪声预测器预测该第一人体外观特征向量中的噪声，通过该扩散模型去除该噪声预测器预测的该第一人体外观特征向量中的噪声，得到去除噪声后的第一人体外观特征向量，即第二人体外观特征向量。扩散模型对该第一人体外观特征向量进行加噪去噪的过程，可实现对该第一人体外观特征向量进行特征向量补充，每次添加的噪声及去除的噪声符合高斯分布。

S106：将所述第二人体外观特征向量输入人体三维模型生成模型，得到所述人体三维模型生成模型构建的所述若干人体二维图像对应的人体三维模型。

基于图1所示的三维模型构建方法，通过特征提取模型提取人体二维图像中的得到第一人体外观特征向量，通过扩散模型对第一人体外观特征向量进行人体外观特征补充，可使得该人体二维图像中被遮挡的人体区域的人体外观特征被补充，得到第二人体外观特征向量，根据补充后的人体外观特征向量构建人体三维模型，提高了人体三维模型的准确性。

由于若干人体二维图像是根据人体视频影像获得，而人体视频影像中还存在时间相关信息，可提示扩散模型生成出时间连续性更强、拥有空间一致性的人体外观特征向量，使补充后的第一人体外观特征向量在时间和空间上具有更强的特征表达能力。因此，服务器在将该第一人体外观特征向量输入预先训练好的扩散模型之前，可确定该若干人体二维图像的拍摄时间，该拍摄时间可从该人体二维图像的人体视频影像中获取，再根据该拍摄时间，将该若干人体二维图像的第一人体外观特征向量进行融合，得到融合后的第一人体外观特征向量，融合后的第一人体外观特征向量包含了时间维度的信息。

图3为本说明书提供的优化特征流程示意图，如图3所示。

进一步地，为了使得第一人体外观特征向量获取时间、空间信息，以使人体三维模型能表达出人体视频影像中人体在时间连续性的细节特征，可对第一人体外观特征向量进行优化，即对融合后的第一人体外观特征训练进行优化，得到优化特征向量，作为输入扩散模型的第一人体外观特征向量。那么，服务器可通过时间卷积网络（TemporalConvolutional Network，TCN）及时间注意力网络（Temporal Attention Network，TAN），对该融合后的第一人体外观特征向量进行优化，得到优化特征向量，作为第一人体外观特征向量。

具体的，服务器将该融合后的第一人体外观特征向量输入三维残差神经网络编码器，以使该三维残差神经网络编码器对该融合后的第一人体外观特征向量进行编码，得到人体外观编码向量。该三维残差神经网络编码器可学习到连续帧的人体二维图像中的时序特征，捕捉连续帧之间的动态变化。

再将该人体外观编码向量输入时间卷积网络，以使该时间卷积网络对该人体外观编码向量进行卷积，得到人体外观时间特征向量。时间卷积网络能够捕捉不同时间尺度的特征，包括短期和长期的依赖关系，此外，时间卷积网络中包含全局池化层，用于从整个时间序列中提取全局信息，可捕获整体的人体特征变化趋势。

对于一维时间卷积，输出的时间特征向量如下式所示：

其中， k 是卷积核的大小，x为输入的编码向量，b为偏置，t为时间，为可学习的模型参数。

之后，服务器将该人体外观时间特征向量输入时间注意力网络，得到权重向量。也就是说，通过时间注意力网络，对该人体外观时间特征向量进行解码，得到解码后的该人体外观时间特征向量，并作为权重向量。由于该时间注意力网络能够在学习和选择时间序列中的重要部分，即该时间注意力网络进而用于捕捉时间序列中不同位置的重要性。因此，通过该时间注意力网络能够选择人体外观时间特征向量中较为重要的特征，并赋予较高的权重，以优化第一人体外观特征向量。

如图3所示，服务器还可直接从人体二维图像的视频影像中获取时间相关信息，以优化融合后的第一人体外观特征向量。那么，服务器可获取该若干人体二维图像的人体视频影像，通过双向编码器提取该人体视频影像的时间词向量，其中，该双向编码器是一个预训练过的模型，能够有效地提取时间信息并生成一个包含时间信息的词向量。再根据词向量编码器对该时间词向量进行编码，得到编码后的时间词向量。以根据该人体外观时间特征向量、该编码后的时间词向量及该时间注意力网络，对该融合后的第一人体外观特征向量进行优化。

得到时间词向量后，通过时间注意力网络，对该人体外观时间特征向量进行解码，得到解码后的该人体外观时间特征向量，并作为权重向量。再将该编码后的时间词向量及该权重向量输入交叉注意力网络，得到该交叉注意力网络输出的时间提示向量，作为优化特征向量，将该优化特征向量作为第一特征向量输入扩散模型。

针对步骤S106，为了使得人体三维模型生成模型输出的数据更适应于来自人体视频影像的人体图像特征，因此，还可先对人体三维模型生成模型进行微调训练。在微调训练过程中，可先获取微调人体特征向量，及该微调人体特征向量对应的人体三维模型，作为微调训练的标签。将该微调人体特征向量输入该人体三维模型生成模型，得到该人体三维模型生成模型输出的预测人体三维模型。根据该预测人体三维模型及微调训练的标签，对该人体三维模型生成模型进行微调训练。

在微调训练过程中，为了增强人体三维模型生成模型输出的人体三维模型的时间一致性，在人体三维模型生成模型中的线性层后引入时间卷积网络，以考虑视频帧之间的时间关系。为了更好地适应人体图像的自动编码器，可对时间卷积网络的最后一层进行零初始化，并引入残差连接，以促进信息传递和减缓梯度消失问题。

为了更准确地在像素空间中呈现人体视频影像，服务器可采用三维卷积层，将时间维度注入人体三维模型生成模型，并对该人体三维模型生成模型进行微调训练以适应人体视频数据。

本说明书还提供一种扩散模型的训练方法，执行主体为训练扩散模型的服务器。

图4为本说明书提供的训练扩散模型的流程示意图，如图4所示。

服务器先获取样本人体二维图像，根据该样本人体二维图像，确定该样本人体二维图像的样本人体外观特征向量，作为标签。再将该样本人体外观特征向量输入该扩散模型，以使该扩散模型对该样本人体外观特征向量添加预设噪声，得到添加噪声后的样本人体外观特征向量，其中，该预设噪声服从高斯分布。

之后，通过该扩散模型，对该添加噪声后的样本人体外观特征向量进行预设次数的噪声去除，得到预测人体外观特征向量，其中，每次去除的噪声服从高斯分布。最后，根据该标签及该预测人体外观特征向量，对该扩散模型进行训练。即将每次加噪前的样本人体外观特征向量作为加噪后的样本人体外观特征向量的标签，也就是说，将加噪后的样本人体外观特征向量经过一次去噪后的样本人体外观特征向量确定为预测人体外观特征向量，确定预测人体外观特征向量与加噪前的样本人体外观特征向量的差异，以缩小该差异，对扩散模型进行训练。

例如，对样本人体外观特征向量添加两次噪声，未添加噪声的样本人体外观特征向量为特征向量1，添加一次噪声的样本人体外观特征向量为特征向量2，添加两次噪声的样本人体外观特征向量为特征向量3，添加两次噪声后，再进行两次去噪。对特征向量3进行一次去噪，得到特征向量4，则特征向量4的标签为特征向量2，再对特征向量4进行一次去噪，即可对特征向量3进行两次去噪，得到特征向量5，特征向量5的标签为特征向量1。

在添加噪声时，服务器还可运用噪声预测器（U型结构的卷积神经网络）进行预测，即预测每次添加到样本人体外观特征向量中的噪声，并根据实际添加的噪声，确定损失，以减少损失为训练目标，使得噪声预测器模型学会如何预测噪声。在进行若干次噪声添加后，样本人体外观特征向量可变为纯高斯分布的噪声。每次添加噪声后的样本人体外观特征向量如下式所示：

其中，t为总加噪次数，为未添加噪声的样本人体外观特征向量，/>为添加的噪声，该噪声服从N（0，1），即高斯分布。

为了简化添加噪声的步骤，服务器可给样本人体外观特征向量及预设噪声分别赋予权重，则每次添加噪声后的样本人体外观特征向量如下式所示：

其中，为随着加噪次数增加而减少的常数，可由/>推导得到，/>。

那么，噪声预测器预测的噪声为，/>为扩散模型的模型参数。通过该方式，可仅进行一次抽取噪声，后续的每次添加的噪声可根据前一次添加的噪声进行推导得到，提高了扩散模型的训练效率。

在对扩散模型进行训练时，除了根据样本人体外观特征向量及标签进行训练，还可确定每次添加的噪声与噪声预测器预测的噪声的差异，最小化该差异，对扩散模型进行训练。损失函数可为均方误差，具体如下式所示：

其中，N为样本人体外观特征向量的数量，为每次添加的噪声，/>为噪声预测器预测的噪声。

去噪过程目标是让扩散模型去除原始输入的噪声分布，增强输入特征的生成能力。这是训练扩散模型学习人体特征分布的关键步骤，去噪过程的目标是从给定的恢复到，从第T个时间步开始，扩散模型接收输入/>和当前时间步t，将当前输入的样本人体外观特征向量减去预测的噪声，得到去噪后的样本人体外观特征向量，重复上述过程, 直至恢复到原始输入，具体如下式所示：

对于任意时刻的输入，可以认为是从某个/>直接加噪后得来的。若知道/>一次加噪得到/>的噪声/>，就可以求出它的前一时刻/>的概率分布。

那么，通过输入t时刻的人体外观特征向量，来预测此输入相对于的噪声/>，根据噪声/>就可以预测出上一时刻/>的输入。再将/>的人体外观特征向量输入扩散模型继续训练，就可以得到/>的人体外观特征向量。不断反向传播最终就可以得到初始的人体外观特征向量，即完成了去噪的全部过程。在噪声去除后，可以使输入的人体外观特征向量更加清晰、细节更丰富，以为人体三维模型生成模型提供更准确的、更具生成能力的特征和信息。

以上为本说明书的一个或多个实施的方法，基于图1所示的三维模型构建方法的流程示意图，本说明书还提供了相应的三维模型构建装置，如图5所示。

图5为本说明书提供的一种三维模型构建装置的示意图，包括：

图像获取模块500，用于获取待构建人体三维模型的若干人体二维图像；

第一特征向量获取模块502，用于将所述若干人体二维图像输入特征提取模型，得到所述特征提取模型输出的所述若干人体二维图像的第一人体外观特征向量；

第二特征向量获取模块504，用于将所述第一人体外观特征向量输入预先训练好的扩散模型，以使所述扩散模型对所述第一人体外观特征向量进行特征向量补充，得到补充后的第一人体外观特征向量，作为第二人体外观特征向量；

人体模型构建模块506，用于将所述第二人体外观特征向量输入人体三维模型生成模型，得到所述人体三维模型生成模型构建的所述若干人体二维图像对应的人体三维模型。

可选地，所述装置还包括：

预处理模块508，用于针对每个人体二维图像，对该人体二维图像进行预处理，其中，所述预处理包括图像缩放、图像增强。

所述第一特征向量获取模块502具体用于，针对每个人体二维图像，将该人体二维图像输入特征提取模型中的每个特征提取网络，得到每个特征提取网络输出的该人体二维图像的初始特征图；融合所有特征提取网络输出的该人体二维图像的初始特征图，得到融合特征图；通过预设转换方法，将所述融合特征图转换为人体外观特征向量，得到第一人体外观特征向量。

可选地，所述装置还包括：

优化模块510，用于将所述第一人体外观特征向量输入预先训练好的扩散模型之前，确定所述若干人体二维图像的拍摄时间；根据所述拍摄时间，将所述若干人体二维图像的第一人体外观特征向量进行融合，得到融合后的第一人体外观特征向量；通过时间卷积网络及时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，得到优化人体外观特征向量，作为第一人体外观特征向量。

可选地，所述优化模块510具体用于，将所述融合后的第一人体外观特征向量输入三维残差神经网络编码器，以使所述三维残差神经网络编码器对所述融合后的第一人体外观特征向量进行编码，得到人体外观编码向量；将所述人体外观编码向量输入时间卷积网络，以使所述时间卷积网络对所述人体外观编码向量进行卷积，得到人体外观时间特征向量；根据所述人体外观时间特征向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化。

可选地，所述优化模块510具体用于，获取所述若干人体二维图像的人体视频影像；通过双向编码器提取所述人体视频影像的时间词向量；根据词向量编码器对所述时间词向量进行编码，得到编码后的时间词向量；根据所述人体外观时间特征向量、所述编码后的时间词向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化。

可选地，所述优化模块510具体用于，通过时间注意力网络，对所述人体外观时间特征向量进行解码，得到解码后的所述人体外观时间特征向量，并作为权重向量；将所述编码后的时间词向量及所述权重向量输入交叉注意力网络，得到所述交叉注意力网络输出的时间提示向量，作为优化特征向量。

可选地，所述装置还包括：

训练模块512，用于获获取样本人体二维图像；根据所述样本人体二维图像，确定所述样本人体二维图像的样本人体外观特征向量，作为标签；将所述样本人体外观特征向量输入所述扩散模型，以使所述扩散模型对所述样本人体外观特征向量添加预设噪声，得到添加噪声后的样本人体外观特征向量，其中，所述预设噪声服从高斯分布；通过所述扩散模型，对所述添加噪声后的样本人体外观特征向量进行预设次数的噪声去除，得到预测人体外观特征向量，其中，每次去除的噪声服从高斯分布；根据所述标签及所述预测人体外观特征向量，对所述扩散模型进行训练。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种三维模型构建方法。

本说明书还提供了图6所示的一种对应于图1的电子设备的结构示意图。如图6所示，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的三维模型构建方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(第一芯粒)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种三维模型构建方法，其特征在于，所述方法包括：

获取待构建人体三维模型的若干人体二维图像；

2.如权利要求1所述的方法，其特征在于，将所述若干人体二维图像输入特征提取模型之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，特征提取模型包括若干个特征提取网络，每个特征提取网络的分辨率不同；

4.如权利要求1所述的方法，其特征在于，将所述第一人体外观特征向量输入预先训练好的扩散模型之前，所述方法还包括：

确定所述若干人体二维图像的拍摄时间；

5.如权利要求4所述的方法，其特征在于，通过时间卷积网络及时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，具体包括：

6.如权利要求5所述的方法，其特征在于，根据所述人体外观时间特征向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，具体包括：

获取所述若干人体二维图像的人体视频影像；

通过双向编码器提取所述人体视频影像的时间词向量；

7.如权利要求6所述的方法，其特征在于，根据所述人体外观时间特征向量、所述编码后的时间词向量及所述时间注意力网络，对所述融合后的第一人体外观特征向量进行优化，具体包括：

8.如权利要求1所述的方法，其特征在于，训练所述扩散模型，具体包括：

获取样本人体二维图像；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。