CN111598111A

CN111598111A - 三维模型生成方法、装置、计算机设备及存储介质

Info

Publication number: CN111598111A
Application number: CN202010418882.9A
Authority: CN
Inventors: 曾望; 欧阳万里; 罗平; 刘文韬; 王晓刚
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-28
Anticipated expiration: 2040-05-18
Also published as: WO2021232941A1; CN111598111B

Abstract

本公开提供了一种三维模型生成方法、装置、计算机设备及存储介质，包括：基于预先训练好的第一神经网络，确定待处理图像的全局特征向量、局部特征图以及语义特征图，语义特征图中任一第一特征点的特征值包括第一特征点在语义空间中的语义坐标；基于语义特征图中的第一特征点，将局部特征图中与第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，语义特征点构成语义局部特征图；基于语义局部特征图、全局特征向量、以及预先训练好的第二神经网络，生成待处理图像对应的位置图；位置图中包括待处理图像中的目标对象的各个位置点的语义坐标和三维位置坐标；基于位置图，生成目标对象对应的三维模型。

Description

三维模型生成方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及三维模型生成方法、装置、计算机设备及存储介质。

背景技术

随着计算机视觉以及人机交互领域的发展，人体三维模型发挥了越来越重要的作用，通过生成人体三维模型，可以实现人体动作识别、人机交互等。

相关技术中，在生成三维人体模型时，一般依赖于现有的三维模板人体模型，通过预测神经网络模型中的模型参数，在预设的三维模板人体模型的基础上生成出目标对象的三维人体模型。然而由于预设的三维模板人体模型的表达能力有限，在生成目标对象的三维人体模型时，精度有限。例如，若某个人的身材异于常人的身材，由于现有的三维模板人体模型的表达能力有限，则生成出的这个人的三维人体模型的精度会受到影响。

发明内容

本公开实施例至少提供一种三维模型生成方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种三维模型生成方法，包括：

基于预先训练好的第一神经网络，确定待处理图像的全局特征向量、局部特征图以及语义特征图，所述语义特征图中任一第一特征点的特征值包括所述第一特征点在语义空间中的语义坐标；

基于所述语义特征图中的第一特征点，将所述局部特征图中与所述第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图；

基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图；所述位置图中包括所述待处理图像中的目标对象的各个位置点的语义坐标和三维位置坐标；

基于所述位置图，生成所述目标对象对应的三维模型。

本公开所提供的方法，由于在生成三维模型时，是通过预测位置图的方式，位置图中包括目标对象的各个位置点的三维位置坐标，在预测出位置图之后，可以根据预测的位置图生成目标对象对应的三维模型，因此，本公开所提供的方法可以不受预设的三维模型的表达能力的约束，生成的三维模型的精度更高。

一种可能的实施方式中，所述第一特征点的语义坐标包括该第一特征点在所述语义空间中不同坐标方向上的坐标值；所述第一特征点的特征值还包括该第一特征点属于所述目标对象的概率。

一种可能的实施方式中，所述基于预先训练好的第一神经网络，确定所述待处理图像的全局特征向量、局部特征图以及语义特征图，包括：对所述待处理图像进行下采样处理，得到中间特征图；基于所述中间特征图，确定所述全局特征向量和所述局部特征图；对所述局部特征图进行特征提取，得到所述语义特征图。

一种可能的实施方式中，基于所述中间特征图，确定所述全局特征向量和所述局部特征图，包括：对所述中间特征图进行池化处理和全连接处理，得到所述待处理图像对应的所述全局特征向量；以及，对所述中间特征图进行上采样处理，得到所述待处理图像对应的局部特征图。

一种可能的实施方式中，所述基于所述语义特征图中的第一特征点，将所述局部特征图中与该第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图，包括：基于所述语义特征图中第一特征点对应的语义坐标，确定该第一特征点在预先生成的对象语义图中的目标位置点；所述对象语义图中包括三维预设对象的多个位置点以及所述多个位置点的语义坐标；将所述对象语义图中所述目标位置点的特征值更新为该目标位置点在所述局部特征图中对应位置处的特征值，得到所述语义局部特征图。

一种可能的实施方式中，所述基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图，包括：基于所述全局特征向量，生成全局特征图；将所述语义图像特征图、所述全局特征图、以及预先生成的参考对象在语义空间中的参考位置图进行串联，得到串联特征图；将所述串联特征图输入到所述第二神经网络中，得到所述待处理图像对应的位置图。

该实施方式中，在预测待处理图像对应的位置图时，是通过语义局部特征图和全局特征向量进行预测的，这里既结合了待处理图像的局部特征，又结合了待处理图像的全局特征，因此，在通过位置图，生成目标对象对应的三维模型时，三维模型在局部细节方面的精度更高。

一种可能的实施方式中，所述基于所述全局特征向量，生成全局特征图，包括：将所述全局特征向量进行多次复制，并将复制之后的全局特征向量进行拼接，拼接后的特征向量构成所述全局特征图，所述全局特征图的尺寸与所述局部特征图的尺寸相同。

一种可能的实施方式中，基于所述位置图，生成所述目标对象对应的三维模型，包括：基于所述位置图中位置点的语义坐标，对所述位置图中的位置点进行采样，得到各个采样点；基于各个采样点对应的三维位置坐标，生成所述目标对象对应的三维模型。

一种可能的实施方式中，所述基于所述位置图中位置点的语义坐标，对所述位置图中的位置点进行采样，得到各个采样点，包括：根据预先设置的参考采样点的参考语义坐标，从所述位置图中筛选出对应的语义坐标与所述参考语义坐标相同的位置点，并将筛选出的位置点作为采样点。

一种可能的实施方式中，所述基于各个采样点对应的三维位置坐标，生成所述目标对象对应的三维模型，包括：将所述各个采样点对应的三维位置坐标，作为三维网格的顶点的三维位置坐标，生成包括各个三维网格的所述三维模型。

第二方面，本公开实施例还提供一种三维模型生成装置，包括：

确定模块，用于基于预先训练好的第一神经网络，确定待处理图像的全局特征向量、局部特征图以及语义特征图，所述语义特征图中任一第一特征点的特征值包括所述第一特征点在语义空间中的语义坐标；

转换模块，用于基于所述语义特征图中的第一特征点，将所述局部特征图中与所述第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图；

第一生成模块，用于基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图；所述位置图中包括所述待处理图像中的目标对象的各个位置点的语义坐标和三维位置坐标；

第二生成模块，用于基于所述位置图，生成所述目标对象对应的三维模型。

一种可能的实施方式中，所述第一特征点的语义坐标包括该第一特征点在所述语义空间中不同坐标方向上的坐标值；

所述第一特征点的特征值还包括该第一特征点属于所述目标对象的概率。

一种可能的实施方式中，所述确定模块，在基于预先训练好的第一神经网络，确定所述待处理图像的全局特征向量、局部特征图以及语义特征图时，用于：

对所述待处理图像进行下采样处理，得到中间特征图；

基于所述中间特征图，确定所述全局特征向量和所述局部特征图；

对所述局部特征图进行特征提取，得到所述语义特征图。

一种可能的实施方式中，所述确定模块，在基于所述中间特征图，确定所述全局特征向量和所述局部特征图时，用于：

对所述中间特征图进行池化处理和全连接处理，得到所述待处理图像对应的所述全局特征向量；以及，对所述中间特征图进行上采样处理，得到所述待处理图像对应的局部特征图。

一种可能的实施方式中，所述转换模块，在基于所述语义特征图中的第一特征点，将所述局部特征图中与该第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图时，用于：

基于所述语义特征图中第一特征点对应的语义坐标，确定该第一特征点在预先生成的对象语义图中的目标位置点；所述对象语义图中包括三维预设对象的多个位置点以及所述多个位置点的语义坐标；

将所述对象语义图中所述目标位置点的特征值更新为该目标位置点在所述局部特征图中对应位置处的特征值，得到所述语义局部特征图。

一种可能的实施方式中，所述第一生成模块，在基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图时，用于：

基于所述全局特征向量，生成全局特征图；

将所述语义图像特征图、所述全局特征图、以及预先生成的参考对象在语义空间中的参考位置图进行串联，得到串联特征图；

将所述串联特征图输入到所述第二神经网络中，得到所述待处理图像对应的位置图。

一种可能的实施方式中，所述第一生成模块，在基于所述全局特征向量，生成全局特征图时，用于：

将所述全局特征向量进行多次复制，并将复制之后的全局特征向量进行拼接，拼接后的特征向量构成所述全局特征图，所述全局特征图的尺寸与所述局部特征图的尺寸相同。

一种可能的实施方式中，所述第二生成模块，在基于所述位置图，生成所述目标对象对应的三维模型时，用于：

基于所述位置图中位置点的语义坐标，对所述位置图中的位置点进行采样，得到各个采样点；

基于各个采样点对应的三维位置坐标，生成所述目标对象对应的三维模型。

一种可能的实施方式中，所述第二生成模块，在基于所述位置图中位置点的语义坐标，对所述位置图中的位置点进行采样，得到各个采样点时，用于：

根据预先设置的参考采样点的参考语义坐标，从所述位置图中筛选出对应的语义坐标与所述参考语义坐标相同的位置点，并将筛选出的位置点作为采样点。

一种可能的实施方式中，所述第二生成模块，在基于各个采样点对应的三维位置坐标，生成所述目标对象对应的三维模型时，用于：

将所述各个采样点对应的三维位置坐标，作为三维网格的顶点的三维位置坐标，生成包括各个三维网格的所述三维模型。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述三维模型生成装置、计算机设备、及计算机可读存储介质的效果描述参见上述三维模型生成方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种三维模型生成方法的流程图；

图2示出了本公开实施例所提供的一种位置图确定方法的流程图；

图3示出了本公开实施例所提供的一种人体三维模型生成过程的示意图；

图4示出了本公开实施例所提供的一种第一神经网络的初步训练的训练方法；

图5示出了本公开实施例所提供的一种神经网络训练方法；

图6示出了本公开实施例所提供的一种三维模型生成装置的架构示意图；

图7示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

相关技术中，在生成三维人体模型时，一般依赖于预设的三维模板人体模型，通过预测神经网络模型中的模型参数，利用预测的模型参数调整三维模板人体模型，来生成目标对象的三维人体模型，然而这种方法生成出的三维人体模型的模型精度会受到现有的三维模板人体模型的影响。

另外，相关技术中，在预测神经网络模型参数时，一般是提取待处理图像的全局特征，然后基于提取的全局特征进行神经网络模型参数的预测，这种方法忽略了目标对象的局部特征，因此，生成出的三维模型在局部细节方面的表达能力较差。

本公开所提供的方法中，在预测待处理图像对应的位置图时，是通过结合语义局部特征图和全局特征向量进行预测的，这里既结合了待处理图像的局部特征，又结合了待处理图像的全局特征，因此，在通过位置图，生成目标对象对应的三维模型时，三维模型在局部细节方面的精度更高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种三维模型生成方法进行详细介绍，本公开实施例所提供的三维模型生成方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备等。

参见图1所示，为本公开实施例提供的一种三维模型生成方法的流程图，该方法包括以下几个步骤：

步骤101、基于预先训练好的第一神经网络，确定待处理图像的全局特征向量、局部特征图以及语义特征图，所述语义特征图中任一第一特征点的特征值包括所述第一特征点在语义空间中的语义坐标。

步骤102、基于所述语义特征图中的第一特征点，将所述局部特征图中与所述第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图。

步骤103、基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图；所述位置图中包括所述待处理图像中的目标对象的各个位置点的语义坐标和三维位置坐标。

步骤104、基于所述位置图，生成所述目标对象对应的三维模型。

以下是对上述步骤101～步骤104的详细说明。

针对步骤101：

所述待处理图像可以是包括目标对象的RGB图像，所述目标对象例如为人、动物、静态物品(如桌子、杯子)等。在一种可能的实施方式中，可以从数据库中获取预先存储的待处理图像，也可以接收其他用户端发送的待处理图像，对此本公开并不限制。

所述语义空间是语义坐标与真实位置点一一映射的空间，在语义空间中，每个语义坐标对应有真实的位置点，例如，语义坐标(u₁，v₁)可以表示左手食指，语义坐标(u₂，v₂)可以表示左手中指，则将任何一特征图转化至语义空间中之后，该特征图中的左手食指的语义坐标均为(u₁，v₁)，左手食指的语义坐标均为(u₂，v₂)。

语义特征图中包括多个第一特征点，第一特征点的特征值可以是该第一特征点在不同通道上的取值。示例性的，语义特征图可以为三通道的特征图，语义特征图中每个第一特征点在不同通道上的取值可以分别用于表示该第一特征点属于目标对象的概率，以及该第一特征点在语义空间中不同坐标方向上的坐标值。

示例性的，语义特征图中第一特征点属于所述目标对象的概率用于区分语义特征图中属于目标对象的部分特征点和属于除目标对象外的背景部分的特征点，当所述概率大于或等于预设概率值时，则确定该第一特征点属于目标对象，当所述概率小于预设概率值时，则确定该第一特征点属于背景部分。

在区分出语义特征图中属于目标对象的第一特征点和属于背景部分的第一特征点之后，在将局部特征图转换到语义空间中时，可以根据属于目标对象的第一特征点，将局部特征图中对应的第二特征点转换到语义空间中，这样可以避免背景部分对于生成目标三维模型的影响。

在一种可能的实施方式中，所述概率的取值大于或等于预设概率值的第一特征点的语义坐标在预设坐标值范围内，所述概率的取值小于预设概率值的第一特征点的语义坐标可以相同，且不在预设坐标值范围内，例如可以均为0。

在另一种可能的实施方式中，语义特征图中的第一特征点的特征值可以仅包括第一特征点在语义空间中的语义坐标，不包括第一特征点属于目标对象的概率，不属于目标对象的第一特征点的语义坐标可以相同，例如可以均为0，在区分语义特征图中属于目标对象的第一特征点和属于背景部分的第一特征点时，可以通过第一特征点对应的语义坐标进行区分。

具体实施中，在基于训练好的第一神经网络，确定待处理图像的全局特征向量、局部特征图以及语义特征图时，可以先对待处理图像进行下采样处理，得到中间特征图，然后基于中间特征图确定全局特征向量和局部特征向量，再对局部特征图进行特征提取，得到语义特征图。

其中，在基于中间特征图确定全局特征向量和局部特征图时，可以对中间特征图进行池化处理和全连接处理(即先后输入池化层和全连接层)，得到待处理图像对应的全局特征向量；以及，对中间特征图进行上采样处理，得到待处理图像对应的局部特征图。在对局部特征图进行特征提取时，可以是将局部特征图输入至卷积层中，输出得到语义特征图。

中间特征图进行池化处理和全连接处理之后，中间特征图的维度降低，其空间分辨率(即尺寸)为1*1，因此，中间特征图在经过池化处理和全连接处理后得到的为一个N维的全局特征向量；中间特征图在经过上采样处理后，其空间分辨率与待处理图像相同，因此，中间特征图在经过上采样处理后得到的为多通道的局部特征图，其通道数可以为N。

第一神经网络的训练过程，将在下面内容中展开介绍，对此暂不展开说明。

针对步骤102：

具体实施中，可以预先生成对象语义图，对象语义图中包括三维预设对象的多个位置点，以及多个位置点的语义坐标。这里，对象语义图中所包括的多个位置点可以是三维预设对象各个位置的位置点，所述各个位置包括覆盖三维预设对象的肢体表面的位置点；而步骤101中所述的语义特征图中涉及的目标对象的位置点，可以理解为待处理图像中目标对象可见部分的位置点，其中，对象语义图中包括的部分位置点可以与语义特征图中包括的位置点重合。

在生成对象语义图时，具有空间关联关系的位置点，对应的语义坐标也具有关联关系，例如，若三维预设对象中的两个位置点的真实位置相邻，则在生成的对象语义图中，这两个位置点对应的语义点也相邻。

相关技术中，在生成对象语义图时，是将三维预设对象的不同部位分别进行生成，例如，若要生成人体的对象语义图，则分别将人体头部、躯干、左胳膊、右胳膊、左腿、右腿分别作为一个整体进行生成，位于同一个整体上的位置点在生成的对象语义图中是关联的，但是位于不同整体上的位置点，在生成的对象语义图中并不具有关联关系。

而本公开所采用的方案，是将三维预设对象作为一个整体，生成对象语义图，三维预设对象上的各个位置点的语义坐标之间都具有关联关系，这样所生成的对象语义图结合了各个位置点的空间位置关系，因此，在生成三维模型时，各个位置点的空间相对位置关系更加精确，进而可以提高生成的三维模型的精度。

局部特征图中包括多个第二特征点，语义特征图中的第一特征点和局部特征图中的第二特征点一一对应，每一个第一特征点，在局部特征图的对应位置处都有第二特征点与该第一特征点对应。

在基于语义特征图中的第一特征点，将局部特征图中的第二特征点转换到语义空间中时，可以基于语义特征图中每个第一特征点对应的语义坐标，确定该第一特征点在预先生成的对象语义图中的目标位置点，然后将对象语义图中目标位置点的特征值更新为该目标位置点在局部特征图中对应位置图的特征值。

示例性的，语义特征图中的第一特征点P₁与局部特征图中的第二特征点P₂对应，在将第二特征点P₂转换到语义空间中时，可以先确定第一特征点P₁在预先生成的对象语义图中的目标位置点M，然后将对象语义图中点M的特征值更新为第二特征点P₂的特征值。

在将局部特征图中各个第二特征点转换到语义空间中之后，得到各个第二特征点对应的语义特征点，各个语义特征点构成语义局部特征图。

针对步骤103：

在基于语义局部特征图、全局特征向量、以及预先训练好的第二神经网络，生成待处理图像对应的位置图时，可以参照图2所示的方法，包括以下几个步骤：

步骤201、基于所述全局特征向量，生成全局特征图。

示例性的，可以将全局特征向量进行多次复制，并将复制之后的全局特征向量进行拼接，拼接后的特征向量构成全局特征向量，且全局特征向量的尺寸与局部特征图的尺寸相同。

示例性的，若局部特征图的尺寸为64*64，全局特征向量为一个1*1的128维的向量，则可以将全局特征向量复制64*64次，并对复制之后的全局特征向量进行拼接，拼接后得到一个64*64*128的特征向量，该特征向量为全局特征图。

步骤202、将所述语义图像特征图、所述全局特征图、以及预先生成的参考对象在语义空间中的参考位置图进行串联，得到串联特征图。

所述参考位置图为三通道的位置图，参考位置图中的位置点在通道上的取值分别表示该位置点的三维位置坐标，参考位置图中的每个位置点都对应有两类坐标，一类是在语义空间中的语义坐标，一类是该位置点对应的三维位置坐标。

在将语义图像特征图、全局特征图、以及预先生成的参考对象在语义空间中的参考位置图进行串联时，可以先从语义图像特征图、全局特征图、以及参考位置图任意选择两个特征图进行串联，然后将串联后的特征图与另外一个特征图进行串联。示例性的，可以先将语义图像特征图和全局特征图进行串联，得到第一特征图，然后将第一特征图与参考位置图进行串联，得到串联特征图。

这里，语义图像特征图、全局特征图、以及参考位置图的尺寸相同，在进行串联时，可以将同一位置的特征点对应的通道值进行拼接，例如，若在位置N处，语义图像特征图中位置N处对应特征点A，特征点A对应的通道维度为x，全局特征图中位置N处对应特征点B，特征点B对应的通道维度为y，参考位置图中位置N处对应特征点C，特征点C对应的通道维度为z，则在将语义图像特征图、全局特征图、以及参考位置图进行串联之后，串联特征图位置N处的特征点对应的通道维数为x+y+z，同时，由于同一特征图中所有特征点对应的通道数应该是相同的，拼接特征图的通道数也为x+y+z。

上述执行过程中，先将语义局部特征图和全局特征向量进行串联，使得在生成三维模型的过程中同时结合局部特征和全局特征，提高生成的三维模型在局部细节方面的精度；再和参考位置图进行串联，可以将参考位置图作为先验信息，避免生成的位置图误差太大。

步骤203、将所述串联特征图输入到所述第二神经网络中，得到所述待处理图像对应的位置图。

在将串联特征图输入到第二神经网络中之后，第二神经网络可以先对串联特征图进行下采样处理，然后再进行上采样处理，输出得到待处理图像对应的位置图。

示例性的，待处理图像对应的位置图也为三通道的图像，各个通道的取值分别表示在真实世界坐标系中不同坐标方向上的取值，每个位置点对应的真实世界坐标系中不同坐标方向上的取值作为该位置点的三维位置坐标。

第二神经网络的训练过程将在下方介绍，在此暂不展开说明。

针对步骤104：

具体实施中，在基于位置图生成目标对象的三维模型时，可以先基于位置图中位置点的语义坐标，对位置图中的位置点进行采样，得到各个采样点，然后基于各个采样点对应的三维坐标信息，生成目标对象对应的三维模型。

其中，在基于位置图中位置点的语义坐标，对位置图中的位置点进行采样时，可以根据预先设置的参考采样点的参考语义坐标，从位置图中筛选出对应的语义坐标与参考语义坐标相同的位置点，并将筛选出的位置点作为采样点。

示例性的，可以预先设置人的左手通过300个采样点表示，300个采样点作为参考采样点，每个参考采样点均对应有参考语义坐标，然后从位置图分别筛选出对应的语义坐标与各个参考采样点的参考语义坐标相同的位置点，然后将筛选出的位置点作为采样点。

在基于各个采样点对应的三维位置坐标，生成目标对象对应的三维模型时，可以将各个采样点对应的三维位置坐标，作为三维网格的顶点的三维位置坐标，生成包括各个三维网格的三维模型。

具体实施中，在确定各个三维网络顶点的三维位置坐标之后，可以通过渲染的方式，生成出包括各个三维网格的三维模型。在生成出三维模型之后，可以通过用户端进行三维模型的展示。

在一种可能的应用场景中，通过上述方法可以生成出人体对应的三维模型，然后可以根据生成出的三维模型，进行人体动作识别，通过人体动作识别结果，可以实现用户与机器之间的交互；在另外一种可能的应用场景中，可以实时获取用户对应的待处理图像，并实时生成出用户对应的三维模型，然后进行三维模型的展示，进而增加与用户之间的互动，提高趣味性。

下面，将以生成人体对应的三维模型为例，对上述三维模型的生成过程展开介绍，参见图3所示，为本公开实施例提供的一种人体三维模型生成过程的示意图，首先，将包括人体的RGB图像输入至第一神经网络中，第一神经网络先对RGB图像进行下采样处理，得到中间特征图，然后对中间特征图进行上采样处理，得到局部特征图，以及将中间特征图输出池化层之后，再输入全连接层，得到全局特征向量，再对局部特征图进行特征提取，得到语义特征图。

然后，基于语义特征图，将局部特征图转换至语义空间中，得到语义局部特征图；以及基于全局特征向量，生成全局特征图，再将全局特征图、语义局部特征图、以及基于参考人体生成的参考位置图进行串联，将串联后的特征图输入至第二神经网络中，输出得到预测的RGB图像对应的位置图，再基于预测的位置图，生成三维人体模型。

下面，将对第一神经网络和第二神经网络的训练过程展开介绍。

第一神经网络和第二神经网络在训练时，可以先对第一神经网络进行初步训练，然后基于进行初步训练后的第一神经网络，再对第一神经网络和第二神经网络进行联合训练。

参见图4所示，为本公开实施例提供的一种第一神经网络的初步训练的训练方法，包括以下几个步骤：

步骤401、获取样本图像，以及样本图像对应的参考语义特征图像。

步骤402、将样本图像输入至第一神经网络中，输出预测语义特征图像。

步骤403、基于预测语义特征图像和参考语义特征图像，确定本次训练过程中的第一损失值。

步骤404、判断第一损失值是否小于第一预设值。

若判断结果为是，则执行步骤405；

若判断结果为否，则调整本次训练过程中的模型参数，并返回执行步骤402。

步骤405、确定本次训练过程中所使用的第一神经网络为初步训练完成的第一神经网络。

在执行图4所示的初步训练过程之后，可以再将第一神经网络和第二神经网络进行联合训练，具体的，可以参照如图5所示的神经网络训练方法，包括以下几个步骤：

步骤501、获取样本图像，以及样本图像对应的参考语义特征图、样本图像对应的样本位置图。

步骤502、将样本图像输入至第一神经网络中，输出得到全局特征向量、局部特征图以及预测语义特征图。

步骤503、基于所述预测语义特征图中的第一特征点，将所述局部特征图中与所述第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图。

步骤504、基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的预测位置图。

步骤505、基于预测语义特征图、参考语义特征图、预测位置图、以及参考位置图，确定本次训练过程中的第二损失值。

其中，在计算第二损失值时，可以基于预测语义特征图和参考语义特征图，确定第一预测损失，以及基于预测位置图以及参考位置图，确定第二预测损失，然后将第一预测损失和第二预测损失之和作为第二损失值。

在另外一种可能的实施方式中，还可以基于预测位置图生成人体三维模型，然后对人体三维模型按照样本图像的拍摄角度进行投影，得到投影图像，然后基于投影图像和样本图像，确定第三预测损失，再将第一预测损失、第二预测损失、第三预测损失进行加权求和，将求和结果作为第二损失值。

步骤506、判断第二损失值是否小于第二预设值。

若判断结果为是，则执行步骤507；

若判断结果为否，则调整本次训练过程中的模型参数，并返回执行步骤502。

步骤507、确定本次训练过程中所使用的第一神经网络为训练完成的第一神经网络，以及确定本次训练过程中所使用的第二神经网络为训练完成的第二神经网络。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与三维模型生成方法对应的三维模型生成装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述三维模型生成方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6所示，为本公开实施例提供的一种三维模型生成装置的架构示意图，所述装置包括：确定模块601、转换模块602、第一生成模块603、以及第二生成模块604；其中，

确定模块601，用于基于预先训练好的第一神经网络，确定待处理图像的全局特征向量、局部特征图以及语义特征图，所述语义特征图中任一第一特征点的特征值包括所述第一特征点在语义空间中的语义坐标；

转换模块602，用于基于所述语义特征图中的第一特征点，将所述局部特征图中与所述第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图；

第一生成模块603，用于基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图；所述位置图中包括所述待处理图像中的目标对象的各个位置点的语义坐标和三维位置坐标；

第二生成模块604，用于基于所述位置图，生成所述目标对象对应的三维模型。

一种可能的实施方式中，所述确定模块601，在基于预先训练好的第一神经网络，确定所述待处理图像的全局特征向量、局部特征图以及语义特征图时，用于：

对所述待处理图像进行下采样处理，得到中间特征图；

对所述局部特征图进行特征提取，得到所述语义特征图。

一种可能的实施方式中，所述确定模块601，在基于所述中间特征图，确定所述全局特征向量和所述局部特征图时，用于：

一种可能的实施方式中，所述转换模块602，在基于所述语义特征图中的第一特征点，将所述局部特征图中与该第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图时，用于：

一种可能的实施方式中，所述第一生成模块603，在基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图时，用于：

基于所述全局特征向量，生成全局特征图；

一种可能的实施方式中，所述第一生成模块603，在基于所述全局特征向量，生成全局特征图时，用于：

一种可能的实施方式中，所述第二生成模块604，在基于所述位置图，生成所述目标对象对应的三维模型时，用于：

一种可能的实施方式中，所述第二生成模块604，在基于所述位置图中位置点的语义坐标，对所述位置图中的位置点进行采样，得到各个采样点时，用于：

一种可能的实施方式中，所述第二生成模块604，在基于各个采样点对应的三维位置坐标，生成所述目标对象对应的三维模型时，用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图7所示，为本公开实施例提供的计算机设备700的结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当计算机设备700运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行以下指令：

基于所述位置图，生成所述目标对象对应的三维模型。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的三维模型生成方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的三维模型生成方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的三维模型生成方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种三维模型生成方法，其特征在于，包括：

基于所述位置图，生成所述目标对象对应的三维模型。

2.根据权利要求1所述的方法，其特征在于，所述第一特征点的语义坐标包括该第一特征点在所述语义空间中不同坐标方向上的坐标值；

3.根据权利要求2所述的方法，其特征在于，所述基于预先训练好的第一神经网络，确定所述待处理图像的全局特征向量、局部特征图以及语义特征图，包括：

对所述待处理图像进行下采样处理，得到中间特征图；

对所述局部特征图进行特征提取，得到所述语义特征图。

4.根据权利要求3所述的方法，其特征在于，基于所述中间特征图，确定所述全局特征向量和所述局部特征图，包括：

5.根据权利要求1～4任一所述的方法，其特征在于，所述基于所述语义特征图中的第一特征点，将所述局部特征图中与该第一特征点对应的第二特征点转换到语义空间中，形成语义特征点，所述语义特征点构成语义局部特征图，包括：

6.根据权利要求1～5任一所述的方法，其特征在于，所述基于所述语义局部特征图、所述全局特征向量、以及预先训练好的第二神经网络，生成所述待处理图像对应的位置图，包括：

基于所述全局特征向量，生成全局特征图；

7.根据权利要求6所述的方法，其特征在于，所述基于所述全局特征向量，生成全局特征图，包括：

8.根据权利要求1～7任一所述的方法，其特征在于，基于所述位置图，生成所述目标对象对应的三维模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述位置图中位置点的语义坐标，对所述位置图中的位置点进行采样，得到各个采样点，包括：

10.根据权利要求8所述的方法，其特征在于，所述基于各个采样点对应的三维位置坐标，生成所述目标对象对应的三维模型，包括：

11.一种三维模型生成装置，其特征在于，包括：

12.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的三维模型生成方法的步骤。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任意一项所述的三维模型生成方法的步骤。