CN110189397A

CN110189397A - 一种图像处理方法及装置、计算机设备和存储介质

Info

Publication number: CN110189397A
Application number: CN201910251901.0A
Authority: CN
Inventors: 荣禹; 刘子纬; 李�诚; 曹凯迪; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-08-30

Abstract

本申请实施例提供一种图像处理方法及装置、计算机设备和存储介质，其中，所述方法包括：获取包含目标对象的第一待处理图像；对所述第一待处理图像进行处理，得到第二待处理图像；其中，所述第二待处理图像不包括所述第一待处理图像的背景；根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的三维模型。

Description

一种图像处理方法及装置、计算机设备和存储介质

技术领域

本申请实施例涉及计算机视觉通信领域，涉及但不限于一种图像处理方法及装置、计算机设备和存储介质。

背景技术

从一张二维(Two-dimensional，2D)的图片里恢复对应的三维(Three-dimensional，3D)人体模型可以被运用在诸如增强现实等很多场景里。使用卷积神经网络从自然环境下拍摄的图片中恢复3D人体模型并不简单。因为训练卷积神经网络需要大量的标注数据，但是高质量的3D标注是很稀缺的。因此在相关技术中，把有3D标注的限定条件下拍摄的图片和只有2D标注的自然拍摄的图片混合在一起组成训练集，然后再去训练神经网络，但是针对在自然环境下拍摄的图片，使用这种方式训练得到的身体模型并不理想。

发明内容

有鉴于此，本申请实施例提供一种图像处理方法及装置、计算机设备和存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像处理方法，所述方法包括：

获取包含目标对象的第一待处理图像；

对所述第一待处理图像进行处理，得到第二待处理图像；其中，所述第二待处理图像不包括所述第一待处理图像的背景；

根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的3D模型。

在上述方法中，所述根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，包括：

将所述第一待处理图像和所述第二待处理图像输入图像检测模型中，得到所述目标对象的身体模型。

在上述方法中，所述图像检测模型是根据样本图像和所述样本图像中的目标对象上标注的关键点信息训练得到的。

在上述方法中，所述对所述第一待处理图像进行处理，得到第二待处理图像，包括：

确定所述第一待处理图像对应的IUV图谱；

将所述第一待处理图像对应的IUV图谱，确定为第二待处理图像。

从所述第一待处理图像中提取所述目标对象，得到所述第二待处理图像；

或者，

从所述第一待处理图像中提取所述第一待处理图像的背景，将所述第一待处理图像的背景进行统一处理，得到第二待处理图像。

在上述方法中，所述确定所述第一待处理图像对应的IUV图谱，包括：

确定所述第一待处理图像中所述目标对象上的每一像素点所属的身体部位、所述每一像素点在所述身体部位对应平面的二维坐标值，得到所述每一像素点在IUV空间对应的三维坐标；

基于所述每一像素点对应的三维坐标，生成所述第一待处理图像对应的IUV图谱。

在上述方法中，所述方法还包括：

根据在所述目标对象的标注的关键点信息对所述身体模型进行校准，得到校准后的所述身体模型；

将所述校准后的身体模型，确定为所述目标对象的3D模型。

在上述方法中，在所述目标对象上标注的关键点信息，包括：所述第一待处理图像或所述第二待处理图像中所述目标对象上标注的关键点信息。

在上述方法中，在所述基于所述每一像素点对应的三维坐标，生成所述IUV图谱之后，所述方法还包括：

确定所述在所述目标对象上标注的2D关键点对应的所述IUV图谱的像素点；

根据所述标注的2D关键点和对应的所述IUV图谱的像素点，更新所述IUV图谱集合；

将更新的IUV图谱集合确定为所述第二待处理图像。

在上述方法中，所述根据所述标注的2D关键点和对应的所述IUV图谱的像素点，更新所述IUV图谱集合，包括：

确定第i个标注的2D关键点在所述IUV图谱中的像素点在IUV空间的第i个三维坐标；其中，i为大于1的整数；

如果所述第i个三维坐标与所述第i个标注的2D关键点在所述第一待处理图像中的位置不匹配，根据所述第i个标注的2D关键点在所述第一待处理图像中的位置，调整所述第i个三维坐标；

基于调整后的所述第i个三维坐标，更新所述IUV图谱。

在上述方法中，所述图像检测模型的训练过程，包括：

获取包含目标对象的第一样本图像集合；

对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像集合；其中，所述第二样本图像集合中的第二样本图像不包括所述第一样本图像的背景；

根据所述第一样本图像集合和所述第二样本图像集合，确定所述目标对象的身体模型；

根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型。

在上述方法中，所述第一样本图像集合，包括：标注有3D关键点的第一子样本图像集合，和标注有二维2D关键点的第二子样本图像集合；

对应地，分别确定第一子样本图像集合和第二子样本图像集合中每一样本图像对应的目标对象，得到所述第二样本图像集合。

在上述方法中，所述对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像集合，包括：

确定所述第一样本图像集合中的第一样本图像对应的IUV图谱；

将所述每一样本图像对应的IUV图谱确定为第二样本图像，得到所述第二样本图像集合。

从所述第一样本图像中提取所述目标对象，得到所述第二样本图像集合；

或者，

从所述第一样本图像中提取所述第一样本图像的背景，将所述第一样本图像的背景进行统一处理，得到第二样本图像；

基于所述第二样本图像，得到所述第二样本图像集合。

在上述方法中，所述根据所述第一样本图像集合和所述第二样本图像集合，确定所述目标对象的身体模型，包括：

采用神经网络分别对所述第一样本图像和第二样本图像进行编码，分别得到第一特征向量和第二特征向量；其中，所述第一特征向量用于表征所述第一样本图像的图像特征；所述第二特征向量用于表征所述第二样本图像中每一像素点的位置信息；

将所述第一特征向量和所述第二特征向量输入所述神经网络的全连接层，确定所述目标对象的目标形态参数和所述目标对象的目标姿势参数；

根据所述目标对象的目标形态参数和所述目标对象的目标姿势参数，确定所述目标对象的身体模型。

在上述方法中，所述根据所述目标对象的目标形态参数和所述目标对象的目标姿势参数，确定所述目标对象的身体模型，包括：

根据所述目标形态参数和所述目标姿势参数，确定用于覆盖所述目标对象的身体区域的顶点集合；

根据所述顶点集合，确定三角形平面集合；其中，所述三角形平面集合中的三角形平面的顶点为所述顶点集合中的顶点；

根据所述三角形平面集合，确定所述目标对象的身体模型。

在上述方法中，所述将所述第一特征向量和所述第二特征向量输入所述神经网络的全连接层，确定所述目标对象的目标形态参数和所述目标对象的目标姿势参数，包括：

将第j个第一样本图像的第一特征向量和所述第j个第一样本图像对应的第二样本图像的第二特征向量，输入所述神经网络的全连接层，得到第j个目标对象的子形态参数和所述第j个目标对象的子姿势参数；其中，j为大于0的整数；

分别确定第j个目标对象的第一残差和第二残差；其中，所述第一残差用于表明所述第j个目标对象的子形态参数与所述第一样本图像集中所有目标对象的子形态参数的平均值之间的差值；所述第二残差用于表明所述第j个目标对象的子姿势参数与所述第一样本图像集中所有目标对象的子姿势参数的平均值之间的差值；

根据第j个目标对象的子形态参数和所述第j个目标对象的第一残差，确定所述第j个目标对象的目标形态参数；

根据第j个目标对象的子姿势参数和所述第j个目标对象的第二残差，确定所述第j个目标对象的目标姿势参数。

在上述方法中，在所述分别确定第j个目标对象的第一残差和第二残差之前，确定平均子形态参数和平均子姿势参数，包括：

分别根据每一目标对象的子形态参数和子姿势参数，确定子形态参数集合和子姿势参数集合；

分别对所述子形态参数集合中的子形态参数和子姿势参数集合中的子姿势参数求平均，得到平均子形态参数和平均子姿势参数；

对应地，确定所述第j个目标对象的子形态参数与平均子形态参数之间的残差，为所述第一残差；

确定所述第j个目标对象的子姿势参数与平均子姿势参数之间的残差，为所述第二残差。

在上述方法中，根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型，包括：

根据所述身体模型中的顶点集合，生成所述目标对象的预测关键点信息；

根据所述预测关键点信息和在所述目标对象上标注的关键点信息，确定损失函数集；

根据所述预测关键点信息、所述在所述目标对象上标注的关键点信息和所述损失函数集对所述身体模型进行训练，确定所述目标对象的3D模型。

在上述方法中，所述根据所述身体模型中的顶点集合，生成所述目标对象的预测关键点信息，包括：

根据所述身体模型中的顶点集合，生成所述目标对象的预测3D关节集合；

根据目标形态参数、目标姿势参数和预设函数，得到预测形态参数和预测目标姿势参数；

将所述预测3D关节集合投影到所述第一样本图像上，得到所述目标对象的预测2D关键点；

确定所述顶点集合对应的每一三角形平面的重心；

将所述每一三角形平面的重心投影到所述第一样本图像上，得到所述目标对象的预测2D密集关键点。

在上述方法中，所述根据所述预测关键点信息和所述在所述目标对象上标注的关键点信息，确定损失函数集，包括：

根据预测3D关节集合和在所述目标对象上标注的关键点信息中的标注3D关节集合，确定关节损失函数；

根据预测形态参数和预测目标姿势参数与目标形态参数和目标姿势参数，确定模型损失函数；

根据所述关节损失函数和所述模型损失函数，确定3D关键点损失函数；

根据预测2D关键点和在所述目标对象上标注的关键点信息中的标注2D关键点，确定3D关键点损失函数；

根据预测2D密集关键点和在所述目标对象上标注的关键点信息中的标注2D密集关键点，确定密集损失函数。

在上述方法中，所述根据所述预测关键点信息、所述在所述目标对象上标注的关键点信息和所述损失函数集，对所述身体模型进行训练，确定所述目标对象的3D模型，包括：

根据所述预测2D关键点、所述标注2D关键点和所述2D关键点损失函数，训练所述身体模型生成所述目标对象的2D关键点；

根据所述预测3D关键点、所述标注3D关键点和所述3D关键点损失函数，训练所述身体模型生成所述目标对象的3D关键点；

根据所述预测2D密集关键点、所述标注2D密集关键点和所述密集损失函数，训练所述身体模型生成所述目标对象的密集关键点，以确定所述目标对象的3D模型。

本申请实施例提供一种图像处理装置，所述装置包括：

第一获取模块，用于获取包含目标对象的第一待处理图像；

第一处理模块，用于对所述第一待处理图像进行处理，得到第二待处理图像；其中，所述第二待处理图像不包括所述第一待处理图像的背景；

第一确定模块，用于根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的3D模型。

在上述装置中，所述第一处理模块，包括：

第一输入子模块，用于将所述第一待处理图像和所述第二待处理图像输入图像检测模型中，得到所述目标对象的身体模型。

在上述装置中，所述图像检测模型是根据样本图像和所述样本图像中的目标对象上标注的关键点信息训练得到的。

在上述装置中，所述第一处理模块，包括：

第一确定子模块，用于确定所述第一待处理图像对应的IUV图谱；

第二确定子模块，用于将所述第一待处理图像对应的IUV图谱，确定为第二待处理图像。

在上述装置中，所述第一处理模块，包括：

第一提取子模块，用于从所述第一待处理图像中提取所述目标对象，得到所述第二待处理图像；

或者，

第二提取子模块，用于从所述第一待处理图像中提取所述第一待处理图像的背景，将所述第一待处理图像的背景进行统一处理，得到第二待处理图像。

在上述装置中，所述第一确定子模块，包括：

第一确定单元，用于确定所述第一待处理图像中所述目标对象上的每一像素点所属的身体部位、所述每一像素点在所述身体部位对应平面的二维坐标值，得到所述每一像素点在IUV空间对应的三维坐标；

第一生成单元，用于基于所述每一像素点对应的三维坐标，生成所述第一待处理图像对应的IUV图谱。

在上述装置中，所述装置还包括：

第一校准模块，用于根据在所述目标对象的标注的关键点信息对所述身体模型进行校准，得到校准后的所述身体模型；

第二确定模块，用于将所述校准后的身体模型，确定为所述目标对象的3D模型。

在上述装置中，在所述目标对象上标注的关键点信息包括：所述第一待处理图像或所述第二待处理图像中所述目标对象上标注的关键点信息。

在上述装置中，所述装置还包括：

第三确定模块，用于确定所述在所述目标对象上标注的二维2D关键点对应的所述IUV图谱的像素点；

第一更新模块，用于根据所述标注的2D关键点和对应的所述IUV图谱的像素点，更新所述IUV图谱集合；

第四确定模块，用于将更新的IUV图谱集合确定为所述第二待处理图像。

在上述装置中，所述第一更新模块，包括：

第三确定子模块，用于确定第i个标注的2D关键点在所述IUV图谱中的像素点在IUV空间的第i个三维坐标；其中，i为大于1的整数；

第一匹配子模块，用于如果所述第i个三维坐标与所述第i个标注的2D关键点在所述第一待处理图像中的位置不匹配，根据所述第i个标注的2D关键点在所述第一待处理图像中的位置，调整所述第i个三维坐标；

第一更新子模块，用于基于调整后的所述第i个三维坐标，更新所述IUV图谱。

在上述装置中，所述装置还包括：第一训练模块，用于对所述图像检测模型的进行训练；所述第一训练模块，包括：

第一获取子模块，用于获取包含目标对象的第一样本图像集合；

第一处理子模块，用于对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像集合；其中，所述第二样本图像集合中的第二样本图像不包括所述第一样本图像的背景；

第四确定子模块，用于根据所述第一样本图像集合和所述第二样本图像集合，确定所述目标对象的身体模型；

第一处理子模块，用于根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型。

在上述装置中，所述第一样本图像集合，包括：标注有3D关键点的第一子样本图像集合，和标注有2D关键点的第二子样本图像集合；

对应地，所述第一处理子模块，用于分别确定第一子样本图像集合和第二子样本图像集合中每一样本图像对应的目标对象，得到所述第二样本图像集合。

在上述装置中，所述第一处理子模块，包括：

第二确定单元，用于确定所述第一样本图像集合中的第一样本图像对应的IUV图谱；

第三确定单元，用于将所述每一样本图像对应的IUV图谱确定为第二样本图像，得到所述第二样本图像集合。

在上述装置中，所述第一处理子模块，包括：

第一提取单元，用于从所述第一样本图像中提取所述目标对象，得到所述第二样本图像集合；

或者，

第二提取单元，用于从所述第一样本图像中提取所述第一样本图像的背景，将所述第一样本图像的背景进行统一处理，得到第二样本图像；

第四确定单元，用于基于所述第二样本图像，得到所述第二样本图像集合。

在上述装置中，所述第四确定子模块，包括：

第一编码单元，用于采用神经网络分别对所述第一样本图像和第二样本图像进行编码，分别得到第一特征向量和第二特征向量；其中，所述第一特征向量用于表征所述第一样本图像的图像特征；所述第二特征向量用于表征所述第二样本图像中每一像素点的位置信息；

第一输入单元，用于将所述第一特征向量和所述第二特征向量输入所述神经网络的全连接层，确定所述目标对象的目标形态参数和所述目标对象的目标姿势参数；

第五确定单元，用于根据所述目标对象的目标形态参数和所述目标对象的目标姿势参数，确定所述目标对象的身体模型。

在上述装置中，所述第五确定单元，包括：

第一确定子单元，用于根据所述目标形态参数和所述目标姿势参数，确定用于覆盖所述目标对象的身体区域的顶点集合；

第二确定子单元，用于根据所述顶点集合，确定三角形平面集合；其中，所述三角形平面集合中的三角形平面的顶点为所述顶点集合中的顶点；

第三确定子单元，用于根据所述三角形平面集合，确定所述目标对象的身体模型。

在上述装置中，所述第一输入单元，包括：

第一输入子单元，用于将第j个第一样本图像的第一特征向量和所述第j个第一样本图像对应的第二样本图像的第二特征向量，输入所述神经网络的全连接层，得到第j个目标对象的子形态参数和所述第j个目标对象的子姿势参数；其中，j为大于0的整数；

第一残差子单元，用于分别确定第j个目标对象的第一残差和第二残差；其中，所述第一残差用于表明所述第j个目标对象的子形态参数与所述第一样本图像集中所有目标对象的子形态参数的平均值之间的差值；所述第二残差用于表明所述第j个目标对象的子姿势参数与所述第一样本图像集中所有目标对象的子姿势参数的平均值之间的差值；

第四确定子单元，用于根据第j个目标对象的子形态参数和所述第j个目标对象的第一残差，确定所述第j个目标对象的目标形态参数；

第五确定子单元，用于根据第j个目标对象的子姿势参数和所述第j个目标对象的第二残差，确定所述第j个目标对象的目标姿势参数。

在上述装置中，所述装置还包括：第五确定模块，用于在所述分别确定第j个目标对象的第一残差和第二残差之前，确定平均子形态参数和平均子姿势参数，所述第五确定模块，包括：

第五确定子模块，用于分别根据每一目标对象的子形态参数和子姿势参数，确定子形态参数集合和子姿势参数集合；

第一平均子模块，用于分别对所述子形态参数集合中的子形态参数和子姿势参数集合中的子姿势参数求平均，得到平均子形态参数和平均子姿势参数；

对应地，第六确定子模块，用于确定所述第j个目标对象的子形态参数与平均子形态参数之间的残差，为所述第一残差；

第一残差子模块，用于确定所述第j个目标对象的子姿势参数与平均子姿势参数之间的残差，为所述第二残差。

在上述装置中，第一处理子模块，包括：

第二生成单元，用于根据所述身体模型中的顶点集合，生成所述目标对象的预测关键点信息；

第六确定单元，用于根据所述预测关键点信息和在所述目标对象上标注的关键点信息，确定损失函数集；

第一训练单元，用于根据所述预测关键点信息、所述在所述目标对象上标注的关键点信息和所述损失函数集对所述身体模型进行训练，确定所述目标对象的3D模型。

在上述装置中，所述第二生成单元，包括：

第一生成子单元，用于根据所述身体模型中的顶点集合，生成所述目标对象的预测3D关节集合；

第一预测子单元，用于根据目标形态参数、目标姿势参数和预设函数，得到预测形态参数和预测目标姿势参数；

第一投影子单元，用于将所述预测3D关节集合投影到所述第一样本图像上，得到所述目标对象的预测2D关键点；

第六确定子单元，用于确定所述顶点集合对应的每一三角形平面的重心；

第二投影子单元，用于将所述每一三角形平面的重心投影到所述第一样本图像上，得到所述目标对象的预测2D密集关键点。

在上述装置中，所述第六确定单元，包括：

第七确定子单元，用于根据预测3D关节集合和在所述目标对象上标注的关键点信息中的标注3D关节集合，确定关节损失函数；

第八确定子单元，用于根据预测形态参数和预测目标姿势参数与目标形态参数和目标姿势参数，确定模型损失函数；

第九确定子单元，用于根据所述关节损失函数和所述模型损失函数，确定3D关键点损失函数；

第十确定子单元，用于根据预测2D关键点和在所述目标对象上标注的关键点信息中的标注2D关键点，确定3D关键点损失函数；

第十一确定子单元，用于根据预测2D密集关键点和在所述目标对象上标注的关键点信息中的标注2D密集关键点，确定密集损失函数。

在上述装置中，所述第一训练单元，包括：

第一训练子单元，用于根据所述预测2D关键点、所述标注2D关键点和所述2D关键点损失函数，训练所述身体模型生成所述目标对象的2D关键点；

第二训练子单元，用于根据所述预测3D关键点、所述标注3D关键点和所述3D关键点损失函数，训练所述身体模型生成所述目标对象的3D关键点；

第三训练子单元，用于根据所述预测2D密集关键点、所述标注2D密集关键点和所述密集损失函数，训练所述身体模型生成所述目标对象的密集关键点，以确定所述目标对象的3D模型。

对应地，本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述所述的方法步骤。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现上述所述的方法步骤。

本申请实施例提供一种图像处理方法及装置、计算机设备和存储介质，其中，首先，获取包含目标对象的第一待处理图像；然后，对所述第一待处理图像进行处理，得到第二待处理图像；其中，所述第二待处理图像不包括所述第一待处理图像的背景；最后，根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的三维模型；如此，通过采用不包括背景的第二待处理图像作为输入，以缓解不同条件下拍摄的图像之间的领域差异，从而使得到的目标对象的三维模型效果更好。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1A为本申请实施例网络架构的组成结构示意图；

图1B为本申请实施例图像处理方法的实现流程示意图；

图1C为本申请实施例图像处理方法的另一实现流程示意图，

图1D为本申请实施例图像处理方法的又一实现流程示意图；

图2A为本申请实施例图像处理方法的另一实现流程示意图；

图2B为本申请实施例图像处理方法的又一实现流程示意图；

图2C为本申请实施例图像处理方法的再一实现流程示意图；

图3为本申请实施例构建身体模型的结构示意图；

图4为本申请实施例中表明Dense-Pose模型和SMPL模型之间的关系的示意图；

图5为本申请实施例优化IUV图谱的结构示意图；

图6为本申请实施例图像处理装置的组成结构示意图；

图7为本申请实施例计算机设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

本实施例先提供一种网络架构，图1A为本申请实施例网络架构的组成结构示意图，如图1A所示，该网络架构包括两个或多个计算机设备11至1N和服务器30，其中计算机设备11至1N与服务器30之间通过网络21进行交互。计算机设备在实现的过程中可以为各种类型的具有信息处理能力的计算机设备，例如所述计算机设备可以包括手机、平板电脑、台式机、个人数字助理等。

本实施例提出一种图像处理方法，能够为在任何条件下拍摄的图片，有效的实现身体模型的恢复，该方法应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

本实施例提出一种图像处理方法，针对输入的待处理图像，构建该待处理图像中的目标对象的3D模型，图1B为本申请实施例图像处理方法的实现流程示意图，如图1B所示，所述方法包括以下步骤：

步骤S101，获取包含目标对象的第一待处理图像。

在一些可能的实现方式中，所述第一待处理图像可以是外观复杂的图像，还可以是外观简单的图像。该目标对象可以是处理图像中的人物或者动物等。

步骤S102，对所述第一待处理图像进行处理，得到第二待处理图像。

在一些可能的实现方式中，所述第二待处理图像不包括所述第一待处理图像的背景。

在一些可能的实现方式中，对所述第一待处理图像进行处理，得到第二待处理图，所述步骤S102可以通过以下多种方式实现：

方式一：确定所述第一待处理图像对应的密集响应(IUV)图谱。

方式二：从所述第一待处理图像中提取所述目标对象，得到所述第二待处理图像。

在一些可能的实现方式中，将第一待处理图像中的目标对象提取出来，即第二待处理图像是进行背景分割的第一待处理图像，这样待处理图像的背景分割之后，解决了图像之间的背景差异，从而缓解了图像之间的领域差异，从而能够更加理想的恢复出3D人体模型。

方式三：从所述第一待处理图像中提取所述第一待处理图像的背景，将所述第一待处理图像的背景进行统一处理，得到第二待处理图像。

在一些可能的实现方式中，可以是首先第第一待处理图像的背景进行分割，得到前景图像和背景图像，然后采用同样的颜色替换该背景图像，最后将替换之后的背景图与前景图像进行融合，从而达到忽略背景的目的。

步骤S103，根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的三维3D模型。

在一些具体的例子中，将所述第一待处理图像和所述第二待处理图像输入图像检测模型中，得到所述目标对象的身体模型。所述图像检测模型是根据样本图像和所述样本图像中的目标对象上标注的关键点信息训练得到的；该图像检测模型能够针对输入的该待处理图像中的目标对象标注关键点信息。首先，将所述待处理图像输入，经过训练得到图像检测模型中，得到所述目标对象的身体模型和所述目标对象的标注的关键点信息；其中，所述图像检测模型是根据样本图像和所述样本图像中的目标对象上标注的关键点信息训练得到的；然后，根据所述标注的关键点信息，对所述身体模型进行校准，得到所述身体模型。所述身体模型(3D human model)为3D的模型，表明目标对象的身体在三维空间中的身体框架。

在本实施例中，通过采用不包括背景的第二待处理图像作为输入，以缓解不同条件下拍摄的图像之间的领域差异，从而使得到的身体模型效果更好。

本申请实施例提供一种图像处理方法，图1C为本申请实施例图像处理方法的另一实现流程示意图，如图1C所示，所述方法包括以下步骤：

步骤S111，获取包含目标对象的第一待处理图像。

步骤S112，对所述第一待处理图像进行处理，得到第二待处理图像。

在一些可能的实现方式中，所述步骤S112可以通过以下过程实现：

第一步，确定所述第一待处理图像中所述目标对象上的每一像素点所属的身体部位、所述每一像素点在所述身体部位对应平面的二维坐标值，得到所述每一像素点在IUV空间对应的三维坐标。

在一些可能的实现方式中，确定目标对象上每一像素点的三维坐标(I，U，V)中的第一维坐标I表示，该像素点所属的身体部位；(U，V)表示该像素点在该身体部位对应平面的二维坐标值，即该像素点在该平面上的精确位置。比如，目标对象的左眼角与目标对象的鼻尖，由于对应的身体部位相同(都是头部)，所以二者的第一维坐标I相同，但是二者对应的身体部位的具体位置不同，所以二的(U，V)坐标也不同；因此，标对象的左眼角与目标对象的鼻尖的三维坐标不同。

第二步，基于所述每一像素点对应的三维坐标，生成所述第一待处理图像对应的IUV图谱。

在一些可能的实现方式中，IUV图谱中的目标对象身体上的每一像素点均由三维坐标组成。

步骤S113，确定所述在所述目标对象上标注的2D关键点对应的所述IUV图谱的像素点。

在一些可能的实现方式中，在所述目标对象上标注的关键点信息，包括：所述第一待处理图像或所述第二待处理图像中所述目标对象上标注的关键点信息；采用已经标注有2D关键点的目标对象对IUV图谱进行修订。

步骤S114，根据所述标注的2D关键点和对应的所述IUV图谱的像素点，更新所述IUV图谱集合。

在一些可能的实现方式中，由于IUV图谱也是由模型预测产生的，所以会包含错误信息。为了防止错误信息对训练的身体模型造成不良影响，选择用例如训练好的检测模型生成的2D关键点来修正生成的密集关键点；修正的实现过程为：首先，确定第i个标注的2D关键点在所述IUV图谱中的像素点在IUV空间的第i个三维坐标；其中，i为大于1的整数；然后，如果所述第i个三维坐标与所述第i个标注的2D关键点在所述第一待处理图像中的位置不匹配，根据所述第i个标注的2D关键点在所述第一待处理图像中的位置，调整所述第i个三维坐标；最后，基于调整后的所述第i个三维坐标，更新所述IUV图谱。

步骤S115，将更新的IUV图谱集合确定为所述第二待处理图像。

上述步骤S112至步骤S115给出了一种实现“确定所述第一待处理图像对应的IUV图谱”的方式，在该方式中，基于标注的2D关键点作为参考来修订IUV图谱中错误像素点，从而得到更加有效的IUV图谱。

步骤S116，根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型。

在本实施例中，采用第一待处理图像的IUV图谱作为第二待处理图像，并采用标注的2D关键点对IUV图谱进行修订，将更新之后的IUV图谱作为输入，从而使得到的身体模型更加的满足用户的需求。

本申请实施例提供一种图像处理方法，在该方法中，通过样本图像和该样本图像中的目标对象上标注的关键点信息对图像检测模型进行训练，图1D为本申请实施例图像处理方法的又一实现流程示意图，如图1C所示，所述方法包括以下步骤：

步骤S121，获取包含目标对象的第一样本图像集合。

在一些可能的实现方式中，所述第一样本图像可以是外观复杂的图像，还可以是外观简单的图像。比如，第一样本图像集合，包括：标注有3D关键点的第一子样本图像集合，和标注有2D关键点的第二子样本图像集合；所述步骤S121可以是由计算机设备实现的，进一步地，所述计算机设备可以是智能终端，例如可以是移动电话(比如，手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端设备，还可以是台式计算机等不便移动的智能终端设备。所述计算机设备用于进行图像识别或处理。

步骤S122，对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像集合。

在一些可能的实现方式中，对第一样本图像集合中每一第一样本图像进行处理，即一个处理后的第二样本图像对应一个第一样本图像；第二样本图像集合中的第二样本图像不包括第一样本图像的背景，所述步骤S102可以通过以下多种方式实现：

方式一：确定第一样本图像集合中的第一样本图像对应的密集响应(IUV)图谱，得到第二样本图像集合。

在一些可能的实现方式中，对于第一样本图像集合中的每一第一样本图像，确定该第一样本图像的IUV图谱，将该IUV图谱确定为第二样本图像，那么得到的IUV图谱集合即为第二样本图像集合。

方式二：从所述第一样本图像中提取所述目标对象，得到所述第二样本图像集合。

在一些可能的实现方式中，将第一样本图像中的目标对象提取出来，即第二样本图像集合中的第二样本图像是进行背景分割的第一样本图像，这样虽然第一样本图像集合中在自然环境下拍摄的图像背景各不相同加剧了图像之间的领域差异，但是将背景分割之后，解决了图像之间的背景差异，从而缓解了图像之间的领域差异，从而能够更加理想的恢复出3D人体模型。

方式三：从所述第一样本图像中提取所述第一样本图像的背景，将所述第一样本图像的背景进行统一处理，得到第二样本图像，基于第一样本图像集合得到所述第二样本图像集合。

在一些可能的实现方式中，可以是首先第第一样本图像的背景进行分割，得到前景图像和背景图像，然后采用同样的颜色替换该背景图像，最后将替换之后的背景图与前景图像进行融合，从而达到忽略背景的目的。

步骤S123，根据所述第一样本图像集合和所述第二样本图像集合，确定所述目标对象的身体模型。

在一些可能的实现方式中，例如，将第一样本图像输入到图像编码器中，输出第一样本图像的图像特征；将第二样本图像输入该第二样本图像对应的编码器，得到该第二样本图像对应的特征向量；然后将这两个特征向量相结合，输入到参数估计器，得到目标对象的姿势参数和形态参数；最后基于该形态参数和姿势参数，确定该目标对象的身体模型，例如蒙皮多人身体模型(Skinned Multi-Person Linear，SMPL)。

步骤S124，根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型。

在一些可能的实现方式中，在所述目标对象上标注的关键点信息，包括：所述第一样本图像或所述第二样本图像中所述目标对象上标注的关键点信息。所述标注的关键点信息是指对于样本图像中的目标对象进行人工标注得到的关键点信息。比如，在目标对象上标注的3D关键点、在该目标对象上标注的2D关键点、该目标对象的3D关节信息和该目标对象的标注的密集关键点等。所述密集关键点在一个具体的例子中为，在不同图像中，均匀标注多个关键点，然后基于这多个关键点，分别标注每一关键点对应的目标对象的部位，比如，在一张图像上，均匀标注的200个关键点，然后这200关键点分别标注是目标对象的哪个部位；这样采用目标对象上标注的关键点信息对身体模型进行更新，从而得到用户满意的身体模型。

在实际实现过程中，计算机设备输出所述身体模型可以是在自身显示屏上输出所述3D模型，还可以是所述计算机设备将所述分析结果输出至其他设备，也就是发送给其他设备，例如所述其他设备可以是用户的智能终端上。

在本申请实施例中，通过采用第二样本图像作为输入，以缓解不同条件下拍摄的图像之间的领域差异，并采用已标注的目标对象的关键点信息作为监督，以此来减少标注的3D关键点和标注的2D关键点之间的标注差异，从而使得到的3D模型更加逼真。

本申请实施例提供一种图像处理方法，图2A为本申请实施例图像处理方法的另一实现流程示意图，如图2A所示，所述方法包括以下步骤：

步骤S201，获取包含目标对象的第一样本图像集合。

步骤S202，确定所述第一样本图像集合中的第一样本图像对应的IUV图谱，得到所述第二样本图像集合。

在一些可能的实现方式中，所述步骤S202可以通过以下过程实现：

第一步，确定所述第一样本图像中所述目标对象上的每一像素点所属的身体部位、所述每一像素点在所述身体部位对应平面的二维坐标值，以确定所述每一像素点在IUV空间对应的三维坐标。

第二步，基于所述每一像素点在IUV空间对应的三维坐标，生成所述IUV图谱。

步骤S203，确定所述在所述目标对象上标注的2D关键点对应的所述IUV图谱的像素点。

在一些可能的实现方式中，采用已经标注有2D关键点的目标对象对IUV图谱进行修订。

步骤S204，根据所述标注的2D关键点和对应的所述IUV图谱的像素点，更新所述IUV图谱集合。

在一些可能的实现方式中，由于IUV图谱也是由模型预测产生的，所以会包含错误信息。为了防止错误信息对训练的身体模型造成不良影响，选择用例如人工标注的2D关键点来修正生成的密集关键点；修正的实现过程为：首先，确定第i个标注的2D关键点在所述IUV图谱中的像素点在IUV空间的第i个三维坐标；其中，i为大于1的整数；然后，如果所述第i个三维坐标与所述第i个标注的2D关键点在所述第一样本图像中的位置不匹配，根据所述第i个标注的2D关键点在所述第一样本图像中的位置，调整所述第i个三维坐标；最后，基于调整后的所述第i个三维坐标，更新所述IUV图谱。简单来说，就是根据标注的2D关键点，确定该关键点在IUV图谱中相同部位的像素点，在该部位的展开平面上的二维坐标，如果该二维坐标所表征的像素点与该2D关键点不同，那么说明在IUV图谱中对于该像素点生成的三维坐标是错误的；然后，基于标注的2D关键点，将该标注的2D关键点的坐标替换该IUV图谱中的坐标(U，V)。在本实施例中，通过采用标注的2D关键点对IUV图谱生成的密集关键点进行修正，从而保证了得到的IUV图谱中每一像素点的三维坐标的准确度。

步骤S205，将更新的IUV图谱集合作为所述第二样本图像集合。

上述步骤S202至步骤S205给出了一种实现“确定所述第一样本图像集合中的第一样本图像对应的IUV图谱”的方式，在该方式中，基于标注的2D关键点作为参考来修订IUV图谱中错误像素点，从而得到更加有效的IUV图谱。

步骤S206，根据所述第一样本图像集合和所述第二样本图像集合，确定所述目标对象的身体模型。

步骤S207，根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型。

在本实施例中，采用第一样本图像的IUV图谱作为第二样本图像，并采用标注的2D关键点对IUV图谱进行修订，将更新之后的IUV图谱作为输入，从而使得到的3D模型更加的满足用户的需求。

本申请实施例提供一种图像处理方法，图2B为本申请实施例图像处理方法的又一实现流程示意图，如图2B所示，所述方法包括以下步骤：

步骤S221，获取包含目标对象的第一样本图像集合。

步骤S222，对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像集合。

在一些可能的实现方式中，对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像，从而得到第二样本图像集合；第二样本图像为IUV图谱或者将背景进行统一化处理的第一样本图像。

步骤S223，采用神经网络分别对所述第一样本图像和第二样本图像进行编码，分别得到第一特征向量和第二特征向量。

在一些可能的实现方式中，所述第一特征向量用于表征所述第一样本图像的图像特征；所述第二特征向量用于表征所述第二样本图像中每一像素点的位置信息。所述步骤S223在实现的过程中，将第一样本图像输入到神经网络的图像编码器中，输出第一样本图像的图像特征f_I，将该第一样本图像对应的IUV图像输入到IUV编码器中，输出该第一样本图像的第二特征向量f_U。

步骤S224，将所述第一特征向量和所述第二特征向量输入所述神经网络的全连接层，确定所述目标对象的目标形态参数和所述目标对象的目标姿势参数。

在一些可能的实现方式中，所述“将所述第一特征向量和所述第二特征向量输入所述神经网络的全连接层”在一个具体例子中为，将第一特征向量和第二特征向量连接起来并馈入参数估计器(该参数估计器可以由神经网络中的两个完全连接的层组成)，得到目标对象的目标形态参数β和目标对象的目标姿势参数θ。

步骤S225，根据所述目标对象的目标形态参数和所述目标对象的目标姿势参数，确定所述目标对象的身体模型。

在一些可能的实现方式中，所述步骤S225可以通过以下步骤实现：

第一步，根据所述目标形态参数和所述目标姿势参数，确定用于覆盖所述目标对象的身体区域的顶点集合。

在一些可能的实现方式中，将用于表征目标对象的身体模型的6890个顶点作为顶点集合。

第二步，根据所述顶点集合，确定三角形平面集合。

在一些可能的实现方式中，所述三角形平面集合中的三角形平面的顶点为所述顶点集合中的顶点。在本实施例中6890个顶点组成13776个三角形面，每个三角形面的顶点从6890个顶点中选择。

第三步，根据所述三角形平面集合，确定所述目标对象的身体模型。

步骤S226，根据所述身体模型中的顶点集合，生成所述目标对象的预测关键点信息。

在一些可能的实现方式中，目标对象的预测关键点信息，包括：目标对象的预测3D关节集合、目标对象的预测2D关键点和目标对象的预测3D关键点；所述步骤S226在一个具体例子中，可以通过以下方式实现：首先，根据所述身体模型中的顶点集合，生成所述目标对象的预测3D关节集合；然后，将所述预测3D关节集合投影到所述第一样本图像上，得到所述目标对象的预测2D关键点；最后，确定所述顶点集合对应的每一三角形平面的重心；将所述每一三角形平面的重心投影到所述第一样本图像上，得到每一重心在第一样本图像上的投影点，将所述投影点确定为所述目标对象的预测3D关键点；如此，得到了目标对象的预测3D关节集合、预测2D关键点和预测3D关键点。

步骤S227，根据所述预测关键点信息和在所述目标对象上标注的关键点信息，确定损失函数集。

在一些可能的实现方式中，损失函数集包括：3D关键点损失函数(例如，3D损失函数L_3D)、2D关键点损失函数(例如，2D损失函数L_2D)和密集关键点对应的密集损失函数(例如，密集损失函数L_dense)。其中，3D关键点损失函数是根据所述关节损失函数和所述模型损失函数确定的，即将关节损失函数和模型损失函数相加得到3D关键点损失函数；关节损失函数(L_3D-joints)是根据预测3D关节集合和在所述目标对象上标注的关键点信息中的标注3D关节集合确定的；模型损失函数(L_SMPL)是根据预测形态参数和预测目标姿势参数与目标形态参数和目标姿势参数确定的；

2D关键点损失函数是根据预测2D关键点和在所述目标对象上标注的关键点信息中的标注2D关键点确定的；

密集损失函数是根据预测2D密集关键点和在所述目标对象上标注的关键点信息中的标注2D密集关键点确定的。在本实施例中，标注的密集关键点的图像可以是采用密集姿势(COCO-DensePose)数据集中的包含标注的密集关键点的图像。

步骤S228，根据所述预测关键点信息、所述在所述目标对象上标注的关键点信息和所述损失函数集，对所述身体模型进行训练，确定所述目标对象的3D模型。

在一些可能的实现方式中，分别采用损失函数集中的三个损失函数、损失函数对应的预测关键点信息和标注的关键点信息，对身体模型进行训练，从而恢复出目标对象的身体模型。即根据所述预测3D关节集合、所述标注3D关节集合和所述第一损失函数，训练所述身体模型生成所述目标对象的3D关节集合；根据所述预测2D关键点、所述标注2D关键点和所述第二损失函数，训练所述身体模型生成所述目标对象的2D关键点；根据所述预测3D关键点、所述标注3D关键点和所述第三损失函数，训练所述身体模型生成所述目标对象的3D关键点，以确定所述目标对象的3D模型。

上述步骤S226至步骤S228给出了一种实现“根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型”的方式，在该方式中，通过采用身体模型的顶点集合，回归得到目标对象的预测3D关节集合、预测2D关键点和预测3D关键点；然后，结合标注的关键点信息，确定相应的损失函数，最后利用该损失函数对身体模型进行训练，得到目标对象的3D模型。

在本实施例中，基于目标对象的姿势参数和形态参数得到身体模型之后，采用身体模型的顶点集合进行预测，得到目标对象的预测关键点信息，基于该预测关键点信息和损失函数，对身体模型进行训练，从而得到满足用户需求的3D模型。

本申请实施例提供一种图像处理方法，图2C为本申请实施例图像处理方法的再一实现流程示意图，如图2C所示，所述方法包括以下步骤：

步骤S231，获取包含目标对象的第一样本图像集合。

步骤S232，对所述第一样本图像集合中的第一样本图像进行处理，得到第二样本图像集合。

在一些可能的实现方式中，先对第一样本图像进行处理，得到第二样本图像，从而得到第二样本图像集合。

步骤S233，采用神经网络分别对所述第一样本图像和第二样本图像进行编码，分别得到第一特征向量和第二特征向量。

在一些可能的实现方式中，所述第一特征向量用于表征所述第一样本图像的图像特征；所述第二特征向量用于表征所述第二样本图像中每一像素点的位置信息。

步骤S234，将第j个第一样本图像的第一特征向量和所述第j个第一样本图像对应的第二样本图像的第二特征向量，输入所述神经网络的全连接层，得到第j个目标对象的子形态参数和所述第j个目标对象的子姿势参数。

其中，j为大于0的整数。

步骤S235，分别根据每一目标对象的子形态参数和子姿势参数，确定子形态参数集合和子姿势参数集合。

在一些可能的实现方式中，根据每一目标对象的子形态参数确定子形态参数集合；据每一目标对象的子姿势参数，确定子姿势参数集合；每一个目标对象均对应一对子形态参数和子姿势参数。

步骤S236，分别对所述子形态参数集合中的子形态参数和子姿势参数集合中的子姿势参数求平均，得到平均子形态参数和平均子姿势参数。

步骤S237，分别确定所述第j个目标对象的子形态参数与平均子形态参数之间的第一残差，和所述第j个目标对象的子姿势参数与平均子姿势参数之间的第二残差。

在一些可能的实现方式中，第一残差用于表明所述第j个目标对象的子形态参数的平均值，与所述第一样本图像集中所有目标对象的子形态参数的平均值之间的差值；所述第二残差用于表明所述第j个目标对象的子姿势参数的平均值，与所述第一样本图像集中所有目标对象的子姿势参数的平均值之间的差值。

步骤S238，根据第j个目标对象的子形态参数和所述第j个目标对象的第一残差，确定所述第j个目标对象的目标形态。

在一些可能的实现方式中，例如，每一目标对象的目标形态参数是由该目标对象的子形态参数和该目标对象的第一残差确定的。

步骤S239，参数根据第j个目标对象的子姿势参数和所述第j个目标对象的第二残差，确定所述第j个目标对象的目标姿势参数。

在一些可能的实现方式中，每一目标对象的目标姿势参数是由该目标对象的子姿势参数和该目标对象的第二残差确定的。

上述步骤S234至步骤S239给出了一种实现“将所述第一特征向量和所述第二特征向量输入所述神经网络的全连接层，确定所述目标对象的目标形态参数和所述目标对象的目标姿势参数”的方式，在该方式中，基于每一目标对象的子形态参数和第一残差确定该目标对象的目标形态参数，同样基于每一目标对象的子姿势参数和第二残差确定该目标对象的目标姿势参数。

步骤S240，根据所述目标对象的目标形态参数和所述目标对象的目标姿势参数，确定所述目标对象的身体模型。

步骤S241，根据所述身体模型和在所述目标对象上标注的关键点信息，确定所述目标对象的3D模型。

在本申请实施例中，参数估计器不是直接确定目标姿势参数和目标形态参数，而是输出相应参数对应的残差。然后通过将残差与平均子姿势参数或平均子形态相加来获得目标姿势参数或目标形态参数；从而有助于身体模型关注不同图像的方差，使得该身体模型能够更快的收敛。

在相关技术中，从单个2D图像恢复3D人体模型是一项有趣而又具有挑战性的任务，可以促进增强现实和创造性娱乐中的众多应用。在自然环境下的图像中训练卷积神经网络(convolutional neural network，CNN)用于3D人体恢复是非常重要的，因为严重缺乏具有高质量3D标注的这种图像。为了利用所有可用的监督，以前的研究使用混合训练集，包括带有3D标注的约束图像和带有2D标注的自然环境下的图像。

尽管这些方法对于限定条件下拍摄的图像产生了良好的结果，但是当应用于自然环境下的图像时，其性能会急剧下降。

相关技术中，从2D图像中恢复目标对象的身体模型效果不理想的原因是：3D和2D训练数据之间存在实质性差异。3D和2D数据之间的差距是双重的：(1)样本图像之间的领域差异；(2)全3D监督和稀疏2D监督之间的标注差异。对于第一个问题，具有3D标注的图像通常是在限定条件下(具有固定背景的室内场景，固定相机和固定的几个演员)拍摄的，但是在自然环境下拍摄的图像中包含的背景各不相同。对于第二个问题，与全3D监督相比，诸如2D关键点的2D监督通常是模糊的和稀疏的，例如3D关节和基础真实皮肤多人线性(SkinnedMulti-Person Linear，SMPL)参数。这两种类型的差异阻碍了模型有效地将从3D数据学到的知识转移到2D数据，导致在自然环境下拍摄的图像上的性能较差。

本申请实施例提供了一种图像处理方法，利用了由DensePose模型生成的IUV图谱，该图谱封装了丰富的3D信息。对于原始图像上的每个像素，IUV图谱指示该像素属于哪个身体部位以及该身体部位上的展开表面上的像素的精确位置。在该图谱中排除了诸如外观和照明之类的无关信息，因此，可以作为一种强大但与域无关的介质来粘附3D和2D数据域。

密集响应转换(Dense Correspondence Transfer，DTC)网络利用IUV图谱以下两个方面的特性：

第一方面，推导密集关键点监督-传统方法依赖于3D监督和稀疏2D关键点进行监督。这两个监督在细节水平和标注性质方面存在很大差异。本申请实施例通过从IUV图谱中抽取密集关键点作为中间监督来联合两个极端，从而缓解这一差距。对于损失计算和端到端学习，本申请实施例利用SMPL模型和IUV映射之间的内在关系，并显示如何从预测的SMPL模型映射密集关键点预测。

第二方面，作为补充输入-另一种有效的方法是将IUV图谱作为RGB图像的输入并入本申请实施例的DTC网络。这有助于弥合来自不同来源的输入图像之间的差距。值得注意的是，使用中间表示作为输入来促进3D人体恢复并不新鲜。这些表示仍主要包含2D信息，并且比IUV映射封装的3D信息少得多。本申请实施例的实验显示了使用IUV图作为补充输入来解决域和标注差异中固有问题的优越性。

利用IUV图谱进行迁移并不简单。由于Dense Pose模型生成的输出不完善，IUV映射可能包含错误。误差的来源主要来自身体部位的错误预测，例如，将右臂预测为左臂。实际上，自然数据集中的IUV图谱错误率可能相当高，例如，UP-3D训练集的错误率为14.6％。为了防止错误的IUV图谱破坏本申请实施例的3D人类估计模型的训练，本申请实施例建议进行选择性采样，执行邻域一致性检查。具体来说，本申请实施例的方法使用2D稀疏关键点作为参考锚点，并自动丢弃与稀疏2D关键点中编码的身体部位相比具有不一致的身体部位的IUV图谱上的错误身体部位；从而使本申请实施例能够保持从IUV图谱中获得的投入和监督的可信度。

为了弥合3D和2D数据之间的领域差异和标注差异，本申请实施例提出了一个称为密集响应传输的通用框架，图3为本申请实施例构建身体模型的结构示意图，如图3所示，整体框架由三部分组成：图像编码器31，IUV编码器32和参数估计器33。构建身体模型的过程为：

首先，将样本图像301输入图像编码器31，得到样本图像301的图像特征f_I(即第一特征向量)；将该样本图像301的IUV图谱302输入到IUV编码器32中，得到第二特征向量f_U。

其次，将f_I和f_U连接起来并反馈到参数估计器33，得到目标姿势参数θ和目标姿态参数β。

再次，根据目标姿势参数θ和目标姿态参数β，构建目标对象的SMPL模型34。

在一些可能的实现方式中，SMPL模型是由6890个顶点集合组成的三角形网格。在训练阶段，从顶点集合中回归预测3D关节，预测2D关键点和预测3D关键点。根据预测3D关节集合和在所述目标对象上标注的关键点信息中的标注3D关节集合确定3D损失函数L_3D；根据预测2D关键点和在所述目标对象上标注的关键点信息中的标注2D关键点确定2D损失函数L_2D；根据预测3D关键点和在所述目标对象上标注的关键点信息中的标注3D关键点确定3D关节损失函数L_3D-joints。

最后，根据所述预测关键点信息、所述在所述目标对象上标注的关键点信息和所述损失函数集，对所述身体模型进行训练，确定所述目标对象的3D模型。

DTC网络将图像和相应的IUV映射作为输入，并使用单独的编码器对它们进行编码，然后将输出特征(即f_I和f_U)连接在一起作为参数估计器的输入，参数估计器预测SMPL参数。在训练阶段，3D关节，2D关键点和密集关键点从SMPL参数进一步回归以计算损失函数。

SMPL模型是一种3D人体模型，通过姿势参数和形态参数进行参数化。形态参数β∈R¹⁰是形态空间的PCA组件的前10个系数。姿势参数θ∈R^3×K表示轴角度中K＝23个关节的3D旋转。利用给定的姿势参数和形态参数，首先计算N＝6890个顶点集合P∈R^3×N在IUV空间的三维坐标。这些顶点集合组成13776个三角形面。每个三角形面的顶点从6890个顶点中选择。本实施例中，为了指定完整的SMPL模型，需要(23+1)×3＝72个姿势参数和10个形态参数。

样本图像上的每个像素点均可以被赋予(I，U，V)坐标，表示基于表面的人体上的特定位置。I∈Z表示该像素点属于目标对象的哪个身体部位。当I取值为0时，表示该像素点是背景，当坐标I的取值落在区间[1，24]中时，分别代表不同的身体部位。(U,V)∈R²是由I指定的身体部位的展开表面上的精确位置的坐标。

本申请实施例中利用SMPL模型和DensePose之间的关系来弥合数据的差异。由于SMPL模型用作在DensePose中定义标注的手段，因此这两个模型之间存在紧密联系：SMPL模型的每个顶点都有一个(I，U，V)坐标。这样，对于用(I，U，V)标注的每个点，本申请实施例可以计算出该点所属的三角形面以及从该点到该三角形面的每个顶点的距离。这些距离形成特定于该三角形面的重心坐标。因此，本申请实施例有一个映射函数φ，可以将带有(I，U，V)标注的点映射到SMPL模型的顶点。映射函数表示如下：

[v₁,v₂,v₃],[b₁,b₂,b₃]＝φ(I,U,V) (1)；

在公式(1)中，v_i表示所选顶点的索引，b_i表示三角形平面的重心坐标。

图4为本申请实施例中表明Dense-Pose模型和SMPL模型之间的关系的示意图，如图4所示，目标对象41上标注的关键点401与SMPL模型42上的像素点402一一对应；目标对象43上标注的关键点403与SMPL模型44上的像素点404一一对应；目标对象45上标注的关键点405与SMPL模型46上的像素点406一一对应；目标对象47上标注的关键点407与SMPL模型48上的像素点408一一对应；从图4可以看出，SMPL模型的每个顶点都有一个(I，U，V)坐标，基于IUV空间中最近的顶点分配密集关键点。

为了从样本图像和IUV图谱估计目标姿势参数和目标形态参数，本申请实施例设计了具有两个分支的架构：

(1)图像编码器EI，其将图像I作为输入并输出图像特征f_I。

(2)IUV编码器EU，将IUV映射U作为输入并输出IUV特征f_U。

图像编码器和IUV编码器都基于残差网路得到的。在本实施例中，首先，将两个特征向量f_I和f_U连接起来并馈入参数估计器，该参数估计器由两个完全连接的层组成。然后，参数估计器预测用于生成SMPL模型的姿势参数和形态参数。最后，SMPL模型生成最终的身体模型。

在本实施例中，参数估计器不是直接预测最终参数，而是首先，输出姿势参数和形态参数的残差ΔΘ。然后，通过将残差与平均子姿势参数和平均子形态参数相加来获得目标姿势参数和目标形态参数。该策略有助于模型关注不同图像的方差，从而导致更快收敛。参数估计的过程如公式(2)所示：

在公式(2)中，表示连接。

本申请实施例的SMPL模型可以使用3D或2D标注的图像进行训练。对于具有实际参数的SMPL模型，本申请实施例直接最小化预测参数和实际参数之间的距离。对于数值稳定性，将姿势参数中的每个关节转换为3×3旋转矩阵。对于具有3D关节标注的图像，预测的3D关节从预测的6890个顶点回归。3D损失函数定义如下:

在公式(3)中，[θ_i,β_i]和分别是预测的SMPL参数(即预测的姿势参数和预测的形态参数)和实际的SMPL参数。M和O表示具有3D关节标注和实际SMPL参数的图像的数量，并且R:R³→R^3×3表示罗德里格斯公式。

自然环境下拍摄的图像很少有3D标注。对于这些图像，本申请实施例使用2D损失函数训练本申请实施例的模型。2D丢失包括稀疏关键点丢失和密集关键点丢失。为了估计投影的2D关键点和密集关键点，参数估计器预测三个附加参数来建模摄像机，两个参数用于摄像机平移，一个参数用于焦距。相机模型C∈R³用于将预测的3D关节投影到2D关键点2D损失函数可以表示为：

在公式(4)中，S表示具有2D关键点标注的训练数据的数量。和分别表示第i个数据样本的预测2D关键点和标注2D关键点。μ_i表示可见性向量，其中，μ_ij＝1表示第i个样本的第j个关节是可见的，否则μ_ij＝0。

COCO-DensePose数据集是唯一具有手动标注密集关键点的数据集。每个密集关键点由两部分组成：RGB图像上的坐标(x，y)和带标注的(I，U，V)坐标。为了简化表示法，本申请实施例将(I，U，V)坐标表示为D。如前所述，给定D，本申请实施例可以使用公式(1)来计算哪个顶点f＝[v₁，v₂，v₃]与D这个点最接近，并且相应的重心坐标b＝[b₁，b₂，b₃]。

在获得f和b之后，本申请实施例使用将3D关节投影到2D关键点的类似方法将预测的SMPL顶点投影到2D空间最后，本申请实施例可以通过使用重心坐标对所选择的2D顶点进行加权平均来获得预测的密集关键点，并计算预测2D密集关键点和标注密集关键点之间的密集关键点损失函数L_dense。整个过程如下：

在公式(5)中，T是具有密集标注的图像的数量，X_i和分别在表示目标对象上标注2D密集关键点和目标对象的预测2D密集关键点。总损失函数L定义如下：

L＝L_3D+L_2D+L_dense(6)；

Sampling Dense Key points(采样密集关键点).由于密集关键点标注仅在COCODense Pose数据集中可用，并且纯粹使用稀疏2D关键点的训练模型将导致次优结果，因此本申请实施例提出了一种有效方法，用于为仅使用稀疏2D关键点标注的其他自然环境下的图像生成密集关键点。一种有效的方法是直接从DensePose模型生成的IUV图中采样点。

从IUV图谱预测的密集关键点不能直接使用，因为IUV图谱经常包含错误的预测。图5为本申请实施例优化IUV图谱的结构示意图，如图5(a)所示，在IUV图谱51中将图像52中的目标对象的左脚错误地预测为右脚，而右脚被预测为相反。为了避免可能破坏模型学习的错误点，本申请实施例使用准确的稀疏关键点作为参考来执行密集点的采样。对于每个可见的2D关键点，本申请实施例检查以3×3网格为中心的IUV图谱的值，并选择最常出现的I(表示身体部位)作为围绕该关键点的IUV图谱的身体部位预测。例如，如果关键点被标记为“右脚”但周围的IUV是“左脚”，则该子区域被指定为错误区域。

在找到错误区域后，本申请实施例的采样方案将以递归方式将该子区域的IUV映射设置为背景：本申请实施例首先将关键点的IUV值设置为背景，然后检查其周围的3×3网格并确定其值为“I”的像素等于周围的IUV并将其IUV值设置为背景。此外，本申请实施例检查以这些像素为中心的3×3网格，并使用相同的条件确定更多像素。该过程以递归方式进行，直到找不到更多像素。在本申请实施例使用图谱作为补充输入和采样密集关键点之前，对每个关键点进行上述过程以细化整个IUV图谱。

密集关键点的采样过程如图5(b)所示，首先，对图像52中的目标对象进行密集姿势估计，得到图像52对应的IUV图谱51；对图像52中的目标对象进行2D姿势估计，标注一些2D关键点501。其次，针对这些2D关键点501判断该关键点与IUV图谱51中的IUV坐标是否匹配，如图5(b)所示，该关键点501与IUV图谱51中的IUV坐标不匹配，说明该子区域被指定为错误区域502；再次，确定错误区域502之后，将错误区域502移出，得到修订的IUV图谱53；最后，对于修订之后的IUV图谱53进行密集关键点采样，得到包含预测密集关键点的图像54。

在图5中，将生成的IUV映射与2D关键点进行比较。如果二者不匹配，例如，“右脚”周围的子区域被预测为“左脚”，那么通过将其指定为背景来丢弃该子区域。将每个关键点与围绕它的预测IUV映射进行比较，并删除不一致的部分。

在本申请实施例中被过，通过在训练图像之间构建密集的对应来解决自然环境下的3D人类恢复。与稀疏2D监督相比，密集响应有效地减少了批注差距和领域差距。本申请实施例的框架学习以自上而下和自下而上的方式利用密集信息来桥接多源训练数据并促进强大的3D学习。为了进一步滤除不可靠的预测，通过考虑密集关键点和稀疏关键点之间的一致性来设计选择性采样方案。大量实验表明，申请实施例的框架在自然环境下数据上实现了较为理想的3D人体恢复性能。

本申请实施例提供一种图像处理装置，图6为本申请实施例图像处理装置的组成结构示意图，如图6所示，所述装置600包括：

第一获取模块601，用于获取包含目标对象的第一待处理图像；

第一处理模块602，用于对所述第一待处理图像进行处理，得到第二待处理图像；其中，所述第二待处理图像不包括所述第一待处理图像的背景；

第一确定模块603，用于根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的3D模型。

在上述装置中，所述第一处理模块602，包括：

或者，

在上述装置中，所述第一确定子模块，包括：

在上述装置中，所述装置还包括：

在上述装置中，所述第一更新模块，包括：

在上述装置中，所述第一处理子模块，包括：

或者，

在上述装置中，所述第四确定子模块，包括：

在上述装置中，所述第五确定单元，包括：

在上述装置中，所述第一输入单元，包括：

在上述装置中，第一处理子模块，包括：

在上述装置中，所述第二生成单元，包括：

在上述装置中，所述第六确定单元，包括：

在上述装置中，所述第一训练单元，包括：

第三训练子单元，用于根据所述预测2D密集关键点、所述标注2D密集关键点和所述密集损失函数，训练所述身体模型生成所述目标对象的密集关键点，以确定所述目标对象的3D模型。需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的图像处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台即时通讯设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，对应地，本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的图像处理方法中的步骤。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现本申请实施例提供的图像处理方法中的步骤。

图7为本申请实施例计算机设备的组成结构示意图，如图7所示，该计算机设备700的硬件实体包括：处理器701、通信接口702和存储器703，其中

处理器701通常控制计算机设备700的总体操作。

通信接口702可以使计算机设备通过网络与其他终端或服务器通信。

存储器703配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

以上即时计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请即时通讯设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机或服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取包含目标对象的第一待处理图像；

根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的三维3D模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述图像检测模型是根据样本图像和所述样本图像中的目标对象上标注的关键点信息训练得到的。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述对所述第一待处理图像进行处理，得到第二待处理图像，包括：

确定所述第一待处理图像对应的密集响应IUV图谱；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述对所述第一待处理图像进行处理，得到第二待处理图像，包括：

或者，

6.根据权利要求4所述的方法，其特征在于，所述确定所述第一待处理图像对应的IUV图谱，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

将所述校准后的身体模型，确定为所述目标对象的3D模型。

8.一种图像处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取包含目标对象的第一待处理图像；

第一确定模块，用于根据所述第一待处理图像和所述第二待处理图像，确定所述目标对象的身体模型，以得到所述目标对象的三维3D模型。

9.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至8任一项所述的方法步骤。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至8任一项所述的方法步骤。