CN115797547A

CN115797547A - 图像建模方法、计算机设备和存储介质

Info

Publication number: CN115797547A
Application number: CN202211399126.1A
Authority: CN
Inventors: 郭珊珊; 刘钰纯; 杨帆; 詹翊强
Original assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Current assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-03-14

Abstract

本申请涉及一种图像建模方法、计算机设备和存储介质。所述方法包括：获取待测对象在遮挡物体下的至少两种模态的图像；各所述模态的图像中的至少一个模态的图像用于反映所述待测对象在遮挡物体下的相关姿态信息；将各所述模态的图像输入至预设的神经网络中进行图像建模处理，确定所述待测对象对应的目标建模图像；其中，所述目标建模图像中包括所述待测对象在遮挡物体下的目标三维信息。采用本方法能够提高估计的人体姿态的准确性。

Description

图像建模方法、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像建模方法、计算机设备和存储介质。

背景技术

目前在采用扫描设备对人体进行扫描时，为了降低对人体的辐射，一般可能会在人体身上覆盖或遮挡一些物体，这些遮挡物体下人体的姿态就属于不可知的，这样在通过扫描数据重建的图像进行数据分析时，可能就会对分析结果产生一些影响。

相关技术中，一般是采用对人体扫描获得的人体的RGB(光学三原色)图，来对人体在遮挡物体下的姿态进行估计，以便更好地辅助后续的图像分析过程。

然而，上述技术存在估计的人体姿态不够准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高估计的人体姿态准确性的图像建模方法、计算机设备和存储介质。

第一方面，本申请提供了一种图像建模方法，该方法包括：

获取待测对象在遮挡物体下的至少两种模态的图像；各模态的图像中的至少一个模态的图像用于反映待测对象在遮挡物体下的相关姿态信息；

将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像；

其中，上述目标建模图像中包括待测对象在遮挡物体下的目标三维信息。

在其中一个实施例中，上述神经网络包括图像建模网络；上述将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像，包括：

将各模态的图像输入至图像建模网络中进行图像建模处理，确定待测对象对应的初始建模图像；上述初始建模图像中包括待测对象在遮挡物体下的初始三维信息；

对初始建模图像进行调整，确定目标建模图像。

在其中一个实施例中，上述神经网络还包括轮廓分割网络；上述对初始建模图像进行调整，确定目标建模图像，包括：

将各模态的图像输入至轮廓分割网络中进行分割处理，确定待测对象对应的目标分割图像；上述目标分割图像中包括待测对象在遮挡物体下的整体轮廓；

根据目标分割图像对初始建模图像进行调整，确定目标建模图像。

在其中一个实施例中，上述根据目标分割图像对初始建模图像进行调整，确定目标建模图像，包括：

根据初始建模图像确定待测对象在遮挡物体下的投影轮廓；

计算投影轮廓和目标分割图像中的整体轮廓之间的第一差异；

根据第一差异对初始建模图像进行调整，确定目标建模图像。

在其中一个实施例中，上述根据初始建模图像确定待测对象在遮挡物体下的投影轮廓，包括：

对初始建模图像进行投影处理，确定初始建模图像对应的投影图像；上述投影图像中包括待测对象在遮挡物体下的投影轮廓。

在其中一个实施例中，上述神经网络还包括关键点检测网络；上述对初始建模图像进行调整，确定目标建模图像，包括：

将各模态的图像输入至关键点检测网络中进行关键点检测处理，确定待测对象对应的关键点及关键点的检测位置；上述关键点中包括待测对象在遮挡物体下的关键点；

根据关键点的检测位置对初始建模图像进行调整，确定目标建模图像。

在其中一个实施例中，上述初始三维信息中包括待测对象在遮挡物体下的关键点的初始三维位置；上述根据关键点的检测位置对初始建模图像进行调整，确定目标建模图像，包括：

根据关键点的初始三维位置和关键点的检测位置计算第二差异；

根据第二差异对初始建模图像进行调整，确定目标建模图像。

在其中一个实施例中，上述根据关键点的初始三维位置和关键点的检测位置计算第二差异，包括：

对初始三维位置进行投影处理，确定初始三维位置对应的投影位置；上述投影位置与关键点的检测位置所处的维度相同；

计算关键点的投影位置和关键点的检测位置之间的第二差异。

在其中一个实施例中，上述将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像，包括：

对各模态的图像进行数据融合或合并处理，获得融合数据或合并数据；

将融合数据或合并数据输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像。

在其中一个实施例中，上述图像建模网络的训练方式包括：

获取各组样本图像；每组样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个样本图像中均包括关键点的标注位置；

将样本图像输入至初始图像建模网络中进行图像建模处理，确定样本对象对应的预测重建图像；上述预测重建图像中包括样本对象的预测三维信息；

根据样本对象的预测三维信息和对应的关键点的标注位置，对初始图像建模网络进行训练，确定图像建模网络。

在其中一个实施例中，上述将样本图像输入至初始图像建模网络中进行图像建模处理，确定样本对象对应的预测重建图像，包括：

将样本图像输入至初始图像建模网络中进行图像建模处理，确定初始预测重建图像；

对初始预测重建图像进行迭代优化处理，确定预测重建图像。

在其中一个实施例中，上述根据样本对象的预测三维信息和对应的关键点的标注位置，对初始图像建模网络进行训练，确定图像建模网络，包括：

对预测重建图像中的预测三维信息进行投影处理，确定预测三维信息对应的关键点的预测位置；

根据关键点的预测位置和对应的关键点的标注位置之间的损失，对初始图像建模网络进行训练，确定图像建模网络。

在其中一个实施例中，上述轮廓分割网络的训练方式包括：

获取各组样本图像；每组样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个样本图像中均包括样本对象的标注轮廓；

将样本图像输入至初始轮廓分割网络中进行分割处理，确定样本对象对应的预测分割图像；上述预测分割图像中包括样本对象的预测轮廓；

根据样本对象的预测轮廓和对应的标注轮廓，对初始轮廓分割网络进行训练，确定轮廓分割网络。

在其中一个实施例中，上述至少两种模态的图像包括光学三原色RGB图像、压力图像、深度图像以及红外线图像中的至少两种。

第二方面，本申请还提供了一种图像建模装置，该装置包括：

图像获取模块，用于获取待测对象在遮挡物体下的至少两种模态的图像；各模态的图像中的至少一个模态的图像用于反映待测对象在遮挡物体下的相关姿态信息；

图像建模模块，用于将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像；其中，上述目标建模图像中包括待测对象在遮挡物体下的目标三维信息。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行所述计算机程序时实现以下步骤：

将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像；其中，上述目标建模图像中包括待测对象在遮挡物体下的目标三维信息。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述图像建模方法、计算机设备和存储介质，通过获取待测对象在遮挡物体下的至少两种模态的图像，并将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象的目标建模图像；其中，各模态的图像中的至少一个模态图像用于反映待测对象在遮挡物体下的相关姿态信息，目标建模图像中包括待测对象在遮挡物体下的目标三维信息。该方法中，由于可以通过反映待测对象在遮挡物体下的相关姿态信息的多模态图像获得待测对象的目标建模图像，这样结合多个模态图像的图像特征，可以最大程度补全各单模态图像下缺失的待测对象的姿态等三维信息，从而使得最终获得的待测对象在遮挡物体下的目标三维信息更加准确，即最终估计的待测对象在遮挡物体下的姿态更加准确。

附图说明

图1为一个实施例中图像建模方法的应用环境图；

图2为一个实施例中图像建模方法的流程示意图；

图3为另一个实施例中图像建模方法的流程示意图；

图4为另一个实施例中图像建模方法的流程示意图；

图5为另一个实施例中图像建模方法的流程示意图；

图6为另一个实施例中图像建模方法的流程示意图；

图7为另一个实施例中图像建模方法的流程示意图；

图8为另一个实施例中图像建模方法的流程示意图；

图9为另一个实施例中各网络训练过程的示例图；

图10为另一个实施例中各网络测试过程的示例图；

图11为一个实施例中图像建模装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像建模方法，可以应用于如图1所示的应用环境中。其中，各传感器102均可以和计算机设备104进行通信，以使得各传感器102将各自采集的数据传输给计算机设备104进行处理。各传感器102可以包括相机/摄像头、红外传感器、压力传感器、深度摄像头/深度相机等传感器，其中相机/摄像头可以采集待测对象的RGB数据，红外传感器可以采集待测对象的红外数据，压力传感器可以采集待测对象的压力数据，深度摄像头/深度相机可以采集待测对象的深度信息数据。其中各类传感器可以由一个传感器或多个相同的传感器组成的传感器组来实现。计算机设备104可以是终端或服务器，其中终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像建模方法，以该方法应用于图1中的计算机设备104为例进行说明，该方法可以包括以下步骤：

S202，获取待测对象在遮挡物体下的至少两种模态的图像；各模态的图像中的至少一个模态的图像用于反映待测对象在遮挡物体下的相关姿态信息。

其中，遮挡物体可以是在待测对象身上覆盖的毛毯、被罩、被子、防辐射服等，该遮挡物体可以遮挡住待测对象的全身，也可以是只遮挡住待测对象身体的某一部分或某几部分。

在对待测对象采集图像之前，一般可以先让待测对象躺在床上，并在待测对象身上覆盖遮挡物体，之后，可以采用不同种类的传感器分别对待测对象在该遮挡情况下进行图像采集，每类传感器进行图像采集后可以获得一个模态的图像，一般至少通过两类不同的传感器进行图像采集，这样就可以获得至少两个模态的图像。

作为可选的实施例，上述至少两种模态的图像包括光学三原色RGB图像、压力图像、深度图像以及红外线图像中的至少两种。其中，RGB图像可以采用相机/摄像头对待测对象进行图像采集获得，该相机/摄像头可以设置在待测对象的上方；压力图像可以记为PM图像，其可以采用压力传感器对待测对象进行图像采集获得，该压力图像可以表征待测对象在遮挡情况下对床的压力等信息，该压力传感器可以设置在待测对象所躺的床的背面或正面；深度图像可以记为Depth图像，其可以采用深度相机/深度摄像头对待测对象进行图像采集获得，该深度图像中可以包括待测对象的深度信息，其中深度信息可以包括待测对象和/或遮挡物体，与深度相机/深度摄像头之间的距离；红外线图像可以记为IR图像，其可以是采用红外传感器对待测对象进行图像采集获得，该红外传感器可以设置在待测对象的上方和/或周围。

总之，通过各类传感器对待测对象在遮挡情况下进行图像采集，这样可以获得各种模态的图像。其中压力图像、深度图像、红外线图像等均可以在一定程度上反映待测对象在遮挡物体下的位姿和形态等信息，即可以反映待测对象在遮挡物体下的相关姿态信息。

S204，将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像；其中，上述目标建模图像中包括待测对象在遮挡物体下的目标三维信息。

其中，神经网络的架构可以根据实际情况设定，例如该神经网络可以由多个网络构成，该多个网络之间可以通过级联或并列等方式形成神经网络。另外该神经网络的具体网络类型也可以根据实际情况设定，例如可以包括ResNet网络、state-of-the-art通用分割神经网络、DeepLab V3网络、HMR网络、SMPL网络、Vnet网络、Unet网络等等。该神经网络在使用前可以预先训练好，具体训练过程将在下述实施例中进行详细说明。

在上述获得多个模态的图像之后，可以将各模态的图像直接输入至神经网络中，也可以是将各模态的图像进行预处理后输入至神经网络中；在神经网络中可以对该各个模态的图像进行图像建模处理，以对待测对象在遮挡物体下的三维信息进行重建，最终获得重建的目标建模图像，该目标建模图像中可以包括待测对象在建模后较为准确的目标三维信息，该目标三维信息可以包括待测对象在遮挡物体下的姿态(例如位姿和形态等)、待测对象在无遮挡物体下的姿态(例如位姿和形态等)。其中位姿可以包括位置、偏向角度、姿势等，形态可以包括高矮胖瘦等信息。其中这里的图像建模处理例如可以包括特征提取、上下采样、融合、分类等处理过程。

这里的图像建模处理与图像重建处理不同，主要是通过待测对象的图像去重构待测对象的三维网格图像，也即是这里的目标建模图像是三维网格图像，其中包括重构的待测对象及其目标三维信息。以待测对象是人体为例，该目标建模图像可以是人体的三维网格图像，其中包括人体的三维信息，例如位姿、形态等。

以将各模态的图像进行预处理后输入至神经网络中为例，作为可选的实施例，本步骤可以包括：对各模态的图像进行数据融合或合并处理，获得融合数据或合并数据；将融合数据或合并数据输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像。

其中，数据融合可以是将多个模态的图像进行特征提取、特征融合等处理，获得融合数据；合并处理可以是直接将各模态的图像进行concatenate连接，获得合并数据；之后，可以将融合数据或合并数据输入至神经网络中进行图像建模处理，确定目标建模图像。通过将各模态图像进行融合或合并，这样可以便于结合多个模态图像上的信息进行数据分析，获得的重建结果更加准确。

上述图像建模方法中，通过获取待测对象在遮挡物体下的至少两种模态的图像，并将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象的目标建模图像；其中，各模态的图像中的至少一个模态图像用于反映待测对象在遮挡物体下的相关姿态信息，目标建模图像中包括待测对象在遮挡物体下的目标三维信息。该方法中，由于可以通过反映待测对象在遮挡物体下的相关姿态信息的多模态图像获得待测对象的目标建模图像，这样结合多个模态图像的图像特征，可以最大程度补全各单模态图像下缺失的待测对象的姿态等三维信息，从而使得最终获得的待测对象在遮挡物体下的目标三维信息更加准确，即最终估计的待测对象在遮挡物体下的姿态更加准确。

上述实施例中提到了可以采用神经网络实现对待测对象在遮挡物体下的三维信息的图像重建，以下就对在神经网络包括图像建模网络时具体如何进行图像重建的过程进行说明。

在另一个实施例中，如图3所示，提供了另一种图像建模方法，在上述实施例的基础上，上述S204可以包括以下步骤：

S302，将各模态的图像输入至图像建模网络中进行图像建模处理，确定待测对象对应的初始建模图像；上述初始建模图像中包括待测对象在遮挡物体下的初始三维信息。

其中，图像建模网络的具体架构和类型这里不作具体限定。例如可以是HMR网络和SMPL网络组合构成的神经网络。该图像建模网络也可以预先训练好，用于获得待测对象的重建图像，例如可以是获得待测对象的3D Mesh图像，即获得待测对象的三维网络图像。

上述在获得各模态图像之后，也可以先将各个模态的图像进行配准对齐，并按照待测对象的包围盒bounding box将各模态的图像统一裁剪并扩充padding为一定尺寸大小，这里的尺寸例如可以是224*224，同时可以对图像进行旋转以及添加噪声，使得获得的图像更加符合实际情况和符合设备的计算能力。之后可以将上述处理后的各模态图像进行数据融合或合并处理，并将获得的融合数据或合并数据输入至图像建模网络中进行图像建模处理，初步获得包括待测对象在遮挡物体下的初始三维信息的初始建模图像。

这里的初始建模图像可以是由三维网格信息构成的图像，其中可以包括待测对象在遮挡物体下的初始三维信息，这里的初始三维信息可以包括待测对象在遮挡物体下的初始位姿和初始形态。当然上述初始建模图像中也可以包括待测对象在无遮挡物体下的初始三维信息。

S304，对初始建模图像进行调整，确定目标建模图像。

在上述获得初始建模图像和其中的初始三维信息之后，有可能获得的初始三维信息不够准确或不符合实际情况，那么此时可以通过对初始三维信息进行分析获得初始建模图像是否需要调整；若需要调整，则对初始建模图像进行调整，以获得调整后的目标建模图像，该调整后的目标建模图像中所包括的目标三维信息一般是比较接近真实人体姿态的，其准确性较高且符合实际情况。

本实施例中，通过将各模态图像输入至神经网络中包括的图像建模网络中进行图像建模处理，获得包括待测对象在遮挡物体下的初始三维信息的初始建模图像，并对初始建模图像进行调整以获得最终的结果，这样可以使通过调整初始建模图像获得的目标建模图像中的目标三维信息的准确性较高且符合实际情况。

上述实施例中提到了神经网络包括图像建模网络，并通过图像建模网络的输出结果调整图像建模网络的过程，在上述实施例的基础上，神经网络还可以包括轮廓分割网络，并通过轮廓分割网络结合图像建模网络共同监督获得目标建模图像，以下实施例就主要对该过程进行详细说明。

在另一个实施例中，如图4所示，提供了另一种图像建模方法，在上述实施例的基础上，上述S304可以包括以下步骤：

S402，将各模态的图像输入至轮廓分割网络中进行分割处理，确定待测对象对应的目标分割图像；上述目标分割图像中包括待测对象在遮挡物体下的整体轮廓。

在本步骤中，轮廓分割网络的具体架构和类型这里不作具体限定，例如可以是DeepLab V3网络的主干backbone网络。该轮廓分割网络也可以预先训练好，用于对待测对象的轮廓进行分割。那么在采用轮廓分割网络对图像进行分割之前，可以先对轮廓分割网络进行训练，该轮廓分割网络的训练方式可以包括：

获取各组样本图像；每组样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个样本图像中均包括样本对象的标注轮廓；将样本图像输入至初始轮廓分割网络中进行分割处理，确定样本对象对应的预测分割图像；上述预测分割图像中包括样本对象的预测轮廓；根据样本对象的预测轮廓和对应的标注轮廓，对初始轮廓分割网络进行训练，确定轮廓分割网络。

其中，上述各组样本图像中，也可以是针对同一个样本对象，采集该样本对象在不同姿势(例如平躺或侧躺等)下的有无遮挡物体的样本图像作为一组样本图像。具体可以将每组样本图像中无遮挡物体的样本图像使用state-of-the-art通用分割神经网络模型进行轮廓分割处理(例如可以对不盖被子的样本RGB图像进行轮廓分割处理)，获得样本对象剪影轮廓的掩膜mask图像，并对该mask图像进行轮廓标注的优化，最终获得样本对象的标注轮廓。之后就可以将各组样本图像分别输入至初始轮廓分割网络中进行轮廓分割，获得每个样本图像对应的预测轮廓，并和其对应的标注轮廓计算损失，并采用计算的损失对初始轮廓分割网络的参数进行调整，如此采用各组样本图像的损失迭代对初始轮廓网络进行训练，直至损失达到阈值或者损失不再变化为止，即认为初始轮廓分割网络训练完成，获得训练好的轮廓分割网络。上述计算的损失可以是Focal Loss。

在轮廓分割网络训练完成之后，就可以将各模态的图像均输入至轮廓分割网络中进行分割处理，获得待测对象的目标分割图像，其中包括待测对象在遮挡物体下的整体轮廓，当然还可以包括待测对象在无遮挡物体下的整体轮廓。其中待测对象的整体轮廓可以是由各个带有位置信息的点构成的轮廓。

S402，根据目标分割图像对初始建模图像进行调整，确定目标建模图像。

上述在获得包括待测对象在遮挡物体下的整体轮廓的目标分割图像之后，可以结合初始建模图像，例如通过两者之间的轮廓比对等对初始建模图像进行调整，以获得目标建模图像。

参见图5所示，以下给出一种可能的调整方式，本步骤可以包括以下步骤：

S502，根据初始建模图像确定待测对象在遮挡物体下的投影轮廓。

其中，作为可选的实施例，可以是先对初始建模图像进行投影处理，确定初始建模图像对应的投影图像，例如初始建模图像一般为3D三维图像，可以将其投影到2D二维，获得二维投影图像，投影过程中可以是将初始建模图像中待测对象的整体轮廓进行投影，这样获得的投影图像中可以包括待测对象在遮挡物体下的投影轮廓。

S504，计算投影轮廓和目标分割图像中的整体轮廓之间的第一差异。

在本步骤中，由于轮廓分割网络只专注分割待测对象的轮廓，因此认为其获得的分割图像中的轮廓的准确性较高，可以将该分割图像中的轮廓作为参考，和图像建模网络输出的轮廓进行比较。具体可以是计算目标分割图像中整体轮廓上的各个点和投影轮廓上对应的点之间的差异，获得的各个点的差异均可以记为第一差异，或者可以将各个点的差异综合获得的值记为第一差异。

S506，根据第一差异对初始建模图像进行调整，确定目标建模图像。

在本步骤中，在获得第一差异之后，该第一差异可以表征初始建模图像中的轮廓与轮廓分割网络输出的轮廓之间的差距，这样可以通过该差距对初始建模图像进行调整，使得通过调整初始建模图像后最终获得的目标建模图像中的轮廓接近轮廓分割网络输出的轮廓。

示例地，假设初始建模图像中的轮廓与轮廓分割网络输出的轮廓之间存在差距，且具体是轮廓分割网络输出的轮廓比初始建模图像中的轮廓胖，那么可以将初始建模图像中的轮廓往胖的方向进行调整，例如可以是初始三维网格图像中将人体的轮廓往宽调整，以尽可能接近轮廓分割网络输出的轮廓。

另外，上述在通过第一差异对初始建模图像进行调整时，也可以通过设定的数学方式进行调整，例如在某个方向上每次给轮廓加多少尺寸或者减多少尺寸，或者给轮廓每次乘以或除以多少值等等。

本实施例中，通过将各模态的图像输入神经网络中的轮廓分割网络中进行分割获得待测对象在遮挡物体下的轮廓，并通过轮廓分割网络的结果对初始建模图像进行调整，这样可以获得更为准确的目标建模图像。另外，通过预先采用多组标注轮廓、有无遮挡物体的样本图像对轮廓分割网络进行训练，这样通过大样本量且多种类的样本训练的轮廓分割网络较为准确，获得的轮廓分割结果也较为准确。进一步地，通过轮廓分割网络输出的结果和初始建模图像之间的差异对初始建模图像进行调整，这样可以准确且有针对性地调整初始建模图像，从而可以使调整后的目标建模图像及其中包括的目标三维信息更加准确。

上述实施例中提到了神经网络包括图像建模网络，并通过图像建模网络的输出结果调整图像建模网络的过程，在上述实施例的基础上，神经网络还可以包括关键点检测网络，并通过关键点检测网络结合图像建模网络共同监督获得目标建模图像，以下实施例就主要对该过程进行详细说明。

在另一个实施例中，如图6所示，提供了另一种图像建模方法，在上述实施例的基础上，上述S304可以包括以下步骤：

S602，将各模态的图像输入至关键点检测网络中进行关键点检测处理，确定待测对象对应的关键点及关键点的检测位置；上述关键点中包括待测对象在遮挡物体下的关键点。

在本步骤中，关键点检测网络的具体架构和类型这里不作具体限定，例如可以是ResNet网络。该关键点检测网络也可以预先训练好，用于对待测对象身上的关键点进行预测。那么在采用关键点检测网络进行关键点预测之前，可以先对关键点检测网络进行训练，训练过程可以包括：可以先获取各样本对象在不同姿势下有无遮挡物体覆盖的各模态样本图像，并预先在每个样本图像中标注多个关键点的位置(例如可以是标注2D关节点的坐标)，同时可以标注每个样本图像中待测对象在图像中的位置框bounding box；这里具体标注时可以是通过同一样本对象在同一姿势下、且无遮挡物体覆盖时的RGB样本图像，在该RGB样本图像上标注关键点的位置之后，可以对同等条件下的其他模态的图像进行同等的标注，这样通过一张图标注多个图的方式可以大大降低标注工作量。之后，可以在标注完成之后，采用标注完成的各样本图像输入至初始关键点检测网络中，获得各样本图像对应的2D姿态关键点的预测热图，预测热图中包括关键点预测位置，并通过预测位置和对应关键点的标注的位置计算L1 Loss，进行反向传播实现对初始关键点检测网络的训练，最终获得训练好的关键点检测网络。

在训练完成之后，可以将各模态的图像输入至训练好的关键点检测模型中，获得待测对象的2D姿态关键点的热图，其中包括各关键点及其检测位置，各关键点包括待测对象在遮挡物体下的关键点和在无遮挡物体下的关键点。

S604，根据关键点的检测位置对初始建模图像进行调整，确定目标建模图像。

上述在获得关键点的检测位置之后，可以结合包括待测对象的初始三维信息的初始建模图像，例如通过两者之间的关键点的位置进行比对等对初始建模图像进行调整，以获得目标建模图像。

参见图7所示，上述初始三维信息中包括待测对象在遮挡物体下的关键点的初始三维位置；以下给出一种可能的调整方式，本步骤可以包括以下步骤：

S702，根据关键点的初始三维位置和关键点的检测位置计算第二差异。

在本步骤中，作为可选的实施例，可以对初始三维位置进行投影处理，确定初始三维位置对应的投影位置，即可以将关键点的初始三维位置投影到二维上，获得在二维上的投影位置，该投影位置与关键点的检测位置所处的维度相同，即关键点检测网络获得的关键点的检测位置为二维的，初始三维位置投影时也需投影到检测位置对应的两个维度下；之后，可以计算关键点的投影位置和关键点的检测位置之间的第二差异，具体可以是计算各关键点的投影位置和对应的检测位置之间的差异，获得的各个关键点的差异均可以记为第二差异，或者也可以将所有关键点的差异综合获得的值记为第二差异。

S704，根据第二差异对初始建模图像进行调整，确定目标建模图像。

在本步骤中，在获得第二差异之后，该第二差异可以表征初始建模图像中的关键点的初始三维位置和关键点检测网络获得的关键点的检测位置之间的差距，这样就可以通过该差距对初始建模图像进行调整，使得最终调整后的目标建模图像中的关键点的三维位置更加接近关键点检测网络输出的关键点的检测位置，两者之间的差异最小。

本实施例中，通过将各模态的图像输入神经网络中的关键点检测网络中进行关键点检测获得待测对象在遮挡物体下的关键点的检测位置，并通过关键点检测网络的结果对初始建模图像进行调整，这样可以获得更为准确的目标建模图像。另外，通过关键点检测网络输出的结果和初始建模图像中关键点之间的差异对初始建模图像进行调整，这样可以准确且有针对性地调整初始建模图像，从而可以使调整后的目标建模图像中的目标三维信息更加准确。

下述实施例中主要对上述提到的图像建模网络的训练过程进行说明，参见图8所示，图像建模网络的训练方式可以包括以下步骤：

S802，获取各组样本图像；每组样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个样本图像中均包括关键点的标注位置。

在本步骤中，上述在训练轮廓分割网络时获取的样本图像也可以作为这里的样本图像，也就是说，上述轮廓分割网络、关键点检测网络以及这里的图像建模网络，均可以使用相同的样板图像。通过在上述关键点检测网络训练时给样本图像标注关键点的位置时，这样通过每个样本图像上就可以获得关键点的标注位置。

S804，将样本图像输入至初始图像建模网络中进行图像建模处理，确定样本对象对应的预测重建图像；上述预测重建图像中包括样本对象的预测三维信息。

在本步骤中，在获得样本图像之后，作为可选的实施例，可以将样本图像输入至初始图像建模网络中进行图像建模处理，先获得样本对象的预测三维信息(例如关键点的预测位置、预测形态参数、相机/摄像头的参数)，之后再进行建模获得初始预测重建图像，该初始预测重建图像中可以包括上述样本对象的预测三维信息。之后可以使用smplify优化方法对初始预测重建图像进行迭代优化处理，确定预测重建图像，即对初始预测重建图像进行多次迭代优化得到更加符合真实姿态的预测重建图像，该预测重建图像中的预测三维信息更加符合样本对象的实际姿态。

S806，根据样本对象的预测三维信息和对应的关键点的标注位置，对初始图像建模网络进行训练，确定图像建模网络。

在本步骤中，在获得预测重建图像及其中的预测三维信息之后，作为可选的实施例，可以对预测重建图像中的预测三维信息进行投影处理，确定预测三维信息对应的关键点的预测位置，即将预测三维信息通过上述获得的相机/摄像头的参数反投影至二维空间，获得投影的2D图像，同时在该2D图像中获得预测三维信息对应的关键点在投影后的位置，记为预测位置。之后，可以根据关键点的预测位置和对应的关键点的标注位置之间的损失，对初始图像建模网络进行训练，确定图像建模网络，即可以计算同一关键点的预测位置和标注位置之间的L1 Loss损失，并通过该损失反向传播以训练图像建模网络，最终获得训练好的图像建模网络。

本实施例中，通过预先采用多组标注位置、有无遮挡物体的样本图像对图像建模网络进行训练，具体是将各模态的样本图像输入图像建模网络中进行图像重建以获得关键点的预测三维信息，并和关键点对应的标注位置共同对图像建模网络进行训练，这样通过大样本量且多种类的样本训练的图像建模网络较为准确，获得的目标建模图像也较为准确。另外，通过迭代优化图像建模网络输出的初始结果，以获得预测三维信息，这样获得的预测三维信息更加准确，后续网络训练的就更加准确。进一步地，通过关键点的预测位置和标注位置之间的损失训练网络，这样可以有针对性地实现对网络的训练过程，提高网络训练的效率。

以下给出一个具体实施例来对本申请的技术方案进行详细说明，在上述实施例的基础上，本实施例中涉及的网络模型Model包括图像建模网络、关键点检测网络以及轮廓分割网络，上述方法可以包括网络训练阶段和网络测试阶段，以下分别对这两个阶段进行说明：

1、网络训练阶段。

参见图9所示，输入Input每个样本对象在同一个姿势下的四个模态的图像，分别为：RGB图像、Depth深度图像、PM压力图像、IR红外线图像；并对这四个模态的图像进行数据预处理Data Preprocess，其中包括配准对齐、裁剪成设定尺寸、旋转、添加噪声等；之后可以将数据预处理后的不同模态的图像进行数据融合或合并处理，获得融合数据或合并数据；然后可以将融合数据或合并数据分别输入至关键点检测网络(也可以称为2D关键点检测模型)、图像建模网络(也可以称为3D Mesh网络)以及轮廓分割网络(也可以成为姿态分割mask网络)进行相应的处理，并通过获得的结果单独或结合其他结果训练各网络，最终获得训练好的图像建模网络、关键点检测网络以及轮廓分割网络。

2、网络测试阶段。

参见图10所示，输入Input待测对象四个模态的图像，分别为：RGB图像、Depth深度图像、PM压力图像、IR红外线图像；并对这四个模态的图像进行数据预处理DataPreprocess，其中包括配准对齐等；之后可以将数据预处理后的不同模态的图像进行数据融合或合并处理，获得融合数据或合并数据；然后可以将融合数据或合并数据分别输入至训练好的2D关键点检测模型、3D Mesh网络以及姿态分割mask网络进行相应的处理；并将3DMesh网络输出的结果进行反投影Mesh处理，获得剪影图像及2D关键点坐标位置，同时结合2D关键点检测模型输出的2D关键点坐标和姿态分割mask网络输出的人体轮廓剪影图像，对3D Mesh网络反投影后的剪影图像及2D关键点坐标位置进行比对等后处理Postprocess，即结合多分支结果优化3D Mesh网络反投影后的剪影图像及2D关键点坐标位置，输出Output最终的3D人体Mesh，其中包括人体的目标三维信息(具体包括位姿和形态等信息)。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像建模方法的图像建模装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像建模装置实施例中的具体限定可以参见上文中对于图像建模方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种图像建模装置，包括：图像获取模块11和图像建模模块12，其中：

图像获取模块11，用于获取待测对象在遮挡物体下的至少两种模态的图像；各模态的图像中的至少一个模态的图像用于反映待测对象在遮挡物体下的相关姿态信息；

图像建模模块12，用于将各模态的图像输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像；其中，上述目标建模图像中包括待测对象在遮挡物体下的目标三维信息。

可选的，上述图像建模模块12可以包括融合或合并单元，用于对各模态的图像进行数据融合或合并处理，获得融合数据或合并数据；将融合数据或合并数据输入至预设的神经网络中进行图像建模处理，确定待测对象对应的目标建模图像。

可选的，上述至少两种模态的图像包括光学三原色RGB图像、压力图像、深度图像以及红外线图像中的至少两种。

在另一个实施例中，提供了另一种图像建模装置，上述神经网络包括图像建模网络；上述图像建模模块12还可以包括：

重建单元，用于将各模态的图像输入至图像建模网络中进行图像建模处理，确定待测对象对应的初始建模图像；上述初始建模图像中包括待测对象在遮挡物体下的初始三维信息；

调整单元，用于对初始建模图像进行调整，确定目标建模图像。

在另一个实施例中，提供了另一种图像建模装置，上述神经网络还包括轮廓分割网络；上述调整单元可以包括：

分割子单元，用于将各模态的图像输入至轮廓分割网络中进行分割处理，确定待测对象对应的目标分割图像；上述目标分割图像中包括待测对象在遮挡物体下的整体轮廓；

第一调整子单元，用于根据目标分割图像对初始建模图像进行调整，确定目标建模图像。

可选的，上述第一调整子单元，具体用于根据初始建模图像确定待测对象在遮挡物体下的投影轮廓；计算投影轮廓和目标分割图像中的整体轮廓之间的第一差异；根据第一差异对初始建模图像进行调整，确定目标建模图像。

可选的，上述第一调整子单元，具体用于对初始建模图像进行投影处理，确定初始建模图像对应的投影图像；上述投影图像中包括待测对象在遮挡物体下的投影轮廓。

在另一个实施例中，提供了另一种图像建模装置，上述神经网络还包括关键点检测网络；上述调整单元可以包括：

检测子单元，用于将各模态的图像输入至关键点检测网络中进行关键点检测处理，确定待测对象对应的关键点及关键点的检测位置；上述关键点中包括待测对象在遮挡物体下的关键点；

第二调整子单元，用于根据关键点的检测位置对初始建模图像进行调整，确定目标建模图像。

可选的，上述初始三维信息中包括待测对象在遮挡物体下的关键点的初始三维位置；上述第二调整子单元，具体用于根据关键点的初始三维位置和关键点的检测位置计算第二差异；根据第二差异对初始建模图像进行调整，确定目标建模图像。

可选的，上述第二调整子单元，具体用于对初始三维位置进行投影处理，确定初始三维位置对应的投影位置；上述投影位置与关键点的检测位置所处的维度相同；计算关键点的投影位置和关键点的检测位置之间的第二差异。

在另一个实施例中，提供了另一种图像建模装置，上述装置还可以包括建模网络训练模块，包括：

第一样本获取单元，用于获取各组样本图像；每组样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个样本图像中均包括关键点的标注位置；

图像预测单元，用于将样本图像输入至初始图像建模网络中进行图像建模处理，确定样本对象对应的预测重建图像；上述预测重建图像中包括样本对象的预测三维信息；

建模网络训练单元，用于根据样本对象的预测三维信息和对应的关键点的标注位置，对初始图像建模网络进行训练，确定图像建模网络。

可选的，上述图像预测单元，具体用于将样本图像输入至初始图像建模网络中进行图像建模处理，确定初始预测重建图像；对初始预测重建图像进行迭代优化处理，确定预测重建图像。

可选的，上述建模网络训练单元，具体用于对预测重建图像中的预测三维信息进行投影处理，确定预测三维信息对应的关键点的预测位置；根据关键点的预测位置和对应的关键点的标注位置之间的损失，对初始图像建模网络进行训练，确定图像建模网络。

在另一个实施例中，提供了另一种图像建模装置，上述装置还可以包括分割网络训练模块，包括：

第二样本获取单元，用于获取各组样本图像；每组样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个样本图像中均包括样本对象的标注轮廓；

分割预测单元，用于将样本图像输入至初始轮廓分割网络中进行分割处理，确定样本对象对应的预测分割图像；上述预测分割图像中包括样本对象的预测轮廓；

分割网络训练单元，用于根据样本对象的预测轮廓和对应的标注轮廓，对初始轮廓分割网络进行训练，确定轮廓分割网络。

上述图像建模装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像建模方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像建模方法，其特征在于，所述方法包括：

获取待测对象在遮挡物体下的至少两种模态的图像；各所述模态的图像中的至少一个模态的图像用于反映所述待测对象在遮挡物体下的相关姿态信息；

将各所述模态的图像输入至预设的神经网络中进行图像建模处理，确定所述待测对象对应的目标建模图像；

其中，所述目标建模图像中包括所述待测对象在遮挡物体下的目标三维信息。

2.根据权利要求1所述的方法，其特征在于，所述神经网络包括图像建模网络；所述将各所述模态的图像输入至预设的神经网络中进行图像建模处理，确定所述待测对象对应的目标建模图像，包括：

将各所述模态的图像输入至所述图像建模网络中进行图像建模处理，确定所述待测对象对应的初始建模图像；所述初始建模图像中包括所述待测对象在遮挡物体下的初始三维信息；

对所述初始建模图像进行调整，确定所述目标建模图像。

3.根据权利要求2所述的方法，其特征在于，所述神经网络还包括轮廓分割网络；所述对所述初始建模图像进行调整，确定所述目标建模图像，包括：

将各所述模态的图像输入至所述轮廓分割网络中进行分割处理，确定所述待测对象对应的目标分割图像；所述目标分割图像中包括所述待测对象在遮挡物体下的整体轮廓；

根据所述目标分割图像对所述初始建模图像进行调整，确定所述目标建模图像。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标分割图像对所述初始建模图像进行调整，确定所述目标建模图像，包括：

根据所述初始建模图像确定所述待测对象在遮挡物体下的投影轮廓；

计算所述投影轮廓和所述目标分割图像中的整体轮廓之间的第一差异；

根据所述第一差异对所述初始建模图像进行调整，确定所述目标建模图像。

5.根据权利要求2-4任一项所述的方法，其特征在于，所述神经网络还包括关键点检测网络；所述对所述初始建模图像进行调整，确定所述目标建模图像，包括：

将各所述模态的图像输入至关键点检测网络中进行关键点检测处理，确定所述待测对象对应的关键点及所述关键点的检测位置；所述关键点中包括所述待测对象在所述遮挡物体下的关键点；

根据所述关键点的检测位置对所述初始建模图像进行调整，确定所述目标建模图像。

6.根据权利要求1所述的方法，其特征在于，所述将各所述模态的图像输入至预设的神经网络中进行图像建模处理，确定所述待测对象对应的目标建模图像，包括：

对各所述模态的图像进行数据融合或合并处理，获得融合数据或合并数据；

将所述融合数据或合并数据输入至预设的神经网络中进行图像建模处理，确定所述待测对象对应的目标建模图像。

7.根据权利要求2-4任一项所述的方法，其特征在于，所述图像建模网络的训练方式包括：

获取各组样本图像；每组所述样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个所述样本图像中均包括关键点的标注位置；

将所述样本图像输入至初始图像建模网络中进行图像建模处理，确定所述样本对象对应的预测重建图像；所述预测重建图像中包括所述样本对象的预测三维信息；

根据所述样本对象的预测三维信息和对应的关键点的标注位置，对所述初始图像建模网络进行训练，确定所述图像建模网络。

8.根据权利要求3或4所述的方法，其特征在于，所述轮廓分割网络的训练方式包括：

获取各组样本图像；每组所述样本图像中均包括样本对象在有遮挡物体下的至少两种模态的样本图像以及在无遮挡物体下的至少两种模态的样本图像，每个所述样本图像中均包括样本对象的标注轮廓；

将所述样本图像输入至初始轮廓分割网络中进行分割处理，确定所述样本对象对应的预测分割图像；所述预测分割图像中包括所述样本对象的预测轮廓；

根据所述样本对象的预测轮廓和对应的标注轮廓，对所述初始轮廓分割网络进行训练，确定所述轮廓分割网络。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。