CN115272582A

CN115272582A - 身体建模的系统和方法

Info

Publication number: CN115272582A
Application number: CN202210920029.6A
Authority: CN
Inventors: 斯里克里希纳·卡拉南; 郑梦; 吴子彦
Original assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Current assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority date: 2021-10-28
Filing date: 2022-08-01
Publication date: 2022-11-01
Also published as: US11941738B2; US20230132479A1

Abstract

可以基于人的一个或多个图像使用预先训练过的神经网络来获得人的三维(3D)模型。这种模型可能受到估计偏差和/或其他类型的缺陷或错误的影响。本文描述了用于改进3D模型和/或用于生成3D模型的神经网络的系统、方法和装置。所提出的技术可以从图像中提取诸如身体关键点位置和/或体形的信息并使用所提取的信息来细化3D模型和/或神经网络。在示例中，3D模型和/或神经网络可以通过最小化从图像提取的身体关键点位置和/或体形与从3D模型确定的对应身体关键点位置和/或体形之间的差异来细化。细化可以以迭代和交替的方式执行。

Description

身体建模的系统和方法

技术领域

本申请涉及身体建模领域。

背景技术

真实地反映患者的体形和姿势的患者身体的三维(3D)模型(例如，网格)可以用于各种医学应用中，包括患者定位、手术导航、统一的病历分析等。例如，关于放疗和医学成像，过程的成功常常取决于具有将患者放置和维持在期望位置使得可以以精确且准确的方式执行过程的能力。具有与个体患者在这些情况下的身体特征(诸如患者的体形和姿势)有关的实时知识可带来许多益处，包括例如根据扫描或治疗方案更快且更准确地定位患者、获得更一致的结果等。在其他示例情况下，诸如在手术过程期间，关于个体患者体形的信息可以为治疗计划和执行两者提供洞察和指导。该信息比如可以用于围绕患者的治疗部位定位和导航。当实时地视觉呈现时，该信息还可以提供用于在过程期间监测患者状态的手段。

发明内容

可以使用预先训练过的人工神经网络并基于患者的图像为患者构建3D人体模型。然而，这些人体模型可能无法准确地表示图像中描绘的患者身体的真实姿势和/或体形。本文描述了用于基于人的一个或多个图像(例如，二维(2D)图像)生成个体化(例如，个性化)人体模型的系统、方法和装置。系统、方法和/或装置可以利用一个或多个处理器，该一个或多个处理器可以被配置为获得人的3D模型，诸如人的蒙皮多人线性(SMPL)模型，其中，该3D模型可以基于人的一个或多个图像使用一个或多个神经网络来生成，并且其中，该一个或多个神经网络可以被预先训练(例如，使用基准训练数据集)以生成3D模型。本文所述的一个或多个处理器还可被配置为获得用于生成3D模型的人的一个或多个图像，并基于人的一个或多个图像来确定人的第一组身体关键点位置(例如，诸如关节位置的解剖关键点)或人的第一组体形参数中的至少一个。本文所述的一个或多个处理器然后可以基于人的第一组身体关键点位置或人的第一组体形参数中的至少一个来调节人的3D模型。例如，一个或多个处理器可以基于人的3D模型来确定人的第二组身体关键点位置或人的第二组体形参数中的至少一个，并且通过最小化第一组身体关键点位置与第二组身体关键点位置之间的差异或人的第一组体形参数与人的第二组体形参数之间的差异中的至少一个来调节人的3D模型。人的第一组身体关键点位置和人的第一组体形参数可以独立于人的第二组身体关键点位置或人的第二组体形参数来确定。

在示例中，人的第一组身体关键点位置与人的第二组身体关键点位置之间的差异可以包括第一欧几里得距离，并且人的第一组体形参数与人的第二组体形参数之间的差异可以包括第二欧几里得距离。在示例中，包括一个或多个处理器的系统或设备还可以包括被配置为捕捉本文所述的人的一个或多个图像的至少一个视觉传感器。视觉传感器可以包括例如颜色传感器、深度传感器或红外传感器。

在示例中，本文所述的一个或多个处理器还可被配置为基于人的第一组身体关键点位置或人的第一组体形参数中的至少一个来调节(例如，细化)一个或多个神经网络的参数(例如，权重)。例如，一个或多个处理器可被配置为以迭代和/或交替的方式调节(例如，细化)一个或多个神经网络的参数和人的3D模型。在示例中，本文所述的一个或多个处理器还可被配置为向接收装置输出人的经调节的(例如，经细化的)3D模型的表示。

附图说明

从以下结合附图以示例方式给出的描述中，可以更详细地理解本文公开的示例。

图1是例示了其中可以应用本文公开的系统、方法和装置的示例环境的图。

图2是例示了用于基于图像恢复3D人体模型的神经网络的示例的简化框图。

图3A是例示了用于细化由预先训练过的神经网络和/或神经网络本身预测的3D人体模型的示例技术的图。

图3B是例示了联合优化3D人体模型和用于生成3D人体模型的神经网络的示例的图。

图3C是例示了可以使用本文所述的技术对3D人体模型作出的渐进式改进的图。

图4是例示了与基于图像来细化3D人体模型相关联的示例操作的简化流程图。

图5是例示了用于训练神经网络以执行本文所述的一个或多个任务的示例方法的简化流程图。

图6是例示了用于执行本文所述的一个或多个任务的示例系统或设备的简化框图。

具体实施方式

在附图的各图中，通过示例而非限制性的方式例示了本公开。

图1是例示了其中可以利用本文公开的方法和装置来调节所估计的3D人体模型的示例环境100的图。如图所示，环境100可以是被配置为提供使用医学扫描仪102(例如，计算机断层摄影(CT)扫描仪、磁共振成像(MRI)机器、正电子发射断层摄影(PET)扫描仪、X光机等)进行的医学扫描或成像过程的扫描室，但环境100也可以与包括例如放疗、外科手术等的其他类型的医学过程的执行相关联(例如，环境100可以是手术室、治疗室等)。

环境100可以包括至少一个感测装置104(例如，图像捕捉装置)，其被配置为捕捉患者106的图像(例如，2D或3D图像)，例如，该患者站在医学扫描仪102的前面，躺在扫描床或治疗床上等。感测装置104可以包括一个或多个传感器，其包括一个或多个摄像头(例如，数字摄像头、视觉传感器等)、一个或多个红、绿和蓝(RGB)传感器(或其他类型的视觉传感器等)、一个或多个深度传感器、一个或多个RGB加深度(RGB-D)传感器、一个或多个热传感器，诸如红外(FIR)或近红外(NIR)传感器等。取决于所使用的传感器的类型，由感测装置104捕捉的图像可以包括例如患者106的一个或多个2D照片、患者106的一个或多个2D RGB图像等。在示例实施方式中，感测装置104可以安装或放置在环境100的各种不同位置处。

感测装置104可以包括一个或多个处理器，其被配置为处理由本文所述的传感器捕捉的患者106的图像。另外或替代地，由感测装置104捕捉的患者106的图像可由通信地耦合到感测装置104上且被配置为接收由感测装置104捕捉的患者106的图像的处理装置108处理。处理装置108可以例如经由通信网络110耦合到感测装置104(例如，耦合到在感测装置104中包括的传感器)，该通信网络可以是有线或无线通信网络。由此可见，即使处理单元108在图1中被示出为与感测装置104和医学扫描仪102位于相同的环境100中，本领域技术人员也将理解，处理单元108也可以位于远离环境100的位置，例如，在单独的房间或不同的设施中。

响应于获得(例如，捕捉或接收)患者106的图像，感测装置104和/或处理装置108可以利用神经网络来分析图像(例如，在像素级)并且基于所获得的图像生成患者106的3D人体模型，其中，神经网络可以被预先训练以生成3D人体模型(例如，基于由神经网络通过训练过程学习的模型)。3D人体模型可包括参数模型，诸如可指示患者106的体形(例如，经由多个体形参数β)、姿势(例如，通过多个姿势参数θ)和/或其他解剖特征的蒙皮多人线性(SMPL)模型。3D人体模型可以被呈现为例如3D网格。

感测装置104和/或处理装置108可以被配置为基于感测装置104和/或处理装置108可以获得的关于患者106的附加信息来细化由预先训练过的神经网络生成的3D人体模型。例如，独立于上述人体模型构建过程，感测装置104和/或处理装置108可被配置为从由感测装置104捕捉的患者106的一个或多个图像中提取关于患者106的身体特征(例如，身体关键点位置和/或体形)的信息，并使用所提取的信息来调节由神经网络生成的患者106的3D人体模型。例如，可以对3D人体模型中包括的体形和/或姿势参数(β,θ)进行调节。用于执行调节的图像可以是例如由神经网络用来生成3D人体模型的相同图像。

在示例中，感测装置104和/或处理装置108还可被配置为基于用于调节3D人体模型的附加信息来细化神经网络的参数。例如，感测装置104和/或处理装置108可以被配置为基于附加信息以交替方式细化(例如，优化)神经网络的参数以及由神经网络生成的3D人体模型的体形和/或姿势参数(β,θ)。细化(例如，对神经网络和由神经网络产生的3D人体模型中的一个或两个)可例如基于由感测装置104捕捉的患者106的实况图像在线(例如，在推断时间)执行。

感测装置104和/或处理装置108可被配置为在显示装置112上显示患者106的3D人体模型(例如，原始3D模型和/或细化的3D模型)。感测装置104和/或处理装置108还可被配置为提供(例如，经由显示装置112)用于调节可以用于细化3D人体模型和/或神经网络的信息(例如，身体关键点位置、体形轮廓等)的用户界面。例如，用户界面可被配置为接收对身体关键点位置、体形轮廓等的用户调节，以用于细化3D人体模型和/或神经网络。这样，通过向人(例如临床医生)提供调节/校正与患者106的自动确定的解剖特征相关联的值的能力，感测装置104和/或处理装置108可以保护自身免于明显错误。如本文所述，调节/校正后的值然后可用于细化/优化3D人体模型和/或神经网络。

由感测装置104和/或处理装置108生成的3D人体模型可以用于促进多个下游医疗应用和服务，包括例如患者定位、医疗协议设计、统一或相关的诊断和治疗、患者监测、手术导航等。例如，处理装置108可以基于3D人体模型来确定患者106的位姿和/或姿势是否满足预定协议的要求(例如，当患者106站在医学扫描仪102前面或躺在扫描床上时)，并且(例如，经由显示装置112)提供实时确认或调节指令，以帮助患者106进入期望的位姿和/或姿势。处理装置108还可以基于由3D人体模型106指示的患者106的体形来控制(例如，调节)医学扫描仪102的一个或多个执行参数，诸如扫描床的高度。作为另一个示例，感测装置104和/或处理装置108可以与病历库114耦合，该病历库被配置为存储患者病历，包括通过其他成像模态(例如，CT、MR、X射线、SPECT、PET等)获得的患者106的扫描图像。处理装置108可以使用3D人体模型作为参考来分析存储在库114中的患者106的病历，以便获得对患者的身体状况的全面理解。例如，处理装置108可以将来自库114的患者106的扫描图像与3D人体模型对齐，以允许参考如3D人体模型所指示的患者106的解剖特征(例如，体形和/或姿势)来呈现(例如，经由显示装置112)和分析扫描图像。

图2例示了用于基于患者的图像202(例如，2D图像)恢复(例如，构建)3D人体模型的神经网络200的示例。如图所示，给定患者(例如，图1的患者106)的输入图像202，神经网络可以通过一系列卷积运算204从图像中提取特征206，并且通过基于所提取的特征执行回归操作208来推断用于恢复/估计3D人体模型的参数。推断的参数可以包括姿势参数θ和/或体形参数β，其可以分别指示如图像202所示的患者身体的姿势和体形。

神经网络200可以是包括多个层的卷积神经网络(CNN)，该多个层包括例如输入层、一个或多个卷积层、一个或多个池化层、一个或多个全连接层和/或输出层。各个卷积层可包括被设计为从输入图像202检测(例如，提取)特征206的多个过滤器(例如，核)。过滤器可以与相应的权重相关联，当将相应的权重应用于输入时，产生指示是否检测到特定特征的输出。通过卷积运算提取的特征206可指示患者的多个身体关键点位置(例如，解剖关键点，诸如关节位置)。例如，特征206可指示患者的骨骼装备的23个关节位置以及患者的根关节，神经网络200可使用这些位置来推断72个姿势相关参数θ(例如，23个关节中的每一个有3个参数，并且根关节有3个参数)。神经网络200还可以被配置为例如通过进行输入图像202的主成分分析(PCA)并且提供在该过程期间确定的一个或多个PCA系数(例如，PCA空间的前10个系数)作为体形参数β来确定体形参数β。

使用由神经网络200确定的姿势参数θ和体形参数β，可例如通过以下方式来构建患者的3D人体模型：将参数因式分解为体形向量

和姿势向量

并且导出用于从体形向量和姿势向量构建3D人体模型的表示(例如，3D网格)的多个顶点(例如，6890个顶点)。这些顶点中的每一个可以包括相应的位置、法线、纹理和/或阴影信息，并且3D网格例如可以通过以下方式来生成：将多个顶点与边缘连接以形成多边形(例如，三角形)，将多个多边形连接以形成表面，使用多个表面来确定3D形状，以及将纹理和/或阴影应用于表面和/或形状。

神经网络200的权重可以通过训练过程来学习，该训练过程可以包括：将来自训练数据集的大量图像输入到神经网络(例如，神经网络的实例)，使得神经网络进行关于期望的3D人体模型(例如，与3D人体模型相关联的姿势和/或体形参数)的预测，计算预测与金标准之间的差或损失(例如，基于损失函数，诸如基于均方误差(MSE)的损失函数)，以及更新神经网络的权重，以便最小化差或损失(例如，通过将损失的随机梯度下降反向传播通过神经网络)。

一旦被训练并给定了患者的图像202(例如，在推断时间)，神经网络200就能够估计本文所述的3D人体模型。然而，这种估计的3D人体模型可能反映训练数据集(例如，基准数据集)中包括的体形的分布，由此可见，如果患者的体形不符合训练数据集的分布，这种估计的3D人体模型则可能针对患者产生偏差。例如，基准数据集中的体形的分布可以反映具有平均体重的人的体形。因此，如果患者超重(例如，具有比平均值更大的身体尺寸)，则由神经网络200估计的3D人体模型可能不能准确地表示患者的体形。这种现象在本文中可以被称为估计偏差。另外，神经网络200在推断过程期间还可能遇到其他类型的预测错误或缺陷。例如，如果患者的关节在输入图像202中被遮挡(例如，被另一对象遮挡)或与输入图像202的背景混合(例如，由于颜色和/或亮度的相似性)，则神经网络200可能在建模过程中漏掉该关节，并产生关于患者的姿势和体形中的任一个或两个错误的结果。因此，可能需要对由神经网络200产生的3D人体模型和/或神经网络200本身进行训练后细化。

图3A例示了用于细化由神经网络300(例如，图2所示的神经网络200)预测的3D人体模型302(例如，3D网格)和/或神经网络300本身的示例技术。如本文所讨论的，3D人体模型302可以由神经网络300基于人的图像304来估计。然而，由于与估计偏差和/或深度模糊性有关的问题，3D人体模型302可能不能准确地反映图像304所示的人的体形和/或姿势。例如，人的左臂与人后面的树干之间的颜色相似性可能导致3D人体模型302不正确地示出人的左臂是向下而不是向上，并且由神经网络300的训练导致的估计偏差可能导致3D人体模型302示出比人的真实体形更细长的体形。

3D人体模型302的缺陷可以通过以下方式来校正：获得关于人体的姿势和/或体形的附加信息并利用该附加信息来调节3D人体模型302的姿势和/或体形参数(例如，图2的θ和/或β)，以便构建细化的3D人体模型308。在示例中，细化可以通过迭代过程来完成，在该迭代过程期间，可以在获得细化的3D人体模型306之前逐渐地调节原始3D人体模型302(例如，通过一个或多个中间模型306a、306b等)。在示例中，用于细化3D人体模型302的附加信息可包括从输入图像304确定的人的身体关键点位置310(例如，诸如关节位置的解剖关键点)和/或基于深度图像或深度图314确定的人的体形信息312(例如，体形轮廓或体形轮廓线)。

身体关键点位置310可以独立于3D人体模型302的构建来确定。例如，身体关键点位置310可使用与用于生成原始3D人体模型302的神经网络(例如，神经网络300)不同的神经网络(例如，2D关键点估计神经网络)来确定。例如，由于2D关键点注释可能比3D注释更丰富和/或更容易获得，因此可以使用比用于训练神经网络300的数据集更大的数据集来训练这种2D关键点估计神经网络。因此，独立确定的身体关键点位置310可更准确地表示图像304中描绘的人的解剖关键点。体形信息312也可以独立于3D人体模型302的构建来确定。例如，体形信息312可以包括体形轮廓或体形轮廓线，并且可以在人具有图像304所示的姿势和/或体形的同时获得用于确定体形轮廓或体形轮廓线的深度图314(例如，可以由图1所示的相应感测装置104与图像304同时获得深度图314)。深度图314可包括指示图像304的像素的相应深度值的信息。由此，通过识别具有与人的身体表面像素相同的深度值的那些像素，即使人身体的部分被遮挡和与图像304的背景对象混合，也可使用深度图314来获得人的体形轮廓或体形轮廓线(例如，因为某些像素的遮挡或混合可能不影响这些像素的深度值)。

身体关键点位置310和/或体形信息312可用于指导3D人体模型302的姿势参数θ和/或体形参数β的调节(例如，优化)。例如，响应于获得3D人体模型302，可以基于3D人体模型302来确定一组身体关键点位置(例如，与身体关键点位置310相对应的2D关键点或身体关键点位置)和/或体形轮廓(或轮廓线)。该组关键点位置可以例如基于3D人体模型302所包括的顶点以及顶点与3D身体关键点位置之间的映射关系来确定(例如，3D人体模型302可包括指示哪些顶点是3D身体关键点位置的信息)。使用映射关系，可以基于3D模型302的顶点来确定多个3D身体关键点位置，并且可以将3D身体关键点位置投影到2D图像帧中(例如，使用预定摄像头和/或投影参数)，以获得该组关键点位置。类似地，给定3D人体模型302的顶点，也可以例如使用预定摄像头和/或投影参数来获得人的体形轮廓。

然后，可以将基于3D人体模型302确定的该组身体关键点位置和/或形状轮廓分别与独立确定的身体关键点位置310和/或体形轮廓312进行比较，以确定两组身体关键点位置和/或两个体形轮廓之间的差或损失(例如，欧几里得距离)。如果损失(例如，欧几里得距离)存在(例如，损失大于预定阈值)，则可以例如基于损失的梯度下降对3D人体模型302(例如，对体形参数β和/或姿势参数θ)进行调节，以获得模型306a。然后，可以基于调节后的模型306a(例如，使用本文所述的技术)来确定另一组身体关键点位置和/或体形轮廓，并且将其分别与身体关键点位置310和/或体形轮廓312进行比较，以确定两组身体关键点位置或两个体形轮廓之间的另一差或损失(例如，另一欧几里得距离)。如果损失存在(例如，欧几里得距离大于预定阈值)，则可以对模型306a进行进一步的调节以获得另一中间模型306b，并且可以重复上述操作，直到从调节后的模型(例如，3D人体模型308)确定的身体关键点位置和/或体形轮廓与身体关键点位置310和/或体形轮廓312对齐(例如，大致对齐)。例如，如果身体位置和/或形状轮廓之间的差(例如，欧几里得距离)低于预定阈值，则可以确定已经发生对齐。

除了调节使用预先训练过的神经网络300预测的3D人体模型之外，神经网络300本身也可以基于从输入图像304和/或深度图314获得的附加信息(例如，身体关键点位置和/或体形轮廓)来调节(例如，优化)。图3B示出了联合优化3D人体模型(例如，图3A的3D模型302)的参数Q和神经网络(例如，图3A的神经网络300)的参数P的示例。参数Q可以包括被优化的3D人体模型的体形参数β和/或姿势参数θ，而参数P可以包括被优化的神经网络的权重。在示例中，参数P和Q的优化可以如图3B所示以多步骤、交替的方式联合执行。例如，将3D人体模型参数表示为Θ＝{β,θ,s,t}并且将神经网络参数表示为Φ，其中β和θ可以分别表示本文所述的体形和姿势参数，s可以表示一个或多个缩放参数s，并且t可以表示一个或多个平移参数，则可以基于以下方程来更新神经网络参数(例如，在图3B所示的P步骤处)：

α*＝argαminL_2D(πf[Φ(I))，x) (1)

其中，α*可表示包含更新的网络参数Φ*的向量，I可表示输入图像304，x可表示基于图像I预测的身体关键点位置(例如，关节)，f可表示用于将网格参数Θ映射到顶点V并将顶点V映射到3D身体关键点位置(例如，关节)X的函数的组合，π可表示用于将3D身体关键点位置(例如，关节)投影到2D点的摄像头模型，minL2D可表示最小化表示预测的身体关键点位置与金标准的偏差的损失函数L2D的努力。

给定Φ*，神经网络可以预测网格参数Θ的更新值为：

该

然后可以用作初始参数以将网格参数Θ优化(例如在图3B所示的Q步骤)为

如下所示：

其中，M可以表示SMPL映射，L_shape和L_θ(θ)可以表示与体形和/或姿势的估计相关联的相应损失函数(例如，基于以部分为基础的分割标签，诸如包括头部、躯干、左/右臂和左/右腿的六部分分割策略)，并且π、x和minL_2D可以具有与上述相同的含义。

方程(2)的

然后可以用作显式正则化项，以例如通过如下修改方程(2)来进一步优化神经网络参数(例如，在图3B所示的P步骤处)：

其中，各种符号可以具有在此描述的相同含义。给定进一步调节的网络参数Φ*(例如，包含在矢量α*)后，也可将网格参数Θ进一步优化为

(例如，在图3B所示的Q步骤)并且可以重复上述操作，从而分别导致Θ和α的迭代交替优化。

本文所述的优化技术可以用作改进预先训练过的3D身体估计神经网络(例如，图2的神经网络200和图3A的神经网络300)的性能的嵌入(drop-in)。可以解决与过度拟合、估计偏差等相关联的问题，使得可以改进由神经网络产生的结果和/或神经网络本身以提供针对不同身体尺寸的准确拟合。如图3B例示，优化技术可以通过在P步骤与Q步骤之间交替来应用，从而导致人体模型参数和网络参数两者的改进。

图3C例示了可以使用关于图3A和图3B描述的技术对3D人体模型作出的渐进式改进。如图3C所示，3D人体模型可以对于输入图像404中描绘的个人的姿势和体形变得更加个性化(例如，更适合)。

图4例示了与基于人的图像来调节3D人体模型相关联的示例操作。在402，被配置为执行操作的系统或设备可以获得人的3D模型，其中，3D模型可以基于人的一个或多个图像(例如，2D图像)使用一个或多个神经网络来生成，并且其中，一个或多个神经网络可以被预先训练以生成3D模型。在404，系统或设备可以获得描绘人的一个或多个特征(例如，姿势、体形等)的人的一个或多个图像(例如，图2的202)。在406，系统或设备可以分析人的一个或多个图像，以基于图像确定人的第一组身体关键点位置或者人的第一组体形参数中的至少一个。在408，系统或设备可以基于如在406确定的人的第一组身体关键点位置或人的第一组体形参数中的至少一个来调节人的3D模型。例如，系统或设备可以将人的第一组身体关键点位置或人的第一组体形参数与基于3D模型确定的人的第二组身体关键点位置或人的第二组体形参数进行比较，并调节3D模型以最小化两组身体关键点位置或两个体形之间的差异。

为了简单说明起见，操作在本文中以特定顺序描绘和描述。然而，应当理解，这些操作可以以各种顺序、同时和/或与本文未呈现或描述的其它操作一起发生。此外，应当注意，图4中未描绘或者本文未描述系统或设备能够执行的所有操作。还应当注意，并非所有例示的操作都需要由系统或设备执行。

图5例示了根据本文所述的一个或多个实施例的可以在训练神经网络(例如，图2的神经网络200或图3A的神经网络300)的同时执行的示例操作。例如，在502，可以初始化神经网络的参数(例如，与神经网络的各种过滤器或核相关联的权重)。参数例如可以基于从具有类似架构的另一神经网络的一个或多个概率分布或参数值收集的样本来初始化。在504，神经网络可以接收人的训练图像(例如，人的2D图像)。在506，神经网络可以基于训练图像预测3D模型。在508，神经网络可以将预测模型与金标准模型进行比较，并且基于该比较来确定损失。损失可以例如基于预测模型与金标准模型之间的均方误差、L1范数、L2范数等来确定。在510，神经网络可以确定是否已经满足一个或多个训练终止准则。例如，如果上述损失低于预定阈值，如果两次训练迭代之间(例如，连续训练迭代之间)的损失变化低于预定阈值等，则可以认为训练终止准则被满足。如果在510确定已经满足训练终止准则，则训练可以结束。否则，在训练返回到506之前，神经网络可以在512通过将损失反向传播通过神经网络(例如，基于损失的梯度下降)来调节其参数。

为了说明的简单起见，训练步骤在本文中以特定顺序描绘和描述。然而，应当理解，训练操作可以以各种顺序、同时和/或与本文未呈现或描述的其它操作一起发生。此外，应当注意，并非可包括在训练过程中的所有操作都在本文中描绘和描述，并且并非所有例示的操作都需要执行。

本文所述的系统、方法和/或装置可以使用一个或多个处理器、一个或多个储存装置和/或其他合适的辅助装置(诸如显示装置、通信装置、输入/输出装置等)来实施。图6是例示了可以被配置为执行本文所述的模型和神经网络优化任务的示例设备600的框图。如图所示，设备600可以包括处理器(例如，一个或多个处理器)602，该处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、微控制器、精简指令集计算机(RISC)处理器、专用集成电路(ASIC)、专用指令集处理器(ASIP)、物理处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或能够执行本文所述的功能的任何其它电路或处理器。设备600还可以包括通信电路604、存储器606、大容量储存装置608、输入装置610和/或通信链路612(例如，通信总线)，附图所示的一个或多个部件可以通过该通信链路交换信息。

通信电路604可以被配置为利用一个或多个通信协议(例如，TCP/IP)和一个或多个通信网络来发送和接收信息，这些通信网络包括局域网(LAN)、广域网(WAN)、因特网、无线数据网络(例如，Wi-Fi、3G、4G/LTE或5G网络)。存储器606可以包括被配置为存储机器可读指令的存储介质(例如，非瞬时性存储介质)，当机器可读指令被实行时，使得处理器602执行本文所述的一个或多个功能。机器可读介质的示例可以包括易失性或非易失性存储器，包括但不限于半导体存储器(例如，电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM))、闪存等)。大容量储存装置808可以包括一个或多个磁盘，诸如一个或多个内置硬盘、一个或多个可移动盘、一个或多个磁光盘、一个或多个CD-ROM或DVD-ROM盘等，在磁盘上可以存储指令和/或数据，以便于处理器602的操作。输入装置610可以包括键盘、鼠标、语音控制输入装置、触敏输入装置(例如，触摸屏)等，用于接收设备600的用户输入。

应当注意，设备600可以作为独立装置操作或者可以与其他计算装置连接(例如，联网或成群)，以执行本文所述的功能。并且即使在图6中仅示出了各个部件的一个实例，本领域技术人员也将理解，设备600可以包括图中示出的一个或多个部件的多个实例。

尽管已经根据某些实施例和一般关联的方法描述了本公开，但是实施例和方法的变更和变换将对本领域技术人员显而易见。因此，示例性实施例的以上描述不限制本公开。在不脱离本公开的精神和范围的情况下，其它改变、替换和变更也是可能的。另外，除非另外具体陈述，否则利用诸如“分析”、“确定”、“启用”、“识别”、“修改”等术语的讨论是指计算机系统或类似电子计算装置的动作和过程，这些动作和过程将表示为计算机系统的寄存器和存储器内的物理(例如，电子)量的数据操纵和变换成表示为计算机系统存储器或其它这种信息存储、传输或显示装置内的物理量的其它数据。

应当理解，上述描述旨在为说明性的，而不是限制性的。在阅读和理解以上描述之后，许多其它实施方式对于本领域技术人员将显而易见。

Claims

1.一种用于获得人体模型的设备，包括：

一个或多个处理器，其被配置为：

获得人的三维(3D)模型，其中，所述3D模型基于所述人的一个或多个图像使用一个或多个神经网络来生成，并且其中，所述一个或多个神经网络被预先训练以生成所述3D模型；

获得所述人的所述一个或多个图像；

基于所述人的所述一个或多个图像来确定所述人的第一组身体关键点位置或所述人的第一组体形参数；以及

基于所述人的所述第一组身体关键点位置或所述人的所述第一组体形参数中的至少一个来调节所述人的所述3D模型。

2.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

基于所述人的所述3D模型来确定所述人的第二组身体关键点位置或所述人的第二组体形参数中的至少一个；以及

通过最小化所述人的所述第一组身体关键点位置与所述第二组身体关键点位置之间的差异或所述人的所述第一组体形参数与所述第二组体形参数之间的差异中的至少一个来调节所述人的所述3D模型。

3.根据权利要求2所述的设备，其中，所述人的所述第一组身体关键点位置与所述第二组身体关键点位置之间的所述差异包括第一欧几里得距离，或所述人的所述第一组体形参数与所述第二组体形参数之间的所述差异包括第二欧几里得距离。

4.根据权利要求2所述的设备，其中，所述人的所述第一组身体关键点位置和所述人的所述第一组体形参数独立于所述人的所述第二组身体关键点位置和所述人的所述第二组体形参数来确定。

5.根据权利要求1所述的设备，还包括被配置为捕捉所述人的所述一个或多个图像的至少一个视觉传感器、颜色传感器、深度传感器或红外传感器。

6.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为基于所述人的所述第一组身体关键点位置或所述人的所述第一组体形参数中的至少一个来调节所述一个或多个神经网络的参数。

7.根据权利要求6所述的设备，其中，所述一个或多个处理器被配置为以交替方式调节所述一个或多个神经网络的所述参数和所述人的所述3D模型。

8.根据权利要求1所述的设备，其中，所述人的所述3D模型包括蒙皮多人线性(SMPL)模型。

9.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为在基于所述人的所述第一组身体关键点位置或所述人的所述第一组体形参数中的至少一个来调节所述人的所述3D模型之后向接收装置输出所述人的所述3D模型的表示。

10.一种用于获得人体模型的方法，所述方法包括：

获得所述人的所述一个或多个图像；

基于所述人的所述一个或多个图像来确定所述人的第一组身体关键点位置或所述人的第一组体形参数中的至少一个；以及