CN111127632B

CN111127632B - 人体建模模型获取方法、装置、电子设备及存储介质

Info

Publication number: CN111127632B
Application number: CN201911329481.XA
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-06-02
Anticipated expiration: 2039-12-20
Also published as: CN111127632A

Abstract

本发明实施例提供了人体建模模型获取方法、装置、电子设备及存储介质，计算真值关键点信息与预测关键点信息的关键点损失，并结合关键点损失及人体蒙版损失计算得到深度学习模型的损失，从而根据深度学习模型的损失反向调节深度学习模型的参数。在计算深度学习模型的损失时，加入关键点损失，能够有效提高关键点对参数调整的影响，从而提高深度学习模型的性能。在计算深度学习模型的损失时，加入了人体蒙版损失，能够对人体所在区域及人体形状等进行约束。

Description

人体建模模型获取方法、装置、电子设备及存储介质

技术领域

本发明涉及深度学习技术领域，特别是涉及人体建模模型获取方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的发展，特别是深度学习算法的出现，基于图像的人工智能技术快速崛起。3D(Dimension，维度)人体重建是计算机视觉领域中的一个分支算法，可用于人体意图识别，虚拟形象建立，人体动作捕捉，人体交互游戏等应用，利用人体图像得到三维人体蒙版，具体可以如图1a-图1d所示，其中图1a为人体图像，图1b为三维人体模型的主视图的人体蒙版，图1c为三维人体模型的左视图的人体蒙版，图1d为三维人体模型的右视图的人体蒙版。

现有技术中，在训练用于人体建模的深度学习模型的过程中，将样本图像输入到深度学习模型中，预测得到的人体蒙版。计算预测得到的人体蒙版中各点位与样本图像的真值人体蒙版中各点位的差值的均值，作为深度学习模型的损失，并基于该损失反向调节深度学习模型的参数。

然而发明人在研究中发现，人体蒙版中各点位对人体蒙版建模的重要程度不同，例如，皮肤表层点位对人体蒙版建模的重要度，明显小于关节点位对对人体蒙版建模的重要度，因此采用上述方法，训练得到的深度学习模型的性能差。

发明内容

本发明实施例的目的在于提供一种人体建模模型获取方法、装置、电子设备及存储介质，以实现提高深度信息模型的性能。具体技术方案如下：

第一方面，本申请实施例提供了一种人体建模模型获取方法，所述方法包括：

获取样本图像集，其中，所述样本图像集包括多组样本图像数据，每组所述样本图像数据均标记有真值关键点信息及真值人体蒙版信息；

在所述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息；

将所述预测姿态信息、所述预测镜头信息及所述预测形状信息输入到预设人体三维模型中，得到预测三维人体模型信息；

基于所述预测三维人体模型信息，计算得到预测人体蒙版信息及预测关键点信息；

计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失；

结合所述关键点损失及所述人体蒙版损失，计算所述深度学习模型的损失；

根据所述深度学习模型的损失，调整所述深度学习模型的参数，返回执行在所述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息的步骤，直至满足预设的结束条件，得到人体建模模型。

第二方面，本申请实施例提供了一种人体建模方法，所述方法包括：

将待转换图像数据输入到人体建模模型中进行分析，得到所述待转换图像对应的预测三维人体模型信息，其中，所述人体建模模型采用任一人体建模模型获取方法训练得到。

第三方面，本申请实施例提供了一种人体建模模型获取装置，所述装置包括：

图像集获取单元，用于获取样本图像集，其中，所述样本图像集包括多组样本图像数据，每组所述样本图像数据均标记有真值关键点信息及真值人体蒙版信息；

中间信息预测单元，用于在所述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息；

人体模型转换单元，用于将所述预测姿态信息、所述预测镜头信息及所述预测形状信息输入到预设人体三维模型中，得到预测三维人体模型信息；

预测信息转换单元，用于基于所述预测三维人体模型信息，计算得到预测人体蒙版信息及预测关键点信息；

第一损失计算单元，用于计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损；

第二损失计算单元，用于结合所述关键点损失及所述人体蒙版损失，计算所述深度学习模型的损失；

模型参数调整单元，用于根据所述深度学习模型的损失，调整所述深度学习模型的参数，返回执行在所述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息的步骤，直至满足预设的结束条件，得到人体建模模型。

第四方面，本申请实施例提供了一种人体建模装置，所述装置包括：

人体模型预测单元，用于将待转换图像数据输入到人体建模模型中进行分析，得到所述待转换图像对应的三维人体模型信息，其中，所述人体建模模型采用任一人体建模模型获取方法训练得到。

第五方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一人体建模模型获取方法。

第六方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一人体建模方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一人体建模模型获取方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一人体建模方法。

本发明实施例提供的人体建模模型获取方法、装置、电子设备及存储介质，获取样本图像集，其中，样本图像集包括多组样本图像数据，每组样本图像数据均标记有真值关键点信息及真值人体蒙版信息；在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息；将预测姿态信息、预测镜头信息及预测形状信息输入到预设人体三维模型中，得到预测三维人体模型信息；基于预测三维人体模型信息，计算得到预测人体蒙版信息及预测关键点信息；计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失；结合关键点损失及人体蒙版损失，计算深度学习模型的损失；根据深度学习模型的损失，调整深度学习模型的参数，返回执行在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息的步骤，直至满足预设的结束条件，得到人体建模模型。在计算深度学习模型的损失时，加入关键点损失，能够有效提高关键点对参数调整的影响，从而提高深度学习模型的性能。在计算深度学习模型的损失时，加入了人体蒙版损失，能够对人体所在区域及人体形状等进行约束。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1a为现有技术中人体图像的一种示意图；

图1b为图1a所示的人体图像的主视图的人体蒙版；

图1c为图1a所示的人体图像的左视图的人体蒙版；

图1d为图1a所示的人体图像的右视图的人体蒙版；

图2为本申请实施例的人体建模模型获取方法的第一种示意图；

图3为本申请实施例的深度学习模型的第一种示意图；

图4为本申请实施例的深度学习模型预测方法的第一种示意图；

图5a为本申请实施例的第一类Block网络的一种示意图；

图5b为本申请实施例的第二类Block网络的一种示意图；

图6为本申请实施例的人体建模模型获取方法的第二种示意图；

图7为本申请实施例的人体建模模型获取方法的第三种示意图；

图8a为本申请实施例的采集视角的第一种示意图；

图8b为本申请实施例的采集视角的第二种示意图；

图9为本申请实施例的深度学习模型预测方法的第二种示意图；

图10为本申请实施例的深度学习模型的第二种示意图；

图11为本申请实施例的人体建模模型获取方法的第四种示意图；

图12为本申请实施例的人体建模方法的一种示意图；

图13为本申请实施例的人体建模模型获取装置的一种示意图；

图14为本申请实施例的中间信息预测单元的第一种示意图；

图15为本申请实施例的中间信息预测单元的第二种示意图；

图16为本申请实施例的人体建模装置的一种示意图；

图17为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了提高深度信息模型的性能，本申请实施例提供了一种人体建模模型获取方法，参见图2，该方法包括：

S21，获取样本图像集，其中，样本图像集包括多组样本图像数据，每组样本图像数据均标记有真值关键点信息及真值人体蒙版信息；

S22，在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息；

S23，将预测姿态信息、预测镜头信息及预测形状信息输入到预设人体三维模型中，得到预测三维人体模型信息；

S24，基于预测三维人体模型信息，计算得到预测人体蒙版信息及预测关键点信息；

S25，计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失；

S26，结合关键点损失及人体蒙版损失，计算深度学习模型的损失；

S27，根据深度学习模型的损失调整深度学习模型的参数，返回执行上述S22，在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息的步骤，直至满足预设的结束条件，得到人体建模模型。

在本申请实施例中，计算真值关键点信息与预测关键点信息的关键点损失，并结合关键点损失及人体蒙版损失计算得到深度学习模型的损失，从而根据深度学习模型的损失反向调节深度学习模型的参数。在计算深度学习模型的损失时，加入关键点损失，能够有效提高关键点对参数调整的影响，从而提高深度学习模型的性能。

下面针对上述技术方案进行具体说明。

参见图2，其为本申请实施例的人体建模模型获取方法的一种示意图，该方法包括：

S21，获取样本图像集，其中，样本图像集包括多组样本图像数据，每组样本图像数据均标记有真值关键点信息及真值人体蒙版信息。

本申请实施例的人体建模模型获取方可以通过电子设备实现，具体的，该电子设备可以为服务器、个人电脑或智能手机等设备。

样本图像集中包括多组样本图像数据，样本图像数据中包括人体图像，样本图像数据标记有该样本图像数据中人体图像的真值关键点信息及真值人体蒙版信息。其中，人体蒙版信息可以为真值三维人体模型在人体图像采集视角上的二维投影。

S22，在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息。

待训练的深度学习模型包括至少三个输出层，分别用于预测样本图像中人体的姿态信息、镜头信息及形状信息。在样本图像集中选取一组样本图像数据，输入到待训练的深度学习模型中进行分析，得到该样本图像数据中人员的预测姿态信息、预测镜头信息及预测形状信息。其中，预测姿态信息为预测得到的人体的姿态，包括预测的三维人体关键点；预测形状信息为预测得到的人体的形状，包括预测的三维人体轮廓点线；预设镜头信息为预测得到的相机针对人体的拍摄角度。

S23，将预测姿态信息、预测镜头信息及预测形状信息输入到预设人体三维模型中，得到预测三维人体模型信息。

预测三维人体模型信息可以为三维人体模型中各点的坐标集合。预设人体三维模型可以为SMPL(A Skinned Multi-Person Linear Model，一种人体三维模型)，利用预设人体三维模型对姿态信息、镜头信息及形状信息进行分析建模，得到预测三维人体模型信息。

S24，基于预测三维人体模型信息，计算得到预测人体蒙版信息及预测关键点信息。

对预测三维人体模型信息进行关键点提取，得到预测关键点信息；将预测三维人体模型信息在人体图像的采集视角上进行二维投影，得到预测人体蒙版信息。

S25，计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失。

真值关键点信息与预测关键点信息的差别越大，关键点损失也就越大。具体的，可以先计算真值关键点信息与预测关键点信息中各对应关键点间的距离，例如，计算真值关键点信息中头部关键点与预测关键点信息中头部关键点的距离，计算真值关键点信息左膝关键点与预测关键点信息中左膝关键点的距离等。然后计算各距离的均值，作为关键点损失。也可以按照各关键点的预设权重，计算各距离与对应预设权重的乘积，并对各乘积求和，得到关键点损失。人体蒙版损失的计算可以采用MSE(Mean Square Error，均方误差)等计算方法，计算真值人体蒙版信息与预测人体蒙版信息的MSE，作为人体蒙版损失。

S26，结合关键点损失及人体蒙版损失，计算深度学习模型的损失。

可以计算关键点损失及人体蒙版损失的均值，作为深度学习模型的损失。也可以预先针对关键点损失及人体蒙版损失设置权重，计算关键点损失与其权重的乘积，计算人体蒙版损失与其权重的乘积，然后对这两个乘积求和，得到深度学习模型的损失。

S27，按照深度学习模型的损失调整深度学习模型的参数，返回执行上述S22，在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息的步骤，直至满足预设的结束条件，得到人体建模模型。

基于深度学习模型的损失，反向调整深度学习模型的参数。预设结束条件可以根据实际情况进行设定，例如，在深度学习模型的损失函数收敛时，判定满足预设结束条件，其中，损失函数收敛是指连续预测得到的多个预测结果的损失基本不再改变(各损失的差异在预设范围内)；或在训练次数达到预设次数时，判定满足预设结束条件；或在深度学习模型的性能下降时，判定满足预设结束条件等，其中，深度学习模型的性能是指该深度学习模型的预测质量，例如，深度学习模型预测结果的准确度等。

在本申请实施例中，在计算深度学习模型的损失时，加入关键点损失，能够有效提高关键点对参数调整的影响，从而提高深度学习模型的性能。在计算深度学习模型的损失时，加入了人体蒙版损失，能够对人体所在区域及人体形状等进行约束。

在一种可能的实施方式中，样本图像集中的任意一组样本图像数据中包括一个样本图像。下面，以每次用单张样本图像训练人体建模模型为例进行说明。

在一种可能的实施方式中，参见图3，深度学习模型包括矩阵转换模块、特征提取模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块。

参见图4，上述在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

S221，在样本图像集中选取样本图像数据，利用矩阵转换模块将选取的样本图像数据转化为样本图像矩阵。

矩阵转换模块用于将样本图像数据中的样本图像转化为样本图像矩阵。例如，将样本图像转化为w×h×c的样本图像矩阵，其中，w为样本图像的宽度，h为样本图像的高度，c为通道数。

S222，利用特征提取模块对样本图像矩阵进行特征提取，得到样本图像特征向量。

特征提取模块用于对输入的图像矩阵进行特征提取，得到图像特征向量。此处的特征提取模块，可以为ResNet(Residual Neural Network，残差神经网络)、Inception网络或VGG(Visual Geometry Group，视觉几何组网络)等。

S223，利用第一全连接模块对样本图像特征向量进行转换，得到样本编码特征向量。

第一全连接模块可以为全连接网络，用于对输入的特征向量进行转换。例如，特征提取模块得到的样本图像特征向量的维度为1×f，第一全连接模块将样本图像特征向量转化为3×f维的样本编码特征向量。

S224，利用第二全连接模块对样本编码特征向量进行转换，得到预测姿态信息。

第二全连接模块可以为全连接网络，用于对输入的特征向量进行转换。例如，第一全连接模块得到的样本编码特征向量的维度为3×f，第二全连接模块将样本编码特征向量转换为1×72维的姿态向量，即预测姿态信息。

S225，利用第三全连接模块对样本编码特征向量进行转换，得到预测形状信息。

第三全连接模块可以为全连接网络，用于对输入的特征向量进行转换。例如，第一全连接模块得到的样本编码特征向量的维度为3×f，第二全连接模块将样本编码特征向量转换为1×10维的形状向量，即预测形状信息。

S226，利用第四全连接模块对样本编码特征向量进行转换，得到预测镜头信息。

第四全连接模块可以为全连接网络，用于对输入的特征向量进行转换。例如，第一全连接模块得到的样本编码特征向量的维度为3×f，第二全连接模块将样本编码特征向量转换为1×3维的镜头向量，即预测镜头信息。

其中，上述S224、S225及S226执行顺序不做具体限定。

第二全连接模块、第三全连接模块及第四全连接模块，均可以由第一类Block(块)网络及第二类Block网络组成。其中，第一类Block网络可以如图5a所示，包括拼接单元1、全连接层组及拼接单元2，拼接单元1将输入的特征矩阵与先验特征矩阵进行拼接，全连接层组对输入的特征矩阵进行转换，拼接单元2对全连接层组输入的特征矩阵及全连接层组输出的特征矩阵进行拼接。第二类Block网络可以如图5b所示，包括全连接层组及拼接单元，全连接层组对输入的特征矩阵进行转换，拼接单元对全连接层组输入的特征矩阵及全连接层组输出的特征矩阵进行拼接。

可选的，第二全连接模块、第三全连接模块及第四全连接模块，可以设置为一个第二类Block网络加一个第一类Block网络，再加多个第二类Block网络的形式。例如，可以为一个第二类Block网络加一个第一类Block网络，再加两个第二类Block网络。

首先将获得维度为3×f的样本编码特征向量送入第一个第二类Block网络的输入，经过全连接组，输出一个维度为1×k的中间特征向量F_m1，再将F_m1送入第一类Block网络，将F_m1与1×k维的先验特征向量F_pk相加，经过全连接组，输出一个维度为1×k维的中间特征向量F_m2，再经过多个第二类Block网络，最终获得对应的向量。其中，先验向量为样本图像集中各样本图像数据对应向量的均值。

下面以第二全连接模块为例进行说明，第二全连接模块由一个第二类块Block网络、一个第一类Block网络及多个第二类Block网络依次连接而成，可选的，上述利用第二全连接模块对样本编码特征向量进行转换，得到预测姿态信息，包括：

步骤一，将样本编码特征向量输入到第一个第二类Block网络中进行转换，得到第一姿态中间特征向量。

步骤二，将预设姿态先验特征向量与第一姿态中间特征向量相加，然后输入到第一类Block网络种进行转换，得到第二姿态中间特征向量，其中，预设姿态先验特征向量为样本图像集中各样本图像的姿态特征向量的均值。

步骤三，利用第一类Block网络后面连接的各第二类Block网络将，对第二姿态中间特征向量进行转换，得到预测姿态信息。

预测姿态信息的具体表现形式可以为预测姿态特征向量。预设姿态先验特征向量为样本图像集中各样本图像的姿态特征向量的均值，例如，可以预先根据各样本图像的真值人体蒙版信息，计算各样本图像的姿态特征向量，并计算各样本图像的姿态特征向量的均值，得到姿态先验特征向量。相应的，第三全连接模块的形状先验特征向量及第四全连接模块的镜头先验特征向量，也可以利用各样本图像的真值人体蒙版信息计算得到，并且利用第三全连接模块得到预测形状信息及利用第四全连接模块得到预测镜头信息的过程，根利用第二全连接模块得到预测姿态信息的方法相同或相似，此处不再赘述。

在本申请实施例中，给出了深度学习模型的具体架构，提供了一种端到端的人体建模方法，不用对中间过程的训练量进行标记，节约了人工成本。

在一种可能的实施方式中，预测关键点信息为预测三维关键点信息；上述计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失，包括：

在选取的样本图像数据的真值关键点信息为真值三维关键点信息时，计算选取的样本图像数据的真值三维关键点信息与预测三维关键点信息的损失，得到关键点损失。

在选取的样本图像数据的真值关键点信息为真值二维关键点信息时，将预测三维关键点信息进行二维映射，得到预测二维关键点信息；计算选取的样本图像数据的真值二维关键点信息与预测二维关键点信息的损失，得到关键点损失。

实际训练环境中，样本图像数据中样本图像的真值三维关键点信息的标记难度高，工作量大，因此标记有真值三维关键点信息的样本图像的数量有限。相比而言，样本图像的真值二维关键点信息标记难度低，因此在训练过程中，为了减少样本图像关键点信息标记的难度及工作量，可以采用标记有真值二维关键点信息的样本图像，代替部分标记有真值三维关键点信息的样本图像。具体的，样本图像集中标记有真值三维关键点信息的样本图像及标记有真值三维关键点信息的样本图像可以各占一半。

本申请实施例中，利用标记有真值二维关键点信息的样本图像，代替部分标记有真值三维关键点信息的样本图像，可以减少样本图像关键点信息标记的难度及工作量。

当然在其他可能的实施方式中，可以仅采用标记有真值三维关键点信息的样本图像，或仅采用标记有真值二维关键点信息的样本图像进行训练，其可能的组合方式均在本申请的保护范围内。

关键点损失可以包括三维关键点损失及二维关键点损失，例如图6所示，将RGB(Red Green Blue，红绿蓝色彩模式)样本图像或RGBD(Red Green Blue Depth，深度模式)样本图像输入到深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息。利用预设人体三维模型对预测姿态信息、预测镜头信息及预测形状信息进行分析，得到预测人体蒙版信息及预测三维关键点信息。计算真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失。

在选取的样本图像的真值关键点信息为真值三维关键点信息时，计算选取的样本图像的真值三维关键点信息与预测三维关键点信息的损失，得到三维关键点损失。结合三维关键点损失及人体蒙版损失，计算深度学习模型的损失；按照深度学习模型的损失调整所述深度学习模型的参数。

在选取的样本图像的真值关键点信息为真值二维关键点信息时，将预测三维关键点信息进行二维映射，得到预测二维关键点信息；计算选取的样本图像的真值二维关键点信息与预测二维关键点信息的损失，得到二维关键点损失。结合二维关键点损失及人体蒙版损失，计算深度学习模型的损失；按照深度学习模型的损失调整所述深度学习模型的参数。

在一种可能的实施方式中，参见图7，上述方法还包括：

S28，将待转换图像数据输入到人体建模模型中进行分析，得到待转换图像对应的预测三维人体蒙版信息。

在本申请实施例中，利用训练得到的人体建模模型对待转换图像进行分析，输出根据待转换图像预测得到的预测人体蒙版信息，实现了基于单张图像的人体建模。

在一种可能的实施方式中，样本图像集中的任意一组样本图像数据中包括在多个不同固定视角下拍摄同一人体得到的各人体图像。下面，以每次用同一组样本图像数据中的各人体图像训练人体建模模型为例进行说明。

样本图像集中包括多组样本图像数据，每组样本图像数据中均包括在多个不同固定视角下拍摄同一人体得到的各人体图像。同一样本图像数据中各人体图像的采集视角不同，例如，样本图像数据中包括N个人体图像，依次称为第一人体图像至第N人体图像，其中，N为大于1的整数。同一样本图像数据中的第一人体图像至第N人体图像针对人体的采集视角均不相同。不同样本图像数据中对应的人体图像的采集视角相同，例如，不同样本图像数据中的各第一人体图像的采集视角均相同，不同样本图像数据中的各第N人体图像的采集视角均相同。

样本图像数据标记有该样本图像数据中的人体图像的人体真值关键点信息及真值人体蒙版信息。真值关键点信息可以为真值三维关键点信息，也可以为各视角上的人体图像的真值二维关键点信息。真值人体蒙版信息为真值三维人体模型在各人体图像采集视角上的二维投影。

样本图像数据中均的不同视角的人体图像的数量可以自定义设定，例如，可以设置为2个、3个、4个、5个或6个等。各人体图像的采集角度也可以自定义设定。在一种可能的实施方式中，每个样本图像数据中可以包括三个不同视角采集的三张人体图像，具体的，采集视角可以如图8a所示，其中A、B、C分别代表三台摄像机的位置，O代表人体的位置，摄像机的高度设置可以如图8b所示，处于人体高度一半的位置。三台摄像机同时采集人体图像，可以默认摄像头A正对人体正面。此处给出的摄像机的位置仅为示意，摄像机的具体位置可以自定义设定，且均在本申请的保护范围内。

在本申请实施例中，利用多个不同视角采集的人体图像预测三维人体模型信息，增加了视角的维度，能够增加模型的性能。

在一种可能的实施方式中，上述在样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

在样本图像集中选取样本图像数据，利用待训练的深度学习模型分别对选取的样本图像数据中的各人体图像进行特征提取，得到多个样本编码特征向量；利用深度学习模型对多个样本编码特征向量进行关联分析，得到预测姿态信息、预测镜头信息及预测形状信息。

在样本图像集中选取样本图像数据，将选取的样本图像数据中的各人体图像输入到待训练的深度学习模型中，待训练的深度学习模型分别对输入的各人体图像进行特征提取及转换，分别得到各人体图像的样本编码特征向量。然后对各样本编码特征向量进行关联分析，从而得到预测姿态信息、预测镜头信息及预测形状信息。

在一种可能的实施方式中，参见图3，深度学习模型包括矩阵转换模块、特征提取模块、特征编码模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块，矩阵转换模块包括多个矩阵转换子模块，特征编码模块包括多个特征编码子模块；

参见图9，上述在样本图像集中选取样本图像数据，利用待训练的深度学习模型分别对选取的样本图像数据中的各人体图像进行特征提取，得到多个样本编码特征向量，包括：

S31，在样本图像集中选取样本图像数据，利用矩阵转换模块的各矩阵转换子模块分别将选取的样本图像数据中的各人体图像进行转化，得到各人体图像各自对应的样本图像矩阵。

矩阵转换子模块的数量可以与样本图像数据中人体图像的数量相同。各矩阵转换子模块用于将样本图像数据中的各人体图像转化为样本图像矩阵，每个矩阵转换子模块负责转换一个人体图像。

S32，利用特征提取模块分别对各样本图像矩阵进行特征提取，得到各样本图像矩阵各自对应的样本图像特征向量。

特征提取模块用于对输入的各样本图像矩阵进行特征提取，得到各样本图像矩阵各自对应的样本图像特征向量。此处的特征提取模块，可以为ResNet(Residual NeuralNetwork，残差神经网络)、Inception网络或VGG(Visual Geometry Group，视觉几何组网络)等。

S33，利用特征编码模块的各特征编码子模块分别对各样本图像特征向量进行转换，得到各样本图像特征向量各自对应的样本编码特征向量。

各特征编码子模块均可以为全连接网络，用于对输入的特征向量进行转换。特征编码子模块的数量可以与样本图像数据中人体图像的数量相同，每个特征编码子模块负责转换一个样本图像特征向量。

在一种可能的实施方式中，上述利用深度学习模型对多个样本编码特征向量进行关联分析，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

S34，利用第一全连接模块对各样本编码特征向量进行拼接及转换，得到混合编码特征向量。

第一全连接模块可以为全连接网络，用于对输入的各样本编码特征向量进行拼接，并对拼接得到的特征向量进行转换，得到混合编码特征向量。

S35，利用第二全连接模块对混合编码特征向量进行转换，得到预测姿态信息。

S36，利用第三全连接模块对混合编码特征向量进行转换，得到预测形状信息。

S37，利用第四全连接模块对混合编码特征向量进行转换，得到预测镜头信息。

第二全连接模块、第三全连接模块、第四全连接模块均可以为全连接网络，用于对输入的混合编码特征向量进行转换，分别得到预测姿态信息、预测形状信息、预测镜头信息。

其中，上述S35、S36及S37执行顺序不做具体限定。

下面以样本图像数据中包括三个不同视角采集的人体图像为例，进行具体说明，本领域技术人员可以理解的是样本图像数据中人体图像的数量可以自定义设定，此处的三个仅为举例，凡是在本申请发明构思内的实施方式，均在本申请的保护范围内。在一种可能的实施方式中，参见图10，深度学习模型包括第一矩阵转换子模块、第二矩阵转换子模块、第三矩阵转换子模块、特征提取模块、第一特征编码子模块、第二特征编码子模块、第三特征编码子模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块。

样本图像数据中包括三个不同视角采集的人体图像，上述在样本图像集中选取样本图像数据，利用待训练的深度学习模型分别对选取的样本图像数据中的各人体图像进行特征提取，得到多个样本编码特征向量；利用深度学习模型对多个样本编码特征向量进行关联分析，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

步骤一，在样本图像集中选取样本图像数据，利用第一矩阵转换子模块、第二矩阵转换子模块、第三矩阵转换子模块分别将选取的样本图像数据中的三张人体图像转化为第一样本图像矩阵、第二样本图像矩阵、第三样本图像矩阵。

各矩阵转换子模块分别用于将样本图像数据中的各人体图像转化为样本图像矩阵。例如，将人体图像转化为w×h×c的样本图像矩阵，其中，w为样本图像的宽度，h为样本图像的高度，c为通道数。

步骤二，利用特征提取模块分别对第一样本图像矩阵、第二样本图像矩阵、第三样本图像矩阵进行特征提取，得到第一样本图像特征向量、第二样本图像特征向量及第三样本图像特征向量。

特征提取模块用于对输入的各图像矩阵进行特征提取，得到各图像特征向量。此处的特征提取模块，可以为ResNet(Residual Neural Network，残差神经网络)、Inception网络或VGG(Visual Geometry Group，视觉几何组网络)等。

步骤三，利用第一特征编码子模块、第二特征编码子模块、第三特征编码子模块分别对第一样本图像特征向量、第二样本图像特征向量、第三样本图像特征向量进行转换，得到第一样本编码特征向量、第二样本编码特征向量、第三样本编码特征向量。

第一特征编码子模块、第二特征编码子模块、第三特征编码子模块可以为全连接网络，用于对输入的特征向量进行转换。例如，特征提取模块得到的第一样本图像特征向量的维度为1×f，第一特征编码子模块将第一样本图像特征向量转化为3×f维的第一样本编码特征向量。特征提取模块得到的第二样本图像特征向量的维度为1×f，第二特征编码子模块将第二样本图像特征向量转化为3×f维的第二样本编码特征向量。特征提取模块得到的第三样本图像特征向量的维度为1×f，第三特征编码子模块将第三样本图像特征向量转化为3×f维的第三样本编码特征向量。

步骤四，利用第一全连接模块对第一样本编码特征向量、第二样本编码特征向量、第三样本编码特征向量进行拼接及转换，得到混合编码特征向量。

第一全连接模块可以为全连接网络，用于对输入的特征向量进行拼接及转换。例如，将维度为3×f的第一样本图像特征向量、维度为3×f的第二样本图像特征向量、维度为3×f的第三样本图像特征向量进行拼接，得到维度为9×f的拼接编码特征向量，在对维度为9×f的拼接编码特征向量进行转换，得到维度为3×f的混合编码特征向量。

步骤五，利用第二全连接模块对混合编码特征向量进行转换，得到预测姿态信息。

步骤六，利用第三全连接模块对混合编码特征向量进行转换，得到预测形状信息。

步骤七，利用第四全连接模块对混合编码特征向量进行转换，得到预测镜头信息。

第四全连接模块可以为全连接网络，用于对输入的特征向量进行转换。例如，第一全连接模块得到的样本编码特征向量的维度为3×f，第二全连接模块将样本编码特征向量转换为1×9维的镜头向量，即预测镜头信息。

其中，上述步骤五、步骤六及步骤七执行顺序不做具体限定。

特征编码模块包括各特征编码子模块及第一全连接模块均可以由第二类Block(块)网络组成，具体的，可以由多个第二类Block网络组成。第二全连接模块、第三全连接模块、第四全连接模块均可以由第一类Block(块)网络及第二类Block网络组成。其中，第一类Block网络可以如图5a所示，第二类Block网络可以如图5b所示。

可选的，第二全连接模块、第三全连接模块、第四全连接模块，可以设置为一个第二类Block网络加一个第一类Block网络，再加多个第二类Block网络的形式。例如，可以为一个第二类Block网络加一个第一类Block网络，再加两个第二类Block网络。

下面以第二全连接模块为例进行说明，第二全连接模块由一个第二类块Block网络、一个第一类Block网络及多个第二类Block网络依次连接而成，可选的，上述利用第二全连接模块对混合编码特征向量进行转换，得到预测姿态信息，包括：

步骤一，将混合编码特征向量输入到第一个第二类Block网络中进行转换，得到第一姿态中间特征向量。

步骤二，将预设姿态先验特征向量与第一姿态中间特征向量相加，然后输入到第一类Block网络种进行转换，得到第二姿态中间特征向量，其中，预设姿态先验特征向量为样本图像集中各样本图像数据的姿态特征向量的均值。

具体的，将获得维度为3×f的混合编码特征向量送入第一个第二类Block网络的输入，经过全连接组，输出一个维度为1×k的第一姿态中间特征向量F_m1，再将F_m1送入第一类Block网络，将F_m1与1×k维的预设姿态先验特征向量F_pk相加，经过全连接组，输出一个维度为1×k维的第二姿态中间特征向量F_m2，再经过多个第二类Block网络，最终获得的预测姿态特征向量，即预测姿态信息。

预测姿态信息的具体表现形式可以为预测姿态特征向量。预设姿态先验特征向量为样本图像集中各样本图像数据的姿态特征向量的均值，例如，可以预先根据各样本图像数据的真值人体模型信息，计算各样本图像数据的姿态特征向量，并计算各样本图像数据的姿态特征向量的均值，得到姿态先验特征向量。相应的，第三全连接模块的形状先验特征向量及第四全连接模块的镜头先验特征向量，也可以利用各样本图像的真值人体蒙版信息计算得到，并且利用第三全连接模块得到预测形状信息及利用第四全连接模块得到预测镜头信息的过程，根利用第二全连接模块得到预测姿态信息的方法相同或相似，此处不再赘述。

在一种可能的实施方式中，预测关键点信息为预测三维关键点信息，样本图像数据的真值关键点信息为真值三维关键点信息；上述计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失，包括：计算选取的样本图像数据的真值三维关键点信息与预测三维关键点信息的损失，得到关键点损失。

在一种可能的实施方式中，预测关键点信息为预测二维关键点信息，样本图像数据的真值关键点信息为真值二维关键点信息；上述计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失，包括：分别计算选取的样本图像数据的多个视角上的真值二维关键点信息与预测二维关键点信息的损失，分别得到各视角上的关键点损失。

在一种可能的实施方式中，上述计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失，包括：计算选取的样本图像数据的多个视角上的真值人体蒙版信息与预测人体蒙版信息的损失，分别得到各视角上的人体蒙版损失。

分别计算每个视角上的真值人体蒙版信息与预测人体蒙版信息的损失，例如，计算每个视角上的真值人体蒙版信息与预测人体蒙版信息的MSE，得到各视角上的人体蒙版损失。

在选取的样本图像数据的真值关键点信息为各视角上的真值二维关键点信息时，将预测三维关键点信息在各视角上进行二维映射，得到各视角上的预测二维关键点信息；分别各视角上的真值二维关键点信息与预测二维关键点信息的损失，得到各视角上的关键点损失。

实际训练环境中，样本图像数据的真值三维关键点信息的标记难度高，工作量大，因此标记有真值三维关键点信息的样本图像数据的数量有限。相比而言，样本图像数据中各人体图像的真值二维关键点信息标记难度低，因此在训练过程中，为了减少样本图像(人体图像)的关键点信息标记的难度及工作量，可以采用标记有真值二维关键点信息的样本图像数据，代替部分标记有真值三维关键点信息的样本图像数据。具体的，样本图像集中标记有真值三维关键点信息的样本图像数据及标记有真值三维关键点信息的样本图像数据可以各占一半。

本申请实施例中，利用标记有真值二维关键点信息的样本图像数据，代替部分标记有真值三维关键点信息的样本图像数据，可以减少样本图像数据中关键点信息标记的难度及工作量。

关键点损失可以包括三维关键点损失及二维关键点损失，例如图11所示，将RGB(Red Green Blue，红绿蓝色彩模式)样本图像或RGBD(Red Green Blue Depth，深度模式)样本图像输入到深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息。利用预设人体三维模型，例如，SMPL模型，对预测姿态信息、预测镜头信息及预测形状信息进行分析，得到预测三维人体模型信息。对预测三维人体模型信息进行人体关键点提取，得到预测三维关键点信息，对预测三维人体模型信息在各人体图像的采集视角上进行投影，得到各视角上的预测人体蒙版信息1-N。计算各视角上的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失。

在选取的样本图像的真值关键点信息为各视角上的真值二维关键点信息时，将预测三维关键点信息在各人体图像的采集视角上进行二维映射，得到各视角上的预测二维关键点信息1-N；计算各视角上的真值二维关键点信息与预测二维关键点信息的损失，得到二维关键点损失。结合二维关键点损失及人体蒙版损失，计算深度学习模型的损失；按照深度学习模型的损失调整所述深度学习模型的参数。

针对上述任一人体建模模型获取方法，样本图像集中的图像(样本图像/人体图像)可以为RGB格式或RGBD格式。在一种可能的实施方式中，在样本图像集中的图像均为RGB格式时，样本图像矩阵的通道数为3，其中，样本图像矩阵的三个通道分别表示样本图像中各像素点的红色亮度矩阵、绿色亮度矩阵、蓝色亮度矩阵。

在样本图像均为RGB格式时，样本图像矩阵可以表示为w×h×c的样本图像矩阵，其中，w为样本图像的宽度，h为样本图像的高度，c等于3。

在一种可能的实施方式中，在样本图像集中包括RGBD格式的样本图像时，样本图像矩阵的通道数为5其中，样本图像矩阵的三个通道分别表示样本图像中各像素点的红色亮度矩阵、绿色亮度矩阵、蓝色亮度矩阵，一个通道表示各像素点的深度矩阵，一个通道表示各像素点的二值化深度矩阵。其中，可以采用二值化方法计算方法得到二值化深度矩阵，例如，可以预先设定深度阈值，在像素点的深度大于或等于深度阈值时，另二值化深度矩阵中对应像素点的值为1，在像素点的深度小于深度阈值时，另二值化深度矩阵中对应像素点的值为0。

在样本图像集中包括RGBD格式的样本图像时，例如，样本图像集仅包括RGBD格式的样本图像时，或样本图像集同时包括RGBD格式的样本图像及RGB格式的样本图像时，样本图像矩阵可以表示为w×h×c的样本图像矩阵，其中，w为样本图像的宽度，h为样本图像的高度，c等于5。

在本申请实施例中，引入了深度特征，考虑到了深度对人体蒙版信息的影响，能够进一步提高深度学习模型的性能。

本申请实施例还提供了一种人体建模方法，参见图12，该方法包括：

S41，将待转换图像数据输入到人体建模模型中进行分析，得到待转换图像对应的预测三维人体模型信息，其中，人体建模模型采用上述任一人体建模模型获取方法训练得到。

本申请实施例还提供了一种人体建模模型获取装置，参见图13，该装置包括：

图像集获取单元801，用于获取样本图像集，其中，上述样本图像集包括多组样本图像数据，每组上述样本图像数据均标记有真值关键点信息及真值人体蒙版信息。

中间信息预测单元802，用于在上述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息。

人体模型转换单元803，用于将上述预测姿态信息、上述预测镜头信息及上述预测形状信息输入到预设人体三维模型中，得到预测三维人体模型信息。

预测信息转换单元804，用于基于上述预测三维人体模型信息，计算得到预测人体蒙版信息及预测关键点信息。

第一损失计算单元805，用于计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损。

第二损失计算单元806，用于结合上述关键点损失及上述人体蒙版损失，计算上述深度学习模型的损失。

模型参数调整单元807，用于根据上述深度学习模型的损失，调整上述深度学习模型的参数，返回执行在上述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息的步骤，直至满足预设的结束条件，得到人体建模模型。

在一种可能的实施方式中，任一上述样本图像数据中包括一个样本图像。

在一种可能的实施方式中，上述深度学习模型包括矩阵转换模块、特征提取模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块；参见图14，上述中间信息预测单元802，包括：

图像矩阵转换子单元8021，用于在上述样本图像集中选取样本图像数据，利用上述矩阵转换模块将选取的样本图像数据转化为样本图像矩阵。

特征向量提取子单元8022，用于利用上述特征提取模块对上述样本图像矩阵进行特征提取，得到样本图像特征向量。

特征向量转换子单元8023，用于利用上述第一全连接模块对上述样本图像特征向量进行转换，得到样本编码特征向量。

姿态信息预测子单元8024，用于利用上述第二全连接模块对上述样本编码特征向量进行转换，得到预测姿态信息。

形状信息预测子单元8025，用于利用上述第三全连接模块对上述样本编码特征向量进行转换，得到预测形状信息。

镜头信息预测子单元8026，用于利用上述第四全连接模块对上述样本编码特征向量进行转换，得到预测镜头信息。

在一种可能的实施方式中，上述第二全连接模块由一个第二类块Block网络、一个第一类Block网络及多个第二类Block网络依次连接而成，上述姿态信息预测子单元8024，具体用于：将上述样本编码特征向量输入到第一个第二类Block网络中进行转换，得到第一姿态中间特征向量；将预设姿态先验特征向量与上述第一姿态中间特征向量相加，然后输入到上述第一类Block网络种进行转换，得到第二姿态中间特征向量，其中，上述预设姿态先验特征向量为上述样本图像集中各样本图像的姿态特征向量的均值；利用上述第一类Block网络后面连接的各第二类Block网络将，对上述第二姿态中间特征向量进行转换，得到预测姿态信息。

在一种可能的实施方式中，上述预测关键点信息为预测三维关键点信息；上述第一损失计算单元805，具体用于：在选取的样本图像数据的真值关键点信息为真值三维关键点信息时，计算选取的样本图像数据的真值三维关键点信息与预测三维关键点信息的损失，得到关键点损失；在选取的样本图像数据的真值关键点信息为真值二维关键点信息时，将上述预测三维关键点信息进行二维映射，得到预测二维关键点信息；计算选取的样本图像数据的真值二维关键点信息与预测二维关键点信息的损失，得到关键点损失。

在一种可能的实施方式中，任一上述样本图像数据中包括在多个不同固定视角下拍摄同一人体得到的各人体图像。

在一种可能的实施方式中，上述中间信息预测单元802，具体用于：在上述样本图像集中选取样本图像数据，利用待训练的深度学习模型分别对选取的样本图像数据中的各人体图像进行特征提取，得到多个样本编码特征向量；利用上述深度学习模型对上述多个样本编码特征向量进行关联分析，得到预测姿态信息、预测镜头信息及预测形状信息。

在一种可能的实施方式中，上述深度学习模型包括矩阵转换模块、特征提取模块、特征编码模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块，上述矩阵转换模块包括多个矩阵转换子模块，上述特征编码模块包括多个特征编码子模块；参见图15，上述中间信息预测单元802，包括：

图像矩阵转换子单元8021，用于在上述样本图像集中选取样本图像数据，利用上述矩阵转换模块的各矩阵转换子模块分别将选取的样本图像数据中的各人体图像进行转化，得到各上述人体图像各自对应的样本图像矩阵。

特征向量提取子单元8022，用于利用上述特征提取模块分别对各上述样本图像矩阵进行特征提取，得到各上述样本图像矩阵各自对应的样本图像特征向量。

特征向量转换子单元8023，用于利用上述特征编码模块的各特征编码子模块分别对各上述样本图像特征向量进行转换，得到各上述样本图像特征向量各自对应的样本编码特征向量。

特征向量混合子单元8027，用于利用上述第一全连接模块对上述第一样本编码特征向量、上述第二样本编码特征向量、上述第三样本编码特征向量进行拼接及转换，得到混合编码特征向量。

姿态信息预测子单元8024，用于利用上述第二全连接模块对上述混合编码特征向量进行转换，得到预测姿态信息。

形状信息预测子单元8025，用于利用上述第三全连接模块对上述混合编码特征向量进行转换，得到预测形状信息。

镜头信息预测子单元8026，用于利用上述第四全连接模块对上述混合编码特征向量进行转换，得到预测镜头信息。

在一种可能的实施方式中，上述第二全连接模块由一个第二类块Block网络、一个第一类Block网络及多个第二类Block网络依次连接而成，上述姿态信息预测子单元8024，具体用于：将上述混合编码特征向量输入到上述第二全连接模块的第一个第二类Block网络中进行转换，得到第一姿态中间特征向量；将预设姿态先验特征向量与上述第一姿态中间特征向量相加，然后输入到上述第二全连接模块的第一类Block网络种进行转换，得到第二姿态中间特征向量，其中，上述预设姿态先验特征向量为上述样本图像集中各样本图像对的姿态特征向量的均值；利用上述第一类Block网络后面连接的各第二类Block网络将，对上述第二姿态中间特征向量进行转换，得到预测姿态信息。

在一种可能的实施方式中，上述预测关键点信息为预测三维关键点信息，上述样本图像对的真值关键点信息为真值三维关键点信息；上述第一损失计算单元805，具体用于：计算选取的样本图像对的真值三维关键点信息与预测三维关键点信息的损失，得到关键点损失；计算选取的样本图像对的多个视角上的真值人体蒙版信息与预测人体蒙版信息的损失，分别得到各上述视角上的人体蒙版损失。

在一种可能的实施方式中，上述预测关键点信息为预测二维关键点信息，上述样本图像对的真值关键点信息为真值二维关键点信息；上述第一损失计算单元805，具体用于：分别计算选取的样本图像对的多个视角上的真值二维关键点信息与预测二维关键点信息的损失，分别得到各上述视角上的关键点损失；分别计算选取的样本图像对的多个视角上的真值人体蒙版信息与预测人体蒙版信息的损失，分别得到各上述视角上的人体蒙版损失。

在一种可能的实施方式中，在上述样本图像集中的图像均为RGB格式时，上述样本图像矩阵的通道数为3，其中，上述样本图像矩阵的三个通道分别表示上述样本图像中各像素点的红色亮度矩阵、绿色亮度矩阵、蓝色亮度矩阵。

在一种可能的实施方式中，在上述样本图像集中包括RGBD格式的图像时，上述样本图像矩阵的通道数为5其中，上述样本图像矩阵的三个通道分别表示上述样本图像中各像素点的红色亮度矩阵、绿色亮度矩阵、蓝色亮度矩阵，一个通道表示各像素点的深度矩阵，一个通道表示各像素点的二值化深度矩阵。

本申请实施例还提供了一种人体建模装置，参见图16，该装置还包括：

人体模型预测单元701，用于将待转换图像数据输入到人体建模模型中进行分析，得到待转换图像对应的预测三维人体模型信息，其中，人体建模模型采用上述任一人体建模模型获取方法训练得到。

本发明实施例还提供了一种电子设备，如图17所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。存储器903，用于存放计算机程序；处理器901，用于执行存储器903上所存放的程序时，实现如上述任一人体建模模型获取方法。

本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任一人体建模方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人体建模模型获取方法。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人体建模方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人体建模模型获取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人体建模方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人体建模模型获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，任一所述样本图像数据中包括一个样本图像。

3.根据权利要求2所述的方法，其特征在于，所述深度学习模型包括矩阵转换模块、特征提取模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块；

所述在所述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

在所述样本图像集中选取样本图像数据，利用所述矩阵转换模块将选取的样本图像数据转化为样本图像矩阵；

利用所述特征提取模块对所述样本图像矩阵进行特征提取，得到样本图像特征向量；

利用所述第一全连接模块对所述样本图像特征向量进行转换，得到样本编码特征向量；

利用所述第二全连接模块对所述样本编码特征向量进行转换，得到预测姿态信息；

利用所述第三全连接模块对所述样本编码特征向量进行转换，得到预测形状信息；

利用所述第四全连接模块对所述样本编码特征向量进行转换，得到预测镜头信息。

4.根据权利要求3所述的方法，其特征在于，所述第二全连接模块由一个第二类块Block网络、一个第一类Block网络及多个第二类Block网络依次连接而成，所述利用所述第二全连接模块对所述样本编码特征向量进行转换，得到预测姿态信息，包括：

将所述样本编码特征向量输入到第一个第二类Block网络中进行转换，得到第一姿态中间特征向量；

将预设姿态先验特征向量与所述第一姿态中间特征向量相加，将相加得到的向量输入到所述第一类Block网络种进行转换，得到第二姿态中间特征向量，其中，所述预设姿态先验特征向量为所述样本图像集中各样本图像的姿态特征向量的均值；

利用所述第一类Block网络后面连接的各第二类Block网络将，对所述第二姿态中间特征向量进行转换，得到预测姿态信息。

5.根据权利要求2所述的方法，其特征在于，所述预测关键点信息为预测三维关键点信息；

所述计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失，包括：

在选取的样本图像数据的真值关键点信息为真值三维关键点信息时，计算选取的样本图像数据的真值三维关键点信息与预测三维关键点信息的损失，得到关键点损失；

在选取的样本图像数据的真值关键点信息为真值二维关键点信息时，将所述预测三维关键点信息进行二维映射，得到预测二维关键点信息；计算选取的样本图像数据的真值二维关键点信息与预测二维关键点信息的损失，得到关键点损失。

6.根据权利要求1所述的方法，其特征在于，任一所述样本图像数据中包括在多个不同固定视角下拍摄同一人体得到的各人体图像。

7.根据权利要求6所述的方法，其特征在于，所述在所述样本图像集中选取样本图像数据，输入到待训练的深度学习模型中，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

在所述样本图像集中选取样本图像数据，利用待训练的深度学习模型分别对选取的样本图像数据中的各人体图像进行特征提取，得到多个样本编码特征向量；

利用所述深度学习模型对所述多个样本编码特征向量进行关联分析，得到预测姿态信息、预测镜头信息及预测形状信息。

8.根据权利要求7所述的方法，其特征在于，所述深度学习模型包括矩阵转换模块、特征提取模块、特征编码模块、第一全连接模块、第二全连接模块、第三全连接模块、第四全连接模块，所述矩阵转换模块包括多个矩阵转换子模块，所述特征编码模块包括多个特征编码子模块；

所述在所述样本图像集中选取样本图像数据，利用待训练的深度学习模型分别对选取的样本图像数据中的各人体图像进行特征提取，得到多个样本编码特征向量，包括：

在所述样本图像集中选取样本图像数据，利用所述矩阵转换模块的各矩阵转换子模块分别将选取的样本图像数据中的各人体图像进行转化，得到各所述人体图像各自对应的样本图像矩阵；

利用所述特征提取模块分别对各所述样本图像矩阵进行特征提取，得到各所述样本图像矩阵各自对应的样本图像特征向量；

利用所述特征编码模块的各特征编码子模块分别对各所述样本图像特征向量进行转换，得到各所述样本图像特征向量各自对应的样本编码特征向量。

9.根据权利要求8所述的方法，其特征在于，所述利用所述深度学习模型对所述多个样本编码特征向量进行关联分析，得到预测姿态信息、预测镜头信息及预测形状信息，包括：

利用所述第一全连接模块对各所述样本编码特征向量进行拼接及转换，得到混合编码特征向量；

利用所述第二全连接模块对所述混合编码特征向量进行转换，得到预测姿态信息；

利用所述第三全连接模块对所述混合编码特征向量进行转换，得到预测形状信息；

利用所述第四全连接模块对所述混合编码特征向量进行转换，得到预测镜头信息。

10.根据权利要求9所述的方法，其特征在于，所述第二全连接模块由一个第二类块Block网络、一个第一类Block网络及多个第二类Block网络依次连接而成，所述利用所述第二全连接模块对所述混合编码特征向量进行转换，得到预测姿态信息，包括：

将所述混合编码特征向量输入到所述第二全连接模块的第一个第二类Block网络中进行转换，得到第一姿态中间特征向量；

将预设姿态先验特征向量与所述第一姿态中间特征向量相加，将相加得到的向量输入到所述第二全连接模块的第一类Block网络种进行转换，得到第二姿态中间特征向量，其中，所述预设姿态先验特征向量为所述样本图像集中各样本图像数据的姿态特征向量的均值；

11.根据权利要求6所述的方法，其特征在于，所述预测关键点信息为预测三维关键点信息，所述样本图像数据的真值关键点信息为真值三维关键点信息；

计算选取的样本图像数据的真值三维关键点信息与预测三维关键点信息的损失，得到关键点损失。

12.根据权利要求6所述的方法，其特征在于，所述预测关键点信息为预测二维关键点信息，所述样本图像数据的真值关键点信息为真值二维关键点信息；

分别计算选取的样本图像数据的多个视角上的真值二维关键点信息与预测二维关键点信息的损失，分别得到各所述视角上的关键点损失。

13.根据权利要求6所述的方法，其特征在于，所述计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失，包括：

计算选取的样本图像数据的多个视角上的真值人体蒙版信息与预测人体蒙版信息的损失，分别得到各所述视角上的人体蒙版损失。

14.根据权利要求3或8所述的方法，其特征在于，在所述样本图像集中的图像均为RGB格式时，所述样本图像矩阵的通道数为3，其中，所述样本图像矩阵的三个通道分别表示所述样本图像中各像素点的红色亮度矩阵、绿色亮度矩阵、蓝色亮度矩阵。

15.根据权利要求3或8所述的方法，其特征在于，在所述样本图像集中包括RGBD格式的图像时，所述样本图像矩阵的通道数为5其中，所述样本图像矩阵的三个通道分别表示所述样本图像中各像素点的红色亮度矩阵、绿色亮度矩阵、蓝色亮度矩阵，一个通道表示各像素点的深度矩阵，一个通道表示各像素点的二值化深度矩阵。

16.一种人体建模方法，其特征在于，所述方法包括：

将待转换图像数据输入到人体建模模型中进行分析，得到所述待转换图像对应的预测三维人体模型信息，其中，所述人体建模模型采用权利要求1-15任一项所述的方法训练得到。

17.一种人体建模模型获取装置，其特征在于，所述装置包括：

第一损失计算单元，用于计算选取的样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；计算选取的样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失；

18.一种人体建模装置，其特征在于，所述装置包括：

人体模型预测单元，用于将待转换图像数据输入到人体建模模型中进行分析，得到所述待转换图像对应的三维人体模型信息，其中，所述人体建模模型采用权利要求1-15任一项所述的方法训练得到。

19.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-16任一所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-16任一所述的方法步骤。