CN111767866A

CN111767866A - 一种人体模型创建方法、装置、电子设备及存储介质

Info

Publication number: CN111767866A
Application number: CN202010622512.7A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: CN111767866B

Abstract

本发明实施例提供了一种人体模型创建方法、装置、电子设备及存储介质，上述方法包括：获得目标可见光图像以及目标红外图像；确定目标红外图像包含的各个光捕球图像的位置信息；基于每个光捕球图像的位置信息，确定图像光捕特征和光捕球位置特征；将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息；将目标人物的姿态信息、目标人物的形状信息和镜头信息，输入人体三维模型SMPL，得到创建的目标人物的人体模型。采用本发明实施例提供的方法，在创建人体模型时利用了光捕技术的高精度，使得所创建的人体模型的精度得到了提高。

Description

一种人体模型创建方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种人体模型创建方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的发展，基于从人体图像中所提取的人体姿态信息等人体特征信息，进行人体模型创建的技术也得到了长足发展。其中，3D (Dimension，维度)人体模型创建，即是从单个的图片或视频中提取人体特征信息，重建或恢复人体姿态的3D模型。

目前，创建的人体模型主要通过，提取包含人体图像的可见光图像中的人体姿态信息、人体形状信息及镜头信息，然后基于所提取的这些信息创建人体三维模型。

然而，由于可见光图像受环境影响较大，图像质量不稳定，针对包含人体图像的可见光图像，所提取得到的人体姿态信息、人体形状信息及镜头信息质量不够高。因此，基于从可见光图像中提取得到的这些信息所创建的人体模型的精度有待提高。

发明内容

本发明实施例的目的在于提供一种人体模型创建方法、装置、电子设备及存储介质，用以提高所创建的人体模型的精度。

为了实现上述发明目的，本发明实施例提供了一种人体模型创建方法，包括：

获得非红外摄像头所采集的视频图像中包含目标人物多个预设部位的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；所述目标人物被预先部署有多个光捕球，其中，每个光捕球对应所述目标人物多个预设部位中的一个指定部位；

确定所述目标红外图像包含的各个光捕球图像的位置信息；

基于每个光捕球图像的位置信息，确定图像光捕特征和光捕球位置特征；所述图像光捕特征，用于表征所述目标红外图像中各个非光捕球图像的像素点与各个光捕球图像的像素点之间的关系；所述光捕球位置特征，用于表征每个光捕球图像在所述目标红外图像中的位置；

将所述光捕球位置特征、所述图像光捕特征和所述目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息；其中，所述人体特征提取模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本人物的样本图像数据，所述样本图像数据包括样本人物的人体图像，以及样本人物的人体图像的真值关键点信息及真值人体蒙版信息；

将所述目标人物的姿态信息、所述目标人物的形状信息和所述镜头信息，输入人体三维模型SMPL，得到创建的目标人物的人体模型。

进一步的，所述各个光捕球图像的位置信息为：各个光捕球图像的位置坐标；

所述确定所述目标红外图像包含的各个光捕球图像的位置信息，包括：

提取所述目标红外图像的像素矩阵；

将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；

确定所述目标像素矩阵的连通区域，每个所述连通区域对应一个光捕球图像；

针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

进一步的，所述基于每个光捕球图像的位置信息，确定图像光捕特征，包括：

分别以每个光捕球图像的位置坐标为中心，以预设距离为半径，生成多个呈高斯分布的图像；并且，将多个呈高斯分布的图像所组成的图像作为目标热度图，将目标热度图矩阵作为图像光捕特征。

进一步的，所述基于每个光捕球图像的位置信息，确定光捕球位置特征，包括：

按照各个光捕球图像的位置坐标中，横坐标或纵坐标的值从大到小或从小到大的顺序，对各个光捕球图像的位置坐标进行排序，得到光捕球图像坐标序列；

根据光捕球图像坐标序列，生成1×2n维的第一坐标矩阵；n为光捕球的数量；

将所述第一坐标矩阵与1×(2k-2n)维的零矩阵进行拼接，得到1×2k维的第二坐标矩阵；k为目标人物的预设部位的数量；

将k个所述第二坐标矩阵进行拼接，得到k×2k维的第三坐标矩阵；

根据所述目标人物的各个预设部位，以及部署于目标人物的各个光捕球，生成1×k维的光捕球部署向量；1×k维的光捕球部署向量的每个元素对应目标人物的一个预设部位，其中，光捕球部署向量的各个元素中，与预设部位中的指定部位相对应的元素的值不为0，与预设部位中的非指定部位相对应的元素的值为0；

将k个所述光捕球部署向量进行拼接，得到k×k维的第四坐标矩阵；

使用所述第四坐标矩阵的转置矩阵乘以所述第三坐标矩阵，得到目标坐标矩阵，作为光捕球位置特征。

进一步的，所述预先训练的人体特征提取模型，包括：第一特征拼接层、特征提取网络层、第一全连接网络层、第二特征拼接层、第二全连接网络层、第三全连接网络层、第四全连接网络层、第五全连接网络层和输出层；

所述将所述光捕球位置特征、所述图像光捕特征和所述目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息，包括：

将将所述光捕球位置特征、所述图像光捕特征和所述目标可见光图像输入预先训练的人体特征提取模型；

所述第一特征拼接层，将所述图像光捕特征和所述目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征，并将所述融合特征输入所述特征提取网络层；

所述特征提取网络层，基于所述融合特征，提取得到1×f维的图像特征矩阵；f是预设的图像特征矩阵的通道数；

所述第一全连接网络层，基于将所述光捕球位置特征，提取得到1×f维的坐标特征矩阵；

第二特征拼接层，将所述图像特征矩阵与所述坐标特征矩阵进行拼接，得到2×f维的拼接矩阵，并将所述2×f维的拼接矩阵输入所述第二全连接网络层；

所述第二全连接网络层，根据所述拼接矩阵，提取得到3×f维的编码特征矩阵，并将所述编码特征矩阵分别输入所述第三全连接网络层、所述第四全连接网络层和所述第五全连接网络层；

所述第三全连接网络层，根据所述编码特征矩阵，提取得到目标人物的姿态向量；

所述第四全连接网络层，根据所述编码特征矩阵，提取得到目标人物的形状向量；

所述第五全连接网络层，根据所述编码特征矩阵，提取得到镜头向量；

所述输出层，将所述姿态向量作为所述目标人物的姿态信息，将所述形状向量作为所述目标人物的形状信息，以及将所述镜头向量作为镜头信息，输出目标人物的姿态信息、目标人物的形状信息及镜头信息。

进一步的，所述特征提取网络层为：残差神经网络ResNet，或Inception网络，或视觉几何群网络VGG；

所述第一全连接网络层包括：第一预设数量个全连接网络，并且，所述第一全连接网络层中的第一个全连接网络的输入特征维度为k×2k维，所述第一全连接网络层中的最后一个全连接网络的输出特征维度为1×f维；

所述第二全连接网络层包括：第二预设数量个全连接网络，并且，所述第二全连接网络层中的第一个全连接网络的输入特征维度为2×f维，所述第二全连接网络层中的最后一个全连接网络的输出特征维度为3×f维；

所述第三全连接网络层由一个第二类Block网络、一个第一类Block网络及第三预设数量个第二类Block网络依次连接而成；

所述第四全连接网络层由一个第二类Block网络、一个第一类Block网络及第四预设数量个第二类Block网络依次连接而成；

所述第五全连接网络层由一个第二类Block网络、一个第一类Block网络及第五预设数量个第二类Block网络依次连接而成。

进一步的，采用如下步骤基于训练样本集训练得到所述人体特征提取模型：

将训练样本集中的样本人物的样本图像数据，输入待训练神经网络模型，得到样本人物的预测姿态信息、样本人物的预测形状信息及预测镜头信息；

将所述预测姿态信息、样本人物的预测形状信息及预测镜头信息，输入 SMPL模型，得到样本人物的预测人体模型；

基于所述预测人体模型，确定预测人体模型的二维投影图像，作为预测人体二维蒙版；

确定所述预测人体二维蒙版中人体的关键点，得到预测关键点信息；

计算样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；以及计算样本图像数据的真值人体蒙版信息与预测人体二维蒙版信息的损失，得到人体蒙版损失；

基于关键点损失及人体蒙版损失，确定当前的待训练神经网络模型的损失函数值；

判断所述损失函数值是否小于预设损失函数阈值；

如果是，确定当前的待训练神经网络模型为人体特征提取模型；

如果不是，调整当前的待训练神经网络模型的参数；并返回所述将训练样本集中的样本人物的样本图像数据，输入待训练神经网络模型的步骤。

进一步的，所述非红外摄像头和所述红外摄像头在同一个水平位置，且所述非红外摄像头和所述红外摄像头的镜头中心相距不超过预设距离阈值。

为了实现上述发明目的，本发明实施例还提供了一种人体模型创建装置，包括：

图像获取模块，用于获得非红外摄像头所采集的视频图像中包含目标人物多个预设部位的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；所述目标人物被预先部署有多个光捕球，其中，每个光捕球对应所述目标人物多个预设部位中的一个指定部位；

位置信息确定模块，用于确定所述目标红外图像包含的各个光捕球图像的位置信息；

特征确定模块，用于基于每个光捕球图像的位置信息，确定图像光捕特征和光捕球位置特征；所述图像光捕特征，用于表征所述目标红外图像中各个非光捕球图像的像素点与各个光捕球图像之间的关系；所述光捕球位置特征，用于表征每个光捕球图像在所述目标红外图像中的位置；

信息提取模块，用于将所述光捕球位置特征、所述图像光捕特征和所述目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息；其中，所述人体特征提取模型为基于训练样本集进行训练得到的，所述训练样本集包含：多个样本人物的样本图像数据，所述样本图像数据包括样本人物的人体图像，以及样本人物的人体图像的真值关键点信息及真值人体蒙版信息；

人体模型创建模块，用于将所述目标人物的姿态信息、所述目标人物的形状信息和所述镜头信息，输入人体三维模型SMPL，得到创建的目标人物的人体模型。

所述位置信息确定模块，具体用于提取所述目标红外图像的像素矩阵；将所述像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；确定所述目标像素矩阵的连通区域，每个所述连通区域对应一个光捕球图像；针对每个所述连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

进一步的，所述特征确定模块，包括：

图像光捕特征确定子模块，用于分别以每个光捕球图像的位置坐标为中心，以预设距离为半径，生成多个呈高斯分布的图像；并且，将多个呈高斯分布的图像所组成的图像作为目标热度图，将目标热度图矩阵作为图像光捕特征；

光捕球位置特征确定子模块，用于按照各个光捕球图像的位置坐标中，横坐标或纵坐标的值从大到小或从小到大的顺序，对各个光捕球图像的位置坐标进行排序，得到光捕球图像坐标序列；根据光捕球图像坐标序列，生成1×2n 维的第一坐标矩阵；n为光捕球的数量；将所述第一坐标矩阵与1×(2k-2n) 维的零矩阵进行拼接，得到1×2k维的第二坐标矩阵；k为目标人物的预设部位的数量；将k个所述第二坐标矩阵进行拼接，得到k×2k维的第三坐标矩阵；根据所述目标人物的各个预设部位，以及部署于目标人物的各个光捕球，生成1 ×k维的光捕球部署向量；1×k维的光捕球部署向量的每个元素对应目标人物的一个预设部位，其中，光捕球部署向量的各个元素中，与预设部位中的指定部位相对应的元素的值不为0，与预设部位中的非指定部位相对应的元素的值为0；将k个所述光捕球部署向量进行拼接，得到k×k维的第四坐标矩阵；使用所述第四坐标矩阵的转置矩阵乘以所述第三坐标矩阵，得到目标坐标矩阵，作为光捕球位置特征。

所述信息提取模块，具体用于：

将所述光捕球位置特征、所述图像光捕特征和所述目标可见光图像输入预先训练的人体特征提取模型；

所述第三全连接网络层，根据所述编码特征矩阵，提取得到目标人物的1 ×72维的姿态向量；

所述第四全连接网络层，根据所述编码特征矩阵，提取得到目标人物的1 ×10维的形状向量；

所述第五全连接网络层，根据所述编码特征矩阵，提取得到1×3维的镜头向量；

进一步的，所述装置，还包括：模型训练模块；

所述模型训练模块，用于采用如下步骤基于训练样本集训练得到所述人体特征提取模型：

判断所述损失函数值是否小于预设损失函数阈值；

为了达到上述目的，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述人体模型创建方法步骤。

为了达到上述目的，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述人体模型创建方法步骤。

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述人体模型创建方法步骤。

本发明实施例有益效果：

采用本发明实施例提供的方法，仅需要对目标人物部署多个光捕球，针对目标人物采集目标红外图像和目标可见光图像，利用目标红外图像获得图像光捕特征和光捕球位置特征。进而，将图像光捕特征、光捕球位置特征和目标可见光图像输入预先训练的人体特征提取模型，结合光捕技术与深度学习模型，获得目标人物的姿态信息、目标人物的形状信息及镜头信息。进一步的，将目标人物的姿态信息、目标人物的形状信息和镜头信息输入人体三维模型SMPL，实现目标人物的人体模型创建。本发明实施例提供的方案，结合光捕技术与深度学习模型便可以实现目标人物的人体模型创建。由于本发明实施例提供的方法，在创建人体模型时利用了光捕技术的高精度，使得所创建的人体模型的精度得到了提高。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为一种三维人体蒙版的示意图；

图2为现有技术中专业光捕数据采集示意图；

图3为本发明实施例提供的人体模型创建方法的一种流程图；

图4为本发明实施例提供的人体模型创建方法的另一种流程图；

图5a为本发明实施例提供的人体模型创建方法中部署有光捕球的目标人物的示意图；

图5b为本发明实施例提供的部署有光捕球的目标人物和针对部署有光捕球的目标人物所采集的目标红外图像的示意图；

图6为本发明实施例提供的人体特征提取模型的结构示意图；

图7a为本发明实施例提供的第一类Block网络的结构示意图；

图7b为本发明实施例提供的第二类Block网络的结构示意图；

图8为本发明实施例提供的人体模型创建方法中，使用人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息的具体流程图；

图9为本发明实施例提供的输入人体特征提取模型的特征提取网络层的融合特征的示意图；

图10为本发明实施例提供的训练人体特征提取模型的流程图；

图11为本发明实施例提供的人体模型创建装置的一种结构示意图；

图12为本发明实施例提供的人体模型创建装置的另一种结构示意图；

图13为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有的3D人体模型创建可以应用到多个领域，例如，可应用于人体意图识别，虚拟形象建立，人体动作捕捉，人体交互游戏等。图1为一种三维人体蒙版的示意图。参见图1，即为利用人体图像110得到三维人体蒙版的示意图。其中，图1中基于人体图像110所得到的三维人体蒙版图包括：三维人体模型的主视图的人体蒙版120、三维人体模型的左视图的人体蒙版130和三维人体模型的右视图的人体蒙版140。

现有技术中，根据光捕数据进行人体模型创建算法复杂，且对于光捕设备的部署、红外线摄像机设备的要求都比较高，均为商业应用且需在专业摄影棚中完成。图2为现有技术中专业光捕数据采集示意图，如图2所示：在摄影棚中不同的位置安装多个红外摄像机203，演员穿着特制的光捕衣服201，光捕衣服上部署有多个反射能力很强的光捕球202，每个光捕球202对应人体的一个关键部位。在拍摄过程中，红外摄像机203发出红外光，并接收光捕球202所反射的红外光，拍摄出不同方向的红外视频图像。在得到不同方向的红外视频图像后，再通过图像融合等图像处理技术，计算出光捕球202的空间位置，进而可以得到光捕球对应的人体关键点。这种方式虽然识别精度较高，但是成本也比较高，并且需要对多路视频图像进行处理，算法复杂，对使用场景的要求较高。

由于现有的人体模型创建方法的算法复杂，对使用场景的要求较高，为了简化对人体模型创建的处理，扩展人体模型创建的使用场景，以及提高创建人体模型的精度，本发明实施例提供了人体模型创建方法，参见图3，包括：

步骤301，获得非红外摄像头所采集的视频图像中包含目标人物多个预设部位的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；目标人物被预先部署有多个光捕球，其中，每个光捕球对应目标人物多个预设部位中的一个指定部位。

步骤302，确定目标红外图像包含的各个光捕球图像的位置信息。

步骤303，基于每个光捕球图像的位置信息，确定图像光捕特征和光捕球位置特征；图像光捕特征，用于表征目标红外图像中各个非光捕球图像的像素点与各个光捕球图像的像素点之间的关系；光捕球位置特征，用于表征每个光捕球图像在目标红外图像中的位置。

步骤304，将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息；其中，人体特征提取模型为基于训练样本集进行训练得到的，训练样本集包含：多个样本人物的光捕球位置特征、图像光捕特征和可见光图像，以及各个样本人物的真实姿态信息、各个样本人物的真实形状信息及真实镜头信息。

步骤305，将目标人物的姿态信息、目标人物的形状信息和镜头信息，输入人体三维模型SMPL，得到创建的目标人物的人体模型。

采用本发明实施例提供的方法，仅需要对目标人物部署多个光捕球，针对目标人物采集目标红外图像和目标可见光图像，利用目标红外图像获得图像光捕特征和光捕球位置特征。进而，将图像光捕特征、光捕球位置特征和目标可见光图像输入预先训练的人体特征提取模型，结合光捕技术与深度学习模型，获得目标人物的姿态信息、目标人物的形状信息及镜头信息。进一步的，将目标人物的姿态信息、目标人物的形状信息和镜头信息输入人体三维模型SMPL，实现目标人物的人体模型创建。本发明实施例提供的方法，结合光捕技术与深度学习模型便可以实现目标人物的人体模型创建。由于本发明实施例提供的方法，在创建人体模型时利用了光捕技术的高精度，使得所创建的人体模型的精度得到了提高。

下面通过具体实施例对本发明实施例提供的人体模型创建方法及装置进行详细描述。

在本申请的一个实施例中，图4所示，人体模型创建方法的另一种流程，包括如下步骤：

步骤401，获得目标红外图像和目标可见光图像。

本发明实施例中，目标人物可以有多个预设部位，其中，多个预设部位可以包括：手腕、手肘、脚踝、膝盖、脚部和肩部等部位。

本步骤中，可以对目标人物多个预设部位中的指定部位部署多个光捕球，每个光捕球对应目标人物的一个指定部位。其中，光捕球具体可以是反光式的光捕球。可以将多个光捕球粘贴在目标人物的各个指定部位。具体可参见图5a，目标人物501身上的手腕、手肘、脚踝、膝盖、脚部和肩部等预设部位，均为目标人物501的指定部位。并且，目标人物501的各个指定部位均被部署了光捕球402。

具体的，参照图5a，可针对目标人物501，按照箭头的顺序，依次在目标人物501的各个指定部位粘贴光捕球502。例如，可以在目标人物501的骨盆部位粘贴一个光捕球502，以骨盆部位为起始部位，按照图5a中箭头的指向，向上依次在“脊椎1”、“脊椎2”、“脊椎3”、“颈部”、“头部”、“左锁骨”、“左肩部”、“左肘部”、“左手腕”、“左手”、“右锁骨”、“右肩部”、“右肘部”、“右手腕”、“右手”等部位各粘贴一个光捕球502；以骨盆部位为起始部位，按照图5a中箭头的指向，向下依次在“左臀部”、“左膝盖”、“左脚踝”、“左脚部”、“右臀部”、“右膝盖”、“右脚踝”、“右脚部”等部位各粘贴一个光捕球502。最终，可在目标人物501的上述24个指定部位处粘贴24个光捕球502。

本步骤中，可以使用一台红外摄像机，如Kineck DK摄像头，针对被部署了光捕球的目标人物采集红外视频。针对所采集的红外视频，可以选取一帧包含了各个光捕球图像的图像帧，作为目标红外图像。同时，可以使用非红外摄像机，针对目标人物采集视频，并且，可以从所采集的视频中，选取一帧视频图像，作为目标可见光图像。

其中，非红外摄像头和红外摄像头可以在同一个水平位置，且非红外摄像头和红外摄像头的镜头中心相距不超过预设距离阈值。预设距离阈值可以根据实际应用情况具体进行设定，并且预设距离阈值越小，非红外摄像头和红外摄像头所采集的视频图像越好。例如预设距离阈值可以设定为50厘米或100厘米。

如图5b所示，目标人物503的左手腕、右手腕、左手肘与右手肘部位被部署了光捕球502，可以使用红外摄像机针对被部署了光捕球的目标人物503，采集得到目标红外图像510。

步骤402，确定目标红外图像包含的各个光捕球图像的位置信息。

本发明实施例中，各个光捕球图像的位置信息可以为各个光捕球图像的位置坐标。具体的，可以采用如下步骤A1-步骤A4的方式，确定目标红外图像包含的各个光捕球图像的位置坐标：

步骤A1，提取目标红外图像的像素矩阵；

步骤A2，将像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；

步骤A3，确定目标像素矩阵的连通区域，每个连通区域对应一个光捕球图像；

步骤A4，针对每个连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

具体的，可以提取目标红外图像的像素矩阵，所提取的像素矩阵为w×h ×1维的矩阵，其中，w为像素矩阵中横向的像素点的数量，h为像素矩阵中纵向像素点的数量。针对所提取的像素矩阵，将像素矩阵中像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；其中，预设像素阈值可以根据实际应用具体进行设定，设定原则为：保留光捕球图像的像素值；例如，预设像素阈值可以设定为200或210。针对目标像素矩阵，确定目标像素矩阵的多个连通区域。其中，连通区域为：目标像素矩阵中像素值高于预设像素阈值且位置相邻的像素点组成的区域，每个连通区域对应一个光捕球图像。针对所确定的多个连通区域，将各个连通区域中，像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

举例说明，若在目标人物A的4个指定部位“左手肘、右手肘、左手腕、右手腕”均部署了光捕球，针对目标人物A所获取的目标红外图像中，包含4个光捕球图像，并且针对目标红外图像所提取的像素矩阵a为1080×640×1维的矩阵，像素值矩阵a的各个像素点的值位于区间[0，255]。预设像素阈值可以设定为200，可以针对所提取的1080×640×1维的像素矩阵，将该矩阵中像素值小于200的像素点的像素值全部置为0，得到的矩阵作为目标像素矩阵a₁，目标像素矩阵a₁的各个像素点的像素值位于区间[200，255]。针对目标像素矩阵，将目标像素矩阵中，像素值在区间[200，255]内，且位置相邻的像素点组成的区域确定为连通区域，可以得到4个光捕球图像分别对应的连通区域。针对各个连通区域，将连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标，可以得到4个光捕球图像的位置坐标。

步骤403，分别以每个光捕球图像的位置坐标为中心，以预设距离为半径，生成多个呈高斯分布的图像；并且，将多个呈高斯分布的图像所组成的图像作为目标热度图，将目标热度图矩阵作为图像光捕特征。

本发明实施例中，在得到目标红外图像的多个光捕球图像的位置坐标后，可以在同一个坐标系中，分别以每个光捕球图像的位置坐标为中心，以预设距离为半径，生成多个呈高斯分布的热度图像；并且，将该坐标系中的多个呈高斯分布的热度图像所组成的w×h×1维的图像作为目标热度图。可以将目标热度图矩阵作为图像光捕特征。其中，图像光捕特征，可以用于表征目标红外图像中各个非光捕球图像的像素点与各个光捕球图像之间的关系。预设距离可以根据实际应用情况具体进行设定，例如，预设距离可以设定为1个像素点间距或2个像素点间距。

举例说明，若目标红外图像B包含两个光捕球图像P_B1和P_B2，且若目标红外图像B的像素矩阵为4×8×1维的矩阵：

例如，若基于上述目标红外图像B的像素矩阵，得到目标红外图像B包含的两个光捕球图像P_B1和P_B2在目标红外图像B的像素矩阵中的位置坐标为：

其中，上述矩阵中，元素值为1的两个点的位置坐标，分别表示目标红外图像B包含的两个光捕球图像P_B1和P_B2的位置坐标。

若将预设距离设定为1个像素点间距，可以在同一个坐标系中，分别以光捕球图像P_B1和P_B2的位置坐标为中心，以1个像素点间距为半径，生成两个呈高斯分布的热度图像；并且，将该坐标系中的两个呈高斯分布的热度图像所组成的4×8×1维的图像作为目标热度图。可以将目标热度图矩阵作为图像光捕特征：

其中，上述矩阵中，h₁和h₂均表示热度值。

步骤404，基于每个光捕球图像的位置信息，确定光捕球位置特征。

其中，光捕球位置特征，用于表征每个光捕球图像在目标红外图像中的位置。

本发明实施例中，可以采用如下步骤B1-步骤B7的方式，确定光捕球位置特征：

步骤B1：按照各个光捕球图像的位置坐标中，横坐标或纵坐标的值从大到小或从小到大的顺序，对各个光捕球图像的位置坐标进行排序，得到光捕球图像坐标序列。

步骤B2：根据光捕球图像坐标序列，生成1×2n维的第一坐标矩阵；n为光捕球的数量。

步骤B3：将第一坐标矩阵与1×(2k-2n)维的零矩阵进行拼接，得到1×2k 维的第二坐标矩阵；k为目标人物的预设部位的数量。

步骤B4：将k个第二坐标矩阵进行拼接，得到k×2k维的第三坐标矩阵。

步骤B5：根据目标人物的各个预设部位，以及部署于目标人物的各个光捕球，生成1×k维的光捕球部署向量；1×k维的光捕球部署向量的每个元素对应目标人物的一个预设部位，其中，光捕球部署向量的各个元素中，与预设部位中的指定部位相对应的元素的值不为0，与预设部位中的非指定部位相对应的元素的值为0。

步骤B6：将k个光捕球部署向量进行拼接，得到k×k维的第四坐标矩阵。

步骤B7：使用第四坐标矩阵的转置矩阵乘以第三坐标矩阵，得到目标坐标矩阵，作为光捕球位置特征。

举例说明，若目标人物C有4个预设部位：左手腕、右手腕、左手肘和右手肘。其中，目标人物C的左手腕和右手腕为指定部位，在目标人物的左手腕和右手腕这两个指定部位均粘贴有光捕球。针对目标人物C所采集的目标红外图像P_C包含2个光捕球图像，且2个光捕球图像的坐标分别为：(10，5)和(9，6)。可以按照各个光捕球图像的位置坐标中纵坐标的值从小到大的顺序(仅以纵坐标的值大小做排序依据，同样的也可以以位置坐标中的横坐标的值大小做排序依据，本实施例并不做具体限制)，对各个光捕球图像的位置坐标进行排序，得到光捕球图像坐标序列：(10，5，9，6)。进而，针对目标人物C，可以根据光捕球图像坐标序列(10，5，9，6)生成第一坐标矩阵：[10596]。

针对目标人物C，目标人物C有4个预设部位，且4个预设部位中有两个预设部位为指定部位。即目标人物C的预设部位的数量k＝4，部署于目标人物C的光捕球的数量n＝2。基于此，可以将目标人物C的第一坐标矩阵：[10596]，与1×4维的零矩阵[0000]进行拼接，得到1×8维的第二坐标矩阵： [105960000]。

可以将4个目标人物C的第二坐标矩阵[105960000]进行拼接，得到4×8维的第三坐标矩阵：

本步骤中，可以根据目标人物C的4个预设部位，以及部署于目标人物C的 2个光捕球，生成4维的光捕球部署向量。其中，4维的光捕球部署向量的每个元素对应目标人物C的一个预设部位，其中，光捕球部署向量的各个元素中，与预设部位中的指定部位相对应的元素的值为不为0，可以为1或0.25等值，与预设部位中的非指定相对应的元素的值为0。

例如，针对目标人物C可以生成4维的光捕球部署向量：[0 0.25 0 0.25]。其中，所生成的4维的光捕球部署向量各个元素中，值为0.25的元素与目标人物 C的指定部位相对应，值为0的元素与目标人物C的预设部位中的非指定部位相对应。

进一步的，针对目标人物C，可以将4个目标人物C的光捕球部署向量 [0 0.25 00.25]进行拼接，得到矩阵：

可以将上述拼接后的矩阵的转置矩阵作为第四坐标矩阵：

进一步的，针对目标人物C，可以使用上述第四坐标矩阵

乘以上述第三坐标矩阵

得到目标坐标矩阵：

可以将得到的目标坐标矩阵：

作为光捕球位置特征。

步骤405，将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息。

其中，目标人物的姿态信息姿态信息可以是一个1×72维的向量，表征目标人物各个预设部位的轴角信息；目标人物的形状信息可以是一个1×10维的向量；镜头信息可以是一个1×3维的向量。

步骤406，将目标人物的姿态信息、目标人物的形状信息和镜头信息，输入人体三维模型SMPL，得到创建的目标人物的人体模型。

本发明实施例中，人体三维模型可以为SMPL(ASkinned Multi-Person LinearModel，一种人体三维模型)。可以利用人体三维模型对目标人物的姿态信息、目标人物的形状信息及镜头信息进行分析建模，得到目标人物的人体模型。其中，可以通过目标人物三维人体模型中各点的坐标集合，来表征所创建的目标人物的人体模型。

本发明实施例中，参见图6，预先训练的人体特征提取模型可以包括：第一特征拼接层、特征提取网络层、第一全连接网络层、第二特征拼接层、第二全连接网络层、第三全连接网络层、第四全连接网络层、第五全连接网络层和输出层。

其中，特征提取网络层可以为：ResNet(Residual Neural Network，残差神经网络)、Inception网络或VGG(Visual Geometry Group，视觉几何群网络)等。

第一全连接网络层可以包括：第一预设数量个全连接网络，其中，第一预设数量的设定原则为：使得第一全连接网络层中的第一个全连接网络的输入特征维度为k×2k维，第一全连接网络层中的最后一个全连接网络的输出特征维度为1×f维。

第二全连接网络层包括：第二预设数量个全连接网络，其中，第二预设数量的设定原则为：第二全连接网络层中的第一个全连接网络的输入特征维度为 2×f维，第二全连接网络层中的最后一个全连接网络的输出特征维度为3×f维。

第三全连接网络层、第四全连接网络层及第五全连接网络层，均可以由第一类Block(块)网络及第二类Block网络组成。其中，第一类Block网络可以如图7a所示，包括特征拼接单元1、全连接层组及特征拼接单元2，特征拼接单元1将输入特征与先验特征进行拼接，全连接层组对输入特征进行转换，特征拼接单元2对全连接层组输入特征及全连接层组的输出特征进行拼接。第二类Block网络可以如图7b所示，包括全连接层组及特征拼接单元，全连接层组对输入特征进行转换，特征拼接单元对全连接层组的输入特征及全连接层组的输出特征进行拼接。

可实施的，第三全连接网络层可以由一个第二类Block网络、一个第一类 Block网络及第三预设数量个第二类Block网络依次连接而成。第四全连接网络层可以由一个第二类Block网络、一个第一类Block网络及第四预设数量个第二类Block网络依次连接而成。第五全连接网络层由一个第二类Block网络、一个第一类Block网络及第五预设数量个第二类Block网络依次连接而成。

其中，第三预设数量、第四预设数量和第五预设数量均可以根据实际应用情况进行设定，且第三预设数量、第四预设数量和第五预设数量可以相同也可以不同。例如，第三预设数量、第四预设数量和第五预设数量均可以设定为2，即第三全连接网络层、第四全连接网络层和第五全连接网络层，均由一个第二类Block网络加一个第一类Block网络，再加两个第二类Block网络依次连接而成。

参见图8，将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息的步骤，可以包括：

步骤801：将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型。

步骤802：第一特征拼接层，将图像光捕特征和目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征，并将融合特征输入特征提取网络层。

本发明实施例中，目标可见光图像中的不同颜色往往是由一定的色彩模式构成，例如，由RGB(Red、Green、Blue，红色、绿色、蓝色)色彩模式构成，或者由CMYK(Cyan、Magenta、Yellow、Black，青色、品红色、黄色、黑色) 色彩模式构成。因此，可以按照色彩模式，将目标可见光图像的每个像素点的色彩分离，从而可以得到目标可见光图像的色彩模式中的每个色彩分量的色彩图像，例如，按照RGB色彩模式，可以得到目标可见光图像的红色色彩图像、目标可见光图像的绿色色彩图像和目标可见光图像的蓝色色彩图像。

针对目标可见光图像的各个色彩图像，可以将该色彩图像中的横向像素点的数量作为该色彩图像的色值矩阵的列数，将该色彩图像中的纵向像素点的数量作为该色彩图像的色值矩阵的行数，将该色彩图像中每个像素点的颜色色值作为该像素点对应的元素在该色彩图像的色值矩阵中的元素值，从而可以得到该色彩图像各个色值矩阵。例如，按照RGB色彩模式，可以得到目标可见光图像的红色色彩图像、目标可见光图像的绿色色彩图像和目标可见光图像的蓝色色彩图像，且各个色彩图像的横向像素点的数量和纵向像素点的数量都为4，可以依次得到如下所示的目标可见光图像的红色色值矩阵、绿色色值矩阵和蓝色色值矩阵：

在得到目标可见光图像的各个颜色通道的色值矩阵之后，参见图9，可以将目标可见光图像的将红色色值矩阵910、绿色色值矩阵920和蓝色色值矩阵930，和图像光捕特征940进行拼接，得到的拼接后的矩阵作为融合特征。

步骤803：特征提取网络层，基于融合特征，提取得到1×f维的图像特征矩阵。

其中，f是预设的图像特征矩阵的通道数，且f的取值可以为2048。

步骤804：第一全连接网络层，基于将光捕球位置特征，提取得到1×f维的坐标特征矩阵。

步骤805：第二特征拼接层，将图像特征矩阵与坐标特征矩阵进行拼接，得到2×f维的拼接矩阵，并将2×f维的拼接矩阵输入第二全连接网络层。

步骤806：第二全连接网络层，根据拼接矩阵，提取得到3×f维的编码特征矩阵，并将编码特征矩阵分别输入第三全连接网络层、第四全连接网络层和第五全连接网络层。

步骤807：第三全连接网络层，根据编码特征矩阵，提取得到目标人物的 1×72维的姿态向量。

其中，第三全连接网络层可以由一个第二类Block网络、一个第一类Block 网络及第三预设数量个第二类Block网络依次连接而成。

步骤808：第四全连接网络层，根据编码特征矩阵，提取得到目标人物的 1×10维的形状向量。

步骤809：第五全连接网络层，根据编码特征矩阵，提取得到1×3维的镜头向量。

步骤810：输出层，将姿态向量作为目标人物的姿态信息，将形状向量作为目标人物的形状信息，以及将镜头向量作为镜头信息，输出目标人物的姿态信息、目标人物的形状信息及镜头信息。

其中，上述步骤807、步骤808及步骤809的执行顺序不做具体限定。

采用本发明实施例提供的方法，仅需要对目标人物部署多个光捕球，针对目标人物采集目标红外图像和目标可见光图像，利用目标红外图像获得图像光捕特征和光捕球位置特征。进而，将图像光捕特征、光捕球位置特征和目标可见光图像输入预先训练的人体特征提取模型，结合光捕技术与深度学习模型，获得目标人物的姿态信息、目标人物的形状信息及镜头信息。进一步的，将目标人物的姿态信息、目标人物的形状信息和镜头信息输入人体三维模型SMPL，实现目标人物的人体模型创建。本发明实施例提供的方案，结合光捕技术与深度学习模型便可以实现目标人物的人体模型创建。由于本发明实施例提供的方法，在创建人体模型时利用了光捕技术的高精度，结合了光捕技术和深度学习模型，较之于单纯使用非红外图像创建人体模型的技术，使得所创建的人体模型的精度得到了提高。并且，由于不需要在摄影棚内针对目标人物采集红外图像，并且，目标人物也不需要穿着特定的光捕衣服，一方面简化了对人体模型创建的处理，另一方面也扩展了人体模型创建的应用场景。

本发明实施例中，参见图10，一种训练人体特征提取模型的流程，包括：

步骤1001，将训练样本集中的样本人物的样本图像数据，输入待训练神经网络模型，得到样本人物的预测姿态信息、样本人物的预测形状信息及预测镜头信息。

其中，训练样本集包含：多个样本人物的样本图像数据，样本图像数据包括样本人物的人体图像，以及样本人物的人体图像的真值关键点信息及真值人体蒙版信息。样本人物的人体图像的真值关键点信息表示：人体图像中，样本人物的各个预设部位的真实信息。真值人体蒙版信息可以为真值三维人体模型在人体图像采集视角上的二维投影。

本步骤中，待训练神经网络模型包括至少三个输出层，分别用于预测样本人物的姿态信息、镜头信息及形状信息。其中，预测姿态信息为预测得到的人体的姿态，包括预测的三维人体关键点；预测形状信息为预测得到的人体的形状，包括预测的三维人体轮廓点线；预测镜头信息为预测得到的相机针对人体的拍摄角度。

步骤1002，将预测姿态信息、样本人物的预测形状信息及预测镜头信息，输入SMPL模型，得到样本人物的预测人体模型。

步骤1003，基于预测人体模型，确定预测人体模型的二维投影图像，作为预测人体二维蒙版；以及确定预测关键点信息。

对预测人体模型进行关键点提取，得到预测关键点信息；将预测人体模型在人体图像的采集视角上进行二维投影，得到预测人体二维蒙版。基于预测人体二维蒙版中人体的关键点，得到预测关键点信息。

步骤1004，计算样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；以及计算样本图像数据的真值人体蒙版信息与预测人体二维蒙版信息的损失，得到人体蒙版损失。

本步骤中，真值关键点信息与预测关键点信息的差别越大，关键点损失也就越大。具体的，可以先计算真值关键点信息与预测关键点信息中各对应关键点间的距离，例如，计算真值关键点信息中头部关键点与预测关键点信息中头部关键点的距离，计算真值关键点信息左膝关键点与预测关键点信息中左膝关键点的距离等。然后计算各距离的均值，作为关键点损失。也可以按照各关键点的预设权重，计算各距离与对应预设权重的乘积，并对各乘积求和，得到关键点损失。

人体蒙版损失的计算可以采用MSE(Mean Square Error，均方误差)等计算方法，计算真值人体蒙版信息与预测人体蒙版信息的MSE，作为人体蒙版损失。

步骤1005，基于关键点损失及人体蒙版损失，确定当前的待训练神经网络模型的损失函数值。

本步骤中，可以计算关键点损失及人体蒙版损失的均值，作为当前的待训练神经模型的损失函数值。也可以预先针对关键点损失及人体蒙版损失设置权重，计算关键点损失与其权重的乘积，计算人体蒙版损失与其权重的乘积，然后对这两个乘积求和，得到当前的待训练神经模型的损失函数值。

步骤1006，判断损失函数值是否小于预设损失函数阈值，若判断结果为是，执行步骤1007，若判断结果为否，执行步骤1008。

其中，预设损失函数阈值可以根据具体的训练情况设定，设定原则为：若当前的待训练神经网络模型的损失函数值小于等于该预设损失函数阈值时，当前的待训练神经模型达到收敛。

步骤1007，确定当前的待训练神经网络模型为人体特征提取模型。

步骤1008，调整当前的待训练神经网络模型的参数；并返回步骤1001。

基于当前的待训练神经网络模型的损失函数值，反向调整当前的待训练神经网络模型的参数。

基于同一发明构思，根据本发明上述实施例提供的人体模型创建方法，相应地，本发明另一实施例还提供了一种人体模型创建装置，其结构示意图如图 11所示，具体包括：

图像获取模块1101，用于获得非红外摄像头所采集的视频图像中包含目标人物多个预设部位的图像帧，作为目标可见光图像；以及获得红外摄像头所采集的视频图像中包含多个光捕球图像的图像帧，作为目标红外图像；目标人物被预先部署有多个光捕球，其中，每个光捕球对应所述目标人物多个预设部位中的一个指定部位；

位置信息确定模块1102，用于确定目标红外图像包含的各个光捕球图像的位置信息；

特征确定模块1103，用于基于每个光捕球图像的位置信息，确定图像光捕特征和光捕球位置特征；图像光捕特征，用于表征目标红外图像中各个非光捕球图像的像素点与各个光捕球图像的像素点之间的关系；光捕球位置特征，用于表征每个光捕球图像在目标红外图像中的位置；

信息提取模块1104，用于将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型，得到目标人物的姿态信息、目标人物的形状信息及镜头信息；其中，人体特征提取模型为基于训练样本集进行训练得到的，训练样本集包含：多个样本人物的样本图像数据，样本图像数据包括样本人物的人体图像，以及样本人物的人体图像的真值关键点信息及真值人体蒙版信息；

人体模型创建模块1105，用于将目标人物的姿态信息、目标人物的形状信息和镜头信息，输入人体三维模型SMPL，得到创建的目标人物的人体模型。

采用本发明实施例提供的装置，仅需要对目标人物部署多个光捕球，针对目标人物采集目标红外图像和目标可见光图像，利用目标红外图像获得图像光捕特征和光捕球位置特征。进而，将图像光捕特征、光捕球位置特征和目标可见光图像输入预先训练的人体特征提取模型，结合光捕技术与深度学习模型，获得目标人物的姿态信息、目标人物的形状信息及镜头信息。进一步的，将目标人物的姿态信息、目标人物的形状信息和镜头信息输入人体三维模型SMPL，实现目标人物的人体模型创建。本发明实施例提供的方法，结合光捕技术与深度学习模型便可以实现目标人物的人体模型创建。由于本发明实施例提供的方法，在创建人体模型时利用了光捕技术的高精度，使得所创建的人体模型的精度得到了提高。

进一步的，各个光捕球图像的位置信息为：各个光捕球图像的位置坐标；

位置信息确定模块1102，具体用于提取目标红外图像的像素矩阵；将像素矩阵中，像素值低于预设像素阈值的像素点的像素值确定为0，得到目标像素矩阵；确定目标像素矩阵的连通区域，每个连通区域对应一个光捕球图像；针对每个连通区域，将该连通区域中像素值最大的像素点的位置坐标，确定为该连通区域对应的光捕球图像的位置坐标。

进一步的，参见图12，特征确定模块1103，包括：

图像光捕特征确定子模1201，用于分别以每个光捕球图像的位置坐标为中心，以预设距离为半径，生成多个呈高斯分布的图像；并且，将多个呈高斯分布的图像所组成的图像作为目标热度图，将目标热度图矩阵作为图像光捕特征；

光捕球位置特征确定子模块1202，用于按照各个光捕球图像的位置坐标中，横坐标或纵坐标的值从大到小或从小到大的顺序，对各个光捕球图像的位置坐标进行排序，得到光捕球图像坐标序列；根据光捕球图像坐标序列，生成1×2n 维的第一坐标矩阵；n为光捕球的数量；将第一坐标矩阵与1×(2k-2n)维的零矩阵进行拼接，得到1×2k维的第二坐标矩阵；k为目标人物的预设部位的数量；将k个第二坐标矩阵进行拼接，得到k×2k维的第三坐标矩阵；根据目标人物的各个预设部位，以及部署于目标人物的各个光捕球，生成1×k维的光捕球部署向量；1×k维的光捕球部署向量的每个元素对应目标人物的一个预设部位，其中，光捕球部署向量的各个元素中，与预设部位中的指定部位相对应的元素的值不为0，与预设部位中的非指定部位相对应的元素的值为0；将k个光捕球部署向量进行拼接，得到k×k维的第四坐标矩阵；使用第四坐标矩阵的转置矩阵乘以第三坐标矩阵，得到目标坐标矩阵，作为光捕球位置特征。

进一步的，预先训练的人体特征提取模型，包括：第一特征拼接层、特征提取网络层、第一全连接网络层、第二特征拼接层、第二全连接网络层、第三全连接网络层、第四全连接网络层、第五全连接网络层和输出层；

信息提取模块1104，具体用于：

将光捕球位置特征、图像光捕特征和目标可见光图像输入预先训练的人体特征提取模型；

第一特征拼接层，将图像光捕特征和目标可见光图像的各个颜色通道的色值矩阵进行融合，得到融合特征，并将融合特征输入所述特征提取网络层；

特征提取网络层，基于融合特征，提取得到1×f维的图像特征矩阵；f是预设的图像特征矩阵的通道数；

第一全连接网络层，基于将光捕球位置特征，提取得到1×f维的坐标特征矩阵；

第二特征拼接层，将图像特征矩阵与坐标特征矩阵进行拼接，得到2×f维的拼接矩阵，并将2×f维的拼接矩阵输入第二全连接网络层；

第二全连接网络层，根据拼接矩阵，提取得到3×f维的编码特征矩阵，并将编码特征矩阵分别输入第三全连接网络层、第四全连接网络层和第五全连接网络层；

第三全连接网络层，根据编码特征矩阵，提取得到目标人物的1×72维的姿态向量；

第四全连接网络层，根据编码特征矩阵，提取得到目标人物的1×10维的形状向量；

第五全连接网络层，根据编码特征矩阵，提取得到1×3维的镜头向量；

输出层，将姿态向量作为目标人物的姿态信息，将形状向量作为目标人物的形状信息，以及将镜头向量作为镜头信息，输出目标人物的姿态信息、目标人物的形状信息及镜头信息。

进一步的，特征提取网络层为：残差神经网络ResNet，或Inception网络，或视觉几何群网络VGG；

第一全连接网络层包括：第一预设数量个全连接网络，并且，第一全连接网络层中的第一个全连接网络的输入特征维度为k×2k维，第一全连接网络层中的最后一个全连接网络的输出特征维度为1×f维；

第二全连接网络层包括：第二预设数量个全连接网络，并且，第二全连接网络层中的第一个全连接网络的输入特征维度为2×f维，第二全连接网络层中的最后一个全连接网络的输出特征维度为3×f维；

第三全连接网络层由一个第二类Block网络、一个第一类Block网络及第三预设数量个第二类Block网络依次连接而成；

第四全连接网络层由一个第二类Block网络、一个第一类Block网络及第四预设数量个第二类Block网络依次连接而成；

第五全连接网络层由一个第二类Block网络、一个第一类Block网络及第五预设数量个第二类Block网络依次连接而成。

进一步的，参见图12，上述人体模型创建装置，还包括：模型训练模块1203；

模型训练模块1203，用于采用如下步骤基于训练样本集训练得到人体特征提取模型：

将预测姿态信息、样本人物的预测形状信息及预测镜头信息，输入SMPL 模型，得到样本人物的预测人体模型；

计算样本图像数据的真值关键点信息与预测关键点信息的损失，得到关键点损失；以及计算样本图像数据的真值人体蒙版信息与预测人体蒙版信息的损失，得到人体蒙版损失；

基于关键点损失及人体蒙版损失，确定当前的待训练神经模型的损失函数值；

判断损失函数值是否小于预设损失函数阈值；

如果不是，调整当前的待训练神经网络模型的参数；并返回将训练样本集中的样本人物的样本图像数据，输入待训练神经网络模型的步骤。

进一步的，非红外摄像头和红外摄像头在同一个水平位置，且非红外摄像头和红外摄像头的镜头中心相距不超过预设距离阈值。

采用本发明实施例提供的装置，在创建人体模型时利用了光捕技术的高精度，结合了光捕技术和深度学习模型，较之于单纯使用非红外图像创建人体模型的技术，使得所创建的人体模型的精度得到了提高。并且，由于不需要在摄影棚内针对目标人物采集红外图像，并且，目标人物也不需要穿着特定的光捕衣服，一方面简化了对人体模型创建的处理，另一方面也扩展了人体模型创建的应用场景。

本发明实施例还提供了一种电子设备，如图13所示，包括处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301，通信接口1302，存储器1303通过通信总线1304完成相互间的通信，

存储器1303，用于存放计算机程序；

处理器1301，用于执行存储器1303上所存放的程序时，实现如下步骤：

确定所述目标红外图像包含的各个光捕球图像的位置信息；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器 (DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一人体模型创建方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一人体模型创建方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人体模型创建方法，其特征在于，包括：

确定所述目标红外图像包含的各个光捕球图像的位置信息；

2.根据权利要求1所述的方法，其特征在于，所述各个光捕球图像的位置信息为：各个光捕球图像的位置坐标；

提取所述目标红外图像的像素矩阵；

3.根据权利要求2所述的方法，其特征在于，所述基于每个光捕球图像的位置信息，确定图像光捕特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于每个光捕球图像的位置信息，确定光捕球位置特征，包括：

按照各个光捕球图像的位置坐标，对各个光捕球图像的位置坐标进行排序，得到光捕球图像坐标序列；

5.根据权利要求1所述的方法，其特征在于，所述预先训练的人体特征提取模型，包括：第一特征拼接层、特征提取网络层、第一全连接网络层、第二特征拼接层、第二全连接网络层、第三全连接网络层、第四全连接网络层、第五全连接网络层和输出层；

6.根据权利要求5所述的方法，其特征在于，所述特征提取网络层为：残差神经网络ResNet，或Inception网络，或视觉几何群网络VGG；

7.根据权利要求1所述的方法，其特征在于，采用如下步骤基于训练样本集训练得到所述人体特征提取模型：

将所述预测姿态信息、样本人物的预测形状信息及预测镜头信息，输入SMPL模型，得到样本人物的预测人体模型；

判断所述损失函数值是否小于预设损失函数阈值；

8.根据权利要求1所述的方法，其特征在于，所述非红外摄像头和所述红外摄像头在同一个水平位置，且所述非红外摄像头和所述红外摄像头的镜头中心相距不超过预设距离阈值。

9.一种人体模型创建装置，其特征在于，包括：

特征确定模块，用于基于每个光捕球图像的位置信息，确定图像光捕特征和光捕球位置特征；所述图像光捕特征，用于表征所述目标红外图像中各个非光捕球图像的像素点与各个光捕球图像的像素点之间的关系；所述光捕球位置特征，用于表征每个光捕球图像在所述目标红外图像中的位置；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。