CN112241731A

CN112241731A - 一种姿态确定方法、装置、设备及存储介质

Info

Publication number: CN112241731A
Application number: CN202011395729.5A
Authority: CN
Inventors: 鲍慊; 刘武; 梅涛; 孙宇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-01-19
Anticipated expiration: 2040-12-03
Also published as: CN112241731B

Abstract

本申请实施例公开了一种姿态确定方法、装置、设备及存储介质，其中，所述方法包括：获取包括目标对象的待处理图像；对所述待处理图像进行特征提取，得到中间特征图；采用多分支神经网络，对所述中间特征图处理，确定所述目标对象的位置信息、二维关键点和三维模型参数；基于所述位置信息、所述二维关键点和所述三维模型参数，确定所述目标对象的三维姿态。

Description

一种姿态确定方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉和图像处理领域，尤其涉及一种姿态确定方法、装置、设备及存储介质。

背景技术

随着人体三维姿态在高级人机交互、安全监控以及医疗诊断等领域的发展，采用深度学习算法对包括有人物的图像信息进行识别，以得到人体三维姿态已成为热门课题。相对技术中，采用基于自下向上的深度学习算法对图像信息中的人物进行人体三维姿态识别时，通常需依赖人体骨架关键点作为中间结果，以得到人体的三维模型参数，进而基于人体的三维模型参数来最终确定人体三维姿态。这样会使得识别人体三维姿态的准确度，容易受到对人体骨架关键点的分析能力的影响。

发明内容

为解决上述技术问题，本申请实施例期望提供一种姿态确定方法、装置、设备及存储介质，实现了直接基于包括有人物的图像信息得到人体的三维模型参数等信息，进而得到人体的三维姿态，同时提高了识别人体三维姿态的准确性。

为达到上述目的，本申请的技术方案是这样实现的：

本申请实施例提供一种姿态确定方法，所述方法包括：

获取包括目标对象的待处理图像；

对所述待处理图像进行特征提取，得到中间特征图；

采用多分支神经网络，对所述中间特征图处理，确定所述目标对象的位置信息、二维关键点和三维模型参数；

基于所述位置信息、所述二维关键点和所述三维模型参数，确定所述目标对象的三维姿态。

本申请实施例提供一种姿态确定装置，所述确定装置包括：获取模块、处理模块和确定模块，其中：

所述获取模块，用于获取包括目标对象的待处理图像；

所述处理模块，用于对所述待处理图像进行特征提取，得到中间特征图；

所述处理模块，还用于采用多分支神经网络，对所述中间特征图处理，确定所述目标对象的位置信息、二维关键点和三维模型参数；

所述确定模块，用于基于所述位置信息、所述二维关键点和所述三维模型参数，确定所述目标对象的三维姿态。

本申请实施例提供一种姿态确定设备，所述确定设备包括：处理器、存储器和通信总线；

所述通信总线用于实现所述处理器和所述存储器之间的通信连接；

所述处理器用于执行所述存储器中的程序，以实现上述任一所述的姿态确定方法。

对应地，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一所述的姿态确定方法的步骤。

本申请实施例所提供的姿态确定方法、装置、设备及存储介质，获取包括目标对象的待处理图像；对待处理图像进行特征提取，得到中间特征图；采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数；如此，可直接获取待处理图像中目标对象的位置信息、二维关键点和三维模型参数；基于位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态；同时直接通过得到目标对象的位置信息、二维关键点和三维模型参数，确定出目标对象的三维姿态，实现了直接基于包括有人物的图像信息得到人体的三维模型参数等信息，进而得到人体的三维姿态，同时提高了识别人体三维姿态的准确性。

附图说明

图1为本申请实施例提供的一种姿态确定方法的流程示意图；

图2为本申请实施例提供的另一种姿态确定方法的流程示意图；

图3为本申请实施例提供的又一种姿态确定方法的流程示意图；

图4为本申请实施例提供的一种确定多人三维姿态的流程框架图；

图5为本申请实施例提供的一种待测对象的中心位置与三维参数模型对应的示意图；

图6为本申请实施例提供的一种姿态确定装置的结构示意图；

图7为本申请实施例提供的一种姿态确定设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

应理解，说明书通篇中提到的“本申请实施例”或“前述实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“本申请实施例中”或“在前述实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中应。在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请。

相对技术中，包括有多人场景的图像中每个人的人体三维形状和姿态信息的获取方法主要有两类：第一类方法是自上向下的方法，即首先通过人体检测方法获得图像中每个人的检测框，再基于每个检测框里估计每个人的三维形状与姿态；第二类方法是通过自下向上的方法，即首先获得人体骨架三维关键点的中间结果，然后基于这些中间结果恢复三维形状信息。

其中，包括多人场景图像中人与人之间的交互和遮挡是限制人体三维形状和姿态估计准确度的主要因素，进而上述的两类方法存在以下问题：第一类方法依赖于人体检测算法的准确性，检测结果受限于遮挡和拥挤等复杂情况，此外，对于互相遮挡的多人，二维的检测框会造成深度模糊，从而影响三维重建的准确性；第二类方法依赖于三维人体骨架关键点作为中间结果，相比于直接从图像中恢复人体的三维形状参数，这类方法更复杂，并且中间结果的偏差也会给最终结果带来误差累积。

基于以上问题，本申请实施例提供一种姿态确定方法，应用于姿态确定设备，参照图1所示，该方法包括以下步骤：

步骤101、获取包括目标对象的待处理图像。

在本申请实施例中，姿态确定设备可以是任一具有数据处理能力的电子设备。

其中，目标对象为待检测物，可以是不限数量的待测人物；同时，包括目标对象的待处理图像中目标对象所处的场景可以是在校园内的考试场景中，也可以工作场景中，还可以是在家庭生活场景中，在本申请中对待处理图像中所呈现的场景信息不作任何限定。

在一种可行的实现方式中，包括目标对象的待处理图像中目标对象为两个及以上的待测人物时，两个及以上的待测人物在待处理图像中的位置可以不同，也可以部分相同，即两个及以上的待测人物之间的位置关系可以是交互或遮挡，本申请对此不作任何限定；同时，两个及以上的待测人物可以是站立、半蹲或坐着，更可以是在运动中，本申请对此也不作任何限定。

需要说明的是，待处理图像可以是基于姿态确定设备的图像采集装置如摄像模块获取的，也可以是姿态确定设备从任一视频信息中通过截屏等方式得到视频截图，即本申请对待处理图像的来源不作任何限定。

其中，包括目标对象的待处理图像可以是红绿蓝色彩模式（Red Green Bluecolor mode，RGB）图像，也可以是印刷四色模式（Cyan Magenta Yellow Black colormode，CMYK）图像，本申请对此不作任何限定。

步骤102、对待处理图像进行特征提取，得到中间特征图。

在本申请实施例中，姿态确定设备对待处理图像进行特征提取即将待处理图像上的点分为不同的子集，同时这些子集一般属于孤立的点、连续的曲线或连续的区域。

其中，姿态确定设备对待处理图像进行特征提取可以是提取待处理图像中的颜色特征、纹理特征、形状特征以及空间关系特征，姿态确定设备进而基于提取的相关特征得到中间特征图；同时中间特征图可以是一张图，也可以是具有两个及以上的图集，本申请对此不作任何限定。

需要说明的是，颜色特征是一种全局特征，描述了待处理图像或待处理图像区域所对应的景物的表面性质；纹理特征也是一种全局特征，描述了待处理图像或待处理图像区域所对应景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，待处理图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域；空间关系特征是指待处理图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接或邻接关系、交叠或重叠关系，以及包含或包容关系等。

步骤103、采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数。

其中，多分支神经网络可以是多分支卷积神经网络（Convolutional NeuralNetworks，CNN），其中，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

在本申请实施例中，姿态确定设备采用多分支神经网络对中间特征图进行处理，得到目标对象的以下信息：位置信息、二维关键点和三维模型参数；其中，位置信息包括但不限于目标对象的中心位置参数以及目标对象在待处理图像中的相对位置信息；同时，目标对象的中心位置参数可以是目标对象的中心在待处理图像中所处的位置信息。

在一种可行的实现方式中，目标对象为处于办公场景中的一个人时，目标对象的位置信息可以是人体的中心位置，以及人在待处理图像所呈现的办公场景中与办公桌等之间的相对位置信息；二维关键点可以是人的以下关键点：头、颈、肩、肘、手、臀、膝、脚等部位；三维模型参数可以是人体三维模型统计参数即具有骨骼蒙皮的多人线性（SkinnedMulti-Person Linear，SMPL）模型参数。

在另一种可行的实现方式中，目标对象为处于公园场景中的至少两个人时，目标对象的位置信息可以是每个人的中心位置，以及每两个人在待处理图像所呈现的公园场景中的相对位置信息：交互、遮挡等，还可以每个人与公园场景中的树木之间的相对位置信息，本申请对此不作任何限定；二维关键点可以是每个人各自的头、颈、肩、肘、手、臀、膝、脚等部分信息；三维模型参数可以是每个人的SMPL模型参数。

在一种可行的实现方式中，目标对象的位置信息、二维关键点和三维模型参数可以是图形的形式进行展现，具体地可以是以二维高斯分布热力（Gaussian Heatmap，GH）图进行展现。

在一种可行的实现方式中，姿态确定设备将中间特征图输入至多分支神经网络的多个分支网络中，基于每一分支网络同时得到目标对象的位置信息、二维关键点和三维模型参数，这样使得姿态确定设备可直接基于中间特征图获取除目标对象的二维关键点以外的位置信息以及三位模型参数，进而省去了需依赖目标对象的二维关键点来获取位置信息以及三位模型参数的步骤，简化了实现方案。

需要说明的是，多分支神经网络中每一分支网络均可以包含：残差网络（ResidualNetwork，ResNet）模块和一个Softmax层；其中，ResNet是一种CNN特征提取网络；Softmax是用于分类过程以实现多分类的，其可以将一些输出的神经元映射到（0-1）之间的实数，并且归一化保证和为1，进而使得多分类的概率之和也刚好为1，本申请对多分支神经网络中每一分支网络的具体内容不作任何限定。

步骤104、基于位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态。

在本申请实施例中，姿态确定设备基于目标对象的位置信息、二维关键点和三维模型参数，来确定目标对象的三维姿态；其中，三维姿态包括目标对象的三维形状和姿态信息；在一种可行的实现方式中，目标对象包括多个待测对象时，姿态确定设备基于每一待测对象的位置信息、二维关键点和三维模型参数，同时确定每一待测对象的三维姿态。

在一种可行的实现方式中，姿态确定设备首先通过目标对象的位置信息和三维模型参数生成具有二维坐标系的参数图；其中，该参数图基于目标对象在待处理图像中的位置信息对应地呈现出目标对象的三维模型参数，同时姿态确定设备基于目标对象的二维关键点和位置信息确定出目标对象的中心点在二维坐标系中的位置信息，再基于目标对象的中心点在二维坐标系中的位置信息和可呈现目标对象三维模型参数的参数图进行匹配，确定目标对象的三维姿态。

本申请实施例所提供姿态确定方法，获取包括目标对象的待处理图像；对待处理图像进行特征提取，得到中间特征图；采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数；如此可直接获取待处理图像中目标对象的位置信息、二维关键点和三维模型参数；基于位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态；同时直接通过得到目标对象的位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态，实现了直接基于包括有人物的图像信息得到人体的三维模型参数等信息，进而得到人体的三维姿态，同时提高了识别人体三维姿态的准确性。

基于前述实施例，本申请实施例提供一种姿态确定方法，应用于姿态确定设备，参照图1和图2所示的步骤进行以下说明：

步骤201、对待处理图像进行预处理，得到基础图像。

在本申请实施例中，姿态确定设备对包括目标对象的待处理图像进行预处理，得到基础图像。

需要说明的是，姿态确定设备对待处理图像进行预处理可以包括但不限于针对待处理图像进行采集、分割提取、图像的二值化、图像去噪等，本申请对此不作任何限定，进而使得姿态确定设备得到基础图像。

步骤202、对基础图像进行特征提取，得到中间特征图。

其中，姿态确定设备可以采用高分辨率网络（High-Resolution Net，HRNet）模型对基础图像进行特征提取，得到中间特征图；其中，HRNet模型的主要特征是在整个过程中中间特征图始终保持高分辨率，进而HRNet模型是通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络，不同网络实现多尺度融合与特征提取。

在一种可行的实现方式中，姿态确定设备还可以基于多阶段姿态估计网络（Multi-Stage Pose estimation Network，MSPN）模型对基础图像进行特征提取，得到中间特征图。

需要说明的是，姿态确定设备基于何种模型或算法对基础图像进行特征提取，以得到中间特征图，在本申请中不作任何限定。

在本申请实施例中，在目标对象包括至少两个待测对象的前提下，姿态确定设备在采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数之前，还可以执行以下步骤203至步骤204：

步骤203、建立至少两个待测对象所在二维空间的二维坐标系。

其中，目标对象为人时，在目标对象包括至少两个待测对象的前提下，即待处理图像中包括至少两个人。

在本申请实施例中，姿态确定设备建立目标对象即至少两个待测对象所在二维空间的二维坐标系；其中，二维坐标系可以通过平面直角坐标、自然坐标或极坐标等来表示，本申请对此不作任何限定。

步骤204、在二维坐标系中，确定每一待测对象的二维坐标，以得到二维坐标图。

在本申请实施例中，姿态确定设备在二维坐标系中，确定出每一待测对象的二维坐标，并基于每一待测对象的二维坐标，生成可以涵盖每一待测对象的二维坐标的二维坐标图。

需要说明的是，每一待测对象即每个人在待处理图像的位置信息对应各自的二维坐标；其中，人与人之间的位置关系可以是交互、遮挡、相邻或远离等各种情况；换而言之，每个人的二维坐标可以完全不同，也可能部分相同，其中，部分相同时可以是横坐标相同，也可以是纵坐标相同也可以完全不同。

相应地，姿态确定设备在采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数时，还可以通过执行以下步骤205至步骤208的方式来实现：

步骤205、对二维坐标图和中间特征图进行合成，生成预处理特征图。

在本申请实施例中，姿态确定设备将中间特征图与二维坐标图进行合成，生成空间信息增强的预处理特征图。

需要说明的是，姿态确定设备基于中间特征图中每一像素点在二维坐标系的第一坐标信息，与二维坐标图提供的第二坐标信息一一对应进行合成，生成预处理特征图；其中，对于中间特征图和二维坐标图进行合成的具体实施方式在本申请中不作任何限定。

步骤206、采用多分支神经网络的第一分支网络，在二维坐标系中，确定每一待测对象的二维关键点。

在本申请实施例中，姿态确定设备采用多分支神经网络的第一分支网络，对预处理特征图进行图像识别处理，以得到每一待测对象的二维关键点信息；其中，每一待测对象的二维关键点之间的具体对应关系可以基于二维坐标系得出。

需要说明的是，待测对象为人时，人与人的二维关键点在二维坐标系中的位置可能存在重合部分，即第一人的二维关键点：膝在二维坐标系中所处的第一位置，与第二人的二维关键点：脚在二维坐标系中所处的第二位置相同，同时，第一人的除膝以外的二维关键点与第二人除脚以外的二维关键点可以部分重合或完全不同，本申请对此不作任何限定。

步骤207、采用多分支神经网络的第二分支网络，在二维坐标系中，确定每一待测对象的位置信息。

在本申请实施例中，姿态确定设备采用多分支神经网络的第二分支网络，对预处理特征图进行图像识别处理，以得到每一待测对象的位置信息；其中，每一待测对象的位置信息可以是基于二维坐标系中确定的。

其中，待测对象为人时，每个人的位置关系包括但不限于：每个人的中心在待处理图像中的位置信息，以及每两个人之间的相对位置关系。

需要说明的是，每个人的位置关系还可以包括每个人与待处理图像中固定的某物体之间的相对位置关系。

步骤208、采用多分支神经网络的第三分支网络，在二维坐标系中，确定每一待测对象的三维模型参数。

在本申请实施例中，姿态确定设备采用多分支神经网络的第三分支网络，对预处理特征图进行图像识别处理，以得到在二维坐标系中每一待测对象的三维模型参数。

其中，待测对象为人时，每个人的三维模型参数可以每个人的SMPL模型参数；其中，每个人的SMPL模型参数体现出的每个人姿态信息，即可以呈现出每个人的高矮胖瘦、头身比例以及每个人的整体姿态信息。

需要说明的是，直接采用多分支神经网络的第一分支网络、第二分支网络以及第三分支网络，使得姿态确定设备可以端对端地、且直接基于待处理图像来获取每一待测对象的二维关键点以外的位置信息和三维模型参数，进而省去了需依赖目标对象的二维关键点来获取位置信息以及三位模型参数的步骤，简化了实现方案。

需要说明的是，多分支神经网络的第一分支网络、第二分支网络以及第三分支网络都有其各自对应的特征处理模块；其中，每一分支网络对应的各自的特征处理模块均可包括多个卷积层，本申请对此不作任何限定。

本申请实施例所提供的姿态确定方法，直接通过多分支神经网络对中间特征图处理得到的目标对象的位置信息、二维关键点和三维模型参数，确定出目标对象的三维姿态，实现了直接基于包括有人物的图像信息得到人体的三维模型参数等信息，进而得到人体的三维姿态，同时提高了识别人体三维姿态的准确性。

基于前述实施例，本申请实施例提供一种姿态确定方法，应用于姿态确定设备，参照图1至2以及图3所示的步骤进行以下说明：

步骤301、基于每一待测对象的位置信息，确定每一待测对象的中心位置参数和至少两个待测对象之间的相对位置信息。

在本申请实施例中，待测对象为人时，姿态确定设备对每一待测对象的位置信息进行解析，以确定出在二维坐标系中每个人的中心位置参数，以及每两个人之间的相对位置信息；其中每个人的中心位置参数即每个人的人体中心在二维坐标系中所处的位置。

需要说明的是，人体中心位置参数可以是人体全部环节即整个人体所受重力的合力的作用点，即人体重心或人体中心。

步骤302、基于每一待测对象的三维模型参数和相对位置信息，生成在二维坐标系中的参数图。

在本申请实施例中，姿态确定设备将每一待测对象的三维模型参数和每两个待测对象之间的相对位置信息进行融合处理，生成可呈现二维坐标系、每一待测对象的三维模型参数的参数图。

需要说明的是，参数图中每一待测对象的三维模型参数与待处理图像中每一待测对象所呈现的形态与姿态一一对应；同时，参数图中还可以包括待处理图像中除待测对象以外的背景信息。

步骤303、基于每一待测对象二维关键点和对应的中心位置参数，在参数图中确定出每一待测对象的三维姿态。

在本申请实施例中，姿态确定设备执行步骤303时还可以通过以下步骤303a至步骤303c的方式来实现：

步骤303a、基于每一待测对象的二维关键点，对每一待测对象进行标记，得到每一待测对象的标记结果。

在本申请实施例中，姿态确定设备可以基于每一待测对象的二维关键点，确定出每一待测对象的人体骨架所呈现的姿态，并基于每一待测对象的二维关键点生成的信息，对每一待测对象进行标记，以得到每一待测对象的标记结果；其中，姿态确定设备可以通过数字对每一待测对象进行标记，还可以通过字母对每一待测对象进行标记，本申请对此不作任何限定。

其中，姿态确定设备可以基于每一待测对象在待处理图像中的位置信息对每一待测对象进行标记，还可以基于每一待测对象的属性信息对每一待测对象进行标记，本申请对此不作任何限定。

需要说明的是，每一待测对象的二维关键点可以基于二维坐标系中形成人体关键点图；同时人体关键点图可以用HG图进行显示，其中，在人体关键点图姿态确定设备可以基于每个人的二维关键点构架每个人的骨架信息。

步骤303b、基于每一待测对象的标记结果和对应的中心位置参数，在二维坐标系中，确定每一待测对象的中心点。

在本申请实施例中，姿态确定设备基于每一待测对象的标记结果和每一待测对象的中心位置参数，在二维坐标系中，确定出每一待测对象的中心点；其中每一待测对象的中心点可以基于二维坐标系生成中心位置图。

需要说明的是，中心位置图中每一待测对象的中心点在待处理图像中的像素满足一定阈值，且该像素属于待处理图像中的局部最大值。

步骤303c、基于每一待测对象的中心点，在参数图中确定出每一待测对象的三维姿态。

在本申请实施例中，姿态确定设备在执行步骤303c时还可以通过执行以下步骤c1至步骤c2的方式来实现：

步骤c1、基于每一待测对象的中心点，在参数图中确定出与每一待测对象的中心点对应的每一目标三维模型。

其中，姿态确定设备基于每一待测对象在二维坐标系中的中心点，在参数图中对应的二维坐标系中确定出对应的每一目标三维模型；其中，目标三维模型可以是SMPL模型参数。

步骤c2、基于每一目标三维模型，确定每一待测对象的三维姿态。

在本申请实施例中，姿态确定设备基于每一目标三维模型，给出每一待测对象的三维重建信息，即每一待测对象的人体三维形态与姿态信息。

在本申请的其他实施例中，姿态确定设备在采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数之前，姿态确定设备还对其中的多分支神经网络进行训练，其中，该多分支神经网络的训练过程可以通过以下步骤A1至步骤A5来实现：

步骤A1、获取包括已标注目标对象的样本图像。

其中，姿态确定设备对样本图像中目标对象按照预设规则进行标注，其中，预设规则可以是基于目标对象的相对位置关系生成的，也可以是基于目标对象的属性信息生成的，本申请对此不作任何限定。

步骤A2、将样本图像输入待训练神经网络，采用待训练神经网络的第一分支网络，确定已标注目标对象的预测二维关键点。

步骤A3、将预测二维关键点输入待训练神经网络的第二分支网络，以确定已标注目标对象的预测位置信息。

其中，姿态确定设备基于待训练神经网络的第一分支网络得到的预测二维关键点作为中间监督信息来提高待训练神经网络的第二分支网络的表征学习能力。

步骤A4、将预测二维关键点输入待训练神经网络的第三分支网络，以确定已标注目标对象的预测三维模型参数。

其中，姿态确定设备基于待训练神经网络的第一分支网络得到的预测二维关键点作为中间监督信息来提高待训练神经网络的第三分支网络的表征学习能力。

步骤A5、基于预测二维关键点的第一损失、预测位置信息的第二损失、和预测三维模型参数的第三损失，对待训练神经网络的网络参数进行调整，以使调整后的多分支神经网络输出的第一损失、第二损失和第三损失满足预设收敛条件。

在一种可行的实现方式中，姿态确定设备可以通过损失函数来监督获取的预测位置信息，其中，损失函数可以是但不限于：平方损失（Quadratic Loss）函数、绝对值损失（Absolute Loss）函数、交叉熵损失（Cross Entropy Loss）函数以及中心损失（FocalLoss）函数等；其中，Focal Loss函数是在交叉熵损失函数的基础上，增加一个调节因子降低易分类样本权重，其聚焦于困难样本训练。

在一种可行的实现方式中，姿态确定设备通过Focal Loss函数来监督获取的预测位置信息，即通过Focal Loss函数作为预测位置信息的第二损失；其中，Focal Loss函数可以有效地平衡正负样本不均匀的问题；其中，姿态确定设备基于样本图像中预测位置信息参数和样本图像中的人体中心位置参数，通过对数函数计算得到样本图像中正样本的损失概率和样本图像中负样本的损失概率；并通过样本图像中正样本的损失概率、负样本的损失概率、样本图像中的人体中心位置参数及对应的权重系数计算得到损失函数；同时需要说明的是，样本图像中的人体中心位置参数的数值为0或1。

同时，姿态确定设备可以通过均方误差损失（Mean Squared Error Loss）函数来监督获取的三维模型参数，即通过均方误差损失函数作为预测三维模型参数的第三损失。

基于上述实施例，本申请给出了一种确定多人三维姿态的流程框架图；可以应用本申请实施例提供的姿态确定方法中，如图4所示，401给出了包括至少两个待测对象的待处理图像，姿态确定设备对401中的待处理图像进行特征以及对应的二维坐标系处理，提取得到402、预处理特征图；姿态确定设备将402中的预处理特征图输入至403中多分支神经网络的第一分支网络、第二分支网络以及第三分支网络；得到如404所示的每一待测对象的以下信息：二维关键点、位置参数即中心位置参数和相对位置信息、三维模型参数；最后姿态确定设备基于得到二维关键点、中心位置参数、相对位置信息以及三维模型参数来得到如405所示的每一待测对象的三维姿态。

同时，本申请给出了一种待测对象的中心位置与三维参数模型对应的示意图；如图5所示，姿态确定设备对包括有至少两个待测对象的待处理图像进行处理后，得到如501中的可显示每一待测对象的中心位置示意图，以及如502中的可呈现二维坐标系和人体的三维参数模型的参数示意图；同时，501和502之间是共用一个二维坐标系，即从501中可以选定某一特定待测对象的中心位置，进而可以在502中确定出该特定待测对象的三维模型参数，如图5中的箭头所示；且通过二维高斯热力图来展示图5中的501，其中，511至521为501中每一待测对象的中心位置。

基于前述实施例，本申请实施例还提供一种姿态确定装置6，该姿态确定装置6可以应用于图1至3对应的实施例提供的一种姿态确定方法中，参照图6所示，该姿态确定装置6可以包括：获取模块61、处理模块62和确定模块63，其中：

获取模块61，用于获取包括目标对象的待处理图像；

处理模块62，用于对待处理图像进行特征提取，得到中间特征图；

处理模块62，还用于采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数；

确定模块63，用于基于位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态。

在本申请其他实施例中，处理模块62还用于对多分支神经网络进行训练，换而言之，处理模块62，还用于获取包括已标注目标对象的样本图像；

将样本图像输入待训练神经网络，采用待训练神经网络的第一分支网络，确定已标注目标对象的预测二维关键点；

将预测二维关键点输入待训练神经网络的第二分支网络，以确定已标注目标对象的预测位置信息；

将预测二维关键点输入待训练神经网络的第三分支网络，以确定已标注目标对象的预测三维模型参数；

基于预测二维关键点的第一损失、预测位置信息的第二损失、和预测三维模型参数的第三损失，对待训练神经网络的网络参数进行调整，以使调整后的多分支神经网络输出的第一损失、第二损失和第三损失满足预设收敛条件。

在本申请其他实施例中，处理模块62，还用于对待处理图像进行预处理，得到基础图像；

对基础图像进行特征提取，得到中间特征图。

在本申请其他实施例中，确定模块63，还用于建立至少两个待测对象所在二维空间的二维坐标系；

在二维坐标系中，确定每一待测对象的二维坐标，以得到二维坐标图；

相应地，确定模块63，还用于对二维坐标图和中间特征图进行合成，生成预处理特征图；

采用多分支神经网络的第一分支网络，在二维坐标系中，确定每一待测对象的二维关键点；

采用多分支神经网络的第二分支网络，在二维坐标系中，确定每一待测对象的位置信息；

采用多分支神经网络的第三分支网络，在二维坐标系中，确定每一待测对象的三维模型参数。

在本申请其他实施例中，确定模块63，还用于基于每一待测对象的位置信息，确定每一待测对象的中心位置参数和至少两个待测对象之间的相对位置信息；

基于每一待测对象的三维模型参数和相对位置信息，生成在二维坐标系中的参数图；

基于每一待测对象二维关键点和对应的中心位置参数，在参数图中确定出每一待测对象的三维姿态。

在本申请其他实施例中，确定模块63，还用于基于每一待测对象的二维关键点，对每一待测对象进行标记，得到每一待测对象的标记结果；

基于每一待测对象的标记结果和对应的中心位置参数，在二维坐标系中，确定每一待测对象的中心点；

基于每一待测对象的中心点，在参数图中确定出每一待测对象的三维姿态。

在本申请其他实施例中，确定模块63，还用于基于每一待测对象的中心点，在参数图中确定出与每一待测对象的中心点对应的每一目标三维模型；

基于每一目标三维模型，确定每一待测对象的三维姿态。

需要说明的是，本实施例中各个模块所执行的步骤的具体实现过程，可以参照图1至3对应的实施例提供的姿态确定方法中的实现过程，此处不再赘述。

本申请实施例所提供的姿态确定装置，直接通过多分支神经网络对中间特征图处理得到的目标对象的位置信息、二维关键点和三维模型参数，确定出目标对象的三维姿态，实现了直接基于包括有人物的图像信息得到人体的三维模型参数等信息，进而得到人体的三维姿态，同时提高了识别人体三维姿态的准确性。

基于前述实施例，本申请实施例还提供一种姿态确定设备7，该姿态确定设备7可以应用于图1至3对应的实施例提供的一种姿态确定方法中，参照图7所示，该姿态确定设备7可以包括：处理器71、存储器72和通信总线73，其中：

通信总线73用于实现处理器71和存储器72之间的通信连接。

处理器71用于执行存储器72中存储的姿态确定方法的程序，以实现以下步骤：

获取包括目标对象的待处理图像；

对待处理图像进行特征提取，得到中间特征图；

采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数；

基于位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态。

在本申请其他实施例中，处理器71用于执行存储器72中存储的多分支神经网络的训练过程，还可以实现以下步骤：

获取包括已标注目标对象的样本图像；

在本申请其他实施例中，处理器71用于执行存储器72中存储的对待处理图像进行特征提取，得到中间特征图，还可以实现以下步骤：

对待处理图像进行预处理，得到基础图像；

对基础图像进行特征提取，得到中间特征图。

在本申请其他实施例中，处理器71用于执行存储器72中存储的目标对象包括至少两个待测对象，采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数之前，还可以实现以下步骤：

建立至少两个待测对象所在二维空间的二维坐标系；

相应地，采用多分支神经网络，对中间特征图处理，确定目标对象的位置信息、二维关键点和三维模型参数，包括：

对二维坐标图和中间特征图进行合成，生成预处理特征图；

在本申请其他实施例中，处理器71用于执行存储器72中存储的基于位置信息、二维关键点和三维模型参数，确定目标对象的三维姿态，还可以实现以下步骤：

基于每一待测对象的位置信息，确定每一待测对象的中心位置参数和至少两个待测对象之间的相对位置信息；

在本申请其他实施例中，处理器71用于执行存储器72中存储的基于每一待测对象二维关键点和对应的中心位置参数，在参数图中确定出每一待测对象的三维姿态，还可以实现以下步骤：

基于每一待测对象的二维关键点，对每一待测对象进行标记，得到每一待测对象的标记结果；

在本申请其他实施例中，处理器71用于执行存储器72中存储的基于每一待测对象的中心区域，从参数图中确定出每一待测对象的三维姿态，还可以实现以下步骤：

基于每一待测对象的中心点，在参数图中确定出与每一待测对象的中心点对应的每一目标三维模型；

基于每一目标三维模型，确定每一待测对象的三维姿态。

需要说明的是，本实施例中处理器所执行的步骤的具体实现过程，可以参照图1至3对应的实施例提供的姿态确定方法中的实现过程，此处不再赘述。

本申请实施例所提供的姿态确定设备，直接通过多分支神经网络对中间特征图处理得到的目标对象的位置信息、二维关键点和三维模型参数，确定出目标对象的三维姿态，实现了直接基于包括有人物的图像信息来得到人体的三维模型参数等信息，进而得到人体的三维姿态，同时提高了识别人体三维姿态的准确性。

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如图1至3对应的实施例提供的姿态确定方法的步骤。

需要说明的是，上述计算机可读存储介质可以是只读存储器（Read OnlyMemory，ROM）、可编程只读存储器（Programmable Read-Only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，EPROM）、电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，EEPROM）、磁性随机存取存储器（Ferromagnetic Random Access Memory，FRAM）、快闪存储器（Flash Memory）、磁表面存储器、光盘、或只读光盘（Compact Disc Read-Only Memory，CD-ROM）等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所描述的方法。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种姿态确定方法，其特征在于，所述方法包括：

获取包括目标对象的待处理图像；

对所述待处理图像进行特征提取，得到中间特征图；

2.根据权利要求1所述的方法，其特征在于，所述多分支神经网络的训练过程，包括：

获取包括已标注目标对象的样本图像；

将所述样本图像输入待训练神经网络，采用所述待训练神经网络的第一分支网络，确定所述已标注目标对象的预测二维关键点；

将所述预测二维关键点输入所述待训练神经网络的第二分支网络，以确定所述已标注目标对象的预测位置信息；

将所述预测二维关键点输入所述待训练神经网络的第三分支网络，以确定所述已标注目标对象的预测三维模型参数；

基于所述预测二维关键点的第一损失、所述预测位置信息的第二损失、和所述预测三维模型参数的第三损失，对所述待训练神经网络的网络参数进行调整，以使调整后的所述多分支神经网络输出的第一损失、第二损失和第三损失满足预设收敛条件。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行特征提取，得到中间特征图，包括：

对所述待处理图像进行预处理，得到基础图像；

对所述基础图像进行特征提取，得到所述中间特征图。

4.根据权利要求1所述的方法，其特征在于，所述目标对象包括至少两个待测对象，所述采用多分支神经网络，对所述中间特征图处理，确定所述目标对象的位置信息、二维关键点和三维模型参数之前，所述方法还包括：

建立所述至少两个待测对象所在二维空间的二维坐标系；

在所述二维坐标系中，确定每一所述待测对象的二维坐标，以得到二维坐标图；

相应地，所述采用多分支神经网络，对所述中间特征图处理，确定所述目标对象的位置信息、二维关键点和三维模型参数，包括：

对所述二维坐标图和所述中间特征图进行合成，生成预处理特征图；

采用所述多分支神经网络的第一分支网络，在所述二维坐标系中，确定每一所述待测对象的所述二维关键点；

采用所述多分支神经网络的第二分支网络，在所述二维坐标系中，确定每一所述待测对象的所述位置信息；

采用所述多分支神经网络的第三分支网络，在所述二维坐标系中，确定每一所述待测对象的所述三维模型参数。

5.根据权利要求4所述的方法，其特征在于，所述基于所述位置信息、所述二维关键点和所述三维模型参数，确定所述目标对象的三维姿态，包括：

基于每一所述待测对象的位置信息，确定每一所述待测对象的中心位置参数和所述至少两个待测对象之间的相对位置信息；

基于每一所述待测对象的三维模型参数和所述相对位置信息，生成在所述二维坐标系中的参数图；

基于每一所述待测对象二维关键点和对应的中心位置参数，在所述参数图中确定出每一所述待测对象的三维姿态。

6.根据权利要求5所述的方法，其特征在于，所述基于每一所述待测对象二维关键点和对应的中心位置参数，在所述参数图中确定出每一所述待测对象的三维姿态，包括：

基于每一所述待测对象的二维关键点，对每一所述待测对象进行标记，得到每一所述待测对象的标记结果；

基于每一所述待测对象的标记结果和对应的中心位置参数，在所述二维坐标系中，确定每一所述待测对象的中心点；

基于每一所述待测对象的中心点，在所述参数图中确定出每一所述待测对象的三维姿态。

7.根据权利要求6所述的方法，其特征在于，所述基于每一所述待测对象的中心区域，从所述参数图中确定出每一所述待测对象的三维姿态，包括：

基于每一所述待测对象的中心点，在所述参数图中确定出与每一所述待测对象的中心点对应的每一目标三维模型；

基于所述每一目标三维模型，确定每一所述待测对象的三维姿态。

8.一种姿态确定装置，其特征在于，所述姿态确定装置包括：获取模块、处理模块和确定模块，其中：

所述获取模块，用于获取包括目标对象的待处理图像；

9.一种姿态确定设备，其特征在于，所述姿态确定设备包括：处理器、存储器和通信总线；

所述处理器用于执行所述存储器中的程序，以实现如权利要求1至7任一所述的姿态确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的姿态确定方法的步骤。