CN113807150A

CN113807150A - 数据处理、姿态预测方法、设备及存储介质

Info

Publication number: CN113807150A
Application number: CN202010549593.2A
Authority: CN
Inventors: 王建国; 汪彪; 李海洋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-12-17

Abstract

本申请实施例提供一种数据处理、姿态预测方法、设备及存储介质。在数据处理方法中，基于自动标注的样本图像训练姿态预测模型的过程中，可根据姿态预测模型输出的姿态预测结果，预测样本图像上标注的姿态的标注误差。基于样本图像上标注的姿态和计算得到的标注误差，可对姿态预测模型进行继续训练，直至标注误差造成的损失收敛到指定值。基于这种实施方式，可对监督信号的误差进行补偿，降低样本图像上的标注误差对姿态预测模型的训练过程的影响，进而，训练得到的性能较高的姿态预测模型，提升姿态预测模型的预测准确率。

Description

数据处理、姿态预测方法、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种数据处理、姿态预测方法、设备及存储介质。

背景技术

在面部识别相关的应用中，头部姿态判断是一个十分重要的环节。头部姿态较优时拍摄到的面部图像通常包含较为丰富的面部特征，有利于进行面部识别或面部分析操作。

现有技术提供了一种基于机器学习的头部姿态预测方法，在这种方法中，需要对训练采用的样本图像上的头部姿态进行标注。但是，现有的自动标注方法具有较低的标注准确率，不利于训练得到预测精度较高的算法模型。因此，有待提出一种新的解决方案。

发明内容

本申请的多个方面提供一种数据处理、姿态预测方法、设备及存储介质，用以降低标注误差对模型训练过程的影响，训练得到性能较高的算法模型。

本申请实施例提供一种姿态预测方法，包括：响应来自客户端对第一接口的调用请求，确定所述第一接口对应的模型训练服务资源，其中，所述模型训练服务资源包括样本图像；对所述样本图像进行标注，得到第一标注结果；将标注后的样本图像输入神经网络模型，获得所述神经网络的输出结果；根据所述输出结果进行误差拟合，以计算所述第一标注结果的标注误差；根据所述第一标注结果和所述标注误差，对所述神经网络模型进行优化，得到结果模型；向所述客户端返回结果模型。

本申请实施例提供一种姿态预测方法，包括：获取包含第一对象的待处理图像；将所述待处理图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；其中，所述姿态预测模型，根据自动标注的样本图像和预测得到的所述样本图像的标注误差训练得到。

本申请实施例还提供一种数据处理方法，包括：在样本图像上标注第一对象的第一姿态；将所述样本图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；根据所述姿态预测结果进行误差拟合，以估算所述第一姿态的标注误差；根据所述第一姿态和所述标注误差，对所述姿态预测模型进行优化。

本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器用于存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令以用于：执行本申请实施例提供的姿态预测方法或者数据处理方法。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时能够实现本申请实施例提供的姿态预测方法或者数据处理方法。

本申请实施例中，基于自动标注的样本图像训练姿态预测模型的过程中，可根据姿态预测模型输出的姿态预测结果，预测样本图像上标注的姿态的标注误差。基于样本图像上标注的姿态和计算得到的标注误差，可对姿态预测模型进行继续训练，直至标注误差造成的损失收敛到指定值。基于这种实施方式，可对监督信号的误差进行补偿，降低样本图像上的标注误差对姿态预测模型的训练过程的影响，进而，训练得到的性能较高的姿态预测模型，提升姿态预测模型的预测准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的数据处理方法的流程示意图；

图2a为本申请另一示例性实施例提供的数据处理方法的流程示意图；

图2b为本申请一示例性实施例提供的自动标注样本图像的示意图；

图2c为本申请一示例性实施例提供的三个空间维度的姿态角的示意图；

图2d为本申请一示例性实施例提供的训练姿态预测模型的示意图；

图2e为本申请一示例性实施例提供的基于标注误差训练预测模型的示意图；

图3a为本申请一示例性实施例提供的姿态预测方法的流程示意图；

图3b为本申请另一示例性实施例提供的姿态预测方法的流程示意图；

图4为本申请一示例性实施例提供的应用场景实例的示意图；

图5为本申请一示例性实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在面部识别相关的应用中，头部姿态判断是一个十分重要的环节。头部姿态较优时拍摄到的面部图像通常包含较为丰富的面部特征，有利于进行面部识别或面部分析操作。例如，在人脸识别的过程中，可在人的头部姿态较优时对人脸进行抓拍，并根据抓拍得到的图像进行人脸识别；或者，在对人的头部进行跟踪拍摄得到的图像序列中，选取头部姿态较优的一张图像，然后根据选取处的图像进行人脸识别等后续步骤。

为了在实际应用中较为准确地预测头部姿态，通常需要标注一批精度较高的头部姿态的图片用于算法的训练。然而，对头部姿态进行准确地标注是一项成本较高的工作。

目前，一种精度较高的姿态标注的方式是在被拍摄者前方放置一排电视墙，被拍摄者身体和视线对准其正前方保持不动。接着，通过语音告知被拍摄者通过只转动头部看向某个屏幕，此时被拍摄者的头部姿态就是该屏幕对应的姿态角。通常为了保证被拍摄者看向的是正确的屏幕，还会在屏幕上显示内容，通过被拍摄者回答的与屏幕显示的内容相关的提问的答案正确与否来进一步过滤错误的标注样本。但是，这种标注方式的成本较高。

为降低标注成本，存在一种手动标注面部的关键点，再基于关键点自动计算头部姿态的方式。在这种实施方式中，首先，可在图像上标注面部的若干个关键点，接着，采用3DMM(3D Morphable Mode三维变形模式)等算法，利用关键点计算头部姿态。这种标注方式在一定程度上降低了工作量，但标注面部的若干个关键点的成本仍然不可忽视。与此同时，算法计算得到的头部姿态通常约有正负5度左右的误差。

为进一步降低标注成本，可对样本进行自动标注。在这种实施方式中，可利用人脸关键点预测模型，自动预测出样本图像上的面部关键点。接着，采用算法，利用面部关键点计算头部姿态。但是，在这个过程中，自动预测关键点的步骤存在误差，姿态计算采用的算法再次引入了误差，进而导致姿态标注结果误差会进一步增大。

针对上述技术方案存在的标注误差大、标注准确率较低的技术问题，本申请实施例提供了一种数据处理方法，以下将结合附图进行说明。

图1为本申请一示例性实施例提供的数据处理方法的流程示意图，如图1所示，该方法包括：

步骤101、在样本图像上标注第一对象的第一姿态。

步骤102、将所述样本图像输入姿态预测模型，以获得所述第一对象的姿态预测结果。

步骤103、根据所述姿态预测结果进行误差拟合，以估算所述第一姿态的标注误差。

步骤104、根据所述第一姿态和所述标注误差，对所述姿态预测模型进行优化。

在本实施例中，样本图像，包括多种场景下采集到的用于训练姿态预测模型的图像。其中，样本图像中的对象，可被描述为第一对象。在姿态标注的场景中，该第一对象，可以是有待进行姿态识别的人体的组成部分，例如人体的头部、肢体等；或者，该对象可以是有待进行姿态识别的动物身体的组成部分，例如动物的头部、四肢等；或者，该对象也可以是有待进行识别的设备、器械的全部或部分组件，例如机械手臂、无人机等等，本实施例不做限制。

其中，在样本图像上对第一对象进行姿态标注得到的标注结果，可被描述为第一姿态。其中，姿态，可采用三维空间中的姿态角进行表示。

在样本图像上标注第一对象的第一姿态的操作，可基于样本自动标注算法实现。例如，在一些实施例中，可利用关键点预测模型，自动预测出样本图像上的对象的关键点。接着，采用姿态识别算法，利用预测出的关键点计算对象的姿态。在另一些实施例中，可在样本图像上手动标注对象的多个关键点，接着，采用姿态识别算法，利用预测出的关键点计算对象的姿态。或者，还可以采用其他方式在样本图像上标注第一对象的姿态，本实施例不做限制。

其中，姿态预测模型是一种人工神经网络，用于对输入的图像进行分析，并根据分析的结果进行姿态预测。姿态预测模型的训练过程是一种有监督学习的过程，在有监督学习的过程中，样本图像上标注的第一姿态，可作为姿态预测模型期望的输出值，该期望的输出值又被称为监督信号。将样本图像输入姿态预测模型后，在监督信号的监督下，姿态预测模型可学习从样本图像上识别第一对象的姿态的能力。

基于关键点计算姿态采用的算法存在一定的误差，进而导致标注得到的第一姿态与真实姿态具有差别。若在标注的过程采用关键点预估模型自动预估关键点，那么第一姿态对应的标注误差将进一步增大。因此，为降低标注误差对姿态预测模型的影响，在本实施例中，可获取标注误差，并根据标注误差对姿态预测模型进行进一步优化。

其中，第一姿态的标注误差可根据姿态预测结果获取，将在后续实施例中进行具体说明，此处不赘述。

基于标注误差对姿态预测模型进行训练时，可不断调整姿态预测模型的参数，以使标注误差逐渐减小。应当理解，当误差损失函数收敛到指定范围时，可认为姿态预测模型对标注误差具有较好的兼容性，此时可输出训练完成的姿态预测模型。

在姿态预测模型投入使用时，可将待处理图像输入姿态预测模型，以供姿态预测模型对待处理图像中的第二对象进行姿态预估，并输出姿态第二对象的姿态预测结果。

应当理解，在本实施例中，采用“第一”、“第二”限定对象及对象的标注姿态，仅用于方便描述和区分，不代表先后顺序、等级、数量等信息。

本实施例中，基于自动标注的样本图像训练姿态预测模型的过程中，可根据姿态预测模型输出的姿态预测结果，预测样本图像上标注的姿态的标注误差。基于样本图像上标注的姿态和计算得到的标注误差，可对姿态预测模型进行继续训练，直至标注误差造成的损失收敛到指定值。基于这种实施方式，可对监督信号的误差进行补偿，降低样本图像上的标注误差对姿态预测模型的训练过程的影响，进而，训练得到的性能较高的姿态预测模型，提升姿态预测模型的预测准确率。

在本申请的上述以及下述各实施例中，可选地，姿态预测模型，可实现为人工该神经网络模型(Neural Networks，NN)，例如：卷积神经网络(Convolutional NeuralNetworks，CNN)、深度神经网络(Deep Neural Network，DNN)、图卷积神经网络(GraphConvolutional Networks，GCN)、循环神经网络(Recurrent Neural Network，RNN)以及长短期记忆神经网络(Long Short-Term Memory，LSTM)一种或多种，或者可由上述一种或多种神经网络变形得到，本实施例不做限制。

以下将结合图2a，进一步示例性说明本申请实施例提供的数据处理方法。

图2a为本申请另一示例性实施例提供的数据处理方法的流程示意图，如图2a所示，该方法包括：

步骤201、识别样本图像中的第一对象的姿态关键点。

步骤202、采用3DMM算法对所述第一对象的姿态关键点进行计算，以在所述样本图像上标注所述第一对象的第一姿态。

步骤203、将所述样本图像输入姿态预测模型，以获得所述第一对象的姿态分类概率以及根据所述姿态分类概率识别出的第二姿态。

步骤204、将所述姿态分类概率和所述第二姿态输入误差拟合网络。

步骤205、在所述误差拟合网络中，根据所述姿态分类概率，计算分类标注误差，以及，根据所述第二姿态，计算回归标注误差。

步骤206、根据所述第一姿态和所述分类标注误差，构造分类损失函数，并根据所述第一姿态和所述回归标注误差，构造回归损失函数。

步骤207、对所述姿态预测模型和所述误差拟合网络进行迭代训练，以减小所述分类损失函数和回归损失函数。

步骤208、在所述分类损失函数收敛到第一范围且所述回归损失函数收敛到第二范围时，输出所述姿态预测模型，以用于对待处理图像中的对象进行姿态预测。

在步骤201中，可将样本图像输入关键点预测模型，并获取关键点预测模型的输出结果，得到样本图像中的第一对象的姿态关键点。

可选地，该关键点预测模型可实现为MTCNN，Multi-task convolutional neuralnetwork(多任务卷积神经网络)或者基于Openpose(一种人体姿态识别项目)框架的关键点预测模型或者其他可以进行关键点预测的模型，本实施不做限制。

可选地，如图2b所示，样本图像中的第一对象为人体头部时，从样本图像上识别的姿态关键点为N个人脸关键点，N为正整数。

获取到第一对象的姿态关键点后，可接下来执行步骤202，采用姿态预测算法对关键点进行计算。

在步骤202中，为便于和后续训练过程中预测得到的姿态进行区分，此处将样本图像上标注的第一对象的姿态，描述为第一姿态。可选地，第一对象的第一姿态，可采用第一对象在三个不同空间维度上的姿态角表示。该三个空间维度上的姿态角包括：俯仰角(pitch)、偏航角(yaw)、翻滚角(roll)。

以图2b所示的笛卡尔坐标系(XYZ坐标系)为例，pitch指的是对象围绕X轴旋转时产生的姿态角；yaw指的是对象围绕Y轴旋转时产生的姿态角；roll指的是对象围绕Z轴旋转时产生的姿态角。

如图2b所示，以第一对象实现为人体头部为例，人体头部在三个空间维度上的姿态角中，pitch可实现为：抬头/低头的姿态角、roll可实现为摇头的姿态角、yaw可实现为转头的姿态角。

继续以第一对象实现为人体头部为例，可选地，姿态预测算法可实现为3DMM算法，如图2c所示。其中，3DMM是一种人脸3D重建的方法，可以用来计算2D人脸关键点和3D人脸关键点之间的映射关系，从而计算人体头部在空间中的姿态。计算得到头部的姿态角后，可在样本图像上对该姿态角进行标注，以生成标注有期望值的样本图像。

在本步骤，为便于描述，将第一姿态包含的三个空间维度上的姿态角标记为：yaw^*，pitch^*，roll^*。

受关键点识别算法的精度和3DMM算法的精度的影响，第一姿态与第一对象的实际姿态可能存在一定的误差。接下来，可基于标注后的样本图像，训练姿态预测模型。

在步骤203中，可将样本图像输入姿态预测模型，并根据姿态预测模型当前的模型参数，对样本图像进行计算，以预测样本图像中的第一对象的姿态，得姿态预测结果。

其中，姿态预测结果，包括：姿态分类概率以及根据姿态分类概率识别出的姿态角。该姿态角为多维度的姿态角，在本实施例中，为便于描述和区分，将姿态预测模型识别并输出的多维度的姿态角描述为第二姿态。

其中，姿态分类概率，指的第一对象的姿态属于三个空间维度包含的每种姿态类别的概率，如图2d和图2e所示的p_yaw，p_pitch，p_roll。基于该概率，可计算得到第二姿态，如图2d和图2e所示的yaw，pitch，roll。

其中，姿态类别，是对每个空间维度包含的姿态角范围进行划分得到的。例如，可将X轴所在维度包含的姿态角范围划分成90个姿态类别、180个姿态类别或者360个姿态类别等等，本实施例不做限制。

以第一对象实现为人体头部为例，人体头部在X轴(水平)、Y轴(垂直)、Z轴(纵向)维度上的姿态角范围为0°～180°。可选地，在一些实施例中，可将每个维度对应的180°的姿态角范围划分为180个姿态类别，任意两个相邻的姿态类别的角度差为1°。在另一些实施例中，可将每个维度对应的180°的姿态角范围划分为360个姿态类别，任意两个相邻的姿态类别的角度差为0.5°，本实施例不做限制。

在接下来的实施例中，将以每个维度对应的180°的姿态角范围被划分为180个姿态类别为例进行示例性说明。在本步骤中，姿态预测模型的输出的姿态分类概率可包括：第一对象的姿态分别属于Y轴所在维度上的180个姿态类别的概率p_yaw、第一对象的姿态分别属于X轴所在维度上的180个姿态类别的概率p_pitch、第一对象的姿态分别属于Z轴所在维度上的180个姿态类别的概率p_roll。其中，p_yaw∈R^1×180，p_pitch∈R^1×180，p_roll∈R^1×180，R表示矩阵，p_yaw、p_pitch、p_roll值的范围属于[0，1]。

可选地，第二姿态中，每个空间维度上的姿态角，可根据第一对象的姿态属于每种姿态类别的概率和每种姿态类别对应的角度进行加权计算得到。以下将进行示例性说明。即，将p_yaw，p_pitch，p_roll对应的分类概率值作为权重，对姿态类别进行求和，得到每个空间维度上的姿态角yaw，pitch，roll。其中，姿态角的范围为[0°，180°]。在计算得到的姿态角上减去90°的偏移，即可得到第一对象在空间中三个方向的姿态角。

以任一空间维度为例，基于第一对象的姿态属于该空间维度上的每种姿态类别的概率，计算第一对象在该空间维度上对应的姿态角的可选实施方式可如以下公式1所示：

其中，i表示该空间维度上的第i个姿态类别，p_i表示属于第i个姿态类别的概率，I表示计算得到的该空间维度上的姿态角。

采用上述公式1分别对三个空间维度上的姿态角进行计算，可得到第一对象的姿态在Y轴所在维度上的姿态角yaw、第一对象的姿态在X轴所在维度上的姿态角pitch以及第一对象的姿态在Z轴所在维度上的姿态角roll。

值得说明的是，在执行步骤204之前，可根据姿态预测模型的输出结果和样本图像上标注的监督信号，对姿态预测模型进行预训练。预训练的过程如图2d所示，在图2d中，根据姿态分类概率p_yaw，p_pitch，p_roll和样本图像上标注的第一姿态yaw^*，pitch^*，roll^*构造分类损失函数loss1，并根据姿态预测模型输出的第二姿态yaw，pitch，roll和第一姿态yaw^*，pitch^*，roll^*构造回归损失函数loss2。

其中，loss1可实现为交叉熵损失函数，loss2可实现为平均误差损失函数，本实施例不做限制。可选地，loss3＝loss2+loss2。在预训练时，可调整姿态预测模型的参数，以减小loss3的值。

图2d所示的预训练的过程，尚未引入样本图像上的标注误差对姿态预测模型的影响。在上述预训练的基础上，可执行步骤204～步骤208，结合误差拟合网络，对姿态预测模型进行进一步训练，以降低样本图像上的标注误差对姿态预测模型的影响。

在步骤204中，可将姿态分类概率和第二姿态输入误差拟合网络。

可选地，在本实施例中，误差拟合网络包括6个全连接层。其中，存在三个全连接层分别与三个空间维度上的分类概率的输出结果对应，存在另外三个全连接层分别与三个空间维度上的姿态角的输出结果对应。一种典型的网络结构可如图2e所示。

如图2e所示，可在p_yaw，p_pitch，p_roll后各自增加一个全连接层：layer_cls1，layer_cls2和layer_cls3。其中，layer_cls1，layer_cls2和layer_cls3的参数分别为w_cls1，w_cls2，w_cls3，w_cls1∈R^180×180，w_cls2∈R^180×180，w_cls3∈R^180×180。layer_cls1，layer_cls2和layer_cls3分别用于估计三个空间维度上的分类标注误差，该分类标注误差可体现标注误差对分类计算的影响。

可选地，在本实施例中，可根据第一姿态和姿态预测模型输出的姿态分类概率确定混淆矩阵(Confusion Matrix)，并根据混淆矩阵，确定全连接层w_cls1，w_cls2，w_cls3的初始的模型参数。例如，可根据yaw^*和p_yaw构成的混淆矩阵，对w_cls1进行初始化；根据pitch^*和p_pitch构成的混淆矩阵，对w_cls2进行初始化；根据roll^*和p_roll构成的混淆矩阵，对w_cls3进行初始化。

其中，混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。

继续参考图2e所示，可在yaw，pitch，roll后各自增加一个全连接层layer_reg1，layer_reg2和layer_reg3。其中，全连接层layer_reg1，layer_reg2和layer_reg3的参数分别为w_reg1，w_reg2，w_reg3，w_reg1∈R^1×1，w_cls2∈R^1×1，w_cls3∈R^1×1。layer_reg1，layer_reg2和layer_reg3分别用于估计回归标注误差，该回归标注误差用于体现标注误差对回归计算的影响。

可选地，w_cls1，w_cls2，w_cls3的初始化值可设为1。

接下来，可执行步骤205，计算标注误差。可选地，在本实施例中，标注误差包括分类标注误差以及回归标注误差。

可选地，如图2e所示，在误差拟合网络中，可将三个空间维度上的分类概率p_yaw，p_pitch，p_roll分别输入误差拟合网络中的三个全连接层layer_cls1，layer_cls2和layer_cls3，并将三个维度上的姿态角yaw，pitch，roll分别输入误差拟合网络中的三个全连接层layer_regl，layer_reg2和layer_reg3。

以下将以layer_cls1，layer_cls2和layer_cls3中的任意一个全连接层为例，对计算分类标注误差的可选实施方式进行示例性说明，并以layer_reg1，layer_reg2和layer_reg3中的任意一个全连接层为例，对计算回归标注误差的可选实施方式进行示例性说明。

为便于描述，将layer_cls1，layer_cls2和layer_cls3中的任意一个全连接层描述为第一全连接层，将输入第一全连接层的分类概率所属的维度描述为第一维度。将layer_reg1，layer_reg2和layer_reg3中的任意一个全连接层描述为第二全连接层，将输入第二全连接层的姿态角所属的维度描述为第二维度。

针对中的第一全连接层，可根据第一全连接层的模型参数，对输入的第一维度上的分类概率进行计算，得到第一维度的分类标注误差。

例如，如图2e所示，可在全连接层layer_cls1中，计算p_yaw*w_cls1，得到Y轴方向上的分类标注误差p_yaw1；在全连接层layer_cls2中，计算p_pitch*w_cls2，得到X轴方向上的分类标注误差p_pitch1；在全连接层layer_cls3中，计算p_roll*w_cls3，得到X轴方向上的分类标注误差p_roll1。

针对第二全连接层，可根据第二全连接层的模型参数，对输入的第二维度上的姿态角进行计算，得到第二维度的回归标注误差。

例如，如图2e所示，可在全连接层layer_reg1中，计算yaw*w_reg1，得到Y轴方向上的回归标注误差yaw1；在全连接层layer_reg2中，计算pitch*w_reg2，得到X轴方向上的回归标注误差pitch1；在全连接层layer_reg3中，计算roll*w_reg3，得到Z轴方向上的回归标注误差roll1。

在计算得到分类标注误差和回归标注误差之后，可接下来执行步骤206。

在步骤206～步骤208中，可根据第一姿态和分类标注误差，构造分类损失函数，并根据第一姿态和回归标注误差，构造回归损失函数。即，根据yaw^*，pitch^*，roll^*和p_yaw1，p_pitcM，p_roll1构造分类损失函数loss_cls；根据yaw^*，pitch^*，roll^*和yaw1，pitch1，roll1构造平均误差损失函数loss_reg。可选地，分类损失函数可以实现为用于分类计算的交叉熵损失函数，回归损失函数可以实现为用于回归计算的平均误差损失函数。以下将进行示例性说明。

可选地，分类损失函数的计算过程可如以下公式2所示：

在公式2中，n表示训练样本数量，M表示姿态类别的数量(M＝180)，k表示第k个样本，j表示第j个姿态类别；若第k个样本预测出的姿态类别与标注的姿态类别相同，则y_kj＝1，若不同，则y_kj＝0；p_kj表示误差拟合网络输出的第k个样本中的对象的姿态属于第j个类别的概率，即分类标注误差p_yaw1，p_pitch1，p_roll1。

其中，回归损失函数的计算过程可如以下公式3所示：

公式3中，n表示训练样本数量，y_k表示第k个样本中标注的姿态角，即yaw^*，pitch^*，roll^*；p_k表示误差拟合网络输出的第k个样本的姿态角，即姿回归标注误差yaw1，pitch1，roll1。

基于上述损失函数，可对姿态预测模型进行迭代优化，直至分类损失函数收敛到第一范围且回归损失函数收敛到第二范围。其中，第一范围和第二范围和根据实际训练需求进行设置，本实施例不做限制。

在一些可选的实施例中，可将对分类损失函数和回归损失函数进行叠加，得到联合损失函数loss_fin，即公式4所示：

loss_fin＝loss_-cls+loss_reg 公式4

基于联合损失函数loss_fin对姿态预测模型进行迭代优化时，可在联合损失函数loss_fin收敛至指定的值时，停止训练，并输出训练得到的姿态预测模型。将该姿态预测模型投入使用时，可将待处理的图像输入姿态预测模型，以使姿态预测模型对输入的待处理图像中的对象进行姿态预测。

本实施例中，一方面，对样本图像采用自动标注的方式，降低了标注所需的时间成本、人力成本，另一方面，基于图像样本的标注误差对姿态预测模型进行训练，可对监督信号的误差进行补偿，降低样本图像上的标注误差对姿态预测模型的训练过程的影响，进而，训练得到的性能较高的姿态预测模型，提升姿态预测模型的预测准确率。

本申请实施例还提供一种姿态预测方法，该姿态预测方法可基于前述各实施例记载的姿态预测模型实现，以下将结合附图进行示例性说明。

图3a为本申请一示例性实施例提供的姿态预测方法的流程示意图，如图3a所示，该方法包括：

步骤301a、获取包含第一对象的待处理图像。

步骤302a、将所述待处理图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；其中，所述姿态预测模型，根据自动标注的样本图像和预测得到的所述样本图像的标注误差训练得到。

步骤302a、展示所述第一对象的姿态预测结果。

在本实施例中，待处理图像，可以是多种场景下拍摄对象得到的图像。该多种场景，可包括需要进行姿态识别或者分析的场景。例如，在一种场景下，对人体头部的姿态进行分析时，待处理图像可实现为对人的头部进行拍摄到的图像。在另一种场景下，对无人机进行姿态分析时，待处理图像可实现为对无人机进行跟踪拍摄得到的视频中的图像帧。在又一种场景下，对车间设备的工作姿态进行监控时，待处理图像可实现为对车间进行监控拍摄得到的图像，不再赘述。

其中，姿态预测模型，是根据自动标注的样本图像和样本图像的标注误差训练得到的。该训练过程可参考前述各实施例的记载，此处不再赘述。

图3b为本申请一示例性实施例提供的姿态预测方法的流程示意图，如图3a所示，该方法包括：

步骤301b、响应来自客户端对第一接口的调用请求，确定所述第一接口对应的模型训练服务资源，其中，所述模型训练服务资源包括样本图像。

步骤302b、对所述样本图像进行标注，得到第一标注结果。

步骤303b、将标注后的样本图像输入神经网络模型，获得所述神经网络的输出结果。

步骤304b、根据所述输出结果进行误差拟合，以计算所述第一标注结果的标注误差。

步骤305b、根据所述第一标注结果和所述标注误差，对所述神经网络模型进行优化，得到结果模型。

步骤306b、向所述客户端返回所述结果模型。

本实施例的执行主体可以是服务端设备，例如常规服务器或者云服务器。其中，客户端可实现为用户侧的手机、计算机、平板电脑等设备。

在本实施例中，可将前述各实施例提供的数据处理方法封装为可供第三方使用的模型训练服务资源，例如SaaS(Software-as-a-Service，软件即服务)工具。其中，该SaaS工具可实现为插件或者应用程序。该插件或者应用程序可以被部署在服务端设备上，第三方用户可通过调用服务端上相应的接口，便捷地访问并使用模型训练服务资源提供的模型训练服务。

例如，在一些场景下，该SaaS工具可被部署在云服务器，第三方用户可访问云服务器，以在线使用该SaaS工具。该SaaS工具可提供模型训练所需的样本图像，对样本图像进行自动标注，并基于标注后的样本图像进行模型训练。

在本实施例中，将SaaS工具在样本图像上的标注结果描述为第一结果。应当理解，神经网络模型的功能不同时，样本图像不同，对样本图像进行自动标注得到的第一标注结果也不相同。例如，神经网络模型应用于目标检测时，第一标注结果可以是对包含目标的样本图像上的目标位置及目标所属的分类进行标注的结果。例如，神经网络模型应用于人脸识别时，第一标注结果可以是对人脸样本图像上的面部区域及面部区域所属的人物的名称进行标注的结果。又例如，神经网络模型应用于姿态预测时，第一标注结果可以是对样本图像上的对象的姿态进行标注的结果，不再一一进行赘述。

第一标注结果被输入神经网络模型后，在神经网络模型的内部，可根据模型参数以设定的算法进行计算，并输出计算结果。承接上述例子，相应地，第一标注结果为目标位置及其分类时，神经网络模型的输出结果可以是目标的预测位置及预测分类；第一标注结果为面部区域及其对应的人物名称时，神经网络模型的输出结果可以是人物名称的预测结果；第一标注结果实现为对象的姿态时，神经网络模型的输出结果可以是对象的姿态预测结果。

在基于自动标注的样本图像训练神经网络模型的过程中，SaaS工具可基于神经网络模型的输出结果估算自动标注过程中产生的标注误差，并根据样本图像上标注的第一标注结果和估算得到的标注误差，对神经网络模型进行进一步优化，得到结果模型，并将结果模型返回给客户端以供客户端离线使用。

例如，承接上述例子，在一些可选的实施例中，在训练用于姿态预测的神经网络模型时，可根据样本图像上标注的对象的姿态和标注误差，构造损失函数，并根据损失函数对神经网络模型进行优化；在该损失收敛到指定范围时，输出优化得到的神经网络模型，作为姿态预测模型，并将姿态预测模型作为结果模型返回给客户端。具体可参考前述实施例的记载，此处不再赘述。

在另一些可选的实施例中，在优化用于目标检测的神经网络模型时，可将神经网络模型在训练过程中输出的目标的预测位置及预测分类输入误差拟合网络，并根据误差拟合网络的输出，确定在样本图像上自动标注目标位置及其分类时引入的标注误差。基于该标注误差以及标注的目标位置及其分类，构造损失函数，并基于该损失函数继续优化神经网络模型，直至该损失函数收敛到一定的范围，得到目标检测模型，不再赘述。

需要说明的是，在一些可选的实施例中，SaaS工具可根据客户端用户对神经网络模型的需求，判断是否执行本实施例提供的模型训练方法。例如，在一些场景下，用户请求获取精度较高的姿态预测模型，则SaaS工具可在训练神经网络模型时，执行步骤304b以及步骤305b。在训练的过程中，根据拟合得到的标注误差和样本图像上的第一标注结果对神经网络模型进行优化，进而降低标注误差对神经网络模型的影响，提升最终训练得到的结果模型的预测精度。

或者，SaaS工具可自动根据结果模型的应用场景，判断是否采用本申请实施例提供的模型训练方法训练神经网络模型。例如，在一些场景下，结果模型用于小目标检测场景时，SaaS工具可自动执行本实施例提供的模型训练方法，以训练得到高精度的小目标检测模型，不再赘述。

还值得说明的是，本实施例提供的模型训练服务资源，可用于训练多种不同的神经网络模型，例如，CNN模型、DNN模型、GCN模型、RNN模型以及LSTM模型一种或多种，或者还可应用于上述一种或多种神经网络变形得到的其他神经网络模型，不再一一进行赘述。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤201至步骤203的执行主体可以为设备A；又比如，步骤201和202的执行主体可以为设备A，步骤203的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如201、202等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

在本申请的上述以及下述各实施例中，样本图像可以是对人体的头部进行拍摄得到的图像，样本图像中的第一对象包括人体头部，第一姿态实现为在样本图像上标注的人体头部在三维空间中的姿态角。其中，在训练姿态预测模型时，可获取多张人脸样本图像，并在人脸样本图像上自动标注头部姿态。基于标注后的样本图像，可训练姿态预测模型。在训练的过程中，可进一步根据姿态预测模型输出的姿态预测结果，拟合标注误差。接着，可基于标注误差继续训练姿态预测模型，进而降低自动标注产生的误差以及训练算法在回归计算过程中产生的误差对模型精度的影响。

本申请实施例提供的姿态预测模型，可应用于多种不同的面部识别及分析场景中。例如，在智慧教室的应用场景中，可对学生的头部姿态进行检测，并获取学生的头部姿态较优时的面部图像；基于获取到的面部图像，可进行面部识别及分析，以实现自动记录考勤、自动分析学生课堂情绪的操作。又例如，在车载辅助驾驶场景中，可对司机进行头部姿态检测，并获取司机头部姿态较优时的面部图像；基于获取到的面部图像进行面部识别及分析，可实现司机自动认证、自动匹配司机驾驶模式、疲劳驾驶分析并与预警操作等等。除上述场景之外，还可应用与交通工具刷脸认证场景、刷脸支付场景等等，本实施例包含但不限于此。

应当理解，除了面部识别及分析场景，本申请实施例提供的技术方案还可应用于其他肢体部分的姿态识别。例如，在自动监考的场景中，可对学生的头部姿态以及肢体姿态进行检测，并基于头部姿态和肢体姿态的检测结果，分析学生是否存在考场作弊行为。例如，在体育训练场景或者在体育竞技比赛场景中，可对运动员的姿态进行检测，并基于检测到的姿态识别运动员的运动项目、自动分析运动员是否出现违规动作等等。

以下将结合图4，以智慧教室场景为例，对本申请实施例提供姿态预测方法进行进一步说明。如图4所示，一种智慧教室管理系统可包括图像采集设备41、服务器42以及终端设备43。其中，图像采集设备41部署在教室中，用于对教室中的人物进行拍摄，以采集包含人脸的图像。其中，服务器42可实现为常规服务器或者云服务器。其中，终端设备43可实现为手机、平板电脑、计算机等用户侧设备。

在一种情况下，图像采集设备41可对教室中的人物进行持续性监控拍摄，并将拍摄到的监控视频发送至服务器42。在这种情况下，图像采集设备41可无差别采集多种头部姿态下的人脸图像。

为提升人脸识别的效率，服务器42接收到图像采集设备43发送来的监控视频后，可将监控视频输入姿态预测模型。姿态预测模型可对输入的监控视频进行分帧，基于分帧得到的多张人脸图像进行姿态预测，并输出每张图像的姿态识别结果。该姿态识别结果可实现为服务器42为每张图像中的人脸预测得到的姿态角。服务器42获取到每张图像中的人脸对应的姿态角后，可根据姿态角，从对监控视频进行分帧得到的多张人脸图像中选取头部姿态较优的图像，例如三个空间维度的姿态角均在90°左右的图像，即正脸图像。

在另一种情况下，姿态预测模型可位于图像采集设备42一侧。图像采集设备41在拍摄的过程中，可基于姿态预测模型对教室中的人物的头部姿态进行实时识别，并根据识别结果，抓拍头部姿态较优的面部图像。接着，图像采集设备42可将抓拍到的姿态较优的面部图像发送至服务器42，以使服务器42对进行面部识别或者分析。在这种实施方式中，图像采集设备41发送至服务器42的数据具有较小的数据量，由于提升传输效率。

基于上述两种实施方式，服务器42获取到头部姿态较优的人脸图像后，可对头部姿态较优的图像中的人物进行面部识别，得到面部识别结果。该面部识别结果可包括教室中的每个人物的姓名、面部表情等。在一些情况下，识别到每个人物的姓名后，服务器42可在该图像上标注人物的姓名，并将标注姓名的图像发送至终端设备43。该终端设备43可由教室的管理人员(例如，老师)持有。终端设备43接收到标注有姓名的图像后，可展示该图像，以便于管理人员一目了然地了解到学生的考勤情况以及学生的课堂情绪。

图5是本申请一示例性实施例提供的电子设备的结构示意图，如图5所示，该电子设备包括：存储器501以及处理器502。

存储器501，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

其中，存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器502，与存储器501耦合，用于执行存储器501中的计算机程序，以用于：在样本图像上标注第一对象的第一姿态；将所述样本图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；根据所述姿态预测结果进行误差拟合，以估算所述第一姿态的标注误差；根据所述第一姿态和所述标注误差，对所述姿态预测模型进行优化。

进一步可选地，处理器502还用于：在所述姿态预测模型的损失收敛到指定范围时，输出所述姿态预测模型；将待处理图像输入姿态预测模型，以对所述待处理图像中的第二对象进行姿态预估。

进一步可选地，处理器502在样本图像上标注第一对象的第一姿态时，具体用于：从所述样本图像中，识别所述第一对象的姿态关键点；采用3DMM算法对所述第一对象的姿态关键点进行计算，以在所述样本图像上标注所述第一对象的第一姿态。

进一步可选地，所述姿态预测结果，包括：姿态分类概率以及根据所述姿态分类概率识别出的第二姿态。

进一步可选地，处理器502在根据所述姿态预测结果进行误差拟合，以估算所述第一姿态的标注误差时，具体用于：将所述姿态分类概率和所述第二姿态输入误差拟合网络；在所述误差拟合网络中，根据所述姿态分类概率，计算分类标注误差，以及，根据所述第二姿态，计算回归标注误差。

进一步可选地，处理器502在将所述姿态分类概率和所述第二姿态输入误差拟合网络时，具体用于：将所述姿态分类概率中的三个空间维度上的分类概率分别输入所述误差拟合网络中的三个全连接层；相应地，在所述误差拟合网络中，根据所述姿态分类概率，计算分类标注误差，包括：针对所述三个全连接层中的第一全连接层，根据所述第一全连接层的模型参数，对输入的第一维度上的分类概率进行计算，得到第一维度的分类标注误差。

进一步可选地，处理器502还用于：根据所述第一姿态和所述姿态分类概率，确定混淆矩阵；根据所述混淆矩阵，确定所述第一全连接层的初始的模型参数。

进一步可选地，处理器502在将所述姿态分类概率和所述第二姿态输入误差拟合网络时，具体用于：将所述第二姿态中的三个空间维度上的姿态角分别输入所述误差拟合网络中的三个全连接层；针对所述三个全连接层中的第二全连接层，根据所述第二全连接层的模型参数，对输入的第二维度上的姿态角进行计算，得到第二维度的回归标注误差。

进一步可选地，处理器502在根据所述第一姿态和所述标注误差，对所述姿态预测模型进行优化时，具体用于：根据所述第一姿态和所述分类标注误差，构造分类损失函数，并根据所述第一姿态和所述回归标注误差，构造回归损失函数；对所述姿态预测模型和所述误差拟合网络进行迭代训练，直至所述分类损失函数收敛到第一范围且所述回归损失函数收敛到第二范围。

进一步可选地，所述分类损失函数为交叉熵损失函数，所述回归损失函数为平均误差损失函数。

进一步可选地，所述第一对象包括：人体头部，所述第一姿态包括：人体头部在三维空间中的姿态角。

进一步，如图5所示，该电子设备还包括：通信组件503、显示组件504、电源组件505、音频组件506等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

其中，通信组件503被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

其中，显示组件504包括屏幕，其屏幕可以包括液晶显示组件(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

其中，电源组件505，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

除前述实施例记载的执行逻辑之外，图5示意的电子设备还可执行如下的数据处理逻辑：处理器502获取包含第一对象的待处理图像；将所述待处理图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；其中，所述姿态预测模型，根据自动标注的样本图像和预测得到的所述样本图像的标注误差训练得到；展示所述第一对象的姿态预测结果。

除前述实施例记载的执行逻辑之外，图5示意的电子设备还可执行如下的数据处理逻辑：处理器502响应来自客户端对第一接口的调用请求，确定所述第一接口对应的模型训练服务资源，其中，所述模型训练服务资源包括样本图像；对所述样本图像进行标注，得到第一标注结果；将标注后的样本图像输入神经网络模型，获得所述神经网络的输出结果；根据所述输出结果进行误差拟合，以计算所述第一标注结果的标注误差；根据所述第一标注结果和所述标注误差，对所述神经网络模型进行优化，得到结果模型；向所述客户端返回结果模型。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

响应来自客户端对第一接口的调用请求，确定所述第一接口对应的模型训练服务资源，其中，所述模型训练服务资源包括样本图像；

对所述样本图像进行标注，得到第一标注结果；

将标注后的样本图像输入神经网络模型，获得所述神经网络的输出结果；

根据所述输出结果进行误差拟合，以计算所述第一标注结果的标注误差；

根据所述第一标注结果和所述标注误差，对所述神经网络模型进行优化，得到结果模型；

向所述客户端返回所述结果模型。

2.根据权利要求1所述的方法，其特征在于，所述第一标注结果，包括：所述样本图像上标注的对象的姿态，所述输出结果为姿态预测结果，所述结果模型为姿态预测模型。

3.根据权利要求2所述的方法，其特征在于，根据所述第一标注结果和所述标注误差，对所述神经网络模型进行优化，得到结果模型，包括：

根据所述对象的姿态和所述标注误差，构造损失函数；

根据所述损失函数对所述神经网络模型进行优化；

在所述损失收敛到指定范围时，输出优化得到的神经网络模型，作为所述姿态预测模型。

4.一种姿态预测方法，其特征在于，包括：

获取包含第一对象的待处理图像；

将所述待处理图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；其中，所述姿态预测模型，根据自动标注的样本图像和预测得到的所述样本图像的标注误差训练得到；

展示所述第一对象的姿态预测结果。

5.一种数据处理方法，其特征在于，包括：

在样本图像上标注第一对象的第一姿态；

将所述样本图像输入姿态预测模型，以获得所述第一对象的姿态预测结果；

根据所述姿态预测结果进行误差拟合，以估算所述第一姿态的标注误差；

根据所述第一姿态和所述标注误差，对所述姿态预测模型进行优化。

6.根据权利要求5所述的方法，其特征在于，还包括：

在所述姿态预测模型的损失收敛到指定范围时，输出所述姿态预测模型；

将待处理图像输入姿态预测模型，以对所述待处理图像中的第二对象进行姿态预估。

7.根据权利要求5所述的方法，其特征在于，在样本图像上标注第一对象的第一姿态，包括：

从所述样本图像中，识别所述第一对象的姿态关键点；

采用3DMM算法对所述第一对象的姿态关键点进行计算，以在所述样本图像上标注所述第一对象的第一姿态。

8.根据权利要求5所述的方法，其特征在于，所述姿态预测结果，包括：姿态分类概率以及根据所述姿态分类概率识别出的第二姿态。

9.根据权利要求8所述的方法，其特征在于，根据所述姿态预测结果进行误差拟合，以估算所述第一姿态的标注误差，包括：

将所述姿态分类概率和所述第二姿态输入误差拟合网络；

在所述误差拟合网络中，根据所述姿态分类概率，计算分类标注误差，以及，根据所述第二姿态，计算回归标注误差。

10.根据权利要求9所述的方法，其特征在于，将所述姿态分类概率和所述第二姿态输入误差拟合网络，包括：

将所述姿态分类概率中的三个空间维度上的分类概率分别输入所述误差拟合网络中的三个全连接层；

在所述误差拟合网络中，根据所述姿态分类概率，计算分类标注误差，包括：

针对所述三个全连接层中的第一全连接层，根据所述第一全连接层的模型参数，对输入的第一维度上的分类概率进行计算，得到第一维度的分类标注误差。

11.根据权利要求10所述的方法，其特征在于，还包括：

根据所述第一姿态和所述姿态分类概率，确定混淆矩阵；

根据所述混淆矩阵，确定所述第一全连接层的初始的模型参数。

12.根据权利要求9所述的方法，其特征在于，将所述姿态分类概率和所述第二姿态输入误差拟合网络，包括：

将所述第二姿态中的三个空间维度上的姿态角分别输入所述误差拟合网络中的三个全连接层；

针对所述三个全连接层中的第二全连接层，根据所述第二全连接层的模型参数，对输入的第二维度上的姿态角进行计算，得到第二维度的回归标注误差。

13.根据权利要求9-12任一项所述的方法，其特征在于，根据所述第一姿态和所述标注误差，对所述姿态预测模型进行优化，包括：

根据所述第一姿态和所述分类标注误差，构造分类损失函数，并根据所述第一姿态和所述回归标注误差，构造回归损失函数；

对所述姿态预测模型和所述误差拟合网络进行迭代训练，直至所述分类损失函数收敛到第一范围且所述回归损失函数收敛到第二范围。

14.根据权利要求13所述的方法，其特征在于，所述分类损失函数为交叉熵损失函数，所述回归损失函数为平均误差损失函数。

15.根据权利要求5-12任一项所述的方法，其特征在于，所述第一对象包括：人体头部，所述第一姿态包括：人体头部在三维空间中的姿态角。

16.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器用于执行所述一条或多条计算机指令以用于：执行权利要求1-15任一项所述的方法中的步骤。

17.一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序被处理器执行时能够实现权利要求1-15任一项所述的方法中的步骤。