CN113869186A

CN113869186A - 模型训练方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN113869186A
Application number: CN202111122701.9A
Authority: CN
Inventors: 刘冲冲; 付贤强; 何武; 朱海涛; 户磊
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-31
Anticipated expiration: 2041-09-24
Also published as: CN113869186B

Abstract

本申请实施例涉及深度学习技术领域，公开了一种模型训练方法、装置、电子设备和计算机可读存储介质。上述模型训练方法包括：根据训练样本预标注的关键点的坐标，获取训练样本的人脸姿态角粗标签；其中，训练样本为二维人脸图像，关键点包括左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角，人脸姿态角粗标签包括俯仰角和偏航角；根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布；根据训练样本、联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型。本申请提供的模型训练方法，训练过程的计算量很小，训练所需的时间比较短，可以快速获得稳定、可靠的人脸姿态角估计模型。

Description

模型训练方法、装置、电子设备和计算机可读存储介质

技术领域

本申请实施例涉及深度学习技术领域，特别涉及一种模型训练方法、装置、电子设备和计算机可读存储介质。

背景技术

随着计算机视觉技术的不断发展，人脸识别技术已日渐成熟，并且广泛应用到边防检查、移动支付、智能门禁、远程医疗等人们生活的方方面面中，基于深度学习的人脸识别技术，在理想实现环境下，已经能达到非常高的识别准确率，但在现实的一些场景下，人脸识别技术会受到人脸姿态角的影响，不同的人脸姿态，比如俯仰、左右旋转，都会造成某些面部信息的缺失，这导致人脸识别的准确率下降，因此，对人脸姿态角进行估计是保证人脸识别技术的准确率的重要一环。

然而，无论是基于人脸图像的二维信息，即根据人脸若干关键点的相对位置信息来估计人脸姿态角，还是利用深度相机采集人脸图像以获得三维信息，再根据三维信息与标准参考人脸的关系来估计人脸姿态角，再或者是基于预训练的深度学习网络来估计人脸姿态角，估计人脸姿态角的过程都耗时耗力，速度比较慢，并且估计出的人脸姿态角的准确度不高。

发明内容

本申请实施例的目的在于提供一种模型训练方法、装置、电子设备和计算机可读存储介质，模型训练过程的计算量很小，训练所需的时间比较短，可以快速获得稳定、可靠的人脸姿态角估计模型。

为解决上述技术问题，本申请的实施例提供了一种模型训练方法，包括以下步骤：根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签；其中，所述训练样本为二维人脸图像，所述关键点包括左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角，所述人脸姿态角粗标签包括俯仰角和偏航角；根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布；根据所述训练样本、所述联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型；其中，所述人脸姿态角估计模型用于估计二维人脸图像的人脸姿态角。

本申请的实施例还提供了一种模型训练装置，包括：第一计算单元、第二计算单元、网络生成单元和训练单元；所述第一计算单元用于根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签，并将所述人脸姿态角粗标签发送至所述第二计算单元；其中，所述训练样本为二维人脸图像，所述关键点包括左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角，所述人脸姿态角粗标签包括俯仰角和偏航角；所述第二计算单元用于根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布，并将所述联合概率分布发送至所述训练单元；所述网络生成单元用于生成深度学习网络；所述训练单元用于根据所述训练样本、所述联合概率分布和预设的损失函数，训练所述网络生成单元生成的深度学习网络，得到人脸姿态角估计模型；其中，所述人脸姿态角估计模型用于估计二维人脸图像的人脸姿态角。

本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述模型训练方法。

本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练方法。

本申请的实施例提供的模型训练方法、装置、电子设备和计算机可读存储介质，服务器选择二维人脸图像为训练样本，先根据训练样本预标注的左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角这些关键点的坐标，获取训练样本的包含俯仰角和偏航角的人脸姿态角粗标签，再根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布，最后根据训练样本、训练样本的联合概率分布和预设的损失函数，训练预设的深度学习网络，得到用于估计人脸图像的人脸姿态角的人脸姿态角估计模型，这样的人脸姿态角估计模型只需要根据二维图像的二维信息即可估计出人脸姿态角，不需要依赖深度相机来拍摄三维信息，模型的训练阶段只需要人工标注左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角这些关键点的坐标，这些关键点很容易标注可以保证标注的准确率，同时，本申请的实施例使用人脸姿态角的联合概率分布作为训练用的标签，能够容忍一定的误差，使得训练得到的人脸姿态角估计模型稳定、可靠，同时，整个训练过程的计算量很小，训练所需的时间比较短，训练得到的模型规模也比较小，便于部署在计算资源紧张的硬件平台，从而快速、准确地估计出人脸图像的人脸姿态角。

另外，所述根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布，包括：根据所述人脸姿态角粗标签中的俯仰角和偏航角，生成均值向量；根据预设的标量参数和二维单位矩阵，生成协方差矩阵；根据预设的候选姿态角集合，生成二维的自变量集合；其中，所述二维的自变量集合包括若干二维的自变量，所述二维的自变量由所述候选姿态角集合中的两个候选姿态角组成；根据所述均值向量、所述协方差矩阵和所述二维的自变量集合，计算得到所述训练样本的人脸姿态角的联合概率分布，预设的候选姿态角集合可以根据实际需要进行灵活设置，基于不同的候选姿态角集合确定出的训练样本的人脸姿态角的联合概率分布的精细化程度不同，大幅提升模型训练过程的灵活性，从而训练出适用于不同环境的人脸姿态角估计模型，进一步满足人脸姿态角估计的实际需要。

另外，所述深度学习网络包括主干网络、估计分支网络和修正分支网络；所述根据所述训练样本、所述联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型，包括：将所述训练样本输入至所述主干网络，获取所述主干网络输出的第一特征；将所述第一特征输入至所述估计分支网络，获取所述估计分支网络输出的第二特征；将所述第二特征和所述联合概率分布输入至所述修正分支网络，获取所述修正分支网络输出的第三特征；根据所述第二特征、所述第三特征、所述联合概率分布和预设的损失函数，计算得到损失值；根据所述损失值调整所述深度学习网络的参数，并判断调整后的所述深度学习网络是否满足预设的收敛条件；若调整后的所述深度学习网络满足预设的收敛条件，则输出所述调整后的所述深度学习网络为人脸姿态角估计模型，根据深度学习网络中的多个分支网络输出的特征，以及训练样本的人脸姿态角的联合概率分布共同计算损失值，根据损失值对深度学习网络进行优化调参，可以友好地提升对深度学习网络的优化效果，从而获得更稳定、可靠的人脸姿态角估计模型。

另外，所述根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签，包括：根据所述左眼睛中心的坐标、所述右眼睛中心的坐标和所述鼻尖的坐标，确定第一目标点的坐标；根据所述左眼睛中心的坐标、所述右眼睛中心的坐标和所述第一目标点的坐标，计算得到第一距离、第二距离和第三距离；其中，所述第一距离为所述左眼睛中心与所述右眼睛中心之间的距离，所述第二距离为所述左眼睛中心与所述第一目标点之间的距离，所述第三距离为所述右眼睛中心与所述第一目标点之间的距离；根据所述第一距离、所述第二距离和所述第三距离，确定所述训练样本的人脸姿态角粗标签中的偏航角；根据所述左嘴角的坐标、所述右嘴角的坐标和所述鼻尖的坐标，确定第二目标点的坐标；根据所述鼻尖的坐标、所述第一目标点的坐标和所述第二目标点的坐标，计算得到第四距离、第五距离和第六距离；其中，所述第四距离为所述第一目标点与所述第二目标点之间的距离，所述第五距离为所述鼻尖与所述第一目标点之间的距离，所述第六距离为所述鼻尖与所述第二目标点之间的距离；根据所述第四距离、所述第五距离和所述第六距离，确定所述训练样本的人脸姿态角粗标签中的俯仰角，虽然本申请根据训练样本预标注的关键点的坐标，只是为了获取人脸姿态角粗标签，但也要保证人脸姿态角粗标签是合理的、符合训练样本的真实情况的，因此服务器先根据五个关键点确定出第一目标点、第二目标点作为基准点，再根据这两个基准点确定第一距离至第六距离，根据第一距离、第二距离、第三距离确定偏航角，根据第四距离、第五距离和第六距离确定俯仰角，可以获得较为准确、合理的人脸姿态角的粗标签。

另外，通过以下步骤，根据所述模型估计二维人脸图像的人脸姿态角：将待估计图像输入至所述模型中，获取所述模型输出的所述待估计图像的所述第二特征；其中，所述待估计图像为二维人脸图像；基于所述第二特征，计算人脸姿态角的偏航角对应的边缘概率分布的数学期望，得到所述偏航角；基于所述第二特征，计算人脸姿态角的俯仰角对应的边缘概率分布的数学期望，得到所述俯仰角，使用预先训练好的人脸姿态角估计模型来估计二维人脸图像的人脸姿态角，服务器只需根据人脸姿态角估计模型输出的第二特征来计算偏航角和俯仰角分别对应的边缘概率分布的数学期望，即可准确地估计出人脸姿态角，整个过程计算量很小，可以大幅提升人脸姿态角的估计速度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本申请一个实施例的模型训练方法的流程图；

图2是根据本申请一个实施例中，根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布的流程图；

图3是根据本申请一个实施例中，根据训练样本、联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型的流程图；

图4是根据本申请一个实施例中，根据训练样本预标注的关键点的坐标，获取训练样本的人脸姿态角粗标签的流程图；

图5是根据本申请一个实施例中，根据人脸姿态角估计模型估计二维人脸图像的人脸姿态角的流程图；

图6是根据本申请另一个实施例的模型训练装置的示意图；

图7是根据本申请另一个实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

人脸姿态角估计在实际生活中的应用面很广，比如驾驶员驾驶姿态的检测，学生听课状态的检测等。服务器可以基于人脸图像的二维信息，即人脸的若干关键点的相对位置来估计人脸姿态角；也可以利用深度相机采集人脸图像，以获得人脸图像的三维信息，再根据人脸图像的三维信息与标准参考人脸的关系来计算人脸姿态角；还可以基于大量标注有人脸姿态角标签的训练样本来训练深度学习网络，基于深度学习网络估计人脸姿态角。

本申请的发明人发现，基于人脸图像的二维信息，即人脸的若干关键点的相对位置来估计人脸姿态角的技术方案，估计出的人脸姿态角受人脸脸型的影响很大，难以获得稳定可靠的人脸姿态角；而利用深度相机采集人脸图像，以获得人脸图像的三维信息，再根据人脸图像的三维信息与标准参考人脸的关系来计算人脸姿态角的技术方案，严重依赖于深度相机提供三维信息，并且估计人脸姿态角的过程计算量很大，需要使用算力高强的硬件平台；基于预训练的深度学习网络估计人脸姿态角的技术方案，为训练样本标注人脸姿态角耗时耗力，而且标注的人脸姿态角标签准确率不高，使用不精准的有标签的训练样本训练出的深度学习网络难以稳定收敛，这会导致最终估计出的人脸姿态角不够准确。

本申请的一个实施例涉及一种模型训练方法，应用于电子设备；其中，电子设备可以为终端或服务器，本实施例以及以下个各个实施例中电子设备以服务器为例进行说明。下面对本实施例的模型训练方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施例的模型训练方法的具体流程可以如图1所示，包括：

步骤101，根据训练样本预标注的关键点的坐标，获取训练样本的人脸姿态角粗标签。

具体而言，训练样本为二维人脸图像，训练样本预标注的关键点的坐标包括左眼睛中心的坐标、右眼睛中心的坐标、鼻尖的坐标、左嘴角的坐标和右嘴角的坐标，训练样本的人脸姿态角粗标签包括俯仰角和偏航角。

在具体实现中，服务器可以先搜集大量的二维人脸图像，利用预设的关键点检测算法确定出左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角的位置并标注出来，也可以由本领域的技术人员人工确定并标注出左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角的位置，服务器将这些已标注关键点的坐标的二维人脸图像作为训练样本，组成训练样本集，服务器遍历训练样本集，以此将训练样本集中的训练样本作为目标训练样本，根据目标训练样本预标注的关键点的坐标，获取目标训练样本的人脸姿态角粗标签，从而为训练样本集中的每个训练样本标注上人脸姿态角粗标签。

在一个例子中，服务器可以计算训练样本中预标注的各关键点之间的距离，根据各关键点之间的距离，计算出偏航角和俯仰角，根据计算出的偏航角和俯仰角组成人脸姿态角粗标签。

步骤102，根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布。

在具体实现中，人脸姿态角粗标签不够精细，人脸姿态角粗标签中的偏航角和俯仰角与真实情况存在一定的偏差，只使用粗标签来训练深度神经网络并不能满足实际需求，服务器可以根据训练样本的人脸姿态角粗标签，和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布，即确定训练样本分属各候选姿态角的概率，从而尽可能地消除人脸姿态叫粗标签本身的误差，服务器将练样本的人脸姿态角的联合概率分布作为标签标注在训练样本上，其中，预设的候选姿态角集合可以由本领域的技术人员根据实际需要进行设置，本实施例对此不作具体限定。

在一个例子中，预设的候选姿态角集合记为r_n，r_n＝{-90,-90+q,-90+2q,-90+3q,…,90，式中，q为预设的步进因子，0<q<90，集合rn中共有N个元素，即候选姿态角集合中有N个候选姿态角。

步骤103，根据训练样本、联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型。

在具体实现中，服务器在为训练样本标注上联合概率分布后，可以将标注有联合概率分布的训练样本输入至预设的深度学习网络中，根据预设的深度学习网络输出的特征、训练样本上标注的联合概率分布和预设的损失函数计算本次训练的损失值，根据损失值对预设的深度学习网络进行调参，以此根据训练样本集对预设的深度学习网络进行有监督的迭代训练，得到用于估计二维人脸图像的人脸姿态角的人脸姿态角估计模型。

本实施例，服务器选择二维人脸图像为训练样本，先根据训练样本预标注的左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角这些关键点的坐标，获取训练样本的包含俯仰角和偏航角的人脸姿态角粗标签，再根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布，最后根据训练样本、训练样本的联合概率分布和预设的损失函数，训练预设的深度学习网络，得到用于估计人脸图像的人脸姿态角的人脸姿态角估计模型，这样的人脸姿态角估计模型只需要根据二维图像的二维信息即可估计出人脸姿态角，不需要依赖深度相机来拍摄三维信息，模型的训练阶段只需要人工标注左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角这些关键点的坐标，这些关键点很容易标注可以保证标注的准确率，同时，本申请的实施例使用人脸姿态角的联合概率分布作为训练用的标签，能够容忍一定的误差，使得训练得到的人脸姿态角估计模型稳定、可靠，同时，整个训练过程的计算量很小，训练所需的时间比较短，训练得到的模型规模也比较小，便于部署在计算资源紧张的硬件平台，从而快速、准确地估计出人脸图像的人脸姿态角。

在一个实施例中，服务器根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布，可以通过如图2所示的各步骤实现，具体包括：

步骤201，根据人脸姿态角粗标签中的俯仰角和偏航角，生成均值向量。

在具体实现中，服务器将人脸姿态角粗标签中的俯仰角记为pitch，将人脸姿态角粗标签中的偏航角即为yaw，服务器根据yaw和pitch，生成均值向量v＝[yaw,pitch]。

步骤202，根据预设的标量参数和二维单位矩阵，生成协方差矩阵。

在具体实现中，二维单位矩阵为：

预设的标量参数可以由本领域的技术人员根据经验进行设置，服务器将预设的标量参数记为b，服务器根据预设的标量参数和二维单位矩阵，生成协方差矩阵为：s＝b²I。

步骤203，根据预设的候选姿态角集合，生成二维的自变量集合。

在具体实现中，预设的候选姿态角集合即一维的自变量集合，服务器在计算联合概率分布时，需要的是二维的自变量，服务器可以将预设的候选姿态角集合中的各候选姿态角进行两两组合，生成若干二维的自变量，并生成二维的自变量集合。

在一个例子中，预设的候选姿态角集合记为r_n，r_n＝{-90,-90+q,-90+2q,-90+3q,…,90，式中，q为预设的步进因子，0<q<90，集合rn中共有N个元素，即候选姿态角集合中有N个候选姿态角

步骤204，根据均值向量、协方差矩阵和二维的自变量集合，计算得到训练样本的人脸姿态角的联合概率分布。

在具体实现中，服务器在生成均值向量、协方差矩阵和二维的自变量集合后，可以根据均值向量、协方差矩阵和二维的自变量集合，计算得到训练样本的人脸姿态角的联合概率分布。

在一个例子中，服务器可以通过以下公式，根据均值向量、协方差矩阵和二维的自变量集合，计算得到训练样本的人脸姿态角的联合概率分布：

R_mn＝(r_m,r_n),m＝1,2,3,…,N.n＝1,2,3,…,N

v＝[yaw,pitch]

s＝b²I

式中，L为训练样本的人脸姿态角的联合概率分布，s为协方差矩阵，b为预设的标量参数，I为二维单位矩阵，v为均值向量，yaw为所述人脸姿态角粗标签中的偏航角，pitch为所述人脸姿态角粗标签中的俯仰角，R_mn为二维的自变量集合中的二维的自变量，r_m为第m个候选姿态角，r_n为第n个候选姿态角。

本实施例，所述根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布，包括：根据所述人脸姿态角粗标签中的俯仰角和偏航角，生成均值向量；根据预设的标量参数和二维单位矩阵，生成协方差矩阵；根据预设的候选姿态角集合，生成二维的自变量集合；其中，所述二维的自变量集合包括若干二维的自变量，所述二维的自变量由所述候选姿态角集合中的两个候选姿态角组成；根据所述均值向量、所述协方差矩阵和所述二维的自变量集合，计算得到所述训练样本的人脸姿态角的联合概率分布，预设的候选姿态角集合可以根据实际需要进行灵活设置，基于不同的候选姿态角集合确定出的训练样本的人脸姿态角的联合概率分布的精细化程度不同，大幅提升模型训练过程的灵活性，从而训练出适用于不同环境的人脸姿态角估计模型，进一步满足人脸姿态角估计的实际需要。

在一个实施例中，深度学习网络包括主干网络、估计分支网络和修正分支网络，服务器根据训练样本、联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型，可以由如图3所示的各步骤实现，具体包括：

步骤301，将训练样本输入至主干网络，获取主干网络输出的第一特征。

在具体实现中，服务器将标注有联合概率分布的训练样本输入至预设的深度学习网络的主干网络中，获取主干网络输出的第一特征，第一特征可以是训练样本即二维人脸图像的抽象形状的语义特征。

在一个例子中，深度学习网络的主干网络记为n_b，服务器将训练样本输入至n_b，获取n_b输出的第一特征为f_b。

步骤302，将第一特征输入至估计分支网络，获取估计分支网络输出的第二特征。

在具体实现中，主干网络的输出为估计分支网络的输入，服务器将主干网络输出的第一特征输入至估计分支网络中，获取估计分支网络输出的第二特征，第二特征为比第一特征更高维度的特征。

在一个例子中，深度学习网络的估计分支网络记为n_p，服务器将f_b输入至n_p，获取n_p输出的第二特征为

其中，

为N×N维的特征。

步骤303，将第二特征和联合概率分布输入至修正分支网络，获取修正分支网络输出的第三特征。

在具体实现中，修正分支网络的输入为拼接特征，即第二特征和联合概率分布，服务器将训练样本标注的联合概率分布和估计分支网络输出的第二特征进行拼接，输入至修正分支网络中，获取修正分支网络输出的第三特征。

在一个例子中，深度学习网络的修正分支网络记为n_d，服务器将n_p输出的

和训练样本标注的联合概率分布L进行拼接，得到拼接特征

服务器将

输入至n_d，获得n_d输出的第三特征f_d。

步骤304，根据第二特征、第三特征、联合概率分布和预设的损失函数，计算得到损失值。

在具体实现中，服务器在获取到估计分支网络输出的第二特征和修正分支网络输出的第三特征后，可以根据第二特征、第三特征、联合概率分布和预设的损失函数，计算得到损失值。

在一个例子中，服务器可以通过以下公式，根据第二特征、第三特征、联合概率分布和预设的损失函数，计算得到损失值：

式中，loss为损失值，α为预设的第一超参数，一般设置为0或1，β为预设的第二超参数，一般设置为0或1，f_d为第三特征，

为第二特征，L为联合概率分布。

步骤305，根据损失值调整深度学习网络的参数，并判断调整后的深度学习网络是否满足预设的收敛条件，如果是，执行步骤306，否则，执行步骤307。

在具体实现中，服务器计算得到损失值后，可以根据损失值，调用预设的优化算法，如反向传播算法、参数迭代算法等，调整深度学习网络的参数，并判断调整后的深度学习网络是否满足预设的收敛条件，其中，预设的收敛条件可以由本领域的技术人员根据实际需要进行设置，本申请的实施例对此不作具体限定。

在一个例子中，主干网络的参数记为w_b，估计分支网络的参数记为w_p，修正分支网络的参数记为w_d，服务器计算得到损失值loss后，可以通过以下公式，根据损失值，调用预设的优化算法调整深度学习网络的参数：

式中，argmin()为预设的优化算法的函数表达式。

在一个例子中，预设的收敛条件可以为训练次数是否大于预设的训练次数阈值，若当前训练次数大于预设的训练次数阈值，则认为调整后的深度学习网络收敛。

在一个例子中，预设的收敛条件可以为损失值是否小于预设的损失值阈值，若损失值小于预设的损失值阈值，则认为调整后的深度学习网络收敛。

步骤306，输出调整后的深度学习网络为人脸姿态角估计模型。

步骤307，进行下一轮训练。

在具体实现中，若服务器确定调整后的深度学习网络满足预设的收敛条件，即调整后的深度学习网络收敛，则服务器可以输出调整后的深度学习网络为人脸姿态角估计模型；若服务器确定调整后的深度学习网络不满足预设的收敛条件，即调整后的深度学习网络不收敛，则服务器可以继续进行下一轮训练。

本实施例，所述深度学习网络包括主干网络、估计分支网络和修正分支网络；所述根据所述训练样本、所述联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型，包括：将所述训练样本输入至所述主干网络，获取所述主干网络输出的第一特征；将所述第一特征输入至所述估计分支网络，获取所述估计分支网络输出的第二特征；将所述第二特征和所述联合概率分布输入至所述修正分支网络，获取所述修正分支网络输出的第三特征；根据所述第二特征、所述第三特征、所述联合概率分布和预设的损失函数，计算得到损失值；根据所述损失值调整所述深度学习网络的参数，并判断调整后的所述深度学习网络是否满足预设的收敛条件；若调整后的所述深度学习网络满足预设的收敛条件，则输出所述调整后的所述深度学习网络为人脸姿态角估计模型，根据深度学习网络中的多个分支网络输出的特征，以及训练样本的人脸姿态角的联合概率分布共同计算损失值，根据损失值对深度学习网络进行优化调参，可以友好地提升对深度学习网络的优化效果，从而获得更稳定、可靠的人脸姿态角估计模型。

在一个实施例中，服务器根据训练样本预标注的关键点的坐标，获取训练样本的人脸姿态角粗标签，可以通过如图4所示的各步骤实现，具体包括：

步骤401，根据左眼睛中心的坐标、右眼睛中心的坐标和鼻尖的坐标，确定第一目标点的坐标。

在具体实现中，服务器将左眼睛中心的坐标记为P₁(x₁,y₁)，右眼睛中心的坐标记为P₂(x₂,y₂)，鼻尖坐标记为P₃(x₃,y₃)，左嘴角坐标记为P₄(x₄,y₄)，右嘴角坐标记为P₅(x₅,y₅)，服务器首先需要根据P₁(x₁,y₁)、P₂(x₂,y₂)和P₃(x₃,y₃)确定第一目标点P₆(x₆,y₆)的位置：若服务器确定x₁＝x₂，则确定x₆＝(x₁+x₂)/2，y₆＝y₃；若服务器确定y₁＝y₂，则确定x₆＝x₃，y₆＝(y₁+y₂)/2；若服务器确定x₁≠x₂，且y₁≠y₂，则计算k₆＝(y₁-y₂)/(x₁-x₂),x₆＝(y₃-y₁+k₆x₁+x₃/k₆)/(k₆+1/k₆)，y₆＝y₁+k₆(x₆-x₁)。

步骤402，根据左眼睛中心的坐标、右眼睛中心的坐标和第一目标点的坐标，计算得到第一距离、第二距离和第三距离。

在具体实现中，服务器在得到第一目标点的坐标后，可以根据左眼睛中心的坐标、右眼睛中心的坐标和第一目标点的坐标，计算得到第一距离d₁、第二距离d₂和第三距离d₃，其中，第一距离为左眼睛中心与右眼睛中心之间的距离，第二距离为左眼睛中心与第一目标点之间的距离，第三距离为右眼睛中心与第一目标点之间的距离，

步骤403，根据第一距离、第二距离和第三距离，确定训练样本的人脸姿态角粗标签中的偏航角。

在具体实现中，服务器在计算得到第一距离、第二距离和第三距离后，可以根据第一距离、第二距离和第三距离，确定训练样本的人脸姿态角粗标签中的偏航角yaw：若d₂≥d₁，则服务器确定yaw＝π/2；若d₃≥d₁，则服务器确定yaw＝-π/2；若d₂<d₁且d₃<d₁，则服务器确定yaw＝tanh[{(d₃-d₂)/d₁}·(π/2)]。

步骤404，根据左嘴角的坐标、右嘴角的坐标和鼻尖的坐标，确定第二目标点的坐标。

在具体实现中，服务器可以根据P₃(x₃,y₃)、P₄(x₄,y₄)和P₅(x₅,y₅)，确定出第二目标点P₇(x₇,y₇)的位置：若服务器确定x₄＝x₅，则确定x₇＝(x₄+x₅)/2，y₇＝y₃；若服务器确定y₄＝y₅，则确定x₇＝x₃，y₇＝(y₄+y₅)/2；若服务器确定x₄≠x₅，且y₄≠y₅，则计算k₇＝(y₁-y₂)/(x₁-x₂),x₇＝(y₃-y₄+k₇x₄+x₃/k₇)/(k₇+1/k₇)，y₇＝y₄+k₇(x₇-x₄)。

步骤405，根据鼻尖的坐标、第一目标点的坐标和第二目标点的坐标，计算得到第四距离、第五距离和第六距离。

在具体实现中，服务器在确定第二目标点的位置后，可以根据鼻尖的坐标、第一目标点的坐标和第二目标点的坐标，计算得到第四距离、第五距离和第六距离，其中，第四距离d₄为第一目标点与第二目标点之间的距离，第五距离d₅为鼻尖与第一目标点之间的距离，第六距离d₆为鼻尖与第二目标点之间的距离，

步骤406，根据第四距离、第五距离和第六距离，确定训练样本的人脸姿态角粗标签中的俯仰角。

在具体实现中，服务器在计算得到第三距离、第四距离和第五距离后，可以根据第四距离、第五距离和第六距离，确定训练样本的人脸姿态角粗标签中的俯仰角pitch，若d₅≥d₄，则服务器确定pitch＝π/2；若d₆≥d₄，则服务器确定pitch＝-π/2；若d₅<d₄且d₆<d₄，则服务器确定pitch＝tanh[{(d₅-d₆)/d₄}·(π/2)]。

本实施例，所述根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签，包括：根据所述左眼睛中心的坐标、所述右眼睛中心的坐标和所述鼻尖的坐标，确定第一目标点的坐标；根据所述左眼睛中心的坐标、所述右眼睛中心的坐标和所述第一目标点的坐标，计算得到第一距离、第二距离和第三距离；其中，所述第一距离为所述左眼睛中心与所述右眼睛中心之间的距离，所述第二距离为所述左眼睛中心与所述第一目标点之间的距离，所述第三距离为所述右眼睛中心与所述第一目标点之间的距离；根据所述第一距离、所述第二距离和所述第三距离，确定所述训练样本的人脸姿态角粗标签中的偏航角；根据所述左嘴角的坐标、所述右嘴角的坐标和所述鼻尖的坐标，确定第二目标点的坐标；根据所述鼻尖的坐标、所述第一目标点的坐标和所述第二目标点的坐标，计算得到第四距离、第五距离和第六距离；其中，所述第四距离为所述第一目标点与所述第二目标点之间的距离，所述第五距离为所述鼻尖与所述第一目标点之间的距离，所述第六距离为所述鼻尖与所述第二目标点之间的距离；根据所述第四距离、所述第五距离和所述第六距离，确定所述训练样本的人脸姿态角粗标签中的俯仰角，虽然本申请根据训练样本预标注的关键点的坐标，只是为了获取人脸姿态角粗标签，但也要保证人脸姿态角粗标签是合理的、符合训练样本的真实情况的，因此服务器先根据五个关键点确定出第一目标点、第二目标点作为基准点，再根据这两个基准点确定第一距离至第六距离，根据第一距离、第二距离、第三距离确定偏航角，根据第四距离、第五距离和第六距离确定俯仰角，可以获得较为准确、合理的人脸姿态角的粗标签。

在一个实施例中，服务器根据人脸姿态角估计模型估计二维人脸图像的人脸姿态角，可以通过如图5所示的各步骤实现，具体包括：

步骤501，将待估计图像输入至人脸姿态角估计模型中，获取模型输出的待估计图像的第二特征。

在具体实现中，服务器在使用人脸姿态角估计模型估计二维人脸图像的人脸姿态角时，可以将待估计图像，即二维人脸图像输入至人脸姿态角估计模型中，获取模型输出的待估计图像的第二特征。

步骤502，基于第二特征，计算人脸姿态角的偏航角对应的边缘概率分布的数学期望，得到偏航角。

步骤503，基于第二特征，计算人脸姿态角的俯仰角对应的边缘概率分布的数学期望，得到俯仰角。

在具体实现中，服务器获取模型输出的待估计图像的第二特征后，可以基于第二特征，分别计算人脸姿态角的偏航角对应的边缘概率分布的数学期望，和人脸姿态角的俯仰角对应的边缘概率分布的数学期望，从而得到待估计图像的偏航角和俯仰角。

在一个例子中，服务器可以通过以下公式基于第二特征，计算人脸姿态角的偏航角对应的边缘概率分布的数学期望，得到偏航角，并计算人脸姿态角的俯仰角对应的边缘概率分布的数学期望，得到俯仰角：

式中，

为第二特征，yaw为偏航角，pitch为俯仰角。

本实施例，通过以下步骤，根据模型估计二维人脸图像的人脸姿态角：将待估计图像输入至模型中，获取模型输出的待估计图像的第二特征；其中，待估计图像为二维人脸图像；基于第二特征，计算人脸姿态角的偏航角对应的边缘概率分布的数学期望，得到偏航角；基于第二特征，计算人脸姿态角的俯仰角对应的边缘概率分布的数学期望，得到俯仰角，使用预先训练好的人脸姿态角估计模型来估计二维人脸图像的人脸姿态角，服务器只需根据人脸姿态角估计模型输出的第二特征来计算偏航角和俯仰角分别对应的边缘概率分布的数学期望，即可准确地估计出人脸姿态角，整个过程计算量很小，可以大幅提升人脸姿态角的估计速度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请的另一个实施例涉及一种模型训练装置，下面对本实施例的模型训练装置的细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本例的必须，图6是本实施例所述的模型训练装置的示意图，包括：第一计算单元601、第二计算单元602、网络生成单元603和训练单元604。

第一计算单元601用于根据训练样本预标注的关键点的坐标，获取训练样本的人脸姿态角粗标签，并将人脸姿态角粗标签发送至第二计算单元602；其中，训练样本为二维人脸图像，关键点包括左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角，人脸姿态角粗标签包括俯仰角和偏航角。

第二计算单元602用于根据人脸姿态角粗标签和预设的候选姿态角集合，获取训练样本的人脸姿态角的联合概率分布，并将联合概率分布发送至训练单元604。

网络生成单元603用于生成深度学习网络；

训练单元604用于根据训练样本、联合概率分布和预设的损失函数，训练网络603生成单元生成的深度学习网络，得到人脸姿态角估计模型；其中，人脸姿态角估计模型用于估计二维人脸图像的人脸姿态角。

不难发现，本实施例为与上述方法实施例对应的装置实施例，本实施例可以与上述方法实施例互相配合实施。上述实施例中提到的相关技术细节和技术效果在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施例中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本申请的另一个实施例涉及一种电子设备，如图7所示，包括：至少一个处理器701；以及，与所述至少一个处理器701通信连接的存储器702；其中，所述存储器702存储有可被所述至少一个处理器701执行的指令，所述指令被所述至少一个处理器701执行，以使所述至少一个处理器701能够执行上述各实施例中的模型训练方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本申请的另一个实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签；其中，所述训练样本为二维人脸图像，所述关键点包括左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角，所述人脸姿态角粗标签包括俯仰角和偏航角；

根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布；

根据所述训练样本、所述联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型；其中，所述人脸姿态角估计模型用于估计二维人脸图像的人脸姿态角。

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布，包括：

根据所述人脸姿态角粗标签中的俯仰角和偏航角，生成均值向量；

根据预设的标量参数和二维单位矩阵，生成协方差矩阵；

根据预设的候选姿态角集合，生成二维的自变量集合；其中，所述二维的自变量集合包括若干二维的自变量，所述二维的自变量由所述候选姿态角集合中的两个候选姿态角组成；

根据所述均值向量、所述协方差矩阵和所述二维的自变量集合，计算得到所述训练样本的人脸姿态角的联合概率分布。

3.根据权利要求2所述的模型训练方法，其特征在于，通过以下公式，根据所述均值向量、所述协方差矩阵和所述二维的自变量集合，计算得到所述训练样本的人脸姿态角的联合概率分布：

R_mn＝(r_m，r_n)，m＝1，2，3，...，N·n＝1，2，3，...，W

v＝[yaw，pitch]

s＝b²I

其中，L为所述训练样本的人脸姿态角的联合概率分布，s为所述协方差矩阵，b为预设的标量参数，I为二维单位矩阵，v为所述均值向量，yaw为所述人脸姿态角粗标签中的偏航角，pitch为所述人脸姿态角粗标签中的俯仰角，R_mn为所述二维的自变量，r_m为第m个候选姿态角，r_n为第n个候选姿态角。

4.根据权利要求1-3任一项所述的模型训练方法，其特征在于，所述深度学习网络包括主干网络、估计分支网络和修正分支网络；

所述根据所述训练样本、所述联合概率分布和预设的损失函数，训练预设的深度学习网络，得到人脸姿态角估计模型，包括：

将所述训练样本输入至所述主干网络，获取所述主干网络输出的第一特征；

将所述第一特征输入至所述估计分支网络，获取所述估计分支网络输出的第二特征；

将所述第二特征和所述联合概率分布输入至所述修正分支网络，获取所述修正分支网络输出的第三特征；

根据所述第二特征、所述第三特征、所述联合概率分布和预设的损失函数，计算得到损失值；

根据所述损失值调整所述深度学习网络的参数，并判断调整后的所述深度学习网络是否满足预设的收敛条件；

若调整后的所述深度学习网络满足预设的收敛条件，则输出所述调整后的所述深度学习网络为人脸姿态角估计模型。

5.根据权利要求4所述的模型训练方法，其特征在于，通过以下公式，根据所述第二特征、所述第三特征、所述联合概率分布和预设的损失函数，计算得到损失值：

其中，loss为所述损失值，α为预设的第一超参数，β为预设的第二超参数，f_d为所述第三特征，

为所述第二特征，L为所述联合概率分布。

6.根据权利要求1-3任一项所述的模型训练方法，其特征在于，所述根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签，包括：

根据所述左眼睛中心的坐标、所述右眼睛中心的坐标和所述鼻尖的坐标，确定第一目标点的坐标；

根据所述左眼睛中心的坐标、所述右眼睛中心的坐标和所述第一目标点的坐标，计算得到第一距离、第二距离和第三距离；其中，所述第一距离为所述左眼睛中心与所述右眼睛中心之间的距离，所述第二距离为所述左眼睛中心与所述第一目标点之间的距离，所述第三距离为所述右眼睛中心与所述第一目标点之间的距离；

根据所述第一距离、所述第二距离和所述第三距离，确定所述训练样本的人脸姿态角粗标签中的偏航角；

根据所述左嘴角的坐标、所述右嘴角的坐标和所述鼻尖的坐标，确定第二目标点的坐标；

根据所述鼻尖的坐标、所述第一目标点的坐标和所述第二目标点的坐标，计算得到第四距离、第五距离和第六距离；其中，所述第四距离为所述第一目标点与所述第二目标点之间的距离，所述第五距离为所述鼻尖与所述第一目标点之间的距离，所述第六距离为所述鼻尖与所述第二目标点之间的距离；

根据所述第四距离、所述第五距离和所述第六距离，确定所述训练样本的人脸姿态角粗标签中的俯仰角。

7.根据权利要求4所述的模型训练方法，其特征在于，通过以下步骤，根据所述模型估计二维人脸图像的人脸姿态角：

将待估计图像输入至所述模型中，获取所述模型输出的所述待估计图像的所述第二特征；其中，所述待估计图像为二维人脸图像；

基于所述第二特征，计算人脸姿态角的偏航角对应的边缘概率分布的数学期望，得到所述偏航角；

基于所述第二特征，计算人脸姿态角的俯仰角对应的边缘概率分布的数学期望，得到所述俯仰角。

8.一种模型训练装置，其特征在于，包括：第一计算单元、第二计算单元、网络生成单元和训练单元；

所述第一计算单元用于根据训练样本预标注的关键点的坐标，获取所述训练样本的人脸姿态角粗标签，并将所述人脸姿态角粗标签发送至所述第二计算单元；其中，所述训练样本为二维人脸图像，所述关键点包括左眼睛中心、右眼睛中心、鼻尖、左嘴角和右嘴角，所述人脸姿态角粗标签包括俯仰角和偏航角；

所述第二计算单元用于根据所述人脸姿态角粗标签和预设的候选姿态角集合，获取所述训练样本的人脸姿态角的联合概率分布，并将所述联合概率分布发送至所述训练单元；

所述网络生成单元用于生成深度学习网络；

所述训练单元用于根据所述训练样本、所述联合概率分布和预设的损失函数，训练所述网络生成单元生成的深度学习网络，得到人脸姿态角估计模型；其中，所述人脸姿态角估计模型用于估计二维人脸图像的人脸姿态角。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的模型训练方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的模型训练方法。