CN115439913A

CN115439913A - 头部姿态的识别方法和装置、处理器及电子设备

Info

Publication number: CN115439913A
Application number: CN202211158173.7A
Authority: CN
Inventors: 代欢欢; 宋府昌; 张丽; 张俊俊
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-06

Abstract

本申请公开了一种头部姿态的识别方法和装置、处理器及电子设备，涉及人工智能技术领域，该方法包括：获取待处理的目标图像，其中，所述目标图像中至少包括目标对象的头部图像；将所述目标图像输入到目标姿态识别模型中，通过所述目标姿态识别模型输出头部姿态角，其中，所述目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，所述特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，所述抗混叠卷积层由高斯滤波器构建得到，其中，所述头部姿态角用于表征所述目标对象的头部姿态。通过本申请，解决了相关技术中的神经网络模型容易产生图像混叠现象，导致预测头部姿态的准确率比较低的问题。

Description

头部姿态的识别方法和装置、处理器及电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种头部姿态的识别方法和装置、处理器及电子设备。

背景技术

头部姿态估计研究在很多领域都具有广泛的应用场景。例如：人脸认证系统、驾驶员监测系统、虚拟现实、安防监控系统、学生课堂注意等等。在金融行业中，各类应用系统都包含了人脸识别功能，且为了保证识别的准确性，应用系统的人脸识别步骤还包含了各种头部转向动作，例如点头、摇头、向左右转头等，这些都属于头部姿态估计的实际应用。在头部姿态估计研究历程中可以发现，头部姿态估计算法发展方向逐渐由传统的模式识别向深度学习方法发展。近些年，深度学习在头部姿态估计研究领域大放异彩，许多学者选择深度学习方法来进行头部姿态估计。深度学习通常采用卷积神经网络从海量数据中学习到鲁棒性较好的特征。但是神经网络中使用频率较高的降采样方法(例如最大池化，跨步卷积)通常会忽略经典采样定理，使降采样后的图像产生混叠现象，进而影响网络模型的预测精度。

针对相关技术中的神经网络模型容易产生图像混叠现象，导致预测头部姿态的准确率比较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种头部姿态的识别方法和装置、处理器及电子设备，以解决相关技术中的神经网络模型容易产生图像混叠现象，导致预测头部姿态的准确率比较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种头部姿态的识别方法。该方法包括：获取待处理的目标图像，其中，所述目标图像中至少包括目标对象的头部图像；将所述目标图像输入到目标姿态识别模型中，通过所述目标姿态识别模型输出头部姿态角，其中，所述目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，所述特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，所述抗混叠卷积层由高斯滤波器构建得到，其中，所述头部姿态角用于表征所述目标对象的头部姿态。

进一步地，通过所述目标姿态识别模型输出头部姿态角包括：通过特征提取层对所述目标图像进行处理，得到目标特征图；通过头部姿态识别层对所述目标特征图进行识别，得到所述头部姿态角。

进一步地，通过特征提取层对所述目标图像进行处理，得到目标特征图包括：通过所述最大池化层对所述目标图像进行池化，得到候选特征图；通过所述抗混叠卷积层对所述候选特征图进行卷积，得到处理后的候选特征图；通过所述降采样层对所述处理后的候选特征图进行采样，得到所述目标特征图。

进一步地，在通过所述目标姿态识别模型输出头部姿态角之后，所述方法还包括：将所述头部姿态角发送至客户端；接收所述客户端返回的对所述头部姿态角的调整信息，其中，所述调整信息为将所述目标图像对应的头部姿态调整至目标姿态；依据所述头部姿态角的调整信息优化所述目标姿态识别模型。

进一步地，所述目标姿态识别模型采用以下步骤训练得到：获取多个训练样本，其中，所述多个训练样本至少包括：多个训练样本图像和所述多个训练样本图像对应的标准头部姿态角和所述多个训练样本图像对应的标准人脸关键点信息；将所述多个训练样本输入到初始姿态识别模型中，通过所述初始姿态识别模型中的人脸关键点检测层得到预测人脸关键点信息，并通过所述初始姿态识别模型中的头部姿态识别层得到预测头部姿态角；基于所述标准头部姿态角、所述预测头部姿态角、所述标准人脸关键点信息和所述预测人脸关键点信息，构建目标损失函数；依据所述目标损失函数对所述初始姿态识别模型进行训练，以得到所述目标姿态识别模型。

进一步地，基于所述标准头部姿态角、所述预测头部姿态角、所述标准人脸关键点信息和所述预测人脸关键点信息，构建目标损失函数包括：对所述标准头部姿态角和所述预测头部姿态角的偏差进行计算，得到第一偏差量，并依据所述第一偏差量构建第一损失函数；对所述标准人脸关键点信息和所述预测人脸关键点信息的偏差进行计算，得到第二偏差量，并依据所述第二偏差量构建第二损失函数；基于所述第一损失函数和所述第二损失函数构建所述目标损失函数。

进一步地，基于所述第一损失函数和所述第二损失函数构建所述目标损失函数包括：设置所述第一损失函数的第一权重值，并设置所述第二损失函数的第二权重值；依据所述第一损失函数，所述第二损失函数，所述第一权重值和所述第二权重值，构建所述目标损失函数。

为了实现上述目的，根据本申请的另一方面，提供了一种头部姿态的识别装置。该装置包括：第一获取单元，用于获取待处理的目标图像，其中，所述目标图像中至少包括目标对象的头部图像；输出单元，用于将所述目标图像输入到目标姿态识别模型中，通过所述目标姿态识别模型输出头部姿态角，其中，所述目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，所述特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，所述抗混叠卷积层由高斯滤波器构建得到，其中，所述头部姿态角用于表征所述目标对象的头部姿态。

进一步地，所述输出单元包括：处理模块，用于通过特征提取层对所述目标图像进行处理，得到目标特征图；识别模块，用于通过头部姿态识别层对所述目标特征图进行识别，得到所述头部姿态角。

进一步地，所述处理模块包括：池化子模块，用于通过所述最大池化层对所述目标图像进行池化，得到候选特征图；卷积子模块，用于通过所述抗混叠卷积层对所述候选特征图进行卷积，得到处理后的候选特征图；采样子模块，用于通过所述降采样层对所述处理后的候选特征图进行采样，得到所述目标特征图。

进一步地，所述装置还包括：发送单元，用于在通过所述目标姿态识别模型输出头部姿态角之后，将所述头部姿态角发送至客户端；接收单元，用于接收所述客户端返回的对所述头部姿态角的调整信息，其中，所述调整信息为将所述目标图像对应的头部姿态调整至目标姿态；优化单元，用于依据所述头部姿态角的调整信息优化所述目标姿态识别模型。

进一步地，所述目标姿态识别模型采用以下步骤训练得到：第二获取单元，用于获取多个训练样本，其中，所述多个训练样本至少包括：多个训练样本图像和所述多个训练样本图像对应的标准头部姿态角和所述多个训练样本图像对应的标准人脸关键点信息；输入单元，用于将所述多个训练样本输入到初始姿态识别模型中，通过所述初始姿态识别模型中的人脸关键点检测层得到预测人脸关键点信息，并通过所述初始姿态识别模型中的头部姿态识别层得到预测头部姿态角；构建单元，用于基于所述标准头部姿态角、所述预测头部姿态角、所述标准人脸关键点信息和所述预测人脸关键点信息，构建目标损失函数；依据所述目标损失函数对所述初始姿态识别模型进行训练，以得到所述目标姿态识别模型。

进一步地，所述构建单元包括：第一计算模块，用于对所述标准头部姿态角和所述预测头部姿态角的偏差进行计算，得到第一偏差量，并依据所述第一偏差量构建第一损失函数；第二计算模块，用于对所述标准人脸关键点信息和所述预测人脸关键点信息的偏差进行计算，得到第二偏差量，并依据所述第二偏差量构建第二损失函数；构建模块，用于基于所述第一损失函数和所述第二损失函数构建所述目标损失函数。

进一步地，所述构建模块包括：设置子模块，用于设置所述第一损失函数的第一权重值，并设置所述第二损失函数的第二权重值；构建子模块，用于依据所述第一损失函数，所述第二损失函数，所述第一权重值和所述第二权重值，构建所述目标损失函数。

为了实现上述目的，根据本申请的一个方面，提供了一种处理器，处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的头部姿态的识别方法。

为了实现上述目的，根据本申请的一个方面，提供了一种电子设备，电子设备包括一个或多个处理器和存储器，存储器用于存储一个或多个处理器实现上述任意一项所述的头部姿态的识别方法。

通过本申请，采用以下步骤：获取待处理的目标图像，其中，所述目标图像中至少包括目标对象的头部图像；将所述目标图像输入到目标姿态识别模型中，通过所述目标姿态识别模型输出头部姿态角，其中，所述目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，所述特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，所述抗混叠卷积层由高斯滤波器构建得到，其中，所述头部姿态角用于表征所述目标对象的头部姿态，解决了相关技术中的神经网络模型容易产生图像混叠现象，导致预测头部姿态的准确率比较低的问题。通过目标姿态识别模型对目标图像进行识别处理，得到目标图像对应的头部姿态角，目标姿态识别模型中包括抗混叠卷积层，能够有效避免图像出现混叠现象，进而达到了提高预测头部姿态的准确率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是现有技术中的神经网络模型训练和识别的示意图；

图2是根据本申请实施例提供的头部姿态的识别方法的流程图；

图3是根据本申请实施例提供的目标姿态评估模型的应用流程图；

图4是根据本申请实施例提供的目标姿态评估模型的训练示意图；

图5是根据本申请实施例提供的头部姿态的识别装置的示意图；

图6是根据本申请实施例提供的电子设备的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

头部姿态估计：在计算机视觉领域中，头部姿态估计(head pose estimation)是指从二维面部图像推断出三维空间中人的头部朝向的过程。

欧拉旋转角：头部姿态在三维空间中可以采用欧拉旋转角来表示，该旋转角由三个方向上的偏转角度来确定。通常用绕X轴方向(即俯仰角pitch)、Y轴方向(即偏航角yaw)以及垂直于平面的Z轴方向(即旋转角roll)的偏转来表示。

混叠现象：在对连续信号进行离散采样的过程中，如果原始信号中的高频成分(sf代表采样频率)，这些信号经过采样后就会被映射到低频信号，导致采样后的信号就会出现叠影，即产生了混叠。

需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

如图1所示，为现有技术中的神经网络模型的训练和使用示意图。步骤1：设计网络模型，目前广泛使用的模型有ResNet、VGG等，模型的输入是图像，输出是网络预测到的头部姿态角，即三个方向上的偏转角度；步骤2：训练网络模型，该阶段输入的是待训练的数据集和对应的真实头部姿态角标签，网络通过各种逻辑运算获得待预测样本的头部姿态角估计值，接下来通过预定义好的损失函数来计算估计值与真实头部姿态角的损失值，然后利用网络优化算法反复迭代训练数据集以期望降低训练集上的损失值，进而使网络模型的参数得到相应的学习；步骤3：测试网络模型，输入是待将测试图像，输出为网络预测到的头部姿态角度，并且得到该网络模型在测试集上的损失值。但是神经网络中使用频率较高的降采样方法(例如最大池化，跨步卷积)通常会忽略经典采样定理，使降采样后的图像产生混叠现象，进而影响网络模型的预测精度。

基于上述技术背景提出了一种头部姿态的识别方法，下面结合优选的实施步骤对本发明进行说明，图2是根据本申请实施例提供的头部姿态的识别方法的流程图，如图2所示，该方法包括如下步骤：

步骤S201，获取待处理的目标图像，其中，目标图像中至少包括目标对象的头部图像；

步骤S202，将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型输出头部姿态角，其中，目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，抗混叠卷积层由高斯滤波器构建得到，其中，头部姿态角用于表征目标对象的头部姿态。

具体地，获取需要进行头部姿态识别的目标图像，目标图像中包括目标对象的做某一头部动作时的头部图像，头部动作可以是缓慢点头、向右摇头和向左摇头等动作。将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型对目标图像进行识别处理，得到目标图像对应的头部姿态角。

目标姿态识别模型中至少包括特征提取层和头部姿态识别层，特征提取层中包括最大池化层、抗混叠卷积层和降采样层。在卷积神经网络中，通常使用步长(stride)为2的最大池化(max-pooling)层来实现图像的降采样。max-pooling可以分为两个过程，最大池化操作和降采样操作。为了使最大池化降采样满足采样定理，可以对降采样之前的信号进行低通滤波处理来实现抗混叠。抗混叠降采样和最大池化降采样的区别是在第一步最大池化操作与第二步降采样之间使用一个抗混叠卷积层来对候选特征图进行卷积，实现低通滤波，过滤掉特征图中的高频成分。得到低通滤波后的特征图后，再对它进行降采样操作，便得到了无明显混叠现象的降采样特征图。

因此，通过上述的目标姿态识别模型可以有效避免图像混叠的现象，有效提高了头部姿态识别的准确性。

在一可选的实施例中，可以采用上述的目标姿态识别模型实现人脸识别，如图3所示。金融机构要在手机APP应用中添加面部识别功能，该刷脸功能的步骤里有缓慢点头、向右摇头和向左摇头等。客户需要根据页面提示完成相应的动作，当页面出现某一提示后，实时截取客户完成相应头部姿态过程中的部分帧图像，将截取到的图像送入目标姿态识别模型中，目标姿态识别模型输出头部姿态角(x，y，z)。接下来判定该预测出的头部姿态角是否在该动作对应的头部姿态角范围内，如果不在预设的范围内，则提示“请按指示完成指定动作”，指导客户重新执行动作，再重复上述判定流程。如果截取的图像通过模型预测出的头部姿态估计角均在该动作对应的头部姿态角范围内，则表明客户的动作符合要求，则跳入下一个动作流程。通过上述的目标姿态识别模型能够有效提高人脸识别的安全性。

如何通过目标姿态识别模型得到头部姿态角是至关重要的，因此，在本申请实施例提供的头部姿态的识别方法中，通过目标姿态识别模型输出头部姿态角包括以下内容：通过特征提取层对目标图像进行处理，得到目标特征图；通过头部姿态识别层对目标特征图进行识别，得到头部姿态角。通过特征提取层对目标图像进行处理，得到目标特征图包括：通过最大池化层对目标图像进行池化，得到候选特征图；通过抗混叠卷积层对候选特征图进行卷积，得到处理后的候选特征图；通过降采样层对处理后的候选特征图进行采样，得到目标特征图。

具体地，通过目标姿态识别模型中的最大池化层对目标图像进行池化，得到候选特征图，通过抗混叠卷积层对候选特征图进行卷积，得到处理后的候选特征图，然后，通过目标姿态识别模型中的降采样层对处理后的候选特征图进行采样，得到目标特征图，最后，通过目标姿态识别模型中的头部姿态识别层对目标特征图进行识别，得到头部姿态角。

需要说明的是，抗混叠卷积层由高斯平滑滤波器构建得到，通过高斯平滑滤波器进行抗混叠低通滤波能够有效避免图像混叠现象，高斯平滑的优点是水平和垂直方向呈现高斯分布，更突出了中心点在像素平滑后的权重，相比于其他低通滤波而言它有着更好的平滑效果。在卷积神经网络中，由于高斯函数具有可分离性，二维高斯滤波器可以通过两个一维高斯滤波器逐次卷积来实现，分别沿水平方向和垂直方向进行卷积，实现低通滤波。

在通过目标姿态识别模型输出头部姿态角之后，为了提高目标姿态识别模型的准确性，可以通过识别结果对目标姿态识别模型进行优化，具体还包括以下内容：将头部姿态角发送至客户端；接收客户端返回的对头部姿态角的调整信息，其中，调整信息为将目标图像对应的头部姿态调整至目标姿态；依据头部姿态角的调整信息优化目标姿态识别模型。

具体地，在目标姿态识别模型识别出的头部姿态角之后，首先将识别出的头部姿态角发送给客户端，在客户端与准确的头部姿态角进行对比，如果发现存在不一致的现象，那么在客户端将识别出的头部姿态角调整为准确的头部姿态角。然后根据调整的结果对目标姿态识别模型进行优化，进一步地提高目标姿态识别模型的准确性和领域泛化的性能。

在本申请实施例提供的头部姿态的识别方法中，目标姿态识别模型采用以下步骤训练得到：获取多个训练样本，其中，多个训练样本至少包括：多个训练样本图像和多个训练样本图像对应的标准头部姿态角和多个训练样本图像对应的标准人脸关键点信息；将多个训练样本输入到初始姿态识别模型中，通过初始姿态识别模型中的人脸关键点检测层得到预测人脸关键点信息，并通过初始姿态识别模型中的头部姿态识别层得到预测头部姿态角；基于标准头部姿态角、预测头部姿态角、标准人脸关键点信息和预测人脸关键点信息，构建目标损失函数；依据目标损失函数对初始姿态识别模型进行训练，以得到目标姿态识别模型。

具体地，构建包含头部信息的训练样本，训练样本的标签包含标准头部姿态角和标准人脸关键点信息。初始姿态识别模型包括特征提取层、人脸关键点检测层和头部姿态识别层三个核心层。其中，特征提取层加入了抗混叠卷积层，人脸关键点检测层和头部姿态识别层的输入是相同的，都来自于特征提取层的输出。

将训练样本输入到初始姿态识别模型中，通过初始姿态识别模型中的特征提取层得到训练样本的目标特征图。通过初始姿态识别模型中的人脸关键点检测层对目标特征图进行提取得到预测人脸关键点信息，通过初始姿态识别模型中的头部姿态识别层对目标特征图进行提取得到预测头部姿态角。然后通过标准头部姿态角、预测头部姿态角、标准人脸关键点信息和预测人脸关键点信息，构建目标损失函数，最后根据目标损失函数对初始姿态识别模型进行训练，以得到目标姿态识别模型。

综上所述，通过使用目标损失函数来同时约束人脸关键点检测任务和头部姿态识别任务的训练。不仅能够解决传统卷积神经网络降采样中出现的混叠效应，还能够增强目标姿态识别模型的泛化能力，有效提升了目标姿态识别模型的识别精度。

如何构建目标损失函数是至关重要的，因此，在本申请实施例提供的头部姿态的识别方法中，基于标准头部姿态角、预测头部姿态角、标准人脸关键点信息和预测人脸关键点信息，构建目标损失函数包括以下内容：对标准头部姿态角和预测头部姿态角的偏差进行计算，得到第一偏差量，并依据第一偏差量构建第一损失函数；对标准人脸关键点信息和预测人脸关键点信息的偏差进行计算，得到第二偏差量，并依据第二偏差量构建第二损失函数；基于第一损失函数和第二损失函数构建目标损失函数。基于第一损失函数和第二损失函数构建目标损失函数包括：设置第一损失函数的第一权重值，并设置第二损失函数的第二权重值；依据第一损失函数，第二损失函数，第一权重值和第二权重值，构建目标损失函数。

具体地，如图4所示，展示了初始姿态识别模型的损失构成，与单任务模型损失不同，该初始姿态识别模型有两个损失，分别对应人脸关键点检测损失和头部姿态角损失。人脸关键点检测的损失通过模型预测的人脸关键点的坐标(即图4中的FL-pred)与标准人脸关键点的坐标(即图4中的FL-gt)来计算；头部姿态识别的损失则通过模型预测头部姿态角(图4中的P-pred)和标准头部姿态角(P-gt)计算得到。Loss-FL和Loss-P分别对应人脸关键点检测任务的损失和头部姿态角估计的损失，Loss-total表示模型的最终损失值。需要说明的是，Loss-FL为上述的第一损失函数，Loss-P为上述的第二损失函数，Loss-total为上述的目标损失函数。

使用多损失函数来同时约束人脸关键点检测任务和头部姿态估计任务的训练。该模型中头部姿态估计损失函数本质上就是MAE(Mean Absolute Error)函数，损失值即为真实值与预测值的绝对误差。可以选用SmoothL1损失函数作为人脸关键点检测任务的损失函数。在该多任务模型中，总损失值Loss_total的计算公式如下式所示：

式子中的Loss_P表示头部姿态角的损失值，Loss_FL则表示人脸关键点检测的损失值。Loss_total并不只是将这两个损失值简单相加，为人脸关键点检测对应的损失函数以及头部姿态角对应的损失函数设置权重值，例如，人脸关键点检测对应的损失函数对应的权重为

这个权重因子的作用是缩放人脸关键点损失值。头部姿态角对应的损失函数的权重值设置为1。人脸关键点检测任务是为头部姿态估计这个主任务服务的，合理缩放该任务损失值能够有效促进模型对于主任务的学习。

相比于传统的单任务学习，多任务学习能够将不同的任务有机地联合起来，使各个任务学习到其他相关任务的额外信息，来帮助该任务学习到更加准确的特征提取器，这种方式能够使模型在训练过程中提升模型的鲁棒性，使模型的泛化能力大大增强。如何合理地选择辅助任务来提升模型主要任务的表现性能是多任务学习中的一个重要课题。在本申请中选择人脸关键点检测作为头部姿态识别的辅助任务。使用多任务学习的神经网络模型训练两个不同的损失函数(头部姿态估计任务损失函数和关键点检测任务损失函数)。在训练过程中，通过联合优化两个损失函数来挖掘人脸关键点信息和头部姿态估计的潜在联系，让模型学习到更多额外的有用信息，进而增强模型的泛化性能，提升模型的头部姿态估计准确率。

本申请实施例提供的头部姿态的识别方法，通过获取待处理的目标图像，其中，目标图像中至少包括目标对象的头部图像；将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型输出头部姿态角，其中，目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，抗混叠卷积层由高斯滤波器构建得到，其中，头部姿态角用于表征目标对象的头部姿态，解决了相关技术中的神经网络模型容易产生图像混叠现象，导致预测头部姿态的准确率比较低的问题。通过目标姿态识别模型对目标图像进行识别处理，得到目标图像对应的头部姿态角，目标姿态识别模型中包括抗混叠卷积层，能够有效避免图像出现混叠现象，进而达到了提高预测头部姿态的准确率的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种头部姿态的识别装置，需要说明的是，本申请实施例的头部姿态的识别装置可以用于执行本申请实施例所提供的用于头部姿态的识别方法。以下对本申请实施例提供的头部姿态的识别装置进行介绍。

图5是根据本申请实施例的头部姿态的识别装置的示意图。如图5所示，该装置包括：第一获取单元501和输出单元502。

第一获取单元501，用于获取待处理的目标图像，其中，目标图像中至少包括目标对象的头部图像；

输出单元502，用于将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型输出头部姿态角，其中，目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，抗混叠卷积层由高斯滤波器构建得到，其中，头部姿态角用于表征目标对象的头部姿态。

本申请实施例提供的头部姿态的识别装置，通过第一获取单元501获取待处理的目标图像，其中，目标图像中至少包括目标对象的头部图像；输出单元502将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型输出头部姿态角，其中，目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，抗混叠卷积层由高斯滤波器构建得到，其中，头部姿态角用于表征目标对象的头部姿态，解决了相关技术中的神经网络模型容易产生图像混叠现象，导致预测头部姿态的准确率比较低的问题。通过目标姿态识别模型对目标图像进行识别处理，得到目标图像对应的头部姿态角，目标姿态识别模型中包括抗混叠卷积层，能够有效避免图像出现混叠现象，进而达到了提高预测头部姿态的准确率的效果。

可选地，在本申请实施例提供的头部姿态的识别装置中，输出单元502包括：处理模块，用于通过特征提取层对目标图像进行处理，得到目标特征图；识别模块，用于通过头部姿态识别层对目标特征图进行识别，得到头部姿态角。

可选地，在本申请实施例提供的头部姿态的识别装置中，处理模块包括：池化子模块，用于通过最大池化层对目标图像进行池化，得到候选特征图；卷积子模块，用于通过抗混叠卷积层对候选特征图进行卷积，得到处理后的候选特征图；采样子模块，用于通过降采样层对处理后的候选特征图进行采样，得到目标特征图。

可选地，在本申请实施例提供的头部姿态的识别装置中，该装置还包括：发送单元，用于在通过目标姿态识别模型输出头部姿态角之后，将头部姿态角发送至客户端；接收单元，用于接收客户端返回的对头部姿态角的调整信息，其中，调整信息为将目标图像对应的头部姿态调整至目标姿态；优化单元，用于依据头部姿态角的调整信息优化目标姿态识别模型。

可选地，在本申请实施例提供的头部姿态的识别装置中，目标姿态识别模型采用以下步骤训练得到：第二获取单元，用于获取多个训练样本，其中，多个训练样本至少包括：多个训练样本图像和多个训练样本图像对应的标准头部姿态角和多个训练样本图像对应的标准人脸关键点信息；输入单元，用于将多个训练样本输入到初始姿态识别模型中，通过初始姿态识别模型中的人脸关键点检测层得到预测人脸关键点信息，并通过初始姿态识别模型中的头部姿态识别层得到预测头部姿态角；构建单元，用于基于标准头部姿态角、预测头部姿态角、标准人脸关键点信息和预测人脸关键点信息，构建目标损失函数；依据目标损失函数对初始姿态识别模型进行训练，以得到目标姿态识别模型。

可选地，在本申请实施例提供的头部姿态的识别装置中，构建单元包括：第一计算模块，用于对标准头部姿态角和预测头部姿态角的偏差进行计算，得到第一偏差量，并依据第一偏差量构建第一损失函数；第二计算模块，用于对标准人脸关键点信息和预测人脸关键点信息的偏差进行计算，得到第二偏差量，并依据第二偏差量构建第二损失函数；构建模块，用于基于第一损失函数和第二损失函数构建目标损失函数。

可选地，在本申请实施例提供的头部姿态的识别装置中，构建模块包括：设置子模块，用于设置第一损失函数的第一权重值，并设置第二损失函数的第二权重值；构建子模块，用于依据第一损失函数，第二损失函数，第一权重值和第二权重值，构建目标损失函数。

头部姿态的识别装置包括处理器和存储器，上述的第一获取单元501和输出单元502等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现头部姿态识别。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行头部姿态的识别方法。

如图6所示，本发明实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取待处理的目标图像，其中，目标图像中至少包括目标对象的头部图像；将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型输出头部姿态角，其中，目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，抗混叠卷积层由高斯滤波器构建得到，其中，头部姿态角用于表征目标对象的头部姿态。

可选地，通过目标姿态识别模型输出头部姿态角包括：通过特征提取层对目标图像进行处理，得到目标特征图；通过头部姿态识别层对目标特征图进行识别，得到头部姿态角。

可选地，通过特征提取层对目标图像进行处理，得到目标特征图包括：通过最大池化层对目标图像进行池化，得到候选特征图；通过抗混叠卷积层对候选特征图进行卷积，得到处理后的候选特征图；通过降采样层对处理后的候选特征图进行采样，得到目标特征图。

可选地，在通过目标姿态识别模型输出头部姿态角之后，该方法还包括：将头部姿态角发送至客户端；接收客户端返回的对头部姿态角的调整信息，其中，调整信息为将目标图像对应的头部姿态调整至目标姿态；依据头部姿态角的调整信息优化目标姿态识别模型。

可选地，目标姿态识别模型采用以下步骤训练得到：获取多个训练样本，其中，多个训练样本至少包括：多个训练样本图像和多个训练样本图像对应的标准头部姿态角和多个训练样本图像对应的标准人脸关键点信息；将多个训练样本输入到初始姿态识别模型中，通过初始姿态识别模型中的人脸关键点检测层得到预测人脸关键点信息，并通过初始姿态识别模型中的头部姿态识别层得到预测头部姿态角；基于标准头部姿态角、预测头部姿态角、标准人脸关键点信息和预测人脸关键点信息，构建目标损失函数；依据目标损失函数对初始姿态识别模型进行训练，以得到目标姿态识别模型。

可选地，基于标准头部姿态角、预测头部姿态角、标准人脸关键点信息和预测人脸关键点信息，构建目标损失函数包括：对标准头部姿态角和预测头部姿态角的偏差进行计算，得到第一偏差量，并依据第一偏差量构建第一损失函数；对标准人脸关键点信息和预测人脸关键点信息的偏差进行计算，得到第二偏差量，并依据第二偏差量构建第二损失函数；基于第一损失函数和第二损失函数构建目标损失函数。

可选地，基于第一损失函数和第二损失函数构建目标损失函数包括：设置第一损失函数的第一权重值，并设置第二损失函数的第二权重值；依据第一损失函数，第二损失函数，第一权重值和第二权重值，构建目标损失函数。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取待处理的目标图像，其中，目标图像中至少包括目标对象的头部图像；将目标图像输入到目标姿态识别模型中，通过目标姿态识别模型输出头部姿态角，其中，目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，抗混叠卷积层由高斯滤波器构建得到，其中，头部姿态角用于表征目标对象的头部姿态。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种头部姿态的识别方法，其特征在于，包括：

获取待处理的目标图像，其中，所述目标图像中至少包括目标对象的头部图像；

将所述目标图像输入到目标姿态识别模型中，通过所述目标姿态识别模型输出头部姿态角，其中，所述目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，所述特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，所述抗混叠卷积层由高斯滤波器构建得到，其中，所述头部姿态角用于表征所述目标对象的头部姿态。

2.根据权利要求1所述的方法，其特征在于，通过所述目标姿态识别模型输出头部姿态角包括：

通过特征提取层对所述目标图像进行处理，得到目标特征图；

通过头部姿态识别层对所述目标特征图进行识别，得到所述头部姿态角。

3.根据权利要求2所述的方法，其特征在于，通过特征提取层对所述目标图像进行处理，得到目标特征图包括：

通过所述最大池化层对所述目标图像进行池化，得到候选特征图；

通过所述抗混叠卷积层对所述候选特征图进行卷积，得到处理后的候选特征图；

通过所述降采样层对所述处理后的候选特征图进行采样，得到所述目标特征图。

4.根据权利要求1所述的方法，其特征在于，在通过所述目标姿态识别模型输出头部姿态角之后，所述方法还包括：

将所述头部姿态角发送至客户端；

接收所述客户端返回的对所述头部姿态角的调整信息，其中，所述调整信息为将所述目标图像对应的头部姿态调整至目标姿态；

依据所述头部姿态角的调整信息优化所述目标姿态识别模型。

5.根据权利要求1所述的方法，其特征在于，所述目标姿态识别模型采用以下步骤训练得到：

获取多个训练样本，其中，所述多个训练样本至少包括：多个训练样本图像和所述多个训练样本图像对应的标准头部姿态角和所述多个训练样本图像对应的标准人脸关键点信息；

将所述多个训练样本输入到初始姿态识别模型中，通过所述初始姿态识别模型中的人脸关键点检测层得到预测人脸关键点信息，并通过所述初始姿态识别模型中的头部姿态识别层得到预测头部姿态角；

基于所述标准头部姿态角、所述预测头部姿态角、所述标准人脸关键点信息和所述预测人脸关键点信息，构建目标损失函数；

依据所述目标损失函数对所述初始姿态识别模型进行训练，以得到所述目标姿态识别模型。

6.根据权利要求5所述的方法，其特征在于，基于所述标准头部姿态角、所述预测头部姿态角、所述标准人脸关键点信息和所述预测人脸关键点信息，构建目标损失函数包括：

对所述标准头部姿态角和所述预测头部姿态角的偏差进行计算，得到第一偏差量，并依据所述第一偏差量构建第一损失函数；

对所述标准人脸关键点信息和所述预测人脸关键点信息的偏差进行计算，得到第二偏差量，并依据所述第二偏差量构建第二损失函数；

基于所述第一损失函数和所述第二损失函数构建所述目标损失函数。

7.根据权利要求6所述的方法，其特征在于，基于所述第一损失函数和所述第二损失函数构建所述目标损失函数包括：

设置所述第一损失函数的第一权重值，并设置所述第二损失函数的第二权重值；

依据所述第一损失函数，所述第二损失函数，所述第一权重值和所述第二权重值，构建所述目标损失函数。

8.一种头部姿态的识别装置，其特征在于，包括：

第一获取单元，用于获取待处理的目标图像，其中，所述目标图像中至少包括目标对象的头部图像；

输出单元，用于将所述目标图像输入到目标姿态识别模型中，通过所述目标姿态识别模型输出头部姿态角，其中，所述目标姿态识别模型中至少包括：特征提取层和头部姿态识别层，所述特征提取层中至少包括最大池化层、抗混叠卷积层和降采样层，所述抗混叠卷积层由高斯滤波器构建得到，其中，所述头部姿态角用于表征所述目标对象的头部姿态。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的头部姿态的识别方法。

10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的头部姿态的识别方法。