CN113034602A

CN113034602A - 一种朝向角度分析方法、装置、电子设备及存储介质

Info

Publication number: CN113034602A
Application number: CN202110415929.0A
Authority: CN
Inventors: 李悦乔; 冯子钜; 叶润源; 毛永雄; 董帅; 邹昆; 黄燕挺; 陈晨
Original assignee: Zhongshan Xidao Technology Co ltd; University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: Zhongshan Xidao Technology Co ltd; University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-06-25
Anticipated expiration: 2041-04-16
Also published as: CN113034602B

Abstract

本申请提供一种朝向角度分析方法、装置、电子设备及存储介质，用于改善对图像进行头部姿态估计的头部姿态信息不够稳定导致获得的头部朝向角度不准确的问题。该方法包括：获得待分析图像，并裁剪出待分析图像中的头部区域图像；提取出头部区域图像中的头部姿态信息，头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布；针对欧拉角三个分量中的每个分量，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值；根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。

Description

一种朝向角度分析方法、装置、电子设备及存储介质

技术领域

本申请涉及机器学习、计算机视觉和人脸识别的技术领域，具体而言，涉及一种朝向角度分析方法、装置、电子设备及存储介质。

背景技术

头部姿态估计是计算机视觉领域中较为热门的研究方向之一，是指通过算法预测空间中人体头部的姿态信息，头部姿态估计通常是以描述头部姿态的偏航角(yaw)、俯仰角(pitch)和翻滚角(roll)为回归目标的回归问题。

在目前的图像识别领域中，通常需要进行头部姿态估计，即获得人脸面对的正前方向在三维空间坐标中的头部姿态信息，通常使用欧拉角或者是四元数；其中，四元数在表达上与视觉感受存在非线性关系，通常难以解释且不直观，因此，当需要直观且有较强的可解释性时，通常会选择欧拉角来表示头部姿态信息。然而，在欧拉角的具体使用过程中发现，对图像进行头部姿态估计的头部姿态信息不够稳定导致获得的头部朝向角度不准确。

发明内容

本申请实施例的目的在于提供一种朝向角度分析方法、装置、电子设备及存储介质，用于改善对图像进行头部姿态估计的头部姿态信息不够稳定导致获得的头部朝向角度不准确的问题。

本申请实施例提供了一种朝向角度分析方法，包括：获得待分析图像，并裁剪出待分析图像中的头部区域图像；提取出头部区域图像中的头部姿态信息，头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布；针对欧拉角三个分量中的每个分量，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值；根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。在上述的实现过程中，通过根据预设角度区间内的最大概率值向两侧扩展的区间内的概率分布之和确定为每个分量的期望值，有效地将角度拟合问题转换成区间概率分布问题，避免了概率分布出现的分布不均匀和明显截断等特征影响头部姿态信息的稳定性，从而提高了由欧拉角三个分量获得头部朝向角度的准确率。

可选地，在本申请实施例中，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，包括：将预设角度区间划分为多个分段区间，从多个分段区间筛选出概率值最大的第一分段区间；根据第一分段区间的两侧方向从多个分段区间中筛选出预设数量的第二分段区间，并将第一分段区间和预设数量的第二分段区间确定为邻域区间。在上述的实现过程中，由于根据丛林竞争法则将概率最大的第一分段区间和预设数量的第二分段区间确定邻域区间，从而避免了概率分布出现的分布不均匀和明显截断等特征影响头部姿态信息的稳定性，有效地提高了由欧拉角三个分量获得头部朝向角度的稳定性和准确率。

可选地，在本申请实施例中，计算邻域区间内的概率分布之和，获得每个分量的期望值，包括：将邻域区间内的所有分段区间进行归一化，并根据邻域区间内的每个分段区间的最大值和最小值计算每个分段区间的中值；将邻域区间内的每个分段区间的中值与归一化后的每个分段区间的乘积之和确定为每个分量的期望值。

可选地，在本申请实施例中，裁剪出待分析图像中的头部区域图像，包括：判断是否检测到待分析图像中的头部区域；若是，则从待分析图像中裁剪出头部区域图像。在上述的实现过程中，通过检测待分析图像中裁剪的头部区域；从而有效地提高了输入图像的质量，避免了图像中的其它背景干扰识别结果，有效地提高了由欧拉角三个分量获得头部朝向角度的准确率。

可选地，在本申请实施例中，提取出头部区域图像中的头部姿态信息，包括：使用预先训练的卷积神经网络模型提取出头部区域图像中的头部姿态信息。

可选地，在本申请实施例中，在使用预先训练的卷积神经网络模型提取出头部区域图像中的头部姿态信息之前，还包括：获取多个样本图像和多个姿态信息，姿态信息为样本图像中的头部区域图像的头部姿态信息；以多个样本图像为训练数据，以多个姿态信息为训练标签，对卷积神经网络进行训练，获得卷积神经网络模型。

可选地，在本申请实施例中，获得待分析图像，包括：接收货车驾驶舱的摄像头采集的待分析图像；在根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度之后，还包括：若头部朝向角度偏离预设范围且持续预设时长，则生成并输出预警信息，预警信息用于提醒货车驾驶舱中的驾驶员疲劳驾驶。在上述的实现过程中，通过接收货车驾驶舱的摄像头采集的待分析图像；在根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度之后，还在头部朝向角度偏离预设范围且持续预设时长的情况下，提醒货车驾驶舱中的驾驶员疲劳驾驶，从而减少了安全事故出现的概率，有效地提高了朝向角度分析的应用场景的范围。

本申请实施例还提供了一种朝向角度分析装置，包括：分析图像获得模块，用于获得待分析图像，并裁剪出待分析图像中的头部区域图像；姿态信息提取模块，用于提取出头部区域图像中的头部姿态信息，头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布；分量期望获得模块，用于针对欧拉角三个分量中的每个分量，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值；朝向角度确定模块，用于根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。

可选地，在本申请实施例中，分量期望获得模块，包括：分段区间处理模块，用于将预设角度区间划分为多个分段区间，从多个分段区间筛选出概率值最大的第一分段区间；邻域区间确定模块，用于根据第一分段区间的两侧方向从多个分段区间中筛选出预设数量的第二分段区间，并将第一分段区间和预设数量的第二分段区间确定为邻域区间。

可选地，在本申请实施例中，分量期望获得模块，还包括：区间中值计算模块，用于将邻域区间内的所有分段区间进行归一化，并根据邻域区间内的每个分段区间的最大值和最小值计算每个分段区间的中值；分量期望获得模块，用于将邻域区间内的每个分段区间的中值与归一化后的每个分段区间的乘积之和确定为每个分量的期望值。

可选地，在本申请实施例中，分析图像获得模块，包括：头部区域判断模块，用于判断是否检测到待分析图像中的头部区域；头部区域裁剪模块，用于若检测到待分析图像中的头部区域，则从待分析图像中裁剪出头部区域图像。

可选地，在本申请实施例中，姿态信息提取模块，包括：网络模型提取模块，用于使用预先训练的卷积神经网络模型提取出头部区域图像中的头部姿态信息。

可选地，在本申请实施例中，朝向角度分析装置，还包括：图像姿态获取模块，用于获取多个样本图像和多个姿态信息，姿态信息为样本图像中的头部区域图像的头部姿态信息；网络模型训练模块，用于以多个样本图像为训练数据，以多个姿态信息为训练标签，对卷积神经网络进行训练，获得卷积神经网络模型。

可选地，在本申请实施例中，朝向角度分析装置，还包括：分析图像采集模块，用于接收货车驾驶舱的摄像头采集的待分析图像；预警信息输出模块，用于若头部朝向角度偏离预设范围且持续预设时长，则生成并输出预警信息，预警信息用于提醒货车驾驶舱中的驾驶员疲劳驾驶。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的俯仰角、偏航角和翻滚角对应的概率分布示意图；

图2示出的本申请实施例提供的朝向角度分析方法的流程示意图；

图3示出的本申请实施例提供的长途货运场景中的朝向角度分析方法的流程示意图；

图4示出的本申请实施例提供的朝向角度分析装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

在介绍本申请实施例提供的朝向角度分析方法之前，下面介绍本申请实施例中所涉及的一些概念：

深度学习(Deep Learning)，是指学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助；深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据，深度学习包括但不限于使用更深层次的神经网络模型提取文字、图像和声音等数据的特征。

卷积神经网络(Convolutional Neural Networks，CNN)，是一种人工神经网络，人工神经网络的人工神经元可以响应周围单元，可以进行大型图像处理；卷积神经网络可以包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。

人脸识别(Face Recognition)，是一项计算机技术研究领域，人脸识别属于生物特征识别技术，是对生物体(一般特指人)本身的生物特征来区分生物体个体；广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。

丛林竞争法则，是指一种在概率分布理论上的观点，即概率最大的区间最具参考价值，具有主导地位，离概率最大处越远参考价值越小；其中，在领域区间中的概率最大的分段区间最具参考价值，距离概率最大的分段区间越远的分段区间对应的概率值的参考价值越小。

在介绍本申请实施例提供的朝向角度分析方法之前，下面先介绍对照实施例存在的问题，在对照实施例中，通常直接使用欧拉角进行拟合获得的头部姿态信息会出现不稳定的情况，即对图像进行头部姿态估计的头部姿态信息不稳定的情况包括：头部姿态信息为面部朝向的欧拉角三个分量的概率分布会出现分布不均匀、非正态、截断明显等等；其中，此处的三个分量包括：偏航角(yaw)、俯仰角(pitch)和翻滚角(roll)。

请参见图1示出的本申请实施例提供的俯仰角、偏航角和翻滚角对应的概率分布示意图；图中的三个分量的纵坐标表示具体的概率值(也可以理解为频率系数)，对应的横坐标均是数值所在区间，即从负99度到正99度的角度区间，图中设置的是每3度一个区间。在将欧拉角的三个分量的概率分布转化为三个分量在应用场景中的频次对数分布时，其频次对数分布同样是不均衡且存在截断性；因此，如果使用这些不稳定的头部朝向角度对神经网络进行训练，获得神经网络模型的稳定性和准确率都会有影响。

需要说明的是，本申请实施例提供的朝向角度分析方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的朝向角度分析方法之前，先介绍该朝向角度分析方法适用的应用场景，这里的应用场景包括但不限于：使用该朝向角度分析方法确定货车、汽车、地铁列车或者火车等等驾驶舱中的驾驶员是否注意力不集中，此处的注意力不集中的情况包括但不限于：疲劳驾驶或者醉酒驾驶等等情况，以便于及时提醒驾驶员集中注意力驾驶或者提醒驾驶员是否开启自动驾驶模式，以替代驾驶员的全部或者部分驾驶操作。当然，在具体的实施过程中，还可以将朝向角度分析方法应用于人工智能驾驶系统或者交通工具辅助驾驶系统中，具体例如：使用该朝向角度分析方法增强人工智能驾驶系统或者交通工具辅助驾驶系统的判断驾驶员是否集中注意力的功能。

请参见图2示出的本申请实施例提供的朝向角度分析方法的流程示意图；该朝向角度分析方法的主要思路是，通过根据预设角度区间内的最大概率值向两侧扩展的区间内的概率分布之和确定为每个分量的期望值，有效地将角度拟合问题转换成区间概率分布问题，避免了概率分布出现的分布不均匀和明显截断等特征影响头部姿态信息的稳定性，从而提高了由欧拉角三个分量获得头部朝向角度的准确率；上述的朝向角度分析方法可以包括：

步骤S110：获得待分析图像，并裁剪出待分析图像中的头部区域图像。

上述步骤S110中的待分析图像的获得方式包括：第一种获得方式，使用具备RGB通道的摄像机(具体例如：安防摄像头、家用摄像头均可)、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待分析图像；然后该终端设备向电子设备发送待分析图像，然后电子设备接收终端设备发送的待分析图像，电子设备可以将待分析图像存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的待分析图像，具体例如：从文件系统中获取待分析图像，或者从数据库中获取待分析图像，或者从移动存储设备中获取待分析图像；第三种获得方式，使用浏览器等软件获取互联网上的待分析图像，或者使用其它应用程序访问互联网获得待分析图像。

上述步骤S110中的裁剪出待分析图像中的头部区域图像的实施方式例如：对待分析图像中的头部区域进行检测，并判断是否检测到待分析图像中的头部区域；若检测到待分析图像中的头部区域，则从待分析图像中裁剪出头部区域图像；其中，具体可以采用双射面部探测器(Dual Shot Face Detector，DSFD)或者极其微小的面部探测器(ExtremelyTiny Face Detector，EXTD)等等头部检测算法对待分析图像中的头部区域进行检测；其中，此处的检测算法可以采用头部检测算法，也可以采用人脸识别方法来定位出人脸区域，并将人脸区域扩大预设区域，即可获得头部区域，可以采用的人脸识别相关的神经网络模型包括但不限于：多任务级联卷积神经网络(Multi-task Cascaded ConvolutionalNetworks，MTCNN)和区域卷积神经网络(Region Convolutional Neural Network，RCNN)等等。

在步骤S110之后，执行步骤S120：提取出头部区域图像中的头部姿态信息，头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布。

上述步骤S120的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，直接获取已经训练好的深度学习模型，并使用训练后的神经网络模型来提取出头部区域图像中的头部姿态信息，其中，获取已经训练好的深度学习模型实施方式可以包括：第一种获得方式，接收其它终端设备发送的深度学习模型，将深度学习模型存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的深度学习模型，具体例如：从文件系统中获取深度学习模型，或者从数据库中获取深度学习模型，或者从移动存储设备中获取深度学习模型；第三种获得方式，使用浏览器等软件获取互联网上的深度学习模型，或者使用其它应用程序访问互联网获得深度学习模型等等。

第二种实施方式，从头开始训练提取头部区域图像中的头部姿态信息的神经网络模型，并使用训练后的神经网络模型来提取出头部区域图像中的头部姿态信息，该实施方式可以包括：对学术界常用的LFPW、IBUG、HELEN、AFW等等训练数据集进行图像增强，获得图像增强后的训练数据集，其中，可以采用的图像增强操作包括：反转、旋转、平移、裁切、对比度调整、噪声添加、图像缩放等等；使用图像增强后的训练数据集对深度学习模型进行训练，经过充分训练，获得收敛稳定的深度学习模型。

其中，模型训练的具体过程例如：获取多个样本图像和多个姿态信息，姿态信息为样本图像中的头部区域图像的头部姿态信息；以多个样本图像为训练数据，以多个姿态信息为训练标签，对卷积神经网络进行训练，获得卷积神经网络模型；其中，此处的深度学习模型可以采用LeNet网络模型、AlexNet网络模型、VGG网络模型、GoogLeNet网络模型和ResNet网络模型等等卷积神经网络模型。在对深度学习模型进行训练后，使用经过训练后的深度学习模型提取出头部区域图像中的头部姿态信息。在具体实践过程中，上述的训练数据集还可以根据具体情况划分为训练集和验证集，具体例如：将训练数据集图像增强，可以得到68.8万个样本，从训练数据集中选择92.5％的样本作为训练集对深度学习模型进行训练，将训练数据集中余下的7.5％的样本作为验证集，并使用该验证集来对训练后的深度学习模型的训练效果进行验证。

为了进一步提高上述神经网络模型的结果预测稳定性，还可以根据筛选后的视频数据对卷积神经网络进行自监督训练，该实施方式例如：在获取多个样本图像之前，先获取多个样本视频，然后根据梯度限幅图对多个样本视频进行筛选，此处的梯度限幅图是指视频中的头部姿态变化程度阈值，即从多个样本视频中筛选出头部姿态变化梯度小于梯度限幅图的样本视频，获得筛选后的视频数据，然后从筛选后的视频数据中提取出样本图像，从而获取到多个样本图像。根据梯度限幅图对多个样本视频进行筛选的具体过程例如：假设某姿态变量的区间数为m，可以取k帧连续的视频数据，然后得到一个m*k的矩阵，使用预先定义的8张梯度图(即8个方向的梯度卷积核)对m*k的矩阵进行梯度计算，即可获得该k帧连续的视频数据中每帧的头部姿态变化梯度，然后将头部姿态变化梯度与梯度限幅图进行比较，若头部姿态变化梯度与梯度限幅图之间的损失值大于0，则将该视频数据从多个样本视频中剔除。

上述的将头部姿态变化梯度与梯度限幅图进行比较过程例如：首先根据公式

计算头部姿态变化梯度与梯度限幅图之间的损失值；其中，G_i,j为第i个姿态的第j张梯度图，

为预先定义的8张梯度图中的第i张梯度图；当头部姿态变化梯度大于梯度限幅图时，则头部姿态变化梯度与梯度限幅图之间的损失值大于0，否则将头部姿态变化梯度与梯度限幅图之间的损失值设置为0。

可以理解的是，上述8张梯度图具体可以定义为：第一张正北方向的梯度图为

第二张东北方向的梯度图为

第三张正东方向的梯度图为

第四张东南方向的梯度图为

第五张正南方向的梯度图为

第六张西南方向的梯度图为

第七张正西方向的梯度图为

第八张西北方向的梯度图为

在训练上述神经网络模型的过程中，可以将头部姿态估计(即头部朝向角度分析)的问题当成线性回归问题，并采用均方误差(Mean Square Error，MSE)损失函数、交叉熵分类损失函数或者L1范数损失函数(简称为L1_loss)，L1范数损失函数也可以被称为最小绝对值偏差(Least Absolute Deviations，LAD)损失函数。具体可以采用卷积神经网络对训练数据集中的图片数据进行计算，获得预测头部姿态信息；衡量的是预测头部姿态信息与真实头部姿态信息(例如训练数据集中的图片标签)之间的距离，即“距离越远损失越大，距离越近损失越小”。

在步骤S120之后，执行步骤S130：针对欧拉角三个分量中的每个分量，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值。

预设角度区间，是指预先设置的头部或面部的朝向角度的范围区间，具体例如：需要高度集中的货车驾驶舱中的驾驶员的头部朝向角度一般在-99度至+99度之间，假设头部朝向角度为负值则表示向左偏，为正值则表示向有偏，那么此处的[-99，+99]就可以理解为预设角度区间。在具体的实施过程中，区间总数可以采用奇数，具体例如：可以将俯仰角划分为11个区间，区间间隔为10deg；偏航角划分为19个区间，区间间隔为10deg；滚转角划分为5个区间，区间间隔为5deg；将俯仰姿态区间范围为-15～95deg，将偏航姿态区间范围为-95～95deg，将滚转姿态区间范围为-22.5～22.5deg。

上述步骤S130中的将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间的实施方式可以包括：

步骤S131：将预设角度区间划分为多个分段区间，从多个分段区间筛选出概率值最大的第一分段区间。

上述步骤S131的实施方式例如：将预设角度区间[-99，+99]按照每个区间为3度的方式划分为多个分段区间，此处的多个区间可以使用公式表示为d₁,d₂,…,d_n，那么这里的n就是66，其中，每个区间d_i可得到一个概率值p(d_i)，当然此处的预设角度区间也可以根据具体情况进行设置，例如设置为[-90，+90]等等；然后再根据丛林竞争法则从多个分段区间筛选出概率值最大的第一分段区间。

步骤S132：根据第一分段区间的两侧方向从多个分段区间中筛选出预设数量的第二分段区间，并将第一分段区间和预设数量的第二分段区间确定为邻域区间。

上述步骤S132的实施方式例如：由于丛林法则认为，概率最大的分段区间最具参考价值，距离概率最大的分段区间越远的分段区间对应的概率值的参考价值越小。因此，可以采纳概率最大处的邻域区间作计算，邻域区间其它地方舍弃。根据概率值最大的第一分段区间的两侧方向从多个分段区间中筛选出预设数量的第二分段区间，并将概率值最大的第一分段区间和预设数量的第二分段区间确定为邻域区间；具体例如：邻域区间的跨度大小可以使用参数K来控制，以概率值最大的第一分段区间为基准，向其左右两侧扩展(K-1)/2个第二分段区间，就将概率值最大的第一分段区间和(K-1)/2个第二分段区间确定为邻域区间。如果邻域区间超过区间边界，即超过了上述预设角度区间[-99，+99]的边界，那么可以直接舍弃超出的部分。可以看出，一个邻域区间由多个连续的分段区间组成，即邻域区间可以使用公式表示为σ＝{d_i,d_i+1,…,d_i+n}。上述的参数K是一个可调参数，根据不同应用场景进行调整，具体例如：在一些场景中可以将参数K设置为奇数，

上述步骤S130中的计算邻域区间内的概率分布之和的实施方式包括：

步骤S133：将邻域区间内的所有分段区间进行归一化，并根据邻域区间内的每个分段区间的最大值和最小值计算每个分段区间的中值。

上述步骤S133的实施方式例如：将邻域区间内的所有分段区间进行归一化，即使用公式可以表示为：令

则p(d)←p(d)/s，其中，d表示其中一个分段区间，σ表示邻域区间，(d∈σ)表示属于邻域区间内的分段区间，p(d)表示该分段区间的高斯概率分布值，s表示邻域区间内所有的分段区间的高斯概率分布值之和；然后根据

计算每个分段区间的中值；其中，mid(d)表示分段区间d的中值，UpperBound(d)表示左边界和右边界中较高的边界概率值，LowerBound(d)表示左边界和右边界中较低的边界概率值。当然，在具体的实施过程中，上述的归一化函数也可以采用softmax函数，因此，此处的归一化操作具体选择的归一化函数不应理解为对本申请实施例的限制。

步骤S134：将邻域区间内的每个分段区间的中值与归一化后的每个分段区间的乘积之和确定为每个分量的期望值。

上述步骤S134的实施方式例如：根据公式

来计算每个分量的期望值；其中，d表示其中一个分段区间，σ表示邻域区间，p(d)表示该分段区间的概率分布值，mid(d)表示分段区间d的中值，Exp表示每个分量的期望值。可以理解的是，针对欧拉角三个分量中的每个分量都执行上述步骤S131至步骤S134之后，即可获得欧拉角三个分量中的每个分量的期望值。

在步骤S130之后，执行步骤S140：根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。

上述步骤S140的实施方式例如：在获得欧拉角三个分量中的每个分量的期望值之后，就可以将欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。

在具体的实施过程中，可以将头部姿态估计(即头部朝向角度分析)的问题转化为离散的区间分类问题，并使用交叉熵等等分类损失函数。为了减少预测结果的跳变现象的出现，即在上述卷积神经网络的训练过程中，为了使用交叉熵分类损失函数来体现“距离越远损失越大，距离越近损失越小”特性，还可以在卷积神经网络的输出层中添加一个高斯概率分支，该高斯概率分支用于对欧拉角三个分量中的每个分量对应区间进行概率加权，使得卷积神经网络的输出的欧拉角三个分量均服从高斯分布。上述的高斯概率分支的网络结构可以采用传统的分类分支网络结构，即该输出层的输出特征数量采用头部姿态信息的区间数量，且可以针对高斯概率分支的训练过程采用高斯交叉熵损失，从而使得卷积神经网络的输出的欧拉角三个分量均服从高斯分布。

在上述的实现过程中，首先裁剪出待分析图像中的头部区域图像，并提取出头部区域图像中包括欧拉角三个分量的头部姿态信息，然后，将预设角度区间内的最大概率值向两侧扩展的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值，最后，根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度；也就是说，通过根据预设角度区间内的最大概率值向两侧扩展的区间内的概率分布之和确定为每个分量的期望值，有效地将角度拟合问题转换成区间概率分布问题，避免了概率分布出现的分布不均匀和明显截断等特征影响头部姿态信息的稳定性，从而提高了由欧拉角三个分量获得头部朝向角度的准确率。请参见图3示出的本申请实施例提供的长途货运场景中的朝向角度分析方法的流程示意图；可选地，上述的朝向角度分析方法还可以用于长途货运行业，当然也可以应用于其它行业，此处以长途货运场景为例进行说明，具体可以包括：

步骤S210：电子设备接收货车驾驶舱的摄像头采集的待分析图像，并裁剪出待分析图像中的头部区域图像。

上述步骤S210的实施方式例如：电子设备通过传输控制协议(TransmissionControl Protocol，TCP)或者用户数据报协议(User Datagram Protocol，UDP)接收货车驾驶舱的摄像头采集的待分析图像，并裁剪出待分析图像中的头部区域图像。

步骤S220：电子设备提取出头部区域图像中的头部姿态信息，头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布。

步骤S230：电子设备针对欧拉角三个分量中的每个分量，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值。

步骤S240：电子设备根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。

其中，上述步骤S220至步骤S240的实施原理和实施方式与步骤S120至步骤S140的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120至步骤S140的描述。

步骤S250：若头部朝向角度偏离预设范围且持续预设时长，则电子设备生成并输出预警信息，预警信息用于提醒货车驾驶舱中的驾驶员疲劳驾驶。

上述步骤S250的实施方式例如：若货车驾驶舱中驾驶员的头部朝向角度偏离预设范围[-99，+99]，且持续了4秒的预设时长；其中，此处的预设范围和预设时长可以根据实际应用场景进行调整，例如将预设范围设置为[-90，+90]，将预设时长设置为3秒或者5秒等等。

当然，在具体的实施过程中，还可以将朝向角度分析方法应用于人工智能驾驶系统或者交通工具辅助驾驶系统中，具体例如：使用该朝向角度分析方法增强人工智能驾驶系统或者交通工具辅助驾驶系统的判断驾驶员是否集中注意力的功能；若检测到驾驶员的头部朝向角度偏离预设范围且持续预设时长的次数超过预设次数，那么可以使用交通工具辅助驾驶系统来辅助驾驶员驾驶(例如强制打双闪灯和靠边停车等等)，或者，直接使用人工智能驾驶系统接管驾驶员来继续驾驶等等。

在上述的实现过程中，通过接收货车驾驶舱的摄像头采集的待分析图像；在根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度之后，还在头部朝向角度偏离预设范围且持续预设时长的情况下，提醒货车驾驶舱中的驾驶员疲劳驾驶，从而减少了安全事故出现的概率，有效地提高了朝向角度分析的应用场景的范围。

请参见图4示出的本申请实施例提供的朝向角度分析装置的结构示意图；本申请实施例提供了一种朝向角度分析装置300，包括：

分析图像获得模块310，用于获得待分析图像，并裁剪出待分析图像中的头部区域图像。

姿态信息提取模块320，用于提取出头部区域图像中的头部姿态信息，头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布。

分量期望获得模块330，用于针对欧拉角三个分量中的每个分量，将预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算邻域区间内的概率分布之和，获得每个分量的期望值。

朝向角度确定模块340，用于根据欧拉角三个分量中的每个分量的期望值确定待分析图像中的头部朝向角度。

可选地，在本申请实施例中，分量期望获得模块，包括：

分段区间处理模块，用于将预设角度区间划分为多个分段区间，从多个分段区间筛选出概率值最大的第一分段区间。

邻域区间确定模块，用于根据第一分段区间的两侧方向从多个分段区间中筛选出预设数量的第二分段区间，并将第一分段区间和预设数量的第二分段区间确定为邻域区间。

可选地，在本申请实施例中，分量期望获得模块，还包括：

区间中值计算模块，用于将邻域区间内的所有分段区间进行归一化，并根据邻域区间内的每个分段区间的最大值和最小值计算每个分段区间的中值。

分量期望获得模块，用于将邻域区间内的每个分段区间的中值与归一化后的每个分段区间的乘积之和确定为每个分量的期望值。

可选地，在本申请实施例中，分析图像获得模块，包括：

头部区域判断模块，用于判断是否检测到待分析图像中的头部区域。

头部区域裁剪模块，用于若检测到待分析图像中的头部区域，则从待分析图像中裁剪出头部区域图像。

可选地，在本申请实施例中，姿态信息提取模块，包括：

网络模型提取模块，用于使用预先训练的卷积神经网络模型提取出头部区域图像中的头部姿态信息。

可选地，在本申请实施例中，朝向角度分析装置，还包括：

图像姿态获取模块，用于获取多个样本图像和多个姿态信息，姿态信息为样本图像中的头部区域图像的头部姿态信息。

网络模型训练模块，用于以多个样本图像为训练数据，以多个姿态信息为训练标签，对卷积神经网络进行训练，获得卷积神经网络模型。

可选地，在本申请实施例中，朝向角度分析装置，还包括：

分析图像采集模块，用于接收货车驾驶舱的摄像头采集的待分析图像。

预警信息输出模块，用于若头部朝向角度偏离预设范围且持续预设时长，则生成并输出预警信息，预警信息用于提醒货车驾驶舱中的驾驶员疲劳驾驶。

应理解的是，该装置与上述的朝向角度分析方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种朝向角度分析方法，其特征在于，包括：

获得待分析图像，并裁剪出所述待分析图像中的头部区域图像；

提取出所述头部区域图像中的头部姿态信息，所述头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布；

针对所述欧拉角三个分量中的每个分量，将所述预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算所述邻域区间内的概率分布之和，获得所述每个分量的期望值；

根据所述欧拉角三个分量中的每个分量的期望值确定所述待分析图像中的头部朝向角度。

2.根据权利要求1所述的方法，其特征在于，所述将所述预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，包括：

将预设角度区间划分为多个分段区间，从所述多个分段区间筛选出概率值最大的第一分段区间；

根据所述第一分段区间的两侧方向从所述多个分段区间中筛选出预设数量的第二分段区间，并将所述第一分段区间和所述预设数量的第二分段区间确定为所述邻域区间。

3.根据权利要求1所述的方法，其特征在于，所述计算所述邻域区间内的概率分布之和，获得所述每个分量的期望值，包括：

将所述邻域区间内的所有分段区间进行归一化，并根据所述邻域区间内的每个分段区间的最大值和最小值计算所述每个分段区间的中值；

将所述邻域区间内的每个分段区间的中值与所述归一化后的每个分段区间的乘积之和确定为所述每个分量的期望值。

4.根据权利要求1所述的方法，其特征在于，所述裁剪出所述待分析图像中的头部区域图像，包括：

判断是否检测到所述待分析图像中的头部区域；

若是，则从所述待分析图像中裁剪出所述头部区域图像。

5.根据权利要求1所述的方法，其特征在于，所述提取出所述头部区域图像中的头部姿态信息，包括：

使用预先训练的卷积神经网络模型提取出所述头部区域图像中的头部姿态信息。

6.根据权利要求5所述的方法，其特征在于，在所述使用预先训练的卷积神经网络模型提取出所述头部区域图像中的头部姿态信息之前，还包括：

获取多个样本图像和多个姿态信息，所述姿态信息为所述样本图像中的头部区域图像的头部姿态信息；

以所述多个样本图像为训练数据，以所述多个姿态信息为训练标签，对卷积神经网络进行训练，获得所述卷积神经网络模型。

7.根据权利要求1-6任一所述的方法，其特征在于，所述获得待分析图像，包括：

接收货车驾驶舱的摄像头采集的所述待分析图像；

在所述根据所述欧拉角三个分量中的每个分量的期望值确定所述待分析图像中的头部朝向角度之后，还包括：

若所述头部朝向角度偏离预设范围且持续预设时长，则生成并输出预警信息，所述预警信息用于提醒所述货车驾驶舱中的驾驶员疲劳驾驶。

8.一种朝向角度分析装置，其特征在于，包括：

分析图像获得模块，用于获得待分析图像，并裁剪出所述待分析图像中的头部区域图像；

姿态信息提取模块，用于提取出所述头部区域图像中的头部姿态信息，所述头部姿态信息为面部朝向的欧拉角三个分量在预设角度区间内的概率分布；

分量期望获得模块，用于针对所述欧拉角三个分量中的每个分量，将所述预设角度区间内的最大概率值两侧筛选出的区间确定为邻域区间，并计算所述邻域区间内的概率分布之和，获得所述每个分量的期望值；

朝向角度确定模块，用于根据所述欧拉角三个分量中的每个分量的期望值确定所述待分析图像中的头部朝向角度。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。