CN116524572B

CN116524572B - 基于自适应Hope-Net的人脸精准实时定位方法

Info

Publication number: CN116524572B
Application number: CN202310552211.5A
Authority: CN
Inventors: 张兴宇; 张祎邢
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2024-01-26
Anticipated expiration: 2043-05-16
Also published as: CN116524572A

Abstract

本发明公开了一种基于自适应Hope‑Net的人脸精准实时定位方法，包括以下步骤：视频帧获取；人体头部框选及坐标估计；基于MediaPipe的头部坐标估计；平均头部坐标计算；笛卡尔坐标系下的头部坐标获取。本发明采用上述一种基于自适应Hope‑Net的人脸精准实时定位方法，解决了现有技术中估计头部位姿速度慢、精度低的问题，选用深度学习网络，通过基于自适应Hope‑Net的人脸定位方法，更好地适应了复杂场景下的人脸检测问题，实现了提高了人脸检测和头部姿态估计的准确性和鲁棒性，实现了三维空间中人脸的实时定位。

Description

基于自适应Hope-Net的人脸精准实时定位方法

技术领域

本发明涉及人脸定位技术领域，特别是涉及一种基于自适应Hope-Net的人脸精准实时定位方法。

背景技术

随着近些年人工智能技术的不断发展，计算机视觉的持续推进，人脸识别技术也越来越成熟，现今主流的人脸识别技术是依靠识别面部关键点实现的，但实现的过程存在很多问题。例如人与人的面部特征差异很大，即使在一个人内，由于头部姿态的不同、人脸大小的不同，甚至识别的视角和识别时的照明环境，都会让识别存在差异。

为了提高复杂环境下人脸识别的准确度，国内外诸多学者提出了诸多方法。例如，Shanmugavadivu等人基于人脸特征点提出了一种快速检测和注释部分遮挡人脸的策略方法，在这种方法中，设计的算法旨在自动检测单独的面部组件，以鼻子组件为参考，算法在周围区域搜索其他主要面部特征。一旦面部部件符合面部几何形状，便进行归一化(缩放和旋转)并标记每个面部特征的注释，以便部分面部识别算法可以根据测试图像进行相应调整。实验结果证明，该方法能够有效提高人脸检测的准确度；Sharifara等人提出了一种基于特征、基于外观、基于知识和模板匹配的人脸检测系统，并将类Haar特征与神经网络相结合，旨在解决在复杂背景图像中，人脸外观的高度变化导致人脸检测准确度降低的问题，测试结果表明，该系统能够有效提高复杂环境下人脸检测的准确度；Hu等人设计了一种结合目标检测算法(Single Shot MultiBox Detector,SSD)和CamShift跟踪算法的人脸检测方法，通过采用ResNet50替代原有SSD目标检测算法的特征提取网络，提高人脸定位精度，通过采用CamShift和卡尔曼滤波算法跟踪人脸区域，提高检测速度。实验结果表明，SSD网络与改进的CamShift算法相结合的策略显着提高了检测效率，对光照变化、遮挡损失和类皮肤干扰等影响具有很强的鲁棒性；Robin等人提出了一种基于级联多任务卷积网络的增强型面部和眼睛检测技术，通过深度级联的多任务系统，利用其内在关联来提高性能，实验结果证明，所提出的方法能够有效增强对眼睛和面部的检测精度。以上面部检测方法在人脸识别过程中均取得了一定的进展，但这些方法均未考虑人体头部姿态和头部大小对识别过程的影响，且无法对人脸进行准确定位。

近年来，如何有效、准确、快速的识别、定位人脸，受到学者们的广泛关注。例如，Lee等人提出了一种改进级联回归算法，通过在回归树中提取高斯引导的地标图，并通过地标回归网络预测残留的面部地标。该方法使用高斯地标特征图作为先验信息，确保回归网络在测试数据集上有效地细化地标的方向。

实验结果表明，该算法可以比其他使用小训练数据的算法更快地检测面部标志；Terada等人设计了一种基于三维图像提取方法的模型，通过使用扫描的3D面部图像分析面部形状，并从中提取面部标志。该方法将任务分解为以下三个部分：将数据从3D面部图像转换为2D图像、使用卷积神经网络(Convolutional Neural Network,CNN)从3D图像中提取面部标志、反演从2D到3D图像的已识别面部标志。实验结果表明，该模型在面部标志检测方面的准确性有明显提升；Al-madani等人开发了一种基于眼球运动和使用面部标志和dlib打哈欠的实时驾驶员睡意检测系统，该系统通过检测驾驶员的眼球运动和打哈欠来帮助避免因困倦引起的事故。

实验结果证明，该方法能够大大提高驾驶过程中对驾驶员面部特征的监测精度，尽管上述方法在人脸检测定位方面均取得了不错的效果，但这些方法都不能快速反馈人脸在空间中的具体位置，致使人脸识别算法与其他控制算法或控制系统的关联性较差，故在复杂自动控制系统中，上述检测方法难以直接应用。

因此，针对室内空间中人脸检测和定位问题，需要提出一种兼具准确与运算效率的模型，使其能够快速定位人脸位置，并反馈人脸坐标。

发明内容

本发明的目的是提供一种基于自适应Hope-Net的人脸精准实时定位方法，解决了现有技术中估计头部位姿速度慢、精度低的问题，选用深度学习网络，通过基于自适应Hope-Net的人脸定位方法，更好地适应了复杂场景下的人脸检测问题，实现了提高了人脸检测和头部姿态估计的准确性和鲁棒性，实现了三维空间中人脸的实时定位。

为实现上述目的，本发明提供了一种基于自适应Hope-Net的人脸精准实时定位方法，包括以下步骤：

S1视频帧获取

通过室内空间中固定的摄像头机位获取视频帧，并将采集的人脸各角度面部信息输入人脸检测定位模型自适应Hope-Net；

S2人体头部框选及坐标估计

建立基于自适应Hope-Net的人脸检测定位模型，进行人脸检测及定位；

S3基于MediaPipe的头部坐标估计

使用Google开源多媒体框架MediaPipe的头部姿态估算计算器来估计人脸头部坐标，输出世界坐标系下的人脸俯仰角pitch2、偏航角yaw2和滚转角roll2坐标；

S4平均头部坐标计算

对S2和S3得到的世界坐标系下的人脸俯仰角、偏航角和滚转角坐标求加权平均值，得到世界坐标系下的平均头部坐标值；

S5笛卡尔坐标系下的头部坐标获取

将S4得到的世界坐标系下的平均头部坐标值作为输入，计算旋转矩阵，得到并将分别投影至xy平面、xz平面和yz平面，最终得到笛卡尔坐标系下的头部坐标。

优选的，S2中，建立基于自适应Hope-Net的人脸检测定位模型为在头部姿态估计网络Hope-Net的基础上提出自适应多尺度非极大值抑制算法，消除重复的检测结果并保留最具有代表性的目标框。

优选的，S2中人体头部框选及坐标估计具体的包括以下步骤：

S2.1将获取的视频帧作为模型输入，输入到自适应Hope-Net的人脸检测定位模型，对人脸信息进行特征提取，根据对特征图的学习和分析，得到不同尺度下的人脸框的位置、置信度，并将所得人脸候选框进行分组；

S2.2对于每个类别的候选框，按照置信度从高到低排序，并逐一计算它与其未处理过的候选框之间的重叠程度，使用交并比作为衡量指标，设定阈值为0.5，如果重叠程度高于设定阈值，则将该候选框删除；反之，将候选框保留并将其从候选框列表中删除；

S2.3将经过多尺度非极大值抑制算法处理后的剩余候选框作为最终的检测结果输入自适应Hope-Net模型，得到世界坐标系下的人脸俯仰角pitch1、偏航角yaw1和滚转角roll1坐标。

优选的，S4中，基于Hope-Net的头部坐标的初始权重参数为0.6，基于MediaPipe的头部坐标权重参数为0.4。

本发明的有益效果

本发明选用深度学习网络，通过基于自适应Hope-Net的人脸定位方法，更好地适应了复杂场景下的人脸检测问题，在梯度下降算法的基础上，通过记录各个分量梯度的累计情况，实现对不同分量方向的步长做出调整，使参数的学习率实现自适应更新，提高了人脸检测和头部姿态估计的准确性和鲁棒性，实现了三维空间中人脸的实时定位。

本发明根据在NVIDIA NANO开发板上的测试数据显示，在学习率和其他参数配置相同的情况下，使用基于自适应Hope-Net的人脸实时定位方法，能够达到17.41fps，高于使用原始Hope-Net进行人脸识别的16.92fps，同时能够输出人脸的三维坐标信息。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明实施例的流程示意图；

图2是本发明实施例中的自适应Hope-Net结构示意图。

具体实施方式

下面结合实施例，对本发明进一步描述。除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明提到的上述特征或具体实例提到的特征可以任意组合，这些具体实施例仅用于说明本发明而不用于限制本发明的范围。

实施例

图1是本发明实施例的流程示意图，如图所示，本发明提供了一种基于自适应Hope-Net的人脸精准实时定位方法，包括以下步骤：

S1视频帧获取

通过室内空间中固定的摄像头机位获取视频帧，并将采集的人脸各角度面部信息输入人脸检测定位模型自适应Hope-Net。

S2人体头部框选及坐标估计

图2是本发明实施例中的自适应Hope-Net结构示意图，图中的α、β、γ是指世界坐标系下的三个角度值，如图所示，建立基于自适应Hope-Net的人脸检测定位模型，在头部姿态估计网络Hope-Net的基础上提出自适应多尺度非极大值抑制(Non-Maximumuppression,NMS)算法。

自适应Hope-Net的人脸检测定位模型为：利用Hope-Net网络进行前向计算，得到图像中所有可能的人脸姿态，并输出每个人脸姿态对应的概率。同时，利用自适应NMS算法对每个可能的人脸姿态进行人脸框选，并计算其得分，该得分表示为该人脸框所对应的头部姿态的可靠程度。通过使用自适应多尺度非极大值抑制算法消除重复的检测结果并保留最具有代表性的目标框，进行人脸检测及定位。

S2.1将获取的视频帧作为模型输入，输入到自适应Hope-Net的人脸检测定位模型，对人脸信息进行特征提取，根据对特征图的学习和分析，得到不同尺度下的人脸框的位置、置信度，并将所得人脸候选框进行分组。

S2.2对于每个类别的候选框，按照置信度从高到低排序，并逐一计算它与其未处理过的候选框之间的重叠程度，使用交并比(Intersection over Union，IoU)作为衡量指标，设定阈值为0.5，如果重叠程度高于设定阈值，则将该候选框删除；反之，将候选框保留并将其从候选框列表中删除。

即对自适应NMS算法所得的所有得分进行由高到低的排序，并选择得分最高的人脸框作为输出结果，并对剩余的人脸框计算其与得分最高的人脸框的交并比，如果交并比大于设定阈值，则将其从待处理列表中删除。重复上述计算操作，直待处理列表清空为止。最后，根据选定的人脸框进行姿态检测，进行头部坐标估计和计算，输出头部坐标。

具体的为：

S2.2.1输入：所有检测到的候选框B＝{b1,b2,...,bm}，每个候选框的置信度S＝{s1,s2,...,sm}，每个候选框的尺度scale＝{scale1,scale2,...,scalem}，NMS阈值T。

S2.2.2初始化一个空列表，用于存储保留下来的检测结果。

S2.2.3对所有候选框按照置信度从大到小进行排序。

S2.2.4循环遍历排序后的候选框列表，直到列表为空。

S2.2.4.1选出置信度最大的候选框，并将其添加到结果列表中。

S2.2.4.2删除置信度最大的候选框以及与其交并比IoU大于阈值T的所有候选框。

S2.2.4.3将与选出的候选框尺度相差不超过一个尺度范围内的所有候选框从列表中删除。

S2.2.5返回保留下来的检测结果列表D。

S2.2.6输出：经过NMS处理后的候选框集合D＝{d1,d2,...,dn}。

S3基于MediaPipe的头部坐标估计

使用Google开源多媒体框架MediaPipe的头部姿态估算计算器HeadPoseEstimationCalculator来估计人脸头部坐标，输出世界坐标系下的人脸俯仰角pitch2、偏航角yaw2和滚转角坐标roll2。

S4平均头部坐标计算

对S2和S3得到的世界坐标系下的人脸俯仰角、偏航角和滚转角坐标求加权平均值，其中，基于Hope-Net的头部坐标的初始权重参数为0.6，基于MediaPipe的头部坐标权重参数为0.4得到世界坐标系下的平均头部坐标值。

S5笛卡尔坐标系下的头部坐标获取

将S4得到的世界坐标系下的平均头部坐标值作为输入，计算旋转矩阵，得到旋转矩阵计算后的坐标并将分别投影至xy平面、xz平面和yz平面，最终得到笛卡尔坐标系下的头部坐标。

旋转矩阵的计算过程为：

本发明选用深度学习网络，提出自适应参数更新策略，在梯度下降算法的基础上，通过记录各个分量梯度的累计情况，实现对不同分量方向的步长做出调整，使参数的学习率实现自适应更新，提高了人脸检测和头部姿态估计的准确性，实现了三维空间中人脸的实时定位。

测试的对比数据

根据在NVIDIA NANO开发板上的测试数据显示，在学习率和其他参数配置相同的情况下，使用自适应Hope-Ne模型与Hope-Net和KEPLER人脸定位模型进行对比，实验结果见表1。

表1实验结果对比表

使用基于自适应Hope-Net的人脸实时定位方法，能够达到17.41fps，高于使用原始Hope-Net进行人脸识别的16.92fps，同时平均绝对误差(Mean Absolute Error,MAE)也低于原始Hope-Net的5.324，以及KEPLER模型的7.017，并能够输出人脸的三维坐标信息。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.基于自适应Hope-Net的人脸精准实时定位方法，其特征在于，包括以下步骤：

S1视频帧获取

S2人体头部框选及坐标估计

建立基于自适应Hope-Net的人脸检测定位模型，进行人脸检测及定位；具体的包括以下步骤：

S2.3将经过多尺度非极大值抑制算法处理后的剩余候选框作为最终的检测结果输入自适应Hope-Net模型，得到世界坐标系下的人脸俯仰角pitch1、偏航角yaw1和滚转角roll1坐标；

S3基于MediaPipe的头部坐标估计

S4平均头部坐标计算

S5笛卡尔坐标系下的头部坐标获取

2.根据权利要求1所述的基于自适应Hope-Net的人脸精准实时定位方法，其特征在于：S2中，建立基于自适应Hope-Net的人脸检测定位模型为在头部姿态估计网络Hope-Net的基础上提出自适应多尺度非极大值抑制算法，消除重复的检测结果并保留最具有代表性的目标框。

3.根据权利要求1所述的基于自适应Hope-Net的人脸精准实时定位方法，其特征在于：S4中，基于Hope-Net的头部坐标的初始权重参数为0.6，基于MediaPipe的头部坐标权重参数为0.4。