CN116434204A

CN116434204A - 一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质

Info

Publication number: CN116434204A
Application number: CN202310406715.6A
Authority: CN
Inventors: 张登银; 唐修文
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-14

Abstract

本发明公开了一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质，方法包括：将所述待检测的驾驶员人脸图片输入训练好的驾驶员疲劳检测模型，模型包括主干网络、PIP回归器和可变形解码器，主干网络为将CA注意力模块嵌入到ScalableViT网络中替换PIPNet网络的主干ResNet；驾驶员人脸图片经过主干网络特征提取得到特征图；再经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标，求得初始关键点坐标；可变形解码器在最后三层特征图上进行采样，对初始关键点坐标进行微调得到68个人脸关键点坐标；根据所述68个人脸关键点坐标判断驾驶员是否处于疲劳驾驶状态。

Description

一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质

技术领域

本发明涉及一种基于PIPNet网络改进的驾驶员疲劳检测方法，属于关键点检测领域。

背景技术

随着汽车保有量的不断增长，大部分的交通事故是由驾驶员认知及操作失误造成的，造成大量的人员伤亡和经济损失，成为人们生活中的重要隐患。及时提醒驾驶员的疲劳驾驶行为，可以减少大量交通事故的发生。

基于驾驶员生理信号的检测需要穿戴医疗设备监测驾驶员的生理信号，不够灵活且影响驾驶员的正常驾驶。

基于人脸关键点技术的驾驶员疲劳检测，只需在车内安装摄像头和相关软件，部署简单、使用更方便且保护了驾驶员的隐私。这种方法具有很高的实时性和准确性，及时发出警报提示驾驶员采取安全措施，从而避免疲劳驾驶导致的交通事故的发生。

传统关键点检测任务需要较高的分辨率，伴随着较大的计算量。

发明内容

ScalableViT-S网络包含可伸缩自我注意力和基于窗口的交互式自注意，将局部注意力机制和全局注意力机制融合对图像进行分层提取特征。可伸缩自我注意力在自我注意力的空间与通道维度加入了可变因子，从而降低计算量。基于窗口的交互式自注意将图片划分为若干个窗口，通过本地交互模块交错独立窗口间的信息能够有效提高模型的表达能力。

注意力机制是个轻量级的自注意力模块，可以学习输入特征图中的空间位置，以及在这些位置上的特征之间的关系，有助于网络更准确地定位目标。

PIPNet网络提出了嵌套回归头，在低分辨率特征图的热力图回归的基础上坐标回归，节省了计算量的同时保持较高的精度。该网络为了增强人脸极端姿势下的鲁棒性，同时预测每个关键点以及该关键点的近邻的偏移量，对坐标回归的有一定形状约束。

多尺度可变形解码器其中包含自注意力和交叉注意力两部分，传统的自注意力通过全局信息来计算注意力权重。为了解决这个问题，可变形的注意力模块，受可变形卷积的启发，可变形注意力模块根据归一化参考点坐标在不同尺度特征上进行采样，通过关注参考点周围的4个采样点，预测出人脸关键点预测为相对于参考点的相对偏移，降低了人脸关键点的预测难度。使用人脸关键点检测技术能够及时发现疲劳驾驶，并提醒驾驶员休息，从而减少交通事故的发生。

目的：为了克服现有技术中存在的不足，本发明提供一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，本发明提供一种基于PIPNet网络改进的驾驶员疲劳检测方法，包括：

获取待检测的驾驶员人脸图片；

将所述待检测的驾驶员人脸图片输入训练好的驾驶员疲劳检测模型，其中所述驾驶员疲劳检测模型包括主干网络、PIP回归器和可变形解码器，其中主干网络为将CA注意力模块嵌入到ScalableViT网络中替换PIPNet网络的主干ResNet；

待检测的驾驶员人脸图片经过主干网络特征提取得到特征图；

特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标，求得初始关键点坐标；

基于所述初始关键点坐标，可变形解码器在最后三层特征图上进行采样，对初始关键点坐标进行微调得到68个人脸关键点坐标；

根据所述68个人脸关键点坐标以及预设阈值，判断驾驶员是否处于疲劳驾驶状态，得到驾驶员疲劳检测结果。

在一些实施例中，所述驾驶员疲劳检测模型的训练方法包括：

步骤1：获取具有68个人脸关键点的数据集，根据数据集生成平均人脸的关键点坐标，并对数据集进行标签标注；

步骤2：构建驾驶员疲劳检测模型；

步骤3：利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练，得到训练好的驾驶员疲劳检测模型。

进一步地，在一些实施例中，获取具有68个人脸关键点的数据集，还包括对具有68个人脸关键点的数据集进行预处理，所述预处理包括：对数据集中的驾驶员人脸图片根据预设的边界框扩大10％裁剪出人脸图像，然后调整大小为256×256。

进一步地，在一些实施例中，利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练过程中，根据训练集生成的平均人脸的关键点坐标，算出每个关键点的10个最近关键点邻居的坐标，用于辅助邻居关键点的坐标回归。

在一些实施例中，待检测的驾驶员人脸图片经过主干网络特征提取得到特征图，包括：ScalableViT-S网络中CA注意力模块使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取；CA注意力模块将通道注意力和空间注意力相融合，用于学习通道间的关系和关键点的位置信息。

在一些实施例中，特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标，求得初始关键点坐标，包括：

PIP回归器在低分辨率上使用热图回归预测出每个关键点的所在网格、关键点相对网格左上角在x轴和y轴上的偏移量以及每个关键点10个最近邻居关键点的相对该网格左上角在x轴和y轴上的偏移量；

将每个关键点直接预测的坐标和由邻居关键点辅助预测出该关键点的坐标求均值得到初始关键点坐标；

具体包括：

其中x_i、y_i表示第i个初始关键点的x轴、y轴的值，x和y为直接预测出的每个关键点的x轴、y轴的值，K表示每个关键点有K个邻居关键点辅助求坐标值，x_j、y_j表示第K个邻居关键点预测第i个关键点的x轴、y轴的值。

在一些实施例中，基于所述初始关键点坐标，可变形解码器在最后三层特征图上进行采样，对初始关键点坐标进行微调得到68个人脸关键点坐标，包括：

所述可变形解码器包括三层可变形解码器，每层可变形解码器串联自我注意力模块和多尺度可变形注意力模块；

可变形解码器将初始关键点作为参考点，在相对待检测的驾驶员人脸图片下采样为8、16、32的特征图上进行采样点，输出每个关键点在x轴和y轴上的偏移量和初始关键点坐标相加，得到最终的68个人脸关键点坐标。

在一些实施例中，根据所述68个人脸关键点坐标以及预设阈值，判断驾驶员是否处于疲劳驾驶状态，得到驾驶员疲劳检测结果，包括：

根据所述68个人脸关键点求得眼部、口部关键点计算眼睛长宽比EAR、口部长宽比MAR、闭眼时间百分比PERCLOS的值；

响应于EAR小于0.20或者MAR大0.6或者PERCLOS大于0.8，判断驾驶员处于疲劳驾驶状态。

在一些实施例中，获取待检测的驾驶员人脸图片，包括：使用MTCNN网络提取视频中驾驶员人脸图片。

第二方面，本发明提供了一种基于PIPNet网络改进的驾驶员疲劳检测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述的方法。

第三方面，本发明提供了一种设备，包括，

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现上述第一方面所述的方法。

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

有益效果：本发明提供的基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质，具有以下优点：

通过使用MTCNN网络提取视频中驾驶员的人脸图片，再使用改进的PIPNet网络进行人脸特征提取并生成68个人脸关键点位置。基于眼部、口部关键点计算眼睛长宽比(EAR)、闭眼时间百分比(PERCLOS)和口部长宽比(MAR)，评估驾驶员的疲劳状态。所述特征提取部分，以注意力机制模块与ScalableViT网络融合代替原有PIPNet的主干网络，在相对输入人脸图片降采样比为32的特征图上生成68个人脸关键点。最后，通过级联可变形解码器对已生成的关键点进行微调。将注意力机制模块嵌入到ScalableViT网络中替换掉原网络的主干ResNet50，在保持模型参数量和运算量的同时，提升全局视野感知能力和捕获位置感知能力，有利于模型更加精准地定位脸部的初始关键点。可变形解码器对初始关键点的位置进行微调，提高模型的检测精度。

本发明提出一种基于PIPNet网络改进的驾驶员疲劳检测方法，通过关键点检测技术可以检测出驾驶员面部和眼部的关键点坐标，判断出视频中驾驶员的睁闭眼和打哈欠行为，实时监测驾驶员的疲劳状态，可以应用于不同年龄、性别、民族和驾驶经验的驾驶员，不需要接触驾驶员身体和人工干预，具有便捷性和高效性。

附图说明

图1是本发明实施例提供的方法流程图；

图2是根据本发明一实施例的68个面部关键点；

图3是根据本发明一实施例中嵌入到改进PIPNet中的CA注意力模块；

图4是根据本发明一实施例中改进的PIPNet网络主干结构图；

图5是根据本发明一实施例中可变形解码器结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述：

下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

第一方面，本实施例提供了一种基于PIPNet网络改进的驾驶员疲劳检测方法，包括：

获取待检测的驾驶员人脸图片；

步骤2：构建驾驶员疲劳检测模型；

进一步地，在一些实施例中，获取具有68个人脸关键点的数据集还包括对具有68个人脸关键点的数据集进行预处理，所述预处理包括：对数据集中的驾驶员人脸图片根据预设的边界框扩大10％裁剪出人脸图像，然后调整大小为256×256。

将每个关键点直接预测的坐标和由邻居关键点辅助预测出该关键点的坐标求均值得到初始关键点坐标。

在一些具体实施例中，如图1所示，一种基于PIPNet网络改进的驾驶员疲劳检测方法，包含以下步骤：

步骤1：在训练和测试阶段，将数据集300W划分为训练集、验证集和测试集，裁剪出其中的人脸并将图片大小调整为256×256。根据训练集生成平均人脸的关键点坐标。在应用中，使用MTCNN网络提取出的图片大小调整为256×256后，送入改进后的PIPNet网络中，检测出驾驶员的68个人脸关键点坐标，图2是根据本实施例的68个面部关键点。

平均人脸的每个关键点的在x轴和y轴坐标值按照公式(1)进行计算得到。应用中使用MTCNN网络提取视频中驾驶员的人脸图片：

其中

表示平均人脸的第i个关键点x轴的值，Num表示训练集中的人脸数量，x_j表示第j张人脸关键点的在x轴的值。/>

和y_j同理；

步骤2：ResNet需要对整个图像进行卷积操作，计算效率较低。而ScalableViT中的多头自注意力机制能够允许模型在处理图像时聚焦于需要关注的区域。将注意力机制模块嵌入到ScalableViT网络中作为主干网络，在保持模型参数量和运算量的同时，提升全局视野感知能力和捕获位置感知能力，有利于模型更加精准地定位驾驶员脸部的关键点；图3是根据本实施例中嵌入到改进PIPNet中的CA注意力模块；图4是根据本实施例中改进的PIPNet网络主干结构图；ScalableViT-S网络中替换ResNet，ScalableViT-S网络使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取，在整体的视觉感知方面能力更强。Coordinate Attention是一种轻量级注意力模块，将通道注意力和空间注意力相融合，能有效地学习通道间的关系和关键点的位置信息。

步骤3：网络预测出每个关键点的坐标以及它的10个最近关键点邻居的坐标。每个初始关键点的坐标值按照公式(2)进行计算得到：

其中x_i、y_i表示平均人脸的第i个初始关键点的x轴、y轴的值，x和y为网络直接预测出的每个关键点的x轴、y轴的值，K表示每个关键点有K个邻居辅助求坐标值，x_j、y_j表示第K个邻居预测第i个关键点的x轴、y轴的值；

步骤4：为了获得更准确的关键点坐标，以步骤3的初始关键点坐标为采样点对最后三层特征图进行采样，对初始关键点坐标进行微调，得到68个人脸关键点坐标。图5是根据本实施例中可变形解码器结构图，一共三层可变形解码器，每层串联自我注意力模块和多尺度可变形注意力模块。

步骤5：通过改进的PIPNet网络检测出的68个人脸关键点以及根据预设阈值判断驾驶员是否处于疲劳驾驶。记EAR为眼睑遮住瞳孔的面积百分比以及PERCLOS值为单位时间内眼睛闭合所占比例，计算出驾驶员左右眼的EAR平均值，当EAR值小于20％为闭眼。使用MAR指标来衡量驾驶员的张嘴程度，当MAR值大于0.60，判定为打哈欠状态。设定以30秒为1单位，当PERCLOS值大于70％或者打哈欠的频率

大于10％，判定驾驶员是否属于疲劳状态。PERCLOS值和/>

按照公式(3)进行计算得到：

其中||x₄₀-x₃₇||表示眼睛的宽度，

表示眼睛的高度。

||x₆₅-x₆₁||表示嘴巴的宽度，

表示嘴巴的高度。K表示30秒内的闭眼帧数，N表示30秒内的总帧数；

在一些具体应用例中，所述方法应基于车载摄像头，实时采集驾驶员的面部数据，先MTCNN网络提取视频中驾驶员的人脸图片，再通过改进后的PIPNet网络检测出每帧驾驶员的脸部关键点，根据脸部关键点求得PERCLOS的值和

的值。当PERCLOS大于70％或者/>

大于10％，判定驾驶员为疲劳状态。

实施例2

第二方面，基于实施例1，本实施例提供了一种基于PIPNet网络改进的驾驶员疲劳检测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述的方法。

实施例3

第三方面，基于实施例1，本实施例提供了一种设备，包括，

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现实施例1所述的方法。

实施例4

第四方面，基于实施例1，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，包括：

获取待检测的驾驶员人脸图片；

2.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，所述驾驶员疲劳检测模型的训练方法包括：

步骤2：构建驾驶员疲劳检测模型；

3.根据权利要求2所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，获取具有68个人脸关键点的数据集，还包括对具有68个人脸关键点的数据集进行预处理，所述预处理包括：对数据集中的驾驶员人脸图片根据预设的边界框扩大10％裁剪出人脸图像，然后调整大小为256×256；

和/或，利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练过程中，根据训练集生成的平均人脸的关键点坐标，算出每个关键点的10个最近关键点邻居的坐标，用于辅助邻居关键点的坐标回归。

4.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，待检测的驾驶员人脸图片经过主干网络特征提取得到特征图，包括：ScalableViT-S网络中CA注意力模块使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取；CA注意力模块将通道注意力和空间注意力相融合，用于学习通道间的关系和关键点的位置信息。

5.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标，求得初始关键点坐标，包括：

6.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，基于所述初始关键点坐标，可变形解码器在最后三层特征图上进行采样，对初始关键点坐标进行微调得到68个人脸关键点坐标，包括：

7.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，根据所述68个人脸关键点坐标以及预设阈值，判断驾驶员是否处于疲劳驾驶状态，得到驾驶员疲劳检测结果，包括：

8.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法，其特征在于，获取待检测的驾驶员人脸图片，包括：使用MTCNN网络提取视频中驾驶员人脸图片。

9.一种电子设备，其特征在于，包括：

存储器；

处理器；

以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1至8任一项所述的方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。