CN116434204A - 一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质 - Google Patents
一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116434204A CN116434204A CN202310406715.6A CN202310406715A CN116434204A CN 116434204 A CN116434204 A CN 116434204A CN 202310406715 A CN202310406715 A CN 202310406715A CN 116434204 A CN116434204 A CN 116434204A
- Authority
- CN
- China
- Prior art keywords
- key point
- driver
- face
- network
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 12
- 230000006872 improvement Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 5
- 206010039203 Road traffic accident Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 241001282135 Poromitra oscitans Species 0.000 description 3
- 206010048232 Yawning Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004399 eye closure Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质,方法包括:将所述待检测的驾驶员人脸图片输入训练好的驾驶员疲劳检测模型,模型包括主干网络、PIP回归器和可变形解码器,主干网络为将CA注意力模块嵌入到ScalableViT网络中替换PIPNet网络的主干ResNet;驾驶员人脸图片经过主干网络特征提取得到特征图;再经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标;可变形解码器在最后三层特征图上进行采样,对初始关键点坐标进行微调得到68个人脸关键点坐标;根据所述68个人脸关键点坐标判断驾驶员是否处于疲劳驾驶状态。
Description
技术领域
本发明涉及一种基于PIPNet网络改进的驾驶员疲劳检测方法,属于关键点检测领域。
背景技术
随着汽车保有量的不断增长,大部分的交通事故是由驾驶员认知及操作失误造成的,造成大量的人员伤亡和经济损失,成为人们生活中的重要隐患。及时提醒驾驶员的疲劳驾驶行为,可以减少大量交通事故的发生。
基于驾驶员生理信号的检测需要穿戴医疗设备监测驾驶员的生理信号,不够灵活且影响驾驶员的正常驾驶。
基于人脸关键点技术的驾驶员疲劳检测,只需在车内安装摄像头和相关软件,部署简单、使用更方便且保护了驾驶员的隐私。这种方法具有很高的实时性和准确性,及时发出警报提示驾驶员采取安全措施,从而避免疲劳驾驶导致的交通事故的发生。
传统关键点检测任务需要较高的分辨率,伴随着较大的计算量。
发明内容
ScalableViT-S网络包含可伸缩自我注意力和基于窗口的交互式自注意,将局部注意力机制和全局注意力机制融合对图像进行分层提取特征。可伸缩自我注意力在自我注意力的空间与通道维度加入了可变因子,从而降低计算量。基于窗口的交互式自注意将图片划分为若干个窗口,通过本地交互模块交错独立窗口间的信息能够有效提高模型的表达能力。
注意力机制是个轻量级的自注意力模块,可以学习输入特征图中的空间位置,以及在这些位置上的特征之间的关系,有助于网络更准确地定位目标。
PIPNet网络提出了嵌套回归头,在低分辨率特征图的热力图回归的基础上坐标回归,节省了计算量的同时保持较高的精度。该网络为了增强人脸极端姿势下的鲁棒性,同时预测每个关键点以及该关键点的近邻的偏移量,对坐标回归的有一定形状约束。
多尺度可变形解码器其中包含自注意力和交叉注意力两部分,传统的自注意力通过全局信息来计算注意力权重。为了解决这个问题,可变形的注意力模块,受可变形卷积的启发,可变形注意力模块根据归一化参考点坐标在不同尺度特征上进行采样,通过关注参考点周围的4个采样点,预测出人脸关键点预测为相对于参考点的相对偏移,降低了人脸关键点的预测难度。使用人脸关键点检测技术能够及时发现疲劳驾驶,并提醒驾驶员休息,从而减少交通事故的发生。
目的:为了克服现有技术中存在的不足,本发明提供一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,本发明提供一种基于PIPNet网络改进的驾驶员疲劳检测方法,包括:
获取待检测的驾驶员人脸图片;
将所述待检测的驾驶员人脸图片输入训练好的驾驶员疲劳检测模型,其中所述驾驶员疲劳检测模型包括主干网络、PIP回归器和可变形解码器,其中主干网络为将CA注意力模块嵌入到ScalableViT网络中替换PIPNet网络的主干ResNet;
待检测的驾驶员人脸图片经过主干网络特征提取得到特征图;
特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标;
基于所述初始关键点坐标,可变形解码器在最后三层特征图上进行采样,对初始关键点坐标进行微调得到68个人脸关键点坐标;
根据所述68个人脸关键点坐标以及预设阈值,判断驾驶员是否处于疲劳驾驶状态,得到驾驶员疲劳检测结果。
在一些实施例中,所述驾驶员疲劳检测模型的训练方法包括:
步骤1:获取具有68个人脸关键点的数据集,根据数据集生成平均人脸的关键点坐标,并对数据集进行标签标注;
步骤2:构建驾驶员疲劳检测模型;
步骤3:利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练,得到训练好的驾驶员疲劳检测模型。
进一步地,在一些实施例中,获取具有68个人脸关键点的数据集,还包括对具有68个人脸关键点的数据集进行预处理,所述预处理包括:对数据集中的驾驶员人脸图片根据预设的边界框扩大10%裁剪出人脸图像,然后调整大小为256×256。
进一步地,在一些实施例中,利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练过程中,根据训练集生成的平均人脸的关键点坐标,算出每个关键点的10个最近关键点邻居的坐标,用于辅助邻居关键点的坐标回归。
在一些实施例中,待检测的驾驶员人脸图片经过主干网络特征提取得到特征图,包括:ScalableViT-S网络中CA注意力模块使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取;CA注意力模块将通道注意力和空间注意力相融合,用于学习通道间的关系和关键点的位置信息。
在一些实施例中,特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标,包括:
PIP回归器在低分辨率上使用热图回归预测出每个关键点的所在网格、关键点相对网格左上角在x轴和y轴上的偏移量以及每个关键点10个最近邻居关键点的相对该网格左上角在x轴和y轴上的偏移量;
将每个关键点直接预测的坐标和由邻居关键点辅助预测出该关键点的坐标求均值得到初始关键点坐标;
具体包括:
其中xi、yi表示第i个初始关键点的x轴、y轴的值,x和y为直接预测出的每个关键点的x轴、y轴的值,K表示每个关键点有K个邻居关键点辅助求坐标值,xj、yj表示第K个邻居关键点预测第i个关键点的x轴、y轴的值。
在一些实施例中,基于所述初始关键点坐标,可变形解码器在最后三层特征图上进行采样,对初始关键点坐标进行微调得到68个人脸关键点坐标,包括:
所述可变形解码器包括三层可变形解码器,每层可变形解码器串联自我注意力模块和多尺度可变形注意力模块;
可变形解码器将初始关键点作为参考点,在相对待检测的驾驶员人脸图片下采样为8、16、32的特征图上进行采样点,输出每个关键点在x轴和y轴上的偏移量和初始关键点坐标相加,得到最终的68个人脸关键点坐标。
在一些实施例中,根据所述68个人脸关键点坐标以及预设阈值,判断驾驶员是否处于疲劳驾驶状态,得到驾驶员疲劳检测结果,包括:
根据所述68个人脸关键点求得眼部、口部关键点计算眼睛长宽比EAR、口部长宽比MAR、闭眼时间百分比PERCLOS的值;
响应于EAR小于0.20或者MAR大0.6或者PERCLOS大于0.8,判断驾驶员处于疲劳驾驶状态。
在一些实施例中,获取待检测的驾驶员人脸图片,包括:使用MTCNN网络提取视频中驾驶员人脸图片。
第二方面,本发明提供了一种基于PIPNet网络改进的驾驶员疲劳检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述的方法。
第三方面,本发明提供了一种设备,包括,
存储器;
处理器;
以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现上述第一方面所述的方法。
第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
有益效果:本发明提供的基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质,具有以下优点:
通过使用MTCNN网络提取视频中驾驶员的人脸图片,再使用改进的PIPNet网络进行人脸特征提取并生成68个人脸关键点位置。基于眼部、口部关键点计算眼睛长宽比(EAR)、闭眼时间百分比(PERCLOS)和口部长宽比(MAR),评估驾驶员的疲劳状态。所述特征提取部分,以注意力机制模块与ScalableViT网络融合代替原有PIPNet的主干网络,在相对输入人脸图片降采样比为32的特征图上生成68个人脸关键点。最后,通过级联可变形解码器对已生成的关键点进行微调。将注意力机制模块嵌入到ScalableViT网络中替换掉原网络的主干ResNet50,在保持模型参数量和运算量的同时,提升全局视野感知能力和捕获位置感知能力,有利于模型更加精准地定位脸部的初始关键点。可变形解码器对初始关键点的位置进行微调,提高模型的检测精度。
本发明提出一种基于PIPNet网络改进的驾驶员疲劳检测方法,通过关键点检测技术可以检测出驾驶员面部和眼部的关键点坐标,判断出视频中驾驶员的睁闭眼和打哈欠行为,实时监测驾驶员的疲劳状态,可以应用于不同年龄、性别、民族和驾驶经验的驾驶员,不需要接触驾驶员身体和人工干预,具有便捷性和高效性。
附图说明
图1是本发明实施例提供的方法流程图;
图2是根据本发明一实施例的68个面部关键点;
图3是根据本发明一实施例中嵌入到改进PIPNet中的CA注意力模块;
图4是根据本发明一实施例中改进的PIPNet网络主干结构图;
图5是根据本发明一实施例中可变形解码器结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细描述:
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
第一方面,本实施例提供了一种基于PIPNet网络改进的驾驶员疲劳检测方法,包括:
获取待检测的驾驶员人脸图片;
将所述待检测的驾驶员人脸图片输入训练好的驾驶员疲劳检测模型,其中所述驾驶员疲劳检测模型包括主干网络、PIP回归器和可变形解码器,其中主干网络为将CA注意力模块嵌入到ScalableViT网络中替换PIPNet网络的主干ResNet;
待检测的驾驶员人脸图片经过主干网络特征提取得到特征图;
特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标;
基于所述初始关键点坐标,可变形解码器在最后三层特征图上进行采样,对初始关键点坐标进行微调得到68个人脸关键点坐标;
根据所述68个人脸关键点坐标以及预设阈值,判断驾驶员是否处于疲劳驾驶状态,得到驾驶员疲劳检测结果。
在一些实施例中,所述驾驶员疲劳检测模型的训练方法包括:
步骤1:获取具有68个人脸关键点的数据集,根据数据集生成平均人脸的关键点坐标,并对数据集进行标签标注;
步骤2:构建驾驶员疲劳检测模型;
步骤3:利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练,得到训练好的驾驶员疲劳检测模型。
进一步地,在一些实施例中,获取具有68个人脸关键点的数据集还包括对具有68个人脸关键点的数据集进行预处理,所述预处理包括:对数据集中的驾驶员人脸图片根据预设的边界框扩大10%裁剪出人脸图像,然后调整大小为256×256。
进一步地,在一些实施例中,利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练过程中,根据训练集生成的平均人脸的关键点坐标,算出每个关键点的10个最近关键点邻居的坐标,用于辅助邻居关键点的坐标回归。
在一些实施例中,待检测的驾驶员人脸图片经过主干网络特征提取得到特征图,包括:ScalableViT-S网络中CA注意力模块使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取;CA注意力模块将通道注意力和空间注意力相融合,用于学习通道间的关系和关键点的位置信息。
在一些实施例中,特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标,包括:
PIP回归器在低分辨率上使用热图回归预测出每个关键点的所在网格、关键点相对网格左上角在x轴和y轴上的偏移量以及每个关键点10个最近邻居关键点的相对该网格左上角在x轴和y轴上的偏移量;
将每个关键点直接预测的坐标和由邻居关键点辅助预测出该关键点的坐标求均值得到初始关键点坐标。
在一些具体实施例中,如图1所示,一种基于PIPNet网络改进的驾驶员疲劳检测方法,包含以下步骤:
步骤1:在训练和测试阶段,将数据集300W划分为训练集、验证集和测试集,裁剪出其中的人脸并将图片大小调整为256×256。根据训练集生成平均人脸的关键点坐标。在应用中,使用MTCNN网络提取出的图片大小调整为256×256后,送入改进后的PIPNet网络中,检测出驾驶员的68个人脸关键点坐标,图2是根据本实施例的68个面部关键点。
平均人脸的每个关键点的在x轴和y轴坐标值按照公式(1)进行计算得到。应用中使用MTCNN网络提取视频中驾驶员的人脸图片:
步骤2:ResNet需要对整个图像进行卷积操作,计算效率较低。而ScalableViT中的多头自注意力机制能够允许模型在处理图像时聚焦于需要关注的区域。将注意力机制模块嵌入到ScalableViT网络中作为主干网络,在保持模型参数量和运算量的同时,提升全局视野感知能力和捕获位置感知能力,有利于模型更加精准地定位驾驶员脸部的关键点;图3是根据本实施例中嵌入到改进PIPNet中的CA注意力模块;图4是根据本实施例中改进的PIPNet网络主干结构图;ScalableViT-S网络中替换ResNet,ScalableViT-S网络使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取,在整体的视觉感知方面能力更强。Coordinate Attention是一种轻量级注意力模块,将通道注意力和空间注意力相融合,能有效地学习通道间的关系和关键点的位置信息。
步骤3:网络预测出每个关键点的坐标以及它的10个最近关键点邻居的坐标。每个初始关键点的坐标值按照公式(2)进行计算得到:
其中xi、yi表示平均人脸的第i个初始关键点的x轴、y轴的值,x和y为网络直接预测出的每个关键点的x轴、y轴的值,K表示每个关键点有K个邻居辅助求坐标值,xj、yj表示第K个邻居预测第i个关键点的x轴、y轴的值;
步骤4:为了获得更准确的关键点坐标,以步骤3的初始关键点坐标为采样点对最后三层特征图进行采样,对初始关键点坐标进行微调,得到68个人脸关键点坐标。图5是根据本实施例中可变形解码器结构图,一共三层可变形解码器,每层串联自我注意力模块和多尺度可变形注意力模块。
步骤5:通过改进的PIPNet网络检测出的68个人脸关键点以及根据预设阈值判断驾驶员是否处于疲劳驾驶。记EAR为眼睑遮住瞳孔的面积百分比以及PERCLOS值为单位时间内眼睛闭合所占比例,计算出驾驶员左右眼的EAR平均值,当EAR值小于20%为闭眼。使用MAR指标来衡量驾驶员的张嘴程度,当MAR值大于0.60,判定为打哈欠状态。设定以30秒为1单位,当PERCLOS值大于70%或者打哈欠的频率大于10%,判定驾驶员是否属于疲劳状态。PERCLOS值和/>按照公式(3)进行计算得到:
在一些具体应用例中,所述方法应基于车载摄像头,实时采集驾驶员的面部数据,先MTCNN网络提取视频中驾驶员的人脸图片,再通过改进后的PIPNet网络检测出每帧驾驶员的脸部关键点,根据脸部关键点求得PERCLOS的值和的值。当PERCLOS大于70%或者/>大于10%,判定驾驶员为疲劳状态。
实施例2
第二方面,基于实施例1,本实施例提供了一种基于PIPNet网络改进的驾驶员疲劳检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述的方法。
实施例3
第三方面,基于实施例1,本实施例提供了一种设备,包括,
存储器;
处理器;
以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现实施例1所述的方法。
实施例4
第四方面,基于实施例1,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,包括:
获取待检测的驾驶员人脸图片;
将所述待检测的驾驶员人脸图片输入训练好的驾驶员疲劳检测模型,其中所述驾驶员疲劳检测模型包括主干网络、PIP回归器和可变形解码器,其中主干网络为将CA注意力模块嵌入到ScalableViT网络中替换PIPNet网络的主干ResNet;
待检测的驾驶员人脸图片经过主干网络特征提取得到特征图;
特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标;
基于所述初始关键点坐标,可变形解码器在最后三层特征图上进行采样,对初始关键点坐标进行微调得到68个人脸关键点坐标;
根据所述68个人脸关键点坐标以及预设阈值,判断驾驶员是否处于疲劳驾驶状态,得到驾驶员疲劳检测结果。
2.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,所述驾驶员疲劳检测模型的训练方法包括:
步骤1:获取具有68个人脸关键点的数据集,根据数据集生成平均人脸的关键点坐标,并对数据集进行标签标注;
步骤2:构建驾驶员疲劳检测模型;
步骤3:利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练,得到训练好的驾驶员疲劳检测模型。
3.根据权利要求2所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,获取具有68个人脸关键点的数据集,还包括对具有68个人脸关键点的数据集进行预处理,所述预处理包括:对数据集中的驾驶员人脸图片根据预设的边界框扩大10%裁剪出人脸图像,然后调整大小为256×256;
和/或,利用带标签的数据集和平均人脸的关键点坐标对构建的驾驶员疲劳检测模型进行训练过程中,根据训练集生成的平均人脸的关键点坐标,算出每个关键点的10个最近关键点邻居的坐标,用于辅助邻居关键点的坐标回归。
4.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,待检测的驾驶员人脸图片经过主干网络特征提取得到特征图,包括:ScalableViT-S网络中CA注意力模块使用自注意力机制进行特征提取代替传统卷积网络使用卷积核进行特征提取;CA注意力模块将通道注意力和空间注意力相融合,用于学习通道间的关系和关键点的位置信息。
5.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,特征图经过PIP回归器预测出每个关键点以及每个关键点的10个最近关键点邻居的坐标,求得初始关键点坐标,包括:
PIP回归器在低分辨率上使用热图回归预测出每个关键点的所在网格、关键点相对网格左上角在x轴和y轴上的偏移量以及每个关键点10个最近邻居关键点的相对该网格左上角在x轴和y轴上的偏移量;
将每个关键点直接预测的坐标和由邻居关键点辅助预测出该关键点的坐标求均值得到初始关键点坐标;
其中xi、yi表示第i个初始关键点的x轴、y轴的值,x和y为直接预测出的每个关键点的x轴、y轴的值,K表示每个关键点有K个邻居关键点辅助求坐标值,xj、yj表示第K个邻居关键点预测第i个关键点的x轴、y轴的值。
6.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,基于所述初始关键点坐标,可变形解码器在最后三层特征图上进行采样,对初始关键点坐标进行微调得到68个人脸关键点坐标,包括:
所述可变形解码器包括三层可变形解码器,每层可变形解码器串联自我注意力模块和多尺度可变形注意力模块;
可变形解码器将初始关键点作为参考点,在相对待检测的驾驶员人脸图片下采样为8、16、32的特征图上进行采样点,输出每个关键点在x轴和y轴上的偏移量和初始关键点坐标相加,得到最终的68个人脸关键点坐标。
7.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,根据所述68个人脸关键点坐标以及预设阈值,判断驾驶员是否处于疲劳驾驶状态,得到驾驶员疲劳检测结果,包括:
根据所述68个人脸关键点求得眼部、口部关键点计算眼睛长宽比EAR、口部长宽比MAR、闭眼时间百分比PERCLOS的值;
响应于EAR小于0.20或者MAR大0.6或者PERCLOS大于0.8,判断驾驶员处于疲劳驾驶状态。
8.根据权利要求1所述的基于PIPNet网络改进的驾驶员疲劳检测方法,其特征在于,获取待检测的驾驶员人脸图片,包括:使用MTCNN网络提取视频中驾驶员人脸图片。
9.一种电子设备,其特征在于,包括:
存储器;
处理器;
以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1至8任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406715.6A CN116434204A (zh) | 2023-04-17 | 2023-04-17 | 一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406715.6A CN116434204A (zh) | 2023-04-17 | 2023-04-17 | 一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116434204A true CN116434204A (zh) | 2023-07-14 |
Family
ID=87081150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406715.6A Pending CN116434204A (zh) | 2023-04-17 | 2023-04-17 | 一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434204A (zh) |
-
2023
- 2023-04-17 CN CN202310406715.6A patent/CN116434204A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6264492B1 (ja) | 運転者監視装置、運転者監視方法、学習装置及び学習方法 | |
JP6695503B2 (ja) | 車両の運転者の状態を監視するための方法及びシステム | |
García et al. | Driver monitoring based on low-cost 3-D sensors | |
CN109657533A (zh) | 行人重识别方法及相关产品 | |
MX2013002904A (es) | Aparato de proceso de imagenes de personas y metodo para procesar imagenes de personas. | |
JP2008146356A (ja) | 視線方向推定装置及び視線方向推定方法 | |
JP2007006427A (ja) | 映像監視装置 | |
JP2019523943A (ja) | 視覚的且つ動的な運転シーンの知覚的負荷を決定する制御装置、システム及び方法 | |
WO2018171875A1 (en) | Control device, system and method for determining the perceptual load of a visual and dynamic driving scene | |
CN109800682A (zh) | 驾驶员属性识别方法及相关产品 | |
CN109664889B (zh) | 一种车辆控制方法、装置和系统以及存储介质 | |
CN112906617A (zh) | 一种基于手部检测的驾驶员异常行为识别方法与系统 | |
Gupta et al. | Let the blind see: an AIIoT-based device for real-time object recognition with the voice conversion | |
CN114005167A (zh) | 基于人体骨骼关键点的远距离视线估计方法和装置 | |
CN109784140A (zh) | 驾驶员属性识别方法及相关产品 | |
CN112749655A (zh) | 视线追踪方法、装置、计算机设备和存储介质 | |
JP4011426B2 (ja) | 顔検出装置、顔検出方法および顔検出プログラム | |
CN116434204A (zh) | 一种基于PIPNet网络改进的驾驶员疲劳检测方法、设备及存储介质 | |
JP3088880B2 (ja) | 人物認識装置 | |
CN114898447B (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 | |
CN111291607A (zh) | 驾驶员分神检测方法、装置、计算机设备和存储介质 | |
WO2023108364A1 (zh) | 驾驶员状态检测方法、装置及存储介质 | |
KR102327578B1 (ko) | 웨어러블 디바이스를 이용한 객체 및 상황 정보 제공장치 및 방법 | |
KR102356165B1 (ko) | 영상에서의 얼굴 인덱싱 방법 및 장치 | |
KR102134771B1 (ko) | 객체 인식을 통해 위급 상황을 판단하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |