CN116206289A - 一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质 - Google Patents
一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN116206289A CN116206289A CN202211579986.3A CN202211579986A CN116206289A CN 116206289 A CN116206289 A CN 116206289A CN 202211579986 A CN202211579986 A CN 202211579986A CN 116206289 A CN116206289 A CN 116206289A
- Authority
- CN
- China
- Prior art keywords
- data set
- face image
- detection model
- domain
- domain data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 139
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 230000008713 feedback mechanism Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000001737 promoting effect Effects 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims 1
- 238000005096 rolling process Methods 0.000 claims 1
- 206010016256 fatigue Diseases 0.000 description 58
- 230000001815 facial effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010062519 Poor quality sleep Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质,其中方法包括构建检测模型;获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理;将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型;采集目标司机的人脸图像,并进行预处理;将预处理后的目标司机人脸图像输入训练完成的检测模型;获取所述检测模型输出的检测结果。本发明提出了一种基于动态结构化注意力反馈和先验语义半监督的跨域司机疲劳驾驶检测方法,能够针对不同场景下精准识别驾驶员疲劳状态和等级。
Description
技术领域
本发明属于计算机视觉领域,尤其是涉及一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质。
背景技术
由于在先进司机辅助系统中缺乏疲劳检测系统,大量的司机和行人因驾驶员的疲劳驾驶受到严重的伤害。根据中央道路研究所(CRRI)的数据,在所有交通伤亡中,开车时睡着的疲劳司机责任占大约40%。
疲劳驾驶一般是指驾驶员长时间精神高度集中的行车后,肌肉上产生的松弛和精神上的疲倦,手脚反应能力和预判能力下降,进而产生动作迟缓的现象。近年来,疲劳驾驶检测已成为一个重要的研究领域。根据最近的研究,疲劳检测技术分为三大类:基于生理特征的疲劳检测、基于车辆行为的疲劳检测和基于人脸面部特征的疲劳检测。首先,生理特征取决于身体因素,如心率、血氧浓度、脉搏等。一般来说,脑电信号(EEG)、眼电信号(EOG)、心电信号(ECG)和肌电信号(EMG)是用于评估司机身体状况的常用生理信号。其中,在疲劳驾驶领域EEG被视为“黄金标准”。但是,基于生理特征的疲劳检测方法需要司机佩戴传感器难以保证驾驶员的便利性和舒适性。其次,基于车辆行为的疲劳检测方法通过观察车辆的行为,如方向盘运动、随机制动、速度变化等,来检测疲劳。采用基于车辆特征行为的疲劳检测方法的主要缺点是,车辆的行为可能会因恶劣的天气和路况等而改变。最后,基于人脸面部特征的疲劳检测方法通过使用机器学习和计算机视觉(CV)观察面部表情和动作检测疲劳。基于视觉的面部特征疲劳检测方法因其非接触式、容易实时获得驾驶员的面部状态且成本低的优点而受到广泛关注。
而现有用于检测面部表情的算法包括传统算法如ViolaJones(Haarcascade)、Canny边缘检测和支持向量机(SVM),神经网络算法如CNN,ANN,朴素贝叶斯分类器和GAN可用于疲劳检测。但是,上述算法仍然在基于人脸面部特征的疲劳检测中存在缺陷,这些算法使用手工特征且学习不到人脸的面部复杂特征导致检测的精确度大大降低。
发明内容
有鉴于此,本发明旨在提出一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质,以解决现有用于检测面部表情的算法应用于疲劳驾驶检测时精确度不佳的问题。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明提供了一种跨域司机疲劳驾驶检测方法,包括:
构建检测模型;所述检测模型包括两个平行的子网络,每个子网络均通过依次连接的域内图卷积神经网络和域间图卷积神经网络,分别挖掘域内关系并学习域间特征不变性;其中,每一子网络均有两个输入,一个输入为检测模型中ResNet提取的全局特征和局部特征,另一个输入为通过结构化注意力反馈机制对人脸图像的语义特征分布初始化全局特征和局部特征后得到的特征向量
获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理;
将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型;
采集目标司机的人脸图像,并进行预处理;
将预处理后的目标司机人脸图像输入训练完成的检测模型;
获取所述检测模型输出的检测结果。
进一步的,所述预处理的具体步骤包括:
利用YoloV5对图像检测人脸,并裁剪为224*224大小;
利用Dilb人脸关键点定位器对人脸标注关键点;其中,关键点包括左眼睛、右眼睛、鼻子、左嘴角、右嘴角。
进一步的,所述将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型,包括:
利用ResNet根据关键点坐标对预处理后的源域数据集和目标域数据集的人脸图像样本进行特征提取,分别提取得到二者的全局特征和局部特征;
利用结构化注意力反馈机制分别从源域数据集和目标域数据集人脸图像样本的语义特征分布中,初始化全局特征和局部特征后得到特征向量;
将所述全局特征和局部特征、以及特征向量输入每一子网络,利用每一子网络中的域内图卷积神经网络和域间图卷积神经网络,分别学习域内之间全局特征和局部特征的关系,并挖掘域间的特征不变性,以获得跨域的协同适应;其中,每一子网络均通过带有结构化注意力的节点和图卷积神经网络挖掘并学习各节点连接的权重值,以获得域内各区域的关系和域间的协同适应;
得到每一子网络输出的分类特征向量;
将分类特征向量输入到分类器中进行分类,并通过先验语义半监督机制反向促进源域数据集和目标域数据集的特征分布进行优化分类结果,得到训练完成的检测模型。
进一步的,所述利用结构化注意力反馈机制分别从源域数据集和目标域数据集人脸图像样本的语义特征分布中,初始化全局特征和局部特征后得到特征向量,包括:
对源域数据集和目标域数据集对应的人脸图像样本,均采用动态结构化注意力反馈机制将人脸图像样本分成C个聚类,并计算每个聚类带有注意力的特征向量,计算公式如下所示:
其中,fk(·)为区域k的特征提取器;k是全局特征和局部特征的集合,k∈{h,le.re,no,lm,rm}分别代表全局特征、左眼睛、右眼睛、鼻子、左嘴角、右嘴角;是源域数据集(s)某一聚类簇C的样本总数,/>是目标域数据集(t)某一聚类簇C的样本总数;/>是源域数据集(s)聚类簇的第i个样本;/>是目标域数据集(t)聚类簇的第j个样本;
采用动态结构化注意力反馈机制以渐进的方式迭代更新统计分布;其中,对于每次批量迭代,均需计算每个域每个人脸图像样本和每个集群分布之间的距离,以使人脸图像样本被分组到距离最小的聚类簇中,之后在同一聚类的全部人脸图像样本中计算带有结构化注意力的特征向量,并进行更新,更新公式如下所示:
其中α是一个平衡参数;
对人脸图像样本进行重新聚类,得到每个聚类的新统计分布;
迭代进行epoch-level重聚和iteration-level更新,得到最终的统计分布、以及全局特征和局部特征的特征向量。
进一步的,所述将分类特征向量输入到分类器中进行分类,并通过先验语义半监督机制反向促进源域数据集和目标域数据集的特征分布进行优化分类结果,得到训练完成的检测模型,包括:
将分类特征向量输入到分类器中进行分类;
采用multi-hot的先验语义半监督机制反向促进各域的特征分布进行优化分类结果,先验语义半监督机制过程如下列公式所示:
得到训练完成的检测模型。
进一步的,所述子网络包括域内图卷积神经网络和域间图卷积神经网络,具体如下列公式所示:
其中是由源域数据集提取到的全局特征或局部特征获得的相应节点,或目标域数据集提取到的全局特征或局部特征获得的相应节点;Ain_tra是域内的邻接矩阵,Ain_tra包括两种连接方式:即局部与全局、以及局部与局部;Ain_ter是域间的邻接矩阵,Ain_ter包括三种连接方式:局部与局部、全局与局部、以及全局与全局。
第二方面,本发明还提供了一种跨域司机疲劳驾驶检测装置,包括:
构建模块,用于构建检测模型;
获取模块,用于获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理;
训练模块,用于将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型;
采集模块,用于采集目标司机的人脸图像,并进行预处理;
处理模块,用于将预处理后的目标司机人脸图像输入训练完成的检测模型;
得到模块,用于获取所述检测模型输出的检测结果。
第三方面,本发明还提供了一种终端,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的检测方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的检测方法。
相对于现有技术,本发明所述的一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质具有以下优势:
(1)本发明提出了一种基于动态结构化注意力反馈和先验语义半监督的跨域司机疲劳驾驶检测方法,能够针对不同场景下精准识别驾驶员疲劳状态和等级。
(2)本发明所述检测方法通过将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到了可以有效监测司机疲劳程度的检测模型。之后通过利用训练完成的检测模型对目标司机的人脸图像进行检测,就可以得到目标司机当前的疲劳状态,实现对司机是否存在疲劳驾驶的判断,便于后续对目标司机进行监测或提醒,有利于确保目标司机在驾驶过程中的安全性。
(3)本发明所述的检测方法还基于动态结构化注意力反馈机制,通过构建带有注意力节点的图神经网络分别挖掘域内各区域之间的关系和域间的不变特征消除域间特征转移,并通过带有类信息的反馈机制调整源域和目标域的分布。
(4)本发明还所述的检测方法还利用先验语义半监督机制采用multi-hot编码信息进一步分类各域之间的特征分布获得精准分类,有利于增强检测模型的鲁棒性和泛化能力。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一所述一种跨域司机疲劳驾驶检测方法流程图;
图2为本发明实施例一所述一种跨域司机疲劳驾驶检测方法中检测模型的结构示意图;
图3为本发明实施例二所述一种跨域司机疲劳驾驶检测装置的结构示意图;
图4为本发明实施例三提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所述一种跨域司机疲劳驾驶检测方法流程图,这种检测方法可用于跨域司机疲劳驾驶检测,通过检测司机人脸图像信息,实现对司机是否存在疲劳驾驶的检测。参见图1,这种方法的具体步骤如下:
步骤101、构建检测模型;所述检测模型包括两个平行的子网络,每个子网络均通过依次连接的域内图卷积神经网络和域间图卷积神经网络,分别挖掘域内关系并学习域间特征不变性;其中,每一子网络均有两个输入,一个输入为检测模型中ResNet提取的全局特征和局部特征,另一个输入为通过结构化注意力反馈机制对人脸图像的语义特征分布初始化全局特征和局部特征后得到的特征向量。
由于在传统监督学习中,普遍需要大量带标签的数据进行训练,并且需要保证训练集和测试集中的数据分布相似。如果训练集和测试集的数据具有不同的分布,训练后的分类器在测试集上就没有好的表现。而本实施例所述方法的框架主要建立在对抗性跨域机制上,这种方法通过对抗机制学习域不变特征,即通过特征提取器的目标是生成能够欺骗域鉴别器的可转移特征,而域鉴别器的目标是区分源域数据集和目标域数据集的人脸图像样本。
步骤102、获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理。
在跨域司机疲劳驾驶检测框架中的数据集由源域数据集和目标域数据集/>组成。具体的,源域数据集可以采用司机疲劳公开数据集UTA-RLDD,目标域数据集可以采用司机疲劳公开数据集DROZY。每一个源域数据集的人脸图像样本/>都有一个标签/>(即清醒、早期疲劳、严重疲劳),但是目标域样本没有标签。
在实际应用过程中,可采用如下预处理步骤对人脸图像样本进行处理:第一步利用YoloV5对图像检测人脸,并裁剪为224*224大小;第二步利用Dilb人脸关键点定位器对人脸标注关键点;其中,关键点包括左眼睛、右眼睛、鼻子、左嘴角、右嘴角。
步骤103、将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型。
本方法中的检测模型由两个平行子网络构成,每个子网络均有两个输入。其中,每个子网络的第一个输入是特征提取网络(即ResNet,Residual Neural Network,残差网络)根据关键点坐标分别对源域数据集和目标域数据集提取得到的全局特征和局部特征。本实施例采用ResNet作为特征提取网络进行特征提取,这是因为ResNet作为视觉领域的骨干网络,有着优越的性能。而每个子网络的第二个输入是采用结构化注意力反馈机制分别针对源域数据集和目标域数据集人脸图像样本的语义特征分布中,初始化全局特征和局部特征得到的特征向量。
在实际应用过程中,利用预处理后的源域数据集和目标域数据集的人脸图像样本对检测模型进行训练时,可以将两个数据集内的人脸图像样本划分为训练集和测试集,用于检测模型的训练和测试,其中训练集和测试集按7:3的比例进行划分。
示例性的,检测模型的具体训练过程可以参照如下步骤进行:
步骤1031、利用ResNet根据关键点坐标对预处理后的源域数据集和目标域数据集的人脸图像样本进行特征提取,分别提取得到二者的全局特征和局部特征。具体的,估计源域中每类带有注意力的全局和局部特征向量为目标域中每类带有注意力的全局和局部特征向量为/>
步骤1032、利用结构化注意力反馈机制分别从源域数据集和目标域数据集人脸图像样本的语义特征分布中,初始化全局特征和局部特征后得到特征向量。
集成类信息对于实现更细粒度的类内部交互和适应起到重要作用。具体来讲,首先从源数据集和目标数据集中的特征分布中初始化全局和局部的特征向量。然后通过对样本进行聚类,得到每E个周期的统计分布,以及迭代级更新(iteration-level),每次迭代更新统计分布,从而得到更新后的全局和局部特征向量。
在实际应用过程中,可以先对源域数据集和目标域数据集对应的人脸图像样本,均采用动态结构化注意力反馈机制将人脸图像样本分成C个聚类,并计算每个聚类带有注意力的特征向量,计算公式如下所示:
其中,fk(·)为区域k的特征提取器;k是全局特征和局部特征的集合,k∈{h,le.re,no,lm,rm}分别代表全局特征、左眼睛、右眼睛、鼻子、左嘴角、右嘴角;是源域数据集(s)某一聚类簇C的样本总数,/>是目标域数据集(t)某一聚类簇C的样本总数;/>是源域数据集(s)聚类簇的第i个样本;/>是目标域数据集(t)聚类簇的第j个样本。
然后采用动态结构化注意力反馈机制以渐进的方式迭代更新统计分布;其中,对于每次批量迭代,均需计算每个域每个人脸图像样本和每个集群分布之间的距离,以使人脸图像样本被分组到距离最小的聚类簇中,之后在同一聚类的全部人脸图像样本中计算带有结构化注意力的特征向量,并进行更新,更新公式如下所示:
之后对人脸图像样本进行重新聚类,得到每个聚类的新统计分布。
具体的,可通过如下公式进行重新聚类,公式如下所示:
最后,随着训练过程的进行,迭代进行epoch-level重聚和iteration-level更新,得到最终的统计分布、以及全局特征和局部特征的特征向量。
通过基于动态结构化注意力反馈机制,构建带有注意力节点的图神经网络分别挖掘域内各区域之间的关系和域间的不变特征,有利于消除域间特征转移。此外,通过带有类信息的反馈机制,还可以调整源域和目标域的分布。
步骤1033、将所述全局特征和局部特征、以及特征向量输入每一子网络,利用每一子网络中的域内图卷积神经网络和域间图卷积神经网络,分别学习域内之间全局特征和局部特征的关系,并挖掘域间的特征不变性,以获得跨域的协同适应;其中,每一子网络均通过带有结构化注意力的节点和图卷积神经网络挖掘并学习各节点连接的权重值,以获得域内各区域的关系和域间的协同适应。
在上述步骤1032初始化全局和局部特征之后,需要构建域内和域间两种图,并通过图卷积神经网络传播消息,分别学习域内之间全局和局部特征的关系以及挖掘域间的特征不变性获得跨域的协同适应。因此,本方法中利用子网络对初始化全局和局部特征后的特征向量进行处理。
具体的,子网络包括域内图卷积神经网络和域间图卷积神经网络,具体如下列公式所示:
其中是由源域数据集提取到的全局特征或局部特征获得的相应节点,或目标域数据集提取到的全局特征或局部特征获得的相应节点;Ain_tra是域内的邻接矩阵,Ain_tra包括两种连接方式:即局部与全局、以及局部与局部;Ain_ter是域间的邻接矩阵,Ain_ter包括三种连接方式:局部与局部、全局与局部、以及全局与全局。
通过带有结构化注意力的节点和图卷积神经网络挖掘和学习各节点连接的权重值获得域内各区域的关系和域间的协同适应,最终得到用于分类的分类特征向量。
步骤1034、得到每一子网络输出的分类特征向量后,将分类特征向量输入到分类器中进行分类,并通过先验语义半监督机制反向促进源域数据集和目标域数据集的特征分布进行优化分类结果,得到训练完成的检测模型。
在实际应用过程中,可以先将分类特征向量输入到分类器中进行分类。然后采用multi-hot的先验语义半监督机制反向促进各域的特征分布进行优化分类结果,先验语义半监督机制过程如下列公式所示:
具体来讲,即采用域内和域间图卷积神经网络分别挖掘域内关系和学习域间特征不变性,同时采用先验语义半监督机制。由于子网络构建了这两个带有结构化注意力的图,每一子网络将通过域内图执行消息传播,以探索与每个域的整体局部特征交互,并通过域间图执行消息传播,以实现整体局部特征自适应。其中,图卷积神经网络GCNs通过迭代地将节点信息传播到邻域节点,可以有效地更新图结构数据的节点特征。在这项工作中,采用两个堆叠的GCNs来传播消息通过两个图,同时采用动态结构化注意力反馈和先验语义半监督更新源域和目标域的特征分布。
此外,由于类信息反馈机制是一种one-hot编码的形式难以捕捉multi-hot编码信息。因此,通过采用multi-hot的语义半监督能够弥补上述缺点,multi-hot编码信息可进一步分类各域之间的特征分布以获得精准分类,有利于增强检测模型的鲁棒性和泛化能力
步骤104、采集目标司机的人脸图像,并进行预处理。
在实际应用过程中,可通过摄像头采集目标司机的人脸图像,用于检测目标司机的疲劳度。具体的,采集到的目标司机人脸图像可采用如下预处理步骤进行处理:第一步利用YoloV5对图像检测人脸,并裁剪为224*224大小;第二步利用Dilb人脸关键点定位器对人脸标注关键点;其中,关键点包括左眼睛、右眼睛、鼻子、左嘴角、右嘴角。
步骤105、将预处理后的目标司机人脸图像输入训练完成的检测模型。
通过将预处理后的目标司机人脸图像输入训练完成的检测模型,训练完成的检测模型即可实现对人脸的识别与检测,并得到检测结果,即分类器输出的分类结果,包括清醒、早期疲劳、严重疲劳。
步骤106、获取所述检测模型输出的检测结果。
通过获取所述检测模型输出的检测结果,可以用于实现后续对目标司机的提醒,提醒目标司机及时休息,避免目标司机疲劳驾驶,有利于提高司机在驾驶时的安全性。
本实施例提出了一种基于动态结构化注意力反馈和先验语义半监督的跨域司机疲劳驾驶检测方法,能够针对不同场景下精准识别驾驶员疲劳状态和等级。通过将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到了可以有效监测司机疲劳程度的检测模型。之后通过利用训练完成的检测模型对目标司机的人脸图像进行检测,就可以得到目标司机当前的疲劳状态,实现对司机是否存在疲劳驾驶的判断,便于后续对目标司机进行监测或提醒,确保目标司机在驾驶过程中的安全性。
在本实施例的一个优选实施方式中,可以在所述采集目标司机的人脸图像,并进行预处理之后,增加如下步骤:将目标司机的人脸图像通过互联网上传至监控服务器,利用监控服务器内置或外接的存储设备存储备份目标司机的人脸图像,便于后期的追溯或核对。
实施例二
图3为本发明实施例二所述一种跨域司机疲劳驾驶检测装置的结构示意图,如图3所示,所述检测装置包括:
构建模块201,用于构建检测模型。
获取模块202,用于获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理。
训练模块203,用于将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型。
采集模块204,用于采集目标司机的人脸图像,并进行预处理。
处理模块205,用于将预处理后的目标司机人脸图像输入训练完成的检测模型。
得到模块206,用于获取所述检测模型输出的检测结果。
本实施例提供的检测装置,通过构建基于动态结构化注意力反馈和先验语义半监督的检测模型,并利用司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本对检测模型进行训练,可以得到训练完成的检测模型,进而利用训练完成的检测模型可以实现对目标司机疲劳程度的精准识别检测。
本发明实施例所提供的检测装置可执行本发明任意实施例所提供的检测方法,具备执行方法相应的功能模块和有益效果。
实施例三
图4为本发明实施例三提供的一种终端的结构示意图。图4示出了适于用来实现本发明实施方式的示例性终端12的框图。图4显示的终端12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,终端12以通用计算设备的形式表现。终端12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
终端12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。终端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
终端12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该终端12交互的设备通信,和/或与使得该终端12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与终端12的其它模块通信。应当明白,尽管图中未示出,可以结合终端12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的检测方法。
实施例四
本发明实施例四还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的任一所述的检测方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种跨域司机疲劳驾驶检测方法,其特征在于,包括:
构建检测模型;所述检测模型包括两个平行的子网络,每个子网络均通过依次连接的域内图卷积神经网络和域间图卷积神经网络,分别挖掘域内关系并学习域间特征不变性;其中,每一子网络均有两个输入,一个输入为检测模型中ResNet提取的全局特征和局部特征,另一个输入为通过结构化注意力反馈机制对人脸图像的语义特征分布初始化全局特征和局部特征后得到的特征向量;
获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理;
将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型;
采集目标司机的人脸图像,并进行预处理;
将预处理后的目标司机人脸图像输入训练完成的检测模型;
获取所述检测模型输出的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述预处理的具体步骤包括:
利用YoloV5对图像检测人脸,并裁剪为224*224大小;
利用Dilb人脸关键点定位器对人脸标注关键点;其中,关键点包括左眼睛、右眼睛、鼻子、左嘴角、右嘴角。
3.根据权利要求1所述的方法,其特征在于,所述将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型,包括:
利用ResNet根据关键点坐标对预处理后的源域数据集和目标域数据集的人脸图像样本进行特征提取,分别提取得到二者的全局特征和局部特征;
利用结构化注意力反馈机制分别从源域数据集和目标域数据集人脸图像样本的语义特征分布中,初始化全局特征和局部特征后得到特征向量;
将所述全局特征和局部特征、以及特征向量输入每一子网络,利用每一子网络中的域内图卷积神经网络和域间图卷积神经网络,分别学习域内之间全局特征和局部特征的关系,并挖掘域间的特征不变性,以获得跨域的协同适应;其中,每一子网络均通过带有结构化注意力的节点和图卷积神经网络挖掘并学习各节点连接的权重值,以获得域内各区域的关系和域间的协同适应;
得到每一子网络输出的分类特征向量;
将分类特征向量输入到分类器中进行分类,并通过先验语义半监督机制反向促进源域数据集和目标域数据集的特征分布进行优化分类结果,得到训练完成的检测模型。
4.根据权利要求3所述的方法,其特征在于,所述利用结构化注意力反馈机制分别从源域数据集和目标域数据集人脸图像样本的语义特征分布中,初始化全局特征和局部特征后得到特征向量,包括:
对源域数据集和目标域数据集对应的人脸图像样本,均采用动态结构化注意力反馈机制将人脸图像样本分成C个聚类,并计算每个聚类带有注意力的特征向量,计算公式如下所示:
其中,fk(·)为区域k的特征提取器;k是全局特征和局部特征的集合,k∈{h,le.re,no,lm,rm}分别代表全局特征、左眼睛、右眼睛、鼻子、左嘴角、右嘴角;是源域数据集(s)某一聚类簇C的样本总数,/>是目标域数据集(t)某一聚类簇C的样本总数;/>是源域数据集(s)聚类簇的第i个样本;/>是目标域数据集(t)聚类簇的第j个样本;
采用动态结构化注意力反馈机制以渐进的方式迭代更新统计分布;其中,对于每次批量迭代,均需计算每个域每个人脸图像样本和每个集群分布之间的距离,以使人脸图像样本被分组到距离最小的聚类簇中,之后在同一聚类的全部人脸图像样本中计算带有结构化注意力的特征向量,并进行更新,更新公式如下所示:
其中α是一个平衡参数;
对人脸图像样本进行重新聚类,得到每个聚类的新统计分布;
迭代进行epoch-level重聚和iteration-level更新,得到最终的统计分布、以及全局特征和局部特征的特征向量。
7.一种跨域司机疲劳驾驶检测装置,其特征在于,包括:
构建模块,用于构建检测模型;
获取模块,用于获取司机疲劳公开数据集中源域数据集和目标域数据集的人脸图像样本,并进行预处理;
训练模块,用于将预处理后的源域数据集和目标域数据集的人脸图像样本输入检测模型,并采用动态结构化注意力反馈和先验语义半监督机制对所述检测模型进行训练,得到训练完成的检测模型;
采集模块,用于采集目标司机的人脸图像,并进行预处理;
处理模块,用于将预处理后的目标司机人脸图像输入训练完成的检测模型;
得到模块,用于获取所述检测模型输出的检测结果。
8.一种终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的检测方法。
9.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211579986.3A CN116206289A (zh) | 2022-12-09 | 2022-12-09 | 一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211579986.3A CN116206289A (zh) | 2022-12-09 | 2022-12-09 | 一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116206289A true CN116206289A (zh) | 2023-06-02 |
Family
ID=86518174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211579986.3A Pending CN116206289A (zh) | 2022-12-09 | 2022-12-09 | 一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206289A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116831581A (zh) * | 2023-06-15 | 2023-10-03 | 中南大学 | 一种基于远程生理体征提取的驾驶员状态监测方法及系统 |
-
2022
- 2022-12-09 CN CN202211579986.3A patent/CN116206289A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116831581A (zh) * | 2023-06-15 | 2023-10-03 | 中南大学 | 一种基于远程生理体征提取的驾驶员状态监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
You et al. | A fatigue driving detection algorithm based on facial motion information entropy | |
US10943154B2 (en) | Systems for modeling uncertainty in multi-modal retrieval and methods thereof | |
CN113033622A (zh) | 跨模态检索模型的训练方法、装置、设备和存储介质 | |
KR20200010993A (ko) | 보완된 cnn을 통해 이미지 속 얼굴의 속성 및 신원을 인식하는 전자 장치. | |
Akter et al. | Machine learning model to predict autism investigating eye-tracking dataset | |
CN116206289A (zh) | 一种跨域司机疲劳驾驶检测方法、装置、终端及存储介质 | |
CN116110565A (zh) | 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法 | |
Chen et al. | Fatigue driving detection method based on combination of BP neural network and time cumulative effect | |
CN110867225A (zh) | 字符级临床概念提取命名实体识别方法及系统 | |
Li et al. | Monitoring and alerting of crane operator fatigue using hybrid deep neural networks in the prefabricated products assembly process | |
CN113076235A (zh) | 一种基于状态融合的时序异常检测方法 | |
CN112164061A (zh) | 一种有助于无接触人机交互的微手势检测方法 | |
CN114783597B (zh) | 多类疾病诊断的诊断方法及装置、电子设备和存储介质 | |
CN111435453A (zh) | 细粒度图像零样本识别方法 | |
US11270155B2 (en) | Duplicate image detection based on image content | |
Jere et al. | Deep learning-based architecture for social anxiety diagnosis | |
Mekruksavanich et al. | A Comparative Study of Deep Learning Robustness for Sensor-based Human Activity Recognition | |
Ranjbar et al. | Scene novelty prediction from unsupervised discriminative feature learning | |
Li et al. | Computer vision-based driver fatigue detection framework with personalization threshold and multi-feature fusion | |
Chong et al. | Modeling video-based anomaly detection using deep architectures: Challenges and possibilities | |
CN117058627B (zh) | 一种公共场所人群安全距离监测方法、介质及系统 | |
CN117158904B (zh) | 基于行为分析的老年人认知障碍检测系统及方法 | |
Mukherjee et al. | A Perceiving System for Dementia Patients | |
Amer et al. | On-Edge Driving Maneuvers Detection in Challenging Environments from Smartphone Sensors | |
Peng et al. | Label-noise Robust Person Re-identification via Symmetric Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |