CN111898473A - 一种基于深度学习的司机状态实时监测方法 - Google Patents

一种基于深度学习的司机状态实时监测方法 Download PDF

Info

Publication number
CN111898473A
CN111898473A CN202010661595.0A CN202010661595A CN111898473A CN 111898473 A CN111898473 A CN 111898473A CN 202010661595 A CN202010661595 A CN 202010661595A CN 111898473 A CN111898473 A CN 111898473A
Authority
CN
China
Prior art keywords
driver
face
fatigue
deep learning
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010661595.0A
Other languages
English (en)
Other versions
CN111898473B (zh
Inventor
王金凤
王文中
刘君扬
何振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202010661595.0A priority Critical patent/CN111898473B/zh
Publication of CN111898473A publication Critical patent/CN111898473A/zh
Application granted granted Critical
Publication of CN111898473B publication Critical patent/CN111898473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的司机状态实时监测方法,包括以下步骤:通过图像获取装置实时获取司机面部图像,得到司机面部图像集;构建基于感受野的特征提取网络,用于提取司机面部特征,进而计算网络最终特征图的感受野和步长,使得感受野符合司机面部大小;通过聚类分析模块对司机面部特征数据集进行聚类分析,得到司机面部信息,根据检测对象选择相应的检测层,并设置先验框大小;对司机面部信息进行司机面部疲劳识别,得到司机状态信息;本发明结合感受野设计特征提取网络并优化检测层,能有效提取脸部特征;结合聚类方法进一步提高检测速度。

Description

一种基于深度学习的司机状态实时监测方法
技术领域
本发明涉及计算机信息的研究领域,特别涉及一种基于深度学习的司机状态实时监测方法。
背景技术
疲劳检测在道路交通领域是一个重点研究方向,倘若能够及时检测到驾驶员的疲劳状态则可以避免很多交通事故。有人提出了基于短时心电信号的疲劳驾驶检测算法以及基于心肌电的联合收获驾驶人疲劳检测,均表明人的疲劳状态可以从生理激素、心电信号等基于医学设备的方法测得,但是这种方法需要专业设备,在实际生活中布置的可能性较小。进而有人提出基于机器视觉的疲劳识别方法,传统的疲劳识别方法一般是通过Haar-like特征检测出司机面部的位置,然后通过计算眼睛纵横比来描述眼睛的张开程度判断疲劳状态。还可以通过计算眼睑和瞳孔区域像素个数占眼部区域像素总个数的比值和嘴部区域的宽高比,分别判断眼睛和嘴巴的开闭状态,从而提取出PERCLOS特征、眨眼频率和哈欠频率等面部疲劳特征,通过疲劳特征可以进一步判断驾驶员的疲劳状态,但是算法没有将特征关联。有算法对眼睛和嘴巴进行定位和状态分析,在决策阶段采用信息融合的方法对疲劳状态进行判断,但实时性不足。因此,司机面部疲劳检测存在两个问题需要解决:(1)检测速度慢;(2)单一特征的识别结果并不可靠。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的司机状态实时监测方法,实现快速网络计算以解决实时检测的问题,并辅以个性化特征识别算法,提高疲劳识别率。
本发明的目的通过以下的技术方案实现:
一种基于深度学习的司机状态实时监测方法,其特征在于,包括以下步骤:
通过图像获取装置实时获取司机面部图像,得到司机面部图像集;
构建基于感受野的特征提取网络,用于提取司机面部图像集中司机面部特征,得到司机面部特征数据集,并计算网络最终特征图的感受野和步长,使得网络最终特征图的感受野符合司机面部大小;
通过聚类分析模块对司机面部特征数据集进行聚类分析,得到司机面部信息,根据司机面部信息的检测对象选择相应的检测层,并设置先验框大小,通过先验框矫正预测框的坐标和长宽,从而确定司机脸部检测框的位置;
通过训练得到能识别人脸疲劳状态的深度学习框架,深度学习框架对司机面部信息进行司机面部疲劳识别,得到司机状态信息。
进一步地,所述使用基于感受野的特征提取网络提取司机面部图像,获取司机面部特征,具体如下:
通过特征图感受野的计算,确定特征提取网络的层数,并在下采样中利用卷积层代替池化层;
特征图感受野计算和步长计算如下:
s′=s0*s1
k′=s0*(k1-1)+k0
其中,s0初始化为1,k0是卷积核大小,s1是卷积的步长,s′是经过卷积后特征图中每个特征点相对于原图的步长,k1是前一个特征图的感受野,k′是最终得到的感受野;
将司机面部图像通过基于感受野的特征提取网络进行K次3×3的卷积,并在训练阶段加入辅助疲劳识别网络进行多任务训练,得到司机面部特征数据;
进一步地,所述辅助疲劳识别网络用于在训练中识别人物状态的辅助分类,所述人物状态的辅助分类包括睁眼、闭眼、说话、发笑、打哈欠。
进一步地,所述通过聚类分析模块对司机面部特征数据集进行聚类分析,具体如下:
在设置先验框前通过聚类分析模块对司机面部特征数据集进行聚类分析,在得到人脸尺寸的类别数后根据检测对象选择检测层,最后再设置先验框大小;
在初始阶段,把一个类别作为一个节点,构建无向图,在不同节点之间计算相似度,即计算权重,当两个节点之间的相似度超过阈值,则在两个节点间形成关联边;在迭代阶段随机选取一个节点a,并在该节点的相邻节点中选择权重最大的节点b,将节点a归为节点b的类别,遍历所有节点,重复迭代直到满足迭代次数;
通过目标检测算法获取检测框坐标、检测框含有检测对象的概率、检测框含有检测对象类别的概率,进而得到预测特征图通道数,预测特征图通道数计算如下:
C=B*(loc+conf+cls),
其中,loc为通道预测检测框坐标信息,conf为通道预测定位置信度,cls为通道预测类别,B为预测特征图中每个点所预测的检测框数目;
对于边界框的不同属性采用不同的损失函数,将司机面部定位任务和疲劳识别任务同时进行。
进一步地,所述对于边界框的不同属性采用不同的损失函数,具体如下:
司机面部定位任务中的坐标误差计算如下:
Figure BDA0002578782150000031
Figure BDA0002578782150000032
其中,D1是预测的中心坐标的损失值,S2表示最终特征图的网格总数,B表示每个像素点预测的边框个数,
Figure BDA0002578782150000033
值为1表示如果网格单元i中存在目标,即第j个边框预测值对该预测有效;
Figure BDA0002578782150000034
值为0表示如果网格单元i中不存在目标;(x,y)是预测边框的位置,
Figure BDA0002578782150000035
是从训练数据中得到的实际位置;D2是预测边框的宽高的损失值,(w,h)是预测边框的宽高,
Figure BDA0002578782150000036
是从训练数据中得到的实际宽高;
物体置信度的损失计算如下:
Figure BDA0002578782150000037
Figure BDA0002578782150000038
其中,E1+E2是预测的置信度的损失函数,
Figure BDA0002578782150000039
这里分别表示1和0,Ci是网络输出的置信度,BCE表示二元交叉熵损失函数,λ参数用于损失函数的不同加权部分。
Figure BDA00025787821500000310
定义为:1,如果网格中不存在目标;0,如果网格中存在目标;
疲劳识别任务的分类误差计算如下:
Figure BDA00025787821500000311
其中,F是预测的置信度的损失值,classes是类别数目,
Figure BDA00025787821500000312
表示真实的类别得分,pij(c)表示网络输出的类别得分;
由各项损失构成最终的损失函数:
loss=D1+D2+E1+E2+F。
进一步地,通过训练得到能识别人脸疲劳状态的深度学习框架,深度学习框架对司机面部信息进行司机面部疲劳识别,得到司机状态信息,具体如下:
在测试阶段,通过待测实际面部特征向量、同一人物的疲劳状态向量、同一人物的非疲劳状态向量进行训练,得到能识别人脸疲劳状态的深度学习框架,通过该深度学习框架识别人物状态的主要分类;并通过构建辅助疲劳识别网络,通过辅助疲劳识别网络对司机面部特征向量进行判断,识别人物状态的辅助分类,得到司机状态信息。
本发明与现有技术相比,具有如下优点和有益效果:
本发明结合感受野设计简易的特征提取网络并优化检测层,能有效提取脸部特征并且减少网络层数,综合司机面部的特征,使得网络最终的感受野符合司机面部大小;提出了结合聚类方法进一步提高检测速度。
附图说明
图1是本发明所述一种基于深度学习的司机状态实时监测方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
一种基于深度学习的司机状态实时监测方法,如图1所示,包括以下步骤:
通过图像获取装置实时获取司机面部图像,得到司机面部图像集;
构建基于感受野的特征提取网络,用于提取司机面部图像集中司机面部特征,得到司机面部特征数据集,并计算网络最终特征图的感受野和步长,使得网络最终特征图的感受野符合司机面部大小,通过先验框矫正预测框的坐标和长宽,从而确定司机脸部检测框的位置;
通过聚类分析模块对司机面部特征数据集进行聚类分析,得到司机面部信息,根据司机面部信息的检测对象选择相应的检测层,并设置先验框大小;
通过训练得到能识别人脸疲劳状态的深度学习框架,深度学习框架对司机面部信息进行司机面部疲劳识别,得到司机状态信息。
具体如下:
基于感受野的特征提取网络:
本实施例中,提出基于感受野设计特征提取网络,能有效提取脸部特征并且减少网络层数,通过一个步长为1的3x3卷积层和一个步长为2的3x3卷积层,使得特征图的尺寸变为原来的二分之一,再经过一个步长为1的1x1卷积层,形成一个块。在每个块之间会进行下采样,目的在于减少网络参数达到压缩网络的目的。本发明没有采用传统的池化方法进行下采样,而是采用卷积层进行下采样,可以加强网络的学习能力,同时利用感受野设计特征网络,从而达到优化目的。网络最终特征图的感受野和步长计算如下。
s′=s0*s1
k′=s0*(k1-1)+k0
其中,s0初始化为1,k0是卷积核大小,s1是卷积的步长,s′是经过卷积后特征图中每个特征点相对于原图的步长,k1是前一个特征图的感受野,k′是最终得到的感受野;
特征提取网络经过5个块后,特征图的尺寸为19x19x512。特征图在第一次卷积后的感受野为3x3,由于低层卷积层感受野很小,网络只能学习到线条等低级特征。继续进行卷积操作,每进行一次3x3的卷积,特征图的感受野就会增大。本发明提出的特征提取网络共进行了10次3x3的卷积,最终得到的特征图感受野为145x145,总步长为32,使得网络最终的感受野符合司机面部大小。
司机面部聚类分析:
除了结合感受野设计特征提取网络,本发明还提出了司机面部聚类分析模块,进一步提高检测速度。在设置先验框前先对数据集的司机面部进行聚类分析,在得到司机面部尺寸的类别后,根据检测对象选择相应的检测层,最后再设置先验框大小。
此算法在初始化阶段以每个节点为一个类别构建无向图,不同节点之间计算相似度,当相似度超过阈值就在两个节点间形成关联边,权重为相似度。在迭代阶段首先随机选取一个节点a,在相邻的节点中选择权重最大的b,然后将a归为b的类别;遍历所有节点,重复迭代直到满足迭代次数。
标注信息包含司机面部框的左上角坐标和长宽(w,h),在二维向量(w,h)基础上进行聚类。为了减少随机性,本发明对(w,h)进行了多次聚类,如果聚类结果均为1,说明训练数据的司机面部尺寸相近,只需要在一个特征图上进行预测。
本实施例中,借鉴了YOLO目标检测算法的思想,并结合聚类分析来提高疲劳检测的实时性。YOLO检测算法直接得到检测框的坐标、检测框中含有检测对象的概率和检测对象类别的概率,实现了检测和分类两个任务在同一个网络里完成,得到最终的预测特征图通道数,预测特征图通道数计算如下:
C=B*(loc+conf+cls),
其中,loc为通道预测检测框坐标信息,conf为通道预测定位置信度,cls为通道预测类别,B为预测特征图中每个点所预测的检测框数目;
式中loc取值为4,表示用4个通道预测检测框位置,4个通道预测的值分别是检测框的左上角坐标和长宽。conf取值为1,表示用1个通道预测定位置信度,这个通道用来预测检测框中含有司机面部的概率。cls取值为2,表示用2个通道预测类别,在司机面部疲劳识别中表示疲劳和非疲劳两类,B为预测特征图中每个点所预测的检测框数目。对于边界框的不同属性采取不同的损失函数,将司机面部定位任务和疲劳识别任务同时进行。
损失函数计算如下:
司机面部定位任务中的坐标误差计算如下:
Figure BDA0002578782150000061
Figure BDA0002578782150000062
其中,D1是预测的中心坐标的损失值,S2表示最终特征图的网格总数,B表示每个像素点预测的边框个数,
Figure BDA0002578782150000063
值为1表示如果网格单元i中存在目标,即第j个边框预测值对该预测有效;
Figure BDA0002578782150000064
值为0表示如果网格单元i中不存在目标;(x,y)是预测边框的位置,
Figure BDA0002578782150000065
是从训练数据中得到的实际位置;D2是预测边框的宽高的损失值,(w,h)是预测边框的宽高,
Figure BDA0002578782150000066
是从训练数据中得到的实际宽高;
物体置信度的损失计算如下:
Figure BDA0002578782150000067
Figure BDA0002578782150000068
其中,E1+E2是预测的置信度的损失函数,
Figure BDA0002578782150000069
这里分别表示1和0,Ci是网络输出的置信度,BCE表示二元交叉熵损失函数,λ参数用于损失函数的不同加权部分。
Figure BDA0002578782150000071
定义为:1,如果网格中不存在目标;0,如果网格中存在目标;
疲劳识别任务的分类误差计算如下:
Figure BDA0002578782150000072
其中,F是预测的置信度的损失值,classes是类别数目,
Figure BDA0002578782150000073
表示真实的类别得分,pij(c)表示网络输出的类别得分;
由各项损失构成最终的损失函数:
loss=D1+D2+E1+E2+F。
最终特征图中的像素点称为cell,每个cell预测B个边界框。
Figure BDA0002578782150000074
Figure BDA0002578782150000075
分别对应于预测框中各个属性的估计,由各项损失构成了最终的损失函数。
个性化司机面部疲劳识别:
本实施例中,使用MTCNN进行司机面部检测,提出了一种新的司机面部疲劳判别方法并设计了辅助网络进行疲劳识别。辅助网络用于判断司机面部的部分特征,包括谈话、哈欠、发笑、睁眼、闭眼,仅在训练时候使用,而主干网络最终输出的是司机面部特征向量。
本实施例分别从疲劳识别准确率和疲劳识别时间两个指标判断本方法的有效性。
首先,为了验证有效性,本发明分别和几种基于眼睛和嘴巴闭合程度的算法进行对比。基于DWC的one-stage疲劳识别算法在训练阶段需要用到司机面部疲劳状态的图片和正常状态的图片。训练数据由网上搜集和制作两部分组成。制作部分是从视频流中获取的各种疲劳形态图片和非疲劳状态图片共800张,另外从网上搜集200张符合要求的图片,总共1000张图片。实施方案采用的处理器为英特尔Core i5-4460@3.20GHz,内存RAM16GB,显存12GB,显卡GeForce GTX TITAN,输入的图像分辨率为640x480,输入网络前会将图片尺寸统一为608x 608。初始学习率设为0.001,迭代10000次,在每次迭代开始前会通过改变图片的饱和度、曝光、色调产生新的训练图片。为了能让算法学习到丰富的疲劳表达形式,训练集包含各种表征疲劳的行为,其中包括佩戴眼镜和不佩戴眼镜的正常状态以及在疲劳时会出现的打哈欠和打盹等脸部表情。
本实施例为了满足疲劳识别的实时性,减少网络冗余,根据对司机面部尺寸聚类的结果决定检测层数量,分别对特征提取网络部分和目标检测部分进行了优化。对训练样本中的司机面部宽高(w,h)聚为1类后,分别对w和h求均值,w的均值为138.8像素,h的均值为143.3像素。数据集中w的最小值为119像素,h的最小值为119像素。本发明的端到端网络基于YOLOv3的网络结构,只保留了一个大目标检测层。结果如表1所示检测能力并没有下降,从而验证了此框架的有效性。
本实施例在特征提取阶段基于感受野优化网络,在检测阶段基于CW聚类减少冗余,识别精度与YOLOv3相同,比分阶段的识别算法略低,检测速度比YOLOv3快4.5倍。
表1聚类检测对算法的影响
Figure BDA0002578782150000081
此外,本发明将基于聚类的one-stage疲劳识别算法与现有的几个根据五官特征判断疲劳的算法在自建的数据集、CASIA-FACEV5数据集和YawDD数据集上进行对比,测试样本数均为200张图像。其中,基于ASM的疲劳识别算法结合Haar级联特征,实现对眼睛疲劳状态识别;MTCNN+HOG+random ferns、MTCNN+MultiHPOG+SVM、MTCNN+MSP-Net三种算法均是先用MTCNN检测出眼睛和嘴巴,再根据眼睛和嘴巴的闭合判断疲劳状态;而基于DWC的one-stage疲劳识别算法则是综合了司机面部的全部信息。
表2与其他疲劳识别算法在自建测试集上的对比
Figure BDA0002578782150000091
表3与其他疲劳识别算法在CASIA-FACEV5数据集上的对比
Figure BDA0002578782150000092
表4与其他疲劳识别算法在YawDD数据集上的对比
Figure BDA0002578782150000093
在三个数据集上的对比结果如表2至表4所示,表明本发明算法具有更高的准确率和效率。在CASIA-FACEV5数据集中大多是非疲劳状态的样本,各个算法的精度并无太大波动。在YawDD数据集中有说话和打哈欠的样本,导致根据嘴巴闭合程度判断疲劳状态的算法精度有所下降,而one-stage疲劳识别算法仍然保持比较平稳的精度。
本实施例设计了消融实验,在训练阶段去掉辅助网络得到的模型在测试阶段准确率下降了2.6%。辅助网络用于判断样本是否睁眼、谈话或打哈欠等动作。在没有辅助网络时三元组较难收敛,导致最终疲劳识别准确率下降。由于辅助网络在测试阶段不参与运算,检测时间一致;个性化疲劳识别最终把司机面部用向量表示,通过与疲劳司机面部向量比对判断对象是否处于疲劳状态。本实施例还对向量的维度做了对比,发现128维的向量能够较好地表示司机面部。
本发明首先将one-stage目标检测算法和疲劳识别结合,通过聚类算法分析司机面部疲劳识别的特点,结合感受野设计高效的特征提取网络并简化检测网络。实验表明该方法在保证识别准确率的前提下提高识别效率;实验结果表明,个性化疲劳识能满足实时性的需求,同时提高了识别准确率,设计更加合理。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的司机状态实时监测方法,其特征在于,包括以下步骤:
通过图像获取装置实时获取司机面部图像,得到司机面部图像集;
构建基于感受野的特征提取网络,用于提取司机面部图像集中司机面部特征,得到司机面部特征数据集,并计算网络最终特征图的感受野和步长,使得网络最终特征图的感受野符合司机面部大小;
通过聚类分析模块对司机面部特征数据集进行聚类分析,得到司机面部信息,根据司机面部信息的检测对象选择相应的检测层,并设置先验框大小,通过先验框矫正预测框的坐标和长宽,从而确定司机脸部检测框的位置;
通过训练得到能识别人脸疲劳状态的深度学习框架,深度学习框架对司机面部信息进行司机面部疲劳识别,得到司机状态信息。
2.根据权利要求1所述的一种基于深度学习的司机状态实时监测方法,其特征在于,所述使用基于感受野的特征提取网络提取司机面部图像,获取司机面部特征,具体如下:
通过特征图感受野的计算,确定特征提取网络的层数,并在下采样中利用卷积层代替池化层;
特征图感受野计算和步长计算如下:
s′=s0*s1
k′=s0*(k1-1)+k0
其中,s0初始化为1,k0是卷积核大小,s1是卷积的步长,s′是经过卷积后特征图中每个特征点相对于原图的步长,k1是前一个特征图的感受野,k′是最终得到的感受野;
将司机面部图像通过基于感受野的特征提取网络进行K次3×3的卷积,并在训练阶段加入辅助疲劳识别网络进行多任务训练,得到司机面部特征数据。
3.根据权利要求2所述的一种基于深度学习的司机状态实时监测方法,其特征在于,所述辅助疲劳识别网络用于在训练中识别人物状态的辅助分类,所述人物状态的辅助分类包括睁眼、闭眼、说话、发笑、打哈欠。
4.根据权利要求1所述的一种基于深度学习的司机状态实时监测方法,其特征在于,所述通过聚类分析模块对司机面部特征数据集进行聚类分析,具体如下:
在设置先验框前通过聚类分析模块对司机面部特征数据集进行聚类分析,在得到人脸尺寸的类别数后根据检测对象选择检测层,最后再设置先验框大小;
在初始阶段,把一个类别作为一个节点,构建无向图,在不同节点之间计算相似度,即计算权重,当两个节点之间的相似度超过阈值,则在两个节点间形成关联边;在迭代阶段随机选取一个节点a,并在该节点的相邻节点中选择权重最大的节点b,将节点a归为节点b的类别,遍历所有节点,重复迭代直到满足迭代次数;
通过目标检测算法获取检测框坐标、检测框含有检测对象的概率、检测框含有检测对象类别的概率,进而得到预测特征图通道数,预测特征图通道数计算如下:
C=B*(loc+conf+cls),
其中,loc为通道预测检测框坐标信息,conf为通道预测定位置信度,cls为通道预测类别,B为预测特征图中每个点所预测的检测框数目;
对于边界框的不同属性采用不同的损失函数,将司机面部定位任务和疲劳识别任务同时进行。
5.根据权利要求4所述的一种基于深度学习的司机状态实时监测方法,其特征在于,所述对于边界框的不同属性采用不同的损失函数,具体如下:
司机面部定位任务中的坐标误差计算如下:
Figure FDA0002578782140000021
Figure FDA0002578782140000022
其中,D1是预测的中心坐标的损失值,S2表示最终特征图的网格总数,B表示每个像素点预测的边框个数,
Figure FDA0002578782140000023
值为1表示如果网格单元i中存在目标,即第j个边框预测值对该预测有效;
Figure FDA0002578782140000024
值为0表示如果网格单元i中不存在目标;(x,y)是预测边框的位置,
Figure FDA0002578782140000025
是从训练数据中得到的实际位置;D2是预测边框的宽高的损失值,(w,h)是预测边框的宽高,
Figure FDA0002578782140000026
是从训练数据中得到的实际宽高;
物体置信度的损失计算如下:
Figure FDA0002578782140000027
Figure FDA0002578782140000028
其中,E1+E2是预测的置信度的损失函数,
Figure FDA0002578782140000029
这里分别表示1和0,Ci是网络输出的置信度,BCE表示二元交叉熵损失函数,λ参数用于损失函数的不同加权部分,
Figure FDA0002578782140000031
定义为:1,如果网格中不存在目标;0,如果网格中存在目标;
疲劳识别任务的分类误差计算如下:
Figure FDA0002578782140000032
其中,F是预测的置信度的损失值,classes是类别数目,
Figure FDA0002578782140000033
表示真实的类别得分,pij(c)表示网络输出的类别得分;
由各项损失构成最终的损失函数:
loss=D1+D2+E1+E2+F。
6.根据权利要求1所述的一种基于深度学习的司机状态实时监测方法,其特征在于,通过训练得到能识别人脸疲劳状态的深度学习框架,深度学习框架对司机面部信息进行司机面部疲劳识别,得到司机状态信息,具体如下:
在测试阶段,通过待测实际面部特征向量、同一人物的疲劳状态向量、同一人物的非疲劳状态向量进行训练,得到能识别人脸疲劳状态的深度学习框架,通过该深度学习框架识别人物状态的主要分类;并通过构建辅助疲劳识别网络,通过辅助疲劳识别网络对司机面部特征向量进行判断,识别人物状态的辅助分类,得到司机状态信息。
7.根据权利要求6所述的一种基于深度学习的司机状态实时监测方法,其特征在于,所述通过训练得到能识别人脸疲劳状态的深度学习框架具体为:将已经采集到的并加以标注的人脸数据集作为网络输入,经过多次迭代学习调节,确定深度学习网络模型参数,从而训练得到能识别人脸疲劳状态的深度学习框架。
CN202010661595.0A 2020-07-10 2020-07-10 一种基于深度学习的司机状态实时监测方法 Active CN111898473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010661595.0A CN111898473B (zh) 2020-07-10 2020-07-10 一种基于深度学习的司机状态实时监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010661595.0A CN111898473B (zh) 2020-07-10 2020-07-10 一种基于深度学习的司机状态实时监测方法

Publications (2)

Publication Number Publication Date
CN111898473A true CN111898473A (zh) 2020-11-06
CN111898473B CN111898473B (zh) 2023-09-01

Family

ID=73192517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010661595.0A Active CN111898473B (zh) 2020-07-10 2020-07-10 一种基于深度学习的司机状态实时监测方法

Country Status (1)

Country Link
CN (1) CN111898473B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177133A (zh) * 2021-04-23 2021-07-27 深圳依时货拉拉科技有限公司 一种图像检索方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194346A (zh) * 2017-05-19 2017-09-22 福建师范大学 一种汽车疲劳驾驶预测方法
EP3340109A1 (en) * 2016-12-25 2018-06-27 Facebook, Inc. Shape prediction for face alignment
CN110674701A (zh) * 2019-09-02 2020-01-10 东南大学 一种基于深度学习的驾驶员疲劳状态快速检测方法
US20200175264A1 (en) * 2017-08-07 2020-06-04 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences Teaching assistance method and teaching assistance system using said method
US20200210687A1 (en) * 2018-12-27 2020-07-02 Hong Fu Jin Precision Industry (Wuhan) Co., Ltd. Face recognition device, face recognition method, and computer readable storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3340109A1 (en) * 2016-12-25 2018-06-27 Facebook, Inc. Shape prediction for face alignment
CN107194346A (zh) * 2017-05-19 2017-09-22 福建师范大学 一种汽车疲劳驾驶预测方法
US20200175264A1 (en) * 2017-08-07 2020-06-04 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences Teaching assistance method and teaching assistance system using said method
US20200210687A1 (en) * 2018-12-27 2020-07-02 Hong Fu Jin Precision Industry (Wuhan) Co., Ltd. Face recognition device, face recognition method, and computer readable storage medium
CN110674701A (zh) * 2019-09-02 2020-01-10 东南大学 一种基于深度学习的驾驶员疲劳状态快速检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱玉斌;延向军;申旭奇;卢兆林;: "基于级联宽度学习的疲劳驾驶检测", 计算机工程与设计, no. 02, pages 245 - 249 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177133A (zh) * 2021-04-23 2021-07-27 深圳依时货拉拉科技有限公司 一种图像检索方法、装置、设备及存储介质
CN113177133B (zh) * 2021-04-23 2024-03-29 深圳依时货拉拉科技有限公司 一种图像检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111898473B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN107273845B (zh) 一种基于置信区域和多特征加权融合的人脸表情识别方法
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
WO2020114118A1 (zh) 面部属性识别方法、装置、存储介质及处理器
WO2018107760A1 (zh) 一种用于行人检测的协同式深度网络模型方法
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN103443804B (zh) 面部标志检测方法
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
Das et al. SSERBC 2017: Sclera segmentation and eye recognition benchmarking competition
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN112966574A (zh) 人体三维关键点预测方法、装置及电子设备
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN112395901A (zh) 一种改进型复杂环境下人脸检测定位识别方法
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN111898473B (zh) 一种基于深度学习的司机状态实时监测方法
Tu An integrated framework for image segmentation and perceptual grouping
Karungaru et al. Face recognition in colour images using neural networks and genetic algorithms
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
CN111553202B (zh) 进行活体检测的神经网络的训练方法、检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant