CN116434202A - 基于目标和关键点检测的低光照驾驶员分心检测方法 - Google Patents
基于目标和关键点检测的低光照驾驶员分心检测方法 Download PDFInfo
- Publication number
- CN116434202A CN116434202A CN202310244039.7A CN202310244039A CN116434202A CN 116434202 A CN116434202 A CN 116434202A CN 202310244039 A CN202310244039 A CN 202310244039A CN 116434202 A CN116434202 A CN 116434202A
- Authority
- CN
- China
- Prior art keywords
- distraction
- loss function
- driver
- network
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 124
- 238000005286 illumination Methods 0.000 claims abstract description 34
- 230000001149 cognitive effect Effects 0.000 claims abstract description 33
- 241000190070 Sarracenia purpurea Species 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims description 38
- 230000004913 activation Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 85
- 210000003128 head Anatomy 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 102100027282 Fanconi anemia group E protein Human genes 0.000 description 1
- 101000914677 Homo sapiens Fanconi anemia group E protein Proteins 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 229940060587 alpha e Drugs 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于目标和关键点检测的低光照驾驶员分心检测方法,该方法将驾驶员视频序列截取为图像,针对图像进行光照增强操作,从而提升图像的亮度;在获得高亮度的驾驶员图像后,使用基于yolov7的目标和关键点联合检测网络对图像中驾驶员的人脸及其关键点、电话及其关键点和水杯及其关键点进行识别;在获得关键点和目标信息后,再根据驾驶员人脸及其关键点信息计算人脸姿态,并以此判断驾驶员是否存在认知分心或视觉分心或混合分心情况。本发明实现了低光照的驾驶员分心检测,其实现方法简便,手段灵活,有效解决了低光照驾驶员图像不足问题,提高分心检测的准确率。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种基于目标和关键点检测的低光照驾驶员分心检测方法。
背景技术
驾驶员分心是导致交通事故的一大重要原因,据公路管理局研究发现约65%的临界碰撞和80%的车辆碰撞是由驾驶员分心导致的,因此有效的分心检测方法能够在早期发现交通隐患,从而降低交通风险。通过光照增强可以对低光照图像亮度进行增强;通过目标检测识别图像中关键物品,如人脸、电话、水杯等。目标检测的结果可以用于判断驾驶员是否处于分心状态。
但是,目前的驾驶员分心检测方法几乎没有考虑到采集到的图像低光照问题。现实中,驾驶员可能需要在不同的天气状况或者时间段进行驾驶任务,如阴天、夜晚等,导致采集到的图像信噪比大、对比度低,从而给分心检测带来困难,导致机器视觉识别性能的降低。
目前的驾驶员分心检测仅对视觉分心进行检测,没有考虑到分心行为有不同的细分,比如视线离开驾驶任务的视觉分心和认知离开驾驶任务的认知分心。对驾驶员不同分心类型的识别。
现有的目标检测仅能够获取目标的回归框,不能对目标的关键点进行识别。但在人脸识别等任务中,除了人脸的回归框,人脸的关键点也提供了许多重要的信息。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于目标和关键点检测的低光照驾驶员分心检测方法。
本发明的目的是通过以下技术方案来实现的:本发明实施例第一方面提供了一种基于目标和关键点检测的低光照驾驶员分心检测方法,包括以下步骤:
(1)使用车载摄像设备采集驾驶员驾驶视频;
(2)截取所述步骤(1)采集到的驾驶视频,以获取驾驶图像;构建低光照增强网络并进行训练,以获取训练好的低光照增强网络;根据训练好的低光照增强网络对驾驶图像进行光照增强处理,以获取光照增强后的增强图像;
(3)确定人脸、电话和水杯三类目标的关键点;构建基于yolov7目标和关键点的联合检测网络并进行训练,以获取训练好的联合检测网络;根据训练好的联合检测网络对所述步骤(2)获取的光照增强后的增强图像进行处理,以获取增强图像中人脸、电话、水杯的目标框以及关键点所对应的输出结果;
(4)对所述步骤(3)获取的目标框以及关键点所对应的输出结果进行判断,以获取驾驶员的视觉分心计数和认知分心计数;
(5)将所述步骤(4)获取的分心计数与所设置的分心计数阈值进行比较,当视觉分心计数大于所设置的视觉分心计数阈值时,则将驾驶员的视觉分心标志置一;当认知分心计数大于所设置的认知分心计数阈值时,将驾驶员的认知分心标志置一;
(6)根据所述步骤(5)获取的视觉分心标志和认知分心标志进行判断,以获取驾驶员对应的分心类型;所述分心类型包括视觉分心、认知分心和混合分心。
可选地,所述步骤(2)包括以下子步骤:
(2.1)按照2帧每秒的频率截取所述步骤(1)采集到的驾驶视频,以获取驾驶图像;
(2.2)构建低光照增强网络,所述低光照增强网络包括前后对称的7个CNN卷积层,每层所述卷积层包括32个卷积核,所述卷积核的大小为3×3,每层所述卷积层连接有ReLU激活函数;
(2.3)根据输入图像及其像素坐标,构建亮度增强曲线函数,并对亮度增强曲线函数进行多次迭代,以获取迭代后的亮度增强曲线函数;
(2.4)根据迭代后的亮度增强曲线函数确定低光照增强网络的损失函数,其中,低光照增强网络的损失函数包括空间一致性损失函数Lspa、曝光控制损失函数Lexp、色彩恒定性损失函数Lcol和光照平滑度损失函数
(2.5)根据低光照增强网络的损失函数使用DARK FACE数据集对低光照增强网络进行训练,以获取训练好的低光照增强网络;
(2.6)将所述步骤(2.1)获取的驾驶图像输入到训练好的低光照增强网络中,以获取光照增强后的增强图像。
可选地,所述迭代后的亮度增强曲线函数表示为:
LEn(x)=LEn-1(x)+AnLEn-1(x)(1-LEn-1(x))
其中,LEn(x)表示第n次迭代后的增强后的亮度,x表示输入图像的像素坐标,An表示像素点像素参数。
可选地,所述空间一致性损失函数Lspa的表达式为:
其中,K代表像素数,i、j代表像素的遍历,Y、I分别代表增强图像的亮度和输入图像的亮度;
所述曝光控制损失函数Lexp的表达式为:
其中,M代表图像按照16×16分解后不重叠区域的数量,E表示中间亮度值,Yk表示第k个像素的图像的亮度值;
所述色彩恒定性损失函数Lcol的表达式为:
其中,J代表色彩通道的亮度平均值,p,q代表{R,G,B}三信道的两两组合;
所述低光照增强网络的损失函数的表达式为:
可选地,所述步骤(3)包括以下子步骤:
(3.1)选择人脸的左眼中心点、右眼中心点、鼻子、左嘴角和右嘴角作为人脸的关键点,选择目标框的左上角坐标、右上角坐标、左下角坐标、右下角坐标和中心点坐标作为电话和水杯的关键点,以确定人脸、电话和水杯三类目标的关键点;
(3.2)构建基于yolov7目标和关键点的联合检测网络,所述联合检测网络包括输入网络、主干网络和检测头网络,其中,所述输入网络用于实现图像的输入,将输入图像对齐成640×640的RGB三通道图像;所述主干网络用于提取图像的特征,所述主干网络包括BConv层、E-ELAN层和MPConv层;所述检测头网络用于识别目标和关键点,所述检测头网络包括SPPCPC层、BConv层、MPConv层、Catconv层和RepVGG层;
(3.3)确定联合检测网络的损失函数,所述联合检测网络的损失函数包括回归损失函数LBounding_box、类别损失函数Lclassification、置信度损失函数Lconfidence和关键点损失函数Llandmark;
(3.4)根据目标和关键点以及联合检测网络的损失函数使用WiderFace数据集对联合检测网络进行训练,以获取训练好的联合检测网络;
(3.5)将所述步骤(2)获取的增强图像输入训练好的联合检测网络,以获取增强图像中人脸、电话、水杯的目标框以及关键点所对应的输出结果。
可选地,所述回归损失函数LBounding_box的表达式为:
其中,表示预测框,/>表示真实框,/>表示/>和/>的最小外接矩形,a代表第a个网格,d代表第d个锚点,Distance_G代表最小外接矩形的对角线距离,Distance_AB代表预测框/>和真实框/>两个中心点的欧式距离,v为衡量长宽比的一致性,/>
所述类别损失函数Lclassification的表达式为:
其中,代表第a个网格的第d个锚点是否负责识别这个目标,如果负责识别,则否则/>s表示网格的数量;/>代表第a个网格的第d个锚点的预测框属于类别c的概率,/>代表第a个网格的第d个锚点的真实框属于类别c的概率;
所述置信度损失函数Lconfidence的表达式为:
其中,代表第a个网格的第d个锚点的预测框内有目标物体的概率,/>代表a个网格的第d个锚点的真实框内有目标物体的概率,λnoobj表示没有物体的权重系数,/>表示第a个网格的第d个锚点不负责任识别该目标物体;
所述关键点损失函数Llandmark的表达式为:
所述联合检测网络的损失函数的表达式为:
Loss=LBounding_box+Lclassification+Lconfiddence+0.5Llandmark。
可选地,所述步骤(4)包括以下子步骤:
(4.1)判断所述步骤(3)获取的目标框以及关键点所对应的输出结果中是否有人脸及其关键点,若没有人脸及其关键点,则将驾驶员的视觉分心计数加一;否则,计算人脸姿态,以确定人脸姿态的欧拉角,并判断该欧拉角是否大于所设置的欧拉角阈值,若该欧拉角大于所设置的欧拉角阈值,则将驾驶员的视觉分心计数加一;否则,重置驾驶员的视觉分心计数;
(4.2)判断所述步骤(3)获取的目标框以及关键点所对应的输出结果中是否有电话或水杯,若有电话或水杯,则将驾驶员的认知分心计数加一;否则,重置驾驶员的认知分心计数。
可选地,所述步骤(4.1)中所述计算人脸姿态,以确定人脸姿态的欧拉角,并判断该欧拉角是否大于所设置的欧拉角阈值具体包括:
(4.1.1)根据所述步骤(3)获取的目标框以及关键点所对应的输出结果计算人脸姿态,以确定人脸姿态的欧拉角;所述人脸姿态的欧拉角的表达式为:
其中,(xfe,yfe)为人脸左眼坐标,(xre,yre)为右眼坐标,(xnose,ynose)为鼻子坐标,(xlm,ylm)为左嘴角坐标,(xrm,yrm)为右嘴角坐标,(w,h)为目标框中人脸的宽度和高度,(xface,yface)为目标框的左上角坐标;
(4.1.2)判断所述步骤(4.1.1)确定的人脸姿态的欧拉角是否大于所设置的欧拉角阈值,若大于所设置的欧拉角阈值,则将驾驶员的视觉分心计数加一;否则,重置驾驶员的视觉分心计数。
本发明实施例第二方面提供了一种基于目标和关键点检测的低光照驾驶员分心检测装置,包括一个或多个处理器,用于实现上述的基于目标和关键点检测的低光照驾驶员分心检测方法。
本发明实施例第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于目标和关键点检测的低光照驾驶员分心检测方法。
本发明的有益效果是,本发明通过构建低光照增强网络对图像进行光照增强操作,提升了低光照图像的亮度,有助于提升识别性能,更加便于分心检测;本发明使用基于yolov7的目标和关键点的联合检测网络能够对图像中驾驶员的人脸及其关键点、电话及其关键点和水杯及其关键点进行识别;再根据驾驶员人脸及其关键点信息计算人脸姿态,并以此判断驾驶员是否存在认知分心或视觉分心或混合分心情况,有助于更加准确的检测出驾驶员的分心类型;本发明的实现方法简便,手段灵活,有效解决了低光照驾驶员图像不足问题,提高分心检测的准确率。
附图说明
图1为本发明的基于目标和关键点检测的低光照驾驶员分心检测方法流程图;
图2为本发明的基于目标和关键点检测的低光照驾驶员分心检测装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明的基于目标和关键点检测的低光照驾驶员分心检测方法包括以下步骤:
(1)使用车载摄像设备采集驾驶员驾驶视频。
本实施例中,使用车载摄像设备采集驾驶员驾驶视频,其中包括行车途中需要捕捉的驾驶员的相关信息。具体地,可以选择摄像头传感器,通过摄像头采集驾驶员驾驶视频,得到相关的图像序列,用于后续的驾驶员分心检测。
(2)截取所述步骤(1)采集到的驾驶视频,以获取驾驶图像;构建低光照增强网络并进行训练,以获取训练好的低光照增强网络;根据训练好的低光照增强网络对驾驶图像进行光照增强处理,以获取光照增强后的增强图像。
需要说明的是,在实际车辆行驶场景中,会存在各种干扰,比如在夜间或阴天等光照不良的天气下行驶,此时采集到的驾驶视频以及相应的驾驶图像信噪比大、对比度低,故需要在分心检测前对驾驶图像进行低光照增强操作。
(2.1)按照2帧每秒的频率截取步骤(1)采集到的驾驶视频,以获取驾驶图像。
本实施例中,按照2帧每秒的频率截取驾驶视频;应当理解的是,也可以按照1帧每秒的频率进行截取,也可以按照1帧每2秒的频率进行截取,具体可以根据实际情况按照一定的频率截取驾驶视频即可。
(2.2)构建低光照增强网络(DCE-Net),该低光照增强网络(DCE-Net)包括前后对称的7个CNN(Convolutional Neural Networks,卷积神经网络)卷积层,每层卷积层包括32个卷积核,卷积核的大小为3×3,每层卷积层连接有ReLU激活函数。每层卷积层可以学习颜色和光照特征,该低光照增强网络可以提高图像细节,将驾驶图像输入其中,可以对输入的图像特征进行提取,进一步得到驾驶图像对应的亮度增强图像。
本实施例中,可设计迭代次数n=8,并包括{R,G,B}三个信道,共24个卷积通道。
(2.3)根据输入图像及其像素坐标,构建亮度增强曲线函数,并对亮度增强曲线函数进行多次迭代,以获取迭代后的亮度增强曲线函数。
具体地,假定像素坐标为x,输入图像为I(x),则这里增强后的亮度具体如下:
LE(I(x);α)=I(x)+αI(x)(1-I(x))
该曲线满足三个条件,分别是像素值被标准化至[0,1]、曲线单调、曲线可微。其中,α∈[-1,1]是需要训练的参数。在此基础上,为了在更宽的动态范围内调整图像,解决一阶曲线增强不足的问题,对曲线进行n次迭代,迭代后的图像亮度具体如下:
LEn(x)=LEn-1(x)+αnLEn-1(x)(1-LEn-1(x))
在上述公式中αn是全局像素参数,但由于低光照图像中存在亮度不均匀的情况,全局像素参数容易过度增强或者不足增强局部像素点,因此将全局像素参数αn调整为与图像大小一致的像素化参数An,即每个像素点对应一条曲线,避免图像过度增强或增强不足问题。则增强后的亮度公式如下:
LEn(x)=LEn-1(x)+AnLEn-1(x)(1-LEn-1(x))
(2.4)根据迭代后的亮度增强曲线函数确定低光照增强网络的损失函数,其中,低光照增强网络的损失函数包括空间一致性损失函数Lspa、曝光控制损失函数Lexp、色彩恒定性损失函数Lco1和光照平滑度损失函数
本实施例中,空间一致性损失函数Lspa用于控制图像增强前后像素点的位置不发生改变,Y,I代表增强图像的亮度和输入图像的亮度,i,j代表像素的遍历,K代表像素数,损失函数公式如下:
本实施例中,曝光控制损失函数Lexp用于控制图像过亮或过暗导致的亮度不均匀情况,因此需要让每个像素的亮度更接某个中间亮度值E(E=6),M代表图像按照16×16分解后不重叠区域的数量,损失函数公式如下:
本实施例中,色彩恒定损失函数Lcol用于控制图像某一个色彩通道与其他色彩通道保持亮度不均匀情况。J代表色彩通道的亮度平均值,p,q代表{R,G,B}三信道的两两组合。色彩恒定损失函数Lco1的表达式为:
低光照增强网络的损失函数Ltotal由以上四部分构成,W1~W4分别代表以上四个损失函数的权重。低光照增强网络的损失函数的表达式为:
(2.5)根据低光照增强网络的损失函数使用DARK FACE数据集对低光照增强网络进行训练,以获取训练好的低光照增强网络。
应当理解的是,DARK FACE数据集提供了6000幅真实世界的低光图像,在夜间捕获,在教学楼、街道、桥梁、立交桥、公园等,所有标记的边界框的人脸,可以使用该公开数据集对低光照增强网络进行训练。
在训练中,每个批(batch)中训练数量为8,单卡1080Ti,设置学习率为0.0001,初始化低光照增强网络的损失函数中的权重W1=1,W2=1,W3=0.5,W4=20。将WiderFace数据集中的低光照图像按批输入到低光照增强网络中,计算该批图像的损失函数,当低光照增强网络的损失函数不再变化时停止训练。应当理解的是,可根据学习率调整低光照增强网络的损失函数中的权重,并反向更新,继续进行训练,直至低光照增强网络的损失函数不再变化。
(2.6)将步骤(2.1)获取的驾驶图像输入到训练好的低光照增强网络中,以获取光照增强后的增强图像。
(3)确定人脸、电话和水杯三类目标的关键点;构建基于yolov7目标和关键点的联合检测网络并进行训练,以获取训练好的联合检测网络;根据训练好的联合检测网络对步骤(2)获取的光照增强后的增强图像进行处理,以获取增强图像中人脸、电话、水杯的目标框以及关键点所对应的输出结果。
(3.1)选择人脸、电话和水杯三类识别目标的关键点。为了保证数据形式的统一性,选择识别的目标为3类,分别是人脸、电话和水杯,其关键点选择具体为:在人脸关键点的确定中,选择五个关键点的人脸描述,分别是左眼中心点、右眼中心点、鼻子、左嘴角和右嘴角;在电话和水杯的关键点确定中,选择目标框的左上角坐标、右上角坐标、左下角坐标、右下角坐标和中心点坐标。
(3.2)构建基于yolov7目标和关键点的联合检测网络,该联合检测网络包括输入网络、主干(backbone)网络和检测头(head)网络,其中,输入网络用于实现图像的输入,将输入图像对齐成640×640的RGB三通道图像;backbone网络用于提取图像的特征;head网络用于识别目标和关键点。
本实施例中,主干(backbone)网络由3种网络层构成,包含4个BConv层、4个E-ELAN层以及3个MPConv层,输入的图像在backbone网络中输出三层特征图(feature map)并输入到head网络中。
本实施例中,检测头(head)网络由5种网络层构成,包含SPPCPC层、BConv层、MPConv层、Catconv层和RepVGG层。输入到head网络中的feature map经过两次上采样,再经过RepVGG层输出80×80×16、40×40×16和20×20×16大小的未经处理的预测结果。
(3.3)确定联合检测网络的损失函数,该联合检测网络的损失函数Loss包括回归损失函数LBounding_box、类别损失函数Lclassification、置信度损失函数Lconfiddence和关键点损失函数Llandmark。
本实施例中,回归损失函数LBounding_box用于控制回归框的位置,假设预测框为真实框为/>和/>的最小外接矩形为/>右下角标a代表第a个网格,右上角标d代表第d个锚点,回归损失函数LBounding_box的表达式如下:
其中,wB和hB分别代表真实框的宽度和高度,wA和hA分别代表预测框的宽度和高度。
本实施例中,类别损失函数Lclassification用于控制目标的类别识别,其数学表达式为:
其中,代表第a个网格的第d个锚点是否负责识别这个目标,如果负责识别的话否则该值置零,s表示网格的数量。/>代表第a个网格的第d个锚点的预测框属于类别c的概率,/>代表第a个网格的第d个锚点的真实框属于类别c的概率。
本实施例中,置信度损失函数Lconfidence用以衡量预测框的可信程度,同样采用交叉熵损失函数,其数学表达式如下:
其中,代表第a个网格的第d个锚点的预测框内有目标物体的概率,/>代表a个网格的第d个锚点的真实框内有目标物体的概率,λnoobj表示没有物体的权重系数,/>表示第a个网格的第d个锚点不负责任识别该目标物体。
本实施例中,关键点损失函数Llandmark用以衡量关键点的位置。首先构建wing函数,其数学公式如下:
C=w-w·ln(1+|x|/∈)
其中,w用以限制函数的非线性部分,∈用以限制函数非线性部分的曲率。常数C=w-w·ln(1+|x|/∈)用以平滑连接函数的线性和非线性部分。由此可以得到关键点损失函数Llandmark的表达式为:
综上所述,联合检测网络的损失函数的表达式为:
Loss=LBounding_box+Lclassification+Lconfidence+0.5Llandmark
(3.4)根据目标和关键点以及联合检测网络的损失函数使用WiderFace数据集对联合检测网络进行训练,以获取训练好的联合检测网络。
其中,该训练基于yolov7目标和关键点,根据联合检测网络的损失函数使用WiderFace数据集对联合检测网络进行训练。
应当理解的是,WiderFace数据集包含32203张进行了人脸标注的图片,总共标注393703个人脸数据,可以使用该公开数据集对目标和关键点联合检测网络进行训练。
在训练中,每个批(batch)中训练数量为64,单卡1080Ti,设置学习率为0.001。将WiderFace数据集中的训练图像按批输入到目标和关键点联合检测网络中,计算该批图像的损失函数,当目标和关键点联合检测网络的损失函数不再变化时停止训练。应当理解的是,可根据学习率调整目标和关键点联合检测网络的损失函数中的权重,并反向更新,继续进行训练,直至基于yolov7目标和关键点的联合检测网络的损失函数不再变化。
(3.5)将步骤(2)获取的增强图像输入训练好的联合检测网络,以获取增强图像中人脸、电话、水杯的目标框以及关键点所对应的输出结果。
(4)对步骤(3)获取的目标框以及关键点所对应的输出结果进行判断,以获取驾驶员的视觉分心计数和认知分心计数。
(4.1)判断步骤(3)获取的目标框以及关键点所对应的输出结果中是否有人脸及其关键点,若没有人脸及其关键点,则将驾驶员的视觉分心计数加一;否则,计算人脸姿态,以确定人脸姿态的欧拉角,并判断该欧拉角是否大于所设置的欧拉角阈值,若该欧拉角大于所设置的欧拉角阈值,则将驾驶员的视觉分心计数加一;否则,重置驾驶员的视觉分心计数。
本实施例中,计算人脸姿态,以确定人脸姿态的欧拉角,并判断该欧拉角是否大于所设置的欧拉角阈值,具体包括如下步骤:
(4.1.1)根据步骤(3)获取的目标框以及关键点所对应的输出结果计算人脸姿态,以确定人脸姿态的欧拉角。
其中,步骤(3)获取的输出结果包括驾驶员人脸的五个关键点,分别是人脸左眼坐标(xle,yle)、右眼坐标(xre,yre)、鼻子坐标(xnose,ynose)、左嘴角坐标(xlm,ylm)、右嘴角坐标(xrm,yrm),以及人脸的目标框,分别是人脸宽度和高度分别为(w,h)和左上角坐标为(xface,yface)。
pitch通过计算双眼横坐标差与纵坐标差之比的反正切来进行定义,yaw通过计算鼻子和脸中心的横坐标差与脸宽度之比的反正弦来定义,roll通过计算鼻子和脸中心的纵坐标差与脸的高度之比的反正弦来定义。通过设定的欧拉角阈值来确定驾驶员的头部偏转是否过大,计算公式如下:
其中,Pth、Rth、Yth表示所设置的欧拉角阈值。
(4.1.2)判断步骤(4.1.1)确定的人脸姿态的欧拉角是否大于所设置的欧拉角阈值,若大于所设置的欧拉角阈值,则将驾驶员的视觉分心计数加一;否则,重置驾驶员的视觉分心计数。
示例性地,可将欧拉角阈值设置为:Pth=Rth=Yth=30°,当步骤(4.1.1)确定的人脸姿态的欧拉角大于30°时,则将驾驶员的视觉分心计数加一;否则,重置视觉分心计数。
(4.2)判断步骤(3)获取的目标框以及关键点所对应的输出结果中是否有电话或水杯,若有电话或水杯,则将驾驶员的认知分心计数加一;否则,重置驾驶员的认知分心计数。
(5)将步骤(4)获取的分心计数与所设置的分心计数阈值进行比较,当视觉分心计数大于所设置的视觉分心计数阈值时,则将驾驶员的视觉分心标志置一;当认知分心计数大于所设置的认知分心计数阈值时,将驾驶员的认知分心标志置一。
很容易理解的是,当视觉分心计数小于等于所设置的视觉分心计数阈值时,则重新采集驾驶视频以及驾驶图像进行分心检测;当认知分心计数小于等于所设置的认知分心计数阈值时,则重新采集驾驶视频以及驾驶图像进行分心检测。
(6)根据步骤(5)获取的视觉分心标志和认知分心标志进行判断,以获取驾驶员对应的分心类型。其中,分心类型包括视觉分心、认知分心和混合分心。
具体地,当视觉分心标志和认知分心标志同时为一时,判定驾驶员为混合分心;当两者仅有一个为一时,判断驾驶员为对应的分心类型,即:当视觉分心标志为一且认知分心标志不为一时,则判定驾驶员为视觉分心;当认知分心标志为一且视觉分心标志不为一时,则判定驾驶员为认知分心。
与前述基于目标和关键点检测的低光照驾驶员分心检测方法的实施例相对应,本发明还提供了基于目标和关键点检测的低光照驾驶员分心检测装置的实施例。
参见图2,本发明实施例提供的一种基于目标和关键点检测的低光照驾驶员分心检测装置,包括一个或多个处理器,用于实现上述实施例中的基于目标和关键点检测的低光照驾驶员分心检测方法。
本发明基于目标和关键点检测的低光照驾驶员分心检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本发明基于目标和关键点检测的低光照驾驶员分心检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于目标和关键点检测的低光照驾驶员分心检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,包括以下步骤:
(1)使用车载摄像设备采集驾驶员驾驶视频;
(2)截取所述步骤(1)采集到的驾驶视频,以获取驾驶图像;构建低光照增强网络并进行训练,以获取训练好的低光照增强网络;根据训练好的低光照增强网络对驾驶图像进行光照增强处理,以获取光照增强后的增强图像;
(3)确定人脸、电话和水杯三类目标的关键点;构建基于yolov7目标和关键点的联合检测网络并进行训练,以获取训练好的联合检测网络;根据训练好的联合检测网络对所述步骤(2)获取的光照增强后的增强图像进行处理,以获取增强图像中人脸、电话、水杯的目标框以及关键点所对应的输出结果;
(4)对所述步骤(3)获取的目标框以及关键点所对应的输出结果进行判断,以获取驾驶员的视觉分心计数和认知分心计数;
(5)将所述步骤(4)获取的分心计数与所设置的分心计数阈值进行比较,当视觉分心计数大于所设置的视觉分心计数阈值时,则将驾驶员的视觉分心标志置一;当认知分心计数大于所设置的认知分心计数阈值时,将驾驶员的认知分心标志置一;
(6)根据所述步骤(5)获取的视觉分心标志和认知分心标志进行判断,以获取驾驶员对应的分心类型;所述分心类型包括视觉分心、认知分心和混合分心。
2.根据权利要求1所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)按照2帧每秒的频率截取所述步骤(1)采集到的驾驶视频,以获取驾驶图像;
(2.2)构建低光照增强网络,所述低光照增强网络包括前后对称的7个CNN卷积层,每层所述卷积层包括32个卷积核,所述卷积核的大小为3×3,每层所述卷积层连接有ReLU激活函数;
(2.3)根据输入图像及其像素坐标,构建亮度增强曲线函数,并对亮度增强曲线函数进行多次迭代,以获取迭代后的亮度增强曲线函数;
(2.4)根据迭代后的亮度增强曲线函数确定低光照增强网络的损失函数,其中,低光照增强网络的损失函数包括空间一致性损失函数Lspa、曝光控制损失函数Lexp、色彩恒定性损失函数Lcol和光照平滑度损失函数
(2.5)根据低光照增强网络的损失函数使用DARK FACE数据集对低光照增强网络进行训练,以获取训练好的低光照增强网络;
(2.6)将所述步骤(2.1)获取的驾驶图像输入到训练好的低光照增强网络中,以获取光照增强后的增强图像。
3.根据权利要求2所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述迭代后的亮度增强曲线函数表示为:
LEn(x=LEn-1(x+AnLEn-1(x(1LEn-1(x)
其中,LEn(x表示第n次迭代后的增强后的亮度,x表示输入图像的像素坐标,An表示像素点像素参数。
4.根据权利要求2所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述空间一致性损失函数Lspa的表达式为:
其中,K代表像素数,i、j代表像素的遍历,Y、I分别代表增强图像的亮度和输入图像的亮度;
所述曝光控制损失函数Lexp的表达式为:
其中,M代表图像按照16×16分解后不重叠区域的数量,E表示中间亮度值,Yk表示第k个像素的图像的亮度值;
所述色彩恒定性损失函数Lcol的表达式为:
其中,J代表色彩通道的亮度平均值,p,q代表{R,G,B}三信道的两两组合;
所述低光照增强网络的损失函数的表达式为:
5.根据权利要求1所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)选择人脸的左眼中心点、右眼中心点、鼻子、左嘴角和右嘴角作为人脸的关键点,选择目标框的左上角坐标、右上角坐标、左下角坐标、右下角坐标和中心点坐标作为电话和水杯的关键点,以确定人脸、电话和水杯三类目标的关键点;
(3.2)构建基于yolov7目标和关键点的联合检测网络,所述联合检测网络包括输入网络、主干网络和检测头网络,其中,所述输入网络用于实现图像的输入,将输入图像对齐成640×640的RGB三通道图像;所述主干网络用于提取图像的特征,所述主干网络包括BConv层、E-ELAN层和MPConv层;所述检测头网络用于识别目标和关键点,所述检测头网络包括SPPCPC层、BConv层、MPConv层、Catconv层和RepVGG层;
(3.3)确定联合检测网络的损失函数,所述联合检测网络的损失函数包括回归损失函数LBounding_x、类别损失函数Lclassification、置信度损失函数Lconfidence和关键点损失函数Llandmark;
(3.4)根据目标和关键点以及联合检测网络的损失函数使用WiderFace数据集对联合检测网络进行训练,以获取训练好的联合检测网络;
(3.5)将所述步骤(2)获取的增强图像输入训练好的联合检测网络,以获取增强图像中人脸、电话、水杯的目标框以及关键点所对应的输出结果。
6.根据权利要求5所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述回归损失函数LBounding_x的表达式为:
其中,表示预测框,/>表示真实框,/>表示/>和/>的最小外接矩形,a代表第a个网格,d代表第d个锚点,Distance_G代表最小外接矩形的对角线距离,Distance_AB代表预测框/>和真实框/>两个中心点的欧式距离,v为衡量长宽比的一致性,/>
所述类别损失函数Lclassification的表达式为:
其中,代表第a个网格的第d个锚点是否负责识别这个目标,如果负责识别,则否则/>s表示网格的数量;/>代表第a个网格的第d个锚点的预测框属于类别c的概率,/>代表第a个网格的第d个锚点的真实框属于类别c的概率;
所述置信度损失函数Lconfidence的表达式为:
其中,代表第a个网格的第d个锚点的预测框内有目标物体的概率,/>代表a个网格的第d个锚点的真实框内有目标物体的概率,λnoobj表示没有物体的权重系数,/>表示第a个网格的第d个锚点不负责任识别该目标物体;
所述关键点损失函数Llandmark的表达式为:
所述联合检测网络的损失函数的表达式为:
Loss=LBounding_box+Lclassification+Lconfidence+0.5Llandmark。
7.根据权利要求1所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述步骤(4)包括以下子步骤:
(4.1)判断所述步骤(3)获取的目标框以及关键点所对应的输出结果中是否有人脸及其关键点,若没有人脸及其关键点,则将驾驶员的视觉分心计数加一;否则,计算人脸姿态,以确定人脸姿态的欧拉角,并判断该欧拉角是否大于所设置的欧拉角阈值,若该欧拉角大于所设置的欧拉角阈值,则将驾驶员的视觉分心计数加一;否则,重置驾驶员的视觉分心计数;
(4.2)判断所述步骤(3)获取的目标框以及关键点所对应的输出结果中是否有电话或水杯,若有电话或水杯,则将驾驶员的认知分心计数加一;否则,重置驾驶员的认知分心计数。
8.根据权利要求1所述的基于目标和关键点检测的低光照驾驶员分心检测方法,其特征在于,所述步骤(4.1)中所述计算人脸姿态,以确定人脸姿态的欧拉角,并判断该欧拉角是否大于所设置的欧拉角阈值具体包括:
(4.1.1)根据所述步骤(3)获取的目标框以及关键点所对应的输出结果计算人脸姿态,以确定人脸姿态的欧拉角;所述人脸姿态的欧拉角的表达式为:
其中,(xle,yle)为人脸左眼坐标,(xre,yre)为右眼坐标,(xnose,ynose)为鼻子坐标,(xlm,ylm)为左嘴角坐标,(xrm,yrm)为右嘴角坐标,(w,h)为目标框中人脸的宽度和高度,(xface,yface)为目标框的左上角坐标;
(4.1.2)判断所述步骤(4.1.1)确定的人脸姿态的欧拉角是否大于所设置的欧拉角阈值,若大于所设置的欧拉角阈值,则将驾驶员的视觉分心计数加一;否则,重置驾驶员的视觉分心计数。
9.一种基于目标和关键点检测的低光照驾驶员分心检测装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-8中任一项所述的基于目标和关键点检测的低光照驾驶员分心检测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,用于实现权利要求1-8中任一项所述的基于目标和关键点检测的低光照驾驶员分心检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310244039.7A CN116434202A (zh) | 2023-03-15 | 2023-03-15 | 基于目标和关键点检测的低光照驾驶员分心检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310244039.7A CN116434202A (zh) | 2023-03-15 | 2023-03-15 | 基于目标和关键点检测的低光照驾驶员分心检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116434202A true CN116434202A (zh) | 2023-07-14 |
Family
ID=87086356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310244039.7A Pending CN116434202A (zh) | 2023-03-15 | 2023-03-15 | 基于目标和关键点检测的低光照驾驶员分心检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434202A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831005A (zh) * | 2023-10-30 | 2024-04-05 | 南通大学 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
-
2023
- 2023-03-15 CN CN202310244039.7A patent/CN116434202A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831005A (zh) * | 2023-10-30 | 2024-04-05 | 南通大学 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330601B (zh) | 一种基于鱼眼相机的停车检测方法、装置、设备及介质 | |
WO2022148192A1 (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
US8750573B2 (en) | Hand gesture detection | |
US8792722B2 (en) | Hand gesture detection | |
CN111027504A (zh) | 人脸关键点检测方法、装置、设备及存储介质 | |
JP6688277B2 (ja) | プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置 | |
CN107067015B (zh) | 一种基于多特征深度学习的车辆检测方法及装置 | |
WO2023082784A1 (zh) | 一种基于局部特征注意力的行人重识别方法和装置 | |
WO2013135033A1 (zh) | 基于图像分析的隧道变形在线监测系统及其应用 | |
CN108428214A (zh) | 一种图像处理方法及装置 | |
CN113052170B (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN115409881A (zh) | 图像处理方法、装置及设备 | |
CN103065163B (zh) | 一种基于静态图片的快速目标检测识别系统及方法 | |
CN113901961B (zh) | 车位检测方法、装置、设备及存储介质 | |
CN110795975B (zh) | 人脸误检优化方法及装置 | |
CN111046746A (zh) | 一种车牌检测方法及装置 | |
CN116434202A (zh) | 基于目标和关键点检测的低光照驾驶员分心检测方法 | |
CN112101205A (zh) | 基于多任务网络的训练方法和装置 | |
WO2020010620A1 (zh) | 波浪识别方法、装置、计算机可读存储介质和无人飞行器 | |
CN115965934A (zh) | 一种停车位检测方法及装置 | |
CN111626241A (zh) | 一种人脸检测方法及装置 | |
US11605220B2 (en) | Systems and methods for video surveillance | |
CN113470093B (zh) | 基于航拍图像处理的视频果冻效应检测方法、装置及设备 | |
WO2022257778A1 (zh) | 拍摄装置状态识别方法、装置、计算机设备和存储介质 | |
US11205064B1 (en) | Measuring quality of depth images in real time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |