CN111860254A - 一种驾驶员异常行为检测方法、装置、存储介质及设备 - Google Patents

一种驾驶员异常行为检测方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111860254A
CN111860254A CN202010662880.4A CN202010662880A CN111860254A CN 111860254 A CN111860254 A CN 111860254A CN 202010662880 A CN202010662880 A CN 202010662880A CN 111860254 A CN111860254 A CN 111860254A
Authority
CN
China
Prior art keywords
model
detection
abnormal behavior
backbone network
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010662880.4A
Other languages
English (en)
Inventor
顾一新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Zhengyang Electronic Mechanical Co ltd
Original Assignee
Dongguan Zhengyang Electronic Mechanical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Zhengyang Electronic Mechanical Co ltd filed Critical Dongguan Zhengyang Electronic Mechanical Co ltd
Priority to CN202010662880.4A priority Critical patent/CN111860254A/zh
Publication of CN111860254A publication Critical patent/CN111860254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种驾驶员异常行为检测方法、装置、存储介质及设备。该方法包括:获取驾驶室中驾驶员的图像数据;将所述图像数据输入至预先训练好的多任务主干网络模型;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。通过执行本技术方案,可以通过多任务主干网络模型以及局部状态判断模型,确定驾驶员是否存在异常行为。

Description

一种驾驶员异常行为检测方法、装置、存储介质及设备
技术领域
本申请实施例涉及计算机技术领域,具体涉及图像处理技术,尤其涉及一种驾驶员异常行为检测方法、装置、存储介质及设备。
背景技术
随着社会进步及经济发展,车辆交通运输行业蓬勃发展。与此同时,驾驶员的异常行为导致的驾驶安全隐患问题,也越来越引起社会的关注。例如,在驾驶过程中,驾驶员由于疲劳导致分心,出现打瞌睡、打哈欠、左顾右盼、抽烟以及打电话等行为,这些危险行为已经成为导致出现交通事故的重要原因之一。
目前,基于图像识别技术对驾驶员进行疲劳检测的方案,主要解决方案为对驾驶员利用摄像头进行监测,然后基于监控图像识别技术对其面部表情及状态进行分析,确定驾驶员是否处于异常行为的状态。而目前的检测状态往往是针对各环节进行单一检测的,这就会导致最终得到的识别模型是相互独立的,而且样本等都需要进行拆分处理,这就造成了识别模型的训练以及使用过程相对复杂,维护成本大等问题。
发明内容
本申请实施例提供一种驾驶员异常行为检测方法、装置、存储介质及设备,可以通过多任务主干网络模型以及局部状态判断模型,确定驾驶员是否存在异常行为,从而对驾驶安全等进行监督和辅助管理工作,降低了因驾驶员的异常行为导致驾驶安全方面存在的隐患。
第一方面,本申请实施例提供了一种驾驶员异常行为检测方法,该方法包括:
获取驾驶室中驾驶员的图像数据;
将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
进一步的,所述多任务主干网络模型的训练过程包括:
获取样本图像,对所述样本图像进行数据清理和目标框标注,得到训练样本、测试样本和验证样本;
将所述训练样本输入多任务主干网络模型中进行多任务主干网络模型训练,得到初始模型;
对所述初始模型进行优化,得到优化模型;
对所述优化模型进行稀疏剪裁,得到最终多任务主干网络模型。
进一步的,对所述初始模型进行优化,得到优化模型,包括:
对所述初始模型的卷积层进行精简化处理,其中,所述精简化处理包括修改卷积层中卷积核大小以及卷积层的输出通道数量。
进一步的,对所述优化模型进行稀疏剪裁,得到最终多任务主干网络模型,包括:
对所述优化模型的损失函数进行正则化处理,以得到微调训练结果;
采用预设稀疏度,对微调训练结果的模型权重进行稀疏化处理,得到稀疏模型;
对所述稀疏模型进行重新训练,直至测试精度符合预设标准,得到最终多任务主干网络模型。
进一步的,所述局部状态判断模型包括人眼状态检测模型;
输入所述人眼状态检测模型的数据处理过程包括:
利用所述多任务主干网络模型的人脸检测任务和/或人脸关键点检测任务输出结果,对训练数据进行人脸对齐,将对齐后的训练数据进行人眼区域裁剪。
进一步的,所述方法还包括:
将人眼区域裁剪结果输入至人眼状态检测模型进行训练,得到训练后的人眼状态检测模型;其中,人眼状态检测模型包括分类器,所述分类器用于对睁眼状态、闭眼状态以及其他状态进行分类。
进一步的,所述局部状态判断模型用于嘴巴状态检测;
所述嘴巴状态的判断方式包括:
利用所述多任务主干网络模型的人脸关键点检测任务输出结果,确定嘴巴区域关键点的位置信息;
根据所述嘴巴区域关键点的位置信息,确定嘴巴区域关键点的距离;
根据所述嘴巴区域关键点的距离与预设距离阈值的关系,确定嘴巴状态检测结果。
第二方面,本申请实施例提供了一种驾驶员异常行为检测装置,该装置包括:
图像数据获取模块,用于获取驾驶室中驾驶员的图像数据;
图像数据输入模块,用于将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
决策模块,用于多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
检测结果确定模块,根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的驾驶员异常行为检测方法。
第四方面,本申请实施例提供了一种设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的驾驶员异常行为检测方法。
本申请实施例所提供的技术方案,获取驾驶室中驾驶员的图像数据;将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。通过采用本申请所提供的技术方案,可以通过多任务主干网络模型以及局部状态判断模型,确定驾驶员是否存在异常行为,从而对驾驶安全等进行监督和辅助管理工作,降低了因驾驶员的异常行为导致驾驶安全方面存在的隐患。
附图说明
图1是本申请实施例提供的驾驶员异常行为检测方法的流程图;
图2是本申请实施例提供的多任务主干网络模型训练过程的流程图;
图3是本申请实施例提供的驾驶员异常行为检测方法的框架图;
图4是本申请实施例提供的驾驶员异常行为检测装置的结构示意图;
图5是本申请实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1是本申请实施例提供的驾驶员异常行为检测方法的流程图,本实施例可适用于对驾驶员驾驶状态进行监控的情况,该方法可以由本申请实施例所提供的驾驶员异常行为检测装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于智能终端等设备中。
如图1所示,所述驾驶员异常行为检测方法包括:
S110、获取驾驶室中驾驶员的图像数据。
其中,驾驶员的图像数据获取,主要是通过普通摄像头,红外摄像头等,并且可以设置在车辆的后视镜位置,或者其他位置,只要能够获取到驾驶员的人脸图像即可。根据实际应用场景的需要,采用红外940摄像头,搭建采集硬软件平台,在车内驾驶室进行视频数据采集。
在本实施例中,可以理解的,在获取到图像数据之后,可以对图像数据进行清理、存储以及标注等操作。具体的,对采集的数据进行图像帧的批量提取,并对图片数据进行清理和目标框的标注。采用红外摄像头进行数据的采集既可以确保在复杂环境下稳定的成像输出,保证图像特征的稳定性,从而有利于网络模型的学习,也可以很大程度上缓解或避免逆光等问题。
S120、将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测。
其中,可以将获取到的图像数据输入至预先训练好的多任务主干网络模型。其中,多任务主干网络模型可以是包含人脸检测、人脸关键点检测和抽烟打电话检测。其中,主干网络模型可以是利用基于VGG16的主干网络进行多任务网络设计。在图像数据输入至多任务主干网络模型之后,可以分别进行人脸检测,人脸关键点检测以及抽烟打电话检测,其中抽烟打电话检测可以是包括抽烟动作检测以及打电话动作检测,除此之外,还可以包括低头玩手机,通过手机发送实时语音消息等的动作检测。
S130、多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果。
其中,在得到输出结果之后,可以包含多任务中的一种或者多种任务的结果,可以将结果输入至局部状态判断模型,进行特征检测。其中局部状态判断模型可以包含人眼状态检测,嘴巴状态检测以及其他检测等等。
本方案中,在对局部状态判断模型的输出结果进行异常行为决策,只要在局部状态判断模型中识别到某些特定特征,就是认为存在异常行为,例如只要识别到驾驶员闭眼状态超过1秒,或者嘴巴张开的状态超过10秒,或者驾驶员在抽烟,或者在打电话,就确定驾驶员存在异常行为,并得到异常行为决策的结果。
S140、根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
根据异常行为决策的结果,确定驾驶员的异常行为检测结果。
例如,在人眼状态检测过程中决策结果为眼部异常时,可通过异常行为检测结果输出是属于睁眼状态,闭眼状态以及其他状态等等。在嘴巴状态检测过程中决策结果为嘴部异常时,可通过异常行为检测结果输出是属于抽烟状态、打电话状态或者打哈欠状态等等。
相应的当存在异常行为时,可以进行相应的提示或者其他操作。例如当检测到驾驶员处于疲劳状态,则可以通过播报语音建议驾驶员先适当休息之后再驾驶,避免存在驾驶安全隐患。
本申请实施例所提供的技术方案,获取驾驶室中驾驶员的图像数据;将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。通过采用本申请所提供的技术方案,可以通过多任务主干网络模型以及局部状态判断模型,确定驾驶员是否存在异常行为,从而对驾驶安全等进行监督和辅助管理工作,降低了因驾驶员的异常行为导致驾驶安全方面存在的隐患。
图2是本申请实施例提供的多任务主干网络模型训练过程的流程图,如图2所示,所述多任务主干网络模型的训练过程包括:
S210、获取样本图像,对所述样本图像进行数据清理和目标框标注,得到训练样本、测试样本和验证样本。
其中,对采集的数据进行图像帧的批量提取,并对图片数据进行清理和目标框的标注。采用红外摄像头进行数据的采集既可以确保在复杂环境下稳定的成像输出,保证图像特征的稳定性,从而有利于网络模型的学习,也可以很大程度上缓解或避免逆光等问题。对初始获取的视频数据,进行图片提取和清理及标注,为后续的模型训练提供高质量的数据保证。
具体的,数据收集的实际执行过程主要是通过驾驶员在车内的模拟不同的疲劳行为进行多维度的视频采集,保证数据的场景多样性。多维度主要包括不同摄像头的安装位置、不同年龄及性别的驾驶员、不同的光照强度、不同的面部表情及行为状态。这样使得采集的训练数据具有多样性和全场景覆盖性,能够有效解决在不同角度、不同光照下、人脸状态判别不准的问题,同时尽可能的覆盖到大多数的人群,能有效解决因为不同人员面部差异等而导致的判别不准问题。上述不同光照包括正常光照、强光照、弱光照、红外光照。不同摄像头的位置包括仪表盘、A柱、后视镜。不同年龄及性别包括男女青年、中年男女、中老年男女、老年男女。不同面部表情及行为包括正常表情、闭眼、打哈欠、摇头、抽烟、打电话、戴眼镜、戴口罩。
本发明最终通过上述采集环境及场景的设置,收集视频数据,并裁剪出三十万原始训练样本数据,以便进行深度学习网络训练使用。样本在收集过程中及视频数据的裁剪清洗中,充分考虑了样本的多样性和冗余性以及场景的覆盖性。区别于一般现有方案更多关注驾驶员的人脸区别本身,本发明同时关注了实际的应用场景,保证了收集的图像数据更好的贴近了现实应用情况。
可以理解的,在图像采集完成后,可以构建训练集、测试集、验证集,并对原始数据进行增强。
具体的,针对多任务一体化网络训练过程,每次迭代参与学习训练的样本,以代码处理的方式,都进行数据增强操作,从而提高模型的泛化能力及模型的精度。针对眼部状态检测分类器训练,以图片保存的方式进行数据增强。数据增强主要包括图片的随机采集、图片翻转、图片镜像、随机噪声、随机亮度饱和度调整等。对收集的训练数据进行训练集、测试集、验证集的划分。其中训练集用来进行模型的训练,测试集进行模型的测试,验证集用来进行模型的验证。
S220、将所述训练样本输入多任务主干网络模型中进行多任务主干网络模型训练,得到初始模型。
其中,可以设计端到端的多任务一体化网络,即将人脸检测、人脸关键点检测、抽烟打电话检测三个任务分别设计不同的分类或回归损失函数,基于统一的基础主干网络进行同时学习训练。
其中,人脸检测和抽烟打电话检测基于ssd的目标检测算法框架,人脸关键点同时进行回归学习,即在训练过程中,被判定为人脸正样本的区域图像同时进行人脸检测和人脸关键点检测两个任务的学习。考虑到主干网络结构对模型训练的精度和性能的综合影响,采用模型相对较大的VGG16网络作为主干网络进行学习训练。
S230、对所述初始模型进行优化,得到优化模型。
其中,对所述初始模型进行优化得到优化模型。具体的,该优化过程为利用Squeezenet的网络优化思想,合理地对VGG16主干网络进行优化,权衡网络的性能和精度。最终,训练学习得到一个精度和性能综合较好的主干网络模型及权重。Squeezenet的网络优化思想主要是对所述初始模型的卷积层进行精简化处理,得到精简初始模型;其中,所述精简化处理包括修改卷积层中卷积核大小以及卷积层的输出通道数量。
由于网络模型较大,能较好的对训练数据进行拟合,取得比较好的模型精度。然后,在此初始模型之上,修改其中部分卷积层的设计,具体为将其中部分3*3的卷积层修改为1*1及3*3的组合形式,并合理减少其通道数,降低总体参数的个数。然后,基于改进后的网络结构在初始模型的权重上进行网络微调训练。这样,能在模型大小及预测精度上起到一个折中的效果。此外,在网络结构设计上,仍然采用了常规的卷积操作,避免了类似通道可分离卷积等不方便在目前嵌入式平台部署或部署后性能不能充分发挥的问题。简单的网络结构设计,能更好的与目前现有嵌入式硬件平台相结合,充分发挥出硬软件的性能,在保证模型精度的同时,更好的保证模型运行的实时性。这样的网络设计,能更好的应用在本发明所需要的实际应用场景之中。
S240、对所述优化模型进行稀疏剪裁,得到最终多任务主干网络模型。
本实施例中,利用优化模型的网络结构及模型权重,修改网络的多任务损失函数,主要为添加部分正则化,促进网络的参数的稀疏性,利于后续网络的裁剪。具体的,在优化模型的网络结构及模型权重上进行网络微调学习,然后将其中权重接近于零的权重按一定的阈值判断,进行直接赋零,然后在此时的模型权重基础上对网络进行重新训练。不断重复此学习过程,直到能得到一个较好平衡精度和性能的网络模型,将该模型作为最终的一体化网络模型。
本实施例中,可选的,对所述优化模型进行稀疏剪裁,得到最终多任务主干网络模型,包括:
对所述优化模型的损失函数进行正则化处理,以得到微调训练结果;
采用预设稀疏度,对微调训练结果的模型权重进行稀疏化处理,得到稀疏模型;
对所述稀疏模型进行重新训练,直至测试精度符合预设标准,得到最终多任务主干网络模型。
具体的,基于已有的训练网络及模型,对损失函数部分增加L1正则化,促进最终网络学习的参数有更大的稀疏性,以便于进行网络的稀疏裁剪。经过网络重新微调训练之后,按照一定的稀疏度对学习的模型权重进行稀疏化处理。然后,对稀疏剪枝后的模型,进行测试集的测试。如果,测试精度指标不满足需要,则利用稀疏剪枝后的模型进行网络的重新训练。如此重复,直到取得满意的精度指标。在此过程中,可以认为调整稀疏程度,在网络裁剪程度和精度上寻求一个合理的平衡点。经过这样的网络裁剪优化后,在将模型移植到嵌入式硬件平台时,经过模型量化,能最大限度的发挥硬件底层平台的运算性能和优势,极大提高模型在嵌入式端的运行性能,且模型的精度有较好的保证。这样,就很好的规避了由于网络结构设计与硬件平台不能充分优势互补,导致的模型移植后性能和精度出现明显折扣的问题。
本方案提供的多任务主干网络模型,可以充分利用图像的特征,并同时对多个任务进行训练,达到了提高图像数据的利用率,提高多任务主干网络模型训练结果的准确性的效果。
在上述技术方案的基础上,可选的,所述局部状态判断模型包括人眼状态检测模型;
输入所述人眼状态检测模型的数据处理过程包括:
利用所述多任务主干网络模型的人脸检测任务和/或人脸关键点检测任务输出结果,对训练数据进行人脸对齐,将对齐后的训练数据进行人眼区域裁剪。
利用人脸关键点对训练数据进行人脸对齐,根据对齐过程中的模板设计,可以较为合理的在对齐的人脸图像上裁剪出人脸的眼部区域。然后,将裁剪的眼部区域图片统一缩放为48*48的大小作为分类器的训练样本。并对这部分训练数据进行一些增强,扩大训练数据的多样性,提高模型的泛化能力。
具体的,基于一体化网络模型输出的驾驶员人脸关键点,对人脸区域进行人脸对齐,将人脸图像区域统一映射到模板区域,然后根据模板大小的设计及眼部区域在模板中的大致位置,裁剪出人眼图像区域,并将该区域缩放到48*48的图像大小,将所有该图像作为人眼状态检测分类器的训练样本。考虑到训练样本的平衡性,对裁剪出来的眼部区域图像,再进行清理分类,保证睁闭眼的样本特征比较明显,其他样本同时尽量覆盖可能出现的场景。然后,在训练样本数量上进行一定的均衡处理,保证样本的训练数据尽可能的均衡,有利于网络的学习。
在上述技术方案的基础上,可选的,所述方法还包括:
将人眼区域裁剪结果输入至人眼状态检测模型进行训练,得到训练后的人眼状态检测模型;其中,人眼状态检测模型包括分类器,所述分类器用于对睁眼状态、闭眼状态以及其他状态进行分类。
考虑到实际应用场景角度、光照强度、眼镜佩戴等复杂的情况以及成像角度的问题,会出现既不属于睁眼也不属于闭眼的情况,这里统将这些情况归为第三类。这样,人眼状态分类网络设计为三分类的分类网络,即睁眼,闭眼,其它三个类别。这样的类别定义,相比于只分两类的情况,更好的体现了类内的内聚性和类间的差异性,有利于网络的学习以及模型的精度提高。其中,人眼状态分类网络结构的设计采用类似Lenet的基本网络结构,但将输入大小改为48*48,并同时相应更改网络的相关参数设置。由于该分类任务相对简单,且进行学习训练的网络图片经过对齐后,没有过多的背景干扰,使得图像特征在类内上有较好的内聚性和类间差异性。所以该简单的网络结构设计不仅能较好的满足分类的精度需要,也能有很好的运行性能。
在上述技术方案的基础上,可选的,所述局部状态判断模型用于嘴巴状态检测;
所述嘴巴状态的判断方式包括:
利用所述多任务主干网络模型的人脸关键点检测任务输出结果,确定嘴巴区域关键点的位置信息;
根据所述嘴巴区域关键点的位置信息,确定嘴巴区域关键点的距离;
根据所述嘴巴区域关键点的距离与预设距离阈值的关系,确定嘴巴状态检测结果。
由于眼部区域在人脸面部区域的占比比较小,所以在睁闭眼时,特征点的位置变化差异不是过于明显,特别是在佩戴眼镜、逆光、大角度等复杂情况下,该问题显得更为突出。而嘴巴区域相对人眼部区域而言,状态变化的差异性更大,图像特征更为明显,所以对嘴部张闭的判断,直接利用该区域关键点的位置信息,计算相应的几何距离,然后设置合理的阈值,再根据几何计算的值与阈值的大小比较,给出嘴巴张闭状态的结果。具体几何距离的计算方式为计算嘴巴上下嘴唇的欧式距离与嘴角直接欧式距离的比值。当嘴巴处于张大或紧闭时,该比值的差异比较大,所以通过合理的阈值设置就能较好的判断嘴巴的张闭状态。
图3是本申请实施例提供的驾驶员异常行为检测方法的框架图。如图3所示,本方案通过利用收集的红外驾驶员的实时监测图像,作为原始的模型训练数据,进行模型的学习训练。在数据收集过程中,充分考虑了实际产品应用场景情况的多样性,如摄像头的安装位置的多样性,驾驶员的面部表情的多样性等情况。最终收集原始图片数据约三十万张,然后在训练过程中,通过进一步的数据增强,保证了训练数据的多样性。通过合理的网络结构设计,最终得到了较高模块预测精度和运行的实时性。同时具备以下优点:
通过对多任务主干网络模型的合理选型及优化裁剪,使得最终算法的计算量比较小,模型大小也比较小,对硬件的计算能力和存储空间要求都不高,可以在移动端进行部署并实时运行,也提高了精度。
通过端到端的网络结构设计,使得在预测阶段,避免了大多数现有方案的级联导致的模型训练繁琐,和多个模块误差累积而致使精度和性能不高的弊端。
利用对齐后的人脸进行人脸眼部区域的定位,并合理设计了三分类的网络结构,结合数据增强,很大程度优化和解决了眼部区域较小且特征不够明显导致的分类精度不高的问题。
在数据收集过程中,较全面的结合了实际产品的应用场景,训练数据丰富多样,模型能够较好适应更大的场景多样性及驾驶员面部及状态的多样性。这样,对设备的安装位置没有提出相对苛刻的要求,不需要严格正对目标,减少了安装成本,也使得安装使用更加灵活方便。
图4是本申请实施例提供的驾驶员异常行为检测装置的结构示意图。如图4所示,所述驾驶员异常行为检测装置包括:
图像数据获取模块410,用于获取驾驶室中驾驶员的图像数据;
图像数据输入模块420,用于将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
决策模块430,用于多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
检测结果确定模块440,根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种驾驶员异常行为检测方法,该方法包括:
获取驾驶室中驾驶员的图像数据;
将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的驾驶员异常行为检测操作,还可以执行本申请任意实施例所提供的驾驶员异常行为检测方法中的相关操作。
本申请实施例提供了一种设备,该设备中可集成本申请实施例提供的驾驶员异常行为检测装置。图5是本申请实施例提供的一种设备的结构示意图。如图5所示,本实施例提供了一种设备500,其包括:一个或多个处理器520;存储装置510,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器520执行,使得所述一个或多个处理器520实现本申请实施例所提供的驾驶员异常行为检测方法,该方法包括:
获取驾驶室中驾驶员的图像数据;
将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
当然,本领域技术人员可以理解,处理器520还可以实现本申请任意实施例所提供的驾驶员异常行为检测方法的技术方案。
图5显示的设备500仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,该设备500包括处理器520、存储装置510、输入装置530和输出装置540;设备中处理器520的数量可以是一个或多个,图5中以一个处理器520为例;设备中的处理器520、存储装置510、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线550连接为例。
存储装置510作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的驾驶员异常行为检测方法对应的程序指令。
存储装置510可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置510可以包括高速随机存取存储器,还可以包括非易失性存储器,例如磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置510可进一步包括相对于处理器520远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字、字符信息或语音信息,以及产生与设备的用户设置以及功能控制有关的信号输入。输出装置540可包括显示屏、扬声器等设备。
本申请实施例提供的设备,可以通过多任务主干网络模型以及局部状态判断模型,确定驾驶员是否存在异常行为,从而对驾驶安全等进行监督和辅助管理工作,降低了因驾驶员的异常行为导致驾驶安全方面存在的隐患。
上述实施例中提供的驾驶员异常行为检测装置、存储介质及设备可执行本申请任意实施例所提供的驾驶员异常行为检测方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的驾驶员异常行为检测方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种驾驶员异常行为检测方法,其特征在于,该方法包括:
获取驾驶室中驾驶员的图像数据;
将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
2.根据权利要求1所述的方法,其特征在于,所述多任务主干网络模型的训练过程包括:
获取样本图像,对所述样本图像进行数据清理和目标框标注,得到训练样本、测试样本和验证样本;
将所述训练样本输入多任务主干网络模型中进行多任务主干网络模型训练,得到初始模型;
对所述初始模型进行优化,得到优化模型;
对所述优化模型进行稀疏剪裁,得到最终多任务主干网络模型。
3.根据权利要求2所述的方法,其特征在于,对所述初始模型进行优化,得到优化模型,包括:
对所述初始模型的卷积层进行精简化处理,其中,所述精简化处理包括修改卷积层中卷积核大小以及卷积层的输出通道数量。
4.根据权利要求2所述的方法,其特征在于,对所述优化模型进行稀疏剪裁,得到最终多任务主干网络模型,包括:
对所述优化模型的损失函数进行正则化处理,以得到微调训练结果;
采用预设稀疏度,对微调训练结果的模型权重进行稀疏化处理,得到稀疏模型;
对所述稀疏模型进行重新训练,直至测试精度符合预设标准,得到最终多任务主干网络模型。
5.根据权利要求1所述的方法,其特征在于,所述局部状态判断模型包括人眼状态检测模型;输入所述人眼状态检测模型的数据处理过程包括:
利用所述多任务主干网络模型的人脸检测任务和/或人脸关键点检测任务输出结果,对训练数据进行人脸对齐,将对齐后的训练数据进行人眼区域裁剪。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将人眼区域裁剪结果输入至人眼状态检测模型进行训练,得到训练后的人眼状态检测模型;其中,人眼状态检测模型包括分类器,所述分类器用于对睁眼状态、闭眼状态以及其他状态进行分类。
7.根据权利要求1所述的方法,其特征在于,所述局部状态判断模型用于嘴巴状态检测;
所述嘴巴状态的判断方式包括:
利用所述多任务主干网络模型的人脸关键点检测任务输出结果,确定嘴巴区域关键点的位置信息;
根据所述嘴巴区域关键点的位置信息,确定嘴巴区域关键点的距离;
根据所述嘴巴区域关键点的距离与预设距离阈值的关系,确定嘴巴状态检测结果。
8.一种驾驶员异常行为检测装置,其特征在于,该装置包括:
图像数据获取模块,用于获取驾驶室中驾驶员的图像数据;
图像数据输入模块,用于将所述图像数据输入至预先训练好的多任务主干网络模型;其中,所述多任务主干网络模型是根据驾驶员在异常行为时获得的图像数据进行有监督的训练得到的;所述多任务主干网络模型的检测任务包括:人脸检测、人脸关键点检测和抽烟打电话检测;
决策模块,用于多任务主干网络模型的输出结果,输入至局部状态判断模型中,并对局部状态判断模型的输出结果进行异常行为决策,得到异常行为决策的结果;
检测结果确定模块,根据所述异常行为决策的结果,确定驾驶员的异常行为检测结果,并输出所述异常行为检测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的驾驶员异常行为检测方法。
10.一种设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的驾驶员异常行为检测方法。
CN202010662880.4A 2020-07-10 2020-07-10 一种驾驶员异常行为检测方法、装置、存储介质及设备 Pending CN111860254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010662880.4A CN111860254A (zh) 2020-07-10 2020-07-10 一种驾驶员异常行为检测方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010662880.4A CN111860254A (zh) 2020-07-10 2020-07-10 一种驾驶员异常行为检测方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN111860254A true CN111860254A (zh) 2020-10-30

Family

ID=73153731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010662880.4A Pending CN111860254A (zh) 2020-07-10 2020-07-10 一种驾驶员异常行为检测方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111860254A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926510A (zh) * 2021-03-25 2021-06-08 深圳市商汤科技有限公司 异常驾驶行为识别方法及装置、电子设备和存储介质
CN113287120A (zh) * 2021-04-09 2021-08-20 深圳市锐明技术股份有限公司 车辆驾驶环境异常监测方法、装置、电子设备和存储介质
CN113392800A (zh) * 2021-06-30 2021-09-14 浙江商汤科技开发有限公司 一种行为检测方法、装置、计算机设备和存储介质
CN113591615A (zh) * 2021-07-14 2021-11-02 广州敏视数码科技有限公司 一种基于多模型的驾驶员抽烟检测方法
CN114663863A (zh) * 2022-02-24 2022-06-24 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和计算机存储介质
WO2022241598A1 (zh) * 2021-05-17 2022-11-24 海南师范大学 一种自动检测驾驶员玩手机的装置及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271875A (zh) * 2018-08-24 2019-01-25 中国人民解放军火箭军工程大学 一种基于眉部和眼部关键点信息的疲劳检测方法
CN109815826A (zh) * 2018-12-28 2019-05-28 新大陆数字技术股份有限公司 人脸属性模型的生成方法及装置
CN110119676A (zh) * 2019-03-28 2019-08-13 广东工业大学 一种基于神经网络的驾驶员疲劳检测方法
CN111079623A (zh) * 2019-12-09 2020-04-28 成都睿沿科技有限公司 一种目标检测方法、装置及存储介质
WO2020134858A1 (zh) * 2018-12-29 2020-07-02 北京市商汤科技开发有限公司 人脸属性识别方法及装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271875A (zh) * 2018-08-24 2019-01-25 中国人民解放军火箭军工程大学 一种基于眉部和眼部关键点信息的疲劳检测方法
CN109815826A (zh) * 2018-12-28 2019-05-28 新大陆数字技术股份有限公司 人脸属性模型的生成方法及装置
WO2020134858A1 (zh) * 2018-12-29 2020-07-02 北京市商汤科技开发有限公司 人脸属性识别方法及装置、电子设备和存储介质
CN110119676A (zh) * 2019-03-28 2019-08-13 广东工业大学 一种基于神经网络的驾驶员疲劳检测方法
CN111079623A (zh) * 2019-12-09 2020-04-28 成都睿沿科技有限公司 一种目标检测方法、装置及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926510A (zh) * 2021-03-25 2021-06-08 深圳市商汤科技有限公司 异常驾驶行为识别方法及装置、电子设备和存储介质
CN113287120A (zh) * 2021-04-09 2021-08-20 深圳市锐明技术股份有限公司 车辆驾驶环境异常监测方法、装置、电子设备和存储介质
WO2022213336A1 (zh) * 2021-04-09 2022-10-13 深圳市锐明技术股份有限公司 车辆驾驶环境异常监测方法、装置、电子设备和存储介质
WO2022241598A1 (zh) * 2021-05-17 2022-11-24 海南师范大学 一种自动检测驾驶员玩手机的装置及方法
CN113392800A (zh) * 2021-06-30 2021-09-14 浙江商汤科技开发有限公司 一种行为检测方法、装置、计算机设备和存储介质
CN113591615A (zh) * 2021-07-14 2021-11-02 广州敏视数码科技有限公司 一种基于多模型的驾驶员抽烟检测方法
CN114663863A (zh) * 2022-02-24 2022-06-24 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN111860254A (zh) 一种驾驶员异常行为检测方法、装置、存储介质及设备
WO2021098796A1 (zh) 图像处理方法、装置、设备及计算机可读存储介质
US20210012127A1 (en) Action recognition method and apparatus, driving action analysis method and apparatus, and storage medium
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
US11379955B2 (en) Electronic device, image processing method thereof, and computer-readable recording medium
WO2021016873A1 (zh) 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质
US11912203B2 (en) Virtual mirror with automatic zoom based on vehicle sensors
KR20190105745A (ko) 전자 장치 및 그 제어 방법
CN110533046B (zh) 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
CN110738186A (zh) 一种基于计算机视觉技术的驾驶员抽烟检测方法及系统
CN111353451A (zh) 电瓶车检测方法、装置、计算机设备及存储介质
CN111860259A (zh) 驾驶检测模型的训练、使用方法、装置、设备及介质
CN109117810A (zh) 疲劳驾驶行为检测方法、装置、计算机设备及存储介质
CN111444788A (zh) 行为识别的方法、装置及计算机存储介质
CN114051116A (zh) 一种驾考车辆的视频监控方法、装置以及系统
WO2021047453A1 (zh) 图像质量确定方法、装置及设备
CN112825116B (zh) 监控视频图像人脸检测和追踪方法、装置、介质及设备
CN111163332A (zh) 视频色情度检测方法、终端及介质
CN210983433U (zh) 一种基于计算机视觉技术的驾驶员抽烟检测系统
CN115904075A (zh) 车辆配置改进方法、系统、设备和存储介质
CN114898140A (zh) 一种基于paa算法的行为检测方法、装置及可读介质
CN115546875B (zh) 基于多任务的座舱内行为检测方法、装置以及设备
CN113705427B (zh) 基于车规级芯片SoC的疲劳驾驶监测预警方法及系统
CN113111804B (zh) 一种人脸检测的方法、装置、电子设备及存储介质
CN117079256B (zh) 基于目标检测及关键帧快速定位的疲劳驾驶检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 101, No. 1, East Ring 3rd Street, Jitiagang Village, Huangjiang Town, Dongguan City, Guangdong Province, 523750

Applicant after: Guangdong Zhengyang Sensor Technology Co.,Ltd.

Address before: Jitigang village, Huangjiang Town, Dongguan City, Guangdong Province

Applicant before: DONGGUAN ZHENGYANG ELECTRONIC MECHANICAL Co.,Ltd.

CB02 Change of applicant information