CN117391177A - 一种驾驶员行为检测模型的构建方法及应用 - Google Patents
一种驾驶员行为检测模型的构建方法及应用 Download PDFInfo
- Publication number
- CN117391177A CN117391177A CN202311688320.6A CN202311688320A CN117391177A CN 117391177 A CN117391177 A CN 117391177A CN 202311688320 A CN202311688320 A CN 202311688320A CN 117391177 A CN117391177 A CN 117391177A
- Authority
- CN
- China
- Prior art keywords
- driver
- driver behavior
- image
- model
- behavior detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 118
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 230000006399 behavior Effects 0.000 claims abstract description 131
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000008447 perception Effects 0.000 claims abstract description 17
- 230000006872 improvement Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 56
- 230000004927 fusion Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 4
- 238000010008 shearing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 101000880310 Homo sapiens SH3 and cysteine-rich domain-containing protein Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241000408529 Libra Species 0.000 description 1
- 102100037646 SH3 and cysteine-rich domain-containing protein Human genes 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种驾驶员行为检测模型的构建方法及应用,属于驾驶员行为检测技术领域;所构建的模型包括特征感知学习模块;特征感知学习模块为对ResNet50网络改进后的网络;上述改进方法包括:在ResNet50网络结构的基础上,在其后三个阶段中的普通卷积模块之后均插入一个全局上下文建模模块,并将其后两个阶段的普通卷积模块替换为可变形卷积模块;对于后三个阶段中的任一阶段,其输出为其输入与其内全局上下文建模模块的输出融合后的结果;本发明通过全局上下文建模和可变形卷积自适应地调整感受野,捕获长距离依赖,补偿图像细节的损失,从而克服复杂光照条件和图像质量低所带来的挑战,实现了准确度较高的驾驶员行为检测。
Description
技术领域
本发明属于驾驶员行为检测技术领域,更具体地,涉及一种驾驶员行为检测模型的构建方法及应用。
背景技术
随着交通运输行业迅猛发展,道路上机动车和机动车驾驶员数量急剧攀升。虽然交通工具的不断进步为人们带来了便利,但也导致交通事故不断增多,对人民的生命和财产安全构成了严重威胁。其中,驾驶员不系安全带、接打电话等违规行为是引发交通事故的主要原因之一。在这一背景下,面对日益紧迫的交通安全形势,智能交通监控系统的研发引发了广泛的关注。
智能交通设备利用各类检测监控设备获取路况、车辆和驾驶员等信息,以实现交通管理的目标。然而,交通视频数据的监控需要专业的人员进行24小时的监察,这种方法需要大量的人为操作和分析。随着交通监控系统的智能化,计算机视觉技术已纳入智能交通监控系统,能够极大程度地减少人力投入。
目前基于深度学习的图像分类和目标检测方法已经成为驾驶员危险行为检测领域中最常用的方法。然而,由于交通监控系统数据采集条件有限,拍摄到的图像具有光照复杂、模糊、起雾等问题,经典的目标检测模型直接采用简单的特征提取网络和检测器,难以应对多尺度和复杂多变的驾驶员行为特征,容易导致驾驶员危险行为检测结果的准确率较低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种驾驶员行为检测模型的构建方法及应用,用以解决现有技术无法实现准确度较高的驾驶员行为检测的技术问题。
为了实现上述目的,第一方面,本发明提供了一种驾驶员行为检测模型的构建方法,包括:
将采集到的训练样本集输入到RDBNet网络中进行训练,得到驾驶员行为检测模型;其中,训练样本集包括驾驶员图片;
RDBNet网络包括串联的特征提取模块和检测器;特征提取模块包括特征感知学习模块,用于提取驾驶员图片中的驾驶员行为特征;特征感知学习模块为对ResNet50网络改进后的网络;ResNet50网络包括5个阶段;上述改进方法包括:在ResNet50网络结构的基础上,在其后三个阶段中的普通卷积模块之后均插入一个全局上下文建模模块,并将其后两个阶段的普通卷积模块替换为可变形卷积模块;对于后三个阶段中的任一阶段,其输出为其输入与其内全局上下文建模模块的输出融合后的结果;
检测器用于将特征提取模块提取到的驾驶员行为特征映射为驾驶员行为检测结果。
进一步优选地,上述特征提取模块还包括:连接在特征感知学习模块之后的特征融合网络;特征融合网络包括:串联的第一特征融合模块和第二特征融合模块;
第一特征融合模块包括:四层级联的上采样层;其中,第i个上采样层的输入端与特征感知学习模块的第6-i个阶段的输出端通过通道注意力机制模块相连;i=1,2,3,4;
第二特征融合模块包括:四层级联的下采样层,用于对第一特征融合模块输出的特征图进行四级下采样操作,得到四级由高到低的驾驶员图像特征后,进一步进行平衡整合,得到驾驶员行为特征。
进一步优选地,检测器为级联检测头。
进一步优选地,将采集到的训练样本集输入到驾驶员行为检测模型中进行半监督训练。
进一步优选地,将采集到的训练样本集输入到驾驶员行为检测模型中进行半监督训练的方法,包括:
获取训练样本集;其中,训练样本集包括多组样本;每一组样本中包括:一张带标签的驾驶员图像和多张不带标签的驾驶员图像;标签包括:驾驶员行为的真实类别、以及对应的真实位置框;
将上述RDBNet网络作为教师模型,另外引入与教师模型结构相同的学生模型;将训练样本集输入到教师模型和学生模型中进行训练,并将训练好的教师模型作为驾驶员行为检测模型;
其中,将训练样本集中的任一组样本输入到教师模型和学生模型中进行训练的方法包括:
对于任一组样本,对其中的任一个不带标签的驾驶员图像A分别进行强增强和弱增强,得到对应的强增强图像和弱增强图像;将弱增强图像输入至教师模型中,得到驾驶员图像A中驾驶员行为的检测框及对应的检测类别,进而得到驾驶员行为的伪位置框及对应的伪类别;将强增强图像及带标签的驾驶员图像B分别输入至学生模型中,得到驾驶员图像A中驾驶员行为的预测位置框及对应的预测类别,以及驾驶员图像B中驾驶员行为的预测位置框及对应的预测类别;通过最小化驾驶员图像A中驾驶员行为的预测位置框与对应的伪位置框之间的差异、预测类别与对应的伪类别之间的差异、驾驶员图像B中驾驶员行为的预测位置框与对应的真实位置框之间的差异、预测类别与真实类别之间的差异,对学生模型进行训练,并基于学生模型的参数对教师模型的参数进行更新;
其中,上述强增强包括旋转、缩放、剪切和翻转中的任意一种或多种操作;弱增强包括随机裁剪和颜色抖动中的任意一种或多种操作。
进一步优选地,驾驶员图像A中第j种驾驶员行为的伪位置框表示为:
;
其中,为驾驶员图像A中第j种驾驶员行为的伪位置框的s角的坐标值;为驾驶员图像A中第j种驾驶员行为下的检测框的总数量;/>为驾驶员图像A中第j种驾驶员行为的第i个检测框的s角的坐标值;/>为驾驶员图像A中第j种驾驶员行为的第i个检测框的置信度;s表示左上角或右下角。
第二方面,本发明提供了一种驾驶员行为检测方法,包括:
将待检测的驾驶员图片输入至驾驶员行为检测模型中,得到驾驶员行为的检测结果;
其中,驾驶员行为检测模型采用本发明第一方面所提供的驾驶员行为检测模型的构建方法构建得到。
第三方面,本发明提供了一种驾驶员行为检测系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第二方面所提供的驾驶员行为检测方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的驾驶员行为检测模型的构建方法和/或本发明第二方面所提供的驾驶员行为检测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明提供了一种驾驶员行为检测模型的构建方法,所构建的驾驶员行为检测模型中的特征感知学习模块为对ResNet50网络改进后的网络,在ResNet50网络结构的基础上,在其后三个阶段中的普通卷积模块之后均插入一个全局上下文建模模块,并将其后两个阶段的普通卷积模块替换为可变形卷积模块;且对于后三个阶段中的任一阶段,其输出为其输入与其内全局上下文建模模块的输出融合后的结果;本发明通过全局上下文建模和可变形卷积自适应地调整感受野,捕获长距离依赖,补偿图像细节的损失,从而克服复杂光照条件和图像质量低所带来的挑战,实现了准确度较高的驾驶员行为检测。
2、进一步地,本发明所提供的驾驶员行为检测模型的构建方法,所构建的驾驶员行为检测模型还包括连接在特征感知学习模块之后的特征融合网络,包括第一特征融合模块和第二特征融合模块;其中,第一特征融合模块包括四层级联的上采样层,其第i个上采样层的输入端与特征感知学习模块的第6-i个阶段的输出端通过通道注意力机制模块相连;层级化的特征融合网络通过增加自底向上的传播路径,增强了低层级特征图的位置信息,在这个过程中通道注意力机制模块根据不同通道内的全局特征,对于包含重要信息的通道进行增强,对于包含冗余信息的通道进行削弱,从而充分有效地融合图像特征,进一步提高了模型检测的准确性。
3、进一步地,考虑到现有的深度学习技术依赖于大量的带标注的数据来保证模型的精度,而标注图像数据却需要耗费大量的人力成本,本发明所提供的驾驶员行为检测模型的构建方法,采用了一种端到端的基于教师-学生模型的半监督方法对模型进行训练,该方法克服了高成本的手工标注过程,能够在驾驶员行为检测模型准确率的基础上,减少人工标注的成本,解决了现有技术下驾驶员行为检测准确度不高,人工标注成本高的问题。
4、进一步地,本发明所提供的驾驶员行为检测模型的构建方法,考虑到车辆本身在行驶过程中易存在车身颠簸、光线不足、过度曝光等情况,导致交通监控场景下拍摄出来的图像也可能存在着抖动、模糊等问题,极易使图像模糊不清,缺少相应目标的特征,降低了图像数据的质量,所以本发明对训练样本集中的无标签的驾驶员图像进行数据增强,然后将其输入至教师模型和学生模型进行训练,进一步提高了检测的准确度。
5、进一步地,本发明所提供的驾驶员行为检测模型的构建方法,将同一种驾驶员行为类别下的检测框进行归一化,生成对应的伪框,与直接采用一个单一的阈值过滤掉生成冗余的伪框不同的是,本发明采用一种非线性加权融合算法,该方法可以在训练阶段不断修正伪框位置,提升伪框的边界的准确性,进一步提高了检测的准确率。
附图说明
图1为本发明实施例提供的特征感知学习模块的结构示意图。
图2为本发明实施例提供的特征融合网络的结构示意图。
图3为本发明实施例提供的级联检测头的结构示意图。
图4为本发明实施例提供的驾驶员行为检测模型的训练过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了实现上述目的,第一方面,本发明提供了一种驾驶员行为检测模型的构建方法,包括:
将采集到的训练样本集输入到RDBNet网络中进行训练,得到驾驶员行为检测模型;其中,训练样本集包括驾驶员图片,对应的标签包括驾驶员的所有行为类别;
RDBNet网络包括串联的特征提取模块和检测器;特征提取模块包括特征感知学习模块,用于提取驾驶员图片中的驾驶员行为特征;如图1所示,特征感知学习模块为对ResNet50网络改进后的网络;ResNet50网络包括5个阶段;上述改进方法包括:在ResNet50网络结构的基础上,在其后三个阶段中的普通卷积模块之后均插入一个全局上下文建模模块,并将其后两个阶段的普通卷积模块替换为可变形卷积模块;对于后三个阶段中的任一阶段,其输出为其输入与其内全局上下文建模模块的输出融合后的结果;
检测器用于将特征提取模块提取到的驾驶员行为特征映射为驾驶员行为检测结果。
在一种可选实施方式下,上述特征提取模块还包括:连接在特征感知学习模块之后的特征融合网络;如图2所示,特征融合网络包括:串联的第一特征融合模块和第二特征融合模块;
第一特征融合模块包括:四层级联的上采样层;其中,第i个上采样层的输入端与特征感知学习模块的第6-i个阶段的输出端通过通道注意力机制模块相连;i=1,2,3,4;
第二特征融合模块包括:四层级联的下采样层,用于对第一特征融合模块输出的特征图进行四级下采样操作,得到四个分辨率从大到小的图像后,进一步进行平衡整合,得到驾驶员行为特征。
需要说明的是,检测器可以为级联检测头、自注意力检测头、多尺度检测头等。优选地,在一种可选实施方式下,检测器为级联检测头,如图3所示。
在一种可选实施方式下,将采集到的训练样本集输入到驾驶员行为检测模型中进行半监督训练。
优选地,在一种可选实施方式下,将采集到的训练样本集输入到驾驶员行为检测模型中进行半监督训练的方法,包括:
获取训练样本集;其中,训练样本集包括多组样本;每一组样本中包括:一张带标签的驾驶员图像和多张不带标签的驾驶员图像;标签包括:驾驶员行为的真实类别、以及对应的真实位置框;在一种可选实施方式下,预先准备带标签的驾驶员图像数据集和不带标签的驾驶员图像数据集;不带标签图像数据集大小大于带标签图像数据集大小;每次,从带标签的驾驶员图像数据集中选取一张图像,从不带标签的驾驶员图像数据集中选取多张图像(优选为4张)作为一组图像,进而得到多组图像,构成训练样本集;
将上述RDBNet网络作为教师模型,另外引入与教师模型结构相同的学生模型;将训练样本集输入到教师模型和学生模型中进行训练,并将训练好的教师模型作为驾驶员行为检测模型;
其中,如图4所示,将训练样本集中的任一组样本输入到教师模型和学生模型中进行训练的方法包括:
对于任一组样本,对其中的任一个不带标签的驾驶员图像A分别进行强增强和弱增强,得到对应的强增强图像和弱增强图像;将弱增强图像输入至教师模型中,得到驾驶员图像A中驾驶员行为的检测框及对应的检测类别,进而得到驾驶员行为的伪位置框及对应的伪类别;将强增强图像及带标签的驾驶员图像B分别输入至学生模型中,得到驾驶员图像A中驾驶员行为的预测位置框及对应的预测类别,以及驾驶员图像B中驾驶员行为的预测位置框及对应的预测类别;通过最小化驾驶员图像A中驾驶员行为的预测位置框与对应的伪位置框之间的差异、预测类别与对应的伪类别之间的差异、驾驶员图像B中驾驶员行为的预测位置框与对应的真实位置框之间的差异、预测类别与真实类别之间的差异,对学生模型进行训练,并基于学生模型的参数采用指数移动平均法更新教师模型的参数;
其中,上述强增强包括旋转、缩放、剪切和翻转中的任意一种或多种操作;弱增强包括随机裁剪和颜色抖动中的任意一种或多种操作。
在一种可选实施方式下,驾驶员图像A中第j种驾驶员行为的伪位置框表示为:
;
其中,为驾驶员图像A中第j种驾驶员行为的伪位置框的s角的坐标值;为驾驶员图像A中第j种驾驶员行为下的检测框的总数量;/>为驾驶员图像A中第j种驾驶员行为的第i个检测框的s角的坐标值;/>为驾驶员图像A中第j种驾驶员行为的第i个检测框的置信度;s表示左上角或右下角。
需要说明的是,伪类别即为对应的检测类别,这里的处理是将同一种驾驶员行为类别下的检测框进行归一化。
通过上述方式,本发明能够在保证检测准确率的基础上,降低人工标注的昂贵成本,并且能够克服复杂光照条件和图像质量低带来的挑战,实现驾驶员行为的准确检测和判断。
为了进一步说明本发明所提供的驾驶员行为检测模型的构建方法,下面结合一具体实施例进行详述:
本实施例中,驾驶员行为检测模型的构建方法如下:
S1.利用交通监控摄像头采集图像数据,通过对原始图像的筛选和标注,构建驾驶员异常行为检测数据集。
本发明在交通监控环境下搭建卡口摄像头,收集驾驶员图像,共收集到1万余张合格的驾驶员图片,包括城市道路、高速公路、和乡村道路等;图像采集不分时间、车型等,采用随机拍摄,包括晴天、阴天和雨天;随机选取其中的3000张进行标注,构建了驾驶员分心数据集。为了获得更好的训练效果,各种类别的样本数量均衡,同时选取了一个标准公开数据集——州立农场数据集(State Farm 数据集)来验证本发明所提模型的鲁棒性和泛化能力;该数据集包含22400张训练图像和79727张测试图像,每张图像的分辨率为640×480,有以下几种类别:打电话(左手)、打电话(右手)、发短信(左手)、发短信(右手)、调节收音机等车载设备、与乘客交谈、回头看和喝饮料。由于州立农场数据集中不包含对驾驶员图像的标注,所以本发明选用每一类的500张图像用labelme标注软件进行标注,并将左手打电话和右手打电话、左手发短信和右手发短信合并为打电话和发短信两种分心行为。本实施例中的驾驶员行为检测数据集具体如表1所示:
;
S2.根据交通监控场景下驾驶员行为图像的特点,构建一个基于自适应特征感知学习和融合的危险驾驶行为检测网络RDBNet。
具体地,用来获取驾驶员图像特征的网络为卷积神经网络,可以是AlexNet 网络、VGG 网络、Inception网络、ResNet 网络、EfficientNet网络、NasNet网络中的任意一种,用于提取每一幅驾驶员图像的局部和全局特征。本实施例中,卷积神经网络为以ResNet50为骨干网络的自适应特征感知学习网络。ResNet架构的主要贡献是解决了传统卷积神经网络随着网络深度的加深而分类精度下降的问题,通过提出的残差学习思想加速了卷积神经网路的训练过程,有效避免了梯度消失和梯度爆炸问题。
本实施例对经典的ResNet50模型进行修改。保留ResNet50网络的前两个特征提取阶段,在之后的三个阶段中嵌入全局上下文建模模块(Global Context Block,GCB),使得网络能够从全局中关注到具体的目标。将ResNet50中的基本卷积模块的输出作为作为 GCB模块的输入,通过相加操作将GCB 模块的输出融合到每个阶段特征图上对应位置上,形成下一个模块的输入。GCB 模块主要由上下文建模单元、特征转换单元和特征聚合单元三个部分组成。首先获取全局上下文特征,在上下文建模部分将输入先通过1×1卷积和softmax函数,再与原始输入相加得到全局上下文特征,增大输入感受野。然后通过先升维再降维的操作进行特征转换。最后将特征转换的输出和输入进行逐元素相加操作,具体过程可由下述公式表示:
;
其中,表示第i个阶段的输入,/>表示第i个阶段的输出。i是位置的索引,j表示遍历所有的位置,/>为特征图中位置的总数量,/>表示通过第一个1×1卷积的权重,/>表示通过softmax函数后的第一个1×1卷积的权重,/>表示通过最后一个1×1卷积的权重;LN(·)是层归一化;/>是全局注意力池化权重,/>是转换过程。
进一步地,在ResNet50网络的最后两个阶段嵌入改进的可变形卷积结构,尽可能的提取与真实目标更为相关的特征。以一个2×2的卷积为例,对于每个输出,都需要从特征图x上采样以x为中心点的4个位置,这里用(0,0)代表x的左上角,(1,1)代表x的右下角,R代表四个点的位置,代表R中任意一个点,/>代表R的中心点,则采样公式如下:
;
在卷积操作的作用区域上,加入一个可学习参数,通过/>向中心位置/>四周扩展:
其中,是学习到的偏移量,/>是学习到的权重,p是初始位置。
进一步地,在特征感知学习模块后嵌入特征融合网络,以有效地获取多尺度的特征信息。首先,高层的特征图(第五个阶段输出的特征图)通过上采样操作传播到底层,特征感知学习模块中自底向上的特征提取和特征融合网络中自顶向下的特征传播之间通过一个横向连接建立联系,并在每一个横向连接中嵌入高效的通道注意力机制模块,然后高层的语义信息通过一个自上而下的路径传播。随后,低层的位置信息再通过一个自底向上的路径传播,以促进特征融合。最后,对N2、N3、N4、N5层的特征进行平衡整合(具体参见PangJ, Chen K, Shi J, et al. Libra r-cnn: Towards balanced learning forobjectdetection[C]//Proceedings of the IEEE/CVF conference on computer visionandpattern recognition. 2019: 821-830)。平衡整合的步骤如下:
假设特征分辨率共有{N2,N3,N4,N5}四个级别,其中N2的分辨率最高,使用插值和最大池化将{N2,N3,N4,N5}调整到和N4相同的大小后,通过以下公式获得平衡的语义特征:
其中 L 代表特征级别的数量,和/>分别代表最高和最低特征级别的索引。然后,使用相同但相反的过程对获得的特征进行重新缩放,输出{P2,P3,P4,P5}以增强原始特征,同时获取低级和高级特征。
进一步地,获取图像特征信息后,使用级联检测头通过递增的IoU阈值进行分级段训练,得到最终的检测结果。
S3.搭建端到端的基于教师-学生模型的半监督学习框架,实现少量带标注样本下的驾驶员行为检测。
进一步地,所述教师模型和学生模型均为上一步搭建的危险驾驶行为检测网络RDBNet。
进一步地,由于车辆本身在行驶过程中易存在车身颠簸、光线不足、过度曝光等情况,导致交通监控场景下拍摄出来的图像也可能存在着抖动、模糊等问题,极易使图像模糊不清,缺少相应目标的特征,降低了图像数据的质量,所以本发明对所述数据集中无标签的图像进行数据增强,然后将其输入至教师模型和学生模型进行训练。其中,数据增强操作包括强增强和弱增强,强增强包括旋转、缩放、剪切和翻转等,弱增强包括随机裁剪和颜色抖动等。
进一步地,无标签的图像经过教师模型后输出检测结果,然后设计一个非线性加权伪框生成算法得到预测的伪框,可表示为:
;
其中,X,Y分别为最终的坐标值,和/>代表最初的坐标值,/>代表每个候选框对应的置信度,本实施例中只计算每个候选框左上角和右下角的坐标值。
学生模型同时采用强增强后无标签的带有伪框的图像和带标签的图像进行训练(本实施例中采用梯度下降法进行训练),教师模型采用指数移动平均方法进行更新。
通过最小化监督损失和无监督损失/>的加权和来训练学生和教师模型:
其中,控制无监督损失的比例,/>和/>通过各自训练中的图像数量进行归一化,具体为:
;
其中,为分类损失,采用交叉熵损失用于比较网络的预测类别和实际类别之间的差异。/>为回归损失,采用平滑的L1损失来度量模型对目标位置的回归预测与实际目标位置之间的差异,/>代表第i张带标注的图像,/>代表第i张无标签的图像,/>表示带标签图像的数量,/>表示无标签的图像的数量。
利用训练后的模型对图像进行检测,实现对驾驶员异常行为的检测,下面通过以下实验来证本发明的有效性:
本实验采用AP作为评价指标,AP表示平均正确率,由精度P和召回率R确定。在目标检测任务中,精度P又称查准率,即所有预测出来的目标框中正确目标的比例,用于衡量检测器检测的准不准。召回率R又称查全率,即表示检测出的目标占所有目标的比例;
;
;
;
其中,TP表示正样本被正确预测为正样本,FP表示正样本被错误预测为负样本,FN表示负样本被正确预测为负样本。
在对模型进行预训练时,前500次迭代采用线性学习率策略,初始学习率设置为0.001。在此之后,学习率调整为0.01,随后每40,000次迭代减少0.1倍。监督学习时,学习率设置为4,半监督学习时,学习率设置为5,带标签的图像和无标签图像的比例为1:4,迭代总数设置为180,000。
为了分析本发明提出的自适应特征感知学习模块中引入全局上下文模块和可变形卷积的影响,在州立农场数据集和驾驶员分心数据集上,分别对经典的ResNet50网络、本发明所提供的在ResNet50网络中引入全局上下文建模模块的驾驶员行为检测模型(记为GC_ResNet50)、以及本发明所提供的在GC_ResNet50中进一步引入可变形卷积的驾驶员行为检测模型(记为DGC_Res50)进行了消融实验,发现直接使用未做任何改动的经典ResNet50网络的精度最低;而相比于ResNet50网络,本发明所提供的对经典的ResNet50进行改进后,引入全局上下文模块的驾驶员行为检测模型的AP值提高了1.4,说明了全局上下文模块的有效性;而在进一步引入可变形卷积后,相比于ResNet50网络,AP值提高了2.0。
为了进一步验证特征融合模块的有效性,将本发明所提供的方法与近几年提出的FPN网络进行对比,发现本发明的方法相对于其他FPN网络精度也均有所提升。
同时,本实验还将本发明提出的半监督方法与其他半监督方法(如CSD算法、STAC算法、E2E算法等)分别在驾驶员分心数据集和州立农场数据集上进行了对比实验,其中,带标注的数据占整个数据集的比例包括:1%,5%,10%,20%和30%。经过实验对比发现,本发明的方法的准确率相对于其他的半监督方法均有提升。
本实验还对比了本发明所提供的驾驶员行为检测模型和其他目标检测网络(如Fast RCNN网络、Yolox网络等)的性能,发现本发明提供的驾驶员行为检测模型相较于其他目标检测网络,准确率均有提升。
综上所述,本发明提出了一种驾驶员行为检测模型的构建方法,其中特征感知模块通过全局上下文建模和可变形卷积自适应地调整感受野,捕获长距离依赖,补偿图像细节的损失,从而克服了复杂光照和噪声图像的挑战。层级化的特征融合网络通过增加自底向上的传播路径,增强低层级特征图的位置信息,高效通道注意模块根据不同通道内的全局特征,对于包含重要信息的通道进行增强,对于包含冗余信息的通道进行削弱,从而充分有效地融合图像特征。除此之外,本发明还采用了一种端到端的基于教师-学生模型的半监督训练方法对模型进行训练,该方法可以在训练阶段不断修正伪框位置,提升检测准确率,克服了高成本的手工标注过程;同时,本发明提供的基于半监督目标检测的驾驶员行为检测网络能够在保证检测准确率的基础上,降低人工标注的昂贵成本,并且能够克服复杂光照条件和图像质量低带来的挑战,实现准确的检测和判断。
第二方面,本发明提供了一种驾驶员行为检测方法,包括:
将待检测的驾驶员图片输入至驾驶员行为检测模型中,得到驾驶员行为的检测结果;
其中,驾驶员行为检测模型采用本发明第一方面所提供的驾驶员行为检测模型的构建方法构建得到。
相关技术方案同本发明第一方面所提供的驾驶员行为检测模型的构建方法,这里不做赘述。
第三方面,本发明提供了一种驾驶员行为检测系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第二方面所提供的驾驶员行为检测方法。
相关技术方案同本发明第二方面所提供的驾驶员行为检测方法,这里不做赘述。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的驾驶员行为检测模型的构建方法和/或本发明第二方面所提供的驾驶员行为检测方法。
相关技术方案同本发明第一方面所提供的驾驶员行为检测模型的构建方法和本发明第二方面所提供的驾驶员行为检测方法,这里不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种驾驶员行为检测模型的构建方法,其特征在于,包括:
将采集到的训练样本集输入到RDBNet网络中进行训练,得到驾驶员行为检测模型;其中,所述训练样本集包括驾驶员图片;
所述RDBNet网络包括串联的特征提取模块和检测器;所述特征提取模块包括特征感知学习模块,用于提取驾驶员图片中的驾驶员行为特征;所述特征感知学习模块为对ResNet50网络改进后的网络;所述ResNet50网络包括5个阶段;所述改进方法包括:在所述ResNet50网络结构的基础上,在其后三个阶段中的普通卷积模块之后均插入一个全局上下文建模模块,并将其后两个阶段的普通卷积模块替换为可变形卷积模块;对于后三个阶段中的任一阶段,其输出为其输入与其内全局上下文建模模块的输出融合后的结果;
所述检测器用于将所述特征提取模块提取到的驾驶员行为特征映射为驾驶员行为检测结果。
2.根据权利要求1所述的驾驶员行为检测模型的构建方法,其特征在于,所述特征提取模块还包括:连接在所述特征感知学习模块之后的特征融合网络;所述特征融合网络包括:串联的第一特征融合模块和第二特征融合模块;
所述第一特征融合模块包括:四层级联的上采样层;其中,第i个上采样层的输入端与所述特征感知学习模块的第6-i个阶段的输出端通过通道注意力机制模块相连;i=1,2,3,4;
所述第二特征融合模块包括:四层级联的下采样层,用于对所述第一特征融合模块输出的特征图进行四级下采样操作,得到四级由高到低的驾驶员图像特征后,进一步进行平衡整合,得到驾驶员行为特征。
3.根据权利要求1所述的驾驶员行为检测模型的构建方法,其特征在于,所述检测器为级联检测头。
4.根据权利要求1-3任意一项所述的驾驶员行为检测模型的构建方法,其特征在于,将所述训练样本集输入到所述驾驶员行为检测模型中进行半监督训练。
5.根据权利要求4所述的驾驶员行为检测模型的构建方法,其特征在于,将所述训练样本集输入到所述驾驶员行为检测模型中进行半监督训练的方法,包括:
获取所述训练样本集;所述训练样本集包括多组样本;每一组样本中包括:一张带标签的驾驶员图像和多张不带标签的驾驶员图像;所述标签包括:驾驶员行为的真实类别、以及对应的真实位置框;
将所述RDBNet网络作为教师模型,另外引入与教师模型结构相同的学生模型;将所述训练样本集输入到所述教师模型和所述学生模型中进行训练,并将训练好的教师模型作为所述驾驶员行为检测模型;
其中,将所述训练样本集中的任一组样本输入到所述教师模型和所述学生模型中进行训练的方法包括:
对于任一组样本,对其中的任一个不带标签的驾驶员图像A分别进行强增强和弱增强,得到对应的强增强图像和弱增强图像;将所述弱增强图像输入至所述教师模型中,得到驾驶员图像A中驾驶员行为的检测框及对应的检测类别,进而得到驾驶员行为的伪位置框及对应的伪类别;将所述强增强图像及带标签的驾驶员图像B分别输入至所述学生模型中,得到驾驶员图像A中驾驶员行为的预测位置框及对应的预测类别,以及驾驶员图像B中驾驶员行为的预测位置框及对应的预测类别;通过最小化驾驶员图像A中驾驶员行为的预测位置框与对应的伪位置框之间的差异、预测类别与对应的伪类别之间的差异、驾驶员图像B中驾驶员行为的预测位置框与对应的真实位置框之间的差异、以及预测类别与真实类别之间的差异,对所述学生模型进行训练,并基于所述学生模型的参数对所述教师模型的参数进行更新;
其中,所述强增强包括旋转、缩放、剪切和翻转中的任意一种或多种操作;所述弱增强包括随机裁剪和颜色抖动中的任意一种或多种操作。
6.根据权利要求5所述的驾驶员行为检测模型的构建方法,其特征在于,驾驶员图像A中第j种驾驶员行为的伪位置框表示为:
;
其中,为驾驶员图像A中第j种驾驶员行为的伪位置框的s角的坐标值;/>为驾驶员图像A中第j种驾驶员行为下的检测框的总数量;/>为驾驶员图像A中第j种驾驶员行为的第i个检测框的s角的坐标值;/>为驾驶员图像A中第j种驾驶员行为的第i个检测框的置信度;s表示左上角或右下角。
7.一种驾驶员行为检测方法,其特征在于,包括:
将待检测的驾驶员图片输入至驾驶员行为检测模型中,得到驾驶员行为的检测结果;
其中,驾驶员行为检测模型采用权利要求1-6任意一项所述的驾驶员行为检测模型的构建方法构建得到。
8.一种驾驶员行为检测系统,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行权利要求7所述的驾驶员行为检测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1-6任意一项所述的驾驶员行为检测模型的构建方法和/或权利要求7所述的驾驶员行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311688320.6A CN117391177B (zh) | 2023-12-11 | 2023-12-11 | 一种驾驶员行为检测模型的构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311688320.6A CN117391177B (zh) | 2023-12-11 | 2023-12-11 | 一种驾驶员行为检测模型的构建方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117391177A true CN117391177A (zh) | 2024-01-12 |
CN117391177B CN117391177B (zh) | 2024-02-20 |
Family
ID=89468689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311688320.6A Active CN117391177B (zh) | 2023-12-11 | 2023-12-11 | 一种驾驶员行为检测模型的构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117391177B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309723A (zh) * | 2019-06-04 | 2019-10-08 | 东南大学 | 一种基于人体特征细分类的驾驶员行为识别方法 |
US20220398405A1 (en) * | 2021-06-15 | 2022-12-15 | Motive Technologies, Inc. | Distracted driving detection using a multi-task training process |
CN115620141A (zh) * | 2022-10-26 | 2023-01-17 | 同济大学 | 一种基于加权可变形卷积目标检测方法和装置 |
CN115690752A (zh) * | 2022-11-03 | 2023-02-03 | 北京英泰智科技股份有限公司 | 一种驾驶员行为检测方法及装置 |
US20230150550A1 (en) * | 2021-11-16 | 2023-05-18 | Waymo Llc | Pedestrian behavior prediction with 3d human keypoints |
CN116935361A (zh) * | 2023-07-18 | 2023-10-24 | 长春理工大学 | 一种基于深度学习的驾驶员分心行为检测方法 |
-
2023
- 2023-12-11 CN CN202311688320.6A patent/CN117391177B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309723A (zh) * | 2019-06-04 | 2019-10-08 | 东南大学 | 一种基于人体特征细分类的驾驶员行为识别方法 |
US20220398405A1 (en) * | 2021-06-15 | 2022-12-15 | Motive Technologies, Inc. | Distracted driving detection using a multi-task training process |
US20230150550A1 (en) * | 2021-11-16 | 2023-05-18 | Waymo Llc | Pedestrian behavior prediction with 3d human keypoints |
CN115620141A (zh) * | 2022-10-26 | 2023-01-17 | 同济大学 | 一种基于加权可变形卷积目标检测方法和装置 |
CN115690752A (zh) * | 2022-11-03 | 2023-02-03 | 北京英泰智科技股份有限公司 | 一种驾驶员行为检测方法及装置 |
CN116935361A (zh) * | 2023-07-18 | 2023-10-24 | 长春理工大学 | 一种基于深度学习的驾驶员分心行为检测方法 |
Non-Patent Citations (2)
Title |
---|
QIMIN CHENG.ET: "UDBNet: Detecting Unsafe Driving Behaviors Relevant to Urban Traffic Safety", 《2023 30TH INTERNATIONAL CONFERENCE ON GEOINFORMATICS》, pages 1 - 6 * |
阚亚亚等: "结合transformer多尺度实例交互的稀疏集目标检测", 《应用科学学报》, vol. 41, no. 5, pages 777 - 788 * |
Also Published As
Publication number | Publication date |
---|---|
CN117391177B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
WO2022083784A1 (zh) | 一种基于车联网的道路检测方法 | |
CN110111335B (zh) | 一种自适应对抗学习的城市交通场景语义分割方法及系统 | |
CN111814621A (zh) | 一种基于注意力机制的多尺度车辆行人检测方法及装置 | |
CN112633149B (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
WO2023207742A1 (zh) | 一种交通异常行为检测方法与系统 | |
CN108039044B (zh) | 基于多尺度卷积神经网络的车辆智能排队的系统及方法 | |
CN113762209A (zh) | 一种基于yolo的多尺度并行特征融合路标检测方法 | |
CN111563557A (zh) | 一种电力电缆隧道内目标检测的方法 | |
CN107273870A (zh) | 一种监控场景下融合上下文信息的行人位置检测方法 | |
CN111008608B (zh) | 一种基于深度学习的夜间车辆检测方法 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN115376108A (zh) | 一种复杂天气下障碍物检测方法及装置 | |
CN116704476B (zh) | 一种基于改进Yolov4-tiny算法的交通标志检测方法 | |
CN112686276A (zh) | 一种基于改进RetinaNet网络的火焰检测方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN114639067A (zh) | 一种基于注意力机制的多尺度全场景监控目标检测方法 | |
CN117152513A (zh) | 一种面向夜间场景的车辆边界定位方法 | |
CN112364864A (zh) | 一种车牌识别方法、装置、电子设备及存储介质 | |
CN112288701A (zh) | 一种智慧交通图像检测方法 | |
CN111160282B (zh) | 一种基于二值化Yolov3网络的红绿灯检测方法 | |
CN112308066A (zh) | 一种车牌识别系统 | |
CN117391177B (zh) | 一种驾驶员行为检测模型的构建方法及应用 | |
CN112288702A (zh) | 一种基于车联网的道路图像检测方法 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |