CN115082698A - 一种基于多尺度注意力模块的分心驾驶行为检测方法 - Google Patents
一种基于多尺度注意力模块的分心驾驶行为检测方法 Download PDFInfo
- Publication number
- CN115082698A CN115082698A CN202210744125.XA CN202210744125A CN115082698A CN 115082698 A CN115082698 A CN 115082698A CN 202210744125 A CN202210744125 A CN 202210744125A CN 115082698 A CN115082698 A CN 115082698A
- Authority
- CN
- China
- Prior art keywords
- module
- scale
- driving behavior
- channel
- attention module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 28
- XXONZJKORUUFIZ-UHFFFAOYSA-N 3-sulfanylpyridine-2-sulfonamide Chemical compound NS(=O)(=O)C1=NC=CC=C1S XXONZJKORUUFIZ-UHFFFAOYSA-N 0.000 claims abstract 9
- 230000006399 behavior Effects 0.000 claims description 96
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 108091006146 Channels Proteins 0.000 description 73
- 230000006870 function Effects 0.000 description 10
- 206010039203 Road traffic accident Diseases 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102100034112 Alkyldihydroxyacetonephosphate synthase, peroxisomal Human genes 0.000 description 1
- 101000799143 Homo sapiens Alkyldihydroxyacetonephosphate synthase, peroxisomal Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000000848 angular dependent Auger electron spectroscopy Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多尺度注意力模块的分心驾驶行为检测方法,包括以下步骤:得到标注对应的分心驾驶行为信息的图像数据集;结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,用于提取分心驾驶行为特征并输出预测驾驶行为概率,其中,改进的MoblieNetV2特征网络模型包括多个串联的倒瓶颈残差模块,且在每个倒瓶颈残差模块中加入多尺度注意力模块,定义为多尺度倒瓶颈残差模块,多尺度倒瓶颈残差模块包括分组卷积层、多尺度注意力模块层MPSA以及特征提取层,设置训练超参数,将训练集图像输入到改进后的MoblieNetV2特征网络模型,得到训练完备的分心驾驶行为检测模型;将待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型。稳定性好,鲁棒性强。
Description
技术领域
本发明涉及到驾驶行为检测技术领域,更为具体地,涉及了一种基于多尺度注意力模块的分心驾驶行为检测方法、系统、设备及介质。
背景技术
近年来,随着汽车智能化的发展,越来越多的汽车配备了高级驾驶员辅助系统ADAS,大大降低了交通意外事故的发生率。根据世界卫生组织的报告,全世界每年约有135万人死于交通事故,由于驾驶员的人为过失导致的事故占比超过90%,其中14%-34%的交通事故和驾驶者的注意力相关联。有研究表明,开车过程中使用手机发送短信,会使交通事故发生的风险增加23倍。在青年和新手驾驶员中,驾驶分心是导致交通事故的最主要原因。如果可以准确实时地检测出注意力不集中的分心驾驶行为,及时地给予预警提示,可以极大的减少由分心驾驶行为导致的车祸事故,保护司机与乘客的生命财产安全。
目前,基于驾驶员的心电信号(ECG)、脑电信号(EEG)、眼动参数等生理特征参数进行的检测方法准确度高,但是需要佩戴专业的医疗设备,会产生驾驶干扰。基于行车数据变化的间接检测方法准确性相对较差,稳定性不高。因此,一般采用摄像头采集驾驶员图像进行分心驾驶行为的检测。针对驾驶员的主观分心行为如喝水、玩手机等,采用深度学习的算法对常见的分心驾驶动作进行检测与分类,但是目前采用的神经网络模型架构模型参数量太大,训练难度大,计算成本高,实时性较差。同时,难以获得质量高的标签样本导致模型泛化能力差,一旦改变光照或背景环境导致检测准确性大大降低,鲁棒性较差。因此,如何设计一种轻量高效、泛化能力强的分心驾驶检测方法是亟待解决的问题。
发明内容
为了解决现有技术中分心驾驶行为检测的神经网络模型参数量较大,实时性较差的问题,本发明提出了一种的基于多尺度注意力模块的分心驾驶行为检测方法。能够高效实时地检测出驾驶员图像中的分心行为信息,并且算法的稳定性好,鲁棒性强,能够应用在驾驶员状态检测系统中。
为了实现本发明目的,本发明提供的一种基于多尺度注意力模块的分心驾驶行为检测方法,包括以下步骤:
获取分心驾驶行为数据集,设置分心驾驶行为标签信息,得到标注对应的分心驾驶行为信息的图像数据集;
结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,用于提取分心驾驶行为特征并输出预测驾驶行为概率,其中,改进的MoblieNetV2特征网络模型包括多个串联的倒瓶颈残差模块,且在每个倒瓶颈残差模块中加入多尺度注意力模块,定义加入多尺度注意力模块后的倒瓶颈残差模块为多尺度倒瓶颈残差模块,多尺度倒瓶颈残差模块包括分组卷积层、多尺度注意力模块层MPSA以及特征提取层,分组卷积层用于切分网络,对每个通道独立进行深度卷积运算,多尺度注意力模块层MPSA用于基于分组卷积后的特征图得到包含多尺度注意力的信息的特征图,特征提取层用于用于将特征矩阵的尺寸进行调整,与输入特征图尺寸一致,以便与恒等路径上的分支进行矩阵相加,进行特征的提取;
设置训练超参数,将训练集图像输入到改进后的MoblieNetV2特征网络模型,训练模型至收敛,得到训练完备的分心驾驶行为检测模型;
将待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型。
进一步地,在进行训练前,还包括步骤:对图像进行预处理,得到预处理后的图像数据集。
进一步地,所述预处理包括数据清洗和数据增强。
进一步地,所述多尺度注意力模块层MPSA包括通道混洗模块、金字塔通道切分SPC模块、SE通道注意力模块、Softmax权值校准模块和特征图权值更新模块,通道混洗模块用于特征的各个通道进行随机打乱,加强不同通道之间的信息联系,金字塔通道切分SPC模块用于将输入的特征矩阵的通道数目划分为S组,并通过不同大小卷积核的卷积构建特征金字塔,获取不同尺度信息的感受野,提取不同尺度的特征信息,SE通道注意力模块用于加权每个通道的权值,从而产生更有区分度的信息输出,Softmax权值校准模块和特征图权值更新模块用于完成通道注意力权值比例分配和更新。
进一步地,金字塔通道切分SPC模块中,每组的卷积核大小与分组卷积的分组数量关系能写为:
式中,Gi为对应的分组卷积的组数,i表示分组数量,i=1,2,…,S-1,变量Ki表示第i组的卷积核尺寸,S表示将输入特征图I划分为S组,I=[I0,I1,…,IS-1];
每个通道的多尺度特征图的生成关系表达式为:
Fi=Conv(Ki×Ki,Gi)(Ii)i=0,1,2,…,S-1
式中,Fi为第i组的输出特征图矩阵,即每组的多尺度特征图;
每组的多尺度特征图为Fi,进行矩阵拼接操作后,输出整体的多尺度特征图为F∈RC'×H×W:
F=Concat([F0,F1,…,FS-1])
式中,FS-1是第S组的输出特征图矩阵,下标编号从0开始,从0到S-1共划分为S组。
进一步地,SE通道注意力模块中,将通道分割后的多尺度特征图输入到SE通道注意力模块中,表示为:
Zi=SEModule(Fi)
式中,Zi∈RC'×1×1为每个通道的注意力权重,Fi∈RC'×H×W,是金字塔切分SPC模块切分后的每组输出的特征图。
进一步地,Softmax权值校准模块和特征图权值更新模块中,有
式中,Pi为通道注意力加权后的特征图,⊙表示通道内部之间的点乘操作,将输入多尺度特征图Fi∈RC'×H×W与对应的权值比重相乘,进行权值更新。
本发明还提供一种基于多尺度注意力模块的分心驾驶行为检测系统,用于前述方法,所述系统包括:
标注模块,用于获取分心驾驶行为数据集,设置分心驾驶行为标签信息,得到标注对应的分心驾驶行为信息的图像数据集;
模型模块,用于结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,用于提取分心驾驶行为特征并输出预测驾驶行为概率,其中,改进的MoblieNetV2特征网络模型包括多个串联的倒瓶颈残差模块,且在每个倒瓶颈残差模块中加入多尺度注意力模块,定义加入多尺度注意力模块后的倒瓶颈残差模块为多尺度倒瓶颈残差模块,多尺度倒瓶颈残差模块包括分组卷积层、多尺度注意力模块层MPSA以及特征提取层,分组卷积层用于切分网络,对每个通道独立进行深度卷积运算,多尺度注意力模块层MPSA用于基于分组卷积后的特征图得到包含多尺度注意力的信息的特征图,特征提取层用于用于将特征矩阵的尺寸进行调整,与输入特征图尺寸一致,以便与恒等路径上的分支进行矩阵相加,进行特征的提取;
训练模块,用于将训练集图像输入到改进后的MoblieNetV2特征网络模型,训练模型至收敛,得到训练完备的分心驾驶行为检测模型;
预测模块,用于将待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型。
本发明还提供一种设备,所述设备包括处理器和存储器,存储器存储有一个或多个程序,其特征在于,处理器执行存储器存储的程序时,实现前述方法。
本发明还提供一种存储介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现前述方法。
与现有的技术相比,本发明具有的有益效果至少如下:
(1)本发明能根据测试场景的需要进行数据集内容补充,通过数据清洗操作和数据增强操作,增加训练样本的多样性和可靠性,提升模型的鲁棒性和泛化能力。
(2)在特征提取网络的倒瓶颈残差模块中,设置多尺度注意力模块层,利用金字塔切分通道,以较低模型复杂度学习注意力权重,该模块能够处理多尺度的输入特征图的空间信息,并且有效地建立多尺度通道注意力间的长期依赖关系,在细粒度水平上提取出多尺度的特征信息,有效提高分心驾驶行为检测的准确度。
(3)根据分心驾驶检测种类较多,实时性要求较高的特点,利用改进的轻量化神经网络MoblieNetV2作为网络模型,该网络利用深度卷积大大降低模型参数量,实时性好,准确度高,特征提取和模型泛化能力较强,能够有效降低硬件设备成本,便于车载嵌入式安装使用。
(4)本发明技术方案,结合多尺度注意力模块MPSA,对特征提取网络进行改进,提取出特征图中的多尺度空间信息与通道信息,金字塔切分SPC模块采用不同卷积核大小进行分组卷积,提取出不同分辨率和维度的注意力特征,有效关注图像内局部的特征提取,在降低网络模型参数的基础上获得更高的准确率,实时性更好,可部署在实际车载硬件平台上。多尺度注意力模块的应用,让模型能够准确识别出分心驾驶行为特征,具有准确性高、误判率低、鲁棒性好、模型泛化能力强等优点,可以应用在自动驾驶辅助ADAS系统中。
附图说明
图1:基于多尺度注意力模块的分心驾驶行为检测方法的流程示意图。
图2:特征提取网络的多尺度倒瓶颈残差模块的结构示意图。
图3:多尺度注意力模块的结构示意图。
图4:金字塔切分SPC模块的结构示意图。
图5:不同分心驾驶行为标签的样例图像示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都是本发明保护的范围。
请参阅图1,本发明提供的一种基于多尺度注意力模块的分心驾驶行为检测方法,包括以下步骤:
步骤1:获取分心驾驶行为数据集,设置分心驾驶行为标签信息,得到标注对应的分心驾驶行为信息的图像数据集。
在本发明的其中一些实施例中,采用AUC分心驾驶行为数据集,AUC分心驾驶行为数据集指的是American University in Cairo(AUC)Distracted Driver’s Dataset,美国开罗大学分心驾驶行为数据集,该数据标注了需要检测的十种驾驶员行为姿势,包括安全驾驶行为与九种分心驾驶行为,该数据集已于2017年开源,可以免费获取授权应用于非商业研究。
在本发明的其中一些实施例中,获取AUC分心驾驶行为数据集,得到标注对应的分心驾驶行为信息的图像。数据集将驾驶行为划分为10类,标签编号c0~c9,每个标签编号代表的驾驶行为类型为:
标签c0:正常驾驶
标签c1:发短信(右手)
标签c2:打电话(右手)
标签c3:发短信(左手)
标签c4:打电话(左手)
标签c5:操作车载中控台
标签c6:喝饮料
标签c7:侧身向后取物品
标签c8:整理妆容或打理头发
标签c9:侧身与乘客谈话
步骤2:对图像进行预处理,得到预处理后的图像数据集。
本发明中,所述预处理包括数据清洗和数据增强。
在本发明的其中一些实施例中,获取图像数据集后,进行数据清洗,对图像数据集中分类错误的图片予以剔除,能够有效提高图像数据集的准确性和可靠性。为了避免每个类别的图片数量较少,对图像数据集进行扩展,随机打乱图像数据集中的图像,对原始图像进行随机旋转、缩放、变换操作,完成图像数据集增强,扩展后的图像数据集中每个类别均匀分布,图像共有46096张,图像大小为1920×1080。
本发明实施例使用AUC分心驾驶行为数据集,根据测试场景的需要进行数据集内容补充,通过数据清洗操作和数据增强操作,增加训练样本的多样性和可靠性,提升模型的鲁棒性和泛化能力
步骤3:结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,改进后的MoblieNetV2特征网络模型用于提取分心驾驶行为特征并输出预测驾驶行为概率。
特征提取的主干网络采用MoblieNetV2网络模型,MoblieNetV2网络模型中包括多个串联的倒瓶颈残差模块,通过重复多次的特征提取完成对图像更高维度的特征提取,提升分心驾驶行为的识别效果,在每个倒瓶颈残差模块中加入多尺度注意力模块,定义加入多尺度注意力模块后的倒瓶颈残差模块为多尺度倒瓶颈残差模块。
如图2所示,每个多尺度倒瓶颈残差模块结构包括:分组卷积层,多尺度注意力模块层MPSA以及卷积核大小1×1的特征提取层,特征提取层用于将特征矩阵的尺寸进行调整,与输入特征图尺寸一致,以便与恒等路径上的分支进行矩阵相加,进行特征的提取。将输入特征矩阵先经过一个卷积核1×1的普通卷积进行通道维度扩展,再输入分组卷积层中,即经过一个卷积核为3×3的深度卷积(DWConv)操作。倒残差结构中反复进行的升维和降维操作会带来巨大的计算量,为了减少该步骤的参数量和运算量,本发明实施例引入深度卷积(DWConv,Depth-Wise Convolution)用于切分网络,对输入层的每个通道独立进行卷积运算,一个通道只被一个卷积核卷积,如果输入通道的数量为n,则深度卷积的运算量可缩减为原有的1/n,可以大大减少训练模型收敛的时间。将3×3深度卷积后的特征图输入到多尺度注意力模块层MPSA(Multi-Pyramid Split Attention)中,得到包含多尺度注意力的信息的特征图,然后经过一个卷积核为1×1的特征提取层的普通卷积,将输出通道数与多尺度倒瓶颈残差模块输入层通道数保持一致,当步长设置为1时,建立恒等连接与输出的特征图相加。
如图3所示,所述的多尺度注意力模块层MPSA结构包括:一个通道混洗模块,一个金字塔通道切分SPC模块,一个SE通道注意力模块,一个Softmax权值校准模块和一个特征图权值更新模块。
深度卷积过程虽然降低了参数量,但是存在不同通道组之间信息割裂的问题。因此加入通道混洗模块,通道混洗操作用于把特征的各个通道进行随机打乱,加强不同通道之间的信息联系,这样可以保证下一次卷积操作能接收到不同组的输入特征,从而避免了特征信息在通道方向上的割裂。
如图4所示,金字塔通道切分SPC模块将输入的特征矩阵的通道数目划分为S组,每组进行不同卷积核大小的分组卷积,通过不同大小卷积核的卷积构建特征金字塔,获取不同尺度信息的感受野,提取不同尺度的特征信息。输入特征图I划分为S组后,在通道维度上表示为[I0,I1,…,IS-1],IS-1为划分后的第S组的输入特征图矩阵,下标编号从0开始,从0到S-1共划分为S组。每个分组部分的通道数为C'=C/S,C为输入特征图I的通道数,第i组的输入特征图为Ii∈RC'×H×W,其中i=0,1,…,S-1,通道进行等比例分割后可以在多个尺度上并行处理特征矩阵,每组包含不同维度的通道特征信息,在每个通道中使用不同的卷积核大小的分组卷积网络进行特征提取,可以产生不同的分辨率和特征深度信息。每组的卷积核大小与分组卷积的分组数量关系可以写为:
式中,i表示分组数量,i=1,2,…,S-1,变量Ki表示第i组的卷积核尺寸,Gi为对应的分组卷积的组数,在本发明的其中一些实施例中,当i=0且卷积核大小为3×3时,分组卷积的组数G设为1。特征通道划分为S组后,每组的卷积核依次增大,如K=[1,3,5,7]。每个通道的多尺度特征图的生成关系表达式为:
Fi=Conv(Ki×Ki,Gi)(Ii)i=0,1,2,…,S-1
式中,Fi为第i组的输出特征图矩阵,即每组的多尺度特征图,第i组的卷积核大小满足Ki=2×(i+1)+1,分组卷积组数满足每组的多尺度特征图为Fi,进行矩阵拼接操作后,得到整体的多尺度特征图为F∈RC'×H×W:
F=Concat([F0,F1,…,FS-1])
式中,FS-1是第S组的输出特征图矩阵,下标编号从0开始,从0到S-1共划分为S组。
为了得到不同尺度的注意力权值向量,将多尺度特征图F输入到SE通道注意力模块中,通道注意机制使得网络有选择性地加权每个通道的权值,从而产生更有区分度的信息输出,加强特征相关性较强的表达,抑制非重要特征的输出。对于长宽大小为H、W,通道数量为C的输入特征矩阵,通过GAP全局平均池化进行通道压缩,全局平均池化可以表示为:
然后输入到全连接层和进行激活函数处理,表示为:
ωc=σ(W1δ(W0(gc)))
式中,gc是通道数为C的输入特征图全局平均池化后的特征图,即对于每一个通道的特征图的所有像素计算一个平均值,为从高度H与宽度W的方向对输入特征图求和,δ表示使用ReLU激活函数,W0和W1表示两个全连接层,W0全连接层进行通道降维,W1全连接层将通道升维与原始通道数相同,通过两个全连接层,能够更有效地组合不同通道之间的信息。σ表示最后的Sigmid激活函数,Sigmid激活函数可以在通道交互后分配不同的注意力权值,更有效地整合通道权值特征信息,W0(gc)是将全局平均池化后的特征图送入到全连接层W0中进行卷积操作。
将通道分割后的多尺度特征图Fi∈RC'×H×W,输入到SE通道注意力模块中,可以表示为:
Zi=SEModule(Fi)
式中,Zi∈RC'×1×1为每个通道的注意力权重,通过SE通道注意力模块从不同输入特征图中获得注意力权重,这使得多尺度注意力模块层MPSA可以更好地融合不同维度的通道注意力信息,通过Softmax权值校准模块和特征图权值更新模块完成通道注意力权值比例分配:
式中,Pi为通道注意力加权后的特征图,⊙表示通道内部之间的点乘操作,将输入多尺度特征图Fi∈RC'×H×W与对应的权值比重相乘,进行权值更新。最后通过Concat矩阵拼接得到整体的多尺度通道注意力特征图:
POut=Concat([P0,P1,…,PS-1])
步骤4:设置训练超参数,将训练集图像输入到改进后的特征提取网络,训练模型至收敛,得到训练完备的分心驾驶行为检测模型。
训练的主干网络模型选用MoblieNetV2。将训练集中的图像输入到改进后的MoblieNetV2特征网络模型中进行训练,在本发明的其中一些实施例中,具体包括:采用随机梯度下降法SGDM进行训练,初始学习率设置为0.001,在网络模型训练过程中,学习率需乘以power为超参数控制曲线的形状,当power=1的时候,学习率曲线为一条直线,iter为迭代次数,max_iter为最大迭代次数,网络模型训练过程使用Softmax函数作为分心驾驶损失函数计算损失Loss,Softmax函数为每个类别的分类结果都输出一个概率值,表示当前图像属于各个类别的可能性,且所有输出节点概率之和为1的概率分布,Loss损失函数定义如下:
其中,i表示输出的节点编号,Zi表示第i个节点的输出值,Zj表示第j个节点的输出值,L为输出分心驾驶行为类别数量。Softmax损失函数将多分类的输出值限制在[0,1]范围内,而且满足各个类别的输出概率之和为1的概率分布。
在本发明的其中一些实施例中,AUC分心驾驶行为数据集经过数据清洗和数据集增强操作后,实验图片一共有46096张,按照训练集与验证集8:2的比例进行划分,用于训练的图像有36877张,各种分心驾驶行为类型均匀分布在数据集中,其余的9219张图像作为验证集,图像大小为1920×1080。在训练时,将图像输入尺寸设置为224×224,采用随机梯度下降法SGDM训练,batch大小设置为64,训练37个epochs后,得到最终的分心驾驶行为网络模型参数。
步骤5:将采集的待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型,即得到预测结果。
本实施例提供的方法,先对原始数据集进行数据清洗,保证了原始数据集的准确性与可靠性,对原始数据集进行数据增强,进行随机旋转、裁剪、对比度变化,提升了训练模型的泛化能力。避免因为原始数据集内容较少,导致训练得到的模型存在过拟合的现象。所提供的多尺度注意力模块层MPSA,经过通道混洗操作与金字塔切分操作将输入特征图划分为S组,每组利用不同大小的卷积核进行特征提取,在每个通道上整合不同尺度的信息,因此可以提取出更为丰富的多尺度的空间信息,考虑到全局区域的信息,建立远距离的依赖。模型参数量较现有模型的要低,模型更加轻量化,识别精度更高。
本发明实施例还提供一种基于多尺度注意力模块的分心驾驶行为检测系统,用于前述实施例提供的方法,所述系统包括:
标注模块,用于获取分心驾驶行为数据集,设置分心驾驶行为标签信息,得到标注对应的分心驾驶行为信息的图像数据集;
模型模块,用于结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,用于提取分心驾驶行为特征并输出预测驾驶行为概率,其中,改进的MoblieNetV2特征网络模型包括多个串联的倒瓶颈残差模块,且在每个倒瓶颈残差模块中加入多尺度注意力模块,定义加入多尺度注意力模块后的倒瓶颈残差模块为多尺度倒瓶颈残差模块,多尺度倒瓶颈残差模块包括分组卷积层、多尺度注意力模块层MPSA以及特征提取层,分组卷积层用于切分网络,对每个通道独立进行深度卷积运算,多尺度注意力模块层MPSA用于基于分组卷积后的特征图得到包含多尺度注意力的信息的特征图,特征提取层用于用于将特征矩阵的尺寸进行调整,与输入特征图尺寸一致,以便与恒等路径上的分支进行矩阵相加,进行特征的提取;
训练模块,用于将训练集图像输入到改进后的MoblieNetV2特征网络模型,训练模型至收敛,得到训练完备的分心驾驶行为检测模型;
预测模块,用于将待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型。
本发明实施例还提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现上述实施例提供的一种基于多尺度注意力模块的分心驾驶行为检测方法。
本发明实施例还提供一种计算设备,所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现上述实施例提供的一种基于多尺度注意力模块的分心驾驶行为检测方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的一种基于多尺度注意力模块的分心驾驶行为检测系统和、介质、设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于多尺度注意力模块的分心驾驶行为检测方法,其特征在于,包括以下步骤:
获取分心驾驶行为数据集,设置分心驾驶行为标签信息,得到标注对应的分心驾驶行为信息的图像数据集;
结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,用于提取分心驾驶行为特征并输出预测驾驶行为概率,其中,改进的MoblieNetV2特征网络模型包括多个串联的倒瓶颈残差模块,且在每个倒瓶颈残差模块中加入多尺度注意力模块,定义加入多尺度注意力模块后的倒瓶颈残差模块为多尺度倒瓶颈残差模块,多尺度倒瓶颈残差模块包括分组卷积层、多尺度注意力模块层MPSA以及特征提取层,分组卷积层用于切分网络,对每个通道独立进行深度卷积运算,多尺度注意力模块层MPSA用于基于分组卷积后的特征图得到包含多尺度注意力的信息的特征图,特征提取层用于用于将特征矩阵的尺寸进行调整,与输入特征图尺寸一致,以便与恒等路径上的分支进行矩阵相加,进行特征的提取;
设置训练超参数,将训练集图像输入到改进后的MoblieNetV2特征网络模型,训练模型至收敛,得到训练完备的分心驾驶行为检测模型;
将待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型。
2.根据权利要求1所述的一种基于多尺度注意力模块的分心驾驶行为检测方法,其特征在于,在进行训练前,还包括步骤:对图像进行预处理,得到预处理后的图像数据集。
3.根据权利要求2所述的一种基于多尺度注意力模块的分心驾驶行为检测方法,其特征在于,所述预处理包括数据清洗和数据增强。
4.根据权利要求1-3任一所述的一种基于多尺度注意力模块的分心驾驶行为检测方法,其特征在于,所述多尺度注意力模块层MPSA包括通道混洗模块、金字塔通道切分SPC模块、SE通道注意力模块、Softmax权值校准模块和特征图权值更新模块,通道混洗模块用于特征的各个通道进行随机打乱,加强不同通道之间的信息联系,金字塔通道切分SPC模块用于将输入的特征矩阵的通道数目划分为S组,并通过不同大小卷积核的卷积构建特征金字塔,获取不同尺度信息的感受野,提取不同尺度的特征信息,SE通道注意力模块用于加权每个通道的权值,从而产生更有区分度的信息输出,Softmax权值校准模块和特征图权值更新模块用于完成通道注意力权值比例分配和更新。
5.根据权利要求4所述的一种基于多尺度注意力模块的分心驾驶行为检测方法,其特征在于,金字塔通道切分SPC模块中,每组的卷积核大小与分组卷积的分组数量关系能写为:
式中,Gi为对应的分组卷积的组数,i表示分组数量,i=1,2,…,S-1,变量Ki表示第i组的卷积核尺寸,S表示将输入特征图I划分为S组,I=[I0,I1,…,IS-1];
每个通道的多尺度特征图的生成关系表达式为:
Fi=Conv(Ki×Ki,Gi)(Ii)i=0,1,2,…,S-1
式中,Fi为第i组的输出特征图矩阵,即每组的多尺度特征图;
每组的多尺度特征图为Fi,进行矩阵拼接操作后,输出整体的多尺度特征图为F∈RC '×H×W:
F=Concat([F0,F1,…,FS-1])
式中,FS-1是第S组的输出特征图矩阵,下标编号从0开始,从0到S-1共划分为S组。
6.根据权利要求4所述的一种基于多尺度注意力模块的分心驾驶行为检测方法,其特征在于,SE通道注意力模块中,将通道分割后的多尺度特征图输入到SE通道注意力模块中,表示为:
Zi=SEModule(Fi)
式中,Zi∈RC'×1×1为每个通道的注意力权重,Fi∈RC'×H×W,是金字塔切分SPC模块切分后的每组输出的特征图。
8.一种基于多尺度注意力模块的分心驾驶行为检测系统,其特征在于,用于实现权利要求1-7任一所述方法,所述系统包括:
标注模块,用于获取分心驾驶行为数据集,设置分心驾驶行为标签信息,得到标注对应的分心驾驶行为信息的图像数据集;
模型模块,用于结合多尺度注意力模块MPSA,改进MoblieNetV2特征网络模型,用于提取分心驾驶行为特征并输出预测驾驶行为概率,其中,改进的MoblieNetV2特征网络模型包括多个串联的倒瓶颈残差模块,且在每个倒瓶颈残差模块中加入多尺度注意力模块,定义加入多尺度注意力模块后的倒瓶颈残差模块为多尺度倒瓶颈残差模块,多尺度倒瓶颈残差模块包括分组卷积层、多尺度注意力模块层MPSA以及特征提取层,分组卷积层用于切分网络,对每个通道独立进行深度卷积运算,多尺度注意力模块层MPSA用于基于分组卷积后的特征图得到包含多尺度注意力的信息的特征图,特征提取层用于用于将特征矩阵的尺寸进行调整,与输入特征图尺寸一致,以便与恒等路径上的分支进行矩阵相加,进行特征的提取;
训练模块,用于将训练集图像输入到改进后的MoblieNetV2特征网络模型,训练模型至收敛,得到训练完备的分心驾驶行为检测模型;
预测模块,用于将待测图像输入训练得到的分心驾驶行为检测模型中,输出驾驶行为类型。
9.一种设备,所述设备包括处理器和存储器,存储器存储有一个或多个程序,其特征在于,处理器执行存储器存储的程序时,实现权利要求1-7任一所述的方法。
10.一种存储介质,该存储介质存储有一个或多个程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210744125.XA CN115082698B (zh) | 2022-06-28 | 2022-06-28 | 一种基于多尺度注意力模块的分心驾驶行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210744125.XA CN115082698B (zh) | 2022-06-28 | 2022-06-28 | 一种基于多尺度注意力模块的分心驾驶行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115082698A true CN115082698A (zh) | 2022-09-20 |
CN115082698B CN115082698B (zh) | 2024-04-16 |
Family
ID=83254954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210744125.XA Active CN115082698B (zh) | 2022-06-28 | 2022-06-28 | 一种基于多尺度注意力模块的分心驾驶行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115082698B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240123A (zh) * | 2022-09-23 | 2022-10-25 | 南京邮电大学 | 一种面向智能监控系统的暗处暴力行为检测方法 |
CN115530847A (zh) * | 2022-09-30 | 2022-12-30 | 哈尔滨理工大学 | 一种基于多尺度注意力的脑电信号自动睡眠分期方法 |
CN116051913A (zh) * | 2023-04-03 | 2023-05-02 | 吉林农业大学 | 一种鹿茸饮片分类识别模型、方法及系统 |
CN117113066A (zh) * | 2023-10-25 | 2023-11-24 | 南昌大学 | 一种基于计算机视觉的输电线路绝缘子缺陷检测方法 |
CN117831005A (zh) * | 2023-10-30 | 2024-04-05 | 南通大学 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
CN118015388A (zh) * | 2024-04-10 | 2024-05-10 | 西南科技大学 | 小目标检测方法、装置及存储介质 |
CN118228081A (zh) * | 2024-03-15 | 2024-06-21 | 宁波大学 | 一种工业设备故障诊断方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
CN110532878A (zh) * | 2019-07-26 | 2019-12-03 | 中山大学 | 一种基于轻量化卷积神经网络的驾驶员行为识别方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN113780385A (zh) * | 2021-08-30 | 2021-12-10 | 武汉理工大学 | 一种基于注意力机制的驾驶风险监测方法 |
-
2022
- 2022-06-28 CN CN202210744125.XA patent/CN115082698B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
CN110532878A (zh) * | 2019-07-26 | 2019-12-03 | 中山大学 | 一种基于轻量化卷积神经网络的驾驶员行为识别方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN113780385A (zh) * | 2021-08-30 | 2021-12-10 | 武汉理工大学 | 一种基于注意力机制的驾驶风险监测方法 |
Non-Patent Citations (1)
Title |
---|
周幸;陈立福;: "基于双注意力机制的遥感图像目标检测", 计算机与现代化, no. 08, 15 August 2020 (2020-08-15), pages 5 - 11 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240123A (zh) * | 2022-09-23 | 2022-10-25 | 南京邮电大学 | 一种面向智能监控系统的暗处暴力行为检测方法 |
CN115530847A (zh) * | 2022-09-30 | 2022-12-30 | 哈尔滨理工大学 | 一种基于多尺度注意力的脑电信号自动睡眠分期方法 |
CN116051913A (zh) * | 2023-04-03 | 2023-05-02 | 吉林农业大学 | 一种鹿茸饮片分类识别模型、方法及系统 |
CN116051913B (zh) * | 2023-04-03 | 2023-05-30 | 吉林农业大学 | 一种鹿茸饮片分类识别模型、方法及系统 |
CN117113066A (zh) * | 2023-10-25 | 2023-11-24 | 南昌大学 | 一种基于计算机视觉的输电线路绝缘子缺陷检测方法 |
CN117113066B (zh) * | 2023-10-25 | 2024-03-29 | 南昌大学 | 一种基于计算机视觉的输电线路绝缘子缺陷检测方法 |
CN117831005A (zh) * | 2023-10-30 | 2024-04-05 | 南通大学 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
CN118228081A (zh) * | 2024-03-15 | 2024-06-21 | 宁波大学 | 一种工业设备故障诊断方法 |
CN118015388A (zh) * | 2024-04-10 | 2024-05-10 | 西南科技大学 | 小目标检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115082698B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115082698A (zh) | 一种基于多尺度注意力模块的分心驾驶行为检测方法 | |
CN108875674B (zh) | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 | |
Lu et al. | Driver action recognition using deformable and dilated faster R-CNN with optimized region proposals | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
Hssayeni et al. | Distracted driver detection: Deep learning vs handcrafted features | |
CN107273845B (zh) | 一种基于置信区域和多特征加权融合的人脸表情识别方法 | |
Moslemi et al. | Driver distraction recognition using 3d convolutional neural networks | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN101944174B (zh) | 车牌字符的识别方法 | |
KR20200121206A (ko) | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 | |
CN102156871B (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN115661943B (zh) | 一种基于轻量级姿态评估网络的跌倒检测方法 | |
EP3786846B1 (en) | Method used for identifying object, device and computer readable storage medium | |
CN110348350B (zh) | 一种基于面部表情的驾驶员状态检测方法 | |
CN111814863A (zh) | 一种轻量级车辆与行人的检测方法 | |
CN111860427B (zh) | 基于轻量级类八维卷积神经网络的驾驶分心识别方法 | |
Valeriano et al. | Recognition of driver distractions using deep learning | |
CN114078243A (zh) | 基于循环图卷积网络的驾驶员驾驶行为识别方法及系统 | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
Huang et al. | Deep driver behavior detection model based on human brain consolidated learning for shared autonomy systems | |
Varaich et al. | Recognizing actions of distracted drivers using inception v3 and xception convolutional neural networks | |
Ou et al. | Transfer learning based strategy for improving driver distraction recognition | |
Lu et al. | Dilated Light-Head R-CNN using tri-center loss for driving behavior recognition | |
CN114386691A (zh) | 基于应激姿态预测的乘员损伤预测方法和装置 | |
CN116311472B (zh) | 基于多层次图卷积网络的微表情识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |