CN111860427B - 基于轻量级类八维卷积神经网络的驾驶分心识别方法 - Google Patents

基于轻量级类八维卷积神经网络的驾驶分心识别方法 Download PDF

Info

Publication number
CN111860427B
CN111860427B CN202010752388.6A CN202010752388A CN111860427B CN 111860427 B CN111860427 B CN 111860427B CN 202010752388 A CN202010752388 A CN 202010752388A CN 111860427 B CN111860427 B CN 111860427B
Authority
CN
China
Prior art keywords
convolution
feature map
olcm
block
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010752388.6A
Other languages
English (en)
Other versions
CN111860427A (zh
Inventor
杨奕枫
李鹏华
李嫄源
胡向东
李锐
朱智勤
侯杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010752388.6A priority Critical patent/CN111860427B/zh
Publication of CN111860427A publication Critical patent/CN111860427A/zh
Application granted granted Critical
Publication of CN111860427B publication Critical patent/CN111860427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种基于轻量级类八维卷积神经网络的驾驶分心识别方法,属于驾驶智能化技术领域。首先,为了保证样本的多样性,建立了一个由2468个视频组成的集中于6种驾驶行为的1234个参与者的分散注意力数据集。其次,设计了一个具有八维卷积混合(OLCM)块的轻量级CNN。第三,针对之前的轻量级努力提出了三个新颖点来保证OLCMNet的有效性。通过使用点态卷积(PC)将特征映射分割成多个分支,用深度卷积(DC)替代每个分支的普通卷积,OLCM块被设计用来减少空间冗余和连接密度。在OLCMNet的最后阶段增加了一个挤压激发(SE)模块。本方法应用在ADAS就可以实时提供最优的控制策略。

Description

基于轻量级类八维卷积神经网络的驾驶分心识别方法
技术领域
本发明属于驾驶智能化技术领域,涉及基于轻量级类八维卷积神经网络的驾驶分心识别方法。
背景技术
驾驶分心是影响驾驶安全的一个重要问题。80%的撞车事故都是由于驾驶分心造成的。根据美国国家公路交通安全管理局(NHTSA)的研究,驾驶分心干扰可分为四类:视觉、听觉、生物力学和认知干扰。
近二十年来,大量的自然驾驶研究(NDSs)和模拟驾驶研究(SDSs)进一步建立了驾驶分心与驾驶性能下降之间的相关性。SDSs利用模拟车辆数据建立仿真的驾驶模型,或利用心电图、脑电图了解驾驶员行为。虽然模拟驾驶行为和自然驾驶行为之间的相关性已经得到了广泛的研究,但这两种驾驶行为之间的差异是不容忽视的。此外,间接生理测量不可避免地引入检测误差。相比之下,NDSs利用真实驾驶条件下驾驶信息的连续记录,提供了评估驾驶风险的机会。
传统NDSs采用车载运动学测量来推断实际驾驶活动,如方向盘、刹车、油门踏板和仪表盘的操作。近年来,受卷积神经网络(CNN)的启发,大多数NDSs尝试利用视频数据来捕捉分心的驾驶员信息,如眼睛注视,头部姿态,手部动作。的工作创建了一个包含高速公路战略研究计划(SHRP2)中的faceview视频数据集并且利用基于监督下降的人脸检测跟踪算法检测司机使用手机的准确率为93.9%。在之后的工作中,将多尺度的快速RCNN应用于SHRP2视频以进行手机使用检测,以及智能车辆和应用程序(VIVA)挑战数据库以用于方向盘检测。实验分别显示该方法在VIVA和SHRP2数据集的准确度分别为94.6%和93%。
最近,一种改进的VGG-16用于对5种驾驶分心行为进行分类,例如电话交谈,喝水等,其准确度达到95.54%,其参数从原始VGG-16中的140M降低到仅15M。文献中报道了使用网络参数大于VGG-16的VGG-19进行的类似研究,显示检测任务的平均准确度为99%。Xing等利用深层前馈神经网络来检测7种驾驶行为,例如正常驾驶,手机应答等,平均准确率超过80%。然后他们使用CNN改进他们的工作。针对这7种驾驶行为对AlexNet,GoogLeNet和ResNet50进行了预训练,分别达到81.6%,78.6%和74.9%的准确性。使用这些预先训练的模型,二进制检测可达到91.4%的准确度。尽管对于上述方法已经报道了良好的结果,但是其在驾驶员注意力分散检测中的应用还需要进一步关注以下方面的验证。
首先,样本多样性对于神经网络的泛化至关重要。评估提议的方法的性能,大多数分心研究只使用样品,包括几个司机,如SHRP2数据库(41司机),潘多拉数据库(司机22日)],VIVA手数据库(50司机),Biwi Kinect头构成数据库(20司机),分心驾驶年代数据库(31司机),StateFarm年代数据集(81名司机)和镇定的数据集(5司机)。稀缺的样本多样性使得发布的结果在现实应用中不太实用。
其次,大部分分散检测方法都是基于规模大、功能强大的骨干网络,如原始VGG-16(140M)和改进的VGG-16(15M)、VGG-19(143.68M)、AlexNet(62.38M)和ResNet50(19.35M)。然而,这些网络需要将数据传回计算机,甚至服务器来评估驾驶分心,这使得这些方法的原始研究难以应用于计算能力有限的车辆设备上。
第三,最近的努力已经花费在改善骨干网CNNs的效率,如减少密集模型参数的固有冗余,或特征图的通道维数。然而,这些方法不是为检测驾驶员分心的应用而设计的。此外,所设计的轻型CNNs,如MobileNet和shuffleNet,都是每层使用单一尺寸的卷积核,这导致的特征表达出现瓶颈,无法在车载应用中实现更高的精度。
发明内容
有鉴于此,本发明的目的在于提供一种基于轻量级类八维卷积神经网络的驾驶分心识别方法。首先,为了保证样本的多样性,建立了一个由2468个视频组成的集中于6种驾驶行为的1234个参与者的分散注意力数据集。其次,设计了一个具有八维卷积混合(OLCM)块的轻量级CNN,称为OLCMNet,通过促进敏感信息交换,更灵活、更轻松地学习多尺度表示。第三,针对之前的轻量级努力提出了三个新颖点来保证OLCMNet的有效性。通过使用点态卷积(PC)将特征映射分割成多个分支,用深度卷积(DC)替代每个分支的普通卷积,OLCM块被设计用来减少空间冗余和连接密度。设计了两套PC机的瓶颈,以获取嵌入到每个分支的连接的信息,并强调有用的信息,以便随后由PC机操作压缩的信息融合。与MoblieNet-V3相反,在OLCMNet的最后阶段增加了一个挤压激发(SE)模块,以进一步促进层间敏感信息的交换。
为达到上述目的,本发明提供如下技术方案:
基于轻量级类八维卷积神经网络的驾驶分心识别方法,该方法头部阶段、特征提取阶段和最后阶段。
可选的,所述头部阶段为:
Figure BDA0002610438590000021
为具有高度HU、宽度WU和通道CU的输入图像;通过标准的跨步卷积降采样空间分辨率和通道扩展,可以得头部阶段的输出特征图
Figure BDA0002610438590000031
Figure BDA0002610438590000032
其中
Figure BDA00026104385900000310
σ,
Figure BDA00026104385900000311
Figure BDA00026104385900000313
Figure BDA00026104385900000312
分别表示位置坐标,h-swish激活函数,标准卷积核,局部邻域和跨步大小;
h-swish(x)=ReLU6(x+3)/6
Figure BDA00026104385900000314
可选的,所述特征提取阶段为:
Figure BDA00026104385900000315
分别作为第n个OCLM块在特征提取阶段的输入和输出特征图;
Figure BDA00026104385900000316
在一个特定的OCLM操作中,
Figure BDA00026104385900000317
被M个点卷积操作分割成M个分支,从而产生一个扩展的输入特征图
Figure BDA00026104385900000318
其中m=1,2,...,M;
Figure BDA00026104385900000319
的计算过程如下所示:
Figure BDA0002610438590000033
其中
Figure BDA0002610438590000034
Figure BDA0002610438590000035
分别表示点卷积的卷积核和局部邻域;
在随后的操作中以低频和高频方式学习
Figure BDA00026104385900000320
对于低频学习,使用平均池化操作对
Figure BDA00026104385900000321
下采样以获得低频输入特征图,即
Figure BDA0002610438590000036
Figure BDA0002610438590000037
其中p={1,2,...pmax},ZA和SA分别表示低频路径,卷积核大小和跨步;将pmax,ZA和SA都选择为2;然后,对
Figure BDA00026104385900000322
进行深度方向卷积运算,以获得低频输出特征图
Figure BDA0002610438590000038
Figure BDA0002610438590000039
其中
Figure BDA0002610438590000041
表示第p条低频路径上深度方向卷积的卷积核和局部邻域;为实现后续不同空间分辨率的特征图的信息融合,对
Figure BDA00026104385900000410
进行上采样,从而生成具有高分辨率的特征图
Figure BDA0002610438590000042
Figure BDA0002610438590000043
其中λ是最接近插值的上采样因子,取2;
对于高频学习,
Figure BDA00026104385900000411
被视为输入特征张量;保持该张量的空间分辨率不变,可以通过深度方向卷积操作获得第n个块
Figure BDA00026104385900000412
的第m个分支的高频输出特征图;
Figure BDA0002610438590000044
其中
Figure BDA00026104385900000413
和q={1,2,...,qmax}分别表示深度方向卷积的卷积核和局部邻域;qmax取1;
在学习不同的频率信息后,将所有M个分支级联起来以形成融合特征图
Figure BDA00026104385900000414
过程为:
Figure BDA0002610438590000045
其中
Figure BDA00026104385900000415
融合通道的大小计算公式为
Figure BDA00026104385900000416
然后采用SE模块来学习更重要的特征通道,以助于有选择地强调有用的特征并抑制无用的特征;SE模块中的操作顺序如下:
Figure BDA0002610438590000046
Figure BDA0002610438590000047
Figure BDA0002610438590000048
Figure BDA0002610438590000049
其中,
Figure BDA00026104385900000417
Figure BDA00026104385900000418
分别表示SE模块中全局平均池(GAP)激励层和缩放层的输出;激励层和缩放层的点卷积的卷积核分别由
Figure BDA0002610438590000055
Figure BDA0002610438590000056
表示;sigmoid激活函数为sigmoid(x)=1/(1+e-x);缩放操作
Figure BDA0002610438590000057
表示特征图F与向量f之间的按通道乘法;在OLCM块的末尾,采用具有线性激活函数的点卷积在通道之间融合多尺度信息并压缩通道数,通过以下方式获得第n个OLCM块的最终输出:
Figure BDA0002610438590000051
其中
Figure BDA0002610438590000058
Figure BDA0002610438590000059
分别是第n个OLCM块末尾点卷积的卷积核和局部邻域。
可选的,所述最后阶段为:
通过串联N个OLCM块来显着减少特征提取阶段的计算量,其中在每个块的末尾由点卷积操作压缩特征图的通道数;最后一个OLCM块中的特征图
Figure BDA00026104385900000510
在被作为最后阶段的输入特征图时会遇到通道瓶颈,在最后阶段的起始使用点卷积操作用于丰富
Figure BDA00026104385900000511
的通道语义信息,从而产生扩展的特征图
Figure BDA00026104385900000512
Figure BDA0002610438590000052
其中
Figure BDA00026104385900000513
Figure BDA00026104385900000514
分别是最后阶段开始时点卷积的卷积核和局部邻域;然后使用SE模块进一步促进对敏感信息的过滤,即
Figure BDA00026104385900000515
其中
Figure BDA00026104385900000516
表示过滤后的特征图;为产生全局信息描述符,对
Figure BDA00026104385900000517
进行全局平均池化,即,
Figure BDA00026104385900000518
不对
Figure BDA00026104385900000519
使用全连接结构得到分类结果,而是使用两组点卷积来获得预测矢量
Figure BDA00026104385900000520
作为最终softmax函数的输入,其中Nc是类别总数;
Figure BDA0002610438590000053
Figure BDA0002610438590000054
其中,
Figure BDA00026104385900000521
Figure BDA00026104385900000522
分别表示两个点卷积内核和第i类的预测分数。
本发明的有益效果在于:在驾驶分心识别领域,解决了深度神经网络在车载边缘计算设备上部署和实时运行问题。OLCMNet在保持网络对驾驶分心识别的高精度情况下,大大降低了对计算资源和存储资源的需求。在驾驶过程中,通过离线实时识别驾驶分心行为,可以有效的减少交通事故的发生。与此同时,有效的驾驶分心识别可以与先进的驾驶员辅助系统(ADAS)有机结合。通过对驾驶分心的细粒度识别,使得ADAS能够生成适用于当前驾驶行为的最优车辆控制策略,从而提高驾驶过程的安全性。因此,本方法应用在ADAS就可以实时提供最优的控制策略。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明技术原理图;(a)为OLCMNet原理图;(b)为OLCM模块构件图;(c)为SE模块构件图;(d)为深度方向卷积DC原理图;(e)为点卷积PC原理图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1,为本发明技术原理图;(a)为OLCMNet原理图;(b)为OLCM模块构件图;(c)为SE模块构件图;(d)为深度方向卷积DC原理图;(e)为点卷积PC原理图。
设计的OLCMNet如图1(a)所示,包括头部、特征提取和最后阶段。与之前的工作相比,例如八度卷积和MobileNetV3,提出的OLCMnet通过以下三个方面展示了它的新新性。
OLCM构建块(图1(b))以拓扑修改为重点,旨在减少空间冗余和连接密度,这与旨在推广普通卷积算子以减少空间冗余的八度卷积不同。OLCM块使用PC(图1(e))将特征图分割成多个分支。然后利用平均池化得到低频特征图,再进行DC(图1(d))运算和上采样,保持与高频特征图相同的分辨率。低频特征图的分辨率降低也有助于每一层获得更大的接受域,以捕获更多的上下文信息。
不同于八度卷积分解特征图分为高/低频率的组,在组之间或组内更新或交换信息,OLCM块采用全局平均池(GAP)从每个分支的获取全局嵌入信息,然后创建两个使用PC操作的瓶颈层,以选择性地强调有用的特征,并抑制无用的特征。
OLCMNet的最后阶段增加了一个SE模块(图1(c)),进一步促进了层间敏感信息的交换,相对于MoblieNetV3的最后阶段,提供了更高的分类精度。
1)头部阶段
Figure BDA0002610438590000072
为具有高度HU、宽度WU和通道CU的输入图像。通过标准的跨步卷积降采样空间分辨率和通道扩展,可以得头部阶段的输出特征图
Figure BDA0002610438590000073
Figure BDA0002610438590000071
其中
Figure BDA0002610438590000074
σ,
Figure BDA0002610438590000077
Figure BDA0002610438590000076
Figure BDA0002610438590000075
分别表示位置坐标,h-swish激活函数,标准卷积核,局部邻域和跨步大小。具体的,h-swish(x)=ReLU6(x+3)/6
Figure BDA0002610438590000078
2)特征提取阶段
Figure BDA0002610438590000079
分别作为第n个OCLM块在特征提取阶段的输入和输出特征图。显然,
Figure BDA00026104385900000710
在一个特定的OCLM操作中,
Figure BDA00026104385900000711
被M个点卷积操作分割成M个分支,从而产生一个扩展的输入特征图
Figure BDA00026104385900000712
其中m=1,2,...,M。
Figure BDA0002610438590000087
的计算过程如下所示:
Figure BDA0002610438590000081
其中
Figure BDA0002610438590000088
Figure BDA0002610438590000089
分别表示点卷积的卷积核和局部邻域。
可以在随后的操作中以低频和高频方式学习
Figure BDA00026104385900000810
对于低频学习,使用平均池化操作对
Figure BDA00026104385900000811
下采样以获得低频输入特征图,即
Figure BDA00026104385900000812
Figure BDA0002610438590000082
其中p={1,2,...pmax},ZA和SA分别表示低频路径,卷积核大小和跨步。在本发明中将pmax,ZA和SA都选择为2。然后,对
Figure BDA00026104385900000813
进行深度方向卷积运算,以获得低频输出特征图
Figure BDA0002610438590000083
Figure BDA0002610438590000084
其中
Figure BDA00026104385900000814
表示第p条低频路径上深度方向卷积的卷积核和局部邻域。为了实现后续不同空间分辨率的特征图的信息融合,对
Figure BDA00026104385900000815
进行上采样,从而生成具有高分辨率的特征图
Figure BDA00026104385900000816
Figure BDA0002610438590000085
其中λ是最接近插值的上采样因子,在本发明中选择为2。
对于高频学习,
Figure BDA00026104385900000817
被视为输入特征张量。保持该张量的空间分辨率不变,可以通过深度方向卷积操作获得第n个块
Figure BDA00026104385900000818
的第m个分支的高频输出特征图。
Figure BDA0002610438590000086
其中
Figure BDA0002610438590000097
和q={1,2,...,qmax}分别表示深度方向卷积的卷积核和局部邻域。注意,本发明中将qmax选择为1。
在学习了不同的频率信息后,将所有M个分支级联起来以形成融合特征图
Figure BDA0002610438590000098
其过程为:
Figure BDA0002610438590000091
其中
Figure BDA0002610438590000099
融合通道的大小计算公式为
Figure BDA00026104385900000910
然后采用SE模块来学习更重要的特征通道,这有助于有选择地强调有用的特征并抑制无用的特征。SE模块中的操作顺序如下:
Figure BDA0002610438590000092
Figure BDA0002610438590000093
Figure BDA0002610438590000094
Figure BDA0002610438590000095
其中,
Figure BDA00026104385900000911
Figure BDA00026104385900000912
分别表示SE模块中全局平均池(GAP)激励层和缩放层的输出。激励层和缩放层的点卷积的卷积核分别由
Figure BDA00026104385900000913
Figure BDA00026104385900000914
表示。sigmoid激活函数为sigmoid(x)=1/(1+e-x)。缩放操作
Figure BDA00026104385900000915
表示特征图F与向量f之间的按通道乘法。在OLCM块的末尾,采用具有线性激活函数的点卷积在通道之间融合多尺度信息并压缩通道数,从而可以通过以下方式获得第n个OLCM块的最终输出:
Figure BDA0002610438590000096
其中
Figure BDA00026104385900000916
Figure BDA00026104385900000917
分别是第n个OLCM块末尾点卷积的卷积核和局部邻域。
3)最后阶段
如上所述,通过串联N个OLCM块来显着减少特征提取阶段的计算量,其中在每个块的末尾由点卷积操作压缩特征图的通道数。但是,由于最后一个OLCM块中的特征图
Figure BDA0002610438590000104
在被作为最后阶段的输入特征图时会遇到通道瓶颈,因此这种架构给后续分类带来了困难。所以,在最后阶段的起始使用点卷积操作用于丰富
Figure BDA0002610438590000105
的通道语义信息,从而产生扩展的特征图
Figure BDA0002610438590000106
Figure BDA0002610438590000101
其中
Figure BDA0002610438590000107
Figure BDA0002610438590000108
分别是最后阶段开始时点卷积的卷积核和局部邻域。然后使用SE模块进一步促进对敏感信息的过滤,即
Figure BDA0002610438590000109
其中
Figure BDA00026104385900001010
表示过滤后的特征图。为了产生全局信息描述符,对
Figure BDA00026104385900001011
进行全局平均池化,即,
Figure BDA00026104385900001012
最后,不对
Figure BDA00026104385900001013
使用全连接结构得到分类结果,而是使用两组点卷积来获得预测矢量
Figure BDA00026104385900001014
该向量作为最终softmax函数的输入,其中Nc是类别总数。
Figure BDA0002610438590000102
Figure BDA0002610438590000103
其中,
Figure BDA00026104385900001015
Figure BDA00026104385900001016
分别表示两个点卷积内核和第i类的预测分数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.基于轻量级类八维卷积神经网络的驾驶分心识别方法,其特征在于:该方法包括头部阶段、特征提取阶段和最后阶段;
所述头部阶段为:
Figure FDA0003593393960000011
为具有高度HU、宽度WU和通道CU的输入图像;通过标准的跨步卷积降采样空间分辨率和通道扩展,可以得头部阶段的输出特征图
Figure FDA0003593393960000012
Figure FDA0003593393960000013
其中
Figure FDA0003593393960000014
Figure FDA0003593393960000015
Figure FDA0003593393960000016
分别表示位置坐标,h-swish激活函数,标准卷积核,局部邻域和跨步大小;
Figure FDA0003593393960000017
所述特征提取阶段为:
Figure FDA0003593393960000018
分别作为第n个OCLM块在特征提取阶段的输入和输出特征图;
Figure FDA0003593393960000019
在一个特定的OCLM操作中,
Figure FDA00035933939600000110
被M个点卷积操作分割成M个分支,从而产生一个扩展的输入特征图
Figure FDA00035933939600000111
其中m=1,2,…,M;
Figure FDA00035933939600000112
的计算过程如下所示:
Figure FDA00035933939600000113
其中
Figure FDA00035933939600000114
Figure FDA00035933939600000115
分别表示点卷积的卷积核和局部邻域;
在随后的操作中以低频和高频方式学习
Figure FDA00035933939600000116
对于低频学习,使用平均池化操作对
Figure FDA00035933939600000117
下采样以获得低频输入特征图,即
Figure FDA00035933939600000118
Figure FDA00035933939600000119
其中p={1,2,...pmax},ZA和SA分别表示低频路径,卷积核大小和跨步;将pmax,ZA和SA都选择为2;然后,对
Figure FDA00035933939600000120
进行深度方向卷积运算,以获得低频输出特征图
Figure FDA0003593393960000021
Figure FDA0003593393960000022
其中
Figure FDA0003593393960000023
表示第p条低频路径上深度方向卷积的卷积核和局部邻域;为实现后续不同空间分辨率的特征图的信息融合,对
Figure FDA0003593393960000024
进行上采样,从而生成具有高分辨率的特征图
Figure FDA0003593393960000025
Figure FDA0003593393960000026
其中λ是最接近插值的上采样因子,取2;
对于高频学习,
Figure FDA0003593393960000027
被视为输入特征张量;保持该张量的空间分辨率不变,可以通过深度方向卷积操作获得第n个块
Figure FDA0003593393960000028
的第m个分支的高频输出特征图;
Figure FDA0003593393960000029
其中
Figure FDA00035933939600000210
和q={1,2,...,qmax}分别表示深度方向卷积的卷积核和局部邻域;qmax取1;
在学习不同的频率信息后,将所有M个分支级联起来以形成融合特征图
Figure FDA00035933939600000211
过程为:
Figure FDA00035933939600000212
其中
Figure FDA00035933939600000213
融合通道的大小计算公式为
Figure FDA00035933939600000214
然后采用SE模块来学习更重要的特征通道,以助于有选择地强调有用的特征并抑制无用的特征;SE模块中的操作顺序如下:
Figure FDA00035933939600000215
Figure FDA00035933939600000216
Figure FDA0003593393960000031
Figure FDA0003593393960000032
其中,
Figure FDA0003593393960000033
Figure FDA0003593393960000034
分别表示SE模块中全局平均池(GAP)激励层和缩放层的输出;激励层和缩放层的点卷积的卷积核分别由
Figure FDA0003593393960000035
Figure FDA0003593393960000036
表示;sigmoid激活函数为sigmoid(x)=1/(1+e-x);缩放操作
Figure FDA0003593393960000037
表示特征图F与向量f之间的按通道乘法;在OLCM块的末尾,采用具有线性激活函数的点卷积在通道之间融合多尺度信息并压缩通道数,通过以下方式获得第n个OLCM块的最终输出:
Figure FDA0003593393960000038
其中
Figure FDA0003593393960000039
Figure FDA00035933939600000310
分别是第n个OLCM块末尾点卷积的卷积核和局部邻域;
所述最后阶段为:
通过串联N个OLCM块来显着减少特征提取阶段的计算量,其中在每个块的末尾由点卷积操作压缩特征图的通道数;最后一个OLCM块中的特征图
Figure FDA00035933939600000311
在被作为最后阶段的输入特征图时会遇到通道瓶颈,在最后阶段的起始使用点卷积操作用于丰富
Figure FDA00035933939600000312
的通道语义信息,从而产生扩展的特征图
Figure FDA00035933939600000313
Figure FDA00035933939600000314
其中
Figure FDA00035933939600000315
Figure FDA00035933939600000316
分别是最后阶段开始时点卷积的卷积核和局部邻域;然后使用SE模块进一步促进对敏感信息的过滤,即
Figure FDA00035933939600000317
其中
Figure FDA00035933939600000318
表示过滤后的特征图;为产生全局信息描述符,对
Figure FDA00035933939600000319
进行全局平均池化,即,
Figure FDA00035933939600000320
不对
Figure FDA00035933939600000321
使用全连接结构得到分类结果,而是使用两组点卷积来获得预测矢量
Figure FDA00035933939600000322
作为最终softmax函数的输入,其中Nc是类别总数;
Figure FDA00035933939600000323
Figure FDA0003593393960000041
其中,
Figure FDA0003593393960000042
Figure FDA0003593393960000043
分别表示两个点卷积内核和第i类的预测分数。
CN202010752388.6A 2020-07-30 2020-07-30 基于轻量级类八维卷积神经网络的驾驶分心识别方法 Active CN111860427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010752388.6A CN111860427B (zh) 2020-07-30 2020-07-30 基于轻量级类八维卷积神经网络的驾驶分心识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010752388.6A CN111860427B (zh) 2020-07-30 2020-07-30 基于轻量级类八维卷积神经网络的驾驶分心识别方法

Publications (2)

Publication Number Publication Date
CN111860427A CN111860427A (zh) 2020-10-30
CN111860427B true CN111860427B (zh) 2022-07-01

Family

ID=72946497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010752388.6A Active CN111860427B (zh) 2020-07-30 2020-07-30 基于轻量级类八维卷积神经网络的驾驶分心识别方法

Country Status (1)

Country Link
CN (1) CN111860427B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113057654B (zh) * 2021-03-10 2022-05-20 重庆邮电大学 基于频率耦合神经网络模型的记忆负荷检测提取系统及方法
CN113712571A (zh) * 2021-06-18 2021-11-30 陕西师范大学 一种基于Rényi相位传递熵和轻量级卷积神经网络的异常脑电信号检测方法
CN113780134B (zh) * 2021-08-31 2023-05-02 昆明理工大学 一种基于ShuffleNetV2网络的运动想象脑电解码方法
CN114241453B (zh) * 2021-12-20 2024-03-12 东南大学 一种利用关键点注意力的驾驶员分心驾驶监测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN108645409A (zh) * 2018-05-14 2018-10-12 深圳万发创新进出口贸易有限公司 一种基于无人驾驶的行车安全系统
CN109583338A (zh) * 2018-11-19 2019-04-05 山东派蒙机电技术有限公司 基于深度融合神经网络的驾驶员视觉分散检测方法
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN110084182A (zh) * 2019-04-24 2019-08-02 贵州理工学院 一种基于3d卷积神经网络的分心驾驶识别方法
CN110532878A (zh) * 2019-07-26 2019-12-03 中山大学 一种基于轻量化卷积神经网络的驾驶员行为识别方法
CN110575163A (zh) * 2019-08-01 2019-12-17 深圳大学 一种检测驾驶员分心的方法及装置
CN111213189A (zh) * 2017-07-12 2020-05-29 华为技术有限公司 用于检测驾驶员状况的集成系统
CN111428699A (zh) * 2020-06-10 2020-07-17 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769461B2 (en) * 2017-12-14 2020-09-08 COM-IoT Technologies Distracted driver detection
US11527891B2 (en) * 2018-12-20 2022-12-13 The George Washington University Smart sensor for online situational awareness in power grids

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111213189A (zh) * 2017-07-12 2020-05-29 华为技术有限公司 用于检测驾驶员状况的集成系统
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN108645409A (zh) * 2018-05-14 2018-10-12 深圳万发创新进出口贸易有限公司 一种基于无人驾驶的行车安全系统
CN109583338A (zh) * 2018-11-19 2019-04-05 山东派蒙机电技术有限公司 基于深度融合神经网络的驾驶员视觉分散检测方法
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN110084182A (zh) * 2019-04-24 2019-08-02 贵州理工学院 一种基于3d卷积神经网络的分心驾驶识别方法
CN110532878A (zh) * 2019-07-26 2019-12-03 中山大学 一种基于轻量化卷积神经网络的驾驶员行为识别方法
CN110575163A (zh) * 2019-08-01 2019-12-17 深圳大学 一种检测驾驶员分心的方法及装置
CN111428699A (zh) * 2020-06-10 2020-07-17 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Recognizing driver inattention by convolutional neural networks;Chao Yan等;《IEEE》;20151016;第680-685页 *
基于级联卷积神经网络的驾驶员分心驾驶行为检测;陈军等;《科学技术与工程》;20200518;第5702-5708页 *

Also Published As

Publication number Publication date
CN111860427A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111860427B (zh) 基于轻量级类八维卷积神经网络的驾驶分心识别方法
Yang et al. Small object augmentation of urban scenes for real-time semantic segmentation
CN110879959B (zh) 生成数据集的方法及装置、利用其的测试方法及测试装置
CN112651973A (zh) 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
Ayachi et al. Pedestrian detection based on light-weighted separable convolution for advanced driver assistance systems
KR20200121206A (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN112183203A (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN111696110B (zh) 场景分割方法及系统
US20220156528A1 (en) Distance-based boundary aware semantic segmentation
Yang et al. Spatio-temporal domain awareness for multi-agent collaborative perception
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
EP1801731B1 (en) Adaptive scene dependent filters in online learning environments
Al Mamun et al. Lane marking detection using simple encode decode deep learning technique: SegNet
Muthalagu et al. Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks
Sugirtha et al. Semantic segmentation using modified U-Net for autonomous driving
Aljohani Real-time driver distraction recognition: A hybrid genetic deep network based approach
CN113807298B (zh) 行人过街意图预测方法、装置、电子设备及可读存储介质
CN116630702A (zh) 一种基于语义分割网络的路面附着系数预测方法
KR20200123507A (ko) 교사-학생 프레임워크 기반의 소프트 타겟 학습방법을 이용한 보행자 포즈 방향 추정 방법 및 시스템
Li et al. An Improved Lightweight Network Based on YOLOv5s for Object Detection in Autonomous Driving
CN113971797A (zh) 一种基于动作行为特征的危险驾驶行为识别方法及系统
Sun et al. A Metaverse text recognition model based on character-level contrastive learning
Lim et al. Global and local multi-scale feature fusion for object detection and semantic segmentation
Ivanko et al. Development of Visual and Audio Speech Recognition Systems Using Deep Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant