CN114511798B - 基于transformer的驾驶员分心检测方法及装置 - Google Patents
基于transformer的驾驶员分心检测方法及装置 Download PDFInfo
- Publication number
- CN114511798B CN114511798B CN202111509227.5A CN202111509227A CN114511798B CN 114511798 B CN114511798 B CN 114511798B CN 202111509227 A CN202111509227 A CN 202111509227A CN 114511798 B CN114511798 B CN 114511798B
- Authority
- CN
- China
- Prior art keywords
- distraction
- driver
- driver distraction
- model
- transformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 230000006870 function Effects 0.000 claims abstract description 11
- 238000009499 grossing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000035622 drinking Effects 0.000 claims description 3
- 210000004209 hair Anatomy 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 235000013361 beverage Nutrition 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000009966 trimming Methods 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
- B60W40/09—Driving style or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/225—Direction of gaze
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/229—Attention level, e.g. attentive to driving, reading or sleeping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30268—Vehicle interior
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于transformer的驾驶员分心检测方法及装置,属于驾驶行为分析领域,包括采集分心驾驶图像数据;搭建驾驶员分心检测模型FPT;将采集到的分心驾驶图像数据输入驾驶员分心检测模型FPT中,利用驾驶员分心检测模型FPT对分心驾驶图像数据进行分析,根据分析结果判断驾驶员分心状态。本发明在Swin,Twins等模型的基础上提出一种新的网络模型驾驶员分心检测模型FPT,该这种模型与深度学习模型相比弥补了深度学习模型只能提取局部特征的缺点,与变压器transformer模型相比,提高了分类的精度,并且降低了参数量和运算量;对整个网络的损失函数进行了调整,在交叉熵损失函数的基础上添加了标签平滑,增加分类的准确度,有效抑制过拟合,提高了检测精度。
Description
技术领域
本发明属于驾驶行为分析领域,具体涉及一种基于transformer的驾驶员分心检测方法及装置。
背景技术
世界卫生组织(世卫组织)2018年《全球道路安全现状报告》指出,道路交通死亡人数继续攀升。由此可见,道路安全问题远远没有得到人们应有的关注。目前的研究大多重点关注驾驶员是否分心,而没有重点关注分心的类型。并且公开的分心数据集较少,驾驶员分心的多样性不足,就不足以模拟真实的驾驶场景。如果能够及时检测出驾驶员的分心类型,汽车制造商和开发商就可以根据不同的分心类型设计出具有更加全面的紧急避险措施的汽车,提高驾驶的安全性。
通过调研发现,目前驾驶员分心检测主要是基于机器学习和卷积神经网络两种方法。但是使用机器学习的方法来提取特征依赖个人经验,鲁棒性差,特征传递困难,模型泛化能力不强。使用卷积神经网络提取特征虽然得到了改进但仍然存在以下缺点:第一卷积神经网络需要人为设定维度,卷积核,步长等一些参数,根据输入图像的不同本发明还需要更改这些参数。第二,特征提取是在整张图片上进行的,随着网络的加深,计算复杂度就会变得很大。第三,卷积核在每张图片上滑动提取特征,它只能关注到图像的局部特征,这样可能就会丢失图像的关键全局信息,特别是针对驾驶员分心检测任务,驾驶员的行为表现与全局的驾驶场景有很强的关联性,使用基于CNN的架构缺乏全局捕获能力
近些年,变压器transformer在计算机视觉上得到广泛的关注和快速发展,它在光学图像分类、目标检测、语义分割等领域表现出同等甚至超越CNN的优越性能,但在驾驶员分心检测领域尚未开展研究和探索。因此,本发明针对现有基于CNN架构所存在的问题,创新性地提出一种基于transformer和CNN融合的驾驶员分心检测方法,简称为驾驶员分心检测模型FPT。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种基于transformer的驾驶员分心检测方法及装置。
为了实现上述目的,本发明提供如下技术方案:
一种基于transformer的驾驶员分心检测方法,包括以下步骤:
采集分心驾驶图像数据;
搭建驾驶员分心检测模型FPT,包括:
以双胞胎变压器Twins transformer作为基准框架,将变压器transformer与卷积神经网络CNN进行融合,形成主体架构;
对所述主体架构进行优化,包括:在所述主体架构中融入残差嵌入模块,同时嵌入变压器的编码器Transformer Encoder中,通过所述残差嵌入模块用来改变图像被切分的块大小和特征图输入的维度;用分组卷积代替所述主体架构中的多层感知机MLP;在所述主体架构中加入标签平滑的交叉熵损失函数;
将优化后的多个所述主体架构进行依次连接,构成驾驶员分心检测模型FPT;
将采集到的分心驾驶图像数据输入驾驶员分心检测模型FPT中,利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析,根据分析结果判断驾驶员分心状态。
优选地,通过车载摄像头采集不同驾驶场景下的分心驾驶图像数据。
优选地,所述驾驶员分心状态包括驾驶员左/右手发短信、左/右手打电话、操作收音机、喝饮料、向后看、整理头发、以及和乘客谈话。
优选地,在通过所述驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析之前,对所述分心驾驶图像数据进行预处理,具体处理过程包括:
对图像进行数据增强操作;把图片变成张量,再进行正则化。
优选地,所述分组卷积的参数量计算公式如下:
其中,h1为输入图片的高;w1为输入图片的宽;c1为图片的通道数;c2为卷积核的通道数;g代表卷积核的组的数量,分组卷积之后参数量只有原来的
优选地,所述交叉熵损失函数中,平滑后的标签y’为:
其中,ε是为常数,1/(K-1)为噪声概率分布。
优选地,所述驾驶员分心检测模型FPT中共包括四个优化后的所述主体架构,四个优化后的所述主体架构将分心驾驶图像数据的检测过程划分为四个阶段。
优选地,所述残差嵌入模块在四个阶段嵌入的特征映射维度分别为64、128、256、512。
优选地,所述利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析,得到的分心检测结果用于辅助驾驶员安全驾驶。
本发明还提供一种检测驾驶员分心的装置,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明提供的基于transformer的驾驶员分心检测方法具有以下有益效果:
(1)本发明在Vision transformer的Swin、Twins及CNN等模型的基础上提出一种新的网络模型,即驾驶员分心检测模型FPT,通FPT模型来处理驾驶员分心检测的任务;该模型与深度学习模型相比弥补了深度学习模型只能提取局部特征的缺点;与变压器transformer模型相比,提高了分类的精度,并且降低了参数量和运算量,该方法在驾驶员分心检测领域尚属首次探索,并在大规模驾驶员分心检测数据集上验证了其有效性。
(2)本发明在Twins模型的基础上做出了结构化调整,融入残差连接模块,重新构造嵌入变压器的编码器Transformer Encoder模块,搭建面向变压器transformer的特征金字塔结构,均衡提升全局和局部特征提取能力,并且将多层感知机MLP用轻量化分组卷积进行替代,降低参数量与运算量。
(2)对整个网络的损失函数进行了调整,在交叉熵损失函数的基础上添加了标签平滑,增加分类的准确度,有效抑制过拟合,提高了检测精度。
附图说明
为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的基于transformer的驾驶员分心检测方法的流程图;
图2为驾驶员分心检测模型FPT的整体结构框图。
图3为本发明中模型的残差结构和变压器transformer Encoder结构图。
图4为本发明中驾驶员分心检测模型FPT的三维效果图。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本发明针对现有基于卷积神经网络CNN架构所存在的问题,并受Swin,Twins等Vit模型的启发,融合卷积神经网络CNN和视觉变压器transformer的各自优势,提出一种基于transformer的驾驶员分心检测方法,该模型简称为驾驶员分心检测模型FPT。此类方法在驾驶员分心检测领域尚属首次探索,并在大规模驾驶员分心检测数据集上验证了其有效性。
驾驶员分心检测模型FPT的构件主要包括以下内容:引入双胞胎变压器Twinstransformer作为基准架构;融入残差连接模块,重新构造嵌入编码器Encoder模块;替换多层感知机MLP模块,引入轻量化的分组卷积模块,降低运算量。
下面将结合附图和具体实施方式对本发明做进一步的详细的说明,如图1所示,本发明公开的基于transformer的驾驶员分心检测方法包括以下步骤:
步骤1、采集分心驾驶图像数据
本实施例中通过车载摄像头采集不同驾驶场景下的分心驾驶图像数据,具体包括采集驾驶员分心数据集包括正常驾驶2489张图、右手发短信2267张图、右手打电话2317张图、左手发短信2346张图、左手打电话2326张图、操作收音机2312张图、喝饮料2325图、向后看2002张图、整理头发1911张图、和乘客谈话2129张图,总共22424张图。
步骤2、对分心驾驶图像数据进行预处理,具体处理过程包括:
一张RGB图片输入是3通道的,我们先对它进行数据增强操作,包括重新规划尺寸变成222×224,随机旋转10度。然后把图片变成张量,再进行正则化就可以输入到模型中。
步骤3、搭建驾驶员分心检测模型FPT,包括:
以双胞胎变压器Twins transformer作为基准框架,将变压器transformer与卷积神经网络CNN进行融合,形成主体架构;
对主体架构进行优化,包括:在主体架构中融入残差嵌入模块,同时嵌入变压器的编码器Transformer Encoder中,通过残差嵌入模块用来改变图像被切分的块大小和特征图输入的维度;用分组卷积代替主体架构中的多层感知机MLP;在主体架构中加入标签平滑的交叉熵损失函数;为增加模型分类的正确率,使用标签平滑策略,标签平滑属于一种改变目标向量正则化策略,使模型的预测结果不在是非1即0的情况,在计算损失函数时降低真实标签类别的权值,避免模型发生过拟合,从而使得分类模型变得更加准确。因此,我们在交叉熵损失中引入标签平滑。
其中y'是指平滑后的标签,ε是一个很小的常数,1/(K-1)可以看作为将噪声引入概率分布。在引入平滑交叉熵损失后,计算结果不在是1或0,而是ε和1-ε。这种方法能使模型进行校准,防止模型过于自信,同时增加了模型分类正确的概率,降低分类错误的概率。
将优化后的多个主体架构进行依次连接,构成驾驶员分心检测模型FPT;
本发明所提出的驾驶员分心检测模型FPT总体架构如图2,整体结构包括四个阶段,每个阶段通过残差嵌入来改变图像被切分的块大小和特征图输入的维度,四个阶段嵌入的维度分别为64、128、256、512。然后在送入器的编码器Transformer Encoder,再将输出的编码器Encoder加上位置编码PEG送入下一个阶段。整体结构上呈现一个堆叠金字塔的形状,如图4所示。
模型搭建主要包括以下几点:
(1)残差连接:在Twins的基础上本发明加入卷积神经网络架构,总体结构如图3(a)所示。首先输入图片是一张3×224×224的三通道图片,本发明先对它进行一次卷积特征提取,第一层卷积的卷积核和步长都设为1,得到的特征图大小还是3×224×224。第二层卷积的卷积核和步长都设为补丁(patch),文中第一阶段的补丁(patch)为4,第二、三、四阶段的补丁(patch)为2。通过第二次卷积把第一层卷积得到的特征图映射成尺寸为64×56×56的特征图。对此时的特征图,本发明再进行一次卷积特特征提取,第三次的卷积的卷积核和步长都设为1。每个卷积层后本发明都做一次批正则化(BN)。最后本发明把输入图片做一个下采样,并且和卷积输出后的结果做一个加法计算,送入激活函数。经过卷积神经网络(CNN)的这种残差结构,本发明现在的输出是64×64×56×56,这是一个四维张量,经过维度变换本发明要把它变成3维张量:B,N,C,即B,3136,64,其中B是batchsize。然后再把它送入Transformer Encoder。
(2)Transformer Encoder:Transformer Encoder的结构如图3(b)所示,残差嵌入处理过后的数据做一次层正则化(LN),再进行Group Attention。接着与第一次进行层正则化(LN)的数据进行残差相加处理。把得到的数据再进行第二次层正则化(LN)和多层感知机(MLP)。最后再做一次残差相加的策略。不同之处是在下一个编码器(Encoder)中进行的是Attention。这里的Attention同时继承了PVT中对Multi-Head Attention中做的一些改进。通常状况下Q,K,V的长度都是输入数据序列的长度,但是经过K,V降维后,特征图的长和宽分别缩小到以前的attention的计算公式变成了如下:
这种计算方式极大的降低了计算量。一个Transformer Encoder中共有四个block,Group Attention和Attention交替进行,之后的三个阶段进行相同的操作。
Twins的多层感知机(MLP)模块用的是两个全连接层,本发明的驾驶员分心检测模型FPT用的是两个轻量化卷积层。输入x是3维的张量,本发明把它变成4维张量后输入到卷积核大小为1,步长为1的卷积层中,卷积的维度首先扩充到原来大小的4倍,再降回原来的维度大小,经过两层卷积后本发明再把它变成3维张量输出。全连接层的特点是每个神经元都和上一层的所有神经元相连接,使用方便简洁,但是它的运算量和参数量比较大。众所周知,卷积层的特点是稀疏连接,权值共享。更重要的是,这里本发明用到了分组卷积,近一步降低计算量和参数量。若输入特征图尺寸为H×W×c1,卷积核尺寸为h1×w1×c1,输出特征图尺寸为H×W×c2。全连接,卷积,分组卷积的参数量计算公式如下:
F=h1×w1×c1×C (3)
F=h1×w1×c1×c2 (4)
公式(3)中C表示特征图展开成一维向量,它要远大于c2;g代表组的数量,分组卷积之后参数量只有原来的计算量的原理也是相同的道理。
(3)位置编码PEG:编码器(Encoder)的输出通过卷积的方式映射到下一阶段输入的维度大小,与之前的编码器(Encoder)的输出再相加,通过这一操作相当于获取特征信息的位置编码(PEG),接着把位置编码的输出的作为模型下一阶段的输入。相比于PVT,Twins在位置编码上做了很大的改进,并且在文中通过实验表明与相对位置和绝对位置编码相比,条件位置编码(PEG)确实能提高分类的准确度。
Transformer模型都用到了层正则化(layer Normalization),经过层正则化之后还需要经过残差模块。两个变压器的编码器(Transformer Encoder)之间没有直连通路,因此梯度流可能会被层正则化模块阻断,计算梯度:
由于ωi比较小,顶层的参数难以更新,最终会导致梯度消失。而残差连接中ωi变成了ωi+1避免梯度消失的问题,本发明的加入的CNN残差结构同样具有相同的效果。
(4)将位置编码(PEG)的输出与Transformer Encoder的输出相加后,输入到下一阶段的Transformer Encoder中,模型构建完成。
步骤4、驾驶员分心检测模型FPT进行训练:把驾驶员分心数据划分为训练数据和验证数据,用训练数据来训练搭建好的模型。
对数据集按训练:验证=7:3的比例进行划分。本发明使用pytorch来实现本发明的模型,采用Adam优化器进行优化;批量大小为16;初始学习率为0.0001,每100个epoch后学习率降低0.1倍。总共训练400个epoch。
训练模型直至收敛,保存模型的权重,用验证集在模型上进行测试,得到精度最高的模型即为所述的驾驶员分心检测模型。
步骤5、将采集到的分心驾驶图像数据输入训练好的驾驶员分心检测模型FPT中,利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析,根据分析结果判断驾驶员分心状态,得到的分心检测结果用于辅助驾驶员安全驾驶。
本实施例还提供一种检测驾驶员分心的装置,包括存储器、处理器以及存储在存储器中并可以在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述方法的步骤。该装置可以是汽车搭载的开发板。
本发明的使用本发明提出的网络模型在大规模驾驶员分心检测数据集上进行训练,将训练好的的权重保存下来。然后将训练好的模型和权重移植到深度学习的开发具体的检测过程包括:利用驾驶员分心检测模进行数据增强,包括重新规划尺寸大小,随机旋转10度,再把图片变成高维张量,再进行正则化。之后送入模型的入口,通过残差连接把高维张量映射到64维,送入变压器的编码器(Transformer Encoder)中进行特征提取,将编码器(Encoder)的输出通过卷积的方式映射到下一阶段输入的维度大小,与之前的编码器(Encoder)的输出再相加,通过这一操作相当于获取特征信息的位置编码(PEG),最后把位置编码的输出的作为模型下一阶段的输入。当汽车搭载上这块开发板,就能实时检测驾驶员是否分心,判断分心的类型,然后提醒驾驶员安全驾驶。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。
Claims (7)
1.一种基于transformer的驾驶员分心检测方法,其特征在于,包括以下步骤:
采集分心驾驶图像数据;
搭建驾驶员分心检测模型FPT,包括:
以Twins transformer作为基准框架,将Twins transformer与卷积神经网络CNN进行融合,形成主体架构,并对所述主体架构进行优化,包括:
在所述主体架构中融入残差嵌入模块,将输入图像进行多次卷积特征提取,将最后得到的卷积特征与对输入图像进行下采样的结果相加,将相加的结果送入激活函数,并将维度变换为三维张量,最后将所述三维张量送入Transformer Encoder中;
在Transformer Encoder中,将残差嵌入处理后的数据做一次层正则化,再进行GroupAttention,接着与第一次层正则化后的数据进行残差相加,将得到的数据再进行第二次层正则化和多层感知机,最后再进行一次残差相加;其中,多层感知机采用两个轻量化的分组卷积实现;
再将Transformer Encoder的输出加上位置编码PEG的输出送入下一阶段的Transformer Encoder中,共包括依次连接的四个阶段,构成驾驶员分心检测模型FPT;
并在所述主体架构中引入标签平滑的交叉熵损失函数,所述交叉熵损失函数中,平滑后的标签y’为:
其中,ε是平滑因子,1/(K-1)为噪声概率分布;
将采集到的分心驾驶图像数据输入驾驶员分心检测模型FPT中,利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析,根据分析结果判断驾驶员分心状态,所述驾驶员分心状态包括驾驶员左/右手发短信、左/右手打电话、操作收音机、喝饮料、向后看、整理头发、以及和乘客谈话。
2.根据权利要求1所述的基于transformer的驾驶员分心检测方法,其特征在于,通过车载摄像头采集不同驾驶场景下的分心驾驶图像数据。
3.根据权利要求2所述的基于transformer的驾驶员分心检测方法,其特征在于,在通过所述驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析之前,对所述分心驾驶图像数据进行预处理,具体处理过程包括:
对图像进行数据增强操作;把图片变成张量,再进行正则化。
4.根据权利要求1所述的基于transformer的驾驶员分心检测方法,其特征在于,所述分组卷积的参数量计算公式如下:
其中,h1为输入图片的高;w1为输入图片的宽;c1为图片的通道数;c2为卷积核的通道数;g代表卷积核的组的数量,分组卷积之后参数量只有原来的
5.根据权利要求4所述的基于transformer的驾驶员分心检测方法,其特征在于,所述残差嵌入模块在四个阶段嵌入的特征映射维度分别为64、128、256、512。
6.根据权利要求5所述的基于transformer的驾驶员分心检测方法,其特征在于,所述利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析,得到的分心检测结果用于辅助驾驶员安全驾驶。
7.一种驾驶员分心检测装置,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509227.5A CN114511798B (zh) | 2021-12-10 | 2021-12-10 | 基于transformer的驾驶员分心检测方法及装置 |
US17/662,796 US20230186652A1 (en) | 2021-12-10 | 2022-05-10 | Transformer-based driver distraction detection method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509227.5A CN114511798B (zh) | 2021-12-10 | 2021-12-10 | 基于transformer的驾驶员分心检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511798A CN114511798A (zh) | 2022-05-17 |
CN114511798B true CN114511798B (zh) | 2024-04-26 |
Family
ID=81547556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111509227.5A Active CN114511798B (zh) | 2021-12-10 | 2021-12-10 | 基于transformer的驾驶员分心检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230186652A1 (zh) |
CN (1) | CN114511798B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831005A (zh) * | 2023-10-30 | 2024-04-05 | 南通大学 | 一种基于改进的YOLOv5s的分心驾驶行为检测方法 |
CN117392672B (zh) * | 2023-12-11 | 2024-03-19 | 季华实验室 | 流式细胞分类模型的获取方法、分类方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796109A (zh) * | 2019-11-05 | 2020-02-14 | 哈尔滨理工大学 | 一种基于模型融合的驾驶员分心行为识别方法 |
CN111301428A (zh) * | 2018-12-11 | 2020-06-19 | 上汽通用汽车有限公司 | 机动车驾驶员分心检测警示方法、系统及机动车 |
CN111516700A (zh) * | 2020-05-11 | 2020-08-11 | 安徽大学 | 一种驾驶员分心细粒度监测方法和系统 |
CN113066028A (zh) * | 2021-03-31 | 2021-07-02 | 山东师范大学 | 一种基于Transformer深度神经网络的图像去雾方法 |
CN113139470A (zh) * | 2021-04-25 | 2021-07-20 | 安徽工业大学 | 一种基于Transformer的玻璃识别方法 |
WO2021164293A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于大数据的零指代消解方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2585005B (en) * | 2019-06-24 | 2021-06-23 | Roadmetric Ltd | Training a machine to recognize a motor vehicle driver using a mobile device |
-
2021
- 2021-12-10 CN CN202111509227.5A patent/CN114511798B/zh active Active
-
2022
- 2022-05-10 US US17/662,796 patent/US20230186652A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111301428A (zh) * | 2018-12-11 | 2020-06-19 | 上汽通用汽车有限公司 | 机动车驾驶员分心检测警示方法、系统及机动车 |
CN110796109A (zh) * | 2019-11-05 | 2020-02-14 | 哈尔滨理工大学 | 一种基于模型融合的驾驶员分心行为识别方法 |
WO2021164293A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于大数据的零指代消解方法、装置、设备及介质 |
CN111516700A (zh) * | 2020-05-11 | 2020-08-11 | 安徽大学 | 一种驾驶员分心细粒度监测方法和系统 |
CN113066028A (zh) * | 2021-03-31 | 2021-07-02 | 山东师范大学 | 一种基于Transformer深度神经网络的图像去雾方法 |
CN113139470A (zh) * | 2021-04-25 | 2021-07-20 | 安徽工业大学 | 一种基于Transformer的玻璃识别方法 |
Non-Patent Citations (4)
Title |
---|
RealFormer: Transformer Likes Residual Attention;Ruining He et al.;《arxiv.org》;20210910;全文 * |
Shifted-Window Hierarchical Vision Transformer for Distracted Driver Detection;Hong Vin Koay et al.;《2021 IEEE Region 10 Symposium (TENSYMP)》;20211004;全文 * |
Twins: Revisiting the Design of Spatial Attention in Vision Transformers;Xiangxiang Chu et al.;《arxiv.org》;20210428;全文 * |
智能车联网驾驶行为识别研究与实现;艾营;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20200715;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114511798A (zh) | 2022-05-17 |
US20230186652A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734290B (zh) | 一种基于注意力机制的卷积神经网络构建方法及应用 | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN114758383A (zh) | 基于注意力调制上下文空间信息的表情识别方法 | |
CN114511798B (zh) | 基于transformer的驾驶员分心检测方法及装置 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112560831A (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113570508A (zh) | 图像修复方法及装置、存储介质、终端 | |
CN112580545B (zh) | 基于多尺度自适应上下文网络的人群计数方法及系统 | |
CN113807356B (zh) | 一种端到端的低能见度图像语义分割方法 | |
CN116433914A (zh) | 一种二维医学图像分割方法及系统 | |
CN116681679A (zh) | 基于双分支特征融合注意的医学图像小目标分割方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
JP2024018938A (ja) | 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 | |
CN112669343A (zh) | 一种基于深度学习的壮族少数民族服饰分割方法 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN117392496A (zh) | 基于红外与可见光图像融合的目标检测方法及系统 | |
Wang et al. | SERR-U-Net: squeeze-and-excitation residual and recurrent block-based U-Net for automatic vessel segmentation in retinal image | |
CN116894820B (zh) | 一种色素性皮肤病分类检测方法、装置、设备及存储介质 | |
CN117351363A (zh) | 基于Transformer的遥感影像建筑物提取方法 | |
CN115829962B (zh) | 医学图像分割装置、训练方法及医学图像分割方法 | |
CN115862097A (zh) | 基于多注意力多尺度特征学习的遮挡人脸识别方法和装置 | |
CN112541469B (zh) | 基于自适应分类的人群计数方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |