CN114511798B

CN114511798B - 基于transformer的驾驶员分心检测方法及装置

Info

Publication number: CN114511798B
Application number: CN202111509227.5A
Authority: CN
Inventors: 陈杰; 王海涛; 李兵; 程子晗; 席静敏; 邓英剑
Original assignee: Anhui Zhongke Xinglian Information Technology Co ltd; Anhui University
Current assignee: Anhui Zhongke Xinglian Information Technology Co ltd; Anhui University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2024-04-26
Anticipated expiration: 2041-12-10
Also published as: CN114511798A; US20230186652A1

Abstract

本发明提供了一种基于transformer的驾驶员分心检测方法及装置，属于驾驶行为分析领域，包括采集分心驾驶图像数据；搭建驾驶员分心检测模型FPT；将采集到的分心驾驶图像数据输入驾驶员分心检测模型FPT中，利用驾驶员分心检测模型FPT对分心驾驶图像数据进行分析，根据分析结果判断驾驶员分心状态。本发明在Swin，Twins等模型的基础上提出一种新的网络模型驾驶员分心检测模型FPT，该这种模型与深度学习模型相比弥补了深度学习模型只能提取局部特征的缺点，与变压器transformer模型相比，提高了分类的精度，并且降低了参数量和运算量；对整个网络的损失函数进行了调整，在交叉熵损失函数的基础上添加了标签平滑，增加分类的准确度，有效抑制过拟合，提高了检测精度。

Description

基于transformer的驾驶员分心检测方法及装置

技术领域

本发明属于驾驶行为分析领域，具体涉及一种基于transformer的驾驶员分心检测方法及装置。

背景技术

世界卫生组织(世卫组织)2018年《全球道路安全现状报告》指出，道路交通死亡人数继续攀升。由此可见，道路安全问题远远没有得到人们应有的关注。目前的研究大多重点关注驾驶员是否分心，而没有重点关注分心的类型。并且公开的分心数据集较少，驾驶员分心的多样性不足，就不足以模拟真实的驾驶场景。如果能够及时检测出驾驶员的分心类型，汽车制造商和开发商就可以根据不同的分心类型设计出具有更加全面的紧急避险措施的汽车，提高驾驶的安全性。

通过调研发现，目前驾驶员分心检测主要是基于机器学习和卷积神经网络两种方法。但是使用机器学习的方法来提取特征依赖个人经验，鲁棒性差，特征传递困难，模型泛化能力不强。使用卷积神经网络提取特征虽然得到了改进但仍然存在以下缺点：第一卷积神经网络需要人为设定维度，卷积核，步长等一些参数，根据输入图像的不同本发明还需要更改这些参数。第二，特征提取是在整张图片上进行的，随着网络的加深，计算复杂度就会变得很大。第三，卷积核在每张图片上滑动提取特征，它只能关注到图像的局部特征，这样可能就会丢失图像的关键全局信息，特别是针对驾驶员分心检测任务，驾驶员的行为表现与全局的驾驶场景有很强的关联性，使用基于CNN的架构缺乏全局捕获能力

近些年，变压器transformer在计算机视觉上得到广泛的关注和快速发展，它在光学图像分类、目标检测、语义分割等领域表现出同等甚至超越CNN的优越性能，但在驾驶员分心检测领域尚未开展研究和探索。因此，本发明针对现有基于CNN架构所存在的问题，创新性地提出一种基于transformer和CNN融合的驾驶员分心检测方法，简称为驾驶员分心检测模型FPT。

发明内容

为了克服上述现有技术存在的不足，本发明提供了一种基于transformer的驾驶员分心检测方法及装置。

为了实现上述目的，本发明提供如下技术方案：

一种基于transformer的驾驶员分心检测方法，包括以下步骤：

采集分心驾驶图像数据；

搭建驾驶员分心检测模型FPT，包括：

以双胞胎变压器Twins transformer作为基准框架，将变压器transformer与卷积神经网络CNN进行融合，形成主体架构；

对所述主体架构进行优化，包括：在所述主体架构中融入残差嵌入模块，同时嵌入变压器的编码器Transformer Encoder中，通过所述残差嵌入模块用来改变图像被切分的块大小和特征图输入的维度；用分组卷积代替所述主体架构中的多层感知机MLP；在所述主体架构中加入标签平滑的交叉熵损失函数；

将优化后的多个所述主体架构进行依次连接，构成驾驶员分心检测模型FPT；

将采集到的分心驾驶图像数据输入驾驶员分心检测模型FPT中，利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析，根据分析结果判断驾驶员分心状态。

优选地，通过车载摄像头采集不同驾驶场景下的分心驾驶图像数据。

优选地，所述驾驶员分心状态包括驾驶员左/右手发短信、左/右手打电话、操作收音机、喝饮料、向后看、整理头发、以及和乘客谈话。

优选地，在通过所述驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析之前，对所述分心驾驶图像数据进行预处理，具体处理过程包括：

对图像进行数据增强操作；把图片变成张量，再进行正则化。

优选地，所述分组卷积的参数量计算公式如下：

其中，h₁为输入图片的高；w1为输入图片的宽；c₁为图片的通道数；c₂为卷积核的通道数；g代表卷积核的组的数量，分组卷积之后参数量只有原来的

优选地，所述交叉熵损失函数中，平滑后的标签y’为：

其中，ε是为常数，1/(K-1)为噪声概率分布。

优选地，所述驾驶员分心检测模型FPT中共包括四个优化后的所述主体架构，四个优化后的所述主体架构将分心驾驶图像数据的检测过程划分为四个阶段。

优选地，所述残差嵌入模块在四个阶段嵌入的特征映射维度分别为64、128、256、512。

优选地，所述利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析，得到的分心检测结果用于辅助驾驶员安全驾驶。

本发明还提供一种检测驾驶员分心的装置，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本发明提供的基于transformer的驾驶员分心检测方法具有以下有益效果：

(1)本发明在Vision transformer的Swin、Twins及CNN等模型的基础上提出一种新的网络模型，即驾驶员分心检测模型FPT，通FPT模型来处理驾驶员分心检测的任务；该模型与深度学习模型相比弥补了深度学习模型只能提取局部特征的缺点；与变压器transformer模型相比，提高了分类的精度，并且降低了参数量和运算量，该方法在驾驶员分心检测领域尚属首次探索，并在大规模驾驶员分心检测数据集上验证了其有效性。

(2)本发明在Twins模型的基础上做出了结构化调整，融入残差连接模块，重新构造嵌入变压器的编码器Transformer Encoder模块，搭建面向变压器transformer的特征金字塔结构，均衡提升全局和局部特征提取能力，并且将多层感知机MLP用轻量化分组卷积进行替代，降低参数量与运算量。

(2)对整个网络的损失函数进行了调整，在交叉熵损失函数的基础上添加了标签平滑，增加分类的准确度，有效抑制过拟合，提高了检测精度。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的基于transformer的驾驶员分心检测方法的流程图；

图2为驾驶员分心检测模型FPT的整体结构框图。

图3为本发明中模型的残差结构和变压器transformer Encoder结构图。

图4为本发明中驾驶员分心检测模型FPT的三维效果图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本发明针对现有基于卷积神经网络CNN架构所存在的问题，并受Swin，Twins等Vit模型的启发，融合卷积神经网络CNN和视觉变压器transformer的各自优势，提出一种基于transformer的驾驶员分心检测方法，该模型简称为驾驶员分心检测模型FPT。此类方法在驾驶员分心检测领域尚属首次探索，并在大规模驾驶员分心检测数据集上验证了其有效性。

驾驶员分心检测模型FPT的构件主要包括以下内容：引入双胞胎变压器Twinstransformer作为基准架构；融入残差连接模块，重新构造嵌入编码器Encoder模块；替换多层感知机MLP模块，引入轻量化的分组卷积模块，降低运算量。

下面将结合附图和具体实施方式对本发明做进一步的详细的说明，如图1所示，本发明公开的基于transformer的驾驶员分心检测方法包括以下步骤：

步骤1、采集分心驾驶图像数据

本实施例中通过车载摄像头采集不同驾驶场景下的分心驾驶图像数据，具体包括采集驾驶员分心数据集包括正常驾驶2489张图、右手发短信2267张图、右手打电话2317张图、左手发短信2346张图、左手打电话2326张图、操作收音机2312张图、喝饮料2325图、向后看2002张图、整理头发1911张图、和乘客谈话2129张图，总共22424张图。

步骤2、对分心驾驶图像数据进行预处理，具体处理过程包括：

一张RGB图片输入是3通道的，我们先对它进行数据增强操作，包括重新规划尺寸变成222×224，随机旋转10度。然后把图片变成张量，再进行正则化就可以输入到模型中。

步骤3、搭建驾驶员分心检测模型FPT，包括：

对主体架构进行优化，包括：在主体架构中融入残差嵌入模块，同时嵌入变压器的编码器Transformer Encoder中，通过残差嵌入模块用来改变图像被切分的块大小和特征图输入的维度；用分组卷积代替主体架构中的多层感知机MLP；在主体架构中加入标签平滑的交叉熵损失函数；为增加模型分类的正确率，使用标签平滑策略，标签平滑属于一种改变目标向量正则化策略，使模型的预测结果不在是非1即0的情况，在计算损失函数时降低真实标签类别的权值，避免模型发生过拟合，从而使得分类模型变得更加准确。因此，我们在交叉熵损失中引入标签平滑。

其中y'是指平滑后的标签，ε是一个很小的常数，1/(K-1)可以看作为将噪声引入概率分布。在引入平滑交叉熵损失后，计算结果不在是1或0，而是ε和1-ε。这种方法能使模型进行校准，防止模型过于自信，同时增加了模型分类正确的概率，降低分类错误的概率。

将优化后的多个主体架构进行依次连接，构成驾驶员分心检测模型FPT；

本发明所提出的驾驶员分心检测模型FPT总体架构如图2，整体结构包括四个阶段，每个阶段通过残差嵌入来改变图像被切分的块大小和特征图输入的维度，四个阶段嵌入的维度分别为64、128、256、512。然后在送入器的编码器Transformer Encoder，再将输出的编码器Encoder加上位置编码PEG送入下一个阶段。整体结构上呈现一个堆叠金字塔的形状，如图4所示。

模型搭建主要包括以下几点：

(1)残差连接：在Twins的基础上本发明加入卷积神经网络架构，总体结构如图3(a)所示。首先输入图片是一张3×224×224的三通道图片，本发明先对它进行一次卷积特征提取，第一层卷积的卷积核和步长都设为1，得到的特征图大小还是3×224×224。第二层卷积的卷积核和步长都设为补丁(patch)，文中第一阶段的补丁(patch)为4，第二、三、四阶段的补丁(patch)为2。通过第二次卷积把第一层卷积得到的特征图映射成尺寸为64×56×56的特征图。对此时的特征图，本发明再进行一次卷积特特征提取，第三次的卷积的卷积核和步长都设为1。每个卷积层后本发明都做一次批正则化(BN)。最后本发明把输入图片做一个下采样，并且和卷积输出后的结果做一个加法计算，送入激活函数。经过卷积神经网络(CNN)的这种残差结构，本发明现在的输出是64×64×56×56，这是一个四维张量，经过维度变换本发明要把它变成3维张量：B，N，C，即B，3136，64，其中B是batchsize。然后再把它送入Transformer Encoder。

(2)Transformer Encoder：Transformer Encoder的结构如图3(b)所示，残差嵌入处理过后的数据做一次层正则化(LN)，再进行Group Attention。接着与第一次进行层正则化(LN)的数据进行残差相加处理。把得到的数据再进行第二次层正则化(LN)和多层感知机(MLP)。最后再做一次残差相加的策略。不同之处是在下一个编码器(Encoder)中进行的是Attention。这里的Attention同时继承了PVT中对Multi-Head Attention中做的一些改进。通常状况下Q，K，V的长度都是输入数据序列的长度，但是经过K，V降维后，特征图的长和宽分别缩小到以前的attention的计算公式变成了如下：

这种计算方式极大的降低了计算量。一个Transformer Encoder中共有四个block，Group Attention和Attention交替进行，之后的三个阶段进行相同的操作。

Twins的多层感知机(MLP)模块用的是两个全连接层，本发明的驾驶员分心检测模型FPT用的是两个轻量化卷积层。输入x是3维的张量，本发明把它变成4维张量后输入到卷积核大小为1，步长为1的卷积层中，卷积的维度首先扩充到原来大小的4倍，再降回原来的维度大小，经过两层卷积后本发明再把它变成3维张量输出。全连接层的特点是每个神经元都和上一层的所有神经元相连接，使用方便简洁，但是它的运算量和参数量比较大。众所周知，卷积层的特点是稀疏连接，权值共享。更重要的是，这里本发明用到了分组卷积，近一步降低计算量和参数量。若输入特征图尺寸为H×W×c₁，卷积核尺寸为h₁×w₁×c₁，输出特征图尺寸为H×W×c₂。全连接，卷积，分组卷积的参数量计算公式如下：

F＝h₁×w₁×c₁×C (3)

F＝h₁×w₁×c₁×c₂ (4)

公式(3)中C表示特征图展开成一维向量，它要远大于c₂；g代表组的数量，分组卷积之后参数量只有原来的计算量的原理也是相同的道理。

(3)位置编码PEG：编码器(Encoder)的输出通过卷积的方式映射到下一阶段输入的维度大小，与之前的编码器(Encoder)的输出再相加，通过这一操作相当于获取特征信息的位置编码(PEG)，接着把位置编码的输出的作为模型下一阶段的输入。相比于PVT，Twins在位置编码上做了很大的改进，并且在文中通过实验表明与相对位置和绝对位置编码相比，条件位置编码(PEG)确实能提高分类的准确度。

Transformer模型都用到了层正则化(layer Normalization)，经过层正则化之后还需要经过残差模块。两个变压器的编码器(Transformer Encoder)之间没有直连通路，因此梯度流可能会被层正则化模块阻断，计算梯度：

由于ω_i比较小，顶层的参数难以更新，最终会导致梯度消失。而残差连接中ω_i变成了ω_i+1避免梯度消失的问题，本发明的加入的CNN残差结构同样具有相同的效果。

(4)将位置编码(PEG)的输出与Transformer Encoder的输出相加后，输入到下一阶段的Transformer Encoder中，模型构建完成。

步骤4、驾驶员分心检测模型FPT进行训练：把驾驶员分心数据划分为训练数据和验证数据，用训练数据来训练搭建好的模型。

对数据集按训练：验证＝7：3的比例进行划分。本发明使用pytorch来实现本发明的模型，采用Adam优化器进行优化；批量大小为16；初始学习率为0.0001，每100个epoch后学习率降低0.1倍。总共训练400个epoch。

训练模型直至收敛，保存模型的权重，用验证集在模型上进行测试，得到精度最高的模型即为所述的驾驶员分心检测模型。

步骤5、将采集到的分心驾驶图像数据输入训练好的驾驶员分心检测模型FPT中，利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析，根据分析结果判断驾驶员分心状态，得到的分心检测结果用于辅助驾驶员安全驾驶。

本实施例还提供一种检测驾驶员分心的装置，包括存储器、处理器以及存储在存储器中并可以在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述方法的步骤。该装置可以是汽车搭载的开发板。

本发明的使用本发明提出的网络模型在大规模驾驶员分心检测数据集上进行训练，将训练好的的权重保存下来。然后将训练好的模型和权重移植到深度学习的开发具体的检测过程包括：利用驾驶员分心检测模进行数据增强，包括重新规划尺寸大小，随机旋转10度，再把图片变成高维张量，再进行正则化。之后送入模型的入口，通过残差连接把高维张量映射到64维，送入变压器的编码器(Transformer Encoder)中进行特征提取，将编码器(Encoder)的输出通过卷积的方式映射到下一阶段输入的维度大小，与之前的编码器(Encoder)的输出再相加，通过这一操作相当于获取特征信息的位置编码(PEG)，最后把位置编码的输出的作为模型下一阶段的输入。当汽车搭载上这块开发板，就能实时检测驾驶员是否分心，判断分心的类型，然后提醒驾驶员安全驾驶。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种基于transformer的驾驶员分心检测方法，其特征在于，包括以下步骤：

采集分心驾驶图像数据；

搭建驾驶员分心检测模型FPT，包括：

以Twins transformer作为基准框架，将Twins transformer与卷积神经网络CNN进行融合，形成主体架构，并对所述主体架构进行优化，包括：

在所述主体架构中融入残差嵌入模块，将输入图像进行多次卷积特征提取，将最后得到的卷积特征与对输入图像进行下采样的结果相加，将相加的结果送入激活函数，并将维度变换为三维张量，最后将所述三维张量送入Transformer Encoder中；

在Transformer Encoder中，将残差嵌入处理后的数据做一次层正则化，再进行GroupAttention，接着与第一次层正则化后的数据进行残差相加，将得到的数据再进行第二次层正则化和多层感知机，最后再进行一次残差相加；其中，多层感知机采用两个轻量化的分组卷积实现；

再将Transformer Encoder的输出加上位置编码PEG的输出送入下一阶段的Transformer Encoder中，共包括依次连接的四个阶段，构成驾驶员分心检测模型FPT；

并在所述主体架构中引入标签平滑的交叉熵损失函数，所述交叉熵损失函数中，平滑后的标签y’为：

其中，ε是平滑因子，1/(K-1)为噪声概率分布；

将采集到的分心驾驶图像数据输入驾驶员分心检测模型FPT中，利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析，根据分析结果判断驾驶员分心状态，所述驾驶员分心状态包括驾驶员左/右手发短信、左/右手打电话、操作收音机、喝饮料、向后看、整理头发、以及和乘客谈话。

2.根据权利要求1所述的基于transformer的驾驶员分心检测方法，其特征在于，通过车载摄像头采集不同驾驶场景下的分心驾驶图像数据。

3.根据权利要求2所述的基于transformer的驾驶员分心检测方法，其特征在于，在通过所述驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析之前，对所述分心驾驶图像数据进行预处理，具体处理过程包括：

4.根据权利要求1所述的基于transformer的驾驶员分心检测方法，其特征在于，所述分组卷积的参数量计算公式如下：

其中，h₁为输入图片的高；w₁为输入图片的宽；c₁为图片的通道数；c₂为卷积核的通道数；g代表卷积核的组的数量，分组卷积之后参数量只有原来的

5.根据权利要求4所述的基于transformer的驾驶员分心检测方法，其特征在于，所述残差嵌入模块在四个阶段嵌入的特征映射维度分别为64、128、256、512。

6.根据权利要求5所述的基于transformer的驾驶员分心检测方法，其特征在于，所述利用驾驶员分心检测模型FPT对所述分心驾驶图像数据进行分析，得到的分心检测结果用于辅助驾驶员安全驾驶。

7.一种驾驶员分心检测装置，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。