CN114463727A

CN114463727A - 一种地铁驾驶员行为识别方法

Info

Publication number: CN114463727A
Application number: CN202210028115.6A
Authority: CN
Inventors: 赵志鑫; 王奋; 刘志钢
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-10

Abstract

本发明涉及一种地铁驾驶员行为识别方法，包括：获取地铁驾驶员驾驶行为的历史数据，所述历史数据包含各种对应于不同驾驶行为的图片数据；对获取的历史数据进行预处理；将预处理后的历史数据划分为训练集和测试集；构建改进的ResNet18模型，利用训练集和测试集对改进的ResNet18模型进行迭代训练，以得到驾驶行为识别模型；获取实际待识别的驾驶行为数据，将该驾驶行为数据输入识别模型中，输出得到对应的行为识别结果。与现有技术相比，本发明通过设计一种轻量化的卷积神经网络结构，能够快速、准确地分类识别出驾驶员驾驶行为。

Description

一种地铁驾驶员行为识别方法

技术领域

本发明涉及轨道交通控制技术领域，尤其是涉及一种地铁驾驶员行为识别方法。

背景技术

地铁驾驶员精神分散、注意力不集中是引发地铁事故的主要原因，其中，驾驶员精神分散的驾驶行为有驾驶时使用手机、不瞭望前方、打瞌睡和进食等行为。为此，对于目前的车载辅助驾驶系统而言，如何利用现有的驾驶员行为数据集，学习各类驾驶行为的特征，从而准确高效地对驾驶员行为进行分类识别、达到监控驾驶员状态，将成为减少由于驾驶员分心驾驶而引起事故的有效手段。

现有的车载辅助驾驶系统一般是根据获取到的驾驶员行为的类别数据，直接运用ResNet、InceptionV3、MobileNetV2、ShuffleNet等卷积神经网络进行特征提取和分类，以得到训练后的模型；之后利用该训练后的模型将待分类的驾驶员行为图片输入卷积神经网络后，得到驾驶员行为分类预测结果。而在卷积神经网络的选取上，ResNet、InceptionV3等网络的特点是精度较高但结构复杂、模型体积大；MobileNetV2、ShuffleNet等网络能降低运算量，但是会带来精度上的损失。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种地铁驾驶员行为识别方法，通过设计一种轻量化的卷积神经网络结构，从而能够快速准确地分类识别出驾驶员驾驶行为。

本发明的目的可以通过以下技术方案来实现：一种地铁驾驶员行为识别方法，包括以下步骤：

S1、获取地铁驾驶员驾驶行为的历史数据，所述历史数据包含各种对应于不同驾驶行为的图片数据；

S2、对获取的历史数据进行预处理；

S3、将预处理后的历史数据划分为训练集和测试集；

S4、构建改进的ResNet18模型，利用训练集和测试集对改进的ResNet18模型进行迭代训练，以得到驾驶行为识别模型；

S5、获取实际待识别的驾驶行为数据，将该驾驶行为数据输入识别模型中，输出得到对应的行为识别结果。

进一步地，所述步骤S1具体是通过摄像头采集获取实验室环境下地铁驾驶员的不同驾驶行为数据。

进一步地，所述不同驾驶行为数据包括对应于正常、分心或危险驾驶状态的9类驾驶行为，具体的，所述正常驾驶状态对应的驾驶行为有：正常坐下且双手在驾驶台上；正常坐下且进行驾驶手势；

所述分心驾驶状态对应的驾驶行为有：喝水、吃东西；左顾右盼；玩手机；

所述危险驾驶状态对应的驾驶行为有：司机趴在驾驶台上；打哈欠、身体出现倾斜、头部低沉或手支撑头部；转向身后拿东西；离开驾驶位。

进一步地，所述步骤S2具体是对获取的历史数据进行切割、随机翻转、打乱以及线性归一化处理。

进一步地，所述步骤S3具体是按照设定的比例将预处理后的历史数据划分为训练集和测试集。

进一步地，所述改进的ResNet18模型的迭代训练过程为：将数据输入模型中进行特征提取，通过计算交叉熵损失函数进行反向传播更新权重，直至达到设定的迭代次数。

进一步地，所述改进的ResNet18模型包括依次连接的第一卷积层、第二模块层、第三模块层、第四模块层、第五模块层和输出层，所述第二模块层与第三模块层之间、所述第三模块层与第四模块层之间、所述第四模块层与第五模块层之间、所述第五模块层与输出层之间分别连接有SE层。

进一步地，所述第一卷积层包括依次连接的卷积网络、归一化网络和激活网络，所述归一化网络采用BatchNorm2d()函数，使得数据在进行激活之前不会因为数据过大而导致网络性能的不稳定；所述激活网络采用Relu激活函数。

进一步地，所述第二模块层、第三模块层、第四模块层、第五模块层均设置有Ghost模块和Involution模块，所述Ghost模块用于进行模型压缩，以提高计算速度、降低延时；

所述Involution模块采用神经网络算子Involution，其具体数据处理过程为：

1、提取输入通道上某一位置像素；

2、φ(X)函数生成1*1*K*K*G大小的核，并将其展开为K×K×G；

3、与输入特征进行相乘加和操作，获得结果1×1×C。

进一步地，所述SE层的工作过程包括：首先进行Squeeze操作，顺着空间维度进行特征压缩，将每个二维的特征通道变成一个实数，这个实数具有全局的感受野，并且输出的维度和输入的特征通道数相匹配，它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野；

其次进行Excitation操作，是一个类似于循环神经网络中门的机制，通过参数w来为每个特征通道生成权重，其中，参数w被学习用来显式地建模特征通道间的相关性；

最后进行Reweight的操作，将Excitation的输出的权重作为经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上对原始特征的重标定。

与现有技术相比，本发明提出一种基于轻量级改进ResNet18模型的地铁驾驶员行为识别方法，采用Involution算子、Ghost模块和SE注意力机制，并结合残差神经网络模型，设计出一种轻量化的卷积神经网络结构，结合地铁模拟驾驶室采集的历史数据集，利用Ghost模块进行模型压缩，采用简单的线性运算生成ghost，能够在保证网络精度的同时减少网络参数和计算量，从而提升计算速度，降低延时；利用Involution算子，其比传统的convolution更轻量更高效，形式上比传统的self-attention更加简洁，能够在各种视觉任务的模型取得精度和效率的双重提升；利用SE层将各模块层、模块层与输出层进行连接，以有效确定出提取出特征对应的重要性；由此训练出体积小、运算简单且准确率高的驾驶员行为识别模型，能够很好地适用于地铁车载移动端场景进行驾驶行为的识别分类。

附图说明

图1为本发明的方法流程示意图；

图2为改进的ResNet18模型的结构示意图；

图3为改进的ResNet18模型中卷积层的结构示意图；

图4为模块层中Ghost模块的工作过程示意图；

图5为模块层中Involution模块的工作过程示意图；

图6为SE层的工作过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种地铁驾驶员行为识别方法，包括以下步骤：

S1、获取地铁驾驶员驾驶行为的历史数据，所述历史数据包含各种对应于不同驾驶行为的图片数据，具体是通过摄像头采集获取实验室环境下地铁驾驶员的不同驾驶行为数据，其中，不同驾驶行为数据包括对应于正常、分心或危险驾驶状态的9类驾驶行为，正常驾驶状态对应的驾驶行为有：正常坐下且双手在驾驶台上；正常坐下且进行驾驶手势；

分心驾驶状态对应的驾驶行为有：喝水、吃东西；左顾右盼；玩手机；

危险驾驶状态对应的驾驶行为有：司机趴在驾驶台上；打哈欠、身体出现倾斜、头部低沉或手支撑头部；转向身后拿东西；离开驾驶位；

S2、对获取的历史数据进行预处理，具体是对获取的历史数据进行切割、随机翻转、打乱以及线性归一化处理；

S3、将预处理后的历史数据按照设定的比例划分为训练集和测试集；

S4、构建改进的ResNet18模型，利用训练集和测试集对改进的ResNet18模型进行迭代训练，以得到驾驶行为识别模型，其中，改进的ResNet18模型的迭代训练过程为：将数据输入模型中进行特征提取，通过计算交叉熵损失函数进行反向传播更新权重，直至达到设定的迭代次数；

如图2所示，本技术方案中，改进的ResNet18模型包括依次连接的第一卷积层、第二模块层、第三模块层、第四模块层、第五模块层和输出层，所述第二模块层与第三模块层之间、所述第三模块层与第四模块层之间、所述第四模块层与第五模块层之间、所述第五模块层与输出层之间分别连接有SE层；

如图3所示，第一卷积层包括依次连接的卷积网络、归一化网络和激活网络，归一化网络采用BatchNorm2d()函数，使得数据在进行激活之前不会因为数据过大而导致网络性能的不稳定；激活网络采用Relu激活函数；

第二模块层、第三模块层、第四模块层、第五模块层均设置有Ghost模块和Involution模块，Ghost模块用于进行模型压缩，以提高计算速度、降低延时；

Involution模块采用神经网络算子Involution，其具体数据处理过程为：

1、提取输入通道上某一位置像素；

2、φ(X)函数生成1*1*K*K*G大小的核，并将其展开为K×K×G；

3、与输入特征进行相乘加和操作，获得结果1×1×C；

SE层的工作过程包括：首先进行Squeeze操作，顺着空间维度进行特征压缩，将每个二维的特征通道变成一个实数，这个实数具有全局的感受野，并且输出的维度和输入的特征通道数相匹配，它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野；

本实施例应用上述技术方案，主要包括以下内容：

首先获取实验室采集的各种行为数据、得到对应不同驾驶行为的一系列照片；

之后对图片进行预处理、打乱数据、对图片进行拉伸和翻转等处理；

再将数据划分为训练集和测试集；

然后将数据输入到搭建好的改进的ResNet18模型当中进行特征提取；

通过计算交叉熵损失函数进行反向传播更新权重；

并通过多轮迭代得到相对最优的训练模型；

最后把训练好的模型部署到需要的场景、对地铁驾驶员各种行为进行分类。

在搭建的模型中，其主要结构有：

Involution算子，involution核是由在(i,j)处以单个像素为条件的函数产生的，随后是通道到空间的重排；之后将involution的乘加运算分解为2个步骤，

表示跨C个信道传播的乘法运算，

表示在空间邻域内聚合的求和运算；

Ghost模块是一种模型压缩的方法，采用简单的线性运算生成ghost，即在保证网络精度的同时减少网络参数和计算量，从而提升计算速度，降低延时；

SE结构：一个SE模块过程主要分为Squeeze(压缩)和Excitation(激发)两个步骤：Squeeze(压缩)通过在Feature Map层上执行Global Average Pooling，得到当前FeatureMap的全局压缩特征量；Excitation(激发)通过两层全连接的bottleneck结构得到FeatureMap中每个通道的权值，并将加权后的Feature Map作为下一层网络的输入。

本实施例中，实验室收集的数据包含驾驶员9大类行为数据，归属于正常、分心或危险驾驶三种状态。

正常驾驶：1)正常坐下状态、双手在驾驶台上；2)正常坐下状态、进行手势(左手示意前方或高举左手握拳)；

分心驾驶：1)喝水、吃东西；2)左顾右盼；3)玩手机；

危险驾驶：1)司机趴在驾驶台上；2)打哈欠、身体出现倾斜或者头部低沉、手支撑头部；3)转向身后拿东西；4)离开驾驶位。

在获取实验室环境下地铁驾驶员9大类行为图片数据后，按照行为标签作为文件名保存并依次读入；

数据预处理过程为：首先图片切割为统一尺寸224*224像素，然后进行随机翻转与打乱并做线性归一化处理，再划分为8:2比例的训练集和测试集；

输入数据为224*224的三通道彩色图，其作为输入端输入到改进的ResNet18模型当中进行特征提取；

改进的ResNet18在原有的ResNet18模型(如表1所示：包括一个卷积层和4个模块与输出层)基础之上做改进。改进后的模型如表2所示，在每个模块中替换为GhostNet中Ghost鬼影处理方法，7*7的Involution内卷算子替换原有的3*3卷积方法。输出层先进行最大池化处理、再经过softmax分类器输出各类别行为的概率值。

表1

表2

卷积层包括依次连接的卷积、归一化和激活函数，本实施例中，归一化处理采用BatchNorm2d()函数，使得数据在进行激活函数之前不会因为数据过大而导致网络性能的不稳定，BatchNorm2d()函数数学原理如下：

其中，mean为数据的均值，num_features为特征的总数量，一般输入参数包括有batch_size*num_features*height*width，eps为分母中添加的一个值，目的是为了计算的稳定性，默认为：1e-5，momentum为一个用于运行过程中均值和方差的一个估计参数，affine：当设为true时，会给定可以学习的系数矩阵gamma和beta；

Relu函数进行非线性变化，Relu激活函数公式如下：

Ghost模块采用GhostNet网络中Ghost模块，Ghost模块是一种模型压缩的方法，即在保证网络精度的同时减少网络参数和计算量，从而提升计算速度(speed)，降低延时(latency)。如图4所示，原理如下：生成ghost图的过程采用简单的线性运算Φ，代替原本的卷积操作。假设原始卷积操作中输入Input与n组k x k的Kernel卷积后生成通道数为n，尺寸为h’×w’大小的输出。在ghost模型中，采用m组k x k的Kernel与input进行卷积，生成m×h’×w’的本征图intrinsic，之后本征图进行线性变换Φ产生ghost图，将intrinsic和ghost一起作为输出。

Involution模块：如图5所示，核心思想就是和卷积反着来，重新考虑了卷积的特性，从通道冗余出发，它比convolution更轻量更高效，形式上比self-attention更加简洁，可以用在各种视觉任务的模型上取得精度和效率的双重提升。

步骤如下：提取输入通道上某一位置像素；

φ(X)函数生成1*1*K*K*G大小的核，并将其展开为K×K×G；

与输入特征进行相乘加和操作获得结果1×1×C。

SE模块是考虑到特征通道之间的关系而设计的，其原理如图6所示，给定一个输入x，其特征通道数为c1，通过一系列卷积等一般变换后得到一个特征通道数为c2的特征。

首先是Squeeze操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。

其次是Excitation操作，它是一个类似于循环神经网络中门的机制。通过参数w来为每个特征通道生成权重，其中参数w被学习用来显式地建模特征通道间的相关性。

最后是一个Reweight的操作，将Excitation的输出的权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

输出层的分类器采用softmax分类器进行多分类：

其中，q为最终输出的类别个数，在行为分类任务中，类别数为9，从上式中可看出，每个样本的预测值在9个类别(数字0～8)概率之和都等于1。

综上可知，本技术方案中，构建的改进后的模型轻巧，模型参数比原有的残差神经网络无论是参数还是计算量都大大降低；

改进的模型采用Involution算子代替了原有的卷积块、加入了注意力机制不仅优化了过拟合的问题，而且提升了模型准确度。

改进的模型源代码可采用Pytorch架构、便于后期修改和部署、可移植性强。

Claims

1.一种地铁驾驶员行为识别方法，其特征在于，包括以下步骤：

S2、对获取的历史数据进行预处理；

S3、将预处理后的历史数据划分为训练集和测试集；

2.根据权利要求1所述的一种地铁驾驶员行为识别方法，其特征在于，所述步骤S1具体是通过摄像头采集获取实验室环境下地铁驾驶员的不同驾驶行为数据。

3.根据权利要求1～2任一所述的一种地铁驾驶员行为识别方法，其特征在于，所述不同驾驶行为数据包括对应于正常、分心或危险驾驶状态的9类驾驶行为，具体的，所述正常驾驶状态对应的驾驶行为有：正常坐下且双手在驾驶台上；正常坐下且进行驾驶手势；

4.根据权利要求1所述的一种地铁驾驶员行为识别方法，其特征在于，所述步骤S2具体是对获取的历史数据进行切割、随机翻转、打乱以及线性归一化处理。

5.根据权利要求1所述的一种地铁驾驶员行为识别方法，其特征在于，所述步骤S3具体是按照设定的比例将预处理后的历史数据划分为训练集和测试集。

6.根据权利要求1所述的一种地铁驾驶员行为识别方法，其特征在于，所述改进的ResNet18模型的迭代训练过程为：将数据输入模型中进行特征提取，通过计算交叉熵损失函数进行反向传播更新权重，直至达到设定的迭代次数。

7.根据权利要求1所述的一种地铁驾驶员行为识别方法，其特征在于，所述改进的ResNet18模型包括依次连接的第一卷积层、第二模块层、第三模块层、第四模块层、第五模块层和输出层，所述第二模块层与第三模块层之间、所述第三模块层与第四模块层之间、所述第四模块层与第五模块层之间、所述第五模块层与输出层之间分别连接有SE层。

8.根据权利要求7所述的一种地铁驾驶员行为识别方法，其特征在于，所述第一卷积层包括依次连接的卷积网络、归一化网络和激活网络，所述归一化网络采用BatchNorm2d()函数，使得数据在进行激活之前不会因为数据过大而导致网络性能的不稳定；所述激活网络采用Relu激活函数。

9.根据权利要求7所述的一种地铁驾驶员行为识别方法，其特征在于，所述第二模块层、第三模块层、第四模块层、第五模块层均设置有Ghost模块和Involution模块，所述Ghost模块用于进行模型压缩，以提高计算速度、降低延时；

1、提取输入通道上某一位置像素；

2、φ(X)函数生成1*1*K*K*G大小的核，并将其展开为K×K×G；

3、与输入特征进行相乘加和操作，获得结果1×1×C。

10.根据权利要求7所述的一种地铁驾驶员行为识别方法，其特征在于，所述SE层的工作过程包括：首先进行Squeeze操作，顺着空间维度进行特征压缩，将每个二维的特征通道变成一个实数，这个实数具有全局的感受野，并且输出的维度和输入的特征通道数相匹配，它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野；