CN111553209A

CN111553209A - 一种基于卷积神经网络和时间序列图的司机行为识别方法

Info

Publication number: CN111553209A
Application number: CN202010297514.3A
Authority: CN
Inventors: 黄世泽; 杨玲玉; 张肇鑫; 陈威
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-18
Anticipated expiration: 2040-04-15
Also published as: CN111553209B

Abstract

一种基于卷积神经网络和时间序列图的司机行为识别方法：采集司机驾驶视频，建立司机行为数据集；基于司机行为数据集，采用卷积神经网络方法，通过网络训练获得司机行为识别模型；采集司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将多帧图像输入所述司机行为识别模型，识别每帧图像中司机行为所属类别；绘制司机行为时间序列图；通过时间序列图获得视频中司机每类行为出现次数以及持续时长，并判断司机行为是否规范；依据时间序列图得到视频中车辆的运行状态。此发明准确判断司机驾驶过程中的几类行为，基于模型的识别结果绘制时间序列图能评价司机行为是否规范，并分析车辆的运行状态，提高分析的效率，提高行车安全。

Description

一种基于卷积神经网络和时间序列图的司机行为识别方法

技术领域

本发明涉及轨道交通安全领域。

背景技术

在中国经济高速发展的今天，人们对出行的要求越来越高，给城市交通带来了巨大的压力。而城市交通运营规模不断扩大。在城市交通车辆的安全运营的环节中，司机安全作业是其中关键的一部分，它直接关系到乘客的安全问题。然而，司机在运营过程中存在着许多安全隐患。如司机的业务水平、心理素质及身体素质，或者设备的不可靠状态都将会给乘客带来重大安全问题。

目前，在主要城市的车辆上都配有视频监控设备，此设备将监控司机的视频数据存入到该装置的存储器内，然后再将存储数据下载到地面设备，进行后期人工处理分析，但这种人工分析监控录像的方式需要大量的地面视频数据分析人员和设备，劳动强度大，耗费人力物力且效率低，并且缺乏对司机行为实时预警处理，不能对司机在机车行为过程中不当行为进行提醒，交通运营管理部门的实际要求无法满足。

随着人工智能的发展，深度学习在图像识别和特征提取方面显示了突出的能力。深度神经网络算法的成熟也使得它在交通领域的应用研究受到了越来越多的关注。深度神经网络是由神经元组成，它们可以学习基于逐步分层抽象的复杂模型。并充分发挥了神经网络的自学习能力，通过训练不断更新权重，以原始数据作为算法输入，通过算法将其逐层抽象为所需要的特征表示，它避免了人工选择特征，比传统的行为识别方法具有更好的识别效果。

为解决上述缺陷，许多研究学者运用传统的图像处理技术手工提取特征，这涉及到繁琐的特征提取和参数调整过程。另外一些学者考虑将深度学习运用到司机行为识别中，但图像的二维特征往往不能很好的表达视频的三维特征。

发明内容

本发明提供了一种基于卷积神经网络和时间序列图的司机行为识别方法。

目的一，能准确识别司机驾驶过程中的几类行为；

目的二，评价司机行为是否规范；

目的三，分析车辆的运行状态。

为了实现上述目的，本发明提供了一种基于卷积神经网络和时间序列图的司机行为识别方法，包括：

(1)：采集司机驾驶视频，对视频进行帧图像提取，建立包含多类司机行为的司机行为数据集；

(2)：基于所述司机行为数据集，采用卷积神经网络方法，通过训练获得司机行为识别模型；

(3)：采集司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将多帧图像输入所述司机行为识别模型，识别每帧图像中司机行为所属类别。

本发明还包括司机行为是否规范评价步骤，具体包括；(4)：以所述帧图像的帧数为横坐标，每帧图像中司机行为所属类别为纵坐标，绘制司机行为时间序列图；(5)：通过时间序列图获得视频中司机每类行为出现次数以及持续时长，并判断司机行为是否规范。

本发明还包括运行状态分析步骤(6)：依据时间序列图得到视频中车辆的运行状态。

步骤(1)，数据集的构建包括：

(1a)使用摄像头采集司机的标准工作视频，并在采集过程结束后从所述标准工作视频中按等间隔的方式均匀提取出图像帧；

(1b)对所述图像帧中的司机行为分类，并按照分类顺序分别对每类图像打上标签，生成司机行为数据集。

步骤(2)，司机识别模型的建立包括：

(2a)样本准备，将样本分为训练集和测试集；

(2b)构建卷积神经网络结构；

(2c)将训练集图像导入步骤(2b)建立的卷积神经网络结构中进行训练；

(2d)训练完成，得到训练精度高的卷积神经网络，即得到司机行为识别模型。

步骤(2b)中，所述卷积神经网络结构如下：

(2b1)以Alexnet结构为基础，网络包括五个Convolutional层(卷积层)、三个MaxPooling层(最大池化层)、三个Dense层(全连接层)；

(2b2)所述Convolutional层提取原始图像的基本特征，如颜色、纹理、形状等；所述MaxPooling层采用最大池化的方法，对前一层进行最大采样，滑窗大小为3×3，步长为2；所述Dense层将经过Convolutional层和MaxPooling层的特征表示映射到数据样本的标记层。网络计算出前一层的输出向量和连接权重向量的内积，然后再加上偏置，经过激活函数的运算后会得到整个网络的一个输出状态；所述激活函数公式如下：

其中，J×I为卷积核的宽和高的大小尺寸，M×N为输入图像的宽和高大小，x_m，n表示在输入图片中(m，n)位置处的像素值，y_m′，n′则代表其对应的计算结果；w为权重，表示对应特征x的影响大小；f为激活函数，对内积进行非线性的变换；b为偏置，其作用为选择分界线。

(2b3)第一层为96个卷积核大小为11×11的Convolutional层，步长为4；第二、四、八层是MaxPooling层；第三、五至七层是4个Convolutional层，卷积核大小为3×3，步长为1，卷积核的个数分别为96、384、384、256个；第九至十一层是Dense层，输出4096维信息，得到分类概率结果。

步骤(2c)中，卷积神经网络的训练方法：

(2c1)将图像帧输入卷积神经网络中，在卷积神经网络中，首先Convolutional层对输入层进行卷积运算和激活操作，以提取输入层的行为空间特征；所述激活函数采用RELU函数，公式如下所示：

f(x)＝max(0，x)

其中，x是输入向量；RELU函数对输入向量进行单侧抑制。

(2c2)通过MaxPooling层对Convolutional层的行为空间特征进行池化操作，用于压缩数据和参数的数量，减小过拟合；

(2c3)根据(2b)的网络结构，对卷积神经网络逐层重复(2c1)、(2c2)两个步骤，重复多次，直至Dense层，Dense层将尺寸为36*36*256的输入数据进行全连接运算，通过RELU激活函数与Dropout运算生成维度为4096的输出向量；所述全连接层的输出向量经softmax函数计算得到最后的预测值，使用交叉熵损失，函数计算所述预测值与真实值的损失函数值，并最小化损失函数值；

(2c4)通过随机梯度下降法不断调整网络权重和偏置，重新计算损失函数值，直至损失函数值趋于稳定或到达设定的迭代次数，获得分类后的图片特征。

本发明具体使用了SGD随机梯度下降法。

步骤(3)中，司机识别模型识别司机行为所属类别：

(3a)将司机视频按等间隔5帧的方式进行帧序列提取，将所述连续监控图像输入所述司机行为识别模型；

(3b)模型输出是概率数组，概率数组中的每一个元素值分别表示对应行为的概率，其中分别表示属于六类行为的概率。识别结果的计算公式为：

Result＝argmax(R_i)，i＝1，2，3，...

其中，i是图像的帧的数目，并且R_i是每个图像的概率数组，argmax函数是找到对应于概率数组中的最大概率的标签，并将标签作为分类结果。

步骤(4)所述绘制司机行为时间序列图：

(4a)连续的图像必须是一个时间序列，每帧图像的识别结果计算公式如下：

Result＝argmax(R_i)，i＝1，2，3，...

其中i表示帧数，R_i是每个图像的概率数组，Result表示行为分类结果。

(4b)本发明以帧数i为横坐标，以得到的行为分类结果Result为纵坐标，构造时间序列图；

步骤(5)获取司机行为情况：

(5a)计算时间序列图中每个Result值持续出现的次数，

sum_a＝enumerate(i|_Result＝a)，a＝0，1，2，3，4，5

(5b)计算每次行为的持续时长，计算公式如下：

L为每次行为的总帧数，FPS指每秒传输帧数

(5c)根据Result值对应的行为类别，得到一段视频内司机每类行为发生的次数以及每次的持续时长；

(5d)判断时间序列图中司机一系列行为操作是否符合司机作业标准化操作手册中司机的操作顺序，以此结果判断司机行为是否规范。

步骤(6)所述获取车辆运行情况包括以下步骤：

(6a)分析车辆停止时的司机行为，将司机行为开始的起始帧数为f_a，终结帧数为f_b，停站间隔时间计算为：

FPS指每秒传输帧数

(6b)车辆下一次停靠站台时所在的帧数为f_c，车辆运行时间公式计算为：

依据所述车辆运行时间公式即可得到车辆运行时间。

本发明提出的一种基于卷积神经网络和时间序列图的司机行为识别方法，能准确识别司机驾驶过程中的几类行为和车辆运行状态，并评价司机行为是否规范。将本发明进行市场应用推广，可转化为一个智能识别司机的驾驶行为的预警系统，实现视频自动化检索，提高分析司机行为的效率，从而提高行车安全。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的一种基于卷积神经网络和时间序列图的司机行为识别方法的流程示意图；

图2是根据本发明实施例中的司机行为识别的CNN模型结构图；

图3是本发明实施例中部分帧图像的识别结果；

图4是本发明实施例构造的时间序列图；

图5是本发明实施例2的依据时间序列图分析司机行为情况的流程图；

图6是本发明实施例2中司机每类行为发生的次数以及每次的持续时长；

图7是本发明实施例2中的司机行为评价表；

图8是本发明实施例3中计算车辆运行时间与停站时间的示意图；

图9是本发明实施例3得到的车辆运行过程中计算的停站时间与两站之间的运行时间。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

在本实施例中提供了一种基于卷积神经网络和时间序列图的司机行为识别方法，以地铁司机为例，图1是根据本发明实施例的基于卷积神经网络和时间序列图的司机行为识别流程图，包括如下步骤：

步骤S1：采集地铁司机驾驶视频，对视频进行帧图像提取，建立包含多类司机行为的地铁司机行为数据集；

步骤S2：基于所述地铁司机行为数据集，采用卷积神经网络方法，通过训练获得地铁司机行为识别模型；

步骤S3：采集地铁司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将所述多帧图像输入所述地铁司机行为识别模型，识别每帧图像中司机行为所属类别。

通过上述步骤，本申请将自动准确判断地铁司机驾驶过程中的几类行为，基于模型的识别结果绘制时间序列图能评价地铁司机行为是否规范，并分析列车的运行状态。

具体实施时，S1，采集地铁运行时司机驾驶室的监控视频，由于相邻的帧图像差异很小，选择按等间距5帧的方式进行帧序列提取，帧序列的提取方式使用matlab，将提取出来的帧图像存入相应的文件夹，定义为地铁司机行为数据集。根据地铁司机的行为操作方式，将地铁司机行为数据集分为六种行为，六种行为简单定义如下：

(0)站台立岗：驾驶员离开司机驾驶室，进行站台立岗；

(1)点指呼唤：地铁司机向前挥手示意；

(2)挂挡：地铁司机滑动司机控制台上的手柄。

(3)ATO启动按钮：地铁司机按下操纵台的启动按钮

(4)列车运行：地铁司机牧师前方，地铁列车正处于站间运行中；

(5)离开座位：地铁司机从起身到站台立岗之间的动作。

将地铁司机行为数据集分类后，按照每个类别分别进行打标签操作，站台立岗、点指呼唤、挂挡、ATO启动按钮、列车运行、离开座位，将其分别标记为“0”，“1”，“2”，“3”，“4”，“5”。为S2步骤提供监督学习的数据标签；从而建立了含多类司机行为的地铁司机行为数据集。

下面结合图2对本发明的步骤S2进行详细说明。

S2，在获得了新样本数据集，将其分为训练集与测试集，用以构建地铁司机行为识别模型。本发明采用AlexNet的卷积网络模型，对地铁司机行为进行识别。为了更好的说明本实施例的地铁司机行为识别方法，下面结合图2所示的模型进行说明，如图2所示，对地铁司机行为图形进行迭代训练，不断调整网络的参数，直至训练精度达到最优模型。训练好的网络包括五个Convolutional层、三个MaxPooling层、三个Dense层；

首层是卷积层Conv1，接受150*150*3图像的输入，其中150*150是指输入图像的宽度与高度，3是指图像为RGB通道。Conv1卷积核大小为11*11，步长为4，输出形状为96*35*35特征图，Conv2输出形状为256*17*17特征图，Conv3输出形状为384*8*8特征图，Conv4输出形状为384*8*8特征图，Conv5输出形状为256*3*3特征图，卷积核大小为3×3，步长为1；其次是三个池化层，其大小为3*3，步长为2，并且为最大值池化，分别接在Conv1层，Conv2层与Conv5层后面，输出形状分别为96*17*17，156*8*8，256*3*3的特征图；最后三个Dense层输出维度都为4096；

根据卷积神经网络模型Alexnet的设置，将地铁司机行为数据集的图像分辨率696*568统一重新调整大小为150*150；此外，在深度学习的图像处理中，数据科学性需要合理的数据划分，也需要对数据进行标准化操作。本实施例计算数据集图像像素均值，将其像素范围调整在[0，1]之间；

然后，将图像帧输入Alexnet模型中，在Alexnet模型中，后一层对前一层的输出进行卷积运算和激活操作，以提取前一层的行为空间特征。此外，通过随机梯度下降法SGD优化器，Relu激活函数做非线性变换，不断调整网络权重和偏置，使用交叉熵函数重新计算损失函数值，直至损失函数值趋于稳定或到达设定的迭代次数，获得分类后的图片特征。本实施例设置批次数为16，迭代次数为10，基于keras2.1.5框架训练。

最后，将训练完成的所述深度学习网络模型的结构和参数固化，得到地铁司机行为识别模型，模型准确率达到96.20％。

下面结合图3对本发明的步骤S3进行详细说明。

S3，采集地铁司机的实时工作视频，将地铁司机视频按间隔5帧的方式进行帧序列提取，将所述多帧图像输入所述地铁司机行为识别模型；

模型输出是概率数组[a，b，c，d，e，f]，其中“a”，“b”，“c”，“d”，“e”，“f”分别是表示属于六类行为的概率。其中概率最大值作为分类结果。识别结果的的计算公式为：

Result＝argmax(R_i)，i＝1，2，3，...

其中，i是图像的帧的数目，并且R_i是每个图像的概率阵列，argmax函数是找到对应于概率数组中的最大概率的标签，并将标签作为分类结果。图3为部分帧图像的识别结果；

实施例2

在实施例1的基础上进一步执行：

步骤S4：以所述帧图像的帧数为横坐标，每帧图像中司机行为所属类别为纵坐标，绘制地铁司机行为时间序列图；

步骤S5：通过时间序列图获得视频中地铁司机每类行为出现次数以及持续时长，并判断地铁司机行为是否规范；

下面结合图4对本发明的步骤S4进行详细说明。

S4，将连续经过四个站的视频数据按等间隔进行帧序列提取，进行预处理为测试数据，该测试数据共有990帧图像，输入到地铁司机行为识别模型中，由于连续的图像必须是一个时间序列，每帧图像的识别结果计算公式如下：

Result＝argmax(R_i)，i＝1，2，3，...

其中i表示帧数，Result表示地铁司机行为分类结果。

本发明的实施例以帧数i为横坐标，以得到的结果Result为纵坐标，构造如图4所示的时间序列图。

下面结合图5、图6和图7对本发明的步骤S5进行详细说明。

S5，图5所示是本发明实施例的依据时间序列图分析时间序列地铁司机行为情况的流程图。如图5所示，时间序列图绘制来源是地铁司机视频，本发明实施例将990张帧图像的识别结果绘制时间序列图，对得到的时间序列图进行处理，获得视频中地铁司机每类行为出现次数以及持续时长，并判断地铁司机行为是否规范；

1.实施例中，根据公式计算时间序列图中每个Result值持续出现的次数，

sum_a＝enumerate(i|_Result＝a)，a＝0，1，2，3，4，5

2.计算每次行为的持续时长，计算公式如下：

L为990帧，FPS指每秒传输帧数

如图6所示，根据Result值对应的行为类别，得到一段视频内地铁司机每类行为发生的次数以及每次的持续时长。

3.判断司机行为是否规范包含以下步骤：

(1)根据乘务中心单司机一日作业标准化操作手册，将规范中对地铁司机操作的要求与设定的类别进行对照；

(2)将作业规范中的顺序正线驾驶→进站作业→站台作业→出站作业对应类别为列车正运行→点指呼唤和挂挡→离开座位进行站台立岗→点指呼唤和挂挡→按下启动按钮，根据此顺序制定地铁司机行为评价表。如图7所示，通过判断时间序列图是否符合作业标准，即可对司机的行为操作操作是否正确进行判定。

实施例3

在实施例1的基础上执行步骤S6：依据时间序列图得到视频中车辆的运行状态。

下面结合图8和图9对本发明的步骤S6的可选进行详细说明。

如图8所示时间序列图，列车停靠在站台时，地铁司机的行为为“站台立岗”。即时间序列图中纵坐标值为“4”，所述行为发生的起始帧数为f1，f3，终结帧数为f2，f4，因此，停站次数为：

(f_m为站台立岗最后一帧)

第一次停站间隔时间计算为：

FPS指每秒传输帧数

第一次列车运行时间计算为：

FPS指每秒传输帧数

图9是本发明实施例得到的列车运行过程中计算的停站时间与两站之间的运行时间。

Claims

1.一种基于卷积神经网络和时间序列图的司机行为识别方法，其特征在于，包括：

(3)：采集司机的实时工作视频并按照预设的帧率提取出连续的多帧图像，将多帧图像输入司机行为识别模型，识别每帧图像中司机行为所属类别。

2.如权利要求1所述方法，其特征在于，步骤(1)，数据集的构建包括：(1a)使用摄像头采集司机的标准工作视频，并在采集过程结束后从所述标准工作视频中按等间隔的方式均匀提取出图像帧；

3.如权利要求1所述方法，其特征在于，步骤(2)，司机识别模型的建立包括：

(2a)样本准备，将样本分为训练集和测试集；

(2b)构建卷积神经网络结构；

4.如权利要求3所述方法，其特征在于，步骤(2b)中，所述卷积神经网络结构如下：

(2b2)所述Convolutional层提取原始图像的基本特征；所述MaxPooling层采用最大池化的方法，对前一层进行最大采样，滑窗大小为3×3，步长为2；所述Dense层将经过Convolutional层和MaxPooling层的特征表示映射到数据样本的标记层。网络计算出前一层的输出向量和连接权重向量的内积，然后再加上偏置，经过激活函数的运算后会得到整个网络的一个输出状态；所述激活函数公式如下：