CN110543848A

CN110543848A - 一种基于三维卷积神经网络的驾驶员动作识别方法及装置

Info

Publication number: CN110543848A
Application number: CN201910810525.4A
Authority: CN
Inventors: 罗铭; 肖骁
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-06
Anticipated expiration: 2039-08-29
Also published as: CN110543848B

Abstract

本发明实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法及装置，通过预设特征工程从对驾驶员拍摄的视频提取特征数据，由目标模型根据特征数据对驾驶员的行为进行识别。目标模型是通过对构建的三维卷积神经网络进行训练得到的，三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。通过对三维卷积神经网络的结构进行改进，使得训练的目标模型对驾驶员的动作具有更准确的识别结果。另一方面，相对于采集面部特征，对驾驶员动作的采集不容易受到环境的干扰，且特征数据中包含了反应驾驶员动作随时间变化的光流特征，这种动作连续性的数据进一步提高了识别结果的准确性。

Description

一种基于三维卷积神经网络的驾驶员动作识别方法及装置

技术领域

本发明涉及轨道交通技术领域，尤其是涉及一种基于三维卷积神经网络的驾驶员动作识别方法及装置。

背景技术

在保障城市轨道交通的行车安全之中，驾驶员肩负着重要的责任，其准确的动作与清醒的意识往往决定着乘客运输的安全。较少的驾驶员配置、单调的驾驶动作和列车驾驶的高度自动化是驾驶员产生疲劳的重要原因，同时驾驶员个人生活习惯、工作量、工作时长也都会对驾驶员是否疲劳产生影响。一些传统的办法是通过完善管理制度和工作计划缓解列车驾驶员驾驶疲劳，列车“防睡死”装备也在一定程度上减轻了驾驶员的疲劳感，但是由于长时间驾驶，驾驶员可能因为习惯性动作对“防睡死”装备不敏感，该装备也无法实时监控驾驶员的疲劳状态。

现如今对疲劳实检测的方法主要可以分为基于生理信号的疲劳检测方法，基于车辆参数或驾驶行为的疲劳检测和基于机器视觉的疲劳检测。基于机器视觉的疲劳检测方法以其非接触、高效、准确的特点成为疲劳检测的主流方法。然而，在实际情况中，如果驾驶者佩戴眼镜或戴有帽檐的帽子，会对眼睛的图像分割与特征提取产生影响，如果驾驶者戴口罩或者戴墨镜等遮挡性物品，人眼部和嘴部就无法有效定位，其特征的提取也无法进行。手臂等类肤色干扰物也会影响算法的准确性。另一方面，轨道交通列车行驶过程中列车员有明确且区别于其他行业的轨道交通行业的行车规范，其中的规范动作识别问题尚未进行有效研究。

在实际应用过程中，现有的方法多根据对驾驶员面部采集的图像进行判断，容易受到遮挡或者环境的的影响，判断结果不准确。

发明内容

本发明实施例提供一种基于三维卷积神经网络的驾驶员动作识别方法及装置，用以解决现有技术中的方法多根据对驾驶员面部采集的图像进行判断，容易受到遮挡或者环境的的影响，判断结果不准确的问题。

针对以上技术问题，第一方面，本发明的实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法，包括：

获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；

根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；

将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；

其中，所述目标模型通过对构建的三维卷积神经网络进行训练得到；所述三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。

可选地，所述获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频，包括：

在列车的行驶过程中，通过树莓派控制摄像机云台对摄像头的位置进行调整，使得驾驶员位于所述摄像头的拍摄范围内；

控制所述摄像头对驾驶员进行拍摄，得到所述视频；

其中，所述树莓派用于通过进行人脸识别与追踪的程序，对驾驶员的位置进行追踪，根据追踪的驾驶员的位置控制所述摄像机云台对摄像头的位置进行调整。

可选地，所述在列车的行驶过程中，通过树莓派控制摄像机云台对摄像头的位置进行调整，使得驾驶员位于所述摄像头的拍摄范围内，包括：

在列车的行驶过程中，通过树莓派控制所述摄像机云台在第一预设方向和第二预设方向上移动，使得驾驶员位于所述摄像头拍摄范围的中心位置；

其中，所述摄像头和所述摄像机云台均设置在驾驶员所在的驾驶位置的前方；所述第一预设方向和第二预设方向垂直。

第二方面，本发明的实施例提供了一种基于三维卷积神经网络的驾驶员动作识别装置，包括：

获取模块，用于获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；

提取模块，用于根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；

识别模块，用于将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；

第三方面，本发明的实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上任一项所述的基于三维卷积神经网络的驾驶员动作识别方法的步骤。

第四方面，本发明的实施例提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以上任一项所述的基于三维卷积神经网络的驾驶员动作识别方法的步骤。

本发明的实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法及装置，通过预设特征工程从对驾驶员拍摄的视频提取特征数据，由目标模型根据特征数据对驾驶员的行为进行识别。目标模型是通过对构建的三维卷积神经网络进行训练得到的，三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。通过对三维卷积神经网络的结构进行改进，使得训练的目标模型对驾驶员的动作具有更准确的识别结果。另一方面，相对于采集面部特征，对驾驶员动作的采集不容易受到环境的干扰，且特征数据中包含了反应驾驶员动作随时间变化的光流特征，这种动作连续性的数据进一步提高了识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种基于三维卷积神经网络的驾驶员动作识别方法流程示意图；

图2是本发明另一个实施例提供的分别通过现有三维卷积神经网络和本申请改进后的三维卷积神经网络对驾驶员进行动作识别的损失函数值对比图；

图3是本发明另一个实施例提供的分别通过现有三维卷积神经网络和本申请改进后的三维卷积神经网络对驾驶员进行动作识别的准确率对比图；

图4是本发明另一个实施例提供的基于三维卷积神经网络的驾驶员动作识别装置的结构框图；

图5是本发明另一个实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本实施例提供的一种基于三维卷积神经网络的驾驶员动作识别方法流程示意图，参见图1，该方法包括以下步骤：

101：获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；

102：根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；

103：将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；

本实施例提供的方法由安装有执行上述方法的软件的设备执行，该设备可以是服务器、计算机或用于实时对驾驶员的动作进行识别的车载设备，本实施例对此不做具体限制。为了提高对驾驶员动作识别的准确性，本实施例一方面对用于进行训练的三维卷积神经网络的结构进行改进，增加三维卷积神经网络的深度，使得输入到三维卷积神经网络的数据通过多个组合层结构后输入到全连接层，最终由模型输出识别结果，提高模型识别的准确性。另一方面，通过预设特征工程从拍摄的视频中提取特征数据，提取的特征数据中包含光流特征，光流特征反应了驾驶员动作随时间的变化，增加了特征数据的维度，进一步提高了识别结果的准确性。

预设特征工程为从视频中提取特征数据的过程，包括从视频中选取视频帧，对每一视频帧提取特征数据的过程。光流数据表征了视频帧中像素点随时间的变化。预设动作包括疲劳类动作和非疲劳类动作，每一预设动作均可以根据“驾驶员驾驶动作规范守则”选取，例如，疲劳类动作中选取揉眼睛和打哈欠作为预设动作，在非疲劳类动作中选取启动、停止和指信号灯等动作作为预设动作。在对模型训练的过程中，每一预设动作均采集样本数据，训练三维卷积神经网络对该预设动作进行识别的功能。通常，目标模型输出的是对应于各识别动作的概率，该概率表示驾驶员的动作与该预设动作之间的相符程度。可理解的是，最大的概率对应的预设动作可以认为是该驾驶员当前的动作。

需要说明的是，对驾驶员拍摄视频的硬件设备可以选取拥有两个自由度的摄像机云台、AI摄像头和树莓派。在树莓派中烧入人脸识别与追踪程序，转动摄像头确保人脸的位置始终在画面的中央，并将画面传输至3DCNN(三维卷积神经网络)模型中进行检测。这样能有效追踪人物的动作，确保人物动作区域与训练集中动作的区域一致。

本实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法，通过预设特征工程从对驾驶员拍摄的视频提取特征数据，由目标模型根据特征数据对驾驶员的行为进行识别。目标模型是通过对构建的三维卷积神经网络进行训练得到的，三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。通过对三维卷积神经网络的结构进行改进，使得训练的目标模型对驾驶员的动作具有更准确的识别结果。另一方面，相对于采集面部特征，对驾驶员动作的采集不容易受到环境的干扰，且特征数据中包含了反应驾驶员动作随时间变化的光流特征，这种动作连续性的数据进一步提高了识别结果的准确性。

进一步地，在上述各实施例的基础上，所述三维卷积神经网络包括3个依次连接的组合层结构。

本实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法，构建的三维卷积神经网络包括3个依次连接的组合层结构，3个组合层结构的三维卷积神经网络不仅提高了模型对预设动作识别的准确性，还保证模型的计算量在合理的范围内，保证了计算效率。

以下对包括多个依次连接的组合层结构的三维卷积神经网络的结构进行介绍。本实施例构建的三维卷积神经网络包括3个依次连接的组合层结构，每一组合层结构包括卷积层、池化层和Dropout层。表1示出了三维卷积神经网络各层的输出，参见表1，第1个组合层结构包括conv3d_1和conv3d_2这两个卷积层，max_pooling3d_1这1个池化层和1个dropout_1层。第2个组合层结构包括conv3d_3和conv3d_4这两个卷积层，max_pooling3d_2这1个池化层和1个dropout_2层。第3个组合层结构包括conv3d_5和conv3d_6这两个卷积层，max_pooling3d_3这1个池化层和1个dropout_3层。

表1三维卷积神经网络各层的输出

进一步地，在上述实施例的基础上，所述根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据，包括：

按照时间顺序，从所述视频中提取数量等于预设数量的视频帧，得到视频帧集合；

对所述视频帧集合中的任一第一视频帧，从所述第一视频帧中分别提取由每一原色组成的原色图像，根据各原色图像提取所述第一视频帧对应的原色特征，并根据所述第一视频帧对应的第一灰度图像提取所述第一视频帧对应的灰度特征；

根据所述第一灰度图像中各像素点在第一方向上的像素值变化确定各像素点的第一梯度，根据所述第一灰度图像中各像素点在第二方向上的像素值变化确定各像素点的第二梯度，将各像素点对应的第一梯度和第二梯度作为所述第一视频帧对应的梯度特征；

对所述第一灰度图像中的任一第一像素点，在第二灰度图像中确定与所述第一像素点位置对应的第二像素点，根据在所述第二灰度图像中与所述第二像素点临近的各像素点确定所述第一像素点对应的光流变化数据，将所述第一灰度图像中各像素点对应的光流变化数据作为所述第一视频帧对应的光流特征；

将所述视频帧集合中的各视频帧对应的原色特征、灰度特征、梯度特征和光流特征作为所述特征数据；

其中，所述第二灰度图像为所述第一视频帧的下一视频帧对应的灰度图像。

需要说明的是，列车行驶过程中，实时对驾驶员进行拍摄，应用本实施例提供的方法从每隔预设时长得到的视频中提取特征数据。首先进行视频帧提取，得到视频帧集合，然后根据视频帧集合提取特征数据。

本实施例中的预设数量为设定值，例如，预设数量为41，即提取的视频帧集合中包含41帧视频帧。具体地，输入层采用跳帧提取的方法，一共提取41帧视频帧，本实施例定义输入层提取视频帧的总数为a＝41。跳帧的方式为其中nframe为视频的总帧数。

在进行预设特征过程的过程中，从第一视频帧中分别提取由每一原色组成的原色图像，即分别提取由三原色(RGB)中的红色组成的原色图像、由三原色中的绿色组成的原色图像和由三原色中的蓝色组成的原色图像。提取的原色特征包括：由红色组成的原色图像的各像素点的像素值、由绿色组成的原色图像的各像素点的像素值和由蓝色组成的原色图像的各像素点的像素值。例如，视频帧集合中包含了41帧视频帧，由于光流特征是通过前后两帧视频帧提取的，因而最后一帧视频帧仅用于进行光流特征的提取，所以特征数据中包含的是前40帧视频帧的每一帧对应的原色特征。

根据第一视频帧的每一像素点中对应的三原色的值，可以将第一视频帧转换为第一灰度图像，第一灰度图像的各像素点对应的像素值组成灰度特征。即对于上述视频帧集合，特征数据中包含的是前40帧视频帧的每一帧对应的灰度特征。

在梯度特征提取的过程中，对于二维的第一灰度图像中每一像素点，计算在第一方向上，下一像素点的像素值和该像素点的像素值之差，得到该像素点对应的第一梯度。计算在第二方向上，下一像素点的像素值和该像素点的像素值之差，得到该像素点对应的第二梯度。以此得到每一像素点对应的第一梯度和第二梯度。其中，通常第一方向为x方向，第二方向为y方向。

在提取光流特征时，根据第二灰度图像中与第二像素点临近的像素点对应的像素值和第一像素点的像素值计算，反应了每一像素点的光流变化。

具体地，在上述各实施例的基础上，所述对所述第一灰度图像中的任一第一像素点，在第二灰度图像中确定与所述第一像素点位置对应的第二像素点，根据在所述第二灰度图像中与所述第二像素点临近的各像素点确定所述第一像素点对应的光流变化数据，包括：

对所述第一灰度图像中的任一第一像素点，在第二灰度图像中确定与所述第一像素点位置对应的第二像素点；

在所述第二灰度图像中获取相对于所述第二像素点沿着所述第一方向移动第一预设距离且在所述第二方向上不变的第三像素点，计算所述第三像素点和所述第一像素点的像素值之差，作为所述第一像素点在所述第一方向的光流变化数据；

在所述第二灰度图像中获取相对于所述第二像素点在所述第一方向上不变且沿着所述第二方向移动第二预设距离的第四像素点，计算所述第四像素点和所述第一像素点的像素值之差，作为所述第一像素点在所述第二方向的光流变化数据；

将所述第一像素点在所述第一方向的光流变化数据和在所述第二方向的光流变化数据，作为所述第一像素点对应的光流变化数据。

每一像素点分别对应了第一方向的光流变化数据和第二方向的光流变化数据。通常第三像素点相比于第二像素点，第二方向的位置不变，第一方向移动第一预设距离，第四像素点相比于第二像素点，第一方向的位置不变，第二方向移动第二预设距离。第一预设距离和第二预设距离为设定值，例如，一个像素点的位置或多个像素点的位置。例如，第一像素点在第一灰度图像中的坐标为(x，y)，则第二像素点在第二灰度图像中的坐标也为(x，y)，第三像素点在第二灰度图像中的坐标也为(x+1，y)，第四像素点在第二灰度图像中的坐标也为(x，y+1)，将第二灰度图像中，(x+1，y)处的像素值和(x，y)处的像素值做差，得到第一像素点在x方向上的光流变化数据，将(x，y+1)处的像素值和(x，y)处的像素值做差，得到第一像素点在y方向上的光流变化数据。

通过上述原色特征、灰度特征、梯度特征和光流特征的提取，最终得到输入目标模型的数据为维度为(40，40，40，5)的矩阵，其中，前3个40表示40帧视频帧，对每一视频帧提取的原色特征，最后一个5表示灰度特征、x方向的梯度特征、y方向的梯度特征、x方向的光流特征和y方向的光流特征这5个方面的特征数据。

本实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法，通过预设特征工程从视频中提取特征数据，提取的特征数据全面反映了驾驶员的动作特征，有利于通过模型对驾驶员的动作进行准确的识别。

参见上述表1，以下对本实施例构建的三维卷积神经网络的各层进行详细介绍。在本实施例中，所有卷积层采用3D卷积核，公式如下：

式中：x，y，z分别表示视频块中第z张图片的(x，y，z)位置的值；p_i、q_i、r_i表示视频块中图片的高度、宽度和第几张图片；表示第i层第j个特征块经过神经元运算后(x，y，z)位置的输出；表示第i层第j个特征块的第m张图片中(p,q，r)位置的权重。

池化层都选用maxpooling3D，大小都通过如下公式得到：

其中，u为池化层三维输入向量，v为池化后得到的输出，s，t和r分别为3个方向的采样步长。采样后特征图尺寸减少，计算量也会大大减少，同时网络对时间域和空间域上的变化更加鲁棒。

Dropout层是指在模型训练过程中，按照一定的概率将一部分神经网络单元暂时从网络中丢弃，能有效的减少计算量，防止模型过拟合，增加模型的泛化能力。模型中的Dropou_1层、Dropou_2层和Dropou_3层的丢弃比例为25％，Dropou_4层的丢弃比例为50％。

最后为了输出到全连接层，将卷积层输出数据通过flatten层将数据展平，因为全连接层只处理包含样本数在内一共二维的数据，第一维是样本数，第二维是所有特征的个数。第一个全连层神经元个数为256，激励函数为Sigmod，进一步处理数据，第二个全连接层作为输出层，使用跟输出类别同样多的神经元个数，同时与上层256个神经元全连接。最后由分类器Softmax回归进行分类，得出能够标记行为类别的输出。

进一步地，在上述各实施例的基础上，对所述目标模型的训练包括：

对每一预设动作，获取驾驶员执行所述预设动作时拍摄的视频，作为样本视频；

将根据所述样本视频，通过所述预设特征工程提取的特征数据作为样本特征数据，将输出的与所述预设动作相符的概率大于预设概率的结果作为期望输出；

通过若干组所述样本数据和所述期望输出对所述三维卷积神经网络进行训练，得到所述目标模型。

在对三维卷积神经网络进行训练的过程中，同样每次通过预设特征工程从视频中提取原色特征、灰度特征、梯度特征和光流特征。期望输出为与某一预设动作对应的概率，例如，当通过采集的驾驶员执行某一预设动作的视频进行模型训练时，期望输出中输出与该预设动作相符的概率为100％或者大于某一预设概率的值，例如，预设概率为98％。

进一步地，在上述各实施例的基础上，所述通过若干组所述样本数据和所述期望输出对所述三维卷积神经网络进行训练，得到所述目标模型，包括：

通过若干组所述样本数据和所述期望输出对所述三维卷积神经网络进行训练，根据由训练后的所述三维卷积神经网络输出的与各预设动作相符的概率和期望输出计算训练的所述三维卷积神经网络的准确率，若准确率大于或等于预设准确率，则将训练的所述三维卷积神经网络作为所述目标模型，否则，继续对所述三维卷积神经网络进行训练，直到准确率大于或等于所述预设准确率。

在计算准确率时可以将模型输出的每一概率和期望输出的概率做差，将差值除以期望输出的概率得到该输出值对应的准确率，将每次输出的每一概率对应的准确率相加得到训练的三维卷积神经网络准确率，当准确率大于预设准确率后，将训练的三维卷积神经网络作为目标模型。

本实施例提供了一种基于三维卷积神经网络的驾驶员动作识别方法，通过对模型的训练得到准确率大于预设准确率的目标模型，通过目标模型能够实现对驾驶员动作的准确识别。

进一步地，在上述各实施例的基础上，还包括：

获取由所述目标模型输出的概率中的最大概率，确定最大概率对应的预设动作所属的动作类别，根据所述动作类别判断驾驶员是否疲劳驾驶，若是，发出提示信息；

其中，所述动作类别包括疲劳类动作和非疲劳类动作。

当判断驾驶员疲劳驾驶时，及时提示，保证列车行车安全。例如，当最大概率对应的预设动作是打哈欠，由于根据驾驶员动作规范守则，打哈欠书疲劳类动作，因而及时提示，降低因疲劳驾驶带来的安全问题。

图2为本实施提供的分别通过现有三维卷积神经网络和本申请改进后的三维卷积神经网络对驾驶员进行动作识别的损失函数值(model loss)对比图，图3为本实施提供的分别通过现有三维卷积神经网络和本申请改进后的三维卷积神经网络对驾驶员进行动作识别的准确率(model accuracy)对比图。在模型训练时，对19人录制了6种动作，每人分别做6个动作为一组，一共做两组，背景为固定场景。在数据集制作时，修改视频长度和帧画面大小，使每个视频长度为5秒左右，帧画面大小1000*1000。使得数据集视频中背景固定，人物在画面中的位置也相对固定，这样使其它因素对模型影响降到最低。参见图2和图3，颜色较深的线表示通过改进后的三维卷积神经网络进行识别的准确率和损失函数值，颜色较浅的线表示通过现有的三维卷积神经网络进行识别的准确率和损失函数值。可以看出通过改进后的三维卷积神经网络对驾驶员进行动作识别的准确率97.01％，损失函数值达到0.1116，准确率明显高于通过现有三维卷积神经网络进行识别的准确率，且损失函数值小于通过现有三维卷积神经网络进行识别的损失函数值。

由此，本申请设计了适合列车驾驶员的三维卷积神经网络结构，完成了基于三维卷积神经网络的驾驶员行为识别方法。录制包含行车动作和疲劳动作的新数据集，标记整理数据集，使用新的数据集训练模型，并在实际情况下进行模型效果测试。通过硬件设备与辅助程序，使模型更加适应实际环境，使疲劳检测达到最优。该方法能有效的识别出视频中的行为。在实际的测试中能有效的追踪人物并识别出人物的动作。相比原来的疲劳检测方法，能有效的识别出司机是否按规范驾驶，是否存在疲劳，并在疲劳时给管理人员发出警告，整套系统提高了列车运行的安全性。

进一步地，在上述各实施例的基础上，所述获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频，包括：

控制所述摄像头对驾驶员进行拍摄，得到所述视频；

树莓派(Raspberry Pi，简写为RPi)是一款基于ARM处理器的微型电脑主板，具备所有PC机(个人计算机)的基本功能只需接通电视机和键盘，就能执行如电子表格、文字处理、玩游戏、播放高清视频等诸多功能。树莓派中预先烧录了进行人脸识别与追踪的程序，通过该程序能够实时定位驾驶员的位置。摄像机云台是两个交流或直流电机组成的安装摄像机的平台，可以控制摄像机水平和垂直的运动。

在对驾驶员拍摄视频的过程中，根据树莓派追踪的驾驶员的位置，控制摄像机云台对安装在其上的摄像头进行位置的调整，以使得驾驶员始终在摄像头的拍摄范围内，保证采集的视频中每一帧视频帧中都包括了驾驶员，为后续通过该视频对驾驶员的动作进行分析奠定了基础。

进一步地，在上述各实施例的基础上，所述在列车的行驶过程中，通过树莓派控制摄像机云台对摄像头的位置进行调整，使得驾驶员位于所述摄像头的拍摄范围内，包括：

为了方便后续对驾驶员动作识别结果的准确性，在拍摄视频的过程中，可以通过摄像机云台调整摄像头的位置，使得驾驶员始终位于摄像头拍摄范围的中心位置，即保证驾驶员在每一视频帧中均处于视频帧的中间。本实施例使用的摄像机云台通过在第一预设方向和第二预设方向上移动或转动摄像头，实现了对摄像头位置的调整。

图4为本实施例提供的基于三维卷积神经网络的驾驶员动作识别装置的结构框图，参见图4，该装置包括获取模块401、提取模块402和识别模块403，其中，

获取模块401，用于获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；

提取模块402，用于根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；

识别模块403，用于将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；

本实施例提供的基于三维卷积神经网络的驾驶员动作识别装置适用于上述实施例提供的基于三维卷积神经网络的驾驶员动作识别方法，在此不再赘述。

本实施例提供了一种基于三维卷积神经网络的驾驶员动作识别装置，通过预设特征工程从对驾驶员拍摄的视频提取特征数据，由目标模型根据特征数据对驾驶员的行为进行识别。目标模型是通过对构建的三维卷积神经网络进行训练得到的，三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。通过对三维卷积神经网络的结构进行改进，使得训练的目标模型对驾驶员的动作具有更准确的识别结果。另一方面，相对于采集面部特征，对驾驶员动作的采集不容易受到环境的干扰，且特征数据中包含了反应驾驶员动作随时间变化的光流特征，这种动作连续性的数据进一步提高了识别结果的准确性。

图5是示出本实施例提供的电子设备的结构框图。

参照图5，所述电子设备包括：处理器(processor)501、通信接口(CommunicationsInterface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；其中，所述目标模型通过对构建的三维卷积神经网络进行训练得到；所述三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行如下方法：获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；其中，所述目标模型通过对构建的三维卷积神经网络进行训练得到；所述三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据；其中，所述特征数据中包括根据像素点的光流变化提取的光流特征；将所述特征数据输入到目标模型中，由所述目标模型输出所述驾驶员的动作和预设动作相符的概率；其中，所述目标模型通过对构建的三维卷积神经网络进行训练得到；所述三维卷积神经网络包括多个依次连接的组合层结构，每一组合层结构包括卷积层和池化层。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，包括：

获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频；

2.根据权利要求1所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，所述根据所述视频通过预设特征工程提取用于对驾驶员的动作进行识别的特征数据，包括：

3.根据权利要求2所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，所述对所述第一灰度图像中的任一第一像素点，在第二灰度图像中确定与所述第一像素点位置对应的第二像素点，根据在所述第二灰度图像中与所述第二像素点临近的各像素点确定所述第一像素点对应的光流变化数据，包括：

4.根据权利要求1所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，对所述目标模型的训练包括：

5.根据权利要求4所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，所述通过若干组所述样本数据和所述期望输出对所述三维卷积神经网络进行训练，得到所述目标模型，包括：

6.根据权利要求1所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，所述三维卷积神经网络包括3个依次连接的组合层结构。

7.根据权利要求1所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，还包括：

其中，所述动作类别包括疲劳类动作和非疲劳类动作。

8.根据权利要求1所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，所述获取在列车行驶过程中，对列车的驾驶员拍摄得到的视频，包括：

控制所述摄像头对驾驶员进行拍摄，得到所述视频；

9.根据权利要求8所述的基于三维卷积神经网络的驾驶员动作识别方法，其特征在于，所述在列车的行驶过程中，通过树莓派控制摄像机云台对摄像头的位置进行调整，使得驾驶员位于所述摄像头的拍摄范围内，包括：

10.一种基于三维卷积神经网络的驾驶员动作识别装置，其特征在于，包括：