CN110363093A

CN110363093A - 一种司机动作识别方法及装置

Info

Publication number: CN110363093A
Application number: CN201910532626.XA
Authority: CN
Inventors: 李国法; 梁奕文; 赖伟鉴; 杨一帆; 陈耀昱; 朱方平; 李盛龙; 谢恒�; 李晓航
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-10-22

Abstract

本申请适用于计算机应用技术领域，提供了司机动作识别方法及装置，包括：通过获取当前司机的图像；将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。通过二维卷积神经网络识别驾驶姿态的某一时刻的司机动作，三维卷积神经网络识别驾驶姿态的中间过程的司机动作，采用将二维卷积神经网络与三维卷积神经网络相结合的方法共同识别司机的驾驶姿态，提高了司机动作识别的准确性。

Description

一种司机动作识别方法及装置

技术领域

本申请属于计算机应用技术领域，尤其涉及一种司机动作识别方法及装置。

背景技术

由国家交通部每年发表的关于全国道路交通事故汇总的报告和报表可知，近些年来全国的交通事故发生的数量一直高居不下，死亡人数以及受伤总人数依旧保持在较高的数量等级。根据国家交通部对每年全国交通事故发生情况所做的分析报告，70％的交通事故都是发生在晚上，由于晚上道路光线暗淡，视野变狭窄，只要驾驶员在驾驶过程中稍微分心一刹那或者做出某种不利于安全驾驶的行为，交通事故就容易发生。

根据国家交通部发布的关于最近几年的交通事故发生原因的分析报告，夜间造成交通事故的主要原因在于疲劳驾驶，超速驾驶以及一些其他的驾驶陋习，例如当代年轻人为追求刺激，在驾驶过程中双手脱离方向盘，在驾驶过程中玩手机导致注意力不集中。另外，在当代社会中，随着网约车的盛行，大多数人都会选择搭乘网约车出行，尤其是在晚上公共交通不方便的时候。由于网约车的监管方式还未成熟，乘客夜间搭乘网约车出行有可能会遇到图谋不轨的司机，这容易造成人身安全以及人身利益的损害。现有技术中只是通过行车记录仪来记录车内和行车途中的视频，并不能有效识别出当前司机的驾驶动作。

发明内容

有鉴于此，本申请实施例提供了司机动作识别方法及装置，以解决现有技术中司机驾驶车辆过程中不能有效识别出当前司机的驾驶动作的问题。

本申请实施例的第一方面提供了一种司机动作识别方法，包括：

获取当前司机的图像；所述图像包括所述司机的上半身的图像；

将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；

将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。

本申请实施例的第二方面提供了一种司机动作识别装置，包括：

获取单元，用于获取当前司机的图像；所述图像包括所述司机的上半身的图像；

识别单元，用于将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；

确定单元，用于将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。

本申请实施例的第三方面提供了一种司机动作识别装置，包括：处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持装置执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例与现有技术相比存在的有益效果是：通过获取当前司机的图像；将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。通过二维卷积神经网络识别驾驶姿态的某一时刻的司机动作，三维卷积神经网络识别驾驶姿态的中间过程的司机动作，采用将二维卷积神经网络与三维卷积神经网络相结合的方法共同识别司机的驾驶姿态，提高了司机动作识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的司机动作识别方法的流程图；

图2是本申请实施例二提供的司机动作识别方法的流程图；

图3是本申请实施例二提供的司机动作识别方法中的离线测试设备；

图4是本申请实施例二提供的司机动作识别方法中在执行直方图均衡化的前后效果图；

图5是本申请实施例二提供的司机动作识别方法中高斯平滑滤波前后的效果对比图；

图6是本申请实施例二提供的司机动作识别方法中设定标签的示例方法；

图7是本申请实施例二提供的司机动作识别方法中二维卷积神经网络模型图；

图8是本申请实施例二提供的司机动作识别方法中三维卷积神经网络模型图；

图9是本申请实施例二提供的司机动作识别方法中各模型训练时训练集和验证集的准确率以及损失值的变化曲线图；

图10是本申请实施例二提供的司机动作识别方法中模型改进的结构框图；

图11是本申请实施例三提供的司机动作识别装置的示意图；

图12是本申请实施例四提供的司机动作识别装置的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

参见图1，图1是本申请实施例一提供的一种司机动作识别方法的流程图。本实施例中司机动作识别方法的执行主体为具有司机动作识别功能的装置，包括但不限于计算机、服务器、平板电脑或者终端等装置，也可以是车载装置等。如图所示的司机动作识别方法可以包括以下步骤：

S101：获取当前司机的图像；所述图像包括所述司机的上半身的图像。

根据国家交通部发布的关于最近几年的交通事故发生原因的分析报告，夜间造成交通事故的主要原因在于疲劳驾驶，超速驾驶以及一些其他的驾驶陋习，例如当代年轻人为追求刺激，在驾驶过程中双手脱离方向盘，在驾驶过程中玩手机导致注意力不集中。另外，在当代社会中，随着网约车的盛行，大多数人都会选择搭乘网约车出行，尤其是在晚上公共交通不方便的时候。由于网约车的监管方式还未成熟，乘客夜间搭乘网约车出行有可能会遇到图谋不轨的司机，这容易造成人身安全以及人身利益的损害。

因此，在夜晚的环境下，利用红外特征的可见性，提前识别出司机的驾驶姿态对降低交通事故的发生概率，对保障司机以及乘客的人身安全和人身利益有着重要的意义。由于姿态行为的连贯性，在司机完成某些危险的驾驶行为之前，根据该危险行为的整体特征，提前识别出司机准备做出该危险的驾驶行为，能够有效预警司机，从而让司机取消继续完成该危险驾驶行为的念头，提高司机的驾驶安全性，同时也为司机的意图研究提供实际的技术支持。现有技术中一般针对的环境都几乎是在白天进行的，应用环境较单一，白天由于光线充足，局限性小，研究起来比较方便，而在夜晚的环境下对驾驶姿态行为识别的研究少之又少，因为夜间光线暗淡，环境因素变化较大，如周围灯光的影响。

本实施例中当前司机的图像可以是单帧的图像，也可以是从一段视频中提取出的图像帧。为了保证在夜晚或者光线较暗的情况下采集到的图像能清晰的表示司机当前的动作，本实施例中当前司机的图像也可以为红外图像。

S102：将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果。

本实施例中在对当前司机的图像进行动作识别之前，先获取各个司机的历史图像，并对历史图像进行训练得到卷积神经网络。卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。在进行卷积神经网络的训练过程中，需要根据历史图像进行训练，得到卷积层参数，其中包括卷积核大小、步长和填充，三者共同决定了卷积层输出的对历史图像的识别结果，是卷积神经网络的超参数。其中卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。卷积步长定义了卷积核相邻两次扫过特征图时位置的距离，卷积步长为1时，卷积核会逐个扫过特征图的元素，步长为n时会在下一次扫描跳过n-1个像素。由卷积核的交叉相关计算可知，随着卷积层的堆叠，特征图的尺寸会逐步减小，例如16×16的输入图像在经过单位步长、无填充的5×5的卷积核后，会输出12×12的特征图。为此，填充是在特征图通过卷积核之前人为增大其尺寸以抵消计算中尺寸收缩影响的方法。

进一步的，本实施例中在进行训练时，通过根据历史图像训练得到二维卷积神经网络，再将预设数量的历史图像作为一组待训练数据，将多组待训练数据输入训练模型中，得到三维卷积神经网络。因此，本实施例中的二维卷积神经网络用于识别单幅图像中的司机动作，得到的是某一时刻的司机动作状态；而三维卷积神经网络用于识别某一时段、或者多幅图像为一组、或者一段视频中的司机动作，得到的是某一段时段之内的司机动作状态。

在训练得到二维卷积神经网络和三维卷积神经网络之后，将获取到的当前司机的图像分别输入到二维卷积神经网络和三维卷积神经网络中，通过二维卷积神经网络，得到对某一时刻的司机动作的第一识别结果；通过三维卷积神经网络，得到对某一时段的司机动作的第二识别结果。示例性地，可以通过二维卷积神经网络来识别司机在某时段的最后时刻的动作，通过三维卷积神经网络来识别司机在该时段驾驶中间过程中的动作。

S103：将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。

由上可知，本实施例中的二维卷积神经网络得到的第一识别结果，与三维卷积神经网络得到的第二识别结果，两个结果可能相同，也可能不同。当第一识别结果和第二识别结果相同的情况下，将第一识别结果和第二识别结果识别为司机的动作类型。而当第一识别结果和第二识别结果不同的情况下，说明司机在某段时间之内的动作发生了变化，通过二维卷积神经网络识别得到的是该段时间之内的某个时刻中该司机的动作，而通过三维卷积神经网络识别得到的是该段时间之内的司机综合的动作。当两个识别结果不同的情况下，根据第一识别结果和第二识别结果综合进行判断。

进一步的，步骤S103可以具体包括步骤：

S1031：若所述第一识别结果与所述第二识别结果相同，则将所述第一识别结果和/或所述第二识别结果识别为所述司机的动作类型。

当第一识别结果和第二识别结果相同的情况下，即在某一时段之内，司机的动作未发生改变。通过二维卷积神经网络得到的该时段中某一时刻的司机动作，与通过三维卷积神经网络得到的在这个时段之内的司机动作相同，因此将第一识别结果和第二识别结果识别为司机的动作类型。当两者的识别结果相同的情况下，通过将两者的识别结果共同确定当前司机的动作类型，以保证动作类型识别的精确性和正确性。

S1032：若所述第一识别结果与所述第二识别结果不同，且所述第一识别结果为双手脱离方向盘，则确定所述司机动作为双手脱离方向盘。

若第一识别结果与第二识别结果不同的情况下，说明司机在某段时间之内的动作发生了变化，通过二维卷积神经网络识别得到的是该段时间之内的某个时刻中该司机的动作，而通过三维卷积神经网络识别得到的是该段时间之内的司机综合的动作，两个识别的卷积神经网络得到的识别结果不同。

当第一识别结果为双手脱离方向盘，第二识别结果与第一识别结果不同时，且第二识别结果为双手未脱离方向盘，即说明司机在该段时间之内的某一时刻时双手脱离方向盘的，但是在该段时间之内的其余时刻双手未脱离方向盘，这种情况下，则确定司机动作为双手脱离方向盘，以保证动作类型识别的客观性。

S1033：若所述第一识别结果与所述第二识别结果不同，且所述第一识别结果除双手脱离方向盘之外的其他动作，则将所述第二识别结果识别为所述司机的动作类型。

当第一识别结果为双手脱离方向盘，第二识别结果与第一识别结果不同时，且第一识别结果为除双手脱离方向盘之外的其他动作，则将第二识别结果识别为司机的动作类型，以保证动作类型识别的精确性和正确性。

上述方案，通过获取当前司机的图像；将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。通过二维卷积神经网络识别驾驶姿态的某一时刻的司机动作，三维卷积神经网络识别驾驶姿态的中间过程的司机动作，采用将二维卷积神经网络与三维卷积神经网络相结合的方法共同识别司机的驾驶姿态，提高了司机动作识别的准确性。

参见图2，图2是本申请实施例二提供的一种司机动作识别方法的流程图。本实施例中司机动作识别方法的执行主体为具有司机动作识别功能的装置，包括但不限于计算机、服务器、平板电脑或者终端等装置，也可以是车载装置等。如图所示的司机动作识别方法可以包括以下步骤：

S201：录制所述司机的红外视频。

可选地，本实施例中对选用模型进行离线测试与应用是在四核中央处理器(Central Processing Unit，CPU)中进行需要应用到的设备还有1080P的通用串行总线(Universal Serial Bus，USB)红外摄像头。图3为本实施例中司机动作识别方法中的离线测试设备。USB红外摄像机的主要作用是实时采集红外图像，四核的中央处理器相当于一台微型电脑，主要作用是实时处理采集到的红外图像以及使改进的模型实时预测输出结果。由于离线实时识别驾驶姿态的过程中，是需要边采集红外图像边将红外图像进行预处理操作，预处理完成后将像素点矩阵喂入选用的两种模型中进行结果的预测，等到结果预测完成后需要结合两种模型的结果得到最后的识别结果。如果程序按照顺序结构来执行，采集到的红外视频会出现卡顿，所以需要运用到多线程的原理来让程序分开执行不同的操作处理。接下来的工作就是配置好四核中央处理器中Linux操作系统的Python环境以及所需要用到的深度学习的模块，将原本编写好的测试程序下载至四核中央处理器中，USB红外摄像机可以放置在车辆副驾前端的空调送风口位置处，此处对USB红外摄像机的安装位置不做限定，USB摄像头的角度与数据集制作时红外摄像机的摄像头的角度基本一致，测试模型识别驾驶姿态的效果。

S202：对所述红外视频进行采样处理得到红外图像，并对所述红外图像进行预处理，得到所述司机的图像。

在获取到红外视频之后，对红外视频进行采样处理得到单帧的红外图像，并对红外图像进行预处理，得到司机的图像。示例性地，本实施例中的预处理可以包括图像均衡化、图像滤波、去噪、调整大小以及图像增强的，此处不做限定。

进一步的，步骤S202可以具体包括步骤S2021～S2022：

S2021：根据预设的采样周期，对所述红外视频进行采样，得到所述红外图像。

利用已经编写完成的帧图像提取算法对以上录制到的红外视频进行红外关键帧图像的提取，设定的时间是每三帧做一次图像的提取，该操作称为降采样。如果对视频的每一帧都要进行图像提取的话，数据量会很大，这样会严重影响到训练的速度和效率，而且红外摄像机的帧率是30fps，在0.1s这么短的时间内，三帧图像几乎都是一样，没有出现一些新的有用的信息，因此可以采用每三帧做一次图像的提取。

示例性地，本实施例中所提取到的红外关键帧图像一共有8500张，其中划分为训练集的有6230张图片，划分为测试集的有2270张图片。每种驾驶姿态在训练集上大概有1560张图片，在测试集上大概有560张图片。

S2022：对所述红外图像进行均衡化处理，识别并去除均衡化之后的图像噪声，调整去除噪声之后的红外图像的大小，得到所述司机的图像。

请一并参阅图4，图4为数据集中的一张红外图像在执行直方图均衡化前后的效果，其中，直方图均衡化后(左)和直方图均衡化前(右)。本实施例中主要通过直方图均衡化来调整红外图像的亮度和对比度，使红外图像看起来符合人的视觉效果，提高模型识别的准确率。通过利用图像直方图对对比度进行调整实现图像的直方图均衡化。可以看出，在执行直方图均衡化后的红外图像亮度分布得更加均匀，对比度明显得到增强，图像中的一些细节也能看得比较清晰，看起来比较符合人的视觉效果。

请一并参阅图5，图5为执行直方图均衡化操作后的红外图像在执行高斯平滑滤波前后的效果对比图，其中，高斯滤波前(左)和高斯滤波后(右)。本实施例中主要通过高斯平滑滤波法来去除红外图像的噪声，使红外图像的像素点平滑干净，减少噪声对模型识别准确率的影响。本实施例中通过识别图像中的噪声并进行滤除，也可以直接运用OpenCV库中的GaussianBlur模块去除图像的噪声。可以看出，整个图像在执行高斯滤波操作后显得更加清楚，模糊程度降低了很多，同时去除了一些高频的噪声。

在调整红外图像大小时，可选的，将二维卷积神经网络的输入矩阵的大小设置为(224,224,1)，即将红外图像的大小调整为224×224，对于三维卷积神经网络的模型，输入矩阵的大小设置为(5,112,112,1)，即将红外图像的大小调整为112×112，5张红外图像作为一组。

进一步的，在步骤S203之前，可以包括步骤S2031～S2033：

S2031：获取司机的历史图像，并设定每个所述历史图像的标签；所述标签用于表示所述历史图像中的司机动作。

在获取司机的历史图像时，通过招募到的志愿者随机轮流坐上驾驶座或者副驾驶座，驾驶员按照自己对课题设定的驾驶姿态的表现形式的理解依次诠释对应的驾驶姿态，每位驾驶员重复同一种驾驶姿态两到三次，副驾驶座上的乘客按照平时乘车的习惯做自己的事情。这些场景都用红外摄像机录制下来。在获取到历史图像之后，利用已经编写完成的帧图像提取算法对以上录制到的红外视频进行红外关键帧图像的提取，设定的时间是每三帧做一次图像的提取，该操作称为降采样。如果对视频的每一帧都要进行图像提取的话，数据量会很大，这样会严重影响到训练的速度和效率，而且红外摄像机的帧率是30fps，在0.1s这么短的时间内，三帧图像几乎都是一样，没有出现一些新的有用的信息，因此采用每三帧做一次图像的提取。

进一步的，在采集历史图像时，可以不对每种驾驶姿态的视频分开录制，而是串联在一起、或者不停变化司机当前的动作，并且每个时刻都是随机做出三种驾驶姿态中的一种，这样获得的数据集更具有现实意义，符合实际应用的要求，并且加入一些干扰因素，如乘客在玩手机，乘客在喝饮料，乘客与驾驶员聊天等等，让数据集更具泛化性和准确性。

本实施例中的司机动作可以包括但不限于：双手脱离方向盘、在驾驶过程中玩手机以及骚扰乘客等，除此之外，还可以是打瞌睡、看视频等，此处不做限定。具体如下：

双手脱离方向盘：在现实生活中，双手脱离方向盘容易出现在以下的情况下：驾驶员完成掉头动作后需要将方向盘回正，由于汽车车轮的主销内倾角和主销后倾角，驾驶员一般松开紧握方向盘的双手以待方向盘自动回正；驾驶员认为汽车在直道慢速行驶的时候不容易发生偏离，因此这时候双手脱离方向盘也无伤大雅。由于双手脱离方向盘后，驾驶员对汽车方向的控制几乎为零，一旦出现不可估量的意外，后果将会不堪设想。示例性地，本课题研究中设定的双手脱离方向盘的表现形式有：伸懒腰、单手控制方向盘掉头，待完成掉头后双手脱离方向盘让方向盘回正、在直道慢速驾驶时双手合十放在大腿上。

在驾驶过程中玩手机：驾驶员在驾驶过程中玩手机的情况在现实生活中随处可见，有接电话的，有聊语音电话的，有通过手机地图软件寻找目的地的，这些行为都很容易导致驾驶员注意力不集中，容易造成分心，一旦前方出现紧急情况，反应不及时，最终造成交通事故的发生。示例性地，本课题研究中设定的在驾驶过程中玩手机的表现形式有：在驾驶过程中接电话、在驾驶过程中聊语音和微信。

骚扰乘客：近些年来，随着网约车的盛行，无车族的大多数人出行都会选择网约车，其一是因为网约车速度快，车内环境舒适，呼叫比较方便，其二是因为价格便宜，服务态度相对来说较好。但是，由于网约车的监管体系不完善，一些不法分子会利用平台的漏洞做出一些违法的行为，尤其是针对一些独自出行且穿着比较暴露的女性。因此，保护女性的出行可谓重中之重。示例性地，本课题研究中设定的骚扰乘客的表现形式有：抚摸副驾驶座乘客的肩部和腿部，调戏副驾驶座的乘客。

在完成对红外关键帧图像的提取操作之后，接下来就是对提取到的历史图像标上标签值，即将每张帧图像归类到对应的驾驶姿态中。这里为对不属于三种驾驶姿态的红外图像提供一个分类，定义为安全驾驶，标记为0，双手脱离方向盘的驾驶姿态标记为1，在驾驶过程中玩手机的驾驶姿态标记为2，骚扰乘客的驾驶姿态标记为3。另外，由于识别单图像的二维卷积神经网络与识别视频流的三维卷积神经网络的不同，对红外关键帧图像标标签的规则也不同。对于二维卷积神经网络，每一张红外图像都需要标上对应的标签，而对于三维卷积神经网络，对一定数量的帧图像、或者预设时段之内的历史图像标记上一个对应的标签，示例性地，本实施例中可以选择0.5s的时段内、或者对连续的5帧图像标记上一个相同的标签。

请一并参阅图6，图6为设定标签的示例方法，本实施例中对历史图像设定标签的方法是在一个Excel文档中进行的，其中Image_name栏是红外图像的文件名，其中frame50.jpg～frame59.jpg用于表示每个历史图像的文件标识；Label栏是二维卷积神经网络的标签，其中的数字表示对应历史图像的标签；Class栏是二维卷积神经网络结合门控制循环单元和三维卷积神经网络的标签；Notes栏中包括了针对各种情况下的标签以及每个标签对应的名称，其中，safe_driving用于表示安全驾驶，标记为0；hands_off_the_wheel用于表示双手脱离方向盘的驾驶姿态，标记为1；playing_cellphone用于表示驾驶过程中玩手机的驾驶姿态，标记为2；Harassing_others用于表示骚扰乘客的驾驶姿态，标记为3。等到要进行红外图像的读入转化为像素点的时候，利用Python语言的Pandas模块便可以将Excel文档的内容读入到内存中，程序便可以根据Excel文档中的图像文件名找到对应的红外图像并且读入，而且还很方便地找到红外图像对应的标签值。

S2032：根据所述历史图像及其标签进行训练，得到所述二维卷积神经网络；所述二维卷积神经网络用于识别所述司机在预设时刻的动作。

在VGG16的基础之上，设计出适合本实施例的单通道输入的二维卷积神经网络。

示例性地，请一并参阅图7，图7为搭建的二维卷积神经网络模型图，从图8可以看出，该模型的输入参数为(1,224,224,1)，有5层卷积层和池化层，3层全连接层以及1层归一化指数softmax层，激活函数为ReLU函数。其中卷积核大小为(3,3)，卷积核的数量依次为32,64,128,256,512，采用的是全零填充卷积的方式，滑动步长为1；池化核大小为(2,2)，滑动步长为2。全连接层的神经元分别有1024,1024,512个，采用的优化器为随机优化方法Adam优化器，损失函数采用交叉熵损失函数。

S2033：根据预设时段之内的所述历史图像及其标签进行训练，得到所述三维卷积神经网络；所述三维卷积神经网络用于识别所述司机在预设时段内的动作。

三维卷积神经网络的模型建立过程与二维卷积神经网络的类似，只是将神经网络中的神经单元扩展为三维。

示例性地，请一并参阅图8，图8为三维卷积神经网络模型图，其中模型的输入参数为(5,112,112,1)，有4层卷积层和池化层，2层全连接层以及1层归一化指数softmax层，激活函数为ReLU函数。其中卷积核大小为(3,3,3)，卷积核的数量依次为16,32,64,128，采用的是全零填充卷积的方式，滑动步长为(1,1,1)；池化核大小为(2,2,2)，滑动步长为(1,2,2)。全连接层的神经元分别有512,512个，采用的优化器为随机梯度下降SGD优化器，学习率设置为0.01，损失函数采用交叉熵损失函数。

接下来的工作就是对模型进行训练以及测试。其中，二维卷积神经网络(2D CNN)的训练模式是单张红外图像进行训练，每16张红外图像作为一组喂入模型中，而二维卷积神经网络结合门控制循环单元(2D CNN+GRU)和三维卷积神经网络(3D CNN)的训练模型是对一组红外图像进行训练，每5张作为一组，每次喂入16组。另外，本实施例中还将训练集按9:1的比例划分为训练集和验证集，这样做是为了防止模型过拟合。同时，实时记录三种模型在训练时在训练集以及验证集上的准确率以及损失值。

示例性地，请一并参阅图9，图9为各模型训练时训练集和验证集的准确率以及损失值的变化曲线图，其中，左图为2D CNN的训练结果，右图为3D CNN的训练结果，其中，横轴为训练轮数，纵轴为训练准确率与损失值，图例中train acc用于表示训练准确率；trainloss用于表示训练损失值，val acc用于表示验证准确率，val loss用于表示验证损失值。三种模型在训练集以及验证集上的准确率都能达到90％以上，并且变化曲线很平滑，没有比较大的波动，说明模型选择的参数比较合理。三种模型在训练集以及验证集上的损失值变化曲线都有不同程度的波动，这说明三种模型都在调整各种特征的权重，防止过拟合。2DCNN的总体识别效果最好，最差的是二维卷积神经网络结合门控制循环单元(2D CNN+GRU)。每种模型都有其突出的地方，如2D CNN适合用于识别双手脱离方向盘的驾驶姿态，3D CNN适合用于识别骚扰乘客的驾驶姿态。而造成3D CNN在测试集上对于在驾驶过程中玩手机这种驾驶姿态识别准确率较低的原因可能是驾驶员玩手机并没有大幅度的动作，模型难以判别出来，而2D CNN在在测试集上对于在驾驶过程中玩手机这种驾驶姿态识别准确率较高的原因可能是模型只要识别出红外图像中有像矩形一样条条框框的东西，就判定该驾驶姿态为玩手机，因为手机背面就是一个矩形。

二维卷积神经网络(2D CNN)的总体识别效果较优，对于每种驾驶姿态的识别准确率都比较理想，不足之处就是只能对单张红外图像进行识别，如果对红外图像视频的每帧图像都进行识别，计算量过大，CPU或者GPU对红外图像的处理速度可能无法与红外摄像头采集图像的速度相匹配，造成红外图像的识别结果大大滞后于实时采集的红外图像，很大程度会影响实时识别的效果。另外，二维卷积神经网络(2D CNN)可能会出现以偏概全的情况，即只针对单张红外图像的内容，而无法根据情景的时间先后做出判断。三维卷积神经网络(3D CNN)的总体识别效果与二维卷积神经网络(2D CNN)相当，在识别骚扰乘客的驾驶姿态中尤为突出，并且能够根据红外图像时间先后的联系做出判断，非常适合应用于实际生活中，不过，不足的地方在于对双手脱离方向盘以及在驾驶过程中玩手机这两种驾驶姿态的识别效果较差，尤其是在驾驶过程中玩手机这种驾驶姿态。

综合以上的分析，本实施例中决定采用二维卷积神经网络(2D CNN)和三维卷积神经网络(3D CNN)相结合的方法应用于离线，通过三维卷积神经网络(3D CNN)识别驾驶姿态的中间过程，二维卷积神经网络(2D CNN)识别驾驶姿态的状态结果来综合定义对应的驾驶姿态。如果两种模型识别得到的结果相同，则直接输出结果；如果二维卷积神经网络(2DCNN)识别得到的结果是双手脱离方向盘而三维卷积神经网络(3D CNN)识别的结果不为双手脱离方向盘，则输出结果为双手脱离方向盘，除此之外的其他情况，输出结果都为三维卷积神经网络(3D CNN)识别得到的结果。

请一并参阅图10，图10为模型改进的结构框图。其中，通过将司机图像输入训练好的二维卷积神经网络(2D CNN)和三维卷积神经网络(3D CNN)，来通过二维卷积神经网络识别司机图像的状态，通过三维卷积神经网络识别司机在某段时间内的状态过程，再将两个识别结果进行结果比较，若通过二维卷积神经网络得到的第一识别结果与通过三维卷积神经网络得到的第二识别结果相同，则将第一识别结果和/或第二识别结果识别为司机动作的动作类型；若第一识别结果与第二识别结果不同，且第一识别结果为双手脱离方向盘，即图中的1/～1，则确定第一识别结果中司机动作为双手脱离方向盘；若第一识别结果与第二识别结果不同，且第一识别结果除双手脱离方向盘之外的其他动作，则将第二识别结果识别为司机动作的动作类型。

S203：将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果。

S204：将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。

本实施例中的二维卷积神经网络得到的第一识别结果，与三维卷积神经网络得到的第二识别结果，两个结果可能相同，也可能不同。当第一识别结果和第二识别结果相同的情况下，将第一识别结果和第二识别结果识别为司机的动作类型。而当第一识别结果和第二识别结果不同的情况下，说明司机在某段时间之内的动作发生了变化，通过二维卷积神经网络识别得到的是该段时间之内的某个时刻中该司机的动作，而通过三维卷积神经网络识别得到的是该段时间之内的司机综合的动作。当两个识别结果不同的情况下，根据第一识别结果和第二识别结果综合进行判断。

上述方案，通过录制所述司机的红外视频；对所述红外视频进行采样处理得到红外图像，并对所述红外图像进行预处理，得到所述司机的图像。将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。通过二维卷积神经网络识别驾驶姿态的某一时刻的司机动作，三维卷积神经网络识别驾驶姿态的中间过程的司机动作，采用将二维卷积神经网络与三维卷积神经网络相结合的方法共同识别司机的驾驶姿态，提高了司机动作识别的准确性。

参见图11，图11是本申请实施例三提供的一种司机动作识别装置的示意图。司机动作识别装置1100可以为智能手机、平板电脑等移动终端。本实施例的司机动作识别装置1100包括的各单元用于执行图1对应的实施例中的各步骤，具体请参阅图1及图1对应的实施例中的相关描述，此处不赘述。本实施例的司机动作识别装置1100包括：

获取单元1101，用于获取当前司机的图像；所述图像包括所述司机的上半身的图像；

识别单元1102，用于将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果；

确定单元1103，用于将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型。

进一步的，所述司机动作识别装置1100还包括：

标签单元，用于获取司机的历史图像，并设定每个所述历史图像的标签；所述标签用于表示所述历史图像中的司机动作；

第一训练单元，用于根据所述历史图像及其标签进行训练，得到所述二维卷积神经网络；所述二维卷积神经网络用于识别所述司机在预设时刻的动作；

第二训练单元，用于根据预设时段之内的所述历史图像及其标签进行训练，得到所述三维卷积神经网络；所述三维卷积神经网络用于识别所述司机在预设时段内的动作。

进一步的，所述确定单元1103还包括：

第一结果单元，用于若所述第一识别结果与所述第二识别结果相同，则将所述第一识别结果和/或所述第二识别结果识别为所述司机动作的动作类型；

第二结果单元，用于若所述第一识别结果与所述第二识别结果不同，且所述第一识别结果为双手脱离方向盘，则确定所述司机动作为双手脱离方向盘；

第三结果单元，用于若所述第一识别结果与所述第二识别结果不同，且所述第一识别结果除双手脱离方向盘之外的其他动作，则将所述第二识别结果识别为所述司机动作的动作类型。

进一步的，所述获取单元1101还包括：

录制单元，用于录制所述司机的红外视频；

处理单元，用于对所述红外视频进行采样处理得到红外图像，并对所述红外图像进行预处理，得到所述司机的图像。

进一步的，所述处理单元可以具体包括：

采样单元，用于根据预设的采样周期，对所述红外视频进行采样，得到所述红外图像；

均衡去燥单元，用于对所述红外图像进行均衡化处理，识别并去除均衡化之后的图像噪声，调整去除噪声之后的红外图像的大小，得到所述司机的图像。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

参见图12，图12是本申请实施例五提供的一种司机动作识别装置的示意图。如图12所示的本实施例中的司机动作识别装置1200可以包括：处理器1201、存储器1202以及存储在存储器1202中并可在处理器1201上运行的计算机程序1203。处理器1201执行计算机程序1203时实现上述各个司机动作识别方法实施例中的步骤。存储器1202用于存储计算机程序，所述计算机程序包括程序指令。处理器1201用于执行存储器1202存储的程序指令。其中，处理器1201被配置用于调用所述程序指令执行以下操作：

处理器1201用于：

进一步的，处理器1201具体用于：

获取司机的历史图像，并设定每个所述历史图像的标签；所述标签用于表示所述历史图像中的司机动作；

根据所述历史图像及其标签进行训练，得到所述二维卷积神经网络；所述二维卷积神经网络用于识别所述司机在预设时刻的动作；

根据预设时段之内的所述历史图像及其标签进行训练，得到所述三维卷积神经网络；所述三维卷积神经网络用于识别所述司机在预设时段内的动作。

进一步的，处理器1201具体用于：

若所述第一识别结果与所述第二识别结果相同，则将所述第一识别结果和/或所述第二识别结果识别为所述司机动作的动作类型；

若所述第一识别结果与所述第二识别结果不同，且所述第一识别结果为双手脱离方向盘，则确定所述司机动作为双手脱离方向盘；

若所述第一识别结果与所述第二识别结果不同，且所述第一识别结果除双手脱离方向盘之外的其他动作，则将所述第二识别结果识别为所述司机动作的动作类型。

进一步的，处理器1201具体用于：

录制所述司机的红外视频；

对所述红外视频进行采样处理得到红外图像，并对所述红外图像进行预处理，得到所述司机的图像。

进一步的，处理器1201具体用于：

根据预设的采样周期，对所述红外视频进行采样，得到所述红外图像；

对所述红外图像进行均衡化处理，识别并去除均衡化之后的图像噪声，调整去除噪声之后的红外图像的大小，得到所述司机的图像。

应当理解，在本申请实施例中，所称处理器1201可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器1202可以包括只读存储器和随机存取存储器，并向处理器1201提供指令和数据。存储器1202的一部分还可以包括非易失性随机存取存储器。例如，存储器1202还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器1201、存储器1202、计算机程序1203可执行本申请实施例提供的司机动作识别方法的第一实施例和第二实施例中所描述的实现方式，也可执行本申请实施例所描述的终端的实现方式，在此不再赘述。

在本申请的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：

进一步的，所述计算机程序被处理器执行时还实现：

录制所述司机的红外视频；

进一步的，所述计算机程序被处理器执行时还实现：

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种司机动作识别方法，其特征在于，包括：

2.如权利要求1所述的司机动作识别方法，其特征在于，所述将所述图像分别输入预先训练得到的二维卷积神经网络和三维卷积神经网络中，得到对司机动作的第一识别结果和第二识别结果之前，还包括：

3.如权利要求1所述的司机动作识别方法，其特征在于，所述第一识别结果和所述第二识别结果都包括双手脱离方向盘；所述将所述第一识别结果和所述第二识别结果进行对比，确定所述司机动作所属的动作类型，包括：

4.如权利要求1-3任一项所述的司机动作识别方法，其特征在于，所述获取当前司机的图像，包括：

录制所述司机的红外视频；

5.如权利要求4所述的司机动作识别方法，其特征在于，所述对所述红外视频进行采样处理得到红外图像，并对所述红外图像进行预处理，得到所述司机的图像，包括

6.一种司机动作识别装置，其特征在于，包括：

7.如权利要求6所述的司机动作识别装置，其特征在于，所述司机动作识别装置还包括：

8.如权利要求6所述的司机动作识别装置，其特征在于，所述确定单元包括：

9.一种司机动作识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。