CN111008567A

CN111008567A - 一种驾驶员行为识别方法

Info

Publication number: CN111008567A
Application number: CN201911083207.9A
Authority: CN
Inventors: 吕培; 郝天然; 王俊凯; 徐明亮; 周兵
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-04-14
Anticipated expiration: 2039-11-07
Also published as: CN111008567B

Abstract

本发明公开了一种驾驶员行为识别方法。该方法包括的步骤有创建数据集、构建检测网络、训练检测网络和检测识别，主要是将驾驶室视频中每一单帧图像区分为目标数据集和分割数据集，通过对检测网络训练后，能够对输入的单帧图像处理后分别输出空间分割和目标检测，并根据所处空间判断识别目标动作对应的驾驶行为类型。通过本方法可以实现对驾驶室空间布局的分割和行为中必然发生特定瞬间动作的检测，然后依据自动分割的空间布局进行行为的准确识别。

Description

一种驾驶员行为识别方法

技术领域

本发明涉及深度学习和计算机视觉技术领域，具体涉及一种驾驶员行为识别方法。

背景技术

铁路是国家经济大动脉，对国家经济建设起着举足轻重的作用，而列车驾驶员在铁路安全运输中肩负着重大责任。列车驾驶员的行为动作直接关系到铁路运输的安全，因此列车驾驶员的行为监督环节越来越受到社会的广泛关注和重视。

现有技术中，驾驶员行为识别的方法主要是基于提取特征的方法，该方法首先对视频进行采样，然后对样本提取特征，接着对特征进行编码，再对编码得到的向量进行规则化，最后训练分类。该方法能够根据需要提取相应的特征，实现简单，但行为的表示能力受所提取特征的限制。

发明内容

本发明主要解决的技术问题是提供一种驾驶员行为识别方法，主要是基于深度学习的方法，从原始视频单帧图像中自动学习特征，不需要人工提取图像特征，自动输出识别结果，解决现有技术中识别速度慢，难以满足实时识别以及识别准确率有待提高的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种驾驶员行为识别方法，包括以下步骤：创建数据集，创建包括基于像素级的多边形标注的分割数据集和矩形标注的目标数据集的融合数据集，所述分割数据集中的数据对应用于驾驶室视频中每一单帧图像的空间布局的分割，所述目标检测数据集中的数据对应用于驾驶室视频中每一单帧图像的特定瞬间动作的检测；构建检测网络，所述检测网络包括卷积神经网络，对输入的单帧图像处理后分别输出空间分割和目标检测，并根据所处空间判断识别目标动作对应的驾驶行为类型；训练检测网络，将所述分割数据集和目标数据集融合后输入到所述检测网络，分别对应选择不同的损失函数，然后对所述检测网络进行迭代正向传播训练和反向传播训练，优化设置所述检测网络内的网络参数；检测识别，实时向所述检测网络输入驾驶室监控视频中每一单帧图像，所述检测网络对应检测识别输出每一单帧图像中驾驶员行为类型。

在本发明驾驶员行为识别方法另一实施例中，所述检测网络包括卷积神经网络，所述卷积神经网络的后一级输出特征图，同时还并联连接有区域选择网络，所述区域选择网络输出候选区域至所述对特征图进行选择区域，经过候选区域匹配处理得到固定尺度特征图，然后再分为两个网络支路分别处理，其中第一网络支路包括全卷积网络，对固定尺寸特征图绘制出相应的分割掩码，第二网络支路包括全连接网络，对固定尺寸特征图输出对应的区域框和目标类别。

在本发明驾驶员行为识别方法另一实施例中，在所述卷积神经网络中的处理中包括：第一步，对输入的单帧图像通过卷积进行偏移处理，使得输入的单帧图像经过偏移处理后，每个像素均发生相同的偏移，输出的结果为偏移量；第二步，将所述单帧图像的像素索引值与所述偏移量相加，进而得到每一个像素偏移后的坐标值(a,b)，并且还需要将坐标值限定在所述单帧图像的图片大小以内，所述坐标值为浮点型数值；第三步，根据所述坐标值(a,b)确定对应的像素值，将所述坐标值(a,b)对应转换为四个整数型数值：x1＝floor(a)、x2＝ceil(a)、y1＝floor(b)、y2＝ceil(b)，再对应组合成四对坐标：(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)；

在x方向进行计算：

当M₁＝(x-y₁)，

当M₂＝(x-y₂)，

在y方向进行计算：

其中，f(x,y)为所述坐标值(a,b)对应的像素值，f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)分别为已知四对坐标，即：Q₁₁＝(x₁,y₁)，Q₁₂＝(x₁,y₂)，Q₂₁＝(x₂,y₁)，Q₂₂＝(x₂,y₂)，f(M₁)、f(M₂)为x方向计算得到的像素值；

第四步，在得到经过偏移后各个坐标值(a,b)确定对应的像素值f(x,y)后，即得到了一个新图片，再将所述新图片作为输入数据输入到所述卷积神经网络的下一层处理。

在本发明驾驶员行为识别方法另一实施例中，对于区域选择网络，在对特征图输出候选区域时，所述区域选择网络通过倍数和长宽比例不同的窗口在特征图上进行滑窗，从而生成候选区域。

在本发明驾驶员行为识别方法另一实施例中，所述窗口包括基准窗口，进一步包括长宽比为1:1、1:2、2:1的三种窗口，所述基准窗口的大小为32个像素点。

在本发明驾驶员行为识别方法另一实施例中，所述窗口还包括第二组窗口和第三组窗口，所述第二组窗口和第三组窗口又进一步分别包括长宽比为1:1、1:2、2:1的三种窗口，所述第二组窗口的大小为16个像素点，所述第三组窗口的大小为64个像素点。

在本发明驾驶员行为识别方法另一实施例中，在所述候选区域匹配处理中包括：第一步，特征图映射，将输入的特征图进行缩小映射，并保留浮点数；第二步，池化处理，对映射后的特征图进行固定尺度池化处理，得到进一步分区的池化特征图；第三步，下采样处理，确定下采样值，然后对池化特征图按照下采样值进一步分为均等的采样区，每个采样区取中心点位置，中心点位置的像素采用双线性插值进行计算，得到的像素值，最后取各个采样区对应的像素值中的最大值作为所述池化特征图的像素值。

在本发明驾驶员行为识别方法另一实施例中，对于整个检测网络，所述损失函数L表示为：

其中，L_RPN是区域选择网络的目标函数，L_cls是分类损失函数，L_box是检测损失函数，L_mask是分割损失函数。

在本发明驾驶员行为识别方法另一实施例中，通过空间分割识别确定驾驶室空间布局，通过特定瞬间动作识别进行驾驶行为的初步判断，然后在确定的空间布局进行固定区域范围内特定动作的约束，最终得出驾驶行为类别的判断。

本发明的有益效果是：本发明公开了一种驾驶员行为识别方法。该方法包括的步骤有创建数据集、构建检测网络、训练检测网络和检测识别，主要是将驾驶室视频中每一单帧图像区分为目标数据集和分割数据集，通过对检测网络训练后，能够对输入的单帧图像处理后分别输出空间分割和目标检测，并根据所处空间判断识别目标动作对应的驾驶行为类型。通过本方法可以实现对驾驶室空间布局的分割和行为中必然发生特定瞬间动作的检测，然后依据自动分割的空间布局进行行为的准确识别。

附图说明

图1是根据本发明驾驶员行为识别方法一实施例的流程图；

图2是根据本发明驾驶员行为识别方法一实施例中的矩形标注的目标数据集说明图；

图3是根据本发明驾驶员行为识别方法一实施例中的多边形标注的分割数据集说明图；

图4是根据本发明驾驶员行为识别方法一实施例中的可变形Mask R-CNN网络组成示意图；

图5是根据本发明驾驶员行为识别方法一实施例中的检测网络组成示意图；

图6是根据本发明驾驶员行为识别方法一实施例中的神经网络组成示意图；

图7是根据本发明驾驶员行为识别方法一实施例中的候选区域滑窗示意图；

图8是根据本发明驾驶员行为识别方法一实施例中的驾驶行为识别示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明驾驶员行为识别方法一实施例的流程图。在图1中，包括步骤有：

步骤S101：创建数据集，创建包括基于像素级的多边形标注的分割数据集和矩形标注的目标数据集的融合数据集，所述分割数据集中的数据对应用于驾驶室视频中每一单帧图像的空间布局的分割，所述目标检测数据集中的数据对应用于驾驶室视频中每一单帧图像的特定瞬间动作的检测；

步骤S102：构建检测网络，所述检测网络包括卷积神经网络，对输入的单帧图像处理后分别输出空间分割和目标检测，并根据所处空间判断识别目标动作对应的驾驶行为类型；

步骤S103：训练检测网络，将所述分割数据集和目标数据集融合后的融合数据集输入到所述检测网络，分别对应选择不同的损失函数，然后对所述检测网络进行迭代正向传播训练和反向传播训练，优化设置所述检测网络内的网络参数；

步骤S104：检测识别，实时向所述检测网络输入驾驶室监控视频中每一单帧图像，所述检测网络对应检测识别输出每一单帧图像中驾驶员行为类型。

优选的，在步骤S101中，如图2所示，其中显示了在驾驶室监控视频中一单帧图像的实施例，其中包括利用矩形标注的目标数据集X1，该数据集包括该矩形内部的像素，而对该矩形边框则用矩形边框的左上角坐标和右下角坐标进行表示。通过矩形标注的目标数据集是为了标注出目标对象的矩形区域，该标注区域能够代表特定行为的必然发生瞬间的特征动作，作为驾驶行为识别的判断条件。

进一步的，如图3所示，也是驾驶室监控视频中一单帧图像的实施例，其中包括利用多边形标注的分割数据集，图中显示包括：门分割数据集Y1、座椅分割数据集Y2、侧窗分割数据集Y3、前窗分割数据集Y4、操控台分割数据集Y5，每一个分割数据集包括该多边形内部的像素，而对于每一个多边形则通过包括所有坐标点进行表示，图中显示了每一个数据集中的坐标点通过连线而合围成一个多边形区域。分割数据集需要画点连线，框选出分割对象的区域，根据分割的不规则对象，精确的判断出驾驶室的空间布局，作为驾驶行为识别的约束条件。

可以看出，不同任务的数据集，标注内容不同，生成数据集的信息不同。目标数据集标注出目标的矩形区域，而分割数据集标需要精确的标注出所要分割对象区域的所有坐标值。

这里，对于不同任务的数据集，往往需要不同的检测模型进行训练。而本方法则将不同任务的数据集进行融合，生成融合数据集，输入到一个模型中进行训练，实现了一个模型中使用不同数据集完成不同任务的目的。

因此，在本发明中，对于列车驾驶员的驾驶行为识别，每个连续行为都会出现特定的瞬间动作(例如打电话行为，总会出现手拿电话放于耳旁的瞬间动作)，以此为目标对象作为识别驾驶行为的判断依据。此目标对象可能会有相似的瞬间动作(例如需检测出主驾驶员的打电话行为，而检测结果为副驾驶员打电话的瞬间动作)，而待识别的瞬间动作发生在特定空间区域，通过空间布局可以进一步提高行为识别的准确率，去除掉不是在特定区域发生的相似或相同的瞬间动作检测结果，由此可以大大提高检测的准确率和时效性。

进一步的，不同车型车号的列车，摄像头固定位置的不同，拍摄的场景不同，影响列车的空间布局，本方法利用实例分割确定驾驶室的空间布局，得出每个行为发生区域的坐标，即是通过前述的分割数据集加以实现。然后，再根据区域坐标值与特定瞬间动作目标检测框选坐标值的比较，去除非特定区域发生的相似或相同瞬间动作的检测结果，得出最终识别结果。这是本发明选取分割数据集和目标数据集的主要原因。

优选的，对于驾驶室监控视频中一单帧图像，将像素级多边形标注的分割数据和边界框(bbox)标注的目标检测数据统一使用，融合生成新的数据集，输入到检测网络，该检测网络优选为可变形Mask R-CNN网络。

如图4所示，为可变形Mask R-CNN网络一优选实施例，在Mask R-CNN网络基础上引入了可变形卷积和可变形ROI Align。优选的，将ResNet网络中的特征提取部分ResNet-101的conv3，conv4和conv5阶段中的全部3x3卷积层替换为可变形卷积层，将现有的ROIPooling层(兴趣区域池化层)替换为可变形ROI Align层(兴趣区域对齐层)。可变形卷积和可变形ROI Align基于在模块中对空间采样位置信息作进一步位移调整，该位移在目标任务中学习得到，不需额外的监督信号。可变形卷积在标准卷积中向常规采样网络添加了2D偏移，可变形ROI Align在以前的ROI Align为每个bin添加一个偏移量，从先前的特征图和ROI学习偏移量，使得对具有不同形状的对象进行自适应部分定位。可变形ROI Align通过标准的ROI Align获取ROI对应的特征，该特征通过一个全连接层得到ROI每个部位的偏移量。用该偏移量作用在可变形ROI Align上，获得不局限于ROI固定网格的特征。

其中的FCN(Fully Convolutional Network)表示全卷积网络，ROI(Region ofInterest)表示兴趣区域。图4中，优选的，首先进行像素级多边形标注的分割数据和边界框(bbox)标注的目标检测数据的融合，即融合数据集，生成统一的voc格式数据。分割数据用于stuff类别的训练，确定空间布局，目标检测数据用于thing类别的训练，检测出必然发生的特定瞬间动作。

优选的，本发明融合了像素级多边形标注的分割数据和边界框(bbox)标注的目标检测数据，生成新的数据集，即融合数据集，将数据集中图像送入变形Mask R-CNN网络，通过一系列的卷积和可变形卷积操作，非线性激活函数，池化和可变形ROI Align操作层层堆叠，逐层从原始数据获取高层语义信息，输出学习的特征向量。

首先判断输出的类别属于stuff类别或者thing类别，根据类别的不同，选择不同的loss函数，然后计算输出每层实际值和输出值间的偏差，根据反向传播算法中的链式法则，得到每个隐藏层的误差，根据每层的误差调整各层的参数，完成网络的反向传播过程。不断迭代正向传播和反向传播过程，直至网络收敛。

可变形Mask R-CNN结构主要分为三大部分，第一部分是共享的卷积层，作为基础网络(backbone)，第二部分是候选区域生成网络(RPN)，第三部分是对候选区域进行分类的网络，用作分类器(classifier)，RPN和分类器都对目标框进行修正，分路器还进行mask的预测。

进一步的，所述驾驶行为包括：正常驾驶、手比、握拳、确认、偏头、探身、抽烟、打电话、站立、离岗、睡觉、双人换端(驾驶室无人)，单人值乘(驾驶室只一个人)。

进一步的，如图5给出了另一构建的检测网络实施例的组成示意图，其中包括卷积神经网络11，所述卷积神经网络11的后一级输出特征图12，同时还并联连接有区域选择网络13，所述区域选择网络输出候选区域对特征图进行选择区域，经过候选区域匹配处理得到固定尺度特征图14，然后再分为两个网络支路分别处理，其中第一网络支路包括全卷积网络15，对固定尺寸特征图绘制出相应的分割掩码，第二网络支路包括全连接网络16，对固定尺寸特征图输出对应的区域框和目标类别。

进一步优选的，如图6所示，所述卷积神经网络11包括ResNet网络，这里是以输入1024*1024像素的图像为例，优选的，对于该ResNet网络分为5个Stage,这里没有利用Stage1即P1的特征，P1对应的特征图比较大计算耗时弃用；相反，在Stage5即P5的基础上进行了下采样得到P6，利用[P2 P3 P4 P5 P6]五个不同尺度的特征图输入到区域选择网络13，即RPN网络。优选的，在所述卷积神经网络11的Stage3、Stage4、Stage5分别对应添加可变形卷积，即JJ1、JJ2、JJ3中所有3*3卷积层选择可变形卷积的模式。

进一步的，[P2 P3 P4 P5 P6]五个不同尺度的特征图由RPN网络生成若干个锚框(anchor box)，经过NMS非最大值抑制操作后保留将近共20000个ROI，由于步长的不同，分别对[P2 P3 P4 P5]四个不同尺度的特征图对应的步长进行可变形ROI Align操作，将经过此操作产生的ROI进行连接，随即网络分为三部分：全连接预测类别、全连接预测矩形框、全卷积预测像素分割。其中，全卷积预测像素分割连接至全卷积网络15，对固定尺寸特征图绘制出相应的分割掩码，而全连接预测类别和全连接预测矩形框连接至全连接网络16，对固定尺寸特征图输出对应的目标类别和区域框。

进一步的，在所述卷积神经网络中的处理中包括：

第一步，对输入的单帧图像通过卷积进行偏移处理，使得输入的单帧图像经过偏移处理后，每个像素均发生相同的偏移，输出的结果为偏移量；

第二步，将所述单帧图像的像素索引值与所述偏移量相加，进而得到每一个像素偏移后的坐标值(a,b)，并且还需要将坐标值限定在所述单帧图像的图片大小以内，所述坐标值为浮点型数值；

第三步，根据所述坐标值(a,b)确定对应的像素值，将所述坐标值(a,b)对应转换为四个整数型数值：x1＝floor(a)、x2＝ceil(a)、y1＝floor(b)、y2＝ceil(b)，函数floor(a)表示取不大于a的最大整数，函数ceil(a)表示取大于等于数值a的最小整数。再对应组合成四对坐标：(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)；

在x方向进行计算：

当M₁＝(x-y₁)

当M₂＝(x-y₂)

在y方向进行计算：

进一步的，对于区域选择网络而言，在对特征图输出候选区域时，该网络通过倍数和长宽比例不同的窗口在特征图上进行滑窗，从而迅速生成候选区域。该实现过程如图7所示，其中背景图像Z0表示经过卷积神经网络后输出的特征图，第一组窗口Z1为基准窗口，优选基准窗口大小为32像素点，其中包括的三个窗口分别表示长宽比为1:1、1:2、2:1的三种窗口，则该图中的第二组窗口Z2和第三组窗口Z3分别表示16和64像素点的窗口，同样，在这两组窗口中也各有三个长宽比例为1:1、1:2、2:1的三种窗口。该区域选择网络利用上述三种倍数和三种比例的共九种尺度窗口的方法对特征图进行滑窗。

优选的，在候选区域匹配处理中，主要是进一步对候选区域进行池化处理，从而将不同尺度的特征图池化为固定尺度特征图。

进一步优选的，在候选区域匹配处理中包括：

第一步，特征图映射，将输入的特征图进行缩小映射，并保留浮点数。例如，特征图中有一个候选区域的大小为800*800，映射后的特征图的大小为：800/32＝12.5,即12.5*12.5，此时不进行取整操作，而是保留浮点数。

第二步，池化处理，对映射后的特征图进行固定尺度池化处理，得到进一步分区的池化特征图。例如，进行池化的宽度和高度均为7，即pooled_w＝7,pooled_h＝7,即池化后固定成7*7大小的特征图，这样经过映射得到的12.5*12.5的特征图又被划分成49个同等大小的小区域，即为池化特征图，每个池化特征图的大小为12.5/7＝1.78，即1.78*1.78。

第三步，下采样处理，确定下采样值，然后对池化特征图按照下采样值进一步分为均等的采样区，每个采样区取中心点位置，中心点位置的像素采用双线性插值进行计算，得到的像素值，最后取各个采样区对应的像素值中的最大值作为所述池化特征图的像素值。例如，假定采样值4，即表示对于每个1.78*1.78的池化特征图平分为四个采样区，每个采样区取中心点位置，而中心点位置的像素采用双线性插值进行计算，得到四个像素值，最后取四个像素值中最大值作为这个池化特征图(1.78*1.78大小的区域)的像素值，如此类推，映射后的特征图可以获取49个池化特征图的像素值，组成7*7大小的特征图。

进一步优选的，在步骤S103中，当需要对特定瞬间动作行为进行初步判断时，需要选择分类损失函数L_cls、区域选择网络的目标函数L_RPN和检测损失函数L_box，当需要对驾驶室空间布局进行分割时，需要选择分类损失函数L_cls、区域选择网络的目标函数L_RPN、检测损失函数L_box和分割损失函数L_mask。因此，对应整个检测网络而言，损失函数L可以表示为：

L_RPN表示RPN部分的目标函数，其值为分类和回归损失的和，分类采用Softmax，回归采用稳定的SmoothL1。

L_cls表示采用Softmax的分类损失，L_box表示采用SmoothL1的检测损失，L_mask表示采用平均交叉熵(average cross-entropy)的分割损失。

根据真实类别T_cls选择相应的目标函数，如果T_cls为thing_cls，进行分类和检测的训练，如果T_cls为stuff_cls，进行分类检测和分割的训练。

优选的，在步骤S104中，通过空间分割识别确定驾驶室空间布局，通过特定瞬间动作识别进行驾驶行为的初步判断，然后在确定的空间布局进行固定区域范围内特定动作的约束，最终得出驾驶行为类别的判断。

结合图8所示，例如识别出主驾驶员规定行为-手比，手比指主驾驶员伸出右手，食指与中指指向前方，驾驶室内可能会出现不同人员做出手比的情况，根据主驾驶员做出此行为的区域范围，可以去除掉副驾驶员做出此动作的情况。

优选的，首先检测出手比行为中驾驶员举手朝前瞬间动作的目标框坐标值，目标框S1的左上角坐标(lt_x,lt_y)和右下角坐标(rt_x,rt_y)；然后依据分割结果得出的主驾驶员作此动作的区域范围坐标值，左上角坐标(lw_x,lw_y)和右下角坐标(rw_x,rw_y)，判断(lt_x,lt_y)，(rt_x,rt_y)是否在(lw_x,lw_y)，(rw_x,rw_y)所包含区域内，如果在该区域内识别为主驾驶员手比行为，反之则不是主驾驶员手比行为。

由此可见，本发明公开了一种驾驶员行为识别方法，该方法包括的步骤有创建数据集、构建检测网络、训练检测网络和检测识别，主要是将驾驶室视频中每一单帧图像区分为目标数据集和分割数据集，通过对检测网络训练后，能够对输入的单帧图像处理后分别输出空间分割和目标检测，并根据所处空间判断识别目标动作对应的驾驶行为类型。通过本方法可以实现对驾驶室空间布局的分割和行为中必然发生特定瞬间动作的检测，然后依据自动分割的空间布局进行行为的准确识别。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种驾驶员行为识别方法，其特征在于，包括以下步骤：

创建数据集，创建包括基于像素级的多边形标注的分割数据集和矩形标注的目标数据集的融合数据集，所述分割数据集中的数据对应用于驾驶室视频中每一单帧图像的空间布局的分割，所述目标检测数据集中的数据对应用于驾驶室视频中每一单帧图像的特定瞬间动作的检测；

构建检测网络，所述检测网络包括卷积神经网络，对输入的单帧图像处理后分别输出空间分割和目标检测，并根据所处空间判断识别目标动作对应的驾驶行为类型；

训练检测网络，将所述分割数据集和目标数据集融合后的融合数据集输入到所述检测网络，分别对应选择不同的损失函数，然后对所述检测网络进行迭代正向传播训练和反向传播训练，优化设置所述检测网络内的网络参数；

检测识别，实时向所述检测网络输入驾驶室监控视频中每一单帧图像，所述检测网络对应检测识别输出每一单帧图像中驾驶员行为类型。

2.根据权利要求1所述的驾驶员行为识别方法，其特征在于，所述检测网络包括卷积神经网络，所述卷积神经网络的后一级输出特征图，同时还并联连接有区域选择网络，所述区域选择网络输出候选区域至所述对特征图进行选择区域，经过候选区域匹配处理得到固定尺度特征图，然后再分为两个网络支路分别处理，其中第一网络支路包括全卷积网络，对固定尺寸特征图绘制出相应的分割掩码，第二网络支路包括全连接网络，对固定尺寸特征图输出对应的区域框和目标类别。

3.根据权利要求2所述的驾驶员行为识别方法，其特征在于，在所述卷积神经网络中的处理中包括：

第三步，根据所述坐标值(a,b)确定对应的像素值，将所述坐标值(a,b)对应转换为四个整数型数值：x1＝floor(a)、x2＝ceil(a)、y1＝floor(b)、y2＝ceil(b)，再对应组合成四对坐标：(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)；

在x方向进行计算：

当M₁＝(x-y₁)，

当M₂＝(x-y₂)，

在y方向进行计算：

4.根据权利要求3所述的驾驶员行为识别方法，其特征在于，对于区域选择网络，在对特征图输出候选区域时，所述区域选择网络通过倍数和长宽比例不同的窗口在特征图上进行滑窗，从而生成候选区域。

5.根据权利要求4所述的驾驶员行为识别方法，其特征在于，所述窗口包括基准窗口，进一步包括长宽比为1:1、1:2、2:1的三种窗口，所述基准窗口的大小为32个像素点。

6.根据权利要求5所述的驾驶员行为识别方法，其特征在于，所述窗口还包括第二组窗口和第三组窗口，所述第二组窗口和第三组窗口又进一步分别包括长宽比为1:1、1:2、2:1的三种窗口，所述第二组窗口的大小为16个像素点，所述第三组窗口的大小为64个像素点。

7.根据权利要求6所述的驾驶员行为识别方法，其特征在于，在所述候选区域匹配处理中包括：

第一步，特征图映射，将输入的特征图进行缩小映射，并保留浮点数；

第二步，池化处理，对映射后的特征图进行固定尺度池化处理，得到进一步分区的池化特征图；

第三步，下采样处理，确定下采样值，然后对池化特征图按照下采样值进一步分为均等的采样区，每个采样区取中心点位置，中心点位置的像素采用双线性插值进行计算，得到的像素值，最后取各个采样区对应的像素值中的最大值作为所述池化特征图的像素值。

8.根据权利要求7所述的驾驶员行为识别方法，其特征在于，对于整个检测网络，所述损失函数L表示为：

9.根据权利要求8所述的驾驶员行为识别方法，其特征在于，通过空间分割识别确定驾驶室空间布局，通过特定瞬间动作识别进行驾驶行为的初步判断，然后在确定的空间布局进行固定区域范围内特定动作的约束，最终得出驾驶行为类别的判断。