CN110852190B

CN110852190B - 一种融合目标检测与手势识别的驾驶行为识别方法及系统

Info

Publication number: CN110852190B
Application number: CN201911009347.1A
Authority: CN
Inventors: 韩守东; 刘东海生; 张宏亮
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-05-20
Anticipated expiration: 2039-10-23
Also published as: CN110852190A

Abstract

本发明公开了一种融合目标检测和手势识别的驾驶行为识别方法及系统，属于驾驶行为识别领域，包括：在模型训练步骤中，收集驾驶行为图片和视频，对其中与第一不良驾驶行为相关的目标进行标注，得到目标检测数据集，并筛选出包含与第二不良驾驶行为相关的手势的视频帧，得到手势识别数据集；构建基于神经网络的驾驶行为识别模型，用于对输入图像进行目标检测和手势识别并融合，完成驾驶行为识别；利用两个数据集进行模型训练，得到目标驾驶行为识别模型；在驾驶行为识别步骤中，利用目标驾驶行为识别模型对待识别的目标图片或者目标视频中的各视频帧进行驾驶行为识别，以判断是否存在不良驾驶行为。本发明能够提高驾驶行为识别的识别精度和实时性。

Description

一种融合目标检测与手势识别的驾驶行为识别方法及系统

技术领域

本发明属于驾驶行为识别领域，更具体地，涉及一种融合目标检测和手势识别的驾驶行为识别方法及系统。

背景技术

驾驶员的实时行为识别是计算机视觉运用领域中的一个重要研究课题，在复杂的驾驶环境中实时识别驾驶行为并及时对不良驾驶行为做出预警是安全行车的重要保障。

驾驶行为识别是动作识别的一种，目前，动作识别方法既有基于滤波、纹理特征等的传统机器视觉方法，也有基于深度学习的方法。传统的方法将图片进行网格划分后在多个尺度上分别密集采样特征点,并滤除一些变换少的点，然后利用光流法计算特征点的运动速度，进而获得运动目标轨迹，再沿着轨迹提取方向梯度直方图(HOG)、光流直方图(HOF)、运动边界直方图(MBH)等特征，最后对这些特征进行编码并使用SVM分类，获得行为识别结果。传统的方法在背景简单、光线变化不大的场景下有较好效果，但实际的驾驶场景往往是复杂的，且光线是多变的，导致传统的行为识别方法在识别驾驶行为时往往不能获得很稳定的识别性能。而且，驾驶员在驾驶过程中，动作变化往往不大，传统的方法不易提取到驾驶员的动作轨迹，或存在特征冗余，导致对分类器驾驶行为的判别性不高，相应地驾驶行为识别精度也不高。此外，传统的方法计算量大，不易满足驾驶行为识别的实时性要求。使用深度学习方法构建的模型可以自动提取驾驶员在驾驶过程中的特征，且相较于传统方法更具有通用性和鲁棒性，因此，在驾驶行为识别中获得了广泛的应用。

基于深度学习的方法往往在UCF-101、HMDB-51和Kinetics这样的公共大型数据集进行训练和测试，其所学习获得的参数不能直接运用于实际的驾驶行为识别中。另外，基于深度学习框架设计的动作识别算法往往是在一段行为视频上同时提取空间和时间特征，并基于这些特征获得最终的行为识别结果，这样的方法面临着参数量大，需要的计算成本高的问题，难以做到实时运行，限制了其在实时识别驾驶员行为中的应用。总的来说，在实际的驾驶行为识别中，现有的驾驶行为识别方法在识别精度和实时性仍有待提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种融合目标检测和手势识别的驾驶行为识别方法及系统，其目的在于，提高驾驶行为识别的识别精度和实时性。

为实现上述目的，按照本发明的第一方面，提供了一种融合目标检测和手势识别的驾驶行为识别方法，包括模型训练步骤和驾驶行为识别步骤；

模型训练步骤包括：

收集驾驶行为图片和驾驶行为视频，对各图片和各视频帧中与第一不良驾驶行为相关的目标进行标注，得到目标检测数据集，并筛选出驾驶行为视频中包含与第二不良驾驶行为相关的手势的视频帧，得到手势识别数据集；第一不良驾驶行为表示与手势无关的不良驾驶行为，第二不良驾驶行为表示与手势相关的不良驾驶行为；

构建基于神经网络模型的驾驶行为识别模型，用于对输入图像进行目标检测和手势识别，并融合目标检测结果和手势识别结果完成对输入图像的驾驶行为识别；

利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练，从而在训练完成后得到目标驾驶行为识别模型；

驾驶行为识别步骤包括：

获得待识别的目标图片或目标视频，利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别，以判断是否存在不良驾驶行为。

实际的不良驾驶行为，具体可分为两类，其中一类在行为发生时，仅与特定目标相关，而与特定手势无关，如戴口罩、戴帽子、戴墨镜等驾驶行为，另一类在行为发生时，则与特定手势相关，如使用手机、吃东西、喝水等驾驶行为；本发明所提供的融合目标检测和手势识别的驾驶行为识别方法，根据实际驾驶行为的特点，从实际的驾驶图片和驾驶视频中，通过标注目标和筛选特定手势帧的方式分别建立用于模型训练的目标检测数据集和手势识别数据集，针对仅与特定目标(口罩、帽子、墨镜等)相关的驾驶行为进行目标检测，针对与特定手势相关的驾驶行为进行手势识别，既能保证训练所得的模型在实际的驾驶行为识别中能够获得较好的识别效果，提高识别精度，也无需在一段行为视频上同时提取空间和时间特征，有效减少了计算的时间复杂度，提高了实时性。总的来说，本发明能够有效提高驾驶行为识别的识别精度和实时性。

进一步地，所构建的驾驶行为识别模型，包括：第一tinyYOLOv3网络、tinyDarknet网络以及第一融合层；

第一tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络；

第一tinyYOLOv3网络用于对输入图像进行目标检测，以检测输入图像中与第一不良驾驶行为相关的目标；

tiny Darknet网络用于对输入图像进行手势识别，以识别输入图像中与第二不良驾驶行为相关的手势；

融合层用于融合第一tinyYOLOv3网络的目标检测结果和tiny Darknet网络的手势识别结果，完成对输入图像的驾驶行为识别。

本发明所构建的驾驶行为识别模型中，用于目标检测的tinyYOLOv3网络和用于手势识别的tiny Darknet网络本身是轻量级的网络，并且在精度和速度上均表现良好，因此，本发明所构建的驾驶行为识别模型，模型参数较少，能够在保证驾驶行为识别精度的基础上，减小计算量，提高驾驶行为识别的实时性；在目标检测和手势识别的过程中，特征提取的过程极为复杂，tinyYOLOv3网络和tiny Darknet网络的特征提取网络结构相同，本发明所构建的驾驶行为识别模型中，tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络，构建了一个单通道的驾驶行为识别模型，能够进一步简化模型结构，并且在驾驶行为识别过程中，仅需进行一次特征提取，有效减少了计算的时间复杂度。因此，本发明能够有效提高驾驶行为识别的实时性。

进一步地，利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练，包括：利用目标检测数据集和手势识别数据集共同对驾驶行为识别模型进行训练，以完成对驾驶行为识别模型的训练。

进一步地，所构建的驾驶行为识别模型，包括：第二tinyYOLOv3网络、ResNet-18网络以及第二融合层；

第二tinyYOLOv3网络用于对输入图像进行目标检测，以检测输入图像中与第一不良驾驶行为相关的目标；

ResNet-18网络用于对输入图像进行手势识别，以识别输入图像中与第二不良驾驶行为相关的手势；

第二融合层用于融合第二tinyYOLOv3网络的目标检测结果和ResNet-18网络的手势识别结果，完成对输入图像的驾驶行为识别。

本发明所构建的驾驶行为识别模型中，用于目标检测的tinyYOLOv3网络和用于手势识别的ResNet-18网络本身是轻量级的网络，并且与同类别的网络相比，在精度和速度上表现最好，tinyYOLOv3网络和用于手势识别的ResNet-18网络分别使用各自的特征提取网络独立完成特征提取，因此，本发明构建了一个双通道的驾驶行为识别模型，模型参数较少，能够在简化模型结构、提高实时性的基础上，有效提高驾驶行为识别的识别精度。

进一步地，利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练，包括：分别利用目标检测数据集对第二tinyYOLOv3网络进行训练，并利用手势识别数据集对ResNet-18网络进行训练，从而在第二tinyYOLOv3网络和ResNet-18网络均训练完成后，完成对驾驶行为识别模型的训练。

进一步地，若待识别的对象为目标视频，则在利用目标驾驶行为识别模型对目标视频中的各视频帧进行驾驶行为识别之后，还包括：对各视频帧的驾驶行为识别结果做滤波处理，以剔除其中的异常识别结果。

本发明通过对视频的驾驶行为识别结果做滤波处理，剔除其中的异常识别结果，能够进一步提高对视频的驾驶行为识别精度。

进一步地，对各视频帧的驾驶行为识别结果做滤波处理，通过巴特沃兹低通滤波器完成。

进一步地，利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别之前，还包括：

对目标图片或者目标视频中的各视频帧进行预处理，以规范化图片尺寸并增强数据集。

按照本发明的第二方面，提供了一种融合目标检测和手势识别的驾驶行为识别系统，包括：计算机可读存储介质和处理器，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行本发明第一方面提供的融合目标检测和手势识别的驾驶行为识别方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统，根据实际驾驶行为的特点，从实际的驾驶图片和驾驶视频中，通过标注目标和筛选特定手势帧的方式分别建立用于模型训练的目标检测数据集和手势识别数据集，针对仅与特定目标(口罩、帽子、墨镜等)相关的驾驶行为进行目标检测，针对与特定手势相关的驾驶行为进行手势识别，既能保证训练所得的模型在实际的驾驶行为识别中能够获得较好的识别效果，提高识别精度，也无需在一段行为视频上同时提取空间和时间特征，有效减少了计算的时间复杂度，提高了实时性。总的来说，本发明能够有效提高驾驶行为识别的识别精度和实时性。

(2)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统，在其优选方案中，所构建的驾驶行为识别模型中，使用tinyYOLOv3网络进行目标检测，使用tinyDarknet网络进行手势识别，并且tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络，构建了一个单通道的驾驶行为识别模型，由于tinyYOLOv3网络和tiny Darknet网络本身是轻量级的网络，并且在精度和速度上均表现良好，因此，本发明能够在保证驾驶行为识别精度的基础上，简化模型结构，并减少耗时的特征提取过程，有效提高驾驶行为识别的实时性。

(3)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统，在其优选方案中，使用tinyYOLOv3网络进行目标检测，使用ResNet-18网络进行手势识别，构造了一个双通道的驾驶行为识别模型，由于tinyYOLOv3网络和ResNet-18网络本身是轻量级的网络，并且与同类别的网络相比，在精度和速度上表现最好，因此，本发明能够在简化模型结构、提高实时性的基础上，有效提高驾驶行为识别的识别精度。

(4)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统，通过对视频的驾驶行为识别结果做滤波处理，剔除其中的异常识别结果，能够进一步提高对视频的驾驶行为识别精度。

附图说明

图1为本发明实施例提供的融合目标检测和手势识别的驾驶行为识别方法流程图；

图2为本发明实施例提供的单通道的驾驶行为识别模型示意图；

图3为本发明是实施例提供的利用单通道的驾驶行为识别模型进行驾驶行为识别的方法流程图；

图4为本发明实施例提供的利用双通道的驾驶行为识别模型进行驾驶行为识别的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实时性对于识别驾驶员行为来说具有重要意义，特别是在识别不良驾驶行为方面。驾驶员在驾驶过程中的戴帽子、戴墨镜和喝水等行为显然没有明显的时间变化特征，且这些驾驶行为往往与一系列特定目标或特定手势有关，本发明根据实际驾驶行为的特性，通过在单帧上实时检测与驾驶行为相关的特定目标(帽子、眼镜、口罩等)和识别特定手势来判别驾驶员的驾驶行为，而避免了在一段行为视频上同时提取空间和时间特征，既能提高驾驶行为识别的精度，又能够提高驾驶行为识别的实时性。

本发明所提供的融合目标检测和手势识别的方法，如图1所示，包括模型训练步骤和驾驶行为识别步骤；

模型训练步骤包括：

收集驾驶行为图片和驾驶行为视频，对各图片和各视频帧中与第一不良驾驶行为相关的目标进行标注，得到目标检测数据集，并筛选出驾驶行为视频中包含与第二不良驾驶行为相关的手势的视频帧，得到手势识别数据集；第一不良驾驶行为表示与手势无关的不良驾驶行为，如戴口罩、戴帽子、戴眼镜等不良驾驶行为，第二不良驾驶行为表示与手势相关的不良驾驶行为，如使用手机、喝水、吃东西等不良驾驶行为；在本实施例中，利用labelImg标注工具完成对目标的标注，具体对2400张驾驶行为图片进行标注，获得3065个目标标签，从而得到目标检测数据集，采集驾驶视频中的特定手势帧4000张，并对这些帧用相应的不良驾驶行为的类别名称(如使用手机、喝水等)重命名，即可获得手势识别数据集；

驾驶行为识别步骤包括：

上述融合目标检测和手势识别的驾驶行为识别方法，根据实际驾驶行为的特点，从实际的驾驶图片和驾驶视频中，通过标注目标和筛选特定手势帧的方式分别建立用于模型训练的目标检测数据集和手势识别数据集，针对仅与特定目标相关的驾驶行为进行目标检测，针对与特定手势相关的驾驶行为进行手势识别，既能保证训练所得的模型在实际的驾驶行为识别中能够获得较好的识别效果，提高识别精度，也无需在一段行为视频上同时提取空间和时间特征，有效减少了计算的时间复杂度，提高了实时性。总的来说，上述融合目标检测和手势识别的驾驶行为识别方法，能够有效提高驾驶行为识别的识别精度和实时性。

在一个可选的实施方式中，如图2所示，所构建的驾驶行为识别模型，包括：第一tinyYOLOv3网络、tiny Darknet网络以及第一融合层；第一tinyYOLOv3网络和tinyDarknet网络共用一个特征提取网络；图2中的卷积层、全局平均池化和Softmax共同构成tiny Darknet网络的分类层，图2中的特征提取网络和分类层共同构成tiny Darknet网络；图2中的预测支路1和预测支路2共同构成第一tinyYOLOv3网络的检测层，图2中的特征提取网络和检测层共同构成第一tinyYOLOv3网络，检测层中的全连接层均使用平均池化层来代替；由于第一tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络，在此所构建的驾驶行为识别模型实际上是一种单通道的驾驶行为识别模型；

融合层用于融合第一tinyYOLOv3网络的目标检测结果和tiny Darknet网络的手势识别结果，完成对输入图像的驾驶行为识别；

上述单通道的驾驶行为识别模型中，用于目标检测的tinyYOLOv3网络和用于手势识别的tiny Darknet网络本身是轻量级的网络，并且在精度和速度上均表现良好，因此，模型参数较少，能够在保证驾驶行为识别精度的基础上，减小计算量，提高驾驶行为识别的实时性；在目标检测和手势识别的过程中，特征提取的过程极为复杂，tinyYOLOv3网络和tinyDarknet网络的特征提取网络结构相同，上述单通道的驾驶行为识别模型中，tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络，能够进一步简化模型结构，并且在驾驶行为识别过程中，仅需进行一次特征提取，有效减少了计算的时间复杂度。因此，本实施例利用上述单通道驾驶行为识别模型，能够有效提高驾驶行为识别的实时性；

与上述单通道的驾驶行为识别模型相对应地，利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练，包括：利用目标检测数据集和手势识别数据集共同对驾驶行为识别模型进行训练，以完成对驾驶行为识别模型的训练；在本实施例中，在进行模型训练之前，使用K均值聚类算法对目标检测数据集中的目标尺寸进行聚类，生成六个anchor尺寸为：(39.5371，48.6495)，(81.2164，62.8158)，(56.4214，112.4011)，(150.4483，108.0347)，(107.0620，218.6808)，(249.5029，169.3843)，以此来使网络训练收敛更好，网络精度更高；训练所采用的损失函数为L＝L_Detection+SSE，其中，L_Detection表示tinyYOLOv3网络的损失函数，SSE表示tiny Darknet网络的和方差损失函数。

在上述单通道的驾驶行为识别模型训练完成后，利用所得到的目标驾驶行为识别模型，对目标图片或者目标视频中的各视频帧进行驾驶行为识别的流程，如图3所示，具体为，由第一tinyYOLOv3网络和tiny Darknet网络所共用的特征提取网络对输入图像(目标图片或视频帧)进行特征提取后，由第一tinyYOLOv3网络的检测层根据输入图像特征进行目标检测，由tiny Darknet网络的Softmax分类层根据输入图像特征进行手势识别，并且由第一融合层融合目标检测结果和手势识别结果完成最终的驾驶行为识别，以判断是否存在不良驾驶行为。

在另外一个可选的实施方式中，所构建的驾驶行为识别模型，包括：第二tinyYOLOv3网络、ResNet-18网络以及第二融合层；第二tinyYOLOv3网络和ResNet-18网络分别使用各自的特征提取网络进行特征提取，因此，在此所构建的模型实际上是一种双通道的驾驶行为识别模型；

第二融合层用于融合第二tinyYOLOv3网络的目标检测结果和ResNet-18网络的手势识别结果，完成对输入图像的驾驶行为识别；

在上述双通道的驾驶行为识别模型中，用于目标检测的tinyYOLOv3网络和用于手势识别的ResNet-18网络本身是轻量级的网络，并且与同类别的网络相比，在精度和速度上表现最好，具体来说，将同类别的tinyYOLOv3网络与FaceBoxes目标检测算法进行比较，利用目标检测数据集对这两个模型进行训练之后，tinyYOLOv3网络在目标检测的精度和速度上均优于FaceBoxes目标检测算法；将同类别的AlexNet网络、VGG-16网络，InceptionNet网络、ResNet-18网络、ResNet-34网络、Darknet-8网络、Darknet-19网络和tiny Darknet网络进行比较，利用手势识别数据集对这个8个图像分类网络进行训练之后，ResNet-18网络在手势识别的精度和速度上均优于其他图像分类网络；因此，本实施例所构建的上述双通道的驾驶行为识别模型，模型参数较少，能够在简化模型结构、提高实时性的基础上，有效提高驾驶行为识别的识别精度；

与上述双通道的驾驶行为识别模型相对应地，利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练，包括：分别利用目标检测数据集对第二tinyYOLOv3网络进行训练，并利用手势识别数据集对ResNet-18网络进行训练，从而在第二tinyYOLOv3网络和ResNet-18网络均训练完成后，完成对驾驶行为识别模型的训练；同样地，在进行模型训练之前，使用K均值聚类算法对目标检测数据集中的目标尺寸进行聚类，生成六个anchor尺寸为：(39.5371，48.6495)，(81.2164，62.8158)，(56.4214，112.4011)，(150.4483，108.0347)，(107.0620，218.6808)，(249.5029，169.3843)，以此来使网络训练收敛更好，网络精度更高。

在上述双通道的驾驶行为识别模型训练完成后，利用所得到的目标驾驶行为识别模型，对目标图片或者目标视频中的各视频帧进行驾驶行为识别的流程，如图4所示，具体为，由第二tinyYOLOv3网络和ResNet-18网络各自的特征提取网络分别对输入图像(目标图片或视频帧)进行特征提取，由第二tinyYOLOv3网络的检测层根据其自身的特征提取网络提取到的输入图像特征进行目标检测，由ResNet-18网络的Softmax分类层根据其自身的特征提取网络提取到的输入图像特征进行手势识别，并且由第二融合层融合目标检测结果和手势识别结果完成最终的驾驶行为识别，以判断是否存在不良驾驶行为。

为了进一步地提高驾驶行为识别的识别精度，如图3和图4所示，若待识别的对象为目标视频，则在利用目标驾驶行为识别模型对目标视频中的各视频帧进行驾驶行为识别之后，还可包括：对各视频帧的驾驶行为识别结果做滤波处理，以剔除其中的异常识别结果；

通过对视频的驾驶行为识别结果做滤波处理，剔除其中的异常识别结果，能够进一步提高对视频的驾驶行为识别精度；

对各视频帧的驾驶行为识别结果做滤波处理，通过巴特沃兹低通滤波器完成；应当理解的是，此处的描述仅仅是本发明的一种优选的实施方式，而不应理解为对本发明的唯一限定。

进一步地，如图3和图4所示，利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别之前，还可括：

对目标图片或者目标视频中的各视频帧进行预处理，以规范化图片尺寸并增强数据集；具体可通过缩放操作规范化图片尺寸，以使得图片尺寸与驾驶行为识别模型相适应，可通过翻转，裁剪，平移、改变对比度等操作增强数据集，以防止驾驶行为识别模型在训练过程中出现过拟合。

在实际应用中，可对每一类具体的驾驶行为(包括第一不良驾驶行为、第二不良驾驶行为和正常驾驶行为)分别进行编号，例如在本实施例中，共对7种驾驶行为进行识别，各种行为及对应的变化为：戴口罩—0，戴帽子—1，戴墨镜—2，使用手机—3，吃东西—4，喝水—5，正常驾驶—6；如图3和图4所示，在利用上述融合目标检测和手势识别的驾驶行为识别方法得到最终的驾驶行为类别编号之后，若编号小于等于5，则说明存在不良驾驶行为，否则，说明不存在不良驾驶行为。应当理解的是，此处描述仅为示例性说明，在实际应用中，具体需要识别的行为种类、对行为种类的编号方法以及根据识别结果判断是否存在不良驾驶行为的具体方式，应根据实际情况确定。

本发明还提供了一种融合目标检测和手势识别的驾驶行为识别系统，包括：计算机可读存储介质和处理器，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行上述融合目标检测和手势识别的驾驶行为识别方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合目标检测和手势识别的驾驶行为识别方法，其特征在于，包括模型训练步骤和驾驶行为识别步骤；

所述模型训练步骤包括：

收集驾驶行为图片和驾驶行为视频，对各图片和各视频帧中与第一不良驾驶行为相关的目标进行标注，得到目标检测数据集，并筛选出所述驾驶行为视频中包含与第二不良驾驶行为相关的手势的视频帧，得到手势识别数据集；所述第一不良驾驶行为表示与手势无关的不良驾驶行为，所述第二不良驾驶行为表示与手势相关的不良驾驶行为；

构建基于神经网络模型的驾驶行为识别模型，用于对输入图像进行目标检测和手势识别，并融合目标检测结果和手势识别结果完成对所述输入图像的驾驶行为识别；

利用所述目标检测数据集和所述手势识别数据集对所述驾驶行为识别模型进行训练，从而在训练完成后得到目标驾驶行为识别模型；

所述驾驶行为识别步骤包括：

获得待识别的目标图片或目标视频，利用所述目标驾驶行为识别模型对所述目标图片或者所述目标视频中的各视频帧进行驾驶行为识别，以判断是否存在不良驾驶行为；

所构建的驾驶行为识别模型，包括：第一tinyYOLOv3网络、tiny Darknet网络以及第一融合层；

所述第一tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络；

所述第一tinyYOLOv3网络用于对输入图像进行目标检测，以检测输入图像中与第一不良驾驶行为相关的目标；

所述tiny Darknet网络用于对输入图像进行手势识别，以识别输入图像中与第二不良驾驶行为相关的手势；

所述融合层用于融合所述第一tinyYOLOv3网络的目标检测结果和所述tiny Darknet网络的手势识别结果，完成对所述输入图像的驾驶行为识别。

2.如权利要求1所述的融合目标检测和手势识别的驾驶行为识别方法，其特征在于，利用所述目标检测数据集和所述手势识别数据集对所述驾驶行为识别模型进行训练，包括：利用所述目标检测数据集和所述手势识别数据集共同对所述驾驶行为识别模型进行训练，以完成对所述驾驶行为识别模型的训练。

3.如权利要求1或2所述的融合目标检测和手势识别的驾驶行为识别方法，其特征在于，若待识别的对象为目标视频，则在利用所述目标驾驶行为识别模型对所述目标视频中的各视频帧进行驾驶行为识别之后，还包括：对各视频帧的驾驶行为识别结果做滤波处理，以剔除其中的异常识别结果。

4.如权利要求3所述的融合目标检测和手势识别的驾驶行为识别方法，其特征在于，对各视频帧的驾驶行为识别结果做滤波处理，通过巴特沃兹低通滤波器完成。

5.如权利要求1或2所述的融合目标检测和手势识别的驾驶行为识别方法，其特征在于，利用所述目标驾驶行为识别模型对所述目标图片或者所述目标视频中的各视频帧进行驾驶行为识别之前，还包括：

对所述目标图片或者所述目标视频中的各视频帧进行预处理，以规范化图片尺寸并增强数据集。

6.一种融合目标检测和手势识别的驾驶行为识别系统，包括：计算机可读存储介质和处理器，其特征在于，所述计算机可读存储介质用于存储可执行程序；

所述处理器用于读取计算机可读存储介质中存储的可执行程序，执行权利要求1-5任一项所述的融合目标检测和手势识别的驾驶行为识别方法。