CN111325130A

CN111325130A - 一种基于改进fr-cnn的驾驶员通话检测方法

Info

Publication number: CN111325130A
Application number: CN202010092866.5A
Authority: CN
Inventors: 胡帅; 李小曼; 赵作鹏
Original assignee: Jiangsu Biteda Information Technology Co ltd
Current assignee: Jiangsu Biteda Information Technology Co ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-23

Abstract

本发明公开的属于驾驶员手持通话行为检测技术领域，具体为一种基于改进FR‑CNN的驾驶员通话检测方法，包括以下步骤：步骤S1：通过正面车载摄像头获取车辆在行驶过程中驾驶员的驾驶视频；步骤S2：利用OpenCV的人脸识别算法；步骤S3：对S2的图像进行特征提取；步骤S4：对步骤S3中获取的特征图分别送入RPN回归和Fast R‑CNN分类网络；步骤S5：对S6得到的得分数值进行判断，有效的提高了检测准确率，降低了误报率；检测驾驶员在行车中不规范行为状态可及时对驾驶员发出警告，提高驾驶员的安全驾驶意识，减少交通事故的发生。

Description

一种基于改进FR-CNN的驾驶员通话检测方法

技术领域

本发明涉及驾驶员手持通话行为检测技术领域，具体为一种基于改进FR-CNN的驾驶员通话检测方法。

背景技术

近年来人均汽车保有量不断增加，交通安全问题日益严峻。2018年以来,我国公路交通领域发生了多起事故，其中根据公安部发布的《(中国)道路事故年度统计》显示数据,驾驶员的不规范行为是造成事故的主要原因。这一系列不规范行为包括司机在驾驶中接打电话、抽烟、与乘客交谈等等。近年来，智能手机已成为大多数人生活中不可或缺的一部分，IIHS的调查数据显示，有近六成的驾驶员在驾驶途中手持通话。在驾驶途中手持通话必然会造成驾驶员分心，反应速度变慢，从而对车外的状况不能做出及时的反应，而因此造成交通事故。

目前，驾驶员手持通话行为状态的检测方法主要为基于WiFi手机信号监控。基于WiFi手机信号的监控方法由于无法判断手机信号是驾驶员还是乘客发出，存在误检的几率较大。

发明内容

本发明的目的在于提供一种基于改进FR-CNN的驾驶员通话检测方法，以解决上述背景技术中提出的基于WiFi手机信号的监控方法由于无法判断手机信号是驾驶员还是乘客发出，存在误检的几率较大的问题。

为实现上述目的，本发明提供如下技术方案：一种基于改进FR-CNN的驾驶员通话检测方法，包括以下步骤：

步骤S1：通过正面车载摄像头获取车辆在行驶过程中驾驶员的驾驶视频；

步骤S2：利用OpenCV的人脸识别算法，对驾驶员图像视频进行驾驶员面部识别，并按帧保存识别出的驾驶员图像；

步骤S3：对S2的图像进行特征提取，图像通过RDN，在对图像进行卷积的过程中不断融合浅层的图像特征图，从而避免由于卷积造成图像中小目标的特征不断减少，到最后可能丢失的情况发生；

保证经过RDN网络提取后获得的特征图仍然保留较多的小目标的特征像素，这将有利于对特征图后续的操作；

步骤S4：对步骤S3中获取的特征图分别送入RPN回归和Fast R-CNN分类网络，同时输出图片的类别分类和边框回归，若有手机这一物体，则输出手机分类得分和手机目标框；

步骤S5：对S6得到的得分数值进行判断，车载视频平台会根据网络输出的结果进行处理，如得分大于0.7则警告，否则不警告。

优选的，所述RDN中，在G4层，卷积采用d＝：

在G5层，对于第一次卷积(i＝1)，仍然采用d＝2：

在G5层，对于剩余的卷积(i>1)，采用d＝4：

优选的，所述步骤S3、步骤S4、步骤S5在对驾驶员手持通话行为检测时，需要检测出手机目标，手机小目标大小不一，小目标手机是存在的，在默认参数的基础上，加入一组64×64锚点。

优选的，在检测过程中，RPN部分使用12个锚点，尺度大小分别为64×64、128×128、256×256、512×512，三个尺度的纵横比分别为1：1、1：2和2：1。

与现有技术相比，本发明的有益效果是：

1)可以实现对驾驶员手持通话这一行为进行端到端的检测，有效的提高了检测准确率，降低了误报率；

2)检测驾驶员在行车中不规范行为状态可及时对驾驶员发出警告，提高驾驶员的安全驾驶意识，减少交通事故的发生。

附图说明

图1是本发明检测方法的流程图；

图2是本发明网络模型的总体结构示意图；

图3是利用驾驶员图像，将本发明的实验效果与已有的实验效果进行对比的对比结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例：

请参阅图1-3，本发明提供一种技术方案：一种基于改进FR-CNN的驾驶员通话检测方法，包括以下步骤：

步骤S3：对S2的图像进行特征提取，图像通过RDN(Residual Dilated Network)，在对图像进行卷积的过程中不断融合浅层的图像特征图，从而避免由于卷积造成图像中小目标的特征不断减少，到最后可能丢失的情况发生；

步骤S4：对步骤S3中获取的特征图分别送入RPN回归(Regional ProposalNetwork)和Fast R-CNN分类网络，同时输出图片的类别分类和边框回归，若有手机这一物体，则输出手机分类得分和手机目标框；

进一步地，所述RDN中，在G4层，卷积采用d＝：

在G5层，对于第一次卷积(i＝1)，仍然采用d＝2：

在G5层，对于剩余的卷积(i>1)，采用d＝4：

进一步地，所述步骤S3、步骤S4、步骤S5在对驾驶员手持通话行为检测时，需要检测出手机目标，手机小目标大小不一，小目标手机是存在的，在默认参数的基础上，加入一组64×64锚点。

进一步地，在检测过程中，RPN部分使用12个锚点，尺度大小分别为64×64、128×128、256×256、512×512，三个尺度的纵横比分别为1：1、1：2和2：1。

在驾驶室中，安装摄像装置。摄像装置安装位置正对驾驶人员。在整个驾驶过程中，摄像装置连续不断地记录驾驶员的驾驶行为，从而形成包括多帧图像的视频。视频会被传送到图像处理步骤中进行图像预处理。

图像预处理：

在获得驾驶员的图像视频后，所获得的视频数据通过OpenCV的一种人脸识别的算法，识别出视频中驾驶员面部的图像并将其保存。

RDN网络结构概述：残差扩张网络通过使用更深的残差网络结构来提高算法鲁棒性，通过将浅层特征和深层特征进行累加来保证小目标的像素在不断卷积的过程中得到保留，以此获取更加准确的位置信息，可以在基本不增加原有模型计算量情况下，大幅度提升小物体检测性能的网络。扩张卷积可以在不做池化损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。

RDN网络结构的第一实施例：

以下，参照图2来详细说明本发明的卷积神经网络的具体结构。

首先，经过图像预处理后的图像被输入到第1层卷积层(Conv1)，对图像进行初步的特征提取。在此，以尺寸为400x400的图像作为实例进行说明。本领域技术人员可以理解，网络也可以输入其他尺寸的图像。当然，后续的卷积结构也会因输入图像的尺寸不同而发生相应的变化，例如增加或减少卷积层，增加或减少卷积核大小及数量等。作为示例，Conv1的卷积核大小被构造为3*3，卷积核数量设置为64。

接着，Conv1输出的特征图进入Conv2，这层的卷积核的大小同Conv1，卷积核数量设置为128。

接着，Conv2输出的特征图进入Conv3，这层的卷积核的大小设置为3*3，卷积核数量设置为256。

接着，Conv3输出的特征图进入RDN4，这层的卷积核的大小设置为3*3，卷积核数量设置为512，引入扩张卷积，设置扩张参数d＝1和d＝2。

接着，RDN4输出的特征图进入RDN5，这层的卷积核的大小设置为3*3，卷积核数量依旧设置为512，同样引入扩张卷积，设置扩张参数d＝2和d＝4，保证被遮挡的手机小物体的特征检测。

Faster R-CNN网络模型的训练方法及参数：

训练过程如图1所示，训练过程中，网络采用的目标函数为二元交叉熵函数(binary_crossentropy)，优化方法为Adam。其中Adam的学习率设置为0.001，梯度的均值的指数衰减率设置为0.9，梯度的未中心化的方差的指数衰减率设置为0.999。批处理大小设置为200。按照一定比例设置数据的训练集、验证集和测试集，在20轮的训练后，每一轮都进行验证集的测试，结果最好的那一代训练模型会被保存并用于测试集的测试，其结果即为整个学习的结果。

上述实验方法及参数是经过大量实验在科学研究的基础上获得的。这些方法和参数的设置对于本发明所述的驾驶员环境而言十分适用，尤其是对于检测驾驶员手持通话的状态时尤为显著。为了对Faster R-CNN网络进行全面而准确的评估，本文与之前的检测结构方法进行训练比较，仅从图表可知，本文研究的方法在测试时检测到的漏检率和误检率都具有一定的降低。

手持通话状态判断：

因为检测的图像数据是驾驶员行车过程中由视频按帧提取的正面面部图像，所以只要在连续图像中检测到手机的存在则可以判定驾驶员正在违规接打电话。

综上所述，本发明提出的基于卷积神经网络的检测方法对驾驶员手持通话行为进行检测。通过对仿真实验的结果进行分析讨论，可以看出，所研究的方法可以很好的实现在行车过程中对驾驶员手持通话行为进行检测的目的。而且目标检测是目前较为热门的研究邻域，利用不同的检测方法对图像进行检测以及人的行为识别都有大量的研究。本发明将深度学习应用到驾驶员违规手持通话行为检测中为初步研究，所使用的数据集都是采集驾驶员行车过程中的真实图像进行的实验，虽然可能覆盖不够充分，但是将来随着更多的数据的获得，将不断优化构建的网络结构来获得更好的检测效果，因为对于深度卷积网络，提供更多的数据对帮助网络获得更好的泛化性能以及减少过拟合问题是非常必要的。目前所拥有的数据集还不足以获得更高的准确性，未来需要更进一步地研究以获得更好的性能，实现更好的识别效果，增加算法应用到实际生活中的可能性，以此来对行车过程中的驾驶员违规通话的检测警告。而且该网络模型利用不同的数据对其进行训练，可以将模型应用于不同场景的检测。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于改进FR-CNN的驾驶员通话检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于改进FR-CNN的驾驶员通话检测方法，其特征在于：所述RDN中，在G4层，卷积采用d＝：

在G5层，对于第一次卷积(i＝1)，仍然采用d＝2：

在G5层，对于剩余的卷积(i>1)，采用d＝4：

3.根据权利要求1所述的一种基于改进FR-CNN的驾驶员通话检测方法，其特征在于：所述步骤S3、步骤S4、步骤S5在对驾驶员手持通话行为检测时，需要检测出手机目标，手机小目标大小不一，小目标手机是存在的，在默认参数的基础上，加入一组64×64锚点。

4.根据权利要求3所述的一种基于改进FR-CNN的驾驶员通话检测方法，其特征在于：在检测过程中，RPN部分使用12个锚点，尺度大小分别为64×64、128×128、256×256、512×512，三个尺度的纵横比分别为1：1、1：2和2：1。