CN112686188B

CN112686188B - 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法

Info

Publication number: CN112686188B
Application number: CN202110009495.4A
Authority: CN
Inventors: 罗静蕊; 卢金波; 张爽; 王璐
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2024-02-06
Anticipated expiration: 2041-01-05
Also published as: CN112686188A

Abstract

本发明公开基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，具体为：步骤1、构造数据集；步骤2、构建卷积神经网络；步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数；步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练；并保存模型权重；步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验；步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位，得出主驾驶位区域框。该方法能够增加前挡风玻璃和主驾驶位目标检测的精度及定位框定位的准确度。

Description

基于深度学习方法的前挡风玻璃及驾驶员区域定位方法

技术领域

本发明属于图像处理方法技术领域，具体涉及一种基于深度学习方法的前挡风玻璃及驾驶员区域定位方法。

背景技术

图像是人类获取信息、表达信息和传递信息的重要手段之一。近年来,随着机动车数量的不断增加,交通安全事故越来越多。很多的交通安全事故发生的原因是因为车辆故障。车辆审核没达标；事故发生时,是否佩戴安全带能够最大限度地保护驾驶员的生命安全；当事故发生后车辆是否买保险，可以缓解应为交通事故所带来的经济损失。目前,车辆是否年检、是否买强制险基本上是通过道路交通警察进行检查；安全带主要通过人工方式判断道路交通视频中驾驶员是否佩戴安全带,检测效率较低。随着机器视觉研究的发展,基于图像识别的交通检测方式已成为必然趋势。通过对前挡风玻璃的检测可以得出车辆是否安检、是否购买强制险、驾驶员是否佩戴安全带。

在交通视频监控中，有很多因素影响车辆目标检测的准确率，包括复杂的道路环境，光照和天气变化等。天气或光照不同时，前挡风玻璃以及主驾驶位的特征信息复杂，传统的目标定位算法精度低，无法满足实际所需。

发明内容

本发明的目的是提供一种基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，能够增加前挡风玻璃和主驾驶位目标检测的精度及定位框定位的准确度。

本发明所采用的技术方案是，基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，具体按照以下步骤实施：

步骤1、构造数据集，随机分为训练集和测试集，并对训练集和测试集进行格式转换；通过聚类算法得出数据集中目标框的长宽的集中值，作为先验框；

步骤2、构建卷积神经网络；卷积神经网络包括有特征提取网络和特征融合网络，设置特征提取网络结构和特征融合网络结构的每层参数；

步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数；损失函数为自定义联合损失函数；

步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练；并保存模型权重；

步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验；

步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位，得出主驾驶位区域框。

本发明的特征还在于，

步骤1具体包括以下步骤：

步骤1.1、对获得的图片进行人工标注，即把前挡风玻璃区域用矩形框框起来，通过用LabelImg软件标注出前挡风玻璃的位置，构造数据集；

步骤1.2、对步骤1.1得到的数据集随机分为测试集和训练集，并对测试集和训练集进行格式转换，转换为“图片地址-目标框大小-目标框的置信度”的文本格式；通过对转换后的数据集中目标框大小进行聚类算法得出所需要的预测目标框大小的先验框的大小。

步骤2具体包括以下步骤：

步骤2.1、构建特征提取网络结构，特征提取网络结构采用全卷积网络结构，其结构依次为：输入图片—输入三通道图像—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第1个残差层—第2个残差层—第3个残差层—第4个残差层—第5个残差层—特征融合网络。

特征提取网络结构的参数如下：

将第1个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为32；第1个残差层的特征映射图的数目设置为64，残差块数目设置为1；第2个残差层的特征映射图的数目设置为128，残差块数目设置为2；第3个残差层的特征映射图的数目设置为256，残差块数目设置为8；第4个残差层的特征映射图的数目设置为512，残差块数目设置为8；第5个残差层的特征映射图的数目设置为1024，残差块数目设置为4；

其中，残差层的结构依次为：输入特征图—零填充操作—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—特征图对应相加操作；其中与之相加的特征图为第1个LeakyReLU激活函数层输出特征图，上述结构中从“第2个卷积层”到“特征图对应相加操作”为一个残差块；

其中残差层的参数为：将零填充设置为上左补一层零；将第1个卷积层的卷积核尺度设置为3*3，卷积步长设置为2*2，输出的特征映射图的数目为输入的特征映射图的数目；将第2个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，输出的特征映射图的数目为输入的特征映射图的数目的1/2；将第3个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，输出的特征映射图的数目为输入的特征映射图的数目的2倍；

步骤2.2、构建特征融合网络结构，采用具有上采样操作和卷积操作的卷积神经网络结构，特征融合后输出的特征图有3个；

第一个输出特征图结构依次为：特征提取输出特征图—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—输出特征图；

第二个输出特征图结构依次是：第一个输出特征图的第5个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图；

第三个输出特征图结构依次是：第二个输出特征图的第6个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图；

特征融合网络结构的参数如下：

第一个输出特征图的网络结构参数为：将第1个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为512；将第2个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为1024；将第3个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为512；将第4个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为1024；将第5个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为512；将第6个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为1024；将第7个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为20；

第二个输出特征图的网络结构参数为：将第1个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将上采样尺寸设置为2*2；将第2个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将第3个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为512；将第4个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将第5个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为512；将第6个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为256；将第7个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为512；将第8个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为20；

第三个输出特征图的网络结构参数为：将第1个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将上采样尺寸设置为2*2；将第2个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将第3个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为256；将第4个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将第5个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为256；将第6个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为128；将第7个卷积层的卷积核尺度设置为3*3，卷积步长设置为1*1，特征映射图的数目设置为256；将第8个卷积层的卷积核尺度设置为1*1，卷积步长设置为1*1，特征映射图的数目设置为20。

步骤3具体包括以下步骤：

步骤3.1、构建框位置和大小的损失函数l_box，表达式如下：

其中，S²为输入图像经过卷积神经网络得出特征图大小的数目，B为先验框的数目，表示目标对象落入i网格中第j个先验框，否则/>为零；x_i是真实的中心点横坐标、y_i是真实的中心点纵坐标、W_i真实框的宽、H_i真实框的高；/>是系统预测框的中心点横坐标、/>是系统预测框的中心点纵坐标、/>是系统预测框的宽、/>是系统预测框的高；

步骤3.2、构建框中是否有目标的损失函数l_obj，表达式如下：

其中，c_i为真实框中有目标的置信度为1，为预测框中的置信度，/>表示目标对象没有落入i网格中第j个先验框；

步骤3.3、构建自定义联合损失函数函数，表达式如下：

loss＝l_box+l_obj (3)；

步骤3.4、设置卷积神经网络的超参数，具体包络网络输入批次、先验框个数、输入图片尺寸、迭代次数；

将输入批次设置为8，将迭代次数设置为20，将先验框个数设置为4；

步骤3.5、设置卷积神经网络的优化算法，优化算法使用自适应矩估计算法，来不断优化步骤3.3中的自定义联合损失函数，使其达到最小值。

步骤5具体包括以下步骤：

步骤5.1、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验，测试集图片通过模型权重输出为该图片中前挡风玻璃区域的中心点坐标和宽、高；

步骤5.2、对步骤5.1中的前挡风玻璃区域的中心点横坐标减宽的一半为前挡风玻璃区域左上顶点横坐标，中心点横坐标加宽的一半为前挡风玻璃区域右下顶点横坐标，并在原图中显示目标矩形框。

步骤6具体包括以下步骤：

步骤6.1、通过聚类算法得出主驾驶位区域框宽的集中值

步骤6.2、将步骤5.1中模型预测出的前挡分玻璃区域框的左上及右下坐标，通过以下公式进行主驾驶位区域左上及右下坐标更新，得出主驾驶位区域框；

其中，分别为主驾驶位区域的左上顶点横、纵坐标；/>分别为主驾驶位区域的右下顶点横、纵坐标；x_min、y_min分别为前挡风玻璃区域的左上顶点横、纵坐标；x_max、y_max分别为前挡风玻璃的右下顶点横、纵坐标；/>为步骤6.1得出的主驾驶位区域框宽的集中值。

本发明的有益效果是：本发明方法通过对搭建好网络框架进行训练，使用已训练好的网络可以直接完成目标检测的工作，并且不需要手动调节网络各个参数，本发明可以更好的检测出在复杂光照条件下的车辆的前挡风玻璃和主驾驶员区域。在一定程度上提高了模型的鲁棒性，提高了目标检测的平均准确度。

附图说明

图1是本发明一种基于深度学习方法的交通图像的前挡风玻璃及驾驶员区域定位方法的流程图；

图2是为本发明仿真实验所使用测试图像的人工标注信息；

图3是表示为模型预测的车辆前挡风玻璃的仿真结果示例图；

图4是表示为通过几何重定位的主驾驶位区域的仿真结果示例图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，如图1所示，具体按照以下步骤实施：

步骤1具体包括以下步骤：

步骤1.1、图片来自于道路交通视频监控所拍摄的车辆图片。训练模型所用图片来自于道路交通视频监控所拍摄的BITVehicle_Dataset车辆数据集。数据集中有1600*1200和1920*1080两个摄像头在不同时间和地点拍摄的图像。图像包含照明条件、比例、车辆表面颜色和视点的变化。对获得的图片进行人工标注，即把前挡风玻璃区域用矩形框框起来，通过用LabelImg软件标注出前挡风玻璃的位置，构造数据集；

步骤2具体包括以下步骤：

特征提取网络结构的参数如下：

特征融合网络结构的参数如下：

步骤3具体包括以下步骤：

步骤3.1、构建框位置和大小的损失函数l_box，表达式如下：

步骤3.3、构建自定义联合损失函数函数，表达式如下：

loss＝l_box+l_obj (3)；

步骤5具体包括以下步骤：

步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位，得出主驾驶位区域框，如图3所示；

步骤6具体包括以下步骤：

步骤6.1、通过聚类算法得出主驾驶位区域框宽的集中值

步骤6.2、将步骤5.1中模型预测出的前挡分玻璃区域框的左上及右下坐标(以图左上顶点为原点)，通过以下公式进行主驾驶位区域左上及右下坐标更新，得出主驾驶位区域框；

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真条件：

本发明的仿真实验是在Tensorflow环境中进行训练，安装环境为有AMD RadeonR5 M240 GPU和Intel(R)Core(TM)i5-5200U CPU@2.20GHz的计算机。

2.仿真内容与结果分析：

图2-4是本发明的仿真图，其中，图2为本发明仿真实验所使用测试图像的人工标注信息，图3表示为模型预测的车辆前挡风玻璃的仿真结果示例图；图4表示为通过几何重定位的主驾驶位区域的仿真结果示例图；从图4可以看出本发明可以精准的定位出前挡风玻璃区域和主驾驶位区域，在一定程度上提高精度的同时也提高了预测框大小的准确度，并且本发明可以应用于实际中。

Claims

1.基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，其特征在于，具体按照以下步骤实施：

步骤1具体包括以下步骤：

步骤1.2、对步骤1.1得到的数据集随机分为测试集和训练集，并对测试集和训练集进行格式转换，转换为“图片地址-目标框大小-目标框的置信度”的文本格式；通过对转换后的数据集中目标框大小进行聚类算法得出所需要的预测目标框大小的先验框的大小；

步骤3具体包括以下步骤：

步骤3.1、构建框位置和大小的损失函数l_box，表达式如下：

其中，S²为输入图像经过卷积神经网络得出特征图大小的数目，B为先验框的数目，表示目标对象落入i网格中第j个先验框，否则/>为零；x_i是真实的中心点横坐标、y_i是真实的中心点纵坐标、W_i真实框的宽、H_i真实框的高；/>是系统预测框的中心点横坐标、是系统预测框的中心点纵坐标、/>是系统预测框的宽、/>是系统预测框的高；

步骤3.3、构建自定义联合损失函数函数，表达式如下：

loss＝l_box+l_obj (3)；

步骤3.5、设置卷积神经网络的优化算法，优化算法使用自适应矩估计算法，来不断优化步骤3.3中的自定义联合损失函数，使其达到最小值；

步骤5具体包括以下步骤：

步骤5.2、对步骤5.1中的前挡风玻璃区域的中心点横坐标减宽的一半为前挡风玻璃区域左上顶点横坐标，中心点横坐标加宽的一半为前挡风玻璃区域右下顶点横坐标，并在原图中显示目标矩形框；

步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位，得出主驾驶位区域框；

步骤6具体包括以下步骤：

步骤6.1、通过聚类算法得出主驾驶位区域框宽的集中值

2.根据权利要求1所述的基于深度学习方法的前挡风玻璃及驾驶员区域定位方法，其特征在于，步骤2具体包括以下步骤：

步骤2.1、构建特征提取网络结构，特征提取网络结构采用全卷积网络结构，其结构依次为：输入图片—输入三通道图像—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第1个残差层—第2个残差层—第3个残差层—第4个残差层—第5个残差层—特征融合网络；

特征提取网络结构的参数如下：

特征融合网络结构的参数如下：