CN112686188B - 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法 - Google Patents

基于深度学习方法的前挡风玻璃及驾驶员区域定位方法 Download PDF

Info

Publication number
CN112686188B
CN112686188B CN202110009495.4A CN202110009495A CN112686188B CN 112686188 B CN112686188 B CN 112686188B CN 202110009495 A CN202110009495 A CN 202110009495A CN 112686188 B CN112686188 B CN 112686188B
Authority
CN
China
Prior art keywords
layer
convolution
setting
activation function
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110009495.4A
Other languages
English (en)
Other versions
CN112686188A (zh
Inventor
罗静蕊
卢金波
张爽
王璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110009495.4A priority Critical patent/CN112686188B/zh
Publication of CN112686188A publication Critical patent/CN112686188A/zh
Application granted granted Critical
Publication of CN112686188B publication Critical patent/CN112686188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开基于深度学习方法的前挡风玻璃及驾驶员区域定位方法,具体为:步骤1、构造数据集;步骤2、构建卷积神经网络;步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数;步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练;并保存模型权重;步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验;步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位,得出主驾驶位区域框。该方法能够增加前挡风玻璃和主驾驶位目标检测的精度及定位框定位的准确度。

Description

基于深度学习方法的前挡风玻璃及驾驶员区域定位方法
技术领域
本发明属于图像处理方法技术领域,具体涉及一种基于深度学习方法的前挡风玻璃及驾驶员区域定位方法。
背景技术
图像是人类获取信息、表达信息和传递信息的重要手段之一。近年来,随着机动车数量的不断增加,交通安全事故越来越多。很多的交通安全事故发生的原因是因为车辆故障。车辆审核没达标;事故发生时,是否佩戴安全带能够最大限度地保护驾驶员的生命安全;当事故发生后车辆是否买保险,可以缓解应为交通事故所带来的经济损失。目前,车辆是否年检、是否买强制险基本上是通过道路交通警察进行检查;安全带主要通过人工方式判断道路交通视频中驾驶员是否佩戴安全带,检测效率较低。随着机器视觉研究的发展,基于图像识别的交通检测方式已成为必然趋势。通过对前挡风玻璃的检测可以得出车辆是否安检、是否购买强制险、驾驶员是否佩戴安全带。
在交通视频监控中,有很多因素影响车辆目标检测的准确率,包括复杂的道路环境,光照和天气变化等。天气或光照不同时,前挡风玻璃以及主驾驶位的特征信息复杂,传统的目标定位算法精度低,无法满足实际所需。
发明内容
本发明的目的是提供一种基于深度学习方法的前挡风玻璃及驾驶员区域定位方法,能够增加前挡风玻璃和主驾驶位目标检测的精度及定位框定位的准确度。
本发明所采用的技术方案是,基于深度学习方法的前挡风玻璃及驾驶员区域定位方法,具体按照以下步骤实施:
步骤1、构造数据集,随机分为训练集和测试集,并对训练集和测试集进行格式转换;通过聚类算法得出数据集中目标框的长宽的集中值,作为先验框;
步骤2、构建卷积神经网络;卷积神经网络包括有特征提取网络和特征融合网络,设置特征提取网络结构和特征融合网络结构的每层参数;
步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数;损失函数为自定义联合损失函数;
步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练;并保存模型权重;
步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验;
步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位,得出主驾驶位区域框。
本发明的特征还在于,
步骤1具体包括以下步骤:
步骤1.1、对获得的图片进行人工标注,即把前挡风玻璃区域用矩形框框起来,通过用LabelImg软件标注出前挡风玻璃的位置,构造数据集;
步骤1.2、对步骤1.1得到的数据集随机分为测试集和训练集,并对测试集和训练集进行格式转换,转换为“图片地址-目标框大小-目标框的置信度”的文本格式;通过对转换后的数据集中目标框大小进行聚类算法得出所需要的预测目标框大小的先验框的大小。
步骤2具体包括以下步骤:
步骤2.1、构建特征提取网络结构,特征提取网络结构采用全卷积网络结构,其结构依次为:输入图片—输入三通道图像—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第1个残差层—第2个残差层—第3个残差层—第4个残差层—第5个残差层—特征融合网络。
特征提取网络结构的参数如下:
将第1个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为32;第1个残差层的特征映射图的数目设置为64,残差块数目设置为1;第2个残差层的特征映射图的数目设置为128,残差块数目设置为2;第3个残差层的特征映射图的数目设置为256,残差块数目设置为8;第4个残差层的特征映射图的数目设置为512,残差块数目设置为8;第5个残差层的特征映射图的数目设置为1024,残差块数目设置为4;
其中,残差层的结构依次为:输入特征图—零填充操作—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—特征图对应相加操作;其中与之相加的特征图为第1个LeakyReLU激活函数层输出特征图,上述结构中从“第2个卷积层”到“特征图对应相加操作”为一个残差块;
其中残差层的参数为:将零填充设置为上左补一层零;将第1个卷积层的卷积核尺度设置为3*3,卷积步长设置为2*2,输出的特征映射图的数目为输入的特征映射图的数目;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,输出的特征映射图的数目为输入的特征映射图的数目的1/2;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,输出的特征映射图的数目为输入的特征映射图的数目的2倍;
步骤2.2、构建特征融合网络结构,采用具有上采样操作和卷积操作的卷积神经网络结构,特征融合后输出的特征图有3个;
第一个输出特征图结构依次为:特征提取输出特征图—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—输出特征图;
第二个输出特征图结构依次是:第一个输出特征图的第5个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图;
第三个输出特征图结构依次是:第二个输出特征图的第6个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图;
特征融合网络结构的参数如下:
第一个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第2个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第3个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第4个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第5个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第6个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第7个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20;
第二个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将上采样尺寸设置为2*2;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第4个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第5个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第6个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第7个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第8个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20;
第三个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将上采样尺寸设置为2*2;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第4个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第5个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第6个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第7个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第8个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20。
步骤3具体包括以下步骤:
步骤3.1、构建框位置和大小的损失函数lbox,表达式如下:
其中,S2为输入图像经过卷积神经网络得出特征图大小的数目,B为先验框的数目,表示目标对象落入i网格中第j个先验框,否则/>为零;xi是真实的中心点横坐标、yi是真实的中心点纵坐标、Wi真实框的宽、Hi真实框的高;/>是系统预测框的中心点横坐标、/>是系统预测框的中心点纵坐标、/>是系统预测框的宽、/>是系统预测框的高;
步骤3.2、构建框中是否有目标的损失函数lobj,表达式如下:
其中,ci为真实框中有目标的置信度为1,为预测框中的置信度,/>表示目标对象没有落入i网格中第j个先验框;
步骤3.3、构建自定义联合损失函数函数,表达式如下:
loss=lbox+lobj (3);
步骤3.4、设置卷积神经网络的超参数,具体包络网络输入批次、先验框个数、输入图片尺寸、迭代次数;
将输入批次设置为8,将迭代次数设置为20,将先验框个数设置为4;
步骤3.5、设置卷积神经网络的优化算法,优化算法使用自适应矩估计算法,来不断优化步骤3.3中的自定义联合损失函数,使其达到最小值。
步骤5具体包括以下步骤:
步骤5.1、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验,测试集图片通过模型权重输出为该图片中前挡风玻璃区域的中心点坐标和宽、高;
步骤5.2、对步骤5.1中的前挡风玻璃区域的中心点横坐标减宽的一半为前挡风玻璃区域左上顶点横坐标,中心点横坐标加宽的一半为前挡风玻璃区域右下顶点横坐标,并在原图中显示目标矩形框。
步骤6具体包括以下步骤:
步骤6.1、通过聚类算法得出主驾驶位区域框宽的集中值
步骤6.2、将步骤5.1中模型预测出的前挡分玻璃区域框的左上及右下坐标,通过以下公式进行主驾驶位区域左上及右下坐标更新,得出主驾驶位区域框;
其中,分别为主驾驶位区域的左上顶点横、纵坐标;/>分别为主驾驶位区域的右下顶点横、纵坐标;xmin、ymin分别为前挡风玻璃区域的左上顶点横、纵坐标;xmax、ymax分别为前挡风玻璃的右下顶点横、纵坐标;/>为步骤6.1得出的主驾驶位区域框宽的集中值。
本发明的有益效果是:本发明方法通过对搭建好网络框架进行训练,使用已训练好的网络可以直接完成目标检测的工作,并且不需要手动调节网络各个参数,本发明可以更好的检测出在复杂光照条件下的车辆的前挡风玻璃和主驾驶员区域。在一定程度上提高了模型的鲁棒性,提高了目标检测的平均准确度。
附图说明
图1是本发明一种基于深度学习方法的交通图像的前挡风玻璃及驾驶员区域定位方法的流程图;
图2是为本发明仿真实验所使用测试图像的人工标注信息;
图3是表示为模型预测的车辆前挡风玻璃的仿真结果示例图;
图4是表示为通过几何重定位的主驾驶位区域的仿真结果示例图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于深度学习方法的前挡风玻璃及驾驶员区域定位方法,如图1所示,具体按照以下步骤实施:
步骤1、构造数据集,随机分为训练集和测试集,并对训练集和测试集进行格式转换;通过聚类算法得出数据集中目标框的长宽的集中值,作为先验框;
步骤1具体包括以下步骤:
步骤1.1、图片来自于道路交通视频监控所拍摄的车辆图片。训练模型所用图片来自于道路交通视频监控所拍摄的BITVehicle_Dataset车辆数据集。数据集中有1600*1200和1920*1080两个摄像头在不同时间和地点拍摄的图像。图像包含照明条件、比例、车辆表面颜色和视点的变化。对获得的图片进行人工标注,即把前挡风玻璃区域用矩形框框起来,通过用LabelImg软件标注出前挡风玻璃的位置,构造数据集;
步骤1.2、对步骤1.1得到的数据集随机分为测试集和训练集,并对测试集和训练集进行格式转换,转换为“图片地址-目标框大小-目标框的置信度”的文本格式;通过对转换后的数据集中目标框大小进行聚类算法得出所需要的预测目标框大小的先验框的大小。
步骤2、构建卷积神经网络;卷积神经网络包括有特征提取网络和特征融合网络,设置特征提取网络结构和特征融合网络结构的每层参数;
步骤2具体包括以下步骤:
步骤2.1、构建特征提取网络结构,特征提取网络结构采用全卷积网络结构,其结构依次为:输入图片—输入三通道图像—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第1个残差层—第2个残差层—第3个残差层—第4个残差层—第5个残差层—特征融合网络。
特征提取网络结构的参数如下:
将第1个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为32;第1个残差层的特征映射图的数目设置为64,残差块数目设置为1;第2个残差层的特征映射图的数目设置为128,残差块数目设置为2;第3个残差层的特征映射图的数目设置为256,残差块数目设置为8;第4个残差层的特征映射图的数目设置为512,残差块数目设置为8;第5个残差层的特征映射图的数目设置为1024,残差块数目设置为4;
其中,残差层的结构依次为:输入特征图—零填充操作—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—特征图对应相加操作;其中与之相加的特征图为第1个LeakyReLU激活函数层输出特征图,上述结构中从“第2个卷积层”到“特征图对应相加操作”为一个残差块;
其中残差层的参数为:将零填充设置为上左补一层零;将第1个卷积层的卷积核尺度设置为3*3,卷积步长设置为2*2,输出的特征映射图的数目为输入的特征映射图的数目;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,输出的特征映射图的数目为输入的特征映射图的数目的1/2;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,输出的特征映射图的数目为输入的特征映射图的数目的2倍;
步骤2.2、构建特征融合网络结构,采用具有上采样操作和卷积操作的卷积神经网络结构,特征融合后输出的特征图有3个;
第一个输出特征图结构依次为:特征提取输出特征图—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—输出特征图;
第二个输出特征图结构依次是:第一个输出特征图的第5个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图;
第三个输出特征图结构依次是:第二个输出特征图的第6个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图;
特征融合网络结构的参数如下:
第一个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第2个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第3个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第4个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第5个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第6个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第7个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20;
第二个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将上采样尺寸设置为2*2;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第4个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第5个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第6个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第7个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第8个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20;
第三个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将上采样尺寸设置为2*2;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第4个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第5个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第6个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第7个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第8个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20。
步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数;损失函数为自定义联合损失函数;
步骤3具体包括以下步骤:
步骤3.1、构建框位置和大小的损失函数lbox,表达式如下:
其中,S2为输入图像经过卷积神经网络得出特征图大小的数目,B为先验框的数目,表示目标对象落入i网格中第j个先验框,否则/>为零;xi是真实的中心点横坐标、yi是真实的中心点纵坐标、Wi真实框的宽、Hi真实框的高;/>是系统预测框的中心点横坐标、/>是系统预测框的中心点纵坐标、/>是系统预测框的宽、/>是系统预测框的高;
步骤3.2、构建框中是否有目标的损失函数lobj,表达式如下:
其中,ci为真实框中有目标的置信度为1,为预测框中的置信度,/>表示目标对象没有落入i网格中第j个先验框;
步骤3.3、构建自定义联合损失函数函数,表达式如下:
loss=lbox+lobj (3);
步骤3.4、设置卷积神经网络的超参数,具体包络网络输入批次、先验框个数、输入图片尺寸、迭代次数;
将输入批次设置为8,将迭代次数设置为20,将先验框个数设置为4;
步骤3.5、设置卷积神经网络的优化算法,优化算法使用自适应矩估计算法,来不断优化步骤3.3中的自定义联合损失函数,使其达到最小值。
步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练;并保存模型权重;
步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验;
步骤5具体包括以下步骤:
步骤5.1、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验,测试集图片通过模型权重输出为该图片中前挡风玻璃区域的中心点坐标和宽、高;
步骤5.2、对步骤5.1中的前挡风玻璃区域的中心点横坐标减宽的一半为前挡风玻璃区域左上顶点横坐标,中心点横坐标加宽的一半为前挡风玻璃区域右下顶点横坐标,并在原图中显示目标矩形框。
步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位,得出主驾驶位区域框,如图3所示;
步骤6具体包括以下步骤:
步骤6.1、通过聚类算法得出主驾驶位区域框宽的集中值
步骤6.2、将步骤5.1中模型预测出的前挡分玻璃区域框的左上及右下坐标(以图左上顶点为原点),通过以下公式进行主驾驶位区域左上及右下坐标更新,得出主驾驶位区域框;
其中,分别为主驾驶位区域的左上顶点横、纵坐标;/>分别为主驾驶位区域的右下顶点横、纵坐标;xmin、ymin分别为前挡风玻璃区域的左上顶点横、纵坐标;xmax、ymax分别为前挡风玻璃的右下顶点横、纵坐标;/>为步骤6.1得出的主驾驶位区域框宽的集中值。
下面结合仿真实验对本发明的效果做进一步的说明。
1.仿真条件:
本发明的仿真实验是在Tensorflow环境中进行训练,安装环境为有AMD RadeonR5 M240 GPU和Intel(R)Core(TM)i5-5200U CPU@2.20GHz的计算机。
2.仿真内容与结果分析:
图2-4是本发明的仿真图,其中,图2为本发明仿真实验所使用测试图像的人工标注信息,图3表示为模型预测的车辆前挡风玻璃的仿真结果示例图;图4表示为通过几何重定位的主驾驶位区域的仿真结果示例图;从图4可以看出本发明可以精准的定位出前挡风玻璃区域和主驾驶位区域,在一定程度上提高精度的同时也提高了预测框大小的准确度,并且本发明可以应用于实际中。

Claims (2)

1.基于深度学习方法的前挡风玻璃及驾驶员区域定位方法,其特征在于,具体按照以下步骤实施:
步骤1、构造数据集,随机分为训练集和测试集,并对训练集和测试集进行格式转换;通过聚类算法得出数据集中目标框的长宽的集中值,作为先验框;
步骤1具体包括以下步骤:
步骤1.1、对获得的图片进行人工标注,即把前挡风玻璃区域用矩形框框起来,通过用LabelImg软件标注出前挡风玻璃的位置,构造数据集;
步骤1.2、对步骤1.1得到的数据集随机分为测试集和训练集,并对测试集和训练集进行格式转换,转换为“图片地址-目标框大小-目标框的置信度”的文本格式;通过对转换后的数据集中目标框大小进行聚类算法得出所需要的预测目标框大小的先验框的大小;
步骤2、构建卷积神经网络;卷积神经网络包括有特征提取网络和特征融合网络,设置特征提取网络结构和特征融合网络结构的每层参数;
步骤3、设置步骤2所构建卷积神经网络训练时需要的损失函数、网络优化算法及所有超参数;损失函数为自定义联合损失函数;
步骤3具体包括以下步骤:
步骤3.1、构建框位置和大小的损失函数lbox,表达式如下:
其中,S2为输入图像经过卷积神经网络得出特征图大小的数目,B为先验框的数目,表示目标对象落入i网格中第j个先验框,否则/>为零;xi是真实的中心点横坐标、yi是真实的中心点纵坐标、Wi真实框的宽、Hi真实框的高;/>是系统预测框的中心点横坐标、是系统预测框的中心点纵坐标、/>是系统预测框的宽、/>是系统预测框的高;
步骤3.2、构建框中是否有目标的损失函数lobj,表达式如下:
其中,ci为真实框中有目标的置信度为1,为预测框中的置信度,/>表示目标对象没有落入i网格中第j个先验框;
步骤3.3、构建自定义联合损失函数函数,表达式如下:
loss=lbox+lobj (3);
步骤3.4、设置卷积神经网络的超参数,具体包络网络输入批次、先验框个数、输入图片尺寸、迭代次数;
将输入批次设置为8,将迭代次数设置为20,将先验框个数设置为4;
步骤3.5、设置卷积神经网络的优化算法,优化算法使用自适应矩估计算法,来不断优化步骤3.3中的自定义联合损失函数,使其达到最小值;
步骤4、根据步骤3设置的卷积神经网络的损失函数、网络优化算法对步骤2构建的卷积神经网络进行训练;并保存模型权重;
步骤5、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验;
步骤5具体包括以下步骤:
步骤5.1、对步骤1中的测试集通过步骤4中得到的网络模型权重进行测试实验,测试集图片通过模型权重输出为该图片中前挡风玻璃区域的中心点坐标和宽、高;
步骤5.2、对步骤5.1中的前挡风玻璃区域的中心点横坐标减宽的一半为前挡风玻璃区域左上顶点横坐标,中心点横坐标加宽的一半为前挡风玻璃区域右下顶点横坐标,并在原图中显示目标矩形框;
步骤6、对步骤5中预测出的前挡风玻璃区域框的结果进行目标几何的重定位,得出主驾驶位区域框;
步骤6具体包括以下步骤:
步骤6.1、通过聚类算法得出主驾驶位区域框宽的集中值
步骤6.2、将步骤5.1中模型预测出的前挡分玻璃区域框的左上及右下坐标,通过以下公式进行主驾驶位区域左上及右下坐标更新,得出主驾驶位区域框;
其中,分别为主驾驶位区域的左上顶点横、纵坐标;/>分别为主驾驶位区域的右下顶点横、纵坐标;xmin、ymin分别为前挡风玻璃区域的左上顶点横、纵坐标;xmax、ymax分别为前挡风玻璃的右下顶点横、纵坐标;/>为步骤6.1得出的主驾驶位区域框宽的集中值。
2.根据权利要求1所述的基于深度学习方法的前挡风玻璃及驾驶员区域定位方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1、构建特征提取网络结构,特征提取网络结构采用全卷积网络结构,其结构依次为:输入图片—输入三通道图像—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第1个残差层—第2个残差层—第3个残差层—第4个残差层—第5个残差层—特征融合网络;
特征提取网络结构的参数如下:
将第1个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为32;第1个残差层的特征映射图的数目设置为64,残差块数目设置为1;第2个残差层的特征映射图的数目设置为128,残差块数目设置为2;第3个残差层的特征映射图的数目设置为256,残差块数目设置为8;第4个残差层的特征映射图的数目设置为512,残差块数目设置为8;第5个残差层的特征映射图的数目设置为1024,残差块数目设置为4;
其中,残差层的结构依次为:输入特征图—零填充操作—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—特征图对应相加操作;其中与之相加的特征图为第1个LeakyReLU激活函数层输出特征图,上述结构中从“第2个卷积层”到“特征图对应相加操作”为一个残差块;
其中残差层的参数为:将零填充设置为上左补一层零;将第1个卷积层的卷积核尺度设置为3*3,卷积步长设置为2*2,输出的特征映射图的数目为输入的特征映射图的数目;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,输出的特征映射图的数目为输入的特征映射图的数目的1/2;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,输出的特征映射图的数目为输入的特征映射图的数目的2倍;
步骤2.2、构建特征融合网络结构,采用具有上采样操作和卷积操作的卷积神经网络结构,特征融合后输出的特征图有3个;
第一个输出特征图结构依次为:特征提取输出特征图—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—输出特征图;
第二个输出特征图结构依次是:第一个输出特征图的第5个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图;
第三个输出特征图结构依次是:第二个输出特征图的第6个LeakyReLU激活函数层的输出—第1个卷积层—第1个批量归一化操作层—第1个LeakyReLU激活函数层—上采样—与特征提取层的第四个残差层输出的特征图进行并操作—第2个卷积层—第2个批量归一化操作层—第2个LeakyReLU激活函数层—第3个卷积层—第3个批量归一化操作层—第3个LeakyReLU激活函数层—第4个卷积层—第4个批量归一化操作层—第4个LeakyReLU激活函数层—第5个卷积层—第5个批量归一化操作层—第5个LeakyReLU激活函数层—第6个卷积层—第6个批量归一化操作层—第6个LeakyReLU激活函数层—第7个卷积层—第7个批量归一化操作层—第7个LeakyReLU激活函数层—第8个卷积层—第8个批量归一化操作层—第8个LeakyReLU激活函数层—输出特征图;
特征融合网络结构的参数如下:
第一个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第2个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第3个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第4个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第5个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为512;将第6个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为1024;将第7个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20;
第二个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将上采样尺寸设置为2*2;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第4个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第5个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第6个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为256;将第7个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为512;将第8个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20;
第三个输出特征图的网络结构参数为:将第1个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将上采样尺寸设置为2*2;将第2个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第3个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第4个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第5个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第6个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为128;将第7个卷积层的卷积核尺度设置为3*3,卷积步长设置为1*1,特征映射图的数目设置为256;将第8个卷积层的卷积核尺度设置为1*1,卷积步长设置为1*1,特征映射图的数目设置为20。
CN202110009495.4A 2021-01-05 2021-01-05 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法 Active CN112686188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110009495.4A CN112686188B (zh) 2021-01-05 2021-01-05 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110009495.4A CN112686188B (zh) 2021-01-05 2021-01-05 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法

Publications (2)

Publication Number Publication Date
CN112686188A CN112686188A (zh) 2021-04-20
CN112686188B true CN112686188B (zh) 2024-02-06

Family

ID=75457409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110009495.4A Active CN112686188B (zh) 2021-01-05 2021-01-05 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法

Country Status (1)

Country Link
CN (1) CN112686188B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609911B (zh) * 2021-07-07 2024-05-28 北京工业大学 一种基于深度学习的路面病害自动检测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109501807A (zh) * 2018-08-15 2019-03-22 初速度(苏州)科技有限公司 自动驾驶注意力检测系统及方法
CN109871799A (zh) * 2019-02-02 2019-06-11 浙江万里学院 一种基于深度学习的驾驶员玩手机行为的检测方法
WO2020042345A1 (zh) * 2018-08-28 2020-03-05 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及系统
CN111310773A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109501807A (zh) * 2018-08-15 2019-03-22 初速度(苏州)科技有限公司 自动驾驶注意力检测系统及方法
WO2020042345A1 (zh) * 2018-08-28 2020-03-05 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及系统
CN109871799A (zh) * 2019-02-02 2019-06-11 浙江万里学院 一种基于深度学习的驾驶员玩手机行为的检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN111310773A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
申恩恩 ; 胡玉梅 ; 陈光 ; 罗攀 ; 朱浩 ; .智能驾驶实时目标检测的深度卷积神经网络.汽车安全与节能学报.2020,(第01期),全文. *
陈军 ; 张黎 ; 周博 ; 罗维平 ; 马双宝 ; .基于级联卷积神经网络的驾驶员分心驾驶行为检测.科学技术与工程.2020,(14),全文. *

Also Published As

Publication number Publication date
CN112686188A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN108537197B (zh) 一种基于深度学习的车道线检测预警装置及预警方法
CN111274980B (zh) 基于yolov3和非对称卷积的小尺寸交通标志识别方法
CN111460919B (zh) 一种基于改进YOLOv3的单目视觉道路目标检测及距离估计方法
CN111091558B (zh) 一种铁路货车摇枕弹簧窜出故障图像识别方法
CN103679205B (zh) 基于阴影假设和分层hog对称特征验证的前车检测方法
CN109506628A (zh) 一种基于深度学习的卡车环境下目标物测距方法
CN108960074B (zh) 基于深度学习的小尺寸行人目标检测方法
WO2024051296A1 (zh) 一种复杂天气下障碍物检测方法及装置
CN112836584B (zh) 基于深度学习的交通图像安全带分类方法
CN111414807A (zh) 一种基于yolo技术的潮水识别与危机预警方法
CN112686188B (zh) 基于深度学习方法的前挡风玻璃及驾驶员区域定位方法
CN111339830A (zh) 一种基于多模态数据特征的目标分类方法
CN104881661A (zh) 基于结构相似度的车辆检测方法
CN111079675A (zh) 基于目标检测与目标跟踪的行驶行为分析方法
CN115512387A (zh) 基于改进yolov5模型的工地安全帽佩戴检测方法
CN116935361A (zh) 一种基于深度学习的驾驶员分心行为检测方法
CN117111055A (zh) 一种基于雷视融合的车辆状态感知方法
CN112862839B (zh) 一种地图要素语义分割鲁棒性增强方法和系统
CN113158954A (zh) 交通非现场的基于ai技术的斑马线区域自动检测方法
CN112052829A (zh) 一种基于深度学习的飞行员行为监控方法
CN107591026B (zh) 一种行人检测及预警的方法
CN110555425A (zh) 一种视频流实时行人检测方法
CN115588126A (zh) 一种融合GAM、CARAFE和SnIoU的车辆目标检测方法
CN112434601B (zh) 基于行车视频的车辆违法检测方法、装置、设备及介质
CN113657153B (zh) 改进EfficientNet用于安全带检测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant