CN116311147A

CN116311147A - 一种面向无人驾驶自学习目标识别的自优化方法

Info

Publication number: CN116311147A
Application number: CN202211707455.8A
Authority: CN
Inventors: 耿可可; 柳智超; 殷国栋; 王金湘; 张宁; 庄伟超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-23

Abstract

本发明公开了一种面向无人驾驶自学习目标识别的自优化方法，涉及计算机视觉技术领域，解决了无人驾驶技术中目标识别网络训练过程不够稳定和识别结果实时性、准确性不足的技术问题，其技术方案要点是通过改进的CycleGAN网络进行数据扩充，再对YOLOv3网络结构和损失函数进行改进，并利用一系列改进的CutMix数据增强、模拟退火和Dropblock算法对训练方式进行优化，增强模型的泛化性能；同时提高了目标识别算法的实时性和准确率，解决了车载处理器算力低的问题。

Description

一种面向无人驾驶自学习目标识别的自优化方法

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种面向无人驾驶自学习目标识别的自优化方法。

背景技术

近年来，基于深度学习的目标检测模型由于其高效的性能受到了大部分业界人士的青睐。目标检测作为自动驾驶中最基本的环节，为车辆采集实时的环境信息，以确保安全和提供正确的规划决策。基于深度学习的目标检测和语义分割算法在自动驾驶领域中已经表现出独有的优势，可以在使用较少计算资源的前提下获得较高的检测精度，因而成为自动驾驶系统中必不可少的方法。

2012年在ILSVRC图像分类大赛中，Krizhevsky等提出了AlexNet卷积神经网络(CNN)，克服了传统检测方法运行成本和时间复杂度高的问题，从此计算机视觉领域的研究聚焦到了深度学习技术。He等人利用金字塔池化层提高了R-CNN的运行速度，提出了SPP-Net；之后Girshick R又提出了Fast R-CNN，Ren等提出了Faster R-CNN算法，He等提出了Mask R-CNN，两阶段目标检测模型被逐步完善。2015年，Redmon J等人提出了YOLO算法，该算法舍弃了候选框提取，选用回归方法进行物体分类和预测框生成，其检测速度是两阶段算法中先进的Faster R-CNN算法的十倍。

YOLO作为单阶段检测模型的代表，其运用的分而治之的理念，将输入的图片分成若干个大小相等的方格，在每个方格内分别进行预测，而将目标检测问题巧妙的拆分为获取目标边界框和类别两个子任务，同时将预测任务改为回归任务，极大的增加了运算速度。在YOLOv3中，参考了特征金字塔网络结构，用三个尺寸的特征分别对大中小物体进行检测，大大提升了小目标的检测精度，但是其依旧存在物体定位精度低，召回率差等问题。

如何提高目标识别网络训练过程的稳定性，使识别结果速度更快、更精准是亟需解决的问题。

发明内容

本申请提供了一种面向无人驾驶自学习目标识别的自优化方法，其技术目的是提高复杂道路上智能驾驶汽车目标识别的准确率和实时性。

本申请的上述技术目的是通过以下技术方案得以实现的：

一种面向无人驾驶自学习目标识别的自优化方法，包括：

S1：对目标检测错误对应的n帧车载相机所采集的图片进行保存；

S2：将所述图片输入到改进的CycleGAN网络进行数据扩充，得到扩充样本；

S3：对用于目标检测的YOLOv3网络的骨干网络和损失函数进行优化，得到第一YOLOv3网络；

S4：通过改进的CutMix数据增强、模拟退火和Dropblock算法对所述第一YOLOv3网络的训练方式进行优化，得到第二YOLOv3网络；

S5：将所述扩充样本输入至所述第二YOLOv3网络进行训练，得到更新后的第三YOLOv3网络，通过所述第三YOLOv3网络进行目标检测，重复步骤S1至S5，直至自优化完成。

进一步地，步骤S1中，目标检测错误对应的n帧车载相机所采集的图片的获取包括：将逐段视频输入至YOLOv3网络中逐帧进行检测，当出现目标检测错误时，将该目标检测错误对应的n帧车载相机所采集的图片进行保存。

进一步地，所述改进的CycleGAN网络包括一层映射网络层和两对GAN网络，则所述改进的CycleGAN网络的损失函数表示为：

其中，

表示真实数据x的期望值；/>

表示噪音z的期望值；D(.)表示判别器；G(.)表示生成器；a表示真实图片的标记；b表示生成图片的标记；c表示生成器为了让判别器认为生成图片是真实数据而定的值。

进一步地，所述映射网络层包括多个全连接层。

进一步地，步骤S3中，包括：

仅通过骨干网络Darknet53的浅层特征层进行目标检测，将YOLOv3网络的骨干网络Darknet53优化成骨干网络Darknet-25，得到第一YOLOv3网络，则所述第一YOLOv3网络的损失函数表示为：

L(O,o,C,c,t,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(t,g)；

其中，

L_conf表示目标置信度损失；L_cla表示目标类别损失；L_loc表示目标类别损失；λ₁、λ₂、λ₃均表示平衡系数；o_i∈{0,1}表示预测目标边界框i中是否真实存在目标，0表示不存在，1表示存在；

表示预测目标矩形框i内是否存在目标的Sigmoid概率；O_ij∈{0,1}表示预测目标边界框i中是否真实存在第j类目标，0表示不存在，1表示存在；/>

表示预测目标边界框i内存在第j类目标的Sigmoid概率；(t_x,t_y)表示预测的关于中心坐标的偏移参数；(t_w,t_h)表示预测的关于目标宽高的缩放因子；(c_x,c_y)表示对应Grid Cell的左上角坐标；p_w表示对应Anchor模板的宽度，p_h表示对应Anchor模板的高度；(g_x,g_y)表示GT Boxes中心点的坐标，g_w表示GT Boxes模板的宽度，g_h表示GT Boxes模板的高度。

进一步地，所述第一YOLOv3网络的损失函数包括标签平滑处理，该标签平滑处理包括：

其中，ε＝0.005，即将原本的标签0和1调整为0.005和0.995。

进一步地，所述改进的CutMix数据增强包括：

在图片A上随机裁剪掉一部分，再将图片B相应位置填补到被裁剪区域形成新样本；其中，对所述新样本计算损失时，图片A和图片B的损失根据裁剪框的大小获取相应的权重；

对四个所述新样本再次进行随机裁剪，然后将裁剪后的四个新样本拼接成一个样本。

本申请的有益效果在于：本申请先通过改进的CycleGAN网络进行数据扩充，再对YOLOv3网络结构和损失函数进行改进，并利用一系列改进的CutMix数据增强、模拟退火和Dropblock算法对训练方式进行优化，增强模型的泛化性能；同时提高了目标识别算法的实时性和准确率，解决了车载处理器算力低的问题。

附图说明

图1为本申请所述方法的流程图。

具体实施方式

下面将结合附图对本申请技术方案进行详细说明。

如图1所示，本申请所述的面向无人驾驶自学习目标识别的自优化方法，包括：

S1：对目标检测错误对应的n帧车载相机所采集的图片进行保存。

具体地，由于深度学习网络本身的限制，如果没有足够量的数据集进行训练，加之使用在各种条件难以预测的复杂道路环境，其检测精度都不能达到智能驾驶的要求，或者说其总会遇到检测失败的情况，该网络模型优化过程是将逐段视频输入至YOLOv3网络中，逐帧检测图像是否需要优化，当出现目标检测错误时，将该目标检测错误对应的n帧车载相机所采集的图片进行保存以待优化。

S2：将所述图片输入到改进的CycleGAN网络进行数据扩充，得到扩充样本。

传统的CycleGAN网络包括两对GAN网络，该两对GAN网络即为一个双生成对抗网络，该双生成对抗网络的损失函数表示为：

其中，

表示对抗损失函数，且：

表示循环一致性损失函数，其作用是解决无法确定哪一对配对是有意义的配对，可以去独立的优化对抗损失，表示为：/>

在训练时，使用Pix2Pix成对的数据对模型进行训练，因此，改进的CycleGAN网络在GAN网络之前加了一层映射网络层(Mapping network)，该映射网络层的作用是控制生成图像的风格(style)，映射网络层由若干个全连接层(Full Connect Layer，FC)组成，普通GAN输入的隐藏变量经过若干全连接层后得到一个中间变量，这个过程可以更好的对数据进行分类和生成，之后在将此中间变量输入新图片生成器，同时加入随即噪音即可以生成不同的新图片。

为避免模型造成反向传播时梯度弥散，即在分类边界的假样本不会继续迭代，导致生成器性能较差，故采用最小二乘LSGAN损失函数作为改进的CycleGAN网络的损失函数，该损失函数可以使GAN网络得训练更加稳定，表示为：

其中，

表示真实数据x的期望值；/>

S3：对用于目标检测的YOLOv3网络的骨干网络和损失函数进行优化，得到第一YOLOv3网络。

YOLOv3网络借鉴了特征金字塔网络的思想，提取了三个特征层用于目标检测，这三个特征层分别位于Darknet53的不同位置，之后再将这三个特征层进行上采样及堆叠等操作进行特征融合，融合后的高层特征层用于预测较大的目标，中层特征层用于预测较小的目标，浅层特征层用于预测小型目标。

本申请中，为加快训练过程，对骨干网络Darknet53进行改进，在优化阶段省略计算三个特征图以增强小目标识别性能，只使用一层特征(即浅层特征层)用于分类和预测，这样相较于原骨干网络Darknet53少了28个卷积层，最终骨干网络由输出三个75通道的特征层简化为一个21通道的特征层，21代表VOC数据集下20个目标种类各自在该图片包含物体时的条件概率和该图片是否存在目标的概率，75中包含63个目标类型预测值和3组预测框信息；另外针对VOC数据集图片格式，将输入向量设置为416×416；由于改进后的骨干网络有25个卷积层，因此将该骨干网络命名为Darknet-25。

上述训练过程中，损失函数只包括目标置信度损失和目标类别损失，损失函数不再需要对三个特征层进行处理，只需要对最大的特征层(即浅层特征层)进行计算，则损失函数表示为：

L(O,o,C,c,t,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(t,g)；

其中，

进一步地，由于优化过程是小样本学习过程，十分容易过拟合，因此在损失函数中加入了标签平滑处理，这样可以增加泛化性能，有一定的抗噪能力，标签平滑处理表示为：

其中，ε＝0.005，即将原本的标签0和1调整为0.005和0.995。令ε＝0.005对分类准确也做了一些惩罚，防止过拟合。

S4：通过改进的CutMix数据增强、模拟退火和Dropblock算法对所述第一YOLOv3网络的训练方式进行优化，得到第二YOLOv3网络。

具体地，一般的CutMix数据增强包括：是将两张图片经过一系列处理糅合到一张图片上，具体操作为在图片A上随机裁剪掉一部分，再将图片B相应位置填补到被裁剪区域形成新样本；其中，对所述新样本计算损失时，图片A和图片B的损失根据裁剪框的大小获取相应的权重。

本申请中，为了进一步减少模型所需的算力，将做过CutMix处理的四张新样本再次随机裁剪，然后拼接到一张图上作为训练数据，由于图片背景均为交通路况实景，图片拼接的分界线并不会对目标检测造成影响；这样一来，BN计算一次性会处理8张图片，也加强单核处理的运行速度。

同时在自优化算法训练过程中使用了学习率模拟退火算法，即学习率在每批量训练后进行调整，具体为提高时线性上升，下降时按照余弦函数下降，这种算法可以避免陷入局部极小。

为了避免过拟合，训练时再加入一种正则化方式，即Dropblock算法。Dropblock算法指在训练时随机删减某些神经元，并且设置一个比例，即在训练的过程中所删除信息线性增加，促使网络学习到更多可泛化的特征。

以上为本申请示范性实施例，本申请的保护范围由权利要求书及其等效物限定。

Claims

1.一种面向无人驾驶自学习目标识别的自优化方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1中，目标检测错误对应的n帧车载相机所采集的图片的获取包括：将逐段视频输入至YOLOv3网络中逐帧进行检测，当出现目标检测错误时，将该目标检测错误对应的n帧车载相机所采集的图片进行保存。

3.如权利要求1所述的方法，其特征在于，所述改进的CycleGAN网络包括一层映射网络层和两对GAN网络，则所述改进的CycleGAN网络的损失函数表示为：

其中，

表示真实数据x的期望值；/>

4.如权利要求3所述的方法，其特征在于，所述映射网络层包括多个全连接层。

5.如权利要求1所述的方法，其特征在于，步骤S3中，包括：

L(O,o,C,c,t,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(t,g)；

其中，

表示预测目标边界框i内存在第j类目标的Sigmoid概率；(t_x,t_y)表示预测的关于中心坐标的偏移参数；(t_w,t_h)表示预测的关于目标宽高的缩放因子；(c_x,c_y)表示对应Grid Cell的左上角坐标；p_w表示对应Anchor模板的宽度，p_h表示对应Anchor模板的高度；(g_x,g_y)表示GT Boxes中心点的坐标，g_w表示GTBoxes模板的宽度，g_h表示GT Boxes模板的高度。

6.如权利要求5所述的方法，其特征在于，所述第一YOLOv3网络的损失函数包括标签平滑处理，该标签平滑处理包括：

其中，ε＝0.005，即将原本的标签0和1调整为0.005和0.995。

7.如权利要求1所述的方法，其特征在于，所述改进的CutMix数据增强包括：