CN110837831A

CN110837831A - 基于改进ssd网络的候选框生成方法

Info

Publication number: CN110837831A
Application number: CN201911054692.7A
Authority: CN
Inventors: 郑秋梅; 王璐璐; 王风华
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-25

Abstract

本发明提出一种基于改进SSD网络的候选框生成方法，解决SSD网络候选框生成过程中的冗余和不精确问题。在保证SSD检测速度的前提下提升检测平均精度，属于智能化领域。其包括以下步骤：1)对选用数据集中的所有图片格式、标记格式和与标记边框进行检查，转换为统一格式；2)进行训练样本的数据扩增；3)将图片输入到SSD网络进行特征提取，在目标位置附近随机生成若干候选框；4)使用极大值抑制算法处理候选框，去除冗余的候选框；5)对剩下的候选框执行本发明的边界扫描判定方法(Boundary Scan Determination Method,BSDM)，得到最佳检验框；6)训练网络以优化参数，并验证改进方法的性能。

Description

基于改进SSD网络的候选框生成方法

技术领域

本发明基于SSD网络改进，提出一种候选框生成算法——边界扫描判定方法(Boundary Scan Determination Method,BSDM)，解决SSD网络候选框生成不精确以及冗余问题，提高SSD算法的检测精度和速度。属于智能化领域。

背景技术

近些年来，在当前的无人驾驶和智能交通快速发展的阶段，车辆目标检测作为计算机视觉领域中的一个热门而又具有挑战性的研究方向，正在被越来越多的研究者关注。车道检测、实时车辆检测、辅助驾驶等技术也开始逐渐融入车辆检测这一领域当中。在科学技术飞速发展的今天，研究人员在不同阶段也取得了不同的科技进步。

车辆目标检测的算法正在朝着速度更快、精度更高的方向发展。相比较于先前需要手工设计特征，现在的目标检测模型能够利用卷积神经网络将不同层级的特征进行提取和自发学习，从而使得现在的目标检测模型具有更强的特征提取能力和更强的特征表达能力。单阶段目标检测模型有计算效率更高训练过程更加容易的优点，典型的算法模型有YOLO、SSD等。这两种算法模型相比较而言，SSD算法模型在检测性能、实时性、检测精度上略胜一筹。由于SSD算法是一阶段检测算法，可以一步到位的完成检测，满足了实时性的要求，但是，无论一阶段算法还是二阶段算法，都需要对Region Proposal进行去重，去除无效的冗余候选框，但SSD算法采用非极大值抑制(NMS)算法会将相邻检测框的分数均强制归零(既将重叠部分大于重叠阈值的检测框移除)，导致如果一个真实物体在重叠区域出现，则会对该物体的检测失败并降低了算法的平均检测率(average precision,AP)，同时，若生成的先验框数目过多，NMS会导致一个目标位置附近会有多个冗余的候选框，其中包含最适合目标位置的那个候选框，或只留下一个并非最精确的候选框，即位置有偏移的候选框，使得SSD算法精度不如Faster R-CNN。因此，如何保证SSD检测速度的前提下提升精度成为亟待解决的问题。

发明内容

针对上述问题，本发明基于SSD网络改进，提出一种边界扫描判定法(BSDM)，解决SSD网络候选框生成不精确以及冗余问题，保证SSD的检测速度前提下提升检测精度。

本发明采取如下技术方案：一种基于改进SSD网络的候选框生成方法包括如下步骤：

1)对选用数据集中的所有图片格式、标记格式和与标记边框进行检查，转换为统一格式；

2)进行训练样本的数据扩增；

3)将图片输入到SSD网络进行特征提取，在目标位置附近随机生成若干候选框；

4)使用极大值抑制算法处理候选框，去除冗余的候选框；

5)对剩下的候选框执行本发明的边界扫描判定方法(Boundary ScanDetermination Method,BSDM)，得到最佳检验框；

6)训练网络以优化参数，并验证改进方法的性能。

所述步骤1)不同网络对于可接受的数据集格式不尽相同，不同组织所制作的数据集格式也各不相同，因此转换数据集为统一的格式，方便网络读取标记信息，对数据进行检查，防止在训练时出现异常，导致网络崩溃或者不准确。

所述步骤2)采用水平翻转(Horizontal flip)、随机裁剪加颜色扭曲(Randomcrop&Color distortion)、获取小目标训练样本等数据扩增的方法可以提升SSD的性能。

所述步骤3)采用以VGG16为基础网络的SSD网络为检测网络，一共有6个特征图被提取，他们的尺寸分别为38×38、19×19、5×5、3×3和1×1，第一个特征图会在VGG16中的Conv4_3层进行检测。剩下的特征图分别从后面新增的卷积层Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中提取获得，先验框相同的情况只存在于同一个特征图的每个单元上，但是不同的特征图设置的先验框数目一般不同。

所述步骤4)非极大值抑制(NMS)通过迭代形式，不断以最大得分的框去与其他框做IOU操作，过滤那些IOU较大的框，一直重复进行，标记完所有要保留下来的矩形框，去除冗余候选框。

所述步骤5)在生成先验框之后，先使用NMS算法过滤掉一部分冗余的候选框，对于剩下的候选框进行边界扫描判定法：

S51、从图像边界向目标区域中心点扫描，记录所遇到的候选框的周长，记为Pn，即Pn＝{P1,P2,...,Pn}；

S52、记目标区域的周长为C；

S53、设相对阈值k＝Pn/C。

当相对阈值k小于或等于候选框的周长C时，就可以将此候选框的边界视为真实目标Ground Truth的一个候选边界，就可以按照此方法将真实目标的位置给确定下来。

所述步骤6)在训练过程中最大迭代50000次，初始化学习率为0.001，batch_size设置为64，decay为0.0005，momentum为0.9，根据损失下降的趋势，可以适当调节学习率和batch_size的值，相对阈值K设为0.36，采用KIOTTI数据集进行训练，在Pascal VOC2012上进行验证。

本发明由于采取以上方法，其具有以下优点：

1、改进后的SSD算法最终生成的定位框与真实位置十分相近，提高检测平均精度mPA。

2、NMS过滤掉一些冗余候选框，加快候选框生成速度，再使用本发明的边界扫描判定法(BSDM)提升生成的候选框的精度，在保持SSD算法的速度前提下进一步提升精度。

附图说明

图1本发明实施流程图；

图2本发明原理图；

图3 SSD网络结构；

图4 NMS算法过程；

图5实施例实验结果；

具体实施方式

下面结合说明书附图通过一个实例对本发明做进一步说明，本实例仅为本发明其中的一种应用实例，实施流程如图1所示。

步骤一、由于数据集中的交通标志标记信息可能出现错误，因此在训练之前需要对所有标记数据进行检查，防止在训练时出现异常，导致网络崩溃或者不准确；KITTI数据集与PASCAL VOC 2012的格式相差甚远，需要对数据集中的图片和数据标签进行修改，因此若用KITTI数据集训练SSD，需要进行如下两个步骤：一是将.png格式的图片转换为.jpg格式；二是将.txt标注文件转换成.xml文件。

如KITTI数据集的训练集一共有7481张.png格式的图片，因此想要通过一张一张修改文件后缀名的方式转换图片的格式是不现实的，工作量太大。因此需要找到一种批量转换的方式。具体操作如下：

(1)先将欲转换的图片解压，得到解压后的文件夹；

(2)进入解压后的图片文件夹，新建一个.bat系统工具文件，用记事本方式打开进行编辑；

(3)在文件中写入如下代码，”ren*png*jpg”。ren是格式转换的命令，*是通配符，指代此文件夹下该格式的所有文件。

(4)保存好后，将该文件放入图片的文件夹中，双击运行。

(5)等待若干分钟，就能看到文件夹中的图片已经从.png格式变为.jpg格式了。值得注意的是，用此方法转换后的图片除了后缀名改了之外，图片的尺寸等信息都不会更改。在转换完成后，需要将.bat文件删除，避免后期程序从文件夹中读取图片时出错。

(6)分析标注文件，忽略不需要的信息，将.txt文件转换为.xml文件，通过python脚本进行批量转换，读取txt并重新写到新的xml中。

步骤二、数据扩增可以有效避免过拟合现象，提升SSD算法的性能。

步骤三、本实例以VGG16为基础网络构造SSD网络作为检测网络。第一个特征图会在VGG16中的Conv4_3层进行检测。剩下的特征图分别从后面新增的卷积层Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中提取获得，一共有6个特征图被提取，他们的尺寸分别为38×38、19×19、5×5、3×3和1×1，先验框相同的情况只存在于同一个特征图的每个单元上，但是不同的特征图设置的先验框数目一般不同。在得到特征图之后，检测结果是从对特征图的卷积运算得出。检测值包括两个部分：边界框的位置和类别置信度，这两个部分分别采用一次3×3的卷积来完成。由于每个边界框都会对应一个先验框，而SSD300一共可以预测8732个边界框。网络结构如图3所示

步骤四、非极大值抑制(NMS)算法通过迭代的形式，不断的以最大得分的框去与其他框做IOU操作，并过滤那些IOU较大(即交集较大)的框，如图4所示。具体过程如下：

(1)根据候选框的类别分类概率做排序，假如有4个Bounding Box，其置信度A>B>C>D。

(2)先标记最大概率矩形框A是算法要保留的Bounding Box；

(3)从最大概率矩形框A开始，分别判断ABC与D的重叠度IOU(两框的交并比)是否大于某个设定的阈值(0.5)，假设D与A的重叠度超过阈值，那么就舍弃D；

(4)从剩下的矩形框BC中，选择概率最大的B，标记为保留，然后判读C与B的重叠度，扔掉重叠度超过设定阈值的矩形框；

(5)一直重复进行，标记完所有要保留下来的矩形框。

步骤五、在步骤四执行完NMS后，对于剩下的候选框进行本发明操作如下：

(1)从图像边界(例如右侧)向目标区域中心点扫描，记录所遇到的候选框的周长，记为Pn，即Pn＝{P1,P2,...,Pn}；

(2)记目标区域的周长为C；

(3)设相对阈值k＝Pn/C

本发明原理如图2所示，图2中，从图片的右侧边缘向内部扫描，阴影为目标位置，圆角矩形为真实目标所在的区域边界，周长为C；从右向左依次扫描到四个候选框，它们的周长分别为A1,A2,A3和A4。

当相对阈值k小于或等于候选框的周长C时，就可以将此候选框的边界视为真实目标Ground Truth的一个候选边界，就可以按照此方法将真实目标的位置给确定下来。但是，这个方法不是一劳永逸的，考虑到，总会存在这样的候选框，使得按照上面的步骤计算出来的阈值k大于p_n。这种情况是存在的，即网络生成的先验框都比较小，并且p′_n和C的比值小于相对阈值k，此时这些候选框都应该舍去，而最终的候选框就默认选择离真实目标GroundTruth的区域边缘最近的那个候选框p_i作为该真实目标的真实边框。

步骤六、SSD在训练时，首要的任务就是要将先验框和训练图片中的真实目标(ground truth)进行匹配，主要基于以下两个原则：第一，每个图片中的真实目标需要和其交并比(Intersection over Union，IOU)最大的先验框进行匹配的。但一个图片中需要检测的目标数目很少，先验框却很多，倘若仅按第一个原则匹配，就会出现正负样本数目比例失衡。因此，还需要第二个原则：对于冗余的先验框，若其和某个真实目标的IOU大于阈值(一般为0.5)，这个先验框可以与该目标匹配。另外，第一个原则一定要在第二个原则之前进行。

在使用上述方法将原来SSD算法中有关候选框生成部分的代码进行修改后测试验证，将相对阈值k设为0.36，使用Faster R-CNN、SSD两种原版的算法和改进的SSD算法进行比较，在PASCAL VOC 2012数据集进行验证，结果如图5所示。

本发明实施例从图5中数据可以看出，使用具有22531幅图像的PASCAL VOC 2012数据集进行验证，改进的SSD算法在检测平均精度上与Faster R-CNN算法相当，比传统的SSD算法要高2.8个百分点。并且，使用此方法能够保证真实目标完全在候选框之内。直观上，改进后的SSD算法最终生成的定位框与真实位置十分接近。

以上所述，仅为本发明某一具体实施方式，但本发明的应用范围不局限于此，通过使用不同结构的卷积神经网络，采用本文提出的边界扫描判定法，验证改进效果。

本发明的保护范围也并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于改进SSD网络的候选框生成方法，其包含如下步骤

2)进行训练样本的数据扩增；

4)使用极大值抑制算法(NMS)处理候选框，去除冗余的候选框；

5)对剩下的候选框执行本发明的边界扫描判定方法(Boundary Scan DeterminationMethod,BSDM)，得到最佳检验框；

6)训练网络以优化参数，并验证改进方法的性能。

2.如权利要求1的一种基于改进SSD网络的候选框生成方法，其特征在于：所述步骤1)，不同网络对于可接受的数据集格式不尽相同，不同组织所制作的数据集格式也各不相同，因此转换数据集为统一的格式，方便网络读取标记信息，对数据进行检查，防止在训练时出现异常，导致网络崩溃或者不准确。

3.如权利要求1所述的一种基于改进SSD网络的候选框生成方法，其特征在于：所述步骤2)，采用水平翻转(horizontal flip)、随机裁剪加颜色扭曲(random crop&colordistortion)、获取小目标训练样本等数据扩增(Data Augmentation)的方法可以提升SSD的性能。

4.如权利要求1所述的一种基于改进SSD网络的候选框生成方法，其特征在于：所述步骤3)，采用以VGG16为基础网络的SSD网络为检测网络，一共有6个特征图被提取，他们的尺寸分别为38×38、19×19、5×5、3×3和1×1，第一个特征图会在VGG16中的Conv4_3层进行检测。剩下的特征图分别从后面新增的卷积层Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中提取获得，先验框相同的情况只存在于同一个特征图的每个单元上，但是不同的特征图设置的先验框数目一般不同。

5.如权利要求1所述的一一种基于改进SSD网络的候选框生成方法，其特征在于所述步骤4)，非极大值抑制(NMS)通过迭代形式，不断以最大得分的框去与其他框做IOU操作，过滤那些IOU较大的框，一直重复进行，标记完所有要保留下来的矩形框，去除冗余候选框。

6.如权利要求1所述的一种基于改进SSD网络的候选框生成方法，其特征在于：所述步骤5)包括：

S52、记目标区域的周长为C；

S53、设相对阈值k＝Pn/C。

7.如权利要求1所述的一种基于改进SSD网络的候选框生成方法，其特征在于：所述步骤6)，在训练过程中最大迭代50000次，初始化学习率为0.001，batch_size设置为64，decay为0.0005，momentum为0.9，根据损失下降的趋势，可以适当调节学习率和batch_size的值，相对阈值K设为0.36，采用KITTI数据集进行训练，在PascalVOC2012上进行验证。