CN110837831A - 基于改进ssd网络的候选框生成方法 - Google Patents
基于改进ssd网络的候选框生成方法 Download PDFInfo
- Publication number
- CN110837831A CN110837831A CN201911054692.7A CN201911054692A CN110837831A CN 110837831 A CN110837831 A CN 110837831A CN 201911054692 A CN201911054692 A CN 201911054692A CN 110837831 A CN110837831 A CN 110837831A
- Authority
- CN
- China
- Prior art keywords
- candidate
- frames
- network
- formats
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于改进SSD网络的候选框生成方法,解决SSD网络候选框生成过程中的冗余和不精确问题。在保证SSD检测速度的前提下提升检测平均精度,属于智能化领域。其包括以下步骤:1)对选用数据集中的所有图片格式、标记格式和与标记边框进行检查,转换为统一格式;2)进行训练样本的数据扩增;3)将图片输入到SSD网络进行特征提取,在目标位置附近随机生成若干候选框;4)使用极大值抑制算法处理候选框,去除冗余的候选框;5)对剩下的候选框执行本发明的边界扫描判定方法(Boundary Scan Determination Method,BSDM),得到最佳检验框;6)训练网络以优化参数,并验证改进方法的性能。
Description
技术领域
本发明基于SSD网络改进,提出一种候选框生成算法——边界扫描判定方法(Boundary Scan Determination Method,BSDM),解决SSD网络候选框生成不精确以及冗余问题,提高SSD算法的检测精度和速度。属于智能化领域。
背景技术
近些年来,在当前的无人驾驶和智能交通快速发展的阶段,车辆目标检测作为计算机视觉领域中的一个热门而又具有挑战性的研究方向,正在被越来越多的研究者关注。车道检测、实时车辆检测、辅助驾驶等技术也开始逐渐融入车辆检测这一领域当中。在科学技术飞速发展的今天,研究人员在不同阶段也取得了不同的科技进步。
车辆目标检测的算法正在朝着速度更快、精度更高的方向发展。相比较于先前需要手工设计特征,现在的目标检测模型能够利用卷积神经网络将不同层级的特征进行提取和自发学习,从而使得现在的目标检测模型具有更强的特征提取能力和更强的特征表达能力。单阶段目标检测模型有计算效率更高训练过程更加容易的优点,典型的算法模型有YOLO、SSD等。这两种算法模型相比较而言,SSD算法模型在检测性能、实时性、检测精度上略胜一筹。由于SSD算法是一阶段检测算法,可以一步到位的完成检测,满足了实时性的要求,但是,无论一阶段算法还是二阶段算法,都需要对Region Proposal进行去重,去除无效的冗余候选框,但SSD算法采用非极大值抑制(NMS)算法会将相邻检测框的分数均强制归零(既将重叠部分大于重叠阈值的检测框移除),导致如果一个真实物体在重叠区域出现,则会对该物体的检测失败并降低了算法的平均检测率(average precision,AP),同时,若生成的先验框数目过多,NMS会导致一个目标位置附近会有多个冗余的候选框,其中包含最适合目标位置的那个候选框,或只留下一个并非最精确的候选框,即位置有偏移的候选框,使得SSD算法精度不如Faster R-CNN。因此,如何保证SSD检测速度的前提下提升精度成为亟待解决的问题。
发明内容
针对上述问题,本发明基于SSD网络改进,提出一种边界扫描判定法(BSDM),解决SSD网络候选框生成不精确以及冗余问题,保证SSD的检测速度前提下提升检测精度。
本发明采取如下技术方案:一种基于改进SSD网络的候选框生成方法包括如下步骤:
1)对选用数据集中的所有图片格式、标记格式和与标记边框进行检查,转换为统一格式;
2)进行训练样本的数据扩增;
3)将图片输入到SSD网络进行特征提取,在目标位置附近随机生成若干候选框;
4)使用极大值抑制算法处理候选框,去除冗余的候选框;
5)对剩下的候选框执行本发明的边界扫描判定方法(Boundary ScanDetermination Method,BSDM),得到最佳检验框;
6)训练网络以优化参数,并验证改进方法的性能。
所述步骤1)不同网络对于可接受的数据集格式不尽相同,不同组织所制作的数据集格式也各不相同,因此转换数据集为统一的格式,方便网络读取标记信息,对数据进行检查,防止在训练时出现异常,导致网络崩溃或者不准确。
所述步骤2)采用水平翻转(Horizontal flip)、随机裁剪加颜色扭曲(Randomcrop&Color distortion)、获取小目标训练样本等数据扩增的方法可以提升SSD的性能。
所述步骤3)采用以VGG16为基础网络的SSD网络为检测网络,一共有6个特征图被提取,他们的尺寸分别为38×38、19×19、5×5、3×3和1×1,第一个特征图会在VGG16中的Conv4_3层进行检测。剩下的特征图分别从后面新增的卷积层Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中提取获得,先验框相同的情况只存在于同一个特征图的每个单元上,但是不同的特征图设置的先验框数目一般不同。
所述步骤4)非极大值抑制(NMS)通过迭代形式,不断以最大得分的框去与其他框做IOU操作,过滤那些IOU较大的框,一直重复进行,标记完所有要保留下来的矩形框,去除冗余候选框。
所述步骤5)在生成先验框之后,先使用NMS算法过滤掉一部分冗余的候选框,对于剩下的候选框进行边界扫描判定法:
S51、从图像边界向目标区域中心点扫描,记录所遇到的候选框的周长,记为Pn,即Pn={P1,P2,...,Pn};
S52、记目标区域的周长为C;
S53、设相对阈值k=Pn/C。
当相对阈值k小于或等于候选框的周长C时,就可以将此候选框的边界视为真实目标Ground Truth的一个候选边界,就可以按照此方法将真实目标的位置给确定下来。
所述步骤6)在训练过程中最大迭代50000次,初始化学习率为0.001,batch_size设置为64,decay为0.0005,momentum为0.9,根据损失下降的趋势,可以适当调节学习率和batch_size的值,相对阈值K设为0.36,采用KIOTTI数据集进行训练,在Pascal VOC2012上进行验证。
本发明由于采取以上方法,其具有以下优点:
1、改进后的SSD算法最终生成的定位框与真实位置十分相近,提高检测平均精度mPA。
2、NMS过滤掉一些冗余候选框,加快候选框生成速度,再使用本发明的边界扫描判定法(BSDM)提升生成的候选框的精度,在保持SSD算法的速度前提下进一步提升精度。
附图说明
图1本发明实施流程图;
图2本发明原理图;
图3 SSD网络结构;
图4 NMS算法过程;
图5实施例实验结果;
具体实施方式
下面结合说明书附图通过一个实例对本发明做进一步说明,本实例仅为本发明其中的一种应用实例,实施流程如图1所示。
步骤一、由于数据集中的交通标志标记信息可能出现错误,因此在训练之前需要对所有标记数据进行检查,防止在训练时出现异常,导致网络崩溃或者不准确;KITTI数据集与PASCAL VOC 2012的格式相差甚远,需要对数据集中的图片和数据标签进行修改,因此若用KITTI数据集训练SSD,需要进行如下两个步骤:一是将.png格式的图片转换为.jpg格式;二是将.txt标注文件转换成.xml文件。
如KITTI数据集的训练集一共有7481张.png格式的图片,因此想要通过一张一张修改文件后缀名的方式转换图片的格式是不现实的,工作量太大。因此需要找到一种批量转换的方式。具体操作如下:
(1)先将欲转换的图片解压,得到解压后的文件夹;
(2)进入解压后的图片文件夹,新建一个.bat系统工具文件,用记事本方式打开进行编辑;
(3)在文件中写入如下代码,”ren*png*jpg”。ren是格式转换的命令,*是通配符,指代此文件夹下该格式的所有文件。
(4)保存好后,将该文件放入图片的文件夹中,双击运行。
(5)等待若干分钟,就能看到文件夹中的图片已经从.png格式变为.jpg格式了。值得注意的是,用此方法转换后的图片除了后缀名改了之外,图片的尺寸等信息都不会更改。在转换完成后,需要将.bat文件删除,避免后期程序从文件夹中读取图片时出错。
(6)分析标注文件,忽略不需要的信息,将.txt文件转换为.xml文件,通过python脚本进行批量转换,读取txt并重新写到新的xml中。
步骤二、数据扩增可以有效避免过拟合现象,提升SSD算法的性能。
步骤三、本实例以VGG16为基础网络构造SSD网络作为检测网络。第一个特征图会在VGG16中的Conv4_3层进行检测。剩下的特征图分别从后面新增的卷积层Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中提取获得,一共有6个特征图被提取,他们的尺寸分别为38×38、19×19、5×5、3×3和1×1,先验框相同的情况只存在于同一个特征图的每个单元上,但是不同的特征图设置的先验框数目一般不同。在得到特征图之后,检测结果是从对特征图的卷积运算得出。检测值包括两个部分:边界框的位置和类别置信度,这两个部分分别采用一次3×3的卷积来完成。由于每个边界框都会对应一个先验框,而SSD300一共可以预测8732个边界框。网络结构如图3所示
步骤四、非极大值抑制(NMS)算法通过迭代的形式,不断的以最大得分的框去与其他框做IOU操作,并过滤那些IOU较大(即交集较大)的框,如图4所示。具体过程如下:
(1)根据候选框的类别分类概率做排序,假如有4个Bounding Box,其置信度A>B>C>D。
(2)先标记最大概率矩形框A是算法要保留的Bounding Box;
(3)从最大概率矩形框A开始,分别判断ABC与D的重叠度IOU(两框的交并比)是否大于某个设定的阈值(0.5),假设D与A的重叠度超过阈值,那么就舍弃D;
(4)从剩下的矩形框BC中,选择概率最大的B,标记为保留,然后判读C与B的重叠度,扔掉重叠度超过设定阈值的矩形框;
(5)一直重复进行,标记完所有要保留下来的矩形框。
步骤五、在步骤四执行完NMS后,对于剩下的候选框进行本发明操作如下:
(1)从图像边界(例如右侧)向目标区域中心点扫描,记录所遇到的候选框的周长,记为Pn,即Pn={P1,P2,...,Pn};
(2)记目标区域的周长为C;
(3)设相对阈值k=Pn/C
本发明原理如图2所示,图2中,从图片的右侧边缘向内部扫描,阴影为目标位置,圆角矩形为真实目标所在的区域边界,周长为C;从右向左依次扫描到四个候选框,它们的周长分别为A1,A2,A3和A4。
当相对阈值k小于或等于候选框的周长C时,就可以将此候选框的边界视为真实目标Ground Truth的一个候选边界,就可以按照此方法将真实目标的位置给确定下来。但是,这个方法不是一劳永逸的,考虑到,总会存在这样的候选框,使得按照上面的步骤计算出来的阈值k大于pn。这种情况是存在的,即网络生成的先验框都比较小,并且p′n和C的比值小于相对阈值k,此时这些候选框都应该舍去,而最终的候选框就默认选择离真实目标GroundTruth的区域边缘最近的那个候选框pi作为该真实目标的真实边框。
步骤六、SSD在训练时,首要的任务就是要将先验框和训练图片中的真实目标(ground truth)进行匹配,主要基于以下两个原则:第一,每个图片中的真实目标需要和其交并比(Intersection over Union,IOU)最大的先验框进行匹配的。但一个图片中需要检测的目标数目很少,先验框却很多,倘若仅按第一个原则匹配,就会出现正负样本数目比例失衡。因此,还需要第二个原则:对于冗余的先验框,若其和某个真实目标的IOU大于阈值(一般为0.5),这个先验框可以与该目标匹配。另外,第一个原则一定要在第二个原则之前进行。
在使用上述方法将原来SSD算法中有关候选框生成部分的代码进行修改后测试验证,将相对阈值k设为0.36,使用Faster R-CNN、SSD两种原版的算法和改进的SSD算法进行比较,在PASCAL VOC 2012数据集进行验证,结果如图5所示。
本发明实施例从图5中数据可以看出,使用具有22531幅图像的PASCAL VOC 2012数据集进行验证,改进的SSD算法在检测平均精度上与Faster R-CNN算法相当,比传统的SSD算法要高2.8个百分点。并且,使用此方法能够保证真实目标完全在候选框之内。直观上,改进后的SSD算法最终生成的定位框与真实位置十分接近。
以上所述,仅为本发明某一具体实施方式,但本发明的应用范围不局限于此,通过使用不同结构的卷积神经网络,采用本文提出的边界扫描判定法,验证改进效果。
本发明的保护范围也并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种基于改进SSD网络的候选框生成方法,其包含如下步骤
1)对选用数据集中的所有图片格式、标记格式和与标记边框进行检查,转换为统一格式;
2)进行训练样本的数据扩增;
3)将图片输入到SSD网络进行特征提取,在目标位置附近随机生成若干候选框;
4)使用极大值抑制算法(NMS)处理候选框,去除冗余的候选框;
5)对剩下的候选框执行本发明的边界扫描判定方法(Boundary Scan DeterminationMethod,BSDM),得到最佳检验框;
6)训练网络以优化参数,并验证改进方法的性能。
2.如权利要求1的一种基于改进SSD网络的候选框生成方法,其特征在于:所述步骤1),不同网络对于可接受的数据集格式不尽相同,不同组织所制作的数据集格式也各不相同,因此转换数据集为统一的格式,方便网络读取标记信息,对数据进行检查,防止在训练时出现异常,导致网络崩溃或者不准确。
3.如权利要求1所述的一种基于改进SSD网络的候选框生成方法,其特征在于:所述步骤2),采用水平翻转(horizontal flip)、随机裁剪加颜色扭曲(random crop&colordistortion)、获取小目标训练样本等数据扩增(Data Augmentation)的方法可以提升SSD的性能。
4.如权利要求1所述的一种基于改进SSD网络的候选框生成方法,其特征在于:所述步骤3),采用以VGG16为基础网络的SSD网络为检测网络,一共有6个特征图被提取,他们的尺寸分别为38×38、19×19、5×5、3×3和1×1,第一个特征图会在VGG16中的Conv4_3层进行检测。剩下的特征图分别从后面新增的卷积层Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2中提取获得,先验框相同的情况只存在于同一个特征图的每个单元上,但是不同的特征图设置的先验框数目一般不同。
5.如权利要求1所述的一一种基于改进SSD网络的候选框生成方法,其特征在于所述步骤4),非极大值抑制(NMS)通过迭代形式,不断以最大得分的框去与其他框做IOU操作,过滤那些IOU较大的框,一直重复进行,标记完所有要保留下来的矩形框,去除冗余候选框。
6.如权利要求1所述的一种基于改进SSD网络的候选框生成方法,其特征在于:所述步骤5)包括:
S51、从图像边界向目标区域中心点扫描,记录所遇到的候选框的周长,记为Pn,即Pn={P1,P2,...,Pn};
S52、记目标区域的周长为C;
S53、设相对阈值k=Pn/C。
当相对阈值k小于或等于候选框的周长C时,就可以将此候选框的边界视为真实目标Ground Truth的一个候选边界,就可以按照此方法将真实目标的位置给确定下来。
7.如权利要求1所述的一种基于改进SSD网络的候选框生成方法,其特征在于:所述步骤6),在训练过程中最大迭代50000次,初始化学习率为0.001,batch_size设置为64,decay为0.0005,momentum为0.9,根据损失下降的趋势,可以适当调节学习率和batch_size的值,相对阈值K设为0.36,采用KITTI数据集进行训练,在PascalVOC2012上进行验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911054692.7A CN110837831A (zh) | 2019-10-31 | 2019-10-31 | 基于改进ssd网络的候选框生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911054692.7A CN110837831A (zh) | 2019-10-31 | 2019-10-31 | 基于改进ssd网络的候选框生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110837831A true CN110837831A (zh) | 2020-02-25 |
Family
ID=69575958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911054692.7A Pending CN110837831A (zh) | 2019-10-31 | 2019-10-31 | 基于改进ssd网络的候选框生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837831A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582226A (zh) * | 2020-05-19 | 2020-08-25 | 中国人民解放军国防科技大学 | 目标检测中候选框去冗余方法 |
CN112784692A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种图像的文本内容识别方法、装置、设备及存储介质 |
CN112990350A (zh) * | 2021-04-12 | 2021-06-18 | 天津美腾科技股份有限公司 | 目标检测网络训练方法及基于目标检测网络煤矸识别方法 |
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
-
2019
- 2019-10-31 CN CN201911054692.7A patent/CN110837831A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582226A (zh) * | 2020-05-19 | 2020-08-25 | 中国人民解放军国防科技大学 | 目标检测中候选框去冗余方法 |
CN111582226B (zh) * | 2020-05-19 | 2022-09-16 | 中国人民解放军国防科技大学 | 目标检测中候选框去冗余方法 |
CN112784692A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种图像的文本内容识别方法、装置、设备及存储介质 |
CN112990350A (zh) * | 2021-04-12 | 2021-06-18 | 天津美腾科技股份有限公司 | 目标检测网络训练方法及基于目标检测网络煤矸识别方法 |
CN113408471A (zh) * | 2021-07-02 | 2021-09-17 | 浙江传媒学院 | 一种基于多任务深度学习的无绿幕人像实时抠图算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11164027B2 (en) | Deep learning based license plate identification method, device, equipment, and storage medium | |
CN110837831A (zh) | 基于改进ssd网络的候选框生成方法 | |
CN109117836B (zh) | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 | |
CN110032998B (zh) | 自然场景图片的文字检测方法、系统、装置和存储介质 | |
US20050259866A1 (en) | Low resolution OCR for camera acquired documents | |
CN111476210B (zh) | 基于图像的文本识别方法、系统、设备及存储介质 | |
CN111488911B (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN110210433B (zh) | 一种基于深度学习的集装箱箱号检测与识别方法 | |
AU2010311067A1 (en) | System and method for increasing the accuracy of optical character recognition (OCR) | |
KR101014125B1 (ko) | 지능형 자동차를 위한 교통 표지판 검출 방법 및 상기 방법을 실행하는 시스템 | |
CN106778736A (zh) | 一种鲁棒的车牌识别方法及其系统 | |
CN112232371A (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN111178282A (zh) | 一种道路交通限速标志定位识别方法及装置 | |
CN112464940A (zh) | 一种基于深度学习的车辆前挡风玻璃vin码识别方法及系统 | |
CN111582377A (zh) | 一种基于模型压缩的边缘端目标检测方法及系统 | |
CN112949653A (zh) | 文本识别方法以及电子设备、存储装置 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN113569940A (zh) | 一种基于知识迁移和概率校正的少样本目标检测方法 | |
CN113033427A (zh) | 一种基于dl的车底异物自动识别方法 | |
JP3090070B2 (ja) | 帳票識別方法及び装置 | |
CN113569734B (zh) | 一种基于特征重校准的图像识别与分类方法及装置 | |
CN112861800B (zh) | 基于改进的Faster R-CNN模型的快递识别方法 | |
CN116543363B (zh) | 样本图像的获取方法、装置、电子设备及车辆 | |
CN115171092B (zh) | 一种基于语义增强的端到端车牌检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |