CN110188802B - 基于多层特征图融合的ssd目标检测算法 - Google Patents
基于多层特征图融合的ssd目标检测算法 Download PDFInfo
- Publication number
- CN110188802B CN110188802B CN201910393189.8A CN201910393189A CN110188802B CN 110188802 B CN110188802 B CN 110188802B CN 201910393189 A CN201910393189 A CN 201910393189A CN 110188802 B CN110188802 B CN 110188802B
- Authority
- CN
- China
- Prior art keywords
- feature
- feature map
- fused
- pyramid
- hierarchical structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了计算机视觉领域内的一种基于多层特征图融合的SSD目标检测算法,包括以下具体步骤:对图像进行预处理,将图像大小缩放成网络能够进行检测的尺寸;选取网络Darknet53对图像进行特征提取;在网络Darknet53的后面额外增加三个卷积层,融合Darknet53中后三层卷积层及增加的三层卷积层所产生的六层特征图;将该融合的特征图使用卷积进行下采样操作,产生金字塔特征层次结构;将网络Darknet53的后两层及额外增加三个卷积层产生的五层特征图进行上采样操作,然后与金字塔特征层次结构中尺寸对应的特征图进行融合;在这六层融合后的特征图上使用一系列卷积产生最终的检测结果,本发明极大的改善了目标检测的能力,可用于图像处理中。
Description
技术领域
本发明涉及一种图像处理方法,具体的说是一种SSD目标检测算法,属于计算机视觉技术领域。
背景技术
目标检测是计算机视觉领域的重要研究方向之一,传统的目标检测方法是通过人工设计特征后利用分类器对特征进行分类实现目标检测,如梯度方向直方图HOG(Histogram of Oriented Gradient)和支持向量机SVM(Support Vector Machine)。随着深度学习技术的发展,工程特征大部分已经被深度卷积网络计算的特征所取代,不需要再人工的去设计特征。除了能够表示更高级别的语义信息外,深度卷积网络对于尺度变化也更加鲁棒,从而有助于对单一尺度上计算的特征进行识别。当前效果最好的目标检测算法是基于候选区域建议的Two Stage目标检测方法。例如经典的R-CNN检测算法,该类算法的主要思想可以分为两步:第一步产生物体的候选区域,第二步则对第一层产生的每一个候选区域进行分类及定位。近年来,经过一系列的改进,Fast R-CNN、Faster R-CNN、FPN、R-FCN等基于候选区域建议的Two Stage目标检测算法目前已经达到了非常好的精度,但是缺点是速度慢,达不到实时性要求。在Two Stage检测算法取得了非常大的进步之后,那么有一个问题是:One Stage目标检测算法能不能达到相似的精度。One Stage目标检测算法采用回归的思想,需要先按照一定的方式设立默认框,并通过建立起预测框、默认框、groundtruth框之间的关系进行训练。目前经典的One Stage检测算法(YOLO、SSD)以及相应的改进算法(YOLOv2、YOLOv3、DSSD、FSSD等)被证明检测精度大概落后于Two Stage检测算法精度的10%~40%,但是速度却优于Two Stage检测算法,可以达到实时性要求。
发明内容
本发明的目的是提供一种基于多层特征图融合的SSD目标检测算法,极大的改善了目标检测的能力,同时也改善了对小目标物体的检测能力。
本发明的目的是这样实现的:一种基于多层特征图融合的SSD目标检测算法,其特征在于,包括以下具体步骤:
步骤1)对图像进行预处理,将图像大小缩放成网络能够进行检测的尺寸;
步骤2)选取网络Darknet53作为特征提取网络;
步骤3)在网络Darknet53的后面额外增加三个卷积层,得到八个卷积层,并使用该网络对图像进行特征提取,得到特征图;
步骤4)对后五个特征图上采样操作后得到后六个特征图分辨率相同,并对其进行融合,将该融合的六层特征图使用卷积进行下采样操作,产生金字塔特征层次结构;
步骤5)将网络Darknet53的后两层及额外增加三个卷积层产生的五层特征图进行上采样操作,然后与金字塔特征层次结构中尺寸对应的特征图进行融合;
步骤6)在这六层融合后的特征图上使用一系列卷积产生最终的检测结果。
作为本发明的进一步限定,步骤1具体为:使用插值的方法将图像缩放成300×300的大小,可采用最近邻插值、线性插值或区域插值。
作为本发明的进一步限定,步骤4具体为:
步骤4-1)将分辨率为300×300的图像,用网络Darknet53的后六层卷积层进行处理,得到分辨率为38×38、19×19、10×10、5×5、3×3、1×1的六个特征图;对后五个特征图上采样成38×38的特征图后融合这六个特征图,产生既包含目标细节信息又包含全局语义信息的特征图;本发明中融合操作均使用特征图连接操作;
步骤4-2)然后对这个融合后的特征图使用步长为2的卷积进行下采样产生金字塔特征层次结构。
作为本发明的进一步限定,步骤5具体为:
分别使用线性插值放大分辨率分别为19×19、10×10、5×5、3×3、1×1的后五层特征图,得到38×38、19×19、10×10、5×5、3×3;将放大后的五个特征图与金字塔特征层次结构中尺寸对应的特征图进行融合。
作为本发明的进一步限定,步骤6具体为:
步骤6-1)对于金字塔特征层次结构中融合后的38×38特征图中每个网格点cell预测4个框,每一个框包含(c+4)个值,其中c为类别数,4为相对于原始默认框的4个坐标偏移量;对于金字塔特征层次结构中融合后的19×19特征图中每个网格点cell预测6个框,每一个框包含(c+4)个值;对于金字塔特征层次结构中融合后的10×10特征图中每个网格点cell预测6个框,每一个框包含(c+4)个值;对于金字塔特征层次结构中融合后的5×5特征图中每个网格点cell预测6个框,每一个框包含(c+4)个值;对于金字塔特征层次结构中融合后的3×3特征图中每个网格点cell预测4个框,每一个框包含(c+4)个值;对于金字塔特征层次结构中融合后的1×1特征图中每个网格点cell预测4个框,每一个框包含(c+4)个值;
步骤6-2)通过整合上述的输出数据,得到一系列目标框,设置阈值过滤掉置信度得分低的目标框,最后对保留的目标框进行非极大值抑制处理,去掉重复框,选取目标类别出现概率最高的目标框,并输出其具体坐标,得到最终结果。
本发明中在网络Darknet53的后面额外增加三个卷积层,目的是增强网络的特征表达能力,接着融合Darknet53中后三层卷积层及增加的三层卷积层所产生的六层特征图,目的是让特征图一方面具备对应于原图较小的感受野;另一方面也具备更全局的语义信息;
采用的金字塔特征层次结构:其基本思想是这些金字塔具有尺度不变性,这个属性通过在空间位置和金字塔层上扫描模型,使模型可以在一个很大范围的尺度上检测物体;这种结构在多个不同分辨率大小、不同感受野大小的特征图上进行预测,因此能预测不同大小的物体;
将网络Darknet53的后两层和额外增加三个卷积层产生的五层特征图进行上采样(Upsample)操作,然后与金字塔特征层次结构中尺寸对应的特征图进行融合,以进一步使得特征图包含小目标的位置信息同时也具备更强的特征提取能力。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、提高了SSD算法的检测能力,特别是对小目标物体的检测能力;本发明采用网络Darknet53,使得检测网络具备更高的特征提取能力,提高了SSD算法的检测能力;同时使用多层特征图融合将高分辨率低语义信息特征图与低分辨率高语义信息特征图进行融合,提高了SSD算法对小目标物体的检测能力;
2、可以实现实时性;本发明提出的算法在提高了SSD算法的检测能力的同时并没有引入太多的参数和计算量,仍保持了One Stage检测算法速度快、能满足实时性要求的优点。
附图说明
图1是本发明的整体流程图。
图2是本发明的详细步骤图。
图3是本发明中的金字塔特征层次结构(Pyramidal feature hierarchy)示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明提出了一种基于多层特征图融合的SSD目标检测算法,其方法是首先对输入图像进行预处理,使其分辨率为300×300,然后使用额外增加了三个卷积层的Darknet53网络对其进行特征提取,再融合所设定的六个特征图产生金字塔特征层次结构,然后将上述的Darknet53中的后五层进行上采样后与金字塔特征层次结构中尺寸对应的网络进行融合,最后由一系列的卷积层在金字塔特征层次结构中的六层特征图上进行预测得到最终的检测结果。本发明采用网络Darknet53,提高了SSD算法的检测能力;同时使用多层特征图融合将高分辨率低语义信息特征图与低分辨率高语义信息特征图进行融合,提高了SSD算法对小目标物体的检测能力;本发明提出的算法在提高了SSD算法的检测能力的同时并没有引入太多的参数和计算量,能满足实时性要求的优点。
如图2所示的是本发明的详细步骤:
1、首先是输入图像预处理,预处理的作用是使图像缩放成网络能够进行检测的大小;
预处理方法如下:
使用插值的方法将图像缩放成300×300的大小,可采用最近邻插值、线性插值、区域插值等。
2、选用网络Darknet53;
主要步骤如下:
使用网络Darknet53,使检测网络具备更强的特征提取能力。
3、在选用网络Darknet53后,在Darknet53后增加三个卷积层;
主要步骤如下:
Darknet53具有五个卷积层,在Darknet53后面增加三个卷积层,分别为第六层、第七层、第八层;每个卷积层由1×1的卷积、3×3的卷积构成。
4、融合Darknet53的后三层及额外增加三个卷积层产生的六层特征图,并产生金字塔特征层次结构;
主要步骤如下:
(1)将步骤1产生的分辨率为300×300的图像,用步骤2设计的网络进行处理,得到分辨率为38×38、19×19、10×10、5×5、3×3、1×1的六个特征图;对后五个特征图上采样成38×38的特征图后融合这六个特征图,产生既包含目标细节信息又包含全局语义信息的特征图;本发明中融合操作均使用特征图连接操作(Concat);
(2)然后对这个融合后的特征图使用步长为2的卷积进行下采样产生如图3所示的金字塔特征层次结构。
5、将Darknet53的后两层及额外增加三个卷积层产生的五层特征图,分辨率分别为19×19、10×10、5×5、3×3、1×1,对这五个特征图分别使用线性插值放大,得到38×38、19×19、10×10、5×5、3×3;将放大后的五个特征图与金字塔特征层次结构中尺寸对应的特征图进行融合,以进一步使得特征图包含小目标的位置信息同时也具备更强的特征提取能力。
6、在金字塔特征层次结构中得到融合的特征图后,使用预测层处理得到最终预测结果。
主要步骤如下:
(1)对于金字塔特征层次结构中融合后的38×38特征图中每个网格点cell预测4个框,每一个框包含(c+4)个值(c为类别数,4为相对于原始默认框的4个坐标偏移量);对于金字塔特征层次结构中融合后的19×19特征图中每个网格点cell预测6个框,每一个框包含(c+4)个值(c为类别数,4为相对于原始默认框的4个坐标偏移量);对于金字塔特征层次结构中融合后的10×10特征图中每个网格点cell预测6个框,每一个框包含(c+4)个值(c为类别数,4为相对于原始默认框的4个坐标偏移量);对于金字塔特征层次结构中融合后的5×5特征图中每个网格点cell预测6个框,每一个框包含(c+4)个值(c为类别数,4为相对于原始默认框的4个坐标偏移量);对于金字塔特征层次结构中融合后的3×3特征图中每个网格点cell预测4个框,每一个框包含(c+4)个值(c为类别数,4为相对于原始默认框的4个坐标偏移量);对于金字塔特征层次结构中融合后的1×1特征图中每个网格点cell预测4个框,每一个框包含(c+4)个值(c为类别数,4为相对于原始默认框的4个坐标偏移量);
(2)通过整合上述的输出数据,得到一系列目标框,设置阈值过滤掉置信度得分低的目标框,最后对保留的目标框进行非极大值抑制处理,去掉重复框,选取目标类别出现概率最高的目标框,并输出其具体坐标,得到最终结果。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种基于多层特征图融合的SSD目标检测算法,其特征在于,包括以下具体步骤:
步骤1)对图像进行预处理,将图像大小缩放成网络能够进行检测的尺寸;
步骤2)选取网络Darknet53作为特征提取网络;
步骤3)在网络Darknet53的后面额外增加三个卷积层,得到八个卷积层,并使用该网络对图像进行特征提取,得到特征图;
步骤4)对后五个特征图上采样操作后得到后六个特征图分辨率相同,并对其进行融合,将该融合的六层特征图使用卷积进行下采样操作,产生金字塔特征层次结构;
步骤5)将网络Darknet53的后两层及额外增加三个卷积层产生的五层特征图进行上采样操作,然后与金字塔特征层次结构中尺寸对应的特征图进行融合;
步骤6)在这六层融合后的特征图上使用一系列卷积产生最终的检测结果。
2.根据权利要求1所述的基于多层特征图融合的SSD目标检测算法,其特征在于,步骤1具体为:使用插值的方法将图像缩放成300×300的大小,可采用最近邻插值、线性插值或区域插值。
3.根据权利要求2所述的基于多层特征图融合的SSD目标检测算法,其特征在于,步骤4具体为:
步骤4-1)将分辨率为300×300的图像,用网络Darknet53的后六层卷积层进行处理,得到分辨率为38×38、19×19、10×10、5×5、3×3、1×1的六个特征图;对后五个特征图上采样成38×38的特征图后融合这六个特征图,产生既包含目标细节信息又包含全局语义信息的特征图;融合操作均使用特征图连接操作;
步骤4-2)然后对这个融合后的特征图使用步长为2的卷积进行下采样产生金字塔特征层次结构。
4.根据权利要求3所述的基于多层特征图融合的SSD目标检测算法,其特征在于,步骤5具体为:
分别使用线性插值放大分辨率分别为19×19、10×10、5×5、3×3、1×1的后五层特征图,得到38×38、19×19、10×10、5×5、3×3;将放大后的五个特征图与金字塔特征层次结构中尺寸对应的特征图进行融合。
5.根据权利要求3所述的基于多层特征图融合的SSD目标检测算法,其特征在于,步骤6具体为:
步骤6-1)对于金字塔特征层次结构中融合后的38×38特征图中每个网格点cell预测4个框,每一个框包含c+4个值,其中c为类别数,4为相对于原始默认框的4个坐标偏移量;对于金字塔特征层次结构中融合后的19×19特征图中每个网格点cell预测6个框,每一个框包含c+4个值;对于金字塔特征层次结构中融合后的10×10特征图中每个网格点cell预测6个框,每一个框包含c+4个值;对于金字塔特征层次结构中融合后的5×5特征图中每个网格点cell预测6个框,每一个框包含c+4个值;对于金字塔特征层次结构中融合后的3×3特征图中每个网格点cell预测4个框,每一个框包含c+4个值;对于金字塔特征层次结构中融合后的1×1特征图中每个网格点cell预测4个框,每一个框包含c+4个值;
步骤6-2)通过整合输出数据,得到一系列目标框,设置阈值过滤掉置信度得分低的目标框,最后对保留的目标框进行非极大值抑制处理,去掉重复框,选取目标类别出现概率最高的目标框,并输出其具体坐标,得到最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910393189.8A CN110188802B (zh) | 2019-05-13 | 2019-05-13 | 基于多层特征图融合的ssd目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910393189.8A CN110188802B (zh) | 2019-05-13 | 2019-05-13 | 基于多层特征图融合的ssd目标检测算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188802A CN110188802A (zh) | 2019-08-30 |
CN110188802B true CN110188802B (zh) | 2022-08-30 |
Family
ID=67714481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910393189.8A Active CN110188802B (zh) | 2019-05-13 | 2019-05-13 | 基于多层特征图融合的ssd目标检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188802B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647844A (zh) * | 2019-09-23 | 2020-01-03 | 深圳一块互动网络技术有限公司 | 一种儿童用物品拍摄识别方法 |
CN111232200B (zh) * | 2020-02-10 | 2021-07-16 | 北京建筑大学 | 基于微型飞行器的目标检测方法 |
CN111401290A (zh) * | 2020-03-24 | 2020-07-10 | 杭州博雅鸿图视频技术有限公司 | 一种人脸检测方法及系统、计算机可读存储介质 |
CN111709489B (zh) * | 2020-06-24 | 2022-04-08 | 广西师范大学 | 一种基于改进YOLOv4的柑橘识别方法 |
CN112967296B (zh) * | 2021-03-10 | 2022-11-15 | 重庆理工大学 | 一种点云动态区域图卷积方法、分类方法及分割方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563381B (zh) * | 2017-09-12 | 2020-10-23 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
CN109191455A (zh) * | 2018-09-18 | 2019-01-11 | 西京学院 | 一种基于ssd卷积网络的大田作物病虫害检测方法 |
CN109614985B (zh) * | 2018-11-06 | 2023-06-20 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
-
2019
- 2019-05-13 CN CN201910393189.8A patent/CN110188802B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110188802A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188802B (zh) | 基于多层特征图融合的ssd目标检测算法 | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN112052783B (zh) | 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法 | |
CN112528976B (zh) | 文本检测模型的生成方法和文本检测方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
CN110929735B (zh) | 一种基于多尺度特征注意机制的快速显著性检测方法 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN113378933A (zh) | 甲状腺超声图像分类和分割网络、训练方法、装置及介质 | |
CN114694038A (zh) | 基于深度学习的高分辨率遥感影像分类方法及系统 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN111639668A (zh) | 一种基于深度学习的人群密度检测方法 | |
CN116645598A (zh) | 一种基于通道注意力特征融合的遥感图像语义分割方法 | |
CN111881915A (zh) | 一种基于多种先验信息约束的卫星视频目标智能检测方法 | |
CN113888505A (zh) | 一种基于语义分割的自然场景文本检测方法 | |
CN114842482B (zh) | 一种图像分类方法、装置、设备和存储介质 | |
CN113591861B (zh) | 图像处理方法、装置、计算设备及存储介质 | |
CN113052156B (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
CN115272906A (zh) | 一种基于点渲染的视频背景人像分割模型及算法 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
CN114708423A (zh) | 基于改进Faster RCNN的水下目标检测方法 | |
Mittal et al. | A feature pyramid based multi-stage framework for object detection in low-altitude UAV images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |