CN114565862A - 一种基于ssd卷积网络的大尺寸航拍图像目标检测方法 - Google Patents
一种基于ssd卷积网络的大尺寸航拍图像目标检测方法 Download PDFInfo
- Publication number
- CN114565862A CN114565862A CN202210147558.7A CN202210147558A CN114565862A CN 114565862 A CN114565862 A CN 114565862A CN 202210147558 A CN202210147558 A CN 202210147558A CN 114565862 A CN114565862 A CN 114565862A
- Authority
- CN
- China
- Prior art keywords
- clustering
- aerial image
- gradient
- size
- ssd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 239000007787 solid Substances 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,首先采用梯度聚类模块对大尺寸航拍图像进行梯度运算,再对梯度运算所得到的梯度图进行区域聚类计算,得到目标集中的聚类区域,然后采用SSD目标检测模型检测得出每个聚类区域中的目标,最后融合模块根据梯度聚类模块计算得到的聚类区域、SSD目标检测模型得到的目标检测结果进行映射融合,从而得到整张大尺寸航拍图像的目标检测结果。本发明采用梯度聚类模块、卷积神经网络检测模型和融合模块的大尺寸航拍图像检测框架,实现对大尺寸航拍图像的快速检测。
Description
技术领域
本发明涉及图像目标检测技术领域,具体是一种基于SSD卷积网络的大尺寸航拍图像目标检测方法。
背景技术
航拍图像相比于地面拍摄图像,拥有更广阔的视野,可以获得更加丰富的信息,在侦查监视、城市规划、交通管制等领域有着广泛的应用。基于深度学习的航拍目标检测算法很好地解决了多类目标的检测问题以及检测准确率问题,但对大尺寸航拍图像检测的实时性问题一直无法得到有效解决。
文献[1](Gong C,Zhou P,Han J.Learning Rotation-Invariant ConvolutionalNeural Networks for Object Detection in VHR Optical Remote Sensing Images[J].IEEE Transactions on Geoscience and Remote Sensing,2016,54(12):7405-7415.)设计了对目标旋转特性不敏感的目标函数来训练网络,对大尺寸航拍图像采用了选择性搜索算法提取目标候选框,但是提取大量的目标候选框很耗时,最后所达到的速度是检测每张图耗时8.77s。文献[2](Sommer L W,Schuchert T,Beyerer J.Fast Deep VehicleDetection in Aerial Images[C]//2017IEEE Winter Conference on Applications ofComputer Vision(WACV).IEEE,2017.)指出由于目前GPU的限制,深度卷积网络(CNN)不能处理大尺寸的图像,针对这个问题提出了利用滑动窗口将大尺寸图像裁剪(crop)成多个小块(patch)进行训练和检测,但是在一张图像上进行大量的检测严重拖累了检测速度。文献[3](Sakla W,Konjevod G,Mundhenk T N.Deep Multi-modal Vehicle Detection inAerial ISR Imagery[C]//Applications of Computer Vision.IEEE,2017.)对三类8种主要的区域建议算法(objectproposalsmethods)在航拍目标检测中的应用进行了研究分析,但仍旧没有解决航拍图像检测速度的问题。
上述三个文献中的方法分别利用选择性搜索方法、滑动窗口方法以及区域建议算法对大尺寸的图像进行分割,之后再将分割得到到图像快送入目标检测网络进行检测,从而得到大尺寸图像中目标情况。三种方法均从图像的角度出发,将大图像分割成小图像块,从而满足了检测网络的检测需求,本质上都是将大尺寸航拍图像看成了一般图像进行处理,忽略了大尺寸航拍图像的一些独特性质,而对大尺寸的普通图像进行检测处理,必然导致算法实时性较差的情况,从而不利于实际应用中的使用。
发明内容
本发明要解决的技术问题是提供一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,采用梯度聚类模块、卷积神经网络检测模型和融合模块的大尺寸航拍图像检测框架,实现对大尺寸航拍图像的快速检测。
本发明的技术方案为:
一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,首先采用梯度聚类模块对大尺寸航拍图像进行梯度运算,再对梯度运算所得到的梯度图进行区域聚类计算,得到目标集中的聚类区域,然后采用SSD目标检测模型检测得出每个聚类区域中的目标,最后融合模块根据梯度聚类模块计算得到的聚类区域、SSD目标检测模型得到的目标检测结果进行映射融合,从而得到整张大尺寸航拍图像的目标检测结果。
所述的大尺寸航拍图像在进行梯度运算前,采用模板尺寸为(2k+1)×(2k+1)、标准差为σ的高斯滤波器进行滤波,有效去除大尺寸航拍图像中的自然噪声,然后再在滤波后的大尺寸航拍图像上进行梯度运算;其中,k取值越大代表高斯滤波器的模板越大,更能适应大尺寸人造物体的筛选,σ取值越大代表高斯滤波器对图像的平滑效果越显著,更适应于自然背景较多的情况。
所述的梯度聚类模块采用Sobel算子对大尺寸航拍图像进行梯度运算,Sobel算子的具体参数选择如下:
然后在IG上利用S1、S2进行Sobel梯度运算,即可得到梯度图。
所述的梯度图进行区域聚类计算的具体步骤为:在梯度图上进行阈值滤波,剔除大尺寸航拍图像自然背景中少量非人造物体的梯度边缘点,设置全局阈值为128,由此得到大尺寸航拍图像中人造物体边缘点的二值图IE为:
人造物体边缘点的二值图IE为二维数据点,采用聚类算法对二值图IE进行聚类,得到多个目标集中的聚类区域。
所述的聚类算法采用STING算法,STING算法将二值图IE构成的平面空间划分成S×S的网络,并统计落入每个网络单元格中点的数量,根据连通阈值D,将达到连通阈值D的单元格进行连通,得到聚类区域R;其中,所述的S的取值为300、512或1024,所述的连通阈值D的取值由聚类算法运算量和网格召回率决定,连通阈值D的取值越大,则聚类算法运算量越小,速度越快,召回率越低。
所述的SSD目标检测模型是由多个并行的SSD目标检测算法组成,每个SSD目标检测算法的输入尺寸为B×B,B的取值为300、512或1024,以实现与梯度聚类模块的数据传递;其中,SSD目标检测模型中的一个SSD目标检测算法接收梯度聚类算法计算得到的一个聚类区域,并进行检测,由此得出每个聚类区域中的目标。
所述的融合模块的映射融合关系如下:
其中,B为SSD目标检测算法的输入尺寸,x、y代表某个点在整张大尺寸航拍图像上的坐标,N_x、N_y分别代表聚类区域在整张大尺寸航拍图像上的横纵编号,x(N_x)、x(N_y)代表某个点在聚类区域上的坐标;由于SSD目标检测模型的目标检测结果为标注框,该标注框由左上角点和右下角点组成,因此融合模块进行映射融合时,只需要对标注框的左上角点和右下角点的坐标进行映射即可。
本发明的优点:
(1)、本发明利用大尺寸航拍图像与普通大尺寸图像相比、通过人造物体的边缘信息对目标区域进行筛选提取的这个特点,为大尺寸航拍图像的各类图像处理方式提供新的思路。
(2)、本发明的梯度聚类模块创造性地将描述边缘特性的梯度方法与代表聚集特征的聚类方法相结合,可以快速完成对大尺寸航拍图像中目标集中区域的筛选,相比以前的滑动窗口方法、选择性搜索方法具有运算速度快、精度基本持平的优势。
(3)、本发明采用了梯度聚类模块、卷积神经网络检测模型、融合模块相结合的大尺寸航拍图像检测框架,可实现对大尺寸航拍图像的快速检测。
附图说明
图1是本发明大尺寸航拍图像中人造物体边缘点的二值图IE。
图2是本发明采用STING算法划分得到的聚类区域R。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,具体包括有以下步骤:
(1)、采用模板尺寸为(2k+1)×(2k+1)、标准差为σ的高斯滤波器进行滤波(k=3,σ=1.5),有效去除大尺寸航拍图像中的自然噪声,然后梯度聚类模块再在滤波后的大尺寸航拍图像上进行梯度运算;
梯度聚类模块采用Sobel算子对大尺寸航拍图像进行梯度运算,Sobel算子的具体参数选择如下:
然后在IG上利用S1、S2进行Sobel梯度运算,即可得到梯度图;
(2)、梯度聚类模块对梯度运算所得到的梯度图进行区域聚类计算,得到目标集中的聚类区域,具体是在梯度图上进行阈值滤波,剔除大尺寸航拍图像自然背景中少量非人造物体的梯度边缘点,设置全局阈值为128,由此得到大尺寸航拍图像中人造物体边缘点的二值图IE为:
人造物体边缘点的二值图IE为二维数据点(见图1),采用STING算法将二值图IE构成的平面空间划分成S×S的网络,并统计落入每个网络单元格中点的数量,根据连通阈值D,将达到连通阈值D的单元格进行连通,得到多个目标集中的聚类区域R(见图2中的黑色色块);其中,S=512,连通阈值D=600;
(3)、采用SSD目标检测模型检测得出每个聚类区域中的目标,其中,SSD目标检测模型是由多个并行的SSD目标检测算法组成,每个SSD目标检测算法的输入尺寸为512×512,以实现与梯度聚类模块的数据传递;其中,SSD目标检测模型中的一个SSD目标检测算法接收梯度聚类算法计算得到的一个聚类区域,并进行检测,由此得出每个聚类区域中的目标;
(4)、融合模块根据梯度聚类模块计算得到的聚类区域、SSD目标检测模型得到的目标检测结果进行映射融合,从而得到整张大尺寸航拍图像的目标检测结果;
融合模块的映射融合关系如下:
其中,x、y代表某个点在整张大尺寸航拍图像上的坐标,N_x、N_y分别代表聚类区域在整张大尺寸航拍图像上的横纵编号,x(N_x)、x(N_y)代表某个点在聚类区域上的坐标;由于SSD目标检测模型的目标检测结果为标注框,该标注框由左上角点和右下角点组成,因此融合模块进行映射融合时,只需要对标注框的左上角点和右下角点的坐标进行映射即可。
现有的聚类算法通常包括基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法和基于网格的聚类算法等,在对二维梯度点图进行聚类时,更适合使用基于网格的聚类算法,这样可以简化算法对二维数据的运算。在基于网络的聚类算法中,有STING、WaveCluster、CLIQUE等算法,STING算法利用统计信息来实现对网格单元的聚类,运算量小,速度快,可以满足简单的二维梯度点的聚类需求;WaveCluster算法引入了小波变换的原理,在信号处理、加密解密领域有重要应用,聚类准确度很高,但其引入的其他原理增加了其运算量,速度较慢;CLIQUE算法是一种结合了网格和密度的聚类算法,速度和准确度介于前两个算法之间,综合考虑,本发明采用STING算法即可实现对简单二维梯度点图的聚类。
本发明(简写GCS)在一台操作系统为Ubuntu16.06、显卡为NVIDIA GTX1080Ti、处理器为Xeon E5-2673、内存为32GB的工作站上进行了实验分析,并与Faster R-CNN(简写F)、YOLOv2(简写Y)、Sliding windowsSSD(简写SWS)三种算法进行了对比。实验时,使用的数据为DOTA数据集中选取的151张图像,涉及的物体类别有6类:飞机、船、储油罐、操场、港口以及转盘,实验结果如下表1所示。
表1各类目标检测方法在大尺寸航拍图像上的效果对比
表1中,mAP为模型对多类别目标检测准确率的评价指标,百分比越大代表效果越好;每个目标类别下面的数字为AP值,代表模型对该类目标检测准确率的评价指标,百分比越大代表效果越好;SPF代表处理一帧图像需要花费的时间,单位为秒。
从上表1可以看出,Faster R-CNN的检测速度最慢,YOLO检测速度最快,本发明相比最快的YOLO算法,SPF提高了1.06秒,提高幅度达到了34.64%,同时保持了较好的检测准确率,mAP相比YOLO也提高了3.42%。由此可见,本发明在保持一定检测准确率的情况下,大幅提高了对大尺寸航拍图像的检测速度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,其特征在于:首先采用梯度聚类模块对大尺寸航拍图像进行梯度运算,再对梯度运算所得到的梯度图进行区域聚类计算,得到目标集中的聚类区域,然后采用SSD目标检测模型检测得出每个聚类区域中的目标,最后融合模块根据梯度聚类模块计算得到的聚类区域、SSD目标检测模型得到的目标检测结果进行映射融合,从而得到整张大尺寸航拍图像的目标检测结果。
2.根据权利要求1所述的一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,其特征在于:所述的大尺寸航拍图像在进行梯度运算前,采用模板尺寸为(2k+1)×(2k+1)、标准差为σ的高斯滤波器进行滤波,有效去除大尺寸航拍图像中的自然噪声,然后再在滤波后的大尺寸航拍图像上进行梯度运算;其中,k取值越大代表高斯滤波器的模板越大,更能适应大尺寸人造物体的筛选,σ取值越大代表高斯滤波器对图像的平滑效果越显著,更适应于自然背景较多的情况。
5.根据权利要求4所述的一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,其特征在于:所述的聚类算法采用STING算法,STING算法将二值图IE构成的平面空间划分成S×S的网络,并统计落入每个网络单元格中点的数量,根据连通阈值D,将达到连通阈值D的单元格进行连通,得到聚类区域R;其中,所述的S的取值为300、512或1024,所述的连通阈值D的取值由聚类算法运算量和网格召回率决定,连通阈值D的取值越大,则聚类算法运算量越小,速度越快,召回率越低。
6.根据权利要求1所述的一种基于SSD卷积网络的大尺寸航拍图像目标检测方法,其特征在于:所述的SSD目标检测模型是由多个并行的SSD目标检测算法组成,每个SSD目标检测算法的输入尺寸为B×B,B的取值为300、512或1024,以实现与梯度聚类模块的数据传递;其中,SSD目标检测模型中的一个SSD目标检测算法接收梯度聚类算法计算得到的一个聚类区域,并进行检测,由此得出每个聚类区域中的目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210147558.7A CN114565862A (zh) | 2022-02-17 | 2022-02-17 | 一种基于ssd卷积网络的大尺寸航拍图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210147558.7A CN114565862A (zh) | 2022-02-17 | 2022-02-17 | 一种基于ssd卷积网络的大尺寸航拍图像目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114565862A true CN114565862A (zh) | 2022-05-31 |
Family
ID=81712970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210147558.7A Pending CN114565862A (zh) | 2022-02-17 | 2022-02-17 | 一种基于ssd卷积网络的大尺寸航拍图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114565862A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203396A (zh) * | 2016-07-25 | 2016-12-07 | 南京信息工程大学 | 基于深度卷积和梯度旋转不变性的航拍图像目标检测方法 |
CN108304882A (zh) * | 2018-02-07 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像分类方法、装置及服务器、用户终端、存储介质 |
CN113723181A (zh) * | 2021-07-20 | 2021-11-30 | 深圳大学 | 一种无人机航拍目标检测方法和装置 |
-
2022
- 2022-02-17 CN CN202210147558.7A patent/CN114565862A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203396A (zh) * | 2016-07-25 | 2016-12-07 | 南京信息工程大学 | 基于深度卷积和梯度旋转不变性的航拍图像目标检测方法 |
CN108304882A (zh) * | 2018-02-07 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像分类方法、装置及服务器、用户终端、存储介质 |
CN113723181A (zh) * | 2021-07-20 | 2021-11-30 | 深圳大学 | 一种无人机航拍目标检测方法和装置 |
Non-Patent Citations (3)
Title |
---|
解博;朱斌;张宏伟;马旗;张扬;: "基于深度学习的梯度聚类SSD算法参数选择", 电声技术, vol. 42, no. 07, pages 72 - 80 * |
解博;朱斌;张宏伟;马旗;张扬;: "基于深度学习航拍图像检测的梯度聚类算法", 激光与光电子学进展, vol. 56, no. 06, pages 061007 - 1 * |
解博;朱斌;樊祥;张宏伟;马旗;张扬;: "基于SSD卷积网络的航拍图像目标检测方法", 光电子・激光, vol. 30, no. 04, pages 407 - 414 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543837B (zh) | 一种基于潜在目标点的可见光机场飞机检测方法 | |
Chen et al. | Vehicle detection in high-resolution aerial images via sparse representation and superpixels | |
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN109711416B (zh) | 目标识别方法、装置、计算机设备和存储介质 | |
CN106683091A (zh) | 一种基于深度卷积神经网络的目标分类及姿态检测方法 | |
CN104978567B (zh) | 基于场景分类的车辆检测方法 | |
CN105260749B (zh) | 基于方向梯度二值模式和软级联svm的实时目标检测方法 | |
CN109033950A (zh) | 基于多特征融合级联深度模型的车辆违停检测方法 | |
CN109389129A (zh) | 一种图像处理方法、电子设备及存储介质 | |
CN107563349A (zh) | 一种基于VGGNet的人数估计方法 | |
CN109685045A (zh) | 一种运动目标视频跟踪方法及系统 | |
CN110263712A (zh) | 一种基于区域候选的粗精行人检测方法 | |
Deng et al. | Cloud detection in satellite images based on natural scene statistics and gabor features | |
CN110415208A (zh) | 一种自适应目标检测方法及其装置、设备、存储介质 | |
Song et al. | A hierarchical object detection method in large-scale optical remote sensing satellite imagery using saliency detection and CNN | |
CN106650580A (zh) | 基于图像处理的货架快速清点方法 | |
CN110210418A (zh) | 一种基于信息交互和迁移学习的sar图像飞机目标检测方法 | |
An et al. | Transitive transfer learning-based anchor free rotatable detector for SAR target detection with few samples | |
CN108073940A (zh) | 一种非结构化环境中的3d目标实例物体检测的方法 | |
CN115841633A (zh) | 一种电力塔和电力线关联矫正的电力塔和电力线检测方法 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
Sun et al. | Pig detection algorithm based on sliding windows and PCA convolution | |
CN112464933A (zh) | 一种地基凝视红外成像弱小目标智能识别方法 | |
CN111832463A (zh) | 一种基于深度学习的交通标志检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |