CN111914804A - 多角度旋转遥感图像小目标检测方法 - Google Patents
多角度旋转遥感图像小目标检测方法 Download PDFInfo
- Publication number
- CN111914804A CN111914804A CN202010829461.5A CN202010829461A CN111914804A CN 111914804 A CN111914804 A CN 111914804A CN 202010829461 A CN202010829461 A CN 202010829461A CN 111914804 A CN111914804 A CN 111914804A
- Authority
- CN
- China
- Prior art keywords
- features
- target
- remote sensing
- network
- sensing image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000001629 suppression Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 230000005764 inhibitory process Effects 0.000 claims description 6
- 230000002829 reductive effect Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 23
- 238000004590 computer program Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种多角度旋转遥感图像小目标检测方法,对网络结构、损失函数分别做出了改进。采用特征金字塔网络结构并在该结构上融入了全局注意力结构作为特征提取网络。GA_FPN网络生成不同尺度的特征经过上采样把多尺度的特征统一到单一尺度再通过Merge Network对特征进一步的融合提取,使特征更具语义关联并且能够表示出小目标,然后再利用注意力机制来提高网络对特征的表达能力。之后通过RPN目标检测模块给出目标的分类得分和边框位置并采用旋转非极大值抑制(RNMS)获得任意旋转下的最终检测结果。引入多任务损失函数进行端到端的训练,使得该模型在复杂环境的遥感旋转小目标检测中具有较好的检测结果。
Description
技术领域
本申请属于卫星遥感图像检测技术领域,具体地讲,涉及一种多角度旋转遥感图像小目标检测方法。
背景技术
卫星遥感技术是应用各种传感仪器对远距离目标所辐射和发射的电磁波信息进行收集、处理并最后形成图像,是当代高新技术的一个重要组成部分,近十年来全球空间对地观测技术的发展和应用表明,卫星遥感技术是一项衡量一个国家科技发展水平的重要尺度。遥感卫星产生的遥感数据具有重要的研究及应用价值。遥感图像目标检测与识别是卫星遥感图像处理领域中最基础的任务之一。
由于遥感图像具有视野范围较大、背景复杂度高、视角特殊、目标旋转、小目标等特点,在提供更多感兴趣区域的同时带来了更复杂的背景信息,给目标检测带来了巨大挑战。传统的遥感图像目标检测方法通常是基于图像处理的方法,即先进行阈值分割、纹理/几何特征提取,然后使用模板匹配、背景建模以及基于浅层学习等方法对目标进行判断。如尺度不变特征变换(SIFT)、梯度方向直方图(HOG),以及可变形部件模型(DPM)等,都是根据人工经验设计特征的,虽然在特定的应用场景下能取得较好的检测效果,但该类方法对先验知识的依赖性强,导致检测模型的自适应性与泛化能力较差。
近年来,由于受到深度学习在自然场景图像目标检测中的成功应用的影响,许多学者尝试将深度学习方法应用于遥感图像的目标检测中,相比于传统算法大大提高了遥感目标检测的效果,但是对于遥感图像小目标检测应用效果不是很理想。由于在遥感图像中,小目标在图像上所占像素较少,经过特征提取等过程处理成更小的单元,很容易被漏检;密集场景中,各目标交叠部分较大,导致目前遥感检测网络的检测性能较低,容易在重复目标的筛选时出错;而且如果图像中各物体排列复杂,在检测时也不能很好地检测到物体排列方向。
发明内容
本申请提供了一种多角度旋转遥感图像小目标检测方法,以至少解决目前的遥感图像目标检测方法对先验知识的依赖性强,导致检测模型的自适应性与泛化能力较差且对遥感图像小目标检测效果不理想的缺陷。
根据本申请,提供了一种多角度旋转遥感图像小目标检测方法,包括:
选取ResNet101网络作为基础网络构建多尺度特征提取网络;
通过多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征;
通过合并网络对单一尺度特征进行融合提取获得目标;
通过RPN目标检测模块确定目标的分类和目标的边框位置;
采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果。
在一实施例中,多尺度特征提取网络在特征金字塔结构上融入全局注意力结构,并使用高层语义特征指导自身以ResNet101网络作为基础网络。
在一实施例中,多尺度特征提取网络在上采样阶段通过全局池化高层语义特征将全局上下文信息作为横向链接,以从下而上的路径的低层特征指导确定类别的定位细节。
在一实施例中,通过多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征,包括:
通过多尺度特征提取遥感图像数据生成不同尺度的多尺度特征;
将多尺度特征经过上采样操作统一成单一尺度特征。
在一实施例中,通过合并网络对单一尺度特征进行融合提取获得目标,包括:
利用合并网络将单一尺度特征对应的像素点位置叠加产生新的特征;
将来自不同层的新的特征合并融合从而获得目标。
在一实施例中,将来自不同层的新的特征合并融合,具体包括:
将来自不同层的新的特征与经过上采样统一到相同尺寸的特征图进行concat操作后使用通道注意力机制自动学习不同通道特征的重要程度,最后进行3×3的卷积运算减少通道数量。
在一实施例中,通道注意力机制包括MANet网络,MANet网络通过卷积运算学习两通道特征图,特征图分别表示前景和背景的高低。然后,在特征图上执行Softmax操作,输出的结果与特征图相乘,获得新的信息特征图。根据地面真实情况将二值图作为标签,然后将二值图的交叉熵损失和特征图用作注意力损失。
在一实施例中,通过RPN目标检测模块确定目标的分类和目标的边框位置,包括:
对目标感兴趣区域进行前景与背景的二分类及目标感兴趣区域坐标回归训练,使RPN网络中的权重学习到预测目标区域的能力;
利用训练后的RPN网络确定目标的分类和目标的边框位置。
在一实施例中,采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果,包括:
采用偏斜IoU计算的方法,将旋转非极大值抑制作为基于偏斜IoU计算的后处理操作获得旋转边界框的回归:
tx=(x-xa)/wa,ty=(y-ya)/ha,
tw=log(w/wa),th=log(h/ha),tθ=θ-θa
其中x,y,w,h和θ分别表示框的中心坐标,宽度,高度和角度。变量x,xa和x*分别用于地面真实框,锚点框和预测框;
根据旋转边界框获得遥感图像数据任意旋转角度下的最终检测结果。
在一实施例中,多角度旋转遥感图像小目标检测方法还包括:将旋转非极大值抑制中的多任务损失函数进行修改及训练。
本申请提供的多角度旋转遥感图像小目标检测网络将全局注意力机制融入特征金字塔网络,构建了多特征提取网络模块并将其运用在遥感图像检测中,而且提出“合并网络”结构,将来自不同层的特征合并融合。相比于其他现有网络可以对遥感图像中复杂场景下的多角度旋转的小目标进行更加精准的检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种多角度旋转遥感图像小目标检测方法流程图。
图2为本申请实施例中MARNet网络结构图。
图3为本申请实施例中特征金字塔网络结构图。
图4为本申请实施例中GA_FPN模型结构图。
图5为本申请实施例中MergeNet网络结构图。
图6为本申请实施例中SUM原理示意图及Concat原理示意图。
图7为本申请实施例中多尺度注意力机制效果图。
图8为本申请实施例中MANET网络结构图。
图9为本申请实施例中多尺度注意力机制示意图。
图10为本申请实施例中RPN网络结构图。
图11为本申请实施例中旋转框示意图。
图12为本申请实施例中一种电子设备的具体实施方式。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决背景技术中所存在的问题,本申请提供了一种多角度旋转遥感图像小目标检测方法,如图1所示,包括:
S101:选取ResNet101网络作为基础网络构建多尺度特征提取网络。
在一实施例中,多尺度特征提取网络在特征金字塔结构上融入全局注意力结构,并使用高层语义特征指导自身以ResNet101网络作为基础网络。多尺度特征提取网络在上采样阶段通过全局池化高层语义特征将全局上下文信息作为横向链接,以从下而上的路径的低层特征指导确定类别的定位细节。
S102:通过多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征。
在一实施例中,通过多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征,包括:
通过多尺度特征提取遥感图像数据生成不同尺度的多尺度特征;
将多尺度特征经过上采样操作统一成单一尺度特征。
S103:通过合并网络对单一尺度特征进行融合提取获得目标。
在一实施例中,通过合并网络对单一尺度特征进行融合提取获得目标,包括:
利用合并网络将单一尺度特征对应的像素点位置叠加产生新的特征;
将来自不同层的新的特征合并融合从而获得目标。
在一实施例中,将来自不同层的新的特征合并融合,具体包括:
将来自不同层的新的特征与经过上采样统一到相同尺寸的特征图进行concat操作后使用通道注意力机制自动学习不同通道特征的重要程度,最后进行3×3的卷积运算减少通道数量。
在一实施例中,通道注意力机制包括MANet网络,MANet网络通过卷积运算学习两通道特征图,特征图分别表示前景和背景的高低。然后,在特征图上执行Softmax操作,输出的结果与特征图相乘,获得新的信息特征图。根据地面真实情况将二值图作为标签,然后将二值图的交叉熵损失和特征图用作注意力损失。
S104:通过RPN目标检测模块确定目标的分类和目标的边框位置。
在一实施例中,通过RPN目标检测模块确定目标的分类和目标的边框位置,包括:
对目标感兴趣区域进行前景与背景的二分类及目标感兴趣区域坐标回归训练,使RPN网络中的权重学习到预测目标区域的能力;
利用训练后的RPN网络确定目标的分类和目标的边框位置。
S105:采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果。
在一实施例中,采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果,包括:
采用偏斜IoU计算的方法,将旋转非极大值抑制作为基于偏斜IoU计算的后处理操作获得旋转边界框的回归:
tx=(x-xa)/wa,ty=(y-ya)/ha,
tw=log(w/wa),th=log(h/ha),tθ=θ-θa
其中x,y,w,h和θ分别表示框的中心坐标,宽度,高度和角度。变量x,xa和x*分别用于地面真实框,锚点框和预测框;
根据旋转边界框获得遥感图像数据任意旋转角度下的最终检测结果。
在一实施例中,多角度旋转遥感图像小目标检测方法还包括:将旋转非极大值抑制中的多任务损失函数进行修改及训练。
下面列举一个具体的实施例来详细说明本方法的具体步骤及细节:
一种多角度旋转遥感图像小目标检测方法,其整体步骤如下:
步骤1:采用DOTA数据集进行航空影像中的物体检测。它包含来自不同传感器和平台的2,806张航拍图像。图像大小范围从800×800到4000×4000像素,并且包含显示各种比例,方向和形状的对象。数据集共标注了188282个目标位置信息,每个实例都标有任意四边形。目标类别为15类:飞机、船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、大型车辆、小型车辆、直升机、环岛、足球场和游泳池。
使用构建的MARNet进行训练,MARNet构建过程见如下步骤2-15:
步骤2:采用特征金字塔结构,特征金字塔使用1x1的卷积可有效地降低中间层次的通道数目,生成较好的输出特征,如图3所示。
步骤3:为了使下采样过程中避免小目标丢失,算法在该结构上融入了全局注意力结构(Global Attention,GA)构造了一种新的多尺度特征提取网络(GA_FPN)作为特征提取网络。使用高层语义特征来指导GA_FPN以Resnet101作为基础网络,从主干中选取残差块{C2,C3,C4}作为基础层级结构。在上采样阶段通过全局池化高层语义特征将全局上下文信息作为横向连接从下而上的路径的低层特征的指导来选择类别的定位细节并降低上采样过程中小目标像素丢失或难以恢复的问题。具体过程见步骤3到5,如图4所示,本文实验的GA_FPN使用了C2、C3、C4三个残差块来形成三个尺度的特征(P2-P4):
步骤3:对低层次特征执行3×3的卷积操作,减少CNN特征图的通道数。
步骤4:从高层次特征生成的全局上下文信息经过全局池化,然后再与低层次特征相乘。
步骤5:最后,高层次特征经过上采样操作与加权后的低层次特征相加得出低层次的特征表达。
步骤6:在融入GA_FPN模块之后,提出了合并网络(MergeNet网络)结构,在该网络结构中,由GA_FPN产生的跨连接构成了多尺度特征,把多尺度特征经过上采样操作统一成相同尺度的特征,再把特征对应像素点位置相加,产生新的特征,然后将来自不同层的特征合并融合,从而更好的表达不同尺度之间的语义关系,融合后的特征再经过通道注意力操作,这样的单元结构就构成了MergeNet网络结构。MergeNet网络结构如图5。MergeNet网络结构内部过程具体见步骤7-10:
步骤7:首先,由GA_FPN产生的多尺度特征经过上采样使特征图的高度和宽度都统一到相同大小,然后把这些特征图经过sum操作公式如下。将对应通道矩阵元素相加,形成新的语义特征如图6(左侧)。
其中N表示的是不同尺度的个数,Xi是一个三维的数据(长,宽,通道数),表示第i个尺度。
步骤8:经过sum产生的新的特征与经过上采样统一到相同尺寸的特征图进行concat操作(如图6右侧),将sum之后产生的新的特征和原来的组合在一起,使低层次和高层次的特征进行按通道维度进行合并。
步骤9:然后再使用通道注意力机制SENet自动学习到不同通道特征的重要程度,让模型可以更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。
步骤10:最后,进行3×3的卷积运算改变通道数减少RPN网络的计算量。
步骤11:由于遥感图像数据的复杂性,通过RPN之后的预测可能会引入大量的噪声信息。过多的噪声会使对象信息不清晰,对象之间的边界将变得模糊(图7中a),从而导致增加漏检和误报的可能性。因此,需要增强目标对象的特征信息同时削弱非目标对象的特征信息。为了更有效地捕捉复杂背景下的小目标,此处设计了MANet注意力网络。如图8,具体见步骤12-14。
步骤12:特征图通过具有不同比率卷积核的初始结构如图9所示,然后通过卷积运算学习两通道特征图(图7中b)。
步骤13:特征图分别表示前景和背景的高低。然后,在特征图上执行Softmax操作,输出的结果与特征图相乘如图7中c所示,获得新的信息特征图。
步骤14:根据地面真实情况将二值图作为标签(如图7d所示),然后将二值图的交叉熵损失和特征图用作注意力损失。
步骤15:RPN网络用于提取目标感兴趣区域,生成的目标感兴趣区域用于架构的目标检测与识别的训练与测试。对目标感兴趣区域进行前景与背景的二分类及目标感兴趣区域坐标回归训练,使RPN网络中的权重学习到预测目标区域的能力。为了充分利用预训练权重ResNet,用C5块和全局平均池(GAP)替换了两个完全连接的层fc6和fc7如图10所示。
使用五个参数(x,y,w,h,θ)表示面向任意方向的矩形。在[-π/2,0)范围内,旋转角度θ是水平轴(x轴)逆时针旋转,与碰到的矩形的第一条边的夹角,即θ为与x轴的锐角,并且这个边的边长是w,另一条边边长是h,与OpenCV中,坐标系原点在左上角,相对于x轴,逆时针旋转角度为负,顺时针旋转角度为正保持一致。如图11,其中蓝色为候选框,绿色为地面真实框,红色为预测框。但是轴对齐边界框上的IoU计算可能会导致倾斜交互式边界框的IoU不正确,从而对边界框的预测产生影响。因此采用偏斜IoU计算的方法,将旋转非最大抑制(R-NMS)作为基于偏斜IoU计算的后处理操作。旋转边界框的回归为:
tx=(x-xa)/wa,ty=(y-ya)/ha,
tw=log(w/wa),th=log(h/ha),tθ=θ-θa
其中x,y,w,h和θ分别表示框的中心坐标,宽度,高度和角度。变量x,xa和x*分别用于地面真实框,锚点框和预测框。
步骤16:使用预训练的ResNet-101模型作为基础网络进行初始化。训练阶段模型进行了400k次迭代训练,设置学习率在从3e-4到3e-6之间发生变化。锚点的尺寸设置为[0.0625,0.125,0.25,0.5,1.0,2.0],锚点比率设置为[1,1/2,2,1/3,3,5,1/4,4,1/5,6,1/6,7,1/7,9,1/9],ROI尺度设置为[10,10,5,5,10],权重衰减系数为0.0001,训练的批处理设置为1。
在实际的遥感数据中,图像背景复杂现象普遍存在,然而,极端的影像环境将会导致网络训练过程中正样本在数据中占比较少,从而使网络训练效率降低,网络得不到充分的学习,严重制约了检测网络在遥感目标检测任务中的检测性能。为此,此处引入了多任务损失函数进行端到端的训练,损失函数定义如下:
其中Li是对象的类别标签,Pi是通过softmax函数计算出来的类别概率,t为边框回归输出参数(tx,ty,tw,th,θ),t*真实边框参数y表示对象的真实标签,y*表示预测标签。Ncls为批量尺度,Nreg为锚点框数量。实验设置λ1=4,λ2=2,λ3=1,λ4=1为权重参数。分类损失Lcls是多分类交叉熵损失函数,Lreg为smoothL1定义的回归损失,Lattr是多尺度注意力机制的多分类交叉熵损失,Ldency为均方差损失。
其中Pi为真实类别标签,Li为预测标签。
Lreg(t,t*)=SmoothL1(t-t*)
si是softmax的输出向量s的第i个值,表示是这个样本属于第i个类别的概率,i表示类别的序号,yi表示真实类别标签。
Ldency为L2范数损失函数也被称为最小平方误差,目的是最小化真实值和预测值的差值公式如下:
其中Yi是真实值,f(xi)为预测值。
MARNet对DOTA数据集中15类物体的检测整体显示出较好的结果,所提方法能够同时对多类多尺度目标进行准确检测。对于高分辨率光学遥感图像中的飞机、舰船、油罐等排布相对密集的小目标,以及车辆和网球场等包含复杂背景的目标,所提方法均能给出准确的检测结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图12,所述电子设备具体包括如下内容:
处理器(processor)1201、内存1202、通信接口(Communications Interface)1203、总线1204和非易失性存储器1205;
其中,所述处理器1201、内存1202、通信接口1203通过所述总线1204完成相互间的通信;
所述处理器1201用于调用所述内存1202和非易失性存储器1205中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:选取ResNet101网络作为基础网络构建多尺度特征提取网络。
S102:通过多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征。
S103:通过合并网络对单一尺度特征进行融合提取获得目标。
S104:通过RPN目标检测模块确定目标的分类和目标的边框位置。
S105:采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:选取ResNet101网络作为基础网络构建多尺度特征提取网络。
S102:通过多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征。
S103:通过合并网络对单一尺度特征进行融合提取获得目标。
S104:通过RPN目标检测模块确定目标的分类和目标的边框位置。
S105:采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。
在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (10)
1.一种多角度旋转遥感图像小目标检测方法,其特征在于,包括:
选取ResNet101网络作为基础网络构建多尺度特征提取网络;
通过所述多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征;
通过合并网络对所述单一尺度特征进行融合提取获得目标;
通过RPN目标检测模块确定所述目标的分类和目标的边框位置;
采用旋转非极大值抑制获得遥感图像数据任意旋转角度下的最终检测结果。
2.根据权利要求1所述的多角度旋转遥感图像小目标检测方法,其特征在于,所述多尺度特征提取网络在特征金字塔结构上融入全局注意力结构,并使用高层语义特征指导自身以所述ResNet101网络作为基础网络。
3.根据权利要求1所述的多角度旋转遥感图像小目标检测方法,其特征在于,所述多尺度特征提取网络在上采样阶段通过全局池化高层语义特征将全局上下文信息作为横向链接,以从下而上的路径的低层特征指导确定类别的定位细节。
4.根据权利要求1所述的多角度旋转遥感图像小目标检测方法,其特征在于,通过所述多尺度特征提取遥感图像数据生成不同尺度的特征后统一成单一尺度特征,包括:
通过所述多尺度特征提取遥感图像数据生成不同尺度的多尺度特征;
将所述多尺度特征经过上采样操作统一成单一尺度特征。
5.根据权利要求1所述的多角度旋转遥感图像小目标检测方法,其特征在于,通过合并网络对所述单一尺度特征进行融合提取获得目标,包括:
利用所述合并网络将所述单一尺度特征对应的像素点位置叠加产生新的特征;
将来自不同层的新的特征合并融合从而获得目标。
6.根据权利要求5所述的多角度旋转遥感图像小目标检测方法,其特征在于,将来自不同层的新的特征合并融合,具体包括:
将来自不同层的新的特征与经过上采样统一到相同尺寸的特征图进行concat操作后使用通道注意力机制自动学习不同通道特征的重要程度,最后进行3×3的卷积运算减少通道数量。
7.根据权利要求6所述的多角度旋转遥感图像小目标检测方法,其特征在于,所述通道注意力机制包括MANet网络,所述MANet网络通过卷积运算学习两通道特征图,特征图分别表示前景和背景的高低。然后,在特征图上执行Softmax操作,输出的结果与特征图相乘,获得新的信息特征图。根据地面真实情况将二值图作为标签,然后将二值图的交叉熵损失和特征图用作注意力损失。
8.根据权利要求1所述的多角度旋转遥感图像小目标检测方法,其特征在于,通过RPN目标检测模块确定所述目标的分类和目标的边框位置,包括:
对目标感兴趣区域进行前景与背景的二分类及目标感兴趣区域坐标回归训练,使RPN网络中的权重学习到预测目标区域的能力;
利用训练后的RPN网络确定所述目标的分类和目标的边框位置。
10.根据权利要求9所述的多角度旋转遥感图像小目标检测方法,其特征在于,还包括:将旋转非极大值抑制中的多任务损失函数进行修改及训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829461.5A CN111914804A (zh) | 2020-08-18 | 2020-08-18 | 多角度旋转遥感图像小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829461.5A CN111914804A (zh) | 2020-08-18 | 2020-08-18 | 多角度旋转遥感图像小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914804A true CN111914804A (zh) | 2020-11-10 |
Family
ID=73278203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010829461.5A Pending CN111914804A (zh) | 2020-08-18 | 2020-08-18 | 多角度旋转遥感图像小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914804A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446378A (zh) * | 2020-11-30 | 2021-03-05 | 展讯通信(上海)有限公司 | 目标检测方法及装置、存储介质、终端 |
CN112488999A (zh) * | 2020-11-19 | 2021-03-12 | 特斯联科技集团有限公司 | 一种图像中小目标检测方法、系统、存储介质及终端 |
CN112926480A (zh) * | 2021-03-05 | 2021-06-08 | 山东大学 | 一种面向多尺度、多朝向的航拍物体检测方法及系统 |
CN113158789A (zh) * | 2021-03-15 | 2021-07-23 | 华南理工大学 | 一种遥感图像的目标检测方法、系统、装置及介质 |
CN113408549A (zh) * | 2021-07-14 | 2021-09-17 | 西安电子科技大学 | 基于模板匹配和注意力机制的少样本弱小目标检测方法 |
CN113506293A (zh) * | 2021-09-08 | 2021-10-15 | 成都数联云算科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
-
2020
- 2020-08-18 CN CN202010829461.5A patent/CN111914804A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
Non-Patent Citations (1)
Title |
---|
XUE YANG 等: "SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects", 《HTTPS://ARXIV.ORG/ABS/1811.07126》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488999A (zh) * | 2020-11-19 | 2021-03-12 | 特斯联科技集团有限公司 | 一种图像中小目标检测方法、系统、存储介质及终端 |
CN112488999B (zh) * | 2020-11-19 | 2024-04-05 | 特斯联科技集团有限公司 | 一种图像中小目标检测方法、系统、存储介质及终端 |
CN112446378A (zh) * | 2020-11-30 | 2021-03-05 | 展讯通信(上海)有限公司 | 目标检测方法及装置、存储介质、终端 |
CN112926480A (zh) * | 2021-03-05 | 2021-06-08 | 山东大学 | 一种面向多尺度、多朝向的航拍物体检测方法及系统 |
CN113158789A (zh) * | 2021-03-15 | 2021-07-23 | 华南理工大学 | 一种遥感图像的目标检测方法、系统、装置及介质 |
CN113158789B (zh) * | 2021-03-15 | 2023-08-25 | 华南理工大学 | 一种遥感图像的目标检测方法、系统、装置及介质 |
CN113408549A (zh) * | 2021-07-14 | 2021-09-17 | 西安电子科技大学 | 基于模板匹配和注意力机制的少样本弱小目标检测方法 |
CN113408549B (zh) * | 2021-07-14 | 2023-01-24 | 西安电子科技大学 | 基于模板匹配和注意力机制的少样本弱小目标检测方法 |
CN113506293A (zh) * | 2021-09-08 | 2021-10-15 | 成都数联云算科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914804A (zh) | 多角度旋转遥感图像小目标检测方法 | |
CN113298818B (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN110276269B (zh) | 一种基于注意力机制的遥感图像目标检测方法 | |
KR20210002104A (ko) | 목표 검출 및 목표 검출 네트워크의 훈련 | |
CN112560671B (zh) | 基于旋转卷积神经网络的船舶检测方法 | |
Xu et al. | Scale-aware feature pyramid architecture for marine object detection | |
CN109325504A (zh) | 一种水下海参识别方法及系统 | |
CN109977997B (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
Henderson et al. | Unsupervised object-centric video generation and decomposition in 3D | |
CN110309808B (zh) | 一种大范围尺度空间下的自适应烟雾根节点检测方法 | |
CN109214319A (zh) | 一种水下图像目标检测方法及系统 | |
CN111626176A (zh) | 一种遥感图像的地物目标检测方法及系统 | |
CN113449784B (zh) | 基于先验属性图谱的图像多分类方法、装置、设备及介质 | |
Chen et al. | A degraded reconstruction enhancement-based method for tiny ship detection in remote sensing images with a new large-scale dataset | |
Jiang et al. | Joint variation learning of fusion and difference features for change detection in remote sensing images | |
CN114926511A (zh) | 一种基于自监督学习的高分辨率遥感影像变化检测方法 | |
CN115439442A (zh) | 基于共性和差异的工业品表面缺陷检测与定位方法及系统 | |
Moreno et al. | Image segmentation on spherical coordinate representation of RGB colour space | |
CN116385896A (zh) | 一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 | |
CN113158789A (zh) | 一种遥感图像的目标检测方法、系统、装置及介质 | |
US20230281830A1 (en) | Optical flow techniques and systems for accurate identification and tracking of moving objects | |
CN114119610A (zh) | 基于旋转目标检测的缺陷检测方法 | |
CN113516053A (zh) | 一种具有旋转不变性的舰船目标精细化检测方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201110 |
|
RJ01 | Rejection of invention patent application after publication |