CN113158789B - 一种遥感图像的目标检测方法、系统、装置及介质 - Google Patents
一种遥感图像的目标检测方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN113158789B CN113158789B CN202110275351.3A CN202110275351A CN113158789B CN 113158789 B CN113158789 B CN 113158789B CN 202110275351 A CN202110275351 A CN 202110275351A CN 113158789 B CN113158789 B CN 113158789B
- Authority
- CN
- China
- Prior art keywords
- feature
- detection
- features
- stage
- adopting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 10
- 230000035945 sensitivity Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 7
- 230000010485 coping Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种遥感图像的目标检测方法、系统、装置及介质,其中方法包括以下步骤:获取待检测图片,对所述待检测图片进行特征提取,获得带有检测框的特征图;将所述特征图输入两级级联的检测网络,在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,使所述检测框带有角度参数;在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,获得最终的检测框,实现目标检测。本发明无需在区域提取网络阶段生成额外的多种朝向的候选框,而是提取多个不同方向的特征,计算量相对来说没有增长,同时获取的方向敏感特征对于回归分支有着比较好的增益效果,提升了模型的整体表现,可广泛应用于图像处理技术领域。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种遥感图像的目标检测方法、系统、装置及介质。
背景技术
遥感技术的飞速发展为我国社会的发展带来了极大的便利,不管是在军事上还是在农业上,遥感技术都有着广泛的应用,如监察军事、土地资源普查、土地植被分类等。目标检测作为图像分析中的一项重要任务,在实现对遥感图像的智能化分析有着举足轻重的作用。近年来随着深度神经网络的出现,许多表现良好的目标检测方法也应运而生,不同于传统图像,遥感图像中检测目标有着密集分布、方向任意、尺度差异大等特性,使得一些现有的目标检测方法表现不佳。因此,需要一种能够良好的应对这些特性并且对于各种尺度还有长宽比目标检测精度不差的遥感图像目标检测算法。
由于深度学习方法的优良特征表示,现阶段应用比较广泛的方法大都基于深度学习,有文献提出了一种在区域提取网络中生成带有角度的候选框来应对遥感图像中目标的方向任意特性,该方法首先采用深度卷积神经网络提取遥感图像中的高级特征,之后在区域提取网络中,除了一般的目标检测方法生成不同尺度和长宽比的候选框之外,还额外生成了多种不同朝向的候选框,然后进行候选框筛选,最后对筛选出的候选框进行分类和回归的训练过程,得到最终模型。该方法在区域提取网络中生成多种不同朝向的候选框,所需的计算量相较之前成倍数增长,效率不佳。
还有文献提出了一种预测水平框的顶点偏移来定位遥感图像中目标的位置,该方法在回归分支分别预测了水平框的位置以及定向框顶点相对于水平框的偏移量,以此来定位定向框的4个顶点的位置。这种方法所依赖的特性是水平框是作为定向框的外接矩形存在,定向框的4个顶点的位置分别在水平框的4条边长上。该方法可以在一些小长宽比和较大目标上有比较良好的表现,但是由于训练过程对于损失函数各组成部分定义比较模糊,也具有一定的局限性。
术语解释
RoI Align:感兴趣区域对齐,一种特征池化方式,从感兴趣区域框获取固定尺寸的特征图用于分类和回归分支。
ResNet+FPN:ResNet是残差神经网络,FPN是特征金字塔网络,可以从输入图像中提取多尺度特征。
Faster RCNN:Faster RCNN是一种应用广泛的基于区域提取的目标检测方法。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种遥感图像的目标检测方法、系统、装置及介质。
本发明所采用的技术方案是:
一种遥感图像的目标检测方法,包括以下步骤:
获取待检测图片,对所述待检测图片进行特征提取,获得带有检测框的特征图;
将所述特征图输入两级级联的检测网络,在第一级检测结构中采用多方向RoIAlign获取所述特征图的方向敏感特征,使所述检测框带有角度参数;
在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,获得最终的检测框,实现目标检测;
其中,目标检测方法中采用的损失函数带有惩罚项,该惩罚项用于应对不同长宽比目标对于角度偏移的敏感差异。
进一步,所述损失函数的表达式为:
Lreg=LSmoothL1loss+|tθ-t′θ|*(ln r-0.5)
其中,r表示的是长宽比的值,N1和N2分别表示两个级联结构中的筛选出来的预选框数量,s′n是一个二进制值,|tθ-t′θ|*(ln r-0.5)为惩罚项。
进一步,所述对所述待检测图片进行特征提取,获得带有检测框的特征图,包括:
采用ResNet+FPN作为Faster RCNN的主干网络,提取所述待检测图片的特征,获得带有检测框的特征图;
其中,以ResNet作为特征提取网络,采用特征金字塔结构提取多尺度特征。
进一步,所述在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,包括:
对所述特征图中的检测框进行特征提取,采用N个预定义的角度对所述检测框进行旋转,得到N个不同方向的检测框以及对应的特征图;
采用RoI Align对N个方向的特征图进行特征提取,获得方向敏感特征;
在分类分支中,对所述方向敏感特征在每个方向上取平均值得到方向不变特征,用于检测目标的分类;
在回归分支中,设计方向注意力模块获取每个方向上的特征表示来强化方向敏感特征。
进一步,所述采用RoI Align对N个方向的特征图进行特征提取,获得方向敏感特征,包括:
采用RoI Align对每个方向的特征图进行特征提取后,输出的特征图的大小为K×K×C,其中,K×K表示把每一个检测框分成的单元格数目;
获取每一个单元格索引(i,j)(0≤i,j<K)的输出特征:
其中,其中代表中间输出特征K×K×C其中一维,sij代表每个单元格中的采样点数目,对于每一个检测框上的采样点坐标(xh,yh),根据旋转的角度/>将其转换为对应的旋转后的检测框上的坐标(xr,yr),转换关系为:
根据转换后的坐标获得方向敏感特征。
进一步,在分类分支中,通过以下公式获取平均值:
在在回归分支中,最终得到的方向敏感特征的表达式为:
其中σ表示Sigmoid激活函数,δ表示ReLU激活函数,W1是维度下降全连接层,维度下降率为r,W2是维度升高全连接层,最后输出的特征由输入特征和每个方向通道的权重值相乘得到。
进一步,所述在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,包括:
采用3个并行的可形变卷积获取不同尺度大小的位置偏移特征,该三个可形变卷积的卷积核大小为3×3、步长为1、扩张率分别为1、2、和3;
将不同尺度的位置偏移特征按通道维度拼接在一起,依次通过一层卷积核大小为1×1的卷积层、非线性激活层,输出得到和输入特征通道数目相同的特征,用于第二级检测结构的回归和分类。
本发明所采用的另一技术方案是:
一种遥感图像的目标检测系统,包括:
特征提取模块,用于获取待检测图片,对所述待检测图片进行特征提取,获得带有检测框的特征图;
角度旋转模块,将所述特征图输入两级级联的检测网络,在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,使所述检测框带有角度参数;
特征对齐模块,用于在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,获得最终的检测框,实现目标检测;
其中,目标检测方法中采用的损失函数带有惩罚项,该惩罚项用于应对不同长宽比目标对于角度偏移的敏感差异。
本发明所采用的另一技术方案是:
一种遥感图像的目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明无需在区域提取网络阶段生成额外的多种朝向的候选框,而是提取多个不同方向的特征,计算量相对来说没有增长,同时获取的方向敏感特征对于回归分支有着比较好的增益效果,提升了模型的整体表现。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种遥感图像的目标检测方法的框架示意图;
图2是本发明实施例中多方向RoI Align的流程示意图;
图3是本发明实施例中多分支形变卷积结构的设计实施图;
图4是本发明实施例中不同长宽比目标对角度偏移的敏感差异图;
图5是本发明实施例中基于一种遥感图像的目标检测方法在DOTA数据集上的实验结果示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
本实施例提供一种遥感图像的目标检测方法,包括以下步骤:
S100、采用ResNet+FPN作为Faster RCNN的主干网络,对所述待检测图片进行特征提取,获得带有检测框的特征图;在回归分支的输出项添加额外的角度参数,以适应遥感图像中目标的多方向特性。
如图1所示,本实施例以ResNet作为特征提取网络,FPN结构提取多尺度特征,由于遥感图像中目标密集分布并且方向任意,对提取到的特征进行回归时添加了角度参数。一般的目标检测方法如Faster RCNN的回归分支的输出为(x,y,w,h),在本实施例中回归分支的输出为(x,y,w,h,θ),θ表示长边和x轴方向的夹角,以此得到目标中心点、目标尺寸以及目标朝向角度来确定遥感图像中的目标检测框。如图2(a)所示,对遥感图像进行特征提取,其中,黄色的检测框是数据集中标注的水平框,红色的检测框是数据集中标注的有方向框,绿色的是RPN网络中初步得到的候选区域。
S200、设计实现了两级级联的检测网络,在第一级检测结构中采用了多方向RoIAlign获取方向敏感特征,再采用方向注意力模块量化各个方向上的贡献,以增强方向敏感表示。
如图2(b)所示,在本实施例中考虑到RPN中得到的水平RoIs(感兴趣区域,也即检测框)相对于真实水平框有一定的偏移,而且在密集分布时水平RoIs的特征容易被相邻的同一类别实例特征所干扰,所以对RPN得到的每个RoIs进行特征提取时,使用了N(默认为8)个预定义的角度对该RoIs进行旋转,得到N个不同朝向的RoIs,如图2(c)所示,然后再采用RoIAlign对N个方向的特征进行提取得到方向敏感特征,在分类分支对方向敏感特征在每个方向上取平均值得到方向不变特征用于分类,在回归分支设计方向注意力模块获取每个方向上的特征表示来强化方向敏感特征。
具体地,在第一级检测结构中,对于大小为H×W×C的输入特征图和一个RoI(x,y,w,h),其中(x,y)表示RoI的中心点坐标,(w,h)表示RoI的长和宽,首先使用N(通常为8)个预定义的角度对RoI进行旋转得到N个不同方向的RoI,然后采用RoIAlign分别提取每个方向上的特征,输出的特征图大小为K×K×C,K×K表示我们把每一个RoI分成的单元格数目,如图2(d)所示,这样的话每一个单元格索引(i,j)(0≤i,j<K)的输出特征可以由此得到:
其中是中间输出特征K×K×C其中一维,sij是每个单元格中的采样点数目,对于每一个RoI上的采样点坐标(xh,yh),根据旋转的角度/>将其转换为对应的旋转后的RoI上的坐标(xr,yr),转换关系为:
以此得到不同方向的方向敏感特征之后,在本实施例中考虑到分类任务和回顾任务之间的差异,所需特征并不需要对方向敏感,在分类分支对于每个方向上的特征取平均值获取方向不变性特征作为输入:
在回归分支,采用了方向注意力模块来对方向敏感特征做进一步处理。本实施例首先将提取的N个方向上的特征以每个方向为单位分为N组,通过一层卷积核大小和输入特征尺度大小一样的组卷积层获取每个方向上的特征表示,之后经过两层全连接层(降维再升维)和非线性激活层输出得到每个方向的特征权重,最后将输入特征与特征权重相乘作为回归分支层的输入特征进行目标检测框的回归,最后得到的特征表示为:
其中σ表示Sigmoid激活函数,δ表示ReLU激活函数,W1是维度下降全连接层,维度下降率为r(r默认为16),W2是维度升高全连接层,最后的模块输出由输入特征和每个方向通道的权重值相乘得到。
S300、在第二级检测结构使用多分支形变卷积模块自适应的进行特征对齐,缓解由于特征点位置偏移带来的特征不匹配问题。
如图3中所示,在本实施例中,对于输入到第二级检测结构中的特征图,先通过3个并行的卷积核大小为3×3、步长为1、扩张率分别为1,2,和3的可形变卷积结构获取不同尺度大小的位置偏移特征,之后将不同尺度的偏移特征按通道维度拼接在一起,最后再通过一层卷积核大小为1×1的卷积层、非线性激活层输出得到和输入特征通道数目相同的特征用于第二级检测结构的回归和分类。
S400、在两级检测结构中设计了基于检测目标长宽比的损失函数,以提高检测遥感图像中大长宽比目标的精度。
如图4中所示,图4(a)和图4(b)中的两个矩形框有着同样的中心点坐标,长和宽,唯一的不同在于角度值,并且图4(a)的图4(b)之间的两个矩形框之间的角度偏移是相同的,这样的情况下用一般的损失函数所计算出的角度偏移的损失是一样的,但是图4(a)和图4(b)两个矩形框之间的IOU非常不一样,大长宽比的目标的IOU很小以至于在检测过程中会被漏检掉,而小长宽比的目标的IOU值较大并且能够被检测到,所以本实施例中在回归分支的损失函数设计中,在原有的计算模型预测的中心点坐标、长、宽和角度与真实值之间的误差以外,考虑到以往模型对于不同的长宽比目标检测效果的差异性,添加了一项对于预测角度差异的惩罚项,给大长宽比目标较大的惩罚,而给小长宽比目标较小的惩罚。
具体地,有方向的检测框的回归表示为:
tx=(xg-xa)/wa,ty=(yg-ya)/ha
tw=log(wg/wa),th=log(hg/ha),tθ=θg-θat′x=(xp-xa)/wa,t′y=(yp-ya)/ha
t′w=log(wp/wa),t′h=log(hp/ha),t′θ=θp-θa
其中(x,y,w,h,θ)表示回归框的中心点坐标、长、宽以及角度变量,xg,xa和xp分别表示真实框、预选框和预测框,传统的smooth L1损失函数表示为:
在本实施例中,对于回归分支的损失函数设计中,在smooth L1损失函数的基础上,额外添加了一项惩罚项,用来应对不同长宽比目标对于角度偏移的敏感差异,具体的损失函数定义为:
Lreg=LSmoothL1loss+|tθ-t′θ|*(ln r-0.5)
其中r表示的是长宽比的值,因此整个网络结构的损失函数组成为:
N1和N2分别表示两个级联结构中的筛选出来的预选框数量,s′n是一个二进制值(对于目标来说s′n=1,对于背景来说s′n=0,也就是说背景不会计算回归损失)。
S500、训练和检测时将给定的遥感图像裁剪成固定大小的单位图像输入到改进的两级级联Faster RCNN框架,待检测图像的检测结果由各个单位图像的检测结果通过边缘拼接合并而成。
对于给定的遥感图像数据,一些尺寸比较大或小的图像不直接进行训练或检测,首先将尺寸大的图像先以200个像素重合的条件裁剪成1024×1024固定大小的单位图像,尺寸小的图像对像素点补零同样到1024×1024大小进行训练,得到训练好的两级级联Faster RCNN框架,在检测阶段,同样对图像进行上述处理,尺寸大的图像的最终检测结果由各个单位图像的检测结果合并而成。
为了验证本发明提出方法的有效性,采用DOTA数据集进行了实验,DOTA数据集总共有2806张图片,包含了15个类别和188282个实例,15个类别分别是Plane (PL),Baseballdiamond(BD),Bridge(BR),Ground track field(GTF),Small vehicle(SV),Largevehicle(LV),Ship(SH),Tennis court(TC),Basketball court(BC),Storage tank(ST),Soccer-ballfield(SBF),Roundabout(RA),Harbor(HA),Swimming pool(SP),andHelicopter(HC),差不多有一半的数据集作为训练集,1/6的作为验证集以及1/3的数据集作为测试集,在实验过程中把训练集和验证集都用来训练,对于尺度较大的图像一律切割为1024×1024大小的子图像,不足1024×1024的图像一律进行像素点补零,在训练时对图像做了随机水平翻转来防止过拟合,在测试时将所有子图像的检测结果通过边缘拼接合并在一起。
在本实施例中,实验运行环境ubuntu16.04,以pytorch1.4.0为框架,计算平台配置为GeForceRTX2080Ti,使用添加惩罚项的损失函数进行训练,采用SGD优化器,batch_size为2,总共训练了12epochs,初始学习率为0.0025,在每一个衰减点位置会进行10倍的学习率衰减。
表1展示了本发明算法各个改进模块相对于baseline算法的增益效果,其中RHD表示的是多方向RoIAlign和方向注意力模块的应用,该模块相较于baseline算法总的来说有3.76%mAP的提升,DIM表示的是多分支形变卷积结构,带来的提升约为0.38%mAP,AR-LOSS表示的是在smoothL1损失函数上添加了角度偏移惩罚项,带来的提升效果有0.81%mAP,Both表示的是将以上所有改进模块添加在一起,总的检测效果提升了4.42%,达到了74.37%mAP。
表1本发明算法各个改进模块的实验精度
图5展示了本发明算法与本发明算法所基于的baseline算法在DOTA数据集上的实验结果对比,可以看出本发明算法的整体检测效果明显会好于baseline算法,尤其是对于一些密集分布的目标如SV、LV和SH,大长宽比的目标如BR和RA,在对一些方向任意分布的目标框检测上也可以达到比baseline算法更吻合真实框的效果。
综上所述,本实施例相对于现有技术,具有如下有益效果:
1、本实施例不需要在区域提取网络阶段生成额外的多种朝向的候选框,而是在池化阶段提取多个不同方向的特征,计算量相对来说几乎没有增长,同时获取的方向敏感特征对于回归分支有着比较好的增益效果,提升了模型的整体表现。
2、本实施例在训练过程中更加关注角度偏移量对于不同长宽比目标检测的重要性,在没有产生额外计算量的情况下提升了模型对于大长宽比目标的检测表现。
本实施例还提供一种遥感图像的目标检测系统,包括:
特征提取模块,用于获取待检测图片,对所述待检测图片进行特征提取,获得带有检测框的特征图;
角度旋转模块,将所述特征图输入两级级联的检测网络,在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,使所述检测框带有角度参数;
特征对齐模块,用于在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,获得最终的检测框,实现目标检测;
其中,目标检测方法中采用的损失函数带有惩罚项,该惩罚项用于应对不同长宽比目标对于角度偏移的敏感差异。
本实施例的一种遥感图像的目标检测系统,可执行本发明方法实施例所提供的一种遥感图像的目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种遥感图像的目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种遥感图像的目标检测装置,可执行本发明方法实施例所提供的一种遥感图像的目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种遥感图像的目标检测方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种遥感图像的目标检测方法,其特征在于,包括以下步骤:
获取待检测图片,对所述待检测图片进行特征提取,获得带有检测框的特征图;
将所述特征图输入两级级联的检测网络,在第一级检测结构中采用多方向RoIAlign获取所述特征图的方向敏感特征,使所述检测框带有角度参数;
在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,获得最终的检测框,实现目标检测;
其中,目标检测方法中采用的损失函数带有惩罚项,该惩罚项用于应对不同长宽比目标对于角度偏移的敏感差异;
所述在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,包括:
对所述特征图中的检测框进行特征提取,采用N个预定义的角度对所述检测框进行旋转,得到N个不同方向的检测框以及对应的特征图;
采用RoIAlign对N个方向的特征图进行特征提取,获得方向敏感特征;
在分类分支中,对所述方向敏感特征在每个方向上取平均值得到方向不变特征,用于目标的分类;
在回归分支中,设计方向注意力模块获取每个方向上的特征表示来强化方向敏感特征;
所述采用RoIAlign对N个方向的特征图进行特征提取,获得方向敏感特征,包括:
采用RoI Align对每个方向的特征图进行特征提取后,输出的特征图的大小为K×K×C,其中,K×K表示把每一个检测框分成的单元格数目;
获取每一个单元格索引(i,j),0≤i,j<K,的输出特征:
其中,代表中间输出特征K×K×C其中一维,sij代表每个单元格中的采样点数目,对于每一个检测框上的采样点坐标(xh,yh),根据旋转的角度/>将其转换为对应的旋转后的检测框上的坐标(xr,yr),转换关系为:
根据转换后的坐标获得方向敏感特征。
2.根据权利要求1所述的一种遥感图像的目标检测方法,其特征在于,所述损失函数的表达式为:
Lreg=LSmoothL1loss+|tθ-t′θ|*(ln r-0.5)
其中,r表示的是长宽比的值,N1和N2分别表示两个级联结构中的筛选出来的预选框数量,s′n是一个二进制值,|tθ-t′θ|*(ln r-0.5)为惩罚项。
3.根据权利要求1所述的一种遥感图像的目标检测方法,其特征在于,所述对所述待检测图片进行特征提取,获得带有检测框的特征图,包括:
采用ResNet+FPN作为Faster RCNN的主干网络,提取所述待检测图片的特征,获得带有检测框的特征图;
其中,以ResNet作为特征提取网络,采用特征金字塔结构提取多尺度特征。
4.根据权利要求1所述的一种遥感图像的目标检测方法,其特征在于,在分类分支中,通过以下公式获取平均值:
在回归分支中,最终得到的方向敏感特征的表达式为:
其中σ表示Sigmoid激活函数,δ表示ReLU激活函数,W1是维度下降全连接层,维度下降率为r,W2是维度升高全连接层,最后输出的特征由输入特征和每个方向通道的权重值相乘得到。
5.根据权利要求1所述的一种遥感图像的目标检测方法,其特征在于,所述在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,包括:
采用3个并行的可形变卷积获取不同尺度大小的位置偏移特征,该三个可形变卷积的卷积核大小为3×3、步长为1、扩张率分别为1、2、和3;
将不同尺度的位置偏移特征按通道维度拼接在一起,依次通过一层卷积核大小为1×1的卷积层、非线性激活层,输出得到和输入特征通道数目相同的特征,用于第二级检测结构的回归和分类。
6.一种遥感图像的目标检测系统,其特征在于,包括:
特征提取模块,用于获取待检测图片,对所述待检测图片进行特征提取,获得带有检测框的特征图;
角度旋转模块,将所述特征图输入两级级联的检测网络,在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,使所述检测框带有角度参数;
特征对齐模块,用于在第二级检测结构中采用多分支形变卷积模块对所述特征图进行对齐处理,获得最终的检测框,实现目标检测;
其中,目标检测方法中采用的损失函数带有惩罚项,该惩罚项用于应对不同长宽比目标对于角度偏移的敏感差异;
所述在第一级检测结构中采用多方向RoI Align获取所述特征图的方向敏感特征,包括:
对所述特征图中的检测框进行特征提取,采用N个预定义的角度对所述检测框进行旋转,得到N个不同方向的检测框以及对应的特征图;
采用RoIAlign对N个方向的特征图进行特征提取,获得方向敏感特征;
在分类分支中,对所述方向敏感特征在每个方向上取平均值得到方向不变特征,用于目标的分类;
在回归分支中,设计方向注意力模块获取每个方向上的特征表示来强化方向敏感特征;
所述采用RoIAlign对N个方向的特征图进行特征提取,获得方向敏感特征,包括:
采用RoI Align对每个方向的特征图进行特征提取后,输出的特征图的大小为K×K×C,其中,K×K表示把每一个检测框分成的单元格数目;
获取每一个单元格索引(i,j),0≤i,j<K,的输出特征:
其中,代表中间输出特征K×K×C其中一维,sij代表每个单元格中的采样点数目,对于每一个检测框上的采样点坐标(xh,yh),根据旋转的角度/>将其转换为对应的旋转后的检测框上的坐标(xr,yr),转换关系为:
根据转换后的坐标获得方向敏感特征。
7.一种遥感图像的目标检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-5任一项所述方法。
8.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-5任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275351.3A CN113158789B (zh) | 2021-03-15 | 2021-03-15 | 一种遥感图像的目标检测方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275351.3A CN113158789B (zh) | 2021-03-15 | 2021-03-15 | 一种遥感图像的目标检测方法、系统、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158789A CN113158789A (zh) | 2021-07-23 |
CN113158789B true CN113158789B (zh) | 2023-08-25 |
Family
ID=76887093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110275351.3A Active CN113158789B (zh) | 2021-03-15 | 2021-03-15 | 一种遥感图像的目标检测方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158789B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989265B (zh) * | 2021-11-11 | 2022-07-01 | 哈尔滨市科佳通用机电股份有限公司 | 基于深度学习的速度传感器螺栓丢失故障识别方法 |
CN113838056B (zh) * | 2021-11-29 | 2022-03-01 | 中国电力科学研究院有限公司 | 一种电力设备联合检测识别方法、系统、设备及存储介质 |
CN114550009B (zh) * | 2022-04-01 | 2022-12-06 | 中国科学院空天信息创新研究院 | 星载遥感图像的轻量化目标检测方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830205A (zh) * | 2018-06-04 | 2018-11-16 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN111914804A (zh) * | 2020-08-18 | 2020-11-10 | 中科弘云科技(北京)有限公司 | 多角度旋转遥感图像小目标检测方法 |
CN111950488A (zh) * | 2020-08-18 | 2020-11-17 | 山西大学 | 一种改进的Faster-RCNN遥感图像目标检测方法 |
CN112446301A (zh) * | 2020-11-05 | 2021-03-05 | 中国科学院大学 | 一种遥感图像多类别目标检测方法和系统 |
-
2021
- 2021-03-15 CN CN202110275351.3A patent/CN113158789B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830205A (zh) * | 2018-06-04 | 2018-11-16 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN111914804A (zh) * | 2020-08-18 | 2020-11-10 | 中科弘云科技(北京)有限公司 | 多角度旋转遥感图像小目标检测方法 |
CN111950488A (zh) * | 2020-08-18 | 2020-11-17 | 山西大学 | 一种改进的Faster-RCNN遥感图像目标检测方法 |
CN112446301A (zh) * | 2020-11-05 | 2021-03-05 | 中国科学院大学 | 一种遥感图像多类别目标检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113158789A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158789B (zh) | 一种遥感图像的目标检测方法、系统、装置及介质 | |
CN109447994B (zh) | 结合完全残差与特征融合的遥感图像分割方法 | |
Li et al. | SAR image change detection using PCANet guided by saliency detection | |
CN111401516B (zh) | 一种神经网络通道参数的搜索方法及相关设备 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN111931764B (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN112418212B (zh) | 一种基于EIoU改进的YOLOv3算法 | |
CN109118504B (zh) | 一种基于神经网络的图像边缘检测方法、装置及其设备 | |
CN111626295B (zh) | 车牌检测模型的训练方法和装置 | |
CN108428248B (zh) | 车窗定位方法、系统、设备及存储介质 | |
CN114926511A (zh) | 一种基于自监督学习的高分辨率遥感影像变化检测方法 | |
CN113901972A (zh) | 遥感图像建筑物的检测方法、装置、设备及存储介质 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111353396A (zh) | 一种基于SCSEOCUnet的混凝土裂缝分割方法 | |
CN114743110A (zh) | 多尺度嵌套的遥感图像变化检测方法、系统及计算机终端 | |
CN111914596B (zh) | 车道线检测方法、装置、系统及存储介质 | |
CN113221731B (zh) | 一种多尺度遥感图像目标检测方法及系统 | |
CN114155375A (zh) | 机场道面病害检测的方法、装置、电子设备及存储介质 | |
CN113269752A (zh) | 一种图像检测方法、装置终端设备及存储介质 | |
CN116309612B (zh) | 基于频率解耦监督的半导体硅晶圆检测方法、装置及介质 | |
CN111161789B (zh) | 一种模型预测的关键区域的分析方法及装置 | |
JP6808783B2 (ja) | 人工ニューラルネットワークを用いた画像処理 | |
CN117291250A (zh) | 一种用于图像分割的神经网络剪枝方法 | |
CN116385477A (zh) | 一种基于图像分割的杆塔图像配准方法 | |
CN113051901B (zh) | 一种身份证文本识别方法、系统、介质及电子终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |