CN117456377A - 一种基于尺度信息增强的遥感图像少样本目标检测方法 - Google Patents
一种基于尺度信息增强的遥感图像少样本目标检测方法 Download PDFInfo
- Publication number
- CN117456377A CN117456377A CN202311526027.XA CN202311526027A CN117456377A CN 117456377 A CN117456377 A CN 117456377A CN 202311526027 A CN202311526027 A CN 202311526027A CN 117456377 A CN117456377 A CN 117456377A
- Authority
- CN
- China
- Prior art keywords
- class
- image
- target
- detected
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000002776 aggregation Effects 0.000 claims abstract description 27
- 238000004220 aggregation Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000394 mitotic effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于尺度信息增强的遥感图像少样本目标检测方法,应用于遥感图像检测技术领域。包括以下步骤:采集待检测类别目标图像作为新类图像,采集其他类目标图像作为基础类图像;将高斯尺度增强策略添加到检测器的支持分支中;将多分支块编码注意力聚合模块添加到检测器的查询分支中;通过基础类图像训练检测器;通过新类图像微调检测器,并生成待检测类别的类代表特征;将待检测图像和类代表特征输入检测器,得到目标的坐标和类别。本发明通过采用高斯尺度增强策略和多分支块编码注意力聚合模块的遥感图像少样本目标检测模型对待检测图像进行检测,能够使用少样本的目标丰富尺度信息进行训练且检测多尺度目标精度高。
Description
技术领域
本发明涉及遥感图像检测技术领域,更具体的说是涉及一种基于尺度信息增强的遥感图像少样本目标检测方法。
背景技术
目标检测任务是遥感图像领域的重要研究热点,该任务通过卫星或无人机采集高分辨率的遥感图像,并对感兴趣的目标进行分类和定位。遥感图像包含着丰富的对地观测信息,所以检测遥感图像中的重要目标有着重要意义,遥感图像的目标检测在灾害监测,环境监测,城市规划和气候观测等应用场景下都发挥着重要作用。随着近些年深度学习的进一步研究,其在目标检测领域取得了优异的性能,基于深度学习的遥感图像目标检测技术已经成为一种主流的方案。然而,基于深度学习的模型需要依赖充足数量的数据进行训练才能取得优异的性能。由于大多数遥感设备(如飞机或卫星)采集数据都很昂贵,同时遥感图像上目标较小标注也存在困难,所以去采集一个大规模遥感图像数据集训练网络非常困难。
跨尺度是遥感图像目标检测中的常见问题,这是由于传感器的空间分辨率不同以及拍摄高度不同导致的。在遥感图像的采集过程中,目标的尺寸变化范围很大,给目标检测任务带来了挑战,对于同一类物体,既要检测到较小的目标也要检测到较大的目标,需要使深度学习网络充分学习到目标各个尺度上的信息。但在训练集样本较少的情况下,目标的尺度信息分布是稀疏的,可能只包含几个尺度的信息,但真实数据分布是连续的,各个尺度的信息都含有。因此只使用少量样本训练网络时,尺度信息的匮乏,会使网络不能很好的学习到目标的多尺度信息,进而导致网络检测多尺度目标能力下降。因此,如何提供一种基于尺度信息增强的遥感图像少样本目标检测方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于尺度信息增强的遥感图像少样本目标检测方法,通过添加高斯尺度增强策略可以丰富少样本目标下的尺度信息,通过添加多分支块编码注意力聚合模块使得检测器能够在少样本情况下更好学的学习多尺度特征,解决现有目标检测技术在少量样本下尺度信息不丰富导致网络检测多尺度目标性能低的技术问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于尺度信息增强的遥感图像少样本目标检测方法,包括以下步骤:
S1、采集待检测类别目标图像和其他类目标图像,将待检测类别目标图像作为新类图像,将其他类目标图像作为基础类图像;
S2、将高斯尺度增强策略添加到Faster R-CNN检测器的支持分支中;
S3、将多分支块编码注意力聚合模块添加到Faster R-CNN检测器的查询分支中;
S4、通过基础类图像训练Faster R-CNN检测器;
S5、通过新类图像微调Faster R-CNN检测器,并生成待检测类别的类代表特征;
S6、将待检测图像和类代表特征输入Faster R-CNN检测器,得到目标的坐标和类别。
可选的,S2中的高斯尺度增强策略具体为:将新类图像首先进行尺寸变换到多个尺寸大小,在各个尺寸上的图片上随机使用不同强度的高斯核进行卷积操作,以得到不同尺度下的目标实例,然后将不同尺度下的目标实例共同输入到Faster R-CNN检测器的支持分支的特征提取网络中,经过特征提取后得到不同层级的特征图,对不同层级的特征图使用通道级拼接操作,合成得到一个特征图,再进行两次深度卷积,得到融合多尺度信息的类代表特征。
可选的,S3中的多分支块编码注意力聚合模块具体为:将待检测图像输入到Faster R-CNN检测器的查询分支的共享权重特征提取网络得到检测特征图,对检测特征图进行多分支的块编码,不同分支采用不同大小的块编码以获得不同尺度的感受野大小,之后每个分支的独立的与类代表特征进行基于Transformer的交叉注意力的计算实现特征重加权,之后将多个分支的特征重加权结果根据其特征图的空间大小,由小到大依次进行上采样以及元素级加法实现多个分支的特征聚合,最后将聚合后的检测特征图与原始检测特征图再次进行通道级拼接完成最终多尺度特征聚合。
可选的,S4具体为:
S41、随机选取基础类中各个类别的一个实例输入采用高斯尺度增强策略的支持分支生成多个基础类的类代表特征;
S42、将一张待检测图像输入采用多分支块编码注意力聚合模块的查询分支中进行特征重加权,生成检测结果,检测结果为基础类的目标框;
S43、将检测结果与待检测图像的标签进行分类和回归损失的计算,对网络进行反向传播训练。
其中,图像的标签为目标的类别以及检测框的坐标。
可选的,S43中的反向传播训练具体为:通过分类和回归损失的计算得到FasterR-CNN检测器中参数权重的梯度,使Faster R-CNN检测器中参数的权重中减去梯度乘以学习速率,完成参数权重的更新,重复上述过程直到迭代次数达到预设值,完成反向传播训练。
可选的,S5具体为:
S51、将新类的一个实例输入采用高斯尺度增强策略的支持分支生成新类的类代表特征;
S52、随机选取基础类中各个类别的一个实例输入采用高斯尺度增强策略的支持分支生成多个基础类的类代表特征;
S53、将一张待检测图像输入采用多分支块编码注意力聚合模块的查询分支中进行特征重加权,生成检测结果,检测结果中同时包含新类和基础类的目标框;
S54、将检测结果与待检测图像的标签进行分类和回归损失的计算,对网络进行反向传播训练;
S55、完成训练,得到Faster R-CNN检测器中参数的最终权重以及待检测类别的类代表特征。
可选的,S6具体为:待检测图像经过Faster R-CNN检测器的支持分支的特征提取网络后,经过查询分支的多分支块编码注意力聚合模块进行类代表特征重加权,将得到的特征图输入到区域选取网络中生成感兴趣的区域,得到区域特征图,将区域特征图的空间大小对齐后,输入到分类回归模块得到可能存在目标的边界框地址和大小、目标种类以及置信度,根据设置的置信度阈值对目标进行筛选,得到初步筛选结果,最后通过极大值抑制对初步筛选结果进行进一步处理后,输出目标类别和坐标。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于尺度信息增强的遥感图像少样本目标检测方法,具有以下有益效果:本发明通过采用高斯尺度增强策略和多分支块编码注意力聚合模块的遥感图像少样本目标检测模型对待检测图像进行检测,输出标记有丝分裂细胞的标记框以及表明有丝分裂细胞类别的标签,解决了现有遥感图像少样本目标检测中训练样本较少包含的尺度分布信息稀疏导致难以实现使用真实的尺度分布数据进行训练以及检测器的性能受到检测图像目标尺度变化范围大的影响会大幅下降的问题,能够使用少样本的目标丰富尺度信息进行训练且检测多尺度目标精度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的遥感图像少样本目标检测方法流程图;
图2为本发明实施例中的高斯尺度增强策略结构图;
图3为本发明实施例中的多分支块编码注意力聚合模块结构图;
图4为现有方法的目标检测结果图,其中,4.1为第一个待检测图像的检测结果,4.2为第二个待检测图像的检测结果,4.3为第三个待检测图像的检测结果;
图5为本发明实施例的目标检测结果图,其中,5.1为第一个待检测图像的检测结果,5.2为第二个待检测图像的检测结果,5.3为第三个待检测图像的检测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于尺度信息增强的遥感图像少样本目标检测方法,如图1所示,包括以下步骤:
S1、采集待检测类别目标图像和其他类目标图像,将待检测类别目标图像作为新类图像,将其他类目标图像作为基础类图像;
S2、将高斯尺度增强策略添加到Faster R-CNN检测器的支持分支中;
S3、将多分支块编码注意力聚合模块添加到Faster R-CNN检测器的查询分支中;
S4、通过基础类图像训练Faster R-CNN检测器;
S5、通过新类图像微调Faster R-CNN检测器,并生成待检测类别的类代表特征;
S6、将待检测图像和类代表特征输入Faster R-CNN检测器,得到目标的坐标和类别。
在本发明实施例中,为了在待检测类别(新类)下取得良好性能,需要从其他类别(基础类)下的目标中尽可能的学习先验知识,并将其应用到新类的检测中。所以在此处,需要采集待检测类别和其他类别图像数据;添加高斯尺度增强策略的原因是根据计算机视觉中的尺度空间理论,使用高斯卷积核对图像进行卷积操作,可以获得多种尺度特征下的图像以此来构造尺度空间。在少量样本情况下,目标的尺度信息匮乏,使用此策略可以丰富目标的尺度信息供网络学习;设计多分支块编码注意力聚合模块的原因在于,使用多个分支注意力进行特征重加权,不同大小的块编码使得各分支可以关注不同大小的目标,最终聚合各分支的特征可以使网络更好的学习多尺度特征,提高网络检测多尺度目标的能力。
进一步的,如图2所示,S2中的高斯尺度增强策略具体为:将新类图像首先进行尺寸变换到多个尺寸大小,在各个尺寸上的图片上随机使用不同强度的高斯核进行卷积操作,以得到不同尺度下的目标实例,然后将不同尺度下的目标实例共同输入到Faster R-CNN检测器的支持分支的特征提取网络中,经过特征提取后得到不同层级的特征图,对不同层级的特征图使用通道级拼接操作,合成得到一个特征图,再进行两次深度卷积,得到融合多尺度信息的类代表特征。
更进一步的,在本发明的实施例中,将待检测类别的图像实例调整尺寸大小为四个(64×64、128×128、256×256、512×512),同时对大小调整后的图像使用不同参数的高斯卷积核进行卷积操作:
式中,(x,y)代表图像的空间位置,f(x,y)代表二维图像,代表高斯卷积核,σi代表高斯卷积核的尺度参数,也是高斯分布函数的方差,*代表卷积操作,在本实施例中选取σi={0.8,1.1,1.4,1.7}四种大小参数的高斯卷积核进行卷积以实现尺度信息的增强。
进一步的,如图3所示,S3中的多分支块编码注意力聚合模块具体为:将待检测图像输入到Faster R-CNN检测器的查询分支的共享权重特征提取网络得到检测特征图,对检测特征图进行多分支的块编码,不同分支采用不同大小的块编码以获得不同尺度的感受野大小,之后每个分支的独立的与类代表特征进行基于Transformer的交叉注意力的计算实现特征重加权,之后将多个分支的特征重加权结果根据其特征图的空间大小,由小到大依次进行上采样以及元素级加法实现多个分支的特征聚合,最后将聚合后的检测特征图与原始检测特征图再次进行通道级拼接完成最终多尺度特征聚合。
更进一步的,在本发明的实施例中,对特征图分别分成3×3、7×7、15×15尺寸块并进行编码,不同的分支由于编码的块大小不同,会对不同大小的目标敏感,之后每个分支编码后的特征都会与类代表特征执行基于Transformer的交叉注意力进行特征重加权:
Q=XWQ,K=XWK,V=XWV
式中,WQ,WK,WV表示变换矩阵,在计算注意力之前都会进行多个矩阵变换,对于待检测图像特征Xq通过矩阵变换得到i表示第i个分支,对于类代表特征Xs通过矩阵变换得到/>Concat表示通道级拼接操作将对应变换特征进行拼接后,执行Attention注意力的矩阵计算,得到Yi表示第i个分支的注意力计算结果;
对多分支的特征再进行聚合:
UP表示上采样,采用的双线性插值,+代表元素级加法,Conv表示卷积操作,Yfinal表示聚合后的最终多尺度特征;在本实施例中共包括三个分支,三个分支逐步进行上采用及加法操作进行多尺度特征的融合。最后与待检测图像特征Xq进行通道级拼接,保留原始的尺度信息,随后进行卷积操作进行学习,可以很好的学习多尺度信息。随后将融合后的结果输入到区域生成网络生成感兴趣的区域,并对该区域进行分类和回归框的输出。
进一步的,S4具体为:
S41、随机选取基础类中各个类别的一个实例输入采用高斯尺度增强策略的支持分支生成多个基础类的类代表特征;
S42、将一张待检测图像输入采用多分支块编码注意力聚合模块的查询分支中进行特征重加权,生成检测结果,检测结果为基础类的目标框;
S43、将检测结果与待检测图像的标签进行分类和回归损失的计算,对网络进行反向传播训练。
进一步的,S43中的反向传播训练具体为:通过分类和回归损失的计算得到FasterR-CNN检测器中参数权重的梯度,使FasterR-CNN检测器中参数的权重中减去梯度乘以学习速率,完成参数权重的更新,重复上述过程直到迭代次数达到预设值,完成反向传播训练。
进一步的,S5具体为:
S51、将新类的一个实例输入采用高斯尺度增强策略的支持分支生成新类的类代表特征;
S52、随机选取基础类中各个类别的一个实例输入采用高斯尺度增强策略的支持分支生成多个基础类的类代表特征;
S53、将一张待检测图像输入采用多分支块编码注意力聚合模块的查询分支中进行特征重加权,生成检测结果,检测结果中同时包含新类和基础类的目标框;
S54、将检测结果与待检测图像的标签进行分类和回归损失的计算,对网络进行反向传播训练;
S55、完成训练,得到FasterR-CNN检测器中参数的最终权重以及待检测类别的类代表特征。
更进一步的,在本发明的实施例中,分类和回归损失L({pi}{ti})的计算具体为:
式中,代表分类损失,采用的是交叉熵损失,/>代表回归损失,采用的是/>损失,pi代表预测类别的概率,/>代表真实框的类别标签,ti表示预测框的坐标标签,/>表示真实框的坐标标签,λ表示比例系数。
计算输出中的损失后,使用反向传播的思想最小化损失,采用梯度下降算法,计算公式如下:
式中,θ表示模型的参数权重,即要优化的目标;α代表学习率,表示每次迭代更新的步长;表示损失函数L(θ)对参数θ的梯度。通过损失计算模型参数权重的梯度,即损失函数相对于参数权重的偏导数,之后使模型的参数权重中减去梯度乘以学习速率的数值,完成参数权重的更新,每轮训练都依次迭代下去,直到训练完成,得到最终的模型参数权重值。在本发明实施例中,S54中的反向传播训练迭代次数为S43中反向传播训练迭代次数的十分之一。
进一步的,S6具体为:待检测图像经过Faster R-CNN检测器的支持分支的特征提取网络后,经过查询分支的多分支块编码注意力聚合模块进行类代表特征重加权,将得到的特征图输入到区域选取网络中生成感兴趣的区域,得到区域特征图,将区域特征图的空间大小对齐后,输入到分类回归模块得到可能存在目标的边界框地址和大小、目标种类以及置信度,根据设置的置信度阈值对目标进行筛选,得到初步筛选结果,最后通过极大值抑制对初步筛选结果进行进一步处理后,输出目标类别和坐标。
更进一步的,在本发明的实施例中,到区域选取网络(Region Proposal Network,RPN)为Faster R-CNN检测器中的常用生成目标区域的网络,包含一个二分类的分类神经网络用于预测是前景还是背景,还有一个回归神经网络用于生成目标区域的位置框;区域特征图通过ROIPooling进行空间大小对齐,得到相同大小的特征图;本发明实施例中的分类回归模块包含一个用于生成预测框分类结果的神经网络,即输出各个类别的置信度值,和一个生成预测框坐标的回归神经网络;在根据设置的置信度阈值对输出预测框进行筛选时通常将保留置信度较高的输出预测框,去除掉置信度较低的输出预测框,得到初步筛选结果;本发明实施例中极大值抑制具体为:依次选取置信度最高的预测框,然后计算此预测框和其他预测框的交并比,去除掉大于某阈值下的其他预测框,将该类型框的输出结果认定为冗余结果,只保留置信度最高的预测框即可,这样依次循环处理所有的预测框,得到最终输出预测目标框的类别和坐标。
进一步的,将本发明实施例的目标检测方法与现有检测方法进行对比,结果如图4和图5所示,共对三张待检测图像进行目标检测,现有检测方法的检测结果分别为图4.1、图4.2和图4.3,本发明实施例中检测方法的检测结果分别为图5.1、图5.2和图5.3;可以看出,现有的检测方法没有添加本发明实施例所公开的高斯尺度增强策略和多分支块编码注意力聚合模块,只能有第一张待检测图像能够检测到一个尺度的目标,检测多尺度的目标的能力具有局限性。在添加高斯尺度增强策略和多分支块编码注意力聚合模块之后,可以成功检测到大中小各种尺寸的目标物,显示了本发明实施例所公开的方法在检测多尺度目标时的有效性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,包括以下步骤:
S1、采集待检测类别目标图像和其他类目标图像,将待检测类别目标图像作为新类图像,将其他类目标图像作为基础类图像;
S2、将高斯尺度增强策略添加到Faster R-CNN检测器的支持分支中;
S3、将多分支块编码注意力聚合模块添加到Faster R-CNN检测器的查询分支中;
S4、通过基础类图像训练Faster R-CNN检测器;
S5、通过新类图像微调Faster R-CNN检测器,并生成待检测类别的类代表特征;
S6、将待检测图像和类代表特征输入Faster R-CNN检测器,得到目标的坐标和类别。
2.根据权利要求1所述的一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,S2中的高斯尺度增强策略具体为:将新类图像首先进行尺寸变换到多个尺寸大小,在各个尺寸上的图片上随机使用不同强度的高斯核进行卷积操作,以得到不同尺度下的目标实例,然后将不同尺度下的目标实例共同输入到Faster R-CNN检测器的支持分支的特征提取网络中,经过特征提取后得到不同层级的特征图,对不同层级的特征图使用通道级拼接操作,合成得到一个特征图,再进行两次深度卷积,得到融合多尺度信息的类代表特征。
3.根据权利要求1所述的一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,S3中的多分支块编码注意力聚合模块具体为:将待检测图像输入到Faster R-CNN检测器的查询分支的共享权重特征提取网络得到检测特征图,对检测特征图进行多分支的块编码,不同分支采用不同大小的块编码以获得不同尺度的感受野大小,之后每个分支的独立的与类代表特征进行基于Transformer的交叉注意力的计算实现特征重加权,之后将多个分支的特征重加权结果根据其特征图的空间大小,由小到大依次进行上采样以及元素级加法实现多个分支的特征聚合,最后将聚合后的检测特征图与原始检测特征图再次进行通道级拼接完成最终多尺度特征聚合。
4.根据权利要求1所述的一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,S4具体为:
S41、随机选取基础类中各个类别的一个实例输入采用高斯尺度增强策略的支持分支生成多个基础类的类代表特征;
S42、将一张待检测图像输入采用多分支块编码注意力聚合模块的查询分支中进行特征重加权,生成检测结果,检测结果为基础类的目标框;
S43、将检测结果与待检测图像的标签进行分类和回归损失的计算,对网络进行反向传播训练。
5.根据权利要求4所述的一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,S43中的反向传播训练具体为:通过分类和回归损失的计算得到Faster R-CNN检测器中参数权重的梯度,使Faster R-CNN检测器中参数的权重中减去梯度乘以学习速率,完成参数权重的更新,重复上述过程直到迭代次数达到预设值,完成反向传播训练。
6.根据权利要求1所述的一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,S5具体为:
S51、将新类的一个实例输入采用高斯尺度增强策略的支持分支生成新类的类代表特征;
S52、随机选取基础类中各个类别的一个实例输入采用高斯尺度增强策略的支持分支生成多个基础类的类代表特征;
S53、将一张待检测图像输入采用多分支块编码注意力聚合模块的查询分支中进行特征重加权,生成检测结果,检测结果中同时包含新类和基础类的目标框;
S54、将检测结果与待检测图像的标签进行分类和回归损失的计算,对网络进行反向传播训练;
S55、完成训练,得到Faster R-CNN检测器中参数的最终权重以及待检测类别的类代表特征。
7.根据权利要求1所述的一种基于尺度信息增强的遥感图像少样本目标检测方法,其特征在于,S6具体为:待检测图像经过Faster R-CNN检测器的支持分支的特征提取网络后,经过查询分支的多分支块编码注意力聚合模块进行类代表特征重加权,将得到的特征图输入到区域选取网络中生成感兴趣的区域,得到区域特征图,将区域特征图的空间大小对齐后,输入到分类回归模块得到可能存在目标的边界框地址和大小、目标种类以及置信度,根据设置的置信度阈值对目标进行筛选,得到初步筛选结果,最后通过极大值抑制对初步筛选结果进行进一步处理后,输出目标类别和坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311526027.XA CN117456377A (zh) | 2023-11-16 | 2023-11-16 | 一种基于尺度信息增强的遥感图像少样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311526027.XA CN117456377A (zh) | 2023-11-16 | 2023-11-16 | 一种基于尺度信息增强的遥感图像少样本目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117456377A true CN117456377A (zh) | 2024-01-26 |
Family
ID=89596654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311526027.XA Pending CN117456377A (zh) | 2023-11-16 | 2023-11-16 | 一种基于尺度信息增强的遥感图像少样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456377A (zh) |
-
2023
- 2023-11-16 CN CN202311526027.XA patent/CN117456377A/zh active Pending
Non-Patent Citations (2)
Title |
---|
YAN WANG 等: "Context Information Refinement for Few-Shot Object Detection in Remote Sensing Images", 《REMOTE SENSING》, vol. 14, no. 14, 6 July 2022 (2022-07-06), pages 1 - 20 * |
ZHENYU YANG 等: "Scale Information Enhancement for Few-Shot Object Detection on Remote Sensing Images", 《REMOTE SENSING》, vol. 15, no. 22, 15 November 2023 (2023-11-15), pages 1 - 19 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110929607B (zh) | 一种城市建筑物施工进度的遥感识别方法和系统 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN110889449A (zh) | 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN112232371B (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN113780211A (zh) | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN109583483A (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN116994140A (zh) | 基于遥感影像的耕地提取方法、装置、设备和介质 | |
CN112906816B (zh) | 基于光微分与双通道神经网络的目标检测方法和装置 | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN113239736B (zh) | 一种基于多源遥感数据的土地覆盖分类标注图获取方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN109002771B (zh) | 一种基于递归神经网络的遥感图像分类方法 | |
CN111833353B (zh) | 一种基于图像分割的高光谱目标检测方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN116665153A (zh) | 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 | |
CN116758411A (zh) | 一种基于遥感图像逐像素处理的舰船小目标检测方法 | |
CN112528803A (zh) | 道路特征提取方法、装置、设备及存储介质 | |
CN116758419A (zh) | 针对遥感图像的多尺度目标检测方法、装置和设备 | |
CN117456377A (zh) | 一种基于尺度信息增强的遥感图像少样本目标检测方法 | |
CN114913504A (zh) | 一种融合自注意力机制的遥感图像的车辆目标识别方法 | |
CN118470333B (zh) | 一种基于遥感图像的地理环境语义分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |