CN115019182B - 遥感图像目标细粒度识别方法、系统、设备及存储介质 - Google Patents
遥感图像目标细粒度识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115019182B CN115019182B CN202210900356.5A CN202210900356A CN115019182B CN 115019182 B CN115019182 B CN 115019182B CN 202210900356 A CN202210900356 A CN 202210900356A CN 115019182 B CN115019182 B CN 115019182B
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- image
- features
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000007499 fusion processing Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000005192 partition Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005215 recombination Methods 0.000 claims description 5
- 230000006798 recombination Effects 0.000 claims description 5
- 230000008521 reorganization Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 13
- 238000013459 approach Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000007123 defense Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种遥感图像目标细粒度识别方法、系统、设备及存储介质,获取至少一幅图像;利用卷积神经网络提取所述图像的多尺度特征;利用Transformer对所述多尺度特征图进行编码;利用特征融合金字塔网络对所述的编码后的多尺度特征图进行特征融合;利用融合后的特征图,采用旋转框检测头提取目标;利用旋转变换对提取的目标的特征进行对齐;利用Transformer对旋转变换后的目标特征图进行细粒度分类,得到目标细粒度识别结果。本发明提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的船只、飞机等目标细粒度识别。
Description
技术领域
本发明涉及一种遥感图像目标细粒度识别方法、系统、设备及存储介质。
背景技术
随着卫星成像技术和商业航天的快速发展,对地观测呈现出“三高”(高空间分辨率、高光谱分辨率和高时间分辨率)和“三多”(多平台、多传感器和多角度)的发展趋势。其中,高分辨率卫星遥感数据所蕴藏的巨大国防价值和经济效益,已经成为国防安全、经济建设和社会公众信息服务等方面重要的空间信息源,具有广阔的应用前景。
目标检测识别一直是高分辨率遥感应用领域热点问题,现有识别通常基于卷积神经网络(CNN)的深度学习算法,但CNN算法存在如下困难:(1)目标检测模型泛化应用能力不足;(2)尺寸较小且密集分布目标漏检较多;(3)背景复杂、角度任意、目标长宽比差异大等造成的误检较多。
发明内容
鉴于上述技术问题,本发明将CNN与Transformer结合,提出一种基于Transformer和CNN混合结构的遥感图像目标识别模型,用于解决高分辨率遥感图像中密集目标检测和目标的细粒度识别问题,实现典型感兴趣遥感目标的精细识别。
实现本发明目的的技术解决方案为:一种遥感图像目标细粒度识别方法,包括以下步骤:
步骤S1、获取至少一幅高分辨率遥感图像,并将图像进行预处理;
步骤S2、提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
步骤S3、利用特征融合金字塔,完成特征图融合处理;
步骤S4、采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
根据本发明的一个方面,在所述步骤S1中,将图像进行预处理,至少包括:将图像裁切成大小为608×608的切片,并对切片进行归一化处理。
根据本发明的一个方面,在步骤S2中,具体包括:
步骤S21、以Resnet101作为主干网络,提取图像中目标的4个尺度特征,降采样4、8、16、32倍的特征P1,P2,P3,P4;
步骤S22、分别对特征P1-P4进行分区,基于Transformer结构的自注意力机制 ,对每个分区进行编码,输出特征图T1,T2,T3,T4。
根据本发明的一个方面,在步骤S22中,对特征P1-P4进行分区和编码,具体包括:
步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区,每一个分区内部的再划分成N×N的网格,其中,N的取值与最小目标的相对尺寸有关,目标越小,N越大;
步骤S222、对每一个网格内的特征进行位置投影和序列化处理,作为Transformer编码结构中多头注意力机制的输入,其公式为:
由Q,K,V计算各个特征之间的自注意力权重矩阵A,其公式为:
其中,d表示特征的维度;
其中,MLP表达多层感知机。
根据本发明的一个方面,在步骤S3中,利用特征融合金字塔,完成特征图融合处理,具体包括:
步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块,得到特征图O1、O2、O3、O4,其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU;
步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理,其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加;
步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理;
步骤S34、融合后的各层特征层通过One_CBS模块输出。
根据本发明的一个方面,在完成特征图融合处理后,对融合后的特征图进行目标检测处理,具体包括:
步骤S35、采用旋转框检测头,提取目标位置边框和方位方向,利用非极大值抑制算法,剔除重复检测目标;
步骤S36、基于目标方向角度,采用旋转变换,对目标进行方位一致性校正和特征对齐,消除目标特征差异,其公式为:
根据本发明的一个方面,在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
根据本发明的一个方面,提供了一种遥感图像目标细粒度识别系统,包括:
图片获取单元,用于获取至少一幅高分辨率遥感图像,并将图像进行预处理;
特征提取单元,用于提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
数据处理单元,用于利用特征融合金字塔,完成特征图融合处理;
目标识别单元,用于对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
根据本发明的一个方面,提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行如上述技术方案中任一项所述的一种遥感图像目标细粒度识别方法。
根据本发明的一个方面,提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,实现如上述技术方案中任一项所述一种遥感图像目标细粒度识别方法。
根据本发明的构思,提出一种遥感图像目标细粒度识别方法,首先利用CNN的平移不变性提取目标特征图,增强模型的多尺度特征提取能力;然后对特征进行区块化表达,并嵌入位置信息,构建聚焦地物方向的目标检测网络,实现目标的高精度检测;最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征,结合基于Transformer结构的自注意力机制,获取的整体特征及切片之间联系,实现复杂背景下的目标精细识别,有效地提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的船只、飞机等目标识别。
同时,为Transformer结构在遥感目标检测识别领域应用提供了新方法,为遥感目标的精细识别、方位方向评估提供了新的技术途径,具有较大的实际应用价值。
附图说明
图1示意性表示根据本发明一种实施方式的遥感图像目标细粒度识别方法的流程图;
图2示意性表示根据本发明一种实施方式的目标检测网格结构示意图;
图3示意性表示根据本发明一种实施方式的特征融合金字塔网络(Bi-FCN)示意图;
图4示意性表示根据本发明一种实施方式的基于自注意力机制池化的精细识别网络示意图;
图5示意性表示根据本发明另一种实施方式的遥感图像目标细粒度识别方法的流程图;
图6示意性表示根据本发明一种实施方式的步骤S2的流程图;
图7示意性表示根据本发明一种实施方式的步骤S3的部分流程图;
图8示意性表示根据本发明一种实施方式的遥感图像目标细粒度识别系统框架示意图。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅为本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1至图8所示,本发明的一种遥感图像目标细粒度识别方法,包括以下步骤:
步骤S1、获取至少一幅高分辨率遥感图像,并将图像进行预处理;
步骤S2、提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
步骤S3、利用特征融合金字塔,完成特征图融合处理;
步骤S4、采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
在该实施例中,首先利用CNN的平移不变性提取目标特征图,增强模型的多尺度特征提取能力;然后对特征进行区块化表达,并嵌入位置信息,构建聚焦地物方向的目标检测网络,实现目标的高精度检测;最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征,结合基于Transformer结构的自注意力机制,获取的整体特征及切片之间联系,实现复杂背景下的目标精细识别,有效地提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的船只、飞机等目标识别。
同时,为Transformer结构在遥感目标检测识别领域应用提供了新方法,为遥感目标的精细识别、方位方向评估提供了新的技术途径,具有较大的实际应用价值。
如图1所示,遥感图像目标细粒度识别方法具体步骤如下:步骤S101、由获取单元获取高分辨率遥感图像;步骤S102、读入高分辨率遥感图像、并进行预处理;步骤S103、卷积神经网络多尺度特征提取;步骤S104、采采用Transformer特征编码,输出特征图;步骤S105、利用双向特征融合金字塔网络完成特征融合;步骤S106、采用旋转框检测头进行旋转包围框目标检测,并剔除重复检测目标;步骤S107、旋转变换目标特征对齐,消除目标因成像角度差异带来的特征差异;步骤S108、利用Transformer进行目标细粒度分类;步骤S109、获得目标细粒度识别结果。
在本发明的一个实施例中,优选地,在所述步骤S1中,将图像进行预处理,至少包括:将图像裁切成大小为608×608的切片,并对切片进行归一化处理。
在该实施例中,由于不同设备的采集、成像因素等原因造成相同的目标在图像灰度信息上的不一致,图像归一化能够在保留具有识别价值的灰度差异的同时,减小甚至消除图像中灰度不一致,图像的归一化更有利于计算机自动分析处理,从而提升舰船目标的细粒度识别准确率,将图像切片处理,有利于减少后续算法的复杂度和提高效率。
如图2和图6所示,在本发明的一个实施例中,优选地,在步骤S2中,具体包括:
步骤S21、以Resnet101作为主干网络,提取图像中目标的4个尺度特征,降采样4、8、16、32倍的特征P1,P2,P3,P4;
步骤S22、分别对特征P1-P4进行分区,基于Transformer结构的自注意力机制 ,对每个分区进行编码,输出特征图T1,T2,T3,T4。
如图3所示,在本发明的一个实施例中,优选地,在步骤S22中,对特征P1-P4进行分区和编码,具体包括:
步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区,每一个分区内部的再划分成N×N的网格,其中,N的取值与最小目标的相对尺寸有关,目标越小,N越大;
步骤S222、对每一个网格内的特征进行位置投影和序列化处理,作为Transformer编码结构中多头注意力机制的输入,其公式为:
由Q,K,V计算各个特征之间的自注意力权重矩阵A,其公式为:
其中,d表示特征的维度;
其中,MLP表达多层感知机。
在本发明的一个实施例中,优选地,在步骤S3中,利用特征融合金字塔,完成特征图融合处理,具体包括:
步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块,得到特征图O1、O2、O3、O4,其公式为:
Oi = SiLU(Batch_Norm(Conv(Ci))),
其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU;
步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理,其公式为:
Ui=One_CBS(Upsample(Oi))+ Oi-1,
其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加;
步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理,其公式为:
Ai+1=One_CBS(Avgpooling(Ui))+ Ui-1;
步骤S34、融合后的各层特征层通过One_CBS模块输出。
如图7所示,在本发明的一个实施例中,优选地,在完成特征图融合处理后,对融合后的特征图进行目标检测处理,具体包括:
步骤S35、采用旋转框检测头,提取目标位置边框和方位方向,利用非极大值抑制算法,剔除重复检测目标;
步骤S36、基于目标方向角度,采用旋转变换,对目标进行方位一致性校正和特征对齐,消除目标特征差异,其公式为:
在该实施例中,利用NMS(非极大值抑制)算法,剔除重复检测目标,有利于减少后续算法的复杂度和提高效率,同时能够提升识别的准确率,在进行识别前,还需要对目标进行方位一致性校正和特征对齐,消除目标因成像角度差异带来的特征差异,实现目标的精细识别,进一步地提升识别的准确率。
如图7所示,在本发明的一个实施例中,优选地,在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
如图8所示,根据本发明的一个方面,提供了一种遥感图像目标细粒度识别系统,包括:
图片获取单元,用于获取至少一幅高分辨率遥感图像,并将图像进行预处理;
特征提取单元,用于提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
数据处理单元,用于利用特征融合金字塔,完成特征图融合处理;
目标识别单元,用于对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
根据本发明的一个方面,提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行如上述技术方案中任一项所述的一种遥感图像目标细粒度识别方法。
根据本发明的一个方面,提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,实现如上述技术方案中任一项所述一种遥感图像目标细粒度识别方法。
综上所述,本发明提出了一种遥感图像目标细粒度识别方法、系统、设备及存储介质,首先利用CNN的平移不变性提取目标特征图,增强模型的多尺度特征提取能力;然后对特征进行区块化表达,并嵌入位置信息,构建聚焦地物方向的目标检测网络,实现目标的高精度检测;最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征,结合基于Transformer结构的自注意力机制,获取的整体特征及切片之间联系,实现复杂背景下的目标精细识别,有效地提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的舰船、飞机等目标识别。
同时,为Transformer结构在遥感目标检测识别领域应用提供了新方法,为遥感目标的精细识别、方位方向评估提供了新的技术途径,具有较大的实际应用价值。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
Claims (9)
1.一种遥感图像目标细粒度识别方法,包括以下步骤:
步骤S1、获取至少一幅高分辨率遥感图像,并将图像进行预处理;
步骤S2、提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
步骤S3、利用特征融合金字塔,完成特征图融合处理;
步骤S4、采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果;
在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
步骤S42、将所有的权重指数Pl,k,i沿着l和k两个维度相加,得到最终所有切片的评价指数:
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,将图像进行预处理,至少包括:将图像裁切成大小为608×608的切片,并对切片进行归一化处理。
3.根据权利要求1所述的方法,其特征在于,在步骤S2中,具体包括:
步骤S21、以Resnet101作为主干网络,提取图像中目标的4个尺度特征,降采样4、8、16、32倍的特征P1,P2,P3,P4;
步骤S22、分别对特征P1-P4进行分区,基于Transformer结构的自注意力机制,对每个分区进行编码,输出特征图T1,T2,T3,T4。
4.根据权利要求3所述的方法,其特征在于,在步骤S22中,对特征P1-P4进行分区和编码,具体包括:
步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区,每一个分区内部的再划分成N×N的网格,其中,N的取值与最小目标的相对尺寸有关,目标越小,N越大;
步骤S222、对每一个网格内的特征进行位置投影和序列化处理,作为Transformer编码结构中多头注意力机制的输入,其公式为:
步骤S223、将特征z0输入到多头注意力机制中,由Transformer编码成核心内容,包括特征的查询Q、键值K、特征值V矩阵,其公式为:
由Q,K,V计算各个特征之间的自注意力权重矩阵A,其公式为:
其中,d表示特征的维度;
步骤S224、由自注意力权重A加权计算输出特征S(h),将特征矩阵拼接经过全连接层会得到输出z′,其公式为:
S(h)=A(h)V
步骤S225、将多头注意力模块输出的特征经过多层感知机模块后,就得到Transformer编码后的特征z1,其公式为:
其中,MLP表达多层感知机。
5.根据权利要求1所述的方法,其特征在于,在步骤S3中,利用特征融合金字塔,完成特征图融合处理,具体包括:
步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块,得到特征图O1、O2、O3、O4,其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU;
步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理,其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加;
步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理;
步骤S34、融合后的各层特征层通过One_CBS模块输出。
7.一种遥感图像目标细粒度识别系统,包括:
图片获取单元,用于获取至少一幅高分辨率遥感图像,并将图像进行预处理;
特征提取单元,用于提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
数据处理单元,用于利用特征融合金字塔,完成特征图融合处理;
目标识别单元,用于对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
步骤S42、将所有的权重指数Pl,k,i沿着l和k两个维度相加,得到最终所有切片的评价指数:
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
8.一种电子设备,其特征在于,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行如权利要求1-6任一项所述一种遥感图像目标细粒度识别方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-6任一项所述一种遥感图像目标细粒度识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210900356.5A CN115019182B (zh) | 2022-07-28 | 2022-07-28 | 遥感图像目标细粒度识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210900356.5A CN115019182B (zh) | 2022-07-28 | 2022-07-28 | 遥感图像目标细粒度识别方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019182A CN115019182A (zh) | 2022-09-06 |
CN115019182B true CN115019182B (zh) | 2023-03-24 |
Family
ID=83065272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210900356.5A Active CN115019182B (zh) | 2022-07-28 | 2022-07-28 | 遥感图像目标细粒度识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019182B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452972B (zh) * | 2023-03-17 | 2024-06-21 | 兰州交通大学 | 一种基于Transformer端到端的遥感图像车辆目标检测方法 |
CN116403122B (zh) * | 2023-04-14 | 2023-12-19 | 北京卫星信息工程研究所 | 无锚框定向目标检测方法 |
CN116740414B (zh) * | 2023-05-15 | 2024-03-01 | 中国科学院自动化研究所 | 图像识别方法、装置、电子设备和存储介质 |
CN116740370A (zh) * | 2023-05-18 | 2023-09-12 | 北京理工大学 | 一种基于深度自注意力变换网络的复杂目标识别方法 |
CN116933041B (zh) * | 2023-09-14 | 2024-05-03 | 深圳市力准传感技术有限公司 | 力传感器编号校对系统及方法 |
CN117994257A (zh) * | 2024-04-07 | 2024-05-07 | 中国机械总院集团江苏分院有限公司 | 基于深度学习的织物瑕疵分析检测系统及分析检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111723937A (zh) * | 2019-03-21 | 2020-09-29 | 北京三星通信技术研究有限公司 | 多媒体数据的描述信息的生成方法、装置、设备及介质 |
CN113299354A (zh) * | 2021-05-14 | 2021-08-24 | 中山大学 | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 |
CN113688813A (zh) * | 2021-10-27 | 2021-11-23 | 长沙理工大学 | 多尺度特征融合遥感影像分割方法、装置、设备和存储器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461415B2 (en) * | 2020-02-06 | 2022-10-04 | Microsoft Technology Licensing, Llc | Assessing semantic similarity using a dual-encoder neural network |
CN113989662B (zh) * | 2021-10-18 | 2023-02-03 | 中国电子科技集团公司第五十二研究所 | 一种基于自监督机制的遥感图像细粒度目标识别方法 |
CN114419449B (zh) * | 2022-03-28 | 2022-06-24 | 成都信息工程大学 | 一种自注意力多尺度特征融合的遥感图像语义分割方法 |
-
2022
- 2022-07-28 CN CN202210900356.5A patent/CN115019182B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723937A (zh) * | 2019-03-21 | 2020-09-29 | 北京三星通信技术研究有限公司 | 多媒体数据的描述信息的生成方法、装置、设备及介质 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN113299354A (zh) * | 2021-05-14 | 2021-08-24 | 中山大学 | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 |
CN113688813A (zh) * | 2021-10-27 | 2021-11-23 | 长沙理工大学 | 多尺度特征融合遥感影像分割方法、装置、设备和存储器 |
Also Published As
Publication number | Publication date |
---|---|
CN115019182A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115019182B (zh) | 遥感图像目标细粒度识别方法、系统、设备及存储介质 | |
CN107609601B (zh) | 一种基于多层卷积神经网络的舰船目标识别方法 | |
CN108460382A (zh) | 基于深度学习单步检测器的光学遥感图像舰船检测方法 | |
CN110555841B (zh) | 基于自注意图像融合和dec的sar图像变化检测方法 | |
CN113610070A (zh) | 一种基于多源数据融合的滑坡灾害识别方法 | |
CN116563726A (zh) | 一种基于卷积神经网络的遥感图像舰船目标检测方法 | |
CN115631127A (zh) | 一种工业缺陷检测的图像分割方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114241274A (zh) | 一种基于超分辨率多尺度特征融合的小目标检测方法 | |
CN114067124A (zh) | 一种基于detr-yolo的目标检测方法、装置及存储介质 | |
CN116071664A (zh) | 基于改进CenterNet网络的SAR图像舰船检测方法 | |
CN113408540A (zh) | 一种合成孔径雷达图像叠掩区提取方法及存储介质 | |
CN115019181A (zh) | 遥感图像旋转目标检测方法、电子设备及存储介质 | |
CN115984846A (zh) | 一种基于深度学习的高分辨率图像中小目标的智能识别方法 | |
CN117523394A (zh) | 一种基于聚合特征增强网络的sar船舰检测方法 | |
CN118154843A (zh) | 一种基于频域特征重建的遥感图像目标检测方法及系统 | |
Gui et al. | A scale transfer convolution network for small ship detection in SAR images | |
CN116051984B (zh) | 一种基于Transformer的弱小目标检测方法 | |
CN116434074A (zh) | 基于邻支互补显著性和多先验稀疏表征的目标识别方法 | |
CN115861922A (zh) | 一种稀疏烟火检测方法、装置、计算机设备及存储介质 | |
CN104851090A (zh) | 图像变化检测方法及装置 | |
CN108154107A (zh) | 一种确定遥感图像归属的场景类别的方法 | |
Zhou et al. | SAR ship detection network based on global context and multi-scale feature enhancement | |
CN115457120A (zh) | 一种gps拒止条件下的绝对位置感知方法与系统 | |
CN116503737B (zh) | 基于空间光学图像的船舶检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |