CN115019182A - 遥感图像目标细粒度识别方法、系统、设备及存储介质 - Google Patents

遥感图像目标细粒度识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115019182A
CN115019182A CN202210900356.5A CN202210900356A CN115019182A CN 115019182 A CN115019182 A CN 115019182A CN 202210900356 A CN202210900356 A CN 202210900356A CN 115019182 A CN115019182 A CN 115019182A
Authority
CN
China
Prior art keywords
target
feature
image
module
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210900356.5A
Other languages
English (en)
Other versions
CN115019182B (zh
Inventor
金世超
王进
贺广均
冯鹏铭
符晗
常江
刘世烁
梁银川
邹同元
张鹏
车程安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Satellite Information Engineering
Original Assignee
Beijing Institute of Satellite Information Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Satellite Information Engineering filed Critical Beijing Institute of Satellite Information Engineering
Priority to CN202210900356.5A priority Critical patent/CN115019182B/zh
Publication of CN115019182A publication Critical patent/CN115019182A/zh
Application granted granted Critical
Publication of CN115019182B publication Critical patent/CN115019182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种遥感图像目标细粒度识别方法、系统、设备及存储介质,获取至少一幅图像;利用卷积神经网络提取所述图像的多尺度特征;利用Transformer对所述多尺度特征图进行编码;利用特征融合金字塔网络对所述的编码后的多尺度特征图进行特征融合;利用融合后的特征图,采用旋转框检测头提取目标;利用旋转变换对提取的目标的特征进行对齐;利用Transformer对旋转变换后的目标特征图进行细粒度分类,得到目标细粒度识别结果。本发明提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的船只、飞机等目标细粒度识别。

Description

遥感图像目标细粒度识别方法、系统、设备及存储介质
技术领域
本发明涉及一种遥感图像目标细粒度识别方法、系统、设备及存储介质。
背景技术
随着卫星成像技术和商业航天的快速发展,对地观测呈现出“三高”(高空间分辨率、高光谱分辨率和高时间分辨率)和“三多”(多平台、多传感器和多角度)的发展趋势。其中,高分辨率卫星遥感数据所蕴藏的巨大国防价值和经济效益,已经成为国防安全、经济建设和社会公众信息服务等方面重要的空间信息源,具有广阔的应用前景。
目标检测识别一直是高分辨率遥感应用领域热点问题,现有识别通常基于卷积神经网络(CNN)的深度学习算法,但CNN算法存在如下困难:(1)目标检测模型泛化应用能力不足;(2)尺寸较小且密集分布目标漏检较多;(3)背景复杂、角度任意、目标长宽比差异大等造成的误检较多。
发明内容
鉴于上述技术问题,本发明将CNN与Transformer结合,提出一种基于Transformer和CNN混合结构的遥感图像目标识别模型,用于解决高分辨率遥感图像中密集目标检测和目标的细粒度识别问题,实现典型感兴趣遥感目标的精细识别。
实现本发明目的的技术解决方案为:一种遥感图像目标细粒度识别方法,包括以下步骤:
步骤S1、获取至少一幅高分辨率遥感图像,并将图像进行预处理;
步骤S2、提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
步骤S3、利用特征融合金字塔,完成特征图融合处理;
步骤S4、采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
根据本发明的一个方面,在所述步骤S1中,将图像进行预处理,至少包括:将图像裁切成大小为608×608的切片,并对切片进行归一化处理。
根据本发明的一个方面,在步骤S2中,具体包括:
步骤S21、以Resnet101作为主干网络,提取图像中目标的4个尺度特征,降采样4、8、16、32倍的特征P1,P2,P3,P4;
步骤S22、分别对特征P1-P4进行分区,基于Transformer结构的自注意力机制 ,对每个分区进行编码,输出特征图T1,T2,T3,T4。
根据本发明的一个方面,在步骤S22中,对特征P1-P4进行分区和编码,具体包括:
步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区,每一个分区内部的再划分成N×N的网格,其中,N的取值与最小目标的相对尺寸有关,目标越小,N越大;
步骤S222、对每一个网格内的特征进行位置投影和序列化处理,作为Transformer编码结构中多头注意力机制的输入,其公式为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
表示可学习的位置信息,E表示对切片原图做线性投影矩阵;
步骤S223、将特征
Figure 100002_DEST_PATH_IMAGE003
输入到多头注意力机制中,由Transformer编码成核心内容,包括特征的查询Q、键值K、特征值V矩阵,其公式为:
Figure 100002_DEST_PATH_IMAGE004
其中,h表示第h个注意头,
Figure 100002_DEST_PATH_IMAGE005
表示矩阵的维度;
由Q,K,V计算各个特征之间的自注意力权重矩阵A,其公式为:
Figure 100002_DEST_PATH_IMAGE006
其中,d表示特征的维度;
步骤S224、由自注意力权重A加权计算输出特征
Figure 100002_DEST_PATH_IMAGE007
,将特征矩阵拼接经过全连接层会得到输出
Figure 100002_DEST_PATH_IMAGE008
,其公式为:
Figure 100002_DEST_PATH_IMAGE009
其中,z表示输入特征,
Figure 598104DEST_PATH_IMAGE005
表示矩阵的维度;
步骤S225、将多头注意力模块输出的特征经过多层感知机模块后,就得到Transformer编码后的特征
Figure 100002_DEST_PATH_IMAGE010
,其公式为:
Figure 100002_DEST_PATH_IMAGE011
其中,MLP表达多层感知机。
根据本发明的一个方面,在步骤S3中,利用特征融合金字塔,完成特征图融合处理,具体包括:
步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块,得到特征图O1、O2、O3、O4,其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU;
步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理,其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加;
步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理;
步骤S34、融合后的各层特征层通过One_CBS模块输出。
根据本发明的一个方面,在完成特征图融合处理后,对融合后的特征图进行目标检测处理,具体包括:
步骤S35、采用旋转框检测头,提取目标位置边框和方位方向,利用非极大值抑制算法,剔除重复检测目标;
步骤S36、基于目标方向角度,采用旋转变换,对目标进行方位一致性校正和特征对齐,消除目标特征差异,其公式为:
Figure 100002_DEST_PATH_IMAGE012
其中,
Figure 100002_DEST_PATH_IMAGE013
表示变换后的左边,
Figure 100002_DEST_PATH_IMAGE014
表示变换前的坐标,变换前后坐标轴原点的相对位置偏移量
Figure 100002_DEST_PATH_IMAGE015
Figure 100002_DEST_PATH_IMAGE016
表示目标的方位方向角度,范围为(0,360)。
根据本发明的一个方面,在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
Figure 100002_DEST_PATH_IMAGE017
其中,
Figure 100002_DEST_PATH_IMAGE018
为模型中各Transformer层的自注意力权重,
Figure 100002_DEST_PATH_IMAGE019
和k分别表示第
Figure 432461DEST_PATH_IMAGE019
层和第k个头部注意力权重,
Figure 100002_DEST_PATH_IMAGE020
为权重指数,N表示图像切片数量;
步骤S42、将所有的权重指数
Figure 100002_DEST_PATH_IMAGE021
沿着
Figure 100002_DEST_PATH_IMAGE022
和k两个维度相加,得到最终所有切片的评价指数:
Figure 100002_DEST_PATH_IMAGE023
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
根据本发明的一个方面,提供了一种遥感图像目标细粒度识别系统,包括:
图片获取单元,用于获取至少一幅高分辨率遥感图像,并将图像进行预处理;
特征提取单元,用于提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
数据处理单元,用于利用特征融合金字塔,完成特征图融合处理;
目标识别单元,用于对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
根据本发明的一个方面,提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行如上述技术方案中任一项所述的一种遥感图像目标细粒度识别方法。
根据本发明的一个方面,提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,实现如上述技术方案中任一项所述一种遥感图像目标细粒度识别方法。
根据本发明的构思,提出一种遥感图像目标细粒度识别方法,首先利用CNN的平移不变性提取目标特征图,增强模型的多尺度特征提取能力;然后对特征进行区块化表达,并嵌入位置信息,构建聚焦地物方向的目标检测网络,实现目标的高精度检测;最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征,结合基于Transformer结构的自注意力机制,获取的整体特征及切片之间联系,实现复杂背景下的目标精细识别,有效地提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的船只、飞机等目标识别。
同时,为Transformer结构在遥感目标检测识别领域应用提供了新方法,为遥感目标的精细识别、方位方向评估提供了新的技术途径,具有较大的实际应用价值。
附图说明
图1示意性表示根据本发明一种实施方式的遥感图像目标细粒度识别方法的流程图;
图2示意性表示根据本发明一种实施方式的目标检测网格结构示意图;
图3示意性表示根据本发明一种实施方式的特征融合金字塔网络(Bi-FCN)示意图;
图4示意性表示根据本发明一种实施方式的基于自注意力机制池化的精细识别网络示意图;
图5示意性表示根据本发明另一种实施方式的遥感图像目标细粒度识别方法的流程图;
图6示意性表示根据本发明一种实施方式的步骤S2的流程图;
图7示意性表示根据本发明一种实施方式的步骤S3的部分流程图;
图8示意性表示根据本发明一种实施方式的遥感图像目标细粒度识别系统框架示意图。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅为本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1至图8所示,本发明的一种遥感图像目标细粒度识别方法,包括以下步骤:
步骤S1、获取至少一幅高分辨率遥感图像,并将图像进行预处理;
步骤S2、提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
步骤S3、利用特征融合金字塔,完成特征图融合处理;
步骤S4、采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
在该实施例中,首先利用CNN的平移不变性提取目标特征图,增强模型的多尺度特征提取能力;然后对特征进行区块化表达,并嵌入位置信息,构建聚焦地物方向的目标检测网络,实现目标的高精度检测;最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征,结合基于Transformer结构的自注意力机制,获取的整体特征及切片之间联系,实现复杂背景下的目标精细识别,有效地提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的船只、飞机等目标识别。
同时,为Transformer结构在遥感目标检测识别领域应用提供了新方法,为遥感目标的精细识别、方位方向评估提供了新的技术途径,具有较大的实际应用价值。
如图1所示,遥感图像目标细粒度识别方法具体步骤如下:步骤S101、由获取单元获取高分辨率遥感图像;步骤S102、读入高分辨率遥感图像、并进行预处理;步骤S103、卷积神经网络多尺度特征提取;步骤S104、采采用Transformer特征编码,输出特征图;步骤S105、利用双向特征融合金字塔网络完成特征融合;步骤S106、采用旋转框检测头进行旋转包围框目标检测,并剔除重复检测目标;步骤S107、旋转变换目标特征对齐,消除目标因成像角度差异带来的特征差异;步骤S108、利用Transformer进行目标细粒度分类;步骤S109、获得目标细粒度识别结果。
在本发明的一个实施例中,优选地,在所述步骤S1中,将图像进行预处理,至少包括:将图像裁切成大小为608×608的切片,并对切片进行归一化处理。
在该实施例中,由于不同设备的采集、成像因素等原因造成相同的目标在图像灰度信息上的不一致,图像归一化能够在保留具有识别价值的灰度差异的同时,减小甚至消除图像中灰度不一致,图像的归一化更有利于计算机自动分析处理,从而提升舰船目标的细粒度识别准确率,将图像切片处理,有利于减少后续算法的复杂度和提高效率。
如图2和图6所示,在本发明的一个实施例中,优选地,在步骤S2中,具体包括:
步骤S21、以Resnet101作为主干网络,提取图像中目标的4个尺度特征,降采样4、8、16、32倍的特征P1,P2,P3,P4;
步骤S22、分别对特征P1-P4进行分区,基于Transformer结构的自注意力机制 ,对每个分区进行编码,输出特征图T1,T2,T3,T4。
如图3所示,在本发明的一个实施例中,优选地,在步骤S22中,对特征P1-P4进行分区和编码,具体包括:
步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区,每一个分区内部的再划分成N×N的网格,其中,N的取值与最小目标的相对尺寸有关,目标越小,N越大;
步骤S222、对每一个网格内的特征进行位置投影和序列化处理,作为Transformer编码结构中多头注意力机制的输入,其公式为:
Figure 371467DEST_PATH_IMAGE001
其中,
Figure 725088DEST_PATH_IMAGE002
表示可学习的位置信息,E表示对切片原图做线性投影矩阵;
步骤S223、将特征
Figure 664225DEST_PATH_IMAGE003
输入到多头注意力机制中,由Transformer编码成核心内容,包括特征的查询Q、键值K、特征值V矩阵,其公式为:
Figure DEST_PATH_IMAGE024
其中,h表示第h个注意头,
Figure 805005DEST_PATH_IMAGE005
表示矩阵的维度;
由Q,K,V计算各个特征之间的自注意力权重矩阵A,其公式为:
Figure DEST_PATH_IMAGE025
其中,d表示特征的维度;
步骤S224、由自注意力权重A加权计算输出特征
Figure 411566DEST_PATH_IMAGE007
,将特征矩阵拼接经过全连接层会得到输出
Figure 936089DEST_PATH_IMAGE008
,其公式为:
Figure 346210DEST_PATH_IMAGE009
其中,z表示输入特征,
Figure 614381DEST_PATH_IMAGE005
表示矩阵的维度;
步骤S225、将多头注意力模块输出的特征经过多层感知机模块后,就得到Transformer编码后的特征
Figure 544290DEST_PATH_IMAGE010
,其公式为:
Figure 505293DEST_PATH_IMAGE011
其中,MLP表达多层感知机。
在本发明的一个实施例中,优选地,在步骤S3中,利用特征融合金字塔,完成特征图融合处理,具体包括:
步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块,得到特征图O1、O2、O3、O4,其公式为:
Oi = SiLU(Batch_Norm(Conv(Ci))),
其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU;
步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理,其公式为:
Ui=One_CBS(Upsample(Oi))+ Oi-1,
其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加;
步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理,其公式为:
Ai+1=One_CBS(Avgpooling(Ui))+ Ui-1;
步骤S34、融合后的各层特征层通过One_CBS模块输出。
如图7所示,在本发明的一个实施例中,优选地,在完成特征图融合处理后,对融合后的特征图进行目标检测处理,具体包括:
步骤S35、采用旋转框检测头,提取目标位置边框和方位方向,利用非极大值抑制算法,剔除重复检测目标;
步骤S36、基于目标方向角度,采用旋转变换,对目标进行方位一致性校正和特征对齐,消除目标特征差异,其公式为:
Figure DEST_PATH_IMAGE026
其中,
Figure 933869DEST_PATH_IMAGE013
表示变换后的左边,
Figure 615518DEST_PATH_IMAGE014
表示变换前的坐标,变换前后坐标轴原点的相对位置偏移量
Figure 790147DEST_PATH_IMAGE015
Figure 577843DEST_PATH_IMAGE016
表示目标的方位方向角度,范围为(0,360)。
在该实施例中,利用NMS(非极大值抑制)算法,剔除重复检测目标,有利于减少后续算法的复杂度和提高效率,同时能够提升识别的准确率,在进行识别前,还需要对目标进行方位一致性校正和特征对齐,消除目标因成像角度差异带来的特征差异,实现目标的精细识别,进一步地提升识别的准确率。
如图7所示,在本发明的一个实施例中,优选地,在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
Figure DEST_PATH_IMAGE027
其中,
Figure 244448DEST_PATH_IMAGE018
为模型中各Transformer层的自注意力权重,
Figure 981984DEST_PATH_IMAGE019
和k分别表示第
Figure 11120DEST_PATH_IMAGE019
层和第k个头部注意力权重,
Figure 923713DEST_PATH_IMAGE020
为权重指数,N表示图像切片数量;
步骤S42、将所有的权重指数
Figure 326881DEST_PATH_IMAGE021
沿着
Figure 474966DEST_PATH_IMAGE022
和k两个维度相加,得到最终所有切片的评价指数:
Figure DEST_PATH_IMAGE028
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
如图8所示,根据本发明的一个方面,提供了一种遥感图像目标细粒度识别系统,包括:
图片获取单元,用于获取至少一幅高分辨率遥感图像,并将图像进行预处理;
特征提取单元,用于提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
数据处理单元,用于利用特征融合金字塔,完成特征图融合处理;
目标识别单元,用于对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
根据本发明的一个方面,提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行如上述技术方案中任一项所述的一种遥感图像目标细粒度识别方法。
根据本发明的一个方面,提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,实现如上述技术方案中任一项所述一种遥感图像目标细粒度识别方法。
综上所述,本发明提出了一种遥感图像目标细粒度识别方法、系统、设备及存储介质,首先利用CNN的平移不变性提取目标特征图,增强模型的多尺度特征提取能力;然后对特征进行区块化表达,并嵌入位置信息,构建聚焦地物方向的目标检测网络,实现目标的高精度检测;最后基于所检测目标图像切片化的结构和CNN充分提取目标细节特征,结合基于Transformer结构的自注意力机制,获取的整体特征及切片之间联系,实现复杂背景下的目标精细识别,有效地提升了检测方法对目标局部特征和全局特征的整体提取能力,提高了目标细粒度识别精度,可应用于高分辨率遥感图像中的舰船、飞机等目标识别。
同时,为Transformer结构在遥感目标检测识别领域应用提供了新方法,为遥感目标的精细识别、方位方向评估提供了新的技术途径,具有较大的实际应用价值。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种遥感图像目标细粒度识别方法,包括以下步骤:
步骤S1、获取至少一幅高分辨率遥感图像,并将图像进行预处理;
步骤S2、提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
步骤S3、利用特征融合金字塔,完成特征图融合处理;
步骤S4、采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,将图像进行预处理,至少包括:将图像裁切成大小为608×608的切片,并对切片进行归一化处理。
3.根据权利要求1所述的方法,其特征在于,在步骤S2中,具体包括:
步骤S21、以Resnet101作为主干网络,提取图像中目标的4个尺度特征,降采样4、8、16、32倍的特征P1,P2,P3,P4;
步骤S22、分别对特征P1-P4进行分区,基于Transformer结构的自注意力机制 ,对每个分区进行编码,输出特征图T1,T2,T3,T4。
4.根据权利要求3所述的方法,其特征在于,在步骤S22中,对特征P1-P4进行分区和编码,具体包括:
步骤S221、将特征P1-P4分别划分8×8、4×4、2×2、1×1的分区,每一个分区内部的再划分成N×N的网格,其中,N的取值与最小目标的相对尺寸有关,目标越小,N越大;
步骤S222、对每一个网格内的特征进行位置投影和序列化处理,作为Transformer编码结构中多头注意力机制的输入,其公式为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示可学习的位置信息,E表示对切片原图做线性投影矩阵;
步骤S223、将特征
Figure DEST_PATH_IMAGE003
输入到多头注意力机制中,由Transformer编码成核心内容,包括特征的查询Q、键值K、特征值V矩阵,其公式为:
Figure DEST_PATH_IMAGE004
其中,h表示第h个注意头,
Figure DEST_PATH_IMAGE005
表示矩阵的维度;
由Q,K,V计算各个特征之间的自注意力权重矩阵A,其公式为:
Figure DEST_PATH_IMAGE006
其中,d表示特征的维度;
步骤S224、由自注意力权重A加权计算输出特征
Figure DEST_PATH_IMAGE007
,将特征矩阵拼接经过全连接层会得到输出
Figure DEST_PATH_IMAGE008
,其公式为:
Figure DEST_PATH_IMAGE009
其中,z表示输入特征,
Figure 908505DEST_PATH_IMAGE005
表示矩阵的维度;
步骤S225、将多头注意力模块输出的特征经过多层感知机模块后,就得到Transformer编码后的特征
Figure DEST_PATH_IMAGE010
,其公式为:
Figure DEST_PATH_IMAGE011
其中,MLP表达多层感知机。
5.根据权利要求1所述的方法,其特征在于,在步骤S3中,利用特征融合金字塔,完成特征图融合处理,具体包括:
步骤S31、将特征图T1、T2、T3、T4输入One_CBS模块,得到特征图O1、O2、O3、O4,其中One_CBS模块包括1×1的卷积Conv、批归一化Batch_Norm和激活函数SiLU;
步骤S32、将得到特征图O1、O2、O3、O4自上而下通过Up_CBS模块进行特征融合处理,其中Up_CBS模块包括上采样Upsample、One_CBS模块和特征层相加;
步骤S33、在将由Up_CBS模块输出的特征自下而上通过平均池化层进行融合处理;
步骤S34、融合后的各层特征层通过One_CBS模块输出。
6.根据权利要求5所述的方法,其特征在于,在完成特征图融合处理后,对融合后的特征图进行目标检测处理,具体包括:
步骤S35、采用旋转框检测头,提取目标位置边框和方位方向,利用非极大值抑制算法,剔除重复检测目标;
步骤S36、基于目标方向角度,采用旋转变换,对目标进行方位一致性校正和特征对齐,消除目标特征差异,其公式为:
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
表示变换后的左边,
Figure DEST_PATH_IMAGE014
表示变换前的坐标,变换前后坐标轴原点的相对位置偏移量
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
表示目标的方位方向角度,范围为(0,360)。
7.根据权利要求1所述的方法,其特征在于,在步骤S4中,采用Transformer编码层,对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,具体包括:
步骤S41、设计特征层重要性指数来评价某一个特征在自注意力中的重要性,其公式为:
Figure DEST_PATH_IMAGE017
其中,
Figure DEST_PATH_IMAGE018
为模型中各Transformer层的自注意力权重,
Figure DEST_PATH_IMAGE019
和k分别表示第
Figure 603141DEST_PATH_IMAGE019
层和第k个头部注意力权重,
Figure DEST_PATH_IMAGE020
为权重指数,N表示图像切片数量;
步骤S42、将所有的权重指数
Figure DEST_PATH_IMAGE021
沿着
Figure DEST_PATH_IMAGE022
和k两个维度相加,得到最终所有切片的评价指数:
Figure DEST_PATH_IMAGE023
步骤S43、从步骤S42中的向量P中选取最大的4个特征来源切片作为分类最重要的4个局部特征,其索引为P1,P2,P3,P4;将图像的分成4块,并降采样到P1尺寸,构成输出P5,P6,P7,P8;最后将整张图像同样降采样到P1尺寸,构成P9;
步骤S44、将上述得到包含目标整体轮廓特征和局部细节特征的P1-P9输入到新的Transformer编码层,进行目标的分类。
8.一种遥感图像目标细粒度识别系统,包括:
图片获取单元,用于获取至少一幅高分辨率遥感图像,并将图像进行预处理;
特征提取单元,用于提取图像中目标的多个尺度特征,引入基于Transformer结构的自注意力机制,输出特征图;
数据处理单元,用于利用特征融合金字塔,完成特征图融合处理;
目标识别单元,用于对目标融合后的特征图进行编码,利用构建的注意力池化、特征重组模块和新的Transformer编码层,对目标进行分类,得到目标细粒度识别结果。
9.一种电子设备,其特征在于,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行如权利要求1-7任一项所述一种遥感图像目标细粒度识别方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-7任一项所述一种遥感图像目标细粒度识别方法。
CN202210900356.5A 2022-07-28 2022-07-28 遥感图像目标细粒度识别方法、系统、设备及存储介质 Active CN115019182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210900356.5A CN115019182B (zh) 2022-07-28 2022-07-28 遥感图像目标细粒度识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210900356.5A CN115019182B (zh) 2022-07-28 2022-07-28 遥感图像目标细粒度识别方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115019182A true CN115019182A (zh) 2022-09-06
CN115019182B CN115019182B (zh) 2023-03-24

Family

ID=83065272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210900356.5A Active CN115019182B (zh) 2022-07-28 2022-07-28 遥感图像目标细粒度识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115019182B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403122A (zh) * 2023-04-14 2023-07-07 北京卫星信息工程研究所 无锚框定向目标检测方法
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN116740370A (zh) * 2023-05-18 2023-09-12 北京理工大学 一种基于深度自注意力变换网络的复杂目标识别方法
CN116740414A (zh) * 2023-05-15 2023-09-12 中国科学院自动化研究所 图像识别方法、装置、电子设备和存储介质
CN116933041B (zh) * 2023-09-14 2024-05-03 深圳市力准传感技术有限公司 力传感器编号校对系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质
US20210248192A1 (en) * 2020-02-06 2021-08-12 Microsoft Technology Licensing, Llc Assessing Semantic Similarity Using a Dual-Encoder Neural Network
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN113688813A (zh) * 2021-10-27 2021-11-23 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN113989662A (zh) * 2021-10-18 2022-01-28 中国电子科技集团公司第五十二研究所 一种基于自监督机制的遥感图像细粒度目标识别方法
CN114419449A (zh) * 2022-03-28 2022-04-29 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
US20210248192A1 (en) * 2020-02-06 2021-08-12 Microsoft Technology Licensing, Llc Assessing Semantic Similarity Using a Dual-Encoder Neural Network
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN113989662A (zh) * 2021-10-18 2022-01-28 中国电子科技集团公司第五十二研究所 一种基于自监督机制的遥感图像细粒度目标识别方法
CN113688813A (zh) * 2021-10-27 2021-11-23 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN114419449A (zh) * 2022-03-28 2022-04-29 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEXEY DOSOVITSKIY.ETC: ""AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE"", 《ARXIV》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN116403122A (zh) * 2023-04-14 2023-07-07 北京卫星信息工程研究所 无锚框定向目标检测方法
CN116403122B (zh) * 2023-04-14 2023-12-19 北京卫星信息工程研究所 无锚框定向目标检测方法
CN116740414A (zh) * 2023-05-15 2023-09-12 中国科学院自动化研究所 图像识别方法、装置、电子设备和存储介质
CN116740414B (zh) * 2023-05-15 2024-03-01 中国科学院自动化研究所 图像识别方法、装置、电子设备和存储介质
CN116740370A (zh) * 2023-05-18 2023-09-12 北京理工大学 一种基于深度自注意力变换网络的复杂目标识别方法
CN116933041B (zh) * 2023-09-14 2024-05-03 深圳市力准传感技术有限公司 力传感器编号校对系统及方法

Also Published As

Publication number Publication date
CN115019182B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN115019182B (zh) 遥感图像目标细粒度识别方法、系统、设备及存储介质
Wang et al. Sea ice concentration estimation during melt from dual-pol SAR scenes using deep convolutional neural networks: A case study
CN107239751B (zh) 基于非下采样轮廓波全卷积网络的高分辨sar图像分类方法
CN111127538B (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN114821357A (zh) 一种基于transformer的光学遥感目标检测方法
CN114241274B (zh) 一种基于超分辨率多尺度特征融合的小目标检测方法
CN111476159A (zh) 一种基于双角回归的检测模型训练、检测方法及装置
Zeng et al. Recognition and extraction of high-resolution satellite remote sensing image buildings based on deep learning
CN113610070A (zh) 一种基于多源数据融合的滑坡灾害识别方法
CN116563726A (zh) 一种基于卷积神经网络的遥感图像舰船目标检测方法
CN115631127A (zh) 一种工业缺陷检测的图像分割方法
CN115019181A (zh) 遥感图像旋转目标检测方法、电子设备及存储介质
CN114067124A (zh) 一种基于detr-yolo的目标检测方法、装置及存储介质
CN113408540A (zh) 一种合成孔径雷达图像叠掩区提取方法及存储介质
CN115984714B (zh) 一种基于双分支网络模型的云检测方法
CN112990107A (zh) 高光谱遥感图像水下目标检测方法、装置及计算机设备
CN115861922B (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN115471782B (zh) 一种面向无人艇的红外舰船目标检测方法及装置
CN115019174B (zh) 基于像素重组和注意力的上采样遥感图像目标识别方法
CN116994024A (zh) 集装箱图像中的部件识别方法、装置、设备、介质及产品
CN116051984A (zh) 一种基于Transformer的弱小目标检测方法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN115457120A (zh) 一种gps拒止条件下的绝对位置感知方法与系统
CN116503737B (zh) 基于空间光学图像的船舶检测方法和装置
Sannapu et al. Classification of marine vessels using deep learning models based on SAR images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant