CN116310863A - 一种多尺度差分特征增强的遥感图像变化检测方法和装置 - Google Patents

一种多尺度差分特征增强的遥感图像变化检测方法和装置 Download PDF

Info

Publication number
CN116310863A
CN116310863A CN202310131782.1A CN202310131782A CN116310863A CN 116310863 A CN116310863 A CN 116310863A CN 202310131782 A CN202310131782 A CN 202310131782A CN 116310863 A CN116310863 A CN 116310863A
Authority
CN
China
Prior art keywords
token
features
remote sensing
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310131782.1A
Other languages
English (en)
Inventor
李皓
刘晓勇
李辉辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202310131782.1A priority Critical patent/CN116310863A/zh
Publication of CN116310863A publication Critical patent/CN116310863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Astronomy & Astrophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)

Abstract

本发明公开了一种多尺度差分特征增强的遥感图像变化检测方法和装置,包括:将双时相遥感图像导入至图像导入模块,并由初始化模块对遥感图像进行初始化;将初始化的遥感图像输入到特征提取模块,所述特征提取模块对导入的遥感图像进行特征提取,得到三组不同尺度的差分特征;将三组差分特征输入到多尺度差分特征增强模块中,输出三组经过增强的差分特征;构建多尺度差分特征融合模块,输入三组经过增强的特征,最后输出一个逐点卷积层映射成的变化检测结果图;该方法将卷积神经网络和transformer进行结合,提高在高分辨率遥感图像数据下进行变化检测的准确率。

Description

一种多尺度差分特征增强的遥感图像变化检测方法和装置
技术领域
本发明涉及图像处理和遥感的交叉技术领域,特别涉及一种多尺度差分特征增强的遥感图像变化检测方法和装置。
背景技术
遥感图像变化检测一直是遥感领域研究的热点问题之一,随着高分辨率光学传感器的发展,现在已经可以更加容易地获取到不同区域的高分辨率多时相遥感影像,但是基于高分辨率遥感图像的变化检测也带来了更多复杂的问题:1、高分辨率遥感图像携带更多的信息,加大了数据处理的难度;2、由于太阳光照强度不同,季节变化差异等情况,相同的物体可能会呈现出不同的颜色偏移;同时,在不同时间采集的图像也由于传感器的位姿,视角不同而导致相同物体在图像中发生位置偏移的情况。上述问题都会加大变化检测的难度,导致模型无法区分“真正的变化”和“伪变化”。从高分辨率遥感图像的特征中提取最具区分度的特征信息,减少伪变化,是遥感变化检测领域的重要问题。
近年来,基于卷积神经网络的方法开始在计算机视觉和遥感领域中流行起来。对于低分辨率的遥感图像卷积神经网络很容易提取出包含了丰富的语义信息的特征,即变化的对象和不变的对象,后续通过特征组合或者度量学习可以得到变化图;但是不适用于更加精细以及纹理特征更加复杂的高分辨率遥感图像。相比于卷积神经网络,transformer结构拥有全局建模能力,可以更好捕捉到全局信息,但存在参数量多,模型大的问题。
发明内容
本发明的目的在于克服现有技术中的上述缺陷,提供一种多尺度差分特征增强的遥感图像变化检测方法和装置,该方法将卷积神经网络和transformer结构进行结合,充分利用它们各自的优点,并设计了多尺度的模型结构,使高级差分特征参与低级差分特征的生成,增强不同尺度特征的信息交流,提高在高分辨率遥感图像数据下进行变化检测的准确率。
为实现上述目的,本发明提供了一种多尺度差分特征增强的遥感图像变化检测方法,包括以下步骤:
步骤S1:将双时相遥感图像导入至图像导入模块,所述图像导入模块对遥感图像进行数据增强操作;并由初始化模块对遥感图像进行初始化;
步骤S2:将初始化的遥感图像输入到特征提取模块,所述特征提取模块对导入的遥感图像进行特征提取,得到三组不同尺度的差分特征;
步骤S3:将三组差分特征输入到多尺度差分特征增强模块中,它们各自通过对应层的tokenizer映射为tokens,再输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的差分特征;
步骤S4:构建多尺度差分特征融合模块,输入三组经过增强的特征,最后输出一个逐点卷积层映射成的变化检测结果图。
作为优选的,所述步骤S1中的初始化模块还包括损失函数,所述损失函数采用混合损失函数,即focal loss和dice loss的组合。
作为优选的,所述步骤S2中,导入双时相遥感图像T1,T2,构建特征提取模块,将图像T1,T2输入到共享权重的特征特征提取模块中得到两组分级的多尺度高维特征图Fi={TiConv1,TiConv2,TiConv3,TiConv4},i=1,2,并将Fi中的TiConv2,TiConv3,TiConv4分别concatenate起来作为输入下阶段的三组特征
Figure BDA0004084166460000031
公式为:
Figure BDA0004084166460000032
所述特征提取模块,包括一个卷积核大小为7x7的conv层后面接上batchnormalization(BN)和ReLU,再通过maxpooling层和三个ResBlock;ResBlock的结构包括一个3x3的conv层,一个batch normalization(BN)层,经过ReLU激活后,再输入一个3x3的conv层和一个batch normalization(BN)层,最后与原始输入相加,经过ReLU激活输出;三个ResBlock输出的特征深度是64,128,256;
特征提取模块的输入是两幅大小为H*W*3的遥感图像T1、T2,输出是三组特征,分别是:
Figure BDA0004084166460000033
大小为/>
Figure BDA0004084166460000034
大小为/>
Figure BDA0004084166460000035
Figure BDA0004084166460000036
大小为
Figure BDA0004084166460000037
作为优选的,所述步骤S3中,构建多尺度差分特征增强模块,由三层tokenizer,transformer-encoder和transformer-decoder组成;
输入三组经过卷积提取的特征
Figure BDA0004084166460000038
δ=2,3,4,通过tokenizer映射为tokens,再将tokens输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的特征/>
Figure BDA0004084166460000039
Figure BDA00040841664600000310
公式为:
Figure BDA00040841664600000311
Figure BDA00040841664600000312
Figure BDA0004084166460000041
公式中,
Figure BDA0004084166460000042
分别表示tokenizer生成的tokens和经过transformer-encoder编码的tokens。
作为优选的,所述tokenizer的结构具体包括:
Figure BDA0004084166460000043
为分级输入高维特征图;
其中H为高度;W为宽度;C为通道;
Figure BDA0004084166460000044
为tokens,其中L和C分别为tokens的个数和tokens维的大小;Tokens的个数L是可设置的参数,这里设置为8;对高维特征/>
Figure BDA0004084166460000045
的每个像素进行Conv2d,即逐点卷积,卷积核大小为1*1,得到L组语义组合,然后利用softmax函数对语义组合的H,W维进行操作,计算出空间注意力图,通过注意力映射计算/>
Figure BDA0004084166460000046
中像素的加权平均和,得到一组tokens;
最后,将上一层的tokens做1D卷积并加入到该层上;在公式(2)中可看出,在特征
Figure BDA0004084166460000047
生成tokens的操作与/>
Figure BDA0004084166460000048
和/>
Figure BDA0004084166460000049
不同,并没有上一层tokens的加入;
对于输入
Figure BDA00040841664600000410
经过tokenizer输出/>
Figure BDA00040841664600000411
大小为8*512;
输入
Figure BDA00040841664600000412
经过tokenizer输出/>
Figure BDA00040841664600000413
大小为8*256;
输入
Figure BDA00040841664600000414
经过tokenizer输出/>
Figure BDA00040841664600000415
大小为8*128。
作为优选的,所述transformer-encoder的结构具体包括:该结构由多头自注意块(MSA)和多层感知器块(MLP)组成;在每个块之前应用层归一化(LN);残差连接在每个块后应用;MLP包含两层具有高斯误差的线性单元(GELU)激活;
对于步骤S3中的公式(3)的transformer-encoder内部每一层的计算过程如下:
T0=Tin+Epos#(5)
T′1=MSA(LN(T0))+T0#(6)
T1=MLP(LN(T1))+T′1#(7)
Tout=LN(T1)#(8)
在公式中,Tin表示从Tokenizer输出的tokens,Epos表示一组可学习的位置嵌入(PE),
Figure BDA0004084166460000051
他们相加得到T0,表示tokens学到了位置信息;LN表示Layer-normalization;Tout表示transformer-encoder的输出;三组tokens输入和输出的大小不变。
作为优选的,所述transformer-decoder的结构具体包括:
将transformer-encoder的输出与特征图Fcate融合,利用tokens的高级语义信息细化特征图的像素阵列表示;公式如下:
Figure BDA0004084166460000052
Z′1=MA(Tout,LN(Z0))+Z0#(10)
Z1=MLP(LN(z′1))+Z′1#(11)
Zout=LN(Z1)#(12)
Fout=σ(Zout)#(13)
上式中Tout,TIn_F分别表示transformer-encoder的输出以及经过reshape成tokens的原始特征Fcate;σ表示反卷积和reshape操作,将tokens转换为特征图;在MA中,两部分输入来自于图像特征Fcate和tokens;
其他模块的实现与transformer-encoder的相同;最终,输出三组经过增强的特征
Figure BDA0004084166460000061
大小分别为/>
Figure BDA0004084166460000062
Figure BDA0004084166460000063
作为优选的,所述步骤S4中,所述多尺度差分特征融合模块,输入三组经过增强的特征,上采样融合多尺度特征,最后通过一个1*1卷积层映射成大小为H*W*2的变化检测结果图;
所述多尺度特征图转换为tokens经过transformer编解码后获得了更精细的变化特征图;将这些不同尺度的特征图融合就可以得到最终的变化图;每一个上采样模块主要包括了一个卷积核为3*3,步长为2的转置卷积层(TransposedConv),一个batchnormalization,ReLU和一个卷积核为3*3,步长为1的转置卷积层(TransposedConv);
输入多尺度增强特征图
Figure BDA0004084166460000064
他们的大小分别是/>
Figure BDA0004084166460000065
Figure BDA0004084166460000066
计算过程如下:
Figure BDA0004084166460000067
在公式中Conv1x1表示卷积核为1x1的卷积层,σi,i=2,3,4表示转置卷积层TransposedConvi,i=2,3,4,changemap表示最终输出的变化图,大小为H*W*2。
作为优选的,所述损失函数采用混合损失函数,即focal loss和diceloss的组合,公式定义为
L=FL(Pt)+Ldice#(15)
FL(Pt)=-αt(1-Pt)γlog(Pt)#(16)
Figure BDA0004084166460000068
其中,FL(Pt)表示focal loss,Pt表示不同类别的分类概率,这里表示变化的概率和不变化的概率,αt和γ设为定值,设为0.25和2;
Ldice表示dice loss;其中Y和Y分别表示训练图像对的预测概率和ground truth标签。
本发明还提供了一种多尺度差分特征增强的遥感图像变化检测装置,用于执行上述所述的一种多尺度差分特征增强的遥感图像变化检测方法;还包括图像导入模块、初始化模块、特征提取模块、多尺度差分特征增强模块和多尺度差分特征融合模块;各个模块的功能分别如下:
图像导入模块,用于对双时相遥感图像的导入,并进行常见数据增强操作;
初始化模块,用于初始化模块参数,学习率,损失函数参数,batch的大小;
特征提取模块,用于提取双时相遥感图像的多尺度特征;
多尺度差分特征增强模块,用于增强特征中最具有判别性的特征,包括了tokenizer、transformer-encoder和transformer-decoder三个部分,分别用于将特征转换为token空间、对token进行编码和解码还原回特征的像素空间;
多尺度差分特征融合模块,用于把经过增强的多尺度特征,进行逐层上采样融合,生成变化检测结果图。
与现有技术相比,本发明的有益效果在于:
1、本发明提供的一种多尺度差分特征增强的遥感图像变化检测方法:首先,进行双时相遥感图像的导入,对导入的遥感图像进行特征提取,得到三组不同尺度的差分特征;其次,将三组差分特征输入到多尺度差分特征增强模块中,它们各自通过对应层的tokenizer映射为tokens,再输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的差分特征;再次,构建多尺度差分特征融合模块,输入三组经过增强的特征,上采样融合多尺度特征;最后,通过一个逐点卷积层映射成的变化检测结果图;对于训练模型时用到的损失函数,考虑到遥感图像变化检测任务的样本不平衡问题,采用混合损失函数,即focal loss和dice loss的组合。基于此,该模型在对于纹理特征更加复杂的高分辨率遥感图像下,仍然能区分“真正的变化”和“伪变化”。
2、本发明多尺度差分特征增强的遥感图像变化检测方法中,设计的多尺度差分特征增强模块由三层tokenizer,transformer-encoder和transformer-decoder组成。Tokenizer可以将特征抽象成token,将变化信息映射到token空间,方便后续使用transformer进行全局建模;transformer-encoder和transformer-decoder可以利用多头自注意力机制对token进行全局建模,有利于挖掘出token中关键的变化信息。
3、本发明多尺度差分特征增强的遥感图像变化检测方法中,多尺度的特征编解码结构,使高级差分特征参与低级差分特征的生成,增强不同尺度特征的信息交流,融合高级特征高语义信息与低级特征高空间信息,改进变化检测结果图中目标的边界完整性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种多尺度差分特征增强的遥感图像变化检测方法的流程图;
图2是本发明提供的特征提取模块的结构示意图;
图3是本发明提供的tokenizer的结构示意图;
图4是本发明提供的transformer-encoder和transformer-decoder的结构示意图;
图5是本发明提供的多尺度差分特征融合模块的结构示意图。
具体实施方式
下面将结合本发明本实施方式中的附图,对本发明本实施方式中的技术方案进行清楚、完整地描述,显然,所描述的本实施方式是本发明的一种实施方式,而不是全部的本实施方式。基于本发明中的本实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他本实施方式,都属于本发明保护的范围。
实施例一
请参考图1至图5,一种多尺度差分特征增强的遥感图像变化检测方法,该方法将卷积神经网络和transformer进行结合,充分利用它们各自的优点,提高在高分辨率遥感图像数据下进行变化检测的准确率,如图1所示,该方法包括以下步骤:
步骤S1:将双时相遥感图像导入至图像导入模块,所述图像导入模块对遥感图像进行数据增强操作;并由初始化模块对遥感图像进行初始化;
步骤S2:将初始化的遥感图像输入到特征提取模块,所述特征提取模块对导入的遥感图像进行特征提取,得到三组不同尺度的差分特征;
具体的,导入双时相遥感图像T1,T2;构建特征提取模块,将图像T1,T2输入到共享权重的特征特征提取模块中得到两组分级的多尺度高维特征图Fi={TiConv1,TiConv2,TiConv3,TiConv4},i=1,2,并将Fi中的T(Conv2,T(Conv3,TiConv4分别concatenate起来作为输入下阶段的三组特征
Figure BDA0004084166460000101
公式为:
Figure BDA0004084166460000102
参照图2,特征提取模块如图2所示,包括一个卷积核大小为7x7的conv层后面接上batch normalization(BN)和ReLU,再通过maxpooling层和三个ResBlock。ResBlock的结构包括一个3x3的conv层,一个batch normalization(BN)层,经过ReLU激活后,再输入一个3x3的conv层和一个batch normalization(BN)层,最后与原始输入相加,经过ReLU激活输出。三个ResBlock输出的特征深度是64,128,256。
特征提取模块的输入是两幅大小为H*W*3的遥感图像T1、T2,输出是三组特征,分别是:
Figure BDA0004084166460000103
大小为/>
Figure BDA0004084166460000104
大小为/>
Figure BDA0004084166460000105
Figure BDA0004084166460000106
大小为/>
Figure BDA0004084166460000107
步骤S3:将三组差分特征输入到多尺度差分特征增强模块中,它们各自通过对应层的tokenizer映射为tokens,再输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的差分特征;
具体的,构建多尺度差分特征增强模块,由三层tokenizer,transformer-encoder和transformer-decoder组成,输入步骤S2中三组经过卷积提取的特征
Figure BDA0004084166460000111
通过tokenizer映射为tokens,再将tokens输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的特征
Figure BDA0004084166460000112
公式为:
Figure BDA0004084166460000113
Figure BDA0004084166460000114
Figure BDA0004084166460000115
公式中,
Figure BDA0004084166460000116
分别表示tokenizer生成的tokens和经过transformer-encoder编码的tokens。
参照图3,更具体地说明公式(2)中tokenizer的结构。
Figure BDA0004084166460000117
,δ=2,3,4为分级输入高维特征图,其中H为高度;W为宽度;C为通道;
Figure BDA0004084166460000118
为tokens,其中L和C分别为tokens的个数和tokens维的大小。Tokens的个数L是可设置的参数,这里设置为8。对高维特征/>
Figure BDA0004084166460000119
的每个像素进行Conv2d,即逐点卷积,卷积核大小为1*1,得到L组语义组合,然后利用softmax函数对语义组合的H,W维进行操作,计算出空间注意力图,通过注意力映射计算/>
Figure BDA00040841664600001110
中像素的加权平均和,得到一组tokens。最后,将上一层的tokens做1D卷积并加入到该层上。需要注意的是,在公式(2)中可看出,在特征/>
Figure BDA00040841664600001111
生成tokens的操作与/>
Figure BDA00040841664600001112
和/>
Figure BDA00040841664600001113
不同,并没有上一层tokens的加入。对于输入/>
Figure BDA00040841664600001114
经过tokenizer输出/>
Figure BDA00040841664600001115
大小为8*512;输入/>
Figure BDA00040841664600001116
经过tokenizer输出
Figure BDA00040841664600001117
大小为8*256;输入/>
Figure BDA00040841664600001118
经过tokenizer输出/>
Figure BDA00040841664600001119
大小、为8*128;
参照图4,为transformer-encoder和transformer-decoder的结构。
如图4(a)所示,为transformer-encoder结构,该结构由多头自注意(MSA)块和多层感知器(MLP)块组成。在每个块之前应用层归一化(LN)。残差连接在每个块后应用。MLP包含两层具有高斯误差的线性单元(GELU)激活。对于步骤S3中的公式(3)的transformer-encoder内部每一层的计算过程如下:
T0=Tin+Epos#(5)
T′1=MSA(LN(T0))+T0#(6)
T1=MLP(LN(T1))+T′1#(7)
Tout=LN(T1)#(8)
在公式中,Tin表示从Tokenizer输出的tokens,Epos表示一组可学习的位置嵌入(PE),
Figure BDA0004084166460000121
他们相加得到T0,表示tokens学到了位置信息。LN表示Layer-normalization。Tout表示transformer-encoder的输出。三组tokens输入和输出的大小不变。
如图4(b)所示,为transformer-decoder结构,将transformer-encoder的输出与特征图Fcate融合,利用tokens的高级语义信息细化特征图的像素阵列表示。公式如下:
Figure BDA0004084166460000122
Z′1=MA(Tout,LN(Z0))+Z0#(10)
Z1=MLP(LN(z′1))+Z′1#(11)
Zout=LN(Z1)#(12)
Fout=σ(Zout)#(13)
上式中Tout,TIn_F分别表示transformer-encoder的输出以及经过reshape成tokens的原始特征Fcate。σ表示反卷积和reshape操作,将tokens转换为特征图。在MA中,两部分输入来自于图像特征Fcate和tokens。其他模块的实现与transformer-encoder的相同。最终,输出三组经过增强的特征
Figure BDA0004084166460000131
大小分别为/>
Figure BDA0004084166460000132
步骤S4:构建多尺度差分特征融合模块,输入三组经过增强的特征,上采样融合多尺度特征,最后通过一个1*1卷积层映射成大小为H*W*2的变化检测结果图。
参照图5,为多尺度差分特征融合模块。原有的多尺度特征图转换为tokens经过transformer编解码后获得了更精细的变化特征图。现在只需要将这些不同尺度的特征图融合就可以得到最终的变化图。每一个上采样模块主要包括了一个卷积核为3*3,步长为2的转置卷积层(TransposedConv),一个batch normalization,ReLU和一个卷积核为3*3,步长为1的转置卷积层(TransposedConv)。整体的特征融合模块如图所示,输入步骤S3中的多尺度增强特征图
Figure BDA0004084166460000133
他们的大小分别是/>
Figure BDA0004084166460000134
计算过程如下:
Figure BDA0004084166460000135
在公式中Conv1x1表示卷积核为1x1的卷积层,σi,i=2,3,4表示转置卷积层TransposedConvi,i=2,3,4,changemap表示最终输出的变化图,大小为H*W*2。
所述步骤S1中的初始化模块还包括损失函数,所述损失函数采用混合损失函数,即focal loss和dice loss的组合。
在定义训练模型时用到的损失函数时,需要考虑到遥感图像变化检测任务中,不变像素的数量往往远远大于变化像素的数量。为了减弱样本不平衡的影响,这里采用混合损失函数,即focal loss和dice loss的组合,公式定义为:
L=FL(Pt)+Ldice#(15)
FL(Pt)=-αt(1-Pt)γlog(Pt)#(16)
Figure BDA0004084166460000141
其中,FL(Pt)表示focal loss,Pt表示不同类别的分类概率,这里表示变化的概率和不变化的概率,αt和γ设为定值,设为0.25和2。Ldice表示dice loss。其中Y和Y分别表示训练图像对的预测概率和ground truth标签。
实施例二
本实施例公开了一种多尺度差分特征增强的遥感图像变化检测装置,用于执行实施例一所述的一种多尺度差分特征增强的遥感图像变化检测方法;还包括图像导入模块、初始化模块、特征提取模块、多尺度差分特征增强模块和多尺度差分特征融合模块;各个模块的功能分别如下:
图像导入模块,用于对双时相遥感图像的导入,并进行常见数据增强操作;如水平和垂直翻转、旋转和高斯模糊;
初始化模块,用于初始化模块参数,学习率,损失函数参数,batch的大小;
特征提取模块,用于提取双时相遥感图像的多尺度特征;
多尺度差分特征增强模块,用于增强特征中最具有判别性的特征,包括了tokenizer、transformer-encoder和transformer-decoder三个部分,分别用于将特征转换为token空间、对token进行编码和解码还原回特征的像素空间;
多尺度差分特征融合模块,用于把经过增强的多尺度特征,进行逐层上采样融合,生成变化检测结果图。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:包括以下步骤:
步骤S1:将双时相遥感图像导入至图像导入模块,所述图像导入模块对遥感图像进行数据增强操作;并由初始化模块对遥感图像进行初始化;
步骤S2:将初始化的遥感图像输入到特征提取模块,所述特征提取模块对导入的遥感图像进行特征提取,得到三组不同尺度的差分特征;
步骤S3:将三组差分特征输入到多尺度差分特征增强模块中,它们各自通过对应层的tokenizer映射为tokens,再输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的差分特征;
步骤S4:构建多尺度差分特征融合模块,输入三组经过增强的特征,最后输出一个逐点卷积层映射成的变化检测结果图。
2.根据权利要求1所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述步骤S1中的初始化模块还包括损失函数,所述损失函数采用混合损失函数,即focal loss和dice loss的组合。
3.根据权利要求1所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述步骤S2中,导入双时相遥感图像T1,T2,构建特征提取模块,将图像T1,T2输入到共享权重的特征特征提取模块中得到两组分级的多尺度高维特征图Fi={TiConv1,TiConv2,TiConv3,TiConv4},i=1,2,并将Fi中的TiConv2,TiConv3,TiConv4分别concatenate起来作为输入下阶段的三组特征
Figure FDA0004084166450000011
公式为:
Figure FDA00040841664500000213
所述特征提取模块,包括一个卷积核大小为7x7的conv层后面接上batchnormalization(BN)和ReLU,再通过maxpooling层和三个ResBlock;ResBlock的结构包括一个3x3的conv层,一个batch normalization(BN)层,经过ReLU激活后,再输入一个3x3的conv层和一个batch normalization(BN)层,最后与原始输入相加,经过ReLU激活输出;三个ResBlock输出的特征深度是64,128,256;
特征提取模块的输入是两幅大小为H*W*3的遥感图像T1、T2,输出是三组特征,分别是:
Figure FDA0004084166450000021
大小为/>
Figure FDA0004084166450000022
大小为/>
Figure FDA0004084166450000023
Figure FDA0004084166450000024
大小为/>
Figure FDA0004084166450000025
4.根据权利要求3所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述步骤S3中,构建多尺度差分特征增强模块,由三层tokenizer,transformer-encoder和transformer-decoder组成;
输入三组经过卷积提取的特征
Figure FDA0004084166450000026
通过tokenizer映射为tokens,再将tokens输入transformer-encoder和transformer-decoder进行重新编解码,输出三组经过增强的特征/>
Figure FDA0004084166450000027
Figure FDA0004084166450000028
公式为:
Figure FDA0004084166450000029
Figure FDA00040841664500000210
Figure FDA00040841664500000211
公式中,
Figure FDA00040841664500000212
分别表示tokenizer生成的tokens和经过transformer-encoder编码的tokens。
5.根据权利要求4所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述tokenizer的结构具体包括:
Figure FDA0004084166450000031
为分级输入高维特征图;
其中H为高度;W为宽度;C为通道;
Figure FDA0004084166450000032
为tokens,其中L和C分别为tokens的个数和tokens维的大小;Tokens的个数L是可设置的参数,这里设置为8;对高维特征/>
Figure FDA0004084166450000033
的每个像素进行Conv2d,即逐点卷积,卷积核大小为1*1,得到L组语义组合,然后利用softmax函数对语义组合的H,W维进行操作,计算出空间注意力图,通过注意力映射计算/>
Figure FDA0004084166450000034
中像素的加权平均和,得到一组tokens;
最后,将上一层的tokens做1D卷积并加入到该层上;在公式(2)中可看出,在特征
Figure FDA0004084166450000035
生成tokens的操作与/>
Figure FDA0004084166450000036
和/>
Figure FDA0004084166450000037
不同,并没有上一层tokens的加入;
对于输入
Figure FDA0004084166450000038
经过tokenizer输出/>
Figure FDA0004084166450000039
大小为8*512;
输入
Figure FDA00040841664500000310
经过tokenizer输出/>
Figure FDA00040841664500000311
大小为8*256;
输入
Figure FDA00040841664500000312
经过tokenizer输出/>
Figure FDA00040841664500000313
大小为8*128。
6.根据权利要求5所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述transformer-encoder的结构具体包括:该结构由多头自注意块(MSA)和多层感知器块(MLP)组成;在每个块之前应用层归一化(LN);残差连接在每个块后应用;MLP包含两层具有高斯误差的线性单元(GELU)激活;
对于步骤S3中的公式(3)的transformer-encoder内部每一层的计算过程如下:
T0=Tin+Epos#(5)
T′1=MSA(LN(T0))+T0#(6)
T1=MLP(LN(T1))+T′1#(7)
Tout=LN(T1)#(8)
在公式中,Tin表示从Tokenizer输出的tokens,Epos表示一组可学习的位置嵌入(PE),
Figure FDA0004084166450000041
他们相加得到T0,表示tokens学到了位置信息;LN表示Layer-normalization;Tout表示transformer-encoder的输出;三组tokens输入和输出的大小不变。
7.根据权利要求6所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述transformer-decoder的结构具体包括:
将transformer-encoder的输出与特征图Fcate融合,利用tokens的高级语义信息细化特征图的像素阵列表示;公式如下:
Figure FDA0004084166450000042
Z′1=MA(Tout,LN(Z0))+Z0#(10)
Z1=MLP(LN(z′1))+Z′1#(11)
Zout=LN(Z1)#(12)
Fout=σ(Zout)#(13)
上式中Tout,TIn_F分别表示transformer-encoder的输出以及经过reshape成tokens的原始特征Fcate;σ表示反卷积和reshape操作,将tokens转换为特征图;在MA中,两部分输入来自于图像特征Fcate和tokens;
其他模块的实现与transformer-encoder的相同;最终,输出三组经过增强的特征
Figure FDA0004084166450000051
大小分别为/>
Figure FDA0004084166450000052
Figure FDA0004084166450000053
8.根据权利要求7所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述步骤S4中,所述多尺度差分特征融合模块,输入三组经过增强的特征,上采样融合多尺度特征,最后通过一个1*1卷积层映射成大小为H*W*2的变化检测结果图;
所述多尺度特征图转换为tokens经过transformer编解码后获得了更精细的变化特征图;将这些不同尺度的特征图融合就可以得到最终的变化图;每一个上采样模块主要包括了一个卷积核为3*3,步长为2的转置卷积层(TransposedConv),一个batchnormalization,ReLU和一个卷积核为3*3,步长为1的转置卷积层(TransposedConv);
输入多尺度增强特征图
Figure FDA0004084166450000054
δ=2,3,4,他们的大小分别是/>
Figure FDA0004084166450000055
Figure FDA0004084166450000056
计算过程如下:
Figure FDA0004084166450000057
在公式中Conv1x1表示卷积核为1x1的卷积层,σi,i=2,3,4表示转置卷积层TransposedConvi,i=2,3,4,changemap表示最终输出的变化图,大小为H*W*2。
9.根据权利要求2所述的一种多尺度差分特征增强的遥感图像变化检测方法,其特征在于:所述损失函数采用混合损失函数,即focal loss和dice loss的组合,公式定义为
L=FL(Pt)+Ldice#(15)
FL(Pt)=-αt(1-Pt)γlog(Pt)#(16)
Figure FDA0004084166450000061
其中,FL(Pt)表示focal loss,Pt表示不同类别的分类概率,这里表示变化的概率和不变化的概率,αt和γ设为定值,设为0.25和2;
Ldice表示dice loss;其中Y和Y分别表示训练图像对的预测概率和ground truth标签。
10.一种多尺度差分特征增强的遥感图像变化检测装置,其特征在于:用于执行权利要求1至9中任意一项所述的一种多尺度差分特征增强的遥感图像变化检测方法;还包括图像导入模块、初始化模块、特征提取模块、多尺度差分特征增强模块和多尺度差分特征融合模块;各个模块的功能分别如下:
图像导入模块,用于对双时相遥感图像的导入,并进行常见数据增强操作;
初始化模块,用于初始化模块参数,学习率,损失函数参数,batch的大小;
特征提取模块,用于提取双时相遥感图像的多尺度特征;
多尺度差分特征增强模块,用于增强特征中最具有判别性的特征,包括了tokenizer、transformer-encoder和transformer-decoder三个部分,分别用于将特征转换为token空间、对token进行编码和解码还原回特征的像素空间;
多尺度差分特征融合模块,用于把经过增强的多尺度特征,进行逐层上采样融合,生成变化检测结果图。
CN202310131782.1A 2023-02-18 2023-02-18 一种多尺度差分特征增强的遥感图像变化检测方法和装置 Pending CN116310863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310131782.1A CN116310863A (zh) 2023-02-18 2023-02-18 一种多尺度差分特征增强的遥感图像变化检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310131782.1A CN116310863A (zh) 2023-02-18 2023-02-18 一种多尺度差分特征增强的遥感图像变化检测方法和装置

Publications (1)

Publication Number Publication Date
CN116310863A true CN116310863A (zh) 2023-06-23

Family

ID=86802314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310131782.1A Pending CN116310863A (zh) 2023-02-18 2023-02-18 一种多尺度差分特征增强的遥感图像变化检测方法和装置

Country Status (1)

Country Link
CN (1) CN116310863A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668494A (zh) * 2020-12-31 2021-04-16 西安电子科技大学 基于多尺度特征提取的小样本变化检测方法
WO2022126904A1 (zh) * 2020-12-18 2022-06-23 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
WO2022199143A1 (zh) * 2021-03-26 2022-09-29 南京邮电大学 一种基于u型网络的医学图像分割方法
CN115147284A (zh) * 2022-08-03 2022-10-04 中国工商银行股份有限公司 视频处理方法、装置、计算机设备和存储介质
CN115205949A (zh) * 2022-09-05 2022-10-18 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN115512378A (zh) * 2022-06-30 2022-12-23 浙江工业大学 一种基于Transformer的中文环境数学公式提取及识别方法
CN115690002A (zh) * 2022-10-11 2023-02-03 河海大学 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126904A1 (zh) * 2020-12-18 2022-06-23 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
CN112668494A (zh) * 2020-12-31 2021-04-16 西安电子科技大学 基于多尺度特征提取的小样本变化检测方法
WO2022199143A1 (zh) * 2021-03-26 2022-09-29 南京邮电大学 一种基于u型网络的医学图像分割方法
CN115512378A (zh) * 2022-06-30 2022-12-23 浙江工业大学 一种基于Transformer的中文环境数学公式提取及识别方法
CN115147284A (zh) * 2022-08-03 2022-10-04 中国工商银行股份有限公司 视频处理方法、装置、计算机设备和存储介质
CN115205949A (zh) * 2022-09-05 2022-10-18 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN115690002A (zh) * 2022-10-11 2023-02-03 河海大学 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALESSANDRO RAGANATO: ""an analysis of encoder representation in transformer based machine translate"", 《PROCEEDINGS OF THE 2018 EMNLP WORKSHOP BLACKBOXNLP》, 31 December 2018 (2018-12-31) *
JIENENG CHEN: ""transunet: transformer make strong encoders for medical image segmentation"", 《ARXIV》, 8 February 2021 (2021-02-08) *
李知微: ""多源短文本语义分析与立场检测方法设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2023 (2023-01-15) *

Similar Documents

Publication Publication Date Title
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
Nandhini Abirami et al. Deep CNN and Deep GAN in Computational Visual Perception‐Driven Image Analysis
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111127468B (zh) 一种道路裂缝检测方法和装置
CN113850825A (zh) 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN110598600A (zh) 一种基于unet神经网络的遥感图像云检测方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN112347859A (zh) 一种光学遥感图像显著性目标检测方法
CN111079683A (zh) 基于卷积神经网络的遥感图像云雪检测方法
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN114155481A (zh) 一种基于语义分割的非结构化田间道路场景识别方法及装置
Shi et al. Single‐shot detector with enriched semantics for PCB tiny defect detection
CN111127472A (zh) 一种基于权重学习的多尺度图像分割方法
CN114882524A (zh) 一种基于全卷积神经网络的单目三维手势估计方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Hsu et al. Image super-resolution using capsule neural networks
Fan et al. A novel sonar target detection and classification algorithm
CN116012395A (zh) 一种基于深度可分离卷积的多尺度融合烟雾分割方法
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN116310863A (zh) 一种多尺度差分特征增强的遥感图像变化检测方法和装置
CN115829942A (zh) 基于非负性约束稀疏自编码器的电子电路缺陷检测方法
CN115082371A (zh) 图像融合方法、装置、移动终端设备及可读存储介质
CN112085702A (zh) 一种基于关键区域稀疏深度的单目深度估计方法
CN116503737B (zh) 基于空间光学图像的船舶检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination