CN116580243A - 一种掩码图像建模引导域适应的跨域遥感场景分类方法 - Google Patents
一种掩码图像建模引导域适应的跨域遥感场景分类方法 Download PDFInfo
- Publication number
- CN116580243A CN116580243A CN202310594974.6A CN202310594974A CN116580243A CN 116580243 A CN116580243 A CN 116580243A CN 202310594974 A CN202310594974 A CN 202310594974A CN 116580243 A CN116580243 A CN 116580243A
- Authority
- CN
- China
- Prior art keywords
- domain
- feature
- image
- encoder
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000000873 masking effect Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 10
- 238000013507 mapping Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种掩码图像建模引导域适应的跨域遥感场景分类方法,包括:构建域适应网络,对自编码器进行无标注的自监督预训练,得到预训练后的自编码器模型参数;将自编码器模型参数加载到自编码器中,将数据输入到域适应网络中,利用自编码器对源域图像和目标域图像进行掩码图像建模;利用特征适应模块对齐源域和目标域的高级语义特征分布;以及基于数据构建总体目标损失函数,并优化总体目标损失函数来迭代训练域适应网络,移除自编码器的解码器部分,利用自编码器的编码器和特征适应模块测试目标域图像,获得良好的场景分类结果。本发明在进行域不变特征提取的过程中保留域特定特征,进一步提升对于无标注数据目标域的分类泛化能力。
Description
技术领域
本发明涉及光学遥感图像场景分类技术领域,具体涉及一种掩码图像建模引导域适应的跨域遥感场景分类方法。
背景技术
遥感图像场景分类是指根据遥感场景的内容进行语义标签的划分,可以实现对海量遥感数据场景信息的解译并广泛应用于国土资源普查、城市规划、农业评估、森林监测等领域。然而在实际应用中,由于不同类型卫星生成的图像受到传感器、地理位置、照明条件和季节变化等多种因素的影响,不同载荷数据分布存在显著差异。例如,不同的传感器会导致图像分辨率和饱和度等不同,成像的图片存在风格差异;光照条件好的地区图像亮度高,光照条件不好的地区图像亮度低。基于深度学习的场景分类模型在一个数据集上训练,然后在另一个分布差异较大的数据集上进行测试,其性能会显著下降。所以在标记数据(注:源域)上的训练的模型难以直接应用于存在域差异的无标记数据(注:目标域)上。虽然针对分布差异较大的无标注数据(注:目标域)可以通过大规模人工数据标注以保证算法模型对于目标域数据的分类能力,但是面对爆炸性增长的遥感对地观测数据,大规模高质量的人工标注将花费大量的人力与物力。同时,也会无可避免的引入人工经验标注误差从而导致训练模型性能的下降。因此,提升模型对于分布差异较大的无标注目标域数据的泛化性能是进一步提升遥感数据智能解译能力的关键。
发明内容
为了解决上述问题,本发明提供了一种掩码图像建模引导域适应的跨域遥感场景分类方法,能够解决现有基于度量或对抗的跨域场景分类方法在提取域不变特征时损失域特定信息,导致学习到的特征对于目标域分类能力较差的问题。
为实现本发明之目的,采用以下技术方案予以实现:
本发明提供一种掩码图像建模引导域适应的跨域遥感场景分类方法,包括以下步骤:构建域适应网络,所述域适应网络包括一个自编码器和一个特征适应模块;其中,所述自编码器包括解码器和编码器;对所述自编码器进行无标注的自监督预训练,得到预训练后的自编码器模型参数;其中,所述自监督预训练是利用掩码图像建模的方式在源域图像和目标域图像上进行的;所述自编码器模型参数至少包括权重参数;所述源域图像是无标注的源域图像,所述目标域图像是无标注的目标域图像;将所述自编码器模型参数加载到所述自编码器中,将数据输入到所述域适应网络中,利用所述自编码器对源域图像和目标域图像进行掩码图像建模,利用所述特征适应模块对齐源域和目标域的高级语义特征分布;其中所述数据包括所述源域图像及其标注和所述目标域图像;以及基于所述数据构建总体目标损失函数,并优化所述总体目标损失函数来迭代训练所述域适应网络。
进一步地,移除所述解码器,利用所述编码器和所述特征适应模块测试目标域图像,获得场景分类结果,所述场景分类结果指示所述目标域图像的场景类别。
进一步地,所述自编码器是基于Transformer的,其中所述自编码器的所述编码器采用第一数目层具有多头注意力机制的Transformer Block的网络结构;所述自编码器的所述解码器采用第二数目层具有多头注意力机制的Transformer Block的网络结构。
进一步地,所述无标注的自监督预训练包括:将所述源域图像和所述目标域图像处理为第三数目个16×16分辨率的补丁块;随机选择第一比例的所述补丁块进行遮罩;移除被遮罩的补丁块,将剩余可见的补丁块输入所述编码器中,得到编码特征;将所述编码特征还原到所述剩余可见的补丁块的顺序位置;在缺失的位置补充可学习的随机初始化向量,得到补全的编码特征;以及将所述补全的编码特征输入所述解码器中重建输入图像的归一化像素值。
进一步地,所述利用所述自编码器对源域图像和目标域图像进行掩码图像建模包括:将所述源域图像和所述目标域图像处理为第四数目个16×16分辨率的补丁块;随机选择其中第二比例的所述补丁块进行遮罩,所述第二比例不大于20%;移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器中,得到编码特征;将所述编码特征还原到所述剩余可见的补丁块的顺序位置;在缺失的位置补充可学习的随机初始化向量,得到补全的编码特征;以及将所述补全的编码特征输入所述解码器中重建输入图像的归一化像素值。
进一步地,所述重建输入图像的归一化像素值包括:计算归一化像素空间中重建图像和原始图像被遮罩的补丁像素之间的均方误差,图像重建损失表达式如下:
式中表示源域和目标域中每个归一化像素重建损失的平均值,ns和nt分别为源域和目标域样本总数,/>和/>分别为第i个源域图像和第j个目标域图像的归一化像素值,ps和pt分别为所述自编码器对源域图像和目标域图像预测的像素值,M为遮罩补丁块像素的集合,|·|表示集合中元素的数量,s代表源域,t代表目标域,i为正整数,j为正整数。
进一步地,所述利用所述特征适应模块对齐源域和目标域的高级语义特征分布包括:取源域数据和目标域数据通过所述编码器得到编码特征中的分类令牌;将所述分类令牌作为高级语义特征输入到所述特征适应模块;其中,所述特征适应模块包括第一特征对齐块和第二特征对齐块,所述第一特征对齐块在分类层之前,所述第二特征对齐块在所述分类层之后;以及基于所述源域数据和所述目标域数据计算特征对齐损失和正则化损失/>
进一步地,所述基于所述源域数据和所述目标域数据计算特征对齐损失包括:所述特征对齐损失/>为所述第一特征对齐块和所述第二特征对齐块上所述源域和所述目标域特征的最大均值差异之和,表达式如下:
式中ns和nt分别为源域和目标域样本总数,l=1,2,为第i个源域样本通过第l个特征对齐块的源域高级语义特征,/>是第j个目标域样本通过第l个特征对齐块之后的目标域高级语义特征,/>是具有特征核/>的再生核希尔伯特空间,φ(·)是相应的特征映射,MMD为最大均值差异,/>为目标域样本通过第l个特征对齐块的源域高级语义特征,/>为通过第l个特征对齐块之后的目标域高级语义特征,s代表源域,t代表目标域,i为正整数,j为正整数。
进一步地,基于所述源域数据和所述目标域数据计算计算正则化损失的包括:选择所述源域数据的随机子集,强制所述随机子集通过所述特征适应模块的目标域路径;计算所述第一特征对齐块和所述第二特征对齐块上源域中每个类与这个随机子集的最大均值差异之和,表达式如下:
式中,l=1,2,是源域样本随机子集的高级语义特征集合,Cn表示总类别数,Sk表示源域样本第k类的高级语义特征集合,/>是第i个源域样本通过第l个特征对齐块的源域高级语义特征,/>是源域随机子集第j个样本通过第l个特征对齐块目标域路径的源域高级语义特征,/>是具有特征核/>的再生核希尔伯特空间,φ(·)是相应的特征映射,|·|表示集合中元素的数量,MMD为最大均值差异,/>为目标域样本通过第l个特征对齐块的源域高级语义特征,/>为通过第l个所述特征对齐模块目标域路径的所述源域样本随机子集的高级语义特征,s代表源域,t代表目标域,i为正整数,j为正整数,k为正整数。
进一步地,所述基于所述数据构建总体目标损失函数包括:构建源域分类损失表达式如下:/>式中ns为源域样本总数,H(·,·)是交叉熵损失函数,/>是所述特征适应模块对第i个源域样本的高级语义特征/>预测的概率,/>为第i个源域样本的真实标签,s代表源域,i为正整数;
构建目标域条件熵损失表达式如下:/>式中nt为源域样本总数,/>表示所述特征适应模块对输入的第j个目标域样本的高级语义特征/>所预测的第k类的概率,t代表目标域,j为正整数,k为正整数;
利用所述源域分类损失所述目标域条件熵损失/>所述图像重建损失/>所述特征对齐损失/>和所述正则化损失/>建立所述总体目标损失函数/>表达式如下:
式中,α,β,γ是超参数,表示所述特征对齐损失所述正则化损失/>所述目标域条件熵损失/>和所述图像重建损失/>的权重。
通过本发明,以较小遮罩比例的图像随机遮罩方式,在源域图像和目标域图像的特征映射分布中加入了随机扰动,丰富了域不变特征的映射描述空间,同时,通过对随机遮罩图像补丁块的重建任务,使得构建的域不变特征也包含了两个域的特定信息,可以在进行域不变特征提取的过程中保留域特定特征,从而进一步提升对于无标注数据目标域的分类泛化能力。
应当理解,本发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键特征或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1为本发明的方法流程示意图;
图2为本发明的域适应网络的整体示意图;
图3为本发明的掩码图像建模的示意图;
图4为本发明的特征适应模块对齐特征分布的示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中示出了本发明的一些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
在本发明的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其它明确的和隐含的定义。
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。对于方法步骤的描述并无顺序要求,只要可以实现均在本发明保护范围之内。
如图1-4所示,一种掩码图像建模引导域适应的跨域遥感场景分类方法,包括:构建域适应网络,所述域适应网络包括一个自编码器和一个特征适应模块;
对所述自编码器进行无标注的自监督预训练,得到预训练后的自编码器模型参数;
其中,所述自监督预训练是利用掩码图像建模的方式在源域图像和目标域图像上进行的;所述自编码器模型参数至少包括权重参数;所述源域图像是无标注的源域图像,所述目标域图像是无标注的目标域图像;源域图像和目标域图像采集于遥感卫星图像或其他图像。
其中,基于Transformer的自编码器包括编码器和解码器,所述编码器采用第一数目具有多头注意力机制的Transformer Block的网络结构;所述解码器采用第二数目层具有多头注意力机制的Transformer Block的网络结构。第一数目的示例是12,在其他实施例中,还可以是24,本发明在此方面不做限制。第二数目的示例是8,在其他实施例中,还可以是12,本发明在此方面不做限制。
将所述自编码器模型参数加载到所述自编码器;
将数据输入到所述的域适应网络中,利用自编码器对源域图像和目标域图像进行掩码图像建模,利用所述特征适应模块对齐源域和目标域的高级语义特征分布;其中所述数据包括所述源域图像以及标注和所述目标域图像;
基于所述数据构建总体目标损失函数;
优化所述总体目标损失函数来迭代训练所述域适应网络。
移除所述解码器,利用所述编码器和所述特征适应模块测试目标域图像,获得场景分类结果,场景分类结果指示目标域图像的场景类别。
一些实施例中,所述无标注的自监督预训练包括:将所述源域图像和所述目标域图像处理为第三数目个16×16分辨率的补丁块;随机选择第一比例的所述补丁块进行遮罩;移除被遮罩的补丁块,将剩余可见的补丁块输入所述编码器中,得到编码特征;将所述编码特征还原到所述剩余可见的补丁块的顺序位置;在缺失的位置补充可学习的随机初始化向量,得到补全的编码特征;以及将所述补全的编码特征输入所述解码器中重建输入图像的归一化像素值。
一些实施例中,将所述源域和目标域图像处理为196个16×16分辨率的补丁块,随机选择其中147个,即75%的补丁块进行遮罩,并移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器的编码器中得到编码特征,然后将所述编码特征还原到对应的原始补丁块的顺序位置,并在缺失的位置补上可学习的随机初始化向量,将补全后的编码特征输入所述自编码器的解码器中重建输入图像的归一化像素值。
一个些实施例中,还可以将所述源域和目标域图像处理为196个16×16分辨率的补丁块,随机选择其中137个,即70%的补丁块进行遮罩,并移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器的编码器中得到编码特征,然后将所述编码特征还原到对应的原始补丁块的顺序位置,并在缺失的位置补上可学习的随机初始化向量,将补全后的编码特征输入所述自编码器的解码器中重建输入图像的归一化像素值。
一些实施例中,还可以将所述源域和目标域图像处理为256个16×16分辨率的补丁块,随机选择其中166个,即65%的补丁块进行遮罩,并移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器的编码器中得到编码特征,然后将所述编码特征还原到对应的原始补丁块的顺序位置,并在缺失的位置补上可学习的随机初始化向量,将补全后的编码特征输入所述自编码器的解码器中重建输入图像的归一化像素值。
应当理解,上述实施方式仅仅是示例性的,不应理解为对本发明的限制。
一些实施例中,如图3所示,其中利用所述自编码器对源域和目标域图像进行掩码图像建模包括:将所述源域图像和所述目标域图像处理为第四数目个16×16分辨率的补丁块;随机选择其中第二比例的所述补丁块进行遮罩,所述第二比例不大于20%;移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器中,得到编码特征;将所述编码特征还原到所述剩余可见的补丁块的顺序位置;在缺失的位置补充可学习的随机初始化向量,得到补全的编码特征;以及将所述补全的编码特征输入所述解码器中重建输入图像的归一化像素值。
一些实施例中,将所述源域和目标域图像处理为196个16×16分辨率的补丁块,并随机选择其中20个,即10%的补丁块进行遮罩,并移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器的编码器中得到编码特征,然后将所述编码特征还原到对应的原始补丁块的顺序位置,并在缺失的位置补上可学习的随机初始化向量,将补全后的编码特征输入所述自编码器的解码器中重建输入图像的归一化像素值。
一些实施例中,还可以将所述源域和目标域图像处理为196个16×16分辨率的补丁块,并随机选择其中10个,即5%的补丁块进行遮罩,并移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器的编码器中得到编码特征,然后将所述编码特征还原到对应的原始补丁块的顺序位置,并在缺失的位置补上可学习的随机初始化向量,将补全后的编码特征输入所述自编码器的解码器中重建输入图像的归一化像素值。
一些实施例中,还可以将所述源域和目标域图像处理为256个16×16分辨率的补丁块,并随机选择其中38个,即15%的补丁块进行遮罩,并移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器的编码器中得到编码特征,然后将所述编码特征还原到对应的原始补丁块的顺序位置,并在缺失的位置补上可学习的随机初始化向量,将补全后的编码特征输入所述自编码器的解码器中重建输入图像的归一化像素值。
以不大于20%的较小遮罩比例对图像随机遮罩,在源域图像和目标域图像的特征映射分布中加入了随机扰动,丰富了域不变特征的映射描述空间,同时,通过对随机遮罩图像补丁块的重建任务,使得构建的域不变特征也包含了两个域的特定信息,提升了对目标域图像的分类能力。
应当理解,上述实施方式仅仅是示例性的,不应理解为对本发明的限制。
一些实施例中,所述重建输入图像的归一化像素值包括:计算归一化像素空间中重建图像和原始图像之间的均方误差,且只计算被遮罩的补丁像素的损失,图像重建损失表达式如下:
式(1)中表示所述源域和所述目标域中每个归一化像素重建损失的平均值,ns和nt分别为源域和目标域样本总数,/>和/>分别为第i个源域图像和第j个目标域图像的归一化像素值,ps和pt为所述自编码器对源域图像和目标域图像预测的像素值,M为遮罩补丁块像素的集合,|·|表示集合中元素的数量,s代表源域,t代表目标域,i为正整数,j为正整数。
一些实施例中,如图4所示,所述利用特征适应模块对齐所述源域和所述目标域的高级语义特征分布包括:取源域数据和目标域数据通过编码器得到编码特征中的分类令牌,将所述分类令牌作为高级语义特征输入到所述特征适应模块中,所述特征适应模块包含第一特征对齐块和第二特征对齐块,所述第一特征对齐块部署在分类层之前,所述第二特征对齐块部署在所述分类层之后。所述第一特征对齐块依次由全连接层、ReLU激活函数和全连接层组成,两个全连接层之间有残差连接,并且这些附加层只有目标域数据通过,源域数据则直接流入分类层;第二特征对齐块依次由全连接层、ReLU激活函数和全连接层组成,两个全连接层之间有残差连接,并且这些附加层只有目标域数据通过,所述附加层之后还有一个softmax层。基于所述源域数据和所述目标域数据计算特征对齐损失和正则化损失/>
其中,所述特征对齐损失为第一特征对齐块和第二特征对齐块上源域和目标域特征的最大均值差异之和,表达式如下:
式(2)中ns和nt分别为源域和目标域样本总数,为第i个源域样本通过第l个特征对齐块的源域高级语义特征,/>是第j个目标域样本通过第l个特征对齐块附加层的目标域高级语义特征,/>是具有特征核/>的再生核希尔伯特空间,φ(·)是相应的特征映射,MMD为最大均值差异,/>为目标域样本通过第l个特征对齐块的源域高级语义特征,为通过第l个特征对齐块之后的目标域高级语义特征,s代表源域,t代表目标域,i为正整数,j为正整数。
其中,计算正则化损失的具体方法包括:为了防止所述源域数据和所述目标域数据之间的过度对齐会破坏域结构信息,选择源域数据的随机子集,强制其通过所述特征对齐模块附加层的目标域路径,并计算两个特征对齐块上源域中每个类与这个随机子集的最大均值差异之和,表达式如下:
式(3)中,l=1,2,是源域样本随机子集的高级语义特征集合,Cn表示总类别数,Sk表示源域样本第k类的高级语义特征集合,/>是第i个源域样本通过第l个特征对齐块的源域高级语义特征,/>是源域随机子集第j个样本通过第l个特征对齐块附加层的目标域路径的源域高级语义特征,/>是具有特征核/>的再生核希尔伯特空间,φ(·)是相应的特征映射,|·|表示集合中元素的数量,MMD为最大均值差异,/>为目标域样本通过第l个特征对齐块的源域高级语义特征,/>为通过第l个所述特征对齐模块目标域路径的所述源域样本随机子集的高级语义特征,s代表源域,t代表目标域,i为正整数,j为正整数,k为正整数。
一些实施例中,所述基于所述数据构建总体目标损失函数包括:
构建源域分类损失表达式如下:
式(4)中ns为源域样本总数,H(·,·)是交叉熵损失函数,是所述特征适应模块对第i个源域样本的高级语义特征/>预测的概率,/>为第i个源域样本的真实标签,s代表源域,i为正整数;
构建目标域条件熵损失表达式如下:
式(5)中nt为源域样本总数,表示特征适应模块对输入的第j个目标域样本的高级语义特征/>所预测的第k类的概率,t代表目标域,j为正整数,k为正整数。
利用所述源域分类损失所述目标域条件熵损失/>所述图像重建损失/>所述特征对齐损失/>和所述正则化损失/>建立总体目标损失函数/>表达式如下:
式(6)中,α,β,γ是超参数,表示所述特征对齐损失所述正则化损失/>所述目标域条件熵损失/>和所述图像重建损失/>的权重。
下面进行实验验证。
我们首先选择基于三个不同的开源遥感数据集来构建遥感跨域场景分类任务,即NWPU-RESISC45数据集,AID数据集和UC Merced Land-Use数据集。我们通过目视检查提取两两数据集之间共有的类别构建了六个跨场景任务,称为NWPU→AID,AID→NWPU,NWPU→UCM,UCM→NWPU,AID→UCM,UCM→AID,表1列出了用于每个跨域场景分类任务的有标注的源域图像和无标注的目标域图像的数量及共有类别数。
表1跨域场景分类任务数据表
跨域场景分类任务 | 源域图像数量 | 目标域图像数量 | 共有类别数 |
NWPU→AID | 16100 | 7740 | 23 |
AID→NWPU | 7740 | 16100 | 23 |
NWPU→UCM | 14000 | 2000 | 20 |
UCM→NWPU | 2000 | 14000 | 20 |
AID→UCM | 4560 | 1300 | 13 |
UCM→AID | 1300 | 4560 | 13 |
本发明提出的方法是基于Python语言的PyTorch库实现的,还有其他方式也可以实现本方案,在此不做限制。此外,我们还用其他域适应方法在所构建的跨域场景分类任务上进行了实验评估,包括深度域适应网络(DAN)、对抗鉴别域适应(ADDA)、条件域对抗网络(CDAN)、对抗性紧匹配(ATM)、基于注意的多尺度残差适应网络(AMRAN)和跨域Transformer(CDTrans),以用于同本发明的一种掩码图像建模引导域适应的跨域遥感场景分类方法进行对比。本发明用总体分类精度评价每个跨域场景分类任务,并计算六个任务总体分类精度的平均值作为整体的评价指标,实验结果如下表2所示,结果由百分比表示。
表2不同方法分类精度评价表
从表2的实验结果来看,本发明方法在每一个跨域场景分类任务上都达到了最高精度,整体性能优于所给出的现有技术,表明本发明能通过自编码器对源域图像和目标域图像进行掩码图像建模来学习低层纹理的域特定特征,并通过特征适应模块对齐源域和目标域的高级语义特征分布来提取域不变特征,二者协作构建的掩码图像建模引导域适应的框架,能够提升模型的泛化能力和特征的鉴别性,实现对目标域样本精确的场景分类工作。
与现有技术相对比,本发明的有益效果是:
(1)本发明通过随机遮罩源域图像和目标域图像并重建源域图像和目标域图像,可以揭示潜在的全局特征能够有效地捕获底层纹理与结构所包含的域特定特征信息。
(2)本发明通过自编码器和特征适应模块协作构建了一个端到端的掩码图像建模引导域适应的框架,在进行域对齐的过程中引入了随机遮罩的图像重建任务,以较小遮罩比例的图像随机遮罩方式,在源域图像和目标域图像的特征映射分布中加入了随机扰动,丰富了域不变特征的映射描述空间,可以更加鲁棒地获取域不变描述,使得数据知识从源域更稳健地迁移到目标域,同时,通过对随机遮罩图像补丁块的重建任务,使得构建的域不变特征也包含了两个域的特定信息,提升了对于无标注数据的分类能力。
(3)本发明提升了基于Transformer模型架构对于无标注遥感场景数据的分类能力。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换,而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种掩码图像建模引导域适应的跨域遥感场景分类方法,其特征在于,包括以下步骤:
构建域适应网络,所述域适应网络包括一个自编码器和一个特征适应模块;其中,所述自编码器包括解码器和编码器;
对所述自编码器进行无标注的自监督预训练,得到预训练后的自编码器模型参数;其中,所述自监督预训练是利用掩码图像建模的方式在源域图像和目标域图像上进行的;所述自编码器模型参数至少包括权重参数;所述源域图像是无标注的源域图像,所述目标域图像是无标注的目标域图像;
将所述自编码器模型参数加载到所述自编码器中,将数据输入到所述域适应网络中,利用所述自编码器对源域图像和目标域图像进行掩码图像建模,利用所述特征适应模块对齐源域和目标域的高级语义特征分布;其中所述数据包括所述源域图像及其标注和所述目标域图像;
以及
基于所述数据构建总体目标损失函数,并优化所述总体目标损失函数来迭代训练所述域适应网络。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
移除所述解码器,利用所述编码器和所述特征适应模块测试目标域图像,获得场景分类结果,所述场景分类结果指示所述目标域图像的场景类别。
3.根据权利要求1所述的方法,其特征在于,其中所述自编码器是基于Transformer的,其中所述自编码器的所述编码器采用第一数目层具有多头注意力机制的TransformerBlock的网络结构;所述自编码器的所述解码器采用第二数目层具有多头注意力机制的Transformer Block的网络结构。
4.根据权利要求1所述的方法,其特征在于,其中所述无标注的自监督预训练包括:
将所述源域图像和所述目标域图像处理为第三数目个16×16分辨率的补丁块;
随机选择第一比例的所述补丁块进行遮罩;
移除被遮罩的补丁块,将剩余可见的补丁块输入所述编码器中,得到编码特征;
将所述编码特征还原到所述剩余可见的补丁块的顺序位置;
在缺失的位置补充可学习的随机初始化向量,得到补全的编码特征;以及
将所述补全的编码特征输入所述解码器中重建输入图像的归一化像素值。
5.根据权利要求1所述的方法,其特征在于,其中所述利用所述自编码器对源域图像和目标域图像进行掩码图像建模包括:
将所述源域图像和所述目标域图像处理为第四数目个16×16分辨率的补丁块;
随机选择其中第二比例的所述补丁块进行遮罩,所述第二比例不大于20%;
移除被遮罩的补丁块,将剩余可见的补丁块输入所述自编码器中,得到编码特征;
将所述编码特征还原到所述剩余可见的补丁块的顺序位置;
在缺失的位置补充可学习的随机初始化向量,得到补全的编码特征;以及
将所述补全的编码特征输入所述解码器中重建输入图像的归一化像素值。
6.根据权利要求4或5所述的方法,其特征在于,其中所述重建输入图像的归一化像素值包括:
计算归一化像素空间中重建图像和原始图像被遮罩的补丁像素之间的均方误差,
图像重建损失表达式如下:
其中,表示源域和目标域中每个归一化像素重建损失的平均值,ns和nt分别为源域和目标域样本总数,/>和/>分别为第i个源域图像和第j个目标域图像的归一化像素值,ps和pt分别为所述自编码器对源域图像和目标域图像预测的像素值,M为遮罩补丁块像素的集合,|·|表示集合中元素的数量,s代表源域,t代表目标域,i为正整数,j为正整数。
7.根据权利要求1所述的方法,其特征在于,其中所述利用所述特征适应模块对齐源域和目标域的高级语义特征分布包括:
取源域数据和目标域数据通过所述编码器得到编码特征中的分类令牌;
将所述分类令牌作为高级语义特征输入到所述特征适应模块;其中,所述特征适应模块包括第一特征对齐块和第二特征对齐块,所述第一特征对齐块在分类层之前,所述第二特征对齐块在所述分类层之后;以及
基于所述源域数据和所述目标域数据计算特征对齐损失和正则化损失/>
8.根据权利要求7所述的方法,其特征在于,其中所述基于所述源域数据和所述目标域数据计算特征对齐损失包括:
所述特征对齐损失为所述第一特征对齐块和所述第二特征对齐块上所述源域和所述目标域特征的最大均值差异之和,表达式如下:
其中,ns和nt分别为源域和目标域样本总数,l=1,2,为第i个源域样本通过第l个特征对齐块的源域高级语义特征,/>是第j个目标域样本通过第l个特征对齐块之后的目标域高级语义特征,/>是具有特征核/>的再生核希尔伯特空间,φ(·)是相应的特征映射,MMD为最大均值差异,/>为目标域样本通过第l个特征对齐块的源域高级语义特征,/>为通过第l个特征对齐块之后的目标域高级语义特征,s代表源域,t代表目标域,i为正整数,j为正整数。
9.根据权利要求7所述的方法,其特征在于,其中基于所述源域数据和所述目标域数据计算计算正则化损失的包括:
选择所述源域数据的随机子集,强制所述随机子集通过所述特征适应模块的目标域路径;
计算所述第一特征对齐块和所述第二特征对齐块上源域中每个类与这个随机子集的最大均值差异之和,表达式如下:
其中,l=1,2,是源域样本随机子集的高级语义特征集合,Cn表示总类别数,Sk表示源域样本第k类的高级语义特征集合,/>是第i个源域样本通过第l个特征对齐块的源域高级语义特征,/>是源域随机子集第j个样本通过第l个特征对齐块目标域路径的源域高级语义特征,/>是具有特征核/>的再生核希尔伯特空间,φ(·)是相应的特征映射,|·|表示集合中元素的数量,MMD为最大均值差异,/>为目标域样本通过第l个特征对齐块的源域高级语义特征,/>为通过第l个所述特征对齐模块目标域路径的所述源域样本随机子集的高级语义特征,s代表源域,t代表目标域,i为正整数,j为正整数,k为正整数。
10.根据权利要求6、8或9任一项所述的方法,其特征在于,其中所述基于所述数据构建总体目标损失函数包括:
构建源域分类损失表达式如下:
其中,ns为源域样本总数,H(·,·)是交叉熵损失函数,是所述特征适应模块对第i个源域样本的高级语义特征/>预测的概率,/>为第i个源域样本的真实标签,s代表源域,i为正整数;
构建目标域条件熵损失表达式如下:
其中,nt为源域样本总数,表示所述特征适应模块对输入的第j个目标域样本的高级语义特征/>所预测的第k类的概率,t代表目标域,j为正整数,k为正整数;
利用所述源域分类损失所述目标域条件熵损失/>所述图像重建损失/>所述特征对齐损失/>和所述正则化损失/>建立所述总体目标损失函数/>表达式如下:
其中,α,β,γ是超参数,表示所述特征对齐损失所述正则化损失/>所述目标域条件熵损失/>和所述图像重建损失/>的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310594974.6A CN116580243A (zh) | 2023-05-24 | 2023-05-24 | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310594974.6A CN116580243A (zh) | 2023-05-24 | 2023-05-24 | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580243A true CN116580243A (zh) | 2023-08-11 |
Family
ID=87545041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310594974.6A Pending CN116580243A (zh) | 2023-05-24 | 2023-05-24 | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580243A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758617A (zh) * | 2023-08-16 | 2023-09-15 | 四川信息职业技术学院 | 一种低光照度场景下的校园学生签到方法和校园签到系统 |
CN118015358A (zh) * | 2024-02-04 | 2024-05-10 | 南京大学 | 胸部x射线图像肺结核诊断的无监督域适应方法 |
-
2023
- 2023-05-24 CN CN202310594974.6A patent/CN116580243A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758617A (zh) * | 2023-08-16 | 2023-09-15 | 四川信息职业技术学院 | 一种低光照度场景下的校园学生签到方法和校园签到系统 |
CN116758617B (zh) * | 2023-08-16 | 2023-11-10 | 四川信息职业技术学院 | 一种低光照度场景下的校园学生签到方法和校园签到系统 |
CN118015358A (zh) * | 2024-02-04 | 2024-05-10 | 南京大学 | 胸部x射线图像肺结核诊断的无监督域适应方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Springenberg et al. | Improving deep neural networks with probabilistic maxout units | |
CN113780149B (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN112861933B (zh) | 一种深度神经网络模型可视化解释方法及系统 | |
CN112966684A (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN116580243A (zh) | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 | |
CN114299380A (zh) | 对比一致性学习的遥感图像语义分割模型训练方法及装置 | |
CN113111947B (zh) | 图像处理方法、装置和计算机可读存储介质 | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN113592786B (zh) | 一种基于深度学习的海洋中尺度涡检测方法 | |
CN114863348B (zh) | 基于自监督的视频目标分割方法 | |
Chen et al. | Exchange means change: An unsupervised single-temporal change detection framework based on intra-and inter-image patch exchange | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN113283282A (zh) | 一种基于时域语义特征的弱监督时序动作检测方法 | |
CN114913434B (zh) | 一种基于全局关系推理的高分辨率遥感影像变化检测方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN117557886A (zh) | 融合偏标签和消极学习的含噪声标签图像识别方法及系统 | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115115969A (zh) | 视频检测方法、装置、设备、存储介质和程序产品 | |
Huang et al. | Exploiting Memory-based Cross-Image Contexts for Salient Object Detection in Optical Remote Sensing Images | |
He et al. | Crack segmentation on steel structures using boundary guidance model | |
CN105787045A (zh) | 一种用于可视媒体语义索引的精度增强方法 | |
CN116524243A (zh) | 一种笔石化石图像的分类方法及装置 | |
Wu et al. | DHGAN: Generative adversarial network with dark channel prior for single‐image dehazing | |
Zhu et al. | Data augmentation and few-shot change detection in forest remote sensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |