CN113537317A - 基于可解释深度学习的遥感图像跨域分类方法 - Google Patents
基于可解释深度学习的遥感图像跨域分类方法 Download PDFInfo
- Publication number
- CN113537317A CN113537317A CN202110741475.6A CN202110741475A CN113537317A CN 113537317 A CN113537317 A CN 113537317A CN 202110741475 A CN202110741475 A CN 202110741475A CN 113537317 A CN113537317 A CN 113537317A
- Authority
- CN
- China
- Prior art keywords
- sample
- balance
- causal
- loss
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 230000001364 causal effect Effects 0.000 claims abstract description 85
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000009826 distribution Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 49
- 238000005457 optimization Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 18
- 208000012639 Balance disease Diseases 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 102100024654 Calcitonin gene-related peptide type 1 receptor Human genes 0.000 description 1
- 101000760563 Homo sapiens Calcitonin gene-related peptide type 1 receptor Proteins 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明属于遥感图像处理技术领域,具体公开了一种基于可解释深度学习的遥感图像跨域分类方法,包括深度特征提取的步骤;和构建基于因果平衡的深度因果平衡模型DCBM和平衡损失函数的步骤;其中,所述的深度因果平衡模型DCBM的混杂平衡损失LB融合了聚焦损失LF、间隔损失LM,构成平衡损失函数,由此构建面向开放域遥感图像鲁棒分类的深度神经网络模型和训练算法DCBM‑FA。通过本发明设计深度学习框架下的因果推理方法,构建鲁棒性的遥感图像分类模型,摆脱对目标域数据分布的依赖,满足开放域场景下模型的有效迁移。
Description
技术领域
本发明属于遥感图像分类技术领域,特别涉及基于可解释深度学习的遥感图像跨域分类方法。
背景技术
遥感图像分类在数字图像分类处理中是一个很重要的应用方向,无论是信息的提取、动态变化的监测或是遥感数据库的建立都离不开遥感图像的分类。与普通图像的分类算法有很多相同之处,但也因遥感图像自身的成像特点而有所差异。由于卫星传感设备的多样性,遥感图像采集过程中存在尺度、噪声的差异,加之地表覆盖的复杂性,干扰因素几乎分布在每个样本中,使得不同数据集数据分布的差异性显著,从而导致在分类过程中从一个环境或场景中学习的模型难以泛化到其他环境和场景。遥感图像跨域分类存在的挑战有:1)开放域数据分布不一致,2)类别分布不平衡和类间差异不显著。前者需要构建基于可解释的深度因果推理模型,后者需要针对类别分布不平衡和类间差异不显著的特点进行损失设计。
在普通图像目标域分布未知的条件下,针对源域和目标域的样本分布差异,CRLR算法中曾提出了一种基于因果关系的全局样本平衡机制,该方法通过联合因果平衡机制和逻辑回归来实现对不可知目标域的分类,其优化目标如下式所示。平衡机制的作用就是识别因果特征,去除跨域分类过程中“混杂因素”对结果的干扰,从而引导模型实现可解释的鲁棒预测。
在上述公式中,n为样本数,p为样本特征量,其中i的取值范围为{1,2…n},j的取值范围为{1,2…p},k的取值范围为{1,2…n},X为样本特征向量,x为单个样本特征,Y为样本标签,β为衡量样本特征的因果贡献度的参数。W为样本权重向量,I为样本状态向量,其中状态向量取值为0或者1。以j=1为例,此时将X第1列设置为0,此时的特征向量变为X-1。随机设置状态向量值,并根据状态向量值将所有样本随机分为两组。对这两组特征分布分别进行W加权,再进行正则化处理,并最小化两组特征分布的差值,差值越小代表样本分布越平衡。最终依次对所有特征进行加权正则化处理,使得全局样本特征处于平衡分布状态。在全局分布平衡的样本特征空间进行因果特征学习,并使用β来衡量样本特征贡献度,最终基于β值学习不可知鲁棒分类器。
将上述方法直接应用存在以下局限:第一,数据规模的局限性,受制于模型计算效率,该方法在规模相对较小的图像分类中有效,然而却不利于大规模图像分类任务。第二,数据维度的局限性,逻辑回归分类模型不能满足更具表现力的高维语义特征的提取。
因此,需要针对因果平衡机制,设计一种适用于大规模图像数据集和深度学习框架的分类模型。
发明内容
针对现有技术存在的不足,本发明提供一种基于可解释深度学习的遥感图像跨域分类方法,通过设计深度学习框架下的因果推理方法,构建鲁棒性的遥感图像分类模型,摆脱对目标域数据分布的依赖,满足开放域场景下模型的有效迁移。1)针对开放域数据分布不一致的挑战,通过研究开放域图像分类模型的泛化方法,构建了基于因果平衡的深度学习图像分类鲁棒模型DCBM;2)针对遥感图像类别分布不平衡和类间差异不显著的挑战,通过研究类别平衡和类间扩距机制,设计了融合聚焦损失和间隔损失的目标函数;3)通过融合因果平衡模型和目标函数,提出了面向开放域遥感图像鲁棒分类的深度神经网络模型和训练算法DCBM-FA。
为了解决上述技术问题,本发明采用的技术方案是:
基于可解释深度学习的遥感图像跨域分类方法,包括深度特征提取的步骤;和构建基于因果平衡的深度因果平衡模型DCBM和平衡损失函数的步骤;
其中,所述的深度因果平衡模型DCBM的混杂平衡损失LB融合了聚焦损失LF、间隔损失LM,构成平衡损失函数,由此构建面向开放域遥感图像鲁棒分类的深度神经网络模型和训练算法DCBM-FA。
进一步的,所述的深度因果平衡模型DCBM的因果平衡机制为:最小化混杂平衡损失、平衡混杂特征,提升抽取因果特征能力,具体为:
基于控制变量法则和样本平衡机制,在高维特征空间进行因果平衡处理,设计基于因果平衡的深度学习批处理训练方法,通过采用批量样本因果平衡加权后的损失代替传统的交叉熵损失,实现深度因果平衡模型DCBM模型参数的升级迭代;具体实现如下:
设E(x)为待训练的特征提取器,存在:
Fs=E(Xs) (1)
基于控制变量法则,在特征空间中对样本特征向量FS进行加权正则化处理,数学模型如下式所示:
最初为每个样本都设置一个初始平衡权值wbi和一个状态值si,分别构成一组权重向量WB和一组状态向量S,并把wbi初始化为0,si取0或1;在式(2)中,当Fs第j个特征设置为处理变量时,Fs-j为去除处理变量的剩余变量,此时Fs第j列设置为0;Sj是Fs第j列的状态值,并且有sij为第i个样本第j个特征的状态值;WB是Fs第j列的权重值,并且有wbi为第i个样本的权重值;
所述的混杂平衡损失LB公式为:
上述公式(3)中,m为样本特征数量,j的取值范围为{1,2…m},Fs是样本特征向量,Sj是样本状态向量,WB是样本权重向量,λ1是超参数;
通过公式(3)求解一组最优样本权重值,对样本损失进行重新加权后进行深度因果平衡模型DCBM模型优化,完成模型训练。
对于深度因果平衡模型DCBM的损失函数如式(4)所示,其保留了经典的交叉熵损失函数,在全局分布平衡的样本特征空间进行因果特征学习,并使用β来衡量样本特征贡献度,最终基于β值学习不可知鲁棒分类器,
其中n是样本数,c为类别数量,W是网络权重向量,yi表示第i个样本的标签,Fsi表示第i个样本的特征向量;是第i个样本的目标逻辑,β为衡量样本特征的因果贡献度的参数,β值越大证明特征的因果贡献值越大。
进一步的,所述的聚焦损失LF公式如下所示:
其中,c为样本类别,-log(pt)为初始交叉熵损失函数,p∈[0,1]为正类估计概率,γ为可聚焦参数,作用是增大聚焦困难类别的权值并减小聚焦简单类别的权值,目的是使得学习注意力聚焦在难分类样本上;λ是一个可调节的参数,作用是增加对不同样本分类准确性的可调节性。
优选的是,λ=2。
进一步的,所述的间隔损失LM公式如下所示:
其中,n是样本数,α是可调节的参数,c是样本类别数量,W表示的是权重向量,yi表示第i个样本的标签,Fsi是特征向量,是第i个样本的目标逻辑,存在上述公式中假设||W||=1,||Fs||=1;m用来调节分类间隔,s用来调节收敛速度;参数因子m将权重W和F的余弦距离变为cosθ-m,其中||W||=1,||Fs||=1,通过间隔m来调节遥感图像样本分布的距离,m的取值控制了分类边界的大小,m值越大分类间隔越大。
优选的是,m=2,s=60,α=0.25。
进一步的,所述的平衡损失函数为DCBM-FA算法的整体损失函数,
如下式所示:
通过联合优化混杂平衡损失、聚焦损失和间隔损失来构建最终分类模型DCBM-FA;优化目标为最小化LDCBM-FA,在优化损失函数过程中,DCBM-FA算法采用反向传播和Adam优化算法更新模型参数,Adam算法将动量与RMSProp优化算法相结合,运用梯度的一阶矩和二阶矩预估平衡过程中每个训练参数的学习率,通过偏置校正后,每一次的迭代学习率都进行范围确定,使得参数更加平稳;
在上述公式中,λ1,λ2,为非负参数,n为样本数,m为样本特征数,c为样本类别数,i的取值范围为{1,2…n},j的取值范围为{1,2…c}.其中yi表示第i个样本的标签,W表示的是网络权重向量,Fs为经过特征提取器E(x)获取到的样本特征向量,是第i个样本的目标逻辑;β为衡量样本特征的因果贡献度的参数,存在0<β<1,WB是样本权重向量,wbi为单个样本权重值;α为用来平衡类别的权重参数,γ为可聚焦参数,其作用是增大聚焦困难类别的权值并减小聚焦简单类别的权值;s是超参数,其作用是来缩放余弦值保证模型的收敛速度;m用来调节分类间隔,m值越大分类间隔越大。
进一步,在优化过程中对于参数样本权重WB和因果贡献β采用分别优化的方式,首先固定β来优化WB,然后固定WB来优化β;在学习过程中,把迭代周期设置为50,批处理大小设置为64,学习率初始化为5e-4。
与现有技术相比,本发明优点在于:
1.针对遥感图像源域和目标域数据样本分布的显著性差异,首次创新性的构建了面向遥感图像鲁棒分类的深度因果平衡模型。该模型受到可解释机器学习理论中的因果推理方法的启发,以摒弃混杂特征,抽取因果特征为目标,基于控制变量原则,提出了面向因果特征提取的样本分布需求,并基于该需求,提出了基于批量训练和因果平衡样本权重调整的深度神经网络训练方法,确保特征空间能够最大程度的抽取因果特征,提升了分类模型的泛化性。
2.设计面向遥感数据类别规模不平衡和类间差异不显著的平衡损失函数模型。针对类别规模不平衡问题,研究大尺度背景和小尺度目标的平衡机制,引入聚焦损失,通过增大复杂样本的类别权重来达到高效定位目标类别的目的,从而确保因果特征的有效学习。针对类间差异不显著问题,研究不同类别特征空间的扩距机制,引入间隔损失通过增大类间间距,减小类内间距来调节类别可分性,从而不断提升模型的分类精度。最终联合优化混杂平衡损失、聚焦损失以及间隔损失来构建模型整体损失函数。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的的流程示意图。
图2为本发明因果平衡机制原理示意图;
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本发明提出基于可解释深度学习的遥感图像跨域分类方法,流程图如图1所示,主要包括两部分,上部分为深度特征提取的步骤,采用深度神经网络框架AlexNet,主要用来提取高维语义特征。下部分为本发明的创新设计,包括两部分:构建基于因果平衡的深度因果平衡模型DCBM和平衡损失函数的步骤。
其中,1)针对遥感图像数据集多样性对分类模型鲁棒性的要求,构建基于因果平衡的深度因果平衡模型DCBM;
2)针对遥感图像类别规模不平衡和类间差异不显著的问题,设计了融合聚焦损失LF和间隔损失LM的目标函数,并通过融合深度因果平衡模型DCBM的混杂平衡损失LB和目标函数,构成新的平衡损失函数,提出了面向开放域遥感图像鲁棒分类的深度神经网络模型和训练算法DCBM-FA。
下面分两部分介绍本发明的创新:
一、深度因果平衡模型DCBM
对于图像分类而言,如果特征X是导致标签Y的因果关系,那么该关系具有稳定性,即使在数据分布差异的域也能够保持不变。而相关关系中不具备迁移性和稳定性。具有因果关系的特征称为“因果特征”,具有相关关系的特征称为“混杂特征”。因果平衡机制的目的是就是对“混杂特征”平衡化,以提升抽取因果特征的能力,流程如图2所示.
深度因果平衡模型DCBM的因果平衡机制为:最小化混杂平衡损失、平衡混杂特征,提升抽取因果特征能力,具体为:
基于控制变量法则和样本平衡机制,在高维特征空间进行因果平衡处理,设计基于因果平衡的深度学习批处理训练方法,通过采用批量样本“因果平衡”加权后的损失代替传统的交叉熵损失,实现深度因果平衡模型DCBM模型参数的升级迭代。具体实现如下:
设E(x)为待训练的特征提取器,存在:
Fs=E(Xs) (1)
基于控制变量法则,在特征空间中对样本特征向量FS进行加权正则化处理,数学模型如下式所示:
最初为每个样本都设置一个初始平衡权值wbi和一个状态值si,分别构成一组权重向量WB和一组状态向量S,并把wbi初始化为0,si取0或1。在式(2)中,当Fs第j个特征设置为处理变量时,Fs-j为去除处理变量的剩余变量,此时Fs第j列设置为0。Sj是Fs第j列的状态值,并且有sij为第i个样本第j个特征的状态值。WB是Fs第j列的权重值,并且有wbi为第i个样本的权重值。
所述的混杂平衡损失LB公式为:
上述公式(3)中,m为样本特征数量,j的取值范围为{1,2…m},Fs是样本特征向量,Sj是样本状态向量,取值为0或1,WB是样本权重向量,λ1是超参数,取值为1。
以j=1为例,此时将Fs第1列设置为0,此时的特征向量变为Fs-1。随机设置状态向量值,并根据状态向量值将所有样本随机分为两组。对这两组特征分布分别进行W加权,再进行正则化处理,并最小化两组特征分布的差值,LB损失函数越小,表示“混杂因素”的影响越小,样本分布越平衡。最终依次对所有特征进行加权正则化处理,使得全局样本特征处于平衡分布状态。
通过公式(3)求解一组最优样本权重值,对样本损失进行重新加权后进行深度因果平衡模型DCBM模型优化,完成模型训练。混杂平衡损失的公式形式中加入了log函数,这项改变的目的是使模型收敛速度更快。
对于深度因果平衡模型DCBM的损失函数如式(4)所示,其保留了经典的交叉熵损失函数,在全局分布平衡的样本特征空间进行因果特征学习,并使用β来衡量样本特征贡献度,最终基于β值学习不可知鲁棒分类器。
其中n是样本数,c为类别数量,W是网络权重向量,yi表示第i个样本的标签,Fsi表示第i个样本的特征向量。是第i个样本的目标逻辑,β为衡量样本特征的因果贡献度的参数,β值越大证明特征的因果贡献值越大。该模型的目标是最小化LDCBM,采用反向传播和Adam优化算法更新模型参数,以求得最优样本权值、因果贡献值以及网络参数,并基于网络参数和因果贡献值学习鲁棒分类器。
二、平衡损失函数
平衡损失函数为DCBM-FA算法的整体损失函数,主要包括三个部分,1)混杂平衡损失,已在上部分进行说明;2)聚焦损失,旨在解决类别不平衡问题;3)间隔损失,旨在解决类间差异不显著问题。
1.混杂平衡损失LB
该损失是为了更好的约束“混杂特征”,从而使源域和目标域保持分布平衡状态。具体见上部分,此处不再赘述。
2.聚焦损失LF
针对遥感图像类别分布不平衡的问题,研究大尺度背景和小尺度目标的平衡机制,通过设计聚焦损失来实现目标类别精准定位,从而确保分类模型对因果特征的有效学习。
聚焦损失LF公式如下所示:
其中,c为样本类别,-log(pt)为初始交叉熵损失函数,p∈[0,1]为正类估计概率,γ为可聚焦参数,作用是增大聚焦困难类别的权值并减小聚焦简单类别的权值,目的是使得学习注意力聚焦在难分类样本上。
λ是一个可调节的参数,作用是增加对不同样本分类准确性的可调节性。事实上对于聚焦困难的复杂样本来说,此时pt值较小,增大聚焦困难类别的权值需要适当增大λ,这样才会提升训练过程中贡献度,进而提高良性样本的分类准确率。因此,针对不同的遥感图像分布数据,选择合适的λ值,可以在复杂样本和容易样本直接找到一个良性的平衡,进而提高整体样本分类准确性。
参数设置:对于超参数γ,聚焦因子能够减少简单样本对损失的贡献,通过统计实验发现随着γ值的增加,聚焦因子的对结果的影响也会更显著,当取值为2时,效果最佳。对于超参数λ,对于小尺度样本,当λ=2时,在复杂样本和容易样本中可以直接找到一个良性的平衡。
3.间隔损失LM
针对遥感图像类间差异不显著的问题,研究不同类别特征空间的扩距机制,通过设计间隔损失来提升样本类内紧凑、类间可分离性,从而提高分类模型的分类精度。
对于传统的交叉熵损失Ls,其显著性特点在于优化类间差异,即分离不同的类,但是不善于减小类内的变化,即让相同类的特征更为紧凑。对于非均衡遥感图像而言,其内容复杂,不同类别特征之间具有相似性且同一类别特征之间具有差异性,而交叉熵损失仅仅考虑了样本与标签的关系问题,其缺少对类间信息和类内信息的考虑。
基于此,本发明设计一个间隔损失来增大类间间距同时减小类内间距。对于间隔损失LM的目标公式如下所示,在最终整体函数中会将传统的交叉熵损失Ls替换为间隔损失LM。
间隔损失LM公式如下所示:
其中,n是样本数,c是样本类别数量,W表示的是权重向量,yi表示第i个样本的标签,Fsi是特征向量,是第i个样本的目标逻辑,存在上述公式中假设||W||=1,||Fs||=1;m用来调节分类间隔,s用来调节收敛速度。参数因子m将权重W和F的余弦距离变为cosθ-m,其中||W||=1,||Fs||=1,通过间隔m来调节遥感图像样本分布的距离,m的取值控制了分类边界的大小,m值越大分类间隔越大。例如对于二分类来说,对于0类的样本,对于Softmax存在即cos(θ0)>cos(θ1),而对于AM-Softmax则存在在这里给出规定m为正整数且范围大于1,并且存在余弦函数在该范围内单调递减,则存在cos(θ0)>cos(θ0)-m>cos(θ1),由此证明对于类别相似的遥感图像样本来说该损失约束力更强,对于分类边界条件要求更加严格。s用来调节收敛速度,通过缩放余弦值以加速和稳定优化过程。根据统计实验的方法来选择最优参数,在本专利中m=2,s=60时DCBM-FA模型效果最好。
此处需要说明的是,α是一个可调节的参数,考虑到遥感图像相似目标尺度不均衡,通过引入一个权重参数用来平衡目标,适应于相似类别的特征分布,通过设置不同的取值来改善特征空间正负类别的不均衡现象。尤其是当目标尺度过小时,分类器容易聚焦于背景,此时α取值变目的是让分类器关注于目标类别,从而保证在正确聚焦的前提下增强类间可分性。
参数设置:根据统计实验方法来选择最优参数,在本专利中α取0.25时模型效果最好。对于超参数s,其用来调节收敛速度,通过缩放余弦值以加速和稳定优化过程,如果通过训练过程对其进行学习,则会造成网络收敛速度非常慢,所以本专利中将其设置为足够大的固定值,s值取为60。对于超参数m,依然不使用递减训练策略,最初固定为2,此时能保证网络很好的收敛。
4.整体损失LDCDM-FA与算法优化
本发明的DCBM-FA算法的整体损失函数,如下式所示:
通过联合优化混杂平衡损失、聚焦损失和间隔损失来构建最终分类模型DCBM-FA。
优化目标为最小化LDCBM-FA,在优化损失函数过程中,DCBM-FA算法采用反向传播和Adam优化算法更新模型参数,Adam算法将动量与RMSProp优化算法相结合,运用梯度的一阶矩和二阶矩预估平衡过程中每个训练参数的学习率,通过偏置校正后,每一次的迭代学习率都进行范围确定,使得参数更加平稳。
在上述公式中,λ1,λ2,为非负参数,n为样本数,m为样本特征数,c为样本类别数,i的取值范围为{1,2…n},j的取值范围为{1,2…c}.其中yi表示第i个样本的标签,W表示的是网络权重向量,Fs为经过特征提取器E(x)获取到的样本特征向量,是第i个样本的目标逻辑;β用来衡量特征因果贡献,存在0<β<1,WB是样本权重向量,wbi为单个样本权重值。α为用来平衡类别的权重参数,用来改善遥感图像相似目标不平衡的问题。γ为可聚焦参数,其作用是增大聚焦困难类别的权值并减小聚焦简单类别的权值,目的是使得学习注意力聚焦在难分类样本上。s是超参数,其作用是来缩放余弦值保证模型的收敛速度;m用来调节分类间隔,m值越大分类间隔越大。
在优化过程中对于参数样本权重WB和因果贡献β采用分别优化的方式,首先固定β来优化WB,然后固定WB来优化β;在学习过程中,把迭代周期设置为50,批处理大小设置为64,学习率初始化为5e-4(参数为固定值)。
5.结果验证分析
通过丰富的对比实验和消融实验,在遥感公开数据集AID、NWPU和WHU-RS19上验证所提模型DCBM和DCBM-FA的有效性。大量实验证明,在目标域分布未知的条件下,本专利所提的DCBM模型在开放域上的表现性能优于现有的经典方法,且在目标域分布未知和开放域场景下更具有鲁棒性。引入聚焦损失和间隔损失后,DCBM-FA算法表现性能更加优越,尤其对小目标样本分类性能更强,针对相似样本的分类准确性更高。
综上所述,本发明针对遥感领域跨域分类问题,首次应用因果平衡机制来获取因果知识,该方法不需要事先知悉目标域数据分布,且在开放域场景下具有鲁棒性。而且深度框架的引入便于高维数据的分析处理,有助于进行大规模图像数据分类。
遥感图像较之普通图像内容更为复杂,分辨率、尺度更加多样化。通过引入聚焦损失和间隔损失解决类别不平衡问题和类间差异不显著问题,使得分类模型对小目标样本分类性能更强,针对相似样本的分类准确性更高。最终联合优化混杂平衡损失、聚焦损失以及间隔损失来构建模型整体损失函数。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (9)
1.基于可解释深度学习的遥感图像跨域分类方法,其特征在于,包括深度特征提取的步骤;和构建基于因果平衡的深度因果平衡模型DCBM和平衡损失函数的步骤;
其中,所述的深度因果平衡模型DCBM的混杂平衡损失LB融合了聚焦损失LF、间隔损失LM,构成平衡损失函数,由此构建面向开放域遥感图像鲁棒分类的深度神经网络模型和训练算法DCBM-FA。
2.根据权利要求1所述的基于可解释深度学习的遥感图像跨域分类方法,其特征在于,所述的深度因果平衡模型DCBM的因果平衡机制为:最小化混杂平衡损失、平衡混杂特征,提升抽取因果特征能力,具体为:
基于控制变量法则和样本平衡机制,在高维特征空间进行因果平衡处理,设计基于因果平衡的深度学习批处理训练方法,通过采用批量样本因果平衡加权后的损失代替传统的交叉熵损失,实现深度因果平衡模型DCBM模型参数的升级迭代。具体实现如下:
设E(x)为待训练的特征提取器,存在:
Fs=E(Xs) (1)
基于控制变量法则,在特征空间中对样本特征向量FS进行加权正则化处理,数学模型如下式所示:
最初为每个样本都设置一个初始平衡权值wbi和一个状态值si,分别构成一组权重向量WB和一组状态向量S,并把wbi初始化为0,si取0或1;在式(2)中,当Fs第j个特征设置为处理变量时,Fs-j为去除处理变量的剩余变量,此时Fs第j列设置为0;Sj是Fs第j列的状态值,并且有sij为第i个样本第j个特征的状态值;WB是Fs第j列的权重值,并且有wbi为第i个样本的权重值;
所述的混杂平衡损失LB公式为:
上述公式(3)中,m为样本特征数量,j的取值范围为{1,2…m},Fs是样本特征向量,Sj是样本状态向量,WB是样本权重向量,λ1是超参数;
通过公式(3)求解一组最优样本权重值,对样本损失进行重新加权后进行深度因果平衡模型DCBM模型优化。
5.根据权利要求4所述的基于可解释深度学习的遥感图像跨域分类方法,其特征在于,λ=2。
7.根据权利要求6所述的基于可解释深度学习的遥感图像跨域分类方法,其特征在于,m=2,s=60,α=0.25。
8.根据权利要求6所述的基于可解释深度学习的遥感图像跨域分类方法,其特征在于,所述的平衡损失函数为DCBM-FA算法的整体损失函数,如下式所示:
通过联合优化混杂平衡损失、聚焦损失和间隔损失来构建最终分类模型DCBM-FA;优化目标为最小化LDCBM-FA,在优化损失函数过程中,DCBM-FA算法采用反向传播和Adam优化算法更新模型参数,Adam算法将动量与RMSProp优化算法相结合,运用梯度的一阶矩和二阶矩预估平衡过程中每个训练参数的学习率,通过偏置校正后,每一次的迭代学习率都进行范围确定,使得参数更加平稳;
9.根据权利要求8所述的基于可解释深度学习的遥感图像跨域分类方法,其特征在于,在优化过程中对于参数样本权重WB和因果贡献β采用分别优化的方式,首先固定β来优化WB,然后固定WB来优化β;在学习过程中,把迭代周期设置为50,批处理大小设置为64,学习率初始化为5e-4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741475.6A CN113537317B (zh) | 2021-06-30 | 2021-06-30 | 基于可解释深度学习的遥感图像跨域分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741475.6A CN113537317B (zh) | 2021-06-30 | 2021-06-30 | 基于可解释深度学习的遥感图像跨域分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537317A true CN113537317A (zh) | 2021-10-22 |
CN113537317B CN113537317B (zh) | 2023-12-22 |
Family
ID=78097449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110741475.6A Active CN113537317B (zh) | 2021-06-30 | 2021-06-30 | 基于可解释深度学习的遥感图像跨域分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537317B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359304A (zh) * | 2022-10-17 | 2022-11-18 | 山东建筑大学 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902980A (zh) * | 2012-09-13 | 2013-01-30 | 中国科学院自动化研究所 | 一种基于线性规划模型的生物特征图像分析与识别方法 |
CN103559294A (zh) * | 2013-11-12 | 2014-02-05 | 中国石油大学(北京) | 支持向量机分类器的构造方法及装置、分类方法及装置 |
CN107122396A (zh) * | 2017-03-13 | 2017-09-01 | 西北大学 | 基于深度卷积神经网络的三维模型检索算法 |
CN111797703A (zh) * | 2020-06-11 | 2020-10-20 | 武汉大学 | 基于鲁棒深度语义分割网络的多源遥感影像分类方法 |
CN112288013A (zh) * | 2020-10-30 | 2021-01-29 | 中南大学 | 基于元度量学习的小样本遥感场景分类方法 |
CN112766379A (zh) * | 2021-01-21 | 2021-05-07 | 中国科学技术大学 | 一种基于深度学习多权重损失函数的数据均衡方法 |
-
2021
- 2021-06-30 CN CN202110741475.6A patent/CN113537317B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902980A (zh) * | 2012-09-13 | 2013-01-30 | 中国科学院自动化研究所 | 一种基于线性规划模型的生物特征图像分析与识别方法 |
CN103559294A (zh) * | 2013-11-12 | 2014-02-05 | 中国石油大学(北京) | 支持向量机分类器的构造方法及装置、分类方法及装置 |
CN107122396A (zh) * | 2017-03-13 | 2017-09-01 | 西北大学 | 基于深度卷积神经网络的三维模型检索算法 |
CN111797703A (zh) * | 2020-06-11 | 2020-10-20 | 武汉大学 | 基于鲁棒深度语义分割网络的多源遥感影像分类方法 |
CN112288013A (zh) * | 2020-10-30 | 2021-01-29 | 中南大学 | 基于元度量学习的小样本遥感场景分类方法 |
CN112766379A (zh) * | 2021-01-21 | 2021-05-07 | 中国科学技术大学 | 一种基于深度学习多权重损失函数的数据均衡方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359304A (zh) * | 2022-10-17 | 2022-11-18 | 山东建筑大学 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
CN115359304B (zh) * | 2022-10-17 | 2023-02-21 | 山东建筑大学 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113537317B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Drnas: Dirichlet neural architecture search | |
Li et al. | A hybrid deep learning approach with GCN and LSTM for traffic flow prediction | |
Fan et al. | Scalable computations of wasserstein barycenter via input convex neural networks | |
CN103400144B (zh) | 一种基于k近邻的支持向量机主动学习的方法 | |
Wang et al. | Harmonized dense knowledge distillation training for multi-exit architectures | |
Luo et al. | Lightnas: On lightweight and scalable neural architecture search for embedded platforms | |
CN112232577A (zh) | 用于多芯智能表的电力负荷概率预测系统与方法 | |
Platt et al. | A systematic exploration of reservoir computing for forecasting complex spatiotemporal dynamics | |
Shi et al. | Scalable training of inference networks for gaussian-process models | |
CN113537317A (zh) | 基于可解释深度学习的遥感图像跨域分类方法 | |
CN113743474A (zh) | 基于协同半监督卷积神经网络的数字图片分类方法与系统 | |
Wu et al. | SMOTE-Boost-based sparse Bayesian model for flood prediction | |
Zhu et al. | Training an extreme learning machine by localized generalization error model | |
Gao et al. | Multi-source fast transfer learning algorithm based on support vector machine | |
Farajzadeh-Zanjani et al. | Generative adversarial networks: a survey on training, variants, and applications | |
Kim et al. | Trends in neural architecture search: Towards the acceleration of search | |
Basterrech et al. | Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction | |
Sinha et al. | Neural architecture search using covariance matrix adaptation evolution strategy | |
Cai et al. | EST-NAS: An evolutionary strategy with gradient descent for neural architecture search | |
Ni et al. | NASformer: Neural architecture search for vision transformer | |
Peng et al. | Fedgm: Heterogeneous federated learning via generative learning and mutual distillation | |
Rawal et al. | Synthetic petri dish: a novel surrogate model for rapid architecture search | |
Li et al. | A PSO-based fine-tuning algorithm for CNN | |
Li et al. | An imbalanced ensemble learning method based on dual clustering and stage-wise hybrid sampling | |
Pan et al. | Study on indicator recognition method of water meter based on convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |