CN113936219B - 一种基于强化学习的高光谱图像波段选择方法 - Google Patents
一种基于强化学习的高光谱图像波段选择方法 Download PDFInfo
- Publication number
- CN113936219B CN113936219B CN202111268014.8A CN202111268014A CN113936219B CN 113936219 B CN113936219 B CN 113936219B CN 202111268014 A CN202111268014 A CN 202111268014A CN 113936219 B CN113936219 B CN 113936219B
- Authority
- CN
- China
- Prior art keywords
- band
- network
- state
- reinforcement learning
- band selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 48
- 238000010187 selection method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 230000014509 gene expression Effects 0.000 claims abstract description 6
- 230000001186 cumulative effect Effects 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 62
- 239000013598 vector Substances 0.000 claims description 27
- 239000003795 chemical substances by application Substances 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 15
- 230000008901 benefit Effects 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于强化学习的高光谱图像波段选择方法,包含以下步骤:(1)读入原始的高光谱图像数据集;(2)以选择信息量大且冗余度小的波段组合为准则,计算波段间的光谱信息增益;(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型,得到量化后波段选择模型的数学表达;(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合,建立基于深度Q网络的强化学习波段选择方法;(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据,实现迭代求解的稳定收敛;(6)引入ε‑贪心策略进行深度试错探索,实现决策训练过程中探索和应用的平衡;(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练,得到最优波段组合。
Description
技术领域
本发明涉及一种基于强化学习的高光谱图像波段选择方法,属于高光谱数据处理方法与应用技术领域,适用于高光谱数据波段选择方法和应用技术研究。
背景技术
高光谱数据具有数百个相邻且狭窄的光谱通道,其高维特性为区分不同的地表覆盖类型提供了丰富的信息,由于高光谱图像具有较高的光谱分辨率,使得利用多光谱图像不能解决的问题得以解决;比如高光谱图像不仅可以区分各类地物目标,而且可以辨识地物目标,这使得高光谱遥感图像在目标分类、识别等方面具有重要的实用意义和研究价值;然而,高光谱图像较高的光谱分辨率是以较高的数据维和较大的数据量为代价的,这样给高光谱图像的处理带来了很多问题,例如信息的冗余度增大,数据的存储所需空间大,数据的处理时间长,且在图像样本数较少的情况下,易产生“维数灾难”现象或者“休斯”现象,同时对传统的遥感图像处理技术提出了新的挑战,因此,在保证地物目标有用信息尽量少丢失的情况下,减少高光谱图像的波段数是极其必要的。
虽然现有波段选择方法处在快速发展中,但是还没有一个通用的模型具有自主学习的能力,基于排序的方法都是基于人类专家的领域知识反复试验设计的,而基于启发式搜索的波段选择方法在进行搜索策略时极易陷入局部最优解,基于深度学习的方法多为监督式且模型泛化能力差,调优困难。
强化学习系统是根据自己的经验进行训练的,原则上允许其在缺乏人类专业知识的领域任务中运行,强化学习最大的两个特征是试错学习和考虑长远收益,且不需要预期奖励是可微的,可以直接处理离散空间中的搜索问题,能够对空间进行深度的探索,可以通过其自主学习的能力来决策新的波段选择策略,而无需任何的人工推理。
发明内容
本发明的目的在于针对高光谱数据应用过程中的维度灾难、冗余度高、计算复杂度高的问题,提供一种基于强化学习的高光谱图像波段选择方法。
本发明的技术解决方案为:设计基于马尔科夫决策过程的强化学习波段选择环境模型,得到量化后波段选择模型奖励函数、状态空间、动作空间的数学表达,利用强化学习的试错学习和考虑长远收益的能力来解决现有波段选择方法中空间搜索和决策优化有限的问题,赋予波段选择模型自主学习的能力;设计基于深度Q网络的强化学习波段选择方法进行最优价值函数的迭代求解,引入经验回放和目标网络的机制,实现网络迭代求解的稳定收敛,引入ε-贪心策略,使智能体在初始阶段进行深度动作探索,实现了智能体决策过程中探索与应用之间的平衡,以无监督的方式完成对基于深度Q网络的强化学习波段选择模型的训练,输出最优决策策略对应的动作,解决标记样本不足的问题,得到该策略下的最优波段组合。
本发明是一种基于强化学习的高光谱图像波段选择方法,其步骤如下:
(1)读入原始的高光谱图像数据集;
(2)以选择信息量大且冗余度小的波段组合为准则,计算波段间的光谱信息增益;
(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型,得到量化后波段选择模型的数学表达;
(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合,建立基于深度Q网络的强化学习波段选择方法;
(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据,实现迭代求解的稳定收敛;
(6)引入ε-贪心策略进行深度试错探索,实现决策训练过程中探索和应用的平衡;
(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练,得到最优波段组合。
其中,步骤(1)读入原始的高光谱图像数据集:读入待处理的不带标签的高光谱数据集。
其中,步骤(2)以选择信息量大且冗余度小的波段组合为准则,计算波段间的光谱信息增益:在读入原始高光谱数据的基础上将每个波段由二维矩阵转换为一维的光谱向量,为了在波段选择的过程中,既保证所选波段的信息量丰富,又能去除邻近波段之间大量的冗余信息,使用光谱信息增益作为波段选择的准则来衡量波段间的相似程度以及波段之间信息量大小的关系;假设原始高光谱数据波段集合为H,集合H中包含n个波段,x和y两个波段向量分别为a=(a1,a2,…,aN)和b=(b1,b2,…,bN),其中进行归一化可得由信息论可得x和y两个波段向量的自信息:
Ii(x)=-lgai
Ii(y)=-lgbi
其中I表示波段的自信息,lg表示以10为底的对数运算,ai和bi分别代表波段向量x和y归一化的像元值,通过上述两式可得y波段关于x波段的相对熵:
其中,D表示相对熵,N表示像元数,lg表示以10为底的对数运算,ai和bi分别代表波段向量x和y归一化的像元值,同样可以得到x波段关于y波段的相对熵:
则x波段相对于y波段的光谱信息增益IG为
IG(x,y)=D(x||y)+D(y||x)
其中,IG表示光谱信息增益,D(y||x)表示x波段关于y波段的相对熵,D(x||y)表示y波段关于x波段的相对熵。
其中,步骤(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型,得到量化后波段选择模型的数学表达:通过马尔科夫决策过程将高光谱波段选择问题参数化为强化学习的环境模型,假设原始高光谱数据波段集合为H,集合H中包含n个波段,集合中的某一个波段表示为hi(0<i<n),要选择的波段数为K,将马尔科夫决策过程定义为五元组<S,A,R,P,γ>,参数化过程如下所示:
状态空间S:包括一个长度为n的二进制编码的状态向量s和一个终止状态End,其中状态向量s表示在过去的时间步选择了哪些波段,si=1表示第hi波段已经被选择过了,si=0表示该波段未被选择过;
动作空间A:将动作a表示为在每一个时间步上从H中选择一个波段hi,所有动作的完整集合为M={h1,h2,……,hn},设N为当前时间步之前采取的所有动作的集合,则当前时间步的实际动作集合为A=M\N,即A为M与N的差集,历史动作集合N与状态向量s之间具有一一对应的关系;
状态转移函数P:状态转移函数表示在当前状态和当前状态下采取的动作映射到下一个状态的分布,状态转移函数P可以如下表示:
其中,st为当前时间步状态,st+1为下一时间步状态,at为当前时间步所选动作,if表示判断,bands为已选波段数量,K为应选波段数量;
折扣因子γ:γ∈[0,1]表示对未来收益的折扣系数,γ越接近于1表示未来收益越重要;
奖励函数R:奖励函数与智能体在选择特定波段后取得的进步成正比,光谱信息增益代表所选波段组合的信息量和波段间的相关程度,奖励函数R如下所示:
其中,st为当前时间步状态,st+1为下一时间步状态,IG(st)为当前状态的光谱信息增益,IG(st+1)为下一状态的光谱信息增益;
其中,步骤(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合,建立基于深度Q网络的强化学习波段选择方法:Q学习使用状态-动作价值函数作为估计函数来求解波段选择的最优策略,选择能够最大化累积奖励期望的动作,Q学习的更新公示如下所示:
Q(st,at)←Q(st,at)+α[rt+γmaxQ(st+1,at+1)-Q(st,at)]
其中,Q为状态动作价值函数,st为当前时间步状态,st+1为下一时间步状态,at为当前时间步所选动作,rt为当前时间步所选动作获得的奖励,γ∈[0,1]为折扣系数,α∈[0,1]为学习率;
引入深度Q网络机制,使用网络权重为θ的Q神经网络作为逼近器来近似表示状态动作价值函数Q(st,at;θ),n维的状态向量作为输入,输出每个分量为对应动作的Q值,通过最小化损失函数来进行迭代训练,建立基于深度Q网络的强化学习波段选择模型,损失函数的计算如下:
其中,为求期望运算,Q(s,a;θ)为当前Q值,Q(s′,a′;θ)为目标Q值,s为当前状态,s’为下一状态,a为当前动作,a’为下一动作,r为奖励值,θ为网络的权重参数。
其中,步骤(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据,实现迭代求解的稳定收敛:经验回放是在每个时间步,将智能体与环境交互过程中得到的转移样本存储到经验池D中,在训练时,从经验池D中随机采样抽取小批量的转移样本,并使用随机梯度下降更新网络参数θ,这样随机采样的方式大大降低了数据间的强相关性,并且使得网络能够学习之前的经验;目标网络是引入了一个与当前价值Q网络结构相同的目标价值Q网络来产生目标Q值,当前价值网络的参数θ是实时更新的,每隔N轮迭代将当前价值网络的参数传递给目标值网络,使得损失函数更新过程中一段时间内目标Q值是保持不变的,提升了网络训练的稳定性,实现迭代求解的稳定收敛。
其中,步骤(6)引入ε-贪心策略进行深度试错探索,实现决策训练过程中探索和应用的平衡:为了使得智能体在训练过程中进行深度试错探索学习,保证智能体探索与应用之间的平衡,引入ε-贪心策略来进行每个时间步动作的选择,即以1-ε的概率根据智能体已经学习到的策略采取最佳动作,以ε的概率随机选择动作,该策略可以保证智能体对动作空间足够的探索,即智能体可以看到更多的波段组合,实现决策训练过程中探索和应用的平衡。
其中,步骤(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练,得到最优波段组合:以原始的不带标签的高光谱数据作为输入,采用无监督的策略对基于深度Q网络的强化学习波段选择模型进行训练,输出最优策略下的高光谱数据最优波段组合。
本发明与现有技术相比的优点在于:本方法的模型具有自主学习能力,可以在无监督的情况下自主学习决策出最优波段组合,实现了高光谱图像最优波段组合的自主选择;它具有以下的优点:(1)基于马尔科夫决策过程将波段选择任务转换为了强化学习问题,利用强化学习决策学习赋予了波段选择模型自主学习的能力;(2)利用深度Q网络作为逼近器来近似表示状态动作价值函数,解决了状态和动作空间过大导致的模型求解困难问题;(3)以无监督的方式对模型进行训练,解决标记样本不足的问题,增强了波段选择模型的泛化能力。
具体实施方式
为了更好的说明本发明涉及的高光谱数据波段选择方法,利用AVIRIS传感器采集的200个波段的印第安高光谱数据集和Hyperion传感器采集的145个波段的博茨瓦纳高光谱数据集进行波段选择。本发明是一种基于强化学习的高光谱图像波段选择方法,具体实现步骤如下:
(1)读入原始的高光谱图像数据集:读入不带标签的原始AVIRIS传感器采集的200个波段的印第安高光谱数据集和Hyperion传感器采集的145个波段的博茨瓦纳高光谱数据集。
(2)以选择信息量大且冗余度小的波段组合为准则,计算波段间的光谱信息增益:在读入原始高光谱数据的基础上将每个波段由二维矩阵转换为一维的光谱向量,为了在波段选择的过程中,既保证所选波段的信息量丰富,又能去除邻近波段之间大量的冗余信息,使用光谱信息增益作为波段选择的准则来衡量波段间的相似程度以及波段之间信息量大小的关系;假设原始高光谱数据波段集合为H,集合H中包含n个波段,x和y两个波段向量分别为a=(a1,a2,…,aN)和b=(b1,b2,…,bN),其中进行归一化可得由信息论可得x和y两个波段向量的自信息:
Ii(x)=-lgai
Ii(y)=-lgbi
其中I表示波段的自信息,lg表示以10为底的对数运算,ai和bi分别代表波段向量x和y归一化的像元值,通过上述两式可得y波段关于x波段的相对熵:
其中,D表示相对熵,N表示像元数,lg表示以10为底的对数运算,ai和bi分别代表波段向量x和y归一化的像元值,同样可以得到x波段关于y波段的相对熵:
则x波段相对于y波段的光谱信息增益IG为
IG(x,y)=D(x||y)+D(y||x)
其中,IG表示光谱信息增益,D(y||x)表示x波段关于y波段的相对熵,D(x||y)表示y波段关于x波段的相对熵。
(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型,得到量化后波段选择模型的数学表达:通过马尔科夫决策过程将高光谱波段选择问题参数化为强化学习的环境模型,假设原始高光谱数据波段集合为H,集合H中包含n个波段,集合中的某一个波段表示为hi(0<i<n),要选择的波段数为K,将马尔科夫决策过程定义为五元组<S,A,R,P,γ>,参数化过程如下所示:
状态空间S:包括一个长度为n的二进制编码的状态向量s和一个终止状态End,其中状态向量s表示在过去的时间步选择了哪些波段,si=1表示第hi波段已经被选择过了,si=0表示该波段未被选择过;
动作空间A:将动作a表示为在每一个时间步上从H中选择一个波段hi,所有动作的完整集合为M={h1,h2,……,hn},设N为当前时间步之前采取的所有动作的集合,则当前时间步的实际动作集合为A=M\N,即A为M与N的差集,历史动作集合N与状态向量s之间具有一一对应的关系;
状态转移函数P:状态转移函数表示在当前状态和当前状态下采取的动作映射到下一个状态的分布,状态转移函数P可以如下表示:
其中,st为当前时间步状态,st+1为下一时间步状态,at为当前时间步所选动作,if表示判断,bands为已选波段数量,K为应选波段数量;
折扣因子γ:γ∈[0,1]表示对未来收益的折扣系数,γ越接近于1表示未来收益越重要;
奖励函数R:奖励函数与智能体在选择特定波段后取得的进步成正比,光谱信息增益代表所选波段组合的信息量和波段间的相关程度,奖励函数R如下所示:
其中,st为当前时间步状态,st+1为下一时间步状态,IG(st)为当前状态的光谱信息增益,IG(st+1)为下一状态的光谱信息增益;
(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合,建立基于深度Q网络的强化学习波段选择方法:Q学习使用状态-动作价值函数作为估计函数来求解波段选择的最优策略,选择能够最大化累积奖励期望的动作,Q学习的更新公示如下所示:
Q(st,at)←Q(st,at)+α[rt+γmaxQ(st+1,at+1)-Q(st,at)]
其中,Q为状态动作价值函数,st为当前时间步状态,st+1为下一时间步状态,at为当前时间步所选动作,rt为当前时间步所选动作获得的奖励,γ∈[0,1]为折扣系数,α∈[0,1]为学习率;
引入深度Q网络机制,使用网络权重为θ的Q神经网络作为逼近器来近似表示状态动作价值函数Q(st,at;θ),n维的状态向量作为输入,输出每个分量为对应动作的Q值,通过最小化损失函数来进行迭代训练,建立基于深度Q网络的强化学习波段选择模型,损失函数的计算如下:
其中,为求期望运算,Q(s,a;θ)为当前Q值,Q(s′,a′;θ)为目标Q值,s为当前状态,s’为下一状态,a为当前动作,a’为下一动作,r为奖励值,θ为网络的权重参数。
(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据,实现迭代求解的稳定收敛:经验回放是在每个时间步,将智能体与环境交互过程中得到的转移样本存储到经验池D中,在训练时,从经验池D中随机采样抽取小批量的转移样本,并使用随机梯度下降更新网络参数θ,这样随机采样的方式大大降低了数据间的强相关性,并且使得网络能够学习之前的经验;目标网络是引入了一个与当前价值Q网络结构相同的目标价值Q网络来产生目标Q值,当前价值网络的参数θ是实时更新的,每隔N轮迭代将当前价值网络的参数传递给目标值网络,使得损失函数更新过程中一段时间内目标Q值是保持不变的,提升了网络训练的稳定性,实现迭代求解的稳定收敛。
(6)引入ε-贪心策略进行深度试错探索,实现决策训练过程中探索和应用的平衡:为了使得智能体在训练过程中进行深度试错探索学习,保证智能体探索与应用之间的平衡,引入ε-贪心策略来进行每个时间步动作的选择,即以1-ε的概率根据智能体已经学习到的策略采取最佳动作,以ε的概率随机选择动作,该策略可以保证智能体对动作空间足够的探索,即智能体可以看到更多的波段组合,实现决策训练过程中探索和应用的平衡。
(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练,得到最优波段组合:以原始的不带标签的高光谱数据作为输入,采用无监督的策略对基于深度Q网络的强化学习波段选择模型进行训练,输出最优策略下的高光谱数据最优波段组合。
Claims (6)
1.一种基于强化学习的高光谱图像波段选择方法,其特征在于:它包含以下步骤:
(1)读入原始的高光谱图像数据集;
(2)以选择信息量大且冗余度小的波段组合为准则,计算波段间的光谱信息增益:在读入原始高光谱数据的基础上将每个波段由二维矩阵转换为一维的光谱向量,为了在波段选择的过程中,既保证所选波段的信息量丰富,又能去除邻近波段之间大量的冗余信息,使用光谱信息增益作为波段选择的准则来衡量波段间的相似程度以及波段之间信息量大小的关系;假设原始高光谱数据波段集合为H,集合H中包含n个波段,x和y两个波段向量分别为a=(a1,a2,…,aN)和b=(b1,b2,…,bN),其中进行归一化可得由信息论可得x和y两个波段向量的自信息:
Ii(x)=-lgai
Ii(y)=-lgbi
其中I表示波段的自信息,lg表示以10为底的对数运算,ai和bi分别代表波段向量x和y归一化的像元值,通过上述两式可得y波段关于x波段的相对熵:
其中,D表示相对熵,N表示像元数,lg表示以10为底的对数运算,ai和bi分别代表波段向量x和y归一化的像元值,同样可以得到x波段关于y波段的相对熵:
则x波段相对于y波段的光谱信息增益IG为
IG(x,y)=D(x||y)+D(y||x)
其中,IG表示光谱信息增益,D(y||x)表示x波段关于y波段的相对熵,D(x||y)表示y波段关于x波段的相对熵;
(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型,得到量化后波段选择模型的数学表达:通过马尔科夫决策过程将高光谱波段选择问题参数化为强化学习的环境模型,假设原始高光谱数据波段集合为H,集合H中包含n个波段,集合中的某一个波段表示为hi(0<i<n),要选择的波段数为K,将马尔科夫决策过程定义为五元组<S,A,R,P,γ>,参数化过程如下所示:
状态空间S:包括一个长度为n的二进制编码的状态向量s和一个终止状态End,其中状态向量s表示在过去的时间步选择了哪些波段,si=1表示第hi波段已经被选择过了,si=0表示该波段未被选择过;
动作空间A:将动作a表示为在每一个时间步上从H中选择一个波段hi,所有动作的完整集合为M={h1,h2,……,hn},设N为当前时间步之前采取的所有动作的集合,则当前时间步的实际动作集合为A=M\N,即A为M与N的差集,历史动作集合N与状态向量s之间具有一一对应的关系;
状态转移函数P:状态转移函数表示在当前状态和当前状态下采取的动作映射到下一个状态的分布,状态转移函数P可以如下表示:
其中,st为当前时间步状态,st+1为下一时间步状态,at为当前时间步所选动作,if表示判断,bands为已选波段数量,K为应选波段数量;
折扣因子γ:γ∈[0,1]表示对未来收益的折扣系数,γ越接近于1表示未来收益越重要;
奖励函数R:奖励函数与智能体在选择特定波段后取得的进步成正比,光谱信息增益代表所选波段组合的信息量和波段间的相关程度,奖励函数R如下所示:
其中,st为当前时间步状态,st+1为下一时间步状态,IG(st)为当前状态的光谱信息增益,IG(st+1)为下一状态的光谱信息增益;
(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合,建立基于深度Q网络的强化学习波段选择方法;
(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据,实现迭代求解的稳定收敛;
(6)引入ε-贪心策略进行深度试错探索,实现决策训练过程中探索和应用的平衡;
(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练,得到最优波段组合。
2.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法,其中步骤(1)读入原始的高光谱图像数据集:读入待处理的不带标签的高光谱数据集。
3.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法,其中步骤(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合,建立基于深度Q网络的强化学习波段选择方法:Q学习使用状态-动作价值函数作为估计函数来求解波段选择的最优策略,选择能够最大化累积奖励期望的动作,Q学习的更新公示如下所示:
Q(st,at)←Q(st,at)+α[rt+γmaxQ(st+1,at+1)-Q(st,at)]
其中,Q为状态动作价值函数,st为当前时间步状态,st+1为下一时间步状态,at为当前时间步所选动作,rt为当前时间步所选动作获得的奖励,γ∈[0,1]为折扣系数,α∈[0,1]为学习率;
引入深度Q网络机制,使用网络权重为θ的Q神经网络作为逼近器来近似表示状态动作价值函数Q(st,at;θ),n维的状态向量作为输入,输出每个分量为对应动作的Q值,通过最小化损失函数来进行迭代训练,建立基于深度Q网络的强化学习波段选择模型,损失函数的计算如下:
其中,为求期望运算,Q(s,a;θ)为当前Q值,Q(s′,a′;θ)为目标Q值,s为当前状态,s’为下一状态,a为当前动作,a’为下一动作,r为奖励值,θ为网络的权重参数。
4.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法,其中步骤(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据,实现迭代求解的稳定收敛:经验回放是在每个时间步,将智能体与环境交互过程中得到的转移样本存储到经验池D中,在训练时,从经验池D中随机采样抽取小批量的转移样本,并使用随机梯度下降更新网络参数θ,这样随机采样的方式大大降低了数据间的强相关性,并且使得网络能够学习之前的经验;目标网络是引入了一个与当前价值Q网络结构相同的目标价值Q网络来产生目标Q值,当前价值网络的参数θ是实时更新的,每隔N轮迭代将当前价值网络的参数传递给目标值网络,使得损失函数更新过程中一段时间内目标Q值是保持不变的,提升了网络训练的稳定性,实现迭代求解的稳定收敛。
5.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法,其中步骤(6)引入ε-贪心策略进行深度试错探索,实现决策训练过程中探索和应用的平衡:为了使得智能体在训练过程中进行深度试错探索学习,保证智能体探索与应用之间的平衡,引入ε-贪心策略来进行每个时间步动作的选择,即以1-ε的概率根据智能体已经学习到的策略采取最佳动作,以ε的概率随机选择动作,该策略可以保证智能体对动作空间足够的探索,即智能体可以看到更多的波段组合,实现决策训练过程中探索和应用的平衡。
6.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法,其中步骤(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练,得到最优波段组合:以原始的不带标签的高光谱数据作为输入,采用无监督的策略对基于深度Q网络的强化学习波段选择模型进行训练,输出最优策略下的高光谱数据最优波段组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268014.8A CN113936219B (zh) | 2021-10-29 | 2021-10-29 | 一种基于强化学习的高光谱图像波段选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268014.8A CN113936219B (zh) | 2021-10-29 | 2021-10-29 | 一种基于强化学习的高光谱图像波段选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936219A CN113936219A (zh) | 2022-01-14 |
CN113936219B true CN113936219B (zh) | 2024-05-31 |
Family
ID=79284730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111268014.8A Active CN113936219B (zh) | 2021-10-29 | 2021-10-29 | 一种基于强化学习的高光谱图像波段选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936219B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900619B (zh) * | 2022-05-06 | 2023-05-05 | 北京航空航天大学 | 一种自适应曝光驱动相机摄影水下图像处理系统 |
CN117783088B (zh) * | 2024-02-23 | 2024-05-14 | 广州贝拓科学技术有限公司 | 激光显微拉曼光谱仪的控制模型训练方法及装置、设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688968A (zh) * | 2019-09-30 | 2020-01-14 | 西安电子科技大学 | 基于多示例深度卷积记忆网络的高光谱目标检测方法 |
CN113392396A (zh) * | 2021-06-11 | 2021-09-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
KR20210121790A (ko) * | 2020-03-31 | 2021-10-08 | 한국외국어대학교 연구산학협력단 | 강화학습 기반의 분류기 학습 장치 및 방법 |
-
2021
- 2021-10-29 CN CN202111268014.8A patent/CN113936219B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688968A (zh) * | 2019-09-30 | 2020-01-14 | 西安电子科技大学 | 基于多示例深度卷积记忆网络的高光谱目标检测方法 |
KR20210121790A (ko) * | 2020-03-31 | 2021-10-08 | 한국외국어대학교 연구산학협력단 | 강화학습 기반의 분류기 학습 장치 및 방법 |
CN113392396A (zh) * | 2021-06-11 | 2021-09-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113936219A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936219B (zh) | 一种基于强化学习的高光谱图像波段选择方法 | |
CN110580496A (zh) | 一种基于熵最小化的深度迁移学习系统及方法 | |
CN114519469B (zh) | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 | |
CN112987664B (zh) | 一种基于深度强化学习的流水车间调度方法 | |
CN113222139B (zh) | 神经网络训练方法和装置、设备,及计算机存储介质 | |
CN111476285B (zh) | 一种图像分类模型的训练方法及图像分类方法、存储介质 | |
CN112906828A (zh) | 一种基于时域编码和脉冲神经网络的图像分类方法 | |
CN114157539B (zh) | 一种数据知识双驱动的调制智能识别方法 | |
CN113780242A (zh) | 一种基于模型迁移学习的跨场景水声目标分类方法 | |
CN109165576B (zh) | 一种运动状态识别方法及装置 | |
CN111325259A (zh) | 一种基于深度学习和二进制编码的遥感图像分类方法 | |
CN116739787B (zh) | 基于人工智能的交易推荐方法及系统 | |
CN112464172A (zh) | 生长参数主被动遥感反演方法及装置 | |
CN115630566B (zh) | 一种基于深度学习和动力约束的资料同化方法和系统 | |
CN117073703A (zh) | 一种车辆路径问题解决方案的生成方法及装置 | |
CN114036947B (zh) | 一种半监督学习的小样本文本分类方法和系统 | |
CN114596464A (zh) | 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质 | |
CN115169458A (zh) | 基于主动学习的自适应故障诊断方法、装置及相关介质 | |
CN115240782A (zh) | 药物属性预测方法、装置、电子设备及存储介质 | |
CN116881854B (zh) | 融合XGBoost计算特征权重的时间序列预测方法 | |
JP2020047219A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
CN116798521B (zh) | 免疫细胞培养控制系统的异常监测方法及系统 | |
CN118279701A (zh) | 模型和样本存储资源联合优化的持续进化学习方法与系统 | |
CN116911150A (zh) | 一种电磁能装备场云图预测方法 | |
Ressom et al. | Computational intelligence and its application in remote sensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |