CN113936219B

CN113936219B - 一种基于强化学习的高光谱图像波段选择方法

Info

Publication number: CN113936219B
Application number: CN202111268014.8A
Authority: CN
Inventors: 李娜; 赵慧洁; 刘轩增; 杨翔宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-05-31
Anticipated expiration: 2041-10-29
Also published as: CN113936219A

Abstract

一种基于强化学习的高光谱图像波段选择方法，包含以下步骤：(1)读入原始的高光谱图像数据集；(2)以选择信息量大且冗余度小的波段组合为准则，计算波段间的光谱信息增益；(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型，得到量化后波段选择模型的数学表达；(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合，建立基于深度Q网络的强化学习波段选择方法；(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据，实现迭代求解的稳定收敛；(6)引入ε‑贪心策略进行深度试错探索，实现决策训练过程中探索和应用的平衡；(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练，得到最优波段组合。

Description

一种基于强化学习的高光谱图像波段选择方法

技术领域

本发明涉及一种基于强化学习的高光谱图像波段选择方法，属于高光谱数据处理方法与应用技术领域，适用于高光谱数据波段选择方法和应用技术研究。

背景技术

高光谱数据具有数百个相邻且狭窄的光谱通道，其高维特性为区分不同的地表覆盖类型提供了丰富的信息，由于高光谱图像具有较高的光谱分辨率，使得利用多光谱图像不能解决的问题得以解决；比如高光谱图像不仅可以区分各类地物目标，而且可以辨识地物目标，这使得高光谱遥感图像在目标分类、识别等方面具有重要的实用意义和研究价值；然而，高光谱图像较高的光谱分辨率是以较高的数据维和较大的数据量为代价的，这样给高光谱图像的处理带来了很多问题，例如信息的冗余度增大，数据的存储所需空间大，数据的处理时间长，且在图像样本数较少的情况下，易产生“维数灾难”现象或者“休斯”现象，同时对传统的遥感图像处理技术提出了新的挑战，因此，在保证地物目标有用信息尽量少丢失的情况下，减少高光谱图像的波段数是极其必要的。

虽然现有波段选择方法处在快速发展中，但是还没有一个通用的模型具有自主学习的能力，基于排序的方法都是基于人类专家的领域知识反复试验设计的，而基于启发式搜索的波段选择方法在进行搜索策略时极易陷入局部最优解，基于深度学习的方法多为监督式且模型泛化能力差，调优困难。

强化学习系统是根据自己的经验进行训练的，原则上允许其在缺乏人类专业知识的领域任务中运行，强化学习最大的两个特征是试错学习和考虑长远收益，且不需要预期奖励是可微的，可以直接处理离散空间中的搜索问题，能够对空间进行深度的探索，可以通过其自主学习的能力来决策新的波段选择策略，而无需任何的人工推理。

发明内容

本发明的目的在于针对高光谱数据应用过程中的维度灾难、冗余度高、计算复杂度高的问题，提供一种基于强化学习的高光谱图像波段选择方法。

本发明的技术解决方案为：设计基于马尔科夫决策过程的强化学习波段选择环境模型，得到量化后波段选择模型奖励函数、状态空间、动作空间的数学表达，利用强化学习的试错学习和考虑长远收益的能力来解决现有波段选择方法中空间搜索和决策优化有限的问题，赋予波段选择模型自主学习的能力；设计基于深度Q网络的强化学习波段选择方法进行最优价值函数的迭代求解，引入经验回放和目标网络的机制，实现网络迭代求解的稳定收敛，引入ε-贪心策略，使智能体在初始阶段进行深度动作探索，实现了智能体决策过程中探索与应用之间的平衡，以无监督的方式完成对基于深度Q网络的强化学习波段选择模型的训练，输出最优决策策略对应的动作，解决标记样本不足的问题，得到该策略下的最优波段组合。

本发明是一种基于强化学习的高光谱图像波段选择方法，其步骤如下：

(1)读入原始的高光谱图像数据集；

(2)以选择信息量大且冗余度小的波段组合为准则，计算波段间的光谱信息增益；

(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型，得到量化后波段选择模型的数学表达；

(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合，建立基于深度Q网络的强化学习波段选择方法；

(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据，实现迭代求解的稳定收敛；

(6)引入ε-贪心策略进行深度试错探索，实现决策训练过程中探索和应用的平衡；

(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练，得到最优波段组合。

其中，步骤(1)读入原始的高光谱图像数据集：读入待处理的不带标签的高光谱数据集。

其中，步骤(2)以选择信息量大且冗余度小的波段组合为准则，计算波段间的光谱信息增益：在读入原始高光谱数据的基础上将每个波段由二维矩阵转换为一维的光谱向量，为了在波段选择的过程中，既保证所选波段的信息量丰富，又能去除邻近波段之间大量的冗余信息，使用光谱信息增益作为波段选择的准则来衡量波段间的相似程度以及波段之间信息量大小的关系；假设原始高光谱数据波段集合为H，集合H中包含n个波段，x和y两个波段向量分别为a＝(a₁,a₂,…,a_N)和b＝(b₁,b₂,…,b_N)，其中进行归一化可得由信息论可得x和y两个波段向量的自信息：

I_i(x)＝-lga_i

I_i(y)＝-lgb_i

其中I表示波段的自信息，lg表示以10为底的对数运算，a_i和b_i分别代表波段向量x和y归一化的像元值，通过上述两式可得y波段关于x波段的相对熵：

其中，D表示相对熵，N表示像元数，lg表示以10为底的对数运算，a_i和b_i分别代表波段向量x和y归一化的像元值，同样可以得到x波段关于y波段的相对熵：

则x波段相对于y波段的光谱信息增益IG为

IG(x,y)＝D(x||y)+D(y||x)

其中，IG表示光谱信息增益，D(y||x)表示x波段关于y波段的相对熵，D(x||y)表示y波段关于x波段的相对熵。

其中，步骤(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型，得到量化后波段选择模型的数学表达：通过马尔科夫决策过程将高光谱波段选择问题参数化为强化学习的环境模型，假设原始高光谱数据波段集合为H，集合H中包含n个波段，集合中的某一个波段表示为h_i(0<i<n)，要选择的波段数为K，将马尔科夫决策过程定义为五元组<S,A,R,P,γ>，参数化过程如下所示：

状态空间S：包括一个长度为n的二进制编码的状态向量s和一个终止状态End，其中状态向量s表示在过去的时间步选择了哪些波段，s_i＝1表示第h_i波段已经被选择过了，s_i＝0表示该波段未被选择过；

动作空间A：将动作a表示为在每一个时间步上从H中选择一个波段h_i，所有动作的完整集合为M＝{h₁,h₂,……,h_n}，设N为当前时间步之前采取的所有动作的集合，则当前时间步的实际动作集合为A＝M\N，即A为M与N的差集，历史动作集合N与状态向量s之间具有一一对应的关系；

状态转移函数P：状态转移函数表示在当前状态和当前状态下采取的动作映射到下一个状态的分布，状态转移函数P可以如下表示：

其中，s_t为当前时间步状态，s_t+1为下一时间步状态，a_t为当前时间步所选动作，if表示判断，bands为已选波段数量，K为应选波段数量；

折扣因子γ：γ∈[0,1]表示对未来收益的折扣系数，γ越接近于1表示未来收益越重要；

奖励函数R：奖励函数与智能体在选择特定波段后取得的进步成正比，光谱信息增益代表所选波段组合的信息量和波段间的相关程度，奖励函数R如下所示：

其中，s_t为当前时间步状态，s_t+1为下一时间步状态，IG(s_t)为当前状态的光谱信息增益，IG(s_t+1)为下一状态的光谱信息增益；

其中，步骤(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合，建立基于深度Q网络的强化学习波段选择方法：Q学习使用状态-动作价值函数作为估计函数来求解波段选择的最优策略，选择能够最大化累积奖励期望的动作，Q学习的更新公示如下所示：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t)]

其中，Q为状态动作价值函数，s_t为当前时间步状态，s_t+1为下一时间步状态，a_t为当前时间步所选动作，r_t为当前时间步所选动作获得的奖励，γ∈[0,1]为折扣系数，α∈[0,1]为学习率；

引入深度Q网络机制，使用网络权重为θ的Q神经网络作为逼近器来近似表示状态动作价值函数Q(s_t,a_t；θ)，n维的状态向量作为输入，输出每个分量为对应动作的Q值，通过最小化损失函数来进行迭代训练，建立基于深度Q网络的强化学习波段选择模型，损失函数的计算如下：

其中，为求期望运算，Q(s,a；θ)为当前Q值，Q(s′,a′；θ)为目标Q值，s为当前状态，s’为下一状态，a为当前动作，a’为下一动作，r为奖励值，θ为网络的权重参数。

其中，步骤(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据，实现迭代求解的稳定收敛：经验回放是在每个时间步，将智能体与环境交互过程中得到的转移样本存储到经验池D中，在训练时，从经验池D中随机采样抽取小批量的转移样本，并使用随机梯度下降更新网络参数θ，这样随机采样的方式大大降低了数据间的强相关性，并且使得网络能够学习之前的经验；目标网络是引入了一个与当前价值Q网络结构相同的目标价值Q网络来产生目标Q值，当前价值网络的参数θ是实时更新的，每隔N轮迭代将当前价值网络的参数传递给目标值网络，使得损失函数更新过程中一段时间内目标Q值是保持不变的，提升了网络训练的稳定性，实现迭代求解的稳定收敛。

其中，步骤(6)引入ε-贪心策略进行深度试错探索，实现决策训练过程中探索和应用的平衡：为了使得智能体在训练过程中进行深度试错探索学习，保证智能体探索与应用之间的平衡，引入ε-贪心策略来进行每个时间步动作的选择，即以1-ε的概率根据智能体已经学习到的策略采取最佳动作，以ε的概率随机选择动作，该策略可以保证智能体对动作空间足够的探索，即智能体可以看到更多的波段组合，实现决策训练过程中探索和应用的平衡。

其中，步骤(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练，得到最优波段组合：以原始的不带标签的高光谱数据作为输入，采用无监督的策略对基于深度Q网络的强化学习波段选择模型进行训练，输出最优策略下的高光谱数据最优波段组合。

本发明与现有技术相比的优点在于：本方法的模型具有自主学习能力，可以在无监督的情况下自主学习决策出最优波段组合，实现了高光谱图像最优波段组合的自主选择；它具有以下的优点：(1)基于马尔科夫决策过程将波段选择任务转换为了强化学习问题，利用强化学习决策学习赋予了波段选择模型自主学习的能力；(2)利用深度Q网络作为逼近器来近似表示状态动作价值函数，解决了状态和动作空间过大导致的模型求解困难问题；(3)以无监督的方式对模型进行训练，解决标记样本不足的问题，增强了波段选择模型的泛化能力。

具体实施方式

为了更好的说明本发明涉及的高光谱数据波段选择方法，利用AVIRIS传感器采集的200个波段的印第安高光谱数据集和Hyperion传感器采集的145个波段的博茨瓦纳高光谱数据集进行波段选择。本发明是一种基于强化学习的高光谱图像波段选择方法，具体实现步骤如下：

(1)读入原始的高光谱图像数据集：读入不带标签的原始AVIRIS传感器采集的200个波段的印第安高光谱数据集和Hyperion传感器采集的145个波段的博茨瓦纳高光谱数据集。

(2)以选择信息量大且冗余度小的波段组合为准则，计算波段间的光谱信息增益：在读入原始高光谱数据的基础上将每个波段由二维矩阵转换为一维的光谱向量，为了在波段选择的过程中，既保证所选波段的信息量丰富，又能去除邻近波段之间大量的冗余信息，使用光谱信息增益作为波段选择的准则来衡量波段间的相似程度以及波段之间信息量大小的关系；假设原始高光谱数据波段集合为H，集合H中包含n个波段，x和y两个波段向量分别为a＝(a₁,a₂,…,a_N)和b＝(b₁,b₂,…,b_N)，其中进行归一化可得由信息论可得x和y两个波段向量的自信息：

I_i(x)＝-lga_i

I_i(y)＝-lgb_i

则x波段相对于y波段的光谱信息增益IG为

IG(x,y)＝D(x||y)+D(y||x)

(3)基于马尔科夫决策过程在步骤(2)计算光谱信息增益的基础上设计强化学习波段选择环境模型，得到量化后波段选择模型的数学表达：通过马尔科夫决策过程将高光谱波段选择问题参数化为强化学习的环境模型，假设原始高光谱数据波段集合为H，集合H中包含n个波段，集合中的某一个波段表示为h_i(0<i<n)，要选择的波段数为K，将马尔科夫决策过程定义为五元组<S,A,R,P,γ>，参数化过程如下所示：

(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合，建立基于深度Q网络的强化学习波段选择方法：Q学习使用状态-动作价值函数作为估计函数来求解波段选择的最优策略，选择能够最大化累积奖励期望的动作，Q学习的更新公示如下所示：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t)]

(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据，实现迭代求解的稳定收敛：经验回放是在每个时间步，将智能体与环境交互过程中得到的转移样本存储到经验池D中，在训练时，从经验池D中随机采样抽取小批量的转移样本，并使用随机梯度下降更新网络参数θ，这样随机采样的方式大大降低了数据间的强相关性，并且使得网络能够学习之前的经验；目标网络是引入了一个与当前价值Q网络结构相同的目标价值Q网络来产生目标Q值，当前价值网络的参数θ是实时更新的，每隔N轮迭代将当前价值网络的参数传递给目标值网络，使得损失函数更新过程中一段时间内目标Q值是保持不变的，提升了网络训练的稳定性，实现迭代求解的稳定收敛。

(6)引入ε-贪心策略进行深度试错探索，实现决策训练过程中探索和应用的平衡：为了使得智能体在训练过程中进行深度试错探索学习，保证智能体探索与应用之间的平衡，引入ε-贪心策略来进行每个时间步动作的选择，即以1-ε的概率根据智能体已经学习到的策略采取最佳动作，以ε的概率随机选择动作，该策略可以保证智能体对动作空间足够的探索，即智能体可以看到更多的波段组合，实现决策训练过程中探索和应用的平衡。

(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练，得到最优波段组合：以原始的不带标签的高光谱数据作为输入，采用无监督的策略对基于深度Q网络的强化学习波段选择模型进行训练，输出最优策略下的高光谱数据最优波段组合。

Claims

1.一种基于强化学习的高光谱图像波段选择方法，其特征在于：它包含以下步骤：

(1)读入原始的高光谱图像数据集；

I_i(x)＝-lga_i

I_i(y)＝-lgb_i

则x波段相对于y波段的光谱信息增益IG为

IG(x,y)＝D(x||y)+D(y||x)

其中，IG表示光谱信息增益，D(y||x)表示x波段关于y波段的相对熵，D(x||y)表示y波段关于x波段的相对熵；

2.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法，其中步骤(1)读入原始的高光谱图像数据集：读入待处理的不带标签的高光谱数据集。

3.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法，其中步骤(4)通过迭代求解模型最大化累计奖励期望对应的价值函数来获得最优波段组合，建立基于深度Q网络的强化学习波段选择方法：Q学习使用状态-动作价值函数作为估计函数来求解波段选择的最优策略，选择能够最大化累积奖励期望的动作，Q学习的更新公示如下所示：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t)]

4.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法，其中步骤(5)引入目标网络机制和经验回放机制来获取相互独立的交互数据，实现迭代求解的稳定收敛：经验回放是在每个时间步，将智能体与环境交互过程中得到的转移样本存储到经验池D中，在训练时，从经验池D中随机采样抽取小批量的转移样本，并使用随机梯度下降更新网络参数θ，这样随机采样的方式大大降低了数据间的强相关性，并且使得网络能够学习之前的经验；目标网络是引入了一个与当前价值Q网络结构相同的目标价值Q网络来产生目标Q值，当前价值网络的参数θ是实时更新的，每隔N轮迭代将当前价值网络的参数传递给目标值网络，使得损失函数更新过程中一段时间内目标Q值是保持不变的，提升了网络训练的稳定性，实现迭代求解的稳定收敛。

5.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法，其中步骤(6)引入ε-贪心策略进行深度试错探索，实现决策训练过程中探索和应用的平衡：为了使得智能体在训练过程中进行深度试错探索学习，保证智能体探索与应用之间的平衡，引入ε-贪心策略来进行每个时间步动作的选择，即以1-ε的概率根据智能体已经学习到的策略采取最佳动作，以ε的概率随机选择动作，该策略可以保证智能体对动作空间足够的探索，即智能体可以看到更多的波段组合，实现决策训练过程中探索和应用的平衡。

6.根据权利要求1所述的一种基于强化学习的高光谱图像波段选择方法，其中步骤(7)以无监督的方式完成基于深度Q网络的强化学习波段选择模型的训练，得到最优波段组合：以原始的不带标签的高光谱数据作为输入，采用无监督的策略对基于深度Q网络的强化学习波段选择模型进行训练，输出最优策略下的高光谱数据最优波段组合。