CN112131931B

CN112131931B - 基于注意力机制的深度森林高光谱图像分类方法和系统

Info

Publication number: CN112131931B
Application number: CN202010789788.4A
Authority: CN
Inventors: 汪敏; 魏龙生; 罗大鹏; 尹旭
Original assignee: China University of Geosciences
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2023-08-29
Anticipated expiration: 2040-08-07
Also published as: CN112131931A

Abstract

本发明涉及基于注意力机制的深度森林高光谱图像分类方法和系统，包括以下步骤：将原始的高光谱图像数据集作为训练集，将训练集进行降维操作，生成低维数据集，在低维数据集中提取光谱向量数组；将光谱向量数组输入基于注意力机制的深度森林模型进行训练，生成训练好的基于注意力机制的深度森林模型；将待分类原始的高光谱图像数据集经降维后输入训练好的基于注意力机制的深度森林模型，生成分类标签。本发明提供的基于注意力机制的深度森林高光谱图像分类方法和系统，将注意力机制结合到深度森林架构中并用于高光谱图像分类；在高光谱图像分类任务中，通过对中间特征进行注意力增强操作，实现特征的自适应细化，提高分类性能。

Description

基于注意力机制的深度森林高光谱图像分类方法和系统

技术领域

本发明涉及图像分类领域，尤其涉及基于注意力机制的深度森林高光谱图像分类方法和系统。

背景技术

图像分类是一种模式识别领域的研究任务，一般的图像分类是对一幅图像进行特征提取，之后匹配最相近的类别作为输出。高光谱图像分类与普通的RGB三通道图像分类不同，高光谱图像分类是对单个像元进行类别划分，其类别归属于每一个像素点。高光谱图像分类除了数据格式具有特殊性以外，光谱维度和空间维度也具有其自身的特点，光谱特征是一维的具有连续属性的向量，空间场景是内容复杂且包含所有待分类样本的空间信息。基于注意力机制的深度森林高光谱图像分类方法将注意力机制结合到深度森林架构中，通过对中间特征进行注意力增强操作，实现特征的自适应细化，提高分类性能。

随着深度学习的火热发展，以深度神经网络为代表的深度学习算法在高光谱图像分类任务中实现了较好的应用，大量的深度学习框架在高光谱图像分类中实现了精度的跳跃式提升。然而，由于高光谱数据的特殊性和复杂性，目前基于深度神经网络的高光谱图像分类方法存在着对训练样本数量要求高、调参困难、模型过拟合等难点。因此，高光谱图像分类问题需从数据角度出发，设计具有良好性能的特征提取和分类框架，在尽可能降低代表及样本的需求同时，提高分类性能。

深度森林能够较好地弥补上述缺陷，从深度森林提出至今，许多将深度森林或深度森林改进算法应用到高光谱图像分类中的应用都实现了较好的效果。然而，深度森林算法对于更深层特征的提取能力相对弱了一些，尤其是针对高维的高光谱数据，如何对光谱信息进行特征的强化与细化，是深度森林分类框架的一个改进方向。

注意力机制通过定位到感兴趣信息区域，增强该部分特征并抑制无用信息，将注意力机制引入深度森林算法中，能够结合深度森林算法的优点，并在此基础上实现重要信息聚焦以及特征自适应细化的目的。本发明在深度森林的算法框架中，利用一层森林计算特征重要性，并将所得到的特征重要性向量进行融合，获得注意力向量数组。通过使用注意力向量数组对中间特征进行注意力增强。

发明内容

本发明提供了基于注意力机制的深度森林高光谱图像分类方法和系统，解决了现有技术中深度学习模型存在对样本数量要求高、模型调参困难以及训练代价高等问题。

本发明为解决其技术问题，提供了基于注意力机制的深度森林高光谱图像分类方法和系统，包括以下步骤：

S1、将原始的高光谱图像数据集作为训练集，将所述训练集进行降维操作，生成低维数据集，在所述低维数据集中提取光谱向量数组；

S2、将所述光谱向量数组输入基于注意力机制的深度森林模型进行训练，生成训练好的基于注意力机制的深度森林模型；

S3、将待分类的高光谱图像数据集采用与步骤S1相同的方法得到光谱向量数组输入所述训练好的基于注意力机制的深度森林模型，生成所述原始的高光谱图像数据集对应的分类标签。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类方法，步骤S1具体为：将所述训练集中相关系数较大的高维特征变量重新组合，生成低维的线性无关变量，所述低维的线性无关变量组成的数组即为所述光谱向量数组。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类方法，步骤S2中所述基于注意力机制的深度森林模型分为注意力增强层和级联森林层。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类方法，所述注意力增强层的训练过程具体为：计算所述光谱向量数组中各向量的特征重要度，所述特征重要度为各向量在所述光谱向量数组中的贡献程度，将所述各向量的特征重要度组成的数组作为注意力向量数组，将所述注意力向量数组与所述光谱向量数组进行加权融合，生成特征向量数组。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类方法，所述级联森林层的训练过程具体为：

S21、将所述特征向量数组输入所述级联森林层的第i层森林，生成k个m维的第i层的类概率数组；

S22、提取所述特征向量数组中前50％重要性的特征向量生成n维的加权向量数组，将所述加权向量数组与所述第i层的类概率数组首尾相连，生成k个n+m维的第i+1层森林的输入向量数组，所述第i+1层森林的输入向量数组输入所述级联森林层的第i+1层森林，生成k个m维的第i+1层的类概率数组；所述i为正整数，从1开始逐渐增加；所述k为所述级联森林层的每层森林中的森林个数；

S23、若得到的类概率数组中的各个类概率增加幅度小于预设值，则表示生成了k个训练好的类概率数组，进入步骤S24，否则返回步骤S22；

S24、将所述k个训练好的类概率数组输入分类层森林，所述分类层森林将所述k个训练好的类概率数组分别进行平均计算，生成最终的预测结果数组，取所述最终的预测结果数组中的最大值，根据该最大值所属的森林以及k个森林与分类标签的对应关系确定输入的数据集对应的分类标签。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类方法，所述级联森林层由多层森林级联组成，每层森林由随机森林和完全随机树森林组成；所述随机森林由普通随机树构成，所述完全随机树森林由完全随机树构成。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类系统，包括以下模块：

降维模块，用于将原始的高光谱图像数据集作为训练集，将所述训练集进行降维操作，生成低维数据集，在所述低维数据集中提取光谱向量数组；

训练模块，用于将所述光谱向量数组输入基于注意力机制的深度森林模型进行训练，生成训练好的基于注意力机制的深度森林模型；

分类模块，用于将待分类的高光谱图像数据集采用与降维模块中相同的方法得到光谱向量数组输入所述训练好的基于注意力机制的深度森林模型，生成所述原始的高光谱图像数据集对应的分类标签。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类系统，降维模块的作用具体为：将所述训练集中相关系数较大的高维特征变量重新组合，生成低维的线性无关变量，所述低维的线性无关变量组成的数组即为所述光谱向量数组。

进一步的，本发明的基于注意力机制的深度森林高光谱图像分类系统，训练模块中所述基于注意力机制的深度森林模型分为注意力增强层和级联森林层。

与现有技术相比，本发明的有益效果在于：

1.将注意力机制结合到深度森林架构中并用于高光谱图像分类；

2.在高光谱图像分类任务中，通过对中间特征进行注意力增强操作，实现特征的自适应细化，提高分类性能。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明的方法流程图；

图2为本发明的整体框架图；

图3为本发明的整体框架图中级联森林层的算法框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参考图1和图2，本发明提出的基于注意力机制的深度森林高光谱图像分类方法，包括以下步骤：

步骤S1具体为：将所述训练集中相关系数较大的高维特征变量重新组合，生成低维的线性无关变量，所述低维的线性无关变量组成的数组即为所述光谱向量数组。

原始的高光谱图像数据集波段多、维数高、数据量大，且存在数据冗余。为了降低“维数灾难”带来的影响，在降低数据维数的同时，尽可能减少信息损失。所提出的分类框架首先对原始的高光谱图像进行光谱维度上的约束，通过保留若干主成分，达到数据的降维与冗余信息剔除的目的。该步骤采用的降维方法为主成分分析法(PCA)，通过将高维的高光谱图像数据投影到低维的子空间，把相关系数较大的高维特征变量重新组合，形成低维的线性无关的一组变量。

PCA算法在处理原始高光谱图像时，主要包含以下步骤：

1、数据标准化。标准化可以使高光谱数据中所有变量及数值在相似的范围内，如果不进行标准化操作，可能导致结果出现偏差。标准化Z的计算方法为：

通过这一步骤，高光谱数据中所有变量将按照标准和可比较的比例进行缩放。

2、计算协方差矩阵。PCA有助于识别高光谱数据集中要素之间的相关性和依赖性，协方差矩阵表示数据集中不同变量之间的相关性。协方差矩阵通常在数学上被定义为一个p×p矩阵，在高光谱图像中，p表示高光谱图像的维数，矩阵中的每个元素代表相应变量的协方差。对于一个带有变量a和b的高光谱波段场景，其协方差就是一个2×2的矩阵，如下所示：

其中，Cov(a,a)代表变量与其自身的协方差，也就是变量a的方差；Cov(b,b)代表变量b的方差；Cov(a,b)代表变量a与变量b的协方差，由于协方差是可交换的，所以Cov(a,b)＝Cov(b,a)。因此，在协方差矩阵中，协方差值表示两个变量相互依存的程度，如果协方差值为负，则表示各个变量之间成反比，反之则表示各个变量彼此成正比。

3、计算特征向量和特征值。从协方差矩阵中计算得到特征向量和特征值，而主成分是通过对原始向量进行转换，取部分转换后的向量进行的重新表示，在主成分的提取过程中，原先散布在初始向量中的绝大部分信息经过压缩并重新整合。如果要保留高光谱图像数据中前5个空间维数，则将计算5个主要成分，因此第1个主要成分存储了最大可能的信息，第2个主要成分存储了剩余的最大信息，依此类推。

特征向量和特征值这两个代数公式总是成对计算，即对于每个特征向量都有对应的一个特征值，需要计算的特征向量的数量决定了数据的维数。高光谱图像是一个3维数据集，其特征向量和特征值的个数为3。特征向量是使用协方差矩阵来了解数据中最大方差量，由于高光谱图像数据中更多的差异表示有关该数据的更多信息，特征向量用于识别和计算主成分。另一方面，特征值仅表示各个特征向量的标量，因此，特征向量和特征值将用于计算高光谱图像数据的主成分。

4、计算主要成分。在计算出特征向量和特征值后，需要对其进行降序排序，较高的特征值对应的特征向量具有更重要的地位，特征值最高的特征向量作为第一主成分，之后以此类推。因此，可以删除重要性较低的主要成分，以减小数据的尺寸。所筛选出来的主成分组成特征矩阵，其中包含所有具有最大数据信息的重要数据变量。

5、减少高光谱图像数据集的维数。PCA算法的最后一步是将原始高光谱图像数据与最终的主要成分进行重新排列，这些最终的主要成分代表数据集的最大和最重要信息。为了用新形成的主成分替换原始高光谱图像数据集，只需将其与原始高光谱图像数据的转置相乘，所获得数据作为降维后的低维数据集。

步骤S2中所述基于注意力机制的深度森林模型分为注意力增强层和级联森林层，所述注意力增强层为随机森林模型，所述级联森林层由多层森林级联组成，每层森林由随机森林和完全随机树森林组成；所述随机森林由普通随机树构成，所述完全随机树森林由完全随机树构成。

所述注意力增强层的训练过程具体为：计算所述光谱向量数组中各向量的特征重要度，所述特征重要度为各向量在所述光谱向量数组中的贡献程度，将所述各向量的特征重要度组成的数组作为注意力向量数组，将所述注意力向量数组与所述光谱向量数组进行加权融合，生成特征向量数组。

在随机森林中，所生成的数十甚至数百棵树，都是从定义为B的袋中进行自主抽样法抽取数据，而称没有选中的数据为袋外数据(Out-Of-Bag,OOB)。定义C为全部数据，且C一定是包含B的。定义X^n×p为一个矩阵数据集，该数据集中的数据具有p个特征，且该数据集的总数据量为n。定义y为类标记向量，该向量是1维的标签向量，向量中的值代表着数据集中所对应数据的类别值。数据中的特征值可以在输入到随机森林中时，进行随机排列，而随机森林可以通过获得重新排列的特征输入时所对应的误差，进而计算特征重要度。在随机森林算法中，每一个特征x_j都对应一组特征置换测试，且该特征置换测试是重新排列的。在袋外数据中，通过使用原始特征排序的特征与重新排列的特征，比较各种情况下的分类误差，进而衡量特征重要度。也就是说，如果袋外数据的分类误差变大，那么则是因为重新排序后，特征的区分度下降，重要的特征信息被置换。定义T为随机森林中决策树的个数，同时决策树的个数与建立的袋外数据测试集的个数相同。因此，在一定范围内，决策树的个数越多，衡量特征重要度的程度越准确。定义特征重要度为J_a，公式如下：

其中，y_i表示第i个袋外数据对应的标签类别，I(x)为示性函数，h_k(i)是预测样本i标签的函数，该样本是数据集B_k中的样本，为置换特征x_j后的分类标签。

注意力增强层的主要功能是计算输入光谱向量数组中各向量重要性，即对最终得到的结果贡献性。将所有特征重要度级联，组成注意力向量数组，该模型可以反映每个向量发挥的作用，并且该模型具有十分轻量化的属性。由于框架分类器使用的深度森林结构中，基础分类器是随机森林，因此由随机森林训练得到的注意力向量数组更能反映该特征用于后续多层森林的训练时所体现的价值。当得到注意力向量数组时，与光谱向量数组进行加权融合。加权融合的目的主要是为了防止特征重要度值极低时，对数据造成不平衡干扰，因此，提高相应权重倍数并进行特征归一化处理，将更有助于注意力机制的作用发挥。

请参考图3，所述级联森林层的训练过程具体为：

深度森林是一种基于随机森林的多层级连森林构架，通过“集成再集成”的模式进行表征学习。在深度森林中，每层森林的组成单元是随机森林和完全随机树森林，而随机森林和完全随机树森林的最小组成单元是决策树。深度森林的层数通过自适应确定，即在验证数据集上进行k折交叉验证，每训练完成一层森林时，如果验证精度没有明显提升，则森林的层数将不再增加。

训练每一层森林时，其输入数据也是通过级联的方式进行输入。当一层森林训练完成后，会计算得到输出的类概率，这一层所有森林输出的类概率进行连接，之后再与原始输入向量连接后，输入到下一层森林。在集成学习中，基分类器的差异性和多样性能有效帮助解释多分类器系统的工作机理，构造效果更好的集成系统。因此，深度森林中的组成森林具有不同的种类以实现更优的投票机制与分类结果。

在每个森林中，所有决策树的类概率通过投票的方式产生。森林中每个决策树产生的类概率对应类别相加，之后再进行数值平均化，所得概率为该随机森林的输出类概率。每个决策树的各类别预测概率之和为1，且每个森林的各类别预测概率之和也为1，在随机森林得到各类别预测概率之后，取概率值最大的类别作为预测投票类别。

深度森林包含随机森林和完全随机树森林这两种类型的森林，其中随机森林是由普通随机树构成，完全随机树森林是由完全随机树构成。普通随机树和完全随机树的区别主要在于节点的划分方式不同，组成随机森林的决策树在节点划分时，在整个特征空间中先选取个特征作为节点划分的候选特征，其中d为特征总个数。之后在候选特征中选择具有最佳Gini值的特征作为节点划分的属性特征。组成完全随机树森林的决策树则具有完全随机的性质，即在划分节点时，随机选取特征空间中的特征作为节点划分的属性特征。

在深度森林的层数自适应确定以后，中间层输出的类概率向量连接后输入到最后的分类层森林，分类层森林中的所有随机森林和完全随机树森林对来自中间层森林的中间特征向量进行分类，将所有单独森林的分类结果进行逐类别取平均，最后将对应类概率最大的类别作为最终的预测结果。因此，深度森林被设置的这种框架和组成形式，弥补了深度神经网络中存在的一些缺陷，如作用机理可解释、可并行训练以及超参数少等。

在本发明中，与原始的深度森林不同，原始的深度森林将前一层森林的输出类概率与原始特征连接，而所提出的算法只级联重要特征，进一步降低了数据维数和处理复杂度。

所提出的分类框架中，深度森林的层数仍然是通过折交叉验证决定，但与原始深度森林算法不同的是，该框架中的深度森林进行交叉验证时，额外拓展的层数为2层，即当森林的层数增加2层时，精度仍未提高，则森林的扩展停止，森林的层数确定为2层前的层数。该步骤在有效降低过拟合的同时，也减少了计算量，缩减了训练时间。每一层的森林的输出，与重要特征相连后，输入到下一层森林，直至最后一层。当特征输入到最后一层时，输出的类概率将不作为特征，只作为预测概率，并通过计算该层森林中所有随机森林输出的平均值，在平均各类别的类概率后，选择最大值所对应的类别，作为最终的预测类别。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.基于注意力机制的深度森林高光谱图像分类方法，其特征在于，包括以下步骤：

S3、将待分类的高光谱图像数据集采用与步骤S1相同的方法得到光谱向量数组输入所述训练好的基于注意力机制的深度森林模型，生成所述原始的高光谱图像数据集对应的分类标签；

步骤S1具体为：将所述训练集中相关系数较大的高维特征变量重新组合，生成低维的线性无关变量，所述低维的线性无关变量组成的数组即为所述光谱向量数组；

步骤S2中所述基于注意力机制的深度森林模型分为注意力增强层和级联森林层；

所述注意力增强层的训练过程具体为：计算所述光谱向量数组中各向量的特征重要度，所述特征重要度为各向量在所述光谱向量数组中的贡献程度，将所述各向量的特征重要度组成的数组作为注意力向量数组，将所述注意力向量数组与所述光谱向量数组进行加权融合，生成特征向量数组；

所述级联森林层的训练过程具体为：

2.根据权利要求1所述的基于注意力机制的深度森林高光谱图像分类方法，其特征在于，所述级联森林层由多层森林级联组成，每层森林由随机森林和完全随机树森林组成；所述随机森林由普通随机树构成，所述完全随机树森林由完全随机树构成。

3.基于注意力机制的深度森林高光谱图像分类系统，其特征在于，包括以下模块：

分类模块，用于将待分类的高光谱图像数据集采用与降维模块中相同的方法得到光谱向量数组输入所述训练好的基于注意力机制的深度森林模型，生成所述原始的高光谱图像数据集对应的分类标签；

降维模块的作用具体为：将所述训练集中相关系数较大的高维特征变量重新组合，生成低维的线性无关变量，所述低维的线性无关变量组成的数组即为所述光谱向量数组；

训练模块中所述基于注意力机制的深度森林模型分为注意力增强层和级联森林层；

所述级联森林层的训练过程具体为：