CN117132804A

CN117132804A - 一种基于因果跨域小样本学习的高光谱图像分类方法

Info

Publication number: CN117132804A
Application number: CN202310814357.2A
Authority: CN
Inventors: 程玉虎; 张威; 王浩宇; 王雪松
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-28
Anticipated expiration: 2043-07-04
Also published as: CN117132804B

Abstract

本发明属于模式识别技术领域，公开了一种基于因果跨域小样本学习的高光谱图像分类方法。首先，通过因果干预消除了非因果因素和类别语义之间的虚假统计关联，获得包含纯净且独立的因果因素的特征表示，缓解因非因果因素的信息干扰对模型造成的性能损害。其次，通过因果跨域小样本学习，在归纳可迁移小样本分类知识的同时，充分挖掘样本特征和类别语义之间的潜在因果关联，提升模型在小样本高光谱图像分类任务中的泛化性能。

Description

一种基于因果跨域小样本学习的高光谱图像分类方法

技术领域

本发明属于模式识别技术领域，尤其涉及一种基于因果跨域小样本学习的高光谱图像分类方法。

背景技术

高光谱图像分类是一种融合人工智能与卫星遥感技术的先进信息处理方法。利用图像丰富的空间和光谱信息，该方法实现像素点所属类别的智能识别，在生产安全、自然灾害预防、矿物开采等领域具有关键作用。然而，由于标记过程费时费力，高光谱图像分类研究中经常出现小样本情景。因此，降低高光谱分类模型对目标高光谱图像标记信息的依赖，从而在小样本情景下实现高光谱图像的准确分类具有重要研究意义。

迁移学习能够将具有丰富标记信息的高光谱图像作为源域并利用其完成现实中待分类的目标域高光谱图像的小样本分类任务，近年来引起了研究者们的广泛关注。基于迁移学习的小样本分类方法大致分为基于模型微调和基于领域适应两类。然而，由于采集时空间区域的差异，往往会出现不同高光谱图像中的地物类别不一致的现象，该现象给迁移学习方法在小样本高光谱图像分类上的应用带来了困难。

元学习作为一种“学会学习”的机器学习方法，能够借鉴人类从相似任务中归纳出任务共有规律的认知模式，从源域大量的小样本情景任务中学习到泛化到目标域不同类别的通用小样本分类规则。

元迁移方法综合了元学习的知识归纳能力和迁移学习的知识迁移能力，在跨域小样本高光谱分类任务中展现出了优秀的分类性能。尽管现有的元迁移学习方法在小样本高光谱图像分类任务上已取得了令人印象深刻的性能，然而它们大多忽略了小样本情景下的样本选择偏差可能会诱发非因果因素与样本类别之间虚假的统计关联，进而影响模型的泛化性能。

理想的因果因素期望满足三个性质：与非因果因素分离；因果因子联合独立；与类别语义之间具有强相关性，即包含可以解释所有统计依赖性的信息。因果学习可通过捕获与类别语义具有因果关联的因果因素(如光谱变化趋势)，抑制非因果因素(如异类像素信息和异常光谱信息)对模型产生的信息干扰，提升模型的泛化性能。

发明内容

发明目的：针对上述背景技术中存在的问题，本发明提供了一种基于因果跨域小样本学习的高光谱图像分类方法，将原始高光谱数据视作包含了因果因素和非因果因素的混合物，通过归纳学习的方式让模型学会挖掘样本特征和类别语义之间的因果因素，以实现更具泛化性的跨域小样本学习。

发明内容：为实现上述目的，本发明采用的技术方案为：一种基于因果跨域小样本学习的高光谱图像分类方法，包括如下步骤：

步骤1，用主成分分析法对源域和目标域的原始高光谱数据进行降维，以获得统一维度的训练数据；再将源域和目标域的原始高光谱图像分别划分为支持集和查询集，得到两域的支持集和查询集，即源域支持集、源域查询集、目标域支持集和目标域查询集，以构建小样本情景任务用于训练；

步骤2，分别对两域(源域和目标)原始高光谱数据进行因果干预，得到两域的支持特征和查询特征，该两域的支持特征和查询特征包含了纯净且独立因果因素的特征表示；

步骤3，将两域的支持特征和查询特征输入对抗领域适应模块以降低两域的分布差异；然后，通过度量查询样本和各类别原型在特征空间的距离进行原型匹配，进而得到查询样本的类别预测概率。

进一步的，步骤3还包括，利用因果关联模块对查询特征及其对应的类别预测之间的互信息进行度量，并通过最大化互信息保障样本特征和类别语义之间的强因果关联，实现因果跨域小样本学习。

进一步的，步骤2中对两域原始高光谱数据进行因果干预，包括对两域原始高光谱数据进行因果掩码，以及独立因果约束；

因果掩码是用于对原始高光谱数据中的非因果因素进行扰动，即通过将因果区域的像素替换为随机依赖像素实现对非因果因素的扰动，得到反事实高光谱样本；

独立因果约束是用于对原始高光谱图像和反事实高光谱图像特征进行约束，得到两域的支持特征和查询特征，两域的支持特征和查询特征为纯净且独立的因果因素的特征表示，缓解因非因果因素和类别语义之间的虚假统计关联造成的模型性能损害。

进一步的，所述对原始高光谱数据中的非因果因素进行扰动，得到反事实高光谱样本，具体包括如下步骤：

步骤2.1，将两域原始高光谱图像输入到因果掩码网络得到因果掩码，从而将原始高光谱图像划分为和类别语义相关的因果区域和非因果区域。其中，因果区域对应的因果掩码为“1”，非因果区域对应的因果掩码为“0”；

步骤2.2，在保留原始高光谱图像因果区域像素的同时，对原始高光谱图像非因果区域像素进行置零；

步骤2.3，从两域原始高光谱图像中随机选择异类高光谱图像，并将位于中心位置的中心像素进行剥离，得到异类像素；

步骤2.4，利用所述异类像素替换原始高光谱图像中被置零的像素，得到反事实高光谱图像。

进一步的，所述因果掩码网络包括依次连接的空间感知模块，光谱编码模块和因果掩码推理模块；所述将两域原始高光谱图像输入到因果掩码网络得到因果掩码，从而将原始高光谱图像划分为和类别语义相关的因果区域和非因果区域，具体包括如下步骤：

首先，两域的高光谱图像被输入到空间感知模块，空间感知模块利用空间掩码获得高光谱图像的中心像素，目标像素，中心局部像素和目标局部像素的光谱信息；

其中，所述中心像素是指高光谱图像中位于中心位置的待分类像素，所述目标像素是使中心像素的空间邻域像素，所述中心局部像素是指以中心像素为中心的空间局部像素集合，所述目标局部像素为以目标像素为中心的空间局部像素集合；

然后，对中心局部像素和目标局部像素进行平均池化以聚合局部空间信息得到中心局部特征和目标局部特征，并将它们和中心像素、目标像素一起输入光谱编码模块进行光谱特征提取，获得空间感知特征集合

之后，将空间感知集合中的各元素视作空间token，添加一个可学习的嵌入向量作为masktoken，构成因果掩码序列；

接着，为因果掩码序列添加位置编码，并利用多头注意力机制建模空间邻域像素和中心像素的依赖关系，并利用多层感知机进行掩码推理，得到各地物像素的因果掩码向量；因果掩码向量编码了像素保留和置零的概率；因果掩码向量编码了像素保留和置零的概率。

接着，基于因果掩码向量，采用贪婪策略，选择具有较高概率的操作(置零或保留)得到因果掩码，进而将两域高光谱图像划分为因果区域和非因果区域。

进一步的，所述独立因果约束是用于对原始高光谱图像和反事实高光谱图像特征进行约束，具体包括如下步骤：

首先，将两域原始高光谱图像和反事实高光谱图像输入特征嵌入网络，得到两域原始高光谱图像特征和反事实高光谱图像特征；

然后，利用独立因果约束通过最大化反事实高光谱图像与原始高光谱图像各特征维度之间的相关性以确保样本特征不受非因果因素影响，并通过最小化原始高光谱图像特征和反事实高光谱图像特征各维度之间的相关性确保因果因子的联合独立，得到包含了纯净因果因素的支持特征和查询特征。

进一步的，所述特征嵌入网络用于将原始高光谱图像和反事实高光谱图像分割为以像素为单位的空间token序列，并在序列中添加用于捕获全局空间信息的class token，利用多头注意力机制捕获空间token序列的上下文关联，进而得到具有辨识性的原始高光谱图像特征和反事实高光谱图像特征，即所述得到原始高光谱图像特征和反事实高光谱图像特征。

然后，利用独立因果约束强制原始高光谱图像和反事实高光谱图像特征之间的关联矩阵近似对角矩阵。通过这种方式，一方面，原始高光谱图像特征和反事实高光谱图像特征对应维度之间的相关性被最大化，约束模型从高光谱图像和反事实高光谱图像中学习到对非因果因素的干预保持不变的特征表示，将因果因素和非因果因素分离。

另一方面，原始高光谱图像特征和反事实高光谱图像特征各维度之间的相关性被最小化，以确保因果因素的各分量相互独立，降低冗余信息对因果因素的干扰。

进一步的，独立因果约束表示为：

其中，g()为特征嵌入网络，B为特征维度，COR()为关联度量，此处选择余弦度量；x_i和分别表示原始高光谱图像和反事实高光谱图像。

进一步的，步骤3具体包括如下步骤：

首先，将两域的支持特征和查询特征输入对抗领域适应模块，获得具有领域不变性的特征表示，以缓解源域和目标域之间的数据分布差异导致的知识迁移困难的问题。领域适应损失可以表示为：

其中，D_s和D_t分别表示源域和目标域分布，D()表示领域判别器，z^s和z^t表示源域和目标域数据的特征。

然后，利用支持特征计算类别原型，并通过度量各查询特征和类别原型的在特征空间的距离获得其对应的预测类别概率。预测类别概率可以表示为：

其中，y^Q和z^Q为查询样本的类别标签和特征，Q表示查询集，C表示类别数量，O_c表示第c类的原型，可通过对支持集样本求均值得到。d()为欧式距离度量。

之后，通过最大化因果因素Z和类别预测之间互信息，保障因果因素和类别语义之间的强关联性。互信息优化项可表示为：

其中，为Z和/>的联合分布，P_Z和P_Y为它们的边缘分布。

此处采用蒙特卡罗积分对上述积分进行近似：

其中，为从Z和/>的联合分布中采样的正样本对，可通过/>为从Z和/>的边缘分布中采样的负样本对。

考虑到简单地将样本特征和类别预测向量进行拼接，难以充分反映Z和复杂数据分布背后的多模态结构。使用多线性映射将/>和/>嵌入到再生核希尔伯特空间中，以获取不同维度的样本特征和类别预测向量的联合分布和边缘分布：

其中，为多线性映射。

接着，利用反向传播算法优化模型，最小化预测类别概率和标签之间的交叉熵损失以及领域适应损失，同时最大化互信息优化项，最后，利用训练好的模型完成目标域的小样本高光谱图像任务。

有益效果：本发明提供的基于因果跨域小样本学习的跨域小样本高光谱图像分类方法，将原始高光谱图像数据视作包含了因果因素和非因果因素的混合物，利用元学习的情景训练机制让模型学会从数据中捕获与类别语义高度相关的因果因素，从而实现更具泛化性的跨域小样本学习。具体而言，首先，通过因果干预消除了非因果因素和类别语义之间的虚假统计关联，获得包含了纯净且独立的因果因素的特征表示，缓解了因非因果因素的信息干扰对模型造成的性能损害。其次，通过因果跨域小样本学习，在归纳可迁移小样本分类知识的同时，充分挖掘了样本特征和类别语义之间的潜在因果关联，提升了模型在小样本高光谱图像分类任务中的泛化性能。

通过独立因果约束因果因素的各因果因子联合独立，抑制了冗余信息干扰；最后，利用因果关联模块对查询特征及其对应的类别预测之间的互信息进行度量，并通过最大化互信息保障样本特征和类别语义之间的强因果关联。

附图说明

图1是本发明方法原理框图。

图2是因果掩码网络结构图。

具体实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于因果跨域小样本学习的跨域小样本高光谱图像分类方法，具体原理如图1所示，首先，利用主成分分析对源域和目标域的高光谱数据进行维度统一，并通过划分支持集和查询集构建两域的小样本情景任务，为模型提供训练数据。然后，利用因果掩码网络捕获高光谱图像中与类别无关的非因果因素，并通过将因果区域的像素替换为随机依赖像素实现对非因果因素的扰动，获得反事实高光谱图像。之后，利用独立因果约束，一方面通过强制特征对非因果因素的扰动保持不变来实现因果因素和非因果因素的分离；另一方面，最小化原始高光谱图像特征和反事实高光谱图像特征各维度之间的相关性确保因果因素的各分量相互独立，降低冗余信息对因果因素的干扰。最后，通过因果跨域小样本学习归纳可迁移的小样本分类知识，并通过块最大化因果因素和类别预测之间的互信息保障因果因素和分类任务的强关联性，从而实现对样本特征和类别预测之间因果关联的充分挖掘，提升模型的小样本分类性能。

步骤1，任务构建；

首先，源域和目标域高光谱图像被输入维度统一模块,利用主成分分析将源域和目标域原始高光谱图像映射到低维子空间，在实现维度统一的同时，最大程度上保持原始高光谱图像的信息，从而减少降维带来的重要信息损失。然后，将两域训练数据划分支持集和查询集以构建小样本情景任务用于模型训练。

步骤2，因果干预；

因果干预主要包含两个部分：因果掩码和独立因果约束。因果掩码用于对非因果因素进行扰动，得到反事实高光谱样本。独立因果约束用于对原始高光谱图像和反事实高光谱图像特征进行约束，使其包含纯净接独立的因果因素，缓解因非因果因素和类别语义之间的虚假统计关联造成的模型性能损害。

第一部分：因果掩码

该部分利用包含了空间感知模块，光谱编码模块和因果掩码推理模块三个部分的因果掩码网络获得高光谱图像的因果掩码，将高光谱图像划分为因果区域和非因果区域，并通过将因果区域的像素替换为随机依赖像素实现对非因果因素的扰动，获得反事实高光谱图像。因果掩码网络的结构如图2所示。

具体而言，首先，两域的高光谱图像被输入空间感知模块，空间感知模块利用空间掩码获得高光谱图像的中心像素，目标像素，中心局部像素和目标局部像素的光谱信息。其中，中心像素是指高光谱图像中位于中心位置的待分类像素，目标像素是使中心像素的空间邻域像素，中心局部像素是指以中心像素为中心的空间局部像素集合，目标像素为以目标像素为中心的空间局部像素集合。

然后，对中心局部像素和目标局部像素进行平均池化以聚合局部空间信息得到中心局部特征和目标局部特征，并将它们和中心像素、目标像素一起输入光谱编码模块进行光谱特征提取，获得空间感知特征集合。

之后，将空间感知集合中的各元素视作空间token，添加一个可学习的嵌入向量作为masktoken，构成因果掩码序列。接着，为因果掩码序列添加位置编码，并利用多头注意力机制建模空间邻域像素和中心像素的依赖关系，并利用多层感知机进行掩码推理，得到各地物像素的因果掩码向量。因果掩码向量编码了像素保留和置零的概率。

接着，基于因果掩码向量，采用贪婪策略，选择具有较高概率的操作(置零或保留)得到因果掩码，进而将高光谱图像划分为因果区域和非因果区域。

最后，从支持集和查询集中随机选择异类高光谱图像，并将位于中心位置的中心像素进行剥离，得到异类像素。最后，用这些异类像素替换原始高光谱图像中被置零的像素，得到反事实高光谱图像。

第二部分，独立因果约束。

该部分在保障原始高光谱图像和反事实高光谱图像特征中包含纯净且独立的因果因素。具体而言，首先，将原始高光谱图像和反事实高光谱图像分割为以像素为单位的空间token序列，并在序列中添加用于捕获全局空间信息的class token，利用多头注意力机制捕获空间token序列的上下文关联，进而得到具有辨识性的原始高光谱图像特征和反事实高光谱图像特征。

然后，利用独立因果约束强制原始高光谱图像和反事实高光谱图像特征之间的关联矩阵近似对角矩阵。通过这种方式，一方面，原始高光谱图像特征和反事实高光谱图像特征对应维度之间的相关性被最大化，约束模型从高光谱图像和反事实高光谱图像中学习到对非因果因素的干预保持不变的特征表示，将因果因素和非因果因素分离。另一方面，原始高光谱图像特征和反事实高光谱图像特征各维度之间的相关性被最小化，以确保因果因素的各分量相互独立，降低冗余信息对因果因素的干扰。独立因果约束可以表示为：

其中，g()为特征嵌入网络，B为特征维度，COR()为关联度量，此处选择余弦度量。x_i和分别表示原始高光谱图像和反事实高光谱图像。

步骤3，因果跨域小样本学习。

其中，为Z和/>的联合分布，P_Z和P_Y为它们的边缘分布。

此处采用蒙特卡罗积分对上述积分进行近似：

其中，为多线性映射。

接着，利用反向传播算法优化模型，最小化预测类别概率和标签之间的交叉熵损失以及领域适应损失，同时最大化互信息优化项。

最后，利用训练好的模型完成目标域的小样本高光谱图像任务。

Claims

1.一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，包括如下步骤：

步骤1，将源域和目标域的原始高光谱图像分别划分为支持集和查询集，得到源域支持集、源域查询集、目标域支持集、目标域查询集，以构建小样本情景任务用于训练；

步骤2，分别对两域原始高光谱数据进行因果干预，得到两域的支持特征和查询特征；

步骤3，将两域的支持特征和查询特征输入对抗领域适应模块以降低两域的分布差异；

然后，通过度量查询样本和各类别原型在特征空间的距离进行原型匹配，进而得到查询样本的类别预测概率。

2.根据权利要求1所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，步骤3还包括，利用因果关联模块对查询特征及其对应的类别预测之间的互信息进行度量，并通过最大化互信息保障样本特征和类别语义之间的强因果关联，实现因果跨域小样本学习。

3.根据权利要求1所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，步骤2中所述对两域原始高光谱数据进行因果干预，包括对两域原始高光谱数据进行因果掩码，以及独立因果约束；

所述因果掩码是用于对原始高光谱数据中的非因果因素进行扰动，得到反事实高光谱样本；

所述独立因果约束是用于对原始高光谱图像和反事实高光谱图像特征进行约束，得到因果因素的两域支持特征和查询特征。

4.根据权利要求3所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，所述对原始高光谱数据中的非因果因素进行扰动，得到反事实高光谱样本，具体包括如下步骤：

步骤2.1，将两域原始高光谱图像输入到因果掩码网络得到因果掩码，从而将原始高光谱图像划分为和类别语义相关的因果区域和非因果区域；

5.根据权利要求4所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，所述因果掩码网络包括依次连接的空间感知模块，光谱编码模块和因果掩码推理模块；

所述将两域原始高光谱图像输入到因果掩码网络得到因果掩码，从而将原始高光谱图像划分为和类别语义相关的因果区域和非因果区域，具体包括如下步骤：

然后，对中心局部像素和目标局部像素进行平均池化以聚合局部空间信息得到中心局部特征和目标局部特征，并将它们和中心像素、目标像素一起输入光谱编码模块进行光谱特征提取，获得空间感知特征集合；

之后，将空间感知集合中的各元素视作空间token，添加一个可学习的嵌入向量作为mask token，构成因果掩码序列；

接着，为因果掩码序列添加位置编码，并利用多头注意力机制建模空间邻域像素和中心像素的依赖关系，并利用多层感知机进行掩码推理，得到各地物像素的因果掩码向量；

接着，基于因果掩码向量，采用贪婪策略，选择具有较高概率的操作得到因果掩码，进而将两域高光谱图像划分为因果区域和非因果区域。

6.根据权利要求3所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，所述独立因果约束是用于对原始高光谱图像和反事实高光谱图像特征进行约束，具体包括如下步骤：

然后，利用独立因果约束通过最大化反事实高光谱图像与原始高光谱图像各特征维度之间的相关性；并通过最小化原始高光谱图像特征和反事实高光谱图像特征各维度之间的相关性确保因果因子的联合独立，得到包含了纯净因果因素的支持特征和查询特征。

7.根据权利要求6所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，所述特征嵌入网络用于将原始高光谱图像和反事实高光谱图像分割为以像素为单位的空间token序列，并在序列中添加用于捕获全局空间信息的class token，利用多头注意力机制捕获空间token序列的上下文关联，进而得到具有辨识性的原始高光谱图像特征和反事实高光谱图像特征，即所述得到原始高光谱图像特征和反事实高光谱图像特征。

8.根据权利要求3所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，独立因果约束表示为：

9.根据权利要求3所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，步骤3具体包括如下步骤：

首先，将两域的支持特征和查询特征输入对抗领域适应模块，领域适应损失表示为：

其中，D_s和D_t分别表示源域和目标域分布，D()表示领域判别器，z^s和z^t表示源域和目标域数据的特征；

然后，利用支持特征计算类别原型，并通过度量各查询特征和类别原型的在特征空间的距离获得其对应的预测类别概率；预测类别概率表示为：

其中，y^Q和z^Q为查询样本的类别标签和特征，Q表示查询集，C表示类别数量，O_c表示第c类的原型，可通过对支持集样本求均值得到；d()为欧式距离度量；

之后，通过最大化因果因素Z和类别预测之间互信息；互信息优化项表示为：

其中，为Z和/>的联合分布，P_Z和P_Y为它们的边缘分布；

采用蒙特卡罗积分对上述积分进行近似：

10.根据权利要求9所述一种基于因果跨域小样本学习的高光谱图像分类方法，其特征在于，使用多线性映射将和/>嵌入到再生核希尔伯特空间中，以获取不同维度的样本特征和类别预测向量的联合分布和边缘分布：

其中，为多线性映射；