CN112966740A

CN112966740A - 基于核心样本自适应扩充的小样本高光谱图像分类方法

Info

Publication number: CN112966740A
Application number: CN202110244446.9A
Authority: CN
Inventors: 丁晨; 陈非熊; 庄旭思; 陈家祯; 王旭珂; 李润泽; 苏舸夫; 石武军; 吴昊
Original assignee: Shaanxi Shanhe Mingze Ecological Environment Technology Consulting Co ltd; Xian University of Posts and Telecommunications
Current assignee: Shaanxi Shanhe Mingze Ecological Environment Technology Consulting Co ltd; Xian University of Posts and Telecommunications
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-15
Anticipated expiration: 2041-03-05
Also published as: CN112966740B

Abstract

本发明涉及一种基于核心样本自适应扩充的小样本高光谱图像分类方法，首先对高光谱图像进行数据预处理，得到训练样本和测试样本；采用MCFSFDP聚类方法自适应确定测试样本中的核心样本；将核心样本加入至训练样本中，扩充得到训练样本集；将训练样本集代入至生成对抗网络中进行训练，生成与训练样本集数量一致的生成样本，并将生成样本加入至训练样本集中，扩充得到训练样本数据集；将训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型；将测试样本代入至最终的BP神经网络模型中，正向计算得到小样本高光谱图像的分类结果，通过对训练样本进行两次自适应样本扩充，有效提高了神经网络的泛化能力和小样本高光谱图像分类精度。

Description

基于核心样本自适应扩充的小样本高光谱图像分类方法

技术领域

本发明涉及高光谱图像处理领域，特别是涉及一种基于核心样本自适应扩充的小样本高光谱图像分类方法。

背景技术

近年来，由于高光谱图像的独特性质以及所包含的海量信息，对于高光谱图像的分析与处理已经成为遥感影像研究领域的热点之一，而其中的高光谱图像分类又对地质勘探、农作物检测、国防军事等领域起着实质性的重要作用。

然而，高光谱图像标注困难，费时费力，往往只存在少量标注数据作为先验，因此，高光谱图像分类问题往往是小样本问题。目前存在的小样本高光谱图像像素级分类方法主要有两类：一类是基于样本扩充的方法；另一类是基于迁移学习的方法。而在现有的高光谱图像样本生成方法，通常使用GAN生成与原始训练样本分布大致相同的高光谱图像样本加入训练样本，进而得到更多的训练样本，以提高神经网络模型的泛化能力，提高测试精度，得到有效的分类结果。然而，这种方法中，GAN生成的高光谱图像训练样本往往只是与原始少量的训练样本相关，而这些少量样本并非一定是核心样本，因此，其生成的样本一般也不是核心样本，只是增加了样本的数量而非质量，对于神经网络的泛化能力的提高是非常有限的，进而存在对于小样本高光谱图像来说一般生成的不是核心样本，难以有效提高小样本高光谱图像分类精度的问题。

因此，目前亟需一种基于核心样本自适应扩充的小样本高光谱图像分类方法，以解决现有的高光谱图像样本分类方法存在的神经网络泛化能力差、分类精度低的问题。

发明内容

本发明的目的是提供一种基于核心样本自适应扩充的小样本高光谱图像分类方法，将基于快速寻找密度峰值的聚类算法(Clustering by Fast Search and Find ofDensity Peaks，CFSFDP)引入到样本扩充中，通过将CFSFDP方法改进为MCFSFDP方法，可以自适应确定核心样本并将核心样本标注后加入到训练样本中，形成训练样本集进行神经网络训练，生成与训练样本集中样本数量相等的生成样本并将其扩充加入到训练样本集中，实现对训练样本的自适应扩充，不仅从测试样本中准确的找到了核心样本，还使训练样本的质量、数量得到同步提升，提高了神经网络的泛化能力，有效提升小样本高光谱图像分类精度。

为实现上述目的，本发明提供了如下方案：

一种基于核心样本自适应扩充的小样本高光谱图像分类方法，包括：

对高光谱图像进行数据预处理，得到训练样本和测试样本；

采用MCFSFDP聚类方法自适应确定所述测试样本中的核心样本；

将所述核心样本加入至所述训练样本中，扩充得到训练样本集；

将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，并将所述生成样本加入至所述训练样本集中，扩充得到训练样本数据集；

将所述训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型；

将所述测试样本代入至所述最终的BP神经网络模型中，正向计算得到小样本高光谱图像的分类结果。

可选的，所述对高光谱图像进行数据预处理，得到训练样本和测试样本，具体包括：

随机从高光谱图像R的每一个类别中选取5％的光谱像素点作为训练样本

所述训练样本的数量表示为M，所述训练样本的尺寸为h×1，h为光谱数；

将剩余95％的光谱像素点作为测试样本

所述测试样本的数量表示为N。

可选的，所述采用MCFSFDP聚类方法自适应确定所述测试样本中的核心样本，具体包括：

将所述测试样本

作为聚类数据集，j表示所述聚类数据集中的数据点，且j的取值范围为[1，N]；

计算每一个数据点j的局部密度ρ_j：

其中，ρ_j表示数据点j的局部密度，k表示数据点j之外的另一个数据点，d_jk＝dist(j,k)表示数据点j和数据点k之间的欧氏距离，d_c表示截断距离；当d_jk-d_c＜0时，则χ(d_jk-d_c)＝1，否则χ(d_jk-d_c)＝0，χ(·)表示判断函数；

δ_j表示数据点j与比所述数据点j的局部密度高的所有数据点之间的最近距离，如公式(2)所示：

其中，ρ_k表示数据点k的局部密度；d_jk＝dist(j,k)表示数据点j和数据点k之间的欧氏距离；

对于拥有最大局部密度的数据点，其距离为所有数据点与数据点之间的距离的最大值δ_j＝max_k(d_kj)；d_kj为数据点k与数据点j之间的欧氏距离；

对于每个数据点j，都有与其对应的密度值ρ_j和距离值δ_j；距离阈值δ为选择数据点为聚类结果的唯一标准，则有：

num_v＝f(δ_v) (3)

其中，δ_v表示所有数据点的距离值，num_v为δ_j≥δ_v的数据点j的个数；

对公式(3)求微分得到：

con_v＝[f(δ_v+1)-f(δ_v)]/(δ_v+1-δ_v) (4)

其中，con_v为数据点个数与距离值的微分；δ_v和δ_v+1表示拥有数据点的距离阈值的相邻值，且δ_v+1>δ_v；

对公式(4)中的距离阈值的相邻值δ_v和δ_v+1上的con_v与con_v+1做商，再对结果求绝对值，即有：

quo_v＝|con_v/con_v+1| (5)

quo_v表示两个相邻距离阈值上微分的商的绝对值；

当在某距离阈值区间δ_r(δ_v-1，δ_v，δ_v+1)上的数据点数num_v趋近稳定时，在这个距离阈值区间的距离阈值δ_v上存在quo_v的局部极大值，则将当前的距离阈值δ_v确定为自适应距离阈值δ_A；

当数据点j的距离δ_j>δ_A时，所述数据点j被选择为聚类中心点，所述聚类中心点即为所述核心样本，并对所述核心样本的类别进行人为标注，得到自适应确定的核心样本。

可选的，所述将所述核心样本加入至所述训练样本中，扩充得到训练样本集，具体包括：

将所述核心样本的数量定义为T；

将所述核心样本加入到所述训练样本

中进行扩充，得到训练样本集；

由于所述训练样本的数量为M，所述核心样本的数量为T，则扩充后得到的训练样本集中训练样本的数量为M+T，将所述训练样本集记为

可选的，所述将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，并将所述生成样本加入至所述训练样本集中，扩充得到训练样本数据集，具体包括：

将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本；由于所述训练样本集中训练样本的数量为M+T，所述生成样本的数量也为M+T；

将数量为M+T的所述生成样本加入至样本数量同为M+T的所述训练样本集中进行扩充，得到训练样本数量为2*(M+T)的训练样本数据集，将所述训练样本数据集记为

可选的，所述生成对抗网络包括生成器G和判别器D，所述生成器G用于捕捉潜在分布的真实数据并生成新的数据，所述判别器D是一个二值分类器，用于判断输入的训练样本的真实性。

可选的，将所述训练样本集代入至生成对抗网络中进行训练，具体包括：

假设真实数据x具备数据分布p(x)且输入噪声变量具有一个先验p(z)，所述生成器接收一个输入噪声，并产生一个到虚假数据G(z)空间的映射；D(x)估计来自训练样本的真实数据x的概率；

在生成对抗网络训练的优化过程中，所述判别器被训练为最大化log(D(x))，被训练为最大化log(D(x))的所述判别器为正确源分配正确标签的概率，此时所述生成器被训练为最小化log(1-D(G(z)))，将生成对抗网络的优化问题作为一个求解极大极小的问题，则所述生成对抗网络的目标函数为：

其中，V(D，G)表示目标函数，E为期望运算符，G表示生成器，D表示判别器，z表示输入噪声，x表示真实数据，p(x)表示数据分布，G(z)表示虚假数据，D(x)表示估算的来自训练样本的真实数据x的概率，log(D(x))表示所述判别器被训练最大化，log(1-D(G(z)))表示所述生成器被训练最小化；

则计算所述生成器G的损失函数收敛值为：

其中，F(D,G)表示损失函数收敛值，f(D,G)表示优化后的损失函数收敛值，V(D，G)表示目标函数，E为期望运算符，G表示生成器，D表示判别器，z表示输入噪声，x表示真实数据，p(x)表示数据分布，G(z)表示虚假数据，D(x)表示估算的来自训练样本的真实数据x的概率，log(D(x))表示所述判别器被训练最大化，log(1-D(G(z)))表示所述生成器被训练最小化。

对所述训练样本集中的训练样本进行一次生成对抗网络训练，得到损失函数收敛值F(D,G)，若所述损失函数收敛值F(D,G)为r，则再次进行生成对抗网络训练，直到得到的损失函数收敛值F(D,G)＞r时，即当F(D,G)＝r+A_t时，A_t表示收敛增值，停止训练。

可选的，所述收敛增值A_t的取值为0.5。

可选的，所述将所述训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型，具体包括：

将所述训练样本数据集中的各个训练样本代入至BP神经网络模型；

不断误差反馈、迭代更新所述BP神经网络模型的权重；

将最大迭代次数设置为1000次，当达到最大迭代次数时完成训练，得到最终的BP神经网络模型。

可选的，所述BP神经网络模型包括一个输入层、三个隐含层和一个Softmax分类器；所述BP神经网络模型的每一个输入节点代表高光谱图像样本中的一个元素。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过改进的基于快速寻找密度峰值的聚类算法(MCFSFDP)，对测试样本进行聚类，自适应得到核心样本并进行标记，并将其加入训练样本形成新的训练样本数据集，再利用GAN对新的训练样本数据进行训练并生成与新的训练样本数据数量相等的生成样本加入新的训练样本数据集，形成最终的训练样本数据集，最后对训练样本数据集中的训练样本进行神经网络训练及测试样本测试。

与传统的样本扩充算法相比，本发明在确定核心样本后，将核心样本加入至训练样本中，实现对训练样本的第一次扩充，得到训练样本集，然后又将训练样本集代入至生成对抗网络中训练，生成与训练样本集中样本数量相同的生成样本，再将生成样本加入至训练样本中，实现对训练样本的第二次扩充，通过对训练样本进行两次自适应样本扩充，实现对训练样本的质量和数量的同步提升，最终真实、有效的提高了神经网络的泛化能力，提升了小样本高光谱图像分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的基于核心样本自适应扩充的小样本高光谱图像分类方法的流程示意图；

图2为本发明实施例1提供的生成对抗网络GAN网络的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供了一种基于核心样本自适应扩充的小样本高光谱图像分类方法，具体包括以下步骤：

S1、对高光谱图像进行数据预处理，得到训练样本和测试样本。

本实施例中，在选择训练样本和测试样本时，随机从高光谱图像R的每一个类别中选取5％的光谱像素点作为训练样本

从而得到所述训练样本，所述训练样本的数量表示为M，所述训练样本的尺寸为h×1，h为光谱数。

将剩余95％的光谱像素点作为测试样本

从而得到所述测试样本，所述测试样本的数量表示为N。

S2、采用MCFSFDP聚类方法自适应确定所述测试样本中的核心样本。具体包括：

将所述测试样本

计算每一个数据点j的局部密度ρ_j：

其中，ρ_j表示数据点j的局部密度，k表示数据点j之外的另一个数据点，d_jk＝dist(j,k)表示数据点j和数据点k之间的欧氏距离，d_c为截断距离，表示所有数据点与数据点之间的欧式距离中，由小到大排列占总数2％的所有欧式距离的数值；当d_jk-d_c＜0时，则χ(d_jk-d_c)＝1，否则χ(d_jk-d_c)＝0，χ(·)表示判断函数；

num_v＝f(δ_v) (3)

对公式(3)求微分得到：

con_v＝[f(δ_v+1)-f(δ_v)]/(δ_v+1-δ_v) (4)

quo_v＝|con_v/con_v+1| (5)

quo_v表示两个相邻距离阈值上微分的商的绝对值；

本实施例通过改进的基于快速寻找密度峰值的聚类算法(MCFSFDP)，对测试样本进行聚类，自适应得到核心样本并进行标记，可准确的确定核心样本，解决了现有的高光谱图像样本扩充方法无法确定核心样本的问题。

S3、将所述核心样本加入至所述训练样本中，扩充得到训练样本集。具体包括：

将所述核心样本的数量定义为T；

将所述核心样本加入到所述训练样本

中进行扩充，得到训练样本集；

本实施例中，通过将核心样本加入至训练样本中，完成第一次训练样本的自适应样本扩充，得到的训练样本集中训练样本的数量包括M个原始训练样本和T个具有标记符号的核心样本。

S4、将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，并将所述生成样本加入至所述训练样本集中，扩充得到训练样本数据集。具体包括：

将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，且所述生成样本中也具有标记符号；由于所述训练样本集中训练样本的数量为M+T，所述生成样本的数量也为M+T；

本实施例中，通过将生成样本加入至训练样本集中，完成第二次训练样本的自适应样本扩充，得到的训练样本数据集中训练样本的数量包括M个原始训练样本、T个具有标记符号的核心样本和M+T个具有标记符号的生成样本，共计2*(M+T)个训练样本，使得训练样本的数量大幅增加，从而使训练样本得到数量和质量上的同步提升，解决了GAN生成的生成样本不仅不是核心样本，还在样本扩充时只增加样本的数量而非质量的问题。

图2是本发明实施例1提供的生成对抗网络的结构框图，如图2所示，所述生成对抗网络即GAN网络，包括生成器G和判别器D，所述生成器G用于捕捉潜在分布的真实数据x并生成新的数据，所述判别器D是一个二值分类器，用于判断输入的训练样本的真实性。

GAN的核心思想来源于博弈论的纳什均衡，设定参与游戏双方分别为一个生成器G和一个判别器D，生成器G的目的是尽量去学习真实的数据分布，而判别器D的目的是尽量正确判别输入数据是来自真实数据x还是来自生成器G的虚假数据G(z)；为了取得游戏胜利，生成器G和判别器D这两个游戏参与者需要不断优化，各自提高自己的生成能力和判别能力，这个学习优化过程就是寻找二者之间的一个纳什均衡的过程。

假设真实数据x具备数据分布p(x)且输入噪声变量具有一个先验p(z)，所述生成器G接收一个随机噪声作为输入，即输入噪声z，并产生一个到虚假数据G(z)空间的映射；D(x)估计来自训练样本的真实数据x的概率；

在生成对抗网络训练的优化过程中，所述判别器D被训练为最大化log(D(x))，被训练为最大化log(D(x))的所述判别器D为正确源分配正确标签的概率，此时所述生成器G被训练为最小化log(1-D(G(z)))，将生成对抗网络的优化问题作为一个求解极大极小的问题，则所述生成对抗网络的目标函数为：

其中，V(D，G)表示目标函数，E为期望运算符，G表示生成器，D表示判别器，z表示输入噪声，x表示真实数据，p(x)表示数据分布，G(z)表示虚假数据，D(x)表示估算的来自训练样本的真实数据x的概率，log(D(x))表示所述判别器D被训练最大化，log(1-D(G(z)))表示所述生成器G被训练最小化。

应说明的是，经过计算后，当判别器D发现一个真实样本的高概率分布时，判别器D的梯度消失，训练停止。为了确定当判别器D的分类精度高时生成器G有适当的梯度，生成器G的损失函数通常通过将样本判断为真的概率最大化制定，这里需要生成的样本越真实越好，而不是通过将样本判断为假的概率最小化制定，这里是说不需要判别器D判别生成样本是伪样本的概率最小。

则计算所述生成器G的损失函数收敛值为：

还应当说明的是，生成器G的参数更新是基于判别器D反馈的，而不是直接使用真实样本数据反馈的。然而，这里需要生成样本与输入GAN网络的训练样本有所区别，最好是与输入样本相似但还存在不同。因此，需要对GAN网络先训练一次得到损失函数收敛值F(D,G)。

因此，对所述训练样本集中的训练样本进行一次生成对抗网络训练，得到损失函数收敛值F(D,G)，若所述损失函数收敛值F(D,G)为r，则再次进行生成对抗网络训练，直到得到的损失函数收敛值F(D,G)＞r时，即当F(D,G)＝r+A_t时，停止训练，其中A_t表示收敛增值，r为预设损失函数收敛值。

本实施例中，将所述收敛增值A_t的取值设置为0.5。

需要注意的是，本发明中的收敛增值A_t的值并不是唯一的，对r的值也不做限定，A_t和r的具体数值视实际情况自行确定，任何关于A_t和r的取值范围都应在本发明的保护范围之内。

S5、将所述训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型。具体包括：

不断误差反馈、迭代更新所述BP神经网络模型的权重；

S6、将所述测试样本代入至所述最终的BP神经网络模型中，正向计算得到小样本高光谱图像的分类结果。

所述BP神经网络模型包括一个输入层、三个隐含层和一个Softmax分类器；所述BP神经网络模型的每一个输入节点代表高光谱图像样本中的一个元素，在通过训练样本数据集将BP神经网络模型训练好后，将测试样本代入至训练好的BP神经网络模型中，直接正向计算即可得到准确的小样本高光谱图像的分类结果。

简单来说，本发明提出的一种基于核心样本自适应扩充的小样本高光谱图像分类方法，首先确定训练样本和测试样本，然后对测试样本进行聚类处理，自适应选取聚类中心样本作为核心样本并进行标注；然后，将标注过的核心样本加入到训练样本中进行第一次样本扩充，得到扩充后的训练样本集；然后在对训练样本集进行生成对抗网络训练，生成与该训练样本集数量相同的生成样本并附带标签，将生成样本加入到训练样本集中进行第二次样本扩充，得到训练样本数据集；最后，将训练样本数据集对BP神经网络模型进行训练，再将训练好的BP神经网络模型对测试样本进行测试，从而实现小样本高光谱图像的分类。

本发明的方法不仅确定了核心样本，还基于核心样本对训练样本进行了两次样本扩充，针对训练样本的两次自适应样本扩充，第一次扩充加入了核心样本，第二次扩充加入了相同数量的生成样本，且核心样本和生成样本均具有标记标签，两次样本扩充使得训练样本的数量成倍增加，实现对训练样本的质量和数量的同步提升，真实有效的提高了神经网络的泛化能力，提升了小样本高光谱图像分类精度，解决现有的高光谱图像样本生成方法存在的神经网络泛化能力差、分类精度低的问题，可提升高光谱图像的分类效果，有利于高光谱图像分类的应用和发展。

本说明书中各个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。本说明书中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。