CN112784774B

CN112784774B - 一种基于数据增强的小样本高光谱分类方法

Info

Publication number: CN112784774B
Application number: CN202110111871.0A
Authority: CN
Inventors: 王文宁; 李爱凤; 兰鹏
Original assignee: Shandong Agricultural University
Current assignee: Shandong Agricultural University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-08-23
Anticipated expiration: 2041-01-27
Also published as: CN112784774A

Abstract

本发明公开了一种基于数据增强的小样本高光谱分类方法，包括：输入高光谱图像数据得到样本集；对样本集中的每个样本点均划定N个不同尺寸邻域区域；每个样本点得到N个邻域样本集，对邻域样本集进行处理，得到对应新增样本点，将对应的所有新增样本点组合为样本点的扩增数据集，遍历样本集得到增强后的图像数据；将原始高光谱图像数据和增强后的图像数据用于训练分类器；利用训练后的分类器对高光谱图像中使用上述步骤数据增强的待识别样本点使用投票法或者优选法进行分类识别。本发明实现了对高光谱图像数据的数据增强，一定程度上解决了小样本问题，通过扩增的训练样本训练出更好的分类器，同类条件下明显提高了高光谱数据的分类识别率。

Description

一种基于数据增强的小样本高光谱分类方法

技术领域

本发明属于小样本高光谱分类识别领域，涉及一种基于数据增强的小样本高光谱分类方法。

背景技术

高光谱图像集样本的图像信息与光谱信息于一身。图像信息可以反映样本的大小、形状、缺陷等外部品质特征，由于不同成分对光谱吸收也不同，在某个特定波长下图像对某个缺陷会有较显著的反映，而光谱信息能充分反映样品内部的物理结构、化学成分的差异。高光谱遥感图像往往难以采集大量训练样本的，而只有少量的训练样本，很难得到高精度的分类精度，因此数据增强能扩充训练样本，提高分类器的分类精度。

数据增强是解决小样本问题的有效方法，在图像分类和文本分类领域，当样本不足时，可以通过数据增强的手段提高分类精确度。然而不像图像数据和文本数据，人们对高光谱数据的认知还不完善，用于图像数据和文本数据的增强方法并不完全适用于高光谱数据。前期有学者仿造图像领域的做法，对高光谱进行随机扰动、加噪、旋转等操作来得到增强样本，然而增强后的数据对分类精确度的提升仅仅取得一点点改进，大约能提升2～3％。

发明内容

针对遥感图像难以采集大量训练样本的，而只有少量的训练样本，很难得到高精度的分类精度，因此使用数据增强方法扩充训练样本，提高分类器的分类精度，同时使用数据增强方法扩充待识别样本，提高待识别样本的分类识别精度。

鉴于上述问题，提出了本发明以便提供两种克服上述问题或者至少部分地解决上述问题的一种基于数据增强的小样本高光谱分类方法。

为实现上述目的，本发明采取的技术方案为：

本发明实施例提供一种基于数据增强的小样本高光谱分类方法，包括：

S11：输入原始高光谱图像数据，得到当前样本点集；

S12：对所述当前样本点集中的每个当前样本点对应划定N个不同尺寸的邻域区域；所述每个当前样本点得到对应的N个邻域样本点集；对所述当前样本点的所述邻域样本点集进行增强处理，得到所述当前样本点对应新增样本点；

S13：将所述当前样本点对应得到所有所述新增样本点数据组合为所述当前样本点的扩增数据集合，遍历所述当前样本点集得到增强后的图像数据；

S14：将所述原始高光谱图像数据和所述增强后的高光谱图像数据用于训练分类器；利用训练后的所述分类器对高光谱图像中待识别样本点使用投票法或者优选法进行分类识别；所述待识别样本点使用步骤S11-S13进行数据增强。

进一步的，所述对所述当前样本点的所述邻域样本点集进行增强处理，得到所述当前样本点对应新增样本点，包括：

S121：对所述当前样本点对应的所述邻域样本点集进行处理，得到对应的候选样本集{X_j}；

S122：计算所述候选样本集中每个候选样本点与对应所述当前样本点光谱的相似度；

S123：将所述相似度代入第一计算公式；对所述候选样本集中的所述每个候选样本点设定贡献权值；

S124：根据第二计算公式，计算设定权值后的所述候选样本集得到所述当前样本点对应的新增样本点。

进一步的，所述步骤S121，包括：

S1211：根据所述邻域样本点集中每个邻域样本点与对应所述当前样本点的欧氏距离，对所述邻域样本点集中每个邻域样本点进行排序；

S1212：选择排序后所述邻域样本点集中临近的K个邻域样本点进行连通检测，得到对应的所述候选样本集；所述K<S*S；S*S为邻域区域的像素点总数。

进一步的，所述第一计算公式，包括：

所述候选样本点表示为X_j；所述候选样本集对应的当前样本点表示为X_i；所述ω_ij是为样本X_j的加权值；所述j为所述候选样本集中各点的标号；所述i为所述对应的当前样本各点的标号。

进一步的，所述第二计算公式，包括：

X_aug＝(∑_jω_ij·X_j)/∑_jω_ij (2)

所述同类样本集对应的新增样本点表示为X_aug。

本发明实施例还提供另一种基于数据增强的小样本高光谱分类方法，包括：

S21：输入当前高光谱图像数据，得到当前样本点集；

S22：对所述当前样本点集中的每个当前样本点，对应划定预设尺寸的邻域区域，所述每个当前样本点得到对应的邻域样本点集；对所述邻域样本点集进行增强处理，得到所述当前样本点对应的新增样本点；遍历当前样本点集，得到所有当前样本点的新增样本点；

S23：将每个所述新增样本点的数据作为为第二高光谱图像数据；将所述第二高光谱图像数据存储；将所述第二高光谱图像数据作为S21的当前高光谱图像数据，迭代N次执行步骤S21-S23；所述迭代N次执行过程中所述邻域区域的尺寸均为同一所述预设尺寸；

S24：当迭代次数N达到预设阈值时，每个原始当前样本点均得到N个扩增的高光谱图像数据样本点，组成增强后的图像数据；

S25：将所述原始高光谱图像数据和所述增强后的高光谱图像数据用于训练分类器；利用训练后的所述分类器对高光谱图像中待识别样本点使用投票法或者优选法进行分类识别；所述待识别样本点使用步骤S21-S24进行数据增强。

进一步的，所述对所述邻域样本点集进行增强处理，得到所述当前样本点对应的新增样本点，包括：

S221：对所述邻域样本点集进行处理，得到对应的候选样本集{X_j}；

S222：计算所述候选样本集中每个候选样本点与对应所述当前样本点光谱的相似度；

S223：将所述相似度代入第一计算公式；对所述候选样本集中的候选样本点设置贡献权值；

S224：根据第二计算公式，计算设定权值后的所述候选样本集得到所述当前样本点对应的新增样本。

进一步的，所述步骤S221，包括：

S2211：根据所述邻域样本点集中每个邻域样本点与对应所述当前样本点的欧氏距离，对所述邻域样本点集中每个邻域样本点进行排序；

S2212：选择排序后所述邻域样本点集中临近的K个邻域样本点进行连通检测，得到对应的所述候选样本集；所述K<C*C；所述C*C为所述邻域区域的像素点总数。

进一步的，所述第一计算公式，包括：

进一步的，所述第二计算公式，包括：

X_aug＝(∑_jω_ij·X_j)/∑_jω_ij (2)

所述同类样本集对应的新增样本表示为X_aug。

与现有技术相比，本发明具有如下有益效果：

本专利所提出的一种基于数据增强的小样本高光谱分类方法，两种增强算法对于提高分类识别率都是有效的。即使针对原测试样本，用增强的训练样本训练的分类器，比较用原始训练样本训练的分类器，增强训练样本后的分类器分类精确度能提升5～7％。在增强训练样本的前提下，对测试样本的增强将使得总体分类性能大幅度提升。对于增强后的测试样本，可以有两种选择做法，一是用投票的方法决定当前像素点的预测结果；二是优选的增强后的测试样本，每个像素点的预测结果取决于最优的一个增强数据。两种做法最终都可获得分类精确度的大幅度的提升。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为具体实施例一的一种基于数据增强的小样本高光谱分类方法框图；

图2具体实施例一的数据增强方法示意图；

图3为具体实施例二的一种基于数据增强的小样本高光谱分类方法流程图；

图4具体实施例二的数据增强方法示意图；

图5为Indian数据集下(每类随机选择5个原始训练样本，共16类)训练样本增强数量与分类精度的关系图；

图6为Indian数据集下(每类随机选择10个原始训练样本，共16类)训练样本增强数量与分类精度的关系图；

图7为Indian数据集下(每类随机选择15个原始训练样本，共16类)训练样本增强数量与分类精度的关系图；

图8为方案一得到的增强Indian数据集，三种测试样本(原始测试样本，增强后的测试样本，优选增强后的测试样本)的分类精度比较图；

图9为方案二得到的增强Indian数据集，三种测试样本(原始测试样本，增强后的测试样本，优选增强后的测试样本)的分类精度比较图；

图10为Indian数据集标签图；

图11为Indian数据集下，原始训练样本训练分类器对原始测试样本的分类效果图；

图12为Indian数据集下，增强后的训练样本训练分类器对原始测试样本的分类效果图；

图13为Indian数据集下，增强后的训练样本训练分类器对增强后的测试样本的分类效果图；

图14为PaviaU数据集标签图；

图15为PaviaU数据集原始训练样本训练分类器对原始测试样本的分类效果图；

图16为PaviaU数据集增强后的训练样本训练分类器对原始测试样本的分类效果图；

图17为PaviaU数据集增强后的训练样本训练分类器对增强后的测试样本的分类效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

具体实施例一：本发明提供了一种基于数据增强的小样本高光谱分类方法，如图1和图2所示.

S11：输入原始高光谱图像数据，得到当前样本点集；

S12：对当前样本点集中的每个当前样本点对应划定N个不同尺寸的邻域区域；每个当前样本点得到对应的N个邻域样本点集；对当前样本点的邻域样本点集进行增强处理，得到当前样本点对应新增样本点；

S13：将当前样本点对应得到所有新增样本点数据组合为当前样本点的扩增数据集合，遍历当前样本点集得到增强后的图像数据；

在原始高光谱图像数据中，选择不同的样本组成当前样本点集，以当前样本点集中的每个当前样本点为中心点，对应划定N个不同尺度的邻域区域，每个邻域区域得到一个领域样本点集，如区域的大小为R＝5*5，7*7，9*9，11*11…S*S等(区域的大小可根据的地物的结构设定，如果地物都是大块区域，区域可大一些，如果地物比较小，区域小一点比较合理)，S*S为一个邻域区域像素点的总数，得到N个邻域样本点集。

在邻域区域中，分别计算邻域样本点集中各邻域样本点与对应的当前样本点的欧氏距离，依据距离的大小对邻域样本点集中的所有样本点进行排序；选定邻域样本点集中最近邻的K(K<S*S)个邻域样本点作为候选的同类别样本集，根据同类局部样本必定连通的原则，对候选的同类样本集进行连通检测，剔除K个邻域样本点中空间位置不邻接的样本点，得到候选样本集。

计算候选样本集中各候选样本点与对应当前样本点的光谱相似度，根据相似度，为每一个候选样本点设定权值贡献，权值计算如公式(1)以减少非同类样本的干扰。候选样本点表示为X_j；候选样本集对应的当前样本点表示为X_i；ω_ij是为样本X_j的加权值；j为候选样本集中各点的标号；i为对应的当前样本各点的标号。

根据公式(2)计算邻域区域内的设定权值后候选样本集的聚类中心，将这一聚类中心作为当前样本点的新增样本点，计算当前样本点所有邻域区域内的邻域样本点集，当前样本点得到扩增的N个新增样本点，遍历当前样本点集中所有的样本点得到增强后的高光谱图像数据。同类样本集对应的新增样本点表示为X_aug。

X_aug＝(∑_jω_ij·X_j)/∑_jω_ij (2)

每个当前样本点得到N个增强的像素点，加上原始的样本点，每个像素点共有N+1个独立的样本点，这N+1个样本点中的每一个都独立代表当前像素点的特征，遍历原始图像中的当前样本点集中的所有像素点，最终高光谱的当前样本点集中每个像素点都生成自己的增强样本集合。

从原始高光谱图像中，我们取M个训练像素点，我们将有(N+1)*M个训练样本点参与训练分类器，训练样本点的数量扩展为原来的(N+1)倍，能更好的训练分类器。

从原始高光谱图像中，我们取待识别的像素点作为测试图像数据，测试图像数据将输入步骤S11-S13中，得到测试样本的增强样本集合，则每个测试像素点也有(N+1)个独立的测试样本点，把这些样本送入分类器中训练，通过投票法或者优选法决定当前像素点的预测结果。

具体实施例二，本发明提供了一种基于数据增强的小样本高光谱分类方法，如图3和图4所示。

S21：输入当前高光谱图像数据，得到当前样本点集；

S22：对当前样本点集中的每个当前样本点，对应划定预设尺寸的邻域区域，每个当前样本点得到对应的邻域样本点集；对邻域样本点集进行增强处理，得到当前样本点对应的新增样本点；遍历当前样本点集，得到所有当前样本点的新增样本点；

S23：将每个新增样本点的数据作为为第二高光谱图像数据；将第二高光谱图像数据存储；将第二高光谱图像数据作为S21的当前高光谱图像数据，迭代N次执行步骤S21-S23；迭代N次执行过程中邻域区域的尺寸均为同一预设尺寸；

在高光谱图像数据中(迭代后，将高光谱图像置换为新增数据组成的高光谱图像)，选择不同的样本组成当前样本点集，以当前样本点集中的每个当前样本点为中心点，对应划定预设尺寸的邻域区域。邻域区域大小为R＝C*C，C*C为邻域区域像素点总数。

在邻域区域中，分别计算邻域样本点集与对应的当前样本点的欧氏距离，依据距离的大小对邻域样本点集中的所有样本进行排序；选定邻域样本点集中最近邻的K(K<C*C)个邻域样本点作为候选的同类别样本集，根据同类局部样本必定连通的原则，对候选的同类样本集进行连通检测，剔除K个邻域样本点中空间位置不邻接的样本点，得到候选样本集。

根据公式(2)计算邻域区域内的设定权值后的候选样本点集的聚类中心，将聚类中心的值作为当前样本点的新增样本点，将当前样本点集中的每个当前样本点遍历，每个当前样本点都得到了一个新增样本点，所有新增样本点组成新增高光谱图像数据，将新增高光谱图像数据存储下来。

X_aug＝(∑_jω_ij·X_j)/∑_jω_ij (2)

用新增高光谱图像替代原高光谱图像中的光谱数据继续重新回到步骤S21，再次搜索新的当前样本点集，当迭代次数N达到预设值时，停止迭代，将N次存储的新增高光谱图像数据组成集合，生成增强后的数据，这时，每个当前样本点都得到了N个扩增的样本点。其中迭代N次执行过程中邻域区域的尺寸均为同一开始设置的尺寸。

每个当前样本点得到N个增强的像素点，加上原始的样本点，每个像素点共有N+1个独立的样本点，这N+1个样本点中的每一个都独立代表当前像素点的特征，遍历和迭代原始高光谱图像中的当前样本点集中的所有像素点，最终高光谱当前样本点集中的每个像素点都生成自己的增强样本集合。

从原始高光谱图像中，我们取待识别的像素点为测试图像数据，测试图像数据将输入步骤S21-S24中，得到测试样本的增强集合，则每个测试像素点也有(N+1)个独立的测试样本点，把这些样本送入分类器中训练，通过投票法或者优选法决定当前像素点的预测结果。

根据具体实施例一和二，我们通过实验来说明两个问题，训练样本增强的有效性和增强测试数据的最优利用方式。

(1)训练样本增强的有效性实验

我们用数据增强算法产生增强后的训练样本，计算分类精确度。在原始高光谱数据上，我们选择不同数量的原始训练样本，每类5个，每类10个，每类15个。使用具体实施例一和具体实施例二中的上述两种数据增强方法，把训练样本分别增强到N倍，记为trn_N。为了检验数据增强算法的有效性，我们用两种分类器(MLR、SVM)进行实验，其中，使用MLR分类器进行试验的结果如图5、6和7所示，为用两种增强算法得到的增强后的训练样本使用MLR分类器，对原始测试样本的分类精确度比较图，具体实施例一算法(Algorithm1-OA)，具体实施例二算法(Algorithm2-OA)。

图5、6和7中的测试样本都是相同的原始测试样本，横轴中trn0,对应的就是没有增强训练样本的结果，trn1是增强1倍训练样本的结果，依次trn2是增强2倍训练样本的结果，增强后的训练样本训练的分类器分类效果明显改善。实验表明，两种增强算法对于提高分类识别率都是有效的，增强的训练样本可以有效的提高分类精确度，但是样本的增强不是无止境的，当增强到一定的程度以后，再增加的训练样本对分类的作用不明显了。

具体实施例一中，邻域区域大小的数据增强方法最优的尺寸为(3，5，7，9，11)，即生成(4～5)倍的增强样本时，分类效果好。而具体实施例二中，固定邻域区域的尺寸为7，则迭代3～4次生成的增强样本，分类精确度比较好。

(2)增强测试数据的最优利用实验。

数据增强的算法不仅能生成增强的训练样本，也能生成增强的测试样本。现在来讨论增强测试样本的使用方法。使用增强以后的训练样本训练分类器，分别对原测试数据，增强后的测试数据以及优选的增强后的测试数据分别进行分类识别，验证增强的训练样本的有效性和增强的测试样本光谱数据对识别分类的有效性。其中，分类步骤如下：

根据扩增算法，高光谱图像的每个像素点都能生成N(假设扩增N次)个独立的扩增样本，加上原来的样本，则每个像素点有N+1个独立的样本。这(N+1)个样本中的每一个样本都独立代表当前像素点，因此，假设取K像素点作为训练像素点，将有(N+1)*K个训练样本参与训练分类器，训练样本的数量扩增为原来的(N+1)倍。

用结构特征提取方法提取所有样本的结构特征，用(N+1)*K个训练样本的结构特征，训练分类器；

最终的分类决策有两种做法：一是，因为每个测试像素点也有(N+1)个独立的测试样本，把这些样本送入分类器中独立判决，通过投票法或者优选法决定当前像素点的预测结果。二是，选择增强算法的最后一次得到的增强样本作为当前像素点的测试样本(最后一次的增强样本更加接近聚类中心)；送入上述分类器，通过投票法或者优选法决定当前像素点的预测结果。

选择具体实施例一中的增强算法，得到4倍增强的训练样本对分类器进行实验。原始训练样本的每一类的数量为3，5，7，9，11，13，15，把原始训练样本和它们的4倍的增强样本一起合成增强后的样本，每一类的数量分别记为如下代表变量：

3_aug1＝15,5_aug1＝25,7_aug1＝35,9_aug1＝45,11_aug1＝55,13_aug＝65,15_aug1＝75等。

如附图8、9所示，为用增强算法得到的增强后的Indian训练样本的使用MLR分类器，对原始测试样本(test0)、增强后的测试样本(test_aug)、优选的测试样本(test_aug_select)的分类精确度比较图。使用相同的增强后的训练样本训练分类器，不同的测试样本会产生不同的分类效果。增强的测试样本的分类精确度比原测试样本的分类精确度高，而优选的增强后的测试样本的分类精确度最好。

在两个数据集上的测试效果图如附图10、11、12、13、14、15、16、17所示。

与现有技术相比，本发明具有如下有益效果：

本专利所提出的一种基于数据增强的小样本高光谱分类方法，两种增强算法对于提高分类识别率都是有效的。如具体实施例一和具体实施例二中即使针对原测试样本，用增强的训练样本训练的分类器，比较用原始训练样本训练的分类器，增强训练样本后的分类器分类精确度能提升。在增强训练样本的前提下，对测试样本的增强将使得总体分类性能大幅度提升。对于增强后的测试样本，可以有两种选择做法，一是用投票的方法决定当前像素点的预测结果；二是优选的增强后的测试样本，每个像素点的预测结果取决于最优的一个增强数据。两种做法最终都可获得分类精确度的大幅度的提升。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于数据增强的小样本高光谱分类方法，其特征在于：

S11：输入原始高光谱图像数据，得到当前样本点集；

S14：将所述原始高光谱图像数据和所述增强后的高光谱图像数据用于训练分类器；利用训练后的所述分类器对高光谱图像中待识别样本点使用投票法或者优选法进行分类识别；所述待识别样本点使用步骤S11-S13进行数据增强；

所述对所述当前样本点的所述邻域样本点集进行增强处理，得到所述当前样本点对应新增样本点，包括：

S124：根据第二计算公式，计算设定权值后的所述候选样本集得到所述当前样本点对应的新增样本点；

所述第一计算公式，包括：

所述候选样本点表示为X_j；所述候选样本集对应的当前样本点表示为X_i；所述ω_ij是为样本X_j的加权值；所述j为所述候选样本集中各点的标号；所述i为所述对应的当前样本各点的标号；

所述第二计算公式，包括：

X_aug＝(∑_jω_ij·X_j)/∑_jω_ij (2)

所述同类样本集对应的新增样本点表示为X_aug。

2.如权利要求1所述的一种基于数据增强的小样本高光谱分类方法，其特征在于，所述步骤S121，包括：

S1212：选择排序后所述邻域样本点集中临近的K个邻域样本点进行连通检测，得到对应的所述候选样本集；所述K＜S*S；S*S为邻域区域的像素点总数。

3.一种基于数据增强的小样本高光谱分类方法，其特征在于：

S21：输入当前高光谱图像数据，得到当前样本点集；

S25：将所述原始高光谱图像数据和所述增强后的高光谱图像数据用于训练分类器；利用训练后的所述分类器对高光谱图像中待识别样本点使用投票法或者优选法进行分类识别；所述待识别样本点使用步骤S21-S24进行数据增强；

所述对所述邻域样本点集进行增强处理，得到所述当前样本点对应的新增样本点，包括：

S224：根据第二计算公式，计算设定权值后的所述候选样本集得到所述当前样本点对应的新增样本；

所述第一计算公式，包括：

所述第二计算公式，包括：

X_aug＝(∑_jω_ij·X_j)/∑_jω_ij (2)

所述同类样本集对应的新增样本表示为X_aug。

4.如权利要求3所述的一种基于数据增强的小样本高光谱分类方法，其特征在于，所述步骤S221，包括：

S2212：选择排序后所述邻域样本点集中临近的K个邻域样本点进行连通检测，得到对应的所述候选样本集；所述K＜C*C；所述C*C为所述邻域区域的像素点总数。