CN107273919B

CN107273919B - 一种基于置信度构造类属字典的高光谱无监督分类方法

Info

Publication number: CN107273919B
Application number: CN201710392062.5A
Authority: CN
Inventors: 肖亮; 尚文婷; 李蔚清
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2020-07-07
Anticipated expiration: 2037-05-27
Also published as: CN107273919A

Abstract

本发明公开了一种基于置信度构造类属字典的高光谱图像无监督分类方法，该方法首先构造二维光谱—像元矩阵；行和列规范化处理；特征抽取与选择，得到各像元的降维特征；粗分类和置信度评估，即利用降维特征对各像元进行分类计算各光谱像元与其粗分类类别中心的欧氏距离，作为置信度水平，得到高置信度分类样本和低置信度分类样本；最后，基于核化稀疏表示进行二次分类，即由高置信度分类样本构成类属字典，对低置信度分类样本进行核化稀疏表示，通过最小类别重建误差确定低置信度光谱像元的分类标签。本发明克服了直接利用全部光谱数据构造字典所带来的分类子空间刻画精度不足和计算复杂度过高的问题，提高了字典子空间鉴别性，降低了误分类错误率。

Description

一种基于置信度构造类属字典的高光谱无监督分类方法

技术领域

本发明属于高光谱图像无监督技术领域，，特别是一种基于置信度构造类属字典的高光谱无监督分类方法。

背景技术

高光谱图像数据按照光谱区间内的几十甚至几百个连续的窄波段的波长进行分解，具有丰富的地物光谱特征信息，可广泛应用于地物精细分类、矿产调查等领域。如何利用高光谱的海量数据以及高维特点，将高光谱图像的各种特征相结合，研究快速、高效的目标识别与分类算法一直是高光谱图像处理研究的一个热点。

高光谱图像无监督分类方法，由于没有人工标记样本，经典方法往往分类精度较低。例如，常见的K均值分类和谱聚类方法在高光谱图像无监督分类应用中，其总体分类精度很难达到70％以上。由于高光谱图像在由原始训练样本组成的字典表示下的稀疏特性，不同类的地物光谱特征位于不同的低维子空间，即某一光谱特征仅能被该类地物光谱特征组成的字典稀疏表示，从而利用稀疏表示模型来抽取稀疏表示特征，建立鉴别性子空间来实现分类。稀疏表示分类方法中，构建具有鉴别性的稀疏子空间是其关键问题[M.Yang，F.de Hoog，Y.Fan and W.Hu，"Adaptive Sampling by Dictionary Learning forHyperspectral Imaging，"in IEEE Journal of Selected Topics in Applied EarthObservations and RemoteSensing，vol.9，no.9，pp.4501-4509，Sept.2016.]。

通常，构建稀疏表示的字典有两种方法：(1)采取图像光谱像元样本直接构造；(2)字典学习方法[练秋生,石保顺,陈书贞.字典学习模型、算法及其应用研究进展[J].自动化学报,2015,(02):240-260.]。通过利用图像原始数据样本，用部分或者所有光谱像元来构造稀疏表示的字典，该方法虽然构造形式简单且计算复杂度低，但是稀疏子空间的鉴别性不足，导致此方法构建字典进行稀疏表示的误分类率比较高。字典学习的方法，通过样本学习获得表示字典能更好地与图像本身结构匹配，具有更稀疏的表示，但计算复杂度很高。

发明内容

本发明的目的在于提供一种基于置信度构造类属字典的高光谱无监督分类方法，利用基于置信度构造的类属字典对样本进行核化稀疏表示，进而进行二次分类。

实现本发明目的的技术解决方案：一种基于置信度构造类属字典的高光谱无监督分类方法，步骤如下：

步骤S1：构造高光谱图像的二维光谱-像元矩阵，即对高光谱图像按照逐像元光谱向量排列形成光谱-像元矩阵；

步骤S2：行和列规范化处理，得到规范化光谱-像元矩阵；

步骤S3：奇异值特征抽取与选择，即对规范化后的光谱-像元矩阵进行奇异值SVD分解，选取左右奇异特征向量形成特征向量矩阵；

步骤S4：粗分类，即利用K均值方法对特征向量矩阵进行分类，得到各光谱像元的粗分类结果，即把Z中每一行看作待分类的各样本，对特征向量矩阵Z粗分类，得到B+N个类别标签，前B个为二维光谱-像元行对应的类别标签，后N个为列对应的类别标签，即N个像元对应的类别标签。此步粗分类得到类别集合C₁,C₂,...,C_m为粗分类结果，其中m≥2为指定类别数，B为高光谱图像的波段数，N为高光谱图像的像元数；

步骤S5：基于置信度构造类属字典，即由粗分类的结果，对每类的光谱像元与其类别中心欧氏距离作为置信度评价准则，通过置信度筛选进一步划分为低置信度光谱像元样本和高置信度分类样本，高置信度分类样本构成类属字典；

步骤S6：基于核化稀疏表示二次分类，即由类属子字典对低置信度光谱像元样本进行核化稀疏表示，通过最小类别重建误差确定低置信度光谱像元样本的类别标签。

本发明与现有技术相比，其显著优点为：(1)首先对高光谱图像的二维光谱-像元矩阵的行和列规范化处理，奇异值特征抽取与特征选择，对形成的特征矩阵进行粗分类，获得较高的粗分类结果。(2)根据粗分类的结果计算置信度，并从像元中挑选出高置信度分类样本构造类属字典，本发明提出的字典构造方法不仅大幅降低了直接利用光谱数据字典进行稀疏表示的误分类问题，提高了字典的子空间鉴别性，而且避免了字典学习造成的计算复杂度过高的问题。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明基于置信度构造类属字典的高光谱图像无监督分类方法的流程图。

图2是光谱-像元二维矩阵行和列的规范化处理示意图。

图3为三维的Salinas-A高光谱图像，图中有204个光谱段，图像的空间大小为86×83。

图4是Salinas-A数据集分类结果图：(a)为Salinas-A数据集基准分类效果图；(b)为Salinas-A数据集采用K均值方法的分类效果图；(c)为Salinas-A数据集采用谱聚类(SC)的分类效果图；(d)为Salinas-A数据集采用本发明粗分类效果图；(e)为Salinas-A数据集采用本发明最终分类方法效果图。

具体实施方式

结合图1，本发明基于置信度构造类属字典的高光谱图像无监督分类方法，步骤如下：

步骤S1：构造高光谱图像的二维光谱-像元矩阵，即对高光谱图像按照逐像元光谱向量排列形成光谱-像元矩阵，方法如下：

输入一幅高光谱图像X₀∈R^W×H×B，构造此高光谱图像的二维光谱-像元矩阵，即对高光谱图像X₀按照逐像元光谱向量排列形成光谱-像元二维矩阵X∈R^B×N，且X＝[x₁,x₂,…,x_N]，其中x_i∈R^B表示X中第i个像元i＝1,2,...,N，且x_i＝[x_i1,x_i2,...,x_iB]^T，其中x_ij∈R表示像元x_i中第j维的光谱值j＝1,2,...,B，其中N＝W×H表示像元数，“T”为矩阵的转置符号，W和H分别表示空间维的宽度和长度，B表示波段数。

步骤S2：将矩阵X进行行和列规范化处理，得到规范化光谱-像元矩阵，如图2示意图所示，步骤如下：

第一步：各行信息求和构造对角矩阵M₁∈R^B×B，即

其中

表示第1个光谱通道的图像像素值之和，

表示第B个光谱通道的图像像素值之和，图2中p表示第p个光谱通道，p＝1,2,...,B。diag(·)表示矩阵中对角元素取括号内值的对角矩阵。

第二步：各列信息求和构造对角矩阵M₂∈R^N×N，即

其中

表示第1个光谱向量的元素之和，

表示第N个光谱向量的元素之和，图2中q表示第q个光谱向量，q＝1,2,...,N。

第三步：行和列规范化，计算公式为：

其中X表示构造的二维光谱-像元矩阵，

为X规范化结果矩阵。

步骤S3：奇异值特征抽取与特征选择，即对规范化后的光谱-像元矩阵进行奇异值(SVD)分解，选取左右奇异特征向量形成特征向量矩阵。步骤如下：

第一步：对

进行奇异值分解，从第二个奇异值向量开始的前s个最大的奇异值对应的左右奇异值向量U＝[u₂,u₃,...,u_s+1]和V＝[v₂,v₃,...,v_s+1]，形成降维后的特征向量空间。其中

m为类别个数，

表示四舍五入取整运算(本发明可以取值m＝8)。

第二步：归一化，其计算公式为左右奇异值向量，组成特征向量矩阵

步骤S4：粗分类：用K均值方法对特征向量矩阵Z进行分类，得到各光谱像元的粗分类结果。对矩阵Z粗分类(把Z中每一行看作待分类的各样本)，得到B+N个类别标签，前B个为二维光谱-像元行对应的类别标签，后N个为列对应的类别标签，即N个像元对应的类别标签。此步粗分类得到类别集合C₁,C₂,...,C_m粗分类结果，其中m≥2为指定类别数，B为高光谱图像的波段数，N为高光谱图像的像元数。

步骤S5：基于置信度构造类属字典，即由粗分类的结果，对每类的光谱像元与其类别中心欧氏距离作为置信度评价准则，通过置信度筛选进一步划分为低置信度光谱像元样本和高置信度分类样本，高置信度分类样本构成类属字典，具体步骤如下：

第一步：计算各类别均值向量：对类C_k中所有像元样本求均值向量

且

n_k为类C_k中像元个数，k＝1,2,...,m。

第二步：每类中各像元与均值向量求欧氏距离：如第k类中像元

与μ_k作光谱维上的欧氏距离运算

第三步：选取高置信度分类样本作为字典：将类别C_k中各像元与类别中心的欧式距离值作升序排列，选取前

个最小距离值对应的像元集合，作为类别C_k的子字典，记为D_k。依次对m个类别做上述操作，合并各类别子字典为字典D，即

对粗分类结果的各像元类别标签，提取字典中各像元对应的类别标签，剩余的像元(X/D)称作低置信度分类样本，进行基于核化稀疏表示的二次分类。其中σ为控制参数，σ≥2，符号“∪”表示集合并运算，“/”表示集合减运算(本发明中可以取值σ＝7)。

第四步：输出高置信度样本的分类结果，低置信度样本进行基于核化稀疏表示的二次分类。

步骤S6：基于核化稀疏表示二次分类，即由类属子字典对低置信度光谱像元样本进行核化稀疏表示，通过最小类别重建误差确定低置信度光谱像元样本的类别标签，即对低置信度像元样本进行核化稀疏表示二次分类的步骤如下：

第一步：计算核稀疏表示系数，对低置信度样本集合X/D取出一个像元x，计算其稀疏表示系数，

其中

表示2-范数，||·||₁表示1-范数，Φ(x)为核化后的光谱像元x，Φ(D)＝[Φ(d₁),Φ(d₂),...,Φ(d_r)]为核化后的字典，α为x的稀疏表示系数，λ为正则化参数，Φ为核函数。用交替方向乘子法进行求解，得到对应该像元x的稀疏表示系数α(本发明中可以取值λ＝10-⁴)。

第二步：由最小类别重建误差判别样本x的类别标签，其准则，

其中函数δ_k(·)表示从α中挑选出对应的第k类的元素，依次对m个类别求残差，把像元x划归为最小残差对应的类别，其中m为类别数，k为类别索引k∈{1,2,...,m}，class(x)表示x的分类结果。

第三步：在集合X/D中取出下一像元，继续执行第一步和第二步，当集合X/D的所有像元取完，循环结束；

第四步：输出X/D中各像元的分类结果。

本发明的效果可通过以下仿真实验进一步说明：

输入一幅高光谱图像X₀∈R^W×H×B，以图3所示图像宽度W＝86，图像高度H＝83，图像的波段数B＝204的Salinas-A数据集为实验用例，将其原始高光谱图像X₀∈R^86×83×204按照逐像元光谱向量排列形成光谱-像元二维矩阵X∈R²⁰⁴×7138，其像元数N＝7138，类别个数_m＝8。

1、仿真条件

Salinas-A数据集是Salinas图像的子集，为AVIRIS遥感收集的加利福尼亚Salinas山谷数据。去除了20个水吸收波段(108-112，154-167，224)，最终剩余总计204个光谱段，图像的空间大小为86×83。软件环境为Win7下安装的MATLAB R2014a，电脑机器配置为Inter(R)Xeon CPUE5-2683，2GHz，64.0GB RAM。

本发明采用的评价指标是聚类精度的评价方法(ACC，Calculation method ofclustering accuracy)。

2、仿真内容

本发明采用真实高光谱数据集检验算法的聚类性能。为测试本发明算法的性能，将粗分类即联合聚类算法(Co clustering)分类结果与传统聚类算法对比。对比方法包括：K均值，谱聚类(SC)；在粗分类结果基础上，基于置信度构造类属字典，即选取高置信度分类样本作为字典，剩余的低置信度分类样本进行基于核化稀疏表示的二次分类。

3、仿真实验结果分析

表1为高光谱数据Salinas-A在不同聚类算法下的分类结果，是数据集Salinas-A分别在K均值、谱聚类(SC)、粗分类、本发明分类方法四种方法的分类准确率。图4中的(b)、(c)、(d)、(e)分别为Salinas-A数据集在K均值、谱聚类、粗分类、本发明最终分类结果四种算法下的聚类效果图。可以看出图4的(d)粗分类的联合聚类算法要比图的(b)传统的K均值和图4的(c)谱聚类算法的分类结果都要好；同时，基于粗分类结果得到的类别标签进行高置信度字典的构造，对低置信度分类样本进行基于核化稀疏表示的二次分类，并把粗分类中的高置信度类别标签与基于核化稀疏表示的二次分类结果中的低置信度分类样本类别标签合并，即最终各像元的类别标签，与基准分类图4的(a)对比，计算分类准确率。本发明克服了直接利用全部光谱数据构造字典所带来的分类子空间刻画精度不足和字典学习的计算复杂度过高的问题，提高了字典子空间鉴别性，降低了误分类错误率。

表1

Dataset	K均值	谱聚类(SC)	粗分类	本发明最终分类结果
					Salinas-A	67.66±4.20	69.29±0.02	76.84±6.27	79.79±6.30

Claims

1.一种基于置信度构造类属字典的高光谱无监督分类方法，其特征在于步骤如下：

步骤S2：行和列规范化处理，得到规范化光谱-像元矩阵；

步骤S4：粗分类，即利用K均值方法对特征向量矩阵进行分类，得到各光谱像元的粗分类结果，即把Z中每一行看作待分类的各样本，对特征向量矩阵Z粗分类，得到B+N个类别标签，前B个为二维光谱-像元行对应的类别标签，后N个为列对应的类别标签，即N个像元对应的类别标签；此步粗分类得到类别集合C₁,C₂,...,C_m为粗分类结果，其中m≥2为指定类别数，B为高光谱图像的波段数，N为高光谱图像的像元数；

步骤S6：基于核化稀疏表示二次分类，即由类属子字典对低置信度光谱像元样本进行核化稀疏表示，通过最小类别重建误差确定低置信度光谱像元样本的类别标签；

所述步骤S5中的置信度构造类属字典的方法如下：

第一步，计算各类别均值向量：对类C_k中所有像元样本求均值向量

且

n_k为类C_k中像元个数，k＝1,2,...,m；

第二步，每类中各像元与均值向量求欧氏距离：如第k类中像元

与μ_k作光谱维上的欧氏距离运算

第三步，选取高置信度分类样本作为字典：将类别C_k中各像元与类别中心的欧式距离值作升序排列，选取前

个最小距离值对应的像元集合，作为类别C_k的子字典，记为D_k；依次对m个类别做上述操作，合并各类别子字典为字典D，即

对粗分类结果的各像元类别标签，提取字典中各像元对应的类别标签，剩余的像元(X/D)称作低置信度分类样本，进行基于核化稀疏表示的二次分类，其中σ为控制参数，符号“∪”表示集合并运算，“/”表示集合减运算；

第四步，输出高置信度样本的分类结果，低置信度样本进行基于核化稀疏表示的二次分类。

2.根据权利要求1所述的方法，其特征在于步骤S1中二维光谱-像元矩阵构造方法如下：

输入一幅高光谱图像X₀∈R^W×H×B，构造此高光谱图像的二维光谱-像元矩阵，即对高光谱图像X₀按照逐像元光谱向量排列形成光谱-像元二维矩阵X∈R^B×N，且X＝[x₁,x₂,…,x_N]，其中x_i∈R^B表示X中第i个像元，i＝1,2,...,N，且x_i＝[x_i1,x_i2,...,x_iB]^T，其中x_ij∈R表示像元x_i中第j维的光谱值，j＝1,2,...,B，其中N＝W×H表示像元数，“T”为矩阵的转置符号，W和H分别表示空间维的宽度和长度，B表示波段数。

3.根据权利要求1所述的方法，其特征在于步骤S2中的行和列的规范化处理的步骤如下：

第一步，各行信息求和构造对角矩阵M₁∈R^B×B，即