CN112434628A

CN112434628A - 基于主动学习和协同表示的小样本极化sar图像分类方法

Info

Publication number: CN112434628A
Application number: CN202011380429.XA
Authority: CN
Inventors: 金海燕; 许炜楠; 石俊飞
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-02
Anticipated expiration: 2040-11-30
Also published as: CN112434628B

Abstract

基于主动学习和协同表示的小样本极化SAR图像分类方法，输入待分类的极化SAR图像，首先对图像进行滤波处理，然后对处理后的图像进行数据增强，根据当前带有标签的像素对CNN进行训练并学习高层语义特征，然后进行主动选择以请求新的注释来标记样本，这些注释将作为下一次迭代的CNN重新训练的输入；根据SVM在步骤5中生成的特征集进行组合，然后来协同训练分类器，将分类器预测出来的概率进行整合，然后挑选出不可信的样本进行删除，再继续从U’中挑选出可信度高的样本进行标注加入到集合X’中，然后将它输入到CNN网络模型上继续进行训练，将CNN训练好的模型的分类概率输出到建立在PolSAR的图像上，得到最终的分类结果。

Description

基于主动学习和协同表示的小样本极化SAR图像分类方法

技术领域

本发明属于图像处理和遥感技术领域，涉及一种基于主动学习和协同表示的小样本极化SAR图像分类方法。

背景技术

极化合成孔径雷达(Polarimetric synthetic aperture radar，PolSAR)地形分类是PolSAR图像解译的关键。PolSAR可以通过对发射和接收的电磁波进行若干种不同极化方式的组合，来获得更为丰富的目标信息。相对于SAR图像，PolSAR数据包含更多的通道和更为全面的目标信息，能描述的物体特征也就更为复杂多样。因此引起了众多研究人员的关注。传统的极化SAR图像分类方法主要包括Cloude等人提出的H/α分解法，Freeman分解法，Cameron分解法等等；另外，一些研究者根据极化SAR数据来设计出用于分类的统计分布方法，如满足复Wishart分布的最大似然分类器；此外，根据PolSAR的散射机制，Lee提出了通过结合H/α目标分解和复Wishart统计分布算法，使得PolSAR图像能够得到更好的分类结果。

近年来，深度学习已被广泛应用于遥感图像分类。一些典型的深度学习方法包括卷积神经网络(CNN)，深度神经网络(DNN)和深度信念网络(DBN)等等。然而，这些方法的成功取决于大量标注数据的可访问性。众所周知，对于大规模的PolSAR数据集进行注释是非常耗时的，加上训练样本的可用性有限，这也是极化SAR图像分类的一个挑战。

上述的极化SAR分类算法具有良好的性能，但是PolSAR地物分类仍然存在很多挑战：(1)标签噪声是引起分类错误的主要因素之一。(2)对PolSAR数据进行注释不仅费时费力，还需要特定领域的知识和技能，这使得PolSAR图像的类别标签十分难以获得。(3)PolSAR图像中包含多种地形类型，用单一的特征很难对所有的地形类型进行很好的分类。多种特征可以从不同的角度对极化SAR图像进行描述，近年来随着研究人员的努力，人们设计了许多有效的方法来探索如何将多个特征结合起来，但是没有一个共同的特征描述符对所有类都具有相同的鉴别能力，如何结合这些特征来提高分类精度一直是PolSAR图像分类的一个难点。

综上所述，现有的极化SAR图像分类方法仍有一些不足之处，不仅获取标签非常困难、昂贵，而且由于不同特征之间的不相容性，难以将极化SAR图像的多种特征数据进行很好的融合来进行有效的极化SAR地物目标分类。你

发明内容

本发明的目的是提供一种基于主动学习和协同表示的小样本极化SAR图像分类方法，能够进一步地提高对极化SAR图像的分类。

本发明所采用的技术方案是，基于主动学习和协同表示的小样本极化SAR图像分类方法，包括以下步骤：

步骤1，输入待分类的极化SAR图像，对极化SAR图像进行预处理；

步骤2：根据步骤1处理后的样本作为初始训练样本集D，从训练样本集D中随机选取部分样本进行标记，将选好的标记样本数据集记为X，同时选取大量的未标记样本为无标签数据集U。

步骤3：然后根据步骤2中当前注释的像素对样本进行数据增强，然后利用卷积神经网络(Convolutional Neural Network，CNN)进行训练并学习其高层语义特征，得到图像的特征信息以及空间信息。

步骤4：将步骤3学习到的高层语义特征的训练集输入到softmax分类器进行分类；对于PolSAR图像分类任务，为了提高分类精度，选择EBQ技术作为查询条件，使用信息熵H(x_i)来记录未标记样本的不确定性；在每次迭代中，利用主动学习首先从未标记的候选样本集U’中进行注释，然后添加新的注释后使用更新的样本集X’利用CNN重新进行训练。

步骤5：在步骤4更新后的数据集X’上分别利用Pauli分解、Krogager分解、Huyen分解、Yamaguchi分解方法提取出PolSAR图像4种不同类型的极化特征并得到特征集；

步骤6：根据步骤5生成的4种特征集进行两两组合，利用SVM来协同训练分类器{D1，D2，D3，D4，D5，D6}，得到若干SVM分类器；

步骤7：将每个SVM分类器再分别对U中未预测的样本U’继续进行预测，将预测出来的分类概率进行整合，然后挑选出不可信的样本进行删除，再继续从U’中挑选出可信度高的样本加入到集合X’中，然后将它输入到CNN网络模型上继续进行训练，保存训练好的网络参数模型，通过网络中最后一层softmax层对全连接层输出的特征进行归一化，然后计算每类地物的后验概率得到最后的分类结果，并以此来得到整副PolSAR图像的分类结果。

步骤1中的预处理是Lee滤波处理。

步骤3的具体步骤为：

首先对步骤2中当前注释的像素进行水平翻转、垂直翻转和顺时针旋转等空间变换来实现数据增强，然后利用卷积神经网络对当前带有标签的像素进行训练并学习高层语义特征，包括PolSAR图像的特征信息以及空间信息；通过CNN自动从高维图像数据中提取特征向量，原始图像数据的维数大大减小，并且提取了最有用的分类信息。

步骤4具体为：

对于PolSAR图像分类任务，主动学习是一个迭代交互式的过程；从使用有限数量的带注释样本训练的原始分类器开始；在每次迭代中，主动学习首先从未标记的候选样本集U进行注释，然后在添加新的注释后使用更新的样本集X’利用CNN对分类器进行重新训练；选择EBQ技术作为查询条件，使用信息熵H(x_i)来记录未标记样本的不确定性；

步骤4.1：EBQ算法首先从初始训练集中以装袋的方法选取m个训练集，然后使用这m个训练集分别训练出m个分类模型，这些模型构成委员会，

步骤4.2：使用委员会中的分类器对未标记样本集中的每一个样本进行预测，并对每一个样本根据预测类别贴上标签，因此，每一个样本就拥有K个标签，

步骤4.3：EBQ利用这些标签来计算样本的熵值，其中EBQ查询函数定义为：

投票熵定义为：

其中

表示样本X_i被m个训练模型预测为类别ω的概率，即样本X_i的预测标签为ω的得票数/m。N_i是类别总数。

步骤4.4：得到样本的熵值后，由BVSB准则来衡量样本的不确定性，在这个准则中，只考虑属于该样本最大和次大的两个类别，而忽略该样本属于其他类别，将不确定性大的样本看作是价值大的样本；该准则表示为：

其中，X_i为样本，P(y_Best|X_i)为样本的最优类别概率，P(y_second|x_i)为样本的次优类别概率。

在主动学习的迭代中，如果委员会中所有分类器对样本所属类别的预测一致时，H(X_i)为0，表示将此样本加入训练集几乎不能对模型的改善提供帮助，而当委员会分类器对样本标签的预测分期越大时，H(X_i)也就越大，那么该样本提供的信息量就越大，因此可以帮助改善模型；BVSB准则只考虑分类结果中可能性最大的两个，忽略了其他可能性较低的类别概率，更能直接地来度量对所估计样本的不确定性。

步骤5具体为：

步骤5.1：利用Pauli分解在极化SAR图像得到特征集合F1；

Pauli分解将散射矩阵[S]表示为Pauli基{[Sa],[Sb],[Sc],[Sd]}的复数形式的加权和，在正交线性基(H，V)下，Pauli基用下面的2*2矩阵表示：

Pauli分解可以看成是四种散射机制的相干分解，其物理解释可查阅在正交线性基(H，V)下Pauli分解的物理解释；

步骤5.2：利用Krogager分解在极化SAR图像得到特征集合F2；

Krogager分解是将一个对称的散射矩阵[S]分解为三个相干分量球(Sphere)、二面角(Diplane)和螺旋体(Helix)散射之和，最后两个分量带有一个方位角θ，这种分解又简称为SDH分解，如果在线性正交基(H，V)下考虑散射矩阵[S]，那么SDH分解可表示如下：

参数

表示球分量相对于二面角分量和螺旋体分量的偏移量，k_s，k_d，k_h分别表示球、二面角、螺旋体散射分量对散射矩阵[S]的贡献大小。

步骤5.3：利用Huyen分解在极化SAR图像得到特征集合F3；

根据Huynen分解理论，Huynen分解是针对T矩阵的特征分解，对于分布式目标的统计描述形式＜[T₃]＞进行参数化，经过处理后的相干矩阵可以用9个自由度的是实参数表示：

这里A₀，B₀，C,D,E,F,G,H都称为Huynen参数，这9个独立的参数每一个都含有一定的目标散射信息，具体含义可查阅Huynen参数表；这些参数都是从散射矩阵[S]中得到的，由散射矩阵可以得到与目标相关的重要信息。

步骤5.4：利用Yamaguchi分解在极化SAR图像得到特征集合F4。

Yamaguchi分解是一种为极化协方差/相干矩阵建立四种散射机制的模型，除了面散射、二次散射和体散射分量外，还加上螺旋散射项Helix分量。假设体散射、二次散射、表面散射和螺旋体散射成分之间互不相关，Yamaguchi分解是将测量得到的协方差矩阵表示为：

＜[C]＞＝f_s＜[c]＞_s+f_d＜[c]＞_d+f_v＜[c]＞_v+f_h＜[c]＞_h (6)

其中，复系数f_s、f_d、f_v、f_h分别表示对应表面散射、二次散射、体散射、螺旋体对协方差矩阵的贡献。P_s、P_d、P_v、P_h分别是表面散射、二次散射、体散射、螺旋体散射对应的散射功率，散射功率以及总功率分别为：

P_s＝f_s(1+|β|²),P_d＝f_d(1+|α|²),P_v＝f_v,P_h＝f_h (7)

Span＝P_t＝P_s+P_d+P_v+P_h＝＜|S_HH|²+2|S_HV|²+|S_VV|²＞ (8)

步骤6具体为：

由于单组特征不能很好的反映出地物类型的特征，所以分类器的效果较差，对步骤5生成的4种特征集任选两组特征进行组合，利用SVM来协同训练分类器{D1，D2，D3，D4，D5，D6}，共训练出6个有差异性的分类器；

步骤7具体为：

将每个SVM分类器再分别对U中未预测的样本U’进行预测，将预测出来的分类概率进行整合，采用概率投票法来进行集成，然后挑选出不可信的样本进行删除，再继续从U’中挑选出可信度高的样本进行标注加入到集合X’中，然后将它输入到CNN网络模型上继续进行训练，保存训练好的网络参数模型，通过网络中最后一层softmax层对全连接层输出的特征进行归一化，然后计算每类地物的后验概率得到最后的分类结果。其中，全连接层将权重矩阵与输入向量相乘再加上偏置，将n个(-∞,+∞)的实数映射为K个(-∞,+∞)的实数(分数)；Softmax将K个(-∞,+∞)的实数映射为K个(0，1)的实数)概率，同时保证它们之和为1。具体如下：

其中，x为全连接层的输入，W_n×K为权重，b为偏置项，

为Softmax输出的概率，Softmax的计算方式如下：

若拆成每个类别的概率如下：

其中，w_j为全连接层同一颜色权重组成的向量，由此以上来得到整幅PolSAR图像的分类结果。

本发明的有益效果是，基于基于主动学习和协同表示的小样本极化SAR图像分类方法，首先通过主动学习很大程度上选择了具有最大信息和最高效率训练的样本；其次通过提取极化SAR图像的多种特征利用SVM分类器进行协同训练，由于综合利用了各类目标分解方法获得的特征，通过多个分类器进行协同学习，能够更加全面地反映出地物目标的类型；将每个SVM分类器预测出来的分类概率进行集成学习，通过概率投票法继续删除和标注样本，将一些不可信的样本删除，再选出可信度高的样本继续进行训练，通过两次的样本选择和标注，使得样本的准确性大幅提高，也避免了对无价值样本的多余的或是不必要的注释，大大提高了工作效率，同时也降低了标注成本。

附图说明

图1是本发明基于主动学习和协同表示的小样本极化SAR图像分类方法的总体流程图；

图2是本发明基于主动学习和协同表示的小样本极化SAR图像分类方法对于极化SAR图像进行特征提取的流程图；

图3是本发明基于主动学习和协同表示的小样本极化SAR图像分类方法实施例中的荷兰Flevoland地区极化SAR图像；

图4是本发明基于主动学习和协同表示的小样本极化SAR图像分类方法极化SAR图像的Ground Truth。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，基于主动学习和协同表示的小样本极化SAR图像分类方法，包括以下步骤：

步骤1，输入待分类的极化SAR图像，对极化SAR图像进行预处理(Lee滤波处理等)；

步骤4：将步骤3学习到的高层语义特征的训练集输入到softmax分类器进行分类。对于PolSAR图像分类任务，为了提高分类精度，本发明提出了一种基于BVSB准则的主动学习样本选择方法，其中选择EBQ技术作为查询条件，使用信息熵H(x_i)来记录未标记样本的不确定性。在每次迭代中，利用主动学习首先从未标记的候选样本集U中进行注释，然后添加新的注释后使用更新的样本集U’利用CNN重新进行训练。

步骤5：在步骤4更新后的数据集U’上分别利用Pauli分解、Krogager分解、Huyen分解、Yamaguchi等分解方法提取出PolSAR图像4种不同类型的极化特征并得到特征集；

步骤6：根据步骤5生成的4种特征集进行两两组合，利用SVM来协同训练分类器{D1，D2，D3，D4，D5，D6}；

步骤3的具体步骤为：

首先对步骤2中当前注释的像素进行水平翻转、垂直翻转和顺时针旋转等空间变换来实现数据增强，然后利用卷积神经网络(Convolutional Neural Network，CNN)对当前带有标签的像素进行训练并学习高层语义特征，包括PolSAR图像的特征信息以及空间信息。通过CNN自动从高维图像数据中提取特征向量，原始图像数据的维数大大减小，并且提取了最有用的分类信息。

步骤4的具体步骤为：

对于PolSAR图像分类任务，主动学习是一个迭代交互式的过程。它通常从使用非常有限数量的带注释样本训练的原始分类器开始。在每次迭代中，主动学习首先从未标记的候选样本集U’中进行注释，然后在添加新的注释后使用更新的样本集X’利用CNN对分类器进行重新训练。本发明提出了一种基于BVSB准则的主动学习样本选择方法，其中选择EBQ技术作为查询条件，使用信息熵H(x_i)来记录未标记样本的不确定性。

步骤4.1：EBQ算法首先从初始训练集中以装袋的方法选取m个训练集，然后使用这m个训练集分别训练出m个分类模型，这些模型构成委员会。

步骤4.2：使用委员会中的分类器对未标记样本集中的每一个样本进行预测，并对每一个样本根据预测类别贴上标签，因此，每一个样本就拥有K个标签。

投票熵定义为：

其中

步骤4.4：得到样本的熵值后，由BVSB准则来衡量样本的不确定性，在这个准则中，只考虑属于该样本最大和次大的两个类别，而忽略该样本属于其他类别，将不确定性大的样本看作是价值大的样本。该准则表示为：

在主动学习的迭代中，如果委员会中所有分类器对样本所属类别的预测一致时，H(X_i)为0，表示将此样本加入训练集几乎不能对模型的改善提供帮助，而当委员会分类器对样本标签的预测分期越大时，H(X_i)也就越大，那么该样本提供的信息量就越大，因此可以帮助改善模型。而BVSB准则只考虑分类结果中可能性最大的两个，忽略了其他可能性较低的类别概率，更能直接地来度量对所估计样本的不确定性。

步骤5的具体步骤为：

步骤5.1：利用Pauli分解在极化SAR图像得到特征集合F1；

Pauli分解可以看成是四种散射机制的相干分解，其物理解释如表5.1所示：

表5.1在正交线性基(H，V)下Pauli分解的物理解释

步骤5.2：利用Krogager分解在极化SAR图像得到特征集合F2；

参数

步骤5.3：利用Huyen分解在极化SAR图像得到特征集合F3；

这里A₀，B₀，C,D,E,F,G,H都称为Huynen参数，这9个独立的参数每一个都含有一定的目标散射信息，具体含义如表5.2所示：

表5.2Huynen参数

这些参数都是从散射矩阵[S]中得到的，由散射矩阵可以得到与目标相关的重要信息。

步骤5.4：利用Yamaguchi分解在极化SAR图像得到特征集合F4。

＜[C]＞＝f_s＜[c]＞_s+f_d＜[c]＞_d+f_v＜[c]＞_v+f_h＜[c]＞_h (6)

P_s＝f_s(1+|β|²),P_d＝f_d(1+|α|²),P_v＝f_v,P_h＝f_h (7)

Span＝P_t＝P_s+P_d+P_v+P_h＝＜|S_HH|²+2|S_HV|²+|S_VV|²＞ (8)

步骤6具体为：

步骤7具体为：

其中，x为全连接层的输入，W_n×K为权重，b为偏置项，

为Softmax输出的概率，Softmax的计算方式如下：

若拆成每个类别的概率如下：

实施例

本发明的实验数据是NASA/JPL实验室AIRSAR系统在L波段获得的关于荷兰Flevoland地区农田的全极化SAR图像，图像大小为300×270像素，其PauliRGB图像如图3所示，该图像对应的Ground truth如图4所示。本发明提供的PolSAR图像的部分特征分解方法具体步骤如下：

(1)输入原始的极化SAR图像；

(2)采用精致Lee滤波法使用3*3的滤波窗口来对极化SAR的T矩阵进行滤波处理；

(3)利用Pauli方法对上述步骤(2)获得的相干矩阵T进行分解，得到基本散射矩阵{[Sa],[Sb],[Sc],[Sd]}，来进一步确定地物的散射机制性质；

(4)利用Yamaguchi方法对上述步骤(2)获得的相干矩阵T进行分解，提取出表面散射功率P_s、二次散射功率P_d、体散射功率P_v和螺旋散射功率P_h，来进一步确定地物的散射机制性质；

(5)由步骤2、3得到特征值后，构造特征矢量来均衡各个分量对SVM分类器的影响；

(6)训练SVM来获得分类器的参数，对样本进行预测；

(7)将预测后的样本进行挑选，将可信度高的样本继续加入到已标记样本中，通过CNN进行分类，得到分类结果。

本发明的有益效果是，基于主动学习和协同表示的小样本极化SAR图像分类方法，首先通过主动学习很大程度上选择了具有最大信息和最高效率训练的样本；其次通过提取极化SAR图像的多种特征利用SVM分类器进行协同训练，由于综合利用了各类目标分解方法获得的特征，通过多个分类器进行协同学习，能够更加全面地反映出地物目标的类型；将每个SVM分类器预测出来的分类概率进行集成学习，通过概率投票法继续删除和标注样本，将一些不可信的样本删除，再选出可信度高的样本继续进行训练，通过两次的样本选择和标注，使得样本的准确性大幅提高，也避免了对无价值样本的多余的或是不必要的注释，大大提高了工作效率，同时也降低了标注成本。