CN112926397A - 基于两轮投票策略集成学习的sar图像海冰类型分类方法 - Google Patents
基于两轮投票策略集成学习的sar图像海冰类型分类方法 Download PDFInfo
- Publication number
- CN112926397A CN112926397A CN202110117101.7A CN202110117101A CN112926397A CN 112926397 A CN112926397 A CN 112926397A CN 202110117101 A CN202110117101 A CN 202110117101A CN 112926397 A CN112926397 A CN 112926397A
- Authority
- CN
- China
- Prior art keywords
- sea ice
- label
- pixel
- weight
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000010287 polarization Effects 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000003066 decision tree Methods 0.000 claims description 33
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000012706 support-vector machine Methods 0.000 claims description 16
- 230000002068 genetic effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 description 10
- 238000007636 ensemble learning method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000001210 attenuated total reflectance infrared spectroscopy Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000005457 ice water Substances 0.000 description 2
- 239000013535 sea water Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 101100423891 Caenorhabditis elegans qars-1 gene Proteins 0.000 description 1
- 241000207892 Convolvulus Species 0.000 description 1
- 244000170788 Persicaria vulgaris Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于两轮投票策略集成学习的SAR图像海冰类型分类方法,包括:对SAR海冰图像进行特征提取,得到优选纹理特征;采用原始极化特征和优选纹理特征融合形成的海冰特征图像,对基分类器进行选择训练和权重优化,得到类别得分矩阵和第一轮权重投票的分类结果;根据类别得分矩阵与预定义阈值参数将所有像素划分为模糊性标签像素集和确定性标签像素集,使用第一轮权重投票结果对确定性标签像素的分类结果进行确定;对模糊性标签像素进行第二轮权重投票纠正,完成初始集成分类结果中所有模糊性标签像素的更新,得到最终的海冰分类结果。采用本发明的技术方案,以解决现有海冰分类方法未能优化选取SAR图像海冰特征以及分类方法落后的问题。
Description
技术领域
本发明属于图像识别技术领域,尤其涉及一种基于两轮投票策略集成学习的SAR图像海冰类型分类方法。
背景技术
海冰是北极环境的重要组成部分,占全球海洋总面积的5%-8%,其反照率高,不仅影响海洋、大气的动力以及热力状况,而且还影响海水表面的水平衡和海气之间的热交换,在气候和海洋生态系统中扮演着极其重要的角色。海冰除了对海洋水文状况、大气环流和生态系统造成影响外,对北极地区的海冰航行、近海活动、海洋基础设施建设及资源勘探也有重要影响。已成为极地和高纬度地区最突出的海洋灾害之一。随着全球变暖的影响,极端气候越来越多,结冰期连续生产作业将成为不可回避的现实。因此,及时获得高分辨率的冰层覆盖信息,并以此为依据进行海冰分类及冰图绘制对海冰的监测与预报工作至关重要。
卫星遥感技术是最高效的海冰监测方式,具有大范围、实时性、可持续、低成本的优点。常用的遥感手段包括可见光/近红外遥感、热红外遥感、微波遥感等,三者各有优势和不足。北极地区气候较为恶劣,且存在极夜现象。微波遥感不仅在夜间也能成像,而且不受云层覆盖的影响,能够实现全天候、全天时的监测。利用星载合成孔径雷达(SyntheticAperture Radar,SAR)卫星,能够获取高分辨率、多极化的数据,进行海冰的提取、分类、边缘线提取和厚度反演等相关研究。
近十几年来,国内外发表了许多具有代表性的半自动化和自动化的SAR遥感图像海冰分类算法,并在实际中得到应用。许多模型已经被使用,包括简单的后向散射阈值法、聚类算法、专家系统、语义分割(IRGS)、机器学习(支持向量机、神经网络)和深度学习(CNN)。大部分的海冰分类算法主要由两部分组成:特征提取和分类算法。
(1)特征提取:Soh L K等利用ERS-1卫星获取的海冰SAR图像开展了基于灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)的纹理分析研究,获取适合海冰检测的参数值及纹理统计特征。Mazur A等采取基于对象的图像分析方法对波罗的海的海冰结冰程度和密集度进行研究,以标准偏差及逆差距为分类特征,区分海水和海冰,再以平均值为特征,区分海冰类型。张晰研究了GLCM相关参数对SAR海冰影像纹理特征的影响,得到适合辽东湾海冰检测的参数及纹理统计特征量。刘惠颖等利用我国的环境一号卫星S波段VV极化SAR数据,基于灰度信息、灰度共生矩阵纹理信息及平整冰密集度这三种信息特征,提出了针对单极化SAR数据的海冰分类新思路。孔毅等综合GLCM和小波特征,提出了融合空间域和频域的纹理特征的SAR海冰分类方法,解决了灰度共生矩阵方法无法克服的斑点分类不准确问题。
(2)分类算法:主要的分类方法有决策树、K-近邻法、支持向量机、人工神经网络、语义模型(IRGS)、多级融合网络(MLFN)等,其中前三种方法被大量使用。
现有的用于海冰分类的算法多种多样,其中决策树(Decision Tree,DT),K-近邻算法(K-Nearest Neighbor,KNN)以及支持向量机(Support Vector Machines,SVM)是较为经典的3种海冰分类方法。
现有方法介绍如下:
(1)决策树
决策树(Decision Tree,DT)的构成包括:ID3算法、C4.5算法和CART算法。决策树分类类似于if-then规则,根节点至所有叶节点均是一条决策规则,叶节点的类别是规则的结论。该分类算法的主要优势:一是模型可以依据样本特征对分类结果给出判别解释,二是分类速度快。DT分类的主要步骤:特征选择、决策树生成和决策树剪枝。
DT算法的本质是从训练数据中归纳出多个分类规则,目标是训练一个与训练集误差较小,同时模型有具有较强的泛化能力。即在保证不过拟合的前提下提高测试集的分类精度。DT的训练是一个递归的过程,首先根据最大信息增益熵获取出最优分割属性,然后根据该属性对数据切分,使得子数据集有唯一最优分类。特征选择体现了属性空间的划分,决策树的生成对应着模型的局部选择,决策树的修剪对应模型的全局选择。
对于特征选择的问题,使用信息熵增益来确定划分的特征空间。信息增益如式(1):
g(Y,X)=H(Y)-H(Y|X)
g(Y,X)表示类别Y的不确定性受特征X的影响而减小的程度。若某一个特征X*的信息增益最大,就将X*作为划分样本的特征。ID3算法与C4.5算法的区别是分割属性的选择标准不同,在ID3算法中使用信息增益,而在C4.5算法中使用信息增益比。
决策树的剪枝,决策树的损失函数如式(2):
Cα(T)=C(T)+α|T|,α≥0 (2)
C(T)表示模型对训练集的误差,|T|表示分类器的复杂度,参数α控制二者之间的作用,损失函数正好控制了二者的平衡。
CART算法,特征的选择依据是基尼系数。基尼系数的公式如式(3):
Ni表示第i类的样本数,|D|表示总的样本数,C为类别数。
假设样本数据集的特征A(x)的取值是否大于a被分割为D1和D2两部分,
D1={(x,y)∈D|A(x)>a},D2=D-D1 (4)
则在特征A的条件下,集合D的基尼系数表达式:
基尼系数的表示方式,计算量更小,基尼系数与熵都能够反应根据某一特征分类后样本的不确定性。在进行遥感图像分类时,决策树算法易出现过拟合现象。除此之外,决策树算法处理特征关联性比较强的数据时算法性能较差。
(2)K-近邻算法
K-近邻(K-Nearest Neighbor,KNN)是一种基本的分类方法。所谓K-近邻,即待分类样本的类别用最接近的(通常使用距离最短表示最接近)K个已知样本所属的类别来代表。在K个最近元素中,使用多数样本类别表示该类别。
KNN算法中默认所有选择的邻居都是已经正确分类的对象,属于懒惰学习,即KNN没有显式的学习过程。在SAR中使用KNN算法模型,需要解决三个问题:K值的选择、样本空间距离的计算和搜索最近邻的算法。选择一个最佳的K值取决于数据本身。通常,K的最大取值小于训练数据量的开根号。在分类时较大的K能够减小噪声的影响,但会使类别之间的边界更模糊。因此,K的取值一般小于20。对于不同的K值,待判别样本属于不同的类别,这也是KNN算法的一种缺陷。
样本空间的距离计算方法,可以是几何空间距离,也可以是光谱空间得到的光谱距离。光谱向量x和y的MinKowsKi距离计算如式(6)所示:
B代表将要进行分类的SAR特征图像波段数量。当p取1时,计算得到的是曼哈顿距离(Manhattan Distance)。当p取2时,计算得到的是欧拉距离(Euclidean Distance)。
(3)支持向量机
支持向量机是一种二分类模型,是一种有监督的统计学习方法,它的学习策略就是最小化经验误差和最大化几何边缘,使得特征空间上的间隔最大化,可形式化一个求解二次规划(convex quadratic programming)。式(7)中w表示权重系数,是ξi松弛变量,C表示惩罚参数。
当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时,核函数(kernelfunction)表示将输入从输入空间映射到高维空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机,等价于隐式的在高维的特征空间中学习线性支持向量机。支持向量是训练SVM过程中获得的在分类超平面上的点,SVM的决策函数是由少数几个支持向量来决定的,它的计算复杂度取决于支持向量的数目,而不是样本空间的维数,避免了维数灾难。同时,这样还可以抓住关键样本,“剔除”大量冗余样本,使得该方法不但运算简单,而且具有较好的鲁棒性。然而,对核函数的选择以及参数调节较为敏感是支持向量机算法的主要缺点。
在现有的合成孔径雷达(SAR)极地海冰分类算法中,大部分模型都能够在冰水分类中取得优异的效果,然而冰水分类结果远远无法满足船舶航行、资源勘探以及近海活动等要求,海冰类型的进一步识别是及其必要的。近十年来,已经公开发表了大量的算法应用于海冰类型识别中,并取得了不错的效果。但是,由于遥感图像的固有特性,没有一种分类方法能够始终保持良好的分类性能。虽然现存分类方法可以提高海冰分类精度,但这些分类算法都依赖于单一分类器,并没有通过相应的集成策略来结合不同分类器的优点。
发明内容
本发明要解决的技术问题是,提供一种基于两轮投票策略集成学习的SAR图像海冰类型分类方法,以解决现有海冰分类算法未能优化选取SAR图像海冰特征以及分类方法落后的问题。
为实现上述目的,本发明采用如下的技术方案:
一种基于两轮投票策略集成学习的SAR图像海冰类型分类方法,包括以下步骤:
步骤1、对获取的SAR海冰图像进行特征提取,得到优选纹理特征;
步骤2、采用原始极化特征和所述优选纹理特征融合形成的海冰特征图像,对基分类器进行选择训练和权重优化,得到类别得分矩阵以及第一轮权重投票的分类结果;
步骤3、根据所述类别得分矩阵与预定义阈值参数将所有像素划分为模糊性标签像素集和确定性标签像素集,使用所述第一轮权重投票结果对确定性标签像素的分类结果进行确定;
步骤4、对所述模糊性标签像素进行第二轮权重投票纠正,完成初始集成分类结果中所有模糊性标签像素的更新,得到最终的海冰分类结果。
本发明在集成学习的基础上提出基于两轮权重投票策略的海冰分类学习方法,将集成学习引入海冰类型识别中,并对其加以改进以满足极地海冰场景的应用需求,本发明不仅仅使用了遗传算法优化了传统集成学习中基分类器权重确定的问题,而且进一步引入了邻近度的概念,将一定范围自适应域内的像素邻近度作为权重对目标像素进行二轮投票,对可能错分的像素标签加以纠正,实现了高精度的海冰类型识别。基于极化Snetinel-1SAR海冰影像,利用本发明方法识别海冰类型,解决了传统海冰分类算法在不同海冰类型识别精度上的不均衡问题,并且本发明方法具有抑制SAR图像相干斑噪声的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明SAR图像海冰类型分类方法的流程框图;
图2为本发明基于两轮投票策略集成学习的SAR图像海冰类型分类方法的流程示意图;
图3为Sentinel-1提取的优选纹理特征,其中,图3(a)为优选特征1,图3(b)为优选特征2,图3(c)为优选特征3,图3(d)为优选特征4,图3(e)为优选特征5,图3(f)为优选特征6;
图4为Bagging集成学习策略并通过遗传算法优化权重的流程图;
图5为基分类器和不同集成学习方法的实验对比结果,其中,图5(a)为HH极化影像,图5(b)为HV极化影像,图5(c)为逻辑回归;图5(d)为集成学习(多数投票,MV);(e)为集成学习(整体分类精度作为权重,OA);图5(f)为集成学习(用户精度作为权重,PA);图5(g)为集成学习(遗传算法优化权重,GA);图5(h)为本发明方法(DW);
图6(a)为基分类器和不同集成学习方法的整体精度的对比图;
图6(b)为基分类器和不同集成学习方法的Kappa系数的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、2所示,本发明提供一种基于两轮投票策略集成学习的SAR图像海冰类型分类方法,包括以下步骤:
步骤1、对获取的SAR海冰图像进行特征提取,得到优选纹理特征
针对获取的原始Sentinel-1SAR影像(δHH,δHV,δHH/δHV)进行特征提取和特征选择处理。本步骤得到的纹理特征能够反映图像中同质现象,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性,其中,灰度共生矩阵是纹理特征的代表之一,灰度共生矩阵定义如公式(8)所示:
其中,fd,θ(i,j)表示在预定大小的滑动窗口下以灰度i为起点、以θ为方向、在步长为d时出现灰度j的概率,N表示图像灰度级数大小,所述方向θ要包括0°、45°、90°、135°四个方向。通过计算统计量来描述图像的纹理特征;本发明分别对原始Sentinel-1影像的三种极化方式(δHH,δHV,δHH/δHV)分别进行灰度共生矩阵特征的提取,在确定的参数下,每种极化方式有十种纹理特征统计量被计算:角二阶矩、对比度、异质性、能量、熵、相关性、均值、方差、同质性和最大值。本发明的灰度公式矩阵计算参数设计如下:窗口大小为5,步长为1;窗口大小为7,步长为1和3;窗口大小为9,步长为1和3;窗口大小为11,步长为1、3和5;灰度级数从256压缩至32;方向选择四个方向的均值作为计算结果;通过以上设计,得到240个初选纹理特征,即3种极化方式*8组参数*10种特征。
本发明使用随机森林方法来识别与海冰分类问题最相关的特征,并生成一个特征选择器。利用随机森林方法来对特征提取得到的240个初选纹理特征进行特征选择,从中选择对海冰分类精度影响最大的6种纹理特征,即优选纹理特征。其计算步骤如下:
步骤11、在240个纹理特征中选择训练样本集D,所选的训练随机抽取x个样本组成训练子集Dsub,一共进行w次采样,即生成w个训练子集Dsub;
步骤12、每个训练子集Dsub形成一棵决策树,形成了一共w棵决策树。而每一次未被抽到的样本则组成了w个用来做预测的OOB(袋外数据);
步骤13、使用每个训练子集Dsub训练的决策树对OOB(袋外数据)进行样本预测,可以得到所有决策树在OOB数据上的预测错误率,将其记为eerorOOB1;
步骤14、在OOB中所有样本的某一特征A上加入随机噪声,接着再次用OOB数据计算每一棵决策树预测错误率,记为eerorOOB2;
步骤15、假设随机森林中有Ntrees棵树,那么对于特征A的重要性采用式(9)来表示:
其中,φOOB表示OOB袋外样本集,即未被随机抽取到的样本;(xi,li)表示袋外样本集中的样本像素以及其对应的真实海冰类别标签;表示使用第v棵决策树在初始特征的基础上得到的预测样本标签;表示OOB样本中对特征A加入随机噪声后的预测样本标签;N[·]是统计函数,用来统计分类正确的样本数。
步骤16、对240种纹理特征依次重复步骤11-步骤15,得到每种纹理特征重要性计算并对其进行排序,获得了对海冰分类精度影响最大的六种纹理特征,即优选纹理特征。
上述步骤的原理是:当在特征A上增加了噪声,那么就有理由相信错误率eerorOOB2要大于eerorOOB1,越大说明特征A重要。表1显示了纹理特征的优选结果,排名第一的优选特征是使用7×7的窗口大小、步长为3的参数对HV极化方式(δHV)的影像进行均值特征的提取。图3显示了优选纹理特征的提取结果。
表1:
步骤2、采用原始极化特征和所述优选纹理特征融合形成的海冰特征图像,对基分类器进行选择训练和权重优化,得到类别得分矩阵以及第一轮权重投票的分类结果
将原始极化特征(δHH,δHV,δHH/δHV)和获得的六种优选纹理特征进行融合形成具有九个波段的海冰特征图像,用于集成学习中的基分类器训练与遗传算法权重优化。在本发明方法中,基分类器包括:朴素贝叶斯(Bayes,NB),决策树(DecisionTree,DT),K近邻算法(K-Nearest Neighbor,KNN),逻辑回归(Logistic Regression,LR),人工神经网络(Artificial Neural Network,ANN)以及支持向量机(Support Vector Machines,SVM)。
利用合适的训练样本对这六种分类器进行训练,分类器相应的参数设置采用了网格寻优法确定,不同分类器的参数设置如表2所示。
表2:
采用Bagging集成策略对基分类器进行训练并集成,并使用遗传算法(GeneticAlgorithm,GA)进行各基分类器的权重优化。图4显示Bagging集成学习策略对基分类器的集成并通过遗传算法优化权重的流程图,使用遗传算法对六种基分类器权重优化,包括如下:
步骤301、在海冰特征图像上选择不同海冰类型样本,建立原始样本集;并从原始样本集中抽取训练样本集,每轮从训练样本集中使用Bootstraping方法随机抽取预设定量的训练样本建立样本子集。共进行六轮抽取,得到六个样本子集(六个样本子集之间是相互独立的);
步骤302、使用六个样本子集分别对上述的六种基分类器进行训练,不同分类器相应的参数设置采用了网格寻优法进行确定;
步骤304、对输入的权重进行相应的编码,将其从十进制数字转化为二进制字符串;
步骤305、将分类精度设为适应度函数,计算每组权重与其相应的分类器分类结果进行权重投票,得到初始的分类结果;
步骤306、对初始的分类结果进行分类精度的计算,得到当前这个权重的适应度值。依次得到50组不同分类器权重的适应度值;
步骤307、遵照适应度越高,选择概率越大的原则,从50组权重中随机、多次选择两组适应度较大的权重作为父方和母方,将这两组的权重字符串随机相互交换其部分字符,从而形成两组新的权重,实现交叉操作;
步骤308、对交叉操作结束后的权重字符串中的某一位或某几位字符进行随机改变,形成新的权重,实现遗传算法中的权重进化;
步骤309、将交叉和进化结束后的权重输入到步骤306中计算新的适应度;
步骤310、重复进行步骤3055-步骤309,直至适应度不再进行增加,终止迭代,输出50组权重中适应度最大的权重作为最优权重;
步骤311、将最优权重与不同分类器对海冰分类的标签进行点乘操作,统计每个像素点隶属于不同海冰类别的概率值,得到类别得分矩阵S;
步骤312、对类别得分矩阵S输入至argmax函数,得到每个像素最大得分的索引值,即为第一轮权重投票的分类结果Initial_Label。
步骤3、根据所述类别得分矩阵与预定义阈值参数将所有像素划分为模糊性标签像素集和确定性标签像素集,使用所述第一轮权重投票结果对确定性标签像素的分类结果进行确定
模糊性标签像素集和确定性标签像素集的定义如式(10)所示:
其中,Pixeli,j和Si,j分别表示SAR影像坐标为(i,j)的像素及该像素对应的类别得分矩阵,k表示分类类别数目(即海冰类型数)。公式(10)的含义是,当坐标为(i,j)的像素具有最大分数的标签和次大分数的标签之间的分数差小于预设阈值时,那么该像素就被定义为模糊性标签像素;反之,即为确定性标签像素。
由此,确定性标签像素的标签Labeli,j将由第一轮权重投票结果Initial_Labeli,j决定:
而模糊性像素的标签将被进一步处理加以纠正。
步骤4、对所述模糊性标签像素进行第二轮权重投票纠正,完成初始集成分类结果中所有模糊性标签像素的更新,得到最终的海冰分类结果
由于传统的集成学习的权重投票策略的固有问题,导致可能会有像素分类存在模糊标签的现象,即某一像素在不同类别上的得分相似乃至相等,本发明将其定义为模糊性标签像素。模糊性标签像素则需要使用第二轮权重投票对其进一步处理。由地理学第一定律可知地物之间的相关性与距离有关。因此,第二轮权重投票采用模糊性标签像素自适应领域中确定性标签像素与中心像素之间的邻近度来对像素标签进行纠正。
模糊性标签像素周围自适应区域的构造是基于自适应域邻近度权重投票的关键。利用自适应区域技术考虑邻近度信息对模糊像素标签进行更新,可以使得初始集成分类结果的精度得到提高。由于海冰是一种自然特征,它不同于常规的人工特征(即不同规则形状的建筑物、具有多样化形状的草地或纵横交错的交通设施等),海冰分类不需要考虑上下文信息构建不规则自适应区域。因此本算法采用滑动窗口技术建立自适应区域,通过自适应域内部像素之间的邻近度对模糊像素标签进行更新,同时生成相应的掩膜文件,消除自适应域内其它的模糊标签像素对目标像素标签的影响,实现高精度海冰分类。
其中,w'i,j表示自适应域中坐标为(i,j)的像素依据特征邻近度计算所得到的权重,var(·)为方差算子,cov(A,B)表示像素A和像素B之间的协方差。该权重反映了中心像素与其它像素在相应的自适应区域内接近时相似度增加的期望,在使用权重之前要对它们进行归一化。
模糊性像素标签(即自适应域内中心像素)通过式(13)得以更新:
式(13)中:
其中,C表示自适应域内中心像素标签;K表示分类类别总数;Mmask表示掩膜矩阵,该矩阵由模糊性标签像素和确定性标签像素决定;w'表示自适应域P经过式(12)计算的每个像素与中心像素的权重矩阵;sl表示在自适应域P的中心像素所属类别为l的总体分数。
根据集合{s1,s2,...,sK}中得分最高的类标签来确定模糊标签像素的标签,完成初始集成分类结果中所有模糊性标签像素的更新,得到最终的海冰分类结果。海冰分类类别包括:开阔水域、灰冰、灰白冰以及一年冰四种。
本发明将集成学习模型引入到海冰分类领域中,并在传统的集成学习方法上对其进行了改进,建立了良好稳定的SAR图像海冰类型分类器,使其更适用于合成孔径雷达的海冰分类。本方法方法包括两轮权重确定策略,第一轮权重确定是基于遗传算法进行优化的,遗传算法能够将不同基分类器之间的权重组合达到一个最佳的状态;第二轮权重确定考虑了目标像素周围的邻近像素信息,这种权重确定策略的理论基础是基于地理学第一定律提出的,地理学第一定律指出地物之间的相关性与距离有关,一般来说,距离越近,地物间相关性越大;距离越远,地物间相异性越大。
利用拉普捷夫海域的Sentinel-1 SAR海冰数据对本发明方法和传统方法进行海冰分类效果的对比实验,证明了本发明方法的优越性,如图5所示(图5(a)-图6(h))。首先,本发明方法提取的海冰边缘轮廓非常完整和平滑。其次,传统的多数投票和加权投票方法虽然能在一定程度上去除噪声,但本发明方法在噪声抑制方面优于其它基分类器和投票方法。这种方法的优势可以归因于自适应的区域设置,它考虑了空间上下文信息,从而纠正了第一轮投票分类中类别标签错误的像素。在视觉对比方面,与基分类器、多数投票和其它加权投票方法相比,本发明方法具有最好的分类性能,并保持了海冰的边缘轮廓。
图6(a)、图6(b)显示基分类器和不同集成学习方法的整体精度和Kappa系数。从所有分类方法的分类指标来看,本发明不仅优于所有的基分类器,而且优于其它的集成学习方法。表3汇总了不同海域的Sentinel-1海冰影像在不同基分类器和集成学习方法的整体精度和Kappa系数对比,这进一步表明了本发明方法在性能方面优于其它方法,在整体精度和Kappa系数方面表现更好,与最佳的基分类器相比,整体精度提升了约0.02%-2.08%,Kappa系数提升了约0.02%-2.8%。实验结果表明,本发明方法得到的海冰分类图与判读样本具有较好的一致性,在海冰类型识别方面优于其它的基分类器和集成学习方法,总体分类精度为96±2%。
表3:
本发明在海冰类型分类中首次引入集成学习方法,并对其投票策略中存在的问题进行了改进,本发明方法不仅能够通过遗传算法实现集成学习中基分类器最优权重的确定,而且能够将第一轮集成学习所得到的分类结果中的错分像素标签进行纠正,从而提升海冰分类精度。利用Sentinel-1双极化北极地区海冰SAR影像验证本发明方法,实验结果表明本发明方法不仅能够对海冰类型进行高精度识别,且与其它现有海冰分类算法相比具有更好的抑噪性和鲁棒性。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,包括以下步骤:
步骤1、对获取的SAR海冰图像进行特征提取,得到优选纹理特征;
步骤2、采用原始极化特征和所述优选纹理特征融合形成的海冰特征图像,对基分类器进行选择训练和权重优化,得到类别得分矩阵以及第一轮权重投票的分类结果;
步骤3、根据所述类别得分矩阵与预定义阈值参数将所有像素划分为模糊性标签像素集和确定性标签像素集,使用所述第一轮权重投票结果对确定性标签像素的分类结果进行确定;
步骤4、对所述模糊性标签像素进行第二轮权重投票纠正,完成初始集成分类结果中所有模糊性标签像素的更新,得到最终的海冰分类结果。
2.如权利要求1所述的基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,步骤1具体包括:
基于灰度共生矩阵,对所述SAR海冰图像进行特征提取,得到得到240个初选纹理特征;
采用随机森林方法,对所述240个初选纹理特征进行特征选择,从中选择对海冰分类精度影响最大的6种纹理特征,即优选海冰图像纹理特征。
3.如权利要求2所述的基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,所述得到优选纹理特征包括:
步骤11、在240个纹理特征中选择训练样本集D,所述训练样本集中包含了N个样本,每个样本包含240个特征,从样本集D中随机抽取x个样本组成训练子集Dsub,共进行w次采样,即生成w个训练子集Dsub;
步骤12、每个训练子集Dsub形成一棵决策树,形成了w棵决策树,而每一次未被抽到的样本则组成了w个用来做预测的OOB;
步骤13、使用每个训练子集Dsub训练的决策树对OOB进行样本预测,得到所有决策树在OOB数据上的预测错误率,将其记为eerorOOB1;
步骤14、在OOB中所有样本的某特征A上加入随机噪声,再次用OOB数据计算每一棵决策树预测错误率,记为eerorOOB2;
步骤15、假设随机森林中有Ntrees棵树,那么对于特征A的重要性采用式(9)来表示:
其中,φOOB表示OOB袋外样本集,即未被随机抽取到的样本;(xi,li)表示袋外样本集中的样本像素以及其对应的真实海冰类别标签;表示使用第v棵决策树在初始特征的基础上得到的预测样本标签;表示OOB样本中对特征A加入随机噪声后的预测样本标签;N[·]是统计函数,用来统计分类正确的样本数。
步骤16、对240种纹理特征依次重复步骤11-步骤15,得到每种纹理特征重要性计算并对其进行排序,获得了对海冰分类精度影响最大的六种纹理特征,即优选纹理特征。
4.如权利要求1或3所述的基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,步骤2中基分类器包括:朴素贝叶斯、决策树、K近邻算法、逻辑回归、人工神经网络、以及支持向量机;采用Bagging集成策略对各基分类器进行训练并集成,并使用遗传算法进行各基分类器的权重优化。
5.如权利要求4所述的基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,使用遗传算法对六种基分类器权重优化,包括如下:
步骤301、在所述海冰特征图像上选择不同海冰类型样本,建立原始样本集;并从原始样本集中抽取训练样本集,每轮从训练样本集中随机抽取预设定量的训练样本建立样本子集,共进行六轮抽取,得到六个样本子集;
步骤302、使用六个样本子集分别对上述的六种基分类器进行训练;
步骤304、对输入的权重进行相应的编码,将其从十进制数字转化为二进制字符串;
步骤305、将分类精度设为适应度函数,计算每组权重与其相应的分类器分类结果进行权重投票,得到初始的分类结果;
步骤306、对初始的分类结果进行分类精度的计算,得到当前这个权重的适应度值,依次得到50组不同分类器权重的适应度值;
步骤307、从50组权重中随机、多次选择两组适应度较大的权重作为父方和母方,将这两组的权重字符串随机相互交换其部分字符,形成两组新的权重,实现交叉操作;
步骤308、对交叉操作结束后的权重字符串中的某一位或某几位字符进行随机改变,形成新的权重,实现遗传算法中的权重进化;
步骤309、将交叉和进化结束后的权重输入到步骤306中计算新的适应度;
步骤310、重复进行步骤305-步骤309,直至适应度不再进行增加,终止迭代,输出50组权重中适应度最大的权重作为最优权重;
步骤311、将最优权重与不同分类器对海冰分类的标签进行点乘操作,统计每个像素点隶属于不同海冰类别的概率值,得到类别得分矩阵S;
步骤312、对类别得分矩阵S输入至argmax函数,得到每个像素最大得分的索引值,即为第一轮权重投票的分类结果Initial_Label。
7.如权利要求6所述的基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,步骤4中,第二轮权重投票采用模糊性标签像素自适应领域中确定性标签像素与中心像素之间的邻近度来对像素标签进行纠正。
8.如权利要求6所述的基于两轮投票策略集成学习的SAR图像海冰类型分类方法,其特征在于,步骤4中,
其中,w′i,j表示自适应域中坐标为(i,j)的像素依据特征邻近度计算所得到的权重,var(·)为方差算子,cov(A,B)表示像素A和像素B之间的协方差;该权重反映了中心像素与其它像素在相应的自适应区域内接近时相似度增加的期望;
所述模糊性像素标签得以更新,即:
其中,C表示自适应域内中心像素标签;K表示分类类别总数;Mmask表示掩膜矩阵,该矩阵由模糊性标签像素和确定性标签像素决定;w'表示自适应域P经过计算的每个像素与中心像素的权重矩阵;sl表示在自适应域P的中心像素所属类别为l的总体分数;
根据集合{s1,s2,...,sK}中得分最高的类标签来确定模糊标签像素的标签,完成初始集成分类结果中所有模糊性标签像素的更新,得到最终的海冰分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110117101.7A CN112926397B (zh) | 2021-01-28 | 2021-01-28 | 基于两轮投票策略集成学习的sar图像海冰类型分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110117101.7A CN112926397B (zh) | 2021-01-28 | 2021-01-28 | 基于两轮投票策略集成学习的sar图像海冰类型分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926397A true CN112926397A (zh) | 2021-06-08 |
CN112926397B CN112926397B (zh) | 2022-03-01 |
Family
ID=76167757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110117101.7A Expired - Fee Related CN112926397B (zh) | 2021-01-28 | 2021-01-28 | 基于两轮投票策略集成学习的sar图像海冰类型分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926397B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688802A (zh) * | 2021-10-22 | 2021-11-23 | 季华实验室 | 基于肌电信号的手势识别方法、装置、设备及存储介质 |
CN114399635A (zh) * | 2022-03-25 | 2022-04-26 | 珞石(北京)科技有限公司 | 基于特征定义和深度学习的图像二分类集成学习方法 |
CN114565065A (zh) * | 2022-04-29 | 2022-05-31 | 长江水利委员会水文局 | 一种水文序列数据异常值检测方法 |
CN114627337A (zh) * | 2022-05-12 | 2022-06-14 | 江苏智维自动化设备有限公司 | 一种基于rcnn算法的猪只尺体测量方法 |
CN114863341A (zh) * | 2022-05-17 | 2022-08-05 | 济南大学 | 一种在线课程学习监督方法及系统 |
CN115205693A (zh) * | 2022-09-16 | 2022-10-18 | 中国石油大学(华东) | 一种多特征集成学习的双极化sar影像浒苔提取方法 |
CN114863341B (zh) * | 2022-05-17 | 2024-05-31 | 济南大学 | 一种在线课程学习监督方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103338A (zh) * | 2017-05-19 | 2017-08-29 | 杭州电子科技大学 | 融合卷积特征和集成超限学习机的sar目标识别方法 |
CN108364016A (zh) * | 2018-01-12 | 2018-08-03 | 华南理工大学 | 基于多分类器的渐进式半监督分类方法 |
CN109829627A (zh) * | 2019-01-04 | 2019-05-31 | 三峡大学 | 一种基于集成学习方案的电力系统动态安全置信评估方法 |
CN109948693A (zh) * | 2019-03-18 | 2019-06-28 | 西安电子科技大学 | 基于超像素样本扩充和生成对抗网络高光谱图像分类方法 |
CN110096994A (zh) * | 2019-04-28 | 2019-08-06 | 西安电子科技大学 | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 |
-
2021
- 2021-01-28 CN CN202110117101.7A patent/CN112926397B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103338A (zh) * | 2017-05-19 | 2017-08-29 | 杭州电子科技大学 | 融合卷积特征和集成超限学习机的sar目标识别方法 |
CN108364016A (zh) * | 2018-01-12 | 2018-08-03 | 华南理工大学 | 基于多分类器的渐进式半监督分类方法 |
CN109829627A (zh) * | 2019-01-04 | 2019-05-31 | 三峡大学 | 一种基于集成学习方案的电力系统动态安全置信评估方法 |
CN109948693A (zh) * | 2019-03-18 | 2019-06-28 | 西安电子科技大学 | 基于超像素样本扩充和生成对抗网络高光谱图像分类方法 |
CN110096994A (zh) * | 2019-04-28 | 2019-08-06 | 西安电子科技大学 | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 |
Non-Patent Citations (2)
Title |
---|
张莹等: "改进球形张量投票的SAR图像边缘提取", 《测绘通报》 * |
陈圣灵等: "基于样本权重更新的不平衡数据集成学习方法", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688802A (zh) * | 2021-10-22 | 2021-11-23 | 季华实验室 | 基于肌电信号的手势识别方法、装置、设备及存储介质 |
CN114399635A (zh) * | 2022-03-25 | 2022-04-26 | 珞石(北京)科技有限公司 | 基于特征定义和深度学习的图像二分类集成学习方法 |
CN114565065A (zh) * | 2022-04-29 | 2022-05-31 | 长江水利委员会水文局 | 一种水文序列数据异常值检测方法 |
CN114565065B (zh) * | 2022-04-29 | 2022-08-12 | 长江水利委员会水文局 | 一种水文序列数据异常值检测方法 |
CN114627337A (zh) * | 2022-05-12 | 2022-06-14 | 江苏智维自动化设备有限公司 | 一种基于rcnn算法的猪只尺体测量方法 |
CN114863341A (zh) * | 2022-05-17 | 2022-08-05 | 济南大学 | 一种在线课程学习监督方法及系统 |
CN114863341B (zh) * | 2022-05-17 | 2024-05-31 | 济南大学 | 一种在线课程学习监督方法及系统 |
CN115205693A (zh) * | 2022-09-16 | 2022-10-18 | 中国石油大学(华东) | 一种多特征集成学习的双极化sar影像浒苔提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112926397B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926397B (zh) | 基于两轮投票策略集成学习的sar图像海冰类型分类方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN109086437B (zh) | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 | |
Smits | Multiple classifier systems for supervised remote sensing image classification based on dynamic classifier selection | |
Li et al. | Location recognition using prioritized feature matching | |
CN100557626C (zh) | 基于免疫谱聚类的图像分割方法 | |
CN110598029A (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN107229904A (zh) | 一种基于深度学习的目标检测与识别方法 | |
Hu et al. | Classification of PolSAR images based on adaptive nonlocal stacked sparse autoencoder | |
CN112883839A (zh) | 基于自适应样本集构造与深度学习的遥感影像解译方法 | |
CN108428220A (zh) | 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法 | |
CN113095442A (zh) | 基于半监督学习在多维度雷达数据下的冰雹识别方法 | |
Chen et al. | A feature discretization method for classification of high-resolution remote sensing images in coastal areas | |
Lawson et al. | Decision forests for machine learning classification of large, noisy seafloor feature sets | |
Wu et al. | Cost-sensitive latent space learning for imbalanced PolSAR image classification | |
CN115359366A (zh) | 基于参数优化的遥感图像目标检测方法 | |
Zhao et al. | Incremental face clustering with optimal summary learning via graph convolutional network | |
Durán-Rosal et al. | Detection and prediction of segments containing extreme significant wave heights | |
CN115292532A (zh) | 基于伪标签一致性学习的遥感图像域适应检索方法 | |
Feng et al. | Land-cover classification of high-resolution remote sensing image based on multi-classifier fusion and the improved Dempster–Shafer evidence theory | |
Wang et al. | Avoiding negative transfer for semantic segmentation of remote sensing images | |
CN114549909A (zh) | 一种基于自适应阈值的伪标签遥感图像场景分类方法 | |
CN107423771B (zh) | 一种两时相遥感图像变化检测方法 | |
CN111428627B (zh) | 一种山地地貌遥感提取方法及系统 | |
CN110766696A (zh) | 一种基于改进的粗糙集聚类算法的卫星图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220301 |
|
CF01 | Termination of patent right due to non-payment of annual fee |