基于IFCM聚类与变分推断的遥感影像分类方法
技术领域
本发明涉及遥感影像分类领域,特别涉及基于IFCM聚类与变分推断的遥感影像分类方法。
背景技术
遥感影像土地覆盖信息提取和分类一直受到学者的广泛关注和研究。遥感影像分类方法分为基于像素的分类、面向对象的分类、利用智能优化算法的分类、多尺度分类、分层分类及单像素与光谱特征结合的分类等。然而,这些分类算法都存在不足:基于像素的分类容易产生“椒盐效应”;面向对象的分类存在误分现象;智能优化算法由于算法设计本身的缺陷,难以取得良好的分类结果;多尺度分类中,尺度选择问题需要进行大量的实验来获取,成本较高。
常用的分类器有神经网络、决策树、极限学习机、SVM等。其中SVM在处理小样本、高维数据情况下具有较好的分类性能,受到国内外学者的青睐,被广泛应用在遥感影像处理方面。针对高分辨率遥感影像地物复杂,光谱混叠的特点以ReliefF_mRMR算法进行特征选择,并结合SVM进行分类的方法计算量较大。随着多核学习的研究发展,多核SVM被应用到遥感影像分类中。高光谱影像的多核SVM分类方法,以多个核函数组合的MKSVM方式实现对高光谱影像的分类,分类精度大大提高,但该方法只是依靠单个分类器实现分类,其分类器分类性能和泛化能力还有待进一步提高。
近年,监督分类和无监督分类被广泛应用在机器学习领域。其中,无监督分类由于不需要训练样本,节省人力物力并可取得最优实验结果。FCM(Fuzzy C-means,模糊C均值)算法是无监督聚类最常用的方法之一。然而,由于空间分辨率有限,地面物质的复杂性,扰动或光谱变化的多样性,传统的FCM算法往往产生含有椒盐噪声的聚类地图。研究人员将局部空间信息纳入常规FCM中以提高聚类性能。Robust FCM算法通过包含一个空间惩罚项来扩展传统的FCM算法。FCM_S算法的时间复杂度太高,为了降低FCM_S算法的计算复杂度,出现了两个变种FCM_S1算法和FCM_S2算法,用于简化邻域项的计算。为了进一步加速聚类过程,开发了增强型FCM算法和快速广义FCM算法。上述算法的中心像素的识别受其邻近像素的影响很大,封装在本地窗口中的局部信息利用也不够充分,导致分类精度不佳。
MRF(Markov Random Filed,马尔科夫随机场)模型作为描述数据相互作用关系的一种数学方法,在影像数据上下文关系建模中得到了广泛应用。在像素光谱信息的基础上,引入高分影像中目标的几何结构信息和空间上下文信息进行高分影像分类已经成为研究人员的一个共识。综合MRF模型所描述的空间上下文信息和影像数据光谱特性及派生的几何结构信息,采用贝叶斯决策的方法进行统计分类成为高分影像分类的一个有效方法。但现有的MRF模型对不同的地物采用相同的特征向量进行描述,忽略了特征向量在不同类别之间的差异。
在模型参数选择方面应用广泛的推断方法,即是在概率图模型中计算未观测变量(变量集)的后验分布;但现有技术中,很难求得后验分布的精确解,从而无法精确判断遥感影像的主题分类概率。
发明内容
针对现有技术中聚类算法稳定性差、遥感影像分类精度低的问题,本发明提出基于IFCM聚类与变分推断的遥感影像分类方法,用于提高遥感影像的分类精度。
为了实现上述目的,本发明提供以下技术方案:
本发明提供一种基于IFCM聚类与变分推断的遥感影像分类方法,包括以下步骤:
S1:计算遥感影像的第一聚类中心和第一分割影像区域;
S2:采用IFCM算法对遥感影像进行聚类,得到第二聚类中心和第二分割影像区域;
S3:采用空间像素模板提取遥感影像的像素特征;
S4:基于贝叶斯变分推断法实现遥感影像的图斑分类;
S5:对遥感影像的图斑分类结果进行评价。
优选的,所述S1包括以下步骤:
S1-1:采用遗传算法对遥感影像进行聚类分析,得到初始化的聚类中心;
S1-2:采用FCM算法对遥感影像进行第一聚类,得到第一聚类中心以及相对应的第一分割影像区域。
优选的,所述S2中包括以下步骤:
S2-1:构建IFCM算法;
S2-2:采用构建IFCM算法对遥感影像进行第二聚类,得到第二聚类中心和第二分割影像区域。
优选的,所述IFCM算法的表达式为:
公式(1)中,J表示IFCM算法的目标函数,N表示像素总个数,i表示像素,k表示第一聚类中心,c表示第一聚类中心的总个数,表示像素i对于第一聚类中心k的隶属度,m表示模糊指数,d(i,k)表示像素i与第一聚类中心k的空间距离,表示自适应参数,d(i,r)表示像素i与像素r的空间距离,其中,
公式(2)、(3)、(4)中,
d(i,k)表示像素i与聚类中心k的空间距离;
d(i,r)表示像素i与像素r的空间距离;
P表示权重值,描述对象内部同质度与对象间相关性的比重;
Si表示像素i所在影像区域Ri的标准差值;
Ai表示像素i所在影像区域Ri的区域面积;
|i-k|表示像素i与第一聚类中心k的欧式距离;
Ia表示像素i与第一聚类中心k的相关性,Ia变大,则相关性变小;
Nr表示像素r所在影像区域Rr中像素的总个数;
SAir(k)表示像素i的邻域像素r对第k个聚类中心的空间吸引力;
表示像素r对于第一聚类中心k的隶属度。
优选的,所述S3包括以下步骤:
S3-1:确定最终空间像素模板;
S3-2:采用最终的空间像素模板提取遥感影像的像素特征。
优选的,所述最终空间像素模板的确定按照以下公式:
公式(5)中,表示间像素模板内离中心像素最近的像素与中心像素的方差,表示空间像素模板内像素特征灰度级差值向量的方差,遥感影像的总体方差。
优选的,所述S4包括以下步骤:
S4-1:采用KL散度定义分布概率和分近似分布概率的接近程度:
公式(6)中,p(θ)表示第二聚类中心的分布概率,q(θ)表示第二聚类中心的近似分布概率,θ表示隐变量;
S4-2:计算第二聚类中心的近似分布概率:
公式(7)中,L表示期望运算,θd表示d波段遥感影像的第二聚类中心分布,zd表示d波段遥感影像中特征向量的分布,γd表示θd的变分参数,表示zd的变分参数,q表示指数族分布,表示d波段遥感影像的第n个像素特征向量的概率分布,α,β为超参数;
S4-3:根据第二聚类中心的近似分布概率进行遥感影像的图斑分类。
本发明将根据第二聚类中心的近似分布概率遥感影像进行分类,得到图斑分类结果,例如类别A、类别B、类别C以及类别D。
优选的,所述S5包括以下步骤:
S5-1:构建混淆矩阵;
S5-2:对混淆矩阵进行统计分析。
优选的,所述统计分析包括总体精度、生产者精度、用户精度和Kappa系数。
综上所述,由于采用了上述技术方案,与现有技术相比,本发明至少具有以下有益效果:
1.本发明在遥感影像处理过程中,去噪的同时减少了边缘模糊伪影,将局部空间和灰度信息合并到给定的局部窗口中,不需要参数选择;分类结果实现了地物的准确划分。
2.本发明进行了聚类中心的初始化,避免得到局部最优解,充分保证算法的可行性;本发明降低了算法的时间复杂度,节省大量的人力成本,同时获得了良好的实验结果;本发明简化了分类的计算复杂度,提升了算法运行效率,并具有快速收敛性,易于在大规模数据中应用。
3.本发明算法的总体总体精度OA达到93%,Kappa系数达到0.91。
附图说明:
图1为根据本发明示例性实施例的基于IFCM聚类与变分推断的遥感影像分类方法流程示意图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
图1为本发明示例性实施例的基于IFCM聚类与变分推断的遥感影像分类方法,具体包括以下步骤:
S1:计算遥感影像的第一聚类中心和第一分割影像区域。
S1-1:采用遗传算法对遥感影像进行聚类分析,得到初始化的聚类中心。
本实施例中,本发明采用遗传算法对遥感影像进行聚类分析,且选择聚类中心进行交叉运算,以确保聚类中心的完整性,从而得到初始化的聚类中心。
S1-2:采用FCM算法对遥感影像进行第一聚类,得到第一聚类中心以及相对应的第一分割影像区域。
本实施例中,本发明采用标准的FCM(Fuzzy C-means,模糊C均值)算法对遥感影像进行第一聚类,得到c个第一聚类中心,其集合为k={k1,k2,…kc}以及相对应的第一分割影像区域R={R1,R2,…Rc},其中,kc表示第c个聚类中心k,Rc表示第c个影像区域R。
S2:采用IFCM算法对遥感影像进行聚类,得到第二聚类中心和第二分割影像区域。
S2-1:构建IFCM算法模型。
本实施例中,本发明为增强标准FCM算法的鲁棒性,将空间引力模型与标准FCM算法模型相结合,构建IFCM(Improved Fuzzy C-means,改进的模糊C均值)算法模型,用于对遥感影像进行聚类分析。
本发明构建的IFCM算法模型的目标函数为J为:
公式(1)中,N表示像素总个数,i表示像素,k表示第一聚类中心,c表示第一聚类中心的总个数,表示像素i对于第一聚类中心k的隶属度,m表示模糊指数,d(i,k)表示像素i与第一聚类中心k的空间距离,表示自适应参数,d(i,r)表示像素i与像素r的空间距离,其中,
公式(2)、(3)、(4)中,
d(i,k)表示像素i与第一聚类中心k的空间距离;
d(i,r)表示像素i与像素r的空间距离;
P表示权重值,描述对象内部同质度与对象间相关性的比重;
Si表示像素i所在影像区域Ri的标准差值;
Ai表示像素i所在影像区域Ri的区域面积;
|i-k|表示像素i与第一聚类中心k的欧式距离;
Ia表示像素i与第一聚类中心k的相关性,Ia变大,则相关性变小;
Nr表示像素r所在影像区域Rr中像素的总个数;
SAir(k)表示像素i的邻域像素r对第k个聚类中心的空间吸引力;
表示像素r对于聚类中心k的隶属度。
S2-2:采用构建IFCM算法模型对遥感影像进行第二聚类,得到第二聚类中心和第二分割影像区域。
本实施例中,本发明采用构建的IFCM算法模型对所述S1步骤获得的第一聚类中心和第二分割影像区域进行第二聚类,对目标函数J进行迭代运算,直至目标函数J的值小于预设的阀值β,则得到第二聚类中心k*={k*1,k*2,…k*c}及第二分割影像区域R*={R*1,R*2,…R*c}。
S3:采用空间像素模板提取遥感影像的像素特征。
S3-1:确定最终空间像素模板。
本实施例中,本发明首先选取原始空间像素模板,其高和宽均为2D+1,D为正整数,则原始空间影像中心位置S的坐标为(D+1,D+1),原始空间像素模板中像素特征的总个数N=(2D+1)2,则像素特征的全集合为{Fn|1≤n≤N},Fn表示第n个像素特征;像素特征全集{Fn|1≤n≤N}对应与中心位置间距小于等于D的相对位置集合为{S(f,g)|1≤f≤2D+1,1≤g≤2D+1},f和g分别表示像素特征在原始空间像素模板中的高和宽。
本实施中,本发明采用差分函数作为相关函数来测量每个相对位置与中心位置之间的相关程度。每个相对位置与中心位置像素特征灰度级差值向量为:
ΔV’(f,g)=ΔV(f,g)-ΔV(D+1,D+1)(5)
公式(5)中,ΔV’(f,g)表示像素特征灰度级差值向量,ΔV(f,g)表示相对位置像素特征的灰度级向量,ΔV(D+1,D+1)表示中心位置像素特征的灰度级向量。
本发明中,像素特征灰度级差值向量ΔV’(f,g)中各元素服从均值为0,方差为σ2的高斯分布:ΔV’(f,g)~N(0,σ2)。
本发明中,像素特征灰度级差值向量ΔV’(f,g)中接近零值的元素越多,则表示相对位置与中心位置的像素特征的相关性越大,标准差σfg应该越小,且相似像素的类内方差小于不相似像素的类间方差。因此,原始空间像素模板内像素特征灰度级差值向量ΔV’(f,g)的方差应当不大于影像的总体方差同时应不小于离中心像素最近的像素与中心像素的方差即本发明根据过滤掉了给定窗口中相对位置像素特征灰度级差值向量方差大于以及小于的候选位置,从而获得最终的空间像素模板。
S3-2:提取遥感影像的像素特征。
本实施例中,本发明采用最终的空间像素模板遍历第二分割影像区域R*,则与模板对应的符合灰度标准的像素按照先行后列、每行从左到右的顺序堆叠到与影像每个波段像素对应的列向量,从而获得像素对应的多波段灰度采集形成的像素特征矩阵。例如,对于d波段遥感影像,影像中的每个像素对应一个大小为d*M的像素特征矩阵,该矩阵有d行,M列,M表示最终的空间像素模板的像素总个数。
S4:基于贝叶斯变分推断法实现遥感影像的图斑分类。
本发明采用LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型和贝叶斯变分推断法对像素特征矩阵进行分类,计算第二聚类中心的近似分布概率从而实现遥感影像的图斑分类。
S4-1:采用KL散度定义分布概率和近似分布概率的接近程度。
本实施例中,本发明采用KL散度(Kullback–Leibler divergence)定义第二聚类中心的分布概率p(θ)和其近似分布概率q(θ)的接近程度,θ为隐变量:
本发明根据指数族分布的性质,可得:
公式(7)中,L(q(θ))表示近似分布概率q(θ)的期望。
S4-2:计算第二聚类中心的近似分布概率。
本发明采用以下公式计算第二聚类中心的分布概率p(θ):
公式(8)中,θd表示d波段遥感影像的第二聚类中心分布,zd,n表示d波段遥感影像的第n个地物类别信息,wd,n表示d波段遥感影像的第n个像素特征向量,α、β表示超参数。
本实施例中,本发明的第二聚类中心的分布概率p(θ)的计算量大且复杂,不利于遥感影像的分类,因此本发明采用具有确定解的近似分布概率q(θ)用于表示第二聚类中心的分布概率p(θ),减少计算的复杂性。
本发明基于贝叶斯变分推断法对第二聚类中心的分布概率p(θ)进行变形运算,可得:
公式(9)中,θd表示d波段遥感影像的第二聚类中心分布,zd表示d波段像素特征矩阵中特征向量的分布,γd表示θd的变分参数,表示zd的变分参数,q为指数族分布,表示wd,n的概率分布。
则本发明对近似分布概率q(θ)进行期望运算,且对各个参数(γd,α,β)求导并令偏导数为0:
S4-3:根据第二聚类中心的近似分布概率进行遥感影像的图斑分类。
本发明采用第二聚类中心的近似分布概率q(θ)判断遥感影像的图斑的地物类别信息(例如建筑、道路、农田等),从而实现遥感影像的图斑分类,例如类别A、类别B、类别C及类别D。
S5:对遥感影像的图斑分类结果进行评价。
本发明需对遥感影像的图斑分类进行评价分析,包括以下步骤:
S5-1:构建混淆矩阵。
本发明在遥感影像中随机选取1000个样本点,将样本点映射到图斑分类结果中,通过人工解译构造混淆矩阵M,其大小为t×t,用于表示分为某一分类的图斑像素个数与地面检验结果为该类别数的比较阵列。
S5-2:对混淆矩阵进行统计分析。
本发明依据混淆矩阵计算总体精度(OA,Overall Accuracy)、生产者精度(PA,Producer's Accuracy)、用户精度(UA,User's Accuracy)以及Kappa系数。
本发明的总体精度OA达到93%,用于表示所有样本的分类结果与真实地面区域数据类型相一致的概率,其计算公式为:
公式(11)中,t表示类别,xii表示混淆矩阵对角线元素。
本发明的生产者精度PA表示同类别的像素划分至同类别的比例,其计算公式为:
公式(12)中,x+i表示混淆矩阵中类别的行总和。
本发明的用户精度UA表示类别中属于本类的像素所占的比例,其计算公式为:
公式(13)中,xi+表示混淆矩阵中类别的列总和。
本发明中采用Kappa系数为,来表示分类的精度,其计算公式为:
公式(14)中,N表示像素特征总个数,t表示类别,xii表示混淆矩阵对角线元素。