发明内容
本发明提出一种遥感影像空间结构特征提取与分类方法,通过像元及其邻域的光谱相似性描述其上下文的空间形状分布,然后把归一化后的形状和光谱特征输入分类器进行分类,在遥感影像特征提取和分类中能比GLCM获得更好的效果。
本发明提供的技术方案是:一种遥感影像空间结构特征提取与分类方法,其特征在于:通过围绕中心像元的一系列等间隔的方向线的延伸来探测该像元的空间形状结构特征,方向线的数量在5-48个,方向线的长度通过同质性阈值和最大长度阈值控制,互不相等,体现影像的各向异性;通过像元的方向线直方图反映它的上下文结构特性,为了更有效的提取空间结构特征,同时减少特征的维数,采用长度、宽度、像元形状指数、长宽比值、加权均值、方差这6个统计测度提取每个像元的方向线直方图特征;采用光谱和空间结构特征融合分类的方法,同时在多种神经网络和机器学习算法中择一方法处理高维特征空间。
如上所述的遥感图像空间形状特征提取与分类方法,其特征包括以下步骤:
一、首先定义方向线为穿过中心像元的一系列线段,它们的长度和方向各不相同,其长度由相邻像元间的光谱同质性测度和阈值来确定,相邻方向线间的角度设置为相等的弧度;
二、方向线的扩展从某一中心像元开始同时朝两个相反方向延伸,方向线扩展条件为:满足相邻像元同质性阈值和方向线的长度限制,每一条方向线都按照以上条件进行扩展和延伸,如果其中一个条件不成立,则终止该方向线的扩展;
三、跟踪求取该中心像元所有的方向线,计算所有方向线的长度,根据不同的计算要求在两种长度计算公式中选取:街区距离(city-block distance)和欧式距离(Euclideandistance);
四、求得围绕该中心像元的所有方向线的长度,把这一系列长度值按照顺时针顺序排列,形成该像元的方向线直方图,并根据直方图的分布提取该像元的空间形状特征,采用以下六种特征测度:长度(length)、宽度(width)、像元形状指数(pixel shape index)、长宽比值(length-width ratio)、加权均值(weighted mean)、方差(variance);
五、遍历整个影像,计算每个像元的方向线直方图和相应的统计测度;
六、结合原始影像的光谱信息和提取的空间形状特征进行分类,对光谱信息和空间信息采用不同的方法进行特征归一化;
七、把混合特征输入分类器,有以下分类器可供用户选择:最小距离分类器(MDC)、极大似然分类器(MLC)、多层感知器网络(MLP),径向基神经网络(RBF),概率神经网络(PNN)和支持向量机(SVM),用户可根据不同的要求选择最合适的分类器;
八、对分类器进行设置和训练,然后输入光谱和空间混合特征尽心分类,得到最后的分类结果。
如上所述的遥感图像空间形状特征提取与分类方法,其特征在于:可供选择的方向线条数D有:12,16,20,24,默认设置为D=20。
本发明的原理是:
一、针对某中心像元的邻域光谱分布特征,跟踪求取它所有的方向线,设一个中心像元的方向线条数为D,D大于4;本发明提供多个可供选择的D值,一般的,D值越大,算法对影像空间邻域的描述能力更强,但D增大到一定程度时,精度的提高并不明显,与此同时却要消耗更多的处理时间。可供用户选择的D值有:12,16,20,24,默认设置为D=20;
二、计算方向线的长度,有两种计算方法可供选择:欧式距离和街区距离,前者能更有效的反映方向线的长度差异,后者能起到平滑滤波的效果且节省计算时间,用户可根据需要灵活设置;
三、计算中心像元的所有D条方向线长度,按照顺时针方向依次存储,作为该像元的方向线直方图,为后续特征提取步骤作准备;
四、遍历整个影像,求取所有像元的方向线直方图;
五、用提出的六种特征测度:长度、宽度、像元形状指数、长宽比值、加权均值、方差提取每个像元的直方图特征,同时缩减空间特征的维数;
六、用户可根据具体的情况选择是否需要进行特征变换,提供的特征变换方法包括:决策边缘特征提取算法(DBFE),主成分分析(PCA)和相似性指数(Similarity Index)。特征变换的目的是缩减空间特征的维数,同时增加特征空间的类别可分性;
七、把提取的空间结构特征和光谱信息分别进行预处理和归一化,光谱信息采用最大一最小线性拉伸的方法,空间特征由于数值跨度太大,采用直方图均衡化的方法进行预处理。归一化的目的是为了下一步有效的分类;
八、为混合特征选择合适的分类器,可供选择的包括:最小距离分类器、极大似然分类器、多层感知器网络,径向基神经网络,概率神经网络、支持向量机。最小距离分类器适合1维特征输入,极大似然法快速稳定,但在高维特征处理能力上不如机器学习算法,神经网络方法是近年来处理多维遥感数据的研究热点,本发明利用机器学习的最新成果支持向量机来处理光谱与形状混合特征,以期最大限度的利用这些特征进行决策;
九、选择训练样本,设置分类器的参数,支持向量机(SVM)的参数设置是自动化的,采用著名的leave-one-out(LOO)方法确定SVM的惩罚系数和核参数;
十、对光谱和空间结构混合特征进行分类,得到分类结果。
本发明的特点:定义了方向线的概念,通过围绕中心像元的一系列等间隔的方向线的延伸来探测该像元的空间形状结构特征,是一种新的空间特征提取方式。方向线最大能探测48个方向,大大高于灰度共生矩阵的4个方向,具有更强的邻域描述能力,方向线的长度通过同质性阈值和最大长度阈值控制,互不相等,体现了影像的各向异性;通过像元的方向线直方图反映它的上下文结构特性,为了更有效的提取空间结构特征,同时减少特征的维数,本发明提出了长度、宽度、像元形状指数、长宽比值、加权均值、方差这6个统计测度提取每个像元的方向线直方图特征;采用光谱和空间结构特征融合分类的方法,同时提供多种神经网络和机器学习算法处理高维特征空间,其中支持向量机能通过核空间映射产生原始数据所不具备的新特征,也避免了光谱或空间信息在决策中的决定性影响。本发明计算简便、程序运行效率高,人工干预少,适用于高分辨率遥感影像的自动分类,可有效提高该类影像的分类精度和效率。
具体实施方式
1、理论基础
本发明使用的基本理论主要包括:
(1)支持向量机:它是建立在统计学习理论上的一种新的学习方法,体现了学习过程的一致性和结构风险最小化原理,它在保持经验风险固定的基础上最小化置信范围,通过综合考虑经验风险和置信范围,根据结构风险最小化原则取其折衷,从而得到风险最小的决策函数。其核心思想是把输入空间的样本通过非线性变换映射到高维核空间,在高维核空间求取具有低VC维(复杂度)的最优线性决策面。
SVM的基本原理是:假设训练样本为{(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈Rd,表示输入模式,yi∈{±1}表示目标输出。设最优决策面方程为:wTxi+b=0,则权值向量w和偏置b须满足约束:
yi(wTxi+b)≥1-ξi
其中ξi为线性不可分条件下的松弛变量,它表示模式对理想线性情况下的偏离程度。SVM的目标是找到一个决策面使其在训练数据上的平均错误分类误差最小,可推导出以下优化问题:
C是用户指定的正参数,它表示SVM对错分样本的惩罚程度,是错分样本比例和算法复杂度之间的平衡参数。用Lagrange乘子法,最优决策面的求解可转化为以下的约束优化问题:
其中 为Lagrange乘子,且(5)满足约束条件:
0≤αi≤C,i=1,2,3,…,N
K(x,xi)为核函数,满足Mercer定理,常用的核有以下两种:
多项式核函数:K=(xTxi+1)p,指数p由用户确定;
径向基核函数: 宽度σ对所有核都相同且由用户指定;
选择支持向量机(SVM)作为空间特征的分类器,是考虑到其非参数化的特性无须特征空间正态分布的假设,以及高维核空间的映射更适合多维的空间特征输入,因为SVM提供的模型复杂度与输入特征维数无关,这使得输入模式的特征可以多元化,核函数将输入特征映射到高维核空间可能产生原始数据所不具备的新特征,使得原本光谱不可分的模式由于空间特征的加入而变得可分。分类系统中,SVM的应用要注意:
(a).SVM的设置主要是核函数的选择,即在多项式核和RBF核间作出选择。根据高分辨率影像的特点,由于类间方差较大,其同类地物样本的光谱特征较为分散,而并非紧紧围绕着某些中心,即高分辨率影像的光谱样本没有明显的中心,样本并无权重大小,而对于RBF核来说,其对于远离节点中心的输入样本的输出几乎为零,样本根据离中心距离的远近有不同的权重和响应值,然而多项式核却不存在局域性,所以它更适合作为高分辨率影像输入特征的核函数。
(b).C是正则化参数,或称惩罚系数,在特征空间中C控制着待分模式对决策面的可偏离程度,C增大时,这种偏离程度增大,C减小时,可偏离程度减小。它的设置和样本、支持向量以及待分模式在特征空间中的分布有关,考虑到分类时间和精度的关系,对C的选取是有意义的,合适的值可以用最少的时间获取最佳的结果,提高分类系统的效率。
(c).SVM的样区选择也要根据高分辨率影像的特点,须充分考虑同种地物的不同光谱特征。
(2)概率神经网络(PNN):概率神经网络是Specht提出的,其本质是Bayes决策规则和多层感知器的结合,网络分3层:输入层、模式层和输出层。PNN的训练非常简单,K类样本依次排列在模式层的K个pool里,对某个pool_i,i=1,2,3,…K,K为类别总数或模式数,都有Ni个模式神经元,对于每个输入向量y,则pool_i的第j个神经元的激活值为:
式中wi (j)表示pool_i第j个神经元的权向量,由训练样本决定。输出层有K个神经元,代表K个模式,其中第i个输出端的值为:
决策采用“胜者全拿”的方法:
若:Ok>Oi,i≠k,且i,k∈[1,K],则:y∈Ck
PNN的训练是非常简单的一次性过程,对每个训练样本x,假设它是第i个模式,即x∈Ci,那么其训练过程只不过是在模式层pool_i中再加一个新的神经元,并把其权向量wi (j)赋值为x。
2、形状结构特征的构造
PSI的设计原则是:1).利用相邻像元的光谱相似性,目的在于考虑像元的空间上下文特征;2).使处于相同形状区域内的像元具有相同或相近的特征值,这是为了增强高分辨率影像的同质性,在一定程度上平滑噪声;3).尽量拉大不同形状区域像元之间的特征值,这是为了充分利用高分辨率影像的细节特性。
首先定义方向线为穿过中心像元的一系列线段,如附图1所示,它们的长度各不相同,其长度由相邻像元间的光谱同质性测度和阈值来确定。方向线的跟踪与计算步骤如下:
1).同质性测度:
其中,PHi(x,y)表示当前的邻域像元(x,y)在第i条方向线上的同质性测度值,ps cen表示中心像元在波段s上的光谱值,ps sur表示当前邻域像元在波段s上的光谱值,n代表波段数。
2).方向线的扩展:每条方向线都按照特定的规则从中心像元出发朝两边同时扩展,第i条方向线扩展的条件是:(a).当前像元的PHi(x,y)小于阈值T1;(b).该方向线的总长度小于阈值T2。T1的理论值应该是取各类样本的类内均方差的平均值,在实验中可以根据具体的情况进行调节;T2是尺度因子,应根据感兴趣地物的大小来确定,也可以利用T2的变化提取多尺度信息。
3).设D为一个像元的方向线总数,遍历整个影像,按照1)、2)两步可以分别跟踪得到每个像元的所有D条方向线。
4).计算第i条方向线的长度:
或di=max{|me1-me2|,|ne1-ne2|}
其中(me1,ne1)表示该方向线一端的像元坐标行列号,(me2,ne2)表示另一端点的行列号。因此得到任意像元(i,j)的方向线长度序列:d(i,j)=[d1,d2,…,dD]。
3、实现过程
(1)、设置特征提取算法的参数T1,T2和D。默认情况下,T1取各类样本的类内均方差的平均值,T2取影像长度或者宽度的0.35倍,D=20。根据阈值T1、T2跟踪计算某一中心像元的所有D条方向线。在具体的操作中,可以根据运行结果灵活调整阈值大小。
(2)、选择方向线长度的计算公式,欧式距离或者街区距离,前者能有效体现方向线长度之间的差异,后者能在平滑空间特征的同时减少计算时间。随后根据选定的距离公式计算某中心像元的方向线长度。
(3)、按顺时针方向依次存储该中心像元的所有方向线长度,组成D维的方向线直方图。遍历整个影像,跟踪求取所有像元的方向线,存储每个像元的方向线直方图,以便进行特征提取。
(4)、用本发明提出的六种特征测度:长度、宽度、像元形状指数、长宽比值、加权均值、方差提取每个像元方向线直方图的统计属性,这样,每个像元就形成6维空间结构特征。这6种统计特征的计算方法如下所示:
(a).长度(length):
其中H(i,j)表示像元(i,j)的方向线直方图。
(b).宽度(width):
(c).像元形状指数(mean):
(d).加权均值(w-mean):
其中ki表示第i条方向线的长度,a为比例调节因子,sti为组成第i条方向线的像素灰度值的方差,用来限制不稳健的方向线在特征统计中的权重。
(e).长宽比例(ratio):
其中和分别表示像元(i,j)方向线线直方图中的n个最大和最小值。
(d).标准差(SD):
(5)、如果光谱波段较少而空间结构特征维数较多的话,可以选择进行特征选择操作。本分类系统提供3种维数减少与特征选择算法:独立成分分析(ICA),决策边缘特征提取(DBFE)和相似性指数算法(Similarity Index)。由于相似性指数方法计算简便,所需的CPU时间最少,同时也能保证计算精度,所以默认使用该方法。
(a).独立成分分析:
ICA的基本原则是:给定一个特征向量集x,算法的任务就是确定一个N×N的可逆阵W,对该向量集合进行线性变换:
y=Wx
使结果向量y(i),i=1,2,3…N是相互独立的。ICA算法的关键在于独立性的判别方法,这里采用极小化变量间的交互信息来估计W矩阵。y分量之间的交互信息定义为:
其中H(y(i))是y(i)的联合熵。y(i)之间的统计独立等价于I(y)为0,因为此时联合概率密度和对应的边缘概率密度的积相等,式(3)的最小化等价于下式的最大化:
上式两边对W求导,整理可得梯度下降法的迭代公式:
W(t)=W(t-1)+μ(t)(I-E[φ(y)yT])W-T(t-1)
(b).决策边缘特征提取(DBFE):
该算法能充分利用分类器的特点,从决策边界选择所需要的特征。DBFE的理论基础是利用每个类别决策边缘的位置来剔除多余的特征信息。
(c).相似性指数(Similarity Index);
采用变量间的特征相似性来筛选变换后的光谱波段,设p为特征选择前的信号维数,q是特征选择后的的信号维数,算法的任务就是从特征集中删除(p-q)维信号。算法采用最大信息压缩指数(Maximal Information Compression Index,MICI)对p维特征进行排除:
当MICI(x,y)为0时,表示两个特征线性相关,此时特征选择的误差为0;当MICI(x,y)增大时,两个特征的相关性降低,特征选择的误差增大。MICI(x,y)是两个特征对(x,y)在其主成分方向上投影的特征值,表示特征压缩的误差。本文的特征选择算法如下:
1).把p维特征归一化至[0,1]。
2).逐一计算每对特征的压缩指数,并求出最大的MICI,设其对应于波段a,b。
3).计算 和 比较Sa和Sb的大小,若Sa>Sb,则波段a删除;反之则波段b删除。
4).令p=p-1,若p=q,则算法终止;若否,则转入(2)继续执行。
(6)、存储每个像元的空间结构特征,作为辅助波段和原始光谱波段一起参与决策分类。
(7)、对光谱特征和结构形状特征进行预处理和归一化,以便输入到分类器。由于光谱信息和空间特征的差异,这里分别采用不同的方法对两者进行归一化:
(8)、选择合适的分类器,默认分类器是支持向量机(SVM),这是由于它计算速度快,且在处理高维混合特征上具有显著的优势。
(9)、根据先验知识选择训练样本,对所选的分类起进行训练和学习,然后对影像进行分类,得到最后的分类图。