发明内容
本发明要解决的技术问题是:提供一种更具有适应性的遥感定量反演方法,同时解决遥感定量反演应用中呈现的非线性和噪声干扰的问题。
本发明为解决上述技术问题所采取的技术方案为:一种适应噪声条件下的抽样学习机遥感定量反演方法,其特征在于:它包括以下步骤:
S1、利用极限学习机中固定小数量级权值的特点模拟遥感定量反演中影响因子与反演对象间的非线性的复杂数学关系,将其转化为求解一个线性系统Hβ=TT;其中,H为网络隐含层输出矩阵,由输入层、隐含层及激励函数决定;TT为输出层输出矩阵,由输出层决定;β为网络模型参数;
其中影响因子为遥感观测指标,反演对象为建模过程中采用的地面实测数据;
S2:根据网络模型参数β的维度自适应选取模型参数估计算法,维度高时选择NAPSAC算法,维度低时选择RANSAC算法;预设相应的标准判断维度的高和低;
S3:利用S2中选取的模型参数估计算法,实现对Hβ=TT中网络模型参数β的求解。
按上述方法,所述的H通过选择激励函数与神经元个数来确定。
按上述方法,所述的S2以RANSAC算法确定β所需的迭代运算次数为标准,若迭代运算次数高于n1次则判定维度为高维,否则维度为低维。
按上述方法,当选择NAPSAC算法时,通过计算H中所有两两向量间的欧氏几何距离,将其欧氏几何距离均值作为相邻点的阈值半径r。
按上述方法,当选择NAPSAC算法时,根据实际样本数据的计算确定是否为局内点阈值ε,进而判定模型参数估计收敛所需的最少局内点的数量G,其中G与实际样本数据中噪声所占的比例相关。
按上述方法,G的取值小于或等于通过局内点阈值ε划分得到的局内点个数的最大值。
本发明的有益效果为:通过建立遥感定量反演中影响因子与反演对象间的复杂数学关系模型;在模型参数求解过程中,能过滤样本数据噪声的干扰,自适应选取模型参数估计算法,从而能快速获取模型最优的参数结果;本发明能够快速获取模型参数,学习效率高,并且能够有效排除噪声影响,提高定量反演精度,泛化能力强。。
具体实施方式
人工神经网络(artificial neural network,ANN)作为一种非线性、统计建模工具,被广泛应用于遥感定量反演中。该模型通过神经结构与连接权值的设定,能充分逼近任意复杂的非线性关系。然而,由于ANN模型自身的缺陷,如学习收敛速度慢、易陷入局部极值以及网络结构难以确定等问题,使得反演精度难于满足应用需求。Huang等改进了传统ANN模型,提出了一种极限学习机(Extreme Learning Machine,ELM)算法。ELM算法是一种新型的单隐层前向神经网络,其学习速度与泛化能力比ANN模型均具有较大幅度提升。这主要取决于两方面的改进:(1)随机产生小数量级的值作为输入层与隐含层间的连接权值和隐含层神经元阈值,突破了ANN模型网络结构难以确定的缺陷;(2)采用最小二乘法求解模型隐含层与输出层间的连接权值,解决了传统ANN模型易陷入局部最优解的问题,并提升了最优参数获取的学习效率。然而,ELM模型在遥感定量反演应用中,同样遇到新的问题,即ELM模型参数估计的精度受制于样本数据质量。遥感影像受到数据获取时传感器系统噪声、光照、天气条件、云层等的干扰,而地面同步测量数据同样因仪器偏差、实验人员的主观操作等引入噪声。若用夹杂噪声的样本数据训练ELM模型参数,会产生较大的误差,将无法达到业务应用精度的需求。
由上述可知,常规ELM模型主要采用最小二乘法求解模型隐含层与输出层间的连接权值,这将难于排除噪声干扰。为了提升ELM模型对数据噪声的鲁棒性,可考虑利用随机抽样一致性(Random Sample Consensus,RANSAC)或N邻近点抽样一致性(N AdjacentPoints Sample Consensus,NAPSAC)算法改进模型参数估计过程。RANSAC算法和NAPSAC算法均可以排除局外点(噪声数据)、选择局内点进行模型参数求解,能有效地排除样本数据中噪声的影响。当ELM模型隐含层与输出层间连接权值参数维度较低的情况下,RANSAC算法与NAPSAC算法达到相同模型精度所需的循环次数差异较小。但NAPSAC的算法复杂度要远高于RANSAC算法,故RANSAC算法更为合适。而当参数维度相对较高时,模型初始化需要的样本点数量也将随之增多。RANSAC算法需大量的迭代运算方能获得较为准确的模型参数;而NAPSAC算法考虑了相邻的样本点(空间几何距离度量)具有相似特征的特性,在模型初始化时利用邻近点特征选取替代RANSAC算法随机选取的方法,能有效地提升模型参数获取的速度与模型参数估计的精度,故NAPSAC算法更为适合。
本发明提供一种适应噪声条件下的抽样学习机遥感定量反演方法,如图1所示,它包括以下步骤:
S1、利用极限学习机中固定小数量级权值的特点模拟遥感定量反演中影响因子与反演对象间的非线性的复杂数学关系,将其转化为求解一个线性系统Hβ=TT;其中,H为网络隐含层输出矩阵,由输入层、隐含层及激励函数决定;TT为输出层输出矩阵,由输出层决定;β为网络模型参数;其中影响因子为遥感观测指标,反演对象为建模过程中采用地面实测数据。所述的H通过选择激励函数与神经元个数来确定。
S2:根据网络模型参数β的维度自适应选取模型参数估计算法,维度高时选择NAPSAC算法,维度低时选择RANSAC算法;预设相应的标准判断维度的高和低。
本实施例中,以RANSAC算法确定β所需的迭代运算次数为标准,若迭代运算次数高于n1(如n1=1000,也可根据情况另外设置其它值)次则判定维度为高维,否则维度为低维。
当选择NAPSAC算法时,通过计算H中所有两两向量间的欧氏几何距离,将其欧氏几何距离均值作为相邻点的阈值半径r。根据实际样本数据的计算确定是否为局内点阈值ε,进而判定模型参数估计收敛所需的最少局内点的数量G,其中G与实际样本数据中噪声所占的比例相关。通常情况下,G的取值小于或等于通过局内点阈值ε划分得到的局内点个数的最大值。
S3:利用S2中选取的模型参数估计算法,实现对Hβ=TT中参数β的求解。
本实施例中,具体的实施步骤如下:
1、遥感观测指标与地面实测数据的时空配准
主要实现遥感观测指标与地面实测数据在时间尺度上和空间尺度上配准,具体步骤为:
①根据遥感卫星的轨道参数计算卫星的过境时间,开展针对地表参量观测卫星的野外同步观测试验;
②对遥感影像进行数据预处理,包括辐射定标、大气校正、几何校正等,并对地面实测数据进行归一化处理,即统一量纲、数量级等;
③根据每个地面实测点的空间坐标获取相同位置对应遥感数据上所有波段信息(如亮度、辐射率或反射率);
④计算地面实测地表参量与遥感影像各个波段间的相关系数,据此选取最优的波段组合以表征地表参量的特性;
⑤将选取的波段信息与地面实测地表参量值一一对应,形成特征向量,构成样本数据集。
2、非线性关系至线性模型的映射
假设输入层有n个输入变量、隐含层含有l个神经元、输出层有m个输出变量。输入层与隐含层间连接权值、隐含层与输出层间的连接权值以及隐含层神经元的阈值分别记为ω、β、b,那么,ω、β和b可表示为:
式中,ωij表示输入层第i个变量与隐含层第j个神经元间的连接权值;βjk表示隐含层第j个神经元与输出层第k个变量间的连接权值;bi为隐含层第i个神经元的阈值。
接着,选取适宜的神经元个数与激励函数g(x)。其中神经元个数的选取主要由网络模型输入层的输入矩阵与输出层的输出矩阵的关系决定。通常的选择方法为:首先,将神经元的个数作为一个变量,选定激励函数,利用样本数据分别形成输入矩阵与输出矩阵,构建网络模型;然后,采用神经元个数依次增大的循环算法,计算不同神经元个数下网络模型训练精度评价指标决定系数的值,选择决定系数最大所对应神经元的个数作为网络模型的神经元个数条件;其中,激励函数包括:Radial basis函数、Sigmoidal函数、Sine函数、Hardlim函数等。
假设有Q个样本的训练集,则输入矩阵X(遥感影像波段信息)与输出矩阵Y(地面实测的地表参量值),分别为:
假设隐含层神经元的激励函数为g(x),则网络的输出T为:
T=[t1 t2 ... tQ]m×Q (3)
式中,j=1,2,…,Q;wi=[wi1 wi2 ... win],xj=[x1j x2j ... xnj]T。则上式可简化为
Hβ=TT (5)
其中,矩阵T的转置为TT;β为网络模型参数;H为网络隐含层的输出矩阵。H由输入层、隐含层和激励函数决定,TT由输出层决定。其中H的具体形式为:
通过上述矩阵运算,即将定量反演中影响因子与反演对象间复杂的非线性数学关系,转换为线性关系模型。
3、网络模型参数β估计算法的自适应选取
输入样本数据,利用固定小数量级权值思路,即可确定Hβ=TT线性模型中的H和TT参数。接下来,需利用已确定的H和TT参数求解网络模型参数β。考虑到样本数据噪声及模型复杂度因素,本发明采用自适应选取参数估计算法,求解网络模型参数β。即根据网络模型参数β的维度,自适应选取RANSAC算法或NAPSAC算法估算参数β。该方法能过滤样本中噪声数据的干扰,利用非噪声数据可获取网络模型参数β的最优解。具体步骤为:
(1)根据模型Hβ=TT确定网络模型参数β的维度,记为d;
(2)利用RANSAC算法作为网络模型参数β的估计算法,并对模型进行初始化,即随机的在H中选取d个向量形成H0,同时在TT中选取对应位置向量形成T0,则模型初始化为:
β0=H0+T0T (7)
式中,H0+为隐含层输出矩阵H0的Moore-Penrose广义逆,通常存在两种形式,即:
(3)将H中剩余的向量逐个带入初始化模型中进行计算,得到输出结果T',并与原始结果T求相对误差ΔT(一般为差的平方,便于计算);
(4)将相对误差ΔT的结果作为阈值ε的判定标准,即:若ΔT<ε,则对应的H中的向量满足初始化模型,即为局内点(非噪声点),并与H0一起构成局内点数据集S1*;
(5)计算局内点数据集S1*中向量的个数s,并与设定的阈值G进行比较。若s>=G,则找到了正确的模型参数;否则,转至步骤(2)直至在最多迭代次数n1(如n1=1000)内找到正确模型,并记录迭代总次数C;
(6)对RANSAC算法迭代总次数C进行判定,若C<n1,则网络模型参数β维度属于低维,选择RANSAC算法作为网络模型参数β的估计算法是合适的,直接转至步骤(8);否则,网络模型参数β维度属于高维,选RANSAC算法作为网络模型参数β的估计算法失效,将采用NAPSAC算法估计网络模型参数β;
(7)重新选取NAPSAC算法估计网络模型参数β,具体步骤为:
①随机在H中选取一个向量h,计算H中剩余的所有向量到h的空间欧氏距离s;
②根据邻近点的阈值条件r来获取向量h的所有邻近点,若s<r,则判定对应的向量为h的邻近点;
③若向量h的邻近点个数大于d,则继续,否则返回步骤①;
④在向量h的所有邻近点集合(包括h)中随机抽取d个向量组成H0,同时在TT中选择对应位置的向量形成T0,则模型初始化为:
β0=H0+T0T (9)
式中,H0+为隐含层输出矩阵H0的Moore-Penrose广义逆,一般有两种形式,分别为:
⑤将H中剩余的向量逐个带入初始化模型中进行计算,得到输出结果T',并与原始结果T求相对误差ΔT(一般为差的平方,便于计算);
⑥将相对误差ΔT的结果根据阈值ε进行选择,若ΔT<ε,则对应的H中的向量满足初始化模型,即为局内点(非噪声点),并和H0一起构成局内点数据集S1*;
⑦计算局内点数据集S1*中向量的个数s,并与设定的阈值G进行比较。若s>=G,则找到了正确的模型参数;否则,转至步骤①直至找到正确模型参数;
(8)将数据集S1*中所有的向量形成H1,并获取TT中对应位置的向量形成T1,则模型参数为:
β=H1+T1T (11)
式中,H1+为隐含层输出矩阵H1的Moore-Penrose广义逆,一般有两种形式,分别表示为:
则模型参数被正确估计。
通过上述操作,能有效解决遥感定量反演应用中呈现的非线性、噪声干扰等问题,从而得到准确的模型及参数。
4、从点扩展到面,实现整个研究区的地表参量定量反演
将研究区域的对应的遥感影像波段信息作为输入,利用上述确定的反演模型及参数,计算得到地面参量的预测值,从而实现对整个研究区域的地表参量定量反演,并得到反演结果的专题图。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。