CN102306299A - 基于斜率、截距和相关系数的距离测度方法 - Google Patents

基于斜率、截距和相关系数的距离测度方法 Download PDF

Info

Publication number
CN102306299A
CN102306299A CN201110207407A CN201110207407A CN102306299A CN 102306299 A CN102306299 A CN 102306299A CN 201110207407 A CN201110207407 A CN 201110207407A CN 201110207407 A CN201110207407 A CN 201110207407A CN 102306299 A CN102306299 A CN 102306299A
Authority
CN
China
Prior art keywords
sicd
collection
object set
distance
feature space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110207407A
Other languages
English (en)
Inventor
徐小军
周国模
杜华强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang A&F University ZAFU
Original Assignee
Zhejiang A&F University ZAFU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang A&F University ZAFU filed Critical Zhejiang A&F University ZAFU
Priority to CN201110207407A priority Critical patent/CN102306299A/zh
Publication of CN102306299A publication Critical patent/CN102306299A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于斜率、截距和相关系数的距离测度方法,按如下步骤进行:一是确定特征空间,提取参照集和目标集,按样地地理坐标,提取样地特征空间并结合样地森林调查因子属性构建参照集,将整个研究区影像特征空间作目标集。二是构造SICD距离测度,先计算参照集和目标集特征空间之间的线性回归方程,再以三维空间点坐标表述SICD,当SICD越小时,目标集与参照集样本越相似,反之,越不相似。三是SICD距离测度的应用,计算两集的SICD并对SICD排序,选取k个距离最短的参照集,以距离倒数计算权重,权重乘以对应参照集求和得估算结果。用本方法构建的距离测度,能降低噪声影响、有效确定最近邻样本及次序,提高估算精度。

Description

基于斜率、截距和相关系数的距离测度方法
【技术领域】
本发明属于数据计算和推算领域,具体是一种基于斜率、截距和相关系数的kNN(k-Nearest Neighbor)算法的距离测度方法。
【背景技术】
kNN算法是一个理论上较成熟的方法,也是最简单的机器学习算法之一,已被广泛应用于分类、回归和模式识别等领域中。训练样本的特征空间及研究对象称为参照集。整个研究区的特征空间称为目标集。在kNN算法中,距离测度起到非常重要的作用,是选择目标集k个最近邻参照集的工具。对于分类,如果一个目标在特征空间中的k个最近邻的参照集大多数属于某一个类别,则该目标就被判定为这个类别。对于回归,通过距离测度找到一个目标的k个最近邻参照集,将这些近邻参照集的属性以目标集与参照集之间距离倒数为权重进行加权平均,从而得到该目标的属性。
森林资源连续清查是我国实施林业可持续发展重要保障。为了提高清查效率和精度,遥感技术、全球定位系统和地理信息系统技术被广泛地应用于森林资源清查中。随着调查技术和手段的提高,kNN算法作为一种非参数估算方法,能够很好地与遥感影像结合,最先被用于芬兰国家森林资源调查中并得到高度肯定。美国明尼苏达大学(University of Minnesota)自然资源学院联合其他机构开展kNN计划,目的是研究利用卫星遥感资料、样地调查和kNN算法调查美国的森林资源。可见,kNN算法是森林资源调查中常用的估算方法之一。
但是,kNN算法在像元级上的估算精度并不理想,具有较大的误差。前人的研究已提出一些改进kNN算法的方法。例如,采用遗传算法(Genetic algorithm,GA)来优化最近邻权重以及对最近邻样本重新排序和去伪最近邻样本;采用模糊距离(FuzzyDistance,FD)确定最近邻样本。
【发明内容】
鉴于距离测度在kNN算法中的重要地位。本发明提出一种新的距离测度,即采用参照集与目标集之间的回归斜率、截距和相关系数来确定最近邻样本。当参照集与目标集高度相似时,两者之间的回归方程将逼近于y=x方程,即斜率、截距和相关系数分别越接近于1、0和1时,参照集与目标集越相似。
解决上述技术问题的技术方案是按如下步骤进行:
(1)确定特征空间,提取参照集和目标集:
根据样地调查地理坐标,提取样地的特征空间(美国陆地卫星5号专题制图仪(Landsat Thematic Mapper,Landsat TM)影像的1~5,7波段)并结合样地森林调查因子属性(胸径、树高、碳储量等)构建参照集,将整个研究区影像特征空间作为目标集;(2)构造基于斜率、截距和相关系数距离测度(Slope,Interceptand Correlation Distance,SICD):
a、计算参照集与目标集特征空间之间的线性回归方程:
以目标集特征空间为自变量(y),参照集特征空间为因变量(x),通过最小二乘法建立目标集与每个参照集之间的回归方程:
yi,l=axj,l+b+ε                [1]
其中:yi,l为第i个目标集第l个特征空间,xj,l为第j个参照集第l个特征空间,a和b分别为斜率和截距,ε为残差;
b、以三维空间点坐标表述SICD,即求[a,b,r]与[1,0,1]两点之间的空间欧氏距离,为了消除a、b、r之间的尺度问题,分别对其进行归一化处理,SICD计算公式:
SICD i , j = ( a i , j - 1 ) 2 Σ j = 1 n ( a ij - 1 ) 2 + ( b i , j - 0 ) 2 Σ j = 1 n ( b i , j - 0 ) 2 + ( r i , j - 1 ) 2 Σ j = 1 n ( r ij - 1 ) 2 - - - [ 2 ]
其中:ri,j为第i个目标集与第j个参照集的相关系数,n为参照集样本个数;
判断准则为:SICD越小,说明目标集与参照集样本越相似,反之,越不相似;
(3)SICD距离测度的应用:
计算目标集与参照集的SICD并对SICD排序,选取k个距离最短的参照集,以距离倒数计算权重,最后将权重乘以对应参照集并求和即得到估算结果。
本发明具有下列有益效果:能够降低特征空间噪声对选取最近邻样本的影响,更有效地确定k个最近邻样本及其次序,从而在一定程度上提高估算精度。
【附图说明】
图1为本发明的流程图。
图2为参照集与目标集特征空间之间的线性回归方程图。
图3为欧氏(ED)、马氏(MD)和SICD距离测度估算结果的平均相对误差对比图。
图4为欧氏(ED)、马氏(MD)和SICD距离测度估算结果的变异系数对比图。
【具体实施方式】
下面结合实施例并参照附图对本发明作进一步详述:
需要说明的是,本发明以毛竹林地上部分碳储量(Aboveground carbon,AGC)估算为例,本发明的流程如图1所示。具体步骤如下:
(1)确定特征空间,提取参照集和目标集:
根据样地调查地理坐标,提取Landsat TM影像的1~5、7波段并结合毛竹林样地AGC构建参照集,将整个研究区影像特征空间作为目标集;
毛竹林样地调查和AGC估算:
a、待调查样地确定:在毛竹主产区安吉县和临安市,通过分层抽样技术选取毛竹样地83个;
b、调查因子确定:样地地理坐标、胸径、龄级、海拔、坡度、郁闭度等;
c、样地AGC估算:由下式估算单株毛竹林AGC:
A G ^ C = ( 747.787 DBH 2.771 ( 0.148 A 0.028 + A ) 5555 + 3.772 ) × 0.5042 - - - [ 3 ]
其中:DBH表示胸径,A表示龄级即度数,毛竹生物量与碳储量的转换系数为0.5042;
Landsat TM数据预处理:
a、几何校正:从1∶50000地形图上选取若干地面控制点对影像进行几何校正,校正误差为0.51个像元,采用最近邻法将像元采样到30m×30m;
b、辐射校正:采用暗物体去除法(Dark Object Subtraction,DOS3)对影像进行辐射校正,将像元值转化为反射率为0-1之间;最暗物体像元值和漫入射值是DOS3模型最重要的两个参数。每个波段最暗物体像元值用对应波段中像元数在1000个左右的像元值来代替;利用6S模型估算在550nm零气溶胶光学厚度时的瑞利大气漫射作为漫入射值;
c、地形校正:采用C校正模型对影像进行地形校正,其表达式如下:
L T = L × ( cos ( θ ) + c cos ( β ) + c ) - - - [ 4 ]
c = b a - - - [ 5 ]
cos(β)=cos(α)×cos(θ)+sin(α)×sin(θ)×cos(λ-ω)   [6]
其中:LT校正后像元辐射值,L未校正像元辐射值,a和b为像元辐射值与太阳入射角余弦值拟合线性回归方程的斜率和截距,θ为太阳天顶角,β为太阳入射角,α为像元所在平面的坡度,λ为太阳方位角,ω为像元所在平面的坡向;坡度和坡向采用下载于国际科技服务平台网站(http://datamirror.csdb.cn/)的ASTER GDEM数据计算得到;
(2)计算SICD距离:
a、计算参照集与目标集TM 1~5、7波段之间的线性回归方程:
参照图2,以目标集TM 1~5、7波段为自变量(y),参照集TM 1~5、7波段为因变量(x),通过最小二乘法建立目标集与每个参照集之间的回归方程:
yi,l=axj,l+b+ε                       [7]
其中:yi,l为第i个目标集第l波段,xj,l为第j个参照集第l波段,a和b分别为斜率和截距,ε为残差;
b、计算SICD值:
SICD i , j = ( a i , j - 1 ) 2 Σ j = 1 n ( a ij - 1 ) 2 + ( b i , j - 0 ) 2 Σ j = 1 n ( b i , j - 0 ) 2 + ( r i , j - 1 ) 2 Σ j = 1 n ( r ij - 1 ) 2 - - - [ 8 ]
其中:ri,j为第i个目标集与第j个参照集TM 1~5、7波段之间的相关系数,n为参照集样本个数;
(3)SICD距离测度的应用:
a、确定最优k值:将参照集中每个样本单独作为一次测试集,剩余n-1个样本则作为训练集,计算SICD值;
b、计算估测AGC:
y ^ i = Σ j = 1 k w i , j y j - - - [ 9 ]
w i , j = SICD i , j - m Σ j = 1 k SICD i , j - m , j ∈ J 0 , j ∉ J , - - - [ 10 ]
其中:
Figure BSA00000543092000064
为估测AGC,yj为第j个最近邻样本对应实测AGC,j=1,2,...,k,k为最近邻样本个数,wi,j为目标像元i与最近邻样本j距离的倒数,Di,j为目标像元i与最近邻样本j距离,m为调整参数,通常取0、1或2,本实例取1。
c、计算在不同k值下,估测AGC与实测AGC的平均相对误差(Mean relative error,MRE)和变异系数(Coefficient ofvariation,CV);
MRE = 1 n Σ i = 1 n ( 1 y i | y ^ i - y i | ) × 100 % - - - [ 11 ]
CV = 1 y mean 1 n Σ i = 1 n ( y ^ i - y mean ) 2 × 100 % - - - [ 12 ]
其中:ymean为实测AGC的平均值;
d、根据MRE和CV确定最优k值;
参照图3和图4,通过比较欧氏(Euclidean Distance,ED)、马氏(Mahalanobis Distance,MD)和SICD距离发现,SICD、ED和MD的最优k值分别为5,10和10,基于SICD的MRE值(20.90%)要稍微低于ED(21.95%)和MD(22.36%)的MRE值,因此,基于SICD的kNN估算精度要高于ED和MD。

Claims (1)

1.一种基于斜率、截距和相关系数的距离侧度方法,其特征是按如下步骤进行:
(1)确定特征空间,提取参照集和目标集:
根据样地调查地理坐标,提取样地的特征空间并结合样地森林调查因子属性构建参照集,将整个研究区影像特征空间作为目标集;
(2)构造SICD距离测度:
a、计算参照集与目标集特征空间之间的线性回归方程:以目标集特征空间为自变量(y),参照集特征空间为因变量(x),通过最小二乘法建立目标集与每个参照集之间的回归方程:
yi,l=axj,l+b+ε                     [1]
其中:yi,l为第i个目标集第l个特征空间,xj,l为第j个参照集第l个特征空间,a和b分别为斜率和截距,ε为残差;
b、以三维空间点坐标表述SICD,即求[a,b,r]与[1,0,1]两点之间的空间欧氏距离,为了消除a、b、r之间的尺度问题,分别对其进行归一化处理,SICD计算公式:
SICD i , j = ( a i , j - 1 ) 2 Σ j = 1 n ( a ij - 1 ) 2 + ( b i , j - 0 ) 2 Σ j = 1 n ( b i , j - 0 ) 2 + ( r i , j - 1 ) 2 Σ j = 1 n ( r ij - 1 ) 2 - - - [ 2 ]
其中:ri,j为第i个目标集与第j个参照集的相关系数,n为参照集样本个数;
判断准则为:SICD越小,说明目标集与参照集样本越相似,反之,越不相似;
(3)SICD距离测度的应用:
计算目标集与参照集的SICD并对SICD排序,选取k个距离最短的参照集,以距离倒数计算权重,最后将权重乘以对应参照集并求和即得到估算结果。
CN201110207407A 2011-07-22 2011-07-22 基于斜率、截距和相关系数的距离测度方法 Pending CN102306299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110207407A CN102306299A (zh) 2011-07-22 2011-07-22 基于斜率、截距和相关系数的距离测度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110207407A CN102306299A (zh) 2011-07-22 2011-07-22 基于斜率、截距和相关系数的距离测度方法

Publications (1)

Publication Number Publication Date
CN102306299A true CN102306299A (zh) 2012-01-04

Family

ID=45380159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110207407A Pending CN102306299A (zh) 2011-07-22 2011-07-22 基于斜率、截距和相关系数的距离测度方法

Country Status (1)

Country Link
CN (1) CN102306299A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945331A (zh) * 2012-11-26 2013-02-27 中国人民解放军信息工程大学 一种确定地形起伏度最佳分析区域的方法
CN107123115A (zh) * 2017-04-25 2017-09-01 南京大学 一种基于图像处理的谷物收割清选损失实时在线检测方法
CN107798418A (zh) * 2017-09-28 2018-03-13 东南大学 一种基于交通分析小区的交通事故频次预测方法
CN116433748A (zh) * 2023-06-14 2023-07-14 南开大学 一种林地多源数据融合的森林碳储量确定方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945331A (zh) * 2012-11-26 2013-02-27 中国人民解放军信息工程大学 一种确定地形起伏度最佳分析区域的方法
CN107123115A (zh) * 2017-04-25 2017-09-01 南京大学 一种基于图像处理的谷物收割清选损失实时在线检测方法
CN107123115B (zh) * 2017-04-25 2019-12-10 南京大学 一种基于图像处理的谷物收割清选损失实时在线检测方法
CN107798418A (zh) * 2017-09-28 2018-03-13 东南大学 一种基于交通分析小区的交通事故频次预测方法
CN116433748A (zh) * 2023-06-14 2023-07-14 南开大学 一种林地多源数据融合的森林碳储量确定方法及系统
CN116433748B (zh) * 2023-06-14 2023-08-22 南开大学 一种林地多源数据融合的森林碳储量确定方法及系统

Similar Documents

Publication Publication Date Title
Jiang et al. Estimating the aboveground biomass of coniferous forest in Northeast China using spectral variables, land surface temperature and soil moisture
Zhang et al. Assessing of urban vegetation biomass in combination with LiDAR and high-resolution remote sensing images
Yahiaoui et al. Soil salinity prediction in the Lower Cheliff plain (Algeria) based on remote sensing and topographic feature analysis
Wainwright et al. Identifying multiscale zonation and assessing the relative importance of polygon geomorphology on carbon fluxes in an Arctic tundra ecosystem
Bai et al. Estimation of surface soil moisture with downscaled land surface temperatures using a data fusion approach for heterogeneous agricultural land
Du et al. Impact of urban expansion on land surface temperature in Fuzhou, China using Landsat imagery
Kiptala et al. Land use and land cover classification using phenological variability from MODIS vegetation in the Upper Pangani River Basin, Eastern Africa
Jiang et al. Characterising dryland salinity in three dimensions
CN104656098A (zh) 一种遥感森林生物量反演的方法
CN109871637B (zh) 一种云天条件下近地面气温估算方法
CN104239706A (zh) 一种地面观测气温时空数据集的制备方法
CN101936777A (zh) 一种基于热红外遥感反演近地层气温的方法
Chen et al. An all-sky 1 km daily surface air temperature product over mainland China for 2003–2019 from MODIS and ancillary data
CN103196698A (zh) 一种基于近地传感器技术的土壤采样方法
CN102306299A (zh) 基于斜率、截距和相关系数的距离测度方法
Chattopadhyay et al. A description of the Madden–Julian oscillation based on a self-organizing map
Şahin et al. Modelling and remote sensing of land surface temperature in Turkey
CN105116464A (zh) 基于神经网络模型的极地海冰融池提取方法
Zhu et al. Fusion of multisensor SSTs based on the spatiotemporal hierarchical Bayesian model
Copertino et al. Comparison of algorithms to retrieve land surface temperature from Landsat-7 ETM+ IR data in the Basilicata Ionian band
Chen et al. Comparative study on WRF model simulations from the viewpoint of optimum ship routing
Huo et al. Development and testing of a remote sensing-based model for estimating groundwater levels in aeolian desert areas of China
CN103049916B (zh) 一种基于光谱斜率差异检测地表覆盖变化的方法
Kim et al. Retrieval of land surface temperature using Landsat 8 images with deep neural networks
Xia et al. A spatial frequency/spectral indicator-driven model for estimating cultivated land quality using the gradient boosting decision tree and genetic algorithm-back propagation neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120104