CN108287928A - 一种基于局部加权线性回归的空间属性预测方法 - Google Patents
一种基于局部加权线性回归的空间属性预测方法 Download PDFInfo
- Publication number
- CN108287928A CN108287928A CN201810180296.8A CN201810180296A CN108287928A CN 108287928 A CN108287928 A CN 108287928A CN 201810180296 A CN201810180296 A CN 201810180296A CN 108287928 A CN108287928 A CN 108287928A
- Authority
- CN
- China
- Prior art keywords
- space
- space length
- model
- subnumber
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于局部加权线性回归的空间属性预测方法,采用多元线性回归方法对空间属性之间的影响关系进行数学建模,在线性回归分析的拟合评估表达式中引入空间距离因子来解决,让空间距离与分析目标的影响度呈反相关的关系,空间距离越近的数据对分析目标的影响越大,空间距离越远的数据对分析目标的影响越小。本发明计算复杂度较低,计算结果唯一且简单,利于程序处理,能够处理各种空间属性的线性组合关系,并且有效解决了采用现有的线性回归分析方法进行多维空间属性的组合分析时存在的欠拟合问题。
Description
技术领域
本发明属于统计学习和地理信息系统技术领域,具体涉及一种基于局部加权线性回归的空间属性预测方法的设计。
背景技术
地理信息系统(Geographic Information System,GIS)又被称为“地学信息系统”,是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。
在地理信息系统中,通常地理区域的多个空间业务属性之间具有相关性,比如:交通覆盖属性、植被覆盖属性、商业密度属性都会影响房价属性,某一空间属性是由其他多个空间属性综合影响的结果。采用多元线性回归方法对空间属性之间的影响关系进行数学建模,可以实现对空间属性值的预测分析。但是普通线性分析方法在使用线性回归进行多维空间属性的组合分析时,没有考虑分析区域之间的空间距离关系,导致分析预测结果与实际结果出入较大,存在比较严重的欠拟合问题。
发明内容
本发明的目的是为了解决采用现有的线性回归分析方法进行多维空间属性的组合分析时,存在比较严重的欠拟合问题,提出了一种基于局部加权线性回归的空间属性预测方法。
本发明的技术方案为:一种基于局部加权线性回归的空间属性预测方法,包括以下步骤:
S1、选取地理信息系统中用户指定的一个研究区域为分析区域。
S2、通过空间查询提取分析区域的业务属性和经纬度坐标。
其中业务属性包括房价、房屋面积和交通覆盖指数。
S3、根据分析区域的业务属性构建训练数据集。
以分析区域内各地点的房屋面积和交通覆盖指数为输入变量x(i),以分析区域内各地点的房价为输出变量y(i),构建训练数据集{(x(i),y(i));i=1,2,...,m};其中上标(i)表示训练数据集的索引标号,m为训练数据集的样本总数。
S4、根据分析区域的业务属性构建机器学习的计算模型。
构建关于输入变量x的线性函数h0(x):
h0(x)=θ0+θ1x1+θ2x2 (1)
其中θ0表示截距项权重参数,θ1表示房屋面积权重参数,θ2表示交通覆盖指数权重参数,x1表示房屋面积,x2表示交通覆盖指数;
对公式(1)进行二次项拟合,得到机器学习的计算模型:
S5、根据分析区域的经纬度坐标计算得到空间距离因子,并将空间距离因子添加进计算模型,得到空间距离子数衰减模型。
根据分析区域的经纬度坐标计算得到空间距离因子w(i),计算公式为:
其中|l(i)-l|表示第i个训练样本对应地点到其他样本对应地点的平均距离,由各个训练样本对应地点的经纬度坐标计算得到;τ为带宽参数;
将空间距离因子w(i)添加进计算模型,得到空间距离子数衰减模型:
f(x(i))=w(i)(y(i)-h(x(i)))2 (4)
S6、将训练数据集输入空间距离子数衰减模型,采用梯度下降法对空间距离子数衰减模型进行训练。
将训练数据集输入空间距离子数衰减模型,对于单个训练样本,采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练,j=0,1,2;
其中α为学习速率,当j取值为0时,xj=x0=1;
对于多个训练样本,采用批量梯度下降法或随机梯度下降法对空间距离子数衰减模型中的权重参数θj进行训练;
批量梯度下降法具体为:重复使用公式(6)对θj进行训练直到θj收敛;
随机梯度下降法具体为:对整个训练数据集进行循环遍历,每遇到一个训练样本,则采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练。
S7、根据训练后的空间距离子数衰减模型构建参数评估模型:
S8、提取使得参数评估模型值最小的空间属性权重参数,并将其用于对真实数据进行预测。
本发明的有益效果是:
(1)本发明采用线性函数进行计算,计算复杂度较低。
(2)本发明计算结果唯一且简单,利于程序处理。
(3)本发明采用多元线性回归处理各种空间属性的线性组合关系,与实际情况相符。
附图说明
图1所示为本发明实施例提供的一种基于局部加权线性回归的空间属性预测方法流程图。
图2示为本发明实施例提供的欠拟合曲线图。
图3示为本发明实施例提供的过拟合曲线图。
图4示为本发明实施例提供的正常拟合曲线图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
一种基于局部加权线性回归的空间属性预测方法,如图1所示,包括以下步骤S1-S8:
S1、选取地理信息系统中用户指定的一个研究区域为分析区域。
本发明实施例中,用户指定的一个研究区域可以为一个区域经济规划板块,一个行政区,一个经济发展区等。
S2、通过空间查询提取分析区域的业务属性和经纬度坐标。
本发明实施例中,业务属性包括房价、房屋面积和交通覆盖指数。
S3、根据分析区域的业务属性构建训练数据集。
以分析区域内各地点的房屋面积和交通覆盖指数为输入变量x(i),以分析区域内各地点的房价为输出变量y(i),构建训练数据集{(x(i),y(i));i=1,2,...,m};其中上标(i)表示训练数据集的索引标号,m为训练数据集的样本总数。
S4、根据分析区域的业务属性构建机器学习的计算模型。
构建关于输入变量x的线性函数h0(x):
h0(x)=θ0+θ1x1+θ2x2 (1)
其中θ0表示截距项权重参数,θ1表示房屋面积权重参数,θ2表示交通覆盖指数权重参数,x1表示房屋面积,x2表示交通覆盖指数。
由于在实际训练过程中,训练数据的趋势一般不是一条严格的直线,因此这里采用公式(1)就会出现欠拟合的现象,如图2所示。因此本发明实施例中需要对公式(1)中的特征进行补充,理论上对特征补充得越多,效果就越好,但增加太多特征也会造成过拟合现象,如图3所示,若采用五次多项式进行拟合则出现过拟合现象。
因此本发明实施例中对公式(1)进行二次项拟合,得到机器学习的计算模型:
拟合后的图像如图4所示。
S5、根据分析区域的经纬度坐标计算得到空间距离因子,并将空间距离因子添加进计算模型,得到空间距离子数衰减模型。
本发明实施例中需要在计算模型中引入空间距离因子,让空间距离与分析目标的影响度呈反相关的关系,空间距离越近的数据对分析目标的影响越大,空间距离越远的数据对分析目标的影响越小。
根据分析区域的经纬度坐标计算得到空间距离因子w(i),计算公式为:
其中|l(i)-l|表示第i个训练样本对应地点到其他样本对应地点的平均距离,由各个训练样本对应地点的经纬度坐标计算得到(实际计算时,为减小计算量,可将分析区域划分为一个个正六边形的子区域,形成形状酷似“蜂窝”的结构,然后仅计算第i个训练样本对应地点到“蜂窝”结构内其他样本对应地点的平均距离);τ为带宽参数。
w(i)是一个非负的权值,取决于每个训练样本对应的预测评估地点。如果|l(i)-l|非常小,那么权值w(i)就接近于1;反之如果|l(i)-l|非常大,那么权值w(i)就变小。随着训练样本对应地点到查询点的距离的距离降低,训练样本的权值也在降低,参数τ控制了这个降低的速度。
将空间距离因子w(i)添加进计算模型,得到空间距离子数衰减模型:
f(x(i))=w(i)(y(i)-h(x(i)))2 (4)
S6、将训练数据集输入空间距离子数衰减模型,采用梯度下降法对空间距离子数衰减模型进行训练。
将训练数据集输入空间距离子数衰减模型,对于单个训练样本,采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练,j=0,1,2。
其中α为学习速率,当j取值为0时,xj=x0=1。
对于多个训练样本,采用批量梯度下降法或随机梯度下降法对空间距离子数衰减模型中的权重参数θj进行训练。
其中,批量梯度下降法在每一个步长内检查所有整个训练数据集中的所有训练样本,具体方法为:重复使用公式(6)对θj进行训练直到θj收敛。
随机梯度下降法具体为:对整个训练数据集进行循环遍历,每遇到一个训练样本,则采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练。
S7、根据训练后的空间距离子数衰减模型构建参数评估模型。
为了挑选出合适的权重参数θj,比较合理的方法是让f(x(i))h(x)尽量逼近y(i),用公式来衡量对于每个不同的θj值,f(x(i))与对应的y(i)的距离,就要构造一个参数评估模型,也叫成本函数:
S8、提取使得参数评估模型值J(θj)最小的空间属性权重参数θj,并将其用于对真实数据进行预测。
本领域的普通技术人员将会意识到,这里的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (7)
1.一种基于局部加权线性回归的空间属性预测方法,其特征在于,包括以下步骤:
S1、选取地理信息系统中用户指定的一个研究区域为分析区域;
S2、通过空间查询提取分析区域的业务属性和经纬度坐标;
S3、根据分析区域的业务属性构建训练数据集;
S4、根据分析区域的业务属性构建机器学习的计算模型;
S5、根据分析区域的经纬度坐标计算得到空间距离因子,并将空间距离因子添加进计算模型,得到空间距离子数衰减模型;
S6、将训练数据集输入空间距离子数衰减模型,采用梯度下降法对空间距离子数衰减模型进行训练;
S7、根据训练后的空间距离子数衰减模型构建参数评估模型;
S8、提取使得参数评估模型值最小的空间属性权重参数,并将其用于对真实数据进行预测。
2.根据权利要求1所述的空间属性预测方法,其特征在于,所述步骤S2中的业务属性包括房价、房屋面积和交通覆盖指数。
3.根据权利要求2所述的空间属性预测方法,其特征在于,所述步骤S3具体为:
以分析区域内各地点的房屋面积和交通覆盖指数为输入变量x(i),以分析区域内各地点的房价为输出变量y(i),构建训练数据集{(x(i),y(i));i=1,2,...,m};其中上标(i)表示训练数据集的索引标号,m为训练数据集的样本总数。
4.根据权利要求3所述的空间属性预测方法,其特征在于,所述步骤S4具体为:
构建关于输入变量x的线性函数h0(x):
h0(x)=θ0+θ1x1+θ2x2 (1)
其中θ0表示截距项权重参数,θ1表示房屋面积权重参数,θ2表示交通覆盖指数权重参数,x1表示房屋面积,x2表示交通覆盖指数;
对公式(1)进行二次项拟合,得到机器学习的计算模型:
5.根据权利要求4所述的空间属性预测方法,其特征在于,所述步骤S5具体为:
根据分析区域的经纬度坐标计算得到空间距离因子w(i),计算公式为:
其中|l(i)-l|表示第i个训练样本对应地点到其他样本对应地点的平均距离,由各个训练样本对应地点的经纬度坐标计算得到;τ为带宽参数;
将空间距离因子w(i)添加进计算模型,得到空间距离子数衰减模型:
f(x(i))=w(i)(y(i)-h(x(i)))2 (4)。
6.根据权利要求5所述的空间属性预测方法,其特征在于,所述步骤S6具体为:
将训练数据集输入空间距离子数衰减模型,对于单个训练样本,采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练,j=0,1,2;
其中α为学习速率,当j取值为0时,xj=x0=1;
对于多个训练样本,采用批量梯度下降法或随机梯度下降法对空间距离子数衰减模型中的权重参数θj进行训练;
所述批量梯度下降法具体为:重复使用公式(6)对θj进行训练直到θj收敛;
所述随机梯度下降法具体为:对整个训练数据集进行循环遍历,每遇到一个训练样本,则采用公式(5)对空间距离子数衰减模型中的权重参数θj进行训练。
7.根据权利要求6所述的空间属性预测方法,其特征在于,所述步骤S7中的参数评估模型为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810180296.8A CN108287928A (zh) | 2018-03-05 | 2018-03-05 | 一种基于局部加权线性回归的空间属性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810180296.8A CN108287928A (zh) | 2018-03-05 | 2018-03-05 | 一种基于局部加权线性回归的空间属性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108287928A true CN108287928A (zh) | 2018-07-17 |
Family
ID=62833387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810180296.8A Pending CN108287928A (zh) | 2018-03-05 | 2018-03-05 | 一种基于局部加权线性回归的空间属性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108287928A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200177994A1 (en) * | 2018-11-29 | 2020-06-04 | Nokia Technologies Oy | Audio mixing for distributed audio sensors |
CN112668801A (zh) * | 2021-01-04 | 2021-04-16 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN112733688A (zh) * | 2020-12-30 | 2021-04-30 | 中国科学技术大学先进技术研究院 | 房屋的属性值预测方法、装置、终端设备以及存储介质 |
CN117272992A (zh) * | 2023-08-21 | 2023-12-22 | 华中师范大学 | 一种融合物性知识提示的数学应用题机器解答系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426026A (zh) * | 2013-09-10 | 2013-12-04 | 信阳师范学院 | 一种混合神经网络预测及识别景区气象要素的方法 |
CN104008644A (zh) * | 2014-06-06 | 2014-08-27 | 中国民航大学 | 一种基于梯度下降的城市道路交通噪声测量方法 |
US20150363688A1 (en) * | 2014-06-13 | 2015-12-17 | Microsoft Corporation | Modeling interestingness with deep neural networks |
CN106384197A (zh) * | 2016-09-13 | 2017-02-08 | 北京协力筑成金融信息服务股份有限公司 | 一种基于大数据的业务质量评估方法和装置 |
CN107067033A (zh) * | 2017-04-12 | 2017-08-18 | 邹霞 | 机器学习模型的局部修复方法 |
US20170271046A1 (en) * | 2016-03-15 | 2017-09-21 | Commscope, Inc. Of North Carolina | Multi-member cable with improved mid-span access |
CN107194525A (zh) * | 2017-03-23 | 2017-09-22 | 同济大学 | 一种基于手机信令的城市中心评估方法 |
CN107356969A (zh) * | 2017-09-06 | 2017-11-17 | 四川易利数字城市科技有限公司 | 一种基于卫星热红外数据及gis的地震前兆分析方法 |
CN107563803A (zh) * | 2017-08-24 | 2018-01-09 | 北京工商大学 | 一种基于耗费距离栅格的商圈划分方法 |
-
2018
- 2018-03-05 CN CN201810180296.8A patent/CN108287928A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426026A (zh) * | 2013-09-10 | 2013-12-04 | 信阳师范学院 | 一种混合神经网络预测及识别景区气象要素的方法 |
CN104008644A (zh) * | 2014-06-06 | 2014-08-27 | 中国民航大学 | 一种基于梯度下降的城市道路交通噪声测量方法 |
US20150363688A1 (en) * | 2014-06-13 | 2015-12-17 | Microsoft Corporation | Modeling interestingness with deep neural networks |
US20170271046A1 (en) * | 2016-03-15 | 2017-09-21 | Commscope, Inc. Of North Carolina | Multi-member cable with improved mid-span access |
CN106384197A (zh) * | 2016-09-13 | 2017-02-08 | 北京协力筑成金融信息服务股份有限公司 | 一种基于大数据的业务质量评估方法和装置 |
CN107194525A (zh) * | 2017-03-23 | 2017-09-22 | 同济大学 | 一种基于手机信令的城市中心评估方法 |
CN107067033A (zh) * | 2017-04-12 | 2017-08-18 | 邹霞 | 机器学习模型的局部修复方法 |
CN107563803A (zh) * | 2017-08-24 | 2018-01-09 | 北京工商大学 | 一种基于耗费距离栅格的商圈划分方法 |
CN107356969A (zh) * | 2017-09-06 | 2017-11-17 | 四川易利数字城市科技有限公司 | 一种基于卫星热红外数据及gis的地震前兆分析方法 |
Non-Patent Citations (1)
Title |
---|
ZYBLOG: "机器学习 第二章 机器学习 线性回归的概率解释 局部加权回归 逻辑回归", 《HTTPS://ZYZYPETER.GITHUB.IO/2017/07/18/MACHINE-LEARNING-CH2-PROBABILISTIC-INTERPRETATION-OF-LINEAR-REGRESSION-LOCALLY-WEIGHTED-REGRESSION-LOGISTIC-REGRESSION/》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200177994A1 (en) * | 2018-11-29 | 2020-06-04 | Nokia Technologies Oy | Audio mixing for distributed audio sensors |
US10728662B2 (en) * | 2018-11-29 | 2020-07-28 | Nokia Technologies Oy | Audio mixing for distributed audio sensors |
CN112733688A (zh) * | 2020-12-30 | 2021-04-30 | 中国科学技术大学先进技术研究院 | 房屋的属性值预测方法、装置、终端设备以及存储介质 |
CN112733688B (zh) * | 2020-12-30 | 2022-10-18 | 中国科学技术大学先进技术研究院 | 房屋的属性值预测方法、装置、终端设备以及计算机可读存储介质 |
CN112668801A (zh) * | 2021-01-04 | 2021-04-16 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN117272992A (zh) * | 2023-08-21 | 2023-12-22 | 华中师范大学 | 一种融合物性知识提示的数学应用题机器解答系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mirhoseini et al. | Device placement optimization with reinforcement learning | |
CN108287928A (zh) | 一种基于局部加权线性回归的空间属性预测方法 | |
CN106611052B (zh) | 文本标签的确定方法及装置 | |
Li et al. | A systematic sensitivity analysis of constrained cellular automata model for urban growth simulation based on different transition rules | |
Van Beers et al. | Kriging for interpolation in random simulation | |
CN109783632A (zh) | 客服信息推送方法、装置、计算机设备及存储介质 | |
CN108830288A (zh) | 图像处理方法、神经网络的训练方法、装置、设备及介质 | |
CN105786681B (zh) | 数据中心的服务器性能评估及服务器更新方法 | |
CN106548192A (zh) | 基于神经网络的图像处理方法、装置和电子设备 | |
CN107239967A (zh) | 房产信息处理方法、装置、计算机设备及存储介质 | |
CN109034386A (zh) | 一种基于资源调度器的深度学习系统及其方法 | |
Blecic et al. | How much past to see the future: a computational study in calibrating urban cellular automata | |
CN106095966A (zh) | 一种用户可扩展的标签标注方法及系统 | |
CN108108347A (zh) | 对话模式分析系统及方法 | |
CN107274215A (zh) | 航班价格预测方法、装置、设备和存储介质 | |
Goulart et al. | Dispersion of a passive scalar within and above an urban street network | |
CN110414624A (zh) | 基于多任务学习的分类模型构建方法及装置 | |
Ye et al. | Global optimization method using adaptive and parallel ensemble of surrogates for engineering design optimization | |
CN115392477A (zh) | 基于深度学习的Skyline查询基数估计方法及装置 | |
CN110168503A (zh) | 时间片插装设施 | |
CN114443034A (zh) | 优化界面布局的方法、装置、设备及介质 | |
CN108694176A (zh) | 文档情感分析的方法、装置、电子设备和可读存储介质 | |
CN106844175B (zh) | 一种基于机器学习的云平台容量规划方法 | |
Zhang et al. | Dynamic time warp-based clustering: Application of machine learning algorithms to simulation input modelling | |
Almomani et al. | Selecting a good stochastic system for the large number of alternatives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180717 |