CN102509177A - 一种基于云平台的局部加权线性回归预测运算的方法 - Google Patents

一种基于云平台的局部加权线性回归预测运算的方法 Download PDF

Info

Publication number
CN102509177A
CN102509177A CN2011103569434A CN201110356943A CN102509177A CN 102509177 A CN102509177 A CN 102509177A CN 2011103569434 A CN2011103569434 A CN 2011103569434A CN 201110356943 A CN201110356943 A CN 201110356943A CN 102509177 A CN102509177 A CN 102509177A
Authority
CN
China
Prior art keywords
data
distance
point
data point
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103569434A
Other languages
English (en)
Other versions
CN102509177B (zh
Inventor
刘建明
王继业
赵丙镇
栗宁
王风雨
张素香
吕厚雷
闫爱梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Beijing Guodiantong Network Technology Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201110356943.4A priority Critical patent/CN102509177B/zh
Publication of CN102509177A publication Critical patent/CN102509177A/zh
Application granted granted Critical
Publication of CN102509177B publication Critical patent/CN102509177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于云平台的局部加权线性回归预测运算的方法,运用映射简化计算框架对海量数据进行局部加权线性回归预测运算,步骤包括:确定带预测点,映射简化计算框架将待运算的数据点划分到多个节点储存在云平台上;各节点同时开始对划分到本节点上的待运算数据点进行运算,找到带运算数据点中距离符合第一阈值的数据点;对符合第一阈值的数据点中数据进行加权处理,利用加权处理后的数据值计算出回归系数,代入到回归方程,计算出的回归方程的解即为预测值。

Description

一种基于云平台的局部加权线性回归预测运算的方法
技术领域
本发明涉及云平台领域,特别涉及一种基于云平台的局部加权线性回归预测运算的方法。
背景技术
在调查研究的基础上,对事物的未来进行科学的分析,研究其发展变化的规律性叫做预测分析。实际生活中,某些现象的发展和变化取决于若干因素的影响。基于这些影响因素的主次关系与变化规律等要素,将其进行统计、分析和运算从而通过数学方法进行的实际预测,常用的方式就包括有线性回归算法。
局部加权线性回归算法,简称LWLR算法,就是应用在预测分析中一种常见的算法。该算法的主要思想是先去一定数量的局部数据,然后再通过这部分局部数据集中拟合多项式回归曲线,由此观察得到数据在局部表现出来的规律和趋势。不过该算法运算量非常巨大,特别是所运算的局部数据数目庞大的时候,单机计算的时间可能达到几天甚至更长。
随着智能电网技术的建设和发展,LWLR算法也多在其中发挥作用。智能电网旨在改造原有电网各环节,而实现更加环保、高效的现代化电力系统。同时,智能电网的建设中,数据量也发生爆炸式的增长。传统的单机计算实现LWLR算法的缺陷就在于,它对海量数据的处理能力已经远不能满足智能电网中的实际需要。
发明内容
有鉴于此,本发明主要目的是提供一种基于云平台的局部加权线性回归预测运算的方法,来解决大量数据运算过程中执行效率降低的问题。
本发明所述方法,具体技术方案如下:
一种基于云平台的局部加权线性回归预测运算的方法,其特征在于,所述方法将局部加权线性回归预测运算构建在映射简化计算框架之下,该方法包括以下步骤:
确定带预测点,映射简化计算框架将待运算的数据点划分到多个节点储存在云平台上;
各节点同时开始对划分到本节点上的待运算数据点进行运算,采用临近算法计算数据点与待测点的距离,找到带运算数据点中距离符合第一阈值的数据点,第一阈值的范围预先设定;
将每个节点上找到的符合第一阈值的数据点集中,并对数据点中数据进行加权处理,利用加权处理后的数据值计算出回归系数,代入到回归方程,计算出的回归方程的解即为预测值。
所述映射简化计算框架将带运算数据点划分到节点具体为:
映射计算框架估算数据总量以及算法对系统内存的消耗量,计算出需划分节点的个数。
优选的,所述将每个节点上找到的符合第一阈值的数据点集中进一步包括:
将所有符合第一阈值的数据点集中以后,再从中进一步筛选出符合第二阈值的数据点,第二阈值的范围预先设定。
所述对数据点进行加权处理具体为:
利用混合高斯模型计算各数据点的权重。
其特征在于,所述计算数据点与待测点的距离具体为:
将数据点与待测点数据分成用户ID、时间、温度和天气四个维度,分别计算数据点与待测点四个维度的距离,在计算四个维度距离的和,即为数据点与待测点的距离。
所述对用户ID信息数据距离的计算具体为:
数据点与待测点相同ID信息距离为0,不同ID信息距离为无穷大。
所述对时间信息数据距离的计算具体为:
以预定时长为单位的时间数据,制定周期环形模式计算距离,取数据点与待测点时间数据在周期环上最近的距离。
所述预定时长为月、星期、日或小时,并设定月周期环周长为30,星期周期环周长为7,日周期环周长为24,小时周期环周长为60。
所述对时间温度数据距离的计算具体为:
数据点与待测点温度数值间差值即为数据距离。
所述对天气信息数据距离的计算具体为:
将天气信息划分为有雨和无雨两种情况,设定有雨距离为1,无雨距离为0。
通过以上技术方案可知,本发明存在的有益效果为,通过映射简化计算框架将大量数据分成若干节点同时进行局部加权线性回归预测运算,从而成倍数缩短了计算时间,实现了高效处理海量数据,满足了目前阶段业务需要。
附图说明
图1:局部加权线性回归预测运算主要步骤流程图。
图2:MapReduce计算框架之下局部加权线性回归预测运算的方法具体实施例流程图。
具体实施方式
本发明提供一种基于云平台的局部加权线性回归预测运算的方法,即基于云平台实现LWLR预测算法的方法。通过将LWLR算法构建在云平台的映射计算框架中,利用映射简化计算框架将海量数据划分节点并行运算,从而提高效率。映射简化计算框架即MapReduce计算框架。
下面将结合附图对本发明的技术方案进行完整描述。而所描述的实施例仅仅是本发明中部分实施例。基于本发明中的实施例,本领域普通技术人员在没有经过创造性劳动情况下得出的其他实施方式,同样属于本发明保护的范围。
本发明所述方法为:
确定待测点,MapReduce计算框架将待运算的数据点划分到多个节点储存在云平台上,各节点同时对划分到本节点的数据点进行运算,利用邻近算法(k-Nearest Neighbor)即KNN算法在各节点中找出待测点附近的数据点,假设找到的数据点个数为K个;
KNN算法找出待测点附近数据点的过程,占用了整个过程中绝大部分的计算量。在目前达到1TB级别数据为特征空间的前提下,待预测点需要与特征空间中的每个数据点点计算距离,找到与待预测点距离最小的K个点,所以计算量十分巨大。
在Map阶段,MapReduce计算框架根据算法对系统内存的消耗量,确定并行节点的划分数量。例如:MapReduce计算框架将1TB的数据分成10块,每块100GB,分别存储在云平台的10个节点上,Map阶段实现计算待预测点与每个数据块中的所有的点最近的K个点,而各个节点的计算同时进行,所以通过这一过程使得计算速度提高了10倍。
在Reduce阶段,将Map阶段得出的每个节点得出的K个邻近数据点的数据集合起来,再进一步筛选,得出全部数据当中与待测点距离最近的K个数据点。
之后对找到的K个数据点做加权处理,根据数据点到待测点的距离,计算每个数据点的权重,在具体实施例中采用混合高斯模型计算权重;
对加权后的数据点,计算回归系数,将得出的回归系数代入回归方程,最终通过回归方程得出的值即为LWLR算法中预测的待测点数据。参照图1所示。
上述数据点与待测点的数据包含四个维度,分别是用户ID、时间、温度和天气。分别计算二者之间四个维度上的距离,再对四个距离求和即为数据点与待测点的距离。
对于四个维度上距离的计算,有以下处理规则:
对用户ID编号的处理为,待测点与数据点相同的用户ID编号距离为0,不同的用户ID编号距离为无穷大;
对时间的处理为,针对一年十二个月,一星期七天,一天24小时等循环周期性时间单位,做环形处理,例如,月份环设定1-12供12个点,星期环设1-7供7个点,单日环设0-23供24个点,待测点与数据点时间距离即为环上两点间的最近距离;
数据点与待测点温度数值间差值即为数据距离;
将天气信息划分为有雨和无雨两种情况,设定有雨距离为1,无雨距离为0。
参照图2,假设将所有数据点划分到10个节点上,如利用时间、温度以及以用户往用电量信息等数据,通过上述方法预测得出未来某一时间某范围内用户的用电量,其过程为:
1、Map阶段,将数据划分节点,各节点同时开始计算,在各个节点内分别找到与M距离最近的K个邻近点,距离的计算方式为D=D1+D2+D3+D4,其中D为总距离,D1,D2,D3,D4分别为用户ID、时间、温度,天气这四个分量之间的距离。D1的计算方式为若两个数据点的用户ID相同则D1=0,否则D1为无穷大;
D2=dd1+dd2+dd3+dd4,其中dd1,dd2,dd3,dd4分别为年份、月份、日、小时,dd1为年份之差,dd2,dd 3,dd4都是按照上述圆环模式来计算距离,环的周长分别为12,30,24;D3按照数值方式进行计算距离;D4把天气的有雨、无雨两个值分别对应1和0,然后计算距离;
2、Reduce阶段,将各个Map阶段获得K个邻近数据点与M之间的距离进行比较,取它们中间最小的K个,并记录最小距离对应的K个数据点;
3、使用混合高斯模型计算K个数据点各自的权重,计算回归系数,代入回归方程,回归方程为y=a0+a1x1+a2x2+a 3x3+a4x4,其中x1、x2、x3和x4为用户ID、时间、温度、天气四个因素转换成距离之后的初始数值,a 0、a 1、a 2、a 3与a4为计算得出的回归系数,求出y即预测结果,即用户在未来时间的用电量。
综上所述,本发明提供了一种基于云平台的局部加权线性回归预测运算的方法。本发明的特点在于,通过MapReduce计算框架,将LWLR算法中计算量最大的部分划分为多个节点并行计算,提高运算效率,缩短计算时间,以满足目前阶段的业务需求。
以上所述仅是本发明的优选实施方案,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应该视为本发明的保护范围。

Claims (10)

1.一种基于云平台的局部加权线性回归预测运算的方法,其特征在于,所述方法将局部加权线性回归预测运算构建在映射简化计算框架之下,该方法包括以下步骤:
确定带预测点,映射简化计算框架将待运算的数据点划分到多个节点储存在云平台上;
各节点同时开始对划分到本节点上的待运算数据点进行运算,采用临近算法计算数据点与待测点的距离,找到带运算数据点中距离符合第一阈值的数据点,第一阈值的范围预先设定;
将每个节点上找到的符合第一阈值的数据点集中,并对数据点中数据进行加权处理,利用加权处理后的数据值计算出回归系数,代入到回归方程,计算出的回归方程的解即为预测值。
2.根据权利要求1所述方法,其特征在于,所述映射简化计算框架将带运算数据点划分到节点具体为:
映射计算框架估算数据总量以及算法对系统内存的消耗量,计算出需划分节点的个数。
3.根据权利要求1所述方法,其特征在于,所述将每个节点上找到的符合第一阈值的数据点集中进一步包括:
将所有符合第一阈值的数据点集中以后,再从中进一步筛选出符合第二阈值的数据点,第二阈值的范围预先设定。
4.根据权利要求1所述方法,其特征在于,所述对数据点进行加权处理具体为:
利用混合高斯模型计算各数据点的权重。
5.根据权利要求1-4中任意一项所述方法,其特征在于,所述计算数据点与待测点的距离具体为:
将数据点与待测点数据分成用户ID、时间、温度和天气四个维度,分别计算数据点与待测点四个维度的距离,在计算四个维度距离的和,即为数据点与待测点的距离。
6.根据权利要求5所述方法,其特征在于,所述对用户ID信息数据距离的计算具体为:
数据点与待测点相同ID信息距离为0,不同ID信息距离为无穷大。
7.根据权利要求5所述方法,其特征在于,所述对时间信息数据距离的计算具体为:
以预定时长为单位的时间数据,制定周期环形模式计算距离,取数据点与待测点时间数据在周期环上最近的距离。
8.根据权利要求7所述方法,其特征在于:所述预定时长为月、星期、日或小时,并设定月周期环周长为30,星期周期环周长为7,日周期环周长为24,小时周期环周长为60。
9.根据权利要求5所述方法,其特征在于,所述对时间温度数据距离的计算具体为:
数据点与待测点温度数值间差值即为数据距离。
10.根据权利要求5所述方法,其特征在于,所述对天气信息数据距离的计算具体为:
将天气信息划分为有雨和无雨两种情况,设定有雨距离为1,无雨距离为0。
CN201110356943.4A 2011-11-11 2011-11-11 一种基于云平台的局部加权线性回归预测运算的方法 Active CN102509177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110356943.4A CN102509177B (zh) 2011-11-11 2011-11-11 一种基于云平台的局部加权线性回归预测运算的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110356943.4A CN102509177B (zh) 2011-11-11 2011-11-11 一种基于云平台的局部加权线性回归预测运算的方法

Publications (2)

Publication Number Publication Date
CN102509177A true CN102509177A (zh) 2012-06-20
CN102509177B CN102509177B (zh) 2014-12-31

Family

ID=46221257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110356943.4A Active CN102509177B (zh) 2011-11-11 2011-11-11 一种基于云平台的局部加权线性回归预测运算的方法

Country Status (1)

Country Link
CN (1) CN102509177B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462793A (zh) * 2014-11-25 2015-03-25 北京数迅科技有限公司 时间序列实时预测方法及装置
CN104504479A (zh) * 2015-01-05 2015-04-08 国家电网公司 两种考虑温度和经济增长因素的月度全社会用电量预测方法
CN110363321A (zh) * 2018-03-26 2019-10-22 吕纪竹 一种实时预测大数据变化趋势的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089023A1 (en) * 2007-09-27 2009-04-02 Fujitsu Limited Model creation support system, model creation support method, and model creation support program
CN101561495A (zh) * 2009-06-01 2009-10-21 长讯通信服务有限公司 一种无线传感器网络节点三维定位方法
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089023A1 (en) * 2007-09-27 2009-04-02 Fujitsu Limited Model creation support system, model creation support method, and model creation support program
CN101561495A (zh) * 2009-06-01 2009-10-21 长讯通信服务有限公司 一种无线传感器网络节点三维定位方法
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462793A (zh) * 2014-11-25 2015-03-25 北京数迅科技有限公司 时间序列实时预测方法及装置
CN104504479A (zh) * 2015-01-05 2015-04-08 国家电网公司 两种考虑温度和经济增长因素的月度全社会用电量预测方法
CN104504479B (zh) * 2015-01-05 2018-04-27 国家电网公司 两种考虑温度和经济增长因素的月度全社会用电量预测方法
CN110363321A (zh) * 2018-03-26 2019-10-22 吕纪竹 一种实时预测大数据变化趋势的方法
CN110363321B (zh) * 2018-03-26 2024-04-19 吕纪竹 一种实时预测大数据变化趋势的方法

Also Published As

Publication number Publication date
CN102509177B (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
Gao et al. An improved artificial bee colony algorithm for flexible job-shop scheduling problem with fuzzy processing time
Zhao et al. EnLSTM-WPEO: Short-term traffic flow prediction by ensemble LSTM, NNCT weight integration, and population extremal optimization
Gao et al. Pareto-based grouping discrete harmony search algorithm for multi-objective flexible job shop scheduling
Sen et al. A new approach to solve Economic Dispatch problem using a Hybrid ACO–ABC–HS optimization algorithm
Sun et al. Using a Grey–Markov model optimized by Cuckoo search algorithm to forecast the annual foreign tourist arrivals to China
CN102034350B (zh) 交通流数据短时预测方法及系统
Sedghi et al. Distribution network expansion considering distributed generation and storage units using modified PSO algorithm
Xiao et al. A combined model based on data pre-analysis and weight coefficients optimization for electrical load forecasting
Xiao et al. Research and application of a combined model based on multi-objective optimization for electrical load forecasting
CN108429256B (zh) 电力系统运行优化方法及终端设备
CN111832809B (zh) 基于Holt-Winters和极限学习机的建筑用能负荷预测方法及系统
CN102629106A (zh) 供水控制方法及系统
Wei et al. Research on cloud design resources scheduling based on genetic algorithm
CN103810538A (zh) 售电量分配方法和装置
Gunawan et al. An extensible framework for short-term holiday load forecasting combining dynamic time warping and LSTM network
Wang et al. An ecologically oriented operation strategy for a multi-reservoir system: A case study of the middle and lower Han River Basin, China
Aslan et al. Realization of Turkey’s energy demand forecast with the improved arithmetic optimization algorithm
Koo et al. Comparative study of short-term electric load forecasting
CN102509177A (zh) 一种基于云平台的局部加权线性回归预测运算的方法
Niu et al. Cooperation search algorithm for power generation production operation optimization of cascade hydropower reservoirs
CN113225994B (zh) 一种面向数据中心的智能空调控制方法
Xu et al. Differential evolution based on ε-domination and orthogonal design method for power environmentally-friendly dispatch
CN113887809A (zh) 双碳目标下配电网供需平衡方法、系统、介质及计算设备
US10931107B2 (en) System and method for management of an electricity distribution grid
CN112966883A (zh) 综合能源系统运行优化方法及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: STATE GRID INFORMATION + TELECOMMUNICATION CO., LT

Free format text: FORMER OWNER: BEIJING GUODIANTONG NETWORK TECHNOLOGY CO., LTD.

Effective date: 20120731

Owner name: STATE ELECTRIC NET CROP.

Free format text: FORMER OWNER: STATE GRID INFORMATION + TELECOMMUNICATION CO., LTD.

Effective date: 20120731

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100761 XUANWU, BEIJING TO: 100031 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20120731

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Co-applicant after: State Grid Information & Telecommunication Co., Ltd.

Co-applicant after: Beijing Guodiantong Network Technology Co., Ltd.

Address before: 100761 Beijing Xuanwu District city two, Baiguang Road

Applicant before: State Grid Information & Telecommunication Co., Ltd.

Co-applicant before: Beijing Guodiantong Network Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant