CN102819772A - 电力配网建设物资需求预测方法及装置 - Google Patents

电力配网建设物资需求预测方法及装置 Download PDF

Info

Publication number
CN102819772A
CN102819772A CN2012103139765A CN201210313976A CN102819772A CN 102819772 A CN102819772 A CN 102819772A CN 2012103139765 A CN2012103139765 A CN 2012103139765A CN 201210313976 A CN201210313976 A CN 201210313976A CN 102819772 A CN102819772 A CN 102819772A
Authority
CN
China
Prior art keywords
project
goods
measured
preset
use amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103139765A
Other languages
English (en)
Other versions
CN102819772B (zh
Inventor
李隽�
杨晶晶
齐志刚
金波
杨骏伟
廖红
杨灿魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201210313976.5A priority Critical patent/CN102819772B/zh
Publication of CN102819772A publication Critical patent/CN102819772A/zh
Application granted granted Critical
Publication of CN102819772B publication Critical patent/CN102819772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种电力配网建设物资需求预测方法,包括步骤:获取历史项目预设属性的参数和历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对聚类族采用关键词频分析法,确定项目类型属性,将各种历史项目物资使用量标准化到预设范围内;根据历史项目预设属性的参数、历史项目物资使用量、预设隐含节点数和项目类型属性,采用预设算法构建预测模型,根据预测模型确定隐含节点权重参数矩阵;获取待测项目预设属性的参数和待测项目的项目类型属性,根据隐含节点权重参数矩阵、待测项目预设属性的参数和项目类型属性,采用预测模型确定对应待测项目物资使用量。本方案提供相应装置,构建项目类型属性,提高确定物资使用量的准确率。

Description

电力配网建设物资需求预测方法及装置
技术领域
本发明涉及预测方法,特别是涉及电力配网建设物资需求预测方法及装置。
背景技术
物资管理作为现代企业的第三个利润源泉,日益成为企业战略的重要组成部分,成为提高企业经营效益、增强核心竞争力的重要力量。而对于物资密集型的企业(如电力企业),物资管理的重要与迫切性便更为突出。物资需求预测是根据历史的物资使用数据,利用数据挖掘方法,发现物资使用内在规律,指导企业在未来的物资投入与使用(如采购、物流、存储、领用等),减少人力、物力、财力的浪费,提高企业效益的重要方法,是物资管理的重要内容之一。
电力配网生产物资需求量大,且种类繁多。根据配网物资管理要求,每年开展物资需求预测工作,传统做法是由下至上的工作模式:下层机构调研、统计、估算、上报,上层机构审批、汇总、生成总体需求。从组织到收集,从审核到汇总,耗费大量人力物力,层层上报,审核工作量大,生成需求时间周期长,且准确率不高,对配网生产的物资购置,设备存储,物资领用等各生产环节产生不利影响,制约电力配网生产项目的高效高质建设。
对此,提高物资需求申报的准确率,保证配网生产物资使用及时得当,保证供应商按时按量供货,保证配网建设顺利进行,迫切需要一种提高电力配网物资需求准确的预测的方法。
发明内容
基于此,有必要针对提高电力配网建设物资需求预测准确性的问题,提供一种电力配网建设物资需求预测方法及装置。
一种电力配网建设物资需求预测方法,包括步骤:
获取历史项目预设属性的参数和各种历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对所述聚类族采用关键词频分析法,确定项目类型属性,将所述各种历史项目物资使用量标准化到预设范围内;
根据所述的历史项目预设属性的参数、所述标准化的各种历史项目物资使用量、预设隐含节点数和所述项目类型属性,采用预设算法构建预测模型,根据所述预测模型确定隐含节点权重参数矩阵;
获取待测项目预设属性的参数和待测项目的项目类型属性,根据所述隐含节点权重参数矩阵、所述待测项目预设属性的参数和待测项目的项目类型属性,采用所述预测模型确定对应待测项目物资使用量的预测值,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量。
上述电力配网建设物资需求预测方法,对历史项目物资使用量采用聚类算法进行分群,再采用关键词频分析,确定项目类型属性,将项目类型属性作为预测模型的一个输入条件,提高了确定物资使用量的准确率。
一种电力配网建设物资需求预测装置,包括:
预处理模块,用于获取历史项目预设属性的参数和各种历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对所述聚类族采用关键词频分析法,确定项目类型属性,将所述各种历史项目物资使用量标准化到预设范围内;
建模模块,用于根据所述的历史项目预设属性的参数、所述标准化的各种历史项目物资使用量、预设隐含节点数和所述项目类型属性,采用预设算法构建预测模型,根据所述预测模型确定隐含节点权重参数矩阵;
预测模块,用于获取待测项目预设属性的参数和待测项目的项目类型属性,根据所述隐含节点权重参数矩阵、所述待测项目预设属性的参数和待测项目的项目类型属性,采用所述预测模型确定对应待测项目物资使用量的预测值,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量。
上述电力配网建设物资需求预测装置,预处理模块对历史项目物资使用量采用聚类算法进行分群,再采用关键词频分析,确定项目类型属性,将项目类型属性作为预测模型的一个输入条件,提高了确定物资使用量的准确率。
附图说明
图1为本发明电力配网建设物资需求预测方法实施例一的流程示意图;
图2为本发明电力配网建设物资需求预测方法实施例二的流程示意图;
图3为本发明电力配网建设物资需求预测装置的结构示意图。
具体实施方式
以下针对本发明电力配网建设物资需求预测方法及装置的各实施例进行详细描述。
首先针对电力配网建设物资需求预测方法进行描述。
实施例一
参见图1,是本发明另一种电力配网建设物资需求预测方法实施例一的流程示意图,包括步骤:
步骤S101:获取历史项目预设属性的参数和各种历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对聚类族采用关键词频分析法,确定项目类型属性,将各种历史项目物资使用量标准化到预设范围内;
步骤S102:根据历史项目预设属性的参数、标准化的各种历史项目物资使用量、预设隐含节点数和项目类型属性,采用预设算法构建预测模型,根据预测模型确定隐含节点权重参数矩阵;
步骤S103:获取待测项目预设属性的参数和待测项目的项目类型属性,根据隐含节点权重参数矩阵、待测项目预设属性的参数和待测项目的项目类型属性,采用预测模型确定对应待测项目物资使用量的预测值,按标准化对应比例还原预测值,确定对应待测项目物资使用量。
首先获取历史项目预设属性的内容和历史项目物资使用量,预设属性可以为地市局信息、电压等级、预计完成期限、概算金额等,可以为其中的一个、两个或多个。
由于只利用基本属性进行预测效果不够好,为了提高算法准确率,本发明设法构造类型属性对每个项目的类型的进行描述。通过先聚类与后关键词频分析方法构造出如“配电站”,“负荷”,“重载”类项目等概念数十个,每个项目可能属于多个项目类型,也可能不属于任何一个项目类型。本发明选用GlobalK-Means算法作为项目领料物资数据的聚类算法,从一个既定的训练样本的整体中心开始,每次从训练样本中选取一个使聚类误差减少最大的点作为新的中心点,然后调整聚类中心,如此往复,直到到达K个中心点为止,以此来保证此K个中心点是最优的聚类中心点,也即使聚出来的类具有内聚度最高,耦合度最低的特点。因此Global K-Means相比较于普通K-Means的聚类算法,有更好的聚类效果,更加符合电力配网建设物资需求预测对聚类效果准确度高的要求。
给定一个距离的计算公式Dist,对于一个已经被聚到G类(i.e.C1,...,CG)的训练集
Figure BDA00002072086300041
其聚类误差可以计算为:
D ( C 1 , . . . , C G ) = Σ n = 1 Nc Σ g = 1 G δ ( x n ∈ C g ) Dist ( x n , mea n C g )
其中
Figure BDA00002072086300043
是样例Xn与类Cg中心点:
Mean C g = Σ i = 1 Nc δ ( x i ∈ C g ) x i Σ i = 1 Nc δ ( x i ∈ C g ) , δ ( x i ∈ C g ) = 0 if x i doesnotbelongto C g 1 if x i belongsto C g
的距离函数。该距离函数可以为欧氏距离,马氏距离等。其中,Nc是数据点的个数,
X = { x i } i = 1 N c ,
X有Nc个点。G是指聚类数,有G个类。Global K-Means每一轮对训练集的每一点进行考虑,取可以使到整体聚类误差最小的点作为新增的聚类中心,调整聚类中心后再用同样的方法添加新的中心点,如此反复,直到聚类数到达目标聚类数为止。其每一轮的计算复杂度为:O(nncd)其中n为样本容量,c为当前的聚类数,d为数据维度。
进一步地,本发明通过Fast Global K-Means对聚类进行加速,对于每一点能否作为聚类中心的计算由原来的计算整体聚类误差变为计算误差减少量,如下:
b n = Σ j = 1 N max ( d c - 1 j - | | x n - x j | | 2 , 0 ) , i = arg max n b n
其中
Figure BDA00002072086300052
是点xj到达先前生成的c-1个聚类中心里最近点的距离的平方,||xn-xj2为xj到xn的距离的平方。如果某个点被重新聚到以xn为聚类中心的新的类,其到xn的距离的平方必然比到原所属类中心点要小,其减少量
Figure BDA00002072086300053
必大于0,令其在bn上累计,则bn正比于点xn作为新的聚类中心的聚类误差的减小量,取令bn最大的点xn为新的聚类中心,可保证本轮聚类结果最优。此算法的每一轮的计算复杂度为O(nnd),比原始的Global K-Means要小很多。
进一步地,采用K-D Tree进行加速。即使Fast Global K-Means的复杂度比Global K-Means要小得多,但其计算复杂度仍然是比较大的。运用K-D Tree方法,将原始数据空间进行分割,保证物理上相近数据被划分到生成的K-D Tree的同一个叶子节点里。此加速方法的核心思想在于,对将每一个数据点是否成为新的聚类中心的考察转化为对已经分割好的每一个相邻紧密的簇的中心点进行考察,这样可以在基本保证聚类效果的情况之下有效降低算法复杂度。设定K-D Tree的每个叶子节点的容量为l,则算法的复杂度可以再由Fast GlobalK-Means的O(nnd)降低到O(nnd/l)。
对项目的历史项目物资使用量采用聚类算法进行项目分群后,对分群后的项目名称采用关键词频分析。由于电力配网项目的名称多有较为统一的规范,因此每一个项目的项目名称提供了此项目部分基本信息,如“XX10kv电桩工程”为一个关于“电桩”类的电压等级为10kv的项目,此类项目名称提供了电力配网项目的某些如用料,配电性质,电压等级等信息,因此找到每个项目名称里面的关键词成为了取得此部分项目信息的关键。
在Global K-Means产生的项目群中利用中文分词方法(如利用中国科学院汉语分词系统ICTCLAS),对每个项目名称进行分词处理,过滤掉对于预测分析没有信息量但出现频率很高的“stop words”如“项目”,“工程”等词,再统计每个词的词频,词频高的词语被定义为关键词。这样的关键词再经由业务人员的分析与选择,成为每个项目的项目类型属性之一,作为下一步模型预测的输入属性值。
进一步地,为了方便计算,对历史物资同种使用量进行单位的统一。把历史项目物资使用量进行标准化处理。所谓标准化处理,是指将每项历史项目物资使用量缩小或放大到预设范围。其中,预设范围可以为[0,1]。进一步地,可以按照物资目录对历史物资进行分类和物资用量的汇总。物资目录可以为一级物资目录、二级物资目录等,具体根据需要设定。例如按照电网一级物资目录,对历史物资进行分类和物资用量的汇总。因为细类的物资种类太多,多于6000多种,直接预测准确率不高且实际的意义可能不大。故本发明将细类物资按统一的一级物资目录进行汇总,汇总后物资种类大大缩小,比如有60种。这样更宏观地进行预测,可以更准确地得到大类物资的用量。
本发明预设算法构建预测模型,预设函数可以为单隐层前馈神经网络、BP神经网络学习算法等,本实施例以单隐层前馈神经网络(single hidden layer feedforward networks,SLFNs)为极限学习机(Extreme Learning Machines,简称ELM)来进行说明,构建配网项目物资需求预测模型。
ELM模型在学习阶段主要学习两种参数,一种是激励函数G的内部参数ai,bi(i=1,...,L),第二种是隐含层节点数L。当ai,bi(i=1,...,L)通过一个均值为0方差为1的简单高斯分布随机取得时,ELM可以以接近0误差地拟合训练数据,所以,在学习阶段,ai,bi(i=1,...,L)参数可随机获取。隐藏层节点数的学习方面,模型在验证集上的加权准确率随着隐含层节点数的增加不断增加,但当隐含层节点数到达400点后加权准确率的增加并不显著,且模型训练时间随着隐藏层节点数的增加呈指数级的增加,主要因为求矩阵逆/伪逆的运算时间受隐藏层节点数的影响是指数级的。因此本发明在训练ELM时预设隐含节点数设为400,但随着日后的训练数据的增加,会适当增加隐藏节点数。当然,也可以根据需要设为其他值。
给定一个包含N个项目样本的M维目标预测物资的训练数据集
Figure BDA00002072086300071
其中M为物资种类,xi=[xi1,xi2,…xin]T∈Rn为项目样本i的预设属性参数和项目类型属性,ti=[ti1,ti2,…tiM]T∈RM,并且0≤tij≤1,j=1,...,M,ti对应于该项目样本在M维物资的使用量,可以为数量、重量或金额等。当模型中使用量是用的数量时,预测时只能预测数量,当模型中使用量是用的金额时,预测时只能预测金额。可以同时对多种目标进行预测,比如同时对重量和金额进行预测,则在训练时对重量和金额进行训练,预测时就能输出重量和金额。基于L个隐含节点数和L个隐含节点对应的激励函数
Figure BDA00002072086300072
的ELM可以利用项目的项目特征属以零误差地逼近项目物资使用量:
Σ j = 1 L β j g j ( a j , b j , x i ) = t i , i = 1 , . . . , N - - - ( 1 )
在ELM中,gj(aj,bj,xi)一般定义为RBF函数或者加性函数,本发明优选加性函数,如下:
gAdditive j(aj,bj,xi)=G(aj·xi+bj),aj∈R,bj∈R
相应地,公式(1)可以转写为矩阵的形式:
Hβ=T
其中,
Figure BDA00002072086300074
β = β 1 T . . . β L T L × M , T = t 1 T · · · t L T N × M
矩阵H表示隐含节点输出矩阵,矩阵β表示隐含节点权重参数矩阵,T表示项目物资使用量,L表示隐含节点数,ai,bi(i=1,...,L)通过一个均值为0方差为1的简单高斯分布随机取得。
当隐含节点数L等于训练样本数目N时,β可以通过隐含节点输出矩阵H的逆获得训练误差为0的解。当隐含节点数L小于训练样本数目N时,β可以通过奇异值分解等方法利用隐含节点输出矩阵H的伪逆计算,达到最小化||Hβ-T||的目的。从而,可以确定隐含节点权重参数矩阵β。
获取待测项目预设属性的内容,采用待测项目预设属性的参数,判断是否存在历史训练时的项目类型属性,如果存在,则将待测项目预设属性的参数和项目类型属性作为xi输入,否则xi对应于项目类型属性的位置为0,xi对应于预设属性位置输入预设属性的参数。根据历史训练中随机生成的ai,bi(i=1,...,L)和历史训练中确定的隐含节点权重参数矩阵β,可求得待测物资预测值。按照标准化缩小或放大的比例对预测值进行放大或缩小(即按照原来缩小或放大比例对该项目物资使用量进行放大或缩小),从而还原预测值,确定待测项目物资使用量。
进一步,可以判断预测值是否为负值,若否,按标准化对应比例还原预测值,确定对应待测项目物资使用量,若是,则获取待测项目的历史项目物资使用量,确定待测项目的历史项目物资使用量的平均值,根据平均值与服从N(0,1)的正态分布乘积的绝对值,确定预测值,按标准化对应比例还原预测值,确定待测项目物资使用量。按照标准化还原是指按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,使其按比例还原预测值真实大小。
实施例二
参见图2,是本发明电力配网建设物资需求预测方法实施例二的流程示意图,包括步骤:
步骤S201:获取历史项目预设属性的参数和各种历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对聚类族采用关键词频分析法,确定项目类型属性,将各种历史项目物资使用量标准化到预设范围内;
步骤S202:根据历史项目预设属性的参数、标准化的各种历史项目物资使用量、预设隐含节点数和项目类型属性,采用增量的极限学习机构建预测模型,根据预测模型确定隐含节点权重参数矩阵;
步骤S203:获取待测项目预设属性的参数和待测项目的项目类型属性,根据隐含节点权重参数矩阵、待测项目预设属性的参数和待测项目的项目类型属性,采用预测模型确定对应待测项目物资使用量的预测值,按照标准化对应比例还原预测值,确定对应待测项目物资使用量。
首先获取历史项目预设属性的内容和历史项目物资使用量,预设属性可以为地市局信息、电压等级、预计完成期限、概算金额等。由于只利用基本属性进行预测效果不够好,为了提高算法准确率,本发明设法构造类型属性对每个项目的类型的进行描述。通过先聚类与后关键词频分析方法构造出如“配电站”,“负荷”,“重载”类项目等概念数十个,每个项目可能属于多个项目类型,也可能不属于任何一个项目类型。本发明选用Global K-Means算法作为项目领料物资数据的聚类算法,从一个既定的训练样本的整体中心开始,每次从训练样本中选取一个使聚类误差减少最大的点作为新的中心点,然后调整聚类中心,如此往复,直到到达K个中心点为止,以此来保证此K个中心点是最优的聚类中心点,也即使聚出来的类具有内聚度最高,耦合度最低的特点。因此GlobalK-Means相比较于普通K-Means的聚类算法,有更好的聚类效果,更加符合电力配网建设物资需求预测对聚类效果准确度高的要求。
给定一个距离的计算公式Dist,对于一个已经被聚到G类(i.e.C1,...,CG)的训练集
Figure BDA00002072086300091
其聚类误差可以计算为:
D ( C 1 , . . . , C G ) = Σ n = 1 Nc Σ g = 1 G δ ( x n ∈ C g ) Dist ( x n , mea n C g )
其中
Figure BDA00002072086300093
是样例Xn与类Cg中心点:
Mean C g = Σ i = 1 Nc δ ( x i ∈ C g ) x i Σ i = 1 Nc δ ( x i ∈ C g ) , δ ( x i ∈ C g ) = 0 if x i doesnotbelongto C g 1 if x i belongsto C g
的距离函数。该距离函数可以为欧氏距离,马氏距离等。其中,Nc是数据点的个数,
X = { x i } i = 1 N c ,
X有Nc个点。G是指聚类数,有G个类。Global K-Means每一轮对训练集的每一点进行考虑,取可以使到整体聚类误差最小的点作为新增的聚类中心,调整聚类中心后再用同样的方法添加新的中心点,如此反复,直到聚类数到达目标聚类数为止。其每一轮的计算复杂度为:O(nncd)其中n为样本容量,c为当前的聚类数,d为数据维度。
进一步地,本发明通过Fast Global K-Means对聚类进行加速,对于每一点能否作为聚类中心的计算由原来的计算整体聚类误差变为计算误差减少量,如下:
b n = Σ j = 1 N max ( d c - 1 j - | | x n - x j | | 2 , 0 ) , i = arg max n b n
其中
Figure BDA00002072086300103
是点xj到达先前生成的c-1个聚类中心里最近点的距离的平方,||xn-xj2为xj到xn的距离的平方。如果某个点被重新聚到以xn为聚类中心的新的类,其到xn的距离的平方必然比到原所属类中心点要小,其减少量
Figure BDA00002072086300104
必大于0,令其在bn上累计,则bn正比于点xn作为新的聚类中心的聚类误差的减小量,取令bn最大的点xn为新的聚类中心,可保证本轮聚类结果最优。此算法的每一轮的计算复杂度为O(nnd),比原始的Global K-Means要小很多。
进一步地,采用K-D Tree进行加速。即使Fast Global K-Means的复杂度比Global K-Means要小得多,但其计算复杂度仍然是比较大的。运用K-D Tree方法,将原始数据空间进行分割,保证物理上相近数据被划分到生成的K-D Tree的同一个叶子节点里。此加速方法的核心思想在于,对将每一个数据点是否成为新的聚类中心的考察转化为对已经分割好的每一个相邻紧密的簇的中心点进行考察,这样可以在基本保证聚类效果的情况之下有效降低算法复杂度。设定K-D Tree的每个叶子节点的容量为l,则算法的复杂度可以再由Fast GlobalK-Means的O(nnd)降低到O(nnd/l)。
对项目的历史项目物资使用量采用聚类算法进行项目分群后,对分群后的项目名称采用关键词频分析。由于电力配网项目的名称多有较为统一的规范,因此每一个项目的项目名称提供了此项目部分基本信息,如“XX10kv电桩工程”为一个关于“电桩”类的电压等级为10kv的项目,此类项目名称提供了电力配网项目的某些如用料,配电性质,电压等级等信息,因此找到每个项目名称里面的关键词成为了取得此部分项目信息的关键。
在Global K-Means产生的项目群中利用中文分词方法(如利用中国科学院汉语分词系统ICTCLAS),对每个项目名称进行分词处理,过滤掉对于预测分析没有信息量但出现频率很高的“stop words”如“项目”,“工程”等词,再统计每个词的词频,词频高的词语被定义为关键词。这样的关键词再经由业务人员的分析与选择,成为每个项目的项目类型属性之一,作为下一步模型预测的输入属性值。
进一步地,为了方便计算,对历史物资同种使用量进行单位的统一。把历史项目物资使用量进行标准化处理。所谓标准化处理,是指将每项历史项目物资使用量缩小或放大到预设范围。其中,预设范围可以为[0,1]。进一步地,可以按照物资目录对历史物资进行分类和物资用量的汇总。物资目录可以为一级物资目录、二级物资目录等,具体根据需要设定。例如按照电网一级物资目录,对历史物资进行分类和物资用量的汇总。因为细类的物资种类太多,多于6000多种,直接预测准确率不高且实际的意义可能不大。故本发明将细类物资按统一的一级物资目录进行汇总,汇总后物资种类大大缩小,比如有60种。这样更宏观地进行预测,可以更准确地得到大类物资的用量。
当训练数据庞大的时候,ELM算法的训练速度会受到限制。本实施例提供一种新的算法,取名增量极限学习机,即OP-ELM,用来构建模型。OP-ELM模型在学习阶段主要学习两种参数,一种是激励函数G的内部参数ai,bi(i=1,...,L),第二种是隐含层节点数L。当ai,bi(i=1,...,L)通过一个均值为0方差为1的简单高斯分布随机取得时,OP-ELM可以以接近0误差地拟合训练数据,所以,在学习阶段,ai,bi(i=1,...,L)参数可随机获取。隐藏层节点数的学习方面,模型在验证集上的加权准确率随着隐含层节点数的增加不断增加,但当隐含层节点数到达400点后加权准确率的增加并不显著,且模型训练时间随着隐藏层节点数的增加呈指数级的增加,主要因为求矩阵逆/伪逆的运算时间受隐藏层节点数的影响是指数级的。因此本发明在训练OP-ELM时预设隐含节点数设为400,但随着日后的训练数据的增加,会适当增加隐藏节点数。当然,也可以根据需要设为其他值。给定一个包含N个项目样本的M维目标预测物资的训练数据集
Figure BDA00002072086300121
其中M为物资种类,xi=[xi1,xi2,…xin]T∈Rn为项目样本i的预设属性参数和项目类型属性,ti=[ti1,ti2,…tiM]T∈RM,并且0≤tij≤1,j=1,...,M对应于该项目样本在M维物资的使用量,可以为数量、重量或金额等。当模型中使用量是用的数量时,预测时只能预测数量,当模型中使用量是用的金额时,预测时只能预测金额。可以同时对多种目标进行预测,比如同时对重量和金额进行预测,则在训练时对重量和金额进行训练,预测时就能输出重量和金额。基于L个隐含节点数和L个隐含节点对应的激励函数
Figure BDA00002072086300122
的OP-ELM可以利用项目的项目特征属以零误差地逼近项目物资使用量:
在OP-ELM中,训练数据是一批一批地提交给OP-ELM进行训练。在每一轮训练中,OP-ELM利用隐含节点固化历史数据的知识,在历史批次和当前批次数据中,训练全局最优的隐含节点权重参数矩阵β。而且每一轮训练过程中,训练算法的输入仅依赖于当前批次的数据,无需再次扫描历史数据,模型参数规模也不会因为历史数据量的变化而增大。相应地,海量数据的ELM训练过程逐步分解为若干批次的OP-ELM训练,最终OP-ELM的解等价于ELM在全部训练数据基础上一次性学习的结果。OP-ELM在保证模型精度和泛化能力的同时,给出了一种快速有效的在线学习方法,满足了海量数据训练的计算需求。也就是OP-ELM将增量一批一批的输入,用迭代方法进行计算。具体如下:给定ELM隐含节点数L及对应的参数
Figure BDA00002072086300123
初始批次的训练数据
Figure BDA00002072086300124
隐含节点输出矩阵H0和T0分别可以通过等式(3)和等式(4)计算。
Figure BDA00002072086300131
T 0 = t 1 T . . . t N 0 T N 0 × M - - - ( 4 )
隐含节点权重参数矩阵β0可以通过等式(5)求解。
H0β0=T0(5)
假定
Figure BDA00002072086300133
等式(5)等价于
P0β0=Q0(6)
相应地,在等式(6)中,矩阵P0和Q0大小分别为L×L和L×M,于训练样本集大小无关。
给定新一批次的训练数据
Figure BDA00002072086300135
类似原始ELM的计算方式,隐含节点权重参数矩阵β1可以根据公式(7)计算。
H 0 H 1 β 1 = T 0 T 1 - - - ( 7 )
相应地,等式(7)等价于
P1β1=Q1
其中,
P 1 = H 0 H 1 T H 0 H 1 = H 0 T H 0 + H 1 T H 1 = P 0 + H 1 T H 1
Q 1 = H 0 H 1 T T 0 T 1 = H 0 T T 0 + H 1 T T 1 = Q 0 + H 1 T T 1
将上述过程推广到第k+1批训练数据
X k + 1 = { ( x i , t i ) } i = Σ j = 0 k N j + 1 Σ j = 0 k + 1 N j
可以得到,
Figure BDA00002072086300141
T k + 1 = t ( Σ j = 0 k N j ) + 1 T . . . t Σ j = 0 k + 1 N j T N k + 1 × m
Pk+1βk+1=Qk+1    (8)
其中,
P k + 1 = H 0 M H k H k + 1 T H 0 M H k H k + 1 = H 0 T H 0 + LH k T H k + H k + 1 T H k + 1 = P k + H k + 1 T H k + 1 Q k + 1 = H 0 M H k H k + 1 T T 0 M T k T k + 1 = H 0 T T 0 + LH k T T k + H k + 1 T T k + 1 = Q k + H k + 1 T T k + 1
给定隐含节点数目L,可微激励函数g,K个批次的训练数据集
Figure BDA00002072086300144
OP-ELM通过等式(8),经过K轮迭代,可以求出隐含节点权重参数矩阵βk+1,用于对新数据的预测。
获取待测项目预设属性的内容,采用待测项目预设属性的参数,判断是否存在历史训练时的项目类型属性,如果存在,则将待测项目预设属性的参数和项目类型属性作为xi输入,否则xi对应于项目类型属性的位置为0,xi对应于预设属性位置输入预设属性的参数。根据历史训练中随机生成的ai,bi(i=1,...,L)和历史训练中确定的隐含节点权重参数矩阵β,可求得待测物资预测值。按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,从而还原预测值,确定待测项目物资使用量。
进一步,可以判断预测值是否为负值,如果否,按标准化对应比例还原预测值,确定对应待测项目物资使用量,若是,则获取待测项目的历史项目物资使用量,确定待测项目的历史项目物资使用量的平均值,根据平均值与服从N(0,1)的正态分布乘积的绝对值,确定预测值,按标准化对应比例还原预测值,确定待测项目物资使用量。按照标准化还原是指按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,使其按比例还原预测值真实大小。
根据上述本发明电力配网建设物资需求预测方法,本发明提供一种电力配网建设物资需求预测装置,通过应用本发明电力配网建设物资需求预测装置,预处理模块对历史项目物资使用量采用聚类算法进行分群,再采用关键词频分析,确定项目类型属性,将项目类型属性作为预测模型的一个输入条件,提高了确定物资使用量的准确率。
参见图3,为本发明电力配网建设物资需求预测装置的结构示意图,包括:
预处理模块301,用于获取历史项目预设属性的参数和各种历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对聚类族采用关键词频分析法,确定项目类型属性,将各种历史项目物资使用量标准化到预设范围内;
建模模块302,用于根据的历史项目预设属性的参数、标准化的各种历史项目物资使用量、预设隐含节点数和项目类型属性,采用预设算法构建预测模型,根据预测模型确定隐含节点权重参数矩阵;
预测模块303,获取待测项目预设属性的参数和待测项目的项目类型属性,根据隐含节点权重参数矩阵、待测项目预设属性的参数和待测项目的项目类型属性,采用预测模型确定对应待测项目物资使用量的预测值,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量。
本发明建模模块302的预设算法可以为单隐层前馈神经网络、BP神经网络学习算法等,实施例一以单隐层前馈神经网络(single hidden layer feed forwardnetworks,SLFNs)为极限学习机(Extreme Learning Machines,简称ELM)来进行说明,构建配网项目物资需求预测模型,实施例二以增量极限学习机作为预设算法来进行说明,构建配网项目物资需求预测模型。
实施例一
首先预处理模块301获取历史项目预设属性的内容和历史项目物资使用量,预设属性可以为地市局信息、电压等级、预计完成期限、概算金额等,可以为其中一个或多个。
由于只利用基本属性进行预测效果不够好,为了提高算法准确率,本发明预处理模块301设法构造类型属性对每个项目的类型的进行描述。通过先聚类与后关键词频分析方法构造出如“配电站”,“负荷”,“重载”类项目等概念数十个,每个项目可能属于多个项目类型,也可能不属于任何一个项目类型。本发明预处理模块301选用Global K-Means算法作为项目领料物资数据的聚类算法,从一个既定的训练样本的整体中心开始,每次从训练样本中选取一个使聚类误差减少最大的点作为新的中心点,然后调整聚类中心,如此往复,直到到达K个中心点为止,以此来保证此K个中心点是最优的聚类中心点,也即使聚出来的类具有内聚度最高,耦合度最低的特点。因此Global K-Means相比较于普通K-Means的聚类算法,有更好的聚类效果,更加符合电力配网建设物资需求预测对聚类效果准确度高的要求。
给定一个距离的计算公式Dist,对于一个已经被聚到G类(i.e.C1,...,CG)的训练集
Figure BDA00002072086300161
其聚类误差可以计算为:
D ( C 1 , . . . , C G ) = Σ n = 1 Nc Σ g = 1 G δ ( x n ∈ C g ) Dist ( x n , mea n C g )
其中
Figure BDA00002072086300163
是样例Xn与类Cg中心点:
Mean C g = Σ i = 1 Nc δ ( x i ∈ C g ) x i Σ i = 1 Nc δ ( x i ∈ C g ) , δ ( x i ∈ C g ) = 0 if x i doesnotbelongto C g 1 if x i belongsto C g
的距离函数。该距离函数可以为欧氏距离,马氏距离等。其中,Nc是数据点的个数,
X = { x i } i = 1 N c ,
X有Nc个点。G是指聚类数,有G个类。Global K-Means每一轮对训练集的每一点进行考虑,取可以使到整体聚类误差最小的点作为新增的聚类中心,调整聚类中心后再用同样的方法添加新的中心点,如此反复,直到聚类数到达目标聚类数为止。其每一轮的计算复杂度为:O(nncd)其中n为样本容量,c为当前的聚类数,d为数据维度。
进一步地,本发明预处理模块301通过Fast Global K-Means对聚类进行加速,对于每一点能否作为聚类中心的计算由原来的计算整体聚类误差变为计算误差减少量,如下:
b n = Σ j = 1 N max ( d c - 1 j - | | x n - x j | | 2 , 0 ) ,
i = arg max n b n
其中
Figure BDA00002072086300174
是点xj到达先前生成的c-1个聚类中心里最近点的距离的平方,||xn-xj||2为xj到xn的距离的平方。如果某个点被重新聚到以xn为聚类中心的新的类,其到xn的距离的平方必然比到原所属类中心点要小,其减少量
Figure BDA00002072086300175
必大于O,今其在bn上累计,则bn正比于点xn作为新的聚类中心的聚类误差的减小量,取令bn最大的点xn为新的聚类中心,可保证本轮聚类结果最优。此算法的每一轮的计算复杂度为O(nnd),比原始的Global K-Means要小很多。
进一步地,预处理模块301采用K-D Tree进行加速。即使Fast GlobalK-Means的复杂度比G10bal K-Means要小得多,但其计算复杂度仍然是比较大的。运用K-D Tree方法,将原始数据空间进行分割,保证物理上相近数据被划分到生成的K-D Tree的同一个叶子节点里。此加速方法的核心思想在于,对将每一个数据点是否成为新的聚类中心的考察转化为对已经分割好的每一个相邻紧密的簇的中心点进行考察,这样可以在基本保证聚类效果的情况之下有效降低算法复杂度。设定K-D Tree的每个叶子节点的容量为l,则算法的复杂度可以再由Fast Global K-Means的O(nnd)降低到O(nnd/l)。
预处理模块301对项目的历史项目物资使用量采用聚类算法进行项目分群后,对所述分群后的项目名称采用关键词频分析。由于电力配网项目的名称多有较为统一的规范,因此每一个项目的项目名称提供了此项目部分基本信息,如“XX10kv电桩工程”为一个关于“电桩”类的电压等级为10kv的项目,此类项目名称提供了电力配网项目的某些如用料,配电性质,电压等级等信息,因此找到每个项目名称里面的关键词成为了取得此部分项目信息的关键。
预处理模块301在Global K-Means产生的项目群中利用中文分词方法(如利用中国科学院汉语分词系统ICTCLAS),对每个项目名称进行分词处理,过滤掉对于预测分析没有信息量但出现频率很高的“stop words”如“项目”,“工程”等词,再统计每个词的词频,词频高的词语被定义为关键词。这样的关键词再经由业务人员的分析与选择,成为每个项目的项目类型属性之一,作为下一步模型预测的输入属性值。
进一步地,为了方便计算,预处理模块301对历史物资同种使用量进行单位的统一。把历史项目物资使用量进行标准化处理。所谓标准化处理,是指将每项历史项目物资使用量缩小或放大到预设范围。其中,预设范围可以为[0,1]。进一步地,可以按照物资目录对历史物资进行分类和物资用量的汇总。物资目录可以为一级物资目录、二级物资目录等,具体根据需要设定。例如按照电网一级物资目录,对历史物资进行分类和物资用量的汇总。因为细类的物资种类太多,多于6000多种,直接预测准确率不高且实际的意义可能不大。故本发明将细类物资按统一的一级物资目录进行汇总,汇总后物资种类大大缩小,比如有60种。这样更宏观地进行预测,可以更准确地得到大类物资的用量。
ELM模型在学习阶段主要学习两种参数,一种是激励函数G的内部参数ai,bi(i=1,...,L),第二种是隐含层节点数L。当ai,bi(i=1,...,L)通过一个均值为0方差为1的简单高斯分布随机取得时,ELM可以以接近0误差地拟合训练数据,所以,在学习阶段,ai,bi(i=1,...,L)参数可随机获取。隐藏层节点数的学习方面,模型在验证集上的加权准确率随着隐含层节点数的增加不断增加,但当隐含层节点数到达400点后加权准确率的增加并不显著,且模型训练时间随着隐藏层节点数的增加呈指数级的增加,主要因为求矩阵逆/伪逆的运算时间受隐藏层节点数的影响是指数级的。因此本发明在训练ELM时预设隐含节点数设为400,但随着日后的训练数据的增加,会适当增加隐藏节点数。当然,也可以根据需要设为其他值。
给定一个包含N个项目样本的M维目标预测物资的训练数据集
Figure BDA00002072086300191
其中M为物资种类,xi=[xi1,xi2,…xin]T∈Rn为项目样本i的预设属性参数和项目类型属性,ti=[ti1,ti2,…tiM]T∈RM,并且0≤tij≤1,j=1,...,M,ti对应于该项目样本在M维物资的使用量,可以为数量、重量或金额等。当模型中使用量是用的数量时,预测时只能预测数量,当模型中使用量是用的金额时,预测时只能预测金额。可以同时对多种目标进行预测,比如同时对重量和金额进行预测,则在训练时对重量和金额进行训练,预测时就能输出重量和金额。基于L个隐含节点数和L个隐含节点对应的激励函数的ELM可以利用项目的项目特征属以零误差地逼近项目物资使用量:
Σ j = 1 L β j g j ( a j , b j , x i ) = t i , i=1,...,N(1)
在ELM中,gj(aj,bj,xi)一般定义为RBF函数或者加性函数,本发明优选加性函数,如下:
gAdditive j(aj,bj,xi)=G(aj·xi+bj),aj∈R,bj∈R
相应地,公式(1)可以转写为矩阵的形式:
Hβ=T
其中,
Figure BDA00002072086300194
β = β 1 T . . . β L T L × M , T = t 1 T · · · t L T N × M
矩阵H表示隐含节点输出矩阵,矩阵β表示隐含节点权重参数矩阵,T表示项目物资使用量,L表示隐含节点数,ai,bi(i=1,...,L)通过一个均值为0方差为1的简单高斯分布随机取得。
当隐含节点数L等于训练样本数目N时,β可以通过隐含节点输出矩阵H的逆获得训练误差为0的解。当隐含节点数L小于训练样本数目N时,β可以通过奇异值分解等方法利用隐含节点输出矩阵H的伪逆计算,达到最小化‖Hβ-T||的目的。从而,可以确定隐含节点权重参数矩阵β。
预测模块303获取待测项目预设属性的内容,采用待测项目预设属性的参数,判断是否存在历史训练时的项目类型属性,如果存在,则将待测项目预设属性的参数和项目类型属性作为xi输入,否则xi对应于项目类型属性的位置为0,xi对应于预设属性位置输入预设属性的参数。根据历史训练中随机生成的ai,bi(i=1,...,L)和历史训练中确定的隐含节点权重参数矩阵β,可求得待测物资预测值。按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,从而还原预测值,确定待测物资使用量。
进一步,预测模块303可以判断预测值是否为负值,如果否,按标准化对应比例还原预测值,确定对应待测项目物资使用量,若是,则获取待测项目的历史项目物资使用量,确定待测项目的历史项目物资使用量的平均值,根据平均值与服从N(0,1)的正态分布乘积的绝对值,确定预测值,按标准化对应比例还原预测值,确定待测项目物资使用量。按照标准化还原是指按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,使其按比例还原预测值真实大小。
实施例二
本实施例建模模块302采用增量极限学习机构建预测模型,具体如下:
预处理模块301首先获取历史项目预设属性的内容和历史项目物资使用量,预设属性可以为地市局信息、电压等级、预计完成期限、概算金额等。由于只利用基本属性进行预测效果不够好,为了提高算法准确率,本发明预处理模块301设法构造类型属性对每个项目的类型的进行描述。预处理模块301通过先聚类与后关键词频分析方法构造出如“配电站”,“负荷”,“重载”类项目等概念数十个,每个项目可能属于多个项目类型,也可能不属于任何一个项目类型。本发明预处理模块301选用Global K-Means算法作为项目领料物资数据的聚类算法,从一个既定的训练样本的整体中心开始,每次从训练样本中选取一个使聚类误差减少最大的点作为新的中心点,然后调整聚类中心,如此往复,直到到达K个中心点为止,以此来保证此K个中心点是最优的聚类中心点,也即使聚出来的类具有内聚度最高,耦合度最低的特点。因此Global K-Means相比较于普通K-Means的聚类算法,有更好的聚类效果,更加符合电力配网建设物资需求预测对聚类效果准确度高的要求。
给定一个距离的计算公式Dist,对于一个已经被聚到G类(i.e.C1,...,CG)的训练集
Figure BDA00002072086300211
其聚类误差可以计算为:
D ( C 1 , . . . , C G ) = Σ n = 1 Nc Σ g = 1 G δ ( x n ∈ C g ) Dist ( x n , mea n C g )
其中
Figure BDA00002072086300213
是样例Xn与类Cg中心点:
Mean C g = Σ i = 1 Nc δ ( x i ∈ C g ) x i Σ i = 1 Nc δ ( x i ∈ C g ) , δ ( x i ∈ C g ) = 0 if x i doesnotbelongto C g 1 if x i belongsto C g
的距离函数。该距离函数可以为欧氏距离,马氏距离等。其中,Nc是数据点的个数,
X = { x i } i = 1 N c ,
X有Nc个点。G是指聚类数,有G个类。Global K-Means每一轮对训练集的每一点进行考虑,取可以使到整体聚类误差最小的点作为新增的聚类中心,调整聚类中心后再用同样的方法添加新的中心点,如此反复,直到聚类数到达目标聚类数为止。其每一轮的计算复杂度为:O(nncd)其中n为样本容量,c为当前的聚类数,d为数据维度。
进一步地,本发明预处理模块401通过Fast Global K-Means对聚类进行加速,对于每一点能否作为聚类中心的计算由原来的计算整体聚类误差变为计算误差减少量,如下:
b n = Σ j = 1 N max ( d c - 1 j - | | x n - x j | | 2 , 0 ) ,
i = arg max n b n
其中
Figure BDA00002072086300223
是点xj到达先前生成的c-1个聚类中心里最近点的距离的平方,||xn-xj||2为xj到xn的距离的平方。如果某个点被重新聚到以xn为聚类中心的新的类,其到xn的距离的平方必然比到原所属类中心点要小,其减少量
Figure BDA00002072086300224
必大于0,令其在bn上累计,则bn正比于点xn作为新的聚类中心的聚类误差的减小量,取令bn最大的点xn为新的聚类中心,可保证本轮聚类结果最优。此算法的每一轮的计算复杂度为O(nnd),比原始的Global K-Means要小很多。
进一步地,预处理模块301采用K-D Tree进行加速。即使Fast GlobalK-Means的复杂度比Global K-Means要小得多,但其计算复杂度仍然是比较大的。运用K-D Tree方法,将原始数据空间进行分割,保证物理上相近数据被划分到生成的K-D Tree的同一个叶子节点里。此加速方法的核心思想在于,对将每一个数据点是否成为新的聚类中心的考察转化为对已经分割好的每一个相邻紧密的簇的中心点进行考察,这样可以在基本保证聚类效果的情况之下有效降低算法复杂度。设定K-D Tree的每个叶子节点的容量为l,则算法的复杂度可以再由Fast Global K-Means的O(nnd)降低到O(nnJ/l)。
预处理模块301对项目的历史项目物资使用量采用聚类算法进行项目分群后,对所述分群后的项目名称采用关键词频分析。由于电力配网项目的名称多有较为统一的规范,因此每一个项目的项目名称提供了此项目部分基本信息,如“XX10kv电桩工程”为一个关于“电桩”类的电压等级为10kv的项目,此类项目名称提供了电力配网项目的某些如用料,配电性质,电压等级等信息,因此找到每个项目名称里面的关键词成为了取得此部分项目信息的关键。
在Global K-Means产生的项目群中利用中文分词方法(如利用中国科学院汉语分词系统ICTCLAS),对每个项目名称进行分词处理,过滤对预测分析没有信息量但出现频率很高的“stop words”如“项目”,“工程”等词,再统计每个词的词频,词频高的词语被定义为关键词。这样的关键词再经由业务人员的分析与选择,成为每个项目的项目类型属性之一,作为下一步模型预测的输入属性值。
进一步地,为了方便计算,预处理模块301对历史物资同种使用量进行单位的统一。把历史项目物资使用量进行标准化处理。所谓标准化处理,是指将每项历史项目物资使用量缩小或放大到预设范围。其中,预设范围可以为[0,1]。进一步地,可以按照物资目录对历史物资进行分类和物资用量的汇总。物资目录可以为一级物资目录、二级物资目录等,具体根据需要设定。例如按照电网一级物资目录,对历史物资进行分类和物资用量的汇总。因为细类的物资种类太多,多于6000多种,直接预测准确率不高且实际的意义可能不大。故本发明将细类物资按统一的一级物资目录进行汇总,汇总后物资种类大大缩小,比如有60种。这样更宏观地进行预测,可以更准确地得到大类物资的用量。
当训练数据庞大的时候,ELM算法的训练速度会受到限制。本实施例提供一种新的算法,取名增量极限学习机,即OP-ELM,建模模块302采用OP-ELM来构建模型。OP-ELM模型在学习阶段主要学习两种参数,一种是激励函数G的内部参数ai,bi(i=1,...,L),第二种是隐含层节点数L。当ai,bi(i=1,...,L)通过一个均值为0方差为1的简单高斯分布随机取得时,OP-ELM可以以接近0误差地拟合训练数据,所以,在学习阶段,ai,bi(i=1,...,L)参数可随机获取。隐藏层节点数的学习方面,模型在验证集上的加权准确率随着隐含层节点数的增加不断增加,但当隐含层节点数到达400点后加权准确率的增加并不显著,且模型训练时间随着隐藏层节点数的增加呈指数级的增加,主要因为求矩阵逆/伪逆的运算时间受隐藏层节点数的影响是指数级的。因此本发明在训练OP-ELM时预设隐含节点数设为400,但随着日后的训练数据的增加,会适当增加隐藏节点数。当然,也可以根据需要设为其他值。
给定一个包含N个项目样本的M维目标预测物资的训练数据集
Figure BDA00002072086300241
其中M为物资种类,xi=[xi1,xi2,…xin]T∈Rn为项目样本i的预设属性参数和项目类型属性,ti=[ti1,ti2,…tiM]T∈RM,并且0≤tij≤1,j=1,...,M对应于该项目样本在M维物资的使用量,可以为数量、重量或金额等。当模型中使用量是用的数量时,预测时只能预测数量,当模型中使用量是用的金额时,预测时只能预测金额。可以同时对多种目标进行预测,比如同时对重量和金额进行预测,则在训练时对重量和金额进行训练,预测时就能输出重量和金额。基于L个隐含节点数和L个隐含节点对应的激励函数的OP-ELM可以利用项目的项目特征属以零误差地逼近项目物资使用量:
在OP-ELM中,训练数据是一批一批地提交给OP-ELM进行训练。在每一轮训练中,OP-ELM利用隐含节点固化历史数据的知识,在历史批次和当前批次数据中,训练全局最优的隐含节点权重参数矩阵β。而且每一轮训练过程中,训练算法的输入仅依赖于当前批次的数据,无需再次扫描历史数据,模型参数规模也不会因为历史数据量的变化而增大。相应地,海量数据的ELM训练过程逐步分解为若干批次的OP-ELM训练,最终OP-ELM的解等价于ELM在全部训练数据基础上一次性学习的结果。OP-ELM在保证模型精度和泛化能力的同时,给出了一种快速有效的在线学习方法,满足了海量数据训练的计算需求。也就是OP-ELM将增量一批一批的输入,用迭代方法进行计算。具体如下:
给定ELM隐含节点数L及对应的参数
Figure BDA00002072086300243
初始批次的训练数据
Figure BDA00002072086300244
隐含节点输出矩阵H0和T0分别可以通过等式(3)和等式(4)计算。
Figure BDA00002072086300245
T 0 = t 1 T . . . t N 0 T N 0 × M - - - ( 4 )
隐含节点权重参数矩阵β0可以通过等式(5)求解。
H0β0=T0(5)
假定
Figure BDA00002072086300251
Figure BDA00002072086300252
等式(5)等价于
P0β0=Q0(6)
相应地,在等式(6)中,矩阵P0和Q0大小分别为L×L和L×M,于训练样本集大小无关。
给定新一批次的训练数据
Figure BDA00002072086300253
类似原始ELM的计算方式,隐含节点权重参数矩阵β1可以根据公式(7)计算。
H 0 H 1 β 1 = T 0 T 1 - - - ( 7 )
相应地,等式(7)等价于
P1β1=Q1
其中,
P 1 = H 0 H 1 T H 0 H 1 = H 0 T H 0 + H 1 T H 1 = P 0 + H 1 T H 1
Q 1 = H 0 H 1 T T 0 T 1 = H 0 T T 0 + H 1 T T 1 = Q 0 + H 1 T T 1
将上述过程推广到第k+1批训练数据
X k + 1 = { ( x i , t i ) } i = Σ j = 0 k N j + 1 Σ j = 0 k + 1 N j
可以得到,
Figure BDA00002072086300258
T k + 1 = t ( Σ j = 0 k N j ) + 1 T . . . t Σ j = 0 k + 1 N j T N k + 1 × m
Px+1βk+1=Qk+1    (8)
其中,
P k + 1 = H 0 M H k H k + 1 T H 0 M H k H k + 1 = H 0 T H 0 + LH k T H k + H k + 1 T H k + 1 = P k + H k + 1 T H k + 1
Q k + 1 = H 0 M H k H k + 1 T T 0 M T k T k + 1 = H 0 T T 0 + LH k T T k + H k + 1 T T k + 1 = Q k + H k + 1 T T k + 1
给定隐含节点数目L,可微激励函数g,K个批次的训练数据集OP-ELM通过等式(8),经过K轮迭代,可以求出隐含节点权重参数矩阵βk+1,用于对新数据的预测。
预测模块303获取待测项目预设属性的内容,采用待测项目预设属性的参数,判断是否存在历史训练时的项目类型属性,如果存在,则将待测项目预设属性的参数和项目类型属性作为xi输入,否则xi对应于项目类型属性的位置为0,xi对应于预设属性位置输入预设属性的参数。根据历史训练中随机生成的ai,bi(i=1,...,L)和历史训练中确定的隐含节点权重参数矩阵β,可求得待测物资预测值。按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,从而还原预测值,确定待测项目物资使用量。
进一步,预测模块303可以判断预测值是否为负值,如果否,按标准化对应比例还原预测值,确定对应待测项目物资使用量,若是,则获取待测项目的历史项目物资使用量,确定待测项目的历史项目物资使用量的平均值,根据平均值与服从N(0,1)的正态分布乘积的绝对值,确定预测值,按标准化对应比例还原预测值,确定待测项目物资使用量。按照标准化还原是指按照原来缩小或放大比例对该项目物资使用量进行放大或缩小,使其按比例还原预测值真实大小。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种电力配网建设物资需求预测方法,其特征在于,包括步骤:
获取历史项目预设属性的参数和各种历史项目物资使用量,对所述各种历史项目物资使用量采用聚类算法进行分群,确定聚类族,对所述聚类族采用关键词频分析法,确定项目类型属性,将所述各种历史项目物资使用量标准化到预设范围内;
根据所述的历史项目预设属性的参数、所述标准化的各种历史项目物资使用量、预设隐含节点数和所述项目类型属性,采用预设算法构建预测模型,根据所述预测模型确定隐含节点权重参数矩阵;
获取待测项目预设属性的参数和待测项目的项目类型属性,根据所述隐含节点权重参数矩阵、所述待测项目预设属性的参数和待测项目的项目类型属性,采用所述预测模型确定对应待测项目物资使用量的预测值,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量。
2.根据权利要求1所述的电力配网建设物资需求预测方法,其特征在于,所述预设算法为极限学习机算法。
3.根据权利要求1所述的电力配网建设物资需求预测方法,其特征在于,预设算法确定隐含节点权重参数矩阵包括:
采用公式Pk+1βk+1=Qk+1确定隐含节点权重参数矩阵βk+1,其中,
P k + 1 = H 0 M H k H k + 1 T H 0 M H k H k + 1 = H 0 T H 0 + LH k T H k + H k + 1 T H k + 1 = P k + H k + 1 T H k + 1
Q k + 1 = H 0 M H k H k + 1 T T 0 M T k T k + 1 = H 0 T T 0 + LH k T T k + H k + 1 T T k + 1 = Q k + H k + 1 T T k + 1
P 0 = H 0 T H 0 , Q 0 = H 0 T T 0 , P0β0=Q0
Hk表示第K批次的隐含节点输出矩阵,K表示历史项目批次,Tk表示第K批次项目物资使用量矩阵,βk表示第K批次的隐含节点权重参数矩阵,L表示隐含节点数。
4.根据权利要求1或2或3所述的电力配网建设物资需求预测方法,其特征在于,所述聚类算法为Global K-Means算法。
5.根据权利要求4所述的电力配网建设物资需求预测方法,其特征在于,采用Fast Global K-Means算法或K-D Tree算法对Global K-Means算法进行加速。
6.根据权利要求1或2或3所述的电力配网建设物资需求预测方法,其特征在于,
所述预设属性包括:电压等级、预计完成期限、概算金额、地市局中的任意一种或任意组合,
和/或
所述的历史项目物资使用量包括金额、重量、长度、数量中的任意一种或任意组合。
7.根据权利要求1或2或3所述的电力配网建设物资需求预测方法,其特征在于,所述获取历史项目预设属性的内容时,还包括步骤:
对历史项目物资按照物资目录进行物资分类和物资用量的汇总,
和/或
统一历史项目物资同种使用量单位。
8.根据权利要求1或2或3所述的电力配网建设物资需求预测方法,其特征在于,采用预测模型确定预测值后还包括步骤:
判断预测值是否为负值,若否,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量,若是,则获取所述待测项目的历史项目物资使用量,确定所述待测项目的历史项目物资使用量的平均值,根据所述平均值与正态分布乘积的绝对值,确定预测值,按标准化对应比例还原所述预测值,确定待测项目物资使用量。
9.一种电力配网建设物资需求预测装置,其特征在于,包括:
预处理模块,用于获取历史项目预设属性的参数和各种历史项目物资使用量,对历史项目物资使用量采用聚类算法进行分群,确定聚类族,对所述聚类族采用关键词频分析法,确定项目类型属性,将所述各种历史项目物资使用量标准化到预设范围内;
建模模块,用于根据所述的历史项目预设属性的参数、所述标准化的各种历史项目物资使用量、预设隐含节点数和所述项目类型属性,采用预设算法构建预测模型,根据所述预测模型确定隐含节点权重参数矩阵;
预测模块,用于获取待测项目预设属性的参数和待测项目的项目类型属性,根据所述隐含节点权重参数矩阵、所述待测项目预设属性的参数和待测项目的项目类型属性,采用所述预测模型确定对应待测项目物资使用量的预测值,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量。
10.根据权利要求9所述的电力配网建设物资需求预测装置,其特征在于,
所述预处理模块还用于对历史项目物资按照物资目录进行物资分类和物资用量的汇总,
和/或
统一历史项目物资同种使用量单位,
和/或
所述预测模块还用于判断预测值是否为负值,若否,按标准化对应比例还原所述预测值,确定对应待测项目物资使用量,若是,则获取所述待测项目的历史项目物资使用量,确定所述待测项目的历史项目物资使用量的平均值,根据所述平均值与正态分布乘积的绝对值,确定预测值,按标准化对应比例还原所述预测值,确定待测项目物资使用量,
和/或
所述预设算法为极限学习机算法,
和/或
所述聚类算法为Global K-Means算法,
和/或
所述预设属性包括:电压等级、预计完成期限、概算金额、地市局中的任意一种或任意组合,
和/或
所述的历史项目物资使用量包括金额、重量、长度、数量中的任意一种或任意组合。
CN201210313976.5A 2012-08-29 2012-08-29 电力配网建设物资需求预测方法及装置 Active CN102819772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210313976.5A CN102819772B (zh) 2012-08-29 2012-08-29 电力配网建设物资需求预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210313976.5A CN102819772B (zh) 2012-08-29 2012-08-29 电力配网建设物资需求预测方法及装置

Publications (2)

Publication Number Publication Date
CN102819772A true CN102819772A (zh) 2012-12-12
CN102819772B CN102819772B (zh) 2016-02-24

Family

ID=47303880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210313976.5A Active CN102819772B (zh) 2012-08-29 2012-08-29 电力配网建设物资需求预测方法及装置

Country Status (1)

Country Link
CN (1) CN102819772B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160437A (zh) * 2015-09-25 2015-12-16 国网浙江省电力公司 基于极限学习机的负荷模型预测方法
CN106096841A (zh) * 2016-06-15 2016-11-09 云南电网有限责任公司物流服务中心 一种变电基建工程物资需求预测模型和决策分析系统
CN106997509A (zh) * 2017-03-28 2017-08-01 南京航空航天大学 一种不确定信息融合的应急物资分布需求预测方法
CN107292428A (zh) * 2017-06-07 2017-10-24 国网浙江省电力公司物资分公司 一种配网电力物资采购需求预测系统
CN107451278A (zh) * 2017-08-07 2017-12-08 北京工业大学 基于多隐层极限学习机的中文文本分类方法
CN107784397A (zh) * 2017-11-09 2018-03-09 贵州电网有限责任公司 一种电网物资需求预测系统及其预测方法
CN107909308A (zh) * 2017-12-27 2018-04-13 深圳春沐源控股有限公司 资源配置方法、电子设备及存储介质
CN107993033A (zh) * 2017-11-14 2018-05-04 广东电网有限责任公司物流服务中心 一种电力物资预测方法
CN108364107A (zh) * 2018-03-20 2018-08-03 张家林 一种投资数据处理方法及装置
CN109741090A (zh) * 2018-12-18 2019-05-10 刘雨昆 一种基于多因素的配网工程物资需求预测方法
CN109858742A (zh) * 2018-12-24 2019-06-07 江苏乐建网络科技有限公司 基于协同过滤的工程物资计算方法、设备、介质及系统
CN111415051A (zh) * 2020-05-18 2020-07-14 江苏电力信息技术有限公司 一种基于bp神经网络的电力物资需求计划预测方法
CN111753368A (zh) * 2020-05-18 2020-10-09 重庆长安汽车股份有限公司 预测车内吸声性能的方法
CN112614011A (zh) * 2020-12-07 2021-04-06 国网北京市电力公司 电力配网物资需求预测方法和装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181491A1 (en) * 2003-03-12 2004-09-16 Hitachi, Ltd. Method, computer equipment and a program for planning of electric power generation and electric power trade
CN101383023A (zh) * 2008-10-22 2009-03-11 西安交通大学 基于样本动态组织与温度补偿的神经网络短期电力负荷预测

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181491A1 (en) * 2003-03-12 2004-09-16 Hitachi, Ltd. Method, computer equipment and a program for planning of electric power generation and electric power trade
CN101383023A (zh) * 2008-10-22 2009-03-11 西安交通大学 基于样本动态组织与温度补偿的神经网络短期电力负荷预测

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUANYING XIE: "Clustering Support Vector Machines for Unlabeled Data Classification", 《PROCEEDINGS OF ICTM 2009》, vol. 2, 31 December 2009 (2009-12-31), pages 35 - 36 *
杨晶晶: "在线极限学习机及其在图像识别中的应用", 《电子产品世界》, vol. 19, no. 4, 30 April 2012 (2012-04-30), pages 65 - 66 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160437A (zh) * 2015-09-25 2015-12-16 国网浙江省电力公司 基于极限学习机的负荷模型预测方法
CN106096841A (zh) * 2016-06-15 2016-11-09 云南电网有限责任公司物流服务中心 一种变电基建工程物资需求预测模型和决策分析系统
CN106997509A (zh) * 2017-03-28 2017-08-01 南京航空航天大学 一种不确定信息融合的应急物资分布需求预测方法
CN107292428A (zh) * 2017-06-07 2017-10-24 国网浙江省电力公司物资分公司 一种配网电力物资采购需求预测系统
CN107451278A (zh) * 2017-08-07 2017-12-08 北京工业大学 基于多隐层极限学习机的中文文本分类方法
CN107784397B (zh) * 2017-11-09 2021-08-31 贵州电网有限责任公司 一种电网物资需求预测系统及其预测方法
CN107784397A (zh) * 2017-11-09 2018-03-09 贵州电网有限责任公司 一种电网物资需求预测系统及其预测方法
CN107993033A (zh) * 2017-11-14 2018-05-04 广东电网有限责任公司物流服务中心 一种电力物资预测方法
CN107909308A (zh) * 2017-12-27 2018-04-13 深圳春沐源控股有限公司 资源配置方法、电子设备及存储介质
CN108364107A (zh) * 2018-03-20 2018-08-03 张家林 一种投资数据处理方法及装置
CN109741090A (zh) * 2018-12-18 2019-05-10 刘雨昆 一种基于多因素的配网工程物资需求预测方法
CN109858742A (zh) * 2018-12-24 2019-06-07 江苏乐建网络科技有限公司 基于协同过滤的工程物资计算方法、设备、介质及系统
CN111415051A (zh) * 2020-05-18 2020-07-14 江苏电力信息技术有限公司 一种基于bp神经网络的电力物资需求计划预测方法
CN111753368A (zh) * 2020-05-18 2020-10-09 重庆长安汽车股份有限公司 预测车内吸声性能的方法
CN111753368B (zh) * 2020-05-18 2022-07-08 重庆长安汽车股份有限公司 预测车内吸声性能的方法
CN112614011A (zh) * 2020-12-07 2021-04-06 国网北京市电力公司 电力配网物资需求预测方法和装置、存储介质及电子设备
CN112614011B (zh) * 2020-12-07 2024-03-15 国网北京市电力公司 电力配网物资需求预测方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN102819772B (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN102819772A (zh) 电力配网建设物资需求预测方法及装置
CN102831489B (zh) 电力配网建设物资需求预测方法及装置
Zheng et al. Locational marginal price forecasting: A componential and ensemble approach
CN107958043B (zh) 一种电网工程预算清单自动生成方法
CN108932557A (zh) 一种基于气温累积效应和灰色关联度的短期负荷预测模型
CN109858740A (zh) 企业风险的评估方法、装置、计算机设备及存储介质
Porteiro et al. Electricity demand forecasting in industrial and residential facilities using ensemble machine learning
Mathonsi et al. Prediction interval construction for multivariate point forecasts using deep learning
Li et al. Modeling and optimization of bioethanol production planning under hybrid uncertainty: A heuristic multi-stage stochastic programming approach
In et al. Simple averaging of direct and recursive forecasts via partial pooling using machine learning
Marchetti et al. Robust estimation of the theil index and the gini coeffient for small areas
Guan et al. Ultra-short-term wind power prediction method based on FTI-VACA-XGB model
Deng et al. Sales forecasting based on LightGBM
Chen et al. [Retracted] Application of Improved LSTM Algorithm in Macroeconomic Forecasting
Jauhar et al. An approach to solve multi-criteria supplier selection while considering environmental aspects using differential evolution
Atkinson et al. Feasible estimation of firm‐specific allocative inefficiency through Bayesian numerical methods
Kourtesi et al. Conditional efficiency estimation with environmental variables: evidence from Greek cereal farms
Andersen Knowledge productivity and the returns to agricultural research: a review
Yu et al. Buffer allocation in a flow shop with capacitated batch transports
Afshar et al. Multi-objective optimisation using cellular automata: application to multi-purpose reservoir operation
Fan Research on Forecast of Macroeconomic Indicators Based on Multiobjective Optimization
Zhang et al. Retail commodity sale forecast model based on data mining
Genov et al. Short-Term Load Forecasting in a microgrid environment: Investigating the series-specific and cross-learning forecasting methods
CN105844396A (zh) 一种基于企业生态系统理论的电力交易信息增值服务评价方法
Guo et al. Does agricultural mechanisation promote agricultural TFPG? Evidence from spatial panel data in China

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant