CN112330030B

CN112330030B - 业扩物资需求预测系统及方法

Info

Publication number: CN112330030B
Application number: CN202011241803.8A
Authority: CN
Inventors: 郑建华; 李阿勇; 丁一; 张盛; 周程; 尤伟
Original assignee: State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-09-23
Anticipated expiration: 2040-11-09
Also published as: CN112330030A

Abstract

本发明涉及大数据在电力行业的应用，特别是涉及电力行业中业扩工程项目物资需求预测方法，更为具体的说是涉及业扩物资需求预测系统及方法。通过LSTM模型和Prophet模型，综合考虑内部因素和外部因素，将两个模型按照熵值权重融合形成一种新的业扩物资需求预测系统和预测方法。相较于现有技术中传统的预测方法，能够显著提高预测的准确度，是一种能够满足业扩物资需求样本复杂度高、广度大的预测方法。

Description

业扩物资需求预测系统及方法

技术领域

本发明涉及大数据在电力行业的应用，特别是涉及电力行业中业扩工程项目物资需求预测方法，更为具体的说是涉及业扩物资需求预测系统及方法。

背景技术

业扩(供电业务扩展)指发展新的电力用户相关的业务。业扩物资就是指在发展新的电力用户相关的业务中需要的物资。譬如，当新建一个厂的时候，根据该厂的用电申请，就会产生一系列的业扩工程。在业扩的工程中必然就会涉及到物资的配置和使用。作为电力投资的重要领域、服务地方经济可持续发展的重要工程，既直接关系到用户的切身利益，又关系到电网的稳定运行，电力企业的社会形象。物资需求预测是企业制定物资战略规划、计划管理、采购供应的重要依据。

因此，准确预测物资需求是业扩物资高效率管理的前提和基础。

传统的预测方式是通过对历史数据进行挖掘，通过分析内在规律，对需求数量进行预测。但是这种预测方式忽略了外部因素对物资需求的影响。譬如，从需求端电力大客户的用电意向看，区域经济发展、用电情况等都会影响业扩的投资规模；从供给端对业扩物资投资看，物资成本、区域政策以及公司发展规划等均影响各年度各区域的项目建设投资方向及投资规划。对于这些因素来说，历史数据无法体现，而这些因素恰恰对业扩物资需求预测具有重要的影响。

目前，现有技术中尚未有综合考虑内部和外部因素影响的业扩物资需求预测方法。

发明内容

本发明所要解决的技术问题是现有的业扩物资需求预测系统和方法仅以历史数据为基础，无法准确反映内外部多维度因素，预测结果与实际需求量偏差大，预测结果精准性不高。

为了解决上述技术问题，本发明公开了一种全新的业扩物资需求预测系统，包括：

数据库模块，所述数据库模块中包括有内部数据库子模块和外部数据库子模块；所述内部数据库子模块用以存储内部数据，所述外部数据库子模块用以存储外部数据；

数据处理模块，所述数据处理模块用以对数据库模块中的数据进行处理；

LSTM模型训练模块，所述LSTM模型训练模块从数据处理模块中导入样本，作为LSTM模型构建训练集，并得到基于LSTM模型的业扩物资需求预测模型M1；

Prophet模型训练模块，所述Prophet模型训练模块从数据处理模块中导入样本，作为Prophet模型构建训练集，并得到基于Prophet模型的业扩物资需求预测模型M2；

模型融合模块，所述模型融合模块将基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2融合，得到最优预测模型和最优预测结果。

其中优选的，所述模型融合模块采用权重对基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2进行融合，融合后的预测模型为L＝w₁M₁+w₂M₂，其中w_i(i＝1,2)为单项预测方法的权重，w₁+w₂＝1，w₁,w₂∈[0,1]。

进一步优选的，将数据处理模块中的非训练集的样本导入融合后的预测模型，作为融合后的预测模型的测试集样本，利用绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)获得优选的权重计算方式，所述w_i的计算公式为：

这里所说的绝对误差|γ_it|是将测试集样本导入融合后的预测模型，获得预测误差后，对其进行绝对值化处理。所述的利用利用绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)获得优选的权重计算方式，是指利用绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)进行演化聚类分析从而获得优选的权重计算方法。

在一个优选的技术方案中，所述的内部数据库子模块中包含有历史投资额数据和历史出库数据，所述的外部数据库子模块中包含有区域经济发展GDP数据，及区域各产业用电量数据和原材料价格指数数据。

进一步优选的，所述数据处理模块包括：

历史投资额数据处理子模块，所述历史投资额数据处理子模块对按照：年度季度投资额＝业扩年度投资总额＊季度出库额占比对各个区域的业扩工程历年投资计划总额按照季度拆解；

历史出库数据处理子模块，所述历史出库数据处理子模块按照季度维度对出库数据进行拆解；

区域经济发展GDP数据处理子模块，所述区域经济发展GDP数据处理子模块通过官方公开数据获取区域经济增长指标，即区域季度GDP总值；

区域各产业用电量数据处理子模块，所述区域各产业用电量数据处理子模块将该区域各个产业及居民生活用电数据按照季度进行汇总；

原材料价格指数数据处理子模块，所述原材料价格指数数据处理子模块对钢、铜、铝的价格数据按季节维度测算平均值。

应当理解的是，本发明所公开的系统是基于计算机，该计算机包括计算机存储器、计算机处理器以及存储在计算机存储器上的可以在该计算机处理器上运算的计算机程序。本发明公开的系统存储在该计算机存储器中，并可以调用计算机处理器进行相关的运算和计算。

作为进一步优选的技术方案，本发明还公开了基于该业扩物资需求预测系统的业扩物资需求预测方法，包括以下步骤：

S1：根据待预测的地域，收集该地域内的历史投资额数据和历史出库数据，以及该地区区域经济发展GDP数据和该区域内各产业用电量数据和原材料价格指数数据；

S2：将S1中收集到的数据输入到数据库模块中；

S3：S2中的数据在数据处理模块中分别进行处理；并且被分为训练集样本和测试集样本；

S4：利用LSTM模型训练模块和S2中的训练集样本得到基于LSTM模型的业扩物资需求预测模型M1；

S5：利用Prophet模型训练模块和S2中的训练集样本得到基于Prophet模型的业扩物资需求预测模型M2；

S6：通过模型融合模块，将基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2融合，得到最优预测模型和最优预测结果L＝w₁M₁+w₂M₂，其中w_i(i＝1,2)为单项预测方法的权重，w₁+w₂＝1，w₁,w₂∈[0,1]。

进一步优选的是，还包括有模型优化步骤，将测试集样本导入S6中获得的最优预测模型中，利用绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)获得优选的权重计算方式，所述w_i的计算公式为：

从而得到经过校正的得到偏差最小的权重组合w′₁，w′₂，相应的最优组合预测模型和最优物资预测结果修正为L＝w′₁M₁+w′₂M₂为。

具体的，将训练集样本导入LSTM神经网络的业扩物资需求预测模型，进行模型训练和参数优化，得到训练好的LSTM神经网络业扩物资需求预测模型M1的步骤是：

A1:将训练集样本导入LSTM神经网络的业扩物资需求预测模型，进行模型训练；

A2:设置并根据训练情况不断调优训练参数，具体包括“MaxEpochs”、“GradientThreshold”、“'InitialLearnRate”、“LearnRateDropPeriod”、“LearnRateDrop Factor”等训练参数；

A3:得到训练好的与实际值误差最小的LSTM神经网络业扩物资需求预测模型M1。

具体的，将训练集样本导入Prophet的业扩物资需求预测模型，进行模型的训练和参数的优化，得到训练好的Prophet业扩物资需求预测模型M2的步骤是：

B1:将训练集样本导入Prophet的业扩物资需求预测模型，进行模型训练；

B2:设置并根据训练情况不断调优训练参数，具体包括s(t):季节项、反应周期性变化，模型调控参数为seasonality_prior_scale和g(t):趋势项，反应趋势性变化，模型调控参数为change points&changepoint_prior_scale等；

B3:得到训练好的与实际值误差最小的Prophet业扩物资需求预测模型M2。

具体的，计算两种预测方法下预测误差γ_it，并对预测误差进行绝对化操作，得到绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)得步骤是：

C1:设{y_t,t＝1,2,3,…，n}为某个季度的物资实际需求量，两种预测方法下的预测结果分别计为：

C2:通过公式

计算误差值；其中γ_it表示第i种预测方法的在t时刻的预测误差；

C3:为反映预测结果的波动水平，对γ_it取绝对值操作，即|γ_it|，i＝1,2；t＝1,2,3,…，n；|γ_it|表示在不同预测方法在不同时点的绝对误差。

具体的，对绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)进行演化聚类分析的步骤是：

D1:对绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)进行演化聚类分析，设绝对误差数据经演化聚类后的类中心数为K，则有：

D2:计算预测结果绝对误差信息中隶属于第k个类中心的数量：

D3:对

进行归一化处理，

则第i项单项预测方法的绝对误差数据分布于各类中心的情况可归纳为

本发明基于LSTM模型和Prophet模型，通过将两个模型按照熵值权重融合形成一种新的业扩物资需求预测系统和预测方法。相较于现有技术中传统的预测方法，能够显著提高预测的准确度，是一种能够满足业扩物资需求样本复杂度高、广度大的预测方法。

附图说明

图1为业扩物资需求预测方法流程图。

图2为LSTM算法下的拟合曲线图。

图3为Prophet算法下的拟合曲线图。

具体实施方式

为了更好的理解本发明，下面我们结合具体的实施例对本发明进行进一步的阐述。

如图1中所示，在本实施例中业扩物资需求预测的方法包括以下步骤：

S1：根据待预测的地域，收集该地域内的历史投资额数据和历史出库数据，以及该地区区域经济发展GDP数据和该区域内各产业用电量数据和原材料价格指数数据；图1中所示的构建业扩项目建设的影响因素体系；

S2：将S1中收集到的数据输入到数据库模块中；

S3：S2中的数据在数据处理模块中分别进行处理；并且被分为训练集样本和测试集样本；也就是在图1中的对收集的输入指标相关数据进行预处理；

S6：通过模型融合模块构建组合预测模型，将基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2融合，得到最优预测模型和最优预测结果L＝w₁M₁+w₂M₂，其中w_i(i＝1,2)为单项预测方法的权重，w₁+w₂＝1，w₁,w₂∈[0,1]。

然后我们看到，在本实施例中还进一步优选包括有模型优化步骤，将测试集样本导入S6中获得的最优预测模型中，利用绝对误差|γ_it|(i＝1,2；t＝1,2,3,…，n)获得优选的权重计算方式，所述w_i的计算公式为：

从而得到经过校正的得到偏差最小的权重组合w′₁，w′₂，相应的最优组合预测模型和最优物资预测结果修正为L＝w′₁M₁+w′₂M₂。

如图1中所示的，这里的优化步骤，首先是利用测试集将预测结果与物资实际需求进行比较，计算预测误差及绝对误差，然后再将绝对误差进行演化聚类分析，利用熵值赋权方法，计算得到修正后的优化的预测公式。

下面我们举一个实际的例子，来进一步描述本发明公开的预测方法。

第一步:输入数据维度选取。参考表1，在梳理业扩项目各类影响因素基础上，综合考虑数据的可获取性、量化可能性及标准化程度，选取以下指标作为算法输入：

表1 业扩工程物资需求预测输入指标

第二步:输入数据预处理。在本实施例中，业扩项目工程从2017年第一季度开始实行，各地市2017年度的出库数据主要集中在第三、第四季度，因此，本预测模型中其他输入数据的范围依出库数据范围而定。以江苏A地市公司为例，对相关输入数据进行预处理。

(1)历史出库数据。梳理分析2017-2019年度的实际出库表单，对共计131587条出库数据条目按照季度维度进行拆解，如表2中所列。

表2 江苏A地市公司业扩配套项目2017-2019年实际出库额(万元)

(2)投资计划额。2017年和2019年各季度的投资额，以2018年度投资额与出库额的比例为基础进行拆分，比如，2018年各季度投资额与出库额的比例为1.41，则2019年第一季度的投资额＝2019年第一季度的出库额/1.41。如表3中所列。

表3 江苏A地市公司2017-2019年投资额(万元)

(3)区域用电情况。收集2017-2019年度区域用电数据，将各个产业及居民生活用电数据按照季度进行汇总。如表4中所列。

表4 江苏A地市公司2017-2019年各产业用电量(亿千瓦时)

(4)区域经济增长指标。获取江苏各地市的2017-2019年季度经济增长指标，即区域季度GDP总值。如表5中所列。

表5 江苏A地市公司2017-2019年季度GDP总量(亿元)

(5)原材料价格指数。从上海有色网获取铜、铝的价格指数，从中国联合钢网获取钢铁的价格指数，并按季度测算平均值作为本模型的输入。

最终整理形成输入数据样本如表6中所列：

表6 输入数据样本

第三步：构建基于LSTM神经网络的业扩物资需求预测模型。

设置训练参数:“MaxEpochs，250”、“GradientThreshold，1”、“'InitialLearnRate，0.005”、“LearnRateDropPeriod，125”、“LearnRateDropFactor，0.2”，将S2中的训练集样本导入到LSTM神经网络的业扩物资需求预测模型，进行模型训练和参数优化设置。

以物料编码“500108108”的电力电缆出库金额为预测对象。以下为A地市2018第一季度-2019第二季度的预测结果及过程参数，如图表7中所列。

表7 物料编码“500108108”物资需求明细预测结果

季度	预测值	实际值
			2018第一季度	7270936	15023081.35
2018第二季度	65207659	47784495.56
			2018第三季度	12569832	61828309.2
2018第四季度	32106578	53963015.93
			2019第一季度	54018654	36054586.52
2019第二季度	20961620	84540856.53

以下是2019年第二季度物资需求预测过程中，LSTM算法下的拟合曲线和算法参数：

(1)算法参数

numHiddenUnits:7

MaxEpochs:250

LearnRateDropPeriod：125

(2)拟合曲线如图2所示。

第四步:构建基于Prophet的业扩物资需求预测模型。

设置训练参数：“change points，2”、“changepoint_prior_scale，0.36”、“seasonality_prior_scale，10”，将训练集样本导入Prophet的业扩物资需求预测模型，进行模型训练和参数优化设置。

以物料编码“500108108”的电力电缆出库金额为预测对象。以下为A地市的2018第一季度-2019年第二季度的预测结果及过程参数，如表8中所列。

表8 物料编码“500108108”物资需求明细预测结果

季度	预测值	实际值
			2018第一季度	6827937	15023081.35
2018第二季度	25374836	47784495.56
			2018第三季度	36789201	61828309.2
2018第四季度	38207821	53963015.93
			2019第一季度	45015423	36054586.52
2019第二季度	66994450	84540856.53

以下是2019年第二季度物资需求预测过程中，Prophet算法下的拟合曲线和算法参数：

(1)算法参数

change points：2

changepoint_prior_scale：0.36

seasonality_prior_scale：10

(2)拟合曲线如图3所示。

第五步：构建组合预测模型L＝w₁M₁+w₂M₂，其中w_i(i＝1,2)为单项预测方法的权重，w₁+w₂＝1，w₁,w₂∈[0,1]。

第六步：计算预测误差。2018年第一季度-2019年第二季度物资实际需求值为：{15023081.35,47784495.56,61828309.2,53963015.93,36054586.52,84540856.53},LSTM神经网络算法下的预测结果为：{7270936,65207659,12569832,32106578,54018654,20961620},Prophet算法下的预测结果为{6827937,25374836,36789201,38207821,45015423,66994450}。

计算两种算法下的预测误差，分别为：LSTM神经网络算法下的预测误差为{-7752145.35,17423163.44,-49258477.2,-21856437.93,17964067.48,-63579236.53}；Prophe t算法下的预测误差为{-8195144.35,-22409659.56,-25039108.2,-15755194.93,8960836.48,-17546406.53}。

对两种算法下的预测误差取绝对值，即LSTM算法下绝对误差为：{7752145.35,17423163.44,49258477.2,21856437.93,17964067.48,63579236.53}；Prophet算法下绝对误差值为：{8195144.35,22409659.56,25039108.2,15755194.93,8960836.48,17546406.53}。

第七步：绝对误差数据经演化聚类分析后分为2个类中心，2种单项预测结果的绝对误差属于2个类中心的频率分别为：

LSTM神经网络算法：

u₁＝(0.167，0.833)^T

Prophet算法：

u₂＝(0.4，0.6)^T

第八步：应用改进的熵权模型，计算得到2种预测方法的权重分别为：

LSTM神经网络算法：w₁＝0.538；Prophet算法：w₂＝0.462

第九步：根据给出的权重，结合组合预测模型，最终计算得2018年第一季度-2019年第二季度最优预测结果：{7066477.34,46823496.15,23747870.37,34922503.07,49863365.66,42207290.76}。

以上所述是本发明的具体实施方式。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.业扩物资需求预测系统，其特征在于，包括：

模型融合模块，所述模型融合模块将基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2融合，得到最优预测模型和最优预测结果；

所述模型融合模块采用权重对基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2进行融合，融合后的预测模型为L＝w₁M₁+w₂M₂，其中w_i为单项预测方法的权重；i取值1,2；w₁+w₂＝1，w₁,w₂∈[0,1]；

将数据处理模块中的非训练集的样本导入融合后的预测模型，作为融合后的预测模型的测试集样本，利用绝对误差|γ_it|获得优选的权重计算方式，所述w_i的计算公式为：

i＝1，2；t＝1，2，3，…，n；m＝2；

所述的内部数据库子模块中包含有历史投资额数据和历史出库数据，所述的外部数据库子模块中包含有区域经济发展GDP数据，及区域各产业用电量数据和原材料价格指数数据；

其中|γ_it|是按照如下步骤计算，并进行绝对化操作得到的值，

C1:设{y_t,t＝1,2,3,…，n}，为某个季度的物资实际需求量，其中n为自然数，表示第n个季度，两种预测方法下的预测结果分别计为：

C2:通过公式

C3:为反映预测结果的波动水平，对γ_it取绝对值操作，即|γ_it|，|γ_it|表示在不同预测方法、不同时刻的绝对误差；

对绝对误差|γ_it|进行演化聚类分析的步骤是：

D1:对绝对误差|γ_it|进行演化聚类分析，设绝对误差数据经演化聚类后的类中心数为K，则有：

D2:计算预测结果绝对误差信息中隶属于第k个类中心的数量：

D3:对

进行归一化处理，

2.根据权利要求1所述的业扩物资需求预测系统，其特征在于，所述数据处理模块包括：

历史投资额数据处理子模块，所述历史投资额数据处理子模块对各个区域的业扩工程历年投资计划总额按照季度拆解；年度季度投资额＝业扩年度投资总额×季度出库额占比；

3.基于权利要求1或2所述的业扩物资需求预测系统的业扩物资需求预测方法，其特征在于，包括以下步骤：

S1：根据待预测的地域，收集该地域内的历史投资额数据和历史出库数据，以及该地域的区域经济发展GDP数据和该区域内各产业用电量数据和原材料价格指数数据；

S2：将S1中收集到的数据输入到数据库模块中；

S6：通过模型融合模块，将基于LSTM模型的业扩物资需求预测模型M1和基于Prophet模型的业扩物资需求预测模型M2融合，得到最优预测模型和最优预测结果L＝w₁M₁+w₂M₂，其中w_i为单项预测方法的权重，w₁+w₂＝1，w₁,w₂∈[0,1]。

4.根据权利要求3所述的业扩物资需求预测方法，其特征在于，还包括有模型优化步骤，将测试集样本导入S6中获得的最优预测模型中，利用绝对误差|γ_it|获得优选的权重计算方式，所述w_i的计算公式为：

5.根据权利要求3所述的业扩物资需求预测方法，其特征在于，将训练集样本导入基于LSTM模型的业扩物资需求预测模型；进行模型训练和参数优化，得到训练好的基于LSTM模型的业扩物资需求预测模型M1的步骤是：

A1:将训练集样本导入基于LSTM模型的业扩物资需求预测模型M1，进行模型训练；

A2:设置并根据训练情况不断调优训练参数；

A3:得到训练好的与实际值误差最小的基于LSTM模型的业扩物资需求预测模型M1；

和/或，

将训练集样本导入基于Prophet模型的业扩物资需求预测模型，进行模型的训练和参数的优化，得到训练好的基于Prophet模型的业扩物资需求预测模型M2的步骤是：

B1:将训练集样本导入基于Prophet模型的业扩物资需求预测模型，进行模型训练；

B2:设置并根据训练情况不断调优训练参数，具体包括s(t):季节项、反应周期性变化，模型调控参数为seasonality_prior_scale和g(t):趋势项，反应趋势性变化，模型调控参数为change points&changepoint_prior_scale；

B3:得到训练好的与实际值误差最小的基于Prophet模型的业扩物资需求预测模型M2。

6.根据权利要求3所述的业扩物资需求预测方法，其特征在于，计算两种预测方法下预测误差γ_it，并对预测误差进行绝对化操作，得到绝对误差|γ_it|的步骤是：

C2:通过公式

计算误差值；其中γ_it表示第i种预测方法在t时刻的预测误差；

对绝对误差|γ_it|进行演化聚类分析的步骤是：

D2:计算预测结果绝对误差信息中隶属于第k个类中心的数量：

D3:对

进行归一化处理，