CN115481841A

CN115481841A - 基于特征提取和改进随机森林的物资需求预测方法

Info

Publication number: CN115481841A
Application number: CN202110663038.7A
Authority: CN
Inventors: 黄振球; 黎莫林; 江健武; 马婉仪; 刘康军; 陈俊君; 邹林宏
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2022-12-16

Abstract

本发明涉及一种基于特征提取和改进随机森林的物资需求预测方法，包括：导入历史项目数据中的物资需求数据以及与物资需求对应的项目属性数据，进行数据提取得到项目物资历史数据集；基于建立的行业与工程分类知识库，对项目物资历史数据集进行分组；依据项目属性数据对物资在历史项目中的重要性排序，筛选出需进行预测的物资种类；利用与每种所述物资种类对应的物资分组历史数据训练对应的随机森林模型；输入需预测物资的种类，获取该物资的项目属性数据，导入对应的随机森林模型预测该物资的需求量。本发明不仅提高了预测效率，同时提高了非平衡数据的预测性能。

Description

基于特征提取和改进随机森林的物资需求预测方法

技术领域

本发明涉及物资需求预测和数据处理技术领域，具体涉及一种基于特征提取和改进随机森林的物资需求预测方法。

背景技术

配网物资需求预测是现代电网企业合理制定采购策略，规划发展战略所需的一项重要能力，同时也是提升管理水平，提高运作效率的重要方法。如何科学、合理地进行物资需求预测已逐步成为电网企业的一个重要课题。配网物资需求预测是根据历史的项目物资使用数据，利用数据挖掘技术，探索项目物资使用的内在规律，进而对项目物资的未来需求进行预测，为决策者提供决策依据，有利于提高配网物资管理的精益化水平以及配网物资的运作效率，而且预测的准确性与及时性也制约着物资效率水平的提升。因此，进行准确且及时的物资需求预测具有非常重要的现实意义。

在配网物资需求预测方面，传统的多元回归模型、时间序列预测法等是基于线性技术来进行预测，而对非线性数据的处理不尽合理，效果欠佳；而使用人工智能算法对传统预测方法进行改进，可以全面提取物资序列中的复合特征，进而提高配网物资的预测精度。机器学习、深度学习算法可以通过对配网物资需求历史数据的训练学习，发现一些我们难以发现的特性，使预测更为精确。然而，新的理论技术虽然可以解决非线性、复杂多变的配网物资需求预测问题，但也带来计算量大、参数设计困难及收敛慢等问题。如神经网络模型优化参数较多，在工程领域的应用受到影响，且存在过学习和预测扩展能力不足的缺点。

发明内容

鉴于上述的分析，本发明旨在提供一种基于特征提取和改进随机森林的物资需求预测方法，以提高对配网物资预测的准确率。

本发明提供的技术方案是：

本发明公开了一种基于特征提取和改进随机森林的物资需求预测方法，包括：

导入历史项目数据中的物资需求数据以及与物资需求对应的项目属性数据，进行数据提取得到项目物资历史数据集；

基于建立的行业与工程分类知识库，对项目物资历史数据集进行分组；

依据项目属性数据对物资在历史项目中的重要性排序，筛选出需进行预测的物资种类；

利用与每种所述物资种类对应的物资分组历史数据训练对应的随机森林模型；

输入需预测物资的种类，获取该物资的项目属性数据，导入对应的随机森林模型预测该物资的需求量。

进一步地，所述导入历史项目数据中的物资需求数据以及与物资需求对应的项目属性数据；进行特征提取得到项目物资历史数据集；包括：

基于核K-Means聚类的离群点检测对历史项目数据中物资需求数据以及与物资需求对应的项目属性数据的异常值进行处理，并进行数据清洗和筛选，得到包括物资需求量特征数据和与之对应的年份、项目名称、物资编码、投资金额在内的项目属性数据；

采用自然语言处理的Jieba分词技术对项目属性数据的项目名称进行语义识别、文本分析和分词处理，提取其中所含的地区、站点、行业类型和工程类型在内的特征数据；

将物资需求量特征数据和与之对应的年份、地区、站点、行业类型、工程类型、项目名称、物资编码、投资金额在内的特征数据组成项目物资历史数据集。

进一步地，基于核K-Means聚类的离群点检测对历史项目数据中物资需求数据以及与物资需求对应的项目属性数据的异常值进行处理，包括：

1)采用核K-Means进行聚类，将历史项目数据分为单个的簇，聚类后的数据集为D，共分为K个簇，用D_a来表示簇，对应簇中心为c_a，a＝1,…,K，a表示物资历史数据中各特征数据对应的簇的个数；

2)寻找物资历史数据中各特征数据为空值的缺失数据A_b所在簇D_a，在D_a中寻找与A_b最为相似的数据A_c，b≠c，b和c均不大于所在簇D_a的数据量；用A_c的属性去填补A_b的缺失属性，如此反复迭代，直至所有缺失数据填补完成，填补后数据集为F_补；

3)对于数据集F_补中的每一个簇，设置目标函数的阈值，逐个删除数据对象，若删除后，存在显著降低，即标记为离群点，加入数据集B中；

4)在数据集B中确认是否有填补的缺失值，是，则跳转至1)重新进行聚类填补；否，则结束；

5)在步骤4)中反复迭代至设定的迭代阈值后，则将迭代的缺失数据以簇均值填补并结束。

进一步地，所述目标函数

其中dist是为缺失值到每个簇的核距离；x∈c_a，a＝1,…,K。

进一步地，所述提取其中所含的地区、站点、行业类型和工程类型在内的特征数据为文本型特征数据，采用标签编码方式分别对地区、站点、行业类型和工程类型进行标签编码转换为数字型特征数据。

进一步地，所述行业与工程分类知识库根据所述项目物资历史数据集中包括的行业类型和工程类型在内的特征数据建立。

进一步地，依据项目属性数据对物资在项目中的重要性排序，筛选出需进行预测的物资种类；所述的排序包括：

排序一、根据物资在历史项目中的需求频率进行物资的重要性排序；

排序二、根据物资在历史项目中的价值量进行物资的重要性排序。

进一步地，随机森林模型的训练过程，包括：

将数据集划分为训练集和测试集；

对随机森林预测模型进行参数寻优；

随机森林预测模型对参数进行调优后，对测试集中的同一物资进行多次预测，得到每棵决策树对应的预测结果；

对每棵决策树的预测结果赋予一个客观的权重，把每棵决策树的预测结果加权求和获得最终的预测结果。

进一步地，所述对每棵决策树的预测结果赋予一个客观的权重包括：

1)计算随机森林中各单一决策树的相对预测误差；

其中，y_fg表示实际的物资需求量，

表示预测的物资需求量，f为随机森林中决策树的序号；g为需要预测的物资种类的序号。

2)各单一决策树的相对预测误差数据进行归一化处理，同时确定各预测误差数据下第f个模型所占的比重；

t为需要预测的物资种类的总个数；

3)计算每个单一决策树的相对预测误差的熵值；

其中，

且k＞0；E_f≥0；另外当p_fg＝0时，令ln(p_fg)＝0。

4)计算得到的各单一决策树的熵值结果，确定与之相对应的决策树预测的冗余度d_f＝1-E_f；

5)计算各单一决策树的权重；

(m为随机森林中决策树的总个数)

6)计算得到最终的预测值：

其中

表示预测的物资需求量，w_f为各单一决策树的权重，x_fg表示物资需求量的加权求和值。

进一步地，所述对随机森林预测模型进行参数寻优选择平均袋外误差率

来进行；

所述平均袋外误差率

式中，m为随机森林模型中决策树的个数，f为森林中决策树模型的序号，OOB_f为第f个决策树模型的袋外误差率，

t为需要预测的物资种类的总个数，g为需要预测的物资种类的序号，y_g为真实值，

为预测值；

使得袋外误差率

趋近于稳定时的参数组合；即为该随机森林预测模型中随机森林模型中决策树个数m和随机选择特征分裂时特征选择个数z的最优组合。

本发明至少可实现以下有益效果之一：

利用自然语言处理的方法进行语义识别、分词、信息抽取，进而从项目名称中提取关键信息并作为特征变量，解决了原始变量较多且难以精准识别主要变量的问题；用标签编码(Label Encoding)将文本型变量数值化，保持了原本数据的维度，作为模型的多个输入变量，解决了模型的输入问题；

提出的结合熵权法的随机森林将各决策树赋予一定的加权值，由于熵权法是根据各单一决策树的相对预测误差来确定各决策树的权重，这种方法是一种客观的赋权法，避免了人为因素带来的偏差。相对那些主观赋权法，精度较高，客观性更强，能够更好的预测物资需求量。

建立了电网物资需求预测模型，充分利用机器学习的多输入、多输出优点，实现对电网物资需求量的预测；通过随机森林模型，提高了预测效率和预测精度，也能在避免过拟合的情况下保持很高的预测精度，这不仅提高了预测效率，也提高了非平衡数据的预测性能。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例中的物资需求预测方法流程图；

图2为本发明实施例中的改进的随机森林的构建和算法流程；

图3为本发明实施例中的物资投资额占比统计示意图；

图4为本发明实施例中的物资投资额预测结果示意图；

图5为本发明实施例中的物质预测中的投资金额与真实的投资金额对比图；

图6为本发明实施例中的第一类物资预测结果对比图；

图7为本发明实施例中的第二类物资预测结果对比图；

图8为本发明实施例中的第三类物资预测结果对比图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个实施例公开了一种基于特征提取和改进随机森林的物资需求预测方法，如图1所示，包括以下步骤：

步骤S1、导入历史项目数据中的物资需求数据以及与物资需求对应的项目属性数据；进行数据提取得到项目物资历史数据集；

步骤S2、基于建立的行业与工程分类知识库，对项目物资历史数据集进行分组得到物资分组历史数据；

步骤S3、依据项目属性数据对物资在历史项目中的重要性排序，筛选出需进行预测的物资种类；

步骤S4、利用与每种所述物资种类对应的物资分组历史数据训练对应的随机森林模型；

步骤S5、输入需预测物资的种类，获取该物资的项目属性数据，导入对应的随机森林模型预测该物资的需求量。

具体的，在步骤S1包括：

步骤S101、基于核K-Means聚类的离群点检测对历史项目数据中物资需求数据以及与物资需求对应的项目属性数据的异常值进行处理，并进行数据清洗和筛选，得到包括物资需求量特征数据和与之对应的年份、项目名称、物资编码、投资金额在内的项目属性数据；

步骤S102、采用自然语言处理的Jieba分词技术对项目属性数据的项目名称进行语义识别、文本分析和分词处理，提取其中所含的地区、站点、行业类型和工程类型在内的特征数据；

步骤S103、将物资需求量特征数据和与之对应的年份、地区、站点、行业类型、工程类型、项目名称、物资编码、投资金额在内的特征数据组成项目物资历史数据集。

更具体的，在步骤S101中，所用历史项目数据主要源于配网物资项目信息库，我们从中提取了2010年-2019年共计10年的历史项目物资数据，其中包括项目历史物资需求清单、项目综合领料、项目历史工程结余、需求汇总结果等数据信息，选择其中有效的历史数据综合领料表，并依据数据清洗和筛选并结合配网物资数据集的特点，对综合领料表中的数据进行处理；具体包括：

步骤S101-1、数据清洗；由于预测主要针对配网物资，所以只保留配网项目的数据记录。在此基础上，把重复记录的数据进行检查后在数据记录一致的情况下进行合并、删除包含空白记录的数据记录、删除与其他年份数据存在明显差异的数据记录。

针对缺失值，采用手工清洗方式，利用所属同一项目的投资金额的均值填补投资金额的缺失值，利用所属同一项目的物资需求量的均值填补物资需求量的缺失值。

针对异常值或者错误值，我们利用基于局部的聚类方法对配网物资的投资金额和物资需求量的异常值进行异常检测，然后将含有异常值的记录进行填充。利用这一聚类算法，提高了探测物资需求量与投资金额的离群点的准确度，降低了时间和空间的复杂度，同时计算代价也相对较小。

由于所给配网数据属于多维数据，先将多维数据转化为一维数据，然后通过考察配网物资的各数据点与物资项目簇之间的关系，检测异常值。具体来说，该方法采用基于核K-Means聚类的检测来进行离群点检测，即在K-Means离群点检测的基础上，融入核方法，使用核函数将数据进行映射之后，在高维空间进行离群点检测，并采用核距离作为相似性度量。在使用核K-Means聚类算法进行离群点检测的时候，重点在于设定的目标函数，通过数据对象的加入或删除而导致目标函数的变化幅度从而确定数据对象是否为离群点。在聚类算法中，离群点的定义如下：

若存在数据对象x不属于任意簇D_a，则定义x为离群点，离群点的检测可以表述为作为目标函数异常的对象

其中dist是为缺失值到每个簇的核距离；x∈c_a，a＝1,…,K(a表示物资历史数据中各特征对应的簇的个数,c_a为第a个簇的簇中心点),当加入某个对象x后，Dist显著增加，则可以确定这个x为离群点。

离群点的属性值明显偏离期望的或常见的属性值。因此，如果有填补值检测为离群点，则具有很大的可能性填补值准确度过低。本实施例正是根据离群点的这一个特性，在数据填补之后，再使用核K-Means聚类进行离群点检测，检测离群点是否是填充的缺失值，采用

作为判断函数。对于确认为离群点的填补值，则提取出来，重新构成缺失数据集，迭代数据填补算法，直至离群点检测无确认为离群点的填补值。

具体的，基于核K-Means聚类的离群点检测对历史项目数据中物资需求数据以及与物资需求对应的项目属性数据的异常值进行处理，包括：

1)采用核K-Means进行聚类，将历史项目数据分为单个的簇，聚类后的数据集为D，共分为K个簇，用D_a来表示簇，对应簇中心c_a，a＝1,…,K；

2)寻找缺失数据A_b所在簇D_a，在D_a中寻找与A_b最为相似的数据A_c，b≠c，b和c均不大于所在簇D_a的数据量；用A_c的属性去填补A_b的缺失属性，如此反复迭代，直至所有缺失数据填补完成，填补后数据集为F_补；

4)在数据集B中确认是否有填补的缺失值，是，则跳转至1)重新进行聚类填补，否，则结束；

5)在步骤4)中反复迭代至设定的迭代阈值后，将迭代的缺失数据以簇均值填补并结束。

K-Means算法中，删除远离其相关簇中心的对象能够显著的改进该簇的误差平方和SSE，进而提高了探测物资需求量与投资金额的离群点的准确度。针对重复值，如通过判断，将数据库中属性相同的记录合并为同一条记录；比如同一种物资或项目名称采用不同表述方式的数据，可将其合并。

步骤S101-2、数据筛选：把经过数据清洗的数据通过自动或人工筛选，仅保留与电网物资需求预测相关的“年份”、“项目名称”“物资编码”、“物资名称”、“物资需求量”、“投资金额”6个有用维度的数据。

具体的，步骤S102中由于“项目名称”中含有很多影响电网物资需求的因素，因此，对上述经过清洗和筛选的数据中的项目名称进行语义识别、分词、信息抽取，提取关键信息并作为特征变量，为后续进行特征编码做前提准备。

通过自然语言处理的Jieba分词技术，对项目名称进行了分词，得到“项目服务地区”、“项目服务具体地点”、“项目服务对象”、“项目服务内容”四部分，分别提取出项目名称中对应的特征，即“地区”、“站点”、“行业类型”及“工程类型”4个特征。示例性地，具体提取方法如下：

“地区”特征包含因素是目标地的各个行政区；例如，为深圳市的各个行政区；

“站点”特征包含因素是目标地各区域的交通站点；例如，为深圳市的各区域的交通站点；

“行业类型”特征包含因素是目标地供电局各项目的服务对象所属的行业。行业划分依据是2017版“国民经济行业分类”表；

“工程类型”特征主包含因素是项目服务内容的类别。提取依据是项目名称最后几个字段。

针对常规项目，以“龙华/大浪站/F15南国丽园线#01719龙华供电所/台区整改工程”这一项目名称为例，分词结果为地区“龙华”、站点“大浪站”、行业类型“电力、热力、燃气及水生产和供应业”、工程类型“台区整改工程”；

针对行业类型属于公司的项目，以“深圳市光明新区//普里斯科精密材料(深圳)有限公司/业扩报装配套工程”为例，通过Python爬虫技术获取企业查或者天眼查网站上公司的所属行业类型。

考虑到预测模型的输入均为数值型特征，因此需要将文本型特征转化为数值型特征，具体方法如下：用标签编码(Label Encoding)即序列化标签编码，分别对地区、站点、行业类型和工程类型这些文本型特征进行标签编码。这不仅保持了原本数据的维度，又使得这些文本型特征可以和其他数值型特征共同作为预测模型的输入变量。以下是随机抽取的几个项目的特征及其标签编码后的结果。

表1原数据的特征属性

表2标签编码后的特征属性

具体的，步骤S2中，基于建立的行业与工程分类知识库，对项目物资历史数据集进行分组得到物资分组历史数据；将项目知识库、行业知识库、工程知识库中的各元素项目类型P、行业类型Q、工程类型M自由组合，得到历史物资的分组数据。比如，属于P1、Q1、M1的物资划分为组合G1，属于P1、Q1、M2的物资划分为组合G2，......,依此类推，得到P×Q×M个组合，作为后续模型的输入。

具体地，根据划分标准建立行业与工程的知识库。

所述行业与工程分类知识库根据所述项目物资历史数据集中包括的行业类型和工程类型在内的特征数据建立。

更优的，统计项目物资历史数据集中包括的所有行业类型和工程类型，以及项目物资历史数据集中包含的项目类型；并按照统计的项目类型的不同分类，建立项目知识库；按照统计的行业类型的不同分类，建立行业知识库；按照统计的工程类型的不同分类，建立工程知识库。

具体的，步骤S3中，依据项目属性数据对物资在项目中的重要性排序，筛选出需进行预测的物资种类；

其中，项目属性数据包括物资需求量特征数据和与之对应的年份、项目名称、物资编码、投资金额在内的数据；

所述的排序包括：

所述需求频率根据所述项目属性数据中物资需求量以及与之对应的年份、项目名称、物资编码确定，根据具体的年份、项目、物资种类和需求量数据计算出，每种物资在各个项目的需求频率历史数据。

排序二、根据物资在历史项目中的价值量进行物资的重要性排序；

所述价值量根据所述项目属性数据中物资需求量以及与之对应的年份、项目名称、物资编码和投资金额确定，根据具体的年份、项目、物资种类、投资金额和需求量数据计算出每种物资在各个项目的价值量占比历史数据。

在进行重要性排序，还根据所述项目属性数据中的物资编码建立物资库，对物资库中的物资根据排序一和排序二的结果进行分类。

更具体的，利用配网物资与资金占用之间存在的“少数物资占用大部分资金，而相反大多数物资却占用很少资金”的规律，对配网物资按其消耗数量，价值大小，进行分类排序；

将数量少且价值大的一类的物资归为第一类物资，将数量大但价值小的物资一类称为第二类物资，将介于前两类之间的物资归为第三类物资，进而整理成三个物资数据集，分别为：

其一是物资价值占比排名前30且需求频率占比排名前30的第一物资数据集；

其二是物资价值占比排名前30的第二物资数据集，累计占比为78.65％；

其三是需求频率占比排名前30的第三物资数据集，累计占比为63.39％。

通过该步骤从物资库中选出的三个物资数据集中包括电缆工作井预制件、聚乙烯涂塑扩口钢管、配电终端安全模块等共46种物资；然后分别对这三类物资共46种物资进行预测分析，以便后期采用不同的管理方法对其控制。

具体的，步骤S4中，利用与每种所述物资种类对应的物资分组历史数据训练用于对应物资需求预测的随机森林模型；

随机森林(Random forest,RF)是Breiman教授在2001年提出的一种集成学习方法，是一种统计学习理论。它是利用自助法(Bootstrap)抽样技术从原始数据集中有放回地抽取多个不同的训练数据集，再结合随机子空间方法对每个Bootstrap数据集进行决策树建模，组成随机森林。在模型预测时，将测试数据输入随机森林模型，根据多棵决策树的输出得到最终的预测结果。

假设原始数据集Ω有N个样本，由O个输入特征和一个分类标签U组成。随机森林组合多个独立训练的决策树形成森林。可以将每棵决策树的构建过程看作数据空间的分区。也就是说，一片叶子代表一个完整数据空间的分区，每个结点对应一个数据空间的超矩形单元。

其中，随机森林算法的具体构建过程如下：

(1)在构建决策树之前，使用自助法(Bootstrap method)抽样技术从原始数据集Ω中有放回地抽取I个训练数据集，每个训练子集的样本数也为N。使用这些Bootstrap样本来训练决策树；Bootstrap重采样技术的核心思想是在原始数据(样本容量为N)的基础上，利用有放回的再采样方式抽取训练样本(样本容量为v)，保证每次采样的随机性，且每个训练样本的容量要等于原始数据样本的容量，即v＝V。经过I次采样得到I个采样集。

(2)采用分类回归树(Classification and regression tree,CART)方法构建基分类器模型。

在树的结点处，从Z个输入特征中随机选择z个特征(z<<Z)作为决策树当前结点的分裂特征集，从中选择最优分裂特征和切分点，将训练数据集划分到子结点中去。

决策树训练时结点划分的关键是如何选择最优的划分属性以使得分支结点包含的样本数尽量属于同一个类，本发明选择信息增益(Information Gain)作为选择最优划分属性的标准。

信息增益(Information Gain)表示在已知特征X的情况下，类U的信息不确定性减少的程度。给定当前样本集合为Ω，Ω中第l类样本所占的比例为p_l，则信息增益的计算过程如下：当前结点样本集合Ω的信息熵定义为：

在已知离散特征A在已知离散特征A的条件下，假设A有n个可取值，则根据这n个值对样本集合Ω进行划分，得到n个分支结点，分别计算各分支结点的信息熵和权重即|Ω_r|/|Ω|，可得经验条件熵：

根据特征A对当前结点数据集Ω进行划分的信息增益计算如下：

Info_Gain(Ω,A)＝H(Ω)-H(Ω|A)

则最优划分特征的标准为：

重复上述划分过程，直至满足停止条件，停止条件有很多种，包括当前结点数据集样本属于同一个类别，不需要划分；当前结点数据集的可选特征集为空，无法划分；当前结点的样本个数为0，不能划分等。

(3)将i个Bootstrap样本集按照(2)的方式训练决策树模型，把所有生成的决策树组合成一个随机森林模型{t_q,q＝1,2,…,I}。将测试样本x输入模型，得到对应的测试结果{t₁(x),t₂(x),…,t_I(x)}；

(4)通过对每棵决策树的预测结果进行统计来做出最终预测，这里采用的是利用熵权法的思想对每棵决策树的预测结果赋予一个客观的权重，每棵决策树的预测结果加权求和获得最终的预测结果。

具体的，所述随机森林模型如图2所示包括：

其中自助法(Bootstrap method)抽样技术是指结合Bagging算法思想，随机地选取样本子集进行训练，然后利用决策树思想，对每个训练样本分别构建决策子树。由于独立的随机抽样，每次抽取的样本子集和原始训练集、其它样本子集都不同，从而避免了局部最优解，同时保证了每棵决策子树之间具有较低的相关性，以及每棵决策子树的独立性，有效的确保了样本选取的随机性。

其次，随机子空间思想确保了特征选取的随机性，在使用Bagging思想抽取样本后，会使用抽取的样本训练并构建多棵决策子树，从而构成随机森林。普通的决策树在节点分裂时，是从所有特征里选择一个最优的特征作为分裂特征。而随机森林是在单独构建每棵子决策树时加入了随机特性。具体来说，在构建随机森林的过程中，结合了随机子空间思想，节点分裂时不是将总特征空间中的全部特征作为分裂特征，而是从总体特征空间中，随机抽取特征子集作为分裂的候选特征子集，并从中选择一个最优特征进行分裂。本发明选择最优特征的标准为信息增益(Information Gain)准则。随机子空间的思想保证了子树与子树之间的节点、以及每棵子树的节点之间特征子集的差异性，又保证了单棵子决策树的独立性以及多样性，从而提高了节点分裂的随机性。

自助法(Bootstrap method)抽样技术和随机子空间思想使得随机森林中决策树与决策树之间的关联性降低，增加了预测结果的多样性，增强了随机森林的泛化能力。

具体的，随机森林模型的训练过程，包括：

步骤S401、将数据集划分为训练集和验证集；

将2011-2019年的历史项目物资数据划分为Dataset1和Dataset2两个数据集，其中Dataset1以2011至2019年的全部数据按照8:2的比例划分为训练集和测试集。Dataset2以2011年到2018年的数据作为训练集，以2019年的数据作为测试集。

步骤S402、利用平均袋外误差率

对随机森林预测模型进行参数寻优；

随机森林算法的优势在于多棵决策子树的构建和单棵决策子树节点分裂特征选择两个方面的随机性。因此，影响随机森林模型预测能力的参数主要有两个：构建决策子树的个数m和随机选择特征分裂时特征选择的个数z。考虑到在测试集上使用交叉验证的方式估计泛化误差时会导致巨大的计算量，降低模型的运行效率，故本发明采用OOB误差估计的方法，只增加少量计算，从而达到类似于交叉验证的效果，其中袋外数据(OOB数据)是指在利用Bagging思想进行Bootstrap随机抽取样本子集时，V中每个样本没有被抽中的概率P为：

当N→∞时

这表明在每次随机抽取训练样本时，均约有36.8％的数据并未被抽取，没有被抽取的数据即为袋外数据(Out-Of-Bag，OOB)用OOB表示，把这些数据作为随机森林预测模型参数调优时的数据。

具体的，选择平均袋外误差率

来进行参数的调优，其公式为：

其中m为随机森林模型中决策树的个数，f为森林中决策树模型的序号，OOB_f为第f个决策树模型的袋外误差率，t为需要预测的物资种类的总个数，g为需要预测的物资种类的序号，y_g为真实值，

为预测值。使得袋外误差率趋近于稳定时的参数组合即为该随机森林预测模型的最优参数组合m和z。

步骤S403、随机森林预测模型对参数进行调优后，对同一物资进行多次预测，并通过对每棵决策树的预测结果进行统计得到最终的预测值；

步骤S404、对每棵决策树的预测结果赋予一个客观的权重，把每棵决策树的预测结果加权求和获得最终的预测结果。

本实施例充分利用各个单一决策树预测产生的相对误差，利用熵权法对各个单一决策树的预测结果进行客观赋权，确定各个单一决策树预测值在组合预测值中所占的权重，将这些决策树的预测结果进行加权求和进而得到最终的预测结果。其中利用熵权法对各个单一决策树预测结果赋权的步骤如下：

1)计算随机森林中各单一决策树的相对预测误差；

其中，y_fg表示实际的物资需求量，

表示预测的物资需求量，f为随机森林中决策树的序号，g为需要预测的物资种类的序号。

(t为需要预测的物资种类的总个数)；

3)计算每个单一决策树的相对预测误差的熵值；

其中，

且k＞0；E_f≥0；另外当p_fg＝0时，令ln(p_fg)＝0。

5)计算各单一决策树的权重；

(m为随机森林中决策树的总个数)

6)计算得到最终的预测值：

其中

表示预测的物资需求量，w_f为各单一决策树的权重，x_fg表示物资需求量的加权求和值，即在随机森林预测的基础上结合熵权法思想获得的最终预测结果。

本方案提出的结合熵权法的随机森林将各决策树赋予一定的加权值，由于熵权法是根据各单一决策树的相对预测误差来确定各决策树的权重，这种方法是一种客观的赋权法，避免了人为因素带来的偏差。相对那些主观赋权法，精度较高，客观性更强，能够更好的预测物资需求量。

此外，本发明用于评价模型预测精度的指标为：

该预测精度公式中的

表示运用该预测模型所得到的预测值，y表示实际值。

本实施例还公开了进行两次预测建模：

在一次预测建模构建中，随机森林算法结合熵权法后，根据历史项目物资数据预测各类物资需求量的应用。

但是具体到在预测未来一年各物资需求量的一种情况为，在预测前已经给出与物资需求量所对应的总投资金额，在此总投资金额只是代表一种范例，也可以是在预测前已经给出与物资需求量对应的其他属性数据。

基于此，我们提出一种根据各类物资往年投资金额在总投资金额中的占比，预测该物资在未来一年的投资金额在总投资金额中的占比，于是得到该物资在未来一年的投资金额预测值，进而对该物资在未来一年的需求量进行预测，具体如下：根据2020年近三年即2017-2019年的项目数量和投资金额占比预测2020年的各类项目数量及各类项目投资金额占比，进而预测2020年的物资需求量。

具体的，第一次预测建模构建。

(1)统计历史数据中各种物资对应的投资金额在总投资金额中的占比。

图3是以10044001645这一物资为例，统计这一物资2011-2019年的历年投资金额在总投资金额中的占比：

(2)把某一物资的近三年投资金额占比均值作为接下来一年该物资的投资金额占比，进而得到该物资在接下来一年的投资金额。

在统计10044001645这一物资2011-2019年各年的投资金额在总投资金额中的占比的基础上，将该物资在2017-2019年投资金额在总投资金额的占比均值作为2020年该物资投资金额在总投资金额中的占比，进而得到该物资在2020年的预测投资金额，具体结果如下图4所示的物资投资金额预测结果；

并将上述方法得到的10044001645这一物资2020年项目属性数据中的投资金额预测值，与该物资在2020年项目属性数据中真实投资金额进行对比。具体对比如图5所述所示的预测金额与真实金额对比。

第二次预测建模构建；在获取了该物资在2020年的具体项目投资金额后，将该物资2020年的特征作为随机森林预测模型的输入变量，进而预测该物资在2020年的物资需求量，具体预测过程同一次预测建模中对2011-2019年历史项目物资数据的预测过程。

以上预测结果均是通过预测模型的预测精度来体现模型的性能好坏，此外还可以采用通用的模型误差、拟合程度和效率作为评价模型性能好坏的度量指标，对模型进行量化评估，具体包含模型准确度和模型效率两个方面：

a.模型准确度

包括平均相对误差(Mean Relative Error，MRE)和决定系数(R²)。其中R²表示模型输入变量对输出变量的解释程度，也称为拟合优度，取值在0和1之间。MRE越小，R²越接近于1，说明模型的准确度越高。

其中，W_真表示真实值，W_预表示预测值，

表示真实值的均值，N为样本数。

b.模型效率

计算模型的训练时间Time。训练时间越短，说明模型的预测效率越高。

如图6-8所示，为三类物资预测结果对比图；

对于物资价值占比排名前30且需求频率占比排名前30的物资，这部分物资至关重要，且历史数据资料较为丰富，因此预测效果较好。除物资“配电终端安全模块”外，用Dataset1预测的精度都可达到90％，其中大部分物资的预测精度甚至高达95％。相比之下，由于2019年物资的使用结构等可能略有变化，用Dataset2预测的精度略低，但是除个别物资外，其他物资预测精度仍可达到85％。

物资价值占比排名前30的物资来说，这部分物资虽然投资额占比较大，但是总体需求较少，因此历史数据相对缺乏，模型无法有效学习到物资使用的规律，导致预测精度下降。从用Dataset1预测的精度看，除个别物资外，预测精度也都可达到85％。由于此部分物资的历史数据较少，且有很多新使用物资，模型学习效果较差，用Dataset2无法对其中一部分物资进行有效预测，因此我们可将用Dataset1预测的结果作为这部分物资的最终预测结果。

需求频率占比排名前30的物资来说，这部分物资投资额占比不大，但是需求频率较高，也较为重要。由于需求频率较高，历史数据较为丰富，模型可以较好地学习到物资使用的规律，因此用Dataset1预测的精度也相对较好，除个别物资外，预测精度都可达到85％以上，大多物资的预测精度可达90％，有1/3物资的预测精度甚至可达95％。但是其中也有一部分物资是近年来才开始大量使用，历史资料相对缺乏，造成用Dataset2预测的精度较低。

综上所述，本发明实施例的有益效果如下：

1、特征提取：利用自然语言处理的方法进行语义识别、分词、信息抽取，进而从项目名称中提取关键信息并作为特征变量，解决了原始变量较多且难以精准识别主要变量的问题；

2、建立物资知识库：利用帕累托分析法，即二八法则与ABC分类法，按价值(投资金额)和需求量对物资进行分类，以解决物资价值与需求不平衡问题。

3、建立项目信息库：按照一定的划分标准规则建立项目信息库、包括行业类型项目库、工程类型项目库，为后续探索同一项目类型下的物资的共性以及不同年份下的物资需求量的变化趋势做准备；

4、在完整的数据处理流程基础上，建立了配网物资需求预测模型，充分利用机器学习的多输入、多输出优点，实现对配网物资需求量的预测；

5、通过随机森林模型和熵权法的结合，提高了预测效率和预测精度。该预测模型不仅对异常值和缺失值不敏感，即使在面对高纬度特征数据时，也能在避免过拟合的情况下保持很高的预测精度。这不仅提高了预测效率，也提高了非平衡数据的预测性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。