CN115526393B

CN115526393B - 一种基于变电工程关键影响因素筛选的造价预测方法

Info

Publication number: CN115526393B
Application number: CN202211166937.7A
Authority: CN
Inventors: 姜宇; 吕科; 王守鹏; 许颖; 陈蕾; 李栋梁; 赵旷怡; 张岩; 徐畅; 张立斌; 郭昊; 谢景海; 肖巍; 敖翠玲; 高杨; 傅守强; 牛东晓; 席语莲; 余敏; 许芳
Original assignee: Beijing Jingyan Electric Power Engineering Design Co ltd; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd
Current assignee: Beijing Jingyan Electric Power Engineering Design Co ltd; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-09-29
Anticipated expiration: 2042-09-23
Also published as: CN115526393A

Abstract

本发明涉及程序代码开发技术领域，公开了一种基于变电工程关键影响因素筛选的造价预测方法，本发明通过收集已完成修编的冀北变电站典型设计方案的施工图、施工图预算、工程量清单成果。分析收集的数据，将引起静态投资变化的因素整理建立输一个影响因素指标库，采用随机森林算法进一步筛选。通过计算各个特征重要性，选取指数较高的指标作为其中的主要影响因素。依据随机森林算法筛选出的n个主要影响因素，作为BP神经网络输入层节点数。采用遗传算法优化下BP神经网络模型对变电工程造价中的静态投资进行预测。本发明筛选出的重要关键指标，使得预测更加有效、可把握。比普通的BP神经预测更为准确、减小了误差。

Description

一种基于变电工程关键影响因素筛选的造价预测方法

技术领域

本发明涉及电力造价技术领域，具体为一种基于变电工程关键影响因素筛选的造价预测方法。

背景技术

随着电力市场改革的深入进行，投融资环境和建设环境的日益复杂，电网技术的发展革新，新的内外部环境对造价精准管控提出了更高要求。在变电工程项目建设中，造价的数值比较大，变电工程项目是涉及国家政府政策以及社会民生的大事。对其造价的管理和控制的对整个工程管理的影响举足轻重。

然而，变电工程造价的影响因素多，工程施工环境复杂，统计难度大等因素导致可类比的相同电压等级下的输变电工程造价经常存在较大的差异。这增加了对应变电站建设工程造价管理工作难度，同时，也给变电站工程的建设质量和安全运行带来不利影响。

强化变电工程造价控制水准，做好造价预测工程，一方面可以为变电工程投资节约大量的人力、物力和财力，另一方面提高造价精准度能够显著提升项目投资人员的积极性，提升有关企业在投资市场中的核心竞争力。例如申请号为201611057832.2，国别为中国的申请，只是简单的针对特高压输变电工程小样本的历史数据，获得造价预测结果，给特高压工程建设和造价管控提供了参考；

因此，针对目前电网工程建设项目的影响因素多、造价预测难度大的问题，必须采取有效的措施来进行造价管理。目前，所以就需要一种能够客观合理基于变电工程关键影响因素筛选的造价预测方法。

发明内容

本发明的目的在于提供一种基于变电工程关键影响因素筛选的造价预测方法，本发明通过历史造价数据中筛选出了多个影响因素，将多个定类指标通过数理计算处理转化为可识别的数据，并采用随机森林方法求得影响特征重要性靠前的关键指标；并筛选出的重要关键指标，使得预测更加有效、可把握。采用基于遗传算法改进的BP神经网络预测方法比普通的BP神经预测更为准确、减小了误差。

本发明是这样实现的：

一种基于变电工程关键影响因素筛选的造价预测方法，具体按以下步骤执行，

S₁：通过采集已完成修编的变电站的施工图、施工图预算、工程量清单成果，通过随机森林筛选关键影响因素指标如表1，进行建立数据库如表2；

收集到的数据包括额定电压、污秽等级、地形地貌、海拔、主变压器的台数、容量、单价、型号、高压侧、中压侧、低压侧出线回数、配电型式及断路器台数、接线型式、电缆材料、接地材料、建筑面积、静态投资等数据；初步选择出以下22个影响因素指标，具体如表1；

表1关键指标名称

表2数据库

进一步，S_1.1：从原始数据集中每抽取一个样本后再将它放回总体，来进行样本的随机抽取形成子数据集；

S_1.2：设一个子数据集有X个属性，在决策树的每个节点需要分裂时，从这些属性中随机抽选出Y个属性(Y<X),再从Y个属性中选择一个作为该节点的分裂属性,不断重复，直到不能够再分裂为止；停止的满足条件为某节点下一次选出来的属性是上一次分裂时用过的属性。

S_1.3：重复步骤S_1.1-S_1.2来构建大量的子决策树，这些子决策树就会构成随机森林G＝{g₁,g₂,g₃，...,g_n}；

S_1.4：步骤S_1.1中有放回的抽样方式会导致有部分样本未没有参与决策树的建立，未被采集的的样本为袋外数据，选择袋外数据X(x1，x2，...，xn)，对随机森林中已经生成的每一棵决策树的模型性能进行测试计算出袋外数据误差率，记为OOB_error1；具体如式(1)-式(2)；

S_1.5：对袋外数据全部样本的特征T(t1，t2，...，tm)加入噪声干扰，生成全新的数据集，重新计算袋外数据误差率；记为OOB_error2；如式(3)-式(4)

式中，g₂，g₃，...，g_i是没有抽到的袋外数据特征中加入噪声的数据，N为样本总数；

S_1.6：特征T_i这一棵决策树上的重要性程度是OOB_error2－OOB_error1，随机森林中包含N_tree棵决策树，特征T_i在随机森林模型中的重要程度如式(5)；

式中，N为决策树的个数，m为特征个数，OOB_error1为未加入噪声前袋外误差，OOB_error2为在特征中加入噪声后的袋外误差；

S_1.7：在得到的重要程度结果中选择靠前的8个指标作为关键影响因素；分别为高压侧额定电压等级、建设性质、海拔、主变压器单台容量、主变压器单价、高压侧断路器单价、控制电路数量、全站建筑面积；

S₂：通过遗传BP神经网络进行造价预测；

进一步，S_2.1：进行数据划分与预处理；将筛选出的关键影响因素后的数据作为样本数据集，并将该样本数据集划分为训练集和测试集；消除各指标数据之间的数量级与量纲差异，首先进行归一化处理，通过公式将原始各项指标数据归一化至区间[a，b]上，本次采取[0，1]归一化。其中x’表示归一化处理后的各维数据，x表示原始各维数据，x_max和x_min表示各维数据的最大值与最小值；

S_2.2：进行造价预测参数设置；输入层节点数为8，分别对应评价系统中的8个指标变量，输出层节点数为1，数值为静态投资，隐藏层数为1，节点数根据公式其中m为输入层节点数，n为输出层节点数，c为1-10之间的一个常数，最佳隐含层的节点数目介于4-13之间，BP神经网络设置训练次数为1000，学习速率为0.01，目标最小误差为0.001，遗传算法设置初始种群规模为30，最大进化代数为100，交叉概率为0.8，变异概率为0.2,训练次数为1000，学习速率为0.01，目标最小误差为0.001。

S_2.3：确定最佳隐藏节点；具体通过尝试隐藏层节点数，计算均方误差，通过最小均方误差，确定最佳隐藏层节点数为10。

S_2.4：进行编码与种群初始化；设置网络隐含层神经元个数为10个，个体采用二进制编码方法，每个个体均为一个二进制数串，由输入层与隐含层连接权值、隐含层阈值、隐含层与输出层连接权值以及输出层阈值4部分组成。其中个体编码的长度共计为：S＝S₁×S₂+S₂+S₂×S₃+S₃，其中，S₁、S₂和S₃分别代表输入层、隐含层和输出层神经元的个数；

S_2.5：根据初始化个体得到网络的初始权阈值，用训练数据训练网络后得到预测输出，把预测输出与实际输出之间的均方误差作为个体适应度评估值；如式(6)；

式中，n₁为输入样本的数量；y_i为网络的预测输出；o_i为实际输出；

S_2.6：基于适应度比例选择操作方式，个体i的选择概率如式(7)；

式中F_i为第i个个体的适应度值，k为系数，N_population为种群个体数目；

S_2.7：进行交叉操作，把两个原始个体的部分部位相互交换的方式生成一个新的个体，第k个染色体a(k)与第l个染色体a(l)在j位的交叉方法，如式(8)，

其中b为[0，1]间的随机数；

S_2.8：进行变异操作，选取第i个个体的第j个基因a_ij进行变异，对于二进制编码方式，具体操作是将0变成1或1变成0；

S_2.9：重复步骤S_2.4-S_2.7，直到达到进化次数，将优化得到的初始权值和阈值带到BP网络中训练，进而用来预测，训练过程中，误差R_i的计算公式如式(9):

R_i＝|Mi-Ni| 式(9)

其中M_i为期望输出值，M_i为预测输出值差，目标最大误差值为R₀，当maxR_i≥R_0,时，代表未达到精度期望，则继续训练，直到满足误差标准或者达到训练迭代次数才终止训练；

S_2.10：输出预测结果。

与现有技术相比，本发明的有益效果是：

1、本发明在历史造价数据中筛选出了多个影响因素，将多个定类指标通过数理计算处理转化为可识别的数据，并采用随机森林方法求得影响特征重要性靠前的关键指标。

2、本预测方法基于筛选出的重要关键指标，使得预测更加有效、可把握。采用基于遗传算法改进的BP神经网络预测方法比普通的BP神经预测更为准确、减小了误差。

3、通过提出基于关键指标的变电工程造价预测方法，可以为变电工程的造价审核控制提供参考，为电网未来建设工程投资提供依据。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明的方法流程示意图；

图2是本发明的随机森林筛选指标重要程度表；

图3是本发明的遗传算法改进BP神经网络预测对比图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1-3，一种基于变电工程关键影响因素筛选的造价预测方法，

具体按以下步骤执行，

表1关键指标名称

表2数据库

本实施例中，S_1.1：从原始数据集中每抽取一个样本后再将它放回总体，来进行样本的随机抽取形成子数据集；

式中，N_tree为决策树的个数，m为特征个数，OOB_error1为未加入噪声前袋外误差，OOB_error2为为在特征中加入噪声后的袋外误差；

S₂：通过遗传BP神经网络进行造价预测；

本实施例中，S_2.1：进行数据划分与预处理；将筛选出的关键影响因素后的数据作为样本数据集，并将该样本数据集划分为训练集和测试集；消除各指标数据之间的数量级与量纲差异，首先进行归一化处理，通过公式将原始各项指标数据归一化至区间[a，b]上，本次采取[0，1]归一化。其中x’表示归一化处理后的各维数据，x表示原始各维数据，x_max和x_min表示各维数据的最大值与最小值；

其中b为[0，1]间的随机数；

R_i＝|Mi-Ni| 式(9)

其中M_i为期望输出值，N_i为预测输出值差，目标最大误差值为R₀，当maxR_i

≥R_0,时，代表未达到精度期望，则继续训练，直到满足误差标准或者达到训练迭代次数才终止训练；

S_2.10：输出预测结果。

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变电工程关键影响因素筛选的造价预测方法，其特征在于：具体按以下步骤执行：

S₁：通过采集已完成修编的变电站的施工图、施工图预算、工程量清单成果，通过随机森林筛选关键影响因素指标，进行建立数据库；

S_1.1：从原始数据集中每抽取一个样本后再将它放回总体，来进行样本的随机抽取形成子数据集；

S_1.2：设一个子数据集有X个属性，在决策树的每个节点需要分裂时，从这些属性中随机抽选出Y个属性，其中Y<X,再从Y个属性中选择一个作为该节点的分裂属性,不断重复，直到不能够再分裂为止；

S_1.4：步骤S_1.1中有放回的抽样方式会导致有部分样本未没有参与决策树的建立，未被采集的样本为袋外数据，选择袋外数据X(x1，x2，...，xn)，对随机森林中已经生成的每一棵决策树的模型性能进行测试计算出袋外数据误差率，记为OOB_error1；

式中，y_i为实际值，为随机森林模型的预测值,N为样本总数；

S_1.5：对袋外数据全部样本的特征T(t1，t2，...，tm)加入噪声干扰，生成全新的数据集X’(x‘₁，x’₂，...，x‘_n)，重新计算袋外数据误差率；记为OOB_error2；

式中，yi为实际值，为随机森林模型加入噪声干扰后的预测值,N为样本总数；

式中，N_tree为决策树的个数，m为特征个数，OOB_error1为未加入噪声前袋外误差，OOB_error2为在特征中加入噪声后的袋外误差；

S_1.7：在得到的重要程度结果中选择靠前的8个指标作为关键影响因素；S₂：通过遗传BP神经网络进行造价预测；

S_2.1：进行数据划分与预处理；将筛选出的关键影响因素后的数据作为样本数据集，并将该样本数据集划分为训练集和测试集；

S_2.2：进行造价预测参数设置；

S_2.3：确定最佳隐藏节点；

S_2.4：进行编码与种群初始化；

S_2.7：初始化种群：随机生成a＝(a₁,a₂,a₃,...,a_N)的初始种群染色体，N_population为种群个体数目；交叉操作，把两个原始个体的部分部位相互交换的方式生成一个新的个体，第k个染色体a_k与第h个染色体a_h在j位的交叉方法，如式(8)，

a_kj表示第k个染色体第j个基因，a_hj表示第k个染色体第j个基因,其中b为[0，1]间的随机数；

R_i＝|Mi-Ni| 式(9)

其中M_i为期望输出值，N_i为预测输出值差，目标最大误差值为R₀，当maxR_i≥R_0,时，代表未达到精度期望，则继续训练，直到满足误差标准或者达到训练迭代次数才终止训练；

S_2.10：输出预测结果。

2.根据权利要求1所述的一种基于变电工程关键影响因素筛选的造价预测方法，其特征在于，在步骤S_2.1中，消除各指标数据之间的数量级与量纲差异，首先进行归一化处理，通过公式将原始各项指标数据归一化至区间[a，b]上，本次采取[0，1]归一化；其中x’表示归一化处理后的各维数据，x表示原始各维数据，x_max和x_min表示各维数据的最大值与最小值。

3.根据权利要求1所述的一种基于变电工程关键影响因素筛选的造价预测方法，其特征在于，在步骤S_2.2中，输入层节点数为8，分别对应评价系统中的8个指标变量，输出层节点数为1，数值为静态投资，隐藏层数为1，节点数根据公式其中m为输入层节点数，n为输出层节点数，c为1-10之间的一个常数，最佳隐含层的节点数目介于4-13之间，BP神经网络设置训练次数为1000，学习速率为0.01，目标最小误差为0.001，遗传算法设置初始种群规模为30，最大进化代数为100，交叉概率为0.8，变异概率为0.2,训练次数为1000，学习速率为0.01，目标最小误差为0.001。

4.根据权利要求1所述的一种基于变电工程关键影响因素筛选的造价预测方法，其特征在于，在步骤S_2.3中，具体通过尝试隐藏层节点数，计算均方误差，通过最小均方误差，确定最佳隐藏层节点数为10。

5.根据权利要求1所述的一种基于变电工程关键影响因素筛选的造价预测方法，其特征在于，在步骤S_2.4中，设置网络隐含层神经元个数为10个，个体采用二进制编码方法，每个个体均为一个二进制数串，由输入层与隐含层连接权值、隐含层阈值、隐含层与输出层连接权值以及输出层阈值4部分组成；其中个体编码的长度共计为：S＝S₁×S₂+S₂+S₂×S₃+S₃，其中，S₁、S₂和S₃分别代表输入层、隐含层和输出层神经元的个数。