CN110288142B - 一种基于XGBoost算法的工程超期预测方法 - Google Patents

一种基于XGBoost算法的工程超期预测方法 Download PDF

Info

Publication number
CN110288142B
CN110288142B CN201910527235.9A CN201910527235A CN110288142B CN 110288142 B CN110288142 B CN 110288142B CN 201910527235 A CN201910527235 A CN 201910527235A CN 110288142 B CN110288142 B CN 110288142B
Authority
CN
China
Prior art keywords
engineering
data
project
days
completion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910527235.9A
Other languages
English (en)
Other versions
CN110288142A (zh
Inventor
马韬韬
张红燕
樊汝森
马晔辉
张子兆
黄冀华
泮海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN201910527235.9A priority Critical patent/CN110288142B/zh
Publication of CN110288142A publication Critical patent/CN110288142A/zh
Application granted granted Critical
Publication of CN110288142B publication Critical patent/CN110288142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于XGBoost算法的工程超期预测方法,即通过将对应工程类型的历年工程数据进行清理,然后应用XGBoost算法对数据进行训练,得到对应工程类型的工期预测模型,然后通过待预测项目工程数据得到预测的竣工资料送达天数、非物资结算完成天数、物资结算完成天数和资产创建完成天数。本发明的一种基于XGBoost算法的工程超期预测方法可以提前对工程超期各环节的相关负责人发出超期预警,有助于按时完成工程结算工作,进而有利于提高财务部决算的及时率,加强各环节部门间协同,提升公司项目管理水平,提高资金投资效益。

Description

一种基于XGBoost算法的工程超期预测方法
技术领域
本发明涉及一种用于电力工程领域的基于XGBoost算法的工程超期预 测方法。
背景技术
电网工程竣工后,项目管理部门需要汇总工程结算资料,建设部和运 检部需按时完成工程结算,这需要施工单位、测绘单位、审价单位、物资 公司、建设部、运检部等各参建单位和部门协作,共同完成非物资结算、 物资结算和资产创建。任何部门和环节的延误,都有可能造成工程结算超 期,将会加大基本建设成本,降低资金投资效益,影响业务核算、预算管 理和资产管理。为加强公司工程结算工作管理,确保工程竣工后按时、按 质顺利完成工程结算,提升工程管理水平,强化认责,需要对工程结算超 期的进行重点关注。
工程结算是否超期与施工单位、工程投资大小、子工程数目、是否需 要测绘、工程竣工月份、工程类型以及项管中心的项目经理、建设部的技 经专职、物资专职和运检部的资产专职等密切相关,其具体的相关性尚并 不清楚,需要深入挖掘数据间的内在联系。
发明内容
本发明的目的是为了克服现有技术的不足,提供一种基于XGBoost算 法的工程超期预测方法,它能够实现对于工期的预测。
实现上述目的的一种技术方案是:一种基于XGBoost算法的工程超期 预测方法,包括如下步骤:
步骤1,将对应工程类型的历年工程数据进行数据清理和数据整合,合 并在到一张历年工程数据表中保存在数据库内;
步骤2,将历年工程数据的施工单位、工程投资金额、子工程数目、 测绘工程量、竣工月份、工程类型、项目经理、技经专职、物资专职和资 产专职10项数据类型选择作为XGBoost算法训练的输入变量进行提取, XGBoost算法的输出变量为竣工资料送达天数、非物资结算完成天数、物 资结算完成天数和资产创建完成天数,得到对应工程类型的工期预测模型;
步骤3,采用对工期预测模型的学习率、树最大深度和最小叶子节点 样本权重和3个参数采用栅格搜索和交叉验证的方式对进行参数调优,计 算模型的均方根误差,以均方根误差最小值选择最优工期预测模型;
步骤4,将历年工程数据输入最优工期预测模型采用10-折交叉验证 方法和评估指标R-Squared、平均绝对误差和均方根误差来评估模型预测 的能力,衡量预测模型的拟合优度,通过比较预测值与真实值的误差的大 小来衡量模型预测的精准度;
步骤5,将待预测项目工程数据输入最优工期预测模型进行预测,得 到预测的竣工资料送达天数、非物资结算完成天数、物资结算完成天数和 资产创建完成天数。
进一步的,所述历年工程数据的数据来源为线上ERP系统、工程一体 会化和线下工程登记表。
本发明的一种基于XGBoost算法的工程超期预测方法,即通过将对应 工程类型的历年工程数据进行清理,然后应用XGBoost算法对数据进行训 练,得到对应工程类型的工期预测模型,然后通过待预测项目工程数据得 到预测的竣工资料送达天数、非物资结算完成天数、物资结算完成天数和 资产创建完成天数。本发明的一种基于XGBoost算法的工程超期预测方法 可以提前对工程超期各环节的相关负责人发出超期预警,有助于按时完成工程结算工作,进而有利于提高财务部决算的及时率,加强各环节部门间 协同,提升公司项目管理水平,提高资金投资效益。
具体实施方式
为了能更好地对本发明的技术方案进行理解,下面通过具体地实施例 进行详细地说明:
本发明的一种基于XGBoost算法的工程超期预测方法,包括如下步骤:
步骤1,将对应工程类型的历年工程数据进行数据清理和数据整合,合 并在到一张历年工程数据表中保存在数据库内。任何一个有效的预测模型 都是建立在高质量的数据集上,本发明的数据源主要来自线上ERP系统、 工程一体会化和线下工程登记表。因此首先需要将这些多源、异构数据进 行梳理和整合,将不规范的、重复的、缺失的、异常的数据通过数据清洗、 资料还原等手段,提升数据质量,数据质量直接影响到算法的效果。
步骤2,将历年工程数据的施工单位、工程投资金额、子工程数目、 测绘工程量、竣工月份、工程类型、项目经理、技经专职、物资专职和资 产专职10项数据类型选择作为XGBoost算法训练的输入变量进行提取, XGBoost算法的输出变量为竣工资料送达天数、非物资结算完成天数、物 资结算完成天数和资产创建完成天数,得到对应工程类型的工期预测模型。 对历史竣工的工程数据,将工程各环节的结算过程分为竣工资料送达和电 网内部部门结算两个部分,分别统计结算超期情况。统计结果表明,工程 结算超期大约有14.74%是由竣工资料未及时送达造成的,8.98%是因为电 网内部部门结算不及时引起的。内部部门结算超期的工程中,物资结算超 期最严重。物资结算内部超期原因56.5%是由于供应商未及时将三联单送 给物资公司收货,37.3%是因为三联单不合格(如缺失其中一张,或签字 不完全等原因,导致往复),合计占比93.8%。本发明采用XGBOOST算法自 带的变量重要性功能筛选与目标变量相关性高的特征变量。
步骤3,对工期预测模型进行参数调优步骤。XGBoost算法的参数可 以分成三类:通用参数、Booster参数和学习目标参数。为了提高模型 的表现,参数的调优十分必要。在解决实际问题的时候,通用参数和学习 目标参数一般都可以确定,因此主要调整Booster参数。Booster参数有 8个,一般采用调优关键的参数来达到优化模型的预测能力。本发明针对 学习率(learning_rate)、树最大深度(max_depth)和最小叶子节点样本 权重和(min_child_weight)3个参数采用栅格搜索(Grid Search)和交叉验 证的方式进行参数调优,采用均方根误差(Root Mean Squared Error,RMSE) 来选择最优模型。
步骤4,将历年工程数据输入最优工期预测模型采用10-折交叉验证 方法和评估指标R-Squared、平均绝对误差和均方根误差来评估模型预测 的能力,衡量预测模型的拟合优度,它们都是通过比较预测值与真实值的 误差的大小来衡量模型预测的精准度。
步骤5,将待预测项目工程数据输入最优工期预测模型进行预测,得 到预测的竣工资料送达天数、非物资结算完成天数、物资结算完成天数和 资产创建完成天数。
在对比工程竣工后,将10项工程信息作为输入数据输入工程工期预 测模型,通过预测模型运算后,即可输出工程结算各环节的完成天数。通 过测试集验证,工程结算各环节完成天数的预测值基本与真实值相符,平 均绝对误差率在15%以下,平均误差天数在4天以内,表示预测模型对新 数据集有很好的预测能力,预测结果比较准确可靠。
工程竣工结算传统管理方式为管理部门发现项目超期后,才会督促超 期环节相关负责人,对超期工程并不能提前发出预警。本发明通过建立工 程超期预测模型,可在工程竣工时,即可预测工程结算各关键环节天数, 并根据预测值的置信区间,详细提供预测值发生的概率,例如竣工决算天 数有80%的概率超期3天。从而可提前预测新竣工工程结算是否超期,超 期的工程哪些环节超期,超期多少天。
对竣工资料送达预测超期天数高的工程,可以向工程的项目经理提前 发出超期预警提示,项目经理及时督促施工单位提高工程竣工结算资料提 交的及时性、正确性和完整性,从而可以更及时地进入后续结算环节。
另一方面,由非物资结算、物资结算和资产创建预测完成天数与竣工 资料送达预测天数的差值,可求得电网内部各结算环节的完成天数。通过 与标准天数的对比,可提前向电网内部部门各结算负责人发出预警提示, 各负责人需提高结算工作的效率,例如,对于要在不同部门和人员协同工 作的工程,需要及时通知对方。
最后,从内部和外部两个方面,有效缩短整个工程结算的天数,进而 有利于提高财务部决算的及时率,提高资金投资效益。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说 明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围 内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims (2)

1.一种基于XGBoost算法的工程超期预测方法,其特征在于,包括如下步骤:
步骤1,将对应工程类型的历年工程数据进行数据清理和数据整合,合并到一张历年工程数据表中保存在数据库内;
步骤2,将历年工程数据的施工单位、工程投资金额、子工程数目、测绘工程量、竣工月份、工程类型、项目经理、技经专职、物资专职和资产专职10项数据类型选择作为XGBoost算法训练的输入变量进行提取,XGBoost算法的输出变量为竣工资料送达天数、非物资结算完成天数、物资结算完成天数和资产创建完成天数,得到对应工程类型的工期预测模型;
步骤3,采用对工期预测模型的学习率、树最大深度和最小叶子节点样本权重和3个参数采用栅格搜索和交叉验证的方式对进行参数调优,计算模型的均方根误差,以均方根误差最小值选择最优工期预测模型;
步骤4,将历年工程数据输入最优工期预测模型采用10-折交叉验证方法和评估指标R-Squared、平均绝对误差和均方根误差来评估模型预测的能力,衡量预测模型的拟合优度,通过比较预测值与真实值的差值的大小来衡量模型预测的精准度;
步骤5,将待预测项目工程数据输入最优工期预测模型进行预测,得到预测的竣工资料送达天数、非物资结算完成天数、物资结算完成天数和资产创建完成天数。
2.根据权利要求1所述的一种基于神经网络的工程投资转资率预测方法,其特征在于,所述历年工程数据的数据来源为线上ERP系统、工程一体会化和线下工程登记表。
CN201910527235.9A 2019-06-18 2019-06-18 一种基于XGBoost算法的工程超期预测方法 Active CN110288142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910527235.9A CN110288142B (zh) 2019-06-18 2019-06-18 一种基于XGBoost算法的工程超期预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910527235.9A CN110288142B (zh) 2019-06-18 2019-06-18 一种基于XGBoost算法的工程超期预测方法

Publications (2)

Publication Number Publication Date
CN110288142A CN110288142A (zh) 2019-09-27
CN110288142B true CN110288142B (zh) 2023-02-28

Family

ID=68003956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910527235.9A Active CN110288142B (zh) 2019-06-18 2019-06-18 一种基于XGBoost算法的工程超期预测方法

Country Status (1)

Country Link
CN (1) CN110288142B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11995036B2 (en) * 2019-10-11 2024-05-28 Ikigai Labs Inc. Automated customized modeling of datasets with intuitive user interfaces
CN110895729A (zh) * 2019-11-28 2020-03-20 国网福建省电力有限公司 一种输电线路工程建设工期的预测方法
CN112508254B (zh) * 2020-11-30 2024-03-29 国网江苏电力设计咨询有限公司 变电站工程项目投资预测数据的确定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520335A (zh) * 2018-03-20 2018-09-11 顺丰科技有限公司 抽检对象预测方法、装置、设备及其存储介质
CN109784556A (zh) * 2019-01-07 2019-05-21 闽江学院 一种基于往期数据的基站设备安装项目工期预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596678A (zh) * 2018-05-02 2018-09-28 陈思恩 一种航空公司旅客价值计算方法
CN108877905B (zh) * 2018-06-12 2020-11-10 中南大学 一种基于Xgboost框架的医院门诊就诊量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520335A (zh) * 2018-03-20 2018-09-11 顺丰科技有限公司 抽检对象预测方法、装置、设备及其存储介质
CN109784556A (zh) * 2019-01-07 2019-05-21 闽江学院 一种基于往期数据的基站设备安装项目工期预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
建设工程项目工序的LS-SVM工期预测模型;祁神军 等;《华侨大学学报(自然科学版)》;20100930;第31卷(第05期);第562-565页 *

Also Published As

Publication number Publication date
CN110288142A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110288142B (zh) 一种基于XGBoost算法的工程超期预测方法
WO2021232588A1 (zh) 食品安全风险评估方法、装置、设备及存储介质
CN107862450A (zh) 绩效考核系统及方法
CN113407651B (zh) 一种进度信息反馈及偏差实时展示方法
CN110189175A (zh) 一种工程项目造价咨询系统及方法
CN114118883B (zh) 基于大数据的财务成本挖掘与分析系统及方法
CN107844914B (zh) 基于集团管理的风险管控系统和实现方法
CN111178680A (zh) 风电场工程质量全过程管理系统、方法及设备
CN113656505A (zh) 一种分布式项目管理系统的数字化及其同步数据的方法
Guo et al. Quality control in production process of product-service system: A method based on turtle diagram and evaluation model
CN110738565A (zh) 基于数据集合的房产金融人工智能复合风控模型
CN114418369A (zh) 一种基于bim模型的计量支付方法和系统
CN111461526A (zh) 一种工程造价咨询服务实施方法及系统
CN111507760A (zh) 对投标文件进行合理性筛选的方法与系统
Bai et al. Quality cost model improvement based on 6 σ management
CN115204501A (zh) 企业评估方法、装置、计算机设备和存储介质
CN111651726A (zh) 一种用于矿山安全评价和风险预测的数学模型建立方法
CN117436718B (zh) 一种基于多维引擎的智能数据管理平台
Ionescu et al. Implication and opportunities regarding the organization of quality cost management accounting
TWI550531B (zh) 企業資源規劃績效評估系統及方法
Momade et al. Modeling labor costs using artificial intelligence tools
CN118228991A (zh) 基于分布式储能站规划建设的异常数据稽查方法
CN116756412A (zh) 基于多属性决策模型的高成长性企业推荐系统及推荐方法
CN117787803A (zh) 一种研发项目质量管理系统
Feng et al. Analyzing Risks in Public-Private-Partnership Projects: An Integrated Model of Sensitive Analysis and Monte Carlo Simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant