CN114202243A - 一种基于随机森林的工程项目管理风险预警方法及系统 - Google Patents
一种基于随机森林的工程项目管理风险预警方法及系统 Download PDFInfo
- Publication number
- CN114202243A CN114202243A CN202111666532.5A CN202111666532A CN114202243A CN 114202243 A CN114202243 A CN 114202243A CN 202111666532 A CN202111666532 A CN 202111666532A CN 114202243 A CN114202243 A CN 114202243A
- Authority
- CN
- China
- Prior art keywords
- risk
- project
- random forest
- information
- early warning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于随机森林的工程项目管理风险预警方法,其特征在于,方法包括步骤:S1、获取多个工程项目的历史数据,生成若干种项目信息;S2、根据项目信息生成风险信息;S3、生成多组风险预警训练集,每组风险预警训练集包括来自于同一个历史数据的若干个风险信息及该历史数据的风险值;S4、训练随机森林模型,使随机森林模型根据一组风险预警训练集中风险信息计算得到的风险值拟合于该风险预警训练集中的风险值;S5、将工程项目输入训练后的随机森林模型进行管理风险预测。本发明的方法,能够根据工程项目管理的业务数据预测管理风险,即使缺少部分数据也能在保持准确度的同时完成预测。
Description
技术领域
本发明属于工程管理技术领域,具体涉及一种基于随机森林的工程项目管理风险预警方法及系统。
背景技术
工程项目管理是一个复杂、业务多变的系统工程,现有的工程项目管理相关的技术发明中,主要公开了工程项目建设管理中涉及到功能要点及流程,没有从经济风险的角度进行预警分析。在每个项目的执行过程中,存在虚报套取资金、履职不力、监管不力、工程随意变更、超付工程款等违纪违法行为等现象,存在很多涉及经济活动的风险。因此需要一种能够根据工程项目管理信息自动计算得到管理风险并进行预警的方法及系统。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本发明的目的之一是提供满足前述需求之一或多个的一种基于随机森林的工程项目管理风险预警方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
一种基于随机森林的工程项目管理风险预警方法,方法包括步骤:
S1、获取多个工程项目的历史数据,根据历史数据生成若干种能够用于计算工程项目管理风险的项目信息;
S2、根据项目信息生成风险信息,风险信息包括项目信息所对应的工程项目管理风险信息;
S3、生成多组风险预警训练集,每组风险预警训练集包括来自于同一个历史数据的若干个风险信息及该历史数据的风险等级,风险等级根据该历史数据生成;
S4、使用多组风险预警训练集训练随机森林模型,调整随机森林模型中各种风险信息的权重,使随机森林模型根据一组风险预警训练集中风险信息计算得到的风险等级拟合于该风险预警训练集中的风险等级;
S5、将工程项目管理风险的项目信息输入训练后的随机森林模型,计算风险等级以进行管理风险预测。
作为优选方案,项目信息包括工程项目的项目立项单、项目进度单、招标结果确认单、工程变更单、工程合同、财务竣工决算单、竣工验收单数据;风险信息包括概算/估算差额率、预算/概算差额率、决算/概算差额率、决算/预算差额率、中标金额/决算差额率、工程设计顶格变更率、超期开工时间、超期竣工时间、合同签订时间、工程付款时间、是否拆分采购、设计公司变更率、设计人员变更率、项目经办人变更率。
作为优选方案,步骤S2之前还包括步骤S20、对项目信息进行预处理,预处理包括脏数据清洗,消除其中的缺失值、异常值、错误值、低采样度值。
作为优选方案,步骤S3之前还包括步骤S30、将数据特征转换整合,使其便于规范化至风险预警训练集中;转换整合包括连续变量、离散变量、时间序列的转换和从定性特征到定量特征的转换。
作为优选方案,步骤S4之后还包括步骤S41、根据训练后的随机森林模型计算得到各个风险信息的权重值,从而得到各个风险信息对于风险等级的影响;
作为进一步优选的方案,步骤S41具体包括:
S411、计算各个风险信息在随机森林模型的所有决策树中节点分裂不纯度的平均改变量;
S412、通过各个风险信息在某一节点分支前后节点分裂不纯度的平均改变量计算该风险信息的重要性;
S413、通过各个风险信息的重要性计算该风险信息的权重值。
作为优选方案,风险等级按照大小分为无风险、一级风险、二级风险、三级风险四个风险等级。
作为优选方案,步骤S1之前还包括步骤S0、从第三方平台获取多个工程项目的历史数据。
另一方面,本发明还提供一种基于随机森林的工程项目管理风险预警系统,应用如上述任一项的方法,系统包括:
数据获取模块,用于获取多个工程项目的历史数据;
风险信息生成模块,用于根据历史数据生成若干种能够用于计算工程项目管理风险的项目信息,并根据项目信息生成风险信息;
训练集生成模块,用于生成多组风险预警训练集;
风险等级计算模块,风险等级计算模块内含随机森林模型,用于根据风险信息计算风险等级;
调整模块,用于根据风险等级调整随机森林模型。
作为优选方案,系统还包括数据中间件模块,用于从第三方平台获取多个工程项目的历史数据。
本发明与现有技术相比,有益效果是:
本发明的方法及系统能够根据工程项目管理的业务数据预测管理风险;
利用随机森林模型处理高维度的业务数据,即使缺少部分数据也能在保持准确度的同时完成预测;
可以同时训练多个决策树,每个决策树只需分析部分样本,每个决策树对于其所对应的特征数据具有较强的判别能力;
容易实现并行化,训练速度快,能将特征按重要性排序。
附图说明
图1是本发明实施例一种基于随机森林的工程项目管理风险预警方法的流程图;
图2是本发明实施例一种基于随机森林的工程项目管理风险预警装置的结构框图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:本实施例提供一种基于随机森林的工程项目管理风险预警方法,其流程图如图1所示,方法包括如下步骤:
首先进行步骤S1、获取多个工程项目的历史数据,根据历史数据生成若干种能够用于计算工程项目管理风险的项目信息;在本实施例中,工程项目的历史数据包括工程项目管理中的项目立项(进度)单、招标结果确认单、工程变更单、工程合同、财务竣工决算单、竣工验收单中的数据。这些数据中记录了过去的工程项目管理信息,只要经过提取和处理就可以用来训练管理风险预测模型。
进一步的,在本实施例中步骤S1之前还包括步骤S0、从第三方平台获取多个工程项目的历史数据,以获取用于培养随机森林模型的大量样本数据。
使用上述项目信息可以进行步骤S2、根据项目信息生成风险信息,风险信息包括项目信息所对应的工程项目管理风险信息;
从上述的项目立项(进度)单、招标结果确认单、工程变更单、工程合同、财务竣工决算单、竣工验收单数据中,可以通过日期、进度、金额、人员变更记录等数据的计算得到概算/估算差额率、预算/概算差额率、决算/概算差额率、决算/预算差额率、中标金额/决算差额率、工程设计顶格变更率、超期开工时间、超期竣工时间、合同签订时间、工程付款时间、是否拆分采购、设计公司变更率、设计人员变更率、项目经办人变更率,这些信息分别隐含或表征了项目在进行过程中的管理风险。
为了使工程项目管理风险信息能够有效应用于随机森林模型,在步骤S2之前还包括步骤S20、对项目信息进行预处理,预处理包括脏数据清洗,消除其中的缺失值、异常值、错误值、低采样度值。
然后使用上述工程项目管理风险信息进行步骤S3、生成多组风险预警训练集,同一个工程项目的历史数据生成一个风险预警训练集,并且根据该工程项目的历史数据得到该工程项目的风险等级,该风险等级是根据该工程项目的历史数据评估或直接获得。更具体的,本实施例中的风险等级按照风险大小分为无风险、一级风险、二级风险、三级风险四个风险等级。
为了进一步规范化数据、提高数据可用性,便于数据对模型进行训练,在步骤S3之前还包括步骤S30、将数据特征转换整合,使其便于规范化至风险预警训练集中;转换整合包括连续变量、离散变量、时间序列的转换和从定性特征到定量特征的转换。
然后进行步骤S4、使用多组风险预警训练集训练随机森林模型,调整随机森林模型中各种风险信息的权重,使随机森林模型根据一组风险预警训练集中风险信息计算得到的风险等级拟合于该风险预警训练集中的风险等级;
随机森林模型是应用了随机森林算法的模型,随机森林算法是一种将众多决策树集成在一起的算法,每颗决策树都是一个分类器,对于一个输入的样本数据,随机森林能够输出一个分类结果。而本实施例中先将随机森林模型使用工程项目的历史数据训练,将其参数调整为能够准确拟合至历史数据中风险等级的状态。从而在输入新进行的工程项目管理风险信息时令其能够得到最准确的预测结果。
使用随机森林算法具有以下优势:各个工程项目不同,在收集工程项目信息时无法保证全部所需的风险信息都能被收集,而使用随机森林算法即使有很大一部分的风险信息数据缺失,通过随机森林算法仍可以维持风险等级预测的准确度。另外,随机森林算法可同时训练很多决策树,每个决策树只需分析部分样本,加强了决策树对于不同风险信息的判别能力。还容易实现并行化、训练速度快,并能够得到各个风险信息的重要性排序。
为了得到各个风险信息的重要性,从而根据风险信息的重要性对工程项目施加干涉或重点监察,本实施例的方法还包括风险信息权重值的计算步骤S41。
该步骤S41进行于步骤S4之后,即随机森林模型训练完成后,通过训练完的随机森林模型计算各个风险信息输入其中以后对风险等级影响的权重值。
进一步地,本实施例提供步骤S41的一种具体实施方式:
在随机森林模型中,使用X1,X2,L XC表示m个风险信息,每个风险信息的权重值V来表示,Gini值用GI表示,计算每个风险信息Xj的Gini指数权重值Vj:
最后进行步骤S413:计算各个风险信息的权重值。风险信息Xj在决策树i中出现的节点在集合M中,那么Xj在第i棵树的权重值为:假设随机森林共有n棵树,那么:把求得的风险信息权重值进行归一化处理得到各个风险信息的权重值:
当随机森林模型训练完成后,即可以用其进行工程项目管理风险的预测,即进行步骤S5、当需要预测一个工程项目的管理风险时,将该工程项目的项目信息输入训练后的随机森林模型,使用随机森林模型计算风险等级以进行管理风险预测,得到该工程项目的风险等级。
另一方面,本实施例还提供一种应用上述方法的基于随机森林的工程项目管理风险预警系统,包括数据获取模块,用于获取多个工程项目的历史数据;风险信息生成模块,用于根据历史数据生成若干种能够用于计算工程项目管理风险的项目信息,并根据项目信息生成风险信息;训练集生成模块,用于生成多组风险预警训练集;风险等级计算模块,风险等级计算模块内含随机森林模型,用于根据风险信息计算风险等级;调整模块,用于根据风险等级调整随机森林模型。
本实施例还提供一种基于随机森林的工程项目管理风险预警装置,其结构框图如图2所示,包括:第一处理器1、第二处理器2、第一存储器3和第二存储器4,第一处理器1用于连接获取第三方工程项目数据的中间件,第一存储器3用于存储获取的第三方工程项目历史数据;第二处理器3运行步骤S1-S5中的基于随机森林的工程项目管理风险预警方法,第二存储器4用于存储步骤S1-S5中的基于随机森林的工程项目管理风险预警方法所产生的数据及模型。
应当说明的是,上述实施例仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (10)
1.一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述方法包括步骤:
S1、获取多个工程项目的历史数据,根据所述历史数据生成若干种能够用于计算工程项目管理风险的项目信息;
S2、根据所述项目信息生成风险信息,所述风险信息包括所述项目信息所对应的工程项目管理风险信息;
S3、生成多组风险预警训练集,每组所述风险预警训练集包括来自于同一个历史数据的若干个所述风险信息及该历史数据的风险值,所述风险值根据该历史数据生成;
S4、使用所述多组风险预警训练集训练随机森林模型,调整所述随机森林模型中各种所述风险信息的权重,使所述随机森林模型根据一组风险预警训练集中所述风险信息计算得到的风险值拟合于该风险预警训练集中的风险值;
S5、将工程项目管理风险的项目信息输入训练后的所述随机森林模型,计算风险值以进行管理风险预测。
2.如权利要求1所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述项目信息包括工程项目的项目立项单、项目进度单、招标结果确认单、工程变更单、工程合同、财务竣工决算单、竣工验收单数据;所述风险信息包括概算/估算差额率、预算/概算差额率、决算/概算差额率、决算/预算差额率、中标金额/决算差额率、工程设计顶格变更率、超期开工时间、超期竣工时间、合同签订时间、工程付款时间、是否拆分采购、设计公司变更率、设计人员变更率、项目经办人变更率。
3.如权利要求1所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述步骤S2之前还包括步骤S20、对所述项目信息进行预处理,所述预处理包括脏数据清洗,消除其中的缺失值、异常值、错误值、低采样度值。
4.如权利要求1所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述步骤S3之前还包括步骤S30、将数据特征转换整合,使其便于规范化至风险预警训练集中;所述转换整合包括连续变量、离散变量、时间序列的转换和从定性特征到定量特征的转换。
5.如权利要求1所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述步骤S4之后还包括步骤S41、根据训练后的随机森林模型计算得到各个风险信息的权重值,从而得到各个风险信息对于风险等级的影响。
6.如权利要求5所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述步骤S41具体包括:
S411、计算各个所述风险信息在随机森林模型的所有决策树中节点分裂不纯度的平均改变量;
S412、通过各个所述风险信息在某一节点分支前后节点分裂不纯度的平均改变量计算该风险信息的重要性;
S413、通过各个风险信息的所述重要性计算该风险信息的权重值。
7.如权利要求1所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述风险值按照大小分为无风险、一级风险、二级风险、三级风险四个风险等级。
8.如权利要求1所述的一种基于随机森林的工程项目管理风险预警方法,其特征在于,所述步骤S1之前还包括步骤S0、从第三方平台获取多个工程项目的历史数据。
9.一种基于随机森林的工程项目管理风险预警系统,应用如权利要求1-8任一项所述的方法,其特征在于,所述系统包括:
数据获取模块,用于获取多个工程项目的历史数据;
风险信息生成模块,用于根据所述历史数据生成若干种能够用于计算工程项目管理风险的项目信息,并根据所述项目信息生成风险信息;
训练集生成模块,用于生成多组风险预警训练集;
风险值计算模块,所述风险值计算模块内含所述随机森林模型,用于根据所述风险信息计算风险值;
调整模块,用于根据所述风险值调整所述随机森林模型。
10.如权利要求9所述的一种基于随机森林的工程项目管理风险预警系统,其特征在于,所述系统还包括数据中间件模块,用于从第三方平台获取多个工程项目的历史数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111666532.5A CN114202243A (zh) | 2021-12-31 | 2021-12-31 | 一种基于随机森林的工程项目管理风险预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111666532.5A CN114202243A (zh) | 2021-12-31 | 2021-12-31 | 一种基于随机森林的工程项目管理风险预警方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114202243A true CN114202243A (zh) | 2022-03-18 |
Family
ID=80657827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111666532.5A Pending CN114202243A (zh) | 2021-12-31 | 2021-12-31 | 一种基于随机森林的工程项目管理风险预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114202243A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115809756A (zh) * | 2023-01-20 | 2023-03-17 | 南方电网数字电网研究院有限公司 | 一种工程项目管理方法及系统 |
CN116503026A (zh) * | 2023-06-26 | 2023-07-28 | 广东省科技基础条件平台中心 | 科技项目的运维风险评估方法、系统及存储介质 |
CN117035431A (zh) * | 2023-09-22 | 2023-11-10 | 三峡高科信息技术有限责任公司 | 基于人工智能的机场工程项目建设风险评估方法 |
CN117350538A (zh) * | 2023-09-13 | 2024-01-05 | 河南翔宇医疗设备股份有限公司 | 一种项目监控预警方法及系统 |
-
2021
- 2021-12-31 CN CN202111666532.5A patent/CN114202243A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115809756A (zh) * | 2023-01-20 | 2023-03-17 | 南方电网数字电网研究院有限公司 | 一种工程项目管理方法及系统 |
CN115809756B (zh) * | 2023-01-20 | 2023-05-26 | 南方电网数字电网研究院有限公司 | 一种工程项目管理方法及系统 |
CN116503026A (zh) * | 2023-06-26 | 2023-07-28 | 广东省科技基础条件平台中心 | 科技项目的运维风险评估方法、系统及存储介质 |
CN116503026B (zh) * | 2023-06-26 | 2024-02-09 | 广东省科技基础条件平台中心 | 科技项目的运维风险评估方法、系统及存储介质 |
CN117350538A (zh) * | 2023-09-13 | 2024-01-05 | 河南翔宇医疗设备股份有限公司 | 一种项目监控预警方法及系统 |
CN117035431A (zh) * | 2023-09-22 | 2023-11-10 | 三峡高科信息技术有限责任公司 | 基于人工智能的机场工程项目建设风险评估方法 |
CN117035431B (zh) * | 2023-09-22 | 2024-04-16 | 三峡高科信息技术有限责任公司 | 基于人工智能的机场工程项目建设风险评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400022B (zh) | 自助柜员机现金用量预测方法及装置 | |
CN110400021B (zh) | 银行网点现金用量预测方法及装置 | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及系统 | |
CN107633265A (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
CN114066242A (zh) | 一种企业风险的预警方法及装置 | |
CN105022825A (zh) | 结合财经新闻挖掘和金融历史数据的金融品种价格预测方法 | |
CN113222149B (zh) | 模型训练方法、装置、设备和存储介质 | |
CN109636482B (zh) | 基于相似度模型的数据处理方法及系统 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN109345133B (zh) | 基于大数据和深度学习的评审方法和机器人系统 | |
CN113590807A (zh) | 一种基于大数据挖掘的科技企业信用评价方法 | |
CN113837481B (zh) | 一种基于区块链的金融大数据管理系统 | |
CN114548494A (zh) | 一种可视化造价数据预测智能分析系统 | |
CN113435713B (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
CN117172721B (zh) | 用于融资业务的数据流转监管预警方法及系统 | |
KR102543211B1 (ko) | 비정형 기업 데이터를 이용한 기업성장 예측 시스템 | |
CN117763316A (zh) | 一种基于机器学习的高维数据降维方法及降维系统 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
CN116883065A (zh) | 商户风险预测方法及装置 | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |