CN115982655A - 一种基于决策树的缺失数据流程异常预测方法 - Google Patents

一种基于决策树的缺失数据流程异常预测方法 Download PDF

Info

Publication number
CN115982655A
CN115982655A CN202111196082.8A CN202111196082A CN115982655A CN 115982655 A CN115982655 A CN 115982655A CN 202111196082 A CN202111196082 A CN 202111196082A CN 115982655 A CN115982655 A CN 115982655A
Authority
CN
China
Prior art keywords
data
decision tree
flow
missing
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111196082.8A
Other languages
English (en)
Inventor
李逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Changfeng Science Technology Industry Group Corp
Original Assignee
China Changfeng Science Technology Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Changfeng Science Technology Industry Group Corp filed Critical China Changfeng Science Technology Industry Group Corp
Priority to CN202111196082.8A priority Critical patent/CN115982655A/zh
Publication of CN115982655A publication Critical patent/CN115982655A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于决策树的缺失数据流程异常预测方法,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;对取出的数据进行清洗和合并;分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型;将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据;使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预测;取m颗决策树中,预测结果占多数的结果为最终结果。本发明能够在大量缺失数据的情况下,有效实现流程的异常预测且准确率较高。

Description

一种基于决策树的缺失数据流程异常预测方法
技术领域
本发明属于人工智能领域,涉及一种基于决策树的缺失数据流程异常预测方法。
背景技术
随着各行业信息化水平的迅速发展,业务流程信息化水平已成为各行业各大中型企业信息化程度衡量的标准,随着业务流程信息化技术的发展,流程异常成为各行业的痛点,精准而有效的流程异常预测功能显得日益迫切,因此,流程异常预测技术逐渐成为各行业以及各大中型企业的重点研究问题。而往往在企业历史流程中,存在大量缺失数据,大量缺失数据的流程异常的智能预测的训练问题,具有较大的复杂性,也使得流程异常预测实现更加困难。
流程预测技术可提前侦测到的流程异常风险,从而避免将会发生的风险事件。然而随着企业信息化技术的飞速发展,企业的流程在不断优化,流程对应的业务数据的需求也在不断变更。同一个业务流程涉及的多个历史版本的流程数据和业务数据也不尽相同,导致流程的数据项完整度不一致的现象频发出现。想要寻找大量的,拥有同样完整度信息的流程数据难度非常大,不便于人工智能工作的研究。常规的流程异常预测技术,在有大量缺失数据的情况下表现出的水平较差,准确率较低,难以应对大中型企业业务灵活多变业务流程的预测需求;其次是运用常用的无缺失数据的人工智能流程预测模型,因数据量小,或者数据维度不够,训练模型容易欠拟合而导致算法在实际应用过程中准确度难以达到较高的水平。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于决策树的缺失数据流程异常预测方法,该方法在大量业务数据缺失时,能够有效实现流程的异常预测,且准确度较高。
本发明的技术方案如下:
一种基于决策树的缺失数据流程异常预测方法,其特征在于,包括以下步骤:
步骤1,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;
步骤2,取出的流程运行数据和流程业务数据,按照业务数据和流程数据关联关系进行数据合并;
步骤3,分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型,决策树个数为m=2^n,n为缺失项个数;
步骤4,将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据,每组数据,分别训练m棵决策树,形成多颗决策树,补充数据方法可采用均值填充、中位数填充等方法;
步骤5,使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预测;
步骤6,取m颗决策树中,预测结果占多数的结果为最终结果。
本发明具有以下有益效果:
1、本发明所述该一种基于决策树的缺失数据流程异常预测方法,在大量缺失数据的情况下,能够有效实现流程的异常预测且准确率较高。
2、本发明相比传统的异常预测方法,在大量缺失数据的情况下,具有更高的异常智能预测准确度。
附图说明
图1是本发明流程异常预测的功能模块图。
具体实施方式
本发明所述一种基于决策树的缺失数据流程异常预测方法,包括数据清洗、数据分组深加工、模型训练与结果计算三个模块。所述的数据清洗模块,使用主成分分析法、高维稀疏数据离群检测方法和其他数据清洗方法完成,可将同一业务流程在多个历史版本迭代过程中,针对大量缺失数据情况下的业务数据和流程数据进行有效的筛选;所述数据分组深加工模块,是构建多个决策树模型,将一份数据加工为多份用于多个决策树模型的训练数据,便于每个决策树有相应的数据进行训练;所述模型训练与结果计算模块,指将测试数据或运行数据,按数据分组深加工模块的分组情况,构造成多份数据,运用多个模型分别进行流程预测,并根据多个模型的结果,通过计算得出最终流程预测结果。
如图1所示,本发明所述一种基于决策树的缺失数据流程异常预测方法,其流程异常预测按照以下步骤实施:
步骤S1,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;
步骤S2,取出的流程运行数据和流程业务数据,按照业务数据和流程数据关联关系进行数据合并;
步骤S21,将步骤S2合并后的数据,进行数据清洗,运用高维稀疏数据离群检测方法,去除不正常数据;
步骤S22,将步骤S1筛选后的数据,进行二次筛选,去除核心业务数据缺失项大于4种的数据,最终筛选出的数据用于模型训练;
步骤S3,分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型,例如缺失项分别为ABC,ABC各分为有数据项和无数据项两组,各自组合形成8种不同组合,即决策树个数为m=2^n,n为缺失项个数;
步骤S4,将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据,每组数据,分别训练m棵决策树,形成多颗决策树,补充数据方法可采用均值填充、中位数填充等方法;
步骤S5,使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预测;
步骤S51,按照S3分组方式,将运行中或新启动的业务流程数据复制并分组处理,加工为m颗决策树所使用的数据;
步骤S52,使用m颗决策树分别进行流程预测;
步骤S6,取m颗决策树中,预测结果占多数的结果为最终结果。

Claims (3)

1.一种基于决策树的缺失数据流程异常预测方法,其特征在于,包括以下步骤:
步骤1,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;
步骤2,取出的流程运行数据和流程业务数据,按照业务数据和流程数据关联关系进行数据合并;
步骤3,分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型,决策树个数为m=2^n,n为缺失项个数;
步骤4,将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据,每组数据,分别训练m棵决策树,形成多颗决策树,补充数据方法可采用均值填充、中位数填充等方法;
步骤5,使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预测;
步骤6,取m颗决策树中,预测结果占多数的结果为最终结果。
2.根据权利要求1所述的基于决策树的缺失数据流程异常预测方法,其特征在于,步骤2进一步包括以下步骤:
步骤21,将步骤2合并后的数据,进行数据清洗,运用高维稀疏数据离群检测方法,去除不正常数据;
步骤22,将步骤1筛选后的数据,进行二次筛选,去除核心业务数据缺失项大于4种的数据,最终筛选出的数据用于模型训练。
3.根据权利要求1所述的基于决策树的缺失数据流程异常预测方法,其特征在于,步骤5进一步包括以下步骤:
步骤51,按照步骤3的分组方式,将运行中或新启动的业务流程数据复制并分组处理,加工为m颗决策树所使用的数据;
步骤52,使用m颗决策树分别进行流程预测。
CN202111196082.8A 2021-10-14 2021-10-14 一种基于决策树的缺失数据流程异常预测方法 Pending CN115982655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111196082.8A CN115982655A (zh) 2021-10-14 2021-10-14 一种基于决策树的缺失数据流程异常预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111196082.8A CN115982655A (zh) 2021-10-14 2021-10-14 一种基于决策树的缺失数据流程异常预测方法

Publications (1)

Publication Number Publication Date
CN115982655A true CN115982655A (zh) 2023-04-18

Family

ID=85964775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111196082.8A Pending CN115982655A (zh) 2021-10-14 2021-10-14 一种基于决策树的缺失数据流程异常预测方法

Country Status (1)

Country Link
CN (1) CN115982655A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235062A (zh) * 2023-11-10 2023-12-15 广州汇通国信科技有限公司 基于数据中台的业务系统数据建模方法
CN117972153A (zh) * 2024-02-27 2024-05-03 京源中科科技股份有限公司 一种智能水表数据管控方法以及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235062A (zh) * 2023-11-10 2023-12-15 广州汇通国信科技有限公司 基于数据中台的业务系统数据建模方法
CN117972153A (zh) * 2024-02-27 2024-05-03 京源中科科技股份有限公司 一种智能水表数据管控方法以及系统

Similar Documents

Publication Publication Date Title
CN109711659B (zh) 一种工业生产的良率提升管理系统和方法
US7730023B2 (en) Apparatus and method for strategy map validation and visualization
US9280517B2 (en) System and method for failure detection for artificial lift systems
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN107391369B (zh) 一种基于数据筛选和数据过采样的跨项目缺陷预测方法
CN110659173A (zh) 一种运维系统及方法
CN110825644A (zh) 一种跨项目软件缺陷预测方法及其系统
US20120025997A1 (en) System and method for failure prediction for rod pump artificial lift systems
CN115982655A (zh) 一种基于决策树的缺失数据流程异常预测方法
US11481413B2 (en) Systems and methods for evaluating petroleum data for automated processes
CN114757468B (zh) 一种面向流程挖掘中流程执行异常的根源分析方法
CN114868092A (zh) 数据管理平台、智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法
CN110795888A (zh) 一种石油钻井风险预测方法
Dobra et al. Enhance of OEE by hybrid analysis at the automotive semi-automatic assembly lines
CN112905380A (zh) 一种基于自动化监控日志的系统异常检测方法
CN112306731B (zh) 基于Spacy词向量的两阶段判别缺陷报告严重程度预测方法
CN114916237A (zh) 用于缺陷分析的计算机实现的方法、评估缺陷出现的可能性的计算机实现的方法、用于缺陷分析的设备、计算机程序产品和智能缺陷分析系统
CN110708296B (zh) 一种基于长时间行为分析的vpn账号失陷智能检测模型
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN114312930B (zh) 基于日志数据的列车运行异常诊断方法和装置
CN112184691B (zh) 一种基于不良Map图的缺陷模式分析方法
CN113496332B (zh) 工业互联网故障预测方法和系统
CN105468658A (zh) 一种数据清洗方法及装置
Xia et al. A study on the significance of software metrics in defect prediction
CN112667617A (zh) 一种基于自然语言的可视化数据清洗系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication