CN109753408B - 一种基于机器学习的流程异常预测方法 - Google Patents

一种基于机器学习的流程异常预测方法 Download PDF

Info

Publication number
CN109753408B
CN109753408B CN201811511374.4A CN201811511374A CN109753408B CN 109753408 B CN109753408 B CN 109753408B CN 201811511374 A CN201811511374 A CN 201811511374A CN 109753408 B CN109753408 B CN 109753408B
Authority
CN
China
Prior art keywords
flow
prediction
historical
activity
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811511374.4A
Other languages
English (en)
Other versions
CN109753408A (zh
Inventor
王伟
曹健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangyin Zhuri Information Technology Co ltd
Original Assignee
Jiangyin Zhuri Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangyin Zhuri Information Technology Co ltd filed Critical Jiangyin Zhuri Information Technology Co ltd
Priority to CN201811511374.4A priority Critical patent/CN109753408B/zh
Publication of CN109753408A publication Critical patent/CN109753408A/zh
Application granted granted Critical
Publication of CN109753408B publication Critical patent/CN109753408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于机器学习的流程异常预测方法,通过挖掘流程执行的日志记录,活动执行时间信息,实时预测业务流程中的超期异常和流程行为异常。本发明使用独特的集成模式,建立对业务流程异常预测结果的分类方法,可以用于评估业务流程发生异常的可能性。本发明提出通过计算活动执行时间之间的比例关系作为流程输入特征用于预测算法,提升预测准确性。

Description

一种基于机器学习的流程异常预测方法
技术领域
本发明涉及流程异常预测技术领域,特别是涉及一种基于机器学习的流程异常预测方法。
背景技术
通常,在业务流程管理系统中,保存着大量流程执行的日志记录,包含流程中活动开始、结束的时间戳等信息,并且其中很多流程是重复多次执行的。在大数据技术飞速发展的今天,这些信息还尚未被有效充分的利用起来。现有的流程异常检测方法大多是主动的设置时间检查点、动态检查、或被动的基于异常发生后捕捉异常、处理异常的机制。主动设置时间检查点的方法又造成了新的问题,如何巧妙的设立检查点是一项困难而复杂的工作,而且随着流程的改变,检查点也很可能需要重新设定。被动的处理超期异常的方法,失去了对业务流程管理的主动性,导致工作流所期望的目标的延迟或付出更大的开销。
发明内容
本发明针对现有技术存在的问题和不足,提供一种新型的基于机器学习的流程异常预测方法,通过引入监督学习的逻辑回归算法和非监督学习的孤立森林算法,进行异常流程分类。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种基于机器学习的流程异常预测方法,其特点在于,其包括超期异常预测流程和行为异常预测流程;
其中超期异常预测流程以下步骤:
S11、从历史流程日志中查找出与当前正在执行的待预测流程相同的所有历史流程;提取与待预测流程已执行过的路径一致的历史流程数据作为算法的输入数据集。
S12、计算查找出的历史流程中每一历史流程的流程执行总时间以及每一历史流程中每一活动的执行时间;
S13、标记每一历史流程是否是超期异常;
S14、基于每一历史流程中每一活动的执行时间和每一历史流程的是否超期异常的标记训练基于监督学习的分类器;
S15、将待预测流程输入至训练好的分类器中以预测出该待预测流程是否属于超期异常流程。
行为异常预测流程以下步骤:
S21、从历史流程日志中查找出与当前正在执行的待预测流程相同的所有历史流程;
S22、计算查找出的每一历史流程中每一活动的执行时间;
S23、基于每一活动的执行时间训练基于非监督学习的离群点检测算法,使用离群点检测算法找出历史流程中活动时间比例与众不同的流程判定为行为异常流程;
S24、将待预测流程输入至训练好的离群点检测算法中以预测出该待预测流程是否属于行为异常流程。
通过分别用两种预测流程对流程是否异常进行预测并综合两种预测流程得出最终异常预测结果,称之为集成业务流程异常预测。
较佳地,通过分别执行流程的超期异常预测和行为异常检测,将业务流程预测异常分类为I类-超期异常流程、II类-行为异常流程、以及I类II类-高危异常流程。
较佳地,通过对每一活动开始与结束事件时间戳取差值,求得每一个活动的执行时间。
较佳地,在步骤S23中,将每一历史流程中活动的执行时间序列相邻项相除得到活动时间比例。
较佳地,使用监督学习中直接高效的逻辑回归算法作为分类器的基本模型,综合采样的SMOTE+Tomek算法缓解样本不均衡问题。
较佳地,在步骤S23中,使用孤立森林算法模型,通过活动执行时间比例中找出离群点以鉴别待预测流程是否为行为异常的流程。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明通过挖掘流程执行的日志记录,活动执行时间信息,实时预测业务流程中的超期异常和流程行为异常。本发明使用独特的集成模式,建立对业务流程异常预测结果的分类方法,可以用于评估业务流程发生异常的可能性。本发明提出通过计算活动执行时间之间的比例关系作为流程输入特征用于预测算法,提升预测准确性。
附图说明
图1为本发明较佳实施例的集成业务流程异常预测方法架构图。
图2为本发明较佳实施例的预测结果异常分类韦恩图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
受启发于集成学习方法,本发明提出了一种方法,通过分别用两种算法对流程是否异常进行预测并综合两种算法得出最终异常预测结果,我们称之为集成业务流程异常预测(Ensemble Business Process Anomaly Prediction,EnsBPAP)。如图1所示,将正在执行流程的日志和历史已执行完成流程日志做数据预处理,得到流程中活动执行时间序列以及计算活动执行时间比例关系。用机器学习中监督学习分类器预测流程是否会发生超期异常,标记I类异常流程。用无监督学习的异常点检测算法,亦称离群点检测,找出历史数据中活动时间比例与众不同的流程判定为行为异常流程(活动执行时间之间比例关系)以及判断当前流程是否属于行为异常流程,标记II类异常流程。最后,通过集成业务流程异常预测方法将待预测流程分为正常流程或者不同种类的异常流程。
集成业务流程异常预测方法将异常流程分为三类,如图2所示。第一类是由超期异常预测算法得出的I类异常流程,而没有被标记II类异常,其流程执行总时间会超过期限而流程中活动时间的比例是正常的。第二类是由行为异常检测算法得出的II类异常流程,而没有被标记为I类异常,其流程执行总时间不会超过期限但流程中存在行为异常。第三类是同时被标记为I类和II类异常,我们称之为高危异常,其流程中行为异常且流程执行总时间会超过最终期限,这是业务流程管理人员需要重点处理的异常流程。
本实施例提供一种基于机器学习的流程异常预测方法,其特点在于,其包括超期异常预测流程和行为异常预测流程。
其中,超期异常预测流程以下步骤:
S11、从历史流程日志中查找出与当前正在执行的待预测流程相同的所有历史流程;提取与待预测流程已执行过的路径一致的历史流程数据作为算法的输入数据集。
S12、计算查找出的历史流程中每一历史流程的流程执行总时间以及每一历史流程中每一活动的执行时间。其中通过对每一活动开始与结束事件时间戳取差值,求得每一个活动的执行时间。
S13、标记每一历史流程是否是超期异常。
通过计算历史流程的流程执行总时间,可以容易得到流程执行时间的分布,可以设定一个异常比例,如10%,将流程执行时间最长的异常比例内的流程标记为超期异常流程。
S14、基于每一历史流程中每一活动的执行时间和每一历史流程的是否超期异常的标记训练基于监督学习的分类器。
使用监督学习中直接高效的逻辑回归算法作为分类器的基本模型,综合采样的SMOTE+Tomek算法缓解样本不均衡问题。
S15、将待预测流程输入至训练好的分类器中以预测出该待预测流程是否属于超期异常流程。
行为异常预测流程以下步骤:
S21、从历史流程日志中查找出与当前正在执行的待预测流程相同的所有历史流程。
S22、计算查找出的每一历史流程中每一活动的执行时间。
S23、基于每一活动的执行时间训练基于非监督学习的离群点检测算法,将每一历史流程中活动的执行时间序列相邻项相除得到活动时间比例,使用离群点检测算法找出历史流程中活动时间比例与众不同的流程判定为行为异常流程。
在步骤S23中,使用孤立森林算法模型,通过活动执行时间比例中找出离群点以鉴别待预测流程是否为行为异常的流程。
S24、将待预测流程输入至训练好的离群点检测算法中以预测出该待预测流程是否属于行为异常流程。
业务流程异常预测方法的伪代码如Algorithm 1所示。将待预测流程的活动执行时间序列记为t,将其时间比例序列记为r,同数据预处理中得到的历史流程的执行时间和比例数据集T,R,tcv作为输入。第一步,将活动执行时间和比例的训练数据集和测试用例数据传入监督学习的分类算法中,得到超期异常预测结果。第二步,将活动时间比例的训练集和测试用例传入无监督学习异常检测算法,得到行为异常预测结果。第三步,用两个预测结果访问EnsBPAP分类结果矩阵,并返回最终的分类结果。
Figure BDA0001900869010000061
Figure BDA0001900869010000071
超期异常检测算法如Algorithm 2所示。第一步,将执行时间和比例数据T,R合并成训练集X,训练目标为tcv,t,r合并成测试样本x。第二步,SMOTE+Tomek算法均衡训练样本。第三步,对每个特征做归一化消除数据量级的影响。第四步,初始化算法模型、超参数空间、最佳参数。第五步,通过若干次迭代随机生成超参数、参考交叉验证法评估当前超参数下的性能、更新最佳超参数。第六步,使用最佳超参数拟合算法模型,预测测试样本类型,并返回。
Figure BDA0001900869010000072
Figure BDA0001900869010000081
行为异常检测算法的目标是通过活动执行时间比例中找出离群点以鉴别待预测流程是否为行为异常的流程。算法步骤如Algorithm 3所示。第一步,初始化算法模型。第二步,拟合历史数据得到孤立森林模型。第三步,预测测试样本并返回。
Figure BDA0001900869010000082
Figure BDA0001900869010000091
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (5)

1.一种基于机器学习的流程异常预测方法,其特征在于,其包括超期异常预测流程和行为异常预测流程;
其中超期异常预测流程以下步骤:
S11、从历史流程日志中查找出与当前正在执行的待预测流程相同的所有历史流程;
S12、计算查找出的历史流程中每一历史流程的流程执行总时间以及每一历史流程中每一活动的执行时间;
S13、标记每一历史流程是否是超期异常;
S14、基于每一历史流程中每一活动的执行时间和每一历史流程的是否超期异常的标记训练基于监督学习的分类器;
S15、将待预测流程输入至训练好的分类器中以预测出该待预测流程是否属于超期异常流程;
行为异常预测流程以下步骤:
S21、从历史流程日志中查找出与当前正在执行的待预测流程相同的所有历史流程;
S22、计算查找出的每一历史流程中每一活动的执行时间;
S23、基于每一活动的执行时间训练基于非监督学习的离群点检测算法,将每一历史流程中活动的执行时间序列相邻项相除得到活动时间比例,使用离群点检测算法找出历史流程中活动时间比例与众不同的流程判定为行为异常流程;
S24、将待预测流程输入至训练好的离群点检测算法中以预测出该待预测流程是否属于行为异常流程;
通过分别用两种预测流程对流程是否异常进行预测并综合两种预测流程得出最终异常预测结果,称之为集成业务流程异常预测。
2.如权利要求1所述的基于机器学习的流程异常预测方法,其特征在于,通过分别执行流程的超期异常预测和行为异常检测,将业务流程预测异常分类为I类-超期异常流程、II类-行为异常流程、以及I类II类-高危异常流程。
3.如权利要求1所述的基于机器学习的流程异常预测方法,其特征在于,通过对每一活动开始与结束事件时间戳取差值,求得每一个活动的执行时间。
4.如权利要求1所述的基于机器学习的流程异常预测方法,其特征在于,使用监督学习中直接高效的逻辑回归算法作为分类器的基本模型,综合采样的SMOTE+Tomek算法缓解样本不均衡问题。
5.如权利要求1所述的基于机器学习的流程异常预测方法,其特征在于,在步骤S23中,使用孤立森林算法模型,通过活动执行时间比例中找出离群点以鉴别待预测流程是否为行为异常的流程。
CN201811511374.4A 2018-12-11 2018-12-11 一种基于机器学习的流程异常预测方法 Active CN109753408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811511374.4A CN109753408B (zh) 2018-12-11 2018-12-11 一种基于机器学习的流程异常预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811511374.4A CN109753408B (zh) 2018-12-11 2018-12-11 一种基于机器学习的流程异常预测方法

Publications (2)

Publication Number Publication Date
CN109753408A CN109753408A (zh) 2019-05-14
CN109753408B true CN109753408B (zh) 2022-03-25

Family

ID=66402672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811511374.4A Active CN109753408B (zh) 2018-12-11 2018-12-11 一种基于机器学习的流程异常预测方法

Country Status (1)

Country Link
CN (1) CN109753408B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414603B (zh) * 2019-07-29 2022-02-22 中国工商银行股份有限公司 用于检测移动设备的方法、装置、计算机系统和介质
CN113535444B (zh) * 2020-04-14 2023-11-03 中国移动通信集团浙江有限公司 异动检测方法、装置、计算设备及计算机存储介质
CN111860936A (zh) * 2020-05-25 2020-10-30 北京致远互联软件股份有限公司 一种办公业务流程缺陷预测的方法
CN112116330B (zh) * 2020-09-28 2024-05-28 中国银行股份有限公司 一种工作流错误队列自动化处理方法和装置
CN113971119B (zh) * 2021-10-21 2023-02-07 云纷(上海)信息科技有限公司 基于无监督模型的用户行为异常分析评估方法及系统
CN114356642B (zh) * 2022-03-11 2022-05-17 军事科学院系统工程研究院网络信息研究所 一种基于流程挖掘的异常事件自动诊断方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN108509325A (zh) * 2018-03-07 2018-09-07 北京三快在线科技有限公司 系统超时时间的动态确定方法与装置
CN108632279A (zh) * 2018-05-08 2018-10-09 北京理工大学 一种基于网络流量的多层异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109657A1 (en) * 2011-05-08 2017-04-20 Panaya Ltd. Machine Learning-Based Model for Identifying Executions of a Business Process

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN108509325A (zh) * 2018-03-07 2018-09-07 北京三快在线科技有限公司 系统超时时间的动态确定方法与装置
CN108632279A (zh) * 2018-05-08 2018-10-09 北京理工大学 一种基于网络流量的多层异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向大数据分析的决策树算法;张棪,曹健;《计算机科学》;20160615;第374-383页 *

Also Published As

Publication number Publication date
CN109753408A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753408B (zh) 一种基于机器学习的流程异常预测方法
CA3037326C (en) Sparse neural network based anomaly detection in multi-dimensional time series
US20150205691A1 (en) Event prediction using historical time series observations of a computer application
US20150205692A1 (en) Behavior clustering analysis and alerting system for computer applications
CN110825644A (zh) 一种跨项目软件缺陷预测方法及其系统
Sun et al. An improved k-nearest neighbours method for traffic time series imputation
Girish et al. Anomaly detection in cloud environment using artificial intelligence techniques
US20150205690A1 (en) Computer performance prediction using search technologies
US20150205693A1 (en) Visualization of behavior clustering of computer applications
CN109656818B (zh) 一种软件密集系统故障预测方法
CN110956278A (zh) 重新训练机器学习模型的方法和系统
EP3097494A1 (en) Computer performance prediction using search technologies
Naskos et al. Event-based predictive maintenance on top of sensor data in a real industry 4.0 case study
Falessi et al. Preserving order of data when validating defect prediction models
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
Kumar et al. Deep-learning approach with Deepxplore for software defect severity level prediction
Dutta A study on machine learning algorithm for enhancement of loan prediction
CN113689020A (zh) 业务信息预测方法、装置、计算机设备和存储介质
US11320813B2 (en) Industrial asset temporal anomaly detection with fault variable ranking
Ling et al. Maximum profit mining and its application in software development
KR20200071646A (ko) 이상 로그 탐지를 위한 탐지 장치 및 이의 동작 방법과 트레이닝 장치 및 이의 동작 방법
CN114416467A (zh) 一种异常检测方法及装置
Ling et al. Predicting software escalations with maximum ROI
Muzaffar et al. ActDroid: An active learning framework for Android malware detection
CN113537659A (zh) 识别项目异常的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 317-108, Building 12, No. 2, Binjiang West Road, Jiangyin City, Wuxi City, Jiangsu Province, 214400 (business site: Room 301-3, No. 18, Haigang Road, Jiangyin City)

Patentee after: JIANGYIN ZHURI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 1709, building 3, 8 Binjiang West Road, Jiangyin City, Wuxi City, Jiangsu Province, 214400

Patentee before: JIANGYIN ZHURI INFORMATION TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder