CN115345458A - 业务流程合规性检查方法、计算机设备以及可读存储介质 - Google Patents
业务流程合规性检查方法、计算机设备以及可读存储介质 Download PDFInfo
- Publication number
- CN115345458A CN115345458A CN202210920275.1A CN202210920275A CN115345458A CN 115345458 A CN115345458 A CN 115345458A CN 202210920275 A CN202210920275 A CN 202210920275A CN 115345458 A CN115345458 A CN 115345458A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- activity
- attribute
- node
- activities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种业务流程合规性检查方法、计算机设备以及可读存储介质。其中,本发明方法首先从信息系统中记录的实际业务流程中抽取完全拟合事件日志以及活动,将活动顺序作为属性,分别按照活动顺序记录下每个属性可取值的活动,构建一颗按照活动顺序为属性的决策树;然后,将需要判断的轨迹按照构建的决策树进行判断,基于决策树对轨迹是否合规的判断方法并对其进行剪枝处理,使其能够更高效的实现轨迹合规性检查。本发明还以地震应急预案流程及真实数据为例,进行了仿真实验。通过仿真实验证明,本发明方法在保证较高准确率的前提下,相比于传统方法,明显提高了业务流程合规性检查效率。
Description
技术领域
本发明涉及一种业务流程合规性检查方法、计算机设备以及可读存储介质。
背景技术
随着计算机硬件以及软件的不断发展,以及计算技术和物联网的发展,软件产生的数据迅速增长,大数据技术迅速发展,大数据时代的到来为业务流程管理提供了发展基础。此外,由于各企业之间的不断竞争,各企业力求对于每个过程都准确的执行,更多的企业建立自己的日志管理系统,实时的记录着每个进程的执行。信息系统的发展为企业更好的管理业务提供重要保障和功能,不仅仅提高了管理效率,更重要的是保障了业务管理的正确性,过程挖掘对于业务流程管理的研究颇有意义,为此过程挖掘得以发展。过程挖掘在业务流程管理中的作用是巨大的。过程挖掘主要分析业务流程管理中产生的大量的事件日志,利用挖掘算法对查找检测出错的行为并对其进行改进,不断地完善业务流程。在信息管理系统中,事件日志的完整性对业务流程管理起着决定性的因素。特别在对人民的生命财产安全有重大威胁的自然灾害管理方面,对于业务流程的合规性检查则显得更为重要。由于事件日志与过程模型之间存在着偏差,但有些企业和事件业务的特殊性,不允许业务活动执行过程中出现流程的差错,例如对于地震、海啸等自然灾害的应急方面。因此,对于偏差的检测就非常重要。
近年来,不少学者对于地震学领域进行了大量研究,并将人工智能大数据分析技术运用于地震的预测,对地震数据进行分析。自上世纪70年代开始,各地学者就对地震的前兆数据进行识别分析。地震的前兆是预测地震的有效分析数据,是分析的基础,经过多年的研究,我国已对于地震的前兆数据分析实现了智能化和数字化,并可有效预测地震的到来信息。但是由于地震信息的复杂化,对于地震的预测还是存在着不足。地震有预测不及时不准确的情况,但是地震灾害对人们的生活造成的伤害是巨大的,为此,对于震后工作也同等重要。
在目前地震预测技术还存在不足以及不成熟的情况之下,地震的应急救援工作是减少人民生命财产安全的有效方法。地震应急救援工作是应对地震灾害的重要手段。历年来,在重大地抗震救灾工作中,地震应急预案业务流程在地震应急救援工作中发挥了重大指导作用。我国把人民的生命财产安全放在首位,地震发生后,地震局第一时间反应。根据应急预案有条不紊的开展救援工作,在挽救人民的生命以及财产安全方面起到了重大作用。因此,对于地震应急预案日志的一致性检验迫在眉睫,利用过程挖掘手段对异常行为进行检测,从而完善应急预案业务流程中存在的不足之处。如今,对于一致性检验有许多不同的研究方法,其度量标准有多个方面,最主要的度量标准则是拟合度,例如:
基于token的重演是一致性检测的一种有效方法,给出了一种增量式检查过程模型和事件日志一致性的方法;Petkovic等人提出了一种框架,可以检测事件日志中的轨迹是否符合BPMN过程模型;除此之外,对齐作为比较先进的方法之一,为此对该技术也进行了大量的研究;Cook等提供了一种比较方法,通过流程执行和过程模型的量化相似度获得对齐结果的方法,Song等提出了启发式规则和对轨迹进行重演等技术优化了查找空间。
然而,目前自前而后的顺序判断轨迹进行合规性检查的方法,存在检查效率低的问题。
发明内容
本发明的目的在于提出一种基于活动顺序决策树的业务流程合规性检查方法,该方法根据实际业务流程中抽取的完全拟合事件日志生成一棵决策树,并根据生成的决策树进行合规性检查,实现了从事件日志出发对轨迹进行合规性检查,提高了业务流程的检查效率。
本发明为了实现上述目的,采用如下技术方案:
基于活动顺序决策树的业务流程合规性检查方法,包括如下步骤:
步骤1.对实际业务流程中抽取的完全拟合事件日志进行预处理;
从信息系统中记录的实际业务流程中抽取完全拟合事件日志以及活动,将业务流程中抽取的事件日志按照事件的id将抽取出的活动串联成轨迹,按照轨迹中活动的顺序创建活动集合,并将轨迹中的活动按照顺序存放在活动集合中,然后创建属性集合;
定义序列为:元素σ1,σ2,σ3,…,σn组成的有序并且有限列表由σ=<σ1,σ2,σ3,…,σn>表示,A为一个活动集合,A*表示A上有限序列的集合;
若存在一个过程实例σ,即一个活动序列σ∈A*称σ是一条轨迹,若有一个轨迹的有限非空多重集L∈β(A*),则称L为一个事件日志;
步骤2.以各活动集合中元素个数作为属性划分标准进行属性划分,在属性集合构建之后,将活动集合中活动唯一的集合定义为关键活动集合,该活动定义为关键活动,并根据活动位置定义关键活动优先级,活动位置越靠后优先级越高;
步骤3.根据奥卡姆剃刀原则去除冗余的判断进行预剪枝,再构建决策树;
该步骤具体为:将划分属性由全部属性转为只使用关键活动所对应属性进行剪枝操作,根据关键活动优先级进行最优分类属性的选择。迭代选择最优属性生成树节点,并将选择的最优分类属性在属性集合中去除,不断迭代,直至属性集合为空,即遍历完所有关键活动,实现一颗分类决策树;决策树的构建过程为:
对决策树进行初始化操作生成初始根节点,执行决策树节点插入操作,决策树节点插入函数为递归函数,循环递归执行决策树节点插入,直至属性集合为空,建成决策树;
决策树定义为一个四元组DT=(N,P,C,FA),N是树节点的名称,P是节点的父节点,C是节点孩子链表,FA为节点所属父节点属性特征;
步骤4.在决策树上重演实际业务流程中提取的拟合事件日志中添加异常轨迹的事件日志或者重演实际业务流程中产生的新事件日志,对事件日志中每条轨迹,根据决策树内部决策节点不断判断轨迹中每个位置的活动是否合规,最终输出叶节点的预测标签,即业务流程合规性预测结果。
此外,在基于活动顺序决策树的业务流程合规性检查方法的基础上,本发明还提出了一种用于实现上述基于活动顺序决策树的业务流程合规性检查方法的计算机设备。
该计算机设备包括存储器和处理器,存储器中存储有可执行代码,处理器执行所述可执行代码时,用于实现上面述及的基于活动顺序决策树的业务流程合规性检查方法。
此外,在基于活动顺序决策树的业务流程合规性检查方法的基础上,本发明还提出了一种用于实现上述基于活动顺序决策树的业务流程合规性检查方法的计算机可读存储介质。
该计算机可读存储介质,其上存储有程序,当该程序被处理器执行时,用于实现上面述及的基于活动顺序决策树的业务流程合规性检查方法。
本发明具有如下优点:
如上所述,本发明述及了一种基于活动顺序决策树的业务流程合规性检查方法,该方法打破了传统按照顺序进行业务流程合规性检查的思路,独创性提出了一种采用决策树来实现业务流程合规性检查的方法,该方法将完全拟合日志遍历一次,记录每个顺序位可取活动构建属性及属性特征,最终构建决策树,又根据异常轨迹中异常活动的特性,按照定义的关键活动对决策树进行剪枝,大大的缩减了决策树的规模,提高了检测效率,最终根据剪枝后的决策树进行实验分析,分别在地震应急处置流程模拟数据集和真实事件日志进行实验,最终实验结果表明,本发明提出的基于活动顺序决策树的业务流程合规性检测方法,能够更高效的实现合规性检查,该方法在准确率可接受的范围内,大大的提高了检查效率。
附图说明
图1为本发明实施例中基于活动顺序决策树的业务流程合规性检查方法的流程图。
图2为地震应急处置事件决策树生成示意图。
图3为模拟数据平均比较次数曲线图。
图4为模拟数据准确率比较曲线图。
图5为真实数据集Document_Processing_Event_Logs平均比较次数曲线图。
图6为真实数据集Electronic_Invoicing_Event_Logs平均比较次数曲线图。
图7为真实数据集Document_Processing_Event_Logs准确率曲线图。
图8为真实数据集Electronic_Invoicing_Event_Logs准确率曲线图。
具体实施方式
本发明述及了一种基于活动顺序决策树的业务流程合规性检查方法,该方法以信息系统中记录的实际业务流程中抽取的完全拟合的事件日志作为训练集,在离线阶段进行决策树的构建,在在线阶段,对完全拟合事件日志添加异常轨迹作为测试集,进行合规性预测。
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,基于活动顺序决策树的业务流程合规性检查方法,具体步骤如下:
步骤1.对实际业务流程中抽取完全拟合事件日志进行预处理。
从信息系统中记录的实际业务流程中抽取完全拟合事件日志以及活动,将业务流程中抽取的事件日志按照事件的id将抽取出的活动串联成轨迹,按照轨迹中活动的顺序创建活动集合,并将轨迹中的活动按照顺序存放在活动集合中,然后创建属性集合。
为更好理解轨迹的定义,在给出轨迹的形式化定义之前给定序列的定义。
定义序列:元素σ1,σ2,σ3,…,σn组成的有序并且有限列表由σ=<σ1,σ2,σ3,…,σn>表示,A为一个集合,A*表示A上有限序列的集合。
定义事件日志与轨迹:随着大数据的发展,各企业的信息系统中记录着大量的事件描述,并储存在日志中。其中,记录的每一个事件都阐述了该事件在系统中留下的轨迹,即日志中记录的一条事件发生的序列,定义为轨迹。形式化定义如下:
设A为一个活动集合。若存在一个σ,即一个活动序列σ∈A*称σ是一条轨迹。若有一个轨迹的有限非空多重集L∈β(A*),则称L为一个日志。
定义决策树:决策树定义为一个四元组DT=(N,P,C,FA),其中,N是树节点的名称,P是节点的父节点,C是节点孩子链表,FA为节点所属父节点属性特征。
树的应用种类很多,决策树又叫判定树,是一种预测模型,其中,重要的应用之一是描述分类问题,分类的目的是将数据按照不同的标准进行划分。树中每一个非叶节点代表一个判断条件,表示对于属性的一次测试,叶节点代表分类的结果,表示对于测试的输出。
在决策分析中起到重要的作用,它提供了一种最可能达到目标的策略。
决策树的基本原理是决策问题使用决策点代表,可能选择的方案使用方案分枝代表,可能产生的结果使用概率分枝代替,最终使用整棵树作为决策者的决策依据。
决策树主要应用于分类问题,可适用于轨迹合规性检查并高效准确的实现对轨迹的分类。
下面给出一个简单的事件日志,表1使用日志的更紧凑的方法描述了多次地震灾害后的预案记录。表2对活动的含义进行表述,给出了日志中每个活动的含义。
表1活动与活动含义表示
id | 轨迹 | id | 轨迹 |
σ<sub>1</sub> | <a,b,d,e,f,g,h> | σ<sub>5</sub> | <a,b,d,e,g,f,h> |
σ<sub>2</sub> | <a,d,b,e,f,g,h> | σ<sub>6</sub> | <a,d,b,e,g,f,h> |
σ<sub>3</sub> | <a,c,d,e,f,g,h> | σ<sub>7</sub> | <a,c,d,e,g,f,h> |
σ<sub>4</sub> | <a,d,c,e,f,g,h> | σ<sub>8</sub> | <a,d,c,e,g,f,h> |
表2活动与活动含义表示
以上是多次地震后的地震应急处置流程记录的仿真数据,对该事件日志进行分析阐述构建决策树的过程。在拟合数据的轨迹集合中添加存在异常活动的非拟合轨迹构建出测试集,测试决策树的决策效率和正确性。图4是添加了异常轨迹后的事件日志,其中,轨迹σ9,σ10,σ11,σ12中分别添加了丢失、额外、错位、重复活动。
以该数据集为例,阐述决策树对于事件日志合规性检查的过程。
表3模拟生成测试集日志记录
id | 轨迹 | id | 轨迹 |
σ<sub>1</sub> | <a,b,d,e,f,g,h> | σ<sub>7</sub> | <a,c,d,e,g,f,h> |
σ<sub>2</sub> | <a,d,b,e,f,g,h> | σ<sub>8</sub> | <a,d,c,e,g,f,h> |
σ<sub>3</sub> | <a,c,d,e,f,g,h> | σ<sub>9</sub> | <a,d,b,e,g,h> |
σ<sub>4</sub> | <a,d,c,e,f,g,h> | σ<sub>10</sub> | <a,b,b,e,i,g,f,h> |
σ<sub>5</sub> | <a,b,d,e,g,f,h> | σ<sub>11</sub> | <a,d,e,c,f,g,h> |
σ<sub>6</sub> | <a,d,b,e,g,f,h> | σ<sub>12</sub> | <a,c,b,e,f,f,g,h> |
在进行决策树的构建之前,首先需要对属性进行构建,决策树利用比较属性选择,最优分类属性进行样本的划分,因此,属性的构建是决策树建立的第一步。
首先创建n个集合,集合Si存放i顺序上活动,|Si|表示集合Si中活动个数,对完全拟合事件日志中每条轨迹访问,将轨迹中活动按照顺序保存在上述集合中,i=1,2,…,n。
设D={D1,D2,…,Dn}为属性集,其中,Di表示为第i类属性,在应用于合规性检查中i又表示为活动顺序,集合Si中元素即为Di属性的特征值。
属性集合的构建过程如下:
输入:事件日志数据集;输出:属性集合。
步骤1.1.遍历整个事件日志,并重复执行下述步骤1.2-步骤1.3;
步骤1.2.对于没有生成轨迹字典的事件创建轨迹字典;
步骤1.3.将事件日志中的活动依次串联成轨迹;
步骤1.4.对上述步骤1.3生成的轨迹进行遍历,并重复执行下述步骤1.5-步骤1.8;
步骤1.5.判断每个位次上的活动集合是否创建;未创建则执行步骤1.6;
步骤1.6.创建活动集合;
步骤1.7.将轨迹中的活动按照顺序存放在获得集合中;
步骤1.8.创建属性集合,并将活动集合赋值给属性集合;
步骤1.9.结束,得到属性集合。
分析属性集合的构建方法的时间复杂度,方法中共2个循环体,第一个循环体包括一层循环,而第二个循环体中包括双层循环,遍历对象为事件日志中轨迹的条数。
因此,属性构建方法的时间复杂度为O(l2),其中l为事件日志中轨迹的条数。
示例1:以表1给出的预案日志为例,访问地震应急处置事件日志,对其处理进行属性的构建。首先根据轨迹中活动创建7个集合并存放每个顺序位置上活动,然后构建属性集合D,运行上述属性集合构建方法得到属性集合,对于该日志属性的构建结果如表4所示。
表4决策树属性构建
属性 | 属性值 | 属性 | 属性值 |
D<sub>1</sub> | {a} | D<sub>5</sub> | {f,g} |
D<sub>2</sub> | {b,c,d} | D<sub>6</sub> | {f,g} |
D<sub>3</sub> | {b,c,d} | D<sub>7</sub> | {h} |
D<sub>4</sub> | {e} |
步骤2.以各活动集合中元素个数作为属性划分标准进行属性划分,在属性集合构建之后将活动集合中活动唯一的集合定义为关键活动集合,该活动定义为关键活动,并根据活动位置定义关键活动优先级,活动位置越靠后优先级越高。
由于企业信息系统中记录的行为,与过程模型或者完全拟合的事件日志之间存在不一致,其间存在行为偏差,存在异常活动,下面给出异常活动定义。
偏差中异常活动存在着四种不同类型,包括丢失活动、额外活动、错位活动、重复活动。
额外活动:轨迹σ=a′da″,活动集合表示为A,若d∈A,那么d为额外活动。
重复活动:轨迹σ=a′da″,若·d∈a’且·d∈a”,那么d是一个重复活动。
丢失活动是指在轨迹中不存在某个活动,但是在事件日志中存在。
额外活动指在事件日志中不存在某个活动,但是在轨迹中存在。
错位活动是指某活动和其相邻活动之间进行发生顺序与日志中拟合轨迹的顺序不同。
重复活动则是在轨迹中活动重复执行。
定义关键活动:经过对完全拟合事件日志的处理,将事件日志中轨迹按照活动顺序分割,生成n个集合,对于每个集合,记录着该顺序的活动可以取的活动。
根据每个集合的可取值个数,将n个集合进行分级,根据可取活动个数进行关键活动的定义,将可取活动个数为1的集合定义为关键活动集合,将该活动定义为关键活动。
在整个事件日志中对于所有的关键活动可根据其在事件中顺序进行关键活动优先级的定义,关键活动在轨迹中顺序越靠后关键活动集合优先级越高,进行属性选择时越优先选择。
关键活动提取过程为:
输入:属性集合;输出:关键活动集合。
步骤2.1.遍历属性集合,重复执行下述步骤2.2-步骤2.4;
步骤2.2.判断活动集合的元素个数为1,执行步骤2.3;
步骤2.3.将活动数为1的活动定义在关键活动集合;
步骤2.4.结束,得到关键活动集合。
分析关键活动提取方法的时间复杂度,在关键活动提取方法中只有一层循环对属性集合进行遍历,故方法的时间复杂度为O(n),n为属性集合的大小。
示例2:以上述地震预案记录为例,继示例1之后,将例1构建的集合Si(i=1,2,…,n)执行关键活动提取,将关键活动集合Si(i=7,4,1)提取出,按照优先级依次递减顺序进行排序。
步骤3.为了更高效的实现活动顺序决策树对轨迹的合规性检查,对决策树进行剪枝操作,本实施例根据奥卡姆剃刀原则去除冗余的判断(即将全部属性转换为关键活动属性,在进行最优分类属性的迭代选择时,实现决策树的构造)进行预剪枝,再构建决策树。
决策树根据分类时最优分类属性的选择不同产生许多不同的算法,ID3、C45、CART是较为经典,早期普遍使用的一类,随着众多的研究,对于算法也进行了改进,SPRINT算法可以快速计算最优分类属性分类,该算法使用直方图和属性列表帮助计算。
PUBLIC算法在构建决策树的过程上与上述SPRINT算法类似,但是解决了在剪枝的过程中的剪枝过度的情况,提高了准确性。PUBLIC算法在构建决策树的核心部分是对于最优分类属性的选择和建树的过程,对于每次划分完当前节点之后,将数据集中上一步选择的最优分类属性在属性集合中去除之后,再将数据集中已经划分的特征去除,生成新的数据子集,不断迭代,实现一颗分类决策树。
在应用于合规性检查中,根据具体的情况进行了属性构建,在进行属性的选择时,先创建一个集合存放所有的属性,在构建决策树进行每一次决策时,即进行分类属性选择时,首先选择优先级最高的关键活动,依次选择关键活动作为分类属性,之后按照属性可取值多少进行分类属性的选择,可取值越少则越优先选择。每一次选择属性后,将该属性在集合中删除,直至集合为空,从而完成分类选择和决策树构建。
示例3:根据上述最优分类属性选择标准,对构建的属性分析,构建关键活动集合包括第七个活动、第四个活动和第一个活动,关键活动优先级依次递减。除此,非关键活动的选取顺序为第六个活动,第五个活动,第三个活动,第二个活动。
最优分类属性确定完成之后,接下来是对于决策树的生成,决策树由一个根节点和内部节点以及叶子节点组成,根结点包括整个样本数据集,内部节点对应属性选择划分,根据属性的特征值选择出不同数据子集,逐步递归生成一颗决策树,叶节点对应分类条件,在本实施例中是指轨迹的拟合程度。决策树构建停止的条件为所有属性全部变为内部节点,在本实施例中即当第二个活动选为最优分类属性选择后。
对于上述地震预案的日志,可生成如图2所示的决策树。以上是地震应急预案经过多次最优分类属性选择之后建成的决策树,由于在发生异常活动时,该条轨迹的长度发生变化,所以在第一次的判断中将会判断出大部分的拟合情况并使用较少的判断次数。
预测步骤如下:首先,分析每条轨迹的判定次数比较,对于拟合轨迹集合{σ1,σ2,σ3,σ4,σ5,σ6,σ7,σ8},判定时需要判定每个位置顺序的活动合规才可以最终判断出该轨迹为拟合轨迹,在对于{σ9,σ10,σ11,σ12}轨迹序列进行判断时,按照离线阶段构建的决策树进行判断,一开始判断第7个活动的节点,对于轨迹σ9,σ10,σ12发生了位置偏移,在进行第一次判断时即可判断出该轨迹的拟合情况,对于轨迹σ11由于只是产生了序列顺序的错位而没有长度上的变化,当按照决策树判断时,在第一个活动判断时未发现异常活动,所以进行第二层的判断,发现偏移活动,比较结束,算法结束。
经过上述分析,虽然对于拟合轨迹的判断没有较大效率的提升,但是在对于异常轨迹判定时,一般在前几次的比较过程中即可完成判断过程给出判断结果。相比较于顺序从第一个活动比较至存在异常的活动判断出合规性,该方法有效的提高了判断的效率。在理论方面分析为:基于活动顺序决策树的业务流程合规性检查方法,对于特征的提取以及对于决策树的构建都是离线进行的,要遍历整个日志进行决策树的生成,所以在此阶段会花费一定的时间,但此操作只进行一次。在利用决策树进行拟合判定时,有很高的检索判断速度,其原因之一为在离线阶段进行了决策树的构建,从而在检索判断时只需简单的比较。
为此,基于活动顺序决策树能够提高业务流程合规性检查的判定效率。
对以上数据进行分析,虽然基于该决策树的判断之后可达到准确率为100%的判断效果,但由于上述事件日志中轨迹的活动数较少,生成的决策树深度可以控制在较低的层数,当活动过多,通过这些数据训练所得的决策树会变得复杂,深度和宽度会变得很大。根据经验表明,树的规模增大不一定会得到更准确的分类效果,不仅会使得决策树解释起来比较困难,甚至会对数据的训练出现过拟合的情况。所以,对决策树进行剪枝是有必要的,剪枝的作用不仅可以简化树的结构,而且可以减少对比时间。
降低决策树结构复杂性的方法有很多,最有效方便的方法则是对决策树的剪枝处理,剪枝作为停止分支的方法之一,既可以防止过拟合问题的出现,又可以对树的结构进行简化,较少的分类规则可以减少对比时间,提高决策树的效率,决策树的剪枝分为预剪枝和后剪枝,预剪枝又叫先剪枝,是提前停止决策树的增长,后剪枝是在构建完成决策树之后在进行剪枝,首先在训练阶段让决策树充分生长生成完整的决策树,然后在按照不同的标准自下而上的在对决策树修剪。虽然后剪枝可以使得后剪枝决策树生长的更充分,泛化能力也会高于先剪枝决策树,但是后剪枝决策树因为是对决策树训练完成后在进行剪枝操作算法的复杂度以及时间复杂度会大于先剪枝决策树。
预剪枝的方法是在生长的过程中通过限制决策树的完全生长,没有后剪枝一样多余的开销,所以会大大提高算法的效率,适合于大规模问题的解决。在进行大规模事件日志合规性检查时,采用预剪枝的操作抑制树规模的增大,提高查找判断的效率。
在决策树训练时,一般需要对其进行剪枝操作,从奥卡姆剃刀原理分析剪枝,奥卡姆剃刀原理基本含义为“如无必要,勿增实体”,其核心意义为不要将问题人为的更加复杂化。
决策树剪枝就是对该原理的应用,去除冗余的判断规则,使得决策树不仅可以清晰的表示,而且还有更高的执行效率。由于上文中决策树结点太多并且存储空间太大,对上文中拟合判断的决策树进行剪枝操作,所以引入基于关键活动的精简决策树判断。
在上文中对于关键活动给出了定义,并给出关键活动与轨迹拟合的关系,在异常轨迹中由于异常活动的存在导致轨迹中活动存在顺序上的偏移并存在长度上的变化,所以轨迹中关键活动会发生错位。因此把关键活动作为属性,构建决策树对轨迹进行判断。该方法与上述决策树相比,在决策树规模方面,大大的降低了树的深度和树的宽度,并因此提高了决策树构建和检测的效率。
该步骤3具体为:将划分属性由全部属性转为只使用关键活动所对应属性进行剪枝操作,根据关键活动优先级进行最优分类属性(最优分类属性选择是在进行决策树递归构建时每次选择一个最优分类属性生成树节点)的选择。迭代选择最优属性生成树节点,并将选择的最优分类属性在属性集合中去除,不断迭代,直至属性集合为空,即遍历完所有关键活动,实现一颗分类决策树。决策树构造的过程具体为:首先对决策树进行初始化操作生成初始根节点,执行决策树节点插入操作,决策树节点插入函数为递归函数,循环递归执行决策树节点插入,直至属性集合为空,建成决策树。
决策树的初始化步骤如下:
输入:关键活动集合;输出:树节点;
步骤3.1.1.创建新的树节点;
步骤3.1.2.选择优先级最大的关键活动属性作为根节点,设置根节点的名字,并设置其属性特征值Liatts;
步骤3.1.3.执行决策树节点的插入。
决策树节点插入步骤如下:
输入:树节点;输出:决策树。
步骤3.2.1.遍历属性特征值,重复执行下述步骤3.2.2-步骤3.2.8;
步骤3.2.2.判断属性集合不为空,执行步骤3.2.3-步骤3.2.5;
步骤3.2.3.创建新的树节点;
步骤3.2.4.设置其节点名称,父节点以及所属父节点的哪个属性分支,设置其属性特征值,并将该节点插入决策树中;
步骤3.2.5.递归执行决策树的节点插入;
步骤3.2.6.判断属性集合为空,执行步骤3.2.7-步骤3.2.8;
步骤3.2.7.创建新的树节点;
步骤3.2.8.设置该节点为叶子节点作判断节点,节点名称为yes,插入决策树中;
步骤3.2.9.遍历完属性特征执行步骤3.2.10-步骤3.2.11;
步骤3.2.10.创建树节点;
步骤3.2.11.设置该节点为叶子节点作判断节点,节点名称为no,插入决策树中;
步骤3.2.12.结束,返回决策树。
上述两个方法为决策树构建过程,包括决策树的初始化及其节点插入,最终输出决策树,决策树的初始化方法对节点插入函数进行调用,节点插入方法包括一层循环,循环次数为属性可取特征值,所以算法的时间复杂度为O(n),n表示为属性可取特征值。
本发明利用决策树可提高业务流程合规性检查的判定效率,具体分析如下:
对于异常轨迹,由于存在着各种不同的异常活动,所以轨迹中活动的顺序以及轨迹的长度会发生长短的变化,因此在异常活动后的后继活动均发生顺序上的错位。其中,关键活动可将事件活动分为几部分,第m个关键活动和其相邻关键活动之间如果发生异常活动,则该相邻关键活动(m+1)关键活动位置的活动将会出现偏移。所以只需对该关键活动判定一次便可判断出异常轨迹,而对于整个事件来说,当事件中发生偏移出现异常活动时,所以对于事件中最后一个关键活动(即靠近结束活动的关键活动)会发生错位。首先,对该活动进行判断会大大缩短拟合判断过程中的判断次数,对于异常轨迹大多会出现轨迹长度的变化,所以利用该特性,可以大大提高业务流程判定的效率。
步骤4.在决策树上重演实际业务流程中提取的拟合事件日志中添加异常轨迹的事件日志或者重演实际业务流程中产生的新事件日志,对事件日志中每条轨迹,根据决策树内部决策节点不断判断轨迹中每个位置的活动是否合规,最终输出叶节点的预测标签,即业务流程合规性预测结果。
此外,本发明还进行了实验,以验证本发明所提方法的有效性。其中,实验中对业务流程合规性检查的效率以及准确率进行分析,本次实验对比指标有以下两个:
(1)准确率:将判断结果与标签进行对比,若判断结果与标签一致则预测正确,反正判断错误,准确率为判断正确的个数与数据总数之比。(2)对比次数:在进行合规性检查时活动间的判断次数。对比次数体现了算法的运行效率,对比次数越少则算法的效率越高。
I.实验设置。
以地震应急处置流程模拟数据,通过手工生成异常轨迹数据,对本发明方法与已有的按照活动顺序进行业务流程合规性检查方法对比,进行实验对比两个指标。
实验中数据集为地震应急处置模型运行生成的事件日志,训练数据为该模型运行生成的完全拟合的事件日志,其中,轨迹的长度为5-8,测试集为在完全拟合的事件日志基础上添加异常轨迹,按照比例添加存在丢失、额外、错位、重复活动的异常轨迹。
在进行测试实验时,按照异常轨迹在数据集中不同比例生成多个测试集,从5%到30%,梯度为5%,每次增加5%的异常轨迹,每个测试集进行20次重复实验,求平均值,计算准确率及对比次数。将本发明提出的算法与传统方法进行对比。
为了验证本发明基于活动顺序决策树的业务流程合规性检查方法的有效性以及在真实数据集上的效果,再次对真实事件日志进行实验,并给出实验结果。
II.实验环境。
本实验首先使用Python对数据进行处理,并使用Excel对于数据进行汇总,并在Java环境下进行算法的对比,最终实现实验对比。实验中软硬件环境配置信息如表5所示。
表5实验环境
III.基于人工数据的实验结果分析。
本次实验对比了本发明方法与传统方法进行业务流程合规性检查方法,对比平均比较次数与准确率,实验结果如图3和图4所示。
由图3和图4得知,平均比较次数在趋势上相对稳定,随着异常轨迹占比的增加,平均比较次数稳定在相对水平,传统方法的比较次数为5-6次,本发明方法次数稳定在2-3次,受异常轨迹占比的影响较小。另外,传统方法的准确率稳定在很高水平,准确率高达98%以上,本发明方法在无异常轨迹加入时,即在训练阶段,准确率为100%,随着异常轨迹加入,测试阶段的准确率有明显下降,但下降后准确率稳定在92%-94%的成功率。
虽然在准确率方面在加入异常轨迹后本发明方法有下降趋势,但仍然保持在92%-94%之间,准确率仍然较高。另外,通过对比平均比较次数,本发明方法比较次数有显著优势,因而大大的降低了方法的运行时间。根据上述实验结果看出,随着异常轨迹在数据集中的增加,准确率与平均比较次数相对稳定,基本稳定在某一相对水平,在一定程度上反映了本发明方法的稳定性,可以适用于大小数据集不等,事件日志中异常轨迹比例不同的情况。
IV.基于真实数据分析。
在第III部分中,对地震应急流程的模拟数据进行实验,最终得出实验数据,并进行可视化处理展示。结果显示基于决策树的业务流程的合规性检查方法在保证较高准确率的情况下,大大的降低了比较次数,缩短了方法运行时间。为了验证在真实数据集上的效果,在此基础之上对真实数据集进行实验。表6为真实日志数据的数据分析。
表6真实事件日志数据分析
根据真实事件日志对其分别添加不同比例异常轨迹,使用本发明方法与传统方法对其进行合规性检查,比较对比次数及准确率,平均比较次数如图5与图6所示。
图5与图6记录了两个数据集在进行业务流程合规性检查时决策树算法与传统算法平均对比次数的比较,图7与图8记录了两个数据集准确率的比较。
从两个真实案例数据集的结果看出,本发明决策树方法在平均比较次数方面其比较次数将近为传统方法的一半,平均比较次数又反映了方法的运行时间,实验结果表明本发明方法能够在较快的时间下完成实验,因此效率较高,另外,通过对于准确率对比,本发明决策树方法在真实案例中准确率相比较模拟数据数据集基础之上稍有增加,稳定在95%左右。
通过以上实验不难发现,本发明基于决策树的业务流程合规性检查方法,运行效率大幅提升,说明本发明方法在真实数据上能够很好的完成合规性检查,应用本发明方法来处理复杂真实数据和事件日志的合规性检查时,其运行效率较高,准确率在可接受范围内。
此外,本发明还提出了一种用于实现上述基于活动顺序决策树的业务流程合规性检查方法的计算机设备。该计算机设备包括存储器和一个或多个处理器。其中,在存储器中存储有可执行代码,处理器执行可执行代码时,用于实现上述业务流程合规性检查方法。
本实施例中计算机设备为任意具备数据数据处理能力的设备或装置,此处不再赘述。
此外,本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述基于活动顺序决策树的业务流程合规性检查方法。
该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元,例如硬盘或内存,也可以是任意具备数据处理能力的设备的外部存储设备,例如设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (7)
1.基于活动顺序决策树的业务流程合规性检查方法,其特征在于,包括如下步骤:
步骤1.对实际业务流程中抽取的完全拟合事件日志进行预处理;
从信息系统中记录的实际业务流程中抽取完全拟合事件日志以及活动,将实际业务流程中抽取的事件日志按照事件的id将抽取出的活动串联成轨迹,按照轨迹中活动的顺序创建活动集合,并将轨迹中的活动按照顺序存放在活动集合中,然后创建属性集合;
步骤2.以各活动集合中元素个数作为属性划分标准进行属性划分,在属性集合构建之后,将活动集合中活动唯一的集合定义为关键活动集合,该活动定义为关键活动,并根据活动位置定义关键活动优先级,活动位置越靠后则优先级越高;
步骤3.根据奥卡姆剃刀原则去除冗余的判断进行预剪枝,再构建决策树;
该步骤具体为:将划分属性由全部属性转为只使用关键活动所对应属性进行剪枝操作,根据关键活动优先级进行最优分类属性的选择,迭代选择最优分类属性生成决策树节点,并将选择的最优分类属性在属性集合中去除;不断迭代,直至属性集合为空,即遍历完所有关键活动,实现一颗分类决策树;决策树的构建过程为:
对决策树进行初始化操作生成初始根节点,执行决策树节点插入操作,决策树节点插入函数为递归函数,循环递归执行决策树节点插入,直至属性集合为空,建成决策树;
步骤4.在决策树上重演实际业务流程中提取的拟合事件日志中添加异常轨迹的事件日志或者重演实际业务流程中产生的新事件日志,对事件日志中每条轨迹,根据决策树内部决策节点不断判断轨迹中每个位置的活动是否合规,最终输出叶节点的预测标签,即业务流程合规性预测结果。
2.根据权利要求1所述的基于活动顺序决策树的业务流程合规性检查方法,其特征在于,
所述步骤1具体为:
输入:事件日志数据集;输出:属性集合;
步骤1.1.遍历整个事件日志,并重复执行下述步骤1.2-步骤1.3;
步骤1.2.对于没有生成轨迹字典的事件创建轨迹字典;
步骤1.3.将事件日志中的活动依次串联成轨迹;
步骤1.4.对上述步骤1.3生成的轨迹进行遍历,并重复执行下述步骤1.5-步骤1.8;
步骤1.5.判断每个位次上的活动集合是否创建;未创建,则执行步骤1.6;
步骤1.6.创建活动集合;
步骤1.7.将轨迹中的活动按照顺序存放在获得集合中;
步骤1.8.创建属性集合,并将活动集合赋值给属性集合;
步骤1.9.结束,得到属性集合。
3.根据权利要求2所述的基于活动顺序决策树的业务流程合规性检查方法,其特征在于,
所述步骤2中,关键活动提取过程为:
输入:属性集合;输出:关键活动集合;
步骤2.1.遍历属性集合,重复执行下述步骤2.2-步骤2.4;
步骤2.2.判断活动集合的元素个数为1,执行步骤2.3;
步骤2.3.将活动数为1的活动定义在关键活动集合;
步骤2.4.结束,得到关键活动集合。
4.根据权利要求3所述的基于活动顺序决策树的业务流程合规性检查方法,其特征在于,
所述步骤3中,决策树的初始化步骤如下:
输入:关键活动集合;输出:树节点;
步骤3.1.1.创建新的树节点;
步骤3.1.2.选择优先级最大的关键活动属性作为根节点,设置根节点的名字,并设置其属性特征值Liatts;
步骤3.1.3.执行决策树节点的插入。
5.根据权利要求4所述的基于活动顺序决策树的业务流程合规性检查方法,其特征在于,
所述步骤3中,决策树节点插入步骤如下:
输入:树节点;输出:决策树;
步骤3.2.1.遍历属性特征值,重复执行下述步骤3.2.2-步骤3.2.8;
步骤3.2.2.判断属性集合不为空,执行步骤3.2.3-步骤3.2.5;
步骤3.2.3.创建新的树节点;
步骤3.2.4.设置其节点名称,父节点以及所属父节点的哪个属性分支,设置其属性特征值,并将该节点插入决策树中;
步骤3.2.5.递归执行决策树的节点插入;
步骤3.2.6.判断属性集合为空,执行步骤3.2.7-步骤3.2.8;
步骤3.2.7.创建新的树节点;
步骤3.2.8.设置该节点为叶子节点作判断节点,节点名称为yes,插入决策树中;
步骤3.2.9.遍历完属性特征执行步骤3.2.10-步骤3.2.11;
步骤3.2.10.创建树节点;
步骤3.2.11.设置该节点为叶子节点作判断节点,节点名称为no,插入决策树中;
步骤3.2.12.结束,返回决策树。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现权利要求1至5任一项所述的基于活动顺序决策树的业务流程合规性检查方法。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,当该程序被处理器执行时,用于实现权利要求1至5任一项所述的基于活动顺序决策树的业务流程合规性检查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920275.1A CN115345458A (zh) | 2022-08-02 | 2022-08-02 | 业务流程合规性检查方法、计算机设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920275.1A CN115345458A (zh) | 2022-08-02 | 2022-08-02 | 业务流程合规性检查方法、计算机设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115345458A true CN115345458A (zh) | 2022-11-15 |
Family
ID=83950715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210920275.1A Pending CN115345458A (zh) | 2022-08-02 | 2022-08-02 | 业务流程合规性检查方法、计算机设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115345458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116225513A (zh) * | 2023-05-09 | 2023-06-06 | 安徽思高智能科技有限公司 | 一种基于概念漂移的rpa动态流程发现方法及系统 |
CN116777191A (zh) * | 2023-08-18 | 2023-09-19 | 安徽思高智能科技有限公司 | 一种基于因果推断的流程决策依赖构建方法及存储介质 |
-
2022
- 2022-08-02 CN CN202210920275.1A patent/CN115345458A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116225513A (zh) * | 2023-05-09 | 2023-06-06 | 安徽思高智能科技有限公司 | 一种基于概念漂移的rpa动态流程发现方法及系统 |
CN116225513B (zh) * | 2023-05-09 | 2023-07-04 | 安徽思高智能科技有限公司 | 一种基于概念漂移的rpa动态流程发现方法及系统 |
CN116777191A (zh) * | 2023-08-18 | 2023-09-19 | 安徽思高智能科技有限公司 | 一种基于因果推断的流程决策依赖构建方法及存储介质 |
CN116777191B (zh) * | 2023-08-18 | 2023-11-03 | 安徽思高智能科技有限公司 | 一种基于因果推断的流程决策依赖构建方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427720B (zh) | 系统日志分类方法 | |
US7801924B2 (en) | Decision tree construction via frequent predictive itemsets and best attribute splits | |
CN115345458A (zh) | 业务流程合规性检查方法、计算机设备以及可读存储介质 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN110188196B (zh) | 一种基于随机森林的文本增量降维方法 | |
CN113268370B (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN113342597B (zh) | 一种基于高斯混合隐马尔可夫模型的系统故障预测方法 | |
Nama et al. | Implementation of K-Means Technique in Data Mining to Cluster Researchers Google Scholar Profile | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
US11403304B2 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
CN108038211A (zh) | 一种基于上下文的无监督关系数据异常检测方法 | |
CN113742396A (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN114912435A (zh) | 基于频繁项集算法的电力文本知识发现方法及设备 | |
CN112926627A (zh) | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 | |
CN116975634A (zh) | 一种基于程序静态属性及图神经网络的微服务提取方法 | |
CN117290404A (zh) | 一种主配网故障处理方法快速检索实用方法及系统 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN111723021B (zh) | 一种基于知识库和表示学习的缺陷报告自动分派方法 | |
CN117291575A (zh) | 设备检修方法、装置、计算机设备和存储介质 | |
CN112286799A (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN115345163A (zh) | 一种基于故障数据的外场质量分析方法及系统 | |
CN110413602B (zh) | 一种分层清洗式大数据清洗方法 | |
CN114239553A (zh) | 基于人工智能的日志审核方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |