CN105117430A - 一种基于等价类的重复任务过程发现方法 - Google Patents
一种基于等价类的重复任务过程发现方法 Download PDFInfo
- Publication number
- CN105117430A CN105117430A CN201510478613.0A CN201510478613A CN105117430A CN 105117430 A CN105117430 A CN 105117430A CN 201510478613 A CN201510478613 A CN 201510478613A CN 105117430 A CN105117430 A CN 105117430A
- Authority
- CN
- China
- Prior art keywords
- task
- tasks
- net
- iterative
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Stored Programmes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于等价类的重复任务过程发现方法,通过扩展事件次序关系定义,提出等价类划分同一任务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段对不同的同一任务子集重命名,以达到消除重复任务的目标。其首先读取标准的业务过程XES文件,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型。该方法具有解决较高的处理包含短循环结构、多前驱后继和重复任务过程发现问题的能力,且该方法能保证挖掘结果是正确合理的。
Description
技术领域
本发明涉及数据处理领域,更具体地,涉及一种基于等价类的重复任务过程发现方法。
背景技术
当前,基于分布式计算、物联网和服务计算等环境的各类信息系统,都存在大量记录业务执行过程的日志数据。过程挖掘技术通过分析这些日志,发现有价值的知识,帮助改进原有业务流程。过程发现是过程挖掘的核心技术,即如何从日志发现业务过程模型。通常业务模型包括顺序、并行、选择、循环、非自由选择、隐含任务和重复任务等控制流结构。控制流结构挖掘能力,即从事件日志中构造能描述活动执行关系的过程模型,是衡量过程发现技术的核心指标。
佩特网(Petrinet)理论是过程发现技术生成模型的主流表示方法。工作流网(WorkflowPetrinet,WF-net)是指用来表示过程模型的控制流维度的Petrinet,控制流维度是指支持业务过程建模的构造块,如顺序、选择、并行和循环等结构。当采用WF-net表示一个业务过程模型,那么业务活动采用变迁、活动间的因果依赖关系采用库所和连接弧表示。结构化工作流网(StructuredWorkflowPetrinet,SWF-net)是WF-net的一个子类。如果一个WF-net不是合理的SWF-net,那么过程模型可能不正确执行和不能准确反映日志的事件序列。
基于WF-net的方法通过拓展任务次序依赖关系来识别常见过程结构。可发现合理的结构化WF-net(SWF-net)。WF-net算法一般分为提取、推导和构建阶段。重复任务是指在过程模型中具有相同名称的不同变迁。现有重复任务发现方法研究多采用预处理、处理中和处理后的方法,在预处理阶段提取和推导出任务次序依赖关系,识别重复任务,然后对日志中的重复任务更名,处理中阶段采用WF-net算法构建WF-net模型,处理后阶段再恢复重复任务原名称。
现有技术中,李嘉菲提出的方法1是采用机器学习技术,通过比较给定任务的直接前驱和后继任务表(P/S表),识别重复任务,算法可在包含顺序、并行、选择结构的日志中发现重复任务,但不能处理包含短循环结构的日志。算法没有证明生成模型是SWF-net,因此结果可能不合理。陈信敏提出方法2采用扩展方法来处理包含重复任务和非自由选择结构的日志,但仍没有解决方法1的问题。顾春琴和叶小虎提出方法3和4,引入了包围任务概念,认为被相同前驱和后继包围的轨迹序列中出现的任务都不是重复任务,虽然能识别部分包含短循环结构的日志,但没有考虑同名任务出现在不同轨迹,且没有处理多个前驱和后继的包围情况,算法正确性也没有证明。
上述方法1不能解决包含短循环结构的重复任务识别问题,原因在于机器学习的启发规则能力不足,此外由于没有采用形式化理论来表示生成模型,因此挖掘结果可能不合理;方法2通过扩展启发规则来识别非自由选择结构,但仍没有解决方法1的不足;方法3和4只能处理部分情形的短循环和重复任务发现问题,原因在于没有考虑重复任务出现在不同执行轨迹的情形,且没有处理多个前驱和后继的包围情况。
发明内容
本发明为克服上述现有技术所述的至少一种不足,提供一种基于等价类的重复任务过程发现方法,可从包含顺序、并行、选择、短循环结构和重复任务的业务过程日志数据中,发现正确、合理的业务过程模型。该方法具有解决较高的处理包含短循环结构、多前驱后继和重复任务过程发现问题的能力,且该方法能保证挖掘结果是正确合理的。
为解决上述技术问题,本发明的技术方案如下:
实现本发明的技术思路是:通过扩展事件次序关系定义,提出等价类划分同一任务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段对不同的同一任务子集重命名,以达到消除重复任务的目标。
一种基于等价类的重复任务过程发现方法,读取标准的业务过程XES文件,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型;
采用次序依赖关系定义和判定定理检测重复任务的具体过程如下:
(1)从XES日志W中提取任务集合T_W;
(2)从XES日志W中提取首任务集合T_I和末任务集合T_O;
(3)根据次序依赖关系定义从T_W、T_I和T_O提取任务间的次序依赖关系;
(4)初始化多次任务集合T_M和T_C;
(5)初始化重复任务日志W_D和任务集合T_D;
(6)根据次序依赖关系定义建立同结构任务集合ST_D;
(7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery;
(8)采用第三方过程发现方法构建WF-net模型;
(9)对WF-net模型恢复重复任务名称;
(10)结束;
所述步骤(7)中方法Discovery的具体步骤如下:
(7.1)读入重复任务日志W_D、任务集合T_D、多次任务集合T_M和同结构任务集合ST_D;
(7.2)T_M中是否还有未检测任务t;
(7.2.1)没有未检测任务t,跳转至步骤(7.3);
(7.2.2)有未检测任务t,则建立未检测任务t的同名事件集合,并对每个同名事件构建前驱/后继表,即P/S表;把P/S表的每个元素初始化为集合,选取任意两个集合,采用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并为止,结果保存至同一任务集合X;如果X中的元素个数大于1个,说明存在重复任务,就对W_D中,未检测任务t的同名事件进行更名操作;跳转至步骤(7.2.1);
(7.3)输出新的日志W_D和任务集合T_D。
与现有技术相比,本发明技术方案的有益效果是:
与方法1和方法2相比,本发明采用的检测重复任务方法是依据同一任务判定定理,这保证了挖掘得到的模型必定是正确合理的,而且当挖掘其他更复杂的结构时,只要引入新的定理,那么方法的挖掘能力就能提高,而且挖掘结果的合理性得到保证,本方法的扩展性更好;
与方法3和方法4相比,本发明提出了包括短循环和并行结构的同结构定义,并提出了非局部依赖关系和局部依赖关系的判定同一任务定理规则,可处理多个前驱和后继的包围情况。
附图说明
图1为实现为软件插件的系统模型示意图。
图2为本发明的流程图。
图3为本发明步骤中方法Discovery的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
实现本发明的技术思路是:通过扩展事件次序关系定义,提出等价类划分同一任务子集的判定定理,在预处理阶段,通过把具有正确依赖次序关系的同名事件划分为同一任务等价类子集,在处理中阶段采用短循环过程发现算法生成WF-net模型,在处理后阶段对不同的同一任务子集重命名,以达到消除重复任务的目标。
本发明可采用Java、C等程序设计语言实现为独立运行的软件或者其他软件插件,附图1为实现为软件插件的系统模型。
本发明首先读取标准的业务过程XES文件,本发明的方法运算时,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型。
本发明运算实现步骤包括如下,参见附图2:
(1)从XES日志W中提取任务集合T_W;
(2)从XES日志W中提取首任务集合T_I和末任务集合T_O;
(3)根据次序依赖关系定义从T_W、T_I和T_O提取任务间的次序依赖关系;
(4)初始化多次任务集合T_M和T_C;
(5)初始化重复任务日志W_D和任务集合T_D;
(6)根据次序依赖关系定义建立同结构任务集合ST_D;
(7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery;
(8)采用第三方过程发现方法构建WF-net模型;
(9)对WF-net模型恢复重复任务名称。
(10)结束。
本发明的重点为第(7)步的方法Discovery,见附图3,具体实施步骤如下:
(7.1)读入重复任务日志W_D、任务集合T_D、多次任务集合T_M和同结构任务集合ST_D;
(7.2)T_M中是否还有未检测任务t;
(7.2.1)否,跳转至步骤(7.3);
(7.2.2)是
(7.2.2.1)则建立t的同名事件集合,并对每个同名事件构建前驱/后继表(P/S表);
(7.2.2.2)把P/S表的每个元素初始化为集合,选取任意两个集合,采用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并为止,结果保存至同一任务集合X;
(7.2.2.3)如果X中的元素个数大于1个,说明存在重复任务,就对W_D中,t的同名事件进行更名操作;
(7.2.2.4)跳转至(7.2)。
(7.3)输出新的日志W_D和任务集合T_D。
本发明进行了仿真实验,本发明采用Java语言实现为第三方过程发现软件ProM6的方法插件。输入XES日志9个(现有技术的方法1-4均不能处理),本发明成功挖掘出合理的WF-net模型。仿真实验例子特征如下:
表1
编号 | 检测特征 |
N1 | 顺序、短循环1结构和多前驱、多后继任务 |
N2 | 顺序、短循环2结构和多前驱、多后继任务 |
N3 | 顺序、短循环1结构和短循环1前驱后继任务 |
N4 | 顺序、短循环2结构和短循环1前驱后继任务 |
N5 | 多个短循环1结构和多前驱后继任务 |
N6 | 顺序结构和并行前驱后继任务 |
N7 | 顺序、短循环2结构和并行前驱后继任务 |
N8 | 短循环1、短循环2结构和多前驱后继任务 |
N9 | 短循环1、短循环2结构和长循环前驱后继任务 |
本发明在实现过程中的提取同名事件依赖关系的方法
现有方法在发现重复任务前,都采用建立同名事件的前驱和后继表(P/S)来表示多个同名事件间的依赖关系。本发明建立同名事件P/S表时,如果该同名事件属于同结构任务,则提取其非局部依赖关系,否则提取其局部依赖关系,这样解决了循环结构的同名事件判定。而方法1和方法2直接使用局部依赖关系,造成重复任务判定规则繁多、无法证明挖掘模型合理性;方法3和方法4引入了包围任务概念,但没有处理多个前驱和后继的包围情况,挖掘能力不足。
基于同一任务等价类子集划分的重复任务发现方法
对于发现重复任务,本发明的方案为:基于等价类思想,判断两个同名任务是否可与其他任务构成合理的SWF-net,若是则为同一任务,即同个变迁;否则为重复任务,即不同变迁。本发明的方案基于任务次序依赖关系,判定规则基于WF-net理论,通过理论证明了有效性,生成的模型必定是合理的SWF-net。方法1和2采用对比两个同名任务的前驱和后继任务的方案,判定规则没有理论基础,生成的模型无法保证合理性;方法3和4基于包围任务的思想,采用对比两个同名任务是否符合次序依赖关系的方案,判定规则不能处理多个前驱和后继的包围情况,没有证明生成的模型是合理的。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于等价类的重复任务过程发现方法,其特征在于,读取标准的业务过程XES文件,采用次序依赖关系定义和判定定理检测重复任务,输出采用WF-net表示的业务过程模型;
采用次序依赖关系定义和判定定理检测重复任务的具体过程如下:
(1)从XES日志W中提取任务集合T_W;
(2)从XES日志W中提取首任务集合T_I和末任务集合T_O;
(3)根据次序依赖关系定义从T_W、T_I和T_O提取任务间的次序依赖关系;
(4)初始化多次任务集合T_M和T_C;
(5)初始化重复任务日志W_D和任务集合T_D;
(6)根据次序依赖关系定义建立同结构任务集合ST_D;
(7)根据同一任务子集判定定理检测和更名重复任务,运行方法Discovery;
(8)采用第三方过程发现方法构建WF-net模型;
(9)对WF-net模型恢复重复任务名称;
(10)结束;
所述步骤(7)中方法Discovery的具体步骤如下:
(7.1)读入重复任务日志W_D、任务集合T_D、多次任务集合T_M和同结构任务集合ST_D;
(7.2)T_M中是否还有未检测任务t;
(7.2.1)没有未检测任务t,跳转至步骤(7.3);
(7.2.2)有未检测任务t,则建立未检测任务t的同名事件集合,并对每个同名事件构建前驱/后继表,即P/S表;把P/S表的每个元素初始化为集合,选取任意两个集合,采用同一任务集合判定定理进行比较,如果两个集合为同一任务集合则合并,直到不能合并为止,结果保存至同一任务集合X;如果X中的元素个数大于1个,说明存在重复任务,就对W_D中,未检测任务t的同名事件进行更名操作;跳转至步骤(7.2.1);
(7.3)输出新的日志W_D和任务集合T_D。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510478613.0A CN105117430B (zh) | 2015-08-06 | 2015-08-06 | 一种基于等价类的重复任务过程发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510478613.0A CN105117430B (zh) | 2015-08-06 | 2015-08-06 | 一种基于等价类的重复任务过程发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105117430A true CN105117430A (zh) | 2015-12-02 |
CN105117430B CN105117430B (zh) | 2018-07-31 |
Family
ID=54665420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510478613.0A Expired - Fee Related CN105117430B (zh) | 2015-08-06 | 2015-08-06 | 一种基于等价类的重复任务过程发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105117430B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909344A (zh) * | 2017-11-21 | 2018-04-13 | 杭州电子科技大学 | 基于关系矩阵的工作流日志重复任务识别方法 |
CN108717625A (zh) * | 2018-05-28 | 2018-10-30 | 北京交通大学 | 铁路电务工作流的生成方法 |
CN110287176A (zh) * | 2019-05-31 | 2019-09-27 | 国网上海市电力公司 | 一种基于次序依赖的电力数据序列数组优化方法 |
CN110825784A (zh) * | 2019-11-04 | 2020-02-21 | 云南电网有限责任公司电力科学研究院 | 一种低效业务过程的检测方法及装置 |
CN114004712A (zh) * | 2021-11-01 | 2022-02-01 | 哈尔滨工业大学 | 一种基于事件日志的服务价值链构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002073530A1 (en) * | 2001-03-07 | 2002-09-19 | Rockwell Scientific Company, Llc | Data mining apparatus and method with user interface based ground-truth tool and user algorithms |
CN101702172A (zh) * | 2009-11-10 | 2010-05-05 | 大连理工大学 | 一种基于类-属性关系依赖度的数据离散化方法 |
CN103761157A (zh) * | 2014-01-21 | 2014-04-30 | 国家电网公司 | 一种基于多任务巡检策略实现系统容错机制的方法 |
-
2015
- 2015-08-06 CN CN201510478613.0A patent/CN105117430B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002073530A1 (en) * | 2001-03-07 | 2002-09-19 | Rockwell Scientific Company, Llc | Data mining apparatus and method with user interface based ground-truth tool and user algorithms |
CN101702172A (zh) * | 2009-11-10 | 2010-05-05 | 大连理工大学 | 一种基于类-属性关系依赖度的数据离散化方法 |
CN103761157A (zh) * | 2014-01-21 | 2014-04-30 | 国家电网公司 | 一种基于多任务巡检策略实现系统容错机制的方法 |
Non-Patent Citations (1)
Title |
---|
农修德 等: "新的等价类生成算法——生成支法", 《计算机应用研究》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909344A (zh) * | 2017-11-21 | 2018-04-13 | 杭州电子科技大学 | 基于关系矩阵的工作流日志重复任务识别方法 |
CN107909344B (zh) * | 2017-11-21 | 2020-07-17 | 杭州电子科技大学 | 基于关系矩阵的工作流日志重复任务识别方法 |
CN108717625A (zh) * | 2018-05-28 | 2018-10-30 | 北京交通大学 | 铁路电务工作流的生成方法 |
CN110287176A (zh) * | 2019-05-31 | 2019-09-27 | 国网上海市电力公司 | 一种基于次序依赖的电力数据序列数组优化方法 |
CN110825784A (zh) * | 2019-11-04 | 2020-02-21 | 云南电网有限责任公司电力科学研究院 | 一种低效业务过程的检测方法及装置 |
CN110825784B (zh) * | 2019-11-04 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种低效业务过程的检测方法及装置 |
CN114004712A (zh) * | 2021-11-01 | 2022-02-01 | 哈尔滨工业大学 | 一种基于事件日志的服务价值链构建方法 |
CN114004712B (zh) * | 2021-11-01 | 2023-09-01 | 哈尔滨工业大学 | 一种基于事件日志的服务价值链构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105117430B (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ni et al. | A cluster based feature selection method for cross-project software defect prediction | |
CN105117430A (zh) | 一种基于等价类的重复任务过程发现方法 | |
US8930919B2 (en) | Modernization of legacy software systems based on modeled dependencies | |
CN102253889B (zh) | 一种回归测试中基于分布的测试用例优先级划分方法 | |
WO2016049307A1 (en) | Method and system for implementing efficient classification and exploration of data | |
EP3198478A1 (en) | Method and system for implementing efficient classification and exploration of data | |
Lu et al. | Complex reachability trees and their application to deadlock detection for unbounded Petri nets | |
CN102298681B (zh) | 一种基于数据流切片的软件识别方法 | |
CN103902582B (zh) | 一种减少数据仓库数据冗余的方法和装置 | |
CN103166942A (zh) | 一种恶意代码的网络协议解析方法 | |
Orzan et al. | A state space distribution policy based on abstract interpretation | |
Vázquez-Barreiros et al. | Enhancing discovered processes with duplicate tasks | |
Eyal-Salman et al. | Identifying traceability links between product variants and their features | |
US11281458B2 (en) | Evaluation of developer organizations | |
Han et al. | A heuristic model-based test prioritization method for regression testing | |
Chhabra | Search-based object-oriented software re-structuring with structural coupling strength | |
Rahmawati et al. | Comparison of behavioral similarity use TARs and Naïve algorithm for calculating similarity in business process model | |
CN115250231B (zh) | 应用配置方法及装置 | |
CN101504687A (zh) | 模型检测中的模型抽象方法及其系统 | |
Zhao et al. | Code Refactoring Based on MapReduce in Cloud Migration | |
Law et al. | Fast and memory-efficient invariant computation of ordinary Petri nets | |
CN109754159A (zh) | 一种电网运行日志的信息提取方法及系统 | |
CN109360561A (zh) | 语音控制方法及系统、存储介质、语音模块、主控系统 | |
Wang | Scalable Local Community Detection With Mapreduce for Large Networks | |
CN111652750B (zh) | 一种用户群组的管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180731 Termination date: 20200806 |