CN105468371A

CN105468371A - 一种基于主题聚类的业务流程图合并方法

Info

Publication number: CN105468371A
Application number: CN201510815713.8A
Authority: CN
Inventors: 黄颖; 李伟; 何显文; 赖宏慧
Original assignee: GAN NAN NORMAL COLLEGE
Current assignee: GAN NAN NORMAL COLLEGE; Gannan Normal University
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-04-06
Anticipated expiration: 2035-11-23
Also published as: CN105468371B

Abstract

本发明属于软件工程自动化技术领域，特别涉及一种基于主题聚类的业务流程图合并方法。本发明针对业务过程中过程文档的主题相关性，首先提取流程文档中除流程连接点外的其他类型节点，使用CTM主题模型将流程表示为流程—主题—特征词的三层结构关系，以概率方法对特定领域的流程进行聚类。然后鉴于流程图模型结构，采用高效的子图查找算法，在大量业务流程图中进行流程子图挖掘、处理和分析，找到频繁出现的流程子图，再对频繁子图进行合并，从而达到流程合并的目的。本发明基于理解，降低了合并的出错率，提高了过程合并的效率，减少了用户的工作量。

Description

一种基于主题聚类的业务流程图合并方法

技术领域

本发明属于软件工程自动化技术领域，特别涉及一种基于主题聚类的业务流程图合并方法。

背景技术

业务流程(BusinessProcess)是一组相关的结构化的行为或活动的集合，它有特定的目的，产生特定的服务或产品，从而满足用户的需求。

业务流程管理是以提高产品和服务质量为目的，分析、提高、控制和管理过程的系统化、结构化的方法^[1,2]。

业务流程建模是捕捉组织内部满足特定目标的行为。为了创建和维持业务模型，产生了很多工具如ARIS业务架构^[3]，ADONIS^[4]，BPA和WebSphere业务建模器^[5]。这些工具支持不同的流程建模技术，其中包括：UML活动图、BPMN、Petri网和EPCs^[6]。

建立符合企业发展特色的高效业务流程是现代企业成功与可持续发展的保障，管理好已有的业务流程是企业信息化系统管理的核心。动态性和不确定性是现代企业的业务流程管理过程中存在的两个主要问题，企业合并或重构是导致动态性和不确定性主要原因。

企业合并或重构时，业务流程合并是一个很重要的任务，因为不同企业或部门合并时原先的多个流程可能会精简为单个流程，从而达到精简机构提高效率的目的。业务分析师需要根据情况重新构建业务流程模型，但是这是个费时、费力且容易出错的过程，所以(半)自动业务流程合并具有很高的实用价值。

在流程合并时，基本是针对同一主题的流程进行合并，如医疗流程不可能与学生管理流程合并，只有具有一定相似性的业务流程才有合并的必要。所以在流程合并前，对业务流程进行主题聚类对提高流程合并的效率很有帮助。虽然目前大多数业务流程是以图形结构的形式进行建模，如Petri网、BPMN、EPC等，但是大多数流程合并方法采用的是流程节点相似性对比的方法进行流程合并，但是使用流程主题聚类并结合流程频繁子图发现的方式来辅助流程合并的研究工作并不多见。同时流程图的异构同质现象较少考虑，流程图的异构同质现象是流程的合并过程不可规避的问题。

LaRosa等人用流程中的公共部分合并业务流程模型，提出了基于最大相似区域的流程合并，同时提出判断业务流程合并算法是否合理的三个标准^[7]，但它仍然仅能对两个流程进行合并，没有考虑流程库中存在多个流程的情况，同时没有从图像结构考虑流程图的异构同质现象。

Gottschalk等^[8]合并EPCs流程，但只是考虑了EPC流程中的功能节点，连接点用边替代，事件节点没有考虑。Li等人^[9]提出了另外一种流程合并的方法。Sun等人提出了合并工作流网的块结构^[10]，他们的方法从输入变量与流程活动的映射开始。映射到的活动拷贝到合并的模型当中，两个不同的区域通过一组“合并模式”进行合并。Kuster等人^[11]为解决版本冲突提出了一个流程合并工具，但是他们的方法是手动的。Mendling和Simon^[12]提出了一种合并操作，该方法基于对应部分的映射，把两个不同的EPC流程合并为一个EPC流程，但是没有真正实现改方法。

概率模型与业务流程相关的工作主要来自于服务领域的服务聚类。Aznag等人^[13]提出使用概率模型对Web服务聚类，其最终目的有效的实现Web服务查找。Chen等人^[14]对服务聚类提出了一种新的增量型LDA模型。文献^[15]使用LDA对流程文本进行主题聚类，然后结合流程结构相似性进行流程的主题查找。

目前，挖掘频繁子图的算法和理论已经趋于完善，其中主流的方法之一是基于模式增长的频繁模式挖掘算法，该方法主要应用在扩展大小为k阶的频繁子模式时生成大小为k+1阶的频繁子图的场景，在该算法中主要通过不断地扩大频繁边的规模来扩大频繁子图，，从而避免了巨大的系统开销，gSpan算法是这类算法中比较经典的算法之一。流程频繁子图的发现依赖于流程子图的匹配，流程图的匹配在整个合并过程中起着非常重要的作用，而传统的流程匹配均是以流程相似度计算^{[16,17,18,19]}来实现的。这些研究工作主要基于图编辑距离^[20]，存在计算复杂度高以及转换操作代价函数的不确定性等问题。文献[21]提出使用流程频繁子图进行流程的推荐，从而有效进行流程建模。

文中涉及的参考文献如下：

[1]SantosE,PimentelJ,CastroJ,etal.OntheDynamicConfigurationofBusinessProcessModels[M].Enterprise,Business-ProcessandInformationSystemsModeling.Springer.2012:331-46.

[2]ChangJF.Businessprocessmanagementsystems:strategyandimplementation[M].AuerbachPublications,2005.

[3]Scheer,A.W.,M.Nüttgens.ARISarchitectureandreferencemodelsforbusinessprocessmanagement,Springer,2000.

[4]Mayr,H.C.,etal.Businessprocessmodelingandrequirementsmodeling.DigitalSociety,ICDS'07.FirstInternationalConferenceonthe,IEEE.2007.

[5]Iyengar,A.,etal.).WebSpherebusinessintegrationprimer:Processserver,BPEL,SCA,andSOA,IBMPress.2007.

[6]WeskeM.BusinesProcesManagement:Concepts,Languages,Architectures.BerlinHeidelberg:Springer-Verlag,2007:368

[7]LaRosaM,DumasM,UbaR,etal.Businessprocessmodelmerging:anapproachtobusinessprocessconsolidation[J].ACMTransactionsonSoftwareEngineeringandMethodology(TOSEM),2013,22(2):11.

[8]Gottschalk,F.,vanderAalst,W.M.P.,andJansen-Vullers,M.H.2008.Mergingevent-drivenprocesschains.InProc.ofCoopIS.LNCS,vol.5331.Springer,418–426.

[9]Li,C.,Reichert,M.,andWombacher,A.2010.Theminadeptclusteringapproachfordiscoveringreferenceprocessmodelsoutofprocessvariants.Int.J.CooperativeInf.Syst.19,3-4,159–203.

[10]Sun,S.,Kumar,A.,andYen,J.2006.Mergingworkflows:Anewperspectiveonconnectingbusinessprocesses.DecisionSupportSystems42,2,844–858.

[11]K¨uster,J.,Gerth,C.,F¨orster,A.,andEngels,G.2008b.Atoolforprocessmerginginbusiness-drivendevelopment.InProc.oftheCAiSE’2008Forum.CEURWorkshopProceedings,vol.344.CEUR,89–92.

[12]Mendling,J.andSimon,C.2006.Businessprocessdesignbyviewintegration.InProc.ofBPMWorkshops.LNCS,vol.4103.Springer,55–64.

[13]Nejati,S.,Sabetzadeh,M.,Chechik,M.,Easterbrook,S.,andZave,P.2007.Matchingandmergingofstatechartsspecifications.InProc.ofICSE.IEEEComputerSociety,54–63.

[14]AznagM,QuafafouM,RochdEM,etal.ProbabilisticTopicModelsforWebServicesClusteringandDiscovery.Service-OrientedandCloudComputing.SpringerBerlinHeidelberg,2013:19-33.

[15]Chen,Liang；Wang,Yilun；Yu,Qi；WT-LDA:UserTaggingAugmentedLDAforWebServiceClustering，11thInternationalConferenceonServiceOrientedComputing(ICSOC)，Berlin,GERMANY，LectureNotesinComputerScience8274：162-1762013.

[16]QiaoM,AkkirajuR,RembertAJ.Towardsefficientbusinessprocessclusteringandretrieval:combininglanguagemodelingandstructurematching.BusinessProcessManagement.SpringerBerlinHeidelberg,2011:199-214.

[17]DongenBFV,DijkmanRM,MendlingJ.Measuringsimilaritybetweenbusinessprocessmodels.ProceedingsoftheCAiSE.Montpellier,France,2008:450-464

[18]DijkmanR,DumasM,L.Graphmatchingalgorithmsforbusinessprocessmodelsimilaritysearch[M].Businessprocessmanagement.SpringerBerlinHeidelberg,2009:48-63.

[19]DijkmanR,DumasM,VanDongenB,etal.Similarityofbusinessprocessmodels:Metricsandevaluation[J].InformationSystems,2011,36(2):498-516.

[20]BunkeH.Onarelationbetweengrapheditdistanceandmaximumcommonsubgraph.PatternRecognitionLetters,1997,18(8):689-694.

[21]LiY,CaoB,XuL,etal.Anefficientrecommendationmethodforimprovingbusinessprocessmodeling[J].VOL.10,NO.1,FEBRUARY2014.502-513.

发明内容

针对上述业务流程合并方法中存在的问题，本发明的目的是提供一种基于主题聚类的业务流程图合并方法。首先使用CTM(CorrelatedTopicModel)主题模型从业务流程文档中抽取其所包含的潜在主题，进而将这些流程文档聚类为不同的主题类簇。然后鉴于流程图模型结构，采用gSpan算法，在大量业务流程图中进行流程子图挖掘、处理和分析，找到频繁出现的流程子图，再对频繁子图进行合并，从而达到流程合并的目的。该方法可以对通过EPC、BPMN和OWL-S等方式建模的业务流程进行聚类，具有普适性。

本发明采用如下技术方案：

一种基于主题聚类的业务流程图合并方法，包括以下步骤：

步骤1，将流程库中的业务流程视为文档，对流程文档进行预处理；

步骤2，使用CTM对步骤1所得的流程文档进行主题聚类；

步骤3，使用高效子图查找算法，结合频繁图的定义得到频繁流程子图；

步骤4，根据步骤3所得结果，对频繁流程子图进行合并，从而得到合并后的业务流程。

步骤1具体方法包括以下子步骤：

步骤1.1，对流程文档进行解析，抽取文档中的所有单词；

步骤1.2，根据单词的词性，将除动词和名词之外的词过滤掉；

步骤1.3，对步骤1.2的结果进行关键词词干化处理，即除去词的前后缀，得到词的原型。

步骤2具体方法包括以下子步骤：

步骤2.1，使用基于逻辑正态分布(logisticnormaldistribution)的CTM方法得到每个业务流程文档与其所包含的潜在主题的概率分布；

步骤2.2，找到这个业务流程所包含的主题概率的最大值，将其聚类到该主题对应的主题类簇中；

步骤2.3，重复步骤2.2，直到将特定领域内所有流程文档聚类到T个主题类簇中。

步骤3具体方法包括以下子步骤：

步骤3.1，针对步骤2主题聚类后的流程，将原始业务流程转换为流程结构图；

步骤3.2，使用gSpan算法挖掘同一主题下业务流程子图，同时解决了流程图的异构同质问题；

步骤3.3，发现业务流程子图集合内的频繁流程子图(即频繁流程片段)集合。

所述步骤4包括以下子步骤，

步骤4.1，两个业务流程结构图G₁、G₂，查找G₁、G₂能够合并的边，剔除G₂中与G₁相同的边；

步骤4.2，对合并流程结构图MG中的每条共同边用G₁、G₂的标签标注；

步骤4.3，对G₁、G₂的频繁流程子图的前驱节点通过添加异或(“xor”)连接点连接频繁流程子图，同时添加连接的边；

步骤4.4，对G₁、G₂的频繁流程子图的后继节点通过添加异或(“xor”)连接点连接频繁流程子图，同时添加连接的边。

步骤4.5，合并频繁流程子图中的连接点。

所述步骤3.1，将流程图转换为流程结构图的具体方法如下：

业务流程图是一个三元组(V,τ,Ω),其中τ为类型集合，Ω为节点文本集合。流程结构图(ProcessStructureGraph：PSG)：PSG＝(τ,L,f)，τ为类型集合，L为节点标签集合，满射函数f:Ω→L，使得流程当中的节点文本有唯一与之对应的标签。

所述步骤3.2，使用gSpan算法挖掘同一主题下业务流程子图的具体方法如下：

采用深度优先搜索(DepthFirstSearch：DFS)编码做为规范化标记(Canonicallabel)的基础。一个图的规范化标记(Cl(G))是由字符或数字组成的序列，是图的唯一编码，且该编码与图的顶点和边无关，完全取决于图的拓扑结构，所以挖掘到的子流程图将是唯一的，且在模式提取时不会有重复的处理操作发生。如果两个图的规范化标记相同，那么这两个图互为同构。本发明中同构流程子图被认为是流程中可以合并的部分的。DFS编码及最小DFS编码的相关定义。

DFS＝(i,j,f,l_i,l_(i,j),l_j)，l_i,l_j分别是顶点v_i与v_j的标号，l_(i,j)是连接它们的边，f表示l_(i,j)的方向：f＝1表示v_i→v_j,f＝-1表示v_j,→v_i。

对每个图进行深度优先遍历后得到对应的DFS树，图中节点的访问顺序用下标记录，图G的DFS树表示为G_T，T称为图G的DFS下标。DFS把它们变为边的序列，对这些边按照字母顺序排序。由于图的DFS不是唯一的，为了唯一确定图的DFS编码，选取其中最小的DFS编码，利用最小DFS编码，不仅可以对所有流程图及其子图进行唯一的标识，同时也有助于判断两个流程图或子图是否相同，有效的解决了流程图的异构同质问题。

所述步骤3.3，发现业务流程子图集合内的频繁流程子图(即频繁流程片段)集合的具体方法如下：

为了进行流程合并需要找到流程集合当中的频繁流程片段，本发明设定为出现两次及两次以上的流程片段为频繁流程片段，但是由于相似的流程片段可能在同一个流程中出现多次，为了解决这个问题还需要计算流程频繁片段的置信度(confidence)以确保频繁度流程片段是来自不同的业务流程。

给定一个业务流程集合P＝{p₁,p₂,…,p_n}，流程片段集合F＝{f₁,f₂,…,f_n}。frequency(f_i)表示某一流程片段f_i在流程集合P中出现的总次数，frequency(f_i,p_i)表示流程片段f_i在某一流程p_i出现的次数。

自信度为出现频率大于等于2的流程片段在某流程出现的次数比上该流程片段在流程出现的总次数，当自信度小于1时说明该流程片段出现在不同的流程，等于1说明频繁流程子图来自同一个流程。

frequency(f_i)≥2

c o n f i d e n c e = \frac{f r e q u e n c y (f_{i}, p_{i})}{f r e q u e n c y (f_{i})}, 0 < c o n f i d e n c e < 1

为了便于计算使用频繁子图表(Frequentpatterntables)存储流程频繁子图，在本发明中将其作为流程匹配与合并时的输入，它是一个5元组，FPT＝(F,P,A,D,m)其中：

F：表示频繁流程片段，F＝(N,L(n_i,n_j))；

P：表示所在的原始流程；

A：表示频繁流程片段在原始流程的前驱节点；

D：表示频繁流程片段在原始流程的后继节点；

m:F→P表示流程片段到流程的一个满射。

N为频繁子图中的节点集合；n_i∈N,n_j∈N,L(n_i,n_j)为连接n_i，n_j边上的标签集合，不同流程边的标签可能不同。

本发明有如下优点：

(1)流程合并前对业务流程进行主题聚类，能够缩小合并流程的范围，提高了流程合并的效率。

(2)采用流程结构图统一重构流程图，具有更好的通用性；

(3)从图形结构方面考虑流程图的异构同质现象，有效解决了流程合并时的流程缠绕问题。

附图说明

图1是本发明的流程合并框架示意图。

图2是本发明三层CTM模型描述的业务流程模型示意图。

图3是本发明流程合并算法示意图。

图4是本发明实施例两个相似的交易确认EPC流程示意图。

图5是图4中对应的PSG图示意图。

图6是图4中G₁、G₂对应的频繁流程子图示意图。

图7是图4中两个流程合并结果流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步说明。

首先介绍本发明的具体操作方法：

步骤1，将流程库中的业务流程视为文档，对流程文档进行预处理，得到用户所需的流程文档的关键词；

步骤2，使用CTM对步骤1所得的流程文档进行主题聚类，得到K个主题类簇的流程文档；

如图1所示，本发明提出一种基于可变点本体的面向服务业务流程配置的方法，具体实施时可采用计算机软件技术实现自动运行流程。实施例的具体步骤如下：

步骤1.1，对流程文档进行解析，从中抽取该文档中的所有词汇；

步骤1.2，针对步骤1.1的结果，将所得的词汇词干化(即去除单词的前缀、后缀)，如reports、reported，reporting词干化的结果都为report；

步骤1.3，针对步1.2的结果过滤非动词、名词的词，对剩下的词去除停用词；

步骤2的具体实现步骤为：

步骤2.1，使用基于逻辑正态分布的CTM方法得到流程文档与其潜在主题的概率分布，针对流程主题聚类的三层CTM如图2所示，其中P为流程集合，P_i为流程集合中的一个流程，T为主题集合，T_i为主题集合中的一个主题，F为特征集合，F_i为特征集合中的一个特征；

步骤2.2，找到某流程文档所包含的主题概率的最大值，将其聚类到给主题对应的主题类簇当中；

步骤2.3，重复步骤2.2，直到所有的流程文档都聚类到K个领域主题类簇当中。

步骤3的具体实现步骤为：

步骤3.1，针对步骤2主题聚类后的流程，将同一类簇下的原始业务流程转换为流程结构图。

步骤3.2，使用gSpan算法挖掘同一主题类簇下业务流程子图。

步骤3.3，发现业务流程子图集合内的频繁流程子图(即频繁流程片段)集合，存入流程频繁子图表中。

针对同一领域类簇下的业务流程频繁子图的发现实施例如下：

图4中G₁、G₂是两个EPC流程，其对应的流程结构图为图5，图中大写字母表示流程当中的节点，数字为其下标。图5对应的DFS码如表1所示，其中e_i为边的DFS编码：

表1：图6的DFS编码

	G1	G2
			e0	(0,1,1,E1,F1)	(0,1,1,E1,F1)
e1	(1,2,1,F2,C1)	(1,2,1,F2,C1)
			…	…	…
e10	(6,11,1,F2,E7)	(6,12,1,F2,E8)

例如图6即为图5中发现的频繁流程子图，FP₁和FP₂为两个频繁流程子图，在得到频繁子图的同时存储其对应的频繁子图表，如表2所示。

表2：图7对应频繁子图表

频繁子图	FP₁	FP₂
			原始流程	P₁,P₂	P₁,P₂
子图前驱	(P_1,NULL),(P_2,NULL)	(P_1,F₂),(P_2,F₂)
			子图后继	(P_1,C₃),(P_2,C₃)	(P_1,NULL),(P_2,NULL)

步骤4.1，给定两个业务流程结构图G₁、G₂，从计算G₁、G₂合并的边开始，同时剔除G₂中与G₁相同的边。

步骤4.2，对合并流程结构图MG中的每条共同边用G₁、G₂的标签标注。

步骤4.3，对G₁、G₂的频繁流程子图的前驱节点通过添加异或(“xor”)连接点连接频繁流程子图，同时添加连接的边。

步骤4.5，合并频繁流程子图中的连接点，方法如下。

连接点是频繁流程子图的开始或结束节点，如果两个连接点不同，需要重新连接其前驱和后继，并且将这两个连接的类型改为“or”；

合并连续的连接节点，如果连续节点的类型不同则合并为“or”连接点，如果连接点类型相同则保留首个连接点。连接前一连接点与后一连接点相连的节点，删除后一连接点在流程中的边，删除后一连接点；

删除单进或单出的连接节点，将连接点前后节点相连。

图3为合并算法示意图，其中ap₁,ap₂所指节点p、m为频繁流程子图在G₁、G₂对应的前驱节点；sp₁,sp₂所指节点“xor”、“or”为频繁流程子图在G₁、G₂对应的开始节点。dp₁,dp₂所指节点q、n为频繁流程子图在G₁、G₂对应的后继节点；ep₁,ep₂所指节点“xor”、“or”为频繁流程子图在G₁、G₂对应的结束节点。其中a、b、c、d、e、f、p、m、q、n为流程中的活动节点“xor”、“or”为流程的连接点。

下面是应用本发明进行业务流程合并的具体实施例：

采用604个SAP参考流程模型作为实验的数据，首先考察流程间的相似性，此处相似性指的是流程的语法、语义及结构相似性之和。流程合并的基础为流程间具有一定的相似性，完全不同的流程没有必要合并，选取的流程的相似的阈值为20％，结果有382个流程的相似性大于20％，相似性比较算法使用了Dijkman等提出的相似性比较算法。

针对上述382个流程进行主题聚类，然后对同一类簇内的流程进行合并。表3为对SAP流程进行CTM聚类结果。

表3：流程主题聚类结果

主题1	主题2	主题3	主题4	主题5	主题6
						47	64	68	50	79	74

流程模型的规模是由流程的边的数量决定的。流程合并的目的是最大限度的压缩已有的流程，即如果合并两个相似流程，希望得到的流程模型的规模接近两个模型中最大的那个。当然如果两个流程完全不一致合并后的流程规模为两个流程的边之和。

本发明使用压缩率来评估合并的效果，压缩率是合并后的流程的边数与输入流程的边数的比例，CR(G₁,G₂)＝|CG|/(|G₁|+|G₂|),这里CG＝Merge(G₁,G₂)，如果压缩率为1则完全无压缩，如果压缩率大于或等于0.5说明输入流程很相似，当两个流程重复片段很少时压缩率可能会大于1。因为合并过程中会把相同的部分剔除，两个流程相同的片段越多压缩的比例越低。

表4是382个SAP流程主题聚类后，同一主题内流程合并后的平均压缩率。主题2内的压缩最高，说明主题2内的流程频繁片段少，可合并的部分少。主题6的压缩率最低，说明主题6内的流程频繁片段多，可合并的部分多。MarcelloLaRosa论文中采用同样数据集得到的SAP参考流程模型合并后平均压缩比为0.76，优化后平均压缩比为0.69。本方法获得的最高压缩比为0.726，最低压缩比为0.122。

表4：同一主题间合并后的平均压缩率

	主题1	主题2	主题3	主题4	主题5	主题6
							压缩比	0.628	0.726	0.482	0.659	0.657	0.122

表5是对382个SAP流程集合主题聚类后，不同主题间流程合并后的平均压缩率。从表5可见不同主题间流程合并的压缩率，比任一同主题内流程合并的压缩率高，最低压缩率为0.755，也高于表4内同一主题间的流程合并的压缩率。

表5：不同主题间合并后的平均压缩率

	Topic1	Topic2	Topic3	Topic4	Topic5	Topic6
							Topic1	#	0.822	0.968	0.93	0.962	0.9478 -->
Topic2		#	0.932	0.929	0.855	0.922
							Topic3			#	0.803	0.904	0.755
Topic4				#	0.873	0.86
							Topic5					#	0.898
Topic6						#

Claims

1.一种基于主题聚类的业务流程图合并方法，其特征是：包括以下步骤：

步骤2，使用CTM对步骤1所得的流程文档进行主题聚类；

2.根据权利要求1所述的一种基于主题聚类的业务流程图合并方法，其特征是：步骤1包括以下子步骤：

步骤1.1，对流程文档进行解析，抽取文档中的所有单词；

3.根据权利要求1所述的一种基于主题聚类的业务流程图合并方法，其特征是：步骤2包括以下子步骤：

步骤2.1，使用基于逻辑正态分布logisticnormaldistribution的CTM方法得到每个业务流程文档与其所包含的潜在主题的概率分布；

4.根据权利要求1所述的一种基于主题聚类的业务流程图合并方法，其特征是：步骤3包括以下子步骤：

步骤3.2，使用gSpan算法挖掘同一主题下业务流程子图；

步骤3.3，发现业务流程子图集合内的频繁流程子图即频繁流程片段集合。

5.根据权利要求1所述的一种基于主题聚类的业务流程图合并方法，其特征是：所述步骤4包括以下子步骤，

步骤4.3，对G₁、G₂的频繁流程子图的前驱节点通过添加异或“xor”连接点连接频繁流程子图，同时添加连接的边；

步骤4.4，对G₁、G₂的频繁流程子图的后继节点通过添加异或“xor”连接点连接频繁流程子图，同时添加连接的边；

步骤4.5，合并频繁流程子图中的连接点。

6.根据权利要求4所述的一种基于主题聚类的业务流程图合并方法，其特征是：所述步骤3.1，将流程图转换为流程结构图的具体方法如下：

业务流程图是一个三元组(V，τ，Ω)，其中τ为类型集合，Ω为节点文本集合；流程结构图ProcessStructureGraph：PSG：PSG＝(τ,L,f)，τ为类型集合，L为节点标签集合，满射函数f:Ω→L，使得流程当中的节点文本有唯一与之对应的标签。

7.根据权利要求4所述的一种基于主题聚类的业务流程图合并方法，其特征是：所述步骤3.2，使用gSpan算法挖掘同一主题下业务流程子图的具体方法如下：

采用深度优先搜索DepthFirstSearch：DFS编码做为规范化标记Canonicallabel的基础，一个图的规范化标记Cl(G)是由字符或数字组成的序列，是图的唯一编码，且该编码与图的顶点和边无关，完全取决于图的拓扑结构，所以挖掘到的子流程图将是唯一的，且在模式提取时不会有重复的处理操作发生；如果两个图的规范化标记相同，那么这两个图互为同构；同构流程子图被认为是流程中可以合并的部分的，DFS编码及最小DFS编码的相关定义：

DFS＝(i,j,f,l_i,l_(i,j),l_j)，l_i,l_j分别是顶点v_i与v_j的标号，l_(i,j)是连接它们的边，f表示l_(i,j)的方向：f＝1表示v_i→v_j,f＝-1表示v_j,→v_i；

对每个图进行深度优先遍历后得到对应的DFS树，图中节点的访问顺序用下标记录，图G的DFS树表示为G_T，T称为图G的DFS下标；DFS把它们变为边的序列，对这些边按照字母顺序排序；由于图的DFS不是唯一的，为了唯一确定图的DFS编码，选取其中最小的DFS编码，利用最小DFS编码，不仅可以对所有流程图及其子图进行唯一的标识，同时也有助于判断两个流程图或子图是否相同，有效的解决了流程图的异构同质问题。

8.根据权利要求4所述的一种基于主题聚类的业务流程图合并方法，其特征是：所述步骤3.3，发现业务流程子图集合内的频繁流程子图即频繁流程片段集合的具体方法如下：

为了进行流程合并需要找到流程集合当中的频繁流程片段，设定为出现两次及两次以上的流程片段为频繁流程片段，但是由于相似的流程片段可能在同一个流程中出现多次，为了解决这个问题还需要计算流程频繁片段的置信度confidence以确保频繁度流程片段是来自不同的业务流程；

给定一个业务流程集合P＝{p₁,p₂,…,p_n}，流程片段集合F＝{f₁,f₂,…,f_n}；frequency(f_i)表示某一流程片段f_i在流程集合P中出现的总次数，frequency(f_i,p_i)表示流程片段f_i在某一流程p_i出现的次数；

自信度为出现频率大于等于2的流程片段在某流程出现的次数比上该流程片段在流程出现的总次数，当自信度小于1时说明该流程片段出现在不同的流程，等于1说明频繁流程子图来自同一个流程；

frequency(f_i)≥2

c o n f i d e n c e = \frac{f r e q u e n c y (f_{i}, p_{i})}{f r e q u e n c y (f_{i})}, 0 < c o n f i d e n c e < 1

F：表示频繁流程片段，F＝(N,L(n_i,n_j))；

P：表示所在的原始流程；

A：表示频繁流程片段在原始流程的前驱节点；

D：表示频繁流程片段在原始流程的后继节点；

m:F→P表示流程片段到流程的一个满射；

N为频繁子图中的节点集合；n_i∈N,n_j∈N,L(n_i,n_j)为连接n_i，n_j边上的标签集合，不同流程边的标签可能不同；

9.根据权利要求5所述的一种基于主题聚类的业务流程图合并方法，其特征是：步骤4.5，合并频繁流程子图中的连接点方法如下：

合并连续的连接节点，如果连续节点的类型不同则合并为“or”连接点，如果连接点类型相同则保留首个连接点；连接前一连接点与后一连接点相连的节点，删除后一连接点在流程中的边，删除后一连接点；

删除单进或单出的连接节点，将连接点前后节点相连。