CN116227907A - 基于对齐的多维度rpa流程相似度计算方法 - Google Patents

基于对齐的多维度rpa流程相似度计算方法 Download PDF

Info

Publication number
CN116227907A
CN116227907A CN202310499750.7A CN202310499750A CN116227907A CN 116227907 A CN116227907 A CN 116227907A CN 202310499750 A CN202310499750 A CN 202310499750A CN 116227907 A CN116227907 A CN 116227907A
Authority
CN
China
Prior art keywords
flow
rpa
similarity
track
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310499750.7A
Other languages
English (en)
Other versions
CN116227907B (zh
Inventor
储成浩
吴建清
高元新
李杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sigao Intelligent Technology Co ltd
Original Assignee
Anhui Sigao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sigao Intelligent Technology Co ltd filed Critical Anhui Sigao Intelligent Technology Co ltd
Priority to CN202310499750.7A priority Critical patent/CN116227907B/zh
Publication of CN116227907A publication Critical patent/CN116227907A/zh
Application granted granted Critical
Publication of CN116227907B publication Critical patent/CN116227907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于对齐的多维度RPA流程相似度计算方法,包括:构建RPA流程S和T的所有流程节点文本信息的嵌入表示;迭代计算将S中的所有流程节点的嵌入表示传输到T中嵌入表示的最佳传输方案P和传输的花费costSh;根据P得到n组流程节点对,并将流程节点对的余弦距离大于阈值的流程节点对剔除,得到m组高质量的流程节点对;如果m过小,返回相似度分数m/n和costSh后结束程序,反之,计算流程S和T之间的结构相似性分数scedge;计算流程S和T之间的轨迹相似性分数sctrack,通过加权costSh、scedge、和sctrack得出两个RPA流程最终相似性分数。本发明充分利用了RPA流程的文本信息、流程的结构信息以及流程的轨迹信息,使得最终构建的相似性分数更加准确。

Description

基于对齐的多维度RPA流程相似度计算方法
技术领域
本发明属于人工智能技术领域,具体涉及基于对齐的多维度RPA流程相似度计算方法。
背景技术
随着软件自动化、人工智能等数字技术的快速发展及应用,信息化与数字化技术正在重构传统企业的原有业务模式。RPA(RoboticProcess Automation,RPA)技术是指通过元素的抓取、工作流、操作函数定义等方式,实现鼠标键盘操作的模拟,按流程定义自动执行任务,代替或辅助人工完成操作。RPA技术能够在已有RPA流程的条件下实现流程的自动执行,将原本以来人工的工作变为机器自动执行,并且是7*24小时不间断执行。这将有助于公司提高效率、降低生产成本。因此,RPA技术自问世以来得到了广泛的关注,并且已经在世界范围内很多领域具备了实际的工程化应用。
RPA流程是RPA技术进行自动化流程执行的关键,一个完备的RPA流程能够集合执行、异常记录等功能。而非完备的RPA流程往往存在一定的缺陷和不足需要人为的去进行优化。而对于一个新生成的RPA流程,往往需要对其进行优化。如果在优化的过程中加入一些自动化的过程,如RPA流程相似性计算,便可以省去不少的人力资源。此外,RPA流程相似性计算也能够为RPA流程推荐提供一定的便利。
业务流程的相似性计算一般用于检索流程和流程库中所有流程间的相关程度,旨在发现相关的业务流程以便下游任务。其计算业务流程相似性的方法一般存在三个层面的相似度:概念相似性、结构相似性和行为相似性。
概念相似性旨在基于流程节点中的文本语义信息来衡量两个流程节点的相似性,由于流程节点的语义信息与流程节点直接相关,所以概念相似性作为度量两个流程模型相似性的一个重要指标。常用的实现方法是基于字符串的编辑距离来衡量两个流程文本信息的差异程度作为流程节点的概念相似性。
结构相似性指的是两个流程节点其自身所在的邻域结构的相似性,结构信息中一般包含流程节点所直接关联的边和流程节点。经验上认为两个十分相似的流程节点其邻域结构信息也是具有较高的相似性,所以结构相似性也是作为衡量业务流程相似性的一个重要指标。结构相似性可以基于最大公共子图的方式或计算流程节点的编辑距离来实现。流程节点的编辑距离指的是基于新增、删除或者编辑流程节点的方式将一个流程结构转换为另一个流程结构所需要的编辑次数。因此,越相似的两个流程结构之间的编辑距离越小。
行为指的是流程节点是以何种方式与其相邻的流程节点进行连接,其中包括但不限于存在、因果、冲突和并发等行为,而行为相似性旨在衡量两个流程节点与其关联的流程节点的行为特征来得出相似性。而行为相似性可以通过计算流程行为序列交集的大小来度量。
业务流程和RPA流程在结构上存在一定的相似,但在应用场景和功能实现上存在较大差异。在现有的工作中,计算流程相似性的方法中大多集中在业务流程,而鲜有对RPA流程计算相似度的方法。
发明内容
有鉴于此,本发明提出基于对齐的多维度RPA流程相似度计算方法,包括以下步骤:
S1、根据给定的两个RPA流程S和T,获取S和T中每个流程节点的文本信息SA和TA
S2、根据SA和TA构建S和T的所有流程节点文本信息的嵌入表示,记为
Figure SMS_1
和/>
Figure SMS_2
S3、基于
Figure SMS_3
和/>
Figure SMS_4
,迭代计算将/>
Figure SMS_5
中的所有流程节点文本信息的嵌入表示传输到/>
Figure SMS_6
嵌入表示的最佳传输方案P以及传输的花费costSh
S4、根据P搜索S中的流程节点s在T中最相似的流程节点t,将s和t记为一组对齐流程节点,得到n组对齐的流程节点对Align,其中n=min(|S|,|T|);|S|为S中流程节点数量,|T|为T中流程节点数量;
S5、计算Align中的流程节点对的余弦距离,将余弦距离大于阈值τ的流程节点对从Align中剔除,得到m组高质量的流程节点对Align’;
S6、根据m的大小初步判断RPA流程S和T的相似度,如果初步判断结果为RPA流程S和T不相似,直接返回相似度分数m/n和costSh后结束程序;如果初步判断结果为RPA流程S和T相似,计算Align’中每个对齐流程节点之间的局部结构相似性,得到RPA流程S和T之间的结构相似性分数,记为scedge
S7、计算Align’中对齐节点对之间的轨迹相似性,得到RPA流程S和T之间的轨迹相似性分数,记为sctrack,通过加权costSh、scedge、和sctrack得出RPA流程S和RPA流程T的最终相似性分数:score=α×costSh+β×scedge+γ×sctrack,其中,α、β、γ为权重。
本发明提供的技术方案带来的有益效果是:
与现有方法不同,本发明直接对流程节点的文本信息进行嵌入操作,并基于嵌入表示来衡量流程节点的文本信息相似性。而且,在计算流程节点结构相似性的过程中考虑流程节点与其相邻流程节点的不同指向,旨在实现更加准确的结构相似性计算。此外,本发明创新性的提出了轨迹相似性计算方法,其能在更大的范围内考虑流程节点的行为特征。最终通过综合衡量三个维度的相似性,能够给出任意两个RPA流程的相似性分数。
附图说明
图1是本发明基于对齐的多维度RPA流程相似度计算方法的流程图;
图2是本发明基于对齐的多维度RPA流程相似度计算方法的流程框图;
图3是本发明实施例中用于说明多维度RPA流程相似度计算的示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
参考图1和图2,图1是本发明基于对齐的多维度RPA流程相似度计算方法的流程图,图2是本发明基于对齐的多维度RPA流程相似度计算方法的流程框图。
本发明提出的基于对齐的多维度RPA流程相似度计算方法包括下列步骤:
S1、根据给定的两个RPA流程S和T,获取S和T中每个流程节点的文本信息SA和TA
S11、分别提取S和T的流程节点的名称字段和描述字段;
S12、通过去除停用词对名称字段和描述字段中的文字内容进行预处理,得到预处理后的名称字段和描述字段;
S13、将S中预处理后的名称字段和描述字段的内容拼接得到最终的流程节点文本信息SA,将T中预处理后的名称字段和描述字段的内容拼接得到最终的流程节点文本信息TA
S2、对于S1中得到的SA和TA,使用多语言预训练模型BERT对SA和TA中的每个流程节点文本信息进行编码,即构建S和T的所有流程节点文本信息的嵌入表示,记为
Figure SMS_7
Figure SMS_8
S3、基于S2中得到的
Figure SMS_9
和/>
Figure SMS_10
,采用基于最优传输思想的Sinkhorn算法,迭代计算将/>
Figure SMS_11
中的所有流程节点的嵌入表示传输到/>
Figure SMS_12
嵌入表示的最佳传输方案P以及传输的花费costSh。其中最佳传输方案P是一个|S|*|T|的每行每列都是单位向量的矩阵,其中|S|表示S中的流程节点数量,|T|表示T中的流程节点数量。
为了从全局出发,综合考虑两个RPA流程中的所有流程节点,基于最优传输的思路并采用简化的Sinkhorn算法来求解该问。Sinkhorn算法能够迭代计算全局最优解的同时保证每个流程节点仅被对齐一次,以下是简化的Sinkhorn算法的步骤:
输入:源度量向量u∈R+|S|;目标度量向量v∈R+|T|;正则化系数η和距离矩阵D;
其中R+|S|为维度为|S|的列向量,R+|T|为维度为|T|的列向量;D来自于
Figure SMS_13
的每个向量与/>
Figure SMS_14
的每个向量的欧氏距离,例如D中的第一行第一列的值来自于/>
Figure SMS_15
的第一个向量与/>
Figure SMS_16
的第一个向量的欧氏距离,距离矩阵D的大小为|S|*|T|。
输出:最佳传输方案(矩阵)P和花费costSh
1:初始化ui←1,vi←1,K←e-D/η∈R|S|*|T|
2:WHILE 未收敛 DO #未收敛表示循环次数小于设定的迭代阈值
3:u←u/Kv
4:v←v/KTu
5:END WHILE
6:P←diag(u)Kdiag(v),costSh←sum(P*D)#diag(u)表示将向量u转换为对角矩阵,diag(v)表示将向量v转换为对角矩阵,sum(·)表示求和。
S4、根据P搜索S中的流程节点s在T中最相似的流程节点t,将s和t记为一组对齐流程节点。鉴于|S|和|T|不一定相等,所以流程节点数量较多的RPA流程中会存在一些流程节点没有对应的对齐对象。至此,基于P可以得到n组对齐的流程节点对Align,n=min(|S|,|T|)
S5、为了提高对齐的流程节点对的质量,需要对S4中得到对齐的流程节点对Align进行进一步的筛选,计算Align中的流程节点对的余弦距离,将余弦距离大于阈值τ的流程节点对从Align中剔除,得到m组高质量的流程节点对Align’,余弦距离计算公式如下:
Figure SMS_17
其中,
Figure SMS_18
表示s和t的余弦距离,s和t是Align中的一对对齐流程节点对,
Figure SMS_19
和/>
Figure SMS_20
分别表示s和t的嵌入表示,/>
Figure SMS_21
表示/>
Figure SMS_22
的L2范数,/>
Figure SMS_23
表示/>
Figure SMS_24
的L2范数。
S6、根据m的大小初步判断RPA流程S和T的相似度,如果
Figure SMS_25
,认为RPA流程S和T不相似,直接返回相似度分数m/n和costSh后结束程序;如果/>
Figure SMS_26
,认为RPA流程S和T相似,计算Align’中每个对齐流程节点之间的局部结构相似性,并对Align’中每个对齐流程节点之间的局部结构相似性采用加权取平均的方式,得到RPA流程S和T之间的结构相似性分数,记为scedge
计算Align’中每个对齐流程节点之间的局部结构相似性公式为:
Figure SMS_27
其中,s’、t’为Align’中的一对对齐的流程节点对,
Figure SMS_31
和/>
Figure SMS_34
表示流程节点s’对应的出边和入边集合,/>
Figure SMS_37
和/>
Figure SMS_29
表示s’的出边和入边的数量,相应的/>
Figure SMS_33
和/>
Figure SMS_35
则表示t’的出边和入边集合,/>
Figure SMS_38
和/>
Figure SMS_30
表示t’的出边和入边的数量,edit()为编辑距离,通过分别计算/>
Figure SMS_32
和/>
Figure SMS_36
以及/>
Figure SMS_39
和/>
Figure SMS_28
之间的编辑距离来衡量s’和t’之间的局部结构相似性。
S7、计算Align’中对齐节点对之间的轨迹相似性,得到RPA流程S和T之间的轨迹相似性分数,记为sctrack
基于如下的轨迹距离公式得出两条轨迹之间的相似性:
Figure SMS_40
其中,将RPA流程S中从流程节点
Figure SMS_46
到/>
Figure SMS_43
的轨迹记为Tracks’,将RPA流程T中从流程节点/>
Figure SMS_48
到/>
Figure SMS_44
的轨迹记为/>
Figure SMS_47
,/>
Figure SMS_49
和/>
Figure SMS_52
为Align’中流程S和T的对齐节点对,/>
Figure SMS_51
和/>
Figure SMS_53
为Align’中流程S和T的对齐节点对,/>
Figure SMS_41
为轨迹/>
Figure SMS_45
的长度,长度表示轨迹所经过的流程节点和边的数量之和,/>
Figure SMS_50
表示将轨迹/>
Figure SMS_54
上的流程节点和边的内容按照轨迹的路径顺序进行拼接后得到的轨迹文本信息,/>
Figure SMS_55
表示/>
Figure SMS_56
和/>
Figure SMS_42
在轨迹文本信息上的编辑距离。
并对Align’中每个对齐流程节点之间的轨迹相似性采用加权取平均的方式,得到RPA流程S和T之间的轨迹相似性分数,记为sctrack
通过加权costSh、scedge、和sctrack三个分数得出RPA流程S和RPA流程T的最终相似性分数:score=α×costSh+β×scedge+γ×sctrack,其中,α、β、γ为权重。
参考图3,图3是本发明实施例中用于说明多维度RPA流程相似度计算的示例图,其中,相同形状表示流程S和T中对齐的节点对,箭头表示流程的边。流程节点
Figure SMS_77
上一共有4个箭头,代表流程节点/>
Figure SMS_79
的4个边;从节点/>
Figure SMS_82
到/>
Figure SMS_58
,可以是/>
Figure SMS_63
,这两个节点(/>
Figure SMS_71
和/>
Figure SMS_74
)和一条边表示一个从/>
Figure SMS_60
到/>
Figure SMS_62
的轨迹;也可以是/>
Figure SMS_66
,这三个节点(/>
Figure SMS_75
、/>
Figure SMS_93
和/>
Figure SMS_96
)和两条边表示另一个从/>
Figure SMS_97
到/>
Figure SMS_98
的轨迹,其中/>
Figure SMS_70
是最短轨迹。对于输入的RPA流程S和RPA流程T,基于步骤/>
Figure SMS_73
可以得出已对齐的流程节点对
Figure SMS_76
,由于Align’中有四对对齐对,需要进行之后的结构相似性和轨迹相似性计算。基于步骤S6计算S和T的结构相似性,可以发现
Figure SMS_78
和/>
Figure SMS_57
的结构相似性会更高,而/>
Figure SMS_61
和/>
Figure SMS_65
各自的结构相似性则较低,特别是/>
Figure SMS_67
和/>
Figure SMS_80
它们各自的边的数量和方向均不相同。基于步骤S7计算轨迹相似性,以/>
Figure SMS_84
Figure SMS_87
的轨迹和/>
Figure SMS_90
到/>
Figure SMS_85
的轨迹为例,取它们各自的最短轨迹,/>
Figure SMS_88
到/>
Figure SMS_91
的最短轨迹为/>
Figure SMS_94
Figure SMS_69
到/>
Figure SMS_72
的最短轨迹为/>
Figure SMS_81
,两个轨迹完全相同,则基于步骤S7中的公式可以得出较高的轨迹相似性。而对于/>
Figure SMS_83
和/>
Figure SMS_86
的轨迹、/>
Figure SMS_89
和/>
Figure SMS_92
的轨迹而言,/>
Figure SMS_95
到/>
Figure SMS_59
存在轨迹,/>
Figure SMS_64
到/>
Figure SMS_68
不存在轨迹,因此其对应轨迹相似性也会偏低。
本实施例中,α=0.4,β=0.3,γ=0.3。
最终本方法在输出score之后结束程序。
本发明提出的技术方案中充分利用了RPA流程的文本信息,流程的结构信息以及流程的轨迹信息。轨迹相似性能够兼顾流程轨迹途径的节点和边包含的文字信息以及轨迹整体的行为特征。
本发明提出的技术方案基于对齐的RPA流程节点展开后续的相似性计算过程。对齐RPA流程节点的引入一方面可以省去不小的计算开销,因为非相似的流程节点并不会参与后续的计算,另一方面对于差异非常大的两个流程图,本方法可以在第一步很快就得出结果。其次,RPA流程结构相似性和轨迹相似性从两个不同的维度对相似性进行了补充,使得最终构建的相似性分数更加准确。
在RPA资产库领域,首次提出了基于对齐的多维度RPA流程相似度计算方法。本方法从RPA流程本身出发,在不借助流程执行日志流程使用率等辅助信息的情况下实现相似度计算,这使得本发明的方法更加适用多种情形下的RAP流程相似度计算。
本发明的RPA流程相似度分数可以辅助实现多种下游需求,对于具有高相似度的一组RAP流程,用户可以根据需求在其中选择最适合的RAP流程,实现RAP流程的推荐功能,对于新生成的RAP流程,可以采用本发明将其与已有的完备RAP流程进行相似度计算,以此来得出新生成的RAP流程的完备程度。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.基于对齐的多维度RPA流程相似度计算方法,其特征在于,包括以下步骤:
S1、根据给定的两个RPA流程S和T,获取S和T中每个流程节点的文本信息SA和TA
S2、根据SA和TA构建S和T的所有流程节点文本信息的嵌入表示,记为
Figure QLYQS_1
和/>
Figure QLYQS_2
S3、基于
Figure QLYQS_3
和/>
Figure QLYQS_4
,迭代计算将/>
Figure QLYQS_5
中的所有的嵌入表示传输到/>
Figure QLYQS_6
嵌入表示的最佳传输方案P以及传输的花费costSh
S4、根据P搜索S中的流程节点s在T中最相似的流程节点t,将s和t记为一组对齐流程节点,得到n组对齐的流程节点对Align,其中n=min(|S|,|T|);|S|为S中流程节点数量,|T|为T中流程节点数量;
S5、计算Align中的流程节点对的余弦距离,将余弦距离大于阈值τ的流程节点对从Align中剔除,得到m组高质量的流程节点对Align’;
S6、根据m的大小初步判断RPA流程S和T的相似度,如果初步判断结果为RPA流程S和T不相似,直接返回相似度分数m/n和costSh后结束程序;如果初步判断结果为RPA流程S和T相似,计算Align’中每个对齐流程节点之间的局部结构相似性,得到RPA流程S和T之间的结构相似性分数,记为scedge
S7、计算Align’中对齐节点对之间的轨迹相似性,得到RPA流程S和T之间的轨迹相似性分数,记为sctrack,通过加权costSh、scedge、和sctrack得出RPA流程S和RPA流程T的最终相似性分数:score=α×costSh+β×scedge+γ×sctrack,其中,α、β、γ为权重。
2.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,步骤S1具体为:
S11、分别提取S和T的流程节点的名称字段和描述字段;
S12、通过去除停用词对名称字段和描述字段中的文字内容进行预处理,得到预处理后的名称字段和描述字段;
S13、将S中预处理后的名称字段和描述字段的内容拼接得到最终的流程节点文本信息SA,将T中预处理后的名称字段和描述字段的内容拼接得到最终的流程节点文本信息TA
3.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,步骤S2具体为:使用多语言预训练模型BERT对SA和TA中的每个流程节点文本信息进行编码,构建S和T的所有流程节点文本信息的嵌入表示。
4.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,步骤S3具体为:
采用基于最优传输思想的Sinkhorn算法,迭代计算将
Figure QLYQS_7
中的所有流程节点的嵌入表示传输到/>
Figure QLYQS_8
嵌入表示的最佳传输方案P以及传输的花费costSh,其中最佳传输方案P是一个|S|*|T|的矩阵,其中|S|表示S中的流程节点数量,|T|表示T中的流程节点数量。
5.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,S5中,计算Align中的流程节点对的余弦距离的计算公式如下:
Figure QLYQS_9
其中,
Figure QLYQS_10
表示s和t的余弦距离,s和t是Align中的一对对齐流程节点对,semb和temb分别表示s和t的嵌入表示,/>
Figure QLYQS_11
表示/>
Figure QLYQS_12
的L2范数,/>
Figure QLYQS_13
表示/>
Figure QLYQS_14
的L2范数。
6.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,步骤S6具体为:当
Figure QLYQS_15
,则RPA流程S和T不相似,直接返回相似度分数/>
Figure QLYQS_16
和costSh后结束程序;当/>
Figure QLYQS_17
,则RPA流程S和T相似,计算Align’中每个对齐流程节点之间的局部结构相似性,并对Align’中每个对齐流程节点之间的局部结构相似性采用加权取平均的方式,得到RPA流程S和T之间的结构相似性分数,记为scedge
7.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,步骤S6中,计算Align’中对齐流程节点之间的局部结构相似性公式为:
Figure QLYQS_18
其中,s’、t’为Align’中的一对对齐的流程节点对,
Figure QLYQS_20
和/>
Figure QLYQS_25
表示流程节点s’对应的出边和入边集合,/>
Figure QLYQS_28
和/>
Figure QLYQS_22
表示s’的出边和入边的数量,相应的/>
Figure QLYQS_24
和/>
Figure QLYQS_27
则表示t’的出边和入边集合,/>
Figure QLYQS_30
和/>
Figure QLYQS_19
表示t’的出边和入边的数量,edit()为编辑距离,通过分别计算
Figure QLYQS_23
和/>
Figure QLYQS_26
以及/>
Figure QLYQS_29
和/>
Figure QLYQS_21
之间的编辑距离来衡量s’和t’之间的局部结构相似性。
8.根据权利要求1所述的基于对齐的多维度RPA流程相似度计算方法,其特征在于,步骤S7中,计算轨迹相似性分数sctrack具体为:
基于如下的轨迹距离公式得出两条轨迹之间的相似性:
Figure QLYQS_31
其中,将RPA流程S中从流程节点
Figure QLYQS_44
到/>
Figure QLYQS_34
的轨迹记为/>
Figure QLYQS_41
,将RPA流程T中从流程节点/>
Figure QLYQS_47
到/>
Figure QLYQS_51
的轨迹记为/>
Figure QLYQS_48
,/>
Figure QLYQS_52
和/>
Figure QLYQS_40
为Align’中流程S和T的对齐节点对,/>
Figure QLYQS_42
和/>
Figure QLYQS_32
为Align’中流程S和T的对齐节点对,/>
Figure QLYQS_37
、/>
Figure QLYQS_35
分别为轨迹/>
Figure QLYQS_38
、/>
Figure QLYQS_46
的长度,长度表示轨迹所经过的流程节点和边的数量之和,/>
Figure QLYQS_49
表示将轨迹/>
Figure QLYQS_39
上的流程节点和边的内容按照轨迹的路径顺序进行拼接后得到的轨迹文本信息,
Figure QLYQS_43
表示将轨迹/>
Figure QLYQS_45
上的流程节点和边的内容按照轨迹的路径顺序进行拼接后得到的轨迹文本信息,/>
Figure QLYQS_50
表示/>
Figure QLYQS_33
和/>
Figure QLYQS_36
在轨迹文本信息上的编辑距离;
并对Align’中每个对齐流程节点之间的轨迹相似性采用加权取平均的方式,得到RPA流程S和T之间的轨迹相似性分数,记为sctrack
CN202310499750.7A 2023-05-06 2023-05-06 基于对齐的多维度rpa流程相似度计算方法 Active CN116227907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310499750.7A CN116227907B (zh) 2023-05-06 2023-05-06 基于对齐的多维度rpa流程相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310499750.7A CN116227907B (zh) 2023-05-06 2023-05-06 基于对齐的多维度rpa流程相似度计算方法

Publications (2)

Publication Number Publication Date
CN116227907A true CN116227907A (zh) 2023-06-06
CN116227907B CN116227907B (zh) 2023-07-28

Family

ID=86571590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310499750.7A Active CN116227907B (zh) 2023-05-06 2023-05-06 基于对齐的多维度rpa流程相似度计算方法

Country Status (1)

Country Link
CN (1) CN116227907B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628228A (zh) * 2023-07-19 2023-08-22 安徽思高智能科技有限公司 一种rpa流程推荐方法以及计算机可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012243268A (ja) * 2011-05-24 2012-12-10 Nec Corp 業務フロー検索装置、業務フロー検索方法、およびプログラム
CN104462414A (zh) * 2014-12-12 2015-03-25 中山大学深圳研究院 一种基于拓扑结构的流程图相似性方法
CN106096644A (zh) * 2016-06-08 2016-11-09 杭州电子科技大学 基于概率工作流的相似度度量方法及装置
CN107145505A (zh) * 2017-03-22 2017-09-08 浙江工业大学 基于匈牙利算法的工厂制造流程模型相似检索方法
AU2020100419A4 (en) * 2019-05-24 2020-04-16 Institute of Geographic Sciences and Natural Resources Research Chinese Academy of Sciences A system of querying similar branched trajectory of moving objects and a method thereof
CN111274822A (zh) * 2018-11-20 2020-06-12 华为技术有限公司 语义匹配方法、装置、设备及存储介质
CN114564597A (zh) * 2022-03-03 2022-05-31 上海工程技术大学 一种融合多维度多信息的实体对齐方法
CN115099561A (zh) * 2022-05-16 2022-09-23 广东工业大学 一种流程模型的相似性度量方法、装置、设备及介质
CN115187216A (zh) * 2022-07-22 2022-10-14 上海声通信息科技股份有限公司 基于相似度的工作流活动对齐方法及系统
CN115376152A (zh) * 2022-07-22 2022-11-22 上海师范大学 一种流程图的查重方法
CN115577268A (zh) * 2022-09-21 2023-01-06 山东理工大学 基于流程树的模型相似度计算方法与系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012243268A (ja) * 2011-05-24 2012-12-10 Nec Corp 業務フロー検索装置、業務フロー検索方法、およびプログラム
CN104462414A (zh) * 2014-12-12 2015-03-25 中山大学深圳研究院 一种基于拓扑结构的流程图相似性方法
CN106096644A (zh) * 2016-06-08 2016-11-09 杭州电子科技大学 基于概率工作流的相似度度量方法及装置
CN107145505A (zh) * 2017-03-22 2017-09-08 浙江工业大学 基于匈牙利算法的工厂制造流程模型相似检索方法
CN111274822A (zh) * 2018-11-20 2020-06-12 华为技术有限公司 语义匹配方法、装置、设备及存储介质
AU2020100419A4 (en) * 2019-05-24 2020-04-16 Institute of Geographic Sciences and Natural Resources Research Chinese Academy of Sciences A system of querying similar branched trajectory of moving objects and a method thereof
CN114564597A (zh) * 2022-03-03 2022-05-31 上海工程技术大学 一种融合多维度多信息的实体对齐方法
CN115099561A (zh) * 2022-05-16 2022-09-23 广东工业大学 一种流程模型的相似性度量方法、装置、设备及介质
CN115187216A (zh) * 2022-07-22 2022-10-14 上海声通信息科技股份有限公司 基于相似度的工作流活动对齐方法及系统
CN115376152A (zh) * 2022-07-22 2022-11-22 上海师范大学 一种流程图的查重方法
CN115577268A (zh) * 2022-09-21 2023-01-06 山东理工大学 基于流程树的模型相似度计算方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周长红;曾庆田;刘聪;段华;原桂远;: "基于模型结构与日志行为的流程相似度计算", 计算机集成制造系统, no. 07 *
尹宝生;杨阳;: "双向词典和语义相似度计算相结合的词对齐算法", 沈阳航空航天大学学报, no. 02 *
林泽东;曾庆田;段华;鲁法明;周长红;: "基于日志的流程相似度计算方法适用性分析", 计算机集成制造系统, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628228A (zh) * 2023-07-19 2023-08-22 安徽思高智能科技有限公司 一种rpa流程推荐方法以及计算机可读存储介质
CN116628228B (zh) * 2023-07-19 2023-09-19 安徽思高智能科技有限公司 一种rpa流程推荐方法以及计算机可读存储介质

Also Published As

Publication number Publication date
CN116227907B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Stefan et al. The move-split-merge metric for time series
CN116227907B (zh) 基于对齐的多维度rpa流程相似度计算方法
CN109063164A (zh) 一种基于深度学习的智能问答方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
Xiang et al. Incorporating label dependency for answer quality tagging in community question answering via cnn-lstm-crf
CN115238710B (zh) 一种文档智能生成与管理方法及装置
CN113361928B (zh) 一种基于异构图注意力网络的众包任务推荐方法
CN117540035B (zh) 一种基于实体类型信息融合的rpa知识图谱构建方法
CN114519107A (zh) 一种联合实体关系表示的知识图谱融合方法
CN113887471A (zh) 基于特征解耦和交叉对比的视频时序定位方法
US11989656B2 (en) Search space exploration for deep learning
CN117194742A (zh) 一种工业软件组件推荐方法及系统
CN113836903B (zh) 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
Shah et al. Natural language processing based abstractive text summarization of reviews
CN116627487A (zh) 基于词级别检索的源代码注释自动化生成方法和系统
CN116627481A (zh) 一种基于控制流图建模的代码提交日志自动生成方法
CN112862007B (zh) 基于用户兴趣编辑的商品序列推荐方法及系统
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
CN114780862A (zh) 一种用户兴趣向量提取方法、提取模型及计算机系统
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备
CN110298545B (zh) 一种基于神经网络的专利评价方法、系统和介质
CN111708896A (zh) 一种应用于生物医学文献的实体关系抽取方法
Yu et al. Workflow recommendation based on graph embedding
CN110457543B (zh) 一种基于端到端多视角匹配的实体消解方法和系统
CN117093196B (zh) 一种基于知识图谱的编程语言生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20230606

Assignee: HUBEI THINGO TECHNOLOGY DEVELOPMENT Co.,Ltd.

Assignor: Anhui Sigao Intelligent Technology Co.,Ltd.

Contract record no.: X2023980049572

Denomination of invention: A method for calculating the similarity of multi-dimensional RPA processes based on alignment

Granted publication date: 20230728

License type: Exclusive License

Record date: 20231207