CN116450704A - 一种流程模型的自动化生成方法及生成装置 - Google Patents
一种流程模型的自动化生成方法及生成装置 Download PDFInfo
- Publication number
- CN116450704A CN116450704A CN202310345532.8A CN202310345532A CN116450704A CN 116450704 A CN116450704 A CN 116450704A CN 202310345532 A CN202310345532 A CN 202310345532A CN 116450704 A CN116450704 A CN 116450704A
- Authority
- CN
- China
- Prior art keywords
- flow
- model
- module
- topic
- activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 180
- 230000008569 process Effects 0.000 claims abstract description 161
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000005065 mining Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims description 63
- 239000013598 vector Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000013074 reference sample Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 21
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种流程模型的自动化生成方法及生成装置,方法包括如下步骤:步骤1、流程模块主体提取;步骤2、流程绩效预测;步骤3、流程模块组合;装置包括:流程模块主体提取单元、流程绩效预测单元、流程模块组合单元。本发明基于LDA主题模型,通过提取最优的流程模块功能主题,揭示模块功能主题与案例描述的语义信息关系,有效提升模块主题挖掘的准确性;并且在自动化程序的帮助下,以BP神经网络得到的流程绩效模型进行计算,基于流程绩效预测值对推荐的流程模块组合进行构建和调优,其流程推荐效率也有了很大的提高。
Description
技术领域
本发明涉及业务流程设计和流程挖掘方向中的流程生成技术领域,尤其是一种流程模型的自动化生成方法及生成装置。
背景技术
模块化分析是流程推荐及流程模型自动化生成的基础,复杂的业务流程由若干流程模块组合而成。合理的业务流程模块应当具有高内聚、低耦合、功能独特化等特点,且相互之间的依赖程度较小。基于流程块的业务流程建模能够重用经过实践检验的流程块,在建模时只要在流程模块的基础上进行少量调整便能提高流程建模的效率,加大对用户建模的支持力度。同时以松散耦合为目标,基于设计结构矩阵的流程分解方法也应用在流程生成和建模中。但是上述的流程模块化分析也存在一定的缺点:
一是注重模型的逻辑结构,而对流程模型的语义重视不够。过程模型的价值不仅仅取决于逻辑结构,还取决于模型的标签语义价值。建模过程中的语义信息是保证建模质量的一个重要标准,通过合理的活动标签能够改善人们对建模模型的理解。
二是缺乏流程模型的自动化生成的解决方案,流程生成和建模的处理效率低,难以平衡流程生成和建模的效率和准确性。
发明内容
本发明所要解决的技术问题在于,提供一种流程模型的自动化生成方法及生成装置,研究以LDA主体模型算法提取出流程模块的功能主体,进一步分析模块语义信息之间的关系,通过基于BP神经网络的流程绩效评价,得到业务流程绩效预测模型,对业务流程生成后的模块组合进行绩效评价,从而提升流程生成和建模的效率和准确性。
为解决上述技术问题,本发明提供一种流程模型的自动化生成方法,包括如下步骤:
步骤1、流程模块主体提取;从流程日志中经过流程挖掘技术进行模块化分析后,基于LDA主题模型进行提取操作;
步骤2、流程绩效预测;选取三层BP神经网络用于模型训练,用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型;
步骤3、流程模块组合;基于训练好的业务流程绩效预测模型,得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,构建流程模块组合。
优选的,步骤1中,LDA主题模型将流程日志中语义信息看作贝叶斯概率结构,包括模块语义信息层、功能主题层和特征词层组成3层;通过模块语义信息推理出多个模块功能主体内容,每个模块功能主体能够分析出多个特征词。
优选的,步骤1中,面向模块功能主题的LDA主题模型结构包括隐藏变量、可观测变量和变量的重复;可观测变量为流程活动中的所有词,隐藏变量为流程主题词分布和流程活动中主题所占的比例,通过重复迭代隐藏变量参数进而推导出流程活动中所有主题词;其中,假设流程模块为D,其中包含了N个流程活动,潜在的功能主题数为K,流程模块主题为为第k个功能主题的词的分布,第d个活动中主题所占比例为θd,θd,k为第k个主题在第d个活动中的比例,第d个流程活动的主题全体为Zd,Zd,n是第d个流程活动中第个词的主题,第d个流程活动中所有词记为Wd,Wd,n是第d个流程活动中第n个词。
优选的,步骤1中,面向模块功能主题的LDA主题模型能够通过分析模块中的语义信息,提取出隐含的主题结构;一个模块用多维主题向量及其相应的分布表示,对于其中的每一个主题用为多维特征词向量及特征词的分布表示,即M={(Z1,Z2,……,ZT)},Zi={(W1,W2,……,WN)},M表示某一流程模块的LDA主题模型,理想的模块主题模型应当使得各个主题之间关联度较低,即各主题之间独立性较高;
主题向量相似度公式:
Zi、Zj表示模块PM主题模型中的两个主题向量,Wik、Wjk分别表示Zi、Zj在向量空间中第k个特征词及分布,1≤k≤N。
优选的,模块所有主题之间的平均相似度可以表示该主题模型的结构稳定度,主体模型的结构稳定度公式:
主题密度直接影响到模块功能主题结构的稳定程度,主题密度为以向量空间中该点为中心,以α为半径区域内主题的个数称为主题密度,α为给定的半径距离,计算公式为:
Density(Zi,α)=|distance(Zi,Z)|≤α
给定一个LDA主题模型M和整数n,模型中密度小于等于n的主题数目成为该LDA主题模型的基数,记作Cardi(M,n);对于主题分布中的一个主题Z、给定半径α和阈值n,如果满足Density(Zi,α)≤n,则主题Z为向量空间中一个参考样本。
优选的,步骤2中,流程绩效预测具体为:定义流程绩效的评价指标,定义流程活动的流转率为其输出的质量得分与其消耗的时间及成本的比值,令AF(a)为活动a的流转率,则给出如下公式:
Output(a)为活动a的输出质量,由活动的输出经济效益表示,costi(a)表示活动a第i次的执行成本,processi(a)表示活动a第次的执行时间,h为活动a执行总次数;
基于活动的流转率,给出业务流程的绩效评价指标如下:
PF(BP)=(∑a∈BPηa×AF(a))/n
BP代表业务流程,ηa为活动a的权重调和因子;
选取三层BP神经网络用于模型训练,采用Sigmoid激活函数用作神经元激活函数:
记业务流程特征属性为T,则基于流程挖掘技术从流程日志L中获取训练集TD={(T1,PF1),(T2,PF2),…,(Tn,PFn)},将训练集输入后,设定神经元激活函数为Sigmoid函数,采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型。
优选的,步骤3中,构建流程模块组合具体包括如下步骤:
步骤31、主题模型提取:负责从流程日志数据库中通过流程挖掘技术挖掘活动特征,进而对流程活动进行模块化,对流程模块提取相应的主题模型,以方便为模块组合推荐做准备;
步骤32、模块组合推荐:用户在进行建模工作之前,以需求文档、设计说明文本形式的内容来描述流程任务或者建模需求,对用户业务流程需求文档集合进行分词、去停顿词、取词干预处理操作后,同样对其进行用户所需功能主题提取,获取用户所需功能主题以及相应的特征词占比,通过文本信息在向量、空间模型下的余弦相似度匹配,寻找用户所需功能主题相近的流程模块;
步骤33、流程绩效预测:通过流程挖掘技术从流程日志数据库中获取业务流程特征,并且利用日志记录训练绩效预测模型,对模块组合推荐板块生成的业务流程进行绩效预测,给出TOP-N的推荐列表。
优选的,一种流程模型的自动化生成装置,包括:流程模块主体提取单元、流程绩效预测单元、流程模块组合单元;流程模块主体提取单元从流程日志中经过流程挖掘技术进行模块化分析后,基于LDA主题模型进行提取操作,流程绩效预测单元选取三层BP神经网络用于模型训练,采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型,流程模块组合单元基于训练好的业务流程绩效预测模型,得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,构建流程模块组合。
优选的,流程模块主体提取单元基于LDA主题模型进行提取操作,将流程日志中语义信息看作3层贝叶斯概率结构,通过分析模块中的语义信息,提取出隐含的主题结构,一个模块用多维主题向量及其相应的分布表示,对于其中的每一个主题用为多维特征词向量及特征词的分布表示。
优选的,流程绩效预测单元定义流程活动的流转率为其输出的质量得分与其消耗的时间及成本的比值,选取三层BP神经网络用于模型训练,采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型。
优选的,流程模块组合单元基于训练好的业务流程绩效预测模型,得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,通过自动化程序串联主体模型提取、模块组合推荐、流程绩效预测步骤,构建流程模块组合。
本发明的有益效果为:本发明基于LDA主题模型,通过提取最优的流程模块功能主题,揭示模块功能主题与案例描述的语义信息关系,有效提升模块主题挖掘的准确性;并且在自动化程序的帮助下,以BP神经网络得到的流程绩效模型进行计算,基于流程绩效预测值对推荐的流程模块组合进行构建和调优,其流程推荐效率也有了很大的提高。
附图说明
图1为本发明的方法流程示意图。
图2为本发明贝叶斯概率结构的拓扑结构示意图。
图3为本发明面向模块功能主题的LDA主题模型结构示意图。
具体实施方式
如图1所示,一种流程模型的自动化生成方法,包括如下步骤:
步骤1、流程模块主体提取;流程日志中包含活动的案例描述或者执行信息,这些信息往往是基于文本形式存在的。从流程日志中经过流程挖掘技术进行模块化分析后,基于LDA主题模型提取操作,能够提取流程模块的多维主题表示,获得流程模块主题模型的同时,保证主题模型结构的稳定性。该模型将流程日志中语义信息看作由模块语义信息层、功能主题层和特征词层组成的3层贝叶斯概率结构,其拓扑结构如图2所示。
面向模块功能主题的LDA主题模型结构如图3所示:其中圆圈代表隐藏变量,三角形代表可观测变量,矩形代表变量的重复。假设流程模块为D,其中包含了N个流程活动,潜在的功能主题数为K,定义字符含义如下:流程模块主题为其中/>为第k个功能主题的词的分布;第d个活动中主题所占比例为θd,其中θd,k为第k个主题在第d个活动中的比例;第d个流程活动的主题全体为Zd,其中Zd,n是第d个流程活动中第个词的主题;第d个流程活动中所有词记为Wd,其中Wd,n是第d个流程活动中第n个词。
面向模块功能主题的LDA主题模型能够通过分析模块中的语义信息,提取出隐含的主题结构。一个模块可以用多维主题向量及其相应的分布表示,对于其中的每一个主题又可以用为多维特征词向量及特征词的分布表示。即M={(Z1,Z2,……,ZT)},Zi={(W1,W2,……,Wn)},M表示某一流程模块的LDA主题模型。理想的模块主题模型应当使得各个主题之间关联度较低,即各主题之间独立性较高。
主题向量相似度公式:
Zi、Zj表示模块PM主题模型中的两个主题向量,Wik、Wjk分别表示Zi、Zj在向量空间中第k个特征词及分布,1≤k≤N。
模块所有主题之间的平均相似度可以表示该主题模型的结构稳定度,主体模型的结构稳定度公式:
而LDA主题模型的产生过程,就是在给定主题数目的情况下不断调节主题在向量空间中的词占比,从而达到各主题之间的关联度不断降低的过程。因此主题密度直接影响到模块功能主题结构的稳定程度。主题密度为以向量空间中该点为中心,以α为半径区域内主题的个数称为主题密度,α为给定的半径距离,计算公式为:
Density(Zi,α)=|distance(Zi,Z)|≤α
给定一个LDA主题模型M和整数n,模型中密度小于等于n的主题数目成为该LDA主题模型的基数,记作Cardi(M,n)。对于主题分布中的一个主题Z、给定半径α和阈值n,如果满足Density(Zi,α)≤n,则主题Z为向量空间中一个参考样本。
步骤2、流程绩效预测;首先定义流程绩效的评价指标,流程绩效评价指标应该体现流程“输入-过程-产出”的整体框架,兼顾流程整体的性能以及产出质量。定义流程活动的流转率为其输出的质量得分与其消耗的时间及成本的比值,令AF(a)为活动a的流转率,则可给出如下公式:
Output(a)为活动a的输出质量,通常由活动的输出经济效益表示。costi(a)表示活动a第i次的执行成本.processi(a)表示活动a第次的执行时间,h为活动a执行总次数。
基于活动的流转率,给出业务流程的绩效评价指标如下:
PF(BP)=(∑a∈BPηa×AF(a))/n
BP代表业务流程,ηa为活动a的权重调和因子。
神经网络算法能够自动学习多维输入与输出之间的复杂映射关系,并且无需事先知道输入与输出之间的数学方程联系。选取三层BP神经网络用于模型训练,采用Sigmoid激活函数用作神经元激活函数:
记业务流程特征属性为T,则基于流程挖掘技术可以从流程日志L中获取训练集TD={(T1,PF1),(T2,PF2),…,(Tn,PFn)}。将训练集输入后,设定神经元激活函数为Sigmoid函数。采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型。
步骤3、流程模块组合;基于训练好的业务流程绩效预测模型,可以得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,通过自动化程序串联主体模型提取、模块组合推荐、流程绩效预测步骤,构建流程模块组合。
①主题模型提取:负责从流程日志数据库中通过流程挖掘技术挖掘活动特征,进而对流程活动进行模块化。对流程模块提取相应的主题模型,以方便为模块组合推荐做准备。
②模块组合推荐:用户在进行建模工作之前,通常以需求文档、设计说明等文本形式的内容来描述流程任务或者建模需求。对用户业务流程需求文档集合进行分词、去停顿词、取词干等预处理操作后,同样对其进行用户所需功能主题提取,获取用户所需功能主题以及相应的特征词占比。通过文本信息在向量。空间模型下的余弦相似度匹配,寻找用户所需功能主题相近的流程模块。
③流程绩效预测:通过流程挖掘技术从流程日志数据库中获取业务流程特征,并且利用日志记录训练绩效预测模型,对模块组合推荐板块生成的业务流程进行绩效预测,给出TOP-N的推荐列表。
流程自动化生成的具体示例:输入流程模块集合D、初始主题数目K,输出各模块功能主题模型M,其寻找最优主题结构模块的LDA模型步骤如下:
①据给定K值以随机抽样方式得到初始模块主题模型M,初始化n=0。
②如果r、K未收敛,执行如下步骤。
③计算所有主题平均相似度r=AvgSim(M)。
④计算所有主题密度Density(Zi,r)。
⑤计算模型M的基数C=Cardi(M,n)。
⑥Kn+1=Kn+gn(r)(Kn-Cn),其中g(r)为r的变化方向指示函数,当r的变化方向与前一次方向相反时,gn+1(r)=-1×gn(r),当r的变化方向与前一次相同时,gn+1(r)=gn(r),g0(r)=-1。
⑦如果gn(r)=-1,将主题按密度从小到大排列,取前C个主题为参考样本,重新进行主题模型参数估计。
⑧如果gn(r)≠-1,重新采用抽样方式进行参数估计,利用Kn+1重新得到模块主题模型M,n=n+1。
基于LDA主题模型提取步骤得到一个结构稳定的模块主题模型。将用户建模所需的功能主体提取后,采用K近邻思想生成功能模块集合,通过基于小批量梯度下降法的BP神经网络训练得到的绩效预测模型对流程模块组合进行计算,以最大化流程绩效为目标对流程模块进行自动化的动态组合,以得到相对优化的业务流程模块推荐组合结果。
本发明基于LDA主题模型,通过提取最优的流程模块功能主题,揭示模块功能主题与案例描述的语义信息关系,有效提升模块主题挖掘的准确性。并且在自动化程序的帮助下,以BP神经网络得到的流程绩效模型进行计算,基于流程绩效预测值对推荐的流程模块组合进行构建和调优,其流程推荐效率也有了很大的提高。
Claims (10)
1.一种流程模型的自动化生成方法,其特征在于,包括如下步骤:
步骤1、流程模块主体提取;从流程日志中经过流程挖掘技术进行模块化分析后,基于LDA主题模型进行提取操作;
步骤2、流程绩效预测;选取三层BP神经网络用于模型训练,用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型;
步骤3、流程模块组合;基于训练好的业务流程绩效预测模型,得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,构建流程模块组合。
2.如权利要求1所述的流程模型的自动化生成方法,其特征在于,步骤1中,LDA主题模型将流程日志中语义信息看作贝叶斯概率结构,包括模块语义信息层、功能主题层和特征词层组成3层;通过模块语义信息推理出多个模块功能主体内容,每个模块功能主体能够分析出多个特征词。
3.如权利要求1所述的流程模型的自动化生成方法,其特征在于,步骤1中,面向模块功能主题的LDA主题模型结构包括隐藏变量、可观测变量和变量的重复;其中可观测变量为流程活动中的所有词,隐藏变量为流程主题词分布和流程活动中主题所占的比例,通过重复迭代隐藏变量参数进而推导出流程活动中所有主题词;其中,假设流程模块为D,其中包含了N个流程活动,潜在的功能主题数为K,流程模块主题为 为第k个功能主题的词的分布,第d个活动中主题所占比例为θd,θd,k为第k个主题在第d个活动中的比例,第d个流程活动的主题全体为Zd,Zd,n是第d个流程活动中第个词的主题,第d个流程活动中所有词记为Wd,Wd,n是第d个流程活动中第n个词。
4.如权利要求1所述的流程模型的自动化生成方法,其特征在于,模块所有主题之间的平均相似度可以表示该主题模型的结构稳定度,主体模型的结构稳定度公式:
主题密度直接影响到模块功能主题结构的稳定程度,主题密度为以向量空间中该点为中心,以α为半径区域内主题的个数称为主题密度,α为给定的半径距离,计算公式为:
Density(Zi,α)=|distance(Zi,Z)|≤α
给定一个LDA主题模型M和整数n,模型中密度小于等于n的主题数目成为该LDA主题模型的基数,记作Cardi(M,n);对于主题分布中的一个主题Z、给定半径α和阈值n,如果满足Density(Zi,α)≤n,则主题Z为向量空间中一个参考样本。
5.如权利要求1所述的流程模型的自动化生成方法,其特征在于,步骤2中,流程绩效预测具体为:定义流程绩效的评价指标,定义流程活动的流转率为其输出的质量得分与其消耗的时间及成本的比值,令AF(a)为活动a的流转率,则给出如下公式:
Output(a)为活动a的输出质量,由活动的输出经济效益表示,costi(a)表示活动a第i次的执行成本,processi(a)表示活动a第次的执行时间,h为活动a执行总次数;
基于活动的流转率,给出业务流程的绩效评价指标如下:
PF(BP)=(∑a∈BPηa×AF(a))/n
BP代表业务流程,ηa为活动a的权重调和因子;
选取三层BP神经网络用于模型训练,采用Sigmoid激活函数用作神经元激活函数:
记业务流程特征属性为T,则基于流程挖掘技术从流程日志L中获取训练集TD={(T1,PF1),(T2,PF2),…,(Tn,PFn)},将训练集输入后,设定神经元激活函数为Sigmoid函数,采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型。
6.如权利要求1所述的流程模型的自动化生成方法,其特征在于,步骤3中,构建流程模块组合具体包括如下步骤:
步骤31、主题模型提取:负责从流程日志数据库中通过流程挖掘技术挖掘活动特征,进而对流程活动进行模块化,对流程模块提取相应的主题模型,以方便为模块组合推荐做准备;
步骤32、模块组合推荐:用户在进行建模工作之前,以需求文档、设计说明文本形式的内容来描述流程任务或者建模需求,对用户业务流程需求文档集合进行分词、去停顿词、取词干预处理操作后,同样对其进行用户所需功能主题提取,获取用户所需功能主题以及相应的特征词占比,通过文本信息在向量、空间模型下的余弦相似度匹配,寻找用户所需功能主题相近的流程模块;
步骤33、流程绩效预测:通过流程挖掘技术从流程日志数据库中获取业务流程特征,并且利用日志记录训练绩效预测模型,对模块组合推荐板块生成的业务流程进行绩效预测,给出TOP-N的推荐列表。
7.一种基于如权利要求1所述的流程模型的自动化生成方法的生成装置,其特征在于,包括:流程模块主体提取单元、流程绩效预测单元、流程模块组合单元;流程模块主体提取单元从流程日志中经过流程挖掘技术进行模块化分析后,基于LDA主题模型进行提取操作,流程绩效预测单元选取三层BP神经网络用于模型训练,采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型,流程模块组合单元基于训练好的业务流程绩效预测模型,得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,构建流程模块组合。
8.如权利要求7所述的流程模型的自动化生成装置,其特征在于,流程模块主体提取单元基于LDA主题模型进行提取操作,将流程日志中语义信息看作3层贝叶斯概率结构,通过分析模块中的语义信息,提取出隐含的主题结构,一个模块用多维主题向量及其相应的分布表示,对于其中的每一个主题用为多维特征词向量及特征词的分布表示。
9.如权利要求7所述的流程模型的自动化生成装置,其特征在于,流程绩效预测单元定义流程活动的流转率为其输出的质量得分与其消耗的时间及成本的比值,选取三层BP神经网络用于模型训练,采用小批量梯度下降法更新流程绩效预测模型中的参数,经过多次迭代后,获得业务流程绩效预测模型。
10.如权利要求7所述的流程模型的自动化生成装置,其特征在于,流程模块组合单元基于训练好的业务流程绩效预测模型,得到业务流程模块组合后的流程绩效预测值,以最大化流程绩效为目标,通过自动化程序串联主体模型提取、模块组合推荐、流程绩效预测步骤,构建流程模块组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345532.8A CN116450704A (zh) | 2023-04-03 | 2023-04-03 | 一种流程模型的自动化生成方法及生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345532.8A CN116450704A (zh) | 2023-04-03 | 2023-04-03 | 一种流程模型的自动化生成方法及生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450704A true CN116450704A (zh) | 2023-07-18 |
Family
ID=87124922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310345532.8A Pending CN116450704A (zh) | 2023-04-03 | 2023-04-03 | 一种流程模型的自动化生成方法及生成装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450704A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495071A (zh) * | 2023-12-29 | 2024-02-02 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及系统 |
-
2023
- 2023-04-03 CN CN202310345532.8A patent/CN116450704A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495071A (zh) * | 2023-12-29 | 2024-02-02 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及系统 |
CN117495071B (zh) * | 2023-12-29 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN106779087A (zh) | 一种通用机器学习数据分析平台 | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
CN110472226A (zh) | 一种基于知识图谱的网络安全态势预测方法及装置 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN112989761A (zh) | 文本分类方法及装置 | |
CN115238197B (zh) | 一种基于专家思维模型的领域业务辅助分析方法 | |
CN113051927A (zh) | 基于多模态图卷积神经网络的社交网络突发事件检测方法 | |
CN114639483A (zh) | 一种基于图神经网络的电子病历检索方法及装置 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
CN116450704A (zh) | 一种流程模型的自动化生成方法及生成装置 | |
Adeyemo et al. | Effects of normalization techniques on logistic regression in data science | |
Cao | Design and optimization of a decision support system for sports training based on data mining technology | |
CN113989544A (zh) | 一种基于深度图卷积网络的群体发现方法 | |
He et al. | Representation learning of knowledge graph for wireless communication networks | |
Ahmed et al. | Predicting and analysis of students’ academic performance using data mining techniques | |
CN108491481B (zh) | 侵犯知识产权涉案当事人智能辨识主动预警系统及方法 | |
CN117764536B (zh) | 一种基于人工智能的创新创业项目辅助管理系统 | |
da Silva et al. | Automated machine learning for time series prediction | |
CN118607886B (zh) | 物资供需平衡规划方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |