CN117455037A - 一种基于多模态案例知识图的生产业务流程剩余时间预测方法 - Google Patents
一种基于多模态案例知识图的生产业务流程剩余时间预测方法 Download PDFInfo
- Publication number
- CN117455037A CN117455037A CN202311322403.3A CN202311322403A CN117455037A CN 117455037 A CN117455037 A CN 117455037A CN 202311322403 A CN202311322403 A CN 202311322403A CN 117455037 A CN117455037 A CN 117455037A
- Authority
- CN
- China
- Prior art keywords
- case
- event
- entity
- local
- flow chart
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000008569 process Effects 0.000 title claims abstract description 57
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 38
- 230000008859 change Effects 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000003064 k means clustering Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000013439 planning Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Manufacturing & Machinery (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
本发明公开一种基于多模态案例知识图的生产业务流程剩余时间预测方法,步骤如下:首先,预处理事件日志数据;接着,提取和绘制局部流程图,以可视化事件顺序;然后,构建多模态案例知识图谱,通过扩展三元组来丰富信息;为不同实体和关系创建独立嵌入矩阵,处理局部流程图实体时使用卷积神经网络;随后,使用多关系图卷积网络学习各实体特征,通过最大池化生成案例的全局图谱特征。最后,利用Transformer编码器模型学习全局图谱特征和局部节点特征的变化,以准确预测新案例中事件的剩余时间。本发明通过构建多模态案例知识图谱,并使用Transformer捕获实体随案例的变化信息,能够更准确地预测生产业务流程中事件的剩余时间,从而提高生产效率和规划能力。
Description
技术领域
本发明属于业务流程管理技术领域,涉及业务流程的剩余时间预测方法。
背景技术
在现代制造业中,有效的生产业务流程管理对于提高生产效率、降低成本以及优化资源利用至关重要。然而,由于生产环境的复杂性和不确定性,准确预测生产业务流程的剩余时间成为一个充满挑战的问题。在传统的生产业务流程中,涉及多种资源、设备、人员和环境因素,因此生产业务流程的实际执行时间往往与预期存在差异。这种差异可能导致生产计划的不准确性,进而影响交付时间、资源规划和成本控制等方面。生产业务流程剩余时间预测有助于制造企业更好地优化生产业务流程,提前做出调整以应对可能的延迟或变动。同时,准确的剩余时间预测有助于改善生产计划的制定,确保交付时间的可靠性,并支持更有效的资源分配和成本管理。
传统的知识图谱是一种结构化的知识表示方法,它通过三元组构建图结构,能够综合整合多源信息、支持复杂的关联分析和推理,实时动态更新以及不确定性建模。这种方法有助于为预测模型提供全面的上下文背景,从而提高预测的准确性。然而,在生产业务流程中,涉及到多种数据模态,例如生产业务流程图信息和日志记录的文本信息。与此同时,生产业务流程通常以案例的形式存在,而传统的知识图谱难以适应案例之间的动态变化。此外,生产业务中的许多活动是重复出现的,进一步增加了知识图谱建模的复杂性。因此,迫切需要一种新型的知识图谱,它能够融合多模态数据,并能够根据案例的顺序动态建模实体之间的关系。这类知识图谱要能够记录事件随着案例的发生顺序而变化的情况,支持时间上的推理和预测。这将有助于更好地应对生产业务流程中的时间动态性和多模态数据特点,从而更准确地预测流程的剩余时间。
发明内容
为了能够结合生产业务流程的多模态数据来准确预测现代制造业中复杂生产业务流程的剩余时间,本发明提出一种基于多模态案例知识图的生产业务流程剩余时间预测方法。首先,预处理日志信息,对日志数据进行案例划分,抽取额外的流程图模态信息;然后将多模态案例知识呈现为带有案例信息的节点(实体),形成多关系有向图的结构;接着使用关系图卷积网络(Relation Graph Convolutional Networks,RGCN)作为领域聚合器来聚合同一案例的事件信息;最后引入transformer的事件编码器汇总过去事件序列的信息用于预测剩余时间。
一种基于多模态案例知识图的生产业务流程剩余时间预测方法,包括以下步骤:
(1)预处理事件日志数据,包括分割事件日志成案例、将时间戳转换为相对持续时间、通过K-Means聚类离散化时间间隔,并计算每个事件的剩余时间真值。
(2)局部流程图的提取和绘制。从事件日志中提取前缀轨迹,将其转化为Directly-Follows Graph来表示事件间的直接关系,然后绘制局部流程图,以图像模态展示事件顺序。
(3)构建多模态案例知识图谱。在这个图中,案例的所有信息和局部流程图被表示为节点,而通过扩展原始三元组为四元组的方式来定义这些关系,从而实现了更丰富的信息表示。
(4)嵌入四元组中的不同实体(包括事件类型实体、不同属性类型的实体和局部流程图实体)以及关系。首先,本发明构建了独立的嵌入矩阵,分别用于事件类型和不同属性类型的实体,以确保它们在嵌入空间中具有独特的表示。这些嵌入矩阵的训练使本发明能够将各个实体映射到嵌入向量空间。对于关系,本发明建立了一个独立的嵌入矩阵,用于明确表示不同关系的特征。对于局部流程图实体,本发明采用卷积神经网络(CNN)的方法进行处理。这包括使用卷积层提取特征图,以捕获局部区域的相关信息,然后通过池化层来减小特征图的尺寸,同时保留关键特征。随后,本发明将这些特征图展平为一维向量,并通过全连接层进一步处理,最终得到局部流程图实体的嵌入向量。
(5)采用多关系图卷积网络(RGCN)来聚合多模态案例知识图谱中每个实体的特征,其中步骤(4)中获得的嵌入向量被用作初始嵌入。这种网络结构能够通过多层神经网络来聚合不同实体之间的关系,以获得更丰富的表示。以下是详细的聚合过程的方法:
对于每个实体s在案例c的图谱中,本发明通过以下公式来计算聚合后的特征:
其中,表示案例c对应的图谱中实体s的特征;R是所有关系的集合;/>表示在案例c中头实体s在关系r的邻居集合;cs是一个正则化常量;/>是第l聚合层关系r的权重矩阵;/>是第l聚合层的权重矩阵;/>和/>在l=0时被设置为步骤(4)得到的初始嵌入向量。在公式中,本发明使用了多层神经网络来收集多跳邻居的特征,并结合权重矩阵进行线性变换。最后的结果通过激活函数σ进行非线性映射。为了获得案例c的全局图谱特征g(Gc),对案例c中所有实体的特征进行最大池化作为表示整个案例c的图谱特征。
(6)学习全局图谱特征序列和局部节点特征序列的变化过程,根据学习到的局部节点特征变化过程对处在新案例下的事件的剩余时间进行预测。
进一步,步骤(1)由以下步骤组成:
(1.1)分割事件日志案例。将事件日志按案例进行分割,并确保每个案例中的事件按执行顺序排列,每个案例代表一个完整的业务流程。
(1.2)转换时间戳为持续时间。将每个案例中的时间戳转换为持续时间,即计算每个事件相对于案例开始时间的时间间隔。这个转换消除了绝对时间的影响,而只保留了事件之间的相对时间关系。这是为了在分析中关注事件之间的时间间隔,而不受实际时间点的影响。
(1.3)应用K-Means聚类算法离散化持续时间。使用K-Means聚类算法对转换后的持续时间数据进行聚类。这个步骤旨在将相似的持续时间归类到同一类别中。这种聚类有助于将持续时间离散化,将相似的时间间隔划分为不同的时间区间。
(1.4)计算剩余时间真值。为每个事件计算其与案例结束时间点之间的剩余时间,即事件的剩余时间真值。这表示了从当前事件发生时刻到整个案例结束的时间间隔,为后续预测剩余时间提供真实值。离散化的时间聚类结果和每个事件的剩余时间真值将保存以备后续分析和计算使用。
进一步,所述的步骤(2)由以下步骤组成:
(2.1)对于每个案例,从事件日志中提取前缀轨迹。前缀轨迹指的是从案例开始直到特定事件的一系列事件序列。这意味着,对于每个事件日志中的案例,从开头到案例中的每个事件,都可以形成一个前缀轨迹。
(2.2)将这些前缀轨迹转换为Directly-Follows Graph(直接跟随图)。这是一种图结构,用于表示事件之间的直接关系。在这个图中,每个事件被表示为一个节点,而有向边则表示事件之间的顺序关系。如果事件A直接跟随事件B,那么就会有一条从节点B指向节点A的有向边。这种表示方式能够清晰地展示事件之间的顺序结构。
(2.3)绘制局部流程图。为了绘制这样的局部流程图,可以利用现有的工具和库,比如PM4PY库中提供的Directly-Follows Graph方法。该方法可以帮助将前缀轨迹转换为图像,其中节点代表事件,有向边表示事件之间的直接跟随关系。通过图像这种模态,可以更直观地观察和分析事件之间的流程演变。
进一步,所述的步骤(3)由以下步骤组成:
(3.1)扩展三元组为四元组。将传统的三元组(头实体,关系,尾实体)扩展为四元组(头实体,关系,尾实体,案例)。新加入的“案例”表示一个附加维度,表示所属于的案例,用于将图谱按照案例来分割和排序。
(3.2)构建事件类型之间的四元组。本发明将事件的不同类型都定义为一种实体。这些事件类型以及它们之间的关系被称为“下一事件”。以案例c为例,如果“事件类型1”直接后续“事件类型2”,本发明将这个关系表示为“下一事件”。这会形成一个四元组(s,r,o,c),其中s表示“事件类型1”,r表示关系“下一事件”,o表示“事件类型2”,而c表示所属的“案例c”。
(3.3)构建事件类型与属性值之间的四元组。本发明将事件的属性值也定义为实体。事件的属性名称则被视为一种关系。以案例c为例,如果事件类型1与事件资源1相关联,这会形成一个四元组(s,r,o,c),其中s表示“事件类型1”,r表示关系“事件资源名”,o表示“事件资源1”,而c表示所属的“案例c”。
(3.4)构建事件类型与局部流程图之间的四元组。局部流程图也被定义为一种实体。与局部流程图相关的关系被定义为“对应局部流程图”。在四元组(s,r,o,c)中,s代表事件类型实体,r表示关系“对应局部流程图”,o代表局部流程图,而c表示所属的案例c。
进一步,所述的步骤(6)由以下步骤组成:
(6.1)获取全局图谱特征序列。将从初始案例s到最终案例e的全局图谱特征序列表示为<g(Gs),……,g(Ge)>,这些特征是对整个图谱的汇总表示。
(6.2)获取局部特征序列。对每个节点<1,2,……,N>,将从初始案例s到最终案例e的局部特征序列表示为多个序列,如:
(6.3)滑动窗口处理。由于事件日志包含了大量案例,这导致了特征序列变得非常长,难以完全输入到模型进行训练。此外,通常来说,预测任务不需要过于久远的历史信息。因此,本发明采用滑动窗口的方式来限制全局图谱特征序列和局部特征序列的长度。在滑动窗口尚未达到最大容量K之前,本发明会使用零向量进行填充。
(6.4)学习全局图谱特征变化。将案例c之前的窗口中的全局图谱特征序列输入Transformer的编码器,以学习案例c之前全局图谱特征的变化过程Hc,可以表示为:
Hc=TransformerEncoder1(<g(Gc-(K-1)),……,g(Gc)>) 公式(2)
其中<g(Gc-(K-1)),……,g(Gc)>表示输入的序,TransformerEncoder1是一个Transformer编码器。Transformer编码器由多层编码器组成,每一层都包括两个主要组件:自注意力机制和前馈神经网络。自注意力机制用于计算一组键与查询的加权和,以生成自注意力输出。通常,每个编码器层包含多个独立的自注意力头部,它们分别计算自注意力输出,然后将这些头部的结果拼接在一起,并通过一个权重矩阵进行加权组合。在自注意力计算之后,还存在一个前馈神经网络,用于对多头自注意力输出进行非线性变换。
(6.5)学习局部实体特征变化。首先,针对实体n,提取在以案例c为结尾的窗口中的局部特征序列和已经学习到的全局序列<Hc-(K-1),……,Hc>。接着,将这两个序列拼接起来,形成一个新的序列/>最后将其作为输入,学习实体n在案例c之前的局部图谱特征序列变化过程/>可以表示为:
其中,表示输入序列。
(6.6)预测剩余时间。若给定案例c+1的前缀轨迹,轨迹的最后为事件类型n,则根据以下公式预测案例的剩余时间(remaining time):
其中,表示预测的剩余时间,en表示使用步骤(4)中方法得到的实体“事件类型n”的嵌入,“;”表示拼接,/>表示步骤(6.5)中得到的实体n在案例c之前的局部图谱特征序列变化过程,W1表示全连接层的权重矩阵。
本发明的技术构思是:首先构建一种多模态案例知识图谱,扩展三元组为四元组,并将结构化实体、关系和属性与文本和图像等多模态数据相结合。然后引入多关系图卷积网络来聚合多模态案例知识图谱得到每个实体的特征作为局部特征,多模态案例知识图谱的所有实体特征进行最大池化作为全局特征。最后将按照案例顺序排序的全局特征和局部特征使用transformer编码器来捕获案例和实体状态的动态变化。
本发明的优点是:多模态案例知识图谱整合了多种数据模态,包括结构化实体、关系和属性,以事件日志和图像等多模态数据。扩展了知识图谱的能力,使其能够记录实体之间的关系、事件顺序以及实体状态随案例的演变。引入多关系图卷积网络(RGCN)来学习图谱的结构化信息。这种方法增强了图谱分析的能力,使其能够更好地处理复杂的实体关系。采用Transformer架构来捕获实体随案例变化的过程,有助于更好地理解案例的多模态信息。
附图说明
图1为本发明的总体流程图;
图2为提取单个案例所有前缀轨迹的示例图;
图3为由图2中的所有前缀轨迹绘制而成的局部流程图的示例;
图4为单个案例的多模态案例知识图谱的示例图;
图5为多关系图卷积网络模型图;
图6为学习全局图谱特征序列和局部节点特征序列的变化过程示意图。
具体实施方式
以下结合说明书附图,对本发明作进一步描述。
参考附图1
一种基于多模态案例知识图的生产业务流程剩余时间预测方法,该方法包括:
(1)预处理事件日志数据,具体包括以下步骤:
(1.1)分割事件日志案例。将事件日志按案例进行分割,并确保每个案例中的事件按执行顺序排列,每个案例代表一个完整的业务流程。
(1.2)转换时间戳为持续时间。将每个案例中的时间戳转换为持续时间,即计算每个事件相对于案例开始时间的时间间隔。这个转换消除了绝对时间的影响,而只保留了事件之间的相对时间关系。这是为了在分析中关注事件之间的时间间隔,而不受实际时间点的影响。
(1.3)应用K-Means聚类算法离散化持续时间。使用K-Means聚类算法对转换后的持续时间数据进行聚类。这个步骤旨在将相似的持续时间归类到同一类别中。这种聚类有助于将持续时间离散化,将相似的时间间隔划分为不同的时间区间。
(1.4)计算剩余时间真值。为每个事件计算其与案例结束时间点之间的剩余时间,即事件的剩余时间真值。这表示了从当前事件发生时刻到整个案例结束的时间间隔,为后续预测剩余时间提供真实值。离散化的时间聚类结果和每个事件的剩余时间真值将保存以备后续分析和计算使用。
(2)局部流程图的提取和绘制,具体过程如下:
(2.1)对于每个案例,从事件日志中提取前缀轨迹。前缀轨迹指的是从案例开始直到特定事件的一系列事件序列。这意味着,对于每个事件日志中的案例,从开头到案例中的每个事件,都可以形成一个前缀轨迹。
(2.2)将这些前缀轨迹转换为Directly-Follows Graph(直接跟随图)。这是一种图结构,用于表示事件之间的直接关系。在这个图中,每个事件被表示为一个节点,而有向边则表示事件之间的顺序关系。如果事件A直接跟随事件B,那么就会有一条从节点B指向节点A的有向边。这种表示方式能够清晰地展示事件之间的顺序结构。
(2.3)绘制局部流程图。为了绘制这样的局部流程图,可以利用现有的工具和库,比如PM4PY库中提供的Directly-Follows Graph方法。该方法可以帮助将前缀轨迹转换为图像,其中节点代表事件,有向边表示事件之间的直接跟随关系。通过图像这种模态,可以更直观地观察和分析事件之间的流程演变。
(3)构建多模态案例知识图谱,具体步骤如下:
(3.1)扩展三元组为四元组。将传统的三元组(头实体,关系,尾实体)扩展为四元组(头实体,关系,尾实体,案例)。新加入的“案例”表示一个附加维度,表示所属于的案例,用于将图谱按照案例来分割和排序。
(3.2)构建事件类型之间的四元组。本发明将事件的不同类型都定义为一种实体。这些事件类型以及它们之间的关系被称为“下一事件”。以案例c为例,如果“事件类型1”直接后续“事件类型2”,本发明将这个关系表示为“下一事件”。这会形成一个四元组(s,r,o,c),其中s表示“事件类型1”,r表示关系“下一事件”,o表示“事件类型2”,而c表示所属的“案例c”。
(3.3)构建事件类型与属性值之间的四元组。本发明将事件的属性值也定义为实体。事件的属性名称则被视为一种关系。以案例c为例,如果事件类型1与事件资源1相关联,这会形成一个四元组(s,r,o,c),其中s表示“事件类型1”,r表示关系“事件资源名”,o表示“事件资源1”,而c表示所属的“案例c”。
(3.4)构建事件类型与局部流程图之间的四元组。局部流程图也被定义为一种实体。与局部流程图相关的关系被定义为“对应局部流程图”。在四元组(s,r,o,c)中,s代表事件类型实体,r表示关系“对应局部流程图”,o代表局部流程图,而c表示所属的案例c。
(4)嵌入四元组中的不同实体(包括事件类型实体、不同属性类型的实体和局部流程图实体)以及关系。首先,对于事件类型和不同属性类型的实体,本发明为每种类型构建了独立的嵌入矩阵,以确保每种实体类型在嵌入空间中有独特的表征。通过对这些嵌入矩阵进行训练,本发明能够将各个实体映射到向量空间中的嵌入向量。对于关系,本发明也构建了一个独立的嵌入矩阵,专门用于表示关系。这有助于在嵌入空间中明确表示不同关系的特征。至于局部流程图实体,本发明采用了卷积神经网络(CNN)的方法进行处理。首先,本发明使用卷积层来提取特征图,以捕捉局部区域的相关信息。然后,通过池化层来减小特征图的尺寸,同时保留重要的特征。在池化层之后,本发明将特征图展平成一维向量,并通过全连接层来进一步处理特征,从而得到局部流程图实体的嵌入向量。
(5)使用多关系图卷积网络(RGCN)来聚合多模态案例知识图谱中每个实体的特征,其中步骤(4)得到的嵌入向量被用作初始嵌入。这种网络结构能够通过多层神经网络来聚合不同实体之间的关系,以获得更丰富的表示。以下是详细的聚合过程的方法:
对于每个实体s在案例c的图谱中,本发明通过以下公式来计算聚合后的特征:
其中,表示案例c对应的图谱中实体s的特征;R是所有关系的集合;/>表示在案例c中头实体s在关系r的邻居集合;cs是一个正则化常量;/>是第l聚合层关系r的权重矩阵;/>是第l聚合层的权重矩阵;/>和/>在l=0时被设置为步骤(4)得到的初始嵌入向量。在公式中,本发明使用了多层神经网络来收集多跳邻居的特征,并结合权重矩阵进行线性变换。最后的结果通过激活函数σ进行非线性映射。为了获得案例c的全局图谱特征g(Gc),对案例c中所有实体的特征进行最大池化作为表示整个案例c的图谱特征。(6)学习全局图谱特征序列和局部节点特征序列的变化过程,根据学习到的局部节点特征变化过程对处在新案例下的事件的剩余时间进行预测,具体过程如下:
(6.1)获取全局图谱特征序列。将从初始案例s到最终案例e的全局图谱特征序列表示为<g(Gs),……,g(Ge)>,这些特征是对整个图谱的汇总表示。
(6.2)获取局部特征序列。对每个节点<1,2,……,N>,将从初始案例s到最终案例e的局部特征序列表示为多个序列,如:
(6.3)滑动窗口处理。由于事件日志包含了大量案例,这导致了特征序列变得非常长,难以完全输入到模型进行训练。此外,通常来说,预测任务不需要过于久远的历史信息。因此,本发明采用滑动窗口的方式来限制全局图谱特征序列和局部特征序列的长度。在滑动窗口尚未达到最大容量K之前,本发明会使用零向量进行填充。
(6.4)学习全局图谱特征变化。将案例c之前的窗口中的全局图谱特征序列输入Transformer的编码器,以学习案例c之前全局图谱特征的变化过程Hc,可以表示为:
Hc=TransformerEncoder1(<g(Gc-(K-1)),……,g(Gc)>) 公式(2)
其中<g(Gc-(K-1)),……,g(Gc)>表示输入的序,TransformerEncoder1是一个Transformer编码器。Transformer编码器由多层编码器组成,每一层都包括两个主要组件:自注意力机制和前馈神经网络。自注意力机制用于计算一组键与查询的加权和,以生成自注意力输出。通常,每个编码器层包含多个独立的自注意力头部,它们分别计算自注意力输出,然后将这些头部的结果拼接在一起,并通过一个权重矩阵进行加权组合。在自注意力计算之后,还存在一个前馈神经网络,用于对多头自注意力输出进行非线性变换。
(6.5)学习局部实体特征变化。首先,针对实体n,提取在以案例c为结尾的窗口中的局部特征序列和已经学习到的全局序列<Hc-(K-1),……,Hc>。接着,将这两个序列拼接起来,形成一个新的序列/>最后将其作为输入,学习实体n在案例c之前的局部图谱特征序列变化过程/>可以表示为:
其中,表示输入序列。
(6.6)预测剩余时间。若给定案例c+1的前缀轨迹,轨迹的最后为事件类型n,则根据以下公式预测案例的剩余时间(remaining time):
其中,表示预测的剩余时间,en表示使用步骤(4)中方法得到的实体“事件类型n”的嵌入,“;”表示拼接,/>表示步骤(6.5)中得到的实体n在案例c之前的局部图谱特征序列变化过程,W1表示全连接层的权重矩阵。
表1有电子产品生产业务流程记录的部分事件日志。
表1
其中,case:concept:name表示案例标识,案例指从流程起到流程终点的一次运行实例,案例标识是一个唯一的标识符,用于区分不同实例;concept:name表示事件类型,用于标识特定事件类型,如“Material requisition”(物料申请)、“Printing”(打印)、“SMT”等;time:timestamp表示时间戳,记录了事件的确切时间和日期;org:resource表示资源,记录了事件执行所需的资源,如“Storekeeper1”(仓库管理员1),“Printing PressOperator1”(印刷机操作员1),“SMT Machine Operator1”(SMT机器操作员1)等。
附图2和图3表示提取一个案例并绘制其所有局部流程图的例子,附图2中描述了对于电子产品生产事件日志的案例1抽取所有前缀轨迹,附图3中将所有的前缀轨迹绘制为局部流程图的过程。
附图4表示的是单个案例的多模态案例知识图的示例图。此例图表示电子产品生产事件日志的案例1构建的多模态案例知识图谱,其中白色圆形实体表示事件实体,灰色圆形实体表示资源属性实体,黑色圆形实体表示局部流程图实体,关系由单向箭头表示。
附图5表示多关系图卷积网络模型图。图卷积层的目标是将每个节点的特征与其邻居节点的特征进行聚合,以获得更丰富的节点表示。首先选择要更新的目标实体,该实体的当前表示用黑色圆形表示。目标实体的邻居实体用灰色圆形表示,它们是与目标实体直接相连的实体。对于每种不同类型的关系,从邻居实体(灰色圆形)中聚集信息。对于每一种关系类型(包括出边和入边),对聚集的信息进行变换。这个变换过程使用不同的权重矩阵来处理不同类型的关系,对变换后的信息进行规范化的求和再经RELU激活函数获得目标实体表示。
附图6表示学习全局图谱特征序列和局部节点特征序列的变化过程示意图。首先,模型需要同时考虑全局图谱特征和局部节点特征。全局特征是由当前案例中所有局部特征的最大池化(汇总)得到的,这代表了整个案例的全局信息。采用滑动窗口的方法控制不同案例之前的全局序列的长度,每个窗口的信息都会被输入到Transformer编码器1中,以学习不同案例之间的全局序列变化信息。接下来,对于每个案例的局部特征序列,本发明将其与对应的全局序列变化信息进行拼接。将这些拼接后的序列经过滑动窗口的方法截取后输入到Transformer编码器2中,以学习局部特征的变化信息。最后,在考虑特定实体的情况下,本发明结合了该实体的局部特征变化信息与其RGCN嵌入信息,然后通过全连接层来预测特定实体之后的剩余时间。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (7)
1.一种基于多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,包括如下步骤:
1)预处理事件日志数据,包括分割事件日志成案例、将时间戳转换为相对持续时间、通过K-Means聚类离散化时间间隔,并计算每个事件的剩余时间真值;
2)局部流程图的提取和绘制,从事件日志中提取前缀轨迹,将其转化为Directly-Follows Graph来表示事件间的直接关系,然后绘制局部流程图,以图像模态展示事件顺序;
3)构建多模态案例知识图谱,在这个图中,案例的所有信息和局部流程图被表示为节点,而通过扩展原始三元组为四元组的方式来定义这些关系,从而实现了更丰富的信息表示;
4)嵌入四元组中的不同实体以及关系,所述实体包括事件类型实体、不同属性类型的实体和局部流程图实体;
5)采用多关系图卷积网络(RGCN)来聚合多模态案例知识图谱中每个实体的特征,其中步骤(4)中获得的嵌入向量被用作初始嵌入;这种网络结构能够通过多层神经网络来聚合不同实体之间的关系,以获得更丰富的表示;
6)学习全局图谱特征序列和局部节点特征序列的变化过程,根据学习到的局部节点特征变化过程对处在新案例下的事件的剩余时间进行预测。
2.如权利要求1所述的多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,步骤1)具体包括以下步骤:
1.1)分割事件日志案例:将事件日志按案例进行分割,并确保每个案例中的事件按执行顺序排列,每个案例代表一个完整的业务流程;
1.2)转换时间戳为持续时间:将每个案例中的时间戳转换为持续时间,即计算每个事件相对于案例开始时间的时间间隔;
1.3)应用K-Means聚类算法离散化持续时间:使用K-Means聚类算法对转换后的持续时间数据进行聚类;
1.4)计算剩余时间真值:为每个事件计算其与案例结束时间点之间的剩余时间,即事件的剩余时间真值。
3.如权利要求1所述的多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,步骤2)具体包括以下步骤:
2.1)对于每个案例,从事件日志中提取前缀轨迹;所述前缀轨迹指的是从案例开始直到特定事件的一系列事件序列;对于每个事件日志中的案例,从开头到案例中的每个事件,都可以形成一个前缀轨迹;
2.2)将这些前缀轨迹转换为Directly-Follows Graph(直接跟随图),用于表示事件之间的直接关系;图中,每个事件被表示为一个节点,而有向边则表示事件之间的顺序关系;这种表示方式能够清晰地展示事件之间的顺序结构;
2.3)绘制局部流程图:利用现有的工具和库实现,将前缀轨迹转换为图像,其中节点代表事件,有向边表示事件之间的直接跟随关系;通过图像这种模态,可以更直观地观察和分析事件之间的流程演变。
4.如权利要求1所述的多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,步骤3)具体包括以下步骤:
3.1)扩展三元组为四元组:将传统的三元组(头实体,关系,尾实体)扩展为四元组(头实体,关系,尾实体,案例);新加入的“案例”表示一个附加维度,表示所属于的案例,用于将图谱按照案例来分割和排序;
3.2)构建事件类型之间的四元组:将事件的不同类型都定义为一种实体,这些事件类型以及它们之间的关系被称为“下一事件”;
3.3)构建事件类型与属性值之间的四元组:将事件的属性值也定义为实体,事件的属性名称则被视为一种关系;
3.4)构建事件类型与局部流程图之间的四元组;局部流程图也被定义为一种实体,与局部流程图相关的关系被定义为“对应局部流程图”,在四元组(s,r,o,c)中,s代表事件类型实体,r表示关系“对应局部流程图”,o代表局部流程图,而c表示所属的案例c。
5.如权利要求1所述的多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,步骤4)具体为:首先,构建了独立的嵌入矩阵,分别用于事件类型和不同属性类型的实体,以确保在嵌入空间中具有独特的表示,所述嵌入矩阵的训练能够将各个实体映射到嵌入向量空间;对于关系,建立了一个独立的嵌入矩阵,用于明确表示不同关系的特征;对于局部流程图实体,采用卷积神经网络(CNN)的方法进行处理,包括使用卷积层提取特征图,以捕获局部区域的相关信息,然后通过池化层来减小特征图的尺寸,同时保留关键特征;随后,将这些特征图展平为一维向量,并通过全连接层进一步处理,最终得到局部流程图实体的嵌入向量。
6.如权利要求1所述的多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,步骤5)具体聚合过程的方法如下:
对于每个实体s在案例c的图谱中,本发明通过以下公式来计算聚合后的特征:
其中,表示案例c对应的图谱中实体s的特征;R是所有关系的集合;/>表示在案例c中头实体s在关系r的邻居集合;cs是一个正则化常量;/>是第l聚合层关系r的权重矩阵;/>是第l聚合层的权重矩阵;/>和/>在l=0时被设置为步骤(4)得到的初始嵌入向量;
使用了多层神经网络来收集多跳邻居的特征,并结合权重矩阵进行线性变换;最后的结果通过激活函数σ进行非线性映射;为了获得案例c的全局图谱特征g(Gc),对案例c中所有实体的特征进行最大池化作为表示整个案例c的图谱特征。
7.如权利要求1所述的多模态案例知识图的生产业务流程剩余时间预测方法,其特征在于,步骤6)具体包括以下步骤:
6.1)获取全局图谱特征序列:将从初始案例s到最终案例e的全局图谱特征序列表示为<g(Gs),……,g(Ge)>,这些特征是对整个图谱的汇总表示;
6.2)获取局部特征序列:对每个节点<1,2,……,N>,将从初始案例s到最终案例e的局部特征序列表示为多个序列,如:
6.3)滑动窗口处理:采用滑动窗口的方式来限制全局图谱特征序列和局部特征序列的长度;在滑动窗口尚未达到最大容量K之前,使用零向量进行填充;
6.4)学习全局图谱特征变化:将案例c之前的窗口中的全局图谱特征序列输入Transformer的编码器,以学习案例c之前全局图谱特征的变化过程Hc,可以表示为:
Hc=TransformerEncoder1(<g(Gc-(K-1)),……,g(Gc)>) 公式(2)
其中<g(Gc-(K-1)),……,g(Gc)>表示输入的序,TransformerEncoder1是一个Transformer编码器;所述Transformer编码器由多层编码器组成,每一层都包括两个主要组件:自注意力机制和前馈神经网络;自注意力机制用于计算一组键与查询的加权和,以生成自注意力输出;通常,每个编码器层包含多个独立的自注意力头部,它们分别计算自注意力输出,然后将这些头部的结果拼接在一起,并通过一个权重矩阵进行加权组合。在自注意力计算之后,还存在一个前馈神经网络,用于对多头自注意力输出进行非线性变换;
6.5)学习局部实体特征变化:首先,针对实体n,提取在以案例c为结尾的窗口中的局部特征序列和已经学习到的全局序列<Hc-(K-1),……,Hc>;接着,将这两个序列拼接起来,形成一个新的序列/>最后将其作为输入,学习实体n在案例c之前的局部图谱特征序列变化过程/>可以表示为:
其中,表示输入序列;
6.6)预测剩余时间:若给定案例c+1的前缀轨迹,轨迹的最后为事件类型n,则根据以下公式预测案例的剩余时间(remaining time):
其中,表示预测的剩余时间,en表示使用步骤(4)中方法得到的实体“事件类型n”的嵌入,“;”表示拼接,/>表示步骤(6.5)中得到的实体n在案例c之前的局部图谱特征序列变化过程,W1表示全连接层的权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311322403.3A CN117455037A (zh) | 2023-10-13 | 2023-10-13 | 一种基于多模态案例知识图的生产业务流程剩余时间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311322403.3A CN117455037A (zh) | 2023-10-13 | 2023-10-13 | 一种基于多模态案例知识图的生产业务流程剩余时间预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117455037A true CN117455037A (zh) | 2024-01-26 |
Family
ID=89590069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311322403.3A Pending CN117455037A (zh) | 2023-10-13 | 2023-10-13 | 一种基于多模态案例知识图的生产业务流程剩余时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455037A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788203A (zh) * | 2024-02-28 | 2024-03-29 | 西安华联电力电缆有限公司 | 一种改进的交联聚乙烯绝缘电力电缆的高效生产制备方法 |
-
2023
- 2023-10-13 CN CN202311322403.3A patent/CN117455037A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788203A (zh) * | 2024-02-28 | 2024-03-29 | 西安华联电力电缆有限公司 | 一种改进的交联聚乙烯绝缘电力电缆的高效生产制备方法 |
CN117788203B (zh) * | 2024-02-28 | 2024-05-10 | 西安华联电力电缆有限公司 | 一种改进的交联聚乙烯绝缘电力电缆的高效生产制备方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108563739B (zh) | 天气数据获取方法及装置、计算机装置及可读存储介质 | |
CN111581454B (zh) | 基于深度图压缩算法的并行查询表现预测系统及方法 | |
CN110633277A (zh) | 时序数据存储方法、装置、计算机设备和存储介质 | |
US20070288443A1 (en) | Time series pattern generating system and method using historical information | |
CN109062763A (zh) | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 | |
US11836582B2 (en) | System and method of machine learning based deviation prediction and interconnected-metrics derivation for action recommendations | |
CN117455037A (zh) | 一种基于多模态案例知识图的生产业务流程剩余时间预测方法 | |
CN114757432B (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
US9390377B2 (en) | Iterative active feature extraction | |
US11017690B1 (en) | System and method for building computational models of a goal-driven task from demonstration | |
CN113139141A (zh) | 用户标签扩展标注方法、装置、设备及存储介质 | |
JP2023504103A (ja) | モデル更新システム、モデル更新方法及び関連装置 | |
CN114546365B (zh) | 一种流程可视化的建模方法、服务器、计算机系统及介质 | |
CN110781818B (zh) | 视频分类方法、模型训练方法、装置及设备 | |
CN110232130B (zh) | 元数据管理谱系生成方法、装置、计算机设备和存储介质 | |
CN117235606A (zh) | 特种不锈钢的生产质量管理方法及系统 | |
JP2004199377A (ja) | 遠隔監視診断システム | |
CN116484016A (zh) | 一种基于时序路径自动维护的时序知识图谱推理方法和系统 | |
CN117689321A (zh) | 业务数据处理方法及装置 | |
US20220172002A1 (en) | Dynamic and continuous composition of features extraction and learning operation tool for episodic industrial process | |
CN116703046A (zh) | 实时派工顺序的控制方法及系统、电子设备和存储介质 | |
CN112582080A (zh) | 一种物联网设备状态监测方法及系统 | |
CN114242196A (zh) | 临床医疗记录自动生成方法和装置 | |
Cupek et al. | Improving KPI based performance analysis in discrete, multi-variant production | |
CN113330382A (zh) | 控制装置、控制程序以及控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |