CN116467437A - 面向复杂场景描述的自动流程建模方法 - Google Patents
面向复杂场景描述的自动流程建模方法 Download PDFInfo
- Publication number
- CN116467437A CN116467437A CN202310535108.XA CN202310535108A CN116467437A CN 116467437 A CN116467437 A CN 116467437A CN 202310535108 A CN202310535108 A CN 202310535108A CN 116467437 A CN116467437 A CN 116467437A
- Authority
- CN
- China
- Prior art keywords
- event
- model
- flow
- flow model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000008569 process Effects 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向复杂场景描述的自动流程建模方法,首先,使用基于共享表示学习和结构化预测的方法,同步实现事件发现和事件关系抽取两个重要基础工作。其次,通过流程模型构建方法整合事件以及事件关系,得到从复杂场景描述中抽取的流程模型。最后,为了检测流程模型抽取的有效性,本发明通过基于图神经网络的流程模型相似度计算方法得到抽取出的流程模型与真实流程模型间的图相似度分数。本发明能够通过事件发现、事件关系抽取、流程模型构建等技术,从复杂场景的描述文本中自动抽取出业务流程模型。本发明使用了新颖的结合深度学习的流程模型一致性检测方法,能够快速客观地评估自动流程建模后结果的准确性。
Description
技术领域
本发明属于过程挖掘领域,尤其涉及一种面向复杂场景描述的自动流程建模方法。
背景技术
过程挖掘提供了数据挖掘和模型驱动的过程管理之间的桥梁,近年来被广泛研究和应用。过程挖掘中的过程发现任务旨在从系统捕获的事件日志中获取相应的流程模型,该技术为各种应用领域中的过程发现、监测和改进提供了新的手段。随着网络与普适计算的快速发展,企业被推入了高度数字化的大数据时代,物联网与数据分析成为了企业在数字时代获取竞争力的信息技术,进而驱动企业业务流程建模以大幅度提升生成效率、降低作业风险,增加客户满意度。
随着现代信息化的不断发展,业务流程建模工作已经达到了相当复杂的水平。面向快速变化的商业环境,当已有的业务流程无法满足新的业务需求时,就需要重新构建符合需求的业务流程模型。一方面,现有的方法要求建模人员对相关领域的知识非常熟悉,具备大量的相关知识结构和工作经历。建模人员往往难以充分地理解新业务的需求变更内容,进而造成构建模型与实际脱节。另一方面,信息时代下的业务流程十分复杂,各环节的要素相交错,完全依赖建模人员的操作构建业务流程模型往往会造成模型缺乏系统性和全面性,导致模型具有较大的不确定性。这类方法不仅耗费大量人力、物力和时间,而且存在出错等问题。另外,虽然传统基于流程挖掘或流程检索的建模辅助手段一定程度上提高了智能性技术的应用率,但依然需要大量的手动工作。更重要的是,现有的建模技术都是基于系统的事件日志进行的,只能应用到过程文本和结构化文本中,具有极大的局限性。
为了突破上述多种瓶颈,本设计提出面向复杂场景描述的自动流程建模方法,融合深度学习技术与传统的业务流程建模方法,将流程建模应用范围从过程文本扩展到非结构化文本,并能够实现从事件发现、事件关系识别到流程模型抽取的自动化操作。面向复杂场景描述的自动流程建模方法的具体步骤如下,首先,使用基于共享表示学习和结构化预测的方法,同步实现事件发现和事件关系抽取两个重要基础工作。其次,通过流程模型构建方法整合事件以及事件关系,得到从复杂场景描述中抽取的流程模型。最后,为了检测流程模型抽取的有效性,本发明通过基于图神经网络的流程模型相似度计算方法得到抽取出的流程模型与真实流程模型间的图相似度分数。本发明突破了以往面向过程文本的业务流程建模的瓶颈,可以实现从复杂场景的自然语言文本描述中自动建模出流程模型,可以大幅度提高业务流程建模的效率。另外,使用了新颖的结合深度学习的流程模型一致性检测方法,能够快速客观地评估自动流程建模后结果的准确性。
发明内容
本发明的目的在于针对现有技术的不足,提供面向复杂场景描述的自动流程建模方法,通过准备一个数据集,然后通过设计一个自动流程建模方法,从而有效地实现流程模型的自动构建,提高业务流程管理领域的建模效率。
本发明的目的是通过以下技术方案来实现,一种面向复杂场景描述的自动流程建模方法,包括以下步骤:
1)准备数据集,根据自动化流程建模工作的需求,我们需要先准备一个用于自动化流程建模的数据集,其中应包含文本、事件、事件关系和相应的流程模型四要素。
2)基于步骤1)准备的数据集,对输入文本进行预处理操作,以便能够输入到自动化建模模型中。
3)基于步骤1)与步骤2)训练事件与时序关系联合抽取模型。基于步骤1)与步骤2)训练事件与事件关系联合抽取模型。
4)基于步骤3)实现事件发现和事件关系识别的工作,使用具有共享表示学习和结构化预测的联合事件与事件关系抽取模型,抽取文本中的事件和事件关系。
5)基于步骤4)抽取的事件和事件关系构建流程模型的工作主要分为以下部分:整合事件关系、将所属同一文本的事件构成初始流程图、从初始流程图发掘流程图种子、添加流程图关键节点构成流程模型。此时即完成了流程模型的自动化构建。
6)基于步骤5)自动构建的流程模型,要构造用于流程模型一致性检测的训练数据集。
7)基于步骤6)构造的一致性检测数据集,训练基于图神经网络的流程模型一致性检测模型。
8)基于步骤7)训练后的一致性检测模型,进行流程模型的相似度对比,检测自动构建的流程模型与真实流程模型之间的差异程度,来评估自动流程建模方法的准确性。
步骤1)中,数据集的准备过程的具体步骤:
1.1)准备一定数量的文本,并且这些文章要满足非结构文本的要求。这里,我们使用的是信息抽取领域内常用的新闻文章,因为新闻稿中包含了大量真实发生并且相互关联的事件,可以进一步提取丰富的流程模型。
1.2)标注出每篇文章中存在的事件,并使用事件的触发词表示事件。
1.3)在标注事件的基础上,查找出文章中事件间存在的不同事件关系(包含BEFORE、AFTER、EQUAL、VAGUE四种类型,分别表示前、后、并行、无关),并将事件关系对的详细信息标注在相应的文章中。
1.4)根据事件以及事件关系,结合文章的语义,构造文章相关联的流程模型。
步骤2)中,文本的预处理操作:
2.1)去除停用词。
2.2)去除不包含事件的句子。
2.3)根据限定长度划分文章。
步骤3)中,事件和事件关系联合抽取模型的训练过程分为两部分:
3.1)先局部通过评分函数并使用交叉熵损失函数进行优化,从而训练得到事件、事件关系抽取模型。
3.2)基于步骤3.1)使用结构化推理学习进行训练,重新优化网络以调整全局的属性。
步骤4)中,事件发现和事件关系抽取:
4.1)通过允许事件发现和事件关系抽取模块可以共享相同的上下文嵌入和神经网络表示学习器,来增强事件的表示。
4.2)它利用结构化推理和学习方法,联合分配事件标签和事件关系标签,避免了传统管道式方法中的错误级联。
步骤5)中,流程模型自动构建过程:
5.1)将抽取得到的所有事件关系转换为BEFORE关系表述形式。在流程模型中的有向边表示事件间发生的先后关系,即可以直接用于流程模型构建的事件关系。例如,如果流程模型中存在一条边由事件A指向事件B,表示事件A发生在事件B之前,事件B的执行必须要经过事件A。所以,我们要将AFTER、EQUAL、VAGUE四种类型转换为BEFORE关系。
5.2)根据转换后的新事件关系,将每篇文章中的所有具有事件关系的事件对,按照事件发生的时间先后连接起来,作为初始流程图。
5.3)基于初始流程图,通过深度优先遍历方式将每篇文章对应的初始流程图划分为一个或多个流程图种子,其中,每个流程图种子要满足弱连通图的条件,即保证多个图之间没有任何关系。
5.4)在流程图种子中添加必要的起始节点、终止节点以及网关节点三类关键节点,其中网关节点用于区分选择结构和并行结构,此时即完成了最终流程模型的自动构建。
步骤6)中,构造用于流程模型一致性检测的训练数据集:
6.1)将真实正确的流程模型进行随机组合构成流程模型对。
6.2)通过豪斯多夫距离(Hausdorff Distance)和线性规划方法计算流程模型对的图编辑距离。
6.3)使用e-x函数将标准化图编辑距离转化为(0,1]范围内的分数,作为流程模型对真实正确的相似度分数,相似度分数的计算方式如下:
其中,gi表示流程模型,nGED(g1,g2)是标准化的GED,其计算方式如下:
其中,|Vi|表示流程模型gi的节点数,GED(g1,g2)表示两个流程模型的图编辑距离计算函数。
此时,流程模型一致性检测的训练数据已经构造完成,其中每条数据包含两个流程模型和其相应的相似度分数。
步骤7)中,流程模型一致性检测的训练过程,每次输入两个流程模型和相应的相似度分数,并使用均方误差损失函数优化整个模型,其计算方式如下:
其中,D是训练数据中的流程模型对集合,|D|表示流程模型对的个数,s(gi,gj)是流程模型对正确的相似度分数,表示预测的相似度分数,训练的目标是尽量降低损失L以达到较高的准确率。
步骤8)中,流程模型一致性检测的预测过程:
8.1)通过GCN(Graph Convolutional Networks)图卷积网络得到流程模型的节点嵌入表示。
8.2)利用Attention注意力机制考虑每个节点在整个流程模型中的重要程度,它以特定的相似性度量来强调重要的事件节点,并将每个流程模型映射为最终的图级嵌入,这个向量包含了流程模型的全局信息。
8.3)分别使用神经张量网络模块(Neural Tensor Network)和节点对比较模块(Pairwise Node Comparison),计算两个流程模型图级嵌入的相似度向量和节点的相关性特征,即从全局的粗粒度和局部的细粒度两个角度比较两个流程模型的相似性。
8.4)将上一步输出的两个向量特征拼接,并经过全连接层得到最终的流程模型相似度分数。
与现有技术相比,本发明具有如下优点:
本发明面向复杂场景描述的自动流程建模方法,突破了传统的业务流程建模工作中的只基于过程文本、人工依赖程度较大、对建模人员的业务知识和工作经历要求较高三大瓶颈,可以实现从复杂场景的自然语言文本描述中自动建模出流程模型。
另外,本发明使用了新颖的结合深度学习技术的流程模型一致性检测方法,能够计算出自动化建模的流程模型与真实流程模型之间的相似度,进而方便我们客观评估自动流程建模后结果的准确性以及所提出的自动流程建模方法的可用性和有效性。
附图说明
图1为技术路线图;
图2为文本、事件、事件关系示例;
图3为流程模型示例;
图4为流程图自动构建涉及的前三个步骤;
图5为最终的流程模型;
具体实施方式
下面结合附图以及具体实例对本发明提出的方法进行进一步的详细说明。
如图1所示,面向复杂场景描述的自动流程建模方法,包含以下步骤:
1)数据集准备模块,根据自动化流程建模工作的需求,我们需要准备用于自动化流程建模的数据集,其中应包含文本、事件、事件关系和相应的流程模型四要素,其相关数据如图2和图3所示。
2)基于步骤1)整理的相关语料信息,对输入文本进行预处理操作,以便能够输入到自动化建模模型中,其中包括去除停用词、不包含事件的无关句子、将文本划分为特定等长的句子。
3)基于步骤2)预处理后的文本,进行事件和事件关系联合抽取模型的训练过程,如图1中抽取模块所示:
3.1)先通过评分函数使用事件和事件关系打分函数进行事件发现和事件关系抽取两个模型单独的优化,从而训练得到事件、事件关系抽取模型;
3.2)基于步骤3.1)使用结构化推理学习进行联合训练,重新优化网络以调整全局的属性。
4)基于步骤2)预处理后的文本和步骤3)训练后的联合抽取模型,其预测过程如下:
4.1)将事件提及输入到事件发现和事件关系抽取模块中,事件提及先经过BERT获取文本相应的嵌入表示。
4.2)将文本嵌入表示传入BiLSTM层中,可以双向学习文本中的时序联系,并得到每个词语的嵌入向量,将两个词语的词嵌入向量分别放进事件打分函数和关系打分函数中,此时模型通过允许事件发现和事件关系抽取模块共享相同的上下文嵌入和神经网络表示学习器,来增强事件的表示。
4.3)通过两个打分函数可以得到两个词语是事件触发词的概率以及两个词语间候选的事件关系。
4.4)结合一个端到端可训练的神经结构支持向量机模型以及ILP约束进行结构化推理学习,同时确保事件及其事件关系的全局结构。其中,通过联合分配事件标签和事件关系标签,避免了传统管道式方法中的错误级联。其模型结构图如图1中事件发现和事件关系抽取模块所示。
最终的事件与事件关系联合抽取模型的预测结果如下表所示:
表1事件与事件关系联合抽取模型预测结果
从表1可以看出,模型的事件预测精确率达到了0.8136,实现了较好的效果。事件关系的抽取效果相对弱一些,精确率为0.5238。
5)流程模型的自动构建,如图1中流程模型构造模块:
5.1)要进行事件关系整合,将抽取得到的所有事件关系转换为BEFORE关系表述形式。其中,包括AFTER、EQUAL、VAGUE三种类型需要转换为BEFORE关系,AFTER关系的转换即把两个事件的位置前后调换。EQUAL关系的转换主要将关系中的事件存在的关系进行统一,保证EQUAL关系中的事件在流程图中的位置是可以相互替换的。VAGUE关系表示两个事件间并不存在任何关系,所以直接将其抛弃。将所有的其他关系类型转换为BEFORE关系后,我们就得到了新的事件关系集合。最终转换后的新事件关系如图4中新事件关系所示。
5.2)根据新的事件关系集合,将每篇文章中的所有具有事件关系的事件对,按照事件发生的时间先后连接起来,作为初始流程图。构建的初始流程图如图4所示。
5.3)基于初始流程图,通过深度优先遍历方式将每篇文章对应的初始流程图划分为一个或多个流程图种子,可以看到图4中的初始流程图包括3个流程图种子,将它们分离得到三个独立的图。
5.4)在流程图种子中添加必要的起始节点、终止节点以及网关节点三类关键节点,最终流程模型如图5所示。
6)流程模型一致性检测模型的训练过程,将数据集中真实流程模型两两组成流程模型对,求两者之间的图相似度分数作为训练数据,投入模型训练。
7)流程模型一致性检测过程,一致性检测模型的输入是步骤5)中自动构建的预测流程模型和真实正确的流程模型,如图1流程模型一致性检测模块所示,其预测过程如下:
7.1)两个图会通过GCN网络得到流程模型的节点嵌入表示。另外,利用Attention注意力机制考虑每个节点在整个流程模型中的重要程度,并将每个流程模型映射为最终的图级嵌入。
7.2)分别使用Neural Tensor Network神经张量网络模块和Pairwise NodeComparison节点对比较模块,计算两个流程模型图级嵌入的相似度向量和节点的相关性特征。
7.3)将步骤7.2)输出的两个向量特征拼接,经过全连接层得到最终的相似度分数。此时就可以根据输出的相似度分数来衡量自动流程建模方法的有效性。
例如,给出的图5中的流程模型与真实的流程模型计算出的相似度分数将为100%。下表为实验最终的结果:
表2自动流程模型抽取方法的预测结果
表2中,|V|表示真实的流程模型包含的平均节点数,表示自动抽取出的流程模型具有的平均节点数。|E|表示真实的流程模型包含的平均边数,/>表示自动抽取出的流程模型具有的平均边数。Score表示流程模型对的相似度分数,其数值越大效果越好。其中,抽取出的流程模型包含的节点数是相近的,边数平均相差4条。最终真实流程模型与自动抽取的流程模型的平均相似度分数可以达到0.518。
对于本领域的技术人员来说,可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (8)
1.一种面向复杂场景描述的自动流程建模方法,其特征在于,包括以下步骤:
1)准备数据集;
2)基于步骤1)准备的数据集,对输入的文章进行预处理操作,得到预处理后的文章;
3)基于步骤1)的数据集与步骤2)预处理后的文章训练事件与事件关系联合抽取模型;
4)通过步骤3)训练好的事件与事件关系联合抽取模型对预测文本进行事件发现和事件关系识别,抽取预测文本的事件和事件关系;
5)基于步骤4)抽取的事件和事件关系构建流程模型;
6)基于步骤5)构建的流程模型,构造用于流程模型一致性检测的训练数据集;
7)基于步骤6)构造的训练数据集,训练一致性检测模型;
8)基于步骤7)训练后的一致性检测模型,进行流程模型的相似度对比,检测自动构建的流程模型与真实流程模型之间的差异程度。
2.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤1)中,准备数据集,具体包括:
1.1)文章,满足非结构化文本的要求;
1.2)标注出每篇文章中存在的事件,并使用事件的触发词表示事件;
1.3)查找出文章中事件间存在的多种关系;
1.4)根据事件和事件关系,结合文章的语义,构造文章的流程模型。
3.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤2)中,对输入的文章进行预处理操作,具体包括:
2.1)去除停用词;
2.2)去除不包含事件的句子;
2.3)根据限定长度划分文章。
4.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤3)中,基于步骤1)的数据集与步骤2)预处理后的文章训练事件与事件关系联合抽取模型,具体包括:
3.1)输入数据集和预处理后的文章,先局部通过评分函数并使用交叉熵损失函数进行优化,训练得到事件、事件关系抽取模型;
3.2)对步骤3.1)获得的事件、事件关系抽取模型使用结构化推理学习进行训练,重新优化网络以调整全局的属性。
5.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤5)中,基于步骤4)抽取的事件和事件关系构建流程模型,具体包括:
5.1)将抽取得到的事件和事件关系转换为BEFORE关系表述形式,构成新的事件关系;
5.2)根据新的事件关系,构造初始流程图;
5.3)基于初始流程图,通过深度优先遍历方式将每篇预测文本对应的初始流程图划分为一个或多个流程图种子;
5.4)在流程图种子中添加必要的流程模型关键节点,构成流程模型。
6.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤6)中,基于步骤5)构建的流程模型,构造用于流程模型一致性检测的训练数据集,具体包括:
6.1)将流程模型进行随机组合构成流程模型对;
6.2)通过Hausdorff Distance和线性规划方法计算流程模型对中两个流程模型的图编辑距离GED(g1,g2),通过图编辑距离GED(g1,g2)得到标准化图编辑距离nGED(g1,g2);
nGED(g1,g2)是标准化的GED(g1,g2),其计算方式如下:
其中,|Vi|表示流程模型gi的节点数;
6.3)使用e-x函数将标准化图编辑距离转化为(0,1]范围内的分数,作为流程模型对真实正确的相似度分数,相似度分数score的计算方式如下:
7.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤7)中,训练一致性检测模型,具体包括:
流程模型一致性检测的训练目标,具体的损失函数为:
其中,D是训练数据中的流程模型对集合,|D|表示流程模型对的个数,s(gi,gj)是流程模型对正确的相似度分数,表示预测的两个流程模型相似度分数,训练的目标是尽量降低损失L以达到较高的准确率。
8.如权利要求1所述面向复杂场景描述的自动流程建模方法,其特征在于,步骤8)中,基于步骤7)训练后的一致性检测模型,进行流程模型的相似度对比,具体包括:
8.1)通过GCN网络得到流程模型的节点嵌入表示;
8.2)利用Attention注意力机制考虑每个节点在流程模型中的重要程度,将每个流程模型映射为最终的图级嵌入;
8.3)分别使用Neural Tensor Network和Pairwise Node Comparison,计算两个流程模型的图级嵌入的相似度向量和节点的相关性特征;
8.4)将图级嵌入的相似度向量和节点的相关性特征拼接,并经过全连接层得到最终的流程模型相似度分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310535108.XA CN116467437A (zh) | 2023-05-09 | 2023-05-09 | 面向复杂场景描述的自动流程建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310535108.XA CN116467437A (zh) | 2023-05-09 | 2023-05-09 | 面向复杂场景描述的自动流程建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467437A true CN116467437A (zh) | 2023-07-21 |
Family
ID=87184419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310535108.XA Pending CN116467437A (zh) | 2023-05-09 | 2023-05-09 | 面向复杂场景描述的自动流程建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467437A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273243A (zh) * | 2023-11-21 | 2023-12-22 | 数据空间研究院 | 一种用于时序事件预测的数据处理方法及装置 |
-
2023
- 2023-05-09 CN CN202310535108.XA patent/CN116467437A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273243A (zh) * | 2023-11-21 | 2023-12-22 | 数据空间研究院 | 一种用于时序事件预测的数据处理方法及装置 |
CN117273243B (zh) * | 2023-11-21 | 2024-02-09 | 数据空间研究院 | 一种用于时序事件预测的数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN112699377A (zh) | 基于切片属性图表示学习的函数级代码漏洞检测方法 | |
CN108710663B (zh) | 一种基于本体模型的数据匹配方法及系统 | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN111339313A (zh) | 一种基于多模态融合的知识库构建方法 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN116991869A (zh) | 一种基于nlp语言模型自动生成数据库查询语句的方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN114706559A (zh) | 一种基于需求识别的软件规模度量方法 | |
CN116467437A (zh) | 面向复杂场景描述的自动流程建模方法 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN112685452B (zh) | 企业案例检索方法、装置、设备和存储介质 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |