CN117521658B - 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 - Google Patents
一种基于篇章级事件抽取的rpa流程挖掘方法及系统 Download PDFInfo
- Publication number
- CN117521658B CN117521658B CN202410003983.8A CN202410003983A CN117521658B CN 117521658 B CN117521658 B CN 117521658B CN 202410003983 A CN202410003983 A CN 202410003983A CN 117521658 B CN117521658 B CN 117521658B
- Authority
- CN
- China
- Prior art keywords
- sentence
- event
- information
- representing
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000008569 process Effects 0.000 title claims abstract description 71
- 238000000605 extraction Methods 0.000 title claims abstract description 56
- 238000005065 mining Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 72
- 238000010586 diagram Methods 0.000 claims abstract description 27
- 230000006399 behavior Effects 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000003062 neural network model Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004153 renaturation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于篇章级事件抽取的RPA流程挖掘方法及系统,涉及业务流程挖掘领域,包括:获取用户行为日志信息并进行预处理;对预处理后的文档进行命名实体识别;生成句子向量和提及向量;构建结构图且使用图神经网络计算节点全局信息;进行触发词分类和论元抽取;使用Alpha算法对提取粗的事件信息进行分析,输出RPA流程挖掘模型。篇章级事件抽取使得模型可以在更大的范围内计算多个句子中可能包含的事件上下文信息。使得模型可以通过事件间联系进一步提升事件提取的效果。同时Transformer模块的引入,使得模型可以获得相对于长短时记忆模块更为优秀的上下文信息,且基于BERT的编码器更是大幅降低了所需训练参数数量,减少了模型计算开销。
Description
技术领域
本发明涉及业务流程挖掘领域,尤其涉及一种基于篇章级事件抽取的RPA流程挖掘方法及系统。
背景技术
流程挖掘是一种通过提取事件日志中的有效数据并加以分析,从而优化业务流程的技术。在实际应用中,通过流程挖掘技术,企业可以持续监测大量重复流程,从中发现漏洞和缺陷并加以改善,从而提高企业运行中的工作效率。
由流程发现算法挖掘事件日志得到的是流程模型,挖掘结果和流程发现算法的性能和事件日志的质量均有关联。
篇章级事件抽取是同时处理一篇文档内的多个句子以获取事件信息,用于处理从文本文档中识别和提取事件及其属性,这些信息可用于理解真实世界的事件。篇章级事件抽取的过程通常包括几个步骤,包括文本预处理、事件检测、事件分类和事件属性抽取。
目前,传统流程挖掘过程中数据采集模块大多为手工输入日志信息,后期再结合人工来构建流程文档,针对大量重复性任务构建日志耗时耗力。传统方法需要手工设计切分规则,生成事件日志。因此事件日志的质量常常取决于人工切分规则的质量。然而,在一个流程中,用户执行多次不同的行为,每一次行为可以看做是一个事件,同一个流程中的行为之间还存在关联性。因此流程挖掘过程中不仅需要根据单条用户行为日志来描述用户行为,还要考虑到上下文知识。为了避免相关数据信息的丢失并构造更加完善的流程模型,有必要利用篇章级事件抽取对流程发现过程进行事件发现。因此如何将篇章级事件抽取技术结合到流程挖掘领域值得深入探索。
发明内容
为了解决上述问题,本发明提供了一种基于篇章级事件抽取的RPA流程挖掘方法及系统,适用于从用户行为日志信息整合的文档信息中进行事件抽取,通过上下文信息对多个句子中包含的事件信息进行挖掘,用于提升流程发现过程中事件抽取的精度。
一种基于篇章级事件抽取的RPA流程挖掘方法,包括:
S1:获取用户行为日志信息并进行预处理;
S2:对预处理后的文档进行命名实体识别;
S3:构建篇章级文本结构图,该篇章级文本结构图包含文档中的节点,对篇章级文本结构图中每一个节点进行初始化,将节点分为提及节点和句子节点,生成提及节点的向量信息和句子节点的向量信息;
S4:篇章级文本结构图建立后,根据句子节点的向量信息,使用多个图卷积层计算句子节点的嵌入向量;
S5:根据句子节点的嵌入向量,得到句子嵌入矩阵,进行触发词分类和事件参数提取;
S6:使用Alpha算法对提取出的事件信息进行分析,识别多场景下流程内隐含的结构和联系,输出RPA流程挖掘模型。
进一步地,步骤S1中,通过用户行为记录工具来记录用户执行业务流程中进行的操作,从而生成用户行为日志;预处理的过程为:将用户行为日志处理过程作为事件抽取任务,使用BERT对输入的中文文本序列进行编码,使用编码层将单词转为对应向量表示,在编码过程中将文档按句进行拆分,并对输入的句子按字依次编码得到对应的编码序列;
对于所有的句子集合,/>表示第i个句子,/>表示所有句子的数量,句子/>,/>表示第j个单词,|Si|表示第i个句子中的单词数,i,j均为正整数,通过公式(1)将句子/>转换句子向量:
其中,表示第i个句子/>对应的句子向量,/>表示第j个单词对应的向量,表示第j个单词属于第i个句子/>,/>()表示模型,用于将句子/>转换为句子向量;
经过BERT编码后,句子向量中每个字符对应的编码信息均会包含对应的位置编码信息。
进一步地,步骤S2中,命名实体识别采用的是CRF方法,将序列中的每个字符进行分类,输出结果为其所对应的BIO编码;
在事件抽取任务中需要提取的事件共有五类,每一类均有不同的参数域,设定每个参数的Begin标签和Inside标签;将特定事件的某参数域名称记做A,则对应的标签为B-A和I-A;对于每一个提及,其同样会获得一个编码信息,每个提及的嵌入编码由该提及所覆盖的所有的字符编码的平均值得出,即对于每一个提及m,其嵌入编码为:
其中,表示提及m的嵌入编码,/>()表示平均值函数,/>表示提及m对应的句子向量,/>表示第j个单词属于提及m。
进一步地,步骤S3中,构建篇章级文本结构图的过程为:提取提及和句子相互相关信息的各个边,篇章级文本结构图的边根据其所连接的节点可以被分为四类:句子-句子边、句子-提及边、内部提及-提及边和外部提及-提及边;
句子-句子边:所有的句子之间均使用句子-句子边相互连接,这些边用于捕捉句子间在文档全局的相关信息;
句子-提及边:对于某一句所包含的各个提及均会使用句子-提及边与该句子相互连接,用于捕捉句子内部的部分上下文信息;
内部提及-提及边:对于某一句子内部所包含的各个提及之间将会相互连接;
外部提及-提及边:对于指向相同实体的所有提及均会相互连接;提及节点的向量信息为每一个提及的嵌入编码,句子节点的向量信息为其所覆盖的所有字符的嵌入值的最大池化值再加上对应的位置嵌入,即:
其中,表示句子节点的向量信息,/>()表示最大池化,/>()表示位置嵌入。
进一步地,步骤S4中,使用多个图卷积层用于计算各个句子节点的嵌入向量,对于每一个句子节点均会输出一个嵌入向量,其中i为句子节点的编号,该句子节点的嵌入向量计算如下:
其中,表示句子节点的嵌入向量,/>表示一个可训练的矩阵,L为图卷积层的数量,/>为当前句子节点的初始嵌入信息,/>表示经过第1层图卷积得到的句子节点的嵌入信息,/>表示经过第L层图卷积得到的句子节点的嵌入信息。
进一步地,步骤S5中,利用句子节点的嵌入向量计算得到各个句子嵌入矩阵和各个实体嵌入矩阵,句子嵌入矩阵的计算公式如下所示:
其中,表示句子嵌入矩阵,|D|表示所有句子的数量,/>表示第1个句子表示的转置,/>表示第2个句子表示的转置,/>表示第|D|个句子表示的转置;
实体嵌入矩阵为其各个提及嵌入信息的平均,采用字符串匹配的方式搜索该实体的所有提及,得到实体嵌入矩阵,/>表示所有实体的数量,实体嵌入的计算公式如下所示:
(6)
其中,表示均值操作,/>表示第b个实体的嵌入向量,表示含有第/>个实体的句子节点,a、b均为正整数,a=1,2,...,/>;
通过实体嵌入矩阵,对句子节点和实体以上下文感知的方式进行交互表示;
利用产生的句子嵌入矩阵,基于一个多头注意力机制进行触发词分类,对文档进行多标签分类操作,即:
其中,表示多头注意力机制,/>表示激活函数,A表示注意力矩阵,/>表示注意力矩阵的转置,Sent表示句子嵌入矩阵,第一个Sent用作注意力机制中的键向量,第二个Sent用作注意力机制中的值向量,/>和/>为可训练参数,/>表示事件类型。
进一步地,步骤S5中,事件参数抽取的过程为:将事件参数抽取任务作为一个路径搜索任务,根据文档所包含的事件类型信息确定需要搜索的参数域,路径搜索按照参数域顺序进行,从一个虚拟的根节点开始,每次搜索均为一个路径扩展的子任务,当匹配到下一个句子节点时将会自动在全局记忆中记录当前搜索路径,若当前未搜索到句子节点时则添加一个NA节点,代表当前候选参数域可能不存在;路径扩展的子任务被建模为一组二分类问题,同时利用当前路径的状态、历史上下文信息和当前事件类型,使用一个线性分类器用于路径扩展分类;最终生成一个由各个实体路径所构成的搜索树,每一个叶子节点均对应了一个独立的事件记录;采用Tracker模块用于持续记录所有被提取的事件信息并将其存储于全局的记忆信息中,在路径扩展的过程中还会搜索全局记忆信息用于寻找当前事件和曾完成搜索的事件的相关性。
在Tracker模块中,每一个代表特定事件的实体序列均会被一个长短时记忆网络编码为一个向量/>并添加对应事件类型的嵌入信息,然后加入到全局记忆中,其中,/>表示特定事件的第1个实体,/>表示特定事件的第2个实体;在抽取过程中,给定一条包含前J-1个参数的路径/>,J为大于1的正整数,对于第J个参数,将有/>=E+,其中,/>表示增加了角色信息的实体嵌入矩阵,E表示实体嵌入矩阵,/>为第J位置的参数类型嵌入;然后将/>、句子嵌入矩阵Sent、当前搜索路径/>和全局记忆信息G进行拼接并输入到一个Transformer中得到一个新的针对当前实体的特征信息/>,对于路径扩展中所涉及到的二分类问题则会基于该特征信息进行分类。
进一步地,在步骤S6中,事件信息提取完毕后,采用Alpha算法对事件日志进行分析,识别多场景下流程内隐含的结构和联系;Alpha算法以事件日志为输入,抽象出事件日志中发生活动之间的紧邻、因果、并行、无关四种基本关系;根据基本关系的类型,生成对应足迹矩阵,然后根据预先设计的关系图建立输出流程模型,最终将事件日志转化为相应的流程模型。
一种存储设备,所述存储设备存储指令及数据用于实现所述的基于篇章级事件抽取的RPA流程挖掘方法。
一种基于篇章级事件抽取的RPA流程挖掘系统,包括:处理器及存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现所述的基于篇章级事件抽取的RPA流程挖掘方法。
本发明提供的技术方案带来的有益效果是:
与现有技术相比,本发明提出的技术方案通过构建篇章级文本结构图实现跨实体以及跨句子之间的一个信息交互,利用全局上下文来捕获跨不同句子的分散事件参数,输出完整的流程挖掘模型。本发明的方案可以:(1)通过篇章级事件抽取使得模型可以在更大的范围内计算多个句子中可能包含的事件,提高了处理用户日志信息的效率;(2)通过事件间联系提升事件提取效果,从而进一步提高生成RPA流程图的准确性;(3)在提升了相同时间内处理用户日志信息数量的同时,保持了准确的结果。
附图说明
图1是本发明实施例中基于篇章级事件抽取的RPA流程挖掘方法流程图;
图2是本发明实施例中异构图神经网络模型图;
图3是本发明实施例中硬件设备工作的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
请参考图1,图1是本发明实施例中基于篇章级事件抽取的RPA流程挖掘方法的流程图,包括下列步骤:
S1:获取用户行为日志信息并进行预处理;
S2:对预处理后的文档进行命名实体识别;
S3:构建篇章级文本结构图,该篇章级文本结构图包含文档中的节点,对篇章级文本结构图中每一个节点进行初始化,将节点分为提及节点和句子节点,生成提及节点的向量信息,进而得到句子节点的向量信息;
S4:篇章级文本结构图建立后,根据句子节点的向量信息,使用多个图卷积层计算句子节点的嵌入向量;
S5:根据句子节点的嵌入向量,得到句子嵌入矩阵,进行触发词分类和事件参数提取;
S6:使用Alpha算法对提取出的事件信息进行分析,识别多场景下流程内隐含的结构和联系,输出RPA流程挖掘模型。
该方法中通过用户行为记录工具来记录用户执行业务流程中进行的操作,从而生成用户行为日志,对用户行为日志进行预处理;
预处理的具体过程为:将用户行为日志处理过程当作是事件抽取任务,本发明在编码层直接使用了公开于HuggingFace上的中文预训练模型“bert-base-chinese”,用于将用户行为日志中的单词转为对应向量表示,使用BERT对输入的中文文本序列进行编码;在编码过程中将文档按句进行拆分,并直接调用HuggingFace提供的分词器(Tokenizer)对输入的句子按字依次编码得到对应的编码序列,HuggingFace是一个提供模型的平台,可用于直接调用模型;对于所有的句子集合,/>表示第i个句子,/>表示句子数,假定输入信息为一个句子/>,wj表示第j个单词,|Si|表示第i个句子中的单词数,i,j均为正整数,通过公式(1)将句子/>转换为句子向量:
其中,表示句子/>对应的句子向量,/>表示第j个单词对应的向量,()表示模型,用于将句子/>转变为输出的句子向量。
此时经过BERT编码后的句子向量中每个字符对应的编码信息均会包含对应的位置编码信息。
命名实体识别采用的是CRF方法,命名实体识别本质上是一个序列标注问题,其将序列中的每个字符进行分类,输出结果为其所对应的BIO编码。在本事件抽取任务中需要提取的事件共有五类,每一类均有不同的参数域,故Begin标签和Inside标签将会对应的被设定为每个参数的Begin标签和Inside标签;将特定事件的某参数域名称记做A,则对应的标签为B-A和I-A;对于每一个提及(mention),其同样会获得一个编码信息:每个提及的嵌入编码使用该提及所覆盖的所有的字符编码的平均值,即对于每一个实体提及m,其嵌入编码hm为:
其中,表示提及m的嵌入编码,mean()表示平均值函数,m表示一个实体提及(entity mention),/>表示提及m对应的句子向量,/>表示第j个单词属于提及m。
一个事件可能跨越文档中的多个句子,这意味着其相应的实体提及也可能分散在不同的句子中,为了识别和建模这些实体提及,需要构建一个篇章级文本结构图,该图包含文档中的实体提及节点和句子节点。
首先需要对篇章级文本结构图中每一个节点进行初始化,将节点分为提及节点和句子节点两类;提及节点的向量信息即公式(2)中每一个提及的嵌入编码hm,句子节点的向量信息为其所覆盖的所有字符的嵌入值的最大池化值再加上对应的位置嵌入信息,即:
其中,表示句子节点的向量信息,Maxpooling()表示最大池化,Sentpos()表示位置嵌入。
然后需要构建篇章级文本结构图,采用如图2所示的异构图神经网络模型来提取提及和句子相互相关信息的各个边。篇章级文本结构图中的边根据其所连接的句子节点可以被分为四类:句子-句子边、句子-提及边、内部提及-提及边和外部提及-提及边。
句子-句子边:所有的句子之间均使用句子-句子边相互连接。这些边将会捕捉句子间在文档全局的相关信息,这些信息包括了部分相隔较远的句子可能存在的关联信息。
句子-提及边:对于某一句所包含的各个提及均会使用句子-提及边与该句子相互连接,用于捕捉句子内部的部分上下文信息。
内部提及-提及边:此处的内部指句子内部,即对于某一句子内部所包含的各个提及之间将会相互连接。这些边的建立是基于同一句子内的各个提及大概率会属于同一事件的假设。
外部提及-提及边:对于指向相同实体的所有提及均会相互连接,此处的外部即这些提及不一定会在同一句子内。在篇章级事件提取任务中,单个实体可能会被多次在不同的句子中被提及,故可以使用这些边追踪这些被反复提及的实体从而捕捉一些分布于较远的句子间的单个事件信息。
篇章级文本结构图建立后,使用多个图卷积层用于计算各个句子节点的全局相关信息,对于每一个句子节点均会输出一个嵌入向量,其中i为为正整数,是句子节点的编号,该句子节点的嵌入向量计算如下:
其中,表示句子节点的嵌入向量,/>表示一个可训练的矩阵,L为图卷积层的数量,/>为当前句子节点的初始嵌入信息,/>表示经过第1层图卷积得到的句子节点的嵌入信息,/>表示经过第L层图卷积得到的句子节点的嵌入信息。最终将会计算得到各个句子嵌入矩阵和各个实体嵌入矩阵。
句子嵌入矩阵(即句子的嵌入信息)Sent计算如下:
其中,表示句子嵌入矩阵,D表示所有句子的集合,|D|表示所有句子的数量,表示第1个句子表示的转置,/>表示第2个句子表示的转置,/>表示第|D|个句子表示的转置,/>]表示矩阵的一列。
实体嵌入矩阵为其各个提及嵌入信息的平均,采用字符串匹配的方式搜索该实体的所有提及,得到实体嵌入矩阵,dm表示实体嵌入的维数,表示所有实体的数量,实体嵌入/>计算公式如下所示:
(6)
其中,表示均值操作,/>表示第b个实体的嵌入向量,表示含有第a个实体的句子节点,a、b均为正整数,a=1,2,...,/>;通过实体嵌入矩阵,对句子节点和实体以上下文感知的方式进行交互表示。
对于触发词分类,在使用异构图神经网络模型完成句子和实体的关系计算后,需要对文档内可能存在的候选事件进行初步分类,由于单一文档中可能存在多个不同类型的事件,需要检测所有可能的事件类型,即需要对文档进行多标签分类操作。分类使用产生的句子嵌入矩阵,基于一个多头注意力机制进行分类,即:
其中,()表示多头注意力机制,/>()表示激活函数,A表示注意力矩阵,/>表示注意力矩阵的转置,Sent表示句子嵌入矩阵,第一个Sent用作注意力机制中的键向量,第二个Sent用作注意力机制中的值向量;/>和/>为可训练参数,R表示事件类型,/>表示事件类型集合,/>表示事件的种类数量。
事件参数提取(argument extraction)的过程为:事件参数提取任务可以被视作一个路径搜索任务,该任务根据所得到的文档所包含的事件类型信息确定需要搜索的参数域。路径搜索按照参数域顺序进行,从一个虚拟的根节点开始,每次搜索均为一个路径扩展的子任务,当匹配到下一个合适的节点时将会自动在全局记忆中记录当前搜索路径,若当前未搜索到适当的节点时则添加一个NA节点,代表当前候选参数域可能不存在。路径扩展的子任务被建模为一组二分类问题,同时利用了当前路径的状态、历史上下文信息和当前事件类型,使用一个线性分类器用于路径扩展分类。最终生成一个由各个实体路径所构成的搜索树,每一个叶子节点均对应了一个独立的事件记录。考虑到不同的事件之间可能存在一定的联系,本发明应用Tracker模块来持续记录所有被提取的事件信息并将其存储于全局的记忆信息中,在路径扩展的过程中,Tracker模块还会搜索全局记忆信息用于寻找当前事件和曾完成搜索的事件的相关性。
在一个Tracker模块中,每一个代表特定事件的实体序列均会被一个长短时记忆网络编码为一个向量/>并添加对应事件类型的嵌入信息,然后加入到全局记忆中,其中,/>表示特定事件的第1个实体,/>表示特定事件的第2个实体。在抽取过程中,给定一条包含前J-1个参数的路径/>,J为大于1的正整数,对于第J个参数,将有/>=E+/>,其中,/>表示增加了角色信息的实体嵌入矩阵,E表示实体嵌入矩阵,/>为第J位置的参数类型嵌入。然后将/>、句子嵌入矩阵Sent、当前搜索路径/>和全局记忆信息G进行拼接并输入到一个Transformer中得到一个新的针对当前实体的特征信息/>,对于路径扩展中所涉及到的二分类问题则会基于该特征信息进行分类。
事件抽取完毕后,采用Alpha算法对事件日志进行分析,识别多场景下流程内隐含的结构和联系,输出流程模型(即petri网)。Alpha算法是流程挖掘领域的主流算法之一,基本思想是以事件日志为输入,抽象出事件日志中发生活动之间的紧邻、因果、并行、无关四种基本关系;然后根据基本关系的类型,生成对应足迹矩阵;然后根据预先设计的关系图建立petri网,最终将事件日志转化为相应的流程模型。
请参见图3,图3是本发明实施例的硬件设备工作示意图,所述硬件设备具体包括:一种基于篇章级事件抽取的RPA流程挖掘系统301,包括:处理器302及存储设备303;所述存储设备303存储指令及数据;所述处理器302加载并执行所述存储设备303中的指令及数据用于实现所述的基于篇章级事件抽取的RPA流程挖掘方法。
与现有技术相比,本发明提出的技术方案通过构建篇章级文本结构图实现跨实体以及跨句子之间的一个信息交互,利用全局上下文来捕获跨不同句子的分散事件参数,输出完整的流程挖掘模型。本发明的方案可以:(1)通过篇章级事件抽取使得模型可以在更大的范围内计算多个句子中可能包含的事件,提高了处理用户日志信息的效率;(2)通过事件间联系提升事件提取效果,从而进一步提高生成RPA流程图的准确性;(3)在提升了相同时间内处理用户日志信息数量的同时,保持了准确的结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于篇章级事件抽取的RPA流程挖掘方法,其特征在于,该方法包括:
S1:获取用户行为日志信息并进行预处理;
S2:对预处理后的文档进行命名实体识别;
S3:构建篇章级文本结构图,该篇章级文本结构图包含文档中的节点,对每一个节点进行初始化,将节点分为提及节点和句子节点,生成提及节点的向量信息和句子节点的向量信息;
构建篇章级文本结构图的过程为:提取提及和句子相互相关信息的各个边,篇章级文本结构图的边根据其所连接的节点可以被分为四类:句子-句子边、句子-提及边、内部提及-提及边和外部提及-提及边;
句子-句子边:所有的句子之间均使用句子-句子边相互连接,这些边用于捕捉句子间在文档全局的相关信息;
句子-提及边:对于某一句所包含的各个提及均会使用句子-提及边与该句子相互连接,用于捕捉句子内部的部分上下文信息;
内部提及-提及边:对于某一句子内部所包含的各个提及之间将会相互连接;
外部提及-提及边:对于指向相同实体的所有提及均会相互连接;提及节点的向量信息为每一个提及的嵌入编码,句子节点的向量信息为其所覆盖的所有字符的嵌入值的最大池化值再加上对应的位置嵌入,即:
其中,表示句子节点的向量信息,/>()表示最大池化,/>()表示位置嵌入;
S4:篇章级文本结构图建立后,根据句子节点的向量信息,使用多个图卷积层计算句子节点的嵌入向量;
S5:根据句子节点的嵌入向量,得到句子嵌入矩阵,进行触发词分类和事件参数提取;
利用产生的句子嵌入矩阵,基于一个多头注意力机制进行触发词分类,对文档进行多标签分类操作,即:
其中,表示多头注意力机制,/>表示激活函数,A表示注意力矩阵,/>表示注意力矩阵的转置,Sent表示句子嵌入矩阵,第一个Sent用作注意力机制中的键向量,第二个Sent用作注意力机制中的值向量;/>和/>为可训练参数,/>表示事件类型;
事件参数提取的过程为:将事件参数提取任务作为一个路径搜索任务,根据事件类型确定需要搜索的参数域,路径搜索按照参数域顺序进行,从一个虚拟的根节点开始,每次搜索均为一个路径扩展的子任务,当匹配到下一个句子节点时将会自动在全局记忆中记录当前搜索路径,若当前未搜索到句子节点时则添加一个NA节点,代表当前候选参数域可能不存在;路径扩展的子任务被建模为一组二分类问题,同时利用当前路径的状态、历史上下文信息和当前事件类型,使用一个线性分类器用于路径扩展分类;最终生成一个由各个实体路径所构成的搜索树,每一个叶子节点均对应了一个独立的事件记录;采用Tracker模块用于持续记录所有被提取的事件信息并将其存储于全局记忆信息G中,在路径扩展的过程中搜索全局记忆信息G,用于寻找当前事件和曾完成搜索的事件的相关性;
在Tracker模块中,每一个代表特定事件的实体序列均会被一个长短时记忆网络编码为一个向量/>并添加对应事件类型的嵌入信息,然后加入到全局记忆中,其中,/>表示特定事件的第1个实体,/>表示特定事件的第2个实体;在抽取过程中,给定一条包含前J-1个参数的路径/>,j为大于1的正整数,对于第J个参数,将有/>=E+/>,其中,/>表示增加了角色信息的实体嵌入矩阵,E表示实体嵌入矩阵,/>为第J位置的参数类型嵌入;然后将/>、句子嵌入矩阵Sent、当前搜索路径/>和全局记忆信息G进行拼接并输入到Transformer中,得到一个新的针对当前实体的特征信息/>,对于路径扩展中所涉及到的二分类问题则会基于该特征信息进行分类;
S6:使用Alpha算法对提取出的事件信息进行分析,识别多场景下流程内隐含的结构和联系,输出RPA流程挖掘模型。
2.根据权利要求1所述的基于篇章级事件抽取的RPA流程挖掘方法,其特征在于,步骤S1中,通过用户行为记录工具来记录用户执行业务流程中进行的操作,从而生成用户行为日志;预处理的过程为:将用户行为日志处理过程作为事件抽取任务,使用BERT对输入的中文文本序列进行编码,使用编码层将单词转为对应向量表示,在编码过程中将文档按句进行拆分,并对输入的句子按字依次编码得到对应的编码序列;
对于所有的句子集合,/>表示第i个句子,/>表示所有句子的数量,句子/>,/>表示第j个单词,|Si|表示第i个句子中的单词数,i,j均为正整数,通过公式(1)将句子/>转换为句子向量:
其中,表示句子/>对应的句子向量,/>表示第j个单词对应的向量,/>表示第j个单词属于第i个句子/>,/>()表示模型,用于将句子/>转换为句子向量;
经过BERT编码后,句子向量中每个字符对应的编码信息均会包含对应的位置编码信息。
3.根据权利要求2所述的基于篇章级事件抽取的RPA流程挖掘方法,其特征在于,步骤S2中,命名实体识别采用的是CRF方法,将序列中的每个字符进行分类,输出结果为其所对应的BIO编码;
在事件抽取任务中需要提取的事件共有五类,每一类均有不同的参数域,设定每个参数的Begin标签和Inside标签;将特定事件的某参数域名称记做A,则对应的标签为B-A和I-A;对于每一个提及,会获得一个嵌入编码,每个提及的嵌入编码由该提及所覆盖的所有的字符编码的平均值得出,即对于每一个提及m,其嵌入编码为:
其中,表示提及m的嵌入编码,/>()表示平均值函数,/>表示提及m对应的句子向量,/>表示第j个单词属于提及m。
4.根据权利要求3所述的基于篇章级事件抽取的RPA流程挖掘方法,其特征在于,步骤S4中,使用多个图卷积层用于计算各个句子节点的嵌入向量,对于每一个句子节点均会输出一个嵌入向量,其中i为正整数,为句子节点的编号,该句子节点的嵌入向量计算如下:
其中,表示句子节点的嵌入向量,/>表示一个可训练的矩阵,L为图卷积层的数量,为当前句子节点的初始嵌入信息,/>表示经过第1层图卷积得到的句子节点的嵌入信息,/>表示经过第L层图卷积得到的句子节点的嵌入信息。
5.根据权利要求4所述的基于篇章级事件抽取的RPA流程挖掘方法,其特征在于,步骤S5中,利用句子节点的嵌入向量计算得到各个句子嵌入矩阵和各个实体嵌入矩阵,句子嵌入矩阵的计算公式如下所示:
其中,表示句子嵌入矩阵,|D|表示所有句子的数量,/>表示第1个句子表示的转置,/>表示第2个句子表示的转置,/>表示第|D|个句子表示的转置;
实体嵌入矩阵为其各个提及嵌入信息的平均,采用字符串匹配的方式搜索该实体的所有提及,得到实体嵌入矩阵,/>表示所有实体的数量,实体嵌入的计算公式如下所示:
(6)
其中,表示均值操作,/>表示第b个实体的嵌入向量,表示含有第a个实体的句子节点,a、b均为正整数,a=1,2,...,/>;通过实体嵌入矩阵,对句子节点和实体以上下文感知的方式进行交互表示。
6.根据权利要求5所述的基于篇章级事件抽取的RPA流程挖掘方法,其特征在于,步骤S6中,事件信息提取完毕后,采用Alpha算法对事件日志进行分析,识别多场景下流程内隐含的结构和联系;Alpha算法以事件日志为输入,抽象出事件日志中发生活动之间的紧邻、因果、并行、无关四种基本关系;根据基本关系的类型,生成对应足迹矩阵,然后根据预先设计的关系图建立输出流程模型,最终将事件日志转化为相应的流程模型。
7.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1-6任一项所述的基于篇章级事件抽取的RPA流程挖掘方法。
8.一种基于篇章级事件抽取的RPA流程挖掘系统,其特征在于,包括:处理器及存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现权利要求1-6任一项所述的基于篇章级事件抽取的RPA流程挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410003983.8A CN117521658B (zh) | 2024-01-03 | 2024-01-03 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410003983.8A CN117521658B (zh) | 2024-01-03 | 2024-01-03 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521658A CN117521658A (zh) | 2024-02-06 |
CN117521658B true CN117521658B (zh) | 2024-03-26 |
Family
ID=89762993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410003983.8A Active CN117521658B (zh) | 2024-01-03 | 2024-01-03 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521658B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281149A (ja) * | 2002-03-26 | 2003-10-03 | Toshiba Corp | アクセス権限設定方法および構造化文書管理システム |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114491038A (zh) * | 2022-01-26 | 2022-05-13 | 宁波深擎信息科技有限公司 | 一种基于会话场景的流程挖掘方法、装置及设备 |
CN114610894A (zh) * | 2022-01-26 | 2022-06-10 | 清华大学 | 一种基于篇章语境的多任务联合知识挖掘方法及装置 |
CN115204144A (zh) * | 2022-07-14 | 2022-10-18 | 内蒙古大学 | 一种基于异构图卷积网络的篇章级事件提取方法及系统 |
CN115269512A (zh) * | 2022-07-26 | 2022-11-01 | 北京来也网络科技有限公司 | 结合rpa及ai实现ia的对象推荐方法、装置及存储介质 |
CN115757325A (zh) * | 2023-01-06 | 2023-03-07 | 珠海金智维信息科技有限公司 | 一种xes日志智能转换方法及系统 |
CN117236677A (zh) * | 2023-08-07 | 2023-12-15 | 安徽思高智能科技有限公司 | 一种基于事件抽取的rpa流程挖掘方法及装置 |
CN117236676A (zh) * | 2023-08-07 | 2023-12-15 | 安徽思高智能科技有限公司 | 一种基于多模态事件抽取的rpa流程挖掘方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032874A1 (en) * | 2016-07-29 | 2018-02-01 | Ca, Inc. | Document analysis system that uses process mining techniques to classify conversations |
CN113935502B (zh) * | 2021-10-15 | 2022-04-22 | 河海大学 | 基于双重注意力机制的面向大坝应急工况事件抽取方法 |
-
2024
- 2024-01-03 CN CN202410003983.8A patent/CN117521658B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281149A (ja) * | 2002-03-26 | 2003-10-03 | Toshiba Corp | アクセス権限設定方法および構造化文書管理システム |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114491038A (zh) * | 2022-01-26 | 2022-05-13 | 宁波深擎信息科技有限公司 | 一种基于会话场景的流程挖掘方法、装置及设备 |
CN114610894A (zh) * | 2022-01-26 | 2022-06-10 | 清华大学 | 一种基于篇章语境的多任务联合知识挖掘方法及装置 |
CN115204144A (zh) * | 2022-07-14 | 2022-10-18 | 内蒙古大学 | 一种基于异构图卷积网络的篇章级事件提取方法及系统 |
CN115269512A (zh) * | 2022-07-26 | 2022-11-01 | 北京来也网络科技有限公司 | 结合rpa及ai实现ia的对象推荐方法、装置及存储介质 |
CN115757325A (zh) * | 2023-01-06 | 2023-03-07 | 珠海金智维信息科技有限公司 | 一种xes日志智能转换方法及系统 |
CN117236677A (zh) * | 2023-08-07 | 2023-12-15 | 安徽思高智能科技有限公司 | 一种基于事件抽取的rpa流程挖掘方法及装置 |
CN117236676A (zh) * | 2023-08-07 | 2023-12-15 | 安徽思高智能科技有限公司 | 一种基于多模态事件抽取的rpa流程挖掘方法和装置 |
Non-Patent Citations (2)
Title |
---|
Robotic process automation using process mining — A systematic literature review;Najah Mary El-Gharib 等;Data & Knowledge Engineering;20230923;第1-22页 * |
面向业务过程挖掘和分析的事件日志预处理技术;赵海燕 等;小型微型计算机系统;20210824;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117521658A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783100B (zh) | 基于图卷积网络对代码图表示学习的源代码漏洞检测方法 | |
US11657230B2 (en) | Referring image segmentation | |
CN111488807B (zh) | 基于图卷积网络的视频描述生成系统 | |
CN113312500A (zh) | 一种面向大坝安全运行的事件图谱构建方法 | |
CN111008337B (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN111985538A (zh) | 基于语义辅助注意力机制的小样本图片分类模型及方法 | |
CN116308754B (zh) | 一种银行信贷风险预警系统及其方法 | |
CN113128237B (zh) | 一种服务资源的语义表征模型构建方法 | |
CN115146279A (zh) | 程序漏洞检测方法、终端设备及存储介质 | |
CN111985612A (zh) | 一种提高视频文本描述准确性的编码器网络模型设计方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
CN117236677A (zh) | 一种基于事件抽取的rpa流程挖掘方法及装置 | |
CN115455171A (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
Devi et al. | Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN117521658B (zh) | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及系统 | |
CN114359786A (zh) | 一种基于改进时空卷积网络的唇语识别方法 | |
CN117938951B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |