CN117236676A

CN117236676A - 一种基于多模态事件抽取的rpa流程挖掘方法和装置

Info

Publication number: CN117236676A
Application number: CN202310986999.0A
Authority: CN
Inventors: 袁水平; 孙晨晨; 陆振亚; 吴共庆; 吴信东
Original assignee: Anhui Sigao Intelligent Technology Co ltd
Current assignee: Anhui Sigao Intelligent Technology Co ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-12-15

Abstract

本发明公开了一种基于多模态事件抽取的RPA流程挖掘方法，包括：获取用户行为日志中多模态信息；对文本信息和图像信息分别进行处理；根据文本信息中句子的句法图和单词的上下文语义的表示信息，获得每个单词在公共空间的表示向量，根据图像信息的特征图和注意力图获得图像在公共空间的表示向量；根据单词和图像在公共空间的表示向量，对每个单词和图像进行事件触发词分类，实现对文本信息和图像信息的事件抽取，形成事件日志；对事件日志进行分析，识别多场景下流程内隐含的结构和联系，输出流程模型，将事件日志转化为相应的流程模型。通过多模态数据的融合，获取更加丰富的信息，从而提高事件抽取的准确性和完整性，更准确地进行流程挖掘工作。

Description

一种基于多模态事件抽取的RPA流程挖掘方法和装置

技术领域

本发明涉及流程挖掘技术领域，尤其涉及一种基于多模态事件抽取的RPA流程挖掘方法和装置。

背景技术

一个业务流程是在特定组织与技术环境下，为了实现共同的业务目标而进行的一组协同活动。不同行业的部门内往往存在大量的重复工作，也运行着各种业务流程。为了提高工作效率，改善用户体验，流程挖掘技术应运而生。流程挖掘是一种通过提取事件日志中的有效数据并加以分析，从而优化业务流程的技术。其主导思想是通过提取事件日志中的信息达到发现、预警、改进业务流程的目的。流程挖掘跨越多个学科，可以将传统方法(如业务流程建模和模型正确性验证)和新型方法(如自然语言处理、计算机视觉、深度学习等)相关联。在实际应用中，通过流程挖掘技术，企业可以持续监测大量重复流程，从中发现漏洞和缺陷并加以改善，能够极大的提高企业运行中的工作效率。

目前，传统流程挖掘过程中数据采集模块大多为手工输入日志信息，后期由人工构建流程文档，针对大量重复性任务构建日志耗时耗力；基础设施门槛高，只有IT建设比较完善的客户，希望内部流程改善或自动化的时候，可能才会考虑流程挖掘。这些问题亟待解决。

发明内容

有鉴于此，为了构造更加完善的流程模型，本发明提出一种基于多模态事件抽取的RPA流程挖掘方法，包括以下步骤：

S1、获取用户行为日志中多模态信息，所述多模态信息包括：文本信息和图像信息；

S2、对文本信息和图像信息分别进行处理，获取文本信息中句子的句法图和单词的包含上下文语义的表示信息、获取图像信息的特征图和注意力图；

S3、根据文本信息中句子的句法图和单词的包含上下文语义的表示信息，获得每个单词在公共空间的表示向量，根据图像信息的特征图和注意力图获得图像在公共空间的表示向量；

S4、根据单词和图像在公共空间的表示向量，对每个单词和图像进行事件触发词分类，实现对文本信息和图像信息的事件抽取，形成事件日志；

S5、用alpha算法对事件日志进行分析，识别多场景下流程内隐含的结构和联系，输出petri网表示的流程挖掘模型，将事件日志转化为相应的流程挖掘模型。

本发明还包括一种基于多模态事件抽取的RPA流程挖掘装置，所述装置包括：

处理器；

存储器，其上存储有可在所述处理器上运行的计算机程序；

其中，所述计算机程序被所述处理器执行时实现一种基于多模态事件抽取的RPA流程挖掘方法。

本发明提供的技术方案带来的有益效果是：

本发明通过获取用户行为日志中多模态信息；对文本信息和图像信息分别进行处理；根据文本信息中句子的句法图和单词的上下文语义的表示信息，获得每个单词在公共空间的表示向量，根据图像信息的特征图和注意力图获得图像在公共空间的表示向量；根据单词和图像在公共空间的表示向量，对每个单词和图像进行事件触发词分类，实现对文本信息和图像信息的事件抽取，形成事件日志；对事件日志进行分析，识别多场景下流程内隐含的结构和联系，输出流程模型，将事件日志转化为相应的流程模型。本发明的技术方案可以：

(1)通过多模态数据的融合，可以获取更加丰富的信息，从而提高事件抽取的准确性和完整性。此外，不同的数据源提供了不同的视角，因此多模态事件抽取可以从多个角度对事件进行分析，从而更好地理解事件本身。

(2)提高了事件检测的准确性和鲁棒性：多模态事件检测可以利用多个模态数据之间的互补性来提高事件抽取的准确性和鲁棒性，从而减少漏检和误判的可能性。确保用于后续流程挖掘分析的事件信息的准确性和相关性，从而更准确地进行流程挖掘工作。

附图说明

图1是本发明一种基于多模态事件抽取的RPA流程挖掘方法的流程图；

图2是本发明实施例输出流程模型的petri网。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本发明实施例中的术语解释：

RPA

RPA(Robotic Process Automation)全称为“机器人流程自动化”，主要是通过模拟并增强人与计算机的交互过程、执行基于一定规则的可重复任务的软件解决方案。RPA通过软件模拟人在电脑上的操作，按照预定的规则自动地执行流程化任务。RPA软件根据设定的流程完成计算机操作，替代或者辅助人完成规则明确的重复性劳动，是一种“数字劳动力”。现实工作中有大量重复性的操作需要完成，在这些重复工作中引入RPA技术，可以大幅提高生产效率，同时降低成本。只要预先设计好使用规则，RPA就可以模拟人进行复制、粘贴、点击、输入等行为，协助人类完成大量规则较为固定、重复性较高、附加值较低的工作，如信贷申请、发票识别与录入、银行对账、报销审核与管理、会议室预定、资料归档、人事招聘等任务。RPA的应用可使工作时间从“小时”级被压缩到“秒”级，且精准率可达99.9％。RPA技术的应用可使员工从繁琐的重复性流程中解放出来，将精力聚焦于有更高价值的分析、决策等环节。为了增强RPA机器人流程自动化的拟人化分析和决策判断能力，近年来，很多公司在RPA机器人流程自动化项目中引入了人工智能技术。

多模态

多模态是指处理、分析、理解和整合来自多种不同数据源的信息的技术。这些数据源可以是文本、图像、音频、视频等多种类型的数据。人工智能研究经过70多年的探索，在视觉、语音与声学、语言理解与生成等单模态人工智能领域已经取得了巨大的突破。然而，人类对周围环境的感知、对信息的获取和对知识的学习与表达都是多模态的。研究发现，由于多模态数据从不同的视角来描述物体，往往具有相辅相成的特点，因此其所能提供的信息要多于单模态数据。因此，利用多个模态所提供的综合语义具有重要的意义。多模态表示学习包括对多模态数据的表示(或特征)的学习，当开发预测模型时，这些表示(或特征)可以帮助提取有用的信息。

事件抽取

事件是指发生在某个特定时间点或时间段，某个特定地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。事件抽取是一个重要的信息抽取子任务，主要研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式呈现，这对人们认知世界有着深远的意义，是信息检索、事理图谱构建、认知RPA等相关应用的基础。事件抽取可以分为事件检测、事件元素抽取两个子任务。事件抽取任务需要检测出触发词和多个事件元素。其中，事件检测任务就是从给定的文本中识别触发词并进行正确分类。事件元素抽取就是根据事件表示框架判断文本中的实体是否为事件元素，并确定元素角色。

Bi-LSTM模型

Bi-LSTM是由前向LSTM与后向LSTM组合而成，利用LSTM对句子进行建模存在一个问题：无法编码从后到前的信息。而通过Bi-LSTM可以更好的捕捉双向的语义依赖。

LSTM的关键是单元状态，用来保存当前单元的状态信息并传递给下一时刻的单元。LSTM主要设计了三种功能不同的控制门结构，包括输入门、输出门、遗忘门。这三种门的作用是控制模型中信号的保留和传递，具体的计算公式如下：

c_t＝i_t⊙d_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中，t是时间步长，i_t是输入门，f_t是遗忘门，o_t是输出门，d_t是临时状态，c_t是存储单元状态，通过随机初始化获得c_t初始值，h_t是隐藏状态，x_t是当前时间步的输入，σ是激活函数，W_L、b_L为网络参数。

本发明提出一种基于多模态事件抽取的RPA流程挖掘方法，参考图1，图1是本发明一种基于多模态事件抽取的RPA流程挖掘方法的流程图，包括以下步骤：

S1、获取用户行为日志中多模态信息，所述多模态信息包括：文本信息和图像信息。

文本信息为用户与软件交互时，所记录的每个操作相关元素的软件特有信息。

图像信息为通过监控用户操作系统的图形界面，记录用户与应用软件交互时每个键盘或鼠标的操作信息，包含键盘输入内容和鼠标点击信息以及监听系统键盘和鼠标的操作事件、操作触发的时间戳、交互界面截图。

S2、对文本信息和图像信息分别进行处理，获取文本信息中句子的句法图和单词的包含上下文语义的表示信息、获取图像信息的特征图和注意力图。

对文本信息进行处理具体过程为：

(1)将文本信息的每个句子表示为token序列S＝(w₁,w₂,…,w_n)，将句子进行标注获取对应的句法图，基于Stanford CoreNLP的命名实体识别和词性(POS)标注结果，每个单词我们拼接它的词嵌入向量，实体向量，位置向量。其中w_n为文本信息中的单词，n表示单词总数；将句子的依存句法树加入自环和反向边，构成一个带自环的双向连通图。考虑到训练数据规模，本发明不对不同的依存关系进行区分，仅保留“正向”、“反向”和“自环”三种类型。具体地，该步骤以邻接矩阵的形式存储三种边，分别命名为A_along，A_rev和A_loop。

(2)对文本信息中的每个单词进行映射处理，通过查找预先训练的词嵌入表获取每个单词的有语义关系的词嵌入向量。

(3)通过查找实体向量表将日志中的实体映射为实体向量；

(4)拼接词向量和实体向量得到最终的表示向量序列X；

(5)使用Bi-LSTM模型对表示向量序列X进行学习，输出每个单词的包含上下文语义的表示信息，具体为：

其中，X＝{x₁,x₂,...,x_n}，x_i表示第i个单词表示向量，||表示拼接操作，Bi-LSTM的输出为H，其中H＝{h₁,h₂,...,h_n}，表示前向LSTM的编码结果，/>表示后向LSTM的编码结果，将/>和/>拼接后得到h_i。

对图像信息进行处理过程为：

针对每张图像构建一个基于角色驱动的注意力图，即热力图，其中每个参数节点通过基于角色r的空间分布注意力导出。

利用r构建参数节点的注意力向量，每个图像m使用一个VGG-16CNN抽取一个7×7卷积特征图，被当作注意力中的关键字。对于每一个目标检测定义的角色r，通过拼接角色编码r和图像的特征构建注意力中的query向量。

具体为：使用VGG-16网络提取图像m的特征本实施例中，使用VGG-16CNN提取每个图像的7×7卷积特征图，可视为7×7本地区域的注意力关键字。

本实施例中针对图像使用情境图来表示每个图像，情境图是一个星型图，其中中心节点标记为动词参数为v，相邻节点是标记为{(c，r)}的参数，其中c是从WordNet中派生的名词来指示实体类型，而r则根据FrameNet中实体在事件中扮演的角色来表示。在情境识别本体论中定义的每个实体在事件中扮演的角色r，通过将角色r与图像特征作为上下文连接并应用全连接层来构建一个注意力查询向量q_r：

其中，；表示拼接操作，W_q和b_q为权重矩阵和偏置项；

计算每个查询向量与所有关键字的点积，并进行Softmax操作，形成图像的注意力图u＝[u₁,u₂,…,]，公式如下：

其中，u_i为第i个图像的注意力图，k_i是图像的第i部分的表示，k_j是图像的第j部分的表示，t×t为VGG-16网络提取图像的卷积核大小。

S3、根据文本信息中句子的句法图和单词的富含上下文语义的表示信息，获得每个单词在公共空间表示：

其中，表示句法图第i个节点经过图卷积网络第d₁层后的表示，N₁(i)表示句法图第i个节点的邻居节点的集合，E₁(ij)是连接单词w_i和w_j的边的类型，d₁表示第一图卷积网络层数，f表示Sigmoid函数，/>表示门控机制，/>表示第一图卷积网络第d₁层中单词的向量表示，j表示句法图第i个节点的邻居节点，/>和/>分别表示权重和偏置项，将每个单词在第一图卷积网络的最后一层的隐藏状态作为每个单词在公共空间的表示向量w^l。

根据图像信息的特征图和注意力图获得图像在公共空间的表示向量公式为：

其中，表示情境图第i个节点经过第二图卷积网络第d₂层后的表示，N₂(i)表示情境图第i个节点的邻居节点的集合；E₂(ij)表示在所述情境图的第i个节点和第j个节点之间的边关系；f表示Sigmoid函数；/>表示门控机制；/>表示第二图卷积网络第d₂层中特征图中第j个节点的向量表示，j表示情境图第i个节点的邻居节点；/>和/>分别表示权重和偏置项；将每个图像在第二图卷积网络的最后一层的隐藏状态作为图像在公共空间的表示向量m^l。

S4、根据单词和图像在公共空间的表示向量，对每个单词和图像进行事件触发词分类，实现对文本信息和图像信息的事件抽取，形成事件日志。

根据单词在公共空间的表示向量，使用softmax函数对每个单词进行事件触发词分类，softmax函数的作用就是计算一组数值中每个值的比重，这些比重分别表示该单词属于不同标签的概率，公式为：

其中，e₁和e₁ ^′表示单词不同的标签，表示单词w属于标签e₁的概率，/>和/>为不同的权重矩阵，w^l为每个单词在公共空间的表示向量，/>和/>为不同的偏置项。

根据图像在公共空间的表示向量，使用softmax函数对图像进行事件触发词分类，softmax函数的作用就是计算一组数值中每个值的比重，这些比重分别表示该单词属于不同标签的概率，公式为：

其中，e₂和e₂ ^′表示图像不同的标签，表示图像m属于标签e₂的概率，/>和/>为不同的权重矩阵，/>和/>为不同的偏置项，m^l为图像在公共空间的表示向量。

S5、用Alpha算法对事件日志进行分析，识别多场景下流程内隐含的结构和联系，输出流程模型的petri网，如图2所示，将事件日志转化为相应的流程模型。

Alpha算法是流程挖掘领域的主流算法之一，基本思想是以事件日志为输入，抽象出事件日志中发生活动之间的紧邻、因果、并行、无关四种基本关系；然后根据基本关系的类型，生成对应足迹矩阵；然后根据预先设计的关系图建模petri网，最终将事件日志转化为相应的流程模型。petri网是一种流程挖掘模型的表示方式，能够描述流程中各种活动之间的紧邻、因果、并行、无关四种基本关系。

本发明还提出一种基于多模态事件抽取的RPA流程挖掘装置，包括：

处理器；

存储器，其上存储有可在所述处理器上运行的计算机程序；

其中，计算机程序被所述处理器执行时实现一种基于多模态事件抽取的RPA流程挖掘方法。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S1中所述文本信息为用户与软件交互时，所记录的每个操作相关元素的软件特有信息；所述图像信息为通过监控用户操作系统的图形界面，记录用户与应用软件交互时每个键盘或鼠标的操作信息，包含键盘输入内容和鼠标点击信息以及监听系统键盘和鼠标的操作事件、操作触发的时间戳、交互界面截图。

3.根据权利要求1所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S2中，对文本信息处理过程为：

将文本信息的每个句子表示为token序列S＝(w₁,w₂,…,w_n)，将句子进行标注获取对应的句法图，其中w_n为文本信息中的单词，n表示单词总数；

对文本信息中的每个单词进行映射处理，通过查找预先训练的词嵌入表获取每个单词的有语义关系的词嵌入向量；

通过查找实体向量表将日志中的实体映射为实体向量；

拼接词向量和实体向量得到最终的表示向量序列X；

使用Bi-LSTM模型对表示向量序列X进行学习，输出每个单词的包含上下文语义的表示信息，具体为：

4.根据权利要求1所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S2中，对图像信息处理，获取图像信息的注意力图具体为：

构建一个基于角色驱动的注意力图：

使用VGG-16网络提取图像信息中图像m的图像特征

使用情境图表示每个图像，在情境识别本体论中定义的每个角色r，通过将角色r与图像特征作为上下文连接并应用全连接层构建一个注意力查询向量q_r：

其中，；表示拼接操作，W_q和b_q为权重矩阵和偏置项；

计算每个查询向量与所有关键字的点积，并进行Softmax操作，形成图像的注意力图u＝[u₁,u₂,…]，公式如下：

其中，u_i为第i个图像的注意力图，k_i是图像的第i部分的表示，k_j是图像的第j部分的表示，t×t为VGG-16网络的卷积核大小。

5.根据权利要求1所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S3中，根据文本信息中句子的句法图和单词的包含上下文语义的表示信息，获得每个单词在公共空间的表示向量具体为：

应用第一图卷积网络对单词的包含上下文语义的表示信息和句法图进行卷积；

根据公式：

6.根据权利要求4所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S3中，根据图像信息的特征图和注意力图获得图像在公共空间的表示向量具体为：

应用第二图卷积网络对图像信息的特征图和注意力图进行卷积；

根据公式：

7.根据权利要求1所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S4中，根据单词在公共空间的表示向量，使用softmax函数对每个单词进行事件触发词分类，softmax函数的作用就是计算一组数值中每个值的比重，这些比重分别表示该单词属于不同标签的概率，公式为：

其中，e₁和e₁ ^′表示单词不同的标签，表示单词w属于标签e₁的概率，/>和为不同的权重矩阵，w^l为每个单词在公共空间的表示向量，/>和/>为不同的偏置项。

8.根据权利要求1所述的一种基于多模态事件抽取的RPA流程挖掘方法，其特征在于，步骤S4中，根据图像在公共空间的表示向量，使用softmax函数对图像进行事件触发词分类，softmax函数的作用就是计算一组数值中每个值的比重，这些比重分别表示该图像属于不同标签的概率，公式为：

其中，e₂和e₂ ^′表示图像不同的标签，表示图像m属于标签e₂的概率，/>和为不同的权重矩阵，/>和/>为不同的偏置项，m^l为图像在公共空间的表示向量。

9.一种基于多模态事件抽取的RPA流程挖掘装置，其特征在于，所述装置包括：

处理器；

存储器，其上存储有可在所述处理器上运行的计算机程序；

其中，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的一种基于多模态事件抽取的RPA流程挖掘方法。