CN117390090B

CN117390090B - 一种rpa流程挖掘方法、存储介质、电子设备

Info

Publication number: CN117390090B
Application number: CN202311691188.4A
Authority: CN
Inventors: 张竞超; 孙晨晨; 陆振亚; 苗卓淳; 吴共庆; 吴信东
Original assignee: Anhui Sigao Intelligent Technology Co ltd
Current assignee: Anhui Sigao Intelligent Technology Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-04-12
Anticipated expiration: 2043-12-11
Also published as: CN117390090A

Abstract

本发明公开了一种基于小样本事件抽取的RPA流程挖掘方法，采用标注部分用户行为日志作为标注数据，其他未标注的用户行为日志为未标注数据，基于标注数据，构建由编码器、原型层、评分器、原型交互层、解码模块依次相连的小样本事件抽取模型；将未标注数据输入构建好的小样本事件抽取模型，输出事件属性信息；使用Alpha算法对事件属性信息进行分析，输出完整的流程挖掘模型。本发明的方案可以降低对数据的需求，通过从有限的样本中学习到的知识，能够更好地处理干扰因素，提高模型的鲁棒性和泛化能力。

Description

一种RPA流程挖掘方法、存储介质、电子设备

技术领域

本发明属于流程挖掘技术领域，具体涉及一种RPA流程挖掘方法、存储介质、电子设备。

背景技术

RPA（Robotic Process Automation，机器人流程自动化）是一种使用软件自动化处理方式实现原本由人工完成的计算机操作流程的技术。RPA软件根据设定的流程完成计算机操作，替代或者辅助人完成规则明确的重复性劳动，是一种“数字劳动力”。虽然传统的信息系统已经在诸多企业中得到应用，但是这些系统仍然存在大量的、重复性的工作，需要花费一定的人力进行处理，降低了系统的效率，并且人工处理事务容易导致出现错误，进一步降低了这些信息系统的有效性。随着机器人流程自动化的出现，利用RPA技术提升企业信息系统的自动化、降低错误率、提高工作效率、提升工作的合规性成为可能。根据统计，采用RPA技术在处理企业资源管理等数据维护工作中，可以减少70%的时间成本，从而节约公司的人力资源。采用RPA等技术处理办公自动化系统中的各项流程时，可以提高30%的工作效率。同时，RPA能够全天候的运行，保证流程的运行符合规范要求并且无错运行。利用RPA技术能够提高企业数字化的能力，进一步提升企业的工作效率。目前行业正在寻求更智能和创新的RPA，利用认知计算和嵌入式智能处理决策过程。此类系统智能化程度的提高意味着技术逻辑能力的提高，从而为利益相关者实现高水平的过程自动化和价值创造。

业务流程是在特定组织与技术环境下，为了实现共同的业务目标而进行的一组协同活动。不同行业的部门内往往存在大量的重复工作，也运行着林林总总的业务流程，比如金融行业、教育行业、物流行业等。为了提高工作效率，改善用户体验，流程挖掘技术应运而生。流程挖掘是一种通过提取事件日志中的有效数据并加以分析，从而优化业务流程的技术。其主导思想是通过提取事件日志中的信息达到发现、预警、改进业务流程的目的。流程挖掘跨越多个学科，可以将传统方法（如业务流程建模和模型正确性验证）和新技术（如自然语言处理、计算机视觉、深度学习等）相关联。在实际应用中，通过流程挖掘技术，企业可以持续监测大量重复流程，从中发现漏洞和缺陷并加以改善，能够极大的提高企业运行中的工作效率。

流程是为了实现特定目标而采取的一系列操作。流程挖掘旨在构建起传统的模型驱动方法（如业务流程建模和模型正确性验证）和新型的数据驱动方法（如数据挖掘和机器学习）之间的桥梁。所有的流程挖掘技术都以顺序记录的事件为基础，每个事件指代一个活动，并与特定的业务场景相关联，将任何事件日志中的附加信息汇总后，形成实际流程的“流程图”形式的可视信息，向业务领导人展现KPI（Key Performance Indicator，关键绩效指标）以及流程的合规性，从而辅助决策。流程挖掘的过程一般分为三步：流程发现、一致性检验、流程改进。其中，流程发现旨在不利用任何先验信息的前提下基于事件日志创建模型。这里的模型大多数情况下是流程模型，但是，也可能是其他模型，比如，角色交互模型。一致性检查旨在检验流程模型与事件日志之间的合规性，其主要聚焦于事件日志与流程模型的对比，包含旧日志与新模型、旧日志与旧模型、新日志与新模型、新日志与旧模型之间的合规性检查问题。一致性检查可用于流程偏差及严重程度的测度，量化了流程偏差。流程改进则是借助实际流程记录的事件日志中得到的知识和信息来扩展或改进现有流程。

目前，流程挖掘技术已经在多个领域取得成功。流程挖掘不仅具有成熟的跨平台和跨系统的数据收集能力，还具有跨组织和角色的端到端业务流程洞察力。流程挖掘采用基于机器学习模型，通过结合后端业务和交互数据进行业务映射，建立元数据之间的关系，以标准数据格式统一输出。此外，流程挖掘填补了单一IT系统后端数据的信息黑洞，收集了跨组织和角色的企业流程数据，使企业领导能够准确、动态地看到整个业务，完善整个流程。流程挖掘在大力发展的同时，也面临一些问题和挑战。流程挖掘算法通常需要大量的数据才能建立准确的模型。实际场景中，获取大规模的流程数据可能是困难或昂贵的，且数据质量参差不齐，数据库之间不联通，或人为或客观的形成数据孤岛使得流程挖掘的实施难度陡然加大。这些问题亟待解决。

发明内容

有鉴于此，本发明提出一种基于小样本事件抽取的RPA流程挖掘方法，包括以下步骤：

S1、通过用户行为记录工具记录用户执行业务流程中进行的操作，生成用户行为日志，标注部分用户行为日志作为标注数据，其他未标注的用户行为日志为未标注数据；

S2、基于所述标注数据，构建小样本事件抽取模型，所述模型包括编码器、原型层、评分器、原型交互层、解码模块，所述编码器、原型层、评分器、原型交互层、解码模块依次相连；

S3、将未标注数据输入构建好的小样本事件抽取模型，输出事件属性信息；

S4、使用Alpha算法对事件属性信息进行分析，输出完整的流程挖掘模型。

进一步地，步骤S2中的编码器使用BERT模型：

其中，的句子，H表示句子x的嵌入表示。

进一步地，步骤S2中的原型层用于从支持集合S中导出每个标签的原型，通过对支持集合S中具有该标签的所有词嵌入表示进行平均计算每个标签的原型：

其中，支持集合S为标注数据的集合，表示标签/>的原型，/>是支持集合S中具有标签/>的所有单词的集合，/>是支持集合S中具有标签/>的单词的数量，h表示单词w的嵌入表示，/>表示N个事件类型用BIO方式标注的标签总数。

进一步地，步骤S2中的评分器用于计算查询集合Q中每个单词的发射评分，发射评分根据标记和原型之间的相似性计算，单词对应标签是/>的发射评分计算如下：

其中，查询集合Q是未标注数据的集合，表示基于支持集合S的标注结果，查询集合Q中的单词/>对应标签是/>的相似度函数计算，/>表示/>和/>的相似性函数，/>表示/>的原型，/>表示单词/>的嵌入表示，单词/>是句子x中的第j个单词，，n为句子x中单词的数量；

表示基于支持集合S的标注结果，查询集合Q中的句子x及其对应的真实标签序列y的发射评分，/>表示单词/>的标签，单词/>是句子x中的第i个单词，。

进一步地，步骤S2中的原型交互层利用转移分数建模标签之间的依赖关系：

计算原型与其他原型之间的注意力分数/>

其中，表示原型/>与原型/>之间的注意力分数，/>和/>分别表示标签/>和/>的原型，/>，/>，/>，/>和/>表示不同的权重，/>和/>表示不同的系数，/>表示N个事件类型用BIO方式标注的标签总数；

获取注意力分数后，使用依赖信息计算原型：

其中，表示标签/>的原型，/>表示标签/>具有依赖信息的原型/>表示权重，/>表示系数；

将转移分数矩阵表示为，其中，/>表示矩阵，其中N是标签对的总数，/>表示/>的第i行第j列元素，表示标签/>转移到标签/>的转移分数，用高斯分布/>去近似/>，公式如下：

其中，表示高斯分布中的均值，/>表示高斯分布中的方差，/>和/>表示权重，和/>表示系数，/>表示将/>和/>进行连接操作，/>表示标签序列y的近似的转移分数，y表示标签序列，/>，/>表示近似转移分数矩阵，/>表示近似转移分数矩阵的高斯分布，I(/>)表示/>的标签索引，/>表示/>的标签索引，/>和/>分别表示单词/>和/>对应的标签。

进一步地，步骤S2中的解码模块根据发射分数和标签序列的近似的转移分数的高斯分布，计算查询集Q的特定标签序列推导概率，其中查询集合Q是未标注数据的集合，基于支持集合S的标注结果，查询集合Q中的句子x的标签序列是y的概率计算如下：

其中，为基于支持集合S的标注结果，查询集合Q中的句子x的标签序列是y的概率，/>表示基于支持集合S的标注结果，查询集合Q中的句子x对应的标签序列y的发射评分，q(/>|S)表示基于支持集合S的近似的转移分数矩阵的概率密度函数，/>表示正态分布的标准化分数，/>表示标签序列，/>表示标签序列中的一种。

还提出一种计算机可读存储介质，计算机可读存储介质上存储有数据处理程序，数据处理程序被处理器执行时实现上述的一种基于小样本事件抽取的RPA流程挖掘方法。

本发明还提出一种电子设备，包括处理器和存储器，所述处理器与所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括计算机可读指令，所述处理器被配置用于调用所述计算机可读指令，执行上述的RPA流程挖掘方法。

本发明提供的技术方案带来的有益效果是：

与现有技术相比，本发明提出的技术方案采用标注部分用户行为日志作为标注数据，其他未标注的用户行为日志为未标注数据，基于所述标注数据，构建小样本事件抽取模型：编码器、原型层、评分器、原型交互层、解码模块依次相连；将未标注数据输入构建好的小样本事件抽取模型，输出事件属性信息；使用Alpha算法对事件属性信息进行分析，输出完整的流程挖掘模型。本发明的方案可以：（1）通过利用有限的数据，能够在数据量较小的情况下建立可靠的模型，降低了对数据的需求；（2）小样本学习能够通过学习到的先验知识（小样本）进行泛化，提高模型的鲁棒性。（3）显著降低标注成本和训练成本，同时保持高度准确的结果。

附图说明

图1是本发明实施例一种基于小样本事件抽取的RPA流程挖掘方法的流程图；

图2是本发明实施例基于事件关系构建petri网；

图3是本发明实施例一示例性实施例中的一种电子设备的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本发明实施例一种基于小样本事件抽取的RPA流程挖掘方法的流程图如图1所示，包括以下步骤：

S1、通过用户行为记录工具记录用户执行业务流程中进行的操作，生成用户行为日志，标注部分用户行为日志作为标注数据，其他未标注的用户行为日志为未标注数据。

标注的规则基于BIO模式：

BIO（Begin Inside Outside）是一种常用的序列标注模式，用于对文本中的实体或事件进行标注，BIO模式将每个词语或字符标记为三种可能的标签：B（Begin）、I（Inside）和O（Outside）。

具体来说，对于给定的文本序列，BIO模式将序列中的每个词语或字符标记为以下之一：

B：表示一个实体或事件的开始。这个标签被赋予实体或事件的第一个词语或字符。

I：表示一个实体或事件的内部部分。这个标签被赋予实体或事件的非第一个词语或字符。

O：表示不属于任何实体或事件。

N个事件类型用BIO方式标注，一种事件类型A有两个标签B-A和I-A（标签对），除所有事件类型外还有一个O标签表示其他标签，N个事件类型共2N+1个标签。通过使用BIO模式，可以有效地在文本中标注多个实体或事件，并记录它们的边界。

在本实施例中，用户行为记录工具分为两个模块：

屏幕录制模块：通过监控用户操作系统的图形界面，记录用户与应用软件交互时每个键盘或鼠标的操作信息，包含键盘输入内容和鼠标点击信息以及监听系统键盘和鼠标的操作事件、操作触发的时间戳、交互界面截图、操作相关元素的系统通用信息；

软件适配模块：以插件形式提前内嵌至业务软件中，在用户与软件交互时，记录每个操作相关元素的软件特有信息，包括元素在软件中的唯一标识和业务流程相关的特征属性。以浏览器为例，主要获取用户点击元素在HTML网页中的定位信息和属性值，包括元素的id（Identity document，账号）、css（Cascading Style Sheets，层叠样式表）、xpath（XMLPath Language，XML路径语言）、tag（标签）等，并且这些元素信息通过本地WebSocket传递出来。

为了更好地理解上述方法，下面用一个例子说明上述过程。从用户的行为记录信息中获取四条数据：DATA1、DATA2、DATA3、DATA4，标注其中两条数据DATA1和DATA2，另外两条数据DATA3和DATA4未标注。

其中一条数据DATA1为：click，用户打开浏览器-click-用户选中搜索框，keyboard-用户输入搜索词，click-用户点击搜索。这条数据中包含A、B、C、D，4个事件：A：打开浏览器；B：选中搜索框；C：输入搜索词；D：点击搜索。用BIO方式标注4个事件的类型，产生9（2×4+1）种标签：（1）B-A；（2）I-A；（3）B-B；（4）I-B；（5）B-C；（6）I-C；（7）B-D；（8）I-D；（9）O。用ABCD表示标注数据DATA1。

其他三条数据可以表示为：用ACD表示标注数据DATA2（这里不再举例）、未标注（DATA3）、未标注（DATA4）。

S2、基于标注数据，构建小样本事件抽取模型，模型包括编码器、原型层、评分器、原型交互层、解码模块，其中，编码器、原型层、评分器、原型交互层、解码模块依次相连；

（1）编码器使用BERT模型，BERT首先将所有的标注句子映射为隐藏的嵌入表示：

其中，表示标注数据中长度为n的标注句子，/>表示标记的句子x中第n个单词，/>表示句子的嵌入表示，/>表示句子中第i个单词的嵌入表示。

以DATA1的部分数据（click，用户打开浏览器）为例，x={click，用，户，打，开，浏，览，器}；为句子中的第二个词“用”；将x输入到BERT模型，得到句子的嵌入表示，假设维度为2，其中/>的值为一个向量，例如[a,b]，H为一个n×2的矩阵。

（2）原型层用于从支持集合S中导出每个标签的原型，其中，支持集合S为标注数据的集合，包括标注数据的N个事件类型，N个事件类型对应的句子集合和句子的词序列对应的标签序列的集合，使用BIO模式对事件触发器进行标注，并且N个事件类型包含2N+1个标签，可以得到2N+1个标签的原型，通过对支持集合S中具有该标签的所有词嵌入表示进行平均来计算每个标签的原型：

其中表示标签/>的原型，/>表示标注数据中长度为n的句子，表示句子x中第n个单词，标签/>是一个用BIO标注的事件类型，/>是支持集合S中具有标签/>的所有单词的集合，h表示单词w的嵌入表示，/>是支持集合S中具有标签/>的单词的数量。

（3）评分器用于计算查询集合Q中每个单词的发射评分，其中查询集合Q是未标注数据的集合，发射评分在于为每个单词是哪种类型进行打分，事件类型有N种，取打分最高的类型为最终的标记标签，评分根据单词和原型之间的相似性计算，对于查询集合Q中单词，其对应标签是/>的发射评分计算如下所定义：

其中，表示基于支持集合S的标注结果，查询集合Q中的单词/>对应标签是/>的相似度函数计算，/>表示/>和/>的相似性函数，通常选择点积操作来衡量相似性。

表示基于支持集合S的标注结果，查询集合Q中的句子x对应的真实标签序列y的发射评分，/>表示标注数据中长度为n的句子，其对应的标签序列/>。

（4）原型交互层利用转移分数建模标签之间的依赖关系，对于具有罕见依赖信息的每个事件类型的个别原型来说，很难生成它们的转移分数。因此，提出了一个原型交互层，利用自注意力机制来捕捉标签之间的依赖关系，首先计算原型与原型/>之间的注意力分数/>：

其中，和/>分别表示标签/>和/>的原型，/>，/>，，/>和/>表示不同的权重，/>和/>表示不同的系数，/>表示标签对的总数，即事件总数；

获取注意力分数后，使用依赖信息计算原型，具体步骤如下：

其中，表示标签/>的原型，/>表示标签/>具有依赖信息的原型，/>，表示权重，/>表示系数；

首先将转移分数矩阵表示为，/>表示的矩阵，其中N是标签对的总数，/>表示/>的第i行第j列元素，表示标签/>转移到标签/>的转移分数，这里用高斯分布/>去近似/>，公式如下：

其中，表示高斯分布中的均值，/>表示高斯分布中的方差，/>和/>表示权重，和/>表示系数，/>表示将/>和/>进行连接操作；

给定一个标签序列y，标签序列的近似的转移分数可以表示为：

其中，表示标签序列y的近似的转移分数，y表示标签序列，/>表示近似转移分数矩阵，/>表示近似转移分数矩阵的高斯分布，I(/>)表示/>的标签索引，表示/>的标签索引，/>和/>分别表示单词/>和/>对应的标签。

（5）解码模块根据发射分数和标签序列的近似的转移分数的高斯分布，计算查询集的特定标签序列推导概率，由于近似的转移分数是高斯分布而不是单个值，基于支持集合S的标注结果，查询集合Q中的句子x的标签序列是y的概率计算如下：

其中，为基于支持集合S的标注结果，查询集合Q中的词序列x（即句子x）的标签序列是y的概率，/>表示基于支持集合S的标注结果，查询集合Q中的句子x对应的标签序列y的发射评分，q(/>|S)表示基于支持集合S的近似转移分数矩阵的概率密度函数，/>表示正态分布的标准化分数，y表示标签序列，/>表示所有标签序列中的一种。

S3、将未标注数据输入构建好的小样本事件抽取模型，输出事件属性信息。

将本实施例中列举的两条未标注的数据输入到模型中进行预测，例如数据为：1）click，用户打开浏览器-click-用户选中搜索框，keyboard-用户输入搜索词；2）click-用户选中搜索框，keyboard-用户输入搜索词，click-用户点击搜索。两条数据的预测结果分别为ABC、BCD。

S4、使用Alpha算法对事件属性信息进行分析，输出完整的流程挖掘模型(petri网)。参考图2，图2是本发明实施例基于事件关系构建petri网。

图中包括4个事件：A、B、C、D，其中，P((‘A’,),(‘B’,))表示事件A到事件B的变化过程，P((‘A’,),(‘C’,))表示事件A到事件C的变化过程，P((‘B’,),(‘C’,))表示事件B到事件C的变化过程，P((‘C’,),(‘D’,))表示事件C到事件D的变化过程，箭头表示流程发展的方向。从in出发，out结束，根据流程发展的方向得到四条数据：ABCD、ACD、ABC、BCD。

将流程信息针对RPA执行器进行规范化，生成RPA可执行流程的XML脚本，另外根据流程的事件信息，生成包含图文描述的流程说明文档。

本实施例还提出一种计算机可读存储介质，计算机可读存储介质上存储有数据处理程序，数据处理程序被处理器执行时实现一种基于小样本事件抽取的RPA流程挖掘方法的步骤。

请参阅图3，在一示例性实施例中，还包括一种电子设备，包括至少一处理器、至少一存储器、以及至少一通信总线。

其中，存储器上存储有计算机程序，计算机程序包括计算机可读指令，处理器通过通信总线调用存储器中存储的计算机可读指令，执行上述的RPA流程挖掘方法。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于小样本事件抽取的RPA流程挖掘方法，其特征在于，包括以下步骤：

编码器使用BERT模型：

其中，表示标注数据中的句子，/>表示句子x的嵌入表示；

原型层用于从支持集合S中导出每个标签的原型，通过对支持集合S中具有该标签的所有词嵌入表示进行平均计算每个标签的原型：

其中，支持集合S为标注数据的集合，表示标签/>的原型，/>是支持集合S中具有标签/>的所有单词的集合，/>是支持集合S中具有标签/>的单词的数量，h表示单词w的嵌入表示，/>表示N个事件类型用BIO方式标注的标签总数；

评分器用于计算查询集合Q中每个单词的发射评分，发射评分根据标记和原型之间的相似性计算，单词对应标签是/>的发射评分计算如下：

其中，查询集合Q是未标注数据的集合，表示基于支持集合S的标注结果，查询集合Q中的单词/>对应标签是/>的相似度函数计算，/>表示/>和/>的相似性函数，/>表示标签/>的原型，/>表示单词/>的嵌入表示，单词/>是句子x中的第j个单词，，n为句子x中单词的数量；

表示基于支持集合S的标注结果，查询集合Q中的句子x及其对应的真实标签序列y的发射评分，/>表示单词/>的标签，单词/>是句子x中的第i个单词，；

原型交互层利用转移分数建模标签之间的依赖关系：

计算原型与其他原型之间的注意力分数：

其中，表示原型/>与原型/>之间的注意力分数，/>和/>分别表示标签/>和/>的原型，，/>，/>，/>和/>表示不同的权重，/>和表示不同的系数，/>表示N个事件类型用BIO方式标注的标签总数；

获取注意力分数后，使用依赖信息计算原型：

其中，表示标签/>的原型，/>表示标签/>具有依赖信息的原型，/>，/>表示权重，/>表示系数；

其中，表示高斯分布中的均值，/>表示高斯分布中的方差，/>和/>表示权重，/>和表示系数，/>表示将/>和/>进行连接操作，/>表示标签序列y的近似的转移分数，y表示标签序列，/>，/>表示近似转移分数矩阵，/>表示近似转移分数矩阵的高斯分布，I(/>)表示/>的标签索引，/>表示/>的标签索引，/>和/>分别表示单词/>和/>对应的标签；

解码模块根据发射分数和标签序列的近似的转移分数的高斯分布，计算查询集Q的特定标签序列推导概率，其中查询集合Q是未标注数据的集合，基于支持集合S的标注结果，查询集合Q中的句子x的标签序列是y的概率计算如下：

其中，为基于支持集合S的标注结果，查询集合Q中的句子x的标签序列是y的概率，/>表示基于支持集合S的标注结果，查询集合Q中的句子x对应的真实标签序列y的发射评分，q(/>|S)表示基于支持集合S的近似的转移分数矩阵的概率密度函数，/>表示正态分布的标准化分数，/>表示标签序列，/>表示标签序列中的一种；

2.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1所述的方法。

3.一种电子设备，其特征在于，包括处理器和存储器，所述处理器与所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括计算机可读指令，所述处理器被配置用于调用所述计算机可读指令，执行如权利要求1所述的方法。