CN115878003B

CN115878003B - 一种基于Transformer的RPA网页操作自动化方法及系统

Info

Publication number: CN115878003B
Application number: CN202211503127.6A
Authority: CN
Inventors: 吕晓宝; 鲁瑞; 王元兵; 王海荣
Original assignee: Sugon Nanjing Research Institute Co ltd
Current assignee: Sugon Nanjing Research Institute Co ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2024-02-23
Anticipated expiration: 2042-11-28
Also published as: CN115878003A

Abstract

本发明提出了一种基于Transformer的RPA网页操作自动化方法及系统，属于网页自动化操作的技术领域，其中方法包括：步骤1、获取网页截图；步骤2、获取网页截图对应的网页文档元素；步骤3、获得用户输入的命令；步骤4、整合网页截图和文档元素以及用户输入命令形成输入序列；步骤5、根据需求预设输出操作序列；步骤6、基于自回归过程，根据输入序列，预测输出的操作序列；步骤7、根据输出的操作序列执行对应的RPA操作；本发明将用户输入的自然语言指令与网页元素和截图相结合，通过多模态Transformer转化为对网页内容的操作步骤，形成网页检索的RPA自动化流程，从而完成用户指定的任务。

Description

一种基于Transformer的RPA网页操作自动化方法及系统

技术领域

本发明属于网页自动化操作的技术领域，特别是涉及一种基于Transformer的RPA网页操作自动化方法及系统。

背景技术

机器人流程自动化(Robotic Process Automation，以下简称RPA)技术是指通过软件机器人自动执行高重复性的软件操作任务，包括操作各类网页、资料输入与输出等应用。由于RPA机器人可以直接通过人机交互界面执行流程，无需改造系统即可实现业务自动化，对于已有的业务和流程不会产生影响，因此是一种广泛应用的效率工具。

为了提高自动化办公的效率，针对重复的流程如何快速实现网页自动化操作，降低使用门槛，成为电子化办公研究的重点之一。

发明内容

发明目的：提出一种基于Transformer的RPA网页操作自动化方法及系统，以解决现有技术存在的上述问题。将用户输入的自然语言指令与网页元素和截图相结合，通过多模态Transformer转化为对网页内容的操作步骤，形成网页操作的RPA自动化流程，从而完成用户指定的任务。

技术方案：第一方面，提出了一种基于Transformer的RPA网页操作自动化方法，该方法具体包括以下步骤：

步骤1、获取网页截图；

在获取到网页截图后，对获取到的网页截图进行预处理，并通过卷积和池化操作获得对应的图片特征序列。

步骤2、获取网页截图对应的网页文档元素；

在获取网页截图对应的网页文档元素的过程中，根据网页截图对应的HTML源码，通过遍历DOM树的方式寻找所有可交互元素；在按序对所有可交互元素编号后，将相关参数信息存储至数据库；同时，按序将可交互元素转换为元素标记序列。其中，元素标记序列将对应的元素类型和编号作为唯一标识符。

步骤3、获得用户输入的命令；

在获得用户输入的命令后，将输入的命令转换为指令标记序列，结合网页文档元素，通过在中间加入分隔符的拼接方式，构成长序列；将长序列进行向量化操作，得到元素指令序列。

步骤4、整合网页截图和文档元素以及用户输入命令；

整合网页截图和文档元素以及用户输入命令的过程中，通过在图片特征序列和元素指令序列中间加入分隔符的方式获得新的长序列；如有上一次输出的操作序列，则一并追加到长序列中作为输入序列；

步骤5、根据需求预设输出操作序列的格式；

步骤6、基于自回归过程，根据输入序列，预测输出的操作序列；

步骤7、根据输出的操作序列执行对应的RPA操作。如果存在后续操作，则从步骤1继续执行，否则终止。

在第一方面的一些可实现方式中，为提高操作序列预测结果的准确率，进一步包括性能优化步骤，具体包括以下步骤：

S1、构建用于性能训练的训练数据集；

S2、通过随机抽取的方式从训练数据集中读取一条训练数据；

所述训练数据包括：操作数据和指令数据；

所述操作数据对应的是人工对网页的操作流程，即人工操作序列，以及执行每个流程对应的网页截图和网页文档，即网页数据；

所述指令数据对应的是对操作数据的文字意图描述。

S3、从当前训练数据中读取第一个人工操作序列作为当前目标操作序列，将对应的网页数据以及指令数据处理成符合要求的输入序列；

S4、将输入序列输入Transformer模型预测相应的操作序列；

S5、采用交叉熵损失函数计算得到预测的操作序列与对应的目标操作序列的loss损失函数，通过反向传播优化Transformer模型的参数；

S6、从当前训练数据中读取下一个人工操作序列作为新的目标操作序列，将对应的网页数据以及指令数据和旧的目标操作序列处理成符合要求的输入序列；

S7、若当前训练数据的人工操作序列读取完毕，则回到步骤S2继续；否则，重复步骤S4至S6，形成一个自回归过程。

第二方面，提出一种基于Transformer的RPA网页操作自动化系统，用于实现基于Transformer的RPA网页操作自动化方法，该系统具体包括以下模块：

用于根据需求对网页操作界面进行截图和特征提取的截图处理模块；

用于对网页文档元素进行处理的网页处理模块；

用于对用户命令进行处理的命令处理模块；

用于整合数据的数据整合模块；

用于对数据进行分析处理的数据处理模块；

用于执行RPA操作的网页执行模块；

用于提高用户预测性能的性能优化模块。

在第二方面的一些可实现方式中，截图模块用于根据需求截取网页相关的操作界面，并对截图提取图片特征序列；网页处理模块用于对截取到的网页界面数据进行处理，获取可交互元素，形成元素标记序列；命令处理模块用于接收用户输入的操作命令，对其进行指令标记序列转换；数据整合模块用于整合元素标记序列和指令标记序列形成元素指令序列，并结合图片特征序列得到长序列作为输入序列；数据处理模块用于通过Transformer模型对下一个网页操作序列进行预测，具体包括：数据格式预设模块和Transformer模型，其中数据格式预设模块用于预设Transformer模型输出的数据格式，Transformer模型用于根据接收到的数据预测下一个网页操作序列；网页执行模块用于根据预测到的网页操作序列，自动化执行对应的RPA操作；性能优化模块用于提高系统预测结果的准确率，具体包括：数据集构建模块、Transformer模型和参数优化模块，在性能优化的过程中，数据集构建模块用于构建用性能训练的训练数据；Transformer模型用于根据接收到的训练数据预测相对应的操作序列；参数优化模块利用交叉损失函数计算预测的操作序列与目标操作序列之间loss函数，并通过反向传播的方式，优化Transformer模型的参数。

第三方面，提出一种基于Transformer的RPA网页操作自动化设备，该设备包括：处理器以及存储有计算机程序指令的存储器。

其中，处理器读取并执行计算机程序指令，以实现基于Transformer的RPA网页操作自动化方法。

第四方面，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令。计算机程序指令被处理器执行时，以实现基于Transformer的RPA网页操作自动化方法。

有益效果：本发明提出了一种基于Transformer的RPA网页操作自动化方法及系统，在实际的网络浏览场景中，可以更好的理解用户的意图，并将转换为对网页的操作，降低使用网页的门槛，提高办公效率，使其具有较高的通用性，适用于在各类Web系统上执行任务，并且具备良好的数据和计算扩展特性。同时，本发明结合深度学习可以基于用户的反馈进行更新，实现更加智能化的应用。

附图说明

图1为本发明的数据处理流程图。

图2为本发明实施例对应的数据处理流程图。

图3为本发明实施例输出操作序列的示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

一方面，在电子化办公的应用技术领域，通过RPA技术操作各类网页、资料输入与输出等应用，可以直接通过人机交互界面执行流程，无需改造系统即可实现业务自动化。另一方面，在深度学习技术领域，以Transformer为代表的模型逐渐将各类任务统一为seq2seq的序列到序列模式。为了提高电子化办公的效率，以及进一步降低RPA的使用门槛，本发明提出一种基于Transformer的RPA网页操作自动化方法及系统，将Transformer模型与RPA技术相结合，通过将输入的语言文字序列转化为网页操作步骤序列，使得用户可以直接通过自然语言描述实现一些固定化的网页流程操作，如企业OA系统的考勤、报销和邮件处理，搜索引擎信息检索，网络购物等。

在一个实施例中，基于用户实际的使用场景，提出一种基于Transformer的RPA网页操作自动化方法，如图1所示，该方法具体包括以下步骤：

步骤1、截取当前的操作界面，获取网页截图，提取图片特征，获得图片特征序列；

具体的，根据实际应用场景，获取当前操作界面对应的网页截图，并对得到的网页截图进行尺寸压缩。随后，将处理后的网页截图输入ResNet模型中，在经过一系列的卷积和池化操作后，得到一组特征向量，并将其作为图片特征序列。

步骤2、获取网页截图对应的网页文档元素，并进行存储；

具体的，实际应用场景中，在当前操作界面对应的网页HTML源码中，通过左序遍历的方式筛选DOM树中所有可交互元素，并按遍历到的顺序进行编号，同时将元素对应的编号、类型、屏幕位置和xpath路径存储数据库中。

随后，将元素按照编号顺序处理为元素token序列，其中元素类型和编号作为各token的唯一标识符。

步骤3、读取用户输入的命令，转换为指令标记序列，并结合网页文档元素生成元素指令序列；

具体的，读取用户输入的命令，并将其处理为指令token序列；随后将元素token序列与指令token序列从左到右进行拼接，并在中间加入一个分隔符【EC】，组成一个长序列。然后，将组成的长序列输入到word2vec模型中进行向量化得到embedding序列，其中元素token序列的embedding序列加入屏幕位置编码。最后，将输出层的embedding作为元素指令序列。

步骤4、整合图片特征序列和元素指令序列，得到输入序列；

具体的，将前序步骤中获得的图片特征序列和元素指令序列按照从左到右的方式进行拼接，并在中间加入一个分隔符【PE】，组成一个长序列，并在长序列末尾追加一个分隔符【AC】用于追加后续输入。若存在上一次输出的操作序列，则在追加在分隔符【AC】后，将组成的长序列作为后续流程的输入序列。

步骤5、根据需求预设输出的操作序列呈现形式；

具体的，输出操作序列为一系列鼠标和键盘动作组成的action序列(操作序列)，包括：动作类型、光标在屏幕上的位置、时间、按键索引、元素。

在进一步的实施例中，动作类型主要包括鼠标和键盘两部分操作，其中鼠标操作包括：移动光标、点击、长按、释放、滚轮向上、滚轮向下等；键盘对应的操作有：按下单个按键、按下组合按键等。另外，动作类型中还包括无操作状态，即当前步骤不采取任何操作，例如在执行点击动作后等待页面进行刷新。

其中，光标在屏幕上的位置采用(x,y)来表示；输出序列中的时间，指代等待时间；按键索引，代表需要在键盘上“敲击”的按键名称；元素，指代元素token序列中的各个网页交互元素。优选实施例中，光标在屏幕上的位置、时间、按键索引和元素的输出取决于动作类型，例如动作类型为“移动光标”，则需要提供光标位置，“点击”，则需要提供网页按钮相关元素编号，或者动作类型为“按下按键”，则需要提供按键索引。

步骤6、基于自回归过程，利用Transformer decoder模型根据接收到的输入序列，预测输出符合数据格式的操作序列。

步骤7、根据输出的操作序列执行对应的RPA操作。

本实施例基于Transformer模型对输入序列长度限制，导致无法将网页HTML代码全部作为输入的考虑，仅选取可交互的元素作为输入，但是这样会丢失网页布局信息，使得模型不容易理解需要操作的具体步骤，因此本实施例将网页截图作为辅助特征，结合用户指令信息一起输入到模型中。

优选实施例中，以企业OA系统考勤处理场景为例，如图2所示，获取相关操作界面的截图和网页源码，随后将截图进行尺寸压缩后输入ResNet模型中，将网页源码处理为元素token序列后结合用户输入的命令，输入到word2vec模型中进行向量化得到embedding序列；最后，合并ResNet模型和word2vec模型的输出数据，以及上一个输出的操作序列，并在添加分隔符【PE】和【AC】后，输入到一个6层Transformer decoder模型中，预测如图3所示的下一个输出的操作序列。每个操作序列都对应一个RPA操作，使得网页可以根据用户意图，让机器自动执行相应网页操作得到所需的结果。

在进一步的实施例中，为提高操作序列预测结果的准确率，进一步构建数据集，并利用构建的训练数据集对Transformer模型进行性能训练。

具体的，构建训练数据集的过程中，每条训练数据包括：操作数据和指令数据，操作数据对应的是人工对网页执行操作产生的操作序列以及网页截图和文档等网页数据，指令数据对应的是对网执行操作的文字意图描述。

利用训练数据集性能训练的过程具体包括以下步骤：

S1、通过随机抽取的方式从训练数据集中读取一条训练数据；

S2、从当前训练数据中读取第一个人工操作序列作为当前目标操作序列，将对应的网页数据以及指令数据处理成符合要求的输入序列；

S4、将输入序列输入Transformer模型预测相应的操作序列；

S6、从当前训练数据中读取下一个人工操作序列作为新的目标操作序列，将对应的网页数据以及指令数据和旧的目标操作序列处理成符合要求的输入序列，；

本实施例提出的训练方式通过在训练集上进行多次迭代，使得模型能输出与人工操作相同的操作序列。

优选实施例中，将人工对网页的操作流程记录下来并对每一步截图和网页存档，形成一组操作数据，并对其进行意图描述，作为指令数据。将指令数据和操作数据组合，形成一条训练数据。采集多条训练数据形成训练集。利用训练数据集执行性能训练的过程具体包括以下步骤：

步骤①、根据构建的训练集，每次抽取一条训练数据，将初始的图片、元素、指令token序列合并，在末尾追加一个【AC】分隔符作为后续追加输入的区分。将合并序列输入到Transformer中，得到第一个action token输出；

步骤②、将下一步人工操作对应的操作数据替换之前的图片和元素token序列，与指令序列重新合并，并在输入序列末尾追加上一步人工操作对应的action token，作为新的输入序列；

替换图片特征序列和元素标记序列操作的必要性在于，每次操作后网页有可能发生变化，因此需要将新的页面截图和网页元素加入到序列中，来引导模型预测下一步动作，又由于截图和网页元素序列较长，而Transformer模型有输入长度限制，因此无法追加到原有序列，而是替换。

追加之前的action操作的必要性在于，一串动作通常具有前后关联性，便于引导模型正确预测下一个动作。

步骤③、将新的输入序列输入到Transformer中，预测得到下一个action token的输出；

步骤④、重复步骤②和步骤③，形成一个自回归过程。在这个过程中，每一步都将对应的人工操作action作为目标token，利用交叉熵损失函数计算得到预测action token与目标action token的loss损失函数，通过反向传播优化Transformer模型的参数。通过在训练集上进行多次迭代，使得模型能输出与人工操作相同的action序列。

利用训练好的模型，在执行网页操作自动化的过程中，与训练过程相同，也采用自回归过程得到预测的action序列，并在每一个action输出后都进行相应的RPA操作，使得用户可以通过意图描述，让机器自动执行相应网页操作得到结果。

本实施例通过将深度学习技术与RPA技术相结合，将输入的语言文字序列转化为网页操作步骤序列，基于多模态Transformer转化为对网页内容的操作步骤，形成网页检索的RPA自动化流程，完成用户指定的任务。具备良好的通用性，适用于在各类Web系统上执行任务。

在一个实施例中，提出一种基于Transformer的RPA网页操作自动化系统，用于实现一种基于Transformer的RPA网页操作自动化方法，该系统具体包括以下模块：截图处理模块、网页处理模块、命令处理模块、数据整合模块、数据处理模块、网页执行模块、性能优化模块。

具体的，截图处理模块用于根据需求截取网页相关的操作界面，提取图片特征序列；网页处理模块用于对网页文档数据进行处理获取可交互元素序列；命令处理模块用于接收用户输入的操作命令，得到元素指令序列；数据整合模块用于整合图片特征序列、可交互元素序列、指令序列，在加入分隔符后得到长序列形成输入序列；数据处理模块用于通过Transformer模型对下一个网页操作序列进行预测，具体包括：数据格式预设模块和Transformer模型，其中数据格式预设模块用于预设Transformer模型输出的数据格式，Transformer模型用于根据接收到的数据预测下一个网页操作序列；网页执行模块用于根据预测到的网页操作序列，自动化执行对应的RPA操作。

在进一步的实施例中，截图处理模块包括：截图模块和特征提取模块，特征提取模块在获取到的截图数据后，针对获得的截图数据进一步执行图片尺寸压缩操作，随后将处理后的数据输入ResNet模型中，通过一系列的卷积和池化操作，得到一组特征向量，并作为截图数据对应的图片特征序列。

网页处理模块进行元素序列提取，用于读取网页文档对应的HTML源码，通过左序遍历获得DOM树中所有的可交互元素，并按序进行相应的编号，基于编号顺序，将可交互元素处理为可交互元素标记序列。

命令处理模块接收用户输出的命令并将其转换为指令标记序列。

数整合模块将可交互元素标记序列与指令标记序列从左至右进行拼接，并在加入分隔符之后组成一个长序列。然后将长序列输入word2vec模型中进行向量化，得到embedding序列。其中在可交互元素token序列的embedding序列加入屏幕位置编码。word2vec模型输出层的embedding作为命令处理模块的输出结果，即元素指令序列。进而将接收到的图片特征序列与元素指令序列从左到右进行拼接，通过在中间位置加入分隔符的的方式组成一个长序列作为输入序列。在后续的执行过程中，旧的输入序列还追加入上一步输出的操作序列一并作为新的输入序列。

数据处理模块读取整合到的长序列，并输入至一个6层Transformer decoder模型中，利用Transformer模型对整合后的数据进行预测分析获得下一个操作序列。

针对预测到的操作序列，网页执行模块让机器自动执行相应网页操作得到结果。

根据网页操作的结果和操作序列更新输入序列，利用数据处理模块继续预测下一个操作序列并送入执行器执行，重复以上步骤直至所有操作完成。

在进一步的实施例中，为了提高系统预测结果的准确率，基于Transformer的RPA网页操作自动化系统还包括性能优化模块，该模块具体包括：数据集构建模块、Transformer模型和参数优化模块，在性能优化的过程中，数据集构建模块用于构建用性能训练的训练数据；Transformer模型用于根据接收到的训练数据预测相对应的操作序列；参数优化模块利用交叉损失函数计算预测的操作序列与目标操作序列之间loss函数，并通过反向传播的方式，优化Transformer模型的参数。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于Transformer的RPA网页操作自动化方法，其特征在于，具体包括以下步骤：

步骤1、获取当前网页截图，提取对应的图片特征序列；

步骤2、读取当前网页文档元素，提取元素标记序列；

步骤3、获得用户输入的命令；在获得用户输入的命令后，将输入的命令转换为指令标记序列，结合元素标记序列，通过在中间加入分隔符的拼接方式，构成长序列；将长序列进行向量化操作，得到元素指令序列；

步骤4、整合图片特征序列、元素标记序列以及用户输入的命令形成输入序列；其中，整合图片特征序列和元素指令序列，通过在中间加入分隔符的方式获得Transformer模型的输入序列；若当前预测操作序列的过程不是首次执行时，输入序列还包括上一次输出的操作序列，通过追加的方式，将上一次输出的操作序列加入输入序列；

步骤5、根据需求预设输出操作序列的格式；

步骤6、基于自回归过程，根据输入序列，预测输出符合操作序列格式的操作序列；

将输入序列送入Transformer模型中预测输出符合预设数据格式的操作序列，进而跳转至步骤7执行相应的RPA操作；当预测的操作序列包含后续步骤时，跳转至步骤1；反之，结束网页自动化操作；

步骤7、根据输出的操作序列执行对应的RPA操作。

2.根据权利要求1所述的一种基于Transformer的RPA网页操作自动化方法，其特征在于，在获取到网页截图后，对获取到的网页截图进行预处理，并通过卷积和池化操作获得对应的图片特征序列。

3.根据权利要求1所述的一种基于Transformer的RPA网页操作自动化方法，其特征在于，在获取所述元素标记序列的过程中，根据网页截图对应的HTML源码，通过遍历DOM树的方式寻找所有可交互元素；

在按序对所有可交互元素编号后，将相关参数信息存储至数据库；同时，按序将可交互元素转换为元素标记序列；

所述元素标记序列将对应的元素类型和编号作为唯一标识符。

4.根据权利要求1所述的一种基于Transformer的RPA网页操作自动化方法，其特征在于，为提高操作序列预测结果的准确率，进一步包括性能优化步骤，具体包括以下步骤：

S1、构建用于性能训练的训练数据集；

S2、通过随机抽取的方式从训练数据集中读取一条训练数据，其中包含一条指令数据和一组相应的人工操作序列以及网页数据；

S4、将输入序列输入Transformer模型预测相应的操作序列；

5.根据权利要求4所述的一种基于Transformer的RPA网页操作自动化方法，其特征在于，所述训练数据包括：操作数据和指令数据；

所述指令数据对应的是对操作数据的文字意图描述。

6.一种基于Transformer的RPA网页操作自动化系统，用于实现如权利要求1-5任意一项所述的基于Transformer的RPA网页操作自动化方法，其特征在于，具体包括以下模块：

截图处理模块，被设置为对当前网页操作界面截图，以及执行网页操作界面截图到图像特征序列的转换；

网页处理模块，被设置为执行当前网页文档源码到元素标记序列的转换；

命令处理模块，被设置为执行用户输入命令到指令标记序列的转换；

数据整合模块，被设置为根据需求整合数据序列，获得输入序列；具体通过整合元素标记序列和指令标记序列形成元素指令序列，再整合图像特征序列和元素指令序列形成输入序列；

数据处理模块，被设置为利用Transformer模型对整合后的输入序列进行预测分析，获得下一个操作序列；

网页执行模块，被设置为根据预测到的操作序列，使得网页自动化执行对应的RPA操作；

性能优化模块，被设置为优化Transformer模型的性能，提高下一个操作序列预测结果的准确率。

7.一种基于Transformer的RPA网页操作自动化设备，其特征在于，所述设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-5任意一项所述的基于Transformer的RPA网页操作自动化方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的基于Transformer的RPA网页操作自动化方法。