CN115061679A

CN115061679A - 离线rpa元素拾取方法及系统

Info

Publication number: CN115061679A
Application number: CN202210944397.4A
Authority: CN
Inventors: 吴银; 孙林君; 张军燕
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-16
Anticipated expiration: 2042-08-08
Also published as: CN115061679B

Abstract

本发明属于RPA元素拾取技术领域，具体涉及离线RPA元素拾取方法及系统。方法包括：S1，降低深度学习模型计算量，完成模型轻量化；对轻量化后的深度学习模型进行加密，得到加密模型文件；将加密模型文件编译为模型程序二进制文件；S2，RPA软件通过命令启动模型程序二进制文件，模型程序启动；S3，对深度学习模型解密并启动通信接口；S4，RPA软件调用解密后的深度学习模型，完成离线元素融合拾取过程。本发明具有能高效、稳定、安全的实现RPA软件元素拾取的全场景覆盖和全环境兼容的特点。

Description

离线RPA元素拾取方法及系统

技术领域

本发明属于RPA元素拾取技术领域，具体涉及离线RPA元素拾取方法及系统。

背景技术

RPA（机器人流程自动化，Robotic Process Automation）是一种当前快速发展的计算机软件自动化技术。元素拾取是RPA的重要组成功能，包括元素检测与识别。

RPA流程设计器中目前普遍拥有多种元素拾取技术，比较通用的元素拾取方式有普通元素拾取方式、基于传统图像技术的CV拾取方式、基于深度学习目标检测技术的拾取方式、基于多种拾取技术融合的方式。

普通元素拾取是基于操作系统提供的指令或通过解析HTML文本进行元素精准定位。其中基于操作系统指令的元素拾取方式是利用操作系统对软件界面的呈现特性，将软件界面区分为不同大小的区块，然后利用各个区块的层级和包含关系构建出一个具有层级关系的树状结构。当用户拾取按钮、文字、输入框等元素时，RPA流程设计器记录下被用户拾取的元素的树状层级结构的路径，流程执行的时候通过再次解析软件的区块层级关系并构建出相同的树状结构并从中查找出与拾取时记录的相同路径即可实现元素的精准定位。

基于解析HTML文本对元素精准定位的拾取方式是通过解析网页文本内容。根据网页呈现页面需要将内容以可扩展标记语言(又称XML)格式编写，RPA利用该特性将HTML文本解析为与操作系统指令解析类似的树状层级关系，并利用其路径进行精准定位。普通元素拾取整体流程如图1所示。

然而由于普通元素拾取是利用操作系统指令或利用HTML文本解析得到软件元素层级、位置和内容等信息，当出现远程桌面、操作系统指令未能覆盖到的软件、Flash页面等情况时普通元素拾取便无法实现操作元素的精确定位。比如当网页HTML文本中镶嵌了一个Flash页面时，通过解析HTML文本获得元素的方式只能获取到Flash页面的最外层边框的位置信息，无法获得Flash页面内部的按钮、文字和图像等需要操作的元素信息。并且通过普通元素拾取的方式无法得知获取到的元素是否为最小可操作目标。

基于目标检测的拾取方式是利用深度学习模型定位一张图片上希望被检测出的目标元素并获取该元素的位置、大小、类型等信息，并将这些信息作为查找元素的依据。在现有融合拾取方式中，RPA软件截取目标软件在操作系统中呈现的界面图片并作为目标检测的输入图片，根据深度学习神经网络检测出图片中的按钮、文字、输入框等内容，并获取到这些内容在图片上的相对坐标，通过件界面的坐标和图片坐标的叠加计算便可获得这些元素在界面上所呈现的位置，RPA软件即可对这些位置进行任意的操作组合。目前业界均将用来目标检测的算法模型部署在云端服务器之上，RPA软件通过网络将位于用户电脑上的目标软件截图上传至云端服务器上，服务器上的目标检测模型计算出结果后通过网络返回给RPA软件，然后基于普通元素拾取所获得的元素信息与目标检测模型获得的元素信息进行拼接和组合得到最终融合拾取的元素信息。基于这种方式的元素拾取方式的流程如图2所示。

现有融合拾取均采用云端服务器部署需要消耗大量计算量的深度学习模型，然后通过网络在RPA软件中调用部署在云端服务器的深度学习模型接口以获得目标检测结果，最后通过将普通元素拾取结果与目标检测结果进行组合获取的融合拾取元素。这种方式需要将用户本地软件界面信息通过网络传递到云端服务器，当用户对信息安全等级要求较高时用户便无法使用融合拾取方案。另外由于融合拾取方案需要将RPA软件获取到的软件截图通过网络发送至云端服务器，当用户网络不稳定时或云端服务器网络拥堵时RPA软件获得目标检测结果需要的时间不稳定且影响因素较多。

深度学习模型是通过学习样本数据中内在规律和特征形成固定的神经网络参数。因为深度学习模型的训练和推理需要消耗大量的计算机资源，因此深度学习模型训练和推理往往需要在计算能力强大的GPU服务器上运行。随着深度学习模型的广泛应用一些深度学习模型需要内嵌在客户端内的进行推理。以往部署在GPU服务器上运行的模式便无法满足当前业务需求，因此需要在普通个人计算机上运行深度学习模型。

然而由于深度模型部署到客户端运行需要对各类操作系统指令集进行兼容，业界较为通用的方式是使用一些成熟的第三方推理库,如ONNXRuntime、OpenVINO、TensorRT。由于第三方推理库所需要的模型文件可通过多种方式进行反向解密获得深度学习模型的网络结构和参数，因此其模型的的安全性无法保障。由于使用RPA软件的计算机往往是没有GPU显卡的个人电脑，因此需要将算法模型的计算迁移至中央处理器上进行计算，其计算速度相较于使用云端服务器利用GPU进行加速的方式具有较大差异。由于CPU是非独占使用的方式这会导致深度学习模型在运行过程中出现资源不足、计算终止等这将导致整个模型无法提供任务推理能力。因此若希望在客户端使用深度学习模型需要解决算法模型安全性问题、模型推理速度慢和计算稳定性等问题。

因此，设计一种能高效、稳定、安全的实现RPA软件元素拾取的全场景覆盖和全环境兼容的离线RPA元素拾取方法及系统，就显得十分重要。

例如，申请号为CN202110944521.2的中国专利文献描述的一种RPA元素智能融合拾取的方法与系统，通过将基于深度神经网络的CV元素拾取技术和传统元素拾取技术相结合，并在RPA软件后台根据用户所要操作的软件界面的不同，为用户自动选择更精准、更合适的元素拾取方式（当然也支持用户手动进行拾取方式切换），同时在操作过程中能够实现拾取方式的自动、无感切换。另外，在各个元素实现定位的基础上，提供界面元素的内容解析能力，实现元素的类别、属性、位置、层次等的有序输出，从而支持更多样化的元素操作能力。虽然通过上述功能，可以为用户提供更流畅的使用体验，提高RPA软件可用性和支持范围；并减少用户使用成本，降低用户编辑开发RPA流程的时间，但是其缺点在于，模型的计算量都比较大，单次推理的浮点数运算次数都在亿级以上，运行速度慢。

发明内容

本发明是为了克服现有技术中，现有元素拾取方式存在内网环境下无法使用融合拾取、安全性差、运行不稳定、推理速度慢和通信低效的问题，提供了一种能高效、稳定、安全的实现RPA软件元素拾取的全场景覆盖和全环境兼容的离线RPA元素拾取方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

离线RPA元素拾取方法，包括如下步骤；

S1，降低深度学习模型计算量，完成模型轻量化；对轻量化后的深度学习模型进行加密，得到加密模型文件；将加密模型文件编译为模型程序二进制文件；

S2，RPA软件通过命令启动模型程序二进制文件，模型程序启动；

S3，对深度学习模型解密并启动通信接口；

S4，RPA软件调用解密后的深度学习模型，完成离线元素融合拾取过程。

作为优选，步骤S2还包括如下步骤；

S21，模型程序启动后，开启辅助进程，用于作为加载深度学习模型和对深度学习模型状态监测的核心。

作为优选，步骤S3包括如下步骤：

S31，所述辅助进程读取加密的模型程序二进制文件的字节流数据，并通过公钥对加密的模型程序二进制文件进行解密；

S32，待模型程序二进制文件解密到内存后，通过第三方推理库将深度学习模型运行；

S33，当模型程序启动完成后，所述辅助进程注册通信接口。

作为优选，步骤S4包括如下步骤：

S41，用户点击RPA软件内的元素拾取按钮后，RPA软件将同时进行普通元素拾取和智能元素拾取；

S42，普通元素拾取：RPA软件判断用户当前鼠标所在软件类型；若软件是浏览器，则通过对网页文本进行解析获得元素的位置和层级结构信息；若软件是普通软件，则RPA软件将利用操作系统指令获取软件的元素位置和层级结构信息；

S43，智能元素拾取：RPA软件截取用户鼠标所在软件的界面截图，并对界面截图进行签名加密；利用签名加密后的数据，调用通信模块返回结果；

S44，当通信模块返回结果后，RPA软件将普通元素拾取结果和智能元素拾取结果进行组合形成融合拾取的结果。

作为优选，步骤S43包括如下步骤：

S431，模型程序接收到请求同时验证请求的合法性，若请求合法则将签名加密后的数据传递给模型进程，若非法则拒绝服务；

S432，模型进程接收到加密数据后，对接收到的图片进行元素检测，并将检测结果组合成相应数据格式后返回给通信模块；通信模块接收到返回数据后将数据返回给RPA软件。

作为优选，步骤S4还包括如下步骤：

S45，当用户鼠标移动到某个位置的时候，则显示当前位置存在的元素等待用户拾取。

作为优选，还包括如下步骤：

S5，以独立进程的方式，对深度学习模型的运行过程状态进行监测和控制。

本发明还提供了离线RPA元素拾取系统，包括；

模型程序打包模块，用于降低深度学习模型计算量，完成模型轻量化；对轻量化后的深度学习模型进行加密，得到加密模型文件；将加密模型文件编译为模型程序二进制文件；

模型运行和监测模块，用于RPA软件通过命令启动模型程序二进制文件，使模型程序启动以及对深度学习模型解密并启动通信接口；

通信模块，用于在接收到注册信号后，记录通信接口信息并等待RPA软件的调用；

离线融合拾取模块，用于使RPA软件调用解密后的深度学习模型，完成离线元素融合拾取过程。

作为优选，所述模型程序打包模块包括：

模型轻量化模块，用于降低深度学习模型计算量，完成模型轻量化；

加密模块，用于对轻量化后的深度学习模型进行加密，得到加密模型文件；

编译模块，用于将加密模型文件编译为模型程序二进制文件。

本发明与现有技术相比，有益效果是：（1）本发明提出将深度学习模型通过模型轻量化技术并利用加密技术将深度学习模型集成在RPA软件内，以实现算法模型部署在用户计算机内的离线元素拾取；（2）本发明通过将RPA软件和算法模型安装在同一台计算机上，使得网络传输耗时降低；（3）本发明使用户的软件界面截图数据只在用户当前电脑上进行流转，使用户无需担心因使用融合拾取功能带来信息泄露的风险，安全性强；（4）本发明为RPA软件在更多场景的使用带来了可能，降低了RPA软件使用的环境限制，使得RPA软件能够使用于更多的场景、实现更多自由度的流程编辑、实现更高效率的流程开发，提供更友好的用户体验，从而构建更智能的新一代RPA软件产品。

附图说明

图1为普通元素拾取的一种流程示意图；

图2为基于目标检测的拾取方式的一种流程示意图；

图3为本发明中离线RPA元素拾取方法的一种流程图；

图4为本发明中离线RPA元素拾取系统的一种系统构架图；

图5为本发明中离线元素融合拾取的一种流程图；

图6为本发明实施例所提供的离线RPA元素拾取方法的一种流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

如图3所示的离线RPA元素拾取方法，包括如下步骤；

S3，对深度学习模型解密并启动通信接口；

S4，RPA软件调用解密后的深度学习模型，完成离线元素融合拾取过程；

步骤S1中，模型轻量化在算法层面进行压缩加速主要集中在结构优化、量化、剪枝三方面，结构优化方面主要是通过对神经网络模型（深度学习模型）的网络结构进行压缩和调整。

以M*N的矩阵为例，将M*N的矩阵分解为M*K + K*N，只要让K<<M 且 K << N，就可以大大降低模型体积。量化方面主要是利用降低网络结构参数的存储精度进行保存以实现模型大小的降低，通常的方案是利用低精度来保存每一个网络参数，同时保存拉伸比例scale和零值对应的浮点数zero_point。推理阶段，利用如下公式将网络参数还原为32位浮点数，公式如下所示：

剪枝按照剪枝粒度可分为突触剪枝、神经元剪枝、权重矩阵剪枝等。具体思想为，将权重矩阵中不重要的参数设置为0，结合稀疏矩阵来进行存储和计算。为了保证推理精度，需要一小步一小步地进行迭代剪枝。

步骤S2还包括如下步骤；

步骤S3具体包括如下步骤：

S33，当模型程序启动完成后，所述辅助进程注册通信接口。

如图5所示，步骤S4具体包括如下步骤：

其中，步骤S43具体包括如下步骤：

如图4所示，本发明还提供了离线RPA元素拾取系统，包括；

其中模型程序打包模块、模型运行和监测模块和通信模块，作为模型软件部分放置在RPA软件下的独立子程序，为RPA提供融合拾取的模型运行功能。

模型程序打包模块作为软件发布前的准备模块，分为三个阶段，第一阶段通过模型轻量化技术降低模型计算量，第二阶段利用非对称加密技术对轻量化之后的模型进行加密得到加密模型文件，第三阶段通过将模型程序编译为二进制文件，将加密后的模型文件根据特定的目录结构编译成二进制模型程序。

模型运行和监测模块作为整个模型程序的运行核心，承载了模型的运行和状态监控。当RPA软件通过命令启动模型程序二进制文件时，模型程序将以独立进程的方式启动。模型程序启动后首先启动一个辅助进程，辅助进程将作为加载模型和对模型状态监测的核心。辅助进程通过指令启动模型进程读取加密的模型文件的字节流数据，然后通过公钥对加密模型文件进行解密。待模型解密到内存后通过第三方推理库将模型运行起来。当模型进程启动完成之后，辅助进程将向通信模块注册已经能够使用的模型接口。

通信模块在接收到注册信号之后记录接口信息并等待RPA软件的调用，当接收到RPA软件的接口调用后，通信模块首先对调用的信息做校验，然后将调用参数传递给对应的模型进程，模型进程对输入的图片进行目标检测，待检测完成之后将检测到的所有元素信息返回给通信模块，最后再由通信模块将数据返回给RPA软件。

离线融合拾取模块为RPA软件部分。用户点击RPA软件内的元素拾取按钮后，RPA软件将同时分为普通元素拾取和智能元素拾取两个支线并完成融合拾取任务。其一，RPA软件判断用户当前鼠标所在软件类型，若软件是浏览器则通过对网页文本进行解析获得元素的位置和层级结构信息，若软件是普通软件则RPA软件将利用操作系统指令获取软件的元素位置和层级结构信息。其二，RPA软件将截取用户鼠标所在软件的界面截图，并通过签名规则对请求数据进行签名，然后调用模型软件的通信模块并等待通信模块返回结果，当通信模块返回结果后，RPA软件则将普通元素拾取结果和智能元素拾取结果进行组合后形成融合拾取的结果。当用户鼠标移动到某个位置的时候则显示该位置存在的元素等待用户拾取。

进一步的，作为优选，所述模型程序打包模块包括：

本发明利用模型量化和剪枝技术在不影响计算准确性的前提下将深度学习模型计算量降低以实现在CPU上推理速度和GPU推理速度相似。其次，采用加密技术将深度学习模型以二进制文件形式加密，并在将该加密后的二进制文件发布至客户端软件中以实现深度学习模型能和RPA软件运行在同一个网络环境或同一台计算机上。第三，通过设计了一种深度学习模型和RPA软件通信方法以保障深度学习模型在客户端软件中运行的通信安全和信息安全。第四，通过以独立进程的方式实现对深度学习模型运行过程状态的监测和控制，以保障深度学习模型运行的稳定性。最后通过实现一种软件启动和停止方法以实现深度学习模型和RPA软件能稳定使用融合拾取技术。通过以上方案实现了RPA软件的元素拾取全场景覆盖和全环境覆盖。

如图6所示，为本发明实施例所提供的RPA软件中集成离线融合拾取系统后，用户使用RPA软件中元素拾取功能的流程。

1.用户启动安装好的RPA软件，RPA软件将同步启动模型程序，模型程序启动辅助进程监测模型状态并加载加密模型和解密。

2.用户使用RPA软件中元素拾取功能，RPA软件判断鼠标位置并获取到用户鼠标所在位置的软件(又称待拾取软件)类型，对待拾取软件界面进行截图。

3.RPA软件通过传统的元素拾取方式对待拾取软件进行拾取。

4.RPA软件将截取到的待拾取软件界面图像进行签名加密，并将签名后的数据通过跨进程通信方式调用模型程序的通信模块。

5.模型程序接收到请求同时验证请求的合法性，若请求合法则将数据传递给模型进程，若非法则拒绝服务。

6.模型进程接收到数据后对接收到的图片进行元素检测，并将检测结果组合成相应数据格式后返回给通信模块。通信模块接收到返回数据后将数据返回给RPA软件。

7.RPA软件通过对元素位置去重的方式将普通拾取结果和智能拾取结果进行合并。

8.RPA软件监听用户鼠标位置，当鼠标移动到某个元素位置上时，RPA在屏幕上绘制出改元素的外边框区域。

9.当用户按下CTRL+鼠标左键点击元素进行拾取时，将鼠标所在元素的信息记录，并完成元素拾取动作。

本发明提出了一种全场景覆盖、全环境兼容的离线元素拾取方法，结合目标检测深度学习模型和非对称加密技术组成离线的融合拾取功能提升了RPA软件元素拾取的支持范围和拾取可用性。通过提出一种RPA软件与算法模型通信机制保障了RPA软件在运行过程中的数据安全。

本发明的创新点如下：

1.本发明提出了一种将深度学习模型通过加密算法、通信机制、监控机制等集成在RPA软件内的方案，区别于传统的模型部署技术和RPA软件远程调用深度学习模型的方法，能够让用户在RPA中无感知地使用深度学习模型，并使得RPA软件和融合拾取模型的适用范围大大拓展；

2.本发明提出了RPA领域中的深度学习模型加密方法，该方法保证了深度学习模型发布后的信息安全，确保深度学习模型能够更好地集成在RPA软件中；

3.本发明设计了一套深度学习模型和RPA软件的通信机制，通过独立辅助进程的方式，在RPA软件中加载深度学习模型，并完成和模型的通信、模型的监控等，实现深度模型和RPA软件的无缝融合。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.离线RPA元素拾取方法，其特征在于，包括如下步骤；

S3，对深度学习模型解密并启动通信接口；

2.根据权利要求1所述的离线RPA元素拾取方法，其特征在于，步骤S2还包括如下步骤；

3.根据权利要求2所述的离线RPA元素拾取方法，其特征在于，步骤S3包括如下步骤：

S33，当模型程序启动完成后，所述辅助进程注册通信接口。

4.根据权利要求1所述的离线RPA元素拾取方法，其特征在于，步骤S4包括如下步骤：

5.根据权利要求4所述的离线RPA元素拾取方法，其特征在于，步骤S43包括如下步骤：

6.根据权利要求4所述的离线RPA元素拾取方法，其特征在于，步骤S4还包括如下步骤：

7.根据权利要求1所述的离线RPA元素拾取方法，其特征在于，还包括如下步骤：

8.离线RPA元素拾取系统，其特征在于，包括；

9.根据权利要求8所述的离线RPA元素拾取系统，其特征在于，所述模型程序打包模块包括：