CN116168405B

CN116168405B - 通用型rpa复选框操作组件的构建方法及系统

Info

Publication number: CN116168405B
Application number: CN202310439123.4A
Authority: CN
Inventors: 宋志龙
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-01
Anticipated expiration: 2043-04-23
Also published as: CN116168405A

Abstract

本发明涉及RPA技术领域，具体涉及通用型RPA复选框操作组件的构建方法及系统。方法包括：S1，对于可底层解析场景，通过解析底层源码，获取目标复选框元素的位置以及勾选状态；S2，对于不可底层解析场景，进行复选框元素拾取操作；S3，进行复选框自动锚点分配操作，获得复选框元素与锚点元素之间的相对位置关系；S4，通过复选框元素定位操作，倒推出目标复选框元素的位置并作为候选目标元素；S5，通过对候选目标元素的类别确认，判断候选目标元素是否为实际目标复选框元素。本发明具有能够扩展RPA中有关复选框操作的业务流程的应用边界，以及能够实现不可底层解析场景下RPA业务中复选框的各种自动化操作的特点。

Description

通用型RPA复选框操作组件的构建方法及系统

技术领域

本发明涉及RPA技术领域，具体涉及通用型RPA复选框操作组件的构建方法及系统。

背景技术

机器人流程自动化技术（Robotic Process Automation, 后简称RPA）是一种用于企业规则化、重复性工作替代的有效技术，目前正广泛应用于各行各业的财务、税务、审批、风控、运营、物流、广告等业务中。RPA技术提供了可视化的流程编辑器，开发人员可以在流程编辑器上设计和配置出能够在企业业务系统中自动执行的流程脚本；在脚本执行过程中，则通过模拟键盘、鼠标操作、调用操作系统接口、分析网页结构等手段，来模拟人类的按钮点击、键盘输入、文件创建、网页跳转、逻辑判断等动作。

在RPA技术所处理的各种自动化流程业务中，复选框是较为常见的一种元素，其主要功能为表示某项内容的选中状态，因此在日常RPA业务中，需要对复选框进行相关操作。与RPA中的一般元素仅需要进行定位、点击操作不同，RPA中与复选框相关的操作一般包含“勾选复选框”、“取消勾选复选框”以及“勾选框状态获取”功能，功能相对复杂，因此对于复选框元素，一般会有一个单独的复选框组件提供此类元素专属的操作。目前，业内在复选框操作组件中，主要是通过解析底层代码来定位目标复选框元素，进而进行相应的复选框勾选、取消勾选以及状态获取操作。

目前存在多项技术可以在一定程度上完成部分场景下的RPA复选框操作。或者辅助完成相关操作，如普通元素的复选框操作组件、RPA元素智能融合拾取、复选框勾选状态识别和RPA智能锚点分配技术。

然而，现有的复选框操作组件存在以下缺点：

1.普通元素的复选框操作组件无法满足特殊场景应用要求

所谓特殊场景，指的是无法通过源码进行底层解析的软件或网页场景。在这种场景下，无法通过底层解析的手段获取元素，因此，基于底层解析技术构建的复选框操作组件也就无法支持这些场景下的复选框操作，应用边界受到限制。

2. 单纯使用融合拾取的相关操作无法满足复选框操作需求

为了能够对无法底层解析的软件或网页场景中的复选框元素进行操作，可以考虑借助融合拾取技术，完成对此类场景目标元素的拾取。但是在执行阶段，需要在执行界面定位出与拾取元素样式一致的元素，并完成点击或其他操作。然而在复选框操作场景下，可能存在拾取和执行阶段复选框元素状态不一致的情况（如：拾取阶段复选框未勾选，执行阶段复选框被勾选），此时依然需要定位出目标复选框的位置并进行“勾选、取消勾选、获取勾选框状态”操作，而由于目标元素发生了变化，也就无法进行正确匹配。即使在拾取和执行阶段元素状态一致时，能够正确匹配的情况下，也无法对复选框勾选状态进行获取，也就无法完成用户指定的“勾选、取消勾选、获取勾选框状态”操作，因为其中任何一项操作都是需要知道当前复选框的勾选状态的。因此，单纯使用融合拾取的相关操作，仅能够完成无法底层解析软件或网页场景下的复选框拾取，无法满足执行阶段复选框相关操作需求。

3.单纯的复选框状态识别模型无法满足复选框操作需求

专利申请号为CN201910780624.2的中国专利文献描述了一种文档图像勾选框状态识别后输出文本行内容的方法及系统，文中提到的复选框状态识别分类模型，能够分出“未勾选、一类勾选、二类勾选、手工勾选”四种类别。但是，在RPA复选框组件中，定位出复选框位置之后，为确保定位出的区域确实是一个复选框，需要使用一个元素分类模型进行识别，此分类模型需要包含复选框类别和非复选框类别，只有当分类模型将定位出的区域识别为复选框类别时，才进行相关操作，否则，需要中止流程并给出错误提示，避免误操作。而上述专利文献中的模型，只能区分复选框勾选状态，无法区分定位出的区域是否一个复选框元素，因此无法满足需求。

4.当前的智能锚点分配方案不是实现复选框操作的最优选

为了能够在拾取阶段和执行阶段复选框状态不一致时，依然能够定位出目标元素在执行界面的位置，需要借助于锚点信息进行辅助定位。所谓锚点，就是存在与目标元素周围的一些与目标元素在位置或者含义上有某些关联的其他元素，通常在直接通过匹配目标元素无法完成定位时，可借助匹配锚点元素，然后推理出目标元素位置。而当前的智能锚点分配方案，为了尽力实现精准定位，会给目标元素分配多个锚点，然而过多的锚点不仅会带来计算量的增加，还会引发更多的不确定性。诸如这种方案可能更适用于一般元素的辅助匹配，但是对于复选框元素而言，与之关联最为紧密的就是其右边最近的一个元素，且这个元素一般为文字元素，因为复选框的主要功能就是描述某项文字内容是否被选中，且文字位置通常紧挨着在其右侧。因此，在为复选框元素分配锚点时，可以仅将其右侧距离最近的一个文字元素作为其锚点即可，无需分配过多其他的锚点元素。

因此，设计一种能够扩展RPA中有关复选框操作的业务流程的应用边界，以及能够实现不可底层解析场景下RPA业务中复选框的各种自动化操作的通用型RPA复选框操作组件的构建方法及系统，就显得十分重要。

发明内容

本发明是为了克服现有技术中，现有的复选框操作组件，仅能支持可底层解析场景下复选框自动化操作的问题，提供了一种能够扩展RPA中有关复选框操作的业务流程的应用边界，以及能够实现不可底层解析场景下RPA业务中复选框的各种自动化操作的通用型RPA复选框操作组件的构建方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

通用型RPA复选框操作组件的构建方法，包括如下步骤；

S1，对于可底层解析场景，通过解析底层源码，获取目标复选框元素的位置以及勾选状态；

S2，对于不可底层解析场景，通过计算机视觉技术进行复选框元素拾取操作；

S3，根据步骤S2拾取的复选框元素进行复选框自动锚点分配操作，获得复选框元素与锚点元素之间的相对位置关系；

S4，根据复选框元素与锚点元素之间的相对位置关系，通过复选框元素定位操作，倒推出目标复选框元素的位置并作为候选目标元素；

S5，通过对候选目标元素的类别确认，判断候选目标元素是否为实际目标复选框元素。

作为优选，步骤S2中，所述复选框元素拾取操作具体如下：

通过计算机视觉技术对拾取界面的元素进行检测，并为用户拾取的复选框元素标记智能元素标识，用于指导执行阶段执行方案选择。

作为优选，步骤S3中，所述复选框自动锚点分配操作具体如下：

将拾取的复选框元素右侧第一个文字元素作为锚点元素，保存并记录复选框元素与锚点元素之间的相对位置关系。

作为优选，步骤S4中，所述复选框元素定位操作具体为：

在执行界面定位出目标复选框元素的锚点元素位置，然后通过记录的锚点元素与复选框元素之间的相对位置关系，倒推出目标复选框元素的位置。

作为优选，步骤S5中，所述候选目标元素的类别确认具体为：

通过训练的RPA元素分类模型判断倒推出的候选目标元素是否为实际目标复选框元素；

所述RPA元素分类模型至少包含勾选状态复选框、未勾选状态复选框和其他元素三个类别；其中，其他元素为具体的RPA元素类别，包括输入框元素和文本元素。

作为优选，步骤S5中，所述通过训练的RPA元素分类模型判断倒推出的候选目标元素是否为实际目标复选框元素的具体过程为：

将候选目标元素输入RPA元素分类模型，若识别结果为其他元素，则表明复选框元素定位出错，中止流程并提示用户；若识别结果为勾选状态复选框或未勾选状态复选框，表明候选目标元素为复选框元素，同时RPA元素分类模型输出复选框的勾选状态，再根据预设的复选框操作，进行相应的复选框自动化操作。

作为优选，步骤S1中，所述勾选状态包括勾选、取消勾选和获取勾选状态。

本发明还提供了通用型RPA复选框操作组件的构建系统包括：

可底层解析场景操作模块，用于通过解析底层源码，获取目标复选框元素的位置以及勾选状态；

复选框元素拾取模块，用于针对不可底层解析场景，通过计算机视觉技术进行复选框元素拾取操作；

复选框自动锚点分配模块，用于根据拾取的复选框元素进行复选框自动锚点分配操作，获得复选框元素与锚点元素之间的相对位置关系；

复选框元素定位模块，用于根据复选框元素与锚点元素之间的相对位置关系，通过复选框元素定位操作，倒推出目标复选框元素的位置并作为候选目标元素；

候选目标元素类别确认模块，用于通过对候选目标元素的类别确认，判断候选目标元素是否为实际目标复选框元素。

本发明与现有技术相比，有益效果是：（1）本发明提出了一种针对不可底层解析软件或网页场景下自动化进行复选框元素操作的实现方案，解决了业内复选框元素操作组件仅能支持可底层解析软件或网页场景下的复选框自动化操作的问题；（2）在本发明结合复选框元素在RPA中的应用场景，设计了一个简洁的针对复选框元素的自动锚点分配方案，与之前的一些自动锚点分配方案相比，本方案更加简单、直接、高效，避免了选取过多不适于复选框元素定位的冗余锚点，提升了复选框元素拾取和匹配效率；（3）本发明提出了一个新的目标元素定位思路，专门用于处理类似于复选框元素这种拾取和执行阶段状态多变的元素，本发明通过先进行锚点定位，再结合拾取时记录的锚点与目标元素相对位置关系倒推出目标元素在执行界面的位置的方式，完成复选框元素的定位；由于复选框元素锚点与其之间的强相关特性，即使不直接进行目标元素的匹配，也能获得较高的准确率；最后，为了避免由于锚点匹配错误导致复选框元素定位失败，本发明引入RPA元素分类模型，用于确认通过锚点定位出的目标元素是否为复选框元素，以及是复选框元素时的勾选状态，来指导后续的自动化操作，在一定程度上避免了误操作的发生；（4）本发明通过实现RPA复选框操作组件在不可底层解析场景下的“勾选、取消勾选、获取勾选状态”功能，结合融合拾取技术中对业务场景是否可底层解析的自动判别能力，实现了RPA复选框操作组件在两种场景下的无差别功能及无差别使用，构建了一个通用型的RPA复选框操作组件，解决了当前业内复选框元素操作组件仅能支持可底层解析场景下复选框自动化操作的问题。

附图说明

图1为本发明中通用型RPA复选框操作组件的一种功能示意图；

图2为本发明中通用型RPA复选框操作组件的构建方法的一种流程示意图；

图3为本发明中通用型复选框组件元素拾取的一种流程示意图；

图4为RPA业务中复选框存在场景的一种示例图；

图5为本发明中候选目标元素类别确认过程的一种流程示意图；

图6为本发明实施例提供的自动化添加群成员的一种场景示意图；

图7为本发明实施例提供的通用型RPA复选框操作组件构建方法的一种实际应用流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明提出了通用型RPA复选框操作组件的构建方法，可以同时支持可底层解析场景和不可底层解析场景下复选框元素的相关操作。组件中设计有三个操作选项：“勾选”、“取消勾选”、“获取勾选状态”。拾取阶段，用户使用组件的拾取功能进行目标复选框元素的拾取，并设置操作选项；执行阶段，RPA定位执行界面的目标复选框元素，并根据用户设置，完成相应的操作。其应用场景可分为“可底层解析场景”和“不可底层解析场景”。

对于可底层解析场景的功能，延用现有方案，通过解析底层源码，获取目标复选框元素的位置以及勾选状态，以便于实现“勾选、取消勾选、获取勾选状态”操作。

对于不可底层解析的场景，主要包含元素检测、元素拾取、锚点分配、元素定位、复选框状态识别等步骤。在拾取阶段，首先需要基于计算机视觉技术对拾取界面的元素进行检测，并为用户拾取的复选框元素标记“智能元素”标识，然后，将拾取的复选框元素右侧第一个文字元素作为锚点元素，保存相关信息并记录相对位置关系。在执行阶段，首先在执行界面定位出目标复选框元素的锚点元素位置，然后通过记录的锚点与目标元素之间的相对位置关系，倒推出目标复选框元素的位置。然后通过所训练的RPA元素分类模型判断倒推出的元素是否为复选框元素（复选框勾选和复选框未勾选类别，均表示此元素为复选框元素），如果是，则同时也识别出了复选框的勾选状态，进而可以进行后续操作；如果不是，则中止执行操作，并给出提示告知用户。通过上述操作就能够完成复选框元素的定位和状态识别，并避免由于定位错误引发操作问题，进而完成各种复选框操作。

基于上述技术方案，本发明所提出的通用型RPA复选框操作组件构建方法能够完全对齐可底层解析软件场景和不可底层解析软件场景下复选框组件的各项功能。借助于计算机视觉技术，用户在拾取时无需关心当前操作场景底层是否可解析，即可直接拾取目标复选框元素并设置操作类型（勾选、取消勾选、获取勾选状态），所构建的组件会自动识别该场景是否可底层解析，并为不可底层解析的场景下拾取的元素标记“智能元素”标识。在执行时，用户也无需关心执行界面是否为底层可解析场景，组件会自动判断目标元素是否有“智能元素”标识，若有，则执行上述可底层解析场景复选框操作逻辑；否则，执行上述不可底层解析场景复选框操作逻辑。不仅实现了不可底层解析场景下复选框元素的相关操作，更统一了两种场景下复选框的操作功能及其使用方式，实现了一个通用型的RPA复选框操作组件。

具体来说，本发明所提出的组件功能及完整实现方案架构图分别如图1和图2所示，组件功能使用包含拾取阶段的拾取及“勾选、取消勾选、获取勾选状态”三种目标设置，执行阶段包含相应的定位、判别及点击操作，方案实现流程包含了两类场景的应用及相关技术，如下所述：

组件功能：

1.元素拾取及“勾选、取消勾选、获取勾选状态”操作设置；

2.元素定位、元素状态判别、点击。

实现方案：

1.可底层解析场景；

2.不可底层解析场景。

对于复选框元素拾取操作，具体如下：

如图3所示，基于计算机视觉技术，实现拾取场景是否可为可底层解析场景的自动识别，并为不可底层解析场景下所拾取的复选框元素标记“智能元素”标识，用于指导执行阶段执行方案选择。

对于复选框自动锚点分配操作，具体如下：

在不可底层解析场景下进行复选框操作，拾取目标复选框之后，考虑到RPA业务流程中，凡是复选框存在的场景其右侧都会紧挨着存在一个与之有关的文字元素，如图4所示，因此将其右侧的文字元素选做目标复选框元素的锚点，并记录两者的相对位置关系，如图4左侧示例中，复选框元素中心点在其锚点文字元素“狂铁的日历”中心点的左侧N个像素。

对于复选框元素定位操作，具体如下：

与常规元素定位方案不同，复选框元素定位需要首先在执行界面进行其锚点元素的定位，然后根据锚点元素在执行界面的位置及拾取时记录的复选框元素与锚点元素之间的相对位置关系，推出执行界面目标复选框元素位置作为候选目标元素。以图4左侧示例来说，首先在执行界面定位到锚点元素“狂铁的日历”位置，然后其左侧N个像素位置即为目标复选框元素的中心点，然后根据所拾取复选框元素的长宽，即可还原目标复选框元素外接矩形框。

对于候选目标元素的类别确认，具体如下：

训练一个基于深度学习的RPA元素分类模型，其中至少包含“勾选状态复选框”、“未勾选状态复选框”、“其他元素”三个类别。其中，“其他元素”也可以是一些具体的RPA元素类别，如输入框元素、文本元素等。然后将复选框元素定位出的候选目标元素输入分类模型，若识别结果为“其他元素”，则表明复选框元素定位出错，中止流程并提示用户；否则，表明候选目标元素确实是一个复选框元素，同时复选框的勾选状态也被RPA元素分类模型输出，再根据预设的复选框操作，即可进行相应的复选框自动化操作，流程具体如图5所示。

本发明还提供了通用型RPA复选框操作组件的构建系统，包括：

如图6所示为一个经典的复选框元素自动化操作场景（其中序号1-6表示图中6个复选框元素序号）：添加群成员。本实施例的目的是在一个不可底层解析的软件中，自动化添加张三、李四为群成员，具体操作为使用复选框操作组件，拾取复选框元素1和复选框元素2，并设置“勾选”操作。

图7为图6对应的操作方法的示例，通过图7描述的步骤在图6界面上操作复选框元素，具体实施过程如下：

1.在拾取阶段，用户调用本发明所构建的复选框操作组件，在拾取界面拾取复选框元素1。具备融合拾取功能的RPA设计器识别到当前界面元素不可被底层解析，自动为用户拾取的复选框元素1标记“智能元素”标识。

2.在用户选择了要拾取的复选框元素1之后，复选框操作组件自动为其分配锚点，所分配的锚点为文字元素11，记录与其相对位置关系为“目标元素中心在锚点左侧 N个像素”，然后用户手动设置复选框操作为“勾选”，完成复选框元素1的拾取；重复上述步骤，完成复选框元素2的拾取。

3.在执行阶段，RPA首先执行复选框元素1的勾选操作。RPA判断出该元素被标记了“智能元素”标识，于是执行不可底层解析场景下的复选框元素操作执行逻辑。具备融合拾取能力的RPA设计器在执行界面检测出各个元素位置，然后匹配锚点元素11在执行界面的对应元素44，再元素44的位置倒推出其“左侧N个像素”处为目标复选框元素4的中心点，最后通过拾取的复选框元素1的长宽还原出其在执行界面的对应元素为元素4。

4.基于resnet18等深度神经网络分类模型训练RPA元素分类模型，包含类别“勾选状态复选框、未勾选状态复选框、输入框、文字元素、其他类型元素”。将步骤3中定位出的目标复选框在执行界面的对应元素4输入分类模型进行识别，最终模型分类结果为“未勾选状态复选框”，与拾取阶段预设的“勾选”操作的目标状态不一致，则点击进行勾选。

5.接下来执行复选框元素2的勾选操作。同步骤3，首先定位出复选框元素2在执行界面的对应元素5，再使用步骤4所训练的RPA元素分类模型进行识别，最终模型分类结果为“勾选状态复选框”，与拾取阶段预设的“勾选”操作的目标状态一致，不点击勾选。

6.至此，就完成了使用复选框组件在不可底层解析软件上的复选框操作。

本发明提出一种通用型RPA复选框操作组件构建方法，基于一系列的技术方案，实现了不可底层解析场景下RPA业务中复选框的各种自动化操作，功能与使用方式上，与基于底层解析的RPA复选框操作组件完全一致；并将两种场景下的复选框操作完美融合在一个复选框组件中，构建了一个通用型的RPA复选框操作组件。本发明方案大大扩展了RPA中有关复选框操作的业务流程的应用边界，优化了用户体验。

本发明的创新点如下：

1.本发明提出了不可底层解析软件或网页场景下RPA复选框自动化操作的实现方案，扩展了RPA业务中有关复选框操作的应用边界。

2.本发明提出一种“先锚点辅助定位，再分类模型确认”的RPA元素定位方法，该方法尤其适用于“目标元素的样式会在有限范围内变化”场景下的元素定位问题。该方法实现了一种新场景的元素定位解决方案，扩展了RPA的应用边界。

3.本发明将可底层解析场景和不可底层解析场景下RPA复选框操作的功能和使用方式完全对齐，并完全融合到同一个RPA复选框操作组件中，实现了一个各场景下通用的RPA复选框操作组件，扩展了RPA的应用边界，优化了使用体验和效率。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.通用型RPA复选框操作组件的构建方法，其特征在于，包括如下步骤；

S5，通过对候选目标元素的类别确认，判断候选目标元素是否为实际目标复选框元素；

步骤S3中，所述复选框自动锚点分配操作具体如下：

将拾取的复选框元素右侧第一个文字元素作为锚点元素，保存并记录复选框元素与锚点元素之间的相对位置关系；

步骤S4中，所述复选框元素定位操作具体为：

在执行界面定位出目标复选框元素的锚点元素位置，然后通过记录的锚点元素与复选框元素之间的相对位置关系，倒推出目标复选框元素的位置；

步骤S5中，所述候选目标元素的类别确认具体为：

所述RPA元素分类模型至少包含勾选状态复选框、未勾选状态复选框和其他元素三个类别；其中，其他元素为具体的RPA元素类别，包括输入框元素和文本元素；

步骤S5中，所述通过训练的RPA元素分类模型判断倒推出的候选目标元素是否为实际目标复选框元素的具体过程为：

2.根据权利要求1所述的通用型RPA复选框操作组件的构建方法，其特征在于，步骤S2中，所述复选框元素拾取操作具体如下：

3.根据权利要求1所述的通用型RPA复选框操作组件的构建方法，其特征在于，步骤S1中，所述勾选状态包括勾选、取消勾选和获取勾选状态。

4.通用型RPA复选框操作组件的构建系统，用于实现权利要求1-3任一项所述的通用型RPA复选框操作组件的构建方法，其特征在于，所述通用型RPA复选框操作组件的构建系统包括：