CN115546465A

CN115546465A - 一种用于定位界面上元素位置的方法、介质及电子设备

Info

Publication number: CN115546465A
Application number: CN202211208232.7A
Authority: CN
Inventors: 杭天欣; 高煜光; 张泉
Original assignee: Beijing Hongji Information Technology Co ltd; Shanghai Hongji Information Technology Co Ltd
Current assignee: Beijing Hongji Information Technology Co ltd; Shanghai Hongji Information Technology Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-30

Abstract

本申请实施例提供一种用于定位界面上元素位置的方法、介质及电子设备，该方法包括：将待操作界面的图像输入目标检测模型，并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果，其中，所述元素聚合结果采用聚合框表征；至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位；其中，所述元素结构树包括位于底层的叶节点以及各级父节点，所述底层的叶节点为所述所有元素，所述元素结构树中的一个父节点对应一个聚合框。本申请的实施例采用端到端的检测出搭建结构树所需的所有内容，从而提升根据元素结构树定位界面上元素的效果。

Description

一种用于定位界面上元素位置的方法、介质及电子设备

技术领域

本申请涉及机器人流程自动化RAP领域，具体而言本申请实施例涉及一种用于定位界面上元素位置的方法、介质及电子设备。

背景技术

相关技术在机器人流程自动化RPA(Robotic Process Automation，RPA)的实施过程中，对于一个普通的界面(例如，网页或者app的界面)，软件机器人在点击某一个按钮(作为界面上元素的一个示例)前，需要先精准的识别出这个按钮的位置和语义，这个技术的准确率依赖于目标元素检测模块、模板匹配模块和OCR(Optical Character Recognition，光学字符识别)模块等多个模块共同的准确率。

由于相关技术的多个模块(例如，目标检测模块、模板匹配模块和OCR模块)是串联工作的，因此每一个模块都依赖与上游模块的准确率，错误率将累乘，这导致了软件机器人在定位待操作界面上元素位置时低效的成功率，同时由于串联的模块个数过多，这也导致了软件机器人实施速度的下降，此外软件机器人对界面中某些元素的寻找，过度依赖于OCR给出的语义信息，因此对语言版本或者颜色形状变换具有较差的鲁棒性。

发明内容

本申请实施例的目的在于提供一种用于定位界面上元素位置的方法、介质及电子设备，本申请的一些实施例将采用“目标检测”的方法，端到端的检测出搭建结构树所需的所有内容，并利用简单的后处理，来实现界面的元素结构树搭建，从而提升根据元素结构树定位界面上元素的效果。

第一方面，本申请实施例提供一种用于定位界面上元素位置的方法，所述方法包括：将待操作界面的图像输入目标检测模型，并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果，其中，所述元素聚合结果采用聚合框表征；至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位；其中，所述元素结构树包括位于底层的叶节点以及各级父节点，所述底层的叶节点为所述所有元素，所述元素结构树中的一个父节点对应一个聚合框。

本申请的一些实施例采用一个目标检测模型可以实现以端到端的方式寻找元素之间的层级关系，步骤简洁提升了获取元素结构树速度，并提升了对界面上元素进行定位的速度和准确性。

在一些实施例中，所述通过所述目标检测模型识别所述待操作界面上的所有元素以及元素聚合结果，包括：通过所述目标检测模型得到所述图像上的所有框、所述所有框的类型以及所述所有框的属性信息，其中，所述所有框的类型包括元素检测框和聚合框，一个元素检测框内包括从所述界面上识别到的一个元素，一个聚合框内包括根据元素位置和逻辑关系聚合后的多个元素，所述属性信息包括相应框的大小和位置中的至少一个；将位于所有所述元素检测框内的元素作为从所述待操作界面上识别的元素，并将位于所述聚合框内的多个元素作为一组可聚合的元素。

本申请的一些实施例通过训练得到的目标检测模型可以挖掘出待操作界面图像上的所有元素以及可聚合的元素集合，进而可以搭建出元素结构树，例如，将识别元素作为元素结构树包括的底层的叶节点，将可聚合的元素作为元素结构树上的一个父节点。

在一些实施例中，所述至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，包括：根据所述聚合框的属性信息得到所述各级父节点；根据所述元素检测框的位置信息确定所述底层的叶节点所属的父节点。

本申请的一些实施例通过聚合框的属性确定元素结构树上的各级父节点，并通过元素检测框的位置确定底层各叶节点所属的父节点，提升得到的元素结构树的准确性。

在一些实施例中，所述属性信息包括各个聚合框的所述位置信息和框的大小信息。

本申请的一些实施例通过聚合框的位置和大小来确定与两个聚合框对应的两个父节点在元素结构树上是否具有从属关系，提升得到的元素结构树的准确性。

在一些实施例中，所述多个聚合框包括第一聚合框和第二聚合框，其中，所述根据所述聚合框的属性信息得到所述各级父节点，包括：若根据所述第一聚合框的属性信息和所述第二聚合框的属性信息确定在所述图像上所述第一聚合框包含所述第二聚合框，则确认在所述元素结构树中与所述第一聚合框对应的父节点的层级高于与所述第二聚合框对应的父节点的层级。

本申请的一些实施例通过聚合框的位置和大小来确定与两个聚合框对应的父节点的层级的相对高低，提升得到的元素结果树的准确性。

在一些实施例中，所述根据所述聚合框的属性信息得到所述各级父节点，包括：获取多个具有包含关系的聚合框；将所述多个具有包含关系的聚合框按照面积大小排序，得到一个队列；在所述队列中，与相邻的两个聚合框对应的两个父节点在所述元素结构树处于相邻层级。

本申请的一些实施例通过将聚合框按照大小关系进行排序来得到各级父节点，提升得到的元素结构树的准确性和效率。

第二方面，本申请的一些实施例提供一种训练检测模型的方法，所述方法包括：将任一元素在训练界面图像上所覆盖的区域标注一个元素检测框，并在标注有所述元素检测框的图像上标注至少一个聚合框，得到训练数据，其中，位于一个聚合框中的是可聚合的多个元素，所述多个元素是通过元素在相应训练界面上的位置分布和功能确定的；至少根据所述训练数据对检测模型进行训练得到目标检测模型。

本申请的一些实施例通过在训练图像上差异化标注元素所在位置和可聚合多个元素所在的位置来训练检测模型，使得训练结束后得到的目标检测模型具备识别两种框的能力，并具备识别各个框属于这两种框中的哪一类框的能力，进而可以根据目标检测模型输出的数据得到元素结构树，实现了端到端元素检测。

在一些实施例中，所述至少一个聚合框包括从小到大的第一聚合框、第二聚合框，……，第N-1聚合框以及第N聚合框，其中，所述在标注所述元素检测框的图像上标注至少一个聚合框，包括：在可聚合的m个元素所在的区域标注所述第一聚合框，在可聚合的n个元素所在的区域标注所述第二聚合框，其中，所述n个元素包括所述m个元素，依次类推，直到在所述训练界面图像上所有元素所在的区域标注所述第N聚合框，其中，与所述第N聚合框对应的是树的根节点，所述第N聚合框包括所述第N-1聚合框，所述N的取值为大于1的整数。

本申请的一些实施例通过在图像上标注多个大小不同的聚合框作为训练数据，可以使得训练得到的模型具备识别输入图像上各种聚合框的功能。

在一些实施例中，所述至少根据所述训练数据对检测模型进行训练得到所述目标检测模型，包括：根据损失函数确认对所述检测模型的训练是否可束，其中，所述损失函数与所述元素检测框和所述聚合框的面积相关。

本申请的一些实施例通过在聚合函数中引入框的面积，可以有效避免模型侧重学习元素而忽略聚合框的问题。

在一些实施例中，所述损失函数的计算公式为：

其中，n是所述元素检测框和所述聚合框的总数，i为对所述元素检测框和所述聚合框中任一框对应的序号，Ai代表第i个框的面积，li是所述第i个框的初始损失函数值。

本申请的一些实施例通过为损失函数添加面积权重来改善由于聚合框数量相对于元素检测框数量较少导致的训练效果不理想的技术问题。

第二方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述第一方面任意实施例所述的用于定位界面上元素位置的方法。

第三方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如上述第一方面任意实施例所述的用于定位界面上元素位置的方法。

第四方面，本申请的一些实施例提供一种用于定位界面上元素位置的装置，所述装置包括：图像获取模块，被配置为获取待操作界面的图像；元素识别及元素聚合结果识别模块，被配置为将所述图像输入目标检测模型，并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果，其中，所述元素聚合结果采用聚合框表征；元素结构树构建模块，被配置为至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位；其中，所述元素结构树包括位于底层的叶节点以及各级父节点，所述底层的叶节点为所述所有元素，所述元素结构树中的一个父节点对应一个聚合框。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的用于定位界面上元素位置的系统的组成示意图；

图2为本申请实施例提供的用于定位界面上元素位置的方法的流程图之一；

图3为本申请实施例提供的端到端的架构图；

图4为本申请实施例提供的可聚合多个元素示意图；

图5为本申请实施例提供的对检测模型进行训练获取模型权重文件的流程图；

图6为本申请实施例提供的构建元素结构树的方法的流程图之一；

图7为本申请实施例提供的构建元素结构树的方法的流程图之二；

图8为本申请实施例提供的在任一界面图像上标注的所有框的示意图；

图9为本申请实施例提供的各聚合框对应父节点在元素结构树上的层级编号；

图10为本申请实施例提供的根据图8的层级关系构建的元素结构树；

图11为本申请实施例提供的用于定位界面上元素位置的装置的组成框图；

图12为本申请实施例提供的电子设备组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

机器人流程自动化技术可以模拟员工在日常工作中通过键盘、鼠标对计算机的操作，可以代替人类执行登录系统、操作软件、读写数据、下载文件、读取邮件等操作。以自动化机器人作为企业的虚拟劳动力，可以将员工从重复、低价值的工作中解放出来，将精力投入到高附加值的工作上，从而可以使企业在数字化智能化转型的同时又做到降低成本、增加效益。

RPA是一种使用软件机器人取代业务流程中的人工任务，并且像人一样与计算机的前端系统进行交互，因此RPA可以看作是一种运行在个人PC机或服务器中的软件型程序机器人，通过模仿用户在电脑上进行的操作来替代人类自动重复这些操作，例如检索邮件、下载附件、登录系统、数据加工分析等活动，快速、准确、可靠。虽然和传统的物理机器人一样都是通过设定的具体规则来解决人类工作中速度和准确度的问题，但是传统的物理机器人是软硬件结合的机器人，需要在特定的硬件支持下配合软件才能执行工作；而RPA机器人是纯软件层面的，只要安装了相应的软件，就可以部署到任意一台PC机和服务器中来完成规定的工作。

也就是说，RPA是一种利用“数字员工”代替人进行业务操作的一种方式及其相关的技术。本质上RPA是通过软件自动化技术，模拟人实现计算机上系统、软件、网页和文档等对象的无人化操作，获取业务信息、执行业务动作，最终实现流程自动化处理、人力成本节约和处理效率提升。从描述可知，RPA的核心技术之一就是进行界面上待操作的元素的定位拾取，举例来说，当需要模拟人进行按钮点击动作，前提就是定位到按钮元素的位置。本申请的一些实施例通过快速构建的精准的元素结构树，可以显著提升根据该元素结构树定位界面上元素位置的速度和准确度。

为了实现界面上元素的定位，本申请的一些实施例从界面结构化角度出发，将目标检测模型检测出的所有元素进行结构化解析，搭建出元素结构树，使得软件机器人不必根据繁琐的OCR结果或图像语义信息去决定按钮(作为界面上元素的一个示例)的选择，而是通过元素之间结构的关系，从而映射到实际图像中，并找到对应的按钮(作为界面上元素的一个示例)位置。需要说明的是，对于元素结构化的方法中，相关技术有利用图卷积网络的，不过此方法过于依赖于图的结构生成，因此对模型的要求很高。

与上述构建元素结构树的方法不同，本申请的一些实施例采用一个“目标检测模型”端到端的检测出搭建结构树所需的所有内容(该内容包括：各级父节点以及底层叶子节点)，并利用简单的后处理(即下文的后处理阶段执行的方法)，来实现界面的元素结构树搭建。

可以理解的是，由于本申请的一些实施例未采用“先检测元素，再通过元素的特征等信息，找出元素之间的结构关系，进而搭建出元素结构树”的方法，而是采用目标检测模型直接挖掘出界面上的元素和可以表示元素层级关系的聚合框，从而搭建出元素结构树。因此，相较于相关元素结构树搭建方法本申请的一些实施例至少具有如下技术优势：1、降低多模型串联而导致的错误率累成效应；2、提高了元素结构树的搭建速度。此外，相较于相关技术基于界面元素检测和OCR技术相结合的界面元素定位模式，本申请的一些实施例具有如下优势：1、降低多模型串联而导致的错误率累成效应；2、提高了整体的工作速度。另外由于本发明对界面中某些元素的寻找，并不是依赖于OCR给出的语义信息，而是依赖元素的结构关系，因此可以：3、对语言版本或者颜色形状变换具有较高的鲁棒性，同时降低模型的训练成本。

也就是说，本申请的一些实施例利用目标检测模型直接预测出元素以及可以表示元素层级关系的聚合框，并通过简单的后处理手段，搭建出元素结构树。在RPA实施中，本申请的一些实施例可利用元素的结构位置替代语义加特征的匹配方式来定位界面上的元素，因此可以提升获取界面上元素的捕获速度。

请参看图1，图1为本申请实施例提供的用于定位界面上元素位置的系统，该系统包括：操作终端200以及服务器100，其中，机器人可以通过操作终端200来模拟人工对界面的目标元素进行相关操作，服务器100可以协助机器人定位待操作的界面上的目标元素的位置。

例如，在图1中，操作终端200向服务器100提供待操作界面的图像110，之后再由服务器100根据该待操作界面的图像定位元素位置，并向操作终端200反馈待操作界面上元素定位结果121，然后再由机器人在操作终端200上根据元素定位结果完成相应操作。

例如，在图1的操作终端上展示的是百度搜索界面，即在图1中以百度搜索界面作为待操作界面的图像110，在该界面上包括多个元素，即第一元素101、第二元素102、第三元素103、第四元素104、第五元素105、第六元素106、第七元素107、第八元素108、第九元素109以及第十元素，其中，第一元素至第七元素均属于超链接类型的元素，第八元素属于可编辑输入框类型的元素，第九元素属于按钮类型的元素，第十元素190属于有边界的图像。

不难理解的是，服务器100向操作终端200返回的元素定位结果可以是用于确定百度搜索图像上任一元素的位置的定位信息。

需要说明的是，在RPA流程的设计器阶段会选定某个界面(例如，该界面可以是应用程序app的某个界面或者某个网页)作为基准界面(或称为标准界面)，在后续RPA的执行过程中(即利用机器人模仿人类操作界面时)，机器人会无数次重复访问该界面，在本申请的实施例中将机器人访问该界面以对其操作的界面称为待操作界面，将人实际操作的界面(即RPA流程的设计器阶段进行图像录制的界面)称为基准界面或者标准界面。

下面示例性阐述，服务器100如何获取定位结果的。

例如，A是一个包含元素的标准界面，B是根据A构建的标准的元素结构树(该标准元素结构树会预先存储在服务器100中，且该元素结构树的构建方式也可以采用本申请下述实施例提供的用于构建待操作界面对应的元素结构树的具体实现过程)，人工根据A中每个元素的实际语义，对B中每个对应的节点进行标注，从而获得标准元素语义树B+；C是实施过程中的某个界面(即一个待操作界面)，D是根据C构建的元素结构树；如果A和C在元素结构分布上一致，那么D和B+的树结构也一致；如果想在C中寻找某个“按钮”(作为界面上元素的一个示例)，则只需要在B+中找到相同语义的节点，进而找到D中该节点在位置，从而获得该节点在C中对应的位置信息，最后可以对该“按钮”进行点击。

需要说明的是，上述由服务器根据构建的待操作界面的元素结构树来定位界面上元素的过程只是一种实现示例，本领域的技术人员可以根据本申请一些实施例构建的元素结构树采用不同于上一段的方式来定位待操作界面上的元素。

下面结合图2示例性阐述由服务器100执行的用于定位界面上元素位置的方法。需要说明的是，在本申请的一些实施例也可以在操作终端200中集成用于定位界面上元素位置的方法的程序，此时可以不借助于图1的服务器而是由操作终端来实现用于定位界面上元素位置的方法。

如图2所示，本申请实施例提供一种用于定位界面上元素位置的方法，该方法包括：

S101，获取待操作界面的图像。

正如上文所描述的，S101涉及的待操作界面的图像为RPA的执行过程中(即利用机器人模仿人类操作界面时)，机器人访问的界面。

例如，S101可以示例性包括从内存读取待操作的界面图像或者从其他设备处接收待操作的界面图像。

S102，将所述图像输入目标检测模型，并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果，其中，所述元素聚合结果采用聚合框表征。

例如，在本申请的一些实施例中，S102示例性包括：通过所述目标检测模型得到所述图像上的所有框、所述所有框的类型以及所述所有框的属性信息，其中，所述所有框的类型包括元素检测框和聚合框，一个元素检测框内包括从所述界面上识别到的一个元素，一个聚合框内包括根据元素位置和逻辑关系聚合后的多个元素，所述属性信息包括相应框的大小和位置中的至少一个；将位于所有所述元素检测框内的元素作为从所述待操作界面上识别的元素，并将位于所述聚合框内的多个元素作为一组可聚合的元素。

也就是说，本申请的一些实施例通过训练得到的目标检测模型可以挖掘出待操作界面图像上的所有元素以及可聚合的元素集合，进而可以搭建出元素结构树，例如，将识别元素作为元素结构树包括的底层的叶节点，将可聚合的元素作为元素结构树上的一个父节点。

可以理解的是，为了使得S102的目标检测模型可以识别出图像上的所有框、所有框的类别以及所有框的属性(例如，包括所有框的位置信息和大小信息)信息，需要预先对检测模型进行训练并在训练结束后依据权重文件得到目标检测模型。

下面示例性阐述对检测模型进行训练得到目标检测模型的过程。

如图3所示，在本申请的一些实施例中，需要将得到的训练数据输入检测模型111对该模型进行训练，得到各次预测结果，并根据各次预测结果来调整检测模型111的参数，并在确认对检测模型的训练可以结束时(例如通过损失函数确认对模型的训练可结束)得到目标检测模型120。如图3所示，该目标检测模型120已经具备了对输入的待操作界面的图像或者标准界面图像等任一界面图像进行信息挖掘，得到这些图像上的所有框、各框类别(例如，各个框是属于元素检测框还是聚合框)以及各框属性(例如，各框的位置信息以及大小信息)，之后再经过图3的元素结构树构建模型130(即后处理模块)来根据各框的属性确定元素结构树的各层父节点以及底层叶子节点，完成结构树构建，得到对应的元素结构树。

可以理解的是，在本申请的一些实施例中，在所述将所述图像输入目标检测模型之前，所述方法还包括：

第一步，将任一元素在训练界面图像上所覆盖的区域标注一个元素检测框，并在标注有所述元素检测框的图像上标注至少一个聚合框(即将任意可聚合的多个元素在所述训练界面图像上所覆盖的总区域标注一个聚合框)，得到训练数据，其中，位于任一聚合框中的是聚合的多个元素，所述多个元素是通过元素在相应训练界面上的位置分布和功能确定的。例如，该多个元素是在训练界面上位置邻接且功能相同或相似的多个元素，如图4所示，在该界面400上的第一框411内的两个元素属于可聚合元素，这两个元素位置相邻且功能相似均用于登录，在该界面400上的第二框412内的三个元素属于可聚合的元素，这三个元素位置相邻且均属于当前展示的登录方式之外的其他第三方登录方式。可以理解的是，对于图4中的界面图像进行标注时可以针对可聚合的多个元素分别标注聚合框，例如，图4的第一框411和第二框412。

第二步，至少根据所述训练数据对检测模型进行训练得到所述目标检测模型。

需要说明的是，由于标注数据中的元素检测框相对于聚合框数目更多，因此本申请的一些实施例为了有效避免检测模型侧重学习元素而忽略聚合框的问题而提出了一种改进的损失函数，该损失函数与检测模型得到的各个框的大小正相关。

在本申请的一些实施例中，第二步所述至少根据所述训练数据对检测模型进行训练得到所述目标检测模型的过程示例性包括：根据损失函数确认对所述检测模型的训练是否可束，其中，所述损失函数与所述元素检测框和所述聚合框的面积相关。例如，损失函数大小与各框(即所有元素检测框和聚合框中的任一框)的面积大小正相关。本申请的一些实施例通过在聚合函数中引入框的面积，可以有效避免模型侧重学习元素而忽略聚合框的问题。

例如，在本申请的一些实施例中，所述损失函数的计算公式为：

其中，n是所述元素检测框和所述聚合框的总数，i为对所述元素检测框和所述聚合框中任一框对应的序号，Ai代表第i个框的面积，l_i是第i个框的初始损失函数值。本申请的一些实施例通过为损失函数添加面积权重来改善由于聚合框数量相对于元素检测框数量较少导致的训练效果不理想的技术问题。

需要说明的是，目标检测模型或者检测模型为yolov5或其他的模型，上述计算公式中l_i的值可以参考对应模型所公开的损失函数来计算得到，为避免重复在此对l_i值的计算过程不做过多赘述。

可以理解的是，本申请的一些实施例通过在训练图像上差异化标注元素所在位置和可聚合多个元素所在的位置来训练检测模型，使得训练结束后得到的目标检测模型具备识别两种框的能力，并具备识别各个框属于这两种框中的哪一类框的能力，进而可以根据目标检测模型输出的数据得到元素结构树，实现了端到端元素检测。

S103，至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位；其中，所述元素结构树包括位于底层的叶节点以及各级父节点，所述底层的叶节点为所述所有元素，所述元素结构树中的一个父节点对应一个聚合框。

为了确定元素结构树的各级父节点以及底层叶子节点，在本申请的一些实施例中，S103示例性包括：根据所述聚合框的属性信息得到所述各级父节点；根据所述元素检测框的位置信息确定所述底层的叶节点所属的父节点。也就是说，本申请的一些实施例通过聚合框的属性确定元素结构树上的各级父节点，并通过元素检测框的位置确定底层各叶节点所属的父节点，提升得到的元素结构树的准确性。

需要说明的是，在本申请的一些实施例中，聚合框的属性信息包括各个聚合框的位置信息和框的大小信息。本申请的一些实施例通过聚合框的位置和大小来确定与两个聚合框对应的两个父节点在元素结构树上是否具有从属关系，提升得到的元素结构树的准确性。

在本申请的一些实施例中，所述多个聚合框包括第一聚合框和第二聚合框，其中，S103示例性包括：若根据所述第一聚合框的属性信息和所述第二聚合框的属性信息确定在所述图像上所述第一聚合框包含所述第二聚合框，则确认在所述元素结构树中与所述第一聚合框对应的父节点的层级高于与所述第二聚合框对应的父节点的层级。本申请的一些实施例通过聚合框的位置和大小来确定与两个聚合框对应的父节点的层级的相对高低，提升得到的元素结果树的准确性。

在本申请的一些实施例中，上述S103所述根据所述聚合框的属性信息得到所述各级父节点的过程示例性包括：获取多个具有包含关系的聚合框；将所述多个具有包含关系的聚合框按照面积大小排序，得到一个队列；在所述队列中，与相邻的两个聚合框对应的两个父节点在所述元素结构树处于相邻层级。本申请的一些实施例通过将聚合框按照大小关系进行排序来得到各级父节点，提升得到的元素结构树的准确性和效率。

需要说明的是，在本申请的一些实施例中，上述目标检测模型或者检测模型可以为Yolov7或者yolox。

不难理解的是，本申请的一些实施例采用一个目标检测模型可以实现以端到端的方式寻找元素之间的层级关系，步骤简洁提升了获取元素结构树速度，并提升了对界面上元素进行定位的速度和准确性。

需要说明的，在本申请的一些实施例中，在S103之后为了根据构建的元素结构树定位该待操作界面上的元素，还需要在服务器100上预先存储多种元素结果树，且这些被存的元素结构树需要包括与该待操作界面对应的元素结构树，即上文所述的在RPA流程的设计器阶段(即人工操作界面的阶段)会选定与待操作界面相同的界面，即基准界面(或称为标准界面)并获取该界面的元素结构树。针对具体如何根据预先存储的元素结构树来定位待操作界面的元素的具体过程可以参照上述服务器100如何获取定位结果的技术方案，为避免重复在此不做过多赘述。

下面结合图5-图9以一个具体示例(该示例包括模型训练阶段、目标检测模型推理阶段以及后处理阶段)阐述对检测模型训练以及根据训练得到的目标检测模型的输出结果构建元素结构树的过程。

第一阶段，模型训练阶段

如图5所示，对检测模型的训练过程包括：

采集数据得到采集的训练图像。

S201，对采集的训练图像进行尺寸变换，得到待预测数据。

S202，在采集得到的训练图像上标注元素检测框和聚合框，在对标注图像进行尺寸变换，得到训练时的监督数据。

例如，在本申请的一些实施例中，上述至少一个聚合框包括从小到大的第一聚合框、第二聚合框，……，第N-1聚合框以及第N聚合框，其中，上述在标注所述元素检测框的图像上标注至少一个聚合框示例性包括：在可聚合的m个元素(例如，该m个元素的位置邻近且功能相同)所在的区域标注所述第一聚合框，在可聚合的n个元素(例如，该n个元素的位置邻近且功能相似)所在的区域标注所述第二聚合框，其中，所述n个元素包括所述m个元素，依次类推，直到在所述训练界面图像上所有元素所在的区域标注所述第N聚合框，其中，与所述第N聚合框对应的是树的根节点，所述第N聚合框包括所述第N-1聚合框，所述N的取值为大于1的整数。

也就是说，将采集到的网页界面图片或软件界面图片进行标注，形成对应的标注集，其中标注方式可以参考图8，图中虚线框为标注的元素检测框，图中各实线框为标注的聚合框(即可以表示元素层级关系的聚合框)。

例如，图8中，在元素A、元素B、元素C、元素D、元素E、元素F、元素G、元素H、元素I、元素J、元素K、元素L以及元素M(这些元素在图8中被简写为对应的字母)中各元素所在的区域分别标注一个元素检测框，并在可聚合的元素A和元素B所共同覆盖的区域标注一个聚合框，在可聚合的元素C和元素D所共同覆盖的区域标注一个聚合框，在可聚合的元素E和元素F所共同覆盖的区域标注一个聚合框，在可聚合的元素G和元素H所共同覆盖的区域标注一个聚合框，在可聚合的元素I、元素J和元素K所共同覆盖的区域标注一个聚合框，在可聚合的元素L以及元素M所共同覆盖的区域标注一个聚合框，另外在图8中还标注有针对聚合框再聚合的更大的聚合框，为避免重复在此不一一描述图8中的各聚合框。

由于采集得到的各界面的图像可能存在大小不一的问题，且若图像过大将不利于模型训练和推理，因此本申请的一些实施例还需要对图像尺寸进行调整。例如，将所有图片的尺寸调整为相同大小，例如，将所述图像调整为大小为：1920*1088的图像，并将对应的标注框进行大小缩放。也就是说，将采集的所有图像的尺寸进行统一(即将所有图像的像素数目修改为相同)，并对对应图像上的标注框进行对应缩放。

S204，将待预测数据和监督数据同时输入检测模型对模型进行训练，以得到模型权重文件，该权重文件即目标检测模型对应的各参数的具体取值。

例如，将经过S201以及S203处理后的图片作为输入送入检测模型Yolov5 large(例如，Yolov7、yolox等模型也可以)以对该模型进行监督训练，其对应的标注集作为监督数据，获得训练后的模型权重文件pkg。需要说明的是，在本申请的一些实施例中，需要对Yolov5 large进行如下调整：首先，本申请的一些实施例增加了下采样倍率的类别，从而增加了对应的下采样特征图。这是由于界面解析中小于8*8像素的小目标比较多，所以在模型head部分，添加了新的下采样特征图，原本是1/8、1/16、1/32，现在为1/4、1/8、1/16、1/32。其次，由于本申请的一些实施例的标注框中面积较大框和面积较小框的数量级存在较大差异，即元素检测框(通常较小)的数量远大于聚合框(通常框较大)，所以在loss设计时，为了避免模型侧重学习元素、而忽略聚合框，本申请的一些实施例通过计算框的面积大小，为loss添加了权重，使得模型可以平衡元素和聚合框的学习，其loss设计为:

其中，n是object的总数，i是序号，其中Ai代表第i个object的面积，li是第i个object的loss。

第二阶段，目标检测模型推理阶段

如图6所示，目标检测模型推理结果流程如下：

S301，将待操作界面的图像的尺寸调整为预设尺寸。

例如，将图5获得的模型权重文件pkg作为模型的参数，获得推理时用的目标检测模型Yolov5 large，将待检测界面图片(例如，待操作界面的图像或者标准界面图像)的大小调整为宽为1920(像素点数)且高为1088(像素点数)的图像后，送入该模型中。

S302，通过目标检测模型得到输出结果。

也就是说，本申请的一些实施例的目标检测模型会挖掘出输入图像上所有的元素检测框以及聚合框，并且这些框会包含位置和类别信息。

需要说明的是，本申请一些实施例的聚合框在标注阶段和目标检测阶段是不分层级的，后续的后处理算法会根据框的大小和位置划分出聚合框的层级。上述类别信息是指object(即检测到的所有框)的类别，即每个框属于元素检测框还是属于聚合框，目的在于后续后处理算法会根据object类别来确定树的构成，例如，将元素作为元素结构树底层的叶节点，将聚合框作为一个父节点。

S303，根据所述聚合框和所述元素检测框构建元素结构树。

也就是说，将元素检测框以及聚合框送入后处理步骤，获得元素结构树。

第三阶段，后处理阶段

如图7所示，后处理步骤示例性包括：

S401，根据所有聚合框从大到小依据包含关系，逐渐构建树结构，并将整个界面作为根节点(即最上一层父节点)。

将聚合框按照从大到小依靠包含关系，逐渐构建树结构，并将整个界面视作根节点，得到不包含叶节点的结构树。

例如，根据任意两个聚合框所在的位置和大小关系，确定两者是否具有包含关系。具体地，若第一聚合框大于第二聚合框，且第二聚合框的位置位于所述第一聚合框内部，则确定第一聚合框包括第二聚合框。重复该过程就可以确定所有聚合框的包含关系；根据所有包含关系构建元素结果树。

S402，根据所有元素在界面上的位置，在树结构中设置对应的叶节点，得到元素结构树。

根据元素检测框的位置信息在S401得到的结构树中设置对应的叶节点，从而获得最终的元素结构树。

S401和S402演示过程如图9和图10所示，其中，图9代表由目标检测模型对输入图像进行检测得到的检测结果，其中颜色较浅的为聚合框、颜色较黑的代表元素检测框。

根据这张图可以看出结构树生成步骤包括：

第一步，不包含叶节点的结构树生成：图9的结构框0包含框1和框4，对应图10中，节点1和节点4是节点0的子节点；图9的框1包含框2和3，对应图10中，节点2和3是节点1的子节点；依次类推；图10的整体界面包含框0和9，所以界面作为根节点，节点0和9作为根节点的子节点。

第二步，叶节点生成：元素检测框内的第一元素A和元素检测框内的第二元素B属于聚合框2，则图10的节点A和B属于叶节点，并且属于节点2的子节点。

请参考图11，图11示出了本申请实施例提供的用于定位界面上元素位置的装置，应理解，该装置与上述图2方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该用于定位界面上元素位置的装置，包括：图像获取模块401、元素识别及元素聚合结果识别模块402以及元素结构树构建模块403。

图像获取模块，被配置为获取待操作界面的图像。

元素识别及元素聚合结果识别模块，被配置为将所述图像输入目标检测模型，并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果，其中，所述元素聚合结果采用聚合框表征。

元素结构树构建模块，被配置为至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位；其中，所述元素结构树包括位于底层的叶节点以及各级父节点，所述底层的叶节点为所述所有元素，所述元素结构树中的一个父节点对应一个聚合框。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述用于定位界面上元素位置的方法中任意实施例的技术方案。

如图12所示，本申请的一些实施例提供一种电子设备500，包括存储器510、处理器520以及存储在所述存储器510上并可在所述处理器520上运行的计算机程序，其中，所述处理器520通过总线530从存储器510读取程序并执行所述程序时可实现如上述用于定位界面上元素位置的方法所包括的任意实施例所对应的技术方案。

处理器520可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器520可以是微处理器。

存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图2中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种用于定位界面上元素位置的方法，其特征在于，所述方法包括：

将待操作界面的图像输入目标检测模型，并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果，其中，所述元素聚合结果采用聚合框表征；

至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位；

其中，所述元素结构树包括位于底层的叶节点以及各级父节点，所述底层的叶节点为所述所有元素，所述元素结构树中的一个父节点对应一个聚合框。

2.如权利要求1所述的方法，其特征在于，所述通过所述目标检测模型识别所述待操作界面上的所有元素以及元素聚合结果，包括：

通过所述目标检测模型得到所述图像上的所有框、所述所有框的类型以及所有框的属性信息，其中，所述所有框的类型包括元素检测框和聚合框，一个元素检测框内包括从所述界面上识别到的一个元素，一个聚合框内包括根据元素位置和逻辑关系聚合后的多个元素，所述属性信息包括相应框的大小和位置中的至少一个；

将位于所有所述元素检测框内的元素作为从所述待操作界面上识别的元素，并将位于所述聚合框内的多个元素作为一组可聚合的元素。

3.如权利要求2所述的方法，其特征在于，

所述至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树，包括：

根据所述聚合框的属性信息得到所述各级父节点；

根据所述元素检测框的位置信息确定所述底层的叶节点所属的父节点。

4.如权利要求3所述的方法，其特征在于，所述属性信息包括各个聚合框的所述位置信息和框的大小信息。

5.如权利要求3-4任一项所述的方法，其特征在于，所述多个聚合框包括第一聚合框和第二聚合框，

其中，

所述根据所述聚合框的属性信息得到所述各级父节点，包括：

若根据所述第一聚合框的属性信息和所述第二聚合框的属性信息确定在所述图像上所述第一聚合框包含所述第二聚合框，则确认在所述元素结构树中与所述第一聚合框对应的父节点的层级高于与所述第二聚合框对应的父节点的层级。

6.如权利要求3-4任一项所述的方法，其特征在于，所述根据所述聚合框的属性信息得到所述各级父节点，包括：

获取多个具有包含关系的聚合框；

将所述多个具有包含关系的聚合框按照面积大小排序，得到一个队列；

在所述队列中，与相邻的两个聚合框对应的两个父节点在所述元素结构树处于相邻层级。

7.一种训练检测模型的方法，其特征在于，所述方法包括：

将任一元素在训练界面图像上所覆盖的区域标注一个元素检测框，并在标注有所述元素检测框的图像上标注至少一个聚合框，得到训练数据，其中，位于一个聚合框中的是可聚合的多个元素，所述多个元素是通过元素在相应训练界面上的位置分布和功能确定的；

至少根据所述训练数据对检测模型进行训练得到目标检测模型。

8.如权利要求7所述的方法，其特征在于，所述至少一个聚合框包括从小到大的第一聚合框、第二聚合框，……，第N-1聚合框以及第N聚合框，其中，

所述在标注所述元素检测框的图像上标注至少一个聚合框，包括：

在可聚合的m个元素所在的区域标注所述第一聚合框，在可聚合的n个元素所在的区域标注所述第二聚合框，其中，所述n个元素包括所述m个元素，依次类推，直到在所述训练界面图像上所有元素所在的区域标注所述第N聚合框，其中，与所述第N聚合框对应的是树的根节点，所述第N聚合框包括所述第N-1聚合框，所述N的取值为大于1的整数。

9.如权利要求7所述的方法，其特征在于，所述至少根据所述训练数据对检测模型进行训练得到所述目标检测模型，包括：

根据损失函数确认对所述检测模型的训练是否可束，其中，所述损失函数与所述元素检测框和所述聚合框的面积相关。

10.如权利要求9所述的方法，其特征在于，所述损失函数的计算公式为：

其中，n是所述元素检测框和所述聚合框的总数，i为对所述元素检测框和所述聚合框中任一框对应的序号，Ai代表第i个框的面积，l_i是所述第i个框的初始损失函数值。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时可实现如权利要求1-10中任意一项权利要求所述的方法。

12.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如权利要求1-10中任意一项权利要求所述的方法。