CN118038019A

CN118038019A - 一种用户图形界面元素识别方法及系统

Info

Publication number: CN118038019A
Application number: CN202410107659.0A
Authority: CN
Inventors: 杨谈; 王玥; 郭伟; 段振刚; 郑永伯
Original assignee: Zhongke Lianan Nanjing Technology Co ltd
Current assignee: Zhongke Lianan Nanjing Technology Co ltd
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-05-14

Abstract

本发明提供一种用户图形界面元素识别方法及系统，所述方法的步骤包括：获取待检测的界面图，将所述界面图输入到第一卷积模块中，所述第一卷积模块输出第一过程向量；将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量；所述第二过程向量顺序通过特征金字塔网络模块和分类与锚框监测模块，所述分类与锚框监测模块通过分类器和边界框回归算法确定检测框，得到标记有检测框的界面图。

Description

一种用户图形界面元素识别方法及系统

技术领域

本发明涉及目标检测技术领域，尤其涉及一种用户图形界面元素识别方法及系统。

背景技术

在移动应用程序中，图形用户界面(GUI)提供了一种方便的方式，可以使用按钮、文本框和窗口等图形元素与计算机交换信息。通过图形的集成，GUI改善了用户体验，为信息传输提供了一个直观而又引人注目的界面。因此，GUI元素的检测已经成为移动应用程序测试中不可避免的挑战，另一方面，移动平台的爆炸式增长使GUI的测试更加复杂化，凸显了自动测试技术的迫切需求。

由于高性能计算的发展和用于模型训练的大规模数据的出现，基于深度学习的方法已经重塑了目标检测领域。尽管如此，GUI元素检测依旧可以看作是小目标检测的一种特例，且仍然是需要探索的边界。

现有的GUI元素检测模型主要是通过目标检测模型针对GUI数据集训练而来，分类单阶段目标检测模型和双阶段目标检测模型，但由于GUI元素大多都是非常小的元素，这里的非常小指的是元素本身的长宽很小以及所占整体图像的比例也很小。GUI元素在软件界面中的排布经常是密集的，如软件下载界面、视频直播界面和商城界面等，这些界面中往往包含大量的信息，GUI元素作为信息的载体，经常会出现非常紧凑的布局。小而密集的特点导致当前目标检测算法在识别软件界面中的GUI元素时会出现漏检的情况，即现有技术的目标检测模型难以检测出全部的GUI元素。

发明内容

鉴于此，本发明实施例提供了一种用户图形界面元素识别方法，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种用户图形界面元素识别方法，该方法包括以下步骤：

获取待检测的界面图，将所述界面图输入到第一卷积模块中，所述第一卷积模块输出第一过程向量；

将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量；

所述第二过程向量顺序通过特征金字塔网络模块和分类与锚框监测模块，所述分类与锚框监测模块通过分类器和边界框回归算法确定检测框，得到标记有检测框的界面图。

采用上述方案，相比其他现有的用户图形界面元素识别方法，本方案设置有显式视觉中心模块，且在显式视觉中心模块中设置有全局特征处理通道和近目标区域处理通道，其中，全局特征处理通道通过预设的多层感知器捕获长距离的全局特征，近目标区域处理通道通过预设的神经网络目标周围区域的特征，从而使本方案能够从两个方面识别特征，保证了对GUI元素的检测全面性。

在本发明的一些实施方式中，所述显式视觉中心模块包括第一全维度动态卷积单元、归一化层、激活函数层和第二全维度动态卷积单元，在将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量的步骤中，所述第一过程向量顺序经过第一全维度动态卷积单元、归一化层和激活函数层进行处理，并分别输入到全局特征处理通道和近目标区域处理通道，将所述全局特征向量和局部特征向量进行拼接，并输入到第二全维度动态卷积单元中，得到第二过程向量。

在本发明的一些实施方式中，所述第一全维度动态卷积单元和第二全维度动态卷积单元为相同的结构，均包括顺序设置的平局池化层、conv2d层、批归一化层、relu层和并行卷积单元，所述并行卷积单元包括并行设置的多个子通道，每个子通道均包括顺序设置的conv2d层和sigmid层，将各个子通道的输出相加，得到所述第一全维度动态卷积单元和第二全维度动态卷积单元的输出。

在本发明的一些实施方式中，所述全局特征处理通道包括顺序设置的多个第一处理单元，每个第一处理单元均包括顺序设置的组归一化层、逐深度卷积层、通道缩放层和Droppath层。

在本发明的一些实施方式中，所述近目标区域处理通道包括顺序设置的卷积层、第二处理单元、码本计算单元、全连接层和一维卷积层，所述码本计算单元基于第二处理单元的输出通过预设的码本进行计算，输出值向量的多个维度的值，组合值向量的多个维度的值得到值向量。

在本发明的一些实施方式中，所述第二处理单元包括顺序设置的卷积层、归一化层和relu层。

在本发明的一些实施方式中，所述码本计算单元获取所述第二处理单元输出的关键字向量，将关键字向量中每个维度的值与预设的码本进行计算，得到值向量。

在本发明的一些实施方式中，在将每个关键字向量分别与预设的码本进行计算，得到对应关键字向量的值向量的步骤中，基于如下公式计算值向量的每个维度的值：

其中，e_δ表示值向量第δ个维度的值，N表示关键字向量的维度数量，s_δ和b_δ表示在码本中值向量第δ个维度的值对应的参数组中的两个计算参数，表示关键字向量的第i个维度的值，K表示码本中的参数组总数，s_j和b_j表示码本中的第j个参数组的两个计算参数。

在本发明的一些实施方式中，所述方法的步骤还包括对包括第一卷积模块、显式视觉中心模块、特征金字塔网络模块和分类与锚框监测模块的网络模型进行预训练，在预训练的步骤中，计算网络模型的输出和标签的归一化韦斯特距离作为损失函数。

在本发明的一些实施方式中，在计算网络模型的输出和标签的归一化韦斯特距离作为损失函数的步骤中，基于所述网络模型输出的检测框和标签框的位置、高度和宽度分别计算检测框和标签框二维高斯分布，基于检测框和标签框二维高斯分布计算损失函数。

在本发明的一些实施方式中，在基于所述网络模型输出的检测框和标签框的位置、长度和宽度分别计算检测框和标签框二维高斯分布的步骤中，二维高斯分布表示为其中/> C_x和C_y为检测框或标签框的重心点位置的横坐标和纵坐标，w和h分别表示检测框或标签框的宽度和高度。

在本发明的一些实施方式中，在基于检测框和标签框二维高斯分布计算损失函数的步骤中，基于如下公式计算损失函数：

其中，L表示W₂和C均为预设的计算参数，和/>分别表示检测框和标签框二维高斯分布。

本发明的第二方面还提供一种用户图形界面元素识别系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如前所述方法所实现的步骤。

本发明的第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述用户图形界面元素识别方法所实现的步骤。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为本发明用户图形界面元素识别方法一种实施方式的示意图；

图2为本发明用户图形界面元素识别方法的架构示意图；

图3为显式视觉中心模块的架构示意图；

图4为消融实验的结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的步骤具体包括：

如图1和2所示，本发明提出一种用户图形界面元素识别方法，所述方法的步骤包括：

步骤S100，获取待检测的界面图，将所述界面图输入到第一卷积模块中，所述第一卷积模块输出第一过程向量；

在具体实施过程中，所述待检测的界面图为图形用户界面(GUI)，所述第一卷积模块顺序设置有多个卷积层，由最后一个卷积层输出第一过程向量。

步骤S200，将所述第一过程向量输入到显式视觉中心模块中，图2中EVCBlockWith ODConv表示显式视觉中心模块，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量；

在本发明的一些实施方式中，显式视觉中心模块中设置有全局特征处理通道和近目标区域处理通道，其中，全局特征处理通道通过预设的多层感知器捕获长距离的全局特征，近目标区域处理通道通过预设的神经网络目标周围区域的特征。

在本发明的一些实施方式中，所述多层感知器(Multilayer Perceptron，MLP)采用前馈人工神经网络模型。

在本发明的一些实施方式中，在基于所述全局特征向量和局部特征向量确定第二过程向量的步骤中，将所述全局特征向量和局部特征向量进行拼接，得到第二过程向量。

步骤S300，所述第二过程向量顺序通过特征金字塔网络模块和分类与锚框监测模块，所述分类与锚框监测模块通过分类器和边界框回归算法确定检测框，得到标记有检测框的界面图。

在具体实施过程中，所述检测框用于标记界面图中的GUI元素。

在本发明的一些实施方式中，所述特征金字塔网络模块采用FPN网络(FeaturePyramid Network)，FPN(Feature Pyramid Network)是一种用于目标检测和语义分割的深度学习网络结构，通过构建多尺度的特征金字塔，将不同层次的特征信息融合在一起，从而提供更加丰富和准确的上下文信息，提高目标检测和语义分割的准确率。

在本发明的一些实施方式中，所述分类与锚框监测模块结合使用分类器和边界框检测算法，以实现物体检测任务。例如，在目标检测任务中，使用CNN作为分类器，同时结合一种边界框回归算法(如R-CNN系列算法)来优化边界框的位置。

在具体实施过程中，现有技术GUI元素类别识别错误率较高：GUI元素类别之间的特征非常相似，例如标签和图片、文本和文本按键等，这些非常相近的GUI元素有着类似的特征，甚至有时人眼都无法正确识别，当前的目标检测算法在识别GUI元素时，会对它们的类别产生误判，导致识别准确率不高，本方案设置有显式视觉中心模块，且在显式视觉中心模块中设置有全局特征处理通道和近目标区域处理通道，其中，全局特征处理通道通过预设的多层感知器捕获长距离的全局特征，近目标区域处理通道通过预设的神经网络目标周围区域的特征，从而使本方案能够从两个方面识别特征，保证识别准确率。

如图3所示，在本发明的一些实施方式中，所述显式视觉中心模块包括第一全维度动态卷积单元、归一化层、激活函数层和第二全维度动态卷积单元，在将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，图2中LVC With ODConv表示近目标区域处理通道，基于所述全局特征向量和局部特征向量确定第二过程向量的步骤中，所述第一过程向量顺序经过第一全维度动态卷积单元、归一化层和激活函数层进行处理，并分别输入到全局特征处理通道和近目标区域处理通道，将所述全局特征向量和局部特征向量进行拼接，并输入到第二全维度动态卷积单元中，得到第二过程向量。

如图3所示，在本发明的一些实施方式中，所述第一全维度动态卷积单元和第二全维度动态卷积单元为相同的结构，均包括顺序设置的平局池化层、conv2d层、批归一化层、relu层和并行卷积单元，所述并行卷积单元包括并行设置的多个子通道，每个子通道均包括顺序设置的conv2d层和sigmid层，将各个子通道的输出相加，得到所述第一全维度动态卷积单元和第二全维度动态卷积单元的输出。

在具体实施过程中，所述第一全维度动态卷积单元和第二全维度动态卷积单元均采用ODConv(OMNI-DIMENSIONAL DYNAMIC CONVOLUTION)结构，ODConv是一种关注了空域、输入通道、输出通道等维度上的动态性的卷积方法。

采用上述方案，全维度动态卷积单元作为普通卷积的替代加入至显式视觉中心中，提高模型特征表达能力的同时有效解决了显式视觉中心给模型带来的复杂度的提高问题。

在具体实施过程中，所述码本对应关键字向量的每个维度设置有参数组，所述关键字向量的维度数与值向量的维度数相同。

实验例一：

实验例一选取了6个比较经典或者业界最新的目标检测模型作为比较，包括faster R-CNN、RetinaNet、rfla、Sparse R-CNN、SQR以及YOLOx。其中faster R-CNN是双阶段目标检测模型，RetinaNet是单阶段检测模型但是与yolov5的原理有较大不同，SparseR-CNN的原理与单阶段和双阶段的目标检测算法都不一样，rfla则是针对小目标检测推出的一款目标检测器，SQR是目标检测领域的SOTA模型。YOLOx最为YOLOv5最成功的演进模型，本发明也将其作为对比实验的模型。

本实验例一将提出的改进方法作为即插即用的模块，移植到faster R-CNN、RetinaNet和Sparse R-CNN中，以验证上述模块对于目标检测模型性能提升的普遍性，进一步证实模块可以更加全面和精准地捕捉用户图形元素的特征。

实验结果：表一显示的是本发明提出的算法与基线模型以及上述提到的模型关于各项mAP参数的比较结果。其中Method后面带“*”表示在原有模型的基础之上加入本发明提出的包含了全维动态卷积的显示视觉中心模块(EVCBlock with ODCOnv)和归一化韦斯特距离损失函数(NWD Loss)。可以看到本发明提出的算法各项指标都与SQR持平，保持并列第一，虽然本发明提出的算法在精准度上与SQR与非常微弱的差距，但在参数量上相较于SQR有着一个量级的差距，可以说本发明提出的算法在各项精准度以及模型参数量方面较其它对比模型而言有很大优势；其次，经由本发明所提出模块改进后的其它模型相较于其原始模型在各项mAP指标上均有提升，并且在参数量上带来的增加也是可控的、小范围的。可见本发明提出的改进方法对于目标检测模型的提升有着普遍意义。

表一

模型	mAP50:95	mAP50	mAP75	Param.(M)
					YOLOv5	75.1	85.3	81.7	7.26
本发明方案	87.9	95.8	94.3	11.60
					RetinaNet	79.6	89.2	86.1	36.33
RetinaNet*	81.9	92.7	88.5	40.89
					Sparse R-CNN	81.8	87.4	86.1	105.96
Sparse R-CNN*	83.6	89.5	87.7	110.52
					Faster R-CNN	78.1	90.1	87.1	41.18
Faster R-CNN*	79.4	92.3	89.1	45.74
					RFLA	82.0	94.0	91.3	41.18
SQR	91.6	96.0	94.8	134.46
					YOLOx	84.8	92.0	90.1	8.94

实验例二：

评价指标：FLOPs指浮点运算数，理解为计算量。可以用来衡量算法/模型的复杂度。模型常用GFLOPs(1GFLOPs＝10^9FLOPs)。

实验结果：图4显示的是消融实验的结果，可以看到虽然显式视觉中心模块(EVC)对于模型精度的提升是非常可观的，但其对模型造成的计算量的提升也十分明显，这会显著提升模型的训练时间和推理时间。NWD Loss作为IoU Loss的替代品，在给模型带来精度上的提升的同时不会造成额外神经元和权重的增加，自然也不会带来计算量的增加。通过消融实验可以明显感知到全维动态卷积对模型带来的显著效果，其效果主要表现在作为普通卷积核的替代物，可以抵消显式视觉中心(EVC)给模型带来的计算量的显著提升。

本发明实施例还提供一种用户图形界面元素识别系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如前所述方法所实现的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述用户图形界面元素识别方法所实现的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户图形界面元素识别方法，其特征在于，所述方法的步骤包括：

2.根据权利要求1所述的用户图形界面元素识别方法，其特征在于，所述显式视觉中心模块包括第一全维度动态卷积单元、归一化层、激活函数层和第二全维度动态卷积单元，在将所述第一过程向量输入到显式视觉中心模块中，所述显式视觉中心模块包括全局特征处理通道和近目标区域处理通道，所述全局特征处理通道通过预设的多层感知器输出全局特征向量，所述近目标区域处理通道通过预设的神经网络输出局部特征向量，基于所述全局特征向量和局部特征向量确定第二过程向量的步骤中，所述第一过程向量顺序经过第一全维度动态卷积单元、归一化层和激活函数层进行处理，并分别输入到全局特征处理通道和近目标区域处理通道，将所述全局特征向量和局部特征向量进行拼接，并输入到第二全维度动态卷积单元中，得到第二过程向量。

3.根据权利要求2所述的用户图形界面元素识别方法，其特征在于，所述第一全维度动态卷积单元和第二全维度动态卷积单元为相同的结构，均包括顺序设置的平局池化层、conv2d层、批归一化层、relu层和并行卷积单元，所述并行卷积单元包括并行设置的多个子通道，每个子通道均包括顺序设置的conv2d层和sigmid层，将各个子通道的输出相加，得到所述第一全维度动态卷积单元和第二全维度动态卷积单元的输出。

4.根据权利要求1所述的用户图形界面元素识别方法，其特征在于，所述全局特征处理通道包括顺序设置的多个第一处理单元，每个第一处理单元均包括顺序设置的组归一化层、逐深度卷积层、通道缩放层和Droppath层。

5.根据权利要求1所述的用户图形界面元素识别方法，其特征在于，所述近目标区域处理通道包括顺序设置的卷积层、第二处理单元、码本计算单元、全连接层和一维卷积层，所述码本计算单元输出值向量到全连接层。

6.根据权利要求5所述的用户图形界面元素识别方法，其特征在于，所述第二处理单元包括顺序设置的卷积层、归一化层和relu层。

7.根据权利要求5所述的用户图形界面元素识别方法，其特征在于，所述码本计算单元获取所述第二处理单元输出的关键字向量，将关键字向量中每个维度的值与预设的码本进行计算，得到值向量。

8.根据权利要求7所述的用户图形界面元素识别方法，其特征在于，在将每个关键字向量分别与预设的码本进行计算，得到对应关键字向量的值向量的步骤中，基于如下公式计算值向量的每个维度的值：

9.根据权利要求1所述的用户图形界面元素识别方法，其特征在于，所述方法的步骤还包括对包括第一卷积模块、显式视觉中心模块、特征金字塔网络模块和分类与锚框监测模块的网络模型进行预训练，在预训练的步骤中，计算网络模型的输出和标签的归一化韦斯特距离作为损失函数。

10.一种用户图形界面元素识别系统，其特征在于，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1～9任一项所述方法所实现的步骤。