CN111104339A

CN111104339A - 基于多粒度学习的软件界面元素检测方法、系统、计算机设备和存储介质

Info

Publication number: CN111104339A
Application number: CN201911411268.3A
Authority: CN
Inventors: 胡立军; 唐琦松; 林平; 吴鑫; 刘继明
Original assignee: Shanghai I Search Software Co ltd
Current assignee: Shanghai I Search Software Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-05
Anticipated expiration: 2039-12-31
Also published as: CN111104339B

Abstract

本发明公开了一种基于多粒度学习的软件界面元素检测与定位方法、系统、计算机设备和存储介质，本发明首先获得操作界面图像；将图像输入深度卷积神经网络提取特征，得到同等尺寸的中间结果；将中间结果进行网格化划分；输入多粒度级联背景判别器，检测器会以网格为单位对中间图像进行背景网格的检测；剔除背景网格后，将剩余的网格部分输多粒度的软件界面元素检测模型进行软件界面元素检测，输出所要检测的控件类型和区域大小。本发明所提出的多粒度级联的背景网格检测装置能够快速有效的找出背景网格，且提高了软件界面元素检测定位的效率和准确度。

Description

基于多粒度学习的软件界面元素检测方法、系统、计算机设备和存储介质

技术领域

本发明涉及一种基于多粒度的软件界面元素检测方法、系统、计算机设备和存储介质，属于自动化软件辅助技术领域。

背景技术

软件界面元素自动检测是软件智能化的关键技术。软件智能化及一些软件辅助领域中需要能够对软件界面元素进行自动检测，然而随着软件界面的更新迭代和软件界面元素种类的不断丰富，控件自动检测的复杂度也在不断增加。

在软件开发测试的过程中，也需要对软件的界面进行检测，即检测软件的界面是否与设计图中的软件界面一致。目前主要需要依靠测试人员依靠肉眼去检测软件的界面是否与设计图中的软件界面一致，效率低且受人为因素影响，容易出错。因此，在用户使用过程中，对于软件界面元素自动检测有着非常高的有效性和实时性要求。

发明内容

本发明所要解决的技术问题是：针对软件界面元素自动检测有较高的时效性和准确性要求，利用软件界面图像，自动检测软件界面中控件的位置和类型，快速筛选出需要判别的图像区域，即快速剔除无用的背景图像区域，有效生成最终的控件类型和区域的预测结果。

本发明为解决上述技术问题采用以下技术方案：

本发明首先提出一种基于多粒度学习的软件界面元素检测方法，包括如下步骤：

步骤（1）、输入软件界面图像；

步骤（2）、利用卷积神经网络获取图像的特征，得到与原始图像具有相同尺寸的中间结果；

步骤（3）、对步骤（2）获取的特征进行多粒度网格化操作，得到若干组不同尺寸的图像网格；

步骤（4）、对于得到的图像网格，使用多粒度级联背景判别器对软件界面非控件背景网格区域进行标定；

步骤（5）、将步骤（4）标定出的非背景网格，使用多粒度软件界面控件检测模型对软件界面元素进行检测；

步骤（6）、输出检测出的控件类别和区域大小。

进一步的，本发明提出一种基于多粒度学习的软件界面元素检测方法，步骤（3）所述多粒度网格化的步骤如下：

步骤（301）、输入由深度卷积神经网络提取的特征；

步骤（302）、设定多粒度参数；

步骤（303）、按照参数设置，将特征等分为(a₁*b₁),(a₂*b₂),(a₃*b₃)……,(a_n*b_n)的网格，分别得到n组不同尺寸的图像网格，(a_n*b_n)代表网格化的图像大小。

进一步的，本发明提出一种基于多粒度学习的软件界面元素检测方法，步骤（4）所述多粒度级联背景判别器对软件界面非控件背景网格区域进行标定，具体为：

步骤（401）、输入划分好的多粒度网格图像；

步骤（402）、执行当前粒度下的第i级背景判别器，输出判别结果；

步骤（403）、根据结果判断每一个网格是否为背景网格：若是背景网格，则丢弃该网格；若是非背景网格且存在下一级判别器，则将该网格输入下一级判别器，转至步骤（402）；若是非背景网格且不存在下一级判别器，则保留该网格。

进一步的，本发明提出一种基于多粒度学习的软件界面元素检测方法，步骤（5）所述将非背景网格使用多粒度软件界面控件检测模型对软件界面元素进行检测，具体步骤如下：

步骤（501）、输入所有非背景网格；

步骤（502）、执行相应粒度下的控件判别器，判别器同时预测网格中包含的控件的类型和区域位置；

步骤（503）、将各个粒度下各个网格的预测结果进行投票，根据投票结果确定预测出的控件最终的类型和位置区域。

进一步的，本发明提出一种基于多粒度学习的软件界面元素检测方法，多粒度软件界面控件检测模型包含了n个独立的子模型，分别用于不同粒度的网格；该子模型的输入是网格，输出分别是：网格中控件类型的预测结果class_i 和网格中控件所覆盖像素的中心(x,y)和长宽(h,w)；每个子模型的训练是独立进行的，其过程如下：

001. 获取训练样本，样本是同样粒度划分好的网格数据，并且获得网格中的控件真实类型y，网格中控件的真实位置中心（true_x,true_y）和长宽（true_h,true_w）；

002. 输入训练网格，先经过一个特征提取层对网格进行特征提取；

003. 将(002)提取特征经过一个分类层，获得对多类的预测结果class_i，并且此结果会与网格的真实类别y产生一个分类损失cla_loss(class_i, y)；

004. 将(002)提取特征经过一个回归层，输出控件中心和长宽的四个值x,y,h,w，将其与网格中控件的真实中心、长宽产生一个回归损失reg_loss(x,y,h,w,true_x,true_y,true_h,true_w)；

005. 该模型的总体损失就是cla_loss+reg_loss，采用神经网络优化算法对损失进行优化，最终模型收敛得到训练完成的模型。

进一步的，本发明提出一种基于多粒度学习的软件界面元素检测方法，步骤（6）所述输出检测出的控件类别和区域大小，具体是根据步骤（5）中得到的若干组class_i，（x,y）和（h,w），对其对应网格上像素的预测结果进行加权求和，得到最终的预测结果，即每个像素所覆盖的控件类型。

本发明还提出一种基于多粒度学习的软件界面元素检测系统，包括：

输入模块，用于输入软件界面图像；

特征提取模块，用于利用卷积神经网络获取图像的特征，得到与原始图像具有相同尺寸的中间结果；

网格化模块，用于对特征提取模块获取的特征进行多粒度网格化操作，得到若干组不同尺寸的图像网格；

标定模块，用于对于得到的图像网格，使用多粒度级联背景判别器对软件界面非控件背景网格区域进行标定；

检测模块，用于将标定出的非背景网格，使用多粒度软件界面控件检测模型对软件界面元素进行检测；

输出模块，用于输出检测出的控件类别和区域大小。

进一步的，本发明所提出的基于多粒度学习的软件界面元素检测系统，标定模块具体包括：

网格图像输入单元，用于输入划分好的多粒度网格图像；

判决单元，用于执行当前粒度下的第i级背景判别器，输出判别结果；

执行单元，用于根据判决结果判断每一个网格是否为背景网格：若是背景网格，则丢弃该网格；若是非背景网格且存在下一级判别器，则将该网格输入下一级判别器，转入判决单元执行；若是非背景网格且不存在下一级判别器，则保留该网格。

同时，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于多粒度学习的软件界面元素检测方法的步骤。

最后，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于多粒度学习的软件界面元素检测方法的步骤。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

（1）多粒度级联的背景网格检测装置能够快速有效的找出背景网格。多粒度机制保证了背景和控件的大小不会对检测准确性产生影响。级联结构会对每一级的输入进行筛选，在保证每次检测准确率的情况下，可以确保总体的检测有效性。综合起来，多粒度级联背景网格检测装置可以高效判别出背景网格。

（2）多粒度技术提高了软件界面元素检测定位的效率和准确度。对于非背景网格，采取的多粒度控件判别装置可以有效降低控件大小对于检测准确性的干扰，多粒度下的并行预测同时也提高了预测速度，可以满足时效性的要求。

附图说明

图1是本发明实施例的软件界面元素检测工作流程图。

图2是本发明实施例的特征多粒度网格化工作流程图。

图3是本发明实施例的多粒度级联背景判别器工作流程图。

图4是本发明实施例的多粒度软件界面控件检测模型工作流程图。

图5是本发明的多粒度学习的软件界面元素检测系统示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明提出一种基于多粒度学习的软件界面元素检测方法，利用多粒度级联模型对软件界面图像进行快速有效的处理，分离出图像中的背景与非背景部分，然后对于非背景部分利用多粒度判别器投票的机制，有效生成最终的控件类型和区域的预测结果，具体工作流程如图1所示，包括：

步骤（1）、输入软件界面图像；

步骤（2）、利用卷积神经网络获取图像的特征，得到同尺寸的中间结果；

步骤（3）、对步骤（2）获取的特征进行多粒度网格化操作；

步骤（4）、使用多粒度级联背景判别器对软件界面非控件背景网格区域进行标定；

步骤（5）、将非背景网格使用多粒度软件界面控件检测模型对软件界面元素进行检测；

步骤（6）、输出检测出的控件类别和区域大小。

以下更进一步的具体介绍各个步骤的实现过程：

在用户使用时首先会获取软件界面的图像。获取的图像首先输入深度卷积神经网络进行特征提取，得到的特征与原始图像具有相同的尺寸。然后将特征进行多粒度网格划分，多粒度网格化的工作流程如图2所示。具体步骤如下：

步骤（301）输入由深度卷积神经网络提取的特征；

步骤（302）设定多粒度参数；

步骤（303）按照参数设置，将特征等分为(a₁*b₁),(a₂*b₂)，(a₃*b₃)……,(a_n*b_n)的网格。

软件界面元素自动检测装置的核心是多粒度级联背景判别器，该判别器的作用是对以上的网格进行快速有效的筛选，剔除只包含背景的无用网格。多粒度级联背景判别器的工作流程如图3所示。具体步骤如下：

步骤（401）输入划分好的多粒度网格；

步骤（402）将每一个网格输入相应粒度下级联的第i级背景判别器，输出判别结果；

步骤（403）根据结果判断每一个网格是否为背景网格：若是背景网格，则丢弃该网格；

若是非背景网格执行步骤（404）；

步骤（404）判断此时是否还存在下一级判别器：若存在，则将该网格输入下一级判别器，转至步骤（402）；若不存在下一级判别器，则保留该网格。

本发明实施例的多粒度级联背景判别器由若干级子判别器组成，对应粒度下的网格需要依次通过所有判别器的判别，每级判别器都会选择一部分背景网格进行丢弃，然后将非背景网格送入下一级继续判断，从而保证了丢弃背景的效率和准确率。

针对所有保留下来的非背景网格，由多粒度下的控件检测模型进行类型和区域预测。本发明实施例的多粒度软件界面控件检测模型执行流程如图4所示。具体步骤包括：

步骤（501）输入所有非背景网格；

步骤（502）执行相应粒度下的控件判别器，判别器同时预测网格中包含的控件的类型和区域位置；

步骤（503）将各个粒度下各个网格的预测结果进行投票，根据投票结果确定预测出的控件最终的类型和位置区域。

下面结合数据举具体的实施案例：

步骤（1）、输入软件界面图像；输入一张图像，图像为RGB三通道图像，尺寸为W*H。

步骤（2）、利用卷积神经网络获取图像的特征，得到同尺寸的中间结果；中间结果为D*W*H的图像。

步骤（3）、对步骤（2）获取的特征进行多粒度网格化操作；假设粒度大小为(a₁*b₁),(a₂*b₂)，(a₃*b₃)……(a_n*b_n)，则分别得到n组不同尺寸的图像网格。在本实施例中，假设粒度分别是(4x4)、(8x8)、(16x16)，则可得到3组网格：第一组16个网格（原图像的4x4等分），第二组64个网格，第三组256个网格。

步骤（4）、使用多粒度级联背景判别器对软件界面非控件背景网格区域进行标定；假设级联数为m，则每个粒度下存在判别器P₁,P₂……P_m。网格依次输入判别器P_i（i=1,2…,m），若判定结果为非背景网格，则可以再次输入判别器P_i+1，若判定结果为背景网格，则丢弃该网格。若经过所有级联判别器判断均为非背景网格，则最终保留该网格。

在本实施例中，假设级联数为3，则每个粒度对应的判决器P由三个级联的判别器组成：P₁,P₂,P₃，判决器的个数=粒度数*级联数，即共有9个判别器。第一组的16个网格输入第一组对应的判别器P，第二组的64个网格输入第二组对应的判别器P，第三组的256个网格输入第三组对应的判别器P，以此类推。本实施例中一共有（16+64+256）个网格，会得到（16+64+256）个判别结果，若判定为背景则丢弃，若为非背景则保留。

步骤（5）、将非背景网格使用多粒度软件界面控件检测模型对软件界面元素进行检测；若判定网格内含有控件，则判别器输出控件类型class_i和控件的中心位置（x,y）以及控件大小（h,w）。

上述控件检测模块是个数学模型，在本实施例中，粒度分别是：(4x4)、(8x8)、(16x16)，则模型中包含了3个独立的子模型，分别用于不同粒度的网格。该子模型的输入是网格，输出分别是：网格中控件类型的预测结果class_i 和网格中控件所覆盖像素的中心(x,y)和长宽(h,w)。以此类推，每个网格都会有其预测的class_i和(x,y)、(h,w)。

每个子模型的训练是独立进行的，其过程如下：

001. 获取训练样本，样本是同样粒度划分好的网格数据，并且获得网格中的控件真实类型y和网格中控件的真实位置中心（true_x,true_y）和长宽（true_h,true_w）。

002. 输入训练网格，先经过一个特征提取层对网格进行特征提取。

003. 将(002)提取特征经过一个分类层，获得对多类的预测结果class_i，并且此结果会与网格的真实类别y产生一个分类损失cla_loss(class_i, y)。

004. 将(002)提取特征经过一个回归层，输出控件中心和长宽的四个值x,y,h,w，它们会与网格中控件的真实中心和长宽产生一个回归损失reg_loss(x,y,h,w,true_x,true_y,true_h,true_w)。

005. 模型的总体损失就是cla_loss+reg_loss，采用常用的神经网络优化算法对损失进行优化即可；最终模型收敛得到训练完成的模型。

步骤（6）、输出检测出的控件类别和区域大小。根据步骤（5）中得到的若干组class_i，（x,y）和（h,w），对其对应网格上像素的预测结果进行加权求和，可得到最终的预测结果，即每个像素所覆盖的控件类型。

本发明还提出一种基于多粒度学习的软件界面元素检测系统，如图5所示，包括：

输入模块，用于输入软件界面图像；

输出模块，用于输出检测出的控件类别和区域大小。

网格图像输入单元，用于输入划分好的多粒度网格图像；

关于基于多粒度学习的软件界面元素检测系统的具体限定可以参见上文中对于基于多粒度学习的软件界面元素检测方法的限定，在此不再赘述。本发明所提出的基于多粒度学习的软件界面元素检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多粒度学习的软件界面元素检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，上述装置的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种基于多粒度学习的软件界面元素检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述基于多粒度学习的软件界面元素检测方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种基于多粒度学习的软件界面元素检测方法。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多粒度学习的软件界面元素检测方法，其特征在于，包括如下步骤：

步骤（1）、输入软件界面图像；

步骤（6）、输出检测出的控件类别和区域大小。

2.根据权利要求1所述的基于多粒度学习的软件界面元素检测方法，其特征在于，步骤（3）所述多粒度网格化的步骤如下：

步骤（301）、输入由深度卷积神经网络提取的特征；

步骤（302）、设定多粒度参数；

3.根据权利要求1所述的基于多粒度学习的软件界面元素检测方法，其特征在于，步骤（4）所述多粒度级联背景判别器对软件界面非控件背景网格区域进行标定，具体为：

步骤（401）、输入划分好的多粒度网格图像；

4.权利要求1所述的基于多粒度学习的软件界面元素检测方法，其特征在于，步骤（5）所述将非背景网格使用多粒度软件界面控件检测模型对软件界面元素进行检测，具体步骤如下：

步骤（501）、输入所有非背景网格；

5. 权利要求1所述的基于多粒度学习的软件界面元素检测方法，其特征在于，多粒度软件界面控件检测模型包含了n个独立的子模型，分别用于不同粒度的网格；该子模型的输入是网格，输出分别是：网格中控件类型的预测结果class_i 和网格中控件所覆盖像素的中心(x,y)和长宽(h,w)；每个子模型的训练是独立进行的，其过程如下：

获取训练样本，样本是同样粒度划分好的网格数据，并且获得网格中的控件真实类型y，网格中控件的真实位置中心（true_x,true_y）和长宽（true_h,true_w）；

输入训练网格，先经过一个特征提取层对网格进行特征提取；

将(002)提取特征经过一个分类层，获得对多类的预测结果class_i，并且此结果会与网格的真实类别y产生一个分类损失cla_loss(class_i, y)；

将(002)提取特征经过一个回归层，输出控件中心和长宽的四个值x,y,h,w，将其与网格中控件的真实中心、长宽产生一个回归损失reg_loss(x,y,h,w,true_x,true_y,true_h,true_w)；

该模型的总体损失就是cla_loss+reg_loss，采用神经网络优化算法对损失进行优化，最终模型收敛得到训练完成的模型。

6.权利要求5所述的基于多粒度学习的软件界面元素检测方法，其特征在于，步骤（6）所述输出检测出的控件类别和区域大小，具体是根据步骤（5）中得到的若干组class_i，（x,y）和（h,w），对其对应网格上像素的预测结果进行加权求和，得到最终的预测结果，即每个像素所覆盖的控件类型。

7.一种基于多粒度学习的软件界面元素检测系统，其特征在于，包括：

输入模块，用于输入软件界面图像；

输出模块，用于输出检测出的控件类别和区域大小。

8.根据权利要求7所述的一种基于多粒度学习的软件界面元素检测系统，其特征在于，标定模块具体包括：

网格图像输入单元，用于输入划分好的多粒度网格图像；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。