CN111652266A - 用户界面组件的识别方法、装置、电子设备和存储介质 - Google Patents
用户界面组件的识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111652266A CN111652266A CN202010307341.9A CN202010307341A CN111652266A CN 111652266 A CN111652266 A CN 111652266A CN 202010307341 A CN202010307341 A CN 202010307341A CN 111652266 A CN111652266 A CN 111652266A
- Authority
- CN
- China
- Prior art keywords
- component
- user interface
- composite
- identification
- identifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000002131 composite material Substances 0.000 claims abstract description 170
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 18
- 230000008859 change Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/38—Creation or generation of source code for implementing user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种用户界面组件的识别方法、装置、电子设备及存储介质,所述方法包括:获取用户界面图像;利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果;基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果;利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。通过本申请的用户界面组件的识别方法,能够支持检测的组件数量更多、种类更丰富,同时具有较高的组件检测精度,降低了后续代码的改动成本。
Description
技术领域
本申请涉及用户界面技术领域,具体涉及一种用户界面组件的识别方法、装置、电子设备和存储介质。
背景技术
随着移动互联网时代的到来,人类的科学技术突飞猛进。然而软件工程师依旧需要花费大量精力在重复的还原用户界面(User Interface,简称UI)视觉稿的工作。UI视觉研发拥有明显的特征:组件,位置和布局,符合机器学习处理范畴。能否通过机器视觉和深度学习等手段自动生成UI界面代码,来解放重复劳动力,成为该领域关注的重点方向。
UI2CODE是一款通过机器视觉理解+人工智能将UI视觉图片转化为端侧代码的工具,通过UI组件自动检测算法对设计稿进行检测,获取关于UI组件的坐标信息和属性信息,然后将UI组件的坐标信息和属性信息通过布局算法转换成包含布局信息和属性信息抽象成的中间数据结构,通过语义模板库将中间数据结构转成实际需要的代码。
然而,发明人发现,现有的技术方案能够支持检测的组件数量和种类均较少,代码改动成本仍然较高。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的用户界面组件的识别方法、装置、电子设备和存储介质。
依据本申请的第一方面,提供了一种用户界面组件的识别方法,包括:
获取用户界面图像;
利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果;
基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果;
利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。
可选地,所述利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果包括:
对所述用户界面图像进行多次卷积,得到多尺度的特征图;
基于所述特征图识别所述用户界面图像中的感兴趣区域;
将所述感兴趣区域映射到所述特征图上,得到包含感兴趣区域的特征图;
基于包含感兴趣区域的特征图得到复合组件识别结果。
可选地,所述基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果包括:
基于所述复合组件识别结果,确定若干组复合组件图像;
利用所述二阶段网络中的各基础组件识别子网络,对所述若干组复合组件图像分别进行识别,得到各基础组件识别子网络输出的基础组件识别结果。
可选地,所述复合组件识别结果包括组件位置和组件类别,所述基于所述复合组件识别结果,确定若干组复合组件图像包括:
基于所述组件位置,从所述用户界面图像中切割出与各所述组件类别分别对应的各组复合组件图像。
可选地,所述复合组件识别结果和所述基础组件识别结果均包括组件位置,所述利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合包括:
基于所述组件位置,在所述用户界面图像中标记出各所述复合组件和所述基础组件;
利用非极大值抑制算法对标记出的所述复合组件和所述基础组件进行去重。
可选地,所述复合组件识别结果和所述基础组件识别结果均包括组件类别,所述利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合还包括:
根据所述组件位置和所述组件类别,对同一组件类别下的各用户界面组件进行对齐分析。
可选地,所述方法还包括:
根据所述用户界面组件识别结果生成用户界面组件的代码。
依据本申请的第二方面,提供了一种用户界面组件的识别装置,包括:
获取单元,用于获取用户界面图像;
第一识别单元,用于利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果;
第二识别单元,用于基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果;
融合单元,用于利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。
可选地,所述第一识别单元还用于:
对所述用户界面图像进行多次卷积,得到多尺度的特征图;
基于所述特征图识别所述用户界面图像中的感兴趣区域;
将所述感兴趣区域映射到所述特征图上,得到包含感兴趣区域的特征图;
基于包含感兴趣区域的特征图得到复合组件识别结果。
可选地,所述第二识别单元还用于:
基于所述复合组件识别结果,确定若干组复合组件图像;
利用所述二阶段网络中的各基础组件识别子网络,对所述若干组复合组件图像分别进行识别,得到各基础组件识别子网络输出的基础组件识别结果。
可选地,所述复合组件识别结果包括组件位置和组件类别,所述第二识别单元还用于:
基于所述组件位置,从所述用户界面图像中切割出与各所述组件类别分别对应的各组复合组件图像。
可选地,所述复合组件识别结果和所述基础组件识别结果均包括组件位置,所述融合单元还用于:
基于所述组件位置,在所述用户界面图像中标记出各所述复合组件和所述基础组件;
利用非极大值抑制算法对标记出的所述复合组件和所述基础组件进行去重。
可选地,所述复合组件识别结果和所述基础组件识别结果均包括组件类别,所述融合单元还用于:
根据所述组件位置和所述组件类别,对同一组件类别下的各用户界面组件进行对齐分析。
可选地,所述装置还包括:
生成单元,用于根据所述用户界面组件识别结果生成用户界面组件的代码。
依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的用户界面组件的识别方法。
依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的用户界面组件的识别方法。
由上述可知,本申请的技术方案,采用获取用户界面图像,利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果,基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果的方式,利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。通过本申请的用户界面组件的识别方法,能够支持检测的组件数量更多、种类更丰富,降低了代码的改动成本。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的用户界面组件的识别方法的流程示意图;
图2示出了根据本申请一个实施例的多级联组件识别模型的一阶段网络的结构示意图;
图3示出了根据本申请一个实施例的多级联组件识别模型的二阶段网络的结构示意图;
图4示出了根据本申请一个实施例的用户界面组件的识别流程示意图;
图5示出了根据本申请一个实施例的一种复合组件识别效果示意图;
图6示出了根据本申请一个实施例的一种基础组件识别效果示意图;
图7示出了根据本申请一个实施例的用户界面组件的识别装置的结构示意图;
图8示出了根据本申请一个实施例的电子设备的结构示意图;
图9示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
现有技术中的用户界面组件自动检测方法通常只支持原生组件类别的代码实现,如视图(view)组件、文本(text)组件和图片(img)组件,无法支持其它常用的UI组件或者更加丰富的UI组件,且不支持组件间的层级结构,而现有的用户界面通常由多种多样的组件构成,导致现有的组件自动检测方法在代码转换的应用中受到限制。此外,现有检测方法检测到的组件经转换后得到的代码缺少与开发人员书写习惯的适配,检测精度仍有待提升,导致代码的复用率不高,代码的修改成本仍然较高。
基于此,本申请一个实施例提供了一种用户界面组件的识别方法,如图1所示,所述方法包括如下步骤S110至步骤S140:
步骤S110,获取用户界面图像。
在进行用户界面组件的识别之前,可以先获取用户界面图像,作为后续组件识别模型的输入。
步骤S120,利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果。
用户界面图像通常由不同类别、不同尺度的组件构成,不同组件的尺度存在较大差异,对应的识别网络也不同,因此可以对组件层级进行划分,然后通过多级联组件识别模型中的各阶段网络逐层对不同层级的组件进行检测。这里的组件层级可以包括复合组件层级和基础组件层级,复合组件是指由多个文本、图标、图片等基础元素构成的尺度较大的组件,如列表(list)组件即为一种复合组件,而对于单个文本、单个图标这样尺度较小的组件属于基础组件,基础组件通常不与上述尺度较大的复合组件在同一层级。
由于复合组件通常是由多个基础组件构成的,因此在对用户界面图像进行组件识别时,可以先利用多级联组件识别模型中的一阶段网络即复合组件识别网络对用户界面图像中的复合组件进行识别,进而得到图像中的复合组件识别结果,包括复合组件的位置和类别等信息。
步骤S130,基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果。
在得到复合组件的识别结果后,可以利用多级联组件识别模型的二阶段网络即基础组件识别网络对复合组件中的基础组件进行识别,进而得到图像中的基础组件识别结果,包括基础组件的位置和类别等信息。
步骤S140,利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。
在得到图像的复合组件识别结果和基础组件识别结果后,利用多级联组件识别模型中的融合层对上述两个识别结果进行融合处理,包括根据复合组件和基础组件的位置在用户界面图像上进行相应的标记,同时判断是否存在重复的组件识别结果,进行去重处理等等,最终得到整个用户界面图像的组件识别结果。
通过上述过程,能够对用户界面图像中不同层级的组件进行逐级检测,能够支持更多种类和更多数量的组件检测,同时还能够获得较高的检测精度,为后续代码转换提供了可靠的基础。
在本申请的一个实施例中,所述利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果包括:对所述用户界面图像进行多次卷积,得到多尺度的特征图;基于所述特征图识别所述用户界面图像中的感兴趣区域;将所述感兴趣区域映射到所述特征图上,得到包含感兴趣区域的特征图;基于包含感兴趣区域的特征图得到复合组件识别结果。
本申请实施例中多级联组件识别模型的一阶段网络可以通过对一定数量大尺度的复合组件进行训练得到,该一阶段网络的网络结构可以包括残差网络、区域生成网络和特征金字塔网络等。残差网络(Resnet)主要用于解决深度神经网络在训练中,随着网络深度的增加而出现的网络退化的问题。区域生成网络(Region Proposal Network,简称RPN)是目标检测领域常用到的用于提取区域候选框的网络。特征金字塔网络(Feature PyramidNetworks,简称FPN)是用于检测不同尺度的对象的识别模型中的一种基本网络。
如图2所示,提供了一种基于Resnet和RPN构建的复合组件识别网络示意图,通过将任意尺寸的用户界面图像输入Resnet网络中,进行多次卷积处理,得到多尺度的特征图,同时将每一次卷积后的特征图输入RPN网络中,进行区域特征提取,将Resnet网络输出的特征图和RPN网络输出的特征图分别输入到ROI Pooling(Region of Interest Pooling,感兴趣区域池化层)中进行感兴趣区域的池化操作,ROI Pooling输出统一尺寸的感兴趣区域后,将该感兴趣区域映射到特征图上,得到包含感兴趣区域的特征图,最后基于该特征图进行边框(Bounding Box)分类和边框(Bounding Box)回归,得到最终的复合组件识别结果。当然除了采用边框方式做对特征图做标记,也可以采用掩膜(mask)的方式进行标记。
在本申请的一个实施例中,还提供了一种基于Resnet、RPN和FPN构建的复合组件识别网络,首先将用户界面图像输入Resnet网络中进行多阶段特征提取,得到Resnet网络对应的特征图,之后利用FPN网络对Resnet网络得到的特征图进行上采样,得到FPN网络的特征图,将Resnet网络得到的特征图与FPN网络得到的特征图融合后输入RPN网络中,生成多个候选区域,最后再将RPN网络输出的多个候选区域进行分类和回归处理,得到最终的复合组件识别结果。
在本申请的一个实施例中,所述基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果包括:基于所述复合组件识别结果,确定若干组复合组件图像;利用所述二阶段网络中的各基础组件识别子网络,对所述若干组复合组件图像分别进行识别,得到各基础组件识别子网络输出的基础组件识别结果。
当一个用户界面图像中存在多种类别的复合组件时,对应的一阶段网络识别到的复合组件会有多个,由于不同类别的复合组件尺度不同,因此针对不同类别的复合组件可以采用不同的识别网络对相应的复合组件中的基础组件进行识别。在具体实施时,可以根据复合组件识别结果将识别到的各复合组件分割开,得到若干组复合组件图像,之后按照各组复合组件图像对应的组件类别将各复合组件图像分别输入相应的基础组件识别子网络中进行基础组件的识别。
本申请实施例中的二阶段网络结构可以以RetinaNet的网络框架为基础,针对小尺度的基础组件定制化锚的大小、比例以及模型的下采样倍数等,以实现对小尺度的基础组件的精准检测。如图3所示,提供了一种RetinaNet的网络框架示意图,RetinaNet是由一个主干网络backbone和两个子网络组成的统一目标检测网络,主干网络的主要作用是通过一系列卷积操作得到整张输入图像的特征图,两个子网分别基于输出的特征图进行目标分类和位置回归。RetinaNet在卷积过程用的是残差网络Resnet,上采样和侧边连接过程采用的是特征金字塔(FPN)结构。通过主干网络,产生了多尺度的特征金字塔,然后后面连接两个子网络,分别进行分类和回归。
在本申请的一个实施例中,所述复合组件识别结果包括组件位置和组件类别,所述基于所述复合组件识别结果,确定若干组复合组件图像包括:基于所述组件位置,从所述用户界面图像中切割出与各所述组件类别分别对应的各组复合组件图像。
具体实施时,在一个用户界面图像中存在多种类别的复合组件的情况下,可以基于组件的位置,采用切割页面的方式将同一个用户界面图像中的不同复合组件分割开来,进而得到多组复合组件图像,每组复合组件图像分别作为各基础组件识别子网络的输入。例如,通过一阶段网络识别出用户界面图像中包括表格组件和列表组件两种复合组件,则将两种复合组件切割后分别输入表格组件对应的基础组件识别模型和列表组件对应的基础组件识别模型中进行基础组件的识别。
除了上述将复合组件按照组件类别切割后输入相应的基础组件识别子网络中的方式,还可以在用户界面图像上标记复合组件区域,将标记后的整个用户界面图像输入二阶段网络,之后利用二阶段网络对图像中相应的复合组件区域进行基础组件的识别。
在本申请的一个实施例中,所述复合组件识别结果和所述基础组件识别结果均包括组件位置,所述利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合包括:基于所述组件位置,在所述用户界面图像中标记出各所述复合组件和所述基础组件;利用非极大值抑制算法对标记出的所述复合组件和所述基础组件进行去重。
在得到复合组件和基础组件的识别结果后,可以根据识别到的各组件位置,在用户界面图像上相应地标记出每个复合组件和基础组件。此外,在目标检测场景下,会经常出现锚点重叠的情形,进而导致生成的识别区域最终也会在同一个目标上重叠。因此本申请实施例为了解决同一组件的识别区域重复的问题,采用了非极大值抑制算法(Non-maximumsuppression,简称NMS)对复合组件和基础组件进行了去重处理,NMS的原理是消除重合率大且多余的候选框,保留某个区域的一个最优的候选框,NMS能够抑制冗余的候选框,抑制的过程是一个从迭代到遍历再到消除的过程。去重处理后可以输出组件的位置和类别,以及相应的复合组件和基础组件的层级关系等信息。
在本申请的一个实施例中,所述复合组件识别结果和所述基础组件识别结果均包括组件类别,所述利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合还包括:根据所述组件位置和所述组件类别,对同一组件类别下的各用户界面组件进行对齐分析。
根据用户界面的布局规则,同一类别的组件大小通常是一致的,在界面中的相对位置也是一致的,如保证同一类别的组件宽度相同,在界面上居中对齐等等。因此可以基于识别到的各个组件在用户界面上位置和类别,对各类别下的组件进行对齐分析,以进一步提高组件的检测精度。
在本申请的一个实施例中,所述方法还包括:根据所述用户界面组件识别结果生成用户界面组件的代码。
在得到用户界面组件的识别结果后,就可以根据识别到的各个复合组件和基础组件生成对应的代码了,通过上述识别方法得到的组件能够支持更多数量和更多类别的组件代码的生成,大大降低了开发人员编写或转换代码的时间成本,同时生成的代码具有较高的准确率和复用率。
在本申请的一个实施例中,还可以对多级联组件识别模型的网络结构以及候选锚框(proposal anchor)的大小针对于不同层级进行定制化设置,进而提升不同层级组件检测的平均精度均值mAP(Mean Average Precision),mAP是目标检测问题中最常用的度量标准,平均精度均值=所有类别的平均精度值之和/所有类别的数目。
如图4所示,提供了一种用户界面图像的识别流程示意图,首先将用户界面图像输入多级联组件识别模型的一阶段网络中,对图像中的复合组件进行识别,之后基于复合组件识别结果,对图像进行切割,得到不同类别的复合组件图像,然后分别输入对应的基础组件识别子网络如表格组件识别子网络和列表组件识别子网络中,分别得到对表格组件和列表组件中的基础组件的识别结果,最后将复合组件识别结果和基础组件识别结果合并,并对合并后的识别结果进一步优化分析如对齐分析等,进而完成用户界面组件的整个识别流程。
如图5和图6所示,分别给出了一种复合组件识别效果示意图和一种基础组件识别效果示意图,图中的黑框即为识别出的组件边框。
图7示出了根据本申请一个实施例的用户界面组件的识别装置的结构示意图,如图7所示,所述用户界面组件的识别装置700包括:获取单元710、第一识别单元720、第二识别单元730和融合单元740。
获取单元710,用于获取用户界面图像。
在进行用户界面组件的识别之前,可以先获取用户界面图像,作为后续组件识别模型的输入。
第一识别单元720,用于利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果。
用户界面图像通常由不同类别、不同尺度的组件构成,不同组件的尺度存在较大差异,对应的识别网络也不同,因此可以对组件层级进行划分,然后通过多级联组件识别模型中的各阶段网络逐层对不同层级的组件进行检测。这里的组件层级可以包括复合组件层级和基础组件层级,复合组件是指由多个文本、图标、图片等基础元素构成的尺度较大的组件,如列表(list)组件即为一种复合组件,而对于单个文本、单个图标这样尺度较小的组件属于基础组件,基础组件通常不与上述尺度较大的复合组件在同一层级。
由于复合组件通常是由多个基础组件构成的,因此在对用户界面图像进行组件识别时,可以先利用多级联组件识别模型中的一阶段网络即复合组件识别网络对用户界面图像中的复合组件进行识别,进而得到图像中的复合组件识别结果,包括复合组件的位置和类别等信息。
第二识别单元730,用于基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果。
在得到复合组件的识别结果后,可以利用多级联组件识别模型的二阶段网络即基础组件识别网络对复合组件中的基础组件进行识别,进而得到图像中的基础组件识别结果,包括基础组件的位置和类别等信息。
融合单元740,用于利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。
在得到图像的复合组件识别结果和基础组件识别结果后,利用多级联组件识别模型中的融合层对上述两个识别结果进行融合处理,包括根据复合组件和基础组件的位置在用户界面图像上进行相应的标记,同时判断是否存在重复的组件识别结果,进行去重处理等等,最终得到整个用户界面图像的组件识别结果。
通过上述过程,能够对用户界面图像中不同层级的组件进行逐级检测,能够支持更多种类和更多数量的组件检测,同时还能够获得较高的检测精度,为后续代码转换提供了可靠的基础。
在本申请的一个实施例中,所述第一识别单元720还用于:对所述用户界面图像进行多次卷积,得到多尺度的特征图;基于所述特征图识别所述用户界面图像中的感兴趣区域;将所述感兴趣区域映射到所述特征图上,得到包含感兴趣区域的特征图;基于包含感兴趣区域的特征图得到复合组件识别结果。
在本申请的一个实施例中,所述第二识别单元730还用于:基于所述复合组件识别结果,确定若干组复合组件图像;利用所述二阶段网络中的各基础组件识别子网络,对所述若干组复合组件图像分别进行识别,得到各基础组件识别子网络输出的基础组件识别结果。
在本申请的一个实施例中,所述复合组件识别结果包括组件位置和组件类别,所述第二识别单元730还用于:基于所述组件位置,从所述用户界面图像中切割出与各所述组件类别分别对应的各组复合组件图像。
在本申请的一个实施例中,所述复合组件识别结果和所述基础组件识别结果均包括组件位置,所述融合单元740还用于:基于所述组件位置,在所述用户界面图像中标记出各所述复合组件和所述基础组件;利用非极大值抑制算法对标记出的所述复合组件和所述基础组件进行去重。
在本申请的一个实施例中,所述复合组件识别结果和所述基础组件识别结果均包括组件类别,所述融合单元740还用于:根据所述组件位置和所述组件类别,对同一组件类别下的各用户界面组件进行对齐分析。
在本申请的一个实施例中,所述用户界面组件的识别装置还包括:生成单元,用于根据所述用户界面组件识别结果生成用户界面组件的代码。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,采用获取用户界面图像,利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果,基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果的方式,利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。通过本申请的用户界面组件的识别方法,能够支持检测的组件数量更多、种类更丰富,降低了代码的改动成本。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的用户界面组件的识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图8示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如,用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码831可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所示的计算机可读存储介质。图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的方法步骤的计算机可读程序代码831,可以被电子设备800的处理器810读取,当计算机可读程序代码831由电子设备800运行时,导致该电子设备800执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种用户界面组件的识别方法,其特征在于,包括:
获取用户界面图像;
利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果;
基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果;
利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。
2.根据权利要求1所述的用户界面组件的识别方法,其特征在于,所述利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果包括:
对所述用户界面图像进行多次卷积,得到多尺度的特征图;
基于所述特征图识别所述用户界面图像中的感兴趣区域;
将所述感兴趣区域映射到所述特征图上,得到包含感兴趣区域的特征图;
基于包含感兴趣区域的特征图得到复合组件识别结果。
3.根据权利要求1所述的用户界面组件的识别方法,其特征在于,所述基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果包括:
基于所述复合组件识别结果,确定若干组复合组件图像;
利用所述二阶段网络中的各基础组件识别子网络,对所述若干组复合组件图像分别进行识别,得到各基础组件识别子网络输出的基础组件识别结果。
4.根据权利要求3所述的用户界面组件的识别方法,其特征在于,所述复合组件识别结果包括组件位置和组件类别,所述基于所述复合组件识别结果,确定若干组复合组件图像包括:
基于所述组件位置,从所述用户界面图像中切割出与各所述组件类别分别对应的各组复合组件图像。
5.根据权利要求1所述的用户界面组件的识别方法,其特征在于,所述复合组件识别结果和所述基础组件识别结果均包括组件位置,所述利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合包括:
基于所述组件位置,在所述用户界面图像中标记出各所述复合组件和所述基础组件;
利用非极大值抑制算法对标记出的所述复合组件和所述基础组件进行去重。
6.根据权利要求5所述的用户界面组件的识别方法,其特征在于,所述复合组件识别结果和所述基础组件识别结果均包括组件类别,所述利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合还包括:
根据所述组件位置和所述组件类别,对同一组件类别下的各用户界面组件进行对齐分析。
7.根据权利要求1至6中任一项所述的用户界面组件的识别方法,其特征在于,所述方法还包括:
根据所述用户界面组件识别结果生成用户界面组件的代码。
8.一种用户界面组件的识别装置,其特征在于,包括:
获取单元,用于获取用户界面图像;
第一识别单元,用于利用多级联组件识别模型的一阶段网络对所述用户界面图像进行复合组件识别,得到复合组件识别结果;
第二识别单元,用于基于所述复合组件识别结果,利用所述多级联组件识别模型的二阶段网络对所述用户界面图像进行基础组件识别,得到基础组件识别结果;
融合单元,用于利用所述多级联组件识别模型的融合层,对所述复合组件识别结果和所述基础组件识别结果进行融合,得到用户界面组件识别结果。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1至7中任一项所述的用户界面组件的识别方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1至7中任一项所述的用户界面组件的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010307341.9A CN111652266A (zh) | 2020-04-17 | 2020-04-17 | 用户界面组件的识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010307341.9A CN111652266A (zh) | 2020-04-17 | 2020-04-17 | 用户界面组件的识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111652266A true CN111652266A (zh) | 2020-09-11 |
Family
ID=72352164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010307341.9A Pending CN111652266A (zh) | 2020-04-17 | 2020-04-17 | 用户界面组件的识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652266A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031938A (zh) * | 2021-04-25 | 2021-06-25 | 中国电子系统技术有限公司 | 一种可视化界面图像转化为编程语言数据的方法及装置 |
CN113052165A (zh) * | 2021-01-28 | 2021-06-29 | 北京迈格威科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN114020397A (zh) * | 2021-11-24 | 2022-02-08 | 北京字节跳动网络技术有限公司 | 界面组件状态识别方法、装置、计算机设备以及存储介质 |
CN114926830A (zh) * | 2022-05-30 | 2022-08-19 | 南京数睿数据科技有限公司 | 屏幕图像识别方法、装置、设备和计算机可读介质 |
CN116431151A (zh) * | 2023-04-18 | 2023-07-14 | 上海直真视通科技有限公司 | 一种优化界面布局的方法、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110296314A1 (en) * | 2010-05-26 | 2011-12-01 | Fujitsu Limited | Extracting Training Scenarios from Test Cases for User-Interface Component Recognition |
CN105912990A (zh) * | 2016-04-05 | 2016-08-31 | 深圳先进技术研究院 | 人脸检测的方法及装置 |
US20190034811A1 (en) * | 2017-07-25 | 2019-01-31 | General Electric Company | Service layer augmentation of response to semantically-informed query of arbitrary external data sources |
CN109919932A (zh) * | 2019-03-08 | 2019-06-21 | 广州视源电子科技股份有限公司 | 目标对象的识别方法和装置 |
CN110032935A (zh) * | 2019-03-08 | 2019-07-19 | 北京联合大学 | 一种基于深度学习级联网络的交通信号标识检测识别方法 |
CN110059596A (zh) * | 2019-04-03 | 2019-07-26 | 北京字节跳动网络技术有限公司 | 一种图像识别方法、装置、介质和电子设备 |
CN110427923A (zh) * | 2019-09-05 | 2019-11-08 | 深圳市赛为智能股份有限公司 | 婴幼儿吐奶行为识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-04-17 CN CN202010307341.9A patent/CN111652266A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110296314A1 (en) * | 2010-05-26 | 2011-12-01 | Fujitsu Limited | Extracting Training Scenarios from Test Cases for User-Interface Component Recognition |
CN105912990A (zh) * | 2016-04-05 | 2016-08-31 | 深圳先进技术研究院 | 人脸检测的方法及装置 |
US20190034811A1 (en) * | 2017-07-25 | 2019-01-31 | General Electric Company | Service layer augmentation of response to semantically-informed query of arbitrary external data sources |
CN109919932A (zh) * | 2019-03-08 | 2019-06-21 | 广州视源电子科技股份有限公司 | 目标对象的识别方法和装置 |
CN110032935A (zh) * | 2019-03-08 | 2019-07-19 | 北京联合大学 | 一种基于深度学习级联网络的交通信号标识检测识别方法 |
CN110059596A (zh) * | 2019-04-03 | 2019-07-26 | 北京字节跳动网络技术有限公司 | 一种图像识别方法、装置、介质和电子设备 |
CN110427923A (zh) * | 2019-09-05 | 2019-11-08 | 深圳市赛为智能股份有限公司 | 婴幼儿吐奶行为识别方法、装置、计算机设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052165A (zh) * | 2021-01-28 | 2021-06-29 | 北京迈格威科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113031938A (zh) * | 2021-04-25 | 2021-06-25 | 中国电子系统技术有限公司 | 一种可视化界面图像转化为编程语言数据的方法及装置 |
CN114020397A (zh) * | 2021-11-24 | 2022-02-08 | 北京字节跳动网络技术有限公司 | 界面组件状态识别方法、装置、计算机设备以及存储介质 |
CN114020397B (zh) * | 2021-11-24 | 2023-11-07 | 北京字节跳动网络技术有限公司 | 界面组件状态识别方法、装置、计算机设备以及存储介质 |
CN114926830A (zh) * | 2022-05-30 | 2022-08-19 | 南京数睿数据科技有限公司 | 屏幕图像识别方法、装置、设备和计算机可读介质 |
CN114926830B (zh) * | 2022-05-30 | 2023-09-12 | 南京数睿数据科技有限公司 | 屏幕图像识别方法、装置、设备和计算机可读介质 |
CN116431151A (zh) * | 2023-04-18 | 2023-07-14 | 上海直真视通科技有限公司 | 一种优化界面布局的方法、电子设备及存储介质 |
CN116431151B (zh) * | 2023-04-18 | 2023-09-29 | 上海直真视通科技有限公司 | 一种优化界面布局的方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652266A (zh) | 用户界面组件的识别方法、装置、电子设备和存储介质 | |
CN110765774B (zh) | 信息抽取模型的训练方法、装置及信息抽取方法、装置 | |
CN105631393A (zh) | 信息识别方法及装置 | |
CN109508189B (zh) | 一种布局模板处理方法、装置及计算机可读存储介质 | |
CN110490237B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111652208A (zh) | 用户界面组件的识别方法、装置、电子设备及存储介质 | |
CN112884764A (zh) | 提取图像中地块的方法、装置、电子设备及存储介质 | |
CN112513927A (zh) | 基于卷积神经网络的风力涡轮机叶片缺陷检查 | |
CN112308069A (zh) | 一种软件界面的点击测试方法、装置、设备及存储介质 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN111290905A (zh) | 物联网云平台的测试方法和装置 | |
CN112509661A (zh) | 用于识别体检报告的方法、计算设备和介质 | |
CN112434555A (zh) | 键值对区域识别方法、装置、存储介质和电子设备 | |
CN112052907A (zh) | 基于图像边缘信息的目标检测方法、装置及存储介质 | |
CN109978044B (zh) | 训练数据生成方法和装置、以及模型的训练方法和装置 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
US20200364034A1 (en) | System and Method for Automated Code Development and Construction | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
Li et al. | Comic image understanding based on polygon detection | |
CN114708582B (zh) | 基于ai和rpa的电力数据智慧稽查方法及装置 | |
CN113269153B (zh) | 一种表格识别方法以及装置 | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN115373658A (zh) | 一种基于Web图片的前端代码自动生成方法和装置 | |
CN114495144A (zh) | 文本图像中表格key-value信息的提取方法及装置 | |
CN111680691B (zh) | 文字检测方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200911 |