CN116385787A

CN116385787A - 一种用于ui零碎图层的图层处理方法及装置

Info

Publication number: CN116385787A
Application number: CN202310367085.6A
Authority: CN
Inventors: 陈柳青; 陈云农; 孙凌云; 甄焱鲲; 周婷婷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-04

Abstract

本发明公开一种用于UI零碎图层的图层处理方法，包括以下步骤：对原始UI设计稿中的JSON文件进行遍历搜索，获得所有图层图片和对应的图层属性；根据遍历搜索的顺序，将所有图层图片进行叠加并输入至预训练的深度残差卷积神经网络中，以输出每个图层图片对应的视觉特征；针对每个图层图片的图层属性进行特征提取，获得对应的文本特征，颜色特征，种类特征以及位置特征；将获得的所有特征进行融合，获得每个图层图片对应的融合特征；基于分类标签和遍历搜索的顺序对所有图层图片进行聚类操作，并将聚类操作结果打包成子文件包，以生成对应的前端代码。本发明还提供一种图层处理装置。本发明的方法可以有效消除零碎图层对前端代码生成时的影响。

Description

一种用于UI零碎图层的图层处理方法及装置

技术领域

本发明属于图像处理的技术领域，尤其涉及一种用于UI零碎图层的图层处理方法及装置。

背景技术

在现代应用软件中，图形用户界面是一个非常重要的视觉和交互工具。UI设计稿是实现图形用户界面的原型，前端开发者的一个主要工作就是通过UI设计稿来实现前端代码。但是，复杂多变的UI布局和重复的UI视图开发工作，极大降低了开发者的开发效率，增加了开发成本。为了帮助开发者从繁重的开发工作中解放出来，一些研究采用了智能算法，从UI图片中生成前端代码。

但是直接由图片生成的代码可用性不高，无法达到工业级的标准。因此，一些研究提出使用设计稿自带的元信息，通过设计稿直接生成前端代码，从而保证可用性和准确性都有比较大的提升。在实际生产设计过程中，为了达到想要的视觉效果，设计师会使用多个零碎图层来表达一个UI组件。这种设计方式会对智能代码生成算法造成干扰，从而影响最终生成代码的质量。为了保证智能代码生成算法能够生成高质量的代码，亟需有着更高设计标准的设计稿，但这必定会增加设计师的工作成本。

近年来，在智能代码生成方面的研究受到了学术界广泛关注。通过UI图片生成的代码，其质量和可用性通常无法到达工业使用的标准，比如以微软公司的sketch2json为代表。目前，一些研究提出使用设计稿作为原材料，直接从设计稿中提取结构化信息，最终生成结构和语义上都可靠的前端代码。在这样的一个智能生成代码的流程中，设计稿作为原始输入，是非常重要的一环。但实践中发现，设计稿中碎片图层的存在极大影响了设计稿的质量，直接导致了最终生成代码不可复用。传统的图层合并方法，通常采用人工辅助合并或一些基于启发式的检查规则来判断是否对这些图层进行合并。这类方法过于依赖设计师或开发者的判断，同时对大量图层进行筛选和判断也提高了工作时间成本。

专利文献CN115080038A公开了一种图层处理方法、模型生成方法及设备，该方法包括：获取界面设计稿对应的目标图片；确定所述目标图片中符合合并要求的至少一个目标区域；基于所述至少一个目标区域与不同图层的相交信息，识别所述至少一个目标区域分别对应的多个目标图层，其中，所述多个目标图层用以进行合并处理以作为所述目标区域对应的一个组件。该方法需要分阶段完成合并任务，且分阶段处理过程中可能存在准确率的损失。

专利文献CN112306490A公开了一种图层导出方法、装置、设备及存储介质，该方法包括：获取用户界面的视觉稿文件的节点树，节点树包括视觉元素节点，视觉元素节点与构成用户界面的视觉元素的图层对应；确定节点树中不支持代码构建的视觉元素节点；对不支持代码构建的视觉元素节点中属于同一层级的视觉元素节点进行合并，得到合并后的视觉元素节点；将合并后的视觉元素节点对应的图层，导出为第一切图图层。但该方法需要依靠人为构建规则和视觉稿文件的节点树，泛化性较差且稳定性不佳。

发明内容

本发明的发明目的是无需依赖设计稿层级结构作为先验知识，从而避免端到端UI零碎图层自动化合并工作中因引入过多阶段处理导致的精度损失。

为了实现上述的发明目的，本发明提供了一种用于UI零碎图层的图层处理方法，包括以下步骤：

对原始UI设计稿中的JSON文件进行遍历搜索，获得所有图层图片和对应的图层属性，所述图层属性包括图层文本属性，图层颜色属性，图层种类属性以及图层位置属性。

根据遍历搜索的顺序，将所有图层图片进行叠加并输入至预训练的深度残差卷积神经网络中，以输出每个图层图片对应的视觉特征。

针对每个图层图片的图层属性进行特征提取，获得对应的文本特征，颜色特征，种类特征以及位置特征。

将获得的视觉特征，文本特征，颜色特征，种类特征以及位置特征进行融合，获得每个图层图片对应的融合特征。

将所述融合特征输入至用于捕捉图层间隐式空间关系的Transformer网络中，以输出每个图层图片的分类标签。

所述分类标签包括开始合并，可合并和不可合并。

基于分类标签和遍历搜索的顺序对所有图层图片进行聚类操作，并将聚类操作结果打包成子文件包，以生成对应的前端代码。

本发明仅需提取设计稿中JSON文件中的图层属性与对应的图层图片进行多特征提取与融合，根据融合获得的融合特征对图层图片进行分类与聚类操作，基于聚类结果生成符合工业级别的前端代码。

具体的，采用深度优先搜索算法对JSON文件进行遍历，在遍历前对所有图层图片进行叠加构成单张长图，从而提高遍历效率。

具体的，所述深度残差卷积神经网络基于Resnet深度残差神经网络的构架进行构建，并采用ImageNet数据集进行训练。

具体的，所述视觉特征通过将所有图层图片进行叠加，以构建尺寸为L×3×64×64图像数据后输入至深度残差卷积神经网络中进行特征提取，其中L为图层的数量，3为RGB颜色三通道，64×64为每个图层调整后的尺寸。

具体的，所述图层属性的特征提取过程如下：

针对图层文本属性，采用BERT分词器对文本特征进行提取，获得对应的文本特征。

针对图层颜色属性，将三原色和对应的透明度构成的四元组通过归一化操作后，利用全连接层输出对应的颜色特征。

针对图层种类属性，采用数字序号表示并通过嵌入网络层进行嵌入操作，以输出对应的种类特征。

针对图层位置属性，将二维坐标和图片尺寸构成的四元组通过归一化操作后，利用全连接层输出对应的位置特征。

具体的，所述Transformer网络包括多个独立的编码器，以及用于处理编码器输出结果的全连接层和Softmax函数，所述编码器包括多头自主力机制网络和全连接前馈网络。

具体的，所述Transformer网络采用交叉熵损失函数(Cross Entropy Loss)进行训练获得。

具体的，所述聚类操作的具体过程如下：

从带有开始合并标签的图层图片依次聚类带有可合并标签的图层图片，并在聚类过程中略过带有不可合并标签的图层图片，直至出现下一个带有开始合并的图层图片为止，以获得一组图层组。

本发明还提供了一种图层处理装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中采用上述的用于UI零碎图层的图层处理方法。

所述计算机处理器执行所述计算机程序时实现以下步骤：将原始UI设计稿输入至计算机中，通过所述图层处理方法进行处理，以输出可以生成高质量前端代码的图层组子文件包。

与现有技术相比，本发明的有益效果如下：

本发明无需依赖复杂的设计稿层级结构作为先验知识，仅需通过JSON文件中的图层属性和图层图片进行多特征融合后，对所有图层图片进行分类和聚类操作，从而解决了传统方法中因引入多阶段处理所引发的精度损失问题，使得最终生成的前端代码符合工业级别要求。

附图说明

图1为本实施例提供的一种用于UI零碎图层的图层处理方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种用于UI零碎图层的图层处理方法，包括以下步骤：

针对UI设计稿中具有层级结构的JSON文件，采用深度优先搜索算法进行图层属性和图层图片的提取。

更近一步地，为了方便图层数据的管理和调用，通过Sketch提供的指令接口将UI设计稿中的每个图层图片导出并把它们堆叠到一起形成单张长图。

我们使用Sketch提供的指令接口将每个图层的图片导出并将其转换为相同的数据尺寸3×64×64。对比于其他方案将图片切分再提取特征或是直接利用整张图片，该方式的优势在于通过获取每一个图层独立的图像，可以完整的提取出图层本身的视觉特征信息，而不受上下文的干扰导致对图层本身视觉特点的破坏。为了最终形成完整图片的视觉特征信息，我们将所有图层图片进行叠加，输出尺寸为L×3×64×64，其中L为图层的数量，3是RGB颜色三通道，64×64表示每个图层调整后尺寸。我们利用预训练的深度残差卷积神经网络来提取所有图层特征，最终输出视觉特征为

为了将每个图层的属性表示为单个张量，考虑分别独立提取图层的不同属性，然后将所有提取特征融合到一起。本方案所使用的图层属性包括图层文本属性p_name、图层颜色属性p_color、图层种类属性p_category、图层位置属性p_position。

更近一步地，对于图层文本使用预训练的BERT分词器来提取文本特征，每个图层提取出的文本特征尺寸为32×h₀。

同时，为了所有属性特征的统一表示，利用一个全连接层(Fully connectedlayer)将其降维到h₀。

对于图层颜色属性，由一个四元组[R,G,B,A]表示，首先将其归一化，然后利用全连接层，使其维度变为h₀。

对于图层位置属性，由一个四元组[x₁,y₁,w,h]表示，将其归一化，然后利用全连接层，使维度变为h₀。

对于图层种类属性(共13类，由数字表示)，使用嵌入网络层(Embedding Layer)，将其特征维度变为h₀。

在分别完成了四个图层属性的特征提取后，并将获得几个特征和视觉特征进行融合，获得对应的融合特征：

f＝i+p_position′+p_category′+p_name′+p_color′

式中，p_name′为文本特征，p_color′为颜色特征，p_position′为位置特征，p_category′为种类特征，i为视觉特征。

为了克服图层序列缺失了部分结构特征信息，本方案选择采用Transformer网络中的编码器来捕捉图层间的隐式空间关系。编码器由6个独立的网络层组成，每一层包含了多头自注意力机制网络和全连接前馈网络。我们将上述得到的融合特征输入编码器，得到输出特征张量z₀。将z₀输入全连接层和Softmax函数，得到每一个图层的分类。

本方案采用交叉熵损失函数训练模型，同时为了减轻数据中长尾分布带来的负面影响，考虑采用类别加权的技术手段来提升准确率。类别加权指，在计算损失函数的时候，对样本量较多的类别赋予较低权重，对于样本量较小的类别赋予较高权重。

分类标签共3大类，分别为开始合并(start-merge)，可合并(merge)以及不可合并(non-merge)。

在完成了图层的四分类之后，任何可能存在的碎片化图层合都可以通过简单的遍历自动地组合到一起。

具体做法如下，根据遍历分类后的图层序列，一个碎片化图层组从类别为start-merge的图层开始，直到遇见下一个start-merge图层，其中merge图层会被合并到一个组内，而non-merge则被过滤。当碎片图层合并完成后，该图层组会加上“#merge#”标签，指导代码生成算法生成出更高质量的前端代码。

本实施例还提供了一种图层处理装置，包括计算机存储器、计算机处理器以及在该计算机存储器中并可在所述计算机处理器上执行的计算机程序，该计算机存储器中采用上述实施例提出的用于UI零碎图层的图层处理方法。

该计算机处理器执行该计算机程序时实现以下步骤：

将原始UI设计稿输入至计算机中，通过所述图层处理方法进行处理，以输出可以生成高质量前端代码的图层组子文件包。

为了证明本发明的有益效果，还提供了以下对比实验结果。

针对图层分类的定量实验，如表1所示。

表1

CNN：该方法利用残差卷积神经网络来提取图层图像特征，使用全连接层和Softmax函数使模型完成类别预测。

Bi-LSTM：该方法利用双向长短时记忆网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题，简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

CLAY-Transformer：该方法提出了一种预测安卓应用中组件类别的transformer网络。该方法利用了深度残差卷积神经网络，Transformer编码器将整个GUI屏幕截图进行编码，然后利用Transformer解码器将安卓组件节点的属性和GUI图片特征作为输入，实现组件分类。

EGFE为实施例提供的图层处理装置。

评估分类性能的方法：采用精准率、召回率和F1socre来评价模型分类性能。

评估合并性能的方法：才有IOU图层组面积交并比来评价图层合并性能指标。

由表1可知，本图层处理装置的分类性能在所有6个指标都达到了最优，其中宏观均值和加权均值为84.20％和91，21％，排第二方法的分类性能为80.81％和89.19％。

针对合并性能的定量实验，如表2所示。

表2

模型	精准率(prec.)	召回率(rec.)	F1socre(F1)
				UILM	81.20	75.56	78.28
ULDGNN	78.25	74.80	76.49
				CNN	58.31	48.29	52.83
Bi-LSTM	78.89	72.73	75.68
				Clay-Transformer	83.98	79.30	81.57
EGFE	87.02	81.52	84.18

UILM为专利文献CN115080038A中提出的处理装置。

ULDGNN为学术文献《ULDGNN:A Fragmented UI Layer Detector Based on GraphNeural Networks》所提出的处理装置。

在精准率、召回率和F1分数上对比于UILM分别提升了3.04％、2.22％和2.61％。对比基于目标检测方法的UILM，本发明融合了多模态特征以及端到端的序列预测模型，使得在图层合并任务上达到了更高的准确率。

以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言，除处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

以上应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于UI零碎图层的图层处理方法，其特征在于，包括以下步骤：

对原始UI设计稿中的JSON文件进行遍历搜索，获得所有图层图片和对应的图层属性，所述图层属性包括图层文本属性，图层颜色属性，图层种类属性以及图层位置属性；

根据遍历搜索的顺序，将所有图层图片进行叠加并输入至预训练的深度残差卷积神经网络中，以输出每个图层图片对应的视觉特征；

针对每个图层图片的图层属性进行特征提取，获得对应的文本特征，颜色特征，种类特征以及位置特征；

将获得的视觉特征，文本特征，颜色特征，种类特征以及位置特征进行融合，获得每个图层图片对应的融合特征；

将所述融合特征输入至用于捕捉图层间隐式空间关系的Transformer网络中，以输出每个图层图片的分类标签，所述分类标签包括开始合并，可合并和不可合并；

2.根据权利要求1所述的用于UI零碎图层的图层处理方法，其特征在于，采用深度优先搜索算法对JSON文件进行遍历。

3.根据权利要求1所述的用于UI零碎图层的图层处理方法，其特征在于，所述深度残差卷积神经网络基于Resnet深度残差神经网络的构架进行构建，采用ImageNet数据集进行训练。

4.根据权利要求1所述的用于UI零碎图层的图层处理方法，其特征在于，所述图层属性的特征提取过程如下：

针对图层文本属性，采用BERT分词器对文本特征进行提取，获得对应的文本特征；

针对图层颜色属性，将三原色和对应的透明度构成的四元组通过归一化操作后，利用全连接层输出对应的颜色特征；

针对图层种类属性，采用数字序号表示并通过嵌入网络层进行嵌入操作，以输出对应的种类特征；

5.根据权利要求1所述的用于UI零碎图层的图层处理方法，其特征在于，所述Transformer网络包括多个独立的编码器，以及用于处理编码器输出结果的全连接层和Softmax函数，所述编码器包括多头自注意力机制网络和全连接前馈网络。

6.根据权利要求1或5所述的用于UI零碎图层的图层处理方法，其特征在于，所述Transformer网络采用交叉熵损失函数进行训练获得。

7.根据权利要求1所述的用于UI零碎图层的图层处理方法，其特征在于，所述聚类操作的具体过程如下：

8.一种图层处理装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中采用权利要求1～7任一项所述的用于UI零碎图层的图层处理方法；