CN116385787A - 一种用于ui零碎图层的图层处理方法及装置 - Google Patents

一种用于ui零碎图层的图层处理方法及装置 Download PDF

Info

Publication number
CN116385787A
CN116385787A CN202310367085.6A CN202310367085A CN116385787A CN 116385787 A CN116385787 A CN 116385787A CN 202310367085 A CN202310367085 A CN 202310367085A CN 116385787 A CN116385787 A CN 116385787A
Authority
CN
China
Prior art keywords
layer
features
processing method
picture
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310367085.6A
Other languages
English (en)
Inventor
陈柳青
陈云农
孙凌云
甄焱鲲
周婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310367085.6A priority Critical patent/CN116385787A/zh
Publication of CN116385787A publication Critical patent/CN116385787A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种用于UI零碎图层的图层处理方法,包括以下步骤:对原始UI设计稿中的JSON文件进行遍历搜索,获得所有图层图片和对应的图层属性;根据遍历搜索的顺序,将所有图层图片进行叠加并输入至预训练的深度残差卷积神经网络中,以输出每个图层图片对应的视觉特征;针对每个图层图片的图层属性进行特征提取,获得对应的文本特征,颜色特征,种类特征以及位置特征;将获得的所有特征进行融合,获得每个图层图片对应的融合特征;基于分类标签和遍历搜索的顺序对所有图层图片进行聚类操作,并将聚类操作结果打包成子文件包,以生成对应的前端代码。本发明还提供一种图层处理装置。本发明的方法可以有效消除零碎图层对前端代码生成时的影响。

Description

一种用于UI零碎图层的图层处理方法及装置
技术领域
本发明属于图像处理的技术领域,尤其涉及一种用于UI零碎图层的图层处理方法及装置。
背景技术
在现代应用软件中,图形用户界面是一个非常重要的视觉和交互工具。UI设计稿是实现图形用户界面的原型,前端开发者的一个主要工作就是通过UI设计稿来实现前端代码。但是,复杂多变的UI布局和重复的UI视图开发工作,极大降低了开发者的开发效率,增加了开发成本。为了帮助开发者从繁重的开发工作中解放出来,一些研究采用了智能算法,从UI图片中生成前端代码。
但是直接由图片生成的代码可用性不高,无法达到工业级的标准。因此,一些研究提出使用设计稿自带的元信息,通过设计稿直接生成前端代码,从而保证可用性和准确性都有比较大的提升。在实际生产设计过程中,为了达到想要的视觉效果,设计师会使用多个零碎图层来表达一个UI组件。这种设计方式会对智能代码生成算法造成干扰,从而影响最终生成代码的质量。为了保证智能代码生成算法能够生成高质量的代码,亟需有着更高设计标准的设计稿,但这必定会增加设计师的工作成本。
近年来,在智能代码生成方面的研究受到了学术界广泛关注。通过UI图片生成的代码,其质量和可用性通常无法到达工业使用的标准,比如以微软公司的sketch2json为代表。目前,一些研究提出使用设计稿作为原材料,直接从设计稿中提取结构化信息,最终生成结构和语义上都可靠的前端代码。在这样的一个智能生成代码的流程中,设计稿作为原始输入,是非常重要的一环。但实践中发现,设计稿中碎片图层的存在极大影响了设计稿的质量,直接导致了最终生成代码不可复用。传统的图层合并方法,通常采用人工辅助合并或一些基于启发式的检查规则来判断是否对这些图层进行合并。这类方法过于依赖设计师或开发者的判断,同时对大量图层进行筛选和判断也提高了工作时间成本。
专利文献CN115080038A公开了一种图层处理方法、模型生成方法及设备,该方法包括:获取界面设计稿对应的目标图片;确定所述目标图片中符合合并要求的至少一个目标区域;基于所述至少一个目标区域与不同图层的相交信息,识别所述至少一个目标区域分别对应的多个目标图层,其中,所述多个目标图层用以进行合并处理以作为所述目标区域对应的一个组件。该方法需要分阶段完成合并任务,且分阶段处理过程中可能存在准确率的损失。
专利文献CN112306490A公开了一种图层导出方法、装置、设备及存储介质,该方法包括:获取用户界面的视觉稿文件的节点树,节点树包括视觉元素节点,视觉元素节点与构成用户界面的视觉元素的图层对应;确定节点树中不支持代码构建的视觉元素节点;对不支持代码构建的视觉元素节点中属于同一层级的视觉元素节点进行合并,得到合并后的视觉元素节点;将合并后的视觉元素节点对应的图层,导出为第一切图图层。但该方法需要依靠人为构建规则和视觉稿文件的节点树,泛化性较差且稳定性不佳。
发明内容
本发明的发明目的是无需依赖设计稿层级结构作为先验知识,从而避免端到端UI零碎图层自动化合并工作中因引入过多阶段处理导致的精度损失。
为了实现上述的发明目的,本发明提供了一种用于UI零碎图层的图层处理方法,包括以下步骤:
对原始UI设计稿中的JSON文件进行遍历搜索,获得所有图层图片和对应的图层属性,所述图层属性包括图层文本属性,图层颜色属性,图层种类属性以及图层位置属性。
根据遍历搜索的顺序,将所有图层图片进行叠加并输入至预训练的深度残差卷积神经网络中,以输出每个图层图片对应的视觉特征。
针对每个图层图片的图层属性进行特征提取,获得对应的文本特征,颜色特征,种类特征以及位置特征。
将获得的视觉特征,文本特征,颜色特征,种类特征以及位置特征进行融合,获得每个图层图片对应的融合特征。
将所述融合特征输入至用于捕捉图层间隐式空间关系的Transformer网络中,以输出每个图层图片的分类标签。
所述分类标签包括开始合并,可合并和不可合并。
基于分类标签和遍历搜索的顺序对所有图层图片进行聚类操作,并将聚类操作结果打包成子文件包,以生成对应的前端代码。
本发明仅需提取设计稿中JSON文件中的图层属性与对应的图层图片进行多特征提取与融合,根据融合获得的融合特征对图层图片进行分类与聚类操作,基于聚类结果生成符合工业级别的前端代码。
具体的,采用深度优先搜索算法对JSON文件进行遍历,在遍历前对所有图层图片进行叠加构成单张长图,从而提高遍历效率。
具体的,所述深度残差卷积神经网络基于Resnet深度残差神经网络的构架进行构建,并采用ImageNet数据集进行训练。
具体的,所述视觉特征通过将所有图层图片进行叠加,以构建尺寸为L×3×64×64图像数据后输入至深度残差卷积神经网络中进行特征提取,其中L为图层的数量,3为RGB颜色三通道,64×64为每个图层调整后的尺寸。
具体的,所述图层属性的特征提取过程如下:
针对图层文本属性,采用BERT分词器对文本特征进行提取,获得对应的文本特征。
针对图层颜色属性,将三原色和对应的透明度构成的四元组通过归一化操作后,利用全连接层输出对应的颜色特征。
针对图层种类属性,采用数字序号表示并通过嵌入网络层进行嵌入操作,以输出对应的种类特征。
针对图层位置属性,将二维坐标和图片尺寸构成的四元组通过归一化操作后,利用全连接层输出对应的位置特征。
具体的,所述Transformer网络包括多个独立的编码器,以及用于处理编码器输出结果的全连接层和Softmax函数,所述编码器包括多头自主力机制网络和全连接前馈网络。
具体的,所述Transformer网络采用交叉熵损失函数(Cross Entropy Loss)进行训练获得。
具体的,所述聚类操作的具体过程如下:
从带有开始合并标签的图层图片依次聚类带有可合并标签的图层图片,并在聚类过程中略过带有不可合并标签的图层图片,直至出现下一个带有开始合并的图层图片为止,以获得一组图层组。
本发明还提供了一种图层处理装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中采用上述的用于UI零碎图层的图层处理方法。
所述计算机处理器执行所述计算机程序时实现以下步骤:将原始UI设计稿输入至计算机中,通过所述图层处理方法进行处理,以输出可以生成高质量前端代码的图层组子文件包。
与现有技术相比,本发明的有益效果如下:
本发明无需依赖复杂的设计稿层级结构作为先验知识,仅需通过JSON文件中的图层属性和图层图片进行多特征融合后,对所有图层图片进行分类和聚类操作,从而解决了传统方法中因引入多阶段处理所引发的精度损失问题,使得最终生成的前端代码符合工业级别要求。
附图说明
图1为本实施例提供的一种用于UI零碎图层的图层处理方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种用于UI零碎图层的图层处理方法,包括以下步骤:
针对UI设计稿中具有层级结构的JSON文件,采用深度优先搜索算法进行图层属性和图层图片的提取。
更近一步地,为了方便图层数据的管理和调用,通过Sketch提供的指令接口将UI设计稿中的每个图层图片导出并把它们堆叠到一起形成单张长图。
我们使用Sketch提供的指令接口将每个图层的图片导出并将其转换为相同的数据尺寸3×64×64。对比于其他方案将图片切分再提取特征或是直接利用整张图片,该方式的优势在于通过获取每一个图层独立的图像,可以完整的提取出图层本身的视觉特征信息,而不受上下文的干扰导致对图层本身视觉特点的破坏。为了最终形成完整图片的视觉特征信息,我们将所有图层图片进行叠加,输出尺寸为L×3×64×64,其中L为图层的数量,3是RGB颜色三通道,64×64表示每个图层调整后尺寸。我们利用预训练的深度残差卷积神经网络来提取所有图层特征,最终输出视觉特征为
Figure BDA0004167141450000051
为了将每个图层的属性表示为单个张量,考虑分别独立提取图层的不同属性,然后将所有提取特征融合到一起。本方案所使用的图层属性包括图层文本属性pname、图层颜色属性pcolor、图层种类属性pcategory、图层位置属性pposition
更近一步地,对于图层文本使用预训练的BERT分词器来提取文本特征,每个图层提取出的文本特征尺寸为32×h0
同时,为了所有属性特征的统一表示,利用一个全连接层(Fully connectedlayer)将其降维到h0
对于图层颜色属性,由一个四元组[R,G,B,A]表示,首先将其归一化,然后利用全连接层,使其维度变为h0
对于图层位置属性,由一个四元组[x1,y1,w,h]表示,将其归一化,然后利用全连接层,使维度变为h0
对于图层种类属性(共13类,由数字表示),使用嵌入网络层(Embedding Layer),将其特征维度变为h0
在分别完成了四个图层属性的特征提取后,并将获得几个特征和视觉特征进行融合,获得对应的融合特征:
f=i+pposition′+pcategory′+pname′+pcolor
式中,pname′为文本特征,pcolor′为颜色特征,pposition′为位置特征,pcategory′为种类特征,i为视觉特征。
为了克服图层序列缺失了部分结构特征信息,本方案选择采用Transformer网络中的编码器来捕捉图层间的隐式空间关系。编码器由6个独立的网络层组成,每一层包含了多头自注意力机制网络和全连接前馈网络。我们将上述得到的融合特征输入编码器,得到输出特征张量z0。将z0输入全连接层和Softmax函数,得到每一个图层的分类。
本方案采用交叉熵损失函数训练模型,同时为了减轻数据中长尾分布带来的负面影响,考虑采用类别加权的技术手段来提升准确率。类别加权指,在计算损失函数的时候,对样本量较多的类别赋予较低权重,对于样本量较小的类别赋予较高权重。
分类标签共3大类,分别为开始合并(start-merge),可合并(merge)以及不可合并(non-merge)。
在完成了图层的四分类之后,任何可能存在的碎片化图层合都可以通过简单的遍历自动地组合到一起。
具体做法如下,根据遍历分类后的图层序列,一个碎片化图层组从类别为start-merge的图层开始,直到遇见下一个start-merge图层,其中merge图层会被合并到一个组内,而non-merge则被过滤。当碎片图层合并完成后,该图层组会加上“#merge#”标签,指导代码生成算法生成出更高质量的前端代码。
本实施例还提供了一种图层处理装置,包括计算机存储器、计算机处理器以及在该计算机存储器中并可在所述计算机处理器上执行的计算机程序,该计算机存储器中采用上述实施例提出的用于UI零碎图层的图层处理方法。
该计算机处理器执行该计算机程序时实现以下步骤:
将原始UI设计稿输入至计算机中,通过所述图层处理方法进行处理,以输出可以生成高质量前端代码的图层组子文件包。
为了证明本发明的有益效果,还提供了以下对比实验结果。
针对图层分类的定量实验,如表1所示。
表1
Figure BDA0004167141450000061
CNN:该方法利用残差卷积神经网络来提取图层图像特征,使用全连接层和Softmax函数使模型完成类别预测。
Bi-LSTM:该方法利用双向长短时记忆网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题,简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
CLAY-Transformer:该方法提出了一种预测安卓应用中组件类别的transformer网络。该方法利用了深度残差卷积神经网络,Transformer编码器将整个GUI屏幕截图进行编码,然后利用Transformer解码器将安卓组件节点的属性和GUI图片特征作为输入,实现组件分类。
EGFE为实施例提供的图层处理装置。
评估分类性能的方法:采用精准率、召回率和F1socre来评价模型分类性能。
评估合并性能的方法:才有IOU图层组面积交并比来评价图层合并性能指标。
由表1可知,本图层处理装置的分类性能在所有6个指标都达到了最优,其中宏观均值和加权均值为84.20%和91,21%,排第二方法的分类性能为80.81%和89.19%。
针对合并性能的定量实验,如表2所示。
表2
模型 精准率(prec.) 召回率(rec.) F1socre(F1)
UILM 81.20 75.56 78.28
ULDGNN 78.25 74.80 76.49
CNN 58.31 48.29 52.83
Bi-LSTM 78.89 72.73 75.68
Clay-Transformer 83.98 79.30 81.57
EGFE 87.02 81.52 84.18
UILM为专利文献CN115080038A中提出的处理装置。
ULDGNN为学术文献《ULDGNN:A Fragmented UI Layer Detector Based on GraphNeural Networks》所提出的处理装置。
在精准率、召回率和F1分数上对比于UILM分别提升了3.04%、2.22%和2.61%。对比基于目标检测方法的UILM,本发明融合了多模态特征以及端到端的序列预测模型,使得在图层合并任务上达到了更高的准确率。
以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言,除处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
以上应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种用于UI零碎图层的图层处理方法,其特征在于,包括以下步骤:
对原始UI设计稿中的JSON文件进行遍历搜索,获得所有图层图片和对应的图层属性,所述图层属性包括图层文本属性,图层颜色属性,图层种类属性以及图层位置属性;
根据遍历搜索的顺序,将所有图层图片进行叠加并输入至预训练的深度残差卷积神经网络中,以输出每个图层图片对应的视觉特征;
针对每个图层图片的图层属性进行特征提取,获得对应的文本特征,颜色特征,种类特征以及位置特征;
将获得的视觉特征,文本特征,颜色特征,种类特征以及位置特征进行融合,获得每个图层图片对应的融合特征;
将所述融合特征输入至用于捕捉图层间隐式空间关系的Transformer网络中,以输出每个图层图片的分类标签,所述分类标签包括开始合并,可合并和不可合并;
基于分类标签和遍历搜索的顺序对所有图层图片进行聚类操作,并将聚类操作结果打包成子文件包,以生成对应的前端代码。
2.根据权利要求1所述的用于UI零碎图层的图层处理方法,其特征在于,采用深度优先搜索算法对JSON文件进行遍历。
3.根据权利要求1所述的用于UI零碎图层的图层处理方法,其特征在于,所述深度残差卷积神经网络基于Resnet深度残差神经网络的构架进行构建,采用ImageNet数据集进行训练。
4.根据权利要求1所述的用于UI零碎图层的图层处理方法,其特征在于,所述图层属性的特征提取过程如下:
针对图层文本属性,采用BERT分词器对文本特征进行提取,获得对应的文本特征;
针对图层颜色属性,将三原色和对应的透明度构成的四元组通过归一化操作后,利用全连接层输出对应的颜色特征;
针对图层种类属性,采用数字序号表示并通过嵌入网络层进行嵌入操作,以输出对应的种类特征;
针对图层位置属性,将二维坐标和图片尺寸构成的四元组通过归一化操作后,利用全连接层输出对应的位置特征。
5.根据权利要求1所述的用于UI零碎图层的图层处理方法,其特征在于,所述Transformer网络包括多个独立的编码器,以及用于处理编码器输出结果的全连接层和Softmax函数,所述编码器包括多头自注意力机制网络和全连接前馈网络。
6.根据权利要求1或5所述的用于UI零碎图层的图层处理方法,其特征在于,所述Transformer网络采用交叉熵损失函数进行训练获得。
7.根据权利要求1所述的用于UI零碎图层的图层处理方法,其特征在于,所述聚类操作的具体过程如下:
从带有开始合并标签的图层图片依次聚类带有可合并标签的图层图片,并在聚类过程中略过带有不可合并标签的图层图片,直至出现下一个带有开始合并的图层图片为止,以获得一组图层组。
8.一种图层处理装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中采用权利要求1~7任一项所述的用于UI零碎图层的图层处理方法;
所述计算机处理器执行所述计算机程序时实现以下步骤:将原始UI设计稿输入至计算机中,通过所述图层处理方法进行处理,以输出可以生成高质量前端代码的图层组子文件包。
CN202310367085.6A 2023-04-07 2023-04-07 一种用于ui零碎图层的图层处理方法及装置 Pending CN116385787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310367085.6A CN116385787A (zh) 2023-04-07 2023-04-07 一种用于ui零碎图层的图层处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310367085.6A CN116385787A (zh) 2023-04-07 2023-04-07 一种用于ui零碎图层的图层处理方法及装置

Publications (1)

Publication Number Publication Date
CN116385787A true CN116385787A (zh) 2023-07-04

Family

ID=86970695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310367085.6A Pending CN116385787A (zh) 2023-04-07 2023-04-07 一种用于ui零碎图层的图层处理方法及装置

Country Status (1)

Country Link
CN (1) CN116385787A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117032875A (zh) * 2023-10-09 2023-11-10 浙江大学 一种基于多模态图神经网络的关联零碎图层合并方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117032875A (zh) * 2023-10-09 2023-11-10 浙江大学 一种基于多模态图神经网络的关联零碎图层合并方法及装置
CN117032875B (zh) * 2023-10-09 2024-02-13 浙江大学 一种基于多模态图神经网络的关联零碎图层合并方法及装置

Similar Documents

Publication Publication Date Title
JP7474587B2 (ja) 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム
EP3839818A2 (en) Method and apparatus for performing structured extraction of text, device and storage medium
US10191889B2 (en) Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation
US10885323B2 (en) Digital image-based document digitization using a graph model
Hochuli et al. Handwritten digit segmentation: Is it still necessary?
US11087409B1 (en) Systems and methods for generating accurate transaction data and manipulation
CN114419304A (zh) 一种基于图神经网络的多模态文档信息抽取方法
US20210012211A1 (en) Techniques for visualizing the operation of neural networks
CN116385787A (zh) 一种用于ui零碎图层的图层处理方法及装置
Yang et al. Multi-scale bidirectional fcn for object skeleton extraction
CN115311130A (zh) 一种多风格中国书法文字图像风格迁移方法、系统及终端
CN115437952A (zh) 一种基于深度学习的语句级软件缺陷检测方法
Cheekati et al. Telugu handwritten character recognition using deep residual learning
CN106648636A (zh) 一种基于图挖掘的软件函数变更预测系统及方法
CN112733861B (zh) 基于u型残差网络的文本擦除和抠字方法
Pellis et al. Assembling an image and point cloud dataset for heritage building semantic segmentation
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质
CN115204318B (zh) 事件自动层级分类方法及电子设备
Bhattacharya et al. Circuit Component Detection in Offline Handdrawn Electrical/Electronic Circuit Diagram
CN112329389B (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
RU2582064C1 (ru) Способы и системы эффективного автоматического распознавания символов с использованием леса решений
CN110321435A (zh) 一种数据源划分方法、装置、设备和存储介质
CN117032875B (zh) 一种基于多模态图神经网络的关联零碎图层合并方法及装置
CN117727053B (zh) 一种多类别汉字单样本字体识别方法
Perel et al. Learning multimodal affinities for textual editing in images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination