CN116975344B - 一种基于Stable Diffusion的中文字库生成方法及装置 - Google Patents
一种基于Stable Diffusion的中文字库生成方法及装置 Download PDFInfo
- Publication number
- CN116975344B CN116975344B CN202310995934.2A CN202310995934A CN116975344B CN 116975344 B CN116975344 B CN 116975344B CN 202310995934 A CN202310995934 A CN 202310995934A CN 116975344 B CN116975344 B CN 116975344B
- Authority
- CN
- China
- Prior art keywords
- chinese character
- model
- bitmap
- character
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000009792 diffusion process Methods 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 239000013643 reference control Substances 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 description 13
- 238000013508 migration Methods 0.000 description 7
- 230000005012 migration Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 101100281686 Mus musculus Fstl1 gene Proteins 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明公开了一种基于Stable Diffusion的中文字库生成方法及装置,包括:对不同开源字体的所有汉字字符生成位图数据集,对Stable Diffusion模型训练得到汉字专属扩散模型;设计目标字符位图作为目标风格参考图像,训练上游简易字体风格转换微调模型;使用目标风格参考图像对汉字专属扩散模型训练得到汉字专属微调扩散模型;使用宋体字符位图进行结构控制的汉字结构ControlNet训练;利用上述模型结合文本编码器、图像编码器构建位图推理模型;构建训练数据对位图推理模型进行训练;利用训练好的位图推理模型生成结果位图;对生成的位图矢量化后得到中文字库。本发明解决了生成汉字位图分辨率低、噪点多、汉字结构不稳定、不可见风格不相似的问题,提升中文字库生成效率和质量。
Description
技术领域
本发明属于计算机辅助设计领域,尤其是涉及一种基于Stable Diffusion的中文字库生成方法及装置。
背景技术
在传统的汉字字体的设计与生成过程中,主要存在汉字字体量大,以及字形较为复杂的问题。现代汉语常用字表常用字部分就有2500字,总共的汉字数量大约有将近十万左右。在传统方法下,想要设计一款新的字体,最开始设计师需要对原始的字稿进行设计,把握字体的主要风格,然后技术人员再针对设计师所设计的原始字稿进行扫描,而后将扫描到的图形制作成为一份份包含曲线轮廓的信息,最终形成字库。在整个设计与扫描的过程中,设计师还需要对细节反复的进行修改、调整,故而一套字体设计的周期较长,人工需要完成的工作量大且内容较为重复。
近年来,随着人工智能技术的不断发展,基于变分自动编码器VAE和生成对抗网络GAN的风格迁移方法在汉字字符位图的批量生成工作上已有了许多的研究与进展。人工智能技术能够大大缩短汉字位图的生成时间,通过让设计师仅设计100个左右的汉字,即可快速生成对应风格剩余字符的位图。其中具有代表性的一些工作有:“GitHub开源项目zi2zi(2017)”,“Xie Y,Chen X,Sun L,et al.DG-Font:Deformable Generative Networks forUnsupervised Font Generation[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2021:5130-5140.”。这些方法可以概述为,将目标字体设计阶段获得字符图片作为风格参考,同时取一种已经覆盖字符集的字体(比如宋体)作为源风格字体提供剩余字符的内容参考图片,通过风格迁移将内容参考图片变为目标风格,从而获得生产阶段所需的字符位图。
同时,近年来,基于大模型的自然图像生成方法、微调手段及图像内容控制手段不断涌现,他们相比VAE和GAN而言生成图像质量更高,内容控制维度更精确,其中具有代表性的工作有:“Rombach et al.,High-Resolution Image Synthesis with LatentDiffusion Models.”,“Zhang and Agrawala,Adding Conditional Control to Text-to-Image Diffusion Models.”,“Hu et al.,LoRA:Low-Rank Adaptation of LargeLanguage Models.”。这些论文包含通过自然语义指定关键词完成文字生成图像以及文字关键词引导下的图像生成图像的潜在空间扩散模型方法,也有通过低秩矩阵来微调大语言模型的方法,也有通过控制网络向文生图扩散模型中增加精确控制的方法。
人们已经能够通过潜在空间扩散模型与微调手段诸如Lora生成不同风格高质量高分辨率的自然与人像位图,然而仅通过简单的输入指令(Prompt)无法很好的满足一些特定任务的需求。因为在研究中发现,大模型无法从其超大的训练数据集中保持对特定任务的优势和能力,故而研究者利用控制网络向扩散模型中添加限制条件,例如通过深度图控制场景景深、人物姿态图控制人物图像造型等等。
然而目前在字体领域尚未存在基于扩散模型进行字体风格迁移的方法,且现有的基于VAE和GAN生成汉字位图的方法普遍存在分辨率较低、汉字结构不稳定且控制较难、图像噪点多质量差等问题,这会为后续将位图矢量化的过程带来一定的困难,且对于工业界而言,生成的低质量位图意义对于设计师效率的提升并不大。同时,现有基于VAE和GAN的方法对于生成的汉字风格仅能通过特定图像指定,缺乏一定的灵活性。
发明内容
本发明提供了一种基于Stable Diffusion的中文字库生成方法及装置,解决生成汉字位图分辨率低、噪点多、汉字结构不稳定、不可见风格不相似的问题,提升了中文字库的生成质量和效率。
一种基于Stable Diffusion的中文字库生成方法,包括以下步骤:
(1)对不同的开源字体建立风格类型标签体系,对于每种开源字体里的所有汉字字符,均生成一张属于该风格的位图;
利用生成的位图数据集,对Stable DiffusionV1.5基础模型进行训练,得到汉字专属扩散模型;
(2)使用设计师设计完成的少量目标字符位图作为目标风格参考图像,对上游简易字体风格转换模型模型进行训练,得到上游简易字体风格转换微调模型;
(3)使用设计师设计完成的少量目标字符位图,对步骤(1)得到的汉字专属扩散模型进行微调训练,得到汉字专属微调扩散模型;
(4)使用宋体字符位图作为结构参考控制信息,结合其他字体作为风格参考位图共同构建配对数据,基于步骤(1)得到的汉字专属扩散模型,训练ControlNet,得到一个用于结构控制的汉字结构ControlNet;
(5)构建位图推理模型,包括文本编码器、图像编码器、上游简易字体风格转换微调模型、汉字专属微调扩散模型与汉字结构ControlNet;
其中,图像编码器用于对目标风格参考图像进行编码,文本编码器用于对目标风格文本描述进行编码,上游简易字体风格转换微调模型用于将输入的目标字符Unicode码推理生成低质量的粗糙位图;将文本编码器、图像编码器、上游简易字体风格转换微调模型生成的内容分别输入汉字结构ControlNet和汉字专属微调扩散模型中,得到目标风格的字符图像;
(6)构建训练数据对位图推理模型进行训练;
(7)利用训练好的位图推理模型对所有目标字符集的字符进行逐一推理,最终生成批量化的高质量结果位图;
(8)基于自动曲线描摹算法对步骤(7)中生成的每一张位图进行矢量化,得到最终目标字符集所有字符的矢量化结果,形成中文字库。
本发明在中文汉字图像域内训练Stable Diffusion和ControlNet作为网络的预训练模型部分,并在字体风格迁移任务上,结合多模态的条件控制网络分离对汉字内容和风格的控制,提出位图推理模型网络,解决生成汉字位图分辨率低、噪点多、汉字结构不稳定、不可见风格不相似的问题,进而提高中文字库的生成质量和效率。
网络通过输入提示词(Prompt)与输入风格参考图像共同指定需要生成的风格特征,通过宋体结构位图与预生成的低质量位图来控制汉字结构,批量生成风格更具灵活性,且高分辨率、高质量以及低噪点的目标风格的汉字位图,提升设计师汉字设计效率,最终完成目标字体的中文字库高效生成。
进一步地,步骤(1)中,风格类型标签体系包含字重、字体类型、字体风格、字体特征四个方面;
其中,字重划分为细体、常规、中等、超粗四档;字体类型包括美术字、等线体、黑体、圆体、篆书、隶书、楷书、行书、草书、花体、瘦金体、硬笔手写、软笔手写、创意体;字体风格包括悠闲、活泼、非严肃、洒脱、豪放、精致、商业感;字体特征包括带圆转笔画、倾斜、扁体、带装饰笔形、圆角。
步骤(1)中,使用Huggingface的Diffusers库中的Text-To-Image Finetuning技术,利用生成的位图数据集,对Stable DiffusionV1.5基础模型进行训练。
步骤(2)中,所述的上游简易字体风格转换模型采用Zi2Zi网络、DG-Font网络或者其他具有类似汉字风格迁移的神经网络。
步骤(3)中,使用Huggingface的Diffusers库中Texture Inversion技术,对步骤(1)得到的汉字专属扩散模型进行微调训练。
步骤(6)的具体过程如下:
首先需要构建训练数据,其中,输入数据包括:目标风格文本描述、目标风格参考图像、目标字符宋体结构位图,输出数据为对应于目标风格的字符图像;
其中,上游简易字体风格转换微调模型不参与本步骤的训练,且冻结文本编码器、汉字专属微调扩散模型和汉字结构ControlNet的参数,并利用准备好的训练数据对位图推理模型中的剩余参数进行训练。
步骤(7)中,利用训练好的位图推理模型对所有目标字符集的字符进行逐一推理过程中,使用步骤(2)中的上游简易字体风格转换微调模型,根据目标字符的Unicode码生成目标风格每个对应字符的位图,得到粗糙字符底图;
将该底图作为汉字专属微调扩散模型推理的底图,使用目标字符宋体结构位图作为汉字结构ControlNet的控制信息位图,使用目标字符的风格文本描述输入文本编码器,将目标字符的风格参考图像输入图像编码器;将文本编码器、图像编码器、上游简易字体风格转换微调模型生成的内容分别输入汉字结构ControlNet和汉字专属微调扩散模型中,最终生成批量化的高质量结果位图。
优选地,步骤(7)中,对于结果位图中不满意的字符位图,提供交互式装置进行位图重绘,让设计师通过手写的形式,指定汉字专属微调扩散模型推理的底图,让模型推理得到扩展补充字符集。
一种中文字库生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述中文字库生成方法。
与现有技术相比,本发明具有以下有益效果:
本发明具有高效、操作简单、生成字库质量高的特点,使用计算机图形学和人工智能结合的方法,仅需设计师预先完成100字左右的设计,即可批量化自动化的生成目标字体风格的所有字符集高质量位图图像,进而转换为矢量数据,形成字库。相比已有方法,该方法生成的位图分辨率更高、质量更佳、噪点更少,能够为进一步矢量化操作提供更好的图像质量,从而提高中文字库的生成效率与生成质量。同时设计师可以使用交互式的装置进行不满意字符或不存在字符的位图重绘,并让模型进行重新推理,以扩充字符或替换字符。据字体设计师反馈,该方法能够有效提升中文字库设计生产阶段的设计效率,辅助生成更高质量的中文字库。
附图说明
图1为本发明一种基于Stable Diffusion的中文字库生成方法流程图;
图2为本发明中位图推理模型的网络结构图;
图3为本发明实施例中字体风格标签示例;
图4为本发明实施例中生成粗糙位图底图与真实图示例;
图5为本发明实施例中生成高质量位图底图与真实图示例;
图6为本发明实施例中交互式装置压感绘制部分示例;
图7为本发明实施例中使用曲线描摹算法矢量化位图示例。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明实施例将以zi2zi模型作为上游简易字体风格转换模型的示例,来说明整套流程,在实际操作中该上游字体风格转换模型可以任意替换,仅需满足相应功能即可。
本发明的主体由七个大的主要步骤构成,另外有一个分支步骤为单张位图的手写渲染任务,用于对一些批量生成的汉字位图感到不满意时的补充方式。
如图1所示,一种基于Stable Diffusion的中文字库生成方法,包括如下步骤:
S01,汉字专属扩散模型的预训练。
Stable Diffusion是一个开源的基于潜在空间扩散模型改进的扩散模型,其被广泛用于自然图像生成等方面。Text-To-Image Finetuning技术是一种开源的对于大模型微调的方法,可以让使用者基于自己的数据集对Stable Diffusion进行参数的微调,从而实现个性化的风格图像生成。
该步骤划分为两个小步骤,首先需要对不同的开源字体进行风格类型标签体系的建立并完成打标任务。本技术方案从字重、字体类型、字体风格、字体特征四方面建立完备的字体风格标签体系,字重划分为细体(Light)、常规(Regular)、中等(Medium)、超粗(Heavy)四档,字体类型包括美术字、等线体、黑体、圆体、篆书、隶书、楷书、行书、草书、花体、瘦金体、硬笔手写、软笔手写、创意体等,字体风格包括悠闲、活泼、非严肃、洒脱、豪放、精致、商业感等,字体特征包括带圆转笔画、倾斜、扁体、带装饰笔形、圆角等。本方案在此阶段寻找了50种开源字体,并对每种开源字体进行了自然语言的标签建立。50种开源字体风格类型应当互不相同,且基本涵盖常见的风格类型种类。随后对于每种开源字体里的所有汉字字符,生成一张属于该风格的位图,并将该位图的标签定为风格描述特征、字符Unicode码、字符IDS结构的结合。第二步使用Huggingface的Diffusers库中的Text-To-Image Finetuning技术,利用第一步生成的位图数据集,对StableDiffusionV1.5的模型进行了训练,该训练约耗72h,得到属于汉字的扩散模型基础模型。该步骤结果模型称之为“汉字专属扩散模型”,留待后续使用。
S02,上游简易字体风格转换模型Zi2Zi预训练。
Zi2Zi模型是一种开源的字体风格迁移神经网络模型,其可以将源风格的字体图像转换为目标风格的字体图像,使用者可以通过训练的方式让其学习到某种字体的风格特征。该步骤中使用设计师设计完成的少量目标字符位图,针对Zi2Zi网络进行训练,让Zi2Zi网络学习设计任务的目标风格特征。该训练步骤约耗时2h,可以与步骤1同步进行。请注意,在本方案中,Zi2Zi模型是一个可替换的模型,可以替换成任一能够进行低质量汉字风格迁移的网络,如DG-Font等,之所以在本方案中选择Zi2Zi,是因为其属于训练成本较低的一个神经网络。该步骤结果模型称之为“上游简易字体风格转换微调模型”,留待后续使用。
S03,Stable Diffusion针对目标字体微调训练。
该步骤使用设计师设计完成的少量目标字符位图,使用Huggingface的Diffusers库中Texture Inversion技术,对步骤S01得到的“汉字专属扩散模型”进行概念嵌入的学习。Texture Inversion是一种开源的从少量示例图像中捕获新颖概念的技术,可以应用在扩散模型之中。本方案对目标字体在该步骤中对目标字体进行自然语言的描述,该描述可以是任意新的概念,例如“新宋体”,如果目标字体和某种开源字体比较像的话,可以指定初始点为某种开源字体的字体风格,例如“宋体”,能够使得网络更好的学习目标风格的概念,该训练步骤约耗时3h。该步骤结果模型称之为“汉字专属微调扩散模型”,留待后续使用。
S04,Stable Diffusion汉字内容参考的汉字结构ControlNet预训练。
ControlNet可以通过端到端对大型模型进行补充训练,从而在支持小于100k的小数据集的情况下,学习到针对特定任务的额外控制信息,比如深度图、语义分割图、关键点等。
该步骤使用标准宋体字符位图作为结构参考控制信息,使用其他数十种字体作为风格参考位图构建配对数据,基于步骤S01得到的“汉字专属扩散模型”训练一个使用宋体字符汉字内容位图进行结构控制的ControlNet。该步骤结果模型称之为“汉字结构ControlNet”。
S05,位图推理模型结构与训练。
如下图2所示,位图推理模型由文本编码器、图像编码器、上游简易字体风格转换微调模型、汉字专属微调扩散模型和汉字结构ControlNet组成。其中图像编码器可以选用基于CNN的vgg11,也可以选用其它基于Vision Transformer的图像编码器,图像编码器用于对参考风格图像进行编码,文本编码器对自然语言描述的风格进行编码。上游简易字体风格转换微调模型用于将输入的目标字符Unicode码推理生成低质量粗糙位图;将文本编码器、图像编码器、上游简易字体风格转换微调模型生成的内容分别输入汉字结构ControlNet和汉字专属微调扩散模型中,得到目标风格的字符图像。
在模型训练的过程中,首先需要构建训练数据。模型的输入数据有3项,输入数据有1项,形成配对数据。其中输入数据包括:目标风格文本描述、目标风格参考图像、目标字符宋体结构位图,输出数据为对应于目标风格文本和目标字符的字符图像。其中,上游简易字体风格转换微调模型部分不参与本步骤的训练,且文本编码器、汉字专属微调扩散模型、汉字结构ControlNet均在前置步骤预训练完成。此步骤中,需要冻结这部分预训练完成的模型参数,并利用准备好的训练数据对模型剩余参数进行训练。
S06,位图推理模型推理(高质量结果位图生成)。
在模型推理阶段,模型需要对于所有的目标字符集的字符进行逐一推理,最终生成批量化的高质量结果位图。对于每次推理,模型的输入数据包括:目标风格文本描述、目标风格参考图像、目标字符Unicode码,目标字符宋体结构位图。具体输入数据与模块对应如下:使用对应字符标准宋体的位图作为源图像,使用步骤S02中的训练的风格标签,根据目标字符的Unicode码生成目标风格每个对应字符的位图,得到“粗糙字符底图”,将该底图作为汉字专属微调扩散模型图生图推理的底图,并使用目标字符宋体结构位图作为汉字结构ControlNet的控制信息位图,同时使用目标字体的风格文本描述输入文本编码器,以及将目标字体的已经设计好的目标风格参考图像输入图像编码器。
S07,基于自动曲线描摹的汉字位图矢量化算法。
自动曲线描摹是一种开源的图像矢量化算法,本方案基于自动曲线描摹算法对步骤七中生成的每一张位图进行矢量化,得到最终目标字符集所有字符的矢量化结果,形成中文字库。
分支步骤:扩展字符集与交互式推理装置。
在步骤S06的推理过程中,可能存在使用者对模型推理位图结构不满意的情况,这往往是由于内容参考位图的汉字结构与目标字体风格的汉字结构存在一定偏差导致的,此时本发明提供带压感绘制的手写位图绘制,让设计师通过手写的形式,指定模型推理底图,让模型推理从而得到扩展补充字符集的效果。
本发明实施的前置准备条件:需要有一个明确的设计任务,需要准备好一定数量的目标字体字符位图,需要收集一定数量的开源字体并按照标签体系进行打标,需要准备好开源标准宋体字体,最低硬件要求为拥有1块3090显卡。需要注意的是,对于本发明而言,一定数量的开源字体并按照标签体系进行打标,以及开源标准宋体字体仅需准备一次,在剩下所有的设计任务中均可通用,而一定数量的目标字体字符位图是需要根据不同的设计任务而变更的。本发明的最终产出:目标字体满足目标字符集数量的中文字库。
具体实施过程中,首先根据如图3所示的标签体系对每个字体文件进行打标,得到如下所示的不同的字体文件的标签。
fstl|Chinese fangsong text light
tsrg|Japanese kaiti handwriting text regular
htmd|Chinese modern heiti square medium
htlt|Chinese modern heiti square light
随后使用Huggingface的diffusers开源库中,对StableDiffusion的Text-To-Image Finetuning微调方法,依照对应文档完成数据集位图和位图标签配对数据的准备。例如,对于fstl字体文件的所有中文汉字字符,都需执行以下步骤:以字符“汉”为例,生成fstl字体的字符“汉”的位图图像,并记录其图像位置,记录其标签为:“Chinese fangsongtext light 6C49,其中包括对应字体风格的描述词、字符Unicode码以及字符的IDS序列信息。最终形成一份可以用于Lora微调的meta.jsonl元数据文件,以及相对应的位图数据集,训练得到“汉字专属扩散模型”,留待后续使用。
与上一步可以同时进行的是对上游简易字体风格转换模型或其他可选上游模型的训练,该步骤需要利用设计师预先设计好的一定数量的目标字符位图,按照Zi2Zi相关技术文档进行数据集的构建并进行训练。
得到训练完成的“汉字专属扩散模型”后,可以同时开始Stable Diffusion汉字内容参考的汉字结构ControlNet训练以及汉字专属微调扩散模型训练。Stable Diffusion针对目标字体的微调采用Huggingface的diffusers开源库中的Texture Inversion技术完成,需要按照相关技术构建训练所需数据集,具体而言是需要定义目标字体的风格语义,例如“xinsongti”,并定义该字体和先前用于训练“汉字专属扩散模型”的50种开源字体何种最像,并将initializer_token设置为最像字体的标签,如“songti”。随后,使用准备好的设计师设计的目标字体的少量字符位图进行神经网络的训练,得到“汉字专属微调扩散模型”。在汉字结构ControlNet训练中,同样采用Huggingface的diffusers开源库中的ControlNet技术完成,需要构建控制图和目标图的配对数据集,此处控制图数据集采用准备好的标准宋体开源字体来生成,目标图采用50种开源字体中数十种不同风格的字体来生成。该控制网络基于“汉字专属扩散模型”进行训练,得到“汉字结构ControlNet”。
随后,对位图推理模型进行训练,具体方法为需要冻结先前已经完成的其他预训练模型参数,然后利用训练数据对模型剩余参数进行训练。
待上述步骤均完成后,遍历目标字符集中的所有字符,对每一个字符执行如图2所示的位图推理模型推理方法,操作如下:以“文”为示例,将“文”字的Unicode码输入Zi2Zi网络模块,生成对应的“文”字的“粗糙位图底图”作为图生图的底图,生成的中间结果如图4所示,指定Prompt为目标字体的风格语义及一些辅助风格信息,如“xinsongti bold”,并使用已经设计好的目标字体的风格参考图像输入图像编码器,随后网络使用标准开源宋体的“文”字图像作为控制信息图像传入“汉字结构ControlNet”,结合汉字专属微调扩散模型,综合输出“文”字的目标字体高质量字符底图,图像示例如图5所示。
设计师可以通过如图6所示的交互式字符扩充装置对不满意的字符进行手写绘制并进行重推理,得到满足设计师心意的推理结果。最后使用如图7所示的基于自动曲线描摹的汉字位图矢量化算法,基于默认参数遍历目标字符集中的所有字符,对每个字符进行矢量化操作,最终形成中文字库。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于Stable Diffusion的中文字库生成方法,其特征在于,包括以下步骤:
(1)对不同的开源字体建立风格类型标签体系,对于每种开源字体里的所有汉字字符,均生成一张属于该风格的位图;
利用生成的位图数据集,对Stable DiffusionV1.5基础模型进行训练,得到汉字专属扩散模型;
(2)使用设计师设计完成的少量目标字符位图作为目标风格参考图像,对上游简易字体风格转换模型进行训练,得到上游简易字体风格转换微调模型;
(3)使用设计师设计完成的少量目标字符位图,对步骤(1)得到的汉字专属扩散模型进行微调训练,得到汉字专属微调扩散模型;
(4)使用宋体字符位图作为结构参考控制信息,结合其他字体作为风格参考位图共同构建配对数据,基于步骤(1)得到的汉字专属扩散模型,训练ControlNet,得到一个用于结构控制的汉字结构ControlNet;
(5)构建位图推理模型,包括文本编码器、图像编码器、上游简易字体风格转换微调模型、汉字专属微调扩散模型与汉字结构ControlNet;
其中,图像编码器用于对目标风格参考图像进行编码,文本编码器用于对目标风格文本描述进行编码,上游简易字体风格转换微调模型用于将输入的目标字符Unicode码推理生成低质量的粗糙位图;将文本编码器、图像编码器、上游简易字体风格转换微调模型生成的内容分别输入汉字结构ControlNet和汉字专属微调扩散模型中,得到目标风格的字符图像;
(6)构建训练数据对位图推理模型进行训练;
(7)利用训练好的位图推理模型对所有目标字符集的字符进行逐一推理,最终生成批量化的高质量结果位图;
(8)基于自动曲线描摹算法对步骤(7)中生成的每一张位图进行矢量化,得到最终目标字符集所有字符的矢量化结果,形成中文字库。
2.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(1)中,风格类型标签体系包含字重、字体类型、字体风格、字体特征四个方面;
其中,字重划分为细体、常规、中等、超粗四档;字体类型包括美术字、等线体、黑体、圆体、篆书、隶书、楷书、行书、草书、花体、瘦金体、硬笔手写、软笔手写、创意体;字体风格包括悠闲、活泼、非严肃、洒脱、豪放、精致、商业感;字体特征包括带圆转笔画、倾斜、扁体、带装饰笔形、圆角。
3.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(1)中,使用Huggingface的Diffusers库中的Text-To-Image Finetuning技术,利用生成的位图数据集,对Stable DiffusionV1.5基础模型进行训练。
4.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(2)中,所述的上游简易字体风格转换模型采用Zi2Zi网络或DG-Font网络。
5.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(3)中,使用Huggingface的Diffusers库中Texture Inversion技术,对步骤(1)得到的汉字专属扩散模型进行微调训练。
6.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(6)的具体过程如下:
首先需要构建训练数据,其中,输入数据包括:目标风格文本描述、目标风格参考图像、目标字符宋体结构位图,输出数据为对应于目标风格的字符图像;
其中,上游简易字体风格转换微调模型不参与本步骤的训练,且冻结文本编码器、汉字专属微调扩散模型和汉字结构ControlNet的参数,并利用准备好的训练数据对位图推理模型中的剩余参数进行训练。
7.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(7)中,利用训练好的位图推理模型对所有目标字符集的字符进行逐一推理过程中,使用步骤(2)中的上游简易字体风格转换微调模型,根据目标字符的Unicode码生成目标风格每个对应字符的位图,得到粗糙字符底图;
将该底图作为汉字专属微调扩散模型推理的底图,使用目标字符宋体结构位图作为汉字结构ControlNet的控制信息位图,使用目标字符的风格文本描述输入文本编码器,将目标字符的风格参考图像输入图像编码器;将文本编码器、图像编码器、上游简易字体风格转换微调模型生成的内容分别输入汉字结构ControlNet和汉字专属微调扩散模型中,最终生成批量化的高质量结果位图。
8.根据权利要求1所述的基于Stable Diffusion的中文字库生成方法,其特征在于,步骤(7)中,对于结果位图中不满意的字符位图,提供交互式装置进行位图重绘,让设计师通过手写的形式,指定汉字专属微调扩散模型推理的底图,让模型推理得到扩展补充字符集。
9.一种中文字库生成装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8中任一项所述的中文字库生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310995934.2A CN116975344B (zh) | 2023-08-09 | 2023-08-09 | 一种基于Stable Diffusion的中文字库生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310995934.2A CN116975344B (zh) | 2023-08-09 | 2023-08-09 | 一种基于Stable Diffusion的中文字库生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975344A CN116975344A (zh) | 2023-10-31 |
CN116975344B true CN116975344B (zh) | 2024-01-23 |
Family
ID=88471283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310995934.2A Active CN116975344B (zh) | 2023-08-09 | 2023-08-09 | 一种基于Stable Diffusion的中文字库生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975344B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116416342A (zh) * | 2023-06-12 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和计算机可读存储介质 |
CN116484215A (zh) * | 2023-03-13 | 2023-07-25 | 达而观信息科技(上海)有限公司 | 基于扩散模型的文本生成模型训练、文字生成方法和装置 |
CN116524299A (zh) * | 2023-05-04 | 2023-08-01 | 中国兵器装备集团自动化研究所有限公司 | 一种图像样本生成方法、装置、设备及存储介质 |
-
2023
- 2023-08-09 CN CN202310995934.2A patent/CN116975344B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484215A (zh) * | 2023-03-13 | 2023-07-25 | 达而观信息科技(上海)有限公司 | 基于扩散模型的文本生成模型训练、文字生成方法和装置 |
CN116524299A (zh) * | 2023-05-04 | 2023-08-01 | 中国兵器装备集团自动化研究所有限公司 | 一种图像样本生成方法、装置、设备及存储介质 |
CN116416342A (zh) * | 2023-06-12 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116975344A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aksan et al. | Deepwriting: Making digital ink editable via deep generative modeling | |
Chang et al. | Generating handwritten chinese characters using cyclegan | |
CN107644006B (zh) | 一种基于深度神经网络的手写体中文字库自动生成方法 | |
Wang et al. | Attribute2font: Creating fonts you want from attributes | |
Ren et al. | Two-stage sketch colorization with color parsing | |
CN112633430A (zh) | 一种中文字体风格迁移方法 | |
CN112784531B (zh) | 一种基于深度学习和部件拼接的中文字形及字库生成方法 | |
Lin et al. | Font generation based on least squares conditional generative adversarial nets | |
Zhang et al. | SSNet: Structure-Semantic Net for Chinese typography generation based on image translation | |
Ko et al. | Korean font synthesis with GANs | |
Liu et al. | Decoupled representation learning for character glyph synthesis | |
Liu et al. | FontTransformer: Few-shot high-resolution Chinese glyph image synthesis via stacked transformers | |
Zhang et al. | Visual knowledge guided intelligent generation of Chinese seal carving | |
CN116975344B (zh) | 一种基于Stable Diffusion的中文字库生成方法及装置 | |
CN111161266B (zh) | 一种基于矢量量化的变分自编码机的多风格字体生成方法 | |
Lan et al. | Unsupervised style-guided cross-domain adaptation for few-shot stylized face translation | |
Liu et al. | Dual-modality learning and transformer-based approach for high-quality vector font generation | |
Zhang et al. | Sketch-Guided Text-to-Image Generation with Spatial Control | |
CN114861595B (zh) | 一种基于矢量线条变换的个性字体生成方法 | |
CN116484858A (zh) | 基于扩散模型的文本摘要生成方法 | |
CN114037644B (zh) | 一种基于生成对抗网络的艺术字图像合成系统及方法 | |
Kumar et al. | Computer Vision and Creative Content Generation: Text-to-Sketch Conversion | |
Matsuda et al. | Font generation with missing impression labels | |
Kalingeri et al. | Synthesis of Human-Inspired Intelligent Fonts Using Conditional-DCGAN | |
Fujita et al. | Perceptual font manifold from generative model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |