CN113761831B - 风格书法生成方法、装置、设备及存储介质 - Google Patents
风格书法生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113761831B CN113761831B CN202011269760.4A CN202011269760A CN113761831B CN 113761831 B CN113761831 B CN 113761831B CN 202011269760 A CN202011269760 A CN 202011269760A CN 113761831 B CN113761831 B CN 113761831B
- Authority
- CN
- China
- Prior art keywords
- style
- font image
- target
- original
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008451 emotion Effects 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/171—Editing, e.g. inserting or deleting by use of digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种风格书法生成方法、装置、设备及存储介质,通过获取原始字体图像集合,利用至少两个相同风格的编码器分别对原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果,将每个原始字体图像对应的目标编码结果输入到解码器中,最后生成原始字体图像集合对应的目标字体图像集合。该技术方案中,通过至少两个相同风格的编码器对输入的原始字体图像进行编码,输出该风格不同的字体图像,实现了书法生成风格的多样化。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种风格书法生成方法、装置、设备及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术在艺术创作等多个领域中的蓬勃发展,诗歌生成、经典或流行音乐、以及图像生成等创作也乘上了AI发展的高速列车。其中,AI书法生成是计算机通过学习书法家的书法作品,自动生成模拟书法家书法的字体。
目前,AI书法生成方式主要是将字体的笔画参数化,从而捕获到个人书法字体的空间布局特征,根据个人字体和标准字体笔画的布局差异,得到模仿笔画的空间布局,并生成对该字体模仿的结果。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:上述方式中忽略了书法创作中书法字体的结构复杂性、情绪风格多样化、以及字体不可复制性,无法高效、准确的拼接生成高质量的书法字体。
发明内容
本申请提供一种风格书法生成方法、装置、设备及存储介质,用以解决现有书法生成无法生成情绪风格化多样性的书法字体的问题。
第一方面,本申请实施例提供一种风格书法生成方法,包括:
获取原始字体图像集合;
利用至少两个相同风格的编码器分别对所述原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果;
将每个原始字体图像对应的目标编码结果输入到解码器中,生成所述原始字体图像集合对应的目标字体图像集合。
利用预先训练的风格判别器对每个目标字体图像中的字体图像进行情感分析,确定每个目标字体图像所属的情感样式。
在第一方面的一种可能设计中,所述至少两个相同风格的编码器包括:主风格编码器和至少一个辅助风格编码器;
所述利用至少两个相同风格的编码器分别对所述原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果,包括:
针对所述原始字体图像集合中的每个原始字体图像,利用所述至少两个相同风格的编码器分别对所述原始字体图像进行编码,得到所述主风格编码器对应的主编码结果和所述至少一个辅助风格编码器对应的至少一个辅助编码结果;
根据预先配置的每种风格编码器的编码权重系数、所述主编码结果和所述至少一个辅助编码结果,得到所述原始字体图像对应的目标编码结果。
可选的,所述主风格编码器的编码权重系数为大于或等于第一数值且小于1的正数,所述至少一个辅助风格编码器的编码权重系数和所述主风格编码器的编码权重系数的总和等于1。
可选的,所述每个情感样式包括至少一个目标字体图像。
在第一方面的另一种可能设计中,在所述利用预先训练的风格判别器对每个生成目标字体图像中的字体进行情感分析,确定每个生成目标字体图像所属的情感样式之前,所述方法还包括:
获取源域字体图像和多个情感样式的目标域字体图像;
根据所述源域字体图像和所述目标域字体图像,得到混合样式数据集合;
利用所述混合样式数据集合对初始判别器进行训练,直至训练后的所述风格判别器能够正确区分所述混合样式数据集合中每个字体图像所属的情感样式。
在第一方面的再一种可能设计中,利用真假判别器分别对所述目标字体图像集合中每个目标字体图像进行真假判别,确定出所述目标字体图像集合中的所有生成目标字体图像。
第二方面,本申请提供一种风格书法生成装置,该装置包括:获取模块、处理模块和生成模块。
所述获取模块,用于获取原始字体图像集合;
所述处理模块,用于利用至少两个相同风格的编码器分别对所述原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果;
所述生成模块,用于将每个原始字体图像对应的目标编码结果输入到解码器中,生成所述原始字体图像集合对应的目标字体图像集合;
所述处理模块,还用于利用预先训练的风格判别器对每个目标字体图像中的字体进行情感分析,确定每个目标字体图像所属的情感样式。
在第二方面的一种可能设计中,所述至少两个相同风格的编码器包括:主风格编码器和至少一个辅助风格编码器;
所述处理模块,具体用于:
针对所述原始字体图像集合中的每个原始字体图像,利用所述至少两个相同风格的编码器分别对所述原始字体图像进行编码,得到所述主风格编码器对应的主编码结果和所述至少一个辅助风格编码器对应的至少一个辅助编码结果;
根据预先配置的每种风格编码器的编码权重系数、所述主编码结果和所述至少一个辅助编码结果,得到所述原始字体图像对应的目标编码结果。
可选的,所述主风格编码器的编码权重系数为大于或等于第一数值且小于1的正数,所述至少一个辅助风格编码器的编码权重系数和所述主风格编码器的编码权重系数的总和等于1。
可选的,每种情感样式的目标字体图像包括至少一种形状的目标字体图像。
在第二方面的另一种可能设计中,所述获取模块,还用于在所述利用预先训练的风格判别器对每个生成目标字体图像中的字体进行情感分析,确定每个生成目标字体图像所属的情感样式之前,获取源域字体图像和多个情感样式的目标域字体图像;
所述处理模块,还用于:
根据所述源域字体图像和所述目标域字体图像,得到混合样式数据集合;
利用所述混合样式数据集合对初始判别器进行训练,直至训练后的所述风格判别器能够正确区分所述混合样式数据集合中每个字体图像所属的情感样式。
在第二方面的再一种可能设计中,所述处理模块,还用于利用真假判别器分别对所述目标字体图像集合中每个目标字体图像进行真假判别,确定出所述目标字体图像集合中的所有生成目标字体图像。
第三方面,本申请提供一种电子设备,包括:处理器、存储器、显示器及系统总线;
所述存储器存储计算机执行指令;
所述处理器执行所述计算机程序指令时实现第一方面以及各可能设计提供的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令被处理器执行时用于实现第一方面以及各可能设计提供的方法。
本申请实施例提供的风格书法生成方法、装置、设备及存储介质,通过获取原始字体图像集合,利用至少两个相同风格的编码器分别对原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果,将每个原始字体图像对应的目标编码结果输入到解码器中,生成原始字体图像集合对应的目标字体图像集合,最后通过风格判别器和真假判别器对生成的字体图像进行风格判别和真假判别。该技术方案中,通过至少两个相同风格的编码器对输入的原始字体图像进行编码,输出不同风格的字体图像,实现了书法生成风格的多样化,以及实现了对生成的书法的分类。
附图说明
图1为本申请实施例提供的风格书法生成方法的应用场景示意图;
图2为本申请实施例提供的风格书法生成方法实施例一的流程图;
图3为本申请实施例提供的风格书法生成方法实施例二的流程图;
图4为本申请实施例提供的风格书法生成方法实施例三的流程图;
图5为本申请实施例提供的风格书法生成方法实施例四的流程图
图6为本申请实施例提供的风格书法生成装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例涉及的专业术语及其缩写进行介绍:
生成式对抗网络(Generative Adversarial Networks,GAN):是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中两个模块:判别器(Discriminator)和生成器(Generator)的互相博弈学习,进而产生输出。
编码器(Encoder):将信号或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。
解码器(Decoder):将信息从编码的形式恢复到其原来形式的器件。
在介绍本申请的实施例之前,首先对本申请的背景技术进行解释说明。
随着智能技术的不断发展,衍生出应用于计算机的人工智能(ArtificialIntelligence,AI)书法,计算机通过学习书法家作品,自动生成模拟书法家的字体,进而为人们的学习、交流提供不同风格的语言。
常见的AI书法生成有两种方式,如下所述:
一是基于笔画规则生成书法,具体的,通过将笔画参数化从而捕获到个人书法字体的空间布局特征,计算机根据个人字体和标准字体笔画的布局差异,得到模仿笔画的空间布局,并生成对该字体模仿的结果。
二是基于GAN深度学习方法生成书法,具体的,利用各种结构的GAN神经、标准字体图片、目标字体图片的数据集进行训练,在得到收敛后的对抗生成网络后,计算机将完整的标准字体输入到训练后的对抗生成网络中得到完整的目标字库。
然而,这两种方式忽视了书法创作的最主要的特点—书法创作的多样化,具体为书法的情绪风格化和不可复制性。
书法的情绪风格化:书法是有温度的,文字间蕴含着作者的情感,该情感表达也影响着书法风格和美感的体现,因此不同情感状态下写出来的书法作品是不同的。例如,作者在狂喜状态下,创作出的文字多为连笔,笔画轻快,而其在平静状态下创作出的文字大多笔画清晰,容易辨认;书法的不可复制性:在实际书写过程中,即使针对同一个字,没有人可以重复创写出两个完全一样的字。
针对书法的情绪风格化和不可复制性,现有技术存在以下问题:一是基于笔画规则生成书法的方法,由于书法字体的结构复杂,连笔情况很多,因此在捕获个人书法字体的空间布局特征时,准确度较低,从而拼接生成的书法字体质量也很难得到保证;二是基于GAN深度学习方法生成的字体,虽然质量较好,但是无法完成生成丰富多样性的字体,具体是因为:1),没有考虑情感风格变化,每个模型只能生成冷冰冰的单一字形,比如从标准楷体到柳宗元体,或从楷体到魏体,这些不能根据情绪变化来转化书写的风格,同时即使训练多个模型(楷体到狂喜体,或楷体到平静体),也无法体现情感的明显差异和相互关联;2),现有的GAN模型在生成过程中,针对已经保存的模型,使用相同输入生成的结果是一成不变的,也无法体现书法的多样性。
进一步地,以往生成显著情感风格化的书法字体的模型多是one-to-one,即,标准字体到单一书法字体的模型,各类书法字体间没有相互联系,无法对字体间共同的特征进行学习,也无法显著区分不同的不同字体。而使用one-to-many,即,标准字体到多种书法字体的模型,虽然能够保证多种风格的共同特征学习,但其生成能力较弱,往往每种字体的生成效果都很差,远不如one-to-one生成的效果。
而以往图像生成时,由于使用静态的已经保存好的单一模型,所以在给定相同输入时,预测生成的书法图像也是相同的,无法生成不同的字。
在上述现有技术存在的问题基础上,图1为本申请实施例提供的风格书法生成方法的应用场景示意图。该应用场景以楷体“宿”生成不同“悲愤体”情感风格的“宿”为例进行说明,用以解决上述问题。如图1所示,该示意图可以包括:编码器10、解码器11、真假判别器12、风格判别器13、原始字体图像集合14、目标字体图像集合15和混合样式数据集合16。
其中,编码器10包括主风格编码器101和多个辅助风格编码器102,原始字体图像集合14为Scr data,目标字体图像集合15为Tgt data,以及混合样式数据集合16为Mixdata。
示例性的,编码器10中的主风格编码器101和多个辅助风格编码器102对获取到的原始字体图像集合14中的楷体“宿”,进行训练,预生成“悲愤体”的“宿”,然后利用解码器11输出不同的“宿”,即,获得不同“悲愤体”的“宿”,通过真假判别器12对训练好的“宿”进行判别,确定出目标字体图像集合15中的所有生成的目标字体图像,且风格判别器13对不同的“宿”,通过与混合样式数据集合16中的字体图像特征,进行判别,确定不同“宿”的具体样式,真假判别器12对不同的“宿”,通过与目标字体图像集合15中的字体图像特征,进行判别,确定出目标字体图像集合中的所有生成目标字体图像。
可选的,风格判别器13对生成的不同情感的“宿”判别,可以获得两个不同“悲愤体”的“宿”。
本申请实施例针对现有技术中存在的书法生成单一,且生成的书法不具备情感风格的问题,发明人的技术构思过程如下:发明人发现基于GAN系统中的现有编码器,可以添加多个辅助编码器对输入字体图像进行编码,输出相同风格的不同字体图像,再通过添加的风格判别器对生成的字体图像进行判别,以获取具有多样性的书法创作。
基于上述技术构思,本申请提供了一种风格书法生成方法,通过获取原始字体图像集合,利用至少两个相同风格的编码器分别对原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果,再将每个原始字体图像对应的目标编码结果输入到解码器中,生成原始字体图像集合对应的目标字体图像集合。该技术方案中,通过至少两个相同风格的编码器对输入的原始字体图像进行编码,输出相同风格的不同字体图像,实现了书法生成风格的多样化。
下面以图1所示的应用场景,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的风格书法生成方法实施例一的流程图。如图2所示,本申请实施例提供的书法生成方法可以包括如下步骤:
步骤21、获取原始字体图像集合。
示例性的,用户有书法生成需求时,首先可以获取原始字体图像集合。可选的,该原始字体图像集合可以是一幅画或一首诗,或者一句话等,本申请实施例并不对原始字体图像集合的具体表现形式进行限定。
例如,在原始字体图像集合中预先存储有包括楷体“宿”在内的多种字体图像。编码器从原始字体图像集合中获取需要生成多样化的字体图像。
可选的,对原始字体图像集合中的楷体“宿”为例对本申请技术方案进行说明。
步骤22、利用至少两个相同风格的编码器分别对原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果。
示例性的,已经从原始字体图像集合中获取需要生成多样化的字体图像的楷体“宿”,此处以三个相同风格编码器生成不同“悲愤体”的“宿”为例说明。值得说明的是,也可以利用其它至少两个相同风格编码器生成其它风格不同的字体图像,此处只做举例,不做赘述。
可选的,为了获得不同“悲愤体”的“宿”,三种相同风格编码器分别对楷体“宿”进行编码,对编码的结果相互融合,然后得到楷体“宿”对应的三种不同“悲愤体”的“宿”的编码结果。
可选的,该三种相同风格编码器为三种具有“悲愤体”风格特征的编码器。
步骤23、将每个原始字体图像对应的目标编码结果输入到解码器中,生成原始字体图像集合对应的目标字体图像集合。
示例性的,将获得的三种不同“悲愤体”的“宿”的编码结果输入到解码器中,解码器对编码结果进行解码,生成三种不同“悲愤体”的“宿”,这三种不同“悲愤体”的“宿”为原始字体图像集合对应的目标字体图像集合。
本实施例提供的风格书法生成方法,通过获取原始字体图像集合,利用至少两个相同风格的编码器分别对原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果,再将每个原始字体图像对应的目标编码结果输入到解码器中,生成原始字体图像集合对应的目标字体图像集合,该技术方案,实现了风格书法生成的多样性。
在上述实施例的基础上,图3为本申请实施例提供的风格书法生成方法实施例二的流程图。其中,至少两个相同风格的编码器包括:主风格编码器和至少一个辅助风格编码器,此处以主风格编码器和两个辅助风格编码器为例说明。如图3所示,上述步骤22可以通过如下步骤实现:
步骤31、针对原始字体图像集合中的每个原始字体图像,利用至少两个相同风格的编码器分别对原始字体图像进行编码,得到主风格编码器对应的主编码结果和至少一个辅助风格编码器对应的至少一个辅助编码结果。
示例性的,针对从原始字体图像集合中获取到的楷体“宿”,主风格编码器和两个辅助风格编码器分别对楷体“宿”进行编码,得到主风格编码器对应的主编码结果和两个辅助风格编码器对应的两个辅助编码结果。
可选的,主风格编码器和两个辅助风格编码器根据预先设置好的模型,进行编码,设置好的模型具有悲愤体的特征。
可选的,在对编码器进行训练的过程中,可以训练三个不同初始值的辅助模型参数,同时选择测试集上性能最好的模型作为基础模型,即主风格编码器,其它两个为辅助风格编码器。
步骤32、根据预先配置的每种风格编码器的编码权重系数、主编码结果和至少一个辅助编码结果,得到原始字体图像对应的目标编码结果。
示例性的,主风格编码器和两个辅助风格编码器生成三种不同的编码结果,对三种不同的编码结果进行融合。
示例性的,设置主风格编码器的编码权重系数,该编码权重系数设置为大于或等于第一数值且小于1的正数,对其他两种辅助风格编码器分别设置的编码权重系数之和与主风格编码器的编码权重系数的总和等于1。
可选的,编码权重系数为每次编码融合过程中产生的随机变量,其中,主风格编码器的编码权重系数取值范围为[80%,100%],辅助风格编码器的编码权重系数之和为[100%80%,0]。随机的调整编码权重系数,解码器生成相同风格的不同书法图像。
可选的,每种情感样式的目标字体图像包括至少一种形状的目标字体图像,即,根据三种不同的编码结果进行融合之后,解码器可以生成多个悲愤体的“宿”。
具体的,若生成的字体为悲愤体“宿”,则主风格编码器的编码权重系数可以是95%,其他两种辅助风格编码器的编码权重系数可以分别是2%和3%。
可选的,若生成的字体为另一种悲愤体“宿”,则主风格编码器的编码权重系数可以为95%,其他两种辅助风格编码器的编码权重系数分别为4%和1%。
可选的,根据上述方式,本申请实施例可以获得两种悲愤体“宿”,该目标编码结果的计算公式为:
其中,为目标编码结果,/>为所有辅助风格编码器的编码权重系数之和,即,,/>为主风格编码器的编码权重系数,/>为主风格编码器的编码结果,/>为第/>个辅助风格编码器的编码结果,/>为第/>个辅助风格编码器的编码权重系数,r为辅助风格编码器的数量,且r为大于或等于1的整数。
本实施例提供的风格书法生成方法,针对原始字体图像集合中的每个原始字体图像,利用至少两个相同风格的编码器分别对原始字体图像进行编码,得到主风格编码器对应的主编码结果和至少一个辅助风格编码器对应的至少一个辅助编码结果,再根据预先配置的每种风格编码器的编码权重系数、主编码结果和至少一个辅助编码结果,得到原始字体图像对应的目标编码结果。该技术方案中,通过给各个编码器设置编码权重系数的方法,为解码器生成样多化的字体图画提供了基础。
在上述实施例的基础上,图4为本申请实施例提供的风格书法生成方法实施例三的流程图。如图4所示,在步骤23之后,该方法还包括如下步骤:
步骤41、利用预先训练的风格判别器对每个目标字体图像中的字体进行情感分析,确定每个目标字体图像所属的情感样式。
示例性的,用预先训练好的风格判别器分别对生成的不同“悲愤体”的“宿”提取特征,进行情感分析,确定每个字体“宿”分别对应的情感样式,将不同情感对应的字体进行分类。
步骤42、利用真假判别器分别对目标字体图像集合中每个目标字体图像进行真假判别,确定出目标字体图像集合中的所有生成目标字体图像。
示例性的,利用真假判别器,对目标字体图像集合中的各个情感风格的特征与生成的“悲愤体”的“宿”进行判别,确定目标字体图像集合中的所有生成目标字体图像是否为真实的,具有一致性的,具体判别方式此处不再赘述。
本实施例提供的风格书法生成方法,通过利用预先训练的风格判别器对每个目标字体图像中的字体进行情感分析,确定每个目标字体图像所属的情感样式,以及利用真假判别器分别对目标字体图像集合中每个目标字体图像进行真假判别,确定出目标字体图像集合中的所有生成目标字体图像。该技术方案中,通过风格判别器与真假判别器分别确定了生成字体图画的具体风格以及真实度。
在上述实施例的基础上,图5为本申请实施例提供的风格书法生成方法实施例四的流程图。如图5所示,在步骤41之前,该方法还包括如下步骤:
步骤51、获取源域字体图像和多个情感样式的目标域字体图像。
示例性的,在获得两种悲愤体“宿”之后,获取源域字体图像中楷体的“宿”的特征与目标域字体图像中的各个情感风格的特征。
步骤52、根据源域字体图像和目标域字体图像,得到混合样式数据集合。
示例性的,根据获取到的源域字体图像中楷体的“宿”的特征与目标域字体图像中的各个情感风格的特征,将所有的特征放入到混合样式数据集合。
步骤53、利用混合样式数据集合对初始判别器进行训练,直至训练后的风格判别器能够正确区分混合样式数据集合中每个字体图像所属的情感样式。
示例性的,利用获得的混合样式数据集合,对初始判别器进行训练,使得风格判别器能够正确区分混合样式数据集合中不同“宿”的风格类型。
可选的,当风格判别器判定生成的“宿”是悲愤体的概率越高,则该“宿”更像悲愤体,而不能分类为狂喜体或平静体。
具体的,不同风格的损失函数表达式为:
其中,为风格判别器对从混合样式数据集合中取出来的图像的类别判断概率(例如,从混合样式数据集合中抽出一个“悲愤体”风格的字,风格判别器判断该字属于“悲愤体”的概率),/>为风格判别器对生成的图像判断为其目标域字体图像类别的概率(例如,目标字体图像为“悲愤体”的“宿”,风格判别器判断该图像为“悲愤体”的概率),/>为风格判别器的损失函数,/>为概率的对数(例如,上述概率是0.001,取/>后成/>3,方便计算),E表示该公式为损失函数。
可选的,为上述两种概率之和的相反数,其值越大,说明生成的字体为“悲愤体”的概率越高。
本实施例提供的风格书法生成方法,获取源域字体图像和多个情感样式的目标域字体图像,再根据源域字体图像和目标域字体图像,得到混合样式数据集合,然后利用混合样式数据集合对初始判别器进行训练,直至训练后的风格判别器能够正确区分混合样式数据集合中每个字体图像所属的情感样式,确定出目标字体图像集合中的所有生成目标字体图像。该技术方案中,对生成的字体进行风格判定以及真假判定,保证了解码器输出字体图像的多样性以及一致性。
图6为本申请实施例提供的风格书法生成装置的结构示意图。如图6所示,该装置包括获取模块61、处理模块62和生成模块63。
获取模块61,用于获取原始字体图像集合;
处理模块62,用于利用至少两个相同风格的编码器分别对原始字体图像集合中的每个原始字体图像进行编码和编码结果融合,得到每个原始字体图像对应的目标编码结果;
生成模块63,用于将每个原始字体图像对应的目标编码结果输入到解码器中,生成原始字体图像集合对应的目标字体图像集合。
在本申请实施例一种可能设计中,至少两个相同风格的编码器包括:主风格编码器和至少一个辅助风格编码器;
处理模块62,具体用于:
针对原始字体图像集合中的每个原始字体图像,利用至少两个相同风格的编码器分别对原始字体图像进行编码,得到主风格编码器对应的主编码结果和至少一个辅助风格编码器对应的至少一个辅助编码结果;
根据预先配置的每种风格编码器的编码权重系数、主编码结果和至少一个辅助编码结果,得到原始字体图像对应的目标编码结果。
可选的,主风格编码器的编码权重系数为大于或等于第一数值且小于1的正数,至少一个辅助风格编码器的编码权重系数和主风格编码器的编码权重系数的总和等于1。
可选的,每种情感样式的目标字体图像包括至少一种形状的目标字体图像。
在本申请实施例另一种可能设计中,获取模块61,还用于在利用预先训练的风格判别器对每个生成目标字体图像中的字体进行情感分析,确定每个生成目标字体图像所属的情感样式之前,获取源域字体图像和多个情感样式的目标域字体图像;
处理模块62,还用于:
根据源域字体图像和目标域字体图像,得到混合样式数据集合;
利用混合样式数据集合对初始判别器进行训练,直至训练后的风格判别器能够正确区分混合样式数据集合中每个字体图像所属的情感样式。
在本申请实施例再一种可能设计中,处理模块62,还用于利用真假判别器分别对目标字体图像集合中每个目标字体图像进行真假判别,确定出目标字体图像集合中的所有生成目标字体图像。
本实施例提供的风格书法生成装置,可用于执行上述实施例中的方案,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk,SSD)等。
图7为本申请实施例提供的电子设备的结构示意图。如图7所示,该设备可以包括:处理器71、存储器72、显示器73、系统总线74。
处理器71执行存储器存储的计算机执行指令,使得处理器71执行上述实施例中的方案。
处理器71可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器72存储计算机执行指令,显示器73用于显示处理器71的处理结果以及和人机交互,存储器72、显示器73通过系统总线74与处理器72连接并完成相互间的通信。
系统总线74可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
本申请实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中的方案。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述实施例的方案。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现上述实施例中的方案。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (14)
1.一种风格书法生成方法,其特征在于,包括:
获取原始字体图像集合;
针对所述原始字体图像集合中的每个原始字体图像,利用至少两个相同风格的编码器分别对所述原始字体图像进行编码;所述至少两个相同风格的编码器包括:主风格编码器和至少一个辅助风格编码器;得到所述主风格编码器对应的主编码结果和所述至少一个辅助风格编码器对应的至少一个辅助编码结果;
根据预先配置的每种风格编码器的编码权重系数、所述主编码结果和所述至少一个辅助编码结果,得到所述原始字体图像对应的目标编码结果;
将每个原始字体图像对应的目标编码结果输入到解码器中,生成所述原始字体图像集合对应的目标字体图像集合。
2.根据权利要求1所述的方法,其特征在于,所述主风格编码器的编码权重系数为大于或等于第一数值且小于1的正数,所述至少一个辅助风格编码器的编码权重系数和所述主风格编码器的编码权重系数的总和等于1。
3.根据权利要求1所述的方法,其特征在于,在所述将每个原始字体图像对应的目标编码结果输入到解码器中,生成所述原始字体图像集合对应的目标字体图像集合之后,所述方法还包括:
利用预先训练的风格判别器对每个目标字体图像中的字体进行情感分析,确定每个目标字体图像所属的情感样式。
4.根据权利要求3所述的方法,其特征在于,在所述利用预先训练的风格判别器对每个生成目标字体图像中的字体进行情感分析,确定每个生成目标字体图像所属的情感样式之前,所述方法还包括:
获取源域字体图像和多个情感样式的目标域字体图像;
根据所述源域字体图像和所述目标域字体图像,得到混合样式数据集合;
利用所述混合样式数据集合对初始判别器进行训练,直至训练后的所述风格判别器能够正确区分所述混合样式数据集合中每个字体图像所属的情感样式。
5.根据权利要求3或4所述的方法,其特征在于,每种情感样式的目标字体图像包括至少一种形状的目标字体图像。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
利用真假判别器分别对所述目标字体图像集合中每个目标字体图像进行真假判别,确定出所述目标字体图像集合中的所有生成目标字体图像。
7.一种风格书法生成装置,其特征在于,包括:获取模块、处理模块和生成模块;
所述获取模块,用于获取原始字体图像集合;
所述处理模块,用于针对所述原始字体图像集合中的每个原始字体图像,利用至少两个相同风格的编码器分别对所述原始字体图像进行编码;所述至少两个相同风格的编码器包括:主风格编码器和至少一个辅助风格编码器;得到所述主风格编码器对应的主编码结果和所述至少一个辅助风格编码器对应的至少一个辅助编码结果;
根据预先配置的每种风格编码器的编码权重系数、所述主编码结果和所述至少一个辅助编码结果,得到所述原始字体图像对应的目标编码结果;
所述生成模块,用于将每个原始字体图像对应的目标编码结果输入到解码器中,生成所述原始字体图像集合对应的目标字体图像集合。
8.根据权利要求7所述的装置,其特征在于,所述主风格编码器的编码权重系数为大于或等于第一数值且小于1的正数,所述至少一个辅助风格编码器的编码权重系数和所述主风格编码器的编码权重系数的总和等于1。
9.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于在所述生成模块将每个原始字体图像对应的目标编码结果输入到解码器中,生成所述原始字体图像集合对应的目标字体图像集合之后,利用预先训练的风格判别器对每个目标字体图像中的字体进行情感分析,确定每个目标字体图像所属的情感样式。
10.根据权利要求8所述的装置,其特征在于,所述获取模块,还用于在所述处理模块利用预先训练的风格判别器对每个生成目标字体图像中的字体进行情感分析,确定每个生成目标字体图像所属的情感样式之前,获取源域字体图像和多个情感样式的目标域字体图像;
所述处理模块,还用于:
根据所述源域字体图像和所述目标域字体图像,得到混合样式数据集合;
利用所述混合样式数据集合对初始判别器进行训练,直至训练后的所述风格判别器能够正确区分所述混合样式数据集合中每个字体图像所属的情感样式。
11.根据权利要求9或10所述的装置,其特征在于,每种情感样式的目标字体图像包括至少一种形状的目标字体图像。
12.根据权利要求7-10任一项所述的装置,其特征在于,所述处理模块,还用于利用真假判别器分别对所述目标字体图像集合中每个目标字体图像进行真假判别,确定出所述目标字体图像集合中的所有生成目标字体图像。
13.一种电子设备,其特征在于,包括:
处理器、存储器、显示器及系统总线;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行权利要求1-6任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011269760.4A CN113761831B (zh) | 2020-11-13 | 2020-11-13 | 风格书法生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011269760.4A CN113761831B (zh) | 2020-11-13 | 2020-11-13 | 风格书法生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113761831A CN113761831A (zh) | 2021-12-07 |
CN113761831B true CN113761831B (zh) | 2024-05-21 |
Family
ID=78786003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011269760.4A Active CN113761831B (zh) | 2020-11-13 | 2020-11-13 | 风格书法生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761831B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599180A (zh) * | 2009-03-05 | 2009-12-09 | 浙江大学 | 基于字迹风格模仿的计算机书法自动生成方法 |
CN110276811A (zh) * | 2019-07-02 | 2019-09-24 | 厦门美图之家科技有限公司 | 图像转换方法、装置、电子设备及可读存储介质 |
CN110570481A (zh) * | 2019-07-31 | 2019-12-13 | 中国地质大学(武汉) | 基于风格迁移的书法字库自动修复方法及系统 |
CN111161266A (zh) * | 2019-12-06 | 2020-05-15 | 西安理工大学 | 一种基于矢量量化的变分自编码机的多风格字体生成方法 |
CN111242241A (zh) * | 2020-02-17 | 2020-06-05 | 南京理工大学 | 刻蚀字符识别网络训练样本增广方法 |
CN111553246A (zh) * | 2020-04-15 | 2020-08-18 | 山东大学 | 基于多任务对抗学习网络的汉字风格迁移方法及系统 |
WO2020168844A1 (en) * | 2019-02-19 | 2020-08-27 | Boe Technology Group Co., Ltd. | Image processing method, apparatus, equipment, and storage medium |
WO2023125361A1 (zh) * | 2021-12-29 | 2023-07-06 | 北京字跳网络技术有限公司 | 文字生成方法、装置、电子设备及存储介质 |
WO2023138498A1 (zh) * | 2022-01-20 | 2023-07-27 | 北京字跳网络技术有限公司 | 生成风格化图像的方法、装置、电子设备及存储介质 |
-
2020
- 2020-11-13 CN CN202011269760.4A patent/CN113761831B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599180A (zh) * | 2009-03-05 | 2009-12-09 | 浙江大学 | 基于字迹风格模仿的计算机书法自动生成方法 |
WO2020168844A1 (en) * | 2019-02-19 | 2020-08-27 | Boe Technology Group Co., Ltd. | Image processing method, apparatus, equipment, and storage medium |
CN110276811A (zh) * | 2019-07-02 | 2019-09-24 | 厦门美图之家科技有限公司 | 图像转换方法、装置、电子设备及可读存储介质 |
CN110570481A (zh) * | 2019-07-31 | 2019-12-13 | 中国地质大学(武汉) | 基于风格迁移的书法字库自动修复方法及系统 |
CN111161266A (zh) * | 2019-12-06 | 2020-05-15 | 西安理工大学 | 一种基于矢量量化的变分自编码机的多风格字体生成方法 |
CN111242241A (zh) * | 2020-02-17 | 2020-06-05 | 南京理工大学 | 刻蚀字符识别网络训练样本增广方法 |
CN111553246A (zh) * | 2020-04-15 | 2020-08-18 | 山东大学 | 基于多任务对抗学习网络的汉字风格迁移方法及系统 |
WO2023125361A1 (zh) * | 2021-12-29 | 2023-07-06 | 北京字跳网络技术有限公司 | 文字生成方法、装置、电子设备及存储介质 |
WO2023138498A1 (zh) * | 2022-01-20 | 2023-07-27 | 北京字跳网络技术有限公司 | 生成风格化图像的方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Ruixue L.等.MaLiang: An Emotion-driven Chinese Calligraphy Artwork Composition System.MM'20: Proceedings of the 28th ACM International Conference on Multimedia.2020,全文. * |
基于生成对抗网络的风格化书法图像生成;王晓红;卢辉;麻祥才;;包装工程;20200610(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113761831A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
CN116935169B (zh) | 文生图模型训练方法以及文生图方法 | |
CN111667066B (zh) | 网络模型的训练、文字识别方法、装置和电子设备 | |
CN112115267A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
WO2023072067A1 (zh) | 人脸属性编辑模型的训练以及人脸属性编辑方法 | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN117149989A (zh) | 大语言模型训练方法、文本处理方法及装置 | |
CN116721334B (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
Chen et al. | Video emotion recognition in the wild based on fusion of multimodal features | |
CN109670559A (zh) | 手写汉字的识别方法、装置、设备和存储介质 | |
CN114821196A (zh) | 零样本图像识别方法及其识别装置、介质与计算机终端 | |
CN111598153A (zh) | 数据聚类的处理方法、装置、计算机设备和存储介质 | |
CN110363830A (zh) | 元素图像生成方法、装置及系统 | |
Zeilinger | Generative adversarial copy machines | |
Huo et al. | A Study of Artificial Intelligence‐Based Poster Layout Design in Visual Communication | |
CN113962192A (zh) | 汉字字体生成模型的生成方法、汉字字体生成方法及装置 | |
CN113761831B (zh) | 风格书法生成方法、装置、设备及存储介质 | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
Ardhianto et al. | Generative deep learning for visual animation in landscapes design | |
CN116702746A (zh) | 跨平台多主题的讽刺及动因识别方法、装置、设备及介质 | |
US11934793B2 (en) | System and method for content comprehension and response | |
Tian et al. | Attentional generative adversarial networks with representativeness and diversity for generating text to realistic image | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |