CN110033054B - 基于协同笔画优化的个性化手写体迁移方法和系统 - Google Patents
基于协同笔画优化的个性化手写体迁移方法和系统 Download PDFInfo
- Publication number
- CN110033054B CN110033054B CN201910195271.XA CN201910195271A CN110033054B CN 110033054 B CN110033054 B CN 110033054B CN 201910195271 A CN201910195271 A CN 201910195271A CN 110033054 B CN110033054 B CN 110033054B
- Authority
- CN
- China
- Prior art keywords
- target
- chinese characters
- branch
- font
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013508 migration Methods 0.000 title claims abstract description 31
- 230000005012 migration Effects 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000013519 translation Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008485 antagonism Effects 0.000 claims description 2
- 230000006740 morphological transformation Effects 0.000 claims description 2
- 230000036961 partial effect Effects 0.000 claims description 2
- 230000008719 thickening Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 239000010410 layer Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明提供了一种基于协同笔画优化的个性化手写体迁移方法和系统,该方法,包括:根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。从而实现依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字,甚至能够做到个性化手写字体定制,能够快速、准确、逼真地生成目标字体。
Description
技术领域
本发明涉及计算机视觉和图像处理技术领域,具体地,涉及基于协同笔画优化的个性化手写体迁移方法和系统。
背景技术
字体是媒体内容创意的重要组成部分,在当代社会各种视觉传达设计中得到广泛的应用,满足了大众传媒的多方位、多层面的需求。一套中文字体的开发需要投入大量的人力和时间成本。不同于仅包含52个字符的英文字母(涵盖大小写),目前,最低标准的汉字编码字符集——GB2312-80国标码中共选入了6763个汉字(包含一级常用汉字3755个,二级次常用汉字3008个)。因此,如何提高字体设计的效率,降低时间和人力成本是一个非常值得研究的现实问题。
一直以来,自动化的字体生成被认为是解决该问题的主要技术手段。目前研究最多的是基于汉字分解和笔画重组的自动化字体生成方法。这类方法依赖一系列传统的算法对已设计好的(或手写好的)汉字进行结构化分解,提取出笔画、部首等零部件,然后利用对零部件的重组去合成全套字库。由于基于汉字分解和笔画重组的方法仍然过于繁琐,近年来,少数研究开始着重于利用深度学习的优势,将自动化字体生成任务建模成基于图像转换的字体生成任务。
但是,现有的方法主要由如下两个局限:现有基于图像转换的字体生成模型都没有考虑在模型中引入对汉字笔画进行优化的过程或模块;大多数已有的字体生成方法都依赖于大量的配对训练样本(3000对)来学习,并不能大幅度降低时间和人力成本,实用性并不强。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于协同笔画优化的个性化手写体迁移方法和系统。
第一方面,本发明实施例一种基于协同笔画优化的个性化手写体迁移方法,包括:
根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。
可选地,在根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理之前,还包括:
构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
可选地,构建源字体集合,包括:
选择一批固定的汉字构成源字体集合,经过挑选,可选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
可选地,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
可选地,根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字,包括:
所述目标分支和所述优化分支共享的部分卷积层构成编码器和解码器,其中,所述编码器通过一系列卷积操作将输入的汉字转换为尺度固定的三维特征向量,所述解码器用于将三维特征向量通过一系列解卷积和卷积操作解码为预设分辨率的特征图;
所述优化分支将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成加粗版本的目标字体汉字,将所述加粗版本的目标字体汉字作为所述目标分支输出的监督信息;将所述加粗版本的目标字体汉字通过形态学变换变细后在经过一层卷积,得到细化后的特征图,将所述细化后的特征图作为所述目标分支的补偿特征图;
所述目标分支将将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成初始目标字体汉字,所述目标分支以原始目标字体y1为监督信息;在解码的过程中,将优化分支的补偿特征图与初始目标字体汉字对应的特征图拼接,得到拼接特征图;再对所述拼接特征图进行解卷积和卷积操作,输出目标字体汉字。
可选地,所述判别器根据预设的判别标准,对目标分支输出的目标字体汉字进行判别,若判定结果为真,则输出1;若判定结果为假,则输出0;
所述损失函数包括如下损失函数项:
其中:表示第一支生成器G1的像素级损失,G1表示第一支生成器,表示当输入为x输出为y1时公式的数学期望,表示生成的目标字体,x表示迁移前的源字体,y1表示目标字体,D1表示第一判别器,表示第一支生成器和第一支判别器的对抗性损失,D1(x,y1)表示当输入为x和y1时第一支判别器的输出,E表示数学期望,D1(x,G1(x))表示当输入为x和G1(x)时第一支判别器的输出,G1(x)表示输入为x时第一支生成器的生成结果;
y2=f(y1)
其中:表示第二支生成器G2的像素级损失,G2表示第二支生成器,表示当输入为x输出为y2时公式的数学期望,y2表示目标字体的加粗版本,表示生成的加粗目标字体,表示第二支生成器和第二支判别器的对抗性损失,D2表示第二判别器,D2(x,y2)表示当输入为x和y2时第二支判别器的输出,D2(x,G2(x))表示当输入为x和G2(x)时第二支判别器的输出,G2(x)表示输入为x时第二支生成器的生成结果,f(y1)表示对y1进行加粗操作;
其中,x,y1和y2都经过缩放增强和预形变处理。
第二方面,本发明实施例提供一种基于协同笔画优化的个性化手写体迁移系统,包括:
预处理模块,用于根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
处理模块,用于将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。
可选地,还包括:
训练集构建模块,用于构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
训练模块,用于对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
可选地,所述训练集构建模块,具体用于:
选择一批固定的汉字构成源字体集合,经过挑选,可选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
可选地,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
与现有技术相比,本发明具有如下的有益效果:
本发明提供了一种基于协同笔画优化的个性化手写体迁移方法和系统,通过根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。从而实现依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字,甚至能够做到个性化手写字体定制,能够快速、准确、逼真地生成目标字体。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的基于协同笔画优化的个性化手写体迁移方法的流程图;
图2本发明印刷字体效果展示图;
图3本发明手写字体效果展示图;
图4为本发明实施例提供的训练方法的流程图;
图5本发明数据选择策略选取出的训练集;
图6为本发明实施例提供的基于协同笔画优化的个性化手写体迁移系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
针对现有技术的缺陷,本发明的目的是提供一种基于协同笔画优化的个性化手写体迁移系统。本发明提出了一个新的轻量级CNN框架成功解决了上述两个问题。它主要包含两个创新点:协同笔画优化和在线缩放-增强。特别地,该模型除了仅需要少量配对的训练样本(例如750个配对的训练样本)之外,不再需要任何预先训练的网络、额外的数据集资源和额外的标注汉字部首或结构的标签。
首先,本发明基于协同笔画优化的个性化手写字体迁移系统使用了传统的“图像到图像”生成的CNN结构,整体为一个端到端的系统,训练过程只需提供成对的字体图片即可进行训练,预处理和数据增强均为在线模式,结构简单,使用方便。由于整个系统为生成任务,所以本发明使用了近年来收到极大关注的生成对抗网络,引入了对抗训练的方法。对抗训练的方法可以使得模型学到与已给图片相同分布的伪图片,从而提高生成目标字体的逼真度。
除此之外,为了解决现有的方法所需数据量过大、手写字体笔画生成不够精细甚至有缺失的问题,本发明基于协同笔画优化的个性化手写字体迁移系统提出了一种选择数据集的策略和在线缩放-增强方法以及协同笔画优化的结构。
图1为本发明实施例提供的基于协同笔画优化的个性化手写体迁移方法的流程图,如图1所示,本实施例中的方法可以包括:
S101、根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得待输入的汉字与目标汉字的骨架对齐。
S102、将形变处理之后的汉字输入目标神经网络,通过目标神经网络输出对应的目标汉字。
本实施例中,目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。图2本发明印刷字体效果展示图,如图2所示,每栏左列为目标字体,右列为生成字体。图3本发明手写字体效果展示图,如图3所示,每栏左列为目标字体,右列为生成字体。
本系统利用输入源字体图像生成目标字体图像,在训练过程中,输入字体图像先经过在线缩放-增强模块和自适应预形变模块进行数据增强和生成域的匹配,再通过协同笔画优化模块进行目标版本和加粗版本的协同训练,并利用加粗版本作为补偿信息最终生成笔画较精细的目标字体,最后通过判别器来对生成的目标字体和与之对应的金标准进行真伪判别,借助对抗训练的方法,不断优化协同笔画优化模块,使之能输出更逼真的生成目标字体。
图4为本发明实施例提供的训练方法的流程图,如图4所示,本实施例中的方法可以包括:
S201、构建源字体集合,并从源字体集合中选取预设数量的源汉字添加至训练集中。
S202、对训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息。
S203、根据目标汉字的平均区域占比和平均长宽比,对训练集中的源汉字进行尺寸和比例的形变处理,以使得源汉字与目标汉字的骨架对齐。
S204、构建初始神经网络,初始神经网络包括:目标分支、优化分支、判别器。
S205、将形变处理后的源汉字输入初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字。
S206、通过目标分支将源汉字转换为初始目标字体汉字,并根据优化分支输出的加粗版本的目标字体汉字,对目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字。
S207、通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整初始神经网络的参数,直到判别器判定目标分支输出的目标字体汉字与目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
训练方法的具体过程具体如下:
首先,在整个系统运行之前,先根据挑选出750个字的源图像集X和目标图像集Y构成的小数据集SD中所有配对数据(i表示第i个训练样本),图5本发明数据选择策略选取出的训练集。计算Y中汉字区域的平均占比r1和汉字的高-宽平均比例r2。找到每个中的最小汉字包围框bi,bi的高度和宽度分别是hi和wi,hi和wi均小于64。r1和r2分别为
其中,N为训练样本数且N=750。根据上面的两个统计数据,我们对每个xi进行预形变,以使xi的汉字区域与yi对齐。形变结果为:
xi←R2(R1(xi))
其中,R1和R2分别表示关于r1的尺寸形变和关于r2的高-宽比例形变。经过这一步,xi的汉字骨架大致与对齐,这实际上降低了CNN模型对笔画的形变进行拟合的难度。具体来说,模型不会“费心”去尝试拟合笔画的尺寸信息,而可以更关注对笔画扭曲的学习。
将输入的64×64×1的字体灰度图片根据统计得到的r1和r2进行预形变后,再进行在线缩放-增强:当配对图像(x,y1)被输入模型进行训练时,我们随机缩放在图片中原本居中的汉字区域以改变它的宽-高比。然后我们在图像中水平或垂直地平移该汉字区域。假设图像中的每个汉字区域都是h:w比例,那么的缩放结果将在图像中垂直平移(主要平移到上/中/下位置),而的缩放结果将被水平平移(主要平移到左/中/右位置)。此外,的缩放结果将平移到任何可能的位置。如果我们将任何可能的缩放-平移操作写为则当x被某个具体的缩放-平移操作变换后,同样的操作也施加到y1上,即:
其中表示所有可能的缩放-平移操作概率空间。基本上,当“单元素”汉字作为另一个“复合”汉字的组件出现时,这些增强的结果会模仿任何可能的形状和位置。因此,作为增强的训练样本,他们使得CNN模型在有限的数据集下尽可能地隐式地学习汉字的形变/位置多样性和结构信息。
经过预形变和在线缩放-增强后的图片进入“粗糙生成器”,该模块由全卷积神经网络的编码子模块和解卷积、卷积混合的解码子模块构成:
编码模块中,第奇数个卷积层保持前层输出的特征向量的高H、宽W尺度不变,通道数C为前层的2倍;第偶数个卷积层保持前层输出特征向量的通道数C不变,高H、宽W尺度变为前层的1/2。最终,将输入图片编码为4×4×512的特征图。
解码模块中,第奇数个为“解卷积层”,保持前层输出特征向量的通道数C不变,高H、宽W尺度变为前层的2倍;第偶数个卷积层保持前层输出的特征向量的高H、宽W尺度不变,通道数C为前层的1/2。由于该模块为“粗糙生成器”,所以,解码模块相较编码模块较短,输出的数据为32×32×128的较低分辨率的特征图。
“粗糙生成器”的输出特征图进入协同笔画优化模块:源图片x经过“粗糙生成器”映射成为32×32×128的较低分辨率的特征图。随后有两个并行分支:目标分支和优化分支。目标分支用来生成我们原本迁移任务的输出并且该分支利用原始任务y1作为监督信号。同时的,优化分支用来生成辅助迁移任务的输出该分支利用y2作为监督信号。特别的,y2是原始目标字体y1的加粗版本。y2是通过形态学膨胀操作f(·)得到的:
其中,y1是原始目标字体,y2是y1的加粗版本,e是结构元素,z表示y1的像元,φ表示空集。
相比于refine branch生成的保留了更合理的笔画和更准确的结构。然而,不能直接被dominated branch用来优化因为比于y1更有更粗的笔画。所以会被f(·)的反向操作进一步腐蚀,即侵蚀操作g(·):
细化结果仍然保留了比更合理的笔画和更准确的结构。我们通过单层CNN将映射到32×32×64的特征图,然后将此特征映射拼接到目标分支中相同尺度的特征层中作为补偿信息,用以纠正生成的笔画存在的缺失或偏差问题。我们还可以进一步实施侵蚀操作以获得更细的版本“渐进式”地将其拼接到目标分支。
另外,我们分别在目标分支和优化分支中引入了层次对抗判别器(HierarchicalAdversarial Discriminator)使得整个网络可以进行对抗训练。
其中(x,y1)是配对训练样本;x是迁移前的源字体,y1是目标字体。D1表示第一判别器,G1包括“粗糙生成器”和目标分支。
其中y2是目标字体的加粗版本,y2=f(y1)。D 2表示第二判别器2,G 2只包含优化分支。
综上,本发明利用在线缩放-增强模块显著减少训练数据,利用自适应预形变模块进行输入域与目标域的匹配,利用协同笔画优化模块对粗生成的汉字进行笔画精细化处理并得到生成字体,利用判决器对生成目标字体和与之对应的真实目标字体进行真伪判别,不断优化汉字迁移模块,使之能输出更逼真的生成目标字体。本发明能够基于协同笔画优化依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字,甚至能够做到个性化手写字体定制。
图6为本发明实施例提供的基于协同笔画优化的个性化手写体迁移系统的结构示意图,如图6所示,本实施例的系统可以包括:
预处理模块31,用于根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得待输入的汉字与目标汉字的骨架对齐;
处理模块32,用于将形变处理之后的汉字输入目标神经网络,通过目标神经网络输出对应的目标汉字;其中,目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。
训练集构建模块33,用于构建源字体集合,并从源字体集合中选取预设数量的源汉字添加至训练集中;其中,训练集中还包含有与源汉字一一对应的目标汉字;
训练模块34,用于对训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对训练集中的源汉字进行尺寸和比例的形变处理,以使得源汉字与目标汉字的骨架对齐;
构建初始神经网络,初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过目标分支将源汉字转换为初始目标字体汉字,并根据优化分支输出的加粗版本的目标字体汉字,对目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整初始神经网络的参数,直到判别器判定目标分支输出的目标字体汉字与目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
本实施例的基于协同笔画优化的个性化手写体迁移系统,可以执行图1、图4所示方法中的技术方案,其具体实现过程和技术原理参见图2、图4所示方法中的相关描述,此处不再赘述。
需要说明的是,本发明提供的基于协同笔画优化的个性化手写体迁移方法中的步骤,可以利用基于协同笔画优化的个性化手写体迁移系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (8)
1.一种基于协同笔画优化的个性化手写体迁移方法,其特征在于,包括:
根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字;
在根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理之前,还包括:
构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
2.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,构建源字体集合,包括:
选择一批固定的汉字构成源字体集合,经过挑选,选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
3.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
4.根据权利要求3所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字,包括:
所述目标分支和所述优化分支共享的部分卷积层构成编码器和解码器,其中,所述编码器通过一系列卷积操作将输入的汉字转换为尺度固定的三维特征向量,所述解码器用于将三维特征向量通过一系列解卷积和卷积操作解码为预设分辨率的特征图;
所述优化分支将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成加粗版本的目标字体汉字,将所述加粗版本的目标字体汉字作为所述目标分支输出的监督信息;将所述加粗版本的目标字体汉字通过形态学变换变细后在经过一层卷积,得到细化后的特征图,将所述细化后的特征图作为所述目标分支的补偿特征图;
所述目标分支将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成初始目标字体汉字,所述目标分支以原始目标字体y1为监督信息;在解码的过程中,将优化分支的补偿特征图与初始目标字体汉字对应的特征图拼接,得到拼接特征图;再对所述拼接特征图进行解卷积和卷积操作,输出目标字体汉字。
5.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,所述判别器根据预设的判别标准,对目标分支输出的目标字体汉字进行判别,若判定结果为真,则输出1;若判定结果为假,则输出0;
所述损失函数包括如下损失函数项:
其中:表示第一支生成器G1的像素级损失,G1表示第一支生成器,表示当输入为x输出为y1时公式的数学期望,表示生成的目标字体,x表示迁移前的源字体,y1表示目标字体,D1表示第一判别器,表示第一支生成器和第一支判别器的对抗性损失,D1(x,y1)表示当输入为x和y1时第一支判别器的输出,E表示数学期望,D1(x,G1(x))表示当输入为x和G1(x)时第一支判别器的输出,G1(x)表示输入为x时第一支生成器的生成结果;
y2=f(y1)
其中:表示第二支生成器G2的像素级损失,G2表示第二支生成器,表示当输入为x输出为y2时公式的数学期望,y2表示目标字体的加粗版本,表示生成的加粗目标字体,表示第二支生成器和第二支判别器的对抗性损失,D2表示第二判别器,D2(x,y2)表示当输入为x和y2时第二支判别器的输出,D2(x,G2(x))表示当输入为x和G2(x)时第二支判别器的输出,G2(x)表示输入为x时第二支生成器的生成结果,f(y1)表示对y1进行加粗操作;
其中,x,y1和y2都经过缩放增强和预形变处理。
6.一种基于协同笔画优化的个性化手写体迁移系统,其特征在于,包括:
预处理模块,用于根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
处理模块,用于将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字;
还包括:
训练集构建模块,用于构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
训练模块,用于对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
7.根据权利要求6所述的基于协同笔画优化的个性化手写体迁移系统,其特征在于,所述训练集构建模块,具体用于:
选择一批固定的汉字构成源字体集合,经过挑选,选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
8.根据权利要求7所述的基于协同笔画优化的个性化手写体迁移系统,其特征在于,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195271.XA CN110033054B (zh) | 2019-03-14 | 2019-03-14 | 基于协同笔画优化的个性化手写体迁移方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195271.XA CN110033054B (zh) | 2019-03-14 | 2019-03-14 | 基于协同笔画优化的个性化手写体迁移方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110033054A CN110033054A (zh) | 2019-07-19 |
CN110033054B true CN110033054B (zh) | 2021-05-25 |
Family
ID=67236076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910195271.XA Active CN110033054B (zh) | 2019-03-14 | 2019-03-14 | 基于协同笔画优化的个性化手写体迁移方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033054B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956133A (zh) * | 2019-11-29 | 2020-04-03 | 上海眼控科技股份有限公司 | 单字符文本归一化模型训练方法、文本识别方法及装置 |
CN111144066B (zh) * | 2019-12-27 | 2022-02-18 | 北大方正集团有限公司 | 字库字面的调整方法、装置、设备和存储介质 |
CN111523622B (zh) * | 2020-04-26 | 2023-01-31 | 重庆邮电大学 | 基于特征图像自学习的机械臂模拟手写笔迹方法 |
CN113627124A (zh) * | 2020-05-08 | 2021-11-09 | 阿里巴巴集团控股有限公司 | 一种针对字体迁移模型的处理方法、装置、电子设备 |
CN113449787B (zh) * | 2021-06-23 | 2022-12-09 | 西安交通大学 | 基于汉字笔画结构的字体库补全方法及系统 |
CN114970447B (zh) * | 2022-05-26 | 2024-07-23 | 华侨大学 | 一种汉字字体转换方法、装置、设备和存储介质 |
CN115240201B (zh) * | 2022-09-21 | 2022-12-23 | 江西师范大学 | 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法 |
CN117950787B (zh) * | 2024-03-22 | 2024-05-31 | 成都赛力斯科技有限公司 | 广告展示方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101699518A (zh) * | 2009-10-30 | 2010-04-28 | 华南理工大学 | 一种基于轨迹分析的手写汉字的美化方法 |
CN107577651A (zh) * | 2017-08-25 | 2018-01-12 | 上海交通大学 | 基于对抗网络的汉字字体迁移系统 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN109165376A (zh) * | 2018-06-28 | 2019-01-08 | 西交利物浦大学 | 基于少量样本的风格字符生成方法 |
CN109190722A (zh) * | 2018-08-06 | 2019-01-11 | 大连民族大学 | 基于满文字符图片的字体风格迁移变换方法 |
WO2019025909A1 (en) * | 2017-08-01 | 2019-02-07 | 3M Innovative Properties Company | NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8155288B2 (en) * | 2006-02-24 | 2012-04-10 | Fujifilm North America Corporation | Template processing system and method |
CN108170649B (zh) * | 2018-01-26 | 2021-06-01 | 广东工业大学 | 一种基于dcgan深度网络的汉字字库生成方法及装置 |
CN108459999B (zh) * | 2018-02-05 | 2022-02-22 | 杭州时趣信息技术有限公司 | 一种字体设计方法、系统、设备及计算机可读存储介质 |
CN109063756A (zh) * | 2018-07-20 | 2018-12-21 | 天津师范大学 | 一种基于多模态生成式对抗网络的云图分类方法 |
CN109241279B (zh) * | 2018-07-27 | 2022-11-22 | 联想(北京)有限公司 | 一种生成思维导图的方法和电子设备 |
-
2019
- 2019-03-14 CN CN201910195271.XA patent/CN110033054B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101699518A (zh) * | 2009-10-30 | 2010-04-28 | 华南理工大学 | 一种基于轨迹分析的手写汉字的美化方法 |
WO2019025909A1 (en) * | 2017-08-01 | 2019-02-07 | 3M Innovative Properties Company | NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION |
CN107577651A (zh) * | 2017-08-25 | 2018-01-12 | 上海交通大学 | 基于对抗网络的汉字字体迁移系统 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN109165376A (zh) * | 2018-06-28 | 2019-01-08 | 西交利物浦大学 | 基于少量样本的风格字符生成方法 |
CN109190722A (zh) * | 2018-08-06 | 2019-01-11 | 大连民族大学 | 基于满文字符图片的字体风格迁移变换方法 |
Non-Patent Citations (2)
Title |
---|
Chinese Handwriting Imitation with Hierarchical Generative Adversarial Network;Jie Chang 等;《British Machine Vision Conference 2018》;20180906;1-12 * |
Learning A Stroke-Based Representation for Fonts;Elena Balashova 等;《COMPUTER GRAPHICS forum》;20181005;第38卷(第1期);429-442 * |
Also Published As
Publication number | Publication date |
---|---|
CN110033054A (zh) | 2019-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033054B (zh) | 基于协同笔画优化的个性化手写体迁移方法和系统 | |
CN108170649B (zh) | 一种基于dcgan深度网络的汉字字库生成方法及装置 | |
CN110544218B (zh) | 一种图像处理方法、装置及存储介质 | |
CN113657388B (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN109726718B (zh) | 一种基于关系正则化的视觉场景图生成系统及方法 | |
CN111160341B (zh) | 一种基于双注意力机制的场景中文文本识别方法 | |
CN112036137A (zh) | 一种基于深度学习的多风格书法数字墨水仿真方法和系统 | |
CN115512368B (zh) | 一种跨模态语义生成图像模型和方法 | |
US20230162409A1 (en) | System and method for generating images of the same style based on layout | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN116797868A (zh) | 文本图像生成方法以及扩散生成模型训练方法 | |
CN110211032B (zh) | 汉字字符的生成方法、装置及可读存储介质 | |
CN115908639A (zh) | 基于transformer的场景图像文字修改方法、装置、电子设备及存储介质 | |
Nimma et al. | IntelPVT: intelligent patch-based pyramid vision transformers for object detection and classification | |
CN117152370B (zh) | 基于aigc的3d地形模型生成方法、系统、设备及存储介质 | |
CN114529908A (zh) | 一种离线手写化学反应式图像识别技术 | |
CN117422978A (zh) | 基于动态双级视觉信息融合的接地视觉问答方法 | |
CN109902751A (zh) | 一种融合卷积神经网络和半字模板匹配的表盘数字字符识别方法 | |
CN113191355A (zh) | 文本图像合成方法、装置、设备及存储介质 | |
CN117115880A (zh) | 一种基于重参数化的轻量级人脸关键点检测的方法 | |
Feng et al. | Real-time object detection method based on YOLOv5 and efficient mobile network | |
CN116485892A (zh) | 一种弱纹理物体的六自由度位姿估计方法 | |
CN115862039A (zh) | 基于多尺度特征的文本生成图像算法 | |
Ai et al. | ELUNet: an efficient and lightweight U-shape network for real-time semantic segmentation | |
CN111582275B (zh) | 一种序列号识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |