CN110033054B - 基于协同笔画优化的个性化手写体迁移方法和系统 - Google Patents

基于协同笔画优化的个性化手写体迁移方法和系统 Download PDF

Info

Publication number
CN110033054B
CN110033054B CN201910195271.XA CN201910195271A CN110033054B CN 110033054 B CN110033054 B CN 110033054B CN 201910195271 A CN201910195271 A CN 201910195271A CN 110033054 B CN110033054 B CN 110033054B
Authority
CN
China
Prior art keywords
target
chinese characters
branch
font
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910195271.XA
Other languages
English (en)
Other versions
CN110033054A (zh
Inventor
张娅
汶川
常杰
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910195271.XA priority Critical patent/CN110033054B/zh
Publication of CN110033054A publication Critical patent/CN110033054A/zh
Application granted granted Critical
Publication of CN110033054B publication Critical patent/CN110033054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供了一种基于协同笔画优化的个性化手写体迁移方法和系统,该方法,包括:根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。从而实现依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字,甚至能够做到个性化手写字体定制,能够快速、准确、逼真地生成目标字体。

Description

基于协同笔画优化的个性化手写体迁移方法和系统
技术领域
本发明涉及计算机视觉和图像处理技术领域,具体地,涉及基于协同笔画优化的个性化手写体迁移方法和系统。
背景技术
字体是媒体内容创意的重要组成部分,在当代社会各种视觉传达设计中得到广泛的应用,满足了大众传媒的多方位、多层面的需求。一套中文字体的开发需要投入大量的人力和时间成本。不同于仅包含52个字符的英文字母(涵盖大小写),目前,最低标准的汉字编码字符集——GB2312-80国标码中共选入了6763个汉字(包含一级常用汉字3755个,二级次常用汉字3008个)。因此,如何提高字体设计的效率,降低时间和人力成本是一个非常值得研究的现实问题。
一直以来,自动化的字体生成被认为是解决该问题的主要技术手段。目前研究最多的是基于汉字分解和笔画重组的自动化字体生成方法。这类方法依赖一系列传统的算法对已设计好的(或手写好的)汉字进行结构化分解,提取出笔画、部首等零部件,然后利用对零部件的重组去合成全套字库。由于基于汉字分解和笔画重组的方法仍然过于繁琐,近年来,少数研究开始着重于利用深度学习的优势,将自动化字体生成任务建模成基于图像转换的字体生成任务。
但是,现有的方法主要由如下两个局限:现有基于图像转换的字体生成模型都没有考虑在模型中引入对汉字笔画进行优化的过程或模块;大多数已有的字体生成方法都依赖于大量的配对训练样本(3000对)来学习,并不能大幅度降低时间和人力成本,实用性并不强。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于协同笔画优化的个性化手写体迁移方法和系统。
第一方面,本发明实施例一种基于协同笔画优化的个性化手写体迁移方法,包括:
根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。
可选地,在根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理之前,还包括:
构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
可选地,构建源字体集合,包括:
选择一批固定的汉字构成源字体集合,经过挑选,可选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
可选地,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
可选地,根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字,包括:
所述目标分支和所述优化分支共享的部分卷积层构成编码器和解码器,其中,所述编码器通过一系列卷积操作将输入的汉字转换为尺度固定的三维特征向量,所述解码器用于将三维特征向量通过一系列解卷积和卷积操作解码为预设分辨率的特征图;
所述优化分支将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成加粗版本的目标字体汉字,将所述加粗版本的目标字体汉字作为所述目标分支输出的监督信息;将所述加粗版本的目标字体汉字通过形态学变换变细后在经过一层卷积,得到细化后的特征图,将所述细化后的特征图作为所述目标分支的补偿特征图;
所述目标分支将将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成初始目标字体汉字,所述目标分支以原始目标字体y1为监督信息;在解码的过程中,将优化分支的补偿特征图与初始目标字体汉字对应的特征图拼接,得到拼接特征图;再对所述拼接特征图进行解卷积和卷积操作,输出目标字体汉字。
可选地,所述判别器根据预设的判别标准,对目标分支输出的目标字体汉字进行判别,若判定结果为真,则输出1;若判定结果为假,则输出0;
所述损失函数包括如下损失函数项:
Figure BDA0001995617030000031
Figure BDA0001995617030000032
其中:
Figure BDA0001995617030000033
表示第一支生成器G1的像素级损失,G1表示第一支生成器,
Figure BDA00019956170300000311
表示当输入为x输出为y1时公式的数学期望,
Figure BDA0001995617030000034
表示生成的目标字体,x表示迁移前的源字体,y1表示目标字体,D1表示第一判别器,
Figure BDA0001995617030000035
表示第一支生成器和第一支判别器的对抗性损失,D1(x,y1)表示当输入为x和y1时第一支判别器的输出,E表示数学期望,D1(x,G1(x))表示当输入为x和G1(x)时第一支判别器的输出,G1(x)表示输入为x时第一支生成器的生成结果;
Figure BDA0001995617030000036
Figure BDA0001995617030000037
y2=f(y1)
整个网络由
Figure BDA0001995617030000038
联合优化;
其中:
Figure BDA0001995617030000039
表示第二支生成器G2的像素级损失,G2表示第二支生成器,
Figure BDA00019956170300000312
表示当输入为x输出为y2时公式的数学期望,y2表示目标字体的加粗版本,
Figure BDA00019956170300000310
表示生成的加粗目标字体,
Figure BDA0001995617030000041
表示第二支生成器和第二支判别器的对抗性损失,D2表示第二判别器,D2(x,y2)表示当输入为x和y2时第二支判别器的输出,D2(x,G2(x))表示当输入为x和G2(x)时第二支判别器的输出,G2(x)表示输入为x时第二支生成器的生成结果,f(y1)表示对y1进行加粗操作;
其中,x,y1和y2都经过缩放增强和预形变处理。
第二方面,本发明实施例提供一种基于协同笔画优化的个性化手写体迁移系统,包括:
预处理模块,用于根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
处理模块,用于将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。
可选地,还包括:
训练集构建模块,用于构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
训练模块,用于对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
可选地,所述训练集构建模块,具体用于:
选择一批固定的汉字构成源字体集合,经过挑选,可选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
可选地,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
与现有技术相比,本发明具有如下的有益效果:
本发明提供了一种基于协同笔画优化的个性化手写体迁移方法和系统,通过根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。从而实现依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字,甚至能够做到个性化手写字体定制,能够快速、准确、逼真地生成目标字体。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的基于协同笔画优化的个性化手写体迁移方法的流程图;
图2本发明印刷字体效果展示图;
图3本发明手写字体效果展示图;
图4为本发明实施例提供的训练方法的流程图;
图5本发明数据选择策略选取出的训练集;
图6为本发明实施例提供的基于协同笔画优化的个性化手写体迁移系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
针对现有技术的缺陷,本发明的目的是提供一种基于协同笔画优化的个性化手写体迁移系统。本发明提出了一个新的轻量级CNN框架成功解决了上述两个问题。它主要包含两个创新点:协同笔画优化和在线缩放-增强。特别地,该模型除了仅需要少量配对的训练样本(例如750个配对的训练样本)之外,不再需要任何预先训练的网络、额外的数据集资源和额外的标注汉字部首或结构的标签。
首先,本发明基于协同笔画优化的个性化手写字体迁移系统使用了传统的“图像到图像”生成的CNN结构,整体为一个端到端的系统,训练过程只需提供成对的字体图片即可进行训练,预处理和数据增强均为在线模式,结构简单,使用方便。由于整个系统为生成任务,所以本发明使用了近年来收到极大关注的生成对抗网络,引入了对抗训练的方法。对抗训练的方法可以使得模型学到与已给图片相同分布的伪图片,从而提高生成目标字体的逼真度。
除此之外,为了解决现有的方法所需数据量过大、手写字体笔画生成不够精细甚至有缺失的问题,本发明基于协同笔画优化的个性化手写字体迁移系统提出了一种选择数据集的策略和在线缩放-增强方法以及协同笔画优化的结构。
图1为本发明实施例提供的基于协同笔画优化的个性化手写体迁移方法的流程图,如图1所示,本实施例中的方法可以包括:
S101、根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得待输入的汉字与目标汉字的骨架对齐。
S102、将形变处理之后的汉字输入目标神经网络,通过目标神经网络输出对应的目标汉字。
本实施例中,目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。图2本发明印刷字体效果展示图,如图2所示,每栏左列为目标字体,右列为生成字体。图3本发明手写字体效果展示图,如图3所示,每栏左列为目标字体,右列为生成字体。
本系统利用输入源字体图像生成目标字体图像,在训练过程中,输入字体图像先经过在线缩放-增强模块和自适应预形变模块进行数据增强和生成域的匹配,再通过协同笔画优化模块进行目标版本和加粗版本的协同训练,并利用加粗版本作为补偿信息最终生成笔画较精细的目标字体,最后通过判别器来对生成的目标字体和与之对应的金标准进行真伪判别,借助对抗训练的方法,不断优化协同笔画优化模块,使之能输出更逼真的生成目标字体。
图4为本发明实施例提供的训练方法的流程图,如图4所示,本实施例中的方法可以包括:
S201、构建源字体集合,并从源字体集合中选取预设数量的源汉字添加至训练集中。
S202、对训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息。
S203、根据目标汉字的平均区域占比和平均长宽比,对训练集中的源汉字进行尺寸和比例的形变处理,以使得源汉字与目标汉字的骨架对齐。
S204、构建初始神经网络,初始神经网络包括:目标分支、优化分支、判别器。
S205、将形变处理后的源汉字输入初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字。
S206、通过目标分支将源汉字转换为初始目标字体汉字,并根据优化分支输出的加粗版本的目标字体汉字,对目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字。
S207、通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整初始神经网络的参数,直到判别器判定目标分支输出的目标字体汉字与目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
训练方法的具体过程具体如下:
首先,在整个系统运行之前,先根据挑选出750个字的源图像集X和目标图像集Y构成的小数据集SD中所有
Figure BDA0001995617030000071
配对数据(i表示第i个训练样本),图5本发明数据选择策略选取出的训练集。计算Y中汉字区域的平均占比r1和汉字的高-宽平均比例r2。找到每个
Figure BDA0001995617030000072
中的最小汉字包围框bi,bi的高度和宽度分别是hi和wi,hi和wi均小于64。r1和r2分别为
Figure BDA0001995617030000073
其中,N为训练样本数且N=750。根据上面的两个统计数据,我们对每个xi进行预形变,以使xi的汉字区域与yi对齐。形变结果为:
xi←R2(R1(xi))
其中,R1和R2分别表示关于r1的尺寸形变和关于r2的高-宽比例形变。经过这一步,xi的汉字骨架大致与
Figure BDA0001995617030000081
对齐,这实际上降低了CNN模型对笔画的形变进行拟合的难度。具体来说,模型不会“费心”去尝试拟合笔画的尺寸信息,而可以更关注对笔画扭曲的学习。
将输入的64×64×1的字体灰度图片根据统计得到的r1和r2进行预形变后,再进行在线缩放-增强:当配对图像(x,y1)被输入模型进行训练时,我们随机缩放在图片中原本居中的汉字区域以改变它的宽-高比。然后我们在图像中水平或垂直地平移该汉字区域。假设图像中的每个汉字区域都是h:w比例,那么
Figure BDA0001995617030000082
的缩放结果将在图像中垂直平移(主要平移到上/中/下位置),而
Figure BDA0001995617030000083
的缩放结果将被水平平移(主要平移到左/中/右位置)。此外,
Figure BDA0001995617030000084
的缩放结果将平移到任何可能的位置。如果我们将任何可能的缩放-平移操作写为
Figure BDA0001995617030000085
则当x被某个具体的缩放-平移操作变换后,同样的操作也施加到y1上,即:
Figure BDA0001995617030000086
Figure BDA0001995617030000087
其中
Figure BDA0001995617030000088
表示所有可能的缩放-平移操作概率空间。基本上,当“单元素”汉字作为另一个“复合”汉字的组件出现时,这些增强的结果会模仿任何可能的形状和位置。因此,作为增强的训练样本,他们使得CNN模型在有限的数据集下尽可能地隐式地学习汉字的形变/位置多样性和结构信息。
经过预形变和在线缩放-增强后的图片进入“粗糙生成器”,该模块由全卷积神经网络的编码子模块和解卷积、卷积混合的解码子模块构成:
编码模块中,第奇数个卷积层保持前层输出的特征向量的高H、宽W尺度不变,通道数C为前层的2倍;第偶数个卷积层保持前层输出特征向量的通道数C不变,高H、宽W尺度变为前层的1/2。最终,将输入图片编码为4×4×512的特征图。
解码模块中,第奇数个为“解卷积层”,保持前层输出特征向量的通道数C不变,高H、宽W尺度变为前层的2倍;第偶数个卷积层保持前层输出的特征向量的高H、宽W尺度不变,通道数C为前层的1/2。由于该模块为“粗糙生成器”,所以,解码模块相较编码模块较短,输出的数据为32×32×128的较低分辨率的特征图。
“粗糙生成器”的输出特征图进入协同笔画优化模块:源图片x经过“粗糙生成器”映射成为32×32×128的较低分辨率的特征图。随后有两个并行分支:目标分支和优化分支。目标分支用来生成我们原本迁移任务的输出
Figure BDA0001995617030000089
并且该分支利用原始任务y1作为监督信号。同时的,优化分支用来生成辅助迁移任务的输出
Figure BDA00019956170300000810
该分支利用y2作为监督信号。特别的,y2是原始目标字体y1的加粗版本。y2是通过形态学膨胀操作f(·)得到的:
Figure BDA0001995617030000091
其中,y1是原始目标字体,y2是y1的加粗版本,e是结构元素,z表示y1的像元,φ表示空集。
相比于
Figure BDA0001995617030000092
refine branch生成的
Figure BDA0001995617030000093
保留了更合理的笔画和更准确的结构。然而,
Figure BDA0001995617030000094
不能直接被dominated branch用来优化
Figure BDA0001995617030000095
因为
Figure BDA0001995617030000096
比于y1更有更粗的笔画。所以
Figure BDA0001995617030000097
会被f(·)的反向操作进一步腐蚀,即侵蚀操作g(·):
Figure BDA0001995617030000098
其中,
Figure BDA0001995617030000099
是refine branch的生成结果,e是结构元素,z表示
Figure BDA00019956170300000910
的像元。
细化结果
Figure BDA00019956170300000921
仍然保留了比
Figure BDA00019956170300000911
更合理的笔画和更准确的结构。我们通过单层CNN将
Figure BDA00019956170300000912
映射到32×32×64的特征图,然后将此特征映射拼接到目标分支中相同尺度的特征层中作为补偿信息,用以纠正生成的笔画存在的缺失或偏差问题。我们还可以进一步实施侵蚀操作以获得更细的版本
Figure BDA00019956170300000913
“渐进式”地将其拼接到目标分支。
另外,我们分别在目标分支和优化分支中引入了层次对抗判别器(HierarchicalAdversarial Discriminator)使得整个网络可以进行对抗训练。
在本实施例中,损失函数共由4个损失函数项组成,它们可以分为两组:
Figure BDA00019956170300000914
Figure BDA00019956170300000915
Figure BDA00019956170300000916
Figure BDA00019956170300000917
其中(x,y1)是配对训练样本;x是迁移前的源字体,y1是目标字体。D1表示第一判别器,G1包括“粗糙生成器”和目标分支。
Figure BDA00019956170300000918
Figure BDA00019956170300000919
其中y2是目标字体的加粗版本,y2=f(y1)。D 2表示第二判别器2,G 2只包含优化分支。
整个网络由
Figure BDA00019956170300000920
联合优化。其中,x,y1和y2都经过缩放-增强和预形变处理。
综上,本发明利用在线缩放-增强模块显著减少训练数据,利用自适应预形变模块进行输入域与目标域的匹配,利用协同笔画优化模块对粗生成的汉字进行笔画精细化处理并得到生成字体,利用判决器对生成目标字体和与之对应的真实目标字体进行真伪判别,不断优化汉字迁移模块,使之能输出更逼真的生成目标字体。本发明能够基于协同笔画优化依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字,甚至能够做到个性化手写字体定制。
图6为本发明实施例提供的基于协同笔画优化的个性化手写体迁移系统的结构示意图,如图6所示,本实施例的系统可以包括:
预处理模块31,用于根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得待输入的汉字与目标汉字的骨架对齐;
处理模块32,用于将形变处理之后的汉字输入目标神经网络,通过目标神经网络输出对应的目标汉字;其中,目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字。
训练集构建模块33,用于构建源字体集合,并从源字体集合中选取预设数量的源汉字添加至训练集中;其中,训练集中还包含有与源汉字一一对应的目标汉字;
训练模块34,用于对训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对训练集中的源汉字进行尺寸和比例的形变处理,以使得源汉字与目标汉字的骨架对齐;
构建初始神经网络,初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过目标分支将源汉字转换为初始目标字体汉字,并根据优化分支输出的加粗版本的目标字体汉字,对目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整初始神经网络的参数,直到判别器判定目标分支输出的目标字体汉字与目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
本实施例的基于协同笔画优化的个性化手写体迁移系统,可以执行图1、图4所示方法中的技术方案,其具体实现过程和技术原理参见图2、图4所示方法中的相关描述,此处不再赘述。
需要说明的是,本发明提供的基于协同笔画优化的个性化手写体迁移方法中的步骤,可以利用基于协同笔画优化的个性化手写体迁移系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种基于协同笔画优化的个性化手写体迁移方法,其特征在于,包括:
根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字;
在根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理之前,还包括:
构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
2.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,构建源字体集合,包括:
选择一批固定的汉字构成源字体集合,经过挑选,选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
3.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
4.根据权利要求3所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字,包括:
所述目标分支和所述优化分支共享的部分卷积层构成编码器和解码器,其中,所述编码器通过一系列卷积操作将输入的汉字转换为尺度固定的三维特征向量,所述解码器用于将三维特征向量通过一系列解卷积和卷积操作解码为预设分辨率的特征图;
所述优化分支将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成加粗版本的目标字体汉字,将所述加粗版本的目标字体汉字作为所述目标分支输出的监督信息;将所述加粗版本的目标字体汉字通过形态学变换变细后在经过一层卷积,得到细化后的特征图,将所述细化后的特征图作为所述目标分支的补偿特征图;
所述目标分支将预设分辨率的特征图进行一系列解卷积和卷积操作后,解码成初始目标字体汉字,所述目标分支以原始目标字体y1为监督信息;在解码的过程中,将优化分支的补偿特征图与初始目标字体汉字对应的特征图拼接,得到拼接特征图;再对所述拼接特征图进行解卷积和卷积操作,输出目标字体汉字。
5.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法,其特征在于,所述判别器根据预设的判别标准,对目标分支输出的目标字体汉字进行判别,若判定结果为真,则输出1;若判定结果为假,则输出0;
所述损失函数包括如下损失函数项:
Figure FDA0002900736340000021
Figure FDA0002900736340000022
其中:
Figure FDA0002900736340000023
表示第一支生成器G1的像素级损失,G1表示第一支生成器,
Figure FDA0002900736340000024
表示当输入为x输出为y1时公式的数学期望,
Figure FDA0002900736340000025
表示生成的目标字体,x表示迁移前的源字体,y1表示目标字体,D1表示第一判别器,
Figure FDA0002900736340000026
表示第一支生成器和第一支判别器的对抗性损失,D1(x,y1)表示当输入为x和y1时第一支判别器的输出,E表示数学期望,D1(x,G1(x))表示当输入为x和G1(x)时第一支判别器的输出,G1(x)表示输入为x时第一支生成器的生成结果;
Figure FDA0002900736340000031
Figure FDA0002900736340000032
y2=f(y1)
整个网络由
Figure FDA0002900736340000033
联合优化;
其中:
Figure FDA0002900736340000034
表示第二支生成器G2的像素级损失,G2表示第二支生成器,
Figure FDA0002900736340000035
表示当输入为x输出为y2时公式的数学期望,y2表示目标字体的加粗版本,
Figure FDA0002900736340000036
表示生成的加粗目标字体,
Figure FDA0002900736340000037
表示第二支生成器和第二支判别器的对抗性损失,D2表示第二判别器,D2(x,y2)表示当输入为x和y2时第二支判别器的输出,D2(x,G2(x))表示当输入为x和G2(x)时第二支判别器的输出,G2(x)表示输入为x时第二支生成器的生成结果,f(y1)表示对y1进行加粗操作;
其中,x,y1和y2都经过缩放增强和预形变处理。
6.一种基于协同笔画优化的个性化手写体迁移系统,其特征在于,包括:
预处理模块,用于根据目标汉字的平均区域占比和平均长宽比,对待输入的汉字进行尺寸和比例的形变处理,以使得所述待输入的汉字与所述目标汉字的骨架对齐;
处理模块,用于将形变处理之后的汉字输入目标神经网络,通过所述目标神经网络输出对应的目标汉字;其中,所述目标神经网络是指经过训练的对抗生成网络,用于将输入的汉字转换为目标字体汉字;
还包括:
训练集构建模块,用于构建源字体集合,并从所述源字体集合中选取预设数量的源汉字添加至训练集中;其中,所述训练集中还包含有与源汉字一一对应的目标汉字;
训练模块,用于对所述训练集中的源汉字进行平移、缩放处理,得到所有源汉字的偏旁和部首的形状信息、位置信息;
根据目标汉字的平均区域占比和平均长宽比,对所述训练集中的源汉字进行尺寸和比例的形变处理,以使得所述源汉字与所述目标汉字的骨架对齐;
构建初始神经网络,所述初始神经网络包括:目标分支、优化分支、判别器;
将形变处理后的源汉字输入所述初始神经网络,通过优化分支将源汉字转换为加粗版本的目标字体汉字;
通过所述目标分支将源汉字转换为初始目标字体汉字,并根据所述优化分支输出的加粗版本的目标字体汉字,对所述目标分支输出的初始目标字体汉字进行修正,得到目标字体汉字;
通过判别器对目标分支输出的目标字体汉字进行判别,并根据判别结果和预设的损失函数调整所述初始神经网络的参数,直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致,且损失函数在预设的误差范围内时,得到训练完成的目标神经网络。
7.根据权利要求6所述的基于协同笔画优化的个性化手写体迁移系统,其特征在于,所述训练集构建模块,具体用于:
选择一批固定的汉字构成源字体集合,经过挑选,选择出450个单元素汉字和150×2个复合汉字构建源字体集合。
8.根据权利要求7所述的基于协同笔画优化的个性化手写体迁移系统,其特征在于,所述目标分支和所述优化分支均为全卷积神经网络,且所述目标分支和所述优化分支共享部分卷积层,共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中,直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。
CN201910195271.XA 2019-03-14 2019-03-14 基于协同笔画优化的个性化手写体迁移方法和系统 Active CN110033054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910195271.XA CN110033054B (zh) 2019-03-14 2019-03-14 基于协同笔画优化的个性化手写体迁移方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910195271.XA CN110033054B (zh) 2019-03-14 2019-03-14 基于协同笔画优化的个性化手写体迁移方法和系统

Publications (2)

Publication Number Publication Date
CN110033054A CN110033054A (zh) 2019-07-19
CN110033054B true CN110033054B (zh) 2021-05-25

Family

ID=67236076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910195271.XA Active CN110033054B (zh) 2019-03-14 2019-03-14 基于协同笔画优化的个性化手写体迁移方法和系统

Country Status (1)

Country Link
CN (1) CN110033054B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956133A (zh) * 2019-11-29 2020-04-03 上海眼控科技股份有限公司 单字符文本归一化模型训练方法、文本识别方法及装置
CN111144066B (zh) * 2019-12-27 2022-02-18 北大方正集团有限公司 字库字面的调整方法、装置、设备和存储介质
CN111523622B (zh) * 2020-04-26 2023-01-31 重庆邮电大学 基于特征图像自学习的机械臂模拟手写笔迹方法
CN113627124A (zh) * 2020-05-08 2021-11-09 阿里巴巴集团控股有限公司 一种针对字体迁移模型的处理方法、装置、电子设备
CN113449787B (zh) * 2021-06-23 2022-12-09 西安交通大学 基于汉字笔画结构的字体库补全方法及系统
CN114970447B (zh) * 2022-05-26 2024-07-23 华侨大学 一种汉字字体转换方法、装置、设备和存储介质
CN115240201B (zh) * 2022-09-21 2022-12-23 江西师范大学 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法
CN117950787B (zh) * 2024-03-22 2024-05-31 成都赛力斯科技有限公司 广告展示方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699518A (zh) * 2009-10-30 2010-04-28 华南理工大学 一种基于轨迹分析的手写汉字的美化方法
CN107577651A (zh) * 2017-08-25 2018-01-12 上海交通大学 基于对抗网络的汉字字体迁移系统
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN109190722A (zh) * 2018-08-06 2019-01-11 大连民族大学 基于满文字符图片的字体风格迁移变换方法
WO2019025909A1 (en) * 2017-08-01 2019-02-07 3M Innovative Properties Company NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155288B2 (en) * 2006-02-24 2012-04-10 Fujifilm North America Corporation Template processing system and method
CN108170649B (zh) * 2018-01-26 2021-06-01 广东工业大学 一种基于dcgan深度网络的汉字字库生成方法及装置
CN108459999B (zh) * 2018-02-05 2022-02-22 杭州时趣信息技术有限公司 一种字体设计方法、系统、设备及计算机可读存储介质
CN109063756A (zh) * 2018-07-20 2018-12-21 天津师范大学 一种基于多模态生成式对抗网络的云图分类方法
CN109241279B (zh) * 2018-07-27 2022-11-22 联想(北京)有限公司 一种生成思维导图的方法和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699518A (zh) * 2009-10-30 2010-04-28 华南理工大学 一种基于轨迹分析的手写汉字的美化方法
WO2019025909A1 (en) * 2017-08-01 2019-02-07 3M Innovative Properties Company NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION
CN107577651A (zh) * 2017-08-25 2018-01-12 上海交通大学 基于对抗网络的汉字字体迁移系统
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN109190722A (zh) * 2018-08-06 2019-01-11 大连民族大学 基于满文字符图片的字体风格迁移变换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chinese Handwriting Imitation with Hierarchical Generative Adversarial Network;Jie Chang 等;《British Machine Vision Conference 2018》;20180906;1-12 *
Learning A Stroke-Based Representation for Fonts;Elena Balashova 等;《COMPUTER GRAPHICS forum》;20181005;第38卷(第1期);429-442 *

Also Published As

Publication number Publication date
CN110033054A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110033054B (zh) 基于协同笔画优化的个性化手写体迁移方法和系统
CN108170649B (zh) 一种基于dcgan深度网络的汉字字库生成方法及装置
CN110544218B (zh) 一种图像处理方法、装置及存储介质
CN113657388B (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111160341B (zh) 一种基于双注意力机制的场景中文文本识别方法
CN112036137A (zh) 一种基于深度学习的多风格书法数字墨水仿真方法和系统
CN115512368B (zh) 一种跨模态语义生成图像模型和方法
US20230162409A1 (en) System and method for generating images of the same style based on layout
CN111666937A (zh) 一种图像中的文本识别方法及系统
CN116797868A (zh) 文本图像生成方法以及扩散生成模型训练方法
CN110211032B (zh) 汉字字符的生成方法、装置及可读存储介质
CN115908639A (zh) 基于transformer的场景图像文字修改方法、装置、电子设备及存储介质
Nimma et al. IntelPVT: intelligent patch-based pyramid vision transformers for object detection and classification
CN117152370B (zh) 基于aigc的3d地形模型生成方法、系统、设备及存储介质
CN114529908A (zh) 一种离线手写化学反应式图像识别技术
CN117422978A (zh) 基于动态双级视觉信息融合的接地视觉问答方法
CN109902751A (zh) 一种融合卷积神经网络和半字模板匹配的表盘数字字符识别方法
CN113191355A (zh) 文本图像合成方法、装置、设备及存储介质
CN117115880A (zh) 一种基于重参数化的轻量级人脸关键点检测的方法
Feng et al. Real-time object detection method based on YOLOv5 and efficient mobile network
CN116485892A (zh) 一种弱纹理物体的六自由度位姿估计方法
CN115862039A (zh) 基于多尺度特征的文本生成图像算法
Ai et al. ELUNet: an efficient and lightweight U-shape network for real-time semantic segmentation
CN111582275B (zh) 一种序列号识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant