CN111062290B - 基于生成对抗网络中国书法风格转换模型构建方法及装置 - Google Patents
基于生成对抗网络中国书法风格转换模型构建方法及装置 Download PDFInfo
- Publication number
- CN111062290B CN111062290B CN201911257349.2A CN201911257349A CN111062290B CN 111062290 B CN111062290 B CN 111062290B CN 201911257349 A CN201911257349 A CN 201911257349A CN 111062290 B CN111062290 B CN 111062290B
- Authority
- CN
- China
- Prior art keywords
- style
- calligraphy
- image
- converted
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于生成对抗网络的中国书法风格转换模型构建及转换方法,使用分布变换和重新参数化来捕获高维特征,此外基于无监督学习,使用完全卷积网络(FCN)结构的图像转换学习框架作为生成器,使用PatchGAN结构作为判别器。实验结果表明,所提出的GalscGAN能够成功地转换不同结构的中国书法数据,且在生成能力方面优于比较模型。
Description
技术领域
本发明涉及计算机图像处理技术领域,具体涉及一种基于生成对抗网络的中国书法风格转换模型构建方法及装置。
背景技术
计算机视觉和图像处理中的许多问题都可能会遇到将输入图像转换为输出图像,这些转换问题一直是研究人员关注的焦点。
传统的图像到图像转换方法通过使用欧几里得距离将像素预测为像素来建立模型,以最大程度地减少损失,从而产生模糊的结果。近年来,最熟悉的图像到图像转换模型是CycleGAN,DualGAN和DiscoGAN,可能在构造思路上存在细微的差异,但相同点是都使用圆形结构来构建模型。利用从领域S到领域T的图像转换到图像,这些模型已经对一些数据集进行了测试,包括风景(白天→夜晚,春天→冬季)、绘画(梵高→莫奈,照片→素描,国画→油画)等,并取得了良好的效果。但是,现有模型只能转换表面特征(例如颜色),并保持结构不变。但是,当域S和域T之间存在结构差异(例如从苹果到橘子)时,上述模型只能将苹果的颜色转换为橘子的颜色,并且苹果的形状保持不变。显然,当前模型不能满足所有图像翻译任务的需求。
在实现转换时,图像转化为另一图像存在着结构差异。以中国书法字体为例,现有模型只能学习如何书写这种字体风格的文字,而不能学习该书法家的风格,如果能够建立跨域结构转换学习模型,那么很多复杂问题都可以得到解决,比如未完成的书法字体的修复等,这对于文物复原来说相当重要。
发明内容
本发明的目的在于提供一种基于生成对抗网络的中国书法风格转换模型构建方法及装置,用以解决现有技术中的图像转换方法及装置无法实现中国书法风格的转换的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于生成对抗网络的中国书法风格转换模型构建方法,用于提供一种将待转换风格的书法图像转换为目标风格的书法图像的模型建立方法,所述的方法按照以下步骤执行:
步骤1、采集多幅完整的待转换风格的书法图像,获得数据集;采集多幅完整的目标风格的书法图像,获得目标数据集;
步骤2、对所述的数据集以及目标数据集进行预处理,获得预处理后的数据集以及预处理后的目标数据集;所述的预处理包括统一图像尺寸后进行二值化;
步骤3、将所述预处理后的数据集作为输入,将所述的预处理后的目标数据集作为参考输出,训练生成对抗网络;
其中所述的生成对抗网络包括依次设置的图像生成网络以及判别器;
所述的图像生成网络包括生成器以及分布变换学习网络,所述的生成器用于将所述的待转换风格的书法图像转换为目标风格的书法图像,所述的分布变换学习网络用于为所述的生成器提供目标风格的书法图像的特征;
获得中国书法风格转换模型。
进一步地,所述的分布变换学习网络包括依次连接的第一卷积块、第二卷积块、全连接层、第三卷积块以及第四卷积块;
所述的第一卷积块包括依次连接的卷积层、池化层以及激活函数层;
所述的第二卷积块包括依次连接的卷积层、Batch Norm层以及激活函数层;
所述的第三卷积块包括依次连接的上采样层、卷积层、Batch Norm层以及连接层;
所述的第四卷积块包括依次连接的上采样层、卷积层以及Batch Norm层。
进一步地,所述的分布变换学习网络中设置有3个第一卷积块、2个第二卷积块、4个第三卷积块以及1个第四卷积块。
进一步地,所述的步骤3中训练生成对抗网络时,采用式I作为损失函数L:
其中si表示预处理后的数据集中的第i幅待转换风格的书法图像,ti表示预处理后的目标数据集中的第i幅目标风格的书法图像,i=1,2,…,I,I表示预处理后的数据集中图像的总数,I为正整数,Gst表示将待转换风格的书法图像转换为目标风格的书法图像的过程;Gts表示将目标风格的书法图像转换为待转换风格的书法图像的过程,λs和λt为定量参数,λs和λt的取值范围均在100至1000之间,D1表示待转换风格的书法图像经过转换后获得的目标风格的书法图像的真实性,D2表示目标风格的书法图像经过转换后获得的待转换风格的书法图像的真实性,Gst(si)表示预处理后的数据集中的第i幅待转换风格的书法图像经过转换后获得的目标风格的书法图像;Gts(Gst(si))表示经过转换后获得的目标风格的书法图像重建至待转换风格的书法图像;Gts(ti)表示预处理后的目标数据集中的第i幅目标风格的书法图像经过转换后获得的待转换风格的书法图像;Gst(Gts(ti))表示经过转换后获得的待转换风格的书法图像重建至目标风格的书法图像。
一种基于生成对抗网络的中国书法风格转换方法,所述的方法按照以下步骤执行:
步骤A、获得待转换风格的书法图像;
步骤B、采用基于生成对抗网络的中国书法风格转换模型构建方法中步骤2的方法进行对待转换风格的书法图像预处理,获得预处理后的待转换风格的书法图像;
步骤C、将所述的预处理后的待转换风格的书法图像输入至所述的基于生成对抗网络的中国书法风格转换模型构建方法获得的中国书法风格转换模型中,获得目标风格的书法图像。
一种基于生成对抗网络的中国书法风格转换模型构建装置,所述的装置包括图像采集模块、预处理模块以及模型训练模块;
所述的图像采集模块用于采集多幅完整的待转换风格的书法图像,获得数据集;采集多幅完整的目标风格的书法图像,获得目标数据集;
所述的预处理模块用于对所述的数据集以及目标数据集进行预处理,获得预处理后的数据集以及预处理后的目标数据集;所述的预处理包括统一图像尺寸后进行二值化;
所述的模型训练模块用于将所述预处理后的数据集作为输入,将所述的预处理后的目标数据集作为参考输出,训练生成对抗网络;
其中所述的生成对抗网络包括依次设置的图像生成网络以及判别器;
所述的图像生成网络包括生成器以及分布变换学习网络,所述的生成器用于将所述的待转换风格的书法图像转换为目标风格的书法图像,所述的分布变换学习网络用于为所述的生成器提供目标风格的书法图像的特征;
获得中国书法风格转换模型。
进一步地,所述的分布变换学习网络包括依次连接的第一卷积块、第二卷积块、全连接层、第三卷积块以及第四卷积块;
所述的第一卷积块包括依次连接的卷积层、池化层以及激活函数层;
所述的第二卷积块包括依次连接的卷积层、Batch Norm层以及激活函数层;
所述的第三卷积块包括依次连接的上采样层、卷积层、Batch Norm层以及连接层;
所述的第四卷积块包括依次连接的上采样层、卷积层以及Batch Norm层。
进一步地,所述的分布变换学习网络中设置有3个第一卷积块、2个第二卷积块、4个第三卷积块以及1个第四卷积块。
进一步地,所述的模型训练模块中训练生成对抗网络时,采用式I作为损失函数L:
其中si表示预处理后的数据集中的第i幅待转换风格的书法图像,ti表示预处理后的目标数据集中的第i幅目标风格的书法图像,i=1,2,…,I,I表示预处理后的数据集中图像的总数,I为正整数,Gst表示将待转换风格的书法图像转换为目标风格的书法图像的过程;Gts表示将目标风格的书法图像转换为待转换风格的书法图像的过程,λs和λt为定量参数,λs和λt的取值范围均在100至1000之间,D1表示待转换风格的书法图像经过转换后获得的目标风格的书法图像的真实性,D2表示目标风格的书法图像经过转换后获得的待转换风格的书法图像的真实性,Gst(si)表示预处理后的数据集中的第i幅待转换风格的书法图像经过转换后获得的目标风格的书法图像;Gts(Gst(si))表示经过转换后获得的目标风格的书法图像重建至待转换风格的书法图像;Gts(ti)表示预处理后的目标数据集中的第i幅目标风格的书法图像经过转换后获得的待转换风格的书法图像;Gst(Gts(ti))表示经过转换后获得的待转换风格的书法图像重建至目标风格的书法图像。
一种基于生成对抗网络的中国书法风格转换装置,所述的装置包括图像获取模块、图像预处理模块以及风格转换模块;
所述的图像获取模块用于获得待转换风格的书法图像;
所述的图像预处理模块用于采用所述的基于生成对抗网络的中国书法风格转换模型构建装置中的预处理模块对所述的待转换风格的书法图像进行预处理,获得预处理后的待转换风格的书法图像;
所述的风格转换模块用于将所述的预处理后的待转换风格的书法图像输入至所述的基于生成对抗网络的中国书法风格转换模型构建装置获得的中国书法风格转换模型中,获得目标风格的书法图像。
本发明与现有技术相比具有以下技术效果:
1、本发明提供的基于生成对抗网络的中国书法风格转换模型构建方法及装置设计的转换模型通过分布变换和重新参数化技巧为每个样本执行特征捕获,然后添加惩罚以进行校正,提高了模型学习到不同书法家及其不同字体之间的结构特征差异的能力,从而提高了书法风格转换的准确性;
2、本发明提供的基于生成对抗网络的中国书法风格转换模型构建方法及装置设计的损失函数将WGAN的损失添加到和成对的采样层中,确保了不同书法字体的结构特征在转换时的稳定性以及所生成书法字体图像的清晰度。
附图说明
图1为本发明模型中不同书法风格转换的网络架构和数据流图;
图2为数据集中四种字体展示;
图3为生成特定风格字体结果对比;
图4为对不同书法家的不同风格字体转换结果;
图5为对不同书法家的相同风格字体转换结果;
具体实施方式
下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
以下对本发明涉及的定义或概念内涵做以说明:
生成对抗网络:基于博弈论思想,促进生成器和判别器的互相学习和互相进步。
分布变换(DT):分布变换是生成模型中经常涉及到的一种理论,该理论认为,每个样本都有自己的正态分布。通过神经网络可以获得正态分布的参数:均值μ和方差δ2,得到的均值和方差即为正态分布的参数,可以用来重构样本。
生成器:生成器是生成对抗网络中用来生成虚假样本的模型,从理论上讲,生成器越好,生成的样本越逼真。
判别器:判别器是生成对抗网络中用来判断样本是生成器生成的虚假样本还是真实数据集样本,判别器越好,判断的准确率越高。判别器的另外一个作用是用来指导生成器生成更逼真的样本。
损失函数:在生成器和判别器训练过程中反应训练过程的函数。理论上讲,损失函数越低,模型训练结果会越好。
Batch Norm层:用于归一化的层结构,会加速收敛速度及稳定性。
实施例一
在本实施例中公开了一种基于生成对抗网络的中国书法风格转换模型构建方法,用于提供一种将待转换风格的书法图像转换为目标风格的书法图像的模型建立方法。
在本实施例中,待转换风格的书法图像可以是颜真卿的楷书、赵孟頫的楷书或赵孟頫的行书等,目标风格的书法图像也可以是赵孟頫的楷书、赵孟頫的行书或颜真卿的楷书等。
方法按照以下步骤执行:
步骤1、采集多幅完整的待转换风格的书法图像,获得数据集;采集多幅完整的目标风格的书法图像,获得目标数据集;
在本实施例中,对转换风格的书法图像中的字与目标风格的书法图像中的字是对应的,例如待转换风格的书法图像为颜真卿的楷书,目标风格的书法图像为赵孟頫的行书,那么数据集中第一幅图为颜真卿的楷书写的“一”,目标数据集中的第一幅图为赵孟頫的行书写的“一”。
步骤2、对所述的数据集以及目标数据集进行预处理,获得预处理后的数据集以及预处理后的目标数据集;所述的预处理包括统一图像尺寸后进行二值化;
由于每个书法图像大小并不完全一致,为了方便神经网络进行训练,我们统一了图像的尺寸大小,并对图像进行二值化,使书法图像特征更为明显与清晰,减少噪声的干扰,更易于神经网络的学习;
步骤2.1:对所有书法数据进行图像尺寸处理,统一缩放到M*M尺寸,得到调整后的书法数据图像;
本次实施例中将所有图像缩放到256*256大小像素;
步骤2.2:对所有书法图像进行二值化,得到最终需要的数据集。
本次实施例中为了进一步提高神经网络学习的效率,将书法数据进行二值化,将图像从(0,256)像素转换为(0,1)值像素图像,方便神经网络的学习。
步骤3、将所述预处理后的数据集作为输入,将所述的预处理后的目标数据集作为参考输出,训练生成对抗网络;
其中所述的生成对抗网络包括依次设置的图像生成网络以及判别器;
所述的图像生成网络包括生成器以及分布变换学习网络,所述的生成器用于将所述的待转换风格的书法图像转换为目标风格的书法图像,所述的分布变换学习网络用于为所述的生成器提供目标风格的书法图像的特征;
获得书法风格转换模型。
在本实施例中,生成对抗网络包括生成器,分布变换模块和判别器,其中生成器进行书法风格转化,分布变换模块用来提取书法字体风格特征,消除原本书法特征的影响,使生成的效果更逼真;判别器用来对生成器的生成结果进行评估,评判参数根据损失函数给出。
其中生成器包括依次连接的卷积层,池化层,采样层和全连接层,如表一所示。本实例采用Python语言和Keras深度学习框架实现,其中各神经网络层均调用相应函数获得。
本实施例中设计的生成器如表1所示。
表1生成器的网络结构
其中,Batch Norm层一般是深度学习中用于加速训练速度,一般放置在卷积层或者全连接层之后,将数据归一化并加速了训练拟合速度。
在本实施例中,激活函数层中的激活函数为LeakyRELU函数。
在本步骤中,分布变换学习网络用来学习书法真迹的特征,使生成器在训练过程中可以生成更逼真的图像。
可选地,分布变换学习网络包括依次连接的第一卷积块、第二卷积块、全连接层、第三卷积块以及第四卷积块;
所述的第一卷积块包括依次连接的卷积层、池化层以及激活函数层;
所述的第二卷积块包括依次连接的卷积层、Batch Norm层以及激活函数层;
所述的第三卷积块包括依次连接的上采样层、卷积层、Batch Norm层以及连接层;
所述的第四卷积块包括依次连接的上采样层、卷积层以及Batch Norm层。
本实施例中设计的分布变换学习网络如表2所示。
表2分布变换学习网络结构
第一层 | 第二层 | 第三层 | 第四层 | 第五层 | 第六层 |
卷积层 | 卷积层 | 卷积层 | 卷积层 | 卷积层 | 全连接层 |
池化层 | 池化层 | 池化层 | Batch Norm层 | Batch Norm层 | |
激活函数层 | 激活函数层 | 激活函数层 | 激活函数层 | 激活函数层 | |
第七层 | 第八层 | 第九层 | 第十层 | 第十一层 | |
上采样层 | 上采样层 | 上采样层 | 上采样层 | 上采样层 | |
卷积层 | 卷积层 | 卷积层 | 卷积层 | 卷积层 | |
Batch Norm层 | Batch Norm层 | Batch Norm层 | Batch Norm层 | Batch Norm层 | |
连接层 | 连接层 | 连接层 | 连接层 |
在本实施例中,作为一种优选的实施方式,分布变换学习网络中设置有3个第一卷积块、2个第二卷积块、4个第三卷积块以及1个第四卷积块。
在本步骤中,判别器包括依次连接的卷积层,池化层和全连接层。由于我们致力于生成逼真的书法真迹图像,所以我们通过判别器进行判断生成图像的逼真程度。具体模型如表3所示。
本实施例中设计的判别器如表3所示。
表3判别器结构
第一层 | 第二层 | 第三层 | 第四层 | 第五层 | 第六层 |
卷积层 | 卷积层 | 卷积层 | 卷积层 | 卷积层 | 全连接层 |
池化层 | 激活函数层 | 激活函数层 | 激活函数层 | 激活函数层 | |
激活函数层 | Batch Norm层 | Batch Norm层 | Batch Norm层 | Batch Norm层 |
在本实施例中,激活函数层中的激活函数为LeakyRELU函数。
根据以上的设计,获得了多层对抗神经网络,利用数据对该多层对抗神经网络进行训练。
可选地,步骤3中训练生成对抗网络时,采用式I作为损失函数L:
其中s表示预处理后的数据集,t表示预处理后的目标数据集,si表示预处理后的数据集中的第i幅待转换风格的书法图像,ti表示预处理后的目标数据集中的第i幅目标风格的书法图像,i=1,2,…,I,I表示预处理后的数据集中图像的总数,I为正整数,Gst表示将待转换风格的书法图像转换为目标风格的书法图像的过程;Gts表示将目标风格的书法图像转换为待转换风格的书法图像的过程,λs和λt为定量参数,用来惩罚神经网络,λs和λt的取值范围均在100至1000之间,D1表示待转换风格的书法图像经过转换后获得的目标风格的书法图像的真实性(判别器认为这张图像的真实性),D2表示目标风格的书法图像经过转换后获得的待转换风格的书法图像的真实性(判别器认为这张图像的真实性)。Gst(si)表示预处理后的数据集中的第i幅待转换风格的书法图像经过转换后获得的目标风格的书法图像;Gts(Gst(si))表示经过转换后获得的目标风格的书法图像重建至待转换风格的书法图像;Gts(ti)表示预处理后的目标数据集中的第i幅目标风格的书法图像经过转换后获得的待转换风格的书法图像;Gst(Gts(ti))表示经过转换后获得的待转换风格的书法图像重建至目标风格的书法图像。
在本实施例中,这两组书法数据分别属于域S和域T,其中si和ti均为真实图像,如图1所示,生成器Gst可以将图像si∈S映射到图像ti∈T。在映射过程中,通过DT获得域T的结构特征:T→Tcon,并使用这些特征来调整Gst生成图像的能力,然后参考现有模型并设置培训Gst:S→TG和Gts:T→SG的任务,图1中Srec表示待转换风格图像经过转换后再重建获得的图像,Trec表示目标风格图像经过转换后在重建获得的图像,Lrec1表示由原图像本身重建的损失函数,Lrec2表示图像经过转换后再重建的损失函数。
如图1所示部分为本发明模型的网络结构,网络结构的第一部分是特征捕获部分,在本实施例中设计均值和方差计算网络(即分布变换学习网络)以获得两个参数:每个样本的均值μ和方差δ2。该神经网络将样本的均值和方差作为特征值传递到FCN网络,并与原始样本ti∈T一起执行样本重构,以获得样本tcon∈Tcon。使用这种设计能够保留图像的高维信息(例如,图像结构和形状),并且在图像到图像的转换起着很大的作用。第二部分是图像转换部分。图像转换部分实现时根据FCN结构配置相同数量的上采样层和下采样层,这种设计的好处是在输入和输出之间共享低维信息,从而确保字体转换的有效性。
图像集S和图像集T中的图像作为以下函数输入,函数迭代ncritic次来训练模型:
ωS←clip(ωs,-c,c),ωT←clip(ωt,-c,c)
其中m为图像集T中图像个数,s为图像集S中的图像,t为图像集T中的图像,生成器Gst用于将图像si∈S映射到图像ti∈T,Gst(s)为由图像s生成的图像,ωS、ωT为判别器参数,为相应的损失函数,生成的图像Gst(si)和属于域T的真实图像由D1评估。D1是鉴别器确定图像是真还是假的基础,网络结构中的鉴别器由D2指示。
GAN中鉴别器的目的是区分生成的伪样本和真实样本。传统的鉴别器损失函数是S形交叉熵损失,但随着训练次数的增加,鉴别器变得越来越准确,整个训练过程将变得不稳定,本文中使用了WGAN的损失来解决这个问题。D1和D2中使用的相应损失函数定义为:
其中si∈S,ti∈T。
步骤三:图像集S中的图像s、图像集T中的图像t作为以下函数的输入:
其中θS,θT为生成器参数,μ为每个样本的均值,δ2为每个样本的方差;实现过程中使用生成器Gts将图像Gst(si)∈TG转换到域Srec,其生成器Gts(Gst(si))∈Srec是图像si的重建版本,之后使用Lrec2损失来衡量将si重建为Gts(Gst(si))。同时,对生成器Gst和Gts进行优化,以最小化两个重建损失:||Gts(Gst(si))-si||+||Gst(si)-ti||和||Gst(Gts(ti))-ti||+||Gts(ti)-si||;
对于图像到图像的转换模型,多个生成器可以共享损失函数,因为生成器具有相同的用途,最终获得式I的损失函数。
在本实施例中提供的书法风格转换模型,通过分布变换和重新参数化技巧为每个样本执行特征捕获,然后添加惩罚以进行校正,这些方法使我们的模型能够学习到不同书法家及其不同字体之间的结构特征差异;并且将WGAN的损失添加到和成对的采样层中,它确保了不同书法字体的结构特征在转换时的稳定性以及所生成书法字体图像的清晰度。
本实施例中提供的书法风格转换模型使用分布变换和重新参数化来捕获高维特征,此外基于无监督学习使用完全卷积网络(FCN)结构的图像转换学习框架作为生成器,使用PatchGAN结构作为判别器。
实施例二
一种基于生成对抗网络的中国书法风格转换方法,方法按照以下步骤执行:
步骤A、获得待转换风格的书法图像;
步骤B、采用实施例一中的基于生成对抗网络的中国书法风格转换模型构建方法中步骤2的方法进行预处理,获得预处理后的待转换风格的书法图像;
步骤C、将所述的预处理后的待转换风格的书法图像输入至实施例一中的基于生成对抗网络的中国书法风格转换模型构建方法获得的书法风格转换模型中,获得目标风格的书法图像。
在本实施例中,当未完成的书法字体修复时,例如颜真卿写了一个“大”字,但是由于某些原因,“大”字出现了缺失,而颜真卿所有的书法中都没有出现过“大”字,而王羲之曾写过“大”子,此时通过将颜真卿现有的书法集中的书法图像作为目标风格的书法图像,将王羲之的的书法图像作为待转换风格的书法图像,采用实施例一中的方法训练好一套模型后,将王羲之写过的“大”字的书法图像输入至模型中,就可以获得颜真卿书写风格的“大”字。
在本实施例中,使用结构差异较大的中国书法作为数据集进行实验并将结果与其他模型的进行比较,同时使用两种不同的标准对生成的数据进行评估。
首先是与生成的各种模型的结果进行比较,其次是对专业书法家的评估,最后使用书法数据作为实验样本来验证本模型的有效性。
以下通过选择不同风格书法数据采用本方法来得到书法转换结果,并进行评价:
数据集:
在本实施例中,选择了书法家颜真卿的楷书、赵孟頫的楷书、欧阳询的楷书、赵孟頫的行书作为数据集。这些数据集分别有1206、889、470和400幅图像。从每个数据集中随机选择15%作为测试数据,另外85%作为训练数据。图3所示为各书法家的书法真迹,从中可以看出不同书法都具有其各自的特点,其中红圈所圈出的地方代表各自的特色。
由图2(a)可以看出,颜真卿楷书(Yan Kai)的风格非常华丽,其笔触非常稳定,每一笔都保证了中间的粗细。赵孟頫楷书(Zhao Kai)的风格(如图2(b))非常漂亮,书法的笔画很有条理,具体表现为笔画中右撇比左撇粗。欧阳询楷书(Ou Kai)的书法风格(如图2(c)所示)严谨工整,书法的笔触没有明显的棱角。赵孟頫行书(Zhao Xing)的风格(如图2(d)所示)紧凑美观,这些笔画联系更紧密。以上所提到的这些特征都已用圈标出。
比较模型选择GAN和CycleGAN模型。其中,GAN是生成性对抗网络的原始版本。与DualGAN和DiscoGAN相比,CycleGAN测试了更复杂多样的数据类型,结果令人满意。这些结果证明,在图像到图像的转换模型中,CycleGAN是最通用的方法,也是最需要比较的。在本实施例中设计了两个实验:颜真卿楷书→赵孟頫楷书和欧阳询楷书→赵孟頫行书的跨结构书法转换。在实验之前,先进行一个简单的数据预处理,包括调整图像大小和设置灰度缩放变成单色图像。
从汉字的结构上看,汉字可分为单字结构、上下字结构、左右结构和包围结构。由于篇幅限制,仅展示从这些汉字结构中随机选择一两个样本进行测试。为了展现本发明提供的模型生成的汉字与书法真迹之间的相似性,进行了大量实验,实验结果表明,CalscGAN适用于所有汉字结构,并成功地转换成不同书法家的书写风格。在这里以赵孟頫行书真迹为例,使用图3(a)所示赵孟頫行书的片段,去掉第二和第五个汉字,使用CalscGAN生成这两个汉字得到新的书法片段(如图3(b)所示),并将结果与原始数据进行比较,结果再次显示了本发明提供的模型成功学习和转换成了不同书法家的书写风格。
使用CalscGAN模型进行一些包括欧阳询楷书→赵孟頫行书(实验结果如图4所示)、颜真卿楷书→赵孟頫行书这样的实验,来验证本发明提供的模型在同字体风格和不同字体风格书法中的转换有效性。
对不同书法家的不同字体风格进行转换:
在本实施例中用欧阳询楷书→赵孟頫行书的实验来验证本发明提供的的跨结构转换模型。在本实施例中认为不同类型的书法(如:楷书→行书)数据更容易学习。这是因为不同类型数据的差异更容易捕获。如图4所示,其中图4(a)为输入图像,图4(b)为CalscGAN模型的输出图像,图4(c)为GAN模型的输出图像,图4(d)为CycleGAN模型输出图像,在本实施例中使用书法的上下结构和左右结构作为输入数据,用未标记的数据训练CalscGAN,GAN和CycleGAN。CalscGAN成功模仿了赵孟頫行书并获得了赵孟頫行书的所有功能。GAN模型失去了太多细节,CycleGAN在很多细节上保留了输入数据的特征(这两个模型生成的书法数据的缺陷用圆圈标记),GAN模型只生成模糊的样本。CycleGAN从定义域S中学习书法笔划的构成,但未能从定义域T中学习其特征,许多笔划与定义域S更为相似,且在一些地方产生噪音(蓝色圆圈)。CycleGAN不仅从域S中学习书法的笔画结构,而且从域T中学习书法的风格结构。CycleGAN生成的图像比CycleGAN生成的图像更逼真,与定义域T的真伪书法相比,也具有较高的一致性。
对不同书法家的相同字体风格进行转换:
在本实施例中用颜真卿楷书→赵孟頫楷书验证本发明提供的的跨结构翻译模型,结果如图5所示,其中图5(a)为输入图像,图5(b)为CalscGAN模型的输出图像,图5(c)为GAN模型的输出图像,图5(d)为CycleGAN模型输出图像。同类型书法的跨域转换(例如不同书法家的楷书)比较困难,因为它展示了模型捕捉细微差异的能力。可以通过图4看到结果,使用四种书法结构作为输入数据,包括单一结构、上下结构、左右结构和被结构包围的结构。GAN模型只能生成两个图形的模瑚样本,无法区分哪些汉字是特定的。对于CycleGAN模型,图4中生成的图像丢失了很多笔画,这表明CycleGAN模型并未从域S中学习所有笔画结构。图5中的图像显示了很多噪声点(标有虚线圆圈),笔划中明显有拖动痕迹(标有实线圆圈),并且该拖动笔划更像是从域S继承,这表明CycleGAN无法有效地转换跨域结构。与前两个模型相比,CalscGAN模型不仅从域S学习书法结构,而且从域T学习书法风格并将其很好地结合在一起。与域T的书法真迹相比,它也具有高度的一致性。
使用这些书法字体的数据集,在字体风格转换方面,比较我们的模型与GAN模型和CycleGAN模型之间的区别:欧阳询楷书→赵孟頫行书(图5)、颜真卿楷书→赵孟頫楷书(图5)、欧阳询楷书→赵孟頫行书。以上所有模型均在同一训练数据集上进行训练,并在新模型上进行了测试。
除了生成图像的视觉比较,在本实施例中对图像进行编号,总共选择100个书法字体,其中奇数代表真实数据,偶数代表CalscGAN模型生成的数据。评估结果如表4所示。实验前只告诉专家,100幅图片中有50幅是正品书法,50幅是假书法。给三位专家足够的时间,让他们辨别这些样品的真伪。结果是,他们无法区分正品书法图像和模特产生的假图像,这证明了本发明所生成的书法图像是足够真实的。
表4评估结果
其中真实样本表示原书法图像,错误样本表示用本发明提供的方法生成的书法图像。
实施例三
在本实施例中公开了一种基于生成对抗网络的中国书法风格转换模型构建装置,所述的装置包括图像采集模块、预处理模块以及模型训练模块;
所述的图像采集模块用于采集多幅完整的待转换风格的书法图像,获得数据集;采集多幅完整的目标风格的书法图像,获得目标数据集;
所述的预处理模块用于对所述的数据集以及目标数据集进行预处理,获得预处理后的数据集以及预处理后的目标数据集;所述的预处理包括统一图像尺寸后进行二值化;
所述的模型训练模块用于将所述预处理后的数据集作为输入,将所述的预处理后的目标数据集作为参考输出,训练生成对抗网络;
其中所述的生成对抗网络包括依次设置的图像生成网络以及判别器;
所述的图像生成网络包括生成器以及分布变换学习网络,所述的生成器用于将所述的待转换风格的书法图像转换为目标风格的书法图像,所述的分布变换学习网络用于为所述的生成器提供目标风格的书法图像的特征;
获得中国书法风格转换模型。
可选地,所述的分布变换学习网络包括依次连接的第一卷积块、第二卷积块、全连接层、第三卷积块以及第四卷积块;
所述的第一卷积块包括依次连接的卷积层、池化层以及激活函数层;
所述的第二卷积块包括依次连接的卷积层、Batch Norm层以及激活函数层;
所述的第三卷积块包括依次连接的上采样层、卷积层、Batch Norm层以及连接层;
所述的第四卷积块包括依次连接的上采样层、卷积层以及Batch Norm层。
可选地,所述的分布变换学习网络中设置有3个第一卷积块、2个第二卷积块、4个第三卷积块以及1个第四卷积块。
可选地,所述的模型训练模块中训练生成对抗网络时,采用式I作为损失函数L:
其中si表示预处理后的数据集中的第i幅待转换风格的书法图像,ti表示预处理后的目标数据集中的第i幅目标风格的书法图像,i=1,2,…,I,I表示预处理后的数据集中图像的总数,I为正整数,Gst表示将待转换风格的书法图像转换为目标风格的书法图像的过程;Gts表示将目标风格的书法图像转换为待转换风格的书法图像的过程,λs和λt为定量参数,λs和λt的取值范围均在100至1000之间,D1表示待转换风格的书法图像经过转换后获得的目标风格的书法图像的真实性,D2表示目标风格的书法图像经过转换后获得的待转换风格的书法图像的真实性,Gst(si)表示预处理后的数据集中的第i幅待转换风格的书法图像经过转换后获得的目标风格的书法图像;Gts(Gst(si))表示经过转换后获得的目标风格的书法图像重建至待转换风格的书法图像;Gts(ti)表示预处理后的目标数据集中的第i幅目标风格的书法图像经过转换后获得的待转换风格的书法图像;Gst(Gts(ti))表示经过转换后获得的待转换风格的书法图像重建至目标风格的书法图像。
实施例四
在本实施例中提供了一种基于生成对抗网络的中国书法风格转换装置,装置包括图像获取模块、图像预处理模块以及风格转换模块;
所述的图像获取模块用于获得待转换风格的书法图像;
所述的图像预处理模块用于采用实施例一基于生成对抗网络的中国书法风格转换模型构建装置中的预处理模块对所述的待转换风格的书法图像进行预处理,获得预处理后的待转换风格的书法图像;
所述的风格转换模块用于将所述的预处理后的待转换风格的书法图像输入至实施例三基于生成对抗网络的中国书法风格转换模型构建装置获得的中国书法风格转换模型中,获得目标风格的书法图像。
Claims (4)
1.一种基于生成对抗网络的中国书法风格转换模型构建方法,用于提供一种将待转换风格的书法图像转换为目标风格的书法图像的模型建立方法,其特征在于,所述的方法按照以下步骤执行:
步骤1、采集多幅完整的待转换风格的书法图像,获得数据集;采集多幅完整的目标风格的书法图像,获得目标数据集;
步骤2、对所述的数据集以及目标数据集进行预处理,获得预处理后的数据集以及预处理后的目标数据集;所述的预处理包括统一图像尺寸后进行二值化;
步骤3、将所述预处理后的数据集作为输入,将所述的预处理后的目标数据集作为参考输出,训练生成对抗网络;
其中所述的生成对抗网络包括依次设置的图像生成网络以及判别器;
所述的图像生成网络包括生成器以及分布变换学习网络,所述的生成器用于将所述的待转换风格的书法图像转换为目标风格的书法图像,所述的分布变换学习网络用于为所述的生成器提供目标风格的书法图像的特征;
获得中国书法风格转换模型;
所述的分布变换学习网络包括依次连接的第一卷积块、第二卷积块、全连接层、第三卷积块以及第四卷积块;
所述的第一卷积块包括依次连接的卷积层、池化层以及激活函数层;
所述的第二卷积块包括依次连接的卷积层、Batch Norm层以及激活函数层;
所述的第三卷积块包括依次连接的上采样层、卷积层、Batch Norm层以及连接层;
所述的第四卷积块包括依次连接的上采样层、卷积层以及Batch Norm层;
所述的分布变换学习网络中设置有3个第一卷积块、2个第二卷积块、4个第三卷积块以及1个第四卷积块;
所述的步骤3中训练生成对抗网络时,采用式I作为损失函数L:
其中si表示预处理后的数据集中的第i幅待转换风格的书法图像,ti表示预处理后的目标数据集中的第i幅目标风格的书法图像,i=1,2,…,I,I表示预处理后的数据集中图像的总数,I为正整数,Gst表示将待转换风格的书法图像转换为目标风格的书法图像的过程;Gts表示将目标风格的书法图像转换为待转换风格的书法图像的过程,λs和λt为定量参数,λs和λt的取值范围均在100至1000之间,D1表示待转换风格的书法图像经过转换后获得的目标风格的书法图像的真实性,D2表示目标风格的书法图像经过转换后获得的待转换风格的书法图像的真实性,Gst(si)表示预处理后的数据集中的第i幅待转换风格的书法图像经过转换后获得的目标风格的书法图像;Gts(Gst(si))表示经过转换后获得的目标风格的书法图像重建至待转换风格的书法图像;Gts(ti)表示预处理后的目标数据集中的第i幅目标风格的书法图像经过转换后获得的待转换风格的书法图像;Gst(Gts(ti))表示经过转换后获得的待转换风格的书法图像重建至目标风格的书法图像。
2.一种基于生成对抗网络的中国书法风格转换方法,其特征在于,所述的方法按照以下步骤执行:
步骤A、获得待转换风格的书法图像;
步骤B、采用权利要求1所述的基于生成对抗网络的中国书法风格转换模型构建方法中步骤2的方法进行对待转换风格的书法图像预处理,获得预处理后的待转换风格的书法图像;
步骤C、将所述的预处理后的待转换风格的书法图像输入至权利要求1所述的基于生成对抗网络的中国书法风格转换模型构建方法获得的中国书法风格转换模型中,获得目标风格的书法图像。
3.一种基于生成对抗网络的中国书法风格转换模型构建装置,其特征在于,所述的装置包括图像采集模块、预处理模块以及模型训练模块;
所述的图像采集模块用于采集多幅完整的待转换风格的书法图像,获得数据集;采集多幅完整的目标风格的书法图像,获得目标数据集;
所述的预处理模块用于对所述的数据集以及目标数据集进行预处理,获得预处理后的数据集以及预处理后的目标数据集;所述的预处理包括统一图像尺寸后进行二值化;
所述的模型训练模块用于将所述预处理后的数据集作为输入,将所述的预处理后的目标数据集作为参考输出,训练生成对抗网络;
其中所述的生成对抗网络包括依次设置的图像生成网络以及判别器;
所述的图像生成网络包括生成器以及分布变换学习网络,所述的生成器用于将所述的待转换风格的书法图像转换为目标风格的书法图像,所述的分布变换学习网络用于为所述的生成器提供目标风格的书法图像的特征;
获得中国书法风格转换模型;
所述的分布变换学习网络包括依次连接的第一卷积块、第二卷积块、全连接层、第三卷积块以及第四卷积块;
所述的第一卷积块包括依次连接的卷积层、池化层以及激活函数层;
所述的第二卷积块包括依次连接的卷积层、Batch Norm层以及激活函数层;
所述的第三卷积块包括依次连接的上采样层、卷积层、Batch Norm层以及连接层;
所述的第四卷积块包括依次连接的上采样层、卷积层以及Batch Norm层;
所述的分布变换学习网络中设置有3个第一卷积块、2个第二卷积块、4个第三卷积块以及1个第四卷积块;
所述的模型训练模块中训练生成对抗网络时,采用式I作为损失函数L:
其中si表示预处理后的数据集中的第i幅待转换风格的书法图像,ti表示预处理后的目标数据集中的第i幅目标风格的书法图像,i=1,2,…,I,I表示预处理后的数据集中图像的总数,I为正整数,Gst表示将待转换风格的书法图像转换为目标风格的书法图像的过程;Gts表示将目标风格的书法图像转换为待转换风格的书法图像的过程,λs和λt为定量参数,λs和λt的取值范围均在100至1000之间,D1表示待转换风格的书法图像经过转换后获得的目标风格的书法图像的真实性,D2表示目标风格的书法图像经过转换后获得的待转换风格的书法图像的真实性,Gst(si)表示预处理后的数据集中的第i幅待转换风格的书法图像经过转换后获得的目标风格的书法图像;Gts(Gst(si))表示经过转换后获得的目标风格的书法图像重建至待转换风格的书法图像;Gts(ti)表示预处理后的目标数据集中的第i幅目标风格的书法图像经过转换后获得的待转换风格的书法图像;Gst(Gts(ti))表示经过转换后获得的待转换风格的书法图像重建至目标风格的书法图像。
4.一种基于生成对抗网络的中国书法风格转换装置,其特征在于,所述的装置包括图像获取模块、图像预处理模块以及风格转换模块;
所述的图像获取模块用于获得待转换风格的书法图像;
所述的图像预处理模块用于采用权利要求3所述的基于生成对抗网络的中国书法风格转换模型构建装置中的预处理模块对所述的待转换风格的书法图像进行预处理,获得预处理后的待转换风格的书法图像;
所述的风格转换模块用于将所述的预处理后的待转换风格的书法图像输入至权利要求3所述的基于生成对抗网络的中国书法风格转换模型构建装置获得的中国书法风格转换模型中,获得目标风格的书法图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257349.2A CN111062290B (zh) | 2019-12-10 | 2019-12-10 | 基于生成对抗网络中国书法风格转换模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257349.2A CN111062290B (zh) | 2019-12-10 | 2019-12-10 | 基于生成对抗网络中国书法风格转换模型构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062290A CN111062290A (zh) | 2020-04-24 |
CN111062290B true CN111062290B (zh) | 2023-04-07 |
Family
ID=70300341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911257349.2A Active CN111062290B (zh) | 2019-12-10 | 2019-12-10 | 基于生成对抗网络中国书法风格转换模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062290B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583412B (zh) * | 2020-04-29 | 2021-06-01 | 齐鲁工业大学 | 构建书法浮雕深度学习网络的方法及构建书法浮雕的方法 |
CN112435196B (zh) * | 2020-12-02 | 2022-11-29 | 中国人民解放军战略支援部队信息工程大学 | 基于深度学习的文字修复方法及系统 |
CN112818634B (zh) * | 2021-01-29 | 2024-04-05 | 上海海事大学 | 书法作品风格迁移系统、方法及终端 |
CN113140018B (zh) * | 2021-04-30 | 2023-06-20 | 北京百度网讯科技有限公司 | 训练对抗网络模型的方法、建立字库的方法、装置和设备 |
CN116091363A (zh) * | 2023-04-03 | 2023-05-09 | 南京信息工程大学 | 一种书法汉字图像修复方法及系统 |
CN117272941B (zh) * | 2023-09-21 | 2024-10-11 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备、计算机可读存储介质及产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019015466A1 (zh) * | 2017-07-17 | 2019-01-24 | 广州广电运通金融电子股份有限公司 | 人证核实的方法及装置 |
CN109635883A (zh) * | 2018-11-19 | 2019-04-16 | 北京大学 | 基于深度堆叠网络的结构信息指导的中文字库生成方法 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102403494B1 (ko) * | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
-
2019
- 2019-12-10 CN CN201911257349.2A patent/CN111062290B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019015466A1 (zh) * | 2017-07-17 | 2019-01-24 | 广州广电运通金融电子股份有限公司 | 人证核实的方法及装置 |
CN109635883A (zh) * | 2018-11-19 | 2019-04-16 | 北京大学 | 基于深度堆叠网络的结构信息指导的中文字库生成方法 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
Non-Patent Citations (2)
Title |
---|
何剑华 ; 龙法宁 ; 朱晓姝 ; .基于改进的CycleGAN模型非配对的图像到图像转换.玉林师范学院学报.2018,(02),全文. * |
许哲豪 ; 陈玮 ; .基于生成对抗网络的图片风格迁移.软件导刊.2018,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111062290A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062290B (zh) | 基于生成对抗网络中国书法风格转换模型构建方法及装置 | |
US10748324B2 (en) | Generating stylized-stroke images from source images utilizing style-transfer-neural networks with non-photorealistic-rendering | |
CN110378985B (zh) | 一种基于gan的动漫绘画辅助创作方法 | |
CN108304357B (zh) | 一种基于字体流形的中文字库自动生成方法 | |
Sheng et al. | Deep neural representation guided face sketch synthesis | |
CN111242841A (zh) | 一种基于语义分割和深度学习的图片背景风格迁移方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN109325513B (zh) | 一种基于海量单类单幅图像的图像分类网络训练方法 | |
CN111161405B (zh) | 一种动物毛发三维重建方法 | |
CN108564120A (zh) | 基于深度神经网络的特征点提取方法 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
Wei et al. | A-ESRGAN: Training real-world blind super-resolution with attention U-Net Discriminators | |
Yang et al. | Multiscale mesh deformation component analysis with attention-based autoencoders | |
Liang et al. | A robot calligraphy writing method based on style transferring algorithm and similarity evaluation | |
CN115170388A (zh) | 人物线稿生成方法、装置、设备及介质 | |
CN110717978A (zh) | 基于单张图像的三维头部重建方法 | |
Yu et al. | Sketch Beautification: Learning Part Beautification and Structure Refinement for Sketches of Man-made Objects | |
CN115908600A (zh) | 基于先验正则化的大批量图像重建方法 | |
Wu et al. | Sketchscene: Scene sketch to image generation with diffusion models | |
CN115018729A (zh) | 一种面向内容的白盒图像增强方法 | |
CN114399427A (zh) | 一种基于循环生成对抗网络的字效迁移方法 | |
CN114445280A (zh) | 一种基于注意力机制的点云下采样方法 | |
Zhou et al. | Style Conversion of Fine Arts Based on Deep Learning Algorithms and CAD Technology | |
CN117495660A (zh) | 基于轻量级生成对抗网络的脸谱图像生成方法 | |
Zhou et al. | Chip-SAGAN: A self-attention generative adversarial network for Chinese ink wash painting style transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |