CN113393370A - 中国书法文字图像风格迁移的方法、系统、智能终端 - Google Patents
中国书法文字图像风格迁移的方法、系统、智能终端 Download PDFInfo
- Publication number
- CN113393370A CN113393370A CN202110616129.5A CN202110616129A CN113393370A CN 113393370 A CN113393370 A CN 113393370A CN 202110616129 A CN202110616129 A CN 202110616129A CN 113393370 A CN113393370 A CN 113393370A
- Authority
- CN
- China
- Prior art keywords
- style
- picture
- discriminator
- content
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 70
- 230000005012 migration Effects 0.000 claims abstract description 31
- 238000013508 migration Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 47
- 230000004913 activation Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002087 whitening effect Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 102100022778 POC1 centriolar protein homolog A Human genes 0.000 description 1
- 101710125073 POC1 centriolar protein homolog A Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明属于文字图像处理技术领域,公开了一种中国书法文字图像风格迁移的方法、系统、智能终端,从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;源风格图片、目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。本发明克服了现有技术中的中国书法风格迁移模型输入数据必须为严格的配对数据这一缺陷;且克服了传统中国书法文字迁移模型效果差,生成效率低问题。
Description
技术领域
本发明属于文字图像处理技术领域,尤其涉及一种中国书法文字图像风格迁移的方法、系统、智能终端。
背景技术
目前:中国书法风格迁移中的许多问题都可能会遇到将输入内容图像转换为目标风格图像,这些转换问题一直是研究人员关注的焦点。
传统的中国书法风格迁移通过将汉字分解再重组的形式生成文字图像,虽然能实现迁移效果,但对于复杂汉字很难进行分离和重组,此时需要人工干预且耗时严重。近年来基于神经网络最熟悉的的风格迁移模型有Pix2Pix、Rewrite和Zi2Zi,可能在构造思路上存在细微差异,但相同点都是使用生成对抗网络来构建模型。Pix2Pix利用成对的训练数据对模型进行有监督训练实现风格迁移;Rewrite基于卷积神经网络运用到字体图像生成;Zi2Zi通过类别标签区分输入的多种内容和风格图像实现书法风格迁移。但现实中很难找到大量的成对的训练数据,且当前的这些模型不能很好的泛化到新风格上,不能满足所有中国书法风格迁移任务的需求。
在中国书法风格迁移时,内容图像转化为其他风格图像存在着结构差异,现有模型只能学习给定的内容图像和目标风格图像实现迁移,如果能将内容图像和风格图像分别编码进行处理,那么很多复杂问题都可以得到解决,比如将内容图像迁移到新风格图像等,这对实现书法风格迁移来说相当重要。
通过上述分析,现有技术存在的问题及缺陷为:现有技术在中国书法风格迁移时,内容图像转化为其他风格图像存在着结构差异,现有模型只能学习给定的内容图像和目标风格图像实现迁移,无监督情况下文字风格迁移效果不佳,体现在书法不能很好地迁移到新风格上,在迁移到新风格时会出现局域模糊和风格混淆现象且生成效率低。
解决以上问题及缺陷的难度为:源风格图片数据集及目标样式图片数据集的获取;将内容编码器与风格编码器分离设计自编码网络结构;具体代码的实现。
解决以上问题及缺陷的意义为:训练的书法文字图像风格迁移方法可以从现存的书法真迹中提取书法家的风格,并使用现代技术生成与书法家风格一致的书法字,这不仅对于中国书法文化的传承具有重要的意义,而且对带有书法字的文物的虚拟修复也具有重要的价值。
发明内容
针对现有技术存在的问题,本发明提供了一种中国书法文字图像风格迁移的方法、系统、智能终端。
本发明是这样实现的,一种中国书法文字图像风格迁移的方法,所述中国书法文字图像风格迁移的方法包括:
从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本,该步骤解释了训练书法风格迁移模型样本数据集的获取,为模型训练做前期准备;
源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果,该步骤解释了书法风格迁移模型的训练过程,分别提取内容图像内容特征和风格图像风格特征,便于后面特征变换实现风格转换;
将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型,该步骤解释了书法风格迁移模型的获取,用制作好的训练数据训练模型,不断更新网络参数优化模型,以至模型生成的迁移效果图像更好。
进一步,所述源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果,具体按照以下步骤实施:
(1)对获取到的数据集进行预处理,预处理包括统一图片尺寸及清除空白图片;
(2)设置生成对抗网络,由1个生成器G和1个鉴别器D组成,生成器包括2个编码器,记为内容编码器Ec和风格编码器Es,和1个解码器De,编码器和解码器之间包含1个AdaIN模块和1个Mask模块,生成对抗网络有3个损失函数,对抗性损失、内容损失、风格损失;
(3)生成器G负责把预处理后源风格图片训练成目标风格样式的图片,然后更新内容损失和风格损失,得到生成图片,鉴别器D将预处理后的目标样式的图片和生成器G生成的图片作为输入,更新对抗性损失,预测图片是生成器生成的图片还是源风格样式的图片。
进一步,所述将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型,具体按照以下步骤实施:
(1)选取预处理后的任意一张源风格图片C作为样本输入到编码器Ec中,得到源风格图片的特征x,选取预处理后的任意一张目标风格图片S作为样本输入到编码器Es中,得到目标风格图片的特征y;
(2)将得到的源风格图片的内容特征x和目标风格图片的风格特征y输入到AdaIN模块,首先对源风格图片的内容特征x去风格化得到特征ω,具体公式如下:
其中,x表示内容图像的内容特征,y是风格图像的风格特征,μ(x)表示内容特征的均值,σ(x)表示内容特征的方差,ω表示白化操作去风格化后的特征。然后对源风格图片融入目标风格图片的风格得到AdaIN(x,y),具体的公式如下:
AdaIN(x,y)=ω·σ(y)+μ(y)(2)
其中y表示风格图像的风格特征,σ(y)表示目标风格图像的标准差,μ(y)表示目标风格图像的均值,ω是第一步白化操作去风格化后的特征,AdaIN(x,y)表示源风格图片去除原有的风格再融入目标样式的风格得到特征;
(3)将得到的源风格图片特征x和目标风格图片特征y,以及得到的结果AdaIN(x,y)输入到mask模块中得到特征z,具体的公式如下:
z=M(x,y)·x+[1-M(x,y)]·AdaIN(x,y) (3)
其中M(x,y)表示mask模块生成的掩码,x表示内容编码器提取的内容特征,y是风格编码器提取的风格特征,AdaIN(x,y)表示自适应实例归一化的结果,z表示融合源风格图片特征、目标风格图片特征及AdaIN(x,y)特征的结果;
(4)将得到的特征z输入到解码器De中,生成一张目标风格样式的图片S’;
(5)将生成的图片S’输入内容编码器Ec和风格编码器Es,计算内容损失和风格损失,两者均采用L1损失进行计算,具体的计算公式如下:
其中Lcontent表示内容损失,Lstyle表示风格损失,x表示内容编码器Ec提取的内容特征、Ec(S’)表示生成器生成的假图像S’经过内容编码器Ec提取的内容特征、Es(S′)表示假图像S’经过风格编码器Es后提取的风格特征、表示生成图像S’在内容上服从原风格图像S概率分布的期望、表示生成图像S’在风格上服从原风格图像S概率分布的期望;
(6)将生成的图片S’和预处理得到的目标风格图片S输入到鉴别器D,计算对抗损失Ladv,具体的计算公式如下:
Ladv=Ex[log(D(x))]+ES’[log(1-D(S’))] (6)
其中Ladv表示对抗损失,x表示源风格图像S经过内容编码器Ec提取的内容特征、D(x)表示源风格图像S输入鉴别器De后的输出值、D(S’)表示生成的假图像S’输入鉴别器De的输出值、Ex表示源风格图像S服从真实数据概率分布的期望、ES’表示假图像S’服从生成数据概率分布的期望;
(7)最终总的损失函数为生成器损失和鉴别器损失的总和,表示如下:
Ltotal=Ladv+α·Lcontent+β·Lstyle (7)
其中Ltotal表示对抗网络的损失总和,Ladv表示鉴别器的对抗损失,Lcontent表示生成器的内容损失,Lstyle表示生成器的风格损失,α和β别表示子损失函数所占的权重比例,经过对抗性训练,不断更新网络参数,优化生成器和鉴别器的损失值,损失值越小表明训练越成功,也就是训练生成的图片风格越接近目标样式的图片。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的中国书法文字图像风格迁移的方法。
本发明的另一目的在于提供一种实施所述中国书法文字图像风格迁移的方法的中国书法文字图像风格迁移的系统,所述中国书法文字图像风格迁移的系统包括:
训练样本模块,用于从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
训练样本处理模块,用于将源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
书法风格迁移模型获取模块,用于将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
进一步,所述生成对抗网络包括生成器和鉴别器,生成器包括内容编码器、风格编码器,AdaIN模块、Mask模块和解码器;
内容编码器用于提取源风格图片的内容特征;风格编码器用于提取目标风格图片的风格特征;AdaIN模块用于对内容特征去风格化然后融入目标样式的风格;Mask模块是一个注意力机制模块用于融合内容特征、风格特征和AdaIN模块得到的特征;解码器用于将Mask模块处理后的特征生成目标样式的图片,鉴别器对生成器生成的结果进行评估,评判参数根据损失函数给出。
进一步,一共5个编码块,每个编码块由相应的卷积层、池化层和激活层形成,第一个编码块包含两个卷积层,通道数分别为3和64;第二个编码块有两个卷积层,其通道数为64和128;第三个编码块包含两个通道数分别为128和256的卷积层;第四个编码块由四个卷积层形成,其通道数分别为256、256、256和512;第五个编码块包含四个卷积层,通道数依次为512、512、512和512;编码器中的激活函数LeakyRELU函数;本实例输入的图片经过各层之后的卷积大小分别为:224、224、224、112、112、56、56、56、56、28、28、28、28、14。
进一步,Mask模块具体结构,由5个卷积层和1个反卷积层组成,通道分别为256、256、512、512、256、1472;Mask模块中每一层的激活函数分别为LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、Tanh函数;Mask模块中也使用了剪枝策略,dropout的概率值为0.5。
进一步,解码器与编码器的结构对应,也是一共5个编码块,解码器的卷积层相反即为解码器的构成,解码器通过反卷积还原特征,生成目标风格图像;解码器中的激活函数为ReLU函数;Mask模块的特征进入解码器得到的卷积大小分别为:14、28、28、28、28、56、56、56、56、112、112、224、224、224;
鉴别器的结构,由依次连接的卷积层、池化层和全连接层组成,激活函数为LeakyRELU函数。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明基于内容编码器和风格编码器的分离,分别提取源风格图片的内容特征和目标风格图片的风格特征,然后在编码器和解码器之间引入AdaIN和Mask模块处理提取的内容特征和风格特征,通过对抗网络不断迭代更新进行训练,从而得到书法的风格迁移模型。解决了无配对情况下对书法文字的风格迁移难题,同时也提高了书法风格迁移的准确性。这不仅对中国书法文化的传承具有重要的意义,而且对带有书法字的文物的虚拟修复也有重要的价值。
附图说明
图1是本发明实施例提供的中国书法文字图像风格迁移的方法流程图。
图2是本发明实施例提供的中国书法文字图像风格迁移的系统的结构示意图;
图2中:1、训练样本模块;2、训练样本处理模块;3、书法风格迁移模型获取模块。
图3是本发明实施例提供的中国书法文字图像风格迁移的方法的实现流程图。
图4(a)是本发明实施例提供的源内容数据集的部分展示图。
图4(b)是本发明实施例提供的目标样式数据集的部分展示图。
图5是本发明实施例提供的网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种中国书法文字图像风格迁移的方法、系统、智能终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的中国书法文字图像风格迁移的方法包括以下步骤:
S101:从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
S102:源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
S103:将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
本发明提供的中国书法文字图像风格迁移的方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的中国书法文字图像风格迁移的方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的中国书法文字图像风格迁移的系统包括:
训练样本模块1,用于从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
训练样本处理模块2,用于将源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
书法风格迁移模型获取模块3,用于将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明提供的中国书法文字图像风格迁移的方法包括以下步骤:
步骤一,从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
步骤二,源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果,具体按照以下步骤实施:
步骤2-1,对步骤一中获取到的数据集进行预处理,预处理包括统一图片尺寸及清除空白图片,预处理之后的部分数据集展示如图4所示;
步骤2-2,设置生成对抗网络,由1个生成器G和1个鉴别器D组成,生成器包括2个编码器,记为内容编码器Ec和风格编码器Es,和1个解码器De,编码器和解码器之间包含1个AdaIN模块和1个Mask模块,生成对抗网络有3个损失函数,对抗性损失、内容损失、风格损失,网络结构图如图5所示;
步骤2-3,生成器G负责把步骤二预处理后源风格图片训练成目标风格样式的图片,然后更新内容损失和风格损失,得到生成图片,鉴别器D将步骤二预处理后的目标样式的图片和步骤2-3生成器G生成的图片作为输入,更新对抗性损失,预测图片是生成器生成的图片还是源风格样式的图片;
步骤三,将步骤2-1制作得到的训练集输入到步骤2-2的对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型,具体按照以下步骤实施:
步骤3-1,选取步骤2-1中预处理后的任意一张源风格图片C作为样本输入到编码器Ec中,得到源风格图片的特征x,选取步骤2-1中预处理后的任意一张目标风格图片S作为样本输入到编码器Es中,得到目标风格图片的特征y;
步骤3-2,将步骤3-1得到的源风格图片的内容特征x和目标风格图片的风格特征y输入到AdaIN模块,首先对源风格图片的内容特征x去风格化得到特征ω,具体公式如下:
其中,x表示内容图像的内容特征,y是风格图像的风格特征,μ(x)表示内容特征的均值,σ(x)表示内容特征的方差,ω表示白化操作去风格化后的特征。然后对源风格图片融入目标风格图片的风格得到AdaIN(x,y),具体的公式如下:
AdaIN(x,y)=ω·σ(y)+μ(y)(2)
其中y表示风格图像的风格特征,σ(y)表示目标风格图像的标准差,μ(y)表示目标风格图像的均值,ω是第一步白化操作去风格化后的特征,AdaIN(x,y)表示源风格图片去除原有的风格再融入目标样式的风格得到特征;
步骤3-3,将步骤3-1得到的源风格图片特征x和目标风格图片特征y,以及步骤3-2得到的结果AdaIN(x,y)输入到mask模块中得到特征z,具体的公式如下:
z=M(x,y)·x+[1-M(x,y)]·AdaIN(x,y) (3)
其中M(x,y)表示mask模块生成的掩码,x表示内容编码器提取的内容特征,y是风格编码器提取的风格特征,AdaIN(x,y)表示自适应实例归一化的结果,z表示融合源风格图片特征、目标风格图片特征及AdaIN(x,y)特征的结果;
步骤3-4,将步骤3-3得到的特征z输入到解码器De中,生成一张目标风格样式的图片S’;
步骤3-5,将步骤3-4生成的图片S’输入内容编码器Ec和风格编码器Es,计算内容损失和风格损失,两者均采用L1损失进行计算,具体的计算公式如下:
其中Lcontent表示内容损失,Lstyle表示风格损失,x表示内容编码器Ec提取的内容特征、Es(S’)表示生成器生成的假图像S’经过内容编码器Ec提取的内容特征、Es(S’)表示假图像S’经过风格编码器Es后提取的风格特征、表示生成图像S’在内容上服从原风格图像S概率分布的期望、表示生成图像S’在风格上服从原风格图像S概率分布的期望;
步骤3-6,将步骤3-4生成的图片S’和步骤2-1预处理得到的目标风格图片S输入到鉴别器D,计算对抗损失Ladv,具体的计算公式如下:
Ladv=Ex[log(D(x))]+ES’[log(1-D(S’))] (6)
其中Ladv表示对抗损失,x表示源风格图像S经过内容编码器Ec提取的内容特征、D(x)表示源风格图像S输入鉴别器De后的输出值(表示该图像为真实图像的概率)、D(S’)表示生成的假图像S’输入鉴别器De的输出值(表示图像为真实图像的概率)、Ex表示源风格图像S服从真实数据概率分布的期望、ES’表示假图像S’服从生成数据概率分布的期望。
步骤3-7,最终总的损失函数为步骤3-5生成器损失和步骤3-6鉴别器损失的总和,表示如下:
Ltotal=Ladv+α·Lcontent+β·Lstyle (7)
其中Ltotal表示对抗网络的损失总和,Ladv表示鉴别器的对抗损失,Lcontent表示生成器的内容损失,Lstyle表示生成器的风格损失,α和β别表示子损失函数所占的权重比例,经过对抗性训练,不断更新网络参数,优化生成器和鉴别器的损失值,损失值越小表明训练越成功,也就是训练生成的图片风格越接近目标样式的图片。
在本实例中,生成对抗网络包括生成器和鉴别器,生成器包括内容编码器、风格编码器,AdaIN模块、Mask模块和解码器,其中内容编码器用于提取源风格图片的内容特征,风格编码器用于提取目标风格图片的风格特征,AdaIN模块用于对内容特征去风格化然后融入目标样式的风格,Mask模块是一个注意力机制模块用于融合内容特征、风格特征和AdaIN模块得到的特征,解码器用于将Mask模块处理后的特征生成目标样式的图片,鉴别器对生成器生成的结果进行评估,评判参数根据损失函数给出。
其中内容编码器和风格编码器结构相同,具体结构如表1所示,结构一共5个编码块,每个编码块由相应的卷积层、池化层和激活层形成,第一个编码块包含两个卷积层,通道数分别为3和64;第二个编码块有两个卷积层,其通道数为64和128;第三个编码块包含两个通道数分别为128和256的卷积层;第四个编码块由四个卷积层形成,其通道数分别为256、256、256和512;第五个编码块包含四个卷积层,通道数依次为512、512、512和512;编码器中的激活函数LeakyRELU函数;本实例输入的图片经过各层之后的卷积大小分别为:224、224、224、112、112、56、56、56、56、28、28、28、28、14。
表1编码器的网络结构
其中Mask模块具体结构如表2所示,由5个卷积层和1个反卷积层组成,通道分别为256、256、512、512、256、1472;Mask模块中每一层的激活函数分别为LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、Tanh函数;Mask模块中也使用了剪枝策略,dropout的概率值为0.5。
表2 Mask模块的网络结构
其中,解码器与编码器的结构对应,结构如表3所示,也是一共5个编码块,解码器的卷积层相反即为解码器的构成,解码器通过反卷积还原特征,生成目标风格图像;解码器中的激活函数为ReLU函数;Mask模块的特征进入解码器得到的卷积大小分别为:14、28、28、28、28、56、56、56、56、112、112、224、224、224;
表3解码器的网络结构
其中鉴别器的结构如表4所示,由依次连接的卷积层、池化层和全连接层组成,激活函数为LeakyRELU函数;
表4鉴别器的网络结构
第一层 | 第二层 | 第三层 | 第四层 | 第五层 | 第六层 |
卷积层 | 卷积层 | 卷积层 | 卷积层 | 卷积层 | 全连接层 |
池化层 | 激活函数层 | 激活函数层 | 激活函数层 | 激活函数层 | |
激活函数层 | Batch Norm层 | Batch Norm层 | Batch Norm层 | Batch Norm层 |
在本实例中对图像进行编号,总共选择100个书法字体,其中奇数代表真实数据,偶数代表设计的书法迁移模型生成的数据。评估结果如表5所示。实验前只告诉专家,100幅图片中有50幅是正品书法,50幅是假书法。给4位专家足够的时间,让他们辨别这些样品的真伪。结果是,他们无法区分正品书法图像和模型产生的假图像,这证明了本发明所生成的书法图像是足够真实的。
表5评估结果
其中真实样本表示原书法图像,错误样本表示用本发明提供的方法生成的书法图像。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种中国书法文字图像风格迁移的方法,其特征在于,所述中国书法文字图像风格迁移的方法包括:
从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
2.如权利要求1所述的中国书法文字图像风格迁移的方法,其特征在于,所述源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果,具体按照以下步骤实施:
(1)对获取到的数据集进行预处理,预处理包括统一图片尺寸及清除空白图片;
(2)设置生成对抗网络,由1个生成器G和1个鉴别器D组成,生成器包括2个编码器,记为内容编码器Ec和风格编码器Es,和1个解码器De,编码器和解码器之间包含1个AdaIN模块和1个Mask模块,生成对抗网络有3个损失函数,对抗性损失、内容损失、风格损失;
(3)生成器G负责把预处理后源风格图片训练成目标风格样式的图片,然后更新内容损失和风格损失,得到生成图片,鉴别器D将预处理后的目标样式的图片和生成器G生成的图片作为输入,更新对抗性损失,预测图片是生成器生成的图片还是源风格样式的图片。
3.如权利要求1所述的中国书法文字图像风格迁移的方法,其特征在于,所述将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型,具体按照以下步骤实施:
(1)选取预处理后的任意一张源风格图片C作为样本输入到编码器Ec中,得到源风格图片的特征x,选取预处理后的任意一张目标风格图片S作为样本输入到编码器Es中,得到目标风格图片的特征y;
(2)将得到的源风格图片的内容特征x和目标风格图片的风格特征y输入到AdaIN模块,首先对源风格图片的内容特征x去风格化得到特征ω,具体公式如下:
其中,x表示内容图像的内容特征,y是风格图像的风格特征,μ(x)表示内容特征的均值,σ(x)表示内容特征的方差,ω表示白化操作去风格化后的特征;然后对源风格图片融入目标风格图片的风格得到AdaIN(x,y),具体的公式如下:
AdaIN(x,y)=ω·σ(y)+μ(y)(2)
其中y表示风格图像的风格特征,σ(y)表示目标风格图像的标准差,μ(y)表示目标风格图像的均值,ω是第一步白化操作去风格化后的特征,AdaIN(x,y)表示源风格图片去除原有的风格再融入目标样式的风格得到特征;
(3)将得到的源风格图片特征x和目标风格图片特征y,以及得到的结果AdaIN(x,y)输入到mask模块中得到特征z,具体的公式如下:
z=M(x,y)·x+[1-M(x,y)]·AdaIN(x,y)(3)
其中M(x,y)表示mask模块生成的掩码,x表示内容编码器提取的内容特征,y是风格编码器提取的风格特征,AdaIN(x,y)表示自适应实例归一化的结果,z表示融合源风格图片特征、目标风格图片特征及AdaIN(x,y)特征的结果;
(4)将得到的特征z输入到解码器De中,生成一张目标风格样式的图片S’;
(5)将生成的图片S’输入内容编码器Ec和风格编码器Es,计算内容损失和风格损失,两者均采用L1损失进行计算,具体的计算公式如下:
其中Lcontent表示内容损失,Lstyle表示风格损失,x表示内容编码器Ec提取的内容特征、Ec(S’)表示生成器生成的假图像S’经过内容编码器Ec提取的内容特征、Es(S’)表示假图像S’经过风格编码器Es后提取的风格特征、表示生成图像S’在内容上服从原风格图像S概率分布的期望、表示生成图像S’在风格上服从原风格图像S概率分布的期望;
(6)将生成的图片S’和预处理得到的目标风格图片S输入到鉴别器D,计算对抗损失Ladv,具体的计算公式如下:
Ladv=Ex[log(D(x))]+ES’[log(1-D(S’))](6)
其中Ladv表示对抗损失,x表示源风格图像S经过内容编码器Ec提取的内容特征、D(x)表示源风格图像S输入鉴别器De后的输出值、D(S’)表示生成的假图像S’输入鉴别器De的输出值、Ex表示源风格图像S服从真实数据概率分布的期望、ES’表示假图像S’服从生成数据概率分布的期望;
(7)最终总的损失函数为生成器损失和鉴别器损失的总和,表示如下:
Ltotal=Ladv+α·Lcontent+β·Lstyle(7)
其中Ltotal表示对抗网络的损失总和,Ladv表示鉴别器的对抗损失,Lcontent表示生成器的内容损失,Lstyle表示生成器的风格损失,α和β别表示子损失函数所占的权重比例,经过对抗性训练,不断更新网络参数,优化生成器和鉴别器的损失值,损失值越小表明训练越成功,也就是训练生成的图片风格越接近目标样式的图片。
4.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
5.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~3任意一项所述的中国书法文字图像风格迁移的方法。
6.一种实施权利要求1~3任意一项所述中国书法文字图像风格迁移的方法的中国书法文字图像风格迁移的系统,其特征在于,所述中国书法文字图像风格迁移的系统包括:
训练样本模块,用于从ttf字库中制作源风格图片和目标风格图片各n张,输出图片为jpg格式,得到2n张图片,作为训练样本;
训练样本处理模块,用于将源风格图片用于提供内容特征,目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
书法风格迁移模型获取模块,用于将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得书法风格迁移模型。
7.如权利要求6所述的中国书法文字图像风格迁移的系统,其特征在于,所述生成对抗网络包括生成器和鉴别器,生成器包括内容编码器、风格编码器,AdaIN模块、Mask模块和解码器;
内容编码器用于提取源风格图片的内容特征;风格编码器用于提取目标风格图片的风格特征;AdaIN模块用于对内容特征去风格化然后融入目标样式的风格;Mask模块是一个注意力机制模块用于融合内容特征、风格特征和AdaIN模块得到的特征;解码器用于将Mask模块处理后的特征生成目标样式的图片,鉴别器对生成器生成的结果进行评估,评判参数根据损失函数给出。
8.如权利要求7所述的中国书法文字图像风格迁移的系统,其特征在于,一共5个编码块,每个编码块由相应的卷积层、池化层和激活层形成,第一个编码块包含两个卷积层,通道数分别为3和64;第二个编码块有两个卷积层,其通道数为64和128;第三个编码块包含两个通道数分别为128和256的卷积层;第四个编码块由四个卷积层形成,其通道数分别为256、256、256和512;第五个编码块包含四个卷积层,通道数依次为512、512、512和512;编码器中的激活函数LeakyRELU函数;本实例输入的图片经过各层之后的卷积大小分别为:224、224、224、112、112、56、56、56、56、28、28、28、28、14。
9.如权利要求7所述的中国书法文字图像风格迁移的系统,其特征在于,Mask模块具体结构,由5个卷积层和1个反卷积层组成,通道分别为256、256、512、512、256、1472;Mask模块中每一层的激活函数分别为LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、LeakyReLU函数、Tanh函数;Mask模块中也使用了剪枝策略,dropout的概率值为0.5。
10.如权利要求7所述的中国书法文字图像风格迁移的系统,其特征在于,解码器与编码器的结构对应,也是一共5个编码块,解码器的卷积层相反即为解码器的构成,解码器通过反卷积还原特征,生成目标风格图像;解码器中的激活函数为ReLU函数;Mask模块的特征进入解码器得到的卷积大小分别为:14、28、28、28、28、56、56、56、56、112、112、224、224、224;
鉴别器的结构,由依次连接的卷积层、池化层和全连接层组成,激活函数为LeakyRELU函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616129.5A CN113393370A (zh) | 2021-06-02 | 2021-06-02 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616129.5A CN113393370A (zh) | 2021-06-02 | 2021-06-02 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113393370A true CN113393370A (zh) | 2021-09-14 |
Family
ID=77619968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110616129.5A Pending CN113393370A (zh) | 2021-06-02 | 2021-06-02 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393370A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808011A (zh) * | 2021-09-30 | 2021-12-17 | 深圳万兴软件有限公司 | 一种基于特征融合的风格迁移方法、装置及其相关组件 |
CN113807430A (zh) * | 2021-09-15 | 2021-12-17 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
CN114266943A (zh) * | 2021-12-28 | 2022-04-01 | 中移(杭州)信息技术有限公司 | 图像风格迁移方法、装置、设备及存储介质 |
CN115146587A (zh) * | 2022-06-28 | 2022-10-04 | 北京汉仪创新科技股份有限公司 | 一种手写中文字库生成方法、系统、电子设备和存储介质 |
CN116402067A (zh) * | 2023-04-06 | 2023-07-07 | 哈尔滨工业大学 | 面向多语种文字风格保持的跨语言自监督生成方法 |
CN116721306A (zh) * | 2023-05-24 | 2023-09-08 | 北京思想天下教育科技有限公司 | 基于大数据云平台的线上学习内容推荐系统 |
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
-
2021
- 2021-06-02 CN CN202110616129.5A patent/CN113393370A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807430A (zh) * | 2021-09-15 | 2021-12-17 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
CN113807430B (zh) * | 2021-09-15 | 2023-08-08 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
CN113808011A (zh) * | 2021-09-30 | 2021-12-17 | 深圳万兴软件有限公司 | 一种基于特征融合的风格迁移方法、装置及其相关组件 |
CN113808011B (zh) * | 2021-09-30 | 2023-08-11 | 深圳万兴软件有限公司 | 一种基于特征融合的风格迁移方法、装置及其相关组件 |
CN114266943A (zh) * | 2021-12-28 | 2022-04-01 | 中移(杭州)信息技术有限公司 | 图像风格迁移方法、装置、设备及存储介质 |
CN115146587A (zh) * | 2022-06-28 | 2022-10-04 | 北京汉仪创新科技股份有限公司 | 一种手写中文字库生成方法、系统、电子设备和存储介质 |
CN116402067A (zh) * | 2023-04-06 | 2023-07-07 | 哈尔滨工业大学 | 面向多语种文字风格保持的跨语言自监督生成方法 |
CN116402067B (zh) * | 2023-04-06 | 2024-01-30 | 哈尔滨工业大学 | 面向多语种文字风格保持的跨语言自监督生成方法 |
CN116721306A (zh) * | 2023-05-24 | 2023-09-08 | 北京思想天下教育科技有限公司 | 基于大数据云平台的线上学习内容推荐系统 |
CN116721306B (zh) * | 2023-05-24 | 2024-02-02 | 北京思想天下教育科技有限公司 | 基于大数据云平台的线上学习内容推荐系统 |
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113393370A (zh) | 中国书法文字图像风格迁移的方法、系统、智能终端 | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN110569033A (zh) | 一种数字化交易类智能合约基础代码生成方法 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN111476285B (zh) | 一种图像分类模型的训练方法及图像分类方法、存储介质 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113763371B (zh) | 病理图像的细胞核分割方法及装置 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
CN111401156A (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN115311130A (zh) | 一种多风格中国书法文字图像风格迁移方法、系统及终端 | |
CN115034200A (zh) | 图纸信息提取方法、装置、电子设备及存储介质 | |
CN116958827A (zh) | 一种基于深度学习的撂荒区域提取方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN114399775A (zh) | 文档标题生成方法、装置、设备及存储介质 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN117746186A (zh) | 低秩自适应模型的训练方法、文本生成图像方法、系统 | |
CN117152438A (zh) | 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法 | |
CN107704580A (zh) | 基于用户时期的问答推送方法、装置、服务器及存储介质 | |
CN116778164A (zh) | 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |