CN115311130A - 一种多风格中国书法文字图像风格迁移方法、系统及终端 - Google Patents

一种多风格中国书法文字图像风格迁移方法、系统及终端 Download PDF

Info

Publication number
CN115311130A
CN115311130A CN202210834600.2A CN202210834600A CN115311130A CN 115311130 A CN115311130 A CN 115311130A CN 202210834600 A CN202210834600 A CN 202210834600A CN 115311130 A CN115311130 A CN 115311130A
Authority
CN
China
Prior art keywords
style
content
discriminator
generator
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210834600.2A
Other languages
English (en)
Inventor
李康
张妮
刘洋
任勇
张云朋
李笑笑
李健铭
朱朋鹏
黄帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202210834600.2A priority Critical patent/CN115311130A/zh
Publication of CN115311130A publication Critical patent/CN115311130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明属于文字图像处理技术领域,公开了一种多风格中国书法文字图像风格迁移方法、系统及终端,构建训练样本,训练生成对抗网络,通过标签控制多种目标风格图像对不同风格图像进行分类;利用Transformer编码器提取内容和风格特征细节,在Transformer多尺度解码器中聚焦于不同的风格特征细节;利用多尺度解码得到生成器训练生成的图片及鉴别器判别真伪结果和分类结果;将训练集输入至对抗网络,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,达到纳什平衡,获得多风格书法风格迁移模型。本发明提高了书法风格迁移的准确性,对中国书法文化的传承具有重要的意义。

Description

一种多风格中国书法文字图像风格迁移方法、系统及终端
技术领域
本发明属于文字图像处理技术领域,尤其涉及一种多风格中国书法文字图像风格迁移方法、系统及终端。
背景技术
目前,中国书法风格迁移中的许多问题都可能会遇到将输入内容图像转换为目标风格图像,这些转换问题一直是研究人员关注的焦点。
传统方法通过将汉字分解再重组的形式生成文字图像,Miyazaki,Zong等人将汉字分解为笔画,再分配到相应的转笔中,其中Miyazaki通过给定的样本笔画进行字体生成,对于复杂汉字或未给定笔画字符效果不明显。其中的关键点就在于文字笔画结构的提取,这也是很多研究者的努力的方向。2016年,王民等人提出一种形状分解的骨架提取算法,采用形状分解的思想,将书法文字骨架提取转化为一个分步提取问题,有效的减少了提取的骨架毛刺较多和变形问题。沈斌提出一种基于综合推理模型的书法生成模型,通过一个拓扑模型以及一个额外的稳定性模型来捕捉中国书法家的手写特征,从而达到拼字的目的。QIAO等提出一种基于组合造字法的汉字生成模型,结合汉字的结构和机器学习的方法,对小规模样本字库中的汉字按结构进行拆分,通过支持向量机回归方法学习得到同一结构的不同汉字由构件到整字之间的通用关系模型,再将笔画拼接。Hanfei Sun、Yiming Luo等人对以前的半自动字体合成方法进行改进,之前将汉字的各个部分作拆分处理,也就是提取字体的偏旁部首,通过汉字的结构共性生成新的字体。该方法在不同字体下的泛化能力尚可,但该模型主要基于局部假设,没有源字体和目标字体的整体观概念。
在中国书法风格迁移时,内容图像转化为其他风格图像存在着结构差异,传统方法大多秉承着固定化的解决思路,在各个步骤中提出不同的改进方式,以求整体结果的优化,但并没有改变方法的本质特征,如果能一次对多种风格进行书法风格迁移,这对实现多风格书法风格迁移来说相当重要。
传统方法在中国书法风格迁移时,忽略了文字整体结构,字体结构复杂时,难以提取到结构的重要特征工作量大,难以推广使用。而且只能处理单一的字体风格迁移问题,效率极低、泛化性差、效果也不尽理想。生成对抗网络对于复杂文字很难提取结构细节,生成效率低,特别是多风格情况下容易发生模式崩溃,不能多线程迁移,且由于留存书法文物数据量小,不能满足模型训练需求。对于不同目标样式书法文字,需要分别训练模型才能得到对应的模型参数,耗费大量的时间和精力,效率低下,而且对于复杂文字很难提取结构细节的问题。因此,亟需设计一种新的多风格中国书法文字图像风格迁移方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)传统的中国书法风格迁移方法通过将汉字分解再重组的形式生成文字图像,对于复杂汉字或未给定笔画字符效果不明显;对以前的半自动字体合成方法进行改进的模型基于局部假设,没有源字体和目标字体的整体观概念。
(2)传统方法在中国书法风格迁移时,忽略了文字整体结构,字体结构复杂时,难以提取到结构的重要特征工作量大,难以推广使用;且只能处理单一的字体风格迁移问题,效率极低、泛化性差、效果也不尽理想。
(3)生成对抗网络对于复杂文字很难提取结构细节,生成效率低,特别是多风格情况下容易发生模式崩溃,不能多线程迁移,且由于留存书法文物数据量小,不能满足模型训练需求;对于不同目标样式书法文字,需要分别训练模型才能得到对应的模型参数,耗费大量的时间和精力,效率低下。
发明内容
针对现有技术存在的问题,本发明提供了一种多风格中国书法文字图像风格迁移方法、系统及终端,尤其涉及一种基于Transformer的多风格中国书法文字图像风格迁移方法、系统、介质、设备及终端。
本发明是这样实现的,一种多风格中国书法文字图像风格迁移方法,通过输入源风格图像和多目标风格图像,构建多风格书法迁移模型,并实现了将一种风格字体灵活转换为多种风格字体,多风格中国书法文字图像风格迁移方法;在生成对抗网络中引入Transformer编码器提取内容和风格特征细节,并通过标签对不同风格图像进行分类,在Transformer多尺度解码器中对不同的风格特征细节进行多尺度解码;并通过生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。具体实现过程如下:
从ttf字库中制作源内容图片和多目标风格图片,构建训练样本;训练生成对抗网络,通过标签控制多种目标风格图像对不同风格图像进行分类;利用Transformer编码器提取内容和风格特征细节,并在Transformer多尺度解码器中聚焦于不同的风格特征细节,进行多尺度解码,得到生成器训练生成的图片以及鉴别器判别真伪的结果和分类结果;将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。
进一步,所述多风格中国书法文字图像风格迁移方法包括以下步骤:
步骤一,从ttf字库中制作源内容图片和多风格目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;该步骤解释了训练书法风格迁移模型样本数据集的获取,为模型训练做前期准备。
步骤二,源内容图片用于提供内容特征,多风格目标风格图片用于提供风格特征;利用源内容图片和多种目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
该步骤解释了书法风格迁移模型的训练过程,分别提取内容图像内容特征和风格图像风格特征,便于后面特征变换实现风格转换。
步骤三,将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得多风格书法风格迁移模型;
该步骤解释了多风格书法风格迁移模型的获取,用制作好的训练数据训练模型,不断更新网络参数优化模型,以至模型生成的迁移效果图像更好。
进一步,所述源内容图片用于提供内容特征,多种不同风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果,具体按照以下步骤实施:
(1)将三维扫描仪扫描的不同风格的石碑书法文字和扫描仪扫描的不同风格的纸质书法文字得到的数据集,通过降噪算法进行去噪,过滤掉冗余信息后,再通过Python统一数据集的尺寸,最后风格将书法归类,从而创建模型可用的多种风格的书法数据库;
(2)设置生成对抗网络,由1个生成器G和1个鉴别器D组成,生成器包括2个编码器,记为内容编码器Ec和多风格编码器Es,和1个解码器De,编码器和解码器之间包含Tranformer编码器和Tranformer解码器,生成对抗网络有3个损失函数,对抗性损失、内容损失、分类损失;
(3)生成器G负责把预处理后源风格图片训练成多风格目标风格样式的图片,然后更新内容损失和分类损失,得到生成图片,鉴别器D将预处理后的目标样式的图片和生成器G生成的图片作为输入,更新对抗性损失,预测图片是生成器生成的图片还是源风格样式的图片,并判断生成的假图片和源风格图片的一致性。
进一步,所述将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得多风格书法风格迁移模型,具体按照以下步骤实施:
(1)选取预处理后的任意一张源内容图片C作为样本输入到编码器Ec中,得到三种不同风格的源内容图片的内容特征x,选取预处理后的任意三张目标风格图片S作为样本输入到编码器Es中,得到三种不同风格的目标风格图片的特征y1、y2、y3
(2)将得到的源内容图片的内容特征x和目标风格图片的风格特征y1、y2、y3输入到Transformer的Add&Norm模块中,此处使用的是LayerNormalization对源内容图片的内容特征x去风格化得到特征ω,具体公式如下:
Figure BDA0003749426850000051
其中x表示源内容图片的内容特征,μ(x)表示内容图像的均值,σ(x)表示内容图像的标准差ω表示对源内容图片的内容特征x去风格化的结果特征。
将得到的源内容图片特征x和目标风格图片特征y1、y2、y3经过归一化得到的结果,输入到Transformer的Multi-head attention模块中得到特征,具体的公式如下:
FMSA(C,S,L)=Concat(Attention1(C,S,L)…,AttentionN(C,S,L))WO
其中,FMSA(C,S,L)表示MSA生成的掩码,C表示输入内容特征,S表示输入风格特征,L表示输入风格特征的标签,并经过Multi-head attention得到结果;
(3)将得到的结果输入到解码器De中,生成三张目标风格样式的图片S’;
(4)将生成的图片S’输入内容编码器Ec和多风格编码器Es,计算内容损失和风格损失,两者均采用L1损失进行计算,具体的计算公式如下:
Figure BDA0003749426850000052
Figure BDA0003749426850000053
Figure BDA0003749426850000054
Figure BDA0003749426850000055
其中,Lcontent表示内容损失,Llabel表示分类损失,x表示内容编码器Ec提取的内容特征、Ec(S’)表示生成器生成的假图像S’经过内容编码器Ec提取的内容特征、Es(S’)表示假图像S’经过风格编码器Es后提取的风格特征、
Figure BDA0003749426850000056
表示生成图像S’在内容上服从原风格图像S概率分布的期望、
Figure BDA0003749426850000057
表示生成图像S’在风格上服从原风格图像S概率分布的期望;
(5)将生成的图片S’和预处理得到的目标风格图片S输入到鉴别器D,计算对抗损失Ladv,具体的计算公式如下:
Ladv=Ex[log(D(x))]+ES’[log(1-D(S’))];
其中,Ladv表示对抗损失,x表示源风格图像S经过内容编码器Ec提取的内容特征、D(x)表示源风格图像S输入鉴别器De后的输出值、D(S’)表示生成的假图像S’输入鉴别器De的输出值、Ex表示源风格图像S服从真实数据概率分布的期望、ES’表示假图像S’服从生成数据概率分布的期望;
(6)最终总的损失函数为生成器损失和鉴别器损失的总和,表示如下:
Ltotal=Ladv+α·Lcontent+β·Llabel
其中,Ltotal表示对抗网络的损失总和,Ladv表示鉴别器的对抗损失,Lcontent表示生成器的内容损失,Llabel表示生成器的分类损失,α和β别表示子损失函数所占的权重比例,经过对抗性训练,不断更新网络参数,优化生成器和鉴别器的损失值,损失值越小表明训练越成功,也就是训练生成的图片风格越接近目标样式的图片。
本发明的另一目的在于提供一种实施所述的多风格中国书法文字图像风格迁移方法的多风格中国书法文字图像风格迁移系统,所述多风格中国书法文字图像风格迁移系统包括:
训练样本模块,用于从ttf字库中制作源内容图片和多风格目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;
训练样本处理模块,用于利用源内容图片提供内容特征,利用多风格目标风格图片提供风格特征,利用源内容图片和多风格目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
书法风格迁移模型获取模块,用于将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。
进一步,所述生成对抗网络包括生成器和鉴别器,生成器包括内容编码器、风格编码器,Tranformer编码器和多尺度解码器;
内容编码器用于提取源内容图片的内容特征;多风格编码器用于提取目标风格图片的风格特征;对于简单文字生成效果好,但对复杂文字并不能很好的提取内容细节。存在效果不佳,质量差,部分笔画缺失、增加、晕染等问题。这里引入Transformer编码器解决了基于传统CNN的风格转换方法的对内容表示丢失的问题;内容Transformer编码器和风格Transformer编码器具有更好的特征表示,分别用来编码内容域和风格域的图片的长程信息,可以有效避免丢失内容和风格细节;Transformer多尺度解码器对Transformer编码器提取的内容和风格细节,从全局的视角进行多尺度解码,进而提高生成图像的性能。鉴别器对生成器生成的结果进行评估,评判参数根据损失函数给出。
进一步,所述多风格中国书法文字图像风格迁移系统一共5个编码块,每个编码块由相应的卷积层、池化层和激活层形成,第一个编码块包含两个卷积层,通道数分别为3和64;第二个编码块有两个卷积层,其通道数为64和128;第三个编码块包含两个通道数分别为128和256的卷积层;第四个编码块由四个卷积层形成,其通道数分别为256、256、256和512;第五个编码块包含四个卷积层,通道数依次为512、512、512和512;编码器中的激活函数LeakyRELU函数;本实例输入的图片经过各层之后的卷积大小分别为:224、224、224、112、112、56、56、56、56、28、28、28、28、14。
进一步,所述解码器与编码器的结构对应,也是一共5个编码块,解码器的卷积层相反即为解码器的构成,解码器通过反卷积还原特征,生成目标风格图像;解码器中的激活函数为ReLU函数;Transformer模块的特征进入解码器得到的Transformer卷积大小分别为:512、512、512、512、512、512、512、256、256、256、256、256、128、128、128、64;鉴别器的结构,由依次连接的卷积层、池化层和全连接层组成,激活函数为LeakyRELU函数。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的多风格中国书法文字图像风格迁移方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的多风格中国书法文字图像风格迁移方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的多风格中国书法文字图像风格迁移系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明针对复杂文字和非黑体生成效果不佳问题,在这里引入Transformer网络,消除了一对一模型对复杂文字内容表示丢失的问题,能够保留源内容图像的结构和细节。本发明克服了对于不同目标样式书法文字,需要分别训练模型才能得到对应的模型参数,耗费大量的时间和精力,效率低下的问题,且输出结果单一,只能输出一种目标风格图片。一次输入多种风格图像,通过标签区分不同的风格。只需训练一次就能得到多风格样式的迁移模型,不仅提高了效率和精度也增强了模型的泛化性。并且传统模型在复杂文字的处理上效果欠佳,本模型通过Transformer子网络提取复杂文字细节特征,解决了复杂文字笔画缺失、增加、质量差、晕染等问题。
本发明基于内容编码器和风格编码器的分离,分别提取源内容图片的内容特征和目标风格图片的风格特征,Transformer多尺度解码器中主要应用了Add&Norm模块和Multi-head attention模块处理提取的内容特征和风格特征,通过对抗网络不断迭代更新进行训练,从而得到书法的风格迁移模型。本发明提供的一对多模型可以一次输入多种风格图像,训练一次就能得到多目标风格样式的迁移模型,不仅提高了效率也增强了模型的泛化性,而且针对复杂文字生成的效果也比较好。
本发明提供的训练的多风格书法文字图像风格迁移方法可以从现存的书法真迹中提取书法家的风格,并使用现代技术生成与书法家风格一致的书法字,这不仅能够降低文物修复保护的难度和工作量,也能提升书法文字生成的精度和效率,对中国书法文化传承和文物修复性保护有重要的价值和意义。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明解决了无配对情况下对书法文字的风格迁移难题,同时也提高了书法风格迁移的准确性,这不仅对中国书法文化的传承具有重要的意义,而且对带有书法字的文物的虚拟修复也有重要的价值。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案填补了中国书法文字多风格转换技术的空白;
(2)本发明的技术方案解决了现有技术对复杂文字风格转换实现效果欠佳的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多风格中国书法文字图像风格迁移方法流程图;
图2是本发明实施例提供的多风格中国书法文字图像风格迁移方法原理图;
图3是本发明实施例提供的预处理之后的部分数据集展示图;其中,图(a)是源内容数据集的部分展示图,图(b)是目标样式黑体数据集的部分展示图,图(c)是目标样式楷体数据集的部分展示图,图(d)是目标样式颜体数据集的部分展示图;
图4是本发明实施例提供的网络结构图;
图5是本发明实施例提供的传统方法实验结果示意图;
图6是本发明实施例提供的本发明方法实验结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种多风格中国书法文字图像风格迁移方法、系统及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的多风格中国书法文字图像风格迁移方法包括以下步骤:
S101,从ttf字库中制作源内容图片和多风格目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;
S102,利用源内容图片和多种目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
S103,将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得多风格书法风格迁移模型。
本发明实施例提供的基于Transformer的多风格中国书法图像风格迁移的方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的基于Transformer的多风格中国书法图像风格迁移的方法仅仅是一个具体实施例而已。
作为优选实施例,如图2所示,本发明实施例提供的多风格中国书法文字图像风格迁移方法具体包括以下步骤:
步骤一,从ttf字库中制作源内容图片和多风格目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;
步骤二,源内容图片用于提供内容特征,多风格目标风格图片用于提供风格特征,两者用于训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果,具体按照以下步骤实施:
步骤2-1,将三维扫描仪扫描的不同风格的石碑书法文字和扫描仪扫描的不同风格的纸质书法文字得到的数据集,通过降噪算法进行去噪,过滤掉冗余信息后,再通过Python统一数据集的尺寸,最后风格将书法归类,从而创建模型可用的多种风格的书法数据库,预处理之后的部分数据集展示如图3所示;
步骤2-2,设置生成对抗网络,由1个生成器G和1个鉴别器D组成,生成器包括2个编码器,记为内容编码器Ec和多风格编码器Es,和1个解码器De,编码器和解码器之间包含Tranformer编码器和Tranformer解码器,生成对抗网络有3个损失函数,对抗性损失、内容损失、分类损失,网络结构图如图4所示;
步骤2-3,生成器G负责把预处理后源风格图片训练成多风格目标风格样式的图片,然后更新内容损失和分类损失,得到生成图片,鉴别器D将预处理后的目标样式的图片和生成器G生成的图片作为输入,更新对抗性损失,预测图片是生成器生成的图片还是源风格样式的图片,并判断生成的假图片和源风格图片的一致性。
步骤三,将步骤2-1制作得到的训练集输入到步骤2-2的对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标提升自己的鉴别能力,直至两者达到纳什平衡,获得多风格书法风格迁移模型,具体按照以下步骤实施:
步骤3-1,选取预处理后的任意一张源内容图片C作为样本输入到编码器Ec中,得到三种不同风格的源内容图片的内容特征x,选取预处理后的任意三张目标风格图片S作为样本输入到编码器Es中,得到三种不同风格的目标风格图片的特征y1、y2、y3
步骤3-2,将得到的源内容图片的内容特征x和目标风格图片的风格特征y1、y2、y3输入到Transformer的Add&Norm模块中,此处使用的是Layer Normalization对源内容图片的内容特征x去风格化得到特征ω,具体公式如下:
Figure BDA0003749426850000121
其中x表示源内容图片的内容特征,μ(x)表示内容图像的均值,σ(x)表示内容图像的标准差ω表示对源内容图片的内容特征x去风格化的结果特征。
将得到的源内容图片特征x和目标风格图片特征y1、y2、y3经过归一化得到的结果,输入到Transformer的Multi-head attention模块中得到特征,具体的公式如下:
FMSA(C,S,L)=Concat(Attention1(Q,K,V)…,AttentionN(Q,K,V))WO (2)
其中FMSA(C,S,L)表示MSA生成的掩码,Q表示输入向量的查询映射,K表示输入向量的键映射,V表示输入向量的值映射,并经过Multi-head attention得到结果;
步骤3-3,将步骤3-2得到的结果输入到解码器De中,生成一张目标风格样式的图片S’;
步骤3-4,将生成的图片S’输入内容编码器Ec和多风格编码器Es,计算内容损失和风格损失,两者均采用L1损失进行计算,具体的计算公式如下:
Figure BDA0003749426850000122
Figure BDA0003749426850000123
Figure BDA0003749426850000124
Figure BDA0003749426850000125
其中Lcontent表示内容损失,Llabel表示分类损失,x表示内容编码器Ec提取的内容特征、Ec(S’)表示生成器生成的假图像S’经过内容编码器Ec提取的内容特征、Es(S’)表示假图像S’经过风格编码器Es后提取的风格特征、
Figure BDA0003749426850000131
表示生成图像S’在内容上服从原风格图像S概率分布的期望、
Figure BDA0003749426850000132
表示生成图像S’在风格上服从原风格图像S概率分布的期望;
步骤3-5,将步骤3-3生成的图片S’和步骤2-1预处理得到的目标风格图片S输入到鉴别器D,计算对抗损失Ladv,具体的计算公式如下:
Ladc=Ex[log(D(x))]+ES’[log(1-D(S’))] (7)
其中Ladv表示对抗损失,x表示源风格图像S经过内容编码器Ec提取的内容特征、D(x)表示源风格图像S输入鉴别器De后的输出值(表示该图像为真实图像的概率)、D(S’)表示生成的假图像S’输入鉴别器De的输出值(表示图像为真实图像的概率)、Ex表示源风格图像S服从真实数据概率分布的期望、ES’表示假图像S’服从生成数据概率分布的期望。
步骤3-6,最终总的损失函数为步骤3-4生成器损失和步骤3-5鉴别器损失的总和,表示如下:
Ltotal=Ladv+α·Lcontent+β·Llabel (8)
其中Ltotal表示对抗网络的损失总和,Ladv表示鉴别器的对抗损失,Lcontent表示生成器的内容损失,Llabel表示生成器的分类损失,α和β别表示子损失函数所占的权重比例,经过对抗性训练,不断更新网络参数,优化生成器和鉴别器的损失值,损失值越小表明训练越成功,也就是训练生成的图片风格越接近目标样式的图片。
本发明实施例提供的多风格中国书法文字图像风格迁移系统包括:
训练样本模块,用于从ttf字库中制作源内容图片和多风格目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;
训练样本处理模块,用于利用源内容图片提供内容特征,利用多风格目标风格图片提供风格特征,利用源内容图片和多风格目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
书法风格迁移模型获取模块,用于将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。
在本发明实施例中,生成对抗网络包括生成器和鉴别器,生成器包括内容编码器、风格编码器,Transformer编码器和多尺度解码器,其中内容编码器用于提取源内容图片的内容特征,多风格编码器用于提取不同目标风格图片的风格特征,Transformer多尺度解码器中主要应用了Add&Norm模块和Multi-head attention模块,Add&Norm模块为防止网络退化引入残差结构,并将每一层神经元的输入转化成具有相同的均值方差;Multi-headattention模块是一个自注意力机制模块,用于捕获并融合内容特征、风格特征;解码器用于将各模块处理后的特征生成目标样式的图片,鉴别器对生成器生成的结果进行评估,评判参数根据损失函数给出。
其中内容编码器和多风格编码器结构相同,具体结构如表1所示,结构一共5个编码块,每个编码块由相应的卷积层、池化层和激活层形成,第一个编码块包含两个卷积层,通道数分别为3和64;第二个编码块有两个卷积层,其通道数为64和128;第三个编码块包含两个通道数分别为128和256的卷积层;第四个编码块由四个卷积层形成,其通道数分别为256、256、256和512;第五个编码块包含四个卷积层,通道数依次为512、512、512和512;编码器中的激活函数LeakyRELU函数;本发明实施例输入的图片经过各层之后的卷积大小分别为:224、224、224、112、112、56、56、56、56、28、28、28、28、14。
表1编码器的网络结构
Figure BDA0003749426850000141
Figure BDA0003749426850000151
表2 Transformer模块的网络结构
Figure BDA0003749426850000152
其中,解码器与编码器的结构对应,结构如表3所示,也是一共5个编码块,解码器的卷积层相反即为解码器的构成,解码器通过反卷积还原特征,生成目标风格图像;解码器中的激活函数为ReLU函数;Transformer模块的特征进入解码器得到的Transformer卷积大小分别为:512、512、512、512、512、512、512、256、256、256、256、256、128、128、128、64。
表3解码器的网络结构
Figure BDA0003749426850000161
其中鉴别器的结构如表4所示,由依次连接的卷积层、池化层和全连接层组成,激活函数为LeakyRELU函数。
表4鉴别器的网络结构
Figure BDA0003749426850000171
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
(1)书法、石碑、拓片等文字修复
利用非破损的书法作为风格图像进行训练,得到书法风格迁移模型。再利用模型生成破损文字,再将破损文字替换掉,拼接成完整的书法文字,最后渲染得到修复的完整遗迹作品。
(2)扩充小数据书法字库
对于留存数量少的书法遗迹,其文字都在常用汉字中,可以用该书法作为风格图像训练迁移模型,把日常汉字风格转换成该风格,扩充书法字体库。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
传统方法在中国书法风格迁移时,忽略了文字整体结构,字体结构复杂时,难以提取到结构的重要特征工作量大,难以推广使用。而且只能处理单一的字体风格迁移问题,效率极低、泛化性差、效果也不尽理想。生成对抗网络对于复杂文字很难提取结构细节,生成效率低,特别是多风格情况下容易发生模式崩溃,不能多线程迁移,且由于留存书法文物数据量小,不能满足模型训练需求。对于不同目标样式书法文字,需要分别训练模型才能得到对应的模型参数,耗费大量的时间和精力,效率低下,而且对于复杂文字很难提取结构细节的问题。而本发明多风格中国书法文字图像风格迁移方法经过实验验证,很好的解决了上述提到的问题,部分实验结果如下:
传统方法实验结果,如图5所示,本发明方法实验结果,如图6所示。
本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种多风格中国书法文字图像风格迁移方法,其特征在于,所述多风格中国书法文字图像风格迁移方法包括:在生成对抗网络中引入Transformer编码器提取内容和风格特征细节,并通过标签对不同风格图像进行分类,在Transformer多尺度解码器中对不同的风格特征细节进行多尺度解码;并通过生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。
2.如权利要求1所述多风格中国书法文字图像风格迁移方法,其特征在于,所述多风格中国书法文字图像风格迁移方法包括以下步骤:
步骤一,从ttf字库中制作源内容图片和多风格的目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;
步骤二,利用源内容图片和多风格的目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
步骤三,将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。
3.如权利要求2所述多风格中国书法文字图像风格迁移方法,其特征在于,所述步骤二中的源内容图片用于提供内容特征,多风格的目标风格图片用于提供风格特征;所述利用源内容图片和多风格的目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果包括:
(1)将三维扫描仪扫描的不同风格的石碑书法文字和扫描仪扫描的不同风格的纸质书法文字得到的数据集,通过降噪算法进行去噪,过滤掉冗余信息后,通过Python统一数据集的尺寸,最后风格将书法归类,从而创建模型可用的多种风格的书法数据库;
(2)设置生成对抗网络,由1个生成器G和1个鉴别器D组成,所述生成器包括2个编码器和1个解码器De,所述编码器记为内容编码器Ec和多风格编码器Es,编码器和解码器之间包含Transformer编码器和Transformer解码器;生成对抗网络有3个损失函数,包括对抗性损失、内容损失和分类损失;
(3)生成器G负责将预处理后源风格图片训练成多风格目标风格样式的图片,更新内容损失和分类损失,得到生成图片;鉴别器D将预处理后的目标样式的图片和生成器G生成的图片作为输入,更新对抗性损失,预测图片是生成器生成的图片还是源风格样式的图片,并判断生成的假图片和源风格图片的一致性。
4.如权利要求2所述多风格中国书法文字图像风格迁移方法,其特征在于,所述步骤三中的将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型包括:
(1)选取预处理后的任意一张源内容图片C作为样本输入到编码器Ec中,得到三种不同风格的源内容图片的内容特征x;选取预处理后的任意三张目标风格图片S作为样本输入到编码器Es中,得到三种不同风格的目标风格图片的特征y1、y2、y3;
(2)将得到的源内容图片的内容特征x和目标风格图片的风格特征y1、y2、y3输入到Transformer的Add&Norm模块中;使用Layer Normalization对源内容图片的内容特征x去风格化得到特征ω,计算公式如下:
Figure FDA0003749426840000021
其中x表示源内容图片的内容特征,μ(x)表示内容图像的均值,σ(x)表示内容图像的标准差ω表示对源内容图片的内容特征x去风格化的结果特征。
将得到的源内容图片特征x和目标风格图片特征y1、y2、y3经过归一化得到的结果,输入到Transformer的Multi-head attention模块中得到特征:
FMSA(C,S,L)=Concat(Attention1(C,S,L)...,AttentionN(C,S,L))WO
其中,FMSA(C,S,L)表示MSA生成的掩码,C表示输入内容特征,S表示输入风格特征,L表示输入风格特征的标签,并经过Multi-head attention得到结果;
(3)将得到的结果输入到解码器De中,生成三张目标风格样式的图片S’;
(4)将生成的图片S’输入内容编码器Ec和多风格编码器Es,计算内容损失和分类损失,均采用L1损失进行计算,计算公式如下:
Figure FDA0003749426840000031
Figure FDA0003749426840000032
Figure FDA0003749426840000033
Figure FDA0003749426840000034
其中,Lcontent表示内容损失,Llabel表示分类损失,x表示内容编码器Ec提取的内容特征、Ec(S’)表示生成器生成的假图像S’经过内容编码器Ec提取的内容特征、Es(S’)表示假图像S’经过风格编码器Es后提取的风格特征、
Figure FDA0003749426840000035
表示生成图像S’在内容上服从原风格图像S概率分布的期望、
Figure FDA0003749426840000036
表示生成图像S’在风格上服从原风格图像S概率分布的期望;
(5)将生成的图片S’和预处理得到的目标风格图片S输入到鉴别器D,计算对抗损失Ladv,计算公式如下:
Ladv=Ex[log(D(x))]+ES’[log(1-D(S’))];
其中,Ladv表示对抗损失,x表示源风格图像S经过内容编码器Ec提取的内容特征、D(x)表示源风格图像S输入鉴别器De后的输出值、D(S’)表示生成的假图像S’输入鉴别器De的输出值、Ex表示源风格图像S服从真实数据概率分布的期望、ES’表示假图像S’服从生成数据概率分布的期望;
(6)最终总的损失函数为生成器损失和鉴别器损失的总和,表示如下:
Ltotal=Ladv+α·Lcontent+β·Llabel
其中,Ltotal表示对抗网络的损失总和,Ladv表示鉴别器的对抗损失,Lcontent表示生成器的内容损失,Llabel表示生成器的分类损失,α和β分别表示子损失函数所占的权重比例,经过对抗性训练,不断更新网络参数,优化生成器和鉴别器的损失值,损失值越小则表明训练越成功,训练生成的图片风格越接近目标样式的图片。
5.一种应用如权利要求1~4任意一项所述多风格中国书法文字图像风格迁移方法的多风格中国书法文字图像风格迁移系统,其特征在于,所述多风格中国书法文字图像风格迁移系统包括:
训练样本模块,用于从ttf字库中制作源内容图片和多风格目标风格图片各n张,输出图片为jpg格式,得到4n张图片,作为训练样本;
训练样本处理模块,用于利用源内容图片提供内容特征,利用多风格目标风格图片提供风格特征,利用源内容图片和多风格目标风格图片训练生成对抗网络,得到生成器训练生成的图片以及鉴别器判别真伪的结果;
书法风格迁移模型获取模块,用于将制作得到的训练集输入到对抗网络中,迭代更新生成器和鉴别器,生成器生成假目标混淆鉴别器,鉴别器识别真假目标,直至生成器和鉴别器达到纳什平衡,获得多风格书法风格迁移模型。
6.如权利要求5所述多风格中国书法文字图像风格迁移系统,其特征在于,所述生成对抗网络包括生成器和鉴别器,所述生成器包括内容编码器、多风格编码器、Transformer编码器和多尺度解码器;
其中,所述内容编码器用于提取源内容图片的内容特征,所述多风格编码器用于提取不同目标风格图片的风格特征;内容Transformer编码器和风格Transformer分别用于编码内容域和风格域的图片的长程信息;Transformer多尺度解码器对Transformer编码器提取的内容和风格细节,从全局的视角进行多尺度解码;解码器用于将各模块处理后的特征生成目标样式的图片,鉴别器用于对生成器生成的结果进行评估,评判参数根据损失函数给出;
所述Transformer多尺度解码器应用Add&Norm模块和Multi-head attention模块,Add&Norm模块引入残差结构,并将每一层神经元的输入转化成具有相同的均值方差;Multi-head attention模块是自注意力机制模块,用于捕获并融合内容特征、风格特征。
7.如权利要求5所述多风格中国书法文字图像风格迁移系统,其特征在于,所述多风格中国书法文字图像风格迁移系统包括5个编码块,每个编码块由相应的卷积层、池化层和激活层形成,第一个编码块包含两个卷积层,通道数分别为3和64;第二个编码块有两个卷积层,通道数为64和128;第三个编码块包含两个通道数分别为128和256的卷积层;第四个编码块由四个卷积层形成,通道数分别为256、256、256和512;第五个编码块包含四个卷积层,通道数依次为512、512、512和512;编码器中的激活函数LeakyRELU函数;输入的图片经过各层后的卷积大小分别为:224、224、224、112、112、56、56、56、56、28、28、28、28、14;
解码器与编码器的结构对应,包括5个编码块,解码器的卷积层相反就是解码器的构成,解码器通过反卷积还原特征,生成目标风格图像;解码器中的激活函数为ReLU函数;Transformer模块的特征进入解码器得到的Transformer卷积大小分别为:512、512、512、512、512、512、512、256、256、256、256、256、128、128、128、64;鉴别器的结构由依次连接的卷积层、池化层和全连接层组成,激活函数为LeakyRELU函数。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~4任意一项所述多风格中国书法文字图像风格迁移方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~4任意一项所述多风格中国书法文字图像风格迁移方法的步骤。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求5~7任意一项所述多风格中国书法文字图像风格迁移系统。
CN202210834600.2A 2022-07-16 2022-07-16 一种多风格中国书法文字图像风格迁移方法、系统及终端 Pending CN115311130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210834600.2A CN115311130A (zh) 2022-07-16 2022-07-16 一种多风格中国书法文字图像风格迁移方法、系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210834600.2A CN115311130A (zh) 2022-07-16 2022-07-16 一种多风格中国书法文字图像风格迁移方法、系统及终端

Publications (1)

Publication Number Publication Date
CN115311130A true CN115311130A (zh) 2022-11-08

Family

ID=83857124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210834600.2A Pending CN115311130A (zh) 2022-07-16 2022-07-16 一种多风格中国书法文字图像风格迁移方法、系统及终端

Country Status (1)

Country Link
CN (1) CN115311130A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309032A (zh) * 2023-05-24 2023-06-23 南昌航空大学 一种图片处理方法、系统及计算机
CN116721306A (zh) * 2023-05-24 2023-09-08 北京思想天下教育科技有限公司 基于大数据云平台的线上学习内容推荐系统
CN117236284A (zh) * 2023-11-13 2023-12-15 江西师范大学 基于风格信息与内容信息适配的字体生成方法及装置
CN116402067B (zh) * 2023-04-06 2024-01-30 哈尔滨工业大学 面向多语种文字风格保持的跨语言自监督生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402067B (zh) * 2023-04-06 2024-01-30 哈尔滨工业大学 面向多语种文字风格保持的跨语言自监督生成方法
CN116309032A (zh) * 2023-05-24 2023-06-23 南昌航空大学 一种图片处理方法、系统及计算机
CN116309032B (zh) * 2023-05-24 2023-07-28 南昌航空大学 一种图片处理方法、系统及计算机
CN116721306A (zh) * 2023-05-24 2023-09-08 北京思想天下教育科技有限公司 基于大数据云平台的线上学习内容推荐系统
CN116721306B (zh) * 2023-05-24 2024-02-02 北京思想天下教育科技有限公司 基于大数据云平台的线上学习内容推荐系统
CN117236284A (zh) * 2023-11-13 2023-12-15 江西师范大学 基于风格信息与内容信息适配的字体生成方法及装置

Similar Documents

Publication Publication Date Title
CN115311130A (zh) 一种多风格中国书法文字图像风格迁移方法、系统及终端
Cheng et al. Class attention network for image recognition
Yu et al. Dual attention on pyramid feature maps for image captioning
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
Lin et al. Deep structured scene parsing by learning with image descriptions
CN113393370A (zh) 中国书法文字图像风格迁移的方法、系统、智能终端
Naveen et al. Transformer models for enhancing AttnGAN based text to image generation
Jing et al. Maintaining reasoning consistency in compositional visual question answering
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Matsumori et al. Lattegan: Visually guided language attention for multi-turn text-conditioned image manipulation
Mumuni et al. Automated data processing and feature engineering for deep learning and big data applications: a survey
Zheng Visual memory neural network for artistic graphic design
Dang et al. Scene text segmentation via multi-task cascade transformer with paired data synthesis
Liu et al. Dunhuang murals contour generation network based on convolution and self-attention fusion
Gao et al. Chinese character components segmentation method based on faster RCNN
He et al. Few-shot font generation by learning style difference and similarity
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN114936279A (zh) 一种面向协同制造企业的非结构化图表数据分析方法
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端
Zhu et al. Visual normalization of handwritten Chinese characters based on generative adversarial networks
CN109657691B (zh) 一种基于能量模型的图像语义标注方法
Hamplová et al. Cuneiform Stroke Recognition and Vectorization in 2D Images.
Sonje et al. draw2code: Ai based auto web page generation from hand-drawn page mock-up
Tabchouri A machine learning approach to molecular structure recognition in chemical literature
Zhang et al. CAE-GReaT: Convolutional-auxiliary efficient graph reasoning transformer for dense image predictions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination