CN116433474A - 模型训练方法、字体迁移方法、装置及介质 - Google Patents
模型训练方法、字体迁移方法、装置及介质 Download PDFInfo
- Publication number
- CN116433474A CN116433474A CN202310518040.4A CN202310518040A CN116433474A CN 116433474 A CN116433474 A CN 116433474A CN 202310518040 A CN202310518040 A CN 202310518040A CN 116433474 A CN116433474 A CN 116433474A
- Authority
- CN
- China
- Prior art keywords
- feature map
- updated
- feature
- preset
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 127
- 238000012549 training Methods 0.000 title claims abstract description 67
- 230000005012 migration Effects 0.000 title claims abstract description 48
- 238000013508 migration Methods 0.000 title claims abstract description 48
- 230000004927 fusion Effects 0.000 claims description 132
- 238000000605 extraction Methods 0.000 claims description 105
- 238000012545 processing Methods 0.000 claims description 71
- 239000013598 vector Substances 0.000 claims description 48
- 238000003860 storage Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 50
- 238000010606 normalization Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种模型训练方法、字体迁移方法、装置及介质。该方法包括:获取候选图像,候选图像由预设模型基于样本例字生成;基于候选图像以及源图像获取风格相似度损失;若风格相似度损失未收敛,则更新预设模型;基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。本申请基于所述风格相似度损失,以充分学习源图像的字体风格特征为目标更新预设模型,使更新得到的目标模型在保证字义不变的情况下,对预设例字的字体风格的进行准确的迁移。
Description
技术领域
本申请的实施例涉及图像处理领域,更具体地涉及模型训练方法、字体迁移方法、装置及介质。
背景技术
目前的字体图像风格迁移方法大体可分为两大类。第一类方法主要是基于字体的显式特征如字体的结构、偏旁部首和笔画,利用传统的机器学习方法对字体的风格形态和字体的内容结构进行迁移。这类方法的核心是取字体的层次结构、笔画和部首等局部显式特征,之后通过传统机器学习算法进行重组从而实现对字体风格和字体结构的改变,生成新的字体。
其次,另外,还有一类现有的字体风格迁移方法主要基于深度学习,该类方法的核心思想是把字体当作图像,从而把字体风格迁移任务视为图像特征处理任务。例如,可以是通过生成对抗的方式将字体作为图像,根据字体图像对字体的风格进行迁移;而以生成对抗方式对字体进行迁移的方式中,常采用Cycle gan模型进行字体风格迁移的实现,具体可以先将例字A变成B的风格,生成的新字为A(B),再分辨A(B)和B的差异,然后再将A(B)还原回A字本身,最后内容损失逐像素优化还原后的A与原本真实A的“外观”是否一致。然而,Cycle gan的这种优化方式使得A(B)不能改变A的外观,仅仅改变其语义(字义)信息,即内容损失优化的过程限制了字体风格迁移,容易导致字体在风格迁移的过程中局部风格特征丢失或生成的新风格字体的图像模糊不清的问题,难以对字体进行准确的风格迁移。
发明内容
在本上下文中,本发明期望提供一种模型训练方法、字体迁移方法、装置及介质,在确保不改变例字字义的基础上,以充分学习训源图像的字体风格特征为目标更新预设模型,使更新得到的目标模型在保证字义不变的情况下对例字字体风格进行准确的迁移。
在本发明实施方式的第一方面中,提供了一种模型训练方法,包括:
获取候选图像,所述候选图像由预设模型基于样本例字生成;
基于所述候选图像以及源图像获取风格相似度损失;
若所述风格相似度损失未收敛,则更新所述预设模型;
基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;
其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
在本申请的一个实施例中,所述候选图像由所述预设模型基于所述样本例字进行至少一次特征处理后得到;
其中,所述特征处理的方式至少包括特征融合和特征提取或特征扩展。
在本申请的一个实施例中,所述预设模型基于所述样本例字进行一次特征处理,得到候选图像,包括:
获取原始特征图,其中,所述原始特征图基于历史第一更新特征图获取,所述历史第一更新特征图基于所述样本例字获取;
对所述原始特征图进行特征提取,得到当前特征图;
将所述原始特征图和所述当前特征图进行特征融合,得到第一更新特征图;
若所述第一更新特征图未符合第一预设条件,则基于所述第一更新特征图,获取更新的原始特征图;
基于更新的原始特征图,获取更新的第一更新特征图,直至更新的第一更新特征图符合所述第一预设条件,并将符合所述第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像。
在本申请的一个实施例中,所述将符合所述第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像,包括:
获取待扩展特征图,其中,所述待扩展特征图基于历史第二更新特征图获取,所述历史第二更新特征图基于所述第一更新特征图获取;
对所述待扩展特征图进行特征扩展,得到扩展特征图;
将所述第一更新特征图与所述扩展特征图进行特征融合,得到第二更新特征图;
若所述第二更新特征图未符合第二预设条件,则基于所述第一更新特征图,获取更新的待扩展特征图;
基于更新的待扩展特征图,获取更新的第二更新特征图,直至更新的第二更新特征图符合所述第二预设条件,将符合所述第二预设条件的第二更新特征图作为所述候选图像。
在本申请的一个实施例中,所述基于所述候选图像以及源图像获取风格相似度损失,包括:
分别对所述候选图像和所述源图像进行特征提取,得到候选图像特征向量和源图像特征向量;
基于所述候选图像特征向量获取所述候选图像的分类结果;以及
基于所述源图像特征向量获取所述源图像的分类结果;
根据所述候选图像的分类结果和所述源图像的分类结果确定所述候选图像和所述源图像之间的风格相似度损失。
在本申请的一个实施例中,若所述风格相似度损失未收敛,则更新所述预设模型中的生成器和鉴别器;
其中,所述生成器用于生成候选图像;
所述鉴别器用于分别对候选图像和所述源图像进行特征提取以及获取候选图像和所述源图像的分类结果。
在本申请的第二方面中,提供了一种字体迁移方法,包括:
获取预设例字;
将所述预设例字输入到目标模型,生成具有目标字体的例字图像,其中,所述目标模型采用如第一方面中所述的训练方法训练得到,所述预设例字的字体与所述目标字体不同。
在本申请的第三方面中,提供了一种模型训练装置,包括:
第一获取模块,被配置为获取候选图像,所述候选图像由预设模型基于样本例字生成;
处理模块,被配置为基于所述候选图像以及源图像获取风格相似度损失;
更新模块,被配置为根据未收敛的所述风格相似度损失更新所述预设模型;以及
基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;
其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
在本申请的第四方面,提供了一种字体迁移装置,包括
第二获取模块,被配置为获取预设例字;
迁移模块,被配置为将所述预设例字输入到目标模型,生成具有目标字体的例字图像,其中,所述目标模型采用如第一方面中所述的训练方法训练得到。
在本申请的第五方面,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的方法,或者执行如第二方面所述的方法。
在本申请的第六方面,提供了一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的方法,或者实现第二方面所述的方法。
根据本申请实施例的模型训练方法、字体迁移方法、装置及介质,可以通过预设模型基于样本例字获取候选图像,再基于所述候选图像以及源图像获取风格相似度损失作为所述预设模型的损失,若所述风格相似度损失未收敛,则更新所述预设模型,即通过候选图像与源图像之间的风格相似度损失调节所述预设模型的参数,使预设模型不断学习到源图像的字体风格特征,提高预设模型对字体风格迁移的准确性;然后通过更新的预设模型再次基于所述样本例字获取更新的候选图像,直至所述风格相似度损失收敛,即基于风格相似度损失,让预设模型对源图像的字体风格特征进行充分的学习,直至预设模型输出的候选图像与对应源图像之间的风格相似度损失达到一定程度为止;最后将所述目标模型用于基于预设例字生成具有目标字体的例字图像;本申请在确保获取到的候选图像和源图像中例字字义相同的基础上,仅基于候选图像和源图像之间的风格相似度损失更新预设模型的参数,能够使预设模型专注于学习字体风格特征,并在预设模型每次更新时,加深对字体风格特征的学习,直至预设模型从各个尺度充分学习到源图像的字体风格,在保证所述预设例字的字义信息不发生改变的情况下,实现对字体的风格进行准确的迁移。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
图1为本申请一实施例提供的模型训练方法的流程示意图;
图2为本申请一实施例提供的对所述候选图像进行特征处理的示意图;
图3为本申请一实施例提供的对所述候选图像进行一次特征提取和特征融合神经网络结构的示意图;
图4为本申请一实施例提供的候选图像在多次特征处理中发生特征变换的示意图;
图5为本申请一实施例提供的通过鉴别器获取候选图像和所述源图像的分类结果的特征变化示意图;
图6为本申请一实施例提供的更新所述预设模型的流程示意图;
图7为本申请一实施例提供的字体迁移方法的流程示意图;
图8为本申请一实施例提供的模型训练装置的示意图;
图9为本申请一实施例提供的字体迁移装置的示意图;
图10为本申请一实施例提供的一种介质的结构示意图;
图11为本申请一实施例提供的一种计算设备的结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
根据本发明的实施方式,提出了一种模型训练方法、字体迁移方法、装置及介质。
下面参考本申请的若干代表性实施例,详细阐释本申请的原理和精神。
示例性方法
下面参考图1,介绍本申请一实施例提供的模型训练方法,该方法包括:
步骤S101,获取候选图像,所述候选图像由预设模型基于样本例字生成。
在本申请实施例中,所述候选图像由所述预设模型基于所述样本例字进行至少一次特征处理后得到。其中,所述样本例字和所述候选图像中包括的例字的字义相同。
可以理解的是,在本申请实施例中,所述样本例字可以是基于书法作品拍摄得到的照片,也可以是基于碑帖等书法载体拍摄得到的照片,或者还可以是用户直接在书法临摹设备进行电子临摹后,生成的书法图像。考虑到照片拍摄的尺寸不一,且可能包括照片拍摄现场与书法无关的背景,在得到字体图像后,可以按照实际需求进行图像预处理,例如裁剪、旋转或缩放。另外,还可以为字体图像设置固定的尺寸,以生成符合预设标准,即可进行特征处理的样本例字。其中,所述字体图像还可以是不同形式的图像,例如可以是二值化图像、灰度图像、索引图像或RGB彩色图像。对此,本申请实施例不做限定。
在本申请实施例中,为了方便进行特征处理,可以将字体图像处理为预设尺寸的图像,即样本例字。例如,可以将字体图像的尺寸设置为128×128×3。需要说明的是,上述尺寸仅为示例,本领域的技术人员可以根据实际需要设置为其他尺寸,本申请实施例对此不做限定。
在本申请实施例中,对所述样本例字进行特征处理的方式至少包括特征融合和特征提取或特征扩展。其中,可以在每次特征处理过程中设置多轮次特征提取和特征融合,以及多轮次特征扩展和特征融合,以重复提取样本例字的字义特征,以及重复学习源图像的字体风格特征,保证在样本例字的字义信息不改变的情况下,将样本例字的字体准确迁移为目标字体。需要说明的是,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同。
例如,将特征提取和特征融合的次数设定为4,使基于样本例字获取的原始特征图在一次特征处理过程中进行四次特征提取和特征融合,充分提取原始特征图中的特征,保留样本例字的字义信息。再比如,将特征扩展和特征融合的次数设定为4,使待扩展特征图在一次特征提取的过程中进行四次特征扩展和特征融合,以使预设模型能够以源图像的字体风格为目标进行特征扩展,同时通过特征融合重复利用样本例字的特征,在保留样本例字的字义信息的情况下,以源图像中字体风格为目标生成候选图像。
需要说明的是,在本申请实施例中,由于可能需要经历不止一次特征提取和特征融合,以及特征扩展和特征融合的过程。即本申请实施例中,需要基于第一预设条件和第二预设条件,对样本例字进行多次特征提取和特征融合,以及多次特征扩展和特征融合,最终得到候选图像。
由此,在本申请实施例中,用于进行特征提取的原始特征图在每一次特征提取的过程中可能并不相同,以及用于进行特征扩展的待扩展特征图在每次特征处理过程中可能也并不相同;例如,用于进行第一轮特征提取的原始特征图A1和用于进行第二轮特征提取的原始特征图A2是不同的,同样的,用于进行第一轮特征扩展的待扩展特征图B1和用于进行第二轮特征扩展的待扩展特征图B2也是不同的。
在一次特征提取和特征融合的过程中,得到的第一更新特征图,可作为下一轮特征提取的原始特征图继续进行特征提取。例如,可以对样本例字进行n轮特征提取和特征融合,在第一轮特征提取时,可以将样本例字直接作为原始特征图n1进行特征提取,得到当前特征图n1’,然后将当前特征图n1’与原始特征图n1进行特征融合,得到第一更新特征图x1。如果此时得到的第一更新特征图x1不符合第一预设条件,那么就将第一更新特征图x1作为历史第一更新特征图x1’,再根据历史第一更新特征图x1’,获取下一轮用于进行特征提取的更新的原始特征图n2。
需要说明的是,在一次特征扩展和特征融合的过程中,特征扩展和特征融合时的待扩展特征图,都是基于特征提取和特征融合后得到的第一更新特征图获取的。例如,还可以设置特征扩展和特征融合的轮次为m轮,并且可以使特征扩展和特征融合的轮次m设置为与特征提取和特征融合的轮次n设置为相等的关系,即m=n,然后基于符合第一预设条件的第一更新特征图获取用于第一轮特征扩展的待扩展特征图m1,之后对第一轮待扩展特征图m1进行特征扩展,得到扩展特征图m1’,然后将扩展特征图m1’与第n-1轮特征提取和特征融合后得到的第一更新特征图xn-1进行融合,得到第二更新特征图y1。如果此时得到的第二更新特征图y1不符合第二预设条件,那么就将第二更新特征图y1作为历史第二更新特征图y1’,再根据历史第二更新特征图y1’,获取下一轮用于进行特征扩展的更新的待扩展特征图m2。
在本申请实施例中,所述预设模型基于所述样本例字进行特征处理的过程如图2所示,n轮为最后一轮特征提取和特征融合,m轮为最后一轮特征扩展和特征融合。其中,参照图2,预设模型基于样本例字进行一次特征处理的过程具体包括:
①获取原始特征图,其中,所述原始特征图基于历史第一更新特征图获取,所述历史第一更新特征图基于所述样本例字获取。
具体的,第一轮特征提取的历史第一更新特征图可以是样本例字本身,相应的,原始特征图是基于历史第二更新特征图获取的,所以用于第一轮特征提取的原始特征图可以是样本例字。
②对所述原始特征图进行特征提取,得到当前特征图。
具体的,可以根据需求设置相应的特征提取维度,然后采用卷积对原始特征图按照设置的提取维度进行特征提取,并在特征提取后进行批归一化处理,得到所述当前特征图。
举例说明,采用3×3的卷积核,对128×128×64的原始特征图,进行步长为2的特征提取后,再进行步长为1的特征提取,得到64×64×128的特征图。将64×64×128的特征图,通过批归一化映射到0-1的范围内,利用激活函数,将归一化后的所述特征图中的特征值均激活为正数,最后输出提取到的64×64×128的当前特征图。
③将所述原始特征图和所述当前特征图进行特征融合,得到第一更新特征图。
具体的,当前的第一更新特征图可作为进行下一特征提取步骤的历史第一更新特征图。此外,可以通过设置残差结构将所述原始特征图与当前特征图进行融合,以使原始特征图的特征权重和当前特征图中的特征权重保持在近似为零的范围内,防止预设模型内部的神经网络出现梯度爆炸和梯度消失的情况,提高预设模型对样本例字字义特征的提取能力。利用所述残差结构进行融合的具体方式为:从原始特征图所在位置延伸出一个分支,直接将原始特征图与所述当前特征图相加进行特征融合,得到第一更新特征图。
基于上述步骤②和步骤③,预设模型对所述原始特征图进行一次特征提取,以及对提取后得到的当前特征图与原始特征图进行一次融合的过程,可以基于图3所示的神经网络结构进行。图3中Conv指的是用于特征提取的卷积层,BN指的是批归一化处理,Relu指的是Relu激活函数,分支的⊕指的是用于特征融合的残差结构。在本申请的实施例中,参照图3所示的预设模型的内部神经网络结构,首先可以利用两个卷积层对原始特征图进行连续两次特征提取,并在每次特征提取后进行批归一化处理和特征激活,得到当前特征图。然后通过残差结构将原始特征图与当前特征图进行特征融合后再次进行特征激活,得到当前特征提取和特征融合后的第一更新特征图。
④若所述第一更新特征图未符合第一预设条件,则基于所述第一更新特征图,获取更新的原始特征图。
具体的,所述第一预设条件可以是根据特征提取的程度设置的,例如,可以将特征提取的次数作为第一预设条件,判断当前第一更新特征图是否经过n轮特征提取和特征融合,若否,则判定当前轮特征提取和特征融合后得到的第一更新特征图未符合第一预设条件,并将未符合第一设定条件的第一更新特征图作为下一轮特征提取的历史第一更新特征图,然后可以将这个历史第一更新特征图作为更新的原始特征图,并将更新的原始特征图继续用于进行特征提取。
此外,还可以将第一预设条件设置为固定的维度,例如,可以根据需求将第一预设条件设置为8×8×1024的固定维度,或者也可以是64×64×128的固定维度,然后将当前第一更新特征图的维度与作为第一预设条件的固定维度做对比,若第一更新特征图的维度与第一预设条件的固定维度不同的话,则判定为未符合第一预设条件,并将未符合第一预设条件的第一更新特征图作为下一轮特征提取和特征融合的历史第一更新特征图,然后可以将这个历史第一更新特征图作为更新的原始特征图,并将更新的原始特征图继续用于进行特征提取和特征融合。
需要说明的是,上述固定维度仅为示例,本领域的技术人员可以根据实际需要设置为其他维度,本申请实施例对此不做限定。
⑤基于更新的原始特征图,获取更新的第一更新特征图,直至更新的第一更新特征图符合第一预设条件,并将符合第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像。其中,所述候选图像中包括的例字与样本例字的字义相同。
具体的,在每次特征处理和特征融合后得到未符合第一预设条件的第一更新特征图时,都可以将对应的第一更新特征图作为对应下一轮次的历史第一更新特征图,然后基于历史第一更新特征图获取更新的原始特征图继续进行特征提取和特征融合,直至满足第一预设条件对第一更新特征图的要求后,就可以停止将符合第一预设条件的第一更新特征图继续用于进行下一轮的特征提取和特征融合了。
其中,所述符合第一预设条件的第一更新特征图可以作为特征扩展的基础,未符合第一预设条件的各个第一更新特征图也可以作为特征扩展后进行特征融合的基础,直至得到候选图像。
在本申请实施例中,还可以参阅图2,在步骤①至步骤⑤的基础上,预设模型基于样本例字进行一次特征处理的过程,还包括:
⑥获取待扩展特征图,其中,所述待扩展特征图基于历史第二更新特征图获取,所述历史第二更新特征图基于所述第一更新特征图获取。
具体的,用于第一轮特征扩展的历史第二更新特征图可以是符合第一预设条件的第一更新特征图本身,相应的,待扩展特征图是基于历史第二更新特征图获取的,所以用于第一轮特征扩展的待扩展特征图可以是符合第一预设条件的第一更新特征图。
此外,第2~(m-1)轮的历史第二更新特征图可以是上一轮特征扩展和特征融合后得到的,不符合第二预设条件的第二更新特征图。
⑦对所述待扩展特征图进行特征扩展,得到扩展特征图。
具体的,可以根据需求设置相应的特征扩展维度,然后采用转置卷积对待扩展特征图按照设置的扩展维度进行特征扩展,并在特征扩展后进行批归一化处理,得到所述扩展特征图。
举例说明,采用3×3的卷积核,对8×8×1024的待扩展特征图,进行步长为4的上采样后,再进行步长为1的上采样,得到16×16×512的特征图。将16×16×512的特征图,通过批归一化映射到0-1的范围内,利用激活函数,将归一化后的所述特征图中的特征值均激活为正数,最后输出扩展后的16×16×512的扩展特征图。
⑧将所述第一更新特征图与所述扩展特征图进行特征融合,得到第二更新特征图。
具体的,当前的第二更新特征图可作为下一特征扩展步骤的历史第二更新特征图。此外,可以通过设置残差结构将与当前的扩展特征图尺寸相同,且不符合第一预设条件的对应第一更新特征图进行融合,以使当前的扩展特征图的特征权重和所述对应第一更新特征图的特征权重保持在近似为零的范围内,防止预设模型内部的神经网络出现梯度爆炸和梯度消失的情况,提高预设模型从所述对应的第一更新特征图中提取出样本例字字义特征的提取能力。利用所述残差结构进行融合的具体方式为:从扩展特征图的对应第一更新特征图所在位置延伸出一个分支,直接将所述对应第一更新特征图与当前的扩展特征图相加进行特征融合,得到第二更新特征图。
此外,在进行第1~(m-1)轮的特征融合时,都需要获取对应的尺寸相同的未符合第一预设条件的第一更新特征图,将其与对应的扩展特征图进行融合,然后得到所述第二更新特征图。但是,在第m轮特征扩展后的扩展特征图不需要进行特征融合,也就是说,第m轮扩展特征图不需要经过本步骤⑧的处理,直接进入步骤⑨进行处理。
⑨若所述第二更新特征图未符合第二预设条件,则基于所述第一更新特征图,获取更新的待扩展特征图。
具体的,所述第二预设条件可以是根据特征扩展的程度设置的,例如,可以将特征扩展的次数作为第二预设条件,判断当前第二更新特征图是否经过m轮特征提取和特征融合,若否,则判定当前轮特征扩展和特征融合后得到的第二更新特征图未符合第二预设条件,并将未符合第二设定条件的第二更新特征图作为下一轮特征扩展的历史第二更新特征图,然后可以将这个历史第二更新特征图作为更新的原始特征图,并将更新的原始特征图继续用于进行特征扩展。
此外,还可以将第二预设条件设置为固定的维度,例如,可以根据需求将第二预设条件设置为128×128×3的固定维度,将当前第二更新特征图的维度与作为第二预设条件的固定维度做对比。若第二更新特征图的维度与第二预设条件的固定维度不同的话,则判定为未符合第二预设条件,并将未符合第二预设条件的第二更新特征图作为下一轮特征扩展的历史第二更新特征图,然后可以将这个历史第二更新特征图作为更新的待扩展特征图,并将更新的待扩展特征图继续用于进行特征扩展。
需要说明的是,上述固定维度仅为示例,本领域的技术人员可以根据实际需要设置为其他维度,本申请实施例对此不做限定。
⑩基于更新的待扩展特征图,获取更新的第二更新特征图,直至更新的第二更新特征图符合所述第二预设条件,将符合所述第二预设条件的第二更新特征图作为所述候选图像。具体的,在每次特征扩展和特征融合后得到未符合第二预设条件的第二更新特征图时,都可以将对应的第二更新特征图作为对应下一轮次的历史第二更新特征图,然后基于历史第二更新特征图获取更新的待扩展特征图继续进行特征扩展。直至满足第二预设条件对第二更新特征图的要求后,就可以停止将符合第二预设条件的第二更新特征图继续用于进行下一轮的特征扩展,并直接将符合所述第二预设条件的第二更新特征图作为所述候选图像即可。
此外,在本实施例中,在获取符合第二预设条件的第二更新特征图的过程中,需要基于对应前一轮得到的未符合第二预设条件的第二更新特征图进行特征扩展,得到的扩展特征图不需要再进行特征融合,直接输出符合第二预设条件的第二更新特征图即可。
举例说明,在第二预设条件为128×128×3的情况下,那么当第二更新特征图为128×128×64时,则判定第二更新特征图为倒数第二轮特征扩展和特征融合后得到的第二更新特征图,即m-1轮得到的未符合第二预设条件的第二更新特征图,而m-1轮得到的第二更新特征图在作为第m轮历史第二更新特征图,以及作为第m轮待扩展特征图时,只需要对这个128×128×64待扩展特征图只进行特征扩展即可,不需要再进行特征融合处理。
在本申请的实施例中,对于预设模型的训练,基于上述步骤①至步骤⑩提供的预设模型基于样本例字进行特征处理得到候选图像的过程,在面对多个用于训练预设模型的样本例字时,都需要按照上述过程进行处理,直至每个样本例字都得到对应的候选图像为止。并且,在预设模型基于后续的风格相似度损失进行更新,且得到的更新预设模型后,还需要按照上述步骤①至步骤⑩再次对样本例字再次进行特征处理,以实现基于更新后的模型获取更新的候选图像。
在本申请的实施例中,参照图4,图4给出了预设模型中的网络结构对输入的样本例字进行特征提取和特征融合,以及特征扩展和特征融合后,得到所述候选图像的过程。其中,所述预设模型中基于对样本例字进行特征处理获取到候选图像的网络结构又称为生成器,所述生成器中又包含编码器和解码器,对样本例字进行特征提取和特征融合的是编码器,对编码器的输出进行特征扩展和特征融合的是解码器,所述编码器和解码器之间通过跳跃连接(Skip connection)进行特征融合,即将编码器得到的各个未符合第一预设条件的第一更新特征图用于同解码器中对应尺寸相同的扩展特征图进行特征融合,最大限度的实现特征重用。
在本申请的实施例中,所述编码器由多个卷积(Conv),批归一化(Batch Normal),和残差卷积单元构成(Residual Conv Block)。所述解码器基于上述网络结构,可以对样本例字进行多轮特征提取和特征融合,也就是说,所述解码器用于实现预设模型基于样本例字进行一次特征处理的过程中的特征提取和特征融合步骤,即执行上述步骤①至步骤⑤,直至得到符合第一预设条件的第一更新特征图。
举例说明,所述编码器的输入可以是大小为128×128,维度为3的RGB字体图像,即样本例字进行尺寸或格式处理后得到的,作为第一轮特征提取的历史第一更新特征图和原始特征图。所述大小为128×128,维度为3的RGB格式的原始特征图在编码器中经过第一轮卷积和批归一化(特征提取),以及残差卷积单元(特征融合)后,其大小为128×128不变,维度变为64的特征图,即第一轮未符合第一预设条件的第一更新特征图。之后,将第一轮未符合第一预设条件的第一更新特征图作为第二轮特征提取的历史第一更新特征图,再基于所述历史第一更新特征图获取更新的原始特征图后,对这个更新的原始特征图继续进行卷积和批归一化(特征提取),以及残差卷积单元(特征融合)处理,在经过第2~n轮处理后,对应得到的第一更新特征图的大小是对应输入的原始特征图的二分之一,维度变为原来的二倍。假设第一预设条件为固定维度8×8×1024,那么在得到维度为8×8×1024的第一更新特征图时,其对应的特征提取和特征融合过程即为最后一轮。
根据上述对编码器处理步骤的说明,以及上述第一轮输入的原始特征图的尺寸、特征提取和特征融合过程中原始特征图和对应第一更新特征图的尺寸和维度变化,所述编码器的网络参数可以按照表1所示的参数设置。
表1
在本申请的实施例中,所述解码器由多个转置卷积(Conv Transpose),批归一化(Batch Normal),和残差卷积单元构成(Residual Conv Block)。所述解码器基于上述网络结构,可以对所述解码器的输出,也就是对基于样本例字得到符合第一预设条件的第一更新特征图进行多轮特征提取和特征融合,所述解码器用于实现预设模型基于样本例字进行一次特征处理的过程中的特征扩展和特征融合步骤,即执行上述步骤步骤⑥至步骤⑩,直至得到候选图像。其中,所述候选图像中包括的例字和所述样本例字的字义相同。
举例说明,所述解码器可以直接将所述编码器的输出,即维度为8×8×1024的第一更新特征图,当作第一轮特征扩展的待扩展特征图,然后对待扩展特征图进行转置卷积和批归一化(特征提取),以及残差卷积单元的处理(特征融合)后,得到第二更新特征图。之后,将第一轮未符合第二预设条件的第二更新特征图作为第二轮特征扩展的历史第二更新特征图,再基于对应的未符合第一预设条件的第一更新特征图获取更新的待扩展特征图后,对这个更新的待扩展特征图继续进行转置卷积和批归一化(特征扩展),以及残差卷积单元处理(特征融合)。其中,经过解码器进行第1~(m-1)轮特征扩展和特征融合后,对应得到的所述第二更新特征图的大小都是对应待扩展特征图的二倍,维度都是对应待扩展特征图的二分之一,例如第一轮特征扩展和特征融合后,8×8×1024的待扩展特征图变为16×6×512的第二更新特征图。
而解码器的第最后一轮特征扩展,取决于第二预设条件,如果第二预设条件为128×128×3,在得到128×128×64的第二更新特征图后,将其作为第m轮的历史第二更新特征图,以及作为第m轮的待扩展特征图,然后对第m轮的输入,即128×128×64的待扩展特征图只进行特征扩展即可,不需要再进行特征融合处理,然后输出128×128×3的第二更新特征图,并基于128×128×3的第二更新特征图输出为RGB格式的候选图像。
根据上述对解码器处理步骤的说明,以及上述第一轮输入的待扩展特征图的尺寸、特征扩展和特征融合过程中待扩展特征图和对应第二更新特征图的尺寸和维度变化,所述解码器的网络参数可以按照表2所示的参数设置,表2中,步长为4的转置卷积进行8倍上采样,步长为2的转置卷积进行2倍上采样。
表2
在本申请的实施例中,所述预设模型不同于普通生成对抗网络的网络结构,所述预设模型生成器的网络结构相比于普通的生成对抗网络的生成器,其增加了大量的残差结构,即利用残差卷积单元在编码器和解码器对样本例字的处理过程中进行多次特征融合,以达到防止梯度消失、实现多次特征复用,以及有效提取样本例字的字义特征,并且使样本例字每一个尺度的字义特征得到充分有效的提取。
步骤S102,基于所述候选图像以及源图像获取风格相似度损失。
在本申请的实施例中,分别对所述候选图像和所述源图像进行特征提取,得到候选图像特征向量和源图像特征向量。其中,所述源图像是具有候选图像的目标风格的图像,即源图像是具有样本例字要迁移的目标风格的图像。所述源图像中包括的例字和所述候选图像中包括的例字与样本例字的字义均相同,所述候选图像是以所述源图像为目标生成的。
此外,在本申请中,不仅需要对所述候选图像或所述源图像进行特征提取,还需要在特征提取后进行特征融合。并在得到所述候选图像特征向量和源图像特征向量之前,需要对所述候选图像和所述源图像均进行多次特征提取和特征融合的处理,最后获取满足作为候选图像特征向量的特征图,以及满足作为源图像特征向量的特征图,并对这两个特征图进行全局平均池化、线性映射的处理,得到所述候选图像特征向量以及源图像特征向量。
举例说明,对所述候选图像或源图像进行特征提取的步骤可参照图5。根据图5所示的特征变化过程,以候选图像为例,可将128×128×3的候选图像直接作为输入,然后对候选图像进行特征提取,并将特征提取后得到的特征图与提取前的候选图像进行融合,得到128×128×64的特征图。在第一轮特征提取和特征融合之后,基于128×128×64的特征图进行多次特征提取和特征融合,此时每次进行特征提取和特征融合后的特征图大小是进行特征提取和特征融合前的特征图大小的二分之一,维度是之前的二倍。在得到8×8×1024的特征图后,基于该特征图进行全局平均池化、线性映射,得到最终得到大小为(1,2)的候选图像特征向量。
相应的,所述源图像进行特征提取后,也需要进行特征融合,然后再按照图5中的处理步骤进行多次特征提取和特征融合,最后输出8×8×1024的特征图,基于该特征图进行全局平均池化、线性映射,得到最终得到大小为(1,2)的源图像特征向量。
另外,在本申请中,可以基于预设模型的鉴别器获取候选图像特征向量和源图像特征向量。所述鉴别器基于128×128×3的候选图像获取候选图像特征向量的过程也可以参照图5所示。图5所示的鉴别器的网络结构中,也同时包含多个如图3所示的由多个卷积(Conv),批归一化(Batch Normal),和残差卷积单元构成(Residual Conv Block)的神经网络结构,可以对候选图像进行多次特征提取和特征融合,并在得到8×8×1024的特征图后,将8×8×1024的特征图进行全局平均池化、线性映射处理,最终得到包含候选图像的分类概率的候选图像特征向量。相应的,鉴别器对源图像进行处理的过程与上述鉴别器对候选图像的处理过程相同,最后也会得到包括源图像的分类概率的候选图像特征向量。
在本申请的实施例中,基于所述候选图像特征向量获取所述候选图像的分类结果;以及基于所述源图像特征向量获取所述源图像的分类结果。其中,所述候选图像特征向量和所述源图像特征向量都是大小为(1,2)的特征向量,这两个特征向量都是一行两列的矩阵向量,两个数值分别代表输入的候选图像或源图像被二分类为真实类别和生成类别的概率。
举例说明,当所述候选图像被分为生成类别的概率为80%,被分为真实类别的概率为20%;所述源图像被分为生成类别的概率为10%,被分为真实类别的概率为90%。之后,以对应最大的概率值对应的类别作为候选图像和源图像的类别,即将对应分类概率值最大对应的类别作为候选图像和源图像。也就是说,当所述候选图像被分为生成类别的概率为80%,被分为真实类别的概率为20%时,所述候选图像的分类结果就是生成类别。同样的,在所述源图像被分为生成类别的概率为10%,被分为真实类别的概率为90%时,所述源图像的类别就是真实类别。
在本申请的实施例中,根据所述候选图像的分类结果和所述源图像的分类结果确定所述候选图像和所述源图像之间的风格相似度损失。其中,所述风格相似度损失就是所述候选图像与所述源图像之间的差异,预设模型基于样本例字生成的候选图像越接近源图像,则所述风格相似度损失越小,反之,预设模型基于样本例字生成的候选图像与源图像的差异越大,则所述风格相似度损失越大。
举例说明,当所述候选图像的分类结果为生成类别,所述源图像的分类结果为真实类别,并且,所述候选图像分为真实类别的概率是20%,所述源图像被分为真实类别的概率为90%,则说明所述候选图像与所述源图像之间的差异较大,二者间的风格损失也较大。
步骤S103,若所述风格相似度损失未收敛,则更新所述预设模型。其中,所述生成器用于生成候选图像,所述鉴别器用于分别对候选图像和对应的源图像进行特征提取以及获取候选图像和源图像的分类结果。
在本申请的实施例中,利用二元交叉熵损失确定风格相似度是否收敛。例如,可以设定以二者之间的二元交叉熵损失最小为收敛条件,并在所述二元交叉熵损失未达到最小时,需要对预设模型的参数进行优化,即在风格相似度损失未收敛时,更新所述预设模型中的生成器和鉴别器。通过二元交叉熵损失优化,生成器可以在重新基于样本例字获取候选图像时,减少候选图像与对应的源图像之间的字体风格差异。此外,通过二元交叉熵损失优化,鉴别器可以判断其输入的真伪,即更加准确识别出候选图像和源图像为何种类别,同时使训练输入的样本例字越来越接近对应的源图像。
其中,对预设模型参数进行优化的方式包括:将生成类别的标签定义为1,真实类别的标签定义为0,再将当前进行训练的预设模型生成的候选图像和其对应的源图像,以及所述候选图像的标签和源图像的标签交替输入到鉴别器的网络中进行训练,最后基于二元交叉熵损失进行预设模型参数优化,公式如下:
loss=-(ylog(p(x))+(1-y)log(1-p(x)))
其中,y为鉴别器输入图像的标签,取0或者1,代表真实类别的标签或生成类别的标签,p(x)为鉴别器对输入的图片进行预测的标签值。
基于上述公式,在真实类别的标签为0,生成类别的标签为1时,候选生成图像的原始标签为1,第一源域图像的原始标签为0;
当输入源图像时,标签为0,此时y=0,则有:
loss=-log(p(x),此时p(x)越接近0,loss越接近0,即鉴别器预测源图像的标签值越接近0,loss越小,当鉴别器预测源图像的标签值越接近0时,代表鉴别器预测其为真实类别的概率越大,loss越小。
当输入候选图像时,标签为1,此时y=1,则有:
loss=-log(1-p(x)),此时(1-p(x))越接近0,loss越接近0,故而p(x)越接近0,(1-p(x))越接近0,即第一鉴别器预测候选生成图像的标签值越接近0,loss越小,当鉴别器预测源图像的标签值越接近1时,代表鉴别器预测其为生成类别的概率越大,loss越大。
步骤S104,基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型。
其中,所述目标模型用于基于预设例字,生成具有目标字体的例字图像,即所述目标模型可以在保证字义不发生改变的情况下,将当前输入的字体A迁移为目标字体B。
在本申请的实施例中,基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型。
其中,基于更新的预设模型,获取更新的候选图像的过程,还是基于样本例字进行的,但是更新的预设模型的训练输入可以替换为与上次训练中字体风格相同、字义不同的样本例字。在确定输入的样本例字后,具体可以按照步骤101中提供的预设模型基于样本例字进行一次特征处理的步骤①至⑩进行,得到更新的候选图像,再计算更新的候选图像与源图像之间的相似度损失,判断更新的候选图像与源图像之间的风格相似度损失是否收敛,若仍未收敛则继续更新模型,再次选取未作为训练输入的样本例字输入到再次更新的预设模型,获取再次更新的候选特图像,如此循环对预设模型进行训练,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为训练好的目标模型。
在本申请的另一实施例中,基于上述步骤S101至S104,以图6为例,图6中示出在风格相似度损失未收敛的情况下,对预设模型进行更新以及继续进行训练的过程。其中,图6中示出的预设模型中包括生成器和鉴别器的网络结构,在预设模型进行训练的过程中,无论是基于风格完全未改变的原始例字,还是基于更新的候选图像,在输入到预设模型进行特征处理时,都是以源图像为目标进行特征处理的。
例如图6中给出的源图像“年”字。所述生成器以源图像中楷体的“年”字为目标,对作为样本例字输入的宋体的“年”字进行特征处理后,生成的候选图像“年”需要和对应的源图像“年”需要分别输入到鉴别器网络结构中进行特征处理,以得到包括源图像分类结果的源图像特征向量和候选图像特征向量,再从中获取候选图像的分类结果和源图像的分类结果,即生成类别和真实类别。基于二者的分类结果,计算两个图像之间的风格相似度损失,也就是对两个图像中“年”的字体风格相似度进行评估,当这两个“年”字之间的风格差异不在设定范围内,也就是风格相似度损失未收敛时,需要优化风格相似度损失,而优化风格相似度损失,即为优化预设模型中生成器和鉴别器的参数,也就是对预设模型进行更新,得到更新后的模型。
图6中所示的过程仅为进行一次模型更新的过程。相应的,预设模型在风格相似度损失未收敛的情况下,需要按照图6的更新过程进行多次更新,直至风格相似度损失收敛,才可以停止更新,并将风格相似度损失收敛时的预设模型作为训练好的目标模型。
本申请实施例提供的模型训练方法,可以通过预设模型基于样本例字获取候选图像,再基于所述候选图像以及源图像获取风格相似度损失作为所述预设模型的损失,若所述风格相似度损失未收敛,则更新所述预设模型,即通过预设模型的参数更新,使预设模型进一步源图像的字体风格特征,提升预设模型的迁移效率。之后,更新的预设模型再次基于所述样本例字获取更新的候选图像,直至风格相似度损失收敛,也就是使预设模型在反复更新的过程中,学习到所述源图像中字体风格在每一尺度的特征,直至更新后的预设模型在输入样本例字后,能够得到字义不变且字体风格与对应的源图像相同的候选图像,此时的候选图像和源图像的风格相似度损失收敛,对应的预设模型即为目标模型。因此,通过本申请提供的模型训练方法训练得到的目标模型在使用过程中可以在保证所述预设例字的字义信息不发生改变,实现对字体的风格进行准确的迁移,增强字体风格迁移的完整性。
此外,本申请实施例提供的模型训练方法,还可以基于预设模型,以样本例字为训练输入,对其进行包括特征提取和特征融合,以及特征扩展和特征融合在内的特征处理,直至得到候选图像,即预设模型的训练输出。由于本申请实施例在进行特征处理时,需要对样本例字进行多次特征提取和特征融合,以及多次特征扩展和特征融合,即通过特征融合提取样本例字字义特征并进行多次复用,确保样本例字的字义特征得到充分有效的提取和学习,进一步提高预设模型训练的准确度,使更新得到的目标模型能够进一步实现对预设例字字体风格的准确迁移。
另外,本申请通过在特征提取和特征扩展之后设置的多次特征融合的步骤,使字义特征复用的同时,还能够加深预设模型中神经网络的深度,使预设模型在训练过程中能够有效提取样本例字的全局特征,以及对样本例字的全局特征进行有效的学习,避免预设模型在训练过程中出现梯度爆炸或梯度消失的问题,提高了模型训练的准确度,使训练好的目标模型能够在字体迁移的过程中,对输入的预设例字每一尺度的特征得到充分有效的提取。
在本申请的一实施例中,参阅图7,还提供一种字体迁移方法,其流程具体包括:
步骤S201,获取预设例字。
在本申请的实施例中,所述预设例字是待进行字体风格迁移的字。例如,所述预设例字可以是基于书法作品拍摄得到的包含待进行字体风格迁移字体图像;所述预设例字也可以是基于碑帖等书法载体拍摄得到的需要进行字体风格迁移的字体图像,或者还可以是用户直接在书法临摹设备进行电子临摹后,得到的包含书法作品的图像。
此外,所述预设例字如果为字体图像形式,还可以是按照实际需求将书法图像进行图像预处理,例如裁剪、旋转或缩放后得到的。另外,还可以为样本例字设置固定的尺寸。其中,所述预设例字还可以是不同形式的图像,例如可以是二值化图像、灰度图像、索引图像或RGB彩色图像。对此,本申请实施例不做限定。
步骤S202,将所述预设例字输入到目标模型,生成具有目标字体的例字图像。
在本申请的实施例中,所述目标模型是采用本申请提供的模型训练方法进行训练后得到的。
在本申请的实施例中,将所述预设例字输入到目标模型,生成具有目标字体的例字图像的过程具体包括:
步骤一、获取待提取特征图,其中,所述待提取特征图基于历史更新特征图获取,所述历史更新特征图基于所述预设例字获取。
步骤二、对所述待提取特征图进行特征提取,得到提取特征图。
步骤三、将所述待提取特征图和所述提取特征图进行特征融合,得到更新特征图。
步骤四、若所述更新特征图未符合特征扩展条件,则基于所述更新特征图,获取更新的待提取特征图。
步骤五、基于更新的待提取特征图,重复上述步骤一至步骤四获取更新的更新特征图,直至更新的更新特征图符合特征扩展条件。
步骤六、获取待扩充特征图,其中,所述待扩充特征图基于历史迭代特征图获取,所述历史迭代特征图基于所述符合特征扩展条件的更新特征图获取。
步骤七、对所述待扩充特征图进行特征扩展,得到扩充特征图。
步骤八、将与所述扩展特征图与对应尺寸相同的更新特征图进行特征融合,得到迭代特征图。
步骤九、若所述迭代特征图未符合新风格生成条件,则基于所述更新特征图,获取更新的待扩充特征图。
步骤十、基于更新的待扩充特征图,获取更新的迭代特征图,直至更新的迭代特征图符合目标风格生成条件,将符合所述目标风格生成条件的迭代特征图作为具有目标字体的例字图像。
本实施例提供的字体迁移方法是采用目标模型实现的,所述目标模型在训练过程中,通过预设模型基于样本例字获取候选图像,再基于所述候选图像以及源图像获取风格相似度损失作为所述预设模型的损失,若所述风格相似度损失未收敛,则更新所述预设模型,即通过预设模型的参数更新,使预设模型进一步学习源图像的字体风格特征,提升预设模型的迁移效率。之后,更新的预设模型再次基于所述样本例字获取更新的候选图像,直至风格相似度损失收敛,也就是使预设模型学习到源图像的字体风格在每一个尺度的特征,直至更新后的预设模型在输入样本例字后,能够得到字义不变且字体风格与对应的源图像相同的候选图像,此时预设模型即为目标模型。因此,通过本申请提供的字体迁移方法基于所述目标模型,可以在保证所述预设例字的字义信息不发生改变的情况下,实现对字体的风格进行准确的迁移,增强字体风格迁移的完整性。
示例性装置
在介绍了本申请示例性实施例的介质之后,接下来,参考图8对本申请示例性实施方式的一种模型的训练装置进行说明,该装置包括:
第一获取模块301,被配置为获取候选图像,所述候选图像由预设模型基于样本例字生成。其中,所述样本例字和所述候选图像中包括的例字的字义相同。
作为一种可选实施方式,所述第一获取模块301获取候选图像是由所述预设模型基于所述样本例字进行至少一次特征处理后得到的。
作为一种可选实施方式,所述第一获取模块301通过预设模型基于样本例字进行至少一次特征处理,得到候选图像的过程,包括:
获取原始特征图,其中,所述原始特征图基于历史第一更新特征图获取,所述历史第一更新特征图基于所述样本例字获取;
对所述原始特征图进行特征提取,得到当前特征图;
将所述原始特征图和所述当前特征图进行特征融合,得到第一更新特征图;
若所述第一更新特征图未符合第一预设条件,则基于所述第一更新特征图,获取更新的原始特征图;
基于更新的原始特征图,获取更新的第一更新特征图,直至更新的第一更新特征图符合第一预设条件,并将符合第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像。
作为一种可选实施方式,第一获取模块301通过预设模型基于样本例字进行至少一次特征处理,得到候选图像的过程,具体包括:
获取原始特征图,其中,所述原始特征图基于历史第一更新特征图获取,所述历史第一更新特征图基于所述样本例字获取。
具体的,第一轮特征提取的历史第一更新特征图可以是样本例字本身,相应的,原始特征图是基于历史第二更新特征图获取的,所以用于第一轮特征提取的原始特征图可以是样本例字。
对所述原始特征图进行特征提取,得到当前特征图。
具体的,可以根据需求设置相应的特征提取维度,然后采用卷积对原始特征图按照设置好的提取维度进行特征提取,并在特征提取后进行批归一化处理,得到所述当前特征图。
将所述原始特征图和所述当前特征图进行特征融合,得到第一更新特征图。
具体的,当前的第一更新特征图可作为进行下一特征提取步骤的历史第一更新特征图。此外,可以通过设置残差结构将所述原始特征图与当前特征图进行融合,以使原始特征图的特征权重和当前特征图中的特征权重保持在近似为零的范围内。利用所述残差结构进行融合的具体方式为:从原始特征图所在位置延伸出一个分支,直接将原始特征图与所述当前特征图相加进行特征融合,得到第一更新特征图。
若所述第一更新特征图未符合第一预设条件,则基于所述第一更新特征图,获取更新的原始特征图。
具体的,所述第一预设条件可以是根据特征提取的程度设置的,例如,可以将特征提取的次数作为第一预设条件,判断当前第一更新特征图是否经过n轮特征提取和特征融合,若否,则判定当前轮特征提取和特征融合后得到的第一更新特征图未符合第一预设条件,并将未符合第一设定条件的第一更新特征图作为下一轮特征提取的历史第一更新特征图,然后可以将这个历史第一更新特征图作为更新的原始特征图,并将更新的原始特征图继续用于进行特征提取。
基于更新的原始特征图,获取更新的第一更新特征图,直至更新的第一更新特征图符合第一预设条件,并将符合第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像。
具体的,在每次特征处理和特征融合后得到未符合第一预设条件的第一更新特征图时,都可以将对应的第一更新特征图作为对应下一轮次的历史第一更新特征图,然后基于历史第一更新特征图获取更新的原始特征图继续进行特征提取和特征融合,直至满足第一预设条件对第一更新特征图的要求后,就可以停止将符合第一预设条件的第一更新特征图继续用于进行下一轮的特征提取和特征融合了。
其中,所述符合第一预设条件的第一更新特征图可以作为特征扩展的基础,未符合第一预设条件的各个第一更新特征图也可以作为特征扩展后进行特征融合的基础,直至得到候选图像。
获取待扩展特征图,其中,所述待扩展特征图基于历史第二更新特征图获取,所述历史第二更新特征图基于所述第一更新特征图获取。
具体的,用于第一轮特征扩展的历史第二更新特征图可以是符合第一预设条件的第一更新特征图本身,相应的,待扩展特征图是基于历史第二更新特征图获取的,所以用于第一轮特征扩展的待扩展特征图可以是符合第一预设条件的第一更新特征图。
此外,第2~(m-1)轮的历史第二更新特征图可以是上一轮特征扩展和特征融合后得到的,不符合第二预设条件的第二更新特征图。
对所述待扩展特征图进行特征扩展,得到扩展特征图。
具体的,可以根据需求设置相应的特征扩展维度,然后采用转置卷积对待扩展特征图按照设置好的扩展维度进行特征扩展,并在特征扩展后进行批归一化处理,得到所述扩展特征图。
将所述第一更新特征图与所述扩展特征图进行特征融合,得到第二更新特征图。
具体的,当前的第二更新特征图可作为下一特征扩展步骤的历史第二更新特征图。此外,可以通过设置残差结构将与当前的扩展特征图尺寸相同,且不符合第一预设条件的对应第一更新特征图进行融合,以使当前的扩展特征图的特征权重和所述对应第一更新特征图的特征权重保持在近似为零的范围内。利用所述残差结构进行融合的具体方式为:从扩展特征图的对应第一更新特征图所在位置延伸出一个分支,直接将所述对应第一更新特征图与当前的扩展特征图相加进行特征融合,得到第二更新特征图。
此外,在进行第1~(m-1)轮的特征融合时,都需要获取对应的尺寸相同的未符合第一预设条件的第一更新特征图,将其与对应的扩展特征图进行融合,然后得到所述第二更新特征图。但是,在第m轮特征扩展后的扩展特征图不需要进行特征融合,也就是说,第m轮扩展特征图不需要经过本步骤所述的特征融合处理,直接输出符合第二预设条件的第二更新特征图。
若所述第二更新特征图未符合第二预设条件,则基于所述第一更新特征图,获取更新的待扩展特征图。
具体的,所述第二预设条件可以是根据特征扩展的程度设置的,例如,可以将特征扩展的次数作为第二预设条件,判断当前第二更新特征图是否经过m轮特征扩展和特征融合,若否,则判定当前轮次特征扩展和特征融合后得到的第二更新特征图未符合第二预设条件,并将未符合第二设定条件的第二更新特征图作为下一轮特征扩展的历史第二更新特征图,然后可以将这个历史第二更新特征图作为更新的原始特征图,并将更新的原始特征图继续用于进行特征扩展。
基于更新的待扩展特征图,获取更新的第二更新特征图,直至更新的第二更新特征图符合第二预设条件,将符合所述第二预设条件的第二更新特征图作为所述候选图像。
具体的,在每次特征扩展和特征融合后得到未符合第二预设条件的第二更新特征图时,都可以将对应的第二更新特征图作为对应下一轮次的历史第二更新特征图,然后基于历史第二更新特征图获取更新的待扩展特征图继续进行特征扩展。直至满足第二预设条件对第二更新特征图的要求后,就可以停止将符合第二预设条件的第二更新特征图继续用于进行下一轮的特征扩,即直接将符合所述第二预设条件的第二更新特征图作为所述候选图像。
此外,在获取符合第二预设条件的第二更新特征图的过程中,需要基于对应前一轮得到的未符合第二预设条件的第二更新特征图进行特征扩展,得到的扩展特征图不需要再进行特征融合,直接输出符合第二预设条件的第二更新特征图即可。
在本申请的实施例中,第一获取模块301基于获取候选图像的过程,将样本例字设置为预设模型的训练输入,使预设模型对样本例字进行包括特征提取和特征融合以及特征扩展和特征融合的特征处理,并且在面对多个用于训练预设模型的样本例字时,第一获取模块301都会按照上述过程从预设模型中获取候选图像,直至每个样本例字都得到对应的候选图像为止。并且,在预设模型基于风格相似度损失进行更新,得到更新的预设模型后,还需要再次通过第一获取模块301按照上述过程获取更新的候选图像。
处理模块302,被配置为基于所述候选图像以及源图像获取风格相似度损失。其中,所述样本例字、候选图像中包括的例字以及源图像中的包括的例字的字义相同。
作为一种可选实施方式,处理模块302分别对所述候选图像和所述源图像进行特征提取,得到候选图像特征向量和源图像特征向量。其中,所述源图像是具有候选图像的目标风格的图像,即源图像是具有样本例字要迁移的目标风格的图像。所述源图像的字义和候选图像的字义以及样本例字的字义均相同,所述候选图像是以所述源图像为目标生成的。
作为一种可选实施方式,处理模块302不仅需要对所述候选图像或所述源图像进行特征提取,还需要在特征提取后进行特征融合。并在得到所述候选图像特征向量和源图像特征向量之前,需要对所述候选图像和所述源图像均进行多次特征提取和特征融合的处理,最后获取满足作为候选图像特征向量的特征图,以及满足作为源图像特征向量的特征图,并对这两个特征图进行全局平均池化、线性映射的处理,得到所述候选图像特征向量以及源图像特征向量。
作为一种可选实施方式,处理模块302基于所述候选图像特征向量获取所述候选图像的分类结果;以及基于所述源图像特征向量获取所述源图像的分类结果。
更新模块303,被配置为根据未收敛的所述风格相似度损失更新所述预设模型。其中,候选图像中包括的例字与源图像中包括的例字相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
作为一种可选实施方式,更新模块303利用二元交叉熵损失确定风格相似度是否收敛。例如,可以设定以二者之间的二元交叉熵损失最小为收敛条件,并在所述二元交叉熵损失未达到最小时,需要对预设模型的参数进行优化,即更新所述预设模型,通过二元交叉熵损失优化,鉴别器可以判断其输入的真伪,即更加准确识别出候选图像和源图像为何种类别,同时使训练输入的样本例字越来越接近对应的源图像。
所述更新模块303还被配置为基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型。其中,所述目标模型用于基于预设例字,生成具有目标字体的例字图像,即训练好的目标模型可以在保证字义不发生改变的情况下,将当前输入的字体A迁移为目标字体B。
作为一种可选实施方式,更新模块303基于更新的预设模型,通过第一获取模块301获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型。本申请实施例提供的模型的训练装置,可以通过第一获取模块301获取候选图像,再通过处理模块302基于候选图像以及源图像获取风格相似度损失作为所述预设模型的损失,然后通过更新模块303根据未收敛的所述风格相似度损失更新所述预设模型,即所述更新模块303根据样本例字与源图像之间的差异调节所述预设模型的参数,以更新所述预设模型。之后,更新模块303再次通过更新后的预设模型基于样本例字获取更新的候选图像,直至所述风格相似度损失收敛。通过更新模块303不断基于风格相似度损失来更新模型的内部参数,提高预设模型对样本例字的字义特征和源图像的字体风格特征的学习,使多次更新后得到的目标模型在使用过程中可以保证输入的待迁移例字在字义不发生改变的情况下,对其字体风格进行准确的迁移。
在本申请的另一个实施例中,参考图9对本申请示例性实施方式的字体迁移装置进行说明,该装置包括:
第二获取模块401,被配置为获取预设例字。
作为一种可选的实施方式,第二获取模块401获取的预设例字是待进行字体风格迁移的字。例如,所述预设例字可以是基于书法作品拍摄得到的包含待进行字体风格迁移字体图像;所述预设例字也可以是基于碑帖等书法载体拍摄得到的需要进行字体风格迁移的字体图像,或者还可以是用户直接在书法临摹设备进行电子临摹后,得到的包含书法作品的图像。
此外,第二获取模块401还可以按照实际需求将书法图像进行图像预处理,例如裁剪、旋转或缩放后得到预设例字。另外,第二获取模块401还可以为样本例字设置固定的尺寸。其中,第二获取模块401还可以将所述预设设置为不同形式的图像,例如可以是二值化图像、灰度图像、索引图像或RGB彩色图像。对此,本申请实施例不做限定。
迁移模块402,被配置为将所述预设例字输入到目标模型,生成具有目标字体的例字图像。其中,所述目标模型是采用本申请提供的模型训练方法进行训练后得到的。
作为一种可选实施方式,迁移模块402将所述预设例字输入到目标模型,生成具有目标字体的例字图像,具体过程包括:
获取待提取特征图,其中,所述待提取特征图基于历史更新特征图获取,所述历史更新特征图基于所述预设例字获取。
对所述待提取特征图进行特征提取,得到提取特征图。
将所述待提取特征图和所述提取特征图进行特征融合,得到更新特征图。
若所述更新特征图未符合特征扩展条件,则基于所述更新特征图,获取更新的待提取特征图。
基于更新的待提取特征图,重复上述步骤一至步骤四获取更新的更新特征图,直至更新的更新特征图符合特征扩展条件。
获取待扩充特征图,其中,所述待扩充特征图基于历史迭代特征图获取,所述历史迭代特征图基于所述符合特征扩展条件的更新特征图获取。
对所述待扩充特征图进行特征扩展,得到扩充特征图。
将与所述扩展特征图与对应尺寸相同的更新特征图进行特征融合,得到迭代特征图。
若所述迭代特征图未符合新风格生成条件,则基于所述更新特征图,获取更新的待扩充特征图。
基于更新的待扩充特征图,获取更新的迭代特征图,直至更新的迭代特征图符合新风格生成条件,得到具有目标风格的例字图像。
本实施例提供的字体迁移装置,由于所述目标模型在训练过程中,充分学习到了源图像的字体风格在每一个尺度上的特征,减少了模型在训练过程中容易丢失字义特征或字体风格迁移不完整的情况,因此训练得到的目标模型可以在保证预设例字的字义不变的情况下,将预设例字准确迁移为目标风格的字体,增强了预设例字在字体风格迁移过程中的完整度,提高了字体风格迁移的准确度。
示例性介质
在介绍了本申请示例性实施方式的方法和装置之后,接下来,参考图10对本申请示例性实施方式的计算机可读存储介质进行说明,其示出的计算机可读存储介质为光盘50,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取候选图像,所述候选图像由预设模型基于样本例字生成;基于所述候选图像以及源图像获取风格相似度损失;若所述风格相似度损失未收敛,则更新所述预设模型;基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,参考图11对本申请示例性实施方式的用于书法风格识别的计算设备。
图11示出了适于用来实现本申请实施方式的示例性计算设备60的框图,该计算设备60可以是计算机系统或服务器。图11显示的计算设备60仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算设备60的组件可以包括但不限于:一个或者多个处理器或者处理单元601,系统存储器602,连接不同系统组件(包括系统存储器602和处理单元601)的总线603。
计算设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备60访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器602可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)6021和/或高速缓存存储器6022。计算设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM6023可以用于读写不可移动的、非易失性磁介质(图11中未显示,通常称为“硬盘驱动器”)。尽管未在图11中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块6024的程序/实用工具6025,可以存储在例如系统存储器602中,且这样的程序模块6024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本申请所描述的实施例中的功能和/或方法。
计算设备60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且,计算设备40还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器606通过总线603与计算设备60的其它模块(如处理单元601等)通信。应当明白,尽管图11中未示出,可以结合计算设备60使用其它硬件和/或软件模块。
处理单元601通过运行存储在系统存储器602中的程序,从而执行各种功能应用以及数据处理,例如,获取候选图像,所述候选图像由预设模型基于样本例字生成;基于所述候选图像以及源图像获取风格相似度损失;若所述风格相似度损失未收敛,则更新所述预设模型;基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了图像识别模型的训练装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
通过以上描述,本发明本实施例提供以下技术方案,但不仅限于此:
1.一种模型训练方法,包括:
获取候选图像,所述候选图像由预设模型基于样本例字生成;
基于所述候选图像以及源图像获取风格相似度损失;
若所述风格相似度损失未收敛,则更新所述预设模型;
基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;
其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同;所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
2.根据技术方案1所述的模型训练方法,所述候选图像由所述预设模型基于所述样本例字进行至少一次特征处理后得到;
其中,所述特征处理的方式至少包括特征融合和特征提取或特征扩展。
3.根据技术方案2所述的模型训练方法,所述预设模型基于所述样本例字进行至少一次特征处理,得到候选图像,包括:
获取原始特征图,其中,所述原始特征图基于历史第一更新特征图获取,所述历史第一更新特征图基于所述样本例字获取;
对所述原始特征图进行特征提取,得到当前特征图;
将所述原始特征图和所述当前特征图进行特征融合,得到第一更新特征图;
若所述第一更新特征图未符合第一预设条件,则基于所述第一更新特征图,获取更新的原始特征图;
基于更新的原始特征图,获取更新的第一更新特征图,直至更新的第一更新特征图符合所述第一预设条件,并将符合所述第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像。
4.根据技术方案3所述的模型训练方法,所述将符合所述第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像,包括:
获取待扩展特征图,其中,所述待扩展特征图基于历史第二更新特征图获取,所述历史第二更新特征图基于所述第一更新特征图获取;
对所述待扩展特征图进行特征扩展,得到扩展特征图;
将所述第一更新特征图与所述扩展特征图进行特征融合,得到第二更新特征图;
若所述第二更新特征图未符合第二预设条件,则基于所述第一更新特征图,获取更新的待扩展特征图;
基于更新的待扩展特征图,获取更新的第二更新特征图,直至更新的第二更新特征图符合所述第二预设条件,将符合所述第二预设条件的第二更新特征图作为所述候选图像。
5.根据技术方案3或4所述的模型训练方法,所述基于所述候选图像以及源图像获取风格相似度损失,包括:
分别对所述候选图像和所述源图像进行特征提取,得到候选图像特征向量和源图像特征向量;
基于所述候选图像特征向量获取所述候选图像的分类结果;以及
基于所述源图像特征向量获取所述源图像的分类结果;
根据所述候选图像的分类结果和所述源图像的分类结果确定所述候选图像和所述源图像之间的风格相似度损失。
6.根据技术方案1所述的模型训练方法,若所述风格相似度损失未收敛,则更新所述预设模型中的生成器和鉴别器;
其中,所述生成器用于生成候选图像;
所述鉴别器用于分别对候选图像和所述源图像进行特征提取以及获取候选图像和所述源图像的分类结果。
7.一种字体迁移方法,包括:
获取预设例字;
将所述预设例字输入到目标模型,生成具有目标字体的例字图像,其中,所述目标模型采用技术方案1至6中任一项所述的训练方法训练得到,所述预设例字的字体与所述目标字体不同。
8.一种模型训练装置,包括:
第一获取模块,被配置为获取候选图像,所述候选图像由预设模型基于样本例字生成;
处理模块,被配置为基于所述候选图像以及源图像获取风格相似度损失;
更新模块,被配置为根据未收敛的所述风格相似度损失更新所述预设模型;以及
基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;
其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
9.一种字体迁移装置,包括:
第二获取模块,被配置为获取预设例字;
迁移模块,被配置为将所述预设例字输入到目标模型,生成具有目标字体的例字图像,其中,所述目标模型采用技术方案1至6中任一项所述的训练方法训练得到。
10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如技术方案1-6中任一项所述的方法,或者执行如技术方案7所述的方法。
11.一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如技术方案1-6中任一项所述的方法,或者实现如技术方案7所述的方法。
Claims (10)
1.一种模型训练方法,其特征在于,包括:
获取候选图像,所述候选图像由预设模型基于样本例字生成;
基于所述候选图像以及源图像获取风格相似度损失;
若所述风格相似度损失未收敛,则更新所述预设模型;
基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;
其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同;所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
2.根据权利要求1所述的模型训练方法,其特征在于,所述候选图像由所述预设模型基于所述样本例字进行至少一次特征处理后得到;
其中,所述特征处理的方式至少包括特征融合和特征提取或特征扩展。
3.根据权利要求2所述的模型训练方法,其特征在于,所述预设模型基于所述样本例字进行至少一次特征处理,得到候选图像,包括:
获取原始特征图,其中,所述原始特征图基于历史第一更新特征图获取,所述历史第一更新特征图基于所述样本例字获取;
对所述原始特征图进行特征提取,得到当前特征图;
将所述原始特征图和所述当前特征图进行特征融合,得到第一更新特征图;
若所述第一更新特征图未符合第一预设条件,则基于所述第一更新特征图,获取更新的原始特征图;
基于更新的原始特征图,获取更新的第一更新特征图,直至更新的第一更新特征图符合所述第一预设条件,并将符合所述第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像。
4.根据权利要求3所述的模型训练方法,其特征在于,所述将符合所述第一预设条件的第一更新特征图进行特征扩展和特征融合,得到候选图像,包括:
获取待扩展特征图,其中,所述待扩展特征图基于历史第二更新特征图获取,所述历史第二更新特征图基于所述第一更新特征图获取;
对所述待扩展特征图进行特征扩展,得到扩展特征图;
将所述第一更新特征图与所述扩展特征图进行特征融合,得到第二更新特征图;
若所述第二更新特征图未符合第二预设条件,则基于所述第一更新特征图,获取更新的待扩展特征图;
基于更新的待扩展特征图,获取更新的第二更新特征图,直至更新的第二更新特征图符合所述第二预设条件,将符合所述第二预设条件的第二更新特征图作为所述候选图像。
5.根据权利要求3或4所述的模型训练方法,其特征在于,所述基于所述候选图像以及源图像获取风格相似度损失,包括:
分别对所述候选图像和所述源图像进行特征提取,得到候选图像特征向量和源图像特征向量;
基于所述候选图像特征向量获取所述候选图像的分类结果;以及
基于所述源图像特征向量获取所述源图像的分类结果;
根据所述候选图像的分类结果和所述源图像的分类结果确定所述候选图像和所述源图像之间的风格相似度损失。
6.根据权利要求1所述的模型训练方法,其特征在于,若所述风格相似度损失未收敛,则更新所述预设模型中的生成器和鉴别器;
其中,所述生成器用于生成候选图像;
所述鉴别器用于分别对候选图像和所述源图像进行特征提取以及获取候选图像和所述源图像的分类结果。
7.一种字体迁移方法,其特征在于,包括:
获取预设例字;
将所述预设例字输入到目标模型,生成具有目标字体的例字图像,其中,所述目标模型采用权利要求1至6中任一项所述的训练方法训练得到,所述预设例字的字体与所述目标字体不同。
8.一种模型训练装置,其特征在于,包括:
第一获取模块,被配置为获取候选图像,所述候选图像由预设模型基于样本例字生成;
处理模块,被配置为基于所述候选图像以及源图像获取风格相似度损失;
更新模块,被配置为根据未收敛的所述风格相似度损失更新所述预设模型;以及
基于更新的预设模型,获取更新的候选图像,直至风格相似度损失收敛,并将风格相似度损失收敛时的预设模型作为目标模型;
其中,所述样本例字、候选图像中包括的例字与源图像中包括的例字的字义相同,所述目标模型用于基于预设例字,生成具有目标字体的例字图像。
9.一种字体迁移装置,其特征在于,包括:
第二获取模块,被配置为获取预设例字;
迁移模块,被配置为将所述预设例字输入到目标模型,生成具有目标字体的例字图像,其中,所述目标模型采用权利要求1至6中任一项所述的训练方法训练得到。
10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法,或者执行如权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310518040.4A CN116433474A (zh) | 2023-05-09 | 2023-05-09 | 模型训练方法、字体迁移方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310518040.4A CN116433474A (zh) | 2023-05-09 | 2023-05-09 | 模型训练方法、字体迁移方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116433474A true CN116433474A (zh) | 2023-07-14 |
Family
ID=87085610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310518040.4A Pending CN116433474A (zh) | 2023-05-09 | 2023-05-09 | 模型训练方法、字体迁移方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116433474A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
-
2023
- 2023-05-09 CN CN202310518040.4A patent/CN116433474A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196894B (zh) | 语言模型的训练方法和预测方法 | |
CN111615702B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
JP2019083002A (ja) | トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
US11714921B2 (en) | Image processing method with ash code on local feature vectors, image processing device and storage medium | |
CN111291552B (zh) | 一种文本内容修正的方法和系统 | |
CN111444346B (zh) | 一种用于文本分类的词向量对抗样本生成方法及装置 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
WO2020197666A1 (en) | Sememe prediction method, computer device, and storage medium background | |
JP2020060970A (ja) | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム | |
US20200279079A1 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN116433474A (zh) | 模型训练方法、字体迁移方法、装置及介质 | |
US9875336B2 (en) | Spatial arithmetic method of sequence alignment | |
CN113255498A (zh) | 基于区块链技术的财务报销发票管理方法 | |
CN116011470A (zh) | 翻译、对抗样本生成、模型鲁棒性增强方法及相关装置 | |
CN114255381B (zh) | 图像识别模型的训练方法、图像识别方法、装置及介质 | |
CN116611450A (zh) | 一种提取文档信息的方法、装置、设备和可读存储介质 | |
CN112364620B (zh) | 文本相似度的判断方法、装置以及计算机设备 | |
CN114663886A (zh) | 文本识别方法、模型的训练方法及装置 | |
CN111626059A (zh) | 一种信息处理方法及装置 | |
US20240144664A1 (en) | Multimodal data processing | |
CN112668332A (zh) | 一种三元组抽取方法、装置、设备及存储介质 | |
CN116069831B (zh) | 一种事件关系的挖掘方法及相关装置 | |
US20240185578A1 (en) | Image encoding learning and application | |
CN117710763B (zh) | 图像噪声识别模型训练方法、图像噪声识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |