CN115345979A - 一种无监督的通用艺术字生成方法 - Google Patents

一种无监督的通用艺术字生成方法 Download PDF

Info

Publication number
CN115345979A
CN115345979A CN202210832344.3A CN202210832344A CN115345979A CN 115345979 A CN115345979 A CN 115345979A CN 202210832344 A CN202210832344 A CN 202210832344A CN 115345979 A CN115345979 A CN 115345979A
Authority
CN
China
Prior art keywords
image
font
texturing
stage
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210832344.3A
Other languages
English (en)
Inventor
黄期瑞
付彬
乔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202210832344.3A priority Critical patent/CN115345979A/zh
Publication of CN115345979A publication Critical patent/CN115345979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种无监督的通用艺术字生成方法。该方法包括:构建通用艺术字生成模型,包括编码器、第一解码器和第二解码器;优化通用艺术字生成模型,优化过程包括去纹理化阶段、字体迁移阶段和纹理化阶段,在去纹理化阶段,输入图像为字体参考图像,经过编码器和第二解码器后去除掉该字体参考图像所带的纹理信息,得到对应的掩膜图像;在字体迁移阶段,输入图像为内容图像和去纹理化阶段得到的掩模图像,经过编码器和第一解码器后得到对内容图像做字体迁移后的图像;在纹理化阶段,输入图像为字体迁移阶段得到的图像和纹理参考图像,经过编码器和第二解码器后得到纹理化结果图像。本发明可以实现在艺术字生成过程中的精细调节且通用性强。

Description

一种无监督的通用艺术字生成方法
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种无监督的通用艺术字生成方法。
背景技术
计算机视觉正从统计方法转变为深度学习神经网络方法。深度学习作为能让机器自主学习的有力工具,近年来在不断发展。人工神经网络的发展使得计算机能够在有监督或无监督的学习框架下,根据输入信息来进行自我训练,从而使机器自主学习的效果显著。深度学习可应用于计算机视觉的多个方面,如图像识别,目标跟踪,图像分类,对象检测等。
图像生成是计算机视觉中非常重要的一类问题,这一类问题和动画制作有着紧密的关联。广义来说,凡是生成新的图像内容的相关问题都可以归为图像生成问题。图像风格化是指通过一些算法,将一张具有艺术风格图像的风格映射到其他自然图像上,使原自然图像保留原始语义内容的同时具备该艺术图像的艺术风格。图像风格化这一概念的提出源于人们被某些艺术绘画大师的艺术作品所吸引,渴望自己也能够拥有同样艺术风格的图像,而重新绘制特殊风格的图像则需要大量相关技术人员的投入和资源损耗,于是一些研究人员开始研究相应算法来完成图像风格化任务。深度学习对于计算机视觉方面良好的效果使得风格化研究人员将目光转移到它身上。随着卷积神经网络的提出,图像的高层次特征得以有效利用,传统风格化算法的局限性得以消除。随着深度学习的介入,传统处理图像的方法得到了更好的发挥,图像的特征信息也得到了充分利用,可以说神经网络使人们对图像风格化这一领域的研究向前迈了一大步。虽然目前图像风格化领域有了一些进展,可以实现一些简单的应用,但距离风格化技术的全面成熟仍需要不断的发展改进。
艺术字生成是图像生成领域中的一个新兴研究课题,由于其广泛应用而受到越来越多的关注。艺术字可以视为有三个基本组成部分:内容、字体和纹理。对于可控的通用艺术字生成来说,现有的艺术字生成模型通常侧重于调节上述三个组成部分中的其中某一个,这是个次优的解决方案。
艺术字生成在艺术设计领域有着广泛应用,并且逐渐成为计算机视觉领域的重要研究领域。艺术字风格迁移的目标是依据给定的艺术字特效图像渲染任意的字形图像。艺术字风格迁移的挑战主要来源于艺术字的多样性以及难以收集成对的训练数据。
具体地,艺术字具有天然的多样性,可分为内容、字体和纹理这三个维度上的多样性。内容多样性指的是字符的多样性,例如中文字符、英文字符和其他语言的字符等。对于给定的字符内容,艺术字的风格可以分为字体风格和纹理风格。现有的艺术字风格迁移算法只能对这两种风格中的某一种做调节。例如,采用了可形变卷积来处理字体迁移任务。又如,关注于纹理迁移,也就是将一张字形图片渲染成目标纹理。现有技术通常只考虑艺术字生成任务的某个子任务,也就是字体迁移任务或纹理迁移任务,这导致了真实场景下的局限性。
此外,最近的一些模型都需要有监督的训练数据。由于深度神经网络的数据驱动的特性,要想使网络学习到艺术字的有效且鲁棒的表征,必须搭配大量的训练数据。这种有监督的训练方式,由于缺乏成对的字形图像数据,真实场景下已经大量存在的艺术字图像无法用于训练深度神经网络模型。因此,有必要将无监督的训练方式引入艺术字生成领域,以提供对上述问题的关键解决方案。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种无监督的通用艺术字生成方法,该方法包括以下步骤:
构建通用艺术字生成模型,包括编码器、第一解码器和第二解码器;
优化所述通用艺术字生成模型,优化过程包括去纹理化阶段、字体迁移阶段和纹理化阶段,其中:
在去纹理化阶段,输入图像为字体参考图像,经过所述编码器和第二解码器后去除掉该字体参考图像所带的纹理信息,得到对应的掩膜图像;
在字体迁移阶段,输入图像为内容图像和去纹理化阶段得到的掩模图像,经过所述编码器和第一解码器后得到对内容图像做字体迁移后的图像;
在纹理化阶段,输入图像为字体迁移阶段得到的图像和纹理参考图像,经过所述编码器和第二解码器后得到纹理化结果图像。
与现有技术相比,本发明的优点在于,提出了一种无监督的通用艺术字生成模型,可以实现在艺术字生成过程中的精细调节;针对解决成对数据搜集困难,本发明的模型可以在无监督设定下进行优化,从而使得任意艺术字图像都可以被有效使用。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的无监督通用艺术字生成方法的过程示意图;
图2是根据本发明一个实施例的无监督通用艺术字生成方法的流程图;
图3是根据本发明一个实施例的无监督通用艺术字生成模型的网络结构图;
图4是根据本发明一个实施例的编码器的结构图;
图5是根据本发明一个实施例的解码器的结构图;
图6是根据本发明一个实施例的域判别器的结构图;
图7是根据本发明一个实施例的图像块判别器的结构图;
图8是根据本发明一个实施例的对比学习损失函数和图像块判别器损失函数的效果示意图;
图9是根据本发明一个实施例的无监督通用艺术字生成模型的应用过程示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明提出了一种新颖的通用艺术字生成方法(或称为GenText),该方法通过无监督学习解耦字体迁移和纹理迁移,从而实现通用艺术字风格迁移。通过分析艺术字的本质特征,将艺术字分解为内容、字体和纹理这三个基本组成元素,建立无监督通用艺术字生成模型,利用数据对模型进行训练优化后可以实现艺术字通用生成。
参见图1所示,本发明融合了三个不同的阶段:纹理化、去纹理化和字体迁移,仅用一套网络结构便完成这三个任务。在去纹理化阶段提取字体参考图像中的字体信息;然后,在字体迁移阶段,生成与字体参考图像在字体上一致的字体图像;最后,在纹理化阶段将该字体图像渲染成与纹理参考图像在纹理上一致的最终图像。在网络结构上,提供的无监督通用艺术字生成模型包括一个强大的编码器以及两个独立的解码器,一个编码器实现对字形结构信息、字体风格信息和纹理风格信息的编码,一个解码器用于字体迁移,另一个解码器用于纹理化和去纹理化。
具体地,参见图2所示,提供的无监督的通用艺术字生成方法包括以下步骤:
步骤S210,构建通用艺术字生成模型,融合纹理化、去纹理化和字体迁移三个任务。
无监督通用艺术字生成模型用于实现对艺术字生成过程中的精细调节。“通用”主要体现在两个方面。一方面,模型可以在无监督的设定下进行训练,这使得真实场景下大量的艺术字图像都可以作为训练数据,从而尽可能优化出一个鲁棒的模型。另一方面,将内容、字体风格和纹理风格视为艺术字的三个基本组成要素,于是模型可以应用于通用的艺术字生成任务。
具体来说,使用一个编码器将字形结构信息编码成空间表征图,将字体风格和纹理风格信息分别编码成全局表征向量。搭配两个解码器来实现艺术字生成任务,其中一个解码器用于字体迁移,另一个用于纹理化和去纹理化。根据目标不同,模型可以分为三个不同的阶段:去纹理化、字体迁移、纹理化。首先,在去纹理化阶段,提取字体参考图像中的字体信息。然后,在字体迁移阶段,生成与字体参考图像在字体上一致的字体图像。最后,在纹理化阶段,将该字体图像渲染成与纹理参考图像在纹理上一致的最终图像。因此,本发明的模型不仅能够实现经典意义上的字体迁移任务和纹理迁移任务,还能够实现对艺术字中的字体信息和纹理信息做精细调节。
参见图3所示,在网络结构上,通用艺术字生成模型包含一个强大的编码器E,两个独立的解码器{GF,GT},其中解码器GF用于字体迁移,解码器GT用于纹理化和去纹理化。对于任意一张图像img,经过编码器E得到两个表征zsp,zgl=E(img),其中zsp是带有空间维度的特征图,蕴含了输入图像img的空间结构信息,zgl是不带有空间维度的特征向量,蕴含了输入图像img的全局风格信息(字体风格或纹理风格)。另外,还包括三个判别器,分别是域判别器Dx和Dy以及图像块判别器Dpatch
编码器E将输入图像映射为一个空间特征编码(带有空间维度的特征图)和一个全局特征编码(不带有空间维度的特征向量)。
参见图4所示,在一个实施例中,编码器网络的主干是4个下采样的残差块。输入图像经过编码器主干后转化为中间表征图,然后经过两个并行分支分别得到空间特征编码和全局特征编码。具体来说,空间特征由中间表征图经过两层卷积层后得到,全局特征由中间表征图经过2层卷积层、平均池化、1层全连接层后得到。空间特征和全局特征的不对称设计可以强化编码器的归纳偏置,促进网络进行正交编码。例如,对于尺寸为256×256的输入图像,经过编码器后得到的空间特征的尺寸为16×16×8,全局特征的尺寸为1×1×2048。空间特征和全局特征最大的不同在于是否编码了空间信息。由于全卷积结构以及有限的卷积感受野,空间特征有很强的归纳偏置去编码原输入图像中的空间邻域信息。由于全局特征分支中全连接层的存在,全局特征不带有原输入图像的空间尺度上的信息。
两个解码器GT和GF的网络结构完全一致,但不共享网络参数。网络结构为接收一个空间特征和一个全局特征,将这两者融合起来解码成图像。参见图5所示,解码器的主干网络包含4个保持分辨率的残差模块以及4个上采样的残差模块。解码器将空间特征作为主干网络的输入,同时将全局表征通过调制-解调层注入主干网络。最后,经过一个卷积层调整通道数,生成最终的图像。不同于StyleGAN2中只用了一处跳连接的解码器,该解码器采用的跳连接方式更像是StyleGAN2中的判别器。为了实现独立的区域编辑,解码器不采用任何归一化的方式,例如实例归一化或批归一化。
两个域判别器Dx和Dy的网络结构一致,但不共享权重,参见图6所示。域判别器的结构整体上是解码器的反向镜像,即将解码器中的上采样模块更换为下采样模块,输入输出的位置调换,并且去除了调制-解调层。
图像块判别器Dpatch的作用是判别一个图像块是否属于参考图像块集合,其中参考图像块集合是从参考图像中随机裁剪下来的一批图像块所构成的集合。参见图7所示,每个图像块各自经过5个下采样残差块、1个保持分辨率的残差块、1层卷积层提取出其各自的特征。将参考图像块集合所提取的特征集合做一个平均得到平均参考图像块特征,再将它与输入图像块特征做通道维上的连接,最后,经过3层全连接层(线性层)得到最终的输出结果。
步骤S220,设置损失函数,通过独立优化纹理化、去纹理化和字体迁移任务或联合优化,以无监督方式训练通用艺术字生成模型。
仍结合图3所示,在前向传播上,整个前向传播流程共有三张输入图像,分别为字体图像、内容图像和纹理图像,最终的输出图像对应融合了这三方面的信息:字体、内容和纹理。整个前向传播流程分为三个阶段:去纹理化、字体迁移和纹理化。首先,是去纹理化阶段,输入图像为字体图像,经过编码器E和解码器GT后去除掉该字体图像所带的纹理信息,得到对应的掩膜图像,以方便后续提取字体信息。然后,是字体迁移阶段,输入图像为内容图像和去纹理化阶段(上一阶段)得到的掩模图像,经过编码器E和解码器GF后得到对内容图像做字体迁移后的图像,该图像既保留了字体图像的字体信息又保留了内容图像的内容信息。最后,是纹理化阶段,输入图像为字体迁移阶段(上一阶段)得到的图像和纹理图像,经过编码器E和解码器GT后完成一个渲染上色的过程,得到整个前向传播流程最终的输出图像。
在反向优化上,按照纹理化、去纹理化和字体迁移的顺序进行循环优化,并且在每个优化子阶段都按照生成对抗网络的优化方式,即生成器与判别器交替训练。
I)纹理化阶段的损失函数
纹理化的目标是,给定一张字体图像xF和一张纹理图像yT,得到纹理化的结果图像OT,使得OT与字体图像xF保持字体一致性,与纹理图像yT保持纹理一致性。具体来说,xF和yT经过编码器E后分别得到各自的表征
Figure BDA0003748933890000071
Figure BDA0003748933890000072
解码器GT接收
Figure BDA0003748933890000073
Figure BDA0003748933890000074
作为输入得到输出OT,即
Figure BDA0003748933890000075
不同于现有的艺术字风格迁移算法,为了有效地利用所有的艺术字图像,采用无监督的优化方式。优化的关键在于如何有效保持字形结构一致性和纹理风格一致性。纹理化阶段的损失函数分为重构损失函数和一致性损失函数。
1)重构损失函数
为了对空间表征和风格表征组合起来优化,用重构损失函数对模型做优化。具体来说,对字体图像xF和纹理图像yT分别做重构,得到
Figure BDA0003748933890000081
Figure BDA0003748933890000082
由于解码器GT是被设计用于纹理迁移,为了避免与字体风格发生混淆,在重构xF时用的是
Figure BDA0003748933890000083
而不是
Figure BDA0003748933890000084
其中
Figure BDA0003748933890000085
是与
Figure BDA0003748933890000086
尺寸相同但值全为1的常量。l1函数被用于作为重构损失函数。由于l1函数倾向于重构图像中的低频信息,这会导致图像模糊。所以进一步引入域判别器Dx和Dy,分别用于恢复
Figure BDA0003748933890000087
Figure BDA0003748933890000088
中的高频信息。
综上,在一个实施例中,重构损失函数设置为:
Figure BDA0003748933890000089
2)一致性损失函数
重构损失函数将空间表征和全局表征联合起来优化,但是没有对它们各自所编码的信息做约束。因此,进一步引入一致性损失函数来保证空间表征专注于提取图像中的空间信息,全局表征专注于提取图像中的全局风格信息。具体来说,使用NCE(Noise-Constrastive Estimation Loss,噪声对比估计损失)损失函数来约束OT与xF之间的字形结构一致性,使用图像块判别器Dpatch来约束OT与yT之间的纹理风格一致性,以及域判别器Dy来约束OT属于纹理图像域。
综上,在一个实施例中,将一致性损失函数设置为:
Figure BDA00037489338900000810
所以,纹理化阶段的总损失函数为:
Figure BDA00037489338900000811
II)去纹理化阶段的损失函数
去纹理化的目标是将字体图像yF去除纹理特效后得到其对应的xF。为了将纹理化和去纹理化以不冲突的方式融合到同一个模型下,定义xF的纹理为字体型纹理,并且用上述提到的值全为1的表征向量
Figure BDA00037489338900000812
来编码该纹理。最终的去纹理化结果图像为
Figure BDA00037489338900000813
在这个视角下,去纹理化可以看成是一种特殊的纹理化,也就是将字体图像yF纹理化为字体型纹理。于是,去纹理化与纹理化的优化方式有许多相似之处。然而,一个关键的不同之处是,纹理化的目标纹理可以是多种多样的,它由纹理参考图像所决定,去纹理化的目标纹理只有一种,即字体型纹理。在去纹理化阶段用到的训练数据与纹理化阶段是一样的,即字体图像xF和纹理图像xT。损失函数也分为重构损失函数和一致性损失函数。
1)重构损失函数
与纹理化阶段时的重构损失函数完全一致,表示为:
Figure BDA0003748933890000091
2)一致性损失函数
与纹理化阶段一样,使用NCE损失函数来保持字形结构一致性,具体来说是ODeT与yF间的字形结构一致性。另外,由于去纹理化阶段的目标纹理仅为字体型纹理,所以无需使用图像块判别器,只需域判别器Dx即可。
综上,一致性损失函数为:
Figure BDA0003748933890000092
所以,去纹理化阶段的总损失函数为:
Figure BDA0003748933890000093
对比学习损失函数起到的作用是保持字形结构信息
综上,所提供的通用艺术字生成模型采用无监督方式训练。参见图8所示,以无监督的方式判别艺术字纹理信息,通过图像块判别器损失函数实现纹理信息的无监督学习;以无监督的方式判别艺术字结构信息,通过对比学习损失函数实现纹理信息的无监督学习。所设置的图像块判别器损失函数能够保持纹理信息。
III)字体迁移阶段的损失函数
将字体迁移视为一种特殊的风格迁移,在这种情况下,风格指的就是字体风格。使用编码器E(与纹理化、去纹理化时使用相同的编码器)提取字体风格表征,虽然字体风格表征与纹理化阶段时提取的纹理风格表征在同一个表征空间,但是后续它们被各自送入不同的生成器以保证各自发挥不同的功能。
在字体迁移阶段,使用的训练图像是字体图像xF以及内容图像xC(例如字体为微软雅黑粗体)。字体图像xF和内容图像xC输入进编码器E后分别得到
Figure BDA0003748933890000094
Figure BDA0003748933890000095
基于这些表征,解码器GT生成两个重构图像
Figure BDA0003748933890000096
Figure BDA0003748933890000097
以及字体迁移结果图像
Figure BDA0003748933890000098
1)重构损失函数
与纹理化、去纹理化类似,使用l1损失函数和相应的域判别器构成重构损失函数:
Figure BDA0003748933890000101
2)一致性损失函数
字体迁移任务与纹理化任务有两个重要的不同。一方面,从字形结构信息的角度来说,在纹理化中,希望最终的结果图像保持出输入图像的字形结构,但在字体迁移中,希望最终的结果图像对输出图像的字形结构做一定程序上的几何形变从而符合特定字体类型的特性。另一方面,字体信息是承载在字体骨架上的,而不是局部图像块,所以图像块判别器应该不能起到判别字体信息的作用。基于上述这两点分析可以得出,在字体迁移结果图像OF上应用NCE损失函数是有害的,以及应用图像块判别器损失函数是没有必要的。在实验部分,设计了一些消融实验来证明这两个观点。因此,仅有对OF的域判别器函数构成一致性损失函数,表示为:
Figure BDA0003748933890000102
所以,字体迁移阶段的总损失函数为:
Figure BDA0003748933890000103
IV)联合优化的总体损失函数
所提供的模型对艺术字生成任务提供了灵活解决方案。一方面,可以对三个任务(纹理化、去纹理化和字体迁移)训练独立模型。另一方面,也可以对三个任务联合优化得到一个统一模型,例如,联合优化的总损失函数设置为:
Figure BDA0003748933890000104
经过三任务联合优化后得到的模型可以对艺术字生成过程实现精细调节。
综上,本发明实施例在去纹理化阶段去除掉字体参考图像的纹理信息,然后在字体迁移阶段提取出其字体信息后作用于内容图像得到字体迁移后的结果。最后在纹理化阶段将字体迁移后的结果图像渲染成指定的纹理。另外,考虑到成对数据集收集困难,所提供的模型可以在无监督的设定下训练,使非成对数据可以被有效利用起来。在纹理化、字体迁移和纹理化的每个训练阶段,损失函数都由重构损失函数和一致性损失函数这两部分组成。定性和定量实验表明该模型可以实现艺术字通用生成,并且可开发用户交互式界面方便可视化使用。
步骤S230,利用经训练的通用艺术字生成模型实现艺术字生成任务中的精细调节。
这个精细调节的过程也就是该模型的前向传播流程(参见图3所示)。首先,字体参考图像yF经过去纹理化阶段得到其对应的字形图像ODeT。然后,ODeT与内容参考图像xC共同作为字体迁移阶段的输入得到字体迁移结果图像OF。最后,纹理化阶段将纹理参考图像xT上的纹理渲染到OF得到最终的纹理化结果图像OT。上述步骤实现了艺术字生成任务中的精细调节,应用过程参见图9所示。
本发明涉及的模型训练过程可在服务器或云端离线进行,将经训练的模型嵌入到电子设备即可实现实时的艺术字生成。该电子设备可以是终端设备或者服务器,终端设备包括手机、平板电脑、个人数字助理(PDA)、销售终端(POS)、车载电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)等任意终端设备。服务器包括但不限于应用服务器或Web服务器,可以为独立服务器、集群服务器或云服务器等。
本发明提供通用技术字生成方法应用范围广泛,包括但不限于以下方面:
1)艺术字通用生成方面:在实际应用中,人们常常希望只对艺术字的某一个方面做调节而其他方面保持不变。这样可以使用户按照自己的想法对艺术字图像做精确的调节,从而生成脑海中希望得到的艺术字图像。
2)是场景艺术字改写任务的重要保证:有一部分用户在海报、广告和路牌等开集场景的图像中发现心仪的艺术字后,希望在保持住原有艺术字纹理的同时将字替换掉。本发明的模型可以有效解决这一部分用户需求。实验表明,对于开集场景下搜集裁剪的艺术字可以实现比较好的艺术字纹理迁移。获得纹理迁移后的艺术字单字,是场景艺术字改写技术的重要前置技术。
3)艺术字纹理混合:对于多种艺术字纹理风格,对它们做纹理上的混合可以生成极具艺术感的新纹理,这能够极大的丰富艺术字纹理库。人工设计一种艺术字纹理是一项耗时耗力的工作,用本发明的艺术字纹理混合的技术可以从有限种艺术字纹理中生成大量的其他纹理。
为了进一步验证所提出模型的有效性,在最新提出的一个目前最大的艺术字数据集(Shuai Yang,Wenjing Wang,and Jiaying Liu.Te141k:artistic text benchmark fortext effect transfer.IEEE Transactions on Pattern Analysis and MachineIntelligence,43(10):3709–3723,2020)上做了一系列的消融实验。对于经典的艺术字纹理迁移任务,本发明的模型在无监督的设定下达到了最好的性能。在艺术字精细调节方面,可以生产高质量的艺术字图像。另外,在开放场景下的艺术字生成任务上效果不错,这表明该模型具有一定的泛化能力。实验表明,在经典的艺术字纹理迁移任务上,本发明的模型在无监督设定下达到了最好的性能。对于开放场景下搜集的艺术字图像,也有不错的纹理迁移效果。
综上所述,相对于现有技术,本发明的技术效果主要体现在以下方面:
1)将这三个任务以不冲突的方式融合在一个单独的模型中,并且这个模型包含了很多细节。例如,为了将纹理化和去纹理化整合在一起,设计了一个值全为1的向量作为用以表征字形图像纹理的特殊向量。更换了编码器、解码器和判别器的网络结构。更换了与训练优化相关的超参数等。
2)虽然训练数据集是现有开源的数据集,但现有模型没有将纹理化、去纹理化和字体迁移这三者以可解耦调节的方式融合在一起的先例。所以,现有模型无法达到本发明模型所实现的效果。
3)现有方法一般需要用真实图像作为有监督信号,设计重构损失函数来优化训练。本发明以无监督的方式判别艺术字纹理信息,通过图像块判别器损失函数实现纹理信息的无监督学习。
4)现有方法一般需要用真实图像作为有监督信号来优化训练,设计重构损失函数来优化训练。本发明以无监督的方式判别艺术字结构信息。通过对比学习损失函数实现字形结构信息的无监督学习。
5)现有方法一般无法实现通用,即纹理迁移和字体迁移不能在解耦的条件下同时实现。本发明的模型考虑到了艺术字的三个最主要的影响因素,即内容、字体和纹理,实现了对这三个因素的解耦调节,通用性强。
6)本发明可以应用于开集场景下的艺术字纹理迁移。经过实验证明,本发明的模型具有较强的泛化能力,对开集场景下的艺术字可以实现比较好的纹理迁移。
需要说明的是,在不违背本发明精神和范围的前提下,本领域技术人员可对上述实施例进行适当的改变或变型。例如,编码器的输入图像尺寸、各网络结构中的卷积层数目、上采样残差块和下采样残差块的数量等可根据实际需要设置。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种无监督的通用艺术字生成方法,包括以下步骤:
构建通用艺术字生成模型,包括编码器、第一解码器和第二解码器;
优化所述通用艺术字生成模型,优化过程包括去纹理化阶段、字体迁移阶段和纹理化阶段,其中:
在去纹理化阶段,输入图像为字体参考图像,经过所述编码器和第二解码器后去除掉该字体参考图像所带的纹理信息,得到对应的掩膜图像;
在字体迁移阶段,输入图像为内容图像和去纹理化阶段得到的掩模图像,经过所述编码器和第一解码器后得到对内容图像做字体迁移后的图像;
在纹理化阶段,输入图像为字体迁移阶段得到的图像和纹理参考图像,经过所述编码器和第二解码器后得到纹理化结果图像。
2.根据权利要求1所述的方法,其特征在于,在优化所述通用艺术字生成模型过程中,采用图像块判别器损失函数以无监督方式学习纹理信息,并采用对比学习损失函数以无监督方式学习字形结构信息,其中,图像块判别器用于判别一个图像块是否属于参考图像块集合,所述对比学习损失函数用于反映字体参考图像和纹理化结果图像之间的损失,所述图像块判别器损失函数用于反映纹理参考图像和纹理化结果图像之间的损失。
3.根据权利要求1所述的方法,其特征在于,所述编码器包括主干网络、空间编码分支和全局编码分支,其中,该主干网络用于从输入图像中提取表征图,空间编码分支用于基于该表征图获取空间特征,全局编码分支基于该表征图得到全局特征,所述空间特征是包含空间维度的特征图,所述全局特征是不包含空间维度的特征图。
4.根据权利要求3所述的方法,其特征在于,所述第一解码器和所述第二解码器的结构相同,各包含主干网络、调制解调层和卷积层,该主干网络以来自于所述解码器的空间特征作为输入,并且所述解码器输出的相应全局特征通过调制解调层注入到该主干网络,进而通过一个卷积层调整通道数。
5.根据权利要求1所述的方法,其特征在于,训练所述通用艺术字生成模型的总损失函数设置为:
Figure FDA0003748933880000021
其中,
Figure FDA0003748933880000022
是纹理化阶段的重构损失函数,
Figure FDA0003748933880000023
是纹理化阶段的一致性损失函数,
Figure FDA0003748933880000024
是去纹理化阶段的重构损失函数为,
Figure FDA0003748933880000025
是去纹理化阶段的一致性损失函数,
Figure FDA0003748933880000026
是字体迁移阶段的重构损失函数,
Figure FDA0003748933880000027
是字体迁移阶段的一致性损失函数。
6.根据权利要求5所述的方法,其特征在于,纹理化阶段的重构损失函数
Figure FDA0003748933880000028
为:
Figure FDA0003748933880000029
纹理化阶段的一致性损失函数
Figure FDA00037489338800000210
为:
Figure FDA00037489338800000211
去纹理化阶段的重构损失函数
Figure FDA00037489338800000212
为:
Figure FDA00037489338800000213
去纹理化阶段的一致性损失函数
Figure FDA00037489338800000214
为:
Figure FDA00037489338800000215
字体迁移阶段的一致性损失函数
Figure FDA00037489338800000216
为:
Figure FDA00037489338800000217
字体迁移阶段的一致性损失函数
Figure FDA00037489338800000218
为:
Figure FDA00037489338800000219
其中,E表示编码器,GF是第一解码器,GT是第二解码器,Dpatch是图像块判别器,Dx和Dy是域判别器;xF是字体参考图像,yT是纹理参考图像,OT是纹理化的结果图像,NCE表示噪声对比估计损失,
Figure FDA00037489338800000220
Figure FDA00037489338800000221
对字体参考图像xF和纹理参考图像yT的重构图像,xF和yT经过编码器E后分别得到各自的表征
Figure FDA00037489338800000222
Figure FDA00037489338800000223
第二解码器GT接收
Figure FDA00037489338800000224
Figure FDA00037489338800000225
作为输入得到输出OT
Figure FDA00037489338800000226
xF的纹理为字体型纹理,并且用值全为1的表征向量
Figure FDA00037489338800000227
来编码该纹理,最终的去纹理化结果图像为
Figure FDA00037489338800000228
内容图像xC输入进编码器E后得到两个表征
Figure FDA00037489338800000229
第二解码器GT生成重构图像
Figure FDA00037489338800000230
字体迁移结果图像为OF
7.根据权利要求3所述的方法,其特征在于,所述编码器的主干网络包含四个下采样的残差块,所述空间编码分支包含两层卷积层,所述全局编码分支包含两层卷积层、平均池化层和一层全连接层。
8.根据权利要求2所述的方法,其特征在于,所述图像块判别器以图像块为输入,依次包括第一卷积层,多个下采样残差块、一个保持分辨率的残差块、第二卷积层、通道连接层和多层全连接层。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202210832344.3A 2022-07-15 2022-07-15 一种无监督的通用艺术字生成方法 Pending CN115345979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210832344.3A CN115345979A (zh) 2022-07-15 2022-07-15 一种无监督的通用艺术字生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210832344.3A CN115345979A (zh) 2022-07-15 2022-07-15 一种无监督的通用艺术字生成方法

Publications (1)

Publication Number Publication Date
CN115345979A true CN115345979A (zh) 2022-11-15

Family

ID=83949062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210832344.3A Pending CN115345979A (zh) 2022-07-15 2022-07-15 一种无监督的通用艺术字生成方法

Country Status (1)

Country Link
CN (1) CN115345979A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011556A (zh) * 2022-12-29 2023-04-25 南京硅基智能科技有限公司 一种训练音频编解码器的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011556A (zh) * 2022-12-29 2023-04-25 南京硅基智能科技有限公司 一种训练音频编解码器的系统和方法

Similar Documents

Publication Publication Date Title
Kang et al. Scaling up gans for text-to-image synthesis
Lei et al. Coupled adversarial training for remote sensing image super-resolution
Zhang et al. Augmenting supervised neural networks with unsupervised objectives for large-scale image classification
Kondratyuk et al. Videopoet: A large language model for zero-shot video generation
CN115187706B (zh) 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备
Ye et al. Triple-translation GAN with multi-layer sparse representation for face image synthesis
Pęśko et al. Comixify: Transform video into comics
Wang et al. A new blind image denoising method based on asymmetric generative adversarial network
Ham et al. Cogs: Controllable generation and search from sketch and style
CN116188912A (zh) 主题图像的图像合成模型的训练方法、装置、介质及设备
CN115345979A (zh) 一种无监督的通用艺术字生成方法
CN117576264B (zh) 图像生成方法、装置、设备及介质
Li et al. Image super-resolution reconstruction based on multi-scale dual-attention
Yu et al. Mask-guided GAN for robust text editing in the scene
Kim et al. Game effect sprite generation with minimal data via conditional GAN
Fakhari et al. A new restricted boltzmann machine training algorithm for image restoration
Ueno et al. Continuous and Gradual Style Changes of Graphic Designs with Generative Model
Huang et al. Generative adversarial networks with adaptive semantic normalization for text-to-image synthesis
CN116975347A (zh) 图像生成模型训练方法及相关装置
Yang et al. ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
Luhman et al. High fidelity image synthesis with deep vaes in latent space
Sun et al. Adversarial training for dual-stage image denoising enhanced with feature matching
Chen et al. Doodle master: a doodle beautification system based on auto-encoding generative adversarial networks
Wang et al. Deep learning for font recognition and retrieval
Huang et al. Gentext: Unsupervised artistic text generation via decoupled font and texture manipulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination