CN115310405A

CN115310405A - 基于对抗生成网络的字体替换方法、系统、设备和介质

Info

Publication number: CN115310405A
Application number: CN202210864599.8A
Authority: CN
Inventors: 夏天
Original assignee: SHANGHAI YICHUANG INFORMATION TECHNOLOGY CO LTD; Beijing Hanyi Innovation Technology Co ltd
Current assignee: SHANGHAI YICHUANG INFORMATION TECHNOLOGY CO LTD; Beijing Hanyi Innovation Technology Co ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-08
Anticipated expiration: 2042-07-21
Also published as: CN115310405B

Abstract

本公开涉及一种基于对抗生成网络的字体替换方法、系统、设备和介质，所述方法包括如下步骤：从待处理图像中获取用户框选区域图片；对所述框选区域图片中的文字采用CTC与attention混合训练后的字形识别算法进行文本内容和文本字体的识别；从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片；将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像。本公开使用对抗生成网络来对字体进行替换，输入图像需要擦除的字体区域和想要替换的新字体，通过生成网络直接生成替换了新字体之后的图像，且生成的新图像中的文字特效与原图保持一致，步骤简单，速度快。

Description

基于对抗生成网络的字体替换方法、系统、设备和介质

技术领域

本公开涉及文字图像替换领域，具体涉及一种基于对抗生成网络的字体替换方法、系统、设备和介质。

背景技术

在当下的互联网时代，每天都有数不清的网络图片产生，而图片中的字体侵权也日益严重，尤其是出现在用于商业行为的海报中。有的海报在最初设计时并未考虑到字体侵权，在设计完成之后设计底稿就被删除，海报中的文字与背景已经是一张整体图片，图层信息早已丢失，在发现或被告知侵权后想对字体进行替换也毫无办法，只能重做或者下架。

目前文字字体替换并没有成熟的相关技术与工具，在其他领域有类似的功能可以实现字体替换功能，例如现有软件中的背景擦除功能，可以先将侵权字体擦除，再通过当下人工智能领域中的对抗生成网络(GAN)对背景进行恢复，恢复后再将替换后的文字放置相应位置。然而，通过背景恢复进行字体替换存在以下几点问题：

(1)流程过于复杂，用户需要选中擦除区域，背景恢复后还需要自己额外进行P图，将新的字放到海报上；

(2)背景恢复不够自然，当下的对抗生成网络(GAN)在恢复背景时对于简单背景效果较好，对于一些复杂背景，恢复效果不够理想；

(3)在选择新字体时完全依赖用户的个人选择，并没有相关推荐；

(4)用户在贴字时需要对文字的特效进行额外处理。

发明内容

本公开提供一种基于对抗生成网络的字体替换方法、系统、设备和介质，能够解决现有字体替换方法流程复杂、恢复效果不理想和没有相关推荐的问题。为解决上述技术问题，本公开提供如下技术方案：

作为本公开实施例的一个方面，提供一种基于对抗生成网络的字体替换方法，包括如下步骤：

从待处理图像中获取用户框选区域图片；

对所述框选区域图片中的文字采用CTC与attention混合训练后的字形识别算法进行文本内容和文本字体的识别；

从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片；

将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像。

可选地，在从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片之前还包括如下步骤：

采用多种不同的算法分别寻找与所述文本字体相似的多款字体；

将多种不同算法分别得到的所述相似的多款字体通过投票策略筛选最终的多款相似字体；

将所述多款相似字体排序后供用户选择为目标字体。

可选地，所述多种不同算法为以下算法的至少两种：DenseNet分类网络模型、CTC和ACE融合模型、Attention网络模型。

可选地，将多种不同算法分别得到的所述相似的多款字体通过投票策略筛选最终的多款相似字体具体为：

获取多种不同算法分别得到的相似的多款字体；

将所述相似的多款字体出现的次数从高到低进行排序得到最终的多款相似字体。

可选地，从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片的具体步骤为：

从目标字体中提取所述文本内容的字体骨架图，通过前向传播算法提取目标字体骨架图的特征向量；

通过前向传播算法提取所述框选区域图片的特征向量；

将目标字体骨架图的特征向量和所述框选区域图片的特征向量进行通道上的拼接得到新的特征向量，将所述特征向量送入反卷积神经网络通过反卷积操作生成替换字体后的图片；

可选地，将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像后还包括如下步骤：

采用泊松融合对替换字体图像中由于贴回框选区域后存在的边缘进行优化。

可选地，在采用CTC与attention混合训练时加入至少一种特效。

作为本公开实施例的另一个方面，提供一种基于对抗生成网络的字体替换系统，包括：

文字框选模块，从待处理图像中获取用户框选区域图片；

字形字体识别模块，对所述框选区域图片中的文字采用CTC与attention混合训练后的字形识别算法进行文本内容和文本字体的识别；

替换字体生成模块，从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片；

替换字体贴回模块，将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像。

作为本公开实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于对抗生成网络的字体替换方法。

作为本公开实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于对抗生成网络的字体替换方法的步骤。

本公开的有益效果是：使用对抗生成网络(GAN)来对字体进行替换，输入图像(如海报)需要擦除的字体区域和想要替换的新字体，通过生成网络直接生成替换了新字体之后的图像，且生成的新图像中的文字特效与原图保持一致，一步到位，步骤简单，速度快。并且用户在选择新字体时我们通过字体识别算法，识别当前区域的文字字体，并在我们的字库中寻找与之最为相似的若干字体作为推荐，无需用户再为寻找字体而烦恼。

附图说明

图1为实施例1中的基于对抗生成网络的字体替换方法流程图；

图2为识别文本内容和文本字体的网络结构图；

图3为生成替换字体图片的步骤示意图；

图4为实施例2中的基于对抗生成网络的字体替换系统框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例1

作为本公开实施例的一个方面，如图1所示，提供一种基于对抗生成网络的字体替换方法，包括如下步骤：

S102、从待处理图像中获取用户框选区域图片；具体地，用于输入带有文字的待处理图像，如海报，然后框选出待处理图像中的需要替换字体的文字区域，将该文字区域从待处理图像中抠出得到框选区域图片。

S104、对所述框选区域图片中的文字采用CTC与attention混合训练后的字形识别算法进行文本内容和文本字体的识别；具体地，对框选区域图片中的文字的文本内容进行识别，同时还对文字的字体进行识别，识别文本内容和文本字体的网络结构如图2所示，将框选区域图片作为输入图像，经过图2中的网络结构最终得到输入图像中的字体属于各字体的概率，以及文字内容。其中CTC是通过文字的外形来识别文字，attention则通过文字间的上下文语义来识别文字。

S106、从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片；具体地，在预先收纳的字库中，推荐给用户K款与待输入图像中的字体最相似的字体，供用户选择目标字体，若用户不选择，则默认为相似度最高的字体作为目标字体。

在一些实施例中，从目标字体中提取S104中的文字内容的文字骨架，与框选区域图片送入生成网络，生成替换字体后的图片，例如，如图3所示，为生成替换字体图片的步骤示意图，其中，生成网络的总体思路采用了pix2pix的思想，训练时采用了L1 Loss，perceptual Loss和GAN Loss，其中判别器采用了patch gan中的全卷积网络。图3中红色虚线框即文字骨架提取，骨架提取得到的是一个特征向量。

S108、将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像。具体地，如图1所示，将生成的替换字体后的图片贴回到待处理图像相应位置，再通过融合算法(如泊松融合)对边缘进行优化，使其看上去更加自然。

在一些实施例中，在从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片之前，还包括如下步骤：

采用多种不同的算法分别寻找与所述文本字体相似的多款字体；如采用三种不同的算法，每种算法得到10种相似的字体，共计30个结果。

将多种不同算法分别得到的所述相似的多款字体通过投票策略筛选最终的多款相似字体；例如，对上述30个结果进行投票，即统计30个结果中每个字体出现的次数，根据出现的次数从高到低排序，出现次数相同的按照平均概率从高到低排序；再取排名前10的字体，就得到了最相似的10款字体。

将所述多款相似字体排序后供用户选择为目标字体。例如，可将最终得到的最相似的10款字体作为供用户选择的目标字体。

在一些实施例中，所述多种不同算法为以下算法的至少两种：DenseNet分类网络模型、CTC和ACE融合模型、Attention网络模型，采用上述网络模型，使文字识别算法通过字形识别文字的同时，也从语义方面去提高准确率。

在一些实施例中，从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片的具体步骤为：

绘制目标字体骨架图；例如，字体骨架图可以通过对框选区域图片进行文字识别，得到文字内容之后从目标字体的ttf图片中，将这几个字绘制出来的一个灰底黑字的图。

通过前向传播算法提取目标字体骨架图的特征向量；通过前向传播算法提取所述框选区域图片的特征向量；将目标字体骨架图和所述框选区域图片的特征向量进行通道上的拼接得到新的特征向量，将所述特征向量送入反卷积神经网络通过反卷积操作生成替换字体后的图片。所述特征向量包括骨架特征信息、背景特征信息、文字特效特征信息等。

在一些实施例中，在采用CTC与attention混合训练时加入至少一种特效。在生成目标图片时会保留原图中的文字特效，这些特效哪些支持，哪些不支持，取决于我们的训练样本中加入了哪些特效。在构造训练样本时，生成样本中的特效包括但不限于以下：描边，阴影，倾斜，高低错位，空心等。

其中，CTC训练参考以下文献[1]：Graves A,S Fernández,GomezF.Connectionist temporal classification:labelling unsegmented sequence datawith recurrent neural networks[C]//International Conference on MachineLearning.ACM,2006.

其中，attention训练参考文献[2]：Mnih V,Heess N,Graves A,et al.RecurrentModels of Visual Attention[J].Advances in Neural Information ProcessingSystems,2014,3.

其中，DenseNet分类网络模型参考文献[3]：Huang G,Liu Z,Laurens V,etal.Densely Connected Convolutional Networks[C]//IEEE Computer Society.IEEEComputer Society,2016.

其中，pix2pix和patch gan均参考文献[4]：Isola P,Zhu J Y,Zhou T,etal.Image-to-Image Translation with Conditional Adversarial Networks[C]//IEEEConference on Computer Vision&Pattern Recognition.IEEE,2016.

实施例2

作为本公开实施例的另一个方面，提供一种基于对抗生成网络的字体替换系统100，如图4所示，包括：

文字框选模块1，从待处理图像中获取用户框选区域图片；

具体地，用于输入带有文字的待处理图像，如海报，然后框选出待处理图像中的需要替换字体的文字区域，将该文字区域从待处理图像中抠出得到框选区域图片。

字形字体识别模块2，对所述框选区域图片中的文字采用CTC与attention混合训练后的字形识别算法进行文本内容和文本字体的识别；具体地，对框选区域图片中的文字的文本内容进行识别，同时还对文字的字体进行识别，对文本内容和文本字体的网络结构如图2所示，将框选区域图片作为输入图像，经过图2中的网络结构最终得到输入图像中的字体属于各字体的概率，以及文字内容。其中CTC是通过文字的外形来识别文字，attention则通过文字间的上下文语义来识别文字。

替换字体生成模块3，从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片；具体地，在预先收纳的字库中，推荐给用户K款与待输入图像中的字体最相似的字体，供用户选择目标字体，若用户不选择，则默认为相似度最高的字体作为目标字体。

在一些实施例中，从目标字体中提取字形字体识别模块2中的文字内容的文字骨架，与框选区域图片送入生成网络，生成替换字体后的图片，例如，如图3所示，为生成替换字体图片的步骤示意图，其中，生成网络的总体思路采用了pix2pix的思想，训练时采用了L1 Loss，perceptual Loss和GAN Loss，其中判别器采用了patch gan中的全卷积网络。图3中红色虚线框即文字骨架提取，骨架提取得到的是一个特征图。

替换字体贴回模块4，将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像。具体地，如图1所示，将生成的替换字体后的图片贴回到待处理图像相应位置，再通过泊松融合对边缘进行优化，使其看上去更加自然。

在一些实施例中，字形字体识别模块2还用于：

在一些实施例中，替换字体生成模块3还用于：

通过前向传播算法提取目标字体骨架图的特征向量；通过前向传播算法提取所述框选区域图片的特征向量；将目标字体骨架图和所述框选区域图片的特征向量进行通道上的拼接得到新的特征向量，将所述特征向量送入反卷积神经网络通过反卷积操作生成替换字体后的图片。所述特征向量包括架特征信息、背景特征信息、文字特效特征信息等。

实施列3

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1中的基于对抗生成网络的字体替换方法。

本公开实施例3仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备的组件可以包括但不限于：至少一个处理器、至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。

总线包括数据总线、地址总线和控制总线。

存储器可以包括易失性存储器，例如随机存取存储器(RAM)和/或高速缓存存储器，还可以进一步包括只读存储器(ROM)。

存储器还可以包括具有一组(至少一个)程序模块的程序工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器通过运行存储在存储器中的计算机程序，从而执行各种功能应用以及数据处理。

电子设备也可以与一个或多个外部设备(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施列4

一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述程序被处理器执行时实现实施例1中的基于对抗生成网络的字体替换方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本公开还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中所述的基于对抗生成网络的字体替换方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

尽管已经示出和描述了本公开的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本公开的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本公开的范围由所附权利要求及其等同物限定。

Claims

1.一种基于对抗生成网络的字体替换方法，其特征在于，包括如下步骤：

从待处理图像中获取用户框选区域图片；

2.如权利要求1所述的基于对抗生成网络的字体替换方法，其特征在于，在从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片之前还包括如下步骤：

将所述多款相似字体排序后供用户选择为目标字体。

3.如权利要求2所述的基于对抗生成网络的字体替换方法，其特征在于，所述多种不同算法为以下算法的至少两种：DenseNet分类网络模型、CTC和ACE融合模型、Attention网络模型。

4.如权利要求2或3所述的基于对抗生成网络的字体替换方法，其特征在于，将多种不同算法分别得到的所述相似的多款字体通过投票策略筛选最终的多款相似字体具体为：

获取多种不同算法分别得到的相似的多款字体；

5.如权利要求1-3任一项所述的基于对抗生成网络的字体替换方法，其特征在于，从目标字体中提取所述文本内容的字体骨架与所述框选区域图片送入生成网络生成替换字体后的图片的具体步骤为：

通过前向传播算法提取所述框选区域图片的特征向量；

将目标字体骨架图的特征向量和所述框选区域图片的特征向量进行通道上的拼接得到新的特征向量，将所述特征向量送入反卷积神经网络通过反卷积操作生成替换字体后的图片。

6.如权利要求1-3任一项所述的基于对抗生成网络的字体替换方法，其特征在于，将替换字体后的图片贴回待处理图像的框选区域得到替换字体图像后还包括如下步骤：

7.如权利要求1-3任一项所述的基于对抗生成网络的字体替换方法，其特征在于，在采用CTC与attention混合训练时加入至少一种特效。

8.一种基于对抗生成网络的字体替换系统，其特征在于，包括：

文字框选模块，从待处理图像中获取用户框选区域图片；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于对抗生成网络的字体替换方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述的基于对抗生成网络的字体替换方法的步骤。