CN114549698A

CN114549698A - 文本合成方法、装置及电子设备

Info

Publication number: CN114549698A
Application number: CN202210162223.2A
Authority: CN
Inventors: 许超
Original assignee: Shanghai Yuncong Enterprise Development Co ltd
Current assignee: Shanghai Yuncong Enterprise Development Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明涉及文本处理领域，具体提供一种文本合成方法、装置及电子设备，旨在解决现有的手写文本合成方法难以控制合成文本风格导致的最终合成文本效果较差的技术问题。为此目的，本发明的文本合成方法包括下述步骤：获取手写风格图像、待迁移文本和提供风格信息的特征向量；基于手写风格图像和文本擦除模型确定候选背景库；基于待迁移文本、特征向量和文本合成模型确定手写体文本库；从候选背景库和手写体文本库中分别获取一张背景图像和手写体合成文本图像；对背景图像和手写体合成文本图像进行融合，得到融合图像。

Description

文本合成方法、装置及电子设备

技术领域

本发明涉及文本处理领域，具体提供一种文本合成方法、装置及电子设备。

背景技术

目前，传统的手写文本合成方法包括使用手写体字体库的方法和使用手写体单字库拼接的方法。第一，使用手写体字体库的方法类似印刷体可以快速合成大量样本，但受限于手写体字体库本身的局限性，无法控制书写的风格。第二，手写体单字库拼接的方法可以解决使用手写体字体库的方法字形单一的情况，可以产生较为潦草的书写风格，但这种方法首先需要收集手写体单字底库，这往往会耗费巨大的时间成本和金钱成本，另外这种方法生成文本风格不可控，最终的合成文本效果较差。

相应地，本领域需要一种新的文本合成方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有的手写文本合成方法难以控制合成文本风格导致最终合成文本效果较差的技术问题。本发明提供了一种文本合成方法、装置及电子设备。

在第一方面，本发明提供一种文本合成方法，其特征在于，包括下述步骤：获取手写风格图像、待迁移文本和提供风格信息的特征向量；基于所述手写风格图像和文本擦除模型确定候选背景库；基于所述待迁移文本、特征向量和文本合成模型确定手写体文本库；从所述候选背景库和手写体文本库中分别获取一张背景图像和手写体合成文本图像；对所述背景图像和手写体合成文本图像进行融合，得到融合图像。

在一个实施方式中，基于所述手写风格图像和文本擦除模型确定候选背景库包括：将所述手写风格图像划分为多个手写切片；将所述多个手写切片依次输入所述文本擦除模型，得到初始背景库；对所述初始背景库进行预处理，得到候选背景库。

在一个实施方式中，对所述初始背景库进行预处理，得到候选背景库包括：基于预识别模型判断所述初始背景库中每一背景图像是否包含字符；在所述背景图像不包含字符的情况下，基于不包含字符的所述背景图像得到候选背景库；在所述背景图像包含字符的情况下，对包含字符的所述背景图像进行过滤操作，得到候选背景库。

在一个实施方式中，在所述背景图像包含字符的情况下，对包含字符的所述背景图像进行过滤操作，得到候选背景库包括：对包含字符的所述背景图像进行归一化操作，得到归一化背景图像；计算所述归一化背景图像中每个字符所占的平均宽度；基于所述归一化背景图像中每个字符所占的平均宽度确定宽度阈值；在所述归一化背景图像中每个字符所占的平均宽度大于宽度阈值的情况下，基于所述归一化背景图像得到候选背景库。

在一个实施方式中，基于所述归一化背景图像中每个字符所占的平均宽度确定宽度阈值包括：基于所述每个字符所占的平均宽度分别确定所述归一化背景图像中所有字符的平均值和中值；在所述平均值小于中值的情况下，将所述平均值作为宽度阈值，在所述平均值不小于中值的情况下，将所述中值作为宽度阈值。

在一个实施方式中，所述文本合成模型包括生成器、判别器和识别器，所述识别器包含CRNN网络；基于所述待迁移文本、特征向量和文本合成模型确定手写体文本库包括：将所述待迁移文本和所述特征向量输入所述文本合成模型，得到手写体合成文本图像；基于所述手写体合成文本图像得到手写体文本库。

在一个实施方式中，对所述背景图像和手写体合成文本图像进行融合包括：基于泊松融合算法对所述背景图像和手写体合成文本图像进行融合，得到融合图像。

在第二方面，本发明提供一种文本合成装置，包括：第一获取模块，被配置为获取手写风格图像、待迁移文本和提供风格信息的特征向量；第一确定模块，被配置为基于所述手写风格图像和文本擦除模型确定候选背景库；第二确定模块，被配置为基于所述待迁移文本、特征向量和文本合成模型确定手写体文本库；第二获取模块，被配置为从所述候选背景库和手写体文本库中分别获取一张背景图像和手写体合成文本图像；融合模块，被配置为对所述背景图像和手写体合成文本图像进行融合，得到融合图像。

在第三方面，提供一种电子设备，该电子设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述任一项所述的文本合成方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述任一项所述的文本合成方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本发明中的文本合成方法，首先基于获取的手写风格图像和文本擦除模型，获得了包含高质量背景图像的候选背景库，接着基于待迁移文本、特征向量和文本合成模型生成包含风格多变的手写体合成文本图像的手写体文本库，其次从候选背景库和手写体文本库分别抽取一张背景图像和手写体合成文本图像并融合，得到融合图像，实现了利用特征向量和文本合成模型来控制文本内容的风格的效果，提高了融合图像的质量。

本申请在基于文本擦除模型得到初始背景库的基础上，继续对初始背景库进行预处理，具体是判断是否包含文字和判断每个字符所占的平均宽度值的两次筛选，从而去除了图像背景之外的杂质干扰，进一步保证了背景图像的有效性，提高了最终获得的候选背景库的质量。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的文本合成方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的对初始背景库进行预处理的流程示意图；

图3是根据本发明的一个实施例的利用文本合成模型生成手写体合成文本图像的结构示意图；

图4是根据本发明的一个实施例的文本合成方法整体流程图；

图5是根据本发明的一个实施例的文本合成装置的主要结构框图示意图。

附图标记列表：

11：第一获取模块；12：第一确定模块；13：第二确定模块；14：第二获取模块；15：融合模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

这里先解释本发明涉及到的一些术语。

GAN(Generative Adversarial Networks生成式对抗网络)：是一种隐式生成模型，由生成器和判别器组成，通过二者博弈、交替训练，最终达到均衡。

CRNN(Convolutional Recurrent Neural Network(CRNN)for image-basedsequence recognition)网络：是近年来做OCR文本识别的经典算法，它是基于无分割的算法。首先利用CNN网络提取图像基本特征，后利用RNN结构捕捉时序信息，最后为了解决标签对齐问题，引入CTC损失函数。

泊松图像融合：图像合成是图像处理的一个基本问题，其主要的原理就是将原始的图像部分区域嵌入到目标图像当中，而且尽可能的维持边界的完整性。当源图像和目标图像背景纹理差距过大时，融合可能不那么自然。泊松方程主要做的是在梯度层面，即维持源图像的梯度和目标图像梯度的一致性，从而保证边界的完整性。

目前传统的手写文本合成方法难以控制合成文本风格导致最终合成文本效果较差。为此，本申请提供了一种文本合成方法、装置及电子设备，首先基于获取的手写风格图像和文本擦除模型，获得了包含高质量背景图像的候选背景库，接着基于待迁移文本、特征向量和文本合成模型生成包含风格多变的手写体合成文本图像的手写体文本库，其次从候选背景库和手写体文本库分别抽取一张背景图像和手写体合成文本图像并融合，得到融合图像，实现了利用特征向量和文本合成模型来控制文本内容的风格的效果，提高了融合图像的质量。

参阅附图1，图1是根据本发明的一个实施例的写体文本合成方法的主要步骤流程示意图。如图1所示，本发明实施例中的写体文本合成方法主要包括下列步骤S101-步骤S105。

步骤S101：获取手写风格图像、待迁移文本和提供风格信息的特征向量。具体来说，手写风格图像是包含文本内容和背景的图像。待迁移文本仅仅包含文本内容。提供风格信息的特征向量可以是直接采用高斯分布或者均匀分布的随机向量，其用于在文本合成模型中与待迁移文本对应的卷积核进行卷积来控制待迁移文本的文本风格。

步骤S102：基于手写风格图像和文本擦除模型确定候选背景库。本申请中的文本擦除模型是基于GAN的文本擦除模型。

GAN主要由生成器(Generator，G)和判别器(Discriminator，D)组成。生成器主要是对于给定的一张真实手写风格图像x以及对应的无文字的背景图像z，尝试获得一张预测的无文字的背景图像y，我们希望y的数据分布越接近z的数据分布越好，即求解以下优化问题：

本申请的生成器和判别器可以是现有的网络，例如生成器G可以是类似于U-Net的网络架构，以将低层级的定位特征和高层级的视觉特征进行融合。判别器D可以是DCGAN架构的网络，以对输入的特征进行降维，最后通过一个Sigmoid函数判断是0还是1。

为了进一步约束生成的图像随机性，提高图像质量，更好地符合人眼的视觉特征，本申请采用如下是所示的损失函数L_total，α和β是损失函数的平衡因子：

L_total＝L_gan+αL₁+βL_vgg

三个损失定义分别如下：

L_gan＝E_(x,z)[logD(x,z)]+E_(x)[log(1-D(x,y))]

L₁＝||z-y||₁

L_vgg＝γL_per+εL_style

而L_vgg感受损失又由两个部分组成，分别是内容损失L_per和风格损失L_style，定义分别如下：

其中，φ_i为预训练模型VGG-19中间层的激活特征图，M_i为第i层的特征图的尺寸，G为格莱姆矩阵，

γ和ε分别为文本内容损失和风格损失之间的平衡因子。

在确定候选背景库的步骤中，首先将手写风格图像划分为多个手写切片，接着将多个手写切片依次输入文本擦除模型，得到初始背景库，最后对初始背景库进行预处理，得到候选背景库。

在对初始背景库进行预处理的过程中，如图2所示，首先可以基于预识别模型判断初始背景库中每一背景图像是否包含字符，在背景图像不包含字符的情况下，基于不包含字符的背景图像得到候选背景库,也就是直接将不包含字符的背景图像集合作为候选背景库输出即可，在背景图像包含字符的情况下，对包含字符的背景图像进行过滤操作，得到候选背景库。其中，这里的预识别模型可以是文本识别领域中常见的CRNN网络。

具体来说，在对包含字符的背景图像进行过滤操作的过程中，可以先对包含字符的背景图像进行归一化操作，归一化操作就是将背景图像归一化到像素值为1的过程，以得到归一化背景图像。接着计算归一化背景图像中每个字符所占的平均宽度。示例性地，当背景图像中识别出10个字符时，前述步骤已经把背景图像归一化，也就是背景图像的像素值为1，然后由1/10＝0.1，这就是背景图像中每个字符所占的平均宽度。其次基于归一化背景图像中每个字符所占的平均宽度确定宽度阈值，具体是先基于每个字符所占的平均宽度分别确定归一化背景图像中所有字符的平均值和中值，在平均值小于中值的情况下，将平均值作为宽度阈值，在平均值不小于中值的情况下，将中值作为宽度阈值。最后判断归一化背景图像中每个字符所占的平均宽度是否大于宽度阈值，在归一化背景图像中每个字符所占的平均宽度大于宽度阈值的情况下，基于归一化背景图像得到候选背景库，具体是将所有满足前述平均宽度判断条件的归一化背景图像的集合作为候选背景库。

步骤S103：基于待迁移文本、特征向量和文本合成模型确定手写体文本库。在该步骤中，首先将待迁移文本和特征向量输入文本合成模型，即可得到手写体合成文本图像，由于所述特征向量是高斯分布或者均匀分布的随机向量，因此，多个特征向量可对应得到多张手写体合成文本图像，最后将多张手写体合成文本图像的集合作为手写体文本库。

具体来说，如图3所示，本申请的文本合成模型包括生成器G、判别器D和识别器R，其中，生成器G和判别器D构成了生成式对抗网络GAN的两个部分，识别器可以由CRNN网络实现。示例性的，对于输入的待迁移文本“sleep”，首先从卷积核库中获取每一个字符对应的卷积核，这里的“sleep”中五个字符分别对应的卷积核为[fs,fl,fe,fe,fp]。生成器G利用卷积核与提供风格信息的特征向量进行卷积，最终得到输出结果，其中提供风格信息的特征向量用于控制待迁移文本的风格。卷积核与卷积核之间的感受野存在重叠，可以模拟出相邻字符重叠的情况，类似于手写体的连笔。由于每个字符对应一个卷积核，这样生成文本是非常灵活的，可以控制文本的大小和类型，并且文本合成模型能学习到字符之间的依赖关系。文本合成模型中的判别器D用来判别生成虚假图片还是真实图片，识别器R用来识别生成的文本中单个字符，其与判别器D相互配合以对整个文本合成模型进行训练。文本合成模型的损失函数L_total可表示为：

L_total＝L_D+αL_R

其中，L_D是判别器的损失，L_R是识别器的损失，α是识别器的权重参数，是在训练过程中调整确定的参数。

本申请的文本合成模型手写体合成模块的生成器可以获取单个字符的卷积核，能够灵活控制生成文本幅度，支持任意长度的文本合成，同时特征向量可以控制手写体的书写风格，最终生成多变的手写体合成文本图像。

步骤S104：从候选背景库中获取一张背景图像，从手写体文本库中获取一张手写体合成文本图像。具体来说，在该步骤中，可以从候选背景库中随机抽选一张背景图像，从手写体文本库中随机抽选一张手写体合成文本图像。

步骤S105：融合背景图像和手写体合成文本图像，得到融合图像。具体来说，本申请是利用OpenCV自带的泊松融合算法对背景图像和手写体合成文本图像进行融合，从而得到融合图像，但不限于此，传统的融合算法和基于深度学习的算法均能够实现本申请的背景图像和手写体合成文本图像的融合，都包含在本申请的保护范围中。

如图4所示的文本合成方法整体流程图，基于文字擦除模型可以生成候选背景库，基于文本合成模型可以生成手写体文本库，接着从候选背景库和手写体文本库中分别随机抽出一张图像，并利用泊松融合算法对两者进行融合，从而得到质量较高的融合图像。

基于上述步骤S101-步骤S105，首先基于获取的手写风格图像和文本擦除模型，获得了包含高质量背景图像的候选背景库，接着基于待迁移文本、特征向量和文本合成模型生成包含风格多变的手写体合成文本图像的手写体文本库，其次从候选背景库和手写体文本库分别抽取一张背景图像和手写体合成文本图像并融合，得到融合图像，实现了利用特征向量和文本合成模型来控制文本内容的风格，提高了融合图像的质量。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种文本合成装置。参阅附图5，图5是根据本发明的一个实施例的文本合成装置的主要结构框图。如图5所示，本发明实施例中的文本合成装置主要包括第一获取模块11、第一确定模块12、第二确定模块13、第二获取模块14和融合模块15。在一些实施例中，第一获取模块11、第一确定模块12、第二确定模块13、第二获取模块14和融合模块15中的一个或多个可以合并在一起成为一个模块。在一些实施例中第一获取模块11可以被配置为获取手写风格图像、待迁移文本和提供风格信息的特征向量。第一确定模块12可以被配置为基于手写风格图像和文本擦除模型确定候选背景库。第二确定模块13被配置为基于待迁移文本、特征向量和文本合成模型确定手写体文本库。第二获取模块14可以被配置为从候选背景库和手写体文本库中分别获取一张背景图像和一张手写体合成文本图像。融合模块15可以被配置为对背景图像和手写体合成文本图像进行融合，得到融合图像。一个实施方式中，具体实现功能的描述可以参见步骤S101-步骤S105所述。

上述文本合成装置以用于执行图1所示的文本合成方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，文本合成装置的具体工作过程及有关说明，可以参考文本合成方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种电子设备。在根据本发明的一个电子设备实施例中，电子设备包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的文本合成方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的文本合成方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的文本合成方法的程序，该程序可以由处理器加载并运行以实现上述文本合成方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种文本合成方法，其特征在于，包括下述步骤：

获取手写风格图像、待迁移文本和提供风格信息的特征向量；

基于所述手写风格图像和文本擦除模型确定候选背景库；

基于所述待迁移文本、特征向量和文本合成模型确定手写体文本库；

从所述候选背景库和手写体文本库中分别获取一张背景图像和手写体合成文本图像；

对所述背景图像和手写体合成文本图像进行融合，得到融合图像。

2.根据权利要求1所述的文本合成方法，其特征在于，基于所述手写风格图像和文本擦除模型确定候选背景库包括：

将所述手写风格图像划分为多个手写切片；

将所述多个手写切片依次输入所述文本擦除模型，得到初始背景库；

对所述初始背景库进行预处理，得到候选背景库。

3.根据权利要求2所述的文本合成方法，其特征在于，对所述初始背景库进行预处理，得到候选背景库包括：

基于预识别模型判断所述初始背景库中每一背景图像是否包含字符；

在所述背景图像不包含字符的情况下，基于不包含字符的所述背景图像得到候选背景库；

在所述背景图像包含字符的情况下，对包含字符的所述背景图像进行过滤操作，得到候选背景库。

4.根据权利要求3所述的文本合成方法，其特征在于，在所述背景图像包含字符的情况下，对包含字符的所述背景图像进行过滤操作，得到候选背景库包括：

对包含字符的所述背景图像进行归一化操作，得到归一化背景图像；

计算所述归一化背景图像中每个字符所占的平均宽度；

基于所述归一化背景图像中每个字符所占的平均宽度确定宽度阈值；

在所述归一化背景图像中每个字符所占的平均宽度大于宽度阈值的情况下，基于所述归一化背景图像得到候选背景库。

5.根据权利要求4所述的文本合成方法，其特征在于，基于所述归一化背景图像中每个字符所占的平均宽度确定宽度阈值包括：

基于所述每个字符所占的平均宽度分别确定所述归一化背景图像中所有字符的平均值和中值；

在所述平均值小于中值的情况下，将所述平均值作为宽度阈值，在所述平均值不小于中值的情况下，将所述中值作为宽度阈值。

6.根据权利要求1所述的文本合成方法，其特征在于，所述文本合成模型包括生成器、判别器和识别器，所述识别器包含CRNN网络；

基于所述待迁移文本、特征向量和文本合成模型确定手写体文本库包括：将所述待迁移文本和所述特征向量输入所述文本合成模型，得到手写体合成文本图像；基于所述手写体合成文本图像得到手写体文本库。

7.根据权利要求1所述的文本合成方法，其特征在于，对所述背景图像和手写体合成文本图像进行融合，得到融合图像包括：基于泊松融合算法对所述背景图像和手写体合成文本图像进行融合，得到融合图像。

8.一种文本合成装置，其特征在于，包括：

第一获取模块，被配置为获取手写风格图像、待迁移文本和提供风格信息的特征向量；

第一确定模块，被配置为基于所述手写风格图像和文本擦除模型确定候选背景库；

第二确定模块，被配置为基于所述待迁移文本、特征向量和文本合成模型确定手写体文本库；

第二获取模块，被配置为从所述候选背景库和手写体文本库中分别获取一张背景图像和手写体合成文本图像；

融合模块，被配置为对所述背景图像和手写体合成文本图像进行融合，得到融合图像。

9.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的文本合成方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的文本合成方法。