CN113554549A

CN113554549A - 文本图像的生成方法、装置、计算机设备和存储介质

Info

Publication number: CN113554549A
Application number: CN202110850446.3A
Authority: CN
Inventors: 巫文良; 罗琳耀; 余蓓; 沈小勇; 吕江波; 贾佳亚
Original assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-26
Anticipated expiration: 2041-07-27
Also published as: CN113554549B

Abstract

本申请涉及人工智能技术领域，提供了一种文本图像的生成方法、装置、设备和介质。本申请能提高文本图像的生成效率和质量。该方法主要包括：将由预设文本内容部分和背景部分构成的文本内容图像划分为多个图像块并转化为相应的图像块特征，在各文本内容图像块特征中添加位置信息得到多个携带位置信息的文本内容图像块特征，将风格参照图像划分为多个风格参照图像块并转化为相应的风格参照图像块特征，将多个携带位置信息的文本内容图像块特征输入至transformer网络的编码器得到文本内容结构特征，将文本内容结构特征和多个风格参照图像块特征输入transformer网络的解码器得到文本内容‑风格融合特征，通过解码器网络将文本内容‑风格融合特征解码得到文本图像。

Description

文本图像的生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本图像的生成方法、装置、计算机设备和存储介质。

背景技术

文字是现今重要的信息载体。光学字符识别(OpticalCharacterRecognition，OCR)是指对含有文本内容的图像文件进行分析识别处理，获取文字及版面信息的过程。在工业视觉领域中，光学字符识别(OCR)技术主要应用在医药、食品外包装，箱体字符、金属部件等场景下，主要是对生产日期、保质期、生产批号、厂家等信息进行字符识别。传统的字符识别场景环境比较单一，字体规范，所以识别率较高。但是面对背景较复杂或非标准化的字符，传统的字符识别方法的检测识别率较低，远远达不到实际应用的需求。

随着深度学习技术的发展，复杂背景的光学字符识别率有所提升。但深度学习是数据驱动型的方法，需要大量的标注数据才能有效提升识别率。

目前，对文本中字符生成的研究得到了关注和发展，与文本中字符相关的生成方式主要有字符形状生成(glyph shape generation)方法和字符特效生成(text effectsgeneration)方法，还有将字符形状生成和字符特效生成结合起来，提出了有字形变化的字体特效化方法。一些方法提出编辑自然图像中的文本，也就是在保持原图自然的背景下，用另一个词替换或者修改原图上的文本信息，具体做法主要是将原图文本在保留风格的情况下替换为目标文本，以及擦除原来的文本并使用合适的纹理去填充被擦除的文本区域，最后将两者进行组合生成编辑好的文本图像。

在自然或工业的图像数据中，文本往往只出现在图像中的某些小区域，目前的技术往往是逐一对这些小区域进行处理，再拼合成高分辨率的文本图像，然而，这样会一方面会由于需要逐一替换文本字体所在区域而降低文本图像的生成效率，另一方面还会因不同区域的文本字体处理结果可能存在的偏差且仅能根据一小部分的背景信息对文本字体添加风格而导致所生成的文本图像质量较低。

发明内容

基于此，有必要针对上述技术问题，提供一种文本图像的生成方法、装置、计算机设备和存储介质。

一种文本图像的生成方法，所述方法包括：

获取由预设文本内容部分和背景部分构成的文本内容图像，以及获取风格参照图像；

将所述文本内容图像划分为多个文本内容图像块，将所述多个文本内容图像块转化为相应的文本内容图像块特征，以及在各文本内容图像块特征中添加相应的图像块位置信息，得到多个携带图像块位置信息的文本内容图像块特征；

将所述风格参照图像划分为多个风格参照图像块，将所述多个风格参照图像块转化为相应的风格参照图像块特征，得到多个风格参照图像块特征；

将所述多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器，并将所述编码器输出的特征作为文本内容结构特征；

将所述文本内容结构特征和所述多个风格参照图像块特征输入transformer网络的解码器，并将所述解码器输出的特征作为文本内容-风格融合特征；

通过解码器网络将所述文本内容-风格融合特征进行解码，得到文本图像。

一种文本图像的生成装置，包括：

图像获取模块，用于获取由预设文本内容部分和背景部分构成的文本内容图像，以及获取风格参照图像；

第一图像处理模块，用于将所述文本内容图像划分为多个文本内容图像块，将所述多个文本内容图像块转化为相应的文本内容图像块特征，以及在各文本内容图像块特征中添加相应的图像块位置信息，得到多个携带图像块位置信息的文本内容图像块特征；

第二图像处理模块，用于将所述风格参照图像划分为多个风格参照图像块，将所述多个风格参照图像块转化为相应的风格参照图像块特征，得到多个风格参照图像块特征；

第一图像输入模块，用于将所述多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器，并将所述编码器输出的特征作为文本内容结构特征；

第二图像输入模块，用于将所述文本内容结构特征和所述多个风格参照图像块特征输入transformer网络的解码器，并将所述解码器输出的特征作为文本内容-风格融合特征；

特征解码模块，用于通过解码器网络将所述文本内容-风格融合特征进行解码，得到文本图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取由预设文本内容部分和背景部分构成的文本内容图像，以及获取风格参照图像；将所述文本内容图像划分为多个文本内容图像块，将所述多个文本内容图像块转化为相应的文本内容图像块特征，以及在各文本内容图像块特征中添加相应的图像块位置信息，得到多个携带图像块位置信息的文本内容图像块特征；将所述风格参照图像划分为多个风格参照图像块，将所述多个风格参照图像块转化为相应的风格参照图像块特征，得到多个风格参照图像块特征；将所述多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器，并将所述编码器输出的特征作为文本内容结构特征；将所述文本内容结构特征和所述多个风格参照图像块特征输入transformer网络的解码器，并将所述解码器输出的特征作为文本内容-风格融合特征；通过解码器网络将所述文本内容-风格融合特征进行解码，得到文本图像。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述文本图像的生成方法、装置、计算机设备和存储介质，获取由预设文本内容部分和背景部分构成的文本内容图像以及获取风格参照图像，将该文本内容图像划分为多个文本内容图像块并转化为相应的文本内容图像块特征，在各文本内容图像块特征中添加相应的图像块位置信息得到多个携带图像块位置信息的文本内容图像块特征，然后将风格参照图像划分为多个风格参照图像块并转化为相应的风格参照图像块特征得到多个风格参照图像块特征；将多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器得到文本内容结构特征，将该文本内容结构特征和多个风格参照图像块特征输入transformer网络的解码器得到文本内容-风格融合特征，通过解码器网络将该文本内容-风格融合特征进行解码得到文本图像。该方案通过transformer技术获取图像的长距离依赖，从而获得全局的背景信息，提升背景复杂多变时的文本字符风格迁移的效果，使其能在数量有限的原始数据下生成可靠的文本图像，提高所生成的文本图像的质量，且能高效地同时对图像中多个区域的文本进行风格迁移，无需逐一对这些区域进行处理，节省了大量后处理时间，提升了文本图像的生成效率。

附图说明

图1为一个实施例中文本图像的生成方法的流程示意图；

图2为一个实施例中各网络处理的流程示意图；

图3为一个实施例中文本图像的生成方法的效果示意图；

图4为一个实施例中文本图像的生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本图像的生成方法，可以由服务器、终端等计算机设备执行。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图1所示，提供了一种文本图像的生成方法，该方法主要包括以下步骤：

步骤S101，获取由预设文本内容部分和背景部分构成的文本内容图像，以及获取风格参照图像；

本步骤主要是获取文本内容图像和风格参照图像，参考图2，该文本内容图像由预设文本内容部分和背景部分构成，该预设文本内容可以是以印刷字体呈现的用于表示某些产品型号的数字和/或字母，背景则可以是由该数字和/或字母表示的产品的图片。风格参照图像是包含有待融合字体风格的数字和/或字母的图片，待融合字体风格是指需与前述预设文本内容相融合的字体风格，该风格参照图像也可以是包含有相应字体风格的数字和/或字母的某些产品的图片。

在一个实施例中，步骤S101具体包括：获取预设文本内容，获取背景图像；将预设文本内容转移至背景图像上，得到文本内容图像。

本实施例，可获取以印刷字体呈现的用于表示某些产品型号的数字和/或字母的文本内容以及获取包含有相应字体风格的数字和/或字母的某些产品的图片，前者作为预设文本内容，后者作为背景图像，将预设文本内容直接贴到背景图像上得到文本内容图像，由此可方便快捷地形成文本内容图像。

步骤S102，将文本内容图像划分为多个文本内容图像块，将多个文本内容图像块转化为相应的文本内容图像块特征，以及在各文本内容图像块特征中添加相应的图像块位置信息，得到多个携带图像块位置信息的文本内容图像块特征；

本步骤主要是对文本内容图像的处理，包括图像块划分、图像块特征获取和位置信息添加过程。其中，可先将文本内容图像划分为多个文本内容图像块，然后将每个文本内容图像块转化为相应的文本内容图像块特征，从而得到多个文本内容图像块特征，分别与前述多个文本内容图像块对应，然后在每个文本内容图像块特征中加入相应的图像块位置信息，该图像块位置信息是指文本内容图像块在文本内容图像中的位置。

结合图2，在一个实施例中，步骤S102中的将文本内容图像划分为多个文本内容图像块，可以包括：将文本内容图像均匀划分为多个文本内容图像块。在具体应用中，可将文本内容图像均匀划分为九个文本内容图像块，由于每个文本内容图像块是从文本内容图像中划分得到，所以每个文本内容图像块会在文本内容图像中对应到一个位置，可为每个位置编号为如1-9并作为图像块位置信息，添加至各文本内容图像块对应的文本内容图像块特征中，从而得到九个携带图像块位置信息的文本内容图像块特征。

结合图2，在一个实施例中，步骤S102中的将多个文本内容图像块转化为相应的文本内容图像块特征，具体包括：使用线性映射层(Linear Prrojection)将多个文本内容图像块转化为相应的文本内容图像块特征。结合前述实施例，可先将文本内容图像均匀划分为九个文本内容图像块，然后将九个文本内容图像块输入至线性映射层(LinearPrrojection)转化得到九个文本内容图像块特征，接着在每个文本内容图像块特征中添加如1-9的位置编号(即图像块位置信息)，得到九个携带图像块位置信息的文本内容图像块特征。

步骤S103，将风格参照图像划分为多个风格参照图像块，将多个风格参照图像块转化为相应的风格参照图像块特征，得到多个风格参照图像块特征；

本步骤主要是对风格参照图像的处理，主要包括图像块划分和图像块特征获取的过程。具体的，可先将风格参照图像划分为多个风格参照图像块，然后将每个风格参照图像块转化为相应的风格参照图像块特征，从而得到多个风格参照图像块特征。

与对文本内容图像的处理相对应的，在一个实施例中，步骤S103中的将风格参照图像划分为多个风格参照图像块，可以包括：按照与文本内容图像的均匀划分方式相同的均匀划分方式，将风格参照图像均匀划分为多个风格参照图像块。如图2所示，也即在具体应用中，可将风格参照图像也均匀划分为九个风格参照图像块。

与对文本内容图像的处理相对应的，在一个实施例中，步骤S103中将多个风格参照图像块转化为相应的风格参照图像块特征，具体包括：使用线性映射层(LinearPrrojection)将多个风格参照图像块转化为相应的风格参照图像块特征。结合前述实施例，可先将风格参照图像均匀划分为九个风格参照图像块，然后将九个风格参照图像块输入至线性映射层(Linear Prrojection)转化得到九个风格参照图像块特征。

步骤S104，将多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器，并将编码器输出的特征作为文本内容结构特征；

如图2所示，在获得多个携带图像块位置信息的文本内容图像块后，利用transformer网络的编码器(encoder)获得文本内容结构特征。本步骤主要是使用transformer网络的编码器(encoder)获取文本内容图像的长距离依赖，对其上下文信息进行编码得到文本内容结构特征。

步骤S105，将文本内容结构特征和多个风格参照图像块特征输入transformer网络的解码器，并将解码器输出的特征作为文本内容-风格融合特征；

如图2所示，在获得文本内容结构特征后，将该文本内容结构特征和步骤S103获得的多个风格参照图像块特征作为输入数据，输入至transformer网络的解码器(decoder)，使用transformer网络的解码器(decoder)进行风格融合，将transformer网络的解码器(decoder)输出的特征作为文本内容-风格融合特征。

在一个实施例中，步骤S105中的将文本内容结构特征和多个风格参照图像块特征输入transformer网络的解码器，具体包括：将文本内容结构特征作为查询query、多个风格参照图像块特征作为键key和值value输入至transformer网络的解码器(decoder)。如图2所示，本实施例主要是通过transformer网络的解码器(decoder)进行风格融合，具体将来自transformer网络的编码器(encoder)提取的文本内容图像的文本内容结构特征作为查询query，以及将风格参照图像的多个风格参照图像块特征作为键key和值value，然后使用transformer网络的解码器(decoder)为文本内容寻找最匹配的字体风格，得到transformer网络的解码器(decoder)输出的融合后的特征即文本内容-风格融合特征。

步骤S106，通过解码器网络将文本内容-风格融合特征进行解码，得到文本图像。

如图2所示，本步骤主要是用解码器网络将融合风格后的文本内容-风格融合特征进行解码得到最终的输出结果即文本图像，在具体应用中，该解码器网络可由多层deconv+relu(修正线性单元)组成。

上述文本图像的生成方法，获取由预设文本内容部分和背景部分构成的文本内容图像以及获取风格参照图像，将该文本内容图像划分为多个文本内容图像块并转化为相应的文本内容图像块特征，在各文本内容图像块特征中添加相应的图像块位置信息得到多个携带图像块位置信息的文本内容图像块特征，然后将风格参照图像划分为多个风格参照图像块并转化为相应的风格参照图像块特征得到多个风格参照图像块特征；将多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器得到文本内容结构特征，将该文本内容结构特征和多个风格参照图像块特征输入transformer网络的解码器得到文本内容-风格融合特征，通过解码器网络将该文本内容-风格融合特征进行解码得到文本图像。该方案通过transformer技术获取图像的长距离依赖，从而获得全局的背景信息，提升背景复杂多变时的文本字符风格迁移的效果，使其能在数量有限的原始数据下生成可靠的文本图像，提高所生成的文本图像的质量，且能高效地同时对图像中多个区域的文本进行风格迁移，无需逐一对这些区域进行处理，节省了大量后处理时间，提升了文本图像的生成效率。

在一个实施例中，步骤S106的通过解码器网络将文本内容-风格融合特征进行解码，得到文本图像之后，上述方法还可以包括以下步骤：将文本图像输入鉴别器，得到鉴别器输出的文本图像的真伪判断结果。

其中，为获得足够真实的文本图像，可引入对抗训练的策略，帮助网络更好地学习到数据集的分布。本实施例中，可使用Patch-base(基于补丁块的)的鉴别器，该鉴别器可由3层的残差块组成，每个残差块可参照Resnet18中的残差块结构设计。具体的，如图2所示，获得解码器网络输出的文本图像后，可进一步将文本图像输入到Patch-base的鉴别器，由Patch-base的鉴别器输出该文本图像的真伪判断结果，由此可便于将真伪判断结果满足要求的文本图像作为最终的文本图像，仅需对现有图像数据进行简单处理就能产生伪配对文本图像数据，无需人工参与，极大的提升了文本图像数据生成的效率，适用于各种OCR场景。

结合图2，在一应用示例中提供一种文本图像的生成方法，主要步骤有：

首先将预设文本内容直接贴到背景图像中得到文本内容图像，将文本内容图像划分为多份等大的文本内容图像块，使用线性映射层将各文本内容图像块转变为文本内容图像块特征并在特征中加入图像块位置信息，得到多个携带图像块位置信息的文本内容图像块特征，然后将多个携带图像块位置信息的文本内容图像块特征输入transformer网络的编码器(encoder)，使用transformer网络的编码器(encoder)获取文本内容图像的长距离依赖，对其上下文信息进行编码得到文本内容结构特征。同时，可将风格参照图像划分为多份等大的风格参照图像块，使用线性映射层将多个风格参照图像块转变为相应的风格参照图像块特征，得到多个风格参照图像块特征。接着，将来自transformer网络的编码器(encoder)的文本内容结构特征与风格参照图像的多个风格参照图像块特征进行融合，具体使用transformer网络的解码器(decoder)进行风格融合，将来自transformer网络的编码器(encoder)的文本内容结构特征作为query，使用风格参照图像的多个风格参照图像块特征作为key和value，使用transformer网络的解码器(decoder)为文本内容寻找最匹配的风格，得到融合后的文本内容-风格融合特征。然后，用解码器网络将融合后的文本内容-风格融合特征进行解码得到文本图像，该解码器网络可由多层deconv+relu组成，为得到足够真实的输出图片，足够真实的文本图像，引入对抗训练的策略，帮助网络更好地学习到数据集的分布，使用Patch-base的鉴别器，由3层的残差块组成，每个残差块参照Resnet18中的残差块结构设计。对于网络的训练过程，可使用端到端的训练方式，在训练阶段的整体损失函数可表示为L＝λ₁Lmse+λ₂Lperception+λ₃Ladv，其中，λ是不同损失项权重，Lmse是像素级的均方误差，用于训练过程中网络控制输出的文本图像中的字形与训练过程中作为网络输入之一的文本内容图像中的字形相同，Ladv是对抗损失，为使得对抗网络的训练过程更加稳定，可使用WGANloss与梯度惩罚项作为该对抗损失项，Lperception是感知损失，其在训练过程中可将生成的文本图像与真值输入到使用ICDAR13预训练的Vgg16，并计算两者在VGG16的Relu1_1、Relu2_1、Relu3_1和Relu4_1层的差异所得的损失。

将本申请提供的文本图像的生成方法应用在实际工业场景OCR项目中，可发现其能帮助大部分工业OCR检测识别任务提升2％-3％的效果，在原始数据稀少的任务效果尤为明显，为直观呈现本申请提供的文本图像的生成方法所能实现的技术效果，如图3示出了部分工业场景OCR数据生成的结果，图3中的第一行为输入的文本内容图像，第二行为对应输出的文本图像。

在整体上，本申请提供的文本图像的生成方法基于transformer的字体风格迁移网络，主要是通过风格迁移技术解决OCR任务的场景数据生成问题，通过transformer技术对上下文信息进行编码，获取图像的长距离依赖，从而获得全局的背景信息，能将图像的大背景信息引入到字体风格化中，提升背景复杂多变时的字符风格迁移的效果，使其能在有限的原始数据下生成可靠的工业场景OCR数据，其效果在工业场景中得到有效验证，仅需要少量的参照原始数据即可产生可靠结果的方法，极大的缓解了OCR场景中数据不足的问题，还能实现多区域的文本风格迁移，高效地同时对图像中的多个区域文字进行风格迁移，无需逐一对这些区域进行处理，节省了大量后处理时间，提升了生成效率。此外，还可以通过简单的图像预处理实现自监督的训练方式，仅需对现有数据进行简单处理就能产生伪配对数据，无需人工参与，极大的提升了数据生成的效率，缓解了OCR任务中的数据长尾分布问题，适用于各种OCR场景。

应该理解的是，虽然如上流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种文本图像的生成装置，该装置400可以包括：

图像获取模块401，用于获取由预设文本内容部分和背景部分构成的文本内容图像，以及获取风格参照图像；

第一图像处理模块402，用于将所述文本内容图像划分为多个文本内容图像块，将所述多个文本内容图像块转化为相应的文本内容图像块特征，以及在各文本内容图像块特征中添加相应的图像块位置信息，得到多个携带图像块位置信息的文本内容图像块特征；

第二图像处理模块403，用于将所述风格参照图像划分为多个风格参照图像块，将所述多个风格参照图像块转化为相应的风格参照图像块特征，得到多个风格参照图像块特征；

第一图像输入模块404，用于将所述多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器，并将所述编码器输出的特征作为文本内容结构特征；

第二图像输入模块405，用于将所述文本内容结构特征和所述多个风格参照图像块特征输入transformer网络的解码器，并将所述解码器输出的特征作为文本内容-风格融合特征；

特征解码模块406，用于通过解码器网络将所述文本内容-风格融合特征进行解码，得到文本图像。

在一个实施例中，图像获取模块401，用于获取预设文本内容，获取背景图像；将所述预设文本内容转移至所述背景图像上，得到所述文本内容图像。

在一个实施例中，第一图像处理模块402，用于将所述文本内容图像均匀划分为所述多个文本内容图像块；第二图像处理模块403，用于按照与所述文本内容图像的均匀划分方式相同的均匀划分方式，将所述风格参照图像均匀划分为所述多个风格参照图像块。

在一个实施例中，第一图像处理模块402，用于使用线性映射层将所述多个文本内容图像块转化为相应的文本内容图像块特征；第二图像处理模块403，用于使用线性映射层将所述多个风格参照图像块转化为相应的风格参照图像块特征。

在一个实施例中，第二图像输入模块405，用于将所述文本内容结构特征作为查询query、所述多个风格参照图像块特征作为键key和值value输入至所述transformer网络的解码器。

在一个实施例中，该装置400还可以包括：鉴别器处理模块，用于将所述文本图像输入鉴别器，得到所述鉴别器输出的所述文本图像的真伪判断结果。

关于文本图像的生成装置的具体限定可以参见上文中对于文本图像的生成方法的限定，在此不再赘述。上述文本图像的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本内容图像、风格参照图像和文本图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像的生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本图像的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取由预设文本内容部分和背景部分构成的文本内容图像，包括：

获取预设文本内容，获取背景图像；

将所述预设文本内容转移至所述背景图像上，得到所述文本内容图像。

3.根据权利要求1所述的方法，其特征在于，

所述将所述文本内容图像划分为多个文本内容图像块，包括：

将所述文本内容图像均匀划分为所述多个文本内容图像块；

所述将所述风格参照图像划分为多个风格参照图像块，包括：

按照与所述文本内容图像的均匀划分方式相同的均匀划分方式，将所述风格参照图像均匀划分为所述多个风格参照图像块。

4.根据权利要求1所述的方法，其特征在于，

所述将所述多个文本内容图像块转化为相应的文本内容图像块特征，包括：

使用线性映射层将所述多个文本内容图像块转化为相应的文本内容图像块特征；

所述将所述多个风格参照图像块转化为相应的风格参照图像块特征，包括：

使用线性映射层将所述多个风格参照图像块转化为相应的风格参照图像块特征。

5.根据权利要求1所述的方法，其特征在于，所述将所述文本内容结构特征和所述多个风格参照图像块特征输入transformer网络的解码器，包括：

将所述文本内容结构特征作为查询query、所述多个风格参照图像块特征作为键key和值value输入至所述transformer网络的解码器。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述通过解码器网络将所述文本内容-风格融合特征进行解码，得到文本图像之后，所述方法还包括：

将所述文本图像输入鉴别器，得到所述鉴别器输出的所述文本图像的真伪判断结果。

7.一种文本图像的生成装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

鉴别器处理模块，用于将所述文本图像输入鉴别器，得到所述鉴别器输出的所述文本图像的真伪判断结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。