CN112580623B

CN112580623B - 图像生成方法、模型训练方法、相关装置及电子设备

Info

Publication number: CN112580623B
Application number: CN202011563301.7A
Authority: CN
Inventors: 赵艳梅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-07-25
Anticipated expiration: 2040-12-25
Also published as: CN112580623A

Abstract

本申请公开了图像生成方法、模型训练方法、相关装置及电子设备，涉及计算机视觉及深度学习等人工智能技术领域。具体实现方案为：获取第一图像和第二图像，第一图像包括第一文本内容，第二图像包括第二文本内容；采用文本擦除模型，对第一图像中的第一文本内容进行擦除，得到第一图像的背景图像；基于第一图像的背景图像和第二图像，采用文本风格迁移模型，将第二图像中的第二文本内容以第一目标风格样式迁移至第一图像的背景图像中，得到第三图像，第一目标风格样式为第一文本内容的风格样式。根据本申请的技术，解决了OCR技术中文本识别模型训练时存在的训练数据比较少而无法满足模型训练精度的问题，提高了文本识别模型的识别效果。

Description

图像生成方法、模型训练方法、相关装置及电子设备

技术领域

本申请涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域，具体涉及一种图像生成方法、模型训练方法、相关装置及电子设备。

背景技术

随着社会的高速发展，人们在生产和生活中需要处理越来越多的文本信息，比如，证件信息、物流信息和票据信息等，为了减轻人们的劳动，提高处理效率，通过人工智能技术来实现文本信息的自动识别已经成为一种趋势。

目前，光学字符识别(Optical Character Recognition，OCR)技术是人工智能领域用于识别图像中文本的一项关键技术，文本识别作为OCR技术的一个重要步骤，其识别效果的好坏直接决定了人们对文本信息的判断。然而，若要训练一个效果较好的文本识别模型，需要大量的训练数据。

发明内容

本公开提供了一种图像生成方法、模型训练方法、相关装置及电子设备。

根据本公开的第一方面，提供了一种图像生成方法，包括：

获取第一图像和第二图像，所述第一图像包括第一文本内容，所述第二图像包括第二文本内容，所述第一文本内容与第二文本内容的风格样式不同；

采用文本擦除模型，对所述第一图像中的第一文本内容进行擦除，得到所述第一图像的背景图像；

基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，所述第一目标风格样式为所述第一文本内容的风格样式。

根据本公开的第二方面，提供了一种模型训练方法，包括：

获取第一训练图像集，所述第一训练图像集包括第一训练背景图像和第一训练文本图像，所述第一训练文本图像包括第一训练文本内容；

基于文本擦除模型，对所述第一训练文本图像中的第一训练文本内容进行擦除，得到第一目标图像；

确定所述第一目标图像与所述第一训练背景图像的第一差异信息；

基于所述第一差异信息更新所述文本擦除模型的参数。

根据本公开的第三方面，提供了一种模型训练方法，包括：

获取第二训练图像集，所述第二训练图像集包括：第二训练背景图像、包含第二训练文本内容的第二训练文本图像、包含第三训练文本内容的第三训练文本图像以及训练输出文本图像；所述第二训练文本内容的在所述第二训练文本图像的风格样式与所述第三训练文本内容在所述第三训练文本图像中的风格样式不同；

基于文本风格迁移模型，将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，所述第二目标风格样式为所述第二训练文本内容的风格样式；

确定所述第二目标图像和训练输出文本图像的第二差异信息；

基于所述第二差异信息更新所述文本风格迁移模型的参数。

根据本公开的第四方面，提供了一种图像生成装置，包括：

第一获取模块，用于获取第一图像和第二图像，所述第一图像包括第一文本内容，所述第二图像包括第二文本内容，所述第一文本内容与第二文本内容的风格样式不同；

第一擦除模块，用于采用文本擦除模型，对所述第一图像中的第一文本内容进行擦除，得到所述第一图像的背景图像；

第一迁移模块，用于基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，所述第一目标风格样式为所述第一文本内容的风格样式。

根据本公开的第五方面，提供了一种模型训练装置，包括：

第二获取模块，用于获取第一训练图像集，所述第一训练图像集包括第一训练背景图像和第一训练文本图像，所述第一训练文本图像包括第一训练文本内容；

第二擦除模块，用于基于文本擦除模型，对所述第一训练文本图像中的第一训练文本内容进行擦除，得到第一目标图像；

第一确定模块，用于确定所述第一目标图像与所述第一训练背景图像的第一差异信息；

第一更新模块，用于基于所述第一差异信息更新所述文本擦除模型的参数。

根据本公开的第六方面，提供了一种模型训练装置，包括：

第三获取模块，用于获取第二训练图像集，所述第二训练图像集包括：第二训练背景图像、包含第二训练文本内容的第二训练文本图像、包含第三训练文本内容的第三训练文本图像以及训练输出文本图像；所述第二训练文本内容的在所述第二训练文本图像的风格样式与所述第三训练文本内容在所述第三训练文本图像中的风格样式不同；

第二迁移模块，用于基于文本风格迁移模型，将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，所述第二目标风格样式为所述第二训练文本内容的风格样式；

第二确定模块，用于确定所述第二目标图像和训练输出文本图像的第二差异信息；

第二更新模块，用于基于所述第二差异信息更新所述文本风格迁移模型的参数。

根据本公开的第七方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法，或者执行第二方面中的任一项方法，或者执行第三方面中的任一项方法。

根据本公开的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法，或者执行第二方面中的任一项方法，或者执行第三方面中的任一项方法。

根据本公开的第九方面，提供了一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，所述电子设备能够执行第一方面中的任一项方法，或者执行第二方面中的任一项方法，或者执行第三方面中的任一项方法。

根据本申请的技术解决了OCR技术中文本识别模型训练时存在的训练数据比较少而无法满足模型训练精度的问题，提高了文本识别模型的识别效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的图像生成方法的流程示意图；

图2是文本识别模型的训练数据中文本图像的示意图；

图3是文本识别模型的训练数据中文本图像的背景图像的示意图；

图4是第二图像的示意图；

图5是骨架图像的示意图；

图6是风格迁移后的文本图像的示意图；

图7是基于文本风格迁移模型输出的文本图像的示意图；

图8是根据本申请第二实施例的模型训练方法的流程示意图；

图9是第一训练文本内容的掩膜图像的示意图；

图10是根据本申请第三实施例的模型训练方法的流程示意图；

图11是根据本申请第四实施例的图像生成装置的结构示意图；

图12是根据本申请第五实施例的模型训练装置的结构示意图；

图13是根据本申请第六实施例的模型训练装置的结构示意图；

图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种图像生成方法，包括如下步骤：

步骤S101：获取第一图像和第二图像，所述第一图像包括第一文本内容，所述第二图像包括第二文本内容，所述第一文本内容与第二文本内容的风格样式不同。

本实施例中，图像生成方法涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域，其可以广泛应用于证件信息、物流信息和票据信息等文本识别的诸多场景。

实际使用时，本申请实施例的图像生成方法，可以由本申请实施例的图像生成装置执行。本申请实施例的图像生成装置可以配置在任意电子设备中，以执行本申请实施例的图像生成方法。电子设备可以为服务器，也可以为终端，这里不做具体限定。

所述第一图像和所述第二图像可以均为文本图像，文本图像指的是包括文本内容的图像，比如，文本图像中包括文本内容“人民陪审员”。

其中，所述第一图像中可以包括第一文本内容，所述第二图像中可以包括第二文本内容，所述第一文本内容可以与所述第二文本内容相同，也可以不同，这里不做具体限定。比如，第一图像中包括第一文本内容“在审申请人”，第二图像中包括第二文本内容“人民陪审员”，则第一文本内容和第二文本内容不同。

需要说明的是，所述第一文本内容与第二文本内容的风格样式不同具体指的是第一文本内容在第一图像中的风格样式与第二文本内容在第二图像中的风格样式不同。其中，文本内容在图像中的风格样式可以包括图像中文本内容的字体、字色和字号等信息，若第一文本内容在第一图像中与第二文本内容在第二图像中的字体、字色和字号等任一种信息不同时，可以认为第一文本内容与第二文本内容的风格样式不同。

比如，第一文本内容为“在审申请人”，其在第一图像中的字体为楷体，字号为14号，第二文本内容为“人民陪审员”，其在第二图像中的字体为宋体，字号为10号，可知，第一文本内容在第一图像中的风格样式与第二文本内容在第二图像中的风格样式不同。

所述第一图像可以具有文本标注信息，比如，所述第一图像可以具有第一文本内容在第一图像中的位置标注信息和第一文本内容的字符类别标注信息，因此，其可以作为文本识别模型的训练数据，用于对文本识别模型进行训练。其中，文本识别模型指的是对图像中文本进行识别的模型。

所述第一图像的获取方式可以包括多种，比如，可以从预先存储的文本识别模型的训练数据中获取所述第一图像，又比如，可以接收其他设备发送的包括文本标注信息的图像作为所述第一图像。

所述第二图像和第一图像的用途可以不同，也可以相同，这里不做具体限定。而本申请实施例的目的即是将所述第二图像中的第二文本内容以与所述第一文本内容相同的风格样式迁移至所述第一图像的背景图像中，以使得迁移文本后生成的图像也具有文本标注信息，该文本标志信息可以包括第二文本内容在生成的图像中的位置标注信息，从而使得迁移文本后生成的图像也可以作为文本识别模型的训练数据，用于对文本识别模型进行训练，达到通过第一图像即原始的训练数据来扩充文本识别模型的训练数据的目的。

所述第二图像的获取方式也可以包括多种，比如，从预先存储的文本图像中获取一张文本图像作为第二图像，又比如，接收其他设备发送的文本图像作为所述第二图像，还比如，通过摄像头随机采集一张文本图像作为第二图像，或者是从网络上获取文本图像作为第二图像。

步骤S102：采用文本擦除模型，对所述第一图像中的第一文本内容进行擦除，得到所述第一图像的背景图像。

所述文本擦除模型可以为深度学习模型，具体可以包括生成对抗网络，其用于根据文本内容的位置标注信息对图像进行编辑，以擦除图像中的文本内容，得到文本内容所在位置的背景图像。

具体的，可以将所述第一图像输入至所述文本擦除模型，所述文本擦除模型根据所述第一图像中的第一文本内容的位置标注信息，对所述第一图像进行编辑，以擦除所述第一图像中的第一文本内容，得到所述第一图像的背景图像。其中，所述第一图像的背景图像具有所述第一文本内容在所述第一图像的位置标注信息。

以图2为第一图像为例，所述第一图像包括第一文本内容“在审申请人”，其背景为白色衬底，所述第一文本内容在所述第一图像的风格样式可以是：字体为楷体，字号为14号，且字色为黑色。将所述第一图像输入至所述文本擦除模型进行文本擦除，可以得到所述第一图像的背景图像，如图3所示，所述第一图像的背景图像可以为白色衬底图像。

为了使文本擦除模型可以对图像中文本内容进行精准擦除，在使用文本擦除模型之前，需要对所述文本擦除模型进行预先训练，具体训练过程将在第二实施例进行详细说明。

步骤S103：基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，所述第一目标风格样式为所述第一文本内容的风格样式。

所述文本风格迁移模型可以为深度学习模型，具体可以包括生成对抗网络，其用于对所述第一图像的背景图像和所述第二图像进行编辑，以将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，所述第一目标风格样式可以为所述第一文本内容在所述第一图像中的风格样式。

以图4为第二图像为例，所述第二图像中包括第二文本内容“人民陪审员”，其背景为灰色衬底，所述第二文本内容在所述第二图像中的风格样式可以是：字体为宋体，字号为10号，字色为黑色。

将所述第一图像的背景图像和所述第二图像输入至所述文本风格迁移模型，所述文本风格迁移模型可以提取所述第二图像中的第二文本内容，并按照所述第一目标风格样式对所述第二文本内容的轮廓进行提取，得到所述第二文本内容在所述第一目标风格样式下的骨架图像，如图5所示。

之后，所述文本风格迁移模型可以基于该骨架图像，生成所述第一目标风格样式的所述第二文本内容，得到包括第二文本内容的另一文本图像，其中，所述第二文本内容在该文本图像的风格样式为所述第一目标风格样式，如图6所示。

最后，所述文本风格迁移模型可以将该文本图像中的第二文本内容迁移至所述第一图像的背景图像中，最终得到第三图像，所述第三图像中包括第二文本内容，且该第二文本内容在所述第三图像中的风格样式为所述第一文本内容在所述第一图像中的风格样式。如图7所示，为基于文本风格迁移模型输出的第三图像，该第三图像包括第二文本内容“人民陪审员”，背景为白色衬底，其风格样式是：字体为楷体，字号为14号，字色为黑色。

在将该文本图像中的第二文本内容迁移至所述第一图像的背景图像的过程中，可以根据第一文本内容在所述第一图像的背景图像的位置标注信息，对所述第二文本内容进行迁移。具体的，可以将所述第二文本内容迁移至所述第一图像的背景图像中该位置标注信息对应的位置处，即迁移至所述第一文本内容在所述第一图像中的位置处，也可以将所述第二文本内容迁移至所述第一图像的背景图像中的另一位置，该位置可以基于所述第一文本内容在所述第一图像中的位置进行确定，比如，该位置可以与所述第一文本内容在所述第一图像的位置存在一定的间距。

需要说明的是，为了使文本风格迁移模型可以将其他文本图像中的文本内容以原始训练数据中文本内容的风格样式迁移至所述原始训练数据的背景图像中，即通过文本风格迁移模型，可以将原始训练数据中文本内容的风格样式迁移到其他文本图像中的文本内容上，且将其他文本图像中的文本内容迁移至原始训练数据的背景图像中。在使用文本风格迁移模型之前，需要对所述文本风格迁移模型进行预先训练，具体训练过程将在第三实施例进行详细说明。

本实施例中，通过采用文本擦除模型将文本识别模型的原始训练数据中的文本内容进行擦除，得到原始训练数据的背景图像，并采用文本风格迁移模型将原始训练数据中文本内容的风格样式迁移至其他文本图像的文本内容上，同时将风格迁移后的其他文本图像中的文本内容迁移至原始训练数据的背景图像中，如此可以得到与原始训练数据相同风格样式且具有位置标注信息的文本图像，达到快速扩充文本识别模型的训练数据的目的。在存在大量的训练数据的前提下，可以提高文本识别模型的训练效果，从而可以间接提高文本识别模型的识别效果。

并且，相对于现有技术中通过人工构造文本识别模型的训练文本图像的方案，一方面，可以将人力从重复的劳动中解放出来，大幅提升了文本图像构造的效率，另一方面，可以减少与实际需求不符的、错的或者无意义的训练样本数量，从而减少了对文本识别模型训练的干扰。

可选的，所述步骤S103具体包括：

基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中的第一目标位置，所述第一目标位置为所述第一文本内容在所述第一图像中的位置。

本实施方式中，可以采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中的第一目标位置。

其中，所述第一目标位置可以为所述第一文本内容在所述第一图像中的位置处，也就是说，可以采用文本风格迁移模型，将第二文本内容以第一目标风格样式迁移至第一图像中文本擦除之前，第一文本内容在所述第一图像的位置处。比如，第一文本内容在第一图像中的位置坐标为(10，10)，则可以将所述第二文本内容迁移至所述第一图像的背景图像中坐标为(10，10)的位置处。

这样，可以使得所述第二文本内容在所述第三图像中可以具有与所述第一文本内容在所述第一图像中相同的位置标注信息，从而可以提高构造的文本图像的质量，进而可以提高文本识别模型的训练效果。

第二实施例

如图8所示，本申请提供一种模型训练方法，包括如下步骤：

步骤S801：获取第一训练图像集，所述第一训练图像集包括第一训练背景图像和第一训练文本图像，所述第一训练文本图像包括第一训练文本内容；

步骤S802：基于文本擦除模型，对所述第一训练文本图像中的第一训练文本内容进行擦除，得到第一目标图像；

步骤S803：确定所述第一目标图像与所述第一训练背景图像的第一差异信息；

步骤S804：基于所述第一差异信息更新所述文本擦除模型的参数。

本实施例中，模型训练方法用于对文本擦除模型进行训练。

为了很好地训练文本擦除模型，通常所述第一训练数据集的数量可以包括多个，且每个第一训练图像集中均包括第一训练背景图像和第一训练文本图像，所述第一训练文本图像包括第一训练文本内容，本实施例的目的即是通过文本擦除模型将第一训练文本图像中的第一训练文本内容进行擦除，并将擦除之后得到的图像与第一训练背景图像进行比对，以更新所述文本擦除模型，最终达到擦除之后得到的图像与第一训练背景图像越来越相似。

所述第一训练文本图像可以基于所述第一训练背景图像生成，且为了确保第一训练文本图像上文本内容是基于预设步骤生成的，排除图像中已有文本的干扰，保证文本擦除模型的训练效果，所述第一训练背景图像可以为无文本内容的图像。

可以获取文本图像，并手动擦除文本图像中的所有文本内容，以得到第一训练背景图像。

可以根据分割原理和第一训练背景图像的颜色梯度变化，将预先准备的文本内容排列在第一训练背景图像中恰当的位置，从而在第一训练背景图像上生成与周边环境比较匹配的文本，得到第一训练文本图像。其中，文本内容排列在第一训练背景图像中的位置可以预先设置，并进行标注，得到第一训练文本图像中的第一训练文本内容的位置标注信息。

获取第一训练图像集之后，可以将每个第一训练文本图像输入至文本擦除模型，以训练所述文本擦除模型。具体的，可以将每个第一训练文本图像输入至文本擦除模型，所述文本擦除模型对第一训练文本图像中的第一训练文本内容进行擦除，得到第一目标图像。

之后，可以确定第一目标图像与第一训练背景图像的第一差异信息，其中，可以将第一目标图像中所有像素点与第一训练背景图像中所有像素点的差异信息确定为所述第一差异信息，也可以将第一目标图像中第二目标位置的像素点与第一训练背景图像中与所述第二目标位置对应的位置的像素点的差异信息确定为所述第一差异信息，这里不做具体限定。所述第二目标位置可以为所述第一训练文本内容在所述第一训练文本图像中的位置。

最后，可以基于所述第一差异信息更新所述文本擦除模型的参数，直至所述第一差异信息达到收敛，此时所述文本擦除模型训练完成。

另外，所述第一训练图像集中可以包括多种尺寸的训练背景图像，比如，第一训练背景图像的尺寸可以为256x256，而所述第一训练图像集中也可以包括与所述第一训练背景图像内容相同的另一训练背景图像，如尺寸为128x128的训练背景图像。通过提供多种尺寸的训练背景图像，可以提高文本擦除模型的鲁棒性。所述第一训练文本图像可以为基于第一训练背景图像生成的文本图像，也可以为第一训练背景图像与基于第一训练背景图像生成的文本图像拼接的图像，这里不做具体限定。

本实施例中，通过对文本擦除模型进行训练，使得之后可以使用训练得到的文本擦除模型对文本识别模型的原始训练数据进行预测，擦除图像中文本内容，得到各文本内容所在位置的背景图像，保存这些背景图像，以供文本识别模型的原始训练数据中的文本内容的样式风格迁移使用。

可选的，所述第一训练图像集还包括所述第一训练文本内容的掩膜图像，所述步骤S803具体包括：

基于所述掩膜图像，确定所述第一训练文本内容在所述第一训练文本图像中的第二目标位置；

确定所述第一目标图像中所述第二目标位置的像素点与所述第一训练背景图像中与所述第二目标位置对应的位置的像素点的差异信息，得到所述第一差异信息。

本实施方式中，所述掩膜图像可以为第一训练文本内容的掩膜图像，其可以有多种表现形式，比如，可以为黑色背景下的白色掩膜，也可以为白色背景下的黑色掩膜等。如图9所示，掩膜图像为黑色背景下的白色掩膜。

为了保证所述掩膜图像可以匹配各种尺寸的训练背景图像，所述掩膜图像的尺寸可以大于训练背景图像的尺寸，比如，所述第一训练图像集中的训练背景图像的最大尺寸可以为256x256，则所述掩膜图像的尺寸可以为512x512。

所述掩膜图像可以在得到第一训练文本图像的同时生成，即根据分割原理和第一训练背景图像的颜色梯度变化，将预先准备的文本内容排列在第一训练背景图像中恰当的位置，从而在第一训练背景图像上生成与周边环境比较匹配的文本，得到第一训练文本图像。同时可以生成预先准备的文本内容的掩膜图像。

也就是说，所述掩膜图像也可以包括第一训练文本内容，且所述掩膜图像中第一训练文本内容的位置可以与所述第一训练文本图像中第一训练文本内容的位置匹配。因此，可以基于所述掩膜图像，确定所述第一训练文本内容在所述第一训练文本图像的第二目标位置。

之后，可以确定所述第一目标图像中所述第二目标位置的像素点与所述第一训练背景图像中与所述第二目标位置对应的位置的像素点的差异信息，最终得到所述第一差异信息。

本实施方式中，通过基于掩膜图像确定所述第一训练文本内容在所述第一训练文本图像中的第二目标位置；并确定所述第一目标图像中所述第二目标位置的像素点与所述第一训练背景图像中与所述第二目标位置对应的位置的像素点的差异信息，得到所述第一差异信息。如此，通过仅考虑文本擦除模型对第一训练文本图像中第一训练文本内容处的位置的像素点的影响，可以避免其他位置处的像素点的差异信息的干扰，从而可以提高文本擦除模型擦除训练的准确性和计算量。

第三实施例

如图10所示，本申请提供一种模型训练方法，包括如下步骤：

步骤S1001：获取第二训练图像集，所述第二训练图像集包括：第二训练背景图像、包含第二训练文本内容的第二训练文本图像、包含第三训练文本内容的第三训练文本图像以及训练输出文本图像；所述第二训练文本内容的在所述第二训练文本图像的风格样式与所述第三训练文本内容在所述第三训练文本图像中的风格样式不同；

步骤S1002：基于文本风格迁移模型，将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，所述第二目标风格样式为所述第二训练文本内容的风格样式；

步骤S1003：确定所述第二目标图像和训练输出文本图像的第二差异信息；

步骤S1004：基于所述第二差异信息更新所述文本风格迁移模型的参数。

本实施例中，模型训练方法用于对文本风格迁移模型进行训练。

为了很好地训练文本风格迁移模型，通常所述第二训练数据集的数量可以包括多个，且每个第二训练图像集中均包括：第二训练背景图像、包含第二训练文本内容的第二训练文本图像、包含第三训练文本内容的第三训练文本图像以及训练输出文本图像。其中，所述第二训练文本内容的在所述第二训练文本图像的风格样式与所述第三训练文本内容在所述第三训练文本图像中的风格样式不同。

本实施例的目的即是通过文本风格迁移模型，将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，并将第二目标图像与训练输出文本图像进行比对，以更新所述文本风格迁移模型，最终达到第二目标图像与训练输出文本图像越来越相似。其中，所述第二目标风格样式可以为所述第二训练文本内容的风格样式。

由于通常是按照文本内容在图像中所处的位置进行文本迁移，因此，为了减少训练的计算量，可以对图像进行裁剪并保存。具体的，可以采用文本检测模型预测文本识别模型的原始训练数据，得到其中的文本图像的第一文本位置，并按照第一文本位置进行裁剪，可以得到包含第二训练文本内容的第二训练文本图像，如图2所示，其可以为包含第二训练文本内容的第二训练文本图像，即可以为文本识别模型的原始训练数据裁剪后的图像。

采用文本擦除模型对文本识别模型的原始训练数据中的文本内容进行擦除，可以得到原始训练数据的背景图像，可以按照第一文本位置对该背景图像进行裁剪，可以得到第二训练背景图像，如图3所示。

对于包含第三训练文本内容的其他文本图像，也可以采用文本检测模型预测其他文本图像的文本位置，得到其他文本图像的第二文本位置，并按照第二文本位置进行裁剪，可以得到包含第三训练文本内容的第三训练文本图像，如图4所示，其可以为包含第三训练文本内容的第三训练文本图像，即可以为其他文本图像裁剪后的图像。

训练输出文本图像可以手动构造，即可以将第三训练文本内容以第二训练文本内容的风格样式迁移至第二训练背景图像中，得到训练输出文本图像，如图7所示。

可以将第二训练文本图像、第三训练文本图像和第二训练背景图像输入至文本风格迁移模型进行文本风格迁移，以将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，所述第二目标风格样式为所述第二训练文本内容的风格样式。

之后，可以确定第二目标图像和训练输出文本图像的第二差异信息，并基于第二差异信息更新所述文本风格迁移模型的参数。

本实施例中，通过对文本风格迁移模型进行训练，使得之后可以使用训练得到的文本风格迁移模型将文本识别模型的原始训练数据中文本内容的风格样式迁移至任意文本内容上，并将风格样式迁移后的文本内容迁移至原始训练数据的背景图像中，从而可以得到任意数量的目标图像，该目标图像也可以用于对文本识别模型进行训练，达到对文本识别模型的训练数据的扩充，提高文本识别模型的训练效果。

可选的，所述步骤S1002具体包括：

基于文本风格迁移模型，按照第二目标风格样式对所述第三训练文本图像中所述第三训练文本内容的轮廓进行提取，得到第三目标图像；

基于所述第三目标图像，生成所述第二目标风格样式的所述第三训练文本内容，得到第四目标图像；

将所述第四目标图像中所述第三训练文本内容迁移至所述第二训练背景图像中，得到第二目标图像。

本实施方式中，将所述第二训练文本图像、第三训练文本图像和第二训练背景图像输入至文本风格迁移模型后，文本风格迁移模型可以对第二训练文本图像中的第二训练文本内容的风格样式进行检测，得到第二目标风格样式，并按照第二目标风格样式对所述第三训练文本图像中所述第三训练文本内容的轮廓进行提取，得到第三目标图像，该第三目标图像可以为第三训练文本内容关于第二目标风格样式的骨架图像。

之后，可以基于所述第三目标图像，生成所述第二目标风格样式的所述第三训练文本内容，得到第四目标图像；该第四目标图像可以包括第三训练文本内容，且第三训练文本内容的风格样式可以为所述第二目标风格样式。将所述第四目标图像中所述第三训练文本内容迁移至所述第二训练背景图像中，得到第二目标图像。

本实施方式中，文本风格迁移模型通过按照第二目标风格样式提取第三训练文本内容的轮廓，得到第三目标图像，基于所述第三目标图像，生成所述第二目标风格样式的所述第三训练文本内容，得到第四目标图像；并将所述第四目标图像中所述第三训练文本内容迁移至所述第二训练背景图像中，得到第二目标图像，从而可以实现将第二训练文本内容的风格样式迁移至第三训练文本内容上，最终得到包括第三训练文本内容且其风格样式为第二目标风格样式的第二目标图像。

可选的，所述第二训练图像集还包括第四训练文本图像和表征所述第二目标风格样式的骨架图像，所述第四训练文本图像包括所述第三训练文本内容，所述第三训练文本内容在所述第四训练文本图像中的风格样式与所述第二训练文本内容的风格样式相同；

所述步骤S1004之前，还包括：

确定所述第三目标图像与所述骨架图像之间的第三差异信息，以及确定所述第四目标图像与所述第四训练文本图像之间的第四差异信息；

所述步骤S1004具体包括：

基于所述第二差异信息、第三差异信息和第四差异信息，更新所述文本风格迁移模型的参数。

本实施方式中，所述第二训练图像集还可以包括第四训练文本图像和表征所述第二目标风格样式的骨架图像，该骨架图像可以表征第三训练文本内容的轮廓，所述第四训练文本图像和骨架图像均可以作为文本风格迁移模型训练过程中的标签图像。

具体的，可以将所述第三目标图像和所述骨架图像进行比对，得到所述第三差异信息，以及将所述第四目标图像与所述第四训练文本图像进行比对，得到所述第四差异信息。之后，可以将第二差异信息、第三差异信息和第四差异信息进行加和，得到文本风格迁移模型在训练过程中图像的差异信息，并基于加和后的差异信息更新所述文本风格迁移模型的参数，在加和后的差异信息达到收敛的情况下，文本风格迁移模型的训练完成。

本实施方式中，通过确定所述第三目标图像与所述骨架图像之间的第三差异信息，以及确定所述第四目标图像与所述第四训练文本图像之间的第四差异信息；并基于所述第二差异信息、第三差异信息和第四差异信息，更新所述文本风格迁移模型的参数，如此，可以提高文本风格迁移模型的训练效果。

第四实施例

如图11所示，本申请提供一种图像生成装置1100，包括：

第一获取模块1101，用于获取第一图像和第二图像，所述第一图像包括第一文本内容，所述第二图像包括第二文本内容，所述第一文本内容与第二文本内容的风格样式不同；

第一擦除模块1102，用于采用文本擦除模型，对所述第一图像中的第一文本内容进行擦除，得到所述第一图像的背景图像；

第一迁移模块1103，用于基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，所述第一目标风格样式为所述第一文本内容的风格样式。

可选的，其中，所述第一迁移模块1103，具体用于基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中的第一目标位置，所述第一目标位置为所述第一文本内容在所述第一图像中的位置。

本申请提供的图像生成装置1100能够实现上述图像生成方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

第五实施例

如图12所示，本申请提供一种模型训练装置1200，包括：

第二获取模块1201，用于获取第一训练图像集，所述第一训练图像集包括第一训练背景图像和第一训练文本图像，所述第一训练文本图像包括第一训练文本内容；

第二擦除模块1202，用于基于文本擦除模型，对所述第一训练文本图像中的第一训练文本内容进行擦除，得到第一目标图像；

第一确定模块1203，用于确定所述第一目标图像与所述第一训练背景图像的第一差异信息；

第一更新模块1204，用于基于所述第一差异信息更新所述文本擦除模型的参数。

可选的，其中，所述第一训练图像集还包括所述第一训练文本内容的掩膜图像；所述第一确定模块1203，具体用于基于所述掩膜图像，确定所述第一训练文本内容在所述第一训练文本图像中的第二目标位置；确定所述第一目标图像中所述第二目标位置的像素点与所述第一训练背景图像中与所述第二目标位置对应的位置的像素点的差异信息，得到所述第一差异信息。

本申请提供的模型训练装置1200能够实现上述模型训练方法第二实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

第六实施例

如图13所示，本申请提供一种模型训练装置1300，包括：

第三获取模块1301，用于获取第二训练图像集，所述第二训练图像集包括：第二训练背景图像、包含第二训练文本内容的第二训练文本图像、包含第三训练文本内容的第三训练文本图像以及训练输出文本图像；所述第二训练文本内容的在所述第二训练文本图像的风格样式与所述第三训练文本内容在所述第三训练文本图像中的风格样式不同；

第二迁移模块1302，用于基于文本风格迁移模型，将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，所述第二目标风格样式为所述第二训练文本内容的风格样式；

第二确定模块1303，用于确定所述第二目标图像和训练输出文本图像的第二差异信息；

第二更新模块1304，用于基于所述第二差异信息更新所述文本风格迁移模型的参数。

可选的，其中，所述第二迁移模块1302包括：

提取单元，用于基于文本风格迁移模型，按照第二目标风格样式对所述第三训练文本图像中所述第三训练文本内容的轮廓进行提取，得到第三目标图像；

生成单元，用于基于所述第三目标图像，生成所述第二目标风格样式的所述第三训练文本内容，得到第四目标图像；

迁移单元，用于将所述第四目标图像中所述第三训练文本内容迁移至所述第二训练背景图像中，得到第二目标图像。

可选的，其中，所述第二训练图像集还包括第四训练文本图像和表征所述第二目标风格样式的骨架图像，所述第四训练文本图像包括所述第三训练文本内容，所述第三训练文本内容在所述第四训练文本图像中的风格样式与所述第二训练文本内容的风格样式相同；

所述装置还包括：

第三确定模块，用于确定所述第三目标图像与所述骨架图像之间的第三差异信息；

第四确定模块，用于确定所述第四目标图像与所述第四训练文本图像之间的第四差异信息。

所述第二更新模块，具体用于基于所述第二差异信息、第三差异信息和第四差异信息，更新所述文本风格迁移模型的参数。

本申请提供的模型训练装置1300能够实现上述模型训练方法第三实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图14所示，设备1400包括计算单元1401，其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序，来执行各种适当的动作和处理。在RAM1403中，还可以存储设备1400操作所需的各种程序和数据。计算单元1401、ROM1402以及RAM1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。

设备1400中的多个部件连接至I/O接口1405，包括：输入单元1406，例如键盘、鼠标等；输出单元1407，例如各种类型的显示器、扬声器等；存储单元1408，例如磁盘、光盘等；以及通信单元1409，例如网卡、调整解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理，例如图像生成方法或模型训练方法。例如，在一些实施例中，图像生成方法或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM1403并由计算单元1401执行时，可以执行上文描述的图像生成方法或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1401可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行图像生成方法或模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像生成方法，包括：

基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，所述第一目标风格样式为所述第一文本内容的风格样式；

所述文本擦除模型用于根据文本内容的位置标注信息对图像进行编辑，以擦除图像中的文本内容，得到文本内容所在位置的背景图像；

所述文本风格迁移模型用于对所述第一图像的背景图像和所述第二图像进行编辑，以将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中。

2.根据权利要求1所述的方法，其中，所述基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，包括：

3.根据权利要求1所述的方法，其中，所述采用文本擦除模型，对所述第一图像中的第一文本内容进行擦除，得到所述第一图像的背景图像之前，所述方法还包括：

基于所述第一差异信息更新所述文本擦除模型的参数。

4.根据权利要求3所述的方法，其中，所述第一训练图像集还包括所述第一训练文本内容的掩膜图像，所述确定所述第一目标图像与所述的第一训练背景图像的第一差异信息，包括：

5.根据权利要求1所述的方法，其中，所述基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像之前，所述方法包括：

基于所述第二差异信息更新所述文本风格迁移模型的参数。

6.根据权利要求5所述的方法，其中，所述基于文本风格迁移模型，将所述第三训练文本图像中第三训练文本内容以第二目标风格样式迁移至所述第二训练背景图像中，得到第二目标图像，包括：

7.根据权利要求6所述的方法，其中，所述第二训练图像集还包括第四训练文本图像和表征所述第二目标风格样式的骨架图像，所述第四训练文本图像包括所述第三训练文本内容，所述第三训练文本内容在所述第四训练文本图像中的风格样式与所述第二训练文本内容的风格样式相同；

所述基于所述第二差异信息更新所述文本风格迁移模型的参数之前，还包括：

所述基于所述第二差异信息更新所述文本风格迁移模型的参数，包括：

8.一种图像生成装置，包括：

第一迁移模块，用于基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中，得到第三图像，所述第一目标风格样式为所述第一文本内容的风格样式；

9.根据权利要求8所述的装置，其中，所述第一迁移模块，具体用于基于所述第一图像的背景图像和所述第二图像，采用文本风格迁移模型，将所述第二图像中的第二文本内容以第一目标风格样式迁移至所述第一图像的背景图像中的第一目标位置，所述第一目标位置为所述第一文本内容在所述第一图像中的位置。

10.根据权利要求8所述的装置，还包括：

11.根据权利要求10所述的装置，其中，所述第一训练图像集还包括所述第一训练文本内容的掩膜图像；所述第一确定模块，具体用于基于所述掩膜图像，确定所述第一训练文本内容在所述第一训练文本图像中的第二目标位置；确定所述第一目标图像中所述第二目标位置的像素点与所述第一训练背景图像中与所述第二目标位置对应的位置的像素点的差异信息，得到所述第一差异信息。

12.根据权利要求8所述的装置，还包括：

13.根据权利要求12所述的装置，其中，所述第二迁移模块包括：

14.根据权利要求13所述的装置，其中，所述第二训练图像集还包括第四训练文本图像和表征所述第二目标风格样式的骨架图像，所述第四训练文本图像包括所述第三训练文本内容，所述第三训练文本内容在所述第四训练文本图像中的风格样式与所述第二训练文本内容的风格样式相同；

所述装置还包括：

第四确定模块，用于确定所述第四目标图像与所述第四训练文本图像之间的第四差异信息；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。