CN116797868A

CN116797868A - 文本图像生成方法以及扩散生成模型训练方法

Info

Publication number: CN116797868A
Application number: CN202310606347.XA
Authority: CN
Inventors: 朱远志; 李兆海; 何梦超; 姚聪
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-22

Abstract

本说明书实施例提供文本图像生成方法以及扩散生成模型训练方法，其中所述文本图像生成方法包括：获取初始图像；将初始图像输入条件编码器，获得初始图像的图像特征；将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据初始图像和噪声数据，生成初始图像对应的目标文本图像。通过样本噪声扩充扩散生成模型的训练数据，并引入样本图像特征，显著提升了扩散生成模型所生成的文本图像的质量。

Description

文本图像生成方法以及扩散生成模型训练方法

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序。

背景技术

随着计算机技术的发展，文本图像的生成越来越依赖计算机技术进行。目前，通常可以基于规则生成文本图像：采集各式各样的字体和图像背景素材，通过文本图像中文本的排布规则渲染合成文本图像。

然而，上述方法所采集的图像背景素材是有限的，同时要为不同场景设计不同的合成规则，十分低效且具有局限性，导致无法合成高质量的文本图像，因此，亟需一种高质量的文本图像生成方案。

发明内容

有鉴于此，本说明书实施例提供了一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本图像生成方法，包括：

获取初始图像；

将初始图像输入条件编码器，获得初始图像的图像特征；

将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

根据本说明书实施例的第二方面，提供了一种手写文本图像生成方法，包括：

接收用户发送的手写文本图像生成请求，其中，手写文本图像生成请求携带初始图像和初始图像的初始风格信息；

将初始图像和初始风格信息输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征；

将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征、样本语义特征和样本风格特征；

根据初始图像和噪声数据，生成初始图像对应的目标手写文本图像；

向用户发送初始图像对应的目标手写文本图像。

根据本说明书实施例的第三方面，提供了一种扩散生成模型训练方法，应用于云侧设备，包括：

获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个；

对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；

将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；

根据第一样本噪声和第一预测噪声，计算噪声损失值；

根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数；

向端侧设备发送扩散生成模型的模型参数。

根据本说明书实施例的第四方面，提供了一种文本图像生成装置，包括：

第一获取模块，被配置为获取初始图像；

第一输入模块，被配置为将初始图像输入条件编码器，获得初始图像的图像特征；

第二输入模块，被配置为将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

第一生成模块，被配置为根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

根据本说明书实施例的第五方面，提供了一种手写文本图像生成装置，包括：

接收模块，被配置为接收用户发送的手写文本图像生成请求，其中，手写文本图像生成请求携带初始图像和初始图像的初始风格信息；

第三输入模块，被配置为将初始图像和初始风格信息输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征；

第四输入模块，被配置为将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征、样本语义特征和样本风格特征；

第二生成模块，被配置为根据初始图像和噪声数据，生成初始图像对应的目标手写文本图像；

第一发送模块，被配置为向用户发送初始图像对应的目标手写文本图像。

根据本说明书实施例的第六方面，提供了一种扩散生成模型训练装置，应用于云侧设备，包括：

第二获取模块，被配置为获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

提取模块，被配置为从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个；

添加模块，被配置为对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；

第五输入模块，被配置为将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；

计算模块，被配置为根据第一样本噪声和第一预测噪声，计算噪声损失值；

调整模块，被配置为根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数；

第二发送模块，被配置为向端侧设备发送扩散生成模型的模型参数。

根据本说明书实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面或者第二方面或者第三方面所提供方法的步骤。

本说明书一个实施例提供的文本图像生成方法，获取初始图像；将初始图像输入条件编码器，获得初始图像的图像特征；将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据初始图像和噪声数据，生成初始图像对应的目标文本图像。由于训练扩散生成模型时引入了样本噪声，从而基于样本噪声可以生成无限个噪声样本图像，扩充了扩散生成模型的训练数据，此外，训练扩散生成模型时还引入了与样本文本图像相关的样本图像特征，有效编码了样本文本图像字符间的上下文信息和纹理特征，显著提升了扩散生成模型所生成的文本图像的质量。

附图说明

图1是本说明书一个实施例提供的一种文本图像生成系统的架构图；

图2是本说明书一个实施例提供的一种文本图像生成方法的流程图；

图3是本说明书一个实施例提供的一种扩散模型训练方法的处理过程流程图；

图4是本说明书一个实施例提供的一种文本图像生成方法的处理过程流程图；

图5是本说明书一个实施例提供的一种手写文本图像生成方法的流程图；

图6是本说明书一个实施例提供的一种手写场景下生成的文本图像的示意图；

图7是本说明书一个实施例提供的一种自然场景下生成的文本图像的示意图；

图8是本说明书一个实施例提供的一种扩散生成模型训练方法的流程图；

图9是本说明书一个实施例提供的一种文本图像生成装置的结构示意图；

图10是本说明书一个实施例提供的一种手写文本图像生成装置的结构示意图；

图11是本说明书一个实施例提供的一种扩散生成模型训练装置的结构示意图；

图12是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

光学字符识别：光学字符识别(OCR，Optical Character Recognition)是指电子设备(例如扫描仪或数码相机)通过检测暗、亮的模式确定字符形状，然后用字符识别方法将字符形状翻译成计算机文字的过程。

生成对抗网络：生成对抗网络(GAN，Generative Adversarial Network)是一种通过两个神经网络相互博弈的方式进行学习的生成模型。生成对抗网络由一个生成器和一个判别器组成，可以在不使用标注数据的情况下来进行生成任务的学习。生成器从潜在空间随机取样作为输入，其输出结果需要尽量模仿真实样本。判别器的输入则为真实样本或生成器的输出，其目的是将生成器的输出从真实样本中尽可能分别出来。生成器和判别器相互对抗、不断学习，最终目的使得判别器无法判断生成器的输出结果是否真实。

文本图像预训练模型：文本图像预训练模型(CLIP，Contrastive Language–ImagePre-training)是一种基于图像和文本并行的多模态预训练模型。

OOV：词典外的(Out Of Vocabulary)。在自然语言处理或者文本处理的时候，通常会有一个词典。这个词典可以是提前加载的，或者是自定义的，或者是从当前数据集提取的。假设之后存在另一个数据集，这个数据集中有一些词并不在现有的词典里，称这些词是词典外的。

UNet：UNet是一种基于卷积神经网络和跳跃连接的编码解码网络，一般用于生成与输入图像同尺寸的图像。

随着计算机技术的发展，文本图像的生成越来越依赖计算机技术进行。目前，通常可以通过以下几种方式生成文本图像：

基于规则的文本图像生成方案：采集各式各样的字体和背景素材，通过文本图像中文本的排布规则进行渲染合成。然而，基于规则的文本图像生成方案所采集的素材是有限的，同时要为不同场景人为设计不同的合成规则，十分低效且具有局限性。并且，该方案无法合成有效的手写体文本图片，因为真实的手写体文本是无约束的，任一书写者书写同一个字符一般都是有差异的，且不同书写者的书写风格差异更加明显，而手写风格的字体渲染出的同一个字符是完全一致的，缺乏多样性。

基于生成对抗网络的文本图像生成方案：将图像生成问题视作判别器和生成器这两个模块的对抗和博弈，即生成器从给定噪声中产生合成图像，判别器分辨生成器的输出图像和真实图像。生成器试图产生更接近真实的图像，判别器试图分辨真实图像与生成图像。然而，该类方法生成样本的多样性不如基于似然的模型，同时，该类方法往往难以训练，在没有精心选择超参数和正则化器的情况下十分容易发生模式坍塌，此外，该类方法以文本图像生成的多样性换取保真度，导致生成的文本图像不能覆盖整个分布。

基于此，本说明书实施例提供了一种文本图像生成方法，获取初始图像；将初始图像输入条件编码器，获得初始图像的图像特征；将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据初始图像和噪声数据，生成初始图像对应的目标文本图像。由于训练扩散生成模型时引入了样本噪声，从而基于样本噪声可以生成无限个噪声样本图像，扩充了扩散生成模型的训练数据，此外，训练扩散生成模型时还引入了与样本文本图像相关的样本图像特征，有效编码了样本文本图像字符间的上下文信息和纹理特征，显著提升了扩散生成模型所生成的文本图像的质量。

在本说明书中，提供了一种文本图像生成方法，本说明书同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种文本图像生成系统的架构图，文本图像生成系统可以包括客户端100和服务端200；

客户端100，用于向服务端200发送初始图像；

服务端200，用于将初始图像输入条件编码器，获得初始图像的图像特征；将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据初始图像和噪声数据，生成初始图像对应的目标文本图像；向客户端100发送目标文本图像；

客户端100，还用于接收服务端200发送的目标文本图像。

应用本说明书实施例的方案，由于训练扩散生成模型时引入了样本噪声，从而基于样本噪声可以生成无限个噪声样本图像，扩充了扩散生成模型的训练数据，此外，训练扩散生成模型时还引入了与样本文本图像相关的样本图像特征，有效编码了样本文本图像字符间的上下文信息和纹理特征，显著提升了扩散生成模型所生成的文本图像的质量。

实际应用中，文本图像生成系统可以包括多个客户端100以及服务端200。多个客户端100之间通过服务端200可以建立通信连接，在文本图像生成场景中，服务端200即用来在多个客户端100之间提供文本图像生成服务，多个客户端100可以分别作为发送端或接收端，通过服务端200实现通信。用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据，或将数据发送至其它客户端100等。在文本图像生成场景中，可以是用户通过客户端100向服务端200发布数据流，服务端200根据该数据流生成文本图像，并将文本图像推送至其他建立通信的客户端中。其中，客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。

客户端100可以为浏览器、APP(Application，应用程序)、或网页应用如H5(HyperText Markup Language5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK，Software Development Kit)，如基于实时通信(RTC，Real TimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中，需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等端侧设备。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端200可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。需要说明的是，服务端200可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器(云侧设备)，或者是带人工智能技术的智能云计算服务器或智能云主机。

值得说明的是，本说明书实施例中提供的文本图像生成方法一般由服务端执行，但是，在本说明书的其它实施例中，客户端也可以与服务端具有相似的功能，从而执行本说明书实施例所提供的文本图像生成方法。在其它实施例中，本说明书实施例所提供的文本图像生成方法还可以是由客户端与服务端共同执行。

参见图2，图2示出了本说明书一个实施例提供的一种文本图像生成方法的流程图，具体包括以下步骤：

步骤202：获取初始图像。

本说明书一个或多个实施例中，生成文本图像时，可以获取初始图像，将初始图像作为文本图像生成过程的参考图像，获得初始图像对应的目标文本图像。

具体地，初始图像是指文本图像生成过程的参考图像，可以是包括文本内容的初始文本图像，还可以是携带初始文本信息的初始噪声图像，其中，初始噪声图像中不包括文本内容。初始图像具体根据实际情况进行选择，本说明书实施例对此不作任何限定。初始图像可以是不同场景的图像，初始图像包括但不限于手写文本图像、街景文本图像、古籍图像，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

实际应用中，获取初始图像的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中，可以从其他数据获取设备或者数据库中读取初始图像。本说明书另一种可能的实现方式中，可以接收用户输入的初始图像。

步骤204：将初始图像输入条件编码器，获得初始图像的图像特征。

本说明书一个或多个实施例中，获取初始图像之后，可以将初始图像输入条件编码器中，经条件编码器的处理，获得初始图像的图像特征。

具体地，图像特征可以表征初始图像中文本的上下文信息，还可以表征初始图像的纹理信息。初始图像的图像特征包括视觉特征和/或语义特征。在初始图像为手写文本图像或带有字体风格的情况下，初始图像的图像特征还可以包括风格特征。视觉特征表征初始图像整体的纹理信息，语义特征表征初始图像中文本字符间的上下文语义信息，风格特征表征初始图像的书写风格信息。

需要说明的是，条件编码器中包括文本识别编码器、文本识别分类器和风格编码器，文本识别编码器用于生成初始图像的视觉特征，文本识别分类器用于生成初始图像的语义特征，风格编码器用于生成初始图像的风格特征。本说明书实施例中，可以直接将预训练的文本识别模型作为条件编码器，还可以利用多个携带分类标签的训练文本图像训练获得条件编码器。

实际应用中，将初始图像输入条件编码器，获得初始图像的图像特征的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中，可以直接将初始图像输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征。

本说明书另一种可能的实现方式中，可以根据初始图像对应的至少一个生成条件，生成初始图像的图像特征，其中，图像特征可以是视觉特征，可以是语义特征，可以是语义特征和视觉特征，可以是视觉特征、语义特征和风格特征，当然，图像特征还可以是其他组合特征，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。也即，上述将初始图像输入条件编码器，获得初始图像的图像特征，可以包括以下步骤：

获取初始图像对应的至少一个生成条件，其中，生成条件为合成生成条件或者增广生成条件或者复原生成条件或者模仿生成条件，合成生成条件对应的图像特征为语义特征，增广生成条件对应的图像特征为视觉特征，复原生成条件对应的图像特征为视觉特征和语义特征，模仿生成条件对应的图像特征为视觉特征、语义特征和风格特征；

将初始图像输入条件编码器，获得至少一个生成条件对应的图像特征。

具体地，合成生成条件可以称为合成模式，合成生成条件只依赖于语义特征，合成生成条件下生成的文本图像具有丰富的多样性，例如手写文本图像存在各种字符倾斜、墨渍、草书连接、笔画宽度和纸张背景，而场景文本图像在文本旋转、背景、模糊噪音和字体方面存在差异。

增广生成条件可以称为增广模式，增广生成条件只依赖于视觉特征，增广生成条件下生成的文本图像与初始图像整体外观相近，但在一些字符上存在细节丢失。

复原生成条件可以称为复原模式，复原生成条件同时依语义特征和视觉特征，复原生成条件下生成的文本图像兼具多样性和保真性。

模仿生成条件可以称为模仿模式，模仿生成条件可以在手写文本图像生成中使用，由于模仿生成条件在复原生成条件的基础上添加了手写文本图像特有的风格条件，使得模仿生成条件下生成的文本图像的保真性得到进一步提升并可以控制相应的风格。

实际应用中，获取初始图像对应的至少一个生成条件的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中，可以从其他数据获取设备或者数据库中读取初始图像对应的至少一个生成条件。本说明书另一种可能的实现方式中，可以接收用户输入的初始图像对应的至少一个生成条件。

应用本说明书实施例的方案，获取初始图像对应的至少一个生成条件，将初始图像输入条件编码器，获得至少一个生成条件对应的图像特征。通过基于至少一个生成条件，获得与实际需求相对应的图像特征，避免获得不必要的图像特征，减少了条件编码器的数据处理量，提高了文本图像生成的效率。

在本说明书中，分别对视觉特征、语义特征和风格特征的生成方式进行详细说明，实际应用中，可以从视觉特征、语义特征和风格特征的生成方式中，选择一个或多个生成方式组合获得初始图像的图像特征。

本说明书一种可选的实施例中，与自然图像的图案不同，文本图像丰富的视觉信息集中在文字上。因此，本说明书实施例提出使用的文本识别模型的文本识别编码器，获得可以更好地表达文本图像的通用信息(例如，纹理和颜色)而不是噪声信息(例如背景)的视觉特征。也即，条件编码器包括文本识别编码器，图像特征包括视觉特征；上述将初始图像输入条件编码器，获得至少一个生成条件对应的图像特征，可以包括以下步骤：

将初始图像输入文本识别编码器，获得初始图像的初始视觉特征，并基于初始视觉特征，获得初始图像的图像块索引；

对图像块索引进行嵌入编码，获得初始图像的嵌入视觉特征；

对初始视觉特征和嵌入视觉特征进行池化处理，获得初始图像的视觉特征。

需要说明的是，假设将初始图像输入文本识别编码器后，获得的初始视觉特征的尺寸为H*W*C，其中H和W是特征序列的高度和宽度。由于文本识别编码器是对文本行处理，所以H为1，C为编码后的特征通道数。初始图像的图像块索引为P_i，P_i∈[1，W]，用于标识图像块在初始图像中的位置。初始图像的视觉特征是对图像块特征融合后的整图级特征。

实际应用中，可以通过以下公式(1)计算初始图像的视觉特征：

c_i＝AttnPool(F_enc(I)+Emb(P_i)) (1)

其中，c_i为视觉特征，I为初始图像，F_enc为文本识别编码器，P_i表示经过编码的图像块索引，Emb是对P_i进行嵌入编码以获得嵌入视觉特征的嵌入函数，AttenPool表示注意力池化处理操作，用来将序列特征进行融合降维。

应用本说明书实施例的方案，将初始图像输入文本识别编码器，获得初始图像的初始视觉特征，并基于初始视觉特征，获得初始图像的图像块索引；对图像块索引进行嵌入编码，获得初始图像的嵌入视觉特征；对初始视觉特征和嵌入视觉特征进行池化处理，获得初始图像的视觉特征，提高了视觉特征的准确性。

本说明书另一种可选的实施例中，初始图像携带初始文本信息，条件编码器包括文本识别分类器，图像特征包括语义特征；上述将初始图像输入条件编码器，获得至少一个生成条件对应的图像特征，可以包括以下步骤：

将初始文本信息输入文本识别分类器，获得初始图像的语义特征，其中，语义特征为文本识别分类器对初始文本序列处理得到，初始文本序列为文本识别分类器对初始文本信息的编码特征处理得到。

需要说明的是，初始文本信息是指初始图像中的文本内容。由于一般的文本识别模型的输入是图像，图像先经过编码器变成特征，再通过分类器变成文本序列。因此，本说明书实施例中，利用文本识别编码器获得初始图像的视觉特征。而对于初始图像的语义特征，可以利用文本识别分类器的逆向过程(输入文本序列输出语义特征)获得。

示例性地，假设正向过程可以理解为编码特征和分类器参数相乘得到初始文本序列。那么逆向过程可以理解为初始文本序列和分类器参数的转置相乘可以获得语义特征。

实际应用中，可以通过以下公式(2)计算初始图像的语义特征：

c_t＝Proj(W_cT+Emb(P_t)) (2)

其中，c_t为语义特征，Proj为线性投影层，用来归一化语义特征的维度，W_c为分类器参数，T为初始文本信息中各个字符的独热编码(编码特征)，Emb是对P_t进行编码的编码函数，P_t表示初始文本信息中各个字符的索引。假设初始文本信息为“XY集团”，初始文本信息是1*W的序列，W＝4，那么“X”的索引是1，“Y”的索引是2，“集”的索引是3，“团”的索引是4。

应用本说明书实施例的方案，由于生成初始文本序列的正向过程和生成语义特征的逆向过程使用的是同一个文本识别分类器的分类器参数，使得语义特征和初始文本信息的编码特征更加适配，相关度更好，并且，由于生成语义特征时使用的是初始文本信息字符级别的编码特征，因此，可以生成包含OOV单词的文本图像，提高了文本图像生成的多样性。

本说明书再一种可选的实施例中，初始图像携带初始风格信息，条件编码器包括风格编码器，图像特征包括风格特征；将初始图像输入条件编码器，获得至少一个生成条件对应的图像特征，可以包括以下步骤：

将初始风格信息输入风格编码器，获得初始图像的风格特征。

具体地，初始风格信息不是指初始图像的图像整体风格，而是指初始图像中文本书写者的书写风格信息。初始风格信息可以是用于表征字符倾斜、草书连接和笔画宽度等信息的书写者编号。

实际应用中，可以通过以下公式(3)计算初始图像的风格特征：

c_s＝Proj(Emb(S)) (3)

其中，c_s为风格特征，Proj为线性投影层，用来归一化风格特征的维度，S为初始风格信息，Emb是对初始风格信息进行编码的编码函数。

应用本说明书实施例的方案，将初始风格信息输入风格编码器，获得初始图像的风格特征，在生成初始图像的图像特征的过程中，引入书写者信息对手写文本图像的风格进行控制，显著提升了文本图像的生成效果。

步骤206：将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种。

本说明书一个或多个实施例中，获取初始图像，将初始图像输入条件编码器，获得初始图像的图像特征之后，进一步地，可以将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据。

具体地，噪声数据是指初始图像中不必要的或多余的干扰数据，如高斯噪声。高斯噪声是指概率密度函数服从高斯分布(即正态分布)的噪声。

实际应用中，将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

本说明书一种可能的实现方式中，可以直接将初始图像和图像特征输入扩散生成模型，获得所有生成条件下初始图像对应的噪声数据，如合成噪声数据、增广噪声数据、复原噪声数据、模仿噪声数据等等。

本说明书另一种可能的实现方式中，可以根据将初始图像和至少一个生成条件对应的图像特征，生成初始图像对应的噪声数据，也即，上述将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，可以包括以下步骤：

将初始图像和至少一个生成条件对应的图像特征输入扩散生成模型，获得各生成条件下初始图像对应的噪声数据。

实际应用中，扩散生成模型可以生成不同生成条件下初始图像对应的噪声数据，而用户可能只需要一部分生成条件下的目标文本图像。因此，本说明书实施例中，可以根据初始图像的生成目标，也即至少一个生成条件，生成符合用户实际需求的目标文本图像。

需要说明的是，若初始图像对应的生成条件为多个，扩散生成模型在对初始图像和多个生成条件对应的图像特征进行处理时，并不会对不同生成条件对应的图像特征进行融合，而是单独对初始图像和任一生成条件对应的图像特征进行处理，获得该生成条件下初始图像对应的噪声数据。

示例性地，假设初始图像对应的生成条件为合成生成条件，则可以将初始图像和初始图像的语义特征输入扩散生成模型，获得合成生成条件下初始图像对应的合成噪声数据。假设初始图像对应的生成条件为合成生成条件和增广生成条件，则可以将初始图像和初始图像的视觉特征和语义特征输入扩散生成模型，扩散生成模型可以根据初始图像和视觉特征，生成增广生成条件下初始图像对应的增广噪声数据，根据初始图像和语义特征，生成合成生成条件下初始图像对应的合成噪声数据。

应用本说明书实施例的方案，将初始图像和至少一个生成条件对应的图像特征输入扩散生成模型，获得各生成条件下初始图像对应的噪声数据，通过根据初始图像对应的至少一个生成条件，获得与用户实际需求相对应的噪声数据，避免获得不必要的噪声数据，减少了扩散生成模型的数据处理量，提高了文本图像生成的效率。

步骤208：根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

本说明书一个或多个实施例中，获取初始图像，将初始图像输入条件编码器，获得初始图像的图像特征，将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据之后，进一步地，可以根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

具体地，初始图像对应的目标文本图像的类型可以是一种，也可以是多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。目标文本图像与初始图像对应的生成条件对应，目标文本图像的类型包括但不限于合成文本图像、增广文本图像、复原文本图像、模仿文本图像。进一步地，一类目标文本图像的图像数量可以是一个，也可以是多个，具体根据用户实际情况进行选择，本说明书实施例对此不作任何限定。

示例性地，假设初始图像对应的生成条件为合成生成条件，根据文本图像生成方法生成初始图像对应的目标文本图像可以是多个合成文本图像。假设初始图像对应的生成条件为合成生成条件和增广生成条件，根据文本图像生成方法生成初始图像对应的目标文本图像可以包括一个合成文本图像和多个增广文本图像。

实际应用中，根据初始图像和噪声数据，生成初始图像对应的目标文本图像时，可以对初始图像和噪声数据作差，生成初始图像对应的目标文本图像。

本说明书实施例中，文本图像生成过程中，可以生成多个目标文本图像，并将多个目标文本图像发送给用户。进一步地，还可以从多个目标文本图像中筛选满足用户需求的文本图像，将满足用户需求的文本图像发送至用户。

本说明书一种可选的实施例中，目标文本图像包括第一目标文本图像和第二目标文本图像；上述根据初始图像和噪声数据，生成初始图像对应的目标文本图像，可以包括以下步骤：

根据初始图像和噪声数据，生成初始图像对应的第一目标文本图像；

将第一目标文本图像作为更新后的初始图像，并返回执行将初始图像输入条件编码器，获得初始图像的图像特征的步骤，生成初始图像对应的第二目标文本图像。

需要说明的是，第一目标文本图像和第二目标文本图像的类型可以相同，也可以不同，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

示例性地，假设用户发送的初始图像为初始图像A，并指定生成初始图像对应的两个文本图像，初始图像A对应的生成条件为合成生成条件。将初始图像A输入条件编码器，获得在合成生成条件下初始图像的语义特征。将初始图像和语义特征输入扩散生成模型，获得初始图像对应的合成噪声数据。根据初始图像和合成噪声数据生成初始图像对应的第一合成文本图像。由于只生成了一个文本图像，此时，可以将第一合成文本图像输入条件编码器，获得在合成生成条件下第一合成文本图像的语义特征。将第一合成文本图像和第一合成文本图像的语义特征输入扩散生成模型，获得第一合成文本图像对应的合成噪声数据。根据第一合成文本图像和第一合成文本图像的合成噪声数据生成第一合成文本图像对应的第二合成文本图像。此时，生成了第一合成文本图像和第二合成文本图像两个文本图像，停止文本图像生成，并将第一合成文本图像和第二合成文本图像发送给用户，其中，第二合成文本图像的清晰度可以大于第一合成文本图像的清晰度。

应用本说明书实施例的方案，根据初始图像和噪声数据，生成初始图像对应的第一目标文本图像；将第一目标文本图像作为更新后的初始图像，并返回执行将初始图像输入条件编码器，获得初始图像的图像特征的步骤，生成初始图像对应的第二目标文本图像。以迭代的方式生成初始图像对应的目标文本图像，使得生成的目标文本图像更加丰富多样。

本说明书一种可选的实施例中，根据初始图像和噪声数据，生成初始图像对应的目标文本图像之后，可以直接将目标文本图像发送给用户。还可以接收用户发送的文本图像生成需求信息，确定当前生成的目标图像是否满足文本图像生成需求信息。若不满足，则将当前生成的目标图像作为初始图像，重新生成目标文本图像；若满足，则直接将目标文本图像发送给用户，也即，上述根据初始图像和噪声数据，生成初始图像对应的目标文本图像之后，还可以包括以下步骤：

接收用户发送的文本图像生成需求信息；

在目标文本图像不满足图像生成需求信息的情况下，将目标文本图像作为更新后的初始图像，并返回执行将初始图像输入条件编码器，获得初始图像的图像特征的步骤，直至目标文本图像满足图像生成需求信息，获得更新后的目标文本图像。

具体地，文本图像生成需求信息包括但不限于文本图像的数量、文本图像的清晰度，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

示例性地，在根据初始图像和噪声数据，生成初始图像对应的目标文本图像之后，接收用户发送的文本图像生成需求信息，如清晰度满足预设清晰度阈值。将目标文本图像的清晰度与预设清晰度阈值进行比较，确定目标文本图像的清晰度小于预设清晰度阈值，也即目标文本图像不满足图像生成需求信息。此时，可以将目标文本图像作为更新后的初始图像，并返回执行将初始图像输入条件编码器，获得初始图像的图像特征的步骤，获得更新后的目标文本图像，进一步将更新后的目标文本图像的清晰度与预设清晰度阈值进行比较，确定更新后的目标文本图像的清晰度大于预设清晰度阈值，也即更新后的目标文本图像满足图像生成需求信息。此时，将更新后的目标文本图像发送至用户。

应用本说明书实施例的方案，接收用户发送的文本图像生成需求信息，根据文本图像生成需求信息确定是否将当前生成的目标文本图像发送至用户，若否，重新生成符合文本图像生成需求信息的目标文本图像，向用户发送符合文本图像生成需求信息的目标文本图像，保证了文本图像生成的准确性，进一步提高了用户体验度。

光学字符识别技术是模式识别中最成功的应用之一，具有极高的研究价值，而文本识别是光学字符识别中的关键环节。因为通过收集和标注有限的真实文本图像数据很难实现现实世界中的复杂度和多样性，因此训练文本识别模型时，需要扩充训练样本，如进行数据合成和数据增广。

目前，可以通过以下几种方式扩充训练样本：真实数据采集及标注：对真实数据采集及标注十分费时费力，样本多样性往往受限于所采集的字体、背景和人工设计的规则，且无法生成质量较高的具有无约束性的手写体文本图片。数据增广：数据增广包括对原始图片做几何层面的增广和从特征层面进行增广，然而，数据增广通常基于现有的训练数据，无法创造OOV数据，从而样本多样性会受限。数据合成：基于生成对抗网络生成样本文本图像，但该方法往往难以训练，在没有精心选择超参数和正则化器的情况下容易模式坍塌。

实际应用中，可以通过训练扩散生成模型，在推理的时候基于随机的高斯噪声逐步去噪，从而生成自然图像。但扩散生成模型在没有先验信息的输入下，输出图像十分随机，不能直接使用。因此，可以通过文本图像预训练模型对齐图像与其相应的文本描述，将其作为扩散生成模型的额外输入，从而使其生成的文本图像具有一定的意义。

进一步地，不同于一般的自然图像生成，由于文本图像生成需要字符间更加独特的上下文信息和纹理特征。因此，本说明书实施例中，可以利用图2所提供的文本图像生成方法扩充文本识别模型的训练数据，从而获得适用于文本图像的目标文本识别模型，也即，上述根据初始图像和噪声数据，生成初始图像对应的目标文本图像之后，还可以包括以下步骤：

根据多个初始图像和各初始图像对应的目标文本图像构建文本识别训练集；

利用文本识别训练集训练文本识别模型，获得目标文本识别模型。

需要说明的是，由于目标文本图像基于初始图像和初始图像对应的噪声数据得到，因此，目标文本图像和初始图像对应的文本标签是相同的，则可以将初始图像和初始图像对应的目标文本图像均作为文本识别样本，利用多个文本识别样本和各文本识别样本的文本标签构建文本识别训练集。

实际应用中，目标文本识别模型的训练方式，可以包括以下步骤：获取文本识别训练集，其中，文本识别训练集包括多个文本识别样本，文本识别样本携带文本标签；从文本识别训练集中提取第一文本识别样本，其中，第一文本识别样本为多个文本识别样本中的任一个；将第一文本识别样本输入文本识别模型，获得第一文本识别样本的第一预测文本；根据第一预测文本和第一文本识别样本携带的第一文本标签，计算识别损失值；根据识别损失值调整文本识别模型的参数，并返回执行从文本识别训练集中提取第一文本识别样本的步骤，直至达到预设识别停止条件，获得训练完成的目标文本识别模型。

应用本说明书实施例的方案，根据多个初始图像和各初始图像对应的目标文本图像构建文本识别训练集；利用文本识别训练集训练文本识别模型，获得目标文本识别模型。通过三种图像特征(视觉特征、语义特征和风格特征)和四种生成条件(合成生成条件、增广生成条件、复原生成条件和模仿生成条件)，使得生成的目标文本图像具有优越的有效性、保真性和多样性，进一步所生成的目标文本图像能够显著提升文本识别模型的性能，并能与其他数据扩充方案进行互补，解决实际场景中的文本图像的文本识别问题。此外，由于合成生成条件不依赖于视觉特征，因此，本方案在域迁移和OOV文本图像生成上也表现出优越的性能，使用简单且稳定，可以无限生成覆盖整个分布的图像，同时推理过程十分灵活，可以控制所生成图像的多样性和保真性，以及手写文本图像中的书写风格。

本说明书一种可选的实施例中，条件编码器包括文本识别编码器和文本识别分类器，条件编码器的训练方式，可以包括以下步骤：

获取训练集，其中，训练集包括多个训练文本图像，训练文本图像携带分类标签；

从训练集中提取第一训练文本图像，其中，第一训练文本图像为多个训练文本图像中的任一个；

将第一训练文本图像输入文本识别编码器，并将文本识别编码器的输出作为文本识别分类器的输入，获得第一训练文本图像的第一预测分类结果；

根据第一预测分类结果和第一训练文本图像携带的第一分类标签，计算编码损失值；

根据编码损失值调整文本识别编码器和文本识别分类器的参数，并返回执行从训练集中提取第一训练文本图像的步骤，直至达到第一预设停止条件，获得训练完成的条件编码器。

需要说明的是，条件编码器的训练方式为有监督训练，也即训练集中的各训练文本图像是携带真实分类标签的，分类标签为条件编码器的处理目标，用于指导条件编码器的训练过程。获取训练集的方式可以是从其他数据获取设备或者数据库中读取大量携带分类标签的训练文本图像组成训练集。还可以是接收用户输入的大量携带分类标签的训练文本图像组成训练集。获取训练集的方式具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

本说明书一种可能的实现方式中，第一预设停止条件包括编码损失值小于或等于第一预设阈值。根据第一预测分类结果和第一训练文本图像携带的第一分类标签，计算编码损失值之后，将编码损失值与第一预设阈值进行比较。

具体地，若编码损失值大于第一预设阈值，则说明第一预测分类结果和第一分类标签之间的差异较大，条件编码器对于第一预测分类结果的预测能力较差，此时可以调整文本识别编码器和文本识别分类器的参数，并返回执行从训练集中提取第一训练文本图像的步骤，继续对条件编码器进行训练，直至编码损失值小于或等于第一预设阈值，则说明第一预测分类结果和第一分类标签的差异较小，条件编码器的预测能力较强，达到第一预设停止条件，可以停止训练，获得训练完成的条件编码器。

本说明书另一种可能的实现方式中，除了比较编码损失值和第一预设阈值的大小关系之外，还可以结合第一迭代次数，确定当前的条件编码器是否训练完成。具体地，若编码损失值大于第一预设阈值，则调整文本识别编码器和文本识别分类器的参数，并返回执行从训练集中提取第一训练文本图像的步骤，继续对条件编码器进行训练，直至达到第一预设迭代次数的情况下，停止迭代，得到完成训练的条件编码器，其中，第一预设阈值和第一预设迭代次数具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

实际应用中，计算编码损失值的函数有很多，如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

应用本说明书实施例的方案，根据第一预测分类结果和第一训练文本图像携带的第一分类标签，计算获得编码损失值，将编码损失值与第一预设停止条件进行比较，在不满足第一预设停止条件的情况下继续训练文本识别编码器和文本识别分类器，直至达到第一预设停止条件，完成训练获得条件编码器。通过不断对文本识别编码器和文本识别分类器的参数进行调整，能使最终得到的条件编码器更加精准。

本说明书一种可选的实施例中，扩散生成模型的训练方式，可以包括以下步骤：

获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征；

根据第一样本噪声和第一预测噪声，计算噪声损失值；

根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型。

具体地，样本文本图像携带的样本图像特征是利用条件编码器对样本文本图像处理得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种，还可以包括样本风格特征。第一样本噪声可以是随机噪声，还可以是固定噪声，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

实际应用中，获取样本集的方式可以是从其他数据获取设备或者数据库中读取大量携带样本图像特征的样本文本图像组成样本集。还可以是接收用户输入的大量携带样本图像特征的样本文本图像组成样本集。获取样本集的方式具体根据实际情况进行选择。

本说明书一种可能的实现方式中，第二预设停止条件包括噪声损失值小于或等于第二预设阈值。根据第一样本噪声和第一预测噪声，计算噪声损失值之后，将噪声损失值与第二预设阈值进行比较。具体地，若噪声损失值大于第二预设阈值，则说明根据第一样本噪声和第一预测噪声之间的差异较大，扩散生成模型对于第一预测噪声的预测能力较差，此时可以调整扩散生成模型的参数，并返回执行从样本集中提取第一样本文本图像的步骤，继续对扩散生成模型进行训练，直至噪声损失值小于或等于第二预设阈值，则说明根据第一样本噪声和第一预测噪声的差异较小，扩散生成模型的预测能力较强，达到第二预设停止条件，可以停止训练，获得训练完成的扩散生成模型。

本说明书另一种可能的实现方式中，除了比较噪声损失值和第二预设阈值的大小关系之外，还可以结合第二迭代次数，确定当前的扩散生成模型是否训练完成。具体地，若噪声损失值大于第二预设阈值，则调整扩散生成模型的参数，并返回执行从样本集中提取第一样本文本图像的步骤，继续对扩散生成模型进行训练，直至达到第二预设迭代次数的情况下，停止迭代，得到完成训练的扩散生成模型，其中，第二预设阈值和第二预设迭代次数具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

实际应用中，计算噪声损失值的函数有很多，如交叉熵损失函数、L1范数损失函数、最大损失函数、平方误差损失函数、对数损失函数等，具体根据实际情况进行选择。

应用本说明书实施例的方案，根据第一样本噪声和第一预测噪声，计算获得噪声损失值，将噪声损失值与第二预设停止条件进行比较，在不满足第二预设停止条件的情况下继续训练扩散生成模型，直至达到第二预设停止条件，完成训练获得扩散生成模型。通过不断对扩散生成模型的参数进行调整，能使最终得到的扩散生成模型更加精准。

参见图3，图3示出了本说明书一个实施例提供的一种扩散模型训练方法的处理过程流程图。条件扩散模型训练过程使用了条件编码器和扩散生成模型：

条件编码器：将样本文本图像输入文本识别编码器，获得样本文本图像的初始视觉特征，并基于初始视觉特征，获得样本文本图像的图像块索引；对图像块索引进行嵌入编码，获得样本文本图像的嵌入视觉特征；对初始视觉特征和嵌入视觉特征进行池化处理，获得样本文本图像的样本视觉特征。将样本文本图像的样本文本信息输入文本识别分类器，对文本识别分类器的输出和样本文本信息的字符索引进行线性投影，获得样本文本图像的样本语义特征。将样本文本图像的样本风格信息输入风格编码器，对风格编码器的输出进行线性投影，获得样本文本图像的样本风格特征。

扩散生成模型：不同于普通扩散模型中的自然图像生成，本实施例引入了与样本文本图像相关的专家知识，即包括样本视觉特征、样本语义特征和样本风格特征的样本图像特征。实际应用中，可以基于可以使得输入和输出为同一个尺度的编码解码网络(如UNet)训练扩散生成模型。通过不断对样本文本图像添加随机高斯噪声，使得样本文本图像的特征逐渐消失，并最终成为一个标准的高斯噪声。在扩散过程的第n步，样本视觉特征、样本语义特征、样本风格特征和噪声样本图像I_n+1被组合送入UNet以获得预测噪声，组合过程采用交叉注意力机制以促进彼此间的信息交互与学习，最终采用平方误差损失函数计算平方误差损失(也即噪声损失值)进行训练监督，获得训练完成的扩散生成模型。

实际应用中，可以通过以下公式(4)确定噪声样本图像，可以通过以下公式(5)计算平方误差损失：

I_n+1＝I_n+ε (4)

其中，ε表示高斯噪声，I_n+1表示第n+1步的噪声样本图像，I_n表示第n步的噪声样本图像。

L＝||ε-ε_θ([c_i,c_t,c_s],I_n+1)||² (5)

其中，L表示平方误差损失值，ε表示高斯噪声，ε_θ表示UNet网络的参数，[c_i,c_t,c_s]表示对视觉特征、语义特征和风格特征的级联操作，I_n+1表示第n+1步的噪声样本图像。

参见图4，图4示出了本说明书一个实施例提供的一种文本图像生成方法的处理过程流程图，文本图像生成过程使用了条件编码器和扩散生成模型：

条件编码器：将初始图像输入文本识别编码器，获得初始图像的初始视觉特征，并基于初始视觉特征，获得初始图像的图像块索引；对图像块索引进行嵌入编码，获得初始图像的嵌入视觉特征；对初始视觉特征和嵌入视觉特征进行池化处理，获得初始图像的视觉特征。将初始图像的初始文本信息输入文本识别分类器，对文本识别分类器的输出和初始文本信息的字符索引进行线性投影，获得初始图像的语义特征。将初始图像的初始风格信息输入风格编码器，对风格编码器的输出进行线性投影，获得初始图像的风格特征。

扩散生成模型：通过随机高斯噪声对初始图像逐渐去噪生成目标文本图像。具体地，在生成过程的第n'步，不同生成条件和去噪文本图像I_n'被组合送入UNet以对去噪文本图像进行预测噪声，组合过程采用交叉注意力机制以促进彼此间的信息交互与学习。因此，下一步的去噪文本图像I_n'+1可以通过I_n'与预测噪声相减得到。

实际应用中，可以通过以下公式(6)确定去噪文本图像：

I_n'+1＝I_n'-ε_θ(c,I_n') (6)

其中，I_n'+1表示第n'+1步的去噪文本图像，I_n'表示第n'步的去噪文本图像，c表示视觉特征、语义特征、风格特征的不同组合设置，也即不同生成条件对应的图像特征，ε_θ表示UNet网络的参数。

本说明书一个或多个实施例所提供的文本图像生成方法，可以应用于不同的文本图像生成场景，如涵盖各式各样的街景背景和字体的自然场景文本识别、具有因人而异的书写风格的手写体场景。还可以应用于中文文本生成、古籍文本生成、错别字生成等各种类型或语种的文本图像生成领域。并且，由于文本图像生成方法可以生成指定作者风格的图像，因此还可以应用于签名鉴别或者作者识别领域，即根据图像分类出相应的作者。

下述结合附图5，以本说明书提供的文本图像生成方法在手写场景的应用为例，对所述文本图像生成方法进行进一步说明。其中，图5示出了本说明书一个实施例提供的一种手写文本图像生成方法的流程图，具体包括以下步骤：

步骤502：接收用户发送的手写文本图像生成请求，其中，手写文本图像生成请求携带初始图像和初始图像的初始风格信息。

步骤504：将初始图像和初始风格信息输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征。

步骤506：将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征、样本语义特征和样本风格特征。

步骤508：根据初始图像和噪声数据，生成初始图像对应的目标手写文本图像。

步骤510：向用户发送初始图像对应的目标手写文本图像。

需要说明的是，初始图像可以是包括手写文本内容的初始手写文本图像，还可以是携带初始文本信息的初始噪声图像，其中，初始噪声图像中不包括文本内容。步骤502至步骤508的具体实现方式，与上述步骤202至步骤208的具体实现方式相同，本说明书实施例便不再进行赘述。

应用本说明书实施例的方案，由于训练扩散生成模型时引入了样本噪声，从而基于样本噪声可以生成无限个噪声样本图像，扩充了扩散生成模型的训练数据，使得训练及推理过程十分简单且稳定。并且，由于本方案的生成目标是文本图像，文本图像更加注重文字的细节而不是整体，例如需要生成有意义的字符而不是无意义的符号，因此，本方案引入了视觉特征、语义特征和风格特征三种与文本图像高度相关的先验知识，有效编码了文本图像字符间独特的上下文信息和纹理特征，加强了文本图像的表征，使生成的文本图像具有杰出的有效性、保真性和多样性。此外，在手写文本图像生成过程引入风格信息对手写文本图像的风格进行控制，无需采集各式各样的字体和背景素材以及人工设计合成规则，可以生成多样的手写文本图像，显著提升了所生成的目标手写文本图像的质量。

参见图6，图6示出了本说明书一个实施例提供的一种手写场景下生成的文本图像的示意图。利用图2所提供的文本图像生成方法，分别对手写文本“accept”、“concert”、“Macmillan”、“conference”、“treatments”、“waxed”和各文本对应的初始图像进行处理，可以生成合成生成条件、增广生成条件、复原生成条件和模仿生成条件下各初始图像对应的两个目标文本图像，具体如图6所示。

参见图7，图7示出了本说明书一个实施例提供的一种自然场景下生成的文本图像的示意图。利用图2所提供的文本图像生成方法，分别对自然场景下的文本“ACHIEVED”、“Cellular”、“jacket”、“easylake”、“No entry”、“Share”和各文本对应的初始图像进行处理，可以生成合成生成条件、增广生成条件和复原生成条件下各初始图像对应的三个目标文本图像，具体如图7所示。

参见图8，图8示出了本说明书一个实施例提供的一种扩散生成模型训练方法的流程图，该扩散生成模型训练方法应用于云侧设备，具体包括以下步骤：

步骤802：获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征，样本图像特征包括样本视觉特征和样本语义特征中的至少一种。

步骤804：从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个。

步骤806：对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像。

步骤808：将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声。

步骤810：根据第一样本噪声和第一预测噪声，计算噪声损失值。

步骤812：根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数。

步骤814：向端侧设备发送扩散生成模型的模型参数。

需要说明的是，步骤802至步骤814与上述步骤202至步骤208的实现方式相同，本说明书实施例便不再进行赘述。

实际应用中，云侧设备向端侧设备发送扩散生成模型的模型参数之后，端侧设备可以根据扩散生成模型的模型参数在本地构建扩散生成模型，进一步利用扩散生成模型生成文本图像。

与上述方法实施例相对应，本说明书还提供了文本图像生成装置实施例，图9示出了本说明书一个实施例提供的一种文本图像生成装置的结构示意图。如图9所示，该装置包括：

第一获取模块902，被配置为获取初始图像；

第一输入模块904，被配置为将初始图像输入条件编码器，获得初始图像的图像特征；

第二输入模块906，被配置为将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

第一生成模块908，被配置为根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

可选地，第一输入模块904，进一步被配置为获取初始图像对应的至少一个生成条件，其中，生成条件为合成生成条件或者增广生成条件或者复原生成条件或者模仿生成条件，合成生成条件对应的图像特征为语义特征，增广生成条件对应的图像特征为视觉特征，复原生成条件对应的图像特征为视觉特征和语义特征，模仿生成条件对应的图像特征为视觉特征、语义特征和风格特征；将初始图像输入条件编码器，获得至少一个生成条件对应的图像特征。

可选地，条件编码器包括文本识别编码器，图像特征包括视觉特征；第一输入模块904，进一步被配置为将初始图像输入文本识别编码器，获得初始图像的初始视觉特征，并基于初始视觉特征，获得初始图像的图像块索引；对图像块索引进行嵌入编码，获得初始图像的嵌入视觉特征；对初始视觉特征和嵌入视觉特征进行池化处理，获得初始图像的视觉特征。

可选地，初始图像携带初始文本信息，条件编码器包括文本识别分类器，图像特征包括语义特征；第一输入模块904，进一步被配置为将初始文本信息输入文本识别分类器，获得初始图像的语义特征，其中，语义特征为文本识别分类器对初始文本序列处理得到，初始文本序列为文本识别分类器对初始文本信息的编码特征处理得到。

可选地，初始图像携带初始风格信息，条件编码器包括风格编码器，图像特征包括风格特征；第一输入模块904，进一步被配置为将初始风格信息输入风格编码器，获得初始图像的风格特征。

可选地，第二输入模块906，进一步被配置为将初始图像和至少一个生成条件对应的图像特征输入扩散生成模型，获得各生成条件下初始图像对应的噪声数据。

可选地，目标文本图像包括第一目标文本图像和第二目标文本图像；第一生成模块908，进一步被配置为根据初始图像和噪声数据，生成初始图像对应的第一目标文本图像；将第一目标文本图像作为更新后的初始图像，并返回执行将初始图像输入条件编码器，获得初始图像的图像特征的步骤，生成初始图像对应的第二目标文本图像。

可选地，该装置还包括：文本图像生成需求信息接收模块，被配置为接收用户发送的文本图像生成需求信息；在目标文本图像不满足图像生成需求信息的情况下，将目标文本图像作为更新后的初始图像，并返回执行将初始图像输入条件编码器，获得初始图像的图像特征的步骤，直至目标文本图像满足图像生成需求信息，获得更新后的目标文本图像。

可选地，条件编码器包括文本识别编码器和文本识别分类器，该装置还包括：条件编码器训练模块，被配置为获取训练集，其中，训练集包括多个训练文本图像，训练文本图像携带分类标签；从训练集中提取第一训练文本图像，其中，第一训练文本图像为多个训练文本图像中的任一个；将第一训练文本图像输入文本识别编码器，并将文本识别编码器的输出作为文本识别分类器的输入，获得第一训练文本图像的第一预测分类结果；根据第一预测分类结果和第一训练文本图像携带的第一分类标签，计算编码损失值；根据编码损失值调整文本识别编码器和文本识别分类器的参数，并返回执行从训练集中提取第一训练文本图像的步骤，直至达到第一预设停止条件，获得训练完成的条件编码器。

可选地，该装置还包括：扩散生成模型训练模块，被配置为获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征；从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个；对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；根据第一样本噪声和第一预测噪声，计算噪声损失值；根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型。

上述为本实施例的一种文本图像生成装置的示意性方案。需要说明的是，该文本图像生成装置的技术方案与上述的文本图像生成方法的技术方案属于同一构思，文本图像生成装置的技术方案未详细描述的细节内容，均可以参见上述文本图像生成方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了手写文本图像生成装置实施例，图10示出了本说明书一个实施例提供的一种手写文本图像生成装置的结构示意图。如图10所示，该装置包括：

接收模块1002，被配置为接收用户发送的手写文本图像生成请求，其中，手写文本图像生成请求携带初始图像和初始图像的初始风格信息；

第三输入模块1004，被配置为将初始图像和初始风格信息输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征；

第四输入模块1006，被配置为将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征、样本语义特征和样本风格特征；

第二生成模块1008，被配置为根据初始图像和噪声数据，生成初始图像对应的目标手写文本图像；

第一发送模块1010，被配置为向用户发送初始图像对应的目标手写文本图像。

上述为本实施例的一种手写文本图像生成装置的示意性方案。需要说明的是，该手写文本图像生成装置的技术方案与上述的手写文本图像生成方法的技术方案属于同一构思，手写文本图像生成装置的技术方案未详细描述的细节内容，均可以参见上述手写文本图像生成方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了扩散生成模型训练装置实施例，图11示出了本说明书一个实施例提供的一种扩散生成模型训练装置的结构示意图。如图11所示，该装置应用于云侧设备，包括：

第二获取模块1102，被配置为获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

提取模块1104，被配置为从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个；

添加模块1106，被配置为对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；

第五输入模块1108，被配置为将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；

计算模块1110，被配置为根据第一样本噪声和第一预测噪声，计算噪声损失值；

调整模块1112，被配置为根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数；

第二发送模块1114，被配置为向端侧设备发送扩散生成模型的模型参数。

上述为本实施例的一种扩散生成模型训练装置的示意性方案。需要说明的是，该扩散生成模型训练装置的技术方案与上述的扩散生成模型训练方法的技术方案属于同一构思，扩散生成模型训练装置的技术方案未详细描述的细节内容，均可以参见上述扩散生成模型训练方法的技术方案的描述。

图12示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接，数据库1250用于保存数据。

计算设备1200还包括接入设备1240，接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，NetworkInterface Card))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX，World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near Field Communication)接口，等等。

在本说明书的一个实施例中，计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

其中，处理器1220用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本图像生成方法或者手写文本图像生成方法或者扩散生成模型训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本图像生成方法和手写文本图像生成方法和扩散生成模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本图像生成方法或者手写文本图像生成方法或者扩散生成模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本图像生成方法或者手写文本图像生成方法或者扩散生成模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本图像生成方法和手写文本图像生成方法和扩散生成模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本图像生成方法或者手写文本图像生成方法或者扩散生成模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本图像生成方法或者手写文本图像生成方法或者扩散生成模型训练方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本图像生成方法和手写文本图像生成方法和扩散生成模型训练方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本图像生成方法或者手写文本图像生成方法或者扩散生成模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本图像生成方法，包括：

获取初始图像；

将所述初始图像输入条件编码器，获得所述初始图像的图像特征；

将所述初始图像和所述图像特征输入扩散生成模型，获得所述初始图像对应的噪声数据，其中，所述扩散生成模型基于样本文本图像、所述样本文本图像的样本图像特征和噪声样本图像训练得到，所述噪声样本图像是对所述样本文本图像添加样本噪声得到，所述样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标文本图像。

2.根据权利要求1所述的方法，所述将所述初始图像输入条件编码器，获得所述初始图像的图像特征，包括：

获取所述初始图像对应的至少一个生成条件，其中，所述生成条件为合成生成条件或者增广生成条件或者复原生成条件或者模仿生成条件，所述合成生成条件对应的图像特征为语义特征，所述增广生成条件对应的图像特征为视觉特征，所述复原生成条件对应的图像特征为视觉特征和语义特征，所述模仿生成条件对应的图像特征为视觉特征、语义特征和风格特征；

将所述初始图像输入条件编码器，获得所述至少一个生成条件对应的图像特征。

3.根据权利要求2所述的方法，所述条件编码器包括文本识别编码器，所述图像特征包括视觉特征；

所述将所述初始图像输入条件编码器，获得所述至少一个生成条件对应的图像特征，包括：

将所述初始图像输入所述文本识别编码器，获得所述初始图像的初始视觉特征，并基于所述初始视觉特征，获得所述初始图像的图像块索引；

对所述图像块索引进行嵌入编码，获得所述初始图像的嵌入视觉特征；

对所述初始视觉特征和所述嵌入视觉特征进行池化处理，获得所述初始图像的视觉特征。

4.根据权利要求2所述的方法，所述初始图像携带初始文本信息，所述条件编码器包括文本识别分类器，所述图像特征包括语义特征；

将所述初始文本信息输入所述文本识别分类器，获得所述初始图像的语义特征，其中，所述语义特征为所述文本识别分类器对初始文本序列处理得到，所述初始文本序列为所述文本识别分类器对所述初始文本信息的编码特征处理得到。

5.根据权利要求2所述的方法，所述初始图像携带初始风格信息，所述条件编码器包括风格编码器，所述图像特征包括风格特征；

将所述初始风格信息输入所述风格编码器，获得所述初始图像的风格特征。

6.根据权利要求2所述的方法，所述将所述初始图像和所述图像特征输入扩散生成模型，获得所述初始图像对应的噪声数据，包括：

将所述初始图像和所述至少一个生成条件对应的图像特征输入扩散生成模型，获得各生成条件下所述初始图像对应的噪声数据。

7.根据权利要求1所述的方法，所述目标文本图像包括第一目标文本图像和第二目标文本图像；

所述根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标文本图像，包括：

根据所述初始图像和所述噪声数据，生成所述初始图像对应的第一目标文本图像；

将所述第一目标文本图像作为更新后的初始图像，并返回执行所述将所述初始图像输入条件编码器，获得所述初始图像的图像特征的步骤，生成所述初始图像对应的第二目标文本图像。

8.根据权利要求1所述的方法，所述根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标文本图像之后，还包括：

接收用户发送的文本图像生成需求信息；

在目标文本图像不满足所述图像生成需求信息的情况下，将所述目标文本图像作为更新后的初始图像，并返回执行所述将所述初始图像输入条件编码器，获得所述初始图像的图像特征的步骤，直至目标文本图像满足所述图像生成需求信息，获得更新后的目标文本图像。

9.根据权利要求1所述的方法，所述条件编码器包括文本识别编码器和文本识别分类器，所述条件编码器的训练方式，包括：

获取训练集，其中，所述训练集包括多个训练文本图像，所述训练文本图像携带分类标签；

从所述训练集中提取第一训练文本图像，其中，所述第一训练文本图像为所述多个训练文本图像中的任一个；

将所述第一训练文本图像输入所述文本识别编码器，并将所述文本识别编码器的输出作为所述文本识别分类器的输入，获得所述第一训练文本图像的第一预测分类结果；

根据所述第一预测分类结果和所述第一训练文本图像携带的第一分类标签，计算编码损失值；

根据所述编码损失值调整所述文本识别编码器和所述文本识别分类器的参数，并返回执行所述从所述训练集中提取第一训练文本图像的步骤，直至达到第一预设停止条件，获得训练完成的条件编码器。

10.根据权利要求1所述的方法，所述扩散生成模型的训练方式，包括：

获取样本集，其中，所述样本集包括多个样本文本图像，所述样本文本图像携带样本图像特征；

从所述样本集中提取第一样本文本图像，其中，所述第一样本文本图像为所述多个样本文本图像中的任一个；

对所述第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；

将所述第一噪声样本图像和所述第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；

根据所述第一样本噪声和所述第一预测噪声，计算噪声损失值；

根据所述噪声损失值调整所述扩散生成模型的模型参数，并返回执行所述从所述样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型。

11.一种手写文本图像生成方法，包括：

接收用户发送的手写文本图像生成请求，其中，所述手写文本图像生成请求携带初始图像和所述初始图像的初始风格信息；

将所述初始图像和所述初始风格信息输入条件编码器，获得所述初始图像的视觉特征、语义特征和风格特征；

将所述初始图像、所述视觉特征、所述语义特征和所述风格特征输入扩散生成模型，获得所述初始图像对应的噪声数据，其中，所述扩散生成模型基于样本文本图像、所述样本文本图像的样本图像特征和噪声样本图像训练得到，所述噪声样本图像是对所述样本文本图像添加样本噪声得到，所述样本图像特征包括样本视觉特征、样本语义特征和样本风格特征；

根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标手写文本图像；

向所述用户发送所述初始图像对应的目标手写文本图像。

12.一种扩散生成模型训练方法，应用于云侧设备，包括：

获取样本集，其中，所述样本集包括多个样本文本图像，所述样本文本图像携带样本图像特征，所述样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

根据所述噪声损失值调整所述扩散生成模型的模型参数，并返回执行所述从所述样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数；

向端侧设备发送所述扩散生成模型的模型参数。

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项或者权利要求11或者权利要求12所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项或者权利要求11或者权利要求12所述方法的步骤。