CN116543076B

CN116543076B - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN116543076B
Application number: CN202310825490.8A
Authority: CN
Inventors: 张韵璇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2024-04-05
Anticipated expiration: 2043-07-06
Also published as: CN116543076A

Abstract

本发明公开了一种图像处理方法、装置、电子设备及存储介质，该方法包括获取待处理图像、待处理文本信息以及字形图像，待处理文本信息包括目标文本信息，目标文本信息为待处理文本信息中至少部分文本信息，字形图像包括目标字体形状，字形图像用于定义目标文本信息的字体形状，将待处理图像作为输入数据，将待处理文本信息以及字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，得到含有目标文本信息的目标文本图像，目标文本图像中包括目标文本信息，目标文本信息在目标文本图像中的字体形状为目标字体形状。采用本发明实施例，能够实现在图像中自动添加合适字体的目的，从而提高对图像添加文字的效率。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

在相关技术中，对图像添加文字的方式主要是通过人工参与完成的。例如利用手机软件给图像添加文字时，都是需要人工选定相应的字体形状，从而才能完成对图像添加文字的目的。

因此，相关技术中对图像添加文字的方式无法实现自动添加合适字体的目的，从而导致对图像添加文字的效率低的技术问题。

发明内容

本发明实施例的目的是提供一种图像处理方法、装置、电子设备及存储介质，以解决对图像添加文字的效率低的技术问题。

第一方面，本发明实施例提供了一种图像处理方法，包括：

获取待处理图像、待处理文本信息以及字形图像，所述待处理文本信息包括目标文本信息，所述目标文本信息为所述待处理文本信息中至少部分文本信息，所述字形图像包括目标字体形状，所述字形图像用于定义所述目标文本信息的字体形状；

将所述待处理图像作为输入数据，将所述待处理文本信息以及所述字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，得到含有目标文本信息的目标文本图像；

其中，所述目标文本图像中包括所述目标文本信息，所述目标文本信息在所述目标文本图像中的字体形状为所述目标字体形状。

第二方面，本发明实施例提供了一种图像处理装置，包括：

第一获取模块，用于获取待处理图像、待处理文本信息以及字形图像，所述待处理文本信息包括目标文本信息，所述目标文本信息为所述待处理文本信息中至少部分文本信息，所述字形图像包括目标字体形状，所述字形图像用于定义所述目标文本信息的字体形状；

生成模块，用于将所述待处理图像作为输入数据，将所述待处理文本信息以及所述字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，得到含有目标文本信息的目标文本图像；

在一些实施例中，所述训练后的图像生成模型包括自编码子模型、图文编码子模型以及特征融合子模型，所述自编码子模型包括编码器模块和解码器模块；

所述生成模块，包括：第一编码单元、第二编码单元、第一确定单元、融合单元以及解码单元；

所述第一编码单元，用于将所述待处理图像输入至所述编码器模块中进行第一编码处理，得到第一图像向量；

所述第二编码单元，用于将所述待处理文本信息和所述字形图像输入至所述图文编码子模型中进行第二编码处理，得到第一文本向量和第二图像向量；

所述第一确定单元，用于根据所述第一图像向量确定所述特征融合子模型的输入数据，并将所述第一文本向量和所述第二图像向量作为所述特征融合子模型的条件特征数据；

所述融合单元，用于将所述输入数据和所述条件特征数据输入至所述特征融合子模型中进行特征融合处理，得到目标特征向量；

所述解码单元，用于将所述目标特征向量输入至所述解码器模块中进行解码处理，得到含有目标文本信息的目标文本图像。

在一些实施例中，所述特征融合子模型包括交叉注意力模块；

所述融合单元，具体用于：将所述输入数据输入至所述特征融合子模型中进行卷积处理，得到卷积特征；将所述条件特征数据映射到所述卷积处理的过程中，得到所述条件特征数据对应的中间表示向量；将所述中间表示向量作为交叉注意力计算的键值，并根据所述交叉注意力模块对所述卷积特征和所述条件特征数据进行所述交叉注意力计算，得到目标特征向量。

在一些实施例中，所述融合单元，具体还用于：将所述中间表示向量作为交叉注意力计算的键值，并根据所述交叉注意力模块对所述卷积特征和所述条件特征数据进行所述交叉注意力计算，得到初始特征向量；对所述初始特征向量进行降噪处理，得到目标特征向量。

在一些实施例中，所述训练后的图像生成模型还包括文本掩码预测子模型；

本实施例提供的生成模块，还包括：预测单元、第二确定单元以及第三编码单元；

所述预测单元，用于将所述待处理图像输入至所述文本掩码预测子模型中进行预测处理，得到所述待处理图像中可添加文本信息的预测位置；

所述第二确定单元，用于根据所述预测位置，确定所述待处理图像的文本掩码图像；

所述第三编码单元，用于将所述文本掩码图像输入至所述编码器模块中进行第一编码处理，得到掩码图像向量；

所述第一确定单元，具体用于：对所述第一图像向量和所述掩码图像向量进行拼接处理，得到拼接向量；将所述拼接向量确定为所述特征融合子模型的输入数据。

在一些实施例中，本实施例提供的图像处理装置，还包括：第二获取模块以及训练模块；

所述第二获取模块，用于获取训练数据集，所述训练数据集包括训练文本图像、训练文本信息、训练字形图像以及标注文本图像，所述标注文本图像为所述训练文本图像添加预设文本信息后的图像，所述预设文本信息为所述训练文本信息中至少部分文本信息，所述标注文本图像中的训练文本信息的字体形状为所述训练字形图像对应的字体形状；

所述训练模块，用于通过所述训练数据集对待训练的图像生成模型进行训练直至模型收敛，得到训练后的图像生成模型。

在一些实施例中，所述训练模块，包括：训练单元、第三确定单元以及第四确定单元；

所述训练单元，用于将所述训练文本图像、所述训练文本信息、所述训练字形图像输入至待训练的图像生成模型进行训练，得到所述待训练的图像生成模型生成的输出文本图像；

所述第三确定单元，用于根据预设的损失函数、所述输出文本图像以及所述标注文本图像，确定所述待训练的图像生成模型的训练过程的损失函数值；

所述第四确定单元，用于在所述损失函数值满足预设的阈值的情况下，确定所述待训练的图像生成模型收敛，得到训练后的图像生成模型。

第三方面，本发明实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的图像处理方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的图像处理方法中的步骤。

本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质，该方法通过将待处理图像作为输入数据，将待处理文本信息以及字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，能够将条件特征数据作为图像生成处理过程的控制信息，从而实现对图像生成模型的图像生成处理过程进行控制，使图像生成模型输出的目标文本图像中包括目标文本信息，且目标文本信息在目标文本图像中的字体形状为目标字体形状，进而实现了在图像中自动添加合适字体的目的，有效的提高了对图像添加文字的效率。

附图说明

图1是本发明实施例提供的图像处理方法的一种流程示意图；

图2是本发明实施例提供的图像处理方法的另一种流程示意图；

图3是本发明实施例提供的CLIP模型的工作原理示意图；

图4是本发明实施例提供的图像生成模型的训练方法的一种流程示意图；

图5是本发明实施例提供的图像处理方法的第三种流程示意图；

图6是本发明实施例提供的图像编码器的一种工作原理图；

图7是本发明实施例提供的自编码子模型的部分结构示意图；

图8是本实施例提供的文本掩码预测子模型的结构示意图；

图9是本发明实施例提供的图像处理装置的一种结构示意图；

图10是本发明实施例提供的电子设备的一种结构示意图；

图11是本发明实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解的是，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本发明实施例主要是基于人工智能AI技术、计算机视觉技术以及机器学习技术，实现本实施例提供的图像处理方法，以下将以具体的实施例对本实施例提供的图像处理方法进行说明。

在一些实施例中，虽然可以预设好需要添加的字体以及字体形状，从而实现对图像自动添加文字的目的。但是这种方式支持的字体有限，并且不能根据图像的图像内容的改变而选择合适的字体以及字体形状，从而影响图像本身的图像质量。

因此，相关技术中主要存在有以下几个技术问题：

（1）、无法根据图像内容自动选择合适的字体；

（2）、无法保证图像的图像质量；

（3）、在图像中添加合适的字体的效率低。

为了解决相关技术中存在的技术问题，本发明实施例提供了一种图像处理方法，请参见图1，图1是本发明实施例提供的图像处理方法的一种流程示意图，该方法包括步骤101至步骤102；

步骤101，获取待处理图像、待处理文本信息以及字形图像。

在本实施例中，本实施例提供的待处理文本信息包括目标文本信息，目标文本信息为待处理文本信息中至少部分文本信息，字形图像包括目标字体形状，字形图像用于定义目标文本信息的字体形状。

其中，待处理图像可以为任意需要添加文字的图像，例如人物像、风景像或表情包图像等图像。本实施例提供的图像的格式可以为jpg、gif、png等格式，在此不作具体限定。

作为可选的实施例，在一种情况下，本实施例提供的待处理文本信息可以为需要添加到待处理图像中的目标文本信息，也即待处理文本信息为本实施例提供的目标文本信息；在另一种情况下，本实施例提供的待处理文本信息还可以为包含有目标文本信息的文本描述信息，该文本描述信息可以为一段提示性的文本信息，以提示将目标文本信息添加到待处理图像中，例如，本实施例提供的提示性的文本信息可以为“将我很开心添加到图像中”的文本信息，以提示将“我很开心”作为目标文本信息添加到待处理图像中。

在一些实施例中，本实施例提供的字形图像可以为包含有至少一种机器能够识别的字体形状，例如，楷体、宋体、艺术字体等字体形状。其中，本实施例提供的字体形状可以由存在字体形状的文本信息来定义，例如字形图像中含有楷体的文本信息，则表征该字形图像的字体形状为楷体的字体形状。具体的，本实施例提供的字形图像可以为一张含有一个或多个字体形状的图像，也可以为多张分别含有一个或多个字体形状的图像，在此不作具体限定。

需要说明的是，本实施例提供的字形图像可以为用户预先确定的字形图形，也可以为从字体图像库中默认的一张或多张图像。其中，字体图像库可以为本地下载好的字体形状构成的字体图像库，也可以为互联网中可下载的字体形状构成的字体图像库。

步骤102，将待处理图像作为输入数据，将待处理文本信息以及字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，得到含有目标文本信息的目标文本图像。

其中，目标文本图像中包括目标文本信息，目标文本信息在目标文本图像中的字体形状为目标字体形状。

在本实施例中，本实施例提供的训练后的图像生成模型可以为一个自编码模型，主要用于对输入数据进行压缩，然后在潜在表示空间上做扩散操作，再通过解码操作恢复到原始像素空间，从而实现本实施例提供的图像生成处理的过程。如此，通过对输入数据进行压缩处理，以忽略掉输入数据中的高频信息，只保留重要、基础的特征，从而实现将高维特征压缩到低维特征，然后在低维空间上对低维特征进行操作，能够大幅降低模型在训练和应用过程的计算复杂度，从而有效提高模型的图像生成处理效率。

作为可选的实施例，本实施例在潜在表示空间上做扩散操作时，需要在扩散操作的过程中引入条件机制，这样即可通过本实施例提供的条件特征数据来控制图像生成模型的图像生成处理过程，从而实现根据条件特征信息控制图像生成处理过程以生成对应目标文本图像的目的。

具体的，本实施例提供的扩散操作可以通过预设的扩散模型来进行，该预设的扩散模型相当于一个生成模型，可以将待处理图像逐渐变换为用户需要的图像。其中，本实施例提供的扩散模型主要是利用待处理文本信息、字形图像作为条件特征数据，以控制扩散模型进行每一步变换的概率分布，从而实现根据条件特征数据指导待处理图像向目标文本图像收敛，并保持图像的清晰度和连贯性。

综上，本发明公开了一种图像处理方法，该方法通过将待处理图像作为输入数据，将待处理文本信息以及字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，能够将条件特征数据作为图像生成处理过程的控制信息，从而实现对图像生成模型的图像生成处理过程进行控制，使图像生成模型输出的目标文本图像中包括目标文本信息，且目标文本信息在目标文本图像中的字体形状为目标字体形状，进而实现了在图像中自动添加合适字体的目的，有效的提高了对图像添加文字的效率。

在一些实施例中，本发明实施例提供的训练后的图像生成模型包括自编码子模型、图文编码子模型以及特征融合子模型，自编码子模型包括编码器模块和解码器模块。具体的，请参见图2，图2是本发明实施例提供的图像处理方法的另一种流程示意图，如图2所示，本发明实施例提供的图像处理方法，包括步骤201至步骤206；

步骤201，获取待处理图像、待处理文本信息以及字形图像。

步骤202，将待处理图像输入至编码器模块中进行第一编码处理，得到第一图像向量。

在本实施例中，本实施例提供的自编码子模型主要用于将待处理图像的图像特征压缩到低维的潜在表示空间中，从而便于在潜在表示空间上对待处理图像的图像特征做扩散操作，在完成扩散操作之后，再通过解码操作将扩散操作后的低维的图像特征恢复到原始像素空间，从而得到目标文本图像。具体的，本实施例主要是通过编码器模块对待处理图像进行压缩处理，以将待处理图像的图像特征压缩到低维的潜在表示空间中，从而得到低维的第一图像向量。

步骤203，将待处理文本信息和字形图像输入至图文编码子模型中进行第二编码处理，得到第一文本向量和第二图像向量。

在本实施例中，本实施例提供的图文编码子模型主要用于将待处理文本信息和字形图像表示在同一个特征空间中，从而可以将不同类型的数据打通，在一个任务上利用到更多更全面的数据。如此，采用本发明实施例提供的图文编码子模型能够将待处理文本信息和字形图像两种不同类型的数据表示在同一个特征空间，从而不需要额外的将待处理文本信息和字形图像这两种不同类型数据的特征进行对齐操作，便于后续同时将其二者作为条件特征数据，有效的提高了图像生成模型的图像生成处理的生成效率。

具体的，本实施例提供的图文编码子模型可以采用CLIP模型（ContrastiveLanguage–Image Pre-training ），CLIP模型是由OpenAI开源的基于对比学习的大规模图文预训练模型。具体的，请参见图3，图3是本发明实施例提供的CLIP模型的工作原理示意图，如图3所示，本实施例提供的CLIP模型包括有一个文本编码器（Text Encoder）和一个图像编码器（Image Encoder），该文本编码器可以是transformer，该图像编码器可以是resnet50或vision transformer（ViT）等，只要是能够实现文本编码的文本编码器和实现图像编码的图像编码器即可，在此不作具体限定。

其中，本实施例提供的CLIP模型可以是通过无监督的对比学习进行预训练得到的，从而实现将文本和图像联系起来。如此，采用本发明实施例提供的CLIP模型，能够将待处理文本信息和字形图像表示在同一个特征空间中，也即得到同一特征空间的第一文本向量和第二图像向量。

具体的，本实施例提供的CLIP模型的预训练过程主要是优化图3所示的矩阵，使矩阵中对角线上的值（I₁T₁、I₂T₂、I₃T₃、……I_NT_N）越大、矩阵中其他地方的值越小，其中，矩阵中的值为第一文本向量和第二图像向量的积。当完成对图3中矩阵的优化后，即可得到预训练后的CLIP模型。

作为可选的实施例，本实施例可以采用预训练的glyph builder（字形生成器）根据待处理图像的图像内容自动选择合适的字体形状，当得到合适的字体形状时，则需要将其转换为机器能够理解的格式，也即需要采用本实施例提供的CLIP模型，将其转换为第二图像向量。其中，预训练的glyph builder可以是采用海量不同图像内容的图像，以及对应的添加好合适字体形状字体的标记图像，训练得到的，该glyph builder的训练过程可参照后续的模型训练过程。

步骤204，根据第一图像向量确定特征融合子模型的输入数据，并将第一文本向量和第二图像向量作为特征融合子模型的条件特征数据。

在本实施例中，由于通过本实施例提供的CLIP模型可以将待处理文本信息和字形图像表示在同一个特征空间中，也即第一文本向量和第二图像向量是处于同一个特征空间中的表示，因此，可以不用进行额外的对齐操作，即可直接将第一文本向量和第二图像向量同时作为特征融合子模型的条件特征数据，有效的提高了图像生成模型的图像生成处理的生成效率。

步骤205，将输入数据和条件特征数据输入至特征融合子模型中进行特征融合处理，得到目标特征向量。

在本实施例中，本实施例提供的特征融合子模型主要用于对输入数据进行卷积处理的过程中引入条件特征数据，从而实现细粒度的扩散控制，最终得以生成带有目标文本信息的目标文本图像对应的目标特征向量。

作为可选的实施例，本实施例提供的特征融合子模型包括交叉注意力模块。具体的，本实施例提供的将输入数据和条件特征数据输入至特征融合子模型中进行特征融合处理，得到目标特征向量的步骤，可以为：将输入数据输入至特征融合子模型中进行卷积处理，得到卷积特征；将条件特征数据映射到卷积处理的过程中，得到条件特征数据对应的中间表示向量；将中间表示向量作为交叉注意力计算的键值，并根据交叉注意力模块对卷积特征和条件特征数据进行交叉注意力计算，得到目标特征向量。

在一些实施例中，本实施例提供的特征融合子模型可以为UNet卷积神经网络模型，该UNet卷积神经网络模型包括交叉注意力模块。因此，步骤205具体可以为：通过UNet卷积神经网络模型对输入数据进行卷积处理，得到输入数据的卷积特征，然后将条件特征数据映射到输入数据的卷积处理过程中，具体的，可以通过引入一个特定编码器，该编码器能够将条件特征数据映射到输入数据的卷积处理过程中，从而实现将条件特征数据映射为一个中间表示向量。之后，将该中间表示向量作为交叉注意力模块进行交叉注意力计算的键值，并通过交叉注意力模块映射将中间表示向量融入到UNet卷积神经网络模型的卷积处理过程中，从而实现对卷积特征和条件特征数据进行交叉注意力计算，得到目标特征向量。

具体的，本实施例提供的交叉注意力计算的过程如下：

其中，Q为输入数据的嵌入序列，K和V为交叉注意力计算的键值，、/>以及/>为交叉注意力模块中的模型参数，该模型参数为预训练得到的，/>是UNet卷积神经网络模型的一个中间表示向量，/>是条件特征数据对应的中间表示向量。

可选的，为了得到分辨率更高的目标文本图像，本实施提供的将中间表示向量作为交叉注意力计算的键值，并根据交叉注意力模块对卷积特征和条件特征数据进行交叉注意力计算，得到目标特征向量的步骤，可以为：将中间表示向量作为交叉注意力计算的键值，并根据交叉注意力模块对卷积特征和条件特征数据进行交叉注意力计算，得到初始特征向量；对初始特征向量进行降噪处理，得到目标特征向量。

通过在潜在空间中对UNet卷积神经网络模型输出的初始特征向量进行降噪处理，能够提高降噪处理的降噪效率，从而有效提高最终得到的目标文本图像的分辨率，保证了目标文本图像的图像质量。

具体的，本实施例提供的降噪处理的过程可以为一次或多次，可选的，本实施例可以对初始特征向量进行20次降噪处理，从而进一步的提高最终得到的目标文本图像的分辨率。

步骤206，将目标特征向量输入至解码器模块中进行解码处理，得到含有目标文本信息的目标文本图像。

在本实施例中，在得到目标特征向量后，即可通过本实施例提供的自编码子模型的解码器模块，对目标特征向量进行解码处理，从而将低维的潜在空间中的目标特征向量恢复到原始像素空间，得到含有目标文本信息的目标文本图像。

其中，本实施例提供的目标文本图像中的目标文本信息的字体形状为目标字体形状，且目标文本信息的字体大小是根据目标文本图像的图像内容进行自适应调整的。具体的，图像生成模型根据图像内容进行自适应选择目标文本信息的字体大小，以及自适应选择目标文本信息的目标字体形状，是通过图像生成模型在训练的过程中学习到的，因此，只要采用特定的标注数据和训练数据对图像生成模型进行训练，即可使得图像生成模型具备根据图像内容进行自适应选择目标文本信息的字体大小，以及自适应选择目标文本信息的目标字体形状的能力。

在一些实施例中，为了实现在待处理图像中合适的位置添加目标文本信息，本实施例提供的训练后的图像生成模型还包括文本掩码预测子模型。因此，在本实施例提供的根据第一图像向量确定特征融合子模型的输入数据的步骤之前，本实施例提供的图像处理方法还可以包括：将待处理图像输入至文本掩码预测子模型中进行预测处理，得到待处理图像中可添加文本信息的预测位置；根据预测位置，确定待处理图像的文本掩码图像；将文本掩码图像输入至编码器模块中进行第一编码处理，得到掩码图像向量。

如此，通过本实施例提供的文本掩码预测子模型对待处理图像进行预测处理，能够得到待处理图像中可添加文本信息的预测位置，该预测位置为待处理图像中可添加目标文本信息的合适的位置。

在本实施例中，本实施例提供的文本掩码预测子模型为一个目标识别模型，主要用于识别图像中特定类型的区域并进行标记。因此，可以采用在特定类型区域进行标记的标记数据以及对应的训练数据，对目标识别模型进行训练，即可得到能够识别出待处理图像中可添加文本信息的预测位置的文本掩码预测子模型。

具体的，在一种情况下，本实施例提供的特定类型的区域可以为空白区域，即不存在人物对象或物体对象的区域；在另一种情况下，本实施例提供的特定类型的区域可以为含有目标对象的区域，该目标对象可以为人物对象或物体对象，物体对象可以为某个特定物体，也可以为含有某个特征的物体如含有字体的物体。如此，通过本实施例提供的特定类型的区域去标注生成大量的标注数据，即可使采用这些标注数据进行训练的文本掩码预测子模型，具备识别出待处理图像中可添加文本信息的预测位置的能力。

在一些实施例中，在识别出待处理图像中的预测位置之后，即可根据预测位置，生成待处理图像对应的文本掩码图像。具体的，当本实施例提供的特定类型的区域为含有字体的区域时，则本实施例还可以直接采用掩码预测模型，如MLP（Multi-Layer Perceptron，多层感知机制）模型来感知并估计待处理图像对应的文本掩码图像。具体的，在MLP模型中可以使用BTS（Bilingual Text Segmentation，双语文本分割）模型中的DBnet检测模块，该DBnet检测模块用于突出显示可能包含文本的区域，即需要预测的文字添加区域，从而有效提高预测文本掩码图像的预测效率。

作为可选的实施例，本实施例提供的文本掩码预测子模型还可以采用DETR（End-to-End Object Detection with Transformers，端到端对象检测）模型来对待处理图像中含有文本的区域进行预测，如此，可以复用本实施例提供的编码器模块，使得本实施例提供的编码器模块能够更加充分的解码出图片的信息，并且，由于对待处理图像中含有文本的区域预测的部分是在低维的潜在空间上操作的，因此，相比较于直接在高维的像素维度上对待处理图像进行文本区域预测处理，本实施例能够有效的提高对待处理图像进行文本区域预测处理的预测效率。

在得到待处理图像对应的文本掩码图像之后，采用本实施例提供的自编码子模型中的编码器模块对文本掩码图像进行第一编码处理，从而可以得到与第一图像向量处于相同的潜在空间的掩码图像向量，便于后续将第一图像向量和掩码图像向量进行结合。具体的，本实施例提供的根据第一图像向量确定特征融合子模型的输入数据的步骤，具体为：对第一图像向量和掩码图像向量进行拼接处理，得到拼接向量；将拼接向量确定为特征融合子模型的输入数据。

其中，通过将第一图像向量和掩码图像向量进行拼接处理，本实施例的图像生成模型可以在进行图像生成处理的过程中，只对文本掩码图像指定的区域进行文本添加处理，有效的保证目标文本信息不会添加到待处理图像中的其他位置，避免出现遮挡待处理图像中主要的人或物的情况发生，有效的提高了最终得到的目标文本图像的图像质量。

在一些实施例中，本发明实施例还提供的图像生成模型的训练方法，具体的，请参见图4，图4是本发明实施例提供的图像生成模型的训练方法的一种流程示意图，如图4所示，本实施例提供的图像生成模型的训练方法包括步骤401至步骤404；

步骤401，获取训练数据集，训练数据集包括训练文本图像、训练文本信息、训练字形图像以及标注文本图像。

其中，本实施例提供的标注文本图像为训练文本图像添加预设文本信息后的图像，预设文本信息为训练文本信息中至少部分文本信息，标注文本图像中的训练文本信息的字体形状为训练字形图像对应的字体形状。

在本实施例中，本实施例提供的训练数据集中的训练文本图像、训练文本信息、训练字形图像以及标注文本图像的数量均是海量的，例如分别为10000份、100000份等数量越多越好。

作为可选的实施例，为了实现使本实施例提供的图像生成模型具备根据图像内容进行自适应选择目标文本信息的字体大小，以及自适应选择目标文本信息的目标字体形状的能力，本实施例提供的标注文本图像需要根据图像内容设置图像中的训练文本信息的字体大小以及字体形状。例如，在训练文本图像中想要添加训练文本信息的区域为空白区域，且该空白区域在训练文本图像中的占比大于预设比例值，如20%，则设置训练文本图像对应的标注文本图像中的训练文本信息的字体大小为大型字体；若空白区域在训练文本图像中的占比小于20%，则设置训练文本图像对应的标注文本图像中的训练文本信息的字体大小为小型字体。若训练文本图像的图像类型为风景类型的图像，则设置训练文本图像对应的标注文本图像中的训练文本信息的字体形状可以为艺术字体。

需要说明的是，设置训练文本图像对应的标注文本图像中的训练文本信息的字体大小，以及设置训练文本图像对应的标注文本图像中的训练文本信息的字体形状，可以根据用户的文字添加习惯进行设置，其对应的判断标准如预设比例值、图像类型均可以自定义设置，在此不做限定。

在本实施例中，在得到根据图像内容设置好图像中的训练文本信息的字体大小以及字体形状的标注文本图像后，即可采用该标注文本图像以及训练文本图像、训练文本信息，以及训练字形图像，对待训练的图像生成模型进行训练直至模型收敛，得到训练后的图像生成模型。

其中，在一种情况下，可以预设训练次数，如50000次，当对待训练的图像生成模型进行50000次训练后，即可判定待训练的图像生成模型收敛。

在另一种情况下，可以基于预设的损失函数计算每次训练的损失函数值，当存在损失函数值达到预设的阈值后，即可判定待训练的图像生成模型收敛。如此即可得到训练后的图像生成模型。具体的，本实施例提供的对待训练的图像生成模型进行训练直至模型收敛，得到训练后的图像生成模型的步骤，可以包括步骤402至步骤404，具体如下：

步骤402，将训练文本图像、训练文本信息、训练字形图像输入至待训练的图像生成模型进行训练，得到待训练的图像生成模型生成的输出文本图像。

步骤403，根据预设的损失函数、输出文本图像以及标注文本图像，确定待训练的图像生成模型的训练过程的损失函数值。

在本实施例中，本实施例提供的待训练的图像生成模型可以为潜在扩散模型（Latent Diffusion Models，LDM），因此，本实施例提供的预设的损失函数可以为：

其中，x为训练文本图像，y为条件特征数据（训练文本信息和训练字形图像的拼接向量）在低维的潜在空间中的向量表示，为标注文本图像的图像特征向量，/>为UNet卷积神经网络模型输出的目标特征向量，t为时序，且t=1……T，z=/>为将训练文本图像压缩到低维的潜在空间中的向量表示向量，/>为条件特征数据（训练文本信息和训练字形图像的拼接向量）在UNet卷积神经网络模型的卷积处理过程的中间表示向量。

步骤404，在损失函数值满足预设的阈值的情况下，确定待训练的图像生成模型收敛，得到训练后的图像生成模型。

根据上述实施例提供损失函数值、以及图像生成模型每次训练过程采用的标注文本图像，输入的输出文本图像，确定图像生成模型每次训练的损失值，当损失值满足预设的阈值，如小于0.02时，即可确定待训练的图像生成模型收敛，从而得到训练后的图像生成模型。具体的，本实施例提供的预设的阈值不仅限于为0.02，还可以为0.01等数值，在此不作具体限定。

为了更好的说明本发明实施例提供的图像处理方法的工作原理，本实施例将以具体的实施例进行说明，请参见图5，图5是本发明实施例提供的图像处理方法的第三种流程示意图，如图5所示，当需要对待处理图像x_0进行文字添加处理时，则需要获取待处理文本信息以及字形图像，如图5所示待处理文本信息为“海边有一个石碑，上面刻着“北戴河””，字形图像为含有字体形状的“爱”字图像，该“爱”字对应的字体形状为目标字体形状。在得到待处理文本信息以及字形图像后，将对待处理文本信息以及字形图像进行第二编码处理，具体的，本实施例提供的待处理文本信息为一个描述性文本信息，其主要用于提示目标文本信息“北戴河”三个字，因此，通过本实施例提供的图文编码子模型对待处理文本信息以及字形图像进行第二编码处理，将得到字形图像的第二图像向量e_g以及目标文本信息的第一文本向量e_t，然后将第二图像向量e_g以及第一文本向量e_t作为UNet卷积神经网络模型的条件特征数据。

请参见图6，图6是本发明实施例提供的图像编码器的一种工作原理图：根据字形图像的宽W和高H，按照从左到右，从上到下的顺序来分割（split）字形图像得到分块Block_i，并将每个分块Block_i中的各个子分块Patch_i进行压平处理（flatten），以将各个多维度的子分块Patch_i转换为一维数组，也即图6中的码本（codebook），然后对子分块Patch_i的码本中的码元进行标记嵌入处理（token embedding）得到序列化的码元嵌入（……X_{t j-1}、X_{t j-}、X_{t j+1}……），并将各码元嵌入结合（concatenate）得到标记嵌入的X_t。然后，将各个子分块Patch_i的标记嵌入X_t、样式嵌入（style embedding）X_s、内容嵌入（content embedding）X_c和五笔嵌入（Wubi embedding）X_w，结合到字形图像经过序列化处理（serialization）得到的编码向量（X₀、X₁……X_i、X_i+1）中对应的编码向量，从而即可完成对字形图像的第二编码处理（图像编码处理），得到字形图像的第二图像向量e_g。

请继续参见图5，在图文编码子模型进行第二编码处理的同时，本实施例提供的自编码子模型以及文本掩码预测子模型，也分别在对待处理图像x_0进行第一编码处理，得到第一图像向量z_t和掩码图像向量。具体的，请参见图7，图7是本发明实施例提供的自编码子模型的部分结构示意图，主要用于对待处理图像x_0进行第一编码处理，该部分结构主要是采用CNN网络作为主干网络（backbone），编码器（encoder）部分采用Transformer编码器。通过CNN网络对待处理图像x_0进行卷积处理得到卷积特征，并将卷积特征降维并flatten，然后送入图7的左半部分所示的结构中，和空间位置编码（positional encoding）一起并行经过多个自注意力分支、正则化和FFN（预测头部），得到Transformer编码器编码生成的一组长度为N的预测目标序列，也即待处理图像x_0的第一图像向量z_t。

请参见图8，图8是本实施例提供的文本掩码预测子模型的结构示意图，本实施例提供的文本掩码预测子模型的解码器（decoder）部分采用Transformer解码器。因此，在得到待处理图像x_0的第一图像向量z_t之后，将第一图像向量z_t输入至图8的左侧部分所示的结构中，也即将第一图像向量z_t输入至transformer解码器中，并行的解码得到输出序列（而不是像机器翻译那样逐个元素输出）。然后将输出序列输入至图8的右侧部分所示的结构中，也即将输出序列输入至预测头（prediction heads）中，以使用共享参数的FFN（由一个具有ReLU激活函数和d维隐藏层的3层感知器和一个线性投影层构成）将输出序列独立解码为包含类别得分和预测框坐标的最终检测结果。其中，本实施例是通过FFN预测框（box）的标准化中心坐标、高度以及宽度，具体的，本实施例提供的FFN主要是对归类（class）好目标对象的框以及无目标对象（no object）的框进行预测。然后线性层使用softmax函数预测类标签，从而能够确定存在目标对象的区域，以此得到待处理图像x_0的掩码图像向量。然后将第一图像向量和掩码图像向量进行拼接处理，得到拼接向量，并将拼接向量作为UNet卷积神经网络模型的输入数据。

在得到UNet卷积神经网络模型的输入数据和条件特征数据后，即可通过UNet卷积神经网络模型中的交叉注意力模块，对输入数据和条件特征数据进行交叉注意力计算，从而得到UNet卷积神经网络模型输出的初始特征向量z_t-1，然后对初始特征向量z_t-1进行降噪处理，得到目标特征向量，并采用自编码子模型对目标特征向量进行解码处理，以生成含有目标文本信息的目标文本图像，目标文本信息在目标文本图像中的字体形状为目标字体形状。

根据上述实施例所描述的方法，本实施例将从图像处理装置的角度进一步进行描述，该图像处理装置具体可以作为独立的实体来实现，也可以集成在电子设备，比如终端中来实现，该终端可以包括手机、平板电脑等。

请参见图9，图9是本发明实施例提供的图像处理装置的一种结构示意图，如图9所示，本发明实施例提供的图像处理装置600，包括：第一获取模块601和生成模块602；

其中，第一获取模块601，用于获取待处理图像、待处理文本信息以及字形图像。

其中，待处理文本信息包括目标文本信息，目标文本信息为待处理文本信息中至少部分文本信息，字形图像包括目标字体形状，字形图像用于定义目标文本信息的字体形状。

生成模块602，用于将待处理图像作为输入数据，将待处理文本信息以及字形图像作为条件特征数据，输入至训练后的图像生成模型中进行图像生成处理，得到含有目标文本信息的目标文本图像。

在一些实施例中，训练后的图像生成模型包括自编码子模型、图文编码子模型以及特征融合子模型，自编码子模型包括编码器模块和解码器模块；

生成模块602，包括：第一编码单元、第二编码单元、第一确定单元、融合单元以及解码单元；

其中，第一编码单元，用于将待处理图像输入至编码器模块中进行第一编码处理，得到第一图像向量。

第二编码单元，用于将待处理文本信息和字形图像输入至图文编码子模型中进行第二编码处理，得到第一文本向量和第二图像向量。

第一确定单元，用于根据第一图像向量确定特征融合子模型的输入数据，并将第一文本向量和第二图像向量作为特征融合子模型的条件特征数据。

融合单元，用于将输入数据和条件特征数据输入至特征融合子模型中进行特征融合处理，得到目标特征向量。

解码单元，用于将目标特征向量输入至解码器模块中进行解码处理，得到含有目标文本信息的目标文本图像。

在一些实施例中，特征融合子模型包括交叉注意力模块，本实施例提供的融合单元，具体用于：将输入数据输入至特征融合子模型中进行卷积处理，得到卷积特征；将条件特征数据映射到卷积处理的过程中，得到条件特征数据对应的中间表示向量；将中间表示向量作为交叉注意力计算的键值，并根据交叉注意力模块对卷积特征和条件特征数据进行交叉注意力计算，得到目标特征向量。

在一些实施例中，本实施例提供的融合单元，具体还用于：将中间表示向量作为交叉注意力计算的键值，并根据交叉注意力模块对卷积特征和条件特征数据进行交叉注意力计算，得到初始特征向量；对初始特征向量进行降噪处理，得到目标特征向量。

在一些实施例中，训练后的图像生成模型还包括文本掩码预测子模型，本实施例提供的生成模块602，还包括：预测单元、第二确定单元以及第三编码单元；

其中，预测单元，用于将待处理图像输入至文本掩码预测子模型中进行预测处理，得到待处理图像中可添加文本信息的预测位置。

第二确定单元，用于根据预测位置，确定待处理图像的文本掩码图像。

第三编码单元，用于将文本掩码图像输入至编码器模块中进行第一编码处理，得到掩码图像向量。

第一确定单元，具体用于：对第一图像向量和掩码图像向量进行拼接处理，得到拼接向量；将拼接向量确定为特征融合子模型的输入数据。

在一些实施例中，请继续参见图6，本实施例提供的图像处理装置600，还包括：第二获取模块603以及训练模块604；

第二获取模块603，用于获取训练数据集，训练数据集包括训练文本图像、训练文本信息、训练字形图像以及标注文本图像，标注文本图像为训练文本图像添加预设文本信息后的图像，预设文本信息为训练文本信息中至少部分文本信息，标注文本图像中的训练文本信息的字体形状为训练字形图像对应的字体形状。

训练模块604，用于通过训练数据集对待训练的图像生成模型进行训练直至模型收敛，得到训练后的图像生成模型。

在一些实施例中，训练模块604，包括：训练单元、第三确定单元以及第四确定单元；

其中，训练单元，用于将训练文本图像、训练文本信息、训练字形图像输入至待训练的图像生成模型进行训练，得到待训练的图像生成模型生成的输出文本图像。

第三确定单元，用于根据预设的损失函数、输出文本图像以及标注文本图像，确定待训练的图像生成模型的训练过程的损失函数值。

第四确定单元，用于在损失函数值满足预设的阈值的情况下，确定待训练的图像生成模型收敛，得到训练后的图像生成模型。

具体实施时，以上各个模块和/或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块和/或单元的具体实施可参见前面的方法实施例，具体可以达到的有益效果也请参看前面的方法实施例中的有益效果，在此不再赘述。

另外，请参见图10，图10是本发明实施例提供的电子设备的一种结构示意图，该电子设备可以是移动终端如智能手机、平板电脑等设备。如图10所示，电子设备700包括处理器701、存储器702。其中，处理器701与存储器702电性连接。

处理器701是电子设备700的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器702内的应用程序，以及调用存储在存储器702内的数据，执行电子设备700的各种功能和处理数据，从而对电子设备700进行整体监测。

在本实施例中，电子设备700中的处理器701会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现上述实施例提供的图像处理方法中的任一步骤。

该电子设备700可以实现本发明实施例所提供的图像处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

请参见图11，图11是本发明实施例提供的电子设备的另一种结构示意图，如图11所示，图11示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的图像处理方法。该电子设备800可以为移动终端如智能手机或笔记本电脑等设备。

RF电路810用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路810可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块（SIM）卡、存储器等等。RF电路810可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统（Global System for Mobile Communication, GSM）、增强型移动通信技术（EnhancedData GSM Environment, EDGE)，宽带码分多址技术（Wideband Code Division MultipleAccess, WCDMA），码分多址技术（Code Division Access, CDMA）、时分多址技术（TimeDivision Multiple Access, TDMA），无线保真技术（Wireless Fidelity， Wi-Fi）（如美国电气和电子工程师协会标准 IEEE 802.11a， IEEE 802.11b, IEEE802.11g 和/或 IEEE802.11n）、网络电话（Voice over Internet Protocol, VoIP）、全球微波互联接入（Worldwide Interoperability for Microwave Access， Wi-Max）、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器820可用于存储软件程序以及模块，如上述实施例中图像处理方法对应的程序指令/模块，处理器880通过运行存储在存储器820内的软件程序以及模块，从而执行各种功能应用以及对图像处理。

存储器820可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器820可进一步包括相对于处理器880远程设置的存储器，这些远程存储器可以通过网络连接至电子设备800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元830可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元830可包括触敏表面831以及其他输入设备832。触敏表面831，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面831上或在触敏表面831附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面831。除了触敏表面831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及电子设备800的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元840可包括显示面板841，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板841。进一步的，触敏表面831可覆盖显示面板841，当触敏表面831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图中，触敏表面831与显示面板841是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面831与显示面板841集成而实现输入和输出功能。

电子设备800还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在翻盖合上或者关闭时产生中断。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于电子设备800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与电子设备800之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一终端，或者将音频数据输出至存储器820以便进一步处理。音频电路860还可能包括耳塞插孔，以提供外设耳机与电子设备800的通信。

电子设备800通过传输模块870（例如Wi-Fi模块）可以帮助用户接收请求、发送信息等，它为用户提供了无线的宽带互联网访问。虽然图中示出了传输模块870，但是可以理解的是，其并不属于电子设备800的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是电子设备800的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行电子设备800的各种功能和处理数据，从而对电子设备进行整体监测。可选的，处理器880可包括一个或多个处理核心；在一些实施例中，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地，上述调制解调处理器也可以不集成到处理器880中。

电子设备800还包括给各个部件供电的电源890（比如电池），在一些实施例中，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源890还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备800还包括摄像头（如前置摄像头、后置摄像头）、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备的显示单元是触摸屏显示器，移动终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序实现上述实施例提供的图像处理方法中的任一步骤。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器执行时实现上述实施例所提供的图像处理方法中的任一步骤。

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的图像处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。并且，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

将所述待处理图像输入至训练后的图像生成模型中的编码器模块中进行第一编码处理，得到第一图像向量；

将所述待处理文本信息和所述字形图像输入至所述图像生成模型中的图文编码子模型中进行第二编码处理，得到第一文本向量和第二图像向量；

将所述待处理图像输入至所述图像生成模型中的文本掩码预测子模型中进行预测处理，得到所述待处理图像中可添加文本信息的预测位置；

根据所述预测位置，确定所述待处理图像的文本掩码图像；

将所述文本掩码图像输入至所述编码器模块中进行第一编码处理，得到掩码图像向量；

对所述第一图像向量和所述掩码图像向量进行拼接处理，得到拼接向量；

将所述拼接向量确定为所述图像生成模型中的特征融合子模型的输入数据，并将所述第一文本向量和所述第二图像向量作为所述特征融合子模型的条件特征数据；

将所述输入数据和所述条件特征数据输入至所述特征融合子模型中进行特征融合处理，得到目标特征向量；

将所述目标特征向量输入至所述图像生成模型中的解码器模块中进行解码处理，得到含有目标文本信息的目标文本图像；

2.如权利要求1所述的方法，其特征在于，所述特征融合子模型包括交叉注意力模块；

所述将所述输入数据和所述条件特征数据输入至所述特征融合子模型中进行特征融合处理，得到目标特征向量，包括：

将所述输入数据输入至所述特征融合子模型中进行卷积处理，得到卷积特征；

将所述条件特征数据映射到所述卷积处理的过程中，得到所述条件特征数据对应的中间表示向量；

将所述中间表示向量作为交叉注意力计算的键值，并根据所述交叉注意力模块对所述卷积特征和所述条件特征数据进行所述交叉注意力计算，得到目标特征向量。

3.如权利要求2所述的方法，其特征在于，所述将所述中间表示向量作为交叉注意力计算的键值，并根据所述交叉注意力模块对所述卷积特征和所述条件特征数据进行所述交叉注意力计算，得到目标特征向量，包括：

将所述中间表示向量作为交叉注意力计算的键值，并根据所述交叉注意力模块对所述卷积特征和所述条件特征数据进行所述交叉注意力计算，得到初始特征向量；

对所述初始特征向量进行降噪处理，得到目标特征向量。

4.如权利要求1所述的方法，其特征在于，在所述将所述待处理图像输入至训练后的图像生成模型中的编码器模块中进行第一编码处理，得到第一图像向量的步骤之前，所述方法还包括：

获取训练数据集，所述训练数据集包括训练文本图像、训练文本信息、训练字形图像以及标注文本图像，所述标注文本图像为所述训练文本图像添加预设文本信息后的图像，所述预设文本信息为所述训练文本信息中至少部分文本信息，所述标注文本图像中的训练文本信息的字体形状为所述训练字形图像对应的字体形状；

通过所述训练数据集对待训练的图像生成模型进行训练直至模型收敛，得到训练后的图像生成模型。

5.如权利要求4所述的方法，其特征在于，所述通过所述训练数据集对待训练的图像生成模型进行训练直至模型收敛，得到训练后的图像生成模型，包括：

将所述训练文本图像、所述训练文本信息、所述训练字形图像输入至待训练的图像生成模型进行训练，得到所述待训练的图像生成模型生成的输出文本图像；

根据预设的损失函数、所述输出文本图像以及所述标注文本图像，确定所述待训练的图像生成模型的训练过程的损失函数值；

在所述损失函数值满足预设的阈值的情况下，确定所述待训练的图像生成模型收敛，得到训练后的图像生成模型。

6.一种图像处理装置，其特征在于，包括：

生成模块，用于将所述待处理图像输入至训练后的图像生成模型中的编码器模块中进行第一编码处理，得到第一图像向量；将所述待处理文本信息和所述字形图像输入至所述图像生成模型中的图文编码子模型中进行第二编码处理，得到第一文本向量和第二图像向量；将所述待处理图像输入至所述图像生成模型中的文本掩码预测子模型中进行预测处理，得到所述待处理图像中可添加文本信息的预测位置；根据所述预测位置，确定所述待处理图像的文本掩码图像；将所述文本掩码图像输入至所述编码器模块中进行第一编码处理，得到掩码图像向量；对所述第一图像向量和所述掩码图像向量进行拼接处理，得到拼接向量；将所述拼接向量确定为所述图像生成模型中的特征融合子模型的输入数据，并将所述第一文本向量和所述第二图像向量作为所述特征融合子模型的条件特征数据；将所述输入数据和所述条件特征数据输入至所述特征融合子模型中进行特征融合处理，得到目标特征向量；将所述目标特征向量输入至所述图像生成模型中的解码器模块中进行解码处理，得到含有目标文本信息的目标文本图像；

7.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法中的步骤。