CN117252957A

CN117252957A - 根据文字描述生成带精确文字图片的方法、装置及存储介质

Info

Publication number: CN117252957A
Application number: CN202311183765.9A
Authority: CN
Inventors: 施哲彬
Original assignee: Shanghai Huanze Information Technology Co ltd
Current assignee: Shanghai Huanze Information Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-19

Abstract

本发明涉及一种根据文字描述生成带精确文字图片的方法、装置及存储介质，该方法包括：训练阶段，对图像训练样本经过BLIP和OCR分别提取图像的文本描述和图像中的文字，再将这两段文字组合后作为潜在扩散模型的文字输入；推理阶段，潜在扩散模型的使用与文生图扩散模型一致，输入文本提示词，即可生成相应的图像；图像内容理解采用BLIP，通过使用BILP对图像生成文本描述，图像文本识别采用paddle OCR技术额外提取图像中文字信息，采用潜在扩散模型LDMs作为图像生成的基模型，根据提示词生成相应图像；本发明可提取文本中更细粒度的语义信息，具有更好的文本语义理解能力，从而实现根据文字描述生成带精确文字的图片。

Description

根据文字描述生成带精确文字图片的方法、装置及存储介质

[技术领域]

本发明涉及计算机应用技术领域，具体地说是一种根据文字描述生成带精确文字图片的方法、装置及存储介质。

[背景技术]

随着文生图(text-to-image)技术的日趋成熟，图像生成模型也越来越广为使用。这其中以Stable Diffusion(SD)最为代表。Stable Diffusion是一种基于潜在扩散模型LDMs(Latent Diffusion Models)的图像生成模型。为了使生成的图片更为可控，更符合用户所期望的图像风格、内容构图、任务姿态等，SD衍生出了ControlNet、LoRA等插件方法。

然而这些方法对SD的控制仅仅是在图像宏观层面。如果输入的提示词中存在更细致的要求，模型的生成结果往往不尽人意。如要生成带指定文字的图片，SD通常会出现文字乱序、生成非指定文字、甚至是不出现文字等情况，且现有的SD模型缺乏更细粒度的文本语义理解能力，无法生成带精确文字的图片。

因此，若能提供一种根据文字描述生成带精确文字的图片的方法及装置，将具有非常重要的意义。

[发明内容]

本发明的目的就是要解决上述的不足而提供一种根据文字描述生成带精确文字图片的方法，能够提取文本中更细粒度的语义信息，具有更好的文本语义理解能力，从而可实现根据文字描述生成带精确文字的图片。

本发明一方面，提供了一种根据文字描述生成带精确文字图片的方法，该方法分为训练和推理两个阶段：

(1)训练阶段，先对图像训练样本经过BLIP和OCR分别提取图像的文本描述和图像中的文字，再将这两段文字组合后作为潜在扩散模型的文字输入；

(2)推理阶段，潜在扩散模型的使用与文生图扩散模型一致，输入文本提示词，即可生成相应的图像。

在一些实施例中，图像内容理解采用BLIP模型，通过使用BILP对数据集中的图像生成文本描述，作为训练模型时的提示文本输入。

在一些实施例中，图像文本识别采用paddle OCR技术额外提取图像中文字信息，并与BLIP的输出信息进行组合，使生成模型更关注到图像中的文字信息。

在一些实施例中，采用潜在扩散模型LDMs作为图像生成的基模型，根据提示词生成相应的图像；潜在扩散模型LDMs中，输入图像通过编码器采样编码成潜空间数据Z，再通过扩散过程得到一个约等于服从标准正态分布的噪声Z^T；Z^T通过U-Net网络进行噪声预测并去噪；输入图像生成的组合文字提示的文本编码通过cross-attention层在U-Net中嵌入，经多次降噪后经过图像解码器还原图像，即可生成相应的图像。

在一些实施例中，采用transformer T5作为文本编码器，以提取更细粒度文本语义信息，使模型拥有更好的文本语义理解能力，并为生成带精确文字图像提供基础。

在一些实施例中，训练阶段采用低秩适应LoRA技术，对扩散模型U-Net中的cross-attention层进行微调；低秩适应LoRA技术为一种利用矩阵低秩分解原理进行模型参数微调的技术，其微调原有模型的部分层，新的模型权重与原始模型权重按比例结合使用，使微调的模型在学习到新特性的同时，不遗忘已经学习到的信息。

本发明另一方面，提供了一种根据文字描述生成带精确文字图片的装置，包括：

图像内容理解单元，采用BLIP模型，通过使用BILP对数据集中的图像生成文本描述，作为训练模型时的提示文本输入；

图像文本识别单元，采用paddle OCR技术额外提取图像中文字信息，并与BLIP的输出信息进行组合，使生成模型更关注到图像中的文字信息；

图像生成单元，采用潜在扩散模型LDMs作为图像生成的基模型，根据提示词生成相应的图像；潜在扩散模型LDMs中，输入图像通过编码器采样编码成潜空间数据Z，再通过扩散过程得到一个约等于服从标准正态分布的噪声Z^T；Z^T通过U-Net网络进行噪声预测并去噪；输入图像生成的组合文字提示的文本编码通过cross-attention层在U-Net中嵌入，经多次降噪后经过图像解码器还原图像，即可生成相应的图像。

在一些实施例中，该装置采用transformer T5作为文本编码器，以提取更细粒度文本语义信息，使模型拥有更好的文本语义理解能力，为生成带精确文字图像提供基础。

本发明第三方面，提出了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，所述程序执行上述方法。

本发明第四方面，提出了一种计算机设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行上述方法。

本发明同现有技术相比，具有如下优点：

(1)本发明具有更好的文本语义理解能力：通过采用transformer T5作为文本编码器，能够提取文本中更细粒度的语义信息，使生成的图像更符合用户所期待的模样；

(2)本发明能够生成带精确文字的图片：通过对训练样本中图像文字信息的提取，使图像生成模型对指定的文字内容更为敏感，从而实现根据文字描述生成带精确文字的图片；

(3)本发明可适配现有的SD模型：得益于低秩适应的模型微调技术，本发明微调的LoRA模型，可以与现有的SD的各种基模型适配，并兼容其各种插件。

[附图说明]

图1是本发明整体流程示意图；

图2是本发明潜在扩散型训练时的结构示意图；

图3是本发明潜在扩散模型推理时的结构示意图；

图4是本发明的实施例示意图一；

图5是本发明的实施例示意图二；

图6是本发明的实施例示意图三。

[具体实施方式]

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图和具体实施例，对本发明作以下进一步说明：

本发明提供了一种根据文字描述生成带精确文字的图片的方法，该方法分为训练和推理两个阶段，其中：

训练阶段，先对图像训练样本经过BLIP和OCR分别提取图像的文本描述和图像中的文字，将这两段文字组合成并作为扩散模型的文字输入。相较于传统SD生图模型，本发明将文本编码器替换为了一个预训练的transformer T5，以提取更细粒度文本语义信息。通过计算输出图像与输入图像的损失来更新训练参数。本发明整体架构如附图1所示，训练阶段采用低秩适应技术，对模型的部分层进行微调。

推理阶段，模型的使用与正常的文生图扩散模型一致，如附图3所示，输入文本提示词，即可生成相应的图像。如文本提示词中带有指定生成的文字内容，生成的图像中便会出现相对于的文字。

在其他进一步的实施方式中，本发明所述方法采用如下具体技术进行实施：

图像内容理解：图像内容理解采用BLIP(Bootstrapping Language-Image Pre-training)模型。这是一种用于统一视觉—语言理解与生成的先进技术，是一种多模态预训练模型，能够同时处理图像和文本数据，使得视觉和语言任务能够更好地结合。使用BILP，可以对数据集中的图像生成文本描述，作为训练模型时的提示文本输入。

图像文本识别：图像文本识别是一种将图像中的文字信息转换为可编辑和可搜索的文本的技术。尽管BLIP模型对图像产生的内容描述中会包含图像中的文字信息，但其存在不够准确的情况，此外，当图片描述内容过于复杂时，其他信息容易掩盖文字信息。因此，本发明采用paddle OCR技术额外提取图像中文字信息，并与BLIP的输出信息进行组合，从而使生成模型更关注到图像中的文字信息。

图像生成：采用潜在扩散模型LDMs(Latent Diffusion Models)作为图像生成的基模型，可根据提示词生成相应的图像。在本方法的训练中，LDMs的详细结构如附图2所示。输入图像通过一个编码器下采样编码成潜空间数据(Z)，再通过扩散过程(加噪声)得到一个约等于服从标准正态分布的噪声Z^T；Z^T通过U-Net网络进行噪声预测并去噪；其中输入图像生成的组合文字提示的文本编码通过cross-attention(即图中的KQV层)在U-Net中嵌入；经过T次降噪后经过图像解码器还原图像；推理过程如附图3所示，在潜空间随机采用一个高斯噪声，并与文本嵌入一起进过多次去噪后，即可生成相应的图像。

文本编码器：目前的图像生成模型普遍采用CLIP(Contrastive Language-ImagePretraining)做为文本编码器，尽管其为图像生成模型提供了很好的文本编码功能，但其缺乏更细致的文本语义理解，尤其是在生成带文字的图像中效果尤为不佳。T5是Transformer自然语言处理模型系列中的一个重要成员，其在多种NLP任务上表现出色，成为当时最先进的预训练模型之一。本发明方法采用T5替代CLIP作为文本编码器，使模型拥有更好的文本语义理解能力，为生成带精确文字图像提供基础。

低秩适应：低秩适应(Low-Rank Adaptation,LoRA)是一种利用矩阵低秩分解原理进行模型参数微调的技术。其微调原有模型的部分层，新的模型权重与原始模型权重按比例结合使用，能够使微调的模型在学习到新特性的同时，不遗忘已经学习到的信息。在本发明方法中，只对U-Net中的cross-attention(KQV层)进行微调。

作为另一种实施方式，本发明提供了一种根据文字描述生成带精确文字图片的装置，包括图像内容理解单元、图像文本识别单元和图像生成单元；其中，图像内容理解单元采用BLIP模型，通过使用BILP对数据集中的图像生成文本描述，作为训练模型时的提示文本输入；图像文本识别单元采用paddle OCR技术额外提取图像中文字信息，并与BLIP的输出信息进行组合，使生成模型更关注到图像中的文字信息；图像生成单元采用潜在扩散模型LDMs作为图像生成的基模型，根据提示词生成相应的图像；潜在扩散模型LDMs中，输入图像通过编码器采样编码成潜空间数据Z，再通过扩散过程得到一个约等于服从标准正态分布的噪声Z^T；Z^T通过U-Net网络进行噪声预测并去噪；输入图像生成的组合文字提示的文本编码通过cross-attention层在U-Net中嵌入，经多次降噪后经过图像解码器还原图像，即可生成相应的图像。该装置采用transformer T5作为文本编码器，以提取更细粒度文本语义信息，使模型拥有更好的文本语义理解能力，为生成带精确文字图像提供基础。

此外，本发明还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，程序执行上述本发明提供的问答机器人装置的问答方法。本发明还提供了一种计算机设备，包括处理器、存储器和总线；处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，程序运行时执行上述本发明提供的问答机器人装置的问答方法。

以下结合具体实施例对本发明作进一步说明：

一、训练阶段数据预处理实施例：

首先，输入图像；

然后，BLIP识别结果“a red sign that says reduce speed now on a roadside with a rock wall in the background and a grassy hill in the background”；

CRNN识别结果“REDUCE SPEED NOW”；

组合提示文本为a red sign that says reduce speed now on a road sidewith a rock wall in the background and a grassy hill in the background，words“REDUCE SPEED NOW”；

最终生成如附图4所示图像。

二、图像生成实施例1：

文本提示词：“a glass of water with words"HELLO WORLD"on glass body”

生成图像如附图5所示。

三、图像生成实施例2：

文本提示词：“word"PEOPLE"on beach”

生成图像如附图6所示。

本发明实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤；而前述的存储介质包括U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而并非对其进行限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化；尽管参照前述实施例对本发明进行了详细的说明，但本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

本发明不受上述实施方式的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种根据文字描述生成带精确文字图片的方法，其特征在于，分为训练和推理两个阶段：

2.如权利要求1所述的方法，其特征在于：图像内容理解采用BLIP模型，通过使用BILP对数据集中的图像生成文本描述，作为训练模型时的提示文本输入。

3.如权利要求1所述的方法，其特征在于：图像文本识别采用paddle OCR技术额外提取图像中文字信息，并与BLIP的输出信息进行组合，使生成模型更关注到图像中的文字信息。

4.如权利要求1所述的方法，其特征在于：采用潜在扩散模型LDMs作为图像生成的基模型，根据提示词生成相应的图像；潜在扩散模型LDMs中，输入图像通过编码器采样编码成潜空间数据Z，再通过扩散过程得到一个约等于服从标准正态分布的噪声Z^T；Z^T通过U-Net网络进行噪声预测并去噪；输入图像生成的组合文字提示的文本编码通过cross-attention层在U-Net中嵌入，经多次降噪后经过图像解码器还原图像，即可生成相应的图像。

5.如权利要求1所述的方法，其特征在于：采用transformer T5作为文本编码器，以提取更细粒度文本语义信息，使模型拥有更好的文本语义理解能力，并为生成带精确文字图像提供基础。

6.如权利要求1所述的方法，其特征在于：训练阶段采用低秩适应LoRA技术，对扩散模型U-Net中的cross-attention层进行微调；低秩适应LoRA技术为一种利用矩阵低秩分解原理进行模型参数微调的技术，其微调原有模型的部分层，新的模型权重与原始模型权重按比例结合使用，使微调的模型在学习到新特性的同时，不遗忘已经学习到的信息。

7.一种根据文字描述生成带精确文字的图片的装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于：采用transformer T5作为文本编码器，以提取更细粒度文本语义信息，使模型拥有更好的文本语义理解能力，为生成带精确文字图像提供基础。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，所述程序执行权利要求1至6中任一项所述的方法。

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行权利要求1至6中任一项所述的方法。