CN117745855A

CN117745855A - 图像生成处理方法及装置

Info

Publication number: CN117745855A
Application number: CN202311741896.4A
Authority: CN
Inventors: 郑丹丹; 柴维珑
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-22

Abstract

本说明书实施例提供了图像生成处理方法及装置，其中，一种图像生成处理方法包括：获取到进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征后，从图像特征、第一负向提示特征和第二负向提示特征出发进行注意力计算获得负向注意力特征，根据负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移，进而通过负向偏移对正向注意力特征进行修正获得目标注意力特征，并结合目标注意力特征和图像特征生成输出图像。

Description

图像生成处理方法及装置

技术领域

本文件涉及图像处理技术领域，尤其涉及一种图像生成处理方法及装置。

背景技术

随着互联网技术的不断发展，图像生成领域的发展也越来越快，根据用户需求生成多种多样的图像逐渐成为发展趋势；而在生成图像的过程中，通过引入提示文本提升生成图像的精度，比如提示文本为“生成狗的图像”，即可根据提示文本的提示生成对应的狗图像；图像生成模型在图像生成的过程中也是举足轻重的一部分，针对通过图像生成模型进行图像生成的实现方式，逐渐成为图像研究者的研究重点。

发明内容

本说明书一个或多个实施例提供了一种图像生成处理方法，包括：获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征。基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征。根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移。根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征。基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

本说明书一个或多个实施例提供了一种图像生成处理装置，包括：特征获取模块，被配置为获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征。注意力计算模块，被配置为基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征。偏移计算模块，被配置为根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移。特征修正模块，被配置为根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征。图像生成模块，被配置为基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

本说明书一个或多个实施例提供了一种图像生成处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征。基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征。根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移。根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征。基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

本说明书一个或多个实施例提供了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征。基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征。根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移。根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征。基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本说明书一个或多个实施例提供的一种图像生成处理方法实施环境的示意图；

图2为本说明书一个或多个实施例提供的一种图像生成处理方法处理流程图；

图3为本说明书一个或多个实施例提供的一种图像生成模型的示意图；

图4为本说明书一个或多个实施例提供的一种应用于图像去噪场景的图像生成处理方法处理流程图；

图5为本说明书一个或多个实施例提供的一种图像生成处理装置实施例的示意图；

图6为本说明书一个或多个实施例提供的一种图像生成处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

参照图1，本说明书一个或多个实施例提供的图像生成处理方法实施环境的示意图。

本说明书一个或多个实施例提供的图像生成处理方法，可适用于图像生成这一实施环境，本方法的实施环境至少包括进行图像生成的生成系统101。

其中，生成系统101可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是云计算平台中的一个或者多个云服务器，生成系统101用于生成并获得输出图像。此外，生成系统101可运行有图像生成模型，该图像生成模型可包括负向特征处理模块和图像生成模块，此外，该图像生成模型也可包括编码模块、负向特征处理模块和图像生成模块。

该实施环境中，生成系统101运行的图像生成模型获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征，从图像特征、第一负向提示特征和第二负向提示特征出发进行注意力计算，获得负向注意力特征，根据负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移，并根据负向偏移对正向注意力特征进行特征修正获得目标注意力特征，以此去除正向注意力特征中负向提示文本的影响，在此基础上，基于目标注意力特征与图像特征进行图像生成获得输出图像，以此通过消除负向提示文本的影响后的目标注意力特征提升输出图像的质量，同时，通过对正向提示文本和负向提示文本同时进行特征处理，提升图像生成的效率；

其中，图像生成模型中的编码模块可生成第一负向提示特征和第二负向提示特征；图像生成模型中的负向特征处理模块可获取图像特征和负向提示特征、进行注意力计算、进行负向偏移计算以及进行特征修正；图像生成模型中的图像处理模块可基于目标注意力特征与图像特征进行图像生成获得输出图像。

本说明书提供的一种图像生成处理方法的一个或多个实施例如下：

参照图2，本实施例提供的图像生成处理方法，具体包括步骤S202至步骤S210。

步骤S202，获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征。

本实施例所述负向提示文本是指从负向维度描述的生成图像的提示文本，也即针对生成图像中不期望出现的内容的提示文本，比如负向提示文本为“不生成猫的图像”；所述负向提示文本的第一负向提示特征和第二负向提示特征是指基于负向提示文本计算获得的第一负向提示特征和第二负向提示特征。

可选的，所述第一负向提示特征和所述第二负向提示特征，通过如下方式获得：

对所述负向提示文本进行特征提取获得负向特征；

对所述负向特征进行特征变换获得所述第一负向提示特征和所述第二负向提示特征。

其中，所述特征变换可以是线性变换；所述第一负向提示特征可以是负向提示文本的键向量，即负向提示文本的K(Key，键向量)；所述第二负向提示特征可以是负向提示文本的值向量，即负向提示文本的V(Value，值向量)。

本实施例所述输入图像包括包含噪声的噪声图像。可选的，本实施例提供的图像生成处理方法基于图像生成模型执行；上述对所述负向提示文本进行特征提取获得负向特征操作，以及所述对所述负向特征进行特征变换获得所述第一负向提示特征和所述第二负向提示特征操作，基于所述图像生成模型中的编码模块执行。此处的图像生成模型可以是扩散模型(SD，Stable Diffusion)。对所述负向提示文本进行特征提取获得负向特征操作可基于编码模块中的文本编码模块执行，文本编码模块可以是Text encoder。

此外，在步骤S202执行之前，还可对负向提示文本进行特征提取获得负向特征，对负向特征进行特征变换获得负向提示文本的第一负向提示特征和第二负向提示特征；以及对从正向提示文本中提取的正向特征进行线性变换获得第一正向提示特征和第二正向提示特征。

其中，所述正向提示文本是指从正向维度描述的生成图像的提示文本，也即针对生成图像中期望出现的内容的提示文本，比如正向提示文本为“生成狗的图像”；正向提示文本的第一正向提示特征和第二正向提示特征是指基于正向提示文本计算获得的第一正向提示特征和第二正向提示特征。所述第一正向提示特征可以是正向提示文本的键向量；所述第二正向提示特征可以是正向提示文本的值向量。

需要说明的是，上述提到第一负向提示特征和第二负向提示特征由图像生成模型中的编码模块执行处理获得，类似地，所述对从正向提示文本中提取的正向特征进行线性变换获得第一正向提示特征和第二正向提示特征的操作也可由编码模块执行。

需要补充的是，上述步骤S202可基于图像生成模型中的负向特征处理模块执行；图像生成模型可以是扩散模型；负向特征处理模块可以是负向特征处理插件CFG Adapter(Classifier Free Guidance Adapter，无分类器引导插件)。

步骤S204，基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征。

上述获取到进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征后，本步骤中，从图像特征、第一负向提示特征和第二负向提示特征三个方面出发进行注意力计算，获得负向注意力特征，以此捕捉负向提示文本与输入图像之间的关系，确定负向提示文本对输入图像的影响。

本实施例所述负向注意力特征包括表征负向提示文本对生成图像的影响的注意力特征。

具体实施时，为了提升生成图像的图像质量，可确定负向提示文本对输入图像的影响，挖掘负向提示文本在生成图像过程中所起的作用；本实施例提供的一种可选实施方式中，在基于图像特征、第一负向提示特征和第二负向提示特征进行注意力计算，获得负向注意力特征的过程中，执行如下操作：

基于所述图像特征和所述第一负向提示特征计算负向注意力分数；

根据所述负向注意力分数和所述第二负向提示特征计算所述负向注意力特征。

其中，所述负向注意力分数可以是表征图像特征与第一负向提示特征之间的相关性或者相似度的注意力分数，具体负向注意力分数可表征输入图像与负向提示文本之间的相关性或者相似度。所述注意力计算包括交叉注意力计算。

具体的，在基于图像特征和第一负向提示特征计算负向注意力分数的过程中，可对图像特征进行线性变换得到目标图像特征，根据目标图像特征、第一负向提示特征和特征维度计算负向注意力分数，具体可计算目标图像特征和第一负向提示特征的乘积，并计算该乘积与特征维度的比值作为负向注意力分数；此处的目标图像特征包括负向提示文本或者正向提示文本的查询向量，即负向提示文本或者正向提示文本的Q(Query，查询向量)，特征维度包括目标图像特征、第一负向提示特征和/或第二负向提示特征的特征维度，目标图像特征、第一负向提示特征和第二负向提示特征三者的特征维度可以相同。

进一步，为了更精细化地计算负向注意力特征，本实施例提供的一种可选实施方式中，在根据负向注意力分数和第二负向提示特征计算负向注意力特征的过程中，执行如下操作：

对所述负向注意力分数进行归一化处理获得所述负向提示文本对应的负向注意力权重；

基于所述负向注意力权重对所述第二负向提示特征进行加权计算，获得所述负向注意力特征。

其中，所述负向提示文本对应的负向注意力权重包括表征负向提示文本对生成图像的影响程度，即负向注意力权重高，代表该负向提示文本对生成图像的影响程度大。

具体的，可计算图像特征与第一负向提示特征的相似度作为负向注意力分数，对负向注意力分数进行归一化处理获得负向提示文本对应的负向注意力权重，计算负向注意力权重与第二负向提示特征的乘积作为负向注意力特征。

此外，在基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征的过程中，为了提升注意力计算效率，可引入负向注意力计算算法，具体可以是交叉注意力计算算法，通过注意力计算算法进行负向注意力计算获得负向注意力特征；具体的，可将图像特征、第一负向提示特征和第二负向提示特征输入负向注意力计算算法进行注意力计算，获得负向注意力特征。

例如，负向注意力计算算法包括：

其中，NH代表负向注意力特征；Q代表目标图像特征，即正向提示文本或者负向提示文本的查询向量；NK代表负向提示文本的第一负向提示特征，即负向提示文本的键向量；NV代表负向提示文本的第二负向提示特征，即负向提示文本的值向量；d代表特征维度；代表对/>进行归一化；/>代表负向注意力分数；/> 代表负向注意力权重。

需要说明的是，上述步骤S204可基于图像生成模型中的负向特征处理模块执行。

步骤S206，根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移。

上述借助图像特征、第一负向提示特征和第二负向提示特征进行注意力计算获得负向注意力特征，本步骤中，为了确定负向提示文本对生成图像的影响和作用，可根据负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移。

本实施例所述正向注意力特征包括表征正向提示文本对生成图像的影响的注意力特征。所述偏移参数包括参与负向偏移计算的参数。

可选的，所述正向注意力特征，通过如下方式计算获得：

基于所述图像特征、所述正向提示文本的第一正向提示特征计算正向注意力分数；

根据所述正向注意力分数和所述正向提示文本的第二正向提示特征，计算所述正向注意力特征。

其中，正向注意力分数可以是表征图像特征与第一正向提示特征之间的相关性或者相似度的注意力分数，具体正向注意力分数可表征输入图像与正向提示文本之间的相关性或者相似度。

具体的，可基于对图像特征进行线性变换获得的目标图像特征、正向提示文本的第一正向提示特征计算正向注意力分数，根据正向注意力分数和正向提示文本的第二正向提示特征，计算正向注意力特征；具体可计算目标图像特征和第一正向提示特征的乘积，并计算该乘积与特征维度的比值作为正向注意力分数；此处的特征维度包括目标图像特征、第一正向提示特征和/或第二正向提示特征的特征维度，目标图像特征、第一正向提示特征和第二正向提示特征三者的特征维度可以相同；

在根据正向注意力分数和第二正向提示特征计算正向注意力特征的过程中，可对正向注意力分数进行归一化处理获得正向提示文本对应的正向注意力权重，并基于正向注意力权重对第二正向提示特征进行加权计算获得正向注意力特征。

其中，所述正向提示文本对应的正向注意力权重包括表征正向提示文本对生成图像的影响程度，即正向注意力权重越高，代表该正向提示文本对生成图像的影响程度越大。

需要说明的是，可以由图像生成模型中的负向特征处理模块计算获得正向注意力特征，也可以由图像生成模型中的图像处理模块U-net计算获得正向注意力特征；可选的，所述图像生成模型中的负向特征处理模块在对图像处理模块中的注意力层进行配置后获得，在获得负向特征处理模块后，图像生成模型中还可包括配置前的图像处理模块，该图像处理模块可生成正向注意力特征；所述配置包括在注意力层的特定位置注册回调函数，通过执行回调函数来加载图像生成模型中的负向特征处理模块；比如在图像生成模型中的注意力层的特定位置注册hook函数(钩子函数)。

此外，在计算正向注意力特征的过程中，为了提升正向注意力计算效率，可引入正向注意力计算算法，具体可以是交叉注意力计算算法，通过正向注意力计算算法进行注意力计算获得正向注意力特征；具体的，可将图像特征、第一正向提示特征和第二正向提示特征输入正向注意力计算算法进行注意力计算，获得正向注意力特征。

例如，正向注意力计算算法包括：

其中，PH代表正向注意力特征；Q代表目标图像特征，即正向提示文本或者负向提示文本的查询向量；K代表正向提示文本的第一正向提示特征，即正向提示文本的键向量；V代表正向提示文本的第二正向提示特征，即正向提示文本的值向量；d代表特征维度；代表对/>进行归一化；/>代表正向注意力分数；/>代表正向注意力权重。

实际应用中，通过正向提示文本进行注意力计算获得的正向注意力特征仅代表正向提示文本对生成图像的影响，而负向注意力特征也仅能代表负向提示文本对生成图像的影响，若将正向注意力特征和负向注意力特征二者作为独立割裂的个体，单独根据正向注意力特征和负向注意力特征进行图像生成，不仅生成图像的效率较低，而且由于无法结合正向注意力特征和负向注意力特征导致输出图像的质量较低，针对于此，为了提升输出图像的生成质量，同时提升生成图像的效率，可将正向注意力特征和负向注意力特征二者结合起来进行图像生成，针对于此，可计算负向注意力特征相对于正向注意力特征的偏移；本实施例提供的一种可选实施方式中，在根据负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移的过程中，执行如下操作：

对所述负向注意力特征和所述正向注意力特征进行标准化处理，获得负向标准特征和正向标准特征；

基于所述负向标准特征、所述正向标准特征和所述偏移参数计算所述负向偏移。

其中，所述标准化处理包括归一化处理(Norm，Normalization)。

在此基础上，为了提升负向特征处理模块的适配性，在计算负向偏移的过程中，不能计算固定的负向偏移，针对于此，可引入相对的负向偏移，使得该负向偏移的计算可适用于不同的图像生成模型，实现负向特征处理模块对各种各样的图像生成模型的适配性，针对于此，可引入偏移参数，通过偏移参数提升负向特征处理模块对不同的图像生成模型的适配性；本实施例提供的一种可选实施方式中，在基于所述负向标准特征、所述正向标准特征和所述偏移参数计算负向偏移的过程中，可根据正向标准特征、负向标准特征和偏移参数中的第一偏移参数、第二偏移参数计算负向偏移，具体可执行如下操作：

基于所述正向标准特征、所述负向标准特征和所述偏移参数中的第一偏移参数进行偏移比例计算，获得偏移比例；

根据所述偏移比例和所述偏移参数中的第二偏移参数对所述负向注意力特征进行特征偏移处理，获得负向偏移特征作为所述负向偏移。

其中，所述偏移比例包括计算负向偏移所涉及的比例；所述负向偏移包括负向提示文本对生成图像的影响即负向注意力特征相对于正向提示文本对生成图像的影响即正向注意力特征的偏移，负向偏移也可以是负向注意力特征相对于正向注意力特征的特征差距。

具体的，在基于所述正向标准特征、所述负向标准特征和所述偏移参数中的第一偏移参数进行偏移比例计算，获得偏移比例的过程中，可计算正向标准特征和第一偏移参数的加和，并计算所述加和与负向标准特征的比值作为偏移比例；在根据所述偏移比例和所述偏移参数中的第二偏移参数对所述负向注意力特征进行特征偏移处理，获得负向偏移特征的过程中，可计算偏移比例与负向标准特征的乘积，再计算该乘积与第二偏移参数之和作为负向偏移特征也即作为负向偏移。

此外，为了提升负向偏移的计算效率和负向偏移的精度，可引入负向偏移计算算法，具体在根据负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移的过程中，可将负向注意力特征、正向注意力特征和偏移参数输入负向偏移计算算法进行负向偏移计算，获得负向偏移。

例如，负向偏移计算算法包括：

其中，NH^’代表负向偏移；NH代表负向注意力特征；PH代表正向注意力特征；Norm(PH)代表正向标准特征；Norm(NH)代表负向标准特征；α代表第一偏移参数；β代表第二偏移参数。

需要说明的是，上述步骤S206可基于图像生成模型中的负向特征处理模块执行。

步骤S208，根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征。

上述根据负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移，本步骤中，根据负向偏移对正向注意力特征进行特征修正获得目标注意力特征，以此将正向注意力特征中负向提示文本的影响进行消除，进而提升生成图像的质量。

本实施例所述目标注意力特征是指对正向注意力特征进行修正或者调整后获得的目标注意力特征。

为了结合正向注意力特征和负向注意力特征进行图像生成提升生成图像的质量，可去除正向注意力特征中负向提示文本对图像生成过程中的负面影响，进而使得生成图像更加靠近正向提示文本而远离负向提示文本；本实施例提供的一种可选实施方式中，在根据负向偏移对正向注意力特征进行特征修正获得目标注意力特征的过程中，执行如下操作：

计算所述正向注意力特征与所述负向偏移的差值作为所述目标注意力特征。

需要说明的是，上述步骤S208可基于图像生成模型中的负向特征处理模块执行。

步骤S210，基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

上述根据负向偏移对正向注意力特征进行特征修正获得目标注意力特征，本步骤中，基于目标注意力特征与图像特征进行图像生成获得输出图像。

具体实施时，进行图像生成包括进行图像去噪；本实施例提供的一种可选实施方式中，在基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像的过程中，执行如下操作：

基于所述目标注意力特征对所述输入图像进行噪声预测；

根据噪声预测结果对所述图像特征进行去噪处理，获得所述输出图像。

需要说明的是，上述步骤S210可基于所述图像生成模型中的图像生成模块执行。

如图3所示的图像生成模型，图像生成模型中包含编码模块(Text encoder)、负向特征处理模块(CFG Adapter)、图像处理模块(U-net)；编码模块可对正向提示文本和负向提示文本进行特征提取及特征变换，获得正向提示文本的第一正向提示特征和第二正向提示特征以及负向提示文本的第一负向提示特征和第二负向提示特征，负向特征处理模块可结合图像特征、第一负向提示特征、第二负向提示特征、第一正向提示特征和第二正向提示特征计算获得目标注意力特征，图像处理模块可基于目标注意力特征与图像特征进行图像生成获得输出图像，图像处理模块中可包括一个或者多个Cross attention block(交叉注意力层)，负向特征处理模块的处理过程替换图像处理模块中原始的交叉注意力层的执行处理过程，Xt-1代表输入图像，Xt代表输出图像。

综上所述，本实施例提供的一种或者多种图像生成处理方法，首先获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征，基于图像特征和第一负向提示特征计算负向注意力分数，对负向注意力分数进行归一化处理获得负向提示文本对应的负向注意力权重，并基于负向注意力权重对第二负向提示特征进行加权计算，获得负向注意力特征；其次对负向注意力特征和正向注意力特征进行标准化处理，获得负向标准特征和正向标准特征，基于正向标准特征、负向标准特征和偏移参数中的第一偏移参数进行偏移比例计算获得偏移比例，根据偏移比例和偏移参数中的第二偏移参数对负向注意力特征进行特征偏移处理，获得负向偏移特征作为负向偏移；最后根据负向偏移对正向注意力特征进行特征修正获得目标注意力特征，基于目标注意力特征与图像特征进行图像生成获得输出图像，以此通过消除负向提示文本的影响后的目标注意力特征提升输出图像的质量，同时，通过对正向提示文本和负向提示文本同时进行特征处理，提升图像生成的效率，并且通过引入偏移参数使得负向偏移计算可适配不同的图像生成模型，提升图像生成的便捷性。

下述以本实施例提供的一种图像生成处理方法在图像去噪场景的应用为例，对本实施例提供的图像生成处理方法进行进一步说明，参见图4，应用于图像去噪场景的图像生成处理方法，具体包括如下步骤。

步骤S402，获取进行图像去噪的负向提示文本的第一负向提示特征和第二负向提示特征，以及对噪声图像进行特征提取获得图像特征。

步骤S404，基于图像特征和第一负向提示特征计算负向注意力分数。

步骤S406，根据负向注意力分数和第二负向提示特征计算负向注意力特征。

步骤S408，对负向注意力特征和进行图像去噪的正向提示文本对应的正向注意力特征进行标准化处理，获得负向标准特征和正向标准特征。

步骤S410，基于正向标准特征、负向标准特征和偏移参数中的第一偏移参数进行偏移比例计算，获得偏移比例。

步骤S412，根据偏移比例和偏移参数中的第二偏移参数对负向注意力特征进行特征偏移处理，获得负向偏移特征。

步骤S414，根据负向偏移特征对正向注意力特征进行特征修正获得目标注意力特征。

步骤S416，基于目标注意力特征对噪声图像进行噪声预测，根据噪声预测结果对图像特征进行去噪处理获得输出图像。

本说明书提供的一种图像生成处理装置实施例如下：

在上述的实施例中，提供了一种图像生成处理方法，与之相对应的，还提供了一种图像生成处理装置，下面结合附图进行说明。

参照图5，其示出了本实施例提供的一种图像生成处理装置实施例的示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种图像生成处理装置，包括：

特征获取模块502，被配置为获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征；

注意力计算模块504，被配置为基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征；

偏移计算模块506，被配置为根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移；

特征修正模块508，被配置为根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征；

图像生成模块510，被配置为基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

本说明书提供的一种图像生成处理设备实施例如下：

对应上述描述的一种图像生成处理方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种图像生成处理设备，该图像生成处理设备用于执行上述提供的一种图像生成处理方法，图6为本说明书一个或多个实施例提供的一种图像生成处理设备的结构示意图。

本实施例提供的一种图像生成处理设备，包括：

如图6所示，图像生成处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器601和存储器602，存储器602中可以存储有一个或一个以上存储应用程序或数据。其中，存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括图像生成处理设备中的一系列计算机可执行指令。更进一步地，处理器601可以设置为与存储器602通信，在图像生成处理设备上执行存储器602中的一系列计算机可执行指令。图像生成处理设备还可以包括一个或一个以上电源603，一个或一个以上有线或无线网络接口604，一个或一个以上输入/输出接口605，一个或一个以上键盘606等。

在一个具体的实施例中，图像生成处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对图像生成处理设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征；

基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征；

根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移；

根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征；

基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

本说明书提供的一种存储介质实施例如下：

对应上述描述的一种图像生成处理方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种存储介质。

本实施例提供的存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：

需要说明的是，本说明书中关于一种存储介质的实施例与本说明书中关于一种图像生成处理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应方法的实施，重复之处不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或者相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处，比如装置实施例、设备实施例和存储介质实施例，三者均相似于方法实施例，所以描述地比较简单，阅读装置实施例、设备实施例和存储介质实施例中的相关内容请参照方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像生成处理设备的处理器以产生一个机器，使得通过计算机或其他可编程图像生成处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像生成处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像生成处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种图像生成处理方法，包括：

2.根据权利要求1所述的图像生成处理方法，所述基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征，包括：

3.根据权利要求2所述的图像生成处理方法，所述根据所述负向注意力分数和所述第二负向提示特征计算所述负向注意力特征，包括：

4.根据权利要求1所述的图像生成处理方法，所述根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移，包括：

5.根据权利要求4所述的图像生成处理方法，所述基于所述负向标准特征、所述正向标准特征和所述偏移参数计算所述负向偏移，包括：

6.根据权利要求1所述的图像生成处理方法，所述正向注意力特征，通过如下方式计算获得：

7.根据权利要求1所述的图像生成处理方法，所述第一负向提示特征和所述第二负向提示特征，通过如下方式获得：

对所述负向提示文本进行特征提取获得负向特征；

8.根据权利要求7所述的图像生成处理方法，所述方法基于图像生成模型执行；

所述对所述负向提示文本进行特征提取获得负向特征操作，以及所述对所述负向特征进行特征变换获得所述第一负向提示特征和所述第二负向提示特征操作，基于所述图像生成模型中的编码模块执行。

9.根据权利要求8所述的图像生成处理方法，所述获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征步骤，所述基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征步骤，所述根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移步骤，以及所述根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征步骤，基于所述图像生成模型中的负向特征处理模块执行；

所述基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像步骤，基于所述图像生成模型中的图像生成模块执行。

10.根据权利要求1所述的图像生成处理方法，所述根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征，包括：

11.根据权利要求1所述的图像生成处理方法，所述基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像，包括：

基于所述目标注意力特征对所述输入图像进行噪声预测；

12.一种图像生成处理装置，包括：

特征获取模块，被配置为获取进行图像生成的负向提示文本的第一负向提示特征和第二负向提示特征，以及对输入图像进行特征提取获得图像特征；

注意力计算模块，被配置为基于所述图像特征、所述第一负向提示特征和所述第二负向提示特征进行注意力计算，获得负向注意力特征；

偏移计算模块，被配置为根据所述负向注意力特征、进行图像生成的正向提示文本对应的正向注意力特征和偏移参数进行负向偏移计算，获得负向偏移；

特征修正模块，被配置为根据所述负向偏移对所述正向注意力特征进行特征修正获得目标注意力特征；

图像生成模块，被配置为基于所述目标注意力特征与所述图像特征进行图像生成获得输出图像。

13.一种图像生成处理设备，包括：

处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

14.一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：