CN116757923A

CN116757923A - 一种图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN116757923A
Application number: CN202311033523.1A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-09-15
Anticipated expiration: 2043-08-16
Also published as: CN116757923B

Abstract

本申请涉及数据处理技术领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质，该方法为：获取原始数据集；所述原始数据集包括：一个基础图像和对应的引导语句；采用第一编码网络和第二编码网络，分别提取所述引导语句的原始文本特征和目标文本特征；分别采用对应不同图像调整引导程度的各预设加权方式，对所述原始文本特征和所述目标文本特征进行加权融合，获得相应的文本融合特征；采用目标去噪网络，分别基于获得的各文本融合特征和所述基础图像，对所述基础图像中的图像对象进行动作调整，获得相应的目标图像。这样，能够在多种文本融合特征的影响下，提高图像生成的多样性，并提高了图像生成的准确率和图像生成质量。

Description

一种图像生成方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术

相关技术下，随着科学技术的发展，借助于神经网络模型，能够在不改变图像背景的情况下，针对图像中的目标对象进行动作编辑。

目前，通常借助于扩散模型对图像中的目标对象进行动作编辑，在给定基础图像和动作编辑语句的情况下，能够基于目标对象在一个姿态下的基础图像，生成与动作编辑语句描述的动作相匹配的目标图像。

然而，在采用扩散模型进行图像生成时，图像的生成效果难以在“维持与基础图像之间的目标对象一致性”与“完成动作编辑”之间达到平衡，通常需要人工干预处理，故无法保障图像的生成质量，极大地降低了图像的生成效率；而且，扩散模型在动作编辑语句的引导下生成目标图像的过程中，由于模型内部通常基于动作编辑语句和基础图像对应的一种形式的加权结果进行处理，故在构建的加权结果无法有效融合基础图像和引导语句的共同影响的情况下，会导致目标图像中存在畸形和错误，降低图像生成的准确率。

发明内容

本申请实施例提供一种图像生成方法、装置、电子设备及存储介质，用以提高图像生成质量，保障图像生成的准确性。

第一方面，提出一种图像生成方法，包括：

获取原始数据集；所述原始数据集包括：一个基础图像和对应的引导语句；所述引导语句用于描述针对所述基础图像中的图像对象的动作调整操作；

采用第一编码网络和第二编码网络，分别提取所述引导语句的原始文本特征和目标文本特征；其中，所述第二编码网络，是基于所述原始数据集对图像生成模型中的所述第一编码网络进行训练后获得的；

分别采用对应不同图像调整引导程度的各预设加权方式，对所述原始文本特征和所述目标文本特征进行加权融合，获得相应的文本融合特征；

采用目标去噪网络，分别基于获得的各文本融合特征和所述基础图像，对所述基础图像中的所述图像对象进行动作调整，获得相应的目标图像，其中，所述目标去噪网络，是基于所述目标文本特征和所述原始数据集，对所述图像生成模型中的初始去噪网络进行训练后获得的。

第二方面，提出一种图像生成装置，包括：

获取单元，用于获取原始数据集；所述原始数据集包括：一个基础图像和对应的引导语句；所述引导语句用于描述针对所述基础图像中的图像对象的动作调整操作；

提取单元，用于采用的第一编码网络和第二编码网络，分别提取所述引导语句的原始文本特征和目标文本特征；其中，所述第二编码网络，是基于所述原始数据集对图像生成模型中的所述第一编码网络进行训练后获得的；

融合单元，用于分别采用对应不同图像调整引导程度的各预设加权方式，对所述原始文本特征和所述目标文本特征进行加权融合，获得相应的文本融合特征；

调整单元，用于采用目标去噪网络，分别基于获得的各文本融合特征和所述基础图像，对所述基础图像中的所述图像对象进行动作调整，获得相应的目标图像，其中，所述目标去噪网络，是基于所述目标文本特征和所述原始数据集，对所述图像生成模型中的初始去噪网络进行训练后获得的。

可选的，所述各预设加权方式，至少包括以下两种：

采用预设的权重参数组，对所述原始文本特征和所述目标文本特征进行加权叠加；

采用预设的权重参数组，对所述原始文本特征和所述目标文本特征进行加权，并采用从加权后的目标文本特征中截取的表达文本语义的特征内容，对加权后的原始文本特征中非表达文本语义的特征内容进行替换。

可选的，所述从加权后的目标文本特征中截取的表达文本语义的特征内容，是所述融合单元采用以下方式获得的：

在加权后的目标文本特征中，确定表达文本语义的特征内容所对应的第一词位范围，其中，所述第一词位范围对应的词位长度，不高于所述加权后的目标文本特征的词位长度的一半；所述加权后的目标文本特征和加权后的原始文本特征的词位长度相同；

按照所述第一词位范围，在所述加权后的目标文本特征中，截取对应的特征内容。

可选的，所述对加权后的原始文本特征中非表达文本语义的特征内容进行替换时，所述融合单元用于：

确定加权后的原始文本特征中，与非表达文本语义的特征内容对应的第二词位范围，并在所述第二词位范围中选取与所述第一词位范围相匹配的内容替换区域；

基于截取的特征内容替换所述内容替换区域中的特征内容。

可选的，所述获得相应的目标图像之后，所述装置还包括评价单元，所述评价单元用于：

针对每个目标图像，分别执行以下操作：

确定包含在所述引导语句中的用于描述所述图像对象的子语句，并采用所述第二编码网络，基于所述子语句生成对应的子文本特征；

从所述目标图像和所述基础图像中，分别裁剪出包含所述图像对象的子图像，并采用预设的图像编码网络，分别提取所述目标图像、所述基础图像和裁剪出的各子图像的图像特征；

基于所述目标图像和所述基础图像之间的特征差值，所述各子图像之间的特征相似度，以及所述子文本特征和所述目标文本特征之间的特征差值，计算所述目标图像对应的评价值。

可选的，所述基于所述目标图像和所述基础图像之间的特征差值，所述各子图像之间的特征相似度，以及所述子文本特征和所述目标文本特征之间的特征差值，计算所述目标图像对应的评价值时，所述评价单元用于：

基于所述目标图像的图像特征和所述基础图像的图像特征，在每个特征维度上的取值差异，确定由各特征维度上的取值差异组成的图像特征差值；

基于所述子文本特征和所述目标文本特征，在每个特征维度上的取值差异，确定由各特征维度上的取值差异组成的文本特征差值；

采用预设的相似度算法，计算所述各子图像之间的图像特征相似度，以及所述图像特征差值和所述文本特征差值之间的差异相似度，并基于所述特征相似度和所述差异相似度，计算所述目标图像对应的评价值。

可选的，所述计算所述目标图像对应的评价值之后，所述评价单元还用于：

获取各目标图像各自对应的评价值，并按照各评价值的取值递减顺序，对所述各目标图像进行排序，得到对应的排序结果；

依据所述排序结果，在所述各目标图像中，确定满足设定筛选条件的目标图像。

可选的，所述第二编码网络，是所述提取单元采用如下方式训练得到的：

获取初始的图像生成模型；

基于所述原始数据集对所述图像生成模型中的第一编码网络进行多轮迭代训练，获得训练后的第二编码网络，其中，在一轮迭代训练过程中，执行以下操作：

采用所述图像生成模型，基于所述基础图像和引导语句得到预测图像，并基于所述预测图像和所述基础图像间的像素差异，调整所述第一编码网络的网络参数。

可选的，所述图像生成模型中包括：用于提取文本特征的第一编码网络，以及用于生成图像的初始扩散网络和初始去噪网络；所述目标去噪网络，是所述调整单元采用如下方式训练得到的：

基于所述目标文本特征和加噪后的所述基础图像，对所述初始去噪网络进行多轮迭代训练，得到训练后的目标去噪网络，其中，在一轮迭代训练过程中，执行以下操作：

采用所述初始扩散网络，基于所述加噪后的所述基础图像，生成图像扩散结果，并采用所述初始去噪网络，基于所述图像扩散结果和所述目标文本特征，得到预测图像，以及基于所述预测图像和所述基础图像间的像素差异，调整所述初始去噪网络的网络参数。

可选的，所述采用目标去噪网络，分别基于获得的各文本融合特征和所述基础图像，对所述基础图像中的所述图像对象进行动作调整，获得相应的目标图像时，所述调整单元用于：

采用所述图像生成模型中的初始扩散网络，基于所述基础图像生成对应的图像扩散结果；

针对所述各文本融合特征，分别执行以下操作：将所述图像扩散结果和一个文本融合特征，输入所述图像生成模型中的目标去噪网络，得到所述图像生成模型输出的动作调整后的目标图像。

第三方面，提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

本申请有益效果如下：

本申请实施例中，本申请实施例中，提出了一种图像生成方法、装置、电子设备及存储介质，获取作为图像生成依据的原始数据集，其中，原始数据集中包括：基础图像和对应的引导语句；再采用图像生成模型中的第一编码网络，针对引导语句进行特征提取，得到对应的原始文本特征，以及采用第二编码网络，针对引导语句进行特征提取，得到对应的目标文本特征，其中，第二编码网络是采用原始数据集对第一编码网络进行训练后获得的；这样，借助于原始文本特征，能够表征出引导语句对于基础图像的引导方向，而且，由于目标文本特征由训练后的第二编码网络提取得到，故获得的目标文本特征具有引导图像生成模型生成基础图像的能力；

之后，通过采用对应不同图像调整引导程度的各预设加权方式，对原始文本特征和目标文本特征进行加权融合，获得相应的文本融合特征，能够得到原始文本特征和目标文本特征之间不同的加权融合结果，相当于将对于基础图像的复原度，以及对于引导语句的遵循程度进行了不同程度的融合，在基础图像上施加了不同程度的引导影响，实现了对于引导生成目标图像的加权特征的扩充，有助于构建同时满足图像内容一致性要求和动作调整效果的文本融合特征；

进而，借助于目标去噪网络，分别基于各文本融合特征和基础图像，对基础图像中的图像对象进行动作调整，获得相应的目标图像；这使得能够在每个文本融合特征的影响下，生成对应的目标图像，这不仅增加了模型生成的目标图像数量，还能够在多种文本融合特征的影响下，提高图像生成的多样性，降低由于单一加权结果造成的目标图像畸形和错误所带来的不良影响，提高了图像生成的准确率和图像生成质量。

附图说明

图1为本申请实施例中可能的应用场景示意图；

图2A为本申请实施例中图像生成流程示意图；

图2B为本申请实施例中训练第一编码网络时模型内部的处理过程示意图；

图2C为本申请实施例中初始去噪网络的处理过程示意图；

图2D为本申请实施例中训练初始去噪网络的过程示意图；

图2E为本申请实施例中生成目标图像的过程示意图；

图2F为本申请实施例中计算评价值的过程示意图；

图3为本申请实施例中实现图像生成的过程示意图；

图4为本申请实施例中图像生成装置的逻辑结构示意图；

图5为应用本申请实施例的一种电子设备的硬件组成结构示意图；

图6为应用本申请实施例的另一种电子设备的硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

图像生成模型：能够基于给定的基础图像，以及用于描述针对基础图像中图像对象的动作调整操作的引导语句，生成基础图像中的图像对象，在该动作调整操作指示的目标动作下的目标图像；例如，采用图像生成模型，基于一张加噪后的基础人物图像（当前人物图像中的人物为严肃表情），以及指导人物动作变化的引导语句（假设指示人物变为大笑表情），能够生成该人物在大笑表情下的目标图像，且目标图像中除人物表情外的其他图像内容均与基础人物图像相同。

模型出图率：是指图像生成模型的输出的各目标图像中，符合需要的目标图像数目占输出的目标图像总数的比例。

引导语句：也称动作编辑语句，与基础图像存在对应关系，是指用于指示动作调整所针对的图像对象，以及动作调整操作所对应的目标动作的语句；换言之，引导语句用于描述针对图像对象的动作调整操作，其中，图像对象是指基础图像中的一个对象。

下面对本申请实施例的设计思想进行简要介绍：

随着扩散模型技术的迅速发展，针对图片中的指定人物进行动作编辑的可行性逐渐增强，能够在不改变图像背景的情况下，实现针对图像中目标对象的动作编辑。而且，相比起传统人物动作编辑需要人工采用PS操作，基于扩散模型进行的图像生成能够大大地提升图像生成效率。

然而，在采用扩散模型进行图像生成时，图像的生成效果难以在“维持与原图像（或称基础图像）之间的目标对象一致性”与“完成动作编辑”之间达到平衡，如，可能生成的图像对象动作不符合编辑要求，但生成的图像对象与原图中的图像对象一致；或者，可能生成的图像对象动作符合编辑要求，但生成的图像对象与原图像中的图像对象不一致；这样的话，在图像创作任务中，常常需要人工参与调节，以保障图像生成效果，费时费力。

而且，由于扩散模型在动作编辑语句的引导下生成目标图像时，模型内部通常基于动作编辑语句和基础图像对应的一种形式的加权结果进行处理，故在构建的加权结果无法融合基础图像和引导语句的共同影响的情况下，会导致目标图像中存在畸形和错误，降低了图像生成的准确率和模型出图率。

有鉴于此，本申请实施例中，提出了一种图像生成方法、装置、电子设备及存储介质，获取作为图像生成依据的原始数据集，其中，原始数据集中包括：基础图像和对应的引导语句；再采用图像生成模型中的第一编码网络，针对引导语句进行特征提取，得到对应的原始文本特征，以及采用第二编码网络，针对引导语句进行特征提取，得到对应的目标文本特征，其中，第二编码网络是采用原始数据集对第一编码网络进行训练后获得的；这样，借助于原始文本特征，能够表征出引导语句对于基础图像的引导方向，而且，由于目标文本特征由训练后的第二编码网络提取得到，故获得的目标文本特征具有引导图像生成模型生成基础图像的能力；

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图1所示，为本申请实施例中可能的应用场景示意图。该应用场景示意图中，包括服务端设备110，以及客户端设备120。

在一些可行的实现方式中，服务端设备110获取客户端设备120发送的原始数据集，其中，原始数据集中包括图像数据和文本数据，即，一个基础图像和对应的引导语句；之后，服务端设备110基于基础图像和引导语句，以及图像生成模型进行逐步处理，对基础图像中的图像对象进行不同程度的动作调整，分别得到对应的目标图像。

在另一些可行的实施例中，客户端设备120获取原始数据集后，可以自行基于基础图像、引导语句，以及图像生成模型进行逐步处理，对基础图像中的图像对象进行不同程度的动作调整，分别得到对应的目标图像。

服务端设备110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

客户端设备120可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居，以及车载终端等计算机设备。

本申请实施例中，服务端设备110与客户端设备120之间，可以通过有线网络或无线网络进行通信。

本申请可行的不同实施例中，服务端设备110和客户端设备120可能均具有实现图像生成的能力，以下的说明中仅从电子设备的角度，对电子设备实现图像处理的过程，进行示意性说明，其中，电子设备具体可以是服务端设备110，或者，可以是客户端设备120。

下面结合几种可能的应用场景，对相关的图像生成过程进行说明：

场景一、针对虚拟人物实现各种动作下的图像生成。

在场景一所描述的应用场景下，电子设备可以在游戏设计的场景下，根据游戏角色的动作设定需要，实现图像生成；或者，电子设备可以在动漫绘制场景下，根据动漫角色的动作设定需要，实现图像生成。

具体实现时，可以基于虚拟角色的一张基础图像，分别生成该虚拟角色在各种动作下的目标图像，其中，各种动作可能是行走、奔跑、跳跃、攻击、防御等等。

以针对一种动作生成对应的目标图像为例，电子设备基于虚拟角色的基础图像，以及指示该虚拟角色的动作调整操作的引导语句，采用图像生成模型进行处理，得到多个目标图像。

在处理过程中，基于图像生成模型中的第一编码网络，得到引导语句对应的原始文本特征，以及通过训练图像生成模型中第一编码网络的文本特征提取能力，使得训练得到的第二编码网络基于引导文本，能够提取出引导生成基础图像的目标文本特征；之后，对图像生成模型中的初始去噪网络进行训练，得到目标去噪网络，使得借助于图像生成模型中的目标去噪网络，能够在目标文本特征的引导下，基于模型内部对于基础图像的处理结果，输出与该基础图像内容一致的预测图像；进而，电子设备通过采用不同的加权融合方式，对目标文本特征和原始文本特征进行加权融合处理，使得能够得到表征不同图像调整引导程度的各文本融合特征；再将各文本融合特征分别作用于图像生成模型中的目标去噪网络，得到模型输出的目标图像。

这样，能够自动化地实现游戏角色的动作生成，可以省去动作设计师执行从头设计的重复操作，避免在相同的事情上重复的投入精力，能够提高图像的生成效率；而且，基于本申请的方案，能够在不同文本融合特征的影响下，生成多个目标图像，极大的提高了符合要求的图像出现的概率，能够极大的避免人工投入，在可能的实施例中，最多只需人工在生成的动作效果上进行图像细节修复即可；这可以帮助游戏开发者制作出更加流畅、逼真的角色动画，提高动画的生成效率和游戏的开发效率。

场景二、针对实体人物进行实现各种动作下的图像生成。

在场景二所对应的应用场景下，为了满足电影、电视剧等视频作品的制作需要，通常需要确定视频作品中的演员角色在各种动作下的预览效果，如，为了满足特效的制作需要，生成演员角色在不同动作下的目标图片，或者，为了辅助演员的表演，生成演员角色在不同动作下的目标图片。

以针对一种动作生成对应的目标图像为例，电子设备基于演员角色的基础图像，以及指示该演员角色的动作调整操作的引导语句，采用图像生成模型进行处理，得到多个目标图像。

这样，基于本申请提出的技术方案，能够实现人物的动作编辑，在电影等影视作品的拍摄前就得到演员角色在某些动作的预览效果，能够辅助电影制作人员提升各演员角色的动作设计效果，及时发现不合适出现在影视作品中的动作，如，矮个子英雄不适合在高个子对手前蹲下，而更适合凌空踢腿等动作。

场景三、在建设设计场景下，生成建设物中的模特在不同动作下的目标图像。

在场景三所描述的应用场景中，为了实现建筑可视化技术中，需要模特以不同的动作状态出现在建筑物中，比如，坐在建筑楼梯上、站在建筑楼梯上、站在建筑露台上，以及在指定的拍摄地点摆拍等，其中，可能出现的模特动作包括坐下、漫步、举手比耶等等。

以针对一种动作生成对应的目标图像为例，电子设备基于一张模特在建筑物中的基础图像，以及指示该模特的动作调整操作的引导语句，采用图像生成模型进行处理，得到多个目标图像。

这样，通过采用本申请提出的技术方案，能够实现对出镜模特的动作编辑，可以帮助建筑可视化开发者制作出更加生动的动作效果，从而展示建筑在人们生活工作中的价值。

另外，需要理解的是，在本申请的具体实施方式中，涉及到针对图像对象的动作调整和图像生成，当本申请记载的实施例运用到具体产品或技术中时，需要获得图像对象的许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面结合附图，从电子设备的角度，对图像生成过程进行说明：

参阅图2A所示，其为本申请实施例中图像生成流程示意图，下面结合附图2A，对图像生成过程进行说明：

步骤201：电子设备获取原始数据集。

具体的，为了满足图像生成需要，电子设备需要获取图像生成所依据的原始数据集，其中，原始数据集包括：一个基础图像和对应的引导语句；引导语句用于描述针对基础图像中的图像对象的动作调整操作。

需要说明的是，图像对象是指在基础图像中出现的一个对象，基于引导语句，能够确定针对图像对象进行动作调整操作后的目标动作。

在可能的实施例中，原始数据集中包括的数据可能是电子设备基于业务对象上传的数据生成的；在另一些可能的实施例中，原始数据集可以是电子设备直接获取得到的。

例如，在可能的实施例中，电子设备获取用户上传的基础图像、对于基础图像中的图像对象的对象描述语句，以及对于动作调整后的目标动作的动作描述语句；则电子设备可以将对象描述语句和动作描述语句进行组合，得到用于描述针对图像对象的动作调整操作的引导语句，此时，对象描述语句可以理解为引导语句中的子语句。

又例如，电子设备获取的对象描述语句为“Liming”，动作描述语句为“with a biggrin”，那么，得到的引导语句为“Liming with a big grin”，“Liming”可以理解为用于描述图像对象的子语句。

步骤202：电子设备采用第一编码网络和第二编码网络，分别提取引导语句的原始文本特征和目标文本特征。

本申请实施例中，电子设备获取原始数据集和图像生成模型后，借助于原始数据集，对图像生成模型中的第一编码网络进行训练，得到微调训练后的第二编码网络。另外，本申请实施例中，电子设备训练得到第二编码网络的目的在于：得到第二编码网络基于引导语句提取的目标文本特征。

基于此，电子设备能够得到训练第一编码网络之前针对引导语句提取的，表征动作调整方向的原始文本特征，以及得到训练第一编码网络后针对引导语句提取的，可以引导生成基础图像的目标文本特征。

在本申请一些可行的实施例中，可以基于文本到图像的扩散模型（imagen），以及扩模态跨模态图文表征模型（Contrastive Language-Image Pre-training，CLIP）结构下的文本分支网络，构建图像生成模型。

在本申请另一些可行的实施例中，可以基于稳定扩散模型（Stable Diffusion，SD）的模型结构和CLIP结构下的文本分支网络，构建图像生成模型。以下的说明书中，仅以图像生成网络是基于SD模型和CLIP模型的文本分支网络搭建为例，对相关的处理过程进行说明，对于采用不同结构搭建的图像生成模型而言，具有相同的图像生成逻辑。

需要说明的是，在可能的实施例中，电子设备获取的图像生成模型是经过预训练后得到的；换言之，在本申请提出的技术方案中，初始的图像生成模型是经过对原始的图像生成模型进行预训练后得到的。

基于此，初始的图像生成模型中包括：预训练后得到的编码网络（记为Encoder）、预训练后得到的初始扩散网络、预训练后得到的初始去噪网络，以及预训练后得到的译码网络（记为Decoder），以及预训练后得到的第一编码网络（即text_encoder，记为）。

对于初始的图像生成模型而言，在搭建原始的图像生成模型后，可以采用开源的stable-diffusion v1.5版本模型进行参数初始化，并将参数初始化后的图像生成模型视为预训练后的图像生成模型（即初始的图像生成模型）。本申请实施例中，初始化针对的网络包括Encoder、Decoder、、U-Net（对应Denoising process）、对应Diffusion process的扩散网络；另外，第一编码网络为去噪过程提供文本表征，具体可以是开源的CLIP模型中的文本表征网络，或者，可以是训练后的BLIP模型网络，又或者，可以是双向编码表示（Bidirectional Encoder Representation from Transformers，BERT）模型网络等，本申请在此不对训练CLIP、BLIP，以及BERT模型的过程进行说明。

在训练得到第二编码网络的过程中，电子设备获取初始的图像生成模型；再基于原始数据集对该图像生成模型中的第一编码网络进行多轮迭代训练，获得训练后的第二编码网络，其中，迭代训练的收敛条件可以是：训练轮数达到轮数设定值，或者，计算得到的损失值连续低于第一设定值的次数达到预设的第二设定值；轮数设定值、第一设定值，以及第二设定值的具体取值，分别根据实际的处理需要设置，本申请对此不做具体说明。

下面以针对第一编码网络进行的最初一轮迭代训练过程为例，对涉及到的处理过程进行说明：

需要说明的是，本申请实施例中，可以根据已训练轮数，调整模型训练过程中所使用的学习率，在可行的实现方式中，可以设置每训练M轮，进行一次学习率的下调。

例如，假设设置针对一个基础图像和对应的引导语句训练500轮，初始化采用0.0004的学习率进行训练，那么，可以每100轮学习后学习率变为原来的0.1倍。

在一轮迭代训练过程中，电子设备采用初始的图像生成模型，基于基础图像和引导语句得到预测图像，并基于预测图像和基础图像间的像素差异，调整第一编码网络的网络参数。

参阅图2B所示，其为本申请实施例中训练第一编码网络时模型内部的处理过程示意图，根据图2B示意的内容可知，假设获取的初始图像生成模型是经过预训练后得到的，那么，图像生成模型中包括：预训练后得到的编码网络（记为Encoder）、对应扩散过程（Diffusion process）的预训练后得到的初始扩散网络、对应去噪过程（Denoisingprocess）的预训练后得到的初始去噪网络，以及预训练后得到的译码网络（记为Decoder），其中，编码网络具体可以是变分自编码器（Variational Autoencoder，VAE）网络。

继续结合附图2B进行说明，对于图像生成模型的基本处理逻辑而言，将基础图像进行加噪（Add noise）处理后，与引导语句一道输入图像生成模型，使得图像生成模型内部能够基于引导语句提取得到文本特征，与此同时，采用Encoder对加噪后的基础图像进行编码处理，将加噪后的基础图像映射到潜在特征空间，并通过执行Diffusion Process，对编码得到的结果进行扩散处理，得到图像扩散结果（即T时刻的隐空间表征）；再通过执行Denoising Process，在文本特征的作用下，基于图像扩散结果，进行T次Denoising U-Net操作还原得到编码特征（或称，图像去噪结果，即不加噪声的基础图像特征），进而采用Decoder网络，基于得到的降噪还原后的编码特征输出预测图像。

在对基础图像进行加噪处理时，可以随机获取一个种子i产生对应的噪声图，其中，在SD模型的处理框架下，基于种子生成噪声图为本申请的常规技术，本申请在此不对生成噪声图的过程进行详细说明；之后，将生成的噪声图与基础图像进行相同像素位置的像素值融合，得到加噪后的基础图像；

具体的，继续结合附图2B示意的过程进行说明，电子设备将加噪后的基础图像和引导语句输入图像生成模型，采用Encoder对加噪后的基础图像进行编码压缩处理，以及采用初始扩散网络对编码压缩后的结果进行扩散处理，得到隐空间图像特征；与此同时，采用/>对引导语句进行特征提取，得到原始文本特征（记为/>）。

然后，参阅图2C所示，其为本申请实施例中初始去噪网络的处理过程示意图，在申请实施例中采用U-Net网络实现去噪过程的情况下，附图2B中的Denoising process具体对应一个经过T个步骤Denosing U-Net计算的计算过程。具体的，将原始文本表征作为Denosing U-Net中的KV信息，并在KV信息的约束下针对进行去噪计算，得到T-1时刻的U-Net输入/>；进而，继续针对/>，进行在KV信息的约束下的去噪计算，得到T-2时刻的U-Net输入/>；同理，重复进行上述操作，直至得到/>预测值；再采用Decoder网络基于进行处理，得到预测图像。

之后，电子设备根据预测图像和输入的基础图像之间的像素值差异，计算均方误差（mean-square error，MSE）损失，其中，计算得到MSE的公式形如如下所示：

其中，MSE为基于当前一轮训练计算得到的损失值，n为基础图像中的像素点总数，表示基础图像中i位置对应的像素值，/>表示输出的预测图像中i位置对应的预测像素值。

进而，结合附图2B进行说明，在参数调整的过程中，采用随机梯度下降（Stochastic Gradient Descent，SGD）算法，按照虚线示意性的梯度回传路径，基于得到的损失值进行反向传播，把损失值反向回传到模型中得到原模型参数的梯度，并更新中的模型参数。

同理，电子设备采用上述处理方式，对图像生成模型中的第一编码网络进行N轮迭代训练，最终得到微调训练后的第二编码网络。

应该理解的是，在对第一编码网络进行微调训练时，在第一轮迭代训练的过程中，第一编码网络基于引导语句生成的文本特征，为原始文本特征；在最后一轮迭代训练过程中，经过多轮参数更新后的第一编码网络，基于引导语句生成的文本特征，为目标文本特征。

这样，在对图像生成模型中的第一编码网络进行训练的过程中，相当于在冻结了模型中除第一编码网络之外的其他网络参数的情况下，通过微调第一编码网络，使得基于引导语句得到的文本特征，能够引导模型从加噪的图像中恢复出基础图像，换言之，微调第一编码网络得到的第二编码网络，能够基于引导语句提取出引导生成基础图像的目标文本特征，使得得到的目标文本特征具有引导模型从加噪图像中恢复出基础图像的能力；这相当于在模型内部，将目标文本特征与基础图像进行了绑定。

步骤203：电子设备分别采用对应不同图像调整引导程度的各预设加权方式，对原始文本特征和目标文本特征进行加权融合，获得相应的文本融合特征。

本申请实施例中，考虑到原始文本特征是采用图像生成模型中的第一编码网络进行特征提取后得到的，故原始文本特征与引导语句相对应，具有为图像的生成提供引导方向的作用；而目标文本特征是借助于训练后的第二编码网络获得的，是能够引导生成基础图像的文本特征，故目标文本特征可以理解为与基础图像相绑定，具有引导恢复基础图像的能力。

基于此，为了同时兼顾生成的图像与基础图像间的背景内容一致性，以及针对图像对象进行的动作调整有效性，需要综合原始文本特征和目标文本特征。因此，电子设备分别采用对应不同图像调整引导程度的各预设加权方式，对原始文本特征和目标文本特征进行加权融合，获得相应的文本融合特征。

电子设备采用的预设加权方式，包括但不限于以下两种：

加权方式一、对原始文本特征和目标文本特征进行加权叠加。

具体的，在加权方式一对应的处理过程中，电子设备可以采用预设的权重参数组，对原始文本特征和目标文本特征进行加权叠加，得到叠加后的文本融合特征。

需要说明的是，电子设备可以获取预设的多个权重参数组，并针对每个权重参数组，分别生成对应的一个文本融合特征，其中，一个权重参数组中包括：针对原始文本特征和目标文本特征分别预设的权重参数；一个权重参数组中的两个权重参数相加和为1。

电子设备具体可以采用以下公式，得到文本融合特征：

其中，a和1-a为同属一个权重参数组的两个权重参数，a为针对原始文本特征预设的权重参数，1-a为针对目标文本特征/>预设的权重参数；另外，a的取值根据实际处理需要设置，可以取值小于1或者取值不小于1。

需要说明的是，当a的取值小于1时，权重参数组中的两个权重参数取值均为正，此时，目标文本特征和原始文本特征之间的加权叠加，可以理解为正加权融合；当a的取值不小于1时，权重参数组中的两个权重参数取值为一正一负，或者，一个取值为正一个取值为零，此时，目标文本特征和原始文本特征之间的加权叠加，可以理解为负加权融合。

例如，假设预设的四个权重参数组为{0.8；0.2}、{0.9；0.1}、{1；0}，以及{1.1，-0.1}，那么，可以基于四个权重参数组，加权叠加得到四个文本融合特征。

加权方式二、对原始文本特征和目标文本特征进行加权拼接。

在加权方式二对应的处理过程中，电子设备可以采用预设的权重参数组，对原始文本特征和目标文本特征进行加权，并采用从加权后的目标文本特征中截取的表达文本语义的特征内容，对加权后的原始文本特征中非表达文本语义的特征内容进行替换。

应该理解的是，在其他可行实现方式中，电子设备在对原始文本特征和目标文本特征进行加权后，可选择的，可以采用从加权后的原始文本特征中截取表达文本语义的特征内容，对加权后的目标文本特征中非表达文本语义的特征内容进行替换。

以下的说明中，仅以采用从加权后的目标文本特征中截取的表达文本语义的特征内容，对加权后的原始文本特征中非表达文本语义的特征内容进行替换为例，对相关的处理过程进行说明。

本申请实施例中，电子设备从加权后的目标文本特征中截取表达文本语义的特征内容的过程中，电子设备在加权后的目标文本特征中，确定表达文本语义的特征内容所对应的第一词位范围，其中，第一词位范围对应的词位长度，不高于加权后的目标文本特征的词位长度的一半；加权后的目标文本特征和加权后的原始文本特征的词位长度相同；再按照第一词位范围，在加权后的目标文本特征中，截取对应的特征内容。

具体的，由于原始文本特征是由图像生成模型中的第一编码网络提取得到的，目标文本特征是由图像生成模型中训练后的第二编码网络提取得到的，故原始文本特征和目标文本特征的特征维度相同。

在基于CLIP结构的文本表征网络构建第一编码网络的情况下，结合实际的处理经验，目标文本特征和原始文本特征具体为77x768的向量，其中，77表征特征中词位（token）的总数，768表征每个token对应的特征维数；考虑到对于CLIP结构的文本表征网络而言，能够在30个向量词位中表达出文本语义的完整含义，其他的词位向量为带空语句信息的向量。

基于此，电子设备可以将第1-30个向量词位，确定为表达文本语义的特征内容所对应的第一词位范围，而且第一词位范围对应的词位长度为30，不高于文本特征对应的词位长度的一半，其中，文本特征对应的词位长度为77。

之后，按照确定的第一词位范围，从加权后的目标文本特征中截取对应的特征内容。

需要说明的是，当第一编码网络采用其他网络结构构建时，可以同理确定表达文本语义的特征内容所对应的第一词位范围，并同理进行特征内容的截取，本申请在此将不做具体说明。

这样，能够从目标文本特征中定位出表达文本语义的第一词位范围，进而能够按照定位的第一词位范围，从加权后的目标文本特征中截取出表达文本语义的特征内容，使得能够有效截取加权后的目标文本特征中存在实质意义的特征内容。

进一步的，电子设备基于从加权后的目标文本特征中截取的特征内容，替换加权后的原始文本特征中非表达文本语义的特征内容的过程中，电子设备确定加权后的原始文本特征中，与非表达文本语义的特征内容对应的第二词位范围，并在第二词位范围中选取与第一词位范围相匹配的内容替换区域；基于截取的特征内容替换内容替换区域中的特征内容。

具体的，电子设备在确定表达文本语义的特征内容所对应的第一词位范围的同时，可以将原始文本特征中除第一词位范围外的词位范围，确定为第二词位范围；之后，可以按照第一词位范围对应的词位长度，在第二词位范围中确定与第一词位范围的词位长度相匹配的内容替换区域；进而，基于从目标文本特征中截取的特征内容，替换原始文本特征中该内容替换区域中的特征内容。

例如，电子设备具体可以采用以下公式，得到拼接后的文本融合特征：

其中，a和1-a为同属一个权重参数组的两个权重参数，a为针对原始文本特征预设的权重参数，1-a为针对目标文本特征/>预设的权重参数；另外，a的取值根据实际处理需要设置，可以取值小于1或者取值不小于1；上述公式的处理原理为，先基于加权后的原始文本特征初始化文本融合特征，再在文本融合特征（即加权后的原始文本特征）中，选取内容替换范围P-P+30，以及采用从加权后的目标文本特征中截取的特征内容，替换初始化的文本融合特征中P-P+30范围的特征内容，得到最终的文本融合特征；其中，P的取值为正整数，在第一词位范围为1-31，且目标文本特征和原始文本特征具体为77x768的向量的情况下，P的取值范围为：31<P<48。

需要说明的是，本申请实施例中，在针对基础图像中的人物进行动作编辑时，优选的权重参数组为{0.8；0.2}、{0.9；0.1}、{1.1；-0.1}，以及{1.2；-0.2}，其中，这些权重参数组为经过多个测试数据测试后确定的最佳经验参数，在面对其他非人物动作编辑任务（如风格渲染、人物服装更换等）时，可以灵活的选取其他权重参数组。

另外，本申请实施例中，步骤203描述的加权融合操作，也可以在训练得到目标去噪网络之后执行。

这样，通过对加权后的原始文本特征中非表达文本语义的特征内容进行替换，使得最终得到的文本融合特征中，同时包括加权后的原始文本特征和加权后的目标文本特征中表达文本语义的特征内容，相当于为图像的引导生成构建了引导依据。

综合而言，借助于上述加权方式一和加权方式二中提出的加权方式，使得文本融合特征的生成具有多样性，相当于借助于不同的特征融合程度，在基础图像的基础上施加引导语句的影响，使得能够得到多个文本融合特征，为后续多样性地引导生成目标图像提供了引导依据，能够有效降低由于单一加权结果造成的目标图像生成畸形和错误的影响；有助于生成更多与基础图像间，满足内容一致性和编辑相关性要求的目标图像。

步骤204：电子设备采用目标去噪网络，分别基于获得的各文本融合特征和基础图像，对基础图像中的图像对象进行动作调整，获得相应的目标图像，其中，目标去噪网络，是基于目标文本特征和原始数据集，对图像生成模型中的初始去噪网络进行训练后获得的。

本申请实施例中，电子设备对图像生成模型中的初始去噪网络进行训练，得到目标去噪网络的过程中，基于目标文本特征和加噪后的基础图像，对初始去噪网络进行多轮迭代训练，得到训练后的目标去噪网络，其中，迭代训练的收敛条件可以是：训练轮数达到第三设定值，或者，计算得到的损失值连续低于第四设定值的次数达到预设的第五设定值；第三设定值、第四设定值，以及第五设定值的取值根据实际的处理需要设置，本申请对此不做具体说明。

需要说明的是，在训练得到目标去噪网络的过程中，冻结图像生成模型中除初始去噪网络之外的其他网络，即，在保持不同训练轮次中其他网络的网络参数不变的情况下，针对初始去噪网络进行微调训练。

下面以针对初始去噪网络进行的最初一轮迭代训练过程为例，对涉及到的处理过程进行说明：

采用初始扩散网络，基于加噪后的基础图像，生成图像扩散结果，并采用初始去噪网络，基于图像扩散结果和目标文本特征，得到预测图像，以及基于预测图像和基础图像间的像素差异，调整初始去噪网络的网络参数。

参阅图2D所示，其为本申请实施例中训练初始去噪网络的过程示意图，在对初始去噪网络进行一轮迭代训练的过程中，将目标文本特征和经过Diffusion process处理得到的图像扩散结果，输入初始去噪网络进行去噪处理，最终得到图像生成模型输出的预测图；之后，计算预测图和基础图像之间的MSE损失，并基于得到的损失值调整初始去噪网络的网络参数，其中，MSE损失的计算方式与步骤202中示意的公式相同，在此不做具体说明。

同理，电子设备采用上述处理方式，对图像生成模型中的初始去噪网络进行多轮迭代训练，直至满足预设的收敛条件，最终得到微调训练后的目标去噪网络。

需要说明的是，对第一编码网络进行微调训练，是为了保证目标文本特征与基础图像一致，换言之，为了保障基于目标文本特征能够引导生成基础图像；另外，为了在目标文本特征和基础图像之间增加更强的一致性约束，针对初始去噪网络进行微调训练，使得图像生成模型在目标文本特征的引导下生成的图像，与输入的基础图像更加一致。

这样，通过对初始去噪网络进行训练，得到训练后的目标去噪网络，使得图像生成模型能够进一步感知目标文本特征与基础图像间的对应关系，有助于提高图像生成模型的图像生成效果。

进一步的，电子设备采用目标去噪网络，分别基于获得的各文本融合特征和基础图像，对基础图像中的图像对象进行动作调整，获得相应的目标图像的过程中，采用图像生成模型中的初始扩散网络，基于基础图像生成对应的图像扩散结果；再针对各文本融合特征，分别执行以下操作：将图像扩散结果和一个文本融合特征，输入图像生成模型中的目标去噪网络，得到图像生成模型输出的动作调整后的目标图像。

参阅图2E所示，其为本申请实施例中生成目标图像的过程示意图，下面结合附图2E，对生成目标图像的过程进行说明，电子设备获取步骤203中采用不同加权方式得到的文本融合特征，即图2E中示意的在不同权重参数组的作用下得到的求和正融合1和求和负融合2，以及拼接正融合3和拼接负融合4，其中，求和正融合1和求和负融合2，是采用步骤203中的加权方式一处理得到的，求和正融合1对应的权重参数组可以是{0.8，0.2}，求和负融合2对应的权重参数组可以是{1.1，-0.1}；拼接正融合3和拼接负融合4，是采用步骤203中的加权方式二处理得到的，拼接正融合3对应的权重参数组可以是{0.8，0.2}，拼接负融合4对应的权重参数组可以是{1.1，-0.1}。

继续结合附图2E进行说明，在进行目标图像的生成时，将Diffusion process处理得到的图像扩散结果，分别与求和正融合1、求和负融合2、拼接正融合3，以及拼接负融合4一道，输入至图像生成模型中的目标去噪网络，分别得到图像生成模型在求和正融合1、求和负融合2、拼接正融合3，以及拼接负融合4的引导下，基于图像扩散结果分别输出的目标图像，在图2E的示意中，针对每个文本融合特征，生成有2个目标图像。

继续结合附图2E示意的内容进行说明，在生成目标图像时，电子设备先将图像扩散结果与求和正融合1一道，输入目标去噪网络，得到图像生成模型在求和正融合1的引导下生成的两张目标图像；再将图像扩散结果与求和负融合2一道输入目标去噪网络，得到图像生成模型在求和负融合2的引导下生成的两张目标图像；之后，将图像扩散结果与拼接正融合3一道输入目标去噪网络，得到图像生成模型在拼接正融合3的引导下生成的两张目标图像；然后，将图像扩散结果与拼接负融合4一道输入目标去噪网络，得到图像生成模型在拼接负融合4的引导下生成的两张目标图像。

而且，继续结合附图2E分析可知，就图像的生成效果而言，对比基于求和正融合1引导生成的目标图像，拼接负融合4引导生成的目标图像中，图像对象的咧嘴程度最大；而且，采用求和负融合2引导生成的目标图像中，图像对象的咧嘴程度比求和正融合1对应的目标图像更大；采用拼接正融合3引导生成的目标图像中，图像对象的咧嘴程度也比求和正融合1对应的目标图像更大。

这样，电子设备能够针对采用不同加权融合方式得到的多个文本融合特征，分别引导图像生成模型中的目标去噪网络进行图像生成，使得能够得到在不同文本融合特征影响下产生的目标图像，因而生成的目标图像具有多样性，能够提高生成满足需求的目标图像的可能性，使得能够更丰富地实现图像生成。

进一步的，为了对模型生成的目标图像进行生成效果评价，可以针对生成的每个目标图片，计算得到对应的评价值，并依据得到的评价值实现对目标图片的筛选。

在计算每个目标图片对应的评价值时，电子设备针对每个目标图像，分别执行以下操作：确定包含在引导语句中的用于描述图像对象的子语句，并采用第二编码网络，基于子语句生成对应的子文本特征；再从目标图像和基础图像中，分别裁剪出包含图像对象的子图像，并采用预设的图像编码网络，分别提取目标图像、基础图像和裁剪出的各子图像的图像特征；之后，基于目标图像和基础图像之间的特征差值，各子图像之间的特征相似度，以及子文本特征和目标文本特征之间的特征差值，计算目标图像对应的评价值。

具体的，电子设备在引导语句中确定描述动作调整所针对的图像对象的子语句后，采用生成目标文本特征的第二编码网络，基于子语句生成对应的子文本特征。另外，为了评估目标图像和基础图像中，对于图像对象的生成细节的差异，可以分别在目标图像和基础图像中，定位图像对象所在的区域，并从目标图像和基础图像中，分别裁剪出包含图像对象的子图像，之后，针对各子图像分别进行图像特征提取。

需要说明的是，在图像对象为人的情况下，电子设备可以采用开源的人体检测模型，在基础图像和生成的目标图像中提取人物框，其中，开源的人体检测模型可以是基于开源coco数据集训练的yolo检测模型，或者，可以是采用开源计算机视觉库（Open SourceComputer Vision Library，OpenCV）工具，基于HOG特征+SVM分类器实现检测；在确定人物框后，可以采用CLIP模型中的图像表征分支网络，分别针对目标图像和基础图像中人物框内的图像内容，提取得到子图像的图像特征，或者，可以采用开源的或自有数据训练的人体表征模型，如，在开源的Market1501数据集上训练的人体表征模型，针对子图像提取图像特征。

之后，在基于提取的文本特征和图像特征计算评价值的过程中，电子设备基于目标图像的图像特征和基础图像的图像特征，在每个特征维度上的取值差异，确定由各特征维度上的取值差异组成的图像特征差值；再基于子文本特征和目标文本特征，在每个特征维度上的取值差异，确定由各特征维度上的取值差异组成的文本特征差值；之后，采用预设的相似度算法，计算各子图像之间的图像特征相似度，以及图像特征差值和文本特征差值之间的差异相似度，并基于特征相似度和差异相似度，计算目标图像对应的评价值。

参阅图2F所示，其为本申请实施例中计算评价值的过程示意图，下面结合附图2F，对可行的计算评价值（记为Merge）的过程进行说明：

具体的，在计算图像特征差值diff2时，采用如下公式进行计算：

图像特征差值diff2=针对目标图像提取的图像特征Img_emb2-针对基础图像提取的图像特征Img_emb1；

其中，针对目标图像和基础图像分别提取的图像特征，可以是采用CLIP模型中的图像分支网络提取得到的。

在计算文本特征差值diff1时，采用如下公式进行计算：

文本特征差值diff1=目标文本特征emb2-子文本特征emb1

其中，针对目标图像和基础图像分别提取的图像特征，可以是采用第二编码网络提取得到的。

在计算图像特征差值和文本特征差值之间的差异相似度时，采用如下公式进行计算：

其中，C表征图像特征差值diff2，D表征文本特征差值diff1。

在计算图像特征相似度时，采用如下公式进行计算：

其中，A表征目标图像中子图像的图像特征Img_emb2.1，B表征基础图像中子图像对应的图像特征Img_emb1.1。

之后，在针对一个目标图像计算对应的评价值时，基于图像特征差值和文本特征差值之间的差异相似度，以及图像特征相似度，计算得到目标图像对应的评价值。

换言之，借助于图像特征差值和文本特征差值之间的差异相似度，能够度量生成前后图像的编辑效果；借助于图像特征相似度，能够度量人物一致性效果，最终通过融合编辑效果和人物一致性得分，得到最终得分（即评价值）。

例如，在计算评价值时，可以通过将和进行相乘，得到对应的评价值。

这样，通过针对基础图像和目标图像中的图像对象，进行图像特征相似度的计算，能够度量图像对象的一致性效果；而且，通过结合各子图像之间的图像特征相似度，以及图像特征差值和文本特征差值之间的差异相似度计算评价值，相当于能够从编码效果和图像对象一致性两方面入手，得到对于目标图像的综合评价结果，实现了对于生成的目标图像的量化评价。

可选的，电子设备针对每个目标图像，分别计算得到对应的评价值后，可以依据目标图像的评价值对各目标图像进行排序，筛选出符合要求的图像。

在实现目标图片筛选的过程中，电子设备获取各目标图像各自对应的评价值，并按照各评价值的取值递减顺序，对各目标图像进行排序，得到对应的排序结果；再依据排序结果，在各目标图像中，确定满足设定筛选条件的目标图像。

具体的，电子设备按照评价值由大到小的顺序，对各目标图像进行排列后，可以将排序的前Z个目标图像，作为满足设定筛选条件的目标图像，进而将筛选出的目标图像确定为最终生成的目标图像，反馈给相关对象。

例如，在取top2的目标图像作为最终输出的情况下，筛选出的2张图片通常均能够满足编辑需要，极大提高了模型出图率。

可选的，在可行的实现方式中，电子设备还可以按照评价值递减的顺序，排列各目标图像后，直接向相关对象反馈目标图像序列。

这样，借助于量化得到的目标图像的评价值，能够对各目标图像的生成质量进行评估，在此基础上，通过按照评价值进行目标图像的筛选，能够保障对于目标图像的筛选效果，有助于得到同时满足背景内容一致性，以及动作调整准确性要求的目标图像。

下面结合附图，以用户发起图像生成请求后针对性进行图像生成为例，对相关的处理过程进行说明：

参阅图3所示，其为本申请实施例中实现图像生成的过程示意图，下面结合附图3，对相关的处理过程进行说明：

在具体的应用过程中，用户Q按照图3中可操作页面示意的内容进行内容输入，输入的内容包括：输入1、输入2，以及图像，其中，输入1用于描述动作调整所针对的图像对象，如，“Liming”；输入2用于描述进行的动作调整操作，如，“with a big grin（即，咧嘴大笑）”；输入的图像为生成目标图像所依据的基础图像；

之后，电子设备中的训练模块执行的处理为：获取输入1、输入2，以及基础图像，并针对输入1和输入2组成对应的引导语句；再对预训练的图像生成模型中的第一编码网络和初始去噪网络，先后进行微调训练，得到引导语句对应的目标文本特征和原始文本特征；

电子设备中的生成模块执行的处理为：在目标文本特征和原始文本特征的不同加权融合结果的引导下，分别采用训练后的图像生成模型，基于基础图像生成目标图像；

电子设备中的排序模块执行的处理为：计算每个目标图像对应的评价值，并依据得到的评价值对各目标图像进行排序，之后，在客户端的展示页面中，按照确定的评价值递减的顺序，呈现各目标图像。

综合而言，基于本申请提出的技术方案，能够实现三个层面上的图像生成效果提升，第一是通过引入多种加权融合方法，能够实现图像的多样性生成，相当于分多路进行目标图像的生成，使得生成的目标图像更丰富，避免畸形和错误情况影响过大；第二是通过引入相关评价指标，实现对生成的目标图像的评价，使得能够量化图像人物的一致情况和针对图像任务的动作调整效果；第三是通过对目标图像进行排序呈现，降低畸形或错误的图片被排序到前面查看的可能，而且，在筛选部分目标图像最终作为模型输出的图像的情况下，还能够提高模型出图率和图像生成的准确率。

基于同一发明构思，参阅图4所示，其为本申请实施例中图像生成装置的逻辑结构示意图，图像生成装置400中包括获取单元401、提取单元402、融合单元403，以及调整单元404，其中，

获取单元401，用于获取原始数据集；原始数据集包括：一个基础图像和对应的引导语句；引导语句用于描述针对基础图像中的图像对象的动作调整操作；

提取单元402，用于采用第一编码网络和第二编码网络，分别提取引导语句的原始文本特征和目标文本特征；其中，第二编码网络，是基于原始数据集对图像生成模型中的第一编码网络进行训练后获得的；

融合单元403，用于分别采用对应不同图像调整引导程度的各预设加权方式，对原始文本特征和目标文本特征进行加权融合，获得相应的文本融合特征；

调整单元404，用于采用目标去噪网络，分别基于获得的各文本融合特征和基础图像，对基础图像中的图像对象进行动作调整，获得相应的目标图像，其中，目标去噪网络，是基于目标文本特征和原始数据集，对图像生成模型中的初始去噪网络进行训练后获得的。

可选的，各预设加权方式，至少包括以下两种：

采用预设的权重参数组，对原始文本特征和目标文本特征进行加权叠加；

采用预设的权重参数组，对原始文本特征和目标文本特征进行加权，并采用从加权后的目标文本特征中截取的表达文本语义的特征内容，对加权后的原始文本特征中非表达文本语义的特征内容进行替换。

可选的，从加权后的目标文本特征中截取的表达文本语义的特征内容，是融合单元403采用以下方式获得的：

在加权后的目标文本特征中，确定表达文本语义的特征内容所对应的第一词位范围，其中，第一词位范围对应的词位长度，不高于加权后的目标文本特征的词位长度的一半；加权后的目标文本特征和加权后的原始文本特征的词位长度相同；

按照第一词位范围，在加权后的目标文本特征中，截取对应的特征内容。

可选的，对加权后的原始文本特征中非表达文本语义的特征内容进行替换时，融合单元403用于：

确定加权后的原始文本特征中，与非表达文本语义的特征内容对应的第二词位范围，并在第二词位范围中选取与第一词位范围相匹配的内容替换区域；

基于截取的特征内容替换内容替换区域中的特征内容。

可选的，获得相应的目标图像之后，装置还包括评价单元405，评价单元405用于：

针对每个目标图像，分别执行以下操作：

确定包含在引导语句中的用于描述图像对象的子语句，并采用第二编码网络，基于子语句生成对应的子文本特征；

从目标图像和基础图像中，分别裁剪出包含图像对象的子图像，并采用预设的图像编码网络，分别提取目标图像、基础图像和裁剪出的各子图像的图像特征；

基于目标图像和基础图像之间的特征差值，各子图像之间的特征相似度，以及子文本特征和目标文本特征之间的特征差值，计算目标图像对应的评价值。

可选的，基于目标图像和基础图像之间的特征差值，各子图像之间的特征相似度，以及子文本特征和目标文本特征之间的特征差值，计算目标图像对应的评价值时，评价单元405用于：

基于目标图像的图像特征和基础图像的图像特征，在每个特征维度上的取值差异，确定由各特征维度上的取值差异组成的图像特征差值；

基于子文本特征和目标文本特征，在每个特征维度上的取值差异，确定由各特征维度上的取值差异组成的文本特征差值；

采用预设的相似度算法，计算各子图像之间的图像特征相似度，以及图像特征差值和文本特征差值之间的差异相似度，并基于特征相似度和差异相似度，计算目标图像对应的评价值。

可选的，计算目标图像对应的评价值之后，评价单元405还用于：

获取各目标图像各自对应的评价值，并按照各评价值的取值递减顺序，对各目标图像进行排序，得到对应的排序结果；

依据排序结果，在各目标图像中，确定满足设定筛选条件的目标图像。

可选的，第二编码网络，是提取单元402采用如下方式训练得到的：

获取初始的图像生成模型；

基于原始数据集对图像生成模型中的第一编码网络进行多轮迭代训练，获得训练后的第二编码网络，其中，在一轮迭代训练过程中，执行以下操作：

采用图像生成模型，基于基础图像和引导语句得到预测图像，并基于预测图像和基础图像间的像素差异，调整第一编码网络的网络参数。

可选的，图像生成模型中包括：用于提取文本特征的第一编码网络，以及用于生成图像的初始扩散网络和初始去噪网络；目标去噪网络，是调整单元404采用如下方式训练得到的：

基于目标文本特征和加噪后的基础图像，对初始去噪网络进行多轮迭代训练，得到训练后的目标去噪网络，其中，在一轮迭代训练过程中，执行以下操作：

可选的，采用目标去噪网络，分别基于获得的各文本融合特征和基础图像，对基础图像中的图像对象进行动作调整，获得相应的目标图像时，调整单元404用于：

采用图像生成模型中的初始扩散网络，基于基础图像生成对应的图像扩散结果；

针对各文本融合特征，分别执行以下操作：将图像扩散结果和一个文本融合特征，输入图像生成模型中的目标去噪网络，得到图像生成模型输出的动作调整后的目标图像。

在介绍了本申请示例性实施方式的图像生成方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，在本申请实施例中的电子设备对应的是服务端设备的情况下，参阅图5所示，其为应用本申请实施例的一种电子设备的硬件组成结构示意图，电子设备500可以至少包括处理器501、以及存储器502。其中，存储器502存储有计算机程序，当计算机程序被处理器501执行时，使得处理器501执行上述任意一种图像生成的步骤。

在一些可能的实施方式中，根据本申请的电子设备可以包括至少一个处理器、以及至少一个存储器。其中，存储器存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的图像生成的步骤。例如，处理器可以执行如图2A中所示的步骤。

在另一种实施例中，在本申请实施例中的电子设备对应的是客户端设备的情况下，电子设备的结构可以如图6所示，其为应用本申请实施例的另一种电子设备的硬件组成结构示意图，电子设备600包括：至少一个处理单元601、至少一个存储单元602、连接不同系统组件（包括存储单元602和处理单元601）的总线603。

总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元602可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）6021和/或高速缓存存储器6022，还可以进一步包括只读存储器（ROM）6023。

存储单元602还可以包括具有一组（至少一个）程序模块6024的程序/实用工具6025，这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备600也可以与一个或多个外部设备604（例如键盘、指向设备等）通信，还可与一个或者多个使得对象能与电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算装置进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口605进行。并且，电子设备600还可以通过网络适配器606与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器606通过总线603与用于电子设备600的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的图像生成的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像生成方法中的步骤，例如，电子设备可以执行如图2A所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述各预设加权方式，至少包括以下两种：

3.如权利要求2所述的方法，其特征在于，所述从加权后的目标文本特征中截取的表达文本语义的特征内容，是采用以下方式获得的：

4.如权利要求3所述的方法，其特征在于，所述对加权后的原始文本特征中非表达文本语义的特征内容进行替换，包括：

基于截取的特征内容替换所述内容替换区域中的特征内容。

5.如权利要求1所述的方法，其特征在于，所述获得相应的目标图像之后，还包括：

针对每个目标图像，分别执行以下操作：

6.如权利要求5所述的方法，其特征在于，所述基于所述目标图像和所述基础图像之间的特征差值，所述各子图像之间的特征相似度，以及所述子文本特征和所述目标文本特征之间的特征差值，计算所述目标图像对应的评价值，包括：

7.如权利要求5或6所述的方法，其特征在于，所述计算所述目标图像对应的评价值之后，还包括：

8.如权利要求1-6任一项所述的方法，其特征在于，所述第二编码网络，是采用如下方式训练得到的：

获取初始的图像生成模型；

9.如权利要求1-6任一项所述的方法，其特征在于，所述图像生成模型中包括：用于提取文本特征的第一编码网络，以及用于生成图像的初始扩散网络和初始去噪网络；所述目标去噪网络，是采用如下方式训练得到的：

10.如权利要求1-6任一项所述的方法，其特征在于，所述采用目标去噪网络，分别基于获得的各文本融合特征和所述基础图像，对所述基础图像中的所述图像对象进行动作调整，获得相应的目标图像，包括：

11.一种图像生成装置，其特征在于，包括：

提取单元，用于采用第一编码网络和第二编码网络，分别提取所述引导语句的原始文本特征和目标文本特征；其中，所述第二编码网络，是基于所述原始数据集对图像生成模型中的所述第一编码网络进行训练后获得的；

12.如权利要求11所述的装置，其特征在于，所述各预设加权方式，至少包括以下两种：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-10任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-10任一项所述的方法。