CN117876535A

CN117876535A - 一种图像处理方法、装置、设备、介质及程序产品

Info

Publication number: CN117876535A
Application number: CN202410029441.8A
Authority: CN
Inventors: 华锐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-04-12

Abstract

本申请实施例公开了一种图像处理方法、装置、设备、介质及程序产品，其中的方法包括：获取待处理的第一图像和风格提示信息；对第一图像进行图像编码处理，得到图像编码特征；采用注意力算法对第一图像和风格提示信息进行线性变换，并将图像编码特征嵌入至线性变换，生成目标语义特征；基于目标语义特征生成第二图像。采用本申请实施例能够在图像生成过程中嵌入图像编码特征，降低图像生成成本的同时提高图像质量。

Description

一种图像处理方法、装置、设备、介质及程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能领域，具体涉及一种图像处理方法、一种图像处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

文生图是指可以基于用户输入的文本进行图片绘制的过程。

目前，支持采用扩散模型实现文生图；现有文生图流程具体是在随机初始化预训练好的扩散模型的模型参数后，需要使用繁多的图像数据对模型进行微调，这样才能基于训练时使用的文本引导微调后的扩散模型生成新的图像。现有这种推测阶段必须使用较多图像数据微调模型，导致图像生成的成本较高，并且仅使用文本引导模型生成图像存在文本具象性差等问题。

发明内容

本申请实施例提供一种图像处理方法、装置、设备、介质及程序产品，能够在图像生成过程中嵌入图像编码特征，降低图像生成成本的同时提升风格转换后的图像具象性。

一方面，本申请实施例提供了一种图像处理方法，该方法包括：

获取待处理的第一图像和风格提示信息；第一图像具备第一风格，风格指示信息用于指示将第一图像从第一风格转换为第二风格；

对第一图像进行图像编码处理，得到图像编码特征，图像编码特征用于表征第一图像所包括的图像内容的内容特性；

采用注意力算法对第一图像和风格提示信息进行线性变换，并将图像编码特征嵌入至线性变换，生成目标语义特征；目标语义特征具备第一图像所包括图像内容的内容特性，第一图像的图像特性以及风格提示信息的风格转换特性；

基于目标语义特征生成第二图像；第二图像具备第二风格，且第二图像所包括的图像内容和第一图像所包括的图像内容相同。

另一方面，本申请实施例提供了一种图像处理装置，该装置包括：

获取单元，用于获取待处理的第一图像和风格提示信息；第一图像具备第一风格，风格指示信息用于指示将第一图像从第一风格转换为第二风格；

处理单元，用于对第一图像进行图像编码处理，得到图像编码特征，图像编码特征用于表征第一图像所包括的图像内容的内容特性；

处理单元，还用于采用注意力算法对第一图像和风格提示信息进行线性变换，并将图像编码特征嵌入至线性变换，生成目标语义特征；目标语义特征具备第一图像所包括图像内容的内容特性，第一图像的图像特性以及风格提示信息的风格转换特性；

处理单元，还用于基于目标语义特征生成第二图像；第二图像具备第二风格，且第二图像所包括的图像内容和第一图像所包括的图像内容相同。

在一种实现方式中，线性变换包括线性投影变换处理；处理单元，用于将图像编码特征嵌入至线性变换，生成目标语义特征时，具体用于：

获取线性变换过程中执行线性投影变换处理所得的初始语义特征；其中，线性变换用于从第一图像和风格提示信息中提取关键信息；

将图像编码特征和初始语义特征进行组合，生成目标语义特征。

在一种实现方式中，线性变换包括第一子线性变换、第二子线性变换和第三子线性变换，第一子线性变换、第二子线性变换和第三子线性变换均包括线性投影变换处理；目标语义特征包括第一子语义特征、第二子语义特征和第三子语义特征；

处理单元，用于将图像编码特征和初始语义特征进行组合，生成目标语义特征时，具体用于：

将图像编码特征和第一子线性变换过程中执行线性投影变换处理所得的初始语义特征进行组合，生成第一子语义特征；

将图像编码特征和第二子线性变换过程中执行线性投影变换处理所得的初始语义特征进行组合，生成第二子语义特征；

将图像编码特征和第三子线性变换过程中执行线性投影变换处理所得的初始语义特征进行组合，生成第三子语义特征；

基于第一子语义特征、第二子语义特征和第三子语义特征生成目标语义特征。

在一种实现方式中，第一子线性变换和第二子线性变换用于对风格提示信息进行文本语义提取，执行第一子线性变换和第二子线性变换得到风格提示信息的风格转换特性；风格转换提示信息的风格转换特性为第一子线性变换过程和第二子线性变换过程中执行线性投影变换处理所得的初始语义特性；风格转换特性用于表征从第一风格转换为第二风格所需的风格参数；

第三子线性变换用于对第一图像进行图像特征提取，执行第三子线性变换得到第一图像的图像特性；第一图像的图像特性为第三子线性变换过程中执行线性投影变换处理所得的初始语义特征；图像特性用于表征第一图像的图像数据，图像数据包括以下至少一个：分辨率、尺寸数据和像素数据。

在一种实现方式中，处理单元，还用于：

对图像编码特征进行特征降维处理，得到图像编码特征对应的特征矩阵；特征矩阵的维度小于图像编码特征的维度；

处理单元，用于将图像编码特征嵌入至线性变换，生成目标语义特征时，具体用于：

将图像编码特征对应的特征矩阵嵌入至线性变换，生成目标语义特征。

在一种实现方式中，特征矩阵由第一子矩阵，第二子矩阵和第三子矩阵依次相乘组成；图像编码特征的行列信息为m×n，m和n为正整数；处理单元，用于对图像编码特征进行特征降维处理，得到图像编码特征对应的特征矩阵时，具体用于：

按照图像编码特征的行列信息，对图像编码特征进行矩阵分解，得到图像编码特征对应的两个正交矩阵和一个对角矩阵；其中，两个正交矩阵中的一个正交矩阵的行列信息为m×m，另一个正交矩阵的行列为n×n；对角矩阵的行列信息为n×n，且对角矩阵中除主对角线外的其他元素为0，主对角线上元素的数值用于表征内容特性的重要程度，主对角线上元素按照数值从大到小排列；

按照数值从大到小的顺序从对角矩阵的主对角线上的n个元素中选择r个元素组成第二子矩阵，并基于两个正交矩阵和第二子矩阵，构建第一子矩阵和所述第三子矩阵；

将第一子矩阵，第二子矩阵和第三子矩阵依次相乘，得到图像编码特征对应的特征矩阵。

在一种实现方式中，图像处理方法由预训练好的目标图像生成模型执行，目标图像生成模型包括注意力算法层；目标图像生成模型的预训练过程，包括：

从预训练数据集合中获取图像文本对；图像文本对中包括一个样本图像和用于描述样本图像的文本描述；

利用初始图像生成模型对图像文本对中的样本图像进行矩阵化处理，得到预测图像编码特征；矩阵化处理包括图像编码处理，或者图像编码处理和特征降维处理；以及，

利用初始图像生成模型对图像文本对中的文本描述进行语义提取处理，得到预测语义特征；

将预测图像编码特征嵌入至注意力算法层，并结合预测语义特征生成样本图像对应的预测图像；

基于预测图像和所述样本图像，对初始图像生成模型进行预训练，以得到预训练好的目标图像生成模型。

在一种实现方式中，第一图像包括的图像内容包括以下至少一种：人脸、人物、动物和物体；图像内容在预训练阶段未被学习；

风格提示信息的获取方式，包括以下任一种：默认设定的；或者，基于对象在风格选择界面中针对第二风格的输入操作生成的；其中，风格选择界面中包括一个或多个候选风格，输入操作为从一个或多个候选风格中选择第二风格的选择操作；或者，风格选择界面中包括风格输入区域，输入操作为在风格输入区域中输入第二风格的输入操作。

在一种实现方式中，预训练数据集合的构建过程包括：

从公共数据集合中选择第一数量的样本图像组成第一数据集合；以及，

从互联网中搜索第二数量的样本图像组成第二数据集合；第一数量和第二数量的总和大于数量阈值；

分别对第一数据集合和第二数据集合中的样本图像进行数据处理，得到用于预训练初始图像生成模型的预训练数据集合。

在一种实现方式中，初始图像生成模型中包括文本描述模块；第一数据集合或第二数据集合中的任一样本图像表示为目标样本图像；处理单元，用于分别对第一数据集合和第二数据集合中的样本图像进行数据处理，得到用于预训练初始图像生成模型的预训练数据集合时，具体用于：

对目标样本图像进行图像质量处理，得到处理后的目标样本图像；图像质量处理至少包括：方图化处理、图像增强处理和尺寸归一化处理；以及，

采用文本描述模块对目标样本图像进行文本生成处理，生成目标样本图像对应的目标文本描述；

目标样本图像和目标样本图像对应的目标文本描述组成一个图像文本对。

在一种实现方式中，初始图像生成模型中包括第一图像编码模块、第二图像编码模块和特征融合模块；特征融合模块包括初始图像生成模型的可训练参数；矩阵化处理包括图像编码处理；处理单元，用于利用初始图像生成模型对图像文本对中的样本图像进行矩阵化处理，得到预测图像编码特征时，具体用于：

采用第一图像编码模块对图像文本对中的样本图像进行图像编码处理，得到第一预测子图像特征；以及，

采用第二图像编码模块对图像文本对中的样本图像进行图像编码处理，得到第二预测子图像特征；

采用特征融合模块对第一预测子图像特征和所述第二预测子图像特征进行特征融合，得到图像文本对对应的预测图像编码特征。

另一方面，本申请实施例提供了一种计算机设备，该计算机设备包括：

处理器，用于加载并执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述图像处理方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述图像处理方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时，实现上述图像处理方法。

本申请实施例中，在获取到待处理的第一图像和用于指示将第一图像从第一风格转换为第二风格的第二图像的风格提示信息后，一方面，可以直接对第一图像进行图像编码处理，得到该第一图像的图像编码特征，该图像编码特征可以用于表征第一图像所包括的图像内容的内容特性。另一方面，可以采用注意力算法对第一图像和风格提示信息进行线性变换。进一步的，将第一图像的图像编码特征嵌入至线性变换中，使得在线性变换过程中能够提取到目标语义特征，该目标语义特征不仅具备第一图像所包括的图像内容的内容特性，还包括第一图像的图像特性(如图像的一些基础图像数据，如分辨率，图像尺寸等)以及风格提示信息的风格转换特性(如第二风格的风格参数等)。这样，可以基于同时包括图像特征(如图像内容的内容特性和图像特性)和文本特征(如风格转换特征)的目标语义特征生成第二图像，该第二图像具有较高的图像质量，该图像质量较高具体体现于：第二图像所包括图像内容和第一图像所包括图像内容之间的相似度高，且第二图像具有风格提示信息所指示的第二风格，即成功实现风格转换。上述风格转换过程中，直接将第一图像的图像编码特征嵌入至线性变换过程中，相比于需要几十甚至上百张图像来训练模型学习图像特征而言，不仅提高生成的具备第二风格的第二图像的具象性，且有效降低第二图像生成所需的成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种LDM模型的结构示意图；

图2a是本申请一个示例性实施例提供的一种初始图像生成模型的结构示意图；

图2b是本申请一个示例性实施例提供的一种目标图像生成模型的结构示意图；

图3是本申请一个示例性实施例提供的一种图像处理系统的结构示意图；

图4是本申请一个示例性实施例提供的一种图像处理方法的流程示意图；

图5a是本申请一个示例性实施例提供的一种上传第一图像的界面示意图；

图5b是本申请一个示例性实施例提供的另一种上传第一图像的界面示意图；

图6是一种VAE模型的结构示意图；

图7是一种TransformLayer模块的结构示意图；

图8是本申请一个示例性实施例提供的另一种图像处理方法的流程示意图；

图9是本申请一个示例性实施例提供的一种从互联网收集样本图像的示意图；

图10是一种BLIP模型的结构示意图；

图11是本申请一个示例性实施例提供的一种BLIP模型根据目标样本图像生成相应的目标文本描述的示意图；

图12是本申请一个示例性实施例提供的一种图像质量处理的示意图；

图13是本申请一个示例性实施例提供的一种预训练的流程示意图；

图14a是本申请一个示例性实施例提供的一种SVD矩阵分解的示意图；

图14b是本申请一个示例性实施例提供的一种SVD矩阵降低维度的示意图；

图15是本申请一个示例性实施例提供的一种图像处理装置的结构示意图；

图16是本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例基于文生图扩散模型提出一种图像处理方案。其中，文生图扩散模型属于人工智能(Artificial Intelligence，AI)领域，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。

进一步地，文生图扩散模型(或简称为文生图或扩散模型等)是一种预训练模型，支持在预训练扩散模型的过程中输入文本控制生成图片(或称为图像)。详细地，扩散模型包括两个主要过程：前向扩散和反向扩散；在前向扩散阶段，图像被逐渐引入的噪声污染，直到图像成为完全随机噪声；在反向过程中，利用一系列马尔可夫链在每个时间步(或时间戳，如1秒)逐步去除预测噪声，从而从高斯噪声中恢复数据，以生成图像。

更进一步的，扩散模型的种类是繁多的，本申请实施例以扩散模型为逻辑数据模型(Latent Diffusion Models，LDM)为例进行介绍。其中，逻辑数据模型可以称为StableDiffusion模型，是在潜空间而不是像素空间中扩散，可以实现节约内存，同时结合了来自Transformer的文本语义反馈，可以产生多样化和高度详细的图像，同时保留了数据的语义结构。示例性地，LDM模型的主要结构示意图如图1所示，主要由三部分组成，分别是文本编码器TextEncoder，图片编码器VAE Encoder和去噪模型Unet。在针对LDM模型进行预训练的过程，图片编码器VAE Encoder需要将图片加噪处理，去噪模型Unet在文本编码器TextEncoder对文本进行编码的条件下不断去除噪音，并通过图片解码器VAEDe coder还原原始图片。预训练好LDM模型后，还需要采用数量较多的文本图片对作为微调训练数据对预训练好的LDM模型进行微调；在微调训练过程中，LDM模型以文本图像对中的文本作为条件，以文本图像对中加噪声的图片作为输入，对该图片去噪，从而实现从噪声中还原图片的目的。经过上述描述的预训练和微调后的LDM模型，可根据文本描述生成对应含义的图片。

由上述针对扩散模型的相关描述可知，传统扩散模型需要采用预训练和微调实现模型训练，且预训练和微调所需训练数据(如文本图像对)的数量较多，存在训练成本较高和文本具象性差等问题。其中，具象性可以是指事物或现象的真实存在形态和状态，以及它们的具体表现和特征；具象性强的事物或现象容易被人们直接感知和直接理解事物，反之具象性弱的事物或现象往往不容易被人们直接感知和理解。本申请实施例以文生图扩散模型为基底模型给出一种新的图像处理方案，该图像处理方案能够基于有源图像生成轻量级协助矩阵(即一种小参数量的低秩矩阵，支持以可插拔的方式注入到大模型中，实现微调大模型的目的)来实现个性化风格转换。个性化风格转换可以简单理解为基于具有第一风格的有源图像“第一图像”生成具有第二风格的第二图像，且生成的第二图像所包括的图像内容和第一图像所包括的图像内容是相同或相似的。以具备第一风格的第一图像包括人脸为例，对该第一图像进行个性化风格转换得到具备第二风格的第二图像，且该第二图像所包括人脸和第一图像所包括人脸具有较高的相似度，从视觉效果上能看出第二图像所包括人脸所属对象与第一图像所包括人脸所属对象为同一对象。

如前述，本申请实施例以文生图扩散模型StableDiffusion为基底模型，主要从数据和模型两方面内容实现改进，以期望在模型中引入新图像内容(如新的人物或人脸)时，可以降低模型训练的成本，提高模型泛化能力，弥补文本具象性差的缺点，提高生成图像的忠实度(即生成的图像所包括图像内容和原图像所包括图像内容之间的相似度，相似度越高，则忠实度越高)。为便于阐述，本申请实施例将以文生图扩散模型为基底模型用于实现图像处理方案的模型称为图像生成模型，将预训练前的模型称为初始图像生成模型，将预训练好的模型称为目标图像生成模型。其中，图像处理方案主要包括：针对初始图像生成模型的预训练阶段，和使用目标图像生成模型实现个性化风格转换的模型推测阶段。下面对这两个阶段的方案流程进行简单介绍：

(1)预训练阶段。

在预训练阶段，本申请实施例支持自主构建无需人工标注的十万级高质量数据来预训练初始图像生成模型；且采用十万级数据预训练好的目标图像生成模型具有较好的模型泛化能力，能够在不进行模型微调训练(即无需训练)的情况下，引入新的图像内容直接进行模型推测，从而避免微调所带来的训练成本。其中，预训练阶段的初始图像生成模型的结构示意图可以参见图2a；如图2a所示主要包括数据和模型结构两方面的改进。

针对数据的优化，本申请实施例支持使用BLIP模型为图像生成文本描述，提高预训练数据集合中的图像文本对中的样本图像和文本描述的相似度；还支持归一化图像，保证预训练数据集合中样本图像的质量和一致性。

针对模型结构的优化，本申请实施例支持以可以实现文生图功能的预训练StableDiffusion模型为基底模型，直接使用预训练图像编码模型CLIP ImageEnco der、图像编码模型VAE Encoder、多模态预训练模型BLIP、预训练文本模型CLIP TextEncoder、矩阵转换模块(SVD转换模块)和注意力机制(如交叉注意力机制Cross Attention)的模型参数，仅需在预训练过程中针对图像编码模型TransformLayer进行模型参数的更新，且在预训练完成后仅需保留该部分的模型参数即可。为了弥补文本具象性差的缺点，提高生成的图像的忠实度，还支持提取待处理的第一图像的图像编码特征，并将该特征以可插拔方式嵌入至模型中，具体是嵌入至模型所包括的注意力机制中，通过直接分析高质量的图像编码特征实现图像生成，提高生成图像的图像质量。

(2)模型推测阶段。

考虑到本申请实施例针对初始图像生成模型预训练时，采用了十万级高质量预训练数据，且在预训练阶段是直接将图像编码特征嵌入至模型进行图像特征学习的。这使得本申请实施例对初始图像生成模型预训练完成的目标图像生成模型具有很高的泛化能力，可以直接用于模型推测，即直接使用预训练完成的目标图像生成模型对待处理的第一图像进行个性化风格转换，就可以生成第二图像，且确保第二图像具备和第一图像不同的图像风格的同时，保证第二图像所包括图像内容和第一图像所包括图像内容是相同(或者图像内容具有较高的相似度)。

其中，目标图像生成模型的结构示意图可以参见图2b；如图2b所示，在模型推测阶段首先在计算机设备中加载预训练得到的图像编码模型TransformLaye r的模型参数。然后，计算机设备获取待处理的第一图像和风格提示信息；其中，第一图像具有第一风格，且风格提示信息用于指示将第一图像从第一风格转换为第二风格。这样，可以采用已加载TransformLayer模型参数的目标图像生成模型对该第一图像进行图像编码处理，得到该第一图像的图像编码特征，该图像编码特征可以用于表征第一图像所包括的图像内容的内容特性。可选的，图像编码特征可以进行矩阵转换(如图2b所示的SVD转换)，以将图像编码特征转换为小参数量的特征矩阵。然后，再将图像编码特征嵌入至针对第一图像和风格提示信息的线性变换中(具体可以采用特征转换所得的特征矩阵的形式插入到目标图像生成模型中)，生成目标语义特征，使得该目标语义特征能够同时具备第一图像所包括图像内容的内容特性，第一图像的图像特性以及风格提示信息的风格转换特性。最后，基于该目标语义特征生成第二图像，该第二图像具有第二风格，且第二图像所包括的图像内容和第一图像所包括的图像内容相同。

进一步的，对于同一张待处理的第一图像而言，如果用户想要对该第一图像进行多次风格转换，那么考虑到该第一图像的图像编码特征在首次风格转换过程中已迁入至目标图像生成模型。因此，对于多次风格转换中除首次风格转换的后续任一风格转换均只需要改变风格提示信息，即可实现多次风格转换。这在一定程度上提高多次风格转换的转换速度和效率，在图像应用场景(如人物个性化风格转换的场景，具体可以包括将包含真实人物的真实图像转换为动漫图像)中可以提高用户的图像风格转换体验。

需要说明的是，上述图2a和图2b所示的模型结构均为示例性的，在实际应用中模型结构可以发生变换。例如，模型结构所包括的模块类型和数量可以发生变换；再如，在图像编码特征无需转换为小参数量的特征矩阵的情况下，模型结构中甚至可以不包括SVD转换模块；等等。本申请实施例对初始图像生成模型和目标图像生成模型的具体模型结构不作限定。

经实践发现，采用本申请实施例提供的图像处理方案进行图像风格转换时具有明显优势。下面以本申请方案与现有主流多任务模型方案进行比对为例，对本申请实施例的优势进行说明，其中：

现有主流的文生图方案需要经过以下2个步骤：1)在得到预训练好的扩散模型后，如果需要对包括新的图像内容(如人脸)的图像进行风格转换，则在随机初始化该扩散模型的模型参数后，需要使用包含该图像内容的几十甚至上百个图像文本对(图像-文本)实现对该扩散模型的微调，以使得扩散模型能够学习该图像内容的内容特性。2)微调模型后，可以使用训练时(具体是微调时)使用的文本引导扩散模型生成图像。由此可见，传统文生图方案针对每个新的图像内容均需要几十张甚至上百张图像来进行微调，训练至少上百次，需要耗费较长时间(如在GPUA100上花费几十分钟才能实现微调)才能还原图像内容的内容特性，导致训练成本较。并且，在用于微调的训练数据本身较少(如仅有1张)的情况下，随机初始化模型参数训练图像内容，会由于数据量少，很容易造成过拟合，导致不同的文本输入条件只能输出原本风格的图像(即原样训练图)，很难通过文本改变图像的风格。此外，仅基于训练时使用的文本来生成图像，会由于文本本身很难清晰的描述图像内容(如一个物体的外观，例如纹理、颜色和光线等)等问题，存在文本具象性差等问题。

然而，本申请实施例提供一种全新的图像处理方案，该方案能够直接对第一图像进行图像编码处理，以提取到第一图像的图像编码特征，还支持将该图像编码特征嵌入至针对第一图像和风格提示信息的线性变换过程中，弥补传统方案中文本具象性的缺点，使得在针对第一图像和风格提示信息进行线性变换时能够兼顾到第一图像的图像编码特征，确保线性变换生成的目标语义特征能够同时兼具第一图像所包括图像内容的内容特性，第一图像的图像特性以及风格提示信息的风格转换特性。这样，可以有效确保基于该目标语义特征生成的第二图像的图像质量较佳，保证生成图像的忠实度；图像质量较佳主要体现在该第二图像具备风格提示信息所指示的第二风格，且所包括的图像内容和第一图像所包括的图像内容相同。此外，本申请实施例无需人工标注，自主构建十万级高质量数据来预训练模型，使得预训练好的模型具有较强的模型泛化能力，可以实现在引入新的图像内容的情况下无需针对模型进行微调，就可以直接实现对包括该新的图像内容的图像的风格转换，极大地降低了模型训练成本。

在实际应用中，本申请实施例支持使用具备文生图功能的图像生成平台来对第一图像进行风格转换以生成第二图像，即该图像生成平台部署了本申请实施例提供的图像处理方案；这样，用户/对象具有对第一图像进行个性化风格转换的需求时，可以通过该图像生成平台自动基于第一图像生成对应的第二图像。其中，图像生成平台可以是指具备文生图功能的应用程序。应用程序可是指为完成某项或多项特定工作的计算机程序；按照不同维度(如应用程序的运行方式、功能等)对应用程序进行归类，可得到同一应用程序在不同维度下的类型。例如：按照应用程序的运行方式分类，应用程序可包括但不限于：安装在终端中的客户端、无需下载安装即可使用的小程序(作为客户端的子程序)、通过浏览器打开的Web(World WideWeb，全球广域网)应用程序等等。再如：按照应用程序的功能类型分类，应用程序可包括但不限于：IM(Instant Messagin g，即时通信)应用程序、内容交互应用程序等等。其中，即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序，即时通信应用程序可以包括但不限于：包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序，例如可以是分享平台、个人空间、新闻、视频和应用商店等应用程序。

进一步的，图像生成平台还可以是上述提及的应用程序所包含的，支持文生图功能的插件。例如，应用程序为客户端形式的即时通信应用程序，那么图像生成平台可以是该即时通信应用程序中包含的图像插件，此时通过该图像插件，对象(如使用即时通信应用程序的任一对象)在使用该即时通信应用程序进行社交的过程中，可以直接在该即时通信应用程序中进行图像风格转换，而无需应用跳转(如从即时通信应用程序跳转至独立的图像类应用程序中)。

为便于理解本申请实施例提供的图像处理方案，下面结合图3所示的图像处理系统，对图像处理方案的一种图像处理场景进行示例性说明。如图3所示，该图像处理系统中包含终端301和服务器302，本申请实施例对终端和服务器的数量和命名不作限定。

其中，终端301可以是指具有图像风格转换需求的对象所使用的终端设备。终端设备可以包括但不限于：智能手机(如部署安卓(Android)系统的智能手机，或部署互联网操作系统(Internetworking Operating System，IOS)的智能手机等)、平板电脑、便携式个人计算机、车载设备、头戴设备、智能家居等设备，本申请实施例并不对终端设备的类型进行限定，在此说明。终端301中可以部署上述提及的图像生成平台，这样对象在图像风格转换的需求时，可以通过该终端301打开图像生成平台执行风格转换等操作。服务器302是终端301对应的后台服务器，用于与终端301进行交互，以实现为终端301中部署的图像生成平台提供计算和应用服务支持。服务器302可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端301以及服务器302之间可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供的图像处理方案可以是由计算机设备来执行的，该计算机设备中搭载有本申请实施例预训练好的目标图像生成模型；这样在模型推测阶段可以使用该计算机设备调用目标图像生成模型执行图像风格转换。其中，计算机设备可以是图3所示系统中的终端或服务器，即本申请实施例支持由终端和服务器中的任一个，或者终端和服务器共同执行图像处理方案。

以终端和服务器共同执行图像处理方案为例，假设服务器中部署有预训练好的目标图像生成模型，终端中安装有具备图像风格转换能力(即前述提及的文生图功能)图像生成平台，具体可以为具备个性化头像风格转换功能的小程序。对于用户而言，若用户在使用终端的过程中，具有对第一图像(如包含自己或他人的人脸的照片)进行风格转换的需求，那么用户可以通过终端打开终端中安装的小程序，并仅提供单张第一图像至该小程序。这样终端可以将第一图像传输至服务器，使得服务器能够调用部署的目标图像生成模型基于直接对第一图像进行图像编码处理，得到该第一图像的图像编码特征，并将该图像编码特征嵌入至目标图像生成模型中，使得目标图像生成模型能够结合图像编码特征，第一图像和风格提示信息(默认或用户选择)生成第二图像。最后，服务器将生成的第二图像返回至终端，并通过终端向对象输出新生成的第二图像。当然，本申请实施例支持用户在提供一张第一图像后，批量选择多种风格提示信息，表示用户想要对该单张第一图像进行多种风格转换；此实现方式下，服务器可以分别按照每种风格提示信息对第一图像进行风格转换，得到每种风格提示信息对应的第二图像，并返回至终端进行显示。本申请实施例对用户选择的风格提示信息的数量不作限定，后续以风格提示信息的数量为1个为例进行阐述，特在此说明。

需要说明的是，图3所示只是本申请实施例提供的示例性的图像处理系统的架构示意图。在实际应用中该架构可以发生适应性变化，例如，本申请实施例提供的图像处理方案可以是由终端来执行的，此时前述提及的执行主体计算机设备为终端，且该终端中直接部署有预训练好的目标图像生成模型；此实现方式下，终端在获取到对象上传的第一图像和确定的风格提示信息后，可以直接调用目标图像生成模型执行针对第一图像的风格转换的具体实施过程，而无需将第一图像和风格提示信息发送至服务器端进行相关处理。

还需说明的是，本申请实施例中相关数据收集处理应该严格根据相关法律法规的要求，获取个人信息需得到个人主体的知情或同意(或具备信息获取的合法性基础)，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。例如，本申请实施例运用到具体产品或技术中时，如获取第一图像时需要获得持有该第一图像的对象的许可或者同意，且相关数据的收集、使用和处理(如对象发布的弹幕的收集和发布等)需要遵守相关地区的相关法律法规和标准。

基于上述描述的图像处理方案和系统，本申请实施例提出更为详细地图像处理方法，下面将结合附图对本申请实施例提出的图像处理方法进行详细介绍。由前述相关描述可知，本申请实施例提供的图像处理方法主要包括：针对初始图像生成模型进行模型预训练，和使用预训练好的目标图像生成模型进行模型推测这两部分。为方便理解，后续采用不同的实施例分别对模型预训练部分和模型推测部分的具体实施过程进行介绍。

请参见图4，图4是本申请一个示例性实施例提供的一种图像处理方法的流程示意图；该流程示意图主要是从模型推测的角度给出了使用目标图像处理模型实现图像风格转换的具体实施流程。图4所示的方法流程可以由前述提及的计算机设备来执行，如计算机设备可以是前述图3所示的服务器302。图像处理方法可包括但不限于步骤S401-S404：

S401：获取待处理的第一图像和风格提示信息。

(1)第一图像是由用户提供的，需要进行图像风格转换的任一图像。应当理解的是，第一图像所包括的图像内容的种类是繁多的，包括但是不限于以下至少一种：人脸、人物(如半身照或全身照等)、动物和物体等，本申请实施例对第一图像所包括图像内容的种类和数量不作限定。为便于理解，支持将图像内容分为前景内容和背景内容，如第一图像所包括的前景内容可以包括人脸，背景内容可以为空白或非空白。值得说明的是，由前述可知本申请实施例在模型推测阶段是调用预训练好的目标图像生成模型来实现图像风格转换的；考虑到在模型预训练阶段采用了十万级数据进行预训练，且依赖于图像编码特征直接嵌入至模型来学习图像内容的内容特征，这使得本申请实施例并不需要限定第一图像所包括的图像内容必须是预训练时使用的图像内容。也就是说，本申请实施例允许第一图像所包括的图像内容在预训练阶段未被学习，即第一图像所包括图像内容在预训练阶段未被学习的情况下，也能够针对第一图像所包括图像内容实现较佳的特征学习和风格转换，极大地拓宽了本申请所适用的图像风格转换场景或领域。

本申请实施例对计算机设备获取待处理的第一图像的获取方式不作限定。示例性地，第一图像的获取方式可以包括：接收对象通过上传按键(或选项，组件等)上传的第一图像；或者，接收对象通过拖拽操作上传的第一图像；等等。其中：①通过上传按键上传第一图像的界面示意图可以参见图5a，如图5a所示：小程序为用户提供了一个图像上传界面501，该图像上传界面501中包括上传按键502；当用户对该上传按键502执行触发操作时，表示用户具有上传待处理的第一图像的需求，则显示选择界面503，该选择界面503用于显示可以上传的一个或多个候选图像(如存储于用户持有的终端设备的本地，或者存储于互联网，或者存储于云端等)；这样，当用户可以从该选择界面503中选择第一图像时，小程序或终端设备确定获取到待处理的第一图像。可选的，被选择的第一图像可以显示于图像上传界面501中，便于该第一图像被风格转换之前可以由用户进行图像调整(如截图或压缩等操作)，丰富用户对第一图像的编辑能力，提升用户体验。②通过拖拽操作上传第一图像的界面示意图可以参见图5b，如图5b所示：假设图像上传界面501中包括拖拽区域504和图像显示区域505；响应于用户在该拖拽区域504的激活操作(如单击操作)，表明用户具体上传待处理的第一图像的需求，那么用户可以从图像显示区域505中显示的一个或多个候选图像选择需要风格转换的第一图像。具体是用户可以直接从图像显示区域505中针对任一图像执行向拖拽区域504的拖拽操作；当该任一图像移动至拖拽区域504中的任一显示位置时被释放，则确定用户已选中第一图像(即该任一图像)，此时小程序或终端设备确定获取到待处理的第一图像。通过这种拖拽方式来实现第一图像的选择，在一定程度上无需界面跳转，简化用户选择图像的操作，提高图像选择的灵活性。

需要说明的是，上述图5a和图5b仅为本申请实施例给出的两种示例性第一图像的获取方式，本申请实施例对第一图像的获取方式不作限定。举例来说，第一图像还可以是实时对持有终端设备的用户进行采集(如拍照或拍摄录像)得到的；如在图像上传界面中包括拍摄按键，响应于用户对该拍摄按键的选择操作，可以启动终端设备中部署的摄像头，并通过该摄像头对用户进行拍摄，以及将实时拍摄得到的图像作为待处理的第一图像。

(2)风格提示信息是用于指示对第一图像进行风格转换的提示信息；在第一图像具备第一风格的情况下，该风格提示信息具体可以用于指示将第一图像从第一风格转换为第二风格。其中，第一风格和第二风格不同，且本申请实施例对图像所属或具备的图像风格(或简称为风格)的风格类型不作限定，图像风格包括但是不限于：赛博风格、卡通风格、机车风格、动漫风格、写实风格或3D风格等。例如，待处理的第一图像是通过摄像头采集的，那么该第一图像具备的第一风格可以为写实风格，此时风格提示信息可以用于指示将具备写实风格的第一图像转换为动漫风格，该动漫风格为第二风格。

本申请实施例对计算机设备获取风格提示信息的获取方式不作限定。示例性地，风格提示信息的获取方式，包括以下任一种：默认设定的；或者，基于对象(即具有对第一图像进行风格转换需求的用户)在风格选择界面中针对第二风格的输入操作生成的。换句话说，图像生成平台可能设置有默认的第二风格，无论第一图像具备的第一风格为哪种类型，均将该第一图像转换为固定的第二风格的第二图像。或者，第二风格还可以是由用户确定的，这样图像生成平台可以基于用户选择的第二风格生成用于指示将第一图像从第一风格转换为第二风格的风格提示性信息。其中，根据图像生成平台提供的风格选择界面所包括界面元素的差异，对象在风格选择界面中针对第二风格的输入操作有所不同。例如，在风格选择界面中包括一个或多个候选风格的情况下，输入操作为从一个或多个候选风格中选择第二风格的选择操作，此时该第二风格为一个或多个候选风格中的任一个。再如，在风格选择界面中包括风格输入区域的情况下，输入操作为在风格输入区域中输入第二风格的输入操作。

S402：对第一图像进行图像编码处理，得到图像编码特征。

计算机设备在获取到待处理的第一图像后，可以调用预训练好的目标图像生成模型直接对该第一图像进行图像编码处理，得到该第一图像的图像编码特征；该图像编码特征可以用于表征第一图像所包括的图像内容的内容特性。详细地，参见前述图2b所示的目标图像生成模型的模型结构可见，在目标图像生成模型中包括第一图像编码模块、第二图像编码模块和特征融合模块。针对第一图像的图像编码处理主要是由该第一图像编码模块、第二图像编码模块和特征融合模块执行的。具体实现中，第一图像编码模块可以对第一图像进行图像编码处理，得到第一子图像特征；同理，第二图像编码模块可以对第一图像进行图像编码处理，得到第二子图像特征；然后，由特征融合模块对该第一子图像特征和第二子图像特征进行特征融合，得到第一图像对应的图像编码特征。

下面分别对上述提及的第一图像编码特征、第二图像编码特征和特征融合模型进行简单介绍；其中：

(1)第一图像编码模块和第二图像编码模块均为具备图像特征提取或分析能力的模块，如第一图像编码模块为CLIPImageEncoder模块，第二图像编码模块为VAEEncoder模块。也就是说，本申请实施例支持使用CLIPImageEncoder和VAEEncoder同时针对第一图像进行图像编码处理，以实现同时编码第一图像的图片特征获取第一图像的图片特征(即图像编码特征)。

①CLIP模型包括两部分，分别为：TextEncoder(可以表示为CLIPTextEnc oder)和ImageEncoder(可以表示为CLIPImageEncoder)；CLIPTextEncoder负责文本编码，CLIPImageEncoder负责图像编码。具体地，CLIP模型中的CLIPT extEncoder能够对文本进行文本编码，以提取到文本的语义特征，同理，CLIP模型中的CLIPImageEncoder能够对图像进行图像编码，以提取到图像的图像特征。进一步的，CLIP模型中两个部分提取的文本的文本特征和图像的图像特征可以表示为向量形式，向量形式的文本特征和图像特征存在语义上的映射关系；具体是使用对比学习方法，CLIP模型能够不断加强表达相同含义/语义的文本和图像之间的关系(体现为文本的文本特征和图像的图像特征之间的向量距离较近时，表示文本和图像之间的关系较近，即文本和图像所表达含义相近)，减弱表达不同含义的文本和图片之间的关系。考虑到CLIP模型中的CLIPImageEnco der具有较佳的图像编码能力，本申请实施例基于此选择CLIP模型中的CLIPI mageEncoder(如版本可以为openai/clip-vit-large-patch14b版本)来实现编码图像特征；这样，可以选择CLIPImageEncoder中最后一层Transfromer层的输出结果作为针对图像编码所得到的第一子图像特征，可以定义为C，C的维度为(257，1024)。

②VAE模型是一种包含隐变量的生成模型，能够利用神经网络生成输入数据中不包含的数据。VAE模型主要包括Encoder(可以表示为VAE Encoder)模块和Decoder(可以表示为VAE Decoder)模块两部分内容，分则负责编码和解码图像；其中，VAEEncoder模块可以将输入的图像I映射为隐向量L，VAE Decoder模块可以将隐向量L解码为图像I′，且隐向量I和隐向量I′具备高度一致性。如图6所示，在扩散模型中，VAEEncoder模块将图像I映射为隐向量L，扩散模型训练的过程包括：将L加噪音，得到加噪音后的噪音图像；然后，Unet模块可以对噪音图像进行去噪音处理，得到隐向量L′；最后，VAEDecoder模块将隐向量L′解码为图像I′；上述过程中隐向量L和隐向量L'具有高度一致性。由上分析可知，经过VAEEncoder编码图像所得到隐变量L和图像本身具有强关联关系，因此，本申请支持选择输入图像的隐变量L代表该输入图像的图像特征，即将隐向量L作为图像编码的第二子图像特征(即第二子图像特征可以表示为L)。其中，VAEDecoder模块输出的图像特征的维度为(3，image_w/scale，image_h/scale)。其中，“3”为三个RGB通道，image_w代表输入图像的宽，image_h代表输入图像的高，scale一般取值为8，代表VAEEncoder模块的降维比例为8。示例性地，本申请实施例可以将输入图像的宽高统一为1024，因此上述image_w和image_h的取值均为1024。

(2)特征融合模块。

基于上述提及的第一图像编码模块CLIPImageEncoder对输入的第一图像进行图像编码处理，得到第一子图像特征C，以及第二图像编码模块VAEEncoder对输入的第一图像进行图像编码处理，得到第二子图像特征L后，为了统一第一子图像特征C和第二子图像特征L的维度，本申请实施例支持使用特征融合模块来实现特征融合。其中，特征融合模块可以是指具备特征融合能力的模块，本申请实施例以特征融合模块为TransformLayer模块为例；TransformLayer模块实现第一图像对应的第一子图像特征C和第二子图像特征L的特征融合的流程示意图可以参见图7。

如图7所示，采用前述描述的第一图像特征模块和第二图像特征模块分别对第一图像进行图像编码处理，得到第一子图像特征C和第二子图像特征L后，分别依次对第一子图像特征C和第二子图像特征L进行平均运算(即求平均)、线性层转换、去除维度为1的维度和矩阵相乘等运算，输出第一图像的图像编码特征，该图像编码特征可以表示为ΔW，且图像编码特征的维度为(image_emb_dim，image_emb_dim)，可以定义image_emb_dim为1024。其中，上述平均运算可以简单理解为在子图像特征(如第一子图像特征C)原本的维度基础上，求另外维度矩阵的均值，可以有效实现降维。线性层可以通过对平均运算后的维度进行维度统一，如均统一到1024。去除维度为1的维度是指将维度中维度为1的维度删除，仅保留不为1的维度。矩阵相乘可以是指将经过平均运算(即求平均)、线性层转换和去除维度为1的维度运算后的第一子图像特征C，和经过平均运算(即求平均)、线性层转换和去除维度为1的维度运算后的第二子图像特征L进行相乘，以生成第一图像的图像编码特征ΔW。

综上所述，一方面，本申请实施例支持采用第一图像编码模块CLIPImageEncoder和第二图像编码模块VAEEncoder同时编码图像特征的方式，能够依赖于CLIPImageEncoder和VAEEncoder的图像特征分析优势，充分提取或挖掘第一图像所包括的图像内容的内容特性，如图像内容的轮廓、形状、颜色、尺寸和纹理等特性，从而利用丰富且详细地内容特性有利于提升后续生成的第二图像的图像质量。另一方面，还支持采用特征融合模块TransformLayer对两个图像编码模块编码的子图像特征进行特征融合，在实现特征维度统一的同时，还能融合得到更为丰富和全面的图像编码特征，从而基于该图像编码特征生成第二图像时能够增强第二图像的具象性。

S403：采用注意力算法对第一图像和风格提示信息进行线性变换，并将图像编码特征嵌入至线性变换，生成目标语义特征。

如图2b所示的目标图像生成模型中包括Unet模块，该Unet模块是一种U型网络结构，在扩散模型中可以用于实现特征提取和特征融合以生成新图像。其中，Unet模块中包括一个或多个注意力机制层(如交叉注意力机制(Cross Attention)层)；注意力机制层是图像和文本交互层，通过注意力算法可以计算在文本(如本申请实施例涉及的风格提示信息)的条件下，图像(如第一图像)的编码结果。这样，Unet模块中的注意力机制层可以采用注意力算法对第一图像和风格提示信息进行线性变换，该线性变换主要实现从第一图像和风格提示信息中提取关键信息。其中，注意力机制层中部署的注意力算法的公式如下：

其中，注意力算法的计算过程涉及线性变换，该线性变换包括三个子线性变换，分别为第一子线性变换Key(键值)、第二线性变换Value(值)和第三线性变换Query(查询)。公式(1)中的K为第一子线性变换Key输出的矩阵，公式(1)中的V为第二线性变换输出的矩阵，公式(1)中的Q为第三线性变换Query输出的矩阵。K^T表示矩阵K的转置。d_k为一个数值，如768，主要用于缩小点积范围，确保softmax梯度的稳定性。softmax()为归一化函数，主要用于保证注意力权重的非负性，同时增加非线性。

由此可见，注意力算法的计算过程使用了三个矩阵，分别为KQV，可以用来计算不同token之间的彼此依赖关系；对于文本而言，此处的token可以理解为一个字符串(包括一个或多个字符)，对于图像而言，此处的token可以理解为图像中被划分的不同部分。更为详细地，K和Q可以以用来计算当前token和其他token的相似度，这个相似度作为权值对V进行加权求和，加权求和的结果可以作为下一层的token。在Unet模块中使用的CrossAttention中KV自于文本(如风格提示信息)，Q来自于图像(如第一图像)。基于此，通过Unet模块中的注意力机制层可以让模型能够深度感受第一图像和风格提示信息所表征的特性，从而提取更为准确地第二风格和图像特性，确保提取的风格语义特性和图像特性更为纯净。

基于上述对Unet模型中的注意力机制层的相关介绍，本申请实施例对Unet模块所包括的注意力机制层(或称为注意力算法层)的数量不作限定；但是，每个任一个注意力机制层采用注意力算法对第一图像和风格提示信息进行线性变换的具体实施过程是类似的。示例性地，Unet模块中的任一注意力机制层可以对第一图像和风格提示信息进行线性变换；具体是：线性变换所包括的第一子线性变换Key和第二子线性变换Value可以用于对风格提示信息进行文本语义提取，这样执行第一子线性变换Key和第二子线性变换Value能得到风格提示信息的风格转换特性；该风格转换特性用于表征从第一风格转换为第二风格所需的风格参数，这样可以基于该风格参数实现针对第一图像的风格转换。线性变换所包括的第三子线性变换Query用于对第一图像进行图像特征提取，这样执行第三子线性变换Query能得到第一图像的图像特性；该图像特性用于表征第一图像的图像数据，该图像数据可以是关于第一图像的一些基础或常规的数据，可以包括以下至少一个：分辨率、尺寸数据和像素数据等等。

经验证，Unet模型中CrossAttention层(即前述提及的注意力机制层)在扩散模型中占据重要地位，即使很少参数量也能使模型达到很好的拟合能力。基于此，为了解决传统扩散模型仅基于文本生成图像存在文本具象性差的问题，本申请实施例充分利用Unet模型中CrossAttention层较强的特征分析能力，设计直接将针对第一图像进行图像编码处理所得到的图像编码特征ΔW引入到CrossAttention层中。这使得CrossAttention层在对第一图像和风格提示信息进行特征分析的过程中，能够结合第一图像的图像编码特征进行特征分析，分析得到第一图像的更为全面、丰富和纯净的语义特征。

详细地，CrossAttention层针对第一图像和风格提示信息执行的线性变换包括线性投影变换处理。具体地，CrossAttention层中的Key、Query和Value可以分别当作模块；例如，Query为一个模块，该模块中包括多个子模块，且多个子模块依次相连，这样前一个子模块的输出可以作为后一个子模块的输入；其中Query模块中的最后一个子模块用于实现线性投影变换处理，该最后一个子模块的输出就是Query模块最终的输出。本申请实施例支持将针对第一图像执行图像编码处理所得的图像编码特征嵌入至CrossAttention层执行的线性变换过程中。其中，嵌入的大致逻辑可以概述为：计算机设备调用目标图像生成模型后，可以使用该目标图像生成模型所包括的Unet中的注意力机制层对第一图像和风格提示信息进行线性变换，并获取线性变换过程中执行线性投影变换处理所得的初始语义特征；然后，将采用目标图像生成模型中的第一图像编码模块、第二图像编码模块和特征融合模块所得到的第一图像的图像编码特征，和初始语义特征进行组合，生成组合后的目标语义特征。

进一步的，如前述，注意力机制层的线性变换包括第一子线性变换Key，第二子线性变换Value和第三子线性变换Query，每个子线性变换(如第一子线性变换、第二子线性变换和第三子线性变换)均包括线性投影变换处理(即各子线性变换中的最后一个线性变换)。因此，上述描述的将图像编码特征嵌入至CrossAttention层执行的线性变换过程中，具体包括将图像编码特征嵌入至CrossAttention层中KQV的线性投影部分中。换句话说，上述描述的将图像编码特征和初始语义特征进行组合的逻辑具体可以包括：将图像编码特征和第一子线性变换Key过程中执行线性投影变换处理所得的初始语义特征进行组合，生成述第一子语义特征。以及，将图像编码特征和第二子线性变换Value过程中执行线性投影变换处理所得的初始语义特征进行组合，生成第二子语义特征。以及，将图像编码特征和第三子线性变换Query过程中执行线性投影变换处理所得的初始语义特征进行组合，生成第三子语义特征。然后，基于第一子语义特征、第二子语义特征和第三子语义特征生成目标语义特征，即目标语义特征包括三个子线性变换对应的第一子语义特征、第二子语义特征和第三子语义特征。其中，根据子线性变换所处理的数据类型(如文本或图像)的不同，执行相应子线性变换所得到的初始语义特性有所差异；例如，第一子线性变换过程中执行线性投影变换处理，以及第二子线性变换过程中执行线性投影变换处理所得的初始语义特性均为风格转换提示信息的风格转换特性；再如，第三子线性变换过程中执行线性投影变换处理所得的初始语义特征为第一图像的图像特性。

更进一步的，以将第一图像的图像编码特征嵌入至线性变换所包括的第三子线性变换Query为例，假设第三子线性变换执行线性投影变换处理所得的初始语义特征表示为W₀x，其中，W₀为扩散模型的原始参数，x为Q模块中与最后一个子模块相邻的前一个子模块的输出，该输出作为最后一个子模块的输入。同理，假设针对第一图像进行图像编码处理所得到的图像编码特征表示为ΔW。那么将第一图像的图像编码特征ΔW嵌入至第三子线性变换执行线性投影变换处理的公式可以如下：

h＝W₀x+ΔWx (2)

其中，h为图像编码特征ΔW嵌入Q模块中最后一个子模块所得到的第三子语义特征。

应当理解的是，第一子线性变换Key和第二子线性变换Value中嵌入第一图像的图像编码特征的嵌入逻辑，与上述描述的在第三子线性变换Query中嵌入第一图像的图像编码特征的嵌入逻辑是相同，在此不做赘述。

S404：基于目标语义特征生成第二图像。

基于前述步骤得到兼具/具备第一图像所包括图像内容的内容特性，第一图像的图像特性以及风格提示信息的风格转换特性的目标语义特征后，可以基于该目标语义特征生成第二图像。其中，第二图像具备风格提示信息所指示的第二风格，且该第二图像所包括的图像内容和第一图像所包括的图像内容是相同的；以第一图像所包括的图像内容为A对象的人脸为例，从视觉效果上来看，能够观察具备第二风格的第二图像识别出第二图像所包括的图像内容“人脸”属于对象A。

综上所述，本申请实施例在模型推测阶段，仅需加载预训练初始图像生成模型所得到的特征融合模块TransformLayer的模型参数，就可以得到目标图像生成模型；然后，在获取到第一图像和风格提示信息后，可以获取并保存第一图像的图像编码特征，并将图像编码特征插入到目标图像生成模型中；此后只需要改变风格提示信息(或称为风格提示词)来获取保持图像内容相似度且改变风格的第二图像，而无需其他编码图像和微调操作。上述过程中，直接提取第一图像的图像编码特征，并将图像编码特征嵌入至模型，不仅实现在模型中引入纯净的图像特征，弥补单文本的具象性差的问题，而且相比于需要几十甚至上百张图像来训练模型学习图像特征而言，有效降低第二图像生成所需的成本。

上述图4实施例主要从模型预测的角度对图像处理方法进行介绍，下面结合图8对完整的图像处理方法进行介绍；其中，图8主要从模型预训练的角度进行方法阐述。图8所示的方法流程可以由前述提及的计算机设备来执行，如计算机设备可以是前述图3所示的服务器302。图像处理方法可包括但不限于步骤S801-S806：

S801：构建预训练数据集合。

为提升预训练后模型的模型泛化能力，实现模型推测阶段无训练，本申请实施例提出自主构建十万级的预训练数据集合来针对初始图像生成模型的预训练。其中，预训练数据集合的构建主要包括两部分内容，分别为公开数据集合和自收集数据集合。其中，公开数据集合或称为公共数据集合，是指已公开的大数据量的一些数据集合，本申请实施例对公开数据集合的类型不作线性；自收集数据集合是指通过关键词检索等技术从互联网中自主检索到的数据所组成的集合。

具体实现中，在构建预训练数据集合的过程中，可以从公共数据集合中选择第一数量的样本图像组成第一数据集合，以及，从互联网中搜索第二数量的样本图像组成第二数据集合(即上述提及的自收集数据集合)。示例性地，以公共数据集合为MS-Celeb-1M数据集合为例，该MS-Celeb-1M数据集合包含有至少10万名人对应的人脸图像，且每个名人对应的人脸图像的数量为100张，本申请实施例支持从该MS-Celeb-1M数据集合中选择每个名人的一张人脸图像组成第一数据集合；那么确定第一数据集合中就至少包括10万张(即第一数量)样本图像，且每个样本图像中包括人脸。考虑到从MS-Celeb-1M数据集合中筛选的样本图像主要包括人脸，为增加样本数据的多样式，本申请实施例还支持使用一些搜索技术从互联网中搜索样本图像组成第二数据集合。

同理，从互联网中搜索样本数据的示例性流程可以参见图9。首先，使用通过在互联网中输入关键词检索与关键词相关的图像，然后使用一些图像搜索技术或引擎下载与关键词相关的图像，最后使用基础规则过滤掉质量差的图像，将未被过滤的第二数量(如1万张)的图像组成第二数据集合；其中，基础规则可以包括但是不限于：图像的图像尺寸大于512*512，图像的质量分(aesthet ic_score)高于6.5分等等。由此可见，一方面直接从公共数据集合中筛选样本图像组成第一数据集合，有效提高样本图像的收集效率，且确保能够收集到足够多不同用户的人脸图像，增加模型的学习能力；另一方面，通过互联网自收集第二数据集合所包括的样本图像相对于公开数据集合中的样本图像的多样性较强，如图像内容不仅可以包括人脸，还可以包括全身或半身等多场景的样本图像，从而确保预训练数据集合中样本图像的多样性。

进一步的，在基于上述描述构建得到第一数据集合和第二数据集合后，本申请实施例还支持对该第一数据集合和第二数据集合中的样本图像进行数据处理，在提高样本图像的质量的同时，确保最终构建的预训练数据集合中的数据是符合预训练模型的数据格式要求。本申请涉及的数据处理主要包括：为样本图像生成对应的文本描述，以及对样本图像进行图像质量优化；下面以第一数据集合或第二数据集合中的任一样本图像表示为目标样本图像为例，对该目标样本图像进行数据处理的过程进行介绍，其中：

(1)为目标样本图像生成对应的目标文本描述。

如图2a所示的初始图像生成模型的示意图中，初始图像生成模型中包括文本描述模块，本申请实施例支持利用该文本描述模块对目标样本图像进行文本生成处理，生成目标样本图像对应的目标文本描述。其中，文本描述模块是具有基于图像生成能够表达图像的图像语义的文本的模块；在本申请实施例中以文本描述模块为BLIP模型为例。其中，BLIP模型是一种多模态Transformer模型；BLIP模型的模型结构示意图可以参见图10，如图10所示，BLIP模型是一种编码器-解码器混合架构。主要包括四个部分：Image Encoder、TextEncoder、Image-grounded Text Encoder和Image-grounded Text Decoder；其中，ImageEncoder和Text Encoder分别负责编码图像和文本；Image-grounded Text Encoder是一个二分类模型，负责判断文本和图像是否表达含义一致；Image-grounded Text Decoder为文本生成模型，负责根据图像生成相应文本描述。其中，利用BLIP模型根据目标样本图像生成相应的目标文本描述的示意图可以参见图11；如图11所示，在获取到目标样本图像后，采用利用BLIP模型中的Image-grounded Text Decoder模块为目标样本图像生成相应的目标文本描述。

(2)针对目标样本图像进行图像质量优化。

考虑到第一数据集合和第二数据集合所包括的样本图像存在图像分辨率和尺寸不统一等问题；为了进一步提高样本图像的质量和统一性，本申请实施例提出对第一数据集合和第二数据集合中的样本图像进行质量优化，以提高最终的预训练数据集合所包括的样本图像的图像质量。具体实现中，对目标样本图像进行图像质量处理，得到处理后的目标样本图像；其中，图像质量处理至少包括：方图化处理、图像增强处理和尺寸归一化处理等。质量优化流程的具体流程可以参见图12，如图12所示：首先，对目标样本图像进行方图化处理，具体是将将长方形的目标样本图像转换为正方形；为了尽可能多的保留原始图片中的信息，支持采用增加目标样本图像的边的白边的方式将长方形转换成正方形。然后，对方图化后的目标样本图像进行图像增强处理，具体是判断目标样图像的分辨率，在检测到目标样本图像的分辨率低于分辨率阈值(如1024*1024)时，对该目标样本图像进行图像增强处理，以将低分辨率的目标样本图像增强为高分辨率的目标样本图像，从而提高目标样本图像的图像质量。其中，本申请实施例对实现图像增强的技术手段不作限定，如支持使用CodeFormer模型增强低分辩的目标样本图像，该CodeFormer模型支持通过将变分自动编码器(VQGAN)和Transformer有机结合，可以修复输入的模糊和/或马赛克的目标样本图像，输出分辨率较高的目标样本图像。其中，变分自动编码器VQGAN可以用于编码和解码目标样本图像，生成清晰真实的目标样本图像，主要通过量化的方法来保证增强后的目标样本图像的高质量；Transformer则通过自注意力机制来判断目标样本图像的像素之间的依赖关系，实现全局上下文感知，生成连贯自然的修复结果。由此可见，CodeFormer通过巧妙整合VQGAN和Transformer两者的优势，实现目标样本图像的修复的最佳效果。最后，将图像增强后的目标样本图像进行尺寸归一，将目标样本图像的图像尺寸调整为1024*1024尺寸。

需要说明的是，上述提及的用于为目标样本图像生成相应的目标文本描述的文本描述模块也可以为其他类型的模型，本申请实施例对此不作限定。此外，针对目标样本图像的归一化处理的具体手段和实施过程，并不仅限于上述描述的图像增强，方图化和尺寸统一，还可以包括裁剪，增强滤波等手段，本申请实施例对此不作限定。

更进一步的，为了保证预训练数据集合的训练数据质量，本申请实施例支持对第一数据集合和第二数据集合中的所有样本图像执行上述的数据处理，并从所有样本图像中仅保留样本图像的美学分数大于分数阈值(如6.5分)的样本图像添加至预训练数据集合。以目标样本图像的美学分数大于分数阈值为例，那么可以将该目标样本图像和为该目标样本图像生成的目标文本描述组成一个图像文本对，添加至预训练数据集合。

S802：采用预训练数据集合对初始图像生成模型进行预训练，得到目标图像生成模型。

基于前述步骤S801构建好十万级的预训练数据集合后，本申请实施例支持采用十万级的预训练数据集合对初始图像生成模型进行预训练。值得注意的是，在针对初始图像生成模型进行预训练时，具体是按照训练参数实现模型预训练；一种示例性地训练参数可以参见表1：

表1

初始图像生成模型	stablediffusion 1.5
		batch_size	64
学习率	1e-5
		训练轮数	20

batch_size：一轮预训练所选取的图像文本对的数量。学习率是模型训练的重要超参数之一，代表在每一次迭代中梯度向损失函数最优解移动的步长。训练轮数是指初始图像生成模型在整个预训练数据集合上的迭代次数。

下面以调用初始图像生成模型对一轮模型训练中的一个图像文本对的处理为例，对模型预训练的过程进行简单介绍。其中，预训练模型的具体实施过程可以参见图13，包括但是不限于步骤s11-s15：

s11：从预训练数据集合中获取图像文本对。

正如前述所描述的，预训练数据集合用于对初始图像生成模型进行预训练；该预训练数据集合中包括基于前述描述的数据筛选和数据处理所得到的多个图像文本对，每个图像文本对中包括一个样本图像和用于描述该样本图像的文本描述。按照表1所示的训练参数，在每一轮预训练时，可以从预训练数据集合中选取64个图像文本对实现对上一轮预训练所得到的初始图像生成模型进行迭代训练。

s12：利用初始图像生成模型对图像文本对中的样本图像进行矩阵化处理，得到预测图像编码特征。

可选的，针对图像文本对中的样本图像进行的矩阵化处理可以包括图像编码处理；此实现方式下，在模型推测阶段可以直接将针对第一图像提取的图像编码特征嵌入模型。具体地，初始图像生成模型中包括第一图像编码模块、第二图像编码模块和特征融合模块；值得注意的是，第一图像编码模块和第二图像编码模块的模型参数是固定的，不可训练的，而特征融合模块的模型参数是可训练的，即特征融合模块包括初始图像生成模型的可训练参数；因此，在对初始图像生成模型预训练结束后，可以保留特征融合模块的模型参数，在模型推测阶段加载该特征融合模块的模型参数即可得到目标图像生成模型。

下面对预训练阶段针对图像文本对中的样本图像进行图像编码处理的过程进行概述：采用初始图像生成模型中的第一图像编码模块(如CLIP ImageEncoder)对图像文本对中的样本图像进行图像编码处理，得到第一预测子图像特征；以及，采用初始图像生成模型中的第二图像编码模块(如VAEEncoder)对图像文本对中的样本图像进行图像编码处理，得到第二预测子图像特征；这样，采用初始图像生成模型中的特征融合模块对第一预测子图像特征和第二预测子图像特征进行特征融合，得到图像文本对对应的预测图像编码特征。

需要说明的是，上述描述的预训练阶段针对样本图像的图像编码处理的具体实施过程，和前述步骤S402所描述的针对第一图像进行图像编码处理的具体实施过程是类似的，在此不做赘述。

可选的，针对图像文本对中的样本图像进行的矩阵化处理可以包括图像编码处理和特征降维处理；此实现方式下，在模型推测阶段提取到第一图像的图像编码特征后，还需对该图像编码特征进行降维处理，并将降维后的特征矩阵嵌入至模型。其中，图像编码处理与前述描述的图像编码处理的具体实施逻辑是类似的，特征降维处理是在图像编码处理的基础上对图像编码处理所得的图像编码特征的优化，旨在通过矩阵化的形式降低特征维度，减小插入至模型的特征参数量。本申请实施例在后续步骤S804中对该特征降维处理进行详细阐述，特在此说明。

s13：利用初始图像生成模型对图像文本对中的文本描述进行语义提取处理，得到预测语义特征。

具体地，初始图像生成模型中包括文本语义提取模块，这样初始图像生成模型在接收到输入的图像文本对后，可以调用该文本语义提取模块对图像文本对中的文本描述进行文本的语义提取处理，以得到预测语义特征；该预测语义特征用于表征文本描述的语义特性。如图2a所示，本申请实施例支持将CLIP模块中的CLIPTextEncoder模块作为初始图像生成模型中的文本语义提取模块来进行文本语义提取；关于CLIPTextEncoder模块的相关内容可以参见前述步骤S402所示的相关描述，在此不作赘述。

s14：将预测图像编码特征嵌入至注意力算法层，并结合预测语义特征生成样本图像对应的预测图像。

如图2a所示的初始图像生成模型和图2b所示的目标图像生成模型可见，初始图像生成模型和目标图像生成模型的模型结构是类似的。针对初始图像生成模型进行预训练的过程和使用目标图像生成模型对第一图像进行风格转换的过程是类似的，均需要将图像(如预训练阶段为样本图像，模型推测阶段为第一图像)的编码特征(如预训练阶段为样本图像的预测图像编码特征，模型推测阶段为第一图像的图像编码特征)嵌入至模型(预训练阶段为初始图像生成模型，模型推测阶段为目标图像生成模型)中；具体是嵌入至模型所包括的Unet模块中注意力算法层(或称为注意力机制层)中的线性投影变换处理中。只是在预训练阶段需要对初始图像生成模型中的特征融合模块进行参数优化，在模型推测阶段仅需加载预训练好的特征融合模块的模型参数即可。

基于此，步骤s14所示的在预训练阶段将样本图像的预测图像编码特征嵌入至注意力算法层的具体嵌入逻辑，可以参见前述模型推测阶段将第一图像的图像编码特征嵌入至线性变换的具体嵌入逻辑的相关描述，在此不做赘述。这样，初始图像生成模型可以结合针对图像样本对中的文本描述的预测语义特征，和嵌入的图像编码特征生成预测图像。

s15：基于所述预测图像和所述样本图像，对所述初始图像生成模型进行预训练，以得到预训练好的目标图像生成模型。

采用初始图像生成模型对图像样本对进行上述步骤s12-s14的处理得到预测图像后，可以基于预测图像和该图像样本对中的样本图像之间的图像差异，计算初始图像生成模型的损失函数，并根据该损失函数对初始图像生成模型进行迭代训练；具体是按照减小图像差异的方向调整初始图像生成模型所包括的特征融合模块的模型参数，以得到预训练好的目标图像生成模型。

S803：获取待处理的第一图像和风格提示信息。

S804：对第一图像进行图像编码处理，得到图像编码特征。

S805：采用注意力算法对第一图像和风格提示信息进行线性变换，并将图像编码特征嵌入至线性变换，生成目标语义特征。

S806：基于目标语义特征生成第二图像。

需要说明的是，步骤S803-S806所示实施例的具体实施过程，与前述图4所示实施例中的步骤S401-S404所示的具体实施过程是类似，可以参见步骤S401-S404的相关描述，在此不作赘述。

还需说明的是，如前述本申请实施例是通过将第一图像的图像编码特征嵌入至模型以实现在模型中引入图像内容的内容特性。其中，第一图像的图像编码特征表现为矩阵形式，考虑到矩阵可能是包含较多0的稀疏矩阵，不仅存储量大且浪费空间。为了尽可能减少嵌入模型的参数量，提高嵌入效率，本申请实施例还支持将第一图像的图像编码特征进行降维，旨在减小嵌入模型的参数量的同时从图像编码特征中提取主要特征。具体实现中，初始图像生成模型中包括矩阵转换模块，这样初始图像生成模型在对第一图像进行图像编码处理，得到第一图像的图像编码特征后，可以采用该矩阵转换模块对第一图像的图像编码特征进行特征降维处理，得到图像编码特征对应的特征矩阵；该特征矩阵的维度小于图像特征的维度。然后，将图像编码特征对应的特征矩阵嵌入至线性变换，生成目标语义特征。

详细地，本申请实施例支持采用奇异值分解(Singular Value Decomposition，SVD)算法对第一图像的图像编码特征进行特征降维处理。其中，SVD算法是在机器学习领域广泛应用的算法，无需限定需要分解的矩阵为方阵，即支持为任意维度的矩阵进行特征分解，可以用于推荐系统以及自然语言处理等领域，是很多机器学习算法的基石。在本申请实施例中，奇异值分解SVD算法主要用来针对第一图像的图像编码特征进行特征分解，达到特征降维的目的。

具体实现中，采用SVD算法实现针对第一图像的图像编码特征的特征降维处理的具体过程可以包括：

首先，采用SVD算法按照图像编码特征的行列信息，对图像编码特征进行矩阵分解，得到图像编码特征对应的两个正交矩阵和一个对角矩阵。其中，两个正交矩阵中的一个正交矩阵的行列信息为m×m，另一个正交矩阵的行列为n×n。对角矩阵的行列信息为m×n，且对角矩阵中除主对角线上元素外的其他元素为0，主对角线上元素的数值用于表征内容特性的重要程度，主对角线上元素按照数值从大到小排列。

如图14a所示，假设第一图像的图像编码特征表现为矩阵ΔW，且图像编码特征的行列信息为m×n，m和n为正整数，即矩阵ΔW是一个维度为m×n的矩阵，那么按照SVD算法定义图像编码特征ΔW的SVD公式为：

ΔW＝U∑V^T (3)

其中，U是一个m×m的正交矩阵，V是一个n×n的正交矩阵；U矩阵和V都矩阵都是酉矩阵，即满足U^TU＝I，V^TV＝I。∑是一个m×n的对角矩阵(或称为奇异值矩阵)，且∑除了主对角线上的元素以外的其他元素全为0，主对角线上的每个元素都称为奇异值。

然后，按照元素的数值从大到小的顺序从对角矩阵的主对角线上的n个元素中选择r个元素组成第二子矩阵，并基于两个正交矩阵和第二子矩阵，构建第一子矩阵和第三子矩阵。具体地，由前述描述可知，第一图像的图像编码特征可以分解为两个正交矩阵和一个对角矩阵∑，其中对角矩阵∑为奇异值矩阵，它跟特征分解中的特征值类似，在奇异值矩阵中元素是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，奇异值矩阵中靠前排列的前10％甚至1％的奇异值(即元素的数值)之和就占了该奇异值矩阵中全部奇异值之和的99％以上的比例。而奇异值的数值越大，表征第一图像中图像内容的内容特性的重要程度越高，因此，如图14b所示，本申请实施例支持从对角矩阵∑中筛选数值最大的r个奇异值构建第二子矩阵∑_r×r；以及，基于该r个奇异值的左右奇异向量分别构建第一子矩阵U_m×r和第三子矩阵也就是说，矩阵ΔW可以用三个小参数量的子矩阵表示，显著降低参数量。

最后，将第一子矩阵，第二子矩阵和第三子矩阵依次相乘，得到图像编码特征对应的特征矩阵。也就是说，将第一图像的图像编码特征ΔW分解所得到的第一子矩阵U_m×r，第二子矩阵∑_r×r和第三子矩阵进行相乘，即可以得到特征降维处理后的特征矩阵。考虑到降维处理后的特征矩阵的参数量小，在本申请实施例中也可以将该特征矩阵称为轻量级协助矩阵。

进一步的，本申请实施例通过采用奇异值分解SVD算法，将复杂的第一图像的图像编码特征ΔW分解为三个参数量更小且更为简单的子矩阵的乘积，即用这3个小参数量的子矩阵来描述大参数量的矩阵重要的特性，有效降低插入模型的图像特征的参数量，提高风格转换效率。其中，将第一图像的图像编码特征，以轻量级协助矩阵的形式插入至模型(具体是插入至线性变换)的公式如下：

h＝W₀x+ΔWx＝W₀x+BAx (4)

由该公式可见，本申请实施例将矩阵ΔW分解为BA两个矩阵的乘积，其中：

B＝U_m×r∑_r×r (5)

通过对矩阵ΔW分解为BA两个矩阵的乘积，可以将m×n维度的矩阵ΔW降维到r×r；其中，r远小于n。理论上BA矩阵间相乘的秩r越小，插入模型的参数量也越小。

综上所述，本申请实施例在传统文生图扩散模型的基础上，提出了一种基于有源图像(如由用户提供的第一图像)生成轻量级协助矩阵的个性化风格转换方法，可以实现无需训练，生成保持图像内容相似度(如人脸相似度)且改变图像风格的图像。具体地，一方面，无需人工标注，构建十万级的高质量图像样本对组成预训练数据集合，使用该预训练数据集合预训练初始化图像生成模型，可以有效提高模型泛化性，降低过拟合的风险和新的图像内容的训练成本。另一方面，以轻量级协助矩阵的方式将图像的图像编码特征(或简称为图像特征)插入到模型中，弥补传统技术仅依赖于训练时使用的文本来生成图像所存在的文本具象性差的缺点，提高生成图像所包括的图像内容和有源图像所包括的图像内容的相似度。此外，经实验验证，本申请示例在经过预训练模型上无需训练即可实现引入新的或特定的图像内容，后续使用时仅需改变风格提示信息的方式，就可以针对该新的或特定的图像内容得到保持图像内容相似度的多种风格图像，在一定程度上提高图像风格转换效率。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

图15示出了本申请一个示例性实施例提供的一种图像处理装置的结构示意图；该图像处理装置可以用于执行图4或图8所示的方法实施例中的部分或全部步骤。请参见图15，该图像处理装置包括如下单元：

获取单元1501，用于获取待处理的第一图像和风格提示信息；第一图像具备第一风格，风格指示信息用于指示将第一图像从第一风格转换为第二风格；

处理单元1502，用于对第一图像进行图像编码处理，得到图像编码特征，图像编码特征用于表征第一图像所包括的图像内容的内容特性；

处理单元1502，还用于采用注意力算法对第一图像和风格提示信息进行线性变换，并将图像编码特征嵌入至线性变换，生成目标语义特征；目标语义特征具备第一图像所包括图像内容的内容特性，第一图像的图像特性以及风格提示信息的风格转换特性；

处理单元1502，还用于基于目标语义特征生成第二图像；第二图像具备第二风格，且第二图像所包括的图像内容和第一图像所包括的图像内容相同。

在一种实现方式中，线性变换包括线性投影变换处理；处理单元1502，用于将图像编码特征嵌入至线性变换，生成目标语义特征时，具体用于：

处理单元1502，用于将图像编码特征和初始语义特征进行组合，生成目标语义特征时，具体用于：

在一种实现方式中，处理单元1502，还用于：

处理单元1502，用于将图像编码特征嵌入至线性变换，生成目标语义特征时，具体用于：

在一种实现方式中，特征矩阵由第一子矩阵，第二子矩阵和第三子矩阵依次相乘组成；图像编码特征的行列信息为m×n，m和n为正整数；处理单元1502，用于对图像编码特征进行特征降维处理，得到图像编码特征对应的特征矩阵时，具体用于：

在一种实现方式中，预训练数据集合的构建过程包括：

在一种实现方式中，初始图像生成模型中包括文本描述模块；第一数据集合或第二数据集合中的任一样本图像表示为目标样本图像；处理单元1502，用于分别对第一数据集合和第二数据集合中的样本图像进行数据处理，得到用于预训练初始图像生成模型的预训练数据集合时，具体用于：

在一种实现方式中，初始图像生成模型中包括第一图像编码模块、第二图像编码模块和特征融合模块；特征融合模块包括初始图像生成模型的可训练参数；矩阵化处理包括图像编码处理；处理单元1502，用于利用初始图像生成模型对图像文本对中的样本图像进行矩阵化处理，得到预测图像编码特征时，具体用于：

根据本申请的一个实施例，图15所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4及图8所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图15中所示的图像处理装置，以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，在获取到待处理的第一图像和用于指示将第一图像从第一风格转换为第二风格的第二图像的风格提示信息后，一方面，可以直接对第一图像进行图像编码处理，得到该第一图像的图像编码特征，该图像编码特征可以用于表征第一图像所包括的图像内容的内容特性。另一方面，可以采用注意力算法对第一图像和风格提示信息进行线性变换。进一步的，将第一图像的图像编码特征嵌入至线性变换中，使得在线性变换过程中能够提取到目标语义特征，该目标语义特征不仅具备第一图像所包括的图像内容的内容特性，还包括第一图像的图像特性(如图像的一些基础图像数据，如分辨率，图像尺寸等)以及风格提示信息的风格转换特性(如第二风格的风格参数等)。这样，可以基于同时包括图像特征(如图像内容的内容特性和图像特性)和文本特征(如风格转换特征)的目标语义特征生成第二图像，该第二图像具有较高的图像质量，该图像质量较高具体体现于生成的第二图像所包括图像内容和第一图像所包括图像内容之间的相似度高，且第二图像具有风格提示信息所指示的第二风格，即成功实现风格转换。上述风格转换过程中，直接将第一图像的图像编码特征嵌入至线性变换过程中，相比于需要几十甚至上百张图像来训练模型学习图像特征而言，不仅提高生成的具备第二风格的第二图像的具象性，且有效降低第二图像生成所需的成本。

图16示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图16，该计算机设备包括处理器1601、通信接口1602以及计算机可读存储介质1603。其中，处理器1601、通信接口1602以及计算机可读存储介质1603可通过总线或者其它方式连接。其中，通信接口1602用于接收和发送数据。计算机可读存储介质1603可以存储在计算机设备的存储器中，计算机可读存储介质1603用于存储计算机程序，处理器1601用于执行计算机可读存储介质1603存储的计算机程序。处理器1601(或称CPU(Central ProcessingUnit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器1601加载并执行的一条或多条计算机程序。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该计算机设备可以是前述实施例提到的终端或服务器；该计算机可读存储介质中存储有一条或多条计算机程序；由处理器1601加载并执行计算机可读存储介质中存放的一条或多条计算机程序，以实现上述显示处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条计算机程序，由处理器1601加载并执行本申请各实施例的步骤；其中，本申请各实施例的步骤可以参见前述各实施例的相关描述，在此不作赘述。

基于同一发明构思，本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中图像处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时，实现上述图像处理方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括计算机程序(一个或多个)。在计算机设备上加载和执行计算机程序时，计算机程序执行本申请实施例上述的流程或功能。计算机设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机程序可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机程序可以从一个网站站点、计算机设备、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机设备、服务器或数据中心进行传输。计算机可读存储介质可以是计算机设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理的第一图像和风格提示信息；所述第一图像具备第一风格，所述风格指示信息用于指示将所述第一图像从所述第一风格转换为第二风格；

对所述第一图像进行图像编码处理，得到图像编码特征，所述图像编码特征用于表征所述第一图像所包括的图像内容的内容特性；

采用注意力算法对所述第一图像和所述风格提示信息进行线性变换，并将所述图像编码特征嵌入至所述线性变换，生成目标语义特征；所述目标语义特征具备所述第一图像所包括图像内容的内容特性，所述第一图像的图像特性以及所述风格提示信息的风格转换特性；

基于所述目标语义特征生成第二图像；所述第二图像具备所述第二风格，且所述第二图像所包括的图像内容和所述第一图像所包括的图像内容相同。

2.如权利要求1所述的方法，其特征在于，所述线性变换包括线性投影变换处理；所述将所述图像编码特征嵌入至所述线性变换，生成目标语义特征，包括：

获取所述线性变换过程中执行所述线性投影变换处理所得的初始语义特征；其中，所述线性变换用于从所述第一图像和所述风格提示信息中提取关键信息；

将所述图像编码特征和所述初始语义特征进行组合，生成目标语义特征。

3.如权利要求2所述的方法，其特征在于，所述线性变换包括第一子线性变换、第二子线性变换和第三子线性变换，所述第一子线性变换、所述第二子线性变换和所述第三子线性变换均包括所述线性投影变换处理；所述目标语义特征包括第一子语义特征、第二子语义特征和第三子语义特征；

所述将所述图像编码特征和所述初始语义特征进行组合，生成目标语义特征，包括：

将所述图像编码特征和所述第一子线性变换过程中执行所述线性投影变换处理所得的初始语义特征进行组合，生成所述第一子语义特征；

将所述图像编码特征和所述第二子线性变换过程中执行所述线性投影变换处理所得的初始语义特征进行组合，生成所述第二子语义特征；

将所述图像编码特征和所述第三子线性变换过程中执行所述线性投影变换处理所得的初始语义特征进行组合，生成所述第三子语义特征；

基于所述第一子语义特征、所述第二子语义特征和所述第三子语义特征生成目标语义特征。

4.如权利要求3所述的方法，其特征在于，所述第一子线性变换和所述第二子线性变换用于对所述风格提示信息进行文本语义提取，执行所述第一子线性变换和所述第二子线性变换得到所述风格提示信息的风格转换特性；所述风格转换提示信息的风格转换特性为所述第一子线性变换过程和所述第二子线性变换过程中执行线性投影变换处理所得的初始语义特性；所述风格转换特性用于表征从所述第一风格转换为所述第二风格所需的风格参数；

所述第三子线性变换用于对所述第一图像进行图像特征提取，执行第三子线性变换得到所述第一图像的图像特性；所述第一图像的图像特性为所述第三子线性变换过程中执行所述线性投影变换处理所得的初始语义特征；所述图像特性用于表征所述第一图像的图像数据，所述图像数据包括以下至少一个：分辨率、尺寸数据和像素数据。

5.如权利要求1-4任一项所述的方法，其特征在于，所述对所述第一图像进行图像编码处理，得到图像编码特征之后，还包括：

对所述图像编码特征进行特征降维处理，得到所述图像编码特征对应的特征矩阵；所述特征矩阵的维度小于所述图像编码特征的维度；

所述将所述图像编码特征嵌入至所述线性变换，生成目标语义特征，包括：

将所述图像编码特征对应的特征矩阵嵌入至所述线性变换，生成目标语义特征。

6.如权利要求5所述的方法，其特征在于，所述特征矩阵由第一子矩阵，第二子矩阵和第三子矩阵依次相乘组成；所述图像编码特征的行列信息为m×n，m和n为正整数；所述对所述图像编码特征进行特征降维处理，得到所述图像编码特征对应的特征矩阵，包括：

按照所述图像编码特征的行列信息，对所述图像编码特征进行矩阵分解，得到所述图像编码特征对应的两个正交矩阵和一个对角矩阵；其中，两个正交矩阵中的一个正交矩阵的行列信息为m×m，另一个正交矩阵的行列为n×n；所述对角矩阵的行列信息为n×n，且所述对角矩阵中除主对角线外的其他元素为0，所述主对角线上元素的数值用于表征所述内容特性的重要程度，所述主对角线上元素按照数值从大到小排列；

按照数值从大到小的顺序从所述对角矩阵的主对角线上的n个元素中选择r个元素组成所述第二子矩阵，并基于两个所述正交矩阵和所述第二子矩阵，构建所述第一子矩阵和所述第三子矩阵；

将所述第一子矩阵，所述第二子矩阵和所述第三子矩阵依次相乘，得到所述图像编码特征对应的特征矩阵。

7.如权利要求1所述的方法，其特征在于，所述方法由预训练好的目标图像生成模型执行，所述目标图像生成模型包括注意力算法层；所述目标图像生成模型的预训练过程，包括：

从预训练数据集合中获取图像文本对；所述图像文本对中包括一个样本图像和用于描述所述样本图像的文本描述；

利用初始图像生成模型对所述图像文本对中的样本图像进行矩阵化处理，得到预测图像编码特征；所述矩阵化处理包括所述图像编码处理，或者所述图像编码处理和特征降维处理；以及，

利用所述初始图像生成模型对所述图像文本对中的文本描述进行语义提取处理，得到预测语义特征；

将所述预测图像编码特征嵌入至所述注意力算法层，并结合所述预测语义特征生成所述样本图像对应的预测图像；

基于所述预测图像和所述样本图像，对所述初始图像生成模型进行预训练，以得到预训练好的目标图像生成模型。

8.如权利要求7所述的方法，其特征在于，所述第一图像包括的图像内容包括以下至少一种：人脸、人物、动物和物体；所述图像内容在预训练阶段未被学习；

所述风格提示信息的获取方式，包括以下任一种：默认设定的；或者，基于对象在风格选择界面中针对第二风格的输入操作生成的；其中，所述风格选择界面中包括一个或多个候选风格，所述输入操作为从一个或多个所述候选风格中选择所述第二风格的选择操作；或者，所述风格选择界面中包括风格输入区域，所述输入操作为在所述风格输入区域中输入所述第二风格的输入操作。

9.如权利要求7所述的方法，其特征在于，所述预训练数据集合的构建过程包括：

从互联网中搜索第二数量的样本图像组成第二数据集合；所述第一数量和所述第二数量的总和大于数量阈值；

分别对所述第一数据集合和所述第二数据集合中的样本图像进行数据处理，得到用于预训练所述初始图像生成模型的预训练数据集合。

10.如权利要求9所述的方法，其特征在于，所述初始图像生成模型中包括文本描述模块；所述第一数据集合或所述第二数据集合中的任一样本图像表示为目标样本图像；所述分别对所述第一数据集合和所述第二数据集合中的样本图像进行数据处理，得到用于预训练所述初始图像生成模型的预训练数据集合，包括：

对所述目标样本图像进行图像质量处理，得到处理后的目标样本图像；所述图像质量处理至少包括：方图化处理、图像增强处理和尺寸归一化处理；以及，

采用所述文本描述模块对所述目标样本图像进行文本生成处理，生成所述目标样本图像对应的目标文本描述；

所述目标样本图像和所述目标样本图像对应的目标文本描述组成一个图像文本对。

11.如权利要求7所述的方法，其特征在于，所述初始图像生成模型中包括第一图像编码模块、第二图像编码模块和特征融合模块；所述特征融合模块包括所述初始图像生成模型的可训练参数；所述矩阵化处理包括所述图像编码处理；所述利用所述初始图像生成模型对所述图像文本对中的样本图像进行矩阵化处理，得到预测图像编码特征，包括：

采用所述第一图像编码模块对所述图像文本对中的样本图像进行图像编码处理，得到第一预测子图像特征；以及，

采用所述第二图像编码模块对所述图像文本对中的样本图像进行图像编码处理，得到第二预测子图像特征；

采用所述特征融合模块对所述第一预测子图像特征和所述第二预测子图像特征进行特征融合，得到所述图像文本对对应的预测图像编码特征。

12.一种图像处理装置，其特征在于，包括：

获取单元，用于获取待处理的第一图像和风格提示信息；所述第一图像具备第一风格，所述风格指示信息用于指示将所述第一图像从所述第一风格转换为第二风格；

处理单元，用于对所述第一图像进行图像编码处理，得到图像编码特征，所述图像编码特征用于表征所述第一图像所包括的图像内容的内容特性；

所述处理单元，还用于采用注意力算法对所述第一图像和所述风格提示信息进行线性变换，并将所述图像编码特征嵌入至所述线性变换，生成目标语义特征；所述目标语义特征具备所述第一图像所包括图像内容的内容特性，所述第一图像的图像特性以及所述风格提示信息的风格转换特性；

所述处理单元，还用于基于所述目标语义特征生成所述第二图像；所述第二图像具备第二风格，且所述第二图像所包括的图像内容和所述第一图像所包括的图像内容相同。

13.一种计算机设备，其特征在于，

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-11任一项所述的图像处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的图像处理方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-11任一项所述的图像处理方法。