CN116958325A

CN116958325A - 图像处理模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN116958325A
Application number: CN202310921195.2A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-27

Abstract

本申请提供了一种图像处理模型的训练方法、装置、电子设备、计算机程序产品及计算机可读存储介质；方法包括：获取训练任务对应的目标图像领域的样本集合；基于每个样本原始图像以及每个样本原始图像对应的样本编辑文本，调用图像处理模型进行图像编辑处理，得到每个样本原始图像的编辑后图像，其中，编辑后图像是根据样本编辑文本对应的编辑指令编辑得到的；确定每个编辑后图像的质量参数；根据质量参数选择多个编辑后图像，以作为样本编辑后图像；基于每个样本编辑后图像、每个样本编辑后图像对应的样本原始图像和样本编辑文本，训练图像处理模型。通过本申请，能够提升目标图像领域的图像生成处理的准确度。

Description

图像处理模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种图像处理模型的训练方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)技术实现，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

相关技术中，用户可以通过在人工智能中输入原始图像以及编辑文本以获取新的图像，但相关技术的开源模型缺乏特定领域场景数据训练，故对特定领域场景编辑效果较差；同时应用中该相关技术的开源模型还需要对不同的图像进行多次生成参数尝试造成自动化应用上的困难，所生成的图像不一定能够满足用户的需求，出图率低。

相关技术中，暂无较好的方式体提升特定图像领域的图像生成处理的准确度。

发明内容

本申请实施例提供一种图像处理模型的训练方法、装置、设备及计算机可读存储介质、计算机程序产品，提升目标图像领域的图像生成处理的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像处理模型的训练方法，所述方法包括：

获取训练任务对应的目标图像领域的样本集合，其中，所述样本集合中的每个样本对包括：所述目标图像领域的样本原始图像、所述样本原始图像对应的样本编辑文本；

基于每个所述样本原始图像以及每个所述样本原始图像对应的样本编辑文本，调用所述图像处理模型进行图像编辑处理，得到每个所述样本原始图像的编辑后图像，其中，所述编辑后图像是根据所述样本编辑文本对应的编辑指令编辑得到的；

确定每个所述编辑后图像的质量参数；

根据所述质量参数选择多个所述编辑后图像，以作为样本编辑后图像；

基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型，其中，训练后的所述图像处理模型用于基于待编辑图像生成所述目标图像领域的编辑后图像。

本申请实施例提供一种图像处理模型的训练装置，包括：

数据获取模块，配置为获取训练任务对应的目标图像领域的样本集合，其中，所述样本集合中的每个样本对包括：所述目标图像领域的样本原始图像、所述样本原始图像对应的样本编辑文本；

图像编辑模块，配置为基于每个所述样本原始图像以及每个所述样本原始图像对应的样本编辑文本，调用所述图像处理模型进行图像编辑处理，得到每个所述样本原始图像的编辑后图像，其中，所述编辑后图像是根据所述样本编辑文本对应的编辑指令编辑得到的；

模型训练模块，配置为确定每个所述编辑后图像的质量参数；

所述模型训练模块，配置为根据所述质量参数选择多个所述编辑后图像，以作为样本编辑后图像；

所述模型训练模块，配置为基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型，其中，训练后的所述图像处理模型用于基于待编辑图像生成所述目标图像领域的编辑后图像。

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的图像处理模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现本申请实施例提供的图像处理模型的训练方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的图像处理模型的训练方法。

本申请实施例具有以下有益效果：

通过获取样本图像以及样本编辑文本，生成目标领域的多种不同的编辑后图像作为图像处理模型的训练样本，节约了获取目标领域的编辑后图像所需的计算资源；评估编辑后图像的质量参数，并根据质量参数对所生成的编辑后图像进行筛选，提升了用于训练模型的编辑后图像与原始图像、编辑文本之间的匹配程度，进而能够提升训练图像处理模型的效果，以使图像处理模型能够更准确地根据待编辑图像生成对应的编辑后图像，提升图像处理的准确性。

附图说明

图1是本申请实施例提供的图像处理模型的训练方法的应用模式示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A至图3F是本申请实施例提供的图像处理模型的训练方法的流程示意图；

图4A是本申请实施例提供的图像处理模型的第一结构示意图；

图4B是本申请实施例提供的图像处理过程的第一原理示意图；

图4C是本申请实施例提供的图像处理过程的第二原理示意图；

图4D是本申请实施例提供的图像处理模型的第二结构示意图；

图5A是本申请实施例提供的编辑前后的图像的对比示意图；

图5B是本申请实施例提供的编辑前后的图像的对比示意图；

图6是本申请实施例提供的图像处理模型的训练方法的一个可选的流程示意图；

图7A是本申请实施例提供的图像处理模型中的注意力机制模块的结构示意图；

图7B是本申请实施例提供的图像处理模型中的残差块的结构示意图；

图7C是本申请实施例提供的图像处理模型中的空间转换器的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在本申请中，涉及到的数据抓取技术方案实施(例如：从网络中获取的目标领域的原始图像)，在本申请以上实施例运用到具体产品或技术中时，相关数据收集、使用和处理过程应该遵守国家法律法规要求，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型，不会妨碍目标网站的正常运行。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)扩散模型：一种生成模型，包括两个主要的过程域:正向扩散和反向扩散。在前向扩散阶段，图像被逐渐引入的噪声污染，直到图像成为完全随机噪声。在反向过程中，利用一系列马尔可夫链在每个时间步逐步去除预测噪声，从而从高斯噪声中恢复数据。

2)扩散模型文生图：将目标文本(text)输入扩散过程的生成模型，扩散模型对一个随机噪声图X经过一系列操作，并在目标文本对交叉注意力机制的约束下，产生与文本相关的预测图像Y。

3)场景时间氛围渲染：一种图像编辑方式，目标是对场景进行时间、四季、早晚等变更操作，例如：原图是白天，经过渲染后变成黑夜，原图是春天渲染后变成秋天，渲染前后图像内容不变，仅原图中与季节相关内容被改变。

4)生成模型出图率：指通过生成模型产生的图像结果中被采用的图像的比例，现有生成模型由于容易出现人物畸形、物体缺失等问题，出图率常常不高。

5)U型网络，U-Net网络的主要结构包括解码器、编码器、瓶颈层，瓶颈层是两个3×3的卷积层，用于通过少量的图片训练集，就能实现对像素点类别的预测，并且可以对像素点进行着色绘图。

本申请实施例提供一种图像处理模型的训练方法、图像处理模型的训练装置、电子设备和计算机可读存储介质及计算机程序产品，提升目标图像领域的图像生成处理的准确度。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施终端设备，如笔记本电脑、平板电脑、台式计算机、机顶盒、智能电视、移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、车载终端、虚拟现实(Virtual Reality，VR)设备、增强现实(Augmented Reality，AR)设备等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为终端设备或服务器时示例性应用。

参考图1，图1是本申请实施例提供的图像处理模型的训练方法的应用模式示意图；示例的，图1中涉及服务器200、网络300及终端设备400、数据库500。终端设备400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，服务器200可以是图像编辑平台的服务器，数据库500存储有大量的图像数据。

示例的，服务器200从数据库500中提取目标领域的原始图像、编辑文本作为训练数据，服务器200调用本申请实施例提供的图像处理模型的训练方法，基于训练数据进行训练，得到训练后的图像处理模型。用户通过终端设备400上传待处理图像和编辑文本到服务器200，服务器200调用训练后的图像处理模型对待处理图像和编辑文本进行编辑处理，得到编辑后的图像。例如：待处理图像的画面是早上的风景图，编辑文本是“转换为黑夜”，编辑后的图像的画面是夜晚的风景图。

本申请实施例可以通过数据库技术实现，数据库(Database)，简而言之可视为电子化的文件柜存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统(Database Management System，DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML(Extensible Markup Language，即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(SQL，Structured Query Language)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

本申请实施例，还可以通过云技术实现，云技术(Cloud Technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，将来每个物品都有可能存在自己的哈希编码识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，服务器200可以实施为多个服务器，例如：训练服务器、图像处理服务器，其中，训练服务器用于执行模型训练处理，图像处理服务器用于调用训练完成的图像处理模型进行图像编辑。

在一些实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的电子设备的结构示意图，以该电子设备是服务器200为例进行说明，图2所示的服务器200包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的图像处理模型的训练装置455，其可以是程序和插件等形式的软件，包括以下软件模块：数据获取模块4551、图像编辑模块4552、模型训练模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。在图2中为了方便表达，一次性示出了上述所有模块，但是不应视为在图像处理模型的训练装置455排除了可以只包括图像编辑模块4552的实施，将在下文中说明各个模块的功能。

在一些实施例中，终端设备或服务器可以通过运行计算机程序来实现本申请实施例提供的图像处理模型的训练方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如图像编辑APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面，说明本申请实施例提供的图像处理模型的训练方法，如前所述，实现本申请实施例的图像处理模型的训练方法的电子设备可以是终端设备或者服务器，又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。

需要说明的是，下文中的图像处理的示例中，是以目标图像领域是古风、中式风格为例说明的，本领域技术人员根据对下文的理解，可以将本申请实施例提供的图像处理模型的训练方法应用于包括其他领域的图像集合的处理。

参见图3A，图3A是本申请实施例提供的图像处理模型的训练方法的流程示意图，将结合图3A示出的步骤进行说明。

在步骤301中，获取训练任务对应的目标图像领域的样本集合。

在一些实施例中，步骤301可以通过以下方式实现：获取训练任务对应的编辑指令所匹配的样本编辑文本；获取目标图像领域的样本原始图像，并获取每个样本原始图像的清晰度；将标注有清晰度的每个样本原始图像、以及样本编辑文本组合为样本集合。样本集合中的每个样本对包括：目标图像领域的样本原始图像、样本原始图像对应的样本编辑文本。

本申请实施例中，通过对样本原始图像标注清晰度，便于训练时区分不同的清晰度进行训练，使得训练得到的图像处理模型能够针对不同清晰度的图像获得更好的生成结果，提升了训练效果。

在步骤302中，基于每个样本原始图像以及每个样本原始图像对应的样本编辑文本，调用图像处理模型进行图像编辑处理，得到每个样本原始图像的编辑后图像。

示例的，编辑后图像是根据样本编辑文本对应的编辑指令编辑得到的。例如：样本编辑文本是“变为黑夜”，对应的编辑指令是“将图像的当前场景编辑为黑夜场景”，对应的编辑处理包括：添加黑夜场景相关的素材、降低图像亮度等。再例如：样本编辑文本是“秋天”，对应的编辑指令是“将图像的当前场景编辑为秋天场景”，对应的编辑处理包括：在图像中添加秋天相关的图像素材、将图像的当前场景中的与秋天场景矛盾的素材替换为秋天场景的素材。

在一些实施例中，参考图3B，图3B是本申请实施例提供的图像处理模型的训练方法的流程示意图；步骤302可以通过图3B中的步骤3021至步骤3025实现，以下具体说明。

在步骤3021中，调用图像处理模型执行以下处理：对样本编辑文本进行特征提取处理，得到编辑文本特征。

示例的，针对样本编辑文本的特征提取处理可以通过编码器实现，将样本编辑文本中的每个字符根据特定的字符映射表编码为对应的特征值，按照文本中的顺序将每个字符的特征值组合，得到编辑文本特征。文本特征提取处理可以通过对比语言-图像CLIP模型中用于文本编码的编码器实现。

在步骤3022中，基于每个样本原始图像进行编码处理，得到每个样本原始图像的原始图像特征。

示例的，获取样本原始图像中每个像素的像素值，对每个像素值进行归一化处理，将归一化处理结果组合为原始图像特征。针对图像的编码处理可以通过对比语言-图像CLIP模型的变分自编码器(VAE)实现。

在步骤3023中，对每个原始图像特征进行噪声扩散处理，得到噪声图像特征。

示例的，噪声扩散处理是对原始图像添加随机噪声的过程，添加随机噪声也即对原始图像中每个像素分别对应的特征值添加对应的随机参数，以得到添加噪声的噪声图像特征。

在一些实施例中，参考图3C，图3C是本申请实施例提供的图像处理模型的训练方法的流程示意图；步骤3023可以通过图3C中的步骤30231至步骤30233实现，以下具体说明。

在步骤30231中，获取每个样本原始图像对应的多个随机参数。

示例的，为避免噪声扩展处理后的图像与原始图像的差异过大而影响训练结果，随机参数存在对应的取值范围，取值范围可以根据实际的训练需求进行设置。

在一些实施例中，步骤30231可以通过以下方式实现：根据每个样本原始图像的清晰度，对每个样本原始图像进行分组，得到至少两个图像组；根据每个图像组所对应的清晰度范围，对每个图像组分配不同的随机参数范围，其中，每个图像组的随机参数范围中的起始参数与清晰度范围的起始参数正相关；根据每个样本原始图像所属的图像组对应的随机参数范围，生成每个样本原始图像分别对应的多个随机参数。

例如：获取每个原本原始图像的清晰度值，将清晰度值的中位数作为分组依据，将大于清晰度值的中位数的划分至第一组，将小于或者等于清晰度值的中位数的划分至第二组。根据清晰度对每个组分配随机参数范围，第一组的清晰度大于第二组，第一组的随机参数范围的起始参数大于第二组的随机参数范围的起始参数。

在步骤30232中，针对每个样本原始图像执行以下处理：基于多个随机参数，生成扩展噪声特征。

示例的，假设添加噪声的次数是T，则基于多个随机参数生成T个不同的扩展噪声特征。扩展噪声特征的特征尺寸与原始图像特征相同，用于叠加到原始图像特征中。

在步骤30233中，将每个扩展噪声特征依次与样本原始图像的原始图像特征叠加，得到噪声图像特征。

示例的，对每个样本原始图像进行随机参数的正向传播处理，例如：噪声的正向传播处理的次数是T次，第i次的正向传播处理的输入是第i-1次的输出，将原始图像特征中迭代地加入噪声，得到噪声图像特征。

继续参考图3B，在步骤3024中，基于每个样本原始图像对应的编辑文本特征，对每个样本原始图像的噪声图像特征进行多个层次的降噪处理，得到降噪图像特征。

示例的，降噪处理可以通过降噪U型神经网络的注意力机制结构实现。示例的，图4A是本申请实施例提供的图像处理模型的第一结构示意图。图像处理模型405A包括降噪U型网络403、编码器401、解码器404。降噪处理可以是无约束条件执行的、基于原始图像特征作为约束条件执行的、基于编辑文本的特征作为约束条件执行的。

在一些实施例中，参考图3D，图3D是本申请实施例提供的图像处理模型的训练方法的流程示意图；步骤3024可以通过图3D中的步骤30241A至步骤30244A实现，以下具体说明。

在步骤30241A中，针对每个样本原始图像对应的编辑文本特征执行以下处理：将编辑文本特征作为噪声图像特征的第一约束条件。

本申请实施例中，约束条件是指注意力机制中的键(Key)和值(Value)。将编辑文本特征作为注意力机制中所需的键值输入图像处理模型。

在步骤30242A中，基于第一约束条件和注意力机制，对噪声图像特征执行多个层次的下采样处理，得到下采样结果。

示例的，下采样处理的输入是上一层次的下采样处理的输出，且调用注意力机制的每个层次的下采样处理的键值均为编辑文本特征。

在步骤30243A中，基于第一约束条件和注意力机制，对下采样结果执行多个层次的上采样处理，得到第一采样处理结果。

示例的，每个层次的上采样处理的输入是上一层次的上采样处理的输出，且调用注意力记住的每个层次的上采样处理的键值均为编辑文本特征。

在步骤30244A中，将第一采样处理结果减去预配置噪声表征，得到第一降噪特征，将第一降噪特征作为降噪图像特征。

示例的，通过减去预配置噪声表征，可以提升生成的图像处理结果的准确性，预配置的噪声表征可以通过针对噪声特征进行学习得到。

在一些实施例中，参考图3E，图3E是本申请实施例提供的图像处理模型的训练方法的流程示意图；步骤3024可以通过图3E中的步骤30241B至步骤30245B实现，以下具体说明。

在步骤30241B中，针对每个样本原始图像对应的编辑文本特征执行以下处理：将编辑文本特征作为噪声图像特征的第一约束条件。

示例的，步骤30241B的原理与步骤30241A相同，此处不再赘述。

在步骤30242B中，基于第一约束条件和注意力机制，对噪声图像特征执行多个层次的采样处理，得到第一采样处理结果，并将第一采样处理结果与预配置噪声表征相减，得到第一降噪特征。

示例的，步骤30242B的原理与步骤30242A至30244A相同，此处不再赘述。第一降噪特征与步骤30244A中的第一降噪特征的获取方式相同。

在步骤30243B中，基于第二约束条件和注意力机制，对噪声图像特征执行多个层次的采样处理，得到第二采样处理结果，并将第二采样处理结果与预配置噪声表征相减，得到第二降噪特征。

示例的，第二约束条件包括：每个层次的采样处理的约束为上一层次所输出的采样结果。也即，每个层次的采样处理调用的注意力机制所用到的键值是上一个层次的所输出的采样结果。

在步骤30244B中，基于注意力机制对噪声图像特征执行多个层次的采样处理，得到第三采样处理结果，并将第三采样处理结果与预配置噪声表征相减，得到第三降噪特征。

示例的，第三采样处理结果没有相应的约束条件，进而可以获取到与文本、图像约束不同的降噪特征。

在步骤30245B中，对第一降噪特征、第二降噪特征以及第三降噪特征进行加权求和，得到降噪图像特征。

示例的，每个降噪特征对应的权重值可以根据实际需求进行设置，本申请实施例中，第一降噪特征对应的权重值大于第二降噪特征、第三降噪特征分别对应的权重值。基于上述权重值加权得到的降噪图像特征受到编辑文本的影响更大，能够获得与编辑文本对应的图像编辑指令所期望的编辑结果更接近的图像处理结果。

本申请实施例中，通过不同的约束，并对不同约束下的降噪特征进行加权求和，获取到了更准确的图像编辑结果。

继续参考图3B，在步骤3025中，对降噪图像特征进行解码处理，得到每个样本原始图像的编辑后图像。

示例的，继续参考图4A，解码处理可以通过解码器404实现，将降噪图像特征中的每个特征值还原为图像中每个像素对应的像素值，得到编辑后图像。

继续参考图3A，在步骤303中，确定每个编辑后图像的质量参数。

示例的，质量参数可以通过模型获取，质量参数用于表征编辑后图像属于合格图像的概率，图像是否合格的标准是通过人工分类确定的，人工分类用于评价图像是否美观、是否具备编辑文本所表征的要素，可以通过人工分类获取到的合格类型的样本、非合格类型的图像样本对模型进行训练，以使模型具备分类功能，例如：通过语言图像对比模型(Contrastive Language-Image Pre-Training，CLIP)获取。通过对应的训练集对模型进行训练，以使模型能够用于对编辑后图像属于合格类型的概率进行分类。

在一些实施例中，步骤303可以通过以下方式实现：对多个编辑后图像调用语言图像对比模型进行质量预测处理，得到每个编辑后图像的质量参数；其中，语言图像对比模型是基于目标图像领域的样本原始图像训练得到的，质量参数是编辑后图像属于质量合格类型的概率，在语言图像对比模型对应的训练集合中，质量合格类型的样本标签为1，非质量合格类型的样本标签为0。

继续参考图3A，在步骤304中，根据质量参数选择多个编辑后图像，以作为样本编辑后图像。

示例的，质量参数与编辑后文本的质量、编辑后文本与编辑文本的匹配程度正相关，选取质量参数大于预设值，或者降序排序中预设百分比的编辑后图像作为样本编辑后图像。

在一些实施例中，步骤304可以通过以下方式实现：根据质量参数对多个编辑后图像进行降序排序，得到降序排序列表；将降序排序列表中位于头部的预设比例的编辑后图像作为样本编辑后图像，其中，预设比例是基于训练目标确定的。

本申请实施例中，一方面，通过图像处理模型本身生成样本编辑图像减少了收集样本编辑图像所需的时间、成本；另一方面，通过基于质量参数对编辑后图像进行评估，选取质量参数较大的预设比例的编辑后图像作为样本，提升了用于训练图像处理模型的图像样本的质量，进而能够提升训练模型的效果。

在步骤305中，基于每个样本编辑后图像、每个样本编辑后图像对应的样本原始图像和样本编辑文本，训练图像处理模型。

这里，训练后的图像处理模型用于基于待编辑图像生成目标图像领域的编辑后图像。

在一些实施例中，参考图3F，图3F是本申请实施例提供的图像处理模型的训练方法的流程示意图；步骤305可以通过图3F中的步骤3051至步骤3053实现，以下具体说明。

在步骤3051中，基于每个样本原始图像和样本编辑文本，调用图像处理模型进行图像编辑处理，得到预测编辑图像。

示例的，图像编辑处理的原理与上文中步骤302相同，此处不再赘述。

在步骤3052中，获取每个预测编辑图像的像素值、每个预测编辑图像对应的样本编辑后图像的像素值之间的均方差损失。

示例的，原始图像和预测的编辑后图像的预测损失采用均方误差损失(MeanSquare Error，MSE)。下列y为图文对中图像各点像素值。表示预测的像素。均方误差指的就是模型预测值/>与样本真实值y_i之间距离平方的平均值。均方误差损失MSE表征为以下公式(1)：

在步骤3053中，基于均方差损失与预配置学习率，对图像处理模型进行迭代的反向传播处理，得到训练后的图像处理模型。

示例的，预配置学习率与当前的迭代次数负相关。例如：初始化采用0.0004的学习率，以后每5轮学习后学习率变为原来的0.1倍，比如第6轮的学习率是0.00004，共训练10轮。

在一些实施例中，在步骤305之后，执行以下处理：响应于接收到待编辑图像和编辑指令文本，调用训练后的图像处理模型执行以下处理：对编辑指令文本进行特征提取处理，得到编辑文本特征；对编辑文本特征进行分类处理，得到编辑指令文本属于编辑方式的概率；当编辑指令文本属于编辑方式的概率大于概率阈值，基于每个待编辑图像进行编码处理，得到每个待编辑图像的原始图像特征；对每个原始图像特征进行噪声扩散处理，得到噪声图像特征；基于每个待编辑图像对应的编辑文本特征，对每个待编辑图像的噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；对降噪图像特征进行解码处理，得到每个待编辑图像的编辑后图像。

示例的，调用训练后的图像处理模型执行图像处理的原理与上文步骤302相同，此处不再赘述。

在一些实施例中，在步骤305之后，执行以下处理：响应于接收到待编辑图像，调用训练后的图像处理模型执行以下处理：基于每个待编辑图像进行编码处理，得到每个待编辑图像的原始图像特征；对原始图像特征进行分类处理，得到待编辑图像对应不同编辑方式的概率，选取概率最大的编辑方式作为目标编辑方式；基于目标编辑方式对每个原始图像特征进行噪声扩散处理，得到噪声图像特征；基于目标编辑方式，对每个待编辑图像的噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；对降噪图像特征进行解码处理，得到每个待编辑图像的编辑后图像。

示例的，在一些情况下，用户未输入相应的编辑文本，可以根据输入的待编辑图像进行预测处理，得到针对不同编辑方式的概率，将概率最高的编辑方式作为用户可能偏好的编辑方式，根据概率最大的编辑方式生成对应的图像，以供用户选择。

本申请实施例通过获取样本图像以及样本编辑文本，生成目标领域的多种不同的编辑后图像作为图像处理模型的训练样本，节约了获取目标领域的编辑后图像所需的计算资源；评估编辑后图像的质量参数，并根据质量参数对所生成的编辑后图像进行筛选，提升了用于训练模型的编辑后图像与原始图像、编辑文本之间的匹配程度，进而能够提升训练图像处理模型的效果，以使图像处理模型能够更准确地根据待编辑图像生成对应的编辑后图像，提升图像处理的准确性。

下面，将说明本申请实施例图像处理模型的训练方法在一个实际的应用场景中的示例性应用。

本申请实施例中，以目标领域是中文领域为例进行说明，在具体实施中，本申请实施例提供的图像处理模型的训练方法也可以应用在不同语言环境中。

中文小说插图生成处理时，需要对相同的场景进行日夜、下雨下雪等不同时间转变，即中文场景渲染。现有基于人工智能(Artificial Intelligence，AI)的动画生成工具(Stable Diffusion)的开源模型instruct pix2pix图像编辑可以一定程度实现英文场景的图像变换，但是开源模型缺乏中文场景数据训练，故对中文场景编辑效果较差；同时应用中，开源模型还需要对不同的图像进行多次生成参数尝试，造成自动化应用上的困难，并且出图率比较低，例如：编辑文本为“转换为秋天”，编辑后的图像中与季节无关的建筑物可能会与原图不同。

相关技术存在以下问题：1、难以使编辑后图像中原图对应的主要内容不变，例如：编辑后图像相较于原图改变了图像中的某些物体；2、在不恰当的位置生成渲染结果，例如：图像中出现不符合自然原理的物体；3、生成模型对中文场景生成能力差，会出现中文场景整体编辑结果不佳的问题。本申请根据上述问题，采用图像生成筛选的方法获取高质量的渲染数据。通过对图像的编辑指令识别，应用时推荐用户可用编辑指令，有利于降低非规范指令的输入。

本申请实施例，基于大规模优质中文场景图的图像渲染数据收集，并通过收集到的中文场景数据对模型进行微调训练实现中文场景渲染的生成能力。考虑到中文场景的特殊性，基于图像收集训练数据，从互联网收集目标中文场景图像，并根据对图像的评估来确定后续图像生成的参数配置，并根据参数配置确定每个图像对应的编辑文本；通过对图像在不同参数下进行编辑得到编辑后的图像，将编辑后图像、编辑前图像以及编辑文本作为三元组，由于原模型出图率非常低，为了提升生成图像美观度本申请实施例从所有生成的图像中选择质量较好的图像作为训练集(每个样本是一个三元组，包括编辑前的图像、编辑后的图像和编辑文本)，采用收集到的训练集微调渲染模型。

参考图6，图6是本申请实施例提供的图像处理模型的训练方法的一个可选的流程示意图；以下结合图6的步骤，以电子设备为执行主体，对图像处理模型的训练方法进行解释说明。

在步骤601中，数据预处理参数计算。

在步骤602中，获取中文场景数据。

示例的，以下对步骤602和步骤601进行解释说明，以中文场景为例，从互联网收集大量中文场景，如名胜古迹、山川等景点风光图。收集方式可以是从有授权的网站中获取数据，或者从网络中爬取数据。

示例的，针对收集到的所有图像，计算图像清晰度，图像清晰度的计算方法可以是拉普拉斯算子计算方法，也可以采用其他不同的清晰度计算方法。对所有样本的清晰度进行收集，将清晰度的中位数作为清晰度阈值。将清晰度大于清晰度阈值的图像划分至高清图像组，将清晰度小于或者等于清晰度阈值的图像划分至低清图像组。示例的，也可以采用所有图像的清晰度的均值作为清晰度阈值，并划分图像组。

在步骤603中，选择渲染模型的处理参数。

示例的，本申请实施例中，渲染模型也即上文中的图像处理模型，初始化的渲染模型可以是采用sd-v1-5-ema模型参数。

示例的，根据不同的清晰度，设置渲染模型进行图像编辑时所使用的不同的权重值，例如：对于高清图像组，采用图像权重值image-config-scale：2.0，对于低清图像组采用图像权重值image-config-scale1.2，每个图像组的文本权重值text-config-scale都为7.5。设置高低清的随机参数范围为+/-0.2，：对高清图像组，图像随机参数范围image-config-scale即1.8～2.2范围；对高清图像组随机参数范围则为1～1.4。在指定范围内随机生成10次图像配置参数(image-config-scale，seed)，其中种子(seed)为任意整数，Seed是一个随机数种子,它用于初始化随机数生成器。

在步骤604中，基于原始图像调用渲染模型生成多个编辑后图像。

示例的，在步骤604之前，收集训练任务需要学习的渲染目标(编辑目标)，如使图像明亮(make it brighter)、使图像变暗(darker)等。根据编辑目标确定对应的编辑文本。

在一些实施例中，可以通过以下方式生成多个编辑后图像：

图4A是本申请实施例提供的图像处理模型的第一结构示意图；将原图和针对原图生成的随机数i作为输入数据C，输入到图像处理模型405A中，输入数据通过编码器401的编码处理，得到编码结果，对编码结果进行扩散处理(diffusion)得到T时刻的隐空间表征Z_T。隐空间表征Z_T被输入图像处理模型405A中的降噪U型网络403中，降噪U型网络403通过T次降噪操作(denoising U-Net)将隐空间表征Z_T还原到图像的编码特征Z_T-1`，还原后的编码特征Z_T-1`，经过变分自编码器(解码器404)的解码过程得到预测图像Y，也即编辑后图像。其中，编码器401可以是变分自编码器(Variational AutoEncoder，VAE)，变分自编码器负责将映射到潜在特征空间、将潜空间的数据转换为正常图像。对于文本，经过对比语言-图像预训练模型CLIP文本分支得到文本嵌入特征(embedding)后通过降噪U型网络403的查询键值对自注意力机制结构(Query-Key-Value，QKV)进行控制。继续参考图4A，编辑文本通过对比语言-图像预训练模型CLIP文本分支(编码器402)转换为对应的嵌入特征，并输入到降噪U型网络403的QKV自注意力机制结构。扩散抽样用于将噪声图像经过变分自编码器编码的特征映射到T时刻的隐空间表征。对图像的去噪过程学习产生噪声表征的拟合，将原图减去噪声表征得到真实需要的图像表征，并经过解码器404得到真实需要的图像。

图7A是本申请实施例提供的图像处理模型中的注意力机制模块的结构示意图；图像处理模型的注意力机制模块包含了多个堆叠的残差块(resBlock)和空间转换器(Spatial Transformer)。本申请实施例中，注意力机制模块701A包括第一残差块702A、第一空间转换器703A、第二残差块704A、第二空间转换器705A以及下采样模块706A。第一空间转换器703A的输入是第一残差块702A输出的特征以及第一残差块702A的输入。第二空间转换器705A的输入是第二残差块704A、作为键值对的文本嵌入向量。

注意力机制模块701A含有两个空间转换器(第一空间转换器703A、第二空间转换器705A)，每个空间转换器为一个QKV过程，在第一个QKV过程中KV键值与输入的搜索词Q相同(搜索词Q为上一网络结构的输出)，在第二个QKV过程中KV键值为用于控制生成的文本嵌入向量(embedding)约束。

参考图7B，图7B是本申请实施例提供的图像处理模型中的残差块的结构示意图；残差块701B可以是图7A中任意一个残差块。残差块701B包括全连接层703B(Dense)、二维卷积层702B以及二维卷积层704B。残差块701B的输入是时间步嵌入(Timestep Embedding)、模型中的隐层输入(Latent in)；二维卷积层704B和二维卷积层702B之间存在跳跃连接(skip connetion)，二维卷积层702B输出隐层输出(Latent out)。

参考图7C，图7C是本申请实施例提供的图像处理模型中的空间转换器的结构示意图。空间转换器701C可以是图7A中的任意一个空间转换器。空间转换器701C包括二维卷积层702C、密集投影层703C(Dense Projection)、密集投影层704C、密集投影层705C、矩阵内积层706C(Matmul(dot))、加权计算层707C(Scale)、归一化层708C(Softmax)、矩阵内积层709C、二维卷积层710C。其中，密集投影层704C、密集投影层705C的输入是上下文嵌入，也即文本的嵌入向量。密集投影层704C输出K矩阵(键矩阵)，密集投影层705C输出V矩阵(值矩阵)。密集投影层703C输出Q矩阵。归一化层708C输出注意力权重矩阵，矩阵内积层709C将注意力权重矩阵和V矩阵内积，二维卷积层710C输出隐层输出。

在步骤605中，获取编辑后图像的美观程度。

示例的，对所有生成的编辑后图像计算美观程度。计算美观程度的方法是采用对比语言-图像预训练模型(Contrastive Language-Image Pre-Training,CLIP)的图像嵌入(embedding)，基于编辑后图像调用CLIP模型对进行分类处理，将编辑后图像属于质量合格类别的概率作为美观程度。

示例的，属于质量合格类别的条件是图像中的景物符合自然规律。

在步骤606中，根据每个编辑后图像的美观程度选取样本编辑后图像，得到样本三元组。

示例的，对所有预测美观程度进行降序排序，选择降序排序中占全部样本的30％作为可靠预测结果保存，也即，将降序排序中占全部样本的30％的编辑后图像，作为训练模型所用的编辑后图像。

示例的，还可以对选取的编辑后图像进行人工清洗，以删除不符合预期的样本。样本三元组包括：原始图像、编辑文本、编辑后图像。

在步骤607中，基于样本三元组训练渲染模型。

示例的，对全量训练数据一共进行N轮(如100)迭代，每轮迭代处理中，全量训练数据在模型中均被训练完一次称为一轮迭代。在每一轮迭代中，由于训练机器的显存资源有限，不能把全量样本一次性输入到模型中进行训练，故对所有样本需要分批次(batch)训练，每批次样本输入到模型中进行前向计算、后向计算、模型参数更新。

训练采用三元组样本，对某个批次训练，从全量训练数据中随机抽取bs个三元组样本(包括：原图，编辑文本，编辑后图像)，其中原图用于添加噪声后作为噪声图输入VAE编码器，文本用于生成约束，渲染图像用于损失计算，训练时执行以下处理：

(1)第一轮的第一个批次训练前参数初始化：对变分自编码器、文本编码器(text_encoder)、U型网络采用开源已训练好的模型(stable-diffusion v1-5)参数并且在本训练中仅U-Net参数需要更新，其他不更新。初始化采用0.0004的学习率，以后每5轮学习后学习率变为原来的0.1倍，共训练10轮。

(2)取随机一个种子i产生噪声图，该图与原图叠加产生预测图X，预测图X经过隐空间表征产生图像特征Z_T(上文中的隐空间表征Z_T)。

(3)把文本信息经过对比语言-图像预训练模型clip得到文本表征，输入到生成模型中(文本表征作为KV信息)，并对图像特征ZT在KV约束下进行T次降噪U-Net前向计算，降噪U型网络得到3组结果：文本text图像image、无约束uncondition三个信息的降噪结果。

图4C是本申请实施例提供的图像处理过程的第二原理示意图；图4D是本申请实施例提供的图像处理模型的第二结构示意图。在图4C中，将随机噪声图、原图并行或者分别地三次输入至自分编码器和扩散模型406，将输出的随机噪声图和原图的特征输出到降噪U型网络407中，降噪U型网络407根据输入的特征，分别输出三组不同约束下的预测结果，包括：无约束噪声预测结果、图像噪声预测结果、文本噪声预测结果。采用预配置的权重值，image-scale(默认1.5)、text-scale(默认7.5)、uncondition-scale(默认为1)对三个信息加权得到最终的预测结果(把3组结果通过加权计算得到1组结果)，参考图4D，加权得到的是Z₀的预测值Z`。预测值Z`经过解码(decoder)得到预测的编辑后图像。

示例的，图4D中的处理与上文中图4A的处理的区别在于，图4D中，基于图4C的原理，通过对不同约束下的预测结果进行加权求和(例如图4D中的加权计算)，得到了更准确的处理结果。

在步骤608中，计算模型损失。

示例的，针对每个批次计算损失，具体可以通过以下方式实现：针对每个原始图像和预测的编辑后图像计算子损失，将每个子损失叠加为批次对应的总损失。

示例的，可以采用随机梯度下降方法(Stochastic Gradient Descent，SGD)，随机梯度下降法是朝着梯度方向只前进一定距离的梯度下降方法，把损失反向回传到图像处理模型中得到U型网络的梯度并更新参数。

在一些实施例中，原始图像和预测的编辑后图像的预测损失采用均方误差损失(Mean Square Error，MSE)。下列y为图文对中图像各点像素值。表示预测的像素。均方误差指的就是模型预测值/>与样本真实值y_i之间距离平方的平均值。均方误差损失表征为以下公式(1)：

在一些实施例中，参考图4B，图4B是本申请实施例提供的图像处理过程的第一原理示意图；调用对比语言-图像CLIP模型对原图提取图像表征，对编辑文本提取文本表征，两者拼接后(合并特征)输入到分类模型405中进行二分类，预测0或者1，1表示建议的编辑能力，0表示无法实现的编辑能力。其中分类模型采用多层感知机，或者bert基于文本特征的分类模型，以下表(1)为多层感知机模型的结构。二分类模型的训练方法与常规的深度学习分类一样，采用梯度回传方式更新网络参数。此处不再赘述。

层次名称	输出尺寸	层模块
			全连接层1	2048x1	全连接模块(Full connected layer)和激活函数Relu
全连接层2	1024x1	全连接模块和激活函数Relu
			全连接层3	256x1	全连接模块和激活函数Relu
分类层	2x1	全连接模块(Full connected layer)

表(1)

在一些实施例中，当用户给定原图和编辑的文本。由分类模型对输入的图像、文本进行分类预测当预测值(经过softmax映射到0～1之间)当预测值小于0.5，则调用训练后的图像处理模型进行图像渲染，在返回图像时同时警告该编辑不合理。

当用户给定原图。由分类模型对输入的图像和所有可能的渲染文本(如日夜、春夏秋冬等预设的渲染方式)进行分类预测，根据预测值大于0.5的渲染方式调用训练后的图像处理模型进行渲染，返回多张渲染结果给用户选择。

参考图5A，图5A是本申请实施例提供的编辑前后的图像的对比示意图；原始图像相较于编辑后图像更明亮。编辑后图像是原始图像对应的黑夜的场景。参考图5B，图5B是本申请实施例提供的编辑前后的图像的对比示意图；编辑后图像相较于原始图像更明亮，且编辑后图像中的景物与原始图像的景物内容基本一致。

在一些实施例中，用户可以针对训练后的模型输入一张原图，训练后的模型对输入图像的不同编辑任务进行预测，保留预测概率最高的前3个编辑任务对应的编辑指令返回给用户选择，根据用户选择的指令调用训练后的模型生成对应的编辑后图像。

本申请实施例，具有以下有益效果：

(1)基于图像而非文本进行训练数据收集，相比起在中文场景复现开源方法数据收集，通过海量精美的中文场景图像收集，形成基础图像，避免基础输入的场景图像不佳造成编辑不准确；(2)基于图像进行编辑与样本筛选：通过自动化去除不干净样本，获取更多有价值的学习样本。(3)通过应用时采用预测的方式，根据先验表现，规避不合理的编辑产生不佳输出的情况，从而保证整体生成可控。

下面继续说明本申请实施例提供的图像处理模型的训练装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的图像处理模型的训练装置455中的软件模块可以包括：数据获取模块4551，配置为获取训练任务对应的目标图像领域的样本集合，其中，所述样本集合中的每个样本对包括：所述目标图像领域的样本原始图像、所述样本原始图像对应的样本编辑文本；图像编辑模块4552，配置为基于每个所述样本原始图像以及每个所述样本原始图像对应的样本编辑文本，调用所述图像处理模型进行图像编辑处理，得到每个所述样本原始图像的编辑后图像，其中，所述编辑后图像是根据所述样本编辑文本对应的编辑指令编辑得到的；模型训练模块4553，配置为确定每个所述编辑后图像的质量参数；所述模型训练模块4553，配置为根据所述质量参数选择多个所述编辑后图像，以作为样本编辑后图像；所述模型训练模块4553，配置为基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型，其中，训练后的所述图像处理模型用于基于待编辑图像生成所述目标图像领域的编辑后图像。

在一些实施例中，数据获取模块4551，配置为获取所述训练任务对应的编辑指令所匹配的样本编辑文本；获取所述目标图像领域的样本原始图像，并获取每个所述样本原始图像的清晰度；将标注有清晰度的每个所述样本原始图像、以及所述样本编辑文本组合为所述样本集合。

在一些实施例中，图像编辑模块4552，配置为调用所述图像处理模型执行以下处理：对所述样本编辑文本进行特征提取处理，得到编辑文本特征；基于每个所述样本原始图像进行编码处理，得到每个所述样本原始图像的原始图像特征；对每个所述原始图像特征进行噪声扩散处理，得到噪声图像特征；基于每个所述样本原始图像对应的编辑文本特征，对每个所述样本原始图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；对所述降噪图像特征进行解码处理，得到每个所述样本原始图像的编辑后图像。

在一些实施例中，图像编辑模块4552，配置为获取每个所述样本原始图像对应的多个随机参数；针对每个所述样本原始图像执行以下处理：基于所述多个随机参数，生成扩展噪声特征；将每个所述扩展噪声特征依次与所述样本原始图像的原始图像特征叠加，得到噪声图像特征。

在一些实施例中，图像编辑模块4552，配置为根据每个所述样本原始图像的清晰度，对每个所述样本原始图像进行分组，得到至少两个图像组；根据每个所述图像组所对应的清晰度范围，对每个所述图像组分配不同的随机参数范围，其中，每个所述图像组的所述随机参数范围中的起始参数与所述清晰度范围的起始参数正相关；根据每个所述样本原始图像所属的图像组对应的随机参数范围，生成每个所述样本原始图像分别对应的多个随机参数。

在一些实施例中，图像编辑模块4552，配置为针对每个所述样本原始图像对应的编辑文本特征执行以下处理：将所述编辑文本特征作为所述噪声图像特征的第一约束条件；基于所述第一约束条件和注意力机制，对所述噪声图像特征执行多个层次的下采样处理，得到下采样结果；基于所述第一约束条件和所述注意力机制，对所述下采样结果执行多个层次的上采样处理，得到第一采样处理结果；将所述第一采样处理结果减去预配置噪声表征，得到第一降噪特征，将所述第一降噪特征作为降噪图像特征。

在一些实施例中，图像编辑模块4552，配置为针对每个所述样本原始图像对应的编辑文本特征执行以下处理：将所述编辑文本特征作为所述噪声图像特征的第一约束条件；基于所述第一约束条件和注意力机制，对所述噪声图像特征执行多个层次的采样处理，得到第一采样处理结果，并将所述第一采样处理结果与预配置噪声表征相减，得到第一降噪特征；基于第二约束条件和注意力机制，对所述噪声图像特征执行多个层次的采样处理，得到第二采样处理结果，并将所述第二采样处理结果与所述预配置噪声表征相减，得到第二降噪特征，其中，所述第二约束条件包括：每个层次的采样处理的约束为上一层次所输出的采样结果；基于所述注意力机制对所述噪声图像特征执行多个层次的采样处理，得到第三采样处理结果，并将所述第三采样处理结果与所述预配置噪声表征相减，得到第三降噪特征；对所述第一降噪特征、所述第二降噪特征以及所述第三降噪特征进行加权求和，得到降噪图像特征。

在一些实施例中，模型训练模块4553，配置为对所述多个编辑后图像调用语言图像对比模型进行质量预测处理，得到每个所述编辑后图像的质量参数；其中，所述语言图像对比模型是基于所述目标图像领域的样本原始图像训练得到的，所述质量参数是所述编辑后图像属于质量合格类型的概率，在所述语言图像对比模型对应的训练集合中，质量合格类型的样本标签为1，非质量合格类型的样本标签为0。

在一些实施例中，模型训练模块4553，配置为根据所述质量参数对多个所述编辑后图像进行降序排序，得到降序排序列表；将所述降序排序列表中位于头部的预设比例的编辑后图像作为样本编辑后图像，其中，所述预设比例是基于所述训练目标确定的。

在一些实施例中，模型训练模块4553，配置为基于每个所述样本原始图像和样本编辑文本，调用所述图像处理模型进行图像编辑处理，得到预测编辑图像；获取每个所述预测编辑图像的像素值、每个所述预测编辑图像对应的所述样本编辑后图像的像素值之间的均方差损失；基于所述均方差损失与预配置学习率，对所述图像处理模型进行迭代的反向传播处理，得到训练后的所述图像处理模型，其中，所述预配置学习率与当前的迭代次数负相关。

在一些实施例中，图像编辑模块4552，配置为所述在所述基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型之后，所述方法还包括：响应于接收到待编辑图像和编辑指令文本，调用训练后的所述图像处理模型执行以下处理：对所述编辑指令文本进行特征提取处理，得到编辑文本特征；对所述编辑文本特征进行分类处理，得到所述编辑指令文本属于编辑方式的概率；当所述编辑指令文本属于编辑方式的概率大于概率阈值，基于每个所述待编辑图像进行编码处理，得到每个所述待编辑图像的原始图像特征；对每个所述原始图像特征进行噪声扩散处理，得到噪声图像特征；基于每个所述待编辑图像对应的编辑文本特征，对每个所述待编辑图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；对所述降噪图像特征进行解码处理，得到每个所述待编辑图像的编辑后图像。

在一些实施例中，图像编辑模块4552，配置为在所述基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型之后，响应于接收到待编辑图像，调用训练后的所述图像处理模型执行以下处理：基于每个所述待编辑图像进行编码处理，得到每个所述待编辑图像的原始图像特征；对所述原始图像特征进行分类处理，得到所述待编辑图像对应不同编辑方式的概率，选取概率最大的编辑方式作为目标编辑方式；基于所述目标编辑方式对每个所述原始图像特征进行噪声扩散处理，得到噪声图像特征；基于所述目标编辑方式，对每个所述待编辑图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；对所述降噪图像特征进行解码处理，得到每个所述待编辑图像的编辑后图像。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序或计算机可执行指令，处理器执行该计算机程序或计算机可执行指令，使得该电子设备执行本申请实施例上述的图像处理模型的训练方法。

本申请实施例提供一种计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的图像处理模型的训练方法，例如，如图3A示出的图像处理模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例通过获取样本图像以及样本编辑文本，生成目标领域的多种不同的编辑后图像作为图像处理模型的训练样本，节约了获取目标领域的编辑后图像所需的计算资源；评估编辑后图像的质量参数，并根据质量参数对所生成的编辑后图像进行筛选，提升了用于训练模型的编辑后图像与原始图像、编辑文本之间的匹配程度，进而能够提升训练图像处理模型的效果，以使图像处理模型能够更准确地根据待编辑图像生成对应的编辑后图像，提升图像处理的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像处理模型的训练方法，其特征在于，所述方法包括：

确定每个所述编辑后图像的质量参数；

2.根据权利要求1所述的方法，其特征在于，所述获取训练任务对应的目标图像领域的样本集合，包括：

获取所述训练任务对应的编辑指令所匹配的样本编辑文本；

获取所述目标图像领域的样本原始图像，并获取每个所述样本原始图像的清晰度；

将标注有清晰度的每个所述样本原始图像、以及所述样本编辑文本组合为所述样本集合。

3.根据权利要求1所述的方法，其特征在于，所述基于每个所述样本原始图像以及每个所述样本原始图像对应的样本编辑文本，调用所述图像处理模型进行图像编辑处理，得到每个所述样本原始图像的编辑后图像，包括：

调用所述图像处理模型执行以下处理：

对所述样本编辑文本进行特征提取处理，得到编辑文本特征；

基于每个所述样本原始图像进行编码处理，得到每个所述样本原始图像的原始图像特征；

对每个所述原始图像特征进行噪声扩散处理，得到噪声图像特征；

基于每个所述样本原始图像对应的编辑文本特征，对每个所述样本原始图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；

对所述降噪图像特征进行解码处理，得到每个所述样本原始图像的编辑后图像。

4.根据权利要求3所述的方法，其特征在于，所述对每个所述原始图像特征进行噪声扩散处理，得到噪声图像特征，包括：

获取每个所述样本原始图像对应的多个随机参数；

针对每个所述样本原始图像执行以下处理：

基于所述多个随机参数，生成扩展噪声特征；

将每个所述扩展噪声特征依次与所述样本原始图像的原始图像特征叠加，得到噪声图像特征。

5.根据权利要求4所述的方法，其特征在于，所述获取每个所述样本原始图像对应的多个随机参数，包括：

根据每个所述样本原始图像的清晰度，对每个所述样本原始图像进行分组，得到至少两个图像组；

根据每个所述图像组所对应的清晰度范围，对每个所述图像组分配不同的随机参数范围，其中，每个所述图像组的所述随机参数范围中的起始参数与所述清晰度范围的起始参数正相关；

根据每个所述样本原始图像所属的图像组对应的随机参数范围，生成每个所述样本原始图像分别对应的多个随机参数。

6.根据权利要求3所述的方法，其特征在于，所述基于每个所述样本原始图像对应的编辑文本特征，对每个所述样本原始图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征，包括：

针对每个所述样本原始图像对应的编辑文本特征执行以下处理：

将所述编辑文本特征作为所述噪声图像特征的第一约束条件；

基于所述第一约束条件和注意力机制，对所述噪声图像特征执行多个层次的下采样处理，得到下采样结果；

基于所述第一约束条件和所述注意力机制，对所述下采样结果执行多个层次的上采样处理，得到第一采样处理结果；

将所述第一采样处理结果减去预配置噪声表征，得到第一降噪特征，将所述第一降噪特征作为降噪图像特征。

7.根据权利要求3所述的方法，其特征在于，所述基于每个所述样本原始图像对应的编辑文本特征，对每个所述样本原始图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征，包括：

基于所述第一约束条件和注意力机制，对所述噪声图像特征执行多个层次的采样处理，得到第一采样处理结果，并将所述第一采样处理结果与预配置噪声表征相减，得到第一降噪特征；

基于第二约束条件和注意力机制，对所述噪声图像特征执行多个层次的采样处理，得到第二采样处理结果，并将所述第二采样处理结果与所述预配置噪声表征相减，得到第二降噪特征，其中，所述第二约束条件包括：每个层次的采样处理的约束为上一层次所输出的采样结果；

基于所述注意力机制对所述噪声图像特征执行多个层次的采样处理，得到第三采样处理结果，并将所述第三采样处理结果与所述预配置噪声表征相减，得到第三降噪特征；

对所述第一降噪特征、所述第二降噪特征以及所述第三降噪特征进行加权求和，得到降噪图像特征。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述确定每个所述编辑后图像的质量参数，包括：

对所述多个编辑后图像调用语言图像对比模型进行质量预测处理，得到每个所述编辑后图像的质量参数；

其中，所述语言图像对比模型是基于所述目标图像领域的样本原始图像训练得到的，所述质量参数是所述编辑后图像属于质量合格类型的概率，在所述语言图像对比模型对应的训练集合中，质量合格类型的样本标签为1，非质量合格类型的样本标签为0。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述根据所述质量参数选择多个所述编辑后图像，以作为样本编辑后图像，包括：

根据所述质量参数对多个所述编辑后图像进行降序排序，得到降序排序列表；

将所述降序排序列表中位于头部的预设比例的编辑后图像作为样本编辑后图像，其中，所述预设比例是基于所述训练目标确定的。

10.根据权利要求1至7任一项所述的方法，其特征在于，所述基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型，包括：

基于每个所述样本原始图像和样本编辑文本，调用所述图像处理模型进行图像编辑处理，得到预测编辑图像；

获取每个所述预测编辑图像的像素值、每个所述预测编辑图像对应的所述样本编辑后图像的像素值之间的均方差损失；

基于所述均方差损失与预配置学习率，对所述图像处理模型进行迭代的反向传播处理，得到训练后的所述图像处理模型，其中，所述预配置学习率与当前的迭代次数负相关。

11.根据权利要求1至7任一项所述的方法，其特征在于，在所述基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型之后，所述方法还包括：

响应于接收到待编辑图像和编辑指令文本，调用训练后的所述图像处理模型执行以下处理：

对所述编辑指令文本进行特征提取处理，得到编辑文本特征；

对所述编辑文本特征进行分类处理，得到所述编辑指令文本属于编辑方式的概率；

当所述编辑指令文本属于编辑方式的概率大于概率阈值，基于每个所述待编辑图像进行编码处理，得到每个所述待编辑图像的原始图像特征；

基于每个所述待编辑图像对应的编辑文本特征，对每个所述待编辑图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；

对所述降噪图像特征进行解码处理，得到每个所述待编辑图像的编辑后图像。

12.根据权利要求1至7任一项所述的方法，其特征在于，在所述基于每个所述样本编辑后图像、每个所述样本编辑后图像对应的样本原始图像和样本编辑文本，训练所述图像处理模型之后，所述方法还包括：

响应于接收到待编辑图像，调用训练后的所述图像处理模型执行以下处理：

基于每个所述待编辑图像进行编码处理，得到每个所述待编辑图像的原始图像特征；

对所述原始图像特征进行分类处理，得到所述待编辑图像对应不同编辑方式的概率，选取概率最大的编辑方式作为目标编辑方式；

基于所述目标编辑方式对每个所述原始图像特征进行噪声扩散处理，得到噪声图像特征；

基于所述目标编辑方式，对每个所述待编辑图像的所述噪声图像特征进行多个层次的降噪处理，得到降噪图像特征；

13.一种图像处理模型的训练装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至12任一项所述的图像处理模型的训练方法。

15.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至12任一项所述的图像处理模型的训练方法。