CN116188912A

CN116188912A - 主题图像的图像合成模型的训练方法、装置、介质及设备

Info

Publication number: CN116188912A
Application number: CN202310237121.7A
Authority: CN
Inventors: 余德靖
Original assignee: Shanghai Shuheng Information Technology Co ltd
Current assignee: Shanghai Shuheng Information Technology Co ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-05-30

Abstract

本发明提供了一种主题图像的图像合成模型的训练方法、系统、介质及设备，该方法包括：获取用户输入的主题图像，对主题图像加入不同程度的噪声，得到低分辨率图像和高分辨率图像，低分辨率图像的噪声多于高分辨率图像的噪声；将低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，将中间图像和高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对超分辨率扩散模型进行微调，得到主题图像的图像合成模型。该方法用以基于少量训练数据来进行模型训练，简化模型训练难度，且能够保证合成图像的高质量和多样性。

Description

主题图像的图像合成模型的训练方法、装置、介质及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种主题图像的图像合成模型的训练方法、装置、介质及设备。

背景技术

目前主流的文生图生成技术是扩散模型，该技术是一种基于马尔可夫链的图像生成模型，可以从高斯噪声中逐步恢复出清晰的图像。文本到图像的扩散模型通常分为两个步骤：首先从文本生成低分辨率的图像，然后使用超分辨率的扩散模型提高图像质量，可以生成高质量和多样性的图像。目前扩散模型实现的任务是生成高质量和多样性的图像，但是定制化的图像有较大的市场需求，例如将自己的头像克隆至新的背景中，上述定制化图像在技术上叫做图像合成技术。图像合成技术的优点是可以创造出新的图像，增强图像的视觉效果，提高图像的质量和性能。

可以理解的是，图像合成技术旨在将给定的主题克隆到新的背景中，以便将主题无缝融合到该背景。然而，目前的图像合成技术需要依赖大量的高质量图像作为样本进行训练，所以需要占用较高的计算资源，另外图像的真实性和自然性也会因样本的质量高低受到影响。因此亟需提供一种新的图像合成技术来改善上述问题。

发明内容

本发明的目的在于提供一种主题图像的图像合成模型的训练方法、系统、介质及设备，用以基于少量训练数据来进行模型训练，简化模型训练难度，且能够保证合成图像的高质量和多样性。

第一方面，本发明实施例提供一种主题图像的图像合成模型的训练方法，该方法包括：获取用户输入的主题图像，对所述主题图像加入不同程度的噪声，得到低分辨率图像和高分辨率图像，所述低分辨率图像的噪声多于所述高分辨率图像的噪声；将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，生成中间图像，所述文本到图像模型编码有引用所述主题图像的唯一标识符；将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型。

本发明实施例提供的主题图像的图像合成模型的训练方法的有益效果在于：该模型训练过程中需要少量的主题图像来微调文本到图像模型和超分辨率扩散模型，通常三到五张主题图像就足够了，而且该图像合成模型的训练过程能够兼容处理多种类别的图像，如汽车、动物、食物等，所以简化模型训练难度，且能够保证合成图像的高质量和多样性。

在一种可能的实施方案中，将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，包括：将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，以及将所述主题图像的类别相同的N帧图像作为输入，生成中间图像。该实施例的有益效果在于：使用主题图像的类别相同的N帧图像作为输入相当于使用一个自身的类别特定的先验保持损失，以防止文本到图像模型过拟合或语言漂移，保持模型对主题类别的语义知识，另外，这样训练之后的模型在定制化图像的过程中，能够生成更加多样和风格化。

在其它可能的实施方案中，将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，包括：将所述低分辨率图像作为基础图像，利用所述文本提示词对所述低分辨率图像进行还原操作，生成中间图像。

将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型，包括：将中间图像与所述高分辨率图像进行比较，得到一个损失函数，将所述损失函数传入所述超分辨率扩散模型，不断迭代缩小损失值，得到主题图像的图像合成模型。

在又一种可能的实施方案中，还包括：向所述图像合成模型输入素材图像；获取所述图像合成模型的输出结果，所述输出结果为将所述素材图像与所述样本背景图进行图像融合得到的合成图像，该方案能够利用人工智能技术进行图像合成，提供将用户自定义图像合成至多个场景，根据用户的需求，从海量的图像信息源中选择最匹配的图像元素，合成出满足用户期望的结果图像，在不同的图像域之间进行转换和融合，实现图像的风格迁移、增强、修复等功能，可以在计算机视觉、模式识别等方面得到广泛的应用，解决实际问题。

在其它可能的实施方案中，所述超分辨率扩散模型用于根据当前的噪声水平和类别计算去噪分布，并从中采样一个新的图像，在经过多次迭代后，得到一个满足训练数据分布的图像。

第二方面，本发明实施例还提供一种主题图像的图像合成模型的训练装置，该训练装置包括执行上述第一方面的任意一种可能的实施方式的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

第三方面，本发明实施例中还提供一种计算机可读存储介质，所述可读存储介质包括程序，当程序在终端设备上运行时，使得所述终端设备执行上述第一方面的任意一种可能的实施方式的方法。

第四方面，本发明实施例还提供一种计算机程序产品，当所述程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面的任意一种可能的实施方式的方法。

关于上述第二方面至第四方面的有益效果可以参见上述第一方面中的描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像合成模型结构示意图；

图2为本发明实施例提供的一种主题图像的图像合成模型的训练方法流程示意图；

图3为本发明实施例提供的一种主题图像的图像合成模型的训练示例架构示意图；

图4为本发明实施例提供的训练好的超分辨率扩散模型进行正向推理的过程示意图；

图5为本发明实施例提供的图像合成效果示意图；

图6为本发明实施例提供的一种主题图像的图像合成模型的训练装置示意图；

图7为本发明实施例提供的一种终端设备结构示意图。

具体实施方式

本发明实施例涉及人工智能(artificial intelligence，AI)和机器学习(machine learning，ML)技术，基于人工智能中的深度学习网络和机器学习而实现方案。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

在本发明实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样，单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本发明以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本发明实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性地”或者“例如”的任何实施例或实现方案方案不应被解释为比其它实施例或实现方案方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

本发明提供的图像合成技术利用少量训练数据就可以获得极佳的效果，可以根据文本提示词生成特定主题的图像。本文提出的图像合成模型的训练技术使用了自然语言处理、深度学习、图像识别、多模态等技术。该技术利用了预训练的文本到图像转换模型以及一种特定于类别的先验保留损失，以提高图像的质量和多样性。该发明的技术特点是只需要少量的主题图像来微调文本到图像模型和超分辨率扩散模型，通常三到五张主题图像就足够了，而且该图像合成模型的训练过程能够兼容处理多种类别的图像，如汽车、动物、食物等，所以简化模型训练难度，且能够保证合成图像的高质量和多样性。

本发明实施例中所提供的主题图像的图像合成模型的训练方法的主要结构如图1所示，该模型主要有两部分组成：低分辨率的文本到图像模型和超分辨率的扩散模型。其中：低分辨率的文本到图像模型可以根据文本提示词和一个唯一标识符来生成主题的低分辨率图像。超分辨率的扩散模型，可以根据低分辨率图像和高分辨率的主题图片来生成高分辨率的图像，从而提高细节的保真度。

该图像合成模型可以集成于智能手机、平板电脑或便携式个人计算机等终端设备上，利用人工智能技术进行图像合成，提供将用户自定义图像合成至多个场景，解决了可以根据用户的需求，从海量的图像信息源中选择最匹配的图像元素，合成出满足用户期望的结果图像，在不同的图像域之间进行转换和融合，实现图像的风格迁移、增强、修复等功能，可以在计算机视觉、模式识别等方面得到广泛的应用，解决实际问题。

本发明实施例提供了一种主题图像的图像合成模型的训练方法，如图2所示，该方法的流程可以由终端设备执行，该方法包括以下步骤：

S201，获取用户输入的主题图像，对所述主题图像加入不同程度的噪声，得到低分辨率图像和高分辨率图像，所述低分辨率图像的噪声多于所述高分辨率图像的噪声。

S202，将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，生成中间图像，所述文本到图像模型编码有引用所述主题图像的唯一标识符。

一种可能的实施方式中，将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，以及将所述主题图像的类别相同的N帧图像作为输入，生成中间图像。这样一来，使用主题图像的类别相同的N帧图像作为输入相当于使用一个自身的类别特定的先验保持损失，以防止文本到图像模型过拟合或语言漂移，保持模型对主题类别的语义知识，另外，这样训练之后的模型在定制化图像的过程中，能够生成更加多样和风格化。

S203，将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型。

结合图3来说，用户上传几张的关于面霜的照片，对该主题图像进行加入噪声的过程，选取相邻加入噪声的图像。将所述低分辨率图像作为基础图像，利用所述文本提示词对所述低分辨率图像进行还原操作，生成中间图像。文本提示词例如是A photo of sks中的“sks”，“sks”是英文中没有意义的单词内容，使用该提示词来进行图像生成，将高分辨率图像与低分辨率图像进行比较，得到一个损失函数，损失函数传入扩散模型，不断迭代缩小损失值，从而使得模型能够很好学习到用户给定的面霜的照片。除此之外，为了让模型认识到面霜这个物品，还可以传入一定数量其他面霜的照片对模型进行训练，这样训练之后的模型在定制化图像的过程中，能够生成更加多样和风格化的面霜图片，例如不同角度，不同方向的面霜图片。

以面霜照片为例，如图4所示，用训练好的超分辨率扩散模型进行正向推理的过程包括：首先，从一幅完全由高斯噪声构成的图像开始，这个图像可以通过随机采样得到；然后，通过预测每个步骤滤除的噪声，迭代去噪得到一个高质量的样本。在每个步骤中，扩散模型会根据当前的噪声水平和类别条件来计算去噪分布，并从中采样一个新的图像。最后，在经过多次迭代后，得到一个满足训练数据分布的图像。可见，上述模型的训练过程分为两个步骤：第一步是对低分辨率的文本到图像模型进行微调，使用主题图片和文本提示作为输入，同时使用一个自身的类别特定的先验保持损失，来防止模型过拟合或语言漂移，保持模型对主题类别的语义知识；第二步是对超分辨率的扩散模型进行微调，使用低分辨率和高分辨率的主题图片对作为输入，从而使模型能够保持主题的重要细节。

进一步地，当用户向所述图像合成模型输入素材图像之后，就可以获取所述图像合成模型的输出结果，所述输出结果为将所述素材图像与样本背景图进行图像融合得到的合成图像，输出的合成图像可对原始图像进行修改，如主题的位置，更改主题的属性如颜色、形状，并可以修改主体的姿势、表情、材质以及其他语义修改。示例性的，用户在工作台上传主题图像，图5中的(a)为用户传入图像合成模型中的照片，使用该主题图像来进行训练模型之后，训练结果如图5中的(b)所示。综上，本发明利用人工智能技术进行图像合成，提供将用户自定义图像合成至多个场景，解决了可以根据用户的需求，从海量的图像信息源中选择最匹配的图像元素，合成出满足用户期望的结果图像，在不同的图像域之间进行转换和融合，实现图像的风格迁移、增强、修复等功能，可以在计算机视觉、模式识别等方面得到广泛的应用，解决实际问题。

在本发明的一些实施例中，本发明实施例公开了一种主题图像的图像合成模型的训练装置，如图6所示，该装置用于实现以上各个训练方法实施例中记载的方法，其包括：获取单元601、一级训练单元602和二级训练单元603。获取单元601，用于获取用户输入的主题图像，对所述主题图像加入不同程度的噪声，得到低分辨率图像和高分辨率图像，所述低分辨率图像的噪声多于所述高分辨率图像的噪声。一级训练单元602，用于将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，生成中间图像，所述文本到图像模型编码有引用所述主题图像的唯一标识符。二级训练单元603用于将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型。

所述一级训练单元602将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，具体用于：将所述低分辨率图像作为基础图像，利用所述文本提示词对所述低分辨率图像进行还原操作，生成中间图像。

所述二级训练单元603将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型，具体用于：将中间图像与所述高分辨率图像进行比较，得到一个损失函数，将所述损失函数传入所述超分辨率扩散模型，不断迭代缩小损失值，得到主题图像的图像合成模型。

上述训练方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

上述主题图像的图像合成模型的训练装置可以是由芯片或芯片模组执行。关于上述实施例中描述的各个装置、产品包含的各个模块/单元，其可以是软件模块/单元，也可以是硬件模块/单元，或者也可以部分是软件模块/单元，部分是硬件模块/单元。

在本发明的另一些实施例中，本发明实施例公开了一种终端设备，如图7所示，该终端设备可以集成上述图像合成模型，硬件组成上包括：一个或多个处理器701；存储器702；显示器703；一个或多个应用程序(未示出)；以及一个或多个计算机程序704，上述各器件可以通过一个或多个通信总线705连接。其中该一个或多个计算机程序704被存储在上述存储器702中并被配置为被该一个或多个处理器701执行，该一个或多个计算机程序704包括指令。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述方法实施例所述方法。具体有益效果可以参见上述方法实施例。

本发明还提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述方法实施例所述方法。具体有益效果可以参见上述方法实施例。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何在本发明实施例揭露的技术范围内的变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种主题图像的图像合成模型的训练方法，其特征在于，包括：

获取用户输入的主题图像，对所述主题图像加入不同程度的噪声，得到低分辨率图像和高分辨率图像，所述低分辨率图像的噪声多于所述高分辨率图像的噪声；

将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，所述文本到图像模型编码有引用所述主题图像的唯一标识符；

将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型。

2.根据权利要求1所述的方法，其特征在于，将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，包括：

将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，以及将所述主题图像的类别相同的N帧图像作为输入，生成中间图像。

3.根据权利要求1所述的方法，其特征在于，将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，包括：

将所述低分辨率图像作为基础图像，利用所述文本提示词对所述低分辨率图像进行还原操作，生成中间图像；

将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型，包括：

将中间图像与所述高分辨率图像进行比较，得到一个损失函数，将所述损失函数传入所述超分辨率扩散模型，不断迭代缩小损失值，得到主题图像的图像合成模型。

4.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

向所述图像合成模型输入素材图像；获取所述图像合成模型的输出结果，所述输出结果为将所述素材图像与样本背景图进行图像融合得到的合成图像。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述超分辨率扩散模型用于根据当前的噪声水平和类别计算去噪分布，并从中采样一个新的图像，在经过多次迭代后，得到一个满足训练数据分布的图像。

6.一种主题图像的图像合成模型的训练装置，其特征在于，包括：

获取单元，用于获取用户输入的主题图像，对所述主题图像加入不同程度的噪声，得到低分辨率图像和高分辨率图像，所述低分辨率图像的噪声多于所述高分辨率图像的噪声；

一级训练单元，用于将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，生成中间图像，所述文本到图像模型编码有引用所述主题图像的唯一标识符；

二级训练单元，用于将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型。

7.根据权利要求6所述的装置，其特征在于，所述一级训练单元将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述一级训练单元将所述低分辨率图像和文本提示词作为低分辨率的文本到图像模型的输入，生成中间图像，具体用于：

所述二级训练单元将所述中间图像和所述高分辨率图像作为超分辨率扩散模型的输入，根据比对结果对所述超分辨率扩散模型进行微调，得到主题图像的图像合成模型，具体用于：

9.一种计算机可读存储介质，所述计算机可读存储介质内存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至5中任一项所述的方法。

10.一种终端设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，当所述程序被所述处理器执行时，使得所述终端设备实现如权利要求1至5中任一项所述的方法。