CN116385576A

CN116385576A - 一种基于扩散模型的ai绘画图生成方法、装置以及设备

Info

Publication number: CN116385576A
Application number: CN202310193044.XA
Authority: CN
Inventors: 谢存煌; 李少辉; 余清洲; 刘洛麒
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-04

Abstract

本发明公开了一种基于扩散模型的AI绘画图生成方法、装置及设备，其包括：将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合；将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本；将所述待处理图像与所述属性文本输入至基于StableDiffusion模型构建的风格化模型中，得到AI绘画图生成结果。根据上述方法能够自动化生成AI绘画生成图的效果。

Description

一种基于扩散模型的AI绘画图生成方法、装置以及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于扩散模型的AI绘画图生成方法、装置以及设备。

背景技术

AIGC领域中，Diffusion模型作为新一代生成式模型在文本转图像等诸多应用场景都有不错的表现。特别是近期Stable Diffusion在速度和质量上的突破，使得Diffusion模型的商用落地成为可能。

Stable Diffusion是一种从文本生成图像的模型，目前常见的应用方式需要用户精心设计和调整输入文本，模型才能生成令人满意的图像内容。这种应用方式需要算法和用户进行交互，整体调用链路变长，用户体验也比较差。特别是人像生成领域，引导文本的构造方式极大影响了人脸生成的质量。但是，如何构造可用文本对于相当一部分用户来说是一个需要学习的过程，而这进一步降低了用户的体验感。

发明内容

有鉴于此，本发明的目的在于提出一种基于扩散模型的AI绘画图生成方法、装置、设备以及计算机可读存储介质，旨在解决如何自动构造文本，以实现AI绘画图生成的问题。

为实现上述目的，本发明提供一种基于扩散模型的AI绘画图生成方法，所述方法包括：

将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合；

将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本；

将所述待处理图像与所述属性文本输入至基于Stable Diffusion模型构建的风格化模型中，得到AI绘画图生成结果。

优选的，所述待处理图像为包括人脸的图像；所述将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合，包括：

将待处理图像输入预先训练的包括人脸属性模型以及背景属性模型中，对应得到包括人像属性以及背景属性的所述属性集合。

优选的，所述人像属性包括人脸关键点、人脸框、人脸姿态、性别、年龄以及人种中的任意多种。

优选的，所述背景属性包括背景主体颜色以及背景物体。

优选的，所述将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本，包括：

根据预设的人像属性构造公式：

进行文本构造，得到对应所述待处理图像的人像属性文本。

根据预设的背景属性构造公式：

进行文本构造，得到对应所述待处理图像的背景属性文本。

为实现上述目的，本发明还提供一种基于扩散模型的AI绘画图生成装置，所述装置包括：

属性获取单元，用于将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合；

文本构造单元，用于将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本；

AI绘画生成单元，用于将所述待处理图像与所述属性文本输入至基于StableDiffusion模型构建的风格化模型中，得到AI绘画图生成结果。

为了实现上述目的，本发明还提出一种基于扩散模型的AI绘画图生成设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种基于扩散模型的AI绘画图生成方法的步骤。

为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种基于扩散模型的AI绘画图生成方法的步骤。

有益效果：

以上方案，通过属性模型对用户输入的原始图像进行属性提取，并基于预设文本构造公式自动构造与原始图像内容强相关的属性描述文本，无需额外进行文本的输入，能够简化模型应用流程，自动化生成的AI绘画生成图的效果。

以上方案，对属性描述文本的构造方式灵活，可根据实际需要方便组合添加各种属性进行自动构造属性文本。

以上方案，适用于无人脸图像和人脸图像，并且适用于单人脸及多人脸的场景中，适用范围广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于扩散模型的AI绘画图生成方法的流程示意图。

图2-图4为本发明实施例提供的AI绘画生成图的结果示意图。

图5为本发明实施例提供的一种基于扩散模型的AI绘画图生成装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

以下结合实施例详细阐述本发明的内容。

参照图1所示为本发明一实施例提供的一种基于扩散模型的AI绘画图生成方法的流程示意图。

本实施例中，该方法包括：

S11，将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合；

S12，将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本；

S13，将所述待处理图像与所述属性文本输入至基于Stable Diffusion模型构建的风格化模型中，得到AI绘画图生成结果。

在本实施例中，待处理图像可以为包括人脸的图像，还可以为无人脸的图像。在应用于对无人脸的图像进行AI绘画图的生成时，可省略其中具有对人脸相关处理的一些步骤。以下以包括人脸的图像为例进行介绍说明。为了在自动化文本构造环节中得到相对准确的属性描述内容，需要得到图像的关键提示属性集合，而图像关键属性集合通过训练的属性模型得到。针对给定的待处理图像，根据需要的属性选择对应的属性模型。属性模型包括人脸属性模型以及背景属性模型，属性集合包括人脸属性及背景属性。

人脸属性可包括人脸关键点、人脸框、人脸姿态、性别、年龄及人种等。属性模型均为简单的目标检测模型或者分类深度学习模型，通过各个模型的前向操作就可以得到对应的属性值。比如，人脸关键点、人脸框、人脸姿态及年龄等回归任务的主干网络可选择常用的检测模型，如YOLO等，根据所需属性在模型后端添加不同的检测头。具体来说，人脸关键点属性在检测网络基础上添加关键点回归分支，人脸框属性则添加人脸包围框预测分支。同时，性别属性和人种属性作为类别预测任务，选择如ResNet等常见分类模型。背景属性可包括背景主体颜色、背景物体等。背景属性模型主要应用于背景元素检测，因此采用如YOLO检测网络实现。

人脸属性模型和背景属性模型的训练数据均来源于如COCO等网络开源数据集，同时采用与属性匹配的损失函数训练，如分类模型采用交叉熵损失进行训练，回归模型采用MSE损失函数训练。需要指出的是，本实施例中属性模型的网络结构并没有特殊要求，可采用任何可完成相关任务的模型结构。

基于上述训练得到的包括人脸属性模型以及背景属性模型对待处理图像进行属性提取。因为属性模型一般为深度学习模型，在后续步骤中，如果需要获取某属性，则根据属性模型训练时的图片预处理方式对待处理图像进行缩放、归一化等操作，然后通过属性模型预测结果。通过属性提取得到对应的人像属性以及背景属性后，可进一步对得到的各个人像属性以及背景属性分别进行处理。其中，对人脸姿态属性以及人脸框属性的人像属性进行处理，包括：针对待处理图像为单人脸的图像时，判断待处理图像中的人脸姿态角度是否大于预设角度，若是，则对待处理图像进行平面内平移旋转操作，得到矫正后的人像矫正图；(特别的，针对待处理图像中的人脸姿态角度小于预设角度的单人脸图像或者多人脸图像，不对该待处理图像进行人脸矫正处理。)。

进一步对人像矫正图或待处理图像进行人脸框检测并计算图像基准点坐标，用于以人脸位置为中心的预设图像比例(3:4，4:3或1:1)进行裁切。针对待处理图像为单人脸的图像时，将人脸框的中心点坐标作为图像基准点坐标。而针对待处理图像为多人脸的图像时，则对待处理图像进行人脸框检测，根据人脸框的大小、人脸框的中心点坐标以及人脸置信度确定图像基准点坐标。具体的，多人脸以人脸框大小及人脸置信度作为参数计算相应权重，计算公式为:

p_i＝(α·Roi+β·Conf)

上式中，Roi表示取人脸框面积与人脸关键点最小外接矩形框面积中的最大值，Conf表示人脸检测置信度，α和β表示平衡权重，根据实验效果可进行参数调整。从而，待处理图像具有多人脸时的图像基准点定义为：

上式中，(x_i,y_i)表示第i个人脸框中心点坐标，n表示多人脸图像中的人脸框数目，(C_x,C_y)表示最终的多人脸图像基准点坐标。如果待处理图像或人像矫正图不满足预设比例(3:4，4:3或1:1)，则根据基准点坐标进行裁剪。

进一步的，对年龄属性以及性别属性的人像属性进行处理，包括：根据预设的年龄段分布进行划分，举例如下：

上式中，预设三个年龄区间，即示例描述的[-,10)，[10,60)，[60,+)。针对图像中各个人脸的年龄属性值，判断其所属区间，并用kid、young、old来作为该人脸后续的年龄描述词。需要指出的是，本步骤的年龄区间划分数目为可变参数，根据区间划分数目需要设置对应的描述词。上述操作方式适用于不同性别的年龄字段区分。最后，统计各个年龄段人数。举例来说，若当前人像矫正图或待处理图像包含2个人脸并且年龄字段计算为young，性别属性为male，则此时人脸属性集合中包含”2young men”。

在另一实施例中，还可对人像属性集合中的人种属性进行处理，可基于人种属性加入肤色描述词。具体来说，图像中每个人脸检测结果都包含对应人脸的人种属性，统计图像中各个人种出现的次数，将图像人种属性定义为主要人种属性。本实施例实验时根据图像主要人种属性在属性集合中加入三种描述词实现肤色控制。具体映射逻辑如下，

另外，对背景属性进行处理，包括：直接通过背景属性模型得到待处理图像的背景属性预测结果，或者，结合人像分割模型进行更精确的背景属性获取。其中，结合人像分割模型进行背景属性获取的方式描述如下：

基于预训练人像分割网络或显著性检测网络得到人像矫正图或待处理图像的二值化掩码图。此时背景属性模型的网络输入采用掩码处理过的背景图像。因为本发明中使用的背景属性模型结构为常用目标检测模型或多分类模型结构，因此掩码操作不影响检测结果且可获得明确的背景物体等属性。

在另一实施例中，可对人像属性以及背景属性处理后得到的属性结果处理人像矫正图或待处理图像，该部分依据实际需求为可选组合操作，具体包括：

(1)基于上述得到的图像基准点坐标位置，对人像矫正图或待处理图像进行给定生成比例的图像裁剪，得到人像修复图，以保证人像位置处于图像中央，提高图像生成效果。

(2)上述在对待处理图像进行平面内平移旋转操作中，基于人脸姿态角度旋转得到的图像可能会出现黑边填充的问题，此时可基于上述背景模型得到的背景主体颜色属性对黑边区域进行颜色填充，得到人像修复图。

(3)通过背景主体颜色属性对不想要的背景物体(如在最后结果中不希望看到的刀斧等违和物体)进行遮掩，得到人像修复图。

进一步的，基于上述步骤得到的属性集合通过预设的文本构造公式进行文本的自动构造，其构造规则包括：

(1)针对人像属性对应的构造公式为：

本发明根据属性之间的组合拆分成各个子属性集合，如“young man”集合和“young girl”集合。其中i表示第i个子属性集合，count_i表示i集合中的人脸数目，age_des_i表示i集合对应的年龄描述词，gender_i表示i集合对应的性别描述词，skin_des表示肤色描述词，肤色描述词为可选文本。举例来说，人脸属性构造结果可能为{“1young man withasian skin”,“2young women with fair skin”，“1young man,2young women”，“oldmans”，...}。

(2)针对背景属性对应的构造公式为(忽略上述步骤中用背景主体颜色遮掩的物体)：

其中，color表示背景主体颜色属性，obj表示背景属性模型检测到的背景物体。因为背景属性中的背景物体属性通过常规目标检测模型获取，可以得到背景物体的检测框和检测置信度。首先对所有检测到的物体的置信度进行降序排序，并选取置信度topK的属性添加到构造文本内，防止最终构造文本过长使得模型生成的内容重要性分散。

在具体实施中，属性文本中同时可加入运营人员外部指定的风格化词，作为引导图像的补充描述，主要用于风格指定、背景细节控制等需求。运营风格文本可以包括天气风格描述文本、节日风格描述文本等具有各种特色风格的描述文本。举例来说，如运营风格文本可以是“snow day,the snow is falling”。此时生成的AI绘画内容可产生类似于雪景的风格化内容，可参考图3的第三列结果。构造公式如下：

Caption＝<人像属性文本><运营风格文本><背景属性文本>

其中，式中的<人像属性文本>根据上述预设的人像属性构造公式进行文本构造得到；同理，<背景属性文本>根据上述预设的背景属性构造公式进行构造得到。

在另一实施例中，可以加入BLIP等多模态模型得到的预测文本，增加描述文本的丰富度，构造公式如下：

Caption＝<人像属性文本><运营风格文本><BLIP/CLIP>

<背景属性文本>

最后，将上述构造的属性文本和待处理图像输入至给定风格的基于StableDiffusion的风格化模型，得到最终的人像绘画结果图。本实施例采用的Stable Diffusion模型为开源预训练模型，属于现有技术模型。需要说明的是，若预训练模型的既定效果不满足要求，则也可通过LAION等大规模图文数据集进行训练。

可选地，进一步可基于上一次人像绘画结果图和构造的属性文本得到更调优的结果，即：

G_i＝SD(G_i-1，Caption)

其中，G_i表示第i次生成图，SD表示Stable Diffusion模型，Caption即上述步骤得到的属性文本。

以上方法根据上述步骤可适用于单人及多人图像场景，可参考图2、图3为单人和两人的生成结果。同时，本方法也可应用于无人脸图片生成，参考图4的生成效果。具体来说，因为人脸图像相比于无人脸图像包含更多限制，比如生成前后要保证人脸性别一致，且生成人物的年龄不应该有较大变化。因此，本发明应用于无人脸图片生成时，可进行步骤精简。此时，因为无人脸图像的人脸属性模型检测结果为空，因此可直接跳过上述步骤中的人脸属性处理，同时正常处理其他步骤。需要指出的是，当进行属性文本构造时，因为无人脸图像其中的人像属性文本为空，因此属性文本的构造公式修改为：

Caption＝<运营风格文本><BLIP/CLIP><背景属性文本>

参照图5所示为本发明一实施例提供的一种基于扩散模型的AI绘画图生成装置的结构示意图。

在本实施例中，该装置50包括：

属性获取单元51，用于将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合；

文本构造单元52，用于将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本；

AI绘画生成单元53，用于将所述待处理图像与所述属性文本输入至基于StableDiffusion模型构建的风格化模型中，得到AI绘画图生成结果。

该装置50的各个单元模块可分别执行上述基于扩散模型的AI绘画图生成方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种基于扩散模型的AI绘画图生成设备，该设备包括如上所述的基于扩散模型的AI绘画图生成装置，其中，基于扩散模型的AI绘画图生成装置可以采用图5实施例的结构，其对应地，可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。

该设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的基于扩散模型的AI绘画图生成方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于扩散模型的AI绘画图生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于扩散模型的AI绘画图生成方法，其特征在于，所述待处理图像为包括人脸的图像；所述将待处理图像输入预先训练的属性模型中，得到包括背景属性的属性集合，包括：

3.根据权利要求2所述的一种基于扩散模型的AI绘画图生成方法，其特征在于，所述人像属性包括人脸关键点、人脸框、人脸姿态、性别、年龄以及人种中的任意多种。

4.根据权利要求1或2所述的一种基于扩散模型的AI绘画图生成方法，其特征在于，所述背景属性包括背景主体颜色以及背景物体。

5.根据权利要求1或2所述的一种基于扩散模型的AI绘画图生成方法，其特征在于，所述将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本，包括：

根据预设的人像属性构造公式：

或者

进行文本构造，得到对应所述待处理图像的人像属性文本。

6.根据权利要求1或2所述的一种基于扩散模型的AI绘画图生成方法，其特征在于，所述将所述属性集合通过预设的文本构造公式中进行文本构造，得到对应所述待处理图像的属性文本，包括：

根据预设的背景属性构造公式：in<color>backgound with

<obj_i>进行文本构造，得到对应所述待处理图像的背景属性文本。

7.一种基于扩散模型的AI绘画图生成装置，其特征在于，所述装置包括：

8.一种基于扩散模型的AI绘画图生成设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至6任意一项所述的一种基于扩散模型的AI绘画图生成方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至6任意一项所述的一种基于扩散模型的AI绘画图生成方法的步骤。