CN117036552A

CN117036552A - 一种基于扩散模型的动画序列帧生成方法及系统

Info

Publication number: CN117036552A
Application number: CN202311009440.9A
Authority: CN
Inventors: 尹学渊; 高鑫崧; 邱良良; 江天宇
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-10

Abstract

本发明涉及游戏动画图片处理技术领域，具体而言，涉及一种基于扩散模型的动画序列帧生成方法及系统，获取待风格化的第一图片，并对第一图片进行图像预处理，使用SD插件tagger对图片进行tag反推，之后将图片训练Lora模型；获取需要生成动作的序列帧，将序列帧通过Lora模型进行风格化处理，得到第二图片；将序列帧通过Contro l Net模型进行处理，得到第三图片；将第二图片和第三图片进行结合生成可用序列帧。通过控制图片输出的风格化，通过Lora控制图片生成保证最终结果的风格是对应游戏需要的，使用Lora模型可以大大节约训练资源。序列帧跑动的动作，姿势大多是相似的，固定角色的动作和位置，可以快速得到大量可用的序列帧组合，并保证图片与图片之间连贯。

Description

一种基于扩散模型的动画序列帧生成方法及系统

技术领域

本发明涉及游戏动画图片处理技术领域，具体而言，涉及一种基于扩散模型的动画序列帧生成方法及系统。

背景技术

Stable Diffusion是一种潜在扩散模型(Latent Diffusion Model)，能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说，我们只要给出想要的图片的文字描述在提Stable Diffusion就能生成符合你要求的逼真的图像。

在传统游戏中，游戏资产绘制慢，成本高，绘制周期长，费时费力。目前通过AI技术生成可以大大提升出图效率，节约时间，人力成本，但是训练底模的成本大，对机器配置要求高，例如，GPT-3 175B模型微调需要1.2TB的显存。此外，若针对不同下游任务微调多个模型，那么就需要为每个下游任务保存一份模型权重，成本非常高。在某些场景下，甚至可能需要针对不同的用户微调不同的模型，那么模型微调和部署的成本将不可接受。并且随机生成的图片之间没有关联性，多帧图片之间不联系；只使用Stable Diffusion生成的图片风格差异大，人物质量参差不齐，风格不固定；在序列帧中要求图片动作连续，动作与动作之间是一个过度的过程，所以姿势得相对固定，而目前技术生成的图片姿势不固定，无法连成序列帧动画。

发明内容

本发明的目的是提供一种基于扩散模型的动画序列帧生成方法及系统，来解决现有技术中AI绘图成本高及图片中出现的各种问题。

本发明的实施例通过以下技术方案实现：

第一方面，本发明提供的一种基于扩散模型的动画序列帧生成方法，包括；

获取待风格化的第一图片，将第一图片处理并且训练得到Lora模型；

获取序列帧图片，并对预处理后的序列帧图片通过ControlNet模型生成第二图片；

将序列帧通过Lora模型生成第三图片；

将第二图片和第三图片进行结合生成可用序列帧图片。

在本发明的一实施例中，所述将序列帧通过Lora模型进行风格化处理包括；

使用图像处理库将序列帧加载至第一系统，所述第一系统用于运行Lora模型；

将序列帧输入至Lora模型中，生成第三图片。

在本发明的一实施例中，所述生成第三图片包括；

将Lora权重与原始fc权重进行融合；

利用融合后的模型，生成具有风格化的第三图片。

在本发明的一实施例中，还包括；

定义Lora模型的损失函数，所述损失函数包括内容损失和风格损失；

通过加权组合内容损失和风格损失，定义总体的损失函数；

最小化定义总体的损失函数，使得输入图像的内容逐渐接近需要得到的风格化的第三图片的内容。

在本发明的一实施例中，所述通过ControlNet模型进行处理包括；

通过Canny算法提取第一图片的Canny edge；

将Canny edge的图片作为控制条件，送入至扩散模型中，得到符合控制条件的Canny线稿图；

提取第一图片的Pose，将Pose图片作为控制条件，送入到扩散模型中，得到符合控制条件的Pose图；

将Canny线稿图和Pose图结合固定图片的动作姿势，得到第二图片。

在本发明的一实施例中，还包括；

在使用ControlNet模型之前，所有零卷积输出为零，此时模型为StableDiffusion；

在使用ControlNet模型时，将trainable复制至Stable Diffusion的网络中，控制图片生成的姿态。

在本发明的一实施例中，所述对第一图片进行处理包括；

将图片解析生成tag；

将不合理的描述tag以及图片不相关的描述tag删除掉tag，并进行图片的裁剪。

第二方面，本发明提供了一种基于扩散模型的动画序列帧生成系统，其特征在于，包括；

图片预处理模块，获取待风格化的第一图片，将第一图片处理并且训练得到Lora模型；

图片姿态固定模块，获取序列帧图片，并对预处理后的序列帧图片通过ControlNet模型生成第二图片；

风格化处理模块，将序列帧通过Lora模型生成第三图片；

序列帧图片生成模块，将第二图片和第三图片进行融合获得游戏内可用序列帧。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种基于扩散模型的动画序列帧生成方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的一种基于扩散模型的动画序列帧生成方法。

本发明实施例的技术方案至少具有如下优点和有益效果：

采用本发明所提供的上述方法，控制图片输出的风格化，通过Lora控制图片生成保证最终结果的风格是对应游戏需要的，使用Lora模型可以大大节约训练资源，快速得到想要的结果。在游戏中，序列帧跑动的动作，姿势大多是相似的，利用ControlNet控制人物姿势形态，固定角色的动作和位置，可以快速得到大量可用的序列帧组合，并保证图片与图片之间连贯。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的流程示意图；

图2为本发明的整体处理框图；

图3为本发明ControlNet的处理流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

本申请的说明书和权利要求书及上述附图中的术语“第一、第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

本申请中所出现的模块的划分，是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。独立说明的模块或子模块可以是物理上分离的,也可以不是物理上的分离:可以是软件实现的,也可以是硬件实现的,且可以部分模块或子模块通过软件实现,由处理器调用该软件实现这部分模块或子模块的功能，且其它部分模板或子模块通过硬件实现，例如通过硬件电路实现。此外,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

请参照图1-图3，本发明提供了一种基于扩散模型的动画序列帧生成方法，其特征在于，包括；

S101：获取待风格化的第一图片，并对第一图片进行处理，并且训练得到Lora模型；

在本实施例中，第一图片可以是游戏的素材，对这些游戏素材进行处理，可以使用SD插件tagger将图片解析生成tag，将不合理的tag修改和去除，并进行图片的裁剪，tagger是指一种用于自动识别文本中特定元素(或称为标签)的算法或模型。“tag”在这里指的是为文本中的一个特定元素，其中，不合理的tag指的是删除与图片描述不相关的tag，手动添加AI识别不到的tag，并且添加希望用作触发词的tag，比如如果你的人物训练集图片中只有要的人物和白色背景，那么tag文档中只需要留下触发词和white background即可。在处理图片的时候可以删除有阻挡的图片，扣除不必要的背景，或者旋转，裁剪图片等。

S102：获取序列帧图片，并对预处理后的序列帧图片通过ControlNet模型生成第二图片；

S103：将序列帧通过Lora模型生成第三图片；

S104：将第二图片和第三图片进行结合生成可用序列帧图片。

其中，步骤S104可以用公式表达为：

式中，为融合后的ControlNet模型，/>为原始模型，SD_original是基础SD模型，SD_new是训练后的SD的checkpoint模型，具有风格化特征，可以是融合Lora过后的模型。

在本实施例中，所述将序列帧通过Lora模型进行风格化处理包括；使用图像处理库将序列帧加载至第一系统，所述第一系统用于运行Lora模型；将序列帧输入至Lora模型中，生成第三图片。

具体的，第一系统可以利用Python实现，图像处理库可以是OpenCV和Pillow，在Python代码中，加载事先训练好的Lora模型。用于将图像转换成特定的风格。使用图像处理库(如OpenCV或Pillow)，将待风格化的图像加载到Python中。需要注意的是，对图像进行了适当的预处理，例如调整大小、格式转换和归一化。

训练的时候，在原有的unet层网络外挂Lora层(称为monkey patch)，原有的linear会freeze不更新weights，在前向过程中相当于原有的base fc+lora fc*scale合成LoraInjectedLinear,从而不改变原有模型内容的同时，达到微调模型效果的作用。在使用Lora的时候，在Stable Diffusion模型上通过W＝W+α*AB的形式完成Lora权重和原始fc权重融合，然后利用融合后的模型进行推理，从而生成有风格化的图片。

在实际使用过程中，首先，需要准备一个基于Lora权重的神经网络模型和一个基于原始fc权重的神经网络模型。这两个模型分别用于提取Lora特征和原始全连接特征，加载两个模型的权重参数，并进行权重融合。其中全中的融合可以采用加权平均、线性组合等。融合后的权重将用于生成有风格化的图片。将输入图像通过Lora模型和原始fc模型分别进行特征提取。Lora模型会提取出Lora特征，原始fc模型会提取出原始全连接特征。然后，将这两种特征进行融合，可以采用简单的加权平均或其他融合策略，将融合后的特征输入到生成模型中，通过模型进行推理，生成具有风格化效果的图片。

神经网络中会包含许多进行矩阵乘法的稠密层，这些层通常是满秩的，在模型适配下游任务的过程中，权重更新也具有低的“内在秩”，对于预训练权重矩阵可以通过低秩分解来表示其更新W₀+ΔW＝W₀+BA，且秩r＜＜min(d，k)，在训练过程中W₀被冻结且不接受梯度更新，A和B则是可训练参数，注意，W₀和ΔW＝BA都会乘以相同的输入。对于h＝W₀x，前向传播变为：h＝W₀x+ΔWx＝W₀x+BAx。

式中，W₀为变化的权重矩阵，r、d、k为秩，h为向前推理的结果，x是常量，主要用于推理过程，α为r中的一个常数。

对矩阵A使用随机高斯初始化，对矩阵B使用零初始化，因此ΔW＝BA在训练的开始为0。使用来缩放ΔWx。当使用Adam优化时，经过适当的缩放初始化，调优α与调优学习率大致相同。

当进行部署时，以显式的计算和存储W＝W₀+BA，并正常执行推理。W₀和BA都是当需要转换至另一个下游任务，可以通过减去BA来恢复W₀，然后添加不同的B′A′。

此外，还包括；定义Lora模型的损失函数，所述损失函数包括内容损失和风格损失；通过加权组合内容损失和风格损失，定义总体的损失函数；最小化定义总体的损失函数，使得输入图像的内容逐渐接近需要得到的风格化的第三图片的内容。

Lora模型的目标是将输入图像的内容特征与参考图像的风格特征进行结合，内容损失控制了图像的内容信息。你可以选择在卷积神经网络中的某个层中获取输入图像和参考图像的特征表示，然后比较它们之间的差异，风格损失则控制了图像的风格信息。你可以使用参考图像的特征表示，计算其协方差矩阵，然后与输入图像的特征表示进行比较，使用梯度下降等优化算法，最小化定义的总体损失函数。这将使得输入图像的内容逐渐接近参考图像的内容，并且拥有与参考图像相似的风格。

在本实施例中，通过ControlNet模型进行处理包括；

S201：通过Canny算法提取第一图片的Canny edge；

Canny edge是指使用Canny边缘检测算法得到的图像边缘。Canny边缘检测算法是一种经典且常用的边缘检测算法，能够有效地提取图像中的边缘信息。

S202：将Canny edge的图片作为控制条件，送入至扩散模型中，得到符合控制条件的Canny线稿图；

S203：提取第一图片的Pose，将Pose图片作为控制条件，送入到扩散模型中，得到符合控制条件的Pose图；

Pose图是指在计算机视觉中，通过姿态估计算法得到的表示人体关键点位置的图像，Pose图可以用来描述人体的姿势和动作，并可用于各种人体分析任务，如行为识别、姿态跟踪、动作合成等。

S204：将Canny线稿图和Pose图结合固定图片的动作姿势，得到第二图片。

此外，在使用ControlNet的时候，“Zero Convolution”是带有零初始化权重和偏差的1×1卷积。在进行自己的模型训练开始之前，所有零卷积输出都是零，此时模型仍然是原始的Stable Diffusion Model。在使用ControlNet模型的时候将trainable复制到Stable Diffusion的网络中，从而控制生成图片的姿势。

本发明还提供了一种基于扩散模型的动画序列帧生成系统，包括；

风格化处理模块，将序列帧通过Lora模型生成第三图片；

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read—OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于扩散模型的动画序列帧生成方法，其特征在于，包括：

将序列帧通过Lora模型生成第三图片；

将第二图片和第三图片进行融合获得游戏内可用序列帧。

2.根据权利要求1所述的一种基于扩散模型的动画序列帧生成方法，其特征在于，所述将序列帧通过Lora模型生成第三图片包括；

将序列帧输入至Lora模型中，生成第三图片。

3.根据权利要求2所述的一种基于扩散模型的动画序列帧生成方法，其特征在于，所述生成第三图片包括；

将Lora权重与原始fc权重进行融合；

利用融合后的模型，生成具有风格化的第三图片。

4.根据权利要求3所述的一种基于扩散模型的动画序列帧生成方法，其特征在于，还包括；

通过加权组合内容损失和风格损失，定义总体的损失函数；

5.根据权利要求1所述的一种基于扩散模型的动画序列帧生成方法，其特征在于，所述通过ControlNet模型进行处理包括；

通过Canny算法提取第一图片的Canny edge；

6.根据权利要求5所述的一种基于扩散模型的动画序列帧生成方法，其特征在于，还包括；

在使用ControlNet模型之前，所有零卷积输出为零，此时模型为Stable Diffusion；

在使用ControlNet模型时，将trainable复制至Stable Diffusi on的网络中，控制图片生成的姿态。

7.根据权利要求1所述的一种基于扩散模型的动画序列帧生成方法，其特征在于，所述对第一图片进行处理包括；

将图片解析生成tag；

将不合理的描述tag以及图片不相关的描述tag删除掉，并进行图片的裁剪。

8.一种基于扩散模型的动画序列帧生成系统，其特征在于，包括；

风格化处理模块，将序列帧通过Lora模型生成第三图片；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的一种基于扩散模型的动画序列帧生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种基于扩散模型的动画序列帧生成方法。