CN117291252B

CN117291252B - 稳定视频生成模型训练方法、生成方法、设备及存储介质

Info

Publication number: CN117291252B
Application number: CN202311587128.8A
Authority: CN
Inventors: 吕少卿; 沈亚军; 俞鸣园; 王克彦; 曹亚曦; 孙俊伟; 费敏健
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-02-20
Anticipated expiration: 2043-11-27
Also published as: CN117291252A

Abstract

本申请公开了一种稳定视频生成模型训练方法、生成方法、设备及存储介质。该方法包括获取待稳定视频样本；将待稳定视频样本输入至第一对抗网络得到稳定视频样本；将稳定视频样本输入至第二对抗网络得到重构待稳定视频样本；利用待稳定视频样本、稳定视频样本以及重构待稳定视频样本得到循环一致性损失，基于动态时间规整算法利用稳定视频样本和待稳定视频样本得到相似度损失；基于循环一致性损失和相似度损失得到生成器损失对稳定视频生成模型进行训练，以得到最终的稳定视频生成模型。通过上述方式，本申请能够提高模型生成视频的视频稳定性。

Description

稳定视频生成模型训练方法、生成方法、设备及存储介质

技术领域

本申请涉及计算机视觉领域，特别是涉及一种稳定视频生成模型训练方法、稳定视频生成方法、电子设备及计算机可读存储介质。

背景技术

视频防抖旨在通过平滑摄像机轨迹将一个抖动视频转换为令人满意的稳定视频，目前已广泛应用在智能手机，无人机和安防等领域。视频防抖目前可分为三大类:机械防抖、光学防抖和数字防抖。机械防抖通常使用传感器和机械结构来完成这项任务。光学防抖通过一组镜头和传感器检测运动的角度和速度，以实现视频稳定。数字防抖技术不使用特定的设备，只在软件中实现，因此可以把数字视频防抖看作是一个视频处理和计算机视觉领域的问题。而传统数字视频防抖方法通常依赖于复杂的光流估计和全局运动模型，这在面对动态、复杂的视频内容时，往往无法达到理想的稳定效果。

发明内容

本申请主要目的是提供一种稳定视频生成模型训练发方法、稳定视频生成方法、电子设备及计算机可读存储介质，能够提高视频稳定性。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种稳定视频生成模型训练方法，稳定视频生成模型包括第一对抗网络和第二对抗网络，该方法包括：获取待稳定视频样本；将待稳定视频样本输入至第一对抗网络得到稳定视频样本；将稳定视频样本输入至第二对抗网络得到重构待稳定视频样本；利用待稳定视频样本、稳定视频样本以及重构待稳定视频样本得到循环一致性损失，基于动态时间规整算法利用稳定视频样本和待稳定视频样本得到相似度损失；基于循环一致性损失和相似度损失得到生成器损失对稳定视频生成模型进行训练，以得到最终的稳定视频生成模型。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种稳定视频生成方法。该方法包括：获取待稳定视频样本；将待稳定视频样本输入至稳定视频生成模型中得到稳定视频样本，稳定视频生成模型基于第一个技术方案中的训练方法得到。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种电子设备。该电子设备包括存储器和处理器，存储器用于存储程序数据，程序数据能够被处理器执行，以实现如第一个技术方案和/或第二个技术方案中的方法。

为解决上述技术问题，本申请采用的第四个技术方案是：提供一种计算机可读存储介质。该计算机可读存储介质存储有程序数据，能够被处理器执行，以实现如第一个技术方案和/或第二个技术方案中的方法。

本申请的有益效果是：在稳定视频生成模型中包括了第一对抗网络和第二对抗网络，将待稳定视频样本先输入至第一对抗网络中生成稳定视频样本，而后继续将该稳定视频样本输入至第二对抗网络中得到重构待稳定视频样本。利用待稳定视频样本、稳定视频样本以及重构待稳定视频样本获取循环一致性损失，利用循环对抗的循环一致性损失训练的稳定视频生成模型会使得生成的稳定视频样本不仅在视觉上与原始的待稳定视频样本是相似的，在内容上也与原始的待稳定视频样本一致。基于动态时间规整算法利用待稳定视频样本和稳定视频样本获取相似度损失，动态时间规整算法是一种用于比较两个时间序列的算法，其能够找到稳定视频样本和待稳定视频样本时间最优的对其方式，从而计算其最优对其方式下的相似度，利用该相似度损失训练的稳定视频生成模型会使得生成的稳定视频样本与原始的待稳定视频样本更加相似。两种损失相互结合，使得模型生成的稳定视频样本更加准确和稳定。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请稳定视频生成模型训练方法第一实施例的流程示意图；

图2是本申请稳定视频生成模型训练方法第二实施例的流程示意图；

图3是本申请稳定视频生成模型训练方法第三实施例的流程示意图；

图4是本申请稳定视频生成模型训练方法第四实施例的流程示意图；

图5是本申请稳定视频生成模型训练方法第五实施例的流程示意图；

图6是本申请稳定视频生成方法一实施例的流程示意图；

图7是本申请电子设备一实施例的结构示意图；

图8是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参照图1，图1为本申请稳定视频生成模型训练方法第一实施例的流程示意图。

S11：获取待稳定视频样本。

S12：将待稳定视频样本输入至第一对抗网络得到稳定视频样本。

S13：将稳定视频样本输入至第二对抗网络得到重构待稳定视频样本。

S14：利用待稳定视频样本、稳定视频样本以及重构待稳定视频样本得到循环一致性损失，基于动态时间规整算法利用稳定视频样本和待稳定视频样本得到相似度损失。

S15：基于循环一致性损失和相似度损失得到生成器损失对稳定视频生成模型进行训练，以得到最终的稳定视频生成模型。

待稳定视频样本是画面不稳定的视频样本，例如有一个无人机拍摄视频，由于无人机在飞行过程中可能会受到风力、气流等因素的影响，导致视频画面抖动，此时其拍摄的视频样本就是画面不稳定的视频样本。而稳定视频样本则是画面稳定的视频样本。

在进行训练的过程中，获取的待稳定视频样本中可以既有不稳定视频样本，也有稳定的视频样本。目的是为了训练出能够生成稳定视频样本的网络模型。

本实施例设计两个生成器，在第一对抗网络中，设计一个生成器A，它可以将不稳定的视频帧F转换为稳定的视频帧A(F)，计算公式为：A(F) = A_theta(F)，其中A_theta是生成器函数，theta是生成器的参数。在第二对抗网络中，设计一个生成器B，它可以将稳定的视频帧A(F)转换回不稳定的视频帧B(A(F))，计算公式为：B(A(F)) = B_phi(A(F))，其中B_phi是生成器函数，phi是生成器的参数。第二对抗网络中生成器的生成方式与第一对抗网络中的生成方式相反，第一对抗网络生成稳定视频样本，第二对抗网络用于将第一对抗网络生成的稳定视频样本转换回去。

计算生成的视频帧A(F)和目标视频帧Y之间的差异，可以使用均方误差函数进行计算，计算公式为：L_A= MSE(A(F), Y)，其中MSE是均方误差损失函数。

训练过程中，不仅要最小化生成的视频帧和目标视频帧之间的差异，还要最小化转换回来的视频帧和原始视频帧之间的差异。计算转换回来的视频帧B(A(F))和原始视频帧F之间的差异，计算公式为：L_B = MSE(B(A(F)), F)。

将生成的视频帧的差异和转换回来的视频帧的差异结合起来，形成循环一致性损失，计算公式为：L_cycle = L_A + L_B。

进一步地，还引入了动态时间规整算法DTW来进行损失函数的计算。DTW可以处理两个时间序列长度不一致的问题，使得我们可以更准确地比较生成的视频帧和原始视频帧的相似度。计算生成的视频帧A(F)和原始视频帧F之间的DTW距离，计算公式为：D = DTW(A(F), F)，其中DTW是动态时间规整函数。将DTW距离转换为相似度，计算公式为：S = exp(-D)，其中exp是指数函数。

将相似度作为损失函数的一部分，计算公式为：L_total = L_cycle + lambda *S，其中lambda是权重参数。

最后利用梯度下降来更行生成器参数，theta = theta - lr * Grad(L_total,theta)，phi = phi - lr * Grad(L_total, phi)。其中lr是学习率，Grad是梯度计算函数。

在本实施例中，在稳定视频生成模型中包括了第一对抗网络和第二对抗网络，将待稳定视频样本先输入至第一对抗网络中生成稳定视频样本，而后继续将该稳定视频样本输入至第二对抗网络中得到重构待稳定视频样本。利用待稳定视频样本、稳定视频样本以及重构待稳定视频样本获取循环一致性损失，利用循环对抗的循环一致性损失训练的稳定视频生成模型会使得生成的稳定视频样本不仅在视觉上与原始的待稳定视频样本是相似的，在内容上也与原始的待稳定视频样本一致。基于动态时间规整算法利用待稳定视频样本和稳定视频样本获取相似度损失，动态时间规整算法是一种用于比较两个时间序列的算法，其能够找到稳定视频样本和待稳定视频样本时间最优的对其方式，从而计算其最优对其方式下的相似度，利用该相似度损失训练的稳定视频生成模型会使得生成的稳定视频样本与原始的待稳定视频样本更加相似。两种损失相互结合，使得模型生成的稳定视频样本更加准确和稳定。

参照图2，图2为本申请稳定视频生成模型训练方法第二实施例的流程示意图。该方法是对步骤S12的进一步扩展，其包括以下步骤：

S21：基于待稳定视频样本获取内容特征。

S22：基于内容特征以及预设的稳定风格特征得到稳定视频样本。

本实施例利用神经风格迁移的思想来设计稳定视频生成模型的生成器。首先提取待稳定视频样本的内容特征，该步骤可以通过预训练的卷积神经网络实现，可得F_content= CNN(F)，其中，F是待稳定视频样本视频帧。

而后提取稳定风格而定特征，该步骤也可以是通过预训练的卷积神经网络实现，可得F_style = CNN(S)，其中，S为预设的稳定风格视频样本视频帧。

而后利用得到的稳定风格特征与内容特征对待稳定视频样本进行处理得到稳定视频样本。

参照图3，图3为本申请稳定视频生成模型训练方法第三实施例的流程示意图。该方法是对步骤S22的进一步扩展，其包括以下步骤：

S31：基于内容特征以及预设的稳定风格特征得到第一视频样本。

利用得到的稳定风格特征与内容特征对待稳定视频样本进行处理得到稳定视频样本的方式可以是通过自适应实例归一化函数实现。

自适应实例归一化函数的计算过程可以包括：

计算内容特征和稳定风格特征的均值和方差，mu_content, sigma_content=MeanVar(F_content)，mu_style, sigma_style=MeanVar(F_style)，其中MeanVar是计算均值和方差的函数。mu_content, sigma_content为内容特征的均值和方差，mu_style,sigma_style为稳定风格特征而定均值和方差。

在得到均值方差后对内容特征进行归一化处理，计算公式为：F_norm = (F_content - mu_content) / sigma_content。

而后对归一化的内容特征利用稳定风格特征进行调整，计算公式为：F_ada = F_norm * sigma_style + mu_style。

而后利用残差连接和动态路由机制对调整后的内容特征进行处理得到第一视频样本。

通过在生成器中添加残差块来实现残差连接，其计算公式为：F_res = Conv2D(F_ada) + F_ada，其中Conv2D是卷积函数。而后使用批量归一化来加速训练，可得F_bn1= BN(F_res)，其中BN是批量归一化函数。最后使用激活函数来增加模型非线性，可得F_relu1=ReLU(F_bn1)，ReLU为一种激活函数。

在残差连接后，添加一个动态路由层，其计算公式为F_route = Route(F_relu1)，其中Route是动态路由函数。而后使用批量归一化来加速训练，可得F_bn2= BN(F_route)。最后使用激活函数来增加模型非线性，可得F_relu2= ReLU(F_bn2)。

得到的F_relu2= ReLU(F_bn2)作为第一视频样本，记为F_generated。

S32：基于自注意力机制对第一视频样本进行处理得到第二视频样本。

继续在生成器中引入自注意力机制，使得处理过程能够关注到视频中的关键部分。

基于自注意力进行处理的步骤包括，首先计算每个像素的注意力得分，该步骤可以通过卷积神经网络实现，其计算公式为A = CNN(F_generated)，其中A是注意力得分。而后将注意力得分应用至生成的第一视频样本上，计算公式为：F_attention = A * F_generated，*是元素级别的乘法操作。得到的F_attention为第二视频样本。

S33：基于第一视频样本以及第二视频样本得到稳定视频样本。

结合第一视频样本和第二视频样本，得到稳定视频样本，结合的方式可以是直接相加，F_final = F_attention + F_generated。

参照图4，图4为本申请稳定视频生成模型训练方法第四实施例的流程示意图。该方法是对步骤S33的进一步扩展，其包括以下步骤：

S41：结合第一视频样本以及第二视频样本得到第三视频样本。

S42：结合第三视频样本以及预设的条件向量得到稳定视频样本。

在得到稳定视频样本的过程中，可以加入条件向量，使得生成其能够根据输入的条件生成不同的稳定视频样本。

首先基于第一视频样本和第二视频样本结合可以得到第三视频样本，F_final1=F_attention + F_generated。

而后将输入的条件编码为一个向量，得到预设条件向量C，C = Encode(condition)，其中Encode是编码函数，condition是输入的条件。

接着将预设条件向量C与第三视频样本结合，经过全连接层后输出得到稳定视频样本。

参照图5，图5为本申请稳定视频生成模型训练方法第五实施例的流程示意图。该方法是对步骤S42的进一步扩展，其包括以下步骤：

S51：对第三视频样本进行深度可分离卷积得到第四视频样本。

S52：结合第四视频样本和预设的条件向量得到所述稳定视频样本。

为了减少模型中的参数数量，利用深度可分离卷积对所述第三视频样本进行处理，其计算公式为，F_sep = DepthwiseConv2D(F_final)，其中DepthwiseConv2D是深度可分离卷积函数。而后使用批量归一化来加速训练，可得F_bn3= BN(F_route)。最后使用激活函数来增加模型非线性，可得F_relu3= ReLU(F_bn3)。F_relu3为得到的第四视频样本。

将第四视频样本和预设的条件向量结合，F_cond = Concat(F_relu3, C)，其中Concat是连接函数。而后经过一个全连接层得到最终的稳定视频样本，F_final2= Dense(F_cond)，其中Dense是全连接层函数。F_final2为最终的稳定视频样本。

上述实施例是与稳定视频生成模型中生成器相关的实施例，在此基础上，进一步地，本申请还利用深度监督学习策略来提高该模型的训练效率。

在一实施例中，在生成器的每一层都添加一个辅助分类器，其计算公式为：L_aux= CrossEntropy(F_relu, label)，其中CrossEntropy是交叉熵损失函数，label是真实标签。F_relu为F_relu1、F_relu2、F_relu3等各层输出。所有辅助分类器的损失加起来，用于生成器的参数更新。其计算公式为，L_total = Sum(L_aux)，theta = theta - lr * Grad(L_total, theta)，其中theta是生成器的参数，lr是学习率，Grad是梯度计算函数。

进一步地，还可以利用模型剪枝技术对模型进行处理以减少稳定视频生成模型中生成器的复杂度。计算每个参数的重要性，计算公式为：I = Abs(Grad(L_total, theta))，其中Abs是绝对值函数。根据参数的重要性进行剪枝，计算公式为：theta = Prune(theta,I)，其中Prune是剪枝函数。而后使用梯度下降法来更新剩余的参数，计算公式为：theta =theta - lr * Grad(L_total, theta)。

以上是对于对抗网络中生成器的构建实施例，在下文描述中本申请还对对抗网络中判别器进行了进一步的改进，以使其能够更好的区分生成的视频和真实视频之间的区别。

在一实施例中，第一对抗网络和/或第二对抗网络的判别器损失包括相对损失和最优传输距离损失中至少一种。

相对损失为相对鉴别器Relativistic Discriminator的损失。其不仅考虑生成的视频帧和真实的视频帧之间的差异，还考虑了生成的视频帧和真实的视频帧在所有视频帧中的相对位置。这种方法可以更好地区分生成的视频帧和真实的视频帧，从而提高判别器的性能。计算公式为：L_RD=E[(D(x_real)-E[D(x_fake)])^2]+E[(D(x_fake)-E[D(x_real)])^2]。在这个公式中，D(x_real)表示判别器对真实视频帧的判断，D(x_fake)表示判别器对生成的视频帧的判断，E表示期望值。

最优传输距离损失也称为Wasserstein损失，其用于衡量生成的视频帧和真实的视频帧之间的Wasserstein距离。其也可以更好地区分生成的视频帧和真实的视频帧。计算公式为：L_W= E[D(x_real)]-E[D(x_fake)]。在这个公式中，D(x_real)表示判别器对真实视频帧的判断，D(x_fake)表示判别器对生成的视频帧的判断，E表示期望值。

更具体地，Wasserstein损失主要目标是最小化生成样本和真实样本之间的Wasserstein距离。Wasserstein距离是一种度量两个概率分布之间差异的方法，它的计算公式为：W(P_r, P_g) = inf_{γ∈Π(P_r, P_g)} E_{(x, y)∼γ} [||x - y||]，其中P_r和P_g分别是真实样本和生成样本的概率分布，Π(P_r, P_g)是P_r和P_g之间的所有联合分布的集合，(x, y)是从联合分布γ中采样的样本对。

在一实施例中，二者结合形成联合损失函数作为判别器损失进行使用，L = alpha* L_RD + beta * L_W，其中alpha和beta是权重参数，可以通过实际实验来确定。

在一实施例中，第一对抗网络和/或第二对抗网络的判别器损失还包括感知损失和特征匹配损失，第一对抗网络和/或第二对抗网络的判别器损失由其对应包括损失的加权求和得到，每一项损失的权重为损失的损失值平方的倒数。

特征匹配损失是为使生成样本在特征空间上更接近真实样本。特征空间通常是由神经网络的中间层表示的，这些层可以捕获样本的高级特征。特征匹配损失的计算公式为：L_fm = E_{x∼P_r, y∼P_g} [||f(x) - f(y)||^2]，其中f(x)和f(y)分别是真实样本x和生成样本y在特征空间上的表示。特征空间通常可以捕获样本的视觉特性，因而特征匹配损失可以使生成样本在视觉上更接近真实样本。

感知损失主要目标也是使生成样本在视觉上更接近真实样本。感知损失通常是通过预训练的神经网络（例如VGG网络）来计算的，这个网络可以捕获样本的视觉特性。感知损失的计算公式为：L_perceptual = E_{x∼P_r, y∼P_g} [||φ(x) - φ(y)||^2]，其中φ(x)和φ(y)分别是真实样本x和生成样本y在视觉特性空间上的表示。

在训练网络模型的判别器时，通常需要平衡不同的损失项，例如上述的相对损失、最优传输距离损失、特征匹配损失以及感知损失等等。固定的损失权重可能不适应训练过程中的动态变化。因此，使用自适应损失权重，使损失权重能够根据训练过程自动调整。自适应损失权重的计算公式为：w_i = 1 / L_i^2，其中w_i是第i个损失项的权重，L_i是第i个损失项的值。自适应损失权重可以使模型在训练过程中自动平衡不同的损失项，从而提高模型的训练效果。

进一步地，训练过程中，利用梯度惩罚防止模型的过拟合。梯度惩罚的计算公式为：L_gp = λ E_{x∼P_r, y∼P_g} [(||∇(x - y)|| - 1)^2]，其中λ是一个超参数，用来控制梯度惩罚的强度。

在构建判别器的过程中还可以引入更多的技术。

在一实施例中，第一对抗网络和/或第二对抗网络的判别器对至少两种尺度视频帧进行判别。第一对抗网络和/或第二对抗网络中的判别器为多尺度判别器，即利用多个判别器能够对不同尺度的视频帧进行判断。设计多个不同尺度的判别器，每个判别器负责判断一个特定尺度的视频帧。这样，就可以同时考虑到视频帧的全局信息和局部信息，从而更准确地判断视频帧的真实性。

进一步地，判别器中还可以引入自注意力机制，使其能够关注到视频帧中的全局信息。自注意力机制可以计算视频帧中每个像素与其他所有像素之间的关系，从而使判别器能够考虑到视频帧的全局信息。

在一实施例中，在训练过程中，利用谱归一化技术对判别器进行训练。谱归一化是一种正则化技术，它可以限制判别器的Lipschitz常数，从而防止判别器在训练过程中发生梯度爆炸或梯度消失。计算公式为：W_hat = W / sigma(W)，其中W是判别器的权重，sigma(W)是W的最大奇异值。

在一实施例中，利用深度监督学习策略提高判别器的训练效率。在这个过程中，在判别器的中间层添加额外的监督信号，从而使判别器能够更快地学习到有效的特征。该步骤与生成器使用深度监督学习策略的步骤类似。

进一步地，还可以利用模型剪枝技术对模型进行处理以减少稳定视频生成模型中判别器的复杂度。

还可行的是，利用模型可解释性工具分析模型判别器的决策过程。在这个过程中，使用模型可解释性工具，如梯度加权类激活映射（Grad-CAM），来分析判别器的决策过程。这样，更好地理解判别器的工作原理，从而更好地优化判别器。

在对判别器进行改动时，可以利用模型版本控制工具管理模型的版本。在这个过程中，使用模型版本控制工具，如Git，来管理判别器的版本。这样，我们就可以更好地跟踪判别器的改动，从而更好地优化判别器。

在对抗网络的生成器和判别器都构建完成后，对模型进行训练，在对模型进行训练的过程中，可以使用如下策略进行训练过程进行优化。

利用混合精度训练提高模型的训练速度。在混合精度训练中，同时使用32位和16位的浮点数进行计算，这样可以减少存储和计算的需求，从而提高训练速度。在该过程中，可以使用自动混合精度(AMP)库，它可以自动选择使用哪种精度进行计算，从而进一步提高训练速度。在混合精度训练中，还需要注意数值稳定性的问题，因此引入损失放大（lossscaling）技术，通过动态调整损失函数的尺度，来防止在低精度计算中出现数值溢出或下溢的问题。

利用学习率预热和余弦退火调度策略优化模型的训练过程。学习率预热是一种在训练初期逐渐提高学习率的策略，它可以帮助模型更快地收敛，并且可以防止模型在训练初期由于学习率过大而发生不稳定的情况。余弦退火是一种随着训练的进行逐渐降低学习率的策略，它可以帮助模型在训练后期更好地收敛到一个优良的解。

利用早停策略防止模型的过拟合。当模型在验证集上的性能在一段时间内没有提高时，我们就停止训练，以防止模型在训练集上过度拟合。在实现早停时，需要设置一个耐心参数，它决定了模型在验证集上的性能在多少个epoch没有提高时，才停止训练。还可以使用其他的指标来决定是否早停，比如模型的复杂度或者训练的稳定性等。

利用模型平均策略提高模型的泛化能力。它通过对一段时间内的模型参数进行平均，来获得一个更稳定的模型。在实现模型平均时，需要设置一个窗口大小，它决定了对多少个epoch的模型参数进行平均。可以使用指数移动平均（EMA）来进行模型平均，它可以给近期的模型参数更大的权重，从而使模型能够更快地适应新的数据。这个过程可以用以下公式表示：EMA_t = beta * EMA_{t-1} + (1-beta) * model_t，其中beta是衰减因子，model_t是一段时间内模型的参数。

在进行模型评估的时候，可以使用如下方法。

使用自动化评估工具进行模型评估。选择适合的自动化评估工具，如AutoML，它可以自动进行模型选择和超参数调优。这可以通过使用贝叶斯优化方法来自动搜索最优的超参数。使用自动化评估工具对模型进行训练和验证，得到模型的性能指标。这可以通过计算模型的精度、召回率、F1分数等指标来实现。根据性能指标，选择最优的模型和超参数。

利用人工智能对抗评估（AIAE）检测模型的鲁棒性。设计对抗样本，这些样本是通过在原始样本上添加微小的扰动生成的，目的是欺骗模型。使用对抗样本对模型进行测试，观察模型的预测结果是否会被对抗样本所影响。这可以通过计算模型在对抗样本上的性能指标来实现，如精度、召回率、F1分数等。如果模型的预测结果被对抗样本所影响，那么需要对模型进行改进，提高其鲁棒性。这可以通过使用对抗性训练方法，如PGD（ProjectedGradient Descent）来实现，其数学公式可以表示为：x' = Π(x + α * sign(∇xJ(θ, x,y)))，其中Π是投影函数，α是学习率。

利用可解释性工具分析模型的决策过程。选择适合的模型可解释性工具，如LIME或SHAP。这些工具可以帮助理解模型的决策过程。例如，LIME可以通过学习一个线性模型来解释模型的决策，其数学公式可以表示为：y' = β0 + β1x1 + β2x2 + ... + βnxn，其中y'是预测结果，β0是截距，β1, β2, ..., βn是特征权重，x1, x2, ..., xn是特征值。使用可解释性工具对模型进行解释，理解模型的决策过程。这可以通过计算特征的重要性来实现，例如，SHAP值可以表示为：φi = ∑(S⊆N{i}) |S|!(|N|-|S|-1)!/|N|! [f(S∪{i}) - f(S)]，其中φi是特征i的SHAP值，N是特征集合，S是特征子集合，f是模型函数。根据模型的解释结果，对模型进行优化和改进。这可以通过调整特征权重，添加或删除特征等方法来实现。

利用在线学习策略持续优化模型的性能。设计在线学习策略，使模型能够根据新的数据进行更新和学习。这可以通过使用在线学习算法，如随机梯度下降（SGD）来实现，其数学公式可以表示为：θ = θ - η∇θJ(θ, x, y)，其中θ是模型参数，η是学习率，J(θ, x,y)是损失函数，x是输入数据，y是真实标签。实施在线学习策略，持续收集新的数据，更新模型。这可以通过实时监控数据流，当有新的数据到来时，立即使用新的数据更新模型。监控模型的性能，如果模型的性能下降，那么需要对模型进行调整和优化。这可以通过计算模型的性能指标，如精度、召回率、F1分数等，如果性能指标下降，那么需要调整模型的参数，如学习率、正则化参数等。

利用模型压缩和量化策略提高模型的运行效率。设计模型压缩和量化策略，如权重剪枝和权重量化。权重剪枝可以通过设置一个阈值，将小于阈值的权重设为零，其数学公式可以表示为：w' = w * (|w|>τ)，其中w'是剪枝后的权重，w是原始权重，τ是阈值。权重量化可以通过将权重的精度降低，例如，从32位浮点数降低到8位整数，其数学公式可以表示为：q = round(w / δ)，其中q是量化后的权重，w是原始权重，δ是量化步长。实施模型压缩和量化策略，减少模型的大小，提高模型的运行速度。这可以通过使用专门的模型压缩和量化工具来实现，如TensorRT、TFLite等。测试压缩和量化后的模型，确保模型的性能没有明显下降。这可以通过计算模型的性能指标，如精度、召回率、F1分数等，如果性能指标没有明显下降，那么压缩和量化策略就是成功的。

参照图6，图6为本申请稳定视频生成方法一实施例的流程示意图，其包括以下步骤：

S61：获取待稳定视频样本。

S62：将待稳定视频样本输入至稳定视频生成模型中得到稳定视频样本。

稳定视频生成模型基于上述任一项实施例以及可能的组合所得到的方法训练得到。

如图7所示，图7为本申请电子设备一实施例的结构示意图。

该电子设备包括处理器110、存储器120。

处理器110控制电子设备的操作，处理器110还可以称为CPU（Central ProcessingUnit，中央处理单元）。处理器110可能是一种集成电路芯片，具有信号序列的处理能力。处理器110还可以是通用处理器、数字信号序列处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器120存储处理器110工作所需要的指令和程序数据。

处理器110用于执行指令以实现本申请稳定视频生成模型训练方法和/或稳定视频生成方法中的任一实施例及可能的组合所提供的方法。

如图8所示，图8为本申请计算机可读存储介质一实施例的结构示意图。

本申请可读存储介质一实施例包括存储器210，存储器210存储有程序数据，该程序数据被执行时实现本申请稳定视频生成模型训练方法和/或稳定视频生成方法中的任一实施例及可能的组合所提供的方法。

存储器210可以包括U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等可以存储程序指令的介质，或者也可以为存储有该程序指令的服务器，该服务器可将存储的程序指令发送给其他设备运行，或者也可以自运行该存储的程序指令。

综上所述，本申请在稳定视频生成模型中包括了第一对抗网络和第二对抗网络，将待稳定视频样本先输入至第一对抗网络中生成稳定视频样本，而后继续将该稳定视频样本输入至第二对抗网络中得到重构待稳定视频样本。利用待稳定视频样本、稳定视频样本以及重构待稳定视频样本获取循环一致性损失，利用循环对抗的循环一致性损失训练的稳定视频生成模型会使得生成的稳定视频样本不仅在视觉上与原始的待稳定视频样本是相似的，在内容上也与原始的待稳定视频样本一致。基于动态时间规整算法利用待稳定视频样本和稳定视频样本获取相似度损失，动态时间规整算法是一种用于比较两个时间序列的算法，其能够找到稳定视频样本和待稳定视频样本时间最优的对其方式，从而计算其最优对其方式下的相似度，利用该相似度损失训练的稳定视频生成模型会使得生成的稳定视频样本与原始的待稳定视频样本更加相似。两种损失相互结合，使得模型生成的稳定视频样本更加准确和稳定。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种稳定视频生成模型训练方法，所述稳定视频生成模型包括第一对抗网络和第二对抗网络，其特征在于，所述方法包括：

获取待稳定视频样本；

将所述待稳定视频样本输入至第一对抗网络得到稳定视频样本；

将所述稳定视频样本输入至第二对抗网络得到重构待稳定视频样本；

利用所述待稳定视频样本、所述稳定视频样本以及所述重构待稳定视频样本得到循环一致性损失，基于动态时间规整算法利用所述稳定视频样本和所述待稳定视频样本得到相似度损失；

基于所述循环一致性损失和所述相似度损失得到生成器损失对所述稳定视频生成模型进行训练，以得到最终的所述稳定视频生成模型；

其中，所述将所述待稳定视频样本输入至第一对抗网络得到稳定视频样本，包括：

基于所述待稳定视频样本获取内容特征；

基于内容特征以及预设的稳定风格特征得到所述稳定视频样本；

所述基于内容特征以及预设的稳定风格特征得到所述稳定视频样本，包括：

基于内容特征以及预设的稳定风格特征得到第一视频样本；

基于自注意力机制对所述第一视频样本进行处理得到第二视频样本；

基于所述第一视频样本以及所述第二视频样本得到所述稳定视频样本。

2.根据权利要求1所述的方法，其特征在于，所述第一对抗网络和/或所述第二对抗网络的判别器损失包括相对损失和最优传输距离损失中至少一种。

3.根据权利要求2所述的方法，其特征在于，所述第一对抗网络和/或所述第二对抗网络的判别器损失还包括感知损失和特征匹配损失，所述第一对抗网络和/或所述第二对抗网络的判别器损失由其对应包括损失的加权求和得到，每一项所述损失的权重为所述损失的损失值平方的倒数。

4.根据权利要求1所述的方法，其特征在于，所述第一对抗网络和/或所述第二对抗网络的判别器对至少两种尺度视频帧进行判别。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一视频样本以及所述第二视频样本得到所述稳定视频样本，包括：

结合所述第一视频样本以及所述第二视频样本得到第三视频样本；

结合所述第三视频样本以及预设的条件向量得到所述稳定视频样本。

6.根据权利要求5所述的方法，其特征在于，所述结合所述第三视频样本以及预设的条件向量得到所述稳定视频样本，包括：

对所述第三视频样本进行深度可分离卷积得到第四视频样本；

结合所述第四视频样本和所述预设的条件向量得到所述稳定视频样本。

7.一种稳定视频生成方法，其特征在于，所述方法包括：

获取待稳定视频样本；

将所述待稳定视频样本输入至稳定视频生成模型中得到稳定视频样本，所述稳定视频生成模型基于权利要求1-6中任一项所述的训练方法得到。

8.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储程序数据，所述程序数据能够被所述处理器执行，以实现如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，存储有程序数据，能够被处理器执行，以实现如权利要求1-7任一项所述的方法。