CN116112762A

CN116112762A - 一种基于元学习的补充数据下的说话视频生成方法

Info

Publication number: CN116112762A
Application number: CN202310403985.1A
Authority: CN
Inventors: 熊盛武; 杨猛; 路雄博; 陈如意; 陈亚雄
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-12

Abstract

本发明公开了一种基于元学习的补充数据下的说话视频生成方法，获取训练数据和补充数据，对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集；构建端到端的生成对抗网络作为元学习的元模型；基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练得到参考模型；根据补充任务集对参考模型进行微调得到特定人的说话视频模型；基于特定人的说话视频模型以及特定人的参考数据，生成与参考数据对应的说话视频。本发明提出了使用基于元学习的方法训练模型，使用Reptile梯度更新进行训练，得到泛化性好的模型参数，然后利用补充数据进行微调，生成特定人的图片，并且和语音有很好的语义一致性，实现说话视频中唇形和语音的同步。

Description

一种基于元学习的补充数据下的说话视频生成方法

技术领域

本发明属于深度学习和跨模态技术领域，具体涉及一种基于元学习的补充数据下的说话视频生成方法。

背景技术

近年来，随着人工智能的发展，说话视频能够帮助理解听觉信息，通过生成任务能够帮助理解语音和唇部的关联，在视频编辑、虚拟现实（VR）、数字人物等应用上也有重要的应用价值。

现实场景中，通常可以获得少量的额外参考视频，比如在视频会议中，一段时间的说话视频，数字人物的配音中短时唇形同步说话视频等。这些少量的参考视频作为输入应该能够帮助模型得到更符合参考视频的语义一致性模型，比如口音和唇形之间的关系。

而现在的研究方法多是基于长达上千小时的说话视频数据集，当提供这种少量补充说话数据时，往往不能很好的学到数据中的特征，泛化能力不足，即存在补充数据场景下的语音驱动生成的说话视频语义一致性不佳的问题。

发明内容

本发明的目的就是为了解决上述背景技术存在的不足，提供一种基于元学习的补充数据下的说话视频生成方法，当提供少量额外参考视频时，能够学习到参考视频中的语义一致性特征，生成更好的说话视频。

本发明采用的技术方案是：一种基于元学习的补充数据下的说话视频生成方法，包括以下步骤：

获取训练数据和补充数据，对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集；

构建端到端的生成对抗网络作为元学习的元模型；

基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型；

根据补充任务集对参考模型进行微调得到特定人的说话视频模型；

基于特定人的说话视频模型以及特定人的参考数据，生成与参考数据对应的说话视频。

进一步地，所述数据处理的过程为：将数据中的说话视频拆分为图片数据和语音数据，对图片数据进行处理得到若干帧人脸居中的人脸图片形成图片序列；对语音数据进行处理得到音频序列，所述图片序列和音频序列为语义一致的片段。

进一步地，所述对图片数据进行处理包括进行人脸检测、人脸对齐、人脸图片边界框检测和裁剪处理。

进一步地，对语音数据进行MFCC特征的计算得到音频序列。

进一步地，所述补充数据为特定人的说话视频数据的集合。

更进一步地，所述参考数据为待生成特定人说话视频的语音数据。

本发明的有益效果是：

本发明提出了基于元学习的语义一致性模型，然后采用元学习的训练方法得到泛化能力更强的元模型，当提供少量额外参考视频时，能够学习到参考视频中的语义一致性特征，生成更好的说话视频，同时，经过在真实图片上的微调，在人脸属性建模上也能获得更好的结果，生成的人脸图片更加“真实”。

本发明提出了使用基于元学习的方法训练模型，使用Reptile梯度更新进行训练，得到泛化性好的模型参数，然后利用补充数据进行微调，生成特定人的模型，该模型图片和语音有很好的语义一致性，利用该模型及真实的语音数据，即可实现说话视频中唇形和语音的同步，并且人物真实，有人物特点。

附图说明

图1为本发明的流程图。

图2为本发明的原理图。

图3为本发明生成器网络结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以互相结合。

如图1、图2所示，本发明提供一种基于元学习的补充数据下的说话视频生成方法，包括以下步骤：

S1，获取训练数据和补充数据，对训练数据和补充数据分别进行数据处理得到训练任务集和补充任务集，训练数据包含采集的若干不同人的说话视频数据，补充数据为特定人的说话视频数据的集合。

所述数据处理的过程为：将说话视频拆分为图片数据和语音数据，针对图片数据，进行人脸检测、人脸对齐和人脸图片边界框检测和裁剪，得到若干帧人脸居中的人脸图片形成图片序列，其中边界框的确定，使用融合后的边界框，即取多张人脸图片边界框的交集；针对语音数据，进行MFCC特征的计算得到音频序列。

对说话视频而言，可以分为音频序列和图片序列，其中是语义一致的片段，这样就可以使用和来表示说话视频，即。定义任务为单张人脸图片的生成任务，将定义为生成的单张人脸图片，定义为生成器，则。在数据处理阶段，选择参考图片和参考语音不同步的人脸图片构成任务=，然后随机将任务集划分得到k个数据集作为元模型的训练集，元模型的测试集可以由剩下的语义一致性数据构成。

S2，构建端到端的生成对抗网络作为元学习的元模型，元模型是一个端到端的生成对抗网络，使用常见的卷积网络进行特征编码和人脸图片的生成，如图3所示。元模型的目标不是学习全部任务中的语义一致性信息而是变成了补充数据场景下的最优化问题，即得到一个泛化能力足够强的元模型，即下述的生成器G。

S3，基于优化的Reptile梯度更新算法和训练任务集对元模型进行训练和测试得到参考模型。

使用基于优化的Reptile梯度更新算法来训练元模型，主要是指生成器，从而得到一组比较好的网络参数，这组参数具有良好的泛化能力，当其作为模型初始参数值设置时，在特定任务上训练时，微调几次，模型可以快速收敛，达到一个比较好的结果。具体的算法表示如下：

在这个训练阶段的目标是：

其中表示任务的损失函数，，是指在采样的个任务上进行参数更新，为在任务使用元学习的方式。在网络中，可以转换为学习模型的参数权重。将视为元模型的参数权重，是在任务上训练后的参数权重，目的是找到的是一个最优的元模型参数初始化权重，使得：

对优化目标求导，得到：

其中，，，表示求参数φ的梯度。

在网络训练过程中，网络是在对随机采样的任务上执行参数更新，网络的参数更新方法如下：

并且将训练中网络学习到的参数替换。

S4，根据补充任务集对上述参考模型进行微调得到特定人的说话视频模型，即提供补充数据，进行模型的微调，这样生成器G能够快速的学习到补充数据的语义一致性，使得到的生成图片和参考语音的语义一致性与补充数据中的数据特征更相近。

S5，基于特定人的说话视频模型以及特定人的参考数据，生成与参考数据对应的说话视频，参考数据为待生成特定人说话视频的语音数据（即图中的驱动语音），补充数据与参考数据中的语音数据可以完全不相同，也可以部分不相同。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于元学习的补充数据下的说话视频生成方法，其特征在于，包括以下步骤：

构建端到端的生成对抗网络作为元学习的元模型；

2.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法，其特征在于：所述数据处理的过程为：将数据中的说话视频拆分为图片数据和语音数据，对图片数据进行处理得到若干帧人脸居中的人脸图片形成图片序列；对语音数据进行处理得到音频序列，所述图片序列和音频序列为语义一致的片段。

3.根据权利要求2所述的基于元学习的补充数据下的说话视频生成方法，其特征在于：所述对图片数据进行处理包括进行人脸检测、人脸对齐、人脸图片边界框检测和裁剪处理。

4.根据权利要求2所述的基于元学习的补充数据下的说话视频生成方法，其特征在于：对语音数据进行MFCC特征的计算得到音频序列。

5.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法，其特征在于：所述补充数据为特定人的说话视频数据的集合。

6.根据权利要求1所述的基于元学习的补充数据下的说话视频生成方法，其特征在于：所述参考数据为待生成特定人说话视频的语音数据。