CN117319763A

CN117319763A - 视频生成方法和装置

Info

Publication number: CN117319763A
Application number: CN202311157436.7A
Authority: CN
Inventors: 候学东; 李梅; 孙瑜博; 吕达; 陈云琳
Original assignee: Shanghai Mobvoi Information Technology Co ltd
Current assignee: Shanghai Mobvoi Information Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-29

Abstract

本发明实施例公开了一种视频生成方法和装置。通过引入参考视频信息、音频信息和输入图像信息以获取特征图像信息，根据输入图像信息与特征图像信息生成目标视频。由此，使得头部运动的真实感得到提升，同时，可以实现音频信息和输入图像信息与目标视频关系的分别建模，由此，可以降低神经网络模型训练的难度。

Description

视频生成方法和装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种视频生成方法和装置。

背景技术

单张图片语音驱动方法是指根据目标人物的一张照片和一段音频，生成与音频同步的目标人物说话的视频。目前，单张图片语音驱动方法可以通过FACE LANDMARK(一种人脸关键点检测技术)实现。FACE LANDMARK通过在输入的单张图片上检测目标人物人脸的关键点，如眼睛、鼻子、嘴巴等部位的坐标。根据检测出的关键点坐标，结合语音的音频特征，估计嘴部形状的变化。根据估计的嘴部形状参数，使用图像生成模型来生成带有相应嘴部形状的目标人物人脸图片序列。将生成的人脸图片序列连续播放，即可以生成基于单张图片语音驱动方法的目标人物说话的视频。由于FACE LANDMARK是基于二维平面的方法，很难精准地表示目标人物头部的运动，导致生成的视频头部运动不太真实。同时，基于FACELANDMARK的单张图片语音驱动方法由于需要同时对输入音频和输入图片与输出视频的关系建模，使得神经网络模型的训练难度较大。

发明内容

有鉴于此，本发明实施例提供一种视频生成方法和装置，使得头部运动的真实感得到提升，同时，可以实现音频信息和输入图像信息与目标视频关系的分别建模，由此，可以降低神经网络模型训练的难度。

第一方面，本发明实施例提供一种视频生成方法，所述方法包括：

获取输入信息，所述输入信息包括参考视频信息、音频信息和输入图像信息；

根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息；

根据所述特征图像信息和所述输入图像信息生成目标视频。

在一些实施例中，所述根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息包括：

通过预先训练的头部姿态识别模型根据所述参考视频信息获取头部姿态参数；

通过预先训练的运动预测模型根据所述音频信息获取表情参数；

通过预先训练的特征提取模型根据所述输入图像信息获取特征参数；

根据所述头部姿态参数、表情参数和特征参数生成所述特征图像信息。

在一些实施例中，所述根据所述特征图像信息和所述输入图像信息生成目标视频包括：

通过预先训练的图像转换模型根据所述特征图像信息生成视频帧；

根据所述视频帧生成所述目标视频。

在一些实施例中，所述图像转换模型包括生成器和判别器；

其中，所述通过预先训练的图像转换模型根据所述特征图像信息生成视频帧包括：

通过所述生成器根据所述特征图像信息生成中间图像信息；

通过判别器根据所述中间图像信息和所述输入图像信息对所述生成器进行更新以获取预先训练的生成器；

通过所述预先训练的生成器根据所述特征图像信息生成视频帧。

在一些实施例中，所述特征参数包括面部形状参数和纹理参数。

在一些实施例中，所述参考视频信息和输入图像信息包括目标人物的人脸信息。

在一些实施例中，所述目标视频为所述目标人物表达所述音频信息的视频。

第二方面，本发明实施例提供一种视频生成装置，所述装置包括：

获取单元，用于获取输入信息，所述输入信息包括参考视频信息、音频信息和输入图像信息；

生成单元，用于根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息；

输出单元，用于根据所述特征图像信息和所述输入图像信息生成目标视频。

第三方面，本发明实施例提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时以实现如第一方面所述的方法。

本发明实施例的技术方案通过引入参考视频信息、音频信息和输入图像信息以获取特征图像信息，根据输入图像信息与特征图像信息生成目标视频。由此，使得头部运动的真实感得到提升，同时，可以实现音频信息和输入图像信息与目标视频关系的分别建模，由此，可以降低神经网络模型训练的难度。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的信息转换的示意图；

图2是本发明实施例的视频生成方法的流程图；

图3是本发明实施例的生成特征图像信息的流程图；

图4是本发明实施例的生成目标视频的流程图；

图5是本发明实施例的生成视频帧的流程图；

图6是本发明实施例的图像转换模型的示意图；

图7是本发明实施例的视频生成装置的示意图；

图8是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本说明书及实施例中所述方案，如涉及个人信息处理，则均会在具备合法性基础(例如征得个人信息主体同意，或者为履行合同所必需等)的前提下进行处理，且仅会在规定或者约定的范围内进行处理。用户拒绝处理基本功能所需必要信息以外的个人信息，不会影响用户使用基本功能。

图1是本发明实施例的信息转换的示意图。如图1所示，本发明实施例获取参考视频信息1、音频信息2和输入图像信息3。通过预先训练的头部姿态识别模型7，根据所述参考视频信息1，获取头部姿态参数。通过预先训练的运动预测模型8，根据所述音频信息2，获取表情参数。通过预先训练的特征提取模型9，根据所述输入图像信息3，获取特征参数。根据所述头部姿态参数、表情参数和特征参数生成特征图像信息4。根据所述输入图像信息3和生成的特征图像信息4，通过图像转换模型10生成至少一个视频帧5。合成所述至少一个视频帧5，从而得到目标视频6。

本发明实施例通过引入参考视频信息、音频信息和输入图像信息以获取特征图像信息，根据输入图像信息与特征图像信息生成目标视频。由此，使得头部运动的真实感得到提升，同时，可以实现音频信息和输入图像信息与目标视频关系的分别建模，由此，可以降低神经网络模型训练的难度。

图2是本发明实施例的视频生成方法的流程图。如图2所示，本发明实施例的视频生成方法包括如下步骤：

步骤S1100，获取输入信息，所述输入信息包括参考视频信息、音频信息和输入图像信息。

其中，所述音频信息为一段语音。本发明实施例对音频信息的语种和获取方式不做限制，例如，音频信息的语种可以为中文、英文或日文等各种语种，也可以是各种方言。同时，音频信息可以为用户录制，也可以通过合成或从网络下载等方式获取。

所述输入图像信息包括目标人物的人脸信息。其中，所述目标人物为用户期望的视频中出现的人物。具体地，所述输入图像信息可以是目标人物在各种角度的图像，如正面角度或侧面角度等。本发明实施例对所述输入图像信息的角度或形式等不做限制，可根据具体情况进行设置。

所述参考视频信息为一段人物说话的视频，所述参考视频信息包括人物的头部运动信息。具体地，所述人物可以为目标人物，也可以为非目标人物的其他人物。

步骤S1200，根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息。

图3是本发明实施例的生成特征图像信息的流程图。如图3所示，根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息包括如下步骤：

步骤S1210，通过预先训练的头部姿态识别模型根据所述参考视频信息获取头部姿态参数。

其中，通过预先训练的头部姿态识别模型根据所述参考视频信息获取头部姿态参数具体为：从所述参考视频信息中获取图像，所述图像为参考视频的视频帧，通过所述预先训练的头部姿态识别模型分析图像以获取头部姿态参数。

在一些实施例中，所述预先训练的头部姿态识别模型可以为OPENPOSE(一种深度学习网络)和OpenVINO(一种深度学习网络)等。具体地，所述预先训练的头部姿态识别模型包括：特征提取层、单维度姿态层以及综合维度姿态层。将所述至少一个参考视频信息帧输入至所述特征提取层，得到单维度姿态特征图和多维度姿态特征图。将单维度姿态特征图输入至所述单维度姿态层，得到单维度姿态多分类信息和单维度回归信息。将多维度姿态特征图输入至所述综合维度姿态层，得到综合维度姿态大小角度二分类信息。基于所述单维度姿态多分类信息、所述单维度回归信息和所述综合维度姿态大小角度二分类信息，确定所述头部姿态估计结果。本发明实施例根据参考视频信息获取头部姿态参数，可以使得最后得到的目标视频中的头部运动更加真实，解决了由于FACE LANDMARK导致的头部运动不真实、不连贯了问题。

其中，所述预先训练的头部姿态识别模型的训练过程包括单维度姿态层的训练和综合维度姿态层的训练。所述单维度姿态层的训练包括：以所述单维度姿态样本特征图为样本，以预先确定的与所述单维度姿态样本特征图对应的单维度姿态多分类标签以及单维度回归标签为样本标签进行训练得到。所述综合维度姿态层的训练包括：以所述多维度姿态样本特征图为样本，以预先确定的与所述多维度姿态样本特征图对应的综合维度姿态大小角度二分类标签为样本标签进行训练得到。

步骤S1220，通过预先训练的运动预测模型根据所述音频信息获取表情参数。

在一些实施例中，通过预先训练的运动预测模型根据所述音频信息获取表情参数包括：将所述音频信息输入运动预测模型，通过运动预测模型对所述音频信息进行处理，生成表情参数。其中，在处理过程中，先将音频信息分为多个音频帧，进而通过运动预测模型获取每一个音频帧对应的表情参数。

在一些实施例中，所述运动预测模型可以为Wav2Lip(一种生成对抗网络)等。具体地，所述运动预测模型可以包括：特征转换网络、特征迁移网络和映射网络。其中所述特征转换网络可以用于将音频信息转换为语音特征参数，例如：梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)特征。在得到语音特征参数之后，可以基于表情参数提取模型对语音特征参数进行特征迁移，从而得到音频数据的目标音频特征。在得到目标音频特征之后，可以根据目标音频特征进行表情参数映射，从而得到表情参数。

步骤S1230，通过预先训练的特征提取模型根据所述输入图像信息获取特征参数。

在一些实施例中，通过预先训练的特征提取模型根据所述输入图像信息获取特征参数包括：将所述输入图像信息输入预先训练的特征提取模型，利用所述特征提取模型获取特征参数。其中，所述特征参数包括面部形状参数和纹理参数。

进一步地，所述预先训练的特征提取模型可以为现有的模型，如Deep 3D FaceReconstruction(一种三维人脸重建技术)等。FACE LANDMARK检测输入的单张图片上人脸的关键点，如眼睛、鼻子、嘴巴等部位的坐标。并且根据检测出的关键点坐标，同时结合语音的音频特征，以此估计嘴部形状的变化。因此FACE LANDMARK通常会建立一个从音频特征到嘴部形状参数的映射模型。通过映射模型得到嘴部形状参数，然后使用图像生成模型(如GAN)来生成带有相应嘴部形状的人脸图片。同时，图像生成模型需要建立输入图片和输出图片之间的映射关系。因此FACE LANDMARK需要同时建模音频特征到嘴部形状参数的映射关系以及输入图片和输出图片的映射关系。而本发明实施例通过音频信息预测表情参数，通过输入图像信息获取特征参数，实现了表情参数与特征参数的解耦，解决了FACELANDMARK中需要同时建模语音和输出的关系以及输入图片和输出的关系，因此降低了神经网络模型训练的难度，提高了神经网络模型的效果。

步骤S1240，根据所述头部姿态参数、表情参数和特征参数生成所述特征图像信息。

在一些实施例中，根据所述头部姿态参数、表情参数和特征参数生成所述特征图像信息包括：利用现有的人脸重建技术或3D(Three dimensional)姿态评估方法，根据现有的人脸重建技术或3D(Three dimensional)姿态评估方法中的参数映射模型，将所述头部姿态参数、表情参数和特征参数通过所述参数映射模型映射至二维平面，从而生成所述特征图像信息。其中，所述特征图像信息可以采用FACE LANDMARK算法表示。

具体地，FACE LANDMARK算法中的LANDMARK为“轮廓点”或“特征点”之意。LANDMARK在图像处理和计算机视觉领域中为“关键点”或“兴趣点”之意，代表图片中具有代表性的点，这些点在不同图片中对应的语义和空间位置相对稳定。在FACE LANDMARK检测中，LANDMARK特指人脸图像上语义明确且位置相对固定的点，主要集中在眉毛、眼睛、鼻子、嘴巴等面部组织区域。检测出这些区域上的点能够提取人脸的结构信息，为面部识别、表情分析等提供基础。

需要注意的是，本发明实施例中的步骤S1210、步骤S1220和步骤S1230不区分执行顺序，可以为先后顺序执行，也可以同时执行。

步骤S1300，根据所述特征图像信息和所述输入图像信息生成目标视频。

图4是本发明实施例的生成目标视频的流程图。如图4所示，根据所述特征图像信息和所述输入图像信息生成目标视频包括如下步骤：

步骤S1310，通过预先训练的图像转换模型根据所述特征图像信息生成视频帧。

步骤S1320，根据所述视频帧生成所述目标视频。

每个所述视频帧为一张图像，将所述视频帧合成，可以得到目标视频。也即，所述目标视频为所述目标人物表达所述音频信息的视频。

其中，对于上述步骤S1310，图5为本发明实施例的生成视频帧的流程图。如图5所示，具体包括如下步骤：

步骤S1311，通过生成器根据特征图像信息生成中间图像信息。

步骤S1312，通过判别器根据所述中间图像信息和输入图像信息对所述生成器进行更新，以获取预先训练的生成器。

步骤S1313，通过所述预先训练的生成器根据所述特征图像信息生成视频帧。

图6为本发明实施例的图像转换模型的示意图。如图6所示，所述图像转换模型包括生成器61和判别器63。生成器61根据特征图像信息4生成中间图像信息62。判别器63根据中间图像信息62和输入图像信息3对生成器61进行更新，从而使得生成器61成为经过预先训练的生成器。最后，通过预先训练的生成器61根据所述特征图像信息4生成视频帧5。

在一些实施例中，所述预先训练的图像转换模型可以为条件生成对抗网络(Conditional Generative Adversarial Network，CGAN)，具体地，CGAN可以通过Pix2Pix(一种条件生成对抗网络)模型实现。CGAN将条件信息融入生成对抗网络(GenerativeAdversarial Network，GAN)的生成器与判别器中，使得生成器生成的图片在足够真实且与条件信息相符时，才能够通过判别器。

Pix2Pix模型是基于CGAN实现图像翻译，因为CGAN可以通过添加条件信息来指导图像的生成，因此在图像翻译中就可以将输入图像作为条件，学习从输入图像到输出图像之间的映射，从而得到指定的输出图像。

Pix2Pix模型的生成器使用基于U-Net(一种编码-解码模型)的架构。U-Net是一种全卷积结构。常见的编解码结构的网络通过先降采样到低维度，再升采样到原始分辨率，而U-Net加入跳跃连接(skip-connection)，对应的特征图和解码之后的同样大小的特征图按通道拼一起，用来保留不同分辨率下像素级的细节信息。U-Net对提升细节的效果非常明显。图像到图像转换问题的一个定义特征是它们将高分辨率输入网格映射到高分辨率输出网格。因此，输入中的结构大致与输出中的结构对齐。围绕这些考虑因素来设计生成器架构。在U-Net网络中，输入经过一系列层，逐步向下采样，直到瓶颈层，在此过程反转。这样的网络要求所有的信息流通过所有的层，包括瓶颈。对于许多图像翻译问题，输入和输出之间有大量的低级信息共享，因此直接通过网络传输这些信息是可取的。

Pix2Pix模型的判别器使用卷积的马尔可夫判别器(Patch GenerativeAdversarial Network，PatchGAN)，它只在图像一小块区域的尺度上对结构进行惩罚。PatchGAN的思想是，既然GAN只用于构建高频信息，那么就不需要将整张图片输入到判别器中，让判别器对图像的每个一小块区域做真假判别就可以了。因为不同的一小块区域之间可以认为是相互独立的。Pix2Pix模型对一张图片切割成不同大小的一小块区域，判别器对每一个一小块区域做真假判别，将一张图片所有一小块区域的结果取平均作为最终的判别器输出。所述生成器经判别器训练完成后，将根据所述特征图像信息生成视频帧。

图7是本发明实施例的视频生成装置的示意图。如图7所示，语音驱动视频生成装置包括获取单元71、生成单元72和输出单元73。其中，所述获取单元71用于获取输入信息，所述输入信息包括参考视频信息、音频信息和输入图像信息。所述生成单元72用于根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息。所述输出单元73用于根据所述特征图像信息和所述输入图像信息生成目标视频。

在一些实施例中，所述生成单元包括：

第一参数获取子单元，用于通过预先训练的头部姿态识别模型根据所述参考视频信息获取头部姿态参数；

第二参数获取子单元，用于通过预先训练的运动预测模型根据所述音频信息获取表情参数；

第三参数获取子单元，用于通过预先训练的特征提取模型根据所述输入图像信息获取特征参数；

特征图像信息生成子单元，用于根据所述头部姿态参数、表情参数和特征参数生成所述特征图像信息。

在一些实施例中，所述输出单元包括：

视频帧生成子单元，用于通过预先训练的图像转换模型根据所述特征图像信息生成视频帧；

目标视频生成子单元，用于根据所述视频帧生成所述目标视频。

在一些实施例中，所述图像转换模型包括生成器和判别器；

其中，所述视频帧生成子单元包括：

中间图像信息生成模块，用于通过所述生成器根据所述特征图像信息生成中间图像信息；

生成器训练模块，用于通过判别器根据所述中间图像信息和所述输入图像信息对所述生成器进行更新以获取预先训练的生成器；

视频帧生成模块，用于通过所述预先训练的生成器根据所述特征图像信息生成视频帧。

图8是本发明实施例的电子设备的示意图。如图8所示，图8所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器81通过执行存储器82所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起，同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置45通过输入/输出(I/O)控制器86与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

根据所述特征图像信息和所述输入图像信息生成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述参考视频信息、音频信息和输入图像信息生成特征图像信息包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征图像信息和所述输入图像信息生成目标视频包括：

根据所述视频帧生成所述目标视频。

4.根据权利要求3所述的方法，其特征在于，所述图像转换模型包括生成器和判别器；

通过所述生成器根据所述特征图像信息生成中间图像信息；

5.根据权利要求2所述的方法，其特征在于，所述特征参数包括面部形状参数和纹理参数。

6.根据权利要求1所述的方法，其特征在于，所述参考视频信息和输入图像信息包括目标人物的人脸信息。

7.根据权利要求6所述的方法，其特征在于，所述目标视频为所述目标人物表达所述音频信息的视频。

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种电子设备，所述电子设备包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时以实现如权利要求1-7中任一项所述的方法。