CN115937375A

CN115937375A - 数字分身合成方法、装置、计算机设备及存储介质

Info

Publication number: CN115937375A
Application number: CN202310013868.4A
Authority: CN
Inventors: 卢庆华; 黄元忠
Original assignee: Shenzhen Muyu Technology Co ltd
Current assignee: Shenzhen Muyu Technology Co ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-07
Anticipated expiration: 2043-01-05
Also published as: CN115937375B

Abstract

本发明涉及数字分身合成方法、装置、计算机设备及存储介质，该方法，包括：获取多人的视频数据，用于训练判别器；根据判别器训练得到生成器；对生成器进行优化，以得到通用生成器；添加目标人物的视频数据至通用生成器中，以得到微调后的生成器；将目标人物的音频数据输入至微调后的生成器中，以合成得到数字分身。本发明利用神经网络，以视频数据为驱动源，快速合成出较高分辨率和保真度的数字分身，且面部细节与真人高度一致，通用性强，能够更好地满足需求。

Description

数字分身合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及数字分身技术领域，尤其是指数字分身合成方法、装置、计算机设备及存储介质。

背景技术

现有的技术方案，多采用人工神经网络训练模型，进而合成超写实数字人。技术路线分为两种，第一种是基于大量的多人视频数据训练通用模型，然后对任意目标人物都可快速合成数字分身；第二种是针对目标人物的视频数据进行模型训练，仅对该目标人物可合成数字分身；第一种适用范围更广，但缺乏对真人的细节刻画，唇形、牙齿等常常失真。第二种具有丰富的面部细节，但对单人的模型训练时间很久，使用受限。

因此，需要一种通用性强、细节完整、合成速度快的技术方案，以实现超写实数字分身的快速合成。

发明内容

本发明的目的在于克服现有技术的不足，提供数字分身合成方法、装置、计算机设备及存储介质。

为了解决上述技术问题，本发明采用如下技术方案：

第一方面，本实施例提供了一种数字分身合成方法，包括以下步骤：

获取多人的视频数据，用于训练判别器；

根据判别器训练得到生成器；

对生成器进行优化，以得到通用生成器；

添加目标人物的视频数据至通用生成器中，以得到微调后的生成器；

将目标人物的音频数据输入至微调后的生成器中，以合成得到数字分身。

其进一步技术方案为：所述获取多人的视频数据，用于训练判别器步骤中，基于神经网络，将多人的视频数据中的人脸分为上、下两个部分，分别提取不同的特征，神经网络包含两部分内容，一个是音频神经网络，另一个是图片神经网络，在处理音频前，首先将音频分割成与视频对应的帧序列，其中音频神经网络，是对音频序列进行处理，获得相应的音频特征，在处理图片前，在鼻翼处将人脸分割为上下两部分，然后训练得到判别器，判别器用于检测面部动态。

其进一步技术方案为：所述生成器以音频和视频为输入，采用编码-解码器结构，均由二维卷积层堆叠而成，音频编码器将一系列音素特征转换为嵌入向量，与视频帧在时间上保持一致。

其进一步技术方案为：所述对生成器进行优化，以得到通用生成器步骤中，通过鉴别器优化生成器，以得到通用生成器。

第二方面，本实施例提供了一种数字分身合成装置，包括：获取训练单元、训练单元、优化单元、添加单元及输入合成单元；

所述获取训练单元，用于获取多人的视频数据，用于训练判别器；

所述训练单元，用于根据判别器训练得到生成器；

所述优化单元，用于对生成器进行优化，以得到通用生成器；

所述添加单元，用于添加目标人物的视频数据至通用生成器中，以得到微调后的生成器；

所述输入合成单元，用于将目标人物的音频数据输入至微调后的生成器中，以合成得到数字分身。

其进一步技术方案为：所述获取训练单元中，基于神经网络，将多人的视频数据中的人脸分为上、下两个部分，分别提取不同的特征，神经网络包含两部分内容，一个是音频神经网络，另一个是图片神经网络，在处理音频前，首先将音频分割成与视频对应的帧序列，其中音频神经网络，是对音频序列进行处理，获得相应的音频特征，在处理图片前，在鼻翼处将人脸分割为上下两部分，然后训练得到判别器，判别器用于检测面部动态。

其进一步技术方案为：所述优化单元中，通过鉴别器优化生成器，以得到通用生成器。

第三方面，本实施例提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如上述所述的数字分身合成方法。

第四方面，本实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如上述所述的数字分身合成方法。

本发明与现有技术相比的有益效果是：利用神经网络，以视频数据为驱动源，快速合成出较高分辨率和保真度的数字分身，且面部细节与真人高度一致，通用性强，能够更好地满足需求。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数字分身合成方法的流程示意图；

图2为本发明实施例提供的编码-解码结构的示意图；

图3为本发明实施例提供的数字分身合成装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1所示的具体实施例，本发明公开了一种数字分身合成方法，包括以下步骤：

S1，获取多人的视频数据，用于训练判别器；

在一实施例中，S1步骤中，基于神经网络，将多人的视频数据中的人脸分为上、下两个部分，分别提取不同的特征，神经网络包含两部分内容，一个是音频神经网络，另一个是图片神经网络，在处理音频前，首先将音频分割成与视频对应的帧序列，其中音频神经网络，是对音频序列进行处理，获得相应的音频特征，在处理图片前，在鼻翼处将人脸分割为上下两部分，然后训练得到判别器，判别器用于检测面部动态。

具体地，图片神经网络包含三个子网络，第一个子网络用于处理上部分人脸，专注眼睛动作；第二个子网络用于处理下部分人脸，专注嘴唇和牙齿动作；第三个子网络用于处理人脸关键点，确保面部完整性。

S2，根据判别器训练得到生成器；

具体地，在判别器中使用多个连续帧和视觉质量损失函数建立时间上的相关性，同时生成器以高分辨率持续输出自然、准确的嘴部动作。在对抗神经网络中，一般由判别器和生成器两个子神经网络组成。根据判别器训练生成器，也就是仅利用判别器的判别功能，对生成器生成的图片判断真假，在最小化判别器的损失的过程，也就是强制生成器生成的图片不断逼近真实的过程。

在判别器中，通过输入RGB色彩的T_v个连续脸部帧和一个大小为T_a×D的音频段S，其中T_v和T_a分别为视频和音频的时间步长。判别器通过随机取样一个音频窗口T_a×D来辨别音频和视频之间的同步性，该窗口要么与视频对齐(同步)，要么来自不同的时间步长(不同步)。它包含所有的脸部编码器和音频编码器，两者都是由一系列二维卷积网络和ReLU激活函数组成。利用L_con的余弦相似度损失C与二进制交叉熵

来保持输入视频-音频对应的一致性。

L_con＝ω₁L_mouth+(1-ω₁)L_kp；

其中，L_part表示面部的一部分，part可以是mouth或kp，L_con表示损失之和，ω₁表示损失的权重，v和a分别代表各自编码器输出的视频和音频嵌入向量，y是任意参考图片的二进制值，v^part包含所有面部相关的嵌入向量，具有与a相同数据维度。嘴部动作与语音具有极强的关联性，它的权重ω₁取值较大，这意味着在生成器上要求嘴部动作与声音高度一致。

具体地，请参阅图2所示的编码-解码结构，生成器以音频和视频为输入，生成器采用编码-解码器结构，均由二维卷积层堆叠而成，音频编码器将一系列音素特征(一系列音素特征指的是语音领域的梅尔倒谱系数，英文简称为MFCC)转换为嵌入向量，与视频帧在时间上保持一致。同样，人脸视频解码器也将面部特征转换成相应的嵌入。从人脸编码器计算出的音频嵌入结果与人脸嵌入相连接，然后一起转化为人脸表征量。通过这种方式，可生成高分辨率的说话人脸。

音频嵌入结果的计算采用嵌入向量，也就是embedding vector，是神经网络的输出结果，从网络结构上讲，是人脸编码器采用卷积神经网络对音频不断编码所取得的嵌入。

在训练过程中，经过预训练的判别器被用来惩罚错误或不适当的生成结果，以此确保生成器输出高质量的说话人脸。给定N张真实图像，生成器将输出N帧的伪图像。生成器的学习目标是最小化以下损失函数：

L_reg＝ω₁L_rec+(1-ω₁)L_dis；

其中，L_reg指的是重建损失，此处的L_dis指的是判别器损失，L_rec指的是原始真实图像与生成的伪图像之间的L₁范数，用于计算面部重建时的损失；以g_t表示真实的图像数据，同时以g表示生成的图像数据，得到如下结果：

其中，L_dis还可用来最小化鉴别器损失，可以迫使面部动态在时间和动作上自然地跟随音频帧变化。相应的损失函数被定义为：

其中，人脸编码器由三部分组成，分别是对上层、下层和整个人脸属性特征的编码。为了更加明确地获取脸部感兴趣的区域特点，对不同的面部动态部分进行分别裁剪，也就是分为了上下半张脸。所有来自这些编码器的嵌入向量(embeddings)与相同步长的音频特征被串联起来，经过一系列堆叠的卷积层后产生人脸表示(face representation)，然后都被送入一个解码网络。

为了保证唇部的同步性能，人脸图像应与音频片段在时间步长上保持一致，在输入音频编码器之前，使用梅尔谱图来表示音频特征，梅尔频谱特征的窗长和通道匹配视频中的图像帧长度。人脸编码器的其中两部分专注于上脸和下脸的属性，而人脸编码器的第三部分则从整个人脸图像中建立起局部的相关性和空间关系。

S3，对生成器进行优化，以得到通用生成器；

具体地，数字人合成通过GAN的生成器实现，如果用D表示GAN鉴别器，以G指代GAN生成器，那么通过解算以下方程可以得到最优参数：

即等同于最小化前述生成器目标函数，其中，G^*是通过最优化生成器目标函数后训练的通用生成器，

指的是代损失函数，Loss的简写。

S4，添加目标人物的视频数据至通用生成器中，以得到微调后的生成器；

其中，通用生成器可以推广到具有真实嘴部动作的任意个体。然而，生成的人脸与目标人物并不严格相同，这意味着合成的人脸可能会扭曲目标人脸的细节，如牙齿和嘴的形状。为了生成与真实人物相匹配的逼真脸部外观，可能需要进一步的微调。当通用生成器得到微调以获得更好的视觉质量时，嘴部运动的能力仍然存在。在实践中，不改变与语音多样性有关的参数，而是在通用生成器中更新其他脸部参数，如下所示：

其中，P_face表示人脸面貌，G^finetune表示微调后的生成器，finetune是微调的含义。

S5，将目标人物的音频数据输入至微调后的生成器中，以合成得到数字分身。

具体地，通过将目标人物的音频数据输入至微调后的生成器中，以音频为驱动源，快速合成出较高分辨率和保真度的数字分身。

为便于理解本发明，现提供以下具体实施例：

音频文件从视频数据中分离出来，并以48000Hz的相同采样率重新取样。接着从相应的音频文件中提取了使用较为广泛的特征：Mel-spectrogram，一些基本参数设置如下：Mel-band的数量为80，窗口大小为2400，跳动大小为600，FFT为2400。该参数下的音频特征，与数据集中每秒25帧(FPS)的视频片段在时间长度上相匹配。此外，生成器每秒钟共生成80个mel帧。当生成器一次处理T_v＝5个连续视频帧时，Mel帧数量应设置为16以对齐时间步长(5/25＝0.2s，16/80＝0.2s)。

使用adamW优化器，初始学习率为0.0001。在优化器上实现了0.01的权重衰减，以获得更好的泛化效果，同时为了训练加速，采用了学习率衰减(patience＝5,decayfactor＝0.1)。adamW的其他参数为betas＝[0.5,0.999]。

鉴别器D是在真人视频上训练，使用相邻样本之间T_v＝5的滑动距离。在批量大小为96的情况下，验证集损失达到了0.23。在实验中，鉴别器目标函数中的参数取值为：w₁＝0.8。判别器训练好后，在后续生成器训练或个性化微调中可以直接使用，不必再做训练。

生成器G负责生成真实的说话人脸。基于预训练的D，批量大小被设置为4，生成器目标函数中的参数ω₁为0.97。在L_rec和L_dis中，N＝5。生成器的验证集损失降到0.16。

本发明利用神经网络，以视频数据为驱动源，快速合成出较高分辨率和保真度的数字分身，且面部细节与真人高度一致，通用性强，能够更好地满足需求。

请参阅图3所示，本发明还公开了一种数字分身合成装置，包括：获取训练单元10、训练单元20、优化单元30、添加单元40及输入合成单元50；

所述获取训练单元10，用于获取多人的视频数据，用于训练判别器；

所述训练单元20，用于根据判别器训练得到生成器；

所述优化单元30，用于对生成器进行优化，以得到通用生成器；

所述添加单元40，用于添加目标人物的视频数据至通用生成器中，以得到微调后的生成器；

所述输入合成单元50，用于将目标人物的音频数据输入至微调后的生成器中，以合成得到数字分身。

在一实施例中，所述获取训练单元10中，基于神经网络，将多人的视频数据中的人脸分为上、下两个部分，分别提取不同的特征，神经网络包含两部分内容，一个是音频神经网络，另一个是图片神经网络，在处理音频前，首先将音频分割成与视频对应的帧序列，其中音频神经网络，是对音频序列进行处理，获得相应的音频特征，在处理图片前，在鼻翼处将人脸分割为上下两部分，然后训练得到判别器，判别器用于检测面部动态。

在一实施例中，所述生成器以音频和视频为输入，采用编码-解码器结构，均由二维卷积层堆叠而成，音频编码器将一系列音素特征转换为嵌入向量，与视频帧在时间上保持一致。

在一实施例中，所述优化单元30中，通过鉴别器优化生成器，以得到通用生成器。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述数字分身合成装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述数字分身合成装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图；该计算机设备500可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种数字分身合成方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种数字分身合成方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取多人的视频数据，用于训练判别器；根据判别器训练得到生成器；对生成器进行优化，以得到通用生成器；添加目标人物的视频数据至通用生成器中，以得到微调后的生成器；将目标人物的音频数据输入至微调后的生成器中，以合成得到数字分身。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述的数字分身合成方法。该存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述的方法。该程序指令包括以下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-On ly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

上述实施例为本发明较佳的实现方案，除此之外，本发明还可以其它方式实现，在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

Claims

1.数字分身合成方法，其特征在于，包括以下步骤：

获取多人的视频数据，用于训练判别器；

根据判别器训练得到生成器；

对生成器进行优化，以得到通用生成器；

2.根据权利要求1所述的数字分身合成方法，其特征在于，所述获取多人的视频数据，用于训练判别器步骤中，基于神经网络，将多人的视频数据中的人脸分为上、下两个部分，分别提取不同的特征，神经网络包含两部分内容，一个是音频神经网络，另一个是图片神经网络，在处理音频前，首先将音频分割成与视频对应的帧序列，其中音频神经网络，是对音频序列进行处理，获得相应的音频特征，在处理图片前，在鼻翼处将人脸分割为上下两部分，然后训练得到判别器，判别器用于检测面部动态。

3.根据权利要求1所述的数字分身合成方法，其特征在于，所述生成器以音频和视频为输入，采用编码-解码器结构，均由二维卷积层堆叠而成，音频编码器将一系列音素特征转换为嵌入向量，与视频帧在时间上保持一致。

4.根据权利要求1所述的数字分身合成方法，其特征在于，所述对生成器进行优化，以得到通用生成器步骤中，通过鉴别器优化生成器，以得到通用生成器。

5.数字分身合成装置，其特征在于，包括：获取训练单元、训练单元、优化单元、添加单元及输入合成单元；

所述训练单元，用于根据判别器训练得到生成器；

6.根据权利要求5所述的数字分身合成装置，其特征在于，所述获取训练单元中，基于神经网络，将多人的视频数据中的人脸分为上、下两个部分，分别提取不同的特征，神经网络包含两部分内容，一个是音频神经网络，另一个是图片神经网络，在处理音频前，首先将音频分割成与视频对应的帧序列，其中音频神经网络，是对音频序列进行处理，获得相应的音频特征，在处理图片前，在鼻翼处将人脸分割为上下两部分，然后训练得到判别器，判别器用于检测面部动态。

7.根据权利要求5所述的数字分身合成装置，其特征在于，所述生成器以音频和视频为输入，采用编码-解码器结构，均由二维卷积层堆叠而成，音频编码器将一系列音素特征转换为嵌入向量，与视频帧在时间上保持一致。

8.根据权利要求5所述的数字分身合成装置，其特征在于，所述优化单元中，通过鉴别器优化生成器，以得到通用生成器。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的数字分身合成方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-4中任一项所述的数字分身合成方法。