CN111783566B

CN111783566B - 一种基于唇语同步和神态适配效果增强的视频合成方法

Info

Publication number: CN111783566B
Application number: CN202010545322.XA
Authority: CN
Inventors: 王太浩; 张传锋; 朱锦雷
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2023-10-31
Anticipated expiration: 2040-06-15
Also published as: CN111783566A

Abstract

本发明公开一种基于唇语同步和神态适配效果增强的视频合成方法，本方法直接将待合成的人像和音频流整体进行编码，使用保留原始人脸信息的循环解码器网络，将变换后的抽象特征解码为图像序列，然后使用五个判别器网络根据真实图像序列对合成的图像序列进行对抗训练，使得总的重建误差达到最小。与已有的视频合成方法相比，本方法既保证了前后各帧之间人脸变化的连续性，又提高了各帧中人脸图片的清晰度，同时在唇语同步判别器和神态适配判别器的作用下，合成的视频显得更加自然，极大地增强了视觉效果的真实性。本发明在提升虚拟直播、人机交互的用户体验方面具有较高实用价值。

Description

一种基于唇语同步和神态适配效果增强的视频合成方法

技术领域

本发明涉及人工智能领域，尤其涉及人工智能虚拟音视频合成领域，具体是一种基于唇语同步和神态适配效果增强的视频合成方法。

背景技术

目前，随着摄相机拍摄视频质量的不断提高以及各种网络视频平台的兴起，线上视频数据存储的压力与日俱增；此外，由于网络视频观看用户越来越多，优秀的网络主播逐渐出现了供不应求的情况。为了解决以上两种困难，业界出现了通过文本和音频数据合成人像视频的产品，通过这种产品将视频数据压缩为文本、音频数据进行存储，以及代替真人进行网络直播。但目前的虚拟视频合成方法对于人像细节部分的处理比较粗糙，出现了语音和口型不同步、神态与表达内容不适配、人像边缘模糊的问题，严重地削弱了视觉效果的真实性。

专利《一种虚拟人物语音与口型同步的建模与控制方法》(申请号201810199537.3)使用静态的音素-口型映射库建模虚拟人物的口型变化，虽然能够实现口型的变化，但各帧中虚拟人物的口型是相互独立的，破坏了变化的连续性，可能产生抖动的效果。专利《用于控制三维虚拟人像口型变化的方法和装置》(申请号201910573170.1)将类似方法应用于三维人像，存在同样的不连续问题。专利《虚拟主播实现方法及装置》(申请号201811320949.4)使用语音合成模型和面部整体的状态合成模型合成语音序列和图像序列，但对口型和神态细节没有进行处理，导致人像的口型和神态变化不明显。专利《一种音视频合成方法》(申请号201910912787.1)使用变分自编码网络实现端到端的音视频合成，进一步考虑了前后帧图像之间的关系，但仍然存在口型等细节部分变化不明显的问题。

发明内容

本发明要解决的技术问题是提供一种基于唇语同步和神态视频效果增强的视频合成方法，既保证了前后各帧之间人脸变化的连续性，又提高了各帧中人脸图片的清晰度，同时在唇语同步判别器和神态适配判别器的作用下，合成的视频显得更加自然，极大地增强了视觉效果的真实性。

为了解决所述技术问题，本发明采用的技术方案是：一种基于唇语同步和神态适配效果增强的视频合成方法，包括以下步骤：

S01)、模型训练阶段，首先将数据集拆分为训练集和测试集，获取使用传统方式预训练的视频合成预训练模型；

S02)、使用视频合成预训练模型对非线性变换网络进行初始化，在预训练模型的基础上，使用新的训练数据和损失函数进行二次训练；

S03)、输入训练样本中动态的音频流和人脸图像，将人脸图像作为基本元素，在每一帧的循环合成过程中输入同一幅基准图像，使用工具包提取音频的MFCC特征，将音频流转化为与帧对应的特征片段序列；

S04)、使用音频编码卷积网络对MFCC特征片段进行编码，通过池化结构对特征进行压缩，通过填充和截断处理使特征各个维度具有等量的大小；

S05)、使用图片编码卷积网络对人脸特征进行编码，通过网络对特征的过滤，实现关键特征点的提取，将边缘和角度特征转化为二阶特征张量，然后将该二阶特征张量存储到中间变量中，作为每一个时间步长上人像身份特征的一个引导合成张量；

S06)、将前一时间步的中间状态、步骤S04得到的音频特征、步骤S05得到的人像特征一起输入到非线性变换网络中，使用Attention网络对各个时间步进行加权，然后经过3维的卷积池化层，将三种特征融合为三阶的整体特征张量；

S07)、将步骤S06得到的三阶整体特征张量复制为两部分，一部分作为新的中间状态传递给下一时间步，另一部分传递给解码网络，解码网络使用反卷积结构对三阶整体特征张量进行解码，逐帧得到合成的人像图片，将解码后的人像图片序列按照与音频对应的帧数或者时间比率连接起来，并融合音频文件，形成最终合成的虚拟说话视频；

S08)、建立分别实现五种监督功能的五个判别器，五个判别器与解码器组成对抗训练网络，同时设计好五个判别器对应的损失函数，将五种损失按照一定的权重加和得到总损失，以总损失最小化为原则，使用反向传播算法对音频编码网络、图片编码网络、非线性变换网络、解码网络、视频合成预训练模型进行对抗训练；五个判别其分别是人脸真实性判别器、视频真实性判别器、唇语同步判别器、眼神适配判别器和姿态适配判别器，五个判别器分别对最终合成虚拟说话视频的人脸真实性、视频真实性、唇语同步性、眼神适配性、姿态适配性进行监督。

进一步的，人脸真实性判别器是一个图片分类网络，将此网络合成的图片与目标图片进行比对分类，得到分类损失，对应的损失函数为：

其中，E_I～P、表示对服从P分布的随机变量I、/>计算均值，D₁表示人脸真实性判别器，作用于图片，I表示真实人脸图片，/>表示解码器合成的人脸图片，通过D₁得到判别向量特征，经过归一化和对数化就得到平均损失，将真实人脸图片平均损失与合成人脸图片平均损失相减得到损失函数。

进一步的，视频真实性判别用来判别视频各帧是否连续，视频真实性的标签是相邻两帧图片之间的像素差，对应的损失函数为：

其中，E_I～P、表示对服从P分布的随机变量(I_t-I_t+1)、/>计算均值，D₂表示视频真实性判别器，作用于相邻时间步图片的差分结果，(I_t-I_t+1)表示真实人脸图片相邻时间步的差分结果，/>表示合成人脸图片相邻时间步的差分结果，通过D₂得到判别向量特征，经过归一化和对数化就得到平均损失，将真实视频平均损失与合成视频平均损失相减得到损失函数。

进一步的，唇语同步判别器通过多层前馈分类网络实现唇语阅读的功能，为了避免模型过拟合，对多层前馈网络进行改进，具体为：对于当前隐层的每个神经元，以等步长的间隔将其与前一隐层的神经元建立连接，即当前隐层的第j个神经元为前一隐层的第/>个神经元的加权和，并经过relu函数激活，同时共享每个后层神经元的权重向量，这样两层之间至多只有k+1个权重参数需要学习；使用改进后的多层前馈网络提取人脸图像中口型部分的特征向量，通过各层之间的向量变换，将其转化为s维的概率向量，也就是对应的文字字符的分布概率，将合成图像中的口型标签的概率分布与真实的口型标签进行对比，从而计算口型重建的误差，唇语同步判别器的损失函数为：

其中，I_lip表示真实人脸图片中只包含口型的嘴部区域的一小块图片，表示合成人脸图片中只包含口型的嘴部区域的一小块图片，y是真实的字符标签。

进一步的，眼神适配判别器的损失函数为：

其中，Euc表示两个向量的欧式距离，I_eye表示从真实人像图片中截取的眼部局部轮廓图像，/>表示从合成人像图片中截取的眼部局部轮廓图像。

进一步的，姿态适配判别器的损失函数为：

其中，Euc表示两个向量的欧式距离，I_hp表示从真实人像图片中截取的头部局部轮廓图像，/>表示从合成人像图片中截取的头部局部轮廓图像。

进一步的，音频编码网络、图片编码网络为规模递减的卷积和池化网络，音频编码网络、图片编码网络分别对音频、图像信息进行压缩、过滤和标准化，将其转化为编码后的高阶张量。

本发明的有益效果：本发明直接将待合成的人像和音频流整体进行编码，使用保留原始人脸信息的循环解码器网络，将变换后的抽象特征解码为图像序列，然后使用五个判别器网络根据真实图像序列对合成的图像序列进行对抗训练，使得总的重建误差达到最小。与已有的视频合成方法相比，本发明主要有三个方面的改进和优点：首先，对于每一时间步，本发明除了输入对应的音频片段和前一时间步的中间特征，还在每一帧的合成过程中保留了原始的人物身份信息，这使得各帧合成图片的变化具有一定的连续性，避免了人脸漂移问题；其次，本发明增加了唇语同步的判别器，有了这个判别器，合成视频中人物的口型与说话的内容就能实现同步效果；最后，本发明还增加了眼神和姿态适配的判别网络，使用该网络监督训练的模型可以使得合成视频中人物的眼神、头部的姿态与说话的内容形成良好的对应关系，使合成视频更具真实性。

附图说明

图1为本发明提出的视频合成模型的主要模块架构和数据流图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

实施例1

本实施例公开一种基于唇语同步和神态适配效果增强的视频合成方法，如图1所示，示出了本发明的视频合成模型的主要结构和数据流动过程，本发明中的模型主要由三个部分或过程构成：输入部分、编码-解码部分、对抗训练部分。在完成训练、提供服务的时候只需要使用前两个部分即可。

输入部分的第一个组件是python三方库中的librosa程序包，该程序包将原始的音频文件处理成与帧对应的特征片段序列。该特征与原始的人像图片是整个模型最初的输入内容，将人脸图像作为基本元素，在每一帧的循环合成过程中输入同一幅基准图像。在训练时以批量形式输入，在使用时只输入单一样本。

输入的原始图片和MFCC特征在进行编码之前需要进行异常数据的过滤，目的是使得模型中的特征具有较高的质量，同时降低内存占用率，降低对硬件条件的依赖程度。主要使用帧间差分技术进行剔除。

输入的内容除了原始的人像特征、MFCC特征，还包括前一时间步的隐层状态张量，这是为了使本时间步的综合特征包含前后时间步的信息。具体地说，前一时间帧的人像特征和MFCC特征在经过卷积网络编码时，会分别被编码为V_t-1和H_t-1两个三阶张量，这两个三阶张量作为暂存的中间状态会和本时间帧的特征V_t-1和H_t-1以一定的权重加和后一起被输入到图1中的非线性变换网络中。在根据音频和前一时间步的特征V、H合成本时间步的图像时，视频有可能发生变形，为了防止图像合成出现漂移现象，我们增加原始的人脸身份特征I，将其同步作为输入特征，来得到下一时间步的合成结果。

输入部分还包括一个预训练的视频合成模型，该模型基于已有的模型和开放的数据训练得到，主要是用于对本发明中的非线性变换网络进行参数初始化，以提高本模型的收敛速度和精度。

解码-编码部分主要有三步操作。第一步，将输入的MFCC特征和photo特征传递到规模递减的卷积和池化网络当中，通过该卷积编码网络对音频和图像信息的压缩、过滤和标准化，将其转化为编码后的高阶张量。这里的卷积网络直接不加改进地使用经典的2维卷积网络，卷积核的数目设置为128，卷积核地尺寸由128到64再到32逐层递减，最终使特征转化为具有[batch，length，dimension]形状的三阶张量。

编码时，将合成的特征张量存储到中间变量中，使其不发生变化，作为每一个时间步上，人像身份特征的一个引导合成张量，这样就可以保证在经过充分长的时间步之后，原始的人像信息依旧是完整的。

第二步是对该张量进行LSTM网络的非线性变换，将前一时间步得到的中间状态和音频特征、人像特征一起输入到非线性变换的网络当中，使用Attention网络对各个时间步进行加权，然后经过3维的卷积池化层，将三种特征融合为三阶的整体特征张量。编码使各个时间步的特征张量中包含该步之前和该步之后的音频信息。变换后的特征张量与变换前的特征张量具有相同的形状。

第三步是对LSTM变换后的特征张量进行解码，该解码器使用反卷积网络，完成解码之后，抽象的特征就被转化为对应的人像图片。将解码后的人像图片序列按照与音频对应的帧数/时间比率连接起来，并融合音频文件，就形成了最终合成的虚拟说话视频。

于此同时，编码后的三阶整体特征张量作为新的中间状态传递给下一时间步。

对抗训练部分的基本网络结构是GAN网络，GAN网络由两部分构成：合成器网络和判别器网络。合成器网络也就是前一部分中的解码器，实现虚拟样本的合成功能。为了提升视频合成效果的真实性和稳定性，本发明设计了五种判别器，将五种判别器组合起来，形成最终的判别器网络。

五个判别其分别是人脸真实性判别器、视频真实性判别器、唇语同步判别器、眼神适配判别器和姿态适配判别器，五个判别器分别对最终合成虚拟说话视频的人脸真实性、视频真实性、唇语同步性、眼神适配性、姿态适配性进行监督，同时设计好对应的损失函数，将五种损失按照一定的权重加和得到总损失，以总损失最小化为原则，使用反向传播算法对网络进行训练。

人脸真实性判别器是是一个图片分类网络，根据将此网络合成的图片与目标图片进行比对分类，得到分类损失。对应的损失函数设置为：

假设解码器合成的图片具有二分类的概率分布/>根据该分布，按照公式(1)的计算方式计算代表图片真实性误差的损失函数L₁，给该损失函数赋予权值α₁，计算L₁关于网络参数的偏导数，作为反向传播公式的一部分修正因子。

视频真实性判别器与人脸真实性判别的整体形式是一样的，不过原始输入不再是图片，而是相邻时间步图片的差分结果该特征表征了相邻两帧之间图像变化的真实性水平。按照公式(2)计算出视频真实可信度的损失L₂，给该损失函数赋予权值α₂，计算该损失关于判别D₂网络中参数的偏导数，也作为反向传播公式的一部分修正因子。

本实施例中，视频真实性判别器用来判别视频各帧是否连续，视频真实性的标签是相邻两帧图片之间的像素差，对应的损失函数为：

唇语同步判别器通过多层前馈分类网络实现唇语阅读的功能。典型的前馈网络为全连接网络，即当前隐层的每一神经元都与下一隐层的每一神经元通过一个权重参数相连接，如果前后两层的维度分别为m和n，则参数数量为m*n。过多的参数量会增加模型训练的难度，同时可能造成模型过拟合，降低泛化性能。

为了解决这个问题，对多层前馈网络进行改进，具体为：对于当前隐层的每个神经元，以等步长的间隔将其与前一隐层的神经元建立连接，即当前隐层的第j个神经元为前一隐层的第/>个神经元的加权和，并经过relu函数激活，同时共享每个后层神经元的权重向量，这样两层之间至多只有k+1个权重参数需要学习，大大降低了训练的难度。此处改进的思想与卷积神经网络类似，但本改进与卷积网络有一个重要区别：卷积网络的卷积核，也就是权重参数是连续k个位置的取值，类似一种滑窗技术，而在本专利中，权重参数是间隔选取的。卷积网络虽然同样减少了权重参数，但也造成把感受野限制在局部神经元的问题。与卷积网络相比，本专利中选取权重参数的方法使神经元的感受野扩大到全局。

使用改进后的多层前馈网络提取人脸图像中口型部分的特征向量，通过各层之间的向量变换，将其转化为s维(假设文字字符总数为s)的概率向量，也就是对应的文字字符的分布概率，将合成图像中的口型标签的概率分布与真实的口型标签进行对比，从而计算口型重建的误差。

唇语同步判别器的损失函数为：

其中，I_lip表示真实人脸图片中只包含口型的嘴部区域的一小块图片，表示合成人脸图片中只包含口型的嘴部区域的一小块图片，y是真实的字符标签。将该误差作为损失函数，就得到了监督口型和词汇是否同步的判别器。

唇语同步判别器与传统二分类判别器不同，这是一个多分类的判别器。解码器对压缩特征进行解码得到合成的图片序列片段截取固定位置的嘴部图片唇语识别网络D₃将其转化为对应的可信字符分布概率。根据公式(3)计算其损失L₃，然后乘上权重因子α₃，同时求出L₃关于W₃参数矩阵和B₃偏置向量的偏导数。

眼神和姿态适配判别器的构建思想与唇语同步判别器类似，不同的是特征张量的标签不是某个离散的字符，而是由几个特征点的取值构成的特征向量。由于标签是不是离散的，损失函数的形式与前三个不同，表示如下，眼神适配判别器的损失函数为：

其中，Euc表示两个向量的欧式距离，I_eye表示从真实人像图片中截取的眼部局部轮廓图像，表示从合成人像图片中截取的眼部局部轮廓图像。

姿态适配判别器的损失函数为：

其中，Euc表示两个向量的欧式距离，I_hp表示从真实人像图片中截取的头部局部轮廓图像，表示从合成人像图片中截取的头部局部轮廓图像。

眼神和姿态适配判别器使用卷积网络和欧式距离进行度量，得到稠密特征的损失。对于从真实人像图片中截取的反映眼神和头部姿态的I_eye和I_hp局部图像，使用卷积对其进行特征压缩和提取，获得向量表示V_eye/hp＝D_4/5(I_eye/hp)，然后根据公式(4)，以真实特征向量与合成特征向量之间的平均欧式距离作为头部姿态和眼神重建的损失L₄和L₅。

将以上五种损失函数加权求和，得到总的损失函数，计算出该损失关于网络权重参数的偏导数，使用随机梯度下降法对图片编码网络、音频编码网络、非线性变换网络、视频合成预训练模型、解码网络进行二次训练，直至损失不再下降为止。将训练完成的模型存储起来，在使用的时候直接在新建的会话中加载模型的参数，对输入的人像和音频流进行编码和解码，然后将图片序列视频化，再融合原始的音频流，最终就得到了合成的虚拟音视频。

本发明的应用场景包括但不限于虚拟主播、唇语合成、虚拟机器人、线上视频合成服务、动画制作、视频压缩以及应用此技术的其他人工智能产品。本发明的细则中详细说明了在相关产品中如何应用基于唇语同步和神态适配的视频合成技术获取高质量、高真实感的虚拟合成视频。细则中的结构图以及数据流图，仅用于阐述本发明的原理、结构和过程，相关领域技术人员在参考本发明时，应考虑到与本发明具有类似机制和结构的其他方案。本发明中所展示的案例仅为表现本发明的优点，并不用以限制本发明，凡是与本发明具有类似结构的实现方案，均应包含在本发明的保护范围之内。

Claims

1.一种基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：包括以下步骤：

S02)、使用视频合成预训练模型对非线性变换网络的参数进行初始化，在视频合成预训练模型的基础上，使用新的训练数据和损失函数进行二次训练；

2.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：人脸真实性判别器是一个图片分类网络，将此网络合成的图片与目标图片进行比对分类，得到分类损失，对应的损失函数为：

3.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：视频真实性判别器用来判别视频各帧是否连续，视频真实性的标签是相邻两帧图片之间的像素差，对应的损失函数为：

4.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：唇语同步判别器通过多层前馈分类网络实现唇语阅读的功能，为了避免模型过拟合，对多层前馈网络进行改进，具体为：对于当前隐层的每个神经元，以等步长的间隔将其与前一隐层的神经元建立连接，即当前隐层的第j个神经元为前一隐层的第/>个神经元的加权和，并经过relu函数激活，同时共享每个后层神经元的权重向量，这样两层之间至多只有k+1个权重参数需要学习；使用改进后的多层前馈网络提取人脸图像中口型部分的特征向量，通过各层之间的向量变换，将其转化为s维的概率向量，也就是对应的文字字符的分布概率，将合成图像中的口型标签的概率分布与真实的口型标签进行对比，从而计算口型重建的误差，唇语同步判别器的损失函数为：

5.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：眼神适配判别器的损失函数为：

6.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：姿态适配判别器的损失函数为：

7.根据权利要求1所述的基于唇语同步和神态适配效果增强的视频合成方法，其特征在于：音频编码网络、图片编码网络为规模递减的卷积和池化网络，音频编码网络、图片编码网络分别对音频、图像信息进行压缩、过滤和标准化，将其转化为编码后的高阶张量。