CN113378697B

CN113378697B - 一种基于卷积神经网络的说话人脸视频生成方法及装置

Info

Publication number: CN113378697B
Application number: CN202110637611.7A
Authority: CN
Inventors: 李腾; 刘晨然; 王妍
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-12-09
Anticipated expiration: 2041-06-08
Also published as: CN113378697A

Abstract

本发明公开了一种基于卷积神经网络的说话人脸视频生成方法及装置，所述方法包括：构建数据集；设计唇音同步判别器；利用数据集训练唇音同步判别器，得到训练好的唇音同步判别器；构建说话人脸生成网络；利用数据集训练说话人脸生成网络，得到训练好的说话人脸生成网络；将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频；本发明的优点在于：能够生成清晰度较高且唇部运动与语音同步的真实性较高的说话人脸视频。

Description

一种基于卷积神经网络的说话人脸视频生成方法及装置

技术领域

本发明涉及语音驱动说话人脸视频生成领域，更具体涉及一种基于卷积神经网络的说话人脸视频生成方法及装置。

背景技术

语音驱动的说话人脸生成旨在给定任意一段语音，生成与语音内容对应的人脸说话视频。近年来，语音驱动说话人脸视频生成技术是深度学习领域的热门研究话题，并以广泛的应用于动画角色合成，虚拟交互，电影配音等领域中。

语音驱动的人脸生成是多模态生成任务，实现音频听觉信息与视觉信息间的映射。现有的方法在低分辨率图像取得好效果，但在高分辨率图像中生成的人脸图片清晰度低，尤其是牙齿区域会出现模糊问题，这些图像使人感到不真实。人类对视频中唇部运动和音频的同步具有较低的容忍度。因此，生成的说话视频与语音同步也是一个关键挑战。现有方法仅使用人脸重建损失或较弱的口型同步判别器来判断视频中唇部运动与语音同步程度高低，生成的说话视频真实度低，与语音不同步，给人不够真实的感觉。

中国专利申请号CN202010387250.0，公开了一种语音驱动的三维人脸动画生成方法，包括以下步骤：1)提取语音特征，并将该语音的身份信息嵌入到特征矩阵中；2)通过编码器将特征矩阵映射到低维空间，得到中间变量；3)利用解码器将中间变量映射到3D顶点位移的高维空间，对中间变量进行3D图形几何的约束，得到3D空间的位移量；4)根据获取的3D空间的位移量驱动模板模拟面部动画。与现有技术相比，该专利申请创新性地利用了3D几何图形特性来约束中间变量，通过引入非线性几何图形表示法和来自不同视角的两个约束条件，使得生成的3D面部表情更加生动形象。但是该专利申请对于生成的人脸图片清晰度以及唇部运动与语音同步控制均没有进行深入研究，不能生成清晰度高，唇部运动与语音同步的说话人脸视频，导致生成的说话人脸视频真实度低。

发明内容

本发明所要解决的技术问题在于现有技术语音驱动说话人脸视频生成方法不能生成清晰度高，唇部运动与语音同步的说话人脸视频，导致生成的说话人脸视频真实度低。

本发明通过以下技术手段实现解决上述技术问题的：一种基于卷积神经网络的说话人脸视频生成方法，所述方法包括：

步骤一：构建数据集；

步骤二：设计唇音同步判别器；

步骤三：利用数据集训练唇音同步判别器，得到训练好的唇音同步判别器；

步骤四：构建说话人脸生成网络，所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器，输入语音到语音编码器以及唇音同步判别器，输入人脸图片到超分辨模块以及人脸视觉判别器，超分辨模块对人脸进行重建，超分辨模块的输出与人脸编码器连接，语音编码器以及人脸编码器均与人脸解码器连接，人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接；

步骤五：利用数据集训练说话人脸生成网络，得到训练好的说话人脸生成网络；

步骤六：将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。

本发明设计唇音同步判别器并训练唇音同步判别器，利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络，并训练说话人脸生成网络，将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频，唇音同步判别器实现唇部运动与语音同步，超分辨模块对人脸进行重建，解决高清视频中人脸模糊的问题，最终生成的说话人脸视频真实度较高。

进一步地，所述步骤一包括：使用MTCNN模型识别高清新闻主播视频中人脸关键点，计算视频中人脸关键点和目标人物的人脸关键点相似度，记下人脸相似度超过预设值的视频帧，使用FFMPEG软件根据视频帧从视频中截取视频段，使用DLIB模型识别截取的视频段中的人脸关键点，将人脸区域和嘴部区域分别保存为序列图片，使用FFMPEG提取出视频段中的音频。

更进一步地，所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块，人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取，将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后，得到特征权重与中间特征相乘，再输入到第一卷积网络后面的卷积层中进行下采样，采样为第一一维人脸特征向量；人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取，得到第一一维语音特征向量。

更进一步地，所述步骤三包括：将唇音同步判别器送入Adam优化器进行参数优化，对唇音同步判别器进行训练，每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算，取得的余弦相似度值与目标值计算二分类交叉熵，达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练，得到训练好的唇音同步判别器。

更进一步地，所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层，所述第一卷积层的卷积核大小7×7，卷积核个数32；第二卷积层的卷积核大小5×5，卷积核个数64；第三卷积层的卷积核大小3×3，卷积核个数128；第四卷积层的卷积核大小3×3，卷积核个数256；第五卷积层的卷积核大小3×3，卷积核个数512；第六卷积层的卷积核大小1×1，卷积核个数512；空间注意力模块有两层，第一层是卷积层，第二层为softmax激活层，空间注意力模块的卷积层的卷积核大小为1×1，卷积核个数2；通道注意力模块有三层，第一层是平均池化层，第二层是卷积层和第三层是softmax激活层，通道注意力模块的卷积层的卷积核大小1×1，卷积核个数1；第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接，通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接；第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层，第七卷积层至第十一卷积层的卷积核大小均为3×3，第十二卷积层的卷积核大小均为1×1，第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。

进一步地，所述步骤四包括：语音编码器的输入是对语音经过预处理后的语音梅尔频谱图，语音编码器对语音梅尔频谱图进行特征提取，输出第二一维语音特征向量；人脸图片先通过超分辨模块，进行脸部重建，再输入进人脸编码器进行下采样，得到与第二一维语音特征向量形状相同的第二一维人脸特征向量，人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量，人脸解码器进行上采样得到与语音对应的新的人脸图片，人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片，其由若干个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活层组成，人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性；将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中，判断唇形和语音是否同步。

更进一步地，所述步骤五包括：将说话人脸生成网络输入到Adam优化器进行参数优化，对说话人脸生成网络进行训练，每次迭代过程中计算总损失函数值，总损失函数收敛时停止训练得到训练好的说话人脸生成网络。

更进一步地，所述总损失函数的计算过程为：

通过公式

获取图像重建损失，其中，L_g表示人脸解码器生成的新的人脸图片，L_G表示原始输入的人脸图片，N表示输入到人脸生成网络的图片的总帧数，i表示第i帧图片；||||₁表示1范数；

通过公式

获取唇音同步损失，F_i表示第i帧图片的嘴部与语音同步概率且

k表示生成的新的人脸图片的嘴部区域对应的特征向量，a表示原始输入的语音梅尔频谱图，γ表示预设常数且γ＝1e-12；||||₂表示2范数；

通过公式

获取人脸视觉质量损失，其中，D(x)表示人脸视觉判别器的输出结果，

表示log(1-D(x))的数学期望；

通过总损失函数公式L_total＝(1-s_w-s_g)·L_recon+s_w·E_sync+S_g·L_gen获取总损失函数值，其中，s_w和s_g均为预设的常数。

本发明还提供一种基于卷积神经网络的说话人脸视频生成装置，所述装置包括：

数据集构建模块，用于构建数据集；

唇音同步模块，用于设计唇音同步判别器；

第一训练模块，用于利用数据集训练唇音同步判别器，得到训练好的唇音同步判别器；

说话人脸生成网络构建模块，用于构建说话人脸生成网络，所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器，输入语音到语音编码器以及唇音同步判别器，输入人脸图片到超分辨模块以及人脸视觉判别器，超分辨模块对人脸进行重建，超分辨模块的输出与人脸编码器连接，语音编码器以及人脸编码器均与人脸解码器连接，人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接；

第二训练模块，用于利用数据集训练说话人脸生成网络，得到训练好的说话人脸生成网络；

网络运行模块，用于将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。

进一步地，所述数据集构建模块还用于：使用MTCNN模型识别高清新闻主播视频中人脸关键点，计算视频中人脸关键点和目标人物的人脸关键点相似度，记下人脸相似度超过预设值的视频帧，使用FFMPEG软件根据视频帧从视频中截取视频段，使用DLIB模型识别截取的视频段中的人脸关键点，将人脸区域和嘴部区域分别保存为序列图片，使用FFMPEG提取出视频段中的音频。

更进一步地，所述唇音同步模块中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块，人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取，将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后，得到特征权重与中间特征相乘，再输入到第一卷积网络后面的卷积层中进行下采样，采样为第一一维人脸特征向量；人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取，得到第一一维语音特征向量。

更进一步地，所述第一训练模块还用于：将唇音同步判别器送入Adam优化器进行参数优化，对唇音同步判别器进行训练，每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算，取得的余弦相似度值与目标值计算二分类交叉熵，达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练，得到训练好的唇音同步判别器。

进一步地，所述说话人脸生成网络构建模块还用于：语音编码器的输入是对语音经过预处理后的语音梅尔频谱图，语音编码器对语音梅尔频谱图进行特征提取，输出第二一维语音特征向量；人脸图片先通过超分辨模块，进行脸部重建，再输入进人脸编码器进行下采样，得到与第二一维语音特征向量形状相同的第二一维人脸特征向量，人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量，人脸解码器进行上采样得到与语音对应的新的人脸图片，人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片，其由若干个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活层组成，人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性；将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中，判断唇形和语音是否同步。

更进一步地，所述第二训练模块还用于：将说话人脸生成网络输入到Adam优化器进行参数优化，对说话人脸生成网络进行训练，每次迭代过程中计算总损失函数值，总损失函数收敛时停止训练得到训练好的说话人脸生成网络。

更进一步地，所述总损失函数的计算过程为：

通过公式

通过公式

通过公式

表示log(1-D(x))的数学期望；

本发明的优点在于：本发明设计唇音同步判别器并训练唇音同步判别器，利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络，并训练说话人脸生成网络，将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频，唇音同步判别器实现唇部运动与语音同步，超分辨模块对人脸进行重建，解决高清视频中人脸模糊的问题，最终生成的说话人脸视频真实度较高。

附图说明

图1为本发明实施例所公开的一种基于卷积神经网络的说话人脸视频生成方法的流程图；

图2为本发明实施例所公开的一种基于卷积神经网络的说话人脸视频生成方法中唇音同步判别器的架构图；

图3为本发明实施例所公开的一种基于卷积神经网络的说话人脸视频生成方法中说话人脸生成网络的架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于卷积神经网络的说话人脸视频生成方法，所述方法包括：

S1：构建数据集；具体过程为：收集了约200小时的原始视频数据，视频的每秒传输帧数是25fps。使用MTCNN模型识别高清新闻主播视频中人脸关键点，获得48个关键点坐标，然后与目标人物的人脸关键点一起计算相似度大小，设置的相似度阈值是0.8，当计算结果大于0.8时，则认为视频中的人和目标人物是同一个人，记下人脸相似度高的视频帧在原视频中的位置，使用FFMPEG软件根据记下的目标人物视频帧位置从原始视频中截取目标主播视频段。使用DLIB模型识别截取的视频段中的人脸区域位置，使用FFMPEG从视频中将人脸区域和嘴部区域分别保存为序列图片，提取出视频段中的音频作为同一目录下的数据对。人脸图片尺寸为200×200，嘴部图片大小为96×144，音频采样频率为16000kHz。处理后的数据一共有1000多个图片和音频数据对文件。

S2：设计唇音同步判别器；具体的：所述唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块，人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取，将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后，得到特征权重与中间特征相乘，再输入到第一卷积网络后面的卷积层中进行下采样，采样为第一一维人脸特征向量；人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取，得到第一一维语音特征向量。

如图2所示，图2中左侧六个卷积层为第一卷积网络的第一卷积层至第六卷积层，图2中右侧的六个卷积层为第二卷积网络的第七卷积层至第十二卷积层，所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层，所述第一卷积层的卷积核大小7×7，卷积核个数32；第二卷积层的卷积核大小5×5，卷积核个数64；第三卷积层的卷积核大小3×3，卷积核个数128；第四卷积层的卷积核大小3×3，卷积核个数256；第五卷积层的卷积核大小3×3，卷积核个数512；第六卷积层的卷积核大小1×1，卷积核个数512；空间注意力模块有两层，第一层是卷积层，第二层为softmax激活层，空间注意力模块的卷积层的卷积核大小为1×1，卷积核个数2；通道注意力模块有三层，第一层是平均池化层，第二层是卷积层和第三层是softmax激活层，通道注意力模块的卷积层的卷积核大小1×1，卷积核个数1；第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接，通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接；第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层，第七卷积层至第十一卷积层的卷积核大小均为3×3，第十二卷积层的卷积核大小均为1×1，第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。

S3：利用数据集训练唇音同步判别器，得到训练好的唇音同步判别器；训练过程为：将唇音同步判别器送入Adam优化器进行参数优化，对唇音同步判别器进行训练，每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算，取得的余弦相似度值与目标值计算二分类交叉熵，达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练，得到训练好的唇音同步判别器。其中，余弦相似度计算以及二分类交叉熵计算均为现有技术，在此不做赘述。

S4：构建说话人脸生成网络，所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器，输入语音到语音编码器以及唇音同步判别器，输入人脸图片到超分辨模块以及人脸视觉判别器，超分辨模块对人脸进行重建，超分辨模块的输出与人脸编码器连接，语音编码器以及人脸编码器均与人脸解码器连接，人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接。超分辨模块采用现有SRCNN网络架构，具体参考知乎软件中公开在人工智能与深度学习研究社的文献《深度学习图像超分辨率开山之作SRCNN(一)原理分析》。语音编码器、人脸编码器、人脸解码器均是包括多个级联的卷积层的网络架构，卷积核大小可以根据实际需要设计，采用基于U-net的思想的现有技术编码解码架构即可，在此不做赘述。

如图3所示，语音编码器的输入是对语音经过预处理后的语音梅尔频谱图，语音编码器对语音梅尔频谱图进行特征提取，输出第二一维语音特征向量；人脸图片先通过超分辨模块，进行脸部重建，再输入进人脸编码器进行下采样，得到与第二一维语音特征向量形状相同的第二一维人脸特征向量，人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量，人脸解码器进行上采样得到与语音对应的新的人脸图片，人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片，其由若干个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活层组成，人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性；将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中，判断唇形和语音是否同步。

S5：利用数据集训练说话人脸生成网络，得到训练好的说话人脸生成网络；训练过程为：将说话人脸生成网络输入到Adam优化器进行参数优化，对说话人脸生成网络进行训练，每次迭代过程中计算总损失函数值，总损失函数收敛时停止训练得到训练好的说话人脸生成网络。其中，所述总损失函数的计算过程为：

通过公式

通过公式

通过公式

表示log(1-D(x))的数学期望；

需要说明的是在训练人脸视觉判别器时，利用公式

计算人脸视觉判别器的损失，人脸视觉判别器的训练同样采用Adam优化器进行参数优化，在人脸视觉判别器的损失收敛的时候停止训练，

表示log(D(x))的数学期望。

通过总损失函数公式L_total＝(1-s_w-s_g)·L_recon+s_w·E_sync+s_g·L_gen获取总损失函数值，其中，s_w和s_g均为预设的常数，s_w设置为0.002，s_g设置为0.07。

S6：将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。首先输入一段人脸说话视频和目标语音进行数据预处理，使用MTCNN模型识别出输入视频的人脸区域，将目标语音处理为梅尔频谱特征图，再输入进S5步骤中训练好的说话人脸生成网络模型，经过模型推理，生成自然，清晰度高，与语音同步的人脸说话视频。此外，本模型泛化能力强，可以对同一个目标人物合成说不同语音的视频，也可以对同一句语音合成不同的人说话的视频。

通过以上技术方案，本发明设计唇音同步判别器并训练唇音同步判别器，利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络，并训练说话人脸生成网络，将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频，唇音同步判别器实现唇部运动与语音同步，超分辨模块对人脸进行重建，解决高清视频中人脸模糊的问题，最终生成的说话人脸视频真实度较高。

实施例2

与本发明实施例1相对应的，本发明实施例2还提供一种基于卷积神经网络的说话人脸视频生成装置，所述装置包括：

数据集构建模块，用于构建数据集；

唇音同步模块，用于设计唇音同步判别器；

具体的，所述数据集构建模块还用于：使用MTCNN模型识别高清新闻主播视频中人脸关键点，计算视频中人脸关键点和目标人物的人脸关键点相似度，记下人脸相似度超过预设值的视频帧，使用FFMPEG软件根据视频帧从视频中截取视频段，使用DLIB模型识别截取的视频段中的人脸关键点，将人脸区域和嘴部区域分别保存为序列图片，使用FFMPEG提取出视频段中的音频。

更具体的，所述唇音同步模块中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块，人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取，将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后，得到特征权重与中间特征相乘，再输入到第一卷积网络后面的卷积层中进行下采样，采样为第一一维人脸特征向量；人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取，得到第一一维语音特征向量。

更具体的，所述第一训练模块还用于：将唇音同步判别器送入Adam优化器进行参数优化，对唇音同步判别器进行训练，每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算，取得的余弦相似度值与目标值计算二分类交叉熵，达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练，得到训练好的唇音同步判别器。

更具体的，所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层，所述第一卷积层的卷积核大小7×7，卷积核个数32；第二卷积层的卷积核大小5×5，卷积核个数64；第三卷积层的卷积核大小3×3，卷积核个数128；第四卷积层的卷积核大小3×3，卷积核个数256；第五卷积层的卷积核大小3×3，卷积核个数512；第六卷积层的卷积核大小1×1，卷积核个数512；空间注意力模块有两层，第一层是卷积层，第二层为softmax激活层，空间注意力模块的卷积层的卷积核大小为1×1，卷积核个数2；通道注意力模块有三层，第一层是平均池化层，第二层是卷积层和第三层是softmax激活层，通道注意力模块的卷积层的卷积核大小1×1，卷积核个数1；第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接，通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接；第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层，第七卷积层至第十一卷积层的卷积核大小均为3×3，第十二卷积层的卷积核大小均为1×1，第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。

具体的，所述说话人脸生成网络构建模块还用于：语音编码器的输入是对语音经过预处理后的语音梅尔频谱图，语音编码器对语音梅尔频谱图进行特征提取，输出第二一维语音特征向量；人脸图片先通过超分辨模块，进行脸部重建，再输入进人脸编码器进行下采样，得到与第二一维语音特征向量形状相同的第二一维人脸特征向量，人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量，人脸解码器进行上采样得到与语音对应的新的人脸图片，人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片，其由若干个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活层组成，人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性；将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中，判断唇形和语音是否同步。

更具体的，所述第二训练模块还用于：将说话人脸生成网络输入到Adam优化器进行参数优化，对说话人脸生成网络进行训练，每次迭代过程中计算总损失函数值，总损失函数收敛时停止训练得到训练好的说话人脸生成网络。

更具体的，所述总损失函数的计算过程为：

通过公式

通过公式

通过公式

表示log(1-D(x))的数学期望；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述方法包括：

步骤一：构建数据集；

步骤二：设计唇音同步判别器；

步骤四：构建说话人脸生成网络，所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器，输入语音到语音编码器以及唇音同步判别器，输入人脸图片到超分辨模块以及人脸视觉判别器，超分辨模块对人脸进行重建，超分辨模块的输出与人脸编码器连接，语音编码器以及人脸编码器均与人脸解码器连接，人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接；语音编码器的输入是对语音经过预处理后的语音梅尔频谱图，语音编码器对语音梅尔频谱图进行特征提取，输出第二一维语音特征向量；人脸图片先通过超分辨模块，进行脸部重建，再输入进人脸编码器进行下采样，得到与第二一维语音特征向量形状相同的第二一维人脸特征向量，人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量，人脸解码器进行上采样得到与语音对应的新的人脸图片，人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片，其由若干个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活层组成，人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性；将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中，判断唇形和语音是否同步；

2.根据权利要求1所述的一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述步骤一包括：使用MTCNN模型识别高清新闻主播视频中人脸关键点，计算视频中人脸关键点和目标人物的人脸关键点相似度，记下人脸相似度超过预设值的视频帧，使用FFMPEG软件根据视频帧从视频中截取视频段，使用DLIB模型识别截取的视频段中的人脸关键点，将人脸区域和嘴部区域分别保存为序列图片，使用FFMPEG提取出视频段中的音频。

3.根据权利要求2所述的一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块，人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取，将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后，得到特征权重与中间特征相乘，再输入到第一卷积网络后面的卷积层中进行下采样，采样为第一一维人脸特征向量；人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取，得到第一一维语音特征向量。

4.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述步骤三包括：将唇音同步判别器送入Adam优化器进行参数优化，对唇音同步判别器进行训练，每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算，取得的余弦相似度值与目标值计算二分类交叉熵，达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练，得到训练好的唇音同步判别器。

5.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层，所述第一卷积层的卷积核大小7×7，卷积核个数32；第二卷积层的卷积核大小5×5，卷积核个数64；第三卷积层的卷积核大小3×3，卷积核个数128；第四卷积层的卷积核大小3×3，卷积核个数256；第五卷积层的卷积核大小3×3，卷积核个数512；第六卷积层的卷积核大小1×1，卷积核个数512；空间注意力模块有两层，第一层是卷积层，第二层为softmax激活层，空间注意力模块的卷积层的卷积核大小为1×1，卷积核个数2；通道注意力模块有三层，第一层是平均池化层，第二层是卷积层和第三层是softmax激活层，通道注意力模块的卷积层的卷积核大小1×1，卷积核个数1；第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接，通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接；第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层，第七卷积层至第十一卷积层的卷积核大小均为3×3，第十二卷积层的卷积核大小均为1×1，第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。

6.根据权利要求1所述的一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述步骤五包括：将说话人脸生成网络输入到Adam优化器进行参数优化，对说话人脸生成网络进行训练，每次迭代过程中计算总损失函数值，总损失函数收敛时停止训练得到训练好的说话人脸生成网络。

7.根据权利要求6所述的一种基于卷积神经网络的说话人脸视频生成方法，其特征在于，所述总损失函数的计算过程为：

通过公式

获取图像重建损失，其中，L_g表示人脸解码器生成的新的人脸图片，L_G表示原始输入的人脸图片，N表示输入到人脸生成网络的图片的总帧数，i表示第i帧图片；|| ||₁表示1范数；

通过公式

k表示生成的新的人脸图片的嘴部区域对应的特征向量，a表示原始输入的语音梅尔频谱图，γ表示预设常数且γ＝1e-12；|| ||₂表示2范数；

通过公式

表示log(1-D(x))的数学期望；

8.一种基于卷积神经网络的说话人脸视频生成装置，其特征在于，所述装置包括：

数据集构建模块，用于构建数据集；

唇音同步模块，用于设计唇音同步判别器；

说话人脸生成网络构建模块，用于构建说话人脸生成网络，所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器，输入语音到语音编码器以及唇音同步判别器，输入人脸图片到超分辨模块以及人脸视觉判别器，超分辨模块对人脸进行重建，超分辨模块的输出与人脸编码器连接，语音编码器以及人脸编码器均与人脸解码器连接，人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接；语音编码器的输入是对语音经过预处理后的语音梅尔频谱图，语音编码器对语音梅尔频谱图进行特征提取，输出第二一维语音特征向量；人脸图片先通过超分辨模块，进行脸部重建，再输入进人脸编码器进行下采样，得到与第二一维语音特征向量形状相同的第二一维人脸特征向量，人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量，人脸解码器进行上采样得到与语音对应的新的人脸图片，人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片，其由若干个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活层组成，人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性；将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中，判断唇形和语音是否同步；

9.根据权利要求8所述的一种基于卷积神经网络的说话人脸视频生成装置，其特征在于，所述数据集构建模块还用于：使用MTCNN模型识别高清新闻主播视频中人脸关键点，计算视频中人脸关键点和目标人物的人脸关键点相似度，记下人脸相似度超过预设值的视频帧，使用FFMPEG软件根据视频帧从视频中截取视频段，使用DLIB模型识别截取的视频段中的人脸关键点，将人脸区域和嘴部区域分别保存为序列图片，使用FFMPEG提取出视频段中的音频。