CN113378697B - 一种基于卷积神经网络的说话人脸视频生成方法及装置 - Google Patents

一种基于卷积神经网络的说话人脸视频生成方法及装置 Download PDF

Info

Publication number
CN113378697B
CN113378697B CN202110637611.7A CN202110637611A CN113378697B CN 113378697 B CN113378697 B CN 113378697B CN 202110637611 A CN202110637611 A CN 202110637611A CN 113378697 B CN113378697 B CN 113378697B
Authority
CN
China
Prior art keywords
face
voice
convolution
discriminator
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110637611.7A
Other languages
English (en)
Other versions
CN113378697A (zh
Inventor
李腾
刘晨然
王妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110637611.7A priority Critical patent/CN113378697B/zh
Publication of CN113378697A publication Critical patent/CN113378697A/zh
Application granted granted Critical
Publication of CN113378697B publication Critical patent/CN113378697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

本发明公开了一种基于卷积神经网络的说话人脸视频生成方法及装置,所述方法包括:构建数据集;设计唇音同步判别器;利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;构建说话人脸生成网络;利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频;本发明的优点在于:能够生成清晰度较高且唇部运动与语音同步的真实性较高的说话人脸视频。

Description

一种基于卷积神经网络的说话人脸视频生成方法及装置
技术领域
本发明涉及语音驱动说话人脸视频生成领域,更具体涉及一种基于卷积神经网络的说话人脸视频生成方法及装置。
背景技术
语音驱动的说话人脸生成旨在给定任意一段语音,生成与语音内容对应的人脸说话视频。近年来,语音驱动说话人脸视频生成技术是深度学习领域的热门研究话题,并以广泛的应用于动画角色合成,虚拟交互,电影配音等领域中。
语音驱动的人脸生成是多模态生成任务,实现音频听觉信息与视觉信息间的映射。现有的方法在低分辨率图像取得好效果,但在高分辨率图像中生成的人脸图片清晰度低,尤其是牙齿区域会出现模糊问题,这些图像使人感到不真实。人类对视频中唇部运动和音频的同步具有较低的容忍度。因此,生成的说话视频与语音同步也是一个关键挑战。现有方法仅使用人脸重建损失或较弱的口型同步判别器来判断视频中唇部运动与语音同步程度高低,生成的说话视频真实度低,与语音不同步,给人不够真实的感觉。
中国专利申请号CN202010387250.0,公开了一种语音驱动的三维人脸动画生成方法,包括以下步骤:1)提取语音特征,并将该语音的身份信息嵌入到特征矩阵中;2)通过编码器将特征矩阵映射到低维空间,得到中间变量;3)利用解码器将中间变量映射到3D顶点位移的高维空间,对中间变量进行3D图形几何的约束,得到3D空间的位移量;4)根据获取的3D空间的位移量驱动模板模拟面部动画。与现有技术相比,该专利申请创新性地利用了3D几何图形特性来约束中间变量,通过引入非线性几何图形表示法和来自不同视角的两个约束条件,使得生成的3D面部表情更加生动形象。但是该专利申请对于生成的人脸图片清晰度以及唇部运动与语音同步控制均没有进行深入研究,不能生成清晰度高,唇部运动与语音同步的说话人脸视频,导致生成的说话人脸视频真实度低。
发明内容
本发明所要解决的技术问题在于现有技术语音驱动说话人脸视频生成方法不能生成清晰度高,唇部运动与语音同步的说话人脸视频,导致生成的说话人脸视频真实度低。
本发明通过以下技术手段实现解决上述技术问题的:一种基于卷积神经网络的说话人脸视频生成方法,所述方法包括:
步骤一:构建数据集;
步骤二:设计唇音同步判别器;
步骤三:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
步骤四:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;
步骤五:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
步骤六:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
本发明设计唇音同步判别器并训练唇音同步判别器,利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络,并训练说话人脸生成网络,将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频,唇音同步判别器实现唇部运动与语音同步,超分辨模块对人脸进行重建,解决高清视频中人脸模糊的问题,最终生成的说话人脸视频真实度较高。
进一步地,所述步骤一包括:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
更进一步地,所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
更进一步地,所述步骤三包括:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。
更进一步地,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7×7,卷积核个数32;第二卷积层的卷积核大小5×5,卷积核个数64;第三卷积层的卷积核大小3×3,卷积核个数128;第四卷积层的卷积核大小3×3,卷积核个数256;第五卷积层的卷积核大小3×3,卷积核个数512;第六卷积层的卷积核大小1×1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1×1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1×1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3×3,第十二卷积层的卷积核大小均为1×1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。
进一步地,所述步骤四包括:语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步。
更进一步地,所述步骤五包括:将说话人脸生成网络输入到Adam优化器进行参数优化,对说话人脸生成网络进行训练,每次迭代过程中计算总损失函数值,总损失函数收敛时停止训练得到训练好的说话人脸生成网络。
更进一步地,所述总损失函数的计算过程为:
通过公式
Figure BDA0003105805500000051
获取图像重建损失,其中,Lg表示人脸解码器生成的新的人脸图片,LG表示原始输入的人脸图片,N表示输入到人脸生成网络的图片的总帧数,i表示第i帧图片;||||1表示1范数;
通过公式
Figure BDA0003105805500000052
获取唇音同步损失,Fi表示第i帧图片的嘴部与语音同步概率且
Figure BDA0003105805500000053
k表示生成的新的人脸图片的嘴部区域对应的特征向量,a表示原始输入的语音梅尔频谱图,γ表示预设常数且γ=1e-12;||||2表示2范数;
通过公式
Figure BDA0003105805500000061
获取人脸视觉质量损失,其中,D(x)表示人脸视觉判别器的输出结果,
Figure BDA0003105805500000062
表示log(1-D(x))的数学期望;
通过总损失函数公式Ltotal=(1-sw-sg)·Lrecon+sw·Esync+Sg·Lgen获取总损失函数值,其中,sw和sg均为预设的常数。
本发明还提供一种基于卷积神经网络的说话人脸视频生成装置,所述装置包括:
数据集构建模块,用于构建数据集;
唇音同步模块,用于设计唇音同步判别器;
第一训练模块,用于利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
说话人脸生成网络构建模块,用于构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;
第二训练模块,用于利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
网络运行模块,用于将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
进一步地,所述数据集构建模块还用于:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
更进一步地,所述唇音同步模块中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
更进一步地,所述第一训练模块还用于:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。
更进一步地,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7×7,卷积核个数32;第二卷积层的卷积核大小5×5,卷积核个数64;第三卷积层的卷积核大小3×3,卷积核个数128;第四卷积层的卷积核大小3×3,卷积核个数256;第五卷积层的卷积核大小3×3,卷积核个数512;第六卷积层的卷积核大小1×1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1×1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1×1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3×3,第十二卷积层的卷积核大小均为1×1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。
进一步地,所述说话人脸生成网络构建模块还用于:语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步。
更进一步地,所述第二训练模块还用于:将说话人脸生成网络输入到Adam优化器进行参数优化,对说话人脸生成网络进行训练,每次迭代过程中计算总损失函数值,总损失函数收敛时停止训练得到训练好的说话人脸生成网络。
更进一步地,所述总损失函数的计算过程为:
通过公式
Figure BDA0003105805500000091
获取图像重建损失,其中,Lg表示人脸解码器生成的新的人脸图片,LG表示原始输入的人脸图片,N表示输入到人脸生成网络的图片的总帧数,i表示第i帧图片;||||1表示1范数;
通过公式
Figure BDA0003105805500000092
获取唇音同步损失,Fi表示第i帧图片的嘴部与语音同步概率且
Figure BDA0003105805500000093
k表示生成的新的人脸图片的嘴部区域对应的特征向量,a表示原始输入的语音梅尔频谱图,γ表示预设常数且γ=1e-12;||||2表示2范数;
通过公式
Figure BDA0003105805500000094
获取人脸视觉质量损失,其中,D(x)表示人脸视觉判别器的输出结果,
Figure BDA0003105805500000095
表示log(1-D(x))的数学期望;
通过总损失函数公式Ltotal=(1-sw-sg)·Lrecon+sw·Esync+sg·Lgen获取总损失函数值,其中,sw和sg均为预设的常数。
本发明的优点在于:本发明设计唇音同步判别器并训练唇音同步判别器,利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络,并训练说话人脸生成网络,将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频,唇音同步判别器实现唇部运动与语音同步,超分辨模块对人脸进行重建,解决高清视频中人脸模糊的问题,最终生成的说话人脸视频真实度较高。
附图说明
图1为本发明实施例所公开的一种基于卷积神经网络的说话人脸视频生成方法的流程图;
图2为本发明实施例所公开的一种基于卷积神经网络的说话人脸视频生成方法中唇音同步判别器的架构图;
图3为本发明实施例所公开的一种基于卷积神经网络的说话人脸视频生成方法中说话人脸生成网络的架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种基于卷积神经网络的说话人脸视频生成方法,所述方法包括:
S1:构建数据集;具体过程为:收集了约200小时的原始视频数据,视频的每秒传输帧数是25fps。使用MTCNN模型识别高清新闻主播视频中人脸关键点,获得48个关键点坐标,然后与目标人物的人脸关键点一起计算相似度大小,设置的相似度阈值是0.8,当计算结果大于0.8时,则认为视频中的人和目标人物是同一个人,记下人脸相似度高的视频帧在原视频中的位置,使用FFMPEG软件根据记下的目标人物视频帧位置从原始视频中截取目标主播视频段。使用DLIB模型识别截取的视频段中的人脸区域位置,使用FFMPEG从视频中将人脸区域和嘴部区域分别保存为序列图片,提取出视频段中的音频作为同一目录下的数据对。人脸图片尺寸为200×200,嘴部图片大小为96×144,音频采样频率为16000kHz。处理后的数据一共有1000多个图片和音频数据对文件。
S2:设计唇音同步判别器;具体的:所述唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
如图2所示,图2中左侧六个卷积层为第一卷积网络的第一卷积层至第六卷积层,图2中右侧的六个卷积层为第二卷积网络的第七卷积层至第十二卷积层,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7×7,卷积核个数32;第二卷积层的卷积核大小5×5,卷积核个数64;第三卷积层的卷积核大小3×3,卷积核个数128;第四卷积层的卷积核大小3×3,卷积核个数256;第五卷积层的卷积核大小3×3,卷积核个数512;第六卷积层的卷积核大小1×1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1×1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1×1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3×3,第十二卷积层的卷积核大小均为1×1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。
S3:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;训练过程为:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。其中,余弦相似度计算以及二分类交叉熵计算均为现有技术,在此不做赘述。
S4:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接。超分辨模块采用现有SRCNN网络架构,具体参考知乎软件中公开在人工智能与深度学习研究社的文献《深度学习图像超分辨率开山之作SRCNN(一)原理分析》。语音编码器、人脸编码器、人脸解码器均是包括多个级联的卷积层的网络架构,卷积核大小可以根据实际需要设计,采用基于U-net的思想的现有技术编码解码架构即可,在此不做赘述。
如图3所示,语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步。
S5:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;训练过程为:将说话人脸生成网络输入到Adam优化器进行参数优化,对说话人脸生成网络进行训练,每次迭代过程中计算总损失函数值,总损失函数收敛时停止训练得到训练好的说话人脸生成网络。其中,所述总损失函数的计算过程为:
通过公式
Figure BDA0003105805500000141
获取图像重建损失,其中,Lg表示人脸解码器生成的新的人脸图片,LG表示原始输入的人脸图片,N表示输入到人脸生成网络的图片的总帧数,i表示第i帧图片;||||1表示1范数;
通过公式
Figure BDA0003105805500000142
获取唇音同步损失,Fi表示第i帧图片的嘴部与语音同步概率且
Figure BDA0003105805500000143
k表示生成的新的人脸图片的嘴部区域对应的特征向量,a表示原始输入的语音梅尔频谱图,γ表示预设常数且γ=1e-12;||||2表示2范数;
通过公式
Figure BDA0003105805500000144
获取人脸视觉质量损失,其中,D(x)表示人脸视觉判别器的输出结果,
Figure BDA0003105805500000145
表示log(1-D(x))的数学期望;
需要说明的是在训练人脸视觉判别器时,利用公式
Figure BDA0003105805500000146
计算人脸视觉判别器的损失,人脸视觉判别器的训练同样采用Adam优化器进行参数优化,在人脸视觉判别器的损失收敛的时候停止训练,
Figure BDA0003105805500000147
表示log(D(x))的数学期望。
通过总损失函数公式Ltotal=(1-sw-sg)·Lrecon+sw·Esync+sg·Lgen获取总损失函数值,其中,sw和sg均为预设的常数,sw设置为0.002,sg设置为0.07。
S6:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。首先输入一段人脸说话视频和目标语音进行数据预处理,使用MTCNN模型识别出输入视频的人脸区域,将目标语音处理为梅尔频谱特征图,再输入进S5步骤中训练好的说话人脸生成网络模型,经过模型推理,生成自然,清晰度高,与语音同步的人脸说话视频。此外,本模型泛化能力强,可以对同一个目标人物合成说不同语音的视频,也可以对同一句语音合成不同的人说话的视频。
通过以上技术方案,本发明设计唇音同步判别器并训练唇音同步判别器,利用训练好的唇音同步判别器以及超分辨模块构建了说话人脸生成网络,并训练说话人脸生成网络,将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频,唇音同步判别器实现唇部运动与语音同步,超分辨模块对人脸进行重建,解决高清视频中人脸模糊的问题,最终生成的说话人脸视频真实度较高。
实施例2
与本发明实施例1相对应的,本发明实施例2还提供一种基于卷积神经网络的说话人脸视频生成装置,所述装置包括:
数据集构建模块,用于构建数据集;
唇音同步模块,用于设计唇音同步判别器;
第一训练模块,用于利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
说话人脸生成网络构建模块,用于构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;
第二训练模块,用于利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
网络运行模块,用于将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
具体的,所述数据集构建模块还用于:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
更具体的,所述唇音同步模块中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
更具体的,所述第一训练模块还用于:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。
更具体的,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7×7,卷积核个数32;第二卷积层的卷积核大小5×5,卷积核个数64;第三卷积层的卷积核大小3×3,卷积核个数128;第四卷积层的卷积核大小3×3,卷积核个数256;第五卷积层的卷积核大小3×3,卷积核个数512;第六卷积层的卷积核大小1×1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1×1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1×1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3×3,第十二卷积层的卷积核大小均为1×1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。
具体的,所述说话人脸生成网络构建模块还用于:语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步。
更具体的,所述第二训练模块还用于:将说话人脸生成网络输入到Adam优化器进行参数优化,对说话人脸生成网络进行训练,每次迭代过程中计算总损失函数值,总损失函数收敛时停止训练得到训练好的说话人脸生成网络。
更具体的,所述总损失函数的计算过程为:
通过公式
Figure BDA0003105805500000181
获取图像重建损失,其中,Lg表示人脸解码器生成的新的人脸图片,LG表示原始输入的人脸图片,N表示输入到人脸生成网络的图片的总帧数,i表示第i帧图片;||||1表示1范数;
通过公式
Figure BDA0003105805500000182
获取唇音同步损失,Fi表示第i帧图片的嘴部与语音同步概率且
Figure BDA0003105805500000183
k表示生成的新的人脸图片的嘴部区域对应的特征向量,a表示原始输入的语音梅尔频谱图,γ表示预设常数且γ=1e-12;||||2表示2范数;
通过公式
Figure BDA0003105805500000184
获取人脸视觉质量损失,其中,D(x)表示人脸视觉判别器的输出结果,
Figure BDA0003105805500000185
表示log(1-D(x))的数学期望;
通过总损失函数公式Ltotal=(1-sw-sg)·Lrecon+sw·Esync+sg·Lgen获取总损失函数值,其中,sw和sg均为预设的常数。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述方法包括:
步骤一:构建数据集;
步骤二:设计唇音同步判别器;
步骤三:利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
步骤四:构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步;
步骤五:利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
步骤六:将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
2.根据权利要求1所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤一包括:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
3.根据权利要求2所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤二中唇音同步判别器包括第一卷积网络、第二卷积网络、空间注意力模块以及通道注意力模块,人脸嘴巴区域的序列图片经过第一卷积网络进行特征提取,将第一卷积网络前面的卷积层输出的中间特征依次输入到空间注意力模块和通道注意力模块后,得到特征权重与中间特征相乘,再输入到第一卷积网络后面的卷积层中进行下采样,采样为第一一维人脸特征向量;人脸嘴巴区域的序列图片对应的语音经过第二卷积网络特征提取,得到第一一维语音特征向量。
4.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤三包括:将唇音同步判别器送入Adam优化器进行参数优化,对唇音同步判别器进行训练,每次迭代过程中将第一一维人脸特征向量和第一一维语音特征向量进行余弦相似度计算,取得的余弦相似度值与目标值计算二分类交叉熵,达到预设迭代次数或者二分类交叉熵值收敛的时候停止训练,得到训练好的唇音同步判别器。
5.根据权利要求3所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述第一卷积网络包括6个顺次连接的第一卷积层至第六卷积层,所述第一卷积层的卷积核大小7×7,卷积核个数32;第二卷积层的卷积核大小5×5,卷积核个数64;第三卷积层的卷积核大小3×3,卷积核个数128;第四卷积层的卷积核大小3×3,卷积核个数256;第五卷积层的卷积核大小3×3,卷积核个数512;第六卷积层的卷积核大小1×1,卷积核个数512;空间注意力模块有两层,第一层是卷积层,第二层为softmax激活层,空间注意力模块的卷积层的卷积核大小为1×1,卷积核个数2;通道注意力模块有三层,第一层是平均池化层,第二层是卷积层和第三层是softmax激活层,通道注意力模块的卷积层的卷积核大小1×1,卷积核个数1;第一卷积网络的第一卷积层的输出与空间注意力模块的第一层连接,通道注意力模块的第三层与第一卷积网络的第二卷积层的输入连接;第二卷积网络包括6个顺次连接的第七卷积层至第十二卷积层,第七卷积层至第十一卷积层的卷积核大小均为3×3,第十二卷积层的卷积核大小均为1×1,第七卷积层至第十二卷积层的卷积核个数分别为32、64、128、256、512、512。
6.根据权利要求1所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述步骤五包括:将说话人脸生成网络输入到Adam优化器进行参数优化,对说话人脸生成网络进行训练,每次迭代过程中计算总损失函数值,总损失函数收敛时停止训练得到训练好的说话人脸生成网络。
7.根据权利要求6所述的一种基于卷积神经网络的说话人脸视频生成方法,其特征在于,所述总损失函数的计算过程为:
通过公式
Figure FDA0003812273040000041
获取图像重建损失,其中,Lg表示人脸解码器生成的新的人脸图片,LG表示原始输入的人脸图片,N表示输入到人脸生成网络的图片的总帧数,i表示第i帧图片;|| ||1表示1范数;
通过公式
Figure FDA0003812273040000042
获取唇音同步损失,Fi表示第i帧图片的嘴部与语音同步概率且
Figure FDA0003812273040000043
k表示生成的新的人脸图片的嘴部区域对应的特征向量,a表示原始输入的语音梅尔频谱图,γ表示预设常数且γ=1e-12;|| ||2表示2范数;
通过公式
Figure FDA0003812273040000044
获取人脸视觉质量损失,其中,D(x)表示人脸视觉判别器的输出结果,
Figure FDA0003812273040000045
表示log(1-D(x))的数学期望;
通过总损失函数公式Ltotal=(1-sw-sg)·Lrecon+sw·Esync+sg·Lgen获取总损失函数值,其中,sw和sg均为预设的常数。
8.一种基于卷积神经网络的说话人脸视频生成装置,其特征在于,所述装置包括:
数据集构建模块,用于构建数据集;
唇音同步模块,用于设计唇音同步判别器;
第一训练模块,用于利用数据集训练唇音同步判别器,得到训练好的唇音同步判别器;
说话人脸生成网络构建模块,用于构建说话人脸生成网络,所述说话人脸生成网络包括语音编码器、超分辨模块、人脸编码器、人脸解码器、人脸视觉判别器以及预训练好的唇音同步判别器,输入语音到语音编码器以及唇音同步判别器,输入人脸图片到超分辨模块以及人脸视觉判别器,超分辨模块对人脸进行重建,超分辨模块的输出与人脸编码器连接,语音编码器以及人脸编码器均与人脸解码器连接,人脸解码器的输出分别与唇音同步判别器以及人脸视觉判别器连接;语音编码器的输入是对语音经过预处理后的语音梅尔频谱图,语音编码器对语音梅尔频谱图进行特征提取,输出第二一维语音特征向量;人脸图片先通过超分辨模块,进行脸部重建,再输入进人脸编码器进行下采样,得到与第二一维语音特征向量形状相同的第二一维人脸特征向量,人脸解码器的输入是第二一维语音特征向量和第二一维人脸特征向量相加的混合向量,人脸解码器进行上采样得到与语音对应的新的人脸图片,人脸视觉判别器的输入是生成的新的人脸图片和原始输入的人脸图片,其由若干个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活层组成,人脸视觉判别器用于判断生成的新的人脸图片与原始输入的人脸图片视觉上的差异性;将生成的新的人脸图片的嘴部区域和原始输入的语音梅尔频谱图输入练好的唇音同步判别器中,判断唇形和语音是否同步;
第二训练模块,用于利用数据集训练说话人脸生成网络,得到训练好的说话人脸生成网络;
网络运行模块,用于将目标语音和目标人物的人脸图片输入训练好的说话人脸生成网络生成目标人物说目标语音的视频。
9.根据权利要求8所述的一种基于卷积神经网络的说话人脸视频生成装置,其特征在于,所述数据集构建模块还用于:使用MTCNN模型识别高清新闻主播视频中人脸关键点,计算视频中人脸关键点和目标人物的人脸关键点相似度,记下人脸相似度超过预设值的视频帧,使用FFMPEG软件根据视频帧从视频中截取视频段,使用DLIB模型识别截取的视频段中的人脸关键点,将人脸区域和嘴部区域分别保存为序列图片,使用FFMPEG提取出视频段中的音频。
CN202110637611.7A 2021-06-08 2021-06-08 一种基于卷积神经网络的说话人脸视频生成方法及装置 Active CN113378697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110637611.7A CN113378697B (zh) 2021-06-08 2021-06-08 一种基于卷积神经网络的说话人脸视频生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110637611.7A CN113378697B (zh) 2021-06-08 2021-06-08 一种基于卷积神经网络的说话人脸视频生成方法及装置

Publications (2)

Publication Number Publication Date
CN113378697A CN113378697A (zh) 2021-09-10
CN113378697B true CN113378697B (zh) 2022-12-09

Family

ID=77576490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110637611.7A Active CN113378697B (zh) 2021-06-08 2021-06-08 一种基于卷积神经网络的说话人脸视频生成方法及装置

Country Status (1)

Country Link
CN (1) CN113378697B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793408B (zh) * 2021-09-15 2023-05-30 宿迁硅基智能科技有限公司 一种实时音频驱动人脸生成方法、装置及服务器
CN113822969B (zh) * 2021-09-15 2023-06-09 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113837942A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 基于srgan的超分辨率图像生成方法、装置、设备及存储介质
CN113971828B (zh) * 2021-10-28 2023-10-31 北京百度网讯科技有限公司 虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备
CN113723385B (zh) * 2021-11-04 2022-05-17 新东方教育科技集团有限公司 视频处理方法及装置、神经网络的训练方法及装置
CN114022598B (zh) * 2021-11-09 2024-02-20 北京百度网讯科技有限公司 图像处理方法、模型训练方法、装置、电子设备及介质
CN114187547A (zh) * 2021-12-03 2022-03-15 南京硅基智能科技有限公司 目标视频的输出方法及装置、存储介质及电子装置
CN114419702B (zh) * 2021-12-31 2023-12-01 南京硅基智能科技有限公司 数字人生成模型、模型的训练方法以及数字人生成方法
CN114519880B (zh) * 2022-02-09 2024-04-05 复旦大学 基于跨模态自监督学习的主动说话人识别方法
CN115294622B (zh) * 2022-06-15 2023-04-18 北京邮电大学 语音驱动说话人头动视频合成增强方法、系统和存储介质
CN115187705B (zh) * 2022-09-13 2023-01-24 之江实验室 一种语音驱动人脸关键点序列生成方法及装置
CN115330912B (zh) * 2022-10-12 2023-03-24 中国科学技术大学 基于音频和图像驱动的用于生成人脸说话视频的训练方法
CN115376211B (zh) * 2022-10-25 2023-03-24 北京百度网讯科技有限公司 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
CN115601230A (zh) * 2022-11-09 2023-01-13 科讯嘉联信息技术有限公司(Cn) 一种基于多任务学习的数字人合成方法
CN115580743A (zh) * 2022-12-08 2023-01-06 成都索贝数码科技股份有限公司 一种视频中人物口型驱动方法及系统
CN115908662A (zh) * 2022-12-19 2023-04-04 开普云信息科技股份有限公司 说话人视频的生成模型训练和使用方法、装置及设备
CN115937375B (zh) * 2023-01-05 2023-09-29 深圳市木愚科技有限公司 数字分身合成方法、装置、计算机设备及存储介质
CN116385604B (zh) * 2023-06-02 2023-12-19 摩尔线程智能科技(北京)有限责任公司 视频生成及模型训练方法、装置、设备、存储介质
CN116828129B (zh) * 2023-08-25 2023-11-03 小哆智能科技(北京)有限公司 一种超清2d数字人生成方法及系统
CN117292437B (zh) * 2023-10-13 2024-03-01 山东睿芯半导体科技有限公司 一种唇语识别方法、装置、芯片及终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962216A (zh) * 2018-06-12 2018-12-07 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110909613A (zh) * 2019-10-28 2020-03-24 Oppo广东移动通信有限公司 视频人物识别方法、装置、存储介质与电子设备
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112084962A (zh) * 2020-09-11 2020-12-15 贵州大学 基于生成式对抗网络脸部隐私保护方法
CN112381040A (zh) * 2020-11-27 2021-02-19 天津大学 一种基于语音和人脸图像的跨膜态生成方法
CN112866586A (zh) * 2021-01-04 2021-05-28 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
CN107358648B (zh) * 2017-07-17 2019-08-27 中国科学技术大学 基于单张人脸图像的实时全自动高质量三维人脸重建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962216A (zh) * 2018-06-12 2018-12-07 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110909613A (zh) * 2019-10-28 2020-03-24 Oppo广东移动通信有限公司 视频人物识别方法、装置、存储介质与电子设备
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112084962A (zh) * 2020-09-11 2020-12-15 贵州大学 基于生成式对抗网络脸部隐私保护方法
CN112381040A (zh) * 2020-11-27 2021-02-19 天津大学 一种基于语音和人脸图像的跨膜态生成方法
CN112866586A (zh) * 2021-01-04 2021-05-28 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multimodal Inputs Driven Talking Face Generation With Spatial–Temporal Dependency;Lingyun Yu 等;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20210131;第31卷(第1期);第203-216页 *
基于深度神经网络的语音驱动发音器官的运动合成;唐郅 等;《自动化学报》;20160630;第42卷(第6期);第923-930页 *
数字视频对讲系统的全程唇音同步测试方法;戎玲 等;《电视技术》;20171231;第41卷(第6期);第143-146页 *

Also Published As

Publication number Publication date
CN113378697A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113378697B (zh) 一种基于卷积神经网络的说话人脸视频生成方法及装置
US11276231B2 (en) Semantic deep face models
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CA2375350C (en) Method of animating a synthesised model of a human face driven by an acoustic signal
JP2023545642A (ja) 目標対象の動作駆動方法、装置、機器及びコンピュータプログラム
Tang et al. Real-time neural radiance talking portrait synthesis via audio-spatial decomposition
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
CN112288632B (zh) 基于精简esrgan的单图像超分辨率方法及系统
CN114245215B (zh) 说话视频的生成方法、装置、电子设备、介质及产品
CN114187547A (zh) 目标视频的输出方法及装置、存储介质及电子装置
CN115457169A (zh) 一种语音驱动的人脸动画生成方法及系统
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN114663539B (zh) 一种基于音频驱动的口罩下2d人脸还原技术
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN114093013B (zh) 一种深度伪造人脸逆向溯源方法及系统
CN115578512A (zh) 语音播报视频的生成模型训练和使用方法、装置及设备
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
CN116385606A (zh) 一种语音信号驱动的个性化三维人脸动画生成方法及其应用
CN113343761A (zh) 一种基于生成对抗的实时人脸表情迁移方法
CN114418872A (zh) 一种基于mGANprior的真实图像美感增强方法
Roy Applying aging effect on facial image with multi-domain generative adversarial network
CN113469292A (zh) 视频合成模型的训练方法、合成方法、装置、介质和设备
Maniyar et al. Persons facial image synthesis from audio with Generative Adversarial Networks
KR19980053565A (ko) 얼굴움직임을 인코딩하기 위한 방법및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant