CN111243626A - 一种说话视频生成方法及系统 - Google Patents
一种说话视频生成方法及系统 Download PDFInfo
- Publication number
- CN111243626A CN111243626A CN201911402438.1A CN201911402438A CN111243626A CN 111243626 A CN111243626 A CN 111243626A CN 201911402438 A CN201911402438 A CN 201911402438A CN 111243626 A CN111243626 A CN 111243626A
- Authority
- CN
- China
- Prior art keywords
- face
- sample
- model
- neural network
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 80
- 230000008921 facial expression Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000009877 rendering Methods 0.000 claims abstract description 47
- 230000001815 facial effect Effects 0.000 claims abstract description 16
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 84
- 230000015654 memory Effects 0.000 claims description 20
- 238000005286 illumination Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 10
- 238000003062 neural network model Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例提供一种说话视频生成方法及系统,该方法包括:基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将短视频文件的背景匹配到人脸图像序列,得到背景匹配后的人脸图像序列;基于训练好的深度神经网络细化模型,对背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据目标人脸图像序列和预设音频文件,合成得到目标人物的说话视频。本发明实施例通过在说话视频生成过程中引入三维人脸信息,并结合神经网络模型生成头部姿势自然转动且具有个性化说话习惯的说话视频。
Description
技术领域
本发明涉及计算机视觉和深度学习技术领域,尤其涉及一种说话视频生成方法及系统。
背景技术
说话视频生成,是指根据目标人物的视觉信息(图像或视频)和一段音频,生成与该音频同步的目标人物说话的视频。这种音频驱动的说话视频生成有着广泛的应用,例如,带宽受限情况下的视频转换和虚拟主播等。
在现实世界中,自然的头部运动在人类沟通中具有重要的作用。但是,现有基于语音的说话视频生成技术,大多是生成头部姿势固定的说话视频,即生成的说话视频中仅有面部嘴型的变化,而头部姿势保持不变,导致这些说话视频无法体现出目标人物的个性化说话习惯,以致于这些通过现有技术生成的头部姿势固定的说话视频,很容易被判断为伪造的说话视频。
因此,现在亟需一种说话视频生成方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种说话视频生成方法及系统。
第一方面,本发明实施例提供了一种说话视频生成方法,包括:
基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;
对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;
基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
进一步地,所述对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,包括:
对短视频文件中第一帧人脸图像进行三维人脸重建,得到人脸参数化模型系数;
根据所述人脸表情系数序列、所述第一人脸姿势系数序列和所述人脸参数化模型系数,生成人脸参数化模型系数序列,以使得所述人脸参数化模型系数序列和所述预设音频文件同步;
对所述人脸参数化模型系数序列进行渲染处理,得到人脸图像序列,并根据第二人脸姿势系数序列,将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述第二人脸姿势系数序列是通过对所述短视频中每一帧图像进行三维人脸重建获取得到的。
进一步地,所述训练好的深度神经网络语音模型通过以下步骤获取:
获取说话视频数据集的样本视频文件和样本音频文件,并对所述样本视频文件标记人脸表情系数标签和人脸姿势系数标签,对所述样本音频文件标记音频特征,以用于构建第一训练样本集,所述说话视频数据集为唇语识别数据集,所述样本音频文件是通过对所述样本视频文件进行提取得到的;
将所述第一训练样本集输入到深度神经网络语音模型进行训练,得到预训练的深度神经网络语音模型;
获取样本短视频文件和样本短视频音频文件,并对所述样本短视频文件标记人脸表情系数标签和人脸姿势系数标签,对所述样本短视频音频文件标记音频特征,以用于构建第二训练样本集,所述样本短视频音频文件是通过对所述样本短视频文件进行提取得到的;
根据所述第二训练样本集,对预训练的深度神经网络语音模型进行训练,得到训练好的深度神经网络语音模型。
进一步地,所述训练好的深度神经网络细化模型通过以下步骤获取:
对说话视频数据集的样本视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理,得到第三训练样本集,所述说话视频数据集为唇语识别数据集;
将所述第三训练样本集输入到深度神经网络细化模型进行训练,得到预训练的深度神经网络细化模型;
对样本短视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理,构建第四训练样本集;
根据所述第四训练样本集,对预训练的深度神经网络细化模型进行训练,得到训练好的深度神经网络细化模型。
进一步地,所述深度神经网络语音模型是由长短期记忆模型构建得到的。
进一步地,所述深度神经网络细化模型是由生成对抗网络模型构建得到的。
进一步地,所述人脸参数化模型系数包括身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数。
第二方面,本发明实施例提供了一种说话视频生成系统,包括:
语音处理模块,用于基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;
人脸渲染及背景匹配处理模块,用于对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;
说话视频合成模块,用于基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种说话视频生成方法及系统,通过在说话视频生成过程中引入三维人脸信息,对头部姿势运动进行精确建模,并结合神经网络模型生成头部姿势自然转动的说话视频,以使得生成的说话视频具有目标人物的个性化说话习惯。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的说话视频生成方法的流程示意图;
图2为本发明实施例提供的人脸参数化模型系数序列的生成示意图;
图3为本发明实施例提供的渲染图像序列和短视频背景的匹配流程示意图;
图4为本发明实施例提供的深度神经网络细化模型的结构示意图;
图5为本发明实施例提供的说话视频生成系统的结构示意图;
图6为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的说话视频生成方法的流程示意图,如图1所示,本发明实施例提供了一种说话视频生成方法,包括:
步骤101,基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的。
在本发明实施例中,首先获取预设音频文件和短视频文件,其中,预设音频文件为真实说话音频文件,即需要根据该预设音频文件,生成对应的说话视频;短视频文件中包含目标人物的人脸,其播放的内容为该目标人物的真实说话视频。在本发明实施例中,将深度神经网络语音模型命名为AudioNet模型进行说明。进一步地,将预设音频文件输入到训练好的AudioNet模型中,该模型根据预设音频文件的音频特征,按照时间序列预测得到对应的人脸表情系数和第一人脸姿势系数,从而得到人脸表情系数序列和第一人脸姿势系数序列。
步骤102,对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频。
在本发明实施例中,图2为本发明实施例提供的人脸参数化模型系数序列的生成示意图,可参考图2所示,对短视频文件的人脸图像进行三维人脸重建,从而得到第一帧人脸图像的人脸参数化模型系数,具体地,在上述实施例的基础上,所述人脸参数化模型系数包括身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数,需要说明的是,本发明实施例描述的身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数,可通过3DMM形变模型获取得到,具体地,3DMM形变模型通过低维的参数化系数表示一个复杂的三维人脸,其中,身份系数和人脸表情系数共同表示三维人脸的几何形状,身份系数表示人脸形状中和人物身份相关的成分,人脸表情系数表示人脸形状中和表情相关的成分;纹理系数表示三维人脸的纹理颜色;光照系数表示场景中光照信息;人脸姿势系数表示三维人脸的朝向和位置。
进一步地,可参考图2所示,根据上述实施例AudioNet模型预测得到的人脸表情系数序列和第一人脸姿势系数序列,以及人脸参数化模型系数(选取身份系数、纹理系数和光照系数),生成对应的人脸参数化模型序列,该人脸参数化模型序列和预设音频文件同步。进一步地,对该人脸参数化模型序列进行渲染处理,得到人脸图像序列,再将短视频文件中的背景(除去人脸区域后的部分)匹配到人脸图像序列,从而得到背景匹配后的人脸图像序列。
步骤103,基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
在本发明实施例中,将深度神经网络细化模型命名为RefineNet模型进行说明,将上述实施例得到的背景匹配后的人脸图像序列,输入到训练好的RefineNet模型中,优选地,在本发明实施例中,基于背景匹配后的人脸图像序列,将每连续三帧的人脸图像输入到该模型中,得到更具有真实感的人脸图像,进一步得到有这些更具真实感的人脸图像组成的目标人脸图像序列。最后,将该目标人脸图像序列和预设音频文件进行合成,从而根据预设音频,得到目标人物的说话视频。
本发明实施例提供的一种说话视频生成方法,通过在说话视频生成过程中引入三维人脸信息,对头部姿势运动进行精确建模,并结合神经网络模型生成头部姿势自然转动的说话视频,以使得生成的说话视频具有目标人物的个性化说话习惯。
在上述实施例的基础上,所述对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,包括:
对短视频文件中第一帧人脸图像进行三维人脸重建,得到人脸参数化模型系数;
根据所述人脸表情系数序列、所述第一人脸姿势系数序列和所述人脸参数化模型系数,生成人脸参数化模型系数序列,以使得所述人脸参数化模型系数序列和所述预设音频文件同步;
对所述人脸参数化模型系数序列进行渲染处理,得到人脸图像序列,并根据第二人脸姿势系数序列,将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述第二人脸姿势系数序列是通过对所述短视频中每一帧图像进行三维人脸重建获取得到的。
在本发明实施例中,对短视频文件中第一帧人脸图像I进行三维人脸重建,得到人脸参数化模型系数χ(I),该系数包括:身份系数a、人脸表情系数β、纹理系数δ、光照系数γ和人脸姿势系数p,即人脸参数化模型系数χ(I)={a,β,δ,γ,p}。
进一步地,在本发明实施例中,需要生成与预设音频文件同步的人脸参数化模型系数序列,具体地,根据上述实施例AudioNet模型输出的人脸表情系数序列和人脸姿势系数序列以及人脸参数化模型系数χ(I)中的身份系数a、纹理系数δ和光照系数γ,构建人脸参数化模型系数序列{υ(1),υ(2),…,υ(T)},其中,t=1,…,T,T表示预设音频文件的时长。
进一步地,在本发明实施例中,对人脸参数化模型系数序列进行渲染处理,得到一组只包含有人脸面部区域的人脸图像,即人脸图像序列,并将短视频文件中的人脸区域去除,得到短视频文件的背景。然后,根据第二人脸姿势系数序列,将短视频文件的背景和人脸图像序列进行匹配,从而得到背景匹配后的人脸图像序列,其中,第二人脸姿势系数序列是通过三维人脸重建技术,从短视频每一帧图像中获取得到的。
进一步地,在本发明实施例中,根据每一个渲染得到的图像(即人脸图像序列中每一张人脸图像)的人脸姿势系数,从第二人脸姿势系数序列中获取最接近的第二人脸姿势系数对应的短视频帧的背景,作为渲染得到的图像的背景。若出现相邻帧背景不连续的情况,从渲染得到的图像序列中选出短时间内头部转动最大的帧作为关键帧,从而仅针对关键帧从短视频中匹配背景,对于相邻关键帧之间的帧(非关键帧),则通过上一关键帧的背景在短视频中的位置和下一关键帧在短视频中的位置的线性插值,来确定当前帧的背景。
图3为本发明实施例提供的渲染图像序列和短视频背景的匹配流程示意图,可参考图3所示,在本发明实施例中,通过以下步骤对渲染图像序列进行背景匹配:
步骤301,通过三维人脸重建获取短视频中每一帧图像的人脸姿势系数;
步骤302,对每一个渲染图像,选择与其姿势系数最接近的短视频帧的背景作为其背景;
步骤303,若匹配后出现相邻帧背景不连续的情况,若是,至步骤304;若没有出现相邻帧背景不连续的情况,则至步骤307;
步骤304,从渲染图像序列中选出短时间内头部转动最大的帧作为关键帧,得到关键帧集合{ki};
步骤305,对于每个关键帧ki,从短视频中根据姿势匹配背景,记匹配到的是短视频中第bi帧的背景;
步骤307,输出匹配背景后的渲染图像序列。
在上述实施例的基础上,所述训练好的深度神经网络语音模型通过以下步骤获取:
获取说话视频数据集的样本视频文件和样本音频文件,并对所述样本视频文件标记人脸表情系数标签和人脸姿势系数标签,对所述样本音频文件标记音频特征,以用于构建第一训练样本集S0,所述说话视频数据集为唇语识别数据集(Lip Reading in the WildDataset,简称LRW),该数据集中包括不同人物的说话视频,所述样本音频文件是通过对所述样本视频文件进行提取得到的;
将所述第一训练样本集S0输入到深度神经网络语音模型进行训练,得到预训练的深度神经网络语音模型A0;
获取样本短视频文件和样本短视频音频文件,并对所述样本短视频文件标记人脸表情系数标签和人脸姿势系数标签,对样本短视频音频文件标记音频特征,以用于构建第二训练样本集S1,所述样本短视频音频文件是通过对所述样本短视频文件进行提取得到的;
根据所述第二训练样本集S1,对预训练的深度神经网络语音模型A0进行训练,得到训练好的深度神经网络语音模型A1。
在本发明实施例中,所述第一训练样本集S0与所述第二训练样本集S1通过以下方式构建得到的:分别从说话视频数据集的样本视频文件(构建第一训练样本集S0)和样本短视频文件(构建第二训练样本集S1)中提取样本音频文件(即从样本视频文件中提取样本音频文件,从样本短视频文件中提取样本短视频音频文件),然后,对样本音频文件(样本短视频音频文件)进行梅尔频率倒谱系数特征(Mel Frequency Cepstrum Coefficient,简称MFCC)提取,在本发明实施例中,将每隔m毫秒位置为中心的音频片段作为一个音频特征,得到MFCC音频特征s;同时,从样本视频文件(构建第一训练样本集S0)和样本短视频文件(构建第二训练样本集S1)中每个m毫秒提取一张图像,对该图像进行三维人脸重建,从而提取样本人脸参数化模型系数,以根据该模型系数中的样本人脸表情系数和样本人脸姿势系数,构建表情姿势系数对;最后,根据MFCC音频特征s和表情姿势系数对{βlabel,plabel},构建训练样本集(s,{βlabel,plabel}),由此,通过上述步骤分别得到了第一训练样本集S0与第二训练样本集S1。需要说明的是,在本发明实施例中,深度神经网络语音模型在训练好之后,输入至该模型中的是某时刻的MFCC音频特征s,模型输出的是预测的对应时刻的人脸表情系数和第一人脸姿势系数,即{βpred,ppred}。
在上述实施例的基础上,所述深度神经网络语音模型是由长短期记忆模型构建得到的。在本发明实施例中,长短期记忆模型(Long Short-Term Memory,简称LSTM)依次包括卷积层、池化层、激活层和全连接层等。
进一步地,通过最小化损失函数LAudioNet,完成深度神经网络语音模型的训练,公式为:
LAudioNet=LMSE+Linter-frame;
其中,LMSE表示均方误差(Mean squared error,简称MSE)损失项,Linter-frame表示帧间连续损失项,n表示训练样本集中的训练样本数量,每个训练样本为样本视频文件中每隔m毫秒提取的音频特征和表情姿势系数对;βlabel表示训练样本中的真实人脸表情系数,βpred表示模型预测的人脸表情系数,plabel表示训练样本中的真实人脸姿势系数,ppred表示模型预测的人脸姿势系数;λa1表示均方误差损失项的权重,λa2表示帧间连续损失项的权重;表示预测的t时刻的人脸姿势系数,Ti表示第i个训练样本的时间长度。
在上述实施例的基础上,所述训练好的深度神经网络细化模型通过以下步骤获取:
对说话视频数据集的样本视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理,得到第三训练样本集S2,所述说话视频数据集为唇语识别数据集LRW;
将所述第三训练样本集S2输入到深度神经网络细化模型进行训练,得到预训练的深度神经网络细化模型R0;
根据样本短视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理,构建第四训练样本集S3;
根据所述第四训练样本集S3,对预训练的深度神经网络细化模型R0进行训练,得到训练好的深度神经网络细化模型R1。
在本发明实施例中,所述第三训练样本集S2和第四训练样本集S3通过以下方式构建得到的:分别从说话视频数据集的样本视频文件(构建第三训练样本集S2)和样本短视频(构建第四训练样本集S3)中提取图像帧,然后对每一帧的图像进行三维人脸重建并提取对应的人脸参数化模型系数,以根据该人脸参数化模型系数进行图像渲染,得到样本渲染人脸图像,在本发明实施例中,渲染人脸图像只包含有人脸面部区域的图像。进一步地,分别从说话视频数据集的样本视频文件(构建第三训练样本集S2)和样本短视频(构建第四训练样本集S3)中提取样本真实说话图像,并将样本渲染人脸图像和样本真实说话图像构建训练样本集由此,通过上述步骤分别得到了第三训练样本集S2与第四训练样本集S3。需要说明的是,在本发明实施例中,深度神经网络细化模型在训练好之后,输入至该模型中的是连续三帧的渲染人脸图像模型输出的是预测得到的人脸图像
在上述实施例的基础上,所述深度神经网络细化模型是由生成对抗网络模型构建得到的。在本发明实施例中,生成对抗网络模型(Generative Adversarial Networks,简称GANs)依次包括卷积层、归一化层、激活层和全连接层等。
在上述实施例的基础上,图4为本发明实施例提供的深度神经网络细化模型的结构示意图,可参考图4所示,在本发明实施例中,深度神经网络细化模型包括生成子模型G,判别子模型D和记忆子模型M,其中:生成子模型G用于根据渲染图像生成更具有真实感的人脸图像,具体地,生成子模型G的输入为连续三帧的渲染图像(r(t-2),r(t-1),r(t))和身份特征f(t),在训练阶段时,身份特征f(t)是通过真实图像提取得到的;在测试阶段时,身份特征f(t)是由记忆子模型M通过渲染图像r(t)得到的。进一步地,生成子模型G基于注意力机制,得到一个颜色掩膜C(t)和一个注意力掩膜A(t),最后输出的图像为输入渲染图像和颜色掩膜的加权求和:
其中,通过注意力掩膜A(t)中每个像素值,确定颜色掩膜C(t)中的各个像素对输出图像的贡献程度。
进一步地,判别子模型D用于判断渲染图像和一个待检测图像是否为伪造的图像,需要说明的是,在本发明实施例中,待检测图像可以是生成子模型G预测得到的具有真实感的人脸图像,也可能是真实人脸图像。
进一步地,记忆子模型M用于记忆训练集中具有代表性的身份特征,以使得在测试阶段能检索到最佳匹配的身份特征。具体地,在本发明实施例中,记忆子模型M中存储了成对的图像空间特征和身份特征,其中,空间特征通过渲染图像r(t)提取,身份特征通过真实图像提取。在训练过程中,使用训练集提取成对的特征对记忆子模型M进行更新,具体地,基于一对特征与当前记忆中已有特征对之间的最近身份特征距离,确定对该记忆进行更新或是替换;在测试过程中,使用渲染图像的空间特征作为查询(query)进行身份特征检索,从而查找记忆中最近的空间特征,并返回到对应的身份特征。
进一步地,生成子模型G和判别子模型D以对抗的方式进行训练,即生成子模型G负责产生伪造的图像,判别子模型D负责区分真正的图像和伪造的图像。生成子模型G的目标是,最小化判别子模型D将其生成的伪造图像判断为伪造的概率,而判别子模型D的目标是最大化正确区分真正图像和伪造图像的概率。
在上述实施例的基础上,通过最小化损失函数LRefineNet,完成深度神经网络细化模型的训练,公式为:
LRefineNet=Ladv+LL1+Lattention;
其中,N表示训练样本集中的训练样本数量,每个样本为一个渲染图像和真实图像组成;Ladv表示对抗损失项,LL1表示范数损失项,Lattention表示注意力掩膜损失项;λr1表示范数损失项的权重;注意力掩膜损失项Lattention由注意力掩膜正则项和注意力掩膜光滑项组成,其中,λr2表示注意力掩膜正则项的权重,λr3表示注意力掩膜光滑项的权重;Aj,k表示注意力掩膜的位置为(j,k)处的像素值,H和W分别表示图像的高和宽。
图5为本发明实施例提供的说话视频生成系统的结构示意图,如图5所示,本发明实施例提供了一种说话视频生成系统,包括语音处理模块501、人脸渲染及背景匹配处理模块502和说话视频合成模块503,其中,语音处理模块501用于基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;人脸渲染及背景匹配处理模块502用于对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;说话视频合成模块503用于基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
本发明实施例提供的一种说话视频生成系统,通过在说话视频生成过程中引入三维人脸信息,对头部姿势运动进行精确建模,并结合神经网络模型生成头部姿势自然转动的说话视频,以使得生成的说话视频具有目标人物的个性化说话习惯。
本发明实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图6为本发明实施例提供的电子设备结构示意图,参照图6,该电子设备可以包括:处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行如下方法:基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的说话视频生成方法,例如包括:基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种说话视频生成方法,其特征在于,包括:
基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;
对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;
基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
2.根据权利要求1所述的说话视频生成方法,其特征在于,所述对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,包括:
对短视频文件中第一帧人脸图像进行三维人脸重建,得到人脸参数化模型系数;
根据所述人脸表情系数序列、所述第一人脸姿势系数序列和所述人脸参数化模型系数,生成人脸参数化模型系数序列,以使得所述人脸参数化模型系数序列和所述预设音频文件同步;
对所述人脸参数化模型系数序列进行渲染处理,得到人脸图像序列,并根据第二人脸姿势系数序列,将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述第二人脸姿势系数序列是通过对所述短视频中每一帧图像进行三维人脸重建获取得到的。
3.根据权利要求1所述的说话视频生成方法,其特征在于,所述训练好的深度神经网络语音模型通过以下步骤获取:
获取说话视频数据集的样本视频文件和样本音频文件,并对所述样本视频文件标记人脸表情系数标签和人脸姿势系数标签,对所述样本音频文件标记音频特征,以用于构建第一训练样本集,所述说话视频数据集为唇语识别数据集,所述样本音频文件是通过对所述样本视频文件进行提取得到的;
将所述第一训练样本集输入到深度神经网络语音模型进行训练,得到预训练的深度神经网络语音模型;
获取样本短视频文件和样本短视频音频文件,并对所述样本短视频文件标记人脸表情系数标签和人脸姿势系数标签,对所述样本短视频音频文件标记音频特征,以用于构建第二训练样本集,所述样本短视频音频文件是通过对所述样本短视频文件进行提取得到的;
根据所述第二训练样本集,对预训练的深度神经网络语音模型进行训练,得到训练好的深度神经网络语音模型。
4.根据权利要求1所述的说话视频生成方法,其特征在于,所述训练好的深度神经网络细化模型通过以下步骤获取:
对说话视频数据集的样本视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理,得到第三训练样本集,所述说话视频数据集为唇语识别数据集;
将所述第三训练样本集输入到深度神经网络细化模型进行训练,得到预训练的深度神经网络细化模型;
对样本短视频文件进行三维人脸重建、渲染处理和提取真实说话图像处理,构建第四训练样本集;
根据所述第四训练样本集,对预训练的深度神经网络细化模型进行训练,得到训练好的深度神经网络细化模型。
5.根据权利要求3所述的说话视频生成方法,其特征在于,所述深度神经网络语音模型是由长短期记忆模型构建得到的。
6.根据权利要求4所述的说话视频生成方法,其特征在于,所述深度神经网络细化模型是由生成对抗网络模型构建得到的。
7.根据权利要求2所述的说话视频生成方法,其特征在于,所述人脸参数化模型系数包括身份系数、人脸表情系数、纹理系数、光照系数和人脸姿势系数。
8.一种说话视频生成系统,其特征在于,包括:
语音处理模块,用于基于训练好的深度神经网络语音模型,对预设音频文件进行预测处理,得到人脸表情系数序列和第一人脸姿势系数序列;所述训练好的深度神经网络语音模型是由标记有音频特征的样本音频文件、标记有人脸表情系数标签及人脸姿势系数标签的样本视频文件、标记有音频特征的样本短视频音频文件和标记有人脸表情系数标签及人脸姿势系数标签的样本短视频文件训练得到的;
人脸渲染及背景匹配处理模块,用于对短视频文件进行三维人脸重建和渲染处理,得到人脸图像序列,并将所述短视频文件的背景匹配到所述人脸图像序列,得到背景匹配后的人脸图像序列,所述短视频文件为目标人物的真实说话视频;
说话视频合成模块,用于基于训练好的深度神经网络细化模型,对所述背景匹配后的人脸图像序列进行处理,得到目标人脸图像序列,以根据所述目标人脸图像序列和所述预设音频文件,合成得到所述目标人物的说话视频;所述训练好的深度神经网络细化模型是由样本渲染人脸图像和样本真实人脸图像训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述说话视频生成方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述说话视频生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911402438.1A CN111243626B (zh) | 2019-12-30 | 2019-12-30 | 一种说话视频生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911402438.1A CN111243626B (zh) | 2019-12-30 | 2019-12-30 | 一种说话视频生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243626A true CN111243626A (zh) | 2020-06-05 |
CN111243626B CN111243626B (zh) | 2022-12-09 |
Family
ID=70866280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911402438.1A Active CN111243626B (zh) | 2019-12-30 | 2019-12-30 | 一种说话视频生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243626B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102468A (zh) * | 2020-08-07 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 模型训练、虚拟人物图像生成方法和装置以及存储介质 |
CN112215927A (zh) * | 2020-09-18 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 人脸视频的合成方法、装置、设备及介质 |
CN112308949A (zh) * | 2020-06-29 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 模型训练、人脸图像生成方法和装置以及存储介质 |
CN112330781A (zh) * | 2020-11-24 | 2021-02-05 | 北京百度网讯科技有限公司 | 生成模型和生成人脸动画的方法、装置、设备和存储介质 |
CN112420014A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 虚拟人脸构建方法、装置、计算机设备及计算机可读介质 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN112650399A (zh) * | 2020-12-22 | 2021-04-13 | 科大讯飞股份有限公司 | 表情推荐方法及装置 |
CN112750185A (zh) * | 2021-01-19 | 2021-05-04 | 清华大学 | 一种肖像画视频生成方法、装置、电子设备及存储介质 |
CN113096242A (zh) * | 2021-04-29 | 2021-07-09 | 平安科技(深圳)有限公司 | 虚拟主播生成方法、装置、电子设备及存储介质 |
CN113178206A (zh) * | 2021-04-22 | 2021-07-27 | 内蒙古大学 | Ai合成主播生成方法、电子设备及可读存储介质 |
CN113194348A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113449590A (zh) * | 2021-05-14 | 2021-09-28 | 网易(杭州)网络有限公司 | 说话视频生成方法及装置 |
CN113470170A (zh) * | 2021-07-02 | 2021-10-01 | 厦门大学 | 一种利用语音信息的实时视频人脸区域时空一致合成方法 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
CN113507627A (zh) * | 2021-07-08 | 2021-10-15 | 北京的卢深视科技有限公司 | 视频生成方法、装置、电子设备及存储介质 |
CN113628635A (zh) * | 2021-07-19 | 2021-11-09 | 武汉理工大学 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
CN113674373A (zh) * | 2021-07-02 | 2021-11-19 | 清华大学 | 基于深度学习的真实感人脸渲染方法与装置 |
CN114189738A (zh) * | 2021-12-17 | 2022-03-15 | 中国传媒大学 | 音效合成方法、装置、电子设备及存储介质 |
CN114245215A (zh) * | 2021-11-24 | 2022-03-25 | 清华大学 | 说话视频的生成方法、装置、电子设备、介质及产品 |
CN114782864A (zh) * | 2022-04-08 | 2022-07-22 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114821404A (zh) * | 2022-04-08 | 2022-07-29 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN115116109A (zh) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
WO2022242381A1 (zh) * | 2021-05-21 | 2022-11-24 | 上海商汤智能科技有限公司 | 图像生成方法、装置、设备以及存储介质 |
GB2609286A (en) * | 2021-05-20 | 2023-02-01 | Nvidia Corp | Synthesizing video from audio using one or more neural networks |
CN115776597A (zh) * | 2021-08-30 | 2023-03-10 | 海信集团控股股份有限公司 | 一种音视频生成方法、装置及电子设备 |
CN116993929A (zh) * | 2023-09-27 | 2023-11-03 | 北京大学深圳研究生院 | 基于人眼动态变化的三维人脸重建方法、装置及存储介质 |
CN117592014A (zh) * | 2024-01-19 | 2024-02-23 | 北京科技大学 | 基于多模态融合的大五人格特征预测方法 |
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1466104A (zh) * | 2002-07-03 | 2004-01-07 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
US20050057569A1 (en) * | 2003-08-26 | 2005-03-17 | Berger Michael A. | Static and dynamic 3-D human face reconstruction |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN103279970A (zh) * | 2013-05-10 | 2013-09-04 | 中国科学技术大学 | 一种实时的语音驱动人脸动画的方法 |
CN104780338A (zh) * | 2015-04-16 | 2015-07-15 | 美国掌赢信息科技有限公司 | 一种即时视频中的表情特效动画加载方法和电子设备 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN107431635A (zh) * | 2015-03-27 | 2017-12-01 | 英特尔公司 | 化身面部表情和/或语音驱动的动画化 |
CN108230438A (zh) * | 2017-12-28 | 2018-06-29 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
CN108921131A (zh) * | 2018-07-26 | 2018-11-30 | 中国银联股份有限公司 | 一种生成人脸检测模型、三维人脸图像的方法及装置 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
US20190130628A1 (en) * | 2017-10-26 | 2019-05-02 | Snap Inc. | Joint audio-video facial animation system |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN110309470A (zh) * | 2019-05-14 | 2019-10-08 | 广东康云科技有限公司 | 一种基于空气成像的虚拟新闻主播系统及其实现方法 |
CN110446000A (zh) * | 2019-08-07 | 2019-11-12 | 三星电子(中国)研发中心 | 一种生成对话人物形象的方法和装置 |
CN110610534A (zh) * | 2019-09-19 | 2019-12-24 | 电子科技大学 | 基于Actor-Critic算法的口型动画自动生成方法 |
-
2019
- 2019-12-30 CN CN201911402438.1A patent/CN111243626B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
CN1466104A (zh) * | 2002-07-03 | 2004-01-07 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
US20050057569A1 (en) * | 2003-08-26 | 2005-03-17 | Berger Michael A. | Static and dynamic 3-D human face reconstruction |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN103279970A (zh) * | 2013-05-10 | 2013-09-04 | 中国科学技术大学 | 一种实时的语音驱动人脸动画的方法 |
CN107431635A (zh) * | 2015-03-27 | 2017-12-01 | 英特尔公司 | 化身面部表情和/或语音驱动的动画化 |
CN104780338A (zh) * | 2015-04-16 | 2015-07-15 | 美国掌赢信息科技有限公司 | 一种即时视频中的表情特效动画加载方法和电子设备 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
US20190130628A1 (en) * | 2017-10-26 | 2019-05-02 | Snap Inc. | Joint audio-video facial animation system |
CN108230438A (zh) * | 2017-12-28 | 2018-06-29 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
CN108921131A (zh) * | 2018-07-26 | 2018-11-30 | 中国银联股份有限公司 | 一种生成人脸检测模型、三维人脸图像的方法及装置 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN110309470A (zh) * | 2019-05-14 | 2019-10-08 | 广东康云科技有限公司 | 一种基于空气成像的虚拟新闻主播系统及其实现方法 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN110446000A (zh) * | 2019-08-07 | 2019-11-12 | 三星电子(中国)研发中心 | 一种生成对话人物形象的方法和装置 |
CN110610534A (zh) * | 2019-09-19 | 2019-12-24 | 电子科技大学 | 基于Actor-Critic算法的口型动画自动生成方法 |
Non-Patent Citations (3)
Title |
---|
TERO KARRAS ET AL: "Audio-Driven Facial Animation by Joint End-to-End Learning of Pose", 《ACM TRANSACTIONS ON GRAPHICS》 * |
李欣怡等: "语音驱动的人脸动画研究现状综述", 《计算机工程与应用》 * |
阳珊等: "基于BLSTM-RNN的语音驱动逼真面部动画合成", 《清华大学学报(自然科学版)》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308949A (zh) * | 2020-06-29 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 模型训练、人脸图像生成方法和装置以及存储介质 |
CN112102468B (zh) * | 2020-08-07 | 2022-03-04 | 北京汇钧科技有限公司 | 模型训练、虚拟人物图像生成方法和装置以及存储介质 |
CN112102468A (zh) * | 2020-08-07 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 模型训练、虚拟人物图像生成方法和装置以及存储介质 |
CN112215927A (zh) * | 2020-09-18 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 人脸视频的合成方法、装置、设备及介质 |
CN112215927B (zh) * | 2020-09-18 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 人脸视频的合成方法、装置、设备及介质 |
CN112420014A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 虚拟人脸构建方法、装置、计算机设备及计算机可读介质 |
CN112330781A (zh) * | 2020-11-24 | 2021-02-05 | 北京百度网讯科技有限公司 | 生成模型和生成人脸动画的方法、装置、设备和存储介质 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN112650399A (zh) * | 2020-12-22 | 2021-04-13 | 科大讯飞股份有限公司 | 表情推荐方法及装置 |
CN112650399B (zh) * | 2020-12-22 | 2023-12-01 | 科大讯飞股份有限公司 | 表情推荐方法及装置 |
CN112750185A (zh) * | 2021-01-19 | 2021-05-04 | 清华大学 | 一种肖像画视频生成方法、装置、电子设备及存储介质 |
CN113194348A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 |
CN113178206A (zh) * | 2021-04-22 | 2021-07-27 | 内蒙古大学 | Ai合成主播生成方法、电子设备及可读存储介质 |
CN113178206B (zh) * | 2021-04-22 | 2022-05-31 | 内蒙古大学 | Ai合成主播生成方法、电子设备及可读存储介质 |
CN113096242A (zh) * | 2021-04-29 | 2021-07-09 | 平安科技(深圳)有限公司 | 虚拟主播生成方法、装置、电子设备及存储介质 |
CN113449590A (zh) * | 2021-05-14 | 2021-09-28 | 网易(杭州)网络有限公司 | 说话视频生成方法及装置 |
GB2609286A (en) * | 2021-05-20 | 2023-02-01 | Nvidia Corp | Synthesizing video from audio using one or more neural networks |
WO2022242381A1 (zh) * | 2021-05-21 | 2022-11-24 | 上海商汤智能科技有限公司 | 图像生成方法、装置、设备以及存储介质 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
CN113470170A (zh) * | 2021-07-02 | 2021-10-01 | 厦门大学 | 一种利用语音信息的实时视频人脸区域时空一致合成方法 |
CN113674373B (zh) * | 2021-07-02 | 2024-04-26 | 清华大学 | 基于深度学习的真实感人脸渲染方法 |
CN113674373A (zh) * | 2021-07-02 | 2021-11-19 | 清华大学 | 基于深度学习的真实感人脸渲染方法与装置 |
CN113507627A (zh) * | 2021-07-08 | 2021-10-15 | 北京的卢深视科技有限公司 | 视频生成方法、装置、电子设备及存储介质 |
CN113628635B (zh) * | 2021-07-19 | 2023-09-15 | 武汉理工大学 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
CN113628635A (zh) * | 2021-07-19 | 2021-11-09 | 武汉理工大学 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
CN115776597A (zh) * | 2021-08-30 | 2023-03-10 | 海信集团控股股份有限公司 | 一种音视频生成方法、装置及电子设备 |
CN114245215A (zh) * | 2021-11-24 | 2022-03-25 | 清华大学 | 说话视频的生成方法、装置、电子设备、介质及产品 |
CN114189738A (zh) * | 2021-12-17 | 2022-03-15 | 中国传媒大学 | 音效合成方法、装置、电子设备及存储介质 |
CN114782864B (zh) * | 2022-04-08 | 2023-07-21 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114821404B (zh) * | 2022-04-08 | 2023-07-25 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114821404A (zh) * | 2022-04-08 | 2022-07-29 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114782864A (zh) * | 2022-04-08 | 2022-07-22 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN115116109A (zh) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
CN115116109B (zh) * | 2022-04-27 | 2024-05-14 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
CN116993929A (zh) * | 2023-09-27 | 2023-11-03 | 北京大学深圳研究生院 | 基于人眼动态变化的三维人脸重建方法、装置及存储介质 |
CN116993929B (zh) * | 2023-09-27 | 2024-01-16 | 北京大学深圳研究生院 | 基于人眼动态变化的三维人脸重建方法、装置及存储介质 |
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
CN117593442B (zh) * | 2023-11-28 | 2024-05-03 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
CN117592014A (zh) * | 2024-01-19 | 2024-02-23 | 北京科技大学 | 基于多模态融合的大五人格特征预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111243626B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243626B (zh) | 一种说话视频生成方法及系统 | |
US11114086B2 (en) | Text and audio-based real-time face reenactment | |
EP3912159B1 (en) | Text and audio-based real-time face reenactment | |
US9959657B2 (en) | Computer generated head | |
KR101558202B1 (ko) | 아바타를 이용한 애니메이션 생성 장치 및 방법 | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
CN112465935A (zh) | 虚拟形象合成方法、装置、电子设备和存储介质 | |
CN110866968A (zh) | 基于神经网络生成虚拟人物视频的方法及相关设备 | |
CN112750185A (zh) | 一种肖像画视频生成方法、装置、电子设备及存储介质 | |
BRPI0904540B1 (pt) | método para animar rostos/cabeças/personagens virtuais via processamento de voz | |
CN111459450A (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
US20140210831A1 (en) | Computer generated head | |
Yu et al. | A video, text, and speech-driven realistic 3-D virtual head for human–machine interface | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
CN112308949A (zh) | 模型训练、人脸图像生成方法和装置以及存储介质 | |
CN110910479B (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
CN108538283B (zh) | 一种由唇部图像特征到语音编码参数的转换方法 | |
CN114332318A (zh) | 一种虚拟形象生成方法及其相关设备 | |
CN114359517A (zh) | 虚拟形象生成方法、虚拟形象生成系统和计算设备 | |
CN114639374A (zh) | 一种实时语音驱动的照片级真实感人脸肖像视频生成方法 | |
CN113408449A (zh) | 基于语音驱动的人脸动作合成方法、电子设备及存储介质 | |
Mattos et al. | Improving CNN-based viseme recognition using synthetic data | |
Ma et al. | Dreamtalk: When expressive talking head generation meets diffusion probabilistic models | |
CN114245230A (zh) | 视频的生成方法、装置、电子设备及存储介质 | |
CN117152308A (zh) | 一种虚拟人动作表情优化方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |