CN109308731B - 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 - Google Patents
级联卷积lstm的语音驱动唇形同步人脸视频合成算法 Download PDFInfo
- Publication number
- CN109308731B CN109308731B CN201810972946.2A CN201810972946A CN109308731B CN 109308731 B CN109308731 B CN 109308731B CN 201810972946 A CN201810972946 A CN 201810972946A CN 109308731 B CN109308731 B CN 109308731B
- Authority
- CN
- China
- Prior art keywords
- video
- voice
- face
- facial animation
- vector sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001360 synchronised effect Effects 0.000 title claims abstract description 22
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 35
- 230000001815 facial effect Effects 0.000 claims abstract description 30
- 230000015654 memory Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000009877 rendering Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 abstract 2
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0356—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法。采集目标人物的说话视频作为底板视频,对图像序列进行三维人脸重建获得目标三维人脸模型,获得底板视频的面部动画向量序列;音频信号提取出滤波器组的语音特征;将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练测试;用音频信号的面部动画向量序列替换目标三维人脸模型的面部动画向量序列生成新三维人脸模型并渲染人脸图像合成唇形同步人脸视频。本发明保留更多的声纹信息,创新通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,增加了网络深度,获得了准确的唇形同步人脸视频。
Description
技术领域
本发明涉及计算机视觉领域以及音频信号处理的相关技术,尤其涉及了一种基于级联卷积长短时记忆网络结构(级联卷积LSTM)的语音驱动唇形同步人脸视频算法。
背景技术
经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中。本发明希望通过提出一种新的从语音或文本合成语音生成唇形同步人脸视频的方法,使得网络聊天机器人具有真人的外观及表情。
语音或文本合成语音通常被表示为单声道音频信号,且频率很高,通常为16KHz。另一方面,视频是二维图像的时间序列,具有高维度(超过100K)和相对较低的采样频率,如25帧/秒,是一个三维信号。由于人类对面部表情的微妙变化非常敏感,所以需要生成细粒度的合成结果。因此,通过从低维度高频语音的音频信号或文本合成语音的音频信号中直接恢复高保真度的高维度低频视频是很有挑战的,这是一个严重欠约束的病态问题。
发明内容
为了解决背景技术中存在的问题,本发明提出了级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,实现了通过语音或文本合成语音合成唇形同步人脸视频。
本发明采用的技术方案包括如下步骤:
1)采集目标人物的说话视频作为底板视频,说话视频中的目标人物即为最终人脸视频合成的主体人物,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列,该面部动画向量序列即为合成人脸表情的加权系数;
2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;
3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;
训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;
测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;
4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合准确稠密的三维人脸追踪方式生成新的三维人脸模型;
5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。
本发明特殊采用滤波器组的语音特征处理获得面部模型数据,构建了特殊的级联卷积长短时记忆网络进行训练预测获得对应音频信号的面部模型数据替换图像的面部模型数据合成获得唇形同步人脸视频。
所述步骤1)中的目标三维人脸模型使用了准确稠密的三维形变模型三维人脸重建。
所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。
所述步骤3)中的级联卷积长短时记忆网络结构,如图1和图3所示,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;
所述的级联卷积长短时记忆网络结构采用以下公式表示的锚样例、正样例、负样例之间的三元组损失函数,如下:
Ltri=max(0,p-α×n)
其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数;
所述步骤4)使用准确稠密的三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型。
所述步骤5)中,渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像,再结合嘴唇图像进行最终人脸图像的渲染,合成唇形同步人脸视频。
所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。
传统唇形同步人脸视频合成算法通过将音频流转化为毫秒级的音素序列,而音素的提取大多通过人工标记或者自动语音识别系统,这个过程很容易出错而且很复杂,需要很高的人力成本。最近基于梅尔频率倒谱系数特征的方法忽略了同一个时间窗口内的相关性,因此也忽略了音频信号中大量的细节信息。
而本发明提出的算法直接从音频信号中提取滤波器组的语音特征,之后经过级联卷积长短时记忆网络的预测,最终合成唇形同步人脸视频,将唇形同步人脸视频合成问题转化为从音频信号到面部动画向量序列的序列到序列回归问题。
本发明的有益效果是:
本发明提出了语音驱动的唇形同步人脸视频合成算法,创新地利用滤波器组的语音特征进行二维卷积操作,从而获得了同一时间窗口的相关性,保留了大量的语音特征信息,并且使用了新颖的级联卷积长短时记忆网络模型,解决了恢复从音频信号到人脸视频的复杂映射问题,准确稠密的三维人脸跟踪解决了因人物说话引起的头部移动和面部细微变化,最终合成唇形同步人脸视频。
本发明直接从音频信号中提取滤波器组的语音特征,相对于传统的梅尔频率倒谱系数特征,可以尽可能保留更多的声纹信息并转化为二维信号;使得可以利用卷积长短时记忆网络去捕获更丰富的空间信息,用于生成面部动画向量序列;然后结合准确稠密的三维人脸跟踪算法来合成唇形同步人脸视频。
本发明提出了的算法,创新地通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,该语音特征不仅增加了网络的深度而且分析了时间窗口内部以及不同时间窗口之间的相关性,进一步利用级联卷积长短时记忆网络获取音频信号与人脸视频间的复杂映射关系,并且通过准确稠密的三维人脸追踪对人物说话时引起的头部移动和面部的细微变化解耦合。
附图说明
图1为本发明算法采用的神经网络结构示意图。
图2为本发明算法的整体结构示意图。
图3为本发明算法的流程图。
图4为数据集中的合成视频结果图;(a)使用真值合成的人脸视频,(b)使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频,(c)使用真人语音和级联卷积长短时记忆网络合成的人脸视频,(d)使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频。
表1为评测中的不同网络模型和损失函数的对比。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清晰、完整的描述。基于本发明中的实施例,本领域普通技术人员在没有做创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的目的、技术方案及优点更加清楚明白,接下来将参照附图对本发明实施例进行详细的说明。
按照本发明完整方法具体实施的实施例如下:
如图2所示,采用以下系统模块为:
输入模块,用来接收用户输入语音的音频信号或文本合成语音的音频信号,接下来送入级联卷积长短时记忆网络模块进行特征提取并生成面部动画向量序列。
级联卷积长短时记忆网络模块,把接收到的音频信号进行基于滤波器组的语音特征提取,之后进行卷积操作,进行卷积长短时记忆神经网络操作,最后进行全连接网络操作,生成面部动画向量序列,并送入输出模块。
输出模块,通过级联卷积长短时记忆网络模块输出的面部动画向量序列合成人脸视频,把最终合成的人脸视频显示出来。
为验证本发明,在自己采集的数据集上进行设计实验,将本发明算法采用不同模型和损失函数进行对比,把实验结果与用目标面部动画向量序列合成的人脸视频进行对比。如图4所示,本发明提出的算法可精确合成人脸视频。图4(a)的四张子图为使用真值合成的人脸视频中不同连续帧的图像序列,图4(b)为使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频不同连续帧的图像序列,图4(c)为使用真人语音和级联卷积长短时记忆网络合成的人脸视频不同连续帧的图像序列,图4(d)为使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频不同连续帧的图像序列。
图4中可见采用本发明合成的人脸视频非常接近用目标面部动画向量序列合成的人脸视频。收集的数据包含17个用Kinect 2.0采集的说话人视频序列,视频总长81分钟22秒,共17段,共146460帧,用时间戳同步了音频和视频图像以及深度信息,验证结果如表1所示。
表1:不同网络模型和损失函数的对比
上表中可见本发明的结果在的数据集测试中不仅性能优秀,并且可以合成逼真的人脸视频。
由此可见本发明算法取得在语音驱动人脸视频合成领域中常用算法更优秀的实验结果。
最后,应当指出,以上实施例仅是本发明较有代表性的例子。显然,本发明的技术方案并不限于上述实施例,还可以有许多变形。本领域的普通技术人员可在不脱离本发明的发明思想情况下,对于上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。
Claims (5)
1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:
1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;
2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;
3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;
所述步骤3)中的级联卷积长短时记忆网络结构,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;
所述的级联卷积长短时记忆网络结构采用以下公式的三元组损失函数,如下:
Ltri=max(0,p-α×n)
其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数;
4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;
所述步骤4)使用三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型;
5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。
2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。
3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。
4.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤5)中,渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像,再结合嘴唇图像进行最终人脸图像的渲染,合成唇形同步人脸视频。
5.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972946.2A CN109308731B (zh) | 2018-08-24 | 2018-08-24 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972946.2A CN109308731B (zh) | 2018-08-24 | 2018-08-24 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308731A CN109308731A (zh) | 2019-02-05 |
CN109308731B true CN109308731B (zh) | 2023-04-25 |
Family
ID=65224180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810972946.2A Active CN109308731B (zh) | 2018-08-24 | 2018-08-24 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308731B (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201804807D0 (en) * | 2018-03-26 | 2018-05-09 | Orbital Media And Advertising Ltd | Interaactive systems and methods |
CN109741247B (zh) * | 2018-12-29 | 2020-04-21 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
CN109905764B (zh) * | 2019-03-21 | 2021-08-24 | 广州国音智能科技有限公司 | 一种视频中目标人物语音截取方法及装置 |
CN110277099A (zh) * | 2019-06-13 | 2019-09-24 | 北京百度网讯科技有限公司 | 基于语音的嘴型生成方法和装置 |
CN110288682B (zh) * | 2019-06-28 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN110569720B (zh) * | 2019-07-31 | 2022-06-07 | 安徽四创电子股份有限公司 | 一种基于音视频处理系统的音视频智能识别处理方法 |
CN110446000B (zh) * | 2019-08-07 | 2021-04-16 | 三星电子(中国)研发中心 | 一种生成对话人物形象的方法和装置 |
CN110493613B (zh) * | 2019-08-16 | 2020-05-19 | 江苏遨信科技有限公司 | 一种视频音唇同步的合成方法及系统 |
CN110675891B (zh) * | 2019-09-25 | 2020-09-18 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
CN110942502B (zh) * | 2019-11-29 | 2021-10-15 | 中山大学 | 语音唇形拟合方法、系统及存储介质 |
CN111243065B (zh) * | 2019-12-26 | 2022-03-11 | 浙江大学 | 一种语音信号驱动的脸部动画生成方法 |
CN111243626B (zh) * | 2019-12-30 | 2022-12-09 | 清华大学 | 一种说话视频生成方法及系统 |
CN111261187B (zh) * | 2020-02-04 | 2023-02-14 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
CN111325817B (zh) * | 2020-02-04 | 2023-07-18 | 清华珠三角研究院 | 一种虚拟人物场景视频的生成方法、终端设备及介质 |
CN111277912B (zh) * | 2020-02-17 | 2021-12-31 | 百度在线网络技术(北京)有限公司 | 图像处理方法、装置和电子设备 |
CN113379874B (zh) * | 2020-02-25 | 2023-04-07 | 武汉Tcl集团工业研究院有限公司 | 一种人脸动画生成方法、智能终端及存储介质 |
CN111369967B (zh) * | 2020-03-11 | 2021-03-05 | 北京字节跳动网络技术有限公司 | 基于虚拟人物的语音合成方法、装置、介质及设备 |
CN111508064B (zh) * | 2020-04-14 | 2022-06-17 | 北京世纪好未来教育科技有限公司 | 基于音素驱动的表情合成方法、装置和计算机存储介质 |
CN111724458B (zh) * | 2020-05-09 | 2023-07-04 | 天津大学 | 一种语音驱动的三维人脸动画生成方法及网络结构 |
CN112002301A (zh) * | 2020-06-05 | 2020-11-27 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化视频生成方法 |
CN112102468B (zh) * | 2020-08-07 | 2022-03-04 | 北京汇钧科技有限公司 | 模型训练、虚拟人物图像生成方法和装置以及存储介质 |
CN112215927B (zh) * | 2020-09-18 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 人脸视频的合成方法、装置、设备及介质 |
CN114333896A (zh) * | 2020-09-25 | 2022-04-12 | 华为技术有限公司 | 语音分离方法、电子设备、芯片及计算机可读存储介质 |
CN112215926A (zh) * | 2020-09-28 | 2021-01-12 | 北京华严互娱科技有限公司 | 一种语音驱动的人脸动作实时转移方法和系统 |
CN112541956A (zh) * | 2020-11-05 | 2021-03-23 | 北京百度网讯科技有限公司 | 动画合成方法、装置、移动终端和电子设备 |
CN112866586B (zh) * | 2021-01-04 | 2023-03-07 | 北京中科闻歌科技股份有限公司 | 一种视频合成方法、装置、设备及存储介质 |
CN112750185A (zh) * | 2021-01-19 | 2021-05-04 | 清华大学 | 一种肖像画视频生成方法、装置、电子设备及存储介质 |
CN114338959A (zh) * | 2021-04-15 | 2022-04-12 | 西安汉易汉网络科技股份有限公司 | 端到端即文本到视频的视频合成方法、系统介质及应用 |
CN113160799B (zh) * | 2021-04-22 | 2022-05-31 | 贝壳找房(北京)科技有限公司 | 视频生成方法和装置、计算机可读存储介质、电子设备 |
CN113240792B (zh) * | 2021-04-29 | 2022-08-16 | 浙江大学 | 一种基于人脸重建的图像融合生成式换脸方法 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113378697B (zh) * | 2021-06-08 | 2022-12-09 | 安徽大学 | 一种基于卷积神经网络的说话人脸视频生成方法及装置 |
CN114022597B (zh) * | 2021-07-16 | 2024-10-11 | 清华大学 | 多风格唇形合成方法、装置、设备及存储介质 |
CN113628635B (zh) * | 2021-07-19 | 2023-09-15 | 武汉理工大学 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
CN113744369A (zh) * | 2021-09-09 | 2021-12-03 | 广州梦映动漫网络科技有限公司 | 一种动画生成方法、系统、介质及电子终端 |
CN113822969B (zh) * | 2021-09-15 | 2023-06-09 | 宿迁硅基智能科技有限公司 | 训练神经辐射场模型和人脸生成方法、装置及服务器 |
CN114093384A (zh) * | 2021-11-22 | 2022-02-25 | 上海商汤科技开发有限公司 | 说话视频生成方法、装置、设备以及存储介质 |
CN114445529A (zh) * | 2022-02-08 | 2022-05-06 | 北京中科深智科技有限公司 | 一种基于动作及语音特征的人脸图像动画方法和系统 |
CN114463688A (zh) * | 2022-04-12 | 2022-05-10 | 之江实验室 | 一种跨模态上下文编码的对话情感识别方法及系统 |
CN114663962B (zh) * | 2022-05-19 | 2022-09-16 | 浙江大学 | 一种基于图像补全的唇形同步人脸伪造生成方法及系统 |
CN115376211B (zh) * | 2022-10-25 | 2023-03-24 | 北京百度网讯科技有限公司 | 唇形驱动方法、唇形驱动模型的训练方法、装置及设备 |
CN115393945A (zh) * | 2022-10-27 | 2022-11-25 | 科大讯飞股份有限公司 | 基于语音的图像驱动方法、装置、电子设备及存储介质 |
CN115661005B (zh) * | 2022-12-26 | 2023-05-12 | 成都索贝数码科技股份有限公司 | 一种定制数字人的生成方法及设备 |
CN116524087A (zh) * | 2023-05-15 | 2023-08-01 | 苏州大学 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
CN117152317B (zh) * | 2023-11-01 | 2024-02-13 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
CN117274725B (zh) * | 2023-11-23 | 2024-04-12 | 西南交通大学 | 基于张量ConvLSTM的高光谱图像分类方法和装置 |
CN118279457B (zh) * | 2024-05-29 | 2024-10-11 | 华南理工大学 | 一种基于大脑启发式的文本驱动三维人脸方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018103220A1 (zh) * | 2016-12-09 | 2018-06-14 | 武汉斗鱼网络科技有限公司 | 一种图像处理的方法及装置 |
WO2018132721A1 (en) * | 2017-01-12 | 2018-07-19 | The Regents Of The University Of Colorado, A Body Corporate | Method and system for implementing three-dimensional facial modeling and visual speech synthesis |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
JP3485508B2 (ja) * | 1999-10-26 | 2004-01-13 | 株式会社国際電気通信基礎技術研究所 | 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置 |
IT1320002B1 (it) * | 2000-03-31 | 2003-11-12 | Cselt Centro Studi Lab Telecom | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
US7990384B2 (en) * | 2003-09-15 | 2011-08-02 | At&T Intellectual Property Ii, L.P. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
US9613450B2 (en) * | 2011-05-03 | 2017-04-04 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech |
GB2510201B (en) * | 2013-01-29 | 2017-05-03 | Toshiba Res Europe Ltd | A computer generated head |
CN103218842B (zh) * | 2013-03-12 | 2015-11-25 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
US10403269B2 (en) * | 2015-03-27 | 2019-09-03 | Google Llc | Processing audio waveforms |
US9984683B2 (en) * | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
CN106600667B (zh) * | 2016-12-12 | 2020-04-21 | 南京大学 | 一种基于卷积神经网络的视频驱动人脸动画方法 |
US10497382B2 (en) * | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
CN106710589B (zh) * | 2016-12-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
CN107563319A (zh) * | 2017-08-24 | 2018-01-09 | 西安交通大学 | 一种基于图像的亲子间人脸相似性度量计算方法 |
-
2018
- 2018-08-24 CN CN201810972946.2A patent/CN109308731B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018103220A1 (zh) * | 2016-12-09 | 2018-06-14 | 武汉斗鱼网络科技有限公司 | 一种图像处理的方法及装置 |
WO2018132721A1 (en) * | 2017-01-12 | 2018-07-19 | The Regents Of The University Of Colorado, A Body Corporate | Method and system for implementing three-dimensional facial modeling and visual speech synthesis |
Non-Patent Citations (2)
Title |
---|
B. Fasel等.Robust face analysis using convolutional neural networks.《2002 International Conference on Pattern Recognition》.2002,40-44. * |
肖焕侯 ; 史景伦 ; .基于C3D和视觉元素的视频描述.华南理工大学学报(自然科学版).2018,(08),94-101. * |
Also Published As
Publication number | Publication date |
---|---|
CN109308731A (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308731B (zh) | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 | |
Olszewski et al. | High-fidelity facial and speech animation for VR HMDs | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的系统和方法 | |
Ma et al. | Styletalk: One-shot talking head generation with controllable speaking styles | |
US11354841B2 (en) | Speech-driven facial animation generation method | |
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及系统 | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN113838174B (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN110610534B (zh) | 基于Actor-Critic算法的口型动画自动生成方法 | |
US20210390945A1 (en) | Text-driven video synthesis with phonetic dictionary | |
Wang et al. | High quality lip-sync animation for 3D photo-realistic talking head | |
CN110942502A (zh) | 语音唇形拟合方法、系统及存储介质 | |
WO2021023869A1 (en) | Audio-driven speech animation using recurrent neutral network | |
CN116051692B (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
Wang et al. | Synthesizing photo-real talking head via trajectory-guided sample selection | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
CN115578512A (zh) | 语音播报视频的生成模型训练和使用方法、装置及设备 | |
Bao et al. | Learning audio-driven viseme dynamics for 3d face animation | |
Liu et al. | 4D facial analysis: A survey of datasets, algorithms and applications | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
Sui et al. | A 3D audio-visual corpus for speech recognition | |
Wang et al. | Photo-real lips synthesis with trajectory-guided sample selection. | |
CN116825083A (zh) | 基于人脸网格的语音合成系统 | |
CN113450824B (zh) | 一种基于多尺度视频特征融合的语音唇读方法及系统 | |
Deena et al. | Speech-driven facial animation using a shared Gaussian process latent variable model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |