CN109308731A - 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 - Google Patents

级联卷积lstm的语音驱动唇形同步人脸视频合成算法 Download PDF

Info

Publication number
CN109308731A
CN109308731A CN201810972946.2A CN201810972946A CN109308731A CN 109308731 A CN109308731 A CN 109308731A CN 201810972946 A CN201810972946 A CN 201810972946A CN 109308731 A CN109308731 A CN 109308731A
Authority
CN
China
Prior art keywords
video
voice
face
bottom plate
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810972946.2A
Other languages
English (en)
Other versions
CN109308731B (zh
Inventor
朱建科
江泽胤子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810972946.2A priority Critical patent/CN109308731B/zh
Publication of CN109308731A publication Critical patent/CN109308731A/zh
Application granted granted Critical
Publication of CN109308731B publication Critical patent/CN109308731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法。采集目标人物的说话视频作为底板视频,对图像序列进行三维人脸重建获得目标三维人脸模型,获得底板视频的面部动画向量序列;音频信号提取出滤波器组的语音特征;将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练测试;用音频信号的面部动画向量序列替换目标三维人脸模型的面部动画向量序列生成新三维人脸模型并渲染人脸图像合成唇形同步人脸视频。本发明保留更多的声纹信息,创新通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,增加了网络深度,获得了准确的唇形同步人脸视频。

Description

级联卷积LSTM的语音驱动唇形同步人脸视频合成算法
技术领域
本发明涉及计算机视觉领域以及音频信号处理的相关技术,尤其涉及了一种基于级联卷积长短时记忆网络结构(级联卷积LSTM)的语音驱动唇形同步人脸视频算法。
背景技术
经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中。本发明希望通过提出一种新的从语音或文本合成语音生成唇形同步人脸视频的方法,使得网络聊天机器人具有真人的外观及表情。
语音或文本合成语音通常被表示为单声道音频信号,且频率很高,通常为16KHz。另一方面,视频是二维图像的时间序列,具有高维度(超过100K)和相对较低的采样频率,如25帧/秒,是一个三维信号。由于人类对面部表情的微妙变化非常敏感,所以需要生成细粒度的合成结果。因此,通过从低维度高频语音的音频信号或文本合成语音的音频信号中直接恢复高保真度的高维度低频视频是很有挑战的,这是一个严重欠约束的病态问题。
发明内容
为了解决背景技术中存在的问题,本发明提出了级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,实现了通过语音或文本合成语音合成唇形同步人脸视频。
本发明采用的技术方案包括如下步骤:
1)采集目标人物的说话视频作为底板视频,说话视频中的目标人物即为最终人脸视频合成的主体人物,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列,该面部动画向量序列即为合成人脸表情的加权系数;
2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;
3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;
训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;
测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;
4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合准确稠密的三维人脸追踪方式生成新的三维人脸模型;
5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。
本发明特殊采用滤波器组的语音特征处理获得面部模型数据,构建了特殊的级联卷积长短时记忆网络进行训练预测获得对应音频信号的面部模型数据替换图像的面部模型数据合成获得唇形同步人脸视频。
所述步骤1)中的目标三维人脸模型使用了准确稠密的三维形变模型三维人脸重建。
所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。
所述步骤3)中的级联卷积长短时记忆网络结构,如图1和图3所示,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;
所述的级联卷积长短时记忆网络结构采用以下公式表示的锚样例、正样例、负样例之间的三元组损失函数,如下:
Ltri=max(0,p-α×n)
其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数;
所述步骤4)使用准确稠密的三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型。
所述步骤5)中,渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像,再结合嘴唇图像进行最终人脸图像的渲染,合成唇形同步人脸视频。
所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。
传统唇形同步人脸视频合成算法通过将音频流转化为毫秒级的音素序列,而音素的提取大多通过人工标记或者自动语音识别系统,这个过程很容易出错而且很复杂,需要很高的人力成本。最近基于梅尔频率倒谱系数特征的方法忽略了同一个时间窗口内的相关性,因此也忽略了音频信号中大量的细节信息。
而本发明提出的算法直接从音频信号中提取滤波器组的语音特征,之后经过级联卷积长短时记忆网络的预测,最终合成唇形同步人脸视频,将唇形同步人脸视频合成问题转化为从音频信号到面部动画向量序列的序列到序列回归问题。
本发明的有益效果是:
本发明提出了语音驱动的唇形同步人脸视频合成算法,创新地利用滤波器组的语音特征进行二维卷积操作,从而获得了同一时间窗口的相关性,保留了大量的语音特征信息,并且使用了新颖的级联卷积长短时记忆网络模型,解决了恢复从音频信号到人脸视频的复杂映射问题,准确稠密的三维人脸跟踪解决了因人物说话引起的头部移动和面部细微变化,最终合成唇形同步人脸视频。
本发明直接从音频信号中提取滤波器组的语音特征,相对于传统的梅尔频率倒谱系数特征,可以尽可能保留更多的声纹信息并转化为二维信号;使得可以利用卷积长短时记忆网络去捕获更丰富的空间信息,用于生成面部动画向量序列;然后结合准确稠密的三维人脸跟踪算法来合成唇形同步人脸视频。
本发明提出了的算法,创新地通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,该语音特征不仅增加了网络的深度而且分析了时间窗口内部以及不同时间窗口之间的相关性,进一步利用级联卷积长短时记忆网络获取音频信号与人脸视频间的复杂映射关系,并且通过准确稠密的三维人脸追踪对人物说话时引起的头部移动和面部的细微变化解耦合。
附图说明
图1为本发明算法采用的神经网络结构示意图。
图2为本发明算法的整体结构示意图。
图3为本发明算法的流程图。
图4为数据集中的合成视频结果图;(a)使用真值合成的人脸视频,(b)使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频,(c)使用真人语音和级联卷积长短时记忆网络合成的人脸视频,(d)使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频。
表1为评测中的不同网络模型和损失函数的对比。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清晰、完整的描述。基于本发明中的实施例,本领域普通技术人员在没有做创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的目的、技术方案及优点更加清楚明白,接下来将参照附图对本发明实施例进行详细的说明。
按照本发明完整方法具体实施的实施例如下:
如图2所示,采用以下系统模块为:
输入模块,用来接收用户输入语音的音频信号或文本合成语音的音频信号,接下来送入级联卷积长短时记忆网络模块进行特征提取并生成面部动画向量序列。
级联卷积长短时记忆网络模块,把接收到的音频信号进行基于滤波器组的语音特征提取,之后进行卷积操作,进行卷积长短时记忆神经网络操作,最后进行全连接网络操作,生成面部动画向量序列,并送入输出模块。
输出模块,通过级联卷积长短时记忆网络模块输出的面部动画向量序列合成人脸视频,把最终合成的人脸视频显示出来。
为验证本发明,在自己采集的数据集上进行设计实验,将本发明算法采用不同模型和损失函数进行对比,把实验结果与用目标面部动画向量序列合成的人脸视频进行对比。如图4所示,本发明提出的算法可精确合成人脸视频。图4(a)的四张子图为使用真值合成的人脸视频中不同连续帧的图像序列,图4(b)为使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频不同连续帧的图像序列,图4(c)为使用真人语音和级联卷积长短时记忆网络合成的人脸视频不同连续帧的图像序列,图4(d)为使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频不同连续帧的图像序列。
图4中可见采用本发明合成的人脸视频非常接近用目标面部动画向量序列合成的人脸视频。收集的数据包含17个用Kinect 2.0采集的说话人视频序列,视频总长81分钟22秒,共17段,共146460帧,用时间戳同步了音频和视频图像以及深度信息,验证结果如表1所示。
表1:不同网络模型和损失函数的对比
上表中可见本发明的结果在的数据集测试中不仅性能优秀,并且可以合成逼真的人脸视频。
由此可见本发明算法取得在语音驱动人脸视频合成领域中常用算法更优秀的实验结果。
最后,应当指出,以上实施例仅是本发明较有代表性的例子。显然,本发明的技术方案并不限于上述实施例,还可以有许多变形。本领域的普通技术人员可在不脱离本发明的发明思想情况下,对于上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

Claims (7)

1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:
1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;
2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;
3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;
4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;
5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。
2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。
3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。
4.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤3)中的级联卷积长短时记忆网络结构,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;
所述的级联卷积长短时记忆网络结构采用以下公式的三元组损失函数,如下:
Ltri=max(0,p-α×n)
其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数。
5.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤4)使用三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型。
6.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤5)中,渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像,再结合嘴唇图像进行最终人脸图像的渲染,合成唇形同步人脸视频。
7.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。
CN201810972946.2A 2018-08-24 2018-08-24 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 Active CN109308731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810972946.2A CN109308731B (zh) 2018-08-24 2018-08-24 级联卷积lstm的语音驱动唇形同步人脸视频合成算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810972946.2A CN109308731B (zh) 2018-08-24 2018-08-24 级联卷积lstm的语音驱动唇形同步人脸视频合成算法

Publications (2)

Publication Number Publication Date
CN109308731A true CN109308731A (zh) 2019-02-05
CN109308731B CN109308731B (zh) 2023-04-25

Family

ID=65224180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810972946.2A Active CN109308731B (zh) 2018-08-24 2018-08-24 级联卷积lstm的语音驱动唇形同步人脸视频合成算法

Country Status (1)

Country Link
CN (1) CN109308731B (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741247A (zh) * 2018-12-29 2019-05-10 四川大学 一种基于神经网络的肖像漫画生成方法
CN109905764A (zh) * 2019-03-21 2019-06-18 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN110288682A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
CN110446000A (zh) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110493613A (zh) * 2019-08-16 2019-11-22 江苏遨信科技有限公司 一种视频音唇同步的合成方法及系统
GB2574098A (en) * 2018-03-26 2019-11-27 Orbital Media And Advertising Ltd Interactive systems and methods
CN110569720A (zh) * 2019-07-31 2019-12-13 安徽四创电子股份有限公司 一种基于音视频处理系统的音视频智能识别处理方法
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN110942502A (zh) * 2019-11-29 2020-03-31 中山大学 语音唇形拟合方法、系统及存储介质
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN111243065A (zh) * 2019-12-26 2020-06-05 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111261187A (zh) * 2020-02-04 2020-06-09 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
CN111277912A (zh) * 2020-02-17 2020-06-12 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备
CN111325817A (zh) * 2020-02-04 2020-06-23 清华珠三角研究院 一种虚拟人物场景视频的生成方法、终端设备及介质
CN111369967A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备
CN111508064A (zh) * 2020-04-14 2020-08-07 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN111724458A (zh) * 2020-05-09 2020-09-29 天津大学 一种语音驱动的三维人脸动画生成方法及网络结构
CN112002301A (zh) * 2020-06-05 2020-11-27 四川纵横六合科技股份有限公司 一种基于文本的自动化视频生成方法
CN112102468A (zh) * 2020-08-07 2020-12-18 北京沃东天骏信息技术有限公司 模型训练、虚拟人物图像生成方法和装置以及存储介质
CN112215926A (zh) * 2020-09-28 2021-01-12 北京华严互娱科技有限公司 一种语音驱动的人脸动作实时转移方法和系统
CN112215927A (zh) * 2020-09-18 2021-01-12 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112541956A (zh) * 2020-11-05 2021-03-23 北京百度网讯科技有限公司 动画合成方法、装置、移动终端和电子设备
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质
CN112866586A (zh) * 2021-01-04 2021-05-28 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质
CN113160799A (zh) * 2021-04-22 2021-07-23 北京房江湖科技有限公司 视频生成方法和装置、计算机可读存储介质、电子设备
CN113240792A (zh) * 2021-04-29 2021-08-10 浙江大学 一种基于人脸重建的图像融合生成式换脸方法
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113379874A (zh) * 2020-02-25 2021-09-10 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN113378697A (zh) * 2021-06-08 2021-09-10 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN113470170A (zh) * 2021-07-02 2021-10-01 厦门大学 一种利用语音信息的实时视频人脸区域时空一致合成方法
CN113628635A (zh) * 2021-07-19 2021-11-09 武汉理工大学 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN113744369A (zh) * 2021-09-09 2021-12-03 广州梦映动漫网络科技有限公司 一种动画生成方法、系统、介质及电子终端
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN114022597A (zh) * 2021-07-16 2022-02-08 清华大学 多风格唇形合成方法、装置、设备及存储介质
WO2022062800A1 (zh) * 2020-09-25 2022-03-31 华为技术有限公司 语音分离方法、电子设备、芯片及计算机可读存储介质
CN114338959A (zh) * 2021-04-15 2022-04-12 西安汉易汉网络科技股份有限公司 端到端即文本到视频的视频合成方法、系统介质及应用
CN114445529A (zh) * 2022-02-08 2022-05-06 北京中科深智科技有限公司 一种基于动作及语音特征的人脸图像动画方法和系统
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
CN114663962A (zh) * 2022-05-19 2022-06-24 浙江大学 一种基于图像补全的唇形同步人脸伪造生成方法及系统
CN115376211A (zh) * 2022-10-25 2022-11-22 北京百度网讯科技有限公司 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
CN115393945A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 基于语音的图像驱动方法、装置、电子设备及存储介质
CN115661005A (zh) * 2022-12-26 2023-01-31 成都索贝数码科技股份有限公司 一种定制数字人的生成方法及设备
WO2023088080A1 (zh) * 2021-11-22 2023-05-25 上海商汤智能科技有限公司 说话视频生成方法、装置、电子设备以及存储介质
CN116524087A (zh) * 2023-05-15 2023-08-01 苏州大学 融合神经辐射场的音频驱动的说话人视频合成方法及系统
CN117152317A (zh) * 2023-11-01 2023-12-01 之江实验室科技控股有限公司 数字人界面控制的优化方法
CN117274725A (zh) * 2023-11-23 2023-12-22 西南交通大学 基于张量ConvLSTM的高光谱图像分类方法和装置
CN118154830A (zh) * 2024-03-19 2024-06-07 浙江大学 一种基于单视角视频的2d数字人重光照方法和系统
CN118279457A (zh) * 2024-05-29 2024-07-02 华南理工大学 一种基于大脑启发式的文本驱动三维人脸方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6675145B1 (en) * 1999-10-26 2004-01-06 Advanced Telecommunications Research Institute International Method and system for integrated audiovisual speech coding at low bitrate
US20050057570A1 (en) * 2003-09-15 2005-03-17 Eric Cosatto Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US20060012601A1 (en) * 2000-03-31 2006-01-19 Gianluca Francini Method of animating a synthesised model of a human face driven by an acoustic signal
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
US20120280974A1 (en) * 2011-05-03 2012-11-08 Microsoft Corporation Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
US20140210831A1 (en) * 2013-01-29 2014-07-31 Kabushiki Kaisha Toshiba Computer generated head
US20160275341A1 (en) * 2015-03-18 2016-09-22 Adobe Systems Incorporated Facial Expression Capture for Character Animation
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms
CN106600667A (zh) * 2016-12-12 2017-04-26 南京大学 一种基于卷积神经网络的视频驱动人脸动画方法
CN107563319A (zh) * 2017-08-24 2018-01-09 西安交通大学 一种基于图像的亲子间人脸相似性度量计算方法
US20180025721A1 (en) * 2016-07-22 2018-01-25 Google Inc. Automatic speech recognition using multi-dimensional models
WO2018103220A1 (zh) * 2016-12-09 2018-06-14 武汉斗鱼网络科技有限公司 一种图像处理的方法及装置
US20180174600A1 (en) * 2016-12-16 2018-06-21 Google Inc. Associating faces with voices for speaker diarization within videos
US20180182377A1 (en) * 2016-12-28 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd Method and device for extracting speech feature based on artificial intelligence
WO2018132721A1 (en) * 2017-01-12 2018-07-19 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6675145B1 (en) * 1999-10-26 2004-01-06 Advanced Telecommunications Research Institute International Method and system for integrated audiovisual speech coding at low bitrate
US20060012601A1 (en) * 2000-03-31 2006-01-19 Gianluca Francini Method of animating a synthesised model of a human face driven by an acoustic signal
US20050057570A1 (en) * 2003-09-15 2005-03-17 Eric Cosatto Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
US20120280974A1 (en) * 2011-05-03 2012-11-08 Microsoft Corporation Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
US20140210831A1 (en) * 2013-01-29 2014-07-31 Kabushiki Kaisha Toshiba Computer generated head
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
US20160275341A1 (en) * 2015-03-18 2016-09-22 Adobe Systems Incorporated Facial Expression Capture for Character Animation
US20160284347A1 (en) * 2015-03-27 2016-09-29 Google Inc. Processing audio waveforms
US20180025721A1 (en) * 2016-07-22 2018-01-25 Google Inc. Automatic speech recognition using multi-dimensional models
WO2018103220A1 (zh) * 2016-12-09 2018-06-14 武汉斗鱼网络科技有限公司 一种图像处理的方法及装置
CN106600667A (zh) * 2016-12-12 2017-04-26 南京大学 一种基于卷积神经网络的视频驱动人脸动画方法
US20180174600A1 (en) * 2016-12-16 2018-06-21 Google Inc. Associating faces with voices for speaker diarization within videos
US20180182377A1 (en) * 2016-12-28 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd Method and device for extracting speech feature based on artificial intelligence
WO2018132721A1 (en) * 2017-01-12 2018-07-19 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
CN107563319A (zh) * 2017-08-24 2018-01-09 西安交通大学 一种基于图像的亲子间人脸相似性度量计算方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
B. FASEL等: "Robust face analysis using convolutional neural networks" *
FLORIAN SCHROFF 等: "FaceNet:A Unified Embedding for Face Recognition and Clustering", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
HOCHREITER S等: "Long short-term memory", 《NEURAL COMPUTATION》 *
肖焕侯;史景伦;: "基于C3D和视觉元素的视频描述" *
舒帆等: "采用长短时记忆网络的低资源语音识别方法", 《西安交通大学学报》 *
阳珊等: "基于BLSTM-RNN的语音驱动逼真面部动画合成", 《清华大学学报(自然科学版)》 *
陈益强等: "基于机器学习的语音驱动人脸动画方法", 《软件学报》 *
马飞等: "基于深度卷积神经网络的连续语音识别研究", 《军事通信技术》 *

Cited By (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2581943A (en) * 2018-03-26 2020-09-02 Orbital Media And Advertising Ltd Interactive systems and methods
GB2581943B (en) * 2018-03-26 2021-03-31 Virtturi Ltd Interactive systems and methods
GB2574098A (en) * 2018-03-26 2019-11-27 Orbital Media And Advertising Ltd Interactive systems and methods
GB2574098B (en) * 2018-03-26 2020-09-30 Orbital Media And Advertising Ltd Interactive systems and methods
CN109741247B (zh) * 2018-12-29 2020-04-21 四川大学 一种基于神经网络的肖像漫画生成方法
CN109741247A (zh) * 2018-12-29 2019-05-10 四川大学 一种基于神经网络的肖像漫画生成方法
CN109905764A (zh) * 2019-03-21 2019-06-18 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置
CN109905764B (zh) * 2019-03-21 2021-08-24 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN110288682A (zh) * 2019-06-28 2019-09-27 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
CN110288682B (zh) * 2019-06-28 2023-09-26 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
CN110569720A (zh) * 2019-07-31 2019-12-13 安徽四创电子股份有限公司 一种基于音视频处理系统的音视频智能识别处理方法
CN110446000A (zh) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110446000B (zh) * 2019-08-07 2021-04-16 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110493613A (zh) * 2019-08-16 2019-11-22 江苏遨信科技有限公司 一种视频音唇同步的合成方法及系统
CN110675891B (zh) * 2019-09-25 2020-09-18 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN110942502B (zh) * 2019-11-29 2021-10-15 中山大学 语音唇形拟合方法、系统及存储介质
CN110942502A (zh) * 2019-11-29 2020-03-31 中山大学 语音唇形拟合方法、系统及存储介质
CN111243065A (zh) * 2019-12-26 2020-06-05 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111243065B (zh) * 2019-12-26 2022-03-11 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN111243626B (zh) * 2019-12-30 2022-12-09 清华大学 一种说话视频生成方法及系统
CN111325817A (zh) * 2020-02-04 2020-06-23 清华珠三角研究院 一种虚拟人物场景视频的生成方法、终端设备及介质
CN111261187B (zh) * 2020-02-04 2023-02-14 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
CN111325817B (zh) * 2020-02-04 2023-07-18 清华珠三角研究院 一种虚拟人物场景视频的生成方法、终端设备及介质
CN111261187A (zh) * 2020-02-04 2020-06-09 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
CN111277912B (zh) * 2020-02-17 2021-12-31 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备
CN111277912A (zh) * 2020-02-17 2020-06-12 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备
CN113379874B (zh) * 2020-02-25 2023-04-07 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN113379874A (zh) * 2020-02-25 2021-09-10 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN111369967A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备
CN111508064B (zh) * 2020-04-14 2022-06-17 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN111508064A (zh) * 2020-04-14 2020-08-07 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN111724458B (zh) * 2020-05-09 2023-07-04 天津大学 一种语音驱动的三维人脸动画生成方法及网络结构
CN111724458A (zh) * 2020-05-09 2020-09-29 天津大学 一种语音驱动的三维人脸动画生成方法及网络结构
CN112002301A (zh) * 2020-06-05 2020-11-27 四川纵横六合科技股份有限公司 一种基于文本的自动化视频生成方法
CN112102468A (zh) * 2020-08-07 2020-12-18 北京沃东天骏信息技术有限公司 模型训练、虚拟人物图像生成方法和装置以及存储介质
CN112102468B (zh) * 2020-08-07 2022-03-04 北京汇钧科技有限公司 模型训练、虚拟人物图像生成方法和装置以及存储介质
CN112215927B (zh) * 2020-09-18 2023-06-23 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112215927A (zh) * 2020-09-18 2021-01-12 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
WO2022062800A1 (zh) * 2020-09-25 2022-03-31 华为技术有限公司 语音分离方法、电子设备、芯片及计算机可读存储介质
CN112215926A (zh) * 2020-09-28 2021-01-12 北京华严互娱科技有限公司 一种语音驱动的人脸动作实时转移方法和系统
CN112541956A (zh) * 2020-11-05 2021-03-23 北京百度网讯科技有限公司 动画合成方法、装置、移动终端和电子设备
CN112866586A (zh) * 2021-01-04 2021-05-28 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质
CN112866586B (zh) * 2021-01-04 2023-03-07 北京中科闻歌科技股份有限公司 一种视频合成方法、装置、设备及存储介质
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质
CN114338959A (zh) * 2021-04-15 2022-04-12 西安汉易汉网络科技股份有限公司 端到端即文本到视频的视频合成方法、系统介质及应用
CN113160799A (zh) * 2021-04-22 2021-07-23 北京房江湖科技有限公司 视频生成方法和装置、计算机可读存储介质、电子设备
CN113240792B (zh) * 2021-04-29 2022-08-16 浙江大学 一种基于人脸重建的图像融合生成式换脸方法
CN113240792A (zh) * 2021-04-29 2021-08-10 浙江大学 一种基于人脸重建的图像融合生成式换脸方法
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113378697A (zh) * 2021-06-08 2021-09-10 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN113378697B (zh) * 2021-06-08 2022-12-09 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN113470170A (zh) * 2021-07-02 2021-10-01 厦门大学 一种利用语音信息的实时视频人脸区域时空一致合成方法
CN114022597A (zh) * 2021-07-16 2022-02-08 清华大学 多风格唇形合成方法、装置、设备及存储介质
CN114022597B (zh) * 2021-07-16 2024-10-11 清华大学 多风格唇形合成方法、装置、设备及存储介质
CN113628635B (zh) * 2021-07-19 2023-09-15 武汉理工大学 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN113628635A (zh) * 2021-07-19 2021-11-09 武汉理工大学 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN113744369A (zh) * 2021-09-09 2021-12-03 广州梦映动漫网络科技有限公司 一种动画生成方法、系统、介质及电子终端
CN113822969A (zh) * 2021-09-15 2021-12-21 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
WO2023088080A1 (zh) * 2021-11-22 2023-05-25 上海商汤智能科技有限公司 说话视频生成方法、装置、电子设备以及存储介质
CN114445529A (zh) * 2022-02-08 2022-05-06 北京中科深智科技有限公司 一种基于动作及语音特征的人脸图像动画方法和系统
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
CN114663962A (zh) * 2022-05-19 2022-06-24 浙江大学 一种基于图像补全的唇形同步人脸伪造生成方法及系统
CN115376211A (zh) * 2022-10-25 2022-11-22 北京百度网讯科技有限公司 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
CN115376211B (zh) * 2022-10-25 2023-03-24 北京百度网讯科技有限公司 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
CN115393945A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 基于语音的图像驱动方法、装置、电子设备及存储介质
CN115661005A (zh) * 2022-12-26 2023-01-31 成都索贝数码科技股份有限公司 一种定制数字人的生成方法及设备
CN116524087A (zh) * 2023-05-15 2023-08-01 苏州大学 融合神经辐射场的音频驱动的说话人视频合成方法及系统
CN117152317A (zh) * 2023-11-01 2023-12-01 之江实验室科技控股有限公司 数字人界面控制的优化方法
CN117152317B (zh) * 2023-11-01 2024-02-13 之江实验室科技控股有限公司 数字人界面控制的优化方法
CN117274725A (zh) * 2023-11-23 2023-12-22 西南交通大学 基于张量ConvLSTM的高光谱图像分类方法和装置
CN117274725B (zh) * 2023-11-23 2024-04-12 西南交通大学 基于张量ConvLSTM的高光谱图像分类方法和装置
CN118154830A (zh) * 2024-03-19 2024-06-07 浙江大学 一种基于单视角视频的2d数字人重光照方法和系统
CN118279457A (zh) * 2024-05-29 2024-07-02 华南理工大学 一种基于大脑启发式的文本驱动三维人脸方法

Also Published As

Publication number Publication date
CN109308731B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN109308731A (zh) 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
CN101751692B (zh) 语音驱动唇形动画的方法
Hong et al. Real-time speech-driven face animation with expressions using neural networks
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
US20230045064A1 (en) Voice recognition using accelerometers for sensing bone conduction
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
Illa et al. Representation learning using convolution neural network for acoustic-to-articulatory inversion
CN113838173B (zh) 一种受语音和背景声联合驱动的虚拟人头部运动合成方法
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
JP2000308198A (ja) 補聴器
CN110348409A (zh) 一种基于声纹生成人脸图像的方法和装置
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN117115316A (zh) 一种基于多层级语音特征的语音驱动三维人脸动画方法
CN117975991B (zh) 基于人工智能的数字人驱动方法及装置
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Sargin et al. Prosody-driven head-gesture animation
Riad et al. Signsworld; deeping into the silence world and hearing its signs (state of the art)
CN117219050A (zh) 一种基于深度生成对抗网络的文本生成视频系统
Vignoli et al. A text-speech synchronization technique with applications to talking heads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant