CN110277099A - 基于语音的嘴型生成方法和装置 - Google Patents

基于语音的嘴型生成方法和装置 Download PDF

Info

Publication number
CN110277099A
CN110277099A CN201910512255.9A CN201910512255A CN110277099A CN 110277099 A CN110277099 A CN 110277099A CN 201910512255 A CN201910512255 A CN 201910512255A CN 110277099 A CN110277099 A CN 110277099A
Authority
CN
China
Prior art keywords
voice
mouth
key point
point coordinate
convolutional network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910512255.9A
Other languages
English (en)
Inventor
刘霄
李鑫
龙翔
张赫男
孙昊
文石磊
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910512255.9A priority Critical patent/CN110277099A/zh
Publication of CN110277099A publication Critical patent/CN110277099A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种基于语音的嘴型生成方法和装置,属于深度学习领域。该方法包括:获取所述语音;根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;根据所述嘴部关键点坐标序列得到所述嘴型。该基于语音的嘴型生成方法和装置可以并行处理多条语音,提高处理效率。

Description

基于语音的嘴型生成方法和装置
技术领域
本发明涉及深度学习,具体地涉及基于语音的嘴型生成方法和装置。
背景技术
虚拟主播指的是根据一段文本生成一个主播形象,主播说的话、脸部唇形、表情、动作都与文本所表达的内容和情感匹配。该技术的关键在于根据一段语音生成嘴部关键点。语音输入是一个连续的时间序列,生成的嘴部关键点也是个连续的时间序列,两个序列需要尽量的匹配,使得每个时间点上嘴部关键点形成的唇形对应于语音输入。当前还无法大规模的并行处理多条语音导致处理效率非常低。
发明内容
本发明实施例的目的是提供一种基于语音的嘴型生成方法和装置,该基于语音的嘴型生成方法和装置可以并行处理多条语音,提高处理效率。
为了实现上述目的,本发明实施例提供一种基于语音的嘴型生成方法,该方法包括:获取所述语音;根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;根据所述嘴部关键点坐标序列得到所述嘴型。
优选地,所述方法还包括:获取测试语音和所述测试语音对应的人物嘴部影像;根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
优选地,所述根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列包括:根据所述语音提取梅尔频率倒谱系数特征;将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
优选地,根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络包括:对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列,计算均方差损失函数;根据所述均方差损失函数调整训练前的时间卷积网络的参数,得到训练后的时间卷积网络。
优选地,所述时间卷积网络为三层。
本发明还提供一种基于语音的嘴型生成装置,该装置包括:获取单元以及处理单元,其中,所述获取单元用于获取所述语音;所述处理单元用于根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;根据所述嘴部关键点坐标序列得到所述嘴型。
优选地,该嘴型生成装置还包括训练单元,用于获取测试语音和所述测试语音对应的人物嘴部影像;根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
优选地,处理单元具体用于:根据所述语音提取梅尔频率倒谱系数特征;将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
本发明实施例还提供一种电子设备,该电子设备包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,以实现上文所述的基于语音的嘴型生成方法。
本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上文所述的基于语音的嘴型生成方法。
通过上述技术方案,通过本发明提供的基于语音的嘴型生成方法和装置,通过训练后的时间卷积网络,从语音中得到对应的嘴部关键点坐标序列,然后根据嘴部关键点坐标序列得到嘴型。由于时间卷积网络的特性,该基于语音的嘴型生成方法和装置可以并行处理多条语音,提高处理效率。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的基于语音的嘴型生成方法的流程图;
图2是本发明另一实施例提供的基于语音的嘴型生成方法的流程图;
图3是本发明一实施例提供的训练后的时间卷积网络的方法流程图;
图4是本发明另一实施例提供的训练后的时间卷积网络的方法流程图;
图5是本发明一实施例提供的时间卷积网络的结构示意图;
图6是本发明一实施例提供的基于语音的嘴型生成装置的结构示意图。
附图标记说明
1 获取单元 2 处理单元
3 训练单元。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1是本发明一实施例提供的基于语音的嘴型生成方法的流程图。如图1所述,该方法包括:
步骤S11,获取所述语音;
步骤S12,根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;
步骤S13,根据所述嘴部关键点坐标序列得到所述嘴型。
时间卷积网络(Temporal Convolutional Nets,TCN)是一种可以用来解决时间序列预测的算法,在本发明实施例中,使用TCN可以从语音生成嘴部关键点坐标序列,可以理解的是,该序列的坐标是以嘴部动作发生时间为先后顺序排列的。本发明使用训练后的TCN来进行嘴部关键点坐标序列的处理。TCN的具体训练方式将在下文详述。在得到嘴部关键点坐标序列之后,就可以根据嘴部关键点坐标序列得到嘴型。
图2是本发明另一实施例提供的基于语音的嘴型生成方法的流程图。如图2所述,该方法包括:
步骤S21,获取所述语音;
步骤S22,根据所述语音提取梅尔频率倒谱系数特征;
步骤S23,将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列;
步骤S24,根据所述嘴部关键点坐标序列得到所述嘴型。
在本实施例中,提供了一种根据语音以及训练后的TCN,得到嘴部关键点坐标序列的方式。
首先从语音中提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)特征,然后将MFCC特征输入训练后的TCN,训练后的TCN输出的序列就是嘴部关键点坐标序列。
图3是本发明一实施例提供的训练后的时间卷积网络的方法流程图。如图3所示,该方法包括:
步骤S31,获取测试语音和所述测试语音对应的人物嘴部影像;
步骤S32,根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;
步骤S33,根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;
步骤S34,根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
本实施例提供对于TCN的训练方式。首先,获取一段测试语音,并且至少该测试语音对应的人物嘴部影像是已知的。然后,从人物嘴部影像中,提取出人物嘴部影像对应的嘴部关键点坐标序列,人物嘴部影像对应的嘴部关键点坐标序列可以认为使较为真实的嘴部关键点坐标序列,以作为后续对比使用。接着,使用未训练的,也即训练前的TCN,从测试语音中得到语音对应的嘴部关键点坐标序列,由于使用的TCN不一定准确,所以这个序列可能是有较大问题的,于是,最后使用语音对应的嘴部关键点坐标序列和人物嘴部影像对应的嘴部关键点坐标序列,来调整训练前的TCN,知道语音对应的嘴部关键点坐标序列和人物嘴部影像对应的嘴部关键点坐标序列一致,就得到了训练后的TCN。
图4是本发明另一实施例提供的训练后的时间卷积网络的方法流程图。如图4所示,该方法包括:
步骤S31,获取测试语音和所述测试语音对应的人物嘴部影像;
步骤S32,根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;
步骤S33,根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;
步骤S34,对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列,计算均方差损失函数;
步骤S35,根据所述均方差损失函数调整训练前的时间卷积网络的参数,得到训练后的时间卷积网络。
在本实施例中,提供了根据人物嘴部影像对应的嘴部关键点坐标序列和测试语音对应的嘴部关键点坐标序列,调整训练前的TCN,从而得到训练后的TCN的方式。
首先,将测试语音对应的嘴部关键点坐标序列和人物嘴部影像对应的嘴部关键点坐标序列进行对比,计算损失函数(均方差),然后,依据损失函数调整训练前的TCN的参数,使得测试语音对应的嘴部关键点坐标序列与人物嘴部影像对应的嘴部关键点坐标序列一致,就得到了训练后的TCN。该训练后的TCN可以使用以精确地从语音中得到对应的嘴部关键点坐标序列。
以下将结合TCN的结构简单描述本发明的实现过程。
图5是本发明一实施例提供的时间卷积网络的结构示意图。如图5所示,在本发明实施例中,TCN为三层,可以分为输出层(即图5最上层)以及两个隐层,其输出层即输出嘴部关键点坐标序列,而输入的MFCC特征,经过两个隐层处理,最后达到输出层输出。TCN的每一层输入是一个序列(包括MFCC特征),输出是一个等长的序列。输出序列在每一个时间点的取值由其输入序列的当前时刻、前一个时刻以及下一个时刻的输入数据来决定。
图6是本发明一实施例提供的基于语音的嘴型生成装置的结构示意图。如图6所示,该装置包括:获取单元1以及处理单元2,其中,所述获取单元1用于获取所述语音;所述处理单元2用于根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;根据所述嘴部关键点坐标序列得到所述嘴型。
优选地,该嘴型生成装置还包括训练单元3,用于:获取测试语音和所述测试语音对应的人物嘴部影像;根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
优选地,处理单元具体用于:根据所述语音提取梅尔频率倒谱系数特征;将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
优选地,根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络包括:对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列,计算均方差损失函数;根据所述均方差损失函数调整训练前的时间卷积网络的参数,得到训练后的时间卷积网络。
优选地,所述时间卷积网络为三层。
上述基于语音的嘴型生成装置与上文所述的基于语音的嘴型生成方法的实施例类似,在此不再赘述。
本发明实施例还提供一种电子设备,该电子设备包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,以实现上文所述的基于语音的嘴型生成方法。
本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上文所述的基于语音的嘴型生成方法。
通过上述技术方案,通过本发明提供的基于语音的嘴型生成方法和装置,通过训练后的时间卷积网络,从语音中得到对应的嘴部关键点坐标序列,然后根据嘴部关键点坐标序列得到嘴型。由于时间卷积网络的特性,该基于语音的嘴型生成方法和装置可以并行处理多条语音,提高处理效率。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

Claims (10)

1.一种基于语音的嘴型生成方法,其特征在于,该方法包括:
获取所述语音;
根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;
根据所述嘴部关键点坐标序列得到所述嘴型。
2.根据权利要求1所述的基于语音的嘴型生成方法,其特征在于,所述方法还包括:
获取测试语音和所述测试语音对应的人物嘴部影像;
根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;
根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;
根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
3.根据权利要求1所述的基于语音的嘴型生成方法,其特征在于,所述根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列包括:
根据所述语音提取梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
4.根据权利要求2所述的基于语音的嘴型生成方法,其特征在于,根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络包括:
对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列,计算均方差损失函数;
根据所述均方差损失函数调整训练前的时间卷积网络的参数,得到训练后的时间卷积网络。
5.根据权利要求1所述的基于语音的嘴型生成方法,其特征在于,所述时间卷积网络为三层。
6.一种基于语音的嘴型生成装置,其特征在于,该装置包括:
获取单元以及处理单元,其中,
所述获取单元用于获取所述语音;
所述处理单元用于根据所述语音以及训练后的时间卷积网络,得到嘴部关键点坐标序列;根据所述嘴部关键点坐标序列得到所述嘴型。
7.根据权利要求6所述的基于语音的嘴型生成装置,其特征在于,该嘴型生成装置还包括训练单元,用于获取测试语音和所述测试语音对应的人物嘴部影像;
根据所述测试语音对应的人物嘴部影像,确定所述人物嘴部影像对应的嘴部关键点坐标序列;
根据所述测试语音和训练前的时间卷积网络,得到所述测试语音对应的嘴部关键点坐标序列;
根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列,调整训练前的时间卷积网络,以得到训练后的时间卷积网络。
8.根据权利要求6所述的基于语音的嘴型生成装置,其特征在于,所述处理单元具体用于:
根据所述语音提取梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络,得到所述嘴部关键点坐标序列。
9.一种电子设备,其特征在于,该电子设备包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的程序,以实现权利要求1-5中任一项权利要求所述的基于语音的嘴型生成方法。
10.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-5中任一项权利要求所述的基于语音的嘴型生成方法。
CN201910512255.9A 2019-06-13 2019-06-13 基于语音的嘴型生成方法和装置 Pending CN110277099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910512255.9A CN110277099A (zh) 2019-06-13 2019-06-13 基于语音的嘴型生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910512255.9A CN110277099A (zh) 2019-06-13 2019-06-13 基于语音的嘴型生成方法和装置

Publications (1)

Publication Number Publication Date
CN110277099A true CN110277099A (zh) 2019-09-24

Family

ID=67960807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910512255.9A Pending CN110277099A (zh) 2019-06-13 2019-06-13 基于语音的嘴型生成方法和装置

Country Status (1)

Country Link
CN (1) CN110277099A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429885A (zh) * 2020-03-02 2020-07-17 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN111508524A (zh) * 2020-03-05 2020-08-07 合肥工业大学 语音来源设备的识别方法和系统
CN112308949A (zh) * 2020-06-29 2021-02-02 北京京东尚科信息技术有限公司 模型训练、人脸图像生成方法和装置以及存储介质
CN112580669A (zh) * 2020-12-28 2021-03-30 出门问问(苏州)信息科技有限公司 一种对语音信息的训练方法及装置
CN114495908A (zh) * 2022-02-08 2022-05-13 北京中科深智科技有限公司 一种基于时序卷积的语音驱动口型的方法和系统
WO2022116977A1 (zh) * 2020-12-04 2022-06-09 腾讯科技(深圳)有限公司 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
CN115063873A (zh) * 2022-08-15 2022-09-16 珠海翔翼航空技术有限公司 基于静态和动态人脸检测的飞行数据获取方法、设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152074A1 (en) * 2001-02-26 2002-10-17 Junqua Jean-Claude Factorization for generating a library of mouth shapes
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
US20110128445A1 (en) * 2009-11-30 2011-06-02 Miranda Technologies Inc. Method and apparatus for providing signatures of audio/video signals and for making use thereof
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108847234A (zh) * 2018-06-28 2018-11-20 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
US20190130628A1 (en) * 2017-10-26 2019-05-02 Snap Inc. Joint audio-video facial animation system
CN109872724A (zh) * 2019-03-29 2019-06-11 广州虎牙信息科技有限公司 虚拟形象控制方法、虚拟形象控制装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152074A1 (en) * 2001-02-26 2002-10-17 Junqua Jean-Claude Factorization for generating a library of mouth shapes
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
US20110128445A1 (en) * 2009-11-30 2011-06-02 Miranda Technologies Inc. Method and apparatus for providing signatures of audio/video signals and for making use thereof
US20190130628A1 (en) * 2017-10-26 2019-05-02 Snap Inc. Joint audio-video facial animation system
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108847234A (zh) * 2018-06-28 2018-11-20 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109872724A (zh) * 2019-03-29 2019-06-11 广州虎牙信息科技有限公司 虚拟形象控制方法、虚拟形象控制装置和电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429885A (zh) * 2020-03-02 2020-07-17 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN111429885B (zh) * 2020-03-02 2022-05-13 北京理工大学 一种将音频片段映射为人脸嘴型关键点的方法
CN111508524A (zh) * 2020-03-05 2020-08-07 合肥工业大学 语音来源设备的识别方法和系统
CN111508524B (zh) * 2020-03-05 2023-02-21 合肥工业大学 语音来源设备的识别方法和系统
CN112308949A (zh) * 2020-06-29 2021-02-02 北京京东尚科信息技术有限公司 模型训练、人脸图像生成方法和装置以及存储介质
WO2022116977A1 (zh) * 2020-12-04 2022-06-09 腾讯科技(深圳)有限公司 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
CN112580669A (zh) * 2020-12-28 2021-03-30 出门问问(苏州)信息科技有限公司 一种对语音信息的训练方法及装置
CN112580669B (zh) * 2020-12-28 2023-08-01 出门问问(武汉)信息科技有限公司 一种对语音信息的训练方法及装置
CN114495908A (zh) * 2022-02-08 2022-05-13 北京中科深智科技有限公司 一种基于时序卷积的语音驱动口型的方法和系统
CN115063873A (zh) * 2022-08-15 2022-09-16 珠海翔翼航空技术有限公司 基于静态和动态人脸检测的飞行数据获取方法、设备
CN115063873B (zh) * 2022-08-15 2022-11-08 珠海翔翼航空技术有限公司 基于静态和动态人脸检测的飞行数据获取方法、设备

Similar Documents

Publication Publication Date Title
CN110277099A (zh) 基于语音的嘴型生成方法和装置
Wu et al. Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN105976812B (zh) 一种语音识别方法及其设备
CN104036774B (zh) 藏语方言识别方法及系统
CN107481713B (zh) 一种混合语言语音合成方法及装置
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN110444208A (zh) 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
Hashimoto et al. The effect of neural networks in statistical parametric speech synthesis
CN107578771A (zh) 语音识别方法及装置、存储介质、电子设备
CN110415687A (zh) 语音处理方法、装置、介质、电子设备
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
CN105161092B (zh) 一种语音识别方法和装置
CN106297773A (zh) 一种神经网络声学模型训练方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN106935239A (zh) 一种发音词典的构建方法及装置
CN107146624A (zh) 一种说话人确认方法及装置
CN112348073B (zh) 一种多音字识别方法、装置、电子设备及存储介质
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN111433847A (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN107437417A (zh) 基于循环神经网络语音识别中语音数据增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination