CN108763190A - 基于语音的口型动画合成装置、方法及可读存储介质 - Google Patents
基于语音的口型动画合成装置、方法及可读存储介质 Download PDFInfo
- Publication number
- CN108763190A CN108763190A CN201810327672.1A CN201810327672A CN108763190A CN 108763190 A CN108763190 A CN 108763190A CN 201810327672 A CN201810327672 A CN 201810327672A CN 108763190 A CN108763190 A CN 108763190A
- Authority
- CN
- China
- Prior art keywords
- mouth shape
- data
- feature
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 59
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims abstract description 19
- 238000010189 synthetic method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 24
- 239000000463 material Substances 0.000 claims description 16
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 241000208340 Araliaceae Species 0.000 claims 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 2
- 235000008434 ginseng Nutrition 0.000 claims 2
- 210000005036 nerve Anatomy 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 description 19
- 150000001875 compounds Chemical class 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000035479 physiological effects, processes and functions Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 210000005182 tip of the tongue Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于语音的口型动画合成装置,包括存储器和处理器,存储器上存储有可在处理器上运行的口型动画合成程序,该程序被处理器执行时实现如下步骤:获取目标文本数据,根据发音词典获取目标文本数据中的音素特征;将音素特征输入到预先训练好的深度神经网络模型中,输出声学特征,将声学特征输入到语音合成器中输出语音数据;根据语音数据、预先训练好的张量模型以及说话人标识信息,获取口型数据;根据口型数据生成与语音数据对应的口型动画。发明还提出一种基于语音的口型动画合成方法以及一种计算机可读存储介质。本发明解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于语音的口型动画合成装置、方法及可读存储介质。
背景技术
语音合成,又称为文语转换技术,是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
在一些应用场景中,例如计算机辅助发音训练的应用场景,需要在播放语音数据时,动态地展示说话人的口型变化情况,以帮助用户进行发音训练,在现有技术中,播放的是合成的语音数据时,由于没有与之对应的真实的说话人的口型数据可供展示,导致无法展示与合成的语音数据匹配的、并具有真实感的口型动画。
发明内容
本发明提供一种基于语音的口型动画合成装置、方法及可读存储介质,其主要目的在于解决现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。
为实现上述目的,本发明提供一种基于语音的口型动画合成装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的口型动画合成程序,所述口型动画合成程序被所述处理器执行时实现如下步骤:
获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;
将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;
将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;
根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;
根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
可选地,所述获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征的步骤包括:
获取目标文本数据,并对所述目标文本数据进行分词处理,以获取分词结果;
通过发音词典将分词结果中的词转换为音素特征。
可选地,所述口型动画合成程序还可被所述处理器执行,以实现如下步骤:
基于至少一个说话人的语料构建样本库,所述语料包括语音数据,以及与语音数据对应的文本数据和口型数据;
根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数;
根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数。
可选地,所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数的步骤包括:
根据所述发音词典从所述样本库中的文本数据中提取音素特征,从与文本数据对应的语音数据中提取声学特征;
将所述音素特征作为所述深度神经网络模型的输入特征,将所述声学特征作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练,获取深度神经网络模型的模型参数。
可选地,所述张量模型为三阶张量模型,所述根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数的步骤包括:
构建三阶张量模型,所述三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息;
获取所述样本库中的语音数据对应的发音特征,将所述发音特征和说话人标识信息作为所述三阶张量模型的输入特征,将与语音数据对应的口型数据作为所述三阶张量模型的输出特征,使用高阶奇异值分解算法训练所述三阶张量模型,以获取所述三阶张量模型的模型参数。
此外,为实现上述目的,本发明还提供一种基于语音的口型动画合成方法,该方法包括:
获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;
将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;
将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;
根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;
根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
可选地,所述方法还包括步骤:
基于至少一个说话人的语料构建样本库,所述语料包括语音数据,以及与语音数据对应的文本数据和口型数据;
根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数;
根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数。
可选地,所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数的步骤包括:
根据所述发音词典从所述样本库中的文本数据中提取音素特征,从与文本数据对应的语音数据中提取声学特征;
将所述音素特征作为所述深度神经网络模型的输入特征,将所述声学特征作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练,获取深度神经网络模型的模型参数。
可选地,所述张量模型为三阶张量模型,所述根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数的步骤包括:
构建三阶张量模型,所述三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息;
获取所述样本库中的语音数据对应的发音特征,将所述发音特征和说话人标识信息作为所述三阶张量模型的输入特征,将与语音数据对应的口型数据作为所述三阶张量模型的输出特征,使用高阶奇异值分解算法训练所述三阶张量模型,以获取所述三阶张量模型的模型参数。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有口型动画合成程序,所述口型动画合成程序可被一个或者多个处理器执行,以实现如上所述的基于语音的口型动画合成方法的步骤。
本发明提出的基于语音的口型动画合成装置、方法及可读存储介质,根据发音词典获取目标文本数据中的音素特征,将音素特征输入到预先训练好的深度神经网络模型中,输出与音素特征对应的声学特征,该声学特征包括MFCC特征、发音时长和发音基频,将这些声学特征输入到语音合成器中进行基于语音的口型动画合成,得到与目标文本数据对应的语音数据,根据语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与语音数据和说话人标识信息对应的口型数据,根据口型数据生成与语音数据对应的口型动画,以供在播放语音数据的同时,展示所述口型动画。本方案采用深度神经网络模型将目标文本数据转换为声学特征,能够实现更好的特征挖掘,使得语音合成系统得到更准确、更自然的输出结果,同时通过能够表达声学特征与口型数据的张量模型实现将合成的语音数据转换为对应的口型数据,根据口型数据生成与目标文本数据对应的口型动画,解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。
附图说明
图1为本发明基于语音的口型动画合成装置较佳实施例的示意图;
图2为本发明基于语音的口型动画合成装置一实施例中口型动画合成程序的程序模块示意图;
图3为本发明基于语音的口型动画合成方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于语音的口型动画合成装置。参照图1所示,为本发明基于语音的口型动画合成装置较佳实施例的示意图。
在本实施例中,基于语音的口型动画合成装置可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该基于语音的口型动画合成装置至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于语音的口型动画合成装置的内部存储单元,例如该基于语音的口型动画合成装置的硬盘。存储器11在另一些实施例中也可以是基于语音的口型动画合成装置的外部存储设备,例如基于语音的口型动画合成装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括基于语音的口型动画合成装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于语音的口型动画合成装置的应用软件及各类数据,例如口型动画合成程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行口型动画合成程序等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置与其他电子设备之间建立通信连接。
图1仅示出了具有组件11-14以及口型动画合成程序的基于语音的口型动画合成装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该装置还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于语音的口型动画合成装置中处理的信息以及用于显示可视化的用户界面。
在图1所示的装置实施例中,存储器11中存储有口型动画合成程序;处理器12执行存储器11中存储的口型动画合成程序时实现如下步骤:
获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征。
将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频。
将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据。
本实施例提出的方案中,通过预先建立的深度神经网络模型将目标文本数据转换为语音数据,通过预先建立的张量模型将语音数据转换为口型数据。具体地,获取待合成的目标文本数据,通过分词工具将目标文本数据拆分成字或词,再通过发音词典将拆分得到的字或拆分成音素,进而获取到音素特征,对于中文来说,音素包括声母音素和韵母音素。在该实施例中,以中文为例,对于每一个音素来说,音素特征主要包括以下特征:当前音素的发音特征,前一个音素的发音特征、下一个音素的发音特征、当前音素在字中的位置、当前音素的音节特征、前一个音素的音节特征、后一个音素的音节特征、当前音素所在的字在句子中的位置,其中,发音特征包括音素类型(元音或辅音)、音长、音高、重音位置、韵母的位置、发音部位、韵母是否发音,音节特征包括音节位置、音素在音节中的位置、音节在字中的位置。音素特征可以表达为一个3*7+3*3+2=32维的特征向量。
预先训练好用于表达音素特征与声学特征之间的相关关系的深度神经网络模型,将上述特征向量输入到该模型中,得到对应的声学特征,声学特征中包含时序特征和每个音的发音长度,其中,时序特征包括一个25维的特征向量和基频,25维的特征向量包含了25个梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC),表示一帧10ms的语音声学特征。将MFCC特征、发音长度、发音基频通过语音合成器合成得到语音信号。
在应用本实施例中的深度神经网络模型之前,需要对模型进行训练,首先,采集语料构建样本,基于至少一个说话人的语料构建样本库,所述语料包括语音数据,以及与语音数据对应的文本数据和口型数据,即获取一个或者多个说话人朗读相同的文本数据得到的语音数据,以及对应的口型数据,建立样本库,其中,口型数据为通过捕捉口型运动变化信息的生理学的电磁关节造影术数据,能够体现说话人的发音时的口型状态。然后,根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数。
具体地,深度神经网络模型的训练过程如下:根据样本库中的文本数据结合发音字典提取得到音素特征,这些特征可以形成一个3*7+3*3+2=32维的特征向量;从与文本数据对应的语音数据提取声学特征,主要包括MFCC特征、发音长度、发音基频,作为训练标准比对的信息;将这两者送入深度神经网络模型训练,得到待求解的模型参数,即特定的音素与对应的发音之间,各个音素特征、声学特征的权重。其中,根据音素特征中的音长特征和音节位置特征可以预测发音时长,根据因素特征中的音高、重音位置等发音特征可以预测发音基频。
根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系。
需要说明的是,本实施例中的口型数据为通过捕捉口型运动变化信息的生理学的电磁关节造影术数据,其中,电磁关节造影术数据中主要包括特定口型的坐标信息和对应的口型图像。在模型训练时,直接采用口型数据中的口型位置特征,口型位置特征主要包括以下位置的坐标信息:舌尖、舌质、舌背、上嘴唇、下嘴唇、上门牙和下门牙。
根据样本库中的语音数据和口型数据,预先训练好用于表达声学特征与口型数据之间的相关关系的张量模型,该张量模型为三阶张量模型,三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息。获取样本库中的语音数据的发音特征,将发音特征和说话人标识信息作为三阶张量模型的输入特征,将口型数据作为三阶张量模型的输出特征,使用高阶奇异值分解算法训练三阶张量模型,以获取三阶张量模型的模型参数。
具体地,本实施例中的三阶张量模型的构建以及训练方法如下:将发音特征构成的集合作为一个参数空间将与发音特征对应的口型数据的集合作为一个参数空间基于上述参数空间构建一个多线性空间变换,其表达式如下:其中为一个网格结构,该网格结构用于存储口型数据,V用于存储特定口型的三维坐标信息,其中两维是口型的坐标,另外一位是说话人标识信息,即说话人ID,由于对于不同的说话人来说,其口型位置稍有差别;F用于存储特定口型的口型图像,该空间变换用于表达发音特征与口型位置特征之间的相关关系。基于上述多线空间变化的表达构建一个三阶张量,该三阶张量的三个维度分别对应于声学特征、口型数据和说话人标识信息。其表达式如下:
其中,等式的左边是一些待求解的模型参数,主要包括参数空间参数空间中的各个特征的权重,等式的右边则是训练模型时输入的特征,通过对数据库中的文本数据和口型数据,经特征提取得到的发音特征、口型位置特征;其中C为张量表达符,μ是针对不同说话人的平均化口型位置信息,以“a”这个音为例,其对应的μ为不同说话人在发“a”这个音时的口型位置信息的平均值。由于张量的分解一般使用高阶奇异值分解算法,因此,本实施例中,使用高阶奇异值分解算法训练三阶张量模型,以求解上述表达式左侧的模型参数。
在基于深度神经网络模型得到语音数据后,将语音数据以及预先设置的说话人标识信息输入到预先训练好的三阶张量模型中,得到与该语音数据对应的口型数据。也就是说,当用于训练三阶张量模型的样本库中包含有多个说话人的语料时,用户可以预先选择说话人标识信息,那么最终生成的口型数据会更接近于该说话人的口型数据。
根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。根据获取到的与目标文本数据中的各个音素对应的口型数据,以及预设的三维唇区模型生成可以动态展示的口型动画,在播放与目标文本数据对应的合成数据时,展示与之对应的口型动画。在本实施例的方案中,使用深度神经网络模型来实现音素特征到声学特征之间的建模映射,这种映射关系是一种非线性的映射问题,深度神经网络能够实现更好的特征挖掘和表达,使得语音合成系统得到更准确、更自然的输出结果;并且,通过构建张量模型实现发音特征与口型特征之间的相关关系的表达,能够获取与合成的语音匹配且有真实感的口型数据,以实现在播放语音数据的同时,对口型的动态化展示。
本实施例提出的基于语音的口型动画合成装置,根据发音词典获取目标文本数据中的音素特征,将音素特征输入到预先训练好的深度神经网络模型中,输出与音素特征对应的声学特征,该声学特征包括MFCC特征、发音时长和发音基频,将这些声学特征输入到语音合成器中进行基于语音的口型动画合成,得到与目标文本数据对应的语音数据,根据语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与语音数据和说话人标识信息对应的口型数据,根据口型数据生成与语音数据对应的口型动画,以供在播放语音数据的同时,展示所述口型动画。本方案采用深度神经网络模型将目标文本数据转换为声学特征,能够实现更好的特征挖掘,使得语音合成系统得到更准确、更自然的输出结果,同时通过能够表达声学特征与口型数据的张量模型实现将合成的语音数据转换为对应的口型数据,根据口型数据生成与目标文本数据对应的口型动画,解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。
可选地,在其他的实施例中,口型动画合成程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述口型动画合成程序在基于语音的口型动画合成装置中的执行过程。
例如,参照图2所示,为本发明基于语音的口型动画合成装置一实施例中的口型动画合成程序的程序模块示意图,该实施例中,口型动画合成程序可以被分割为特征提取模块10、特征转换模块20、语音合成模块30、口型生成模块40和动画合成模块50,示例性地:
特征提取模块10用于:获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;
特征转换模块20用于:将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;
语音合成模块30用于:将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;
口型生成模块40用于:根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;
动画合成模块50用于:根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
上述特征提取模块10、特征转换模块20、语音合成模块30、口型生成模块40和动画合成模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明还提供一种基于语音的口型动画合成方法。参照图3所示,为本发明基于语音的口型动画合成方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现,以下基于语音的口型动画合成装置作为执行主体对本实施例的方法进行说明。
在本实施例中,基于语音的口型动画合成方法包括:
步骤S10,获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征。
步骤S20,将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频。
步骤S30,将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据。
本实施例提出的方案中,通过预先建立的深度神经网络模型将目标文本数据转换为语音数据,通过预先建立的张量模型将语音数据转换为口型数据。具体地,获取待合成的目标文本数据,通过分词工具将目标文本数据拆分成字或词,再通过发音词典将拆分得到的字或拆分成音素,进而获取到音素特征,对于中文来说,音素包括声母音素和韵母音素。在该实施例中,以中文为例,对于每一个音素来说,音素特征主要包括以下特征:当前音素的发音特征,前一个音素的发音特征、下一个音素的发音特征、当前音素在字中的位置、当前音素的音节特征、前一个音素的音节特征、后一个音素的音节特征、当前音素所在的字在句子中的位置,其中,发音特征包括音素类型(元音或辅音)、音长、音高、重音位置、韵母的位置、发音部位、韵母是否发音,音节特征包括音节位置、音素在音节中的位置、音节在字中的位置。音素特征可以表达为一个3*7+3*3+2=32维的特征向量。
预先训练好用于表达音素特征与声学特征之间的相关关系的深度神经网络模型,将上述特征向量输入到该模型中,得到对应的声学特征,声学特征中包含时序特征和每个音的发音长度,其中,时序特征包括一个25维的特征向量和基频,25维的特征向量包含了25个梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC),表示一帧10ms的语音声学特征。将MFCC特征、发音长度、发音基频通过语音合成器合成得到语音信号。
在应用本实施例中的深度神经网络模型之前,需要对模型进行训练,首先,采集语料构建样本,基于至少一个说话人的语料构建样本库,所述语料包括语音数据,以及与语音数据对应的文本数据和口型数据,即获取一个或者多个说话人朗读相同的文本数据得到的语音数据,以及对应的口型数据,建立样本库,其中,口型数据为通过捕捉口型运动变化信息的生理学的电磁关节造影术数据,能够体现说话人的发音时的口型状态。然后,根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数。
具体地,深度神经网络模型的训练过程如下:根据样本库中的文本数据结合发音字典提取得到音素特征,这些特征可以形成一个3*7+3*3+2=32维的特征向量;从与文本数据对应的语音数据提取声学特征,主要包括MFCC特征、发音长度、发音基频,作为训练标准比对的信息;将这两者送入深度神经网络模型训练,得到待求解的模型参数,即特定的音素与对应的发音之间,各个音素特征、声学特征的权重。其中,根据音素特征中的音长特征和音节位置特征可以预测发音时长,根据因素特征中的音高、重音位置等发音特征可以预测发音基频。
步骤S40,根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系。
需要说明的是,本实施例中的口型数据为通过捕捉口型运动变化信息的生理学的电磁关节造影术数据,其中,电磁关节造影术数据中主要包括特定口型的坐标信息和对应的口型图像。在模型训练时,直接采用口型数据中的口型位置特征,口型位置特征主要包括以下位置的坐标信息:舌尖、舌质、舌背、上嘴唇、下嘴唇、上门牙和下门牙。
根据样本库中的语音数据和口型数据,预先训练好用于表达声学特征与口型数据之间的相关关系的张量模型,该张量模型为三阶张量模型,三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息。获取样本库中的语音数据的发音特征,将发音特征和说话人标识信息作为三阶张量模型的输入特征,将口型数据作为三阶张量模型的输出特征,使用高阶奇异值分解算法训练三阶张量模型,以获取三阶张量模型的模型参数。
具体地,本实施例中的三阶张量模型的构建以及训练方法如下:将发音特征构成的集合作为一个参数空间将与发音特征对应的口型数据的集合作为一个参数空间基于上述参数空间构建一个多线性空间变换,其表达式如下:其中为一个网格结构,该网格结构用于存储口型数据,V用于存储特定口型的三维坐标信息,其中两维是口型的坐标,另外一位是说话人标识信息,即说话人ID,由于对于不同的说话人来说,其口型位置稍有差别;F用于存储特定口型的口型图像,该空间变换用于表达发音特征与口型位置特征之间的相关关系。基于上述多线空间变化的表达构建一个三阶张量,该三阶张量的三个维度分别对应于声学特征、口型数据和说话人标识信息。其表达式如下:
其中,等式的左边是一些待求解的模型参数,主要包括参数空间参数空间中的各个特征的权重,等式的右边则是训练模型时输入的特征,通过对数据库中的文本数据和口型数据,经特征提取得到的发音特征、口型位置特征;其中C为张量表达符,μ是针对不同说话人的平均化口型位置信息,以“a”这个音为例,其对应的μ为不同说话人在发“a”这个音时的口型位置信息的平均值。由于张量的分解一般使用高阶奇异值分解算法,因此,本实施例中,使用高阶奇异值分解算法训练三阶张量模型,以求解上述表达式左侧的模型参数。
在基于深度神经网络模型得到语音数据后,将语音数据以及预先设置的说话人标识信息输入到预先训练好的三阶张量模型中,得到与该语音数据对应的口型数据。也就是说,当用于训练三阶张量模型的样本库中包含有多个说话人的语料时,用户可以预先选择说话人标识信息,那么最终生成的口型数据会更接近于该说话人的口型数据。
步骤S50,根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
根据获取到的与目标文本数据中的各个音素对应的口型数据,以及预设的三维唇区模型生成可以动态展示的口型动画,在播放与目标文本数据对应的合成数据时,展示与之对应的口型动画。在本实施例的方案中,使用深度神经网络模型来实现音素特征到声学特征之间的建模映射,这种映射关系是一种非线性的映射问题,深度神经网络能够实现更好的特征挖掘和表达,使得语音合成系统得到更准确、更自然的输出结果;并且,通过构建张量模型实现发音特征与口型特征之间的相关关系的表达,能够获取与合成的语音匹配且有真实感的口型数据,以实现在播放语音数据的同时,对口型的动态化展示。
本实施例提出的基于语音的口型动画合成方法,根据发音词典获取目标文本数据中的音素特征,将音素特征输入到预先训练好的深度神经网络模型中,输出与音素特征对应的声学特征,该声学特征包括MFCC特征、发音时长和发音基频,将这些声学特征输入到语音合成器中进行基于语音的口型动画合成,得到与目标文本数据对应的语音数据,根据语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与语音数据和说话人标识信息对应的口型数据,根据口型数据生成与语音数据对应的口型动画,以供在播放语音数据的同时,展示所述口型动画。本方案采用深度神经网络模型将目标文本数据转换为声学特征,能够实现更好的特征挖掘,使得语音合成系统得到更准确、更自然的输出结果,同时通过能够表达声学特征与口型数据的张量模型实现将合成的语音数据转换为对应的口型数据,根据口型数据生成与目标文本数据对应的口型动画,解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有口型动画合成程序,所述口型动画合成程序可被一个或多个处理器执行,以实现如下操作:
获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;
将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;
将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;
根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;
根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
本发明计算机可读存储介质具体实施方式与上述基于语音的口型动画合成装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于语音的口型动画合成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的口型动画合成程序,所述口型动画合成程序被所述处理器执行时实现如下步骤:
获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;
将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;
将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;
根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;
根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
2.如权利要求1所述的基于语音的口型动画合成装置,其特征在于,所述获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征的步骤包括:
获取目标文本数据,并对所述目标文本数据进行分词处理,以获取分词结果;
通过发音词典将分词结果中的词转换为音素特征。
3.如权利要求1或2所述的基于语音的口型动画合成装置,其特征在于,所述口型动画合成程序还可被所述处理器执行,以实现如下步骤:
基于至少一个说话人的语料构建样本库,所述语料包括语音数据,以及与语音数据对应的文本数据和口型数据;
根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数;
根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数。
4.如权利要求3所述的基于语音的口型动画合成装置,其特征在于,所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数的步骤包括:
根据所述发音词典从所述样本库中的文本数据中提取音素特征,从与文本数据对应的语音数据中提取声学特征;
将所述音素特征作为所述深度神经网络模型的输入特征,将所述声学特征作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练,获取深度神经网络模型的模型参数。
5.如权利要求4所述的基于语音的口型动画合成装置,其特征在于,所述张量模型为三阶张量模型,所述根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数的步骤包括:
构建三阶张量模型,所述三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息;
获取所述样本库中的语音数据对应的发音特征,将所述发音特征和说话人标识信息作为所述三阶张量模型的输入特征,将与语音数据对应的口型数据作为所述三阶张量模型的输出特征,使用高阶奇异值分解算法训练所述三阶张量模型,以获取所述三阶张量模型的模型参数。
6.一种基于语音的口型动画合成方法,其特征在于,所述方法包括:
获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;
将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;
将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;
根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;
根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
7.如权利要求6所述的基于语音的口型动画合成方法,其特征在于,所述方法还包括步骤:
基于至少一个说话人的语料构建样本库,所述语料包括语音数据,以及与语音数据对应的文本数据和口型数据;
根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数;
根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数。
8.如权利要求7所述的基于语音的口型动画合成方法,其特征在于,所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型,获取深度神经网络模型的模型参数的步骤包括:
根据所述发音词典从所述样本库中的文本数据中提取音素特征,从与文本数据对应的语音数据中提取声学特征;
将所述音素特征作为所述深度神经网络模型的输入特征,将所述声学特征作为所述深度神经网络模型的输出特征,对所述深度神经网络模型进行训练,获取深度神经网络模型的模型参数。
9.如权利要求7或8所述的基于语音的口型动画合成方法,其特征在于,所述张量模型为三阶张量模型,所述根据所述样本库中的语音数据和口型数据训练所述张量模型,获取所述张量模型的模型参数的步骤包括:
构建三阶张量模型,所述三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息;
获取所述样本库中的语音数据对应的发音特征,将所述发音特征和说话人标识信息作为所述三阶张量模型的输入特征,将与语音数据对应的口型数据作为所述三阶张量模型的输出特征,使用高阶奇异值分解算法训练所述三阶张量模型,以获取所述三阶张量模型的模型参数。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有口型动画合成程序,所述口型动画合成程序可被一个或者多个处理器执行,以实现如权利要求6至9中任一项所述的基于语音的口型动画合成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810327672.1A CN108763190B (zh) | 2018-04-12 | 2018-04-12 | 基于语音的口型动画合成装置、方法及可读存储介质 |
PCT/CN2018/102209 WO2019196306A1 (zh) | 2018-04-12 | 2018-08-24 | 基于语音的口型动画合成装置、方法及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810327672.1A CN108763190B (zh) | 2018-04-12 | 2018-04-12 | 基于语音的口型动画合成装置、方法及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763190A true CN108763190A (zh) | 2018-11-06 |
CN108763190B CN108763190B (zh) | 2019-04-02 |
Family
ID=63981728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810327672.1A Active CN108763190B (zh) | 2018-04-12 | 2018-04-12 | 基于语音的口型动画合成装置、方法及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108763190B (zh) |
WO (1) | WO2019196306A1 (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447234A (zh) * | 2018-11-14 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、合成说话表情的方法和相关装置 |
CN109523616A (zh) * | 2018-12-04 | 2019-03-26 | 科大讯飞股份有限公司 | 一种面部动画生成方法、装置、设备及可读存储介质 |
CN109599113A (zh) * | 2019-01-22 | 2019-04-09 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
CN109801349A (zh) * | 2018-12-19 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种声音驱动的三维动画角色实时表情生成方法和系统 |
CN110136698A (zh) * | 2019-04-11 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
CN110189394A (zh) * | 2019-05-14 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN110288682A (zh) * | 2019-06-28 | 2019-09-27 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN110992926A (zh) * | 2019-12-26 | 2020-04-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN111326141A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 一种处理获取人声数据的方法 |
CN111340920A (zh) * | 2020-03-02 | 2020-06-26 | 长沙千博信息技术有限公司 | 一种语义驱动的二维动画自动生成方法 |
CN112181127A (zh) * | 2019-07-02 | 2021-01-05 | 上海浦东发展银行股份有限公司 | 用于人机交互的方法和装置 |
CN112331184A (zh) * | 2020-10-29 | 2021-02-05 | 网易(杭州)网络有限公司 | 语音口型同步方法、装置、电子设备及存储介质 |
CN112837401A (zh) * | 2021-01-27 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN112927712A (zh) * | 2021-01-25 | 2021-06-08 | 网易(杭州)网络有限公司 | 视频生成方法、装置和电子设备 |
WO2021127821A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN113079328A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 视频生成方法和装置、存储介质和电子设备 |
CN113314094A (zh) * | 2021-05-28 | 2021-08-27 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
WO2021227308A1 (zh) * | 2020-05-15 | 2021-11-18 | 完美世界(北京)软件科技发展有限公司 | 一种视频资源的生成方法和装置 |
CN113707124A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 话术语音的联动播报方法、装置、电子设备及存储介质 |
CN113870396A (zh) * | 2021-10-11 | 2021-12-31 | 北京字跳网络技术有限公司 | 一种口型动画生成方法、装置、计算机设备及存储介质 |
CN114420088A (zh) * | 2022-01-20 | 2022-04-29 | 安徽淘云科技股份有限公司 | 一种展示方法及其相关设备 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN116257762A (zh) * | 2023-05-16 | 2023-06-13 | 世优(北京)科技有限公司 | 深度学习模型的训练方法及控制虚拟形象口型变化的方法 |
CN117173292A (zh) * | 2023-09-07 | 2023-12-05 | 河北日凌智能科技有限公司 | 一种基于元音切片的数字人交互方法及装置 |
CN117894064A (zh) * | 2023-12-11 | 2024-04-16 | 中新金桥数字科技(北京)有限公司 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
EP4191586A4 (en) * | 2020-08-27 | 2024-07-31 | Neosapience Inc | METHOD AND SYSTEM FOR APPLYING SYNTHETIC SPEECH TO A SPEAKER IMAGE |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
CN111354370B (zh) * | 2020-02-13 | 2021-06-25 | 百度在线网络技术(北京)有限公司 | 一种唇形特征预测方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080312930A1 (en) * | 1997-08-05 | 2008-12-18 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US20140198108A1 (en) * | 2013-01-16 | 2014-07-17 | Disney Enterprises, Inc. | Multi-linear dynamic hair or clothing model with efficient collision handling |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
CN106531150A (zh) * | 2016-12-23 | 2017-03-22 | 上海语知义信息技术有限公司 | 一种基于深度神经网络模型的情感合成方法 |
-
2018
- 2018-04-12 CN CN201810327672.1A patent/CN108763190B/zh active Active
- 2018-08-24 WO PCT/CN2018/102209 patent/WO2019196306A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080312930A1 (en) * | 1997-08-05 | 2008-12-18 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US20140198108A1 (en) * | 2013-01-16 | 2014-07-17 | Disney Enterprises, Inc. | Multi-linear dynamic hair or clothing model with efficient collision handling |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
CN106531150A (zh) * | 2016-12-23 | 2017-03-22 | 上海语知义信息技术有限公司 | 一种基于深度神经网络模型的情感合成方法 |
Non-Patent Citations (1)
Title |
---|
L. GRALEWSKI等: "Using a tensor framework for the analysis of facial dynamics", 《7TH INTERNATIONAL CONFERENCE ON AUTOMATIC FACE AND GESTURE RECOGNITION (FGR06)》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447234B (zh) * | 2018-11-14 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、合成说话表情的方法和相关装置 |
CN109447234A (zh) * | 2018-11-14 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、合成说话表情的方法和相关装置 |
CN109523616A (zh) * | 2018-12-04 | 2019-03-26 | 科大讯飞股份有限公司 | 一种面部动画生成方法、装置、设备及可读存储介质 |
CN111326141A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 一种处理获取人声数据的方法 |
CN109801349A (zh) * | 2018-12-19 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种声音驱动的三维动画角色实时表情生成方法和系统 |
CN109599113A (zh) * | 2019-01-22 | 2019-04-09 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
US11158102B2 (en) | 2019-01-22 | 2021-10-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing information |
CN110136698B (zh) * | 2019-04-11 | 2021-09-24 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
CN110136698A (zh) * | 2019-04-11 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
CN110189394B (zh) * | 2019-05-14 | 2020-12-29 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN110189394A (zh) * | 2019-05-14 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN110288682B (zh) * | 2019-06-28 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN110288682A (zh) * | 2019-06-28 | 2019-09-27 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN112181127A (zh) * | 2019-07-02 | 2021-01-05 | 上海浦东发展银行股份有限公司 | 用于人机交互的方法和装置 |
WO2021127821A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN110992926B (zh) * | 2019-12-26 | 2022-06-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN110992926A (zh) * | 2019-12-26 | 2020-04-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN111340920A (zh) * | 2020-03-02 | 2020-06-26 | 长沙千博信息技术有限公司 | 一种语义驱动的二维动画自动生成方法 |
CN111340920B (zh) * | 2020-03-02 | 2024-04-09 | 长沙千博信息技术有限公司 | 一种语义驱动的二维动画自动生成方法 |
WO2021227308A1 (zh) * | 2020-05-15 | 2021-11-18 | 完美世界(北京)软件科技发展有限公司 | 一种视频资源的生成方法和装置 |
EP4191586A4 (en) * | 2020-08-27 | 2024-07-31 | Neosapience Inc | METHOD AND SYSTEM FOR APPLYING SYNTHETIC SPEECH TO A SPEAKER IMAGE |
CN112331184B (zh) * | 2020-10-29 | 2024-03-15 | 网易(杭州)网络有限公司 | 语音口型同步方法、装置、电子设备及存储介质 |
CN112331184A (zh) * | 2020-10-29 | 2021-02-05 | 网易(杭州)网络有限公司 | 语音口型同步方法、装置、电子设备及存储介质 |
CN112927712B (zh) * | 2021-01-25 | 2024-06-04 | 网易(杭州)网络有限公司 | 视频生成方法、装置和电子设备 |
CN112927712A (zh) * | 2021-01-25 | 2021-06-08 | 网易(杭州)网络有限公司 | 视频生成方法、装置和电子设备 |
CN112837401A (zh) * | 2021-01-27 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN112837401B (zh) * | 2021-01-27 | 2024-04-09 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN113079328A (zh) * | 2021-03-19 | 2021-07-06 | 北京有竹居网络技术有限公司 | 视频生成方法和装置、存储介质和电子设备 |
CN113314094A (zh) * | 2021-05-28 | 2021-08-27 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
CN113314094B (zh) * | 2021-05-28 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 唇形模型的训练方法和装置及语音动画合成方法和装置 |
CN113707124A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 话术语音的联动播报方法、装置、电子设备及存储介质 |
CN113870396A (zh) * | 2021-10-11 | 2021-12-31 | 北京字跳网络技术有限公司 | 一种口型动画生成方法、装置、计算机设备及存储介质 |
CN113870396B (zh) * | 2021-10-11 | 2023-08-15 | 北京字跳网络技术有限公司 | 一种口型动画生成方法、装置、计算机设备及存储介质 |
CN114420088A (zh) * | 2022-01-20 | 2022-04-29 | 安徽淘云科技股份有限公司 | 一种展示方法及其相关设备 |
CN114581567B (zh) * | 2022-05-06 | 2022-08-02 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN116257762A (zh) * | 2023-05-16 | 2023-06-13 | 世优(北京)科技有限公司 | 深度学习模型的训练方法及控制虚拟形象口型变化的方法 |
CN117173292A (zh) * | 2023-09-07 | 2023-12-05 | 河北日凌智能科技有限公司 | 一种基于元音切片的数字人交互方法及装置 |
CN117894064A (zh) * | 2023-12-11 | 2024-04-16 | 中新金桥数字科技(北京)有限公司 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019196306A1 (zh) | 2019-10-17 |
CN108763190B (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763190B (zh) | 基于语音的口型动画合成装置、方法及可读存储介质 | |
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
CN109377539B (zh) | 用于生成动画的方法和装置 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
US9959657B2 (en) | Computer generated head | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
CN109801349B (zh) | 一种声音驱动的三维动画角色实时表情生成方法和系统 | |
CN109949791A (zh) | 基于hmm的情感语音合成方法、装置及存储介质 | |
CN111653265B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN109754783A (zh) | 用于确定音频语句的边界的方法和装置 | |
US20140210831A1 (en) | Computer generated head | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
Albrecht et al. | Automatic generation of non-verbal facial expressions from speech | |
US20150187112A1 (en) | System and Method for Automatic Generation of Animation | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN115222856B (zh) | 表情动画生成方法及电子设备 | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
CN112329451B (zh) | 手语动作视频生成方法、装置、设备及存储介质 | |
CN115511704B (zh) | 一种虚拟客服生成方法、装置、电子设备及存储介质 | |
KR102528019B1 (ko) | 인공지능 기술에 기반한 음성 합성 시스템 | |
CN112735379B (zh) | 语音合成方法、装置、电子设备和可读存储介质 | |
TWI574254B (zh) | 用於電子系統的語音合成方法及裝置 | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
CN113707124A (zh) | 话术语音的联动播报方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |