CN101488346B - 语音可视化系统及语音可视化方法 - Google Patents

语音可视化系统及语音可视化方法 Download PDF

Info

Publication number
CN101488346B
CN101488346B CN2009101055585A CN200910105558A CN101488346B CN 101488346 B CN101488346 B CN 101488346B CN 2009101055585 A CN2009101055585 A CN 2009101055585A CN 200910105558 A CN200910105558 A CN 200910105558A CN 101488346 B CN101488346 B CN 101488346B
Authority
CN
China
Prior art keywords
module
vocal organs
speaker
dimensional
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101055585A
Other languages
English (en)
Other versions
CN101488346A (zh
Inventor
王岚
陈辉
欧阳建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN2009101055585A priority Critical patent/CN101488346B/zh
Publication of CN101488346A publication Critical patent/CN101488346A/zh
Application granted granted Critical
Publication of CN101488346B publication Critical patent/CN101488346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种语音可视化系统及语音可视化方法,该语音可视化系统包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块。该语音可视化方法包括:同步采集说话人的说话人运动数据和语音数据;对语音数据进行处理;建立发音器官运动数据库;建立三维说话人头像静态三维模型;建立校准后的发音器官运动数据库;实现各个单音素的所有发音器官协同变形模拟;接收说话人的语音信息;模拟三维说话人头像发音运动;显示三维说话人头像发音运动的三维可视化信息。

Description

语音可视化系统及语音可视化方法
技术领域
本发明涉及一种语音可视化系统及语音可视化方法。 
背景技术
目前,生物模拟技术主要是对生物的外观行为特征的模拟,对生物体内部器官的模拟仅限于再现其静态状态。其不足之处在于:不能模拟说话人内部发音器官的真实动作。 
发明内容
有鉴于此,有必要针对生物模拟技术不能模拟说话人内部发音器官的真实动作的问题,提供一种能模拟说话人内部发音器官的真实动作的语音可视化系统。 
一种语音可视化系统,包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块;所述说话人运动数据采集模块用于通过X光透像、核磁共振成像或三维电磁发音记录仪的方法采集说话人的说话人运动数据;所述至少一语音数据采集模块用于同步采集说话人的语音数据;所述至少一语音识别模块用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据;所述发音器官运动数据采集模块用于根据各音素的时间长度对说话人运动数据进行处理,建立与音素对应的发音器官运动数据库;所述三维说话人头像静态建模模块用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型,提供可观测发音器官所有三维说话人头像静态三维模型数据,以及所定义运动控制特征点的静态三维数据;所述运动控制参数变换模块将发音器官运动数据库与三维说话人头像静态三维模型进行配准,获得校准后的发音器官运动数据 库;所述单音素发音器官运动模拟模块利用三维动态变形模拟算法,加载从校准后的发音器官运动数据库中得到的运动控制参数,实现各个单音素的所有发音器官协同变形模拟;所述连续发音运动模拟模块用于接收音素时间长度信息和连续音素音频数据,采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步,结合说话人表情模拟三维说话人头像发音运动;所述显示模块用于显示三维说话人头像发音运动的三维可视化信息;所述语音识别模块包括声学特征参数提取模块、声学模型数据库存储模块、语言模型数据库存储模块和解码模块;所述声学模型数据库存储模块用于存储声学模型数据库,所述声学模型数据库是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科夫模型的上下文相关的三音素模型,利用最大似然估计算法和区别性训练算法对聚类的三音素模型进行参数估计和更新;所述语言模型数据库存储模块用于存储语言模型数据库;所述声学特征参数提取模块用于从语音数据中提取语音信号特征参数;所述解码模块根据声学模型数据库和语言模型数据库,运用广度优先的搜索算法对语音信号特征参数进行解码识别,输出音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。 
优选的,所述至少一语音数据采集模块的个数为一个,所述至少一语音识别模块的个数为一个,该语音数据采集模块与该语音识别模块连接,该语音识别模块与发音器官运动数据采集模块连接。 
优选的,所述至少一语音数据采集模块包括第一语音数据采集模块和第二语音数据采集模块,所述至少一语音识别模块包括第一语音识别模块和第二语音识别模块;该第一语音数据采集模块与该第一语音识别模块连接,该第一语音识别模块与发音器官运动数据采集模块连接;该第二语音数据采集模块与该第二语音识别模块连接,该第二语音识别模块与连续发音运动模拟模块连接。 
此外,还提供一种语音可视化方法。 
一种语音可视化方法,包括:同步采集说话人的说话人运动数据和语音数据;对语音数据进行处理;建立发音器官运动数据库;建立三维说话人头像静态三维模型;建立校准后的发音器官运动数据库;实现各个单音素的所有发音器官协同变形模拟;接收说话人的语音信息;模拟三维说话人头像发音运动; 显示三维说话人头像发音运动的三维可视化信息; 
所述建立发音器官运动数据库包括:定义控制各发音器官变形运动的特征点;提取面部特征点二维参数;提取口腔内部特征点二维参数;建立发音器官运动数据库; 
所述实现各个单音素的所有发音器官协同变形模拟包括:对发音器官进行分类;对各类发音器官分别进行运动模拟;实现发音器官协同变形模拟; 
所述对各类发音器官分别进行运动模拟包括:对软组织类发音器官采用基于位移的算法进行运动模拟或者采用基于物理的算法进行运动模拟;对开合类发音器官建立局部旋转坐标系,根据校准后的发音器官运动数据库进行转开合运动模拟;对固定类发音器官,保持运动不变。 
优选的,所述建立校准后的发音器官运动数据库包括:获取各特征点的静态数据;获得特征参数变换矩阵;获得校准后的发音器官运动数据库。 
优选的,所述对发音器官进行分类包括:根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官、开合类发音器官和固定类发音器官。 
上述语音可视化系统利用语音可视化技术,采用计算机图形学的变形运动模拟方法和高识别准确率的自动语音识别技术,能模拟说话人内部发音器官的真实动作。通过视觉和听觉两类信息的有机融合,全面模拟人类语言发音的过程,可以真实地反映发音器官的运动情况,有效地提升语言感知的程度。 
附图说明
图1是语音可视化系统的示意图。 
图2是第一语音识别模块的示意图。 
图3是发音器官运动数据采集模块的工作流程图。 
图4是运动控制参数变换模块的工作流程图。 
图5是单音素发音器官运动模拟模块的工作流程图。 
具体实施方式
图1是语音可视化系统的示意图。语音可视化系统100包括说话人运动数据采集模块101、第一语音数据采集模块102、第一语音识别模块103、发音器官运动数据采集模块104、三维说话人头像静态建模模块105、运动控制参数变换模块106、单音素发音器官运动模拟模块107、第二语音识别模块109、连续发音运动模拟模块110和显示模块111。
说话人运动数据采集模块101用于采集说话人运动数据。说话人运动数据可以是二维数据或三维数据。说话人运动数据可以通过对说话人的正面和正交侧面进行录像,以及对说话人进行X光透像(或者进行核磁共振成像)的方法获得。或者利用运动捕捉技术对说话人面部和唇部的特征点进行运动跟踪,直接获取说话人运动数据。或者利用三维电磁发音记录仪(ElectromagneticArticulography)对说话人进行采样,直接获取说话人运动数据。 
第一语音数据采集模块102用于采集说话人的语音数据(自然连续语音)。说话人的语音数据可以通过对说话人的语音进行录音的方法获得。 
上述说话人运动数据采集和语音数据采集是同步进行的。 
第一语音识别模块103用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。 
发音器官运动数据采集模块104用于根据各音素的时间长度对说话人运动数据进行处理,建立与音素对应的发音器官运动数据库。 
三维说话人头像静态建模模块105用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型,提供可观测发音器官所有三维说话人头像静态三维模型数据,以及所定义运动控制特征点的静态三维数据。发音器官包括上下唇、上下齿、齿龈、下颚、软颚、小舌、舌尖、舌面和舌根。其中上齿、齿龈、软颚和舌根为发音动作中不变形的器官,而上下唇、下齿、下颚、舌尖、舌面和小舌为运动变形器官。 
运动控制参数变换模块106将发音器官运动数据库与三维说话人头像静态三维模型进行配准,获得校准后的发音器官运动数据库。 
单音素发音器官运动模拟模块107利用三维动态变形模拟算法,加载从校准后的发音器官运动数据库中得到的运动控制参数,实现各个单音素的所有发音器官协同变形模拟。 
第二语音数据采集模块108用于采集说话人的语音数据(自然连续语音)。说话人的语音数据可以通过对说话人的语音进行录音的方法获得。第二语音数据采集模块108和第一语音数据采集模块102完全相同,因此,第二语音数据采集模块108也可由第一语音数据采集模块102代替。 
第二语音识别模块109用于接收第二语音数据采集模块108采集的语音数据,从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。第二语音识别模块109和第一语音识别模块103完全相同,因此,第二语音识别模块109也可由第一语音识别模块103代替。 
连续发音运动模拟模块110用于接收从第二语音识别模块109中提取的音素时间长度信息和连续音素音频数据,采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步,结合说话人表情模拟三维说话人头像发音运动。 
显示模块111用于显示三维说话人头像发音运动的三维可视化信息。显示模块111可以是显示器、电视机等显示设备。 
图2是第一语音识别模块103的示意图。第一语音识别模块103包括声学特征参数提取模块302、声学模型数据库存储模块304、语言模型数据库存储模块306和解码模块308。声学模型数据库存储模块304所存储的声学模型数据库是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科夫模型(HMM)的上下文相关的三音素模型,利用最大似然估计算法(MaximumLikelihood)和区别性训练算法(Discriminative Training)对聚类的三音素模型进行参数估计和更新。语言模型数据库存储模块306所存储的语言模型数据库是根据大规模新闻类数据以及网络上收集的大量语音数据标注文本进行统计训练得到。声学特征参数提取模块302用于从语音数据中提取语音信号特征参数。解码模块308根据声学模型数据库和语言模型数据库,运用广度优先的搜索算法对语音信号特征参数进行解码识别,并可同时采用设置适当的宽度值来提升解码的效率。语音信号特征参数经解码识别后可得到音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。测试表明,语音识别模块针对朗读方式的大词汇量非特定人连续语音识别的音素识别准确率能够达 到90%以上。 
语音识别的具体方法详细说明如下:首先对自然连续语音进行语音信号特征提取,例如采用感知线性预测(PLP)特征参数,包括能量以及差分特征等。声学模型采用基于HMM的统计模型。每个HMM可以表征语音信号的基本音素单元,多个音素的HMM串行起来构成一个词的HMM。采用词典(Lexicon)来表征每个单词对应的发音和音素序列。在大量语音数据的基础上训练声学模型各个三音素模型的均值、方差、权值、转移概率等参数。利用大量文本信息建立语言模型,通过估计相连词汇的出现概率提供语言模型分数,并结合声学模型分数在识别网络中搜索最优音素序列,最终识别出语音所对应的文本信息。 
第一语音识别模块103除了可以识别中文和英文的语音之外,同时也为增加其他语种的声学模型和语言模型提供了接口,可根据需要增加或更新相应的声学模型数据库和语言模型数据库。 
图3是发音器官运动数据采集模块104的工作流程图。发音器官运动数据采集模块104的具体工作过程如下: 
S401:定义控制各发音器官变形运动的特征点。 
根据生理解剖学结构数据对正面视频图像、正交侧面视频图像和X-光透视图像进行分析,定义出控制各个发音器官变形运动的特征点。其中,面部的特征点有唇部6个特征点、鼻尖、下颚等,口腔内部的特征点有舌部6个特征点等。 
S402:提取面部特征点二维参数。 
根据音素序列文本与音素时间长度信息确定所有音素对应的正面视频图像和正交侧面视频图像,提取面部特征点二维参数,然后利用立体视觉恢复三维坐标。 
S403:提取口腔内部特征点二维参数。 
根据音素序列文本与音素时间长度信息确定所有音素对应的口腔X光透视图像,并提取口腔内部二维参数。 
S404:建立发音器官运动数据库。 
根据说话人实际头部数据对面部特征点二维参数和口腔内部特征点二维参数进行配准,建立发音器官运动数据库。 
图4是运动控制参数变换模块106的工作流程图。运动控制参数变换模块106的具体工作过程如下: 
S501:获取各特征点的静态数据。 
根据外部和内部发音器官不发音时的静态图像获取各特征点的静态数据。各特征点的静态数据包括口腔内部静态二维数据和面部三维重建后特征点静态数据。 
S502:获得特征参数变换矩阵。 
根据口腔内部静态二维数据、面部三维重建后特征点静态数据和三维说话人头像模型特征点静态数据,对说话人实际头部数据进行配准,获得特征参数变换矩阵。 
S503:获得校准后的发音器官运动数据库。 
根据特征参数变换矩阵对发音器官运动数据库进行变换,得到校准后的发音器官运动数据库。该数据库为单音素发音器官运动模拟模块107提供所有音素的发音器官运动控制特征点的动态变形运动控制参数,在该参数的控制下可以模拟出所有单个和多个连续中文和英文音素的发音变形,并为新语言音素发音变形模拟提供加载参数的接口,可根据需要增加或更新相应音素的发声变形模拟。 
图5是单音素发音器官运动模拟模块107的工作流程图。单音素发音器官运动模拟模块107的具体工作流程包括如下步骤: 
S601:对发音器官进行分类。 
根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官(唇部和舌部)、开合类发音器官(下齿和下颚)和固定类发音器官(上齿和口腔上部)。 
S602:对各类发音器官分别进行运动模拟。 
对软组织类发音器官采用基于位移的算法(Displacement-based)模拟变形,根据软组织类发音器官特征点进行广度优先搜索得到各特征点的邻域,在该邻 域内构造以特征点为中心的椭球面,设置椭球面上的点的位移为零,以特征点的位移和邻域内各点与椭球面的距离为参数,构造正弦或余弦函数对影响范围内的点进行变形,实现发音器官特征点变形的真实扩散。或者采用基于物理的算法(Physics-based)模拟舌部和面部的变形,构造弹簧质点模型或有限元模型,同时标注口轮匝肌和舌部肌肉群(包括颏舌肌、舌骨舌肌、茎突舌肌、舌上纵肌、舌下纵肌、舌直肌和舌横肌)的走向,根据发音器官特征点的运动控制参数设计相应的边界条件,并且沿肌肉纤维走向设置收缩系数模拟肌肉收缩,模拟软组织的生理物理变形。 
对开合类发音器官建立局部旋转坐标系,根据校准后的发音器官运动数据库进行转开合运动模拟。 
对固定类发音器官,保持运动不变。 
S603:实现发音器官协同变形模拟。 
对每一音素建立发音时的各发音器官运动的逻辑关系,根据联合时序逻辑控制算法,共同实现各个单音素的所有发音器官协同变形模拟。 
上述语音可视化系统可将外部模型设置为透视状态或线框模式,从而可以观察到口腔内部发音器官发音变形的位置和状态。并且上述语音可视化系统中所有内部和外部模型可实现在三维空间的任意角度旋转和任意大小缩放。 
上述语音可视化系统是根据生理解剖学构建三维发音器官静态建模的基础之上,应用生物力学原理模拟发音器官运动变形状态和速度,同时利用高识别准确率的自动语音识别技术,对实时、自然连续语音进行音素识别和协同发音音素时间长度信息获取,构建并实现了三维说话人头像发音器官协同运动模拟和说话人表情系统。上述语音可视化系统模拟出的发音器官运动不仅具有高真实感和高准确度,而且能够自动模拟出连续发音时对应多个发音器官运动的形状、速度和力度。 
上述语音可视化系统100利用语音可视化技术,采用计算机图形学的变形运动模拟方法和高识别准确率的自动语音识别技术,构建三维说话人头像连续发音运动模拟系统。该发明通过视觉和听觉两类信息的有机融合,全面模拟人类语言发音的过程,可以真实地反映发音器官的运动情况,有效地提升语言感 知的程度。上述语音可视化系统可以推广到三维动漫的人物运动设计中,从而大幅度提高设计三维动漫人物对话的效率和真实感。 
此外,当外界输入的是语音数据中已包含音素时间长度信息和连续音素音频数据时,上述语音可视化系统100可以没有第二语音识别模块109,此时,外界语音数据直接输入至连续发音运动模拟模块110。 
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。 

Claims (6)

1.一种语音可视化系统,其特征在于:包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块;所述说话人运动数据采集模块用于通过X光透像、核磁共振成像或三维电磁发音记录仪的方法采集说话人的说话人运动数据;所述至少一语音数据采集模块用于同步采集说话人的语音数据;所述至少一语音识别模块用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据;所述发音器官运动数据采集模块用于根据各音素的时间长度对说话人运动数据进行处理,建立与音素对应的发音器官运动数据库;所述三维说话人头像静态建模模块用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型,提供可观测发音器官所有三维说话人头像静态三维模型数据,以及所定义运动控制特征点的静态三维数据;所述运动控制参数变换模块将发音器官运动数据库与三维说话人头像静态三维模型进行配准,获得校准后的发音器官运动数据库;所述单音素发音器官运动模拟模块利用三维动态变形模拟算法,加载从校准后的发音器官运动数据库中得到的运动控制参数,实现各个单音素的所有发音器官协同变形模拟;所述连续发音运动模拟模块用于接收音素时间长度信息和连续音素音频数据,采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步,结合说话人表情模拟三维说话人头像发音运动;所述显示模块用于显示三维说话人头像发音运动的三维可视化信息;
所述语音识别模块包括声学特征参数提取模块、声学模型数据库存储模块、语言模型数据库存储模块和解码模块;所述声学模型数据库存储模块用于存储声学模型数据库,所述声学模型数据库是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科夫模型的上下文相关的三音素模型,利用最大似然估计算法和区别性训练算法对聚类的三音素模型进行参数估计和更新;所述语言模型数据库存储模块用于存储语言模型数据库;所述声学特征参数提取模块用于从语音数据中提取语音信号特征参数;所述解码模块根据声学模型数据库和语言模型数据库,运用广度优先的搜索算法对语音信号特征参数进行解码识别,输出音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。
2.根据权利要求1所述的语音可视化系统,其特征在于:所述至少一语音数据采集模块的个数为一个,所述至少一语音识别模块的个数为一个,该语音数据采集模块与该语音识别模块连接,该语音识别模块与发音器官运动数据采集模块连接。
3.根据权利要求1所述的语音可视化系统,其特征在于:所述至少一语音数据采集模块包括第一语音数据采集模块和第二语音数据采集模块,所述至少一语音识别模块包括第一语音识别模块和第二语音识别模块;该第一语音数据采集模块与该第一语音识别模块连接,该第一语音识别模块与发音器官运动数据采集模块连接;该第二语音数据采集模块与该第二语音识别模块连接,该第二语音识别模块与连续发音运动模拟模块连接。
4.一种语音可视化方法,包括:
同步采集说话人的说话人运动数据和语音数据;
对语音数据进行处理;
建立发音器官运动数据库;
建立三维说话人头像静态三维模型;
建立校准后的发音器官运动数据库;
实现各个单音素的所有发音器官协同变形模拟;
接收说话人的语音信息;
模拟三维说话人头像发音运动;
显示三维说话人头像发音运动的三维可视化信息;
所述建立发音器官运动数据库包括:定义控制各发音器官变形运动的特征点;提取面部特征点二维参数;提取口腔内部特征点二维参数;建立发音器官运动数据库;
所述实现各个单音素的所有发音器官协同变形模拟包括:对发音器官进行分类;对各类发音器官分别进行运动模拟;实现发音器官协同变形模拟;
所述对各类发音器官分别进行运动模拟包括:对软组织类发音器官采用基于位移的算法进行运动模拟或者采用基于物理的算法进行运动模拟;对开合类发音器官建立局部旋转坐标系,根据校准后的发音器官运动数据库进行转开合运动模拟;对固定类发音器官,保持运动不变。
5.根据权利要求4所述的语音可视化方法,其特征在于:所述建立校准后的发音器官运动数据库包括:获取各特征点的静态数据;获得特征参数变换矩阵;获得校准后的发音器官运动数据库。
6.根据权利要求4所述的语音可视化方法,其特征在于:所述对发音器官进行分类包括:根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官、开合类发音器官和固定类发音器官。
CN2009101055585A 2009-02-24 2009-02-24 语音可视化系统及语音可视化方法 Active CN101488346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101055585A CN101488346B (zh) 2009-02-24 2009-02-24 语音可视化系统及语音可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101055585A CN101488346B (zh) 2009-02-24 2009-02-24 语音可视化系统及语音可视化方法

Publications (2)

Publication Number Publication Date
CN101488346A CN101488346A (zh) 2009-07-22
CN101488346B true CN101488346B (zh) 2011-11-02

Family

ID=40891198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101055585A Active CN101488346B (zh) 2009-02-24 2009-02-24 语音可视化系统及语音可视化方法

Country Status (1)

Country Link
CN (1) CN101488346B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916569B (zh) * 2010-08-03 2015-05-06 北京中星微电子有限公司 一种显示声音的方法和装置
CN102298443B (zh) * 2011-06-24 2013-09-25 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
US9058751B2 (en) * 2011-11-21 2015-06-16 Age Of Learning, Inc. Language phoneme practice engine
CN102663925A (zh) * 2012-05-09 2012-09-12 长春大学 面向听障儿童语训的舌部训练方法及其系统
CN102820030B (zh) * 2012-07-27 2014-03-26 中国科学院自动化研究所 发音器官可视语音合成系统
CN103258340B (zh) * 2013-04-17 2015-12-09 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN103218841B (zh) * 2013-04-26 2016-01-27 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法
CN103705218B (zh) * 2013-12-20 2015-11-18 中国科学院深圳先进技术研究院 构音障碍识别的方法、系统和装置
CN106373174A (zh) * 2016-08-19 2017-02-01 语当先有限公司 一种模型动画播放系统、词典查询系统及方法
CN106782503A (zh) * 2016-12-29 2017-05-31 天津大学 基于发音过程中生理信息的自动语音识别方法
CN107767717A (zh) * 2017-05-17 2018-03-06 青岛陶知电子科技有限公司 一种应用于外语教学的智能互动教学系统
CN110741365B (zh) 2017-10-03 2023-12-15 谷歌有限责任公司 用于管理多媒体内容中的加载时间的数据结构查询
CN111435268A (zh) * 2019-01-11 2020-07-21 合肥虹慧达科技有限公司 基于图像的识别与重建的人机交互方法和使用该方法的系统及装置
CN111554318B (zh) * 2020-04-27 2023-12-05 天津大学 一种手机端发音可视化系统的实现方法
CN111986674B (zh) * 2020-08-13 2021-04-09 广州仿真机器人有限公司 基于三级特征采集的智能语音识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1203352B1 (en) * 2000-03-31 2003-12-17 TELECOM ITALIA S.p.A. Method of animating a synthesised model of a human face driven by an acoustic signal
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1952850A (zh) * 2005-10-20 2007-04-25 中国科学院自动化研究所 基于动态基元选取的语音驱动三维人脸动画方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1203352B1 (en) * 2000-03-31 2003-12-17 TELECOM ITALIA S.p.A. Method of animating a synthesised model of a human face driven by an acoustic signal
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1952850A (zh) * 2005-10-20 2007-04-25 中国科学院自动化研究所 基于动态基元选取的语音驱动三维人脸动画方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田坤.人脸建模和基于MPEG-4的动画实现.《中国优秀博硕士学位论文全文数据库(硕士)》.2006,37-41. *

Also Published As

Publication number Publication date
CN101488346A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
CN101488346B (zh) 语音可视化系统及语音可视化方法
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
Sifakis et al. Simulating speech with a physics-based facial muscle model
CN104361620B (zh) 一种基于综合加权算法的口型动画合成方法
CN103218841B (zh) 结合生理模型和数据驱动模型的三维发音器官动画方法
CN103258340B (zh) 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
Wang et al. Phoneme-level articulatory animation in pronunciation training
JP4631078B2 (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
CN103778661B (zh) 一种生成说话人三维运动模型的方法、系统及计算机
CN113256821A (zh) 一种三维虚拟形象唇形生成方法、装置及电子设备
CN108230438A (zh) 声音驱动辅助侧脸图像的人脸重建方法及装置
King et al. A 3D parametric tongue model for animated speech
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
CN1952850A (zh) 基于动态基元选取的语音驱动三维人脸动画方法
Železný et al. Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
CN113160366A (zh) 一种3d人脸动画合成方法及系统
CN111554318B (zh) 一种手机端发音可视化系统的实现方法
Yu et al. From talking head to singing head: a significant enhancement for more natural human computer interaction
CN111105487B (zh) 一种虚拟教师系统中的面部合成方法及装置
CN117219050A (zh) 一种基于深度生成对抗网络的文本生成视频系统
Yu et al. 3D visual pronunciation of Mandarine Chinese for language learning
Li et al. An audio-visual 3D virtual articulation system for visual speech synthesis
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
Bian et al. A survey of tongue modeling methods in speech visualization
Yu et al. A realistic and reliable 3D pronunciation visualization instruction system for computer-assisted language learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant