CN101488346B

CN101488346B - 语音可视化系统及语音可视化方法

Info

Publication number: CN101488346B
Application number: CN2009101055585A
Authority: CN
Inventors: 王岚; 陈辉; 欧阳建军
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2009-02-24
Filing date: 2009-02-24
Publication date: 2011-11-02
Anticipated expiration: 2029-02-24
Also published as: CN101488346A

Abstract

本发明涉及一种语音可视化系统及语音可视化方法，该语音可视化系统包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块。该语音可视化方法包括：同步采集说话人的说话人运动数据和语音数据；对语音数据进行处理；建立发音器官运动数据库；建立三维说话人头像静态三维模型；建立校准后的发音器官运动数据库；实现各个单音素的所有发音器官协同变形模拟；接收说话人的语音信息；模拟三维说话人头像发音运动；显示三维说话人头像发音运动的三维可视化信息。

Description

语音可视化系统及语音可视化方法

技术领域

本发明涉及一种语音可视化系统及语音可视化方法。

背景技术

目前，生物模拟技术主要是对生物的外观行为特征的模拟，对生物体内部器官的模拟仅限于再现其静态状态。其不足之处在于：不能模拟说话人内部发音器官的真实动作。

发明内容

有鉴于此，有必要针对生物模拟技术不能模拟说话人内部发音器官的真实动作的问题，提供一种能模拟说话人内部发音器官的真实动作的语音可视化系统。

一种语音可视化系统，包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块；所述说话人运动数据采集模块用于通过X光透像、核磁共振成像或三维电磁发音记录仪的方法采集说话人的说话人运动数据；所述至少一语音数据采集模块用于同步采集说话人的语音数据；所述至少一语音识别模块用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据；所述发音器官运动数据采集模块用于根据各音素的时间长度对说话人运动数据进行处理，建立与音素对应的发音器官运动数据库；所述三维说话人头像静态建模模块用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型，提供可观测发音器官所有三维说话人头像静态三维模型数据，以及所定义运动控制特征点的静态三维数据；所述运动控制参数变换模块将发音器官运动数据库与三维说话人头像静态三维模型进行配准，获得校准后的发音器官运动数据库；所述单音素发音器官运动模拟模块利用三维动态变形模拟算法，加载从校准后的发音器官运动数据库中得到的运动控制参数，实现各个单音素的所有发音器官协同变形模拟；所述连续发音运动模拟模块用于接收音素时间长度信息和连续音素音频数据，采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步，结合说话人表情模拟三维说话人头像发音运动；所述显示模块用于显示三维说话人头像发音运动的三维可视化信息；所述语音识别模块包括声学特征参数提取模块、声学模型数据库存储模块、语言模型数据库存储模块和解码模块；所述声学模型数据库存储模块用于存储声学模型数据库，所述声学模型数据库是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科夫模型的上下文相关的三音素模型，利用最大似然估计算法和区别性训练算法对聚类的三音素模型进行参数估计和更新；所述语言模型数据库存储模块用于存储语言模型数据库；所述声学特征参数提取模块用于从语音数据中提取语音信号特征参数；所述解码模块根据声学模型数据库和语言模型数据库，运用广度优先的搜索算法对语音信号特征参数进行解码识别，输出音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。

优选的，所述至少一语音数据采集模块的个数为一个，所述至少一语音识别模块的个数为一个，该语音数据采集模块与该语音识别模块连接，该语音识别模块与发音器官运动数据采集模块连接。

优选的，所述至少一语音数据采集模块包括第一语音数据采集模块和第二语音数据采集模块，所述至少一语音识别模块包括第一语音识别模块和第二语音识别模块；该第一语音数据采集模块与该第一语音识别模块连接，该第一语音识别模块与发音器官运动数据采集模块连接；该第二语音数据采集模块与该第二语音识别模块连接，该第二语音识别模块与连续发音运动模拟模块连接。

此外，还提供一种语音可视化方法。

一种语音可视化方法，包括：同步采集说话人的说话人运动数据和语音数据；对语音数据进行处理；建立发音器官运动数据库；建立三维说话人头像静态三维模型；建立校准后的发音器官运动数据库；实现各个单音素的所有发音器官协同变形模拟；接收说话人的语音信息；模拟三维说话人头像发音运动；显示三维说话人头像发音运动的三维可视化信息；

所述建立发音器官运动数据库包括：定义控制各发音器官变形运动的特征点；提取面部特征点二维参数；提取口腔内部特征点二维参数；建立发音器官运动数据库；

所述实现各个单音素的所有发音器官协同变形模拟包括：对发音器官进行分类；对各类发音器官分别进行运动模拟；实现发音器官协同变形模拟；

所述对各类发音器官分别进行运动模拟包括：对软组织类发音器官采用基于位移的算法进行运动模拟或者采用基于物理的算法进行运动模拟；对开合类发音器官建立局部旋转坐标系，根据校准后的发音器官运动数据库进行转开合运动模拟；对固定类发音器官，保持运动不变。

优选的，所述建立校准后的发音器官运动数据库包括：获取各特征点的静态数据；获得特征参数变换矩阵；获得校准后的发音器官运动数据库。

优选的，所述对发音器官进行分类包括：根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官、开合类发音器官和固定类发音器官。

上述语音可视化系统利用语音可视化技术，采用计算机图形学的变形运动模拟方法和高识别准确率的自动语音识别技术，能模拟说话人内部发音器官的真实动作。通过视觉和听觉两类信息的有机融合，全面模拟人类语言发音的过程，可以真实地反映发音器官的运动情况，有效地提升语言感知的程度。

附图说明

图1是语音可视化系统的示意图。

图2是第一语音识别模块的示意图。

图3是发音器官运动数据采集模块的工作流程图。

图4是运动控制参数变换模块的工作流程图。

图5是单音素发音器官运动模拟模块的工作流程图。

具体实施方式

图1是语音可视化系统的示意图。语音可视化系统100包括说话人运动数据采集模块101、第一语音数据采集模块102、第一语音识别模块103、发音器官运动数据采集模块104、三维说话人头像静态建模模块105、运动控制参数变换模块106、单音素发音器官运动模拟模块107、第二语音识别模块109、连续发音运动模拟模块110和显示模块111。

说话人运动数据采集模块101用于采集说话人运动数据。说话人运动数据可以是二维数据或三维数据。说话人运动数据可以通过对说话人的正面和正交侧面进行录像，以及对说话人进行X光透像(或者进行核磁共振成像)的方法获得。或者利用运动捕捉技术对说话人面部和唇部的特征点进行运动跟踪，直接获取说话人运动数据。或者利用三维电磁发音记录仪(ElectromagneticArticulography)对说话人进行采样，直接获取说话人运动数据。

第一语音数据采集模块102用于采集说话人的语音数据(自然连续语音)。说话人的语音数据可以通过对说话人的语音进行录音的方法获得。

上述说话人运动数据采集和语音数据采集是同步进行的。

第一语音识别模块103用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。

发音器官运动数据采集模块104用于根据各音素的时间长度对说话人运动数据进行处理，建立与音素对应的发音器官运动数据库。

三维说话人头像静态建模模块105用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型，提供可观测发音器官所有三维说话人头像静态三维模型数据，以及所定义运动控制特征点的静态三维数据。发音器官包括上下唇、上下齿、齿龈、下颚、软颚、小舌、舌尖、舌面和舌根。其中上齿、齿龈、软颚和舌根为发音动作中不变形的器官，而上下唇、下齿、下颚、舌尖、舌面和小舌为运动变形器官。

运动控制参数变换模块106将发音器官运动数据库与三维说话人头像静态三维模型进行配准，获得校准后的发音器官运动数据库。

单音素发音器官运动模拟模块107利用三维动态变形模拟算法，加载从校准后的发音器官运动数据库中得到的运动控制参数，实现各个单音素的所有发音器官协同变形模拟。

第二语音数据采集模块108用于采集说话人的语音数据(自然连续语音)。说话人的语音数据可以通过对说话人的语音进行录音的方法获得。第二语音数据采集模块108和第一语音数据采集模块102完全相同，因此，第二语音数据采集模块108也可由第一语音数据采集模块102代替。

第二语音识别模块109用于接收第二语音数据采集模块108采集的语音数据，从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。第二语音识别模块109和第一语音识别模块103完全相同，因此，第二语音识别模块109也可由第一语音识别模块103代替。

连续发音运动模拟模块110用于接收从第二语音识别模块109中提取的音素时间长度信息和连续音素音频数据，采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步，结合说话人表情模拟三维说话人头像发音运动。

显示模块111用于显示三维说话人头像发音运动的三维可视化信息。显示模块111可以是显示器、电视机等显示设备。

图2是第一语音识别模块103的示意图。第一语音识别模块103包括声学特征参数提取模块302、声学模型数据库存储模块304、语言模型数据库存储模块306和解码模块308。声学模型数据库存储模块304所存储的声学模型数据库是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科夫模型(HMM)的上下文相关的三音素模型，利用最大似然估计算法(MaximumLikelihood)和区别性训练算法(Discriminative Training)对聚类的三音素模型进行参数估计和更新。语言模型数据库存储模块306所存储的语言模型数据库是根据大规模新闻类数据以及网络上收集的大量语音数据标注文本进行统计训练得到。声学特征参数提取模块302用于从语音数据中提取语音信号特征参数。解码模块308根据声学模型数据库和语言模型数据库，运用广度优先的搜索算法对语音信号特征参数进行解码识别，并可同时采用设置适当的宽度值来提升解码的效率。语音信号特征参数经解码识别后可得到音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。测试表明，语音识别模块针对朗读方式的大词汇量非特定人连续语音识别的音素识别准确率能够达到90％以上。

语音识别的具体方法详细说明如下：首先对自然连续语音进行语音信号特征提取，例如采用感知线性预测(PLP)特征参数，包括能量以及差分特征等。声学模型采用基于HMM的统计模型。每个HMM可以表征语音信号的基本音素单元，多个音素的HMM串行起来构成一个词的HMM。采用词典(Lexicon)来表征每个单词对应的发音和音素序列。在大量语音数据的基础上训练声学模型各个三音素模型的均值、方差、权值、转移概率等参数。利用大量文本信息建立语言模型，通过估计相连词汇的出现概率提供语言模型分数，并结合声学模型分数在识别网络中搜索最优音素序列，最终识别出语音所对应的文本信息。

第一语音识别模块103除了可以识别中文和英文的语音之外，同时也为增加其他语种的声学模型和语言模型提供了接口，可根据需要增加或更新相应的声学模型数据库和语言模型数据库。

图3是发音器官运动数据采集模块104的工作流程图。发音器官运动数据采集模块104的具体工作过程如下：

S401：定义控制各发音器官变形运动的特征点。

根据生理解剖学结构数据对正面视频图像、正交侧面视频图像和X-光透视图像进行分析，定义出控制各个发音器官变形运动的特征点。其中，面部的特征点有唇部6个特征点、鼻尖、下颚等，口腔内部的特征点有舌部6个特征点等。

S402：提取面部特征点二维参数。

根据音素序列文本与音素时间长度信息确定所有音素对应的正面视频图像和正交侧面视频图像，提取面部特征点二维参数，然后利用立体视觉恢复三维坐标。

S403：提取口腔内部特征点二维参数。

根据音素序列文本与音素时间长度信息确定所有音素对应的口腔X光透视图像，并提取口腔内部二维参数。

S404：建立发音器官运动数据库。

根据说话人实际头部数据对面部特征点二维参数和口腔内部特征点二维参数进行配准，建立发音器官运动数据库。

图4是运动控制参数变换模块106的工作流程图。运动控制参数变换模块106的具体工作过程如下：

S501：获取各特征点的静态数据。

根据外部和内部发音器官不发音时的静态图像获取各特征点的静态数据。各特征点的静态数据包括口腔内部静态二维数据和面部三维重建后特征点静态数据。

S502：获得特征参数变换矩阵。

根据口腔内部静态二维数据、面部三维重建后特征点静态数据和三维说话人头像模型特征点静态数据，对说话人实际头部数据进行配准，获得特征参数变换矩阵。

S503：获得校准后的发音器官运动数据库。

根据特征参数变换矩阵对发音器官运动数据库进行变换，得到校准后的发音器官运动数据库。该数据库为单音素发音器官运动模拟模块107提供所有音素的发音器官运动控制特征点的动态变形运动控制参数，在该参数的控制下可以模拟出所有单个和多个连续中文和英文音素的发音变形，并为新语言音素发音变形模拟提供加载参数的接口，可根据需要增加或更新相应音素的发声变形模拟。

图5是单音素发音器官运动模拟模块107的工作流程图。单音素发音器官运动模拟模块107的具体工作流程包括如下步骤：

S601：对发音器官进行分类。

根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官(唇部和舌部)、开合类发音器官(下齿和下颚)和固定类发音器官(上齿和口腔上部)。

S602：对各类发音器官分别进行运动模拟。

对软组织类发音器官采用基于位移的算法(Displacement-based)模拟变形，根据软组织类发音器官特征点进行广度优先搜索得到各特征点的邻域，在该邻域内构造以特征点为中心的椭球面，设置椭球面上的点的位移为零，以特征点的位移和邻域内各点与椭球面的距离为参数，构造正弦或余弦函数对影响范围内的点进行变形，实现发音器官特征点变形的真实扩散。或者采用基于物理的算法(Physics-based)模拟舌部和面部的变形，构造弹簧质点模型或有限元模型，同时标注口轮匝肌和舌部肌肉群(包括颏舌肌、舌骨舌肌、茎突舌肌、舌上纵肌、舌下纵肌、舌直肌和舌横肌)的走向，根据发音器官特征点的运动控制参数设计相应的边界条件，并且沿肌肉纤维走向设置收缩系数模拟肌肉收缩，模拟软组织的生理物理变形。

对开合类发音器官建立局部旋转坐标系，根据校准后的发音器官运动数据库进行转开合运动模拟。

对固定类发音器官，保持运动不变。

S603：实现发音器官协同变形模拟。

对每一音素建立发音时的各发音器官运动的逻辑关系，根据联合时序逻辑控制算法，共同实现各个单音素的所有发音器官协同变形模拟。

上述语音可视化系统可将外部模型设置为透视状态或线框模式，从而可以观察到口腔内部发音器官发音变形的位置和状态。并且上述语音可视化系统中所有内部和外部模型可实现在三维空间的任意角度旋转和任意大小缩放。

上述语音可视化系统是根据生理解剖学构建三维发音器官静态建模的基础之上，应用生物力学原理模拟发音器官运动变形状态和速度，同时利用高识别准确率的自动语音识别技术，对实时、自然连续语音进行音素识别和协同发音音素时间长度信息获取，构建并实现了三维说话人头像发音器官协同运动模拟和说话人表情系统。上述语音可视化系统模拟出的发音器官运动不仅具有高真实感和高准确度，而且能够自动模拟出连续发音时对应多个发音器官运动的形状、速度和力度。

上述语音可视化系统100利用语音可视化技术，采用计算机图形学的变形运动模拟方法和高识别准确率的自动语音识别技术，构建三维说话人头像连续发音运动模拟系统。该发明通过视觉和听觉两类信息的有机融合，全面模拟人类语言发音的过程，可以真实地反映发音器官的运动情况，有效地提升语言感知的程度。上述语音可视化系统可以推广到三维动漫的人物运动设计中，从而大幅度提高设计三维动漫人物对话的效率和真实感。

此外，当外界输入的是语音数据中已包含音素时间长度信息和连续音素音频数据时，上述语音可视化系统100可以没有第二语音识别模块109，此时，外界语音数据直接输入至连续发音运动模拟模块110。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音可视化系统，其特征在于：包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块；所述说话人运动数据采集模块用于通过X光透像、核磁共振成像或三维电磁发音记录仪的方法采集说话人的说话人运动数据；所述至少一语音数据采集模块用于同步采集说话人的语音数据；所述至少一语音识别模块用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据；所述发音器官运动数据采集模块用于根据各音素的时间长度对说话人运动数据进行处理，建立与音素对应的发音器官运动数据库；所述三维说话人头像静态建模模块用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型，提供可观测发音器官所有三维说话人头像静态三维模型数据，以及所定义运动控制特征点的静态三维数据；所述运动控制参数变换模块将发音器官运动数据库与三维说话人头像静态三维模型进行配准，获得校准后的发音器官运动数据库；所述单音素发音器官运动模拟模块利用三维动态变形模拟算法，加载从校准后的发音器官运动数据库中得到的运动控制参数，实现各个单音素的所有发音器官协同变形模拟；所述连续发音运动模拟模块用于接收音素时间长度信息和连续音素音频数据，采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步，结合说话人表情模拟三维说话人头像发音运动；所述显示模块用于显示三维说话人头像发音运动的三维可视化信息；

所述语音识别模块包括声学特征参数提取模块、声学模型数据库存储模块、语言模型数据库存储模块和解码模块；所述声学模型数据库存储模块用于存储声学模型数据库，所述声学模型数据库是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科夫模型的上下文相关的三音素模型，利用最大似然估计算法和区别性训练算法对聚类的三音素模型进行参数估计和更新；所述语言模型数据库存储模块用于存储语言模型数据库；所述声学特征参数提取模块用于从语音数据中提取语音信号特征参数；所述解码模块根据声学模型数据库和语言模型数据库，运用广度优先的搜索算法对语音信号特征参数进行解码识别，输出音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。

2.根据权利要求1所述的语音可视化系统，其特征在于：所述至少一语音数据采集模块的个数为一个，所述至少一语音识别模块的个数为一个，该语音数据采集模块与该语音识别模块连接，该语音识别模块与发音器官运动数据采集模块连接。

3.根据权利要求1所述的语音可视化系统，其特征在于：所述至少一语音数据采集模块包括第一语音数据采集模块和第二语音数据采集模块，所述至少一语音识别模块包括第一语音识别模块和第二语音识别模块；该第一语音数据采集模块与该第一语音识别模块连接，该第一语音识别模块与发音器官运动数据采集模块连接；该第二语音数据采集模块与该第二语音识别模块连接，该第二语音识别模块与连续发音运动模拟模块连接。

4.一种语音可视化方法，包括：

同步采集说话人的说话人运动数据和语音数据；

对语音数据进行处理；

建立发音器官运动数据库；

建立三维说话人头像静态三维模型；

建立校准后的发音器官运动数据库；

实现各个单音素的所有发音器官协同变形模拟；

接收说话人的语音信息；

模拟三维说话人头像发音运动；

显示三维说话人头像发音运动的三维可视化信息；

5.根据权利要求4所述的语音可视化方法，其特征在于：所述建立校准后的发音器官运动数据库包括：获取各特征点的静态数据；获得特征参数变换矩阵；获得校准后的发音器官运动数据库。

6.根据权利要求4所述的语音可视化方法，其特征在于：所述对发音器官进行分类包括：根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官、开合类发音器官和固定类发音器官。