CN102820030B

CN102820030B - 发音器官可视语音合成系统

Info

Publication number: CN102820030B
Application number: CN201210265448.7A
Authority: CN
Inventors: 陶建华; 杨明浩; 李�昊; 刘斌
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2012-07-27
Filing date: 2012-07-27
Publication date: 2014-03-26
Anticipated expiration: 2032-07-27
Also published as: CN102820030A

Abstract

本发明提供了一种发音器官可视语音合成系统，包括：音频分析模块、参数映射模块、动画驱动模块和运动分析模块，其中：音频分析模块，用于接收输入的说话人语音信号，根据能量信息判断静音段，将非静音段语音进行编码，输出语音线谱对参数；参数映射模块，用于接收音频分析模块实时传递来的语音线谱对参数，并利用经过训练的混合高斯模型，将其转化为模型运动参数；动画驱动模块，用于接收参数映射模块实时生成的模型运动参数，驱动虚拟发音器官模型的关键点运动，进而带动整个虚拟发音器官模型的运动。本发明直接由输入语音的频域参数生成相应的运动参数来带动模型运动，具有不受在线数据库的限制和生理模型的限制优点。

Description

发音器官可视语音合成系统

技术领域

本发明涉及信息技术行业模拟现实技术领域，尤其涉及一种发音器官可视语音合成系统。

背景技术

可视语音合成技术是人机交互技术的重要组成部分，也是人们一直关注的技术，发音器官的可视化是视语音合成技术的重要组成部分，它能够通过对一个人的语音进行处理和分析，生成相应的发音时人的发音器官的运动参数，并驱动图形学模型的运动。其研究成果对人机语音交互，语音教学，发音器官发生障碍的治疗等领域都具有重要意义。

目前已有的语音驱动的发音器官运动技术中，一种是基于大量的语音及对应的运动数据库，根据输入语音，借助数据检索和匹配技术找到最适合的运动，来驱动计算机模型或机械模型运动，这类方法产生的合成效果逼真，但发音过程涉及的器官众多，难以用统一的方法来描述不同器官运动与语音间的映射关系；另一种是对发音器官建立生物物理模型，通过分析发音时的生理变化，驱动模型运动，这类方法通常计算复杂较高，不具有良好的实时性。

发明内容

(一)要解决的技术问题

为解决上述的一个或多个问题，本发明提供了一种发音器官可视语音合成系统。

(二)技术方案

根据本发明的一个方面，提供了一种发音器官可视语音合成系统，包括：音频分析模块、参数映射模块、运动分析模块和参数映射模块。其中：于在线转换阶段：音频分析模块，用于接收输入的说话人语音信号，根据能量信息判断静音段，将非静音段语音进行编码，输出语音线谱对参数；参数映射模块，用于接收音频分析模块实时传递来的语音线谱对参数，并利用经过训练的混合高斯模型，将其转化为模型运动参数；动画驱动模块，用于接收参数映射模块实时生成的模型运动参数，驱动虚拟发音器官模型的关键点运动，进而带动整个虚拟发音器官模型的运动。于模型训练阶段：运动分析模块，用于接收说话人发音时的发音器官关键点运动信息，并将其映射至虚拟发音器官模型上；参数映射模块，用于接收由音频分析模块和运动分析模块提供的成对的语音线谱对参数和虚拟发音器官模型运动参数，进行训练，得到经过训练的混合高斯模型。

(三)有益效果

从上述技术方案可以看出，本发明发音器官可视语音合成系统具有以下有益效果：

(1)本发明发音器官可视语音合成系统直接由输入语音的频域参数生成相应的运动参数来带动模型运动，具有不受在线数据库的限制和生理模型的限制优点，也更为高效；

(2)本实施例发音器官可视语音合成系统对说话人，说话文本没有要求，可任意输入语音，即可将其发音过程复现；

(3)本发明发音器官可视语音合成系统中，对训练人语音特征没有要求，一旦模型训练完成，便可以脱离数据库而进行语音到发音器官模型运动的映射；

(4)本发明发音器官可视语音合成系统中，基于混合高斯模型，以帧为单位建立语音频域参数到发音器官二维模型的运动参数的映射，该方法计算量小，可以实时进行，且基于帧的转换灵敏度较高，细节丰富，并且在模型训练时数据无需进行标注。

附图说明

图1A为本发明实施例发音器官可视语音合成系统处于在线转换阶段的结构示意图；

图1B为本发明实施例发音器官可视语音合成系统处于模型训练阶段的结构示意图；

图2为本发明实施例发音器官可视语音合成系统中音频分析模块的结构示意图；

图3为本发明实施例发音器官可视语音合成系统中运动分析模块的结构示意图；

图4为本发明实施例发音器官可视语音合成系统中参数映射模块的结构示意图；

图5为本发明实施例发音器官可视语音合成系统中动画驱动模块的结构示意图。

【主要元件符号说明】

1-音频分析模块； 2-运动分析模块；

3-参数映射模块； 4-动画驱动模块

11-音频预处理子模块； 12-音频编码子模块；

21-三维捕捉子模块； 22-数据平滑子模块；

23-坐标映射子模块； 31-模型训练子模块；

32-在线转换子模块； 41-模型驱动子模块

42-交互界面模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。且在附图中，以简化或是方便标示。再者，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

本发明发音器官可视语音合成系统中，利用电脑终端或数字移动设备，将说话人的实时语音或者录音输入转化为发音时的运动参数，带动基于计算机图形技术建立的二维发音器官模型运动。

在本发明的一个示例性实施例中，提供了一种发音器官可视语音合成系统。如图1A和图1B所示，本实施例发音器官可视语音合成系统包括：音频分析模块1，运动分析模块2，参数映射模块3，动画驱动模块4。

在线转换阶段，如图1A所示，音频分析模块，用于接收输入的说话人语音信号，根据能量信息判断静音段，将非静音段语音进行编码，输出语音线谱对参数；参数映射模块，与音频分析模块相连接，用于接收音频分析模块实时传递来的语音线谱对参数，并利用经过训练的混合高斯模型，将其转化为模型运动参数，输出至动画驱动模块；动画驱动模块，与参数映射模块相连接，用于接收参数映射模块实时生成的模型运动参数，驱动虚拟发音器官模型的关键点运动，进而带动整个虚拟发音器官模型的运动。

模型训练阶段，如图1B所示，音频分析模块，用于接收输入的说话人语音信号，根据能量信息判断静音段，将非静音段语音进行编码，输出语音线谱对参数；运动分析模块，用于接收说话人发音时的发音器官关键点运动信息，并将其映射至虚拟发音器官模型上；参数映射模块，与音频分析模块和运动分析模块相连接，用于接收由音频分析模块和运动分析模块提供的成对的语音线谱对参数和虚拟发音器官模型运动参数，进行训练，得到经过训练的混合高斯模型。

与现有技术相比，本发明发音器官可视语音合成系统直接由输入语音的频域参数生成相应的运动参数来带动模型运动，具有不受数据库的限制和生理模型的限制优点，也更为高效。同时，本发明发音器官可视语音合成系统对说话人，说话文本没有要求，可任意输入语音，即可将其发音过程复现。

以下分别对本实施例发音器官可视语音合成系统各个模块进行详细说明。

图2为本发明实施例发音器官可视语音合成系统中音频分析模块的结构示意图。如图2所示，音频分析模块1包括：音频预处理子模块11和音频编码子模块12。其中：音频预处理子模块11，与语音输入端相连，用于根据语音的能量信息，对语音进行静音判断，在模型训练阶段，切除训练数据的静音段；在线转换阶段，判断是否有语音输入，作为音频转换开始与结束的开关。音频编码子模块12，与音频预处理子模块11相连接，用于将预处理后的说话人的语音信号转化为帧为单位的语音线谱对参数。优选地，所述语音线谱对参数选取了16阶线谱对参数。同时，为保证语音参数与运动参数同步，设定适当的帧长和帧移，保证其频率与运动参数频率相同。帧长的范围通常为10ms至30ms；帧移常设置为帧长的一半。优选地，运动数据录制采样率设定为100Hz，设定语音帧长为20ms，帧移为10ms，由此得到的语音线谱对参数为每秒100帧，与运动数据保持一致。

本发明发音器官可视语音合成系统中，以帧为单位建立语音线谱对参数到发音器官二维模型的运动参数的映射，该方法计算量小，可以实时进行，且基于帧的转换灵敏度较高，细节丰富，并且在模型训练时数据无需进行标注。

图3为本发明实施例发音器官可视语音合成系统中运动分析模块的结构示意图。如图3所示，运动分析模块2包括：三维捕捉子模块21，用于捕捉说话人发音时的发音器官关键点运动的坐标信息；数据平滑子模块22，用于利用平滑算法消除三维捕捉子模块获得的坐标信息的抖动；坐标映射子模块23，用于将平滑后的坐标信息对应到虚拟发音器官模型的关键点上。

在三维捕捉子模块21中，关键点设置情况为：唇部关键点包括发音者上下唇中点各1个点，两个嘴角各1个点，共4个点；舌部关键点包括：上表面中线由舌根至舌尖依次等间隔分布3个点；下巴关键点，1个点；额头关键点，1个点；颧骨关键点，两侧各1个点，2个点。所有的关键点共计11个点。其中唇部和舌部的关键点用于记录唇部和舌部的非刚体运动，下巴的关键点用于判断下颚的张合，头部以及颧骨的关键点用于计算刚体运动和计算映射平面。

在数据平滑子模块22中，平滑算法采用前后帧三点线性平滑方法，来消除由录制设备或其他原因造成的抖动。

坐标映射子模块23包括：降维单元，用于将平滑后的三维坐标信息映射至两个二维平面上，即人唇部正面的第一平面和口腔内部侧剖面的第二平面，两个平面的位置由运动数据中额头和颧骨处的三个关键点计算获得，其中，第一平面通过额头关键点和颧骨处的两个关键点确定，与面部大致平行，第二平面通过额头关键点并垂直于颧骨处两个点的连线，处于人头部左右对称的截面上，唇部关键点的位移被分别平行投影至第一平面和第二平面上，舌部关键点和下颚关键点的位移被平行投影至第二平面上；对应单元，用于根据每个人的发音器官大小，将坐标进行比例调节处理，以驱动同一虚拟发音器官模型，方法是：先将降维后的唇部关键点位移除以数据录制者的唇宽，舌部关键点位移除以舌部关键点的平均距离，得到归一化唇部关键点位移数据；下巴关键点的位移除以数据录制者下巴至下颚根部的长度，得到归一化下巴关键点位移数据；在驱动模型时，将归一化唇部关键点位移乘以模型的唇宽，归一化舌部关键点位移乘以模型关键点平均距离，归一化下巴关键点位移乘以模型的下巴长度，得到模型的对应关键点得位移数据，即控制模型运动的参数。

图4为本发明实施例发音器官可视语音合成系统中参数映射模块的结构示意图。如图4所示，参数映射模块3包括：模型训练子模块31和在线转换子模块32，模型训练子模块31，用于在离线状态下接收语音线谱对参数和模型运动参数对，进行混合高斯模型的训练；在线转换子模块32，用于实时接收语音线谱对参数，将其在线转换为实时模型运动参数。

模型训练子模块31，采用最大期望(EM)算法进行训练，得到的模型为语音线谱对参数和动画参数的联合分布概率，其表示为：

p (z_{t} | λ^{(z)}) = Σ_{m = 1}^{M} w_{m} N (z_{t}; μ_{m}^{(z)}, Σ_{m}^{(z)}) - - - (1)

其中，z_t代表

x_t是第t帧的语音线谱对参数向量，y_t是第t帧的运动参数，m是高斯成分的标号，高斯成分的总数为M。第m个高斯成分的权重为w_m，N(·；μ，∑)表示以μ为均值，以∑为协方差矩阵的正态分布。λ^(z)是包含了各高斯成分的权重，均值和协方差矩阵的参数集。均值向量

和协方差矩阵

可以写作：

μ_{m}^{(z)} = [\begin{matrix} μ_{m}^{(x)} \\ μ_{m}^{(y)} \end{matrix}] - - - (2)

Σ_{m}^{(z)} = [\begin{matrix} Σ_{m}^{(xx)} & Σ_{m}^{(xy)} \\ Σ_{m}^{(yx)} & Σ_{m}^{(yy)} \end{matrix}] - - - (3)

其中和

分别代表第m个高斯成分的语音线谱对参数向量和运动参数向量，

和

分别代表第m个高斯成分语音线谱对参数和运动参数的协方差矩阵，和代表第m个高斯成分的互协方差矩阵。

本发明发音器官可视语音合成系统中，建立语音参数到运动参数的转换过程中，需要建立语音以及与之对应的运动数据库，用于模型的训练。这样的数据库通过录音设备和运动捕捉设备获得，同时要保证其时序上的对应。对训练人语音特征和训练文本没有要求，一旦模型训练完成，便可以脱离数据库而进行语音到发音器官模型运动的映射。

在线转换模块32，其接受实时输入的语音线谱对参数，将其转换为模型运动参数的转换方法为：

{\hat{y}}_{t} = Σ_{m = 1}^{M} P (m | x_{t}, λ^{(z)}) E_{m, t}^{(y)} - - - (4)

其中：

P (m | x_{t}, λ^{(z)}) = \frac{w_{m} N (x_{t}; μ_{m}^{(x)}, Σ_{m}^{(xx)})}{Σ_{n = 1}^{M} w_{n} N (x_{t}; μ_{n}^{(x)}, Σ_{n}^{(xx)})} - - - (5)

E_{m, t}^{(y)} = μ_{m}^{(y)} + Σ_{m}^{(yx)} Σ_{m}^{(xx) - 1} (x_{t} - μ_{m}^{(x)}) - - - (6)

其中，

是第t帧输出的动画参数，给定一个x_t，则会产生一个相应的

图5为本发明实施例发音器官可视语音合成系统中动画驱动模块的结构示意图。如图5所示，动画驱动模块4包括：模型驱动子模块41，用于对接收到的模型运动参数流进行线行平滑，根据每一帧新的模型运动参数更新二维发音器官模型关键点位置，各关键点之间采用基于曲线插值技术得到的曲线相连，进而带动整个模型的运动。其中，该二维发音器官模型为一个基于计算机图形学技术建立的模型，分为两个子模型：正面唇部子模型和侧面发音器官子模型。正面唇部子模型由上下唇中点，两个嘴角4个关键点来驱动。侧面发音器官子模型中，由上下唇中点控制唇的张合；舌部上表面由舌根至舌尖依次等间隔分布5个点，控制舌部模型的非刚体运动；由输入的下颚转角参数控制下颚的张合。

此外，动画驱动模块4还可以包括：交互界面模块42，用于同步显示二维发音器官模型的运动情况以及实时的语音信号的频谱情况，它采用OpenGL技术，将上述模型的运动绘制出来，同时接受语音线谱对参数，并将其以曲线方式可视化。

综上所述，本发明构建了一种基于混合高斯模型状态映射的发音器官可视语音合成系统。该系统以C++语言编写，结合OpenGL图形程序接口，可在Windows平台编译运行，如有需要，也可移植至其他平台。

需要说明的是，上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式，本领域的普通技术人员可对其进行简单地熟知地替换，例如：

(1)运动参数可以不是关键点的位移信息，也可以是关键点的绝对坐标或者关键点的相对距离，如，使头部参考关键点固定抵消刚体运动后得到的各个关键点得绝对坐标，或者以每一帧嘴角两点的距离和上下唇亮点的距离来表征唇的运动，以舌部关键点之间的距离和夹角变化来表征舌部运动等方法；

(2)16阶语音线谱对参数，也可采用其他参数替代，如不同阶数的线谱对参数，线性预测参数，梅尔倒谱系数等参数。

(3)运动参数的平滑方法还可以采用高斯平滑等方法；

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发音器官可视语音合成系统，包括：音频分析模块、参数映射模块、动画驱动模块和运动分析模块，其中：

于在线转换阶段：

所述音频分析模块，用于接收输入的说话人语音信号，根据能量信息判断静音段，将非静音段语音进行编码，输出语音线谱对参数；

所述参数映射模块，用于接收所述音频分析模块实时传递来的语音线谱对参数，并利用经过训练的混合高斯模型，将其转化为模型运动参数；

所述动画驱动模块，用于接收所述参数映射模块实时生成的模型运动参数，驱动虚拟发音器官模型的关键点运动，进而带动整个虚拟发音器官模型的运动；

于模型训练阶段：

所述运动分析模块，用于接收说话人发音时的发音器官关键点运动信息，并将其映射至所述虚拟发音器官模型上；

所述参数映射模块，用于接收由所述音频分析模块和运动分析模块提供的成对的语音线谱对参数和虚拟发音器官模型运动参数，进行训练，得到经过训练的混合高斯模型；

其中，所述运动分析模块包括：

三维捕捉子模块，用于捕捉说话人发音时的发音器官关键点运动的坐标信息，其中，关键点设置如下：唇部关键点，包括发音者上下唇中点各1个点，左右嘴角各1个点，共4个点；舌部关键点，包括上表面中线由舌根至舌尖依次等间隔分布3个点；下巴关键点，共1个点；额头关键点，共1个点；颧骨关键点，包括两侧颧骨各1个点共2个点；

数据平滑子模块，用于利用平滑算法消除三维捕捉子模块获得的坐标信息的抖动；

坐标映射子模块，用于将平滑后的坐标信息对应到虚拟发音器官模型的关键点上。

2.根据权利要求1所述的发音器官可视语音合成系统，其中，所述数据平滑子模块中，采用的平滑算法为前后帧三点线性平滑方法。

3.根据权利要求1所述的发音器官可视语音合成系统，其中，所述坐标映射子模块包括：

降维单元，用于将平滑后的三维坐标信息映射至两个二维平面上，即人唇部正面的第一平面和口腔内部侧剖面的第二平面；

对应单元，用于根据每个人的发音器官大小，将坐标进行比例调节处理，对应到虚拟发音器官模型的关键点上。

4.根据权利要求3所述的发音器官可视语音合成系统，其中，所述降维单元中，两个二维平面和关键点的关系如下：

第一平面和第二平面的位置由额头关键点和颧骨关键点计算获得，唇部关键点的位移被分别平行投影至第一平面和第二平面；

第一平面通过额头关键点和2个颧骨关键点确定，与面部平行；

第二平面通过额头关键点并垂直于2个颧骨关键点的连线，处于人头部左右对称的截面上，舌部关键点和下巴关键点的位移被平行投影至第二平面。

5.根据权利要求4所述的发音器官可视语音合成系统，其中，所述对应单元包括：

唇部关键点位移子单元，用于利用降维后的唇部关键点位移除以数据录制者的唇宽，得到归一化唇部关键点位移数据；

舌部关键点位移子单元，用于利用舌部关键点位移除以舌部关键点的平均距离，得到归一化舌部关键点位移数据；

下巴关键点位移子单元，用于利用下巴关键点的位移除以数据录制者下巴至下颚根部的长度，得到归一化下巴关键点位移数据；

驱动子单元，用于将归一化唇部关键点位移乘以模型的唇宽，归一化舌部关键点位移乘以模型关键点平均距离，归一化下巴关键点位移乘以模型的下巴长度，得到模型的对应关键点得位移数据。

6.根据权利要求5所述的发音器官可视语音合成系统，其中，所述参数映射模块包括：

模型训练子模块，用于在离线状态下接收语音线谱对参数和模型运动参数对，进行混合高斯模型的训练；

在线转换子模块，用于实时接收语音线谱对参数，将其在线转换为实时模型运动参数。

7.根据权利要求6所述的发音器官可视语音合成系统，其中，所述动画驱动模块包括：

模型驱动子模块，用于对接收到的模型运动参数流进行线行平滑，根据每一帧新的模型运动参数更新二维发音器官模型关键点位置，各关键点之间采用基于曲线插值技术得到的曲线相连，进而带动整个模型的运动。

8.根据权利要求7所述的发音器官可视语音合成系统，其中，所述模型驱动子模块中，所述二维发音器官模型分为两个子模型：正面唇部子模型和侧面发音器官子模型；

所述正面唇部子模型由全部4个唇部关键点来驱动；

所述侧面发音器官子模型中，由唇部关键点中的2个上下唇中点控制唇的张合；舌部关键点中的舌部上表面由舌根至舌尖依次等间隔分布3个点，控制舌部模型的非刚体运动；由输入的下颚转角参数控制下颚的张合。

9.根据权利要求1至8中任一项所述的发音器官可视语音合成系统，其中，所述音频分析模块包括：

音频预处理子模块，与语音输入端相连，用于根据语音的能量信息，对语音进行静音判断，在模型训练阶段，切除训练数据的静音段；在线转换阶段，判断是否有语音输入，作为音频转换开始与结束的开关；

音频编码子模块，与音频预处理子模块相连接，用于将预处理后的说话人的语音信号转化为帧为单位的语音线谱对参数。

10.根据权利要求9所述的发音器官可视语音合成系统，其中，所述音频编码子模块中，所述语音线谱对参数的帧长的范围为10ms至30ms；帧移为帧长的一半。

11.根据权利要求9所述的发音器官可视语音合成系统，其中，所述音频编码子模块中，所述语音线谱对参数选取了16阶线谱对参数。