CN101471071A

CN101471071A - 一种基于混合隐马尔可夫模型的语音合成系统

Info

Publication number: CN101471071A
Application number: CNA2007103042256A
Authority: CN
Inventors: 陶建华; 于剑; 张蒙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2007-12-26
Filing date: 2007-12-26
Publication date: 2009-07-01

Abstract

本发明基于混合隐马尔可夫模型的语音合成系统，有频谱信息生成模块接收任意文本信息，根据指标来选取表征频谱信息的码本矢量并输出频谱信息；基频信息生成模块接收文本信息，负责预测待合成句子的音高变化，输出基频曲线；参数语音合成器模块接收频谱信息生成模块的频谱信息和基频信息生成模块的基频信息，输出合成的语音结果；离线训练模块负责各种隐马尔可夫模型的训练，离散隐马尔可夫模型得到真实频谱矢量的输出概率，保证频谱信息的准确度；码本选择算法保证生成的频谱不会产生时域过平滑现象。依据本发明提高参数语音合成系统输出语音的清晰度，从而使得输出语音的保真度得到大幅提高，几乎接近基于拼接语音合成系统的语音质量。

Description

一种基于混合隐马尔可夫模型的语音合成系统

技术领域

本发明涉及一种语音合成系统，具体地涉及基于混合隐马尔可夫模型的语音合成系统。

背景技术

语音合成系统又称文语转换系统(TTS系统)，它的主要功能是将计算机接收到的或输入的任意文字串转换成语音输出。传统的语音合成系统是基于单元拼接的，其音质表现好，但是所需音库资源比较大，导致其在嵌入式设备上的应用遇到瓶颈。而基于隐马尔可夫模型的语音合成系统从本质上来说是一种参数合成系统，具有灵活性高和所需存储资源小的优点。但是，由于其参数化的本质，其音质表现通常大大逊于基于拼接的合成系统，这也正是当前基于隐马尔可夫模型的语音合成系统难以大规模应用的瓶颈所在。

基于隐马尔可夫模型的语音合成系统音质表现差的原因主要是来自于模型生成频谱参数的两个过平滑问题：时域过平滑问题和频域过平滑问题。频域上的过平滑现象导致合成的语音共振峰不清晰，进而导致了听感上的模糊。产生这种现象的原因是在传统基于隐马尔可夫语音合成系统训练过程中，大量的统计操作使得高斯函数均值所表征的频谱丢失了太多的细节信息。而时域上的过平滑现象则导致频谱变化过程中损失了太多细节，这是由连续隐马尔可夫模型的本质所导致的。在传统方法中，一个音素往往由3个或5个状态来表示。如果某个状态的持续时间较长，仅仅依靠该状态对应的高斯函数均值无法描述该状态内部语音参数变化的细节，这引起了严重的时域过平滑问题。因此，需要一种新的算法，可以尽可能地保证频谱信息的精确度，这样，才能够构建自然、流畅的参数化语音合成系统。

发明内容

为了解决现有技术问题，本发明的目的是要提出一种算法，可以最大程度上保证频谱信息的精确，从而保证输出语音的清晰度。为此，本发明构建一种基于混合隐马尔可夫模型的语音合成系统。

为实现上述目的，本发明的一种基于混合隐马尔可夫模型的语音合成系统，利用各种电脑终端及数字移动设备，将系统接收的或输入的任意文字串转换成语音输出，由频谱信息生成模块、基频信息生成模块、参数语音合成器模块、离线训练部分组成，其中：

具有一频谱信息生成模块，输入端接收任意文本信息，负责根据指标来选取表征频谱信息的码本矢量并产生完整的频谱信息；具有一输出端输出完整的频谱信息；

具有一基频信息生成模块，输入端接收文本信息，负责预测待合成句子的音高变化；具有一输出端输出完整的基频曲线；

具有一参数语音合成器模块，输入端接收来自于频谱信息生成模块的频谱信息和来自于基频信息生成模块的基频信息；具有一输出端输出合成的语音结果；

具有一离线训练模块，负责各种隐马尔可夫模型的训练。

根据本发明的实施例，所述频谱信息生成模块包括：

具有一隐马尔可夫模型映射模块，接受任意文本信息，将其表征为带有韵律信息标注的音素序列，找到与其最符合的隐马尔可夫模型；具有一输出端输出隐马尔可夫模型状态序列；

具有一离散隐马尔可夫模型模块，根据训练得到的离散隐马尔可夫模型得到当前状态下码本矢量的输出概率；具有一输出端输出当前状态下码本矢量的输出概率；根据该输出概率进行码本的选择，保证码本选择的正确性；

具有一有关共振峰轨迹的多空间概率隐马尔可夫模型模块，根据训练得到的多空间概率隐马尔可夫模型得到当前状态下的共振峰轨迹；具有一输出端输出当前状态下的共振峰轨迹；合成语音的共振峰轨迹应该与该理想的共振峰轨迹相吻合，保证语音的清晰度；

具有一拼接概率模块，具有一输出端输出相邻状态之间所有码本矢量的输出概率；依据两两候选码本之间相邻的概率进行码本选择，使频谱在时域上具有多样性；

具有一有关能量轨迹的连续隐马尔可夫模型模块，根据训练得到的连续隐马尔可夫模型得到当前状态下的能量轨迹；具有一输出端输出当前状态下的能量轨迹；

具有一码本选择模块，根据离散隐马尔可夫模型模块、有关共振峰轨迹的多空间概率隐马尔可夫模型模块和拼接概率模块的输出结果使用动态规划算法进行码本的选择；具有一输出端输出选择得到的码本序列；

码本选择模块的输出和有关能量轨迹的连续隐马尔可夫模型模块的输出，两者结合，获得完整的频谱信息。

根据本发明的实施例，所述基频信息生成模块包括：

具有一有关基频曲线的多空间概率分布隐马尔可夫模块，根据训练得到的多空间概率分布隐马尔可夫模型得到待合成语句的基频曲线；具有一输出端输出待合成语句的基频曲线。

根据本发明的实施例，所述参数语音合成器模块包括：

具有一基于带权频谱自适应插值的语音参数合成器模块，接受来自频谱信息生成模块和基频信息生成模块的输出；具有一输出端输出合成的语音。

根据本发明的实施例，所述离线训练模块包括：

具有一离散隐马尔可夫模型训练模块，负责对所有频谱矢量进行矢量量化，并进行离散隐马尔可夫模型的训练；

具有一连续隐马尔可夫模型训练模块，使用连续隐马尔可夫模型进行能量轨迹的训练；

具有一多空间隐马尔可夫模型训练模块，使用多空间概率隐马尔可夫模型进行基频曲线、共振峰轨迹的训练。

根据本发明的实施例，所述离散隐马尔可夫模型训练模块包括：

具有一矢量量化模块，负责将语料中所有频谱矢量表示为有限的类别数，具有一输出端用于输出频谱矢量有限的类别数；

具有一训练模块具有一输入端与矢量量化模块的输出端连接，接收频谱矢量有限的类别数，用于训练离散隐马尔可夫模型得到每个状态下码本矢量对应的输出概率，具有一输出端用于输出码本概率。

本发明的有益效果：本发明的的第一方面，为实现上述目的，在该框架中，通过混合使用连续隐马尔可夫模型和离散隐马尔可夫模型来解决前面所述的时域过平滑问题和频域过平滑问题。首先，通过矢量量化算法，将连续的频谱特征参数表征为离散的码本矢量。码本矢量来自于真实的频谱，因此它必然精确表征了包括共振峰位置和带宽在内的各种信息。而在传统的基于隐马尔可夫模型的合成系统中，频谱包络是使用训练得到的高斯函数均值来表示的，训练过程中必然丢失了大量的细节特征。通过使用来自于真实频谱的码本矢量替换丢失大量细节的高斯函数均值，频谱过平滑的问题得到了极大的改善。

本发明的第二方面，为实现上述目的，本发明在合成阶段，系统使用了一个精心设计的码本矢量选取算法：利用离散隐马尔可夫模型可以得到每一个状态的码本输出概率，利用该输出概率指导码本选取可以保证可懂度。利用多空间概率分布隐马尔可夫模型可以得到待合成语音的共振峰轨迹，利用共振峰轨迹指导码本选取可以保证清晰度。除此之外，不同码本矢量之间的拼接概率也被考虑在内，可以保证频谱在时域上有更多的多样性。通过上述一系列指标，通过使用来自于真实语音的码本矢量替代高斯函数均值来表征频谱信息，这样解决了传统基于隐马尔可夫模型合成系统的频域过平滑问题；通过使用精心设计的码本选取算法替代类似于插值的参数生成算法，这样解决了传统基于隐马尔可夫模型系统的时域过平滑问题。总而言之，通过上述两种手段，合成系统的音质得到明显提高，几乎接近基于拼接合成系统的音质表现。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明所提出的基于混合隐马尔可夫模型的语音合成系统的总体框图。

图2是本发明频谱信息生成模块的框图。

图3是本发明码本选择模块的框图。

图4是本发明离线训练模块的框图。

图5是本发明离散隐马尔可夫模型训练模块的框图。

具体实施方式

下面结合附图和实例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。应该指出，所描述的实例仅仅视为说明的目的，而不是对本发明的限制。

图1是本发明基于混合隐马尔可夫模型的语音合成系统示意图，系统以C语言编写，在windows平台下可使用visual studio编译运行，在linux平台下可使用gcc编译运行。在附图1本发明的优选实施方案中，本系统被分为四部分：频谱信息生成模块1、基频信息生成模块2、参数语音合成器模块3、离线训练模块4组成。其中，频谱信息生成模块1和基频信息生成模块2与参数语音合成器模块3相连接。离线训练模块4与其他部分无连接。

具有一频谱信息生成模块1，输入端接收任意文本信息，负责根据一系列精心设计的指标来选取表征频谱信息的码本矢量；具有一输出端输出完整的频谱信息。

具有一基频信息生成模块2，输入端接收任意文本信息，负责预测待合成句子的音高变化；具有一输出端输出完整的基频曲线。

具有一参数语音合成器模块3，输入端接收来自于频谱信息生成模块的频谱信息和来自于基频信息生成模块的基频信息；具有一输出端输出合成的语音结果。本实例中采用基于带权频谱自适应插值的语音参数合成算法。

具有一离线训练模块4，负责各种隐马尔可夫模型的训练。

如图2频谱信息生成模块的框图所示：频谱信息生成模块1由隐马尔可夫模型映射模块10、离散隐马尔可夫模型模块20、有关共振峰轨迹的多空间概率隐马尔可夫模型模块30、拼接概率模块40、有关能量轨迹的连续隐马尔可夫模型模块50、码本选择模块60组成。

隐马尔可夫模型映射模块10：负责接受任意文本信息，将其表征为带有韵律信息标注的基元序列，找到与其最符合的隐马尔可夫模型；具有一输出端输出隐马尔可夫模型状态序列。在本实例中，采用无监督聚类的方法构建一棵分类树，可以自动根据韵律信息标注选择得到合适的隐马尔可夫模型。

离散隐马尔可夫模型模块20：负责根据训练得到的离散隐马尔可夫模型得到当前状态下码本矢量的输出概率；具有一输出端输出当前状态下码本矢量的输出概率；根据该输出概率进行码本的选择，可保证码本选择的正确性。在本实例中，所使用的频谱参数是24维的线谱对参数(LSP)。

有关共振峰轨迹的多空间概率隐马尔可夫模型模块30：负责根据训练得到的多空间概率隐马尔可夫模型得到当前状态下的共振峰轨迹；具有一输出端输出当前状态下的共振峰轨迹。合成语音的共振峰轨迹应该与理想的共振峰轨迹吻合，该准则用于保证语音的清晰度；本实例中，对第一共振峰和第二共振峰进行了建模，其中第一共振峰和第二共振峰的权重比为6：4。

拼接概率模块40：具有一输出端输出相邻状态之间所有码本矢量的输出概率。依据两两候选码本之间相邻的概率进行码本选择，使频谱在时域上具有多样性。拼接概率的值被定义为在原始语料中相邻码本同时出现的次数。

有关能量轨迹的连续隐马尔可夫模型模块50：，根据训练得到的连续隐马尔可夫模型得到当前状态下的能量轨迹；具有一输出端输出当前状态下的能量轨迹。

码本选择模块60：根据前面三个模块离散隐马尔可夫模型模块20、有关共振峰轨迹的多空间概率隐马尔可夫模型模块30和拼接概率模块40的输出结果使用动态规划算法进行码本的选择；具有一输出端输出选择得到的码本序列。

码本选择模块60的输出和有关能量轨迹的连续隐马尔可夫模型模块的输出，两者结合，即为完整的频谱信息。

如图3码本选择模块的框图所示，负责根据码本选取准则来选择最合适的码本序列，主要有三个准则；

三个准则分别是：离散隐马尔可夫模型对应的码本输出概率110，多空间概率分布隐马尔可夫模型所得到的共振峰轨迹120，不同码本相邻出现的概率130。在本实例中，三个准则所占权重比为4:4:2。

离散隐马尔可夫模型对应的码本输出概率110：按照离散隐马尔可夫模型每个状态对应的码本矢量输出概率进行选择。当码本矢量的输出概率超过一个阈值时，就将其作为基元选取的一个候选，并且输出概率本身就作为代价函数之一。在仅仅考虑这一准则的情况下，系统可以依照最大输出概率得到码本序列，但是由于没有考虑到共振峰的信息，合成的结果并不理想，仅仅具有可懂度，但是音质不清晰。

Cost1＝1—output_probability

多空间概率分布隐马尔可夫模型所得到的共振峰轨迹120：根据语音编码领域的知识，共振峰位置信息是否准确对合成语音的音质高低有着非常重要的影响。本发明中，由多空间概率分布隐马尔可夫模型生成的共振峰轨迹是一个理想的共振峰轨迹，合成语音的共振峰轨迹应该与它吻合。所以，在码本选取中，候选码本的共振峰数值与多空间概率分布隐马尔可夫模型预测共振峰轨迹在这一时间点上的数值的差值可以作为代价函数的另一个标准，该标准可保证语音的清晰度。

Cost2＝formant_difference

不同码本相邻出现的概率130：拼接概率描述的是两个候选码本之间相邻的概率，可以通过对大规模语料数据的统计分析来得到。拼接概率用于代价函数的作用类似于传统隐马尔可夫模型参数生成算法中动态参数的作用，都是为了使频谱在时域上具有多样性。

Cost3＝1-concatenation_probability

基于以上这些准则，通过动态规划算法，可以得到码本序列，进而得到待合成语音的线谱对参数轨迹。所表征的频谱克服了传统基于隐马尔可夫模型参数合成系统所遇到的时域过平滑和频域过平滑问题。

如图4离线训练模块的框图所示：离线训练模块4由离散隐马尔可夫模型训练模块70、连续隐马尔可夫模型训练模块80、多空间隐马尔可夫模型训练模块90组成。

离散隐马尔可夫模型训练模块70，负责对所有频谱矢量进行矢量量化，并进行离散隐马尔可夫模型的训练。

具有一连续隐马尔可夫模型训练模块80：，使用连续隐马尔可夫模型进行能量轨迹的训练。

具有一多空间隐马尔可夫模型训练模块90：使用多空间概率隐马尔可夫模型进行基频曲线、共振峰轨迹的训练。基频曲线和共振峰轨迹在静音段和清音段没有取值，只能用一个符号代替(可以看作是一个0维信号)，所以无法直接使用连续隐马尔可夫模型进行对其进行建模。为了解决这个问题，一种多空间概率分布隐马尔可夫模型被提出用来描述参数维数不固定的对象(包括一个0维的符号)。这样，它就非常适合用来描述这一类参数。实际上，多空间概率分布隐马尔可夫模型可以看成是不同维数连续隐马尔可夫模型和离散隐马尔可夫模型的计权混合。

如图5离散隐马尔可夫模型训练模块所示，离散隐马尔可夫模型训练模块由矢量量化模块140和训练模块150组成，矢量量化模块140和训练模块150顺序电连接。

矢量量化模块140：负责将语料中所有频谱矢量表示为有限的类别数，具有一输出端用于输出频谱矢量有限的类别数；根据矢量量化将连续的线谱对(LSP)矢量表征为离散的码本序号。矢量量化过程中，如果直接使用较多的码本矢量，会遇到一些计算复杂度的问题。为了解决这个问题，本发明采用了基于分级矢量量化的方法。在这种方法中，第二级矢量量化对第一级量化所产生的误差进行量化。在该实例中，共聚类得到2¹³种类别数，其中一级矢量量化聚为2⁶类，二次矢量量化对每一类再聚为2⁷类。需要再次说明的一点是，所有码本矢量均来自于真实的频谱，因此保留了完整频谱的各种细节信息。因此，通过这样的手段，可以解决频域上的过平滑问题。

训练模块150：码本构建完成后，将语料中的每一帧用其相应的码本矢量序号来表示，然后进行离散隐马尔可夫模型训练。训练模块20具有一输入端与矢量量化模块的输出端连接，接收频谱矢量有限的类别数，用于训练离散隐马尔可夫模型得到每个状态下码本矢量对应的输出概率，具有一输出端用于输出码本概率。本发明中离散隐马尔可夫模型的训练同标准离散隐马尔可夫模型训练并无太大差别，唯一的不同就是在隐马尔可夫模型状态聚类过程中涉及了更多的上下文信息。在该实例中，使用的上下文信息包括前后声调信息、前后因素类型信息、在韵律词和韵律短语中的位置信息、韵律词和韵律短语的长度等。通过离散隐马尔可夫模型训练可以得到每一个状态对应的码本输出概率，这是码本选取算法中最重要的指导准则。

上述实施例为本发明的较佳实施例，本发明的应用不仅限于电脑终端，还可应用到多种手持式移动设备或其它形式的移动设备。根据本发明的主要构思，本领域普通技术人员均可以产生多种相类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1、一种基于混合隐马尔可夫模型的语音合成系统，利用各种电脑终端及数字移动设备，将系统接收的或输入的任意文字串转换成语音输出，其特征在于：由频谱信息生成模块、基频信息生成模块、参数语音合成器模块、离线训练部分组成，其中：

具有一离线训练模块，负责各种隐马尔可夫模型的训练。

2、根据权利要求1所述的基于混合隐马尔可夫模型的语音合成系统，其特征在于：所述频谱信息生成模块包括：

3、根据权利要求1所述的基于混合隐马尔可夫模型的语音合成系统，其特征在于：所述基频信息生成模块包括：

4、根据权利要求1所述的基于混合隐马尔可夫模型的语音合成系统，其特征在于：所述参数语音合成器模块包括：

具有一语音参数合成器模块，接受来自频谱信息生成模块和基频信息生成模块的输出；具有一输出端输出合成的语音。

5、根据权利要求1所述的基于混合隐马尔可夫模型的语音合成系统，其特征在于：所述离线训练模块包括：

6、根据权利要求1所述的基于混合隐马尔可夫模型的语音合成系统，其特征在于：所述离散隐马尔可夫模型训练模块包括：