CN102201234A

CN102201234A - 一种基于音调自动标注及预测的语音合成方法

Info

Publication number: CN102201234A
Application number: CN2011101720133A
Authority: CN
Inventors: 那兴宇; 谢湘; 王朝民; 何娅玲
Original assignee: BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Current assignee: Beijing Yuyin Tianxia Technology Co., Ltd.; Zhuhai Hi-tech Angel Venture Capital Co., Ltd.
Priority date: 2011-06-24
Filing date: 2011-06-24
Publication date: 2011-09-28
Anticipated expiration: 2031-06-24
Also published as: CN102201234B

Abstract

本发明公开了一种基于音调自动标注及预测的语音合成方法，由音调预测模块接收待合成的任意文本信息，根据文本分析的音节和韵律层级结构预测音调曲线并输出完整的合成标注信息；参数语音合成模块接收音调预测模块的合成标注信息，使用参数生成的方法输出合成的语音信号；离线训练模块负责各种隐马尔科夫模型的训练，音调预测模型用于指导训练数据的有监督分段实现音调的自动标注以及预测合成文本的音调信息，合成参数模型用于得到合成的参数序列。依据本发明可以解决发音变调和协同发音的调式标注问题，使合成语音的韵律得到了极大地改善。

Description

一种基于音调自动标注及预测的语音合成方法

技术领域

本发明设计一种语音合成方法，具体地涉及基于音调自动标注及预测的语音合成方法。

背景技术

语音合成方法的目的是让机器用人类的语言进行表达，又称为文语转换方法(TTS方法)，它的主要功能是将计算机或其他数字设备接收到的任意文字串转换为语音信号，通过音频接口输出。基于大语料库的语音合成方法通过对大量录音数据的统计，合成具有高自然度和音质的语音。传统的基于单元拼接的合成方法音质较好，但所需训练数据较大且合成音库占用空间庞大，合成语音的连贯度不好。

基于隐马尔科夫模型的参数化统计语音合成方法具有较高的合成连贯度和灵活度，所需的资源占用空间较小，具有极大的实用和研究价值。基于隐马尔科夫模型的参数化统计语音合成方法将训练语料进行参数化表示，通常表示为基频、增益和声道谱系数。为指导隐马尔科夫模型的训练，要事先对每条训练语料进行标注，标注内容包括音节、音调和韵律层级结构。在有调音节语言(如汉语普通话、粤语和泰语等)中存在大量的变调和协同发音现象，如果标注的音调与实际发音不一致，就会造成统计模型的稳定性下降，严重影响合成语音的韵律。手工标注的音调受到标注人员的主观影响较大，且不便制定统一的标准。传统的音调标注以特定语言的音调划分为准则，将所有发音划分为几类调式，无法详细描述每种调式的音高变化情况，而音高的实际变化轨迹才对韵律的影响更大，这是简单的调式划分所无法表现的。因此，需要一种新的算法，能够对训练语料的音高变化做出详细描述，取代传统的调式标注，并能够在合成时预测出合成音的音高变化趋势，改善合成语音的韵律表现力。

发明内容

为了解决现有的技术缺陷，本发明的目的是要提出一种算法，可以对训练语料的音调信息做出自动标注，并在合成时预测合成语音的音高变化趋势，从而改善输出语音的韵律表现力。为此，本发明构建一种基于音调自动标注及预测的语音合成方法。

为实现上述目的，本发明的一种基于音调自动标注及预测的语音合成方法，利用各种计算机和数字设备的输入，将所接收到的任意文字串转化为语音输出，其特征在于：由离线训练模块、音调预测模块、参数语音合成模块组成，其中：

具有一离线训练模块，负责音调预测模型和增益、基频、声道谱和时长的生成模型的训练；

具有一音调预测模块，输入端接收文本信息，负责预测待合成文本中每个合成基元的基频曲线并生成带有音调的完整的合成标注信息；具有一输出端输出完整的合成标注信息；

具有一参数语音合成模块，输入端接收来自于音调预测模块的完整的合成标注信息；具有一输出端输出合成的语音信号。

根据本发明的实施例，所述离线训练模块包括：

具有一音调自动标注模块，负责训练音调预测模型，并得到完整的训练标注信息；

具有一连续隐马尔科夫训练模块，使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练；

具有一多空间隐马尔科夫模型训练模块，使用多空间概率隐马尔科夫模型进行基频生成模型的训练。

根据本发明的实施例，所述音调自动标注模块包括：

具有一基频提取模块，负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线；

具有一音调预测模型训练模块，使用多空间隐马尔科夫模型进行音调预测模型的训练；

具有一基频分段量化模块，使用音调预测模型对训练语料的基频数据中每个建模基元进行分段量化，具有一输出端用于输出每个训练基元的基频分段量化结果；

具有一音调自动标注模块，负责接收每个训练基元的基频分段量化结果，进行训练语料的音调自动标注取代音调预测模型训练模块中所使用的调式标注，具有一输出端用于输出训练语料完整的训练标注信息。

根据本发明的实施例，所述基频分段量化模块包括：

具有一量化间隔计算模块，负责统计全部训练语料的基频最大值和最小值，根据量化精度计算量化间隔；

具有一基频分段模块，负责根据训练的音调预测模型对每个训练基元的基频曲线按状态进行有监督分段；

具有一基频量化模块，负责根据分段结果判断每个分段的清浊音标志，清音段输出清音标志，浊音段根据段内基频平均值输出量化标志，具有以输出端输出每个训练基元的基频分段量化结果。

根据本发明的实施例，所述音调预测模块包括：

具有一文本分析模块，输入端接收任意文本信息，分析得到包含当前和相邻有调音节韵律层级结构的音调预测标注，具有一输出端输出音调预测标注；

具有一基频预测模块，输入端接收音调预测标注，根据训练得到的音调预测模型得到每个状态的基频预测值，进一步量化得到每个合成基元的音调预测曲线；

具有一合成标注生成模块，根据每个合成基元的音调预测曲线得到包含音调信息的完整合成标注信息，具有一输出端输出完整的合成标注信息。

根据本发明的实施例，所述参数语音合成模块包括：

具有一有关增益序列的连续隐马尔科夫模型模块，根据训练得到的连续隐马尔科夫模型得到每个合成基元每个状态的增益序列，具有一输出端输出待合成文本完整的增益序列；

具有一有关声道谱系数序列的连续隐马尔科夫模型模块，根据训练得到的续隐马尔科夫模型得到每个合成基元每个状态的声道谱系数序列，具有一输出端输出待合成文本完整的声道谱系数序列；

具有一有关基频序列的多空间概率隐马尔科夫模型模块，根据训练得到多空间概率隐马尔科夫模型得到每个合成基元每个状态的基频序列，具有一输出端输出待合成文本完整的基频序列。

具有一参数语音合成器模块，接收来自有关增益序列和声道谱系数序列的连续隐马尔科夫模型模块以及来自有关基频序列的多空间概率隐马尔科夫模型模块的输出，具有一输出端输出合成的语音。

本发明的有益效果：本发明的第一方面，为实现上述目的，在该方法中，使用建模基元的量化基频曲线解决前面所述的传统音调标注所带来的数据不匹配和缺少细节描述的问题。通过训练数据的基频分段量化方法，将连续的基频曲线表示为离散的分段标志，用训练数据本身的音高变化作为音调标注。而在传统的按调式分类标注的方法中，每个基元仅用一个调式来表示，无法描述其音高随时间变化的趋势，而且难以解决发音变调和协同发音的调式标注问题。通过基频分段量化替换传统的分类调式标注，韵律的建模得到了极大地改善。

本发明的第二方面，为实现上述目的，本发明在合成阶段，设计了一个音调预测算法：利用作为音调预测模型的多空间概率隐马尔科夫模型，得到每个状态的基频预测值，将状态基频预测值直接量化得到音调预测值，用于构建完整的合成标注信息。通过上述算法，可以将合成时音调分段原则与模型训练时对应，更好的指导合成声学参数的预测，改善合成语音的韵律表现力。

附图说明

附图1是本发明所提出的基于音调自动标注及预测的语音合成方法的总体框图。

附图2是本发明离线训练模块的框图。

附图3是本发明音调自动标注模块的框图。

附图4是本发明音调预测模块的框图。

附图5是本发明参数语音合成模块的框图。

具体实施方式

下面结合附图和实例对本发明进一步说明，通过结合附图对方法各关键步骤的详细说明将会更好地描述实现本发明的步骤和过程。应该指出，所描述的实例仅仅视为说明的目的，不是对本发明的限制。

附图1是本发明所提出的基于音调自动标注及预测的语音合成方法示意图。实现的方法以标准C语言编写，在windows平台和unix平台下均可编译运行。在附图1本发明的优选实施方案中，本方法分为三个部分：离线训练模块1、音调预测模块2、参数语音合成模块3组成。其中，音调预测模块2和参数语音合成模块3相连。离线训练模块1与其他部分无连接，仅用于线下生成语音合成系统所使用的音调预测模型b和合成参数模型c。

具有一离线训练模块1，负责音调预测模型和增益、基频、声道谱和时长的生成模型的训练；

具有一音调预测模块2，输入端接收文本信息，负责预测待合成文本中每个合成基元的基频曲线并生成带有音调的完整的合成标注信息；具有一输出端输出完整的合成标注信息；

具有一参数语音合成模块3，输入端接收来自于音调预测模块的完整的合成标注信息；具有一输出端输出合成的语音信号。

如附图2离线训练模块的框图所示，离线训练模块1由音调自动标注模块10、连续隐马尔科夫训练模块20、多空间隐马尔科夫模型训练模块30组成。

音调自动标注模块10：负责训练音调预测模型，并得到完整的训练标注信息。

连续隐马尔科夫训练模块20：使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练。本实例训练和合成基元采用汉语音节，采用隐半马尔科夫模型(HSMM)作为参数模型，即对时长采用显式建模，模型状态数为12，其中包含1个入口状态和1个出口状态，中间10个状态输出声学参数。采用基于加权自适应谱插值(STRAIGHT)的24维美尔广义倒谱系数(MGC)，

多空间隐马尔科夫模型训练模块30：使用多空间概率隐马尔科夫模型进行基频生成模型的训练。本实例采用对数基频作为基频的表示方法，在多空间概率模型中，采用一个0维的清音空间和一个1维德浊音空间对清浊音在统一的框架下进行基频建模。

如附图3音调自动标注模块的框图所示，音调自动标注模块10由基频提取模块110，音调预测模型训练模块120，基频分段量化模块130，音调自动标注模块170组成。

基频提取模块110：负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线。本实例采用基于STRAIGHT的基频提取算法。

音调预测模型训练模块120：使用多空间隐马尔科夫模型进行音调预测模型的训练。本实例中，采用静态基频及其一阶、二阶动态特征进行建模，建立音调预测模型时的不完整训练标注包括当前及相邻的有调音节以及韵律层级结构。

基频分段量化模块130：使用音调预测模型对训练语料的基频数据中每个建模基元进行分段量化，具有一输出端用于输出每个训练基元的基频分段量化结果。

其中，量化间隔计算模块140：负责统计全部训练语料的基频最大值和最小值，根据量化精度计算量化间隔。本实施例采用8级量化精度，即量化间隔为：

Q_{int} = \frac{{LF 0}_{\max} - {LF 0}_{\min}}{8}

基频分段模块150：负责根据训练的音调预测模型b对每个训练基元的基频曲线按状态进行分段。本实施例采用Viterbi分段，也可以采用最大似然分段等受监督的分段方法；基频量化模块160，负责根据分段结果判断每个分段的清浊音标志，清音段输出清音标志，浊音段根据段内基频平均值输出量化标志，具有一输出端输出每个训练基元的基频分段量化结果。本实例中，清音标志为’x’，浊音量化标志为整数0到7。分段的清浊音判断准则为当前分段内清音帧与浊音帧数目之比，清音帧多于浊音帧则判为清音段，否则判为浊音段。

QLF 0 [i] = \{\begin{matrix} [\frac{{LF 0}_{mean} [i] - {LF 0}_{\min}}{Q_{int}}] & , if & s_{i} = voiced \\ x_{'}^{'} & , if & s_{i} = unvoiced \end{matrix}

音调自动标注模块170：负责接收每个训练基元的基频分段量化结果，进行训练语料的音调自动标注取代音调预测模型训练模块120中所使用的调式标注，具有一输出端用于输出训练语料完整的训练标注信息。

如附图4音调预测模块的框图所示，音调预测模块2由文本分析模块210、基频预测模块220、合成标注生成模块230组成。

文本分析模块210：输入端接收任意文本信息，分析得到包含当前和相邻有调音节韵律层级结构的音调预测标注，具有一输出端输出音调预测标注。

基频预测模块220：输入端接收音调预测标注，根据训练得到的音调预测模型得到每个状态的基频预测值，进一步量化得到每个合成基元的音调预测曲线。本实例中，浊音状态的量化音调值为整数0到7，清音状态的量化音调值置为清音标志’x’。

合成标注生成模块230：根据每个合成基元的音调预测曲线得到包含音调信息的完整合成标注信息，具有一输出端输出完整的合成标注信息。

如附图5参数语音合成模块的框图所示，参数语音合成模块3由有关增益序列的连续隐马尔科夫模型模块310、有关声道谱系数序列的连续隐马尔科夫模型模块320、有关基频序列的多空间概率隐马尔科夫模型模块330、参数语音合成器模块340组成。

有关增益序列的连续隐马尔科夫模型模块310：根据训练得到的连续隐马尔科夫模型得到每个合成基元每个状态的增益序列，具有一输出端输出待合成文本完整的增益序列。

有关声道谱系数序列的连续隐马尔科夫模型模块320：根据训练得到的续隐马尔科夫模型得到每个合成基元每个状态的声道谱系数序列，具有一输出端输出待合成文本完整的声道谱系数序列。

有关基频序列的多空间概率隐马尔科夫模型模块330：根据训练得到多空间概率隐马尔科夫模型得到每个合成基元每个状态的基频序列，具有一输出端输出待合成文本完整的基频序列。

参数语音合成器模块340：接收来自有关增益序列和声道谱系数序列的连续隐马尔科夫模型模块以及来自有关基频序列的多空间概率隐马尔科夫模型模块的输出，具有一输出端输出合成的语音。本实例中，首先对生成的声道谱MGC序列进行后滤波，然后采用美尔对数谱近似(MLSA)滤波器进行声音信号的生成。

上述实施例为本发明的较佳实施例，本发明的应用不仅限于计算机终端，还可以应用到嵌入式设备和各种其他手持和移动设备中。根据本发明的主要构思，本领域普通技术人员均可以生产多种类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围内的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.一种基于音调自动标注及预测的语音合成方法，利用各种计算机和数字设备的输入，将所接收到的任意文字串转化为语音输出，其特征在于：由离线训练模块、音调预测模块、参数语音合成模块组成，其中：

2.根据权利要求1所述的基于音调自动标注及预测的语音合成方法，其特征在于：所述离线训练模块包括：

3.根据权利要求1所述的基于音调自动标注及预测的语音合成方法，其特征在于：所述音调自动标注模块包括：

4.根据权利要求1所述的基于音调自动标注及预测的语音合成方法，其特征在于：所述基频分段量化模块包括：

5.根据权利要求1所述的基于音调自动标注及预测的语音合成方法，其特征在于：所述音调预测模块包括：

具有一基频预测模块，输入端接收音调预测标注，根据训练得到的音调预测模型得到每个状态的基频预测值，进一步量化得到每个合成基元的音调预测曲线：

6.根据权利要求1所述的基于音调自动标注及预测的语音合成方法，其特征在于：所述参数语音合成模块包括：

具有一有关基频序列的多空间概率隐马尔科夫模型模块，根据训练得到多空间概率隐马尔科夫模型得到每个合成基元每个状态的基频序列，具有一输出端输出待合成文本完整的基频序列；