CN106601226A

CN106601226A - 音素时长预测建模方法及音素时长预测方法

Info

Publication number: CN106601226A
Application number: CN201611027187.XA
Authority: CN
Inventors: 陶建华; 郑艺斌; 温正棋; 李雅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-04-26
Anticipated expiration: 2036-11-18
Also published as: CN106601226B

Abstract

本发明涉及一种对音素时长进行建模和预测的方法，利用计算机程序自动获取训练数据集，并对训练数据中的离群点进行自动剔除；对文本特征通过音向量和组合决策树建模，使文本特征的描述更加方便和精确；在音向量训练中，采用统计语言模型的训练方法来联合训练音向量和词向量，最大程度上保留了发音单元的连贯特性，不需要任何手工标注信息，从而大大降低了系统实现的复杂度和人工参与程度；采用双向长短时记忆循环神经网络对音素时长模型进行建模，能够更好地考虑上下文信息，也更加符合音素时长预测的本质。利用本发明，大大提高了时长预测的准确性，进而提高语音合成的表现力和自然度。

Description

音素时长预测建模方法及音素时长预测方法

技术领域

本发明涉及语音合成技术领域，具体涉及一种音素时长预测建模方法及音素时长预测方法。

背景技术

准确的音素时长预测建模及利用模型进行预测一直是语音合成至关重要的一步，音素时长模型能够刻画出语音中的抑扬顿挫与轻重缓急，进而提高合成语音的表现力和自然度。

虽然，在这个领域已经有很多的研究工作，但是音素时长的建模与预测还有很多问题至今没有很好的解决。主要体现在以下几点：

(1)，对训练数据中的离群点处理的研究工作还相对较少。如果不对这些离群点进行处理，将会大大影响音素时长预测的精度。

(2)，对音素时长预测所用的文本特征的描述还不够精细，现有的研究工作基本上都是直接对音素进行one-hot(独热编码，又称一位有效编码)表示，而忽略了音素之间的关联性。这样的文本表示结果也在很大的程度上影响了音素时长预测的精度。

(3)，在音素时长预测的建模方面，现有的研究工作中所采用的建模方法都不能很好地对音素时长进行序列建模，因此不能综合地对整个句子的音素时长进行合理的分配。导致每个音素得到的时长都太过于平均，合成语音听起来显得过于平淡。进而导致语音合成结果的表现力和自然度都不够理想。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种对音素时长进行建模和预测的方法，不但能够大大提高音素时长预测的准确度，进而提高合成语音的表现力和自然度，而且提高了系统实现的复杂度和人工参与程度；

一种音素时长预测建模方法，包括以下步骤：

步骤A1，获取音素时长数据集；

步骤A2，对音素时长数据集中的音素时长数据进行筛选，得到音素时长训练数据集；

步骤A3，依据音素时长训练数据集训练基于音向量的文本特征重表示模型M1；利用训练好的模型M1生成基于音向量的文本特征重表示；

步骤A4，依据音素时长训练数据集训练基于组合决策树的文本特征重表示模型M2；利用训练好的模型M2生成基于组合决策树的文本特征重表示；

步骤A5，将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合，生成基于音向量和组合决策树(GBDT)相结合的文本特征重表示；

步骤A6，基于音向量和组合决策树相结合的文本特征重表示，训练双向长短时记忆循环神经网络的音素时长预测模型M3。

优选的，所述获取音素时长数据集，具体方法为：

从语料库中获取音频及其对应的文本数据，记为数据集U1；基于隐马尔科夫模型的语音合成系统，对U1中音频及其对应的文本进行强制切分得到音素时长序列，通过该语音合成系统前端的文本分析得到对应的原始文本特征；利用得到的音素时长序列以及原始文本特征组成数据集U2；数据集U1和数据集U2共同构成音素时长数据集。

优选的，所述对音素时长数据集中的音素时长数据进行筛选，具体方法为：

对数据集U2中每个音素的时长分布进行单高斯分布模拟，根据统计方法中的拉依达准则将偏离数据均值大于3σ的样本视为异常样本点，其中σ表示单高斯分布的方差；将包含异常样本点的整句话都从数据集U2中剔除，得到音素时长训练数据集U2′；相应地从数据集U1中将包含异常样本点的整句话剔除，得到音素时长训练数据集U1′；音素时长训练数据集U1′和音素时长训练数据集U2′共同构成筛选后的音素时长训练数据集。

优选的，所述训练基于音向量的文本特征重表示模型M1，具体方法为：

对音素时长训练数据集U1′中的文本数据进行词语切分和字音转换，作为模型M1的输入，进行基于音向量和词向量的语言模型联合训练，输出文本所对应音素的音向量表示，该音向量也同时考虑了音向量所属的词向量的影响。

优选的，所述基于音向量和词向量的语言模型联合训练，是基于连续词袋模型(Continuous Bag of Words)进行的。

优选的，所述基于音向量和词向量的语言模型联合训练，通过随机梯度下降法进行优化训练。

优选的，所述训练基于组合决策树的文本特征重表示模型M2，具体方法为：

将音素时长训练数据集U2′作为基于组合决策树的文本特征重表示模型M2的输入，对模型M2进行训练；

优选的，利用基于组合决策树的文本特征重表示模型M2对文本特征进行重表示后，特征向量取值是0或1，向量的每个文本特征对应于组合决策树模型中树的叶子节点；当一个样本落到组合决策树中任一叶子节点上，则在重表示的文本特征向量中这个叶子节点对应的元素值为1，该叶子结点所在树的其他叶子节点对应的元素值为0；基于组合决策树的文本特征重表示的文本特征向量的长度等于组合决策树中所有树包含的叶子节点数之和。

优选的，所述训练双向长短时记忆循环神经网络的音素时长预测模型M3，具体为：利用步骤A5得到的基于音向量和组合决策树相结合的文本特征重表示，对双向长短时记忆循环神经网络进行训练，生成音素时长预测模型M3。

优选的，基于所述音素时长预测建模方法所建立的模型进行音素时长预测，具体包括：

步骤B1，输入需要预测音素时长的文本；

步骤B2，对步骤B1输入的文本进行词语切分和字音转换，利用步骤A3已训练好的基于音向量的文本特征重表示模型M1，对文本特征进行重表示；

步骤B3，对步骤B1输入的文本，通过隐马尔科夫模型语音合成系统前端的文本分析得到对应的原始文本特征，利用步骤A4已训练好的基于组合决策树的文本特征重表示模型M2，对原始文本特征进行重表示；

步骤B4，将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合，生成基于音向量和组合决策树相结合的文本特征重表示；

步骤B5，将步骤B4所得组合后的文本特征输入到步骤A6中已训练好的所述双向长短时记忆循环神经网络的音素时长预测模型M3，得到对应文本的音素时长序列。

本发明能够利用计算机程序自动获取训练数据集，并对训练数据中的离群点进行自动剔除；对文本特征通过音向量和组合决策树建模，使文本特征的描述更加方便和精确；在音向量训练中，采用统计语言模型的训练方法来联合训练音向量和词向量，最大程度上保留了发音单元的连贯特性，不需要任何手工标注信息，从而大大降低了系统实现的复杂度和人工参与程度；采用双向长短时记忆循环神经网络对音素时长模型进行建模，能够更好地考虑上下文信息，也更加符合音素时长预测的本质。利用本发明，大大提高了时长预测的准确性，进而提高语音合成的表现力和自然度。

附图说明

图1是本实施例中音素时长预测建模方法的流程示意图；

图2是本实施例中音素时长预测方法的流程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

一种音素时长预测建模方法，如图1所示，包括以下步骤：

步骤A1，获取音素时长数据集；

步骤A3，依据音素时长训练数据集训练基于音向量的文本特征重表示(利用新的方法重新表示)模型M1；利用训练好的模型M1生成基于音向量的文本特征重表示；

步骤A5，将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合，生成基于音向量和组合决策树相结合的文本特征重表示；

本实施例中，所述获取音素时长数据集，具体方法为：

本实施例中，所述对音素时长数据集中的音素时长数据进行筛选，具体方法为：

本实施例中，所述训练基于音向量的文本特征重表示模型M1，具体方法为：

本实施例中，所述基于音向量和词向量的语言模型联合训练，是基于连续词袋模型(Continuous Bag of Words)进行的。

给定包含M个词的句子如D＝{x₁，…，x_M}，音向量和词向量的语言模型联合训练优化的目标，是使得下述平均对数似然概率最大化：

其中K是训练时考虑的上下文的窗口长度，而Pr(x_i|x_i-K，…，x_i+K)是通过Softmax函数得到的，具体表示为：

其中H为词典，X_i是所预测的目标词x_i的词向量和音向量的联合表示，X_o是目标词x_i上下文平均词向量和音向量的联合表示，T表示向量的转置，x′_i是词典H中序号为i的词，X′_i表示x′_i对应的词向量和音向量的联合表示，

其中W_i是词x_i的词向量表示，N_i是词x_i内含有的音素数目，P_k是词x_i中的第k个音素p_k的音向量。

本实施例中，所述基于音向量和词向量的语言模型联合训练，通过随机梯度下降法进行优化训练。

本实施例中，所述训练基于组合决策树的文本特征重表示模型M2，具体方法为：

本实施例中，利用基于组合决策树的文本特征重表示模型M2对文本特征进行重表示后，特征向量取值是0或1，向量的每个文本特征对应于组合决策树模型中树的叶子节点；当一个样本落到组合决策树中任一叶子节点上，则在重表示的文本特征向量中这个叶子节点对应的元素值为1，该叶子结点所在树的其他叶子节点对应的元素值为0；基于组合决策树的文本特征重表示的文本特征向量的长度等于组合决策树中所有树包含的叶子节点数之和。

本实施例中，所述将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合，是通过对步骤A3得到的基于音向量的文本特征重表示和步骤A4得到的基于组合决策树的文本特征重表示进行简单的合并，得到两种方法组合的文本特征重表示；例如第一种方法得到的特征是[0.1,0.2,0.3]，第二种方法得到的特征是[1,0,1]，最终组合的特征就是[0.1,0.2,0.3,1,0,1]。

本实施例中，所述训练双向长短时记忆循环神经网络的音素时长预测模型M3，具体为：利用步骤A5得到的基于音向量和组合决策树相结合的文本特征重表示，对双向长短时记忆循环神经网络进行训练，生成音素时长预测模型M3。

本实施例中，基于所述音素时长预测建模方法所建立的模型进行音素时长预测，如图2所示，具体包括：

步骤B1，输入需要预测音素时长的文本；

本发明通过对三个方面进行了改善，即数据层面(剔除离群点)、特征层面(利用音向量和组合决策树对原始的文本特征进行重表示)和模型层面(采用双向长短时记忆循环神经网络对音素时长进行序列建模和预测)，大大地提高了音素时长模型预测的精度，进而提高合成语音的自然度和表现力。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种音素时长预测建模方法，其特征在于，包括以下步骤：

步骤A1，获取音素时长数据集；

2.根据权利要求1所述的方法，其特征在于，所述获取音素时长数据集，具体方法为：

3.根据权利要求2所述的方法，其特征在于，所述对音素时长数据集中的音素时长数据进行筛选，具体方法为：

4.根据权利要求3所述的方法，其特征在于，所述训练基于音向量的文本特征重表示模型M1，具体方法为：

5.根据权利要求4所述的方法，其特征在于，所述基于音向量和词向量的语言模型联合训练，是基于连续词袋模型进行的。

6.根据权利要求5所述的方法，其特征在于，所述基于音向量和词向量的语言模型联合训练，通过随机梯度下降法进行优化训练。

7.根据权利要求3所述的方法，其特征在于，所述训练基于组合决策树的文本特征重表示模型M2，具体方法为：

将音素时长训练数据集U2′作为基于组合决策树的文本特征重表示模型M2的输入，对模型M2进行训练。

8.根据权利要求1所述的方法，其特征在于，利用基于组合决策树的文本特征重表示模型M2对文本特征进行重表示后，特征向量取值是0或1，向量的每个文本特征对应于组合决策树模型中树的叶子节点；当一个样本落到组合决策树中任一叶子节点上，则在重表示的文本特征向量中这个叶子节点对应的元素值为1，该叶子结点所在树的其他叶子节点对应的元素值为0；基于组合决策树的文本特征重表示的文本特征向量的长度等于组合决策树中所有树包含的叶子节点数之和。

9.根据权利要求1所述的方法，其特征在于，所述训练双向长短时记忆循环神经网络的音素时长预测模型M3，具体为：利用步骤A5得到的基于音向量和组合决策树相结合的文本特征重表示，对双向长短时记忆循环神经网络进行训练，生成音素时长预测模型M3。

10.一种音素时长预测方法，其特征在于，基于权利要求1～9中任一项所述音素时长预测建模方法所建立的模型进行音素时长预测，具体包括：

步骤B1，输入需要预测音素时长的文本；