CN108346423B

CN108346423B - 语音合成模型的处理方法和装置

Info

Publication number: CN108346423B
Application number: CN201710051426.3A
Authority: CN
Inventors: 孟凡博
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2021-08-20
Anticipated expiration: 2037-01-23
Also published as: CN108346423A

Abstract

本发明实施例提供了一种语音合成模型的处理方法和装置，其中的方法具体包括：依据训练数据，得到隐马尔可夫模型HMM模型；其中，所述HMM模型包括：决策树；所述训练数据包括：训练录音数据；依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。本发明实施例能够有效改善预测参数的过平滑问题，且能够提高合成语音与原始录音人的相似性，进而能够提高合成语音的听感和音质。

Description

语音合成模型的处理方法和装置

技术领域

本发明涉及语音合成技术领域，特别是涉及一种语音合成模型的处理方法和装置、以及一种用于语音合成模型处理的装置。

背景技术

语音合成技术又称文语转换(TTS，Text-to-Speech)技术，即将文字转换为语音的技术，该技术赋予计算机像人一样自如说话的能力，使用户与机器之间的信息沟通更加舒服自然。

目前，基于隐马尔可夫模型(HMM，Hidden Markov Model)的语音合成(HTS，HMM-based Speech Synthesis System)得到广泛的重视和应用。HTS的基本思路是：对语音信号进行参数化分解，并建立各声学参数对应的HMM模型，合成时利用训练得到的HMM模型预测待合成文本的声学参数，这些声学参数被输入至参数合成器，最终得到合成语音。HTS的优势体现在系统构建需要的数据量少，语种相关性弱，较少需要人工干预，合成语音平滑流畅，鲁棒性高。然而，HTS也存在如下不足：基于HMM模型得到的预测参数过于平滑，导致合成语音听感沉闷，音质下降。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成模型的处理方法、语音合成模型的处理装置、及用于语音合成模型处理的装置，本发明实施例能够有效改善预测参数的过平滑问题，且能够提高合成语音与原始录音人的相似性，进而能够提高合成语音的听感和音质。

为了解决上述问题，本发明公开了一种语音合成模型的处理方法，包括：

依据训练数据，得到隐马尔可夫模型HMM模型；其中，所述HMM模型包括：决策树；所述训练数据包括：训练录音数据；

依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；

采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。

可选地，所述依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据的步骤，包括：

依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据；

若所述叶节点对应一帧训练录音数据，则将所述叶节点对应的一帧训练录音数据作为目标帧训练录音数据；或者，若所述叶节点对应多帧训练录音数据，则从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据。

可选地，所述从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据的步骤，包括：

依据所述HMM模型，对所述训练录音数据进行时间到状态的对齐，所述训练录音数据包含的各帧训练录音数据对应的目标状态；

依据所述目标状态和所述决策树对应的状态，得到所述决策树中叶节点对应的帧训练录音数据。

可选地，所述对所述训练录音数据进行时间到状态的对齐的步骤，包括：

依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元，确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界，以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态。

可选地，所述从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据的步骤，包括：

针对所述叶节点对应的各帧训练录音数据，确定其对应的声学参数与所述叶节点对应的声学参数之间的误差；

从所述叶节点对应的多帧训练录音数据中、选择误差最小的帧训练录音数据作为目标帧训练录音数据。

可选地，所述确定其对应的声学参数与所述叶节点对应的声学参数之间的误差的步骤，包括：

针对所述叶节点对应的各帧训练录音数据，确定其对应的单维度声学参数与所述叶节点对应的单维度声学参数之间的分量误差；

对所有维度声学参数对应的分量误差进行融合，以得到所述叶节点对应的各帧训练录音数据对应的声学参数与所述叶节点对应的声学参数之间的误差。

可选地，所述采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值的步骤，包括：

采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数均值。

可选地，所述方法还包括：

依据所述HMM模型和所述处理后的决策树，得到待合成文本对应的状态级的目标声学参数均值和目标方差；

依据所述目标声学参数均值和目标方差，生成所述待合成文本对应的目标声学参数；

依据所述目标声学参数，得到所述待合成文本对应的合成语音。

另一方面，本发明公开了一种语音合成模型的处理装置，所述装置包括：

模型决策树获取模块，用于依据训练数据，得到隐马尔可夫模型HMM模型；其中，所述HMM模型包括：决策树；所述训练数据包括：训练录音数据；

目标帧获取模块，用于依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；以及

参数替换模块，用于采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。

可选地，所述目标帧获取模块包括：

帧训练录音数据获取子模块，用于依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据；以及

目标帧获取子模块，用于若所述叶节点对应一帧训练录音数据，则将所述叶节点对应的一帧训练录音数据作为目标帧训练录音数据；或者，若所述叶节点对应多帧训练录音数据，则从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据。

可选地，所述帧训练录音数据获取子模块包括：

强对齐单元，用于依据所述HMM模型，对所述训练录音数据进行时间到状态的对齐，以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态；

映射单元，用于依据所述目标状态和所述决策树对应的状态，得到所述决策树中叶节点对应的帧训练录音数据。

可选地，所述强对齐单元包括：

状态边界确定子单元，用于依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元，确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界，以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态。

可选地，所述目标帧获取子模块包括：

误差确定单元，用于针对所述叶节点对应的各帧训练录音数据，确定其对应的声学参数与所述叶节点对应的声学参数之间的误差；

帧选择单元，用于从所述叶节点对应的多帧训练录音数据中、选择误差最小的帧训练录音数据作为目标帧训练录音数据。

可选地，所述误差确定单元包括：

第一误差确定子单元，用于针对所述叶节点对应的各帧训练录音数据，确定其对应的单维度声学参数与所述叶节点对应的单维度声学参数之间的分量误差；

第二误差确定子单元，用于对所有维度声学参数对应的分量误差进行融合，以得到所述叶节点对应的各帧训练录音数据对应的声学参数与所述叶节点对应的声学参数之间的误差。

可选地，所述参数替换模块包括：

参数替换子模块，用于采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数均值。

可选地，所述装置还包括：

文本处理模块，用于依据所述HMM模型和所述处理后的决策树，得到待合成文本对应的状态级的目标声学参数均值和目标方差；

参数生成模块，用于依据所述目标声学参数均值和目标方差，生成所述待合成文本对应的目标声学参数；

语音合成模块，用于依据所述目标声学参数，得到所述待合成文本对应的合成语音。

又一方面，本发明公开了一种用于语音合成模型处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例包括以下优点：

本发明实施例采用训练录音数据中的一目标帧训练录音数据的声学参数值替换决策树中叶节点的声学参数值；由于该目标帧训练录音数据的声学参数值能够保持原始录音人的声音特点，故能够有效改善叶节点的声学参数值的过平滑问题，因此能够有效改善预测参数的过平滑问题，且能够提高合成语音与原始录音人的相似性，进而能够提高合成语音的听感和音质。

并且，本发明实施例从训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据，并采用该目标帧训练录音数据的声学参数值替换决策树中叶节点的声学参数值，由于该目标帧训练录音数据的获取和该目标帧训练录音数据的声学参数值的替换可以不影响HMM模型的大小和体积，故不仅能够避免增加HMM模型的复杂度，而且能够提高HTS在嵌入式终端、或者移动终端上实施的可行性。

附图说明

图1是本发明的一种基于HMM的语音合成方法的流程图；

图2是本发明实施例的一种决策树的示意图；

图3是本发明的一种语音合成模型的处理方法实施例的步骤流程图；

图4是本发明的一种语音合成模型的处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于语音合成模型处理的装置作为终端时的框图；以及

图6是根据一示例性实施例示出的一种用于语音合成模型处理的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

发明人在实施例本发明实施例的过程中发现，现有方案中HMM模型对应的决策树中叶节点的声学参数值为多帧录音数据的声学参数均值，通常单帧录音数据的声学参数值有高有低，而多帧录音数据的声学参数均值存在过度平滑的问题，这样，基于这些这些录音数据的声学参数均值得到的预测参数也过于平滑，导致合成语音听感沉闷，音质下降。

针对现有方案存在的预测参数过度平滑、导致合成语音听感沉闷，音质下降的技术问题，本发明实施例采用训练录音数据中的一目标帧训练录音数据的声学参数值替换决策树中叶节点的声学参数值；由于该目标帧训练录音数据的声学参数值能够保持原始录音人的声音特点，故能够有效改善叶节点的声学参数值的过平滑问题，因此能够有效改善预测参数的过平滑问题，且能够提高合成语音与原始录音人的相似性，进而能够提高合成语音的听感和音质。

本发明实施例可以应用于基于HMM的语音合成过程中，参照图1，示出了本发明的一种基于HMM的语音合成方法的流程图，其具体可以包括：训练阶段和合成阶段。

其中，在训练阶段，可以从录音数据库中获取训练录音数据，并对训练录音数据进行参数提取，以得到对应的声学参数和时长参数，该声学参数可以包括：频谱参数和基频参数中的至少一种，以及，可以对训练录音数据进行标注；可选地，可以基于训练录音数据及其对应的文本生成标注信息，上述标注信息可用于表示训练录音数据中从哪个时刻开始到哪个时刻结束是什么建模单元，当前时刻是什么建模单元、前一时刻是什么建模单元等，可选地，该建模单元可以包括：音节包含的声母(sh等)和/或韵母(eng等)等，上述标注可被称为上下文相关的标注。这样，本发明实施例的训练数据可以包括：训练录音数据、及其对应的声学参数和标注信息，并利用上述训练数据训练HMM模型。

并且，为了提高HMM模型的鲁棒性、复杂度和训练数据量之间的均衡性，本发明实施例的HMM模型可以包括决策树。机器学习中，决策树是一个预测模型，其代表的是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。通常，决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

可选地，本发明实施例的HMM模型可以包括但不限于：声学参数模型、时长模型等，其中，上述声学参数模型可以包括：基频模型、频谱模型等；该基频模型、频谱模型可以包括：多棵与HMM的状态对应的决策树，时长模型可以包括一棵决策树。

在实际应用中，可以针对决策树，对上下文属性集合对应的问题集进行设计，具体地，可以根据先验知识来选择一些对声学参数有一定影响的上下文属性并设计相应的问题集，比如前后调、前后声韵母等。参照图2，示出了本发明实施例的一种决策树的示意图，图2所示决策树中矩形框表示决策树的中间节点，图2中两个矩形框分别表示问题：当前声母是sh吗？、当前声母是b吗？，圆框表示决策树的叶节点，其中的数字表示叶节点的序号，叶节点可用于保存一个HMM模型的声学参数均值和方差，如叶节点1中用于保存sh这个声母的声学参数均值和方差；那么当HMM模型的输入为待合成声母sh时，HMM模型的输出结果可与为叶节点1保存的平均值和方差。可以理解，图2所示决策树仅为决策树的示例，实际使用的决策树的结构可以更复杂，例如，一颗决策树涉及的问题数量可以为几千，决策树中叶节点(圆框)的数量可以为几千等等。

本发明实施例可以对训练得到的HMM模型中决策树进行处理，相应的处理过程可以包括：依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树，进而得到处理后的HMM模型。由于该目标帧训练录音数据的声学参数值能够保持原始录音人的声音特点，故能够有效改善叶节点的声学参数值的过平滑问题。

在合成阶段，可以对给定的待合成文本进行属性分析(如上下文属性分析等)，以得到待合成文本对应的标注序列生成标注序列；接着，依据所述处理后的HMM模型，得到待合成文本对应的状态级预测参数(目标声学参数均值和目标方差)，此处得到的目标声学参数均值就是在训练阶段替换后的声学参数均值；然后采用参数生成算法，依据所述目标声学参数均值和目标方差，生成所述待合成文本对应的目标声学参数(帧级的声学参数)；最后，依据所述目标声学参数，(例如通过语音合成器)得到所述待合成文本对应的合成语音。

方法实施例

参照图3，示出了本发明的一种语音合成模型的处理方法实施例的步骤流程图，该方法实施例具体可以包括如下步骤：

步骤301、依据训练数据，得到HMM模型；其中，所述HMM模型可以包括：决策树；所述训练数据可以包括：训练录音数据；

步骤302、依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；

步骤303、采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。

HMM模型是统计模型，其用来描述一个含有隐含未知参数的马尔可夫过程。在数学上一个状态是指一个马尔科夫过程的状态，HMM模型可用于描述最多有几个不同的状态以及状态间的跳转关系。

在实际应用中，步骤301可以依据训练数据，训练得到HMM模型。可选地，上述HMM模型可以包括但不限于：频谱HMM模型、基频HMM模型和时长HMM模型。假设HMM模型描述5个状态，建模单元是声母/韵母，那么训练出来的HMM模型中，会在时序上将建模单元分为5个状态，并统计出这5个状态声学参数均值。

可选地，上述训练数据可以包括：训练录音数据、及其对应的声学参数和标注信息，则可以利用上述声学参数和标注信息训练得到HMM模型。在本发明的一种应用示例中，可以将录音数据对应的录音波形进行采样，以得到若干帧训练录音数据，假设录音数据的长度为2s，则可以将录音数据采样为400帧长度为25ms帧移为5ms的帧训练录音数据，并通过人工标注的方式，得到从第几帧到第几帧属于哪个韵母/声母。可以理解，本发明实施例对于HMM模型的具体训练方法不加以限制。

为了提高HMM模型的鲁棒性、复杂度和训练数据量之间的均衡性，步骤301得到的HMM模型可以包括决策树。在本发明的一种可选实施例中，决策树可以涉及到3种声学参数：基频、频谱和时长，其中，基频、频谱对应的每个状态均可以对应有一棵决策树，时长可以对应有一棵决策树，假设HMM模型描述5个状态，则HMM模型可以对应有11(5+5+1)棵决策树，每颗决策树都可以具有对应的训练录音数据。可以理解，本发明实施例对于具体的决策树种类及决策树的具体获取方式不加以限制。

步骤302可以依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；该目标帧训练录音数据可以与决策树中叶节点相匹配，可选地，上述相匹配可以包括：状态相匹配和/或声学参数相匹配，这样，不仅能够通过该目标帧训练录音数据有效改善叶节点的声学参数值的过平滑问题，而且能够提高基于HMM模型得到的预测参数的准确度。

在本发明的一种可选实施例中，上述目标帧训练录音数据的获取过程可以为：依据步骤301得到的HMM模型，确定全部或者部分训练录音数据包含的各帧训练录音数据对应的目标状态，也即判定一个建模单元对应的各帧训练录音数据所处的状态，这样，可以提高目标帧训练录音数据与叶节点之间的状态匹配度；相应地，上述依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据的步骤302，可以包括：

步骤S1、依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据；

步骤S2、若所述叶节点对应一帧训练录音数据，则将所述叶节点对应的一帧训练录音数据作为目标帧训练录音数据；或者，若所述叶节点对应多帧训练录音数据，则从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据。

在实际应用中，步骤301得到的HMM模型的获取所使用的训练录音数据较多，步骤S1可以从上述训练录音数据中获取各决策树中叶节点对应的帧训练录音数据。

可选地，步骤S1可以进一步包括：

步骤S11、依据所述HMM模型，对所述训练录音数据进行时间到状态的对齐，以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态；

步骤S12、依据所述目标状态和所述决策树对应的状态，得到所述决策树中叶节点对应的帧训练录音数据。

其中，步骤S11可以依据步骤301得到的HMM模型，通过时间到状态的对齐，确定全部或者部分训练录音数据包含的各帧训练录音数据对应的目标状态，也即判定一个建模单元对应的各帧训练录音数据所处的状态。

而由于基频、频谱对应的每个状态均可以对应有一棵决策树，故所述决策树中叶节点也可以对应有状态，这样，步骤S12可以基于决策树中叶节点对应的状态与各帧训练录音数据对应的目标状态的匹配，得到决策树中叶节点与帧训练录音数据之间的映射关系，也即可以得到决策树中叶节点对应的帧训练录音数据。在实际应用中，可以遍历所有决策树中叶节点，以得到各决策树中叶节点对应的帧训练录音数据。

在实际应用中，上述叶节点可以对应一帧或者多帧训练录音数据，其中，在上述叶节点对应一帧训练录音数据时，步骤S2可以直接将上述叶节点对应的一帧训练录音数据作为目标帧训练录音数据；或者，在上述叶节点对应多帧训练录音数据时，步骤S2可以从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据。

假设在时序上将建模单元分为5个状态，则步骤S11可以通过状态边界判定，确定建模单元对应的帧训练录音数据中的各帧训练录音数据所处的状态，也即，哪几帧处于状态1，哪几帧处于状态2…哪几帧处于状态5。例如，对于韵母uai，假设其具有5个状态，对应20帧训练录音数据，那么根据uai对应的HMM模型的状态转移限制的不同，可以有各种不同的帧和状态之间的对应关系，比如：第1--3帧处于状态1，4--8帧处于状态2，9--10帧处于状态3，11—15处于状态4，16-20处于状态5等。

在本发明的一种可选实施例中，所述对所述训练录音数据进行时间到状态的对齐的步骤S11，可以包括：依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元，确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界，以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态。上述状态边界的确定可用于判定各建模单元对应的各帧训练录音数据所处的状态。

在实际应用中，可以采用参数估计方法确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界。可选地，上述参数估计方法可以包括：最小二乘法、最大似然法等。其中，对于最小二乘法，当从HMM模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小；而对于最大似然法，当从HMM模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从HMM模型中抽取该n组样本观测值的概率最大；其中，n为正整数。可以理解，本发明实施例对于具体的参数估计方法不加以限制。

在采用最大似然法时，上述确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界的步骤，可以包括：

步骤T1、依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元，预测所述训练录音数据的各建模单元对应的各帧训练录音数据处于一种状态的概率；

步骤T2、当所述训练录音数据的各建模单元对应的多帧训练录音数据处于一种状态的概率的组合符合声学参数对应的预置条件时，将所述训练录音数据的各建模单元对应的各帧训练录音数据所属的状态作为对应的目标状态。

其中，上述概率是指各帧训练录音数据处于一种状态的概率，假设某建模单元对应100帧训练录音数据，其包含的第10帧，有可能10％处于状态2、80％处于状态3、10％处于状态4。由于HMM模型的训练过程使得HMM模型具备各帧训练录音数据处于一种状态的概率的预测能力，故步骤T1可以依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元，预测所述训练录音数据的各建模单元对应的各帧训练录音数据处于一种状态的概率。步骤T1输出的某建模单元对应的预测结果可以包括：各帧训练录音数据处于任意状态的概率，假设某建模单元对应100帧训练录音数据，则其对应的预测结果包括：第1帧处于状态1—状态5中任一的概率、第2帧处于状态1—状态5中任一的概率、第3帧处于状态1—状态5中任一的概率…第100帧处于状态1—状态5中任一的概率等等。

步骤T2可以对各建模单元对应的多帧训练录音数据处于一种状态的概率进行组合，以得到各建模单元对应的所有帧训练录音数据处于各种状态的概率组合，例如，上述概率组合可以包括：所有帧训练录音数据处于状态1、状态2、状态3、状态4或者状态5的概率组合。

可选地，上述声学参数对应的预置条件可以包括：多帧训练录音数据处于一种状态的概率组合最大、和/或、多帧训练录音数据的声学参数均值与该状态的声学参数均值相接近，则将该多帧训练录音数据处于的状态确定为该状态。假如100帧训练录音数据的前10帧与决策树的第1个状态的平均值比较接近，就把前10帧划分为第1个状态，同理，将100帧的后30帧划分为第2个状态等等，通过状态边界判定，可以将100帧训练录音数据划分为5个部分，每一部分都与叶节点的平均值最接近。

或者，上述声学参数对应的预置条件可以包括：对多帧训练录音数据处于一种状态的概率组合进行融合(如求平均值)，则得到的融合结果对应声学参数的似然值最大等。可以理解，本领域技术人员可以根据实际应用需求，合理利用最大似然法，本发明实施例对于上述声学参数对应的具体的预置条件不加以限制。

在本发明的一种可选实施例中，上述从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据的步骤，可以包括：针对所述叶节点对应的各帧训练录音数据，确定其对应的声学参数与所述叶节点对应的声学参数之间的误差；从所述叶节点对应的多帧训练录音数据中、选择误差最小的帧训练录音数据作为目标帧训练录音数据。本可选实施例中，目标帧训练录音数据为误差最小的帧训练录音数据，这样，能够使目标帧训练录音数据的声学参数与叶节点的声学参数相匹配，这样，不仅能够通过该目标帧训练录音数据有效改善叶节点的声学参数值的过平滑问题，而且能够提高基于HMM模型得到的预测参数的准确度。

进一步可选地，上述确定其对应的声学参数与所述叶节点对应的声学参数之间的误差的步骤，可以包括：针对所述叶节点对应的各帧训练录音数据，确定其对应的单维度声学参数与所述叶节点对应的单维度声学参数之间的分量误差；对所有维度声学参数对应的分量误差进行融合，以得到所述叶节点对应的各帧训练录音数据对应的声学参数与所述叶节点对应的声学参数之间的误差。

在本发明的一种应用示例中，假设叶节点k对应n帧训练录音数据，P_k,j为该叶节点k的第j维声学参数，Q_i,j为第i帧训练录音数据的第j维声学参数，E_k,i为第i帧训练录音数据的声学参数与叶节点k的声学参数之间的误差，其中，叶节点k可用于表示各决策树中的各叶节点，n为正整数，1≤i≤n，1≤j≤m，m为声学参数的维度的数目，则可以对第i帧训练录音数据的第j维声学参数与所述叶节点k的第j维声学参数之间的分量误差进行求和，以得到第i帧训练录音数据的声学参数与所述叶节点k的声学参数之间的误差：

设E_k,j*最小，那么本发明实施例可以选择第j*帧作为合适的帧，用该第j*帧的声学参数值替换叶节点k的声学参数值。可选地，可以通过如下方式确定j*：

在步骤302依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据之后，步骤303可以采用步骤302得到的该目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。

在本发明的一种可选实施例中，上述采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值的步骤303，可以包括：采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数均值。例如，可以将第j*帧的所有维度的声学参数值替换叶节点k的声学参数均值，也即，本发明实施例可以用一目标帧训练录音数据的声学参数值替换叶节点k的声学参数均值，替换后的数值仍用于表示叶节点k的声学参数均值。可选地，上述声学参数值可以包括：频谱参数值和/或基频参数值，上述声学参数均值可以包括：频谱参数均值和/或基频参数均值，本发明实施例对于具体的声学参数值和声学参数均值不加以限制。

本发明实施例得到的处理后的决策树可用于待合成文本的处理，相应地，本发明实施例的方法还可以包括：依据所述HMM模型和所述处理后的决策树，得到待合成文本对应的状态级的目标声学参数均值和目标方差；依据所述目标声学参数均值和目标方差，生成所述待合成文本对应的目标声学参数；依据所述目标声学参数，得到所述待合成文本对应的合成语音。

在实际应用中，可以对给定的待合成文本进行属性分析(如上下文属性分析等)，以得到待合成文本对应的标注序列生成标注序列；接着，依据所述HMM模型和所述处理后的决策树，得到待合成文本对应的状态级的目标声学参数均值和目标方差，此处得到的声学参数均值就是处理后的决策树所包含的声学参数均值。以图2所示决策树为例，当待合成文本包括：待合成声母sh时，决策树的输出结果包括：叶节点1保存的声学参数均值和方差，该声学参数均值可以为步骤303替换后的声学参数均值。

实验结果表明，在能量较高的低频处，本发明实施例的合成语音的频谱与训练录音数据的频谱之间的接近度较高，因此能够提高合成语音与原始录音人的相似性。

综上，本发明实施例的语音合成模型的处理方法，采用训练录音数据中的一目标帧训练录音数据的声学参数值替换决策树中叶节点的声学参数值；由于该目标帧训练录音数据的声学参数值能够保持原始录音人的声音特点，故能够有效改善叶节点的声学参数值的过平滑问题，因此能够有效改善预测参数的过平滑问题，且能够提高合成语音与原始录音人的相似性，进而能够提高合成语音的听感和音质。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种语音合成模型的处理装置实施例的结构框图，该装置具体可以包括：模型决策树获取模块401、目标帧获取模块402、以及参数替换模块403。

其中，模型决策树获取模块401，用于依据训练数据，得到隐马尔可夫模型HMM模型；其中，所述HMM模型可以包括：决策树；所述训练数据可以包括：训练录音数据；

目标帧获取模块402，用于依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；以及

参数替换模块403，用于采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。

可选地，所述目标帧获取模块402可以包括：

可选地，所述帧训练录音数据获取子模块可以包括：

可选地，所述强对齐单元可以包括：

可选地，所述状态边界确定子单元可以包括：

概率预测子单元，用于依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元，分别预测所述训练录音数据的各建模单元对应的各帧训练录音数据处于一种状态的概率；

状态估计子单元，用于当所述训练录音数据的各建模单元对应的多帧训练录音数据处于一种状态的概率的组合符合声学参数对应的预置条件时，将所述训练录音数据的各建模单元对应的各帧训练录音数据所属的状态作为对应的目标状态。

可选地，所述目标帧获取子模块可以包括：

可选地，所述误差确定单元可以包括：

可选地，所述参数替换模块403可以包括：

可选地，所述装置还可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于语音合成模型处理的装置作为终端时的框图。例如，该终端900可以是前述的智能终端，也可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种用于语音合成模型处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行一种语音合成模型的处理方法，所述方法包括：依据训练数据，得到隐马尔可夫模型HMM模型；其中，所述HMM模型包括：决策树；所述训练数据包括：训练录音数据；依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据；采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，以得到处理后的决策树。

可选地，所述依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据，包括：

可选地，所述从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据，包括：

可选地，所述对所述训练录音数据进行时间到状态的对齐，包括：

可选地，所述从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据，包括：

可选地，所述确定其对应的声学参数与所述叶节点对应的声学参数之间的误差，包括：

可选地，所述采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，包括：

可选地，所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音合成模型的处理方法、一种语音合成模型的处理装置、以及一种用于语音合成模型处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述训练录音数据进行时间到状态的对齐的步骤，包括：

5.根据权利要求2所述的方法，其特征在于，所述从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定其对应的声学参数与所述叶节点对应的声学参数之间的误差的步骤，包括：

7.根据权利要求1至6中任一所述的方法，其特征在于，所述采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值的步骤，包括：

8.根据权利要求1至6中任一所述的方法，其特征在于，所述方法还包括：

9.一种语音合成模型的处理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述目标帧获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述帧训练录音数据获取子模块包括：

12.根据权利要求11所述的装置，其特征在于，所述强对齐单元包括：

13.根据权利要求10所述的装置，其特征在于，所述目标帧获取子模块包括：

14.根据权利要求13所述的装置，其特征在于，所述误差确定单元包括：

15.根据权利要求9至14中任一所述的装置，其特征在于，所述参数替换模块包括：

16.根据权利要求9至14中任一所述的装置，其特征在于，所述装置还包括：

17.一种用于语音合成模型处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

18.根据权利要求17所述的装置，其特征在于，所述依据所述HMM模型，从所述训练录音数据中获取所述决策树中叶节点对应的一目标帧训练录音数据，包括：

19.根据权利要求18所述的装置，其特征在于，所述从所述训练录音数据中获取所述决策树中叶节点对应的帧训练录音数据，包括：

20.根据权利要求19所述的装置，其特征在于，所述对所述训练录音数据进行时间到状态的对齐，包括：

21.根据权利要求18所述的装置，其特征在于，所述从所述叶节点对应的多帧训练录音数据中选择一目标帧训练录音数据，包括：

22.根据权利要求21所述的装置，其特征在于，所述确定其对应的声学参数与所述叶节点对应的声学参数之间的误差，包括：

23.根据权利要求17至22中任一所述的装置，其特征在于，所述采用所述目标帧训练录音数据的声学参数值替换所述叶节点的声学参数值，包括：

24.根据权利要求17至22中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

25.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-8中一个或多个所述的方法。