CN117894293A

CN117894293A - 语音合成方法、装置、计算机设备和存储介质

Info

Publication number: CN117894293A
Application number: CN202311829206.0A
Authority: CN
Inventors: 周远侠
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-16

Abstract

本申请涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品，涉及人工智能技术领域。所述方法包括：获取语音库问题集；基于语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频。采用本方法能够提升语音合成质量。

Description

语音合成方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

富有表现力的语音合成系统是目前语音合成领域中比较活跃的方向，它和单纯的语音合成系统的区别是，它更关注合成声音的风格、情感、韵律等等，在金融领域的自动客服中应用广泛。

经过韵律特征调整的拼接波形语音合成系统，在拼接语音波形片段之前，可以根据上下文的要求，方便地控制语音信号的韵律参数，对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得与传统未经过韵律特征调整的拼接波形语音合成系统相比更高的清晰度和自然度。

然而经过韵律特征调整的拼接波形语音合成系统也有明显的缺点，该方案一般只选取一个男性或女性说话人的情感语料来构建音库，导致当前使用的录音数据库所涵盖的语音单元组合较少，导致合成的语音特性比较单一，降低了语音合成的质量。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升语音合成质量的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音合成方法。所述方法包括：

获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

在其中一个实施例中，所述对单音素模型进行训练，得到语音合成模型库，包括：

利用所述声学参数提取结果和所述目标标注文件构建得到所述单音素模型；

在语音库问题集的指导下，利用决策树对所述单音素模型进行聚类，得到所述语音合成模型库。

在其中一个实施例中，所述利用所述声学参数提取结果和所述目标标注文件构建得到所述单音素模型，包括：

根据频谱参数和基频参数建立语境模型；

基于所述语境模型，使用多空间概率分布作为模型的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构，得到所述单音素模型。

在其中一个实施例中，所述根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频，包括：

根据所述目标标注文件中的上下文标注文件，利用决策树从所述语音合成模型库的各所述单音素模型筛选出目标模型，并将筛选出所述目标模型拼接生成语句模型；

根据所述语句模型确定与所述待合成语音文本对应的所述目标语音音频。

在其中一个实施例中，所述根据所述语句模型确定与所述待合成语音文本对应的所述目标语音音频，包括：

根据所述语句模型生成所述待合成语音文本的频谱参数序列和基频参数序列；

将所述频谱参数序列和所述基频参数序列作为所述待合成语音文本的目标声学参数；

采用语音信号合成算法将所述目标声学参数合成为所述待合成语音文本对应的所述目标语音音频。

在其中一个实施例中，所述方法还包括：

获取所述训练语音数据库；所述训练语音数据库包括用于对所述单音素模型进行训练的数据库；

对所述训练语音数据库进行声学参数提取，得到所述声学参数提取结果。

在其中一个实施例中，所述方法还包括：

获取文本语料信息；文本语料信息表征与所述训练语音数据库中的语音对应的文本语料；

对所述文本语料信息进行文本分析，得到单音素标注文件和上下文标注文件；

将所述单音素标注文件和所述上下文标注文件作为所述目标标注文件。

第二方面，本申请还提供了一种语音合成装置。所述装置包括：

问题集获取模块，用于获取语音库问题集；所述语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；

模型训练模块，用于基于所述语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；所述声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；所述语音合成模型库包括训练好的各所述单音素模型；

语音合成模块，用于根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述语音合成方法、装置、计算机设备、存储介质和计算机程序产品，首先获取语音库问题集，然后基于语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库，最后根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频，根据语境信息设计一套决策树聚类所需的问题集，扩充了使用的录音数据库所涵盖的语音单元组合，避免了合成的语音特性单一的问题，提升了语音合成的质量。

附图说明

图1为一个实施例中语音合成方法的应用环境图；

图2为一个实施例中语音合成方法的流程示意图；

图3为另一个实施例中语音合成方法的流程示意图；

图4为一个实施例中语音合成方法的聚类原理示意图；

图5为一个实施例中语音合成方法的训练合成原理示意图；

图6为一个实施例中语音合成装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，本申请公开的语音合成方法、装置、计算机设备、存储介质和计算机程序产品可应用于金融科技领域，也可用于除金融科技领域之外的任意领域。

本申请实施例提供的语音合成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音合成方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S201，获取语音库问题集。

其中，语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合，对象账户指的是需要向银行等金融机构办理业务的客户账户。

示例性地，语音库问题集为设计好的用于决策树聚类的银行客户服务问答专业语音库问题集。

S202，基于语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；

其中，声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果，语音合成模型库包括训练好的各单音素模型。

其中，目标标注文件包括单音素标注文件和上下文标注文件。

示例性地，在问题集的指导下，利用决策树对模型进行聚类，得到语音合成所需的HMM模型库。

S203，根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

其中，待合成语音文本指的是待进行语音合成的文本信息，目标语音音频指的是合成后的语音音频。

上述语音合成方法中，首先获取语音库问题集，然后基于语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库，最后根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频，根据语境信息设计一套决策树聚类所需的问题集，扩充了使用的录音数据库所涵盖的语音单元组合，避免了合成的语音特性单一的问题，提升了语音合成的质量。

在一个实施例中，对单音素模型进行训练，得到语音合成模型库，包括：利用声学参数提取结果和目标标注文件构建得到单音素模型；在语音库问题集的指导下，利用决策树对单音素模型进行聚类，得到语音合成模型库。

示例性地，对声学参数分析建模，使用语境决策树分别对谱参数模型、基频参数模型和时长模型进行聚类，得到了合成使用的预测模型。

本实施例中，首先利用声学参数提取结果和目标标注文件构建得到单音素模型，然后在语音库问题集的指导下，利用决策树对单音素模型进行聚类，得到语音合成模型库，根据问题集采用决策树聚类对模型进行训练和划分，提高了建模的精度。

在一个实施例中，利用声学参数提取结果和目标标注文件构建得到单音素模型，包括：根据频谱参数和基频参数建立语境模型；基于语境模型，使用多空间概率分布作为模型的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构，得到单音素模型。

示例性地，根据最大似然估计准则，使用期望最大化算法训练声学参数向量序列的HMM模型，使用多流HMM为谱参数和基频参数建立统一的语境相关模型，除了语音学特征之外，HMM合成系统还使用语言学和韵律学的特征描述语境。建模过程中，HMM合成系统使用多空间概率分布作为HMM的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构。

本实施例中，首先根据频谱参数和基频参数建立语境模型，然后基于语境模型，使用多空间概率分布作为模型的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构，得到单音素模型，将语境信息用于模型构建，选择合适的参数分布描述方式，提升了建模效率。

在一个实施例中，根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频，包括：根据目标标注文件中的上下文标注文件，利用决策树从语音合成模型库的各单音素模型筛选出目标模型，并将筛选出目标模型拼接生成语句模型；根据语句模型确定与待合成语音文本对应的目标语音音频。

示例性地，在合成阶段，通过文本分析得到待合成文本的每个发音基元的上下文相关的标注文件，根据每个基元的上下文相关标注信息，利用决策树从HMM模型库中挑选出发音基元的HMM模型，并拼接到一起生成语句HMM模型，进而利用语句HMM模型生成与待合成语音文本对应的目标语音音频。

本实施例中，首先根据目标标注文件中的上下文标注文件，利用决策树从语音合成模型库的各单音素模型筛选出目标模型，并将筛选出目标模型拼接生成语句模型，然后根据语句模型确定与待合成语音文本对应的目标语音音频，提升了筛选目标模型的准确度，进而提升了模型拼接效率。

在一个实施例中，根据语句模型确定与待合成语音文本对应的目标语音音频，包括：根据语句模型生成待合成语音文本的频谱参数序列和基频参数序列；将频谱参数序列和基频参数序列作为待合成语音文本的目标声学参数；采用语音信号合成算法将目标声学参数合成为待合成语音文本对应的目标语音音频。

示例性地，采用参数生成算法从语句HMM中生成频谱和基频的参数序列，求给定HMM模型的最大概率输出序列，得到待合成语句的声学参数，并利用基于STRAIGHT算法的合成器合成目标语音。

本实施例中，首先根据语句模型生成待合成语音文本的频谱参数序列和基频参数序列，然后将频谱参数序列和基频参数序列作为待合成语音文本的目标声学参数，进而采用语音信号合成算法将目标声学参数合成为待合成语音文本对应的目标语音音频，提升了语音合成的效率。

在一个实施例中，方法还包括：获取训练语音数据库；对训练语音数据库进行声学参数提取，得到声学参数提取结果。

其中，训练语音数据库包括用于对单音素模型进行训练的数据库。

示例性地，通过对训练语音数据库进行声学参数提取分析，主要为基频和频谱参数，然后对声学参数分析建模。

本实施例中，首先获取训练语音数据库，然后对训练语音数据库进行声学参数提取，得到声学参数提取结果，提升了声学参数提取的准确性。

在一个实施例中，方法还包括：获取文本语料信息；对文本语料信息进行文本分析，得到单音素标注文件和上下文标注文件；将单音素标注文件和上下文标注文件作为目标标注文件。

其中，文本语料信息表征与训练语音数据库中的语音对应的文本语料。

示例性地，对文本语料进行文本分析，得到训练语音文本的单音素标注文件和上下文相关信息标注文件，其中上下文相关信息标注文件包含了对语音参数建模，会产生影响的上下文相关信息，比如前后单元声调信息、单元位置信息、韵律信息、分词信息等。

本实施例中，首先获取文本语料信息，然后对文本语料信息进行文本分析，得到单音素标注文件和上下文标注文件，进而将单音素标注文件和上下文标注文件作为目标标注文件，提升了文本分析的效率。

在另一个实施例中，如图3所示，提供了一种语音合成方法，包括以下步骤：

S301，获取语音库问题集。

S302，根据频谱参数和基频参数建立语境模型。

S303，基于语境模型，使用多空间概率分布作为模型的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构，得到单音素模型。

S304，在语音库问题集的指导下，利用决策树对单音素模型进行聚类，得到语音合成模型库。

S305，根据目标标注文件中的上下文标注文件，利用决策树从语音合成模型库的各单音素模型筛选出目标模型，并将筛选出目标模型拼接生成语句模型。

S306，根据语句模型生成待合成语音文本的频谱参数序列和基频参数序列。

S307，将频谱参数序列和基频参数序列作为待合成语音文本的目标声学参数。

S308，采用语音信号合成算法将目标声学参数合成为待合成语音文本对应的目标语音音频。

需要说明的是，上述步骤的具体限定可以参见上文对一种语音合成方法的具体限定，在此不再赘述。

为了便于本领域技术人员的理解，图4提供了一种语音合成方法的聚类原理示意图，为了便于本领域技术人员的理解，图5提供了一种语音合成方法的训练合成原理示意图。

在一个实施例中，富有表现力的语音合成系统（Expressive TTS）是目前语音合成领域中比较活跃的方向，它和单纯TTS的区别是，它更关注合成声音的风格、情感（例如生气，兴奋，悲伤）、韵律（例如重读，强调、语调）等等，在银行业自动客服（例如余额通知、理财产品解说等）应用广泛。

然而经过韵律特征调整的拼接波形语音合成系统也有明显的缺点，具体包括：（1）需要准确的基因周期以及对其起始点的判定，基音周期或其起始点的判定误差将会影响该技术方案的效果；（2）因为连接会导致重音、情绪、韵律等方面的平滑度降低，生成的整句声音还是不太自然和情绪化；（3）该方案需要庞大的录音数据库以及扩充的银行客户服务问答专业语音库才能涵盖所有可能的语音单元组合，一般只选取一个男性或女性说话人的情感语料来构建音库，尽量减少音库标注和构建的工作量，导致合成的语音特性比较单一。因此从语音合成效果、音库构建周期、可扩展性方面看均有不足。

可知，经过韵律特征调整的拼接波形语音合成系统有两个明显缺点，（1）连接会导致重音、情绪、韵律等方面的平滑度降低，生成的整句声音不自然；（2）需要庞大的录音数据库以及扩充的银行客户服务问答专业语音库才能涵盖所有可能的语音单元组合。

基于此，本申请提供了一种语音合成方法，可合成多种情感的语音，生成的音频更自然，同时具有更低的数据成本。

下面参考图4至图5，以一个具体的实施例详细描述语音合成方法。值得理解的是，下述描述仅是示例性说明，而不是对申请的具体限制。

本申请提供的语音合成方法采用银行客户服务问答专业语音库问题集与决策树聚类技术，具体应用如下：

在普通话语音实际的发音过程中，会有协同发音的现象，每个发音基元的发音都会受左右基元的影响。为了在语音合成时能够根据发音基元的语境信息产生最优的声学参数，需要设计一套能够反映连续语流中每个发音基元的语境信息的表示方法。同时，为了能够对声学模型按照语境信息聚类，也需要根据语境信息设计一套决策树聚类所需的问题集。在单音素模型训练好之后，系统需要对声学参数模型进行决策树聚类，从而对模型更好的进行划分，这就需要在问题集的指导下，利用决策树聚类算法来建立包含上下文语境信息的隐马尔科夫（Hidden Markov Model，HMM）模型。银行客户服务问答专业语音库问题集的设计主要是根据上下文相关标注信息，对发音单元基本特征做出的分类，比如音素的位置信息，音素的前后单元信息等。

本申请提供的语音合成方法设计了一套面向普通话的上下文相关的问题集，该问题集包含了3000多个上下文相关的问题，基本覆盖了上下文相关语境信息的所有特征。

格式如下：QS 问题表达式 {答案1，答案2，答案3，……}，其中，每个问题都是以QS命令开头，问题集的答案可以有多个，中间以逗号隔开，答案是一个包含通配符的字符串。当问题表达式为真时，该字符串成功匹配标注文件中的某一行标注，问题集主要和上下文相关的标注文件相匹配。

为了提高建模的精度，需要根据问题集，采用决策树聚类对模型进行训练和划分，决策树是一个二叉树，每一个叶子节点都包含着一个上下文相关的问题，两个子节点分别代表该问题的答案是否符合。叶子节点包含着状态输出分布，通过问题集使用决策树进行上下文相关的聚类，可以从上下文中获得语音单元的模型参数，从而建立音素的上下文相关模型。

本申请提供的语音合成方法提供了一种隐马尔科夫模型参数化的普通话语音合成系统，又称为HMM合成系统、基于标注格式与标注生成算法的隐马尔科夫模型参数化的普通话语音合成系统，分为训练阶段和合成阶段，具体结构如下：

在训练过程中，语音信息经历了从原始波形信号到声学参数序列，再到统计模型集合的变化过程；在合成过程中，又经历了从统计模型集合到声学参数序列，再到合成波形信号的逆过程。

训练过程分为预处理阶段和HMM模型训练阶段。

预处理一方面对文本语料进行文本分析，得到训练语音文本的单音素标注文件和上下文相关信息标注文件，其中上下文相关信息标注文件包含了对语音参数建模，会产生影响的上下文相关信息，比如前后单元声调信息、单元位置信息、韵律信息、分词信息等；

另一方面通过对训练语音数据库进行声学参数提取分析，主要为基频和频谱参数，然后对声学参数分析建模。

建模是根据最大似然估计准则，使用期望最大化算法训练声学参数向量序列的HMM模型。这个训练过程使用多流HMM为谱参数和基频参数建立统一的语境相关模型。同时，除了语音学特征之外，HMM合成系统还使用语言学和韵律学的特征描述语境。建模过程中，由于基频参数曲线的特殊性，无法使用离散或者连续分布描述，HMM合成系统使用多空间概率分布（MSD）作为HMM的状态输出概率分布。同时，系统使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构。最后，使用语境决策树分别对谱参数模型、基频参数模型和时长模型进行聚类，得到了合成使用的预测模型。

在HMM模型训练过程中，会出现因为训练数据过少，而使模型出现过拟合现象，本申请根据语言学、语音学等相关方面的知识来选择一些对声学参数会产生影响的上下文属性，来提高训练模型的鲁棒性，设计了用于决策树聚类的银行客户服务问答专业语音库问题集，然后训练每个发音基元的HMM模型，在问题集的指导下，利用决策树对模型进行聚类，得到语音合成所需的HMM模型库。

在合成阶段，首先通过文本分析得到待合成文本的每个发音基元的上下文相关的标注文件；然后根据每个基元的上下文相关标注信息，利用决策树从HMM模型库中挑选出发音基元的HMM模型，并拼接到一起生成语句HMM模型；最后采用参数生成算法从语句HMM中生成频谱和基频的参数序列，求给定HMM模型的最大概率输出序列，得到待合成语句的声学参数，并利用基于STRAIGHT算法的合成器合成目标语音。其中，生成频谱和基频的参数序的过程可以看做语音识别的逆过程。

本申请提供的语音合成方法具有以下优势：

（1）可实现快速、自动化构建。基于HMM模型统计参数的语音合成方法可以在较少人工干预模型的情况下，自动实现声学模型训练、参数预测、语音合成等过程，在较短的时间内实现系统构建。虽然HMM模型在自动训练的过程中会耗费较多时间，但这问题会随着硬件水平的提高得到改善。而采用波形拼接的语音合成方法，大部分需要进行人工调整，耗时耗力。

（2）合成语音平滑、韵律流畅。本申请的语音合成方法得到的合成语音平滑，韵律流畅，对于不同文本的适应性较强，鲁棒性高。采用基于单元挑选与波形拼接的语音合成方法，拼接处不连续和基频不稳定的现象时有发生，同时对语音训练数据依赖性较高。

（3）语音数据量较少。针对波形拼接的语音合成系统的训练语音的录制，往往需要很长时间。而采用统计参数的语音合成系统，语音数据量要求较少，一般2个小时的语音库数据量即可满足系统训练需求，有效地降低了系统构建成本。

（4）系统灵活度高。基于HMM模型的统计参数语音合成方法，仅需提供目标说话人较少的语音数据，即可采用说话人自适应训练的方法，实现目标说话人的语音合成，系统灵活度较高。而采用基于大语料库的拼接合成的方法，当合成语音的音色或风格发生改变时，研究人员就要对整个系统语音数据进行重新采集，应用领域具有一定的局限性。

（5）系统存储容量小。采用基于HMM模型的统计参数合成，在合成的过程中，只需要提供训练得到的声学参数模型，无需提供原始语音，有效地降低了系统存储空间。而拼接合成方法，需要大量的原始语音，系统需求较大。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音合成方法的语音合成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音合成装置实施例中的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种语音合成装置，包括：问题集获取模块601、模型训练模块602、语音合成模块603，其中：问题集获取模块601，用于获取语音库问题集；语音库问题集包括对象账户在进行业务办理过程输入的询问类型的语音对应的文本信息的集合；模型训练模块602，用于基于语音库问题集、目标标注文件和声学参数提取结果，对单音素模型进行训练，得到语音合成模型库；声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果；语音合成模型库包括训练好的各单音素模型；语音合成模块603，用于根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频。

在一个实施例中，模型训练模块还用于：利用声学参数提取结果和目标标注文件构建得到单音素模型；在语音库问题集的指导下，利用决策树对单音素模型进行聚类，得到语音合成模型库。

在一个实施例中，模型训练模块还用于：根据频谱参数和基频参数建立语境模型；基于语境模型，使用多空间概率分布作为模型的状态输出概率分布，使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构，得到单音素模型。

在一个实施例中，语音合成模块还用于：根据目标标注文件中的上下文标注文件，利用决策树从语音合成模型库的各单音素模型筛选出目标模型，并将筛选出目标模型拼接生成语句模型；根据语句模型确定与待合成语音文本对应的目标语音音频。

在一个实施例中，语音合成模块还用于：根据语句模型生成待合成语音文本的频谱参数序列和基频参数序列；将频谱参数序列和基频参数序列作为待合成语音文本的目标声学参数；采用语音信号合成算法将目标声学参数合成为待合成语音文本对应的目标语音音频。

在一个实施例中，装置还用于：获取训练语音数据库；训练语音数据库包括用于对单音素模型进行训练的数据库；对训练语音数据库进行声学参数提取，得到声学参数提取结果。

在一个实施例中，装置还用于：获取文本语料信息；文本语料信息表征与训练语音数据库中的语音对应的文本语料；对文本语料信息进行文本分析，得到单音素标注文件和上下文标注文件；将单音素标注文件和上下文标注文件作为目标标注文件。

上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7和图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对单音素模型进行训练，得到语音合成模型库，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述声学参数提取结果和所述目标标注文件构建得到所述单音素模型，包括：

根据频谱参数和基频参数建立语境模型；

4.根据权利要求1所述的方法，其特征在于，所述根据所述语音合成模型库合成得到与待合成语音文本对应的目标语音音频，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述语句模型确定与所述待合成语音文本对应的所述目标语音音频，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种语音合成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。