CN109754778B

CN109754778B - 文本的语音合成方法、装置和计算机设备

Info

Publication number: CN109754778B
Application number: CN201910042827.1A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2023-05-30
Anticipated expiration: 2039-01-17
Also published as: US20210174781A1; US11620980B2; CN109754778A; WO2020147404A1; SG11202100900QA

Abstract

本申请实施例提供一种文本的语音合成方法、装置和计算机设备，其中，上述文本的语音合成方法包括首先获取待识别的目标文本；然后将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量；其次将所述特征向量输入预先训练的频谱转换模型，获取上述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱；最后再将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音。这样，本申请在进行语音合成的时候，无需对文本中的每个字符进行拼音标注，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案，在人工智能领域中具有更广泛的应用范围。

Description

文本的语音合成方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本的语音合成方法、装置和计算机设备。

背景技术

由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器像人一样说话，使一些以其他方式表示或存储的信息能转换为语音，从而人们可以通过听觉方便地获得这些信息。

现有相关技术中，为解决语音合成技术中的多音字发音问题，大多采用基于规则的方法或者基于统计机器学习的方法，但是，基于规则的方法需要人工设定大量的规则，基于统计机器学习的方法容易受到样本不均匀分布的限制。不仅如此，上述基于规则的方法和基于统计机器学习的方法均需要对训练文本进行大量的语音标注，这无疑大大增加了工作量。

发明内容

本申请实施例提供一种文本的语音合成方法、装置和计算机设备，通过预先训练的频谱转换模型，可以获取待识别文本中每个字符对应的梅尔频谱，并将梅尔频谱转换为语音，据此可以获得目标文本对应的语音，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案。

第一方面，本申请实施例提供了一种文本的语音合成方法，包括：

获取待识别的目标文本；

将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量；

将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱；

将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音。

其中在一种可能的实现方式中，所述将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前，还包括：

获取预设数量的训练文本和所述训练文本对应的配对语音；

对所述训练文本进行离散型特征处理，以获得所述训练文本中的每个字符对应的特征向量；

将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱；以及，

当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型。

其中在一种可能的实现方式中，所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱包括：

通过所述待训练的频谱转换模型，对所述训练文本进行编码，获得与所述训练文本对应的隐藏状态序列，所述隐藏状态序列包括至少两个隐节点；

根据每个字符对应的隐节点的权值，分别对所述隐节点进行加权计算，获得所述训练样本中的每个字符对应的语义向量；

对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱。

其中在一种可能的实现方式中，所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱之后，还包括：

当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差大于所述预设阈值时，对每个隐节点的权值进行更新；

分别对更新权值后的所述隐节点进行加权计算，以获得所述训练样本中的每个字符对应的语义向量；

对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱；以及，当所述每个字符对应的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，停止对每个隐节点的权值的更新过程，并获得训练好的频谱转换模型。

其中在一种可能的实现方式中，所述将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音包括：

通过声码器对所述梅尔频谱进行傅里叶逆变换，以将所述梅尔频谱转换为时域的语音波形信号，获得所述语音。

第二方面，本申请实施例还提供了一种文本的语音合成装置，包括：

获取模块，用于获取待识别的目标文本，并用于获取通过处理模块进行离散化特征处理之后的所述目标文本中的每个字符对应的特征向量，以及将所述目标文本中每个字符对应的特征向量输入至预先训练的频谱转换模型，以获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱；

转换模块，用于将所述获取模块获取的梅尔频谱转换为语音，以获得所述目标文本对应的语音。

其中在一种可能的实现方式中，所述的装置还包括：

所述获取模块，还用于在将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前，获取预设数量的训练文本和所述训练文本对应的配对语音，对所述训练文本进行离散型特征处理，以获得所述训练文本中的每个字符对应的特征向量；将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱；以及，当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型。

其中在一种可能的实现方式中，所述获取模块，具体用于通过待训练的频谱转换模型，对所述训练文本进行编码，获得与所述训练文本对应的隐藏状态序列，所述隐藏状态序列包括至少两个隐节点，并根据每个字符对应的隐节点的权值，分别对所述隐节点进行加权计算，获得所述训练样本中的每个字符对应的语义向量，以及对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述文本的语音合成方法。

第四方面，本申请实施例还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述文本的语音合成方法。

以上技术方案中，获取待识别的目标文本之后，将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量，并将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱，以及将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音，这样在进行语音合成的时候，便无需对文本中的每个字符进行拼音标注，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请文本的语音合成方法一个实施例的流程图；

图2为本申请文本的语音合成方法另一个实施例的流程图；

图3为本申请文本的语音合成装置一个实施例的连接结构示意图；

图4为本申请计算机设备一个实施例的结构示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1为本申请文本的语音合成方法一个实施例的流程图，如图1所示，上述方法可以包括：

步骤101：获取待识别的目标文本。

具体来说，可通过获取模块获取上述待识别的文本，上述获取模块可以是任意具有书面语言表现功能的输入法，其中，上述目标文本指的是任意具有书面语言表现形式的一段文字。

步骤102：将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量。

进一步而言，离散型特征处理主要用于将连续的数值属性转化为离散的数值属性。本申请采取独热(One-Hot)编码的方式进行目标文本的离散型特征处理。

具体地，以下将对本申请如何使用One-Hot编码得到上述目标文本中每个字符对应的特征向量进行说明：

首先，假设本申请具有如下预设关键词，且每个关键词的编号如下所示：

1老师；2喜欢；3学识；4上课；5很；6幽默；7我；8渊博。

其次，当本申请中的目标文本为“老师学识很渊博”时，首先对该目标文本进行分离以与上述预设关键词相匹配，即分离成“老师”、“学识”、“很”以及“渊博”。

紧接着，将上述“老师”、“学识”、“很”以及“渊博”与上述预设关键词的编号一一对应，即得到：

1老师	2喜欢	3学识	4上课	5很	6幽默	7我	8渊博
								1	0	1	0	1	0	0	1

因此，对于目标文本“老师学识很渊博”，最终可得到该目标文本中每个字符对应的特征向量为10101001。

其中，上述预设关键词以及预设关键词的编号可以在具体实现时，根据实现需求进行自行设定，本实施例对上述预设关键词以及预设关键词对应的编号不作限定，以上预设关键词以及预设关键词的编号为一示例以便理解。

步骤103：将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱。

在具体实现时，上述频谱转换模型可以为序列转换模型(Sequence to Sequence；以下简称：seq2seq)。进一步来说，本申请通过seq2seq模型输出与目标文本中的每个字符对应的梅尔频谱，由于seq2seq模型是目前自然语言处理技术中非常重要而且非常流行的一个模型，因此有着良好的表现。其中，本申请采取梅尔频谱作为声音特征的表现形式，可以使得人耳可以更容易感知到声音频率的变化。

具体而言，声音频率的单位是赫兹，人耳能听到的频率范围是20至20000Hz，但人耳对赫兹这种标度单位并不是线性感知关系。例如我们适应了1000Hz的音调，如果把音调频率提高到2000Hz，我们的耳朵只能觉察到频率提高了一点点，根本察觉不到频率提高了一倍。而通过梅尔频谱的表现方式，则人耳对频率的感知度就成了线性关系。也就是说，如果两端语音的梅尔频率相差两倍，则人耳可以感知到的音调大概也相差两倍。

步骤104：将上述梅尔频谱转换为语音，以获得所述目标文本对应的语音。

进一步而言，可通过在频谱转换模型的外部接一声码器，以将上述梅尔频谱转换为语音实现输出。

在实际应用中，上述声码器可通过傅里叶逆变换将上述梅尔频谱转换为时域的语音波形信号，由于时域是真实世界，是唯一实际存在的域，故本申请可更为形象与直观的获取上述语音。上述语音合成方法中，获取待识别的目标文本之后，将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量，并将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱，以及将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音，这样在进行语音合成的时候，便无需对文本中的每个字符进行拼音标注，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案。

图2为本申请文本的语音合成方法另一个实施例的流程图，如图2所示，本申请图1所示实施例中，步骤103之前，还可以包括：

步骤201：获取预设数量的训练文本和上述训练文本对应的配对语音。

具体来说，和目标文本的概念类似，本实施例中的训练文本也指任意具有书面语言表现形式的一段文字。

其中，上述预设数量可以在具体实现时，根据系统性能和/或实现需求等自行设定，本实施例对上述预设数量的大小不作限定，举例来说，上述预设数量可以是1000个。

步骤202：对上述训练文本进行离散型特征处理，以获得上述训练文本中的每个字符对应的特征向量。

同样，在本实施例中，可以采用One-Hot编码的方式进行训练文本的离散型特征处理。具体实现过程可参考步骤102中的相关描述，在此不再赘述。

步骤203：将上述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得上述待训练的频谱转换模型输出的梅尔频谱。

进一步来说，上述步骤203可以包括：

步骤(1)通过上述待训练的频谱转换模型，对上述训练文本进行编码，获得与上述训练文本对应的隐藏状态序列，上述隐藏状态序列包括至少两个隐节点。

其中，上述隐藏状态序列的获得为将上述训练文本中每个字符的特征向量一一进行映射，其中上述训练文本中的字符的个数与隐节点的个数一一对应。

步骤(2)根据每个字符对应的隐节点的权值，分别对上述隐节点进行加权计算，获得上述训练样本中的每个字符对应的语义向量。

具体来说，可通过采取注意力机制的公式(1)来获得对应的语义向量：

其中，C_i表示第i个语义向量，N表示隐节点的个数，h_j表示编码时的第j个字符的隐节点，上述注意力机制指的是：由于a_ij表示在编码时的第j阶段和解码时的第i阶段的相关性，故对于每个语义向量均会选取与当前所要输出最合适的上下文信息。

步骤(3)对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱。

步骤204：当上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型。

进一步地，当上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差大于预设阈值时，还包括：

对每个隐节点的权值进行反向传播误差信息以进行更新，不断迭代，直至通过上述待训练的频谱转换模型输出的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值。

具体来说，在将上述隐节点的权值进行更新之后，首先需要对更新权值后的隐节点进行加权计算，以获得训练样本中的每个字符对应的语义向量，然后对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱，最后当所述每个字符对应的梅尔频谱与上述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，停止上述每个隐节点的更新过程，并获得训练好的频谱转换模型。

其中，上述预设阈值可以在具体实现时，根据系统性能和/或实现需求等自行设定，本实施例对上述预设阈值的大小不作限定，举例来说，上述预设阈值可以为80％。

图3为本申请文本的语音合成装置一个实施例的连接结构示意图，如图3所示，上述装置包括获取模块31和转换模块32：

获取模块31，用于获取待识别的目标文本，并用于获取通过处理模块33进行离散化特征处理之后的所述目标文本中的每个字符对应的特征向量，以及将所述目标文本中每个字符对应的特征向量输入至预先训练的频谱转换模型，以获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱。

具体来说，可通过任意具有书面语言表现功能的输入法获取待识别的目标文本，其中，上述目标文本指的是任意具有书面语言表现形式的一段文字。

进一步而言，本申请采取独热(One-Hot)编码的方式进行目标文本的离散型特征处理。然后再将上述特征向量输入至预先训练的频谱转换模型，最终获取上述频谱转换模型输出的目标文本中每个字符对应的梅尔频谱。

进一步，以下将对本申请如何使用One-Hot编码得到上述目标文本中每个字符对应的特征向量进行说明：

1老师；2喜欢；3学识；4上课；5很；6幽默；7我；8渊博。

1老师	2喜欢	3学识	4上课	5很	6幽默	7我	8渊博
								1	0	1	0	1	0	0	1

转换模块32，用于将上述获取模块31获取的梅尔频谱转换为语音，以获得上述目标文本对应的语音。

进一步而言，上述转换模块32可以是一声码器，上述声码器在进行转换处理时，可通过傅里叶逆变换将上述梅尔频谱转换为时域的语音波形信号，由于时域是真实世界，是唯一实际存在的域，故本申请可更为形象与直观的获取上述语音。

上述语音合成装置中，获取模块31获取待识别的目标文本之后，通过处理模块33将上述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量，并将上述特征向量输入预先训练的频谱转换模型，获取上述频谱转换模型输出的上述目标文本中每个字符对应的梅尔频谱，以及通过转换模块32将上述梅尔频谱转换为语音，以获得上述目标文本对应的语音，这样在进行语音合成的时候，便无需对文本中的每个字符进行拼音标注，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案。

再请参阅图3所示，在另一实施例中，：

所述获取模块31还用于在将上述特征向量输入预先训练的频谱转换模型，获取上述频谱转换模型输出的上述目标文本中每个字符对应的梅尔频谱之前，获取预设数量的训练文本和上述训练文本对应的配对语音，并用于获取通过所述处理模块33对所述训练文本进行离散型特征处理之后的所述训练文本中的每个字符对应的特征向量，且将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模块输出的梅尔频谱；以及，当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型。

同样，在本实施例中，通过处理模块33对上述训练文本进行离散型特征处理，以获得上述训练文本中的每个字符对应的特征向量，在具体实现时，可以采用One-Hot编码的的方式进行训练文本的离散型特征处理。具体实现过程可参考图3所示实施例的相关描述，在此不再赘述。

进一步来说，上述获取模块31获取的上述预设数量的配对语音对应的梅尔频谱可以包括：

上述获取模块31具体用于通过待训练的频谱转换模型，对上述训练文本进行编码，获得与上述训练文本对应的隐藏状态序列，上述隐藏状态序列包括至少两个隐节点，并根据每个字符对应的隐节点的权值，分别对上述隐节点进行加权计算，获得上述训练样本中的每个字符对应的语义向量，以及对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱。

图4为本申请计算机设备一个实施例的结构示意图，上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时，可以实现本申请实施例提供的文本的语音合成方法。

其中，上述计算机设备可以为服务器，例如：云服务器，或者上述计算机设备也可以为电子设备，例如：智能手机、智能手表、个人计算机(Personal Computer；以下简称：PC)、笔记本电脑或平板电脑等智能设备，本实施例对上述计算机设备的具体形态不作限定。

图4示出了适于用来实现本申请实施方式的示例性计算机设备52的框图。图4显示的计算机设备52仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备52以通用计算设备的形式表现。计算机设备52的组件可以包括但不限于：一个或者多个处理器或者处理单元56，系统存储器78，连接不同系统组件(包括系统存储器78和处理单元56)的总线58。

总线58表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备52典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备52访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器78可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)70和/或高速缓存存储器72。计算机设备52可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统74可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线58相连。存储器78可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块82的程序/实用工具80，可以存储在例如存储器78中，这样的程序模块82包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块82通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备52也可以与一个或多个外部设备54(例如键盘、指向设备、显示器64等)通信，还可与一个或者多个使得用户能与该计算机设备52交互的设备通信，和/或与使得该计算机设备52能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口62进行。并且，计算机设备52还可以通过网络适配器60与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器60通过总线58与计算机设备52的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备52使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元56通过运行存储在系统存储器78中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的文本的语音合成方法。

本申请实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本申请实施例提供的文本的语音合成方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是，本申请实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer；以下简称：PC)、个人数字助理(Personal Digital Assistant；以下简称：PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文本的语音合成方法，其特征在于，所述的方法包括：

获取待识别的目标文本；

将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音；

所述将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前，还包括：

获取预设数量的训练文本和与所述训练文本对应的配对语音；

当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型；

所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱包括：

根据每个字符对应的隐节点的权值，分别对所述隐节点进行加权计算，获得所述训练文本中的每个字符对应的语义向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱之后，还包括：

分别对更新权值后的隐节点进行加权计算，以获得所述训练文本中的每个字符对应的语义向量；

3.根据权利要求1-2任意一项所述的方法，其特征在于，所述将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音包括：

4.一种文本的语音合成装置，其特征在于，所述的装置包括：

获取模块，用于获取待识别的目标文本，并用于获取通过处理模块进行离散型特征处理之后的所述目标文本中的每个字符对应的特征向量，以及将所述目标文本中每个字符对应的特征向量输入至预先训练的频谱转换模型，以获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱；

转换模块，用于将所述获取模块获取的梅尔频谱转换为语音，以获得所述目标文本对应的语音；

所述获取模块，还用于在将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前，获取预设数量的训练文本和与所述训练文本对应的配对语音；获取通过所述处理模块对所述训练文本进行离散型特征处理之后所获得的所述训练文本中每个字符对应的特征向量；将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱；以及，当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型；

所述获取模块将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱，具体用于通过待训练的频谱转换模型，对所述训练文本进行编码，获得与所述训练文本对应的隐藏状态序列，所述隐藏状态序列包括至少两个隐节点，并根据每个字符对应的隐节点的权值，分别对所述隐节点进行加权计算，获得所述训练文本中的每个字符对应的语义向量，以及对每个字符对应的语义向量进行解码，并输出每个字符对应的梅尔频谱。

5.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1~3中任一所述的方法。

6.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1~3中任一所述的方法。