CN112151007B

CN112151007B - 一种语音合成方法、装置、设备及存储介质

Info

Publication number: CN112151007B
Application number: CN202011329309.7A
Authority: CN
Inventors: 智鹏鹏; 陈高峰; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-02
Anticipated expiration: 2040-11-24
Also published as: CN112151007A

Abstract

本发明实施例提供一种语音合成方法、装置、设备及存储介质，该方法包括：获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；确定所述文本信息对应的初始频谱信息；根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息；基于所述语言频谱信息，合成对应所述文本信息的语音。本发明实施例能够优化语音合成方案，以满足不同的用户对语音的不同需求。

Description

一种语音合成方法、装置、设备及存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

语音合成用于将文本信息转换成自然语音输出，可以满足用户对语音朗读播报的需求，例如，通过语音合成技术实现新闻朗读、小说朗读、天气播报、短信播报、电子书朗读等，使用户可以通过语音听取相关信息，而不必直接对文字信息进行阅读。

然而，目前的语音合成方式，只是合成适应大部分用户的具有统一样式的的语音，而对于特定用户，例如具有听力障碍的用户，则存在不能满足用户需求的情况，特别是，对不同程度的听力障碍的用户，对语音强度的需求不同，因此，如何进一步优化语音合成方案，以满足不同的用户对语音的不同需求，成为了本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明实施例提供一种语音合成方法、装置、设备及存储介质，能够优化语音合成方案，以满足不同的用户对语音的不同需求。

为实现上述目的，本发明实施例提供如下技术方案：

一种语音合成方法，包括：

获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；

确定所述文本信息对应的初始频谱信息；

根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息；

基于所述语言频谱信息，合成对应所述文本信息的语音。

本发明实施例还提供一种语音合成装置，包括：

获取信息模块，用于获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；

确定初始频谱信息模块，用于确定所述文本信息对应的初始频谱信息；

增益处理模块，用于根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息；

合成语音模块，用于基于所述语言频谱信息，合成对应所述文本信息的语音。

一种电子设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行上述语音合成方法。

本发明实施例还提供一种存储介质，所述存储介质存储有适于语音合成的程序，以实现上述语音合成方法。

与现有技术相比，本发明实施例公开了的一种语音合成方法、装置、设备及存储介质，所述方法包括：获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；基于所述文本信息，确定所述文本信息对应的初始频谱信息；根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息，从而可以基于所述语言频谱信息，合成对应所述文本信息的语音。其中，由于本发明实施例中所述语言频谱信息是根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理得到，使得发明实施例基于所述语音频谱信息合成的语音，能够适应该用户的听力特征，从而在针对不同用户时，生成适应不同用户听力特征的语音，因而能够满足不同用户的语音需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的语音合成方法的流程图；

图2为本发明实施例提供的记录一次第一声强的曲线图；

图3为本发明实施例提供的用户的听阈曲线图；

图4为本发明实施例提供的确定初始频谱信息的一种可选流程图；

图5为本发明实施例提供的确定文本信息对应的文本序列信息的流程图；

图6为本发明实施例提供的encoder-decoder模型的示意图；

图7为本发明实施例提供的确定初始频谱信息又一种可选流程图；

图8为本发明实施例提供的对所述初始频谱信息进行频谱增益处理的流程图；

图9为本发明实施例提供的对所述初始频谱信息的每一初始帧进行频谱增益处理的流程图；

图10为本发明实施例提供的合成对应所述文本信息的语音的流程图；

图11为本发明实施例提供的语音合成装置的一种可选框图；

图12为本发明实施例提供的一种于语音合成设备的结构图。

具体实施方式

由背景技术可知，现有的语音合成方式，只能合成适应大部分用户的具有统一样式的语音，而并不适应对语音具有特殊需求的用户。

为了优化语音合成方案，以满足不同的用户对语音的不同需求，本发明实施例提供了一种语音合成方法、装置、设备及存储介质，所述方法包括：获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到；基于所述文本信息，确定所述文本信息对应的初始频谱信息；根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息，从而可以基于所述语言频谱信息，合成对应所述文本信息的语音。其中，由于本发明实施例中所述语言频谱信息是根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理得到，使得发明实施例基于所述语音频谱信息合成的语音，能够适应该用户的听力特征，从而在针对不同用户时，生成适应不同用户听力特征的语音，因而能够满足不同用户的语音需求。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以理解的是，本发明实施例所提供的语音合成方法用于优化语音合成方案，以满足不同的用户对语音的不同需求，请参考图1，图1是本发明实施例所提供的语音合成方法一流程示意图。

步骤S11、获取待合成的文本信息和用户的听阈信息，其中，所述用户的听阈信息基于听阈测试得到。

所述待合成的文本信息，可以理解为用于待合成语音的文本信息，为了进行语音合成，通常需要基于待合成的文本信息进行转化，以便于合成需要的语音。

具体的，所述待合成的文本信息可以为汉字语句、英文语句等形式的文本内容，通过获取所述文本信息，为后续合成语音做好准备。

所述用户的听阈信息，可以为指示用户听力特征的信息，基于用户的听阈信息，可以确定用户的听力特征，从而可以基于该听阈信息，生成与用户听力特征相适应的语音。

所述听阈测试可以为能够反映用户的听力特征的测试，通过听阈测试，可以得到指示用户的听力特征的信息，即听阈信息。可选的，在本发明实施例中，所述听阈测试可以为纯音音频测试。

在一个可选的示例中，本发明实施例可以在安静环境下或特定的测听室内，对用户进行纯音测听，通过自动化控制纯音测听程序，测试用户在特定的声音频率下能听到的最小声强，从而得到用户的听阈信息。

步骤S12、确定所述文本信息对应的初始频谱信息。

所述初始频谱信息可以为适应正常听力用户的频谱信息，通过得到对应文本信息的初始频谱信息，可以作为后续频谱调整的基础，从而有利于快速准确的确定适应用户听阈信息的语言频谱信息。

可选的，所述初始频谱信息可以基于对文本信息的编码处理以及解码处理等得到。

具体地，所述初始频谱信息包括多个初始帧，为了保证对于文本信息处理合成后的语音的准确性、发音正确性、停顿正确性以及结束的及时性，获得的任一初始帧均可以包括对应文本信息的音素向量序列、分词标记向量序列和停止标记向量。

步骤S13、根据所述用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息。

所述频谱增益处理用于将所述初始频谱信息中的关键信息进行放大优化，其中，基于所述用户的听阈信息对所述初始频谱信息进行频谱增益处理，可以使得经过所述增益处理后的所述语言频谱信息能够更贴近用户的听阈，满足不同的用户对语音的不同需求。

步骤S14、基于所述语言频谱信息，合成对应所述文本信息的语音。

由于所述语言频谱信息基于用户听阈信息得到，使得基于所述语言频谱信息合成的对应所述文本信息的语音，能够适应用户的听力特征，从而满足用户对语音的需求。

可见，本发明实施例中所述语言频谱信息是根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理得到，使得发明实施例基于所述语音频谱信息合成的语音，能够适应该用户的听力特征，从而在针对不同用户时，生成适应不同用户听力特征的语音，因而能够满足不同用户的语音需求。

在一个可选的实现中，通过听阈测试得到所述用户的听阈信息的过程，具体可以为：针对多个特定声音频率进行多次听阈测试，其中，每次听阈测试用于确定用户在一个特定声音频率下的听阈，从而基于多次听阈测试确定用户的听阈，得到用户的听阈信息。

具体的，所述特定的声音频率可以是在250Hz、500Hz、1000Hz、2000Hz、4000Hz、8000Hz等不同频率下的声音频率，在本发明实施例的其他可选实现中，也可以是3500Hz等，本发明在这里不做具体的限定。

需要进行说明的是，所述用户的听阈信息也可以是基于听阈测试确定的用户的听阈曲线。

可选的，所述听阈曲线可以采用选用国际标准化组织（InternationalOrganization for Standardization，ISO）规定的标准上升法，或，快速上升法基于Matlab编程的纯音测听程序进行听阈测试得到。

具体的，就标准上升法而言，目前最常用的测试方法是国际标准化组织在ISO8253-1中规定的标准上升法。所述标准上升法一般给用户的初始声音频率以及声强都很小并逐步调整确定特定的声音频率，进而所述特定的声音频率获取听阈信息的方法。具体的，就获取特定的声音频率为250Hz下的听阈进行说明。参考图2，为本发明实施例中在声音频率为250Hz，初始声强为30dB下，记录一次第一声强的曲线图。具体的，给定声音频率为250Hz，初始声强为30dB的测试语音，当用户反馈没有听到声音时，将声强增大，变化步长为5dB。当用户反馈听到声强时，记一次第一声强；接着，以变化步长为20dB将声强减小至20dB，之后，以20dB为初始声强进行再次测试，再次记录第一声强。

当记录的第一声强的记录次数达到3次时，结束声音频率为250Hz的测试，根据记录的3次第一声强的平均值，确定为声音频率为250Hz的听阈。

进一步的，本发明实施例中标准上升法的其他声音频率下的听阈的获取步骤可以参考前述250Hz的测试方法，以得到其他声音频率下的听阈。在本发明一种可选的实施例中，参考图3，还增加了所述500Hz、1000Hz、2000Hz、4000Hz、8000Hz等声音频率下的测试，分别确定所述声音频率下的听阈，汇总得到所述用户的听阈曲线图。

在本发明其他可选的实施例中，还可以包括听阈测试中常用的快速上升法，这里不再进行详细的说明。

在本发明的一个可选实现中，进一步提供了确定所述文本信息对应的初始频谱信息的可选流程，所述流程可以理解为步骤S12的可选实现，参见图4示出的确定所述文本信息对应的初始频谱信息的可选流程图，所述流程包括：

S21、确定文本信息对应的文本序列信息。

所述文本序列信息用于为后续进行编码提供基础，以便于在后续编码和解码后，得到对应所述文本信息的初始频谱信息。

在一种具体实施方式中，所述文本序列信息为对应汉字语句的各个汉字的向量序列，在一个可选的示例中，所述文本序列信息可以为一个one-hot向量，为方便理解，以“我今天坐公交车”为例，每个字可以对应一个512维的向量，那么对应“我今天坐公交车”这一汉字语句的音素序列即为7个512维的向量序列。

具体的，本发明实施例还提供了确定文本信息对应的文本序列信息的一个可选流程，参见图5示出的文本信息对应的文本序列信息的可选流程图，所述流程包括：

S211、确定对应于文本信息的文本序列。

所述文本序列，可以理解为所述文本信息分解后得到的序列形式的表达，用于在得到对应的文本序列信息提供基础。

可以理解的是，以文本信息为汉语为例，为了实现语音合成，在语音合成前，首先构建与汉字对应的汉字特征库，构建完成的汉字特征库就像字典一样，在进行语音合成时，获得汉字语句后，可以从汉字特征库中查找出对应的汉字特征，在一种具体实施方式中，汉字特征库可以对应4600个汉字，则每个汉字所对应的汉字特征为4600维的向量，具体地，汉字特征也可以为one-hot向量。

对应于所述文本信息的文本序列，即为按照汉字顺序依次排列的汉字特征，其中，所述文本序号中汉字的字数即为汉字特征的个数，相应的，所述文本序列中可以包括汉字个数个4600维向量。

同样的，对应于“我今天坐公交车”这一汉字语句的文本序列即为7个与其汉字相对应的4600维的向量序列。

可以理解的，在文本信息为其他语种时，可以通过建立对应其他语种的文字特征库，从而得到对应文本信息的文本序列。

S212、对所述文本序列进行前端处理，得到指示所述文本信息发音特征的音素序列。

所述前端处理，用于对所述文本序列进行处理，从而可以得到指示所述文本信息发音特征的音素序列。

具体的，本步骤所述的前端处理，可以包括文本正则（Text Normalization）处理，字音转换（Grapheme-to-Phoneme）处理，其中，在所述文本信息为汉语时，还同时进行多音字分类（Polyphone Classification）处理和韵律预测（Prosody Prediction）处理，最终得到音素序列。

可以理解的是，对所述文本序列进行前端处理的步骤可以由前端处理模块执行。

S213、对音素序列进行字符嵌入处理，得到所述文本序列信息。

通过对所述音素序列进行字符嵌入处理，得到所述文本序列信息，可以实现对所述音素序列降维，例如，将音素序列从而4600维降为512维，进而得到低维的文本序列信息。

通过预先将所述音素序列转化成为文本序列信息，一方面可以减小对文本进行特征表示所占用的空间，降低成本；另一方面，还可以将对文本信息进行进一步的加工，为后续的处理做好准备。

在得到所述文本序列信息后，进一步处理包括：

S22、对所述文本序列信息进行编码，得到语言学编码特征。

可以理解的是，对所述文本序列信息进行编码的步骤可以由编码模块执行，具体的，编码模块可以为U-Net卷积神经网络的encoder-decoder模型(编码器-解码器结构)的encoder模块，在一种具体实施例中，encoder模块可以包含3层卷积层和1层LSTM层(LongShort-Term Memory；长短期记忆网络)，以满足对文本序列信息的编码要求。

其中，LSTM是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，从而可以更好地关注上下文的信息，保证编码的准确性。

所述语言学编码特征可以理解为一个中间隐变量，所述语言学编码特征中可以包含对于汉字的发音、词性、停顿、断句等相关信息，为后续的解码提供基础。

S23、对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息。

具体的，对所述语言学编码特征进行解码的步骤可以由U-Net卷积神经网络的encoder-decoder模型(编码器-解码器结构)的解码模块执行，利用解码模块对语言学编码特征进行解码得到初始频谱信息。

具体地，为了保证对于语音合成后的发音正确性、停顿正确性以及结束的及时性，在对所述语言学编码特征进行解码时，获得的初始频谱信息可以包括音素向量序列、分词标记向量序列和停止标记向量。

其中，音素向量序列是一个由多个one-hot向量组成的向量序列，具体one-hot向量包括表示每个音素的向量，表示不同间隔的字间隔标记向量、表示不同词语间隔的词间隔标记向量以及表示不同标点符号的标点标记向量。比如：“我们。”这句话用音素向量序列表示即为：w”的字母向量、“o3”的音素向量(3表示声调为3声)、字间隔标记向量、“m”的字母向量、“en5”的字母向量(5表示声调为轻声)以及“。”的标点标记向量，从而通过音素向量序列，就可以知道字的发音、词的间隔以及不同标点(标点的不同会对应不同的停顿时间)。

分词标记向量序列是一个由多个one-hot向量组成的向量序列，具体one-hot向量包括表示一个词语的开始的B(begin)向量、表示一个词语的中间的M(middle)向量、表示一个词语的结束的E(end)向量、以及表示一个词语为单字词语的S(single)向量。比如，我今天坐公交车”用分词标记向量序列表示，则为S向量、B向量、E向量、S向量、B向量、M向量和E向量，所反映的分词结果是“我|今天|坐|公交车”。通过分词标记向量序列，可以使得对于句子的分词更为准确，提高合成语音的韵律准确性。

停止标记向量（stop token）则是一个01向量，在一种具体实施方式中，如果一句话未结束用0表示，则从结束的位置开始则用1表示，在其他实施方式中，也可以一句话未结束用1表示，从结束的位置开始用0表示。这样，停止标记向量可以避免在一句话结束后长时间的处于无声音的状态。

为了进一步提高语音合成的准确性，并保证最终语音合成的效果，在另一种具体实施方式中，所述初始频谱信息还可以包括词性标记向量序列，基于音素向量序列、分词标记向量序列、停止标记向量以及词性标记向量序列进行合成。

当然，在另一种具体实施方式中，所述初始频谱信息还可以包括词向量序列，词向量也是one-hot向量，将属于同一个词的不同字用同一个词向量进行标识，从而可以从另一个角度保证分词的准确性，并提高后续语音合成的准确性。

具体的，所述encoder-decoder模型的可选实现方式可以为Seq2Seq模型，所述Seq2Seq模型参见图6所示，在Seq2Seq模型中通常分为两个部分：

第一部分为编码器（Encoder）：它主要是处理文本序列信息，得到语言学编码特征，具体的，所述编码器中包括若干个按照一定顺序排列的RNN单元，处理所述文本序列信息可以为RNN单元，将所述文本序列信息X={x⁽¹⁾,x⁽²⁾..x⁽ⁿ⁾}依次输入到RNN单元中，经过一定顺序排列的RNN单元的处理后，以最后一个RNN的单元状态来作为最终的输出的上下文信息C，确定所述上下文信息C为语言学编码特征。

第二部分为解码器（Decoder）：它主要是处理语言学编码特征，得到初始频谱信息，具体的，它以上下文信息C作为输入，以固定长度的向量作为条件，产生输出序列Y={y⁽¹⁾,y⁽²⁾...y⁽ⁿ⁾}，确定所述序列Y为初始频谱信息。

在一个可选的实现中，为了保证解码的准确性，还可以基于注意力机制提高对关键信息的关注度。具体的，在对所述文本序列信息进行编码之后，对所述语言学编码特征进行解码之前，还可以基于注意力机制处理所述语言学编码特征，参考图7示出的确定所述文本信息对应的初始频谱信息的可选流程图，所述流程包括：

步骤S31、确定文本信息对应的文本序列信息。

其中，步骤31可以参考前述步骤S21的说明，在此不再赘述。

步骤S32、对所述文本序列信息进行编码，得到语言学编码特征。

其中，步骤32可以参考前述步骤S22的说明，在此不再赘述。

步骤S33、基于注意力机制处理所述语言学编码特征，确定所述语言学编码特征的关键语言学特征。

所述注意力机制可以学习到将注意力关注到哪些输入的音素的内部表示上，通过注意力机制，还可以学习到哪些输入的音素序列已经完成参数预测，以及当前时刻需要特别关注哪些音素序列。

也就是说，所述注意力机制用于关注所述语言学编码特征中的有用信息，忽略掉所述语言学编码特征中的无用信息，确定所述关键语言学特征。进一步的，由于所述有用信息所在的维度被关注，所述无用信息所在的维度被忽略，所述注意力机制可以实现对所述语言学特征信息的降维处理，则所述关键语言学特征的维度小于或等于所述语言学编码特征的维度。

步骤S34、对所述语言学编码特征的关键语言学特征进行解码，得到所述文本信息对应的初始频谱信息。

基于前述采用注意力机制实现对所述语言学编码特征进行处理，得到的关键语言学特征，由于所述关键语言学特征的维度小于或等于所述语言学编码特征的维度，对所述关键语言学特征进行解码，有利于在保证语言学编码特征准确性的同时减少计算时间。

具体的，基于注意力机制能够得到所述语言学编码特征中的关键语言学特征，在解码的过程中，通过结合关键语言学特征，可以更好的预测当前时刻需要得到的初始频谱信息以及是否结束解码过程。

具体的，所述初始频谱信息中的具体内容可以参见前述步骤S23中的记载，这里不再赘述。

在一个可选的实现中，本发明实施例还提供了对所述初始频谱信息进行增益处理的可选流程，参考图8示出的本发明实施例所提供的所述根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理的一流程示意图，所述流程可以理解为步骤S13的可选实现。具体的，所述初始频谱信息包括多个初始帧，所述流程包括：

S41、基于所述用户的听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，得到与所述初始帧对应的增益帧。

可选的，所述初始帧中包括音素向量序列、分词标记向量序列和停止标记向量，结合所述听阈信息，进行增益处理，也就是说，基于所述听阈信息以及结合所述初始帧中的向量信息计算得到的增益帧，能够更好的适应用户的听力特征，提高后续合成语音的效果。

具体的，所述基于所述听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，参考图9，包括：

S411、根据所述用户的听阈信息，确定所述频谱增益处理的增益系数。

所述增益系数通过对所述听阈信息计算得到，作为所述频谱增益处理的依据，实现对所述初始频谱信息的每一初始帧进行适当的频谱增益处理。

具体的，所述根据所述听阈信息，确定所述频谱增益处理的增益系数，具体为：

其中，F_pt(f)为用户的听阈曲线，G₀为常量，G'_k为中间增益系数，G_k为增益系数，f_l为低频听阈值，f_h为高频听阈值。

可选的，所述f_l、f_h代表积分的左右边界，用于代表确定所述低频听阈值与所述高频听阈值之间的听阈曲线。

可选的，所述听阈信息用于代表听觉领域评价用户听力特征的标准，基于听阈信息确定所述频谱增益处理的增益系数的基础，为后续合成适合用户听力的语音提供可靠性。

S412、基于所述增益系数，对所述初始频谱信息的每一初始帧进行频谱增益处理。

具体的，所述增益系数通过基于用户的听阈信息得到，所述听阈信息用于衡量所述用户听力状况的标准；所述初始频谱信息中包括若干个初始帧，基于听阈信息对所述若干个初始帧的每一个初始帧均进行频谱增益处理，使得频谱增益后的初始帧，能够更好的适应用户的听力特征，为后续合成适应不同用户听力的语音提供可靠性。

S42、将所述增益帧合成为语言频谱信息。

所述增益帧即为初始帧经过频谱增益处理后得到，由于经过了频谱增益处理，则增益帧更好的适应用户的听力特征，则为后续合成适应不同用户听力的语音提供可靠性。

可选的，按照增益帧的顺序，和/或，级别生成语言频谱信息。

在进一步的可选实现中，基于得到所述语言频谱信息后，还包括：所述基于所述语言频谱信息，合成对应所述文本信息的语音。参考图10，所述基于所述语言频谱信息，合成对应所述文本信息的语音，包括：

S51、将所述语言频谱信息转化为音频片段。

所述音频片段可以用于代表所述语言频谱信息中的信息。

具体的，可以利用griffin-lim声码器将所述语言频谱信息转化为音频片段，在本发明其他可选的实施例中，也可以采用神经声码器将所述所述语言频谱信息转化为音频片段，本发明在这里不做任何限定。

S52、将所述音频片段合成为对应所述文本信息的语音。

在本发明一种可选的实现方式中，可以通过将所述音频片段拼接合成所述文本信息的语音，本发明在这里不做任何限定。

本发明实施例中将所述语言频谱信息转化成为音频片段，所述音频片段能够是使得所述合成语音的更贴近所述用户的听阈。

可见，本发明实施例公开了的一种语音合成方法中由于本发明实施例中所述语言频谱信息是根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理得到，使得发明实施例基于所述语音频谱信息合成的语音，能够适应该用户的听力特征，从而在针对不同用户时，生成适应不同用户听力特征的语音，因而能够满足不同用户的语音需求。

上文描述了本发明实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本发明实施例披露、公开的实施例方案。

下面对本发明实施例提供的语音合成装置进行介绍，下文描述的语音合成装置可以认为是语音合成装置为实现本发明实施例提供的语音合成方法所需设置的功能模块，下文描述的语音合成装置的内容可与上文描述的语音合成方法的内容相互对应参照。

作为一种可选实现，图11示出了本发明实施例提供的语音合成装置的一种可选框图，该语音合成装置可应用于语音合成设备，语音合成设备可以是终端设备，也可以是服务器设备；参照图11，该语音合成装置可以包括：

获取信息模块200，用于获取待合成的文本信息；

确定初始频谱信息模块210，用于基于所述文本信息，确定所述文本信息对应的初始频谱信息；

增益处理模块220，用于根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，得到所述文本信息的语言频谱信息，所述用户的听阈信息基于听阈测试得到；

合成语音模块230，用于基于所述语言频谱信息，合成对应所述文本信息的语音。

具体的，在本发明实施例公开的语音合成装置中，所述初始频谱信息可以包括多个初始帧；

所述增益处理模块，用于所述根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，可以具体包括：

基于所述用户的听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，得到与所述初始帧对应的增益帧；

将所述增益帧合成为语言频谱信息。

具体的，在本发明实施例公开的语音合成装置中，所述增益处理模块，用于所述基于所述用户的听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，可以具体包括：

根据所述用户的听阈信息，确定所述频谱增益处理的增益系数；

基于所述增益系数，对所述初始频谱信息的每一初始帧进行频谱增益处理。

具体的，在本发明实施例公开的语音合成装置中，所述增益处理模块，用于所述根据所述用户的听阈信息，确定所述频谱增益处理的增益系数，可以具体为：

具体的，在本发明实施例公开的语音合成装置中，所述确定初始频谱信息模块可以具体包括：

确定序列信息模块，用于确定文本信息对应的文本序列信息；

编码模块，用于基于所述文本序列信息进行编码，得到语言学编码特征；

解码模块，用于对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息。

具体的，在本发明实施例公开的语音合成装置中，所述确定序列信息模块可以具体包括：

确定序列模块，确定对应于文本信息的文本序列；

前端处理模块，对所述文本序列进行前端处理，指示所述文本信息发音特征的音素序列；

字符嵌入模块，用于对所述音素序列进行字符嵌入处理，得到所述文本序列信息。

具体的，在本发明实施例公开的语音合成装置，确定初始频谱信息模块还包括：

注意力机制模块，用于基于注意力机制处理所述语言学编码特征，确定所述语言学编码特征的关键语言学特征。

具体的，在本发明实施例公开的语音合成装置中，解码模块，用于所述对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息，可以具体包括：

对所述语言学编码特征的关键语言学特征进行解码，得到所述文本信息对应的初始频谱信息。

具体的，在本发明实施例公开的语音合成装置中，所述合成语音模块可以具体包括：

声码器，用于将所述语言频谱信息转化为音频片段；

合成语音子模块，用于将所述音频片段合成为对应所述文本信息的语音。

具体的，在本发明实施例公开的语音合成装置中，所述听阈测试为纯音音频测试。

本发明实施例还提供一种于语音合成设备，该语音合成设备可通过装载上述所述的语音合成装置，以实现本发明实施例提供的语音合成方法。可选的，该语音合成设备的一种可选硬件结构可以如图12所示，图12为本发明实施例提供的一种于语音合成设备的结构图，包括：至少一个处理器01，至少一个通信接口02，至少一个存储器03和至少一个通信总线04；

在本发明实施例中，处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信；

处理器01可能是中央处理器CPU，或者是特定集成电路ASIC（Application

Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器03可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

其中，存储器03存储有程序，处理器01调用存储器03所存储的程序，执行本发明实施例提供的语音合成方法。

本发明实施例还提供一种存储介质，该存储介质可以存储执行本发明实施

例提供的语音合成方法的程序。

可选的，所述程序可具体用于：

确定所述文本信息对应的初始频谱信息；

基于所述语言频谱信息，合成对应所述文本信息的语音。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音合成方法，其特征在于，包括：

确定所述文本信息对应的初始频谱信息；

基于所述语言频谱信息，合成对应所述文本信息的语音。

2.如权利要求1所述的语音合成方法，其特征在于，所述初始频谱信息包括多个初始帧；

所述根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，包括：

将所述增益帧合成为语言频谱信息。

3.如权利要求2所述的语音合成方法，其特征在于，所述基于所述用户的听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，包括：

4.如权利要求3所述的语音合成方法，其特征在于，所述根据所述用户的听阈信息，确定所述频谱增益处理的增益系数，具体为：

5.如权利要求1所述的语音合成方法，其特征在于，所述确定所述文本信息对应的初始频谱信息，包括：

确定所述文本信息对应的文本序列信息；

对所述文本序列信息进行编码，得到语言学编码特征；

对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息。

6.如权利要求5所述的语音合成方法，其特征在于，所述确定所述文本信息对应的文本序列信息，包括：

确定对应于所述文本信息的文本序列；

对所述文本序列进行前端处理，得到指示所述文本信息发音特征的音素序列；

对所述音素序列进行字符嵌入处理，得到所述文本序列信息。

7.如权利要求5所述的语音合成方法，其特征在于，所述对所述文本序列信息进行编码之后，所述对所述语言学编码特征进行解码之前，还包括：

基于注意力机制处理所述语言学编码特征，确定所述语言学编码特征的关键语言学特征。

8.如权利要求7所述的语音合成方法，其特征在于，所述对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息，包括：

9.如权利要求1所述的语音合成方法，其特征在于，所述基于所述语言频谱信息，合成对应所述文本信息的语音包括：

将所述语言频谱信息转化为音频片段；

将所述音频片段合成为对应所述文本信息的语音。

10.如权利要求1所述的语音合成方法，其特征在于，所述听阈测试为纯音音频测试。

11.一种语音合成装置，其特征在于，包括：

12.如权利要求11所述的语音合成装置，其特征在于，所述初始频谱信息包括多个初始帧；

所述增益处理模块，用于根据用户的听阈信息，对所述初始频谱信息进行频谱增益处理，包括：

将所述增益帧合成为语言频谱信息。

13.如权利要求12所述的语音合成装置，其特征在于，所述增益处理模块，用于基于所述用户的所述听阈信息，对所述初始频谱信息的每一初始帧进行频谱增益处理，包括：

14.如权利要求13所述的语音合成装置，其特征在于，所述增益处理模块，用于根据所述用户的听阈信息，确定所述频谱增益处理的增益系数，具体为：

15.如权利要求11所述的语音合成装置，其特征在于，所述确定初始频谱信息模块，用于确定所述文本信息对应的初始频谱信息，包括：

确定所述文本信息对应的文本序列信息；

基于所述文本序列信息进行编码，得到语言学编码特征；

16.如权利要求15所述的语音合成装置，其特征在于，所述确定初始频谱信息模块，用于确定所述文本信息对应的文本序列信息，包括：

确定对应于所述文本信息的文本序列；

17.如权利要求15所述的语音合成装置，其特征在于，所述确定初始频谱信息模块，用于对所述文本序列信息进行编码之后，对所述语言学编码特征进行解码之前，还包括：

18.如权利要求17所述的语音合成装置，其特征在于，所述确定初始频谱信息模块，用于对所述语言学编码特征进行解码，得到所述文本信息对应的初始频谱信息，包括：

19.如权利要求11所述的语音合成装置，其特征在于，所述合成语音模块，用于基于所述语言频谱信息，合成对应所述文本信息的语音包括：

将所述语言频谱信息转化为音频片段；

将所述音频片段合成为对应所述文本信息的语音。

20.如权利要求11所述的语音合成装置，其特征在于，所述听阈测试为纯音音频测试。

21.一种语音合成设备，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-10任一项所述的语音合成方法。

22.一种存储介质，所述存储介质存储有适于语音合成的程序，以实现如权利要求1-10任一项所述的语音合成方法。