CN116343749A

CN116343749A - 语音合成方法、装置、计算机设备及存储介质

Info

Publication number: CN116343749A
Application number: CN202310383438.1A
Authority: CN
Inventors: 郭洋; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-27

Abstract

本发明涉及语音合成领域，公开了一种语音合成方法、装置、计算机设备及存储介质，其方法通过获取待合成文本的文本特征序列，将文本特征序列输入预先训练的编码器进行编码，获得编码序列；将编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量；将注意力向量和注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列；将多个解码输出序列输入后滤波网络进行计算，生成语音梅尔谱；对语音梅尔谱进行波谱转换，获得待合成文本对应的合成语音。本发明语音合成时通过后滤波网络优化逐帧输出，在保证语音合成质量的同时实现流式语音合成，网络结构简单，参数量少，计算量小，时延低，应用场景广。

Description

语音合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音合成领域，尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

语音合成可以将计算机产生的或外部输入的文本信息转变为流利的语音输出。随着深度学习和计算机硬件技术的发展，语音合成的实现方式也发生了转变，从拼接法合成和基于统计参数模型合成转向了基于深度学习模型合成。

现有技术中，基于深度学习模型的语音合成流程由端到端声学模型和声码器构成。在端到端声学模型中，语言特征序列仅由字符或音素序列组成，输入语言特征序列，通过端到端声学模型预测对应的声学特征序列，再由声码器合成后获得特定采样率的音频波形。基于深度学习模型虽然可以整体简化文本到语音的转换流程，生成高质量的合成语音，但是端到端声学模型通常拥有大量参数，增加了模型计算复杂度，需要强大的图形处理器设备运行，应用场景受到限制。

端到端声学模型难以在小型通信设备(如移动电话、可穿戴设备和物联网设备等)上运行。因此，需要提供一种新的语音合成方法，以减小计算量。

发明内容

基于此，有必要针对上述技术问题，提供一种语音合成方法、装置、计算机设备及存储介质，以降低声学模型数据的计算量。

一种语音合成方法，包括：

获取待合成文本的文本特征序列，将所述文本特征序列输入预先训练的编码器进行编码，获得编码序列；

将所述编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量；

将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列；

将多个所述解码输出序列输入后滤波网络进行计算，生成语音梅尔谱；

对所述语音梅尔谱进行波谱转换，获得所述待合成文本对应的合成语音。

一种语音合成装置，包括：

编码计算模块，用于获取待合成文本的文本特征序列，将所述文本特征序列输入预先训练的编码器进行编码，获得编码序列；

注意力计算模块，用于将所述编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量；

解码计算模块，用于将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列；

梅尔谱生成模块，用于将多个所述解码输出序列输入后滤波网络进行计算，生成语音梅尔谱；

语音合成模块，用于对所述语音梅尔谱进行波谱转换，获得所述待合成文本对应的合成语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述语音合成方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述语音合成方法。

上述语音合成方法、装置、计算机设备及存储介质，通过获取待合成文本的文本特征序列，将文本特征序列输入预先训练的编码器进行编码，获得编码序列；将编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量；将注意力向量和注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列；将多个解码输出序列输入后滤波网络进行计算，生成语音梅尔谱；对语音梅尔谱进行波谱转换，获得待合成文本对应的合成语音。本发明利用分段卷积网络和门控循环单元网络作为后滤波网络进行优化，实现逐帧输出语音梅尔谱，与自回归类型声码器结合可实现流式声学模型的语音合成；后滤波网络的计算包括前后帧多个时间步结合，具有更低的计算时延。本发明提供的声学模型网络结构简单，参数量少，计算量小，通过后滤波网络逐帧输出，在保证语音合成质量的同时实现低延迟和流式语音合成，能更好地应用于未搭载图形处理器的小型设备。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音合成方法的一流程示意图；

图2是本发明一实施例中语音合成装置的一结构示意图；

图3是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一实施例中，如图1所示，提供一种语音合成方法，包括如下步骤S10-S50。

S10、获取待合成文本的文本特征序列，将所述文本特征序列输入预先训练的编码器进行编码，获得编码序列。

可理解地，语音合成包括文本处理、声学模型和语音分析合成三个阶段，其中待合成文本经过文本处理后生成文本特征序列；声学模型部分的输入是文本特征序列，输出是语音梅尔谱；语音梅尔谱经过波谱转换实现语音合成。本实施例的声学模型是基于编码器(Encoder)-注意力网络(Attention)-解码器(Decoder)的自回归结构，将文本特征序列输入编码器，编码器将指定长度的文本特征序列映射转换为隐状态的特征表示，获得编码序列。

S20、将所述编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量。

可理解地，编码器将文本特征序列转换为隐状态的特征表示，解码器使用隐状态的特征表示来预测语音梅尔谱图，注意力网络为编码器和解码器搭建起信息传递的桥梁。将编码器输出的编码序列输入到注意力网络之后，注意力网络的注意力机制将编码序列整合变换为定长的注意力上下文向量，并根据注意力上下文向量获得隐状态的梅尔谱特征作为注意力向量，将注意力向量和注意力上下文向量作为注意力网络的输出。

S30、将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列。

可理解地，注意力上下文向量整合了所有编码序列的信息，注意力向量为隐状态的梅尔谱特征，将注意力向量和注意力上下文向量输入解码器进行信息解码，获得解码输出序列。解码器是一个自回归的循环神经网络，一次一帧地预测输出梅尔谱图，一次记为一个时间步。循环神经网络(Recurrent Neural Network，RNN)是用于处理序列数据的神经网络，可以通过隐藏状态来储存前面时间的信息，隐藏状态可以理解为包括现有的输入和过去状态的总结。循环神经网络中上一时间步的隐藏层节点的输出会作为当前时间步的隐藏层节点的输入，使得可以保留之前的信息。

S40、将多个所述解码输出序列输入后滤波网络进行计算，生成语音梅尔谱。

可理解地，为了实现逐帧生成语音梅尔谱，在解码器的输出之后添加后滤波网络。在一具体实施例中，解码器经过多个时间步的解码后获得多个解码输出序列，通过分段卷积网络和门控循环单元网络对多个解码输出序列进行优化，逐帧获得语音梅尔谱特征，根据语音梅尔谱特征生成语音梅尔谱。

S50、对所述语音梅尔谱进行波谱转换，获得所述待合成文本对应的合成语音。

可理解地，在生成待合成文本对应的语音梅尔谱后，对语音梅尔谱进行波谱转换，将语音梅尔谱特征表达逆变换为时域波形样本，从而得到合成语音。在具体实施过程中，可以使用WaveNet来实现波谱转换，生成待合成文本对应的合成语音。

本实施例通过获取待合成文本的文本特征序列，将文本特征序列输入预先训练的编码器进行编码，获得编码序列；将编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量；将注意力向量和注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列；将多个解码输出序列输入后滤波网络进行计算，生成语音梅尔谱；对语音梅尔谱进行波谱转换，获得待合成文本对应的合成语音。本发明实施例利用分段卷积网络和门控循环单元网络作为后滤波网络进行优化，实现逐帧输出语音梅尔谱，与自回归类型声码器结合可实现流式声学模型的语音合成；后滤波网络的计算包括前后帧多个时间步结合，相比于传统方法具有更低的计算时延。本发明实施例通过后滤波网络逐帧输出，在保证语音合成质量的同时实现流式语音合成，网络结构简单，参数量少，计算量小，时延低，应用场景广，能更好地应用于未搭载图形处理器的小型设备。

可选的，步骤S10中，即所述获取待合成文本的文本特征序列，将所述文本特征序列输入预先训练的编码器进行编码，获得编码序列，包括：

S101、对所述待合成文本进行音素嵌入，获得所述文本特征序列；

S102、将所述文本特征序列输入所述编码器进行编码，获得所述编码序列；所述编码器包括：

其中，h_j表示第j个输出的编码序列；

L表示编码序列的个数；

j表示编码序列的计数符号；

encoder表示编码器；

x_j表示第j个输入的文本特征序列。

可理解地，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来划分，一个发音动作构成一个音素，例如“普通话”三个字是由3个音节，9个音素组成的。待合成文本可以是文字文本，也可以是拼音文本，当待合成文本时文字文本时，需要先将文字文本转换为对应的拼音文本，然后再对拼音文本进行音素嵌入。文本特征序列输入编码器后，编码器将指定长度的文本特征序列转换为固定长度的隐状态特征表示，获得编码序列。

本实施例通过音素嵌入，获得待合成文本对应的文本特征序列，通过将文本特征序列输入编码器，获得文本特征序列的隐状态特征作为编码序列，实现对文本特征序列的隐状态特征映射。

可选的，所述注意力网络为循环神经网络；步骤S20中，即所述将所述编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量，包括：

S201、获取上一时间步的注意力向量、上一时间步的解码输出序列和上一时间步的注意力上下文向量并输入所述注意力网络进行计算，获得当前时间步的注意力向量；所述注意力网络包括：

其中，s_i表示第i时间步的注意力向量；

T表示时间步的帧数；

i表示时间步的计数符号；

RNN_att表示注意力网络；

s_i-1表示第i-1时间步的注意力向量；

c_i-1表示第i-1时间步的注意力上下文向量；

d_i-1表示第i-1时间步的解码输出序列；

S202、获取所述编码序列对应的注意力权值，对所述编码序列和所述注意力权值进行加权平均计算，获得所述注意力上下文向量；所述加权平均计算包括：

其中，c_i表示第i时间步的注意力上下文向量；

j表示编码序列的计数符号；

a_i，j表示第j个输出的编码序列对应的第i时间步的注意力权值；

h_j表示第j个输出的编码序列。

可理解地，注意力网络为循环神经网络，循环神经网络中上一时间步的隐藏层节点的输出会作为当前时间步的隐藏层节点的输入，使得可以保留之前的信息。在一具体实施例中，上一时间步和当前时间步为相邻两个时间步，注意力计算发生在解码输出序列的每一时间步上，将上一时间步的注意力向量、上一时间步的解码输出序列和上一时间步的注意力上下文向量输入注意力网络进行计算，获得当前时间步的注意力向量，即隐状态的梅尔谱特征。注意力权值是每个输出的编码序列在概率分布取值区间的注意力分配概率数值。获取编码序列对应的注意力权值，基于注意力权值对编码序列进行加权平均计算，获得注意力上下文向量。再将得到的注意力向量和注意力上下文向量作为再下一个时间步的输入，循环执行计算，直至对整个编码序列完成注意力网络计算。在进行初始时间步计算时，可以将第0时间步的注意力向量赋值为零向量，也可以根据编码序列通过预设规则设置初始化的注意力向量；第0时间步的注意力上下文向量赋值为零向量；第0时间步的解码输出序列赋值为初始词向量<bos>，初始词向量表示序列的开始，可通过预设训练模型学习获得。

本实施例通过循环神经网络对注意力上下文向量和注意力向量进行计算，获得隐状态的梅尔谱特征作为注意力向量，并通过对编码序列进行计算，获得了包含编码序列信息的注意力上下文向量。

可选的，步骤S202中，即所述获取所述编码序列对应的注意力权值之前，包括：

S2021、通过预设的注意力机制对所述注意力向量进行计算，获得所述注意力权值；所述注意力机制包括：

其中，a_i表示第i时间步的注意力权值；

attentiob表示注意力机制。

可理解地，在获取编码序列对应的注意力权值之前，需要通过注意力机制计算获得注意力权值。注意力向量为隐状态的梅尔谱特征，注意力机制根据隐状态生成注意力权值，也即进行对齐处理。其中，注意力机制可以使用位置敏感的注意力机制，也可以使用基于内容的注意力机制、混合注意力机制或其他类型的注意力机制。在计算注意力上下文向量时，第j个输出的编码序列对应的第i时间步的注意力权值a_i,j，是基于第i时间步的注意力权值a_i进行分配获得。

本实施例注意力机制计算获得注意力权值，达到不同注意力机制下对编码序列进行不同概率的分配。

可选的，所述解码器为循环神经网络；步骤S30中，即所述将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列，包括：

S301、获取上一时间步的解码输出序列；

S302、将所述上一时间步的解码输出序列、当前时间步的注意力向量和当前时间步的注意力上下文向量输入所述解码器进行解码，获得当前时间步的解码输出序列；所述解码器包括：

d_i＝RNN_dec(d_i-1，c_i，s_i)

其中，d_i表示第i时间步的解码输出序列；

RNN_dec表示解码器；

d_i-1表示第i-1时间步的解码输出序列；

c_i表示第i时间步的注意力上下文向量；

s_i表示第i时间步的注意力向量。

可理解地，解码器为循环神经网络，循环神经网络中上一时间步的隐藏层节点的输出会作为当前时间步的隐藏层节点的输入，使得可以保留之前的信息。在一具体实施例中，上一时间步和当前时间步为相邻两个时间步，解码计算发生在解码输出序列的每一时间步上，将上一时间步的解码输出序列、当前时间步的注意力向量和当前时间步的注意力上下文向量输入解码器进行解码，获得解码输出序列。再将得到的解码输出序列作为再下一个时间步的输入，循环执行解码，直至对整个编码序列完成解码计算。

本实施例通过解码器对注意力向量和注意力上下文向量进行解码，获得解码输出序列，释放出注意力向量中隐状态的梅尔谱特征和注意力上下文向量的编码序列信息，即对文本特征序列的隐状态特征进行解码分析。

可选的，所述后滤波网络包括分段卷积网络和门控循环单元网络；步骤S40中，即所述将多个所述解码输出序列输入后滤波网络进行计算，生成语音梅尔谱，包括：

S401、将多个所述解码输出序列输入所述分段卷积网络进行计算，获得卷积输出；所述分段卷积网络包括：

其中，

表示第i时间步的卷积输出；

Seg表示分段卷积网络；

d_i-p表示第i-p时间步的解码输出序列；

d_i+n表示第i+n时间步的解码输出序列；

S402、将所述卷积输出输入所述门控循环单元网络进行计算，获得所述语音梅尔谱；所述门控循环单元网络包括：

其中，y_i表示第i时间步的语音梅尔谱；

GRU表示门控循环单元网络。

可理解地，后滤波网络包括一层分段卷积网络和一层门控循环单元网络，由于解码器根据时间步逐帧进行解码，在解码完成之前不可能获得未解码帧的信息，因此通过分段卷积网络合并多个已解码帧和未解码帧的解码输出序列获得卷积输出，并通过门控循环单元网络对卷积输出进行优化，获得语音梅尔谱。在一具体实施例中，i为当前时间步，p为5，n为3，将当前时间步之前的5个解码输出序列和当前时间步之后的3个解码输出序列输入分段卷积网络进行计算，获得当前时间步的卷积输出，再通过门控循环单元网络对当前时间步的卷积输出进行优化，获得当前时间步的语音梅尔谱，即逐帧输出语音梅尔谱。此时，计算时延为3，不需要对全部时间步Tt的解码输出序列进行计算。

本实施例将一层分段卷积网络和一层门控循环单元网络作为后滤波网络，网络结构简单，参数量少，计算量小；后滤波网络的计算不仅包括当前时间步之后的n个时间步，还包括当前时间步之前的p个时间步，计算时延n帧远远小于T帧，在保证语音合成质量的同时可实现低延迟。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音合成装置，该语音合成装置与上述实施例中语音合成方法一一对应。如图2所示，该语音合成装置包括编码计算模块10、注意力计算模块20、解码计算模块30、梅尔谱生成模块40和语音合成模块50。各功能模块详细说明如下：

编码计算模块10，用于获取待合成文本的文本特征序列，将所述文本特征序列输入预先训练的编码器进行编码，获得编码序列；

注意力计算模块20，用于将所述编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量；

解码计算模块30，用于将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列；

梅尔谱生成模块40，用于将多个所述解码输出序列输入后滤波网络进行计算，生成语音梅尔谱；

语音合成模块50，用于对所述语音梅尔谱进行波谱转换，获得所述待合成文本对应的合成语音。

可选的，编码计算模块10包括：

音素嵌入单元，用于对所述待合成文本进行音素嵌入，获得所述文本特征序列；

编码计算单元，用于将所述文本特征序列输入所述编码器进行编码，获得所述编码序列；所述编码器包括：

其中，h_j表示第j个输出的编码序列；

L表示编码序列的个数；

j表示编码序列的计数符号；

encoder表示编码器；

x_j表示第j个输入的文本特征序列。

可选的，注意力计算模块20包括：

注意力向量计算单元，用于获取上一时间步的注意力向量、上一时间步的解码输出序列和上一时间步的注意力上下文向量并输入所述注意力网络进行计算，获得当前时间步的注意力向量；所述注意力网络包括：

其中，s_i表示第i时间步的注意力向量；

T表示时间步的帧数；

i表示时间步的计数符号；

RNN_att表示注意力网络；

s_i-1表示第i-1时间步的注意力向量；

c_i-1表示第i-1时间步的注意力上下文向量；

d_i-1表示第i-1时间步的解码输出序列；

注意力上下文向量计算单元，用于获取所述编码序列对应的注意力权值，对所述编码序列和所述注意力权值进行加权平均计算，获得所述注意力上下文向量；所述加权平均计算包括：

其中，c_i表示第i时间步的注意力上下文向量；

j表示编码序列的计数符号；

h_j表示第j个输出的编码序列。

可选的，注意力计算模块20还包括：

注意力权值计算单元，用于通过预设的注意力机制对所述注意力向量进行计算，获得所述注意力权值；所述注意力机制包括：

其中，a_i表示第i时间步的注意力权值；

attenti0n表示注意力机制。

可选的，解码计算模块30包括：

解码输出序列获取单元，用于获取上一时间步的解码输出序列；

解码计算单元，用于将所述上一时间步的解码输出序列、当前时间步的注意力向量和当前时间步的注意力上下文向量输入所述解码器进行解码，获得当前时间步的解码输出序列；所述解码器包括：

d_i＝RNN_dec(d_i-1，c_i，s_i)

其中，d_i表示第i时间步的解码输出序列；

RNN_dec表示解码器；

d_i-1表示第i-1时间步的解码输出序列；

c_i表示第i时间步的注意力上下文向量；

s_i表示第i时间步的注意力向量。

可选的，梅尔谱生成模块40包括：

分段卷积计算单元，用于将多个所述解码输出序列输入所述分段卷积网络进行计算，获得卷积输出；所述分段卷积网络包括：

其中，

表示第i时间步的卷积输出；

Seg表示分段卷积网络；

d_i-p表示第i-p时间步的解码输出序列；

d_i+n表示第i+n时间步的解码输出序列；

门控循环计算单元，用于将所述卷积输出输入所述门控循环单元网络进行计算，获得所述语音梅尔谱；所述门控循环单元网络包括：

其中，y_i表示第i时间步的语音梅尔谱；

GRU表示门控循环单元网络。

关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储语音合成方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音合成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

2.如权利要求1所述的语音合成方法，其特征在于，所述获取待合成文本的文本特征序列，将所述文本特征序列输入预先训练的编码器进行编码，获得编码序列，包括：

对所述待合成文本进行音素嵌入，获得所述文本特征序列；

将所述文本特征序列输入所述编码器进行编码，获得所述编码序列；所述编码器包括：

其中，h_j表示第j个输出的编码序列；

L表示编码序列的个数；

j表示编码序列的计数符号；

encoder表示编码器；

x_j表示第j个输入的文本特征序列。

3.如权利要求1所述的语音合成方法，其特征在于，所述注意力网络为循环神经网络；

所述将所述编码序列输入预先训练的注意力网络进行计算，获得注意力向量和注意力上下文向量，包括：

获取上一时间步的注意力向量、上一时间步的解码输出序列和上一时间步的注意力上下文向量并输入所述注意力网络进行计算，获得当前时间步的注意力向量；所述注意力网络包括：

其中，s_i表示第i时间步的注意力向量；

T表示时间步的帧数；

i表示时间步的计数符号；

RNN_att表示注意力网络；

s_i-1表示第i-1时间步的注意力向量；

c_i-1表示第i-1时间步的注意力上下文向量；

d_i-1表示第i-1时间步的解码输出序列；

获取所述编码序列对应的注意力权值，对所述编码序列和所述注意力权值进行加权平均计算，获得所述注意力上下文向量；所述加权平均计算包括：

其中，c_i表示第i时间步的注意力上下文向量；

j表示编码序列的计数符号；

a_i,j表示第j个输出的编码序列对应的第i时间步的注意力权值；

h_j表示第j个输出的编码序列。

4.如权利要求3所述的语音合成方法，其特征在于，所述获取所述编码序列对应的注意力权值之前，包括：

通过预设的注意力机制对所述注意力向量进行计算，获得所述注意力权值；所述注意力机制包括：

其中，a_i表示第i时间步的注意力权值；

attention表示注意力机制。

5.如权利要求1所述的语音合成方法，其特征在于，所述解码器为循环神经网络；

所述将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码，获得解码输出序列，包括：

获取上一时间步的解码输出序列；

将所述上一时间步的解码输出序列、当前时间步的注意力向量和当前时间步的注意力上下文向量输入所述解码器进行解码，获得当前时间步的解码输出序列；所述解码器包括：

d_i＝RNN_dec(d_i-1,c_i,s_i)

其中，d_i表示第i时间步的解码输出序列；

RNN_dec表示解码器；

d_i-1表示第i-1时间步的解码输出序列；

c_i表示第i时间步的注意力上下文向量；

s_i表示第i时间步的注意力向量。

6.如权利要求1所述的语音合成方法，其特征在于，所述后滤波网络包括分段卷积网络和门控循环单元网络；

所述将多个所述解码输出序列输入后滤波网络进行计算，生成语音梅尔谱，包括：

将多个所述解码输出序列输入所述分段卷积网络进行计算，获得卷积输出；所述分段卷积网络包括：

其中，

表示第i时间步的卷积输出；

Seg表示分段卷积网络；

d_i-p表示第i-p时间步的解码输出序列；

d_i+n表示第i+n时间步的解码输出序列；

将所述卷积输出输入所述门控循环单元网络进行计算，获得所述语音梅尔谱；所述门控循环单元网络包括：

其中，y_i表示第i时间步的语音梅尔谱；

GRU表示门控循环单元网络。

7.一种语音合成装置，其特征在于，包括：

8.如权利要求7所述的语音合成装置，其特征在于，所述编码计算模块包括：

其中，h_j表示第j个输出的编码序列；

L表示编码序列的个数；

j表示编码序列的计数符号；

encoder表示编码器；

x_j表示第j个输入的文本特征序列。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述语音合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至6中任一项所述语音合成方法。