CN111816158A

CN111816158A - 一种语音合成方法及装置、存储介质

Info

Publication number: CN111816158A
Application number: CN201910878228.3A
Authority: CN
Inventors: 武执政; 宋伟
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-10-23
Anticipated expiration: 2039-09-17
Also published as: JP2022539914A; CN111816158B; JP7238204B2; KR102584299B1; US20220270587A1; WO2021051765A1; KR20220054655A

Abstract

本发明实施例公开了一种语音合成方法及装置、存储介质，该方法包括：获取待合成语句的符号序列，待合成语句包括表征目标对象的录音语句和针对目标对象的查询结果语句；利用预设编码模型，对符号序列进行编码处理，得到特征向量集合；获取录音语句对应的录音声学特征；基于预设解码模型、特征向量集合、预设注意力模型和录音声学特征，对待合成语句对应的声学特征进行预测，得到待合成语句对应的预测声学特征，预设注意力模型为利用特征向量集合生成用于解码的上下文向量的模型，预测声学特征由相关联的至少一个声学特征组成；对预测声学特征进行特征转换和合成，得到待合成语句对应的语音。

Description

一种语音合成方法及装置、存储介质

技术领域

本发明实施例涉及电子应用领域中的语音处理技术，尤其涉及一种语音合成方法及装置、存储介质。

背景技术

目前，语音合成技术被应用在很多智能设备中，例如，智能音箱、电话外呼系统和叫号系统，智能设备接收到用户发出的针对目标对象的查询请求后，根据查询请求生成表示目标对象和查询结果的待合成语句，再将待合成语句转换成完整语音并播放，以告知用户关于目标对象的查询结果；在将待合成语句转换为完整语音时，对于待合成语句中的固定不变的目标对象，会提前录制目标对象的录音，对于待合成语句中的动态更新的查询结果，通过语音合成方式合成查询结果对应的合成语音，再将录音和合成语音进行拼接，得到待合成语句的完整语音。

然而，由于生成录音的过程和生成合成语音的过程是独立的，则录音和合成语音的语速、音调等存在不一样，这样会导致由录音和合成语音组合的完整语音的韵律不一致，进而导致录音和合成语音之间的过度时长也存在不确定性，语音质量不好。

发明内容

本发明的主要目的在于提出一种语音合成方法及装置、存储介质，实现合成的语音的韵律一致，提高了合成的语音的质量。

本发明的技术方案是这样实现的：

本发明实施例提供了一种语音合成方法，所述方法包括：

获取待合成语句的符号序列，所述待合成语句包括表征目标对象的录音语句和针对所述目标对象的查询结果语句；

利用预设编码模型，对所述符号序列进行编码处理，得到特征向量集合；

获取所述录音语句对应的录音声学特征；

基于预设解码模型、所述特征向量集合、预设注意力模型和所述录音声学特征，对所述待合成语句对应的声学特征进行预测，得到所述待合成语句对应的预测声学特征，所述预设注意力模型为利用所述特征向量集合生成用于解码的上下文向量的模型，所述预测声学特征由相关联的至少一个声学特征组成；

对所述预测声学特征进行特征转换和合成，得到所述待合成语句对应的语音。

上述方案中，所述基于预设解码模型、所述特征向量集合、预设注意力模型和所述录音声学特征，对所述待合成语句对应的声学特征进行预测，得到所述待合成语句对应的预测声学特征，包括：

当i等于1时，在第i个解码时刻，获取初始声学特征，基于所述初始声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第1个声学特征，i为大于0的整数；

在i大于1的情况下，当所述第i个解码时刻为所述录音语句的解码时刻时，从所述录音声学特征中取出第j帧声学特征，将所述第j帧声学特征作为第i-1帧声学特征，基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征，j为大于0的整数；

当所述第i个解码时刻为所述查询结果语句的解码时刻时，将第i-1个声学特征中的一帧声学特征作为第i-1帧声学特征，基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征；

继续执行第i+1个解码时刻的预测过程，直至所述待合成语句解码结束，得到第n个声学特征，n为所述待合成语句的解码时刻的总帧数、且为大于1的整数；

将得到的所述第i个声学特征至所述第n个声学特征，作为所述预测声学特征。

上述方案中，所述预设解码模型包括第一循环神经网络和第二循环神经网络；所述基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征，包括：

对所述第i-1帧声学特征进行非线性变化，得到中间特征向量；

利用所述第一循环神经网络，对所述中间特征向量进行矩阵运算和非线性变换，得到第i个中间隐变量；

利用所述预设注意力模型，对所述特征向量集合和所述第i个中间隐变量进行上下文向量计算，得到第i个上下文向量；

利用所述第二循环神经网络，对所述第i个上下文向量和所述第i个中间隐变量进行矩阵运算和非线性变换，得到第i个隐变量；

按照预设帧数，对所述第i个隐变量进行线性变换，得到所述第i个声学特征。

上述方案中，所述特征向量集合包括所述符号序列中每个符号对应的特性向量；所述利用所述预设注意力模型，对所述特征向量集合和所述第i个中间隐变量进行上下文向量计算，得到第i个上下文向量，包括：

利用所述预设注意力模型，对所述符号序列中每个符号对应的特征向量和所述第i个中间隐变量进行注意力计算，得到第i组注意力数值；

根据所述第i组注意力数值，对所述特征向量集合进行加权求和，得到所述第i个上下文向量。

上述方案中，在所述基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征之后，所述继续执行第i+1个解码时刻的预测过程之前，所述方法还包括：

从所述第i组注意力数值中确定最大注意力数值对应的第i个目标符号；

当所述第i个目标符号为所述录音语句的非结束符号时，确定所述第i+1个解码时刻为所述录音语句的解码时刻；

和/或，当所述第i个目标符号为所述查询结果语句的非结束符号时，确定所述第i+1个解码时刻为所述查询结果语句的解码时刻；

和/或，当所述第i个目标符号为所述录音语句的结束符号、且所述录音语句的结束符号不是所述待合成语句的结束符号时，确定所述第i+1个解码时刻为所述查询结果语句的解码时刻；

和/或，当所述第i个目标符号为所述查询结果语句的结束符号、且所述查询结果语句的结束符号不是所述待合成语句的结束符号时，确定所述第i+1个解码时刻为所述录音语句的解码时刻；

和/或，当所述第i个目标符号为所述待合成语句的结束符号时，确定所述第i+1个解码时刻为所述待合成语句的解码结束时刻。

上述方案中，所述利用预设编码模型，对所述符号序列进行编码处理，得到特征向量集合，包括：

利用所述预设编码模型，对所述符号序列进行向量转换，得到初始特征向量集合；

对所述初始特征向量集合进行非线性变化和特征提取，得到所述特征向量集合。

上述方案中，所述对所述预测声学特征进行特征转换和合成，得到所述待合成语句对应的语音，包括：

对所述预测声学特征进行特征转换，得到线性谱；

对所述线性谱进行重建合成，得到所述语音。

上述方案中，所述符号序列为字母序列或音素序列。

上述方案中，在所述获取待合成语句的符号序列之前，所述方法还包括：

获取至少一个样本合成语句各自对应的样本符号序列，所述每个样本合成语句表征样本对象和针对所述样本对象的参考查询结果；

获取初始语音合成模型、初始声学特征和所述样本合成语句对应的样本声学特征；所述初始语音合成模型为用于编码处理和预测的模型；

利用所述样本符号序列、所述初始声学特征和所述样本声学特征，对所述初始语音合成模型进行训练，得到所述预设编码模型、所述预设解码模型和所述预设注意力模型。

本发明实施例提供了一种语音合成装置，所述装置包括：序列生成模块、语音合成模块和获取模块；其中，

所述序列生成模块，用于获取待合成语句的符号序列，所述待合成语句包括表征目标对象的录音语句和针对所述目标对象的查询结果语句；

所述语音合成模块，用于利用预设编码模型，对所述符号序列进行编码处理，得到特征向量集合；

所述获取模块，用于获取所述录音语句对应的录音声学特征；

所述语音合成模块，还用于基于预设解码模型、所述特征向量集合、预设注意力模型和所述录音声学特征，对所述待合成语句对应的声学特征进行预测，得到所述待合成语句对应的预测声学特征，所述预设注意力模型为利用所述特征向量集合生成用于解码的上下文向量的模型，所述预测声学特征由相关联的至少一个声学特征组成；以及对所述预测声学特征进行特征转换和合成，得到所述待合成语句对应的语音。

上述方案中，所述语音合成模块，具体用于当i等于1时，在第i个解码时刻，获取初始声学特征，基于所述初始声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第1个声学特征，i为大于0的整数；

及在i大于1的情况下，当所述第i个解码时刻为所述录音语句的解码时刻时，从所述录音声学特征中取出第j帧声学特征，将所述第j帧声学特征作为第i-1帧声学特征，基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征，j为大于0的整数；

及当所述第i个解码时刻为所述查询结果语句的解码时刻时，将第i-1个声学特征中的一帧声学特征作为第i-1帧声学特征，基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征；

及继续执行第i+1个解码时刻的预测过程，直至所述待合成语句解码结束，得到第n个声学特征，n为所述待合成语句的解码时刻的总帧数、且为大于1的整数；

以及将得到的所述第i个声学特征至所述第n个声学特征，作为所述预测声学特征。

上述方案中，所述预设解码模型包括第一循环神经网络和第二循环神经网络；

所述语音合成模块，具体用于对所述第i-1帧声学特征进行非线性变化，得到中间特征向量；及利用所述第一循环神经网络，对所述中间特征向量进行矩阵运算和非线性变换，得到第i个中间隐变量；及利用所述预设注意力模型，对所述特征向量集合和所述第i个中间隐变量进行上下文向量计算，得到第i个上下文向量；及利用所述第二循环神经网络，对所述第i个上下文向量和所述第i个中间隐变量进行矩阵运算和非线性变换，得到第i个隐变量；以及按照预设帧数，对所述第i个隐变量进行线性变换，得到所述第i个声学特征。

上述方案中，所述特征向量集合包括所述符号序列中每个符号对应的特性向量；

所述语音合成模块，具体用于利用所述预设注意力模型，对所述符号序列中每个符号对应的特征向量和所述第i个中间隐变量进行注意力计算，得到第i组注意力数值；以及根据所述第i组注意力数值，对所述特征向量集合进行加权求和，得到所述第i个上下文向量。

上述方案中，所述语音合成模块，还用于在所述基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征之后，所述继续执行第i+1个解码时刻的预测过程之前，从所述第i组注意力数值中确定最大注意力数值对应的第i个目标符号；

及当所述第i个目标符号为所述录音语句的非结束符号时，确定所述第i+1个解码时刻为所述录音语句的解码时刻；

上述方案中，所述语音合成模块，具体用于对所述符号序列进行向量转换，得到初始特征向量集合；以及对所述初始特征向量集合进行非线性变化和特征提取，得到所述特征向量集合。

上述方案中，所述语音合成模块，具体用于对所述预测声学特征进行特征转换，得到线性谱；以及对所述线性谱进行重建合成，得到所述语音。

上述方案中，所述符号序列为字母序列或音素序列。

上述方案中，所述装置还包括：训练模块；

所述训练模块，用于在所述获取待合成语句的符号序列之前，获取至少一个样本合成语句各自对应的样本符号序列，所述每个样本合成语句表征样本对象和针对所述样本对象的参考查询结果；及获取初始语音合成模型、初始声学特征和所述样本合成语句对应的样本声学特征；所述初始语音合成模型为用于编码处理和预测的模型；以及利用所述样本符号序列、所述初始声学特征和所述样本声学特征，对所述初始语音合成模型进行训练，得到所述预设编码模型、所述预设解码模型和所述预设注意力模型。

本发明实施例提供了一种语音合成装置，所述装置包括：处理器、存储器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的一个或者多个程序，当所述一个或者多个程序被执行时，通过所述处理器执行如上述任一项语音合成方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被至少一个处理器执行时，导致所述至少一个处理器执行如上述任一项语音合成方法的步骤。

本发明实施例提供一种语音合成方法及装置、存储介质，采用上述技术实现方案，基于预设解码模型、特征向量集合、预设注意力模型和录音声学特征，预测得到待合成语句对应的预测声学特征，由于待合成语句包括录音语句和查询结果语句，也就是说，对于录音语句和查询结果语句，都是预测得到对应的预测声学特征，并且预测声学特征由相关联的多个声学特征组成，解决了录音和合成语音的语速、音调等不一样的问题，如此，利用预测声学特征得到的语音韵律一致；其次，对待合成语句对应的预测声学特征进行特征转换和合成得到语音，避免了拼接录音和合成语音时存在的过度时长不确定性的问题，提高了合成的语音的质量。

附图说明

图1为本发明实施例提供的一种语音合成装置的结构示意图一；

图2为本发明实施例提供的一种Tacotron模型的结构示意图；

图3为本发明实施例提供的一种语音合成方法的流程图一；

图4为本发明实施例提供的一种语音合成方法的流程图二；

图5为本发明实施例提供的一种音素序列和注意力数值的对应关系示意图；

图6为本发明实施例提供的一种语音合成装置的结构示意图二；

图7为本发明实施例提供的一种语音合成装置的结构示意图三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

下面参见图1，其为实现本发明各个实施例的一种语音合成装置1的示意图，该装置1可以包括：序列生成模块11、语音合成模块12和播放模块13，序列生成模块11接收用户发出的针对目标对象的查询请求，根据查询请求确定待合成语句，待合成语句为关于目标对象的查询结果的文本，将待合成语句的符号序列传输至语音合成模块12；语音合成模块12对符号序列进行语音合成，得到待合成语音对应的语音，将语音传输至播放模块13；播放模块13播放语音。

在一些实施例中，语音合成模块12为由注意力模型和编码器-解码器(Encoder-Decoder)模型搭建的模块，例如，语音合成模块12为Tacotron模型，Tacotron模型是一个基于深度学习的从文本到语音(TTS，Text to speech)模型，如图2所示，Tacotron模型主要包括编码模型21、注意力(Attention)模型22和解码模型23，编码模型21包括字符嵌入模型211、Pre-net模型212和CBHG模型213，解码模型23包括Pre-net模型231、第一循环神经网络(RNN，Recurrent Neural Network)232、第二循环神经网络233、线性转换模型234、CBHG模型235和语音重建模型236；其中，CBHG模型213和CBHG模型235的结构相同，都由卷积集合(convolution bank)、高速路神经网络(highway network)和门循环单元(GRU，GatedRecurrent Unit)组成；语音重建模型236包括采用Griffin-Lim算法生成的模型。

示例性地，Tacotron模型接收到待合成语句的符号序列，开始执行编码过程，如下：字符嵌入模型211对符号序列进行向量转换，得到转换后的向量集合，将转换后的向量集合传输至Pre-net模型212；Pre-net模型212对转换后的向量集合进行非线性变化，得到中间特征向量集合，将中间特征向量集合传输至CBHG模型213；CBHG模型213对中间特性向量集合进行一系列矩阵运算和非线性变换，得到特征向量集合，编码结束。

进一步地，编码过程结束后，开始执行预测过程，如下：在当前个解码时刻，Pre-net模型231对当前帧声学特征进行非线性变换，得到中间特征向量，将中间特征向量传输至第一循环神经网络232；第一循环神经网络232对中间特征向量进行一系列矩阵运算和非线性变换，得到当前个中间隐变量(隐状态，Hidden State)，将当前个中间隐变量传输至注意力模型22和第二循环神经网络233，第一循环神经网络232还保存当前个中间隐变量，用于在下一帧界面时刻使用；注意力模型22对当前个中间隐变量和编码得到的特征向量集合进行上下文向量计算，得到当前个上下文向量，将当前个上下文向量传输至第二循环神经233；第二循环神经网络233对当前上下文向量和当前个中间隐状态进行一系列矩阵运算和非线性变换，得到当前个隐变量，将当前个隐变量传输至线性转换模型234；线性转换模型234对当前个隐变量进行线性变换，得到当前个声学特征，将当前个声学特征传输至CBHG模型235；继续执行下一个解码时刻的预测过程，直至待合成语句解码结束，得到最后一个声学特征；CBHG模型235对第一个声学特征至最后一个声学特征都进行特征转换，得到线性谱，将线性谱传输至语音重建模型236；语音重建模型236对线性谱进行重建合成，生成语音。

需要说明的是，图2中的虚线表示，在预测过程中，解码模型23可以采用自回归方式执行预测过程，即将当前个解码时刻得到的当前个声学特征中的一帧声学特征，作为下一个解码时刻的输入；也可以不采用自回归方式执行预测过程，即下一个解码时刻的输入不是当前个解码时刻得到的前个声学特征中的一帧声学特征；图2中仅以三个解码时刻为例进行说明，本发明实施例不对解码时刻进行限制。

本领域技术人员可以理解，图1或图2中示出的语音合成装置的结构并不构成对语音合成装置的限定，语音合成装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

需要说明的是，本发明实施例可以基于图1或图2所示的语音合成装置所实现，下面基于图1或图2进行语音合成具体实施例的说明。

实施例一

本发明实施例提供一种语音合成方法，如图3所示，该方法包括：

S301、获取待合成语句的符号序列，待合成语句包括表征目标对象的录音语句和针对目标对象的查询结果语句；

语音合成装置接收到针对目标对象的查询请求时，根据查询请求生成待合成语句，再获取待合成语句的符号序列，符号序列为字母序列或音素序列。

在一些实施例中，语音合成装置通过以下一种方式获取查询结果信息：从查询请求中获取查询结果信息，根据查询请求从存储模块中获取查询结果信息，通过向外部设备请求获得查询结果信息；再对查询结果信息中的文本进行整理，得到查询结果语句；另外，还从预设录音语句库中获取与目标对象匹配的录音语句；按照话术模式，对查询结果语句和录音语句进行拼接，得到待合成语句，进而生成待合成语句的符号序列。

在一些实施例中，预设录音语句库存储有一一对应的录音、录音语句和录音梅尔谱；在步骤S301之前，语音合成装置预先对每个录音按帧提取出至少一帧梅尔谱，将录音、录音语句和至少一帧梅尔谱对应保存在预设录音语句库中，一帧的时长可以为10ms或15ms。

在一些实施例中，话术模式主要分为三种：一是，查询结果语句位于录音语句的中间位置，例如，尊敬的某先生，“某”为查询结果语句；二是，查询结果语句位于录音语句的结束位置，例如，北京今天天气晴转多云，“晴转多云”为查询结果语句；三是，查询结果语句位于录音语句的开头位置，例如，某某这首歌，“某某”为查询结果语句。

在一些实施例中，待合成语句中的录音语句分为第一子录音语句和第二子录音语句，第一子录音语句位于第二子录音语句之前。

示例性地，以语音合成装置为智能音箱为例，用户发出北京今天什么天气的查询请求，智能音箱向天气查询设备发送查询北京今天天气的请求，接收天气查询设备返回的包括晴转对云的查询结果信息，将晴转多云作为查询结果语句；智能音箱还从预设录音语句库中获取北京今天天气的录音语句；拼接得到待合成语句为北京今天天气晴转多云。

在一些实施例中，按照待合成语句的发音顺序，生成待合成语句的音素序列；或者，按照待合成语句的字母拼写顺序，生成待合成语句的字母序列。

示例性地，待合成语句为HelloEverybody时，对应的字母序列为{h，e，l，l，o，e，v，e，r，y，b，o，d，y}。

S302、利用预设编码模型，对符号序列进行编码处理，得到特征向量集合；

语音合成装置中的编码模型对符号序列进行编码处理，得到特征向量集合，特征向量集合由符号序列中每个符号的特征向量组成，编码模型就是预设编码模型。

在一些实施例中，语音合成装置对符号序列进行向量转换，得到初始特征向量集合；对初始特征向量集合进行非线性变化和特征提取，得到特征向量集合。

语音合成装置将符号序列中每个符号转换为向量，得到初始特征向量集合，进而得到特征向量集合。

S303、获取录音语句对应的录音声学特征；

语音合成装置从预设录音语句库中，获取录音语句对应的录音声学特征；其中，录音声学特征为该录音语句对应的至少一帧梅尔谱。

在一些实施例中，录音声学特征表征按照录音语句的符号序列的顺序进行排序的多帧声学特征。

S304、基于预设解码模型、特征向量集合、预设注意力模型和录音声学特征，对待合成语句对应的声学特征进行预测，得到待合成语句对应的预测声学特征，预设注意力模型为利用特征向量集合生成用于解码的上下文向量的模型，预测声学特征由相关联的至少一个声学特征组成；

语音合成装置通过预设解码模型和预设注意力模型，对待合成语句对应的声学特征进行预测，得到预测声学特征；在预测过程中，预设解码模型还可以从录音声学特征中取出一帧声学特征，将其作为预测过程的输入；其中，预设解码模型就是解码模型，预设注意力模型就是注意力模型。

在一些实施例中，语音合成装置当i等于1时，在第i个解码时刻，获取初始声学特征，基于初始声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第1个声学特征，i为大于0的整数；在i大于1的情况下，当第i个解码时刻为录音语句的解码时刻时，从录音声学特征中取出第j帧声学特征，将第j帧声学特征作为第i-1帧声学特征，基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征，j为大于0的整数；当第i个解码时刻为查询结果语句的解码时刻时，将第i-1个声学特征中的一帧声学特征作为第i-1帧声学特征，基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征；继续执行第i+1个解码时刻的预测过程，直至待合成语句解码结束，得到第n个声学特征，n为所述待合成语句的解码时刻的总帧数、且为大于1的整数；将得到的第i个声学特征至第n个声学特征，作为预测声学特征。

语音合成装置取i为1，在第1个解码时刻，从预设录音语句库中获取初始声学特征，初始声学特征为一帧声学特征；将初始声学特征和特征向量集合作为输入，利用预设解码模型和预设注意力模型，预测第1个声学特征；再取i为2，从第2个解码时刻开始，先判断第2个解码时刻的类型，类型包括录音语句的解码时刻、查询结果语句的解码时刻、以及待合成语句的解码结束时刻；根据第2个解码时刻的类型取出第1帧声学特征，将第1帧声学特征作为输入，利用预设解码模型、特征向量集合和预设注意力模型，预测第2个声学特征；继续判断第3个解码时刻的类型，直至待合成语句解码结束。

在一些实施例中，语音合成装置可以设置大小为一帧的全0向量，为初始声学特征。

需要说明的是，考虑到录音语句存在从真人录音中提取出的录音声学特征，通过判断第i个解码时刻的类型，确定出为录音语句的解码时刻时，可以从录音声学特征中取出一帧声学特征，用于预测第i个声学特征，由于是利用真人录音中的一帧声学特征来预测，得到的第i个声学特征对应的音质更真实。

在一些实施例中，第i个声学特征至第n个声学特征中的每个声学特征包括一帧声学特征或至少两帧声学特征，第i个声学特征对应声学特征的帧数可以设置，至少两帧声学特征为非重叠的、时间连续的多帧声学特征，如此，在每一个解码时刻预测多帧声学特征，可以减少解码时长和降低解码模型的复杂度。

在一些实施例中，可以将第i-1个声学特征中的最后一帧声学特征，作为第i-1帧声学特征；相应地，第i个声学特征包括k帧声学特征，j取值为k*(i-1)，k为每个声学特征对应的总帧数，k为大于0的正整数。

示例性地，当k＝3时，j取值为3、6、9…。

在一些实施例中，语音合成装置在第i个解码时刻的预测过程中，从录音声学特征中取出第k*i帧声学特征，将第k*i帧声学特征作为第i-1帧声学特征；在第i+1个解码时刻的预测过程中，从录音声学特征中取出第k*(i+1)帧声学特征，将第k*(i+1)帧声学特征作为第i帧声学特征；其中，第k*i帧声学特征和第k*(i+1)帧声学特征按照符合录音语句的符号序列的顺序，取出的声学特征。

在一些实施例中，预设解码模型包括第一循环神经网络和第二循环神经网络；语音合成装置对第i-1帧声学特征进行非线性变化，得到中间特征向量；利用第一循环神经网络，对中间特征向量进行矩阵运算和非线性变换，得到第i个中间隐变量；利用预设注意力模型，对特征向量集合和第i个中间隐变量进行上下文向量计算，得到第i个上下文向量；利用第二循环神经网络，对第i个上下文向量和第i个中间隐变量进行矩阵运算和非线性变换，得到第i个隐变量；按照预设帧数，对第i个隐变量进行线性变换，得到第i个声学特征。

语音合成装置在第i个解码时刻，将第i-1帧声学特征传输至预设解码模型，预设解码模型利用第i-1帧声学特征，预测第i个声学特征。

在一些实施例中，语音合成装置在第i个解码时刻，将第i-1帧声学特征传输至解码模型中的Pre-net模型；Pre-net模型对第i-1帧声学特征进行非线性变化，得到中间特征向量，将中间特征向量传输至第一循环神经网络；第一循环神经网络对中间特征向量进行矩阵运算和非线性变换，得到第i个中间隐变量，将第i个中间隐变量传输至注意力模型和第二循环神经网络；注意力模型对特征向量集合和第i个中间隐变量进行上下文向量计算，得到第i个上下文向量，将第i个上下文向量传输至第二循环神经网络；第二循环神经网络对第i个上下文向量和第i个中间隐变量进行矩阵运算和非线性变换，得到第i个隐变量，将第i个隐变量传输至线性变换模块；线性变换模块按照预设帧数，对第i个隐变量进行线性变换，得到第i个声学特征。

需要说明的是，语音合成装置在预测过程中，采用第一循环神经网络和第二循环神经网络获取第i个声学特征，由于循环神经网络是一种节点定向连接成环的人工神经网络，利用当前为止已经计算过的隐变量来处理当前时序的输入，从而使得一个序列位置的输出和之前的所有序列的输入都是有联系的，如此，利用第一循环神经网络和第二循环神经网络，得到的预测声学特征中的所有声学特征之间是相互关联的，进而，利用预测声学特征得到的语音过度更加自然。

在一些实施例中，第一循环神经网络可以替换为第一长短时记忆网络(LSTM，LongShort Term Memory Network)，对应地，第二循环神经网络替换为第二LSTM；除此之外，还可以将第一循环神经网络和第二循环神经网络替换为其他的神经网络，本发明实施例不作限制。

在一些实施例中，特征向量集合包括符号序列中每个符号对应的特性向量；语音合成装置利用预设注意力模型，对符号序列中每个符号(字母或音素)对应的特征向量和第i个中间隐变量进行注意力计算，得到第i组注意力数值；根据第i组注意力数值，对特征向量集合进行加权求和，得到第i个上下文向量。

语音合成装置将第i个中间隐变量传输至注意力模型，注意力模型计算符号序列中每个符号对应的特征向量和第i个中间隐变量之间的注意力数值(相似度)，将每个符号和注意力数值对应保存，得到第i组注意力数值，注意力数值的取值范围为0～1；将每个符号对应的注意力数值作为每个符号对应的特征向量的权值，对特征向量集合中的所有特征向量进行加权求和，得到第i个上下文向量。

需要说明的是，在第i个解码时刻，基于第i-1帧声学特征生成第i个中间隐变量，第i个中间隐变量表示第i个解码时刻需要预测的符号，注意力模型通过计算符号序列中每个符号对应的特征向量和第i个中间隐变量之间的注意力数值，注意力数值的大小表示每个符号对应的特征向量和需要预测的符号的相关程度，由于在第i个解码时刻需要预测的符号除了主发音符号，还包括与主发音符号在发音上连接紧密的次发音符号，所以符号序列中有多个符号对应的注意力数值为非零，并且，注意力数值最大的符号为主发音符号。

在一些实施例中，语音合成装置在基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征之后，继续执行第i+1个解码时刻的预测过程之前，从第i组注意力数值中确定最大注意力数值对应的第i个目标符号；当第i个目标符号为录音语句的非结束符号时，确定第i+1个解码时刻为录音语句的解码时刻；和/或，当第i个目标符号为查询结果语句的非结束符号时，确定第i+1个解码时刻为查询结果语句的解码时刻；和/或，当第i个目标符号为录音语句的结束符号、且录音语句的结束符号不是待合成语句的结束符号时，确定第i+1个解码时刻为查询结果语句的解码时刻；和/或，当第i个目标符号为查询结果语句的结束符号、且查询结果语句的结束符号不是待合成语句的结束符号时，确定第i+1个解码时刻为录音语句的解码时刻；和/或，当第i个目标符号为待合成语句的结束符号时，确定第i+1个解码时刻为待合成语句的解码结束时刻。

语音合成装置在判断第i个目标符号的类型之前，在生成待合成语句的符号序列时，从符号序列中确定出特殊符号，特殊符号包括以下至少一项：录音语句的非结束符号、录音语句的结束符号、查询结果语句的非结束符号、查询结果语句的结束符号、以及待合成语句的结束符号；将第i组注意力数值中最大注意力数值对应的符号，作为第i个目标符号，第i个目标符号为第i个解码时刻的主发音符号；将第i个目标符号依次和特殊符号进行比较，直至确定出第i个目标符号的类型。

需要说明的是，语音合成装置取i为2，基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征之前，与判断第i+1个解码时刻的类型的过程同理，利用第i-1个目标符号，判断第i个解码时刻的类型。

在一些实施例中，语音合成装置在判断第i个解码时刻的类型之前，在生成待合成语句的符号序列时，从符号序列中确定录音语句的开始符号和结束符号、查询结果语句的开始符号和结束符号、以及待合成语句的结束符号；其中，录音语句的开始符号和结束符号是一一对应的，查询结果语句的开始符号和结束符号是一一对应的，录音语句的开始符号或查询结果语句的开始符号为待合成语句的开始符号，录音语句的结束符号或查询结果语句的结束符号为待合成语句的结束符号。

进一步地，语音合成装置将第i组注意力数值中最大注意力数值对应的符号，作为第i个目标符号；将第i个目标符号依次和录音语句的开始符号、待合成语句的开始符号、以及查询结果语句的开始符号进行比较；当第i个目标符号和录音语句的开始符号一样时，确定第i+1个解码时刻为录音语句的解码时刻，并在第i+1个解码时刻的预测过程中，将第i+1个目标符号依次和录音语句的结束符号、待合成语句的结束符号进行比较；当第i+1个目标符号和录音语句的结束符号、以及待合成语句的结束符号都不一样时，确定第i+1个目标符号为录音语句的非结束符号，进而确定第i+2个解码时刻为录音语句的解码时刻；当第i个目标符号和查询结果语句的开始符号一样时，确定第i+1个解码时刻为查询结果语句的解码时刻，并在第i+1个解码时刻的预测过程中，将第i+1个目标符号依次和查询结果语句的结束符号、待合成语句的结束符号进行比较；当第i+1个目标符号和查询结果语句的结束符号、以及待合成语句的结束符号都不一致时，确定第i+1个目标符号为查询结果语句的非结束符号，进而确定第i+2个解码时刻为录音语句的解码时刻。

在一些实施例中，语音合成装置确定第i个目标符号为录音语句的结束符号、且不是待合成语句的结束符号时，为录音语句的结束符号的保持时长增加一帧解码时长，并判断第i个目标符号的保持时长是否小于预设时长；当第i个目标符号的保持时长大于或等于预设时长时，确定第i+1个解码时刻为查询结果语句的解码时刻，当第i个目标符号的保持时长小于预设时长时，确定第i+1个解码时刻为录音语句的解码时刻，继续判断第i+1个目标符号，直至在第m个解码时刻确定录音语句的结束符号的保持时长大于或等于预设时长，确定第m+1个解码时刻为查询结果语句的解码时刻，m为该录音语句的解码时刻的总帧数、且为大于1的整数；其中，预设时长一般设置为一帧解码时长或两帧解码时长，本发明实施例不作限制。

在一些实施例中，语音合成装置确定第i个目标符号为查询结果语句的结束符号、且不是待合成语句的结束符号时，为查询结果语句的结束符号的保持时长增加一帧解码时长，并判断第i个目标符号的保持时长是否小于预设时长；当第i个目标符号的保持时长大于或等于预设时长时，确定第i+1个解码时刻为录音语句的解码时刻，当第i个目标符号的保持时长小于预设时长时，确定第i+1个解码时刻为查询结果语句的解码时刻，继续判断第i+1个目标符号，直至在第h个解码时刻确定查询结果语句的结束符号的保持时长大于或等于预设时长，确定第h+1个解码时刻为录音语句的解码时刻，h为该查询结果语句的解码时刻的总帧数、且为大于1的整数。

需要说明的是，语音合成装置通过在当前个解码时刻确定目标符号，将目标符号依次和特征符号进行比较，来确定下一个解码时刻的类型，如此，不需要对待合成语句中的录音语句或查询结果语句进行特殊标记或符号对齐操作等，就能够获取每一个解码时刻的类型；进一步地，还通过判断一个语句的结束符号的保持时长，当保持时长大于或等于预设时长时才开始另一个语句的解码，以使得一个语句的结束符号能够被完整发音。

在一些实施例中，对于待合成语句中录音语句位于查询结果语句之前的情况，在得到的预测声学特征中发现录音语句的结束符号发生延迟，可能是由于录音语句的预测过程和查询结果语句的预测过程连接过于紧密导致的，因此，将录音语句中的位于结束符号前一个符号，设置为录音语句的结束语句，如此，解决了录音语句的结束符号发生延迟的问题，合成得到的语音中的录音语句的语音和查询结果语句的语音之间的过度也更流畅。

S305、对预测声学特征进行特征转换和合成，得到待合成语句对应的语音。

语音合成装置对预测声学特征中每一个声学特征进行特征转换，得到线性谱，对得到的所有线性谱进行重建合成，得到待合成语句对应的语音，将语音传输至播放模块，通过播放模块播放语音，以使得用户通过收听语音获知针对目标对象的查询结果。

在一些实施例中，语音合成装置对预测声学特征进行特征转换，得到线性谱；对线性谱进行重建合成，得到语音。

语音合成装置可以采用Griffin-Lim算法，对线性谱进行重建合成，得到语音。

需要说明的是，对于录音语句是利用真人录音中提取出的录音声学特征来预测，所以对预测声学特征进行特征转换和合成后，得到的语音中的录音语句对应的语音的音质更好。

在一些实施例中，在步骤S301之前，语音合成方法还包括：

S3001、获取至少一个样本合成语句各自对应的样本符号序列，每个样本合成语句表征样本对象和针对样本对象的参考查询结果；

语音合成装置针对至少一个样本合成语句中每个样本合成语句，生成样本符号序列，进而得到至少一个样本符号序列；其中，至少一个样本合成语句中的样本对象包括目标对象，至少一个样本合成语句还可以包括查询结果语句。

S3002、获取初始语音合成模型、初始声学特征和样本合成语句对应的样本声学特征；初始语音合成模型为用于编码处理和预测的模型；

语音合成装置获取初始语音合成模型、初始声学特征和每个样本合成语句对应的样本声学特征；其中，每个样本合成语句对应的样本声学特征是从每个样本合成语句的录音中获得的。

S3003、利用样本符号序列、初始声学特征和样本声学特征，对初始语音合成模型进行训练，得到预设编码模型、预设解码模型和预设注意力模型。

语音合成装置将样本符号序列作为预设语音合成模型的输入，预设语音合成模型对样本符合序列进行编码处理，得到样本特征向量集合；再将初始声学特征作为预设语音合成模型的输入，预设语音合成模型基于样本特征向量集合和初始声学特征，预测参考声学特征；利用预设损失函数对参考声学特征和样本声学特征进行计算，得到误差值；当误差值大于预设误差阈值时，继续基于样本特征向量集合和初始解码模型进行预测，直至误差值小于或等于预设误差阈值。

在一些实施例中，预设误差函数包括绝对损失函数(L1 Loss)。

需要说明的是，预设语音合成模型基于样本特征向量集合和初始声学特征，预测参考声学特征的过程，与将第i-1帧声学特征和特征向量集合作为输入，利用预设解码模型和预设注意力模型，预测第i个声学特征的过程同理，这里不再赘述。

在一些实施例中，以电话外呼系统为例，如图4所示的一种语音合成方法，该方法包括：

S401、电话外呼系统接收到向某一个电话号码留言“那咱两一起看电视吧”的查询请求时，获取“那咱两一起看电视吧”的音素序列、以及从音素序列中确定录音语句的开始音素和结束音素、查询结果语句的开始音素和结束音素、以及待合成语句的结束音素；

电话外呼系统从“那咱两一起看电视吧”的查询请求中，确定目标对象的录音语句为“那咱两一起”、查询结果语句为“看电视吧”；确定“那咱两一起看电视吧”符合话术模式，将“那咱两一起看电视吧”作为待合成语句，获取其音素序列为{n，a4，ss，z，an2，i，ia3，ss，i4，q，i3，ss，k，an4，d，ian4，sh，iii4，ss，b，a5，ss，sil}；确定录音语句的开始音素和结束音素分别为‘n’和‘q’，查询结果语句的开始音素和结束音素分别为‘k’和‘b’，待合成语句的结束音素和查询结果语句的结束音素一样，是‘b’。

需要说明的是，上述音素序列中的‘ss’是用于控制待合成语句的语音韵律的符号，该符号可以为其他的音素或字母等，音素序列中可以包括该符号，也不包括该符号，本发明实施例均不做限制。

S402、电话外呼系统对音素序列进行编码处理，得到特征向量集合；

电话外呼系统得到音素序列中每个音素对应的特征向量，由所有音素的特征向量组成特征向量结合。

S403、电话外呼系统获取一个全0向量为初始声学特征，从预设录音语句库中获取“那咱两一起”的录音梅尔谱；

S404、电话外呼系统基于全0向量、预设解码模型、特征向量集合、预设注意力模型和录音声学特征，预测“那咱两一起看电视吧”对应的预测声学特征；

示例性地，如图5所示的音素序列和注意力数值的对应关系示意图，图5中的纵坐标为“那咱两一起看电视吧”的音素序列，横坐标为解码时刻，右侧的标志51表示注意力数值和颜色的对应关系，颜色越浅表示注意力数值越大，标志51中的0.2、0.4、0.6和0.8为注意力数值，从图5中可以看出，在第12个解码时刻得到的第12组注意力数值中，确定出注意力数值最大的第12个目标音素为‘q’，即录音语句的结束音素，表示第13个解码时刻为查询结果语句的解码时刻。

S405、电话外呼系统对预测声学特征进行特征转换和合成，得到“那咱两一起看电视吧”对应的语音；

S406、电话外呼系统拨打某一个电话号码，在用户接通后将语音播放给用户。

可以理解的是，语音合成装置基于预设解码模型、特征向量集合、预设注意力模型和录音声学特征，预测得到待合成语句对应的预测声学特征，由于待合成语句包括录音语句和查询结果语句，也就是说，对于录音语句和查询结果语句，都是通过预测得到对应的预测声学特征，并且预测声学特征由相关联的多个声学特征组成，解决了录音和合成语音的语速、音调等不一样的问题，如此，利用预测声学特征得到的语音韵律一致；其次，对待合成语句对应的预测声学特征进行特征转换和合成得到语音，避免了拼接录音和合成语音时存在的过度时长不确定性的问题，提高了合成的语音的质量。

实施例二

基于本发明实施例一的同一发明构思，进行进一步的说明。

本发明实施例提供一种语音合成装置6，该装置6包括：序列生成模块61、语音合成模块62和获取模块63；其中，

序列生成模块61，用于获取待合成语句的符号序列，待合成语句包括表征目标对象的录音语句和针对目标对象的查询结果语句；

语音合成模块62，用于利用预设编码模型，对符号序列进行编码处理，得到特征向量集合；

获取模块63，用于获取录音语句对应的录音声学特征；

语音合成模块62，还用于基于预设解码模型、特征向量集合、预设注意力模型和录音声学特征，对待合成语句对应的声学特征进行预测，得到待合成语句对应的预测声学特征，预设注意力模型为利用特征向量集合生成用于解码的上下文向量的模型，预测声学特征由相关联的至少一个声学特征组成；以及对预测声学特征进行特征转换和合成，得到待合成语句对应的语音。

在一些实施例中，语音合成模块62，具体用于当i等于1时，在第i个解码时刻，获取初始声学特征，基于初始声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第1个声学特征，i为大于0的整数；

及在i大于1的情况下，当第i个解码时刻为录音语句的解码时刻时，从录音声学特征中取出第j帧声学特征，将第j帧声学特征作为第i-1帧声学特征，基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征，j为大于0的整数；

及当第i个解码时刻为查询结果语句的解码时刻时，将第i-1个声学特征中的一帧声学特征作为第i-1帧声学特征，基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征；

及继续执行第i+1个解码时刻的预测过程，直至待合成语句解码结束，得到第n个声学特征，n为待合成语句的解码时刻的总帧数、且为大于1的整数；

以及将得到的第i个声学特征至第n个声学特征，作为预测声学特征。

在一些实施例中，预设解码模型包括第一循环神经网络和第二循环神经网络；

语音合成模块62，具体用于对第i-1帧声学特征进行非线性变化，得到中间特征向量；及利用第一循环神经网络，对中间特征向量进行矩阵运算和非线性变换，得到第i个中间隐变量；及利用预设注意力模型，对特征向量集合和第i个中间隐变量进行上下文向量计算，得到第i个上下文向量；及利用第二循环神经网络，对第i个上下文向量和第i个中间隐变量进行矩阵运算和非线性变换，得到第i个隐变量；以及按照预设帧数，对第i个隐变量进行线性变换，得到第i个声学特征。

在一些实施例中，特征向量集合包括符号序列中每个符号对应的特性向量；

语音合成模块62，具体用于利用预设注意力模型，对符号序列中每个符号对应的特征向量和第i个中间隐变量进行注意力计算，得到第i组注意力数值；以及根据第i组注意力数值，对特征向量集合进行加权求和，得到第i个上下文向量。

在一些实施例中，语音合成模块62，还用于在基于第i-1帧声学特征、预设解码模型、特征向量集合和预设注意力模型，预测第i个声学特征之后，继续执行第i+1个解码时刻的预测过程之前，从第i组注意力数值中确定最大注意力数值对应的第i个目标符号；

及当第i个目标符号为录音语句的非结束符号时，确定第i+1个解码时刻为录音语句的解码时刻；

和/或，当第i个目标符号为查询结果语句的非结束符号时，确定第i+1个解码时刻为查询结果语句的解码时刻；

和/或，当第i个目标符号为录音语句的结束符号、且录音语句的结束符号不是待合成语句的结束符号时，确定第i+1个解码时刻为查询结果语句的解码时刻；

和/或，当第i个目标符号为查询结果语句的结束符号、且查询结果语句的结束符号不是待合成语句的结束符号时，确定第i+1个解码时刻为录音语句的解码时刻；

和/或，当第i个目标符号为待合成语句的结束符号时，确定第i+1个解码时刻为待合成语句的解码结束时刻。

在一些实施例中，语音合成模块62，具体用于对符号序列进行向量转换，得到初始特征向量集合；以及对初始特征向量集合进行非线性变化和特征提取，得到特征向量集合。

在一些实施例中，语音合成模块62，具体用于对预测声学特征进行特征转换，得到线性谱；以及对线性谱进行重建合成，得到语音。

在一些实施例中，符号序列为字母序列或音素序列。

在一些实施例中，装置6还包括：训练模块60；

训练模块，用于在获取待合成语句的符号序列之前，获取至少一个样本合成语句各自对应的样本符号序列，每个样本合成语句表征样本对象和针对样本对象的参考查询结果；获取初始语音合成模型、初始声学特征和样本合成语句对应的样本声学特征；初始语音合成模型为用于编码处理和预测的模型；以及利用样本符号序列、初始声学特征和样本声学特征，对初始语音合成模型进行训练，得到预设编码模型、预设解码模型和预设注意力模型。

需要说明的是，在实际应用中，上述训练模块60、序列生成模块61、语音合成模块62和获取模块63，还可由位于语音合成装置7上的处理器74实现，具体为CPU(CentralProcessing Unit，中央处理器)、MPU(Microprocessor Unit，微处理器)、DSP(DigitalSignal Processing，数字信号处理器)或现场可编程门阵列(FPGA，Field ProgrammableGate Array)等实现。

本发明实施例还提供了一种语音合成装置7，如图7所示，该装置7包括：处理器74、存储器75和通信总线76，存储器75通过通信总线76与处理器74进行通信，存储器75存储处理器74可执行的一个或者多个语音合成程序，当一个或者多个语音合成程序被执行时，通过处理器74执行如前述实施例所述的任意一种语音合成方法。

在实际应用中，存储器75可以是易失性第一存储器(volatile memory)，例如随机存取第一存储器(Random-Access Memory，RAM)；或者非易失性第一存储器(non-volatilememory)，例如只读第一存储器(Read-Only Memory，ROM)，快闪第一存储器(flashmemory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的第一存储器的组合，并向处理器74提供程序和数据。

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有语音合成程序，当所述语音合成程序被处理器74执行时，实现所述处理器74执行前述实施例所述的任意一种语音合成方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程语音合成设备的处理器以产生一个机器，使得通过计算机或其他可编程语音合成设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程语音合成设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程语音合成设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取所述录音语句对应的录音声学特征；

2.根据权利要求1所述的方法，其特征在于，所述基于预设解码模型、所述特征向量集合、预设注意力模型和所述录音声学特征，对所述待合成语句对应的声学特征进行预测，得到所述待合成语句对应的预测声学特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设解码模型包括第一循环神经网络和第二循环神经网络；所述基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述特征向量集合包括所述符号序列中每个符号对应的特性向量；所述利用所述预设注意力模型，对所述特征向量集合和所述第i个中间隐变量进行上下文向量计算，得到第i个上下文向量，包括：

5.根据权利要求4所述的方法，其特征在于，在所述基于所述第i-1帧声学特征、所述预设解码模型、所述特征向量集合和所述预设注意力模型，预测第i个声学特征之后，所述继续执行第i+1个解码时刻的预测过程之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述利用预设编码模型，对所述符号序列进行编码处理，得到特征向量集合，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述预测声学特征进行特征转换和合成，得到所述待合成语句对应的语音，包括：

对所述预测声学特征进行特征转换，得到线性谱；

对所述线性谱进行重建合成，得到所述语音。

8.根据权利要求1所述的方法，其特征在于，所述符号序列为字母序列或音素序列。

9.根据权利要求1所述的方法，其特征在于，在所述获取待合成语句的符号序列之前，所述方法还包括：

10.一种语音合成装置，其特征在于，所述装置包括：序列生成模块、语音合成模块和获取模块；其中，

11.一种语音合成装置，其特征在于，所述装置包括：处理器、存储器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的一个或者多个程序，当所述一个或者多个程序被执行时，通过所述处理器执行如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，当所述程序被至少一个处理器执行时，导致所述至少一个处理器执行权利要求1-9任一项所述的方法。