CN113409756B

CN113409756B - 语音合成方法、系统、设备及存储介质

Info

Publication number: CN113409756B
Application number: CN202010182535.0A
Authority: CN
Inventors: 杨辰雨; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2022-05-03
Anticipated expiration: 2040-03-16
Also published as: CN113409756A

Abstract

本申请实施例提供一种语音合成方法、系统、设备及存储介质。在本申请实施例中，提供一种多通道线性预测网络声码器，支持多通道输入，通过获取待合成文本在多个通道上的声学特征，利用该多通道线性预测网络声码器可合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

Description

语音合成方法、系统、设备及存储介质

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种语音合成方法、系统、设备及存储介质。

背景技术

语音合成，又称文本语音转换(Text to Speech)技术，是通过机械的、电子的方法产生人造语音的技术。在语音合成过程中，前端和中端负责从文本预测语音的压缩特征，如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)等；而由这些压缩特征到合成可测听的语音由声码器(vocoder)来完成。

线性预测网络(Linear Prencdictive Coding Net，LPCNet)声码器，是一种结合了循环神经网络(Recurrent Neural Network，RNN)和线性预测的WaveRNN的变种模型，它将深度学习和数字信号处理技术结合起来，大幅度地提升了语音合成质量，因此在语音合成系统中得到广泛应用。但是，现有LPCNet存在一定的计算冗余度，合成效率较低。

发明内容

本申请的多个方面提供一种多通道信号处理方法、系统、设备及存储介质，用以在保证语音合成质量的情况下，提升语音合成效率。

本申请实施例提供一种语音合成方法，包括：获取待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音。

本申请实施例还提供一种多通道线性预测网络声码器，包括：支持多通道输入的帧速率网络、多个线性预测编码器LPC、支持多通道输入的采样率网络以及合成网络；所述帧速率网络，用于接收待合成文本在多个通道上的声学特征，对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量，并将所述条件向量输出至所述采样率网络；所述多个LPC，用于对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数，并输出至所述采样率网络和所述合成网络；所述采样率网络，用于基于所述条件向量和所述多个通道上的线性预测参数，预测所述多个通道上的非线性残差，并输出至所述合成网络；所述合成网络，用于根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音。

本申请实施例还提供一种语音合成设备，包括：存储器和处理器；所述存储器用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：获取待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音。

本申请实施例还提供一种语音合成方法，包括：接收终端设备发送的语音合成请求，所述语音合成请求包含待合成文本；对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；以及将所述待合成语音返回给所述终端设备，以供所述终端设备输出所述合成语音。

本申请实施例还提供一种语音合成系统，包括：终端设备以及用于语音合成的服务端设备；所述终端设备，用于向所述服务端设备发送语音合成请求，所述语音合成请求包含待合成文本；以及接收所述服务端设备返回的所述待合成文本对应的合成语音并输出所述合成语音；所述服务端设备，用于接收到所述语音合成请求，对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道的上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；将所述合成语音返回给所述终端设备。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器本申请实施例种中所述方法中的步骤。

在本申请实施例中，提供一种多通道线性预测网络声码器，支持多通道输入，通过获取待合成文本在多个通道上的声学特征，利用该多通道线性预测网络声码器可合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请示例性实施例提供的一种多通道线性预测网络声码器的结构示意图；

图1b为本申请示例性实施例提供的另一种多通道线性预测网络声码器的结构示意图；

图1c为本申请示例性实施例提供的又一种多通道线性预测网络声码器的结构示意图；

图1d为本申请示例性实施例提供的再一种多通道线性预测网络声码器的结构示意图；

图2a为本申请示例性实施例提供的一种语音合成方法的流程图；

图2b为本申请示例性实施例提供的另一种语音合成方法的流程图；

图2c为本申请示例性实施例提供的又一种语音合成方法的流程图；

图2d为本申请示例性实施例提供的再一种语音合成方法的流程图；

图3为本申请示例性实施例提供的一种语音合成系统的结构示意图；

图4为本申请示例性实施例提供的一种语音合成设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有技术存在的语音合成速率较低的技术问题，在本申请实施例中，提供一种多通道线性预测网络(LPCNet)声码器，该多通道线性预测网络声码器包含结合了线性预测编码的神经网络，并且支持多通道输入，通过获取待合成文本在多个通道上的声学特征，利用该多通道线性预测网络声码器可合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

下面将结合附图和具体实施例，对本申请实施例提供的多通道线性预测网络声码器的实现结构以及基于该声码器的语音合成过程进行详细说明。

图1a为本申请实施例提供的一种多通道线性预测网络(LPCNet)声码器的结构示意图。如图1a所示，多通道LPCNet声码器100包括：帧速率网络(Frame Rate Network)10、采样率网络(Sampling Rate Network)20、合成网络30以及多个线性预测(LinearPrencdictive Coding，LPC)40。

本实施例的多通道LPCNet声码器100结合了数字信号处理(Digital SignalProcessor，DSP)技术和神经网络(Neural Network，NN)，主要用于根据声学特征进行语音合成。本实施例的LPCNet声码器100，在语音合成过程中采用线性预测编码技术，进而根据线性预测编码得到的线性预测参数来合成语音。其中，线性预测编码的原理是：将语音用一组过去时刻的语音采样的线性组合来逼近，根据实际采样值与线性预测之差的平方和最小的原则，来决定当前时刻的线性预测参数。

在语音合成的过程中，之所以能够利用线性预测编码技术来确定线性预测参数，是因为：语音信号短时不变的特性，发音器官的模型可被近似为线性时不变系统，这样语音信号产生可以等效为单位脉冲序列激励声道管，其对应的差分方程为：

即当前语音采样值可以近似由若干相邻历史时刻的采样值线性表示。其中，x(n)为第n个语音采样值(表示当前采样值)，a_i为线性预测参数，e(n)为非线性残差，j是历史采样值的最大个数。由此可见，知道了线性预测参数，结合上述公式表达的模型即可反向合成出语音信号。采用线性预测编码技术能够提供非常精确的语音参数预测，有利于提高语音合成的质量。

进一步，本实施例的多通道LPCNet声码器100支持多个通道作为输入，可对各通道上的声学特征分别进行语音合成处理，最后对多通道上的语音合成结果进行融合得到全频带语音(即最终的语音合成结果)。其中，多个是指两个或两个以上。多通道LPCNet声码器100所支持的通道数量，可以是奇数个，也可以是偶数个。其中，每个通道对应一个声学频带，不同通道对应不同的声学频带；不同声学频带携带不同的声学特征，不同声学特征携带有语音合成所需的不同信息。例如，低频带上的声学特征携带有语音合成所需的语音内容(即通过低频带上的声学特征可以知道在说什么)，高频带上的声学特征与语音质量相关，有利于提升合成语音的音质。

在本实施例中，多通道LPCNet声码器100支持多通道，鉴于此，可将语音合成所需的声学特征按照频划分为多个通道上的声学特征，并借助于多通道LPCNet声码器100支持多通道的优势，对不同声学频带上的声学特征分别进行处理。相比于语音合成所需的完整声学特征，不同通道上的声学特征的采样率要低，声学特征的数量要小很多，在语音合成过程中，每个通道上仅需对该通道上的声学特征进行处理，可降低计算冗余度，有利于提高语音合成的效率。

其中，语音合成的过程主要是指从文本到语音的转换。鉴于此，可以得到待合成文本在多个通道上的声学特征，将待合成文本在多个通道上的声学特征输入多通道LPCNet声码器100，利用多通道LPCNet声码器100对各通道上的声学特征分别进行语音合成得到各通道上的合成语音，最后对多通道上的合成语音进行融合得到待合成文本对应的合成语音。每个通道的声学特征均包含多个采样特征，即每个通道上的声学特征均由一系列的采样特征构成。

本实施例提供的多通道LPCNet声码器100进行语音合成的原理是：利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差；进而，根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。在多通道LPCNet声码器100中，将神经网络划分为帧速率网络10和采样率网络20，这两个网络相互配合负责预测多个通道上的非线性残差；进一步，多通道LPCNet声码器100还包括：多个LPC 40和合成网络30；多个LPC 40负责预测多个通道上的线性预测参数；合成网络30负责根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

为了达到支持多通道输入的目的，帧速率网络10、采样率网络20以及合成网络30均支持多通道输入，且包含与多个通道适配的多个LPC 40，如图1a所示，以n个通道为例进行图示，其中，n是大于1的正整数。在图1a所示的多通道LPCNet声码器100内部，待合成文本在n个通道上的声学特征f1-fn被输入帧速率网络10和多个LPC 40中，一个通道上的声学特征被输入一个LPC 40中。n个线性预测编码器LPC 40用于对n个通道上的声学特征f1-fn分别进行线性预测编码，得到n个通道上的线性预测参数p1-pn，并输出至采样率网络20和合成网络30。帧速率网络10用于接收待合成文本在多个通道上的声学特征f1-fn，对n个通道上的声学特征f1-fn以帧为单位进行特征转换得到条件向量c，并将条件向量c输出至采样率网络20。帧速率网络10的主要作用是向采样率网络20提供条件向量c，这个条件向量c一帧计算一次(也可以称为帧特征)，并在该帧时间内保持不变。在本实施例中，并不限定一帧的时间长度，例如可以是10ms、20ms等，可根据实际情况灵活设定。根据声学特征f采样率的不同，一帧包含的采样特征f的数量也有所不同。

在本实施例中，并不限定获取待合成文本在多个通道上的声学特征的实施方式。例如，本实施例的多通道LPCNet声码器100可以单独部署，与语音合成系统中的前端模块相配合，完成语音合成过程。其中，前端模块可接收待合成文本，对待合成文本进行特征提取以得到待合成文本在多通道上的声学特征，进而，将待合成文本在多通道上的声学特征传输至多通道LPCNet声码器100进行语音合成，得到待合成文本对应的合成语音。又例如，本实施例的多通道LPCNet声码器100可以集成在语音合成系统中，语音合成系统接收终端设备发送语音合成请求，对语音合成请求中携带的待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征，再利用多通道LPCNet声码器100对多个通道上的声学特征进行语音合成，得到待合成文本对应的合成语音。再例如，本申请实施例的多通道LPCNet声码器100可以单独部署，并与语音预处理系统相互配合，实现语音合成过程。其中，语音预处理系统可接收待合成文本，获取待合成文本对应的初始语音；再利用与多个通道对应的滤波器对初始语音进行子带分析，得到多通道上的语音信号；通过对多通道上的语音信号分别进行特征提取，得到多个通道上的声学特征，进而，将多个通道上的声学特征提供给多通道LPCNet声码器100，利用多通道LPCNet声码器100对多个通道上的声学特征进行语音合成，得到待合成文本对应的合成语音

在本申请实施例中，采样率网络20可接收帧速率网络10输出的条件向量c以及n个LPC 40输出的n个通道上的线性预测参数p1-pn，基于条件向量c和n个通道上的线性预测参数p1-pn，预测n个通道上的非线性残差e1-en，并输出至合成网络30。其中，每个通道上的非线性残差是指与该通道上的声学特征对应的实际语音信号与预测语音信号之间的差值。合成网络30用于根据n个通道上的线性预测参数p1-pn和非线性残差e1-en进行语音合成，得到待合成文本对应的合成语音s。其中，在合成网络30中，可根据每个通道上的线性预测参数和非线性残差进行语音合成，得到每个通道上的合成语音；进而，将多个通道上的合成语音s1-sn进行叠加，得到待合成文本对应的合成语音s。

本实施例提供的多通道LPCNet声码器100可应用到各种需要语音合成的应用场景中。例如，可应用到在线有声阅读场景中，负责实时地将电子书中的文本内容合成为语音信号并输出给阅读者。又例如，可应用到各种即时通讯软件中，可根据聊天用户的需求将聊天窗口中的全部或部分文本内容转换为语音信号并输出给聊天用户。无论是哪种应用场景，本实施例提供的多通道LPCNet声码器100可集成在终端设备一侧实现，也可以部署在服务端设备上。服务端设备可以是常规服务器、云端服务器、服务器阵列或者是部署在服务器中的虚拟机、容器等。在多通道LPCNet声码器100部署在服务端设备上实现时，终端设备可将待合成文本上传至服务端设备；服务端设备从待合成文本中提取多通道上的声学特征；然后利用多通道LPCNet声码器100合成语音信号，之后，将语音信号返回给终端设备，由终端设备将语音信号播放给用户。以电子书为例，电子书将用户阅读的文本内容通过网络提交至服务端设备，服务端设备采用多通道LPCNet声码器100将文本内容合成为语音信号，通过网络将语音信号返回给电子书；电子书通过其音频模块播放该语音信号给阅读者。在多通道LPCNet声码器100中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

在本申请实施例中，并不限定帧速率网络10、采样率网络20以及合成网络30的内部实现结构，凡是可实现相应功能的内部结构均适用于本申请实施例。在下面实施例中，将示例性地给出帧速率网络10、采样率网络20以及合成网络30的内部实现结构。

在本申请实施例中，每个通道上的声学特征包含多个采样特征。在每个LPC40内部，是以采样特征为单位进行计算的。每个LPC 40在做线性预测时，可对其对应通道上的当前采样特征和其对应通道上前一采样特征对应的合成语音进行线性预测，得到其对应通道上当前采样特征对应的线性预测参数。如图1b所示，帧速率网络10的输入是n个通道上的声学特征f1-fn，输出是条件向量c；每个LPC 40的输入是每个通道上的声学特征，输出是每个通道上对应的线性预测参数，则n个LPC 40的输入是n个通道上的声学特征f1-fn，输出的是n个通道上的线性预测参数p1-pn。相应地，采样率网络20在预测n个通道上的非线性残差时，具体用于：根据条件向量c、n个通道上当前采样特征对应的线性预测参数p1-pn、n个通道上前一采样特征对应的合成语音s1^-1-sn^-1以及采样率网络20输出的n个通道上前一采样特征对应的非线性残差e1^-1-en^-1，预测n个通道上当前采样特征对应的非线性残差e1-en。如图1b所示，采样率网络20的输入是n个通道上的条件向量c、当前采样特征对应的线性预测参数p1-pn、前一采样特征对应的合成语音s1^-1-sn^-1以及采样率网络20输出的n个通道上前一采样特征对应的非线性残差e1^-1-en^-1，输出是n个通道上当前采样特征对应的非线性残差e1-en。

进一步，如图1b所示，采样率网络20包括主采样率网络(Main Sample RateNetwork)21和与多个通道对应的多个子采样率网络(Sub Sample Rate Network)22。其中，主采样率网络21可根据对条件向量c、多个通道上当前采样特征对应的线性预测参数p1-pn、多个通道上前一采样特征对应的合成语音s1^-1-sn^-1以及采样率网络20输出的多个通道上前一采样特征对应的非线性残差e1^-1-en^-1进行向量化处理，得到参数向量q，并将得到的参数向量q输出至多个子采样率网络22；每个子采样率网络22用于接收主采样率网络21输出的据参数向量q，对参数向量q进行残差分类，得到其对应通道上当前采样特征对应的非线性残差e1-en。

进一步，如图1c和图1d所示，帧速率网络10包括：两个滤波(filter)尺寸为3的卷积层11和12，一个残差连接层13以及两个全连接层14和15。其中，n个通道上的声学特征f1-fn首先通过两个filter尺寸为3的卷积层(conv 3x1)11和12，产生5帧的感受野(两帧前，两帧后)；将两个卷积层的输出添加到残差连接层13，残差连接层13后面接两个全连接层14和15，这样帧速率网络10可输出一个一定维度(例如128维)的条件向量c，供采样率网络20使用。其中，条件向量c在每帧的持续时间内保持不变。

进一步，如图1c和图1d所示，主采样率网络21依次包括：连接层211、门控制循环单元GRU_A 212和门控制循环单元GRU_B 213；其中，连接层211用于对条件向量c、n个通道上当前采样特征对应的线性预测参数p1-pn、n个通道上前一采样特征对应的合成语音s1^-1-sn^-1以及采样率网络20输出的n个通道上前一采样特征对应的非线性残差e1^-1-en^-1进行连接，形成特征向量。门控制循环单元GRU_A 212和门控制循环单元GRU_B 213，用于对连接后的特征向量进行循环计算，最终得到参数向量q。如图1c所示，每个子采样率网络22依次包括：对偶全连接层(dualFC)221、分类器(softMax)222以及采样层(Sampling)223。其中，对偶全连接层221用于预估每个通道的语音合成值，判断每个通道的语音合成值是否在预设阈值范围内，若是，则可确定该预估值为每个通道的语音合成值；进而，分类器222对语音合成值进行计算，生成概率分布函数，采样层223依据此概率分布函数进行采样，获得其对应通道采样特征对应的非线性残差预测值，并输出至合成网络30。

如图1b-图1d所示，合成网络30包括与n个通道对应的n个合成子网络31，以及与n个通道对应的叠加子网络32。每个合成子网络31用于根据其对应通道上的线性预测参数和非线性残差进行语音合成计算，得到其对应通道上的合成语音，并输出至叠加子网络32。叠加子网络32用于对n个通道上的合成语音s1-sn进行叠加，得到待合成文本对应的合成语音s。在图1b-图1d中，以各个合成子网络31输出前一采样特征对应的合成语音s1^-1-sn^-1为例进行图示。在本实施例中，并不限定合成子网络31以及叠加子网络32的实现结构，图1b-图1d中仅为示例并不限于此。

在一可选实施例中，如图1d所示，合成网络30还包括与n个通道对应的上采样模块33，用于对n个通道上的合成语音s1-sn进行上采样，得到n个通道上具有指定采样率的合成语音s。通过上采样模块33对各通道上的合成语音进行上采样，有利于得到符合指定采样率要求的合成语音。例如各通道上的合成语音是4KHz，通过4倍的上采样，最终可以得到16KHz的合成语音。

进一步，在一可选实施例中，多通道线性预测网络声码器可单独部署，并与语音预处理系统相互配合，实现语音合成过程。基于此，如图1d所示，在帧速率网络10之前还包括：语音预处理系统50；语音预处理系统50包括：滤波分析层(Analysis Filterbank)51、下采样模块52和特征提取器(Feature Extractor)53。其中，滤波分析层51用于接收全频带的初始语音s0，并对全频带初始语音s0进行子带分析处理，得到n个通道上的语音信号是s0_1-s0_n；进一步，特征提取器53对n个通道上的语音信号是s0_1-s0_n进行特征提取，得到n个通道上的声学特征f1-fn；其中，n个通道上的声学特征f1-fn一方面被送入帧速率网络10，另一方面被送入n个LPC 40。进一步可选地，在对n个通道上的语音信号是s0_1-s0_n进行特征提取之前，还可以通过下采样模块52对n个通道上的语音信号是s0_1-s0_n进行下采样处理，减少每个通道上的采样值，节约计算量。

在本申请实施例中，多通道线性预测网络声码器支持多通道输入，通过将待合成文本在多个通道上的声学特征输入该多通道线性预测网络声码器，可合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

最后说明，本申请实施例提供的多通道线性预测网络声码器可以采用硬件实现，也可以采用软件实现。在采用硬件实现的情况下，图1a中各网络均为硬件模块，例如可以是采用CPLD、FPGA实现的硬件模块，但不限于此。在采用软件实现的情况下，图1a中各网络均为软件模块，多通道线性预测网络声码器可实现为计算机程序，例如可以是应用程序、程序代码、插件或SDK等。

本申请实施例还提供一种基于结合了线性预测编码的神经网络实现的语音合成方法。如图2a所示，该方法包括：

21a、获取待合成文本在多个通道上的声学特征，不同通道对应不同声学频带。

22a、利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差。

23a、根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

在本实施例中，采用多通道方式进行语音合成，相比于单通道语音合成方式，可以提高语音合成效率；进一步，将线性预测编码技术和神经网络相结合，采用结合了线性预测编码的神经网络进行多通道的语音合成，有利于保证语音合成质量。

在一可选实施例中，提供一种多通道线性预测网络声码器，多通道线性预测网络声码器可以采用硬件实现，也可以采用软件实现。无论多通道线性预测网络声码器是硬件实现，还是软件实现，都包含结合了线性预测编码的神经网络，因此，本申请实施例的语音合成方法可由多通道线性预测网络声码器实现。即将待合成文本在多个通道上的声学特征送入多通道线性预测网络声码器，由多通道线性预测网络声码器对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差，进一步根据多个通道的上的线性预测参数和非线性残差利用多通道线性预测网络声码器对多个通道上的声学特征。

在本实施例中，并未限定本实施例提供的语音合成方法或者说是多通道线性预测网络声码器的部署实施方式。其中，本实施例提供的语音合成方法或多通道线性预测网络声码器的部署实施方式不同，步骤21a中获取待合成文本在多个通道上的声学特征的实施方式会有所不同。

在一可选实施例中，本实施例提供的语音合成方法或多通道线性预测网络声码器可单独部署实施，并与语音合成系统中的前端模块相互配合，实现语音合成过程。基于此，如图2b所示，另一种语音合成方法的流程包括：

21b、接收语音合成系统中前端模块发送的待合成文本在多个通道上的声学特征；待合成文本在多个通道上的声学特征是前端模块对待合成文本进行特征提取得到的。

22b、利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差。

23b、根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

在另一可选实施例中，本实施例提供的语音合成方法或多通道线性预测网络声码器可集成在语音合成系统中实现。基于此，如图2c所示，另一种语音合成方法的流程包括：

21c、接收终端设备发送的语音合成请求，语音合成请求包含待合成文本。

22c、对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征。

23c、利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差。

24c、根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

25c、将待合成语音返回给终端设备，以供终端设备输出所述合成语音。

在又一可选实施例中，本实施例提供的语音合成方法或多通道线性预测网络声码器可单独部署，并与语音预处理系统相互配合，实现语音合成过程。该语音合成方法可应用于语音识别、语音编码以及说话人识别等场景中。基于此，如图2d所示，另一种语音合成方法的流程包括：

21d、获取待合成文本对应的初始语音。

22d、利用与多个通道对应的滤波器对初始语音进行子带分析，得到多通道上的语音信号。

23d、对多通道上的语音信号分别进行特征提取，得到多个通道上的声学特征。

24d、利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差。

25d、根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

在图2a所示实施例中，语音预处理系统可用于接收待合成文本，获取待合成文本对应的初始语音；并且，语音预处理系统可包括滤波器，采样模块以及特征提取器，通过滤波器能够对初始语音进行子带分析，得到多通道上的语音信号；再通过采样模块与特征提取器，可分别对多通道上的语音信号进行采样和特征提取，得到多个通道上的声学特征。

无论是上述哪种实施例，在得到待合成文本在多通道上的声学特征之后，可将多通道上的声学特征提交至多通道线性预测网络声码器，利用该多通道线性预测网络声码器包含结合了线性预测编码的神经网络，对多个通道上的声学特征进行预测得到多个通道上的线性预测参数和非线性残差，进一步，根据多个通道上的线性预测参数和非线性残差进行语音合成得到待合成文本对应的合成语音。

在上述可选实施例中，无论多通道线性预测网络声码器采用何种部署实施方式，对其利用多通道上的声学特征的语音合成没有影响，语音合成过程均相同。

进一步，利用多通道线性预测网络声码器对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差的过程包括：多通道线性预测网络声码器利用帧速率网络，对多通道上的声学特征以帧为单位进行特征转换，得到条件向量，在此，并不限定一帧的时间长度，例如可以是10ms、20ms等，可根据实际情况灵活设定；根据声学特征采样率的不同，一帧包含的采样特征的数量也有所不同。另一方面，由于语音信号具有短时不变的特性，可被近似为线性时不变，因此，对多个通道上的声学特征分别进行线性预测编码，将每个通道上的声学特征用一组过去时刻的采样特征的线性组合来逼近，即当前声学特征的采样值可以近似由若干相邻历史时刻的采样值线性表示，根据实际采样值与线性预测之差的平方和最小的原则，能够得到多个通道上的线性预测参数，例如：语音合成中需要的基音、共振峰、声谱、声道面积函数等。知道了线性预测参数，可反向推导合成出语音信号，并且，线性预测编码能够提供非常精确的语音参数预测，有利于提高语音合成的质量。进一步地，基于条件向量和多个通道上的线性预测参数，利用多通道线性预测网络声码器中的采样率网络，可以预测多个通道上的非线性残差；其中，每个通道上的非线性残差是指与该通道上的声学特征对应的实际语音信号与预测语音信号之间的差值。

在得到多个通道上的线性预测参数和非线性残差之后，在多通道线性预测网络声码器内，进一步根据多个通道上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

可选地，上述根据多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音，包括：在多通道线性预测网络声码器内，对每个通道，根据该通道上的线性预测参数和非线性残差进行语音合成，得到该通道上的合成语音；将多个通道上的合成语音进行叠加，得到待合成文本对应的合成语音。进一步可选地，将多个通道上的合成语音进行叠加，得到待合成文本对应的合成语音，包括：对每个通道上的合成语音进行上采样，得到每个通道上具有指定采样率的合成语音；例如各通道上的合成语音是4KHz，通过4倍的上采样，最终可以得到16KHz的合成语音；最后，对多个通道上具有指定采样率的合成语音进行叠加，得到待合成文本对应的合成语音。

在本申请实施例中，每个通道上的声学特征包括多个采样特征，因此，在对多个通道上的声学特征分别进行线性预测编码，计算多个通道上的线性预测参数时，是以采样特征为单位进行计算的。具体地，可对每个通道上的当前采样特征和通道上前一采样特征对应的合成语音进行线性预测，得到其对应通道上当前采样特征对应的线性预测参数。相应地，基于条件向量和多个通道上的线性预测参数，利用多通道线性预测网络声码器中的采样率网络预测多个通道上的非线性残差，包括：将条件向量、多个通道上当前采样特征对应的线性预测参数、多个通道上前一采样特征对应的合成语音以及采样率网络输出的多个通道上前一采样特征对应的非线性残差输入采样率网络进行非线性预测，得到多个通道上当前采样特征对应的非线性残差。

在本申请实施例中，计算多个通道上当前采样特征对应的非线性残差是由采样率网络实现的，其中，采样率网络包括主采样率网络和与多个通道对应的多个子采样率网络。通过将条件向量、多个通道上当前采样特征对应的线性预测参数、多个通道上前一采样特征对应的合成语音以及采样率网络输出的多个通道上前一采样特征对应的非线性残差输入主采样率网络进行向量化处理，可以得到参数向量；再将参数向量分别输入多个通道对应的子采样率网络进行残差分类，可得到多个通道上当前采样特征对应的非线性残差。

在本申请实施例中，主采样率网络依次包括连接层、门控制循环单元GRU_A和门控制循环单元GRU_B；每个子采样率网络依次包括对偶全连接层、分类器以及采样层。在主采样网络中，连接层用于对条件向量、多个通道上当前采样特征对应的线性预测参数、多个通道上前一采样特征对应的合成语音以及采样率网络输出的多个通道上前一采样特征对应的非线性残差进行连接，形成特征向量。门控制循环单元GRU_A和门控制循环单元GRU_B，用于对连接后的特征向量进行循环计算，最终得到参数向量。在子采样网络中，对偶全连接层用于预估每个通道的语音合成值，判断每个通道的语音合成值是否在预设阈值范围内，若是，则可确定该预估值为每个通道的语音合成值；进而，分类器对语音合成值进行计算，生成概率分布函数，采样层依据此概率分布函数进行采样，获得其对应通道采样特征对应的非线性残差预测值。

在本申请实施例中，基于多通道线性预测网络声码器实现的语音合成方法，能够将待合成文本在多个通道上的声学特征输入多通道线性预测网络声码器，可合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

在本申请一些可选实施例中，还可以同时提供多通道语音合成方案和单通道语音合成方案，并且，可根据具体需求选择合适的语音合成方案对待合成文本进行语音合成。其中，多通道语音合成方案是采用多通道线性预测网络声码器进行语音合成的方案；单通道语音合成方案是指采用单通道线性预测网络声码器进行语音合成的方案。

具体地，在如图2c所示实施例中，在执行步骤22c，即对待合成文本进行特征提取，得到带的合成文本在多个通道上的声学特征之前，还可以根据待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案；若判断结果为是，则执行对待合成文本进行多个通道的特征提取，得到待合成文本在多个通道上的声学特征，利用多通道线性预测网络声码器对待合成文本进行语音合成并将合成语音返回给终端设备；若判断结果为否，则对待合成文本进行单个通道的特征提取，得到待合成文本在单个通道上的声学特征；利用单通道的线性预测网络声码器对所述单个通道上的声学特征进行语音合成，得到待合成文本对应的合成语音；以及将待合成语音返回给终端设备，以供终端设备输出合成语音。

其中，待合成文本的属性可以是文本大小和/或文本类型；文本类型包括但不限于：word文档、txt文本、pdf文本、包含文字的图片等。用户属性可以是用户等级、用户所在位置、用户所属的群体类型等。可选地，可以单独根据待合成文本的属性判断是否需要使用多通道语音合成方案。例如，可以预先设定多通道语音合成方案对应的文本大小阈值，则可以将待合成文本的大小与该文本大小阈值进行比较；在待合成文本的大小(例如包含的字数、字节数等)大于设定文本大小阈值时，确定需要使用多通道语音合成方案，有利于提升合成效率。可选地，可以单独根据待合成文本对应的用户属性判断是否需要使用多通道语音合成方案。例如，可以预先设定多通道语音合成方案对应的用户级别门限，则可以将待合成文本对应的用户级别与该用户级别门限进行比较；在待合成文本对应的用户级别高于该用户级别门限时，确定需要使用多通道语音合成方案，有利于提升合成效率，保证级别较高的用户的使用体验。当然，也可以同时结合待合成文本的属性和用户属性判断是否需要使用多通道语音合成方案。

除上述根据待合成文本的属性和/或用户属性来选择适合使用的语音合成方案之外，还可以将同时提供多通道语音合成方案和单通道语音合成方案的信息提供给用户，由用户决定具体使用哪种语音合成方案。基于此，终端设备可根据待合成文本的属性和/或用户属性，或者用户的指示，确定需要使用哪种语音合成方案，并在确定需要使用的语音合成方案后上报给服务端设备，进行具体的语音合成。例如：终端设备可以根据待合成文本的大小、类型以及用户等级等信息，确定需要使用多通道语音合成方案，并向服务端设备发送请求使用多通道语音合成方案的信息。基于此，服务端设备还可以接收终端设备发送的请求使用多通道语音合成方案的信息，并根据请求使用多通道语音合成方案的信息，对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征，利用多通道线性预测网络声码器对待合成文本进行语音合成并将合成语音返回给终端设备，以供终端设备输出合成语音。其中，终端设备可根据待合成文本的属性和/或用户属性确定需要使用哪种语音合成方案的实施方式，与服务端设备根据待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案的实施方式相同或类似，可参见前述实施方式，在此不再赘述。

进一步，本申请实施例还提供一种语音合成系统，如图3所示，该语音合成系统1000包括：终端设备1200以及用于语音合成的服务端设备1100；其中，终端设备1200用于向服务端设备1100发送语音合成请求以及接收服务端设备1100返回的待合成文本对应的合成语音并输出该合成语音，其中，语音合成请求中包含待合成文本；服务端设备1100接收到语音合成请求，对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征；进而，利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差；进一步，根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音，并将合成语音返回给终端设备1200，以供终端设备1200对外播放合成语音。

关于利用多通道线性预测网络声码器对多个通道上的声学特征进行语音合成的详细过程，可参见上述实施例，在此不再赘述。

在本申请实施例中，不限定终端设备1200和服务端设备1100的实现形态，其中，终端设备1200可以是web端、手机、平板电脑、笔记本电脑以及其他终端设备；服务端设备1100可以是具有前后端的服务系统，可以是单一的服务器设备，也可以是服务器阵列或者云端服务器等，在此不做限定。

例如，在用户使用终端设备(例如电脑或智能手机)上的即时通信应用(例如钉钉)进行聊天过程中，如果需要将聊天窗口中部分文字转换为语音信号，可以选中聊天窗口中需要转换为语音信号的文本内容；通过即时通信应用支持的触发方式(例如点击文字转语音控件)，调起文字转语音功能；此时，即时通信应用可将被选中的文本内容发送给即时通信应用的服务端；服务端利用多通道线性预测网络声码器将文本内容合成为语音信号并返回给即时通信应用；即时通信应用通过扬声器输出该语音信号。

又例如，用户使用的终端设备(例如电脑或智能手机)上安装有阅读类APP，该阅读类APP支持自动语音播放，用户可以开启该APP的自动语音播放功能，将观看改为收听，可以随意收听喜欢的文章或小说等内容。在开启该APP的语音播放功能之后，用户可以将希望阅读的文章或小说等内容加入阅读列表中，并点击开始阅读；此时，该APP会收到用户发出的开始阅读指令，根据该指令可将阅读列表中的文章或小说等内容上传至服务端；在服务端运行语音合成系统，该语音合成系统内嵌有有本申请实施例提供的多通道线性预测网络声码器，则服务端可利用该语音合成系统将文章或小说等内容转换为语音信号并返回给终端设备上的阅读类APP；该阅读类APP调用终端设备的扬声器播放文章或小说对应的语音信号，使得用户阅读文章或小说的方式从观看改变为收听，适合于用户不便于观看文章或小说的场景。

在本申请一些可选实施例中，终端设备还可以根据用户属性、待合成文本的属性或用户的指示，确定需要使用多通道语音合成方案，并向服务端设备发送请求使用多通道语音合成方案的信息；相应地，服务端设备根据终端设备发送的请求使用多通道语音合成方案的信息，对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征，利用多通道线性预测网络声码器对待合成文本进行语音合成并将合成语音返回给终端设备，以供终端设备输出合成语音。或者，终端设备根据用户属性、待合成文本的属性或用户的指示，确定需要使用单通道语音合成方案，并向服务端设备发送请求使用单通道语音合成方案的信息；相应地，服务端设备根据终端设备发送的请求使用单通道语音合成方案的信息，对待合成文本进行特征提取，得到待合成文本在单个通道上的声学特征；利用单通道的线性预测网络声码器对单个通道上的声学特征进行语音合成，得到待合成文本对应的合成语音；以及将待合成语音返回给终端设备，以供终端设备输出合成语音。

在一些可选实施例中，服务端设备还可以根据待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案，若判断结果为是，则执行对待合成文本进行多通道特征提取，得到待合成文本在多个通道上的声学特征，利用多通道线性预测网络声码器对待合成文本进行语音合成并将合成语音返回给终端设备，以供终端设备输出合成语音；若判断结果为否，则执行对待合成文本进行单通道特征提取，得到待合成文本在单个通道上的声学特征；利用单通道的线性预测网络声码器对单个通道上的声学特征进行语音合成，得到待合成文本对应的合成语音；以及将待合成语音返回给终端设备，以供终端设备输出合成语音。

在本申请实施例中，通过终端设备与服务端设备配合，获取多通道上的声学特征，利用支持多通道输入的多通道线性预测网络声码器，获取待合成文本在多个通道上的声学特征，合成出该待合成文本对应的语音信号；其中，基于线性预测进行语音合成可保证语音合成质量，与此同时，借助于多通道的优势可提高语音合成效率。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤21d至步骤25d的执行主体可以为设备A；又比如，步骤21d至步骤22d的执行主体可以为设备A，步骤23d至步骤25d的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如21a、22a等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图4为本申请示例性实施例提供的一种语音合成设备的结构示意图。该语音合成设备包含多通道线性预测网络声码器。如图4所示，语音合成设备包括：存储器402和处理器401。

存储器402，用于存储计算机程序，并可被配置为存储其它各种数据以支持在语音合成设备上的操作。这些数据的示例包括用于在语音合成设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器401与存储器402耦合，用于执行存储器402中存储的计算机程序，以用于：获取待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差；根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音。

在一可选实施例中，处理器401在获取待合成文本在多个通道上的声学特征时，具体用于：接收语音合成系统中前端模块发送的待合成文本在多个通道上的声学特征；待合成文本在多个通道上的声学特征是前端模块对待合成文本进行特征提取得到的。

在一可选实施例中，处理器401在获取待合成文本在多个通道上的声学特征时，具体用于：获取待合成文本对应的初始语音；利用与多个通道对应的滤波器对初始语音进行子带分析，得到多通道上的语音信号；对多通道上的语音信号分别进行特征提取，得到多个通道上的声学特征。

在一可选实施例中，处理器401在利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差时，具体用于：将多个通道上的声学特征输入多通道线性预测网络声码器，多通道线性预测网络声码器包含结合了线性预测编码的神经网络；以及利用多通道线性预测网络声码器对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差。

在一可选实施例中，处理器401在利用多通道线性预测网络声码器对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差时，具体用于：利用多通道线性预测网络声码器中的帧速率网络，对多个通道上的声学特征以帧为单位进行特征转换得到条件向量；对多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数；基于条件向量和多个通道上的线性预测参数，利用多通道线性预测网络声码器中的采样率网络预测多个通道上的非线性残差。

在一可选实施例中，处理器401在根据多个通道上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音时，具体用于：在多通道线性预测网络声码器内，对每个通道，根据通道上的线性预测参数和非线性残差进行语音合成，得到通道上的合成语音；将多个通道上的合成语音进行叠加，得到待合成文本对应的合成语音。

在一可选实施例中，处理器401在将多个通道上的合成语音进行叠加，得到待合成文本对应的合成语音时，具体用于：对多个通道上的合成语音进行上采样，得到多个通道上具有指定采样率的合成语音；对多个通道上具有指定采样率的合成语音进行叠加，得到待合成文本对应的合成语音。

在本申请实施例中，每个通道上的声学特征包括多个采样特征；处理器401在对多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数时，具体用于：对每个通道，对该通道上的当前采样特征和该通道上前一采样特征对应的合成语音进行线性预测，得到该通道上当前采样特征对应的线性预测参数。

在一可选实施例中，处理器401在基于条件向量和多个通道上的线性预测参数，利用多通道线性预测网络声码器中的采样率网络预测多个通道上的非线性残差时，具体用于：将条件向量、多个通道上当前采样特征对应的线性预测参数、多个通道上前一采样特征对应的合成语音以及采样率网络输出的多个通道上前一采样特征对应的非线性残差输入采样率网络进行非线性预测，得到多个通道上当前采样特征对应的非线性残差。

在本申请实施例中，采样率网络包括主采样率网络和与多个通道对应的多个子采样率网络。基于此，处理器401在将条件向量、多个通道上当前采样特征对应的线性预测参数、多个通道上前一采样特征对应的合成语音以及采样率网络输出的多个通道上前一采样特征对应的非线性残差输入采样率网络进行非线性预测，得到多个通道上当前采样特征对应的非线性残差时，具体用于：将条件向量、多个通道上当前采样特征对应的线性预测参数、多个通道上前一采样特征对应的合成语音以及采样率网络输出的多个通道上前一采样特征对应的非线性残差输入主采样率网络进行向量化处理，得到参数向量；将参数向量分别输入多个子采样率网络进行残差分类，得到多个通道上当前采样特征对应的非线性残差。

在本申请实施例中，主采样率网络依次包括连接层、门控制循环单元GRU_A和门控制循环单元GRU_B；每个子采样率网络依次包括对偶全连接层、分类器以及采样层。

在一可选实施例中，处理器401在对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征之前，还用于：根据待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案；若判断结果为是，执行对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征的操作。

进一步，处理器401还用于：在判断结果为否，对待合成文本进行特征提取，得到待合成文本在单个通道上的声学特征；利用单通道的线性预测网络声码器对单个通道上的声学特征进行语音合成，得到待合成文本对应的合成语音；以及将待合成语音返回给终端设备，以供终端设备输出合成语音。

在一可选实施例中，处理器401还用于：接收终端设备发送的请求使用多通道语音合成方案的信息。进一步，处理器401在对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征时，具体为：根据请求使用多通道语音合成方案的信息，对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征。

进一步，如图4所示，该语音合成设备还包括：通信组件403、显示器407、电源组件408、音频组件409等其它组件。图4中仅示意性给出部分组件，并不意味着计算设备只包括图4所示组件。另外，图4中虚线框内的组件为可选组件，而非必选组件，具体可视计算设备的产品形态而定。本实施例的计算设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图4中虚线框内的组件；若本实施例的计算设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图4中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述图2a-图2d所示方法实施例中的各步骤。

本申请实施例还提供了一种语音合成设备，该语音合成设备与图4所示语音合成设备的结构相同或类似，其内部结构可参见图4所示实施例。本实施例的语音合成设备与图4所示语音合成设备的区别在于：处理器401在执行存储器中存储的计算机程序所实现的功能有所不同。本实施例的语音合成设备，其处理器401执行存储器402中的计算机程序以用于：接收终端设备发送的语音合成请求，语音合成请求包含待合成文本；对待合成文本进行特征提取，得到待合成文本在多个通道上的声学特征；利用结合了线性预测编码的神经网络对多个通道上的声学特征进行预测，得到多个通道上的线性预测参数和非线性残差；根据多个通道的上的线性预测参数和非线性残差进行语音合成，得到待合成文本对应的合成语音；以及将待合成语音返回给终端设备，以供终端设备输出合成语音。关于利用多通道线性预测网络声码器对多个通道上的声学特征进行语音合成的详细过程，可参见上述实施例，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述图2c所示方法实施例中的各步骤。

上述图4中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还可以包括近场通信(NFC)模块，射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术等。

上述图4中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述图4中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图4中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取得到待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；

利用结合了线性预测编码的神经网络对所述多个通道上的声学特征分别进行预测，得到所述多个通道上的线性预测参数和非线性残差；

根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音，包括：

对每个通道，根据所述通道上的线性预测参数和非线性残差进行语音合成，得到所述通道上的合成语音；将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。

2.根据权利要求1所述的方法，其特征在于，所述待合成文本在多个通道上的声学特征是语音合成系统中前端模块利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取得到的。

3.根据权利要求1-2任一项所述的方法，其特征在于，利用结合了线性预测编码的神经网络对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差，包括：

将所述多个通道上的声学特征输入多通道线性预测网络声码器，所述多通道线性预测网络声码器包含结合了线性预测编码的神经网络；以及

利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差。

4.根据权利要求3所述的方法，其特征在于，利用所述多通道线性预测网络声码器对所述多个通道上的声学特征进行预测，得到所述多个通道上的线性预测参数和非线性残差，包括：

利用所述多通道线性预测网络声码器中的帧速率网络，对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量；

对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数；

基于所述条件向量和所述多个通道上的线性预测参数，利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差。

5.根据权利要求1所述的方法，其特征在于，将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音，包括：

对所述多个通道上的合成语音进行上采样，得到所述多个通道上具有指定采样率的合成语音；

对所述多个通道上具有指定采样率的合成语音进行叠加，得到所述待合成文本对应的合成语音。

6.根据权利要求4所述的方法，其特征在于，每个通道上的声学特征包括：多个采样特征；对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数，包括：

对每个通道，对所述通道上的当前采样特征和所述通道上前一采样特征对应的合成语音进行线性预测，得到所述通道上当前采样特征对应的线性预测参数。

7.根据权利要求6所述的方法，其特征在于，基于所述条件向量和所述多个通道上的线性预测参数，利用所述多通道线性预测网络声码器中的采样率网络预测所述多个通道上的非线性残差，包括：

将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述采样率网络进行非线性预测，得到所述多个通道上当前采样特征对应的非线性残差。

8.根据权利要求7所述的方法，其特征在于，所述采样率网络包括：主采样率网络和与所述多个通道对应的多个子采样率网络；

将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述采样率网络进行非线性预测，得到所述多个通道上当前采样特征对应的非线性残差，包括：

将所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差输入所述主采样率网络进行向量化处理，得到参数向量；

将所述参数向量分别输入所述多个子采样率网络进行残差分类，得到所述多个通道上当前采样特征对应的非线性残差。

9.根据权利要求8所述的方法，其特征在于，所述主采样率网络依次包括：连接层、门控制循环单元GRU_A和门控制循环单元GRU_B；每个子采样率网络依次包括：对偶全连接层、分类器以及采样层。

10.一种多通道线性预测网络声码器，其特征在于，包括：支持多通道输入的帧速率网络、多个线性预测编码器LPC、支持多通道输入的采样率网络以及合成网络；

所述帧速率网络，用于接收待合成文本在多个通道上的声学特征，对所述多个通道上的声学特征以帧为单位进行特征转换得到条件向量，并将所述条件向量输出至所述采样率网络，不同通道对应不同声学频带；

所述多个线性预测编码器LPC，用于对所述多个通道上的声学特征分别进行线性预测编码，得到多个通道上的线性预测参数，并输出至所述采样率网络和所述合成网络；

所述采样率网络，用于基于所述条件向量和所述多个通道上的线性预测参数，预测所述多个通道上的非线性残差，并输出至所述合成网络；

所述合成网络，用于根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；所述合成网络包括：与所述多个通道对应的多个合成子网络，以及叠加子网络；

每个合成子网络，用于根据其对应通道上的线性预测参数和非线性残差进行语音合成，得到其对应通道上的合成语音，并输出至所述叠加子网络；

所述叠加子网络，用于对所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。

11.根据权利要求10所述的声码器，其特征在于，所述合成网络还包括：

上采样模块，用于对所述多个通道上的合成语音进行上采样，得到所述多个通道上具有指定采样率的合成语音，并输出至所述叠加子网络，以供所述叠加子网络对所述多个通道上具有指定采样率的合成语音进行叠加，得到所述待合成文本对应的合成语音。

12.根据权利要求11所述的声码器，其特征在于，每个通道上的声学特征包括：多个采样特征；每个LPC具体用于：对其对应通道上的当前采样特征和其对应通道上前一采样特征对应的合成语音进行线性预测，得到其对应通道上当前采样特征对应的线性预测参数。

13.根据权利要求12所述的声码器，其特征在于，所述采样率网络具体用于：根据所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差，预测所述多个通道上当前采样特征对应的非线性残差。

14.根据权利要求13所述的声码器，其特征在于，所述采样率网络包括：主采样率网络和与所述多个通道对应的多个子采样率网络；

所述主采样率网络，用于对所述条件向量、所述多个通道上当前采样特征对应的线性预测参数、所述多个通道上前一采样特征对应的合成语音以及所述采样率网络输出的所述多个通道上前一采样特征对应的非线性残差进行向量化处理，得到参数向量，并输出至所述多个子采样率网络；

所述多个子采样率网络，用于分别对所述参数向量进行残差分类，得到所述多个通道上当前采样特征对应的非线性残差。

15.根据权利要求14所述的声码器，其特征在于，所述主采样率网络依次包括：连接层、门控制循环单元GRU_A和门控制循环单元GRU_B；每个子采样率网络依次包括：对偶全连接层、分类器以及采样层。

16.一种语音合成设备，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：

根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音，包括：对每个通道，根据所述通道上的线性预测参数和非线性残差进行语音合成，得到所述通道上的合成语音；将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。

17.根据权利要求16所述的设备，其特征在于，所述处理器具体用于：

18.根据权利要求17所述的设备，其特征在于，所述处理器具体用于：

19.一种语音合成方法，其特征在于，包括：

接收终端设备发送的语音合成请求，所述语音合成请求包含待合成文本；

利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取，得到所述待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；

根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；以及

将所述合成语音返回给所述终端设备，以供所述终端设备输出所述合成语音；

其中，根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音，包括：对每个通道，根据所述通道上的线性预测参数和非线性残差进行语音合成，得到所述通道上的合成语音；将所述多个通道上的合成语音进行叠加，得到所述待合成文本对应的合成语音。

20.根据权利要求19所述的方法，其特征在于，在利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取，得到所述待合成文本在多个通道上的声学特征之前，还包括：

根据所述待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案；

若判断结果为是，执行对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征的操作。

21.根据权利要求20所述的方法，其特征在于，在利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取，得到所述待合成文本在多个通道上的声学特征之前，还包括：接收所述终端设备发送的请求使用多通道语音合成方案的信息；得到所述待合成文本在多个通道上的声学特征具体为：根据请求使用多通道语音合成方案的信息，利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取，得到所述待合成文本在多个通道上的声学特征。

22.一种语音合成系统，其特征在于，包括：终端设备以及用于语音合成的服务端设备；

所述终端设备，用于向所述服务端设备发送语音合成请求，所述语音合成请求包含待合成文本；以及接收所述服务端设备返回的所述待合成文本对应的合成语音并输出所述合成语音；

所述服务端设备，用于接收到所述语音合成请求，利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取，得到所述待合成文本在多个通道上的声学特征，不同通道对应不同声学频带；利用结合了线性预测编码的神经网络对所述多个通道上的声学特征分别进行预测，得到所述多个通道上的线性预测参数和非线性残差；根据所述多个通道上的线性预测参数和非线性残差进行语音合成，得到所述待合成文本对应的合成语音；将所述合成语音返回给所述终端设备；

23.根据权利要求22所述的系统，其特征在于，所述终端设备还用于：根据用户属性、所述待合成文本的属性或用户的指示，确定需要使用多通道语音合成方案，并向所述服务端设备发送请求使用多通道语音合成方案的信息；

或者，

所述服务端设备具体用于：根据所述终端设备发送的请求使用多通道语音合成方案的信息，利用与多个通道对应的滤波器对待合成文本对应的初始语音进行子带分析，对子带分析得到的多通道上的语音信号分别进行特征提取，得到所述待合成文本在多个通道上的声学特征。

24.根据权利要求22所述的系统，其特征在于，所述服务端设备还用于：根据所述待合成文本的属性和/或用户属性判断是否需要使用多通道语音合成方案；若判断结果为是，执行对所述待合成文本进行特征提取，得到所述待合成文本在多个通道上的声学特征。

25.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-9以及19-21中任一项所述方法中的步骤。