CN111862931A

CN111862931A - 一种语音生成方法及装置

Info

Publication number: CN111862931A
Application number: CN202010390332.0A
Authority: CN
Inventors: 文成; 郭庭炜
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-10-30

Abstract

本申请提供了一种语音生成方法及装置，所述方法首先获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；然后，利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；最后，根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。本申请能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

Description

一种语音生成方法及装置

技术领域

本申请涉及语音合成技术领域，尤其是涉及一种语音生成方法及装置。

背景技术

近年来，语音合成技术(Text-to-Speech，TTS)取得了重要进展，在工业界也得到了普遍应用，如智能语音播报、导航、智能音响、语音助手等。语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。在语音合成的过程中，通常存在极大的计算量，需要强大的浮点运算能力才能达到较好的语音合成效果，占用的资源较多，效率较低，且对硬件的要求较高。因此，如何在保证语音信号质量的前提下，减少资源的占用，成为了一个亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音生成方法及装置，能够有效减少生成语音信号所需的计算量，进而减少资源占用，提高生成语音信号的效率。

本申请实施例提供了一种语音生成方法，所述方法包括：

获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；

利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；

根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。

在一种可能的实施方式中，所述利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号，包括：

利用所述目标声码器，根据语音特征与语音信号之间的映射关系，从多个候选语音信号中筛选出所述待生成语音在每一帧的目标语音特征对应的语音信号；

根据筛选得到的所述待生成语音在每一帧的目标语音特征对应的语音信号，生成所述待生成语音的初始语音信号。

在一种可能的实施方式中，所述根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号，包括：

针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量；

利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号。

在一种可能的实施方式中，所述针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量，包括：

针对每一帧的目标语音特征，对该帧的目标语音特征进行两次卷积处理，得到卷积特征；

将该帧的目标语音特征与其对应的卷积特征相加，得到中间特征；

对该帧的中间特征进行两次全连接处理，得到该帧的特征向量。

在一种可能的实施方式中，所述利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号，包括：

针对每一帧特征向量，利用所述语音生成神经网络，根据该帧的特征向量及该帧的所述初始语音信号，预测在该帧的初始时刻时，所述初始语音信号与所述待生成语音的标准语音信号的残差值；

根据所述残差值与所述初始语音信号，生成在该帧的初始时刻时，所述待生成语音的语音信号；

针对该帧中除所述初始时刻外的每一时刻，利用所述语音生成神经网络，根据该时刻的前一时刻的所述语音信号、所述前一时刻的所述语音信号对应的残差值、所述该帧的特征向量以及该帧的所述初始语音信号，生成该时刻下，所述待生成语音的语音信号；

将每一帧中每一时刻下的所述待生成语音的语音信号按照时序组合，生成所述待生成语音的语音信号。

在一种可能的实施方式中，所述目标声码器为WORLD声码器。

在一种可能的实施方式中，所述频谱包络特征包括梅尔倒谱系数。

在一种可能的实施方式中，所述方法还包括训练所述语音生成神经网络的步骤：

获取目标训练样本，所述目标训练样本包括多个语音特征训练样本及每个语音特征训练样本对应的标准语音信号；

利用所述目标声码器对每个所述语音特征训练样本进行处理，生成每个所述语音特征训练样本对应的初始语音信号训练样本；

利用所述语音特征训练样本、每个语音特征训练样本对应的初始语音信号训练样本及每个语音特征训练样本对应的标准语音信号，对所述语音生成神经网络进行训练。

在一种可能的实施方式中，所述语音生成神经网络的类型为循环神经网络。

本申请实施例还提供了一种语音生成装置，所述装置包括：

获取模块，用于获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；

第一生成模块，用于利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；

第二生成模块，用于根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。

在一种可能的实施方式中，所述第一生成模块具体用于：

在一种可能的实施方式中，所述第二生成模块具体用于：

在一种可能的实施方式中，所述第二生成模块在针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量时，具体用于：

在一种可能的实施方式中，所述第二生成模块在利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号时，具体用于：

在一种可能的实施方式中，所述目标声码器为WORLD声码器。

在一种可能的实施方式中，所述装置还包括模型训练模块，所述模型训练模块用于：

本申请实施例还提供一种电子设备，可以包括一个或多个存储介质、一个或多个与存储介质通信的处理器和总线。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，可以执行一个或多个以下操作：

在一种可能的实施方式中，处理器执行所述机器可读指令时，可以执行一个或多个以下操作：

在一种可能的实施方式中，所述目标声码器为WORLD声码器。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音生成方法的步骤。

本申请实施例提供的语音生成方法及装置，首先获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；然后，利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；最后，根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。本申请能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语音生成方法的流程图；

图2示出了本申请实施例所提供的另一种语音生成方法的流程图；

图3示出了本申请实施例所提供的一种语音生成装置的结构示意图；

图4示出了本申请实施例所提供的另一种语音生成装置的结构示意图；

图5示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

经研究发现，现有的语音合成方法，通常采用数字信号处理及神经网络处理的两种方式。在采用数字信号处理的方式中，合成语音的速度较快，可以在一般的处理器上实行，但语音质量并不理想；而采用神经网络处理的方式中，合成的语音质量要明显高于采用数字信号处理的方式，但由于需要进行大量的计算，需要高强度的浮点运算能力，依赖于处理器的性能，且生成速度缓慢，不能在一般的处理器上实行。

基于此，本申请实施例提供了一种语音生成方法，能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

请参阅图1，图1为本申请实施例所提供的一种语音生成方法的流程图。如图1中所示，本申请实施例提供的语音生成方法，包括：

S101、获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征。

在该步骤之前，可以先获取与待生成语音对应的目标文本，然后通过语言处理及声学处理，将目标文本转化成音素序列，并标出每个音素的起止时间、频率变化等信息，生成待生成语音的目标语音特征。

其中，目标语音特征可以是待生成语音在语音信号上具备的特征，可以通过特征与文本的对应关系确定。具体的，目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征。声带每开启和关闭一次的时间是基音周期，其倒数即为基本频率特征，可以表示语音基础的高度。频谱包络特征是将不同频率的振幅最高点连结起来形成的曲线，包含语音的多种频率集合，可以代表音调。非周期性指数特征可以显示声带振动或噪音混合的影响。

这里，目标语音特征是以帧数采集的，每一帧待识别语音都对应一个目标语音特征，每个目标语音特征中可以包括多个维度，储存多种特征数据。

示例性的，一个目标语音特征可以包括66个维度，其中，包含60维的梅尔倒谱系数特征(频谱包络特征)，5维的非周期特征，1维的基本频率特征。

S102、利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号。

该步骤中，可以将目标语音特征输入进目标声码器中，目标声码器对目标语音特征中的基本频率特征、频谱包络特征以及非周期性指数特征进行处理，生成待生成语音在每一帧的初始语音信号。

这里，目标声码器可以是基于数字信号处理的声码器，如WORLD声码器，该声码器可以用于提取语音的语音特征，或根据提取语音特征的方式，根据输入的语音特征信息反向生成语音信号。由于基于数字信号处理的声码器生成的语音质量不理想，与真实的语音还有一定的差距，但生成的初始语音信号符合一定的线性规律，与真实的语音较为相似，因此，可以先利用目标声码器生成初始语音信号，再针对初始语音信号进行处理，得到质量较高的语音信号。

S103、根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。

该步骤中，可以在生成初始语音信号之后，根据初始语音信号及目标语音特征，对初始语音信号进行处理，确定出非线性的语音信号，并将线性的初始语音信号与非线性的语音信号合成，生成符合真实语音的语音信号。

具体的，可以利用神经网络模型，学习初始语音信号、语音特征及真实语音信号之间的关系，示例性的，可以先确定真实语音信号与初始语音信号的残差值，再让神经网络模型学习残差值与目标语音特征之间的关系。

这样，不直接学习语音特征及真实语音信号之间的关系，而是学习残差值与语音特征之间的关系，不需要对完整的语音进行建模，只需要针对变化相对较小的残差值部分进行建模，可以大幅度的减少神经网络模型的计算量，由较少的神经元即可实现，从而实现提高生成语音信号的效率，降低资源的占用；由于目标语音信号中包括有非周期性指数特征，生成的语音信号能够更加符合真实的语音信号，进而提高生成的语音信号的质量。

本申请实施例提供的语音生成方法，首先获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；然后，利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；最后，根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。本申请能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

请参阅图2，图2为本申请另一实施例提供的语音生成方法的流程图。如图2中所示，本申请实施例提供的语音生成方法，包括：

S201、获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征。

S202、利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号。

S203、针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量。

该步骤中，由于目标语音特征是以帧数为单位提取的，而语音生成时是以采样点为单位进行的，在一帧中，通常包含多个采样点，如160个采样点，因此，可以先通过一个神经网络为步骤S204中的语音生成神经网络提供特征向量。在不同帧下，该特征向量的值不同，特征向量的值可以通过对每一帧对应的目标语音特征进行卷积及全连接操作确定，在语音生成神经网络中，特征向量能够起到条件向量的作用。

S204、利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号。

该步骤中，由于语音生成神经网络已经学习好真实语音信号和初始语音信号之间的残差值与目标语音特征之间的关系，针对每一帧，可以通过目标语音特征对应的特征向量，以及该特征向量对应的该帧下的初始语音信号，预测该帧下每个时刻的待生成语音的语音信号。在这个过程中，特征向量在其对应的一帧的持续时间内保持恒定，并在进入下一帧时改变，相似的，一帧的初始语音信号在该帧的持续时间内也保持恒定。

具体的，可以先根据目标语音特征对应的特征向量，以及该特征向量对应的该帧下的初始语音信号，预测每一帧的真实语音信号与初始语音信号之间的残差值，再将预测到的残差值与其对应的初始语音信号结合，生成待生成语音在每一帧的语音信号。

其中，待生成语音的语音信号即为最终得到的语音信号。

其中，S201至S202的描述可以参照S101至S102的描述，并且能达到相同的技术效果，对此不做赘述。

该步骤中，目标声码器可以从语音样本中提取出每一帧的语音特征，并将其储存，在目标声码器接收到目标语音特征后，可以根据语音特征与语音信号之间的映射关系，从数据库中的多个候选语音信号中筛选出待生成语音在每一帧的目标语音特征对应的语音信号，再将每一帧的目标语音特征对应的语音信号按照时序排列或组合起来，得到待生成语音的初始语音信号。

示例性的，以WORLD声码器为例，WORLD声码器可以利用DIO算法估算出样本语音信号的基本频率特征，并根据基本频率特征及样本语音信号，利用cheap trick算法估算出样本语音信号的频谱包络特征，最后再根据基本频率特征、频谱包络特征及样本语音信号，确定非周期性指数特征。

对于基本频率特征，WORLD声码器可以使用不同频带的低通滤波器进行参数采集，并计算得到每个可能的基本频率特征的可靠性，并选出置信度最高的基本频率特征。

对于频谱包络特征，WORLD声码器可以利用cheap trick算法，进行做谱分析，首先计算窗口波形下的谱能量，并对其窗口下的总能量进行时域稳定，再对时域稳定后的得到的功率谱进行平滑操作，得到单个周期能量，最后，计算功率谱的倒谱，并做倒谱提升，生成频谱包络特征。

对于非周期性指数特征，WORLD声码器可以先对波形添加窗函数，并计算得到其频谱，再将得到的频谱除以最小相谱，并将其结果进行逆傅里叶变换，得到非周期性指数特征。

对于根据目标语音特征生成初始语音信号的原理，可以由提取目标语音特征的原理反推得出。

该步骤中，可以通过一个神经网络实现，该神经网络可以包括两个卷积层、一个连接层及两个全连接层，具体的，可以将每一帧目标语音特征输入至神经网络中，神经网络通过两个卷积层，对每一帧的目标语音特征进行两次卷积操作，再将每一帧的目标语音特征与其对应的卷积特征相加，得到中间特征，然后，将每一帧的中间特征通过两个全连接层进行全连接操作，得到每一帧的特征向量。

具体的，两个卷积层的大小可以为3(转换3×1)，在进行卷积操作之后可以生成5帧(前两帧、后两帧及当前帧)的感知野，可以对语音生成神经网络起到稳定的作用。

示例性的，上述维度为66的目标语音特征可以通过神经网络得到一个128维的特征向量。

其中，语音生成神经网络可以包括一个连接层，用于连接一帧中一时刻的前一时刻的语音信号、前一时刻的语音信号对应的残差值、该帧的特征向量以及该帧的初始语音信号；语音生成神经网络中可以包括两个GRU(Gate Recurrent Unit)层，GRU为循环神经网络的一种变体，其作用是使连接层得到的向量反复经过滤波器；语音生成神经网络还包括一层双层全连接层及逻辑回归层。

利用上述多个神经网络层可以得到一帧中一时刻的初始语音信号与所述待生成语音的标准语音信号的残差值，将该时刻的残差值与对应的初始语音信号结合，即可得到该时刻的语音信号，再利用该时刻的语音信号、该时刻对应的残差值、该帧的特征向量以及该帧在该时刻后一时刻的初始语音信号，即可得到该时刻后一时刻的语音信号，这样，即可得到待生成语音全部的语音信号。

在一种可能的实施方式中，所述目标声码器为WORLD声码器。

本申请实施例提供的语音生成方法，首先获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；然后，利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；其次，针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量；最后，利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号。本申请能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

请参阅图3、图4，图3为本申请实施例所提供的一种语音生成装置的结构示意图，图4为本申请实施例所提供的另一种语音生成装置的结构示意图。如图3中所示，所述语音生成装置300包括：

获取模块310，用于获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；

第一生成模块320，用于利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；

第二生成模块330，用于根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。

在一种可能的实施方式中，所述第一生成模块320具体用于：

在一种可能的实施方式中，所述第二生成模块330具体用于：

在一种可能的实施方式中，所述第二生成模块330在针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量时，具体用于：

在一种可能的实施方式中，所述第二生成模块330在利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号时，具体用于：

在一种可能的实施方式中，所述目标声码器为WORLD声码器。

在一种可能的实施方式中，如图4所示，所述语音生成装置400包括获取模块410、第一生成模块420、第二生成模块430以及模型训练模块440，所述模型训练模块440用于：

本申请实施例提供的语音生成装置，首先获取待生成语音对应的目标语音特征；所述目标语音特征包括基本频率特征、频谱包络特征以及非周期性指数特征；然后，利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号；最后，根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号。本申请能够根据包括基本频率特征、频谱包络特征以及非周期性指数特征的目标语音特征，先生成语音信号中线性的初始语音信号，再根据初始语音信号和目标语音特征生成语音信号，有效减少计算量，提高生成语音信号的效率，并提高语音信号的质量。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行一个或多个以下操作：

在一种可能的实施方式中，处理器510执行所述机器可读指令时，可以执行一个或多个以下操作：

在一种可能的实施方式中，所述目标声码器为WORLD声码器。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语音生成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用目标声码器对所述目标语音特征进行处理，生成所述待生成语音的初始语音信号，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述初始语音信号及所述目标语音特征，生成所述待生成语音的语音信号，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对每一帧的目标语音特征，对该帧的目标语音特征进行卷积及全连接处理，得到该帧的特征向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述利用预先训练好的语音生成神经网络，根据每一帧的所述特征向量及所述初始语音信号，生成所述待生成语音的语音信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述目标声码器为WORLD声码器。

7.根据权利要求1所述的方法，其特征在于，所述频谱包络特征包括梅尔倒谱系数。

8.根据权利要求3所述的方法，其特征在于，所述方法还包括训练所述语音生成神经网络的步骤：

9.根据权利要求3所述的方法，其特征在于，所述语音生成神经网络的类型为循环神经网络。

10.一种语音生成装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至9任一所述的语音生成方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至9任一所述的语音生成方法的步骤。