CN111223475B

CN111223475B - 语音数据生成方法、装置、电子设备及存储介质

Info

Publication number: CN111223475B
Application number: CN201911204314.2A
Authority: CN
Inventors: 杨鹏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-10-14
Anticipated expiration: 2039-11-29
Also published as: CN111223475A

Abstract

本公开是关于一种语音数据生成方法、装置、电子设备及存储介质，属于互联网技术领域。方法包括：获取声学特征向量，声学特征向量包括待生成语音数据的音色特征，基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征，根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差，基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到，能够适用于多种音色，因此基于该特征处理模型，可以生成具有任一种音色的语音数据，生成的语音数据的音色具有多样性，提高了适用性。

Description

语音数据生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音数据生成方法、装置、电子设备及存储介质。

背景技术

语音合成技术是利用声学、语言学、数字信号处理、计算机科学等生成语音数据的技术，目前已应用到越来越多的电子设备中。随着用户对语音数据的质量要求越来越高，如何基于语音合成技术生成高质量的语音数据成为亟待解决的问题。

相关技术中，根据一个样本对象发出的多条样本语音数据，训练语音数据生成模型，后续即可基于该语音数据生成模型生成语音数据。但是，由于该多条样本语音数据中仅包含该样本对象的音色，因此训练出的语音数据生成模型仅能够生成具有该音色的语音数据，而无法生成具有其他音色的语音数据，因此，上述方法生成的语音数据的音色单一，适用性差。

发明内容

本公开提供了一种语音数据生成方法、装置、电子设备及存储介质，能够克服相关技术中存在的生成的语音数据的音色单一以及适用性差的问题。

根据本公开实施例的第一方面，提供一种语音数据生成方法，所述方法包括：

获取声学特征向量，所述声学特征向量包括待生成语音数据的音色特征；

基于特征处理模型，获取所述声学特征向量对应的线性预测残差的分布特征，所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到；

根据与所述声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到线性预测残差；

基于所述声学特征向量和所述线性预测残差，生成具有所述音色特征的语音数据。

在一种可能实现方式中，所述获取声学特征向量，包括：

获取待生成语音数据的文本数据；

获取所述文本数据对应的文本特征向量；

基于与目标音色对应的特征转换模型，获取所述文本特征向量对应的声学特征向量，所述声学特征向量包括所述目标音色的音色特征。

在另一种可能实现方式中，所述基于所述声学特征向量和所述线性预测残差，生成具有所述音色特征的语音数据，包括：

将所述声学特征向量和所述线性预测残差进行叠加，得到所述语音数据。

在另一种可能实现方式中，所述基于特征处理模型，获取所述声学特征向量对应的线性预测残差的分布特征之前，所述方法还包括：

获取多条样本语音数据的样本声学特征向量和样本线性预测残差，所述多条样本语音数据由具有不同音色的多个样本对象发出；

对于每条样本语音数据，基于所述特征处理模型，获取所述样本声学特征向量对应的目标线性预测残差的分布特征；

根据与所述样本声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到目标线性预测残差；

根据所述目标线性预测残差与所述样本线性预测残差之间的差异，训练特征处理模型。

在另一种可能实现方式中，所述特征处理模型包括条件子模型和特征生成子模型，所述条件子模型包括至少一个卷积层和至少一个全连接层，所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。

对于每条样本语音数据，基于所述条件子模型，获取所述样本声学特征向量对应的第一样本特征向量；

对所述第一样本特征向量进行采样，得到第二样本特征向量，且所述第二样本特征向量的维数与所述样本语音数据的样本线性预测残差的维数相同；

将所述第二样本特征向量和所述样本线性预测残差进行拼接处理，得到第三样本特征向量；

基于所述特征生成子模型，获取目标线性预测残差的分布特征；

根据所述目标线性预测残差与所述样本线性预测残差之间的差异，训练特征处理生成模型。

在另一种可能实现方式中，所述输出层为混合逻辑分布层。

在另一种可能实现方式中，所述获取多条样本语音数据的样本声学特征向量和样本线性预测残差之前，所述方法还包括：

对所述多条样本语音数据进行归一化处理或预加重处理。

根据本公开实施例的第二方面，提供一种语音数据生成装置，所述装置包括：

声学特征获取单元，被配置为获取声学特征向量，所述声学特征向量包括待生成语音数据的音色特征；

分布特征获取单元，被配置为基于特征处理模型，获取所述声学特征向量对应的线性预测残差的分布特征，所述特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到；

残差获取单元，被配置为根据与所述声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到线性预测残差；

语音数据生成单元，被配置为基于所述声学特征向量和所述线性预测残差，生成具有所述音色特征的语音数据。

在一种可能实现方式中，所述声学特征获取单元，包括：

文本数据获取子单元，被配置为获取待生成语音数据的文本数据；

文本特征获取子单元，被配置为获取所述文本数据对应的文本特征向量；

声学特征获取子单元，被配置为基于与目标音色对应的特征转换模型，获取所述文本特征向量对应的声学特征向量，所述声学特征向量包括所述目标音色的音色特征。

在另一种可能实现方式中，所述语音数据生成单元，还被配置为将所述声学特征向量和所述线性预测残差进行叠加，得到所述语音数据。

在另一种可能实现方式中，所述装置还包括：

样本获取单元，被配置为获取多条样本语音数据的样本声学特征向量和样本线性预测残差，所述多条样本语音数据由具有不同音色的多个样本对象发出；

目标分布特征获取单元，被配置为对于每条样本语音数据，基于所述特征处理模型，获取所述样本声学特征向量对应的目标线性预测残差的分布特征；

目标残差获取单元，被配置为根据与所述样本声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到目标线性预测残差；

模型训练单元，被配置为根据所述目标线性预测残差与所述样本线性预测残差之间的差异，训练特征处理模型。

在另一种可能实现方式中，所述装置还包括：

样本获取单元，还被配置为获取多条样本语音数据的样本声学特征向量和样本线性预测残差，所述多条样本语音数据由具有不同音色的多个样本对象发出；

第一特征获取单元，被配置为对于每条样本语音数据，基于所述条件子模型，获取所述样本声学特征向量对应的第一样本特征向量；

第二特征获取单元，被配置为对所述第一样本特征向量进行采样，得到第二样本特征向量，且所述第二样本特征向量的维数与所述样本语音数据的样本线性预测残差的维数相同；

第三特征获取单元，被配置为将所述第二样本特征向量和所述样本线性预测残差进行拼接处理，得到第三样本特征向量；

目标分布特征获取单元，还被配置为基于所述特征生成子模型，获取目标线性预测残差的分布特征；

目标残差获取单元，还被配置为根据与所述样本声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到目标线性预测残差；

模型训练单元，还被配置为根据所述目标线性预测残差与所述样本线性预测残差之间的差异，训练特征处理模型。

在另一种可能实现方式中，所述输出层为混合逻辑分布层。

在另一种可能实现方式中，所述装置还包括：

处理单元，被配置为对所述多条样本语音数据进行归一化处理或预加重处理。

根据本公开实施例的第三方面，提供了一种用于生成语音数据的电子设备，所述电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行命令的易失性或非易失性存储器；

其中，所述一个或多个处理器被配置为执行第一方面所述的语音数据生成方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面所述的语音数据生成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面所述的语音数据生成方法。

本公开实施例提供的语音数据生成方法、装置、电子设备及存储介质，获取声学特征向量，声学特征向量包括待生成语音数据的音色特征，基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征，根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差，基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。并且，特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到，能够适用于多种音色，因此基于该特征处理模型，可以生成具有任一种音色的语音数据，生成的语音数据的音色具有多样性，提高了适用性。

并且，本公开实施例提供的方法，获取多条样本语音数据的样本声学特征向量和样本线性预测残差，多条样本语音数据由具有不同音色的多个样本对象发出，对于每条样本语音数据，基于特征处理模型，获取样本声学特征向量对应的目标线性预测残差的分布特征，根据与样本声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到目标线性预测残差，根据目标线性预测残差与样本线性预测残差之间的差异，训练特征处理模型。该方法中特征处理模型是根据具有不同音色的多个样本对象发出的样本语音数据训练得到，能够适用于多种音色，因此基于该特征处理模型，可以生成具有任一种音色的语音数据，生成的语音数据的音色具有多样性，提高了适用性。并且，基于本公开实施例提供的方法训练得到的特征处理模型，不仅可以生成具有多个样本对象的音色的高质量的语音数据，还可以生成具有除样本对象之外的其他对象的音色的高质量的语音数据。

并且，当需要获取多种音色时，本公开实施例中，只需要训练一个特征处理模型，基于该特征处理模型对应生成任一音色的高质量的语音数据，减少了模型训练的时间。在电子设备中使用时，只需要一个特征处理模型，可以减少的内存占比，提高设备的运行速率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音数据生成方法的流程图。

图2是根据一示例性实施例示出的一种特征处理模型训练方法的流程图。

图3是根据一示例性实施例示出的一种特征处理模型的示意图。

图4是根据一示例性实施例示出的一种获取分布特征的流程图。

图5是根据一示例性实施例示出的一种语音数据生成方法的流程图。

图6是根据一示例性实施例示出的一种语音数据生成装置的框图。

图7是根据一示例性实施例示出的另一种语音数据生成装置的框图。

图8是根据一示例性实施例示出的一种终端的框图。

图9是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的设备和方法的例子。

图1是根据一示例性实施例示出的一种语音数据生成方法的流程图，参见图1，该方法应用于电子设备中，该电子设备可以为手机、计算机、平板电脑等终端，或者还可以为服务器。该方法包括以下步骤：

101、获取声学特征向量，该声学特征向量包括待生成语音数据的音色特征。

102、基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征，该特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到。

103、根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差。

104、基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。

本公开实施例提供的方法，获取声学特征向量，声学特征向量包括待生成语音数据的音色特征，基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征，根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差，基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。并且，特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到，能够适用于多种音色，因此基于该特征处理模型，可以生成具有任一种音色的语音数据，生成的语音数据的音色具有多样性，提高了适用性。

在一种可能实现方式中，获取声学特征向量，包括：

获取待生成语音数据的文本数据；

获取文本数据对应的文本特征向量；

基于与目标音色对应的特征转换模型，获取文本特征向量对应的声学特征向量，声学特征向量包括目标音色的音色特征。

在另一种可能实现方式中，基于声学特征向量和线性预测残差，生成具有音色特征的语音数据，包括：

将声学特征向量和线性预测残差进行叠加，得到语音数据。

在另一种可能实现方式中，基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征之前，方法还包括：

获取多条样本语音数据的样本声学特征向量和样本线性预测残差，多条样本语音数据由具有不同音色的多个样本对象发出；

对于每条样本语音数据，基于特征处理模型，获取样本声学特征向量对应的目标线性预测残差的分布特征；

根据与样本声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到目标线性预测残差；

根据目标线性预测残差与样本线性预测残差之间的差异，训练特征处理模型。

在另一种可能实现方式中，特征处理模型包括条件子模型和特征生成子模型，条件子模型包括至少一个卷积层和至少一个全连接层，特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。

对于每条样本语音数据，基于条件子模型，获取样本声学特征向量对应的第一样本特征向量；

对第一样本特征向量进行采样，得到第二样本特征向量，且第二样本特征向量的维数与样本语音数据的样本线性预测残差的维数相同；

将第二样本特征向量和样本线性预测残差进行拼接处理，得到第三样本特征向量；

基于特征生成子模型，获取目标线性预测残差的分布特征；

在另一种可能实现方式中，输出层为混合逻辑分布层。

在另一种可能实现方式中，获取多条样本语音数据的样本声学特征向量和样本线性预测残差之前，方法还包括：

对多条样本语音数据进行归一化处理或预加重处理。

本公开实施例提供的语音数据生成方法，可以应用在多种场景下。

例如，本公开实施例应用于声码器中。

传统声码器是基于信号理论和发音机理设计的，生成的语音数据与音色无关，语音数据具有机械感。而神经网络声码器是基于数据驱动和机器学习设计的，生成的语音数据与音色相关，合成的语音数据效果好于传统声码器。本公开实施例即是基于神经网络，训练得到的神经网络声码器。

另外，还可以将声码器应用于语音合成技术中。语音合成技术中包括文本特征提取模块、声学参数建模模块、声码器。生成语音数据的过程包括：文本特征提取模块对输入的文本内容进行分词、词性标柱、注音等处理，得到文本特征向量，然后将文本特征向量输入至声学参数建模模块，得到声学特征向量，最后将声学特征向量输入至声码器，得到语音数据。其中，声学参数建模模块可以基于隐马尔可夫模型或者深度神经网络模型得到。

或者，本公开实施例应用于语音通信中。

第一通信设备获取第一对象的语音数据的声学特征向量，然后将该声学特征向量发送给第二通信设备，第二通信设备将该声学特征向量转换为语音信号，使用第二通信设备的第二对象即可接收到第一对象的语音数据，实现第一对象和第二对象之间的通信。

本公开实施例中，对于包括任一音色特征的声学特征向量，为了生成具有该音色特征的语音数据，提供了一种特征处理模型，用于根据任一声学特征向量获取线性预测残差的分布特征，之后根据该声学特征向量和该分布特征生成语音信号。

在使用该特征处理模型之前，需要对该特征处理模型进行训练，训练过程详见下述实施例。

图2是根据一示例性实施例示出的一种特征处理模型训练方法的流程图，参见图2，该方法应用于电子设备中，该电子设备可以为手机、计算机、平板电脑等终端，或者还可以为服务器。该方法包括以下步骤：

201、获取多条样本语音数据的样本声学特征向量和样本线性预测残差。

本公开实施例中，训练特征处理模型时，获取多个样本对象发出的多条样本语音数据，该多个样本对象为具有不同音色的样本对象，根据该多条样本语音数据对特征处理模型进行训练，以使特征处理模型能够学习到包括不同音色的声学特征向量和语音数据之间的关联关系。

在一种可能实现方式中，获取具有不同音色的多个样本对象的多条样本语音数据，将多条样本语音数据作为样本语音数据集合，根据该样本语音数集合，来训练特征处理模型。或者，获取多个样本对象的样本语音数据集合，根据多个样本语音数据集合，来训练特征处理模型。

其中，样本语音数据可以为采集的通话数据、音乐数据或者其他的语音数据。多个样本对象的语音数据的音色不完全相同，即多个样本对象中任两个样本对象的音色可以相同也可以不同，但是需要保证多个样本对象中包括至少两个音色不同的样本对象。

在一种可能实现方式中，获取的每个样本对象的样本语音数据的数量相同，或者，任两个不同的样本对象的样本语音数据的数量差不大于预设阈值，该预设阈值为根据训练效果确定的，当数量差大于预设阈值时，会导致基于训练得到的特征处理模型获取到的语音数据的音色存在偏差，影响该特征处理模型的通用性。

例如，对于两个样本对象来说，根据第一个样本对象的20条样本语音数据和第二个样本对象的5条样本语音数据进行训练，那么基于训练得到的特征处理模型，生成语音数据时，生成的语音数据的音色与第一个样本对象的音色相似，不具有通用性，无法生成需要的音色，会影响该特征处理模型的通用性。因此可以分别采集这两个样本对象的20条样本语音数据，根据采集到的40条样本语音数据进行训练。

在一种可能实现方式中，在采集任一条语音数据时需要按照采样率进行采样，采样率越高，相邻两个采样点的相关性就越高，获取的样本语音数据的质量越好，基于该样本语音数据的训练效果越好。因此，在采集样本语音数据时的采样率不低于预设采样率。例如，预设采样率为16千赫兹，即对于1s的语音数据，需要对16000个采样点进行采样。

对于任一声学特征向量，由于语音数据本身只表示声音随时间的变化关系，不能够体现语音数据的声学特征，因此需要从语音数据中提取出声学特征向量，来表示语音数据的声学特征。

在一种可能实现方式中，声学特征向量包括内容特征和音色特征，内容特征用于表示语音数据的内容，音色特征用于表示语音数据的音色。其中，内容特征可以为倒谱参数，该倒谱参数可以为梅尔域倒谱参数或者Bark域(一种语音信号处理的尺度)倒谱参数，音色特征可以为基频特征。

在一种可能实现方式中，获取声学特征向量时，分别获取语音数据的倒谱参数和基频特征，将倒谱参数和基频特征进行叠加，得到声学特征向量。

可以采用多种方式提取语音数据中的倒谱参数或者基频特征，例如，傅里叶变换或者其他提取方式，本公开实施例对声学特征向量的提取方式不做限制。其中，提取的倒谱参数的维度，可以根据需要进行设置，例如，语音数据的维数为256，那么在提取时，与提取的维数为13相比较，提取的维数为30时，可以获取语音数据中更多的内容特征。

本公开实施例中，分别获取每条样本语音数据的样本声学特征向量，后续基于该样本声学特征向量训练特征处理模型。

对于任一线性预测残差，线性预测残差用于表示每个采样点的实际值与预测值之间的差异，可以根据倒谱参数确定线性预测系数，根据线性预测系数，采用线性预测方式获取预测值。

例如，已知前n个采样点的数值x₁、x₂、...、x_n，线性预测系数a₁、a₂、...、a_n，预测第n+1个采样点的数值x_n+1时，第n+1个采样点的数值可以由前n个采样点的数值表示为：

x_n+1＝a₁·x₁+a₂·x₂+...+a_n·x_n。

在一种可能实现方式中，对于提取的样本线性预测残差进行8位μ-律的非线性压缩，以使获取的关于线性预测残差的数据表示为0-255的整数，减少数据量。

例如，获取的样本线性预测残差的值域为-3000至3000，对样本线性预测残差的值域进行非线性压缩之后，得到的值域为0-255，对于原来的值域中1.1、1.5等相差较小的数值，非线性压缩之后，即可由对应的同一个数值来表示。

在一种可能实现方式中，根据样本语音数据获取样本线性预测残差时，对线性预测系数进行插值，防止在某一采样点上的线性预测残差太大，影响训练结果。

例如，假设样本语音数据的持续时长为1s(秒)，采集样本语音数据的过程中，采样率为16千赫兹，以10ms(毫秒)为一个单位，每10ms为一帧，每一帧包括160个采样点，则1s的样本语音数据包括100帧，根据这100帧样本语音数据对应的向量，可以组合得到样本语音数据的样本声学特征向量，并且每一帧中的160个采样点对应的向量相同。在计算样本线性预测残差时，需要对每个采样点的残差进行计算，即需要确定16000个采样点的样本线性预测系数，但是为了提高计算效率，只确定了其中100个采样点的线性预测系数，其中的每两个采样点之间相差160个采样点，之后根据这100个采样点的线性预测系数确定一个插值函数，采用该插值函数和这100个采样点的线性预测系数进行插值运算，得到每个采样点的线性预测系数，以减少线性预测残差中的“毛刺”。

另外，在获取样本声学特征向量和样本线性预测残差之前，可以先对多条样本语音数据进行归一化处理或预加重处理，以使语音数据保持高信噪比。其中，信噪比用于表示语音数据中的有效数据与噪声数据之间的比例。

归一化处理的作用是使获取的样本语音数据的幅值保持在预设的范围内，以使样本语音数据保持高信噪比。而由于在对样本语音数据进行处理时，会造成样本语音数据的高频分量减小，因此对样本语音数据进行预加重处理，可以在处理之前增加样本语音数据的高频分量，以避免样本语音数据的高频分量受到影响，并且，预加重处理增加了高频分量，且对样本语音数据的噪声并没有影响，因此有效地提高了样本语音数据处理之后的信噪比。

另外，还可以对样本语音数据进行加噪处理、加窗处理或者其他处理。

需要说明的是，本公开实施例中，通过获取具有不同音色的样本对象发出的样本语音数据，从而获取多条样本语音数据的样本声学特征向量和样本线性预测残差，因此能够采用多个具有不同音色的样本对象的样本语音数据作为训练数据，以保证训练出的特征处理模型能够学习到不同音色的声学特征向量和语音数据之间的关联关系，适用于多种音色。

并且，采用多个具有不同音色的样本对象的样本语音数据作为训练数据时，音色不同的样本对象的样本语音数据的数量相差不大，可以保证训练数据的均衡，进而保证训练出的特征处理模型不会受到某一个音色的影响，基于特征处理模型得到的目标线性残差的分布特征更加准确，以使生成的语音数据的音色更加准确。

并且，采用多个具有不同音色的样本对象的样本语音数据作为训练数据时，在采集样本语音数据时的采样率不低于预设采样率，可以保证采集的样本语音数据的质量，也即是保证了训练数据的质量，这样在采用这些训练数据训练特征处理模型时，可以提高特征处理模型的准确度。

202、对于每条样本语音数据，基于特征处理模型，获取样本声学特征向量对应的目标线性预测残差的分布特征。

对于获取的每条样本语音数据，将获取的样本声学特征向量和样本线性预测残差输入至特征处理模型，基于该特征处理模型，获取样本声学特征向量对应的目标线性预测残差的分布特征。

在一种可能实现方式中，特征处理模型的结构参见图3，特征处理模型包括条件子模型和特征生成子模型，条件子模型包括至少一个卷积层和至少一个全连接层，特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。如图4所示，基于该特征处理模型获取目标线性残差的分布特征的过程包括以下步骤：

2021、对于每条样本语音数据，基于条件子模型，获取样本声学特征向量对应的第一样本特征向量。

将每条样本语音数据的样本声学特征向量输入至条件子模型，基于条件子模型，获取样本声学特征向量对应的第一样本特征向量。其中，条件子模型为得到样本线性预测残差的分布特征提供条件。该条件子模型确定样本线性预测残差的分布特征的顺序，以便后续根据该分布特征生成语音数据时，能够保证语音数据中各部分词语之间按照准确的顺序排列。

样本声学特征向量经过至少一个卷积层和至少一个全连接层的处理后，得到第一样本特征向量，该第一样本特征向量与样本声学特征向量的含义相同，能够用来表示样本语音数据的声学特征，与样本声学特征向量相比较，第一样本特征向量的维数发生了变化，例如，样本声学特征向量的维数为32，经过条件子模型之后，可以获得一个维数为128的第一样本特征向量。

2022、对第一样本特征向量进行采样，得到第二样本特征向量，且第二样本特征向量的维数与样本语音数据的样本线性预测残差的维数相同。

由于样本声学特征向量中的数据为多帧的数据，而每帧又包括多个采样点，因此第一特征向量的维数与样本线性预测残差的维数不同，需要对第一样本特征向量进行采样，以使第二样本特征向量的维数与样本语音数据的样本线性预测残差的维数相同。其中，维数相同，可以为第二样本特征向量的列数与样本语音数据的样本线性预测残差的列数相同，或者为第二样本特征向量的行数与样本语音数据的样本线性预测残差的行数相同。

例如，对样本语音数据进行采样时，采样率为16千赫兹，得到16000个采样点，样本线性预测残差表示为16000*1。以10ms为一个单位，1s的语音获取100帧，根据这100帧对应的向量，得到样本声学特征向量，那么当第二样本特征向量为100*128时，对该第二样本特征向量进行采样，得到16000*128。

2023、将第二样本特征向量和样本线性预测残差进行拼接处理，得到第三样本特征向量。

拼接方式可以包括多种，如可以将样本线性预测残差直接添加在第二样本特征向量中，或者对第二样本特征向量和样本线性预测残差进行简单的运算，或者，采用其他方式进行拼接。

例如，第二样本特征向量为160000*128，样本线性预测残差为160000*1，那么可以将样本线性预测残差与第二样本特征向量直接进行拼接，得到的第三样本特征向量为160000*129。

2024、基于特征生成子模型，获取目标线性预测残差的分布特征。

将拼接后得到的第三样本特征向量输入至特征生成子模型，基于特征生成子模型，获取目标线性预测残差的分布特征。

将条件子模型和特征生成子模型进行组合，得到特征处理模型。其中条件子模型的作用是保证语音数据中各部分词语之间按照准确的顺序排列，特征生成子模型的作用是得到该语音数据的线性预测残差的分布特征，则采用多个具有不同音色的样本对象的样本语音数据作为训练数据时，可以训练条件子模型和特征生成子模型，以使对于任一音色来说，组合得到的特征处理模型可以学习到语音数据中各部分词语之间的排列顺序，以使得到的线性预测残差的分布特征具有逻辑性，根据该分布特征，生成的语音数据能够准确表达语音数据的内容。

其中，特征生成子模型中的循环层，可以为GRU(Gated Recurrent Unit，门循环网络)、LSTM(Long Short Term Memory，长短期记忆网络)或者其他神经网络。

在一种可能实现方式中，输出层为混合逻辑分布层，通过混合逻辑分布层可以得到每一个采样点的线性预测残差对应的参数，该参数可以为均值、方差、权重或者其他参数，将每一个采样点对应的参数作为每一个采样点的线性预测残差，从而获取到线性预测残差的分布特征，或者将每一个采样点对应的各个参数进行组合，得到混合分量，混合分量的数量根据需要进行设置。将每一个采样点对应的混合分量作为每一个采样点的线性预测残差，从而获取到线性预测残差的分布特征。并且，采用混合逻辑分布层能够更好地描述相近的参数数值之间的内在相关性，使收敛速度更快，加快模型的训练速度。

例如，参数包括均值、方差和权重，设置5个分量，即设置了15个参数，设置16000个采样点，样本线性预测残差为16000*1的一个序列，那个基于混合逻辑分布层，可以得到一个16000*15的分布序列，每一个采样点都有对应的15个参数，对于某一个采样点来说，15个参数中的任意一个参数均可以表示该点的线性预测残差。

与相关技术中输出层为softmax(一种回归函数)层相比较，softmax层作为输出层时，输出的参数为0-255的整数，输出层的节点数为256个，而使用混合逻辑分布层作为输出层，需要处理的参数为预设数量的参数，输出层包括预设数量的节点数，通过设置较小的预设数量，可以减小参数的数量，减小运算量，因此，在采用多个具有不同音色的样本对象的样本语音数据作为训练数据时，仍然可以提高模型的训练速度。

203、根据与样本声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到目标线性预测残差。

本公开实施例中，可以基于线性预测残差与声学特征向量，生成语音数据。因此，对分布特征进行采样时，采样得到的线性预测残差需要与声学特征向量的维数匹配。采样得到的线性预测残差的维数可以与声学特征向量的维数完全相同，或者也可以为满足线性预测残差和声学特征向量叠加要求的维数，本公开实施例对采样得到的线性预测残差的具体维数不做限制。

在一种可能实现方式中，对分布特征进行采样的过程中，由于采样过程中会产生小概率事件，使采样得到的目标线性预测残差不准确，生成语音数据时，会造成语音数据的不准确，可以对不准确的目标线性预测残差重新进行采样。对采样过程进行了降温处理，避免采样得到的参数数值偏差太大，造成语音数据的质量较差。

例如，对于某一个采样点采样得到的目标线性预测残差与实际的样本线性预测残差相差很大，重新进行采样，重新确定目标线性预测残差。

204、根据目标线性预测残差与样本线性预测残差之间的差异，训练特征处理模型。

根据采样之后得到的目标线性预测残差和样本线性预测残差的差异，对特征处理模型的参数进行调整，以使调整后特征处理模型输出的目标线性预测残差与样本线性预测残差之间的差异减小，达到训练该特征处理模型的目的。

本公开实施例，在训练过程中，以样本语音数据的样本声学特征向量和样本线性预测残差，作为特征处理模型的输入，以线性预测残差的分布特征作为特征处理模型的输出，对该特征处理模型进行训练。通过训练使特征处理模型学习到声学特征向量和线性预测残差的分布特征之间的关联关系，从而根据声学特征向量，基于训练的特征处理模型得到目标预测残差的分布特征，以便根据声学特征向量和分布特征生成语音数据。

而且，由于训练特征处理模型时，采用了多个具有不同音色的样本对象的语音数据作为训练数据，因此，该特征处理模型能够学习到包括不同音色特征的声学特征向量和线性预测残差的分布特征之间的关联关系，从而能够适用于多种音色，不仅适用于训练数据中包含的音色，而且还能适用于训练数据中不包含的其他音色。

在一种可能实现方式中，电子设备存储训练得到的特征处理模型，后续生成语音数据时，获取该特征处理模型。

本公开实施例提供的方法，获取多条样本语音数据的样本声学特征向量和样本线性预测残差，多条样本语音数据由具有不同音色的多个样本对象发出，对于每条样本语音数据，基于特征处理模型，获取样本声学特征向量对应的目标线性预测残差的分布特征，根据与样本声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到目标线性预测残差，根据目标线性预测残差与样本线性预测残差之间的差异，训练特征处理模型。该方法中特征处理模型是根据具有不同音色的多个样本对象发出的样本语音数据训练得到，能够适用于多种音色，因此基于该特征处理模型，可以生成具有任一种音色的语音数据，生成的语音数据的音色具有多样性，提高了适用性。

并且，相关技术中，根据一个样本对象的样本语音数据训练语音数据生成模型，基于训练得到的语音数据生成模型，能够生成具有该样本对象的音色特征的语音数据。但是，当样本对象的语音数据的条数较少时，无法单独为该样本对象训练语音数据生成模型。而基于本公开实施例提供的方法训练得到的特征处理模型，可以生成任一音色的语音数据，且不仅可以生成具有多个样本对象的音色的高质量的语音数据，还可以生成具有除样本对象之外的其他对象的音色的高质量的语音数据。

图5是根据一示例性实施例示出的一种语音数据生成方法的流程图，参见图5，该方法应用于电子设备中，该电子设备可以为手机、计算机、平板电脑等终端，或者还可以为服务器。该方法包括以下步骤：

501、获取声学特征向量。

在一种可能实现方式中，获取待生成语音数据的文本数据，获取文本数据对应的文本特征向量，基于与目标音色对应的特征转换模型，获取文本特征向量对应的声学特征向量，声学特征向量包括目标音色的音色特征。

其中，需要对获取的文本数据进行处理，得到文本数据对应的文本特征向量。例如，对文本数据中的每个词语的词性标注处理、注音处理等。

本公开实施例中，可以设置一种或多种特征转换模型，每一个特征转换模型有唯一对应的音色，不同特征转换模型对应的音色不同。当需要生成具有目标音色的语音数据时，确定该目标音色对应的特征转换模型，根据该特征转换模型，获取包括目标音色的声学特征向量，后续即可根据该声学特征向量，生成具有目标音色的语音数据。目标音色可以为任一音色，例如，从样本对象的年龄来看，可以为儿童音色、少年音色以及老人音色等，从样本对象的声音的音调来看，可以为高音、中音以及低音等。

在另一种可能实现方式中，将语音数据生成方法应用于语音通信过程中时，根据第一对象的语音数据，获取该语音数据的声学特征向量，获取方式与上述实施例中的样本声学特征向量的获取方式类似。后续即可将该声学特征向量发送给第二通信设备，由第二通信设备将该声学特征向量转换为语音信号。

502、基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征。

将获取到的声学特征向量输入至特征处理模型，基于该特征处理模型，获取声学特征向量对应的线性预测残差的分布特征。

其中，特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到。具体可以根据上述实施例提供的方法训练得到，或者也可以是采用其他方法得到。

503、根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差。

对分布特征进行采样的过程与上述实施例中步骤203的实施方式类似，在此不再一一赘述。

504、基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。

对获取的线性预测残差和声学特征向量，根据预设算法进行运算，生成具有音色特征的语音数据。

基于特征处理模型得到的线性预测残差能够表示语音数据中的非线性部分的特征，声学特征向量表示语音数据中的线性部分的特征，因此根据声学特征向量和线性预测残差，即可生成具有音色特征的语音数据。

例如，基于上述步骤501中音色的举例，当需要生成具有儿童音色的语音数据时，基于儿童音色对应的特征转换模型，可以生成包括儿童音色特征的声学特征向量，基于该声学特征向量和线性预测残差生成的语音数据，即为具有儿童音色的语音数据。

在一种可能实现方式中，将声学特征向量和线性预测残差进行叠加，得到语音数据。例如，当声学特征向量和线性预测残差的维数相同时，可以进行相加，得到语音数据。

需要说明的是，本公开实施例中用于生成语音数据的电子设备与上述实施例中用于训练特征处理模型的电子设备可以为同一设备，也可以为不同设备。例如，服务器训练得到特征处理模型后，发送给终端，终端即可基于该特征处理模型生成语音数据。

本公开实施例提供的方法，获取声学特征向量，声学特征向量包括待生成语音数据的音色特征，基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征，根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差，基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。特征处理模型是根据具有不同音色的多个样本对象发出的样本语音数据训练得到，能够适用于多种音色，因此基于该特征处理模型，可以生成具有任一种音色的语音数据，生成的语音数据的音色具有多样性，提高了适用性。

并且，当需要获取具有多种音色的语音数据时，相关技术中，需要分别训练多个与多种音色对应的语音数据生成模型，根据每一个语音数据生成模型生成一种音色的语音数据，而本公开实施例中，只需要训练一个特征处理模型，基于该特征处理模型得到分布特征，基于声学特征向量和该分布特征，可以生成任一音色的高质量的语音数据，减少了模型训练的时间，并且，在电子设备中使用时，只需要一个特征处理模型，可以减少内存占比，提高运行速率。

图6是根据一示例性实施例示出的一种语音数据生成装置的框图。参见图6，该装置包括声学特征获取单元601、分布特征获取单元602、残差获取单元603和语音数据生成单元604。

声学特征获取单元601，被配置为获取声学特征向量，声学特征向量包括待生成语音数据的音色特征；

分布特征获取单元602，被配置为基于特征处理模型，获取声学特征向量对应的线性预测残差的分布特征，特征处理模型根据具有不同音色的多个样本对象发出的样本语音数据训练得到；

残差获取单元603，被配置为根据与声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到线性预测残差；

语音数据生成单元604，被配置为基于声学特征向量和线性预测残差，生成具有音色特征的语音数据。

在一种可能实现方式中，参见图7，声学特征获取单元601，包括：

文本数据获取子单元6011，被配置为获取待生成语音数据的文本数据；

文本特征获取子单元6012，被配置为获取文本数据对应的文本特征向量；

声学特征获取子单元6013，被配置为基于与目标音色对应的特征转换模型，获取所述文本特征向量对应的声学特征向量，所述声学特征向量包括所述目标音色的音色特征。

在另一种可能实现方式中，语音数据生成单元604，还被配置为将声学特征向量和线性预测残差进行叠加，得到语音数据。

在另一种可能实现方式中，参见图7，装置还包括：

样本获取单元605，被配置为获取多条样本语音数据的样本声学特征向量和样本线性预测残差，多条样本语音数据由具有不同音色的多个样本对象发出；

目标分布特征获取单元606，被配置为对于每条样本语音数据，基于特征处理模型，获取样本声学特征向量对应的目标线性预测残差的分布特征；

目标残差获取单元607，被配置为根据与样本声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到目标线性预测残差；

模型训练单元608，被配置为根据目标线性预测残差与样本线性预测残差之间的差异，训练特征处理模型。

在另一种可能实现方式中，参见图7，装置还包括：

样本获取单元605，还被配置为获取多条样本语音数据的样本声学特征向量和样本线性预测残差，多条样本语音数据由具有不同音色的多个样本对象发出；

第一特征获取单元609，被配置为对于每条样本语音数据，基于条件子模型，获取样本声学特征向量对应的第一样本特征向量；

第二特征获取单元610，被配置为对第一样本特征向量进行采样，得到第二样本特征向量，且第二样本特征向量的维数与样本语音数据的样本线性预测残差的维数相同；

第三特征获取单元611，被配置为将第二样本特征向量和样本线性预测残差进行拼接处理，得到第三样本特征向量；

目标分布特征获取单元606，还被配置为基于特征生成子模型，获取目标线性预测残差的分布特征；

目标残差获取单元607，还被配置为根据与样本声学特征向量的维数匹配的采样数量，对分布特征进行采样，得到目标线性预测残差；

模型训练单元608，还被配置为根据目标线性预测残差与样本线性预测残差之间的差异，训练特征处理模型。

在另一种可能实现方式中，输出层为混合逻辑分布层。

在另一种可能实现方式中，参见图7，装置还包括：

处理单元612，被配置为对多条样本语音数据进行归一化处理或预加重处理。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于生成语音数据的终端800的框图。该终端800用于执行上述语音数据生成方法中终端所执行的步骤，可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：一个或多个处理器801和一个或多个存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括易失性存储器或非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的语音数据生成方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及13G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商标志集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是根据一示例性实施例示出的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)901和一个或一个以上的存储器902，其中，存储器902中存储有至少一条指令，该至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器900可以用于执行上述语音数据生成方法中服务器所执行的步骤。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述语音数据生成方法中电子设备所执行的步骤。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述语音数据生成方法中电子设备所执行的步骤。

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音数据生成方法，其特征在于，所述方法包括：

将所述声学特征向量和所述线性预测残差进行叠加，得到具有所述音色特征的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述获取声学特征向量，包括：

获取待生成语音数据的文本数据；

获取所述文本数据对应的文本特征向量；

3.根据权利要求1所述的方法，其特征在于，所述基于特征处理模型，获取所述声学特征向量对应的线性预测残差的分布特征之前，所述方法还包括：

根据所述目标线性预测残差与所述样本线性预测残差之间的差异，训练所述特征处理模型。

4.根据权利要求1所述的方法，其特征在于，所述特征处理模型包括条件子模型和特征生成子模型，所述条件子模型包括至少一个卷积层和至少一个全连接层，所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。

5.根据权利要求4所述的方法，其特征在于，所述基于特征处理模型，获取所述声学特征向量对应的线性预测残差的分布特征之前，所述方法还包括：

根据与所述样本声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到所述目标线性预测残差；

6.根据权利要求4所述的方法，其特征在于，所述输出层为混合逻辑分布层。

7.根据权利要求5所述的方法，其特征在于，所述获取多条样本语音数据的样本声学特征向量和样本线性预测残差之前，所述方法还包括：

对所述多条样本语音数据进行归一化处理或预加重处理。

8.一种语音数据生成装置，其特征在于，所述装置包括：

语音数据生成单元，被配置为将所述声学特征向量和所述线性预测残差进行叠加，得到具有所述音色特征的语音数据。

9.根据权利要求8所述的装置，其特征在于，所述声学特征获取单元，包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

模型训练单元，被配置为根据所述目标线性预测残差与所述样本线性预测残差之间的差异，训练所述特征处理模型。

11.根据权利要求8所述的装置，其特征在于，所述特征处理模型包括条件子模型和特征生成子模型，所述条件子模型包括至少一个卷积层和至少一个全连接层，所述特征生成子模型包括至少一个循环层、至少一个全连接层和输出层。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

目标残差获取单元，还被配置为根据与所述样本声学特征向量的维数匹配的采样数量，对所述分布特征进行采样，得到所述目标线性预测残差；

13.根据权利要求11所述的装置，其特征在于，所述输出层为混合逻辑分布层。

14.根据权利要求12所述的装置，其特征在于，所述装置还包括：

15.一种用于生成语音数据的电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行如权利要求1至权利要求7任一项所述的语音数据生成方法。

16.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求7任一项所述的语音数据生成方法。