CN110930976B

CN110930976B - 一种语音生成方法及装置

Info

Publication number: CN110930976B
Application number: CN201911212180.9A
Authority: CN
Inventors: 冯大航; 李仰中; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2022-04-15
Anticipated expiration: 2039-12-02
Also published as: CN110930976A

Abstract

本发明提供一种语音生成方法及装置，该方法包括：获取语音样本数据；依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。本发明实施例能够通过依据自编码器和对抗生成网络来生成与语音样本数据相似度超过预设阈值的目标语音数据，从而可保证生成的语音数据能够尽可能接近真实语音，这样，可采用这种方法生成大量的高质量语音数据，降低高质量语音数据的获取成本。

Description

一种语音生成方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音生成方法及装置。

背景技术

人机交互技术的研究是计算机技术研究领域的重要组成部分。使智能设备理解人类语言并且可以与人类对话，这在真正的“面对面人机交流”中扮演着很重要的角色。借助语音识别、自然语言理解以及语音合成系统，智能设备已经可以自然地与人类进行对话，普通用户也能够听懂并接受。

其中，语音识别和语音合成作为人机语音交互的重要环节，需要在前期建立大量的语音库，并且对语音库中的语音样本进行训练得到语音识别模型。然而，目前高质量语音样本稀缺，获取成本较高。

发明内容

本发明实施例提供一种语音生成方法及装置方法及移动终端，以解决现有高质量语音样本获取成本较高的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音生成方法，包括：

获取语音样本数据；

依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。

可选的，所述依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据，包括：

将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据；

利用对抗生成网络对所述输出语音数据进行真假判别；

在判别出所述输出语音数据为真的情况下，将所述输出语音数据确定为与所述语音样本数据的相似度超过预设阈值的目标语音数据。

可选的，所述将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据，包括：

将所述语音样本数据输入自编码器的编码器中进行编码，提取得到所述语音样本数据的编码向量；

将所述编码向量输入所述自编码器的解码器中进行解码，得到解码后的语音数据；

计算所述语音样本数据与所述解码后的语音数据之间的损失值；

在所述损失值小于目标值的情况下，将所述解码后的语音数据确定为所述自编码器输出的输出语音数据；

在所述损失值大于或等于目标值的情况下，调整所述自编码器的结构参数，并将所述语音样本数据输入调整后的自编码器中重复上述训练步骤直至所述损失值小于所述目标值。

可选的，所述将所述语音样本数据输入所述编码器中进行编码，提取得到所述语音样本数据的编码向量，包括：

通过所述编码器对所述语音样本数据进行分帧处理；

使用M层神经网络对分帧后的语音样本数据进行降维处理，其中，所述M为大于或等于1的整数；

对降维处理后的语音样本数据进行拼接，得到所述语音样本数据的语音频谱；

使用N层卷积神经网络对所述语音频谱进行特征提取，得到所述语音样本数据的编码向量，其中，所述N为大于或等于1的整数。

可选的，所述利用对抗生成网络对所述输出语音数据进行真假判别，包括：

将所述输出语音数据作为对抗生成网络的生成器的输出；

将所述语音样本数据和所述输出语音数据输入所述对抗生成网络的判别器中，以参考所述语音样本数据，计算所述输出语音数据为真实语音的概率；

在所述概率大于或等于预设概率阈值的情况下，判别所述输出语音数据为真实语音。

可选的，所述方法还包括：

根据所述概率，计算所述语音样本数据和所述输出语音数据之间的交叉熵；

利用优化函数对所述判别器的参数进行优化调整，使得所述交叉熵变小。

第二方面，本发明实施例提供一种语音生成装置，包括：

获取模块，用于获取语音样本数据；

生成模块，用于依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。

可选的，所述生成模块包括：

训练子模块，用于将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据；

判别子模块，用于利用对抗生成网络对所述输出语音数据进行真假判别；

确定子模块，用于在判别出所述输出语音数据为真的情况下，将所述输出语音数据确定为与所述语音样本数据的相似度超过预设阈值的目标语音数据。

可选的，所述训练子模块包括：

提取单元，用于将所述语音样本数据输入自编码器的编码器中进行编码，提取得到所述语音样本数据的编码向量；

解码单元，用于将所述编码向量输入所述自编码器的解码器中进行解码，得到解码后的语音数据；

第一计算单元，用于计算所述语音样本数据与所述解码后的语音数据之间的损失值；

确定单元，用于在所述损失值小于目标值的情况下，将所述解码后的语音数据确定为所述自编码器输出的输出语音数据；

第一调整单元，用于在所述损失值大于或等于目标值的情况下，调整所述自编码器的结构参数，并将所述语音样本数据输入调整后的自编码器中重复上述训练步骤直至所述损失值小于所述目标值。

可选的，所述提取单元包括：

分帧子单元，用于通过所述编码器对所述语音样本数据进行分帧处理；

降维子单元，用于使用M层神经网络对分帧后的语音样本数据进行降维处理，其中，所述M为大于或等于1的整数；

拼接子单元，用于对降维处理后的语音样本数据进行拼接，得到所述语音样本数据的语音频谱；

提取子单元，用于使用N层卷积神经网络对所述语音频谱进行特征提取，得到所述语音样本数据的编码向量，其中，所述N为大于或等于1的整数。

可选的，所述判别子模块包括：

处理单元，用于将所述输出语音数据作为对抗生成网络的生成器的输出；

第二计算单元，用于将所述语音样本数据和所述输出语音数据输入所述对抗生成网络的判别器中，以参考所述语音样本数据，计算所述输出语音数据为真实语音的概率；

判别单元，用于在所述概率大于或等于预设概率阈值的情况下，判别所述输出语音数据为真实语音。

可选的，所述判别子模块还包括：

第三计算单元，用于根据所述概率，计算所述语音样本数据和所述输出语音数据之间的交叉熵；

第二调整单元，用于利用优化函数对所述判别器的参数进行优化调整，使得所述交叉熵变小。

第三方面，本发明实施例提供一种语音生成装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音生成方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音生成方法中的步骤。

本发明实施例中，通过依据自编码器和对抗生成网络来生成与语音样本数据相似度超过预设阈值的目标语音数据，从而可保证生成的语音数据能够尽可能接近真实语音，这样，可采用这种方法生成大量的高质量语音数据，降低高质量语音数据的获取成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音生成方法的流程图；

图2是本发明实施例提供的一种利用自编码器和对抗生成网络生成目标语音数据的示意图；

图3是本发明实施例提供的一种语音生成装置的结构示意图；

图4是本发明实施例提供的一种语音生成装置的生成模块的结构示意图；

图5是本发明实施例提供的一种生成模块的训练子模块的结构示意图；

图6是本发明实施例提供的一种训练子模块的提取单元的结构示意图；

图7是本发明实施例提供的一种生成模块的判别子模块的结构示意图；

图8是本发明实施例提供的另一种生成模块的判别子模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音生成方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、获取语音样本数据。

本发明实施例中，上述语音样本数据可以是预先录制好的真实语音数据，该步骤中，可以先获取所述语音样本数据，用于按照该语音样本数据，生成与之尽可能相似的目标语音数据，进而训练出所需的语音生成模型。

其中，为保证训练出能够生成高质量语音样本的语音生成模型，所述语音样本数据可以是选取的在录音室环境(如录音棚)中录制的语音数据，且所录制的语音样本数据的时长不超过预设时长，如录制的每条语音样本数据均不超过15秒，以保证在训练过程中，能够快速准确地提取出所述语音样本数据中的声音特征。

步骤102、依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。

本发明实施例中，可以采用自编码器和对抗生成网络来模拟生成真实的语音数据，其中，自编码器(Autoencoder，AE)是一类在半监督学习和非监督学习中使用的人工神经网络，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习，也就是说，可以利用自编码器对所述语音样本数据进行学习，模拟出与所述语音样本数据相似的语音数据。所述对抗生成网络(Generative Adversarial Networks，GAN)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一，该模型通过框架中(至少)两个模块：生成器和判别器的互相博弈学习产生相当好的输出。

这样，通过利用自编码器来生成与所述语音样本数据相似的语音数据，再输入所述对抗生成网络中进行真假判别，即判别所生成的语音数据是否为真实语音数据，也即相当于计算所生成的语音数据为真实语音的概率，超过一定概率则认为是真实语音，即经判断数据为真，否则认为是合成语音，也就是说，所述对抗生成网络可以基于所述语音样本数据，估算所述自编码器生成的语音数据为所述语音样本数据即真实语音的概率。

在判别为真的情况下，可以进一步对所述对抗生成网络的判别结果进行验证，即可以对比所述自编码器生成的语音数据与所述语音样本数据的相似度，若该相似度超过预设阈值，则可以确定所述对抗生成网络的判别结果可靠，否则可以对所述对抗生成网络的参数作进一步调整，以保证所述对抗生成网络能够尽可能地区分真实语音数据和合成的语音数据，也即保证在所述对抗生成网络判别为真的情况下，所述自编码器生成的语音数据与所述语音样本数据的相似度超过所述预设阈值。

在判别为假的情况下，说明生成的语音数据不够真实，需调整所述自编码器的参数，对所述语音样本数据进行重新模拟，以生成与所述语音样本数据尽可能相似即损失值尽可能小的语音数据，并且可以通过计算所述对抗生成网络的损失函数的最小值，对所述对抗生成网络的参数进行调整，以保证所述对抗生成网络能够尽可能地区分真实语音数据和合成的语音数据，通过上述反复的训练过程，得到参数较优或最优的自编码器和对抗生成网络模型，使得所述自编码器能够生成尽可能接近真实的语音数据，而所述对抗生成网络则能够尽可能地区分真实语音数据与合成的假语音数据，从而通过二者的博弈确保生成高质量的能够“以假乱真”的语音数据。

本发明实施例中，通过训练自编码器和对抗生成网络，可依据所述自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据，即生成尽可能接近真实的语音数据，其中，所述预设阈值可以根据需求自定义设置，如对所生成的语音数据的质量要求越高，所述预设阈值也可相应地设置越大。

可选的，所述步骤102包括：

利用对抗生成网络对所述输出语音数据进行真假判别；

该实施方式中，依据自编码器和对抗生成网络生成目标语音数据的过程，具体可以是，先将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据，其中，所述自编码器可以对输入的语音样本数据进行表征学习，获得所述语音样本数据的语音特征，进而能够输出与所述语音样本数据相似的输出语音数据；然后，可以利用对抗生成网络对所述输出语音数据进行真假判别，即判别所述输出语音数据是否为真实语音数据，具体可以是将所述输出语音数据与所述语音样本数据进行对比，得出所述输出语音数据为真实语音数据的概率。

故所述自编码器的目的是生成与所述语音样本数据尽可能相似即尽量真实的语音数据，而所述对抗生成网络的目的则是尽量将生成的语音数据与真实的语音样本数据区分开来，从而二者构成一个动态的“博弈过程”，最终的结果则是通过所述自编码器生成足以以假乱真的语音数据，使得所述对抗生成网络难以判定生成的语音数据是否是真实的。也就是说，在利用所述自编码器和所述对抗生成网络生成与所述语音样本数据尽可能相似的目标语音数据的过程中，可以不断调整所述自编码器和所述对抗生成网络的参数，使得所述自编码器生成与所述语音样本数据足够相似的语音数据，进而使得所述对抗生成网络无法区分所生成的语音数据与真实的语音样本数据，而判别所生成的语音数据为真。

这样，在所述对抗生成网络判别所述输出语音数据为真的情况下，可确定此时生成的语音数据已较为真实，从而可将所述输出语音数据确定为与所述语音样本数据的相似度超过预设阈值的目标语音数据，反之，若判别所述输出语音数据为假，表明此时生成的语音数据还不够真实，需重新调整所述自编码器的参数，直至最终生成足够真实的目标语音数据。

该实施方式中，所述自编码器可以由结构相反的编码器和解码器组成，所述将所述语音样本数据输入自编码器中进行训练的过程，具体可以包括，先将所述语音样本数据输入自编码器的编码器中进行编码，提取得到所述语音样本数据的编码向量，所述编码的过程可以包括分帧、降维、拼接、卷积、下采样等步骤。然后，可以将所述编码向量输入所述自编码器的解码器中进行解码，得到解码后的语音数据，所述解码器可以与所述编码器的结构相反，故所述解码的过程可以是包括与所述

编码的过程相反的步骤，如上采样、反卷积、升维、合并等。

其中，所述编码器的结构可以是采用多层卷积神经网络，如5层、10层等，具体可依据实际需求确定，具体地，所述编码器可以包括卷积层和池化层，且池化层位于卷积层之后，这样，可以通过卷积层从语言样本数据中提取语音特征，并通过池化层减少特征数量，例如，可以采用五层卷积层，在第三、四和五卷积层之后加一2×2的max-pooling最大池化层，即对邻域内特征点取最大值，池化的过程也即上述下采样步骤。

所述解码器的结构则与所述编码器结构相反，即可以采用去池化层和反卷积层的结构，先对所述编码向量进行去池化，也即上采样，以还原特征数量，然后再进行反卷积操作，恢复原语音样本数据。

此外，为了加快收敛速度，还可以分别在所述编码器和解码器的每层卷积层后都加一层归一化(Batch Normalization，BN)层。且进一步地，还可在每层卷积层和BN层之间引入一线性整流函数(Rectified Linear Unit，ReLU)，以节省计算量。

由于自编码器并非是无损的，即解码器的输出与原来的输入(编码器的输出)相比是有退化的，故可以计算所述语音样本数据与所述解码后的语音数据之间的损失值，用以衡量由于编解码而损失掉的信息，具体地，可以是通过一损失函数来计算所述语音样本数据与所述解码后的语音数据之间的损失值，如将均方误差(Mean Square Error，MSE)作为损失函数，将所述语音样本数据与解码后的语音数据之间的均方误差MSE来表示损失值。

在计算得出所述损失值后，便可以判断该损失值是否符合要求，即是否小于目标值，若该损失值过大，如大于或等于目标值，表示解码后的语音数据相比原语音样本数据，损失了较多的信息，无法反应真实的语音数据，则需对所述自编码器的结构参数进行优化调整，以降低损失值，若该损失值小于目标值，表示解码后的语音数据较为接近原语音样本数据，可将所述解码后的语音数据确定为所述自编码器最终输出的输出语音数据。

其中，对所述自编码器的结构参数的优化调整具体可以是利用优化函数来求解损失函数的最小值，进而确定所述自编码器的结构参数取值，例如，可以使用随机梯度下降(Stochastic Gradient Descent，SGD)优化算法来求解所述自编码器的最优结构参数，以使得所述损失函数取值最小。

在调整所述自编码器的结构参数后，可以将所述语音样本数据输入调整后的自编码器中重复上述训练步骤直至所述损失值小于所述目标值，也就是重新对所述语音样本数据进行训练，即利用调整后的自编码器对所述语音样本数据进行重新编码、解码、计算损失值、判断损失值是否小于目标值的步骤，以最终得到损失值小于目标值的输出语音数据。

这样，通过对所述自编码器的不断优化调整，可训练得到能够生成与原语音样本数据尽可能相似的目标语音数据的自编码器，进而保证后续中可利用该自编码器来生成较真实的高质量语音数据。

通过所述编码器对所述语音样本数据进行分帧处理；

该实施方式中，利用所述编码器对所述语音样本数据进行编码的过程可以包括分帧、降维、拼接和卷积等步骤，具体地，可以利用所述编码器对所述语音样本数据进行分帧处理，即将所述语音样本数据分成时长更短的若干帧语音数据，如分帧后每帧语音数据长度约为20ms至30ms，该区间内的语音信号可看作稳态信号，可便于后续对其进行信号处理，以提取语音特征。

然后，可以使用神经网络算法对分帧后的语音样本数据进行降维处理，具体地，可以根据需要使用一层或多层神经网络对分帧后的每帧语音样本数据分别进行降维处理，以得到低维的语音样本数据，便于更好地分析语音样本数据和从中提取语音特征。其中，为保证较快的降维速度，可以采用优先采用两层神经网络对分帧后的语音样本数据进行降维处理。

接着，可以对降维处理后的语音样本数据进行拼接，即将降维后的每帧语音样本数据在维度上进行拼接，得到完整的语音样本数据的语音频谱，如线性频谱或者梅尔频谱，从而可以利用该语音频谱，从中提取所述语音样本数据的语音特征，具体地，可利用若干层卷积神经网络对所述语音频谱进行特征提取，得到所述语音样本数据的编码向量，如利用5层卷积神经网络对所述语音频谱进行特征提取，其中，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

这样，通过对所述语音样本数据的分帧、降维、拼接、卷积和特征提取，可以得到能够反应所述语音样本数据的语音特征的编码向量，进而完成对所述语音样本数据的编码。

将所述输出语音数据作为对抗生成网络的生成器的输出；

通常对抗生成网络由生成器和判别器组成，但由于自编码器可以生成与所述语音样本数据相似的语音数据，故该实施方式中，可以将所述自编码器的输出语音数据作为对抗生成网络的生成器的输出，也即所述自编码器中的解码器与所述对抗生成网络的生成器可以合二为一，将所述解码器的输出语音数据当作所述生成器的输出数据。

然后，可以将所述语音样本数据和所述输出语音数据输入所述对抗生成网络的判别器中进行真假判别，即所述判别器可以基于真实的语音样本数据，来判断生成的输出语音数据是否为真实的语音数据，具体可为计算所生成的输出语音数据为真实语音数据的概率，当所述输出语音数据与所述真实的语音样本数据足够相似时，可得到所述判别器的输出为1，即表示判别所述输出语音数据为真的概率为100％，而当所述输出语音数据与所述真实的语音样本数据相差较大时，可得到所述判别器的输出为0，即表示判别所述输出语音数据为真的概率为0％。

例如，可以参见图2，将真实录制的语音样本数据输入自编码器20的编码器21中，以对其进行编码，经编码器21编码后的语音数据输入解码器22中，以对其进行解码，解码器22同为对抗生成网络的生成器，经解码器22解码后的语音数据和原始语音样本数据分别输入判别器23中，通过判别器23对解码器22中的解码后的语音数据进行真假判别。

这样，通过编码器编码、解码器解码和判别器判别，可以训练生成接近真实语音样本数据的目标语音数据。

需说明的是，所述判别器的结构可以是在所述自编码器的编码器结构的基础上再加两层全连接层，且最后一层全连接层的维度可为2，以保证所述判别器能够进行二分类，即可以分类正确的样本和合成的样本。且为加快收敛速度，可以在所述自编码器的编码器和解码器的结构中的每一层神经网络层后加一层归一化(Batch Normalization，BN)层。

可选的，所述方法还包括：

该实施方式中，在利用判别器对所述输出语音数据进行真假判别时，可以是将所述语音样本数据和所述输出语音数据输入所述对抗生成网络的判别器中，计算所述输出语音数据为真实语音的概率，以根据该概率确定所述输出语音数据是真实的还是合成的，进而确定所述输出语音数据是否符合要求。

在计算得到所述概率后，还可以进一步计算所述语音样本数据和所述输出语音数据之间的交叉熵，其中，交叉熵可以用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小，交叉熵越低，这个策略就越好，最低的交叉熵也就是使用了真实分布所计算出来的信息熵。这样，通过计算所述语音样本数据和所述输出语音数据之间的交叉熵，可以确定所述判别器所计算出所述输出语音数据为真实语音的概率与真实概率分布之间的相差程度，交叉熵越低，表明所述判别器的判断结果越准确。

故为优化所述判别器，使其能够准确地区分真实语音与合成语音，保证最终生成的语音数据足够真实，可以利用优化函数对所述判别器的参数进行优化调整，使得所述交叉熵变小如最小，具体地，可以是利用优化函数计算得到所述交叉熵取最小值时对应的判别器的参数取值，其中，所述优化函数可以是min max V(D，G)＝E_x～Pdata(x)[logD(x)]+E_z～Pz(z)[log(1-D(G(z)))]，其中，Pz(z)表示随机噪声的概率密度，x表示真实语音样本数据，Pdata(x)表示参数数据的概率密度，z表示输入生成器的特征向量，G(z)表示生成器生成的语音数据。

这样，通过对所述判别器的参数的优化调整，可以保证其能更准确地区分真实语音样本数据与解码器输出的语音数据，进而能够保证最终生成的语音数据足够真实，得到高质量语音数据。

本实施例中的语音生成方法，通过依据自编码器和对抗生成网络来生成与语音样本数据相似度超过预设阈值的目标语音数据，从而可保证生成的语音数据能够尽可能接近真实语音，这样，可采用这种方法生成大量的高质量语音数据，降低高质量语音数据的获取成本。

参见图3，图3是本发明实施例提供的一种语音生成装置的结构示意图，如图3所示，语音生成装置30包括：

获取模块31，用于获取语音样本数据；

生成模块32，用于依据自编码器和对抗生成网络生成与所述语音样本数据的相似度超过预设阈值的目标语音数据。

可选的，如图4所示，生成模块32包括：

训练子模块321，用于将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据；

判别子模块322，用于利用对抗生成网络对所述输出语音数据进行真假判别；

确定子模块323，用于在判别出所述输出语音数据为真的情况下，将所述输出语音数据确定为与所述语音样本数据的相似度超过预设阈值的目标语音数据。

可选的，如图5所示，训练子模块321包括：

提取单元3211，用于将所述语音样本数据输入自编码器的编码器中进行编码，提取得到所述语音样本数据的编码向量；

解码单元3212，用于将所述编码向量输入所述自编码器的解码器中进行解码，得到解码后的语音数据；

第一计算单元3213，用于计算所述语音样本数据与所述解码后的语音数据之间的损失值；

确定单元3214，用于在所述损失值小于目标值的情况下，将所述解码后的语音数据确定为所述自编码器输出的输出语音数据；

第一调整单元3215，用于在所述损失值大于或等于目标值的情况下，调整所述自编码器的结构参数，并将所述语音样本数据输入调整后的自编码器中重复上述训练步骤直至所述损失值小于所述目标值。

可选的，如图6所示，提取单元3211包括：

分帧子单元32111，用于通过所述编码器对所述语音样本数据进行分帧处理；

降维子单元32112，用于使用M层神经网络对分帧后的语音样本数据进行降维处理，其中，所述M为大于或等于1的整数；

拼接子单元32113，用于对降维处理后的语音样本数据进行拼接，得到所述语音样本数据的语音频谱；

提取子单元32114，用于使用N层卷积神经网络对所述语音频谱进行特征提取，得到所述语音样本数据的编码向量，其中，所述N为大于或等于1的整数。

可选的，如图7所示，判别子模块322包括：

处理单元3221，用于将所述输出语音数据作为对抗生成网络的生成器的输出；

第二计算单元3222，用于将所述语音样本数据和所述输出语音数据输入所述对抗生成网络的判别器中，以参考所述语音样本数据，计算所述输出语音数据为真实语音的概率；

判别单元3223，用于在所述概率大于或等于预设概率阈值的情况下，判别所述输出语音数据为真实语音。

可选的，如图8所示，判别子模块322还包括：

第三计算单元3224，用于根据所述概率，计算所述语音样本数据和所述输出语音数据之间的交叉熵；

第二调整单元3225，用于利用优化函数对所述判别器的参数进行优化调整，使得所述交叉熵变小。

语音生成装置30能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。本发明实施例的语音生成装置30可以通过依据自编码器和对抗生成网络来生成与语音样本数据相似度超过预设阈值的目标语音数据，从而可保证生成的语音数据能够尽可能接近真实语音，这样，可采用这种方法生成大量的高质量语音数据，降低高质量语音数据的获取成本。

本发明实施例还提供一种语音生成装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音生成方法，其特征在于，包括：

获取语音样本数据；

利用对抗生成网络对所述输出语音数据进行真假判别；

2.根据权利要求1所述的方法，其特征在于，所述将所述语音样本数据输入自编码器中进行训练，以获取所述自编码器输出的输出语音数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述语音样本数据输入所述编码器中进行编码，提取得到所述语音样本数据的编码向量，包括：

通过所述编码器对所述语音样本数据进行分帧处理；

4.根据权利要求1所述的方法，其特征在于，所述利用对抗生成网络对所述输出语音数据进行真假判别，包括：

将所述输出语音数据作为对抗生成网络的生成器的输出；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种语音生成装置，其特征在于，包括：

获取模块，用于获取语音样本数据；

7.一种语音生成装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音生成方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音生成方法中的步骤。