CN110335584A

CN110335584A - 神经网络生成建模以变换语音发音和增强训练数据

Info

Publication number: CN110335584A
Application number: CN201910237141.8A
Authority: CN
Inventors: 普拉韦恩·纳拉亚南; 丽莎·斯卡里亚; 弗朗索瓦·沙雷特; 阿什利·伊丽莎白·米克斯; 瑞恩·伯克
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-03-29
Filing date: 2019-03-27
Publication date: 2019-10-15
Also published as: US10937438B2; DE102019107928A1; US20190304480A1

Abstract

本公开提供了“神经网络生成建模以变换语音发音和增强训练数据”。公开了用于使用深度生成模型进行语音变换和生成合成语音的系统、方法和装置。本公开的方法包括从多个说话人接收包括语音发音的多个迭代的输入音频数据。所述方法包括基于所述输入音频数据而生成输入谱图并将所述输入谱图传输到被配置为生成输出谱图的神经网络。所述方法包括从所述神经网络接收所述输出谱图并基于所述输出谱图而生成包括所述语音发音的合成音频数据。

Description

神经网络生成建模以变换语音发音和增强训练数据

技术领域

本公开一般涉及用于语音变换的系统、方法和装置。本公开特别涉及用于基于多个说话人而生成合成语音的系统、方法和装置。

背景技术

神经网络已经成为在众多数据密集型应用中执行端对端学习的可行解决方案。神经网络包括大致上模仿人类大脑的一组算法，该组算法被设计来识别模式。神经网络通过机器感知来解释感知数据并被配置为对原始数据输入进行标记或聚类。神经网络被配置为识别包含在矢量中的数值模式，所有真实世界数据(无论是图像、声音、文本还是时间序列)都必需被转变成矢量。神经网络可以被配置为对数据进行聚类和分类和根据示例输入间的相似性对未标记的数据进行分组，以及当存在用于要训练的神经网络的标记的数据集时对数据进行分类。

自动语音识别(ASR)和自然语言理解(NLU)是使用深度神经网络(DNN)系统取得进展的技术领域。可以训练这样的神经网络以识别和检测话音、识别说话人、将语音转录成文本以及识别话音中的情绪等。申请人认识到，利用这样的技术的限制因素是可供调查员用来进行训练和干预的数据。申请人认识到，神经网络用特征丰富的充足数据来进行最好的训练，并且可以适应真实世界场景。应理解，数据可用性(包括丰富和特征增强的数据)是在任何应用中训练DNN的先决条件。然而，大量丰富、特征增强的数据集、特别是语音数据集的可用性非常有限，并且限制了训练DNN以用于语音识别的成功。此外，语音数据集可能非常昂贵，并且包含质量有问题的数小时的语音。

申请人在本文中提出了用于增强和生成可在语音识别应用中使用的语音数据集的系统、方法和装置。本文公开的系统、方法和装置可以被配置为产生合成语音发音，以用于神经网络的技术领域中的训练目的。

发明内容

根据本公开的一个实施例，公开了一种用于生成合成语音的方法。在一个实施例中，所述方法由与神经网络通信的计算装置执行。所述方法包括从多个说话人接收包括语音发音的多个迭代的输入音频数据。所述方法包括基于所述输入音频数据而生成输入谱图并将所述输入谱图传输到被配置为生成输出谱图的神经网络。所述方法包括从所述神经网络接收所述输出谱图并基于所述输出谱图而生成包括所述语音发音的合成音频数据。

根据一个实施例，公开了一种用于生成合成语音的系统。在一个实施例中，所述系统包括神经网络，所述神经网络被配置为生成二维音频谱图。所述系统还包括计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器从多个说话人接收包括语音发音的多个迭代的输入音频数据。进一步致使所述处理器基于所述输入音频数据而生成输入谱图并将所述输入谱图传输到所述神经网络。进一步致使所述处理器从所述神经网络接收所述输出谱图并基于所述输出谱图而生成包括所述语音发音的合成音频数据。

附图说明

参考以下附图描述了本公开的非限制性和非穷举性实现方式，其中相同的附图标记在各个视图中指代相同的部件，除非另有说明。参考以下描述和附图，本公开的优点将变得更好理解，其中：

图1是根据一个实现方式的示出用于变换语音数据的过程流程的示意性框图；

图2是根据一个实现方式的用于变换语音数据的方法的流程图；

图3是根据一个实现方式的用于变换语音数据的方法的流程图；

图4是根据一个实现方式的用于变换语音数据的方法的流程图；

图5是根据一个实现方式的用于变换语音数据的方法的流程图；

图6是根据一个实现方式的示出示例训练阶段的示意性流程图；

图7是根据一个实现方式的示出示例测试和/或生成阶段的示意性流程图；

图8是根据一个实现方式的神经网络的完全连接的卷积的示意性图示；以及

图9是根据一个实现方式的示例计算装置的示意性框图。

具体实施方式

神经网络，包括深度神经网络(DNN)系统，为在众多数据密集型应用中执行端对端学习提供了可行解决方案。使用大量丰富、特征增强的数据集来训练这种神经网络。在训练神经网络的自动语音识别(ASR)和/或自然语言理解(NLU)的应用中，使用大量音频数据(包括来自多个说话人的语音数据)训练神经网络。

在本公开中，申请人提出并呈现了用于语音变换并特别是用于使用深度生成模型进行语音生成的系统、方法和装置。这样的系统、方法和装置可以基于用于语音检测(包括自动语音识别(ASR)和自然语言理解(NLU))的卷积神经网络(CNN)而与这种CNN集成。

申请人提出了用于生成和提供大量丰富、特征增强的数据集以与神经网络一起使用的系统、方法和装置。申请人提出了特别涉及生成基于质量语音的数据集(包括多个语音发音的合成音频)的这样的系统、方法和装置。这样的数据集可以用于训练神经网络并开发具有高级功能性的下一代话音识别接口。

在公开和描述用于检测对象诸如制造零件的方法、系统和装置之前，应理解，本公开不限于本文公开的配置、过程步骤和材料，因为这样的配置、过程步骤和材料可能有所不同。还应理解，本文采用的术语仅用于描述实现方式，而不旨在进行限制，因为本公开的范围将仅由所附权利要求及其等同物限制。

在描述和要求保护本公开时，将根据下面阐明的定义来使用以下术语。

必需注意，如本说明书和所附权利要求所用，单数形式“一个”、“一种”和“所述”包括复数指称，除非上下文另外清楚地指出。

如本文所用，术语“包含”、“包括”、“含有”、“其特征在于”及其语法等同物是包括性或开放性术语，其不排除附加的、未陈述的要素或方法步骤。

现在参考附图，图1示出了用于使用深度生成模型来变换语音的示例过程100。过程100包括接收输入音频数据102并基于输入音频数据102而生成输入谱图104。输入谱图104被传输到神经网络，其中神经网络的编码器模块106接收输入谱图104。输入谱图104可以由编码器模块106的一个或多个跨步卷积108、114接收，一个或多个跨步卷积108、114包括跨步卷积μ(mu)108和跨步卷积σ(sigma)114。跨步卷积108、114将输入谱图104传输到一个或多个完全连接的卷积110、116，诸如完全连接的卷积μ(mu)110和完全连接的卷积σ(sigma)116。完全连接的卷积μ110提供处理的输入谱图μ(mu)112，并且完全连接的卷积σ116提供处理的输入谱图σ(sigma)118。对单位高斯130进行采样以接收计算ε(epsilon)。执行计算120，计算120等于：

ε*σ+μ

计算120的结果被提供给解码器模块124。解码器模块124的跨步反卷积126接收计算120的结果并将结果提供给完全连接的卷积128。解码器模块124生成输出谱图134并将输出谱图134提供给计算装置。计算装置接收输出谱图134并使用Griffin Lim重建136生成输出音频数据138。

输入音频数据102包括本领域已知的任何合适的输入音频数据102，并且可以包括从说话人接收的原始音频数据。在一个实施例中，输入音频数据102包括语音发音的多个迭代，其中从一个或多个说话人接收多个迭代。语音发音包括任何合适的语音发音，包括例如单词、短语、句子、歌曲、噪声、声音等。在一个实施例中，从单个说话人接收语音发音的单个迭代，并且从不同的说话人接收语音发音的附加单个迭代。在一个实施例中，单个说话人提供语音发音的多个迭代。在一个实施例中，输入音频数据102包括来自单个说话人的语音发音的多个迭代，并且另外包括来自附加说话人的语音发音的迭代。在一个实施例中，语音发音的各种迭代反映不同的话音、不同的人、不同的合成话音、不同的声调、不同的重音、不同的语言等。

在一个实施例中，输入谱图104包括二维音频谱图。谱图表示用于表示在输入音频数据102中接收的音频信号。在一个实施例中，将一维输入音频数据102转换为输入音频数据102的二维谱图表示。生成输入谱图104并用均方误差(MSE)损失函数作为训练准则将其馈送到神经网络中，并且使用梯度下降优化来反向传播误差。

在一个实施例中，输出谱图134包括二维音频谱图。谱图表示可以用于表示输出音频数据138。在一个实施例中，输出谱图134被反转以使用Griffin Lim重建136生成输出音频数据138。Griffin Lim重建136用于从输出谱图134恢复相位信息。应理解，神经网络训练可以在使用梯度下降反向传播的任何框架中完成。在一个实施例中，使用基于python的图形处理单元(GPU)框架。

输入谱图104和输出谱图134是语音信号的表示，并且可以被视为包括宽度T(时间)和高度F(频率)的二维图像。因为语音信号在时域中在线显示平移不变性，所以可以通过最初进行大小为1×F的卷积来收缩频率区间。在该初始操作之后，可以应用大小为W×1的卷积，其中W是卷积内核的大小。在各种实施例中，最大池化和跨步卷积可以特别地成功。反卷积层可以类似地实现。

Griffin-Lim重建的过程136是指Griffin-Lim算法。关于Griffin-Lim算法的进一步公开可以在Griffin,Daniel W.和Jae S.Lim.的“通过修改的短时傅里叶变换的信号估计(Signal Estimation from Modified Short-Time Fourier Transform)”，IEEETransactions on Acoustics,Speech,and signal Processing，第ASSP-32卷，第2期(1984年4月)：第236至243页，其以引用方式并入本文。该算法被配置为通过其修改的短时傅立叶变换来估计信号。该算法是通过最小化估计的信号的短时傅立叶变换与修改的短时傅里叶变换之间的均方误差来获得。该算法被示出为在每个迭代中减小估计的信号的短时傅立叶变换量值与修改的短时傅里叶变换量值之间的均方误差。迭代算法中涉及的主要计算是离散傅里叶变换计算，并且该算法可实时地实现。在一个实施例中，该算法被应用于语音的时间标度修改，以生成高质量且特征丰富的合成语音。

输出音频数据138包括本领域已知的任何合适的音频数据格式。在一个实施例中，输出音频数据138包括合成音频数据，所述合成音频数据包括由多个合成话音进行的语音发音的多个迭代。输出音频数据138可以包括特定语音发音(诸如单词、短语、句子、声音、可识别的噪声等)的多个迭代。在这样的实施例中，可以以多个语音、频率、重音、速度等执行多个迭代。输出音频数据138可以包括用于多个语音发音的特征丰富且多种多样的合成音频数据集合。在一个实施例中，输出音频数据138被配置为由神经网络用于训练目的。

计算120包括由神经网络的编码器模块106提供的确定。计算120包括其中ε132乘以σ118并与μ112相加。ε132表示通过在N(0,1)处对单位高斯130进行采样得到的结果。σ118是从其相应的与编码器模块106通信的神经网络接收。μ112是从其相应的与编码器模块106通信的神经网络接收。

在一个实施例中，编码器模块106和解码器模块124是神经网络的部件。在一个实施例中，神经网络是本领域已知的卷积神经网络(CNN)。CNN包括卷积层作为神经网络的核心构建块。卷积层的参数包括一组可学习的滤波器或内核，该组可学习的滤波器或内核具有小感受野，但是延伸通过输入体积的整个深度。在正向传递期间，每个滤波器在输入体积的宽度和高度上卷积，以计算滤波器的条目与输入之间的点积并产生滤波器的二维激活图。因此，神经网络106学习当其在输入中的某个空间位置处检测到特定类型的特征(诸如制造零件上的特定特征)时激活的滤波器。在神经网络106中，沿着深度维度堆叠所有滤波器的激活图形成卷积层的完整输出体积。因此，输出体积中的每个条目也可以被解释为神经元的输出，其观察输入中的小区域并与同一个激活图中的神经元共享参数。作为CNN的神经网络可以成功地实现图像识别，包括以非常低的错误率从增强现实装置102捕获的图像中识别制造零件。

本领域的技术人员应理解，单个神经网络由连接节点的多个节点和边组成。边或节点的权重或值用于计算连接到后续节点的边的输出。因此，单个神经网络可以由多个神经网络组成以执行一个或多个任务。在一个实施例中，神经网络包括一些公共层作为神经网络的基础部分或公共部分。公共层可以被理解为形成神经网络的子网络。然后，在公共层中完成的计算和处理由第一任务层、第二任务层、第三任务层等使用。因此，神经网络包括分支拓扑，其中公共层的结果然后由神经网络的分支中的多个子网络中的每一个独立地使用。因为公共层针对多个任务顺序地训练以避免忘记先前训练的任务，所以公共层可以执行良好地服务神经网络分支中的每一个的任务。此外，公共层造成减少的计算，因为公共层的任务针对由分支表示的所有任务执行一次，而不是针对每个任务执行一次。要由公共层执行的任务的一个示例是特征提取。然而，可能具有共享初始处理任务的任何任务都可以共享公共层。

图2示出了用于变换语音的方法200的示意性流程图。方法200开始，并且在202处，计算装置从多个说话人接收包括语音发音的多个迭代的输入音频数据102。方法200继续，并且在204处,计算装置基于输入音频数据102而生成输入谱图104，并且在206处，将输入谱图104传输到神经网络，其中神经网络被配置为生成输出谱图134。在208处，计算装置从神经网络接收输出谱图134。在210处，计算装置基于输出谱图134而生成包括语音发音的合成音频数据。

图3示出了用于变换语音的方法300的示意性流程图。方法300开始，并且在302处，计算装置从多个说话人接收包括语音发音的多个迭代的输入音频数据102。在304处，计算装置基于输入音频数据102而生成二维输入音频谱图。在306处，计算装置使用均方误差(MSE)损失函数将二维输入音频谱图传输到神经网络，其中神经网络被配置为生成二维输出音频谱图。在308处，计算装置从神经网络接收二维输出谱图134。在310处，计算装置基于二维输出谱图134而生成包括语音发音的合成音频数据。

图4示出了用于变换语音的方法400的示意性流程图。方法400开始，并且在402处，神经网络接收输入谱图104，其中输入谱图104基于从多个说话人接收的输入音频数据102而生成。在404处，使用均方误差(MSE)损失函数训练准则训练神经网络。在406处，通过将输入谱图104与地面实况进行比较来训练神经网络。

图5示出了用于变换语音的方法500的示意性流程图。方法500开始，并且在502处，神经网络接收输入谱图104，其中输入谱图104基于从多个说话人接收的输入音频数据102而生成。在504处，神经网络从变分自动编码器的隐层采样。在506处，神经网络生成输出谱图134，其中输出谱图134包括二维音频谱图。

图6示出了用于训练神经网络的过程600的示意性流程图。在一个实施例中，图6表示了用于变换和/或生成语音数据的训练阶段过程。过程600包括接收输入602并通过编码模块604处理输入602。编码模块604产生μ(mu)606和σ(sigma)607。通过在N(0,1)处对单位高斯进行采样以生成ε(epsilon)610。执行等于Z＝μ+εσ的计算608，其中Z等于潜在空间矢量。将计算608的结果提供给解码模块612，并且解码模块612提供输出614。在训练期间，通过比较输出谱图和由语音变分自动编码器的解码模块612生成的重建来端对端训练神经网络。图6示出了借助Griffin-Lim重建136将输入音频数据102转换为输入谱图104并转换回输出音频数据138的预处理和后处理阶段。通过发送到编码模块604来将输入谱图104转换为潜在表示Z。由解码模块612生成输出谱图134。

图7示出了用于由神经网络进行训练和/或生成的过程700的示意性流程图。过程700包括确定潜在表示Z 702并通过解码704过程处理潜在表示Z 702。通过从潜在空间范围(-a,a)采样以产生具有与训练中使用的相同的维度的潜在空间矢量Z(参见图6)来确定潜在表示Z 702。解码704过程接收潜在表示Z 702作为确定所生成的谱图706所需的输入。过程700包括借助解码704过程提供生成的谱图706。在测试时间期间，通过将潜在表示Z 702(通过将编码器输出μ(mu)与σ(sigma)乘以从单位高斯得到的采样变量ε(epsilon)相加来获得(参见计算608))发送到解码模块704来生成新的音频样本。然后，解码模块704提供包括新的音频谱图的生成的谱图706。生成的谱图706被提供给Griffin-Lim重建136模块以反转回音频信号(输出音频数据138)。在用于训练的过程600期间，通过在从单位高斯610采样之后使编码的量(μ、σ)进行计算608来获得潜在表示Z.在用于测试和/或生成的过程700期间，从范围(例如(-a,a))对潜在表示Z 702进行采样以生成新的发音。

图8示出了用于变分自动编码器的完全连接的架构800的示意性框图。在另外实施例中，使用跨步卷积架构。完全连接的架构800(还参见110、116、128)包括编码器802和解码器808。编码器802接收输入804并将来自高维输入的输入804数据带到瓶颈层，在那里神经元的数量最少。解码器808获取编码的输入并将其转换回原始输入形状作为重建的输入810。潜在空间表示806包括其中数据位于瓶颈层中的空间。在一个实施例中，潜在空间表示806包括数据的压缩表示，其是解码器的用于提供重建的输入810的唯一信息。因此，神经网络提取瓶颈中的最相关的特征。

现在参考图9，示出了示例计算系统900的框图。计算装置900可以用于执行各种过程，诸如本文讨论的那些过程。在一个实施例中，计算装置900可以用作神经网络、编码器模块106、解码器模块124等。计算装置900可以执行如本文所讨论的各种监测功能，并且可以执行一个或多个应用程序，诸如本文描述的应用程序或功能性。计算装置900可以是各种计算装置中的任何一种，所述计算装置诸如台式计算机、内置式计算机、车辆控制系统、笔记本计算机、服务器计算机、手持式计算机、膝上型计算机等。

计算装置900包括一个或多个处理器902，一个或多个存储器装置804、一个或多个接口906、一个或多个大容量存储装置908、一个或多个输入/输出(I/O)装置910和显示装置930，所有这些都耦合到总线912。处理器902包括执行存储在存储器装置904和/或大容量存储装置908中的指令的一个或多个处理器或控制器。处理器902还可以包括各种类型的计算机可读介质，诸如高速缓存存储器。

存储器装置904包括各种计算机可读介质，诸如易失性存储器(例如，随机存取存储器(RAM)914)和/或非易失性存储器(例如，只读存储器(ROM)916)。存储器装置904还可以包括可重写ROM，诸如快闪存储器。

大容量存储装置908包括各种计算机可读介质，诸如磁带、磁盘、光盘、固态存储器(例如，快闪存储器)等。如图9所示，特定大容量存储装置是硬盘驱动器924。各种驱动器也可以包括在大容量存储装置908中，以使得能够从各种计算机可读介质读出和/或向各种计算机可读介质写入。大容量存储装置908包括可移动介质926和/或不可移动介质。

I/O装置910包括允许将数据和/或其它信息输入到计算装置900或从计算装置900中检索数据和/或其它信息的各种装置。示例I/O装置910包括光标控制装置、键盘、小键盘、麦克风、监视器或其它显示装置、扬声器、打印机、网络接口卡、调制解调器等。

显示装置930包括能够向计算装置900的一个或多个用户显示信息的任何类型的装置。显示装置930的示例包括监视器、显示终端、视频投影装置等。

接口906包括允许计算装置900与其它系统、装置或计算环境交互的各种接口。示例接口906可以包括任何数量的不同的网络接口920，诸如到局域网(LAN)、广域网(WAN)、无线网络和互联网的接口。其它接口包括用户接口918和外围装置接口922。接口906还可以包括一个或多个用户接口元素918。接口906还可以包括一个或多个外围接口，诸如用于打印机、定点装置(鼠标、跟踪板、或现在为本领域的普通技术人员所知或以后发现的任何合适的用户接口)、键盘等的接口。

总线912允许处理器902、存储器装置904、接口906、大容量存储装置908和I/O装置910以及耦合到总线912的其它装置或部件彼此通信。总线912表示几种类型的总线结构中的一种或多种，诸如系统总线、PCI总线、IEEE总线、USB总线等。

出于说明目的，程序和其它可执行程序部件在本文中被示出为离散框，但是应理解，这些程序和部件可以在各个时间上驻留在计算装置900的不同的存储部件中并由处理器902执行。或者，本文描述的系统和程序可以用硬件、或硬件、软件和/或固件的组合来实现。例如，可以对一个或多个专用集成电路(ASIC)进行编程以实施本文描述的系统和程序中的一个或多个。

示例

以下示例涉及另外实施例。

示例1是一种用于生成合成语音数据的方法。所述方法包括：从多个说话人接收包括语音发音的多个迭代的输入音频数据；基于所述输入音频数据而生成输入谱图；将所述输入谱图传输到被配置为生成输出谱图的神经网络；从所述神经网络接收所述输出谱图；以及基于所述输出谱图而生成包括所述语音发音的合成音频数据。

示例2是如示例1的方法，其中所述输入谱图和所述输出谱图中的一个或多个包括二维音频谱图表示。

示例3是如示例1至2中任一项的方法，其中所述语音发音包括单词、短语、句子或噪声中的一个或多个。

示例4是如示例1至3中任一项的方法，其中所述多个说话人包括现实说话人和合成说话人。

示例5是如示例1至4中任一项的方法，所述方法还包括将包括所述语音发音的所述合成音频数据传输到被配置为要使用所述合成音频数据训练的训练神经网络。

示例6是如示例1至5中任一项的方法，其中所述神经网络包括修改的神经网络架构，所述修改的神经网络架构包括在编码器中的卷积层和在解码器中的反卷积层。

示例7是如示例1至6中任一项所述的方法，其中所述神经网络被配置为经历训练阶段和生成阶段，其中所述训练阶段包括学习用于产生所述输出谱图的多个参数，并且所述生成阶段包括通过从隐层采样来生成所述输出谱图。

示例8是如示例1至7中任一项的方法，其中所述输入音频数据包括一维输入音频信号。

示例9是如示例1至8中任一项的方法，其中将所述输入谱图传输到所述神经网络包括使用均方误差损失函数作为训练准则来馈送所述输入谱图。

示例10是如示例1至9中任一项所述的方法，其中所述神经网络被配置为借助Griffin-Lim重建生成所述输出谱图。

示例11是如示例1至10中任一项的方法，其中所述输入谱图和所述输出谱图中的一个或多个包括二维图像，所述二维图像包括时间轴和频率轴。

示例12是一种用于生成合成语音数据的系统。所述系统包括：神经网络，所述神经网络被配置为生成二维音频谱图；以及计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：从多个说话人接收包括语音发音的多个迭代的输入音频数据；基于所述输入音频数据而生成输入谱图；将所述输入谱图传输到所述神经网络；从所述神经网络接收输出谱图；以及基于所述输出谱图而生成包括所述语音发音的合成音频数据。

示例13是如示例12的系统，其中所述神经网络包括基于变分自动编码器模型的修改的神经网络架构，并且其中所述神经网络包括在编码器中使用的卷积层和在解码器中使用的反卷积层。

示例14是如示例12至13中任一项的系统，其中所述神经网络包括工作流程，并且所述工作流程包括：训练阶段，其中所述神经网络用作自动编码器并被配置为学习用于生成所述输出谱图的多个参数；以及生成阶段，其中所述神经网络生成所述输出谱图。

示例15是如示例12至14中任一项的系统，其中在已经对所述神经网络进行训练并且已经将所述神经网络的编码层移除之后，所述神经网络经历所述生成阶段。

示例16是如示例12至15中任一项的系统，其中所述神经网络被配置为通过从隐层采样来生成所述输出谱图。

示例17是如示例12至16中任一项的系统，其中所述计算机可读存储介质借助Griffin-Lim重建生成合成音频数据，以恢复相位信息。

示例18是如示例12至17中任一项的系统，其中所述计算机可读存储介质用均方误差损失函数作为训练准则将所述输入谱图传输到所述神经网络，其中使用梯度下降优化来反向传播误差。

示例19是如示例12至18中任一项的系统，其中所述神经网络包括变分自动编码器架构，所述变分自动编码器架构包括跨步卷积、完全连接的卷积和跨步反卷积。

示例20是计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：从多个说话人接收包括语音发音的多个迭代的输入音频数据；基于所述输入音频数据而生成二维输入音频谱图；将所述二维输入音频谱图传输到神经网络；从所述神经网络接收二维输出音频谱图；以及基于所述二维输出音频谱图而生成包括所述语音发音的合成音频数据。

在上面的公开内容中，已经参考了构成本公开的一部分的附图，并且其中以说明的方式示出可实践本公开的具体实现方式。应理解，可以利用其它实现方式，并且可以在不脱离本公开的范围的情况下做出结构改变。本说明书中对例“一个实施”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可能不一定包括特定特征、结构或特性。此外，此类短语不一定是指同一个实施例。另外，当结合实施例来描述特定特征、结构或特性时，应认为，无论是否明确描述，结合其它实施例实现此类特征、结构或特性都在本领域的技术人员的知识范围内。

本文公开的系统、装置和方法的实现方式可以包括或利用包括计算机硬件的专用或通用计算机，所述计算机硬件诸如像一个或多个处理器和系统存储器，如本文所讨论。在本公开的范围内的实现方式还可以包括用于承载或存储计算机可执行指令和/或数据结构的实体和其它计算机可读介质。这种计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。承载计算机可执行指令的计算机可读介质是传输介质。因此，以举例的方式，而不是进行限制，本公开的实现方式可以包括至少两个截然不同的种类的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如，基于RAM的)、快闪存储器、相变存储器(“PCM”)、其它类型的存储器、其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于存储所期望的程序代码手段(呈计算机可执行指令或数据结构的形式，并且可由通用计算机或专用计算机访问)的任何其它介质。

本文公开的装置、系统和方法的实现方式可以通过计算机网络进行通信。“网络”被限定为使得能够在计算机系统和/或模块和/或其它电子装置之间传输电子数据的一个或多个数据链路。当通过网络或另一个通信连接(硬接线、无线、或硬接线或无线的组合)向计算机传递或提供信息时，计算机适当地将连接视为传输介质。传输介质可以包括网络和/或数据链路，所述网络和/或数据链路可以用于承载所期望的程序代码手段，所述程序代码手段呈计算机可执行指令或数据结构的形式，并且可由通用或专用计算机访问。上述的组合也应被包括在计算机可读介质的范围内。

计算机可执行指令包括例如当在处理器处执行时致使通用计算机、专用计算机或专用处理装置执行某种功能或功能分组的指令和数据。计算机可执行指令可以是例如二进制文件、中间格式指令(诸如汇编语言)或甚至源代码。虽然已经用特定于结构特征和/或方法动作的语言描述了主题，但是应理解，所附权利要求中限定的主题不一定限于上述特征或动作。相反，所描述的特征和动作被公开作为实现权利要求的示例形式。

本领域的技术人员将了解，本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践，所述计算机系统配置包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持式装置、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机、各种存储装置等。本公开还可以在分布式系统环境中实践，其中通过网络链接(通过硬连线数据链路、无线数据链路、或通过硬连线数据链路和无线数据链路的组合)的本地计算机系统和远程计算机系统都执行任务。在分布式系统环境中，程序模块可以在本地存储器存储装置和远程存储器存储装置中。

此外，在适当时，本文描述的功能可以在以下中的一个或多个中执行：硬件、软件、固件、数字部件或模拟部件。例如，可以对一个或多个专用集成电路(ASIC)进行编程以实施本文描述的系统和程序中的一个或多个。某些术语贯穿描述和权利要求使用以指称特定系统部件。术语“模块”和“部件”用在某些部件的名称中，以反映它们在软件、硬件、电路、传感器等中的实现独立性。如本领域的技术人员将了解，部件可以用不同的名称来指称。本文献不意图区分名称不同而不是功能不同的部件。

应当注意，上面讨论的传感器实施例可以包括计算机硬件、软件、固件或以上的任何组合以执行其功能的至少一部分。例如，传感器可以包括被配置为在一个或多个处理器中执行的计算机代码，并且可以包括由计算机代码控制的硬件逻辑/电路。这些示例装置在本文中提供用于说明目的而不是旨在进行限制。本公开的实施例可以在其它类型的装置中实现，如相关领域的技术人员将了解。

本公开的至少一些实施例已经涉及计算机程序产品，所述计算机程序产品包括存储在任何计算机可用介质上的这种逻辑(例如，呈软件的形式)。这种软件当在一个或多个数据处理装置中执行时致使装置如本文所述的那样操作。

虽然上面已经描述了本公开的各种实施例，但是应理解，仅以举例的方式呈现了这些实施例而不是进行限制。相关领域的技术人员将清楚，在不脱离本公开的精神和范围的情况下，可以对形式和细节做出各种改变。因此，本公开的广度和范围不应受上述示例性实施例中的任何一个的限制，而应仅根据以下权利要求及其等同物限定。已经出于说明和描述目的而呈现了前述描述。不意图穷举或将本公开限制为所公开的精确形式。考虑到以上教导，许多修改和变化是可能的。此外，应注意，任何或所有前述替代实现方式可以以所期望的任何组合使用以形成本公开的附加混合实现方式。

此外，虽然已经描述和说明了本公开的特定实现方式，但是本公开不限于如此描述和说明的部分的特定形式或布置。本公开的范围将由本文所附权利要求、此处提交的和不同申请中的任何未来权利要求及其等同物限定。

根据本发明，一种用于生成合成语音数据的方法包括：从多个说话人接收包括语音发音的多个迭代的输入音频数据；基于所述输入音频数据而生成输入谱图；将所述输入谱图传输到被配置为生成输出谱图的神经网络；从所述神经网络接收所述输出谱图；以及基于所述输出谱图而生成包括所述语音发音的合成音频数据。

根据一个实施例，所述输入谱图和所述输出谱图中的一个或多个包括二维音频谱图表示。

根据一个实施例，所述语音发音包括单词、短语、句子或噪声中的一个或多个。

根据一个实施例，所述多个说话人包括现实说话人和合成说话人。

根据一个实施例，上述发明的特征还在于，将包括所述语音发音的所述合成音频数据传输到被配置为要使用所述合成音频数据训练的训练神经网络。

根据一个实施例，所述神经网络包括修改的神经网络架构，所述修改的神经网络架构包括在编码器模块中的卷积层和在解码器模块中的反卷积层。

根据一个实施例，所述神经网络被配置为经历训练阶段和生成阶段，其中所述训练阶段包括学习用于产生所述输出谱图的多个参数，并且所述生成阶段包括通过从隐层采样来生成所述输出谱图。

根据一个实施例，所述输入音频数据包括一维输入音频信号。

根据一个实施例，将所述输入谱图传输到所述神经网络包括使用均方误差损失函数作为训练准则来馈送所述输入谱图。

根据一个实施例，所述神经网络被配置为借助Griffin-Lim重建生成所述输出谱图。

根据一个实施例，所述输入谱图和所述输出谱图中的一个或多个包括二维图像，所述二维图像包括时间轴和频率轴。

根据本发明，提供了一种用于生成合成语音数据的系统，所述系统具有：神经网络，所述神经网络被配置为生成二维音频谱图；以及计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：从多个说话人接收包括语音发音的多个迭代的输入音频数据；基于所述输入音频数据而生成输入谱图；将所述输入谱图传输到所述神经网络；从所述神经网络接收输出谱图；以及基于所述输出谱图而生成包括所述语音发音的合成音频数据。

根据一个实施例，所述神经网络包括基于变分自动编码器模型的修改的神经网络架构，并且其中所述神经网络包括在编码器模块中使用的卷积层和在解码器模块中使用的反卷积层。

根据一个实施例，所述神经网络包括工作流程，并且所述工作流程包括：训练阶段，其中所述神经网络用作自动编码器并被配置为学习用于生成所述输出谱图的多个参数；以及生成阶段，其中所述神经网络生成所述输出谱图。

根据一个实施例，在已经对所述神经网络进行训练并且已经将所述神经网络的编码层移除之后，所述神经网络经历所述生成阶段。

根据一个实施例，所述神经网络被配置为通过从隐层采样来生成所述输出谱图。

根据一个实施例，所述计算机可读存储介质借助Griffin-Lim重建生成合成音频数据，以恢复相位信息。

根据一个实施例，所述计算机可读存储介质用均方误差损失函数作为训练准则将所述输入谱图传输到所述神经网络，其中使用梯度下降优化来反向传播误差。

根据一个实施例，所述神经网络包括变分自动编码器架构，所述变分自动编码器架构包括跨步卷积、完全连接的卷积和跨步反卷积。

根据本发明，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：从多个说话人接收包括语音发音的多个迭代的输入音频数据；基于所述输入音频数据而生成二维输入音频谱图；将所述二维输入音频谱图传输到神经网络；从所述神经网络接收二维输出音频谱图；以及基于所述二维输出音频谱图而生成包括所述语音发音的合成音频数据。

Claims

1.一种用于生成合成语音数据的方法，所述方法包括：

从多个说话人接收包括语音发音的多个迭代的输入音频数据；

基于所述输入音频数据而生成输入谱图；

将所述输入谱图传输到被配置为生成输出谱图的神经网络；

从所述神经网络接收所述输出谱图；以及

基于所述输出谱图而生成包括所述语音发音的合成音频数据。

2.如权利要求1所述的方法，其中所述输入谱图和所述输出谱图中的一个或多个包括二维音频谱图表示。

3.如权利要求1所述的方法，其中所述语音发音包括单词、短语、句子或噪声中的一个或多个。

4.如权利要求1所述的方法，其中所述多个说话人包括现实说话人和合成说话人。

5.如权利要求1所述的方法，所述方法还包括将包括所述语音发音的所述合成音频数据传输到被配置为要使用所述合成音频数据训练的训练神经网络。

6.如权利要求1所述的方法，其中所述神经网络包括修改的神经网络架构，所述修改的神经网络架构包括在编码器模块中的卷积层和在解码器模块中的反卷积层，并且其中所述神经网络被配置为进行以下中的一个或多个：

经历训练阶段和生成阶段，其中所述训练阶段包括学习用于产生所述输出谱图的多个参数，并且所述生成阶段包括通过从隐层采样来生成所述输出谱图；或者

借助Griffin-Lim重建生成所述输出谱图。

7.如权利要求1所述的方法，其中存在以下中的一个或多个：

所述输入音频数据包括一维输入音频信号；或者

所述输入谱图和所述输出谱图包括二维图像，所述二维图像包括时间轴和频率轴。

8.如权利要求1所述的方法，其中将所述输入谱图传输到所述神经网络包括使用均方误差损失函数作为训练准则来馈送所述输入谱图。

9.一种用于生成合成语音数据的系统，所述系统包括：

神经网络，所述神经网络被配置为生成二维音频谱图；以及

计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：

基于所述输入音频数据而生成输入谱图；

将所述输入谱图传输到所述神经网络；

从所述神经网络接收输出谱图；以及

10.如权利要求9所述的系统，其中所述神经网络包括基于变分自动编码器模型的修改的神经网络架构，并且其中所述神经网络包括在编码器模块中使用的卷积层和在解码器模块中使用的反卷积层。

11.如权利要求9所述的系统，其中所述神经网络包括工作流程，并且所述工作流程包括：

训练阶段，其中所述神经网络用作自动编码器并被配置为学习用于生成所述输出谱图的多个参数；以及

生成阶段，其中所述神经网络生成所述输出谱图。

12.如权利要求11所述的系统，其中存在以下中的一个或多个：

在已经对所述神经网络进行训练并且已经将所述神经网络的编码层移除之后，所述神经网络经历所述生成阶段；

所述神经网络被配置为通过从隐层采样来生成所述输出谱图；或者

所述神经网络包括变分自动编码器架构，所述变分自动编码器架构包括跨步卷积、完全连接的卷积和跨步反卷积。

13.如权利要求9所述的系统，其中所述计算机可读存储介质借助Griffin-Lim重建生成合成音频数据，以恢复相位信息。

14.如权利要求9所述的系统，其中所述计算机可读存储介质用均方误差损失函数作为训练准则将所述输入谱图传输到所述神经网络，其中使用梯度下降优化来反向传播误差。

15.计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时致使所述一个或多个处理器：

基于所述输入音频数据而生成二维输入音频谱图；

将所述二维输入音频谱图传输到神经网络；

从所述神经网络接收二维输出音频谱图；以及

基于所述二维输出音频谱图而生成包括所述语音发音的合成音频数据。