CN114981882A

CN114981882A - 歌声转换

Info

Publication number: CN114981882A
Application number: CN202180009251.4A
Authority: CN
Inventors: 俞承柱; 卢恒; 翁超; 俞栋
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-02-13
Filing date: 2021-02-08
Publication date: 2022-08-30
Also published as: EP4062397A4; JP7356597B2; KR20220128417A; US11721318B2; WO2021162982A1; EP4062397A1; US20210256958A1; JP2023511604A; US11183168B2; US20220036874A1

Abstract

提供一种用于将与第一发音者相关联的歌唱的第一歌声转换为与第二发音者相关联的第二歌声的方法、计算机程序和计算机系统。对与一个或多个音素相关联的上下文进行编码，一个或多个音素对应于第一歌声，以及基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐。根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征，以及通过使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。

Description

歌声转换

相关申请的交叉引用

本申请要求于2020年2月13日提交的第16/789,674号美国申请的优先权，该美国申请明确地通过引用整体并入本申请。

技术领域

本公开总体上涉及计算领域，更具体地涉及数据处理。

背景技术

歌唱是人类表达的重要方式，多年来，通过计算机进行语音合成已引起人们的兴趣。歌声转换是合成歌声的一种方式，通过歌声转换，可使用另一位歌手的声音提取和再现现存的歌声中存在的音乐表达。

发明内容

实施例涉及用于将第一歌声转换为第二歌声的方法、系统和计算机可读介质。根据一方面，提供一种用于将第一歌声转换为第二歌声的方法。该方法可包括：通过计算机对与一个或多个音素相关联的上下文进行编码，一个或多个音素对应于第一歌声。计算机可基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐，以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。

根据另一方面，提供一种用于将第一歌声转换为第二歌声的计算机系统。计算机系统可包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令，程序指令经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器执行，以使计算机系统能够执行一种方法。该方法可包括：通过计算机对与一个或多个音素相关联的上下文进行编码，一个或多个音素对应于第一歌声。计算机可基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐，以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。

根据又一方面，提供一种用于将第一歌声转换为第二歌声的计算机可读介质。计算机可读介质存储可包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个上程序指令，程序指令由处理器执行。程序指令可由处理器执行以执行一种方法，该方法可相应地包括：通过计算机对与一个或多个音素相关联的上下文进行编码，一个或多个音素对应于第一歌声。计算机可基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐，以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。

附图说明

通过结合附图阅读说明性实施例的以下详细描述，这些和其它目的、特征和优点将变得显而易见。附图的各个特征未按比例绘制，因为示图是为了清楚地便于本领域技术人员结合详细描述来理解。在附图中：

图1示出了根据至少一个实施例的联网计算机环境；

图2是根据至少一个实施例的将第一歌声转换为第二歌声的程序的框图；

图3是示出根据至少一个实施例的将第一歌声转换为第二歌声的程序所执行的步骤的操作流程图；

图4是根据至少一个实施例的图1所描绘的计算机和服务器的内部组件和外部组件的框图；

图5是根据至少一个实施例的包括图1所描绘的计算机系统的说明性云计算环境的框图；以及

图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。

具体实施方式

本文公开了所要求保护的结构和方法的详细实施例；然而，可以理解到，所公开的实施例仅仅是所要求保护的结构和方法的说明，所要求保护的结构和方法可以以各种形式实施。然而，这些结构和方法可以以许多不同的形式实施，且不应解释为限于本文所阐述的示例性实施例。相反，提供这些示例性实施例以使得本公开将是彻底的和完整的，并向本领域技术人员充分地传达范围。在描述中，可省略众所周知的特征和技术的细节，以避免不必要地模糊所呈现的实施例。

实施例总体上涉及计算领域，更具体地涉及数据处理。以下描述的示例性实施例提供一种系统、方法和程序产品，该系统、方法和程序产品尤其用于在不改变第一歌声的上下文的情况下，将第一发音者的声音的音色转换为第二发音者的声音的音色。因此，一些实施例在没有并行数据的情况下通过使用深度神经网络来转换歌声，而具有改善数据处理领域的能力。

如之前所描述的，歌唱是人类表达的重要方式，多年来，通过计算机进行语音合成已引起人们的兴趣。歌声转换是合成歌声的一种方式，通过歌声转换，可使用另一位歌手的声音提取和再现现存的歌声中存在的音乐表达。然而，虽然歌声转换可能类似于语音转换，但是歌声转换相比语音转换可能需要处理更大范围的频率变化，以及处理歌声中存在的音量和音高的更尖锐的变化。歌声转换的性能可能高度依赖于被转换歌声的音乐的表达和被转换声音的音色与目标歌手声音的相似度。传统的歌声合成系统可使用基于级联或隐马尔可夫模型的方法，或者可能需要并行数据，例如，由源歌手和目标歌手演唱的同一首歌。因此，不需要并行数据进行训练，而是使用机器学习和神经网络进行歌声转换，可能是有利的。

在本文中，参考根据各实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可由计算机可读程序指令实现。

以下描述的示例性实施例提供一种将第一歌声转换为第二歌声的系统、方法和程序产品。根据本实施例，这种无监督歌声转换方法不需要任何并行数据，可以在多个发音者训练期间，通过学习与一个或多个发音者相关联的嵌入数据来实现。因此，该系统可通过简单地在嵌入之间切换发音者来转换歌声的音色，但不改变歌声的上下文。

现在参考图1，示出了联网计算机环境的功能框图，其中示出了改进第一歌声到第二歌声的转换的歌声转换系统100(在下文中称为“系统”)。应理解，图1仅提供一种实现方式的图示，并不意味着对于可实现不同实施例的环境的任何限制。可基于设计和实现要求来对所描绘的环境做出许多修改。

系统100可包括计算机102和服务器计算机114。计算机102可通过通信网络110(在下文中称为“网络”)与服务器计算机114通信。计算机102可包括处理器104和软件程序108，软件程序108存储在数据存储器件106上且能够与用户对接并与服务器计算机114通信。如下面将参考图4讨论的，计算机102可分别包括内部组件800A和外部组件900A，且服务器计算机114可分别包括内部组件800B和外部组件900B。例如，计算机102可以是移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机、或者能够运行程序、访问网络和访问数据库的任何类型的计算设备。

服务器计算机114还可以在云计算服务模型中操作，云计算服务模型例如软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS)，如下面关于图5和图6所讨论的。服务器计算机114还可位于云计算部署模型中，云计算部署模型例如私有云、社区云、公共云或混合云。

服务器计算机114可用于将第一歌声转换为第二歌声，能够运行可与数据库112交互的歌声转换程序116(在下文中称为“程序”)。下面关于图3更详细地解释歌声转换程序方法。在一个实施例中，计算机102可作为包括用户界面的输入设备来操作，而程序116可主要在服务器计算机114上运行。在替代实施例中，程序116可主要在一个或多个计算机102上运行，而服务器计算机114可用于处理和存储程序116所使用的数据。应注意，程序116可以是独立的程序，或者可集成到较大的歌声转换程序中。

然而，应注意，在一些实例中，对程序116的处理可以以任何比率在计算机102和服务器计算机114之间共享。在另一实施例中，例如，程序116可以在多于一个计算机、服务器计算机或计算机和服务器计算机的某种组合上操作，例如，多个计算机102通过网络110与单个服务器计算机114通信。在另一实施例中，例如，程序116可以在多个服务器计算机114上操作，多个服务器计算机114通过网络110与多个客户端计算机通信。替代地，程序可以在网络服务器上操作，网络服务器通过网络与服务器和多个客户端计算机通信。

网络110可包括有线连接、无线连接、光纤连接或它们的某种组合。通常，网络110可以是将支持计算机102与服务器计算机114之间的通信的连接和协议的任何组合。网络110可包括各种类型的网络，例如局域网(LAN)，诸如因特网的广域网(WAN)、诸如公共交换电话网(PSTN)的电信网络、无线网络、公共交换网络、卫星网络、蜂窝网络(例如第五代(5G)网络，长期演进(LTE)网络，第三代(3G)网络，码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、城域网(MAN)、专用网络、自组织网络、内部网、基于光纤的网络等等，和/或这些或其它类型的网络的组合。

图1所示的设备和网络的数量和布置作为示例来提供。在实践中，可存在额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或与图1所示的设备和/或网络不同地布置的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可实现为多个分布式设备。另外或者替代地，系统100的一组设备(例如，一个或多个设备)可执行被描述成由系统100的另一组设备执行的一个或多个功能。

参考图2，描绘了图1的歌声转换程序116的框图200。图2可借助于图1所描绘的示例性实施例来描述。其中相应地，歌声转换程序116可包括编码器202、对齐模块204和解码器206。根据一个实施例，歌声转换程序116可位于计算机102(图1)上。根据替代实施例，歌声转换程序116可位于服务器计算机114(图1)上。

相应地，编码器202可包括嵌入模块208、全连接层210和CBHG(1维卷积库+高速网络+双向门控递归单元)模块212。嵌入模块208可通过数据链路224接收音素序列输入，以用于语音合成和歌声合成。编码器202可输出隐藏状态的序列，隐藏状态的序列包含与输入的音素相关联的顺序表示。

对齐模块204可包括全连接层214和状态扩展模块216。状态扩展模块216可接收通过数据链路226输入的音素持续时间、通过数据链路228输入的均方根误差(RMSE)以及通过数据链路230输入的基频(F₀)。对齐模块204可通过数据链路234联接到编码器202。对齐模块可生成一个或多个帧对齐的隐藏状态，这一个或多个帧对齐的隐藏状态可用作自回归生成的输入。来自编码器202的输出隐藏序列可与嵌入的发音者的信息级联。全连接层214可用于降维。可根据通过数据链路226接收的每个音素的持续时间数据，来对降维之后的输出隐藏状态进行扩展。例如，状态扩展可以是根据接收到的音素持续时间对隐藏状态的复制。可根据对输入音素和声学特征执行的力对齐，获得每个音素的持续时间。然后，将帧对齐的隐藏状态与帧级别、RMSE以及在每个音素内每一帧的相对位置级联。声码器可用于提取可反映歌声的节奏和旋律的基频F₀。因此，输入可包括音素序列、音素持续时间、F₀、RMSE和发音者的身份。

解码器206可包括全连接层218、递归神经网络220和梅尔谱图生成模块222。全连接层218可通过数据链路232接收帧输入。解码器206可通过数据链路236联接到对齐模块204。递归神经网络220可由两个自回归RNN层组成。注意力值可根据可与目标帧对齐的少量已编码隐藏状态来计算，这可减少在端到端系统中可观察到的伪影。根据一个实施例，可以对每个时间步长的两个帧进行解码。然而，可以理解，可基于可用的计算能力来对每个时间步长的任何数量的帧进行解码。来自递归神经网络220的每个递归的输出可经过梅尔谱图生成模块222，梅尔谱图生成模块222尤其可执行后-CBHG(post-CBHG)技术以提高预测的梅尔谱图的质量。解码器可经过训练来重建梅尔谱图。在训练阶段，嵌入的数据对应于一个或多个发音者的语音样本和歌声样本，可被联合优化。解码器206可经过训练，使得在后-CBHG步骤之前和之后与梅尔谱图相关联的预测损耗值最小化。在模型经过训练之后，该模型可用于将任何歌声转换为目标发音者的声音。根据转换之后的模型生成的梅尔谱图可用作第二歌声的波形生成模型。

现在参考图3，描绘了操作流程图400，其示出了将第一歌声转换为第二歌声的程序所执行的步骤。图3可借助于图1和图2来描述。如之前所描述的，歌声转换程序116(图1)可快速有效地转换歌声。

在步骤302，通过计算机对与一个或多个音素相关联且对应于第一歌声的上下文进行编码。编码器的输出可以是隐藏状态的序列，隐藏状态的序列包含输入的音素的顺序表示。在运行中，编码器202(图2)可通过数据链路224(图2)接收音素序列数据，编码器202(图2)可通过嵌入模块208(图2)、全连接层210(图2)和CBHG模块212(图2)传送数据。

在步骤304，基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐。对齐模块可生成帧对齐的隐藏状态，帧对齐的隐藏状态将用作自回归生成的输入。这样尤其可确保源音素可匹配它们预期的目标音素。在操作中，对齐模块204(图2)可通过数据链路234(图2)从编码器202(图2)接收音素数据。全连接层214(图2)可降低音素数据的维度。状态扩展模块216(图2)可分别通过数据链路226、228和230(图2)接收音素持续时间数据、RMSE数据和基频数据，状态扩展模块216还可创建多个隐藏状态以用于处理音素数据。

在步骤306，根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。梅尔谱图特征的生成可包括：根据与一个或多个目标声学帧对齐的一个或多个已编码的隐藏状态，计算注意力上下文；和将CBHG技术应用于所计算的注意力上下文。在操作中，解码器206(图2)可通过数据链路236(图2)从对齐模块204(图2)接收音素。该数据可传送到递归神经网络220(图2)。全连接层218(图2)可通过数据链路232(图2)接收帧输入数据。帧输入数据和音素数据可以由递归神经网络220和全连接层218递归处理。每个递归的结果可传送到梅尔谱图生成模块222(图2)，梅尔谱图生成模块222可聚合每个递归的结果并执行CBHG操作以生成梅尔谱图。

在步骤308，通过计算机使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。歌声转换方法可以不需要并行数据(即，不同歌手制作的同一首歌)来进行训练，且歌声转换方法可包括自回归生成模块，自回归生成模块可生成具有高度表现力和听起来自然的转换歌声。在操作中，歌声转换程序116(图1)可使用生成的梅尔谱图将第一发音者的歌声转换为第二发音者的歌声。可选地，歌声转换程序116可通过通信网络110(图1)将第二发音者的声音输出传输到计算机102(图1)。

可以理解，图3仅提供一种实现方式的图示，并不意味着对于如何可实现不同实施例的任何限制。可基于设计和实现要求来对所描绘的环境做出许多修改。

图4是根据说明性实施例的图1所描绘的计算机的内部组件和外部组件的框图400。应理解，图4仅提供一种实现方式的图示，并不意味着对于可实现不同实施例的环境的任何限制。可基于设计和实现要求来对所描绘的环境做出许多修改。

计算机102(图1)和服务器计算机114(图1)可包括图4所示的内部组件800A，800B和外部组件900A，900B的相应组，每一组内部组件800包括一个或多个总线826上的一个或多个处理器820、一个或多个计算机可读RAM 822以及一个或多个计算机可读ROM 824、一个或多个操作系统828以及一个或多个计算机可读有形存储器件830。

处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、特定用途集成电路(ASIC)或另一类型的处理组件。在一些实现方式中，处理器820包括一个或多个处理器，一个或多个处理器能够被编程以执行功能。总线826包括允许内部组件800A，800B之间通信的组件。

服务器计算机114(图1)上的一个或多个操作系统828、软件程序108(图1)和歌声转换程序116(图1)存储在相应的计算机可读有形存储器件830中的一个或多个存储器件上，以由相应的处理器820中的一个或多个处理器经由相应的RAM 822中的一个或多个RAM(其通常包括高速缓存存储器)执行。在图4所示的实施例中，计算机可读有形存储器件830中的每一个存储器件是内部硬盘驱动器形式的磁盘存储器件。替代地，计算机可读有形存储器件830中的每一个存储器件是半导体存储器件，例如ROM 824、EPROM、闪存、光盘、磁光盘、固态盘、压缩盘(CD)，数字多功能盘(DVD)、软盘、盒、磁带、和/或可存储计算机程序和数字信息的另一种类型的非暂时性计算机可读有形存储器件。

每一组内部组件800A，800B还包括R/W驱动器或接口832，以从一个或多个便携式计算机可读有形存储器件936读取和向一个或多个便携式计算机可读有形存储器件936写入，一个或多个便携式计算机可读有形存储器件936例如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储器件。软件程序，例如软件程序108(图1)和歌声转换程序116(图1)可存储在相应的便携式计算机可读有形存储器件936中的一个或多个存储器件上，通过相应的R/W驱动器或接口832读取并加载到相应的硬盘驱动器830中。

每一组内部组件800A，800B还包括网络适配器或接口836，例如TCP/IP适配器卡；无线Wi-Fi接口卡；或者3G、4G或5G无线接口卡，或其它有线或无线通信链路。服务器计算机114(图1)上的软件程序108(图1)和歌声转换程序116(图1)可通过网络(例如因特网，局域网或其它网络，广域网)和相应的网络适配器或接口836，从外部计算机下载到计算机102(图1)和服务器计算机114。服务器计算机114上的软件程序108和歌声转换程序116从网络适配器或接口836加载到相应的硬盘驱动器830中。网络可包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

每一组外部组件900A，900B可包括计算机显示器920、键盘930和计算机鼠标934。外部组件900A，900B还可包括触摸屏、虚拟键盘、触摸板、指点设备和其它人机接口设备。每一组内部组件800A，800B还包括与计算机显示器920、键盘930和计算机鼠标934对接的设备驱动器840。设备驱动器840、R/W驱动器或接口832以及网络适配器或接口836包括硬件和软件(存储在存储器件830和/或ROM 824中)。

预先应理解，虽然本公开包括对云计算的详细描述，但是本文所叙述的教导的实现方式不限于云计算环境。相反，一些实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务交付模型，能够对可配置计算资源(例如网络，网络带宽，服务器，处理，存储器，存储器件，应用，虚拟机和服务)的共享池进行方便、按需网络访问，其可以以最小的管理努力或与服务的提供商交互来快速提供和释放。该云模型可包括至少五个特性，至少三个服务模型和至少四个部署模型，

特性如下：

按需自助服务：云消费者可根据需要自动地单方面地提供计算能力，例如服务器时间和网络存储，而不需要与服务的提供商进行人类交互。

广泛的网络接入：能力可通过网络获得且通过标准机制来访问，标准机制促进了异构瘦或厚客户端平台(例如移动电话，膝上型计算机和PDA)的使用。

资源池化：提供商的计算资源被池化，以使用多租户模型服务于多个消费者，其中根据需求动态地分配和重新分配不同的物理资源和虚拟资源。存在与位置无关的意义，原因是消费者通常不控制或知晓所提供的资源的精确位置，但是能够在较高抽象级别(例如国家，州或数据中心)指定位置。

快速弹性：可快速且弹性地提供能力，在一些情况下自动提供，以快速向外扩展和快速释放以快速向内扩展。对于消费者来说，可用于提供的能力通常看起来是无限的，且可以在任何时间以任何数量购买。

测量的服务：云系统通过利用某种抽象级别的计量能力来自动控制和优化资源使用，其中这种抽象级别适合于服务(例如存储，处理，带宽和活跃用户账户)的类型。可监督、控制和报告资源使用，给所使用的服务的提供商和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力要使用提供商的在云基础设施上运行的应用。可从各种客户端设备通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口来访问应用。可能除了有限的特定于用户的应用配置设置之外，消费者不管理或控制包括网络、服务器、操作系统、存储的底层云基础设施，或者甚至不管理或控制单独的应用能力。

平台即服务(PaaS)：向消费者提供的能力要部署到云基础设施消费者创建或获取的应用上，该应用使用由提供商支持的编程语言和工具创建。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能托管环境配置的应用进行控制。

基础设施即服务(IaaS)：向消费者提供的能力要提供处理、存储、网络和其它基本计算资源，其中消费者能够部署和运行任意软件，此类软件可包括操作系统和应用。消费者不管理或控制底层云基础设施，但是对操作系统、存储、所部署的应用进行控制，以及可能对选择联网组件(例如，主机防火墙)进行有限控制。

部署模型如下：

私有云：云基础设施仅针对组织进行操作。云基础设施可由组织或第三方管理，且可以以内部或外部部署而存在。

社区云：云基础设施由若干组织共享，且支持共享关注点(例如任务，安全要求，策略和合规性考虑)的特定社区。云基础设施可由组织或第三方管理，且可以以内部或外部部署而存在。

公共云：云基础设施可用于普通民众或大型工业群组，且由销售云服务的组织拥有。

混合云：云基础设施由两个或更多个云(私有，社区或公共)组成，这两个或更多个云保留独有的实体，但是通过能够实现数据和应用可移植性的标准化或专有技术(例如，用于云之间的负载平衡的云爆)来绑定在一起。

云计算环境面向服务，其集中于无状态性、低耦合性、模块化和语义互操作性。云计算的核心是包括互连节点的网络的基础设施。

参考图5，描绘了说明性云计算环境500。如图所示，云计算环境500包括一个或多个云计算节点10，云消费者使用的本地计算设备可与云计算节点10通信，本地计算设备例如个人数字助理(PDA)或蜂窝电话54A，台式计算机54B，膝上型计算机54C和/或汽车计算机系统54N。云计算节点10彼此可通信。云计算节点10可以物理地或虚拟地在一个或多个网络中分组(未示出)，例如上文所述的私有云，社区云，公共云或混合云，或其组合。这允许云计算环境500提供基础设施、平台和/或软件作为服务，为此云消费者不需要维护本地计算设备上的资源。应理解，图5所示的计算设备54A-N的类型旨在仅是说明性的，且云计算节点10和云计算环境500可通过任何类型的网络和/或网络可寻址的连接(例如，使用网络浏览器寻址)与任何类型的计算机化设备通信。

参考图6，示出了由云计算环境500(图5)提供的一组功能抽象层600。预先应理解，图6所示的组件、层和功能旨在仅是说明性的，且实施例不限于此。如图所描绘的，提供以下层和对应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储器件65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，可从该抽象层提供虚拟实体的以下示例：虚拟服务器71；虚拟存储72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可提供下面描述的功能。资源提供81提供用于在云计算环境内执行任务的计算资源和其它资源的动态供应。计量和定价82在云计算环境内使用资源时提供成本追溯，并对这些资源的消耗进行计费或开票。在一个示例中，这些资源可包括应用软件许可。安全性给云消费者和任务提供身份验证，以及保护数据和其它资源。用户门户83给消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85给云计算资源提供预安排和供应，为此，根据SLA预测未来需求。

工作负载层90提供可利用云计算环境的功能的示例。可从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟教室提供教育93；数据分析处理94；交易处理95；以及歌声转换96。歌声转换96可以将第一歌声转换为第二歌声。

一些实施例可涉及任何可能的技术细节级别集成的系统、方法和/或计算机可读介质。计算机可读介质可包括计算机可读非暂时性存储介质(或介质)，在该介质上具有计算机可读程序指令，计算机可读程序指令用于使得处理器执行操作。

计算机可读存储介质可以是可保持和存储由指令执行设备使用的指令的有形器件。计算机可读存储介质可以是例如，但不限于：电子存储器件、磁性存储器件、光学存储器件、电磁存储器件、半导体存储器件、或前述器件的任何合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码器件(例如其上记录有指令的穿孔卡或凹槽中的凸起结构)以及前述项的任何合适的组合。如本文所使用的，计算机可读存储介质不应解释为本身是瞬时信号，例如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如，穿过光纤线缆的光脉冲)或通过导线传输的电信号。

本文描述的计算机可读程序指令可通过网络(例如因特网，局域网，广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储器件。网络可包括铜传输线缆、传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令，以存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集架构(ISA)指令、机器指令、依赖于机器的指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言的任何组合编写的源代码或目标代码，此类编程语言包括面向对象的编程语言，例如Smal ltalk，C++等，以及包括过程编程语言，例如"C"编程语言或类似的编程语言。计算机可读程序指令可完全在用户计算机上运行，部分地在用户计算机上运行，作为独立软件包运行，部分地在用户计算机上且部分地在远程计算机上运行，或者完全在远程计算机或服务器上运行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，例如包括可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可通过利用计算机可读程序指令的状态信息个性化定制电子电路，来运行计算机可读程序指令，以执行各方面或操作。

这些计算机可读程序指令可提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以产生机器，使得通过计算机或其它可编程数据处理装置的处理器运行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在计算机可读存储介质中，计算机可读存储介质可引导计算机、可编程数据处理装置和/或其它设备以特定方式起作用，使得其中存储有指令的计算机可读存储介质包括一种制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可加载到计算机、其它可编程数据处理装置或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其它可编程装置或其它设备上运行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据各实施例的系统、方法和计算机可读介质的可能实现方式的架构、功能和操作。就这一点而言，流程图或框图中的每个框可表示模块、段或一部分指令，这部分指令包括用于实现指定的逻辑功能的一个或多个可执行指令。方法、计算机系统和计算机可读介质可包括与图中所描绘的框相比更多的框、更少的框、不同的框或不同地布置的框。在一些替代实现方式中，框中所标注的功能可以不按图中所标注的顺序发生。例如，连续示出的两个框实际上可同时或基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合可由基于硬件的专用系统实现，基于硬件的专用系统执行指定的功能或动作或者实现专用硬件和计算机指令的组合。

将显而易见的是，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现方式的限制。因此，在不参考特定软件代码的情况下，在本文中描述系统和/或方法的操作和行为—应理解，软件和硬件可设计成基于本文的描述来实现系统和/或方法。

本文使用的元件、动作或指令不应解释为至关重要的或必不可少的，除非明确地如此描述。此外，如本文所使用的，冠词“一”和“一个”旨在包括一个或多个项，且可与“一个或多个”互换地使用。此外，如本文所使用的，术语“集合”旨在包括一个或多个项(例如相关项，不相关项，相关项和不相关项的组合等)，且可与“一个或多个”互换地使用。在意图仅是一个项的情况下，使用术语“一个”或类似语言。此外，如本文所使用的，术语“有”、“具有”、“含有”等旨在是开放式术语。此外，短语“基于”的意思旨在是“至少部分地基于”，除非另有明确说明。

已经出于说明的目的陈述了各个方面和实施例的描述，但是各个方面和实施例并不旨在穷举或限于所公开的实施例。虽然在权利要求中记载和/或在说明书中公开了特征的组合，但是这些组合并不旨在限制可能的实现方式的公开。实际上，这些特征中的许多特征可以以未在权利要求中具体记载和/或在说明书中公开的方式进行组合。虽然下面列出的每个从属权利要求可以仅直接从属于一个权利要求，但是可能的实现方式的公开包括每个从属权利要求与权利要求集中的每个其它权利要求的组合。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。选择本文使用的术语是为了最好地解释实施例的原理，对市场上找到的技术的实际应用或技术改进，或者使本领域的其它普通技术人员能够理解本文公开的实施例。

Claims

1.一种将第一歌声转换为第二歌声的方法，包括：

通过计算机对与一个或多个音素相关联的上下文进行编码，所述一个或多个音素对应于所述第一歌声；

通过所述计算机基于已编码的上下文，将所述一个或多个音素与一个或多个目标声学帧对齐；

通过所述计算机根据已对齐的音素和所述目标声学帧来递归地生成一个或多个梅尔谱图特征；以及

通过所述计算机使用所生成的梅尔谱图特征，将对应于所述第一歌声的样本转换为对应于所述第二歌声的样本。

2.根据权利要求1所述的方法，其中，所述编码包括：

接收所述一个或多个音素的序列；和

输出一个或多个隐藏状态的序列，所述一个或多个隐藏状态的序列包含与所接收的音素的序列相关联的顺序表示。

3.根据权利要求2所述的方法，其中，所述将所述一个或多个音素与一个或多个目标声学帧对齐包括：

将所述隐藏状态的输出序列与对应于所述第一歌声的信息级联；

通过使用全连接层，对所级联的输出序列应用降维；

基于与每个音素相关联的持续时间来扩展经降维的输出序列；以及

将所扩展的输出序列与所述目标声学帧对齐。

4.根据权利要求3所述的方法，进一步包括：将一个或多个帧对齐的隐藏状态与帧级别、均方根误差值以及与每一帧相关联的相对位置级联。

5.根据权利要求4所述的方法，其中，根据对一个或多个输入音素和一个或多个声学特征执行的力对齐，获得每个音素的所述持续时间。

6.根据权利要求1所述的方法，其中，所述基于已对齐的帧来生成一个或多个梅尔谱图特征包括：

根据与所述一个或多个目标声学帧对齐的一个或多个已编码的隐藏状态，计算注意力上下文；和

将CBHG技术应用于所计算的注意力上下文。

7.根据权利要求6所述的方法，其中，与所述梅尔谱图相关联的损耗值被最小化。

8.根据权利要求1所述的方法，其中，由递归神经网络执行所述生成一个或多个梅尔谱图特征。

9.根据权利要求8所述的方法，其中，所述递归神经网络的输入包括所述一个或多个音素的序列、与所述一个或多个音素中的每一个相关联的持续时间、基频、均方根误差值以及与发音者相关联的身份。

10.根据权利要求1所述的方法，其中，在没有并行数据且不改变与所述第一歌声相关联的上下文的情况下，将所述第一歌声转换为所述第二歌声。

11.一种用于将第一歌声转换为第二歌声的计算机系统，所述计算机系统包括：

一个或多个计算机可读的非暂时性存储介质，配置为存储计算机程序代码；和

一个或多个计算机处理器，配置为访问所述计算机程序代码，并按照所述计算机程序代码的指令进行操作，所述计算机程序代码包括：

编码代码，配置为使得所述一个或多个计算机处理器对与一个或多个音素相关联的上下文进行编码，所述一个或多个音素对应于所述第一歌声；

对齐代码，配置为使得所述一个或多个计算机处理器基于已编码的上下文，将所述一个或多个音素与一个或多个目标声学帧对齐；

生成代码，配置为使得所述一个或多个计算机处理器根据已对齐的音素和所述目标声学帧来递归地生成一个或多个梅尔谱图特征；以及

转换代码，配置为使得所述一个或多个计算机处理器通过使用所生成的梅尔谱图特征，将对应于所述第一歌声的样本转换为对应于所述第二歌声的样本。

12.根据权利要求11所述的系统，其中，所述编码代码包括：

接收代码，配置为使得所述一个或多个计算机处理器接收所述一个或多个音素的序列；和

输出代码，配置为使得所述一个或多个计算机处理器输出一个或多个隐藏状态的序列，所述一个或多个隐藏状态的序列包含与所接收的音素的序列相关联的顺序表示。

13.根据权利要求12所述的系统，其中，所述对齐代码包括：

级联代码，配置为使得所述一个或多个计算机处理器将所述隐藏状态的输出序列与对应于所述第一歌声的信息级联；

应用代码，配置为使得所述一个或多个计算机处理器通过使用全连接层，对所级联的输出序列应用降维；

扩展代码，配置为使得所述一个或多个计算机处理器基于与每个音素相关联的持续时间来扩展经降维的输出序列；以及

对齐代码，配置为使得所述一个或多个计算机处理器将所扩展的输出序列与所述目标声学帧对齐。

14.根据权利要求13所述的系统，其中，所述级联代码配置为使得所述一个或多个计算机处理器将一个或多个帧对齐的隐藏状态与帧级别、均方根误差值以及与每一帧相关联的相对位置级联。

15.根据权利要求14所述的系统，其中，根据对一个或多个输入音素和一个或多个声学特征执行的力对齐，获得每个音素的所述持续时间。

16.根据权利要求11所述的系统，其中，所述生成代码包括：

计算代码，配置为使得所述一个或多个计算机处理器根据与所述一个或多个目标声学帧对齐的一个或多个已编码的隐藏状态，计算注意力上下文；和

应用代码，配置为使得所述一个或多个计算机处理器将CBHG技术应用于所计算的注意力上下文。

17.根据权利要求11所述的系统，其中，由递归神经网络执行所述生成一个或多个梅尔谱图特征。

18.根据权利要求17所述的系统，其中，所述递归神经网络的输入包括所述一个或多个音素的序列、与所述一个或多个音素中的每一个相关联的持续时间、基频、均方根误差值以及与发音者相关联的身份。

19.根据权利要求11所述的系统，其中，在没有并行数据且不改变与所述第一歌声相关联的上下文的情况下，将所述第一歌声转换为所述第二歌声。

20.一种非暂时性计算机可读介质，存储有用于将第一歌声转换为第二歌声的计算机程序，所述计算机程序配置为使得一个或多个计算机处理器：

对与一个或多个音素相关联的上下文进行编码，所述一个或多个音素对应于所述第一歌声；

基于已编码的上下文，将所述一个或多个音素与一个或多个目标声学帧对齐；

根据已对齐的音素和所述目标声学帧来递归地生成一个或多个梅尔谱图特征；以及

通过使用所生成的梅尔谱图特征，将对应于所述第一歌声的样本转换为对应于所述第二歌声的样本。