CN115136230A

CN115136230A - 基于音调对抗网络的无监督歌声语音转换

Info

Publication number: CN115136230A
Application number: CN202180015078.9A
Authority: CN
Inventors: 俞承柱; 卢恒; 翁超; 俞栋
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-03-03
Filing date: 2021-02-18
Publication date: 2022-09-30
Also published as: WO2021178139A1; EP4091160A4; US20210280165A1; US11257480B2; JP2023517004A; EP4091160A1; KR20220137939A

Abstract

提供了一种用于歌声语音转换的方法、计算机可读介质及计算机系统。接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的所述数据中提取一个或多个特征和音调数据。基于提取的所述音调数据和一个或多个特征生成一个或多个音频样本。

Description

基于音调对抗网络的无监督歌声语音转换

相关申请的交叉引用

本申请要求于2020年3月3日提交的美国申请16/807,851的优先权，该申请的全部内容通过引用明确地并入本申请中。

技术领域

本公开总体上涉及计算领域，并且更具体地涉及数据处理。

背景技术

歌唱是人类表达的重要手段，并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式，通过该方式，可以提取存在于现有歌声中的音乐表达，并使用另一歌唱者的语音来再现该音乐表达。

发明内容

实施例涉及用于歌声语音转换的方法、系统和计算机可读介质。根据一个方面，提供了一种用于歌声语音转换的方法。该方法可以包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征，生成一个或多个音频样本。

根据另一方面，提供了一种用于将第一歌声语音转换成第二歌声语音的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备，以及存储在一个或多个存储设备中的至少一个上存储设备的程序指令，程序指令用于经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器来执行，由此计算机系统能够执行方法。该方法可以包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征，生成一个或多个音频样本。

根据又一方面，提供了一种用于将第一歌声语音转换成第二歌声语音的计算机可读介质。计算机可读介质可以包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令，程序指令可由处理器执行。程序指令可由处理器执行，以用于执行方法。方法相应地包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征，生成一个或多个音频样本。

附图说明

从下面结合附图阅读的说明性实施例的详细描述中，这些和其它目的、特征和优点将变得显而易见。附图的各种特征不是按比例绘制的，因为为了清楚起见，这些图示结合详细描述有助于本领域技术人员的理解。在附图中：

图1图示了根据至少一个实施例的联网计算机环境；

图2是根据至少一个实施例的转换歌声语音的程序的框图；

图3是图示根据至少一个实施例的由转换歌声语音的程序执行的步骤的操作流程图；

图4是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图；

图5是根据至少一个实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图；以及

图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。

具体实施方式

本文公开了所要求保护的结构和方法的详细实施例；然而，可以理解，所公开的实施例仅仅是可以以各种形式实施的所要求保护的结构和方法的说明。然而，这些结构和方法可以以许多不同的形式来实施，并且不应当被解释为限于本文中所阐述的示例性实施例。相反，提供这些示例性实施例是为了使本公开彻底和完整，并且将向本领域技术人员充分传达范围。在描述中，可以省略公知特征和技术的细节，以避免不必要地模糊所呈现的实施例。

实施例总体上涉及计算领域，并且更具体地涉及数据处理。以下描述的示例性实施例提供了一种系统、方法和程序产品，使用对抗神经网络来转换歌声语音以生成具有不走调的、自然发声音调的歌声语音。因此，一些实施例，通过允许使用深度神经网络在没有并行数据的情况下转换歌声语音，具有改进数据处理领域的能力，以在实现灵活的音调操纵的同时大大提高转换的语音的质量。

如先前所描述的，歌唱是人类表达的重要手段，并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式，通过该方式，可以提取存在于现有歌声中的音乐表达，并使用另一歌唱者的语音来再现该音乐表达。然而，尽管歌声语音转换可以类似于言语转换，但是歌声语音转换可能需要比言语转换处理更宽范围的频率变化，以及歌声语音中存在的音量和音调的更急剧的变化。歌声转换的性能可能高度取决于转换的歌声的音乐表达，以及转换的语音音色与目标歌手的语音相比的相似性。传统的歌声合成系统可以使用基于串接式模型或隐式马尔可夫模型的方法，或者可能需要并行数据，诸如由源歌手和目标歌手歌唱的相同歌曲。因此，使用机器学习和神经网络来进行歌声语音转换可能是有利的，而不需要用于训练的并行数据。本文中描述的歌声语音转换可以通过在多说话人训练期间学习说话人嵌入(speaker embedding)来实现，并且能够通过简单地在嵌入之间切换说话人来转换歌唱的音色而不改变其内容。与现有的无监督歌声语音转换方法相比，使用经对抗训练的音调回归网络可以允许编码器网络不仅学习歌手不变的表示而且学习音调不变的表示，以及从源音频提取音调以用作解码器的附加输入。

本文中参考根据各个实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应当理解，流程图图示和/或框图中的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令实现。

以下描述的示例性实施例提供了一种将第一歌声语音转换成第二歌声语音的系统、方法和程序产品。根据本实施例，这种不需要任何并行数据的无监督歌声语音转换方法可以通过在多说话人训练期间学习与一个或多个说话人相关联的嵌入数据来实现。因此，该系统能够通过简单地在嵌入之间切换说话人来转换歌声的音色而不改变其内容。

现在参考图1，示出了联网计算机环境的功能框图，其图示了改进地用于将第一歌声语音转换成第二歌声语音的歌声语音转换系统100(以下称为“系统”)。应当理解，图1仅提供了一种实现方式的图示，并不意味着对可以实现不同实施例的环境的任何限制。可以基于设计和实现方式要求对描绘的环境进行许多修改。

系统100可以包括计算机102和服务器计算机114。计算机102可以与经由通信网络110(下文称为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和软件程序108，软件程序108存储在数据存储设备106上并且能够与用户接口并与服务器计算机114通信。如下面将参考图4讨论的，计算机102可以分别包括内部组件800A和外部组件900A，并且服务器计算机114可以分别包括内部组件800B和外部组件900B。计算机102可以是例如移动设备、电话、个人数字助理、网络手册、膝上型计算机、平板计算机、台式计算机或任何类型的能够运行程序、访问网络和访问数据库的计算设备。

服务器计算机114还可以在云计算服务模型中操作，云计算服务模型诸如如以下关于图5和图6所讨论的软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS)。服务器计算机114还可以位于诸如私有云、社区云、公共云或混合云等云计算部署模型中。

可以用于将第一歌声语音转换成第二歌声语音的服务器计算机114能够运行可以与数据库112交互的歌声语音转换程序116(以下称为“程序”)。下面参考图3更详细地说明歌声语音转换程序方法。在一个实施例中，计算机102可以作为包括用户界面的输入设备运行，而程序116可以主要在服务器计算机114上运行。在替代实施例中，程序116可以主要在一个或多个计算机102上运行，而服务器计算机114可以用于处理和存储由程序116使用的数据。应当注意，程序116可以是独立程序或可以集成到更大的歌声语音转换程序中。

然而，应当注意，在一些情况下，对程序116的处理可以以任何比例在计算机102和服务器计算机114之间共享。在另一实施例中，程序116可以在多于一个计算机、服务器计算机或计算机和服务器计算机的某种组合(例如，通过网络110与单个服务器计算机114通信的多个计算机102)上操作。在另一实施例中，例如，程序116可以在通过网络110与多个客户端计算机通信的多个服务器计算机114上操作。可替代地，该程序可以在通过网络与服务器和多个客户端计算机通信的网络服务器上操作。

网络110可以包括有线连接、无线连接、光纤连接或其中一些的组合。通常，网络110可以是将支持计算机102与服务器计算机114之间的通信的连接和协议的任何组合。网络110可以包括各种类型的网络，诸如例如局域网(LAN)、广域网(WAN)(诸如因特网)、电信网络(诸如公共交换电话网络(PSTN))、无线网络、公共交换网络、卫星网络、蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PublicLand Mobile Network,PLMN)、城域网(Metropolitan Area Network,MAN)、专用网络、自组织网络、内联网、因特网、基于光纤的网络等，和/或这些或其它类型的网络的组合。

图1所示的设备和网络的数量和排列被作为示例来提供。实际上，与图1所示的设备和/或网络相比，可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可以实现为多个分布式设备。另外或可替代地，系统100的一组设备(例如，一个或多个设备)可以执行被描述为由系统100的另一组设备执行的一个或多个功能。

参考图2，描绘了图1的歌声语音转换程序116的框图200。可以借助于图1中描绘的示例性实施例来描述图2。相应地，歌声语音转换程序116尤其可以包括编码器202和解码器204。根据一个实施例，歌声语音转换程序116可以位于计算机102(图1)上。根据一个替代实施例，歌声语音转换程序116可以位于服务器计算机114(图1)上。编码器202可以接收输入的波形数据206，并且可以通过数据链路208将波形数据206输出到歌手分类网络，并且通过数据链路210将波形数据206输出到音调回归网络。编码器202可以通过数据链路212耦合到解码器204。解码器204可以接收输入的波形数据206。解码器还可以通过数据链路214接收查找表输入。解码器204可以输出音频样本数据216，并且可以接收已输出的波形数据216作为用于训练的输入。

编码器202可以是全卷积网络，具有三个块块包括十个残差层，该网络可以按顺序包括整流线性单元(ReLU)激活、扩张卷积、ReLU激活、1×1卷积和残差求和。在三个残差块之后，可以应用1×1卷积和核大小为800的平均池化来获得最终输出。解码器204可以是包括四个块的波网(WaveNet)声码器，块包括十个残余层。线性内插和最近邻内插可以分别应用于输入的音调和编码器输出，并且它们可以被上采样为与输入的音频波形具有相同的采样率。

输入的波形数据206可以通过编码器202，以提取高级语义特征。为了减少高级特征中的歌手和音调的信息，可以将步幅800的平均池化应用于输出特征以限制通过编码器202的信息。步幅800的平均池化可以应用于特征，这可形成瓶颈，以限制通过编码器202的信息。歌手ID可以用于通过数据链路214从查找表中检索目标歌手的嵌入向量，并且在每个时间步与编码器202的输出串接，以成为条件向量的序列。

输入的波形数据206的音调(其可以与网络分开提取)可以在线性内插之后作为补偿信号与条件向量一起馈送到解码器204中。解码器204可以以条件向量和音调为条件，生成音频样本数据216。由于解码器204可以是自回归模型，因此音频样本数据216可以在下一个时间步被反馈到解码器204。该模型可以在基于柔性最大值传输函数(softmax)的损失上进行训练，以利用教师强制(teacher-forcing)来使重建误差最小化。为了将编码器202的输出特征投影到歌手和音调不变的潜在空间中，可以采用歌手分类网络和音调回归网络来迫使编码器202不对歌手信息和音调信息进行编码。可以将歌手分类损失和音调回归损失对抗地添加到重建损失，以端对端地训练整个模型。歌手分类网络和音调回归网络可以各自具有两个卷积神经网络(核大小为3和100个信道)的堆栈的架构。在将输出传递到最终的全连接网络之前，音调回归网络可能不对两个卷积网络的输出进行平均。可以在每个网络的开始处采用漏失层(dropout layer)，以使训练过程更稳定。

现在参考图3，描绘了操作流程图400，其图示了由将第一人的歌声语音转换成第二人的歌声语音的程序执行的步骤。图3可以借助于图1和图2来描述。如先前所描述的，歌声语音转换程序116(图1)可以快速且有效地转换歌声语音。

在302处，接收与歌声语音相对应的数据。歌声语音可以与给定歌手相关联，并且尤其可以具有音调和音色。在操作中，服务器计算机114(图1)上的歌声语音转换程序116(图1)可以通过通信网络110(图1)从计算机102(图1)上的软件程序108(图1)接收输入波形数据206(图2)形式的歌声语音数据。歌声语音转换程序116可以将输入波形数据206传递到编码器202(图2)和解码器204(图2)。

在304处，从接收的数据中提取一个或多个特征。这些特征尤其可以包括一个或多个高级语义特征，一个或多个高级语义特征可以用于从接收的歌声语音数据中识别歌手。在操作中，编码器202(图2)可以对输入波形数据206(图2)执行平均池化。平均池化的结果可以通过数据链路208(图2)传递到歌手分类对抗神经网络。

在306处，从接收的数据中提取音调数据。音调数据可以由网络单独提取，并且音调数据的线性内插可以与条件向量一起用作补偿信号。在操作中，由编码器202(图2)进行的平均池化的结果也可以通过数据链路210(图2)传递到音调回归对抗神经网络。

在308处，基于提取的音调数据和特征，生成一个或多个音频样本。可以将解码器调节成使用条件向量和音调数据生成歌声语音音频样本。在操作中，解码器204(图2)可以通过数据链路212(图2)从编码器202(图2)接收音调和特征数据。解码器204可以使用接收的数据生成音频样本数据216(图2)。歌声语音转换程序116(图1)可以可选地通过通信网络110(图1)将音频样本数据216传输到软件程序108(图1)。

可以理解，图3仅提供了一种实现方式的说明，并不暗示关于如何实现不同实施例的任何限制。可以基于设计和实现方式要求对描绘的环境进行许多修改。

图4是根据说明性实施例的图1中描绘的计算机的内部组件和外部组件的框图400。应当理解，图4仅提供了一种实现方式的图示，并不意味着对可以实施不同实施例的环境的任何限制。可以基于设计和实现方式要求对描绘的环境进行各种修改。

计算机102(图1)和服务器计算机114(图1)可以包括图4所示的内部组件800A、800B和外部组件900A、900B的相应集合。每组内部组件800包括连接在一个或多个总线826上的一个或多个处理器820、一个或多个计算机可读随机存取存储器(RAM)822和一个或多个计算机可读只读存储器(ROM)824，包括一个或多个操作系统828、以及一个或多个计算机可读有形存储设备830。

处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中，处理器820包括一个或多个能够被编程以执行功能的处理器。总线826包括允许内部组件800A、800B之间的通信的组件。

服务器计算机114(图1)上的一个或多个操作系统828、软件程序108(图1)和歌声语音转换程序116(图1)存储在一个或多个相应的计算机可读有形存储设备830上，用于由一个或多个相应的处理器820经由一个或多个相应的RAM 822(其通常包括高速缓冲存储器)来执行。在图4中图示的实施例中，计算机可读有形存储设备830中的每一个是内部硬盘驱动器的磁盘存储设备。可替代地，计算机可读有形存储设备830中的每一个是半导体存储设备，诸如ROM 824、EPROM、闪存、光盘、磁光盘、固态盘、压缩盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带和/或可以存储计算机程序和数字信息的另一种类型的非易失性计算机可读有形存储设备。

每组内部组件800A、800B还包括读写(R/W)驱动器或接口832，以对一个或多个便携式计算机可读有形存储设备936(诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备)进行读写。诸如软件程序108(图1)和歌声语音转换程序116(图1)的软件程序可以存储在一个或多个相应的便携式计算机可读有形存储设备936中，经由相应的R/W驱动器或接口832读取并且加载到相应的硬盘驱动器830中。

每组内部组件800A、800B还包括网络适配器或接口836，诸如TCP/IP适配器卡；无线Wi-Fi接口卡；或3G、4G或5G无线接口卡或其它有线或无线通信链路。服务器计算机114(图1)上的软件程序108(图1)和歌声语音转换程序116(图1)可以经由网络(例如，因特网、局域网或其它广域网)和相应的网络适配器或接口836从外部计算机下载到计算机102(图1)和服务器计算机114。从网络适配器或接口836，将服务器计算机114上的软件程序108和歌声语音转换程序116加载到相应的硬盘驱动器830中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

各组外部组件900A、900B中的每一组可以包括计算机显示器920、键盘930和计算机鼠标934。外部组件900A、900B还可以包括触摸屏、虚拟键盘、触摸板、定点设备和其它人机接口设备。各组内部组件800A、800B中的每一组还包括设备驱动器840，以接口到计算机显示器920、键盘930和计算机鼠标934。设备驱动器840、R/W驱动器或接口832以及网络适配器或接口836包括硬件和软件(存储在存储设备830和/或ROM 824中)。

应预先理解，虽然本公开包括关于云计算的详细描述，但是本文中引用的教导的实现方式不限于云计算环境。相反，一些实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务交付模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)共享池的方便、按需的网络访问，这些资源可以用最少的管理工作或与服务提供商的交互来快速配置和发布。云模型可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特点如下：

按需自助服务(On-demand self-service)：云用户可以根据需要自动单方面提供计算功能，例如服务器时间和网络存储，而无需与服务提供商进行人工交互。

广泛的网络接入(Broad network access)：功能可以通过网络获得，并通过标准机制进行访问，这些机制可以促进异构的瘦或胖客户端平台(例如，移动电话、笔记本电脑和个人数字助理)的使用。

资源池(Resource pooling)：使用多租户模型(multi-tenant model)将提供商的计算资源汇集起来以服务多个用户，并根据需求动态地分配和重新分配不同的物理和虚拟资源。位置独立的意义在于，用户通常对所提供的资源的确切位置没有控制权或知识，但能够在更高的抽象级别(例如，国家、州或数据中心)上指定位置。

快速弹性(Rapid elasticity)：可以快速且弹性地进行配置的功能，在某些情况下可以自动配置以快速向外扩展，并快速释放以快速向内扩展。对于用户来说，可用于配置的功能通常看起来是无限的，并且可以在任何时间以任何数量购买。

可计量的服务(Measured service)：云系统通过在适于服务类型(例如，存储、处理、带宽和活跃用户帐户)的某种抽象级别上利用计量功能，自动控制和优化资源使用。可以检测、控制和报告资源使用情况，从而为所使用服务的提供商和用户提供透明度。

服务模型如下：

软件即服务(SaaS)：向用户提供的功能是使用在云基础设施上运行的提供商的应用程序。可以通过诸如网页浏览器(例如，基于网页的电子邮件)的瘦客户端接口从各种客户端设备访问应用程序。用户不管理或控制包括网络、服务器、操作系统、存储或甚至单个应用程序功能在内的底层云基础设施，但可能会限制用户特定的应用程序配置设置。

平台即服务(PaaS)：提供给用户的功能是将用户创建或获取的应用程序部署到云基础设施上，该用户创建或获取的应用程序是使用提供商支持的编程语言和工具创建的。用户不管理或控制包括网络、服务器、操作系统或存储在内的底层云基础设施，而是控制所部署的应用程序和可能的应用程序托管环境配置。

基础设施即服务(IaaS)：向用户提供的功能是提供处理、存储、网络和其他基本计算资源，其中用户能够部署和运行包括操作系统和应用程序在内的任意软件。用户不管理或控制底层云基础设施，而是控制操作系统、存储、部署的应用程序、以及可能对选择的网络组件(例如，主机防火墙)进行有限的控制。

部署模型如下：

私有云(Private cloud)：云基础设施仅为组织运行。它可以由组织或第三方来管理，并且可以存在于内部或外部。

社区云(Community cloud)：云基础设施由多个组织共享，并且支持具有共享关注点(例如，任务、安全要求、策略和服从性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于内部或外部。

公共云(Public cloud)：云基础设施可供一般公众或大型工业集团使用，并由出售云服务的组织所拥有。

混合云(Hybrid cloud)：云基础设施是由两个或更多个云(私有、社区或公共)组成的，这些云保持唯一的实体，但是通过标准化或专有技术绑定在一起，从而实现数据和应用程序的可移植性(例如，用于在云之间进行负载平衡的云爆发)。

云计算环境是面向服务的，着重于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点的网络的基础设施。

参照图5，其示出了示例性的云计算环境500。如图所示，云计算环境500包括一个或多个云计算节点10，云用户所使用的本地计算设备(例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可以与这些云计算节点10通信。云计算节点10之间可以彼此通信。可以在一个或多个网络中，例如上文所述的私有云、社区云、公共云、混合云、或其组合中，对它们进行物理或虚拟分组(未示出)。这允许云计算环境500提供基础设施、平台和/或软件作为服务，而云用户不需要在本地计算设备上为这些服务维护资源。应当理解，图5所示的计算设备54A-N的类型仅是示例性的，并且云计算节点10和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如，使用网页浏览器)与任何类型的计算机设备通信。

参照图6，其示出了由云计算环境500(图5)提供的一组功能抽象层600。应当理解的是，图6所示的组件、层和功能仅是示例性的，并且实施例不限于此。如图所示，提供了以下层和相应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61、基于RISC(精简指令集计算机，Reduced Instruction Set Computer)架构的服务器62、服务器63、刀锋服务器(blade server)64、存储设备65、以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟层70提供抽象层，从该抽象层可以提供以下虚拟实体的示例：虚拟服务器71、虚拟存储器72、包括虚拟专用网络的虚拟网络73、虚拟应用程序和操作系统74、以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能。资源供应81提供用于在云计算环境中执行任务的计算资源和其它资源的动态采购。当在云计算环境中利用资源时，计量和定价82提供成本记录，并为这些资源的消耗开具帐单或发票。在一个示例中，这些资源可包括应用软件许可证。安全性为云用户和任务提供身份验证，并为数据和其他资源提供保护。用户入口83为用户和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源的分配和管理，从而满足所需的服务级别。服务水平协议(SLA，Service Level Agreement)计划和实现85为根据SLA预期的未来需求的云计算资源提供预先安排和获取。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟课堂教学93；数据分析处理94；交易处理95；以及歌声语音转换96。歌声语音转换96可以使用对抗神经网络来转换歌声语音。

一些实施例可以涉及处于任何可能的技术细节集成水平的系统、方法和/或计算机可读介质。计算机可读介质可以包括非易失性计算机可读存储介质(或媒介)，其上存储有使处理器执行操作的计算机可读程序指令。

计算机可读存储介质可以是有形设备，其可以保留和存储指令以供指令执行设备使用。计算机可读存储介质可以是，例如，但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任任意适当组合。计算机可读存储介质的更具体示例的非详尽列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字通用光盘(DVD)、记忆棒、软盘、机械编码装置(如其上记录有指令的穿孔卡(punch-card)或槽内凸起的结构)、以及上述的任意适当组合。本文所使用的计算机可读存储介质不应被解释为本身是易失信号，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过电线传输的电信号。

本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者通过网络(例如，因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。所述网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发所述计算机可读程序指令，以将其存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集架构(ISA，instruction-set-architecture)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、用于集成电路的配置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括诸如Smalltalk、C++等的面向对象的编程语言、以及程序化程序语言(例如“C”编程语言)或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上执行而部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机上，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以使得电子电路个性化，从而执行方面或操作。

可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，以产生机器，使得该指令经由计算机或其他可编程数据处理装置的处理器执行，以创建用于实现流程图和/或框图中的一个或多个框指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，所述计算机可读存储介质可以指导计算机、可编程数据处理装置和/或其他设备以特定方式运行，从而使得其中存储有指令的计算机可读存储介质包含制品，所述制品包括实现流程图和/或框图中的一个或多个框指定的功能/动作的各方面的指令。

计算机可读程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，从而产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框指定的功能/动作。

附图中的流程图和框图示出了根据各种实施例的系统、方法和计算机可读介质的可能的实施方式的架构、功能和操作。在这一点而言，流程图或框图中的每个框可以表示指令的模块、片段或部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。相比于图中所描绘的，所述方法、计算机系统和计算机可读介质可以包括更多的块、更少的块、不同的块或不同布置的块。在一些可选实施方式中，框中标注的功能可以不按附图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以同时或基本上同时执行，或者所述框有时可以以相反的顺序执行。还应注意的是，框图和/或流程图的每个框以及框图和/或流程图的框的组合可以由执行指定功能或动作的或者执行专用硬件和计算机指令的组合的基于专用硬件的系统来实施。

很明显，本文所述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不受这些实施方式的限制。因此，本文描述了这些系统和/或方法的操作和行为而没有参考具体的软件代码——应当理解，可以基于本文的描述来设计软件和硬件以实现这些系统和/或方法。

除非明确说明，否则本文中使用的元件、动作或指令均不得解释为关键或必要的。另外，如本文所使用的，冠词“一(a)”和“一个(an)”旨在包括一个或多个项，并且可以与“一个或多个”互换使用。此外，如本文所使用的，术语“集合”旨在包括一个或多个项(例如，相关项、不相关项、相关项和不相关项的组合等)，并且可以与“一个或多个”互换使用。在仅希望一个项的情况下，则使用术语“一个”或类似语言。另外，如本文所使用的，术语“具有(has)”，“具有(have)”，“具有(having)”等旨在是开放式术语。进一步，短语“基于”旨在表示“至少部分地基于”，除非另外明确说明。

已经出于说明的目的给出了各个方面和实施例的描述，但是并不旨在穷举或限于所公开的实施例。即使权利要求中叙述了特征的组合和/或说明书中公开了特征的组合，这些组合并不旨在限制可能的实施方式的公开。实际上，这些特征中的许多特征可以以权利要求中未具体描述和/或说明书中未公开的方式组合。虽然下文列出的每个从属权利要求可以直接从属于仅一个权利要求，但是可能的实施方式的公开包括每个从属权利要求与权利要求集中的每个其他权利要求的组合。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说将是显而易见的。选择本文使用的术语是为了最好地解释本申请实施例的原理、对市场上发现的技术的实际应用或技术改进，或使本领域其他普通技术人员能够理解本文公开的实施例。

Claims

1.一种用于歌声语音转换的方法，由一个或多个计算机处理器执行，其特征在于，所述方法包括：

接收与歌声语音相对应的数据；

从接收的所述数据中提取一个或多个特征；

从接收的所述数据中提取音调数据；以及

基于提取的所述音调数据和所述一个或多个特征生成一个或多个音频样本。

2.根据权利要求1所述的方法，其特征在于，所述音调数据是使用音调回归对抗神经网络来提取的。

3.根据权利要求2所述的方法，其特征在于，所述对抗神经网络包括漏失层、两个卷积神经网络和全连接层。

4.根据权利要求1所述的方法，其特征在于，所述特征是基于对与所述歌声语音相关联的歌手的识别来提取的。

5.根据权利要求4所述的方法，其特征在于，所述识别是由歌手分类对抗神经网络执行的。

6.根据权利要求5所述的方法，其特征在于，所述歌手分类对抗神经网络包括漏失层、两个卷积神经网络和全连接层。

7.根据权利要求1所述的方法，其特征在于，进一步包括计算歌手分类损失值和音调回归损失值。

8.根据权利要求7所述的方法，其特征在于，基于使所述歌手分类损失值和所述音调回归损失值最小化，将所述歌手分类损失值和所述音调回归损失值用作训练值。

9.根据权利要求1所述的方法，其特征在于，接收的歌声语音数据被使用平均池化函数进行压缩。

10.根据权利要求1所述的方法，其特征在于，所述音频样本是在没有并行数据并且没有改变与所述歌声语音相关联的内容的情况下生成的。

11.一种用于歌声语音转换的计算机系统，其特征在于，所述计算机系统包括：

一个或多个计算机可读非易失性存储介质，被配置为存储计算机程序代码；以及

一个或多个计算机处理器，被配置为访问所述计算机程序代码并且如所述计算机程序代码所指示地操作，所述计算机程序代码包括：

接收代码，被配置为使所述一个或多个计算机处理器接收与歌声语音相对应的数据；

第一提取代码，被配置为使所述一个或多个计算机处理器从接收的所述数据中提取一个或多个特征；

第二提取代码，被配置为使所述一个或多个计算机处理器从接收的所述数据中提取音调数据；以及

生成代码，被配置为使所述一个或多个计算机处理器基于提取的所述音调数据和所述一个或多个特征生成一个或多个音频样本。

12.根据权利要求11所述的计算机系统，其特征在于，所述音调数据是使用音调回归对抗神经网络来提取的。

13.根据权利要求12所述的计算机系统，其特征在于，所述对抗神经网络包括漏失层、两个卷积神经网络和全连接层。

14.根据权利要求11所述的计算机系统，其特征在于，所述特征是基于对与所述歌声语音相关联的歌手的识别来提取的。

15.根据权利要求14所述的计算机系统，其特征在于，所述识别是由歌手分类对抗神经网络执行的。

16.根据权利要求15所述的计算机系统，其特征在于，所述歌手分类对抗神经网络包括漏失层、两个卷积神经网络和全连接层。

17.根据权利要求11所述的计算机系统，其特征在于，进一步包括计算代码，所述计算代码被配置为使所述一个或多个计算机处理器计算歌手分类损失值和音调回归损失值，其中基于使所述歌手分类损失值和所述音调回归损失值最小化，将所述歌手分类损失值和所述音调回归损失值用作训练值。

18.根据权利要求11所述的计算机系统，其特征在于，接收的歌声语音数据是使用平均池化函数压缩的。

19.根据权利要求11所述的计算机系统，其特征在于，所述音频样本是在没有并行数据并且没有改变与所述歌声语音相关联的内容的情况下生成的。

20.一种非易失性计算机可读介质，其上存储有用于歌声语音转换的计算机程序，其特征在于，所述计算机程序被配置为使一个或多个计算机处理器：

接收与歌声语音相对应的数据；

从接收的数据中提取一个或多个特征；

从所述接收的数据中提取音调数据；以及

基于提取的音调数据和所述一个或多个特征生成一个或多个音频样本。