CN110600013B

CN110600013B - 非平行语料声音转换数据增强模型训练方法及装置

Info

Publication number: CN110600013B
Application number: CN201910863861.5A
Authority: CN
Inventors: 俞凯; 李沐阳; 陈博; 陈宽; 吴松泽; 刘知峻
Original assignee: Sipic Technology Co Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-11-02
Anticipated expiration: 2039-09-12
Also published as: CN110600013A

Abstract

本申请公开一种非平行语料声音转换数据增强模型训练方法，包括：为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块；所述声学注意力层包括第一GRU层和第一注意力层，所述文本注意力层包括第二GRU层和第二注意力层；将样本源文本序列编码为嵌入序列；将样本目标声学特征序列输入至所述第一GRU层；将所述嵌入序列输入至所述第一注意力层和第二注意力层，以训练所述增强模型。本申请通过声学注意力层和文本注意力层保留了源语音中包含的持续时间和语言上下文，从而确保了训练得到的增强模型的准确性，能够更好的用于音频与文本之间的对齐，有助于提升语音转换的效果。

Description

非平行语料声音转换数据增强模型训练方法及装置

技术领域

本申请涉及语音转换技术领域，尤其涉及一种非平行语料声音转换数据增强模型训练方法及装置。

背景技术

语音转换(VC)是一种旨在转换一个说话者的语音音频以使其听起来好像是由另一个说话者说出而不改变语言内容的技术。VC具有应用于各种任务的巨大潜力，例如，计算机辅助语音修剪系统的定制反馈，为语言障碍科目开发个性化助教，用各种人的声音进行电影配音等。

基于数据条件的VC技术有两种主要类型：平行VC和非平行VC。平行VC技术需要源和目标说话者的平行话语对的可用性。这些技术专注于开发源话语和目标话语的映射函数。在传统的VC方法中，话语通过动态时间规整(DTW)算法来对齐。该映射可以通过多种声学模型学习，如高斯混合模型(GMM)，深度神经网络(DNNs)，递归神经网络(RNNs)和序列到序列(Seq2Seq)模型。

非平行VC不需要不同说话者的平行训练数据。大致有两类非平行VC方法。第一类包含将非平行VC问题转换为平行VC问题的方法。有的使用Tacotron生成标准语音，然后用于训练序列到序列的VC模型。有的使用连接单元选择TTS系统来生成参考语音，该参考语音充当非平行源和目标语音数据集之间的桥梁。使用TTS系统创建数据是基于合成语音包含足够的声学成分以用作参考的假设。基于CycleGAN的VC模型也属于这一类。

第二类涉及语言和说话者信息的分离以及具有相同内容但不同说话者特征的语音重建。识别合成模型涉及提取语言，说话者无关表示的ASR模型，以及生成变换语音的合成模型。最近还提出了基于自动编码器和变分自动编码器的模型。

CycleGAN利用循环生成式对抗网络来进行非平行预料的声音转换。音频与文本对齐不准确，导致生成的音频效果不好。

发明内容

本申请实施例提供一种非平行语料声音转换数据增强模型训练方法、装置、非平行语料声音转换数据增强方法和语音转换方法，用于至少解决上述技术问题之一。

第一方面，本申请实施例提供一种非平行语料声音转换数据增强模型训练方法，包括：

为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块；所述声学注意力层包括第一GRU层和第一注意力层，所述文本注意力层包括第二GRU层和第二注意力层；

将样本源文本序列编码为嵌入序列；

将样本目标声学特征序列输入至所述第一GRU层；将所述嵌入序列输入至所述第一注意力层和第二注意力层，以训练所述增强模型。

第二方面，本申请实施例提供一种非平行语料声音转换数据增强方法，采用本申请任一实施例中所述的非平行语料声音转换数据增强模型，所述方法包括：

将源语音数据输入至所述第一GRU层和所述第二GRU层，将目标语音数据输入至所述解码器模块，以实现所述源语音数据与所述目标语音数据之间的对齐。

第三方面，本申请实施例提供一种语音转换方法，包括：

采用本申请任一实施例中所述的非平行语料声音转换数据增强方法生成平行语音数据；

将所述平行语音数据输入至预先训练好的平行语音转换模型。

第四方面，本申请实施例提供一种非平行语料声音转换数据增强模型训练装置，包括：

配置模块，用于为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块；所述声学注意力层包括第一GRU层和第一注意力层，所述文本注意力层包括第二GRU层和第二注意力层；

编码器模块，用于将样本源文本序列编码为嵌入序列；

训练模块，用于将样本目标声学特征序列输入至所述第一GRU层；将所述嵌入序列输入至所述第一注意力层和第二注意力层，以训练所述增强模型。

第五方面，本申请实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本申请上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

第六方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

第七方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

本申请实施例的有益效果在于：本申请提出了一种端到端的数据增强方法，用于生成高质量的精确时间对齐的平行语音。使用增强数据构建了直接的帧到帧VC模型，转换后的语音取得了良好的成绩。具体地，通过声学注意力层和文本注意力层保留了源语音中包含的持续时间和语言上下文，从而确保了训练得到的增强模型的准确性，能够更好的用于音频与文本之间的对齐，有助于提升语音转换的效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的非平行语料声音转换数据增强模型训练方法的一实施例的流程图；

图2为本申请的非平行语料声音转换数据增强模型训练装置的一实施例的示意图；

图3为本申请的电子设备的一实施例的结构示意图；

图4为现有技术中的典型Tacotron的结构示意图；

图5为现有技术中的CycleGAN语音转换的示意图；

图6为本申请的数据增强程序的一实施例的结构示意图；

图7为本申请的使用精确时间对齐的增强平行语音的语音转换网络示意图；

图8a和图8b示出了自然语音和精准时间对其的增强的平行语音的梅尔谱图；

图9a至9c为不同注意力模型的注意力对齐示意图；

图10a至10c示出了转换后的梅谱图的低频部分的示例；

图11为为本申请应用于不同系统的平均意见得分示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本申请中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请提出了一种生成高质量且精确对齐的平行数据，这些数据可用于帧到帧平行语音转换。还提出了一种利用非平行训练数据进行语音转换的新方法。该方法首先训练一个多说话人类似Tacotron的TTS模型。然后，该模型适用于源说话者和目标说话者的非平行训练数据。通过共享注意力对齐而非交换说话人ID可以从调整的模型生成具有相同文本的平行数据。共享对齐确保平行数据在帧级精确对齐，而类似Tacotron的模型可确保生成数据的出色质量。之后，在增强的平行数据上训练非常简单的帧到帧平行语音转换模型。在转换阶段，源语音(文本未知)被转换为具有良好性能的目标说话者。

如图1所示，本申请的实施例提供一种非平行语料声音转换数据增强模型训练方法，包括：

S10、为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块；所述声学注意力层包括第一GRU层和第一注意力层，所述文本注意力层包括第二GRU层和第二注意力层；示例性地，所述解码器模块包括CBHG子模块和BLSTM子模块；

S20、将样本源文本序列编码为嵌入序列；

S30、将样本目标声学特征序列输入至所述第一GRU层；将所述嵌入序列输入至所述第一注意力层和第二注意力层，以训练所述增强模型。

本申请通过声学注意力层和文本注意力层保留了源语音中包含的持续时间和语言上下文，从而确保了训练得到的增强模型的准确性，能够更好的用于音频与文本之间的对齐，有助于提升语音转换的效果。

在一些实施例中，非平行语料声音转换数据增强模型训练方法还包括：向所述第一GRU层、所述第二GRU层和所述解码器模块所述输入全局条件，所述全局条件为说话者身份特征信息。

在一些实施例中，本申请还提供一种非平行语料声音转换数据增强方法，采用前述任一实施例的方法训练得到的增强模型，所述方法包括：

示例性地，本申请的非平行语料声音转换数据增强方法采用了前述实施例中的非平行语料声音转换数据增强模型训练方法训练得到的增强模型，从而能够使得增强后的源语音数据与目标语音数据之间准确对齐。便于后续基于对齐后的数据进行语音转换，一方面降低了后续进行语音转换的难度，另一方面提升了语音转换的效果，是的转换得到的语音更加接近目标说话者，语音更加自然。

在一些实施例中，本申请还提供一种数据转换方法，包括：采用本申请任一实施例的非平行语料声音转换数据增强方法生成平行语音数据；将所述平行语音数据输入至预先训练好的平行语音转换模型。

示例性地，本申请实施例中的预先训练好的平行语音转换模型可以是现有技术中任何基于严格对齐的语料库训练得到的平行语音转换模型，也可以是基于本申请前述实施例中的数据增强方法所得到的对齐数据预先训练得到的平行语音数据转换模型，本申请对此不作限定。

本申请的主要贡献如下：本申请提出了一种端到端的数据增强方法，用于生成高质量的精确时间对齐的平行语音。使用增强数据构建了直接的帧到帧VC模型。转换后的语音取得了良好的成绩。

本申请中提出了一种利用改进的类似Tacotron的序列到序列模型从非平行语音生成帧到帧对齐的平行语音对的新方法。该模型在多说话者数据集上进行训练，并根据非平行源和目标语音进行调整。其结构旨在保留源语音中包含的持续时间和语言上下文，并取代其他语义包括频率轮廓和说话者身份的信息与目标说话者的信息。本申请的语音数据增强方法从非平行数据集生成帧到帧对齐的高质量平行语音，这意味着可以使用生成的数据集直接训练任何平行VC模型，而无需进一步对齐。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图2所示，本申请的实施例还提供一种非平行语料声音转换数据增强模型训练装置200，包括：

配置模块210，用于为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块；所述声学注意力层包括第一GRU层和第一注意力层，所述文本注意力层包括第二GRU层和第二注意力层；所述解码器模块包括CBHG子模块和BLSTM子模块；

编码器模块220，用于将样本源文本序列编码为嵌入序列；

训练模块230，用于将样本目标声学特征序列输入至所述第一GRU层；将所述嵌入序列输入至所述第一注意力层和第二注意力层，以训练所述增强模型。

在一些实施例中，非平行语料声音转换数据增强模型训练装置200还包括：向所述第一GRU层、所述第二GRU层和所述解码器模块所述输入全局条件，所述全局条件为说话者身份特征信息。

在一些实施例中，本申请实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本申请上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

在一些实施例中，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

在一些实施例中，本申请实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

在一些实施例中，本申请实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。

图3是本申请另一实施例提供的执行语音转换方法的电子设备的硬件结构示意图，如图3所示，该设备包括：

一个或多个处理器310以及存储器320，图3中以一个处理器310为例。

执行语音转换方法的设备还可以包括：输入装置330和输出装置340。

处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器320作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音转换方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音转换方法。

存储器320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音转换装置的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器320可选包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至语音转换装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可接收输入的数字或字符信息，以及产生与语音转换装置的用户设置以及功能控制有关的信号。输出装置340可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器320中，当被所述一个或者多个处理器310执行时，执行上述任意方法实施例中的语音转换方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以下实施例将从发明人作出本申请创造的过程以及对于本申请创造成果的有益效果进行实验验证的角度进行展开说明。

1、相关工作

1.1、端到端的文本到语音

近年来，端到端的文本到语音转换已经取得了很大的成就，与传统技术相比的发展。高质量的合成语音使得为其他语音任务生成大量高质量数据成为可能。首先介绍著名的端到端文本到语音(TTS)模型Tacotron。

Tacotron是一种端到端的TTS模型，它直接从文本序列生成频谱图序列。文本序列和声学序列通过注意力模型固有地对齐。然后通过一些信号处理算法(例如，Griffin-Lim算法(该模型称为Tacotron 1)或神经声码器(例如，WaveNet)将该频谱图转换为波形样本(该模型为被称为Tacotron 2)。

如图4所示，为典型Tacotron的简要结构，Tacotron模型的主干是一个带有注意力的seq2seq模型，包括一个编码器，一个基于注意力的解码器和一个后处理网络。用L＝(l₁，l₂，…l_N)表示输入文本序列，O＝(o₁，o₂，…o_T)表示目标声学特征。编码器网络f_enc首先将输入序列L编码为嵌入V＝(v₁，v₂，…v_N)，如下所示：

V＝f_enc(L). (1)

对于自回归解码处理，在目标声学特征O的每个时间帧处，注意力层计算概率分布，该概率分布描述给定时间帧特征o_t与来自门控循环单元(GRU)的嵌入V的每个帧之间的关系输出f_gru(o_t)。因此，对齐矩阵A＝(a₁，a₂，…a_T)可写为：

e_t，i＝f_att(f_gru(o_t)，v_i)，　(2)

a_t＝softmax(e_t)， (3)

其中，f_att是注意力方程，用于计算o_t和v_i之间的关系。o_t帧的注意力内容是：

解码器RNN网络f_dec取C＝[c₁，c₂，…c_T]，并将GRU层f_gru(O)的输出作为输入：

最后，解码器输出

被馈入双向后处理网络f_post以纠正解码过程中的预测误差：

然后在

上应用Griffin-Lim算法来获得波形音频。

1.2、生成式对抗网络

1.2.1、对抗训练

生成式对抗性网络(GAN)是添加一个对生成式模型的对抗性损失。这种损失旨在衡量生成的特征G_X→Y(x)与真实的特征Y的区分度。生成式模型和对抗性模型迭代地训练以相互教授。目标写成

其中，鉴别器D_Y试图通过最大化损失来区分伪造和真实特征，而G_X→Y试图通过最小化损失来产生更好的伪造特征来欺骗鉴别器D_Y。

GAN已经应用于许多语音生成任务，包括文本到语音和语音转换。由于在所提出的架构中存在两个不同的语音生成任务，因此GAN是用于提高整体性能的非常有效的技术。这项工作中的两个语音生成任务如下：

使用文本和语音进行数据增强。

仅使用语音的语音转换。

GAN对数据增强模型非常重要，因为增强模型必须具有非常好的性能，否则在语音转换模型中训练和测试数据之间的差距太大。

1.2.2、非平行语音转换中的CycleGAN

更有趣的是，已经有了在不进行数据加强情况下用于非平行数据语音转换GAN技术(例如，CycleGAN和StarGAN)。由于我们的模型用于一对一转换，因此选择CycleGAN作为基线来显示增强数据的好处。在CycleGAN中，模型试图从源头x∈X和目标y∈Y学习前向映射G_X→Y和后向映射G_Y→X，同时没有平行数据。前向映射G_X→Y是通过对抗性损失和循环一致性损失来学习的。这种循环一致性损失是高质量时间对齐平行数据不可用的折衷方案，这正是我们打算解决的问题。图5为CycleGAN语音转换的简要架构，简要介绍了CycleGAN语音转换。

2.使用增强数据进行语音转换

应该注意力的是，对于所提出的方法，在训练期间需要语音和准确的转录，但是在转换阶段不需要转录或自动语音识别器(ASR)。因此，此转换模型可用于实时在线语音转换应用程序。

2.1、序列到序列数据扩充

首先，如图6所示为本申请的数据增强程序的结构示意图。它是一种类似Tacotron的基于注意力的序列-序列模型，它具有与方程式1所示相同的文本编码部分。全局条件(说话者-id)连接到GRU层和CBHG+BLSTMs模块以控制说话者特征。对于说话者x，公式(2)和(3)应改为：

与图4中的典型Tacotron不同，声学解码部分具有两个连接的注意力层。但是我们将方程式简化为用一个注意力层的情况：

由于该模型不是为文本到语音任务设计的，因此第二个注意力输出直接连接到解码器模块。我们为该解码器模块采用参数语音合成模块(CBHG+BLSTM)以获得较低的训练损失。从而，

其中，f_dec是CBHG+BLSTMs模块。为进一步提升自然性，将依赖说话者的对抗网络应用于梅尔谱图输出。对抗网络遵循CycleGAN的结构，图6中省略了该结构以降低图复杂度。

在训练阶段，所有参数一起更新，以帮助模型在训练数据上获得非常准确的对齐。在增强阶段，从O^(x)和L生成

通过假设a_t ^(y)＝a_t ^(x)，我们可以得到A^(y)＝A^(x)。那么

就可以得到：

其中，A^(x)是以说话者x为条件下的O^(x)和L之间的注意力对齐。

请注意，GRU的输出不会作为CBHG+BLSTMs模块的输入。在我们初期的实验中，如果GRU输出被送入CBHG+BLSTMs模块，以前的梅尔谱图的编码对后续网络有太强烈的影响，即使我们交换了说话者ID，输出的梅尔谱图仍然是源说话者的。

2.2、时间对齐的语音转换

一旦生成平行数据，转换网络就简单了，任何类型的平行数据语音转换模型都可以应用于这个框架。最重要的事实是，由于增强语音在生成期间已经与自然语音精确地时间对齐，因此不再需要额外的对齐。因此，图7所示为使用精确时间对齐的增强平行语音的语音转换网络示意图，其中的转换网络非常简单，即源梅尔谱图通过双向递归神经网络逐帧转换为目标梅尔谱图。转换网络将使用对抗性鉴别器在增强平行数据上进行训练。

损失方程如下所示：

应当注意力，在训练帧到帧语音转换模型期间，一些目标梅尔谱图来自增强模型，其不是来自自然语音。因此，在对抗训练中这种目标梅尔谱图不应被视为真实的或假的，因此鉴别器将丢弃这种梅尔谱图。

3、实验

3.1、实验装置

完整数据集包括来自173个不同的发言者的文本和语音，选择三个说者进行评估。

源说话者由1个男性说话者和1个女性说话者组成，目标说话者是女性说话者。每个说话者都有大约700个句子来训练增强模型，转换模型和WaveNet声码器。所提出的方法在性别内和跨性别情况进行评估。应该再次注意，文本仅在训练阶段需要，因此所提出的模型能够在不知道语音内容的情况下用于在线转换系统。在本申请的评估部分，测试集仅包括来自源说话者的语音。

该数据集由62个中文私人语料库，VCTK和LJSpeech组成。音频都被下采样到最低采样率(16kHz)。来自单个说话者的语音数据通常不到一小时。一些说话者提供超过2小时的语音。首先用不包含测试说话者(源说话者和目标说话者)的数据训练数据增强模型。之后，模型自适应两个未知的说话者以模拟应用场景。遵循Tacotron中的设置，实验中的声学特征是80维的梅尔谱图，其具有12.5ms的帧移。在自适应期间，数据增强模型用L1损失和说话者相关的对抗网络训练，以使增强的梅尔谱图更难以与自然的梅尔谱图区分。源语音和目标语音都使用相同的时间对齐文本扩充到另一个说话者的语音。所有增强数据对都被认为是语音转换模型的训练数据。但是在训练鉴别器时直接省略了增强目标语音。该语音由一个多说话者WaveNet声码器对声音进行编码，该声码器是根据自然语音的梅尔谱图进行训练的。

3.2、多说话人增强模型

首先，我们检测数据增强模型的性能。图8a和图8b示出了自然语音和精准时间对其的增强的平行语音的梅尔谱图。由于用于产生增强的平行语音的注意力输出完全来自自然语音，因此音素被精确地逐帧对齐。这证实了训练语音转换模型不需要动态时间规整或语音对话注意力。我们还可以看到，与图8b相比，图8a中的F0轮廓具有明显不同的形状。这个表示源F0轮廓和增强的F0轮廓之间的关系是非线性的，这使得转换模型能够学习非线性F0映射。

请注意，所提出的增强模型与典型的Tacotron不同，输入声学特征被注意力层阻挡。因此，很好地训练增强模型并不简单。因此，我们还对具有一个和两个注意力层的增强模型进行了比较。图9a至9c为不同注意力模型的注意力对齐示意图，横坐标为编码时间步，纵坐标为解码时间步。其中，图9a示出了增强模型与仅一个注意力层的对齐，图的底部有一团混乱，这会导致解码性能不佳。图9b和9c是所提出方法中第一和第二注意力的对准。我们可以看到第一个路线仍然有一些混乱，而第二个路线更清洁，这表明第二个注意力层对于数据增强是必要且强大的。

3.3、与文本无关的VC结果

图10a至10c示出了转换后的梅谱图的低频部分的示例。底部的亮线对应于基频。我们可以很容易地观察到CycleGAN倾向于学习F0的简单线性转换，因为它不知道在训练期间F0应该如何转换。在我们提出的方法中，虽然F0轮廓类似于CycleGAN，但我们可以清楚地发现F0轮廓的局部形状与源语音完全不同。由于来自增强模型的平行数据具有完全不同的F0轮廓，模型可以学习F0与Mel谱图的非线性转换。这显示了数据增强过程的好处。

为确保F0转换不会导致质量下降，我们还会运行监听测试来评估整体性能。以随机顺序为中国本土听众提供五组不同的语音。下面列出了五个组：

自然目标语音；

自然源语音；

训练集中的增强语音；

CycleGAN VC系统；

建议的VC系统。

我们在列表中加入“训练集中的增强语音”，以表明增强模型可以生成具有高质量和高相似性的语音。我们不关注“测试集中的增强语音”，因为该模型旨在生成训练集上的数据。因此即使增强模型以某种方式过度拟合也是可以接受的。由于增强语音在训练集中，因此该组中的文本与其他组中的文本完全不同。CycleGAN VC系统与此高度相关工作。它只是一个众所周知的非平行语音转换模型。列出的是，通过增强数据，即使是非常简单的平行转换模型也可以实现比某些纯非平行方法更好的性能。

如图11所示，为本申请应用于不同系统(A至E)的平均意见得分示意图(MOS)。绝对得分并不像我们预期的那么高。我们怀疑这是由WaveNet声码器引起的，没有“预测适应”，放大了生成的语音的错误。由于声码器不是聚焦点，我们比较了不同系统的MOS。在所提出的方法中，转换后的语音的分数仅略低于增强语音的分数。它表明增强语音与自然语音时间对齐，否则帧对帧模型应该非常差而不对齐程序。此外，所提出的方法的得分是显着的高于CycleGAN的分数，特别是在男性对女性组。由于CycleGAN首先被提出用于声码参数(mel-ceptrum)，这可能是典型的CycleGAN转换mel谱图的弱点。但是在所提出的方法中，利用精确时间对齐的增强数据，转换语音的自然性要好得多。

4.结论和未来的工作

本申请提出了一种基于注意力的端到端数据增强框架，用于非平行语音转换。这个增强方法可以生成具有精确时间对齐的音素持续时间的高质量平行数据。该模型是完全端到端的，我们不需要构建显式模型来获得配对语音之间的对齐。任何平行语音转换技术都可以直接应用于增强数据而无需预处理。尽管在训练期间需要转录，但转换阶段纯粹是语音到语音，仍然可用于实时在线应用。主观测量表明，利用增强数据，即使非常简单的帧到帧模型也可以在自然性和相似性方面取得良好的性能。未来的工作将是使用此框架进行跨语言语音转换，并对转换后的梅谱图进行WaveNet调整。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种非平行语料声音转换数据增强方法，包括：

为数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块；所述声学注意力层包括第一GRU层和第一注意力层，所述文本注意力层包括第二GRU层和第二注意力层；

将样本源文本序列编码为嵌入序列；

将样本目标声学特征序列输入至所述第一GRU层；将所述嵌入序列输入至所述第一注意力层和第二注意力层，以训练所述数据增强模型；

2.根据权利要求1所述的方法，其中，还包括：

向所述第一GRU层、所述第二GRU层和所述解码器模块输入全局条件，所述全局条件为说话者身份特征信息。

3.根据权利要求1所述的方法，其中，所述解码器模块包括CBHG子模块和BLSTM子模块。

4.一种数据转换方法，包括：

采用权利要求1所述的方法生成平行语音数据；

5.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。

6.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。