CN115294960A

CN115294960A - 声码器的训练方法、语音合成的方法及相关产品

Info

Publication number: CN115294960A
Application number: CN202210875542.8A
Authority: CN
Inventors: 肖纯鑫; 高强
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-04

Abstract

本发明的实施方式提供了一种声码器的训练方法。该训练方法包括：获取训练数据，所述训练数据为语音数据的Mel谱；在所述Mel谱中添加扰动，以得到添加扰动后的Mel谱；以及利用所述添加扰动后的Mel谱对所述声码器进行训练，以用于合成语音。通过在Mel谱中添加扰动并用于声码器的训练，本发明的方法使得声码器具有抗扰动和纠错的能力，从而显著地降低了声学模型预测偏差对语音合成效果的不利影响，为用户带来了更好的体验。此外，本发明的实施方式提供了一种利用声码器进行语音合成的方法、电子设备和计算机可读存储介质。

Description

声码器的训练方法、语音合成的方法及相关产品

技术领域

本发明的实施方式涉及人工智能技术领域，更具体地，本发明的实施方式涉及一种声码器的训练方法、利用声码器进行语音合成的方法、电子设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS(text-to-speech，语音合成技术，又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。目前随着人工智能技术的发展，语音合成技术的用途也愈发广泛。

TTS结构中主要涉及三大方面：语言处理、韵律处理和声学处理。其中语言处理在文语转换中起着重要作用，其主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。韵律处理则是为合成语音规划出音段特征，例如高音、音长、音强和韵律等，使合成语音能够正确表达语音且听起来更加自然。声学处理则是根据前述语言处理和韵律处理之后的内容输出对应的语音，也即合成语音。

在声学处理过程中，声码器是决定TTS系统最终合成音质的关键一环。目前声码器的训练方案主要包括以下两种：一种是从真实语音中直接提取Mel谱并参与训练，另一种是采用真实语音对齐的方式得到Mel谱并参与训练，也就是使用真实语音的时长来强制声学模型预测与真实语音相同长度的Mel谱，这样做的目的是为了减小声学模型输出和声码器输入的Mel谱的误差。两个方案中前者的优点是简单易用，缺点是合成的语音的质量较差，后者的优点是语音的合成质量较高，但缺点是操作比较复杂、繁琐。

然而，上述两种方式也存在一个共同的缺陷，在声学模型预测的Mel谱有所偏差的情况下，上述训练过程得到的声码器很难适应这种有偏差的Mel谱特征，导致合成的语音发颤，有电音和杂音。原因在于：目前声码器的训练过程均是采用训练集内近乎完美拟合的样本对应的Mel谱，导致声码器并不具有较强的纠错和抗干扰能力。而真实场景下的Mel谱特征是训练集外的文本预测的，容易预测出较差的Mel谱特征，这就导致声码器无法根据较差的Mel谱特征合成高质量的语音。因此，在语音合成系统中，声码器的抗噪声、纠错能力和抗扰动能力就显得尤其重要。

鉴于此，如何提升声码器的抗扰动能力，使得声码器能够在声学模型预测的Mel谱特征存在偏差时进行准确纠错和处理，对于提升语音转换效果具有重要作用。

发明内容

在现有技术中，传统声码器不具备抗扰动能力导致合成语音质量较差，这是非常令人烦恼的过程。

为此，非常需要一种改进的声码器的训练方法，以使训练得到的声码器能够基于质量较差的Mel谱特征合成高质量的语音。

在本上下文中，本发明的实施方式期望提供一种声码器的训练方法、利用声码器进行语音合成的方法、电子设备和计算机可读存储介质。

在本发明实施方式的第一方面中，提供了一种声码器的训练方法，包括：获取训练数据，所述训练数据为语音数据的Mel谱；在所述Mel谱中添加扰动，以得到添加扰动后的Mel谱；以及利用所述添加扰动后的Mel谱对所述声码器进行训练，以用于合成语音。

在本发明的一个实施例中，所述在Mel谱中添加扰动，以得到添加扰动后的Mel谱包括：确定需要添加的扰动类别和频率；在所述Mel谱中添加对应扰动类别和频率的扰动，其中所述扰动类别包括掩膜窗口、谐波扰动、谐波间噪声以及打点音中的一种或多种。

在本发明的另一实施例中，其中在所述Mel谱中添加掩膜窗口包括：在所述Mel谱中随机选择一个或多个位置；在所述一个或多个位置处添加掩膜窗口。

在本发明的又一个实施例中，所述掩膜窗口的形状、大小随机生成。

在本发明的再一个实施例中，其中在所述Mel谱中添加谐波扰动包括：在Mel谱中随机选取一个或多个时间点；在所述一个或多个时间点处注入谐波扰动。

在本发明的一个实施例中，所述在一个或多个时间点处注入谐波扰动包括：计算所述Mel谱中对应一个或多个时间点处的谐波特征量；将所述谐波特征量随机打乱，并注入所述一个或多个时间点处，以注入谐波扰动。

在本发明的另一实施例中，其中在所述Mel谱中添加谐波间噪声包括：获取谐波间噪声样本值；将所述谐波间噪声样本值与所述Mel谱中谐波部分叠加，以添加所述谐波间噪声。

在本发明的又一个实施例中，所述获取谐波间噪声样本值包括：构建Mel谱中谐波部分的分布模型；基于所述分布模型进行抽样，以得到对应的谐波间噪声样本值。

在本发明的再一个实施例中，所述分布模型包括高斯分布模型，所述构建Mel谱中谐波部分的分布模型包括：计算Mel谱中谐波部分的均值和方差，并构建基于所述均值和方差的高斯分布模型。

在本发明的一个实施例中，其中在所述Mel谱中添加打点音包括：确定所述Mel谱中和语音停顿相对应的起始位置和/或结束位置；在所述起始位置和/或结束位置处添加设定大小的脉冲信号，以添加打点音。

在本发明的另一个实施例中，其中在Mel谱中添加扰动，以得到添加扰动后的Mel谱还包括：在训练数据的Mel谱所对应的音频时长中添加设定时间占比的扰动，以得到添加扰动后的Mel谱。

在本发明的又一实施例中，其中所述添加扰动进一步包括：检测业务场景中异常样本的缺陷类型和出现频次；以及基于所述异常样本的缺陷类型和出现频次，确定需要添加的扰动类别和频率。

在本发明的再一个实施例中，检测业务场景中异常样本的缺陷类型和出现频次包括：使用业务场景中的文本样本通过声码器合成语音数据；根据所述语音数据确定异常样本；根据所述异常样本的Mel谱确定异常样本的缺陷类型和出现频次。

在本发明的一个实施例中，所述缺陷类型包括颤音、电音和打点音，其中基于所述异常样本的缺陷类型和出现频次，确定需要添加的扰动类别和频率包括：根据颤音、电音和打点音对应的听觉表现调试出对应Mel谱中的扰动，以确定需要添加的扰动类别；根据异常样本中缺陷类型出现的频次确定向所述训练数据的Mel谱中添加扰动的频率。

在本发明的另一个实施例中，所述Mel谱通过以下任一方式获取：从语音数据中直接提取Mel谱；或将语音数据和文本数据输入声学模型，以得到预测的Mel谱。

在本发明的又一实施例中，所述声学模型包括时长预测模型和Mel谱预测模型，其中将所述语音数据和文本数据输入声学模型，以得到预测的Mel谱包括：利用所述时长预测模型对所述语音数据的时间长度进行预测，以得到预测结果；所述Mel谱预测模型根据所述预测结果对文本数据进行转换，以生成对应时间长度的Mel谱。

在本发明实施方式的第二方面中，提供了一种利用声码器进行语音合成的方法，包括：获取待转换的文本数据；根据所述文本数据生成对应的Mel谱；利用声码器对所述Mel谱进行处理，以合成目标语音，所述声码器根据前文以及下文多个实施例所述的训练方法训练得到。

在本发明实施方式的第三方面中，提供了一种电子设备，包括：处理器；以及存储器，其存储有用于对声码器进行训练或利用声码器进行语音合成的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据前文以及下文多个实施例所述的声码器的训练方法，或使得所述设备执行根据前文以及下文多个实施例所述的利用声码器进行语音合成的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，包含对声码器进行训练或利用声码器进行语音合成的程序指令，当所述程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的声码器的训练方法，或使得实现根据前文以及下文多个实施例所述的利用声码器进行语音合成的方法。

根据本发明实施方式的声码器的训练方法，可以在训练时采用加入扰动的Mel谱，以利用添加扰动后的Mel谱对声码器进行训练，从而显著地提升该声码器对扰动的纠错能力，并且减少了各类扰动对语音合成结果的干扰，为用户带来了更好的体验。进一步，本发明中还通过在Mel谱中添加一种或多种不同类别、频次、时长的扰动，以用于声码器的训练，从而有效提升声码器抵抗各种扰动的能力，有助于提升声码器的鲁棒性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图；

图2示意性地示出了根据本发明实施例的语音合成方法的示意图；

图3示意性地示出了根据本发明实施例的声码器的训练方法的流程图；

图4示意性地示出了根据本发明实施例的向Mel谱中添加扰动的方法的流程图；

图5示意性地示出了根据本发明实施例的确定扰动类型的方法的流程图；

图6示意性地示出了根据本发明实施例的添加不同类型扰动的方法的流程图；

图7a至图7d示意性地示出了根据本发明实施例的添加不同类型的扰动后的Mel谱的可视化图；

图8示意性地示出了根据本发明实施例的利用声码器进行语音合成的方法的流程图；

图9示意性地示出了根据本发明实施例的电子设备的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算系统100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种声码器的训练方法、利用声码器进行语音合成的方法、电子设备和计算机可读存储介质。

在本文中，需要理解的是，所涉及的术语：

语音合成系统(TTS)，一般由前端的文本分析模块、声学模型和声码器组成。文本分析过程包括文本正则化、韵律预测、多音词消歧、字转音(G2P)等。

声学模型(acoustic model，简称“AM”)，输入文本后可以预测对应的Mel谱。声学模型中通常还嵌套着一个时长预测模型，用于估计输入文本的发音时长。常用的声学模型包括tactron2、fastspeech2和bvae等。

Mel谱：语音的一种通用的压缩方法，且压缩之后mel谱无法直接还原成语音。

声码器(vocoder)：将Mel谱还原成语音的模型，常用的基于神经网络的声码器主要包括wavenet、lpcnet和hifigan等。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，从真实语音中直接提取Mel谱对声码器进行训练，或者是使用声学模型预测的与真实语音相同长度的Mel谱对声码器进行训练，所训练得到的声码器均难以合成高质量的语音。经过分析发现，当声学模型利用训练集外的文本预测Mel谱，容易预测出较差的Mel谱特征，而现有的声码器在训练阶段采用的是训练集内近乎完美拟合的样本，其对应的Mel谱均比较正常，导致训练得到的声码器对质量较差的Mel谱的纠错能力和抗干扰能力不足，从而无法有效合成高质量语音。

基于此，发明人发现可以在训练数据的Mel谱中添加各种类型的扰动，并利用添加扰动后的Mel谱对声码器进行训练，从而有效提升了声码器在合成语音时的纠错能力和抗干扰性能。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图2中所示出的语音合成方法的示意图。如图2所示，在语音合成系统中，主要包括文本分析模块201、声学模型202和声码器203这三部分。将待合成的文本输入到语音合成系统后，首先文本分析模块201对文本进行文本正则化、消歧等处理过程，以提取出文本特征。然后声学模型202将根据文本特征预测对应的Mel谱，从而获取将要还原成的语音的时域、频域等特征。最后将得到的Mel谱输入声码器203，声码器203将根据Mel谱还原出该文本所对应的语音内容。

本发明中主要针对该语音合成系统中的声码器的训练过程进行改进，以提升该声码器的抗扰动和纠错能力，提升语音合成的质量。

示例性方法

下面结合图2的应用场景，参考图3来描述根据本发明示例性实施方式的声码器的训练方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图3示意性地示出了根据本发明实施例的声码器的训练方法300的流程图。

如图3所示，在步骤S301处，获取训练数据。其中训练数据可以为语音数据的Mel谱。在一些实施例中，Mel谱可以通过以下任一方式获取：第一种是从语音数据中直接提取Mel谱。第二种是将语音数据和文本数据输入声学模型，以得到预测的Mel谱。第二种方式中可以获取语音数据的时长，并强制声学模型根据文本数据预测出与该时长相同的Mel谱，从而减小声学模型预测出的Mel谱的偏差。

上述第二种方式中，该声学模型可以包括时长预测模型和Mel谱预测模型。在声学模型利用语音数据和文本数据得到预测的Mel谱时，首先可以利用其中的时长预测模型对语音数据的时间长度进行预测，以得到预测结果。然后Mel谱预测模型可以根据预测结果对文本数据进行转换，以生成对应时间长度的Mel谱。

在步骤S302处，在Mel谱中添加扰动，以得到添加扰动后的Mel谱。在一些实施例中，在Mel谱中添加扰动时，可以根据需要选择多种类型的扰动。例如掩膜窗口、谐波干扰、谐波噪声和打点音等扰动中的一种或多种，在对声码器的训练过程中可以选择任何搭配方式。

在步骤S303处，利用添加扰动后的Mel谱对声码器进行训练，以用于合成语音。在一些实施例中，利用添加扰动后的Mel谱对声码器进行训练，可以使得该声码器对扰动具有较强的纠错能力，从而在利用声码器进行合成语音时，能够合成更高质量的语音。

图4示意性地示出了根据本发明实施例的向Mel谱中添加扰动的方法400的流程图。需要说明的是，该方法400可以理解为是图3中声码器的训练方法300中添加扰动的一种可能的示例性实现。因此，前文结合图3中的相关描述同样也适用于下文。

如图4所示，在步骤S401处，确定需要添加的扰动类别和频率。在一些实施例中，通过对各类异常样本进行分析，可以确定四种不同的扰动类别，包括掩膜窗口、谐波扰动、谐波间噪声以及打点音。

在步骤S402处，在Mel谱中添加对应扰动类别和频率的扰动。

在一些实施例中，可以在Mel谱中添加掩膜窗口、谐波扰动、谐波间噪声以及打点音中的任意一种。也可以添加所有的扰动类别。进一步，还可以添加上述扰动类别中的多种，例如“掩膜窗口+谐波扰动”、“掩膜窗口+谐波扰动+谐波噪声”、“掩膜窗口+谐波噪声+打点音”等多种形式。

在步骤S403处，在训练数据的Mel谱所对应的音频时长中添加设定时间占比的扰动，以得到添加扰动后的Mel谱。为了保证声码器训练过程的有效性，在添加扰动时，所选择的一种或多种扰动所对应的音频时长占总音频时长的15％。

以上内容中说明了在训练数据对应的Mel谱中添加扰动的方式，在添加该扰动之前，需要根据现有的异常样本先确定可以添加的扰动类别。具体地，首先可以检测业务场景中异常样本的缺陷类型和出现频次。然后基于异常样本的缺陷类型和出现频次，确定需要添加的扰动类别和频率。接下来将结合图5对扰动的确定过程进行详细阐述。

图5示意性地示出了根据本发明实施例的确定扰动类型的方法500的流程图。

如图5所示，在步骤S501处，使用业务场景中的文本样本通过声码器合成语音数据。在实际应用中，语音合成系统中的声码器可以根据实际业务场景中的文本合成语音，该语音中可能包含各种类型的缺陷。基于此，可以利用本实施例中待训练的声码器将业务场景中的文本样本合成语音数据，以便依据该语音数据获取相应的扰动类型。

在步骤S502处，根据语音数据确定异常样本。在一些实施例中，可以通过对语音数据进行分析，从而确定出包含各种异常的样本，例如语音中存在颤音、电音等情况时，可以将该语音数据作为异常样本。

在步骤S503处，根据异常样本的Mel谱确定异常样本的缺陷类型和出现频次。在一些实施例中，声学模型根据该异常样本可以确定出对应的Mel谱，该Mel谱中包含有缺陷信息。例如可以将异常样本的Mel谱和正常的Mel谱进行比较，并对Mel谱中的缺陷类型进行分类和统计，从而确定出异常样本的缺陷类型和出现频次。

上述缺陷类型可以包括颤音、电音和打点音，在步骤S504处，根据颤音、电音和打点音对应的听觉表现调试出对应Mel谱中的扰动，以确定需要添加的扰动类别。在一些实施例中，技术人员可以根据异常样本总结规律，并调试合适的扰动函数，以拟合这种异常的听觉表现，如颤音，电音，打点音等听觉感受。进一步，该异常样本的Mel谱可以采用上述获取Mel谱的两种方式中的任意一种，本领域技术人员可以根据实际需要进行选择。

在步骤S505处，根据异常样本中缺陷类型出现的频次确定向训练数据的Mel谱中添加扰动的频率。在一些实施例中，可以根据上述统计得到的异常样本中缺陷类型出现的频次直接向训练数据的Mel谱中添加对应频次的扰动。也可以根据多种扰动类别之间的比例关系，向Mel谱中添加对应频率的扰动。

以上内容中说明了确定扰动类别和频率的方式，在确定所要添加的扰动类别和频次后，需要对应将扰动添加至Mel谱中，接下将对四种不同类别的扰动的添加过程分别进行阐述。

图6示意性地示出了根据本发明实施例的添加不同类型扰动的方法600的流程图。图7a至7d示意性地示出了根据本发明实施例的添加不同类型的扰动后的Mel谱的可视化图。需要说明的是，添加不同类型扰动的方法600可以理解为是图3中声码器的训练方法300中添加扰动的一种可能的示例性实现。因此，前文结合图3中的相关描述同样也适用于下文。

如图6所示，在步骤S601处，在Mel谱中随机选择一个或多个位置。

在步骤S602处，在一个或多个位置处添加掩膜窗口。在一些实施例中，该掩膜窗口(mask)的形状、大小随机生成。如图7a中示出了在Mel谱中添加矩形的掩膜窗口的示意图。如图7a所示，该黑色的矩形窗口(图中箭头指向)即为Mel谱中添加的掩膜窗口。利用添加掩膜窗口的Mel谱对声码器进行训练，可以增强声码器根据周围信息还原Mel谱的能力，从而保证合成的语音质量。

在步骤S603处，在Mel谱中随机选取一个或多个时间点。

在步骤S604处，在所述一个或多个时间点处注入谐波扰动。在一些实施例中，在一个或多个时间点处注入谐波扰动可以采用将谐波做打乱处理的方式进行添加。具体地，首先计算Mel谱中对应一个或多个时间点处的谐波特征量。然后将谐波特征量随机打乱，并注入Mel谱中的一个或多个时间点处，以实现注入谐波扰动的过程。如图7b中所示，将谐波特征量随机打乱后注入Mel谱中的一个或多个时间点处，该位置处对应的Mel谱呈现出杂乱的结构，图中方框表示插入谐波扰动后的可视化Mel谱的结构。

在一个应用场景中，发明人发现语音合成过程中部分语音发颤的问题，反映在语谱图上的特点是谐波存在异常的抖动。基于此，在训练数据的Mel谱中添加设定比例的谐波扰动，可以使得声码器在谐波扰动的干扰下，依然能够合成顺畅的语音。

在步骤S605处，获取谐波间噪声样本值。在一些实施例中，语音合成过程中会存在电音、糊音的情况，其反映在语谱图上的特点是谐波纹理不清晰且谐波间噪声较多。基于此，通过在Mel谱中添加设定比例的谐波间噪声，并对声码器进行训练，可以有效提升声码器的抗噪性能。在一些实施例中，谐波间噪声样本值可以通过以下方式获取：构建Mel谱中谐波部分的分布模型。基于该分布模型进行抽样，以得到对应的谐波间噪声样本值。上述分布模型以高斯分布模型为例，首先计算Mel谱中谐波部分的均值和方差，然后构建基于该均值和方差的高斯分布模型。

在步骤S606处，将谐波间噪声样本值与Mel谱中谐波部分叠加，以添加谐波间噪声。在一些实施例中，通过将谐波间噪声样本值与Mel谱中谐波部分叠加，可以在谐波间插入噪声，从而实现添加谐波间噪声的过程。如图7c中示出了添加谐波间噪声和谐波扰动的Mel谱的可视结构(图中方框中的部分)，从Mel谱中可以看出其中的谐波纹理并不清晰，并且谐波间存在较多的噪声。

在步骤S607处，确定Mel谱中和语音停顿相对应的起始位置和/或结束位置。在语音合成时，语音的停顿的起始或结束位置容易出现打点音。经过测量，打点音的大小一般处于-6至-2的能量范围之间。

在步骤S608处，在起始位置和/或结束位置处添加设定大小的脉冲信号，以添加打点音。在一些实施例中，通过模拟打点音的语谱表现，可以利用设定大小的脉冲信号表征打点音。在Mel谱中对应音频的停顿起始位置，可以添加设定大小的脉冲信号，以添加打点音扰动。如图7d中所示，在Mel谱的可视图中，当出现停顿时，该位置处出现了一个脉冲信号的结构(图中方框中的内容)，即出现了打点音。通过在声码器的训练数据中添加打点音，能够有效减少语音合成中出现的打点音现象。

上述步骤S601至步骤S602中描述了在Mel谱中添加掩膜窗口的方式。步骤S603至步骤S604中描述了在Mel谱中添加谐波扰动的方式。上述步骤S605至步骤S606中描述了在Mel谱中添加谐波间噪声的方式。上述步骤S607至步骤S608中描述了在Mel谱中添加打点音的方式。需要说明的是本发明中对上述添加各种扰动的顺序和组合并不做限定，本领域技术人员可以根据需要选择任意组合的扰动，并将其添加至Mel谱中对声码器进行训练。例如，可以在Mel谱中随机添加扰动的类别和频率。也可以根据真实场景中异常语音出现的频次选取。本领域技术人员还可以根据实际应用需要，有侧重的选择对应类别的扰动进行添加。

图8示意性地示出了根据本发明实施例的利用声码器进行语音合成的方法800的流程图。

如图8所示，在步骤S801处，获取待转换的文本数据。在一些实施例中，可以采用真实场景中的任意文本数据。

在步骤S802处，根据文本数据生成对应的Mel谱。在一些实施例中，语音合成系统中的文本分析模块可以对该文本进行正则化、韵律预测等处理，得到该待转换的文本数据对应的文本特征，然后声学模型根据文本特征预测对应的Mel谱。

在步骤S803处，利用声码器对Mel谱进行处理，以合成目标语音。由于声码器的训练方法以在上述内容中详细说明，此处将不再赘述。由于声码器在训练过程中采用了包含扰动的训练数据，其能够对存在缺陷的Mel谱特征进行纠错并处理，从而可以根据存在一定缺陷的Mel谱还原出高质量的语音内容，有效提升了语音合成系统合成语音的质量。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图9对本发明示例性实施方式的相关产品进行描述。

图9示意性地示出了根据本发明实施例的电子设备的示意图。如图9所示，设备900包括：处理器901和存储器902。其中存储器902存储有用于对声码器进行训练或利用声码器进行语音合成的计算机指令，当所述计算机指令由所述处理器901运行时，使得所述设备执行根据前文以及下文多个实施例所述的声码器的训练方法，或使得所述设备执行根据前文以及下文多个实施例所述的利用声码器进行语音合成的方法。本发明对设备900可具备的结构设计并不进行限制。

尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种声码器的训练方法，其特征在于，包括：

获取训练数据，所述训练数据为语音数据的Mel谱；

在所述Mel谱中添加扰动，以得到添加扰动后的Mel谱；以及

利用所述添加扰动后的Mel谱对所述声码器进行训练，以用于合成语音。

2.根据权利要求1所述的训练方法，其特征在于，所述在Mel谱中添加扰动，以得到添加扰动后的Mel谱包括：

确定需要添加的扰动类别和频率；

在所述Mel谱中添加对应扰动类别和频率的扰动，其中所述扰动类别包括掩膜窗口、谐波扰动、谐波间噪声以及打点音中的一种或多种。

3.根据权利要求2所述的训练方法，其特征在于，其中在所述Mel谱中添加掩膜窗口包括：

在所述Mel谱中随机选择一个或多个位置；

在所述一个或多个位置处添加掩膜窗口；优选地，

所述掩膜窗口的形状、大小随机生成。

4.根据权利要求2所述的训练方法，其特征在于，其中在所述Mel谱中添加谐波扰动包括：

在Mel谱中随机选取一个或多个时间点；

在所述一个或多个时间点处注入谐波扰动。

5.根据权利要求2所述的训练方法，其特征在于，其中在所述Mel谱中添加谐波间噪声包括：

获取谐波间噪声样本值；

将所述谐波间噪声样本值与所述Mel谱中谐波部分叠加，以添加所述谐波间噪声；优选地，

所述获取谐波间噪声样本值包括：

构建Mel谱中谐波部分的分布模型；

基于所述分布模型进行抽样，以得到对应的谐波间噪声样本值；优选地，

所述分布模型包括高斯分布模型，所述构建Mel谱中谐波部分的分布模型包括：

计算Mel谱中谐波部分的均值和方差，并构建基于所述均值和方差的高斯分布模型。

6.根据权利要求2所述的训练方法，其特征在于，其中在所述Mel谱中添加打点音包括：

确定所述Mel谱中和语音停顿相对应的起始位置和/或结束位置；

在所述起始位置和/或结束位置处添加设定大小的脉冲信号，以添加打点音。

7.根据权利要求1或2所述的训练方法，其特征在于，其中在Mel谱中添加扰动，以得到添加扰动后的Mel谱还包括：

在训练数据的Mel谱所对应的音频时长中添加设定时间占比的扰动，以得到添加扰动后的Mel谱；优选地，

其中所述添加扰动进一步包括：

检测业务场景中异常样本的缺陷类型和出现频次；以及

基于所述异常样本的缺陷类型和出现频次，确定需要添加的扰动类别和频率。

8.一种利用声码器进行语音合成的方法，其特征在于，包括：

获取待转换的文本数据；

根据所述文本数据生成对应的Mel谱；

利用声码器对所述Mel谱进行处理，以合成目标语音，所述声码器根据权利要求1-7任意一项所述的训练方法训练得到。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其存储有用于对声码器进行训练或利用声码器进行语音合成的计算机指令，当所述计算机指令由所述处理器运行时，使得所述设备执行根据权利要求1-7的任意一项所述的声码器的训练方法，或使得所述设备执行根据权利要求8所述的利用声码器进行语音合成的方法。

10.一种计算机可读存储介质，其特征在于，包含对声码器进行训练或利用声码器进行语音合成的程序指令，当所述程序指令由处理器执行时，使得实现根据权利要求1-7的任意一项所述的声码器的训练方法，或使得实现根据权利要求8所述的利用声码器进行语音合成的方法。