CN117831500A

CN117831500A - 语音合成的处理方法、装置、电子设备和计算机存储介质

Info

Publication number: CN117831500A
Application number: CN202311631422.4A
Authority: CN
Inventors: 李睿端; 李健; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-04-05

Abstract

本发明实施例提供了一种语音合成的处理方法、装置、电子设备和计算机可读存储介质，涉及语音合成技术领域，包括：基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，然后将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型，再对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，即可得到训练后的语音合成模型。本发明实施例针对低资源语种的TTS场景，即便是少量的文本音频对样本数据，训练后的语音合成模型也可以实现比较好的合成效果。

Description

语音合成的处理方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及语音合成技术领域，特别是涉及一种语音合成的处理方法、一种语音合成的处理装置、一种电子设备和一种计算机可读存储介质。

背景技术

语音合成(TTS，text-to-speech)是一种能够根据输入文本生成对应音频的技术。TTS现在广泛应用于toC(to customer，针对个人用户)和toB(to business，针对企业)等场景。

随着TTS技术的不断发展，用户对于TTS合成效果和应用领域的要求也在逐步提高，比如，在有声书场景下，语音合成不再局限于合成自然风格的音频，而是合成具有多情感的语句；再比如，合成语种也不再局限于如中文、英文这种多资源语种、方言以及低资源语种也有其特定的应用场景。

TTS发展到现阶段，在低资源语种的语音合成方面仍存在很多困境。比如，数据稀缺(文本和音频数据量不足，对于模型训练来讲，数据不足会导致训练欠佳，从而影响最终效果)、数据质量不佳(低资源语种往往由于数据收集困难，使得其数据质量无法保证，常见的问题有录音质量不佳或者文本转录不对应等)、语言特性研究少(由于该语种或者方言使用的人较少，往往语言学界对其开展的研究也相对少，那么对该语言的发音模式及特性等记载可能不到位。除此之外，评估效果时，如果缺乏专业人员的支持，后续调优的困难也很大)、训练难度大(由于数据稀缺，可能需要借助各种训练策略来辅助训练，这也增加了训练的难度)等。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成的处理方法、一种语音合成的处理装置、一种电子设备和一种计算机可读存储介质。

本发明实施例公开了一种语音合成的处理方法，所述方法包括：

基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型；

将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型；

对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型。

在一个或多个实施例中，所述基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，包括：

S11、将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；

S12、将所述第一结果输入所述第一嵌入层，得到所述第一嵌入层输出的第二结果；

S13、将所述第二结果输入第一编码器，得到所述第一编码器输出的第三结果；

S14、基于所述第三结果和所述多语种文本样本计算第一损失函数；

S15、若所述第一损失函数未达到最优，则对所述预训练模型、所述第一嵌入层和所述第一解码器进行更新，并重复执行S11～S15，直至所述第一损失函数达到最优，得到训练后的目标文本模型。

在一个或多个实施例中，所述基于所述预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型，包括：

S21、将所述文本音频对样本输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果；

S22、将所述第四结果输入第二编码器，得到所述第二编码器输出的第五结果；

S23、将所述第五结果输入解码器，得到所述解码器输出的梅尔频谱；

S24、基于所述梅尔频谱和所述文本音频对样本对应的谱图计算第二损失函数；

S25、若所述第二损失函数未达到最优，则对所述第二编码器和所述解码器进行更新，并重复执行S21～S25，直至所述第二损失函数达到最优，得到训练后的语音合成模型。

在一个或多个实施例中，将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果，包括：

将所述多语种文本样本转换为第一国际音标序列；

将所述第一国际音标序列和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；其中，所述预训练模型为mBERT；

将所述文本音频对样本输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果，包括：

将所述文本音频对样本中的文本转换为第二国际音标序列；

将所述第二国际音标序列和语种标识输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果。

在一个或多个实施例中，还包括：

将待处理文本输入所述训练后的语音合成模型，得到所述训练后的语音合成模型输出的合成语音。

相应的，本发明实施例公开了一种语音合成的处理装置，所述装置包括：

第一训练模块，用于基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型；

复制模块，用于将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型；

第二训练模块，用于对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型。

在一个或多个实施例中，所述第一训练模块，具体用于：

在一个或多个实施例中，所述第二训练模块，具体用于：

在一个或多个实施例中，第一训练模块，具体还用于：

将所述多语种文本样本转换为第一国际音标序列；

第二训练模块，具体还用于：

将所述文本音频对样本中的文本转换为第二国际音标序列；

在一个或多个实施例中，还包括：

输入模块，用于将待处理文本输入所述训练后的语音合成模型，得到所述训练后的语音合成模型输出的合成语音。

相应的，本发明实施例公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音合成的处理方法实施例的各个步骤。

相应的，本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述语音合成的处理方法实施例的各个步骤。

本发明实施例包括以下优点：

基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，然后将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型，再对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，即可得到训练后的语音合成模型。针对低资源语种的TTS场景，由于经过文本模型训练后，第一嵌入层已具有对语种敏感的泛化功能，加上文本样本包括大量的语种，使得训练后的第一嵌入层已经能够学习和捕捉到每个语种的高维信息，在降低训练难度的前提下帮助后续低资源TTS模型捕捉到尽可能多的语种信息，因此，将训练后的第一嵌入层的参数复制至语音合成模型中的第二嵌入层后，即便是少量的文本音频对样本数据，训练后的语音合成模型也可以实现比较好的合成效果。

附图说明

图1是本发明的一种语音合成的处理方法实施例的步骤流程图；

图2是本发明的一种语音合成的处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，针对低资源语种的TTS场景，由于经过文本模型训练后，第一嵌入层已具有对语种敏感的泛化功能，加上文本样本包括大量的语种，使得训练后的第一嵌入层已经能够学习和捕捉到每个语种的高维信息，在降低训练难度的前提下帮助后续低资源TTS模型捕捉到尽可能多的语种信息，因此，将训练后的第一嵌入层的参数复制至语音合成模型中的第二嵌入层后，即便是少量的文本音频对样本数据，训练后的语音合成模型也可以实现比较好的合成效果。

参照图1，示出了本发明的一种语音合成的处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型。

其中，多语种文本样本为多个语种的文本样本。基于多个语种的文本样本对预设的文本模型进行训练，即可得到训练后的文本模型(为便于区分，记为“目标文本模型”)。训练文本模型的作用主要在于对文本模型中的嵌入层进行训练，以使得嵌入层具有对语种敏感的泛化功能，从而能够得到与语种相关的高维信息，进而帮助后续低资源TTS模型捕捉到尽可能多的语种信息。

在本发明实施例中，所述基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，包括：

具体而言，文本模型可以包括三部分：预训练模型、嵌入层(记为“第一嵌入层”)和编码器(记为“第一编码器”)。在训练文本模型时，可以将多语种文本样本和每个语种对应的语种标识输入预训练模型，得到预训练模型输出的结果(记为“第一结果”)。将第一结果输入第一嵌入层(language-aware embedding)，即可得到第一嵌入层输出的结果(记为“第二结果”)。将第二结果输入第一编码器(encoder)，即可得到第一编码器输出的结果(记为“第三结果”)。然后根据第三结果和多语种文本样本计算损失函数(记为“第一损失函数”)，如果第一损失函数没有达到最优，那么就可以通过反向传播对预训练模型、第一嵌入层和第一编码器的参数进行更新，再重复执行上述步骤，直至第一损失函数达到最优，即可得到训练完成的目标文本模型。

其中，将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果，包括：

将所述多语种文本样本转换为第一国际音标序列；

将所述第一国际音标序列和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；其中，所述预训练模型为mBERT。

具体的，在输入多语种文本样本和语种标识时，可以将多语种文本转换为IPA(international phonetic alphabet，国际音标)序列(记为“第一国际音标序列”)，然后将第一国际音标序列和语种标识输入预训练模型，即可得到预训练模型输出的第一结果。

其中，预训练模型可以为mBERT(multilingual BERT)，mBERT是一种预训练的双向Transformer模型，用于处理多语言文本数据，是bert模型的一个变体，使用多种语言数据进行训练。

步骤102，将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型。

在得到训练完成的目标文本模型后，可以将目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的嵌入层(记为“第二嵌入层”)，得到初始的语音合成模型。

步骤103，对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型。

在得到初始语音合成模型后，即可基于预设的文本音频对样本对初始语音合成模型进行训练，在训练时，可以对初始语音合成模型中的第二嵌入层进行冻结，从而得到训练后的语音合成模型；其中，预设的文本音频对样本中包括多个文本音频对。

在本发明实施例中，所述基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型，包括：

具体而言，初始语音合成模型可以包括三部分：第二嵌入层、第二编码器和解码器。在训练初始语音合成模型时，可以将文本音频对样本输入冻结后的第二嵌入层，得到第二嵌入层输出的结果(记为“第四结果”)。将第四结果输入第二编码器，即可得到第二编码器(encoder)输出的结果(记为“第五结果”)。将第五结果输入解码器(decoder)，即可得到解码器输出的梅尔频谱。然后根据梅尔频谱和文本音频对样本中音频对应的谱图计算损失函数(记为“第二损失函数”)，如果第二损失函数没有达到最优，那么就可以通过反向传播对第二编码器和解码器的参数进行更新，再重复执行上述步骤，直至第二损失函数达到最优，即可得到训练完成的语音合成模型。

其中，将所述文本音频对样本输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果，包括：

将所述文本音频对样本中的文本转换为第二国际音标序列；

具体的，在输入文本音频对样本中的文本时，可以将文本转换为IPA序列(记为“第二国际音标序列”)，然后将第二国际音标序列和语种标识输入第二嵌入层，即可得到第二嵌入层输出的第四结果。

在本发明实施例中，在步骤103之后，还可以包括：

具体而言，在得到训练完成的语音合成模型后，可以将待转换的文本输入训练完成的语音合成模型中，从而得到训练后的语音合成模型输出的合成语音。

在本发明实施例中，基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，然后将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型，再对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，即可得到训练后的语音合成模型。针对低资源语种的TTS场景，由于经过文本模型训练后，第一嵌入层已具有对语种敏感的泛化功能，加上文本样本包括大量的语种，使得训练后的第一嵌入层已经能够学习和捕捉到每个语种的高维信息，在降低训练难度的前提下帮助后续低资源TTS模型捕捉到尽可能多的语种信息，因此，将训练后的第一嵌入层的参数复制至语音合成模型中的第二嵌入层后，即便是少量的文本音频对样本数据，训练后的语音合成模型也可以实现比较好的合成效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明的一种语音合成的处理装置实施例的结构框图，具体可以包括如下模块：

第一训练模块201，用于基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型；

复制模块202，用于将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型；

第二训练模块203，用于对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型。

在本发明实施例中，所述第一训练模块，具体用于：

在本发明实施例中，所述第二训练模块，具体用于：

在本发明实施例中，第一训练模块，具体还用于：

将所述多语种文本样本转换为第一国际音标序列；

第二训练模块，具体还用于：

将所述文本音频对样本中的文本转换为第二国际音标序列；

在本发明实施例中，还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音合成的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述语音合成的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音合成的处理方法和一种语音合成的处理装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音合成的处理方法，其特征在于，所述基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，包括：

3.根据权利要求1所述的语音合成的处理方法，其特征在于，所述基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型，包括：

4.根据权利要求2或3所述的语音合成的处理方法，其特征在于，将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果，包括：

将所述多语种文本样本转换为第一国际音标序列；

将所述文本音频对样本中的文本转换为第二国际音标序列；

5.根据权利要求1所述的语音合成的处理方法，其特征在于，还包括：

6.一种语音合成的处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的语音合成的处理装置，其特征在于，所述第一训练模块，具体用于：

8.根据权利要求6所述的语音合成的处理装置，其特征在于，所述第二训练模块，具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1～5中任一项所述语音合成的处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1～5中任一项所述语音合成的处理方法的步骤。