CN113077783B

CN113077783B - 小语种语音语料扩增方法、装置及电子设备和存储介质

Info

Publication number: CN113077783B
Application number: CN202110325580.1A
Authority: CN
Inventors: 白海钏; 杜杨洲
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-07-21
Anticipated expiration: 2041-03-26
Also published as: CN113077783A

Abstract

本申请实施例公开了一种小语种语音语料扩增方法、装置及电子设备和存储介质，将小语种语料库中的语音的频谱特征转换为多个层级的参数，其中至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性，通过对至少一个层级的参数进行调整，得到调整后的多个层级的参数，然后利用调整后的多个层级的参数生成新的频谱特征；基于新的频谱特征生成新语音作为扩增的小语种语音语料。由于对至少部分层级的参数中的任意一个层级的参数进行调整时，仅该任意一个层级的参数对应的声纹属性改变，其它层级的参数对应的声纹属性保持不变，可以实现对小语种语料库中的语音语料进行多样化扩增。

Description

小语种语音语料扩增方法、装置及电子设备和存储介质

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种小语种语音语料扩增方法、装置及电子设备和存储介质。

背景技术

对语音识别(Automatic Speech Recognition,ASR)模型来说，训练数据需要大规模带有文本标注的语音数据。然而，由于语音数据的收集需要耗费大量人力、物力和时间，尤其是小语种数据录制和标注的难度更高。

目前，为了获取训练ASR模型所需的大量的语音数据，通常是对已有的语音数据进行处理(比如，速度扰动、加噪、加混响等)来提升数据量，但这种简单处理得到的数据类型不够丰富，对ASR模型性能的提升有限。

因此，如何快速获得数据类型丰富的语音数据成为亟待解决的技术问题。

发明内容

本申请的目的是提供一种小语种语音语料扩增方法、装置及电子设备和存储介质，包括如下技术方案：

一种小语种语音语料扩增方法，所述方法包括：

获得小语种语料库中的第一语音的第一频谱特征；

对所述第一频谱特征进行处理，得到与所述第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；

对所述多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数；其中，对所述至少部分层级的参数中的任意一个层级的参数进行调整时，所述任意一个层级的参数对应的声纹属性的值改变，所述多个层级的参数中的其它层级的参数对应的声纹属性的值保持不变；

利用所述调整后的多个层级的参数生成第二频谱特征；

基于所述第二频谱特征生成第二语音，对所述第二语音进行存储以获得扩增的小语种语音语料。

上述方法，优选的，对所述第一频谱特征进行处理，得到与所述第一频谱特征对应的多个层级的参数，对所述多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数，利用所述调整后的多个层级的参数生成第二频谱特征，包括：

利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码，得到所述多个层级的参数；

对所述多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数；

利用所述声纹属性解耦表示模型中的解码器对所述调整后的多个层级的参数进行解码，得到所述第二频谱特征。

上述方法，优选的，所述利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码，包括：

将所述第一频谱特征转换为图像；利用所述声纹属性解耦表示模型中的编码模块对所述图像进行编码；

或者，

利用所述声纹属性解耦表示模型中的编码模块直接对所述第一频谱特征进行编码。

上述方法，优选的，所述声纹属性解耦表示模型通过如下方式训练得到：

利用小语种语音数据集对生成式对抗网络进行训练，得到训练好的生成式对抗网络；所述训练好的生成式对抗网络中的生成器用于根据多个层级的参数生成频谱特征；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；

利用所述生成器根据多个样本参数生成多个样本频谱特征；每个样本参数为多个层级的参数，每个样本参数用于生成一个样本频谱特征；

以所述样本频谱特征作为所述编码模块的输入，多个层级的参数作为所述编码模块的输出，所述编码模块输出的多个层级的参数趋近于样本参数为目标对所述编码模块进行预训练，得到预训练的编码模块；

利用所述预训练的编码模块和所述生成器构建声纹属性解耦表示模式，所述预训练的编码模块的输出为所述生成器的输入；所述生成器为所述解码器；

将小语种语音样本的频谱特征输入所述声纹属性解耦表示模型，得到所述声纹属性解耦表示模型输出的所述生成器生成的频谱特征；

以所述声纹属性解耦表示模型输出的所述生成器生成的频谱特征趋近于所述小语种语音样本的频谱特征样本为目标对所述预训练的编码模块的参数进行更新。

上述方法，优选的，所述生成式对抗网络为StyleGAN网络。

上述方法，优选的，不同层级的参数一一对应的不同的声纹属性包括如下几个声纹属性中的至少部分：

年龄、性别、音色、音调、语速。

上述方法，优选的，所述获得小语种语料库中的第一语音的第一频谱特征，包括：

对所述第一语音进行预处理，得到预处理后的语音；

获取所述预处理后的语音的频谱特征作为所述第一频谱特征。

一种小语种语音语料扩增装置，包括：

获得模块，用于获得小语种语料库中的第一语音的第一频谱特征；

参数获取模块，用于对所述第一频谱特征进行处理，得到与所述第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；

调整模块，用于对所述多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数；其中，对所述至少部分层级的参数中的任意一个层级的参数进行调整时，所述任意一个层级的参数对应的声纹属性的值改变，所述多个层级的参数中的其它层级的参数对应的声纹属性的值保持不变；

频谱特征生成模块，用于利用所述调整后的多个层级的参数生成第二频谱特征；

语音生成模块，用于基于所述第二频谱特征生成第二语音，对所述第二语音进行存储以获得扩增的小语种语音语料。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如上任一项所述的小语种语音语料扩增方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的小语种语音语料扩增方法的各个步骤。

通过以上方案可知，本申请提供的一种小语种语音语料扩增方法、装置及电子设备和存储介质，获得小语种语料库中的第一语音的第一频谱特征；对第一频谱特征进行处理，得到与第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；对多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数；其中，对至少部分层级的参数中的任意一个层级的参数进行调整时，任意一个层级的参数对应的声纹属性改变，其它层级的参数对应的声纹属性保持不变；利用调整后的多个层级的参数生成第二频谱特征；基于第二频谱特征生成第二语音，对第二语音进行存储以获得扩增的小语种语音语料。

本申请中，将小语种语料库中的语音的频谱特征转换为多个层级的参数，其中至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性，通过对至少一个层级的参数进行调整，得到调整后的多个层级的参数，然后利用调整后的多个层级的参数生成新的频谱特征；基于新的频谱特征生成新语音作为扩增的小语种语音语料。由于对至少部分层级的参数中的任意一个层级的参数进行调整时，仅该任意一个层级的参数对应的声纹属性改变，其它层级的参数对应的声纹属性保持不变，可以实现对小语种语料库中的语音进行不同声纹属性或声纹属性组合的精确调整，得到多样化的扩增的小语种语音语料。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的小语种语音语料扩增方法的一种实现流程图；

图2为本申请实施例提供的利用声纹属性解耦表示模型中的编码模块对第一频谱特征进行编码的一种实现流程图；

图3为本申请实施例提供的对声纹属性解耦表示模型进行训练的一种实现流程图；

图4为本申请实施例提供的StyleGAN网络中的生成器的结构示意图；

图5为本申请实施例提供的小语种语音语料扩增装置的一种结构示意图；

图6为本申请实施例提供的电子设备的硬件结构框图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的小语种语音语料扩增方法的一种实现流程图如图1所示，可以包括：

步骤S101：获得小语种语料库中的第一语音的频谱特征(为便于叙述，记为第一频谱特征)。

小语种语料库中存储有收集到的若干小语种语音。第一语音可以是小语种语料库种的任意一小语种语音。

第一语音的频谱特征可以包括但不限于以下任意一种：梅尔频谱(Mel BankFeatures)，梅尔频谱倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)，FFT频谱等等。

小语种可以包括但不限于以下任意一种：德语、意大利语、瑞典语、泰语、朝鲜语、越南语、日语等等。本申请实施例中，小语种也可以包括方言，比如，粤语、客家语等。

步骤S102：对第一频谱特征进行处理，得到与第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性。

语音的声纹属性可以包括但不限于以下几种：年龄、性别、音色、音调、语速、情绪、语音内容等等。

为便于叙述，可以将多个层级的参数记为N个层级的参数，N为大于1的正整数，比如，N可以为7、8、9中的任意一个值，当然，这里只是示例性说明，并不构成对本申请的限定，在实际应用中，N还可以取其它值，比如，18层等。

本申请实施例中，N个层级的参数中可以每个层级的参数均一一对应不同的声纹属性，即N个层级的参数中，不同层级的参数对应不同的声纹属性。也就是说，这个N个层级的参数之间均是解耦的，互不影响的。

可选的，N个层级的参数中，也可以仅部分层级的参数(为便于叙述，将部分层级的参数记为M个层级的参数，M小于N)一一对应不同的声纹属性。此时，N个层级的参数中，有N-M个层级的参数中，每个层级的参数对应至少两个声纹属性。即，仅部分层级的参数之间是解耦的，互不影响的。

每个层级的参数对应至少一个声纹属性可以包括：每个层级的参数用于控制至少一个声纹属性的值。对于任意一个层级的参数来说，该层级的参数的改变，会导致其控制的声纹属性的值的改变。比如，某个层级的参数唯一控制性别这一声纹属性，该声纹属性的值包括两种：男生或女生。则该某个层级的参数的改变，会导致该层级的参数控制的性别这一声纹属性的值由男生变为女生或者由女生变为男生。

可选的，不同层级的参数一一对应的不同的声纹属性可以包括如下几个声纹属性中的至少部分：年龄、性别、音色、音调、语速等等。需要说明的是，本申请中的不同层级的参数一一对应的不同的声纹属性并不局限于上述列举的几种声纹属性，还可以包括其它的声纹属性，比如，语音内容等。

步骤S103：对多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数；其中，对至少部分层级的参数中的任意一个层级的参数进行调整时，任意一个层级的参数对应的声纹属性的值改变，多个层级的参数中的其它层级的参数对应的声纹属性的值保持不变。

可以仅对N个层级的参数中的一个层级的参数进行调整，该一个层级的参数可以N个层级的参数中的任意一个层级的参数。如果该一个层级的参数为上述M个层级的参数中的任意一个层级的参数，则对该层级的参数进行调整后，只会改变改层级的参数一一对应的声纹属性的值，其它层级的参数对应的声纹属性的值则保持不变；如果该一个层级的参数为N-M个层级的参数中的任意一个层级的参数，则对该层级的参数进行调整后，会改变该层级对应的至少两个声纹属性的值，而上述M个层级的参数中的各个层级的参数对应的声纹属性得值则保持不变。

可以同时对N个层级的参数中的任意两个或更多个层级的参数进行调整。从而实现对多种声纹属性的组合的调整。

步骤S104：利用调整后的多个层级的参数生成第二频谱特征。

该第二频谱特征与第一频谱特征对应的声纹属性的值不同。

具体生成过程可以参看后续实施例，这里不再详述。

步骤S105：基于第二频谱特征生成第二语音，对第二语音进行存储以获得扩增的小语种语音语料。

可以利用声码器基于第二频谱特征生成第二语音。作为示例，该声码器可以为griffin_lim声码器。当然，本申请实施例种的声码器并不限于此，还可以为其它的声码器，比如，world声码器，straight声码器等。

第二语音与第一语音相比，声纹属性的值不同，具体是哪些声纹属性的值不同，与步骤S103中对哪些层级的参数进行调整有关。比如，假设步骤S103中对第i个层级的参数进行了调整，该第i个层级为上述M个层级中的任意一个层级，与第i个层级的一一对应的声纹属性为性别，则第二语音与第一语音相比，发音人的性别不同，例如，第一语音听起来是男生的声音，而第二语音听起来是女生的声音。

本申请实施例提供的小语种语音语料的扩增方法，将小语种语料库中的语音的频谱特征(即第一频谱特征)转换为多个层级的参数，其中至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性，通过对至少一个层级的参数进行调整，得到调整后的多个层级的参数，然后利用调整后的多个层级的参数生成新的频谱特征(即第二频谱特征)；基于新的频谱特征生成新语音作为扩增的小语种语音语料。由于对至少部分层级的参数中的任意一个层级的参数进行调整时，仅该任意一个层级的参数对应的声纹属性改变，其它层级的参数对应的声纹属性保持不变，因此，基于本申请的方案，可以实现对小语种语料库中的语音进行不同声纹属性或声纹属性组合的精确调整，得到多样化的扩增的小语种语音语料。提高了托增的小语种语音语料的多样化。

在一可选的实施例中，上述对所述第一频谱特征进行处理，得到与所述第一频谱特征对应的多个层级的参数，对所述多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数，利用所述调整后的多个层级的参数生成第二频谱特征的过程可以由预先训练好的声纹属性解耦表示模型实现，具体可以包括：

利用声纹属性解耦表示模型中的编码模块对第一频谱特征进行编码，得到上述多个层级的参数。

利用声纹属性解耦表示模型中的调整模块对多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数。

为了提高语料扩增速度，可以将N个层级的参数复制C-1次，得到C组N个层级的参数，对不同组的N个层级的参数进行不同层级的参数的调整，每组N个层级的参数可以对至少一个层级的参数进行调整，从而得到C组调整后的N个层级的参数。

作为可选的实施例，对多个层级的参数中的至少一个层级的参数进行调整的过程可以不由声纹属性解耦表示模型实现，而是由相关人员手动进行调整，此时，可以由声纹属性解耦表示模型输出交互界面，显示多个层级的参数，由相关人员在交互界面选择至少一个层级的参数进行调整，或者，由相关人员选择复制的次数，得到多组多个层级的参数，然后对不同组的多个层级的参数进行不同层级的参数的调整。

利用声纹属性解耦表示模型中的解码器对调整后的多个层级的参数进行解码，得到第二频谱特征。

对应每一组调整后的多个层级的参数，利用解码器对该组调整后的多个层级的参数进行解码，得到该组调整后的多个层级的参数对应的频谱特征。由于对不同组的多个层级的参数进行不同层级的参数的调整，因此，利用解码器对不同组的调整后的多个层级的参数进行解码得到的频谱特征是不同的。

对于解码得到的每一频谱特征，可以将该频谱特征转换成语音，对于解码得到的不同频谱特征，转换得到的语音的声纹属性是不同的。

在一可选的实施例中，在一可选的实施例中，上述声纹属性解耦表示模型可以为用于对图像进行处理的网络模型，基于此，上述利用声纹属性解耦表示模型中的编码模块对第一频谱特征进行编码的一种实现流程图如图2所示，可以包括：

步骤S201：将第一频谱特征转换为图像。

频谱特征通常是以矩阵的形式进行存储，可以将矩阵形式的频谱特征进行0～255的归一化，从而得到图像。具体的，可以对矩阵形式的频谱特征进行初始归一化，得到使得初始归一化的矩阵，其中，初始归一化的矩阵中的各个元素的值在0～1之间，然后将归一化的矩阵乘以255，得到图像，该图像为灰度图。也就是说，本申请先将矩阵形式的频谱特征进行0～1的归一化，然后，将归一化的矩阵乘以255得到灰度图。

可选的，可以将矩阵形式的频谱特征中的各个元素除以矩阵中的最大元素，从而实现对矩阵进行0～1的归一化。或者，可以将矩阵形式的频谱特征中的各个元素除以矩阵中的所有元素之和，从而实现对矩阵进行0～1的归一化。

步骤S202：利用声纹属性解耦表示模型中的编码模块对步骤S201中得到的图像进行编码。

通过将频谱特征转换为图像，可以直接将用于图像处理的解耦表示模型用于语音的处理，从而减少开发人员用于声纹属性解耦表示模型的开发上的工作量。

在另一可选的实施例中，上述利用声纹属性解耦表示模型中的编码模块对第一频谱特征进行编码的一种实现方式可以为：

利用声纹属性解耦表示模型中的编码模块直接对第一频谱特征进行编码。

本申请实施例中，可以直接开发用于对语音进行处理的模型，或者，可以对用于图像处理的解耦表示模型进行改进，以适应矩阵的运算，从而无需将频谱特征转换为图像即可实现对第一频谱特征的编码。

在一可选的实施例中，对上述声纹属性解耦表示模型进行训练的一种实现流程图如图3所示，可以包括：

步骤S301：利用小语种语音数据集对生成式对抗网络(Generative AdversarialNetworks，GANs)进行训练，得到训练好的生成式对抗网络；训练好的生成式对抗网络中的生成器用于根据多个层级的参数生成频谱特征；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性。

小语种语音数据集中存储的是小语种语音，在训练生成式对抗网络时，需要将小语种语音转换为频谱特征集，将频谱特征集作为训练集对生成式对抗网络进行训练。

生成式对抗网络包括生成器(generator)和辨别器(discriminator)，对生成式对抗网络进行训练的过程是对生成式对抗网络中的生成器和辨别器进行交替训练的过程，具体实现方式可以参考已有的方案，由于其不是本申请的重点，这里不再详述。

可选的，生成式对抗网络可以为StyleGAN网络。如图4所示，为本申请实施例提供的对生成式对抗网络进行训练过程中，StyleGAN网络中的生成器(即图中的Synthesisnetwork网络和仿射变换A)的结构示意图，该示意图中，w∈W表示多个层级的参数，通常为一个矩阵，该多个层级的参数由Mapping网络(8层全连接层FC)对随机噪声向量(即图中的Latentz∈Z，最好符合常见的分布，一般的数据分布都呈现常见分布规律)进行变换得到。生成器将w中的不同的层级的参数通过仿射变换A输入到生成器的不同分辨率的网络层(比如，图4中4×4的网络层，8×8的网络层等等)，每个分辨率层级的网络层对应至少一个声纹属性，Synthesis network网络最后输出的是生成的频谱特征。由于每个网络层对应两个仿射变换A，每个仿射变换A对应矩阵w中的一行，因此，矩阵w中的每两行为一个层级的参数。仿射变换的参数是通过训练得到的。

步骤S302：利用生成器根据多个样本参数生成多个样本频谱特征；每个样本参数为多个层级的参数，每个样本参数用于生成一个样本频谱特征。

其中，多个样本参数中的每个样本参数可以由上述Mapping网络对一个随机噪声向量进行变换得到，不同的样本参数由上述Mapping网络对不同的随机噪声向量进行变换得到。对于每一个样本参数，通过生成器对该样本参数进行处理，得到该样本参数对应的频谱特征，记为样本频谱特征。

步骤S303：以样本频谱特征作为编码模块的输入，多个层级的参数作为编码模块的输出，编码模块输出的多个层级的参数趋近于样本参数为目标对编码模块进行预训练，得到预训练的编码模块。

也就是说，本申请并不是对编码模块的参数进行随机初始化，而是利用由随机噪声向量得到的样本参数和对应的频谱特征为训练样本对编码模块进行预训练，实现对编码模块的初始化，从而可以提高对编码模块训练的准确率和训练效率。

步骤S304：利用预训练的编码模块和生成器构建声纹属性解耦表示模式，预训练的编码模块的输出端连接生成器的输入端，声纹属性解耦表示模型的输入端为编码模块的输入端，声纹属性解耦表示模型的输出端为生成器的输出端；其中，生成器即为解码器，也就说，本申请实施例中，将训练好的生成器作为解码器。

步骤S305：将小语种语音样本的频谱特征输入声纹属性解耦表示模型，得到声纹属性解耦表示模型输出的生成器生成的频谱特征。

小语种语音样本可以为上述小语种语料库中的小语种语音语料，或者，可以是上述小语种语音数据集中的小语种语音数据，上述小语种语料库和小语种语音数据集可以是同一语料库，也可以是不同的语料库。

步骤S306：以声纹属性解耦表示模型输出的生成器生成的频谱特征趋近于频谱特征样本为目标对预训练的编码模块的参数进行更新。

在对编码模块进行训练的过程中，只对编码模块的参数进行更新，而生成器的参数保持不变，不再更新。

可选的，可以计算声纹属性解耦表示模型输出的生成器生成的频谱特征与频谱特征样本的L2-loss，采用梯度下降法反馈调节编码模块的参数。具体可，可以通过第一VGG16网络提取声纹属性解耦表示模型输出的生成器生成的频谱特征的语义特征矢量(为便于叙述，记为第一语义特征矢量)，通过第二VGG16网络提取频谱特征样本的语义特征矢量(为便于叙述，记为第二语义特征矢量)，计算第一语义特征矢量和第二语义特征矢量的L2-loss，然后采用梯度下降法反馈调节编码模块的参数。

在一可选的实施例中，上述获得小语种语料库中的第一语音的第一频谱特征的一种实现方式可以为：

对第一语音进行预处理，得到预处理后的语音。上述预处理可以至少包括但不限于以下至少一种：预加重、低通滤波、去静音段、归一化中的至少一项。

归一化可以包括但不限于以下任意一种：方差归一化、最大最小归一化。

可选的，可以使用声码器对第一语音进行预处理。作为示例，该声码器可以为griffin_lim声码器。当然，本申请实施例种的声码器并不限于此，还可以为其它的声码器，比如，world声码器，straight声码器等。

获取预处理后的语音的频谱特征作为第一频谱特征。

在一可选的实施例中，除了可以将第二语音作为扩增的小语种语音语料外，还可以对第二语音进行加噪处理，得到第三语音，将第三语音也作为扩增的小语种语音语料。

或者，

可以对第二语音进行加混响处理，得到第三语音，将第三语音也作为扩增的小语种语音语料。

或者，

可以对第二语音进行加噪和加混响处理，得到第三语音，将第三语音也作为扩增的小语种语音语料。

与方法实施例相对应，本申请实施例还提供一种小语种语音语料扩增装置，本申请实施例提供的小语种语音语料扩增装置的一种结构示意图如图5所示，可以包括：

获得模块501，参数获取模块502，调整模块503，频谱特征生成模块504和语音生成模块505；其中，

获得模块501用于获得小语种语料库中的第一语音的第一频谱特征；

参数获取模块502用于对所述第一频谱特征进行处理，得到与所述第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；

调整模块503用于对所述多个层级的参数中的至少一个层级的参数进行调整，得到调整后的多个层级的参数；其中，对所述至少部分层级的参数中的任意一个层级的参数进行调整时，所述任意一个层级的参数对应的声纹属性的值改变，所述多个层级的参数中的其它层级的参数对应的声纹属性的值保持不变；

频谱特征生成模块504用于利用所述调整后的多个层级的参数生成第二频谱特征；

语音生成模块505用于基于所述第二频谱特征生成第二语音，对所述第二语音进行存储以获得扩增的小语种语音语料。

本申请实施例提供的小语种语音语料扩增装置，将小语种语料库中的语音的频谱特征(即第一频谱特征)转换为多个层级的参数，其中至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性，通过对至少一个层级的参数进行调整，得到调整后的多个层级的参数，然后利用调整后的多个层级的参数生成新的频谱特征(即第二频谱特征)；基于新的频谱特征生成新语音作为扩增的小语种语音语料。由于对至少部分层级的参数中的任意一个层级的参数进行调整时，仅该任意一个层级的参数对应的声纹属性改变，其它层级的参数对应的声纹属性保持不变，因此，基于本申请的方案，可以实现对小语种语料库中的语音进行不同声纹属性或声纹属性组合的精确调整，得到多样化的扩增的小语种语音语料。提高了托增的小语种语音语料的多样化。

在一可选的实施例中，参数获取模块502用于利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码，得到所述多个层级的参数；

频谱特征生成模块504用于利用所述声纹属性解耦表示模型中的解码器对所述调整后的多个层级的参数进行解码，得到所述第二频谱特征。

在一可选的实施例中，参数获取模块502利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码时，用于：

或者，

在一可选的实施例中，还包括训练模块，用于：

在一可选的实施例中，所述生成式对抗网络为StyleGAN网络。

在一可选的实施例中，不同层级的参数一一对应的不同的声纹属性包括如下几个声纹属性中的至少部分：

年龄、性别、音色、音调、语速。

在一可选的实施例中，所述获得模块501具体用于：

对所述第一语音进行预处理，得到预处理后的语音；

在一可选的实施例中，还包括：

加噪/加混响模块，用于对所述第二语音进行加噪和/或加混响处理，得到第三语音，对所述第三语音进行存储以获得扩增的小语种语音语料。

与方法实施例相对应，本申请还提供一种电子设备，如终端、服务器等。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑等移动端，也可以是台式计算机等，但并不局限于此。在一些实施例中，上述终端或服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

本申请实施例提供的电子设备的硬件结构框图的示例图如图6所示，可以包括：

处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器1具体用于执行存储器3中存储的计算机程序，以执行如下步骤：

获得小语种语料库中的第一语音的第一频谱特征；

利用所述调整后的多个层级的参数生成第二频谱特征；

可选的，所述计算机程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该存储介质可存储有适于处理器执行的计算机程序，所述计算机程序用于：

获得小语种语料库中的第一语音的第一频谱特征；

利用所述调整后的多个层级的参数生成第二频谱特征；

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种小语种语音语料扩增方法，所述方法包括：

获得小语种语料库中的第一语音的第一频谱特征；

利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码，得到与所述第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；

利用所述声纹属性解耦表示模型中的解码器对所述调整后的多个层级的参数进行解码，得到第二频谱特征；

2.根据权利要求1所述的方法，所述利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码，包括：

或者，

3.根据权利要求1所述的方法，所述声纹属性解耦表示模型通过如下方式训练得到：

4.根据权利要求3所述的方法，所述生成式对抗网络为StyleGAN网络。

5.根据权利要求1所述的方法，不同层级的参数一一对应的不同的声纹属性包括如下几个声纹属性中的至少部分：

年龄、性别、音色、音调、语速。

6.根据权利要求1所述的方法，所述获得小语种语料库中的第一语音的第一频谱特征，包括：

对所述第一语音进行预处理，得到预处理后的语音；

7.一种小语种语音语料扩增装置，包括：

参数获取模块，用于利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码，得到与所述第一频谱特征对应的多个层级的参数；其中，每个层级的参数对应至少一个声纹属性，至少部分层级的参数中，不同层级的参数一一对应不同的声纹属性；

频谱特征生成模块，用于利用所述声纹属性解耦表示模型中的解码器对所述调整后的多个层级的参数进行解码，得到第二频谱特征；

8.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如权利要求1-6中任一项所述的小语种语音语料扩增方法的各个步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-6中任一项所述的小语种语音语料扩增方法的各个步骤。