CN111863003A

CN111863003A - 语音数据增强方法和装置

Info

Publication number: CN111863003A
Application number: CN202010721984.8A
Authority: CN
Inventors: 钱彦旻; 龚勋; 陈正阳; 杨叶新; 王帅
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-30
Anticipated expiration: 2040-07-24
Also published as: CN111863003B

Abstract

本发明公开语音数据增强方法和装置，其中，一种语音数据增强方法，包括：语音数据增强方法，包括：将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；获取所述嵌入提取器输出的干净嵌入和噪声嵌入；计算所述干净嵌入和所述噪声嵌入之间的差值；对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。本申请实施例通过仅使用少量训练数据就可以可靠地估计所提议的NDM，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。NDM训练结果能够达到和传统增强方法相媲美的效果，甚至有时候可以超越传统方法。

Description

语音数据增强方法和装置

技术领域

本发明属于语音数据增强领域，尤其涉及语音数据增强方法和装置。

背景技术

相关技术中，实验室已经有在GAN和VAE技术基础上进行的数据增强技术。

数据增强(DA)是帮助构建具有良好泛化能力的说话人识别系统的一种有效策略。在基于说话人特征的说话者验证中，数据增强可以应用于前端特征提取器或后端PLDA打分。传统后端数据增强在于通过已有的特征数据，通过GAN、VAE等生成模型生成相关数据，用以增强 PLDA的鲁棒性。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：训练较为复杂，参数较多，实际应用时需要的资源较多。

发明内容

本发明实施例提供一种语音数据增强方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音数据增强方法，包括：将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；获取所述嵌入提取器输出的干净嵌入和噪声嵌入；计算所述干净嵌入和所述噪声嵌入之间的差值；以及对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

第二方面，本发明实施例提供一种语音数据增强装置，包括：嵌入提取模块，配置为将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；获取模块，配置为获取所述嵌入提取器输出的干净嵌入和噪声嵌入；计算模块，配置为计算所述干净嵌入和所述噪声嵌入之间的差值；以及分布拟合模块，配置为对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音数据增强方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音数据增强方法的步骤。

本申请的方法和装置提供的方案通过仅使用少量训练数据就可以可靠地估计所提议的NDM(基于噪声分布匹配，Noise Distribution Matching)，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。NDM训练结果能够达到和传统增强方法相媲美的效果，甚至有时候可以超越传统方法

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音数据增强方法的流程图；

图2为本发明一实施例提供的基于NDM的嵌入增强流程图；

图3为本发明一实施例提供的NDM估计中使用的不同训练数据大小的性能比较；

图4为5个说话人的手动模式(暗点)和NDM(亮点)生成的“嘈杂”嵌入的T-SNE可视化；

图5为本发明一实施例提供的一种语音数据增强装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音数据增强方法的一实施例的流程图，本实施例的语音数据增强方法可以适用于对语音数据进行增强，本申请在此没有限制。

如图1所示，在步骤101中，将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；

在步骤102中，获取所述嵌入提取器输出的干净嵌入和噪声嵌入；

在步骤103中，计算所述干净嵌入和所述噪声嵌入之间的差值；

在步骤104中，对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

本实施例的方法通过仅使用少量训练数据就可以可靠地估计所提议的NDM，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。NDM训练结果能够达到和传统增强方法相媲美的效果，甚至有时候可以超越传统方法。

在一些可选的实施例中，所述嵌入提取器包括x-向量嵌入提取器和 r-向量嵌入提取器。

在一些可选的实施例中，所述嵌入提取器包括采用以下方法提取嵌入：将所述原始干净音频和所述带噪音频的声学特征经过帧级别层获取帧级别的深层特征；将所述帧级别的深层特征经过统计池层聚合为段级别特征。

在进一步可选的实施例中，所述计算所述干净嵌入和所述噪声嵌入之间的差值包括：采用逐元素减法运算来计算成对的所述干净嵌入和所述噪声嵌入之间的差值，所述差值用于估计残留噪声项的分布。

在一些可选的实施例中，所述噪声分布拟合包括高斯分布拟合。

在一些可选的实施例中，所述高斯分布拟合的公式为：

其中，N表示高斯分布密度函数，σ表示标准差，π表示圆周率，μ表示均值，x表示变量，e表示自然对数。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，相关技术中存在的技术问题主要是由于GAN和VAE等深度学习模型的限制导致的。

本领域的技术人员，一般要解决上述问题，通常采用传统的数据增强方法，用实际噪音叠加或者生成模型生成虚拟噪音。但是不容易发现噪音本身是存在一定规律的。

在本申请实施例中，我们提出了一种在说话人嵌入空间中基于噪声分布匹配(NDM，Noise Distribution Matching)的算法。基本思想是使用诸如高斯的分布来模拟干净的和原始的增强型噪声说话人嵌入之间的差异。我们在SRE16数据集上进行了实验，并且发现使用新型NDM可以获得一致的性能改进。此外，我们发现，仅使用少量训练数据就可以可靠地估计所提议的NDM，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。

发明人在实现本申请的过程中，还尝试过使用各种分布拟合，最后发现高斯分布最合适。其他分布虽然也可以优化相关结果，但是效果不如高斯拟合更好。

本申请实施例的方案至少能实现以下效果之一：(1)仅使用少量训练数据就可以可靠地估计所提议的NDM，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。(2)NDM训练结果能够达到和传统增强方法相媲美的效果，甚至有时候可以超越传统方法。

以下介绍发明人的实现本申请实施例的过程，以及在该过程中的一些实验过程及相应的实验数据，以使本领域技术人员更好地理解本申请的技术方案。

数据增强(DA)是帮助构建具有良好泛化能力的说话人识别系统的一种有效策略。在基于说话人特征的说话者验证中，数据增强可以应用于前端特征提取器或后端PLDA打分。与传统后端的数据增强方法不同，我们基于在原始音频加噪声的数据，提取带噪的嵌入向量，并基于此给出在这个嵌入空间内的噪声分布匹配(NDM)算法。基本思想是使用诸如高斯的分布来模拟干净的和原始的增强型噪声扬声器嵌入之间的差异。我们在SRE16数据集上进行了实验，并且发现使用新型NDM可以获得一致的性能改进。此外，我们发现，仅使用少量训练数据就可以可靠地估计所提议的NDM，与传统的增强方法相比，NDM方法可以节省时间和磁盘成本。

说话者验证(SV)的目的是根据用户的语音片段来验证其所声明的身份。最近，基于深度神经网络(DNN)的说话人嵌入学习提高了说话人验证任务的性能，并成为占主导地位的方法。研究人员研究了不同的体系结构，不同的损失函数和不同的模型补偿方法，以进一步提高系统的性能。当前，相比于传统方法(例如i-向量和d-向量)，作为现在的主流方法的x-向量显示出更大的优势。x-向量或r-向量背后的关键思想是训练阶段的段级优化，这与评估阶段是一致的。一个典型的基于说话人嵌入向量的SV系统由两部分组成：我们从中提取说话人嵌入向量的提取器和做出最终决定的计分后端。在大多数情况下，我们使用概率线性判别分析(PLDA)作为评分后端。

尽管由于深入的说话人嵌入学习而使SV研究取得了长足的进步，但为实际应用构建可用的SV系统仍然面临挑战。第一个挑战是缺乏数据。为了以监督的方式有效地训练深度模型，需要大量的标记数据，但并非总是可用。第二个挑战是环境可能非常复杂，其中各种噪声很容易破坏语音。数据增强(DA)是一种应对两种挑战的普遍方法。DA的基本思想是增加训练数据的数量和多样性，以便我们可以训练出具有更强泛化能力的更强大的系统。如果有的话，在目标应用场景中使用噪声来扩充数据也将非常有效。

在说话人嵌入学习方面，可以将数据增强应用于前端嵌入提取器[4] 或后端PLDA。对于前端增强，我们通常手动将噪声或混响添加到干净的音频中以生成增强版本，该增强版本将进一步用于训练说话人嵌入提取器。对于为PLDA训练准备数据的后端增强[4]，常规方法是从增强音频中提取噪声嵌入。在我们之前的工作中[16，17]，深度生成模型(例如生成对抗(GAN)[18]和变分自动编码器(VAE)[19])用于描述嘈杂的说话人嵌入的分布，从而直接增加了说话人的声音后端PLDA的嵌入。

在这项工作中，我们没有使用复杂的深度生成模型来学习噪声嵌入的分布，而是提出了另一种简单但有效的后端增强方法，即噪声分布匹配(NDM)。在提出的NDM增强策略中，我们假设干净嵌入和有噪嵌入之间的差异(纯噪声部分)可以通过简单的分布(例如高斯分布)建模。在估计了噪声分布的参数后，我们对分布中的噪声进行采样，然后将其直接添加到干净的嵌入中以生成一个有噪声的嵌入。在SRE16[20] 数据集上进行的实验表明，尽管它很简单，但是与没有PLDA增强的基线相比，我们提出的基于NDM的后端增强方法可以实现令人印象深刻的改进，并且优于传统的手动增强方法。此外，我们表明可以使用少量训练数据来可靠地估算NDM，从而节省时间和磁盘。

2.基于嵌入的说话者验证

在本节中，我们将简要介绍基于嵌入的说话人验证。将介绍两种不同的前端嵌入以及后端PLDA模型。

2.1前端嵌入

2.1.1X向量

在x向量框架中，对时延神经网络(TDNN)进行了训练，以区分训练集中的不同说话者。声学特征首先经过几个帧级别的层，然后采用统计池层将帧级别的深层特征聚合为段级别的表示形式。可以将一个或多个嵌入层合并到段级层中以提取说话者嵌入，更多详细信息可以在[4]中引用。

2.1.2向量

除了TDNN架构，ResNet还为说话人嵌入向量的学习展示了令人印象深刻的成果。与TDNN中使用的1D卷积不同，ResNet采用2D卷积作为主要计算范例。按照现有技术中的术语，我们将从ResNet中提取的嵌入表示为r-vector。关于该模型的更多细节可以在相关技术中找到。

2.2后端PLDA

概率线性判别分析(PLDA)是基于嵌入的说话者验证的流行评分后端。PLDA模型假定嵌入是根据概率模型生成的，其中可以针对给定记录计算目标和非目标假设的对数似然比作为得分。在SRE16评估条件下，为了利用提供的未标记域内数据，使用在Kaldi中实现的简单无监督 PLDA自适应方法。基本思想是从目标域中获取未标记的嵌入，并使用它们的均值和方差来适应PLDA矩阵，有关实现的详细信息，请参阅Kaldi 中的“ivector-adapt-plda.cc”。

3.通过噪声分布匹配嵌入增强

如第二节所述。如图2所示，用于说话人嵌入学习的增强可以应用于前端提取器或后端PLDA。传统的前端数据增强方法是向原始音频手动添加噪声或混响。例如，在用于说话人验证的Kaldi中，来自MUSAN数据集的噪声被添加到原始音频中以生成损坏的版本，并且两个数据被汇集在一起以进行说话人嵌入提取器训练。对于后端增强，最简单的方法是从增强的音频中提取嘈杂的嵌入。在我们之前的工作中，我们研究了使用深度生成模型来学习噪声嵌入的分布，并从学习的分布中直接生成样本新的说话者嵌入。在这项工作中，我们假设不直接对噪声嵌入的分布进行建模，而是假设带噪声的说话人嵌入e_noisy(从增强音频中提取)可以分解为干净的说话人嵌入e_clean(从原始音频中提取)和残留噪声e_noise，其中

表示一种组合运算。

在此假设的基础上，我们引入了一种基于噪声分布匹配(NDM)的后端增强方法，该方法旨在直接学习一种分布来对成对的e_clean和 enoisy之间的差异进行建模，即噪声项enoise。基于NDM的后端增强流水线如图2所示。我们首先分别从原始音频和增强音频中提取并行的“干净”和“噪声”嵌入。然后，通过简单的逐元素减法运算来计算成对的嵌入之间的差，该差将用于估计残留噪声项的分布。在这里，我们尝试了几种常见的分布，将在3.1节中进行讨论。在估计了噪声的分布之后，我们可以通过简单地从估计的分布中采样噪声嵌入并将其添加到 e_clean来直接生成“噪声”嵌入。

图2：基于NDM的嵌入增强

3.1噪音分布

为了以一种优雅的方式实施NDM，我们假设噪声项噪声的不同维度是i.i.d(独立且分布均匀)，因此我们可以专注于每个维度。

2.可以通过简单的分布(例如单变量高斯模型)来建模每个维度。

在提出的NDM框架中，研究了三种不同的分布：均匀分布(等式 2)，拉普拉斯(指数，等式3)和高斯分布(正态，等式4)。我们将首先验证每种分布所实现的性能，然后选择最佳的分布进行进一步的实验。

u＝μ(a＜x＜b) (2)

其中，等式左侧：概率密度分布函数，右侧：x：随机变量。

(2)式中：a,b为左右边界；(3)式中：μ为均值，b为标准差； (4)N表示高斯分布密度函数，σ表示标准差，π表示圆周率，μ表示均值，x表示变量，e表示自然对数。

3.2估算

分布参数的估计遵循标准的最大似然估计(MLE)，因此不会重复。这是此估计的训练数据的更多详细信息。如上所述，如图2所示，噪声的噪声分布取决于添加到原始音频中的原始噪声。在我们的实验中，我们遵循Kaldi中的标准手动增强方法，其中考虑了四种不同的噪声类型。我们可以将所有四种类型的噪声汇总在一起并估计一个总分布，也可以独立对待每种噪声类型并估计每个噪声的分布。考虑到所选分布的简单性，后一种策略更为合理，并且在我们的实验中确实优于前一种 (第5.1节)。因此，我们能够独立地对每种噪声类型进行建模。

在为NDM估计准备并行嵌入时，尽管我们可以在原始音频中添加噪声并为所有音频提取相应的噪声嵌入，但是添加噪声和提取噪声嵌入的过程可能会花费大量磁盘和时间。有趣的是，当我们仅使用整个数据集的一小部分时，我们对于这样是否仍然可以进行可靠的估计进行研究，相关的实验和分析可以在5.3节中找到。我们发现，仅使用少于10％的训练数据，新提出的噪声分布匹配方法仍可以保持良好的性能，这是提出的NDM的另一大优势。

4.实验装置

4.1。数据集

为了进行训练，按照[16]中的设置，使用SWBD部分和SRE部分。 SWBD部分由Switchboard-phases 2,3和Switchboard-Cellular 1,2组成，而SRE部分包含NIST SRE2004-2010。为了进行评估，使用了标准的 SRE16评估集，该评估集由他加禄语和粤语会话性电话语音组成。提供了未标记的开发集(SRE16专业)，用于无监督的PLDA提升。

说话者嵌入提取器在SWBD和SRE部分上都经过训练，而PLDA训练和基于NDM的嵌入增强仅在SRE部分上进行。在训练提取器时，会过滤掉讲话量少的说话者，从而形成了3419个说话者的训练列表。在我们的实验中，数据准备遵循具有两种不同设置的Kaldi公式：1)使用40 维Fbank代替MFCC。2)除了增强型提取器，我们还包括了仅在原始音频上进行训练的纯净版本。

4.2系统配置

4.2.1嵌入提取器

·x向量：我们使用标准的x向量框架，该框架包括5个帧级时间延迟层，一个统计池层和2个段级嵌入层。从第一嵌入层提取说话者嵌入，并将维度设置为512。

·r-向量：这项工作采用相关技术中描述的相同结构，它是一个34层的ResNet，并且r-向量的维数设置为256。

两种模型均使用SGD进行了优化，其动量设置为1e-4。最初将学习率设置为0.1，然后逐渐降低为1e-6。

4.2.2计分策略

采用标准的Kaldi SRE16评分策略[22]。首先应用LDA分别将说话人嵌入的x向量、r向量的尺寸减少到150和128个维度。PLDA被用作评分后端。我们使用50644干净的嵌入向量对PLDA进行了训练。当我们增加PLDA的训练集时，又添加了50644个“嘈杂”嵌入。此外，第2.2节中提到的无监督PLDA适应用于补偿域失配。

5.结果与分析

5.1噪声分布匹配的分布选择

在本节中，我们将探讨不同分布函数对估计噪声的影响。将研究3.1 节中介绍的三种分布。作为验证实验，我们选择了基本设置，即经过原始音频训练的干净提取器。增强音频不用于提取器训练，而仅用于有噪声的嵌入提取。遵循第3节中描述的NDM方法，我们估计噪声分布并从中采样噪声项以嵌入增强。表中列出了通过不同分布类型获得的结果。

表1：使用不同分布函数进行噪声分布匹配的性能(EER[％])比较。

如表1所示，建议的使用均匀分布和正态分布的NDM都可以得到明显的改善，并且正态分布实现了最佳性能，将在以下实验中用于噪声建模。

5.2NDM在SRE16测试集上的结果

由于拟议的NDM是一种后端增强方法，因此我们想研究使用/不使用常规前端增强方法的有效性。

5.2.1没有前端扩充的结果

在本节中，我们使用原始音频数据训练了嵌入提取器。扩充仅适用于用于训练后端PLDA的嵌入。结果显示在表2的上部。对于PLDA增强，“Manual”表示从增强音频中提取噪声嵌入的常规方法。“NDM”表示我们提出的以高斯为噪声分布的方法，而“Combine”表示将“手动”和 NDM生成的嵌入(每个的一半)合并起来。在所有扩充方法中，干净的嵌入始终会与扩充的嵌入结合使用，并且合并的嵌入的总量保持相同，以便进行公平比较。

结果表明，与不使用PLDA增强的基准系统相比，手动方法和建议的基于NDM的后端增强方法都可以实现显着的性能改进。使用EER作为评估指标时，NDM在所有测试用例上都超过了手动扩充方法。值得注意的是，当我们结合两种扩增方法生成的嵌入时，在大多数情况下，性能可能会进一步提高。

5.2.2前端增强的结果

在这里，我们通过按照Kaldi手动添加噪声，使用增强数据训练了嵌入提取器。使用与第5.2.1节中相同的后端增强方法。结果显示在表2的底部，在这里我们可以发现所有系统在没有前端增强的情况下都优于其他系统。因此，前端提取器和后端PLDA上的扩充都很重要，并且可以相互补充。通过结合使用这两种方法，可以进一步促进各个阶段获得的性能改进。在增强提取器的基础上，我们提出的NDM仍然优于手动方法，并且组合模式导致了进一步的改进，这与5.2.1节中的发现是一致的。

表2：针对SRE16上不同模型(具有PLDA适应性)的不同数据增强方法的性能比较。最佳和次佳结果标记为粗体或带下划线。

其中，EER：equal error rate等错误率；

MinCprimary：一个标准量度，详见

https://www.nist.gov/system/files/documents/2018/08/17/sre18_eval_plan_201 8-05-31_v6.pdf

Tagalog表示他加禄语，cantonese表示广东话；

Augmentation：数据增强方式；

Extractor：前端解释器；

PLDA：PLDA打分后端；

TDNN/Resnet：两种模型。

5.3评估数据大小以进行分布估计

如第3.2节所述，如果我们可以将少量数据用于NDM估算，将更具吸引力。我们选择了最佳系统，即带有前端增强功能的r-向量进行说明。具有不同数量训练数据的NDM结果如图2所示。

图2中显示的结果表明NDM估计对于训练数据的大小是鲁棒的，这意味着我们只能准备少量训练数据来估计良好的噪声分布，这可以节省时间和磁盘。

图3：NDM估计中使用的不同训练数据大小的性能比较。绿点表示在我们的实验中使用的全部训练数据的比率，对应于x轴上的0.05、 0.1、0.2、0.25、0.5、0.75、1.0。

5.4NDM生成的嵌入的可视化

为了更好地理解这种噪声分布匹配方法，使用t-SNE可视化将我们提出的方法的实际“噪声”嵌入样本和生成的“噪声”嵌入样本，并绘制在图 3中。

该图显示，生成的“噪声”嵌入在很大程度上保留了说话人的身份，这对于受过监督的受过培训的PLDA至关重要。此外，真实的“有噪声”嵌入样本和生成的“有噪声”嵌入样本遵循相似的分布，这表明我们新提出的NDM方法可以有效地捕获由添加到原始音频中的噪声引起的偏移。

图4：5个说话人的手动模式(暗点)和NDM(亮点)生成的“嘈杂”嵌入的T-SNE可视化。颜色相同的点来自同一说话人。

6结论

在本文中，我们提出了一种新的基于嵌入的说话人验证的后端嵌入增强方法，称为噪声分布匹配(NDM)。NDM不会在原始音频中添加噪声，然后再提取增强的嵌入，而是先估计高斯分布，以建模干净的和原始的增强型噪声说话人嵌入之间的差异，然后通过将从估计的分布采样的噪声添加到原始噪声中，生成新的噪声嵌入。干净的说话人嵌入物。在SRE16上进行的实验表明，与传统的手动后端增强方法相比，新型NDM具有更好的效果。我们的最佳系统在他加禄语和粤语评估集中的 EER分别达到9.89％和2.80％。此外，我们表明，即使只使用少量训练数据，NDM仍可以准确估计并保持良好的性能，从而可以节省时间和磁盘。

请参考图5，其示出了本发明一实施例提供的一种语音数据增强装置的框图。

如图5所示，语音数据增强装置300，包括嵌入提取模块510、获取模块520、计算模块530和分布拟合模块540。

其中，嵌入提取模块510，配置为将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；获取模块520，配置为获取所述嵌入提取器输出的干净嵌入和噪声嵌入；计算模块530，配置为计算所述干净嵌入和所述噪声嵌入之间的差值；以及分布拟合模块540，配置为对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

应当理解，图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如接收模块可以描述为接收语音识别请求的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音数据增强方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

语音数据增强方法，包括：

将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；

获取所述嵌入提取器输出的干净嵌入和噪声嵌入；

计算所述干净嵌入和所述噪声嵌入之间的差值；

对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音数据增强装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音数据增强装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音数据增强方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。语音数据增强方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620 为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音数据增强方法。输入装置630可接收输入的数字或字符信息，以及产生与语音数据增强装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音数据增强装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

语音数据增强方法，包括：

获取所述嵌入提取器输出的干净嵌入和噪声嵌入；

计算所述干净嵌入和所述噪声嵌入之间的差值；

对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID 和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音数据增强方法，包括：

获取所述嵌入提取器输出的干净嵌入和噪声嵌入；

计算所述干净嵌入和所述噪声嵌入之间的差值；

对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

2.根据权利要求1所述的方法，其中，所述嵌入提取器包括x-向量嵌入提取器和r-向量嵌入提取器。

3.根据权利要求1所述的方法，其中，所述嵌入提取器包括采用以下方法提取嵌入：

将所述原始干净音频和所述带噪音频的声学特征经过帧级别层获取帧级别的深层特征；

将所述帧级别的深层特征经过统计池层聚合为段级别特征。

4.根据权利要求1-3中任一项所述的方法，其中，所述计算所述干净嵌入和所述噪声嵌入之间的差值包括：

采用逐元素减法运算来计算成对的所述干净嵌入和所述噪声嵌入之间的差值，所述差值用于估计残留噪声项的分布。

5.根据权利要求4所述的方法，其中，所述噪声分布拟合包括高斯分布拟合。

6.根据权利要求5所述的方法，其中，所述高斯分布拟合的公式为：

7.一种语音数据增强装置，包括：

嵌入提取模块，配置为将原始干净音频和带噪音频输入至嵌入提取器中，其中，所述带噪音频包括所述原始干净音频和噪声；

获取模块，配置为获取所述嵌入提取器输出的干净嵌入和噪声嵌入；

计算模块，配置为计算所述干净嵌入和所述噪声嵌入之间的差值；

分布拟合模块，配置为对所述差值进行分布估计得到噪声分布拟合后的噪声嵌入。

8.根据权利要求7所述的装置，其中，所述嵌入提取器包括x-向量嵌入提取器和r-向量嵌入提取器。

9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6中任一项所述的方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。