CN110211575B - 用于数据增强的语音加噪方法及系统 - Google Patents

用于数据增强的语音加噪方法及系统 Download PDF

Info

Publication number
CN110211575B
CN110211575B CN201910511890.5A CN201910511890A CN110211575B CN 110211575 B CN110211575 B CN 110211575B CN 201910511890 A CN201910511890 A CN 201910511890A CN 110211575 B CN110211575 B CN 110211575B
Authority
CN
China
Prior art keywords
noise
vector
coding model
conditional
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910511890.5A
Other languages
English (en)
Other versions
CN110211575A (zh
Inventor
俞凯
钱彦旻
吴章昊
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910511890.5A priority Critical patent/CN110211575B/zh
Publication of CN110211575A publication Critical patent/CN110211575A/zh
Application granted granted Critical
Publication of CN110211575B publication Critical patent/CN110211575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明实施例提供一种用于数据增强的语音加噪方法。该方法包括:将无噪音频和带噪音频的说话人向量输入至条件变分自编码模型,对模型编码器输出的向量均值以及方差向量随机高斯分布采样,得到噪音隐向量;将噪音隐向量和无噪音频输入至模型,通过模型解码器输出拟噪音频;基于拟噪音频和带噪音频训练条件该模型,对得到多种噪音隐向量建模,得到噪音隐变量空间;在噪音隐变量空间中随机采样作为加噪隐向量,将加噪隐向量和无噪音频输入至模型解码器,得到用于数据增强的新带噪音频。本发明实施例还提供一种用于数据增强的语音加噪系统。本发明实施例在说话人向量上建模,通过隐空间特征提取,产生更多样的噪声数据,提升语音识别模型的鲁棒性。

Description

用于数据增强的语音加噪方法及系统
技术领域
本发明涉及语音识别领域,尤其涉及一种用于数据增强的语音加噪方法及系统。
背景技术
随着时间的推移,语音识别技术取得了很大的改进,但是将语音识别应用到噪声较为复杂的环境中时,还是会对其识别性能有一定的影响。为了让语音识别模型能够更好的适用到各种噪音环境中,提高语音识别模型对噪音的鲁棒性以及泛化能力,通常会使用更多的带噪音频对其进行训练,因为这种方式简单有效,但是适用于训练的带噪音频较难获取,为此,通常会对干净语音进行人工加噪。例如,人工采集噪音,之后将噪音与干净语音进行混合,得到了更多的适用于训练的带噪音频。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
这些人工加噪方式只能通过录制噪音的方式,将噪音与人声数据混合,受限于所录噪声种类和数量,这样最后得到的加噪语音,只包含录制的这些噪音。由于噪声种类和数量有限,使得最后得到的加噪语音对语音识别模型训练,也难以使其能够使用到各种噪音环境中,鲁棒性以及泛化能力较差,同时,由于人工加噪需要一定的人力资源,也需要一定低成本,使其数据增强所消耗的成本较高。
发明内容
为了至少解决现有技术中由于人工加噪的噪声种类和数量有限,使得训练的语音识别模型鲁棒性以及泛化能力较差,同时人工加噪的成本较高的问题。
第一方面,本发明实施例提供一种用于数据增强的语音加噪方法,包括:
将无噪音频的说话人向量作为所述条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;
将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;
基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;
在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
第二方面,本发明实施例提供一种用于数据增强的语音加噪系统,包括:
隐向量确定程序模块,用于将无噪音频的说话人向量作为所述条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;
音频恢复程序模块,用于将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;
隐变量空间确定程序模块,用于基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;
加噪程序模块,用于在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于数据增强的语音加噪方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于数据增强的语音加噪方法的步骤。
本发明实施例的有益效果在于:利用少量的人工加噪数据,通过隐空间的特征提取,将不同噪声的高层特征混合产生更多样的带噪数据,而不仅仅包含录制的噪声,利用这些带有多样性的带噪数据,能够进一步提升说话人验证对于噪声的鲁棒性,同时,由于直接在说话人向量上建模,而不是直接在音频中加噪,可以保证减少重新训练说话人验证模型所需的时间和计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于数据增强的语音加噪方法的流程图;
图2是本发明一实施例提供的一种用于数据增强的语音加噪方法的基于输入说话者验证系统的所提出的CVAE数据增强的框架和详细的神经网络配置示意图;
图3是本发明一实施例提供的一种用于数据增强的语音加噪方法的不同数据增强方法的i-vector/PLDA SV系统的性能比较列表数据图;
图4是本发明一实施例提供的一种用于数据增强的语音加噪方法的基于x-vector/PLDA的SV系统的不同数据增强方法的性能比较列表数据图;
图5是本发明一实施例提供的一种用于数据增强的语音加噪方法的基于x-vector的PLDA系统的广东话不同数据增强方法的检测误差权衡示意图;
图6是本发明一实施例提供的一种用于数据增强的语音加噪系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于数据增强的语音加噪方法的流程图,包括如下步骤:
S11:将无噪音频的说话人向量作为所述条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;
S12:将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;
S13:基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;
S14:在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
在本实施方式中,目前的深度学习,通常需要大量的带噪语音数据,但是在实际操作中,通常难以获取符合深度学习的带噪语音数据,就会使用一些深度生成模型来进行数据增强。
变分自编码器属于生成模型,意味着可以人工生成样本数据,比如对于手写字体(由于声音较为抽象,此处用字体图片示例),经过变分自编码器训练后,可以通过高斯分布采样,然后网络解码层前向传导,可以采样出一个新的手写字体样本,变分自编码器与对抗网络一样,也可以通过潜在空间z的每一个样本,通过解码层网络,来生成一张很真实的手写字体图片。而条件变分自编码器的目的就是在变分自编码模型的基础上,在训练时加入了one-hot向量,用于表示标签的条件。
对于步骤S11,使用无噪语音和对应的带噪语音数据x(如在所述无噪语音中人工加噪少量数据)所对应的说话人向量作为训练条件变分编码器模型的数据集。将带噪语音数据x的说话人向量作为所述条件变分编码器模型的输入和输出,相应的无噪语音数据的说话人向量作为条件。
将带噪语音x的说话人向量和条件(无噪语音数据的说话人向量)输入至条件变分编码器模型的编码器中,生成对应的均值和方差向量,利用在以此均值和方差为参数的高斯随机分布中采样,得到噪音隐向量z。
对于步骤S12,将在步骤S11确定的噪音隐向量z和条件再次输入到条件变分编码器模型的解码器中,解码器尝试通过这两个向量恢复出带噪语音的拟噪音频x’(x’为用于恢复所述带噪音频x的拟噪音频x’)。
对于步骤S13,基于在步骤S12中确定的所述拟噪音频x’以及带噪音频x来训练所述条件变分自编码模型,由于在训练中的模型的参数会不断的变化,也就生成了多种噪音隐向量,在所述条件变分自编码模型训练完成后,对这些噪音隐向量进行建模,得到了噪音隐变量空间。
对于步骤S14,由于在步骤S13中确定的噪音隐变量空间中有着很多噪音隐向量,因此在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量。有了噪音隐向量,在将需要数据增强的干净语音一并输入至条件变分自编码模型的解码器中,进而得到了用于数据增强的新的带噪音频。
通过该实施方式可以看出,利用少量的人工加噪数据,通过隐空间的特征提取,将不同噪声的高层特征混合产生更多样的带噪数据,而不仅仅包含录制的噪声,利用这些带有多样性的带噪数据,能够进一步提升说话人验证对于噪声的鲁棒性,同时,由于直接在说话人向量上建模,而不是直接在音频中加噪,可以保证减少重新训练说话人验证模型所需的时间和计算。
作为一种实施方式,在本实施例中,所述基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型包括:
通过对所述拟噪音频以及带噪音频进行交叉熵计算,确定所述条件变分自编码模型的重构误差;
确定所述向量均值以及方差向量的随机高斯分布采样与预设标准正太分布采样之间的相对误差;
根据所述重构误差以及相对误差确定所述条件变分自编码模型的联合误差,根据所述条件变分自编码模型的联合误差,训练所述条件变分自编码模型。
在本实施方式中,在确定了拟噪音频x’和带噪音频x后,对其进行交叉熵计算,进而确定所述条件变分自编码模型的重构误差,在此基础上,将之前步骤中确定的向量均值以及方差向量的随机高斯分布采样与预设标准正太分布采样之间的相对误差;进而通过这两个误差确定出联合误差,来训练所述条件变分自编码模型。
通过该实施方式可以看出,通过确定出多个维度的误差,来训练所述条件变分自编码模型,进而提高了所述条件变分自编码模型的性能。
作为一种实施方式,在本实施例中,所述根据所述条件变分自编码模型的联合误差,优化所述条件变分自编码模型包括:
根据所述联合误差对所述条件变分自编码模型进行梯度下降,以更新所述条件变分自编码模型,直至所述联合误差收敛,确定训练后的条件变分自编码模型。
在本实施方式中,确定了联合误差,来对所述条件变分自编码模型进行梯度下降计算,进而不断地更新所述条件变分自编码模型的参数,直到所述联合误差收敛时,证明所述条件变分自编码模型以及训练完毕。
通过该实施方式可以看出,通过使用梯度下降算法对所述条件变分自编码模型进行更新,使条件变分自编码模型的性能进一步提高。
作为一种实施方式,在本实施例中,在所述得到用于数据增强的新的带噪音频之后,所述方法还包括:
将所述新的带噪音频与原有的带噪音频进行数据混合,根据混合后的带噪音频的说话人向量训练语音识别模型,以提高所述语音识别模型对噪音的鲁棒。
在本实施方式中,有了新的带噪音频后,将其与原有的带噪音频进行数据混合,这样就得到了更多的带噪语音。通过这些更多的带噪语音来训练语音识别模型。
通过该实施方式可以看出,通过将新的带噪语音和原有的带噪语音混合,生成更多的带噪语音训练集。进而可以在训练语音识别模型时,提高其对噪音的鲁棒性。
对上述步骤进行具体的实施,VAE(Variational Autoencoder,变分自动编码器)是一种概率生成模型,包含两部分,编码器和解码器。它假设来自数据集X的数据x是由随机潜变量z所涉及的一些随机过程生成的。在该随机过程中,首先从正态分布中采样值z,然后从由θ参数化的条件分布pθ(x|z)生成值x:
Figure BDA0002093761330000071
x~pθ(x|z)
通常,pθ(x|z)被认为是解码器或生成器。作为边际似然的积分:
pθ(x)=∫pθ(z)pθ(x|z)dz是难以处理的,识别模型
Figure BDA0002093761330000072
引入参数
Figure BDA0002093761330000073
的x以逼近真实的后验pθ(z|x)。与解码器类似,识别模型也由神经网络表示,其被视为编码器。因此,边际可能性的下限可写为:
Figure BDA0002093761330000074
其中pθ(z)是潜在变量的先验分布,即N(0,I),DKL是KL(Kullback-Leibler,相对熵或信息散度)。利用重新参数化技巧和随机梯度变分贝叶斯估计最大化边际似然的下界,VAE模型可以学习如何在给定随机潜变量z的情况下生成数据正态分布。
为了使生成过程更加可控,除了在潜在变量z(也就是文中所述的噪音隐向量)之外,还使用某个给定条件c生成数据x∈Rn。CVAE(Conditional VAE,条件变分自动编码器)的目标是最大化x给定c的对数似然,其下限可写为:
Figure BDA0002093761330000075
当x未知时假设z与c无关,pθ(z|c)可以用正态分布N(0,I)代替。
基于VAE的说话人验证数据增强,手动将加性噪声和混响用于训练集中现有的“干净”语音段,并且使用从“干净”和“嘈杂”话语中提取的嵌入来训练强大的PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)。之前方法采用条件GAN(generative adversarial network,生成对抗网络)直接在x向量空间中进行数据增强,这进一步提升了x-vector/PLDA系统的性能。CVAE模型以类似的方式用于验证增强并实现x-vector和i-vector系统的进一步性能增益,所提出的模型的体系结构如图2所示的基于输入说话者验证系统的所提出的CVAE数据增强的框架和详细的神经网络配置示意图。其中,FC表示完全连接层,BN表示批量归一化,Conv表示卷积层,ConvTrans表示转置卷积层[38]。层下的数字表示模型配置,例如[64,2×6]表示该层具有64个输出通道,内核大小为2×6。噪声嵌入和干净嵌入都是d维的。
为了进行训练,模型的目标是在给定相应的说话人输入y(s)的情况下,最大化来自第s个说话人的第u个话语的噪声输入
Figure BDA0002093761330000081
的对数似然
Figure BDA0002093761330000082
所有干净输入的平均向量来自第s个发言者的
Figure BDA0002093761330000083
将说话人输入作为条件,模型不再需要学习整个输入的分布。相反,它使用z作为这些模式的高级表示来模拟各种噪声和混响的模式。由于当噪声输入
Figure BDA0002093761330000084
未知时,噪声和混响的类型与y(s)无关,因此分布
Figure BDA0002093761330000085
可以通过最小化下面的损失函数来训练模型:
Figure BDA0002093761330000086
其中
Figure BDA0002093761330000087
y(s)∈[0,1]d
Figure BDA0002093761330000088
是生成的噪声嵌入以及BCELoss(x,x′)=xlogx′+(1-x)log(1-X′)。它是输入和生成的噪声嵌入之间的二进制交叉熵。通过将表示z的分布限制为正态分布,高斯空间被分成用于加性噪声和混响的不同部分。因此,从正态分布中采样矢量,可以得到那些属性的一些非线性组合的表示。
在生成阶段,丢弃CVAE模型的编码器。从正态分布N(0,I)中采样多个z,并将它们从CVAE模型馈送到训练好的解码器中。另外,对每个z给出一个干净的话语嵌入
Figure BDA0002093761330000089
作为条件。由解码器生成的噪声嵌入
Figure BDA00020937613300000810
用作附加数据以训练更稳健的PLDA模型。
少量未标记的域内嵌入可以通过对PLDA后端应用无监督的自适应来提高说话者验证系统的性能。使用上面的数据增强模型,可以从一小组干净的域中生成一些嘈杂的域内嵌入。在这里,增加域内数据的最佳方法是在该域上训练另一个数据增强模型。然而,域内数据是有限且无标签的,因此为简单起见,使用相同的CVAE模型。通过结合这些干净和嘈杂的域内嵌入,多样性增加。然后可以使用组合集调整PLDA并提高适应过程的稳定性。
对上述步骤进行具体的实施,训练数据包括SWBD(SWBD是一个语音语料库,整合了电话中的即兴对话)部分和SRE(Speaker Recognition Evaluation,说话人识别技术评测)部分,而前者包括交换机阶段2,3和交换机划分1,2,后者包含NIST SRE 2004-2010。i-vector和x-vector提取器在SWBD和SRE汇总数据上进行训练,而PLDA和VAE模型仅在SRE部分进行训练。标准SRE16评估集用于衡量拟议系统的性能,该系统由塔加拉族语和粤语子集组成。注册话语的长度为60秒,而测试话语的持续时间为10-60秒。手动增强程序遵循KaldiSRE16配方,添加噪声和混响被添加到原始音频以生成噪声。对于基于i-vector和x-vector的系统,训练VAE模型的嵌入数量大约为90000。作为VAE和GAN训练的常用技巧,所有嵌入都缩放为[0,1]。
i-vector和x-vector的设置分别遵循Kaldi SRE16配方v1和v2。对于i-vector,附加delta和double-delta系数的20维MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)形成系统的60维输入,2048个高斯分量用于UBM训练,i-vector的维度设置为600。对于x-vector,TDNN(time-delay neural networks,时延神经网络)在30维MFCC上进行训练,并提取512维x向量。
该模型学习从手动增强的噪声数据生成具有更多分集的数据。详细的神经网络配置也如图2所示基于输入说话者验证系统的所提出的CVAE数据增强的框架和详细的神经网络配置示意图。编码器网络由两个卷积层和两个完全连接的层组成,而解码器网络由两个转置的卷积层组成。256维平均向量μ和方差向量σ2由编码器网络预测。说话人验证被馈送到编码器和解码器网络。将sigmoid函数应用于输出以限制[0,1]中生成的样本。为了稳定训练过程,还在编码器和解码器网络中使用批量归一化和带泄露整流函数ReLU(RectifiedLinear Unit,线性整流函数),负斜率为0.2。
学习率为3e-5且默认测试值为(0.9,0.999)的Adam优化器用于优化编码器和解码器网络。批量大小为128,在单个GPU上训练模型10个时间周期。
为了增加现有的嵌入,为每个说话人生成10个噪声嵌入,使用他/她的干净嵌入和随机采样的潜在变量z~N(0,I),提供总共42,500个增强的噪声嵌入,这大约是手动增强数据的一半。
所提出的数据增强方法是在两种典型的嵌入方式上进行评估的,即i-vector和x-vector。等误差率(EER)和归一化检测成本函数的最小值(minDCF,ptarget设置为0.01)用于性能测量。
图3所示的不同数据增强方法的i-vector/PLDA SV系统的性能比较列表数据图,显示了基于i-vector/PLDA的SV(Speaker Verification,说话人验证)系统的不同增强方法的结果。VAE增强系统在塔加洛语(菲律宾语)和粤语评估数据集上实现了与手动增强系统相当的性能,同时通过组合VAE和手动增强数据可以获得进一步的性能增强。通过基于i-vector系统的PLDA自适应提出的VAE增强方法实现了最佳性能,分别获得了塔加洛语和广东话的EER分别为15.54%和7.84%。
对于基于x矢量的系统,结果可以在图4所示的基于x-vector/PLDA的SV系统的不同数据增强方法的性能比较列表数据图中找到。与没有数据增强的基线系统相比,所有使用增强数据训练的系统都可以获得更好的性能。此外,对于所有系统,PLDA适应性始终如一地提高了性能。可以注意到,我们之前的GAN系统与手动增强系统实现了可比较的结果,而GAN+手动系统在塔加洛语和粤语评估集上均优于手动系统。纯VAE系统优于手动系统,而VAE+手动系统进一步增强了系统,实现了最佳效果。通过提出的增强方法,我们最终分别在他加禄语和广东话上达到了11.86%和4.20%的EER。
为了更直观地说明所提出的VAE数据增强方法,不同增强x矢量系统的检测误差权衡(DET)曲线绘制在图5所示的基于x-vector的PLDA系统的广东话不同数据增强方法的检测误差权衡示意图。可以观察到,所提出的方法对于非适应和适应的PLDA都是有效的。
说话人验证是说话人验证的主要建模方法。尽管通过诸如i-vector和x-vector的嵌入具有令人印象深刻的性能,但是在不同应用场景中的系统鲁棒性仍然是一个问题。在本文中,提出的基于条件变分自动编码器在嵌入级别直接执行数据增强。基于CVAE的方法在标准NIST SRE16评估数据集上优于手动数据增强方法和之前基于GAN的数据增强方法。结合手动增强嵌入,性能得到进一步提升,使用基于i-vector/PLDA的系统,最佳系统的EER分别达到15.54%和7.84%,基于x-vector/PLDA的分别为菲律宾语和广东话的语音验证分别达到11.86%和4.20%。
如图6所示为本发明一实施例提供的一种用于数据增强的语音加噪系统的结构示意图,该系统可执行上述任意实施例所述的用于数据增强的语音加噪方法,并配置在终端中。
本实施例提供的一种用于数据增强的语音加噪系统包括:隐向量确定程序模块11,音频恢复程序模块12,隐变量空间确定程序模块13和加噪程序模块14。
其中,隐向量确定程序模块11用于将无噪音频的说话人向量作为所述条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;音频恢复程序模块12用于将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;隐变量空间确定程序模块13用于基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;加噪程序模块14用于在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
进一步地,所述隐变量空间确定程序模块用于:
通过对所述拟噪音频以及带噪音频进行交叉熵计算,确定所述条件变分自编码模型的重构误差;
确定所述向量均值以及方差向量的随机高斯分布采样与预设标准正太分布采样之间的相对误差;
根据所述重构误差以及相对误差确定所述条件变分自编码模型的联合误差,根据所述条件变分自编码模型的联合误差,训练所述条件变分自编码模型。
进一步地,所述根据所述条件变分自编码模型的联合误差,优化所述条件变分自编码模型包括:
根据所述联合误差对所述条件变分自编码模型进行梯度下降,以更新所述条件变分自编码模型,直至所述联合误差收敛,确定训练后的条件变分自编码模型。
进一步地,在所述加噪程序模块之后,所述系统还用于:
将所述新的带噪音频与原有的带噪音频进行数据混合,根据混合后的带噪音频的说话人向量训练语音识别模型,以提高所述语音识别模型对噪音的鲁棒。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于数据增强的语音加噪方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将无噪音频的说话人向量作为所述条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;
将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;
基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;
在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于数据增强的语音加噪方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于数据增强的语音加噪方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有音频处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于数据增强的语音加噪方法,包括:
将无噪音频的说话人向量作为条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;
将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;
基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;
在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
2.根据权利要求1所述的方法,其中,所述基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型包括:
通过对所述拟噪音频以及带噪音频进行交叉熵计算,确定所述条件变分自编码模型的重构误差;
确定所述向量均值以及方差向量的随机高斯分布采样与预设标准正太分布采样之间的相对误差;
根据所述重构误差以及相对误差确定所述条件变分自编码模型的联合误差,根据所述条件变分自编码模型的联合误差,训练所述条件变分自编码模型。
3.根据权利要求2所述的方法,其中,所述根据所述条件变分自编码模型的联合误差,优化所述条件变分自编码模型包括:
根据所述联合误差对所述条件变分自编码模型进行梯度下降,以更新所述条件变分自编码模型,直至所述联合误差收敛,确定训练后的条件变分自编码模型。
4.根据权利要求1所述的方法,其中,在所述得到用于数据增强的新的带噪音频之后,所述方法还包括:
将所述新的带噪音频与原有的带噪音频进行数据混合,根据混合后的带噪音频的说话人向量训练语音识别模型,以提高所述语音识别模型对噪音的鲁棒。
5.一种用于数据增强的语音加噪系统,包括:
隐向量确定程序模块,用于将无噪音频的说话人向量作为条件变分自编码模型的条件,将通过所述无噪音频加噪生成的带噪音频的说话人向量以及所述条件输入至条件变分自编码模型,对所述变分自编码模型的编码器输出的向量均值以及方差向量进行随机高斯分布采样,得到噪音隐向量;
音频恢复程序模块,用于将所述噪音隐向量以及条件输入至所述条件变分自编码模型,通过所述条件变分自编码模型的解码器输出用于恢复所述带噪音频的拟噪音频;
隐变量空间确定程序模块,用于基于所述拟噪音频以及带噪音频训练所述条件变分自编码模型,得到多种噪音隐向量,响应于所述模型的训练完成,对所述噪音隐向量建模,得到噪音隐变量空间;
加噪程序模块,用于在所述噪音隐变量空间的标准正太分布中随机采样作为加噪隐向量,将所述加噪隐向量以及无噪音频输入至所述条件变分自编码模型的解码器中,得到用于数据增强的新的带噪音频。
6.根据权利要求5所述的系统,其中,所述隐变量空间确定程序模块用于:
通过对所述拟噪音频以及带噪音频进行交叉熵计算,确定所述条件变分自编码模型的重构误差;
确定所述向量均值以及方差向量的随机高斯分布采样与预设标准正太分布采样之间的相对误差;
根据所述重构误差以及相对误差确定所述条件变分自编码模型的联合误差,根据所述条件变分自编码模型的联合误差,训练所述条件变分自编码模型。
7.根据权利要求6所述的系统,其中,所述根据所述条件变分自编码模型的联合误差,优化所述条件变分自编码模型包括:
根据所述联合误差对所述条件变分自编码模型进行梯度下降,以更新所述条件变分自编码模型,直至所述联合误差收敛,确定训练后的条件变分自编码模型。
8.根据权利要求5所述的系统,其中,在所述加噪程序模块之后,所述系统还用于:
将所述新的带噪音频与原有的带噪音频进行数据混合,根据混合后的带噪音频的说话人向量训练语音识别模型,以提高所述语音识别模型对噪音的鲁棒。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN201910511890.5A 2019-06-13 2019-06-13 用于数据增强的语音加噪方法及系统 Active CN110211575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511890.5A CN110211575B (zh) 2019-06-13 2019-06-13 用于数据增强的语音加噪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511890.5A CN110211575B (zh) 2019-06-13 2019-06-13 用于数据增强的语音加噪方法及系统

Publications (2)

Publication Number Publication Date
CN110211575A CN110211575A (zh) 2019-09-06
CN110211575B true CN110211575B (zh) 2021-06-04

Family

ID=67792721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511890.5A Active CN110211575B (zh) 2019-06-13 2019-06-13 用于数据增强的语音加噪方法及系统

Country Status (1)

Country Link
CN (1) CN110211575B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808033B (zh) * 2019-09-25 2022-04-15 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN110706692B (zh) * 2019-10-21 2021-12-14 思必驰科技股份有限公司 儿童语音识别模型的训练方法及系统
CN110807333B (zh) * 2019-10-30 2024-02-06 腾讯科技(深圳)有限公司 一种语义理解模型的语义处理方法、装置及存储介质
CN111724767B (zh) * 2019-12-09 2023-06-02 江汉大学 基于狄利克雷变分自编码器的口语理解方法及相关设备
CN111145730B (zh) * 2019-12-30 2022-05-06 思必驰科技股份有限公司 语音识别模型的优化方法及系统
CN111161740A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 意图识别模型训练方法、意图识别方法以及相关装置
CN111341323B (zh) * 2020-02-10 2022-07-01 厦门快商通科技股份有限公司 声纹识别训练数据扩增方法、系统、移动终端及存储介质
CN111564160B (zh) * 2020-04-21 2022-10-18 重庆邮电大学 一种基于aewgan的语音降噪的方法
CN111724809A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于变分自编码器的声码器实现方法及装置
CN111653288B (zh) * 2020-06-18 2023-05-09 南京大学 基于条件变分自编码器的目标人语音增强方法
CN112132225A (zh) * 2020-09-28 2020-12-25 天津天地伟业智能安全防范科技有限公司 一种基于深度学习的数据增强方法
CN112509559B (zh) * 2021-02-03 2021-04-13 北京世纪好未来教育科技有限公司 音频识别方法、模型训练方法、装置、设备及存储介质
CN114609493B (zh) * 2022-05-09 2022-08-12 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6922284B2 (ja) * 2017-03-15 2021-08-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Data augmentation and feature extraction using variational autoencoder for acoustic modeling;Nishizaki H;《2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)》;20180208;1222-1227 *
Data Augmentation using Conditional Generative Adversarial Networks for Robust Speech Recognition;P. Sheng;《2018 11th International Symposium on Chinese Spoken Language Processing (ISCSLP)》;20190506;121-125 *
Disentangling Correlated Speaker and Noise for Speech Synthesis via Data Augmentation and Adversarial Factorization;W. Hsu;《ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20190417;5901-5905 *
Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation;Hsu W N;《2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)》;20180125;16-23 *
人工智能研究的新前线:生成式对抗网络;林懿伦;《自动化学报》;20180531;775-792 *
基于变分自动编码器的特征表示学习研究及其应用;李明宇;《中国优秀硕士学位论文全文数据库信息科技辑》;20190131;I140-97 *

Also Published As

Publication number Publication date
CN110211575A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
CN110709924B (zh) 视听语音分离
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
US10854205B2 (en) Channel-compensated low-level features for speaker recognition
Qian et al. Speech Enhancement Using Bayesian Wavenet.
CN110956957B (zh) 语音增强模型的训练方法及系统
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN112634856B (zh) 语音合成模型训练方法和语音合成方法
CN108417224B (zh) 双向神经网络模型的训练和识别方法及系统
CN111161752A (zh) 回声消除方法和装置
EP2410514A2 (en) Speaker authentication
KR20170030923A (ko) 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN111862934B (zh) 语音合成模型的改进方法和语音合成方法及装置
CN111145730B (zh) 语音识别模型的优化方法及系统
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN110246489B (zh) 用于儿童的语音识别方法及系统
CN112837669B (zh) 语音合成方法、装置及服务器
Hsieh et al. Improving perceptual quality by phone-fortified perceptual loss for speech enhancement
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
CN106875944A (zh) 一种语音控制家庭智能终端的系统
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
Han et al. Reverberation and noise robust feature compensation based on IMM
CN112634859B (zh) 用于文本相关说话人识别的数据增强方法及系统
CN115762557A (zh) 用于语音分离的自监督训练预测器的训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant