CN111755013A - 去噪自动编码器训练方法和说话人识别系统 - Google Patents
去噪自动编码器训练方法和说话人识别系统 Download PDFInfo
- Publication number
- CN111755013A CN111755013A CN202010647893.4A CN202010647893A CN111755013A CN 111755013 A CN111755013 A CN 111755013A CN 202010647893 A CN202010647893 A CN 202010647893A CN 111755013 A CN111755013 A CN 111755013A
- Authority
- CN
- China
- Prior art keywords
- denoising
- feature
- embedding
- noise
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 18
- 230000006978 adaptation Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 101100148545 Caenorhabditis elegans snr-5 gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开一种去噪自动编码器训练方法,所述自动编码器包括六个全连接层,所述方法包括:对样本语音数据进行加噪处理得到混合语音数据;对所述混合语音数据进行嵌入特征提取得到混合嵌入特征;对所述样本语音数据进行所述嵌入特征提取得到样本嵌入特征;将所述混合嵌入特征输入至所述去噪自动编码器得到去噪嵌入特征;通过最小化所述去噪嵌入特征与所述样本嵌入之间的差距训练所述去噪自动编码器。本发明实施例通过训练一个去噪自动编码器,以加了噪声的用户声音特征为输入,干净的用户特征为标签进行训练,从而用这个自编码器达到降噪。能够提升对噪声的鲁棒性能,提升在嘈杂环境下识别用户的准确率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种去噪自动编码器训练方法和说话人识别系统。
背景技术
随着基准数据集和通过深度神经网络(DNN)训练提取的说话者嵌入的发展,说话者验证(SV)取得了很大进展。例如,基于DNN的嵌入d向量和x向量已经超过了在生成浅层模型上训练的传统i向量系统。特别是,大规模数据集的利用和数据扩充导致x向量在SV任务上的取得了最优性能。尽管x向量系统在相对干净的数据集(例如,VoxCeleb和SRE)上实现了出色的性能,但对于存在复杂噪声源的实际应用,仍可以观察到性能显着下降。因此,构建抗噪声能力强的SV系统仍然是一项艰巨的任务。
发明内容
本发明实施例提供一种去噪自动编码器训练方法和说话人识别系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种去噪自动编码器训练方法,所述自动编码器包括六个全连接层,所述方法包括:
对样本语音数据进行加噪处理得到混合语音数据;
对所述混合语音数据进行嵌入特征提取得到混合嵌入特征;
对所述样本语音数据进行所述嵌入特征提取得到样本嵌入特征;
将所述混合嵌入特征输入至所述去噪自动编码器得到去噪嵌入特征;
通过最小化所述去噪嵌入特征与所述样本嵌入之间的差距训练所述去噪自动编码器。
第二方面,本发明实施例提供一种说话人识别系统,包括特征提取器和权利要求1-6中任一项所述的方法训练得到的去噪自动编码器;
所述特征提取器,配置为从接收到的音频数据中提取混合嵌入特征;
所述去噪自动编码器,配置为对所述混合嵌入特征进行去噪处理,得到去噪嵌入特征,以用于说话人识别。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项去噪自动编码器训练方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项去噪自动编码器训练方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项去噪自动编码器训练方法。
本发明实施例通过训练一个去噪自动编码器,以加了噪声的用户声音特征为输入,干净的用户特征为标签进行训练,从而用这个自编码器达到降噪。能够提升对噪声的鲁棒性能,提升在嘈杂环境下识别用户的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的去噪自动编码器训练方法的一实施例的流程图;
图2为本发明的训练去噪自动编码器的一实施例的示意图;
图3a为当SNR为0db时,DAE在噪声匹配情况下的实验结果图;
图3b为当SNR为0db时,DAE在噪声不匹配情况下的实验结果图;
图4a是在原始说话者嵌入情况下的实验结果示意图;
图4b是在去噪说话者嵌入情况下的实验结果示意图;
图5为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的实施例提供一种去噪自动编码器训练方法,所述自动编码器包括六个全连接层,该方法包括:
S10、对样本语音数据进行加噪处理得到混合语音数据。
S20、对混合语音数据进行嵌入特征提取得到混合嵌入特征。示例性地,对混合语音数据进行第一嵌入特征提取得到相应的混合Fbank特征;将混合Fbank特征输入至预设特征提取器得到混合嵌入特征。示例性地,预设特征提取器为34层ResNet。
S30、对所述样本语音数据进行所述嵌入特征提取得到样本嵌入特征。
S40、将所述混合嵌入特征输入至所述去噪自动编码器得到去噪嵌入特征。
S50、通过最小化所述去噪嵌入特征与所述样本嵌入之间的差距训练所述去噪自动编码器。示例性地,通过最小化所述去噪嵌入特征与所述样本嵌入之间的MSE损失训练所述去噪自动编码器。
本发明实施例通过训练一个去噪自动编码器,以加了噪声的用户声音特征(x-vector)为输入,干净的用户特征为标签进行训练,从而用这个自编码器达到降噪。能够提升对噪声的鲁棒性能,提升在嘈杂环境下识别用户的准确率。
如图2所示,为本发明中训练去噪自动编码器的一实施例的示意图。本实施例中,用户的语音被加上噪声,加躁之后提取的低层特征经过一个特征提取器N1得到加躁的高层特征en;接着同样的语音,在不加躁的情况下经过同样的处理得到高层特征e;加躁的高层特征en经过去噪自编码器后得到降噪的高层特征,将这个特征与e之间的差距最小化,训练得到去噪自编码器N2,测试的时候N2即可用来进行高层特征的降噪。
示例性地,自动编码器包括特征编码器和生成解码器;其中,所述特征编码器包括三个全连接层,所述特征编码器的输出节点设置为128;ReLU激活被添加到所述特征编码器的三个全连接层中除输出层之外的每一层;所述生成编码器包括三个全连接层,所述生成编码器采用对称结构。
全连接(FC)神经网络用作自动编码器的构建块。特征编码器由三个FC层组成,所有输出节点均设置为128。ReLU激活被添加到除输出层之外的每一层,因为潜在表示应不受约束。对称架构用于生成解码器。在每个训练过程中,我们将开发数据集按3:1的比例分为训练集和验证集。我们使用1e-3作为学习率的Adam优化器。对DAE进行了200个时间点的训练,并提前停止了10个时间点。根据验证集上最低的MSE损失选择最佳的DAE。在测试阶段,余弦相似度评分用于后端系统。
本发明实施例还提供一种说话人识别系统,该系统包括特征提取器和前述任一项实施例所述的去噪自动编码器训练方法训练得到的去噪自动编码器;所述特征提取器,配置为从接收到的音频数据中提取混合嵌入特征;所述去噪自动编码器,配置为对所述混合嵌入特征进行去噪处理,得到去噪嵌入特征,以用于说话人识别。
为更加清楚的介绍本发明的技术方案,也为更直接地证明本发明的可实时性以及相对于现有技术的有益性,以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。
摘要
一个对噪声鲁棒的强大的说话者验证系统对于实际的部署而言十分关键。主流的鲁棒性说话者验证系统主要关注噪声数据增强或单独的语音增强模型。本发明提出了一种去噪自动编码器(DAE)模型,以直接在说话者特征中做语音增强。此外,我们结合了嘈杂的场景数据(DCASE),可以更好地模拟现实环境,并在训练和评估过程中探索噪声不匹配的情况,以提高模型在未见过的的环境中的泛化性能。对从Voxceleb 1&2,MUSAN和DCASE数据集生成的数据进行了实验,其SNR范围为-5到15db。结果表明,在每个SNR设置下,EER的绝对值降低至少1%。特别是,在SNR=-5db时,MUSAN和DCASE的EER分别降低了4.24%和4.71%。此外,在干净的语音上可获得0.39%的性能提升。我们还提出了一种有效的噪声适应方法,该方法只需要针对DAE模型的少量训练数据集即可。
1、介绍
构建抗噪SV系统的工作可以分为两类:1)数据扩充以增加训练数据的数量和多样性,通常可以在嘈杂的条件下更好地进行泛化。2)显式增强或降噪策略,可以进一步分为前端增强和后端增强。前端增强旨在滤除前端功能中的噪声(例如,声级),特征去噪和说话者嵌入学习是分离的,因此通常使用传统的语音增强方法。但是,解耦的前端功能不一定适合主要的SV任务。自然地,作为一项后续工作,最近研究了联合语音增强和说话者嵌入学习框架。或者,对于基于嵌入的SV系统,后端增强功能直接对从嘈杂音频中提取的说话者嵌入进行降噪。例如,使用降噪自动编码器(DAE)将嘈杂的i向量映射到干净的i向量。
在本发明中,我们专注于后端增强,并在更高级的深度嵌入框架中研究DAE的应用。代替原始的基于TDNN的x-vector,将使用基于ResNet的增强版本作为前端嵌入。我们发现,实际上,训练,增强和评估阶段的噪声可能彼此不同。因此,在考虑不同设置的情况下评估了基于DAE的x向量(x-vector)增强方法。来自DCASE和MUSAN的两组噪声用于模拟训练和评估数据中的匹配/不匹配条件。从我们在VoxCeleb数据集上进行的实验中,我们观察到:
1.提出的基于DAE的x向量增强框架不仅可以改善嘈杂条件下的性能,而且还可以改善干净条件下的性能。
2.即使DAE训练和评估之间的噪声类型不同,仍然可以观察到性能改善。但是,这些改进不如在噪声匹配方案中实现的显着。
3.在DAE训练数据噪声与评估数据匹配的情况下,与大数据噪声不匹配的DAE训练相比,少得多的数据量可以产生更好的性能。
2、用于x向量(x-vector)降噪的DAE
如图2所示,展示了本发明所提出的模型及其在噪声鲁棒SV任务中的应用的概述。
首先,根据ResNet34架构训练嵌入提取器N1。
然后,将提取的说话者嵌入(称为x向量)用于训练DAE(在图2中表示为N2)。形式上,对于干净的语音s及其噪声版本sn(受噪声n破坏),提取的嵌入为:
e=N1(s)
en=N1(sn)=N1(s+n)
训练目标是使N2去噪的嵌入和纯净嵌入e之间的MSE损失(见公式(1))最小。我们仅在嵌入提取器固定时调整DAE参数(表示为φN2)。
最后,将从sn中提取的去噪嵌入ê馈入进行最终评后端计分方法。
在自动编码器中,我们将隐藏维度|h|设置为小于输入/输出|e|。DAE受过训练以从h重建e。因此,DAE的目的是在隐藏的表示形式中提取与说话者相关的信息,同时消除嵌入en时的噪音。另一个优点是,我们的方法可以插入任何现有的嵌入提取器的顶部。因此,我们的DAE方法可以轻松扩展到不同的说话者嵌入前端。
3.实验
3.1、数据集设计
本节分别给出了噪声数据集,说话者数据集以及数据生成过程的详细信息。
3.1.1、噪声数据集
MUSAN:MUSAN是通常用于增强的噪声数据集,分为音乐,语音和噪声。Kaldi提供了方便的工具包,以使用MUSAN增强Vox-Celeb数据集。增强后,有四个噪声类别:音乐,噪声,嘈杂的人声和混响。
DCASE:为了更好地模拟实际场景,我们还结合了DCASE2019挑战的Task1A中的噪声数据集。数据集包含14400个10秒钟的现实世界录制的音频摘录,这些摘录被分类为来自10个城市的10个场景。十个场景是:机场,公共汽车,购物中心,步行街,街道交通,地铁站,公园,地铁,公共广场和有轨电车。与MUSAN相比,由于记录环境和设备的控制较少,DCASE中的噪声类别难以区分。
为了进一步研究两个噪声数据集的差异,我们构建了一个简单的2层CNN分类器,以区分两个数据集的不同噪声类型。MUSAN上的分类达到了97%的精度,而DCASE上的分类仅达到56%的精度,这表明DCASE在噪声方面表现出更高的可变性。
3.1.2、说话者数据集
VoxCeleb1和VoxCeleb2是用于开发现代SV系统的基准数据集。这两个数据集都是从YouTube视频剪辑中收集的。VoxCeleb1数据集包含来自1251个说话者的150,000言语。其中1211个在开发集中,其余40个用于评估。VoxCeleb2是一个更大的数据集,来自5994位说话者的总计120万句话。
3.1.3、数据生成
为了比较用于训练嵌入提取器和DAE的不同噪声数据的性能,我们生成了三个噪声破坏数据集:
1.VoxCeleb2被MUSAN损坏,表示为V2 M
2.VoxCeleb1被MUSAN损坏,表示为V1 M
3.VoxCeleb1被DCASE损坏,表示为V1 D
表1:不同数据集的大小和噪声类型。
MUSAN和DCASE数据集都分为两个不相交的集合:dev和test。拆分可确保添加到嵌入提取器/DAE训练数据的噪声中不会出现添加到测试数据的噪声。我们使用MUSAN或DCASE的噪声片段破坏了VoxCeleb 1&2的每个清晰语音,其中一个噪声片段仅包含特定噪声类型的单个实例。具体来说,我们从MUSAN中排除了“胡言乱语”,因为它是由Kaldi官方增强设置指出的几个噪声片段生成的。表1显示了三个损坏的数据集的大小和噪声类型的比较。
3.2、特征
我们使用标准的40维fbank特征(帧长度为25ms,移移为10ms)作为前端特征。嵌入提取器将每个fbank特征映射到256维x向量。
3.3、训练和评估协议
为了对数据失配条件进行实验,我们设置了三种不同的训练和评估程序,如表2所示。根据用于DAE训练和评估的相同/不同噪声类型数据集,我们将噪声匹配和失配条件分开。为了进一步评估性能,两种训练过程使用了不同的数据集。
表2:训练和评估设置。在V2 M上对嵌入提取器进行了所有设置的训练。NM=噪声匹配(Noise match);NMM=噪声不匹配(Noise Dismatch);NA=噪声适应(NoiseAdaptation)。
·噪声匹配:在所有阶段都使用相同噪声类型的条件。MUSAN用于嵌入提取器训练,DAE训练和评估。
·噪声不匹配:使用不同噪声数据集进行训练和评估的条件。MUSAN用于嵌入提取器和DAE训练,DCASE用于评估。此设置在大规模数据集上训练DAE,旨在探索DAE训练和评估之间数据不匹配的影响。
·噪声自适应:MUSAN用于嵌入提取器,DCASE用于DAE训练和评估。此设置在小规模数据集上训练DAE,其使用相同的噪声类型用于评估。目的是探索噪声自适应的可能性。
比较效果时,基准的评估数据集与用于NM/NMM的评估数据集一致。
嵌入提取器:34层ResNet用于嵌入提取。神经网络优化采用动量为1e-4的SGD。学习率最初设置为0.1,然后在训练过程中逐渐降低为1e-6。
DAE:所提出的DAE由两部分组成:特征编码器和生成解码器。全连接(FC)神经网络用作自动编码器的构建块。特征编码器由三个FC层组成,所有输出节点均设置为128。ReLU激活被添加到除输出层之外的每一层,因为潜在表示应不受约束。对称架构用于生成解码器。在每个训练过程中,我们将开发数据集按3:1的比例分为训练集和验证集。我们使用1e-3作为学习率的Adam优化器。对DAE进行了200个时间点的训练,并提前停止了10个时间点。根据验证集上最低的MSE损失选择最佳的DAE。在测试阶段,余弦相似度评分用于后端系统。
4、结果
所提出的系统的性能通过标准的说话者识别评估指标:均等错误率(EER)和最小检测成本函数(min-DCF)进行评估。我们报告了当Ptarget为0.01和0.001时,两个min-DCF分数的平均值。从三个方面对结果进行了分析:1)DAE在SV上的性能;2)训练和评估过程中的噪声不匹配情况;3)噪声自适应。
4.1、DAE的性能
表3:基准模型和本发明的DAE在噪声匹配情况下的说话者验证性能对比。
首先,我们分析了在噪声匹配条件下提出的DAE的性能。如表3所示,在嘈杂的情况下,DAE显着改善了SV性能。在干净的语音上,EER下降了0.4%,min-DCF下降了0.012,这表明DAE可以从干净的嵌入中过滤掉与说话者无关的信息。随着SNR的提高,语音信号变得更加突出,因此DAE带来的相对改进与SNR呈负相关。当SNR=-5db时,性能提升最为显着(就EER和min-DCF而言分别降低了4.24%和0.056)。尽管在较高的SNR下降噪的差异较小,但即使在SNR=15db时,验证性能也得到了改善。总而言之,我们提出的DAE在所有SNR下均有效,更重要的是,它在纯净语音上获得了性能提升,而没有任何其他噪声。
4.2、噪声不匹配条件的鲁棒性
表4:基准模型和本发明的DAE在噪声不匹配情况下的说话者验证性能对比。
在本节中,我们将介绍噪声不匹配条件下DAE的性能,以研究系统对看不见的噪声的鲁棒性。首先,我们比较噪声匹配和噪声不匹配条件下嵌入提取器的性能(请参见表3和表4中的基准)。通常,嵌入提取器表现出一定程度的噪声鲁棒性:当SNR≤0db时,在“噪声不匹配”条件下性能会明显下降;而当SNR变大时,在“噪声不匹配”条件下的嵌入效果会优于“噪声匹配”。
提出的DAE可以进一步提高其鲁棒性。如表4所示,SV性能仍在提高。应该注意的是,结果是基于VD 1-test测试评估的。这表明DAE对不同的噪声类型具有鲁棒性。可以观察到与4.1中类似的趋势:低SNR时的高性能增益。例如,当两种设置中的SNR=0db时,DAE分别提示EER和min-DCF分别降低3.5%和0.09。但是,当SNR增加时,“噪声不匹配”的改善不如“噪声匹配”显着。
此外,如图3a和图3b所示,为当SNR为0db时,DAE在噪声匹配和噪声不匹配情况下的对比图,其中,图3a为当SNR为0db时,DAE在噪声匹配情况下的实验结果图,图3b为当SNR为0db时,DAE在噪声不匹配情况下的实验结果图。我们通过展示检测误差折衷(DET)图来说明图3a和图3b中DAE带来的性能改进。我们选择SNR=0db,并在“噪声匹配”和“噪声不匹配”下显示结果。如图3a和图3b所示,原始x向量和去噪x向量之间存在明显的差距。
为了可视化我们方法的有效性,我们利用t分布随机邻居嵌入(t-SNE)算法将说话者嵌入减少到二维。在VoxCeleb1测试集中,从40位说话者中随机选择了4位说话者(Ernle_Hudson,Eva_Green,Emile_Hirsch,Estelle_Harris)。图4a和图4b显示了我们提出的DAE方法在噪声不匹配的原始嵌入表示和去噪嵌入表示之间的比较,在SNR=0db的噪声不匹配下,VD 1-test的原始和去噪说话者嵌入,通过t-SNE将嵌入缩减为2维。其中,图4a是在原始说话者嵌入情况下的实验结果示意图,图4b是在去噪说话者嵌入情况下的实验结果示意图。可以看出,我们的方法减少了说话者内的差异,从而产生了更多可区分的簇。
4.3、噪音自适应
通过噪声自适应训练方案,我们探索了在不同于嵌入提取器的小型数据集上训练DAE的条件。然而,添加到DAE训练数据集的噪声与评估1相匹配。表5显示,由小噪声匹配数据集(噪声适应)训练的DAE优于由大噪声匹配数据集(噪声不匹配)训练的DAE。这表明,提出的DAE可以灵活地适应不同的噪声类型。更具体地说,DAE不一定需要进行大规模的数据训练。通过提供与测试集相似的少量数据,DAE可以以较低的训练成本获得更好的性能。
表5:在噪声不匹配和噪声适应下训练的DAE去噪的x向量的扬声器验证性能。
5、结论
本文旨在通过直接去噪说话者嵌入来改善在嘈杂环境中的SV性能。具体来说,我们提出了一个DAE模型,并研究了三种不同设置下的SV性能:噪声匹配,噪声不匹配和噪声适应。我们的第一个实验(噪声匹配)表明,提出的DAE可以在嘈杂或干净的条件下提高SV性能。我们的方法在SNR=-5db时将MUSAN数据集损坏的VoxCeleb1的EER从23.58%降低到18.87%,相对提高了20%。此外,第二个实验(噪声不匹配)表明,当DAE训练期间的噪声与评估结果不同时,DAE也可以提高性能。最后,噪声适应实验表明,在较小数据集上训练的DAE优于在较大噪声失配数据集上训练的DAE。我们的DAE模型在较小的噪声匹配数据集下可以很好地执行,目的是针对实际应用进行适应性概括。我们未来的工作计划包括合并说话者和噪声类型标签以改进DAE训练,以及前端嵌入提取器和后端DAE的联合训练。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项去噪自动编码器训练方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项去噪自动编码器训练方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行去噪自动编码器训练方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现去噪自动编码器训练方法。
图5是本申请另一实施例提供的执行去噪自动编码器训练方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。
执行去噪自动编码器训练方法的设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的去噪自动编码器训练方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例去噪自动编码器训练方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据去噪自动编码器训练装置的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至去噪自动编码器训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与去噪自动编码器训练装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的去噪自动编码器训练方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种去噪自动编码器训练方法,所述去噪自动编码器包括多个全连接层,所述方法包括:
对样本语音数据进行加噪处理得到混合语音数据;
对所述混合语音数据进行嵌入特征提取得到混合嵌入特征;
对所述样本语音数据进行所述嵌入特征提取得到样本嵌入特征;
将所述混合嵌入特征输入至所述去噪自动编码器得到去噪嵌入特征;
通过最小化所述去噪嵌入特征与所述样本嵌入之间的差距训练所述去噪自动编码器。
2.根据权利要求1所述的方法,其中,所述去噪自动编码器包括特征编码器和生成解码器;其中,
所述特征编码器包括三个全连接层,所述特征编码器的输出节点设置为128;ReLU激活被添加到所述特征编码器的三个全连接层中除输出层之外的每一层;
所述生成编码器包括三个全连接层,所述生成编码器采用对称结构。
3.根据权利要求1所述的方法,通过最小化所述去噪嵌入特征与所述样本嵌入之间的差距训练所述去噪自动编码器包括:
通过最小化所述去噪嵌入特征与所述样本嵌入之间的MSE损失训练所述去噪自动编码器。
4.根据权利要求1所述的方法,所述对所述混合语音数据进行嵌入特征提取得到混合嵌入特征包括:
对所述混合语音数据进行第一嵌入特征提取得到相应的混合Fbank特征;将所述混合Fbank特征输入至预设特征提取器得到所述混合嵌入特征。
5.根据权利要求4所述的方法,其中,所述预设特征提取器为34层ResNet。
6.根据权利要求4所述的方法,其中,所述混合Fbank特征为40维Fbank特征,所述混合嵌入特征为256维x向量。
7.一种说话人识别系统,包括特征提取器和权利要求1-6中任一项所述的方法训练得到的去噪自动编码器;
所述特征提取器,配置为从接收到的音频数据中提取混合嵌入特征;
所述去噪自动编码器,配置为对所述混合嵌入特征进行去噪处理,得到去噪嵌入特征,以用于说话人识别。
8.根据权利要求7所述的系统,其中,所述特征提取器为34层ResNet。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647893.4A CN111755013B (zh) | 2020-07-07 | 2020-07-07 | 去噪自动编码器训练方法和说话人识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647893.4A CN111755013B (zh) | 2020-07-07 | 2020-07-07 | 去噪自动编码器训练方法和说话人识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111755013A true CN111755013A (zh) | 2020-10-09 |
CN111755013B CN111755013B (zh) | 2022-11-18 |
Family
ID=72679969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010647893.4A Active CN111755013B (zh) | 2020-07-07 | 2020-07-07 | 去噪自动编码器训练方法和说话人识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111755013B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420056A (zh) * | 2020-11-04 | 2021-02-26 | 乐易欢 | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 |
CN112447183A (zh) * | 2020-11-16 | 2021-03-05 | 北京达佳互联信息技术有限公司 | 音频处理模型的训练、音频去噪方法、装置及电子设备 |
CN112530451A (zh) * | 2020-10-20 | 2021-03-19 | 国网黑龙江省电力有限公司伊春供电公司 | 基于去噪自编码器的语音增强方法 |
CN112992155A (zh) * | 2021-03-02 | 2021-06-18 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
CN113420815A (zh) * | 2021-06-24 | 2021-09-21 | 江苏师范大学 | 半监督rsdae的非线性pls间歇过程监测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967920A (zh) * | 2017-11-23 | 2018-04-27 | 哈尔滨理工大学 | 一种改进的自编码神经网络语音增强算法 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN109616100A (zh) * | 2019-01-03 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
US20190171908A1 (en) * | 2017-12-01 | 2019-06-06 | The University Of Chicago | Image Transformation with a Hybrid Autoencoder and Generative Adversarial Network Machine Learning Architecture |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111341323A (zh) * | 2020-02-10 | 2020-06-26 | 厦门快商通科技股份有限公司 | 声纹识别训练数据扩增方法、系统、移动终端及存储介质 |
-
2020
- 2020-07-07 CN CN202010647893.4A patent/CN111755013B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967920A (zh) * | 2017-11-23 | 2018-04-27 | 哈尔滨理工大学 | 一种改进的自编码神经网络语音增强算法 |
US20190171908A1 (en) * | 2017-12-01 | 2019-06-06 | The University Of Chicago | Image Transformation with a Hybrid Autoencoder and Generative Adversarial Network Machine Learning Architecture |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN109616100A (zh) * | 2019-01-03 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111341323A (zh) * | 2020-02-10 | 2020-06-26 | 厦门快商通科技股份有限公司 | 声纹识别训练数据扩增方法、系统、移动终端及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530451A (zh) * | 2020-10-20 | 2021-03-19 | 国网黑龙江省电力有限公司伊春供电公司 | 基于去噪自编码器的语音增强方法 |
CN112420056A (zh) * | 2020-11-04 | 2021-02-26 | 乐易欢 | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 |
CN112447183A (zh) * | 2020-11-16 | 2021-03-05 | 北京达佳互联信息技术有限公司 | 音频处理模型的训练、音频去噪方法、装置及电子设备 |
CN112992155A (zh) * | 2021-03-02 | 2021-06-18 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
CN113420815A (zh) * | 2021-06-24 | 2021-09-21 | 江苏师范大学 | 半监督rsdae的非线性pls间歇过程监测方法 |
CN113420815B (zh) * | 2021-06-24 | 2024-04-30 | 江苏师范大学 | 半监督rsdae的非线性pls间歇过程监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111755013B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111755013B (zh) | 去噪自动编码器训练方法和说话人识别系统 | |
CN108922518B (zh) | 语音数据扩增方法和系统 | |
US11869261B2 (en) | Robust audio identification with interference cancellation | |
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
CN109637546B (zh) | 知识蒸馏方法和装置 | |
CN110211575B (zh) | 用于数据增强的语音加噪方法及系统 | |
CN110956957B (zh) | 语音增强模型的训练方法及系统 | |
Barker et al. | The PASCAL CHiME speech separation and recognition challenge | |
Raj et al. | Phoneme-dependent NMF for speech enhancement in monaural mixtures | |
CN111835784B (zh) | 用于重放攻击检测系统的数据泛化方法及系统 | |
CN112967713B (zh) | 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质 | |
JP5955925B2 (ja) | カスケード式のオーバ・コンプリート・ディクショナリに基づいた画像認識システム | |
Barker et al. | The CHiME challenges: Robust speech recognition in everyday environments | |
CN111028861B (zh) | 频谱掩码模型训练方法、音频场景识别方法及系统 | |
CN110232927B (zh) | 说话人验证反欺骗方法和装置 | |
CN110232928B (zh) | 文本无关说话人验证方法和装置 | |
CN111191787B (zh) | 提取说话人嵌入特征的神经网络的训练方法和装置 | |
CN112927688B (zh) | 用于车辆的语音交互方法及系统 | |
CN113241091B (zh) | 声音分离的增强方法及系统 | |
CN113362829B (zh) | 说话人验证方法、电子设备及存储介质 | |
CN116978370A (zh) | 语音处理方法、装置、计算机设备和存储介质 | |
CN114495946A (zh) | 声纹聚类方法、电子设备和存储介质 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
CN112784094A (zh) | 自动音频摘要生成方法和装置 | |
Meyer et al. | What Do Classifiers Actually Learn? a Case Study on Emotion Recognition Datasets. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |