CN113314107B - 训练语音增广模型的方法和装置 - Google Patents

训练语音增广模型的方法和装置 Download PDF

Info

Publication number
CN113314107B
CN113314107B CN202110607065.2A CN202110607065A CN113314107B CN 113314107 B CN113314107 B CN 113314107B CN 202110607065 A CN202110607065 A CN 202110607065A CN 113314107 B CN113314107 B CN 113314107B
Authority
CN
China
Prior art keywords
model
training
speech
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110607065.2A
Other languages
English (en)
Other versions
CN113314107A (zh
Inventor
钱彦旻
王巍
张王优
李晨达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202110607065.2A priority Critical patent/CN113314107B/zh
Publication of CN113314107A publication Critical patent/CN113314107A/zh
Application granted granted Critical
Publication of CN113314107B publication Critical patent/CN113314107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开训练语音增广模型的方法和装置,其中,一种训练语音增广模型的方法,包括:使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;利用训练后的所述教师模型对真实语音数据进行标注;以及使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。本申请实施例提供的上述方法不仅提高了对模拟数据的语音增强性能,而且降低了下游语音识别任务的单词错误率。

Description

训练语音增广模型的方法和装置
技术领域
本发明属于模型训练技术领域,尤其涉及训练语音增广模型的方法和装置。
背景技术
相关技术中,许多与语音相关的应用程序,例如自动语音识别(automatic speechrecognition,ASR)和说话人验证,都需要语音增强(speech enhancement,SE)作为必不可少的前端,以提高降级语音信号的清晰度和感知质量。尽管已经做出了许多努力来构建最新的语音增强模型,但是在处理真实数据时,单通道语音增强仍然具有挑战性。
语音增强的挑战之一是训练条件和评估条件之间的差异。与诸如语音识别和说话人识别之类的下游任务不同,后者可以很容易地为真实世界的数据标注地面真相标签,而在收集真实世界的数据时,通常无法使用语音增强中的并行纯净语音信号。因此,大多数语音增强系统必须建立在模拟语音数据上。然而,仿真过程通常只覆盖有限的噪声条件和类型,这可能导致在看不见的噪声条件下性能下降。
为了减轻培训训练和评估之间的不匹配,已经进行了许多尝试,它们可以分为五个主要类别。(1)数据扩充:已经探索了各种数据增强策略,例如收集用于训练的大规模真实噪声,噪声扰动以及基于一组精心设计的噪声基础生成噪声。(2)噪声建模:已经探索了噪声建模的各个方向,以在模型设计或训练过程中明确地利用噪声信息。例如,现有技术中提出将预测的噪声信息合并到语音估计中。现有技术中提出通过领域对抗训练(domainadversarial training,DAT)来训练一个抗噪语音增强模型。现有技术中研究了通过添加噪声相关的损失来改善多任务损失下的语音增强。(3)基于生成对抗网络(Generativeadversarial networks,GANs)的方法:先前的工作已经研究了将GAN用于使用真实数据进行语音增强的情况。语音增强模型(作为生成器)将语音信号与嘈杂的输入分离开来,而鉴别器则试图将增强的信号与真实的纯净语音信号区分开。(4)对下游任务的端到端培训训练。许多先前的研究已经以端到端的方式研究了培训训练SE模型以及不同的下游任务。由于仅将下游任务中的最终损失用于训练整个系统,因此避免了对干净语音引用的依赖。(5)辅助信息。不仅仅是将音频信息用于语音增强,一些研究还集中在使用来自其他模态的辅助信息来改善语音增强。在语音增强中已经探索了不同的方式,包括说话人身份,文本信息和视觉线索。
其中,对抗神经网络包括一个生成器和一个鉴别器,生成器负责语音增强,鉴别器负责鉴别生成器产生的语音是带躁语音或干净语音,通过共同训练提高二者的能力,达到语音增强的目的。
噪声增广数据的方法通过将有限的噪声音频按不同信噪比,不同方式混入干净语音,模拟真实场景下的带躁语音训练增强模型。
发明人在实现本申请的过程中发现现有技术的方案存在以下缺陷:基于对抗神经网络的模型训练过程复杂,通常难以训练,需要精细调参。通过噪声增广数据的方法无法在真实数据上训练。具体地,对抗神经网络的缺陷来源于其模型设计,对抗训练的过程需要生成器和鉴别器的能力相对平衡。噪声增广数据的方法没有考虑利用真实数据训练增强模型,只希望通过噪声模拟真实场景。
发明内容
本发明实施例提供一种训练语音增广模型的方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种训练语音增广模型的方法,包括:使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;利用训练后的所述教师模型对真实语音数据进行标注;以及使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
第二方面,本发明实施例提供一种训练语音增广模型的装置,包括:教师模型训练程序模块,配置为使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;标注程序模块,配置为利用训练后的所述教师模型对真实语音数据进行标注;以及学生模型训练程序模块,配置为使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的训练语音增广模型的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的训练语音增广模型的方法的步骤。
本申请的方法和装置通过首先训练一个文本信息语音增强模型作为教师,它可以在有文本标注的真实数据上提供“参考”信号。然后在模拟数据和真实数据的基础上训练出正常的语音增强模型,监督数据分别来自带噪信号的原始信号和教师标注的参考信号。实验结果表明,该方法不仅提高了对模拟数据的语音增强性能,而且降低了下游语音识别任务的单词错误率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种训练语音增广模型的方法的流程图;
图2为本发明一实施例提供的训练语音增广模型的方法的原理图;
图3为本发明一实施例提供的特征融合模块的结构;
图4为本发明一实施例提供的来自不同型号的增强音频的SDR分布;
图5为本发明一实施例提供的另一种训练语音增广模型的装置的框图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的训练语音增广模型的方法一实施例的流程图,本实施例的训练语音增广模型的方法对语音增广模型进行训练。
如图1所示,在步骤101中,使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
在步骤102中,利用训练后的所述教师模型对真实语音数据进行标注形成参考信号;
在步骤103中,使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
本实施例的方法通过首先训练一个文本信息语音增强模型作为教师,它可以在有文本标注的真实数据上提供“参考”信号。然后在模拟数据和真实数据的基础上训练出正常的语音增强模型,监督数据分别来自带噪信号的原始信号和教师标注的参考信号。实验结果表明,该方法不仅提高了对模拟数据的语音增强性能,而且降低了下游语音识别任务的单词错误率。
在一些可选的实施例中,所述教师模型包括三个模块:编码器、掩码估计器和解码器;
其中,所述掩码估计器学习从所述编码器生成的组合特征序列中为干净语音信号估计乘法掩码;所述解码器网络通过将所述乘法掩码表示转换回时域来重构干净语音信号。
在一些可选的实施例中,所述编码器包括三个子模块,即音频编码器,文本编码器和特征融合模块;
其中,音频编码器将输入波形转换为中间特征空间中的表示形式,所述文本编码器是一个可学习的嵌入字典,可将转录转换为特征空间,基于转换器的特征融合模块通过注意力机制将编码的文本特征和音频特征结合在一起,所述特征融合模块将编码的音频特征作为查询,将编码的文本特征作为关键字和值,以生成包含嵌入的文本和音频信息的组合特征序列。
在一些可选的实施例中,所述训练学生模型包括:
在模拟语音数据和真实语音数据上训练学生语音增强模型,其中,参考信号分别来自模拟的地面真实情况和教师估计;
采用增强型输出学生和参考信号之间的SI-SNR进行损耗计算。
在一些可选的实施例中,所述采用增强型输出学生和参考信号之间的SI-SNR进行损耗计算的公式如下:
Figure BDA0003090567250000051
在一些可选的实施例中,所述教师模型的训练过程表述为:
Figure BDA0003090567250000052
Figure BDA0003090567250000053
ey=FeatureFusion(ya,yt),
mx=MaskEstimator(ey),
Figure BDA0003090567250000054
Figure BDA0003090567250000055
其中,ya和yt分别表示时域音频信号及其对应的转录本的矢量表示。eya,eyt和ey分别代表编码后的音频特征,文本特征及其组合;mx代表估计的语音蒙版;参考纯净信号和增强信号分别由x和
Figure BDA0003090567250000056
表示;
Figure BDA0003090567250000057
和x之间的信噪比(SI-SNR)作为训练的损失。需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:对抗神经网络的缺陷来源于其模型设计,对抗训练的过程需要生成器和鉴别器的能力相对平衡。噪声增广数据的方法没有考虑利用真实数据训练增强模型,只希望通过噪声模拟真实场景。
相关领域的技术人员在面对上述技术问题时,通常采用数据增强相关的方法,因为语音增强中,真实语音没有对应标注,通常采用通过噪声增广的音频训练模型。
本申请的方案主要从以下几个方面入手进行设计和优化:
本申请实施例使用知识蒸馏框架解决这个问题.用一个能够利用文本和语音两方面信息的“教师”模型,在噪声模拟数据上训练,并利用其更强的语音增强能力,对真实数据进行标注。如此可以使用真实数据和模拟数据两种数据训练“学生”模型。
请参考图2,其示出了本申请一个方案的具体流程图。
1、使用文本信息和噪声增广的模拟信号训练“教师”模型;
2、使用噪声增广的模拟信号和“教师”标注的真实信号共同训练“学生”模型;
3、“学生”模型可以在真实/模拟两种信号上不需要文本信息即可进行语音增强。
本申请提供的上述方案是一种不受限于模型设计的知识蒸馏框架,在今后的其它先进的语音增强上加以应用,都可以使模型参与真实数据上的训练,从而提高语音增强模型在真实数据上的鲁棒性。
近年来,深度学习技术的发展给语音增强技术带来了快速的发展。然而,现有的大多数语音增强方法严重依赖于模拟数据进行训练,导致在更真实的数据上性能下降。其中一个主要原因是在真实世界的场景中缺乏参考信号,直接在真实数据上训练语音增强模型几乎是不可能的。在本申请实施例中,本申请实施例旨在利用有文本标签的真实语音数据来解决这一问题,缓解训练和评估环境的不匹配。本申请实施例提出首先训练一个文本信息语音增强模型作为教师,它可以在有文本标注的真实数据上提供“参考”信号。然后在模拟数据和真实数据的基础上训练出正常的语音增强模型,监督数据(supervision)分别来自带噪信号的原始信号(the simulated ground truth)和教师标注的参考信号(theteacher)。实验结果表明,该方法不仅提高了对模拟数据的语音增强性能,而且降低了下游语音识别任务的单词错误率。
在本申请实施例中,本申请实施例集中于一种更简单的方法,利用真实的语音数据来训练语音增强模型,以减轻训练和评估之间的不匹配。尽管可以应用上述端到端训练和基于GAN的方法,但不能保证端到端训练中的语音增强性能可与单独训练的SE模型和基于GAN的语音增强相媲美。具有复杂的训练过程,需要仔细调整每个组件。取而代之的是,本申请实施例提出了一个新颖的框架来利用真实的语音数据来训练基于知识提炼的语音增强模型。首先,在模拟数据上,以教师的身份训练了文本信息化的语音增强模型,然后将其用于估计真实数据上的干净“参考”信号。然后,作为学生的纯音频语音增强模型将在模拟和真实数据上进行训练,分别带有来自自带噪声的原始信号(the simulated groundtruth)和教师估计的标签(estimates of the teacher,)。最后,训练有素的学生模型用于推理,该模型不依赖于并行文本信息作为输入。实验表明,本申请实施例提出的方法可以在语音增强和下游ASR性能方面提高语音增强模型的鲁棒性。请注意,本申请实施例提出的框架在训练过程中仅需要来自其他方式的辅助信息(例如文本),而先前的语音增强指导工作经常假定可以访问此类信息以进行训练和推理。
图2:用于文本信息知识提炼的管道流程描述如下:(1)在具有文本信息的模拟语音上训练教师模型。(2)有文本标注的真实数据被馈送到经过训练的教师模型中,以估计相应的“参考”信号。然后,对学生模型进行训练,既要使用具有地面真理的干净参考语言进行模拟语音(simulated speech with ground truth clean references),也要使用教师估计的参考语言进行真实语音训练(real speech with estimated references from theteacher),其中数据流分别用实心线和虚线表示。(3)学生模型用于推断模拟或真实语音数据。
2.用于语音增强的文本信息知识提炼框架
本申请实施例提出的框架涉及训练教师和学生模型,以利用有文本标注的真实语音数据来实现更强大的语音增强。教师模型经过训练可以合并文本和音频信息,并提高增强音频的质量。以这种方式,训练有素的教师模型可以估计“参考”信号,用于转录真实语音数据,并用于协助训练学生模型。本申请实施例将此框架称为文本信息知识提炼。
通过在上述框架下利用真实语音数据进行训练,可以在不增加参数数量和计算成本的情况下提高学生模型的性能。虽然本申请实施例提出的框架是一种通用方法,可以应用于各种类型的语音增强模型,但本申请实施例针对教师和学生模型都采用了流行的时域ConvTasNet结构。
2.1文本告知型教师模型
文本通知型教师模型的结构如图2所示。它由三个主要模块组成:编码器,掩码估计器和解码器。
编码器模块包括三个子模块,即音频编码器,文本编码器和功能融合子模块。音频编码器将输入波形转换为中间特征空间中的表示形式。文本编码器是一个可学习的嵌入字典,可将转录转换为特征空间。基于转换器的特征融合模块通过注意力机制将编码的文本特征和音频特征结合在一起,如图3所示。它将编码的音频特征作为查询,将编码的文本特征作为关键字和值,以生成组合的特征序列。嵌入的文本和音频信息。掩码估计器学习从组合特征序列中为干净语音信号估计乘法掩码。最后,解码器网络通过将掩码表示转换回时域来重构纯净语音信号。
教师模型的训练过程可以表述为:
Figure BDA0003090567250000081
Figure BDA0003090567250000082
ey=FeatureFusion(ya,yt), (3)
mx=MaskEstimator(ey), (4)
Figure BDA0003090567250000083
Figure BDA0003090567250000084
其中,ya和yt分别表示时域音频信号及其对应的转录本的矢量表示。eya,eyt和ey分别代表编码后的音频特征,文本特征及其组合;mx代表估计的语音蒙版;参考纯净信号和增强信号分别由x和x^teacher表示。x教师和x之间的信噪比(SI-SNR)作为训练的损失。
在后续内容中,本申请实施例显示了利用文本信息的教师在利用文本信息方面优于基线Conv-TasNet。
2.2真实语音数据的知识提取
尽管由于缺乏干净的语音参考,大多数语音增强模型无法在真实语音数据上进行训练,但本申请实施例提出的框架通过使用教师模型估计参考信号来提供一种解决方法。
考虑到有文本标注的真实语音数据可用于训练的情况,第2.1节中描述的文本通知教师模型可用于在真实数据上提供“参考”信号。这样,可以将真实语音数据与模拟数据一起使用,以训练更健壮的语音增强模型,即图1所示的学生模型。
图3:特征融合模块的结构。融合网络由L层变压器块组成。多头注意力模块将编码的音频作为查询,将编码的文本作为键和值,以生成具有嵌入的文本和音频信息的组合特征序列。
更具体地说,本申请实施例在模拟和真实语音数据上训练学生语音增强模型,其参考信号分别来自模拟的地面真实情况和教师估计。在本文中,本申请实施例采用增强型输出学生和参考信号之间的SI-SNR进行损耗计算,因为它是对信号电平距离的更合适的度量:
Figure BDA0003090567250000091
通过上述训练过程,学生模型将学习适应模拟和现实条件,从而减轻训练和评估之间的不匹配。
本申请实施例在后续实验中表明,通过应用上述知识提炼框架,学生模型在语音增强和ASR方面均达到了更好的性能。
3.实验
3.1数据集
为了评估提出的框架,本申请实施例在CHiME-4数据集的单通道轨道上进行了实验,其中包含模拟和记录的真实数据。训练(tr05simu),开发(dt05simu)和评估(et05simu)集中的模拟样本数分别为42828、1640和1320。训练(tr05real),开发(dt05real)和评估(et05real)集中的真实录音数量分别为9600、1640和1320。对于ASR模型,本申请实施例还包括来自《华尔街日报》(WSJ)语料库的干净训练数据进行训练,其中包含37416个阅读语音样本。所有语音数据的采样率为16kHz。
在SE和ASR模型训练中均应用了速度扰动为0.9、1.0和1.1的因素,因为该技术已在两种任务中均有效。所有模型均基于ESPnet工具包构建。Adam优化器可用于语音增强和ASR模型训练,并且对所有模型进行训练,直到收敛为止。
3.2实验设置
3.2.1SE设置
教师和学生模型对Conv-TasNet采用相同的设置。对于音频编码器中的一维卷积块,本申请实施例使用256个滤波器,每个滤波器覆盖20个样本的长度。对于掩码估计器,本申请实施例使用4个卷积块,每个卷积块由8个卷积层和512个通道组成。瓶颈层具有用于1×1转换块的256个通道。
教师模型中的文本编码器是一个嵌入字典,可将输入的文本序列编码为256维特征向量。在这里,本申请实施例采用字符作为输入文本的建模单元。特征融合模块是一个变压器网络,由6个变压器模块组成,每个模块有4个头,每个维度都具有64维注意层。
3.2.2ASR设定
为了验证SE模型在实际数据上的有效性,本申请实施例在下游ASR任务上评估了预先训练的SE模型。基于联合连接器时间分类(CTC)/注意力的编解码器网络被用作评估SE前端的ASR后端。
ASR的输入功能是80维log-Mel滤波器组系数。用于特征提取的窗口长度和跳数长度分别为25ms和10ms。在训练过程中应用了SpecAugment技术。本申请实施例分别将12个和6个具有2048个隐藏单元的变压器层用于编码器和解码器。每层是一个带有4个头的64维自我关注层的变压器块。对于多任务学习(MTL),CTC和注意力损失的权重分别设置为0.3和0.7。基于外部字符的RNN语言模型用于在解码阶段进行记录。
本申请实施例训练了两种类型的ASR模型。(1)机构:ASR模型是在原始训练数据上直接进行训练的,没有任何增强。(2)Enh:对ASR模型进行原始和增强训练数据的训练。本申请实施例的实验表明,增强数据的再训练对于通过单通道语音增强功能改善ASR性能非常重要。
3.3绩效评估
3.3.1语音增强评估
本申请实施例首先在CHiME4的模拟数据上评估语音增强模型。为了评估知识提炼框架的有效性,基线采用与Conv-TasNet学生模型相同的结构,并且仅在模拟语音数据上进行训练。
表1:CHiME-4单通道轨道上的语音增强性能(PESQ/SDR[dB])。
Figure BDA0003090567250000111
表1给出了基线和建议方法的语音增强性能,包括信噪比(SDR)和语音质量的感知评估(PESQ)。教师模型也仅在模拟的语音数据上进行训练,它从文本信息中受益,并显示出比基线模型更好的改进。在上述知识提炼框架下训练的学生模型也胜过基线模型,甚至在评估集上表现出比教师模型更好的表现。这表明通过应用所提出的方法,学生模型的通用能力也得到了提高。其中,中英文对照如下:SE Model:语音增强模型,SDR:信号失真比,Noisy Input:带噪输入,Conv-Tasnet Baseline:Conv-Tasnet基线,Text-InformedTeacher:Text-Informed教师,Conv-Tasnet Student:Conv-Tasnet学生,Simu:模拟。
图4示出了不同模型增强的信号的SDR分布。其中,中英文对照:Baseline:基线,Teacher:教师,Student:学生,SDR:信号失真比,Number of Samples:样本数量。
图4说明了来自不同型号的增强音频的SDR分布。与基线模型相比,教师模型和学生模型均显着减少了低SDR样本的数量,与表1中的结果显示出一致的结论。其中,numberof samples:样本数;baseline:基线;teacher:教师模型;student:学生模型。
3.3.2使用经过清洁条件训练的ASR进行评估
对于ASR评估,本申请实施例首先使用仅在WSJ干净数据上训练的ASR模型执行评估,这称为干净条件训练ASR。
表2列出了经过清洁条件训练的ASR的评估结果。如前所述,Org和Enh分别对应于仅对纯净数据和增强的纯净数据进行训练的ASR模型。
可以看出,在所有子集中,Org和Enh ASR后端的学生模型都优于基线。在测试集上,相对基线的相对单词错误率(WER)降低了10%以上。
此外,在基线数据上的性能改进在真实数据上比在仿真数据上更为重要。这表明,在本申请实施例提出的框架中,学生模型受益于真实语音数据的利用。
将最后两行与前三行进行比较,本申请实施例可以看到,通过使用原始训练数据和增强训练数据对ASR模型进行再训练,可以进一步缓解ASR模型的训练条件与评估条件之间的不匹配。基准模型和学生模型的性能都得到了进一步提高。
3.3.3使用经过多风格训练的ASR进行评估
此外,本申请实施例使用在WSJ干净数据和CHiME4噪声数据上训练过的ASR模型执行评估,这被称为多样式训练过的ASR。
表3显示了经过多样式训练的ASR的评估结果。第一行显示了使用相同ASR模型结构的CHiME-4挑战的官方基准性能。Conv-TasNet基准和学生模型都显示出Org ASR后端的性能下降。这可能归因于ConvTasNet模型引入的失真以及训练和评估条件之间的不匹配。在某些先前的工作中也观察到了类似的现象[13,34]。在使用原始和增强的训练数据(EnhASR后端)对ASR模型进行再训练之后,与未处理的输入(第2行)相比,在发展实数集和模拟集上,学生模型分别显示约10.0%的相对性能提升。还观察到对评估实数集和模拟集的一致改进。但是,使用Enh ASR后端,基线Conv-TasNet模型仍然会降低ASR性能,这进一步表明了本申请实施例提出的方法的有效性。
表2:CHiME-4模拟和实际数据的WER(%)。所有结果均采用经过清洁条件训练的ASR模型获得。其中,real:真实信号,simu:模拟信号,其余中英文对照参考上文。
Figure BDA0003090567250000131
表3:CHiME-4模拟和实际数据的WER(%)。所有结果都是通过经过多样式训练的ASR模型获得的。
Figure BDA0003090567250000132
4结论
在本文中,本申请实施例提出了一种文本信息知识提炼框架,以在语音增强模型的训练中利用有文本标注的真实语音数据。本申请实施例证明,基于Conv-TasNet的教师模型配备了额外的音频-文本融合模块,可以提高增强语音的质量。此外,学生模型可以受益于对具有地面真实性参考的模拟语音数据和具有教师估计的参考的真实语音数据的训练。对学生模型的评估显示,在CHiME-4模拟开发和测试集上,Conv-TasNet基准上的绝对SDR增益分别为0.69dB和1.41dB。在下游语音识别任务上也观察到了WER降低方面的一致性能提升。在本申请实施例未来的工作中,本申请实施例希望在本申请实施例提出的框架中研究来自不同模式(例如视觉和说话人信息)的信息的有效性。
请参考图5,其示出了本发明一实施例提供的训练语音增广模型的装置的框图。
如图5所示,训练语音增广模型的装置500,包括教师模型训练程序模块510、标注程序模块520和学生模型训练程序模块530。
其中,教师模型训练程序模块510,配置为使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;标注程序模块520,配置为利用训练后的所述教师模型对真实语音数据进行标注;以及学生模型训练程序模块530,配置为使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
应当理解,图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如判断模块可以描述为当设备处于交互状态时,判断交互状态是否为播放场景的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如判断模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的训练语音增广模型的方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
利用训练后的所述教师模型对真实语音数据进行标注;
使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据训练语音增广模型的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至训练语音增广模型的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项训练语音增广模型的方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。训练语音增广模型的方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例训练语音增广模型的方法。输入装置630可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于训练语音增广模型的装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
利用训练后的所述教师模型对真实语音数据进行标注;
使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种训练语音增广模型的方法,包括:
使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
利用训练后的所述教师模型对真实语音数据进行标注;
使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广,
其中,所述教师模型包括三个模块:编码器、掩码估计器和解码器;
其中,所述掩码估计器学习从所述编码器生成的组合特征序列中为干净语音信号估计乘法掩码;所述解码器通过将所述乘法掩码表示转换回时域来网络重构所述干净语音信号,以及
其中,所述编码器包括三个子模块,即音频编码器,文本编码器和特征融合模块;
其中,所述音频编码器将输入波形转换为中间特征空间中的表示形式,所述文本编码器是一个可学习的嵌入字典,可将转录转换为特征空间,基于转换器的特征融合模块通过注意力机制将编码的文本特征和音频特征结合在一起,所述特征融合模块将编码的音频特征作为查询,将编码的文本特征作为关键字和值,以生成包含嵌入的文本和音频信息的组合特征序列。
2.根据权利要求1所述的方法,其中,所述训练学生模型包括:
在模拟语音数据和真实语音数据上训练学生语音增强模型,其中,参考信号分别来自模拟的地面真实情况和教师估计;
采用增强型输出学生和参考信号之间的SI-SNR进行损耗计算。
3.根据权利要求2所述的方法,其中,所述采用增强型输出学生和参考信号之间的SI-SNR进行损耗计算的公式如下:
Figure FDA0003824669890000011
其中,x表示参考纯净信号,
Figure FDA0003824669890000021
表示学生模型的增强信号,
Figure FDA0003824669890000022
表示教师模型的增强信号。
4.根据权利要求1所述的方法,其中,所述教师模型的训练过程表述为:
Figure FDA0003824669890000023
Figure FDA0003824669890000024
ey=FeatureFusion(ya,yt),
mx=MaskEstimator(ey),
Figure FDA0003824669890000025
Figure FDA0003824669890000026
其中,ya和yt分别表示时域音频信号及其对应的转录本的矢量表示;eya,eyt和ey分别代表编码后的音频特征,文本特征及其组合;mx代表估计的语音蒙版;参考纯净信号和所述教师模型的增强信号分别由x和
Figure FDA0003824669890000027
表示;
Figure FDA0003824669890000028
和x之间的信噪比作为所述教师模型训练的损失lossteacher
5.一种训练语音增广模型的装置,包括:
教师模型训练程序模块,配置为使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
标注程序模块,配置为利用训练后的所述教师模型对真实语音数据进行标注;
学生模型训练程序模块,配置为使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广,
其中,所述教师模型包括三个模块:编码器、掩码估计器和解码器;
其中,所述掩码估计器学习从所述编码器生成的组合特征序列中为干净语音信号估计乘法掩码;所述解码器通过将所述乘法掩码表示转换回时域来网络重构所述干净语音信号,以及
其中,所述编码器包括三个子模块,即音频编码器,文本编码器和特征融合模块;
其中,所述音频编码器将输入波形转换为中间特征空间中的表示形式,所述文本编码器是一个可学习的嵌入字典,可将转录转换为特征空间,基于转换器的特征融合模块通过注意力机制将编码的文本特征和音频特征结合在一起,所述特征融合模块将编码的音频特征作为查询,将编码的文本特征作为关键字和值,以生成包含嵌入的文本和音频信息的组合特征序列。
6.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4任一项所述方法的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
CN202110607065.2A 2021-05-28 2021-05-28 训练语音增广模型的方法和装置 Active CN113314107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110607065.2A CN113314107B (zh) 2021-05-28 2021-05-28 训练语音增广模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110607065.2A CN113314107B (zh) 2021-05-28 2021-05-28 训练语音增广模型的方法和装置

Publications (2)

Publication Number Publication Date
CN113314107A CN113314107A (zh) 2021-08-27
CN113314107B true CN113314107B (zh) 2022-10-21

Family

ID=77376825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110607065.2A Active CN113314107B (zh) 2021-05-28 2021-05-28 训练语音增广模型的方法和装置

Country Status (1)

Country Link
CN (1) CN113314107B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389576B (zh) * 2018-01-10 2020-09-01 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
US10643602B2 (en) * 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation
CN110347839B (zh) * 2019-07-18 2021-07-16 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN111079406B (zh) * 2019-12-13 2022-01-11 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及系统
CN111429931B (zh) * 2020-03-26 2023-04-18 云知声智能科技股份有限公司 一种基于数据增强的降噪模型压缩方法及装置
CN111627428B (zh) * 2020-05-15 2023-11-14 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111754985B (zh) * 2020-07-06 2023-05-02 上海依图信息技术有限公司 一种语音识别模型的训练以及语音识别的方法和装置
CN112786064B (zh) * 2020-12-30 2023-09-08 西北工业大学 一种端到端的骨气导语音联合增强方法

Also Published As

Publication number Publication date
CN113314107A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN110246487B (zh) 用于单通道的语音识别模型的优化方法及系统
CN111081259B (zh) 基于说话人扩充的语音识别模型训练方法及系统
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN110110337B (zh) 翻译模型训练方法、介质、装置和计算设备
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
Du et al. Speaker augmentation for low resource speech recognition
CN111667728B (zh) 语音后处理模块训练方法和装置
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN111710326A (zh) 英文语音的合成方法及系统、电子设备及存储介质
KR20220040050A (ko) 자연어 처리 모델 트레이닝 방법 및 장치와 컴퓨팅 장치
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN113160855B (zh) 在线语音活性检测系统改进方法和装置
CN111462734B (zh) 语义槽填充模型训练方法及系统
CN113314107B (zh) 训练语音增广模型的方法和装置
CN117012177A (zh) 语音合成方法、电子设备和存储介质
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
CN113593534B (zh) 针对多口音语音识别的方法和装置
CN113362829B (zh) 说话人验证方法、电子设备及存储介质
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
CN114267334A (zh) 语音识别模型训练方法及语音识别方法
CN111783434A (zh) 提升回复生成模型抗噪能力的方法及系统
Zeineldeen et al. Robust knowledge distillation from rnn-t models with noisy training labels using full-sum loss
CN113449491B (zh) 带有两阶段解码器的用于语言理解和生成的预训练框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant