CN113436643A

CN113436643A - 语音增强模型的训练及应用方法、装置、设备及存储介质

Info

Publication number: CN113436643A
Application number: CN202110714635.8A
Authority: CN
Inventors: 孙奥兰; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24

Abstract

本申请涉及人工智能语音增强领域，具体公开了语音增强模型的训练及应用方法、装置、设备及存储介质，通过将语音增强模型和声码器联合建模，得到了失真度小、拥有降噪能力的语音增强模型。方法包括：将干净语音模拟加噪得到带噪语音，根据干净语音和带噪语音确定目标时频掩码。对带噪语音提取带噪梅尔频谱特征并将其输入语音增强模型，输出预测时频掩码，根据预测时频掩码与目标时频掩码确定第一损失值。根据预测时频掩码与带噪梅尔频谱特征得到去噪梅尔频谱特征；将去噪梅尔频谱特征输入声码器得到合成语音，并根据合成语音与干净语音确定第二损失值。根据第一损失值和第二损失值优化语音增强模型和声码器的参数，得到训练好的语音增强模型。

Description

语音增强模型的训练及应用方法、装置、设备及存储介质

技术领域

本申请涉及人工智能语音增强领域，尤其涉及一种语音增强模型的训练方法、应用方法、装置、计算机设备及存储介质。

背景技术

语音合成技术已经能生成比较接近人声的语音，但是要建立一个高质量的语音合成系统，需要高质量语音训练数据。而高质量的语音数据通常需要在配备高端录音设备且混响和底噪非常低的消声室中录制。所以高质量语音数据的录制会耗费大量的成本，而如果在普通的室内环境录制，底噪和其他环境噪声以及混响都会被录音设备采集甚至放大。如果使用当前主流的深度神经网络的方法进行语音增强的话，往往会造成较大失真，使音频或者声学特征在进行语音合成模型训练之前就遭受较大的信息丢失。

发明内容

本申请提供了一种语音增强模型的训练方法、装置、计算机设备及存储介质，通过将语音增强模型和声码器联合建模以使语音增强模型能够直接针对语音合成任务进行收敛，得到了失真度小、拥有降噪能力的语音增强模型。

第一方面，本申请提供了一种语音增强模型的训练方法，所述方法包括：

将干净语音模拟加噪得到带噪语音，根据所述干净语音和所述带噪语音确定目标时频掩码；

对所述带噪语音提取带噪梅尔频谱特征，将所述带噪梅尔频谱特征输入所述语音增强模型，输出预测时频掩码，并根据所述预测时频掩码与所述目标时频掩码确定第一损失值；

根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征；将所述去噪梅尔频谱特征输入声码器得到合成语音，并根据所述合成语音与所述干净语音确定第二损失值；

根据所述第一损失值和所述第二损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型。

第二方面，本申请还提供了一种语音增强模型的应用方法，所述应用方法包括：

对待增强的带噪语音提取带噪梅尔频谱特征，并将所述带噪梅尔频谱特征输入训练好的语音增强模型，输出预测时频掩码；

根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征，将所述去噪梅尔频谱特征输入声码器得到合成语音。

第三方面，本申请还提供了一种语音增强模型的训练装置，所述训练装置包括：

目标时频掩码确定模块，用于将干净语音模拟加噪得到带噪语音，根据所述干净语音和所述带噪语音确定目标时频掩码；

第一损失值确定模块，用于对所述带噪语音提取带噪梅尔频谱特征，将所述带噪梅尔频谱特征输入所述语音增强模型，输出预测时频掩码，并根据所述预测时频掩码与所述目标时频掩码确定第一损失值；

第二损失值确定模块，用于根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征；将所述去噪梅尔频谱特征输入声码器得到合成语音，并根据所述合成语音与所述干净语音确定第二损失值；

模型输出模块，用于根据所述第一损失值和所述第二损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型。

第四方面，本申请还提供了一种语音增强模型的应用装置，所述应用装置包括：

时频掩码预测模块，用于对待增强的带噪语音提取带噪梅尔频谱特征，并将所述带噪梅尔频谱特征输入训练好的语音增强模型，输出预测时频掩码；

语音增强模块，用于根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征，将所述去噪梅尔频谱特征输入声码器得到合成语音。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音增强模型的训练方法或语音增强模型的应用方法。

第六方面，本申请还提供了一种计算机可读存储，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语音增强模型的训练方法或语音增强模型的应用方法。

本申请公开了一种语音增强模型的训练及应用方法、装置、计算机设备及存储介质，将语音增强模型和声码器联合建模的方式，将语音增强模型的时频掩码损失值和声码器合成语音的损失值共同作为语音增强模型的优化目标，使语音增强模型能够直接针对语音合成任务进行收敛。通过本申请的训练方法得到的语音增强模型失真度小，拥有降噪能力，可以极大减少对语音库录制环境的依赖以及降低语音库录制的成本，使带噪语音库也能被用于语音合成系统的建立。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种语音增强模型的训练方法的示意流程图；

图2为本申请的实施例提供的一种语音增强模型的应用方法的示意流程图；

图3为本申请的实施例提供的一种语音增强模型的训练装置的示意性框图；

图4为本申请的实施例提供的一种语音增强模型的应用装置的示意性框图；

图5为本申请的实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

语音合成技术是根据输入的文字信息生成出可理解的、拟人的语音，其作为人机交互系统非常重要的一环，被广泛应用于各种人工智能终端，例如智能音箱、智能客户等。目前，主流的语音合成系统基本都能够合成非常稳定、可靠的语音，因此评判一个语音合成系统的性能主要是依据其合成声音的拟人程度，这对交互系统的体验有非常重要的影响。

虽然语音合成技术已经能生成比较接近人声的语音，但是要建立一个高质量的语音合成系统，需要高质量语音训练数据。而高质量的语音数据通常需要在配备高端录音设备且混响和底噪非常低的消声室中录制。所以高质量语音数据的录制会耗费大量的成本，而如果在普通的室内环境录制，底噪和其他环境噪声以及混响都会被录音设备采集甚至放大。如果使用当前主流的深度神经网络的方法进行语音增强的话，往往会造成较大失真，使音频或者声学特征在进行语音合成模型训练之前就遭受较大的信息丢失。

为了得到干净的声学特征，本申请提出了一种将基于深度神经网络的语音增强模型和基于深度神经网络的声码器连接的端到端联合训练方法。通过将声码器合成的语音质量直接作为该系统的损失函数，结合前置环节的语音增强损失函数，可以使语音增强部分拥有降噪能力，并且声码器部分可以产生不带噪的干净语音。

请参阅图1，图1是本申请的实施例提供的一种语音增强模型的训练方法的示意流程图。该语音增强模型的训练方法可应用于服务器中，用于将语音增强模型与声码器联合训练，以使语音增强模型能够直接针对语音合成的损失收敛，从而得到失真度小、拥有降噪能力的语音增强模型。

如图1所示，该语音增强模型的训练方法具体包括步骤S101至步骤S104。

S101、将干净语音模拟加噪得到带噪语音，根据所述干净语音和所述带噪语音确定目标时频掩码；

具体的对干净语音进行加噪模拟得到带噪语音，根据干净语音和带噪语音得到得到目标时频掩码，将干净语音和带噪语音一一对应，形成训练数据集，该训练数据集包括：干净语音、带噪语音以及根据干净语音和带噪语音所确定的目标时频掩码。

在一些实施例中，在对干净语音进行加噪处理时，可以根据干净语音信号的采样频率和要求的信噪比来进行模拟加噪得到带噪语音。

在一些实施例中，可以选取理想二值掩码(ideal binary mask，IBM)作为目标时频掩码，对于带噪语音，理想二值掩码的公式表征为：

其中，t和f分别表示时间和频率；如果SNR大于本地判决准则(LC，localcriterion)则掩码取1，否则取0。

在一些实施例中，可以选取幅度谱掩码(Spectral Magnitude Mask,SMM)作为目标时频掩码。SMM通过纯净语音和带噪语音信号的幅度谱获取掩码值，公式表征为：

其中，t和f分别表示时间和频率；在频域对带噪语音乘以SMM掩码，然后通过逆变换到时域。

在一些实施例中，还可以选取理想浮值掩码、相位敏感掩码(Phase SensitiveMask，PSM)、复数理想浮值掩码(Complex Ideal Ratio Mask，cIRM)、等时频掩码作为目标时频掩码，具体根据实验数据和使用场景进行选取，本申请对此不作限定。

S102、对所述带噪语音提取带噪梅尔频谱特征，将所述带噪梅尔频谱特征输入所述语音增强模型，输出预测时频掩码，并根据所述预测时频掩码与所述目标时频掩码确定第一损失值。

具体的，对带噪语音通过重采样、预加重、分帧、加窗、梅尔滤波器组得到的梅尔频谱特征。梅尔频谱特征表征了人耳对于听觉声音的敏感程度，比较容易提取、特征更加直观、易于用于端到端建模、信息损失较少、可以用于联合训练。

将提取的带噪梅尔频谱特征输入语音增强模型，以预测时频掩码为训练目标之一，对语音增强模型进行训练，并根据预测时频掩码与目标时频掩码确定第一损失值。

在一些实施例中，语音增强模型是基于深度神经网络(DNN)的语音增强模型。深度神经网络的具体网络结构，可以根据计算任务进行按需选取，本申请对此不作限定。

S103、根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征，将所述去噪梅尔频谱特征输入声码器得到合成语音，并根据所述合成语音与所述干净语音确定第二损失值。

具体的，将所述去噪梅尔频谱特征输入声码器，声码器输出合成语音。得到合成语音后，根据干净语音和合成语音间的相似度关系来确定第二损失值，先将两段语音值分别转换到梅尔频谱域之后，再根据L2-MSE均方误差损失函数计算干净语音和合成语音之间的损失以确定第二损失值。其中，声码器是一种将声学特征转换成语音波形的工具。

在一些实施例中，本申请的声码器为基于深度神经网络(DNN)的声码器。

示例性地，可采用WaveNet实现梅尔频谱特征到语音的转换。WaveNet一种可训练的基于深度神经网络的声码器，可生成高质量的语音波形。

示例性地，可采用WaveRNN实现梅尔频谱特征到语音的转换。WaveRNN为另一种可训练的基于深度神经网络的声码器，可生成高质量高保真的语音波形。

S104、根据所述第一损失值和所述第二损失值优化所述语音增强模型的参数，得到训练好的语音增强模型。

具体的，将第一损失值与第一预设权重相乘得到加权后的第一损失值，将第二损失值与第二预设权重相乘得到加权后的第二损失值，将所述加权后的第一损失值和所述加权后的第二损失值求和确定总损失值，根据所述总损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型。

示例性的，当第一预设权重和第二预设权重都为1时，通过将该第一损失值与第二损失值直接进行相加确定总损失值，并基于该总损失值迭代优化语音增强模型和声码器的参数，当所述总损失值小于预设阈值时，得到训练好的语音增强模型。

通过将语音增强模型的时频掩码损失值和声码器合成语音的损失值共同作为语音增强模型的优化目标，使语音增强模型能够直接针对语音合成任务进行收敛。通过本申请的训练方法得到的语音增强模型失真度小，拥有降噪能力，可以极大减少对语音库录制环境的依赖以及降低语音库录制的成本，使带噪语音库也能被用于语音合成系统的建立。

请参阅图2，图2是本申请的实施例提供的一种语音增强模型的应用方法的示意流程图，该语音增强模型根据上述方法训练得到。该语音增强模型的应用方法可应用于服务器中，以实现对带噪语音进行语音增强得到干净的语音。

如图2所示，该语音增强模型的应用方法具体包括步骤S201至步骤S202。

S201、对待增强的带噪语音提取带噪梅尔频谱特征，并将所述带噪梅尔频谱特征输入训练好的语音增强模型，输出预测时频掩码；

S202、根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征，将所述去噪梅尔频谱特征输入声码器得到合成语音。

通过基于训练得到的语音增强模型对待噪语音进行增强，得到去噪的声学特征，进而可以将去噪的声学特征用于常规的语音合成系统训练，进而降低了语音合成系统对语音库录制环境的依赖，降低了语音库录制的成本。

请参阅图3，图3是本申请的实施例提供一种语音增强模型的训练装置的示意性框图，该语音增强模型的训练装置用于执行前述的语音增强模型的训练方法。其中，该语音增强模型的训练装置可以配置于服务器。

如图3所示，该语音增强模型的训练装置300，包括：

目标时频掩码确定模块301，用于将干净语音模拟加噪得到带噪语音，根据所述干净语音和所述带噪语音确定目标时频掩码；

第一损失值确定模块302，用于对所述带噪语音提取带噪梅尔频谱特征，将所述带噪梅尔频谱特征输入所述语音增强模型，输出预测时频掩码，并根据所述预测时频掩码与所述目标时频掩码确定第一损失值；

第二损失值确定模块303，用于根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征；将所述去噪梅尔频谱特征输入声码器得到合成语音，并根据所述合成语音与所述干净语音确定第二损失值；

模型输出模块304，用于根据所述第一损失值和所述第二损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音增强模型的训练装置和各模块的具体工作过程，可以参考前述语音增强模型的训练方法实施例中的对应过程，在此不再赘述。

请参阅图4，图4是本申请的实施例提供一种语音增强模型的应用装置的示意性框图，该语音增强模型的应用装置用于执行前述的语音增强模型的应用方法。其中，该语音增强模型的应用装置可以配置于服务器。

如图4所示，该语音增强模型的应用装置400，包括：

时频掩码预测模块401，用于对待增强的带噪语音提取带噪梅尔频谱特征，并将所述带噪梅尔频谱特征输入训练好的语音增强模型，输出预测时频掩码；

语音增强模块402，用于根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征，将所述去噪梅尔频谱特征输入声码器得到合成语音。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音增强模型的应用装置和各模块的具体工作过程，可以参考前述应用方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5示的计算机设备上运行。

请参阅图5，图5是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。

参阅图5，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音增强模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音增强模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现根据总损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型时，用于实现：将第一损失值与第一预设权重相乘得到加权后的第一损失值；将第二损失值与第二预设权重相乘得到加权后的第二损失值；将所述加权后的第一损失值和所述加权后的第二损失值求和确定总损失值；根据所述总损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型。

在一个实施例中，所述处理器在实现根据所述合成语音与所述干净语音确定第二损失值时，用于实现：将所述干净语音和所述合成语音转换到梅尔频谱域，根据均方误差损失函数计算所述干净语音和所述合成语音在梅尔频谱域的均方误差值，得到所述第二损失值。

在一个实施例中，所述处理器在实现语音增强模型的训练方法时，用于实现：所述时频掩码包括如下至少一种：理想二值掩码、理想浮值掩码、幅度谱掩码、相位敏感掩码以及复数理想浮值掩码。

在一个实施例中，所述处理器在实现语音增强模型的训练方法时，用于实现：所述语音增强模型基于深度神经网络训练得到的；述声码器为可训练的基于深度神经网络的声码器，其中，所述可训练的基于深度神经网络的声码器包括：WaveNet、WaveRNN。

在一个实施例中，所述处理器在实现应用所述语音增强预测模型进行语音增强时，用于实现：

本申请的实施例中还提供一种计算机可读存储，所述存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语音增强模型的训练方法。

其中，所述存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音增强模型的训练方法，其特征在于，包括：

根据所述预测时频掩码与所述带噪梅尔频谱特征得到去噪梅尔频谱特征，将所述去噪梅尔频谱特征输入声码器得到合成语音，并根据所述合成语音与所述干净语音确定第二损失值；

2.根据权利要求1所述的语音增强模型的训练方法，其特征在于，所述方法包括：

将第一损失值与第一预设权重相乘得到加权后的第一损失值；

将第二损失值与第二预设权重相乘得到加权后的第二损失值；

将所述加权后的第一损失值和所述加权后的第二损失值求和确定总损失值；

根据所述总损失值优化所述语音增强模型和所述声码器的参数，得到训练好的语音增强模型。

3.根据权利要求1所述的语音增强模型的训练方法，其特征在于，所述根据所述合成语音与所述干净语音确定第二损失值包括：

将所述干净语音和所述合成语音转换到梅尔频谱域，根据均方误差损失函数计算所述干净语音和所述合成语音在梅尔频谱域的均方误差值，得到所述第二损失值。

4.根据权利要求1所述的语音增强模型的训练方法，其特征在于，所述时频掩码包括如下至少一种：

理想二值掩码、理想浮值掩码、幅度谱掩码、相位敏感掩码、以及复数理想浮值掩码。

5.根据权利要求1-4任一项所述的语音增强模型的训练方法，其特征在于，包括：

所述语音增强模型基于深度神经网络训练得到的；

所述声码器为可训练的基于深度神经网络的声码器，其中，所述可训练的基于深度神经网络的声码器包括：WaveNet、WaveRNN。

6.一种语音增强模型的应用方法，其特征在于，所述语音增强模型是根据权利要求1-5中任一项所述的方法训练得到的，所述应用方法包括：

7.一种语音增强模型的训练装置，其特征在于，包括：

8.一种语音增强的应用装置，其特征在于，所述语音增强模型是根据权利要求1-5中任一项所述的方法训练得到的，所述应用装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-5中任一项所述的语音增强模型的训练方法或权利要求6所述的语音增强模型的应用方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1-5中任一项所述的语音增强模型的训练方法或权利要求6所述的语音增强模型的应用方法。