CN114678036A

CN114678036A - 语音增强方法、电子设备和存储介质

Info

Publication number: CN114678036A
Application number: CN202210474991.1A
Authority: CN
Inventors: 俞凯; 江文斌
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-06-28

Abstract

本发明公开一种语音增强方法、电子设备和存储介质。在该方法中，确定待增强的原始语音所对应的倒谱域信号；分解所述倒谱域信号所对应的声门激励分量信号和声道系统分量信号；基于倒谱分析逆系统模块，对所述声门激励分量信号和所述声道系统分量信号进行时域变换和降噪处理；基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音。由此，实现了语音分析、合成与降噪三者的有机融合，从而能实现模型复杂度更低、降噪性能更好的语音增强系统。

Description

语音增强方法、电子设备和存储介质

技术领域

本发明属于语音增强技术领域，尤其涉及一种语音增强方法、电子设备和存储介质。

背景技术

数字语音通信、语音识别、说话人识别等技术已经日趋成熟，并应用于日常生活中。但制约着这些技术进一步发展和应用的瓶颈在于：这些技术在实验室的理想环境下能得到很好的效果，但在日常应用中往往由于环境噪声的干扰而使得语音通信质量、正确识别率大大降低。语音增强技术能去除语音中的干扰噪声，提升语音通话质量、提升语音识别性能。

语音增强技术的研究已经有数十几年的历史，主要分为基于统计信号处理的传统方法，以及近几年发展的基于深度神经网络的方法。基于深度神经网络的语音增强是一种数据驱动的方法，其主要可以分为短时傅里叶变换域方法、以及网络输入和输出均为时域信号的端到端方法。另一类采用神经网络的方法是将语音降噪模块和生成模型的声码器相结合，得到一种基于声码器的语音降噪系统。

然而，一方面，基于统计信号处理的语音增强方法，较依赖于噪声估计算法，噪声估计算法能较为准确地估计稳态噪声，但对非稳态噪声的估计表现较差。另一方面，基于深度神经网络的方法，存在依赖大量训练数据的问题，从而导致在开放测试集上降噪效果欠佳。

针对上述问题，目前业界暂未提供较佳的解决方案。

发明内容

本发明实施例提供一种语音增强方法、电子设备和存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音增强方法，包括：确定待增强的原始语音所对应的倒谱域信号；分解所述倒谱域信号所对应的声门激励分量信号和声道系统分量信号；基于倒谱分析逆系统模块，对所述声门激励分量信号和所述声道系统分量信号进行时域变换和降噪处理；基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音。

第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述方法的步骤。

本发明实施例的有益效果在于：通过本发明实施例，使用语音信号的分析方法将语音分解为声门激励和声道系统，再对分解后的信号进行降噪处理，最后合成最终的语音信号。由此，实现了语音分析、合成与降噪三者的有机融合，从而能实现模型复杂度更低、降噪性能更好的语音增强系统。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的语音增强方法的一示例的流程图；

图2示出了根据本发明实施例的一示例的语音增强系统的系统结构框架示意图；

图3示出了一示例的用于语音合成的源过滤器模型的简化示意图；

图4示出了针对如图2所示的语音增强系统进行配置操作的一示例的流程图；

图5示出了示例性的深度神经网络的结构；

图6示出了根据本发明实施例的一示例的基于复倒谱分析与合成的神经网络语音增强系统的系统架构示意图；

图7示出了根据本发明实施例的一示例的基于实倒谱分析与合成的神经网络语音增强系统的系统架构示意图；

图8示出了不同类型的语音增强方法在已知噪声和未知噪声处理时的效果示意图；

图9示出了针对不同类型的语音增强方法在具有不同模型参数数量时的性能表现效果对比示意图；

图10为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需说明的是，单声道语音增强是语音信号处理中最具挑战性的任务之一，旨在抑制观测到的嘈杂语音中的干扰噪声，以提高语音质量和可懂度，对于在移动电信、语音识别、助听器等业务场景具有积极的应用。目前，经典的基于统计的方法已经被广泛研究了几十年。

在目前相关技术中，为了实现模型复杂度更低、泛化性能更好的神经网络语音增强方法，当前研究领域均趋向于设计更为精妙的网络结构，以及通过剪枝、量化等方法降低模型复杂度。然而，这些方法均没有考虑语音信号本身的特性，一般只在时频域估计时频掩膜或者直接估计纯净语音信号。

另外，目前有一些专家和学者已经设想了结合去噪自动编码器和文本到语音(TTS)声码器的联合框架，以实现语音去噪。尽管这些方法的有效性已得到很好的证明，但这些方法的计算复杂度太高，而无法在实践中应用。

图1示出了根据本发明实施例的语音增强方法的一示例的流程图。关于本发明实施例的执行主体，其可以是各种类型的具有处理能力的电子设备，其可以是诸如电脑、手机、智能机器人等各类电子设备，通过搭载如本发明实施例的语音增强系统以为设备实现对录制或播报语音的优化功能。

如图1所示，在步骤110中，确定待增强的原始语音所对应的倒谱域信号。应理解的是，倒谱域信号是信号短时振幅谱(功率谱)的对数傅里叶反变换的信号，它具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。

在步骤120中，分解倒谱域信号所对应的声门激励分量信号和声道系统分量信号。这里，声门激励信号是语音信号的源信号并可用于语音特征参数的有效提取。具体地，可以采用同态滤波模块(例如，倒谱域线性滤波器模块)，将倒谱域信号分解为声门激励和声道系统两部分。

在步骤130中，基于倒谱分析逆系统模块，对声门激励分量信号和声道系统分量信号进行时域变换和降噪处理。这里，倒谱分析逆系统模块除了具备用于将倒谱域信号变换到时域信号的倒谱时域逆分析功能之外，还可以具备对各分量信号进行降噪处理。

在步骤140中，基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音。具体地，可以将降噪后的声门激励分量时域信号和声道系统分量时域信号进行重叠相加，得到目标语音。

在本发明实施例的一些示例中，倒谱域信号分析操作是针对特定帧格式的语音数据进行的。相应地，在步骤110之前，获取待增强的原始语音的采样率，并按照与采样率对应的帧长和帧移，对待增强的原始语音进行加窗和分帧处理，以满足后续倒谱域分析操作的帧格式要求。

在本发明实施例的一些实施方式中，语音增强系统具有多种可供选择、切换的倒谱域分析模式，以满足不同业务场景的语音增强需求。具体地，语音增强系统可以同时兼容基于复倒谱和实倒谱分析与合成的两种神经网络语音增强方法。一方面，在选择使用复倒谱分析的神经网络语音增强方法时，基于复倒谱分析与合成的方法，由于能同时处理相位信息，理论上能实现最优的降噪效果。另一方面，在选择使用基于实倒谱分析与合成的方法时，能实现算法复杂度更低的降噪模型。

关于上述步骤110的实施细节，具体地，可以获取当前的倒谱分析模式。一方面，当处于复倒谱分析模式时，确定待增强的原始语音所对应的带相位信息的复倒谱信号，另一方面，当处于实倒谱分析模式时，确定原始语音所对应的无相位信息的实倒谱信号和相位信息。由此，可以通过切换倒谱分析模式，来实现更优的降噪效果或更低的模型复杂度，以满足不同业务场景的语音增强需要。

进一步地，在不同的倒谱分析模式下，最终进行语音合成时的时域分量叠加方式也会存在差异。具体地，关于上述步骤140的实施细节，当处于复倒谱分析模式时，时域语音信号中带有相位信息，可以直接将降噪后的声门激励分量时域信号和声道系统分量时域信号进行圆周卷积，并能基于圆周卷积之后的语音直接进行重叠相加而得到合成语音。

另一方面，当处于实倒谱分析模式时，关于上述步骤140的实施细节，时域语音信号中不具备相位信息，需要在语音合成时进行相位叠加。具体地，可以将降噪后的声门激励分量时域信号和声道系统分量时域信号进行圆周卷积，继而基于圆周卷积之后的语音和相位信息进行重叠相加，得到合成语音。

图2示出了根据本发明实施例的一示例的语音增强系统的系统结构框架示意图。

如图2所示，语音增强系统被配置成具备微分信号同态分析与合成结构，包含顺序级联的三个部分组成，即语音信号分解部分、语音降噪部分(集成在倒谱分析逆系统模块中)和语音合成部分，实现了语音分析、合成与降噪三者的有机融合，而不是简单地将降噪模块和声码器进行级联，从而能实现模型复杂度更低、降噪性能更好的语音增强。

具体地，语音增强系统包括预处理模块、倒谱分析系统模块、同态滤波模块、倒谱分析逆系统模块、圆周卷积模块和后处理模块。

预处理模块，对信号进行加窗和分帧处理。例如，对于采样率为16kHz的语音，使用汉明窗分帧，帧长为512个采样点(即32ms)，帧移为128个采样点(即8ms)。

倒谱分析系统模块，将预处理后的语音变换到倒谱域。在一些情况下，设备能够被选定倒谱分析模式，例如根据是否保留相位，可以分为复倒谱分析和实倒谱分析两种方法，分别对应两种语音增强方案，后续进行详细介绍。

同态滤波模块，可以采用倒谱域线性滤波器模块，将上个模块得到的倒谱域信号分解为声门激励和声道系统两部分。

倒谱分析逆系统模块，将倒谱域信号变换到时域。同样，基于不同的倒谱分析模式，该模块根据是否为带相位信息处理，可以分为复倒谱分析逆系统和最小相位重建两种方法，分别对应上述两种语音增强方案。

圆周卷积模块，将上个模块变换到时域的声门激励和声道系统两部分进行圆周卷积。

后处理模块，将圆周卷积之后的语音进行重叠相加得到最终的合成语音。此外，如果为实倒谱分析则另外需要叠加原始的相位。

进一步地，基于如图2所示的系统结构框架，本发明实施例分别提出了基于复倒谱和实倒谱分析与合成的两种神经网络语音增强方法，以满足不同业务场景的语音增强需求，具体操作细节将在下文中展开。

需说明的是，无论是基于复倒谱分析与合成、还是基于实倒谱分析与合成的语音增强系统中，都可以在倒谱分析逆系统模块中配置降噪神经网络，并能采用可训练的深度神经网络。由此，实现了语音分析、合成与降噪三者的有机融合，而不是简单地将降噪模块和声码器进行级联，从而能实现模型复杂度更低、降噪性能更好的语音增强。

通过本发明实施例，提出了一种基于NHS-SE(Neural Homomorphic Synthesisfor Speech Enhancement,神经同态合成)的语音增强方法，语音信号首先通过复倒谱分析分解为激励和声道，然后应用两个复值神经网络来估计分解成分的目标复谱，进而从估计的激励和声道合成时域语音信号。通过实验结果表明，NHS-SE在PESQ(PerceptualEvaluation of Speech Quality,客观语音质量评估)和eSTOI(extended short-timeobjective intelligibility,扩展的短时客观可理解性)方面都优于现有的最先进的深度复杂卷积循环网络(DCCRN)。

但需说明的是，与目前基于TF域的方法相比，NHS-SE有两个缺点：合成过程引入了一些人工噪声，并且模型参数的数量增加了一倍。

为了克服这些缺点，本发明实施例方法一方面提出了一种基于实倒谱分析与合成的高效语音增强方法。语音信号首先通过真实倒谱分析分解为激励和人声。然后，使用两个实值卷积循环网络(CRN)来估计分解后的分量的目标幅度谱，并从估计的分量中合成时域最小相位语音信号。最后，通过合成最小相位语音信号和原始噪声相位得到增强语音。

通过本发明实施例方法提出了一种新的语音增强方法，结合了基于数字信号处理(DSP)的声码器和基于DNN的频谱降噪器的优点，产生了与最先进算法相当的性能。此外，通过本发明实施例方法进行了广泛的实验，发现所提出的方法比CRN和DCCRN更有效，模型更紧凑(例如，100万个参数)。

图3示出了用于语音合成的简化源滤波器模型。源滤波器模型将语音表示为声源和线性声学滤波器的组合，广泛用于语音编码和语音合成。如图3所示，假设激励信号e(n)是由周期性脉冲p(n)和声门脉冲滤波器g(n)卷积生成的浊音，或者是由随机噪声发生器u(n)生成的清音。线性滤波器h(n)是语音合成中声道模型和辐射模型的结合，在本发明实施例的方法中简称为声乐系统。因此，离散时间语音信号是由e(n)和h(n)的卷积生成的。

下面将对如本发明的基于神经同态合成的高效语音增强方法进行描述。通常，TTS声码器可以从声学特征(例如，对数幅度谱)生成高质量语音，但是当声学特征被噪声降低时，合成语音的质量会急剧下降。相比之下，语音增强算法通常可以从嘈杂的语音中产生中等质量的语音，即使SNR相对较低。因此，可以预期将语音增强和声码器集成到一个集成中以获得高质量和高清晰度的语音。

在本发明实施例中，将基于复值神经网络的频谱降噪器集成到同态分析和合成声码器中。首先，对成帧语音x(n)进行复倒谱分析，得到复倒谱

之后，在复倒谱

上应用提升器l(n)以获得激励

和声道

随后，采用两个复倒谱逆系统得到对应的时域信号，

其中f_e{}和f_h{}是复杂的神经网络，分别用于估计目标激发和声道。

最后通过循环卷积和重叠加法得到合成语音。

在式(1)中，令

表示x(n)的傅里叶变换。

进而，应用复数对数后，得到

的虚部存在唯一性问题，即arg[X(e^jw]，X(e^jw)的相位角。目前的一些解决方案是对相位角应用展开(unwarp)操作，但会生成额外的相位相关信息(n_d)，其对应于添加到x(n)的循环延迟的样本数。

在数学上的合成步骤中，在傅里叶域中将n_d的相位添加到式(2)或在时域中应用n_d到式(3)的循环移位可以包裹先前的unwarp操作。然而，对于语音增强，很难从嘈杂的语音中估计干净语音的隐蔽n_d，利用复值神经网络来解决这个问题并保留相位展开。然而，这样处理容易引入人为噪声，其也是应用复杂倒谱分析和合成进行语音增强的主要挑战。

在用于语音增强的具有最小相位信号的神经同态合成模型中，语音增强和声码器之间的主要区别在于是否有噪声参考语音可用。声码器使用声学特征作为输入来合成语音，而语音增强使用嘈杂的参考语音。鉴于在复倒谱合成中估计相位解扭曲系数具有挑战性，而在语音增强中相位通常是可用的，本文将使用真实倒谱分析与合成进行语音增强。

语音波形被分割成带有窗口的帧，并应用了真正的倒谱分析管道，包括傅里叶变换、对数幅度和傅里叶逆变换。之后，应用升降机以获得激励和声道。右侧部分说明了神经同态合成的过程。分解后的激励和声道倒谱通过最小相位信号重构流水线进行时域变换，包括加窗、傅里叶变换、指数、神经网络前向传播和傅里叶逆变换。最后，通过两个分量的时域循环卷积得到语音信号，然后进行后处理，例如结合原始相位和重叠相加。

需说明的是，基于本发明实施例提供的语音增强模型应用了纯正的倒谱分析和合成，而不是复杂的。因此，原始语音的相位被用来合成最终的时域语音，这样可以有效避免复杂倒谱合成的人为噪声。此外，基于本发明实施例所提供的语音增强模型中的DNN只处理幅度谱，使得模型参数的数量可以相应减半。这样，基于图2所示出的语音增强系统，通过使用神经网络从嘈杂的语音中估计激励和声道的详细信息。

图4示出了针对如图2所示的语音增强系统进行配置操作的一示例的流程图。

如图4所示，步骤410为训练数据准备阶段。具体地，收集纯净语音和噪声数据，并将纯净语音和噪声数据按照不同信噪比进行混合得到带噪语音。示例性地，可以将带噪语音数据按照大致8:1:1的比例划分为训练集、校验集和测试集三部分，分别用于模型训练、超参数调试、以及模型测试。

在本发明实施例的一些示例中，通过使用中国普通话女性语料库和DEMAND噪声语料库，每个都以48kHz的采样率记录。语音语料库包含10000条女性说话者朗读的录音句子，总计约12小时的语音。DEMAND包含六个类别，每个类别三个环境，共18种噪声。DEMAND中的所有噪音录音都是使用16通道麦克风，固定长度可设为5分钟，这里仅使用单通道录音。

在实验中，中国普通话女性语料库和DEMAND噪声语料库这两个语料库都被下采样到16kHz。具体地，选择四个噪声类别和每个环境作为训练、验证和已知(seen)噪声测试集，选择另外两个噪声类别作为未知的测试数据来评估噪声泛化。噪声混合是通过将两个语料库与从均匀分布[-5dB,10dB]中随机采样的SNR水平混合而成的。因此，总共生成了100000个(10000个话语×10个噪声)混合。对于已知(unseen)噪声情况，分别选择9000、500和500个话语作为训练集、验证集和测试集。对于未知的噪声情况，选择每500个话语作为测试集。总共有36000个训练混合，总持续时间约为43小时，2000个验证混合，2000个已知噪声测试混合，3000个未知噪声测试混合。

步骤420为系统模型训练阶段。具体地，将原始带噪语音作为图2的语音增强系统的输入，经过预处理、倒谱分析系统、同态滤波、倒谱分析逆系统、圆周卷积以及后处理模块，得到系统输出的合成语音，其中的倒谱分析逆系统包含可训练的深度神经网络部分。此外，深度神经网络部分使用系统输出的合成语音与预期的纯净语音计算代价函数的误差值，将此误差值使用反向传播算法更新神经网络模型参数。在训练数据集上不断地迭代训练，当代价函数值在校验集上不再显著下降时停止训练。

所有的话语都由一个长度为32ms、跳数为8ms的汉明窗框起来，FFT长度为512，分离激励和声道的频率为29。对于多分辨率STFT损失配置,可以使用大小为(256,512,768,1024,1536,2048,3072,4096)的Hanning窗口，重叠率为75％，FFT大小设置为窗口大小的两倍，并可以利用PyTorch Lightning工具进行操作。

需说明的是，在模型训练时，本发明的发明人尝试使用过多种类型的误差代价函数来进行效果对比实验，具体包括：最小均方误差代价函数，语音降噪和分离任务常用的信噪比、尺度不变信噪比、加权信失比代价函数，以及神经网络声码器常用的多分辨率短时傅里叶变换代价函数，等等。通过最终的实验结果表明，多分辨率STFT(Short-Time FourierTransform,短时傅里叶变换)代价函数取得的降噪性能优于其他损失函数。

通过本发明实施例，采用卷积循环网络架构来估计激励和声道的幅度谱，并使用多分辨率STFT损失来训练神经网络。

图5示出了示例性的深度神经网络的结构，该网络遵循“沙漏”(也称为“编码器-解码器”)架构，将卷积块用于高级特征提取，并将循环网络块用于时间建模。为简要起见，图中省略了其他构建块(例如，批量标准化、激活)。当所有构建块都是实值层时，该结构就构成了一个CRN。尽管所有构建块都扩展到复值层，但它构成了DCCRN。

应该注意的是，从噪声输入到干净目标输出的屏蔽连接是可选的。当应用连接时，神经网络O_t,f的输出被认为是一个掩码

估计的频谱

是通过将估计的掩码

与输入频谱X_t,f相乘来计算的，即

而当不应用掩码连接时，网络直接输出估计的复谱，即

令x、y和n分别表示带噪语音、干净语音和加性噪声，其对应的信号模型为x＝y+n。语音增强的目标是在给定观察到的嘈杂语音x的情况下获得干净语音y的估计

也就是说，找到一个满足

的函数f。在本发明所提供的方法中，采用语音和音频合成中常用的多分辨率STFT损失来训练神经网络。

具体地，用X_i和

分别表示时域语音x和

的第i个分辨率的STFT变换，则第i个分辨率的STFT损失定义为：

式中，||·||_F和||·||₁分别表示Frobenius范数和L₁范数。

此外，通过实验结果表明，添加时域语音的L1损失可以进一步提高语音质量，继而在本方法中也被应用于波形域语音增强。总体而言，多分辨率STFT(MR-STFT)损失定义为

式(5)中，I表示STFT分辨率的个数，

表示信号时域的L₁代价函数。

步骤430为系统模型推理阶段。具体地，当模型在测试集上的性能达到预期效果后，将模型和系统部署到芯片、嵌入式设备或者服务器上。语音增强模型推理阶段按照图2中的系统操作图例的从左到右的流程，输入为带噪语音，输出为降噪后的语音。

图6示出了根据本发明实施例的一示例的基于复倒谱分析与合成的神经网络语音增强系统的系统架构示意图。应理解的是，为了简洁描述，在如图6中的系统架构中省略了预处理模块。

当处于复倒谱分析模式时，倒谱分析逆系统模块采用复倒谱分析逆系统模块，以确定复倒谱信号所对应的时域信号。

下面将主要介绍复倒谱分析系统和复倒谱分析逆系统这两个模块，其它模块可以参照上文中如图2的语音增强系统的相关描述，此处不再赘述。

具体地，如图6所示，复倒谱分析系统模块包括顺序级联的傅里叶变换、复对数计算、以及傅里叶反变换三个子模块，其输出为带相位信息的复倒谱信号。

需说明的是，因为傅里叶变换后的数据为复数频谱，所以此处的降噪神经采用了复数神经网络结构。复数神经网络结构的每个组成单元均是常用的实数神经网络结构单元的扩展，其使用复数运算规则对复数的实部和虚部进行加减乘法运算。

图7示出了根据本发明实施例的一示例的基于实倒谱分析与合成的神经网络语音增强系统的系统架构示意图。应理解的是，为了简洁描述，在如图7中的系统架构中省略了预处理模块。

当处于实倒谱分析模式时，倒谱分析逆系统模块采用最小相位重建系统，以确定实倒谱信号所对应的时域信号。

具体地，如图7所示，实倒谱分析模块包括顺序级联的傅里叶变化、取幅度谱、取对数、傅里叶反变换三个子模块，其输出为无相位信息的实倒谱信号。另外，在傅里叶变换之后，将相位单独取出，作为后续后处理模块的输入。

进一步地，最小相位信号重建模块包括加窗-傅里叶变换、指数计算、降噪神经网络、傅里叶反变换四个子模块。其中，傅里叶变换之后的数据只取实数部分，对应信号的幅度谱，降噪神经网络为常用的实数神经网络。故而，由于神经网络只处理实数部分，所以神经网络模型参数量可以减小一半。

需说明的是，在本发明的发明人实践本发明的过程中发现，在降噪模块与信号分析、合成系统进行融合的时候，分别考虑了将降噪神经网络模块放在倒谱分析系统部分和倒谱分析逆系统部分，并分别进行了实验结果验证。通过实验结果表明，放在倒谱分析逆系统部分是行之有效的方案。

此外，降噪神经网络的具体位置可以防止在傅里叶变换子模块之前和之后、以及傅里叶反变换子模块之前和之后。同样，通过实验结果表明，将降噪神经网络放在傅里叶反变换子模块之前相较于其他方案能得到更好的降噪性能。

需说明的是，语音增强技术和声码器技术是语音信号处理领域两个不同应用方向：语音增强倾向于在短时傅里叶变换频域进行处理；声码器倾向于提取更能表征信号特点的声学特征，如基音频率、频谱包络、激励信号、声道系统等等，再使用这些声学特征合成语音。

通过本发明实施例所提供的技术方案，提出了将语音增强模块和声码器融合为一个整体，并且不是简单地将降噪模块和声码器两个部分进行级联，实现算法复杂度较低、降噪性能较好的语音增强方法，是语音增强领域是一种全新的技术尝试与实践。

本发明的发明人在实践如本发明的方案的过程中，将如本发明的NHS-MagSE(用以表示基于神经同态合成的语音增强方法)与目前较先进的使用vanilla CRN和基于DCCRN的语音增强方法进行了对比实验，仅操作幅度谱的基于普通CRN的语音增强方法表示为CRN-MagSE，。

具体地，DCCRN的网络架构的设置为，通道数、内核大小和步幅设置分别为{16、32、64、128、128、128}、(5,2)和(2,1)。NHS-MagSE使用两个CRN，一个模拟激励，另一个模拟声道。对于CRN-MagSE和DCCRN，采用了图5中显示的掩码连接；而对于NHS-MagSE，则未采用。

为了公平比较，CRNMagSE和NHS-MagSE的参数数量设置为与DCCRN相同(即3.7M)。CRN-MagSE每层的通道数设置为{60、128、128、128、128、256}，内核大小和步幅保持不变。相应地，NHS-MagSE的每个CRN的参数数量设置为1.85M。因此，NHS-MagSE的每层中的通道数设置为{32、64、96、128、128、128}。

在实验结果评价和分析方面，采用了PESQ、eSTOI和SI-SNR(Scale-InvariantSNR,尺度不变信噪比)来评估增强语音的质量。在模型参数数量为3.7M的情况下进行了实验。实验结果如图8所示的图表，其中每种情况下的最佳结果被以粗体突出显示。具体地，已知噪声包含四种环境(即DKITCHEN、OMEETING、PCAFETER、TBUS)，而未知噪声包含两类(即自然和街道)，已知和未知噪声的平均分数列在第三列和第四列，总平均分列在最后一列。

通过表中的实验结果表明，1)CRN-MagSE方法在所有指标中获得了最差的结果；2)DCCRN在PESQ和eSTOI指标方面获得最高分；3)于本发明实施例方法提出的NHS-MagSE在已知噪声情况下的PESQ和所有情况下的SI SNR方面获得最高分。通过表示结果，可以得出以下结论，尽管所提出的NHS-MagSE仅在幅度谱上进行操作，但它依然实现了与最先进的基于复杂DNN的语音增强方法相当的性能。

进一步地，本发明的发明人还对CRN-MagSE、DCCRN和NHS-MagSE在不同模型参数数量下的性能进行了对比实验。图9示出了三类模型在具有不同模型参数数量下的性能曲线图。

如图9所示，与参数数量为7.4M的NHS-SE相比，NHS-MagSE的模型参数数量减少了一半。而且，更有优势的是，于本发明实施例提出的方法中的增强语音中没有人为噪声。

进一步地，在实验中，还使用更紧凑的模型进行了额外的对比实验，例如3.0、2.0和100万。通过减少卷积层中的通道数来减少模型参数(Model parameters)的数量。如图9所示，当DCCRN中的通道数减少到{8、16、32、64、64、128}时，参数数量减少了2.0M。

从图9的结果可以看出，所有比较方法的性能都随着模型参数数量的减少而逐渐下降。然而，在模型参数较少的情况下，所提出的NHS-MagSE是最有效的。例如，当模型参数数量为1.0M时，NHSMagSE的PESQ和SI-SNR得分分别为2.485和17.548dB，而DCCRN的得分分别为2.246和15.693dB。

通过实验结果表明，基于实值DNN的语音增强方法的上限低于复值方法的上限。然而，由于模型参数数量的限制，所提出的基于实值DNN的NHS-MagSE比最先进的基于复值DNN的方法更有效。

因此，基于本发明实施例所提供的同态分析和合成的新型语音增强方法，多分辨率STFT损失在PESQ和eSTOI方面表现优于其他损失。通过使用多分辨率STFT损失，所提出的方法在已知噪声和未知噪声方面都优于其他语音增强方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音增强方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音增强方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音增强方法。

图10是本发明另一实施例提供的执行语音增强方法的电子设备的硬件结构示意图，如图10所示，该设备包括：

一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。

执行语音增强方法的设备还可以包括：输入装置1030和输出装置1040。

处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1020作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的语音增强方法对应的程序指令/模块。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音增强方法。

存储器1020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音增强设备的使用所创建的数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1020可选包括相对于处理器1010远程设置的存储器，这些远程存储器可以通过网络连接至语音增强设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1030可接收输入的数字或字符信息，以及产生与语音增强设备的用户设置以及功能控制有关的信号。输出装置1040可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1020中，当被所述一个或者多个处理器1010执行时，执行上述任意方法实施例中的语音增强方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音增强方法，包括：

确定待增强的原始语音所对应的倒谱域信号；

分解所述倒谱域信号所对应的声门激励分量信号和声道系统分量信号；

基于倒谱分析逆系统模块，对所述声门激励分量信号和所述声道系统分量信号进行时域变换和降噪处理；

基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音。

2.根据权利要求1所述的方法，其中，所述确定待增强的原始语音所对应的倒谱域信号，包括：

获取当前的倒谱分析模式；

当处于复倒谱分析模式时，确定待增强的原始语音所对应的带相位信息的复倒谱信号；

当处于实倒谱分析模式时，确定所述原始语音所对应的无相位信息的实倒谱信号和相位信息。

3.根据权利要求2所述的方法，其中，所述基于倒谱分析逆系统模块，对所述声门激励分量信号和所述声道系统分量信号进行时域变换和降噪处理，包括：

当处于复倒谱分析模式时，所述倒谱分析逆系统模块采用复倒谱分析逆系统模块，以确定所述复倒谱信号所对应的时域信号；其中，所述复倒谱分析逆系统模块包括顺序级联的傅里叶变换子模块、复指数计算子模块、降噪神经网络和傅里叶反变换子模块；

当处于实倒谱分析模式时，所述倒谱分析逆系统模块采用最小相位重建系统，以确定所述实倒谱信号所对应的时域信号；其中，所述最小相位重建系统包括顺序级联的加窗傅里叶变换子模块、指数计算子模块、降噪神经网络和傅里叶反变换子模块。

4.根据权利要求3所述的方法，其中，所述复倒谱分析逆系统模块中的降噪神经网络采用复数神经网络结构，以及所述最小相位重建系统中的降噪神经网络采用实数神经网络结构。

5.根据权利要求3所述的方法，其中，所述降噪神经网络采用多分辨率短时傅里叶变换函数作为代价函数，在模型训练阶段中的所述降噪神经网络使用基于语音样本而输出的合成语音与预期的纯净语音计算代价函数的误差值，并利用此误差值使用反向传播算法来更新神经网络模型参数。

6.根据权利要求2所述的方法，其中，当处于复倒谱分析模式时，所述基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音，包括：

将降噪后的所述声门激励分量时域信号和所述声道系统分量时域信号进行圆周卷积；

基于圆周卷积之后的语音进行重叠相加，得到合成语音。

7.根据权利要求2所述的方法，其中，当处于实倒谱分析模式时，所述基于降噪后的声门激励分量时域信号和声道系统分量时域信号，合成目标语音，包括：

基于圆周卷积之后的语音和所述相位信息进行重叠相加，得到合成语音。

8.根据权利要求1所述的方法，其中，在确定待增强的原始语音所对应的倒谱域信号之前，所述方法还包括：

获取待增强的原始语音的采样率；

按照与所述采样率对应的帧长和帧移，对所述待增强的原始语音进行加窗和分帧处理。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。