CN114360572A

CN114360572A - 语音去噪方法、装置、电子设备及存储介质

Info

Publication number: CN114360572A
Application number: CN202210067523.2A
Authority: CN
Inventors: 方兵晓; 刘梁
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-15

Abstract

本申请实施例提供了一种语音去噪方法、装置、电子设备及存储介质，该方法包括：对获取的原始带噪语音信号进行分帧处理，获得多个语音帧；获取第一语音帧的第一特征信息和第二特征信息，其中，所述第一语音帧为所述多个语音帧中的任意一语音帧，所述第一特征信息包括所述第一语音帧的包络谱特征，所述第二特征信息包括根据所述第一语音帧的基音特征得到的特征信息；根据所述第一特征信息和所述第二特征信息，获得所述第一语音帧对应的目标频点增益；基于所述目标频点增益对所述第一语音帧进行去噪处理，以获得目标语音信号。该方法可以在不损伤语音的前提下，有效去除语音信号中的噪声信号。

Description

语音去噪方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及语音处理技术领域，更具体地，涉及一种语音去噪方法、装置、电子设备及计算机可读存储介质。

背景技术

在语音通话过程中，语音信号通常会被周围的噪声信号所污染，导致接受方无法听到纯净的语音信号，从而极大的阻碍通信的畅通和舒适。因此如何方便、有效的去除语音信号中的噪声信号越来越受到人们关注。

在相关技术中，一般是基于语音信号和噪声信号之间的不同特征对两者进行区分，从而通过估计出带噪语音信号中的噪声成分并对该噪声成分进行去除的方式以对语音进行去噪，例如传统基于语音活动检测(VAD，VoiceActivityDetection)的语音去噪方法通过估计非语音段的噪声成分，然后从带噪语音中删除，实现语音去噪的效果。

目前，在基于深度学习技术进行语音去噪处理时，通常是基于较大的网络模型从带噪语音信号中估计出纯净语音信号，然而，该类方法通常需要基于较大网络模型进行语音去噪处理，这就使得在将该类网络模型缩小以适配移动终端之后，基于缩小后的该类网络模型进行语音去噪处理，往往会导致性能急剧下降甚至可能出现损伤语音的问题。

发明内容

本公开的一个目的是提供一种用于去除语音信号中的噪声信号的新的技术方案，以解决现有语音去噪方法可能存在的性能下降甚至损伤语音的问题。

本公开的第一方面，提供了一种语音去噪方法，该方法包括：

对获取的原始带噪语音信号进行分帧处理，获得多个语音帧；

获取第一语音帧的第一特征信息和第二特征信息，其中，所述第一语音帧为所述多个语音帧中的任意一语音帧，所述第一特征信息包括所述第一语音帧的包络谱特征，所述第二特征信息包括根据所述第一语音帧的基音特征得到的特征信息；

根据所述第一特征信息和所述第二特征信息，获得所述第一语音帧对应的目标频点增益；

基于所述目标频点增益对所述第一语音帧进行去噪处理，以获得目标语音信号。

本公开的第二方面，还提供了一种语音去噪装置，包括：

分帧处理模块，用于对获取的原始带噪语音信号进行分帧处理，获得多个语音帧；

特征提取模块，用于获取第一语音帧的第一特征信息和第二特征信息，其中，所述第一语音帧为所述多个语音帧中的任意一语音帧，所述第一特征信息包括所述第一语音帧的包络谱特征，所述第二特征信息包括根据所述第一语音帧的基音特征得到的特征信息；

增益预测模块，用于根据所述第一特征信息和所述第二特征信息，获得所述第一语音帧对应的目标频点增益；

去噪处理模块，用于基于所述目标频点增益对所述第一语音帧进行去噪处理，以获得目标语音信号。

本公开的第三方面，还提供了一种电子设备，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行根据本公开的第一方面所述的方法。

本公开的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据本公开的第一方面所述的方法。

本公开实施例的一个有益效果在于，根据本公开的实施例，通过对原始带噪语音信号进行分帧处理，并分别获取每一语音帧的第一特征信息和第二特征信息，之后，基于该第一特征信息和该第二特征信息，获得第一语音帧对应的目标频点增益，并基于该目标频点增益对第一语音帧进行去噪，即可得到目标语音信号。在本公开实施例中，通过基于语音帧的包络谱特征构建第一特征信息，基于语音帧的基音特征构建第二特征信息，以该第一特征信息预估得到的包络增益作为引导信息，可以在有效降低网络模型大小的前提下，兼顾语音信号的细节估计，从而达到在不损伤语音的情况下有效去除噪声信号的效果，因此，基于该语音去噪方法对用户通话过程中产生的语音信号进行去噪处理，可以提供更加舒适的通话交流体验。

通过以下参照附图对本说明书的示例性实施例的详细描述，本说明书的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例，并且连同其说明一起用于解释本说明书的原理。

图1是本公开实施例提供的一种语音去噪方法的流程示意图。

图2是本公开实施例提供的获取第二特征信息的处理示意图。

图3是本公开实施例提供的获取目标频点增益的处理示意图。

图4是本公开实施例提供的一种语音去噪装置的原理框图。

图5是本公开实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<方法实施例>

为解决现有在进行语音去噪时，需要依赖于较大网络模型结构，而在缩小网络模型的情况下，可能存在的性能下降甚至损伤语音的问题，本公开的实施例提供了一种语音去噪方法，请参看图1，其是本公开实施例提供的语音去噪方法的流程示意图。该方法可以由电子设备实施，该电子设备可以为终端设备，例如，可以为手机、平板电脑等；当然，该电子设备也可以为服务器，例如，可以为刀片服务器、机架式服务器等，此处不做特殊限定。

如图1所述，本实施例的方法可以包括如下步骤S1100-S1400，以下予以详细说明。

步骤S1100，对获取的原始带噪语音信号进行分帧处理，获得多个语音帧。

具体地，在获取到原始带噪语音信号之后，由于原始带噪语音信号通常为非稳态音频数据流，因此，一般需要对原始带噪语音信号进行分帧处理，以得到与原始带噪语音信号对应的、由多个类平稳信号构成的语音帧，进而通过对该多个类平稳的语音帧进行去噪处理，以得到目标语音信号。

在具体实施时，可以采用交叠分段的方式对原始带噪语音信号进行分帧处理，以使得帧与帧之间平滑过渡，保持其连续性，其中，在交叠分段的方式中，前一帧和后一帧的交叠部分称为帧移，在具体实施时，可以通过使用可移动的有限长度窗口进行加权的方式来对语音信号进行分帧，通常，一帧的帧长可以取20～50ms，可以使用的窗函数可以但不限于为以下窗函数中的任意一种：矩形窗(Rectangle)、汉宁窗(Hanning)、海明窗(Hamming)以及布莱克曼窗(Blackman)，此处不对如何进行分帧处理做特殊限定。

步骤S1200，获取第一语音帧的第一特征信息和第二特征信息，其中，所述第一语音帧为所述多个语音帧中的任意一语音帧，所述第一特征信息包括所述第一语音帧的包络谱特征，所述第二特征信息包括根据所述第一语音帧的基音特征得到的特征信息。

在经过步骤S1100对原始带噪语音信号进行分帧处理之后，通过对得到的多个语音帧分别进行去噪处理，即可得到去除噪声信号的目标语音信号。在本公开的实施例中，第一语音帧，可以为多个语音帧中的任意一语音帧。

具体地，可以基于任意包络谱特征提取方法提取第一语音帧的包络谱特征作为该第一特征信息。例如，可以利用人耳听觉模型将第一语音帧的频谱数据按照临界频带(Bark)，即，Bark带进行分带计算，计算掩蔽带的音频能量和其对应的一阶差分数据和二阶差分数据，进而根据该一阶差分数据和二阶差分数据得到第一语音帧的包络谱特征作为该第一特征信息。

需要说明的是，由于Bark带的划分远小于完整的频谱带宽，因此基于Bark带划分得到的包络谱特征来计算语音帧的包络增益，可以大大降低用于预测包络增强估计部分的网络大小，从而更适合于在终端设备中应用该方法。在本公开的实施例中，可以将Bark带划分为24个带，当然，具体实施时可以不限于该划分带数。

在本公开的实施例中，第二特征信息可以为根据第一语音帧的基音(fundamentaltone)特征得到的特征信息。

请参看图2，其是本公开实施例提供的获取第二特征信息的处理示意图。如图2所示，在一个实施例中，所述获取第一语音帧的第二特征信息，包括：提取第一语音帧的基音特征；对该基音特征进行傅里叶变换处理，将处理得到的基音特征的能量谱作为第一子特征信息；根据第一子特征信息，获得所述第二特征信息。

在具体实施时，第一语音帧的基音特征可以基于倒谱法、短时自相关法、短时*均幅度差法、LPC法等方法获得，其详细处理过程此处不再赘述。

请继续参看图2，在一个实施例中，所述获取第一语音帧的第二特征信息，还包括：对第一语音帧进行预设谐波重构处理，获得第一谐波重构语音信号；对第一谐波重构语音信号进行傅里叶变换处理，获得第二子特征信息；以及，对第一谐波重构语音信号进行预设处理，并对进行该预设处理后的第一谐波重构语音信号进行傅里叶变换处理，获得第三子特征信息；之后，根据上述基于基音特征得到的第一子特征信息、上述第二子特征信息和上述第三子特征信息，获得第二特征信息。

如图2所示，所述对第一谐波重构语音信号进行预设处理，包括：将第一谐波重构语音信号中对应幅值小于预设数值的信号设置为所述预设数值。

在该实施例中，该预设数值可以为0，即，可以将对进行谐波重构处理后得到的第一谐波重构语音信号基于函数映射关系：Max(x，0)进行该预设处理，其中，x为第一谐波重构语音信号中的信号幅值。当然，也可以基于其他函数映射关系对第一谐波重构语音信号进行预设处理，例如，也可以基于Min()函数或者该两类函数的组合对第一谐波重构语音信号进行处理，此处不做特殊限定。

具体地，在本公开的实施例中，用于对第一语音帧进行细节增强处理的第二特征信息可以包括基于第一语音帧的基音特征得到的特征信息，还可以包括对第一语音帧进行谐波重构处理后通过傅里叶变换处理得到的特征信息，其中，有关如何对语音信号进行谐波重构处理以及傅里叶变换处理此处不再赘述。

步骤S1300，根据所述第一特征信息和所述第二特征信息，获得所述第一语音帧对应的目标频点增益。

在基于上述步骤提取得到第一语音帧的第一特征信息和第二特征信息之后，通过将该第一特征信息和该第二特征信息输入预先训练得到的目标增益预测模型中，以预估得到与第一语音帧对应的目标频点增益，即可基于该目标频点增益去除第一语音帧中的噪声信号。

请参看图3，其是本公开实施例提供的获取目标频点增益的处理示意图。如图3所示，在本公开的实施例中，目标增益预测模型可以包括包络增强子模型和细节增强子模型，其中，该包络增强子模型用于预测第一语音帧的包络增益并输出该增益，即IRM_bar增益；该细节增强子模型用于对第二特征信息中经傅里叶变换得到的频谱之间的间隔进行细节增强，并输出增强处理后的频点增益，即，IRM_bin；其中，IRM_bin，也可称为frequencybin。

需要说明的是，在具体实施时，该包络增强子模型可以为基于循环神经网络模型(RNN，RecurrentNeuralNetwork)结构的网络模型，该细节增强子模型可以为基于门控卷积网络模型(GatedCNN)结构的网络模型，当然，此处仅为举例说明，在具体实施时，也可以根据需要基于其他模型结构构建该两个子模型。

如图3所示，在一个实施例中，所述根据第一特征信息和第二特征信息，获得第一语音帧对应的目标频点增益，包括：将第一特征信息输入目标增益预测模型的包络增强子模型中，通过预测第一特征信息中的包络增益，获得第一临界频带增益；将第二特征信息输入目标增益预测模型的细节增强子模型中，通过预测第二特征信息中对应频点处的增益，获得第一待处理频点增益；对第一临界频带增益进行上采样处理，并将进行上采样处理后的第一临界频带增益与所述第一待处理频率点数据进行加和处理，获得目标频点增益，其中，该上采样处理用于对所述第一临界频带增益进行升维处理，以将所述第一临界频带增益升维至与第一待处理频点增益相一致的维度。

该预设临界频带数据，可以为在以上描述中所述的将Bark带划分为24个带后得到的频带数据。

具体地，在该实施例中，可以基于较小网络模型结构的包络增强子模型预测第一语音帧的包络增益，即IRM_bar增益作为引导信息，通过将该IRM_bar增益进行上采样以与细节增强子模型输出的第一待处理频点增益，即，IRM_bin增益进行形状匹配，之后通过对该两者进行加和处理作为最终预测得到的目标频点增益，由于基于细节增强子模型可以输出基于频谱域的每个频点，即bin计算幅度谱的间隔，即gain的增益，因此，细节增强子模型输出的IRM_bin增益即包含有细节成分又含有包络成分，基于包络增强子模型输出的IRM_bar增益作为IRM_bin增益的引导信息，从而赋予了细节增强部分细节估计的作用，同时还可以降低对网络模型拟合能力的要求，使得可以在较小网络模型结构的前提下，既能够实现赋予细节增强部分细节估计的作用，又可以避免仅使用包络增强部分时候可能存在的细节不足问题。

需要说明的是，在具体实施时，在对进行上采样处理后的第一临界频带增益，即，IRM_bar增益与第一待处理频率点数据，即IRM_bin增益进行加和处理时，可以是直接对两者进行加和处理；或者，也可以是依据预先测试获得的、与该两者分别对应的权重值，对该两者进行加权求和处理；又或者，还可以是先将其进行直接拼接再进行映射的方式得到目标频点增益，此处不对如何对该两者进行加和处理做特殊限定。

步骤S1400，基于所述目标频点增益对所述第一语音帧进行去噪处理，以获得目标语音信号。

在基于上述步骤S1300基于目标增益预测模型预估得到第一语音帧对应的目标频点增益之后，即可基于该目标频点增益进行语音信号恢复处理，以得到目标语音信号。

在一个实施例中，所述通过基于目标频点增益对第一语音帧进行去噪处理，获得目标语音信号，包括：将目标频点增益与第一语音帧的语音频谱相乘，得到去除噪声信号的幅度谱数据；将该幅度谱数据与第一语音帧的相位信息相乘，得到第一结果数据；对该第一结果数据进行傅里叶反变换处理，获得与第一语音帧对应的第一去噪语音信号；根据第一去噪语音信号，获得目标语音信号。

具体地，在基于上述步骤预测得到与对原始带噪语音信号进行分帧处理后得到的多个语音帧中的每一语音帧对应的目标频点增益之后，可以将该目标频点增益视为掩蔽阈值，通过将该目标频点增益与对应语音帧的语音频谱相乘，得到去除噪声信号的幅度谱数据，之后，将原始带有噪声信号的语音信号中的相位作为最终的相位信息通过与该幅度谱数据相乘，并将相乘结果进行傅里叶反变换处理即可得到与当前语音帧对应的去噪语音信号；通过逐一对每一语音帧进行上述处理，即可得到与原始带噪语音信号对应的、去除噪声信号后的目标语音信号。

在以上说明中，是通过将第一特征信息和第二特征信息输入目标增益预测模型，以预测获得一目标频点增益，再根据该目标频点增益对第一语音帧进行去噪处理的方式来对原始带噪语音信号进行去噪处理，以获得目标语音信号。需要说明的是，在具体实施时，目标增益预测模型也可以不必对依据第一特征信息和第二特征信息得到的第一临界频带增益和第一待处理频点增益进行加和处理，而是可以直接输出该第一临界频带增益和该第一待处理频点增益；电子设备在获得该第一临界频带增益和该第一待处理频点增益之后，通过将该第一临界频带增益和该第一待处理频点增益分别与该第一语音帧的语音频谱相乘，并对相乘获得的两个结果分别进行加和处理，以获得与第一语音帧对应的第一去噪语音信号，进而根据该第一去噪语音信号，获得目标语音信号，本实施例不对如何应用该第一临界频带增益和第一待处理频点增益以对语音帧进行去噪的方式做特殊限定。

综上所述，本公开实施例提供的语音去噪方法，通过对原始带噪语音信号进行分帧处理，并分别获取每一语音帧的第一特征信息和第二特征信息，之后，基于该第一特征信息和该第二特征信息，获得第一语音帧对应的目标频点增益，并基于该目标频点增益对第一语音帧进行去噪，即可得到目标语音信号。在本公开实施例中，通过基于语音帧的包络谱特征构建第一特征信息，基于语音帧的基音特征构建第二特征信息，以该第一特征信息预估得到的包络增益作为引导信息，可以在有效降低网络模型大小的前提下，兼顾语音信号的细节估计，从而达到在不损伤语音的情况下有效去除噪声信号的效果，因此，基于该语音去噪方法对用户通话过程中产生的语音信号进行去噪处理，可以提供更加舒适的通话交流体验。

<装置实施例>

与上述方法实施例相对应，在本实施例中，还提供一种语音去噪装置，如图4所述，该装置400可以包括分帧处理模块410、特征提取模块420、增益预测模块430和去噪处理模块440。

该分帧处理模块410，用于对获取的原始带噪语音信号进行分帧处理，获得多个语音帧；该特征提取模块420，用于获取第一语音帧的第一特征信息和第二特征信息，其中，所述第一语音帧为所述多个语音帧中的任意一语音帧，所述第一特征信息包括所述第一语音帧的包络谱特征，所述第二特征信息包括根据所述第一语音帧的基音特征得到的特征信息；该增益预测模块430，用于根据所述第一特征信息和所述第二特征信息，获得所述第一语音帧对应的目标频点增益；该去噪处理模块440，用于基于所述目标频点增益对所述第一语音帧进行去噪处理，以获得目标语音信号。

<设备实施例>

在本实施例中，还提供一种电子设备，如图5所述，该电子设备500还可以包括处理器520和存储器510，该存储器510用于存储可执行的指令；该处理器520用于根据指令的控制运行电子设备以执行根据本公开任意实施例的方法。

<计算机可读存储介质实施例>

本实施例提供了一种计算机可读存储介质，该存储介质中存储有可执行命令，该可执行命令被处理器执行时，执行本说明书任意方法实施例中描述的方法。

附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本申请的范围由所附权利要求来限定。

Claims

1.一种语音去噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征信息和所述第二特征信息，获得所述第一语音帧对应的目标频点增益，包括：

将所述第一特征信息输入目标增益预测模型的包络增强子模型中，通过预测所述第一特征信息中的包络增益，获得第一临界频带增益；

将所述第二特征信息输入所述目标增益预测模型的细节增强子模型中，通过预测所述第二特征信息中对应频点处的增益，获得第一待处理频点增益；

对所述第一临界频带增益进行上采样处理，并将进行所述上采样处理后的第一临界频带增益与所述第一待处理频率点数据进行加和处理，获得所述目标频点增益，其中，所述上采样处理用于对所述第一临界频带增益进行升维处理，以将所述第一临界频带增益升维至与所述第一待处理频点增益相一致的维度。

3.根据权利要求2所述的方法，其特征在于，所述包络增强子模型包括基于循环神经网络模型结构的网络模型，所述细节增强子模型包括基于门控卷积网络模型结构的网络模型。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标频点增益对所述第一语音帧进行去噪处理，以获得目标语音信号，包括：

将所述目标频点增益与所述第一语音帧的语音频谱相乘，得到去除噪声信号的幅度谱数据；

将所述幅度谱数据与所述第一语音帧的相位信息相乘，得到第一结果数据；

对所述第一结果数据进行傅里叶反变换处理，获得与所述第一语音帧对应的第一去噪语音信号；

根据所述第一去噪语音信号，获得所述目标语音信号。

5.根据权利要求1所述的方法，其特征在于，所述获取所述第一语音帧的第二特征信息，包括：

提取所述第一语音帧的基音特征；

对所述基音特征进行傅里叶变换处理，将处理得到的所述基音特征的能量谱作为第一子特征信息；

根据所述第一子特征信息，获得所述第二特征信息。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一语音帧的第二特征信息，还包括：

对所述第一语音帧进行预设谐波重构处理，获得第一谐波重构语音信号；

对所述第一谐波重构语音信号进行傅里叶变换处理，获得第二子特征信息；

对所述第一谐波重构语音信号进行预设处理，并对进行所述预设处理后的第一谐波重构语音信号进行傅里叶变换处理，获得第三子特征信息；

根据所述第一子特征信息、所述第二子特征信息和所述第三子特征信息，获得所述第二特征信息。

7.根据权利要求6所述的方法，其特征在于，所述对所述第一谐波重构语音信号进行预设处理，包括：

根据预设函数映射关系，将所述第一谐波重构语音信号中对应幅值小于预设数值的信号设置为所述预设数值。

8.一种语音去噪装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述指令的控制运行所述电子设备执行如权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据权利要求1-7中任意一项所述的方法。