CN111554315B

CN111554315B - 单通道语音增强方法及装置、存储介质、终端

Info

Publication number: CN111554315B
Application number: CN202010482157.8A
Authority: CN
Inventors: 纪伟; 于伟维; 潘思伟; 雍雅琴; 董斐; 林福辉
Original assignee: Spreadtrum Communications Tianjin Co Ltd
Current assignee: Spreadtrum Communications Tianjin Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2022-07-15
Anticipated expiration: 2040-05-29
Also published as: CN111554315A

Abstract

一种单通道语音增强方法及装置、存储介质、终端，所述方法包括：基于接收到的输入信号获取当前帧信号的频域幅度谱；基于当前帧信号的频域幅度谱对当前帧信号的全带进行VAD处理，以得到当前帧信号的初始全带幅度谱增益函数；将全带划分为多个子带，基于当前帧信号的频域幅度谱以及初始全带幅度谱增益函数对当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新初始全带幅度谱增益函数，以得到当前帧信号的更新全带幅度谱增益函数；根据当前帧信号的频域幅度谱以及更新全带幅度谱增益函数计算得到语音增强后的频谱。通过本发明方案能够有效抑制非平稳噪声并保护语音质量不受损失，利于提高手机等移动设备的语音通话质量。

Description

单通道语音增强方法及装置、存储介质、终端

技术领域

本发明涉及语音处理技术领域，具体地涉及一种单通道语音增强方法及装置、存储介质、终端。

背景技术

随着手机等移动设备的普及以及移动网络的建设发展，用户对语音通话的质量也有了越来越高的要求。

在进行语音通话时，近端讲话者往往置身于嘈杂的背景环境中，环境中的噪声会污染有用的语音信息。如果含有噪声的上行语音信号不进行处理，将对远端接收者造成很大的困扰，使其无法准确掌握语音的含义。

此外，还有一些情况下，近端讲话者不仅身处噪声环境，在通话时还会开启免提通话模式。例如，司机在车内驾驶过程中开启免提通话、儿童在商场中使用电话手表进行通话等场景。不同于手持模式，免提通话时因为嘴巴与通话设备的麦克风距离较远，麦克风接收到的含噪语音信号的信噪比相比手持模式会更低，这就导致远端接收者更加难以听清楚语音的内容。

针对噪声环境下的免提通话模式，需要使用有效的语音增强算法对近端含噪语音进行噪声抑制，将处理后的清晰语音作为上行信号传送，从而提升语音通话质量。

但是，现有的语音增强技术在非平稳噪声以及免提通话场景中的表现不尽如人意，降噪效果差，严重影响语音通话质量。

发明内容

本发明解决的技术问题是如何更有效地提高语音通话质量。

为解决上述技术问题，本发明实施例提供一种单通道语音增强方法，包括：基于接收到的输入信号获取当前帧信号的频域幅度谱；基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

可选的，所述基于接收到的输入信号获取当前帧信号的频域幅度谱包括：对所述输入信号进行时域上的分帧操作；对分帧得到的当前帧信号进行时频变换操作，以得到所述当前帧信号的频域幅度谱。

可选的，所述基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数包括：对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；根据所述噪声功率谱计算得到所述当前帧信号的初始全带幅度谱增益函数。

可选的，所述对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱包括：根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的含噪语音信号功率谱；根据所述上一帧信号的含噪语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数，计算得到所述当前帧信号的含噪语音信号功率谱的最小值；根据所述当前帧信号的含噪语音信号功率谱以及所述上一帧信号的噪声信号功率谱，估算所述当前帧信号的初始后验信噪比；根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前帧信号的初始后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述初始后验信噪比、初始先验信噪比以及所述当前帧信号的语音不存在概率，计算得到所述当前帧信号的语音存在概率；根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以及所述当前帧信号的含噪语音信号功率谱，计算得到所述当前帧信号的噪声功率谱。

可选的，所述当前帧信号的语音不存在概率基于如下步骤确定：根据所述当前帧信号的频域幅度谱以及所述当前帧信号的含噪语音功率谱的最小值计算得到第一判别后验信噪比；根据所述当前帧信号的含噪语音功率谱以及所述当前帧信号的含噪语音功率谱的最小值算得到第二判别后验信噪比；根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前帧信号的语音不存在概率。

可选的，所述根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前帧信号的语音不存在概率包括：所述第一判别后验信噪比以及所述第二判别后验信噪比越小，所述语音不存在概率越大。

可选的，所述基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数包括：对于每一子带，根据所述子带的频域幅度谱以及所述初始全带幅度谱增益函数计算所述子带的VAD值；根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数；基于所述子带对应的优选噪声估计参数对所述子带的频域幅度谱进行噪声估计，以得到所述子带的噪声功率谱；根据所述子带的噪声功率谱计算得到所述子带的幅度谱增益函数；拼接所述多个子带各自的幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数。

可选的，所述根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数包括：根据预设噪声帧噪声估计参数和预设语音帧噪声估计参数计算得到所述子带对应的优选噪声估计参数，其中，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定。

可选的，所述预设门限值包括上门限和下门限，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定包括：若所述子带的VAD值小于所述下门限，则所述子带对应的优选噪声估计参数中预设噪声帧噪声估计参数的占比更大；若所述子带的VAD值大于所述上门限，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数的占比更大；若所述子带的VAD值落入所述下门限和上门限之间，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数与预设噪声帧噪声估计参数的占比基本均衡。

可选的，在根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数之前，所述单通道语音增强方法还包括：根据所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数计算得到全带的VAD值；对于每一子带，比较计算得到的所述子带的VAD值与所述全带的VAD值；若比较结果表明所述子带的VAD值小于所述全带的VAD值，则将所述子带的VAD值更新为所述全带的VAD值。

可选的，所述单通道语音增强方法还包括：对所述语音增强后的频谱进行频时变换操作以及重叠相加操作，以得到增强后的语音信号并输出。

为解决上述技术问题，本发明实施例还提供一种单通道语音增强装置，包括：获取模块，用于基于接收到的输入信号获取当前帧信号的频域幅度谱；全带VAD模块，用于基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；子带VAD模块，用于将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；处理模块，用于根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。

现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种单通道语音增强方法，包括：基于接收到的输入信号获取当前帧信号的频域幅度谱；基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

较之现有将单帧信号简单区分为纯噪声帧或者语音帧，仅在纯噪声帧进行噪声估计，并根据噪声估计结果增强语音帧的技术方案，本实施例方案能够有效抑制非平稳噪声并保护语音质量不受损失，利于提高手机等移动设备的语音通话质量。具体而言，本实施例方案对含噪语音数据使用全带VAD和子带VAD相结合的方式进行噪声谱的估计。对于输入信号的每一帧信号，首先基于全带VAD得到初步的幅度谱增益函数(即初始全带幅度谱增益函数)，然后对该帧信号的多个子带分别进行VAD处理。对于每一子带，根据该子带的VAD处理结果调整初始全带幅度谱增益函数中该子带对应的那部分数据。由此，最终得到的更新全带幅度谱增益函数能够更精准的表征输入信号的单帧信号中不同频段的数据特征，使得有针对性的抑制单帧信号中的局部频段噪声成为可能。

例如，单帧信号中被识别为噪声的部分频段对应的更新全带幅度谱增益函数，可以小于单帧信号中被识别为语音的部分频段对应的更新全带幅度谱增益函数。由此，语音增强时被识别为噪声的部分频段的信号被抑制的更多，使得单帧信号中部分频段上的语音数据也能被有效识别并增强，利于确保语音完整性。

进一步，本实施例方案适用于非平稳噪声环境中免提通话模式下的单通道语音增强场景，对低信噪比的含噪语音信号增强效果显著。本实施例方案能够实时地对非平稳噪声进行估计并进行噪声抑制，同时保证通话者的语音质量清晰可懂，从而达到提升语音通话主观感受的目的。

进一步，在对当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱时，根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的含噪语音信号功率谱；根据所述上一帧信号的含噪语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数，计算得到所述当前帧信号的含噪语音信号功率谱的最小值；根据所述当前帧信号的含噪语音信号功率谱以及所述上一帧信号的噪声信号功率谱，估算所述当前帧信号的初始后验信噪比；根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前帧信号的初始后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述初始后验信噪比、初始先验信噪比以及所述当前帧信号的语音不存在概率，计算得到所述当前帧信号的语音存在概率；根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以及所述当前帧信号的含噪语音信号功率谱，计算得到所述当前帧信号的噪声功率谱。

较之现有VAD方案所采用的硬判决逻辑(即将单帧信号识别为非纯噪声帧或语音帧)，本实施例方案采用软判决逻辑，通过计算当前帧信号的语音不存在概率和语音存在概率，使得对当前帧信号的语音活动检测结果更为准确且符合实际场景，能够保留更多的语音细节。例如，对于低信噪比的含噪语音信号，本实施例采用的概率判断明显比传统VAD非1即0的判断方式更为合适，利于确保语音数据的完整性，避免包含语音数据的信号帧因被误识别为纯噪声帧而造成语音数据丢失。

附图说明

图1是本发明实施例一种单通道语音增强方法的流程图；

图2是采用图1所示方法处理输入信号的算法流程图；

图3是图1中步骤S102的一个具体实施方式的流程图；

图4是图2中全带VAD模块的原理示意图；

图5是图1中步骤S103的一个具体实施方式的流程图；

图6是图2中子带VAD模块的原理示意图；

图7是本发明实施例一种单通道语音增强装置的结构示意图；

图8是采用本实施例方案与现有其他方案对免提模式下采集的含有非平稳噪声的语言信号进行噪声抑制后的处理结果在频域上的对比图；

图9是采用本实施例方案与现有其他方案对免提模式下采集的含有非平稳噪声的语言信号进行噪声抑制后的处理结果在时域上的对比图。

具体实施方式

如背景技术所言，人们使用移动设备(如手机、电话手表)在日常进行通话时，经常置身于嘈杂的背景环境中，而这些噪声从统计学意义上大部分属于非平稳噪声。

传统的语音增强技术通常使用语音活动检测(Voice Activity Detection，简称VAD)方法在时域上判断每一帧信号是否存在语音，即从一段含噪语音信号中标识出语音帧与纯噪声帧。该算法只在VAD判决出的纯噪声帧中进行噪声的估计与更新，在语音帧根据估计出的噪声谱进行降噪。

这种语音增强方法对变化不大的平稳噪声有效。但对于非平稳噪声来说，由于噪声有可能在语音帧发生较大变化，因此在纯噪声帧中估计出的噪声谱无法真实反映出当前语音帧的噪声特性。因此现有的语音增强技术在实际应用中无法达到较好的噪声抑制目的。

本申请发明人经过分析发现，实际应用中，不同场景中的声频段也是存在差异的。例如，开车时的背景噪音通常为低频噪音；白噪音基本为全频段噪音；汽车喇叭的噪音则为高频噪音。因此，将单帧信号简单地区分为纯噪声帧还是语音帧显然是非常不合适的。对于单帧信号，其有很大概率是仅在部分频段为噪声，剩余部分频段则包含有语音信息。若直接将其标识为纯噪声帧显然会导致语音信息的丢失，影响最终输出的语音质量和完整性。

此外，对于免提模式下，含噪语音的信噪比很低，时域上的VAD方法不能准确地区分出语音帧和纯噪声帧，这也会影响最终的降噪效果。

现有技术存在的另一个问题是在噪声被抑制得很干净的同时，语音信号受到了不同程度的损失。一些语音细节在降噪处理的过程中被当作噪声抑制掉，从而导致语音清晰度可懂度变差，对通话质量带来了一定影响。

本实施例方案能够有效抑制非平稳噪声并保护语音质量不受损失，利于提高手机等移动设备的语音通话质量。具体而言，本实施例方案对含噪语音数据使用全带VAD和子带VAD相结合的方式进行噪声谱的估计。对于输入信号的每一帧信号，首先基于全带VAD得到初步的幅度谱增益函数(即初始全带幅度谱增益函数)，然后对该帧信号的多个子带分别进行VAD处理。对于每一子带，根据该子带的VAD处理结果调整初始全带幅度谱增益函数中该子带对应的那部分数据。由此，最终得到的更新全带幅度谱增益函数能够更精准的表征输入信号的单帧信号中不同频段的数据特征，使得有针对性的抑制单帧信号中的局部频段噪声成为可能。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种单通道语音增强方法的流程图。

本实施例方案可以由具有语音通话功能的智能设备执行，如由手机、电话手表等移动设备执行。

具体地，参考图1，本实施例所述单通道语音增强方法可以包括如下步骤：

步骤S101，基于接收到的输入信号获取当前帧信号的频域幅度谱；

步骤S102，基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；

步骤S103，将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；

步骤S104，根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

在一个具体实施中，所述输入信号可以是采用单个麦克风采集到的含噪语音信号。例如，所述麦克风可以为集成于智能设备的语音采集模块。

进一步，所述含噪语音信号可以表示为y(n)＝x(n)+d(n)，其中，y(n)为所述含噪语音信号，x(n)为纯净语音信号，d(n)为噪声信号，n代表样点数。

在一个具体实施中，所述步骤S101可以包括步骤：对所述输入信号进行时域上的分帧操作；对分帧得到的当前帧信号进行时频变换操作，以得到所述当前帧信号的频域幅度谱。

例如，参考图1和图2，时频变换模块202对输入信号201进行时域上的分帧和加窗操作，然后经过快速傅里叶变换(Fast Fourier Transform，简称FFT)得到当前帧信号的频域幅度谱203。

进一步，分帧操作时每一帧可以有部分重叠，如前后两帧存在50％、25％的重叠。

进一步，加窗操作能够有效防止频谱泄露。

进一步，FFT变换得到的当前帧信号的频谱包括幅度和相位两个维度，其中相位在增强前后基本不变，因此，本实施例主要针对幅度进行处理。

进一步，继续参考图1和图2，全带VAD模块204适于执行步骤S102，频域幅度谱203经过所述全带VAD模块204处理得到当前帧信号的全带VAD值205以及初始全带幅度谱增益函数206。

在一个具体实施中，参考图3，所述步骤S102可以包括如下步骤：

步骤S1021，对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；

步骤S1022，根据所述噪声功率谱计算得到所述当前帧信号的初始全带幅度谱增益函数。

具体地，结合图3和图4，全带VAD模块204可以包括噪声估计单元2041以及幅度谱增益单元2043。其中，所述噪声估计单元2041可以用于执行所述步骤S1021，所述幅度谱增益单元2043可以用于执行所述步骤S1022。

本实施例将当前帧信号的频域幅度谱定义为|Y(k,λ)|，其中，k为频点数，λ为帧数。

在一个具体实施中，所述步骤S1021可以包括步骤：根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的含噪语音信号功率谱。

具体地，噪声估计单元2041可以对当前帧λ的输入信号(即所述当前帧信号的频域幅度谱203)进行功率谱平滑处理，使得前后两帧信号平滑过渡，以考虑上一帧信号对当前帧信号的影响。

例如，可以基于公式(1)进行功率谱平滑处理：

S(k,λ)＝α_sS(k,λ-1)+(1-α_s)|Y(k,λ)|² (1)

其中，S(k,λ)为所述当前帧信号的含噪语音信号功率谱；α_s为取值于[0,1]之间的预设参数；S(k,λ-1)为所述上一帧信号的含噪语音信号功率谱。

进一步，所述步骤S1021还可以包括步骤：根据所述上一帧信号的含噪语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数，计算得到所述当前帧信号的含噪语音信号功率谱的最小值。

所述当前帧信号含噪语音信号功率谱的最小值是指当前帧信号中最安静时刻的功率。

具体地，噪声估计单元2041可以利用对平滑后的功率谱历史值跟踪得到当前帧信号的含噪语音信号功率谱的最小值。

例如，可以基于公式(2)计算得到所述当前帧信号的含噪语音信号功率谱的最小值：

其中，S_min(k,λ)为所述当前帧信号的含噪语音信号功率谱的最小值；S_min(k,λ-1)为所述上一帧信号帧的含噪语音信号功率谱的最小值；α₁、α₂和α₃为取值于[0,1]之间的预设噪声估计参数。

进一步，预设噪声估计参数的具体数值可以根据实验确定，根据最终降噪效果调整。

进一步，所述当前帧信号的含噪语音信号功率谱S(k,λ)以及所述当前帧信号的含噪语音信号功率谱的最小值S_min(k,λ)在第0帧的初始值为含噪语音信号的频域幅度谱203的平方，即|Y(k,λ)|²。

进一步，所述步骤S1021还可以包括步骤：根据所述当前帧信号的含噪语音信号功率谱、以及所述上一帧信号的噪声信号功率谱，估算所述当前帧信号的初始后验信噪比；根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前帧信号的初始后验信噪比，估算所述当前帧信号的初始先验信噪比。

具体地，噪声估计单元2041可以基于公式(3)估计所述当前帧信号的初始后验信噪比：

其中，

为所述当前帧信号的初始后验信噪比；

为所述上一帧信号的噪声信号功率谱。进一步，

进一步，先验信噪比可以根据后验信噪比计算得到。

例如，噪声估计单元2041可以基于公式(4)计算得到所述初始先验信噪比：

其中，

为所述当前帧信号的初始先验信噪比；G(k,λ-1)为所述上一帧信号的全带幅度增益函数；ε为取之于[0,1]之间的预设参数；γ(k,λ-1)为所述上一帧信号的优选后验信噪比；max{}函数为取最大值函数。

换言之，所述初始后验信噪比用于表征当前帧信号的含噪语音信号功率谱与上一帧信号的噪声信号功率谱之比。因为此阶段尚不知当前帧信号的噪声信号功率谱，因此先基于上一帧信号的噪声信号功率谱进行估计。

所述初始先验信噪比用于表征纯净信号功率谱与噪声信号功率谱的比值。

进一步，所述步骤S1021还可以包括步骤：根据所述初始后验信噪比、初始先验信噪比以及所述当前帧信号的语音不存在概率，计算得到所述当前帧信号的语音存在概率。

具体地，所述当前帧信号的语音不存在概率可以基于如下步骤确定：根据所述当前帧信号的频域幅度谱以及所述当前帧信号的含噪语音功率谱的最小值计算得到第一判别后验信噪比；根据所述当前帧信号的含噪语音功率谱以及所述当前帧信号的含噪语音功率谱的最小值算得到第二判别后验信噪比；根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前帧信号的语音不存在概率。

例如，所述噪声估计单元2041可以基于公式(5)计算得到所述第一判别后验信噪比：

其中，γ_min(k,λ)为所述第一判别后验信噪比；B为用于噪声估计的预设偏置补偿参数。

换言之，所述第一判别后验信噪比可以是由当前帧信号的含噪语音信号功率谱的最小值计算得到的后验信噪比。

又例如，所述噪声估计单元2041可以基于公式(6)计算得到所述第二判别后验信噪比：

其中，η(k,λ)为所述第二判别后验信噪比。

换言之，所述第二判别后验信噪比是考虑上一帧信号得到的后验信噪比。

进一步，所述第一判别后验信噪比以及所述第二判别后验信噪比越小，所述语音不存在概率越大。

例如，当第一判别后验信噪比以及所述第二判别后验信噪比满足γ_min(k,λ)≤1，且η(k,λ)<η₀时，确定所述语音不存在概率q(k,λ)＝1。即当前帧信号没有语音。

又例如，当第一判别后验信噪比以及所述第二判别后验信噪满足1<γ_min(k,λ)≤γ₁，且η(k,λ)<η₀时，根据公式(7)计算得到所述语音不存在概率：

再例如，当第一判别后验信噪比以及所述第二判别后验信噪满足γ_min(k,λ)≥γ₁，且η(k,λ)≥η₀时，确定所述语音不存在概率q(k,λ)＝0。即当前帧信号没有噪声。

前述γ₁和η₀均为预设常数。

进一步，可以基于贝叶斯统计概率计算得到所述语音存在概率。

例如，噪声估计单元2041可以基于公式(8)计算得到所述语音存在概率：

其中，p(k,λ)为所述当前帧信号的语音存在概率；

进一步，所述步骤S1021还可以包括步骤：根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以及所述当前帧信号的含噪语音信号功率谱，计算得到所述当前帧信号的噪声功率谱。

具体地，噪声估计单元2041可以基于公式(9)计算得到所述当前帧信号的噪声功率谱：

其中，

为所述当前帧信号的噪声功率谱；

为所述上一帧信号的噪声功率谱；α_D(k,λ)＝α_d+(1-α_d)p(k,λ)。

本实施例方案采用软判决逻辑，通过计算当前帧信号的语音不存在概率和语音存在概率，使得对当前帧信号的语音活动检测结果更为准确且符合实际场景，能够保留更多的语音细节。例如，对于低信噪比的含噪语音信号，本实施例采用的概率判断明显比传统VAD非1即0的判断方式更为合适，利于确保语音数据的完整性，避免包含语音数据的信号帧因被误识别为纯噪声帧而造成语音数据丢失。

通过执行所述步骤S1021，所述噪声估计单元2041输出所述当前帧信号的噪声功率谱2042至所述幅度谱增益单元2043。

进一步，所述幅度谱增益单元2043根据所述当前帧信号的含噪语音信号功率谱以及所述当前帧信号的噪声功率谱2042计算得到所述当前帧信号的优选后验信噪比。如公式(10)所示：

其中，γ(k,λ)为所述当前帧信号的优选后验信噪比。

进一步，所述幅度谱增益单元2043所述优选后验信噪比计算得到所述当前帧信号的优选先验信噪比，如公式(11)所示：

ξ(k,λ)＝εG(k,λ-1)γ(k,λ-1)+(1-ε)max{γ(k,λ)-1,0} (11)

其中，ξ(k,λ)为所述当前帧信号的优选先验信噪比。

与前述初始后验信噪比和初始先验信噪比相比，优选后验信噪比和优选先验信噪比是基于当前帧信号的噪声信号功率谱计算得到的，能够更准确的体现当前帧信号的噪声分布。

进一步，所述幅度谱增益单元2043基于公式(12)计算得到所述当前帧信号的初始全带幅度谱增益函数206：

其中，G(k,λ)为所述当前帧信号的初始全带幅度谱增益函数206。

进一步，通过所述当前帧信号的频域幅度谱203以及所述初始全带幅度谱增益函数206计算得到所述当前帧信号的全带VAD值205，如公式(13)所示：

其中，VAD_full(λ)为所述当前帧信号的全带VAD值205。

在一个具体实施中，参考图5，所述步骤S103可以包括如下步骤：

步骤S1031，对于每一子带，根据所述子带的频域幅度谱以及所述初始全带幅度谱增益函数计算所述子带的VAD值；

步骤S1032，根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数；

步骤S1033，基于所述子带对应的优选噪声估计参数对所述子带的频域幅度谱进行噪声估计，以得到所述子带的噪声功率谱；

步骤S1034，根据所述子带的噪声功率谱计算得到所述子带的幅度谱增益函数；

步骤S1035，拼接所述多个子带各自的幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数。

本实施例方案通过全带VAD及频域子带VAD更新噪声估计系数和幅度谱增益函数。针对非平稳噪声环境中免提通话模式低信噪比情况下的含噪语音输入，该方案能够有效地对非平稳噪声进行抑制并保护语音质量不受损失，提升手机等移动设备的语音通话质量。

具体地，结合图2和图5，全带VAD模块204将计算得到的所述当前帧信号的初始全带幅度谱增益函数206以及全带VAD值205传输至子带VAD模块207。所述子带VAD模块207还接收当前帧信号的频域幅度谱203。进一步，所述子带VAD模块207用于执行步骤S103，以计算得到所述当前帧信号的更新全带幅度谱增益函数208。

在一个具体实施中，参考图6，子带VAD模块207可以包括子带VAD值计算单元2071、子带噪声估计参数更新单元2073以及子带噪声估计和幅度谱增益单元2075。其中，子带VAD值计算单元2071可以用于执行步骤S1031，子带噪声估计参数更新单元2073可以用于执行步骤S1032，子带噪声估计和幅度谱增益单元2075可以用于执行步骤S1033至步骤S1035。

假设采样率为8000Hz，可以将全带[0,4000]Hz划分为五个子带，即[0,500]Hz、[500,1000]Hz、[1000,1750]Hz、[1750,2750]Hz、[2750,4000]Hz。其中第n个子带的VAD值可以基于公式(14)计算得到：

其中，VAD_sub(n,λ)为第n个子带的VAD值。

在一个具体实施中，在基于公式(14)计算得到各子带的VAD值后，将计算结果发送至子带噪声估计参数更新单元2073之前，所述子带VAD值计算单元2071还可以执行步骤：根据所述当前帧信号的频域幅度谱203以及所述初始全带幅度谱增益函数206计算得到全带的VAD值(即所述全带VAD值205)；对于每一子带，比较计算得到的所述子带的VAD值与所述全带的VAD值；若比较结果表明所述子带的VAD值小于所述全带的VAD值，则将所述子带的VAD值更新为所述全带的VAD值。

具体而言，在输入信号中噪声能量很强的情况下，全带VAD值205可能介于预设门限界定的上门限和下门限之间，如果不限制使子带的VAD值不小于全带VAD值，则可能出现子带VAD值低于预设门限的下门限的情形，就会导致该子带全部当作噪声处理。即使该子带包含些许的语音细节也会被全部杀掉，导致语音失真。

因此，本实施例方案在计算得到各子带的VAD值后先进行判决：如果子带的VAD值小于全带VAD值205，则赋值该子带的VAD值为所述全带VAD值205，以最大程度保护语音不失真，然后再尽可能的多降噪。

进一步，子带VAD值计算单元2071将计算得到的子带VAD值2072输出至子带噪声估计参数更新单元2073。

在一个具体实施中，子带噪声估计参数更新单元2073执行所述步骤S1032可以包括如下步骤：根据预设噪声帧噪声估计参数和预设语音帧噪声估计参数计算得到所述子带对应的优选噪声估计参数，其中，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定。

具体地，所述预设门限值可以包括上门限VAD_thr和下门限1.5VAD_thr，其中，VAD_thr为取之于[0,1]的预设参数。在实际应用中，预设门限值在使用时会取对数(log)，因此，1.5VAD_thr作为下门限，VAD_thr作为上门限。

进一步，对于每一子带，所述子带噪声估计参数更新单元2073比较所述子带的子带VAD值2072与预设门限值的大小关系，从而对各子带的取值于[0,1]的噪声估计参数以及用于计算先验信噪比的预设参数ε进行更新：

若所述子带的VAD值(即子带VAD值2072)小于所述下门限1.5VAD_thr，则所述子带对应的优选噪声估计参数中预设噪声帧噪声估计参数的占比更大。

例如，当子带VAD值VAD_sub≤1.5VAD_thr时，则α₁＝α_N1，α₂＝α_N2，α₃＝α_N3，ε＝ε_N。其中，α_N1、α_N2及α_N3为预设噪声帧噪声估计参数；ε_N为噪声对应的用于计算先验信噪比的预设参数。这些参数均为介于[0,1]的参数。

若所述子带的VAD值大于所述上门限VAD_thr，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数的占比更大。

例如，当VAD_sub>VAD_thr时，α₁＝ηα_N1+(1-η)α_S1，α₂＝ηα_N2+(1-η)α_S2，α₃＝ηα_N3+(1-η)α_S3，ε＝ηε_N+(1-η)ε_S。其中，α_S1、α_S2及α_S3为预设语音帧噪声估计参数；ε_S为语音对应的用于计算先验信噪比的预设参数。这些参数均为介于[0,1]的参数。

其中，

若所述子带的VAD值落入所述下门限和上门限之间，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数与预设噪声帧噪声估计参数的占比基本均衡。

例如，当1.5VAD_thr<VAD_sub≤VAD_thr，α₁＝ηα_N1+(1-η)α_S1，α₂＝ηα_N2+(1-η)α_S2，α₃＝ηα_N3+(1-η)α_S3，ε＝ηε_N+(1-η)ε_S。

其中，

进一步，在获取各子带对应的优选噪声估计参数2074后，子带噪声估计和幅度谱增益单元2075根据各子带对应的优选噪声估计参数2074对各子带内的噪声谱进行估计，估计算法可以参考前述步骤S102中全带的噪声谱估计方法。

进一步，在计算得到各子带的噪声功率谱和幅度谱增益函数后，按子带顺序拼接得到所述更新全带幅度谱增益函数208。

在一个具体实施中，继续参考图1和图2，所述步骤S104可以由乘法器209执行。具体地，乘法器209将所述当前帧信号的频域幅度谱203和所述更新全带幅度谱增益函数208在频域相乘，以得到语音增强后的频谱210。

在一个具体实施中，在所述步骤S104之后，本实施例所述单通道语音增强方法还可以包括步骤：对所述语音增强后的频谱进行频时变换操作以及重叠相加操作，以得到增强后的语音信号并输出。

例如，继续参考图2，语音增强后的频谱210输入频时变换模块211，所述频时变换模块211对语音增强后的频谱210进行变换到时域，在时域完成加窗以及对每一帧信号重叠相加操作后得到完整的增强后语音信号212并输出。

假设单帧信号帧长256点，步骤S101中分帧时每帧重叠64点，则本步骤执行重叠相加操作时将每一帧末尾的64个数据与下一帧起始的64个数据相加。

由上，采用本实施例方案能够有效抑制非平稳噪声并保护语音质量不受损失，利于提高手机等移动设备的语音通话质量。具体而言，本实施例方案对含噪语音数据使用全带VAD和子带VAD相结合的方式进行噪声谱的估计。对于输入信号的每一帧信号，首先基于全带VAD得到初步的幅度谱增益函数(即初始全带幅度谱增益函数)，然后对该帧信号的多个子带分别进行VAD处理。对于每一子带，根据该子带的VAD处理结果调整初始全带幅度谱增益函数中该子带对应的那部分数据。由此，最终得到的更新全带幅度谱增益函数能够更精准的表征输入信号的单帧信号中不同频段的数据特征，使得有针对性的抑制单帧信号中的局部频段噪声成为可能。

图7是本发明实施例一种单通道语音增强装置的结构示意图。本领域技术人员理解，本实施例所述单通道语音增强装置7可以用于实施上述图1至图6所述实施例中所述的方法技术方案。

具体地，参考图7，本实施例所述单通道语音增强装置7可以包括：获取模块71，用于基于接收到的输入信号获取当前帧信号的频域幅度谱；全带VAD模块72，用于基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；子带VAD模块73，用于将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；处理模块74，用于根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

关于所述单通道语音增强装置7的工作原理、工作方式的更多内容，可以参照上述图1至图6中的相关描述，这里不再赘述。

在一个典型的应用场景中，图8和图9是采用本实施例方案与现有其他方案对免提模式下采集的含有非平稳噪声的语言信号进行噪声抑制后的处理结果对比图，其中图8为信号频域的语谱图，图9为信号时域的波形图。其中，图8和图9中的第一行均为原始的含噪语音信号，图8和图9中的第二行均为现有其他方案的处理结果，图8和图9中的第三行均为本实施例方案的处理结果。其中，图8的灰色底色为背景噪声。

由对比框图a1可以看出本方案较其他方案能够使噪声水平在较短的时间内得到抑制。

从比框图a2和对比框a3可以看出本方案相比其他方案具有更丰富的语音细节，保留了原始语言的真实度，同时对噪声水平的抑制更加彻底。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1至图6所示实施例中所述的方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1至图6所示实施例中所述的方法技术方案。具体地，所述终端可以为手机等集成或外部耦接有语音采集模块的移动终端。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种单通道语音增强方法，其特征在于，包括：

基于接收到的输入信号获取当前帧信号的频域幅度谱；

基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；

将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；

根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

2.根据权利要求1所述的单通道语音增强方法，其特征在于，所述基于接收到的输入信号获取当前帧信号的频域幅度谱包括：

对所述输入信号进行时域上的分帧操作；

对分帧得到的当前帧信号进行时频变换操作，以得到所述当前帧信号的频域幅度谱。

3.根据权利要求1所述的单通道语音增强方法，其特征在于，所述基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数包括：

对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；

根据所述噪声功率谱计算得到所述当前帧信号的初始全带幅度谱增益函数。

4.根据权利要求3所述的单通道语音增强方法，其特征在于，所述对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱包括：

根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的含噪语音信号功率谱；

根据所述上一帧信号的含噪语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数，计算得到所述当前帧信号的含噪语音信号功率谱的最小值；

根据所述当前帧信号的含噪语音信号功率谱以及所述上一帧信号的噪声信号功率谱，估算所述当前帧信号的初始后验信噪比；

根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前帧信号的初始后验信噪比，估算所述当前帧信号的初始先验信噪比；

根据所述初始后验信噪比、初始先验信噪比以及所述当前帧信号的语音不存在概率，计算得到所述当前帧信号的语音存在概率；

根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以及所述当前帧信号的含噪语音信号功率谱，计算得到所述当前帧信号的噪声功率谱。

5.根据权利要求4所述的单通道语音增强方法，其特征在于，所述当前帧信号的语音不存在概率基于如下步骤确定：

根据所述当前帧信号的频域幅度谱以及所述当前帧信号的含噪语音功率谱的最小值计算得到第一判别后验信噪比；

根据所述当前帧信号的含噪语音功率谱以及所述当前帧信号的含噪语音功率谱的最小值算得到第二判别后验信噪比；

根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前帧信号的语音不存在概率。

6.根据权利要求5所述的单通道语音增强方法，其特征在于，所述根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前帧信号的语音不存在概率包括：

所述第一判别后验信噪比以及所述第二判别后验信噪比越小，所述语音不存在概率越大。

7.根据权利要求1所述的单通道语音增强方法，其特征在于，所述基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数包括：

对于每一子带，根据所述子带的频域幅度谱以及所述初始全带幅度谱增益函数计算所述子带的VAD值；

根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数；

基于所述子带对应的优选噪声估计参数对所述子带的频域幅度谱进行噪声估计，以得到所述子带的噪声功率谱；

根据所述子带的噪声功率谱计算得到所述子带的幅度谱增益函数；

拼接所述多个子带各自的幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数。

8.根据权利要求7所述的单通道语音增强方法，其特征在于，所述根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数包括：

根据预设噪声帧噪声估计参数和预设语音帧噪声估计参数计算得到所述子带对应的优选噪声估计参数，其中，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定。

9.根据权利要求8所述的单通道语音增强方法，其特征在于，所述预设门限值包括上门限和下门限，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定包括：

若所述子带的VAD值小于所述下门限，则所述子带对应的优选噪声估计参数中预设噪声帧噪声估计参数的占比更大；

若所述子带的VAD值大于所述上门限，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数的占比更大；

10.根据权利要求7所述的单通道语音增强方法，其特征在于，在根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数之前，还包括：

根据所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数计算得到全带的VAD值；

对于每一子带，比较计算得到的所述子带的VAD值与所述全带的VAD值；若比较结果表明所述子带的VAD值小于所述全带的VAD值，则将所述子带的VAD值更新为所述全带的VAD值。

11.根据权利要求1所述的单通道语音增强方法，其特征在于，还包括：

对所述语音增强后的频谱进行频时变换操作以及重叠相加操作，以得到增强后的语音信号并输出。

12.一种单通道语音增强装置，其特征在于，包括：

获取模块，用于基于接收到的输入信号获取当前帧信号的频域幅度谱；

全带VAD模块，用于基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；

子带VAD模块，用于将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前帧信号的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；

处理模块，用于根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。

13.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器运行时执行权利要求1至11任一项所述方法的步骤。

14.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至11任一项所述方法的步骤。