CN117219102A

CN117219102A - 一种基于听觉感知的低复杂度语音增强方法

Info

Publication number: CN117219102A
Application number: CN202311031877.2A
Authority: CN
Inventors: 王龙标; 李楠; 党建武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-12-12

Abstract

本发明涉及语音信号处理领域，具体涉及一种基于听觉感知的低复杂度语音增强方法。具体包括：1)对含噪语音利用Gammatone滤波器组分割成不同的子带，并计算每个子带的Gammatone特征；2)Pitch提取以及利用Pitch设计子带梳状滤波器；3)设计基于CNN模型的清音和浊音处理单元。最终通过一个逆的滤波器组生成最终的增强后的语音。针对噪声环境下低计算资源语音增强提出了一种基于听觉感知的语音增强方法。

Description

一种基于听觉感知的低复杂度语音增强方法

技术领域

本发明涉及语音信号处理领域，具体涉及一种基于听觉感知的低复杂度语音增强方法。尤其关注在信噪比低下的环境中，由于噪声的干扰导致麦克风捕捉的音频声音质量受到影响的问题。

背景技术

在现代通信与嵌入式系统中，语音降噪技术，亦被称为语音增强(SE)技术，在嘈杂环境中的语音通信质量改进领域扮演着关键角色。然而，在为资源受限设备，如微控制器、FPGA等低计算设备，以及类似智能手机的资源受限设备执行语音增强时，存在一些挑战。传统的语音增强模型往往由大量参数构成，这将导致语音增强模型在空间受限设备上的运行变得困难。此外，传统的语音增强方法需要大量的计算资源，这限制了其在资源受限设备上的广泛部署。

近年来，许多语音增强算法被提出。尽管其中许多方法在处理静态噪声时有效，但实际应用中存在各种类型的静态和非静态噪声，这些噪声会显著影响语音增强任务的性能。因此，需要有效的语音增强算法来应用于实际应用中。近年来，基于深度学习(DL)的语音增强算法展示出强大的建模能力，如深度神经网络(DNNs)、卷积神经网络(CNNs)和长短期记忆网络(LSTMs)。然而，由于基于神经网络的语音增强方法在计算资源受限时性能会下降，其根本原因在于处理频谱特征或波形特征需要占用大量的参数和计算资源。

在各种场景中，语音增强被建模为一个回归问题。非线性回归函数通过声学特征参数化。神经网络设计用于计算采样率为16kHz的语音中，处理单个频谱帧通常需要257个点，处理单个25ms长度的语音帧则需要处理400个采样点。因此，在现实场景中，提出一种高效且有效的语音增强方法依然是一项具有挑战性的工作。

发明内容

本发明目的在于提出一种利用听觉感知机理来提高低计算资源下基于神经网络的语音增强的方法。系统流程图如附图1所示，具体包括：1)对含噪语音利用Gammatone滤波器组分割成不同的子带，并计算每个子带的Gammatone特征；2)Pitch提取以及利用Pitch设计子带梳状滤波器；3)设计基于CNN模型的清音和浊音处理单元。最终通过一个逆的滤波器组生成最终的增强后的语音。

具体步骤如下：

1)Gammatone滤波器组和Gammatone特征

我们使用Gammatone滤波器组(GTF)将音频信号a(t)分成不同的子带，并在广泛的中心频率范围内重现人类听觉滤波器的心理学估计。

输出的第k个子带信号记为：

a(k，t)＝a(t)*g_c(k，t)，1＜k＜K

其中a(k，t)是语音信号的第k个子带，K表示所设置的子带个数(本文中将其设置为32)，t是时间域采样点的索引，g_c(k，t)是第k个子带的脉冲响应。

脉冲响应是通过以下公式获得的：

g_c(k，t)＝At^a-1exp(-2πω_fERB_N(f_k)t)×cos(2πf_k+φ)

其中At^a-1exp(-2πω_fERB_N(f_k)t)表示由伽马分布表示的振幅项，A是振幅，a是滤波器的阶数，φ是原始相位，f_k是第k个滤波器的中心频率，ERB_N是等效矩形带宽，计算方法如下：

其中f_k是第k个子带的中心频率，Q_ear是在高频处的渐近滤波器质量，B_min是最小的带宽。值A，a分别设置为9.26和24.7。

为了解决直接利用经过GTF处理的噪声音频波形作为卷积神经网络(CNN)的输入所带来的显著计算开销，提高处理效率和准确性，我们提出了利用Gammatone滤波器组进行分子带的方法。该方法旨在计算效率和处理精度之间取得平衡，使各种应用中噪声音频信号的处理更加高效和有效。

为了计算CNN的输入特征，我们对不同子带信号进行了帧化。在本文中，我们使用了帧大小为400和帧移200的设置。然后计算每个帧特征的能量，并使用这些能量的平均值来获得输入特征。

第τ帧的能量可以表示为：

其中y(τ，k，t)是由GTF分割出的噪声语音，L是帧长。在重塑和拼接上下文特征后，CNN的输入特征表示成其中B是批处理大小，F是上下文帧数，K是子带数。

2)Pitch提取以及利用Pitch设计子带梳状滤波器

本文采用基于自相关的方法来估计基频周期，该方法在时域中运行，提供了一种简单而高效的估计基频周期的方法。我们先对语音信号序列进行分帧，并将第i帧的语音信号序列表示为x_i(m)，可以通过窗口化和帧化得到，帧长为N。

x_i(m)的短时自相关定义如下：

其中k表示第k个自相关系数，当信号为浊音且延迟等于0、P、2P、…时，短期自相关函数R也达到了最大值，即周期信号P的自相关函数也在该延迟值处达到最大值。自相关方法是在最大值和最小值之间寻找自相关函数的最大值。基于自相关的音高检测方法比较原始信号与其延迟版本之间的相似性，以确定基频周期。如果延迟时间等于音高周期，则两个信号具有最大相似性。或者，可以通过直接找到短期自相关函数中两个最高峰之间的距离来估计周期P。

梳状滤波的基本目标是在消除谐波失真的情况下进行噪声降低。浊音语音信号的振动表现出周期性，通常对应于基本周期P。梳状滤波算法利用其周期性增强有声语音信号的谐波成分。可以通过检查一个音高周期内的单位采样响应来有效地解释梳状滤波器：

c(n)＝y(n)*h(n)

其中，c(n)表示通过梳状滤波器增强的语音信号，y(n)表示含噪的原始语音信号，h(n)是梳状滤波器，符号“*”表示卷积操作。

h(n)可以使用以下公式表示：

在此文章中，a_k表示使用汉宁窗获得的滤波器系数，满足所有a_k之和等于1的条件：

在这里，N为梳状滤波器的阶数，我们将其置为7，。从理论上讲，在信噪比方面可以获得7.27分贝的增益。N_k＝(T_-3，T_-2，T_-1，T₀，T₁，T₂，T₃，)，它们分别为-3·P，-2·P，-1·P，-P，0，P，2·P，，分别是基本周期的倒数第三个、倒数第二个、零、第一个、零、第二个和第三个周期。P是音高的基频周期。它可以通过简单的自相关函数得到，详见下一部分内容。

为了有效解决不同频率带中由子带增强引起的谐波损失问题，需要采用全面的补偿方法。简单地使用全频梳状滤波器进行补偿会忽略不同频率范围内需要补偿的谐波变化的事实。鉴于此，我们进一步推进了研究工作，开发了专门针对不同频率带的梳状滤波器，以确保准确而精确的补偿。考虑到整体基本周期由音高控制，我们假设每个频率带中的基本周期对应于那些频率带上观察到的基本周期的最大公约数。因此，子带具有与原始全频梳状滤波器相同的周期特性。为了提供全面的表现形式，我们在每个子带中使用的梳状滤波器如下：

c(n，k)＝y(n，k)*h(n)

3)基于CNN模型的清音和浊音处理单元

图2为最终基于CNN模型的清音和浊音处理单元：首先，我们使用掩蔽(MASK)技术来确定每个帧中存在浊音和清音片段。当一个帧被识别为浊音时，我们对其应用谐波增强。我们利用神经网络估计谐波增强信号和经过子带梳状滤波器增强后的信号的强度。然后，我们将这两组强度分别与经梳状滤波器和掩蔽增强的信号相乘，以获得最终的谐波增强信号。为了指导强度的学习，我们使用互相关作为这两组强度的参考标准。然而，仅依靠梳状滤波器增强的信号与干净语音之间的相关性以及掩蔽增强的信号与干净语音之间的相关性，无法完全实现我们的最终目标，仍然会导致失真。因此，我们进一步引入全频带的干净语音信号，使谐波增强的音频更接近我们的训练目标。

我们的基础框架是一个基于CNN编码器-解码器(C-ED)的2D CNN，这是一种学习嘈杂语音上下文的优秀方法。为了实时处理音频，我们使用一个包含2帧和5帧特征输入的上下文，延迟25毫秒。CNN的滤波器的个数分别设置为[K，2×K，3×K，4×K，5×K，4×K，3×K，2×K，K]以便学习编码器-解码器向量。为了在CNN的编码器和解码器中引入非线性，我们对每个卷积层应用了ReLU激活函数。我们的训练目标包括四个目标：掩蔽、浊音/清音判断、理想梳状滤波器增强的语音波形和干净语音波形。主要处理包括两个部分：一部分是处理有声音素的部分，这是谐波波形最集中的部分；另一部分是非有声和静默部分，我们没有用梳状滤波器处理这些部分。最终的损失函数为：

其中yi为干净的不含噪声的音频的波形，为最终所估计出的语音增强波形。

有益效果

本发明主要针对噪声环境下低计算资源语音增强提出了一种基于听觉感知的语音增强方法。

1)通过人耳听觉滤波器，利用人耳在噪声环境下的听觉机制，将含噪语音利用Gammatone滤波器组分割成了多个不同的子带，并提取子带特征减小神经网络的处理参数。

2)由于使用子带进行语音增强会出现谐波的缺失，为了弥补谐波的缺失，我们进一步设计子带的梳状滤波器来对谐波的缺失进行补偿。

3)我们进一步设计CNN模型，在子带上进行语音增强，同时对谐波进行补偿，最终能够在一个参数量比较小的条件下也能有着更好的语音增强效果。

附图说明

图1基于听觉感知的语音增强系统的流程图；

图2基于CNN模型的清音和浊音处理单元的流程图。

具体实施方式

下面结合附图和附表对本发明中的作用和效果进行展示。

本示例以基于语音数据集VCTK和噪声数据集DEMOND为例来给出发明的实施方式。整个系统算法流程如图1所示。

具体步骤如下：

1)数据集制作

为了将所提出的框架与相关模型进行比较，我们使用了一份公开可用的数据集。实验是在提供的数据集上进行的，该数据集来自VCTK语料库，其中使用28个说话人的录音作为训练集，并使用2个说话人作为测试集。我们向录音中添加了10种不同的噪声条件，包括两种人工噪声和8种来自DEMAND数据库的噪声，其信噪比分别为0、5、10和15dB。因此，训练集模拟了40种不同的噪声场景，总共包含11，572个录音。训练集中包含11，572个语句，涵盖了40种不同的噪声场景。测试集是使用来自DEMAND数据库但与训练噪声条件不同的5种不同噪声条件创建的，信噪比分别为2.5、7.5、12.5和17.5dB。测试集总共包含824个语句。对于我们的实验，我们将数据库中的采样点从48kHz下采样到16kHz。对于所有实验，我们都将音频从48kHz下采样到16kHz。

2)子带特征的提取

我们将所有音频的采样频率全都重采样到了16khz，子带数为设置为33个。我们的帧长设置成400个采样点，对应的时间是25毫秒，帧移为12.5毫秒。

3)梳状滤波器的设计

针对梳状滤波器，我们首先使用基于自相关方法来进行pitch的提取，然后设计梳状滤波器。其中梳状滤波器的阶数设置成了7.

4)训练CNN模型

CNN模型结构如图2所示，我们利用Tensorflow的CNN编解码模型和子带能量特性对CNN进行训练。所有隐藏层都使用ReLU作为激活函数。我们使用Adam算法作为优化器。卷积层的K设置成K，内核的长和宽都设置为2、3、5、7、5、3、2。在映射网络中，隐藏大小设置为33。

在得到最终的语音增强信号后，我们需要对增强后的音频进行估计。我们使用了以下五个评价指标：参数(PARA.)(M)和浮点运算次数(G)是评估神经网络研究中各种方法的参数数量和计算复杂度的两个关键指标。特别是，参数(PARA.)(M)评估神经网络中的参数数量，数值越大表示参数计数越高，进而需要更大的空间需求。相反地，浮点运算次数(G)衡量神经网络的计算复杂度，数值越大表示更高的计算需求。值得注意的是，即使使用了可能具有一些参数控制的CNN结构，计算需求仍然可能很高。因此，对这些因素进行全面评估对于评估各种方法的计算影响至关重要。在选择适当的方法时，需要考虑特定的任务要求和硬件特性。例如，具有较小参数数量和计算需求的结构最适合于移动设备的部署。同时，高性能计算平台可以利用较大的神经网络架构并利用可用的硬件资源。总之，参数(PARA.)(M)和浮点运算次数(G)是评估神经网络性能和效率的关键指标，需要进行全面的评估和实际应用。

我们使用多种语音质量指标来评估我们提出的方法的性能，包括：

语音质量感知评估(PESQ):我们选择了PESQ的宽带版本，其得分范围为-0.5到4.5。

信号失真综合指标(CSIG):使用ITU-T P.835方法得到的得分为0到5，表示信号失真程度。

背景失真综合指标}(CBAK):类似于CSIG，测量噪声失真程度。

整体质量(COVL):类似于CBAK，测量整体语音质量。

通过这些指标的协同作用，我们成功地实现了对语音质量的全面评估。这一点充分体现了我们所提出的方法在增强语音信号方面的显著有效性。

依据表1所示，本项目中提出的AP-Net方案在语音增强方面展现出卓越的性能，相对于其他现行的方法，我们的方法获得了更高的主观评价指标PESQ。另一方面，本方案在计算负载和参数量的需求方面也优于其他方法，所使用的参数量和计算量均远小于其他方法。

表1所得方法相对其他方法的结果。

Claims

1.一种基于听觉感知的低复杂度语音增强方法，其特征在于，包括如下步骤：

1)对含噪语音利用Gammatone滤波器组分割成不同的子带，并计算每个子带的Gammatone特征；

2)Pitch提取以及利用Pitch设计子带梳状滤波器；

3)设计基于CNN模型的清音和浊音处理单元：使用掩蔽技术来确定每个帧中存在浊音和清音片段；当一个帧被识别为浊音时，对其应用谐波增强；利用神经网络估计谐波增强信号和经过子带梳状滤波器增强后的信号的强度，然后，将这两组强度分别与经梳状滤波器和掩蔽增强的信号相乘，以获得最终的谐波增强信号；进一步引入全频带的干净语音信号，使谐波增强的音频更接近训练目标；

4)通过一个逆的滤波器组生成最终的增强后的语音。

2.根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法，其特征在于，所述步骤1)具体如下：

使用Gammatone滤波器组(GTF)将音频信号a(t)分成不同的子带，并在广泛的中心频率范围内重现人类听觉滤波器的心理学估计；

输出的第k个子带信号记为：

a(k，t)＝a(t)*g_c(k，t)，1＜k＜K

其中a(k，t)是语音信号的第k个子带，K表示所设置的子带个数，t是时间域采样点的索引，g_c(k，t)是第k个子带的脉冲响应；

脉冲响应是通过以下公式获得的：

g_c(k，t)＝At^a-1exp(-2πω_fERB_N(f_k)t)×cos(2πf_k+φ)

其中f_k是第k个子带的中心频率，Q_ear是在高频处的渐近滤波器质量，B_min是最小的带宽；

为了计算CNN的输入特征，对不同子带信号进行了帧化，在本文中，使用帧大小为400和帧移200的设置，然后计算每个帧特征的能量，并使用这些能量的平均值来获得输入特征；

第τ帧的能量可以表示为：

其中y(τ，k，t)是由GTF分割出的噪声语音，L是帧长；

在重塑和拼接上下文特征后，CNN的输入特征表示成其中B是批处理大小，F是上下文帧数，K是子带数。

3.根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法，其特征在于，所述步骤2)具体如下：基于自相关的方法来估计基频周期，先对语音信号序列进行分帧，并将第i帧的语音信号序列表示为x_i(m)，可以通过窗口化和帧化得到，帧长为N；

x_i(m)的短时自相关定义如下：

其中k表示第k个自相关系数，当信号为浊音且延迟等于0、P、2P、…时，短期自相关函数R也达到了最大值，即周期信号P的自相关函数也在该延迟值处达到最大值；

通过检查一个音高周期内的单位采样响应来有效地解释梳状滤波器：

c(n)＝y(n)*h(n)

其中，c(n)表示通过梳状滤波器增强的语音信号，y(n)表示含噪的原始语音信号，h(n)是梳状滤波器，符号“*”表示卷积操作；

h(n)可以使用以下公式表示：

a_k表示使用汉宁窗获得的滤波器系数，满足所有a_k之和等于1的条件：

在这里，N为梳状滤波器的阶数，N_k＝(T_-3，T_-2，T_-1，T₀，T₁，T₂，T₃，)，它们分别为--3·P，-2·P，-1·P，-P，0，P，2·P，分别是基本周期的倒数第三个、倒数第二个、零、第一个、零、第二个和第三个周期，P是音高的基频周期；

考虑到整体基本周期由音高控制，假设每个频率带中的基本周期对应于那些频率带上观察到的基本周期的最大公约数，因此，子带具有与原始全频梳状滤波器相同的周期特性；为了提供全面的表现形式，在每个子带中使用的梳状滤波器如下：

c(n，k)＝y(n，k)*h(n)。

4.根据权利要求1所述的一种基于听觉感知的低复杂度语音增强方法，其特征在于，所述步骤3)具体如下：基础框架是一个基于CNN编码器-解码器(C-ED)的2D CNN，为了实时处理音频，使用一个包含2帧和5帧特征输入的上下文，延迟25毫秒；

CNN的滤波器的个数分别设置为[K，2×K，3×K，4×K，5×K，4×K，3×K，2×K，K]以便学习编码器-解码器向量；

为了在CNN的编码器和解码器中引入非线性，对每个卷积层应用了ReLU激活函数。

5.根据权利要求4所述的一种基于听觉感知的低复杂度语音增强方法，其特征在于，

训练目标包括四个目标：掩蔽、浊音/清音判断、理想梳状滤波器增强的语音波形和干净语音波形；

主要处理包括两个部分：一部分是处理有声音素的部分，这是谐波波形最集中的部分；另一部分是非有声和静默部分，没有用梳状滤波器处理这些部分，最终的损失函数为：

其中y_i为干净的不含噪声的音频的波形，为最终所估计出的语音增强波形。