CN118248158A

CN118248158A - 一种基于小波阈值优化的会议场景非平稳噪声消除方法

Info

Publication number: CN118248158A
Application number: CN202410301121.3A
Authority: CN
Inventors: 乔宏波
Original assignee: Hefei Qianxin Technology Co ltd
Current assignee: Hefei Qianxin Technology Co ltd
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-06-25

Abstract

本发明公开了一种基于小波阈值优化的会议场景非平稳噪声消除方法，通过采用小波阈值降噪和遗传算法优化阈值选择，实现对非平稳噪声的有效抑制，从而解决会议场景中的非平稳噪声影响语音质量的问题。具体而言，通过小波变换将音频信号分解为不同尺度的近似系数和细节系数，然后利用遗传算法优化阈值选择，以最大化信噪比结合最小化降噪后的信号与原始信号之间的相似度系数作为优化目标函数，最后，应用逆小波变换将处理后的系数重构为降噪后的音频信号，本发明有效地抑制非平稳噪声，有效地减少噪声干扰，从而显著提高语音的清晰度，使得语音更加清晰可辨，提升了会议的交流效果。

Description

一种基于小波阈值优化的会议场景非平稳噪声消除方法

技术领域

本发明涉及噪声消除技术领域，具体是一种基于小波阈值优化的会议场景非平稳噪声消除方法。

背景技术

小波阈值降噪是语音降噪领域中一种常用的信号处理技术，利用小波变换将语音信号分解为不同尺度的子带，然后根据每个子带的能量大小与一定阈值进行比较，将能量较小的子带视为噪声，并将其抑制或滤除，从而实现降噪效果。

在会议场景中，存在各种噪声，可能包括环境噪声(例如空调声、电扇声)、回声、移动设备的干扰声、其他与会者的说话声等等。这些噪声会较为严重地干扰到会议的语音信号质量，导致语音信号的可理解性下降，使得与会者难以准确听到以及理解会议内容，从而影响会议的效果。

如何提高会议音频质量，提升会议效果，是一直在研究的课题。当前挑战之一在于非平稳噪声的消除，非平稳噪声指的是在时间和频率上均具有变化的噪声，这种噪声在会议场景中非常常见。由于非平稳噪声的特点，传统线性滤波方法难以有效消除。

尽管小波阈值降噪在非平稳噪声消除方面具有显著优势，但仍然存在一些挑战。阈值的选择对降噪效果至关重要，过低的阈值会导致语音信号的失真，过高的阈值则可能无法有效地抑制非平稳噪声，传统阈值选择方法并不能很好地适用于真实场景下的语音噪声消除。关于阈值选择方法的确定，部分文献提出了解决方案。

Donoho首先提出小波分解降噪的方法，在此基础上引入了硬阈值函数与软阈值函数，为后续研究打下基础；此外，Donoho还提出基于Stein无偏风险估计(SURE)准则的阈值估计公式，该方法成为了众多降噪技术的基础。在此基础上，研究人员探索了各种方法来自适应估计小波降噪的最佳阈值。

在众多方法中，自适应阈值估计(ATE)方法的效果较佳，具有一定的泛用性。近年来，群体智能优化算法已被用来优化基于SURE公式的阈值选择过程。受到SURE无偏估计原理的启发，很多研究分别使用蚁群优化、粒子群优化和鱼群算法来获得小波降噪的最佳阈值。然而，这些方法基于SURE准则，都仅限于处理符合高斯分布的平稳噪声，而现实场景中的噪声具有复杂性，往往难以取得好的效果。

除此之外，小波阈值降噪对信号的分解和重构过程需要大量的计算资源，因此在实时处理和低功耗设备上的应用具有一定的挑战性。

发明内容

针对现有的噪声消除技术针对会议场下的非平稳噪音消除上存在的技术缺陷，本发明提出一种基于小波阈值优化的会议场景非平稳噪声消除方法，能够根据会议场景中的各类噪声信号自适应地估计阈值，并根据估计的阈值进行软阈值噪声处理。

一种基于小波阈值优化的会议场景非平稳噪声消除方法，包括以下步骤：

步骤1，对原始带噪音频信号进行小波分解；

步骤2，设定优化目标函数其中snr、ncc分别为信噪比、相似度系数，α为确保目标函数这两项的维度处于同一区间的加权系数，xden是经过每次迭代的阈值λ筛选后重构的音频信号；

步骤3，基于设定的目标函数以及遗传算法，筛选每层小波分解所需的最优阈值；

步骤4，根据每层的最优阈值，采用软阈值函数进行小波降噪，获得降噪后的系数，根据降噪后的系数进行重构，得到重构后的降噪信号，软阈值函数为其中w_j,k为小波分解后的细节系数，/>为筛选后的细节系数，λ为筛选所需阈值。

进一步的，小波分解采用db4小波基函数。

进一步的，遗传算法进行最优阈值筛选的操作如下：

初始化包含N个样本的种群，每个样本x的维度为D；

计算种群中每个样本x在目标函数f(x)作用下的适应度大小；

根据种群中每个样本对应的适应度大小，利用轮盘算法筛选样本进入下一代种群，样本的适配度越大，被选中的概率越高；

种群中进行随机交配和突变操作，以扩大算法在样本空间中的随机搜索范围；

重复直到达到指定的迭代次数或满足停止准则。

本发明的有益效果：

1、提升语音清晰度和可理解性：会议场景中的非平稳噪声常常导致语音信息的模糊和混杂，降低了语音的可理解性，通过精确选择最优阈值，本发明能够有效地抑制非平稳噪声，有效地减少噪声干扰，从而显著提高语音的清晰度，使得语音更加清晰可辨，提升了会议的交流效果；

2、保留重要语音特征：本发明提出了全新的优化目标函数，充分考虑了语音信号的非平稳特性，与现有方法不同的是，本发明将信号的非平稳特性与优化方法相结合，设计的优化目标函数结合了最大信噪比和最小相似度系数，不仅注重增强语音质量，还重视保留重要的语音特征，在降噪过程中，关键的语音特征(例如说话者的声调、情感等)能够得到更好的保留，保持了语音的自然性和可识别性。

3、自适应性和灵活性：本发明所提出的降噪方法具有自适应性，能够适应不同的噪声特征和语音信号，通过遗传算法的优化过程，每个小波分解层都能获得最优的阈值，从而适应不同频率和时域上的噪声变化。

4、高效和实时性：遗传算法作为优化手段，具备较高的搜索效率和并行计算能力，本发明能够在实时会议场景中进行语音降噪处理，快速地生成最优阈值组合，实现实时降噪，并提供稳定的性能表现。

附图说明

图1为音频降噪算法的框架图；

图2为遗传算法优化阈值选择流程图；

图3为某真实场景音频下处理效果最佳的传统方法和本发明提出的基于遗传算法的改进小波阈值降噪算法的效果比较。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

本发明提供了一种基于小波阈值优化的会议场景非平稳噪声消除方法，基于小波阈值降噪的原理，并通过遗传算法优化阈值选择，以提高降噪效果。

音频信号的小波分解是一种信号处理技术，它可以将复杂的信号分解成不同频率的小波成分，从而便于分析和处理。小波分解通过使用小波函数对信号进行变换，将信号分解成低频和高频部分，可以获得信号在不同频率范围内的特征信息。在音频信号处理中，小波分解可以用于音频压缩、降噪、特征提取等方面。通过对音频信号进行小波分解，可以提取出不同频率的子带信息，从而实现对音频信号的精细分析和处理。小波分解通常包括多层级的分解过程，每一级分解将信号分解成近似系数(低频成分)和细节系数(高频成分)，可以反复进行多级分解以获得更详细的频率信息。

本发明的基本思路是通过采用小波阈值降噪和遗传算法优化阈值选择，实现对非平稳噪声的有效抑制，从而解决会议场景中的非平稳噪声影响语音质量的问题。具体而言，通过小波变换将音频信号分解为不同尺度的近似系数和细节系数，然后利用遗传算法优化阈值选择，以最大化信噪比结合最小化降噪后的信号与原始信号之间的相似度系数作为优化目标函数，最后，应用逆小波变换将处理后的系数重构为降噪后的音频信号。

图1展示了整个音频降噪算法的框架图。首先，输入为会议场景中可能受到噪声干扰的原始音频信号，原始音频信号通过小波分解模块进行分解，得到不同尺度的近似系数和细节系数，其中细节系数包含非平稳噪声的成分；接着，采用基于遗传算法的优化算法模块，根据最大信噪比与最小相似度系数的目标函数，通过遗传算法选择每一层的最优阈值；最后是降噪模块，应用逆小波变换模块将处理后的系数重构为降噪后的语音信号，输出为降噪后的语音信号，提供更清晰、更准确的会议语音信号。

本实施例选择db4小波基函数对音频信号进行小波变换，通过多尺度的分解，得到音频信号在不同尺度上的近似系数和细节系数，其中细节系数主要包含非平稳噪声的成分。

本实施例的优化目标函数其中snr、ncc分别为信噪比、相似度系数，α为确保目标函数这两项的维度处于同一区间的加权系数。

snr计算公式为

ncc计算公式为

其中，a_i为原始音频信号，b_i为降噪后的音频信号，为代表原始音频信号均值，/>为降噪后音频信号的均值，n为信号长度。

本实施例中，根据每层的最优阈值，采用软阈值函数进行小波降噪，获得降噪后的系数，根据降噪后的系数进行重构，得到重构后的降噪信号，软阈值函数为其中w_j,k为小波分解后的细节系数，/>为筛选后的细节系数，λ为筛选所需阈值，xden是经过每次迭代的阈值λ筛选后重构的音频信号，该音频信号采用软阈值函数分解，逆小波变换重构。

以db4小波基函数为例，xden＝WaveletDenoise(x,λ)，λ∈(0,max(w_j,k))，这是由于软阈值函数的定义，阈值的取值范围不超过当前层小波高频系数的最大值。

本发明提到的遗传算法为成熟算法，优化流程主要包括初始化种群、适应度评估、选择、交叉和变异等步骤。首先，随机初始化一定数量的个体，构成初始种群；然后，通过适应度评估函数计算每个个体的适应度值，评估个体的优劣；接着，根据适应度值选择优秀个体作为父代，并进行交叉和变异操作，产生新的子代个体，通过交叉和变异引入随机性，增加种群的多样性，以避免陷入局部最优，重复进行选择、交叉和变异，直到达到指定的迭代次数或满足停止准则。

结合本发明，图2描述了遗传算法优化阈值选择流程图。首先，初始化种群，每个个体表示一个小波分解层的阈值组合，然后通过适应度评估函数计算每个个体的适应度值；接下来，根据适应度值选择优秀个体作为父代，进行交叉和变异操作生成下一代个体；这个过程通过迭代进化，逐步优化阈值选择，以寻找最优解；最终，得到每一层小波阈值的最优解，用于优化降噪效果。在算法中，每个小波分解层都有一个最优阈值，通过遗传算法的优化过程，找到了使目标函数(最大信噪比与最小相似度系数)达到最优的阈值，这些最优阈值能够更准确地区分噪声和语音信号，从而实现更好的降噪效果。

本实施例中，遗传算法进行最优阈值筛选的操作如下：

初始化包含N个样本的种群，每个样本x的维度为D；

计算种群中每个样本x在目标函数f(x)作用下的适应度大小；

重复直到达到指定的迭代次数或满足停止准则。

本发明基于MATLAB环境进行仿真，分为小波分解、阈值优化选择、信号重构等部分。在MATLAB环境下，首先使用语音信号采集设备获取带有非平稳噪声的会议场景语音信号；利用MATLAB提供的小波变换函数对语音信号进行小波阈值分解，并获取各层的细节系数；使用遗传算法工具箱定义适应度函数，通过遗传算法进行阈值选择的优化过程；根据优化得到的阈值，对细节系数进行阈值处理，并应用逆小波变换将处理后的系数重构为降噪后的语音信号；最后，通过MATLAB的音频播放功能或可视化工具对降噪后的语音进行分析和评估。这种基于MATLAB仿真的方式能够验证本发明在降噪效果上的可行性和优越性。

表1为本发明提出的优化阈值选择方法WaveGA与其他各类经典阈值选择方法(heursure,sqtwolog,rigsure,minimax,visushrink)在NOIZEUS数据集下的结果比对，为了保证其他变量的一致性，实验均采用’db4’小波基函数，分解层数均设计为3层，阈值函数均采用软阈值函数，主要比较指标包括计算信噪比指标(SNR)和最小均方误差(MSE)、相似系数(NCC)。更高的SNR表示有更多的有用信号和较少的噪声，意味着语音质量较好；MSE的值越小，表示处理后的信号与原始信号之间的差异越小，降噪效果越好；NCC的值范围通常在-1到1之间。当两个信号完全匹配时，NCC达到1；如果两个信号完全不相关，NCC接近0；相反的信号会导致NCC接近-1。在语音降噪的应用中，较高的NCC值意味着降噪后的信号与原始信号保持较高的相似度，表明降噪算法能够有效去除噪声而不损害语音的质量。

表1

图3比较了某真实场景音频下处理效果最佳的传统方法和本发明提出的基于遗传算法的改进小波阈值降噪算法，蓝色部分为原始带噪信号，红色部分为经过rigsure准则处理后的降噪信号，绿色部分为本文提出的基于遗传算法的降噪方法，可以看出本文提出的降噪效果更有效，其噪声部分得到了很好的抑制，信号更稳定，波动更小。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种基于小波阈值优化的会议场景非平稳噪声消除方法，其特征在于，包括以下步骤：

步骤1，对原始带噪音频信号进行小波分解；

2.根据权利要求1所述的基于小波阈值优化的会议场景非平稳噪声消除方法，其特征在于，小波分解采用db4小波基函数。

3.根据权利要求1所述的基于小波阈值优化的会议场景非平稳噪声消除方法，其特征在于，遗传算法进行最优阈值筛选的操作如下：

初始化包含N个样本的种群，每个样本x的维度为D；

计算种群中每个样本x在目标函数f(x)作用下的适应度大小；

重复直到达到指定的迭代次数或满足停止准则。

4.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现权利要求1-3任意一项所述的基于小波阈值优化的会议场景非平稳噪声消除方法。

5.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1-3任意一项所述的基于小波阈值优化的会议场景非平稳噪声消除方法的各个步骤。