CN111128215A

CN111128215A - 一种单通道实时降噪方法及系统

Info

Publication number: CN111128215A
Application number: CN201911347264.3A
Authority: CN
Inventors: 陈龙; 黄海; 隆弢; 陈玮
Original assignee: Shenggeng Intelligent Technology Xi'an Research Institute Co Ltd
Current assignee: Shenggeng Intelligent Technology Xi'an Research Institute Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08
Anticipated expiration: 2039-12-24
Also published as: CN111128215B

Abstract

本发明公开了一种单通道实时降噪方法及系统，包括以下步骤：步骤1，将单通道采集到的带噪模拟语音信号转换成带噪离散语音信号；步骤2，将步骤1获得的带噪离散语音信号进行预处理，获得预处理后的带噪离散语音信号；步骤3，根据步骤1获得的预处理后的带噪离散语音信号中的不同背景噪声，生成算法选择参数；根据所述算法选择参数选择噪声估计方法，通过选择的噪声估计方法对预处理后的带噪离散语音信号进行处理，获得降噪后的时域语音信号；步骤4，将步骤3获得的降噪后的时域语音信号，转换为时域和幅值上均连续的信号。本发明能够根据不同的背景噪声实时调整噪声估计方法，实时对带噪语音信号进行降噪处理。

Description

一种单通道实时降噪方法及系统

技术领域

本发明属于语音信号处理技术领域，特别涉及一种单通道实时降噪方法及系统。

背景技术

语音信号是不稳定的，在实际系统中采集时极易受到各种各样的噪声干扰。这些不同类型噪声给语音信号降噪处理带来了巨大的挑战，在过去的数十年里，尝试着用各种噪声谱估计算法去对噪声进行估计，以此来进行语音信号降噪处理。噪声谱的准确估计显得尤为重要，如果对噪声谱估计过低，语音信号中存有残留噪声，如果对噪声谱估计过高，语音信号将会失真、降低可懂度。例如，传统的噪声谱估计方法是基于语音活动检测(VoiceActivity Detector,VAD)，这种方法约束了语音缺失段的噪声谱估计更新，而且在弱语音信号、低信噪比情况下很难进行平衡，该方法不适用于非平稳噪声环境；基于直方图的噪声谱估计方法运行时占用内存资源较多，低信噪比情况下噪声谱估计效果较差，在非平稳噪声环境中很难使用。1995年，Doblinger通过连续跟踪每个频率点中有噪语音的最小值来更新噪声估计，这种方法的缺点是无法区分是背景噪声的增大还是语音功率的增大；1995年，Hirsch和Ehrlicher通过比较含噪语音功率和过去噪声谱鼓励来更新噪声谱的估计，该方法实现简单，但当背景噪声突然增大并持续保持在该状态下，此方法无法更新噪声谱的估计；2001年，Martin提出了一种基于最小统计(Minima Statistics,MS)的噪声谱估计方法，即在一个有限窗口内跟踪平滑含噪语音谱的最小值，并乘以一个偏置补偿因子，以此获得噪声谱的估计，该方法的最大缺陷是当背景噪声突然增大时更新噪声谱所需要的时间比最小搜索窗的时间长，不适合用于背景噪声突然增强的环境中；2002年，Cohen提出了一种基于最小受控递归平均算法(Minima Controlled Recursive Averaging,MCRA),该方法根据含噪语音的局部能量值与其待定时间窗内的最小值的比值确定子带中是否存在语音，如果给定帧的某个子带中存在语音，那么该子带内的噪声谱估计等于上一帧的噪声谱估计，如果不存在，则结合含噪语音的功率谱，采用一阶递归的方法更新噪声谱，2003年，Cohen提出了改进的最小控制递归平均方法(Improved Minima Controlled Recursive Averaging，IMCRA)，主要从三个方面进行了改进，即语音活跃期的最小值跟踪，语音存在概率估计，提出偏置补偿因子，无论是MCRA方法还是IMCRA方法，当噪声谱突然增大时，噪声谱的估计将会出现时延，时延的最大值为窗长的两倍；2012年，Swamy等人提出了一种基于语音增强残差的IMCRA算法，首先采用一种语音增强算法获取增强后的语音，然后对干净语音和增强后的语音作差值运算，如果语音存在，则根据获取的残差，采用一阶递归的方式更新噪声谱估计，减小了估计误差；2013年，Yuan等人提出了一种基于时频相关的噪声谱估计算法，是对IMCRA算法的改进，通过计算时频单元的自相关和交叉相关性，求解出语音存在的粗估计，并重新定义了含噪语音谱的平滑参数、噪声谱估计的递归平均参数以及先验信噪比估计的权重因子，还提出在更小的搜索窗内跟踪含噪语音平滑功率谱最小值；上述这些方法都是典型的噪声谱估计方法，但上述的每一种算法或多或少都存在着这样或者那样的缺陷。

语音信号降噪技术的任务是从带噪语音信号中分离出干净的语音信号，消除背景噪声，改善语音质量；该技术拥有广泛的应用，如鲁棒性自动语音识别(ASR)和日常环境中的移动通信；语音信号降噪或分离技术已在信号处理领域进行了数十年的研究；其中，单通道语音降噪技术是非常具有挑战性的课题，因为单通道语音信号仅依靠单个麦克风所采集到的语音信号，无法像麦克风阵列一样得知语音信号空间位置信息，这给语音信号特征参数提取时增加了难度；另一方面，与基于波束形成的麦克风阵列降噪技术相比，单通道降噪技术可应用的声学场景或者实际系统中更为广泛。由于只用到单个麦克风，单通道降噪技术不仅成本低，而且在实际的应用系统中更为方便；除此之外，在实际系统，与基于波束形成的麦克风阵列降噪技术相比较而言，单通道降噪技术更加具有优势，一方面在实时性方面更具有鲁棒性，另一方面算法运行时所占系统资源在数量级上更低。

综上，在实际的日常生活中，由于背景噪声的多样性、复杂性、突变性，在有背景噪声的环境下，对语音信号基于单通道实时处理并达到理想的降噪效果是非常具有挑战性的，亟需一种新的单通道实时降噪方法、系统及装置。

发明内容

本发明的目的在于提供一种单通道实时降噪方法及系统，以解决上述存在的一个或多个技术问题。本发明能够根据不同的背景噪声实时调整噪声估计方法，实时对带噪语音信号进行降噪处理。

为达到上述目的，本发明采用以下技术方案：

本发明的一种单通道实时降噪方法，包括以下步骤：

步骤1，将单通道采集到的带噪模拟语音信号转换成带噪离散语音信号；

步骤2，将步骤1获得的带噪离散语音信号进行预处理，获得预处理后的带噪离散语音信号；其中，预处理包括：数据采集时主从时序的产生、数据串并转换、数据缓存、数据预滤波和数据并串转换；

步骤3，根据步骤1获得的预处理后的带噪离散语音信号中的不同背景噪声，生成算法选择参数；根据所述算法选择参数选择噪声估计方法，通过选择的噪声估计方法对预处理后的带噪离散语音信号进行处理，获得降噪后的时域语音信号；

步骤4，将步骤3获得的降噪后的时域语音信号，转换为时域和幅值上均连续的信号，完成单通道实时降噪。

本发明的一种单通道实时降噪系统，包括：

A/D模数转换模块，用于将单通道采集到的带噪模拟语音信号转换成带噪离散语音信号；

FPGA处理及控制模块，包括：输入处理单元、算法选择单元和输出处理单元；

其中，输入处理单元，用于将A/D模数转换模块获得的带噪离散语音信号进行预处理，获得预处理后的带噪离散语音信号；其中，预处理包括：数据采集时主从时序的产生、数据串并转换、数据缓存、数据预滤波和数据并串转换；

算法选择单元，用于根据A/D模数转换模块获得的预处理后的带噪离散语音信号中的不同背景噪声，生成算法选择参数；

输出处理单元，用于将降噪处理过后的语音信号进行处理输出；其中，处理包括：数据输出时的主从时序的产生，数据缓存，数据串并转换和数据并串转换；

DSP算法处理模块，用于根据所述算法选择参数选择噪声估计方法，通过选择的噪声估计方法对预处理后的带噪离散语音信号进行处理，获得降噪后的时域语音信号；

D/A数模转换模块，用于将获得的降噪后的时域语音信号，转换为时域和幅值上均连续的信号，完成单通道实时降噪。

与现有技术相比，本发明具有以下有益效果：

本发明用FPGA处理单元作为模式切换器，根据不同背景噪声场景实时调整噪声估计方法，以达到准确估计噪声的目的；在DSP处理单元中根据FPGA所传递的参数运行对应的噪声估计算法，以达到实时准确处理带噪语音信号的目的。

本发明能够完成在不同背景噪声环境下语音降噪，其实时处理单个麦克风所采集到的语音信号，不仅能够提高语音信号的语音质量，提高可懂度，还可改善自动语音识别的识别率。具体的：现有的噪声估计方法或多或少都存在时延问题，很难实时处理每一帧带噪语音信号，本发明能够解决实时性问题；其中，存在时延问题更具体的说就是在对应的窗函数内的噪声语音数据是没办法被实时处理，所得到的噪声估计谱滞后于当前信号，尤其是在底噪突然增大的情况下；现有的噪声估计方法在系统中运行效率较低，所占系统内存资源也较大，不利于语音信号的实时系统处理；本发明针对不同的背景噪声类型，选用不同的噪声估计方法，在效率和实时性上进行了改善。

本发明的带噪语音信号降噪的过程中，根据不同的背景噪声类型，选择不同的噪声估计方法，可以加速算法的收敛速度，提高算法的运行速度。

本发明的系统中，把FPGA处理模块与DSP处理模块相结合，在FPGA模块中完成数据的输入、输出的预处理(主次时序、串并转换、并串转换、滤波、逻辑控制等)操作，在DSP中完成对数据的算法处理操作，FPGA处理模块特性在灵活性及并行性，DSP处理模块特性在于能够高速及稳定的进行数字信号处理，根据装置模块的特性去完成相对应的数据操作，对系统装置的硬件模块资源进行了合理、科学、优质的分配，进一步提升了装置的运行效率；在本发明中将降噪处理算法及系统装置硬件资源都进行了优化，因此能够解决实时性问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种单通道实时降噪系统示意图；

图2是本发明实施例中，FPGA处理及控制模块示意图；

图3是本发明实施例中，背景噪声区分示意图；

图4是本发明实施例中，DSP算法处理模块的处理流程示意图；

图5是本发明实施例的一种单通道降噪方法流程示意图；

图6是本发明实施例中，缓存加窗原理示意图；

图7是本发明实施例中，MS方法处理流程示意图；

图8是本发明实施例中，MCRA方法处理流程示意图；

图9是本发明实施例中，IMCRA方法处理流程示意图；

图10是本发明实施例中，语音信号波形对比示意图；

图11是本发明实施例中，语音信号语谱对比示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种单通道实时降噪系统，包括：

A/D模数转换模块，用于将单通道采集到的带噪模拟语音信号转换成带噪离散语音信号。

其中，将模拟信号转换成数字信号的电路，称为模数转换器(Analog to DigitalConverter,ADC)，A/D转换的作用是将时间连续的、幅值也连续的的模拟量转换为时间离散、幅值也离散的数字信号。

请参阅图2，FPGA处理及控制模块主要有三个单元组成，分别是：输入处理单元、算法选择单元及输出处理单元。

输入处理单元的主要功能是把经过A/D转换后的带噪语音信号进行预处理，主要包括：数据采集时主从时序的产生、数据串并转换、数据缓存、数据预滤波、数据并串转换等预处理；

算法选择单元的主要功能是根据不同背景噪声实时的生成算法选择参数，所生成的算法选择参数用于噪声估计方法的选择。在实际的生活中，所处的环境中主要有三种背景噪声(在这里只是把该类噪声理想化为单一存在，实际中可能包含多种噪声的混合)：平稳噪声、非平稳噪声及强背景噪声。平稳噪声是指噪声信号的统计特性不随时间变化的噪声，在实际生活中如正常工作的空调所发出的声音就是一种平稳噪声，在理论分析中高斯白噪声常被当做典型的平稳噪声；非平稳噪声是指噪声的统计特性随时间变化的噪声，这类噪声在生活中处处都是，马路上川流不息的汽车所发出的噪声就是典型的非平稳噪声；强背景噪声是指声压级(dB)很大的底噪声场，通常声压级可达70dB以上，常出现在工厂或者工程生产等活动中，如隧道内打钻时所发出的噪声可达110dB以上，是一种典型的强背景噪声。

由于声场环境的不同，语音信号中所包含的噪声也不相同，为了更好得对语音信号进行噪声降低或者分离，针对不同的噪声场选择不同的噪声估计方法至关重要。因此根据上述的三种噪声场，本发明对噪声估计方法进行了封装，如针对平稳噪声的基于最小统计的噪声谱估计方法(MS)，如针对非平稳噪声的最小控制递归平均方法(MCRA)，如针对强背景噪声的改进的最小控制递归平均方法(IMCRA)，把这些针对不同背景噪声算法封装成库文件存放在FPGA处理模块中，在系统运行时及时把与噪声环境相对应的参数传递给DSP算法处理模块用于选取与噪声环境相匹配的噪声估计方法。

请参阅图3，图3示出本发明中对三种类型背景噪声区分方法；在FPGA处理及控制模块中，对带噪语音信号的信噪比(SNR)进行了计算，如果所求得的信噪比小于1dB，则可把该背景噪声判别成强背景噪声环境，生成参数1；如果所求得的信噪比大于1dB，则可把该背景噪声判别成其他背景噪声，再根据其统计特性(功率谱密度、频域分布密度等)进性区分，如果所得的统计特性为常数，则可把该背景噪声判别成平稳噪声，对应生成参数2，如果所得的统计特性不为常数，则可把该背景噪声判别成非平稳噪声，对应生成参数3。据此，在FPGA处理及控制模块的算法选择单元中可生成传递参数。

输出处理单元的主要功能是把经过DSP算法处理模块处理过后的语音信号进行处理输出，主要包括：数据输出时的主从时序的产生，数据缓存，数据串并转换，数据并串转换等预处理。

请参阅图4，DSP算法处理模块处理流程步骤包括：

步骤1：滤波处理。DSP接收到由FPGA预处理后的带噪语音信号，对此时的带噪语音信号进行滤波处理，例如使用高通滤波器，对204Hz以下的带噪语音信号成分进行衰减抑制，而对204Hz以上的带噪语音信号成分进行通过；

步骤2：重叠分帧、加窗。语音信号在宏观上是不平稳的，在微观上近似平稳的，语音信号具有短时平稳性，具体的说就是语音信号在30ms内近似不变，因此可以把语音信号分为一些短段进行处理，也就是分帧操作，每一个短段称为一帧；为了防止在相邻两帧之间基音发生变化，如正好是两个音节之间进行了分帧，又如正好是声母向韵母过度时进行了分帧，在这种情况下，语音信号的特征参数有可能变化比较大，为了使得语音信号的特征参数平滑的变化，在两个不重叠的帧之间插入一帧或者多帧，这样在相邻的帧之间就形成了重叠，相邻两帧起始位置的时间差叫做帧移；为了减少语音帧的截断效应，需要进行加窗处理，常用的窗函数有矩形窗、汉明窗(Hamming)、汉宁窗(Hann)、Kaiser窗等。加窗的目的有两个方面，一方面是使得语音信号的全局更加连续，避免吉布斯效应，即截断效应，另一方面，原本没有周期性的语音信号呈现出周期函数的部分特性；

步骤3：短时傅里叶变换(Short Time Fourier Transform,STFT)。短时傅里叶变化是语音信号处理中的通用工具，在这里主要是把重叠分帧、加窗后的语音信号进行傅里叶变换，它定义了一个非常有用的时间和频率分布类，其指定了任意信号随时间和频率变化的复数幅度，即傅里叶频谱；

步骤4：降噪算法处理；通过上述的几个步骤，可以得到短时平稳的带噪语音信号，在此基础上，降噪算法对每一帧带噪语音信号进行处理，具体过程是：首先是对带噪语音信号中噪声谱的估计，估计的方法可以根据FPGA处理模块中不同背景噪声来选择相对应的噪声谱估计方法；其次是对衰减因子(增益函数)的计算；最后是把所求出来的衰减因子(增益函数)用于带噪语音信号中，这样就可以得到所期望的语音信号；

步骤5，短时傅里叶逆变换(Inverse Short Time Fourier Transform,ISTFT)。短时傅里叶逆变换的过程是短时傅里叶变换的逆向过程，在这里主要是把降噪处理后的语音信号由频域转换到时域；

步骤6，加窗、重叠相加(Overlap-Add)；加窗、重叠相加在这里的作用是把短时傅里叶逆变换后离散的语音信号(降噪)进行拼接，与上述步骤2即重叠分帧、加窗相对应，减少信号由频域变换到频域所引起的失真，重叠相加后的输出信号就是本发明所期望得到时域信号，即降噪后的时域语音信号。

D/A数模转换模块，用于把数字信号转换成模拟信号，变成时域和幅值上都是连续的信号。其中，D/A(Digital to Analog Converter)，数模转换器，简称为DAC，在FPGA处理控制模块及DSP算法处理模块中所使用的信号为数字信号，降噪处理完毕后，需要把数字信号转换成模拟信号，变成时域和幅值上都是连续的信号。

请参阅图5，图5中详细的对单通道语音信号的降噪过程中数据流进行了显示。

本发明实施例的一种单通道实时降噪方法，具体步骤包括：

首先，把单通道的语音信号经过A/D模数转换，由模拟信号转换成数字信号；

其次，把数字信号输入到FPGA处理控制模块，在FPGA的输入处理单元中生成信号流的TDM主时序及TDM次时序，并对数据进行了预处理，一方面是对数字信号数据进行缓存、串并变换等操作，另一方面是获悉当前环境下背景噪声信号，为算法选择单元提供背景噪声信息；

再次，把输入处理单元的数字信号流所获悉的噪声类型传递给FPGA的算法选择单元，在算法选择单元中进行解析后，通过背景噪声类型判别算法，获悉当前系统所采集到的背景噪声类型，生成与该类型噪声相对应的传递参数；

再次，把经过FPGA输入处理单元的数据流(带噪语音信号)及FPGA算法选择单元的参数(估计方法对应的传递参数)传递给DSP算法处理模块；其中，数据流是通过McASP0口，选择单元中的参数是通过RS232口；在DSP算法处理模块中，数据流经过滤波器滤波后，经过短时傅里叶变化(STFT)、重叠分帧、加窗、噪声估计、增益函数的计算(衰减因子)、噪声抑制、短时傅里叶逆变换(ISTFT)、加窗、重叠相加等处理后(这些处理过程将会在后文中进行详细的描述)，把在DSP算法处理模块处理完的数据流通过McASP1口传回给FPGA处理控制模块的数据输出处理单元，在FPGA输出处理单元中生成IIS数据缓存及IIS主时序；

最后，把FPGA输出处理单元中的数据缓存传递给D/A模块，经过数模变换，把数字信号转换成模拟信号，所得到的新的模拟信号便是本发明所期望得到的降噪后语音信号，即期望信号。

具体实施例

本发明实施例结合具体的降噪算法进行描述的，一方面是为了更加清楚地展示本发明的实施过程，另一方面方便相关领域的技术人员进行理解和实施，但本发明所描述的一个或多个具体算法不用于限制本发明。下文将结合具体的降噪算法来进行说明。

本发明实施例中，包括：

信号模型：按照下方的模型方程进行(按照时域形式显示)：

y(t)＝x(t)+d(t)

其中，x(t)是纯净的语音信号，y(t)是观测到的带噪语音信号，d(t)则是噪声信号；

该模型中假设未知的纯净语音信号x(t)受到加性噪声(背景噪声)d(t)干扰，且带噪语音信号y(t)与纯净的语音信号x(t)不相关。

A/D采样：上述的纯净语音信号x(t)、噪声信号d(t)以及观测到的带噪语音信号y(t)都是模拟信号，在时间域和频率域上都是连续的，对其进行A/D采样处理，采样周期为T，采样频率为Fs，其中T＝1/Fs，可得到离散的时间信号y(n)，x(n)及d(n)，n为正整数，它们之间的关系如下：

y(n)＝x(n)+d(n)。

高通滤波：对带噪语音信号y(n)进行滤波处理，所选用的滤波器是高通滤波器，该滤波器通过最佳一致逼近法来设计的，属于FIR滤波器，在本发明实施例中用h(n)表示，公式如下：y_h(n)＝h(n)*y(n)，

其中，y_h(n)滤波后的时域离散信号，*为乘法运算符号。

参数设置：参数设置只针对本发明中所涉及到的具体实施例，而不是用于限制本发明中的参数设定值。本发明中会对滤波后的时间域离散信号y_h(n)进行分帧，每一帧中所包含的样本数与语音信号的特性有关，具体说来就是在短时间(30ms)内语音近似为平稳信号。至少在某些布置中，本发明中的单通道降噪系统及装置是以时间帧为基础运行的系统，当接收到一个帧(如输入帧)时，会对其数据进行缓冲和分析。

可选的，输入帧的帧尺寸是4毫秒(ms)。8000Hz的采样频率相当于32个样本，而16000Hz的采样率就相当于64个样本。本发明中的单通道降噪系统及装置可替代或额外支持其他的输入帧尺寸，包括8ms，16ms等。为清楚起见，以下描述是以帧尺寸为4ms的情况为基础。

在经过缓冲之后，输入帧进入到加窗和短时傅里叶变化(STFT)，以便输入帧映射到频域中。因为STFT经优化适用的数据长度为2的冥数，因此至少在某些布置中，该输入帧可用的分析缓冲区长度为128个样本和256个样本。图6是一个原理图显示了本文介绍的缓冲和加窗步骤。图6显示了当采样频率为16000Hz时且仅分析一个信号帧时，是如何对数据进行缓存和加窗的。如示例所示，数据的新帧的帧尺寸是64个样本，且该新帧被添加到尺寸为256个样本的缓存区中。由于缓存区(如图6所示缓存区)的尺寸比帧尺寸要大(如图5所示帧)，因此如之前的数据所示，连续的缓存区之间会有重叠，因此需要对信号进行加窗以避免突变。

如上所述，分析缓冲区之间的任何重叠都需要用加窗处理。至少在一个布置中，在频域中进行噪声处理前后可加入同一个窗函数，为了更加清楚地说明问题，在本发明中，所使用的窗函数为Kaiser窗函数，窗函数必须为保冥映射，即重叠缓存区部分的窗口的平方和必须为1，如下所示：

w²(N)+w²(M+N)＝1

其中N是缓存区的长度，也是窗函数的长度，M是帧的长度。

使用加窗数据的短时傅里叶变换(STFT)将输入的时间域离散信号y_h(n)转换到频域中：

其中，w(n)为窗函数，w(n-m)随n的取值不同延时间轴滑动到不同位置，从而一帧一帧的对带噪语音信号进行傅里叶变换；k表示频率槽指数(子频带)，Y(k,n)为Y(n)短时傅里叶变化后的结果。由于假定了语音信号和噪声信号相互独立，所以可以得到：

|Y(k,n)|²≈|X(k,n)|²+|D(k,n)|²

将其写成分帧后的形式可得：

|Y(k,λ)|²≈|X(k,λ)|²+|D(k,λ)|²

其中，|Y(k,n)|²、|X(k,n)|²、|D(k,n)|²分别为带噪语音信号、纯净语音信号和噪声信号的周期图(功率谱密度)，λ为帧号。

本发明中，根据不同的背景噪声类型，选择不同的噪声身估计方法，其效率和实时性主要体现在算法处理过程的时延上，时延短其处理效率高、实时性好，时延长其处理效率低、实时性差。算法处理过程中时延产生的主要原因是重叠分帧加窗处理时产生的，

其中M为窗函数的长度，Overlap为分帧时重叠率，Fs为信号的采样频率，例如M＝256,Overlap＝75％,Fs＝16000Hz,则算法处理的时延可以近似为12毫秒。在窗长M及分帧重叠率verlap可以灵活的选择，窗长的选择可以是32,64,128等，重叠率一般不小于50％，选择较小的窗长及较小的分帧重叠率可以更好的改善算法的效率和实时性。

噪声估计：噪声估计算法是语音信号降噪中非常关键的环节，在单通语音信号降噪中，尤其是在噪声源及背景噪声类型未知的情况下，实时噪声功率谱的估计尤为重要，噪声估计的准确性将会直接影响最终所期望语音信号的语音质量，若噪声估计过高，降噪后的语音信号将会失真；若噪声估计过低，降噪后的语音信号将会存在较多的残留噪声。因此选择合理的噪声估计方法非常重要，尤其是在不同类型的背景噪声条件下。

针对不同类型的背景噪声所选择的噪声估计方法，旨在说明不同类型的背景噪声条件下所选择的噪声估计方法，而不用于限定本发明噪声估计方法的具体内容。

(1)平稳噪声环境下：在平稳噪声环境选择最小值统计方法(MS)来估计带噪语音信号中噪声信号，MS方法即通过跟踪固定窗长内|Y(k,λ)|²的最小值来估计噪声功率。

MS方法的处理过程如图7所示，首先对带噪语音信号的功率谱|Y(k,λ)|²进行一阶平滑，得到平滑后的带噪语音功率P(k,λ)，其次是在固定的窗长内跟踪P(k,λ)各频带的最小值，得到最小值P_min(k,λ)，最后对得到的最小值P_min(k,λ)进行偏差补偿，得到噪声信号的功率谱，如下：

其中，

为MS算法的噪声功率谱无偏估计，B_min(k,λ)为偏差补偿因子。

(2)非平稳噪声环境下：在非平稳噪声环境下选择最小控制递归平均方法(MCRA)来估计带噪语音信号中的噪声信号，MCRA算法利用噪声信号对语音信号频率影响不平均的特点基于时间递归平均的一种方法。

MCRA方法的处理过程如图8所示，首先是利用一阶平滑对带噪语音信号的功率谱|Y(k,λ)|²进行处理得到带噪语音信号的平滑功率谱S(k,λ)，其次是在固定窗长中搜索得到平滑功率谱的最小值S_min(k,λ)，再次是利用平滑功率谱S(k,λ)和平滑功率谱的最小值S_min(k,λ)来计算语音信号存在的概率p(k,λ)，再次是利用带噪语音信号中语音信号存在的概率函数p(k,λ)计算递归平均因子α_d(k,λ)，最后利用递归平均因子来更新噪声功率谱密度的估计值，如下：

其中

为当前帧噪声信号的功率谱密度，

为上一帧噪声信号的功率谱密度，α_d(k,λ)为递归平滑因子，|Y(k,λ)|²为带噪语音信号功率谱。

(3)强背景噪声环境下：在强背景噪声环境下选择改善的最小控制递归平均方法(IMCRA)来估计带噪语音信号中的噪声信号，IMCRA方法是对MCRA方法进行了改善，改善的地方主要有两个方面：一方面是语音信号存在概率p(k,λ)的计算方式；另一方面是引入了一个偏差补偿因子。

IMCRA方法的处理过程如图9所示。为了得到语音信号存在的概率p(k,λ)，需要先得到语音不存在的先验概率q(k,λ)。IMCRA方法中通过两次迭代运算得出语音信号不存在的概率q(k,λ)的值。第一次迭代得出粗略的语音活性判决I(k,λ)，第二次迭代利用相邻频点间的强相关性进行时频平滑得出精确的语音存在概率，即只对语音信号不存在的点做平滑，而语音是否存在取决于第一次迭代的结果。得到噪声信号的功率谱的估计值

其表达式如下：

其中，β为引入的偏差补偿因子，

为是利用递归平均方法得到的噪声信号的功率谱估计，其表达式如下：

综上所述，在三种背景噪声环境下，尽管在方法的选择方面不相同，但最终的目的都是一致的，即对带噪语音信号的噪声信号进行估计。

上述三种噪声估计方法只是简单的对带噪语音信号的噪声估计流程做了描述而不涉及具体的实施参数，为了达到实时处理以及实现简便起见，下文中所涉及到的噪声估计方法将会涉及到具体的参数，一方面是为了进一步说明本实施，另一方面是为了同领域工作人员方便实施，这些具体参数的选择不是为了限制本发明，而是对本发明的具体说明。

噪声估计方法中的参数计算如下：

(1)平滑因子计算：平滑因子一方面是为了消除语音信号中数据饱和的现象，另一方面加强当前帧中数据削弱上一帧数据，除此之外，平滑因子对本发文明中单通道降噪实时系统及装置有着关键的作用，一方面是加速降噪算法的收敛速度，提升系统及装置的运行效率，另一方面跟踪能力强，尤其是在语音信号这种变化相对较快的信号中，有着很好的稳定性。本发明所涉及到的平滑因子主要有四个参数，为了更好的说明问题，分别定义为α₁，α₂，β₁，β₂，其中α₁和α₂用于语音信号的估计中，β₁和β₂用于噪声信号的估计中，这四个参数定义如下：

F＝4*Fs/M

其中，Fs为采样频率，在本发明中设置为16000Hz，M为一帧数据中所包含的采样点数为64，T₁，T₂，T₃，T₄的值由经验值来决定的，根据DRC(Dynamic Range Control)理论及语音信号快变特性和噪声信号慢变特性共同得出的。

(2)带噪语音信号的功率谱估计与更新：在本发明实施例中，利用带噪语音信号的当前窗口幅度值来对带噪语音信号及噪声信号进行估计和更新，如下：

Y²(k,λ)＝|(real(Y(k,λ)))|²+|imag(Y(k,λ))|²

其中，real(Y(k,λ))为带噪语音信号y_h(n)短时傅里叶变换(STFT)后的实部，imag(Y(k,λ))为带噪语音信号y_h(n)短时傅里叶变换(STFT)后的虚部，|*|取绝对值符号；本发明实施例中更新一帧长的带噪语音信号，如下：

平滑因子更新，如下

α(k,λ)＝I(k,λ)*α₁+(1-I(k,λ))*α₂

带噪语音信号更新，如下：

S_est(k,λ)＝α(k,λ)*I(k,λ)+(1-α(k,λ))*S(k,λ)

其中，S_set为一个预设的定值，在本发明实施例中设置为0.01，α(k,λ)为更新后的带噪语音信号的平滑因子，S_est(k,λ)为更新后的带噪语音信号。

(3)噪声信号功率谱估计与更新：在本发明实施例中更新带噪语音信号中的噪声信号，所用的公式如下：平滑因子更新，如下

噪声信号的估计与更新，如下：

N_est(k,λ)＝β(k,λ)*N_set+(1-β(mk,λ))*S(k,λ)

其中，β(k,λ)为更新后的噪声信号的平滑因子，N_set为噪声信号预先估计值，该值与噪声信号的类型及声压分贝数(dB)有关，N_est(k,λ)为更新后的噪声信号；为了避免噪声信号的过估计，在本发明中对估计出来的噪声信号做了如下处理：

其中，N_min为噪声信号的最小值，该值在本发明中设置为定值，方便用于计算；上述公式换而言之就是当估计出来的噪声信号的值大于设定的噪声信号的最小值时，噪声信号取所估算出来的值，如果当估计出来的噪声信号的值小于设定的噪声信号的最小值时，噪声信号取所设定的噪声信号的最小值。

(4)增益函数计算：上述内容已对带噪语音信号及噪声信号进行了估计，除此之外，还需对带噪语音信号的增益函数即噪声信号的衰减因子进行计算，利用上述的相关参数及公式可得：

其中，γ为预先设定信噪比参数，S_est(k,λ)为估计的带噪语音信号，N_est(k,λ)为估计的噪声信号，G(k,λ)为增益函数。

(5)降噪处理：上文中分别对噪声信号的估计及带噪语音信号的增益函数进行了计算，根据所计算出数值或者函数来进行降噪处理，在本发明中，使用增益函数乘以带噪语音信号可以得出降噪后语音信号，公式如下：

X_est(k,λ)＝G(k,λ)*Y(k,λ)，

其中X_est(k,λ)为降噪后的信号；

(6)短时傅里叶逆变换(ISTFT)：上文中已求得降噪后的语音信号X_est(k,λ)，所求的值离散的频域信号，于是需要对其进行短时傅里叶逆变换(ISTFT)，将频域信号转换到时域信号，公式如下：

加窗、重叠求和，如下：

D/A变换处理：上述的处理过程已把在频域处理完的信号转换成在时域离散的数字信号x(n)，不是最终所期望的模拟信号，因此需要经过D/A转换，把数字信号转换成最后所期望的时间域连续的模拟信号x(t)，x(t)就是本发明对带噪语音信号y(t)经过降噪处理后所得的期望信号。

本发明实施例的实际试试效果从三个方面进行描述：带噪语音信号性能的改善、语音识别性能的提升及本实施例实际运行时间。

本发明实施例中所使用的带噪语音信号数据是在非平稳噪声环境下采集到的，即在午餐时间学校食堂内所采集到的。首先将会给出实施例对带噪语音信号处理前与处理后、以及信噪比改善方面的性能提升。

通过图10可以看出，经过本发明中所述实施例降噪算法处理后，极大的改善了信号的波形，提高了信号的质量。图11为语音信号降噪前和降噪后的语谱图，图11的上半部分为带噪语音信号的语谱图，下半部分为期望信号的语谱图，明显可以看出降噪前频谱的变化，降噪前频率分量模糊不清，降噪后频率分量清楚可见，因此本发明极大的改善了语音信号的质量。

通过测试，得出原始信号的信噪比(SNR)为5.4621dB，降噪处理后期望信后的信噪比为31.3345dB，信噪比提升多达25.8725dB，极大的改善了带噪语音信号的信噪比。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种单通道实时降噪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种单通道实时降噪方法，其特征在于，步骤3具体包括：

对预处理后的带噪离散语音信号的信噪比进行了计算，如果所求得的信噪比小于等于1dB，则把对应背景噪声判别成强背景噪声环境，生成参数1；

如果所求得的信噪比大于1dB，则把对应背景噪声判别成其他背景噪声，再根据其统计特性进性区分，所得的统计特性为常数，则把对应背景噪声判别成平稳噪声，生成参数2；如果所得的统计特性不为常数，则把对应背景噪声判别成非平稳噪声，生成参数3；

其中，平稳噪声选择最小值统计方法来估计带噪语音信号中噪声信号，非平稳噪声选择最小控制递归平均方法来估计带噪语音信号中的噪声信号，强背景噪声选择改善的最小控制递归平均方法来估计带噪语音信号中的噪声信号；

所述改善的最小控制递归平均方法包括：存在概率p(k,λ)的计算方式和引入偏差补偿因子。

3.根据权利要求2所述的一种单通道实时降噪方法，其特征在于，步骤3中，

改善的最小控制递归平均方法包括：通过两次迭代运算得出语音信号不存在的概率的值；其中，第一次迭代得出粗略的语音活性判决，第二次迭代利用相邻频点间的强相关性进行时频平滑得出精确的语音存在概率；得到噪声信号的功率谱的估计值

表达式为：

式中，β为引入的偏差补偿因子，

为是利用递归平均方法得到的噪声信号的功率谱估计，其表达式为：

式中，

为当前帧噪声信号的功率谱密度，

为上一帧噪声信号的功率谱密度，α_d(k,λ)为递归平滑因子，|Y(k,λ)|²为带噪语音信号功率谱，k为频率槽指数，λ为帧号；

最小值统计方法包括：首先对带噪语音信号的功率谱|Y(k,λ)|²进行一阶平滑，得到平滑后的带噪语音功率P(k,λ)；其次是在固定的窗长内跟踪P(k,λ)各频带的最小值，得到最小值P_min(k,λ)；最后对得到的最小值P_min(k,λ)进行偏差补偿，得到噪声信号的功率谱，表达式为：

其中，

为最小控制递归平均方法的噪声功率谱无偏估计，B_min(k,λ)为偏差补偿因子；

最小控制递归平均方法包括：首先，利用一阶平滑对带噪语音信号的功率谱|Y(k,λ)|²进行处理，得到带噪语音信号的平滑功率谱S(k,λ)；其次，在固定窗长中搜索得到平滑功率谱的最小值S_min(k,λ)；再次，利用平滑功率谱S(k,λ)和平滑功率谱的最小值S_min(k,λ)来计算语音信号存在的概率p(k,λ)；再次，利用带噪语音信号中语音信号存在的概率函数p(k,λ)计算递归平均因子α_d(k,λ)；最后，利用递归平均因子更新噪声功率谱密度的估计值，表达式为：

其中，

为当前帧噪声信号的功率谱密度，

为上一帧噪声信号的功率谱密度，α_d(k,λ)为递归平滑因子，|Y(k,λ)|²为带噪语音信号功率谱，k为频率槽指数，λ为帧号。

4.根据权利要求1所述的一种单通道实时降噪方法，其特征在于，步骤3中，所述通过选择的噪声估计方法对预处理后的带噪离散语音信号进行处理，具体包括：

(1)对预处理后的带噪离散语音信号进行滤波处理，获得滤波后信号；

(2)将步骤(1)获得的滤波后信号进行重叠分帧、加窗；

(3)将步骤(2)重叠分帧、加窗后的语音信号进行傅里叶变换，指定任意信号随时间和频率变化的复数幅度；

(4)对每一帧带噪语音信号进行处理，包括：通过选择的噪声估计方法对带噪语音信号中噪声谱的估计；计算获得衰减因子；将衰减因子用于带噪语音信号中，得到降噪处理后的频域语音信号；

(5)将步骤(4)获得的频域语音信号进行短时傅里叶逆变换，将降噪处理后的语音信号由频域转换到时域，获得离散的语音信号；

(6)加窗、重叠相加将步骤(5)短时傅里叶逆变换后获得的离散的语音信号进行拼接，获得降噪后的时域语音信号。

5.根据权利要求4所述的一种单通道实时降噪方法，其特征在于，包括：

步骤1中，信号模型为：y(t)＝x(t)+d(t)；其中，x(t)是纯净的语音信号，y(t)是观测到的带噪语音信号，d(t)则是噪声信号；模型中x(t)受到加性噪声d(t)干扰，且带噪语音信号y(t)与纯净的语音信号x(t)不相关；x(t)、d(t)以及y(t)都是模拟信号，在时间域和频率域上均连续，进行A/D采样处理，采样周期为T，采样频率为Fs，T＝1/Fs，获得离散的信号y(n)，x(n)及d(n)，n为正整数，y(n)＝x(n)+d(n)；

步骤2中，对y(n)进行滤波处理，选用的滤波器是高通滤波器，所述高通滤波器通过最佳一致逼近法设计，用h(n)表示，公式如下：y_h(n)＝h(n)*y(n)，其中，y_h(n)滤波后的时域离散信号，*为乘法运算符号；

步骤3的(2)中，所使用的窗函数为Kaiser窗函数，表达式为：w²(N)+w²(M+N)＝1其中，N是缓存区的长度，也是窗函数的长度，M是帧的长度；

步骤3的(5)中，使用加窗数据的短时傅里叶变换将输入的时间域离散信号y_h(n)转换到频域中，表达式为：