CN1201547A

CN1201547A - 自适应滤波音频信号以增强噪声环境条件下语音清晰度的系统

Info

Publication number: CN1201547A
Application number: CN96198008A
Authority: CN
Inventors: T·W·索尔维
Original assignee: Ericsson Inc
Current assignee: Ericsson Inc
Priority date: 1995-09-14
Filing date: 1996-09-13
Publication date: 1998-12-09
Anticipated expiration: 2016-09-13
Also published as: AU724111B2; WO1997010586A1; DE69613380D1; MX9801857A; RU2163032C2; TR199800475T1; KR19990044659A; JPH11514453A; KR100423029B1; AU7078496A; PL325532A1; EE03456B1; NO981074D0; CN1121684C; EP0852052B1; BR9610290A; EP0852052A1; CA2231107A1; EE9800068A; PL185513B1

Abstract

一种方法和系统被提供用于自适应地削减数字化音频信号帧中的噪声,其中的数字化音频信号帧中既包括语音又包括背景噪声。数字化音频信号帧被通过一个可调节的高通滤波器电路来滤除位于数字化信号的低频范围中的一部分背景噪声。滤波器电路由一个适应于当前帧的滤波器控制电路来调整,从而显示出一条选中的频率响应曲线。该滤波器控制电路包括一个语音检测器用于检测数字化音频信号帧中是否存在语音。在当前帧中没有检测到语音时,滤波器电路被调整。在第一优选实施方案中,滤波器电路通过计算对应于背景噪声的噪声估计值来控制滤波器电路,并基于噪声估计值来调整滤波器电路。当噪声估计值增加时,滤波器电路被调整来抽取更多数量的落在语音低频范围内的能量。在第二优选实施方案中,滤波器电路以噪声包络估计值函数的形式而调整。当前帧的噪声包络估计值以语音检测函数的形式被确定并被拿来与参考噪声包络比较。基于该比较,滤波器电路被自适应地调整。

Description

自适应滤波音频信号以增强噪声环境条件下语音清晰度的系统

有关申请

该发明涉及于1993年9月29日提交的题为″用于语音信号的自适应降噪″的美国专利申请序列号No.08/128,639；以及于1992年10月27日6提交的题为″多模式信号处理″的美国专利申请序列号No.07/967,027，两者都以参考文献的方式在这里被引用。美国专利申请序列号No.08/128,639目前在待审，并被转让给当前授予人的母公司。

发明领域

该发明涉及降噪系统，特别涉及一种用于便携数字无线电话的自适应语音清晰度增强系统。

发明背景

在美国以及世界其他地区的商业运做中，蜂窝电话工业已经取得了显著的进展。在主要都市地区，对蜂窝服务的需求正在超过现有系统的容量。假设这种趋势继续下去，蜂窝无线电通讯将触及甚至最小的农村市场。因此，以合理花费保持高质量服务的同时蜂窝容量必须加大。朝向提高容量的重要一步是蜂窝系统从模拟传送向数字传送的转换。这种转换也是重要的，这是因为第一代个人通讯网(PCNs)将可能由使用下一代数字蜂窝基础结构的蜂窝载体来提供，其中，第一代个人通讯网采用了便于携带及便于在家中、办公室、街上、汽车里等地打电话或接电话的低花费、衣袋大小的无绳电话。

数字通讯系统利用了强有力的数字信号处理技术。数字信号处理通常指的是数字化信号的数学或其他方面的处理。例如，将模拟信号转换(数字化)为数字形式之后，可能利用数字信号处理器(DSP)中的简单数学例程来滤波、放大并衰减该数字信号。数字信号处理器一般被制造为高速集成电路，使得数据处理操作基本上实时进行。数字信号处理器也可以被用来降低数字化语音的比特传输率，其结果表现为发送无线电信号的谱占有率降低以及系统容量扩大。例如如果使用14比特线形脉冲码调制(PCM)来数字化语音信号，并以8KHZ的采样率采样，会产生112K比特/秒的串行比特率。此外，通过从数学上利用冗余的特性及其它人类语音的可预测特性，声音编码技术可以用来将112K比特/秒的串行比特率压缩到7.95K比特/秒以获得14∶1的比特传输率削减。传输率削减意味着更多可得的带宽。

在美国，被TIA采用用做第二代蜂窝电话系统(i.e.IS-54)的数字化标准的一种流行的语音压缩技术是矢量源码书激励的线形预测编码(VSELP)。不幸的是，当包括语音且混有高电平环境噪声(尤其是″有色噪声″)的音频信号被利用VSELP编码/压缩时，结果里可能包括部分不希望的音频信号特性。例如，如果在噪声环境(例如，其中移动车辆的车内)中使用数字移动电话，环境噪声和希望的语音都被使用VSELP编码算法压缩，并被发送到基站，在基站中压缩后的信号被解码并被重构为可听的语音。当背景噪声被重构为模拟形式时，噪声的不被希望的可听失真，以及偶然发生于语音中的这些情况被引入。这种失真对于一般听众来说是非常讨厌的。

这种失真大部分由使用移动电话的环境造成。移动电话一般用于车辆内部，在那里常常有汽车引擎产生的环境噪声及周围车流造成的噪声。这种车辆内部的环境噪声通常集中在低音频范围，并且噪声幅度会由于车辆的速度和加速以及周围车流量大小程度这样的因素而变化。这种低频噪声还具有这样的趋势：严重降低来自汽车中讲话人的语音清晰度。在采用VSELP声音编码器的通讯系统中，这种由低频噪声造成的语音清晰度的降低可能会尤其显著，但是这种现象也可能发生于不包括VSELP声音编码器的通讯系统中。

环境噪声对移动电话的影响也可能会因使用移动电话的方式而起作用。尤其是移动电话可以用于免提方式，即电话使用者对着放在托架内的移动电话讲话。这使得移动电话使用者的手可以腾出来驾驶，但也增加了使用者讲出的话到达移动电话麦克风输入端之前必须走过的距离。这种使用者与移动电话之间加大了的距离，加上变化的环境噪声，会导致噪声成为输入到移动电话的音频信号总功率谱能量的一个显著部分。

理论上来说，可利用数字信号处理器来实现各种数字信号处理算法以滤除VSELP编码的背景噪声。然而，这些解决方法常常需要以每秒执行几百万条指令(MIPS)来计算的很大的数字信号处理开销，这耗费了可贵的处理时间，内存空间及功率耗费。然而，在便携无线电话中，这些信号处理资源中的每一个都是有限的。因此，对于最小化VSLEP编码的背景噪声以及其他类型的背景噪声，简单地增加DSP的处理负担并不是一个最佳解决方案。

发明概要

该发明给出了一种自适应降噪系统，该系统在使对编码语音质量的任何负面影响最小化及对数字信号处理资源的任何增加消耗最小化的同时，削减了不希望的编码背景噪声作用。该发明的方法和系统增加了数字化音频信号中语音的清晰度，其方法是将数字化音频信号帧通过一个滤波器电路。该滤波器电路起可调节高通滤波器的作用，它滤除一部分低音频范围的数字化信号，通过落在高频范围内的数字化信号部分。因为车辆内的噪声趋于集中在低音频范围，并且只有一小部分语音清晰值落在该低频范围，因此滤波电路在只滤除掉语音的不重要部分的同时，滤除了数字化音频信号中的大部分噪声。这使得与除去的语音能量部分相比，相对更大一部分的噪声能量被除去。通过自适应地调整并选择滤波器电路的频率响应曲线，滤除掉的语音量被限制，并对无线电输出的语音清晰度具有最小的影响。

滤波器控制电路被用来调整滤波器电路，使之以某一噪声估计值和/或谱包络函数的形式来显示不同的频率响应曲线，其中的噪声估计值和/或谱包络对应于音频信号中的噪声。噪声估计值和/或谱包络在逐帧的基础上针对数字信号做调整并以语音检测函数的形式来调整。如果没有检测到语音，那麽为当前帧修正噪声估计值和/或谱包络。如果检测到语音，就不调整噪声估计值和/或谱包络。

在第一实施方案中，滤波器电路针对数字化的音频信号帧计算噪声估计值。该噪声估计值对应于数字化音频信号帧中的背景噪声量。当语音低频范围中的背景噪声对语音的相对量增加时，噪声估计值增加。当语音低频范围中的背景噪声对语音的相对量增加时，滤波器控制电路使用噪声估计值来调整滤波器电路以滤除更大部分的低频范围语音。当不存在背景噪声时，没有语音信号被滤除。当存在更高的噪声电平时，更大部分的噪声和语音信息被抽取。因为噪声趋向于集中在低频范围内并且只有相对较小部分语音清晰值落在该低频范围内，当噪声估计值增加时，通过加大正在被滤除的低频能量部分，音频信号的整体清晰度可以被提高。

在第二实施方案中，一个修改后的滤波器控制电路被用来调整滤波器电路，使之以某一噪声包络函数的形式来显示出不同的频率响应曲线，其中的噪声包络为音频信号中选出频率范围上噪声估计值的噪声包络。该滤波控制电路包括一个谱分析器，该分析器以检测语音函数的形式来确定一个噪声包络估计值。为当前帧确定一个噪声包络估计值并将该估计值与参考噪声包络相比较。基于该比较，滤波器电路被自适应地调整用来从当前帧中提取不同数量的低频能量。

根据该发明的自适应削减系统可以被很好地应用于无线电通讯系统，在该无线电通讯系统中，便携/移动无线电收发器之间及无线电收发器与固定电话线用户之间通过RF信道通讯。每一个收发器包括一个天线，一个用于将通过天线在RF信道上接收到的无线电信号转换成模拟音频信号的接收器，及一个发送器。发送器包括一个编-解码器(codec)用来把将要被发送的模拟音频信号数字化为数字化语音信息帧，该语音信息既包括语音也包括背景噪声。数字信号处理器在背景噪声估计值及当前帧中语音检测的基础上处理当前帧来最小化背景噪声。调制器将处理后的数字化语音信息帧调制到RF载波上用于后续通过天线的发送。

附图简要描述

根据下面书写的描述并结合附图，对于该技术领域的普通技术人员来说，该发明的所有特征及优点将很容易明白。

图1是该发明的一个通用功能方框图。

图2图解说明了用于蜂窝无线电通讯的美国数字标准IS-54的帧和位置结构；

图3是利用数字信号处理器实现的该发明第一优选实施方案的方框图；

图4是该发明的一个示范实施方案的功能方框图，该实施方案应用于无线电通讯系统中多个便携无线电收发器中一个。

图5A和5B为一个流程图，它图解说明了在实现该发明第一优选实施方案过程中，数字信号处理器执行的功能/操作。

图6A是图解说明根据该发明第一优选实施方案的滤波电路的衰减-频率特性的第一示例图。

图6B是图解说明根据该发明第一优选实施方案的滤波电路的衰减-频率特性的第二示例图。

图7是可被该发明第一优选实施方案中滤波控制器电路存取的一个示例查询表。

图8A和8B图解说明了示例输入音频信号的幅度-频率特性。

图9A和9B分别图解说明了图8A和8B中输入音频信号被该发明的滤波器电路滤波之后的幅度-频率特性；

图10是利用数字信号处理器实现的该发明第二优选实施方案的方框图；

图11为一个流程图，对应于图5B的流程图，它图解说明了在实现该发明第二优选实施方案过程中数字信号处理器执行的功能/操作。

图12是可被该发明第二优选实施方案中滤波器控制电路存取的一个示例查询表。

附图详细描述

在下面的描述中，出于解释而不是限制的目的，为了给出对该发明的全面理解，具体的细节如特殊电路、电路元件、技术、流程图等等被陈述。然而，该技术领域的技术人员会明白，该发明可以实践于偏离这些具体细节的其他实施方案中。在其他例子中，众所周知的方法、设备、和电路的详细描述都被略去以便不会以不必要的细节而模糊了对该发明的描述。

图1是根据该发明的自适应降噪系统100的通用方框图。自适应降噪系统100包括一个连接到滤波器电路115的滤波器控制电路105。滤波器控制电路105为数字化音频信号的当前帧产生一个滤波器控制信号。该滤波器控制信号被输出到滤波器电路115，滤波器电路115根据滤波器控制信号而调节以显示出一个高通频率响应曲线，该曲线是在滤波器控制信号的基础上选择出的。调节后的滤波电路115滤波数字化音频信号的当前帧。滤波信号被声音编码器120处理来产生表示数字化音频信号的编码信号。

在蜂窝无线电通讯系统中应用于便携/移动无线电话收发器的该发明的一个示范方案中，图2图解说明了IS-54标准为数字蜂窝无线电通讯采用的时分多址存取(TDMA)的帧结构。一″帧″是一个20毫秒的时间段，它包括一个发送块TX，一个接收块RX及一个信号强度测量块用于移动台辅助切换(MAHO)。图2中表示出的两个连续帧在40毫秒的时间段内被发送。数字化的语音和背景噪声信息如同下面进一步描述的，在逐帧的基础上被处理和滤波。

最好的是，图1中的滤波器控制电路105，滤波器电路115及声音编码器120的功能用一个高速数字信号处理器来实现。一种适当的数字信号处理器是可以从TI公司获得的TMS320C53 DSP。该TMS320C53 DSP在一个单集成片上包括一个16比特微处理器，用于存储如将要被处理的语音帧这样的数据的片上RAM，用于存储各种数据处理算法的ROM，其中的算法包括VSELP语音压缩算法，以及下面将要描述的用来完成由滤波器控制电路105和滤波器电路115执行的功能块的其它算法。

该发明的第一实施方案在图3中被表示出。在第一实施方案中，滤波器电路115以背景噪声估计值函数的形式来调整。该背景噪声估计值由滤波器控制电路来确定。脉冲码调制的音频信息帧被顺序存储在DSP的片上RAM中。可以使用其他的数字化技术来数字化音频信息。每一个PCM数字帧从DSP片上RAM中被取出并被帧能量估计器210处理，然后暂存在临时帧存储器220中。由帧能量估计器210确定的当前帧的能量被提供给噪声估计器230及语音检测器240功能块。当帧能量估计值超过前一噪声估计值与一个语音阈值的和时，语音检测器240表示语音存在于当前帧中。如果语音检测器确定没有语音存在，那么数字信号处理器200以当前噪声估计值和当前帧能量函数的形式来计算一个修正的噪声估计值。

修正后的噪声估计值被输出到滤波器选择器235。滤波器选择器235基于噪声估计值产生一个滤波器控制信号。在优选实施方案中，滤波器选择器235在产生滤波器控制信号过程中读取查询表。查询表包括一系列的滤波器控制值，每一个控制值都与一个噪声估计值或噪声估计值的范围相匹配。在修正后噪声估计值的基础上，查询表中的滤波器控制值被选择出，该滤波器控制值由一个滤波器控制信号表示，该控制信号为滤波器电路115而输出到滤波器组265。为了稳定该过程，并避免在不同滤波器之间的连续切换，为新滤波器的选择设置了一个N帧的转换时间。新滤波器只能每N帧选择一次，其中N是一个大于1，并最好大于10的整数。

滤波器电路115根据滤波器控制信号而调整以显示出对应于输入滤波器控制信号和噪声估计值的高通频率响应曲线。现有技术中众所周知的各种不同类型的滤波器电路可以被用来根据滤波器控制信号显示选中的频率响应曲线。这些现有技术的滤波器包括IIR滤波器，如巴特沃斯，契比雪夫或椭圆滤波器，由于较低的处理要求，也可以使用FIR滤波器，但优选IIR滤波器。

滤波后的信号被声音编码器120处理，120被用来压缩滤波后信号的比特率。在优选实施方案中，声音编码器120使用矢量源码书激励线性预测编码(VSELP)技术来编码音频信号。其他的声音编码技术和算法也可以被使用，例如码激励线性预测(CELP)编码，残留脉冲激励线性预测(RPE-LTP)编码，改进的多带激励(IMBE)编码。通过在声音编码之前根据该发明滤波音频信号帧，背景噪声被最小化，该处理基本上削减了当语音重构时语音中的任何不希望的噪声影响。它也防止了语音被″淹没″在低频噪声中。

结合图3描述的数字信号处理器200可以被用于例如无线电通讯系统中使用的数字便携/移动无线电话的收发器这样的装置中。图4图解说明了一个这样的数字无线电收发器，它可以用于蜂窝无线电通讯网络中。尽管图4通常描述了包括在无线电收发器中的基本功能块，该收发器的更详细的描述可以从以前参考的题为“多模式信号处理”的美国专利申请序列号No.07/967,027中得到，该专利以参考文献的方式在这里被引用。

包括语音和背景噪声的音频信号从麦克风400输入到编-解码器402，402最好是一个专用集成电路(ASIC)。在麦克风400处检测到的带限音频信号被编解码器402以每秒8000个样本的采样率采样并被分块成帧。根据上述，每个20毫秒帧包括160个语音样本。这些样本被量化并被转换成例如14比特线性PCM这样的编码数字格式。一旦当前帧的数字化语音的160个样本被存储到发送DSP200中的片上RAM中，发送DSP200就象上面结合图3描述的一样，根据VSEIP算法，执行信道编码功能，帧能量估计，噪声估计，语音检测，FFT，滤波功能和数字语音编码/压缩。

监测微处理器432控制着图4中表示出的收发器中所有元件的整个操作。由发送DSP200产生的滤波后的PCM数据流被提供用来正交调制和发送。到此为止，基于得自DSP 200的滤波后PCM数据流，ASIC门阵列404产生同相(I)信息信道和正交(Q)信息信道。I和Q比特流被相匹配的低通滤波器406和408处理并被传送到平衡调制器410中的IQ混合器中。参考震荡器412和乘法器414给出一个发送中间频率(IF)。I信号与同相IF混合，Q信号与正交IF混合(即同相IF被相移器416滞后90度)。混合的I和Q信号被相加，并被“上”转换到由信道合成器430选出的RF信道频率上，然后通过双工机420和天线422在选出的无线电频率信道上发送。

在接收边，通过天线422和双工机420接收的信号被从混合器424中的选中接收信道频率上向下转换为第一IF频率，其中的第一IF频率使用了由信道合成器430在参考震荡器428的输出基础上合成的本地震荡器信号。第一IF混合器424的输出被滤波并且其频率被向下转换为第二IF，该转换在信道合成器430和解调器426的另一个输出的基础上进行。然后，接收门阵列434将第二IF信号转换成一系列的相位样本和一系列的频率样本。接收DSP436对接收到的信号执行解调、滤波、增益/衰减、信道解码和语音扩张。然后，处理后的语音数据被送到编解码器402并被转换为基带音频信号用于驱动扬声器438。

现在将结合图5A、5B中的流程图描述数字信号处理器200为实现滤波器控制电路105，滤波器电路115和声音编码器120的功能而执行的操作。帧能量估计器210确定每一帧音频信号的能量。通过计算一帧中每一个PCM样本平方值的和(步骤505)，帧能量估计器210确定当前帧的能量。因为对于每秒8000样本的采样率来说，每一个20毫秒长的帧有160个样本，那麽就有160个PCM样本平方被相加。按照数学方式表达，帧能量估计根据下面等式1来确定：

为当前帧计算的帧能量值被存储在DSP200的片上RAM202中(步骤510)。

语音检测器240的功能包括从DSP200的片上RAM202中取出一个由噪声估计器230先前确定的噪声估计值(步骤515)。当然，当收发器最初上电时，没有噪声估计值存在。判断框520预计到这种情况并在步骤525给出一个噪声估计值。为了象下面将要描述的，迫使对噪声估计值的修正，最好安排一个任意高的值作为噪声估计值，例如在正常语音电平之上的20dB。由帧能量估计器210确定的帧能量被从DSP210的片上RAM202中取出(方框530)。在方框535中确定帧能量估计值是否超过了检出的噪声估计值加上一个预定语音阈值的和，如下面等式2表示的：

帧能量估计值＞(噪声估计值+语音阈值)(等式2)

语音阈值可以是一个固定值，该固定值由经验确定大于一般背景噪声的短时能量方差，并且可以被设置为例如9dB。另外，语音阈值可以被自适应地修改来反映变化的语音条件，例如，当讲话者进入一个更嘈杂或更安静的环境时的语音条件。如果帧能量估计值超过了等式2中的和，那麽在方框570中设置一个标志位表示语音存在。如果语音检测器240检测到语音存在，那麽噪声估计器230被越过，为以前的数字化音频帧计算的噪声估计值被检索出并被用做当前噪声估计值。相反的，如果帧能量估计小于等式2中的和，在方框540将语音标志清零。

也可以使用其他检测当前帧中语音的系统。例如，欧洲电讯标准机构(ETSI)已经开发了一种用于全球定位系统GSM中声音活动检测(VAD)的标准。并在ETSI参考文献： RE/SMG-020632P中被描述，该文献以参考的方式在此引用。

如果语音不存在，噪声估计器230中的噪声估计值修正例程被执行。在没有语音存在的时间里，噪声估计值实质上是帧能量的一个在线平均。如上面描述的，如果最初的启动噪声估计值被选择的足够高，那麽语音没有被检测到，并且语音标志被因此清零以迫使对噪声估计值的修正。

在由噪声估计器230执行的噪声估计例程中，在方框545中确定了一个差值/误差(Δ)，根据下面等式，该误差为帧能量估计器210产生的帧噪声能量与噪声估计器230以前计算的噪声估计值之间的差值：

Δ＝当前帧能量-以前噪声估计(等式3)

判断框550确定是否Δ超过了0。如果Δ是负的，如同高噪声估计值时发生的一样，那么根据下面等式噪声估计值在方框560中被重新计算：

噪声估计＝以前噪声估计+Δ/2(等式4)

由于Δ是负的，这导致噪声估计值向下校正。这里选择了相对较大的步长Δ/2来快速校正以降低噪声电平。然而，如果帧能量超过了噪声估计值，给出一个大于0的Δ，则在方框555中噪声被根据下面等式修正：

噪声估计＝以前噪声估计值+Δ/256(等式5)

由于Δ是正的，噪声估计值一定会增加。然而，这里选取了一个更小的步长Δ/256(与Δ/2相比)来逐渐加大噪声估计值并对瞬时噪声做出实质性的消除。

为当前帧计算的噪声估计值被输出到滤波器选择器235。在第一优选实施方案中，滤波器选择器235读取查询表并利用当前噪声估计值来选取一个滤波器控制值(步骤572)。然后滤波器电路115(步骤574)以选出滤波器控制值函数的形式调整来显示出一个频率响应曲线，该响应曲线意在当噪声估计值和背景噪声增加时加大滤除的噪声量。然后，存储在DSP RAM中的PCM样本通过调整后的滤波器电路265来滤波PCM样本以除去噪声(步骤576)。滤波后的PCM样本之后被声音编码器120处理(步骤578)，然后，编码后的样本被输出到RF发送电路(步骤580)。

图6A和6B给出了几个关于滤波器电路如何调整来为输入到滤波器电路115的不同滤波器控制信号显示不同频率响应曲线F1-F4的例子。如图6A所示，滤波器电路115可以被选择来显示一系列不同的频率响应曲线，并且频率响应曲线F1-F4分别具有截止频率F1c-F4c。在优选实施方案中，滤波器电路115的截止频率的范围可以是300HZ到800HZ。当噪声估计值增加时，滤波器电路115被设计为显示具有更高截止频率的频率响应曲线。这种更高的截止频率导致更大部分落在语音低频范围内的帧能量被滤波器电路115抽取。

同样的，如图6B所示，滤波器电路115可以被选择来显示一系列的不同频率响应曲线F1-F4，并且每一个频率响应曲线具有不同的坡度和相同的截止频率。频率响应曲线F1-F4的截止频率在上面提及的范围内。当噪声估计值增加时，滤波器电路115被调整来显示具有更陡坡度的频率响应曲线。这种更陡的坡度导致更大部分落在语音更低频率范围内的帧能量被滤波器电路115抽取。

滤波器电路115以某一噪声估计值函数的形式来滤波当前帧，其中的噪声估计值是为当前帧计算的。当前帧被滤波使得噪声被削减而通过了语音的主要部分。未被滤除且通过的语音主要部分给出了可识别的语音输出，语音信号质量只有很小降低。不同截止频率和不同坡度的组合可以被用来自适应地抽取落在语音低频范围内的帧能量的选出部分。

图7描述了由滤波器选择器235读取的一个示例查询表，以便替滤波器电路115从滤波器响应曲线F1-F4中选出一个。该查询表包括一系列可能的噪声估计值N1-Nn及滤波器控制值F1-Fn，这些值对应于滤波器电路115显示的可能响应曲线。噪声估计值N1-Nn中的每一个可以表示一个范围的噪声估计值，并且每一个都与一个特定的滤波器控制值F1-F4相匹配。滤波器控制电路105产生一个滤波器控制信号，其方法是计算一个噪声估计值并从查询表中检出与之相关的滤波器控制值。

图8A&B和9A&B表示了两帧音频信号的每一帧是如何被自适应滤波以给出一个输出到RF发送器的改进音频信号的。图8A和8B表示了分别包括语音分量s1，s2和噪声分量n1，n2的音频信号的一个第一帧和一个第二帧。如图所示，两帧中的噪声能量n1和n2都集中在低音频范围内。而语音能量s1和s2却集中在较高音频范围内。图9A给出了滤波后第一帧的噪声信号n1和语音信号s1。图9B给出了滤波后第二帧的噪声信号n2和语音信号s2。

如同所讨论的，自适应音频降噪系统100被设计用于计算第一帧和第二帧之间噪声电平的差值，其方法是基于当前帧的计算后噪声估计值来调整滤波器控制电路105。例如，滤波器控制电路105计算出噪声估计N1和谱包络s1并且为第一帧选出一个滤波器控制值F1。在优选实施方案中，基于滤波器控制值F1，滤波器电路115被调整并象图6A所示的，显示出一个具有截止频率F1c的频率响应曲线。然后，第一帧通过该调整后的滤波器电路115。滤波器电路115被选中使得大部分的噪声n1和仅一小部分的语音s1落在频率响应曲线F1的截止频率F1c之下。这导致噪声n1被有效的滤除并且只有一部分相对不重要的语音s1被滤除。滤波后的第一帧音频信号表示在图9A中。

在图8B中显示的第二帧中，存在更高的背景噪声，并假设语音没有被检测到，那麽滤波器控制电路105会计算出一个更高的噪声估计值n2。基于该更高噪声估计值，为第二帧确定一个更高的相应滤波器控制值F2。在第一优选实施方案中，根据更高的滤波器控制值F2来调整滤波器电路115以象图6A表示的那样显示一个具有更高截止频率F2c的频率响应曲线。然后，音频信号的后续帧通过了调整后的滤波器电路115。因为对于后续帧来说，频率响应曲线F2的截止频率F2c更高，所以大部分的噪声n2和语音s2都被滤除了。(但是)，语音s2被滤除的部分与该帧包括的清晰度信息相比仍然相对不显著，因此这对语音仅有很小的影响。滤除更大部分的语音s2的缺点被第二帧中噪声n2去除量增加的优点所抵消。被滤除掉的语音谱部分并不显著作用于语音的清晰度。第二帧中滤波后的音频信号在图9B中表示出。

图10-12中给出了自适应降噪系统100的第二优选实施方案。在第二优选实施方案中，滤波器控制电路105以噪声包络估计值函数的形式来调整滤波器电路115。噪声包络估计值是针对每一帧计算的并与参考噪声包络估计值比较。基于该比较，滤波器电路115被自适应地调整来从当前帧中提取不同数量的低频能量。

参考图10，给出了按照第二优选实施方案配置的DSP 200。如图所示，除了参考第一优选实施方案描述的帧能量估计器210，噪声估计器230，语音检测器240和滤波器选择器235之外，滤波器控制电路105还包括谱分析器270。如同第一实施方案所描述的和流程图5A和5B所表示的，滤波器控制电路105为接收到的帧确定噪声估计值并检测语音的存在。在为当前帧检测语音时，谱分析器270修正噪声包络估计值，并在调整滤波器电路115中使用该值。

参考图11，给出了修正噪声包络估计值和调整滤波器电路115的步骤。图11给出了谱分析器270执行的步骤，这些步骤在以前第一优选实施方案的流程图5A和5B中描述的整个过程中被引用。

如果当前帧中没有检测到语音，谱分析器270首先为当前帧确定一个噪声包络(步骤600)。为当前帧确定的噪声包络中包括不同频率(即频率点)上的能量计算值，这些频率位于为当前帧选出的语音低频范围中。在优选实施方案中，选中的频率范围大约为300到800HZ。当前帧的噪声包络可以通过利用具有N个频率点的快速傅立叶变换(FFT)处理当前帧来确定。利用FFT处理数字信号在现有技术领域内是众所周知的，其优越处在于当FFT局限于相对较少的频率点，例如32点时，它需要很少的处理功率。具有N个频率点的FFT在N个不同的频率处产生能量计算。落在选中的频率范围内的频率点的能量计算值形成了当前帧的噪声包络。

为了确定当前帧的噪声包络估计值(步骤604)，将当前帧的噪声包络与为音频信号的以前帧而确定的噪声包络估计值做平均。当没有以前的噪声包络估计值可以得到时，例如初始化之后，可以使用存储的初始噪声包络估计值。噪声包络估计值包括位于连续低频(即，在选中的频率范围内，e₁是最高频率的噪声能量估计值而e_n是最低频率的噪声能量估计值)上的噪声能量估计值e_i(其中i＝1，2…n)。在优选实施方案中，每个噪声能量估计值e_i对应于在某一特定频率上能量计算值的平均值，该特定频率是在大量的其中没有语音被检测到的连续帧上的选中频率范围内的一个频率点。通过使用大量的帧来确定噪声包络估计值，滤波器电路115在一个更为渐进的基础上被调整。在另一实施方案中，噪声包络估计值可以等于当前帧的噪声包络。

然后，噪声包络估计值的能量估计值e_i与参考噪声包络相比(步骤604)。参考噪声包络包括参考能量阈值e_ri(其中i＝1，2…n)，这些阈值位于对应于噪声包络估计值的噪声能量估计值e_i的频率点上。参考能量阈值e_ri可以按经验确定。按照从最高频率能量估计值e₁到最低频率能量估计值e_n的顺序，噪声能量估计值e_i被连续与对应的参考能量阈值e_ri相比较。

更具体的，噪声能量估计e₁首先与参考噪声阈值e_r1相比较。如果e₁大于参考噪声阈值e_r1，那麽比较值C1被选中并输入到滤波器选择器235。如果噪声估计值e₁小于参考噪声阈值e_r1，那麽噪声能量估计值e₂(该值为在低于e₁的频率处得到的噪声能量估计值)与参考阈值e_r2相比较。如果噪声能量估计值e₂大于参考噪声阈值e_r2，那麽比较值C₂被选中并输入到滤波器选择器235。到比较值C_i(其中i＝1，2…n)被选中为止，比较过程一直继续。

滤波器电路235使用确定的比较值Ci来确定一个滤波器控制值。该滤波器控制值从例如图12中给出的查询表中选择。查询表包括一系列的比较值Ci和相应的滤波器控制值Fi。滤波器电路115以选中滤波器控制值函数的形式来调整。滤波器电路115被调整来显示一个频率响应曲线以便从当前帧中提取低频能量。当连续更高频率上的噪声能量估计值超过他们对应的参考能量阈值时，滤波器电路115被调整来提取更多的低频能量。图6A和6B给出了选中滤波器控制值的示例频率响应曲线。

噪声包络估计值的使用帮助提高了自适应地调整滤波器电路来提取低频能量的能力，其所采取方式有助于改善语音总体质量。由于汽车环境不是使用移动无线电通讯装置的唯一环境。因此，某一环境中的噪声包络可能倾向于更高频率。当低频中的噪声能量很小时，谱分析器270可以被选择性地被禁止。而且，当噪声频率谱的很大一部分位于低频时，那麽即使某些处理功率被牺牲掉，也要应用更陡的滤波坡度。这种额外处理要求仍然是很小的。

根据上面描述显而易见，该发明的自适应噪声滤波系统被简单地实现。并且DSP的计算量没有显著增加。削减噪声更复杂的方法，例如″谱削减″要求几个涉及计算的MIPS和存储数据和程序代码用的大量存储器。通过比较，该发明可以通过使用仅仅一小部分″谱削减″算法所要求的MIPS和存储器而实现，其中的谱削减算法同时也引入了更多的语音失真。容量降低的存储器减小了DSP集成电路的大小；降低的MIPS减少了功率消耗。这些特性对于电池供电的便携/移动无线电话都是很理想的。

参考其优选实施方案，尽管该发明已经被特别表示并描述出，但它不仅限于这些实施方案。例如，尽管DSP被描述为执行帧能量估计器210，噪声估计器230，语音检测器240，滤波器选择器235和滤波器电路265的功能，这些功能可以通过使用其它的数字和/或模拟元件来实现。此外，在滤波器电路115以噪声估计和噪声包络估计这两者函数的形式来调整时，自适应滤波系统100也可以被实现。该领域内的技术人员会明白，在不偏离该发明思想和范围的情况下，在形式和细节上的各种改变都可以进行。

Claims

1.一种提高音频信号中语音清晰度的方法，包括：

接收既包括语音信息又包括背景噪声的数字化音频信号帧；

检测当前帧中是否包括语音信息；

以语音检测函数的形式为当前帧确定对应于背景噪声的噪声估计值；

将对应于噪声估计值的滤波器控制信号输出到滤波器电路；

根据滤波器控制信号，调整滤波器电路来为显示一条用于对语音滤波器频率响应曲线；及

以估计背景噪声函数的形式，将滤波器电路应用于当前帧并滤波当前帧。

2.权利要求1的方法，其中滤波器电路被调整来显示一条高通频率响应曲线来通过落在语音高频范围内的选出语音部分，并且抽取落在语音低频范围的选定语音部分。

3.根据权利要求1的方法，其中检测当前帧中是否包括语音的步骤包括：确定当前帧的能量并将确定的帧能量与噪声估计值和一个语音阈值的和比较，其中，当确定的帧能量超过噪声估计值与该语音阈值的和时，语音被检测到。

4.根据权利要求1的方法，其中噪声估计值是为很多接收帧检测到的背景噪声的平均值，这些接收帧都确定不包括语音信息。

5.权利要求1的方法，其中调整滤波器电路的步骤还包括：当噪声估计值增加时，调整滤波器电路使得从当前帧中提取更大部分的落在语音低频范围的背景噪声。

6.权利要求5的方法，其中调整滤波器电路的步骤还包括：当计算后的噪声估计值增加时，调整滤波器电路来显示具有更高截止频率的频率响应曲线。

7.权利要求5的方法，其中调整滤波器电路的步骤还包括：当计算后的噪声估计值增加时，调整滤波器电路来显示具有更陡坡度的频率响应曲线。

8.权利要求1的方法，其中滤波器电路被调整来显示一个选中的频率响应曲线，在当前帧的噪声估计值低于一个预定的参考噪声估计值时，该曲线基本上通过当前帧的所有语音信息。

9.权利要求1的方法，其中选择性的调整滤波器电路的步骤包括：调整一次滤波器最少要经过N个连续帧，其中N是一个大于1的整数。

10.一种用于削减接收到的数字化音频信号帧中噪声的装置，其中的数字化音频信号中包括语音和背景噪声，该装置包括：

a)一个滤波器控制电路，它包括：

i)用于检测数字化信号帧中能量值并产生帧能量输出的能量值检测器，其中的帧能量输出对应于检测到的能量值，

ii)一个连接到能量值检测器的语音检测器，该语音检测器用于检测数字化语音帧中是否存在语音，并输出一个语音标示信号用来将一个帧标明为包含语音帧或背景噪声帧，

iii)一个连接到能量值检测器和声音检测器的噪声估计器，该噪声估计器以能量值输出和语音标示信号函数的形式来为信号帧确定噪声估计值，

iv)用于产生对应于噪声估计值的滤波器控制信号的滤波器选择器，

b)连接到滤波器控制电路的高通滤波器电路，该电路以噪声估计值函数的形式来滤波接收帧。

11.权利要求10的装置，其中滤波器电路显示一个高通频率响应曲线用来通过落在语音高频范围内的选出语音部分，并抽取落在语音低频范围内的选出语音部分。

12.根据权利要求10的装置，其中语音检测器检测一帧中的语音，其办法是将确定的帧能量与噪声估计值和语音阈值的和相比较，其中当确定的帧能量超过噪声估计值与语音阈值的和时，语音被检测到。

13.根据权利要求10的装置，其中噪声估计值对应于为很多被确定不包含语音信息的接收帧检测到的背景噪声的平均值。

14.权利要求10的装置，其中滤波器电路被调整使得当噪声估计值增加时，从当前帧中抽取更大部分的落在语音低频范围的背景噪声。

15.权利要求14的装置，其中滤波器电路被调整使得当计算后的噪声估计值增加时，滤波器电路显示具有更高截止频率的频率响应曲线。

16.权利要求14的装置，其中滤波器电路被调整使得当计算后的噪声估计值增加时，滤波器电路显示具有更陡坡度的频率响应曲线。

17.权利要求10的装置，其中滤波器电路被调整来显示一个选中的频率响应曲线，在当前帧的噪声估计值低于一个预定的参考噪声估计值时，该曲线基本上通过当前帧的所有语音信息。

18.权利要求10的装置，其中调整一次滤波器最少要经过N个连续帧，其中N是一个大于1的整数。

19.一种无线电通讯系统，其中便携无线电收发器通过RF信道通讯，每一个收发器包括：

一个天线；

一个用于将通过天线在RF信道上接收的无线电信号转换成模拟音频信号的接收器；

一个发送器，包括：

一个用于将模拟音频信号数字化为数字化语音信息帧的编解码器，数字化语音信息包括语音和背景噪声；

一个用于检测接收帧中语音并以检测语音函数的形式产生噪声估计值的数字信号处理器，该处理器还以当前帧的计算后背景噪声函数的形式来从当前帧中滤除背景噪声。

20.权利要求19的装置，其中背景噪声被滤除，其办法是通过落在语音高频范围内的选中语音部分，并抽取落在语音低频范围内的选中语音部分。

21.权利要求20的装置，其中当噪声估计值增加时，通过从当前帧中抽取更大部分的落在语音低频范围的背景噪声，数字信号处理器调节性地滤除背景噪声。

22.一种提高音频信号中语音清晰度的方法，包括：

接收既包括语音信息又包括背景噪声的数字化音频信号帧；

检测当前帧中是否包括语音信息。

以语音检测函数的形式为当前帧确定一个噪声包络估计值，该噪声包络估计值包括落在预定语音频率范围内的很多频率上的许多噪声能量估计值；

将噪声包络估计值的噪声能量估计值与一个参考噪声包络相比较，该参考噪声包络在对应于噪声能量估计值频率的频率点上有很多能量阈值；

以噪声包络估计值和参考噪声包络之间比较值函数的形式产生一个滤波器控制信号；

根据滤波器控制信号，调整滤波器电路来显示一条选出的高通频率响应曲线；及

以噪声包络估计值和参考噪声包络之间比较值函数的形式，将滤波器电路应用于当前帧来对当前帧滤波。

23.权利要求22的方法，其中当连续更高频率上的噪声能量估计值超过了它们在参考噪声包络中对应的能量阈值时，滤波器电路被调整来抽取更多的低频能量。

24.权利要求23的方法，其中调整滤波器电路的步骤还包括：当连续更高频率上的噪声能量估计值超过了它们在参考噪声包络中对应的能量阈值时，调整滤波器电路来显示具有更高截止频率的频率响应曲线。

25.权利要求22的方法，其中噪声估计值是为很多被确定不包括语音信息的接收帧所检测到的背景噪声的平均值。

26.权利要求22的方法，其中选择性地调整滤波器电路的步骤包括：调整一次滤波器最少要经过N个连续帧，其中N是一个大于1的整数。

27.一种用于削减接收到的数字化音频信号帧中噪声的装置，其中的数字化音频信号中包括语音和背景噪声，该装置包括：

a)一个滤波器控制电路，它包括：

i)用于检测数字化信号帧中能量值并产生帧能量输出的能量值检测器，其中的帧能量输出对应于检测到的能量值；

ii)一个连接到能量值检测器的语音检测器，该语音检测器用于检测数字化语音帧中是否存在语音，并输出一个语音标示信号用来将一个帧标明为包含语音帧或背景噪声帧；

iii)一个连接到语音检测器的谱分析器，该谱分析器以语音检测函数的形式为当前帧确定一个噪声包络估计值，该噪声包络估计值包括很多落在预定语音频率范围内的频率点上的噪声能量估计值，该谱比较器将噪声包络估计值的噪声能量估计值与一个参考噪声包络相比，该参考噪声包络在对应于噪声能量估计值的频率上具有很多能量阈值；

iv)以噪声包络估计值与参考噪声包络之间比值函数的形式来产生滤波器控制信号的滤波器选择器。

b)连接到滤波器控制电路的高通滤波器电路，该电路以噪声包络估计值与参考噪声包络之间比较结果函数的形式来滤波接收帧。

28.权利要求27的装置，其中当连续更高频率上的噪声能量估计值超过了它们在参考噪声包络中对应的能量阈值时，滤波器电路被调整来提取更多的低频能量。

29.权利要求28的装置，其中调整滤波器电路的步骤还包括：当连续更高频率上的噪声能量估计值超过了它们在参考噪声包络中对应的能量阈值时，调整滤波器电路来显示具有更高截止频率的频率响应曲线。

30.权利要求27的装置，其中噪声估计值是为很多被确定不包括语音信息的接收帧检测到的背景噪声的平均值。

31.权利要求27的方法，其中调整一次滤波器最少要经过N个连续帧，其中N是一个大于1的整数。

32.一种无线电通讯系统，其中便携无线电收发器通过RF信道通讯，每一个收发器包括：

一个天线；

一个发送器，包括：

一个用于检测接收帧中语音并以检测语音函数的形式来产生噪声包络估计值的数字信号处理器，该处理器还以当前帧的计算后噪声包络估计值函数的形式来从当前帧中滤除背景噪声。