CN1145928C - 用参数噪声模型统计量产生舒适噪声的方法及装置 - Google Patents

用参数噪声模型统计量产生舒适噪声的方法及装置 Download PDF

Info

Publication number
CN1145928C
CN1145928C CNB008112266A CN00811226A CN1145928C CN 1145928 C CN1145928 C CN 1145928C CN B008112266 A CNB008112266 A CN B008112266A CN 00811226 A CN00811226 A CN 00811226A CN 1145928 C CN1145928 C CN 1145928C
Authority
CN
China
Prior art keywords
noise
parameter
statistic
comfort noise
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB008112266A
Other languages
English (en)
Other versions
CN1367918A (zh
Inventor
P・M・约翰森
P·M·约翰森
布莱鲍姆
L·S·布莱鲍姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ericsson Inc
Original Assignee
Ericsson Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson Inc filed Critical Ericsson Inc
Publication of CN1367918A publication Critical patent/CN1367918A/zh
Application granted granted Critical
Publication of CN1145928C publication Critical patent/CN1145928C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Circuits Of Receivers In General (AREA)
  • Transmitters (AREA)

Abstract

在特征化一个噪声或信息信号以及之后使用该特征化重构信号的方法和装置中,一个信号的参数模型用至少一个与该模型参数有关的高阶统计量加以补充。例如,在DTX通信方面,发射机的背景噪声以估计平均频谱幅度的连续帧被特征化,每个帧伴随一个对该频谱幅度的估计标准差。信号重构一经完成,该估计标准差被用来随机化频谱幅度并以此改善重构噪声的音质。在临发射前和/或刚接收后,通过对平均频谱幅度的平均、平滑或其他滤波处理进一步增强重构噪声的质量。

Description

用参数噪声模型统计量产生舒适噪声的方法及装置
技术领域
本发明涉及通信系统,具体涉及通信系统中舒适噪声的产生。
背景技术
在数字无线通信系统(例如,蜂窝电话、陆上移动无线电、卫星电话、空中电话等系统)中,接收无线电装置有时需要产生低音量音频噪声。例如:在数字无线电呼叫时,接收无线电装置可能在一些期间暂时无法接收发射无线电装置发来的有效语音信息。在这些期间需要接收无线电产生听得见的噪声,这样接收无线电装置的用户就不会误认为呼叫传输已经中止。这样的噪声在本专业领域及下文中称之为舒适噪声。
舒适噪声的产生至少在两个主要方面特别有利。首先,当一个通信链路的状态变得非常恶劣但仍可运行时,有时最好将接收无线电装置上的语音通路静音,以防严重失真的语音传给接收无线电装置的用户。但是由于接收机扬声器的完全静音可导致接收用户错误的认为链路已完全不能工作并且不可能恢复,因此接收无线电可产生和发出舒适噪声来取代静音。这样做就可以告诉接收用户接收机仍可运行,同时可使他免受一般伴随混浊语音出现的劈啪声及人为噪声的影响。
舒适噪声在不连续传输(或称DTX)通信系统方面也相当有用。在一些DTX系统中,发射机检测呼出信号是否包含话音,当它不包含话音时就中止或减少呼出信号的发送速度。在这样的DTX期间,需要接收机发出某种舒适噪声,这样接收用户就能察觉到发射机和接收机之间的通信通道仍开通着可供使用。
欧洲专利申请EP 0 786 760中描述了对背景噪声特征的编码方法以及在解码阶段生成舒适噪声的方法。噪声参数发生器算出语音样本的自相关值。再算出作为该自相关值加权平均的背景噪声的自相关。然后将该加权平均值作为噪声参数在通信信道上传输。
一般要求在接收机中产生的舒适噪声尽可能接近地与发射机中存在的背景噪声匹配。换句话说,舒适噪声的产生过程对接收用户而言应该是透明的。为此目的,可对存在于发射机中的背景噪声进行抽样,并且可周期地将描述抽样噪声特征的一个或多个参数发送给接收机,用以产生匹配的舒适噪声。但是,为此采用的传统方法仍然会导致人工产生的舒适噪声与自然发生的背景噪声之间存在可察觉的差异。因此,有必要改进在通信系统中产生噪声的方法和装置。
发明概述
本发明的一些方法可满足上述的和其它方面的需要,在这些方法中使用了与一个参数背景噪声模型有关的一个或多个高阶统计方法,用以结合该噪声模型来实现高质量的、声音自然的舒适噪声。另一方面,传统的系统只是基于周期地估计的噪声模型参数来产生舒适噪声,本发明的实施例对噪声模型参数增补了适当的统计方法,因此能产生更精确更好听的舒适噪声。此外,为了更进一步增强得到的舒适噪声的音质,按照本发明,可在通信链路的发射端和/或接收端对噪声模型参数进行平均、平滑或其他的滤波处理。
在一示范性实施例中,DTX发射机周期地估计多个背景噪声频谱幅度的平均值并随后将其发送给DTX接收机,同时该DTX发射机还估计出单个的标准差值一起发送给DTX接收机。DTX接收机对周期收到的平均频谱幅度在多个DTX帧上进行平滑处理,并用收到的标准差对平滑处理后所得的值进行抖动处理。经抖动处理的平均值然后被用来在DTX接收机上产生舒适噪声。
通过传送平均频谱幅度而不是频谱幅度的瞬间值,该示范性实施例可防止将发射机中频谱的随机性引入接收机而造成尖峰频谱偏差。此外,在接收机上对收到的多个帧的平均值进行平滑处理,可以减小尖锐的、往往可察觉的频谱过渡(这种现象在舒适噪声更新频度相对较低时发生)。另外用估计标准差对经平滑处理的平均值进行抖动处理可逐帧地细微改变舒适噪声的特征,结果越是随机的频谱因此会有听起来越自然的舒适噪声。
一个依据本发明的作为示例的无线电发射机包括一个编码器,用以对输入的噪声信号抽样并提供被抽样噪声信号的参数模型作为输出,该参数模型中包括描述被抽样噪声信号的至少一个模型化参数。该编码器也提供一个与所述的至少一个模型化参数有关的统计量作为输出,该统计量的阶数高于每个模型化参数的阶数。例如,该编码器可以是多频带激励编码器、同态编码器或者是正弦变换编码器。此外参数模型可含有多个估计平均频谱幅度,该统计量可以是估计平均频谱幅度的估计标准差。为了增强信号的重构,该编码器可周期地对至少一个模型化参数和所述统计量进行更新和滤波。
依据本发明的作为示例的无线电接收机包括一个舒适噪声发生器,用于接收描述噪声信号的至少一个噪声模型化参数以及与所述至少一个噪声模型化参数相关的统计量。统计量的阶数高于每个噪声模型化参数的阶数,舒适噪声发生器对所述的至少一个噪声模型化参数和统计量进行解码以便向该无线电接收机的用户提供舒适噪声。例如,每个噪声模型化参数可以是一个估计平均频谱幅度,而统计量可以是所述的至少一个估计平均频谱幅度的估计标准差。此外,舒适噪声发生器可周期地接收并滤波所述至少一个噪声模型化参数和统计量的更新值。舒适噪声发生器还可以按照统计量对经滤波的所述至少一个噪声模型化参数的更新值进行处理,以提供舒适噪声。例如,舒适噪声发生器可用一个估计标准差,对收到的经滤波的平均频谱幅度的更新值进行抖动处理。
下面对照附图所示实例详述本发明的上述与其它的特征与优越性。本领域的技术人员将会完全了解,在这里描述的实施例旨在帮助说明与理解,从中可以构思出大量与上述实施例相当的实施例。
附图的简单说明
图1是DTX发射机示例的框图,在该发射机中可实现本发明的背景噪声模型化方法。
图2是DTX发射机示例的框图,在该发射机中可实现依据本发明的舒适噪声生成方法。
图3是关于示例语音信号以及DTX通信系统的DTX帧示例的相应的定时的示图,在该系统中本发明的方法可得以实现。
图4是描述依据本发明的舒适噪声产生方法示例中各步骤的流程图。
图5是依据本发明的舒适噪声帧发生器示例的框图。
图6是描述DTX发射机中典型背景噪声的多个频谱幅度的时序图。
图7是描述DTX接收机中产生的舒适噪声的多个频谱幅度的时序图。其中的频谱幅度基于图6中的频谱幅度用先有技术的方法生成。
图8是描述DTX发射机中背景噪声的多个估计平均频谱幅度的时序图,该估计平均频谱幅度依据本发明对图6的频谱幅度进行滤波或平滑处理后得到。
图9是描述DTX发射机中背景噪声的多个频谱幅度的时序图,该频谱幅度是在DTX接收机上收到的图8的频谱幅度,之后依据本发明对收到的频谱幅度进行滤波后得到。
图10是描述DTX接收机中产生的舒适噪声的多个频谱幅度的时序图,该频谱幅度是依据本发明对图9的频谱幅度经随机化或抖动处理之后得到。
图11是描述DTX接收机中产生的改进后的舒适噪声的多个频谱幅度的时序图,该频谱幅度是依据本发明图10的频谱幅度作滤波或平滑处理后得到。
本发明的详细说明
下面所叙述的本发明的示范性实施例关系到不连续传输(DTX)通信系统。DTX被应用于众所周知的太平洋数字蜂窝式系统(PDC)、数字先进移动电话系统(D-AMPS,包括IS641A)、全球移动通信系统(GSM)以及亚洲蜂窝式卫星(ACeS)等标准中。公众可获得的上述每个标准的说明资料中提供了详细的针对各标准的DTX使用说明。
在DTX范围内,后面对本发明的示范性实施例的描述还参照了最初由麻省理工学院开发的著名的多频带激励(MBETM)语音编码算法。MBE算法(以及更新近的著名的后续算法IMBETM和AMBETM)在需要低比特速率(即:4.8kbps以下)的数字通信系统中非常流行。例如,在卫星电话通信领域中,一些形式的MBE被应用在著名的Iridium(铱星系统)、INMARSAT M、INMARSAT Mini-M、ICO(INMARSAT-P)、Optus和AceS等系统中。基于MBE的算法也已在陆上移动无线电(例如APCO-25)和空中电话等应用系统中。关于MBE算法的详细说明可见:B.S.Atal等人所著的“语音编码的进展”(Advances in Speech Coding,Kluwer Academic Publishers,1991);A.M.Kondoz所著的“数字语音:低比特率系统中的编码”(DigitalSpeech:Coding for Low Bit Rate Systems,Wiley & Sons,1994);以及“谐波振幅量化的方法及装置”(WIPO Publication WO9412972.06/1994,Methed and Apparatus for Quantization of HarmonicAmplitudes)。
虽然示范性实施例在DTX和MBE领域明显有用,本领域的技术人员完全了解,本发明的某些方面同样适用于其他的通信和数字信号处理的应用中。例如所公开的对信号特征的描述或模型化的方法以及之后用模型化参数来产生或模拟信号的方法,不仅可用于在DTX系统中提供舒适噪声,也能用来记录和/或回放人们所感兴趣的任何信号。此外,所公开的参数的和统计的信号模型化方法不仅能容易地应用于频域的MBE语音编码算法,也能应用于任何信号编码算法。例如,所公开的方法可直接用于其他频域的算法(如用在同态声码器和正弦变换编码器中的算法)以及时域算法(如著名的码激励线性预测(CELP)算法及矢量和激励线性预测(VSELP)算法)。
现在回到本发明的示范性实施例中来,图1和图2分别描述DTX发射机100和兼容的DTX接收机200。如图1所示,作为示例的DTX发射机100包括:话音活动检测器(VAD)110、语音编码器120、静寂描述(SID)编码器130、信道编码器140以及第一与第二发射开关150、155。图2中,作为示例的DTX接收机200包括:信道解码器210、帧确证处理器220、语音帧缓冲器230、舒适噪声帧缓冲器240、语音解码器250和接收开关260。本领域的技术人员会完全了解下面说明的图1和图2中一些部件的功能可用各种硬件配置来实现,其中可包括如通用数字计算机、标准数字信号处理部件以及一个或多个专用的集成电路等器件。
在工作时,将一个音频帧(例如,一串连续的脉冲编码调制的用户语音信号的抽样值)提供给DTX发射机100的话音活动检测器110、语音编码器120和SID编码器130。话音活动检测器110对音频帧进行分析并确定该帧是否含有话音信息。如果有,则使第一发射开关150设置到将语音编码器120的输出端连接到信道编码器140的输入端,并指示语音编码器120对语音帧进行编码(所用方法在下面说明)以作为信道编码器140的输入。反之,使发射开关150设置到将SID编码器130的输出端连接到信道编码器140的输入端,并指示SID编码器130对SID帧进行编码(所用方法也在下面说明)以作为信道编码器140的输入。实际上,语音编码器120和SID编码器130的功能可结合在一个编码装置中。
从语音编码器120接收了语音帧或从SID编码器130接收了SID帧之后,信道编码器140用已知的信道编码方法编制要跨越通信信道(例如空中接口(air interface))传输的帧。在语音信号含有话音的期间,第二发射开关155保持闭合,语音帧被连续地编码并发送。但是当话音活动检测器110确定话音活动刚刚停止后,只对有限的(一般为一至二个)SID帧进行编码和发送。其后,SID更新帧被周期地(例如每隔250ms至1.0sec)编码和发送,直到话音活动检测器110指示话音活动已经重新开始为止。这时候,语音编码器120恢复产生语音帧用于传输,直到话音再次中止。
在接收机200中,信道解码器210对进入的帧进行接收与解码(即信道解码器210执行与信道编码器140实现编码处理时相反的动作),并向确证处理器220、语音帧缓冲器230与舒适噪声帧缓冲器240提供经解码的帧。在DTX期间大部分接收到的帧都是无效的,因此充满了RF(射频)干扰产生的随机数据和接收机噪声。但是在DTX期间偶然会发射一个有效的SID更新帧,并且有效的语音帧的传输可能随时恢复。
为了处理这个不确定性,确证处理器220对每个收到的帧的内容进行分析。如果收到的帧是无效的,就将接收开关260置于使舒适噪声帧缓冲器240与语音解码器250的输入端相连,同时指示舒适噪声帧缓冲器240向语音解码器250提供噪声帧,以产生舒适噪声。如果收到的帧是一个有效的SID更新值,那么当噪声帧被提供给语音解码器250产生舒适噪声的之前,就用收到的帧来更新舒适噪声帧缓冲器240中的内容。最后,如果收到的帧是有效的话音帧,就将接收开关260置于使语音帧缓冲器230与语音解码器相连,同时将收到的帧送到语音解码器250,以经合成后提供接收机用户。
图3是说明上述DTX工作的定时图。图中:一个语音信号包括中间隔有一段静音周期的第一与第二语音突发310、320。在第一语音突发310期间,有效语音帧315被连续发送。但是,第一语音突发310刚一结束,有效SID帧330就在两个语音突发之间的整个静音期间被周期地发送,而不再发送语音帧。然后在第二个语音突发320开始时,又一次连续发送有效语音帧325。
这种DTX工作方式比传统的连续发送具有一些显著的优点,因此DTX成为当今数字无线系统的一个共同特征。例如,DTX可使用于发射的无线电装置节省功率,因为它不需要经常发射。更准确的说,由于发射机功率放大器(PA)特一般要耗用大部分的发射机功率,由于在DTX状态时功率放大器被断开,便可显著节省功率。此外,DTX方式可使较少的RF能量被发射而成为空中接口频谱(air interfacespectrum)。因此,在多路接入系统中的其他用户所见的平均RF干扰就减少了,并且那些用户所见的载波-干扰比(C/I)相应的增强了。增强的C/I改善了无线电终端的性能,反过来说,也就是增加了系统的容量(即给定的频率分配所支持的用户数增加了)。
正如上面对图1与图2所述,在DTX系统中的语音信号被抽样并编码(如用语音编码器120),之后对编码的值进行解码(如用语音解码器250)用于合成或重构语音信号。本技术领域中,通常将编码器和解码器的组合称作编解码器或者声码器,可用任何一种熟知的方法在声码器中实现语音的编码和解码。
这类方法可一般地分为两种类型,即:波形编码法和参数编码法。波形声码器试图对语音信号本身量化并编码,而参数声码器则采用一种语音信号的模型,该模型由多个参数组成。一般,参数声码器接收语音信号的样值,将样值编组形成一些帧,使样值组成的帧适合于该模型,然后对该模型参数的值进行量化与编码。用这种方法,参数声码器能以比波形声码器低的信息速率(即比特率)产生所要求的语音质量。
一种耐用且流行的参数声码器就是上文提及的MBE声码器。像许多语音编码器一样,MBE声码器将抽样获得的语音信号分成20-ms大小的帧,并为每个话音帧算出一组MBE模型参数。这些模型参数(如包括基本音调频率和一些发声判定(voicing decisions))描述所述帧的可感知内容,用以此后产生感觉上类似原语音信号的合成语音信号。对于那些不包括话音的帧(例如:在DTX发射机中抽样的只含背景噪声的帧),该MBE模型可产生一组可用来重建帧的频谱幅度(例如,用来在DTX接收机中合成舒适噪声)。
在传统的DTX系统中,在DTX期间直接并重复使用最新的SID更新值来产生舒适噪声。换句话说,最新的SID帧(例如包括频谱幅度的MBE帧)被一次又一次地发送到语音解码器250进行合成。结果,每收到一个SID更新时,DTX接收机迫使接收机上的舒适噪声特征与跟发射机的背景噪声特性相匹配。此外,舒适噪声频谱在两次SID更新期间保持静态。这种处理方式至少有两个不利的方面。
首先来看这种情况:在发射机中背景噪声保持稳定不变。据定义,平均噪声频谱值在一段时间内为常数。但是,这就意味着没有频谱的变化。在大多数现实的噪声环境中,瞬时频谱值是连续变化的并围绕着平均值形成一个随机分布。听者既能感觉到频谱的均值又能感觉到频谱的变化。然而频谱的均值代表背景噪声的音量,频谱的变化象征着噪声的生动性。由于传统的舒适噪声产生方法仅仅顾及平均频谱(如通过在舒适噪声的更新之间固定MBE频谱幅度),这样的方法经常导致这样的结果,可使人感觉到在DTX期间产生的舒适噪声与连续语音传输期间编码的背景噪声之间的不相匹配。
另一种情况是:在舒适噪声更新之间发射机中的背景噪声不平稳。这种场合,当接收舒适噪声更新值时可能会发生陡峭过渡(例如,当占主导的的一组MBE频谱幅度为经更新的一组频谱幅度所替换时)。在DTX发射机上,背景噪声的音量和/或频谱特征的改变一般发生在一个包括数个帧的期间。但是由于DTX接收机得到相对较少的SID更新,这种变化在接收机会显得非常突然,因此使得DTX在功能上不够透明,从而使接收的用户听觉上不舒服。
其优点是,本发明为既捕获发射机背景噪声的响度又捕获其生动性提供了方法和装置。更一般地说,本发明为捕获所关心的任何信号的可觉察特性提供了技术。为此,给信号的参数模型(例如代表发射机背景噪声的一组MBE频谱幅度)增加了与该参数模型有关的一个或多个高阶统计量。例如在DTX传输的情况下,可对sID帧的MBE频谱幅度(该帧可认为是平均噪声频谱的粗略估计)增加一个对背景噪声频谱的方差估计。用一个或多个高阶统计量(例如方差估计)与模型参数(例如频谱幅度)一起来重构原始信号(例如生成舒适噪声),结果便可获得一种更为精确、感觉上更舒服的噪声。此外,根据本发明公开的内容,模型参数可作平滑、平均或者其他的滤波处理,以进一步增强重构的信号。当模型参数生成时(例如在DTX发送前或在记录于存储介质之前)和/或当这些参数被用于信号重构时(如在刚完成DTX接收时或者刚从存储介质中重放时)可以实施这样的滤波。下文描述了本发明在应用上述MBE语音编码模型在DTX通信系统中产生舒适噪声方面所具有的各种特征与优越性,这样的描述不失其普遍性。
如上文所提及,一个DTX sID帧中的MBE频谱幅度可看作是平均噪声频谱的估计值。但是依据本发明,对连续的频谱幅度帧进行滤波可获得极佳的平均频谱估计值。例如:每个话音不活动期开始时,DTX话音活动检测器(例如图1中的检测器11 0)在宣布话音不活动前一般要等待一段时间。在本技术领域将这段等待时间(一般持续约4至6帧)称为释放延迟期,这个期间为对若干连续帧的平均计算提供了机会。换句话说,在释放延迟期内可用如下公式对MBE频谱幅度进行平均来算出一组频谱平均值:
M ‾ i ( k ) = 1 N Σ j = 0 N - 1 M i - j ( k ) , 对于七=O至户一1,式中坼(幻代表第厂个声码器帧的瞬时频谱幅度,卢是每帧中的频谱幅度的数量,"是在释放延迟期中的帧数。这样,在话音非活动期开始时可将频谱平均值作为SID帧更新发送出去。
实际上,瞬间的频谱幅度Mi坼可用对数表示,并且涉及瞬间频谱幅度的所有计算都可以用所得到的对数值来完成。因为频谱幅度的量化对理解本发明并不关键,所以为了简便起见在这里省略了这些量化的详细说明。如想详细了解MBE模型参数的量化,请参阅前文引用的“International Publication No.WO 9412972”。
依据本发明,在DTX期间还使平均估计值更加精细,以使每个SID帧的更新值精确地反映占主导的发射机背景噪声的特征。例如对平均频谱幅度的连续平均可做如下计算:
Mi(k)=αMi(k)+(l-α) Mi-1(k),对于k=0至P-1。
本领域技术人员不难看出这是对每个频谱幅度实施一阶自回归(AR)滤波器处理,式中α是滤波器平均化系数即存储值(memory)。对频谱幅度实施AR滤波器处理,就可获得平均值的连续更新的估计值。AR处理过程具有只需少量存储资源就可提供优质滤波的优点。另外AR滤波器的输出给当前帧的加权大于前面的帧,以不引入过度的延迟。实验研究表明,滤波器存储值α=1/16时可产生好的结果。
发生于两次SID更新之间的所有频谱幅度也可以如上述相对初始释放延迟期进行平均。但这样做会使计算更复杂,而且其存储需要量明显大于上述AR滤波器方式。此外,如此连续的平均计算往往会引入比一阶AR方法更显著的延迟。
依据本发明,MBE频谱幅度不仅可经由滤波来提供极佳的频谱平均估计值,也用噪声频谱的方差估计对MBE频谱幅度加以补充。方差定量描述了在频谱平均值附近瞬间频谱幅度的分布情况,这样就提供了关于经模型化噪声的生动性指示。数学上,一个随机变量x的方差按如下公式计算:
σx 2=E{(x-μx)2},
其中E{}是期望值算子,μx=E{x}是x的平均值。x的标准差定义为方差的平方根,与方差一样,它提供关于x的生动性信息。
在一些示范性实施例中,对一个SID帧内的所有频谱幅度只计算一个标准差参数来描述其特征。例如对于一个特定的SID帧i的瞬时标准差可估计为:
σ i = 1 P Σ k = 0 P - 1 { M i ( k ) - M ‾ i ( k ) } 2 ,
式中P是每帧中的频谱幅度数,Mi(k)是瞬时频谱幅度,Mi(k)是经滤波的或上述的估计平均频谱幅度。
其优点是,瞬时标准差估计值可与经滤波的MBE频谱幅度一起在SID帧中发送,之后由接收机用来产生高质量的舒适噪声(如下面所述)。可以有选择的对连续的瞬时标准差估计值进行滤波或平滑,经滤波的标准差估计值可以与经滤波的频谱幅度一起发送。例如,瞬时标准差估计值可用一阶AR进行平滑处理,如:
σi=αiσi+(1-αi) σi-1,式中αi是每帧更新系数或滤波器存储值。对瞬时标准差值的滤波就减少了不正常的或游离的(outlier)频谱幅度样本的影响。
在每个DTX周期开始时,第一标准差估计值可等于瞬时标准差值,也可以等于上个DTX周期的最后一个经滤波的估计值。此外,上一个估计值和当前瞬时值的加权结合可用来提供第一估计值。
依据示范性实施例,更新系数αi不是固定的,而是为适应每个帧而经修改的值。这是由于在某些场合固定的更新系数只能提供不良的方差估计值。例如,假设在所关心的大多数或全部频率范围内,发射机背景噪声的音量在增加;换言之,假设该噪声是非稳定的。由于平均频谱幅度估计值是通过对实际频谱幅度的滤波得到的,所以实际频谱幅度中的变化经过一段延迟后在估计平均频谱幅度中表现出来。例如,实际频谱幅度中一个音量的增加一般要等一些帧过去之后才在平均频谱幅度中出现。
在这个延迟期内,实际频谱幅度和估计平均频谱幅度之间的差别可能相当大。然而,这种差别是由平均估值器(estimator)而不是由真实频谱中的随机性引起的。由于这些差值被相加并输入到方差估值器中,当使用一个固定的更新系数时方差估计值就会被人为地加大。因此,依据本发明,上述的更新系数被动态地逐帧修正。为此,可为每个帧i算出一个品质变量qi,如下:
q i = 1 - | 1 P Σ i = 0 P - 1 sign { M i ( k ) - M ‾ i ( k ) } |
上面定义的品质变量用来表征频谱的稳定性。每当有普遍的音量改变时,所有的频谱幅度的差别都趋向同样的符号(sign),这就使得和数增大,从而使变量qi的值减小。但是当频谱相当稳定时,一般正方向的幅度差值与负方向的幅度差值一样多,这样就使得和数变小而qi值增大。
因此,当品质因数qI大时,就可对瞬时方差估计值有把握,有理由在对经平滑处理的标准差估计值的更新中使用该瞬时估计值。但是当品质因数低时,瞬时方差值估计就值会不可靠,最好不用该瞬时估计值来更新经平滑的估计值。这个想法可用一个自适应的更新系数αi来加以定量,其中αi按下式由品质因数qi控制:
              αi=qiα式中α是一个代表最大的可能更新系数(因为qi被定义在0到1的范围内)的常数。实验研究表明,α=1/32的最大值可提供高质量的结果。
如上提到的,经平滑的标准差估计值在SID帧内随平均频谱幅度一起发送,用于在DTX接收机中产生舒适噪声。当然也可以不对标准差估计值,而对方差估计值作平滑处理并加以发送。采用方差还是标准差估计值,只是一个设计选择问题。
注意,可以为每个频谱幅度算出一个单独的标准差(或方差)估计值。但是这样会导致许多附加参数的传送。此外,实验表明,人们所关心的大多数噪声源其频谱的方差往往类同。因此,单独一项就足以适用大多数情况。
在DTX接收机中,SID帧(依据示范性实施例,SID帧每48个MBE帧或每960ms被发送)构成所要产生的舒适噪声频谱的基础。如上所述,每个SID帧包括一组估计平均频谱幅度并且只有单个估计标准差或方差。依据本发明,根据标准差值对平均频谱幅度进行处理,提供用以输入语音解码器(如图2的解码器250)的经增强的频谱幅度。其优点是,用所述经增强的频谱幅度会产生的合成舒适噪声跟发射机中的背景噪声很匹配。
首先,通过一个更新接一个更新地对平均频谱幅度进行滤波,可避免SID更新时频谱的突然改变。例如,假设Mold(k)(如上,对于k=1至P)代表先前收到的SID帧的平均频谱幅度,Mnew(k)表示刚刚收到的SID帧的平均频谱幅度。频谱幅度不是立即从Mold(k)过渡到Mnew(k),而是经过N个帧之后才完成过渡。例如,有可能采用包含多项式或指数的线性斜坡函数或其它变换函数。下面给出一个示范性线性斜坡函数:
M i ( k ) = i + 1 N M new ( k ) + ( 1 - i + 1 N ) M old ( k ) , 对于0≤i<NMi(k)=Mnew(k),对于i≥N
斜坡处理后,经更新的平均频谱幅度Mnew(k)就被使用,直到收到下一个SID帧的更新值为止。实验研究表明N=16帧的斜坡处理或过渡周期可提供较好的结果。
为了使舒适噪声特性的静态程度较低,将基于标准差估计值的一个随机因数加到每个经斜坡处理的(ramped)频谱幅度上。依据示范性实施例,所增加的随机数用具有正态分布输出的伪随机数字发生器来产生。伪随机数依据标准差估计值按比例确定,给定帧的随机化(ramdomized)频谱幅度由下式给出:
Mrandomized(k)=Mramped(k)+σx(k)式中x(k)是具有var(x)=1的正态分布伪随机数字发生器的输出,σ是发射机中计算出的并在SID帧中发送的标准差估计值。
注意,标准差σ可在接收机中固定下来,因此不一定必须在发射机中计算标准差估计值再发送给接收机。但是这样做会使产生的舒适噪声中生动性的量值被固定下来,就不能跟踪在发射机中存在的背景噪声的生动性。不过,这样的实施方式还是比当前完全不包括随机因数的方法效果好。
其优点是,随机化频谱幅度可被送至语音解码器,用于产生优质的舒适噪声。但是依据本发明,可通过横跨各帧对随机化频谱幅度进行滤波来进一步改善舒适噪声的特性。注意,上面提到的将随机噪声加到经斜坡处理的频谱幅度,其条件是假设发射机中的背景噪声处理是独立的或帧与帧之间不相关的。而实际上,使频谱幅度在其平均值上下抖动的随机性在帧与帧之间有一些相关。这是相当于时域中色噪声的频谱。本发明通过对随机化频谱幅度的从帧到帧的平滑处理来说明这种现象,该处理如下式所示:
M i final ( k ) = β M i randomized ( k ) + ( 1 - β ) M i - 1 final ( k )
本领域的技术人员会发现这是作用到每个随机化频谱幅度的一阶AR滤波器,其中β是滤波器更新系数即存储值。实验研究表明,β=0.5的更新系数可提供好的结果。注意也可实现另外一些平滑方法(例如高阶AR滤波器或移动平均滤波器等)。
图4是描述上述舒适噪声产生方法步骤的流程图400。例如,图4的步骤可在图2所示的DTX接收机200中实现。步骤410,判断是否收到有效的MBE帧。如果收到的帧无效,则步骤420(部分地基于先前收到的SID更新值)计算舒适噪声帧(即增强的频谱幅度帧),且所得到的舒适噪声帧在步骤430被用于合成。如果收到的帧是有效的,则在步骤440判断收到的帧是否是语音帧。如果是,则该语音帧在步骤430被用于合成。否则,所收到的帧就被认为是一个有效的SID更新,在步骤450将其原样存储。此外,在步骤430中SID更新值被用于合成。
图5是依据本发明的舒适噪声帧发生器500的示例。该发生器可用于实现图4中的舒适噪声帧生成步骤420。如图5所示,发生器500包括:旧舒适噪声帧缓冲器510、新舒适噪声帧缓冲器520、伪随机数字发生器530、延时缓冲器540、第一至第五乘法器550、552、554、556、558,以及第一与第二加法器560、562。本领域的技术人员将完全了解图5所示部件的功能可以用各种硬件配置加以实现,例如采用包括通用数字计算机、标准数字信号处理元件以及一个或多个专用集成电路(ASIC)的配置。
工作时,通过第一、第二和第三乘法器550、552、554分别将旧舒适噪声帧缓冲器510、新舒适噪声帧缓冲器520和伪随机数字发生器530的输出加权,经加权的输出帧通过第一加法器560相加。这样,第一加法器输出的各帧就作了如上的斜坡与随机化处理。经斜坡与随机化处理的各帧然后经由第四与第五乘法器556与558、第二加法器562以及延时缓冲器540的滤波后,提供增强的舒适噪声帧。如图所示,增强的舒适噪声帧(每帧都包含一组增强的频谱幅度)可以输入到语音解码器250用于合成。在图5中,第一乘法器550将一个加权系数1-α(m)乘以旧舒适噪声帧缓冲器510的输出以对其进行加权;第二乘法器552将一个加权系数α(m)乘以新舒适噪声帧缓冲器520的输出以对其进行加权;第三乘法器554将一个加权系数σ乘以伪随机数字发生器530的输出以对其进行加权,其中:
α(m)=m/N当m<N时
       1.0其余场合
m=从上次接收SID帧以来的帧数
σ=标准差估值
图6至11显示了本发明与先有技术的舒适噪声产生技术相比的优越性。特别是,图6给出了一个在DTX发射机中与典型背景噪声有关的频谱幅度的时间序列(即连续的各帧)的示例。接着,图7给出了用传统技术处理图6的频谱幅度后产生的舒适噪声帧的时间序列;图8至图11给出了用本发明的上述实施例处理相同的频谱幅度后产生的帧的时间序列。特别是,图8表现了对图6频谱幅度的平滑处理(例如在DTX发射机中),图9表现了对图8中经平滑处理的频谱幅度所作的斜坡处理(例如刚被DTX接收机接收后)。图10给出了对图9中经斜坡处理的频谱幅度所作的随机化处理。图11描述了对图10所示的经随机化处理的频谱幅度所作的最终滤波或增强处理。其优点是,图11的频谱特征显然比图7更接近图6。
一般,本发明提供了用以特征化噪声或其他信号及随后利用这种特征化的结果来重构信号的方法和装置。依据本发明,对信号的参数模型增补了至少一个与该模型参数有关的高阶统计量。在DTX通信方面,发射机背景噪声由包含估计平均频谱幅度的许多连续的帧特征化,每个帧都伴随一个独立的估计标准差值。信号一经重构后,估计标准差值就被用来随机化估计平均频谱幅度,由此改善重构噪声的音质。通过在传输前和/或接收后对频谱幅度的平均、平滑或其他的滤波处理,重构噪声的质量得到进一步增强。其优点是,重构噪声的频谱特征非常接近地类似于原噪声。
本领域的技术人员将完全了解:本发明并不限于文中为了说明而描述的特定示范性实施例,还有大量经深思熟虑的可替换实施方案。为此,本发明的范围由所附的权利要求书加以规定,而不决定于前面的说明,且发明人有意将所有其含义与各项权利要求一致的等价方案纳入所述权利要求书的范围。

Claims (21)

1.一种无线电发射机,包括:
一个用以对输入噪声信号抽样并提供被抽样噪声信号的参数模型作为输出的编码器,所述参数模型包含至少一个代表所述被抽样噪声信号的模型化参数;
其中:所述编码器还提供与所述至少一个模型化参数有关的统计量作为输出,所述统计量的阶数高于各模型化参数的阶数。
2.如权利要求1所述的无线电发射机,其特征在于:所述编码器是多频带激励编码器、同态编码器和正弦变换编码器之一。
3.如权利要求1所述的无线电发射机,其特征在于:所述参数模型包括多个估计平均频谱幅度。
4.如权利要求3所述的无线电发射机,其特征在于:所述统计量是所述频谱幅度的估计标准差。
5.如权利要求1所述的无线电发射机,其特征在于:所述编码器周期地更新至少一个模型化参数和所述统计量。
6.如权利要求5所述的无线电发射机,其特征在于:所述编码器对所述至少一个模型化参数的连续更新值进行滤波。
7.如权利要求6所述的无线电发射机,其特征在于:每个模型化参数的更新值是一个估计平均频谱幅度。
8.如权利要求5所述的无线电发射机,其特征在于:所述编码器对所述统计量的连续更新值进行滤波。
9.如权利要求5所述的无线电发射机,其特征在于:所述编码器对所述至少一个模型化参数和所述统计量的连续更新值进行滤波,且所述发射机将经滤波的更新值发送给无线电接收机。
10.如权利要求9所述的无线电发射机,其特征在于:所述无线电发射机是不连续传输装置,且所述经滤波的更新值在静寂描述帧内被发往所述无线电接收机。
11.一种无线电接收机,包括:
一个用以接收代表噪声信号的至少一个模型化参数以及一个与所述至少一个噪声模型化参数有关的统计量的舒适噪声发生器,所述统计量的阶数高于各噪声模型化参数的阶数;
其中:所述舒适噪声发生器对所述至少一个噪声模型化参数和所述统计量解码,以向所述无线电接收机的用户提供舒适噪声。
12.如权利要求11所述的无线电接收机,其特征于:每个噪声模型化参数都是一个估计平均频谱幅度。
13.如权利要求12所述的无线电接收机,其特征在于:所述统计量是所述至少一个频谱幅度的估计标准差。
14.如权利要求11所述的无线电接收机,其特征在于:所述舒适噪声发生器周期地接收所述至少一个噪声模型化参数和所述统计量的更新值。
15.如权利要求14所述的无线电接收机,其特征在于:所述舒适噪声发生器对所述至少一个噪声模型化参数的连续更新值进行滤波。
16.如权利要求15所述的无线电接收机,其特征在于:在对所述至少一个噪声模型化参数的连续更新值的滤波中,所述舒适噪声发生器使用一个斜坡函数。
17.如权利要求15所述的无线电接收机,其特征在于:所述舒适噪声发生器依据所述统计量对所述至少一个噪声模型化参数的经滤波的更新值进行处理,以提供所述舒适噪声。
18.如权利要求17所述的无线电接收机,其特征在于:各噪声模型化参数是一个估计平均频谱幅度,所述统计量是所述至少一个估计平均频谱幅度的估计标准差,以及所述舒适噪声发生器依据所述估计标准差对所述至少一个估计平均频谱幅度的经滤波的更新值进行抖动处理。
19.如权利要求15所述的无线电接收机,其特征在于:所述舒适噪声发生器对经抖动处理的所述至少一个频谱幅度的所述更新值进行滤波处理,以提供连续的经抖动更新值之间的相关性。
20.如权利要求14所述的无线电接收机,其特征在于:所述舒适噪声发生器接收来自无线电发射机的所述至少一个噪声模型化参数和所述统计量的周期性更新值。
21.如权利要求20所述的无线电接收机,其特征在于:所述无线电接收机是不连续传输装置,且所述舒适噪声发生器接收所述发射机发送的静寂描述帧内包含的所述至少一个噪声模型化参数及所述统计量。
CNB008112266A 1999-06-07 2000-05-19 用参数噪声模型统计量产生舒适噪声的方法及装置 Expired - Fee Related CN1145928C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US32668099A 1999-06-07 1999-06-07
US09/326680 1999-06-07

Publications (2)

Publication Number Publication Date
CN1367918A CN1367918A (zh) 2002-09-04
CN1145928C true CN1145928C (zh) 2004-04-14

Family

ID=23273227

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008112266A Expired - Fee Related CN1145928C (zh) 1999-06-07 2000-05-19 用参数噪声模型统计量产生舒适噪声的方法及装置

Country Status (6)

Country Link
JP (1) JP2003501925A (zh)
CN (1) CN1145928C (zh)
AU (1) AU5032000A (zh)
DE (1) DE10084675T1 (zh)
MY (1) MY133505A (zh)
WO (1) WO2000075919A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453517B (zh) * 2007-09-28 2013-08-07 华为技术有限公司 噪声生成装置、及方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4464484B2 (ja) * 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
SG102694A1 (en) * 2002-09-06 2004-03-26 Building And Construction Auth Facade integrity testing apparatus and method
US7499856B2 (en) * 2002-12-25 2009-03-03 Nippon Telegraph And Telephone Corporation Estimation method and apparatus of overall conversational quality taking into account the interaction between quality factors
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
CN102760441B (zh) * 2007-06-05 2014-03-12 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101335003B (zh) 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
DE102008009718A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN100550133C (zh) 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
US8380497B2 (en) 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
MX2013009305A (es) * 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
KR101589038B1 (ko) * 2014-03-14 2016-01-27 국방과학연구소 시계열 데이터베이스의 프라이버시 보호에서 상관 관계 보존을 위한 노이즈 생성 방법 및 장치
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
CN106328151B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种环噪消除系统及其应用方法
JP7385381B2 (ja) * 2019-06-21 2023-11-22 株式会社日立製作所 異常音検知システム、擬似音生成システム、および擬似音生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
UA41913C2 (uk) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
US5893056A (en) * 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453517B (zh) * 2007-09-28 2013-08-07 华为技术有限公司 噪声生成装置、及方法

Also Published As

Publication number Publication date
MY133505A (en) 2007-11-30
DE10084675T1 (de) 2002-06-06
JP2003501925A (ja) 2003-01-14
AU5032000A (en) 2000-12-28
CN1367918A (zh) 2002-09-04
WO2000075919A1 (en) 2000-12-14

Similar Documents

Publication Publication Date Title
CN1145928C (zh) 用参数噪声模型统计量产生舒适噪声的方法及装置
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
CN101366077B (zh) 在语音通信系统中产生舒适噪声的方法和设备
CN1239894C (zh) 语音不活动期间话音传输系统间互操作性的方法和装置
US5479559A (en) Excitation synchronous time encoding vocoder and method
US20090192802A1 (en) Systems, methods, and apparatus for context processing using multi resolution analysis
US9406304B2 (en) Method, apparatus, and system for processing audio data
EP0865028A1 (en) Waveform interpolation speech coding using splines functions
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
CN105976830B (zh) 音频信号编码和解码方法、音频信号编码和解码装置
US20080082343A1 (en) Apparatus and method for processing signal, recording medium, and program
CN104978970A (zh) 一种噪声信号的处理和生成方法、编解码器和编解码系统
CN100578618C (zh) 一种解码方法及装置
EP0865029B1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
CN101027718A (zh) 可扩展性编码装置以及可扩展性编码方法
US11526734B2 (en) Method and apparatus for recurrent auto-encoding
CN101069231A (zh) 语音通信的舒适噪声生成方法
US7603271B2 (en) Speech coding apparatus with perceptual weighting and method therefor
CN101339767B (zh) 一种背景噪声激励信号的生成方法及装置
CN101090312A (zh) 一种改进的语音编码流加密方法
WO2008049311A1 (fr) Procédé, système et appareil pour transmettre le flux de code encodé du bruit de fond
Shoham Low complexity speech coding at 1.2 to 2.4 kbps based on waveform interpolation
JP3984021B2 (ja) 音声/音響信号の符号化方法及び電子装置
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
Min et al. High speed codebook searching algorithm for the CELP vocoder in the internet-based environment

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee