CN1513168A - 话音通信中产生舒适噪声的方法和系统 - Google Patents

话音通信中产生舒适噪声的方法和系统 Download PDF

Info

Publication number
CN1513168A
CN1513168A CNA01822203XA CN01822203A CN1513168A CN 1513168 A CN1513168 A CN 1513168A CN A01822203X A CNA01822203X A CN A01822203XA CN 01822203 A CN01822203 A CN 01822203A CN 1513168 A CN1513168 A CN 1513168A
Authority
CN
China
Prior art keywords
value
voice component
comfort noise
speech
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA01822203XA
Other languages
English (en)
Other versions
CN1265353C (zh
Inventor
J��������-�ջ���
J·罗托拉-普基拉
H·米科拉
J·韦尼奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1513168A publication Critical patent/CN1513168A/zh
Application granted granted Critical
Publication of CN1265353C publication Critical patent/CN1265353C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

在话音通信中的非说话阶段提供舒适噪声(150)的一种方法(200)和系统(1)。根据话音输入中的背景噪声是稳态的还是非稳态的产生舒适噪声。如果背景噪声是非稳态的,就用一个抖动过程在舒适噪声中插入(32,38,232)一个随机分量。如果背景噪声是稳态的,就不使用这个抖动过程。

Description

话音通信中产生舒适噪声的方法和系统
技术领域
总的来说,本发明涉及话音通信领域,具体而言,涉及断续发射中舒适噪声的产生。
技术背景
在正常的电话对话中,有时一个人说,另一个人听。有时两个用户都不说话。寂静阶段内平均话音活动会低于50%。在这些寂静阶段内,只会听到背景噪声。背景噪声通常都没有任何内容,不必从发射方(TX)向接收方(RX)原封不动地发射这些背景噪声。在移动通信中,叫做断续发射(DTX)的程序利用了这一事实来节省移动设备的能量。具体而言,这一TX DTX机制有一个低功率状态(DTX低),在这种状态的话音间隙中,大多数时间里移动台(MS)停止向基站(BS)发射信号,以减少MS的功耗,降低空中接口的总干扰电平。
采用DTX的基本问题是说话阶段的背景噪声在停止发射无线电信号的时候消失,导致背景噪声不连续。由于DTX切换会非常迅速,因此,人们发现这一效应会使接听电话的人感到非常厌烦。除此以外,如果话音活动检测器(VAD)偶尔将噪声当作话音信号,就会在话音合成的时候重建一部分背景噪声,而其它部分则保持静默。背景噪声突然出现和突然消失不仅使人感到非常厌烦,它还会使对话的可理解性降低,特别是当噪声电平很高的时候,就象在行使的汽车内一样。为了减小这一干扰,在接收方产生类似于发射方背景噪声的合成噪声。这种合成噪声叫做舒适噪声(CN),因为它使得接听比较舒服。
为了让接收方模拟发射方的背景噪声,在发射方估计舒适噪声参数,用静默描述(SID)帧发射给接收方。这一发射在过渡到DTX低功率状态之前进行,以后以MS确定的速率进行。TX DTX处理程序决定计算哪种参数,以及是否产生话音帧或者SID帧。图1说明TX DTX的工作原理。这一工作是在话音活动检测器(VAD)的帮助之下进行的,它说明当前帧中是否有话音信号。如果检测到话音信号,就将VAD算法的输出打上“真”布尔标志,否则打上“假”标志。TX DTX还包括话音编码器和舒适噪声产生模块。
TX DTX处理程序的基本工作过程如下。布尔(Boolean)话音(SP)标志说明这一帧是话音帧还是SID帧。在说话阶段,SP标志被置位成“真”,用话音编码算法产生一个话音帧。如果在VAD标志变成“假”之前,说话阶段维持了足够长的时间,就有一个拖尾阶段(见图2)。这一段时间被用来计算平均背景噪声参数。在拖尾阶段,发射正常的话音帧给接收方,虽然这一编码信号中只有背景噪声。SP标志的值在拖尾阶段保持“真”。在拖尾阶段以后,舒适噪声(CN)阶段开始。在CN阶段,将SP标志设置成“假”,产生SID帧。
在拖尾阶段保存每一帧的频谱S和功率电平E。拖尾阶段过去以后,计算保存参数Save和Eave的平均值。平均长度是比拖尾阶段长的一帧。因此,第一个舒适噪声参数就是拖尾阶段和它后面第一帧的平均值。
在舒适噪声阶段,每一帧都产生SID帧,但是不发送它们。TX无线电子系统(RSS)根据SP标志协调SID帧的发射。当说话阶段结束的时候,在第一个SID帧以后停止发射。以后,时不时地发射一个SID帧,以便更新舒适噪声的估计。
图3描述RX DTX的逻辑操作。如果在收到的帧内检测到了差错,就将坏帧显示(BFI)标志设置为“真”。与发射方的SP标志相似,接收方的SID标志被用于描述收到的帧是一个SID帧还是一个话音帧。
RX DTX处理程序负责整个RX DTX操作。由它区分收到的帧是有效帧还是无效帧(分别是BFI=0或者BFI=1),以及收到的帧是一个SID帧还是一个话音帧(分别是SID=1或者SID=0)。收到有效帧的时候,RX DTX处理程序将它直接传送给话音译码器。收到有差错的话音帧或者这一帧在说话阶段丢失的时候,话音译码器利用最新良好话音帧与话音有关的参数,与此同时,译码器开始逐渐地关闭输出信号。
收到有效SID帧的时候,产生舒适噪声,直到收到新的SID帧。这一过程按同样的方式重复。但是如果收到的帧被划分成有效SID帧,就用最后的有效SID。在舒适噪声阶段,译码器在从来没有发送出去的SID帧之间,接收发射信道噪声。为了同步这些帧的信号,用两个前面收到的有效SID帧内插得到的参数被用来产生舒适噪声,用于更新舒适噪声。RX DTX处理程序忽略CN阶段没有发送的帧,因为它被假设为原因是发射中断。
利用分析背景噪声得到的信息来产生舒适噪声。随着源不同,背景噪声具有很不相同的特性。因此,没有任何一般方法来找到能够正确地描述所有类型背景噪声特性的一组参数,并且可以用少量比特一秒钟发射几次。因为话音通信中的话音合成是建立在人类话音产生系统基础之上的,因此不能用同样的方法将话音合成算法用于产生舒适噪声。除此以外,不象与话音相关的参数一样,SID帧内的参数不是每一帧都要发射。已经知道人类听觉系统更加集中于信号的幅度谱,而不是相位响应。因此,为了产生舒适噪声,只发射与背景噪声的平均谱和功率有关的信息就足够了。因此,用这两个参数产生舒适噪声。尽管这种舒适噪声的产生实际上会在时域引入很多失真,但是它与频域中的背景噪声相似。这样就足以减小说话阶段和舒适噪声阶段之间过渡阶段烦人的现象。工作良好的舒适噪声的产生具有很好的缓和效果,并且舒适噪声本身并不会引起人注意。由于舒适噪声的产生能够减小发射速率,同时能够感觉到的差错很少(,因此这一概念得到了广泛接受。但是,当产生的舒适噪声的特性明显地偏离真实背景噪声特性的时候,通常就能够听到舒适噪声和真实背景噪声之间的过渡。
在现有技术中,在两个最新的SID帧(简图4)之间通过内插参数获得合成线性预测(LP)滤波器和能量系数。这一内插是一帧一帧地进行的。在一帧内,每个子帧的舒适噪声密码本增益都相同。以SID帧的发射速率从收到的参数中内插出舒适噪声参数。每到第k帧发射SID帧。在第n帧以后发射的SID帧是第(n+k)帧。在每一帧内内插CN参数,从而使收到后一个帧的时候内插得到的参数从第n个SID帧变成从第(n+k)个SID帧得到的参数。这一内插是按照如下公式进行的:
S ′ ( n + i ) = S ( n ) * i k + S ( n - k ) * ( 1 - i k ) , - - - ( 1 )
其中的k是内插周期,S’(n+1)是第(n+i)帧的频谱参数矢量,i=0,…,k-1,S(n)是最后一次刷新的频谱参数矢量,S(n-k)是倒数第二次刷新的频谱参数矢量。同样,收到的能量按如下公式内插:
E ′ ( n + i ) = E ( n ) * i k + E ( n - k ) * ( 1 - i k ) , - - - ( 2 )
其中k是内插周期,E’(n+i)是第(n+i)帧的接收能量,i=0,…,k-1,E(n)是最新刷新的接收能量,E(n-k)是倒数第二次刷新的接收能量。通过这种方式,舒适噪声缓慢、平滑地改变,从一组参数逐渐变化到另一组参数。在图4中画出这种现有技术解决方案的一个框图。GSM EFR(GSM增强型全速率通信)编解码器通过在LSF域中发射合成(LP)滤波器系数来应用这种方法。固定密码本增益被用于发射帧的能量。按照等式1和等式2内插这两个参数,其中k=24。GSM EFR CN产生方法的详细介绍可以从数字蜂窝通信系统(第二加阶段),增强型全速率话音业务信道的舒适噪声(ETSI EN 300 728 v8.0.0(2000-07))中找到。
也可以分别用能量抖动和频谱抖动块将随机分量插入这些参数。目的是模拟实际背景噪声的频谱和能量起伏。频谱抖动块的工作过程如下(见图5):
Save″(i)=Save′(i)+rand(-L,L),    i=0,...,M-1,   (3)
在这种情况下其中的S是一个LSF矢量,L是一个恒定值,rand(-L,L)是产生的-L到L之间的一个随机数,Save”(i)是用于舒适噪声频谱表示的LSF矢量,Save’(i)是背景噪声的平均频谱信息(LSF域),M是合成滤波器(LP)的阶数。同样,能量抖动可以表示为:Eave″(i)=Eave′(i)+rand(-L,L),    i=0,...,M-1    (4)
在现有技术解决方案中,能量抖动和频谱(LP)抖动块以恒定幅度抖动。应该指出,在这第二个现有技术系统的描述中合成(LP)滤波器系数也在LSF域中表示。但是也可以采用任何其它表示(例如ISP域)。
一些现有技术系统,比如IS-641,在产生舒适噪声的时候丢弃了能量抖动块。对IS-461舒适噪声产生方法的详细介绍可以在TDMA蜂窝/PCS-无线电接口增强型全速率话音编解码器,修订版A(TIA/EIAIS-641-A)中找到。
对于某些类型的背景噪声,上述现有技术解决方案工作得很好,但是对于其它类型的噪声则不怎么好。对于稳态背景噪声(象作为背景噪声的汽车噪声或者风声),非抖动方法工作得很好,而抖动方法则不能工作得这样好。这是因为抖动方法将随机抖动引入了用于产生舒适噪声的频谱参数矢量,虽然背景噪声实际上是稳态的。对于非稳态背景噪声(街道或者办公室噪声),抖动方法工作得很好,但是非抖动方法则工作得不好。这样,抖动方法更加适合于模拟背景噪声的非稳态特性,而非抖动方法则更加适合于在背景噪声随时间起伏的情况下产生稳态舒适噪声。利用这两种方法中的一种来产生舒适噪声,在许多情况下,合成背景噪声和真实背景噪声之间的过渡都是听得见的。
需要一种方法和系统来产生舒适噪声,它能够减小或者基本上消除合成背景噪声和真实背景噪声之间的过渡能够被听见的程度,而不管真实背景噪声是稳态的还是非稳态的。WO 0031719描述了一种方法,用来计算用于改变舒适噪声参数的变化信息。具体而言,在译码器中计算变化信息。这一计算完全可以在译码器中进行,其中在舒适噪声阶段,变化信息只存在于大约一个舒适噪声帧(每个第24帧)中,由于计算产生的延迟很长。还能够在编码器和译码器之间分配计算量,但是要求发射信道有更高的比特率从编码器向译码器发送信息。提供一种更加简单的方法来改变舒适噪声比较好。
发明内容
本发明的主要目的是减小或者基本上消除说话阶段真实背景噪声和非说话阶段舒适噪声之间过渡听得见的程度。这个目的是通过在背景噪声特性的基础之上提供舒适噪声来达到的。
因此,一方面,本发明是在话音通信的非说话阶段产生舒适噪声的一种方法,其中从发射方向接收方以帧的形式提供信号说明有话音输入,其中的话音输入有一个话音分量和一个非话音分量,非话音分量可以被划分成稳态的和非稳态的。该方法包括以下步骤:
确定非话音分量是稳态的还是非稳态的;
发射方提供另一个信号,它取第一个值的时候说明非话音分量是稳态的,取第二个值的时候说明非话音分量是非稳态的;和
在非说话阶段,根据从发射方收到的所述另一个信号,按照这另一个信号是取第一个值还是取第二个值,在接收方提供舒适噪声。
根据本发明,这些信号包括从话音输入的非话音分量估计出来的频谱参数矢量和能量电平,在这个频谱参数矢量和能量电平的基础之上产生舒适噪声。如果这另一个信号取第二个值,就将一个随机值插入频谱参数矢量的元素和能量电平,用来产生舒适噪声。
根据本发明,确定步骤是在频谱参数矢量之间频谱距离的基础之上执行的。最好是在一个平均周期内将频谱距离加起来,获得一个和,如果这个和小于预先确定的值,其中的非话音分量就被划分成稳态的,如果这个和大于或者等于这个预先确定的值,就将这个非话音分量划分成非稳态的。频谱参数矢量可以是线性频谱频率(LSF)矢量,导抗频谱频率(ISF)矢量之类。
根据本发明的第二方面,在通信网络中的话音通信里产生舒适噪声的一种系统,其中有发射方提供与话音有关的参数,说明有话音输入,还有一个接收方根据与话音有关的参数重构话音输入,其中的话音通信具有说话阶段和非说话阶段,话音输入具有话音分量和非话音分量,非话音分量可以划分成稳态的和非稳态的,其中在非说话阶段提供舒适噪声。该系统包括:
位于发射方的装置,用于确定非话音分量是稳态的还是非稳态的,用于提供一个信号,它取第一个值说明非话音分量是稳态的,取第二个值说明非话音分量是非稳态的;
位于接收方的装置,根据这个信号,只有在信号取第二个值的时候才将随机分量插入舒适噪声。
根据本发明的第三个方面,一个话音编码器被用于话音通信,有一个编码器用来提供话音参数,说明有话音输入,还有一个译码器,根据提供的话音参数,在话音参数的基础之上重构话音输入,其中的话音通信具有说话阶段和非说话阶段,话音输入具有话音分量和非话音分量,非话音分量能够被划分成稳态或者非稳态的,其中
编码器包括一个频谱分析模块,根据话音输入,提供频谱参数矢量和能量参数,说明话音输入的非话音分量,和
译码器包括装置在非说话阶段提供舒适噪声,根据频谱参数矢量和能量参数替换非话音分量。话音编码器包括:
噪声检测器模块,在编码器内,根据频谱参数矢量和能量参数,确定非话音分量是稳态的还是非稳态的,提供一个信号,它取第一个值说明非话音分量是稳态的,取第二个值则说明非话音分量是非稳态的;和
抖动模块,在译码器内,如果非话音分量是非稳态的,就根据这个信号,将随机分量插入频谱参数矢量的元素和能量参数中,改变舒适噪声。
通过阅读以下介绍,同时参考图1~7,就会了解本发明。
附图说明
图1是说明典型发射方断续发射处理程序的一个框图。
图2是说明话音活动检测器和布尔话音标志之间如何同步的一个时序图。
图3是说明典型接收方断续发射处理程序的一个框图。
图4是说明现有技术利用非抖动方法的舒适噪声产生系统的一个框图。
图5是说明现有技术利用抖动方法的舒适噪声系统的一个框图。
图6是说明本发明中舒适噪声产生系统的一个框图。
图7是说明本发明中舒适噪声产生方法的一个流程图。
具体实施方式
在图6中画出本发明中的舒适噪声产生系统1。如图所示,系统1包括一个编码器10和一个译码器12。在编码器10中,频谱分析模块20被用于从输入的话音信号100提取线性预测(LP)参数112。与此同时,能量计算模块24被用于从输入的话音信号100计算能量因子122。话音平均模块22从LP参数112计算平均频谱参数矢量114。同样,能量平均模块26从能量系数122计算收到的能量124。本领域中已经有了平均参数的计算方法,就象数字蜂窝电信系统(第二加阶段),增强型全速率话音业务信道的舒适噪声方面(ETSI EN 300 728v8.0.0(2000-07))所公开的一样。从发射方的编码器10将平均频谱参数矢量114和平均接收能量124发射给接收方的译码器12,就象
现有技术中一样。
在编码器10中,根据本发明,检测器模块28根据频谱参数矢量114和接收能量124确定背景噪声是稳态的还是非稳态的。从编码器10将说明背景噪声是稳态的还是非稳态的这样的信息以“稳定性标志”的形式发送给译码器12。可以用二进制数字发送标志130。例如,将背景噪声划分成稳态的时候,就给稳定性标志置位,给标志130一个值1。否则,就不给稳定性标志置位,给标志130一个值0。和现有技术中的译码器一样,如图4和5所示,频谱内插器30和能量内插器36分别按照等式1和等式2在新的帧中从前面的SID帧内插S’(n+i)和E’(n+i)。内插得到的频谱参数矢量S’ave用引用数字116表示。内插得到的接收能量E’ave用引用数字126表示。如果检测器模块28将背景噪声划分成非稳态的,如同标志130的值(=0)所说明的一样,就通过频谱抖动模块32根据公式3,将随机分量插入频谱参数矢量116,能量抖动模块38根据公式4将随机抖动插入接收能量126,来模拟实际背景噪声频谱的起伏。抖动后的频谱参数矢量S”ave用引用数字118来表示,抖动后的接收能量E”ave用引用数字128表示。但是如果将背景噪声划分为稳态的,就给稳定性标志130置位。抖动模块32和能量抖动模块38被有效地旁路,从而使S”ave=S’ave,E”ave=E’ave。在这种情况下,信号118与信号116相同,信号128与信号126相同。在这两种情况下,都将信号128传送给比例缩放模块40。在平均能量E”ave的基础之上,比例缩放模块40改变舒适噪声的能量,从而使译码器12给出的舒适噪声150的能量电平近似等于编码器10中背景噪声的能量。如图6所示,将随机噪声发生器50用于产生用作激励的随机白噪声矢量。用引用数字140表示白噪声,经过了比例缩放或者改变了的白噪声用引用数字142表示。表示输2100的平均背景噪声的信号118或者平均频谱参数矢量S”ave,被提供给合成滤波器模块34。根据信号118和比例缩放激励142,合成滤波器模块34提供舒适噪声150。
可以根据CN平均周期(1dtx)内从每个频谱参数(LSF或者ISF)矢量f(i)到频谱参数矢量f(j)的频谱距离ΔDi,i=0,…,1dtx-1,j=0,…,1dtx-1,i≠j,将背景噪声划分为稳态的或者非稳态的。平均周期通常都是8。频谱距离近似为:
Δ D i = Σ j = 0 , j ≠ i l DTX - 1 ΔR ij , - - - ( 5 )
或者,i=0,…,1dtx-1,i≠j,其中:
ΔR ij = Σ k = 1 M ( f i ( k ) - f j ( k ) ) 2 , - - - ( 6 )
fi(k)是帧i的频谱参数矢量的第k个频谱参数,M是合成滤波器(LP)的阶数。
如果平均周期是8,那么总的频谱距离就是 D s = Σ i = 0 7 ΔD i . 如果Ds很小,就将稳定性标志置位(标志130的值为1),说明背景噪声是稳态的。否则,就不给稳定性标志置位(标志130的值是0),说明背景噪声是非稳态的。最好是将总的频谱距离Ds与一个常数进行比较,在定点数中,它等于67108864,在浮点数中,它等于5147609。稳定性标志是否被置位取决于Ds是否小于这个常数。
另外,还可以考虑帧之间的功率变化。为此目的,计算两个连续帧之间的能量比E(i)/E(i+1)。如同在本领域中大家都知道的一样,按照以下公式计算标志为VAD=0的每一帧的帧能量:
en log ( i ) = 1 2 log 2 ( 1 N Σ n = 0 N - 1 s 2 ( n ) ) - - - ( 7 )
= log 2 E ( i )
其中S(n)是当前帧i的高通滤波以后的输入话音信号。如果这些能量比中有一个足够大,就将稳定性标志复位(标志130的值变成0),即使前面因为Ds很小已经将它置位。这一点等价于在对数域将每一帧的帧能量与平均对数能量进行比较。这样,如果enlog(i)与平均enlog的绝对偏差的和很大,就将稳定性标志复位,即使前面已经因为Ds很小而将它置位。如果绝对偏差的和大于定点的180(浮点的1.406),就将稳定性标志复位。
将抖动插入频谱参数矢量的时候,根据公式3,与插入较高频谱分量(LSF或者ISF元素)的抖动分量相比,最好是将较少的抖动插入较低频谱分量。这样就将频谱抖动公式3的插入改成如下形式:
Save″(i)=Save′(i)+rand(-L(i),L(i)),    i=0,...,M-1    (8)
其中对于高频分量,L(i)随着i增大而增大,M是合成滤波器(LP)的阶数。例如,应用于AMR宽带编解码器的时候,L(i)矢量可以取如下值:
12800 32768 { 128,140,152,164,176 , 188,200,212,224,236,248,260,272,284,296,0 } (参考第三代伙伴计划,技术规范组业务和系统方面,官方话音编解码器话音处理功能,AMR宽带话音编解码器,转录功能(3G TS 26.190版本0.02)。在这里应该指出,ISF域被用于频谱表示,矢量的第二个到最后一个元素(i-M-2)表示最高频率和矢量的第一个元素(i=0)(。在LSF域中,矢量的最后一个元素(i-M-1)表示最高频率和矢量的第一个元素(i=0)。
给能量参数插入抖动类似于频谱抖动,可以按照公式4计算出来。在对数域中,按照以下方式给能量参数插入抖动:
en log mean = en log mean + rand ( - L , L ) - - - ( 9 )
图7是说明本发明中非说话阶段产生舒适噪声的方法的一个流程图。如同流程图200所示,在步骤202计算平均频谱参数矢量S’ave和平均接收能量E’ave。在步骤204中计算总频谱距离Ds。在步骤206中,如果Ds不小于预定值,(例如定点算术中的67108864),就不给稳定性标志置位。因此,在步骤232中将抖动插入S’ave和E’ave。如果Ds小于预定值,就给稳定性标志置位。跳过步骤232的抖动处理,或者S”ave=S’ave并且E”ave=E’ave。也可以在步骤208中测量帧之间的能量变化。如果能量变化很大,如同步骤230所确定的一样,就将稳定性标志复位,返回步骤232。在步骤234中根据S”ave和E’ave产生舒适噪声。
用本发明的这种方法试验了三种不同类型的背景噪声。对于汽车噪声,95.0%的舒适噪声帧被划分成稳态的。对于办公室噪声,36.9%的舒适噪声帧被划分成稳态的,对于街道噪声,25.8%的舒适噪声被划分成稳态的。这个结果非常好,因为大多数汽车噪声都是稳态背景噪声,而办公室噪声和街道噪声则大多数是非稳态类型的背景噪声。
应该指出,本发明中稳定性标志的计算完全是在编码器中进行的。这样,与只用译码器的方法相比,大大地减小了计算延迟,就象WO 00/31719所公开的一样。除此以外,本发明的这一方法只利用一个比特将信息从编码器发送给译码器来改变舒适噪声。相反,如果计算量分布在编码器和译码器之间,就要求发射信道有高得多的比特率,就象WO 00/31719所公开的一样。
虽然参考优选实施方案介绍了本发明,但是本领域中的技术人员应该明白,前面的内容,以及各种其它改变、省略、偏离细节都不会偏离本发明的范围。

Claims (25)

1.  在具有说话阶段和非说话阶段的话音通信中产生舒适噪声(150)的一种方法(200),其中从发射方向接收方以帧的形式提供说明有话音输入的信号(114,124),从而有利于所述话音通信,该话音输入有一个话音分量和一个非话音分量,非话音分量能够被划分成稳态和非稳态的,该方法的特征在于
按照以下方式确定(204)非话音分量是稳态的还是非稳态的:
发射方提供(206)另一个信号(130),它取第一个值就说明非话音分量是稳态的,取第二个值就说明非话音分量是非稳态的,和
按照从发射方收到的所述另一个信号,根据这另一个信号(130)是取第一个值还是取第二个值,接收方在非说话阶段提供(202,232)舒适噪声(150)。
2.权利要求1所述的方法,其中的非话音分量的特征在于发射方的背景噪声。
3.权利要求1所述的方法,其特征在于如果所述另一个信号取第二个值,提供的舒适噪声就具有随机分量。
4.权利要求1所述的方法,其特征在于这些信号包括从非话音分量的频谱估计出来的一个频谱参数矢量(114)和一个能量电平(124),以及在这个频谱参数矢量(114)和能量电平(124)的基础之上提供的舒适噪声(150)。
5.权利要求4所述的方法,其特征在于如果这另一个信号(130)取第二个值,就在提供舒适噪声(150)之前将一个随机值插(32)入频谱参数矢量(114)的元素。
6.权利要求4所述的方法,其特征在于如果这另一个信号(130)取第二个值,就在提供舒适噪声(150)之前,将第一组随机值插(32)入频谱参数矢量(114)的元素,将第二个随机值插(38)入能量电平(124)。
7.权利要求1所述的方法,其特征在于这些信号包括表示非话音分量的多个频谱参数矢量(114),确定步骤(204)是在频谱参数矢量(114)中频谱距离(Ds)的基础之上进行的。
8.权利要求7所述的方法,其特征在于在一个平均周期上将频谱距离(Ds)加起来,其特征还在于如果得到的和小于一个预定值,就将非话音分量划分成稳态的,如果得到的和大于或者等于预定值,就将非话音分量划分为非稳态的。
9.权利要求7所述的方法,其特征在于频谱参数矢量(114)是线性频谱频率(LSF)矢量。
10.权利要求7所述的方法,其特征在于频谱参数矢量(114)是导抗频谱频率(ISF)矢量。
11.权利要求4所述的方法,其特征还在于如果另一个信号取第一个值,就计算帧之间能量电平变化的步骤(208),其特征还在于如果能量电平的变化超过一个预定值,就改变所述另一个信号,让它取第二个值,提供舒适噪声(150)以前,将一个随机值矢量插(232)入频谱参数矢量(114)。
12.权利要求4所述的方法,其特征还在于如果另一个信号(130)取第一个值,就计算帧之间能量电平变化的步骤(208),其特征还在于如果能量电平变化超过一个预定值,就将所述另一个信号改变为第二个值,提供舒适噪声(150)之前,将一个随机值矢量插(232)入频谱参数矢量(114)和能量电平(124)。
13.权利要求4所述的方法,其特征在于所述另一个信号(130)包括从发射方向接收方发送的一个标志,用于说明非话音分量是稳态的还是非稳态的,其特征还在于所述另一个信号(130)取第一个值的时候将这个标志置位,当所述另一个信号取第二个值的时候这个标志不置位。
14.权利要求13所述的方法,其特征在于这个标志不置位的时候,就在提供舒适噪声(150)之前,将一个随机值插(232)入频谱参数矢量(114)。
15.权利要求13所述的方法,其特征在于:
如果所述另一个信号取第一个值,就计算(208)帧之间能量电平的变化,
确定(230)能量电平的变化是否超过预定值,和
如果变化超过预定值,就给标志复位。
16.权利要求15所述的方法,其特征在于这个标志没有被置位的时候,提供舒适噪声(150)以前,将一个随机值插(232)入频谱参数矢量(114)。
17.权利要求5所述的方法,其特征在于所述随机值的取值范围是-L到L之间,其中L是一个预定值。
18.权利要求17所述的方法,其特征在于所述预定值基本上等于100+0.8iHz。
19.权利要求6所述的方法,其特征在于第二个随机值的范围在-75到75之间。
20.权利要求5所述的方法,其特征在于所述随机值的范围在-L到L之间,其中L是随着表示更高频率的元素增大的一个值。
21.权利要求1所述的方法,其特征在于所述另一个信号是一个二进制标志,第一个值是1,第二个值是0。
22.权利要求1所述的方法,其特征在于所述另一个信号是一个二进制标志,第一个值是0,第二个值是1。
23.在通信网络中的话音通信里产生舒适噪声(150)的一种方法(200),该通信网络有发射方提供和话音有关说明有话音输入(100)的参数(114,124),还有接收方根据和话音有关的参数(114,124)重构话音输入,其中的话音通信具有说话阶段和非说话阶段,话音输入具有话音分量和非话音分量,非话音分量能够被划分成稳态的和非稳态的,其中舒适噪声(150)是在非说话阶段提供的,该系统的特征在于:
位于发射方的装置(28),确定非话音分量是稳态的还是非稳态的,提供一个信号(130),它取第一个值的时候说明非话音分量是稳态的,或者取第二个值说明非话音分量是非稳态的,和
位于接收方的装置(32,38),根据所述信号(130),如果信号取第二个值,就将一个随机分量插入舒适噪声(150)。
24.一种话音编码器(1),用于话音通信,有一个编码器(10),提供话音参数(114,124)说明有话音输入(100),还有一个译码器(12),根据提供的话音参数(114,124)重构话音,其中的话音通信具有说话阶段和非说话阶段,话音输入有话音分量和非话音分量,非话音分量能够被划分成稳态或者非稳态的,其特征在于:
编码器(10)包括频谱分析模块(20,24),根据话音输入(100),提供话音参数矢量(114)和能量参数(124),说明话音输入的非话音分量,其特征还在于
译码器(12)包括装置(30,36)根据频谱参数矢量和能量参数,在非说话阶段提供舒适噪声(150)替换非话音分量,该话音编码器(1)的特征在于
位于编码器(10)内的一个噪声检测器模块(28),根据频谱参数矢量(114)和能量参数(124),确定非话音分量是稳态的还是非稳态的,并且提供一个信号(130),它取第一个值就说明非话音分量是稳态的,取第二个值就说明非话音分量是非稳态的,以及
一个抖动模块(32,38),位于译码器(12)内,根据所述信号(130),将随机分量插入频谱参数矢量(114)的元素和能量参数(124)中,只有在非话音分量是非稳态的时候改变舒适噪声(150)。
25.在具有说话阶段和非说话阶段的话音通信中产生舒适噪声(150)的一种方法(200),其中从发射方向接收方提供说明有话音输入的信号(114,124),从而有利于所述话音通信,该话音输入有一个话音分量和一个非话音分量,非话音分量能够被划分成稳态和非稳态的,在非说话阶段提供舒适噪声,该方法的特征在于
按照以下方式确定(204)非话音分量是稳态的还是非稳态的:
发射方提供(206)另一个信号(130),说明所述确定结果,和
按照从发射方收到的所述另一个信号(130),根据这另一个信号(130),如果非话音分量是非稳态的,接收方改变(232)舒适噪声。
CNB01822203XA 2000-11-27 2001-11-26 话音通信中产生舒适噪声的方法和系统 Expired - Lifetime CN1265353C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25317000P 2000-11-27 2000-11-27
US60/253,170 2000-11-27

Publications (2)

Publication Number Publication Date
CN1513168A true CN1513168A (zh) 2004-07-14
CN1265353C CN1265353C (zh) 2006-07-19

Family

ID=22959162

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB01822203XA Expired - Lifetime CN1265353C (zh) 2000-11-27 2001-11-26 话音通信中产生舒适噪声的方法和系统

Country Status (13)

Country Link
US (1) US6662155B2 (zh)
EP (1) EP1337999B1 (zh)
JP (1) JP3996848B2 (zh)
KR (1) KR20040005860A (zh)
CN (1) CN1265353C (zh)
AT (1) ATE336059T1 (zh)
AU (1) AU2002218428A1 (zh)
BR (1) BR0115601A (zh)
CA (1) CA2428888C (zh)
DE (1) DE60122203T2 (zh)
ES (1) ES2269518T3 (zh)
WO (1) WO2002043048A2 (zh)
ZA (1) ZA200303829B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008138263A1 (fr) * 2007-05-11 2008-11-20 Huawei Technologies Co., Ltd. Procédé et dispositif de génération de paramètres de bruit de confort
WO2009117967A1 (zh) * 2008-03-26 2009-10-01 华为技术有限公司 编码、解码的方法及装置
CN101651752B (zh) * 2008-03-26 2012-11-21 华为技术有限公司 解码的方法及装置
CN103093756A (zh) * 2011-11-01 2013-05-08 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103137133A (zh) * 2011-11-29 2013-06-05 中兴通讯股份有限公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
CN106663436A (zh) * 2014-07-28 2017-05-10 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US7012901B2 (en) * 2001-02-28 2006-03-14 Cisco Systems, Inc. Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
JP4063508B2 (ja) * 2001-07-04 2008-03-19 日本電気株式会社 ビットレート変換装置およびビットレート変換方法
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
JP4381291B2 (ja) * 2004-12-08 2009-12-09 アルパイン株式会社 車載用オーディオ装置
DE102004063290A1 (de) * 2004-12-29 2006-07-13 Siemens Ag Verfahren zur Anpassung von Comfort Noise Generation Parametern
US20070038443A1 (en) * 2005-08-15 2007-02-15 Broadcom Corporation User-selectable music-on-hold for a communications device
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US7573907B2 (en) * 2006-08-22 2009-08-11 Nokia Corporation Discontinuous transmission of speech signals
US20080059161A1 (en) * 2006-09-06 2008-03-06 Microsoft Corporation Adaptive Comfort Noise Generation
KR100834679B1 (ko) 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
RU2469419C2 (ru) * 2007-03-05 2012-12-10 Телефонактиеболагет Лм Эрикссон (Пабл) Способ и устройство для управления сглаживанием стационарного фонового шума
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
US9495971B2 (en) * 2007-08-27 2016-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
JP5482998B2 (ja) * 2009-10-19 2014-05-07 日本電気株式会社 音声復号化切替えシステムおよび音声復号化切替え方法
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
DE102011076484A1 (de) * 2011-05-25 2012-11-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonwiedergabevorrichtung mit hörszenariosimulation
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
EP3217398B1 (en) * 2013-04-05 2019-08-14 Dolby International AB Advanced quantizer
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
FI100932B (fi) * 1995-04-12 1998-03-13 Nokia Telecommunications Oy Äänitaajuussignaalien lähetys radiopuhelinjärjestelmässä
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
WO2000011649A1 (en) 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
FI105635B (fi) 1998-09-01 2000-09-15 Nokia Mobile Phones Ltd Menetelmä taustakohinainformaation lähettämiseksi tietokehysmuotoisessa tiedonsiirrossa
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008138263A1 (fr) * 2007-05-11 2008-11-20 Huawei Technologies Co., Ltd. Procédé et dispositif de génération de paramètres de bruit de confort
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
WO2009117967A1 (zh) * 2008-03-26 2009-10-01 华为技术有限公司 编码、解码的方法及装置
US7912712B2 (en) 2008-03-26 2011-03-22 Huawei Technologies Co., Ltd. Method and apparatus for encoding and decoding of background noise based on the extracted background noise characteristic parameters
CN101651752B (zh) * 2008-03-26 2012-11-21 华为技术有限公司 解码的方法及装置
US8370135B2 (en) 2008-03-26 2013-02-05 Huawei Technologies Co., Ltd Method and apparatus for encoding and decoding
CN103093756A (zh) * 2011-11-01 2013-05-08 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103093756B (zh) * 2011-11-01 2015-08-12 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103137133A (zh) * 2011-11-29 2013-06-05 中兴通讯股份有限公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
WO2013078974A1 (zh) * 2011-11-29 2013-06-06 中兴通讯股份有限公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US9449605B2 (en) 2011-11-29 2016-09-20 Zte Corporation Inactive sound signal parameter estimation method and comfort noise generation method and system
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
CN106663436A (zh) * 2014-07-28 2017-05-10 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
CN106663436B (zh) * 2014-07-28 2021-03-30 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法

Also Published As

Publication number Publication date
US20020103643A1 (en) 2002-08-01
EP1337999A2 (en) 2003-08-27
JP3996848B2 (ja) 2007-10-24
ZA200303829B (en) 2004-07-28
CN1265353C (zh) 2006-07-19
US6662155B2 (en) 2003-12-09
JP2004525540A (ja) 2004-08-19
KR20040005860A (ko) 2004-01-16
ATE336059T1 (de) 2006-09-15
BR0115601A (pt) 2004-12-28
CA2428888A1 (en) 2002-05-30
DE60122203D1 (de) 2006-09-21
WO2002043048A3 (en) 2002-12-05
AU2002218428A1 (en) 2002-06-03
EP1337999B1 (en) 2006-08-09
ES2269518T3 (es) 2007-04-01
CA2428888C (en) 2007-10-30
DE60122203T2 (de) 2007-08-30
WO2002043048A2 (en) 2002-05-30

Similar Documents

Publication Publication Date Title
CN1265353C (zh) 话音通信中产生舒适噪声的方法和系统
US8554550B2 (en) Systems, methods, and apparatus for context processing using multi resolution analysis
US7430506B2 (en) Preprocessing of digital audio data for improving perceptual sound quality on a mobile phone
US6182033B1 (en) Modular approach to speech enhancement with an application to speech coding
CN1175398C (zh) 一种从噪声环境中识别出语音和音乐的声音活动检测方法
JPH1097292A (ja) 音声信号伝送方法および不連続伝送システム
WO2000075919A1 (en) Methods and apparatus for generating comfort noise using parametric noise model statistics
CN1132155C (zh) 确定语音编码参数的方法和设备
US6424942B1 (en) Methods and arrangements in a telecommunications system
JPH0644195B2 (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
CN101069231A (zh) 语音通信的舒适噪声生成方法
US8767974B1 (en) System and method for generating comfort noise
Tahilramani et al. A hybrid scheme of information hiding incorporating steganography as well as watermarking in the speech signal using Quantization index modulation (QIM)
KR100659200B1 (ko) 이동 통신 단말기의 보코딩 시스템에서 음성신호 정규화방법
Möller et al. Performance of speech recognition and synthesis in packet-based networks
EP0929065A2 (en) A modular approach to speech enhancement with an application to speech coding
Ross et al. Voice Codec for Floating Point Processor
AU2012261547A1 (en) Speech coding system and method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160115

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj

CX01 Expiry of patent term

Granted publication date: 20060719

CX01 Expiry of patent term