CN1183512C

CN1183512C - 具有可提高保真度的柔和噪声可变特性语音编码

Info

Publication number: CN1183512C
Application number: CNB998136204A
Authority: CN
Inventors: E·伊库登; R·哈根; I·约翰森
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-11-23
Filing date: 1999-11-08
Publication date: 2005-01-05
Anticipated expiration: 2019-11-08
Also published as: US7124079B1; WO2000031719A3; JP2003529950A; AU760447B2; CN1354872A; EP1145222A2; AR028468A1; JP4659216B2; DE69917677D1; KR20010080497A; AU1591100A; EP1145222A3; DE69917677T2; KR100675126B1; CA2349944A1; EP1145222B1; BR9915577A; CA2349944C; TW469423B; WO2000031719A2

Abstract

通过改变一般用来产生柔和噪声的柔和噪声参数值(33)而改善在非语音周期内由语音译码器(93)产生的柔和噪声质量。根据与背景噪声参数有关的可变性信息来改变柔和噪声参数值。然后用改变的柔和噪声参数值(35)来产生柔和噪声。

Description

具有可提高保真度的柔和噪声可变特性语音编码

本申请根据35USC119(e)(1)要求申请日为1998年11月23日的US60/109,555共同未决临时申请的优先权。

技术领域

本发明主要涉及语音编码，更确地说，涉及在语音暂停(inactivity)周期内产生仿真背景噪声的语音编码。

背景技术

语音编码器和译码器通常分别设置在无线发射器和无线接收器中，而且它们可以同时工作，以允许通过无线连接在给定的发射器和接收器之间进行语音通信。通常将语音编码器和语音译码器的结合称为语音编码译码器。移动无线电话(例如，蜂窝式电话)是常规通信装置的一个实例，这种常规通信装置一般包括具有语音编码器的无线发射器和具有语音译码器的无线接收器。

在常规的以程序块为基础的语音编码器中，将输入的语音信号分成称为帧的块。对于普通的4kHz电话带宽范围的应用领域而言，一般帧长度是20ms或160次采样。该帧被一进步分成一般长度为5ms或40次采样的子帧。

常规的线性预测合成分析(analysis-by-synthesis)(LPAS)编码器采用了与语音生成有关的模块。根据输入的语音信号，抽取描述音域、音调等的模拟参数。通常相对于每一个帧计算缓慢变化的参数。例如，这些参数包括STP(短期预测)参数，该参数描述语音生成装置中的音域。STP参数的一个实例是线性预测系数(LPC)，其代表输入的语音信号谱形状。变化较快的参数实例包括音调和修正形状/增益参数，这些参数通常是在每个子帧中进行计算的。

用合适的公知换算器和矢量量化技术对抽取的参数进行量化。常将STP参数，例如线性预测系数转换成更适合量化的表达法，例如线性谱频率(LSFs)。量化后，通过通信信道将这些参数发送到译码器。

在常规的LPAS译码器中，通常进行与上述相反的操作，而且对语音信号进行合成。常常将后置滤波技术应用到合成语音信号中以提高感觉的质量。

对于很多普通的背景噪声类型而言，需要更低的语音位速率以形成足够好的信号模型。现有的移动系统利用了在有背景噪声时调节发射的位速率这一事实。在使用连续发射技术的常规系统中，可变速率(VR)的语音编码器可以利用其最低的位速率。在常规的非连续发射(DTX)系统中，当讲演者停顿(inactive)时发射器停止发送编码的语音帧。在规则或非规则间隔(通常为每500ms)内，发射器发送适合于在译码器中产生柔和噪声(comfort noise)的语音参数。传统上将这些适合产生柔和噪声(CNG)的参数进行编码使之成为有时称为静默描述符(SID)的帧。在接收器中，译码器使用在SID帧中接收到的柔和噪声参数以便借助于常规的柔和噪声注入(CNI)算法合成仿真噪声。

当在常规的DTX系统内的译码器中产生柔和噪声时，通常感到这种噪声非常固定而且与活跃(active)(非DTX)模式下产生的背景噪声有很大不同。产生这种感觉的原因是不象正常的语音帧那样经常向接收器发送DTX SID帧。在具有DTX模式的LPAS编码译码器中，常常需估算几个帧范围内的背景噪声频谱和能量(例如平均值)，而且将估算的参数进行量化并通过信道发送到译码器。图1表示一个示例性传统柔和噪声译码器，所述译码器产生上述估算的背景噪声(柔和噪声)参数。一般每隔100到500ms便发送一次量化的柔和噪声参数。

发送低更新率SID帧而不是发送规则语音帧的好处有两方面。例如，由于较低的能量消耗而使移动式无线电收发信机中电池的寿命延长，而且由发射器引起的干扰下降从而可提供较高的系统容量。

在常规的译码器中，可以如图2所示那样接收柔和噪声参数，并对其进行译码。由于译码器并不象其正常接收语音参数那样频繁地接收新的柔和噪声参数，所以在SID帧中接收到的柔和噪声参数常在23处插入以便在柔和噪声合成时形成平缓的参数演变。在一般用25表示的合成操作中，译码器向合成滤波器27输入与增益成比例的随机噪声(例如白噪声)激励和内插的谱参数。结果，不管译码器一端(见图1)的背景噪声s(n)字符是否改变，都会感觉到产生的柔和噪声s_c(n)具有高稳定性(“静态的”)。这个问题在具有强变化性例如街道噪声和混串音(例如饭馆噪声)并伴有汽车噪声的背景下更为突出。

一种解决这种“静态的”柔和噪声问题的常规方法是简单地提高DTX柔和噪声参数的更新率(例如，使用较高的SID帧速率)。这种方案的代表性问题是因为发射器必须更频繁地工作而使电池的消耗(例如在移动式无线电收发信机中)增加，而且由于提高了SID帧速率，所以系统容量将减小。因此，在常规的系统中允许存在静态的背景噪声。

因此，需要避免与产生常规柔和噪声有关的上述缺点。

发明内容

按照本发明，将根据在编码器中经受的实际背景噪声的特性改变按常规产生的柔和噪声参数。在改变参数的基础上产生的柔和噪声感觉上比按常规产生的柔和噪声稳定性小，而且更接近于编码器中经受的实际背景噪声。

附图说明

图1示意性地表示在常规语音编码器中柔和噪声参数的产生。

图2示意性地表示在常规语音译码器中柔和噪声的生成。

图3表示按照本发明所述用于产生柔和噪声的柔和噪声参数改变装置。

图4表示图3中改变装置的示例性实施例。

图5表示图4中可变性估算器的示例性实施例。

图5A表示对图5中选择信号的示例性控制。

图6表示图3-5中改变装置的示例性实施例，其中图5中的可变性估算器一部分设在编码器中而另一部分设在译码器中。

图7表示可以由图3-6的改变装置完成的示例性操作。

图8表示图7中估算步骤的实例。

图9表示可以采用图3-8改变装置实施例的话音通信系统。

具体实施方式

图3表示按照本发明改变柔和噪声参数的柔和噪声参数改变装置30。在图3的实例中，改变装置30的输入端33接收常规的内插柔和噪声参数，例如从图2中的内插器23输出的频谱和能量参数。改变装置30的输入端31还接收在编码器中经受的与背景噪声有关的频谱和能量参数。改变装置30根据在输入端31接收到的背景噪声参数改变接收到的柔和噪声参数，以便在输出端35产生经改变的柔和噪声参数。然后将改变后的柔和噪声参数送到例如图2中所示用于进行传统柔和噪声合成操作的柔和噪声合成部分25。输出端35得到的经改变的柔和噪声参数允许合成部分25产生的柔和噪声更精确地再现送到语音编码器的实际背景噪声。

图4表示图3所示柔和噪声参数改变装置30的示例性实施例。改变装置30包括与输入端31耦接以便接收背景噪声的频谱和能量参数的可变性估算器41。可变性估算器41估算背景噪声参数的可变性特征，并在输出端43输出表示背景噪声参数可变性的信息。可变性信息可以表示与其平均值有关的参数可变性特征，例如参数的变化，或参数与其平均值的最大偏差。

输出端43的可变性信息还可以表示相关特性，参数与时间的关系，或其它参数与时间之间可变性的量度。例如，时间可变性信息包括简单地测量例如参数变化率(快速或慢速变化)，参数变化，平均值的最大偏差，其它表示参数可变性特征的统计测量，和更超前的例如自相关特性的测量，以及根据参数估算的自回归(AR)预测器的滤波器系数。简单的变化测量率的实例是对过零率进行计数，即，当按参数值的顺序从第一参数值寻找到最后一个参数值时参数变化标记出现的次数。从估算器41的输出端43输出的信息输入到组合器45，该组合器将端出端43的输出信息与在输出端33接收到的内插柔和噪声参数相互组合以便在端口35产生改变的柔和噪声参数。

图5表示图4中可变性估算器41的示例性实施例。图5的估算器包括与输入端31相耦接以便接收背景噪声的频谱和能量参数的平均可变性测定器51。平均可变性测定器51可以测定上述平均可变性特征。例如，如果图3的背景噪声缓冲器37由8帧和32子帧构成，则可以按下述式方分析缓冲的频谱和能量参数的可变性。可以计算缓冲的频谱参数平均值(象在产生SID帧的DTX编码器中通常所做的那样)，并从缓冲的频谱参数值中减去该平均值，从而得出谱偏差值矢量。同样，可以计算缓冲的能量参数的平均子帧值(象在产生SID帧的DTX编码器中通常所做的那样)，并从缓冲的子帧能量参数值中减去所述平均子帧值，从而得出能量偏差值矢量。因此频谱和能量偏差矢量包括需除去的频谱和能量参数平均值。通过通信通道52将频谱和能量偏差矢量从可变性测定器51传送到偏差矢量存储单元55。

系数计算器53也与输入端31相连以便接收背景噪声参数。可以控制示例性系数计算器53根据各频谱和能量参数完成常规的AR估算。通过通信通道54将由AR估算得到的滤波器系数从系数计算器53送到滤波器57。在计算器53中算出的滤波器系数可以确定例如各频谱和能量参数的通用极点滤波器。

在一个实施例中，系数计算器53进行频谱和能量参数的第一级AR估算，按常规形式计算每个参数的滤波器系数a1＝Rxx(1)/Rxx(0)。Rxx(0)和Rxx(1)的值是特定参数的常规自相关值：

Rxx (0) = Σ_{n = 0}^{N \cdot 1} x (n) * x (n)

Rxx (1) = Σ_{n = 0}^{N - 1} x (n) * x (n - 1)

在Rxx计算中，x表示背景噪声(例如，频谱或能量)参数。a1为正值时通常表示参数变化缓慢，而为负值时通常表示快速改变。

按照一个实施例，对于频谱参数的每个帧和能量参数的每个子帧而言，可以例如随机选择(通过存储单元55的选择输入端)从相应的偏差矢量中得到的分量x(k)，并通过采用了相应滤波系数的滤波器57进行滤波。然后通过标定装置59(例如多路转换器)用恒定标定因数对滤波器的输出进行标定。在图5中用xp(k)表示的标定后的输出送入图4中所示组合器45的输入端。

在图5A示意性表示的实施例中，过零率测定器50与31相连以便接收来自缓冲器37的缓冲参数。测定器50测定频谱和能量参数各自的过零率。即，对于在缓冲器37中缓冲的能量参数序列，和在缓冲器37中缓冲的频谱参数序列而言，过零率测定器50测定的是当从缓冲序列中的第一参数值查寻到最后一个参数值时与参数值变化有关的标记在各序例中出现的次数。然后可以在56中用该过零率信息控制图5中的选择信号。

例如，对于给定的偏差矢量而言，如果与参数有关的过零率较高(显示较高的参数可变性)，则可以控制选择信号随机选择相对更频繁(象每帧或每个子帧那样频繁)的偏差矢量分量x(k)，而如果相关的过零率较低(显示较低的参数可变性)，则可以控制选择信号随机选择相对不太频繁(例如不象每帧或每个子帧那样频繁)的偏差矢量分量x(k)。在其它实施例中，将给定的偏差矢量分量x(k)的选择频率设置成预定的理想值。

图4中表示当组合器工作时将标定的输出xp(k)与常规的柔和噪声参数相结合。这种结合对于谱参数而言是在帧基础上进行的，而对于能量参数而言是在子帧基础上进行的。在一个实例中，组合器45可以是一个加法器，其简单地将信号xp(k)加到常规的柔和噪声参数上。因此可以认为图5中的标定输出xp(k)是干扰信号，组合器45可以用该信号对在33接收到的常规柔和噪声参数进行干扰，以便产生可输入到柔和噪声合成部分25(参见图2-4)中的经改变的(干扰的)柔和噪声参数。

传统的柔和噪声合成部分25可以按常规的形式利用干扰的柔和噪声参数。由于常规参数的干扰，产生的柔和噪声将具有半随机可变性，这种半随机可变性明显提高了对例如混串音和街道噪声以及汽车噪声等多变背景的感觉质量。

在一个实例中，干扰信号xp(k)可以用下式表示：

xp(k)＝β_x.(b0_x.x(k)-a1_x.γ_x.(xp(k-1))，

其中β_x是标定因数，b0_x和a1_x是滤波器系数，而γ_x是带宽延伸因数。

图5中的虚线表示的是省略了滤波操作，并且干扰信号xp(k)包括标定的偏差矢量分量的实施例。

在一些实施例中，图3-5的改变装置30完全设在语音译码器内(参见图9)，而在另一些实施例中，图3-5的改变装置配置在语音编码器和语音译码器之间(参见图9中的虚线)。在将改变装置30完全设置在译码器内的实施例中，必须对图3所示的背景噪声参数作为译码器的噪声加以识别。这可以通过在缓冲器37中对经发射通道从编码器接收到的所需量(帧和子帧)的频谱和能量参数进行缓冲而实现。在DTX系统中，当缓冲器37仅包含与背景噪声有关的参数时，可以用通常在译码器中有效的隐含信息进行判定。例如，如果缓冲器37能缓冲N个帧，而且如果在对DTX模式的发射信号进行干扰前的语音段之后使用释放延迟的N个帧(象常规那样)，那么在转换到DTX模式之前的最后N个帧中将仅包含背景噪声的频谱和能量参数。然后可以如上所述通过改变装置30来利用这些背景噪声参数。

在将改变装置30设置在编码器和译码器之间的实施例中，可以将平均可变性测量器51和系数计算器53设在编码器中。这样，这些实施例中的通信通道52和54便与将常规的柔和噪声参数从编码器发送到译码器(参见图1的2)时所用的传统通信通道相似。更确切地说，如图6的实例所示，通道52和54分别通过量化器(同时参见图1)、通信通道(同时参见图1和图2)以及非量化部分(同时参见图2)进入存储单元55和滤波器57(同时参见图5)。针对平均可变性和AR滤波器系数信息可以使用公知的标定值以及AR滤波器系数量化技术。

当利用平均可变性测定器51和系数计算器53可有效处理背景噪声的频谱和能量参数时，编码器可采用公知的传统装置，这是因为通常编码器利用这些相同的频谱和能量参数来产生常规的柔和噪声参数。传统的编码器通常计算多个帧的平均能量和平均频谱，并将这些平均频谱和能量参数作为柔和噪声参数发送到译码器。如图6所示，由于必须通过发射通道将来自系数计算器53的滤波器系数和来自平均可变性测定器51的偏差矢量从编码器发送到译码器，所以当将改变装置配置在编码器和译码器之间时，需要特别大的带宽。相反，当将改变装置完全设置在译码器中时，不需要特别大的带宽来实现此目的。

图7表示可以通过图3-5的改变装置实施例完成的上述示例性操作。首先在步骤71中确定有效频谱和能量参数(例如，在图3的缓冲器37中)是与语音相关还是与背景噪声相关。如果有效参数与背景噪声相关，则在步骤73估算例如平均可变性和时间可变性等背景噪声的特性。随后在步骤75中，根据估算的背景噪声特性对内插的柔和噪声参数进行干扰。步骤75的干扰通常一直持续到在步骤77中检测到背景噪声。如果在步骤77中检测到语音活性(Speechactivity)，则在步骤71中等待其它背景噪声参数的出现。

图8表示在图7所示的估算步骤73期间进行的示例性操作。在步骤81的过程中考虑与上述N个缓冲帧相应的N个帧和kN个子帧。在一个实施例中，N＝8，k＝4。在步骤83中得到具有N个分量的频谱偏差矢量，而在步骤85中得到具有kn个分量的能量偏差矢量。在步骤87中，从每个偏差矢量中选出(例如，随机地)一个分量。在步骤89中，计算滤波器系数，并且同时对选定的矢量分量进行滤波。在步骤88中，标定经滤波的矢量分量进而产生在图7的步骤75中使用的干扰信号。图8中的虚线对应于图5所示实施例(即，省略了滤波的实施例)中的虚线，而且用标定的偏差矢量分量作为干扰参数。

图9表示可以使用图3-8所示柔和噪声参数改变装置实施例的示例性语音通信系统。发射器XMTR包括通过发送通道95与接收器RCVR中的语音译码器93相连的语音编码器91。图9所示发射器和接收器中之一或两者可以是例如无线电话或无线通信系统中其它设施的一部分。通道95可以包括例如无线通信通道。如图9所示，图3-8中的改变装置实施例可以象上述图5和6中所示那样设在译码器中，或是配置在编码器和译码器之间(参见虚线)。

对于本领域的工作人员来说，很显然通过例如适当地改变传统语音编码译码器中的软件、硬件或同时改变两者，可以迅速实现上述图3-9的实施例。

上述本发明改善了背景噪声的逼真度(在一些实施例中没有增加带宽或能源成本)。这使得在语音编码译码器中的语音和非语音模式之间的转换更平滑，因此更能被人耳所接受。

尽管以上详细描述了本发明的示例性实施例，但这并不对本发明的范围构成限制，本发明可以通过各种实施例来实施。

Claims

1.在通过通信通道接收语音和噪声信息的语音译码器中生成柔和噪声的方法，包括：提供由语音译码器使用以生成柔和噪声的多个柔和噪声参数值，其特征在于：

获得表示背景噪声参数可变性的可变信息；

根据可变信息，改变柔和噪声参数值以产生改变的柔和噪声参数值；和

利用改变的柔和噪声参数值生成柔和噪声，其中可变性信息表示背景噪声参数如何相对背景噪声参数的时间和一平均值的至少之一变化。

2.根据权利要求1所述的方法，其中背景噪声参数是频谱参数。

3.根据权利要求1所述的方法，其中背景噪声参数是能量参数。

4.根据权利要求1所述的方法，其中所述获得信息的步骤包括获得表示背景噪声频谱参数和背景噪声能量参数可变性的可变性信息。

5.根据权利要求1所述的方法，其中所述获得信息的步骤包括根据多个背景噪声参数值计算背景噪声参数的平均值，和从每个背景噪声参数值中减去平均值从而产生多个偏差值。

6.根据权利要求5所述的方法，其中所述改变步骤包括随机选择所述偏差值之一，通过标定因数对随机选择的偏差值进行标定以产生标定的偏差值，和将标定的偏差值与柔和噪声参数值之一相组合，从而产生一个改变了的柔和噪声参数值。

7.根据权利要求1所述的方法，其中所述语音译码器设在无线通信装置中。

8.根据权利要求7所述的方法，其中语音译码器设在蜂窝式电话中。

9.根据权利要求1所述的方法，其中所述获得信息的步骤包括语音译码器不依赖通信通道获取可变信息。

10.根据权利要求1所述的方法，其中所述获得信息的步骤包括语音译码器，其通过通信通道从语音编器中接收可变性信息。

11.根据权利要求1所述的方法，其中所述可变性信息包括表示背景噪声参数如何相对于背景噪声参数的平均值发生变化的平均可变性信息。

12.根据权利要求11所述的方法，其中所述信息获得步骤包括使用多个背景噪声参数值计算某个时间周期内的背景噪声参数平均值，并将平均值与至少一些背景噪声参数值进行比较，从而产生需除去的背景噪声参数平均值。

13.根据权利要求12所述的方法，其中所述信息获得步骤包括利用多个背景噪声参数值计算滤波器系数，和根据滤波器系数滤掉至少一些需除去的背景噪声参数平均值。

14.根据权利要求13所述的方法，其中所述最后提及的使用步骤包括计算自回归预测滤波器的滤波器系数。

15.根据权利要求11所述的方法，其中所述的可变性信息包括表示背景噪声参数如何随时间变化的时间可变性信息。

16.根据权利要求1所述的方法，其中所述可变性信息包括表示背景噪声参数如何随时间而变化的时间可变性信息。

17.产生柔和噪声参数的装置，所述参数可用于在从通信通道接收语音和噪声信息的译码器中产生柔和噪声，所述装置包括：第一输入端，其提供多个柔和噪声参数值，这些参数值由语音译码器用来产生柔和噪声；和第二输入端，其提供背景噪声参数；其特征在于还包括：

改变装置，其与所述第一和第二输入端耦接，并根据背景噪声参数的可变性特征改变柔和噪声参数值以产生改变的柔和噪声参数值；和

输出端，其与所述改变装置相耦接，以提供产生柔和噪声所用的经改变的柔和噪声参数值，其中背景噪声参数的可变性特征表示背景噪声参数如何相对背景噪声参数的时间和一平均值的至少之一变化。

18.根据权利要求17所述的装置，其中背景噪声参数是频谱参数。

19.根据权利要求17所述的装置，其中背景噪声参数是能量参数。

20.根据权利要求17所述的装置，其中所述改变装置包括与第二输入端相连并根据背景噪声参数产生所述可变性信息的可变性估算器。

21.根据权利要求20所述的装置，其中所述可变性估算器包括平均可变性测定器，其产生表示背景噪声参数如何相对于背景噪声参数的平均值而变化的平均可变性信息。

22.根据权利要求21所述的装置，其中所述平均可变性测定器设在语音译码器内。

23.根据权利要求21所述的装置，其中所述平均可变性测定器设在能够通过通信通道与语音译码器相连通的语音编码器内。

24.根据权利要求21所述的装置，其中所述平均可变性测定器响应多个背景噪声参数值以计算某个时间周期内的背景噪声参数的平均值，而且可进一步完成将平均值与至少一些背景噪声参数值相比较进而产生需除去的背景噪声参数平均值的操作。

25.根据权利要求24所述的装置，其中所述可变性信息包括表示背景噪声参数如何随时间而变的时间可变性信息。

26.根据权利要求25所述的装置，其中所述可变性估算器包括根据多个背景噪声参数的值计算滤波器系数的系数计算器，所述时间可变性信息包含滤波器系数。

27.根据权利要求26所述的装置，其中所述滤波器系数是自回归预测滤波器的滤波器系数。

28.根据权利要求26所述的装置，包括滤波器，该滤波器耦接到所述系数计算器上以便从所述计算器接收所述滤波器系数，所述滤波器还耦接到所述平均可变性测定器上以便按照所述滤波系数对至少一些需除去的平均背景噪声参数值进行滤波。

29.根据权利要求26所述的装置，其中所述系数计算器设在语音译码器内。

30.根据权利要求26所述的装置，其中所述系数计算器设在能够通过通信通道与语音译码器连通的语音编码器内。

31.根据权利要求20所述的装置，其中所述可变性信息包括表示背景噪声参数如何随时间而变的时间可变性信息。