CN101213591A

CN101213591A - 用于非连续语音传输期间的舒适噪声参数自适应传输的系统和方法

Info

Publication number: CN101213591A
Application number: CNA2006800240812A
Authority: CN
Inventors: S·C·格里尔; P·古奈尔; M·杰利内克
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2005-06-18
Filing date: 2006-06-15
Publication date: 2008-07-02
Anticipated expiration: 2026-06-15
Also published as: ZA200800461B; JP2008546341A; CN101213591B; US7693708B2; US20060293885A1; MY144785A; JP5351206B2; TWI327852B; ES2629727T3; JP2011199875A; WO2006136901A2; CA2609945A1; WO2006136901A3; CA2609945C; EP1897085A2; EP1897085B1; PL1897085T3; HK1117631A1

Abstract

提供了一种装置，其包括至少一个用于在非连续传输模式中传输语音信号的实体，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧。所述实体包括第一实体，用于估计当前噪声值。另外，所述装置包括第二实体，用于根据所估计的当前噪声值选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率。

Description

用于非连续语音传输期间的舒适噪声参数自适应传输的系统和方法

技术领域

本发明的示例性实施方式一般涉及用于非连续语音传输的系统和方法，并且特别涉及用于在非连续语音传输期间自适应地传输舒适噪声参数的系统和方法。

背景技术

非连续传输(DTX)在移动通信系统中被使用来在语音暂停期间关闭无线发射机。DTX的使用节约了移动台中的功率，并延长了再次给电池充电所需的时间。它还降低了一般干扰水平并由此改善了传输质量。然而，在语音暂停期间，如果信道被完全切断，则通常与语音一起传输的背景噪声也就消失了。其结果是在通信的接收端产生不自然的声测(sounding)音频信号(静默)。

代替在语音暂停期间将传输完全关闭，已经开发了多项技术由此产生表征背景噪声的参数并将其在静默描述符(SID)帧中以低速率在空中接口上发送。这些常被称为舒适噪声(CN)参数的参数可被使用在接收端以重新产生背景噪声，所述背景噪声尽可能地反映了传输端侧处的背景噪声的频域和时域内容。舒适噪声参数通常包括语音编码参数的子集：特别是合成滤波器系数和增益参数。

传统上，CN参数在语音暂停期间以固定的速率在空中接口上传输，例如图1中所示，包含这些参数的SID帧在非活动语音周期期间每四个帧传输一次。更特别地，例如在GSM蜂窝通信系统的全速率(FR)和增强FR(EFR)语音信道中，CN参数以每24帧(也即，每480毫秒)一次的速率传输。这意味着CN参数每秒大约只更新两次。另一方面，在自适应多速率(AMR)和宽带AMR(AMR-WB)系统中，CN参数以每8帧(也即，每160毫秒)一次的速率传输，CN参数的更新率是大约每秒6次。这种低传输速率无法准确地体现背景噪声的频域和时域特性，因此在DTX期间不可避免地将出现背景噪声质量的一些下降。然而，提高传输速率降低了语音和CN参数的整体传输速率，从而减小了DTX的益处。

发明内容

由于上述背景，本发明的示例性实施方式提供了用于舒适噪声(CN)参数自适应传输的改进系统和方法，其中舒适噪声参数(CN)例如包含在静默描述符(SID)帧、CN参数消息或类似消息中(在此将这些消息不失一般性地称为SID)。根据本发明的示例性实施方式，SID帧的传输速率可以根据例如当前语音-背景噪声(或者说信号-噪声)比率(SNR)之类的当前噪声值而被调整或者选择性地控制。在这方面，在移动终端的操作过程中，例如语音激活检测器之类的终端实体能够估计当前的SNR值。基于该SNR值，例如非连续传输(DTX)发射机(例如，TX-DTX处理器)之类的移动终端实体继而可以选择性地设置DTX发射机在语音信号的非活动周期期间传输SID帧的速率。例如在高SNR(例如，20dB以上)情况下，TX-DTX可被配置为以较低频率(例如，每50帧)传输SID帧，由此仅以较小的质量下降为代价获得平均数据速率的明显降低。另一方面，在低SNR(例如，20dB或20dB以下)情况下，TX-DTX可被配置为以较高频率(例如，每12帧)传输SID帧，使得舒适噪声保持尽可能的自然。

根据本发明的示例性实施方式的一个方面，提供了一种包括至少一个用于在非连续传输模式中传输语音信号的实体的装置，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数(例如，SID帧)的帧。所述实体包括第一实体(例如，语音激活检测器-VAD)，用于估计当前噪声值。例如，第一实体可以适于根据活动语音的长期能量和背景噪声的长期能量来估计当前信噪比(SNR)或者逆SNR。同样，第一实体例如可以适于根据活动浊音(voiced)语音长期能量和背景噪声长期能量的函数以及应用于该函数的修正因子来估计当前信噪比。

除了第一实体之外，所述装置还包括第二实体(例如，TX-DTX)，用于根据所估计的当前噪声值来选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率。例如，第二实体可以适于通过改变位于对应于第一噪声值的最小值和对应于第二噪声值的最大值之间的比率来选择性地控制速率，其中第二噪声值低于第一噪声值(或者在可选择实例中高于第一噪声值)。第二实体可以适于通过在所估计的当前噪声值，例如所估计的SNR，升高时降低速率并在所估计的当前噪声值下降时提高速率来选择性地控制速率。可选地，在其它实例中，例如当所估计的当前噪声值包含所估计的逆SNR时，第二实体可以适于通过在所估计的当前噪声值升高时提高速率并在所估计的当前噪声值下降时降低速率来选择性地控制速率。

更特别地，第二实体可以适于根据所估计的当前噪声值计算时间间隔(速率的倒数)，使得包括舒适噪声参数的帧在所计算的时间间隔被传输。对于非活动周期期间的帧，第二实体还可以适于确定是否达到了所计算的时间间隔的末端，如果已经达到了所计算的时间间隔的末端，则传输包含舒适噪声参数的帧。否则，如果没有达到所计算的时间间隔的末端，例如如果所检测的背景噪声水平变化超过了最大变化，则第二实体可以适于接收传输包含舒适噪声参数的帧的指引。

根据本发明的其它方面，提供了方法和计算机程序产品。如上文所指出以及下文将阐明的，本发明的示例性实施方式的装置、方法和计算机程序产品能够解决现有技术的问题，并可以提供其它益处。

附图说明

在概括地描述了本发明之后，现在将参考不是必须按照比例绘制的附图，其中：

图1是在语音通信期间的非活动周期期间以固定时间间隔传输的静默描述符(SID)帧的示意性说明；

图2是根据本发明的一种示例性实施方式的包括移动网络、公共交换电话网络和数据网络的通信系统的示意性框图；

图3是根据本发明的一种示例性实施方式的移动终端的示意性框图；

图4是根据本发明的示例性实施方式的根据非连续传输(DTX)技术进行操作的移动终端的功能性框图；以及

图5是说明了根据本发明的一种示例性实施方式的自适应地传输舒适噪声参数的方法中各个步骤的流程图。

具体实施方式

此后将参考附图更为完整地描述本发明，附图中示出了本发明的优选实施方式。然而，本发明可以通过不同的形式得以具体化，在此描述的实施方式不应构成对本发明的限制；提供这些实施方式是使得公开内容充分且完全，并将本发明的范围完全传达给本领域技术人员。相似的数字始终表示相似的元件。

参考图2，提供了根据本发明的示例性实施方式配置的无线通信网络的功能性说明。如图2所示，本发明的示例性实施方式的网络包括移动终端10，例如移动电话。然而，应当理解，这里所说明的以及此后所描述的移动电话仅仅是能够得益于本发明示例性实施方式的一种移动终端类型的示例，因此它不应被用来限制本发明的范围。尽管出于示例的目的说明并将在此后描述移动终端的若干实施方式，但是诸如便携式数字助理(PDA)、寻呼机、跟踪设备、膝上型计算机以及其它类型的声音和文本通信系统之类的其它类型的移动终端也可以容易地应用本发明的示例性实施方式。而且，本发明的示例性实施方式的系统和方法将主要结合移动通信应用进行描述。但是本发明的示例性实施方式的方法和系统可以同移动通信工业中以及移动通信工业外的多种其它应用结合使用。

如图所示，移动终端10包括用于根据多种不同的无线通信技术传输和接收信号的天线变频器12。更特别地，移动终端例如可以包括用于将信号发送给在蜂窝网络、个人通信服务(PCS)网络以及类似网络中的一个或多个网络中的基址或基站(BS)14并从其接收信号的天线变频器。基站是蜂窝网络的一部分，蜂窝网络包括移动交换中心(MSC)16以及其它操作蜂窝网络所需的单元。MSC能够在移动终端进行和接收呼叫时对去往和来自移动终端的呼叫和信息进行路由。MSC还在该终端向蜂窝网络登记时控制去往和来自移动终端的消息的转发，并控制针对移动终端的去往和来自消息中心(未示出)的消息的转发。正如本领域技术人员将会理解的那样，蜂窝网络还可以被称作公共陆地移动网络(PLMN)18。

PLMN 18能够根据多种不同的蜂窝通信技术提供通信。在这方面，PLMN能够根据多种第一代(1G)、第二代(2G)、2.5G和/或第三代(3G)通信技术中的任意技术和/或多种其它能够根据本发明的实施方式操作的蜂窝通信技术中的任意技术进行操作。例如，PLMN可以能够根据GSM(全球移动通信系统)、IS-136(时分多址-TDMA)、IS-95(码分多址-CDMA)、cdma2000或者EDGE(增强数据GSM环境)通信技术进行操作。另外或可选地，PLMN可以能够根据一个或更多例如高速率分组数据(HRPD)通信技术的增强3G无线通信技术进行操作，其中HRPD技术例如包括1XEV-DO(TIA/EIA/IS-856)和/或1XEV-DV。此外，PLMN例如可以能够根据GPRS(通用无线分组业务)、基于GPRS的技术(例如，通用移动通信系统-UTMS)或类似技术进行操作。

MSC 16可以与公共交换电话网络(PSTN)20耦合，并由此使PLMN 18与PSTN 20耦合，而PSTN 20依次与在一个或更典型地多个诸如有线和/或无线电话的多个电路交换固定终端22相耦合。PSTN能够根据多种不同技术中的任意技术提供音频通信。例如，PSTN可以根据例如64Kbps(CCIT)的时分多路复用(TDM)技术和/或例如56Kbps(ANSI)的脉码调制(PCM)技术进行操作。

PLMN 18(通过MSC 16)和PSTN 20可以与例如互联网协议(IP)网络24之类的分组交换网络耦合、电连接或者进行电子通信。尽管PLMN和PSTN可以直接与IP网络耦合，但是在一种实施方式中，PLMN和PSTN通过各自的网关(GTW)26间接地与IP网络耦合。IP网络可以与一个和更多分组交换的固定终端28耦合。另外，IP网络可以与一个或更多无线接入点(AP)30耦合，AP 30可以与例如终端10之类的设备耦合。在这方面，终端可以根据多种不同方式中的任意方式与AP耦合，例如根据诸如无线局域网(WLAN)(例如，IEEE 802.11)、蓝牙和/或超宽带(UWB)技术之类的低功率射频(LPRF)技术。

现在参考图3，描述了将得益于本发明的示例性实施方式的移动终端10的框图。移动终端包括各种用于执行根据本发明示例性实施方式的一个或更多功能的装置，其中包括那些在此特别示出和描述的装置。然而，应当理解，在不背离本发明精神和范围的前提下，移动终端可以包括用于执行一个和更多类似功能的可选装置。更特别地，例如，如图3中所示，移动终端可以包括发射机32，接收机34，以及诸如处理器、控制器36或类似装置的装置，该装置分别将信号提供给发射机并从接收机接收信号。这些信号包括根据可应用的蜂窝系统的空中接口标准的信令信息，以及用户语音和/或用户所产生的数据。在这方面，移动终端可以能够根据一个或更多的空中接口标准、通信协议、调制类型和接入类型进行操作。更特别地，移动终端可以能够根据多种第一代、第二代和/或第三代通信协议或类似协议中的任意协议来进行操作。例如，移动终端可以能够根据第二代(2G)无线通信息协议IS-136(TDMA)、GSM和IS-95(CDMA)以及诸如1XEV-DO和1XEV-DV的第三代协议进行操作。一些窄带AMPS(NAMPS)和TACS移动终端以及双模式或更高模式的电话(例如，数字/模拟或者TDMA/CDMA/模拟电话)也可得益于本发明的教导。

可以理解，控制器36包括用于实现移动终端10的音频和逻辑功能所需的电路。例如，控制器可以包含数字信号处理器设备、微处理器设备以及各种模数转换器、数模转换器和其它支持电路。根据这些设备各自的能力而在它们之间分配移动终端的控制和信号处理功能。控制器因而还包括在调制和传输之前对消息和数据进行卷积编码和交织(interleave)的功能性。此外，控制器可以包括操作一个或更多可以存储在存储器中的软件程序的功能性。

移动终端10还包括用户接口，用户接口包括传统耳机或扬声器38、振铃器40、麦克风42、显示器44和用户输入接口，所有这些用户接口都与控制器36相耦合。允许移动终端接收数据的用户输入接口可以包括多种允许移动终端接收数据的设备中的任意设备，例如小键盘46、触摸屏(未示出)或者其它输入设备。在包含小键盘的实施方式中，小键盘包括传统的数字键(0-9)以及有关的键(#，*)，以及其它用于操作移动电话的键。

移动终端10还可以包括诸如用户标识模块(SIM)48、可移动用户标识模块(R-UIM)或类似模块之类的存储器，其通常存储涉及移动用户的信元。除了SIM之外，移动终端10还可以包括其它存储器。在这方面，移动终端可以包括易失性存储器50，例如包含用于数据临时存储的缓存区域的易失性随机访问存储器(RAM)。移动终端还可以包括可嵌入的和/或可移动的其它非易失性存储器52。非易失性存储器可以另外或可选地包含EEPROM、闪存等。存储器可以存储被移动终端用来实现其功能的任何信息和数据。例如，存储器可以包括例如国际移动设备标识(IMEI)码的标识符，其能够向例如MSC 16唯一地标识移动终端。

移动终端10还可以包括红外收发器54或者其它本地数据传送设备，使得可以例如通过一个或更多AP 30与其它设备共享数据和/或从其它设备处获取数据。数据共享和远程数据共享也可以根据多种不同的技术提供。例如，移动终端可以包括一个或更多射频收发器56，其能够与其它射频收发器共享数据，并从而起到像这里描述的WLAN和/或LAN接口一样的作用。另外，或可选地，移动终端可以使用蓝牙技术联盟(Bluetooth Special Interest Group)所开发的蓝牙商标无线技术对数据进行共享。

现在参考图4，其描述了根据本发明的示例性实施方式的按照非连续传输(DTX)技术进行操作的移动终端10的功能性框图。如图所示，麦克风42将声学声音转换为电信号，该电信号被提供给语音编码器58。语音编码器执行语音编码，将信号编码为较低的速率，其方式例如是产生一个或更多传送给TX-DTX处理器60的语音参数。接着，TX-DTX处理器每次都将语音帧在常规传输模式中转发，而不论麦克风所产生的信号是包含语音还是仅包含背景噪声。语音帧被传输给无线电单元62，其包括收发器以及无线通路所需的其它组件和功能。无线电单元通过无线接口将语音帧作为射频上行链路信号传输给BS 14、AP 30或类似设备。

由BS 14传输的命令可以将移动终端10命令为DTX模式。当移动终端处于DTX模式中时，语音激活检测器(VAD)64分析麦克风42所产生的信号，以便确定麦克风42所产生的信号是包含语音还是仅包含背景噪声。如根据GSM通信技术所定义的，VAD例如更特别地分析麦克风所产生信号的能量和频谱变化。基于其分析，VAD产生VAD标记(flag)，其状态指示了信号是包含语音(VAD＝1)还是仅包含背景噪声(VAD＝0)。当VAD标记被设置时(VAD＝1)，在传输端负责非连续传输的功能，也即TX-DTX处理器60(传输DTX)传输常规语音帧。另一方面，当VAD标记没被设置时(VAD＝0)，TX-DTX传输包含关于背景噪声信息的SID(静默描述符)帧，其中所述背景噪声信息用于在接收端产生舒适噪声(CN)。

当VAD标记的状态从被设置变为没被设置时，也即是当信号中没有检测到语音时，TX-DTX 60从传输由语音编码器58传递的编码语音帧切换为在计算用于背景噪声的参数所需的预定数目的帧之后产生SID帧。由TX-DTX传递给无线电单元62的帧的控制比特中的SP(语音)标记指示了所传输的帧是包含常规语音帧(SP＝1)还是SID帧(SP＝0)。无线电单元62在最后的语音帧之后传输一个SID帧(SP＝0)，在这之后，到无线通路的传输被终止。只要VAD标记没被设置，TX-DTX处理器60就继续向无线电单元产生包含噪声信息的SID帧，而无线电单元则继续将这些帧转发给无线通路以用于更新接收端上的噪声参数。在各种实例中，这些更新噪声参数的SID帧可以被称为舒适噪声更新(CNU)帧。当VAD 64稍后从语音编码器58的参数中检测到语音时，VAD设置VAD标记，以此指引TX-DTX处理器重新开始语音帧(SP＝1)的连续传输。

TX-DTX处理器60通过或者将由语音编码器58所传递的语音帧转换为SID帧，或者应用舒适噪声产生器(CNG)编码器或与移动终端中独立的CNG编码器(未示出)通信，以此来产生代表背景噪声的SID帧来产生表示背景噪声的SID帧。例如，TX-DTX处理器可以选择常规语音参数中那些提供背景噪声水平和频谱信息的参数作为噪声参数。这样的参数中还可以包括对应于多个语音帧的持续时间的平均值。每个语音帧可以包含相应数目的参数，根据这些参数可以计算一般对应于这些语音帧的持续时间的值。这些噪声参数继而可以在SID帧中按照上述方式被传输给无线通路。代替传输在VAD 64检测到语音时被传输的所有参数，这些参数中的一部分可以被替换为包含一个或更多二进制零位的SID码字。其它不必要的参数也可以被编码为零值。

在移动终端10的接收端，无线电单元62接收来自BS 14、AP 30或类似设备的射频下行链路信号(包括下行链路帧)。无线电单元从下行链路信号中分离下行链路帧，并将下行链路帧应用于负责接收端上的非连续传输的RX-DTX处理器64(接收DTX)。在移动终端处于常规传输模式的情况下，RX-DTX处理器将所接收的语音帧转发给语音解码器66，语音解码器66执行所接收参数的语音解码。经过解码的语音信号在扬声器38处被转换为声学信号。在移动终端处于DTX模式的情况下，RX-DTX处理器通常根据下行链路帧是包括常规语音帧还是SID帧而以多种不同的方式处理从无线电单元处接收的帧。在这方面，RX-DTX可以根据帧的SP标记来确定帧的类型。当SP标记被设置时(SP＝1)，RX-DTX将语音帧转发给语音解码器。当SP标记没被设置时(SP＝0)，RX-DTX切换为这样的状态：在该状态中，RX-DTX或者将根据所接收的由SID帧传送的舒适噪声(CN)参数而产生的编码语音帧传递给语音解码器66，或者应用内部CNG解码器或是与移动终端中的独立CNG解码器(未示出)通信，从而将信号直接提供给扬声器38。RX-DTX每次接收到新的SID帧时都可以更新在产生舒适噪声中所使用的参数。语音解码器通过产生将被扬声器转换为与接收端出现的背景噪声相类似的声学背景噪声的信号，以此对包含“噪声”的语音帧进行解码。由此，在DTX模式中避免了对收听者来说很不舒服的由背景噪声所传送的语音和完全静默之间的波动。

通过关于图3和图4对移动终端10的描述，应当理解，移动终端的元件可以由多种不同的装置实现，例如单独的或是在计算机程序产品控制下的硬件和/或固件。一般而言，移动终端继而可以包括一个或更多逻辑元件或实体，用于执行一个或更多客户端应用的各种功能。可以理解，逻辑元件可以按照多种不同方式中的任意方式得以具体化。在这方面，执行移动终端功能的逻辑元件可以在集成电路集合组合中被具体化，集成电路集合包括一个或更多集成电路，所述一个或更多集成电路与移动终端集成在一起或进行通信，或者更特别地，例如与移动移动终端的控制器36集成在一起或进行通信。集成电路的设计基本上是高度自动化的过程。在这方面，复杂且强大的软件工具可用于将逻辑层面的设计转换为可以蚀刻和形成在半导体基底上的半导体电路设计。这些软件工具使用已被很好地建立的设计准则以及巨大的预先存储的设计模块库来自动地路由导体并将组件定位在半导体芯片上。一旦半导体电路设计完成，标准化电子格式(例如，Opus，GDSII等)的合成设计被传输给半导体制造厂商或者说“fab”以用于制造。

正如在背景技术部分中所指出的，在传统DTX技术中，例如如图1所示，包含舒适噪声(CN)参数的SID帧在语音暂停期间以固定的速率在空中接口上传输。然而，在低传输速率情况下，背景噪声的频域和时域特征无法被准确地表示，这会导致背景噪声质量的一些下降。然而，提高传输速率可能降低语音和CN参数的整体传输速率，从而减小了DTX的益处。因此，根据本发明的示例性实施方式，语音暂停期间、语音非活动周期期间以及类似时段中的SID帧的传输速率可以基于例如当前语音-背景噪声(信号-噪声)比率(SNR)的当前噪声值而被选择性地控制。这样，本发明的示例性实施方式能够以较低的信号质量损失来更好地实现降低平均数据速率的益处。

现在参考图5，其示出了根据本发明的一种示例性实施方式的自适应地传输CN参数(不失一般性地描述为在SID帧中被传输)方法中的各个步骤。如方框68所示，在语音传输期间，移动终端10的语音编码器58对麦克风42所产生的信号执行语音编码，而VAD64例如按照上文阐明的方式对这些信号进行分析。同样如上文所阐明的那样，基于信号分析，VAD可以产生VAD标记，使得TX-DTX60在VAD标记被设置(VAD＝1)时传输常规语音帧，如方框74和76所示。然而，当VAD标记没被设置时，TX-DTX传输包含关于背景噪声信息的SID(静默描述符)帧，其中所述背景噪声信息用于在接收端产生舒适噪声(CN)。

为了根据本发明的示例性实施方式传输SID帧，VAD 64(或者另一移动终端实体)可以例如按照多种不同方式中的任意方式来计算或者估计SNR(或者逆SNR)。例如在一种示例性实施方式中，VAD基于活动(浊音和清音)语音的长期能量(LTEac_tive)或者只是活动浊音语音的长期能量(LTE_voiced)以及基于背景噪声的长期能量(LTE_inactive)来估计SNR(例如以分贝表示)。在这样的实例中，VAD可以通过首先例如以多种不同方式中的任意方式估计长期能量来估计SNR，如方框70所示。例如，VAD可以根据被VAD标记为“非活动”(VAD＝0)的帧来估计背景噪声的长期能量。相对地，VAD也可以根据被标记为“活动”(VAD＝1)的帧来估计活动语音的长期能量。可选地，VAD可以仅根据浊音“活动”帧估计活动语音的长期能量。在这种实例中，VAD可以将修正因子应用到这样的浊音帧能量上，以由此获得活动语音的能量。

更特别地，VAD 64(或者其它移动终端实体)例如可以通过直接对属于同一活动类(也即，非活动、活动等)的确定数目帧的能量求平均来估计背景噪声或者活动语音的长期能量。然而，为了考虑这两个信号的水平可能的演化，VAD也可以实施递归方法。对于长期能量的递归估计而言，基于当前帧能量FrameEnergy的典型的估计公式可被表达如下：

对于非活动帧的能量(当前帧为非活动时)；

LTE_inactive＝alpha×LTE_inactive+(1-alpha)×FrameEnergy，(1)以及对于浊音帧的能量(当前帧为浊音时)

LTE_voiced＝alpha×LTE_voiced+(1-alpha)×FrameEnergy， (2)在公式(1)和(2)中，alpha表示通常具有0和1之间的值的遗忘因子，其可以固定的也可以是可变的(例如，基于能量演化)。更特别地，alpha的值例如可以选择为0.99以用于提高噪声水平或降低语音水平(慢适应)，或者选择为0.9以用于降低噪声水平或者提高语音水平(快适应)。

已经估计了活动或者浊音语音的长期能量(LTE_active或者LTE_voiced)以及背景噪声的长期能量(LTE_inactive)后，VAD 64能够基于各自的长期能量计算或者估计当前SNR值，如方框72所示。当VAD估计的是活动语音的长期能量时，VAD例如可以根据以下公式计算当前SNR(以dB表示)：

SNR(n)＝10.0 log₁₀(LTE_active/LTE_inactive) (3)另一方面，当VAD估计的是浊音语音的长期能量时，VAD可以例如根据以下的公式直接将修正因子应用于仅使用浊音帧的长期能量估计的SNR：

SNR(n)＝10.0 log₁₀(LTE_voiced/LTE_inactive)-Delta (4)

在公式(4)中，Delta表示SNR偏斜。Delta SNR偏斜可以按照多种不同方式中的任意方式进行设置，但是在一种示例性实施方式中，Delta被设置为28dB，该值事先通过实验被确定为浊音帧长期能量和活动帧长期能量之间的比率。

在TX-DTX 60在非活动周期(VAD＝0)期间传输SID(静默描述符)帧之前，TX-DTX(或者另一移动终端实体)可以例如通过线性地改变对应于高SNR值(或者低逆SNR值)的最小值和对应于低SNR值(或者高逆SNR值)的最大值之间的比率来使传输SID帧的速率适配当前SNR值。传输SID帧的速率是SID帧传输时间间隔的倒数。在这方面，TX-DTX可以使时间间隔SID_Interval适配当前SNR值，或者说基于当前SNR值计算时间间隔，如方框78所示。根据一种自适应技术，SID_Interval的值例如可以在对应于低SNR值(SNR_LOW)的最小时间间隔值(INT_MIN)和对应于高SNR值(SNR_HIGH)的最大时间间隔值(INT_MAX)之间线性变化。更特别地，例如可以使SID_interval值如下适配当前SNR值：

{SID}_{Interval} = {INT}_{MIN} + \frac{({INT}_{MAX} - {INT}_{MIN}) \times (SNR (n) - {SNR}_{LOW})}{{SNR}_{HIGH} - {SNR}_{LOW}} - - - (6)

其中INT_MIN≤SID_Interval≤INT_MAX。尽管INT_MIN、SNR_LOW、INT_MAX和SNR_HIGH的值可以根据多种不同方式中的任意方式选择，在一种示例性实施方式中，这些值被选择为：

INT_MIN＝12

SNR_LOW＝10dB

INT_MAX＝50

SNR_HIGH＝25dB

不论SID_Interval值究竟如何适配当前SNR值，对于非活动周期期间的帧，TX-DTX60(或者另一移动终端实体)可以基于SID_Interval值确定是在那个时刻传输SID帧还是跳过该帧。更特别地，对于非活动周期期间的帧，TX-DTX例如可以首先确定是否达到了两个连续SID帧之间当前时间间隔的末尾，如方框80所示。在这方面，如果从TX-DTX传输最后的SID帧开始所逝去的帧周期的数目大于或者等于SID_Interval值，则TX-DTX可以传输新的SID帧，如方框88所示。

另外，VAD 64(或者另一移动终端实体)可以执行多个步骤，以便在例如SID时间间隔之间(例如，还没有达到当前SID时间间隔的末端时)检测背景噪声水平的快速和/或重要变化，如方框80所示。更特别地，VAD例如可以根据以下条件检测背景噪声水平的快速和/或重要变化：10.0 log₁₀(FrameEnergy)-10.0log 10(FrameEnergy_LastSID)＞MAX_{ENER_VAR}，(7)其中FrameEnergy_LastSID表示TX-DTX所传输的最后的SID帧的能量。还是在前面的公式中，MAX_{ENER_VAR}表示最大能量变化，其典型值可以是4.0dB。可选地，条件(7)中的能量度量可以例如根据以下的条件(8)被替换为其长期能量的对应度量，以避免在背景噪声的局部化能量突变时更新CNG模型：10.0 log₁₀(LTE_inactive)-10.0 log 10(LTE_inactive_LastSID)＞MAX_{ENER_VAR}，(8)其中LTE_inactive_LastSID代表最后的SID帧的长期能量。接着，如果条件(7)(或者条件(8))被满足，VAD可以指引TX-DTX(接收指引的TX-DTX)传输新的SID帧(参见方框88)。否则，当前的非活动帧被跳过，并且TX-DTX不传输新的SID帧，如方框86所示。

还如所示的，当VAD 64(或者其它移动终端实体)检测到快速和/或重要的变化时，如方框82所示，VAD可以，但不必须，将背景噪声的长期能量重置为当前帧的能量FrameEnergy。而且，在TX-DTX 60被指引传输新SID帧的那些情况下，最后传输的SID帧的能量FrameEnergy_LastSID(对于条件(7))或者LTE_inactive_LastSID(对于条件(8))可以，但不必须，被重置为当前帧的能量FrameEnergy，如方框84所示。

如上文指出的，TX-DTX 60、VAD 64以及其它移动终端实体对编码信号的每个帧执行上述步骤。然而，在这些实体的首次操作之前，VAD和/或TX-DTX所使用的多个内部变量可以被初始化，以用于后续使用。例如，浊音和非活动帧的长期能量LTE_voiced和LTE_inactive都可被初始化为默认值(例如，0)。最后的SID帧的能量FrameEnergy_LastSID(对于条件(7))或者LTE_inactive_LastSID(对于条件(8))可被初始化为默认值(例如，0)。同样，SID时间间隔值SID_Interval可被初始化为默认值(例如，8)。

此外，为了保证在长期能量LTE_voiced和LTE_inactive的测量并因而在SNR的测量中考虑足够的帧，VAD 64可以使用浊音和非活动帧的两个计数器。这些计数器依次被初始化为默认值(例如，0)。接着，在操作过程中，只要估计公式(1)或(2)中的一个被执行，对应的帧计数器就增加1。相应地，VAD可被配置为在两个计数器都达到最小值(例如，50)之前禁止SID时间间隔的适配。

为了验证本发明的示例性实施方式的效率改善，考虑本发明的上述实施方式在3GPP2 VMR-WB(可变速率多模式宽带)语音编码框架中的实现。表格1对传统VMR-WB编码器(“标准DTX”，每8个非活动帧传输1个SID帧)的DTX帧(也即，将不会被TX-DTX60传输的帧)百分比和根据本发明的前述实施方式配置的VMR-WB编码器(“可变DTX”)的DTX帧百分比进行了比较。

VMR-WB	SNR＝20dB	SNR＝10dB	SNR＝0dB
VMR-WB	SNR＝20dB	SNR＝10dB	SNR＝0dB	标准DTX	51.83％	48.95％	7.88％
可变DTX	56.90％	51.75％	8.21％	标准DTX	51.83％	48.95％	7.88％
可变DTX	56.90％	51.75％	8.21％	增益	+5.07％	+2.80％	+0.33％

表格1

可以看出，通过实现本发明的示例性实施方式，TX-DTX可被控制为在非活动周期期间传送较少的帧，并且较少帧的百分比随着SNR的提高而增加。因此，由于在非活动周期期间内所传输的帧的减少与SNR的增加相耦合，本发明的示例性实施方式能够以较低的信号质量损失来进一步降低平均数据速率。

正如参考本发明的示例性实施方式所阐明的，语音暂停、语音非活动周期期间或者类似时段内的SID帧的传输速率可以基于当前SNR而被选择性地控制。然而，应当理解，除了当前SNR之外或者取代于当前SNR，传输速率可以基于多种代表当前噪声值的其它值中的任意一个或多个而被选择性地控制。如上面所建议的那样，SID帧的传输速率例如可以基于当前逆SNR而被选择性地控制。同样，SID帧的传输速率例如可以基于当前噪声值而被选择性地控制，其中当前噪声值可以根据SNR和噪声稳态度量来确定，这对于本领域技术人员而言是公知的。在这种情况下，系统和方法可以如上所述的操作，尽管正如将被理解的，一个或更多上面给出的示例性的值可以被相应地修改。

尽管示出并在上文描述了本发明的一种示例性实施方式，应当理解，在不背离本发明精神和范围的前提下，可以按照多种不同方式中的任意方式分类和/或编码活动和非活动语音和/或产生SID帧。例如，在可选实施方式中，完全的“源编码器”可被置于麦克风42和无线电单元62之间，用于执行语音编码器58、TX-DTX 60(包括CNG编码器)以及VAD 64的功能。在这样的实施方式中，在活动语音期间，对于每个输入语音帧，源编码器将一个帧馈送给无线电单元。另一方面，在非活动部分期间，CNG编码器可以例如按照与上文所述相同的方式基于当前SNR值不时地将一个帧馈送给无线电单元。然而，在这种实施方式中，SNR计算、SID更新速率适配以及发送新SID帧的决定可以全部由CNG编码器完成。

为了进一步理解本发明的示例性实施方式的各个方面，可以参见以下参考文献中的一个或多个，其全部内容因而被引入作为参考：Discontinuous Transmission(DTX)for Enhanced Full Rate(EFR)Speech Traffic Channels，3rd Generation Partnership Project，TechnicalSpecifications Group Services and System Aspects，3GPP TS 46.081，De2004年12月；

C.B.Southcott等人，Voice Control of the Pan-European DigitalMobile Radio System.Global Telecommunications Conference 1989，以及exhibition Communications Technology for the 1990s and Beyond，GLOBECOM′89，IEEE，27-30，1989年11月，页数：1070-1074vol.2；

Adaptive Multi-Rate(AMR)Speech Codec；Source Controlled RateOperation，3rd Generation Partnership Project，Technical SpecificationsGroup Services and System Aspects，3GPP TS 26.093，2003年3月；以及

Adaptive Multi-Rate-Wideband(AMR-WB)Speech Codec；SourceControlled Rate Operation，3rd Generation Partnership Project，Technical Specifications Group Services and System Aspects，3GPP TS26.193，2004年12月。

根据本发明的一个示例性方面，例如移动终端10之类的系统的一个或更多实体所执行的功能可以由各种装置执行，例如包括上文所讨论的那些单独的和/或在计算机程序产品控制下的硬件和/或固件。用于执行本发明示例性实施方式的一个或更多功能的计算机程序产品包括例如非易失性存储介质的计算机可读存储介质，以及在该计算机可读存储介质中具体化的软件，该软件包括例如一系列计算机指令的计算机可读程序代码部分。

在这方面，图5是根据本发明的示例性实施方式的系统、方法以及程序产品的流程图。可以理解，流程图的每个方框或者步骤以及流程图中方框的组合可以由各种装置实现，例如硬件、固件和/或包括一个或更多计算机程序指令的软件。可以理解，任何这样的计算机程序指令都可以被载入到计算机或者其它可编程装置(也即，硬件)上用以产生机器，使得在计算机或者其它可编程装置上运行的指令创建用于执行流程图方框或者步骤中所指定的功能的装置。这些计算机程序指令还可以存储在能够指引计算机或者其它可编程装置按照特定方式工作的计算机可读存储器中，使得存储在计算机可读存储器中的指令产生包括指令装置的制品，其中指令装置实现流程图方框或者步骤中所指定的功能。计算机程序指令还可以被载入到计算机或者其它可编程装置上，使得一系列操作步骤在计算机或者其它可编程装置上被执行，用以产生计算机可实现的过程，以便使计算机或者其它可编程装置上执行的指令提供用于实现流程图方框或者步骤中所指定的功能的步骤。

相应地，流程图的方框或者步骤支持用于执行特定功能的装置的组合，用于执行特定功能的步骤的组合，以及用于执行特定功能的程序指令装置的组合。还可以理解，流程图的一个或更多方框或者步骤以及流程图中方框或者步骤的组合可以通过执行特定功能或者步骤的基于专用硬件的计算机系统实现，或者通过专用硬件和计算机指令的组合实现。

基于上述参考附图的描述，应当显而易见的是，本发明的一些示例涉及一种能够自适应地传输舒适噪声(CN)参数的系统。本发明的示例还涉及一种自适应地传输舒适噪声(CN)参数的方法，其中所述方法包括以下步骤：(1)执行包括至少一个活动周期和至少一个非活动周期的非连续传输，其中执行非连续传输包括在至少一个非活动周期期间的至少一个时刻传输至少一个噪声参数集；(2)估计当前噪声值；以及(3)基于当前噪声值计算时间间隔，其中噪声参数集按照所计算的时间间隔传输。

本领域技术人员将想到很多本发明的修改和其它实施方式，本发明对于它们同样具有上文说明以及相关附图中所给出的教导的益处。因此，应当理解，本发明不局限于所公开的特定实施方式，修改和其它实施方式也意在被包括在所附权利要求书的范围之内。尽管在这里使用了特定的术语，但它们只在一般的和描述性的意义上被使用，而不是出于限制的目的。

Claims

1.一种装置，包括：

至少一个用于在非连续传输模式中传输语音信号的实体，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧，所述至少一个实体包括：

第一实体，用于估计当前噪声值；以及

第二实体，用于根据所估计的当前噪声值来选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率。

2.根据权利要求1中所述的装置，其中所述当前噪声值包括当前信噪比，并且其中所述第一实体适于根据活动语音的长期能量以及背景噪声的长期能量来估计所述当前信噪比。

3.根据权利要求1中所述的装置，其中所述当前噪声值包括当前信噪比，并且其中所述第一实体适于根据活动浊音语音长期能量和背景噪声长期能量的函数以及根据应用于所述函数的修正因子来估计所述当前信噪比。

4.根据权利要求1中所述的装置，其中所述第二实体适于通过在所述所估计的当前噪声值升高时降低速率并在所述所估计的当前噪声值下降时提高速率来选择性地控制速率。

5.根据权利要求1中所述的装置，其中所述第二实体适于通过在所述所估计的当前噪声值升高时提高速率并在所述所估计的当前噪声值下降时降低速率来选择性地控制速率。

6.根据权利要求1中所述的装置，其中所述第二实体适于通过改变位于对应于第一噪声值的最小值和对应于第二噪声值的最大值之间的比率来选择性地控制速率，其中所述第二噪声值低于所述第一噪声值。

7.根据权利要求1中所述的装置，其中所述第二实体适于根据所述所估计的当前噪声值计算时间间隔，包含舒适噪声参数的帧以所计算的时间间隔处被传输，并且其中，对于非活动周期期间的帧：

所述第二实体还适于确定是否达到了所计算的时间间隔的末端，如果已经达到了所计算的时间间隔的末端，则传输包含舒适噪声参数的帧，或者，如果没有达到所计算的时间间隔的末端，则接收传输包含舒适噪声参数的帧的指引。

8.根据权利要求7中所述的装置，其中所述第二实体适于在所检测的背景噪声水平变化超过了最大变化的条件下接收传输包括舒适噪声参数的帧的指引。

9.一种装置，包括：

至少一个用于在非连续传输模式中传输语音信号的装置，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧，所述至少一个装置包括：

第一装置，用于估计当前噪声值；以及

第二装置，用于根据所估计的当前噪声值选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率。

10.一种移动终端，包括：

用于在非连续传输模式中传输语音信号的处理器，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧，

其中所述处理器适于估计语音信号的当前噪声值，以及根据所估计的当前噪声值来选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率。

11.根据权利要求10中所述的移动终端，其中所述当前噪声值包括当前信噪比，并且其中所述处理器适于根据活动语音的长期能量以及根据背景噪声的长期能量来估计所述当前信噪比。

12.根据权利要求10中所述的移动终端，其中所述处理器适于通过在所述所估计的当前噪声值升高时降低速率并在所述所估计的当前噪声值下降时提高速率来选择性地控制速率。

13.根据权利要求10中所述的移动终端，其中所述处理器适于通过在所述所估计的当前噪声值升高时提高速率并在所述所估计的当前噪声值下降时降低速率来选择性地控制速率。

14.根据权利要求10中所述的移动终端，其中所述处理器适于通过改变位于对应于第一噪声值的最小值和对应于第二噪声值的最大值之间的比率来选择性地控制速率，其中所述第二噪声值低于所述第一噪声值。

15.一种发射机，包括：

至少一个用于在语音传输期间传输语音帧的实体，所述至少一个实体适于传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧，

其中所述至少一个实体适于在语音暂停周期期间按照被选择性控制的速率传输包含舒适噪声参数的帧，所述至少一个实体适于根据所估计的当前噪声值在语音传输期间的一个和更多时刻选择性地控制速率。

16.根据权利要求15中所述的发射机，其中所述当前噪声值包括当前信噪比，并且其中，控制速率所依据的所述当前信噪比是根据活动语音的长期能量以及根据背景噪声的长期能量而被估计的。

17.根据权利要求15中所述的发射机，其中所述当前噪声值包括当前信噪比，并且其中，控制速率所依据的所述当前信噪比是根据活动浊音语音长期能量和背景噪声长期能量的函数以及根据应用于所述函数的修正因子而被估计的。

18.根据权利要求15中所述的发射机，其中所述至少一个实体适于按照被选择性控制的速率传输包含舒适噪声参数的帧，所述选择性控制是通过在所述所估计的当前噪声值升高时降低速率并在所述所估计的当前噪声值下降时提高速率。

19.根据权利要求15中所述的发射机，其中所述至少一个实体适于按照被选择性控制的速率传输包含舒适噪声参数的帧，所述选择性控制是通过在所述所估计的当前噪声值升高时提高速率并在所述所估计的当前噪声值下降时降低速率。

20.根据权利要求15中所述的发射机，其中所述至少一个实体适于按照被选择性控制的速率传输包含舒适噪声参数的帧，所述选择性控制是通过改变位于对应于第一噪声值的最小值和对应于第二噪声值的最大值之间的比率，其中所述第二噪声值低于所述第一噪声值。

21.一种用于传输语音信号的方法，包括：

在非连续传输模式中传输语音信号，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧；以及在语音传输期间的一个或更多时刻，

估计当前噪声值；以及

根据所估计的当前噪声值来选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率。

22.根据权利要求21中所述的方法，其中估计所述当前噪声值包括估计当前信噪比。

23.根据权利要求22中所述的方法，其中估计所述当前信噪比包括根据活动语音的长期能量以及根据背景噪声的长期能量来估计所述当前信噪比。

24.根据权利要求22中所述的方法，其中估计所述当前信噪比包括根据活动浊音语音长期能量和背景噪声长期能量的函数来估计所述当前信噪比。

25.根据权利要求24中所述的方法，其中估计所述当前信噪比还包括将修正因子应用于所述函数。

26.根据权利要求21中所述的方法，其中选择性地控制速率包括在所述所估计的当前噪声值升高时降低速率，以及包括在所述所估计的当前噪声值下降时提高速率。

27.根据权利要求21中所述的方法，其中选择性地控制速率包括在所述所估计的当前噪声值升高时提高速率并包括在所述所估计的当前噪声值下降时降低速率。

28.根据权利要求21中所述的方法，其中选择性地控制速率包括改变对应于第一噪声值的最小值和对应于第二噪声值的最大值之间的比率，其中所述第二噪声值低于所述第一噪声值。

29.根据权利要求21中所述的方法，其中选择性控制速率包括根据所述所估计的当前噪声值计算时间间隔，包含舒适噪声参数的帧以所计算的时间间隔被传输，并且其中，对于非活动周期期间的帧，所述方法包括：

确定是否达到了所计算的时间间隔的末端；以及

如果已经达到了所计算的时间间隔的末端，则指引传输包含舒适噪声参数的帧；或者

如果没有达到所计算的时间间隔的末端，则接收传输包含舒适噪声参数的帧的指引。

30.根据权利要求29中所述的方法，其中接收指引包括基于所检测的背景噪声水平变化而接收传输包含舒适噪声参数的帧的指引，所述背景噪声水平变化根据当前帧的能量与最后传输的包含舒适噪声参数的帧的能量之间的对数差被检测。

31.根据权利要求29中所述的方法，其中接收指引包括基于所检测的背景噪声水平变化而接收传输包含舒适噪声参数的帧的指引，所述背景噪声水平变化根据背景噪声长期能量与最后传输的包含舒适噪声参数的帧的长期能量之间的对数差被检测。

32.根据权利要求29中所述的方法，其中接收指引包括在所检测的背景噪声水平变化超过了最大变化的条件下接收传输包括舒适噪声参数的帧的指引。

33.一种包括其上存储有计算机可读程序代码部分的计算机可读存储介质的计算机程序产品，所述计算机可读程序部分包括：

至少一个用于在非连续传输模式中传输语音信号的可执行部分，所述传输包括传输语音帧并间或在语音暂停周期期间传输包含舒适噪声参数的帧，所述至少一个可执行部分包括：

第一可执行部分，用于估计语音信号的当前噪声值；以及

第二可执行部分，用于选择性地控制在语音暂停周期期间传输包含舒适噪声参数的帧的速率，所述第二可执行部分适于根据所述所估计的当前噪声值选择性地控制速率。

34.根据权利要求33中所述的计算机程序产品，其中所述第二可执行部分适于估计当前信噪比，所述当前信噪比根据活动语音的长期能量以及根据背景噪声的长期能量而被估计。

35.根据权利要求33中所述的计算机程序产品，其中所述第二可执行部分适于在所述所估计的当前噪声值升高时降低速率，并且在所述所估计的当前噪声值下降时提高速率。

36.根据权利要求33中所述的计算机程序产品，其中所述第二可执行部分适于在所述所估计的当前噪声值升高时提高速率，并且在所述所估计的当前噪声值下降时降低速率。

37.根据权利要求33中所述的计算机程序产品，其中所述第二可执行部分适于改变位于对应于第一噪声值的最小值和对应于第二噪声值的最大值之间的比率，其中所述第二噪声值低于所述第一噪声值。