CN101305417A

CN101305417A - 移动电信网络中的方法和装置

Info

Publication number: CN101305417A
Application number: CNA2005800519987A
Authority: CN
Inventors: T·弗兰基拉; I·约翰逊
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2005-11-07
Filing date: 2005-11-07
Publication date: 2008-11-12
Anticipated expiration: 2025-11-07
Also published as: JP4673411B2; US7864814B2; CN101305417B; JP2009510855A; EP1946293A1; WO2007051495A1; US20080285599A1

Abstract

本发明涉及对于接收器优选的控制逻辑部件。所述接收器包括：抖动缓冲器部件，适合于接收并缓冲入局帧或数据包并且从所接收的数据包中提取数据帧；连接到抖动缓冲器部件的解码器，适合于对所提取的数据帧进行解码；连接到解码器的时间缩放部件，适合于自适应地播放经解码的语音帧。根据本发明的控制逻辑部件包括：关于状态恢复功能是否可用的知识，以及所述控制逻辑部件适合于从抖动缓冲器部件、时间缩放部件和解码器这三者中的至少一个检索至少一个参数，来执行以下操作中的至少一个：基于来自抖动缓冲器部件的至少一个参数和状态恢复功能的可用性的知识而自适应地控制所述抖动缓冲器部件的初始缓冲时间，以及基于来自时间缩放部件或解码器的至少一个所检索的参数和状态恢复功能的可用性的知识而自适应地控制所述时间缩放部件时间缩放量。

Description

移动电信网络中的方法和装置

技术领域

本发明一般涉及适用于声音信号传输的基于数据包的通信系统，特别是涉及用在这样的通信系统中的缓冲技术。

背景技术

IP语音技术是在电信和数据通信世界之间的融合，其中通过数据包(例如，网际协议(IP)数据包)来携带语音信号。已记录的语音通过语音解码器逐帧解码。对各个语音帧产生数据帧。一个或多个数据帧被打包成RTP数据包。RTP数据包被进一步打包成UDP数据包，并且UDP数据包被打包成IP数据包。然后使用IP网络将IP数据包从发送客户机传输到接收客户机。

与基于数据包的网络相关联的问题是延迟抖动。延迟抖动意味着即使以规则间隔来传输数据包，例如，每20ms一帧，数据包仍会不规则地到达接收器。数据包甚至会乱顺地到达。乱顺序地接收数据包最常见的原因是因为数据包在不同的路径上行进，至少对于固定的网络来所是这样。对于无线网络，另一个原因可能是使用重传。例如：当在上行链路上(即，从移动终端到基站)发送数据包N时，可能有不能被修正的位错误而不得不执行重传。然而，用于重传的信令可能很慢以至于在重传数据包N之前，队列中的下一个数据包(数据包N+1)被发送。如果在正确接收重传的数据包N之前正确地接收到数据包N+1，则这可能导致乱序地接收数据包。

在VoIP客户机中，抖动缓冲器部件用于补偿在传输中的延迟抖动，使得可按恒定的采样速率来播放语音样本，例如，每20ms一帧(本说明书中的“播放”用于表示语音到声卡的传输)。抖动缓冲器部件的丰满度水平是与数据包流中的延迟抖动的量成比例的，目的是将最新损失的量保持在可接受的水平同时保持延迟尽可能地低。以下的例子解释了保持延迟尽可能地低的重要性：抖动缓冲器部件中的长缓冲时间增加了端到端的延迟。这降低了感知的对话质量，因为系统将被感知为“慢”。长延迟增加了用户在同一时间讲话的风险并且还可能产生其他的用户“慢”(缓慢地思考)这样的印象。另外，最新的损失是适当地接收但是到达太晚而不能对解码器有用的数据包。

抖动缓冲器部件存储某个时间的数据包或帧。对这种情况进行定义的通常方式是抖动缓冲器部件被填充到一定的“水平”，表示为丰满度水平。这个水平通常以毫秒测量，而不是以帧的数量来测量，因为帧的大小可能变化。因此，抖动缓冲器部件水平以时间来测量。抖动缓冲器部件的水平可按许多不同的方式来设置。

固定大小：固定大小意味着抖动缓冲器丰满度水平是固定且预定。在DTX阶段之后，在语音播放恢复前，抖动缓冲器部件最初以固定时间、如固定数量的帧(如5帧)来填充。这个初始储备用于提供保护以避免延迟抖动和最新损失。

自适应抖动缓冲器部件大小：抖动缓冲器的丰满度水平随延迟抖动而变化。与固定大小的抖动缓冲器充满水平的情况类似，初始数量的帧在DTX阶段后语音播放恢复之前被缓冲。然而，在主动语音(非-DTX)阶段中，基于对入局数据包的分析，抖动缓冲器部件的丰满度水平可能变化。有可能收集对若干话音突峰的统计数据。然而，通常在每个语音开始时，将抖动缓冲器的丰满度水平重新设置为“缺省水平”。

具有改进的交互性的自适应抖动缓冲器部件的大小：为了降低感知到的延迟，有可能以比自适应抖动缓冲器部件的大小的情况更短的时间来初始化抖动缓冲器部件，并且在DTX后一接收到第一个语音数据包就开始语音播放。为了达到抖动缓冲器丰满度水平，使用时间缩放来伸展初始解码的帧，使得以降低的速度从抖动缓冲器部件提取数据包。时间缩放意味着自适应地播放语音帧，即，通常包含20兆秒语音的语音帧可以被伸展并生成30兆秒的语音。第一个接收的数据包后开始播放的备选方式的是等候一个或两个额外的数据包。WO-200118790A1和US2004/0156397A1描述了时间缩放。

DTX是不连续的传输并且意味着当没有出现语音且输入信号仅包含(背景)噪声时，在信道上传输特殊类型的信息。编码器评估背景噪声并确定描述该噪声的一组参数(＝寂静描述，SID，参数)。SID参数被传输给接收端使得可以生成类似的噪声，舒适的噪声。SID参数以比常规的语音帧更低的频率传输以便节省功率和传输资源。

现在来看图1，图1示出了根据具有改进的交互性的自适应抖动缓冲器部件大小方法的初始抖动缓冲器部件操作的示例。上部的标绘图示出了抖动缓冲器的丰满度水平，而下部的标绘图示出了帧的大小。一旦在大约0.5秒接收到第一个数据包，就开始播放。执行时间缩放以增加生成帧的大小并由此以比常规的速度更慢的速度消耗来自抖动缓冲器部件的帧。播放提早开始产生改进的交互性的感觉，这可以增加感知到的对话质量。在话音突峰的结尾，在大约3秒，最后一个语音帧被缩短并且以比常规的速度更快的速度播放。这提供了进一步改进的交互性。

注意，在非-DTX阶段中，目标抖动缓冲器部件水平(60ms)的自适应没有显示在图1中，然而这个功能性将存在于具有改进的交互性的自适应抖动缓冲器部件大小的典型实现中。

然而上述的三个方法存在若干缺点。由于许多数据包在播放开始之前总是被缓冲，因此固定的抖动缓冲器部件大小产生相当长的延迟。这降低了感知到的交互性。

自适应抖动缓冲器部件可以调节丰满度水平以便至少在信道正缓慢地变化的情况下引入较小的平均延迟。由于长的初始缓冲时间，交互性差的问题仍然存在，因为自适应的目的是在DTX阶段后当流发动时，在主动语音期间于正在进行的数据包流内进行适应。应当注意，如果在每个语音开始时(即，在从DTX转换到语音时)抖动缓冲器丰满度水平被重新设置到缺省水平，会出现这个问题。

当使用具有改进的交互性自适应抖动缓冲器部件大小时，因为感知到的初始延迟会更低，所以抖动缓冲器部件初始化会改进交互性。然而一个问题是，在语音突发开始时抖动缓冲器部件水平非常低，因此存在语音突发开始的延迟抖动导致最新损失这样的风险。与帧丢失类似，由于错误隐藏对于丢失的或晚接收的帧而激活，因此最新损失将降低语音质量。

另外，具有改进的交互性的自适应抖动缓冲器部件大小的方法还意味着时间缩放(用以将缓冲器水平上调到常规的丰满度水平)必须非常快地进行，因为自适应阶段必须短到足以避免被多个延迟尖峰击中。延迟尖峰是当延迟从第一个数据包直接增加到后续数据包时的情况。这意味着时间缩放必须非常迅速(aggressive)。迅速的时间缩放增加了时间缩放本身引起失真的风险。失真可以是不同种类的，滴答，扑通，噪声突发，但还也可以是“滑稽的响亮声音”，例如“不自然的谈话量”。

对于大部分使用帧间预测以便能够在较低比特速率上但以被维持的质量对信号进行编码的现代语音编解码器(GSM-EFR，GSM-AMR，ITU-T G.729，EVRC，等等)，还存在另外的问题。帧丢失和最新损失都将对当前帧以及还对后续帧产生失真，因为由于交互-帧预测的一段时间的错误传播。错误传播时间取决于声音和编解码器，但是可能有5-6帧(100-120ms)那么长。在语音突发开始时最新损失尤其关键，因为这些部分通常包含有声的开始，有声的开始稍后由自适应密本用来构建有声的波形。因此在语音突发开始时最新损失的结果通常能听得到并且能够相当大地降低可识度。

有几个方法补偿如果在构建时间中发生最新损失则会发生的错误传播，但是这些方法都有明显的缺点。一个可能性是降低初始缓冲时间，但达不到在最优情况下可能达到的降低量。这当然会意味着不可能在交互性方面受益那么多，正如所预期的那样。

另一个可能性是降低用在编解码器中的交互-帧预报的量。然而，这会导致降低的固有语音质量，因为没有将交互-帧相关性开发到其全部潜力，或要求在更高比特速率上编码信号，或两者。

由于具有改进的交互性的自适应抖动缓冲器部件大小的方法的缺点，该方法很难用在真实的系统中。对于包含非常少的抖动以及优选还包含少的数据包丢失的信道，该方法可以很好地工作；但是对于包含大量抖动以及还可能产生数据包丢失的信道，很难得到在改进的交互性方面的全部增益。对于大部分的实际情况，优选地，在播放开始之前具有少量帧的初始化的时间。

发明内容

本发明的目的是获得改进交互性和/或语音(收听)质量的控制逻辑部件。

上述目的是通过根据独立权利要求的控制逻辑部件和方法实现的。优选实施例通过附属权利要求来定义。

本发明基于自适应地控制初始缓冲时间和时间缩放量这两者中的至少一个来改进交互性和/或语音和收听质量的可能性。

这通过引入控制逻辑部件来实现，该控制逻辑部件适合于从抖动缓冲器部件、解码器、时间缩放部件以及状态恢复部件这些部件中的至少一个检索信息，该控制逻辑部件还适合于基于检索的信息来自适应地控制初始缓冲时间和时间缩放量这两者中的至少一个。

由于控制逻辑部件的引入，有可能结合初始缓冲时间来提高状态恢复部件的优势。状态恢复使得在初始抖动缓冲器部件的构建阶段中接收器对最新损失的灵敏度更小。因此有可能具有非常短的初始化时间，通过具有迅速的时间缩放。这甚至比采用具有改进的交互性的自适应抖动缓冲器部件大小的方法所可能产生的更多地改进交互性。

因为通过状态恢复来增加对最新损失的鲁棒性，所以还可以允许较长的抖动缓冲器部件构建阶段。因此可能进行较不迅速的时间缩放。这可能是有利的，因为在合成的语音中，时间缩放可引入失真，这是由于对于不同声音，时间缩放的性能是不同的。

因为控制逻辑部件能够以不同的方式对初始缓冲时间、状态恢复和时间缩放进行结合，所以这些变量之间的自适应可以改进性能。自适应可基于当前信道条件或声音信号这两者之一或两者。

时间缩放和状态恢复的使用导致增加的复杂度，并且因此导致更高的中央处理器(CPU)负载。本发明的另一优势在于：能够通过控制参数设置和状态恢复的启用/禁用来控制复杂度。这通过检索关于CPU负载的信息并控制参数设置或状态恢复部件的启用/禁用的控制逻辑部件来实现。针对CPU负载的检索信息可与时间缩放操作和/或状态恢复操作相关联。

由于改进的交互性提供了较低的感知延迟，因此改进了收听质量，以及由于修补了因时间缩放的迅速使用而造成的可能的最新损失，因此状态回复改进了所述质量。

另一个优势是控制逻辑部件考虑到适应不同的操作条件，例如在仅具有偶然的延迟尖峰和短延迟的办公室LAN中的好的信道条件，或在具有大的抖动以及还可能具有数据包丢失和长延迟的重负载的蜂窝网络中的差的信道条件。

附图说明

本发明的目的和优点将通过阅读该结合附图的描述而变得显而易见，其中：

图1是示出时间缩放功能性操作的曲线图。

图2示出根据本发明的在接收器中的控制逻辑部件。

图3是说明利用状态恢复的改进的性能的曲线图。

图4-6示出根据本发明的改进的抖动缓冲器部件构建的功能性。

具体实施方式

将参考附图在下文中对本发明进行更加充分地描述，附图中示出了本发明的优选实施例。然而，本发明可以以许多不同的形式来体现并且不应当解释为限于本文阐述的实施例；而是，提供这些具体实施例以使本公开更加充分和完整，并且将本发明的范围充分地传达给本领域的技术人员。

图2示出IP语音客户机的接收器的概况。应当注意到本发明同样可以适用于通过ATM而不是IP和其它发生延迟抖动的系统的语音。接收器包括连接到解码器的抖动缓冲器部件，并且解码器还连接到时间缩放部件。与错误隐藏(ECU)部件有关的状态恢复部件可连接到抖动缓冲器部件和解码器。接收器经由抖动缓冲器部件接收数据包。数据包被解包，因为数据包可以包含几个语音数据帧的数据，如果是这样的话，这在数据包的有效负载报头中表明。因此抖动缓冲器部件适合于从数据包中提取数据帧。由于数据帧可以因为延迟抖动而重新排序，抖动缓冲器部件将帧按次序放置。可能从抖动缓冲器部件获得关于最新损失、帧丢失和当前抖动缓冲器部件水平的信息。应当注意到数据帧的提取也可以在另一部件中执行以及抖动缓冲器部件然后接收数据帧。

解码器将数据帧解码成语音帧，即，解码成声音信号。对于在AMR 12.2kbps模式的情况，其中数据帧是244比特，它们被解码成160个16-比特字样本(语音帧)中。

时间缩放部件具有压缩或扩大来自解码器的经解码的语音帧的大小的能力，例如来自语音解码器的160个样本可以被扩大到240个样本或压缩到80个样本或被扩大/压缩到其它某个帧大小。时间缩放部件提供关于完成的压缩或扩大的信息。对不同的声音信号有差别地执行时间缩放。一些声音信号很容易及时缩放并且然后时间缩放不会引入失真或引入很少失真。这样的声音例子是固定的语音片段、非语音片段以及背景噪声。其它的声音信号很难及时缩放并且然后时间缩放可能会引入完全可听见的失真。难以测量的声音的例子是瞬变音(从非语音过渡到语音)，爆破音(″t″，″p″，″b″，等等)，语音开始(从背景噪声(DTX)过渡到语音)。因此，需要从语音解码器或时间缩放功能部件检索信息，以便能够判定时间缩放应当多迅速。描述声音性质或信道特征，并且需要单独或结合检索以适应初始缓冲时间或时间缩放量的不同的参数或测量值的其它例子是自适应密本(ACB)增益、固定的密本(FCB)增益、LTP/ACB滞后测量值和特征、LSP系数特征、频谱平坦度测量值(spectral flatness measure)、频谱变化、能量测量值和变化。

在专利申请WO 01/93516和专利US 6873954中描述了可以用在本发明中的执行时间缩放的不同方法的例子。应当注意上述的时间缩放部件同样可以位于发射机中，并且可以因此在编码操作前执行时间缩放。如果在发射机中执行了时间缩放，则必须在编码器和解码器之间交换一些信息。

解码部件和时间缩放部件还可以集成到一个单元中。在这样的集成单元中，在综合型滤波器之前通过激励来执行时间缩放，并且然后将综合型滤波器应用到比常规情况更多的或更少的样本上。

时间缩放部件还连接到样本缓冲器。时间缩放的帧被转移到样本缓冲器中。只要样本缓冲被填充到预定的阈值水平，一个或多个样本(其中帧是多个连续样本)就从样本缓冲器发送到扬声器的声卡。如果样本缓冲器没有填满，则还请求进一步的解码操作。因此，时间缩放的引入是可行的。

根据本发明，引入控制逻辑部件来检索信息，例如关于现有状态恢复功能、信道特征、声音性质、所引发的失真(在时间缩放之前和之后的失真对比)以及所实现的时间缩放的知识。有关现有状态恢复功能的信息可以在控制逻辑部件中预先设定，或者有关状态恢复部件的启用/禁用的信息可以从状态恢复部件获取。信道特征可以从抖动缓冲器部件获取，声音性质和失真信息可以从解码器获取，失真信息和所实现的时间缩放可以从时间缩放部件获取。因此，要求控制逻辑部件具有关于状态恢复功能是否可用的知识，以及控制逻辑部件适合于从抖动缓冲器部件、状态恢复部件、解码器和时间缩放部件这四者中的至少一个检索信息。控制逻辑部件还可以用于控制抖动缓冲器丰满度水平。

控制逻辑部件然后适合于执行以下操作的至少一个：基于从抖动缓冲器部件检索的信息、状态恢复功能的可用性的知识来自适应地控制抖动缓冲器部件的初始缓冲时间；以及基于来自时间缩放部件或解码器的检索信息结合状态恢复功能的可用性的知识来自适应地控制时间缩放部件的时间缩放设置。控制逻辑部件优选地适于执行按每个帧的该控制。

状态恢复部件提供了状态恢复功能。状态恢复功能修补最新损失并改进纯错误隐藏。在6721327B1号美国专利中描述了该功能。

当帧没有被接收时，不管是因为帧丢失或是帧没有被及时接收(即，接收的太晚)，错误隐藏部件都将被激活以试图隐藏该错误。然而，通过使用错误隐藏，提供了后续帧的错误的启动状态。已接收的但是没有及时用于合成的帧在后续帧被解码和合成前，仍然可用于修正帧边界状态。这根据状态恢复方法通过使用回复到最新损失之前的解码器状态来执行附加的解码而完成。使用正确接收的参数来完成解码，从而产生修正的解码器状态。来自附加解码的音频样本由于太晚不能被播放而被丢弃。错误隐藏的帧之后的状态由来自附加解码的状态替代或与来自附加解码的状态结合以产生更适合于后续帧的改进的状态。这导致错误传播时间的降低。

即使发生多个连续的最新损失，状态恢复仍然改进性能。然而，由于解码复杂度约束，在实现中优选使用状态恢复来只处理单个或非常少的没有导致解码器复杂度过载(转而导致CPU过载)的最新损失。图3示出了状态恢复提供的优点。图3的上部曲线图公开了未失真的波形，中间的波形由于最新损失而失真，以及下部的波形由于最新损失而失真但是由状态恢复进行了修补。应当注意到由于包含时间缩放，波形和定时略有不同。从而可以看到中间曲线图中的语音在经过较长的时段之后被削弱且是失真的，这导致差的语音质量。因此，通过使系统对于最新损失更稳健，状态恢复改进了性能，但是由于所需的附加解码而增加了解码复杂度。

本发明的方法和装置改进了在抖动缓冲器部件构建阶段中所感知的语音质量。在图4至6中描述了改进的抖动缓冲器部件构建阶段。

在图4至6中的图显示了纵轴上的抖动缓冲器部件水平和横轴上的时间。指出了初始缓冲时间，构建时间和丰满度水平。初始缓冲时间是帧被进一步转移到解码器之前的时间(或在缓冲中接收帧的大小)，以及构建时间是达到抖动缓冲器丰满度水平的所需的时间。在图4中，虚线显示了使用改进的交互性的缓冲方法的抖动缓冲器丰满度水平。实线显示了使用根据本发明的方法的抖动缓冲器丰满度水平，其中控制逻辑部件控制初始缓冲时间和影响构建时间的时间缩放量。这个控制基于在构建时间期间以及状态恢复的存在下的最新损失概率。

因为状态恢复使得接收器对于最新损失更稳健，所以状态恢复实现了进一步降低初始缓冲时间。根据本发明的控制逻辑部件基于状态恢复的存在/不存在，实现降低初始缓冲时间的自适应。由于有可能更进一步降低初始缓冲时间，因此所感知的交互性相比于现有技术中实现的，得到了进一步改进。

时间缩放工作得如何，取决于上文描述的经解码的语音帧的声音性质。对于一些声音，时间缩放引入失真而对于另一些声音，时间缩放工作得非常好。声音性质的分析可以由根据本发明的控制逻辑部件使用来判定时间缩放应当多迅速，即，使时间缩放适应当前的情况。非常迅速的时间缩放使得有可能具有非常短的抖动缓冲器部件构建阶段，这降低了被延迟尖峰击中的风险。图5说明了迅速的时间缩放。由于状态恢复是错误隐藏方法并且提供更好的(但并不是最好的)状态，这意味着最新损失仍然可能影响性能，因此短的构建时间是有益的。如果信道具有严重的延迟抖动特征并且如果状态恢复不可用，那么要求使用非常大的时间缩放量来非常迅速地增加在抖动缓冲器部件中的内容。如果状态恢复是可用的，那么迅速性可根据对于当前的语音段时间缩放执行的好的程度来控制。对于声音，当时间缩放工作的不是那么好时，控制逻辑部件将触发较不迅速的时间缩放，它提供了较长的构建时间。描述时间缩放执行好坏并且控制逻辑部件可以单独使用或与其它参数/测量值结合使用来控制时间缩放迅速度的不同的参数或测量的例子是：在时间缩放操作之前和之后的信号之间的频谱误差、能量差和间距匹配错误(pitch matching error)。这在图6中做了说明。在这种情况下，控制逻辑部件优选地可使状态恢复功能能够降低最新损失的影响。

由于信道特征和语音信号都随时间而改变，因此具有适应于图4-6中说明的上述抖动缓冲器部件构建策略之间的控制逻辑部件是有益的。此外，如果信道迅速地变化，那么具有短的构建阶段是有益的，因为这降低了被一个或几个延迟尖峰击中的风险。这意味着，必须例如从如抖动缓冲器部件收集信道行为的统计数据，使得统计数据可以由控制逻辑部件使用来适应其中的时间缩放量。

由于执行附加的解码操作，状态恢复引入额外的解码复杂度，这导致更高的CPU负载。额外的解码操作是需要的，因为解码器状态在最新损失之前返回到假定的状态，并且使用正确接收的但延迟的参数来完成解码。额外的解码操作的次数是与迟到帧的迟到程度成比例的。如果该帧晚了一个帧，则需要一个额外的状态解码。为了降低复杂度，没有必要运行综合型滤波器和后置滤波器。综合型滤波器和后置滤波器状态因此没有恢复。这是可能的，因为状态恢复的目的仅仅是恢复一些状态，这些状态在不采用状态恢复的条件下原本会花费长时间来修补。这覆盖了包含在自适应密本(间距增益，间距滞后，固定密本增益，固定密本)的更新中的部分。这意味着所增加的复杂度被粗略地二等分。

需要额外的ECU解码来避免先前的错误隐藏的帧和使用恢复的解码器状态解码的新解码的好的帧之间不连续性。需要大约5至20ms的重叠阶段以提供在两个解码的信号(重叠-和-增加(overlap-and-add))之间的平滑转换。因此状态恢复增加了解码复杂度和CPU负载。因此，可能出现总的复杂度可以达到超过CPU能够处理的程度这样的情况。因此有必要相应的控制解码复杂度和CPU负载。根据本发明的一个实施例的控制逻辑部件适合于检索关于CPU负载的信息以便知道由于CPU负载而何时应当启用/禁用状态恢复部件。

此外，时间缩放的使用同样引入了增加的复杂度以及因此增加的CPU负载。控制逻辑部件可以监控时间缩放部件使用的总复杂度，并且调节状态恢复部件使用的复杂度。例如，如果发现时间缩放部件利用许多的资源，则状态恢复可以被限制到较少数量的参数，或以较低的分辨率来执行。作为备选的方案，可以降低合成混合操作中的重叠长度。控制逻辑部件甚至可以调节在常规的解码中使用的语音参数来简化合成步骤。(例如，强制整数间隔滞后的使用，或甚至是完全地关闭ACB-激励提取)。

通过对于不同的接收器部分的复杂度使用进行严格控制，接收器部分可以使用它的循环，其中最需要这些接收器部分来提供在给定的最低语音质量以及给定的最大允许复杂度之内可能的最高交互性。这个控制对于(例如在蜂窝平台内的)严格的循环有限的嵌入系统是有用的。应当注意，复杂度限制可以平等地限制在系统中，例如在媒体网关(MGW)中。因此，检索的CPU负载相关的信息还可涉及MGW CPU负载，或另一个系统CPU负载。

因此，本发明涉及可连接到抖动缓冲器部件的控制逻辑部件，所述抖动缓冲器部件适合于接收并缓冲入局帧或数据包并且从接收的数据包提取数据帧；涉及连接到抖动缓冲器部件解码部件，适合于对提取的数据帧进行解码；以及涉及时间缩放部件，适合于自适应地播放解码的语音帧。控制逻辑部件还包括关于状态恢复功能是否可用的知识，以及控制逻辑部件适合于从抖动缓冲器部件、时间缩放部件和解码部件这三者中的至少一个检索至少一个参数，以便执行以下操作中的至少一个：基于来自抖动缓冲器部件的至少一个参数和状态恢复功能的可用性的知识来自适应地控制所述抖动缓冲器部件的初始缓冲时间，以及基于来自时间缩放部件或解码器的至少一个检索参数和状态恢复功能的可用性的知识来自适应地控制所述时间缩放部件的时间缩放量。控制逻辑部件优选地在VoIP客户机的接收器中实现。

本发明还涉及一种方法。所述方法包括以下步骤：

1.获得关于状态恢复功能是否可用的知识。

2.从抖动缓冲器部件、时间缩放部件和解码器这三者中的至少一个检索至少一个参数，以便执行以下操作中的至少一个：基于来自抖动缓冲器部件的至少一个参数和状态恢复功能的可用性的知识来自适应地控制所述抖动缓冲器部件的初始缓冲时间；以及基于来自时间缩放部件或解码器的至少一个检索的参数和状态恢复功能的可用性的知识来自适应地控制所述时间缩放部件的时间缩放量。

所述方法可以通过计算机程序产品来实现。这样的计算机程序产品可以直接加载到计算机中的处理部件，所述计算机程序产品包括用于执行该方法的步骤的软件代码部件。

所述计算机程序产品可以存储到计算机可用介质上，所述计算机程序产品包括用于引发计算机中的处理部件控制本方法的步骤的执行的可读程序。

在附图和说明书中，公开了本发明典型的优选实施例，虽然使用了具体的术语，但是这些术语仅以一般性和描述性的意义来使用，而不是为了限制的目的，本发明的范围在以下的权利要求中阐明。

Claims

1.一种控制逻辑部件，可连接到：适合于接收并缓冲入局帧或数据包并且从所接收的数据包中提取数据帧的抖动缓冲器部件，连接到所述抖动缓冲器部件适合于对所提取的数据帧进行解码的解码部件，以及适合于自适应地播放经解码的语音帧的时间缩放部件；所述控制逻辑部件其特征在于，它包括关于状态恢复功能是否可用的知识，以及所述控制逻辑部件适合于从所述抖动缓冲器部件、时间缩放部件、和解码部件这三者中的至少一个检索至少一个参数，以便执行以下操作中的至少一个：基于来自所述抖动缓冲器部件的至少一个参数和所述状态恢复功能的可用性的知识而自适应地控制所述抖动缓冲器部件的初始缓冲时间，以及基于来自所述时间缩放部件或解码器的至少一个所检索的参数和所述状态恢复功能的可用性的知识而自适应地控制所述时间缩放部件时间缩放量。

2.如权利要求1所述的控制逻辑部件，其特征在于，来自所述抖动缓冲器部件的所检索的参数涉及信道特征。

3.如权利要求1-2中任一项所述的控制逻辑部件，其特征在于，来自所述解码部件的所检索的参数涉及声音特征。

4.如权利要求1-3中任一项所述的控制逻辑部件，其特征在于，来自所述时间缩放部件的所检索的参数涉及声音特征、失真信息和完成的时间缩放这三者中的至少一个。

5.如前述权利要求中任一项所述的控制逻辑部件，其特征在于，所述控制逻辑部件适合于检索与CPU负载有关的另一参数以及还适合于基于所检索的参数来自适应地控制所述抖动缓冲器部件的初始缓冲时间和所述时间缩放部件的时间缩放量这两者中的至少一个。

6.如前述权利要求中任一项所述的控制逻辑部件，其特征在于，所述控制逻辑部件适合于检索与CPU负载有关的信息，并适合于基于所述与CPU负载有关的信息来自适应地控制状态恢复部件。

7.如前述权利要求中任一项所述的控制逻辑部件，其特征在于，所检索的与CPU负载有关的信息与时间缩放操作相关联。

8.如权利要求6或7所述的控制逻辑部件，其特征在于，所检索的与CPU负载有关的信息与时间恢复操作相关联。

9.如权利要求6-8中任一项所述的控制逻辑部件，其特征在于，基于所述与CPU负载有关的信息来自适应地启用/禁用所述状态恢复部件。

10.如权利要求6-8中任一项所述的控制逻辑部件，其特征在于，所述状态恢复基于所述与CPU负载有关的信息而自适应地限制到较少数量的参数，或以较低的分辨率执行。

11.如前述权利要求中任一项所述的控制逻辑部件，其特征在于，所述控制逻辑部件适合于按每个帧来自适应地控制所述抖动缓冲器部件的初始缓冲时间、所述时间缩放部件的时间缩放量和所述状态恢复部件这三者中的至少一个。

12.一种用于控制抖动缓冲器部件以及用于控制连接到解码器的时间缩放部件的方法，所述抖动缓冲器部件适合于接收并缓冲入局帧或数据包并且从所接收的数据包中提取数据帧，其中解码器连接到所述抖动缓冲器部件，所述解码器适合于对所提取的数据帧进行解码；所述时间缩放部件适合于自适应地播放经解码的语音帧；所述方法其特征在于包括以下步骤：

-获得关于状态恢复功能是否可用的知识；

-从所述抖动缓冲器部件、时间缩放部件和解码器这三者中的至少一个检索至少一个参数；

-执行以下操作中至少一个：基于来自所述抖动缓冲器部件的至少一个参数和状态恢复功能的可用性的知识而自适应地控制所述抖动缓冲器部件的初始缓冲时间，以及基于来自所述时间缩放部件或解码器的至少一个所检索的参数和状态恢复功能的可用性的知识而自适应地控制所述时间缩放部件的时间缩放量。

13.如权利要求12所述的方法，其特征在于，来自所述抖动缓冲器部件的所检索的参数涉及信道特征。

14.如权利要求12-13中任一项所述的方法，其特征在于，来自所述解码器的所检索的参数涉及声音特征。

15.如权利要求12-14中任一项所述的方法，其特征在于，来自所述时间缩放部件的所检索的参数涉及声音特征、失真信息和完成的时间缩放这三者中的至少一个。

16.如权利要求12-15中任一项所述的方法，其特征在于，所述方法还包括以下步骤：

-检索与CPU负载有关的另一参数；以及

-基于所检索的参数来自适应地控制所述抖动缓冲器部件的初始缓冲时间和所述时间缩放部件的时间缩放量这两者中的至少一个。

17.如权利要求12-16中任一项所述的方法，其特征在于，所述方法还包括以下步骤：

-检索与CPU负载有关的信息；以及

-基于所述与CPU负载有关的信息来自适应地控制所述状态恢复部件。

18.如前述权利要求中任一项所述的方法，其特征在于，所检索的与CPU负载有关的信息与时间缩放操作相关联。

19.如权利要求17或18所述的方法，其特征在于，所检索的与CPU负载有关的信息与时间恢复操作相关联。

20.如权利要求17-19中任一项所述的方法，其特征在于，基于所述与CPU负载有关的信息来自适应地启用/禁用所述状态恢复部件。

21.如权利要求17-19中任一项所述的方法，其特征在于，所述状态恢复基于所述与CPU负载有关的信息而自适应地限制到较少数量的参数，或以较低的分辨率执行。

22.如前面权利要求12-21中任一项所述的方法，其特征在于，包括以下步骤：

-按每个帧来自适应地控制所述抖动缓冲器部件的初始缓冲时间、所述时间缩放部件的时间缩放量和所述状态恢复部件这三者中的至少一个。

23.一种可直接加载到基于数据包的通信系统的接收器内的计算机的内部存储器中的计算机程序产品，包括用于执行如权利要求12-22中任一项所述的步骤的软件代码部分。

24.一种存储在计算机可用介质上的计算机程序产品，包括用于使在基于数据包的通信系统的接收器内的计算机来控制如权利要求12-22中任一项所述的步骤的执行的可读程序。