CN101366082A

CN101366082A - 可变帧偏移编码

Info

Publication number: CN101366082A
Application number: CNA200680052459XA
Authority: CN
Inventors: S·布鲁恩
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2006-02-06
Filing date: 2006-02-06
Publication date: 2009-02-11
Anticipated expiration: 2026-02-06
Also published as: EP1982328A1; WO2007091927A1; US8204740B2; CN101366082B; US20090043567A1

Abstract

本发明涉及对基于帧的编解码器的改进，尤其涉及编码/解码方法、编码器/解码器(编解码器)以及无线电通信设备。虽然帧的开始相对于先前帧的结束有时间偏移，但是在改进的基于帧的编解码器的输出处提供的信号包括规则持续时间的帧。所述时间偏移逐帧变化。来自改进的编解码器的输出信号不具有固定的成帧网格。时间偏移可以为正，在这种情况下，利用间隙隔开两个连续的帧，在所述间隙中插入替代信号；或者时间偏移可以为负，在这种情况下，两个连续的帧出现重叠。可以使用先前帧中的信号的外推、来自先前帧和后续帧的信号的内插、或者直接编码的信号作为替代信号。负偏移使得捕捉待编码的信号中的瞬变成为可能。本发明涉及对基于帧的编解码器的改进，尤其涉及编码/解码方法、编码器/解码器(编解码器)以及无线电通信设备。虽然帧的开始相对于先前帧的结束有时间偏移，但是在改进的基于帧的编解码器的输出处提供的信号包括规则持续时间的帧。所述时间偏移逐帧变化。来自改进的编解码器的输出信号不具有固定的成帧网格。时间偏移可以为正，在这种情况下，利用间隙隔开两个连续的帧，在所述间隙中插入替代信号；或者时间偏移可以为负，在这种情况下，两个连续的帧出现重叠。可以使用先前帧中的信号的外推、来自先前帧和后续帧的信号的内插、或者直接编码的信号作为替代信号。负偏移使得捕捉待编码的信号中的瞬变成为可能。

Description

可变帧偏移编码

技术领域

本发明涉及对基于帧的编解码器(codec)的改进，尤其涉及编码/解码方法、编码器/解码器(编解码器)以及无线电通信设备。虽然帧的开始相对于先前帧的结束有时间偏移(time offset)，但是在改进的基于帧的编解码器的输出处提供的信号包括规则(regular)持续时间的帧。所述时间偏移逐帧变化。来自改进的编解码器的输出信号不具有固定的成帧网格(framing grid)。

背景技术

对于无线VoIP业务，降低无线链路上的比特率将日益重要。与单个会话相关联的比特率越低，给定带宽的无线电信道能够传输的会话就越多。

一种降低比特率的手段是采用可变速率编码。然而，即使比特流很低，无论如何也必须利用额外的开销将所传送的语音参数封装在IP/UDP/RTP分组中。然而，使用诸如ROHC(鲁棒首部压缩)之类的首部压缩技术能够将这种开销减少至3或4字节。IP栈的较低层(例如数据链路层和物理层)产生其他的封包(packetization)开销。

H.Sanneck，N.Le，M.Haardt和W.Mohr于2001年9月在丹麦奥尔堡的Fourth International Symposium on Wireless Personal MultimediaCommunication发表的论文“Selective Packet Prioritization for WirelessVoIP”公开了一种对可能“通过使用ECU(误差掩蔽单元(errorconcealment unit))而利用误差掩蔽覆盖(cover)的”帧进行标记的方法。能够被ECU覆盖的帧被指定以较低优先级，以使得如果在网络中出现拥塞，则首先丢弃较低优先级的分组。

在LARA-BARRON；LOCKHART的论文“Missing packet recovery oflow-bit-rate coded speech using a novel packet-based embedded coder”(PROC.OF THE EUROPEAN SIGNAL PROCES SING CONFERENCE，SGNAL PROCESSING THEORIES AND APPLICATIONS卷2，第5期，1990年9月18日-1990年9月21日，巴塞罗那，第1115-1118页)测试了类似的方法，但是该方法用于嵌入式DPCM(差分脉冲编码调制)编解码器，其中对于与正常优先级的帧相比优先级较低的帧使用不同的编码。

用于非常低速率的语音编码的分段声码器(segement vocoder)应用这样的技术，其中将语音划分成长度变化的单元(分段)，继而依次对这些单元进行编码和传送。可变帧速率系统使用类似的技术，其将编解码器的帧长度调节到一定持续时间，对于该持续时间能够认为描述语音信号的参数是不变的。

现有方案的问题

即使有时利用可变速率编码极大地降低了平均源比特率，仍然需要利用额外的封包开销来传送所产生的参数。这种开销与待传送的有效载荷的大小无关。因此，VoIP应用中的VR编解码器(可变速率编解码器)通常有以下问题：它们能够提供的源比特率降低不会转化成相应的总传输速率的节约。

对AMR编解码器(自适应多速率编解码器)的可变速率扩展所存在的特定问题是这样的扩展局限于现有的AMR模式。然而，更为高效的可变速率操作将要求存在非常低速率的模式，例如2kbps(千比特每秒)。然而，由于未解决的封包开销问题，新的(例如2kbps)的AMR模式的实际好处对于VoIP应用而言实际上同样是非常有限的。

Sanneck的方法的问题在于编码器不知道帧已经被丢弃的事实。这导致编码器和解码器之间的状态不匹配。因此，为了不至于使得所提供的语音质量降低太多，对于使用在网络中丢弃的帧必须谨慎。

Lara-Barrons方法的问题在于不节约带宽并且仅能够小幅降低分组速率。

分段声码器以及可变帧速率系统对固定帧网格起作用，对于其执行一次(primary)帧方式(frame-wise)声码器参数计算。在下一个步骤中，它们旨在将若干连续帧合并成可变长度单元，其中针对所述可变长度单元得到单个参数表示。虽然这样的系统运行于非常低的比特率，但是其主要问题在于它们局限于相对低质量的完全参数化的语音表示。它们并不适合于高质量编码，例如根据旨在近似语音波形的综合分析范例(analysis-by-synthesis paradigm)。

许多要用于VoIP的基于帧的编解码器最初被设计用于CS(电路切换)应用。因此，它们将语音分为例如20ms(毫秒)的分段，这些是针对利用20ms的固定成帧网格的分段的编码分段。所述编码的结果是语音参数的集合。若干语音参数组块(每个组块对应于20ms的语音)被嵌入要传输至目的地的RTP分组中。由此，所述RTP分组中的信息将对应于多个20ms的语音分段，但是当经由某一传输介质进行传送时，所述RTP分组的持续时间可能更短，甚至短于20ms。

发明内容

本发明涉及使用基于帧的编解码器对信号(即，原始语音信号)进行编码的方法和装置，其中第一帧的处理开始相对于所述第一帧之前的帧的处理结束有时间偏移。

本发明还涉及对数字信号进行解码的方法，包括使第一帧的解码开始相对于所述第一帧之前的帧的处理结束发生偏移的步骤。

通过相对于先前帧的结束延迟帧(为了清楚起见，这里称为第一帧)处理的开始，以使得所述第一帧相对于先前帧的结束具有正时间偏移，所述正时间偏移将在先前帧的结束和第一帧之间产生时间间隙(timegap)。

所述时间间隙逐帧变化并且可能在其中插入信号(为了清楚起见，在以下为称作替代(substitution)信号)。所述替代信号可以是先前帧中的信号的外推(extrapolation)、先前帧和第一帧中的信号的内插(interpolation)或者是直接编码的信号。可以使用与用于先前帧和第一帧的媒体流不同的媒体流来传送替代信号。示例性的替代信号是音视频信号，并且第一帧和先前帧中的信号是音频或语音信号。应当注意到，还可以是相反的情况，即，替代信号是音频信号或语音信号，而第一帧和先前帧中的信号是音视频信号。

本发明提供了用于控制时间偏移量的电路。可以使时间偏移依赖于编码信号的质量并且考虑原始信号及其编码版本之间的偏差(deviation)。可以对时间偏移进行额外的细化(refinement)，例如在控制时间偏移时考虑编码失真以及第一帧的编码。

通过使第一帧的处理开始相对于先前帧的结束在时间上提前(forward)，以使得第一帧具有负时间偏移并且与先前帧部分重叠，该重叠部分中的信号将被编码两次。这增强了该信号部分的编码。使用负时间偏移可以捕捉到不同的信号变换(signal transition)。

本发明非常适于连同使用RTP协议的语音和音频分组交换(PS)传输一起使用，原因在于RTP提供了在任意时刻发信号通知在每个分组中所密封的一个或多个编解码器帧的时间位置的功能，从而使得VoIP可以使用灵活的帧网格而不是传统的固定网格(例如，20ms)。

附图说明

图1是图示本发明的基本方面的信号图；

图2是语音信号的信号图；

图3是根据本发明的语音信号的信号图；

图4是图1和图3中的两个信号之间的偏差的信号图；

图5是根据本发明的时间偏移生成装置的第一实施例的框图；

图6是图示利用第一实施例和相关联的阈值所获得的偏差度量(metric)函数的示图；

图7是根据本发明的时间偏移生成装置的第二实施例的框图；

图8是图示利用第二实施例和相关联的阈值所获得的偏差度量函数的示图；

图9是根据本发明的时间偏移生成装置的第三实施例的框图；

图10是图示根据本发明的基本思想的变化的信号图；

图11是图示用于为多个语音帧同时计算最优时间偏移的方法的信号图；和

图12是使用分层可伸缩(scalable)编码器进行编码的示意性图示。

具体实施方式

以下将结合图1-11中的语音编码以及图12中的视频和音频信号的分层编码对本发明进行描述。

参考图1，经采样的数字语音输入信号1被施加在编解码器的输入。基于帧的编解码器将所输入的信号划分成20ms的帧，一个帧依次跟随另一个帧而没有中断。在编解码器中对输入的语音信号进行编码。在编解码器的输出处，给出与编码分段相对应的重构(reconstructed)语音信号。

图1所示的基本思想是以这样的方式来操作基于帧的编解码器以使得编码的语音信号帧(由线段2所示，并且在以下被称作第一帧或新帧)无需紧跟在先前帧(由线段3所示)中的编码的语音信号之后，而是以相对于先前帧3的结束的可变时间偏移(由图4所示，并且以下有时被称作间隙)作为开始。本发明思想的直接好处是降低了编解码器的实际帧速率，尽管编解码器帧长度是恒定的。因为比特率与每个所传送的帧相关联，所以平均比特率被降低。由此，即使帧速率恒定且比特率可能恒定，所述编解码器也可作为可变速率编解码器进行操作。然而，与具备该特性的传统的可变速率编解码器相比，封包开销减少。

根据本发明的一个实施例，所述编解码器必须具有通过替代信号对帧之间的间隙进行桥接(bridge)的装置。先前帧中信号的外推、先前帧和第一帧中信号的内插可以被用作时间间隔中的替代。一种自然的解决方案是使用误差掩蔽，其本质上根据先前帧的语音编码器参数集生成重构语音信号。

以下将描述先前帧中的信号的外推。参考图2，在先前帧的结束之处没有使用输入语音信号1的部分5，即没有使用编解码器(比较图2)直接进行编码，而是被先前帧中的语音信号的外推6替代。参见图3，持续时间的外推对应于时间偏移。当然，所述外推将损害(impair)原始语音信号的质量重构。可以不将所述外推驱使到重构语音信号的质量变差或变得明显可感知的(distinctly perceptible)程度。轻微变坏是可容忍的。为了控制质量并使得本发明思想具有实用性，编码器必须具有自适应地选择待编码的每个帧的开始样本的装置，这是计算时间偏移的装置。这种计算以某一基于质量的标准为基础，并且产生逐帧变化的时间偏移。以下将描述用于控制单独时间偏移的不同方法。

以下参考图4和5来描述第一种基本方法。在图4中示出通过将原始语音信号与外推进行比较而得到的误差信号。如所示，时间偏移越长(相对于先前帧的结束而言，该结束在时间轴上在7处区分)，所述外推与原始的偏差越大，并且误差就会越大。当误差信号超过阈值8时，外推中止(abort)，原因在于如果被进一步驱使，所产生的重构语音信号的质量将会不能接受。因此很清楚的是，从先前帧的结束到误差信号达到阈值的时刻的时间将给出与第一帧相关联的时间偏移。

本发明能够被应用于现有的使用IP/UDP/RTP传输的任何语音编解码器。本发明需要编解码器中的附加功能，但是并不需要对所述编解码器的RTP传输格式进行任何改变或对编解码器的比特流格式进行改变。因此，原则上，本发明对现有解码器起作用。

本发明需要接收器能够适当地处理出现在不规则时刻的帧的情况，这是不同于解码器方面的实施方式。

参考图5描述了本发明的一个基本实施例。具有编码器10并且包括解码器11的基于帧的综合分析编解码器9将其状态转移到外推器(extrapolator)13。所述外推器具有与时间偏移控制装置14的第一输入相连接的输出，所述时间偏移控制装置14包括第一偏差度量计算器15和阈值电路(threshold circuit)16。在所述阈值电路的输出获得所述偏移的值。该值被返回到编解码器。所述外推器包括未示出的算法并且具有输入，在该输入处可获得解码器的解码器状态。原始语音连接至第二输入。时间偏移控制装置的两个输入被连接到第一偏差度量计算器的相应输入。

所述编解码器是传统的基于帧的综合分析语音编码器，例如AMR(自适应多速率)编解码器，其具有在本地生成解码器重构信号及其状态的特性。根据本发明，在一帧的传统编码和本地解码之后，用于外推的算法开始。帧外推算法根据(本地)解码器状态生成外推语音信号，而不是如传统编码器那样立即对下一帧进行编码。典型地，帧外推算法可以是解码器的ECU(误差掩蔽单元)的本地版本。外推信号和输入语音信号被馈入第一偏差度量计算器，所述第一偏差度量计算器测量所述外推信号与所述语音信号的偏差度量。特别地，参见图6，偏差度量被作为外推信号的持续时间的函数来计算。能够假设，持续时间越短，外推越好，由此偏差度量越小。所述度量能够是(加权)SNR、谱偏差或根据更为先进的感知标准的类型。所述度量函数然后被馈入第一阈值电路，所述第一阈值电路将所述度量与阈值18进行比较并且返回第一偏差度量函数与所述阈值相交的时刻作为时间偏移。参考图6，这是图示出偏差度量计算器的输出处的第一偏差度量函数和第一阈值18的示图。选择所述阈值以确保足够的外推信号质量。

对阈值调节是适当的(例如根据针对先前编码的帧而计算的编码失真)，而不是使用恒定阈值。此后，将取阈值(thresholding)之后所获得的偏移用作第一帧的开始时刻。这样的对第一阈值的调节在图6中由双端箭头19示意性地示出。

实现这一点所用的装置在图5中用虚线示出，并且所述装置包括第二偏差度量计算器20，其具有用于原始语音信号的一个输入以及与解码器输出相连接的另一个输入。通过将先前帧中的解码信号与相同帧中的原始信号进行比较而得到编码失真的值。所述第二偏差度量计算器的输出被连接到阈值电路的输入，并且将由此针对所述编码失真来对第一阈值进行调节。

所述基本实施例的问题在于，偏移计算没有考虑利用传统的基于帧的编码应获得的编码失真。换句话说，所希望的是替代信号的质量大约与利用传统编解码器针对第一帧所获得的信号质量相同。在图5中，编码失真与在先前帧中所获得的信号质量相关。假设零偏移，现在我们希望其是针对第一帧所获得的信号质量。由此确保了实际的语音质量将会与利用传统编解码器所获得的信号质量一样好。

一种实现这一点的方法是利用零偏移执行对第一帧的编码，如传统编解码器将会另外进行的那样。接着，针对本地解码的信号来计算另外的度量函数。接着通过使用编码的第一帧的该度量函数作为参考(reference)来得到时间偏移。现在，这样做的过程中所获得的阈值基于该度量函数。

这是利用图7所示的改进的实施方式来实现的，其中与图4中的那些部分相对应的部分具有相同的附图标记。如所示，除了编解码器9、外推器13和第一偏差度量计算器15之外，还连接有第三偏差度量计算器21和第二阈值电路22。

如在零偏移下传统编解码器将会做的那样，所述编解码器对第一帧2中的语音进行编码。第二输出处的原始语音信号1被输入到第三偏差度量计算器。在所述第三计算器的输出，出现用于本地编码的信号的第三偏差度量函数19(比较图8)，该偏差度量函数表示第一帧的编码失真。接着在第二阈值电路22中，通过使用编码的第一帧的第三偏差度量函数作为参考而得到时间偏移。利用第一偏差度量计算器所获得的第一偏差度量函数17超过第三偏差度量函数23的时刻被用作第二阈值。

优选地，所述第二阈值加上某一余量(margin)24被用作第一帧的偏移。所述偏移将逐帧变化。与图5中的实施方式相比，利用图7中的实施方式所获得的结果是接收器端的重构语音信号的得以改进的信号质量。

图9中示出了更为准确的闭环方法，该方法在计算偏移时除了考虑外推时间间隔期间的编码失真之外，还考虑了开始于外推信号结束的解码语音信号帧3。考虑到编解码器在外推之后可能需要一定恢复时间的事实，这是特别有用的。

除了外推器13之外，图9所示的闭环实施方式包括帧编解码器25、组合器26、第四偏差度量计算器27、积分器28和包括存储器30的优化器29。闭环方法被描述如下：按照以上的开环方法生成紧随先前帧3之后的外推信号。此外，帧编解码器25对第一帧2中的语音信号进行编码和解码，该第一帧具有在多个候选时间偏移之中选择的候选时间偏移。所述帧编解码器使用外推(或外推器状态)6作为输入，以便针对所选择的候选时间偏移适当地设置编解码器状态。所述组合器将外推信号与第一帧中的信号进行组合。被称作组合或复合信号的组合信号包括第一和第二部分。所述第一部分是所选择的候选时间偏移期间的外推信号，而所述第二部分是第一帧中的信号。如图9所示，所述组合可以是两个信号的简单串联(concatenation)，或者是通过使用某一重叠相加操作使得一个信号平滑变换成另一个信号，从而逐步停止(phase out)外推信号而逐步引入(phase in)解码的第一帧信号。位于所述组合器的输出的组合信号被施加在第四偏差度量计算器27的一个输入，在所述第四偏差度量计算器27中将所述组合信号与施加在所述计算器27的第二输入的原始语音信号进行比较。如在所述第四偏差度量计算器的输出所出现的，所计算的偏差在所选择的候选时间偏移期间有所增加。正如所料，此后所述偏差有所下降。在积分器中，估算出第三度量达到预定时刻T，从而产生从先前帧结束一直到时刻T的时间的偏差度量。所积分的(integrated)度量是所测定的候选时间偏移多好或多差的量度。该积分度量接着被馈入优化器，此处它被存储在存储器中。在存储了该积分度量之后，选择另一个候选时间偏移，并且在所述存储器中存储相应的积分度量。重复该过程直至所有的候选时间偏移值都已经被选择。最后，所述优化器从所存储的积分度量中选择具有最小误差的一个积分度量，这就是最小积分度量。最终选择相关联的候选时间偏移作为第一帧的时间偏移。

图5和7中所描述的开环方法的特征在于其简单性和低复杂性，而闭环方法更为准确，但是以更为复杂并需要更多计算资源为代价。

根据本发明的可变帧偏移编码产生帧偏移的某一概率分布。也就是说，对于某些帧而言，零偏移是必需的，而对于其他帧而言，大于零的偏移是可能的。长期而言，存在大于零的有效的帧偏移。这样的帧偏移的典型值可以为2ms。可利用示例来说明本发明在节约比特率方面的好处。假设编解码器具有20ms的编码帧长度，并且比特率为每帧200比特。在编解码器的传统操作中，帧速率为每秒50帧且由此比特率为10kbps。利用本发明，每20ms加上2ms的平均偏移持续时间，传送平均200比特。由此，所产生的比特率为200比特每22ms，等于9.09kbps。比特率因此减少了几乎10％。

速率约束(rate constrained)方法

即使利用恒定比特数对每个帧进行编码，根据本发明的具有可变帧偏移的编解码器也作为可变速率的编解码器进行操作。假设编解码器具有帧长度p并使用每帧k比特，则对于第n帧编码的时间偏移t，本地比特率为

r (n) = \frac{k}{t (n) + p}

其中比特率随时间偏移的增加而降低。由此，作为结果，所有N个编码帧的平均比特率为

R = \frac{1}{N} Σ_{n = 1}^{N} \frac{k}{t (n) + p}

在速率约束编码方法中，目标是在给定目标平均比特率的约束下使编码失真最小化。上述用于得到帧偏移的方法能够很容易被扩展到这种速率约束方法。所需要的是对以上方法中使用的偏差度量进行修改。这些度量现在还包括本地使用的以某一适当因数λ加权的比特率的项，以允许在所产生的编码失真与所使用的比特率之间进行权衡(trade)。

换句话说，可以说成本函数(cost function)与比特率相关联。如果出于一个或另一个原因，例如由于本地需求，希望使用某一比特率，则这能够通过如以上部分所述的时间偏移的相应变化来实现。例如，如果需要较低的比特率，则使偏移更长。

利用负偏移进行编码

如上所述，适当的外推算法被用于进行误差掩蔽，其在解码器ECU中可用。然而，这不仅仅是一种可能性。相反，在外推信号的编码表示被传送和使用的情况下，以比特率为代价，可以使用任何可用的编解码器模式。这还能够被说明并更容易地地解释为对下一帧使用负的帧偏移。

例如，考虑利用AMR编解码器的实施例。如图10所示，假设先前帧延伸至语音开端(onset)31或其中信号具有明显变换的信号部分中。如果用于先前帧的比特率低(例如由于DTX操作中的“舒适噪声(comfort noise)”的传输)，则存在无法充分表示所述开端的风险。这意味着编码没有捕捉到跟随在开端之后的语音。为了解决这一问题，本发明提出了使用负偏移。与负偏移相关联的新的/第一帧在先前帧结束之前开始，并且这些帧将出现重叠，从而对所述开端进行适当地捕捉和编码。这是因为在信号重叠之处存在两重编码。两个帧被同时传送。在解码之后它们被加在一起。可替换地，使用滚装(roll-on-roll-off)函数，第一帧中的信号被逐渐引入先前帧的信号中。可以利用比先前帧更高的比特率对第一帧进行编码。在这种情况下，允许两个帧中的信号之间的变换难以进行(hard)。丢弃先前帧中的信号并且使用第一/下一帧中的信号。

“舒适噪声”具有非常低的比特率的编码，其被用在DTX(不连续传输)操作中。

在语音编码中，假设所述语音在每帧中是固定的。但是如果在信号中存在明显变换，则不能如此假设。在这样的情况下，最好相对于信号来移动帧位置，以便在帧内获得更为固定的行为。

使用负偏移的另一个示例是利用低比特率进行编码并且突然要求更高编码质量的情况，例如当信号从语音信号变到音乐时。以下将给出这样的示例。

预测和延迟判决编码(look ahead and delayed decision coding)

参见图11，其图示了具有多个帧的情形。对一个帧的编码影响对连续帧的编码。在本发明的该实施例中，希望同时对多个帧的偏移进行优化。

增加的编码延迟提供使用延迟判决编码作为改进的可能性。一个实施例是优化多个帧的偏移并为这些帧选择编码模式以使得给定比特率下的整体失真最小化。

在利用负偏移进行编码而产生重叠的编解码器帧的情况下，可以仅向一个帧的某些部分的编码误差分配特定权重。例如，在图11所示的情况下，考虑到最好利用图10所示的新的/第一帧捕捉开端，利用帧的非重叠部分上的特定权重对先前帧进行编码是有益的。

内插

能够使用间隙内插来代替使用时间间隙中的外推信号。根据先前帧和第一帧这二者，或者根据比先前帧和第一帧更早的帧来生成用于所传送帧之间的间隙的替代信号。从而可以以额外的延迟为代价做出此类改进。

具有部分采样分辨率(sample resolution)的帧偏移

在允许甚至具有部分采样分辨率的帧偏移时，可以获得额外的编码增益。在使用IP/UDP/RTP的VoIP背景下，这种解决方案需要对多个信号采样频率设置时间戳时钟。

可伸缩性

参见图12，其中在可伸缩的分层编解码器中对两个媒体流进行编码。诸如核心层33的第一层提供一种比特率的编码和相应质量，而例如更高层34的第二层提供利用更高比特率的改进编码和相应的更高质量。在核心层，来自于一个媒体流的编码信号出现在帧35中，所述帧35被与关联于各自帧的间隙隔开。在音频帧之间的间隙中插入替代信号。所述替代信号取自更高级别的另一媒体流。例如，位于核心层的媒体流是只有音频的流，而位于更高层的媒体流为音视频流。

还可以将本发明应用于更高层，而所述替代信号取自核心层(或某一更低层)。这使得将替代信号或增强帧仅置于需要改进的信号部分成为可能，而较低层能够被用于获取适当的替代信号。

还可以从单独的编解码器获得替代信号。

IP传输考虑

在利用降低的IP分组速率的IP通信系统中使用本发明通常是有利的。不同于利用恒定帧速率的传统可变速率方法，本发明能够被用于降低分组速率并由此将封包开销降低与平均比特率的降低相同的程度。

本发明还能够应用于其中每个分组传输多个帧的帧集合(frameaggregation)情形中。然而，在这种情况下，需要注意的是，RTP首部中的时间戳字段仅指示在分组中传输的第一帧的第一采样。跟随先前帧的第一帧之后的其他帧没有任何可指明的(specifiable)偏移。因此，为了直接应用本发明的原则，属于分组的所有帧都必须被看作针对其来得到最适合的偏移的超级帧(super-frame)单元。尽管如此，还可以使用一个或多个时间偏移参数的传输和显式编码以使得本发明即使在帧集合的情况下也可能够完全适用。

在使用RoHC的情况下，直接应用本发明会引起IP开销的增加，原因在于时间戳字段的不规则演变会要求更频繁的IP分组首部更新。在这种情况下，必须在利用本发明所获得的收益与IP开销的增加之间进行权衡。解决这一问题的一种方法是将所允许的帧偏移限制在有限集合(例如，仅子帧偏移)，还能够通过RoHC对其处理而不使开销增加。特别应用于速率约束方法中的第二种可能是在修改的度量中考虑包括RoHC效率损失的IP开销，比较“速率约束方法”部分。

虽然已经示出了一些特定实施例，但是可以在权利要求的范围之内以多种方式对本发明进行修改。

Claims

1.一种使用基于帧的编解码器对数字信号进行编码的方法，其特征在于第一帧的处理开始相对于所述第一帧之前的帧的处理结束有时间偏移。

2.如权利要求1所述的方法，其特征在于所述时间偏移随一个处理帧到下一个而变化。

3.如权利要求2所述的方法，其特征在于相对于先前帧的结束延迟第一帧的处理开始，以使得第一帧相对于先前帧的结束具有正时间偏移，所述正时间偏移在先前帧的结束和第一帧的处理开始之间产生时间间隙。

4.如权利要求2所述的方法，其特征在于在时间上使第一帧的处理开始相对于先前帧的结束提前，以使得第一帧具有负时间偏移并且与先前帧部分重叠。

5.如权利要求3所述的方法，其特征在于使时间偏移依赖于数字信号的替代。

6.如权利要求5所述的方法，其特征在于在所述时间间隙中插入替代信号。

7.如权利要求6所述的方法，其特征在于所述替代信号是所述编解码器所处理的数字信号的外推。

8.如权利要求6所述的方法，其特征在于所述替代信号是直接编码的信号。

9.如权利要求6所述的方法，其中所述编解码器是分层可伸缩编解码器，其特征在于所述替代信号取自所述编解码器的第一层，而相对于第一帧之前的帧的处理结束有时间偏移的帧取自第二层。

10.如权利要求9所述的方法，其中在第一层中编码的信号是音视频信号，而第二层中的信号是音频信号，其特征在于将编码的音视频信号作为替代信号插入所述第一帧与后续帧之间的时间间隙中。

11.如权利要求10所述的方法，其特征在于使分层的编码信号依赖于编码信号在其上传送的信道的特征。

12.如权利要求6所述的方法，其特征在于所述替代信号是先前帧和第一帧中的编码数字信号之间的内插。

13.如权利要求6所述的方法，其特征在于使偏移依赖于本地所需的比特率。

14.如权利要求2所述的方法，其特征在于使时间偏移依赖于所述编解码器在先前帧中处理的信号的质量量度。

15.如权利要求4所述的方法，其特征在于当存在着在先前帧中处理的信号的突变时第一帧开始。

16.如权利要求14所述的方法，其特征在于根据所述信号与在先前帧中处理的信号的比较来计算偏移。

17.如权利要求2、14或16所述的方法，其特征在于将所述数字信号与所述替代信号进行比较并且作为结果返回第一偏差度量，所述第一偏差度量是替代的持续时间的函数。

18.如权利要求17所述的方法，其特征在于将所述第一偏差度量与预定义的第一阈值进行比较并且作为结果返回时间偏移。

19.如权利要求18所述的方法，其特征在于根据针对先前帧所计算的编码失真对第一阈值进行调节。

20.如权利要求19所述的方法，其特征在于通过将数字信号与在先前帧中编码的信号进行比较来计算编码失真，并且作为结果返回第二偏差度量，所述第二偏差度量被用于调节第一阈值。

21.如权利要求17所述的方法，其特征在于使用替代信号和所述编解码器在偏移为零的第一帧中处理的信号来计算时间偏移。

22.如权利要求21所述的方法，其特征在于将作为原始语音信号的数字信号与所述编解码器在偏移为零的第一帧中编码的信号进行比较，并且作为结果返回第三偏差度量，所述第三偏差度量是所述第一帧的编码失真的函数。

23.如权利要求22所述的方法，其特征在于从所述第三偏差度量得到第二阈值函数，将第一度量与第二阈值函数进行比较，并且作为结果返回时间偏移。

24.如权利要求23所述的方法，其特征在于保持替代信号直至所述替代信号的偏差度量超过第三阈值函数。

25.如权利要求2所述的方法，其特征在于通过得到第一帧的编码失真的量度来获得偏移。

26.如权利要求25所述的方法，其特征在于

a)在多个时间偏移候选之中选择候选时间偏移，

b)利用所选择的候选时间偏移来处理第一帧，

c)生成替代信号或使用预先计算的替代信号，

d)将替代信号与编码的第一帧信号进行组合，并且作为结果返回包括第一和第二部分的复合信号，所述第一部分包含替代信号的部分和大体上与所选择的候选偏移相对应的持续时间的部分，所述第二部分包含编码的第一帧，

e)将作为原始语音信号的数字信号与所述复合信号进行比较并获得第四偏差度量，

f)在预定义的时间间隔(0-T)中估算针对所选择的候选时间偏移而获得的第四偏差度量，并且获得积分偏差度量，以及

g)存储针对所选择的候选时间偏移而获得的积分偏差度量，

h)对于每个候选时间偏移重复步骤b)至g)，并选择给出最小积分偏差度量的候选作为时间偏移。

27.如权利要求26所述的方法，其特征在于提供所述复合信号的第一部分到其第二部分的平滑变换，所述变换是在确定时间间隔上进行的。

28.如权利要求26所述的方法，其特征在于所述预定义的时间间隔开始于先前帧的结束。

29.如权利要求2-13中任意一项所述的方法，其特征在于同时得到多个连续帧的时间偏移。

30.如权利要求17、20、22和26中任意一项所述的方法，其特征在于以信噪比(SNR)、谱偏差、感知标准、所使用比特率的成本函数或其组合来表示第一、第二、第三或第四度量。

31.一种对数字信号进行解码的方法，其特征在于使第一帧的解码开始相对于所述第一帧之前的帧的处理结束发生偏移。

32.如权利要求31所述的对数字信号进行解码的方法，其特征在于时间偏移随一个解码帧到下一个而变化。

33.如权利要求32所述的对数字信号进行解码的方法，其特征在于相对于先前帧的结束延迟第一帧的解码开始，以使得第一帧相对于先前帧的结束具有正时间偏移，所述正时间偏移在先前帧的结束和所述第一帧的处理开始之间产生时间间隙。

34.如权利要求33所述的对数字信号进行解码的方法，其特征在于在所述时间间隙中插入替代信号。

35.如权利要求34所述的对数字信号进行解码的方法，其特征在于所述替代信号是在先前帧中解码的数字信号的外推。

36.如权利要求34所述的对数字信号进行解码的方法，其特征在于所述替代信号是直接编码的信号。

37.如权利要求34所述的对数字信号进行解码的方法，使用分层可伸缩编解码器，其特征在于使用取自所述编解码器的第一层的信号作为替代信号，而从第二层取得时间偏移帧。

38.如权利要求37所述的对数字信号进行解码的方法，其中在第一层中解码的信号是音视频信号，而第二层中的信号是音频信号，其特征在于将解码的音视频信号作为替代信号插入第一帧与后续帧之间的时间间隙中。

39.如权利要求34所述的对数字信号进行解码的方法，其特征在于将先前帧和第一帧中的数字信号之间的内插用作替代信号。

40.如权利要求6所述的方法，其特征在于使用误差掩蔽单元(ECU)算法产生替代信号。

41.如权利要求35所述的对数字信号进行解码的方法，其特征在于使用误差掩蔽单元(ECU)算法作为帧外推算法。

42.如权利要求34或36所述的对数字信号进行解码的方法，其特征在于使用具有比用于编码的编码速率更低的编码速率的编解码器模式作为帧外推算法。

43.如权利要求32所述的对数字信号进行解码的方法，其特征在于生成开始于解码的先前帧的结束之前的解码的第一帧，由此提供重叠的信号部分。

44.如权利要求43所述的对数字信号进行解码的方法，其特征在于对重叠的信号部分进行相加。

45.如权利要求43所述的对数字信号进行解码的方法，其特征在于推迟解码的先前帧的重叠部分。

46.一种用于提供编码数字信号的基于帧的编解码器，其特征在于用于使第一帧的处理开始相对于所述第一帧之前的帧的处理结束发生时间偏移的时间偏移装置。

47.如权利要求46所述的基于帧的编解码器，其特征在于所述时间偏移装置适于使时间偏移随一个处理帧到下一个而变化。

48.如权利要求47所述的基于帧的编解码器，其特征在于所述时间偏移装置适于相对于先前帧的结束延迟第一帧的处理开始，以使得第一帧相对于先前帧的结束具有正时间偏移，所述正时间偏移在先前帧的结束和第一帧的处理开始之间产生时间间隙。

49.如权利要求47所述的基于帧的编解码器，其特征在于所述时间偏移装置适于在时间上使第一帧的处理开始相对于先前帧的结束提前，以使得所述第一帧具有负时间偏移并且与先前帧部分重叠。

50.如权利要求48所述的基于帧的编解码器，其特征在于具有用于提供替代信号的信号替代装置。

51.如权利要求50所述的基于帧的编解码器，其特征在于具有用于在所述时间间隙中插入替代信号的替代信号插入装置。

52.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述信号替代装置包括用于生成先前帧中的数字信号的外推的外推装置。

53.如权利要求51所述的基于帧的编解码器，其特征在于所述信号替代装置包括内插装置，所述内插装置适于提供替代信号，所述替代信号为先前帧中的编码数字信号和第一帧中的编码数字信号之间的内插。

54.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述信号替代装置包括分离编码器。

55.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述分离编码器是分层可伸缩编码器，替代信号取自编码器的第一层，而编码信号帧取自第二层。

56.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述替代信号是音视频信号，而编码信号是音频或语音信号。

57.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移装置适于使时间偏移依赖于本地所需的比特率。

58.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述信号替代装置具有用于外推的误差掩蔽单元(ECU)。

59.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移装置包括用于计算作为时间的函数的第一偏差度量信号的第一偏差度量计算器，所述第一偏差度量计算器具有用于作为原始语音信号的数字信号的输入、用于替代信号的输入以及用于提供来自输入信号的第一偏差度量函数的输出，所述第一偏差度量表示所述替代信号与作为原始数字信号的数字信号的偏差。

60.如权利要求59所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移装置还包括用于为所述第一偏差度量函数设置第一阈值的第一阈值装置，所述第一阈值装置具有与第一偏差度量计算器的输出相连接的输入，以及用于提供时间偏移的输出。

61.如权利要求60所述的基于帧的综合分析语音编解码器，其特征在于所生成的偏移作为第一偏差度量函数超过所设置的第一阈值时的相对时刻。

62.如权利要求61所述的用于提供编码信号的基于帧的编解码器，其特征在于用于计算第二偏差信号的第二偏差度量计算器，所述第二偏差度量计算器具有用于作为原始语音信号的数字信号的输入，用于在先前帧中编码的信号的输入，以及用于提供考虑了编码失真的第二偏差度量的输出。

63.如权利要求62所述的用于提供编码信号的基于帧的编解码器，其特征在于所述第二偏差计算器的输出与所述第一阈值装置的输入相连接，以便利用针对先前帧中的信号所获得的编码失真对第一阈值进行调节。

64.如权利要求59所述的用于提供编码信号的基于帧的编解码器，其特征在于用于计算第三偏差信号的第三偏差度量计算器，所述第三偏差度量计算器具有用于作为原始语音信号的数字信号的输入，用于在偏移为零的第一帧中编码的信号的输入，以及用于提供考虑了所述第一帧中的编码失真的第三偏差度量的输出。

65.如权利要求64所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移装置还包括用于为所述第一偏差度量函数设置第二阈值的第二阈值装置，所述第二阈值装置具有与所述第一偏差度量计算器的输出相连接的输入以及用于提供时间偏移的输出。

66.如权利要求46-65中任意一项所述的基于帧的编解码器，其特征在于所述编解码器是综合分析语音编解码器。

67.如权利要求66所述的用于提供编码信号的基于帧的编解码器，其特征在于所述第三偏差计算器的输出连接到所述第二阈值装置的输入，以便利用针对偏移为零的第一帧中的信号所获得的编码失真对所述第二阈值进行调节。

68.如权利要求67所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移装置适于生成作为第一偏差度量超过第三偏差度量时的相对时刻的时间偏移信号。

69.如权利要求68所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移装置适于在第一偏差度量超过第三偏差度量一定余量时生成时间偏移信号。

70.如权利要求59所述的用于提供编码信号的基于帧的编解码器，其特征在于所述时间偏移生成装置包括：

时间偏移选择器，适于在多个时间偏移候选之中选择候选时间偏移，

用于生成替代信号的装置，

组合器，用于将所述替代信号与编码的第一帧信号进行组合以在其输出处获得复合信号，所述复合信号包括第一部分和第二部分，所述第一部分包含所述替代信号的部分和与所选择的时间偏移相对应的持续时间的部分，所述第二部分包括第一帧之后的编码帧，

偏差度量计算器，用于计算第四偏差度量信号，所述第四偏差度量信号与原始信号和所述组合器的输出上的复合信号之间的偏差相关，

积分器，用于在预定义的时间段上对所述第四偏差度量信号进行积分以获得第四度量信号的值，和

存储器，用于存储利用所选择的时间偏移候选而获得的第四度量信号值。

71.如权利要求70所述的用于提供编码信号的基于帧的编解码器，其特征在于所述存储器适于存储利用每个偏移候选而获得的第四偏差度量信号，

所述时间偏移装置还包括优化器，所述优化器适于选择产生最小的积分偏差度量信号的候选偏移作为偏移。

72.如权利要求71所述的用于提供编码信号的基于帧的编解码器，其特征在于所述预定义的时间段从先前帧的结束延伸至预定义的时刻。

73.一种用于传输和接收被划分成恒定持续时间的帧的数字信号的无线电通信设备，所述设备包括基于帧的编解码器，其特征在于所述编解码器配备有时间偏移装置，所述时间偏移装置用于使第一帧的传输相对于第一帧之前的帧的结束发生一定的时间偏移。

74.如权利要求73所述的无线电通信设备，其特征在于所述时间偏移装置适于使时间偏移逐帧变化。

75.如权利要求74所述的无线电通信设备，其特征在于所述时间偏移装置适于相对于先前帧的结束延迟第一帧的处理开始，以使得第一帧相对于先前帧的结束具有正时间偏移，所述正时间偏移在先前帧的结束和第一间隙之间产生时间间隙。

76.如权利要求74所述的无线电通信设备，其特征在于所述时间偏移装置适于在时间上使第一帧的处理开始相对于先前帧的结束提前，以使得第一帧具有负时间偏移并且与先前帧部分重叠。

77.如权利要求75所述的无线电通信设备，其特征在于用于提供替代信号的信号替代装置。

78.如权利要求77所述的无线电通信设备，其特征在于用于在所述时间间隙中插入替代信号的替代信号插入装置。

79.如权利要求9所述的方法，其中在第一层中编码的信号是音频信号，并且第二层中的信号是音视频信号，其特征在于将编码的音频信号作为替代信号插入第一帧与后续帧之间的时间间隙中。

80.如权利要求37所述的对信号进行解码的方法，其中在第一层中解码的信号是音频信号，而第二层中的信号是音视频信号，其特征在于将解码的音频信号作为替代信号插入第一帧与后续帧之间的时间间隙中。

81.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述替代信号是先前帧和第一帧中的编码数字信号之间的内插。

82.如权利要求51所述的用于提供编码信号的基于帧的编解码器，其特征在于所述替代信号是音频或语音信号，并且编码信号是音视频信号。

83.如权利要求33所述的对数字信号进行解码的方法，其特征在于在所述时间间隙期间处理替代信号。

84.如权利要求34所述的对数字信号进行解码的方法，使用分层可伸缩编解码器，其特征在于所述替代信号是属于所述编解码器的第一层的信号，而时间偏移帧属于第二层。