CN101310329A

CN101310329A - 用于重新同步分组音频流的方法和装置

Info

Publication number: CN101310329A
Application number: CNA2006800428075A
Authority: CN
Inventors: K·D·安德松; P·古尔纳
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2005-10-18
Filing date: 2006-10-18
Publication date: 2008-11-19

Abstract

提供了一种装置，用于当在预测解码器中处理迟到帧时，维持语音或音频信号的自然基音周期性。执行隐藏以替代迟到帧。检测包括音频信息的迟到帧。确定由隐藏引入的基音相位差异。在播放随所述迟到帧之后的后续帧之前补偿所述基音相位差异。

Description

用于重新同步分组音频流的方法和装置

相关申请

该申请依照35U.S.C.§119(e)，要求于2005年10月18日提交的题为“Method and Apparatus for Resynchronizing Packetized Audio StreamsWhen Processing Late Packets”的第60/727,908号美国临时申请的在先提交日的利益；其通过引用被完全合并到此。

技术领域

本发明的实施例涉及通信，并且更具体地说，涉及对数据分组的处理。

背景技术

无线电通信系统，例如蜂窝系统(例如扩频系统(例如码分多址(CDMA)网络)、或时分多址(TDMA)网络)和广播系统(例如数字视频广播(DVB))，以丰富的服务和特征集合向用户提供移动性的便利性。这种便利性已经导致数量不断增长的消费者大量采用无线电通信系统作为商业和个人使用的公认通信模式。为了促进更多的采用，从制造商到服务提供商的电信产业已经以庞大的开支和努力达成一致，来开发用于在各种服务和特征之下的通信协议的标准。一个努力的关键领域涉及语音或音频流的传输，例如语音在互联网协议上(VoIP)。已经认识到当分组被延时或丢失时，传统方式不能充分地解决与解码过程相关联的信号质量。由于这些分组不被解码，分组的延时或丢失引起解码器内同步的丢失。因此，这对播放的信号的质量产生不利影响，尤其是关于基音(pitch)。

因此，需要当语音或音频数据被延时或丢失时有效地保持分组音频流的信号质量。

发明内容

本发明解决这些和其它需求，其中，提出一种方法，用于保持语音或音频信号的自然基音(pitch)周期性。

根据本发明实施例一方面，一种方法，包括：检测包括音频信息的迟到帧，其中基于所检测的迟到帧执行隐藏。所述方法还包括确定由所述隐藏引入的基音相位差异。所述方法还包括在播放随所述迟到帧之后的后续帧之前，补偿所述基音相位差异。

根据本发明实施例的另一方面，一种装置，包括：基音相位补偿逻辑，被配置为检测包括音频信息的迟到帧，其中基于所检测的迟到帧执行隐藏。所述基音相位补偿逻辑被配置为确定所述隐藏引入的基音相位差异，并且在播放随所述迟到帧之后的后续帧之前，补偿所述基音相位差异。

根据本发明实施例的又一方面，一种系统，包括：用于检测包括音频信息的迟到帧的装置，其中基于所检测的迟到帧执行隐藏；用于确定所述隐藏引入的基音相位差异的装置，以及用于在播放随所述迟到帧之后的后续帧之前，补偿所述基音相位差异的装置。

简单地通过示出多个特定实施例和实现方式——其中包括构思为执行本发明实施例的最佳模式，本发明的其它方面、特征和优点从下面的详细描述就变得更加清楚。本发明还能够具有其它不同的实施例，并且在不脱离本发明的精神和范围的情况下，可以在各个明显的方面修改一些细节。因此，附图和说明书被看作是示例性的而不是限制性的。

附图说明

在附图中，以举例而非限制的方式来示出本发明实施例，相似的标号表示相似的元件，其中：

图1A和1B分别是根据本发明各个实施例、能够提供音频流的重新同步的示例接收机的示图以及音频恢复过程的流程图；

图2是与一个迟到帧相关联的示例解码器输出的示图；

图3是传统隐藏过程的解码信号示图和根据本发明实施例的迟到分组处理过程的解码信号示图；

图4是涉及对传统隐藏过程和迟到分组处理过程的使用的激励信号示图；

图5是根据本发明实施例的在重新同步过程中使用的信号之间关系的示图；

图6是根据本发明实施例的重新同步过程的流程图；

图7是根据本发明实施例的、涉及重新同步过程的使用的激励信号示图；

图8A-D是根据本发明的各种实施例、与确定和说明基音相位差异相关联的过程的流程；

图9是可以用于实现本发明实施例的硬件的示图；

图10A和10B是能够支持本发明各个实施例的不同蜂窝移动电话系统的示图；

图11是根据本发明实施例、能够在图10A和图10B的系统中运行的移动站的示例性组件的示图；以及

图12是根据本发明实施例、能够支持在此描述的过程的企业网络的示图。

具体实施方式

公开了用于重新同步音频流的装置、方法和软件。在以下描述中，为了解释的目的，阐述大量特定细节，以提供对本发明实施例的透彻的理解。然而，本领域技术人员应理解，可以在没有这些特定细节的情况下或以等同方案来实践本发明。在其它情况下，以框图形式示出熟知的结构和设备，以避免不必要地模糊本发明实施例。

虽然关于分组网络来讨论本发明实施例，但本领域技术人员应理解，本发明实施例能够应用于任意类型的数据网络，包括基于信元的网络(例如，异步传输模式(ATM))。此外，可以预计这里描述的协议和过程不仅可以被移动和/或无线设备执行，还可以被任何固定(或非移动)通信设备(例如，台式计算机、网络装置等)或网络元件或节点执行。

除了其它电信业务外，分组网络被用于传输分组的语音会话(或呼叫)。作为例子，这些网络支持互联网协议(IP)。分组网络上的传输的特征在于通过网络的分组传输时间中的变化，在网络中某些分组被完全丢失。分组的实际到达时间和按精确分组速率的参考时钟之间的差异称为抖动。

图1A示意了根据本发明的各种实施例，能够提供音频流的重新同步的示例接收机的示图。作为示意，在由数据帧或分组(例如分组的语音、具有音频内容的视频流等)表示的音频信息的情况下解释音频系统100，例如接收机。音频系统100包括分组缓存器101，被配置为存储已经接收的分组。系统100还包括隐藏逻辑103，用于当分组不可得到时，执行产生替代帧的隐藏过程。基音相位补偿逻辑105用于对隐藏输出和后续输出之间的过渡进行平滑。隐藏逻辑103和基音相位补偿逻辑105与解码器(例如，预测解码逻辑)107交互操作，解码器107向播放模块109输出被解码的帧。

作为典型应用，音频系统100可以被实现为语音在互联网协议上(VoIP)的接收机。在这种情况下，缓存器101还可以用于控制抖动的影响。因而，缓存器101把不规则的到达分组流转换成规则的分组流，从而语音解码器107可以向收听者提供持续不断的语音流。这些流可以是表示任何类型的听觉信息——包括语音和音频——的数据流。然而，可以预计这里所描述的方法还可以应用到包括音频信息的视频流中。

分组缓存器101通过引入额外的延时来操作，该延时被称为“播放延时”(相对于参考时钟来定义该延时，例如在第一分组的接收时开始)。例如，可以选择播放延时以最小化因到达太晚而不能被解码的分组的数量，同时保持整体的端到端延时在可接受限度内。

在播放时间之前到达的分组被临时存储在接收缓存器中。当到达其播放时间时，这些分组被从缓存器中取出、解码并通过播放模块109播放。丢失的分组和在播放时间之后到达的分组不能被解码；因此，计算了替代的语音或视频片断。此外，解码器内部状态不正确。

在这种情况下，调用通过隐藏逻辑103的隐藏过程而不是正常解码过程以代替丢失的语音或音频片断。隐藏逻辑103维持内部状态信息103a，例如可以通过使用状态机实现该状态。同样的，解码器107为解码过程维持状态信息107a。

传统隐藏过程具有在隐藏片断中引入差错的缺点。而且，该隐藏过程并不能正确地更新解码器107的内部状态。因此，由于解码器107的预测性特性，由隐藏过程引入的差错通常在随后的片断中传播。注意，由于每个分组是独立的，非预测性编码器/解码器(编解码器)不具有差错传播。

尽管在分组网络上的语音情况下迟到分组通常被认为丢失，这些迟到分组可以用于降低差错传播，如同1983年12月，卷SAC-1，第6期，的IEEE Journal on Selected Areas in Communications，在题为“Techniquesfor Packet Voice Synchronization”中所解释的，其全部内容通过引用被合并在此。

当分组不是丢失而是仅仅被延时时，其内容可以用于更新解码器107的“后验的”内部状态。这限制了，并且在某些情况下，停止了由隐藏引起的差错传播。注意到，必须非常注意以保证在隐藏的输出片断和利用更新的内部状态计算的后续“更新的”输出片断之间的平滑过渡。在2003年4月，ICASSP中由P.Gournay等人发表的题为“Improved packet lossrecovery using late frames for prediction-based speech coder”的文章中详细描述了这种技术，其全部内容通过引用被合并在此。

预测性语音或音频解码器的隐藏逻辑103通常在浊音或准周期片断中引入基音相位差异。该基音相位差异对信号质量有害，使得当从隐藏的输出片断转到随后的利用正确的更新内部状态计算的“更新”输出片断时，使用传统淡入、淡出技术变得非常困难。

与传统“淡入淡出”过程相比，基音相位补偿逻辑105提供了一种过程，以有效地平滑在这两个片断之间的过渡。尤其的，其解决了当从一个片断转到另一片断时如何维持语音或音频信号的自然基音周期性的问题。

图1B是根据本发明各种实施例的音频恢复过程的示例流程。在步骤121，检测迟到的或丢失的分组。因此，在步骤123，启动隐藏过程以产生替代帧。之后，当迟到帧被处理时，在步骤125确定由隐藏过程引起的基音相位差异。在步骤127，该过程基于确定的基音相位差异来平滑在隐藏帧和后续帧之间的过渡。

在示例实施例中，上述重新同步过程可以应用到CDMA 2000 1×EV-DO(演进-数据最优化)系统中。本领域技术人员认识到，本发明可以应用到利用其它技术(例如一般而言的扩频系统，以及时分复用(TDM)系统)和通信协议的任何类型的无线电网络中。

图2是与一个迟到帧相关联的示例解码器输出的示图。特别的，该图示意了当迟到帧被认为丢失(情况203)以及当迟到帧用于更新解码器107的内部状态(情况201)时该迟到帧的影响。正确的输出显示为白色，并且差错传播显示为灰色。情况205是在没有丢失的或者迟到的帧的情况下，解码器107的输出。

作为例子，二进制帧被接收并且被正常地解码一直到帧n-1。帧n并不能被及时得到以用于解码。隐藏过程产生与期望的输出不同的某些替代输出。由于解码器107的内部状态在原始解码器中并不被正确地更新，由帧n引入的差错在随后的帧中传播(情况203)。

现在假设帧n在对帧n+1的解码之前到达分组缓存器101(情况201)。考虑下面的情况：(i)丢弃帧n的内容，并且使用由隐藏产生的“坏的”内部状态，并且如同在解码器107中正常执行那样，解码帧n+1；或者(ii)把解码器107的内部状态恢复为在帧n-1结束时的值，解码帧n而不输出解码的语音(这将导致把内部状态更新为其“好的”值)，以及(iii)解码帧n+1，好像没有出现差错。

在一个实施例中，需要某些平滑以防止在帧n和帧n+1之间的边界上的任何不连续性。这可以通过使用淡入、淡出窗口对(图2中的)信号(i)和(iii)加权并在该隐藏之后根据内部状态(例如，实际的过去的合成的采样)取合成滤波器的记忆(memory)，来在激励域执行。

图3是传统隐藏过程的解码信号和根据本发明的实施例的迟到分组处理过程的解码信号的示图。信号301是当没有帧丢失时解码器的输出。信号303是当第3个帧被丢失并且隐藏后的解码器的输出。由于在浊音开始期间发生丢失，其触发强能量丢失(跨越一个完整的音素)以及较大的失真等级。在这种情况下，恢复时间较长(差错信号307)。信号305是当使用P.Gournay等人的文章中描述的方式在隐藏之后执行更新时的解码器的输出。由于解码器及时地可获得所有所需的信息以进行考虑，恢复比较快并且完整(差错信号309)。所有的信号(包括差错)以相同的幅度比例表示。尽管P.Gournay等人的技术对于降低在迟到分组后的差错传播非常有效，其并不能适当地处理由隐藏引入的基音相位差异。在某些情况下，为了平滑在隐藏的片断和“更新”的片断之间的过渡而执行的淡入、淡出操作甚至会破坏信号的自然周期性。在这些情况下，产生了局部的但是可听到的并且令人非常不愉快的失真。

图4是涉及对传统隐藏过程和传统迟到分组处理过程的使用的激励信号示图。信号401是当没有帧丢失时由解码器107计算的激励信号。信号403是当第二帧被认为丢失并被隐藏时的激励信号。基音相位差异由隐藏103引入并且由解码器107向后传播；可以清楚地看到信号401和信号403在第三帧中失去同步。信号405是当相同帧被用于更新内部状态时的激励信号。在执行淡入淡出操作的第三帧中，基音周期性被明显地破坏(淡入、淡出过程在第三帧的中间附近产生了两个基音脉冲，其在空间上太近，并且不具有足够能量)。

现在更详细的描述用于确定基音相位差异和利用基音相位差异来平滑在隐藏的帧和后续帧之间的过渡的方法。以并不破坏语音或音频信号的自然基音周期性的方式来执行该过渡。

图5是根据本发明的一个实施例，在重新同步过程中利用的在信号之间关系的示图。特别的，图5显示了紧跟在迟到帧之后的帧中的

和

之间的关系。信号501是没有差错的原始帧，信号503是恰在丢失前面的帧之后的信号(注意基音信号的相位差异)，并且信号505是在更新和重新同步之后的信号(注意这里信号501已经与信号503重新校准)。

标识了在较好的激励中用于寻找第一基音脉冲的窗口的开始，

是两个信号之间的偏移，并且

是合并信号501和503以形成信号505的最低能量点。注意

不仅是信号501和503之间的偏移，还是信号505的额外长度。

图6是根据本发明的一个实施例，重新同步过程的流程。依照本发明的一个实施例，在具有应用于由图1A的解码器107所计算的激励信号的修改的码激励线性预测(CELP)编码器/解码器(编解码器)的情况下，解释重新同步过程。然而，根据应用，可替代地，可以在相似步骤之后对解码的输出信号执行重新同步过程。为了示意的目的，下面提出的特定实现方式用于可变多速率宽带(VMR-WB)编解码器，其它编解码器中的参数可以不同，但是应用相同的原理。在图1A的系统中，该过程使用迟到帧把解码器107的内部状态与编码器(没有显示)的内部状态进行重新同步。

在步骤601，音频系统100确定接收到的分组是否为“浊音”分组。作为例子，“浊音”指示可以检测到基音脉冲的周期性或准周期性语音信号(例如，在声音/a/，/e/等中)。相反的，清音信号更像噪声并且由于缺少周期性不能检测到基音脉冲(例如，/s/)。因此，框图601区分浊音和清音语音帧。如果分组并不是浊音分组，则在步骤603，重新同步并不是必须的，并且因此不需要修改，由此保留了好的激励。为了示意的目的，术语“好的”激励表示图2中的信号(iii)，而“坏的”激励信号表示图2中的信号(i)。好的激励是在前的帧没有迟到而得到的激励信号，并且坏的激励是在前的帧没有被恢复而得到的激励信号。对好的激励的记忆(memory)还可以用于使用；假设与当前的好的激励相连续(因此，当在当前帧中开始“好的”激励时，可以使用负索引)。符号“T₀”用于表示基音周期，并且表示好的激励中的第一子帧的基音(除非另外标出)。T₀是在编码的语音分组中传输的已知参数。

然而，如果分组与浊音信号相关，则系统100，在步骤607，寻找具有好的激励的第一脉冲。然后，系统在步骤609确定在脉冲中是否存在可接受的能量等级。如果是，则在步骤611，系统通过最大化相关性来寻找移位的采样数。

更具体地说，下面解决了对两个相位不同的浊音信号进行重新同步的问题。第一，寻找将在同步过程中使用的声门脉冲(步骤607)，这可以在好的或者坏的激励中发现。第二，该脉冲被移位跨越另一激励以寻找脉冲相关最好之处(步骤611)。第三，确定可以进行从坏的激励到好的激励的转换的、位于脉冲附近的最低能量点。

在示例的实施例中，声门脉冲可以是好的激励的第一脉冲。移位大小为W₁的窗口而跨越好的激励的第一T₀+W₁采样，并且取具有最大能量的位置，给出了声门脉冲的位置(步骤607)。可以使用稍多于T₀的采样以避免当脉冲的一部分位于第0或第T₀采样时的临界线情况。下面的式(1)描述了用于寻找第一声门脉冲的算法，

是包含该脉冲的W₁-采样窗口的第一采样：

\hat{x} = \underset{x}{\arg \max} (Σ_{i = 0}^{i = W_{1} - 1} good {[i + x]}^{2}), 0 \leq x \leq T_{0} - - - (1)

并且good[n]是好的激励的第n个采样。对于VMR-WB编解码器，W₁可以被设定为10。

还可以使用在坏的激励中寻找第一脉冲，然而，这种方式相对具有较少吸引力，由于隐藏的脉冲通常不如好的脉冲明确并且因此不能总是被正确地发现。对x的其它边界，例如把搜索集中在0上或者执行更短或更长的搜索，也是可靠的，而通过式(1)中给出的边界产生了关于VMR-WB的较好的结果。

下面的式(2)测量存储在从式(1)获得的声门脉冲中的能量与集中在门声脉冲的固定时间段的能量数的百分比(“T_min”表示编解码器允许的最小的可能的基音周期)；E表示该百分比。这可以用于在E上设置一个下限(floor)以保证脉冲不被错误地识别(步骤609)。例如，该下限的可能值可以被设定为80％以防止虚假脉冲被识别为脉冲。该能量比较还防止信号被较差地同步并因此引起某些情况下声音质量比P.Gournay等人所描述的方法还差。

E = \frac{Σ_{i = 0}^{i = W_{1} - 1} good {[i + \hat{x}]}^{2}}{Σ_{i = 0}^{T_{\min} - 1} good {[i + \hat{x} - \frac{T_{\min}}{2}]}^{2}} * 100 - - - (2)

一旦发现好的激励中的第一脉冲并且认为满足能量约束，则通过将脉冲移位跨越坏的激励并且根据下式(3)最大化相关性，来寻找好的和坏的激励被偏移的采样总数(即，为了重新同步需要对其移位的量)，

\hat{j} = \underset{j}{\arg \max} (\frac{Σ_{i = 0}^{i = W_{2} - 1} good [\hat{x} + i] * bad [\hat{x} + i + j]}{Σ_{i = 0}^{i = W_{2} - 1} good {[\hat{x} + i]}^{2}}), 0 \leq j < T_{0} andj < FL - W_{2} - \hat{x} - - - (3)

在该式中，FL(帧的长度)是标准大小的帧中的采样数(例如，在VWR-WB中为256)，并且W₂是用于计算相关性的窗口大小(例如，W₂＝15)。根据本发明的一个实施例，仅仅通过好的激励中的能量来归一化所实现的相关性。该参数是优选的问题并且可以以其它方式归一化(即，好的和坏的能量一起，或者仅仅坏的能量)。然而，使用不同的相关性计算方法导致不同的，并且因此可以确定对于任何给定系统能最佳工作的方法。

如果在步骤613确定了可接受的相关性强度，则找到了在信号中用于切换激励的低能量点。于是，该过程合并该激励并计算子帧的长度(步骤617和619)。

然而，如果过程没有寻找到可接受的能量等级(步骤605)，则调用窗口函数来合并该激励。作为例子，任何标准或传统过程可以用于该窗口函数。

为了避免对没有较好地对齐的信号进行重新同步，在步骤613可以使用对于相关性的下限。例如，在当前情况下所使用的值是0.6。可以对给出的相关性低于所选下限的任何信号进行修改(例如，根据P.Gournay等人)。

由于帧的大小的限制，对于上采样(upsampling)的目的，在该例子中，VMR-WB中的每个12.8kHz帧的长度应当可以被4除尽。因此，所发现的

接近4的倍数。

该示例方案允许采样被增加到帧中并且不被移除，即，

一直大于或等于0。例如，执行该过程以获得适合IP网络上实时语音的方案的有益边缘效应。然而，如果需要，还可以允许从帧中移除采样，即，具有小于0的

。当需要时，这可以通过修改式(3)中

的边界以包括负的索引来实现。

在寻找到为了把好的激励与坏的激励对准而对好的激励进行偏移的采样数量后，可以在信号中寻找低能量点，在该低能量点处可以进行从坏的激励到好的激励的改变(步骤615)。为了避免由进行突然的能量改变而引起的不想要的伪像，这是必要的。由于在激励域中执行所有的修改，合成滤波器将平滑这里的任何小的改变，这并不引起问题。

根据本发明的一个实施例，通过滑动W₃采样窗口(例如，10采样)跨越好的激励中的第

采样之前的T₀/2个采样，可以执行对最低能量点

的寻找(参见式(4))。

\hat{k} = \underset{k}{\arg \min} (Σ_{i = 0}^{i = W_{3} - 1} good {[\hat{x} - k + i]}^{2}),

W_{3} \leq k \leq \frac{T_{0}}{2} + W_{3} - - - (4)

在某些情况下，当

接近0时，该搜索使用好的激励的记忆(即，好的激励的负索引)，但是这将造成一个问题，如果：

\hat{j} + \hat{k} < 0 - - - (5)

在这种情况下，在脉冲之前发现的

出现在之前的帧中，其播放时间已经过去，甚至在将激励移位

之后。这实质上指示解码器107在帧实际开始——这不是技术上的声音——之前从坏的激励切换到好的激励，。因此，可以在好的激励的第一脉冲之后就执行新的搜索以发现最低能量点。

如果

(\hat{j} + \hat{k} < 0),

则使用

- W_{3} \leq k \leq - \frac{T_{0}}{2} - W_{3}

重新进行 (6)

既然已经发现了移位的量以及在何处结合两个信号，好的激励和坏的激励被集合(步骤617)。在包括好的激励和坏的激励的新帧中，最初的个采样属于坏的激励，而最后的

个采样来自好的激励，在

\hat{j} + \hat{k} > FL

的情况下，在坏的激励和好的激励之间的

个采样应当被设置为0。因此，新帧的长度是

根据示例实施例，在VMR-WB编解码器中，定义两个激励信号：一个用于适应性码本记忆，一个是后处理的并仅仅用于合成。在合成过程中，两个信号都使用，因此对一个信号进行的任何修改需要同样地对另一信号进行执行这一点很重要。在这里采用的方法中，对单独用于合成的激励执行所有的计算，但是在算法的结尾，两个激励都获得偏移并且如前面的段落所述的那样被保存。

作为例子，VMR-WB编解码器使用4子帧，而其它编解码器可以在这点上不同。在重新同步过程的结尾，如果帧的大小改变(即，如果

\hat{j}! = 0

)，则在步骤619，正确子帧的大小被改变以反映这种差异。对信号的在后滤波是逐个子帧地来执行的，因此，子帧长度的总和需要对应于整个信号的长度。应当被修改的子帧长度是

所在的子帧，并且的整体值应当被增加到子帧的原始长度中。新的帧长度是

，即，长度被增加

，并且这需要反映在子帧中。

在这种情况下，假设是正的(即，新帧一直大于正常帧的长度)。然而，如之前所提及的，还可以缩短帧，并且在这种情况下，应该修改子帧的长度以反映信号的哪部分应当被保留或不保留。

如同所解释的，为了示意的目的，对基于CELP的编解码器中的激励信号执行上述计算和修改。还可以使用基音同步叠加(PSOLA)或其它技术来对PCM信号执行修改。然而，关于对激励信号执行修改，脉冲编码调制(PCM)信号的计算更加复杂。

图7是根据本发明实施例，涉及对重新同步过程的使用的激励信号的示图。信号701、703和705与图4的信号相似。信号707是由系统100的迟到分组处理产生的激励信号。由于之前没有差错，第一帧的激励信号在所有线中相同。由于没有改变隐藏过程，第二帧在信号703、705和707中也相同。可以在第三帧期间使用在P.Gournay等人描述的方法执行迟到帧处理。基音周期在信号707中被明显地很好地维持。箭头指示在扩展隐藏的激励信号和在内部状态更新之后的(好的)激励信号之间的切换点。切换点之前的激励信号准确地对应于“扩展的”隐藏的激励。在切换点之后的激励信号(最后两个基音脉冲)准确地(具有1/3帧延时)对应于“好的”激励信号701。输出帧比通常的帧长大约1/3并且比好的激励多包括一个基音脉冲。

图8A-8D是根据本发明的各种实施例，与确定和说明基音相位差异相关联的过程的流程图。在图8A中，在上述实现方式中，在步骤801，通过执行在一方面使用隐藏的内部状态(例如图2的信号(i))计算的输出信号和另一方面使用更新的内部状态(例如图2的信号(iii))计算的输出信号之间的相关，来寻找差异。注意可以在信号之间确定相关，其中该信号是解码器输出信号或者内部解码器信号(例如，激励信号)。在步骤803，过程确定产生最大相关性的延时是所估计的基音相位差异，并根据确定的延时来输出所估计的基音相位差异(步骤805)。

如图8B所示，在步骤811，还可以通过首先在使用隐藏的内部状态中的信号(i)以及使用更新的内部状态的信号(iii)中寻找基音标记，来确定基音相位差异(例如，使用基音同步叠加(PSOLA)算法)。在步骤813，该过程比较这些基音标记的位置，并在步骤815根据所确定的延时来输出所估计的基音相位差异。可替代的，图8C显示了在步骤821，通过首先确定隐藏前的最后的基音标记的位置，然后使用隐藏的基音值和在迟到帧中发现的实际的基音值以确定信号(i)和信号(iii)中的基音标记位置(步骤823)，来获得基音差异。之后，在步骤825，过程根据确定的基音标记位置来输出所估算的基音相位差异。

在图8D中，根据示例实施例(图8D所示)，在步骤831，通过把信号(iii)延时相同的数量可以补偿由隐藏引入的基音相位差异。这时，两个信号(i)和(iii)“同相”(步骤833)。因此，可以快速的从一个信号切换到另一信号同时不破坏周期性。然而，由于延时已经应用到信号(iii)，产生的“过渡”输出帧比普通帧长。在某些应用中，这并不导致问题并且甚至可以是令人期望的(即，当解码器与适应性抖动缓存器结合时，较长的输出帧增加了播放延时，这将降低接收另一迟到帧的可能性)。在需要恒定输出帧持续时间的其它应用中，可以通过把信号(i)和/或(iii)中的单独的脉冲稍微移回所引入的一小部分差错来获得具有正常长度的“过渡”输出帧，其中该差错是在从一个信号切换到另一信号之前在隐藏期间引入的。

上述方法的另一优点是在处理了迟到分组之后改进了解码信号的主观质量。具体来说，确定了通常在浊音语音或周期或准周期音频信号期间由隐藏过程引入的基音相位差异，并且迟到分组处理过程考虑该基音相位差异，以便平滑在隐藏的输出信号和使用更新的内部状态所计算的输出信号之间的过渡。第二个优点是允许在隐藏的输出信号和“更新的”输出信号之间的(相对于通常的“淡入、淡出”法)更快的切换。另一优点在接收到迟到分组后产生通常比正常帧持续时间长的输出帧。这增加了播放延时，并且因此降低了接收另一迟到帧的可能性。

本领域普通技术人员应认识到，基音相位重新同步的过程可以通过软件、硬件(例如普通处理器，数字信号处理器(DSP)芯片、特定应用集成电路(ASIC)、现场可编程门阵列(FPGA)等)、固件或者其组合来实现。下面通过图9详细描述用于执行所述功能的示例硬件。

图9示出可以在其上实现本发明的各个实施例的示例性硬件。计算系统900包括：总线901或其它通信机制，用于传递信息；以及处理器903，其耦合到总线901，以用于处理信息。计算系统900还包括主存储器905，例如随机存取存储器(RAM)或其它动态存储设备，其耦合到总线901，以用于存储信息和将由处理器903执行的指令。主存储器905还可以被使用以在处理器903执行指令期间存储临时变量或其它中间信息。计算系统900可以进一步包括：只读存储器(ROM)907或其它静态存储设备，其耦合到总线901，为处理器903存储静态信息和指令。存储设备909(例如磁盘或光盘)耦合到总线901，以长久存储信息和指令。

计算系统900可以经由总线901耦合到显示器911，例如液晶显示器或有源矩阵显示器，以将信息显示给用户。输入设备913，例如包括字母数字键和其它键的键盘，可以耦合到总线901，以将信息和命令选择传递给处理器903。输入设备913可以包括光标控制，例如鼠标、轨迹球、或光标方向键，以将方向信息和命令选择传递给处理器903，并控制光标在显示器911上的运动。

根据本发明各种实施例，可以响应于处理器903执行主存储器905中所包含的指令安排，而由计算系统900提供在此描述的过程。可以将这样的指令从另一计算机可读介质(例如存储设备909)读入主存储器905。对主存储器905所包含的指令安排的执行导致了处理器903执行在此描述的过程步骤。还可以采用多处理装置中的一个或多个处理器，以执行主存储器905所包含的指令。在替换实施例中，可以使用硬连线电路来替代软件指令或与软件指令结合，以实现本发明的实施例。在另一示例中，可以使用可重新配置的硬件，例如现场可编程门阵列(FPGA)，其中，典型地根据编程存储器查找表来在运行时间定制其逻辑门的功能和连接拓扑。因此，本发明实施例不限于硬件电路和软件的任意特定结合。

计算系统900还包括至少一个通信接口915，其耦合到总线901。通信接口915提供耦合到网络链路(未示出)的双向数据通信。通信接口915发送并接收电信号、电磁信号或光信号，这些信号承载了表示各种类型的信息的数字数据流。进一步地，通信接口915可以包括外围接口设备，例如通用串行总线(USB)接口、PCMCIA(个人计算机存储器卡国际联盟)接口等。

处理器903可以在代码被接收到的同时执行所发送的代码，并且/或者将代码存储在存储设备909或其它非易失性存储器中以用于稍后执行。按照该方式，计算系统900可以获得载波形式的应用代码。

在此使用的术语“计算机可读介质”指的是参与将指令提供给处理器903以用于执行的任意介质。这样的介质可以采用多种形式，包括非易失性介质、易失性介质和传输介质，但不限于此。非易失性介质包括例如光盘或磁盘，例如存储设备909。易失性介质包括动态存储器，例如主存储器905。传输介质包括同轴电缆、铜导线和光纤，其包括包含了总线901的导线。传输介质也可以采用例如在射频(RF)和中频(IR)数据通信期间生成的声波、光波或电磁波的形式。计算机可读介质的通用形式包括例如软盘、软磁盘、硬盘、磁带、任意其它磁介质、CD-ROM、CDRW、DVD、任意其它光学介质、打孔卡、纸带、光标记板、具有孔或其它光学可识别标记的图案的任意其它物理介质、RAM、PROM、EPROM和FLASH-EPROM，任意其它存储器芯片或盒式磁带、载波或计算机可读的任意其它介质。

在将指令提供给处理器用于执行中，可以包括各种形式的计算机可读介质。例如，用于执行本发明的至少一部分的指令可以初始被承载在远程计算机的磁盘上。在此情况下，远程计算机将指令加载到主存储器，并使用调制解调器在电话线路上发送所述指令。本地系统的调制解调器在电话线路上接收数据，并且利用红外发射机来将该数据转换成红外信号并将该红外信号发送给便携式计算设备，例如个人数字助理(PDA)或膝上电脑。便携式计算设备上的红外检测器接收由红外信号承载的信息和指令，并将数据放到总线上。总线将所述数据传送到主存储器，处理器从主存储器取得并执行指令。主存储器所接收的指令可选地可以在处理器执行之前或之后被存储在存储设备中。

图10A和图10B是能够支持本发明各个实施例的不同的蜂窝移动电话系统的示图。图10A和图10B示出示例性蜂窝移动电话系统，其每一个既具有移动站(例如手机)又具有基站，所述移动站和基站具有已安装的收发器(作为移动站和基站中的数字信号处理器(DSP)、硬件、软件、集成电路、和/或半导体设备的一部分)。例如，无线电网络支持由国际电信联盟(ITU)为国际移动通信2000(IMT-2000)定义的第二代和第三代(2G和3G)服务。为了解释的目的，关于cdma2000架构来解释无线电网络的载波和信道选择性能。作为IS-95的第三代版本，cdma2000在第三代合作伙伴项目2(3GPP2)中被标准化。

无线电网络1000包括移动站1001(例如手机、终端、站台、单元、设备、或用于用户的其它类型的接口(例如“可佩戴”电路等))，其与基站子系统(BSS)1003通信。根据本发明一个实施例，无线电网络支持国际电信联盟(ITU)为国际移动通信2000(IMT-2000)定义的第三代(3G)服务。

在该示例中，BSS 1003包括基站收发器(BTS)1005和基站控制器(BSC)1007。虽然示出单个BTS，但应理解，多个BTS典型地通过例如点对点链路连接到BSC。每一BSS 1003通过传输控制实体或分组控制功能单元(PCF)1011被链接到分组数据服务节点(PDSN)1009。由于PDSN1009充当对外部网络(例如互联网1013或其它私有用户网络1015)的网关，因此PDSN 1009可以包括访问、授权和计费系统(AAA)1017，以安全地确定用户的身份和特权并跟踪每一用户的活动。网络1015包括网络管理系统(NMS)1031，其被链接到一个或多个数据库1033，所述数据库1033通过由归属AAA 1037确保安全的归属代理(HA)1035而被访问。

虽然示出了单个BSS 1003，但应理解，多个BSS 1003典型地被连接到移动交换中心(MSC)1019。MSC 1019提供对电路交换网络(例如公共交换电话网(PSTN)1021)的连接性。相似地，还应理解，MSC 1019可以连接到相同网络1000上的其它MSC 1019，并且/或者连接到其它无线电网络。MSC 1019通常搭配有访问者位置寄存器(VLR)1023数据库，其保存对于该MSC 1019的有效订户的临时信息。VLR 1023数据库中的数据很大程度上是归属位置寄存器(HLR)1025数据库的拷贝，HLR 1025数据库存储详细的订户服务订购信息。在一些实现方式中，HLR 1025和VLR 1023是相同的物理数据库；然而，HLR 1025可以位于通过例如7号信令系统(SS7)网络访问的远程位置。包含订户特定的认证数据(例如秘密认证密钥)的认证中心(AuC)1027与HLR 1025关联，以认证用户。更进一步地，MSC 1019被连接到短消息服务中心(SMSC)1029，SMSC1029存储短消息并转发来自无线网络1000的短消息或将短消息转发到无线网络1000。

在蜂窝电话系统的典型操作期间，BTS 1005接收并解调来自进行电话呼叫或其它通信的多组移动单元1001的多组反向链路信号。由给定的BTS1005接收的每一反向链路信号在该站台中被处理。所得到的数据被转发到BSC 1007。BSC 1007提供包括BTS 1005之间的软切换配合的呼叫资源分配和移动性管理功能。BSC 1007还将接收到的数据路由到MSC 1019，MSC 1019依次提供用于与PSTN 1021的接口的附加路由和/或交换。MSC1019还负责呼叫建立、呼叫终止、MSC间切换和辅助服务的管理、以及收集、收费和计费信息。相似地，无线电网络1000发送前向链路消息。PSTN 1021与MSC 1019进行接口。MSC 1019附加地与BSC 1007进行接口，BSC 1007依次与BTS 1005通信，BTS 1005调制多组前向链路信号，并将其发送给多组移动单元1001。

如图10B所示，通用分组无线服务(GPRS)架构1050的两个关键元件是服务GPRS支持节点(SGSN)1032和网关GPRS支持节点(GGSN)1034。此外，GPRS架构包括分组控制单元PCU(1036)和收费网关功能单元(CGF)1038，CGF 1038链接到计费系统1039。GPRS移动站(MS)1041采用订户身份模块(SIM)1043。

PCU 1036是逻辑网络元件，负责与GPRS有关的功能，例如空中接口访问控制、空中接口上的分组调度以及分组组装和重组。通常，PCU 1036被物理集成到BSC 1045；然而，其可以与BTS 1047或SGSN 1032结合。SGSN 1032提供与MSC 1049等同的功能，包括移动性管理、安全性和访问控制功能，但是在分组交换域中的。更进一步地，SGSN 1032使用BSSGPRS协议(BSSGP)通过例如基于帧中继的接口与PCU 1036连接。虽然仅示出一个SGSN，但应理解，可以采用多个SGSN 1031，并且可以将服务区域划分为对应的路由区域(RA)。SGSN/SGSN接口允许当在正在进行的个人发展计划(PDP)上下文期间发生RA更新时将分组从旧的SGSN隧穿到新的SGSN。虽然给定的SGSN可以服务于多个BSC 1045，但任意给定的BSC 1045通常与一个SGSN 1032进行接口。此外，可选地，SGSN 1032使用GPRS增强的移动应用部分(MAP)通过基于SS7的接口与HLR 1051连接，或使用信令连接控制部分(SCCP)通过基于SS7的接口与MSC 1049连接。SGSN/HLR接口允许SGSN 1032在SGSN服务区域内将位置更新提供给HLR 1051并获取与GPRS有关的订购信息。SGSN/MSC接口使得能够在电路交换服务和分组数据服务(例如寻呼用于语音呼叫的订户)之间进行协调。最后，SGSN 1032与SMSC 1053进行接口，以能够启用网络1050上的短消息传送功能。

GGSN 1034是对外部分组数据网络(例如互联网1013或其它私人用户网络1055)的网关。网络1055包括网络管理系统(NMS)1057，其链接到通过PDSN 1061访问的一个或多个数据库1059。GGSN 1034分配互联网协议(IP)地址，并还可以认证充当远程用户拨入认证服务主机的用户。位于GGSN 1034的防火墙还执行防火墙功能，以限制免授权流量。虽然仅示出一个GGSN 1034，但应理解，给定的SGSN 1032可以与一个或多个GGSN 1033进行接口，以允许在两个实体之间以及在进出网络1050之间隧穿用户数据。当外部数据网络在GPRS网络1050上初始化会话时，GGSN 1034向HLR 1051询问当前服务于MS 1041的SGSN 1032。

BTS 1047和BSC 1045管理无线电接口，包括控制哪一移动站(MS)1041何时具有对无线电信道的访问。这些元件实际上在MS 1041和SGSN1032之间中继消息。SGSN 1032管理与MS 1041的通信，发送和接收数据并保持对其位置的跟踪。SGSN 1032还注册MS 1041，认证MS 1041，并对发送给MS 1041的数据加密。

图11是根据本发明实施例的能够在图10A和图10B的系统中运行的移动站(例如手机)的示例性组件的示图。通常，经常按照前端和后端特性来定义无线电接收机。接收机的前端包括所有射频(RF)电路，而后端包括所有基带处理电路。电话的有关内部组件包括主控制单元(MCU)1103、数字信号处理器(DSP)1105以及包含麦克风增益控制单元和扬声器增益控制单元的接收机/发射机单元。主显示单元1107以各种应用和移动站功能为支持，将显示提供给用户。音频功能电路1109包括麦克风1111和对从麦克风1111输出的话音信号进行放大的麦克风放大器。被放大的从麦克风1111输出的话音信号被馈送到编码器/解码器(编解码器)1113。

无线电部分1115放大功率并转换频率，以经由天线1117与基站通信，基站被包括在移动通信系统中(例如图10A和图10B的系统)。功率放大器(PA)1119和发射机/调制电路以来自耦合到双工器1121或循环器或天线开关的PA 1119的输出，而操作性地响应于MCU 1103，这为本领域公知。PA 1119还耦合到电池接口和电源控制单元1120。

在使用中，移动站1101的用户对麦克风1111说话，并且他或她的语音连同检测到的背景噪声一起被转换为模拟电压。于是，模拟电压通过模数转换器(ADC)1123被转换为数字信号。控制单元1103将数据信号路由到DSP 1105，以在其中进行处理，例如话音编码、信道编码、加密和交织。在示例性实施例中，通过使用码分多址(CDMA)的蜂窝传输协议来由未单独示出的单元对处理过的语音信号编码，其在电信产业协会的TIA/EIA/IS-95-A用于双模宽带扩频蜂窝系统的移动站-基站兼容性标准中被详细描述；其通过引用被完全合并到此。

于是，被编码的信号被路由到均衡器1125，以补偿在通过空中传输期间出现的频率相关性损伤(例如相位和幅度失真)。在对比特流进行均衡之后，调制器1127将该信号与在RF接口1129中生成的RF信号合并。调制器1127通过频率和相位调制生成正弦波。为了准备用于传输的信号，上变频器1131将从调制器1127输出的正弦波与由合成器1133生成的另一正弦波进行合并，以实现期望的传输频率。于是，通过PA 1119发送所述信号，以将所述信号提升到合适的功率电平。在实际系统中，PA 1119充当可变增益放大器，其增益由DSP 1105根据接收自网络基站的信息来控制。于是，在双工器1121内对该信号滤波，并且可选地将该信号发送给天线耦合器1135，以进行阻抗匹配，从而提供最大功率传输。最后，经由天线1117将信号发送给本地基站。可以提供自动增益控制(AGC)以控制接收机的末级增益。可以从接收机将信号转发到远程电话，所述远程电话可以是另一蜂窝电话、其它移动电话，或连接到公共交换电话网(PSTN)或其它电话网络的地面线路。

经由天线1117接收发送给移动站1101的语音信号，并由低噪声放大器(LNA)1137立即对其放大。下变频器1139降低载波频率，而解调器1141移除RF，仅留下数字比特流。于是，信号通过均衡器1125，并由DSP1105进行处理。数模转换器(DAC)1143对该信号进行转换，所得到的输出通过扬声器1145被发送给用户，所有操作都在主控制单元(MCU)1103的控制下，主控制单元(MCU)1103可以被实现为中央处理单元(CPU)(未示出)。

MCU 1103接收各种信号，包括来自键盘1147的输入信号。MCU 1103将显示命令和转换命令分别交付给显示器1107和话音输出转换控制器。进一步地，MCU 1103与DSP 1105交换信息，并可以访问可选地包括的SIM卡1149和存储器1151。此外，MCU 1103执行站台所需的各种控制功能。根据实现方式，DSP 1105可以对语音信号执行任意的各种传统数字处理功能。此外，DSP 1105从麦克风1111所检测的信号确定本地环境的背景噪声电平，并将麦克风1111的增益设置为所选择的电平，以补偿移动站1101的用户的自然倾向。

编解码器1113包括ADC 1123和DAC 1143。存储器1151存储包括来电基音数据的各种数据，并能够存储包括例如经由全球互联网接收的音乐数据的其它数据。软件模块可以驻留在RAM存储器、闪速存储器、寄存器、或任意其它形式的本领域公知的可写存储介质中。存储器设备1151可以是单式存储器、CD、DVD、ROM、RAM、EEPROM、光学存储器、或能够存储数字数据的任意其它非易失性存储介质，但不限于此。

可选地包括的SIM卡1149承载例如重要信息，例如蜂窝电话号码、运营商提供服务、订购细节以及安全性信息。SIM卡1149主要用于标识无线电网络上的移动站1101。卡1149还包含存储器，以用于存储个人电话号码注册、文本消息和用户特定移动站设置。

图12示出示例性企业网络，其可以是利用基于分组的和/或基于蜂窝的技术(例如异步传输模式(ATM)、以太网、基于IP等)的任意类型的数据通信网络。企业网络1101将连接性提供给有线节点1203和无线节点1205-1209(固定或移动的)，其均被配置为执行上述处理。企业网络1201可以与各种其它网络(例如WLAN网络1211(例如IEEE 802.11)、CDMA 2000蜂窝网络1213、电话网络1215(例如PSTN)、或公共数据网络1217(例如互联网))通信。

虽然已经结合多个实施例和实现方式描述了本发明，但本发明不限于此，而是覆盖落入所附权利要求的范围内的各种明显的修改和等同的配置。虽然在权利要求中以特定组合表达了本发明的特征，但应理解，可以按任意组合和顺序来安排这些特征。

Claims

1.一种方法，包括：

检测包括音频信息的迟到帧，其中已经执行隐藏以替代所述迟到帧；

确定由所述隐藏引入的基音相位差异；以及

在播放随所述迟到帧之后的后续帧之前，补偿所述基音相位差异。

2.如权利要求1所述的方法，进一步包括：

使用所述迟到帧，来使解码器的内部状态与编码器的内部状态重新同步。

3.如权利要求1所述的方法，其中通过以下来确定所述基音相位差异：

在第一信号和第二信号之间进行相关；

确定最大相关性；以及

确定对应于所述最大相关性的延时值。

4.如权利要求3所述的方法，其中所述第一信号对应于被隐藏的所述迟到帧，并且所述第二信号对应于被适当解码的所述迟到帧。

5.如权利要求3所述的方法，其中所述第一信号对应于使用隐藏的内部状态而解码的所述后续帧，并且所述第二信号对应于使用更新的内部状态而解码的所述后续帧。

6.如权利要求1所述的方法，其中通过以下来确定所述基音相位差异：

确定对应于第一信号的第一组基音标记以及对应于第二信号的第二组基音标记；以及

比较所述第一组基音标记与所述第二组基音标记的位置。

7.如权利要求6所述的方法，其中所述第一信号对应于被隐藏的所述迟到帧，并且所述第二信号对应于被适当解码的所述迟到帧。

8.如权利要求6所述的方法，其中所述第一信号对应于使用隐藏的内部状态而解码的所述后续帧，并且所述第二信号对应于使用所述更新的内部状态而解码的所述后续帧。

9.如权利要求1所述的方法，通过以下来确定所述基音相位差异：

使用对所述迟到帧的隐藏之前的最后基音标记的位置、隐藏的基音值以及从所述迟到帧中恢复的实际基音值，来确定隐藏的输出信号的基音标记位置以及正确的输出信号的基音标记位置；并且

比较所述基音标记位置。

10.如权利要求1所述的方法，其中补偿所述基音相位差异包括延时或时间缩放所述后续帧的一部分，从而使得当从隐藏帧转到随后的更新帧时，相应语音信号的自然基音周期性不被破坏。

11.一种装置，包括：

隐藏逻辑，其被配置为替代迟到帧；

配置为检测包括音频信息的迟到帧的逻辑，其中已经执行隐藏以替代所述迟到帧；以及

基音相位补偿逻辑，其被配置为确定由所述隐藏引入的基音相位差异，并且在播放随所述迟到帧之后的后续帧之前补偿所述基音相位差异。

12.如权利要求11所述的装置，进一步包括：

具有内部状态的解码逻辑，所述内部状态被使用所述迟到帧与编码器的内部状态重新同步。

13.如权利要求11所述的装置，所述基音相位差异通过以下来确定：

对第一信号和第二信号进行相关；

确定最大相关性；以及

确定对应于所述最大相关性的延时值。

14.如权利要求13所述的装置，其中所述第一信号对应于被隐藏的所述迟到帧，并且所述第二信号对应于被适当解码的所述迟到帧。

15.如权利要求13所述的装置，其中所述第一信号对应于使用隐藏的内部状态解码的所述后续帧，并且所述第二信号对应于使用更新的内部状态解码的所述后续帧。

16.如权利要求11所述的装置，其中所述基音相位差异通过以下来确定：

比较所述第一组基音标记的位置与所述第二组基音标记的位置。

17.如权利要求16所述的装置，其中所述第一信号对应于被隐藏的所述迟到帧，并且所述第二信号对应于被适当解码的所述迟到帧。

18.如权利要求16所述的装置，其中所述第一信号对应于使用隐藏的内部状态而解码的所述后续帧，并且所述第二信号对应于使用更新的内部状态而解码的所述后续帧。

19.如权利要求11所述的装置，其中所述基音相位差异通过以下来确定：

使用隐藏的基音值以及从所述迟到帧中恢复的实际基音值，来确定隐藏的输出信号的基音标记位置以及正确的输出信号的基音标记位置；并且

比较所述基音标记位置。

20.如权利要求11所述的装置，其中补偿所述基音相位差异包括延时或时间缩放所述后续帧的一部分，从而使得当从隐藏帧转到随后的更新帧时，相应语音信号的自然基音周期性不被破坏。

21.一种移动设备，包括权利要求11所述的装置。

22.一种音频设备，包括权利要求11所述的装置。

23.一种芯片组，包括权利要求11所述的装置。

24.一种系统，包括：

用于检测包括音频信息的迟到帧的装置，其中已经执行隐藏以替代所述迟到帧；

用于确定由所述隐藏引入的基音相位差异的装置；以及

用于在播放随所述迟到帧之后的后续帧之前补偿所述基音相位差异的装置。

25.如权利要求24所述的系统，进一步包括：

用于使用所述迟到帧来使解码器的内部状态与编码器的内部状态重新同步的装置。