CN1579059A

CN1579059A - 在话音突发期间重新同步以减少分组语音终端中同步延迟的方法和装置

Info

Publication number: CN1579059A
Application number: CNA02821661XA
Authority: CN
Inventors: A·拉卡尼米; J·塞林; P·奥亚拉
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-09-04
Filing date: 2002-08-21
Publication date: 2005-02-09
Also published as: KR20040031035A; US7319703B2; EP1423930B1; WO2003021830A1; EP1423930A4; EP1423930A1; US20030043856A1

Abstract

媒体子系统(10A)中实现的电路再现语音或其他类型的音频信号，并可在回放音频数据时工作以减小同步延迟。一种方法的工作原理为：向解码器传送含有音频数据的帧时测量同步延迟；确定应该调整的同步延迟量；以及通过增加或删除选择的当前帧或选择的后续帧中的一个或多个音频样本来以可感知内容的方式调整同步延迟，以免使回放的音频数据的质量显著下降。当通过一个以上的音频样本调整同步延迟时，可以通过确定的所有音频样本一次调整到位，也可以通过确定的部分音频样本进行多次调整。如果可能的话，调整步骤可选择清音帧而不选择过渡帧。确定步骤包括测量帧在抖动缓冲器(18)中驻留的平均时长，并调整同步延迟，以使平均时长接近期望的抖动缓冲器驻留时长。

Description

在话音突发期间重新同步以减少分组语音终端中同步延迟的方法和装置

技术领域

本发明一般涉及处理分组化的音频数据的方法和系统，更具体地说，涉及接收和回放因特网协议(IP)语音或语音数据分组的系统和方法，如无线通信终端和基于个人计算机(PC)的终端。

背景

在基于分组的终端和设备，如无线通信终端(例如，移动和蜂窝电话或个人通信装置)、基于PC得终端以及IP电话网关等领域中，众所周知的，音频设备会每隔一定时间间隔请求将数据转换成音频。但是，这些时间间隔与接收含音频数据的数据分组不是同步的。一个给定的分组可能含有一个或多个数据帧，该帧内所含音频信号的长度或时长一般在20毫秒至30毫秒的范围内(这里通称为“帧长”，虽然指的是时间测量而非空间测量)。接收后，音频数据帧通常存储在抖动缓冲器中，以等待计算的播放时间。播放时间是音频数据帧例如通过数模变换器(DAC)转换成音频信号，然后通过扬声器或某个其他类型的音频变换器放大和再现以供收听者听到所经历的时间。在网关和变码器的情况中，音频通常被发送到基于采样的电路交换网络。因为音频设备按随机的时间间隔请求帧数据，所以相对于音频分组的接收，数据可存储在抖动缓冲器中的时间可变。在抖动缓冲器中的存储时间可以表示为帧长的一半加预期的抖动缓冲时长。用图2对此加以说明：分组在抖动缓冲器先驻留预期的10毫秒(之后即可播放)，但是将在下一20毫秒期间的某个时间才提取该帧，这样导致该帧在抖动缓冲器中额外存储非期望的平均10毫秒时间。

因在现代语音终端和类似设备，如IP电话网关中，音频设备与某个本地频率源同步，这样就会出现问题。例如，频率源可能是，例如振荡器或电话网络时钟信号。但是，在基于分组的终端里，含语音数据的分组的到达速率与驱动音频设备的频率源不相关且与之不同步。IP分组的到达速率与音频设备请求语音数据帧的速率之间的差异可能造成非期望的且不定的“同步延迟”。

再者，由于时钟速率的轻微差异，IP分组的到达速率与音频设备请求语音数据帧的速率之间的差异可能随时间而变化，由此构成连续重新同步的问题。

涉及上述技术的先有共同授予的申请(本专利申请属于它的部分继续申请)中描述了一种在话音突发(talk spurt)开始时执行同步而不连续执行同步的系统和方法。但是，对于长话音突发，如果无法以及时的方式执行同步，这可能是不太优化的方法。再者，如果采用语音编解码器而又未使用静音压缩，可能难于以受控方式处理同步是个问题。

在Ward等人的EP 0921666A2中，介绍通过调整接收器中抖动缓冲器的存储深度来降低非同步实体从分组网络接收的分组语音通信的质量下降。接收到语音采样数据单元时将其存储在抖动缓冲器中。从抖动缓冲器中提取存储单元的速率不时因提取两个单元但只递交一个而加速，或因不提取单元却在相应位置递交替代单元而减速。此技术据说可响应分组接收事件控制存储深度，使延迟最小，同时提供足够的延迟量来平滑分组接收事件之间的差异。

在Nakabayashi的WO 01/11832A1中，描述了采用存储从网络接口接收到的分组的接收缓冲器和参考接收缓冲器的状态来完成声音再现操作的再现控制器。解码器接收存储的数据，然后将解码的数据提供给由再现时钟钟控的DAC。据说此过程可以防止因发送器和接收器之间的时钟差异而导致的接收缓冲器的下溢和上溢，且可防止导致声音损失的分组抖动。

Rosengren的US 6181712 B1描绘了将分组从输入流发送到输出流的技术。当复用传输流时，可能使分组抖动达到使解码器缓冲器下溢或上溢的程度。为了避免此情况，将时间窗口与数据分组相关联，并在分组中提供有关分组在窗口内位置的位置信息。

优选实施例概述

根据本发明的当前优选实施例，克服了上述和其他的问题并实现其他优点。

根据本发明内容，除在话音突发开始时执行同步之外，还可以在话音突发过程中执行同步，由此可以对发现的失步事件作出及时反应。此外，本方法还可以应用于那些未采用语音静音压缩的情况。根据本发明的重新同步过程不需要进行复杂的数据处理，因为可以利用可通过语音解码器得到的信息来完成重新同步过程。

媒体子系统中实现的电路再现语音或其他类型的音频信号，并可在回放音频数据时工作以减小同步延迟。一种方法的工作原理为：含音频数据的帧发送到解码器时测量同步延迟；确定应该对同步延迟作多大调整；以及通过在选择的当前帧或选择的后续帧中增加或删除一个或多个音频样本来以可感知内容(content-aware)的方式调整同步延迟，以免使回放的音频数据的质量显著下降。当通过一个以上的音频样本调整同步延迟时，可以通过一次调整确定的所有音频样本来进行，也可以通过对确定的部分音频样本多次进行调整来进行。如果可能的话，调整步骤可选择清音帧而不选择过渡帧。所述确定步骤包括测量帧在抖动缓冲器中驻留的平均时长；以及调整同步延迟，以使平均时长接近期望的抖动缓冲器驻留时长。

在一个示范性(而非限定性)实施例中，所述电路包含在无线通信设备如蜂窝电话或个人计算机内。在其他实施例中，所述电路和方法可以作为例如基于PC的终端、IP电话网关和IP至电路交换媒体变码器的组成部分来实现。

附图简介

下文参考附图对优选实施例进行详细说明，以阐述本发明的上述和其他方面，附图中：

图1是音频再现系统的媒体子系统的简化方框图，其中还说明音频数据分组接收和回放过程中的媒体流；

图2是有助于理解图1的媒体子系统与达到IP音频数据分组之间的同步延迟的示意图；

图3是说明采用20毫秒帧长的端到端呼叫中遇到的典型的端到端延迟的示意图；

图4是说明执行初始话音突发同步时媒体子系统操作的逻辑流程图；

图5是说明执行初始话音突发同步时媒体子系统操作的更为详细的逻辑流程图；

图6是说明话音突发期间执行重新同步时媒体子系统操作的逻辑流程图；以及

图7是说明图6所示用于确定应该对同步延迟作多大调整的步骤B中算法操作的逻辑流程图。

优选实施例的详细说明

首先应注意，本发明适用于任何处理和回放分组化(或成帧的)音频数据的系统或装置，例如移动蜂窝电话、个人通信装置、基于PC的终端、IP电话网关和IP至电路交换媒体变码器。这些不同类型的设备和系统可以简称为终端。换言之，本发明适用于任何将基于分组的语音链接到电路交换的或其他形式的连续语音的设备。因此，本方法还适用于包括链接IP和PCM链路的网关和变码器的各种设备。

图1是音频再现系统10的媒体子系统10A的简化方框图，其中还说明音频接收过程中的媒体流。虽然主要是在无线通信设备(如蜂窝电话或个人通信装置)上下文中进行说明的，但是应该明确的是，系统10还可以是作为示例而非限制的基于PC的终端或IP电话网关。IP分组从物理层到达网络接口12，在本例中物理层例如是某种类型的分组交换媒体或网络，如拨号电话线路，以太网连接或无线空中接口(例如分组被调制到RF载波或光纤载波上)。网络接口12还可以称为系统10的IP栈。各分组达到网络接口12的时间与音频设备14的操作不同步音频设备14可以是(仅作为实例)移动电话的DAC或IP电话网关的PCM连接。音频设备14可以实现许多种不同的接口之一，例如(但不限于)Linux音频API(应用程序编程接口)、Windows音频API和PCM线路卡。

当分组到达网络接口12时，媒体子系统10A接收到回叫(1)，并通过实时传输协议(RTF)模块16接收分组。关于RTP，可参考H.Schulzrinne、S.Casner、R.Frederick和V.Jacobson的“RTP：实时应用的传输协议”(IETF Network Working Group，RFC 1889，StandardsTrack，January 1996，75p.)，以及H.Schulzrinne的“以最少控制实现音频和视频会议的RTP方案(profile)”(IETF Network Working GroupRFC 1890，Standards Track，January 1996，18p.)。分组内所含帧的播放时间是计算得到的。在下一步(2)，RTP模块16使这些帧插入抖动缓冲器18中或在其中排队。当语音设备14开始播放完要播放的数据时，它会唤醒或中断媒体子系统10A(3)并向RTP模块发出要播放更多数据的请求。作为响应，RTP模块16执行检查，以确定其内部音频缓冲器中是否有足够的语音数据可供填满音频设备的缓冲器。如果有足够的数据，则立即将其写入到音频设备(跳至第6步)。如果缓冲器中的数据是舒适噪声或没有足够量的数据，则根据计算的帧播放时间从抖动缓冲器18中提取下一个可播放帧或使其出队(4)。然后将出队的帧发送到音频编解码器20，例如但不限于PCM编解码器、G.711编解码器(语音频率的脉冲码调制(PCM)，ITU-T建议G.711，1972年第18页)、G.723.1编解码器(以5.3和6.3千比特/秒传输的用于多媒体通信的双速率语音编解码器，ITU-T建议G.723.1，1996年3月第27页)或AMR编解码器(“强制语音编解码器处理功能.AMR语音编解码器；编码转换功能”(3GPPTechnical specification Group Services and System Aspects，3GTS 26.090V3.0.1，September 1999，61p.}，音频编解码器20在第(5)步对音频数据解码，并将解码的音频数据帧返回给RTP模块16。本发明的装置和方法可使用的各种编解码器20可以具有语音活动性检测(VAD)功能，也可以不具有该功能。如果抖动缓冲中没有数据要解码，则生成舒适噪声或错误隐藏数据，具体视编解码器类型和内部状态而定。在第(6)步，RTP模块16将音频数据写入音频设备14，然后媒体子系统10A返回睡眠状态，以等待下一次唤醒。

一般来说，音频设备14按固定时间间隔(如每20毫秒(即编解码器20帧速率))请求表示可播放声音的数据。但是，从分组网络接收IP分组的操作与音频设备14生成的播放唤醒的操作不同步。更具体地来说，音频设备14通常会处理长度与编解码器20的帧长相同(如20毫秒)的数据块形式的音频。这导致平均同步延迟为一半帧长。例如，如果平均帧长为20毫秒，则平均同步延迟约为10毫秒。图2说明20毫秒帧长的示例同步延迟，以及图3说明帧长为20毫秒的两终端之间的端到端延迟。在图3中，测量点每隔一秒出现一个，低的轨迹表示0毫秒长度的抖动缓冲，而高的轨迹表示30毫秒的抖动缓冲。注意，图3中该延迟导致约20毫秒的突然摆幅，然后突然偏移约20毫秒。延迟的变化是因到达IP分组与音频设备14的操作之间失步造成的。同步延迟的逐渐偏移是因为两个终端(发送装置和接收装置)采用不同的时钟频率，这导致这两个终端之间不能维持同步。

上述参考的美国专利申请中的论述(本申请是它的部分继续申请)基于了解许多现代音频编解码器具有语音活动性检测(VAD)和舒适噪声生成功能而作出的，这意味着检测不到语音(即静音)时，则无语音数据发送。相反，计算静音信息描述符(SID)数据，并周期性地传送此数据，接收端据此合成提供给收听者的人造背景噪声，通常称为舒适噪声。已经发现，语音数据往往在称为话音突发的短暂时间间隔或周期内到达，平均持续约一秒，其前后为静音期间，此期间生成舒适噪声。因不在清音或静音期间传输，节约了通信链路带宽，还减少了电池供电的便携式接收终端的功耗。有关舒适噪声的使用，通常可以参考共同授予的、Kapanen的美国专利5835889和Jarvinen等人的5960389。静音描述符信息将以如下所述的方式来加以利用。

根据上述参考的美国专利申请的论述，媒体子系统10A与输入数据分组的到达的同步在新的语音期间开始时，即新语音突发的开始处被重置。这意味着通常重新同步的精度约为一个帧长(如20毫秒)。媒体子系统10A所经历的同步延迟减少为小于编解码器帧长(例如小于20毫秒)，而不会对语音质量产生不利影响。首先，音频设备14的帧长设为与编解码器20的帧长的一部分。例如，音频设备14的帧长减少为编解码器20的帧长的四分之一(即，减少到5毫秒)。这使音频设备14每5毫秒请求一次音频数据。从编解码器20将一个20毫秒帧的音频数据解码到缓冲器14A，然后按5毫秒增量馈送到音频设备14。此外，还记录存储在缓存器14A中的音频数据的类型(即记录它是语音数据还是舒适噪声数据)。

舒适噪声生成期间，在每个音频设备14回叫(或本例中每5毫秒)之后，检查抖动缓冲器18以确定新的可播放数据(如语音数据)是否已从分组数据网络到达。如果没有新的可播放数据到达，则音频设备14继续基于缓冲器14A中的舒适噪声数据工作。但是，如果在抖动缓冲器18中检测到新的可播放数据，则刚到达的可播放数据被编解码器20解码之后，用于覆盖缓冲器14A中的舒适噪声数据或将其删除。即，提前中止舒适噪声数据的播放，而以通常方式更快地开始播放可播放(例如语音)数据。这样，同步延迟减少为音频设备帧长的一半，在本例中为减少到2.5毫秒，从而消除了7.5毫秒的端到端延迟。媒体子系统定时10A与到达语音数据分组的定时的同步在每个话音突发开始时进行。

如上所述，可能在过长的话音突发期间出现某些时钟漂移，这可以在该话音突发期间通过媒体子系统10A重新同步来容纳，下文将对此作更为详细的说明。

注意，上述错误隐藏数据不同于舒适噪声数据，如果存在的话，最好不要以语音数据替代它。

使用前述的过程不会使音频设备14再现的语音质量下降，因为同步操作在舒适噪声生成期间进行，而不是在正在向收听者再现语音时进行。再者，因为通常生成舒适噪声所得音频信号功率比生成浊音音频信号所得音频信号功率低，所以删除部分舒适噪声帧通常不可被收听者听见。

可以理解，如果编解码器20的帧长更长(例如30毫秒或60毫秒)，则前述同步优化愈加有利。

参考图4，操作用于回放音频数据的媒体子系统10A的方法包括在步骤4-A，在音频设备14生成舒适噪声期间，检测含有表示话音突发开始的音频数据的数据分组是否达到。在步骤4-B，该方法通过在话音突发之前中止生成舒适噪声使媒体子系统10A重新同步到话音突发开始，并在步骤4-C，音频设备14回放话音突发。

假定到达数据分组含有至少一帧回放时长为X毫秒(例如在约20毫秒至约60毫秒的范围内)的音频数据，音频设备14设为按X/Y毫秒(其中Y大于1)给定的速率请求要回放的解码音频数据。例如，Y可以设为使X/Y＜10毫秒。再例如，Y可以设为使X/Y＝5毫秒。

图5是图4概括的过程的更为详细的逻辑流程图。该方法在步骤5-A应音频播放回叫事件而开始。在步骤5-B，确定RTP音频缓冲器14A中是否有足够的语音数据。如果确定是肯定的，则控制转到步骤5-C，从缓冲器14A复制数据到音频设备14。如果步骤5-B的确定是否定的，则控制继续到步骤5-D，在其中确定抖动缓冲器18帧是否有可播放的语音数据。如果没有，则在步骤5-E生成舒适噪声，然后控制传到步骤5-C，将舒适噪声数据复制到音频设备14。但是，如果在步骤5-D发现抖动缓冲器18中有可播放数据，则在步骤5-F以(解码的)语音数据替代RTP语音缓存器14A中的任何舒适噪声数据，控制然后转到步骤5-C，将解码的语音数据复制到音频设备14。

至此已经描述了根据本申请作为其部分继续申请的上述参考美国专利申请的论述的方法和装置，现在将说明本发明的实施例。

图3所示的端到端延迟的缓慢移动还表明播放时间与音频设备14提取分组时的时间之间的时间差在缓慢减小。音频设备14最终尝试在分组到达网络接口12之前提取分组。在此情况下，抖动缓冲器18下溢，从而导致音频设备14上分组丢失和端到端延迟增加20毫秒。

如果漂移沿另一个方面进行，即如果延迟缓慢增长，则播放时间和分组提取时间之间的时间差会缓慢增加。在此情况下，抖动缓冲器18最终上溢，从而导致分组在抖动缓冲器18上被丢弃和端到端延迟增加20毫秒。

为了更好地理解本发明的操作，下文将首先对典型语音信号特征作简要讨论。语音信号包括几个不同类型的部分。会话过程中，通常每次仅有一方说话，这形成了交替在语音信号的(活动/非活动)期间说和听的总体结构。这还意味着，平均来说至多50％的时间信号含有实际的语音信息。此外，语音信号还存在更精细的结构。例如，通常语音信号会包含句子之间、词汇之间、以及某些情况中甚至词汇中的音素之间的非活动期。可以理解，此更精细结构的特性很大程度上取决于所用的语言和发言者的语音特征。

再者，活动语音还可以划分为不同的从属类别。典型的分类法将是划分为(周期性的)浊音和(类似噪声的)清音类别或类。GSM语音编解码器(例如AMR编解码器)处理20毫秒帧的语音，而在许多情况中，整个帧可以归类为浊音帧或清音帧。但是，从清音到浊音(以及反之)的过渡发生得较快，在许多情况中，一个20毫秒的帧的持续时间足够包括清音和浊音语音分量。因此，清音与浊音之间的过渡形成第三类别：过渡语音(过渡帧)。再者，还可以将所谓的起始帧视为第四类别，它表示非活动语音期之后是包含活动语音期开始的帧。

在许多通信系统中，数据流可能在传输中会损失。例如，在通过无线电链路传输的过程中，帧可能因比特误码而被破坏，或在分组交换网络中，承载帧的分组可能因网络拥塞而丢失。从接收装置的角度来看，这意味着一些接收帧已被破坏，或甚至完全丢失。因为原则上说，即使非常短的中断都会在重建的语音信号中引起恼人的人工噪声，所以那些为在易错(error prone)环境中工作而设计的语音编解码器配备了错误隐藏算法，以将破坏的和/或丢失的帧的影响减到最小。错误隐藏通常根据先前的有效帧推算被破坏/删除的帧的参数而利用语音信号的平稳特征。此类型的错误隐藏技术仅在只需要替换短时语音的情况下才适用，但是当短时间段内多个连续帧或一定较大数量的帧丢失时，估计丢失的帧变得更为困难，错误隐藏处理过程的结果差于最优结果。

帧删除还导致其他影响。有效的语音压缩(或解压)部分地基于连续语音帧之间的强相关性。例如，在AMR中，语音编解码器作为一种状态机工作，将许多发送的语音参数相对于语音编码器的当前状态编码。编码器的状态随每个发送帧更新，同样解码器状态随每个接收帧更新。当发生帧删除时，除实际丢失的帧，语音质量下降还会传播到后续几个帧，因为编码器和解码器状态之间的同步暂时丢失，因此无法对某些参数解码。虽然错误隐藏可以部分地屏蔽此影响，但它通常需要发生丢失之后的至少少量的帧，直到解码器的状态重新与编码器的状态同步，语音质量返回到可接受的或正常的水平。

就语音帧类型及其对主观质量的影响而言，语音信号可如上所述划分为不同类型的帧。已经注意到，不同帧类型通常对主观语音质量有不同的影响，即某些帧要比其他帧重要。可以预料到，承载非活动语音信号数据的那些语音帧不被视为对语音质量有重要的影响。因此，通常非活动期间丢失一个帧或甚至多个(连续)帧不会使语音质量下降。

而且，含活动语音的某些帧对于主观语音的重要性较其他帧大。清音帧通常类似于噪声，承载相对小的频谱信息。如果丢失，只要信号能级保持相对恒定，就可以补偿这些帧，而不会有明显的影响。但是，浊音帧通常含具有独特频谱特征的明显的周期性结构。因为浊音信号通常保持恒定(或在结构上引入恒定且很小的变化)，所以如果丢失，可以通过重复(或稍微调整)先前帧的结构以基于外插的错误隐藏法较为有效地补偿这些浊音帧。因此，只要没有丢失太多帧(在许多情况中，两个以上的帧丢失往往会导致输出信号中产生可听见的失真)，错误隐藏就可以非常有效地隐藏丢失的浊音和清音帧，而不会在再现语音中产生恼人的质量下降。

但是，其余帧类型，即过渡和起始帧对于错误隐藏算法来说明显是较为困难的情况。这是可以预想到的，因为错误隐藏处理过程基于推算结果利用语音的固定特征来工作，但是这些帧类型会在信号特征曲线中带入突变，这是无法以精确方式预测的。因此，丢失过渡帧或起始帧几乎总是会造成可听到的短暂语音质量下降。

就同步而言，在常规系统中，当新的话音突发开始时确定播放时间偏移量。如果当前话音突发的播放延迟不同于先前话音突发所用的播放延迟，则接收器必须忽略掉部分信号，或者它必须生成一段附加信号以补偿不连续，具体视新播放延迟是短于先前的延迟，还是长于先前的延迟。如果不是非常小心地执行此处理过程，则此类型的语音信号操作可能导致在不连续点处可感知语音质量的明显可听出的劣化。常规方法旨在通过在信号只由舒适噪声构成时一直执行重新同步来使质量下降最小。

通过以可感知内容方式在话音突发期间执行重新同步使同步延迟最小，克服了上述和其他缺点。如上所述，语音信号包含不同的时间段，各时间段对总体主观语音质量有不同的影响。利用此知识，根据本发明的系统10在选择的语音期间执行重新同步，所选择的语音期间应使重新同步过程所需的信号操作不对语音质量产生不利影响。应注意，从最终用户的观点来看，操作语音信号会带来不同于传输错误的影响，因此上述有关传输错误的讨论也适用于此。

因此，当采用以上给出的语音帧分类时，显然不应在过渡语音帧或起始语音帧期间执行重新同步。再者，最好避免在浊音语音帧期间执行重新同步，但是它可以在急需重新同步的情况下执行。但在操作浊音语音信号时，最好的方法是以很小步长(例如一次只有几个样本或甚至一个样本)来进行重新同步，或以时长对应于当前基音周期的步长来进行重新同步。

关于基音周期，可以注意到，在大多数CELP型语音编解码器中，基音周期是编码器提取的参数之一，并被发送到解码器(这适用于例如GSM编解码器EFR、AMR、AMR-WB、ITU-T编解码器G.723.1 & G.729等)。再者，例如在AMR编解码器中，20毫秒帧进一步划分成5毫秒的子帧，并针对每个子帧计算各自的基音周期值，并将其发送出去。

浊音和清音之间的近似帧分类可以遵循基音周期值的历史信息来进行。更具体地来说，语音的浊音段包含明显的周期性结构，而基音周期的值(该周期长度)保持近似相等或仅在该段内稍微变化。但是，语音的清音段通常是类似噪声的信号，而无任何显著的周期性。

在AMR解码器中，与基音周期值相关的增益(“基音增益”)可用于进一步精细描述浊音/清音指示信息：通常在浊音语音中，基音增益高(接近于1.0)，而且随(子)帧保持相对恒定，而在清音语音中，基音增益以基本上类似随机的方式变化。在AMR编解码器(和上述所有编解码器)中，基音增益还是对应于每个子帧接收的参数。

可用于获取在划分或验证浊音/清音帧的分类时使用的附加信息的其他方法可以是观察接收帧内的过零率(清音语音的过零率通常显著高于浊音语音)，观察合成语音信号的能量(浊音信号的能量通常高于清音信号的能量)，或观察合成语音信号的高低能量带之间的能量分布(对于浊音语音，大多数能量集中在低频带，而清音语音的情况则不是这样)。其他用于执行相对简单的浊音/清音分类的方法包括观察线性预测差错，这可以在解码器20中通过计算合成滤波器输入信号(即，激励信号)的能量与合成语音的能量之间的比率来进行。通常，对于浊音语音来说，得到的线性预测差错值比清音语音的低。另一技术基于自适应的和固定的(代数)码本影响(contribution)(有关这些代码的进一步讨论，请参见例如3GPP TS26.090，“AMR语音编解码器；代码转换功能”)之间的能量分布。

应注意，存在许多适于对浊音/清音进行分类的其他方法，因此上述内容不应从限制意义上理解，而仅作为适于确定浊音/清音或刻划其特征的典型方法。还应注意，虽然这些方法通常可以指定在语音编码器中执行，但是本技术领域人员会认识到，与上述列举的各种方法的情况一样，这些方法中的许多方法还可以在语音解码器20中实现。

虽然采用上述示例方法的一种或多种会引入少量的额外计算负担，但因它们不是构成正常语音解码过程的操作，而是相对简单的操作，所以与解码处理过程本身的操作相比，这些操作的计算负担基本可以忽略不计。

检测过渡帧的一种方法可以是对接收帧的各半单独执行上述分析，而对相同帧的每一半进行的不同浊音/清音判断则会清楚地指明过渡帧。该技术在检测从浊音到清音的过渡时尤其有用。作为语音发送的非活动帧(通常位于话音突发的结束位置)可以根据它们非常低的能量(与承载实际语音信号的帧进行比较)来检测。

应理解，语音解码器20中的帧类型分类详细说明可以是编解码器特定的，因此帧类型分类的上述讨论应理解为提供适当实施例的几个简单实例，而不应视为涵盖了本主题的全部。

目前认为清音或非活动类型的语音帧最适于执行信号操作。但是，某些清音帧可承载具有较高能量(即高“音量”)且具有某种变化的信号，因此，应该小心处理以不致于引入可导致可听见劣化的能级不连续。因此，最好也在清音语音期间以小步长执行重新同步。

如上所述，语音解码器20一般可访问可用于估计当前语音帧类型的参数。因此，最好与语音解码器20紧密配合执行重新同步过程，因为这可以以最少的额外处理来实现重新同步。

参考图6，可以采用如下方法减少同步延迟，而又不影响话音突发期间的语音质量。在步骤A，当语音帧发送到解码器20时，计算同步延迟，而在步骤B，根据如下详述的算法，确定应该对所述同步延迟作多大调整。在步骤C，指令解码器20通过增加或丢弃适当数量的语音样本来调整播放同步。当解码器20对帧进行解码时，它确定在当前帧的哪个部分(或某个指定的适当时间窗内的几个后续帧中)中可以进行同步调整而不会降低语音质量(步骤D)。最好对某个预定时长的数据以一个样本大小的步长执行此步骤，所述预定义时长的数据可以是少至一个样本的音频帧的任何片段。注意，调整可以对某整个段一次完成，也可以作为一系列较小的调整来进行。

如上所述，一般在认为用户不可听见的位置上删除或添加音频样本。当从帧中删除样本时，则缩短同步延迟，当向帧增加样本时，则同步延迟增加。例如，在音频设备14中增加少量样本会增加同步延迟，并补偿因时钟漂移导致的延迟图中的缓慢移动(如图3所示)。最好，如果可能的话，调整步骤选择清音帧来进行重新同步调整，而不选择调整过渡帧。必要时，可以在浊音帧中进行调整，但最好以小增量进行调整，以避免产生可听见的人工噪声。

参考图7，用于确定对同步延迟作多大调整的目前最优但非限制性的算法如下：(A)测量分组在抖动缓冲器18中驻留的平均时长；以及(B)调整同步延迟，使平均时长接近期望的抖动缓冲器18时长。

作为非限制性的实例，上述装置和方法可以在无线通信设备、如移动电话、蜂窝无线电电话或个人计算机中实现，分组可以是从无线电信道接收的语音分组。上述装置和方法还可以在基于个人计算机(PC)的电话系统、因特网协议(IP)电话网关或IP至电路交换媒体代码转换器中实现。

此外，应理解，虽然本发明内容是在传输、存储和再现语音或语音数据的上下文中公开的，但是这些论述不限于语音或语音数据，其他类型的音频数据(如音乐)也可以通过采用本文中讨论的方法和装置而获益。在此情况下，可以假定话音突发表示某种其他类型的音频信息，如静音期之后的音乐段。

Claims

1.一种用于在播放音频数据时操作媒体子系统以减少同步延迟的方法，它包括：

当含音频数据的帧发送到解码器时测量同步延迟；

确定应该调整的同步延迟量；以及

通过在选择的当前帧或选择的后续帧中增加或删除一个或多个音频样本来以可感知内容的方式调整同步延迟，以免使回放的音频数据的质量显著下降。

2.如权利要求1所述的方法，其特征在于，所述确定步骤确定一个样本大小的步长下的音频样本的数量。

3.如权利要求1所述的方法，其特征在于，当通过一个以上的音频样本来调整所述同步延迟时，所述调整通过一次调整所有所述确定的音频样本来进行。

4.如权利要求1所述的方法，其特征在于，当通过一个以上的音频样本来调整所述同步延迟时，所述调整通过多次调整部分所述确定的音频样本来进行。

5.如权利要求1所述的方法，其特征在于，可能的话，所述调整步骤选择清音帧来进行。

6.如权利要求1所述的方法，其特征在于，所述调整步骤不选择过渡帧来进行。

7.如权利要求1所述的方法，其特征在于，所述确定步骤包括测量帧在抖动缓冲器中驻留的平均时长；以及调整所述同步延迟，以使所述平均时长接近期望的抖动缓冲器驻留时长。

8.如权利要求1所述的方法，其特征在于，至少一个音频数据帧的播放时长介于约20毫秒至约60毫秒之间。

9.一种用于再现语音信号的装置，它包括缓冲电路，用于在将来自含有表示语音信号的数据的分组的数据发送到解码器之前将其存储；还包括控制电路，所述控制电路可在将包含音频数据的帧发送到解码器时进行操作，用于测量同步延迟，确定应该对所述同步延迟作多大调整，以及通过在选择的当前帧或选择的后续帧中增加或删除一个或多个音频样本来以可感知内容的方式调整所述同步延迟，以免使回放的音频数据的质量显著下降。

10.如权利要求9所述的装置，其特征在于，所述控制电路确定一个样本大小的步长下音频样本的数量。

11.如权利要求9所述的装置，其特征在于，当通过一个以上的音频样本来调整所述同步延迟时，所述调整通过一次调整所有所述确定的音频样本来进行。

12.如权利要求9所述的装置，其特征在于当通过一个以上的音频样本来调整所述同步延迟时，所述调整通过多次调整部分所述确定的音频样本来进行。

13.如权利要求9所述的装置，其特征在于，可能的话，所述控制电路选择清音帧来进行所述调整。

14.如权利要求9所述的装置，其特征在于，所述控制电路不选择过渡帧进行所述调整。

15.如权利要求9所述的装置，其特征在于，所述控制电路在确定所述同步延迟应该调整的量时，进行操作以测量帧在所述缓冲器中驻留的平均时长，并调整所述同步延迟，以使所述平均时长接近期望的缓冲器驻留时长。

16.如权利要求9所述的装置，其特征在于，至少一个音频数据帧的播放时长介于约20毫秒至约60毫秒之间。

17.如权利要求9所述的装置，其特征在于，所述电路包含在无线通信设备内，其中所述分组是从无线电信道接收的。

18.如权利要求9所述的装置，其特征在于，所述电路包含在处理和回放分组语音数据的设备中。

19.如权利要求9所述的装置，其特征在于，所述电路包括移动电话或个人通信装置的一部分。

20.如权利要求9所述的装置，其特征在于，所述电路包括蜂窝无线电电话的一部分。

21.如权利要求9所述的装置，其特征在于，所述电路包括基于个人计算机的电话系统的一部分。

22.如权利要求9所述的装置，其特征在于，所述电路包括因特网协议电话网关的一部分。

23.如权利要求9所述的装置，其特征在于，所述电路包括因特网协议至电路交换媒体代码转换器的一部分。

24.一种用于在根据语音数据合成语音时操作通信设备的方法，所述方法可用于减少同步延迟并包括：

对于要发送到语音解码器的含编码语音数据的接收帧，测量所述同步延迟；

确定应该对所述同步延迟作多大调整；以及通过在所选帧中增加或删除一个或多个音频样本来调整所述同步延迟，以免使再现的语音的质量显著下降，所述帧是根据至少一个与语音解码器相关的参数来选择的，以便在可能的情况下首选清音帧，其次才选择浊音帧，而同时不选择过渡帧。

25.如权利要求24所述的方法，其特征在于，所述确定步骤确定一个样本大小的步长下的音频样本的数量。

26.如权利要求24所述的方法，其特征在于，当通过一个以上的音频样本来调整所述同步延迟时，所述调整通过一次调整所有所述确定的音频样本来进行。

27.如权利要求24所述的方法，其特征在于，当通过一个以上的音频样本来调整所述同步延迟时，所述调整通过多次调整部分所述确定的音频样本来进行。

28.如权利要求24所述的方法，其特征在于，所述确定步骤包括测量帧在抖动缓冲器中驻留的平均时长；以及调整所述同步延迟，以使所述平均时长接近期望的抖动缓冲器驻留时长。

29.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由基音周期组成。

30.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由基音增益组成。

31.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由接收帧内的过零率组成。

32.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由自适应的和固定的码本影响之间的能量分布组成。

33.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由合成语音信号的能量测量值组成。

34.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由线性预测差错值组成。

35.如权利要求24所述的方法，其特征在于，所述至少一个与语音解码器相关的参数由合成滤波器输入上的激励信号与合成语音信号能量之间的比值组成。

36.如权利要求24所述的方法，其特征在于，所述语音解码器包括GSM语音解码器。