CN101682562A - 用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备 - Google Patents

用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备 Download PDF

Info

Publication number
CN101682562A
CN101682562A CN200880013033A CN200880013033A CN101682562A CN 101682562 A CN101682562 A CN 101682562A CN 200880013033 A CN200880013033 A CN 200880013033A CN 200880013033 A CN200880013033 A CN 200880013033A CN 101682562 A CN101682562 A CN 101682562A
Authority
CN
China
Prior art keywords
bag
time
jitter buffer
silence
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880013033A
Other languages
English (en)
Other versions
CN101682562B (zh
Inventor
罗西特·卡普尔
塞拉芬·迪亚斯·斯平多拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101682562A publication Critical patent/CN101682562A/zh
Application granted granted Critical
Publication of CN101682562B publication Critical patent/CN101682562B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/90Buffering arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/90Buffering arrangements
    • H04L49/9023Buffering arrangements for implementing a jitter-buffer

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)

Abstract

本发明提供一种用于包交换通信的网络电话(VoIP)的自适应去抖动缓冲器。所呈现的去抖动缓冲方法和设备依据是在句间还是在句内检测到静默周期而修改包的回放以优化通信系统中的语音质量。在一个实例中,去抖动缓冲器确定与多个所接收的包相关联的至少一个静默周期的长度,并基于所述静默周期的所述所确定的长度确定用以发射所述包的一部分的时间。在另一实例中,静默表征器单元执行此功能。

Description

用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备
技术领域
本发明涉及无线通信系统,且具体来说,涉及在用于包交换通信的网络电话(VoIP)的自适应去抖动缓冲器中的包的回放。
背景技术
在通信系统中,可将包的端到端的延迟界定为从其在源处产生到所述包到达其目的地时的时间。在包交换通信系统中,包从源行进到目的地的延迟可视各种操作条件而变化,所述操作条件包括(但不限于)信道条件和网络负载。信道条件是指无线链路的质量。
包的端到端的延迟包括引入网络和各种元件(包经由所述元件而传递)中的延迟。许多因素影响端到端的延迟。端到端延迟中的变化是指抖动。例如抖动等因素导致通信质量的降级。可实施去抖动缓冲器以对抖动进行校正并改进通信系统中的总体质量。
附图说明
图1为通信系统的框图,其中接入终端包括自适应去抖动缓冲器;
图2说明去抖动缓冲器的实例;
图3说明一个实例中的去抖动缓冲延迟;
图4为说明以下实例的时序图:i)压缩话语片断的静默部分;以及ii)扩展话语片断的静默部分;
图5说明具有话音突峰和静默周期的话语的片断;
图6说明压缩和扩展短句中的静默周期的实例;
图7说明具有RTP时间戳的连续包;
图8A说明所揭示方法的实例;
图8B说明所揭示方法的另一实例;
图8C说明所揭示方法的另一实例;
图9说明所揭示的方法和设备的实例的流程图;
图10为通信系统的框图,其中接入终端(AT)包括自适应去抖动缓冲器和静默表征器单元;
图11为并入有所揭示的方法和设备的实例的通信系统中的接收器的一部分的框图;
图12为说明根据一个实例的通信系统的框图,其包括自适应去抖动缓冲器和静默表征器单元;以及
图13说明所揭示的方法和设备的实例的流程图。
具体实施方式
一般来说,话语由具有话音突峰周期和静默周期的句子组成。个别句子通过静默周期分开,且一句子可包含由静默周期分开的多个话音突峰。句子可长可短,且句子内(或“句内”)的静默周期通常可比分开句子的静默周期短。在本文中使用时,话音突峰通常由多个数据包组成。在例如网络电话(VoIP)、视频电话、互动游戏、消息接发等的许多服务和应用中,将数据形成为包且经由网络路由。
一般来说,在无线通信系统中,信道条件、网络负载、系统的服务质量(QoS)能力、不同流动造成的资源竞争尤其影响网络中包的端到端延迟。可将包的端到端延迟界定为包在网络内从“发送器”行进到“接收器”所花费的时间。每一包可招致独特的源到目的地的延迟,从而造成通常称为“抖动”的条件。如果接收器未能校正抖动,则当包重新组装时所接收的消息将遭受失真。当到达接收器的包未能以规则时间间隔到达时,可使用去抖动缓冲器来调整传入数据的不规则性。去抖动缓冲器平滑化包所经历的抖动,且消除接收器处包到达时间的变化。在一些系统中,可使用自适应去抖动缓冲器来延迟每一话音突峰的第一包的回放而实现此平滑化效应。可使用一算法来计算所述“去抖动延迟”,或所述“去抖动延迟”可等于接收语音数据所花费的时间,等于去抖动缓冲延迟的长度。
通道条件可变化,且因此抖动可变化,且去抖动缓冲器的延迟可根据不同话音突峰而改变以适应这些改变的条件。当调适去抖动延迟时,可用本文中称为“时间弯折”的方法来扩展或压缩包(表示话语和静默两者)。当话语包经时间弯折时,所感知的通信的语音质量可不受影响。然而,在某些情形下,当将时间弯折应用于静默周期时,语音质量可能会显得降级。因此,本发明的目的为提供用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备。
以下论述可应用于包化通信中,且具体来说,详细描述语音通信,其中数据或话语和静默起源于一源处并被发射到目的地以供回放。话语通信为本论述的应用的一实例。其它应用可包括视频通信、游戏通信或具有与话语通信的特征类似的特征、规范和/或要求的其它通信。为清楚起见,以下论述描述支持包数据通信的扩频通信系统,其包括(但不限于)码分多址(CDMA)系统、正交频分多址(OFDMA)、宽带码分多址(W-CDMA)、全球移动通信系统(GSM)系统、支持例如802.11(A、B、G)、802.16、WiMAX等IEEE标准的系统。
图1为说明数字通信系统100的框图。两个接入终端(AT)130和140经由基站(BS)110通信。在AT 130内,发射处理单元112将语音数据发射到编码器114,编码器114编码且包化语音数据,并将经包化数据发送到低层处理单元108。为进行发射,接着将数据发送到BS 110。BS 110处理所接收的数据,并将所述数据发射到AT 140,其中在低层处理单元120处接收所述数据。接着将数据提供到去抖动缓冲器122,其存储数据以消除或减少抖动的影响。从去抖动缓冲器122将数据发送到解码器124,且继续发送到接收处理单元126。
为了从AT 140发射,从发射处理单元116将数据/语音提供到编码器118。低层处理单元120处理数据以供发射到BS 110。为在AT 130处接收来自BS 110的数据,在低层处理单元108处接收数据。接着将数据包发送到去抖动缓冲器106,所述数据包存储于所述去抖动缓冲器106处直到达到所需的缓冲长度或延迟为止。一旦获得此长度或延迟,则去抖动缓冲器106开始将数据发送到解码器104。解码器104将经包化数据转换为经取样语音,并将所述包发送到接收处理单元102。在本实例中,AT 130的行为类似于AT 140。
将存储装置或去抖动缓冲器用于AT(例如上述AT)中以消除抖动效应。图2说明去抖动缓冲器的一个实例。传入的经编码包经累积并存储于缓冲器中。在一个实例中,缓冲器为先进先出(FIFO)缓冲器,其中以特定次序接收数据并以该相同次序对其进行处理;所处理的第一数据为所接收的第一数据。在另一实例中,去抖动缓冲器为有序清单,其追踪接下来处理哪一包。
图3说明各种情形下的包发射、接收和回放时间线。在时间t0发射第一包(PKT 1),且在在时间t1接收后回放。在PKT 1后以20ms的时间间隔发射后续包PKT 2、PKT 3和PKT 4。在没有时间弯折的情况下,解码器以规则时间间隔(例如,20ms)从第一包的回放时间回放包。举例来说,如果解码器以规则的20ms时间间隔回放包,则在时间t1回放第一所接收包,且将在时间t1后20ms、时间t1后40ms、时间t1后60ms等回放后续包。如图3所说明,PKT 2的预期回放时间(无去抖动缓冲延迟)为t2=t1+20ms。此处,PKT 2在其预期回放时间t2前经接收。另一方面,包3在其预期回放时间t3=t2+20ms后经接收。此条件称为下溢。下溢出现在回放设施准备好播放一包,但所述包并不存在于去抖动缓冲器中的时候。下溢通常致使解码器产生擦除,并使回放质量降级。
图3进一步说明第二情形,在所述情形中,去抖动缓冲器在第一包的回放前引入延迟tdjb。在此情形中,添加去抖动缓冲延迟以使回放设施能够每隔20msec接收包(或样本)。在此情形中,即使PKT 3在其预期回放时间t3后经接收,去抖动缓冲延迟的添加还允许在回放PKT 220ms后播放PKT 3。在时间t0发送PKT 1,在时间t1接收,且替代如先前在时间t1回放,现在在时间t1+tdjb=t1′回放。回放设施以预定时间间隔(例如,在PKT 1后20ms或在时间t2′=t1+tdjb+20=t2+tdjb)播放PKT 2,且在时间t3′=t3+tdjb播放PKT 3。使回放延迟tdjb允许在不引起下溢的情况下播放第三包。因此,如图3所说明,去抖动缓冲延迟的引入可减少下溢,且防止话语质量降级。
在一个实例中,去抖动缓冲器具有自适应缓冲存储器,并使用话语时间弯折来增强其追踪可变延迟和抖动的能力。在此实例中,去抖动缓冲器的处理与解码器的处理相协调,其中所述去抖动缓冲器识别时间弯折包的机会或需要,并指令解码器来时间弯折所述包。当由去抖动缓冲器指令时,解码器通过压缩或扩展包来时间弯折包。在2005年8月30日申请且转让给本发明的受让人的共同待决的标题为“用于自适应去抖动缓冲器的方法和设备(METHOD AND APPARATUS FOR AN ADAPTIVE DE-JITTERBUFFER)”的第11/215,931号美国申请案中进一步论述了自适应去抖动缓冲器。自适应去抖动缓冲器可为存储器存储单元,其中去抖动缓冲器的状态为对存储于自适应去抖动缓冲器中的数据(或包数目)的测量。可将由去抖动缓冲器处理的数据从去抖动缓冲器发送到解码器或其它设施。经编码包可对应于固定的话语数据量,例如,20msec对应于8kHz取样速率下的160个话语数据样本。
图4说明归因于不同话音突峰之间的去抖动延迟的差异的“静默压缩”与“静默扩展”的实例。在图4中,阴影区域420、424和428表示话音突峰,而非阴影区域422和426表示所接收信息的静默周期。在接收时,话音突峰420在时间t1开始,且在时间t2结束。在接收器处,引入去抖动缓冲延迟,且因此话音突峰420的回放在时间t1′开始。去抖动缓冲延迟被识别为时间t1′与时间t1之间的差异。在接收时,静默周期422在时间t2开始,且在时间t3结束。静默周期422经压缩,且作为静默周期432从时间t2′回放到t3′,其比所接收静默周期422的初始持续时间少。话音突峰424在源处在时间t3开始,且在时间t4结束。话音突峰424在接收器处从时间t3′回放到时间t4′。静默周期426(时间t4到t5)在接收器处作为静默周期436回放时被扩展,其中(t5′-t4′)大于(t5-t4)。可在去抖动缓冲器不久需要回放包时压缩静默周期,且可在去抖动缓冲器需要延迟包的回放时扩展。
如果静默周期仅由少数帧组成,例如当在句子中出现静默周期时,语音质量可能受到静默周期的扩展或压缩影响。图5说明用于多词句(例如“PRESS THE PANTS”)的静默与话语帧的分解。在图5中,“A”表示有效话语,且“S”表示静默。此处,与话语部分的长度相比,话音突峰之间的静默的长度较短。如果静默周期的长度经压缩或扩展,则句子可能显得加速或减慢。此情形进一步说明于图6中。展示仅由一个词组成的句子“CHINA”。假设静默周期出现于“CHI”与“NA”之间,且所述静默周期在发射器处最初为40msec。此处,如果静默在接收器处被压缩到20msec,则“I”声可能失真,并导致所述词明显加速为“CH-NA”。另一方面,如果静默周期被扩展到80msec,则“I”声可显得过度强调,从而导致失真或句子明显减慢为(例如)“CH-I-I-I-I-I-NA”。这些失真导致所感知的总体语音质量的降级。
由于短的静默周期的扩展或压缩可导致降级,因此可在接收器处维持所发射的静默周期的长度。在一种情形中,当检测到例如图5和图6中所说明的静默周期的句内静默周期时,可确定所发射静默的长度,且接着在接收器处维持所述长度。因此,本发明的一个目标为确定在句子内(或句内)何时出现静默。在一个实例中,可基于句子结尾的检测而将句子彼此区别。当检测到句子结尾时,可确定在句子结尾之前出现的静默周期出现于句内,且不对其进行压缩或扩展。如果检测到特定数目的连续静默包,则可确定句子结束。举例来说,指示句子结尾的连续静默包的数目可等于10。在另一实例中,如果确定所发射静默周期的长度小于特定量(例如,200msec),则可假设静默周期出现于句内。在此情形中,如果检测到的静默长200msec,则接着在接收器处维持200msec的静默周期。不通过自适应去抖动缓冲器来执行静默的压缩或扩展。在一实例中,当检测到的静默周期的长度小于200msec或在句子结尾处时,可停用静默压缩或静默扩展触发器。相比而言,当在句子之间(“句间”)检测到静默时,去抖动缓冲器正常操作,且可压缩或扩展在这些时间间隔期间检测到的静默包。
在本发明的另一方面中,可使用话音突峰的最后一个包与下一话音突峰的第一包之间的RTP时间戳的差异来计算话音突峰之间的静默周期的长度。对于每一发射的包,实时传输协议(RTP)包的序列号(SN)递增一。接收器使用SN来恢复包序列并检测包损失。时间戳(TS)可反映RTP数据包中的头八个字节的取样时刻。从在时间上单调线性递增的时钟导出取样时刻。在处理话语的应用中,TS可递增对应于每一话语包中的样本的数目的恒定增量。举例来说,输入装置可接收具有160个取样周期的话语包,因此TS针对每一包递增160。
图7说明在连续SN和TS增量为160的流中的一系列包。不管包载运话语片断还是表示静默片断,TS增量均相同,即,为160。举例来说,对于以8kHz的取样速率产生20msec帧的类似EVRC的声码器,RTP TS针对连续包每隔20msec增加160(8000*0.02=160样本)。如图7所说明,第一包的RTP TS为160,第二包的RTP TS为320,第三包的RTPTS为480等。一实例可用以说明话音突峰间静默周期的长度的确定。假设一话音突峰的最后一个帧的RTP时间戳为3000,且下一话音突峰的第一帧的RTP时间戳为3640。此给出3640减去3000(等于640)的RTP TS差异(ΔRTP)。另外,对于8kHz下的20msec帧,640对应于长度为20*(640/160)或80msec的静默周期。
在另一实例中,如果过于严格地维持静默的长度,则可能从去抖动缓冲器的操作移除自由度。去抖动缓冲器的一目标为引入最佳延迟以便校正抖动。可用改变通道条件以及考虑例如帧错误率等因素来更新此延迟。如果过于严格地维持静默的长度且去抖动缓冲器经设计以仅在句子之间调适,则可能引入无效。举例来说,在某些初始通道条件期间,去抖动缓冲器的句间调适可证明为足够的。然而,抖动条件的突然改变可能导致需要在甚至很短的句子之间进行调适。如果停用此能力,则去抖动缓冲器将不能足够快地适应于总体改变抖动条件。
为了在维持语音质量完整性的同时以所需的自由度来操作去抖动缓冲器,所揭示的本发明的一实例旨在于句内出现的话音突峰间宽松地维持静默长度。为实现此目标,可将句内静默长度调整基于信道条件、用户输入等使用一算法而计算出的量。所得静默长度(尽管经调整)接近语音源中的原始静默的长度。在确定经调整的静默长度时,考虑静默压缩和静默扩展的效应。举例来说,在某些情形中,静默压缩比静默扩展更明显,因此可仅触发扩展。另一考虑因素为原始静默的长度。举例来说,当语音源中的原始静默相对较长时,调整量更具灵活性。举例来说,如果原始静默长度为20msec,则在接收器处将静默扩展40msec可为明显的。另一方面,如果原始静默长度为100msec,则在接收器处将静默扩展40msec可能并不非常明显。假设语音源中的原始静默长度为Xsec,则本发明的一实例维持以下静默间隔:
[X-a,X+b],其中a=MIN(0.2*X,0.02)sec,且b=MIN (0.4*X,0.04)sec
根据所述一个实例,对于每一所接收句子的第一话音突峰,第一包的回放可延迟Δ,其中Δ等于去抖动缓冲延迟。对于每一句子的后续话音突峰,可根据以下算法的实例延迟第一包的回放:
使arrival_time为第一包的到达时间。使depth_playout_time为在第一包到达后其因去抖动缓冲延迟而延迟的情况下将播出第一包的时间。而且,使spacing_playout_time(n)为在第一包与先前话音突峰的结尾维持为n的间隔的情况下将播出第一包的时间。使X为先前话音突峰的最后一个包与当前包之间的实际间隔。使actual_delay表示播出包的时间。则:
If(depth_playout_time<spacing_playout_time(X-a))
actual_delay=spacing_playout_time(X-a)                        (a)
Else If(depth_playout_time>=spacing_playout_time(X-a)ANDdepth_playout_time<=spacing_playout time(X+b))
actual_delay=depth_playout_time                               (b)
Else If(depth_playout_time>spacing_playout_time(X+b))
actual_delay=MAX(arrival_time,spacing_playout_time(X+b))     (c)
这些条件说明于图8A到图8C中。在图8A中,将句子的第一话音突峰的第一包的回放延迟Δ,其中Δ等于去抖动缓冲延迟。对于句子的下一话音突峰,如果下一话音突峰的第一包到达后其因去抖动缓冲延迟而延迟的情况下将播出下一话音突峰的第一包的时间小于在第一包与先前话音突峰的结尾被维持为(X-a)的间隔的情况下将播出第一包的时间,则播出包的时间等于值(X-a)。
在图8B中,句子的第一话音突峰的第一包的回放被延迟Δ,其中Δ等于去抖动缓冲延迟。对于句子的下一话音突峰,假如在下一话音突峰的第一包到达后其因去抖动缓冲延迟而被延迟的情况下将会已播出下一话音突峰的第一包的时间大于或等于在第一包维持与先前话音突峰的结尾(X-a)的间隔的情况下将可能已播出第一包的时间,且假如下一话音突峰的第一包在到达后其因去抖动缓冲延迟而被延迟的情况下将会已播出下一话音突峰的第一包的时间小于或等于在第一包维持(X+b)的间隔的情况下将可能已播出第一包的时间,则播出第一包的时间等于在第一包到达后其因去抖动缓冲延迟而被延迟的情况下将播出第一包的时间的值。
在图8C中,句子第一话音突峰的第一包的回放被延迟Δ,其中Δ等于去抖动缓冲延迟。对于句子的下一话音突峰,假如在下一话音突峰的第一包到达后其因去抖动缓冲延迟而被延迟的情况下将会已播出下一话音突峰的第一包的时间大于在第一包维持与先前话音突峰的结尾(X+b)的间隔的情况下将会已播出第一包的时间,则播出包的时间等于下一话音突峰的第一包的到达时间或(X+b)中的较大者。
在图9的流程图中进一步说明以上方法。在框900中,确定在句子内是否出现静默周期。如果未出现,则过程返回到框900。如果在句子内出现静默周期,则过程继续到框910,在框910中,确定depth_playout_time是否小于spacing_playout_time(X-a)。如果是,则应用于静默的实际延迟等于框970处的值(X-a)。否则,过程继续到框920,在框920中,确定depth_playout_time是否大于或等于spacing_playout_time(X+b)。如果是,则过程继续到框940,且应用于静默的实际延迟等于depth_playout_time的值。过程在框980处结束。现在返回到框920,如果确定depth_playout_time不大于或等于spacing_playout_time(X+b),则应用于静默的实际延迟等于arrival_time和spacing_playout_time(X+b)中的较大者。过程在框980处结束。
图10为包括两个终端AT 1030和1040的系统的框图,所述AT 1030和1040经由网络元件(此处为BS 1010)进行通信。在AT 1030中,发射处理单元1012将语音数据发射到编码器1014,编码器1014将语音数据数字化并将经包化数据发送到低层处理单元1008。接着将包发送到BS 1010。当AT 1030从BS 1010接收数据时,首先在低层处理单元1008中处理数据,从所述低层处理单元1008将数据的包提供到自适应去抖动缓冲器1006。静默可(例如)在静默表征器1005中被表征为句间或句内(在去抖动缓冲器内或作为单独模块的部分)。在一实例中,静默表征器1005确定静默周期出现于句内还是句间。如果静默出现于句间,则可扩展或压缩静默周期,例如,如在2005年8月30日申请且转让给本发明的受让人的共同待决的′931申请案“用于自适应去抖动缓冲器的方法和设备(METHOD AND APPARATUS FOR AN ADAPTIVE DE-JITTERBUFFER)”中所揭示。AT 1030的行为类似于AT 1040的行为。AT 1040在从发射处理单元1016到编码器1018到低层处理单元1020且最后到BS 1010的路径上发射数据。AT 1040在从低层处理单元1020到自适应去抖动缓冲器1022到静默表征器1021到解码器1024到接收处理单元1026的路径上接收数据。未说明进一步处理,但可能影响例如语音等数据的回放,且可能涉及音频处理、屏幕显示等。
图11为并入有所揭示的本发明的一实例的通信系统中的接收器的一部分的框图。物理层处理单元1104将数据提供到数据堆栈1106。数据堆栈1106将包输出到去抖动缓冲器和控制单元1108。静默表征器1110确定检测到的静默周期出现于句内还是句间。如果静默出现于句内,则去抖动缓冲器如本发明的实例中所揭示而维持静默。前向链路(FL)媒体接入控制(MAC)处理单元1102将切换指示提供给去抖动缓冲器和控制单元1108。MAC层实施用于在物理层上(即,以无线方式)接收和发送数据的协议。MAC层可包括安全、加密、验证和连接信息。在支持IS-856的系统中,MAC层含有支配控制信道、接入信道以及前向与反向业务信道的规则。
在静默时间间隔期间,将包从自适应去抖动缓冲器和控制单元1108发送到不连续发射(DTX)单元1112,其中DTX单元1112将背景噪声信息提供给解码器1114。由去抖动缓冲器和控制单元1108提供的包准备用于解码处理,且可称作声码器包。解码器1114对包进行解码。在本发明的另一方面中,可启用时间弯折单元对话语包进行时间弯折,如在2005年8月30日申请且转让给本发明的受让人的′931申请案“用于自适应去抖动缓冲器的方法和设备(METHOD AND APPARATUS FOR AN ADAPTIVEDE-JITTER BUFFER”中所揭示。将经脉码调制(PCM)的话语样本从解码器1114提供到时间弯折单元1116。时间弯折单元1116可从去抖动缓冲器和控制单元1108接收时间弯折指示符。所述指示符可指示如上述专利申请案中所揭示的话语包的扩展、压缩或无弯折。
图12为说明根据一个实例的接入终端(AT)的框图,其包括自适应去抖动缓冲器1204和静默表征器单元1224。在一个实例中,去抖动缓冲器包括如图12所说明的静默表征器单元1224。在另一实例中,去抖动缓冲器1204与静默表征器单元1224为单独元件。去抖动缓冲器1204、时间弯折控制单元1218、接收电路1214、静默表征器单元1224、控制处理器1222、存储器1208、发射电路1210、解码器1206、H-ARQ控制1220、编码器1216、话语处理1228和错误校正1202可如前述实例所展示而耦合在一起。另外,其可经由图12所展示的通信总线1212耦合在一起。
可通过图13所说明的对应装置加功能块执行上述图9的方法。换句话说,图9中所说明的框900到980对应于图13所说明的装置加功能框1300到1380。
虽然本说明书描述本发明的特定实例,但所属领域的技术人员可在不脱离发明性概念的情况下设计本发明的变化。举例来说,本文中的教示涉及电路交换网络元件,但同样可适用于包交换域网络元件。而且,本文中的教示不限于验证三元组对,而是还可应用于包括两个SRES值(一者具有习惯格式,且一者具有本文所揭示的较新格式)的单一三元组的使用。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,在整个以上描述中可能参考的数据、指令、命令、信息、信号、位、符号和码片可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示。
所属领域的技术人员将进一步了解,可将结合本文中所揭示的实例而描述的各种说明性逻辑块、模块、电路、方法和算法实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件和软件的此互换性,已根据其功能性在上文中大体上描述了各种说明性组件、块、模块、电路、方法和算法。将此功能性实施为硬件还是软件取决于特定应用和强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以变化的方式实施所描述的功能性,但不应将此些实施决策解释为导致脱离本发明的范围。
可使用经设计以执行本文中所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行结合本文中所揭示的实例而描述的各种说明性逻辑块、模块和电路。通用处理器可为微处理器,但在替代方案中,所述处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP和微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它此类配置。
结合本文中所揭示的实例而描述的方法或算法可直接包含在硬件中、由处理器执行的软件模块中,或两者的组合中。软件模块可驻留于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸盘、CD-ROM,或此项技术中已知的任何其它形式的存储媒体中。可将存储媒体耦合到处理器,使得处理器可从存储媒体读取信息以及将信息写入到存储媒体。在替代方案中,可使存储媒体与处理器成一体。处理器和存储媒体可驻留于ASIC中。
在一个或一个以上示范性实施例中,所描述的功能可实施于硬件、软件、固件或其任何组合中。如果实施于软件中,则可将所述功能作为一个或一个以上指令或代码存储于计算机可读媒体上或经由计算机可读媒体来传输。计算机可读媒体包括计算机存储媒体和通信媒体(包括促进计算机程序从一个位置转移到另一位置的任何媒体)。存储媒体可为可由计算机存取的任何可用媒体。以实例非限制的方式,所述计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于载运或存储呈指令或数据结构的形式且可由计算机存取的所要程序代码的任何其它媒体。而且,可将任何连接适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输软件,则所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括于媒体的定义中。在本文中使用时,磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。还应将以上各项的组合包括于计算机可读媒体的范围内。
提供对所揭示实例的先前描述以使任何所属领域的任何技术人员能够制作或使用本发明。所属领域的技术人员将容易明白对这些实例的各种修改,且在不脱离本发明的精神或范围的情况下,可将本文中所界定的一般原理应用于其它实例。因此,不希望将本发明限于本文中所示的实例,而是将赋予其与本文中所揭示的原理和新颖特征一致的最广泛范围。

Claims (20)

1.一种方法,其包含:
接收多个包;
存储所述所接收的包;
确定与所述所接收的多个包相关联的至少一个静默周期的长度;以及
基于所述至少一个静默周期的所述所确定的长度确定用以发射所述所存储的包的一部分的时间。
2.根据权利要求1所述的方法,其中将所述所接收的包存储于自适应去抖动缓冲器中。
3.根据权利要求2所述的方法,其进一步包含:
确定在句子内是否出现所述所接收的包。
4.根据权利要求3所述的方法,其中:
所述确定在句子内是否出现所述所接收的包进一步包含确定所接收的静默包的最大连续数目是否小于特定数目。
5.根据权利要求4所述的方法,其中所述数目等于十。
6.根据权利要求3所述的方法,其中:
所述确定在句子内是否出现所述所接收的包进一步包含确定与所述所接收的包相关联的所述至少一个静默周期中的最长者是否短于特定时间帧。
7.根据权利要求3所述的方法,其进一步包含:
如果在句子内出现所述所接收的包,则调适所述去抖动缓冲器以维持最初发射的静默周期的长度;以及
以所述所维持的长度发射所述所存储的包的所述部分。
8.根据权利要求7所述的方法,其中静默的所述所维持的长度为[X-a,X+b]。
9.根据权利要求8所述的方法,其中[X-a,X+b]与所述最初发射的静默周期的所述长度成比例。
10.根据权利要求8所述的方法,其中调适所述去抖动缓冲器进一步包含:
确定去抖动缓冲延迟;
以等于所述去抖动缓冲延迟的时间发射所述所存储的包的第一部分;以及
以基于所述值[X-a,X+b]而计算出的时间发射所述所存储的包的第二部分。
11.根据权利要求10所述的方法,其进一步包含:
如果所述去抖动缓冲延迟小于对应于(X-a)的时间,则以对应于(X-a)的时间发射所述所存储的包的所述第二部分。
12.根据权利要求10所述的方法,其进一步包含:
如果所述去抖动缓冲延迟大于或等于对应于(X-a)的时间,且所述去抖动缓冲延迟小于或等于对应于(X+b)的时间,则以对应于所述去抖动缓冲延迟的时间发射所述所存储的包的所述第二部分。
13.根据权利要求10所述的方法,其进一步包含:
如果所述去抖动缓冲延迟大于对应于(X+b)的时间,则以等于对应于到达时间的时间或对应于(X+b)的时间中的较大者的时间发射所述所存储的包的所述第二部分。
14.一种设备,其包含:
接收器,其用于接收多个包;
去抖动缓冲器,其用于存储所述所接收的包;以及
静默表征器单元,其用于确定与所述所存储的多个包相关联的至少一个静默周期的长度,并基于所述至少一个静默周期的所述所确定的长度确定用以发射所述所存储的包的一部分的时间。
15.一种设备,其包含:
用于接收多个包的装置;
用于存储所述所接收的包的装置;
用于确定与所述所接收的多个包相关联的至少一个静默周期的长度的装置;以及
用于基于所述至少一个静默周期的所述所确定的长度确定用以发射所述所存储的包的一部分的时间的装置。
16.根据权利要求15所述的设备,其中所述用于存储所述所接收的包的装置包含自适应去抖动缓冲器。
17.根据权利要求15所述的设备,其进一步包含:
用于确定在句子内是否出现所述所接收的包的装置。
18.根据权利要求17所述的设备,其中所述确定装置包含去抖动缓冲器装置。
19.根据权利要求18所述的设备,其中所述去抖动缓冲器装置进一步包含表征器装置。
20.一种计算机程序产品,其包含:
计算机可读媒体,所述计算机可读媒体包含:
用于致使计算机接收第一多个包和第二多个包的代码;
用于致使所述计算机存储所述所接收的包的代码;
用于致使所述计算机确定与所述所接收的多个包相关联的至少一个静默周期的长度的代码;以及
用于致使所述计算机基于所述至少一个静默周期的所述所确定的长度确定用以发射所述所存储的包的一部分的时间的代码。
CN2008800130332A 2007-04-24 2008-04-23 用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备 Expired - Fee Related CN101682562B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/739,548 US20080267224A1 (en) 2007-04-24 2007-04-24 Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility
US11/739,548 2007-04-24
PCT/US2008/061348 WO2008134384A1 (en) 2007-04-24 2008-04-23 Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility

Publications (2)

Publication Number Publication Date
CN101682562A true CN101682562A (zh) 2010-03-24
CN101682562B CN101682562B (zh) 2013-12-04

Family

ID=39731123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800130332A Expired - Fee Related CN101682562B (zh) 2007-04-24 2008-04-23 用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备

Country Status (12)

Country Link
US (1) US20080267224A1 (zh)
EP (2) EP2140635B1 (zh)
JP (1) JP4944243B2 (zh)
KR (1) KR101126056B1 (zh)
CN (1) CN101682562B (zh)
AT (1) ATE544269T1 (zh)
BR (1) BRPI0810544A2 (zh)
CA (1) CA2682800C (zh)
ES (1) ES2378491T3 (zh)
RU (1) RU2423009C1 (zh)
TW (1) TWI364188B (zh)
WO (1) WO2008134384A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2517419B1 (en) * 2009-12-24 2016-05-25 Telecom Italia S.p.A. A method of scheduling transmission in a communication network, corresponding communication node and computer program product
TWI393422B (zh) * 2010-04-27 2013-04-11 Hon Hai Prec Ind Co Ltd 用戶終端設備及其動態調整抖動緩衝區大小的方法
TWI425502B (zh) * 2011-03-15 2014-02-01 Mstar Semiconductor Inc 音訊的時間伸縮方法與相關裝置
JP5691721B2 (ja) * 2011-03-25 2015-04-01 三菱電機株式会社 音声データ処理装置
US9177570B2 (en) * 2011-04-15 2015-11-03 St-Ericsson Sa Time scaling of audio frames to adapt audio processing to communications network timing
US20140153410A1 (en) * 2012-11-30 2014-06-05 Nokia Siemens Networks Oy Mobile-to-mobile radio access network edge optimizer module content cross-call parallelized content re-compression, optimization, transfer, and scheduling
US9984699B2 (en) 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
US9680507B2 (en) 2014-07-22 2017-06-13 Qualcomm Incorporated Offset selection for error correction data
JP2016119588A (ja) * 2014-12-22 2016-06-30 アイシン・エィ・ダブリュ株式会社 音声情報修正システム、音声情報修正方法、及び音声情報修正プログラム
US20170187635A1 (en) * 2015-12-28 2017-06-29 Qualcomm Incorporated System and method of jitter buffer management
US10439951B2 (en) 2016-03-17 2019-10-08 Dolby Laboratories Licensing Corporation Jitter buffer apparatus and method
WO2017161088A2 (en) 2016-03-17 2017-09-21 Dolby Laboratories Licensing Corporation Jitter buffer apparatus and method
US10230810B1 (en) * 2016-03-18 2019-03-12 Barefoot Networks, Inc. Storing packet data in mirror buffer
US10629223B2 (en) 2017-05-31 2020-04-21 International Business Machines Corporation Fast playback in media files with reduced impact to speech quality
US10878835B1 (en) * 2018-11-16 2020-12-29 Amazon Technologies, Inc System for shortening audio playback times
US11479931B2 (en) * 2019-01-23 2022-10-25 Ail International Inc. Elongate panel for a sound wall and a stiffener member for the same
DE102019133684A1 (de) 2019-12-10 2021-06-10 Sennheiser Electronic Gmbh & Co. Kg Vorrichtung zur Konfiguration einer Drahtlos-Funkverbindung und Verfahren zur Konfiguration einer Drahtlos-Funkverbindung

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2978752B2 (ja) * 1995-12-13 1999-11-15 日本電気株式会社 Atm無音圧縮方式
US6282196B1 (en) * 1997-04-14 2001-08-28 Lucent Technologies Inc. Dynamic build-out approach for use in packet voice systems
JPH11239157A (ja) * 1998-02-19 1999-08-31 Matsushita Electric Ind Co Ltd 音声セル伝送装置及びその方法
US6650652B1 (en) * 1999-10-12 2003-11-18 Cisco Technology, Inc. Optimizing queuing of voice packet flows in a network
US6683889B1 (en) * 1999-11-15 2004-01-27 Siemens Information & Communication Networks, Inc. Apparatus and method for adaptive jitter buffers
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
JP4376681B2 (ja) * 2004-04-08 2009-12-02 三菱電機株式会社 音声データ受信装置および音声データ送信装置
JP4460580B2 (ja) * 2004-07-21 2010-05-12 富士通株式会社 速度変換装置、速度変換方法及びプログラム
US20070019931A1 (en) * 2005-07-19 2007-01-25 Texas Instruments Incorporated Systems and methods for re-synchronizing video and audio data
TWI305101B (en) * 2006-03-10 2009-01-01 Ind Tech Res Inst Method and apparatus for dynamically adjusting playout delay
JP4371127B2 (ja) * 2006-07-14 2009-11-25 ソニー株式会社 再生装置、再生方法、プログラム

Also Published As

Publication number Publication date
TW200908602A (en) 2009-02-16
CA2682800C (en) 2014-09-30
ES2378491T3 (es) 2012-04-13
KR101126056B1 (ko) 2012-04-12
WO2008134384A1 (en) 2008-11-06
ATE544269T1 (de) 2012-02-15
CA2682800A1 (en) 2008-11-06
US20080267224A1 (en) 2008-10-30
TWI364188B (en) 2012-05-11
EP2140635B1 (en) 2012-02-01
JP2010530653A (ja) 2010-09-09
EP2140635A1 (en) 2010-01-06
EP2398197A1 (en) 2011-12-21
RU2423009C1 (ru) 2011-06-27
JP4944243B2 (ja) 2012-05-30
KR20100007898A (ko) 2010-01-22
BRPI0810544A2 (pt) 2014-10-21
CN101682562B (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN101682562B (zh) 用于修改句子内的话音突峰的回放时序而不影响可懂度的方法和设备
JP5591897B2 (ja) 適応デジッタバッファの方法及び装置
US8279884B1 (en) Integrated adaptive jitter buffer
US7243150B2 (en) Reducing the access delay for transmitting processed data over transmission data
CN107534589B (zh) 去抖动缓冲器更新
US7450601B2 (en) Method and communication apparatus for controlling a jitter buffer
US10735120B1 (en) Reducing end-to-end delay for audio communication
WO2009039783A1 (fr) Procédé et dispositif de traitement pour caractère de temps de retard de réseau
JP2006135974A (ja) 適応的バッファ遅延を有する音声受信機
US20120239176A1 (en) Audio time stretch method and associated apparatus
US20240314244A1 (en) Method for jitter compensation during receipt of voice content over ip-based networks and receiver for that and method and device for sending and receiving voice content with jitter compensation
EP2053765B1 (en) Apparatus and method for playout scheduling in voice over internet protocol (VoIP) System
JP2007241030A (ja) サーバ装置及び同装置におけるバッファ制御方法
Tatlas et al. WLAN Technologies for Audio Delivery
JP2008048060A (ja) 移動無線端末装置
JP2008099209A (ja) コンテンツ再生装置とその再生タイミング同期方法
JP2004222150A (ja) Ip電話端末およびそのデータ変換方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131204

Termination date: 20170423

CF01 Termination of patent right due to non-payment of annual fee