CN101379556B - 控制音频信号的时间缩放 - Google Patents
控制音频信号的时间缩放 Download PDFInfo
- Publication number
- CN101379556B CN101379556B CN2007800046200A CN200780004620A CN101379556B CN 101379556 B CN101379556 B CN 101379556B CN 2007800046200 A CN2007800046200 A CN 2007800046200A CN 200780004620 A CN200780004620 A CN 200780004620A CN 101379556 B CN101379556 B CN 101379556B
- Authority
- CN
- China
- Prior art keywords
- time
- scaling
- frame
- change
- definite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 42
- 230000008859 change Effects 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims description 30
- 230000003139 buffering effect Effects 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000000750 progressive effect Effects 0.000 claims description 5
- 238000005086 pumping Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000002203 pretreatment Methods 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- RTZKZFJDLAIYFH-UHFFFAOYSA-N Diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/062—Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
- H04J3/0632—Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/54—Store-and-forward switching systems
- H04L12/56—Packet switching systems
- H04L12/5601—Transfer mode dependent, e.g. ATM
- H04L2012/5603—Access techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Communication Control (AREA)
- Stringed Musical Instruments (AREA)
- Electrophonic Musical Instruments (AREA)
- Electromechanical Clocks (AREA)
Abstract
为了控制音频信号的时间缩放,音频信号被分配成经由分组交换网络接收到的帧序列,检测接收到的帧的延迟中的改变。此外,确定将要应用到接收到的帧以便补偿检测到的改变的时间缩放量。另外,确定改变的类型。另外,将根据所述改变的确定类型来确定时间窗的长度,在该时间窗内将完成确定量的时间缩放。
Description
技术领域
本发明涉及一种控制音频信号的时间缩放的方法。本发明同样地涉及支持控制音频信号的时间缩放的芯片组、音频接收器、电子设备和系统。本发明进一步涉及存储用于控制音频信号的时间缩放的软件代码的软件程序产品。
背景技术
可以例如在音频接收器中支持时间缩放音频信号,该音频接收器适于经由分组交换网络(例如因特网)来接收分组中的编码的音频信号,从而解码编码的音频信号并且向用户回放解码的音频信号。
分组交换通信的属性通常引入对分组的传输时间的改变,这称为抖动,其由接收器视为分组以不规则的间隔到达。除了分组丢失情况,网络抖动是通过分组交换网络提供的会话语音服务的主要障碍。
更具体地,实时操作的音频接收器的音频回放组件需要固定的输入来维持良好的声音质量。甚至应该避免短的中断。因此,如果包括音频帧的一些分组仅在音频帧需要用于解码和进一步处理后到达时,则那些分组和包括的音频帧被认为丢失。音频解码器将执行错误隐藏以补偿在丢失的帧中所携带的音频信号。显然,大量的错误隐藏也将降低声音质量。
通常,使用抖动缓冲器来隐藏不规则的分组到达时间并且向解码器和随后的音频回放组件提供持续的输入。抖动缓冲器为此在预定的时间量存储到来的音频帧。该时间可以在例如接收到分组流的第一分组时指定。然而,抖动缓冲器引入附加的延迟分量,因为在进一步处理前存储了接收到的分组。这增加了端到端的延迟。抖动缓冲器特征在于在所有接收到的帧中,延迟帧所占的比例和平均缓冲延迟。
使用固定延迟的抖动缓冲器是在低端到端延迟和低数量的延迟帧之间的不可避免的妥协,并且找到最佳的折衷并不是容易的任务。尽管可以存在特定的环境和应用,其中可以估计预计的抖动量保持在预定的限度内,通常抖动可以从零到几百毫秒变化-甚至在相同的会话内。使用设定成足够大的值的固定延迟来覆盖根据预计最差情形的抖动将保持对延迟帧数量的控制,但同时也存在这样的危险,即引入太长的端到端延迟以致无法支持自然会话。因此,在大多数通过分组交换网络进行操作的音频传输应用中,应用固定缓冲不是最佳的选择。
自适应抖动缓冲器可以用于动态地控制足够短的延迟和足够低数量的延迟帧之间的平衡。在该方法中,固定地监视进入的分组流,并且根据在进入的分组流的延迟性态中观察到的改变来调节该缓冲延迟。如果传输延迟增加或抖动将变坏,则缓冲延迟被增加以满足网络条件。在相反的情况下,缓冲延迟可以被减小,并且因此,整体端到端延迟被最小化。
由于音频回放组件需要规则的输入,缓冲器调节并不是完全直接的。事实上如果缓冲延迟被减小,则提供给回放组件的音频信号需要被缩短,以补偿缩短的缓冲延迟;并且另一方面,如果缓冲延迟被增加,则音频信号必须被加长以补偿增加的缓冲延迟,这将出现问题。
对于通过IP的话音(VoIP)应用,已知在增加或减小的缓冲器延迟的情况下,通过当非连续传输(DTX)被启用时丢弃或重复在活跃的语音周期间的一部分柔性噪声信号来修改信号。然而,此类方法不总是可能的。例如,DTX功能可能没有被使用,或由于复杂的背景噪声条件,例如背景中干扰的发言者,DTX可能不切换到柔性噪声。
在考虑到改变的缓冲器延迟的更为高级的解决方案中,使用信号时间缩放来改变转发到回放组件的输出音频信号帧的长度。该信号时间缩放可以实现在解码器内或解码器后的后处理单元内。在该方法中,当减小延迟时,解码器将比常规操作期间更为频繁地读取抖动缓冲器中的帧,而增加的延迟将放慢来自抖动缓冲器的帧输出率。
在配备有自适应抖动缓冲器和时间缩放功能的音频接收器中,将固定地监视网络状态和缓冲器状态。基于缓冲器和网络的状态,通过增加或移除音频信号的段(多个段),对音频信号执行时间缩放修改,从而补偿缓冲器延迟中的任何改变。
在音频信号的活跃部分中执行时间缩放修改的挑战在于,将感知的音频质量保持在足够高的水平。
发明内容
本发明的目的是改进应用于音频信号的时间缩放操作。
本发明另外的目的是优化时间缩放的音频信号的音频质量。
提出一种用于对音频信号进行时间缩放的方法,该音频信号被分配成经由分组交换网络接收到的帧序列。该方法包括检测接收到的帧的延迟中的改变。本方法另外包括确定将要应用到接收到的帧以便补偿检测到的改变的时间缩放量。本方法另外包括确定改变的类型。本方法另外包括根据改变的确定类型来确定时间窗的长度,在该时间窗内将完成确定量的时间缩放。
此外,提出一种具有至少一个芯片的芯片组。该至少一个芯片包括用于控制音频信号的时间缩放的时间缩放控制组件,该音频信号被分配成经由分组交换网络接收到的帧序列。时间缩放控制组件适于检测接收到的帧的延迟中的改变。该时间缩放控制组件另外适于确定将要应用到接收到的帧以便补偿检测到的改变的时间缩放量。时间缩放控制组件另外适于确定检测的改变的类型。时间缩放控制组件另外适于根据改变的确定类型来确定时间窗的长度,在该时间窗内将完成确定量的时间缩放。
此外,提出一种包括用于控制音频信号的时间缩放的时间缩放控制组件的音频接收器。假定该音频信号被分配成经由分组交换网络接收到的帧序列。时间缩放控制组件适于实现如提出的芯片组的时间缩放控制组件的相应功能。然而,应该注意到时间缩放控制组件可以通过硬件和/或软件来实现。时间缩放控制组件可以实现在例如芯片组中,或其可以由执行相应的软件程序代码组件的处理器来实现。
此外,提出一种包括用于控制音频信号的时间缩放的时间缩放控制组件的电子设备。假定该音频信号被分配成经由分组交换网络接收到的帧序列。电子设备的时间缩放控制组件对应于提出的音频接收器的时间缩放控制组件。电子设备例如可以是纯的音频处理设备,或更为复杂的设备,像移动终端或媒体网关等。
此外,提出一种系统,其包括适于传送音频信号的分组交换网络,适于提供音频信号以便经由分组交换网络传输的发送器,适于经由分组交换网络接收音频信号的接收器。接收器对应于上面提到的音频接收器。
最后,提出一种软件程序产品,其中用于控制音频信号的时间缩放的软件代码存储在可读介质中。同样假定该音频信号被分配成经由分组交换网络接收到的帧序列。当由处理器执行时,软件代码实现提出的方法。软件程序产品例如可以是单独的存储器设备、将要实现在音频接收器中的存储器等。
从对于不同类型的情况时间缩放操作应该不同的做出反应出发,来考虑本发明。
通常,当对时间缩放应用的改变尽可能小时,时间缩放操作导致最佳的音频质量。例如,可以预料将20ms的音频信号段扩展成25ms的段实际上没有造成质量的降级,而将20ms段扩展到40ms段可能造成音频质量上的一些降级。这意味着将相当大的时间缩放请求划分成一系列更短的缩放步长通常在音频质量方面提供明显的优势。
尽管该要求好像赞成渐近的修改,但传输延迟特性中的突然改变可能需要立即的时间缩放修改,尽管先前提到渐进修改的优势。尽管立即并且在短的时限内执行修改可能导致某种质量降级,导致一个帧或多个帧的丢失,从而具有渐进修改结果的缓冲器溢出或下溢仍将是更为严重的。
因此建议使用窗口化时间缩放操作并且通过不仅提供所需的时间缩放量,而且附加地提供时间窗长度来控制时间缩放,时间窗长度即其中缩放必须被执行的时限。这允许时间缩放在许多小的步幅内执行以适合于时间窗。
本发明的优势在于可以最佳的方式来维护缓冲的延迟和延迟的音频帧数量之间的折衷。通过时间缩放的相应控制,可以考虑需要不同的缓冲器适配策略的传输特性中的改变。这将改进利用时间缩放操作得到的音频质量。
改变的确定类型是针对确定的时间缩放量需要更短的时间窗的类型、或针对确定的时间缩放量的允许更长时间窗的类型。
例如,如果检测到延迟中的改变,该改变超出了预定值,则可以确定给出需要更短的时间窗的改变类型。此类显著的改变可以表示分组交换网络中的“静态”传输延迟的改变。可选地或附加地,例如如果延迟尖峰被检测到,则可以确定给出需要更短的时间窗的改变类型。
例如,如果检测到改变的延迟帧数量,则可以确定给出需要更长的时间窗的改变类型。此类改变可以表示分组交换网络中的改变的抖动。如果在接收时,接收到的帧被缓存在可变缓冲器中,则可选地或附加地,例如如果检测到渐进地改变缓冲器占用率,则可以确定给出允许更长的时间窗的改变类型。此类缓冲器占用率的改变可以表示发送器和接收器之间的时钟漂移。
可以在确定长度的时间窗内以确定的量对接收到的帧进行时间缩放。可以任意合适的方式来实施实际的缩放。每个缩放周期例如可以对应于合适的多个基音周期。
可以理解,不必恰好对那些帧执行时间缩放,即实际接收到的具有改变的延迟并且检测到延迟改变的帧。至少在一些系统和实现中,例如可以基于接收统计而不是首先基于单个帧的延迟来确定接收到的帧的改变的延迟。
对于实际的时间缩放,进一步可以考虑到对于所有的音频内容,在时间缩放修改后得到的音频质量不是相同的。例如,对于语音信号,某些帧类型(例如静默帧或话音开始)被有利地小心处理以便不降级音频质量。这意味着利用严格的质量准则,通过阻止某些帧的缩放可能获得最佳的结果。具体地,如果确定的时间窗的长度较长,则附加地可以确定在确定的时间窗内的帧的内容的类型。接着,在具有确定类型内容的时间窗内的那些帧的时间缩放可以被避免。
时间缩放可能不能直接应用于接收到的帧,但可以应用于处理过的接收到的帧。
在接收时,接收到的帧可以例如被缓存在可变缓冲器中并且可以从可变缓冲器获取以便解码。然后,解码的帧接收可以被时间缩放。该可选方案特别适用于时间缩放被实现在专用处理块中的情形,即,实现在分隔的硬件电路或分隔的软件代码中。
可选地,时间缩放例如可以结合另一处理功能来实现,像解码或代码转换功能。例如,将基音同步缩放技术与语音解码器进行组合是特别受欢迎的方法,从而提供高质量的时间缩放能力。例如,利用AMR编解码器,这在低处理负载方面提供了明显优势。
如果时间缩放组合解码,则在接收时,接收到的帧同样可以缓存在可变缓冲器中并且从该可变缓冲器中获取以便解码。然而,在这种情况下,要经过时间缩放的帧可以是在解码中生成的包括线性预测(LP)合成滤波器激励信号的帧。
本发明可以被应用到任何类型的音频编解码器,特别地但不排他性地,可以应用到任何类型的语音编解码器。进一步,其可以被用于例如AMR和VoIP。
通过下面结合附图所考虑的详细描述,本发明的其他目的和特征将变得明显。然而,可以理解附图仅用于示例的目的而并非对本发明的限制的定义,而对本发明的限制可以参考所附权利要求书。进一步应该理解附图并没有按比例绘制并且它们仅旨在概念上说明这里所述的结构和过程。
附图说明
图1是根据本发明的一个实施方式的传输系统的示意性框图;
图2图示出图1的系统的音频接收器的细节;
图3图示出图1的系统的音频接收器的进一步细节;以及
图4是示出图1的音频接收器的操作的流程图。
具体实施方式
图1是示例性传输系统的示意性框图,其中可以实现根据本发明的一个实施方式的增强的时间缩放。
系统包括具有音频发送器111的电子设备110、分组交换通信网络120和具有音频接收器131的电子设备130。音频发送器111可以经由分组交换通信网络120向音频接收器131传送包括编码的音频数据的音频帧,每个分组包括具有编码的音频数据的音频帧。
音频接收器131的输入在音频接收器131内一方面连接到抖动缓冲器132,并且另一方面连接到网络分析器133。抖动缓冲器132经由时间缩放单元135和解码器134连接到音频接收器131的输出。网络分析器133的控制信号输出连接到时间缩放控制逻辑136的第一控制输入,而抖动缓冲器132的控制信号输出连接到时间缩放控制逻辑136的第二控制输入。时间缩放控制逻辑136的控制信号输出进一步连接到时间缩放单元135的控制输入。
音频接收器131的输出可以连接到电子设备130的回放组件138,例如连接到扬声器。
抖动缓冲器132用于存储等待解码和回放的接收到的音频帧。抖动缓冲器132可以具有将接收到的帧安排成正确的解码顺序并且在请求时将安排的帧或关于丢失帧的信息按顺序提供给解码器134。此外,抖动缓冲器132可以向时间缩放控制逻辑136提供关于其状态的信息。网络分析器133基于帧接收统计和接收到的帧的定时来计算描述当前接收特性的一组参数,并且将该组参数提供给时间缩放控制逻辑136。基于该接收到的信息,时间缩放控制逻辑136确定需要改变缓冲延迟并且向时间缩放单元135给出相应的时间缩放指令。使用的平均缓冲延迟不必是输入帧长度的整数倍。最佳的平均缓冲延迟是在没有任何帧迟到达的情况下最小化缓冲时间的延迟。
无论何时回放组件138请求新的数据,解码器134从缓冲器132获取音频帧。其解码获得的音频帧并且将解码的音频帧转发到时间缩放单元135。时间缩放单元135执行由时间缩放控制逻辑136所指示的缩放,即,其可以加长或缩短接收到的解码帧。解码的并且可能时间缩放的帧被提供给回放组件138以便呈现给用户。
应该理解所提出的图1的音频接收器131的架构仅旨在说明根据本发明的示例音频接收器的基本逻辑功能。在实际的实现中,所提出的功能可以不同地分配给处理块。可选架构的某个处理块可以组合上述功能的若干几个。与解码器组合的时间缩放单元例如可以提供计算上很有效的解决方案。而且,可以具有附加的处理块和某些组件,像缓冲器132,其甚至可以安排在音频接收器131的外部。
所提出的系统可以像常规系统那样实现,其中音频数据从音频发送器传送到音频接收器,除了音频接收器131的时间缩放控制逻辑136和时间缩放单元135。
在图2中示出时间缩放控制逻辑136的功能性细节。
时间缩放控制逻辑136可以由电子设备131的处理器200所执行的软件代码来实现。应该理解,相同的处理器200可以附加地执行实现音频接收器131的其他功能或通常电子设备130的其他功能的软件代码。可选地,必须注意到时间缩放控制逻辑136的功能可以通过硬件来实现,例如通过集成在芯片或芯片组中的电路来实现。
时间缩放控制逻辑136包括“时间缩放量”确定组件210和链接到该确定组件210的“时间窗长度”确定组件211。分别连接到网络分析器133和抖动缓冲器132的时间缩放控制逻辑136的控制输入都链接到确定组件210。确定组件210输出馈入到时间缩放单元135的缩放请求。确定组件211输出馈入到时间缩放单元135的时间窗长度。
在图3中示出时间缩放单元135的功能细节。
时间缩放单元135同样地可以由电子设备131的处理器200所执行的软件代码来实现。应该理解,相同的处理器200可以附加地执行实现音频接收器131的其他功能或通常电子设备130的其他功能的软件代码。特别地,实现时间缩放单元135的功能的软件代码可以由实现时间缩放控制逻辑136的功能的软件代码的相同处理器200来运行。可选地,必须注意时间缩放单元135的功能也可以通过硬件来实现,例如通过集成在芯片或芯片组中的电路来实现,可能是其中时间缩放控制逻辑136的功能被集成的相同芯片或芯片组。
时间缩放单元135包括“帧类型”确定组件310和链接到该确定组件310的“窗口化时间缩放”组件311。针对缩放请求和时间窗长度的时间缩放单元136的控制信号输出都链接到“窗口化时间缩放”组件311。解码器134的输出链接到确定组件310。“窗口化时间缩放”组件311输出馈入到回放组件138的解码的和缩放的帧。
如果时间缩放单元135操作为所示出的单独的处理块,则通常对解码的语音信号执行所述的时间缩放修改。如果时间缩放单元135与解码器134组合,则例如可以对在解码器134中生成的LP合成滤波器激励信号执行所述的时间缩放修改。
现在将参考图4的流程图来描述根据本发明的示例性实施方式的时间缩放控制。由时间缩放控制逻辑136来实施指示的步骤401到405,而由时间缩放单元135来实施指示的步骤406到407。
时间缩放控制逻辑136从网络分析器133接收关于网络状态的信息和从抖动缓冲器132接收关于缓冲器状态的信息。基于该信息,确定组件210确定缓冲延迟的改变是否即将发生,并且如果是,则其附加地确定对于补偿该改变所需的时间缩放量(步骤401)。当网络特性和缓冲器状态指示增加的延迟,则一些帧不得不被加长合适的量,从而回放组件138请求更低速率的新数据,从而当缓冲延迟正在被增加时,阻止缓冲器下溢。当网络特性和缓冲器状态指示减小的延迟,则一些帧不得不被缩短合适的量,从而回放组件138请求更高速率的新数据,从而当缓冲延迟正在被减小时,阻止缓冲器溢出。
确定组件210向确定组件211通知关于任何所需的时间缩放以及当前网络状态和缓冲器状态。附加地,其生成包括所需的时间缩放量的时间缩放请求,并且将其提供给时间缩放单元135。
如果需要时间缩放(步骤402),确定组件211确定改变延迟的类型是否需要快速反应(步骤403)。
为此,确定组件211例如可以在时钟漂移、“静态”传输延迟中的改变、改变抖动和延迟尖锋之间做出区分,下文将对其进行解释。
在一些情况下,由于事实上时钟信号不是完全精确,驱动发送器111和接收器131处的操作的时钟没有同步。可能存在小的偏差,使得实际的时钟率稍微不同于标称值,这导致时钟漂移。如果发送器时钟运行快于接收器,则帧将以太短的间隔到达接收器131处,这可通过渐进增长的缓冲器占用率和增加的平均缓冲延迟而在接收器131处看到。另一方面,如果发送器时钟运行慢于接收器时钟,则帧将以太长的间隔到达接收器131,并且这将造成慢的减小的缓冲器占用率和减小的平均缓冲延迟。如果不注意该现象,则其迟早会导致缓冲器溢出或下溢。
第一考虑的方面可以由确定组件211通过密切注视渐进改变的缓冲器占用率来检测。
如果网络负载突然改变,则“静态”传输延迟中的改变可能会发生。结果是,可能在延迟中存在显著的改变,从而需要缓冲器适配。延迟中的明显增加可能引入缓冲器下溢,而延迟中的突然减小可能造成缓冲器溢出。
第二考虑的方面可以由确定组件211通过密切注视接收到的分组的延迟中的明显改变来检测。
网络负载中的改变也可以被视为改变抖动,而不是静态延迟分量中的改变。改变抖动通常是比改变静态延迟更为常见的现象。在该情形中,如果缓冲延迟没有相应地增长,则增加抖动将造成增加迟到达的帧数量。另一方面,抖动中减小趋势将减小由于迟到达而造成的丢失帧的数量,这可以被实施用于减小缓冲延迟。
第三考虑的方面可以由确定组件211通过估计迟到达的帧数量来检测。
网络120中很短期的“干扰”在接收器131中可以被视为延迟尖峰,即,在分组的突发后跟着是根本没有分组的短周期。
第四考虑的方面可以由确定组件211估计分组的接收时间分布来检测。
在上面列出的所有情形中,相同步幅的修改将不会导致最佳可能的音频质量。时钟漂移和改变抖动通常使得它们可以通过渐进的修改来注意到,其本质上是维持高音频质量的最佳方法。另一方面,改变的静态传输延迟和延迟尖峰需要快的反应以最小化由于丢失的包而造成的音频质量中的降级。
如果检测到快速反应是不必要的(步骤403),则确定组件211将针对所需的缩放量来将时间窗的长度设定到大的值,并且将该值提供给时间缩放单元135(步骤404)。大的值适于指示时间缩放单元135在相对长的修改周期上执行所需的时间缩放量。
如果检测到快速反应是需要的(步骤403),则确定组件211将针对所需的缩放量将时间窗的长度设定成小的值并且将该值提供给时间缩放单元135(步骤405)。小的值适于指示时间缩放单元135,来立即并且在短的修改周期内执行所需的时间缩放量。
应该注意到在这两种情形下,选择的窗口大小可以附加地取决于其他准则。其例如附加地可以取决于所需的时间缩放量,因为相同时间窗内的大的缩放量和小的缩放量将明显具有不同的效果。
时间缩放单元135从解码器134接收解码的音频帧。附加地,其从时间缩放控制逻辑136接收缩放指令和相关的时间窗长度。
确定组件310检查当前接收到的解码帧的类型以便检测对于音频质量具有特殊要求的帧,像静默帧或具有话音开始的帧(步骤406)。
时间缩放单元135的窗口化时间缩放组件311接着对接收到的解码帧应用时间缩放(步骤407)。
在指示的时间窗内以所请求的量来执行时间缩放。窗口化时间缩放组件311选择合适的帧来进行时间缩放以及选择用于时间缩放的帧内的最佳修改点。
原则上,时间缩放开始于新的缩放指令后第一个接收到的帧。然而,如果时间缩放量和指示的窗口大小的组合没有暗示需要快速反应,则窗口化时间缩放组件311注意到由确定组件310所检测到的敏感帧的时间缩放被避免。
通常,信号扩展或收缩是作为基音周期的倍数来进行的。合适的时间缩放的例子可以在S.Roucos和A.M.Wilgus的文档“Highquality time-scale modification for speech”,IEEE ICASSP 1985,第493-496页中找到。然而,应该注意到其他的时间缩放方法也是可以应用的。
不得不注意到时间缩放量不仅可以通过利用在给定时间窗内接收到的帧所实现的绝对所需缩放量来给出。时间缩放量例如也可以指示多少时间缩放帧应该适应于指示的时间窗。因此,时间窗的长度可能限制在进行时间缩放前考虑帧的数量或定义利用时间缩放所得到的帧的扩展。
另外可以注意,在其中时间缩放控制逻辑136将更大的缩放请求分配成一系列更小的缩放请求的可选的方法,其相较于建议的窗口化具有更少的优势。原因在于时间缩放单元135已知当前信号特性,并且因此能够对准确的缩放点做出决策,这最小化音频质量的降级。
总之,自适应的抖动缓冲器应该考虑到底层的网络条件、解码器操作、以及时间缩放单元性能。
尽管已经示出和描述以及指出被应用到本发明的优选实施方式的本发明的基础新颖性特征,但将理解到在不偏离本发明的精神下,本领域技术人员可以在所述设备和方法的形式和细节方面做出各种省略和替换以及改变。例如,特意强调以基本上相同的方式来执行基本上相同的功能以实现相同的结果的那些单元和/或方法步骤的组合都在本发明的范围内。此外,应该认识到结合任何公开的形式或本发明的实施方式所示出和/或描述的结构和/或单元和/方法步骤可以被包括在任意其他的公开或描述或建议的形式中或实施方式中,作为设计选择的一般问题。因此力图仅由附在此的权利要求书的范围来限定。
Claims (20)
1.一种用于控制音频信号的时间缩放的方法,所述方法包括:
检测经由分组交换网络接收到的帧的延迟中的改变,所述帧属于音频信号被分配成的帧序列,
确定需要应用到接收到的帧以便补偿所述检测到的改变的时间缩放量;
确定所述改变的类型;以及
根据所述改变的所述确定类型来确定时间窗的长度,在该时间窗内将完成所述确定的时间缩放量,其中当所述改变的所述确定类型需要快速反应,则针对所述确定的时间缩放量来设定短的时间窗长度,而当所述改变的所述确定类型不需要快速反应,则针对所述确定的时间缩放量来设定长的时间窗长度。
2.根据权利要求1所述的方法,其中如果延迟中的改变的至少一个出现,其中改变超出预定的值以及检测到延迟尖峰,则确定给出需要更短的时间窗的改变类型。
3.根据权利要求1或2所述的方法,其中在接收时,接收到的帧被缓存在可变缓冲器中,并且其中至少如果检测到渐进的改变的缓冲器占用率,则确定给出允许更长的时间窗的改变类型。
4.根据权利要求1或2所述的方法,其中至少如果检测到延迟帧的改变数量,则确定给出允许更长的时间窗的改变类型。
5.根据权利要求1所述的方法,包括在所述确定长度的时间窗内以所述确定的时间缩放量来对接收到的帧进行时间缩放的后续步骤。
6.根据权利要求5所述的方法,进一步包括确定在所述时间窗内的所述帧的内容类型,并且避免对所述时间窗内的那些帧进行时间缩放,那些帧是具有预定类型的内容的帧。
7.根据权利要求5或6所述的方法,其中在所述接收到的帧的先前处理后,对接收到的帧应用所述时间缩放。
8.根据权利要求5或6所述的方法,其中在接收时,接收到的帧被缓存在可变缓冲器中,并且从所述可变缓冲器获取以用于解码,并且其中经历所述时间缩放的帧是解码的帧。
9.根据权利要求5或6所述的方法,其中在接收时,接收到的帧被缓存在可变缓冲器中,并且从所述可变缓冲器获取以用于解码,并且其中经历所述时间缩放的帧是包括在所述解码中生成的线性预测合成滤波器激励信号的帧。
10.一种用于控制音频信号的时间缩放的设备,所述设备包括:
用于检测经由分组交换网络接收到的帧的延迟中的改变的装置,所述帧属于音频信号被分配成的帧序列,
用于确定需要应用到接收到的帧以便补偿检测到的改变的时间缩放量的装置;
用于确定检测的改变的类型的装置;以及
用于根据所述改变的所述确定类型来确定时间窗的长度的装置,在该时间窗内将完成所述确定的时间缩放量,其中当所述改变的所述确定类型需要快速反应,则针对所述确定的时间缩放量来设定短的时间窗长度,而当所述改变的所述确定类型不需要快速反应,则针对所述确定的时间缩放量来设定长的时间窗长度。
11.根据权利要求10所述的设备,其中所述用于确定检测的改变的类型的装置配置成如果延迟中的改变的至少一个出现,其中改变超出预定的值以及检测到延迟尖峰,则确定给出需要更短的时间窗的改变类型。
12.根据权利要求10或11所述的设备,包括在接收时,适于缓存接收到的帧的可变缓冲器,其中所述用于确定检测的改变的类型的装置配置成至少如果检测到渐进的改变的缓冲器占用率,则确定给出允许更长的时间窗的改变类型。
13.根据权利要求10或11所述的设备,其中所述用于确定检测的改变的类型的装置配置成至少如果检测到延迟帧的改变数量,则确定给出允许更长的时间窗的改变类型。
14.根据权利要求10所述的设备,包括用于在所述确定长度的时间窗内以所述确定的时间缩放量来对接收到的帧进行时间缩放的装置。
15.根据权利要求14所述的设备,其中所述用于时间缩放的装置配置成确定在所述时间窗内的所述帧的内容类型并且避免对所述时间窗内的那些帧进行时间缩放,那些帧是具有预定类型的内容的帧。
16.根据权利要求14或15所述的设备,其中所述用于时间缩放的装置配置成在所述接收到的帧的先前处理后,对接收到的帧应用所述时间缩放。
17.根据权利要求14或15所述的设备,包括在接收时,适于缓存接收到的帧的可变缓冲器,以及适于从所述可变缓冲器获取所述帧以用于解码的解码器,其中所述用于时间缩放的装置配置成令解码的帧经历所述时间缩放。
18.根据权利要求14或15所述的设备,包括在接收时,适于缓存接收到的帧的可变缓冲器,以及适于从所述可变缓冲器获取所述帧以用于解码的解码器,其中所述用于时间缩放的装置配置成令包括在所述解码中生成的线性预测合成滤波器激励信号的帧经历所述时间缩放。
19.根据权利要求10或11所述的设备,其中所述设备是具有至少一个芯片的芯片组、音频接收器或电子设备。
20.一种用于控制音频信号的时间缩放的系统,所述系统包括:适于传送音频信号的分组交换网络,适于提供音频信号以便经由所述分组交换网络传输的发送器,以及适于经由所述分组交换网络接收音频信号的接收器,所述接收器包括根据权利要求10所述的设备。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/349,745 | 2006-02-07 | ||
US11/349,745 US8832540B2 (en) | 2006-02-07 | 2006-02-07 | Controlling a time-scaling of an audio signal |
PCT/IB2007/050368 WO2007091204A1 (en) | 2006-02-07 | 2007-02-05 | Controlling a time-scaling of an audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101379556A CN101379556A (zh) | 2009-03-04 |
CN101379556B true CN101379556B (zh) | 2012-11-14 |
Family
ID=38037463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800046200A Active CN101379556B (zh) | 2006-02-07 | 2007-02-05 | 控制音频信号的时间缩放 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8832540B2 (zh) |
EP (1) | EP1982332B1 (zh) |
KR (1) | KR101002405B1 (zh) |
CN (1) | CN101379556B (zh) |
AT (1) | ATE463030T1 (zh) |
DE (1) | DE602007005605D1 (zh) |
ES (1) | ES2340545T3 (zh) |
PT (1) | PT1982332E (zh) |
TW (1) | TWI480861B (zh) |
WO (1) | WO2007091204A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983309B2 (en) * | 2007-01-19 | 2011-07-19 | Nokia Corporation | Buffering time determination |
US20080222636A1 (en) * | 2007-03-05 | 2008-09-11 | David Tzat Kin Wang | System and method of real-time multiple-user manipulation of multimedia threads |
JP5734517B2 (ja) | 2011-07-15 | 2015-06-17 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 多チャンネル・オーディオ信号を処理する方法および装置 |
US9420475B2 (en) * | 2013-02-08 | 2016-08-16 | Intel Deutschland Gmbh | Radio communication devices and methods for controlling a radio communication device |
CN105474313B (zh) * | 2013-06-21 | 2019-09-06 | 弗劳恩霍夫应用研究促进协会 | 时间缩放器、音频解码器、方法和计算机可读存储介质 |
SG11201510459YA (en) | 2013-06-21 | 2016-01-28 | Fraunhofer Ges Forschung | Jitter buffer control, audio decoder, method and computer program |
US10700797B2 (en) | 2017-07-07 | 2020-06-30 | Nxp B.V. | Signal processing using multiple sources |
US10313416B2 (en) | 2017-07-21 | 2019-06-04 | Nxp B.V. | Dynamic latency control |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6512761B1 (en) * | 1999-02-02 | 2003-01-28 | 3Com Corporation | System for adjusting billing for real-time media transmissions based on delay |
US6735192B1 (en) * | 1999-09-29 | 2004-05-11 | Lucent Technologies Inc. | Method and apparatus for dynamically varying a packet delay in a packet network based on a log-normal delay distribution |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW419645B (en) * | 1996-05-24 | 2001-01-21 | Koninkl Philips Electronics Nv | A method for coding Human speech and an apparatus for reproducing human speech so coded |
TW446935B (en) * | 1999-10-26 | 2001-07-21 | Elan Microelectronics Corp | Method and apparatus of multi-channel voice analysis and synthesis |
US6636830B1 (en) * | 2000-11-22 | 2003-10-21 | Vialta Inc. | System and method for noise reduction using bi-orthogonal modified discrete cosine transform |
US7171367B2 (en) * | 2001-12-05 | 2007-01-30 | Ssi Corporation | Digital audio with parameters for real-time time scaling |
WO2005117366A1 (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegraph And Telephone Corporation | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
MY149811A (en) | 2004-08-30 | 2013-10-14 | Qualcomm Inc | Method and apparatus for an adaptive de-jitter buffer |
-
2006
- 2006-02-07 US US11/349,745 patent/US8832540B2/en active Active
-
2007
- 2007-02-05 EP EP07705785A patent/EP1982332B1/en active Active
- 2007-02-05 DE DE602007005605T patent/DE602007005605D1/de active Active
- 2007-02-05 TW TW096104019A patent/TWI480861B/zh active
- 2007-02-05 KR KR1020087019311A patent/KR101002405B1/ko active IP Right Grant
- 2007-02-05 CN CN2007800046200A patent/CN101379556B/zh active Active
- 2007-02-05 AT AT07705785T patent/ATE463030T1/de not_active IP Right Cessation
- 2007-02-05 PT PT07705785T patent/PT1982332E/pt unknown
- 2007-02-05 WO PCT/IB2007/050368 patent/WO2007091204A1/en active Application Filing
- 2007-02-05 ES ES07705785T patent/ES2340545T3/es active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6512761B1 (en) * | 1999-02-02 | 2003-01-28 | 3Com Corporation | System for adjusting billing for real-time media transmissions based on delay |
US6735192B1 (en) * | 1999-09-29 | 2004-05-11 | Lucent Technologies Inc. | Method and apparatus for dynamically varying a packet delay in a packet network based on a log-normal delay distribution |
Also Published As
Publication number | Publication date |
---|---|
EP1982332A1 (en) | 2008-10-22 |
CN101379556A (zh) | 2009-03-04 |
PT1982332E (pt) | 2010-05-06 |
TW200807395A (en) | 2008-02-01 |
US20070186145A1 (en) | 2007-08-09 |
ES2340545T3 (es) | 2010-06-04 |
KR101002405B1 (ko) | 2010-12-21 |
WO2007091204A1 (en) | 2007-08-16 |
TWI480861B (zh) | 2015-04-11 |
DE602007005605D1 (de) | 2010-05-12 |
EP1982332B1 (en) | 2010-03-31 |
KR20080083206A (ko) | 2008-09-16 |
US8832540B2 (en) | 2014-09-09 |
ATE463030T1 (de) | 2010-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101379556B (zh) | 控制音频信号的时间缩放 | |
KR100902456B1 (ko) | 단 대 단 VoIP 매체 지연을 관리하는 방법 및 장치 | |
CN101160848B (zh) | 用于动态控制数据分组传输的方法和设备 | |
CN107534589B (zh) | 去抖动缓冲器更新 | |
US20070263672A1 (en) | Adaptive jitter management control in decoder | |
JP4744444B2 (ja) | ストリームデータ受信再生装置、通信システムおよびストリームデータ受信再生方法 | |
KR20120115961A (ko) | 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치 | |
SE518941C2 (sv) | Anordning och förfarande relaterande till kommunikation av tal | |
US8898060B2 (en) | Source code adaption based on communication link quality and source coding delay | |
US8098727B2 (en) | Method and decoding device for decoding coded user data | |
JP3891755B2 (ja) | パケット受信装置 | |
CN106027480B (zh) | 用于控制话音质量的方法和设备 | |
KR20170082901A (ko) | 재생 지연 조절 방법 및 이를 적용한 전자 장치 | |
US8676573B2 (en) | Error concealment | |
US20070201656A1 (en) | Time-scaling an audio signal | |
KR101516113B1 (ko) | 음성 복호 장치 | |
EP2070294B1 (en) | Supporting a decoding of frames | |
CN101675613B (zh) | 改进的缓冲时间确定 | |
CN116095395A (zh) | 一种调整缓冲区长度的方法、装置、电子设备和存储介质 | |
US20070186146A1 (en) | Time-scaling an audio signal | |
JP2003050598A (ja) | 音声復号装置 | |
JP2014068087A (ja) | バッファ制御装置、バッファ制御装置による制御方法、メディア通信装置、並びにコンピュータ・プログラム | |
JP2006171353A (ja) | 音声復号システム | |
JP5806719B2 (ja) | 音声パケット再生装置とその方法とプログラム | |
JP2002318599A (ja) | 音声通信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160114 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |