CN105324813A - 分组网络中的语音转码 - Google Patents

分组网络中的语音转码 Download PDF

Info

Publication number
CN105324813A
CN105324813A CN201380077803.0A CN201380077803A CN105324813A CN 105324813 A CN105324813 A CN 105324813A CN 201380077803 A CN201380077803 A CN 201380077803A CN 105324813 A CN105324813 A CN 105324813A
Authority
CN
China
Prior art keywords
grouping
received
frame
scrambler
sid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380077803.0A
Other languages
English (en)
Inventor
O.S.柯拉
A.P.E.库里图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Solutions and Networks Oy
Original Assignee
Nokia Siemens Networks Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Siemens Networks Oy filed Critical Nokia Siemens Networks Oy
Publication of CN105324813A publication Critical patent/CN105324813A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/26Flow control; Congestion control using explicit feedback to the source, e.g. choke packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/18Service support devices; Network management devices
    • H04W88/181Transcoding devices; Rate adaptation devices

Abstract

当转码实体的传入和传出语音流二者都是基于分组的时,分组网络中的语音转码可以是有用的。这可以是具有分组接口的任何转码实体。方法可以包括省略转码器中的解码之前的抖动缓冲,并且省略转码器的解码级中的坏帧处理。方法还可以包括当分组未被接收到时冻结解码器和编码器。方法还可以包括当分组未被接收到时从解码器向编码器发送分组丢失信息作为辅助信息。方法还可以包括设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。

Description

分组网络中的语音转码
背景技术
技术领域:
当转码实体的传入和传出语音流二者都是基于分组的时,分组网络中的语音转码可以是有用的。这可以是具有分组接口的任何转码实体,所述分组接口诸如但不限于全球移动通信系统(GSM)中的通过IP的A接口(AoIP)、第三代(3G)中的lu、通过互联网协议的语音(VoIP)或长期演进(LTE)中的Mb、互联网协议(IP)云中的多媒体资源功能(MRF)实体等等。
相关技术描述:
常规地,在转码之前使用的抖动缓冲也用于IP至IP连接,比如IP至电路交换(CS)连接。术语去抖动(de-jitter)缓冲也可以是指与术语抖动缓冲相同的事物。图1图示了具有抖动缓冲的转码。该方案可以例如使用在媒体网关(MGW)中。然而,该方案可以导致连接的增加的等待时间。
如图1中所示,编码器1105可以发送分组1、2和3,但是分组2可能丢失。转码器110可以使用抖动缓冲器120和第一解码器/坏帧处理机(BFH)130。抖动缓冲器120可以向第一解码器/BFH130转发分组和分组丢失指示。解码器1130可以使用坏帧处理来隐藏丢失的分组。分组丢失隐藏是对于坏帧处理的同义词。转码器110可以经由解码器1130中的坏帧处理来内插分组2并且使用第二编码器140对分组进行编码。分组然后可以被发送到抖动缓冲器第二解码器150并且由其接收。
另一可能的解决方案是当已经接收到分组时立即调度转码。这在图2中示出。在该解决方案中,转码级的运行是基于接收分组时刻,而不是基于计时器的时刻。处理丢失和乱序的分组在这种情况中可能不容易。如果一个或多个分组丢失,转码级必须在接收到下一有效语音分组时同时运行多次。一个原因是解码器130的坏帧处理机或分组丢失隐藏在第二解码器140(其为转码级的编码器)之前内插遗失的分组。这将生成转码级的处理负载中的巨大峰值。当被编码被内插时增加的抖动还可能存在于传出分组流中,并且接下来的有效的接收的分组被群集(cluster)。
在乱序分组的情况中,乱序分组将被丢弃,因为在后的分组已经被转码级处理。另一方面,如果应用抖动缓冲器,可以在转码之前重布置分组的次序,并且将不丢失分组。
发明内容
根据某些实施例,一种方法包括在转码器的分组丢失检测器处接收分组,以及省略转码器中的解码之前的抖动缓冲,以及省略转码器的解码级中的坏帧处理。转码器的解码器将分组解码成经解码的分组,并且经解码的分组由转码器的编码器编码成经重编码的分组。方法还包括从转码器传输经重编码的分组。另外,方法包括针对接收分组进行监视。当分组未被接收到时,方法附加地包括冻结解码器和编码器。方法还包括当分组未被接收到时从解码器向编码器发送分组丢失信息作为辅助信息。此外,方法包括设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
在某些实施例中,一种装置包括被配置成在分组丢失检测器处接收分组的分组丢失检测器。装置被配置成省略解码之前的抖动缓冲并且省略解码级中的坏帧处理。装置还包括被配置成将分组解码成经解码的分组的解码器,以及被配置成将经解码的分组编码成经重编码的分组的编码器。装置附加地包括被配置成从转码器传输经重编码的分组的传输器。分组丢失检测器还被配置成针对接收的分组进行监视,并且当分组未被接收到时,冻结解码器和编码器。解码器被配置成当分组未被接收到时向编码器发送分组丢失信息作为辅助信息。编码器被配置成设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
根据某些实施例的装置包括用于接收分组的接收构件。装置被配置成省略解码之前的抖动缓冲并且省略解码级中的坏帧处理。装置还包括用于将分组解码成经解码的分组的解码构件,以及用于将经解码的分组编码成经重编码的分组的编码构件。装置还包括用于传输经重编码的分组的传输构件。另外,装置包括用于针对接收的分组进行监视的监视构件。装置附加地包括用于当分组未被接收到时冻结解码器和编码器的冻结构件,以及用于当分组未被接收到时从解码器向编码器发送分组丢失信息作为辅助信息的发送构件。装置还包括用于设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组的设置构件。
在某些实施例中,一种非暂时性计算机可读介质被编码有指令,所述指令当在硬件中运行时,执行过程。过程包括在转码器的分组丢失检测器处接收分组。此外,过程包括省略在转码器中的解码之前的抖动缓冲,并且省略转码器的解码级中的坏帧处理。另外,过程包括通过转码器的解码器将分组解码成经解码的分组,并且通过转码器的编码器将经解码的分组编码成经重编码的分组。过程还包括从转码器传输经重编码的分组。另外,过程包括针对接收的分组进行监视并且当分组未被接收到时冻结解码器和编码器。过程还包括当分组未被接收到时从解码器向编码器发送分组丢失信息作为辅助信息。此外,过程包括设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
附图说明
为了本发明的适当理解,应当参考附图,其中:
图1图示了具有抖动缓冲的常规转码。
图2图示了没有抖动缓冲的常规转码。
图3图示了提供没有抖动缓冲和坏帧处理的转码的第一实施例。
图4图示了提供针对第二编码器中的前视(lookahead)的增强的第二实施例。
图5a图示了没有前视对准的信号波形。
图5b图示了针对第二实施例的信号波形。
图6图示了根据某些实施例的用于具有和没有前视对准的抖动缓冲器/坏帧处理机的MOS(P.862.1)。
图7图示了第二实施例和第三实施例的用于抖动缓冲器/坏帧处理机的MOS(P.862.1)。
图8图示了针对第三实施例的流程图。
图9图示了在SID帧之前丢失的拖尾(hangover)时段帧的DTX问题。
图10图示了具有错误的拖尾时段帧的舒适噪声的DTX问题。
图11图示了由最终用户听到的可听咔哒声(click)的DTX问题。
具体实施方式
某些实施例可以通过例如省略转码级之前的抖动缓冲来避免在常规方案中发现的等待时间问题。另外,某些实施例可以通过当分组未被接收到时在一段时间内冻结解码器和编码器运行来避免针对接收的丢失分组的传出流中的分组群集和峰值处理负载问题。下一有效分组一被接收到并且接收器实体一注意到一个或多个丢失的分组,就可以向编码器实体指示丢失分组的量连同有效的经解码的分组。然后编码器可以使用有效的经解码的分组再次运行。对于该经解码的传出分组,由于传入流中的分组丢失所致的间隙可以通过根据间隙增加RTP时间戳来为对等解码器指示。以此方式,对等解码器的坏帧处理机可以内插遗失的分组并且可以维持合理的话音质量。
当在编码器级中使用前视时可以增强以上提到的方案。当在编码器级之前根据前视对经解码的接收的语音信号进行对准时可以改进话音质量。
另外,可以通过在第一丢失分组之后运行解码器/坏帧处理机和解码器一次来增强话音质量。该增强可以减弱由于第一编解码器对的编码器-解码器同步丢失所致的质量影响。而且,结果可以接近具有常规坏帧处理的转码的质量水平。这将把峰值处理负载限制到标称负载的二倍,对于大多数应用而言,这应当是可接受的。
最后某些实施例提供了通过用适当数据置换包括咔哒声的语音数据而利用自适应多速率(AMR)和自适应多速率宽带(AMR-WB)编解码器的非连续传输(DTX)功能来处理可能的咔哒声的方式。
如以上提到的,当前在转码级之前将抖动缓冲器应用于传入语音流。抖动缓冲器的结果是其增加连接的等待时间。
抖动缓冲器对于分组到电路交换(CS)网络互通(interworking)而言可能是强制的,因为其在向CS网络发送话音信号之前移除分组流中的抖动。然而,对于IP至IP互通而言,移除抖动可能不是必要的,因为接收CS网关或IP终端可以在语音解码和话音样本播出之前对分组流进行均衡。
本公开中的某些实施例通过省略转码级之前的抖动缓冲来避免等待时间。某些实施例还通过当分组未被接收到时在一段时间内冻结解码器和编码器运行来防止针对接收的丢失分组的传出流中的分组群集和峰值处理负载。
在图3中示出第一实施例。除了没有任何抖动缓冲的即时解码之外,还可以省略第一解码器130内的坏帧处理级(与图1和2中所示的相关技术相反)。另外,分组丢失指示块125通知第二编码器140关于遗失的分组。在一个或多个遗失分组的情况中,第一解码器130可以被冻结使得没有经解码的话音分组在第一解码器130与第二编码器140之间被内部地发送。在该时段期间还可以冻结第二编码器140的运行,使得没有分组被朝向对等/第二解码器150发送。
一接收到下一有效分组,就可以解码该分组并且连同该分组一起向第二编码器140发送丢失分组的数目作为辅助信息。现在第二编码器140可以再次运行但是可以通过使RTP时间戳增加对应于丢失分组的时间加上一个分组的采样时钟报时信号(tick)的量来在该分组中通知遗失分组的数目。此外,RTP序列号可以增加遗失分组的数目加一。可替换地,RTP序列号可以增加一。时间戳中的跳跃可以向对等抖动缓冲器/解码器/坏帧处理机150指示遗失某个量的分组并且解码器可以利用坏帧处理机运行多次以便内插遗失的话音分组。这可以导致可以在IP到CS网关的情况中向CS网络或者在IP终端的情况中向D/A转换器播出的恒定的经解码的话音流。
以上提到的实施例的益处是可以避免由于常规抖动缓冲和处理负载中的峰值所致的等待时间。接收的分组被即时转发到丢失指示和解码器块并且然后转发到编码器块。遗失分组不导致转码器内的第一解码器130与第二编码器140之间的任何分组的生成。这防止在丢失分组之后一旦可以接收下一有效分组时处理负载中的峰值,因为不针对遗失分组运行第一解码器130和第二编码器140。另外,这防止如图2中图示的其中在编码之前在转码器内内插遗失分组的常规方案的分组群集。
在第二实施例中,当第二编码器140使用前视功能时可以补偿由于接收和发送分组流之间的信号相位中的未对准所致的质量损失。前视可以使用在编码器的线性预测块的窗口化中,并且使用在许多低比特率编解码器中,诸如AMR、AMR-WB和G.729。
质量损失可以在一个或多个相继分组在接收分组流中丢失时产生。这些丢失分组可以反映为相比于传入分组具有略微不同的信号相位的传出分组流中的遗失分组。具体地,信号相位可以延迟前视量,前视量典型地为5ms。当发生分组丢失时,该相位差可以导致第二解码器150输出处的附加扰动。图5a图示了针对50Hz的三角波形的该现象。在该示例中,已经使用20ms的最常见的分组大小,其还是针对低比特率语音编解码器的典型编解码器帧大小。在初始化处,编码器在对实际信号编码之前添加5ms的零信号。这有效地使第二编码器140输出处的延迟增加5ms。
而且,5ms的典型子帧大小在此用于经内部解码的分组大小/间隔。这可以由MGW使用。严格来讲,G.711编码的5ms分组可以由MGW使用,但是这些也可以是具有线性脉冲码调制(PCM)样本的5ms分组。当使用5ms内部分组时,可以生成15ms附加延迟,因为第二编码器140不能运行,直到已经接收到第四子帧为止。这可能是由于MGW当前所使用的基于计时器的调度所致。然而,通过发送作为四个子帧的集群的内部分组可以增强该缺陷。
在图4和5b中示出针对前视对准问题的解决方案。如果第二编码器140利用前视,来自第一解码器130的第一子帧可能在转码器的初始化阶段被丢弃。因此,第一传出编码分组将从子帧2至5生成。相比于非对准情况,这将使第一经编码的分组和随后分组的发送延迟5ms。然而,如从图5b看到的,相比于非对准情况,实际信号可能并未延迟,并且从最终用户的观点来看延迟可能并未增加。如果第二编码器140不使用前视功能,可以不应用第一子帧的丢弃。
在转码器内部使用的20ms分组的情况中,第二分组必须从第一解码器130等待直到子帧2至5可以被给予第二编码器140为止。这可以生成20ms的延迟,其实际上等于其中使用5ms内部分组的先前情况。因此,某些实施例可以用于具有相同延迟的5ms和20ms内部分组大小二者。当第二编码器140不使用前视时,可以避免20ms附加延迟。
前视对准的益处可以从图6看到。利用ITU-TP.862.1对象MOS工具和AMR12.2kbps到AMR12.2kbps转码场景的仿真示出相比于没有前视对准的场景的大约0.1平均意见得分(MOS)的改进。然而,其并未达到作为具有坏帧处理的常规抖动缓冲的参考场景的质量水平。因此,可以使用对第一和第二实施例的增强,如第三实施例中描述的那样。
在第三实施例中,实现参考场景(抖动缓冲和坏帧处理)的话音质量。在第一和第二实施例中,如果在没有任何坏帧处理的情况下丢弃语音帧,则扰动在第一解码器130之后出现。这可能是因为同步在第一编码器105与第一解码器130之间丢失。
在仅丢弃经编码的语音帧时在可以生成扰动的相继的经编码的语音帧中存在一些依赖性。如果坏帧处理机针对一个丢失的分组运行一次,可以非常有效地消除这些扰动。在实践中,在下一有效分组之后仅运行坏帧处理机一次可以是足够的,如从图7可以看到的。每个坏帧仅运行坏帧处理机一次的该方案可以将峰值处理负载限制到标称值的两倍。如图7中所示,第三实施例的性能可以实质上与参考场景相同。可替换地,自从上一个接收的分组已经经过某个时间就可以运行坏帧处理机一次。因此,对于较长时间段的分组丢失,坏帧处理机还可以在上一个有效分组之后运行一次。对于多于一个分组的丢失,坏帧处理机可以运行两次或更多次。这可以进一步增强话音质量。
当由于过量抖动而从第一编码器105接收到分组集群时,处理负载中的一些限制也可能是必要的。通常抖动缓冲器可以通过均衡化合理群集的分组而同时丢弃过量延迟的分组来处理这些种类的情形。在没有抖动缓冲的转码器中,过量群集的分组可以将高峰值负载引入到系统中。在此,峰值负载限制可以解决该问题。在峰值负载限制中,群集分组的处理可以延迟或者可以丢弃一些分组使得实现期望的负载水平。
还可以由本系统以可感觉的方式处理乱序分组。为了最小化延迟,稍后的分组一旦被接收到就可以被解码并且朝向第二编码器140发送。这可以造成其中如果第一分组在稍后分组之后接收到则必须丢弃它的情形。这可以有效地增加帧擦除比率。例如,当乱序地接收到两个分组并且一旦被接收就转码在后序列号分组时,延迟可以最小化,因为尚未等待第一序列号分组。第一序列号分组被视为过量延迟的分组并且被丢弃。乱序分组在真实网络中非常罕见,因此这种处理可能具有较小的真实影响。
在图8中示出针对第三实施例的流程图。流程图中示出的序列可以以适当的轮询速率运行,轮询速率可以小于分组间隔。第一判定框810检测是否已经接收到分组。如果尚未接收到,则在820处第一解码器130和第二编码器140保持在冻结状态中。
一旦已经接收到分组,在830处分析是否已经超过过量延迟的阈值。如果已经超过延迟,在840处可以丢弃分组。该阈值对避免向对等解码器生成过量抖动可以是有用的,并且该阈值可以类似于常规抖动缓冲器的缓冲水平。超过缓冲水平的晚到分组可以被抖动缓冲器丢弃。
如果在830处尚未超过过量延迟,则在850处可以通过例如分析接收的分组的RTP序列号和时间戳来检测一个或多个分组的可能丢失。如果相比于先前接收的分组,在序列号和时间戳二者中存在间隙,可以确定存在分组丢失。在855处还可以确定遗失的分组的数目。在丢失一个分组的情况中,可以在862处利用坏帧处理机解码先前接收的有效分组并且可以通过内部接口将经解码的帧发送到第二编码器140。然后在864处可以通过第二编码器140对内插的分组进行编码,并且在866处传出经编码的分组的时间戳(和可选地序列号)可以增加一。
要指出的是,一个时间戳单位在此可以是指分组间隔的RTP采样时钟报时信号的增量。例如,针对8000Hz样本速率和20ms分组间隔的160个报时信号。在发送内插的经编码的分组之后,可以关于分组集群870和缓冲875来分析转码器的处理负载水平。如果没有超过分组群集和缓冲限制水平二者,可以在880处解码当前分组并且将其转发到第二编码器140。缓冲限制可以是缓冲的分组的最大数目。然后在882处对经解码的分组进行编码并且在884处针对传出分组将时间戳和序列号增加一。
如果超过群集限制但是没有超过缓冲限制,在877处可以延迟第一解码器130和第二编码器140的运行,使得处理峰值负载保持在所允许的限制内。如果超过缓冲限制,则丢弃当前分组。可替换地,可以从缓冲器丢弃先前接收的分组。
如果已经检测到多于一个分组的丢失,可以在861处解码当前有效分组并且将其连同丢失分组数目的指示一起发送到第二编码器140。在863处可以编码传出分组并且在865处时间戳可以增加丢失分组数目加一。该情况可以等同于以上讨论的第一实施例。
在接收到分组但是没有检测到分组丢失的情况中,在890处可以通过验证当前序列号比先前接收的高一来研究序列号的正确性。如果这为真,可以经由870和875如以上讨论的那样分析群集和缓冲限制,如果适当的话。如果接收的分组已经被乱序地接收,在840处可以丢弃它。
第三实施例还可以包括由第二实施例提供的质量增强。
第一、第二和第三实施例的架构可以使可听咔哒声以在使用非连续传输(DTX)并且在第一解码器130之前丢失DTX拖尾时段帧时传递到第二编码器140之后的经编码的音频中。具体地,可听咔哒声可以由以下导致。
在第一解码器130中,解码器可以在接收到SID帧时生成舒适噪声。对于语音帧之后的第一SID_FIRST/SID_UPDATE,舒适噪声可以基于可以是例如7个先前的语音帧的拖尾时段语音帧而生成。如果丢失一些拖尾时段帧,则舒适噪声参数可以从可以包含高能量语音的帧计算,如图9中所图示的。这样的计算的结果可以是经解码的信号中的可听咔哒声,如图10中图示的。
来自第一解码器130的可听咔哒声可以由第二编码器140编码。可以向遗失分组的对等抖动缓冲器/解码器/坏帧处理机150指示时间戳中的跳跃。然后,在第二解码器150之后可听咔哒声可以由最终用户听到,如图11中图示的。
当已经检测到来自切换时段的遗失帧时,存在避免该可听咔哒声的多个方式。
根据第一示例实现方式,在第一解码器130之后,系统可以在SID_FIRST+第一SID_UPDATE舒适噪声时段的持续时间内将PCM样本设置成零,在已经接收到第二SID_UPDATE之后恢复正常操作。
根据第二示例实现方式,可以利用归位(homing)帧取代第一SID_FIRST和SID_UPDATE。在已经接收到第二SID_UPDATE之后可以恢复正常操作。
根据第三示例实现方式,在第一解码器130中可以将“自从上一个SID帧以来流逝的帧”计数器设置成零,导致先前的SID更新用于舒适噪声计算。3GPP技术规范(TS)26.092(由此通过引用以其全部并入本文)解释到:“解码器对自从上一个SID帧被更新并且由编码器传递到RSS以来流逝的帧的数目进行计数。基于该计数,解码器确定在语音突发的结尾处是否存在拖尾时段。内插因子也适配于SID更新速率。一接收到SID帧,就在解码器端处生成舒适噪声。第一SID帧参数未被接收但是根据在拖尾时段期间存储的参数计算。如果没有检测到拖尾时段,使用来自先前的SID更新的参数。”
根据第四示例实现方式,可以缓冲来自先前的拖尾时段的帧,并且系统可以使用那些帧来生成舒适噪声,因而避免使用非拖尾时段语音帧。
根据第五示例实现方式,系统可以在第二编码器140侧利用no_data(无数据)帧置换在第一解码器130之后包含可听咔哒声的帧。
根据第六示例实现方式,系统可以从先前的语音暂停对背景噪声水平和频谱进行建模并且利用合成的舒适噪声取代在第一解码器130之后包含可听咔哒声的帧。
某些实施例可以具有各种优点。例如,某些实施例可以避免在常规抖动缓冲中发现的等待时间问题,因为接收的分组可以即时转发到丢失指示和解码器块并且然后转发到编码器块。这些实施例还可以防止分组群集,因为遗失分组并未在编码之前内插在转码器内。
装置的实施例可以采取各种形式。例如,可以是转码器的装置可以包括被配置成在分组丢失检测器处接收分组的分组丢失检测器。装置可以被配置成省略解码之前的抖动缓冲并且省略解码级中的坏帧处理。分组丢失检测器可以是任何合适的设备,并且可以包括一个或多个控制器、处理器、存储器或其组合。分组丢失检测器可以例如对应于分组丢失指示块125。
装置还可以包括被配置成将分组解码成经解码的分组的解码器。解码器可以对应于第一解码器130。
另外,装置可以包括被配置成将经解码的分组编码成经重编码的分组的编码器。编码器可以对应于第二编码器140。
装置可以附加地包括被配置成从转码器传输经重编码的分组的传输器。可以各种不同地体现传输器。例如,传输器可以是网络接口卡、端口、无线调制解调器或任何其它合适的通信硬件。
分组丢失检测器还可以被配置成针对接收的分组进行监视并且当分组未被接收到时冻结解码器和编码器,如图8中的810和820处所图示的。
另外,分组丢失检测器可以被配置成确定接收的分组是否被过量延迟并且当接收的分组被过量延迟时丢弃接收的分组,如图8中的830和840处所图示的。
分组丢失检测器还可以被配置成确定接收的分组是否是乱序的并且当接收的分组是乱序的时丢弃接收的分组,如图8中的890和840处所图示的。
此外,分组丢失检测器可以被配置成确定是否超过群集限制,当超过群集限制时确定是否超过缓冲限制,并且当未超过缓冲限制时延迟处理接收的分组,如图8中的870、875和877处所图示的。
分组丢失检测器还可以被配置成确定是否超过缓冲限制,并且当超过缓冲限制时丢弃接收的分组,如图8中的875和840处所图示的。
另外,分组丢失检测器可以被配置成确定是否已经丢失仅单个分组并且当已经丢失仅单个分组时内插针对单个分组的内插的分组,如图8中的855和864处所图示的。
分组丢失检测器还可以被配置成当在丢失或丢弃至少一个分组之后接收到有效分组时向编码器发信号通知丢失分组的量,如图3和4中所图示的。
而且,分组丢失检测器可以被配置成在编码器处提供前视并且在向编码器提供接收的语音信号之前根据前视对准接收的语音信号。
分组丢失检测器还可以被配置成确定在丢失分组的时段期间应用舒适噪声并且控制舒适噪声以避免可听咔哒声。这可以使用以上描述的六个实现方式示例中的任一个或者通过任何其它方式实现。
本领域普通技术人员将容易理解到,如以上讨论的本发明可以利用以不同次序的步骤和/或利用以不同于所公开的那些的配置的硬件元件来实践。因此,尽管已经基于这些优选实施例描述了本发明,但是对本领域技术人员将显而易见的是,某些修改、变型和替换构造将是显而易见的,而仍然在本发明的精神和范围内。因此为了确定本发明的边界和界限,应当参考随附权利要求。
术语表
3G第三代
AMR自适应多速率
AMR-WB自适应多速率宽带
AoIP通过IP的A-接口
CS电路交换
D/A数字到模拟
DTX非连续传输
GSM全球移动通信系统
IP互联网协议
LTE长期演进
MGW媒体网关
MOS平均意见得分
MRF多媒体资源功能
PCM脉冲码调制
RTP实时协议,实时传输协议
RSS无线电子系统
SID静默描述符
VoIP通过互联网协议的话音

Claims (40)

1.一种方法,包括:
在转码器的分组丢失检测器处接收分组;
省略转码器中的解码之前的抖动缓冲,并且省略转码器的解码级中的坏帧处理;
将分组解码成经解码的分组;
将经解码的分组编码成经重编码的分组;
从转码器传输经重编码的分组;
针对接收的分组进行监视;
当分组未被接收到时冻结转码器的解码器和编码器;
当检测到分组丢失时从解码器向编码器发送分组丢失信息;以及
设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
2.权利要求1的方法,还包括:
确定是否已经丢失仅单个分组;以及
当已经丢失仅单个分组时在转码器的解码级中执行坏帧处理并且内插针对单个分组的内插的分组。
3.权利要求1或权利要求2的方法,还包括:
当在丢失或丢弃至少一个分组之后接收到有效分组时向编码器发信号通知丢失分组的量;以及
设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
4.权利要求1-3中任一项的方法,还包括:
当分组未被接收到时设置计时器;以及
当计时器届满时在至少一个分组上执行坏帧处理。
5.权利要求2或4的方法,其中在高达预确定的最大数目的分组的多个分组上执行坏帧处理。
6.权利要求1-5中任一项的方法,还包括:
确定接收的分组是否被过量延迟;以及
当接收的分组被过量延迟时丢弃接收的分组。
7.权利要求1-6中任一项的方法,还包括:
确定接收的分组是否是乱序的;以及
当接收的分组是乱序的时丢弃接收的分组。
8.权利要求1-7中任一项的方法,还包括:
确定是否超过群集限制;
当超过群集限制时确定是否超过缓冲限制;以及
当未超过缓冲限制时延迟处理接收的分组。
9.权利要求1-8中任一项的方法,还包括:
确定是否超过缓冲限制;以及
当超过缓冲限制时丢弃接收的分组。
10.权利要求1-9中任一项的方法,还包括:
在编码器处提供前视;以及
在向编码器提供接收的语音信号之前根据前视对准接收的语音信号。
11.权利要求1-9中任一项的方法,其中当编码器不使用前视时不执行在向编码器提供接收的语音信号之前对准接收的语音信号。
12.权利要求1-10中任一项的方法,还包括:
确定应用舒适噪声,其中舒适噪声从除拖尾时段帧之外的其它帧生成;以及
控制舒适噪声以避免可听咔哒声。
13.权利要求12的方法,其中控制舒适噪声包括以下中的至少一个:
在SID_FIRST+第一SID_UPDATE舒适噪声时段的持续时间内将PCM样本设置成零,在已经接收到第二SID_UPDATE之后恢复正常操作;
利用归位帧取代第一SID_FIRST和SID_UPDATE,在已经接收到第二SID_UPDATE之后恢复正常操作;
在解码器中将自从上一个SID帧以来流逝的帧的计数器设置成零;
缓冲来自先前拖尾时段的帧并且使用缓冲的帧来生成舒适噪声;
在编码器处利用no_data帧置换在解码器之后包含可听咔哒声的帧;或者
从先前的语音暂停对背景噪声水平和频谱进行建模并且利用合成的舒适噪声取代在解码器之后包含可听咔哒声的帧。
14.一种装置,包括:
分组丢失检测器,其被配置成在分组丢失检测器处接收分组,其中装置被配置成省略解码之前的抖动缓冲并且省略解码级中的坏帧处理;
解码器,其被配置成将分组解码成经解码的分组;
编码器,其被配置成将经解码的分组编码成经重编码的分组;以及
传输器,其被配置成从转码器传输经重编码的分组,
其中分组丢失检测器还被配置成
针对接收的分组进行监视;并且
当分组未被接收到时冻结解码器和编码器,
其中解码器被配置成当检测到分组丢失时向编码器发送分组丢失信息,并且
其中编码器被配置成设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
15.权利要求14的装置,其中分组丢失检测器还被配置成
确定是否已经丢失仅单个分组;以及
当已经丢失仅单个分组时在转码器的解码级中执行坏帧处理并且内插针对单个分组的内插的分组。
16.权利要求14或权利要求15的装置,其中分组丢失检测器还被配置成当在丢失或丢弃至少一个分组之后接收到有效分组时向编码器发信号通知丢失分组的量,并且
其中编码器被配置成设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组。
17.权利要求14-16中任一项的装置,其中解码器被配置成:
当分组未被接收到时设置计时器;以及
当计时器届满时在至少一个分组上执行坏帧处理。
18.权利要求15或17的装置,其中在高达预确定的最大数目的分组的多个分组上执行坏帧处理。
19.权利要求14-18中任一项的装置,其中分组丢失检测器还被配置成
确定接收的分组是否被过量延迟;以及
当接收的分组被过量延迟时丢弃接收的分组。
20.权利要求14-19中任一项的装置,其中分组丢失检测器还被配置成
确定接收的分组是否是乱序的;以及
当接收的分组是乱序的时丢弃接收的分组。
21.权利要求14-20中任一项的装置,其中分组丢失检测器还被配置成
确定是否超过群集限制;
当超过群集限制时确定是否超过缓冲限制;以及
当未超过缓冲限制时延迟处理接收的分组。
22.权利要求14-21中任一项的装置,其中分组丢失检测器还被配置成
确定是否超过缓冲限制;以及
当超过缓冲限制时丢弃接收的分组。
23.权利要求14-22中任一项的装置,其中分组丢失检测器还被配置成
在编码器处提供前视;以及
在向编码器提供接收的语音信号之前根据前视对准接收的语音信号。
24.权利要求14-22中任一项的装置,其中分组丢失检测器被配置成当编码器不使用前视时不在向编码器提供接收的语音信号之前对准接收的语音信号。
25.权利要求14-24中任一项的装置,其中分组丢失检测器还被配置成
确定应用舒适噪声,其中舒适噪声从除拖尾时段帧之外的其它帧生成;以及
控制舒适噪声以避免可听咔哒声。
26.权利要求25的装置,其中分组丢失检测器被配置成通过以下中的至少一个来控制舒适噪声:
在SID_FIRST+第一SID_UPDATE舒适噪声时段的持续时间内将PCM样本设置成零,在已经接收到第二SID_UPDATE之后恢复正常操作;
利用归位帧取代第一SID_FIRST和SID_UPDATE,在已经接收到第二SID_UPDATE之后恢复正常操作;
在解码器中将自从上一个SID帧以来流逝的帧的计数器设置成零;
缓冲来自先前拖尾时段的帧并且使用缓冲的帧来生成舒适噪声;
在编码器处利用no_data帧置换在解码器之后包含可听咔哒声的帧;或者
从先前的语音暂停对背景噪声水平和频谱进行建模并且利用合成的舒适噪声取代在解码器之后包含可听咔哒声的帧。
27.一种装置,包括:
用于在转码器的分组丢失检测器处接收分组的接收构件,其中装置被配置成省略解码之前的抖动缓冲并且省略解码级中的坏帧处理;
用于将分组解码成经解码的分组的解码构件;
用于将经解码的分组编码成经重编码的分组的编码构件;以及
用于从转码器传输经重编码的分组的传输构件;
用于针对接收的分组进行监视的监视构件;
用于当分组未被接收到时冻结转码器的解码器和编码器的冻结构件;
用于在检测到分组丢失时从解码器向编码器发送分组丢失信息的发送构件;以及
用于设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组的设置构件。
28.权利要求27的装置,还包括:
用于确定是否已经丢失仅单个分组的确定构件;以及
用于当已经丢失仅单个分组时在转码器的解码级中执行坏帧处理的坏帧处理构件;以及
用于当已经丢失仅单个分组时内插针对单个分组的内插的分组的内插构件。
29.权利要求27或权利要求28的装置,还包括:
用于当在丢失或丢弃至少一个分组之后接收到有效分组时向编码器发信号通知丢失分组的量的发信号通知构件;以及
用于设置传出分组流以准许由下游解码器在分组未被接收到之后接收到有效分组时检测遗失的分组的设置构件。
30.权利要求27-29中任一项的装置,还包括:
用于当分组未被接收到时设置计时器的设置构件;以及
用于当计时器届满时在至少一个分组上执行坏帧处理的坏帧处理构件。
31.权利要求28或30的装置,其中在高达预确定的最大数目的分组的多个分组上执行坏帧处理。
32.权利要求27-31中任一项的装置,还包括:
用于确定接收的分组是否被过量延迟的确定构件;以及
用于当接收的分组被过量延迟时丢弃接收的分组的丢弃构件。
33.权利要求27-32中任一项的装置,还包括:
用于确定接收的分组是否是乱序的确定构件;以及
用于当接收的分组是乱序的时丢弃接收的分组的丢弃构件。
34.权利要求27-33中任一项的装置,还包括:
用于确定是否超过群集限制并且用于当超过群集限制时确定是否超过缓冲限制的确定构件;以及
用于当未超过缓冲限制时延迟处理接收的分组的延迟构件。
35.权利要求27-34中任一项的装置,还包括:
用于确定是否超过缓冲限制的确定构件;以及
用于当超过缓冲限制时丢弃接收的分组的丢弃构件。
36.权利要求27-35中任一项的装置,还包括:
用于在编码器处提供前视的提供构件;以及
用于在向编码器提供接收的语音信号之前根据前视对准接收的语音信号的对准构件。
37.权利要求27-35中任一项的装置,其中当编码器使用前视时不执行在向编码器提供接收的语音信号之前对准接收的语音信号。
38.权利要求27-35中任一项的装置,还包括:
用于确定应用舒适噪声的确定构件,其中舒适噪声从除拖尾时段帧之外的其它帧生成;以及
用于控制舒适噪声以避免可听咔哒声的控制构件。
39.权利要求38的装置,其中控制构件被配置成通过以下中的至少一个来控制舒适噪声
在SID_FIRST+第一SID_UPDATE舒适噪声时段的持续时间内将PCM样本设置成零,在已经接收到第二SID_UPDATE之后恢复正常操作;
利用归位帧取代第一SID_FIRST和SID_UPDATE,在已经接收到第二SID_UPDATE之后恢复正常操作;
在解码器中将自从上一个SID帧以来流逝的帧的计数器设置成零;
缓冲来自先前的拖尾时段的帧并且使用缓冲的帧来生成舒适噪声;
在编码器处利用no_data帧置换在解码器之后包含可听咔哒声的帧;或者
从先前的语音暂停对背景噪声水平和频谱进行建模并且利用合成的舒适噪声取代在解码器之后包含可听咔哒声的帧。
40.一种编码有指令的非暂时性计算机可读介质,所述指令当在硬件中运行时,执行过程,过程包括根据权利要求1-13中任一项的方法。
CN201380077803.0A 2013-04-25 2013-04-25 分组网络中的语音转码 Pending CN105324813A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2013/058573 WO2014173446A1 (en) 2013-04-25 2013-04-25 Speech transcoding in packet networks

Publications (1)

Publication Number Publication Date
CN105324813A true CN105324813A (zh) 2016-02-10

Family

ID=48577684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380077803.0A Pending CN105324813A (zh) 2013-04-25 2013-04-25 分组网络中的语音转码

Country Status (4)

Country Link
US (1) US9812144B2 (zh)
EP (1) EP2989632A1 (zh)
CN (1) CN105324813A (zh)
WO (1) WO2014173446A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061827A (zh) * 2023-08-17 2023-11-14 广州开得联软件技术有限公司 图像帧处理方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2521883B (en) * 2014-05-02 2016-03-30 Imagination Tech Ltd Media controller

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090268755A1 (en) * 2008-04-23 2009-10-29 Oki Electric Industry Co., Ltd. Codec converter, gateway device, and codec converting method
US20130077632A1 (en) * 2011-09-27 2013-03-28 Oki Electric Industry Co., Ltd. Buffer controller correcting packet order for codec conversion

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2306861B (en) * 1995-11-03 2000-07-12 Motorola Ltd Method and apparatus for handling erroneous data frames on a multi-hop communication link
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6772112B1 (en) * 1999-12-10 2004-08-03 Lucent Technologies Inc. System and method to reduce speech delay and improve voice quality using half speech blocks
JP3881157B2 (ja) * 2000-05-23 2007-02-14 株式会社エヌ・ティ・ティ・ドコモ 音声処理方法及び音声処理装置
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7434117B1 (en) * 2005-10-28 2008-10-07 Mediatek Inc. Method and apparatus of determining bad frame indication for speech service in a wireless communication system
DE102007018484B4 (de) 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090268755A1 (en) * 2008-04-23 2009-10-29 Oki Electric Industry Co., Ltd. Codec converter, gateway device, and codec converting method
US20130077632A1 (en) * 2011-09-27 2013-03-28 Oki Electric Industry Co., Ltd. Buffer controller correcting packet order for codec conversion

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NONE: "Universal Mobile Telecommunications System (UMTS); LTE;IP Multimedia Subsystem (IMS); Multimedia telephony; Media handling and interaction (3GPP TS 26.114 VWESION 10.6.0 Release 10), ETSI, vol. 3GPP SA 4, no. V10.6.0", 《3GPP TS 26.114 VWESION 10.6.0 RELEASE 10), ETSI, VOL. 3GPP SA 4, NO. V10.6.0》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061827A (zh) * 2023-08-17 2023-11-14 广州开得联软件技术有限公司 图像帧处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20160078876A1 (en) 2016-03-17
US9812144B2 (en) 2017-11-07
WO2014173446A1 (en) 2014-10-30
EP2989632A1 (en) 2016-03-02

Similar Documents

Publication Publication Date Title
US6421720B2 (en) Codec-independent technique for modulating bandwidth in packet network
JP4265609B2 (ja) ビデオ会議装置、装置、ビデオ会議システム、方法およびこの方法を実行するように適合された命令プログラムを含んだデバイス可読媒体または波形
KR100902456B1 (ko) 단 대 단 VoIP 매체 지연을 관리하는 방법 및 장치
CA2899836C (en) Voip bandwidth management
WO2017148260A1 (zh) 语音编码发送方法和装置
US8489758B2 (en) Method of transmitting data in a communication system
US7450601B2 (en) Method and communication apparatus for controlling a jitter buffer
US20180295050A1 (en) Apparatus and method for de-jitter buffer delay adjustment
CA2675965C (en) Dividing rtcp bandwidth between compound and non-compound rtcp packets
WO2008023303A2 (en) Jitter buffer adjustment
EP1845691B1 (en) Media stream relay device and method
US7072291B1 (en) Devices, softwares and methods for redundantly encoding a data stream for network transmission with adjustable redundant-coding delay
US10735120B1 (en) Reducing end-to-end delay for audio communication
CN103632671A (zh) 数据编解码方法、装置及数据通信系统
AU2015296540A1 (en) Receiver driven up-switching in video telephony
TW200849842A (en) Method of regulating the transmission jitter within a reception terminal
US9025504B2 (en) Bandwidth efficiency in a wireless communications network
CN105324813A (zh) 分组网络中的语音转码
JP2014160911A (ja) パケット処理装置、方法及びプログラム
WO2009029565A2 (en) Method, system and apparatus for providing signal based packet loss concealment for memoryless codecs
Praestholm et al. Packet voice rate adaptation through perceptual frame discarding
Singh et al. Performance Progress in QoS Mechanism in Voice over Internet Protocol System.
Alwakeel et al. Performance study of a Random P-Persistence sender-based VOIP loss-recovery technique
Hoene et al. An architecture for a next generation voip transmission system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160210

WD01 Invention patent application deemed withdrawn after publication