CN101601288A - 用于有效媒体处理的接收器动作和实施 - Google Patents

用于有效媒体处理的接收器动作和实施 Download PDF

Info

Publication number
CN101601288A
CN101601288A CNA2007800511062A CN200780051106A CN101601288A CN 101601288 A CN101601288 A CN 101601288A CN A2007800511062 A CNA2007800511062 A CN A2007800511062A CN 200780051106 A CN200780051106 A CN 200780051106A CN 101601288 A CN101601288 A CN 101601288A
Authority
CN
China
Prior art keywords
source
medium
media
variation
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800511062A
Other languages
English (en)
Inventor
I·约翰逊
D·恩斯特伦
T·弗兰基拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN101601288A publication Critical patent/CN101601288A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • H04L65/1089In-session procedures by adding media; by removing media
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate

Abstract

一种接收机(100)包括用于在正在进行的通信会话期间检测输入媒体的源的变化的检测器(140)以及用于提供重置信号以便于在解码新的输入媒体之前响应于这样的检测到的变化来重置解码器(120)的解码器状态的装置。通过这种方式,可以避免状态失配,而不需要检测器(100)中的若干活动的解码器实例,从而关于整体复杂性、存储器使用和功率消耗产生了相当大的节约。这还意味着在用播放器(130)最终再现解码的媒体时,可以消除或至少减少媒体失真。

Description

用于有效媒体处理的接收器动作和实施
技术领域
本发明总体上涉及通信环境中的媒体技术,并且尤其涉及在接收器侧的用于有效媒体处理的动作和/或实施。
背景技术
现代通信系统支持用户间多种媒体的交换,所述媒体包括声音、音频、视频、文本和图像。大多数所谓的多媒体系统基于网际协议(IP)技术。这样的基于IP的系统的特定示例是IP多媒体子系统(IMS)[1],它允许通过宽带网络传送高级多媒体服务和内容。例如,实时用户对用户多媒体电话(MMTel)服务[2]将在满足不同多媒体服务需求上起到关键作用。
例如,补充业务将在诸如IMS多媒体电话(MMTel)系统的现代通信系统中起重要作用,并且重要的是这些系统支持相同或至少相似的在传统系统中找到的补充业务而不会导致诸如媒体失真这样的性能降低。补充业务的示例是主叫线路识别呈现(calling line identificationpresentation)、呼叫保持、会议和通告(announcement)。例如,通告可以由通信网络产生,或由远程用户的交换台或计算机产生。
来自通信网络的通告的使用示例包括:
·当用户发起的命令无法完成时的错误消息。例如:当呼叫者抑制了电话号码的呈现而应答者已经定义了他在没有看到电话号码的情况下不会应答呼叫,那么系统必须将错误消息呈现给呼叫者。
·当用户A使会话保持(put the session on hold)时,系统将向用户B播放关于这一情况的消息。
·在会议呼叫中,在新的用户进入或用户离开会话时,会议服务器会发出通告,例如“John Smith已进入会议”以及“John Smith已离开会议”。
·用户具有金额正花完(run empty)的预付费预订。运营商可以因为低额度而限制使用,并且希望在会话开始时或会话期间(它可能是非常长的会话)对此进行通告。
·在互联网上使用得越来越多的方法是在网页上呈现具有个人识别码(或密码)的图像。个人识别码的图像的失真如此多,使得自动文本识别系统应该不能够检测到个人识别码但聪明的人仍然有可能读出字母和数字。这被用来代替用(不安全的)电子邮件发送对应的个人识别码。
来自应答者的通告的使用示例是:
·用户呼叫旅行社来订票。下面是可能发生的情形:
1、用户与旅行代理商通话以找到最佳的旅行选项。在这一步中,讨论是在两个人之间进行的。
2、在决定了旅行之后,请求用户键入他的信用卡号码。这是人机通信,其中用户听到预先录制的或机器产生的消息并且按下电话按钮(0-9)以输入他的号码。在这一过程中,以下的句子是可能的:“键入你的信用卡号码”;“你已输入了:1234 5678 9012 3456,如果这是正确的则按下1,如果不正确按下2”;“输入你的信用卡的有效日期”;“你已输入:2007年1月1日”。这些句子将由通告服务器产生。
3、在键入信用卡号码和其他所需的数据后,与旅行代理商的会话继续以决定进一步的旅行选项。
4、这些步骤可能会重复多次。
与传统的通信系统相比,在现代多媒体通信系统中用于处理媒体的条件和需求将会发生显著改变,并且因此在这样的通信系统中一般需要提供有效处理媒体的解决方案。
发明内容
本发明克服了现有技术装置的这些和其它缺点。
本发明的总体目的是改进(多媒体)通信系统中的媒体处理。
特别地,期望支持补充业务,同时以高度合算的方式消除或减少接收器侧的媒体失真。
具体的目的是提供一种用于在配备有用于解码输入的媒体流的解码器的接收器中减少媒体失真的改进方法和系统。
另一个具体目的是提供一种用在(多媒体)通信系统中的改进的接收器。
通过由所附的专利权利要求限定的本发明来实现这些和其它目的。
本发明人认识到在通信会话期间使用不同的编码器实例(instance)可能引起在接收器侧的解码器中的状态失配,从而导致可能使最终用户烦恼的失真。例如,这可能在来自新媒体源的媒体被插入到通信会话中时发生,例如在从一个媒体源切换到另一个时,或在来自新的源的媒体被添加到现有的媒体流中时。
因此,本发明的基本思想是在正在进行的通信会话期间检测输入媒体的源的变化,并且在解码新的输入媒体之前响应于这样的所检测到的变化来重置解码器的解码器状态。以这种方式,可以避免状态失配,而不需要接收器中的若干活动(active)的解码器实例,从而关于整体复杂性、存储器使用和功率消耗产生了相当大的节约。这还意味着在最终再现已解码的媒体时,可以消除或至少减少媒体失真。
优选地,检测机制被配置用于检测来自新的媒体源的媒体被插入通信会话中,例如在从一个媒体源切换到另一个时,或在来自新的源的媒体被添加到现有的媒体流时。然而,一般来说,源的变化可以是各源之间的切换、源的添加和/或源的移除。
换句话说,接收器被配置成用于在正在进行的通信会话期间检测解码器中的潜在的状态失配,并且用于响应于所检测的潜在的状态失配来重置解码器,从而避免了状态失配。
在本发明的密切相关的方面中,发送侧通过发送预定信号模式来迫使接收侧的解码器重置以为来自新的源的媒体做准备。在接收侧,这意味着在包括接收来自第一媒体源的媒体的正在进行的通信会话期间,接收器将接收预定信号模式以为随后接收来自第二不同媒体源的媒体做准备。然后将在发起对来自第二媒体源的媒体的解码之前响应于所述预定信号模式而重置解码器。
本发明特别适于现代通信系统中的补充业务,例如通告、呼叫保持和会议业务。
在阅读本发明实施例的下面描述时将会理解本发明提供的其他优点。
附图说明
通过连同附图一起参考下面的描述将会最好地理解本发明及其进一步的目的和优点,其中:
图1是示出不同媒体源之间的切换的基本示例的示意图。
图2是示出混合媒体流的贡献(contributing)源的添加/移除的基本示例的示意图。
图3是示出在编码器状态被重置而解码器状态没有被重置时的失真的示意图。
图4是示出在解码器状态被重置而编码器状态没有被重置时的失真的示意图。
图5是根据本发明示例性实施例的基本方法的示意性流程图。
图6是主要示出根据本发明示例性实施例的接收器的示意性框图。
图7是根据本发明另一个示例性实施例的方法的示意性流程图。
图8是主要示出根据本发明又一个示例性实施例的接收器的示意性框图。
图9是根据本发明再一个示例性实施例的方法的示意性流程图。
具体实施方式
在整个附图中,相同的附图标记将被用于对应的或相似的元件。
本发明人的仔细分析揭示出现有的解决方案遭受一个或多个问题。特别地,认识到用编码器的不同实例来编码媒体而使用相同的解码器通常将导致解码器中的状态失配,从而在再现解码媒体时产生严重的失真。
主要的问题是用编码器的不同实例来编码媒体而解码器是相同的。使用相同解码器的原因是由于复杂性限制和/或存储器限制和/或功率消耗。在图1所示出的示例中,考虑在例如VoIP会话中,用发送器/编码器10(被表示为A)产生一种类型的媒体,并且该媒体被传送到接收器/解码器20(被表示为B)。在该会话期间,来自发送器/编码器10(A)的媒体被来自发送器/编码器30(被表示为X)的媒体代替。简言之,在A处产生的媒体被发送到B,并且然后至少暂时地被来自X的媒体代替。
如图2所示出的,当中间混合器40将来自发送器/编码器30(被表示为X)的媒体作为新的贡献源添加到混合媒体流时,在发送器/编码器10(被表示为A)和接收器/解码器20(被表示为B)之间的通信会话中可能具有相似的问题。在基于实时传输协议(RTP)[3]的媒体通信的特定的实施例中,在RTP数据分组的报头中存在对于媒体流通信特别重要的两个字段,即SSRC和CSRC字段。SSRC代表同步源并且识别唯一的RTP发送器。CSRC代表贡献源或内容源并且识别混合媒体有效载荷的一个(或多个)贡献源。如果有多个贡献源,则有效载荷是来自这些源的混合的数据。参考图2,可以看出,媒体源A和X的每一个都可以用对应于有效载荷源的SSRC将单独的媒体流发送到混合器40。来自混合器40的混合媒体流具有对应于混合器的SSRC并且CSRC值识别到B的混合媒体流的贡献源A和X。类似地,当然也可以从混合媒体流中移除贡献源。
还有可能混合器(或应用服务器)丢弃这些源中的一个并且仅仅将另一个转发到接收器。另一种可能性是,两个流都去向接收器并且接收器必须选择将哪一个呈现给收听者。
尽管编码器实例的切换工作在当今现有的电路交换系统中,但是它工作得很好,因为所使用的编解码器通常是PCM[4]或ADPCM[5]。这些编解码器是逐样本的编解码器,它们或者不使用任何预测(PCM)或使用非常有限量的预测(ADPCM)。这意味着,解码器将很快从状态失配中恢复,并且这引起可听的或以其他方式可感觉到的失真的可能性较低。
如果使用更多依赖于预测和状态的编解码器(例如AMR[6]或AMR-WB[7]),则两个编码器之间的切换将在解码器中引起状态失配。例如,当从来自编码器A的语音媒体切换到来自编码器X的媒体时,在切换的瞬间解码器状态与编码器A中的状态相同,而编码器X中的状态将从初始化状态开始。如果从编码器A切换回媒体,则将发生相似的状态失配。
对于多速率编解码器(例如AMR)来说,另一个问题是来自编码器A的语音可以利用较低速率编解码器模式(例如AMR 5.9kbps)来很好地编码,而来自编码器X的媒体可以利用较高速率编解码器模式(例如AMR 12.2kbps)来很好地编码。在这种情况下,不仅仅是状态失配,而且是编解码器模式失配。另一个示例包括各编解码器之间的切换,例如在AMR和EVRC之间或在AMR和AMR-WB之间,代表了编解码器失配。
对于现代低速率语音编解码器来说,状态非常重要,因为为了获得优良的压缩率同时仍提供优良的语音质量状态是必需的。状态失配可以引起或多或少可听到的失真,这取决于当前的内容。为了减少质量影响,适当地处理媒体因此很重要。特别地,基于现代预测的编解码器的使用一般将导致状态失配,例如当通告中断正常的媒体时,导致也会使用户烦恼的可听到的或以其他方式可感觉到的失真。在许多现代编解码器中使用帧间预测(例如AMR或AMR-WB),以便降低比特率,即为了获得高压缩率,同时仍提供优良的质量。帧间预测需要一帧一帧地传送状态。当通告中断正常的媒体时,因为使用了编解码器的两个不同实例(一个编解码器实例在UE A中用于来自用户的语音媒体,而一个编解码器实例在通告服务器中)所以将会有状态失配。在UE A中的状态已经根据所使用的预测发展了,而在通告服务器中的状态从初始化状态开始。状态失配将引起或多或少可听到的失真,这取决于当前的内容。这样的失真的两个示例如图3和图4所示。在这两种情况下的失真是可以清楚地听到的,并且收听者可以容易地发现,但是图3中的尖峰非常令人讨厌。
从图3和图4中还可以看出,在异步重置之后花费了大约100-200ms来恢复合成。相反,无状态的编解码器(例如PCM)将立即恢复因为不需要将状态“建立”到适当的内容。
该问题不限于语音。对于一般的音频和视频也会发生相似的问题。对于这些情况,在一些情况下,可以预期甚至更大的问题,因为这些编解码器通常具有比语音编解码器更大的压缩率,并且为了实现这一压缩率,它们会更多地依赖于优良的质量状态。
如所提到的,在来自给定编码器的媒体被由不同编码器编码的通告中断并代替时将发生编码器实例的切换;在通告开始时将发生切换;在通告结束和/或切换回原始编码器瞬间时将发生另一切换。通告可以被“动态地(on the fly)”编码或者其可以作为预先记录的材料而存在,但是从接收器的角度来看这没有任何差异。
状态失配也可以发生在呼叫保持情况下。在呼叫保持情形中的状态失配问题可以被说明为:
1、用户A与用户B交谈并且这两个UE都处于发送-接收状态中。
2、用户A让用户B保持等待。UE A将进入仅发送状态并且UE B将进入仅接收状态。
3、用户A建立与用户C的对话,并且这两个UE都处于发送-接收状态。用户B可能同时从X得到通告或保持音乐,或者可能被静音。
4、用户A继续与用户B的对话。UE A和UE B都处于发送-接收状态。
在来自A的媒体被通告或保持音乐中断时,除了B中的问题之外,在从步骤3到步骤4的转换中上述情形还给出了一些潜在的问题。
1、用户A的UE已接收到来自用户C的UE的分组,并且突然获得来自用户B的UE的分组。如果这两个流C→A和B→A用不同的解码器实例进行解码,那么这通常是个小问题。另一方面,如果这两个流共享单个解码器实例,将产生严重状态失配的潜在风险,除非重置解码器。
2、用户B的UE可能已经从用户A的UE接收到DTX SID更新分组、呼叫通告或保持音乐或什么也没有接收到。这意味着,解码器可能处于完全静音的状态或处于另一个未知的状态。如果由不同的解码器实例处理保护音乐或通告,则该问题通常是有限的,另一方面,如果仅使用一个解码器实例则再次,经常会发生严重的状态失配问题。
对于在复杂性和物理尺寸问题是关键因素的蜂窝应用中仅一个解码器实例的问题是尤其重要的。
根据示例性技术的基本思想是在正在进行的通信会话期间检测解码器中的潜在状态失配,并且重置解码器以避免状态失配或至少减少失真。
图5是根据本发明的示例性实施例的基本方法的示意性流程图。该方法基于在正在进行的通信会话期间检测输入的媒体的源中的变化(S1)。响应于这种检测的变化,在解码新的输入媒体之前解码器的解码器状态被重置(S2)。通过这种方式,可以避免状态失配,或至少可以减少失真,而不需要接收器中的若干活动的解码器实例。在解码的媒体被最终再现时,这导致减少的媒体失真,并且还关于整体复杂性、存储器使用和功率消耗导致相当大的节约。通常,重置解码器意味着所考虑的解码器状态要被设置到某些明确定义的初始化状态。
图6是主要示出根据本发明示例性实施例的接收器的示意性框图。基本地,输入媒体可能源自若干媒体源,并且源的变化例如可以是媒体源的切换、或媒体源到现有媒体流的添加或媒体源从现有媒体流的移除。接收器100包括:一个或若干缓冲器110、解码器120和播放器130,以及检测器140。在将输入的数据分组发送到解码器120以用于进一步的处理之前,一个(或多个)缓冲器110(例如抖动缓冲器)暂时存储输入的数据分组。因为网络拥挤、定时漂移或路线改变,可能发生分组到达时间的变化(所谓的抖动)。然后抖动缓冲器可以被用来通过有意地延迟到达分组并且在规则的间隔中将分组转发到解码器来均衡化延迟变化。通过这种方式,最终用户经历了清晰的连接而具有非常小的失真。检测器140优选地监控输入的媒体流或缓冲的媒体数据,以检测输入媒体的源的变化。缓冲器110中的现有媒体帧优选地从缓冲器中接连输出,被解码并被再现,并且新的媒体帧被缓冲。然后检测器140产生用于解码器120的重置信号。响应于所述重置信号,在开始解码并再现新的媒体帧之前解码器120被重置到其初始化状态。
有利的是监控一个或多个分组报头字段并在输入的媒体数据流中的分组之间检测分组字段的变化;使用信号分类算法或水印技术监控媒体有效载荷来检测源的变化;或监控显式的控制信令(例如SIP信令)。
适当的检测机制的示例包括检测分组报头字段(例如RTP流中的SSRC和/或CSRC字段)中的变化;检测呼叫保持状态的变化以及检测在输入的媒体数据中的分组之间的媒体编码的变化。下面将描述其他的示例。
还应该理解,重新初始化与解码器相关联的抖动缓冲器(所谓的重新缓冲)可以被认为是特定形式的解码器重置。
本发明的特定应用是MMTel系统中的VoIP(IP语音),但是本发明还可以被用于视频和一般的音频编解码器。特别地,希望在媒体源变化的情况下,确保诸如呼叫通告、呼叫保持、显式呼叫转移(ECT)之类的补充业务或其他业务在接收器中被重建而没有任何失真或至少具有尽可能少的失真。例如,接收器可以检测到通告来自于与(来自UE A的)正常媒体不同的源并且可以采取适当的动作来最小化(或至少减少)失真。接收器还可以检测到/从呼叫保持的转移、显式呼叫转移或其他相似的业务,以指示输入媒体的源的变化。
如上所述,为了最小化任何令人烦恼的失真,适当地处理媒体是很重要的。减少失真的处理动作主要在接收端完成。
检测状态重置触发器的示例。
存在若干方式来检测例如由于通告的开始和结束或源的其他变化有必要重置解码器。一些检测方法是可靠的,并且依赖于某一类型的信今。其他检测方法不是很可靠,因为它们需要检测某种类型的特性。
可靠的方法的示例包括:
·RTP报头包含SSRC(同步源)字段,其包括来自该源的随机数。如果SSRC字段被改变,那么接收器知道该源是不同的。
·当通告媒体结束时,SSRC值将切换回原始的SSRC值。
有可能在一个RTP分组中具有来自多个源的媒体。在这种情况下,将存在一个SSRC字段和一个或若干CSRC(贡献源)字段。编码通告媒体的编码器X可以选择将其媒体添加到来自编码器A的RTP分组,这意味着其将添加CSRC值。当SSRC和/或CSRC变化时,接收器知道所添加的媒体来自不同的源。
·在通告媒体已结束时,将从随后的RTP分组中移除CSRC值。
·来自编码器A和通告服务器的媒体还可以被不同地编码。例如,来自编码器A的媒体可以使用AMR-WB(宽带AMR)而来自编码器X的媒体可以使用AMR(窄带AMR)。
通过为不同的配置分配不同的RTP有效载荷类型(PT)来指示不同的编码。这也是一种检测媒体来自不同的源的可靠方法。
在来自编码器X的媒体已结束时,原始编解码器格式将被用于来自编码器A的媒体。
·SIP信今。在呼叫保持情形中,某些方将进入仅发送或仅接收状态以稍后返回到发送-接收状态。于是这些转换将用作源的变化的指示。
·可以使用信号分类算法来检测源自通告服务器的媒体。
·可以使用所谓的媒体水印来将某种通告标识符包括在实际的媒体中。
·通告服务器还可以发送显式信号以通知接收器它已开始以及它什么时候结束发送通告媒体。一种可能性是使用为PoC(Push-to-talk overCellular,无线一键通)[9]定义的通话突发控制(Talk Burst Control)(TBC)信令[8]。
可替换的方法的示例包括:
·当从来自编码器A的媒体切换到来自编码器X的媒体时,抖动特性通常将会改变,因为编码器X驻留在通告服务器中。这是因为由接收器感觉到的总抖动是在上行链路、核心网络和下行链路上的抖动的总和。并且当从通告服务器发送媒体时,来自上行链路的抖动不可适用,因为媒体没有经过这一空中接口发送。
·因为类似的原因,还可以期望分组丢失特性发生变化。
图7是根据本发明的另一示例性实施例的方法的示意性流程图。在这一特定的示例中,在正在进行的会话期间的媒体源的变化首先被检测(S11),并且然后解码并播放抖动缓冲器中的现有媒体(S12)。任选地,抖动缓冲器被重新初始化(S13)。来自新的源的媒体数据被存储在抖动缓冲器中(S14)。响应于检测到源的变化,在解码新的媒体之前解码器状态被重置(S15)。最后,新的媒体被解码并播放(S16)。
图8是主要示出根据本发明的又一个示例性实施例的接收器的示意性框图,与图6的相似。然而,在这一特定示例中,接收器100还包括用于重新初始化一个(或多个)抖动缓冲器的单元150。此外,播放器130被实施为更灵活且通用的再现模块,其包括诸如衰减、时间缩放和带宽扩展等等之类的任选功能,以用于提供来自不同源的媒体之间的平滑转换。
下面,将通过示例性地参考图9来描述与在检测到通告或呼叫保持时的动作有关的本发明的示例性实施例。
在检测到(S21)接收到通告媒体或呼叫保持状态被改变时,接收实体(UE)的动作的示例包括:
·尽快地播放或完成(finalize)(S22)抖动缓冲器中的来自编码器A的现有媒体帧并缓冲通告媒体(S24)。
·接收器可以使用时间缩放以便加速来自编码器A的媒体的播放。
·在开始产生通告媒体之前,解码器应该被重置到初始化状态(S25)。一旦解码器被重置,新媒体的解码可以被启动(S26)。
·重新初始化(S23)抖动缓冲器(所谓的重新缓冲)。
·如果被编码器X编码的媒体是通告媒体,那么实际上不是实时的(实时要求不适用于预先录制的媒体)。接收器在开始播放之前可以在抖动缓冲器中缓冲更多的媒体,从而减少晚期(late)丢失的风险。
·来自编码器A的媒体的播放应该优选地使用渐弱(fade-out)(将音量从所使用的(正常)音量逐渐减小到零)。接收器应该优选地对通告媒体使用渐强(fade-in)(将音量从零逐渐增加到正常音量)(S28)。
·接收器还可以在播放再生信号之前监控再生信号,以便检测任何尖峰,从而使得它们可以被静音。
·在检测到来自编码器A的语音媒体和通告媒体使用不同的声学带宽时,例如分别被AMR-WB(50-7000Hz)和AMR(300-3400Hz)编码,接收器应当优选地使用带宽扩展(宽带扩展),以便产生平滑的转换(S27)。用于在不同媒体之间提供平滑转换的其他类似过程也可以被设想用于音频和视频。
当不再有通告媒体被接收时,接收实体(UE)的动作的示例包括:
·尽快地播放仍存在于抖动缓冲器中的任何通告媒体(S22)。
·接收器可以使用时间缩放来加速剩余的通告媒体的播放。
·在播放来自编码器A的媒体之前重置解码器(S25)。
·重新初始化抖动缓冲器(重新缓冲)(S23)。这特别重要,因为如果编码器X驻留在网络中的盒(box)(例如通告服务器)中,那么与来自编码器A的RTP分组相比,在来自编码器X的RTP分组上的抖动通常较少,这意味着抖动缓冲器通常已适应于比其用于来自编码器A的RTP分组更低的缓冲水平。并且然后,当切换回来自编码器A的媒体时,抖动缓冲器没有包含足够的数据来处理对于来自编码器A的媒体可预期的更大的抖动。
·可能的修改是在切换到通告媒体之前存储抖动缓冲器目标水平和适配状态并且用所述水平和状态重新初始化抖动缓冲器适配。
如先前所描述的,发送侧可以通过发送预定信号模式来迫使接收侧的解码器重置以为来自新的源的媒体做准备。这意味着在包括接收来自第一媒体源的媒体的正在进行的通信会话期间,接收器将接收预定信号模式以为随后接收来自第二不同媒体源的媒体作准备。然后在启动对来自第二媒体源的媒体的解码之前将响应于所述预定信号模式来重置解码器。例如,在从呼叫保持状态切换回时,发送实体(UE)可以发射编解码器归属帧(homing frame)或类似的信号模式(甚至若干空帧)并且因此迫使接收器中的解码器重置。
本发明的示例性优点是:
·由于媒体源之间的切换、媒体源的添加和/或删除而引起的失真被减少并且甚至被完全移除。这带来了媒体之间更合意的转换,例如当必须为接收用户产生通告时。
·因为UE不必具有并行执行的若干活动的编解码器实例,在UE中对于MIPS和存储器来说还存在复杂性的优点。
上述实施例仅作为示例而给出,并且应该理解本发明不限于此。保持此处所公开和所要求保护的基础根本原理的进一步修改、变化和改进都在本发明的范围之内。
简称
ADPCM       自适应差分脉冲编码调制
AMR         自适应多速率
AMR-WB      AMR-宽带
CSRC        贡献源
DTX         不连续发射
ECT         显式呼叫转移
EVRC        增强型可变速率编解码器
IMS         IP多媒体子系统
IP          网际协议
MIPS        每秒百万指令
MMTel       多媒体电话
PCM         脉冲编码调制
PoC         无线一键通
RTP         实时协议
SID         静寂描述符
SIP         会话发起协议
SSRC        同步源
TBC         通话突发控制
UE          用户设备
VoIP        IP语音
参考文献
[1]3GPP TS 23.228,“IP Multimedia Subsystem(IMS),Stage 2”.
[2]3GPP TS 26.114,”IP Multimedia Subsystem(IMS);MultimediaTelephony;Media handling and interaction”.
[3]RFC 3550,“RTP:A Transport Protocol for Real-TimeApplications”,H.Schulzrinne,S.Casner,R.Frederick and V.Jacobson.
[4]ITU-T Recommendation G.711,“Pulse Code Modulation(PCM)ofVoice Frequencies”.
[5]ITU-T Recommendation G.726,“40,32,24,16kbit/s AdaptiveDifferential Pulse Code Moulation(ADPCM)”.
[6]3GPP TS 26.071,“Mandatory Speech Codec speech processingfunctions;AMR Speech CODEC;General description”.
[7]3GPP TS 26.171,“Speech codec speech processing functions;Adaptive MultiRate-Wideband(AMR-WB)speech codec;Generaldescription”.
[8]Open Mobile Alliance,“PoC User Plane”,Candidate Version 1.0-27Jan 2006,Chapter 6.5.
[9]Open Mobile Alliance,“OMA PoC System Description”,DraftVersion 2.0-21 June 2006.

Claims (25)

1、一种用于减少接收器中的媒体失真的方法,该接收器具有用于解码输入媒体的解码器以及用于播放所解码的媒体的播放器,所述方法包括下述步骤:
-在正在进行的通信会话期间,检测输入媒体的源的变化;以及
-在解码新的输入媒体之前,响应于所述检测到的变化重置所述解码器的解码器状态。
2、根据权利要求1所述的方法,其中所述检测输入媒体的源的变化的步骤包括检测来自新的媒体源的媒体被插入到通信会话中的步骤。
3、根据权利要求1所述的方法,其中所述检测输入媒体的源的变化的步骤包括检测从第一媒体源到第二不同媒体源的切换的步骤,其中所述新的输入媒体包括来自所述第二媒体源的媒体。
4、根据权利要求3所述的方法,其中从所述第一媒体源到所述第二媒体源的所述切换包括在来自远程用户的用户媒体和来自通告服务器的通告媒体之间的切换。
5、根据权利要求1所述的方法,其中所述检测输入媒体的源的变化的步骤包括检测混合媒体流的贡献源的变化的步骤。
6、根据权利要求1所述的方法,其中所述检测输入媒体的源的变化的步骤包括检测所述输入媒体数据的各分组之间的分组报头字段的变化的步骤。
7、根据权利要求1所述的方法,其中所述检测输入媒体的源的变化的步骤包括检测呼叫保持状态的变化的步骤。
8、根据权利要求1所述的方法,其中所述检测输入媒体的源的变化的步骤包括检测在所述输入媒体数据中的各分组之间的媒体编码的变化的步骤。
9、根据权利要求1所述的方法,还包括下述步骤:
-播放存储在抖动缓冲器中的来自第一源的现有媒体,所述抖动缓冲器被提供为与所述接收器中的解码器相关;
-重新初始化所述抖动缓冲器;以及
-在所述抖动缓冲器中缓冲来自第二源的媒体,一旦所述解码器状态被重置,所述缓冲的媒体就准备好解码。
10、根据权利要求9所述的方法,其中通过使用渐弱来播放来自所述第一源的现有媒体,并且通过使用渐强来播放来自所述第二源的媒体。
11、根据权利要求9所述的方法,还包括应用转换过程以在来自所述第一源的媒体和来自所述第二源的媒体之间产生平滑转换的步骤。
12、一种用于减少接收器中的媒体失真的系统,该接收器具有用于解码输入媒体的解码器以及用于播放所解码的媒体的播放器,所述系统包括:
-用于在正在进行的通信会话期间,检测输入媒体的源的变化的装置;以及
-用于在解码新的输入媒体之前,响应于所述检测到的变化重置所述解码器的解码器状态的装置。
13、根据权利要求12所述的系统,其中所述用于检测输入媒体的源的变化的装置包括用于检测来自新的媒体源的媒体被插入到通信会话中的装置。
14、根据权利要求12所述的系统,其中所述用于检测输入媒体的源的变化的装置包括用于检测从第一媒体源到第二不同媒体源的切换的装置,其中所述新的输入媒体包括来自所述第二媒体源的媒体。
15、根据权利要求14所述的系统,其中从所述第一媒体源到所述第二媒体源的所述切换包括在来自远程用户的用户媒体和来自通告服务器的通告媒体之间的切换。
16、根据权利要求12所述的系统,其中所述用于检测输入媒体的源的变化的装置包括用于检测混合媒体流的贡献源的变化的装置。
17、根据权利要求12所述的系统,其中所述用于检测输入媒体的源的变化的装置包括用于检测在所述输入媒体数据的各分组之间的分组报头字段的变化的装置。
18、根据权利要求12所述的系统,其中所述用于检测输入媒体的源的变化的装置包括用于检测在所述输入媒体数据的各分组之间的媒体编码的变化的装置。
19、根据权利要求12所述的系统,其中所述系统还包括:
-与所述解码器相关提供的抖动缓冲器,其用于存储输入媒体,所述播放器用来播放已经存储在所述抖动缓冲器中的来自第一源的现有媒体;
-用于重新初始化所述抖动缓冲器的装置;以及
-用于在所述抖动缓冲器中缓冲来自第二源的媒体的装置,一旦所述解码器状态被重置,所述缓冲的媒体就准备好解码。
20、根据权利要求19所述的系统,其中所述播放器用来通过使用渐弱来播放所述现有媒体,并且所述播放器用来通过使用渐强来播放来自所述第二源的媒体。
21、根据权利要求12所述的系统,其中在所述接收器中实施所述系统。
22、一种具有用于解码输入媒体的解码器的接收器,所述接收器被配置成用于在正在进行的通信会话期间检测所述解码器中的潜在状态失配,以及用于响应于所检测到的潜在状态失配来重置所述解码器的解码器状态以避免状态失配或至少减少失真。
23、根据权利要求22所述的接收器,其中所述接收器被配置成通过在所述正在进行的通信会话期间检测输入媒体的源的变化来检测在所述解码器中的潜在状态失配。
24、根据权利要求22所述的接收器,其中所述接收器被配置成用于通过检测在输入媒体数据中的各分组之间的媒体编码的变化来检测在所述解码器中的潜在状态失配。
25、一种用于减少接收器中的媒体失真的方法,该接收器具有用于解码输入媒体的解码器以及用于播放所解码的媒体的播放器,所述方法包括下述步骤:
-在正在进行的包括从第一媒体源接收媒体的通信会话期间,接收预定信号模式,以为随后接收来自第二不同媒体源的媒体做准备;以及
-在解码来自所述第二媒体源的媒体之前,响应于所述预定信号模式来重置所述解码器的解码器状态。
CNA2007800511062A 2006-12-08 2007-11-28 用于有效媒体处理的接收器动作和实施 Pending CN101601288A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US86916006P 2006-12-08 2006-12-08
US60/869,160 2006-12-08

Publications (1)

Publication Number Publication Date
CN101601288A true CN101601288A (zh) 2009-12-09

Family

ID=39492760

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800511062A Pending CN101601288A (zh) 2006-12-08 2007-11-28 用于有效媒体处理的接收器动作和实施

Country Status (5)

Country Link
US (1) US20100080328A1 (zh)
EP (1) EP2105014B1 (zh)
JP (1) JP5528811B2 (zh)
CN (1) CN101601288A (zh)
WO (1) WO2008069722A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272696A (zh) * 2012-04-27 2015-01-07 瑞典爱立信有限公司 驻留在设备上的媒体文件
CN109890071A (zh) * 2012-10-18 2019-06-14 Vid拓展公司 移动多媒体流的解码复杂度
CN113473162A (zh) * 2021-04-06 2021-10-01 北京沃东天骏信息技术有限公司 一种媒体流的播放方法、装置、设备和计算机存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110271307A1 (en) * 2009-12-18 2011-11-03 Tektronix International Sales Gmbh Video data stream evaluation systems and methods
US9635374B2 (en) 2011-08-01 2017-04-25 Apple Inc. Systems and methods for coding video data using switchable encoders and decoders
US10491640B2 (en) 2011-12-22 2019-11-26 Telefonaktiebolaget Lm Ericsson (Publ) Method and media handling unit for use in a VoIP based communications network
US9148306B2 (en) * 2012-09-28 2015-09-29 Avaya Inc. System and method for classification of media in VoIP sessions with RTP source profiling/tagging
US20160088079A1 (en) * 2014-09-21 2016-03-24 Alcatel Lucent Streaming playout of media content using interleaved media players
JP6475559B2 (ja) * 2015-04-28 2019-02-27 日本放送協会 符号化装置、復号装置及びこれらのプログラム
KR102338335B1 (ko) * 2015-05-29 2021-12-10 삼성전자주식회사 통화 보류음을 재생하기 위한 방법 및 그 전자 장치
US10841357B1 (en) * 2019-09-12 2020-11-17 Dialpad, Inc. Using transport layer protocol packet headers to encode application layer attributes in an audiovisual over internet protocol (AVoIP) platform

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728494A (ja) * 1993-07-09 1995-01-31 Nippon Steel Corp 圧縮符号化音声信号復号化方法および装置
EP0727780B1 (en) * 1995-02-16 2002-01-23 Kabushiki Kaisha Toshiba Output control system for switchable audio channels
US6233389B1 (en) * 1998-07-30 2001-05-15 Tivo, Inc. Multimedia time warping system
US6504826B1 (en) * 1998-08-24 2003-01-07 Hitachi, Ltd. Digital broadcasting receiver
US6581164B1 (en) * 2000-01-03 2003-06-17 Conexant Systems, Inc. System for adjusting clock frequency based upon amount of unread data stored in sequential memory when reading a new line of data within a field of data
JP2002247137A (ja) * 2000-04-25 2002-08-30 Canon Inc 通信装置及び通信方法
JP2002009870A (ja) * 2000-06-20 2002-01-11 Hitachi Kokusai Electric Inc データ伝送装置
JP4551555B2 (ja) * 2000-11-29 2010-09-29 株式会社東芝 符号化データ伝送装置
US20030176198A1 (en) * 2002-03-14 2003-09-18 Chisholm John P. Communication system
US20030212550A1 (en) * 2002-05-10 2003-11-13 Ubale Anil W. Method, apparatus, and system for improving speech quality of voice-over-packets (VOP) systems
US7324736B2 (en) * 2002-10-09 2008-01-29 Lsi Logic Corporation Intelligent recording control system
US7301902B2 (en) * 2003-03-03 2007-11-27 Broadcom Corporation Generic on-chip homing and resident, real-time bit exact tests
JP4364555B2 (ja) * 2003-05-28 2009-11-18 日本電信電話株式会社 音声パケット送信装置とその方法
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
JP4296895B2 (ja) * 2003-10-06 2009-07-15 ソニー株式会社 データ処理装置及び方法
JP2005153722A (ja) * 2003-11-26 2005-06-16 Yazaki Corp タイヤ空気圧検出装置
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US7609670B2 (en) * 2004-09-29 2009-10-27 MestNetworks, Inc. System and method for performing low-overhead, high spatial reuse medium access control in a wireless network
JP4628798B2 (ja) * 2005-01-13 2011-02-09 Kddi株式会社 通信端末装置
JP4392378B2 (ja) * 2005-04-18 2009-12-24 日本電信電話株式会社 音声符号化選択制御方法
JP4406382B2 (ja) * 2005-05-13 2010-01-27 日本電信電話株式会社 音声符号化選択制御方法
US8045542B2 (en) * 2005-11-02 2011-10-25 Nokia Corporation Traffic generation during inactive user plane

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272696A (zh) * 2012-04-27 2015-01-07 瑞典爱立信有限公司 驻留在设备上的媒体文件
US9749369B2 (en) 2012-04-27 2017-08-29 Telefonaktiebolaget Lm Ericsson (Publ) Device-resident media files
US10616292B2 (en) 2012-04-27 2020-04-07 Telefonaktiebolaget Lm Ericsson (Publ) Device-resident media files
US10958696B2 (en) 2012-04-27 2021-03-23 Telefonaktiebolaget Lm Ericsson (Publ) Device-resident media files
CN109890071A (zh) * 2012-10-18 2019-06-14 Vid拓展公司 移动多媒体流的解码复杂度
US11368509B2 (en) 2012-10-18 2022-06-21 Vid Scale, Inc. Decoding complexity for mobile multimedia streaming
CN113473162A (zh) * 2021-04-06 2021-10-01 北京沃东天骏信息技术有限公司 一种媒体流的播放方法、装置、设备和计算机存储介质
CN113473162B (zh) * 2021-04-06 2023-11-03 北京沃东天骏信息技术有限公司 一种媒体流的播放方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
EP2105014B1 (en) 2014-08-06
WO2008069722A3 (en) 2008-07-24
US20100080328A1 (en) 2010-04-01
EP2105014A4 (en) 2013-05-15
JP2010512105A (ja) 2010-04-15
WO2008069722A2 (en) 2008-06-12
EP2105014A2 (en) 2009-09-30
JP5528811B2 (ja) 2014-06-25

Similar Documents

Publication Publication Date Title
CN101601288A (zh) 用于有效媒体处理的接收器动作和实施
CN101601269B (zh) 用户媒体与通告媒体之间切换的方法,系统及通告服务器
EP1782644B1 (en) Interoperability for wireless user devices with different speech processing formats
US8169937B2 (en) Managing a packet switched conference call
US8503538B2 (en) Method, apparatus, system, and program for content encoding, content distribution, and content reception
CN101536088B (zh) 用于提供冗余管理的系统和方法
KR100928751B1 (ko) 무선 시스템에서 다수의 동시 통신들의 충돌들을 해결하기 위한 시스템 및 방법
US6963352B2 (en) Apparatus, method, and computer program for supporting video conferencing in a communication system
US20070070991A1 (en) Method and apparatus for voice over IP telephone
JP4926527B2 (ja) 移動通信端末機における音声コーデックのスイッチング装置及びスイッチング方法
CN101115011A (zh) 一种流媒体回放方法、装置及系统
CN101790754B (zh) 用于提供amr-wb dtx同步的系统和方法
US8515039B2 (en) Method for carrying out a voice conference and voice conference system
US7856096B2 (en) Erasure of DTMF signal transmitted as speech data
CN101217503B (zh) 即时通讯音视频的能力交换方法、系统和即时通讯系统
FR2888698A1 (fr) Dispositif de communication, procede de formation d'un message de protocole de transfort et procede de traitement d'un message de protocole de transport
JP3606206B2 (ja) パケット網電話網複合システム
KR100814763B1 (ko) 멀티미디어 링백톤 대체음 서비스를 위한 오디오 데이터재생 방법 및 그를 위한 이동통신 단말기
CN101110872A (zh) 一种软交换话务台保持、恢复的方法及系统
CN117153170A (zh) 一种离线媒体语音流的还原方法
Fredholm et al. Implementing an application for communication and quality measurements over UMTS networks
Agrawal et al. To improve the voice quality over IP using channel coding
Lee et al. Internet Telephony Gateway Server-Software Design
Fredholm et al. Implementing an application for communication and quality measurements over UMTS networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20091209