CN103945166B

CN103945166B - 用于在媒体中继会议中同步音频和视频流的方法和系统

Info

Publication number: CN103945166B
Application number: CN201310757163.XA
Authority: CN
Inventors: A·哈拉维; A·亚苏尔
Original assignee: Polycom Inc
Current assignee: Hewlett Packard Development Co LP
Priority date: 2012-11-01
Filing date: 2013-10-30
Publication date: 2017-05-17
Anticipated expiration: 2033-10-30
Also published as: TW201433129A; US9426423B2; EP2728830B1; JP2014112826A; TWI568230B; CN103945166A; US20140118473A1; EP2728830A1

Abstract

本发明涉及用于在媒体中继会议中同步音频和视频流的方法和系统。新技术允许将通过中间节点在接收媒体中继端点处接收到的多个音频和视频流进行同步，所述中间节点诸如是媒体中继多点控制单元。接收到的流由多个发射媒体中继端点产生并通过中间节点而被中继到多个接收媒体中继端点，但被视为在保持正确的捕获时间的同时在挂钟和操纵时间戳的方面使用单个时间域。

Description

用于在媒体中继会议中同步音频和视频流的方法和系统

技术领域

本发明涉及音频／视频通信，并且更具体地涉及多点音频／视频会议领域。

背景技术

随着互联网协议(IP)网络上的业务持续其快速增长，伴随有各种多媒体会议设备的增长，越来越多的人使用多媒体会议作为他们的通信工具。现今，多媒体会议通信可基于两种类型的通信方法而执行：传统的多媒体会议方法和媒体中继会议方法的新技术。在本公开中，术语“多媒体会议、视频会议和音频会议可以可互换地使用，并且术语“视频会议”可用作它们的代表性术语。

三个或更多个参与者之间的传统多点会议需要多点控制单元(MCU)。MCU是会议控制实体，通常位于网络节点或从端点接收多个信道的终端中。根据某些准则，MCU处理音频和视觉信号并分发它们到连接信道的集合。MCU的示例包括MGC-100，RMX2000，其可从Polycom,Inc.获得(RMX-2000是Polycom，Inc.的注册商标)。可被称为传统端点(LEP)的终端是网络上的实体，其能够提供与另一个LEP或MCU的实时、双向音频和／或音频可视通信。LEP和MCU的更全面的定义可见于国际电信联盟(″ITU")标准中，例如但不限于H.320，H.324和H.323标准，这些标准可在下述ITU网站处找到：www.itu.int。

公共MCU(也被称为传统MCU)可包括多个音频和视频解码器、编码器和媒体组合器(音频混合器和／或视频图像构建器)。MCU可使用大量的处理能力来处理可变数目的参与者(LEP)之间的音频和视频通信。该通信可以基于各种通信协议和压缩标准，并可涉及不同类型的LEP。MCU可能需要分别组合多个输入音频或视频流为至少一个单个音频或视频输出流，该输出流与该输出流被发送到的至少一个与会者的LEP的属性兼容。从端点接收到的压缩音频流被解码并可以被分析来确定将选择哪些音频流以混合为会议的单个音频流。在本公开中，术语“解码”和“解压缩”可以可互换地使用。

会议可以具有一个或多个视频输出流，其中每个输出流与布局相关联。布局定义了接收流的一个或多个与会者的显示器上会议的外观。布局可被分为一个或多个片段，其中，每个片段可以与由与会者(端点)发送的视频输入流相关联。每个输出流可由多个输入流构成，从而产生连续呈现(CP，continuous presence)会议。在CP会议中，远程终端处的用户可同时观察会议中的其他多个参与者。每个参与者可被显示在布局的片段中，其中每个片段可以是相同的尺寸或不同的尺寸。在参加相同会话的不同与会者当中，所显示的且与布局片段相关联的参与者的选择可以变化。

使用视频会议的增长趋势增加了对低成本MCU的需求，其将使一个低成本MCU能够进行具有所组成的CP视频图像的多个会议会话。这种需求产生了媒体中继会议(MRC)的新技术。

在MRC中，媒体中继MCU(MRM)从每个参与的媒体中继端点(MRE)接收一个或多个输入流。MRM给每个参与的端点中继从会议中的其他端点接收到的多个媒体输出流的集合。依据布局，每个接收端点使用多个流来产生视频CP图像以及会议的混合音频。CP视频图像和混合的音频被播放给MRE的用户。MRE可以是会话中与会者的终端，其具有从MRM接收中继的媒体和依据来自MRM的指令传递压缩的媒体的能力。希望更多地了解MRC、MRM或MRE的示例的读者受邀阅读通过引用并入本文的相关美国专利No.8,228,363和美国专利公开No.2012-023611。在本公开中，术语“端点”可以指代MRE或LEP。

在某些MRC系统中，发射MRE在两个或更多个流中发送其视频图像；每个流可与不同的质量等级关联。质量可在帧速率、分辨率和／或信噪比(SNR)等方面不同。以相似的方式，每个发射MRE可在两个或更多个流中发送其音频，该两个或更多个流在例如压缩比特速率方面不同于彼此。这样的系统可使用多个流来提供布局中的不同片段尺寸和每个接收端点所使用的不同分辨率等等。进一步，多个流可以用于克服丢包。

现今，MRC变得越来越流行。许多视频会议系统在一个或多个流中并行传递质量等级。对于例如视频，质量可以在多个域中表示，例如时间域(如，帧每秒)，空间域(如，HD相对于CIF)和／或在质量方面(如，锐度)。可用于多质量流的视频压缩标准是H.264AVC、H.264附录G(SVC)、MPEG-4等。关于压缩标准(如H.264)的更多信息可在ITU网站www.itu.int或www.mpeg.org处找到。

希望更多地了解MRM和MRE的读者受邀阅读通过引用并入本文的美国专利No.8,228,363和美国专利申请No.13／487,703。

为了达到良好的用户体验，在所播放的视频和音频之间需要同步。常用的音频和视频实时传输协议(RTP)包括音频视频同步机制。在RFC3550中描述了包括音频视频同步机制的RTP的示例，RFC3550的内容通过引用而并入。该机制在媒体包的RTP报头中使用时间戳，以及RTCP发送者报告(SR)和接收者报告(RR)。SR可包括接收报告块，其等同于可能已包含在RR内的接收报告。本公开还针对接收报告被包括在SR内的情况涉及RR，而SR仅指代SR内的发送者报告部分。关于RTP的更多信息可见于互联网工程任务组(IETF)网站www.ietf.org中。

为了在音频流和视频流之间进行同步，发射MRE或LEP将时间戳插入到其所发送的音频和视频实时传输协议(RTP)包的报头中。时间戳分别反映了由麦克风对音频的捕获时间(音频时间戳，TSa)和／或由摄像机对视频的捕获时间(视频时间戳，TSv)。时间戳针对每种类型的流(音频或视频)以随机值开始，并基于音频和视频编解码器的不同时钟速率(如音频的8KHz和视频的90KHz)进行。

周期性地，发射端点MRE或LEP针对每个输出流(音频或视频)发送RTP控制(RTCP)发送者报告(SR)。发送者报告可包括在消息被发送时对关联的挂钟的参考。例如，挂钟时间(绝对日期和时间)可使用网络时间协议(NTP)的时间格式而表示。此外，在发送者报告被发送时，每个流的RTCP发送者报告也包括关联的时间戳(分别为TSa或TSv)，反映了在产生RTCP消息的时候被传送的情况下将已被置于音频/视频RTP包(分别地)中的时间戳。两个连续RTCP发送者报告之间的时间间隔可以是几秒，如5秒。

这种机制使接收端点能够在接收端点的挂钟和发射端点的挂钟之间进行相关。这种相关可以在每次RTCP发送者报告被接收到的时候被调整。接收端点可使用各自的发送者报告中的挂钟和时间戳，以通过将接收到的音频的播放时间调整至接收到的视频的播放时间(或反之亦然)来同步接收到音频和视频流。RTP和RTCP是本领域中公知的，并在多个RFC中描述。希望更多地了解RTP和RTCP的读者受邀阅读RFC3550，4585，4586和可在互联网工程任务组(IETF)网站www.ietf.org处找到的许多其他资料，其内容通过引用并入本文。

在传统CP代码转换视频会议中，在从多个发射传统端点获取压缩音频和视频流时，传统的MCU充当接收实体。此外，在发射会议CP视频图像的压缩混合音频和压缩组成视频流到多个接收传统端点时，传统的MCU充当发射实体。在上行链路方向上，由端点向MCU提供的RTP时间戳和RTCP报告使MCU能够同步从多个源接收到的音频和视频RTP流。在下行链路方向上，MCU产生视频布局和匹配的同步音频混合。MCU发送音频混合和视频布局给接收端点，每个都在单个RTP流中，该流中的每个包使其音频时间戳或视频时间戳分别伴随有RTCP报告。然而，在MRC的某些实施例中，在音频和视频之间进行同步更加复杂，因为MRM仅在接收MRE(RMRE)混合音频并组成CP视频图像时中继媒体流，这些媒体流由多个发射MRE(TMRE)产生，每个发射MRE具有其自身的挂钟和时间戳字段。混合的音频和组成的CP视频图像被呈递给使用RMRE的与会者。

在MRC中同步不同的流的示例在相关的美国专利No.8,228,363和美国专利申请No.13／487,703中公开。可替换地，实体中的每一个(MRE以及MRM)可通过使用网络时间协议(NTP)服务器来同步其时钟。MRM的其他实施例可以仅将接收到的RTCP消息从TMRE中继到RMRE。上面公开的用于在MRC会话中同步音频和视频的方法消耗MRM处的计算资源和／或MRM和RMRE间的带宽资源。

在MRC的其他实施例中，由于接收端点处理能力、缺少音频中继解码器的支持或者带宽限制，可以将单个音频流发送给接收端点，这包括混合来自最活跃的扬声器的多个音频流，而被选择的MRE的视频流被分别发送给接收MRE，该接收MRE将流组成为CP视频图像。在这种情况下，接收到的视频流不能被同步到接收到的音频混合。

发明内容

MRC会话中的音频和视频之间的同步过程的上述缺陷不意图以任何方式限制本公开的发明构思的范围。该缺陷只是为了说明而提出的。本公开涉及一种在RMRE处实现由提出的MRE发起的视频图像和由相同提出的MRE发起的关联的音频信号之间的唇同步(lip-sync)的新技术。在MRC的某些实施例中，音频混合可由RMRE完成。在其他实施例中，音频混合可由MRM通过混合由TMRE发起的一个或多个音频流来完成。在MRM中的音频混合之后，可以将承载压缩混合音频的单个流发送给RMRE。至于视频，例如，由多个TMRE产生的视频流经由中间节点(如MRM)而被中继给多个RMRE。所公开的新技术适用于这两种类型的MRC音频混合实施例。

MRM的实施例可操纵每个接收到的音频或视频包(TSa或TSv)的时间戳为操纵的时间戳(MTSa或MTSv)。这种操纵可通过从嵌入在接收到的RTP包的报头中的时间戳的值减去增量值(分别为ΔTSa或ΔTSv)而完成。在MRE连接到会话后，可针对每个MRE计算ΔTSa和ΔTSv。在另一个实施例中，可针对在MRM处接收到的每个媒体流计算ΔTSa和ΔTSv。ΔTSa和ΔTSv的计算值可以针对整个会话而保持。在MRM的某些实施例中，可以不时地重新评估ΔTSa和ΔTSv，例如每几十秒到几十分钟。在当前描述中，MRM可被用作位于多个MRE之间的中间网络设备。

针对音频流计算ΔTSa或针对视频流计算ΔTSv可以通过从MRM向MRE发送相关SR′(音频或视频)和等待从MRE获得RR和SR而初始化。在一些实施例中，RR和SR可被合并至一个RTCP消息中。基于RR，可以计算MRM和MRE之间的相关往返时间(RTT)。基于计算的相关RTT的值；相关SR中的挂钟字段；以及从MRE接收到RR时MRM的挂钟，可以估计MRM和MRE的相关挂钟之间的差值(WC_DIFF)。根据所估计的RTT和／或SR的到达时间，可以针对音频或视频计算通常的WC_DIFF。

最后，可以根据SR中的挂钟的值、通常的WC_DIFF、音频和／或视频分别的时钟速率、以及MRM TSa/v参考和分别嵌入到相关SR中的时间戳音频或视频之间的差值来计算ΔTSa或ΔTSv。针对每个MRE或针对与会话相关联的每个流而计算的通常WC_DIFF的值ΔTSa和ΔTSv可被存储在会话RTP处理器处的表格中。该表格可以不时地被更新。

针对从承载压缩媒体(音频或视频)的TMRE接收的每个包，会话RTP处理器可检索合适ΔTSa或ΔTSv的值，并相应地操纵TSa或TSv为MTSa或MTSv(分别地)。MTSa或MTSv可分别被置于中继RTP包的报头处，而不是被置于接收到的TSa或TSv处。嵌入在从MRM中继到RMRE的包中的被操控时间戳将媒体捕获时间变换为MRM的时间域。因此，MTSa/v表示MRM时间域中的媒体捕获时间。由于对时间戳的操纵，单个发送者报告可由MRM针对每种媒体类型(一种用于音频且一种用于视频)发送到每个RMRE，其中发送者报告适用于该媒体类型的所有流。因此，从多个TMRE接收到的每个流的每个包的MTSa或MTSv表现为从单个实体、从中间节点(如MRM)接收到。

因此，从MRM接收多个所选择的中继音频和视频流的RMRE可在混合音频或组成CP视频图像前，通过使用每个中继流内的MTSa和MTSv以及来自从MRM接收到的发送者报告的信息来同步音频和视频流。该新技术使RMRE能够同步音频和视频，而在MRM处不需要复杂的同步或依据接收到每一个TMRE的发送者报告。因此，这种技术减少了端到端等待时间并节约了MRM和RMRE二者处的计算资源，以及减少了MRM和RMRE之间的带宽消耗。

在音频混合由MRM完成的MRC实施例中，例如，可添加额外的适配。额外的适配使RMRE能够同步从TMRE发起的所提出的视频流与从相同TMRE发起的音频流，如果其存在于音频混合中的话。这种系统的实施例可包括给承载压缩音频混合的每个包的RTP扩展报头添加新字段。在新字段中，MRM可指示其音频流被包含在音频混合中的端点及其各自的被操控时间戳(MTSa)。

这种系统的另一个实施例可以包括：在MRM处，在混合音频流的包之前，依据其捕获时间将其对齐。此外，可以给承载压缩音频混合的每个包的RTP扩展报头添加新字段，其中MRM可指示其音频被包含在音频混合中的一个或多个端点。音频包的RTP时间戳是调整后的时间戳，其现在表示用于在MRM的时间域中对齐被包含在混合中的音频源的捕获时间。

遍及本公开，将MRC系统描述为将多个音频和／或视频流中继到接收端点。然而，本发明类似地适用于MRC系统仅将单个音频和／或单个视频中继到接收端点的情况。我们使用多个流的情况仅作为示例。

鉴于附图和详细描述，本公开的这些和其他方面将显而易见。前面的发明内容并不意图总结本公开的每个可能的实施例或每个方面，并且在阅读附有附图的实施例的以下详细描述以及所附权利要求后，本公开的其他特征和优势将变得显而易见。

此外，尽管具体实施例被详细描述以向本领域技术人员说明发明构思，但是这样的实施例易于具有各种修改和替换形式。相应地，附图和所撰写的描述不意图以任何方式限制发明构思的范围。

附图说明

被并入到本说明书中且构成本说明书的一部分的附图图示了与本发明一致的装置和方法的实施方式，并与详细描述一起用于解释与本发明一致的优势和原理。在附图中：

图1图示了依据一个实施例的包括多种电子视频会议系统的多媒体中继会议系统。

图2描绘了依据一个实施例的具有MRM的相关元件的框图。

图3A是具有实现示例技术和元件的会话压缩媒体RTP处理器的相关元件的简化框图，其中音频混合由RMRE完成。

图3B是具有实现示例技术和元件的会话压缩音频和视频RTP处理器的相关元件的简化框图，其中音频混合由MRM完成。

图4是图示了用于准备用于将流的每个接收到的包的时间戳变换至MRM时间域中的参数的方法的相关动作的流程图。

具体实施方式

在下文的描述中，为了解释的目的，阐述了多个具体细节以提供对本发明的透彻理解。然而，对本领域的技术人员来说将显而易见的是，可以在没有这些具体细节的情况下实施本发明。在其他实例中，为了避免使本发明模糊，以框图形式示出了结构和设备。对没有下标或后缀的数字的引用被理解为引用与所引用的数字相对应的下标和后缀的所有实例。

如本文中所使用的那样，术语“计算机系统”可以指代单个计算机或一起工作的多个工作计算机，所述计算机用于执行被描述为在计算机系统上执行或由计算机系统执行的功能。

现在转至在其中相似附图标记遍及若干视图表示相似元件的附图，描述了本公开的实施例。为了方便起见，可以对同一组的仅一些元件标记有附图标记。附图的目的是描述实施例而不是用于生产。因此，附图中示出的特征仅是为了呈现的方便和清楚而选择的。此外，本公开中使用的语言主要是出于可读性和教学目的而选择的，而可能不是为了勾画或划定本发明主题而选择的，诉诸权利要求是确定这种本发明主题所必需的。

在说明书中对“一个实施例”或“一实施例”的引用意味着结合实施例描述的特定特征、结构或特性被包含在本发明的至少一个实施例中，并且对“一个实施例”或“一实施例”的多个引用不应被理解为一定都指代相同实施例。

虽然下面描述中的一些是在涉及软件或固件的方面撰写的，但是实施例可按期望以软件、固件或硬件实现这里描述的特征和功能，包括软件、固件和硬件的任意组合。在下文的描述中，词语“单元”、“元件”、“模块”和“逻辑模块”可以可互换地使用。被指定为单元或模块的任何内容可以是独立的单元或者专门或集成的模块。单元或模块可以是模块化的或具有模块化方面，从而允许其被容易地拆除和更换为另一个类似单元或模块。每个单元或模块可以是软件、硬件和／或固件中的任一个或其任意组合，最终导致一个或多个处理器被编程为执行归于该单元或模块的功能。此外，具有相同或不同类型的多个模块可由单个处理器实现。逻辑模块的软件可体现在计算机可读介质上，如读／写硬盘、CD-ROM、闪存、ROM或其他存储器或储存器等。为了执行任务，软件程序可按需加载到适当处理器。在本公开中，术语任务、方法、过程可以可互换地使用。

图1图示了依据一个实施例的新型多媒体中继会议系统100，其包括多种新型电子视频会议系统。系统100可包括网络110、一个或多个中间节点(例如媒体中继MCU(MRM)120)、以及多个媒体中继端点(MRE)130。网络110可以是但不限于分组交换网络、电路交换网络、IP网络或其任意组合。网络上的多媒体通信可例如基于通信协议，例如但不限于H.323或会话发起协议(SIP)，并可以使用媒体压缩标准，例如但不限于H.263,H.264,G.711,G.719。在本公开中，术语数据块和包可以可互换地使用。希望更多地了解国际电信联盟(“ITU”)标准的读者受邀访问ITU网站：www.itu.int。为了更多地了解SIP，请访问IETF网站：www.ietf.org。

每个媒体中继端点(MRE)130能够提供实时、双向音频和／或视觉通信到另一个MRE130或MRM120。MRE可以是会话中的与会者的终端，其具有从MRM120接收中继压缩媒体(音频和视频)和传递中继RTP压缩音频和视频数据块到MRM120的能力。中继上行链路(向MRM120)和中继下行链路(向MRE)压缩媒体(音频或视频)数据块可作为RTP压缩媒体数据块而被发送。中继上行链路数据块可被认为是MRM120的输入数据块，并且中继下行链路数据块可被认为是输出数据块。每个MRE130可以以一个或多个适当的所需比特率和所需的压缩标准来发送中继RTP压缩音频数据块。类似地，每个MRE130可以以一个或多个适当的所需尺寸、一个或多个比特率、以及所需的压缩标准来发送中继RTP压缩视频数据块。在某些实施例中，每个MRE130可被用于通过将音频能量指示嵌入到中继RTP压缩音频数据块的扩展报头中或报头中的字段中来发送其音频能量的指示。

每个MRE130可与MRE标识符(ID)相关联，该MRE标识符可以被承载在媒体数据的中继RTP压缩块的实时传输协议(RTP)报头中。在一个实施例中，ID可以由MRE随机选择，并在证实其独特性后由MRM120潜在地确认。在另一个实施例中，ID可以由MRM120分配并被传达给相关的MRE130。在某些实施例中，MRE ID可结合媒体流类型指示使用，产生标识由相关MRE发送的特定流的流ID。然而，在某些实施例中，流ID可被承载在媒体数据的RTP块的实时传输协议(RTP)报头中，被写入RTP的扩展报头或同步源(SSRC)字段中。在另一个实施例中，流ID可以被承载在RTP报头中的贡献源ID(CSRC)字段中。在可替换实施例中，流ID可被写入每个中继RTP压缩媒体数据块的扩展报头中。流ID可使MRM120能够识别接收到的中继RTP压缩音频和／或视频包的源。

在可替换实施例中，相同MRE130的中继RTP压缩音频数据块和中继RTP压缩视频数据块可具有不相关的ID。在这样的实施例中，在MRM120上接收到中继RTP压缩音频数据块和／或视频数据块的IP地址和IP端口可以用于标识，以代替ID号。

在一个实施例中，依据每个与会者(MRE130)的接收到的音频能量，MRM120可确定在会话的一定时段中哪些与会者将被呈现在CP图像中。例如，具有最高音频能量的MRE130可以在未来给定的时间段内被选择、呈现和听到。MRM120可进一步确定所显示的与会者中的哪个或哪些将被显示在布局中的发言者片段中。在可替换实施例中，每个MRE130可确定哪些与会者将被呈现在布局中以及在哪个片段中。在这样的实施例中，MRE130用户可使用用户接口方法来选择所呈现的与会者，例如但不限于点击和查看方法，这在美国专利No.7,542,068中公开。

MRE130的一些示例可解码从所选择的与会者发起的接收到的中继RTP压缩视频流并在适当的布局片段中显示每个图像。MRE130可解码从所选择的与会者发起的接收到的中继RTP压缩音频流，混合不同的解码音频流并传输混合的音频到MRE130扬声器。在另一方向上，MRE130可传递中继RTP压缩音频和视频数据块到MRM120。

MRE130的其他示例可能在接收多个音频流、对其进行解码和将其混合为单个流时遭受处理能力的缺少、对音频中继编解码器的支持的缺少或者带宽限制。在这样的情况下，例如，从MRM120发送包括来自顶级活跃发言者的多个音频流的混合的单个压缩混合音频流是优选的，而所选择的MRE的视频流被分别发送给接收MRE，该接收MRE对该流进行解码并将解码后的流组成为CP视频图像。

在RMRE130处，为了恰当地同步呈现CP视频图像和播放相关的音频流，需要同步音频和视频。在能够接收多个音频流、对其进行解码和混合的MRE130的实施例中，可以基于MTSa，MTSv和从该MRM接收到的SR来完成经由MRM120从相同TMRE接收到的音频和视频流的同步。尽管使用所操纵的时间戳，常用的RFC3550技术也可以用于同步音频和视频。

在某些MRC系统中，MRM120可依据在混合从多个TMRE接收到的音频流之前的其捕获时间来对齐从多个TMRE接收到的音频流。因此，单个MTSa可反映由MRM120发送的压缩音频数据包中承载的混合音频的通常捕获时间。在这样的MRC系统中，RMRE130可以基于在承载压缩视频流的包的RTP报头中写入的MTSv以及由承载混合音频数据的包的RTP报头承载的MTSa，在混合中的每个音频信号和其关联的视频流之间进行同步。因此，CP视频图像中的视频图像可来自相同的通常捕获时间并与音频混合唇同步。

在这样的MRC系统的另一个实施例中，额外的信息可以被置于压缩混合音频包的RTP扩展报头中，包括其音频被包含在音频混合中的TMRE的ID的列表。基于ID字段，可以选择相关的所呈现的视频流，并且可以将该视频流的MTSv连同通常MTSa一起用于同步从该相关TMRE接收到的视频图像和从相同TMRE接收到的音频数据，该音频数据当前处于混合音频中。以相似的方式，可以将混合中的每个音频数据与其视频图像唇同步。因此，CP视频图像中的视频图像可来自于不同的捕获时间，但它们中的每一个都与从相同TMRE接收到且当前处于音频混合中的音频唇同步。

在某些MRC系统中，MRM120不依据在混合从多个TMRE接收到的音频流之前的其捕获时间对齐从多个TMRE接收到的音频流。在这样的MRC系统中，RMRE130可基于在承载压缩视频流的包的RTP报头中写入的MTSv以及由承载混合音频数据的包的RTP扩展报头承载的额外信息，在混合中的每个音频信号和其关联的视频流之间进行同步。

该额外信息可被布置在列表对中。每对可与当前处于由该包承载的混合音频数据中的音频流关联。每对可以包括指示指向发起该音频的TMRE的ID的字段和指示该音频的MTSa的字段。基于ID字段，可以选择相关的所呈现的视频流，并且可以将该视频流的MTSv连同MTSa一起用于同步从该相关TMRE接收到的视频图像和从相同TMRE接收到的音频数据，该音频数据当前处于混合音频中。以相似的方式，可以将混合中的每个音频数据与其视频图像唇同步。因此，CP视频图像中的视频图像可来自于不同的捕获时间，但它们中的每一个都与从相同TMRE接收到且当前处于音频混合中的音频唇同步。

MRM120的一个实施例可进行多个多媒体多点会议，每个涉及多个MRE130。此外，MRM120的示例可被配置为依据每个与会者和会话的当前需求来动态地分配和释放资源。MRM120的示例可具有集中式架构并可位于多个MRE130之间的网络110的中间节点中。

MRM120的实施例可被配置为参加同步过程。这样的MRM120的示例可借助值(分别为ΔTSv或ΔTSa)来操纵每个接收到的包的时间戳(TSa或TSv)。在中继RTP压缩包报头中从MRM120发送给RMRE130的所操纵的时间戳(分别为MTSa或MTSv)使接收到的时间戳(A/V)显得好像其来自于MRM120。因此，从多个TMRE130发起的在RMRE130处接收到的中继流的每个包的MTSa或MTSv显得从单个实体(中间节点(如MRM120))发起。下面结合图2、3A、3B和4公开了关于MRM120的示例实施例的更多信息。

图2描绘了具有MRM200的一个实施例的相关元件的框图。MRM200可包括网络接口模块(NI)220、一个或多个会话压缩音频RTP处理器(SCARP)230、一个或多个会话压缩视频RTP处理器(SCVRP)250、以及信令和控制模块(SCM)240。在可替换实施例中，MRM200可包括一个或多个SCM240，针对每个会话一个SCM。在MRM200的某些实施例中，SCARP230和SCVRP250可以具有相似的模块，这些模块被配置为关于音频-视频同步操纵相关的流。这些模块被称为会话压缩媒体RTP处理器(SCMRP)，并且下面结合图3A而进一步描述。某些SCMRP可被配置为处理承载压缩音频(SCARP230)，并且某些SCMRP可被配置为处理承载压缩视频(SCVRP250)的RTP流。为了将SCMRP适配为处理媒体类型，可以提供合适的挂钟和时间戳时钟。

在可替换实施例中，MRM200可被配置为传递压缩混合音频到多个RMRE130。在这样的实施例中，SCARP230和视频SCVRP250的功能可由会话压缩音频和视频RTP处理器(SCAVRP)(诸如图3B中所示的SCAVRP)提供。

NI220可通过网络110与多个视频会议设备(如MRE130)进行通信。NI220可依据一个或多个通信标准(例如但不限于H.323和SIP)来解析通信。此外，NI220可处理通信的物理层、数据链路层、网络层和传输层(UDP／TCP层)。NI220可从／向MRM200和MRE130或其他节点(附图中未示出)的内部模块接收和发射控制和数据信息。NI220复用／解复用在MRE130和MRM200的内部模块间通信的不同信号和流。

通过NI220可分别向和从MRE130和适当的SCARP230传输压缩音频的RTP包和RTCP报告(SR或RR或复合RR／SR)。每个SCARP230可与会议会话相关联。NI220可依据MRE130的包源和／或目的地IP地址和端口和／或ID来确定MRE130参加哪个会议会话，从而使NI220能够确定向哪个SCARP230传输从MRE130接收到的音频包，并且反之亦然。

通过NI220可分别向和从MRE130和适当的SCVRP250传输压缩视频的RTP包和RTCP报告(SR或RR或复合RR／SR)。每个SCVRP250可与会议会话相关联。NI220可依据MRE130的包源和／或目的地IP地址和端口和／或ID来确定MRE130参加哪个会议会话，从而使NI220能够确定应该向其传输从MRE130接收到的视频包的SCVRP250，并且反之亦然。

NI220还可以向和从SCM240和MRE130发射和接收信令和控制数据。可替换实施例可具有多于一个信令和控制模块(SCM)240，例如针对每个会话包含一个信令和控制模块240。

对于MRM200所处理的每个会议会话，SCARP230可被分配以处理会话音频。SCARP230可通过NI220从参加会话的MRE130获得中继RTP压缩音频数据块(报头和有效载荷)。RTCP SR和RR报告也可由SCARP230发送或获得。此外，SCARP230可通过控制总线从SCM240接收MRM200挂钟和用于音频流的MRM200RTP音频时钟。对于由SCARP230处理的音频流，一个或多个计数器可被分配以创建MRM200TSa。MRM200RTP音频时钟可用作所分配的计数器的时钟。计数器可利用随机数而发起并可以以循环模式运行。

基于MRM200挂钟和MRM200TSa，SCARP230可被配置为操纵在每个RTP包中接收的音频时间戳。MTSa表示在RMRE130处接收到的音频时间戳，以便显得来自于MRM200的时间域。因此，从多个TMRE130接收的每个流的每个包的MTSa显得接收自单个实体(中间节点(如MRM200))。因此，每几秒钟(如5秒钟)，SCARP230可以发送单个RTCP音频SR给每个RMRE，而不是发送其中每个SR与一个TMRE130相关的多个SR。

例如，周期性地，每几十毫秒，SCARP230可选择一组音频块中继RTP压缩流以便听到并从而中继到RMRE130。该选择可以基于将与接收到的流关联的平均能量或音频能量进行比较，或基于语音活动检测(VAD)。可替换地，该选择可以基于从SCM240接收到的命令。所选择的中继RTP压缩流的数目取决于MRE130的音频混合能力。在某些实施例中，所选择的流的数目可由与会者配置。

SCARP230也可将TMRE130之一选择为主扬声器(例如，将在最大布局片段中显示的那一个)，并相应地转发信令和控制信息到SCM240。主扬声器可以是在一定时间段内的特定百分比的收听流选择间隔内具有最高音频能量和／或VAD指示的那一个。在可替换实施例中，SCARP230可转发关于MRE130的音频能量和VAD的信息到SCM240。SCM240将选择主扬声器和将被听到(混合)的音频数据的RTP压缩流的组，并发送信令和控制数据到合适的SCARP230和SCVRP250。在某些实施例中，关于所选择的与会者组和／或主扬声器的信息还被传送到MRE130。依据从SCM240发送的信令和控制数据，SCARP230可操纵所选择的组的中继RTP压缩音频块的TSa为MTSa并通过NI220将该压缩音频块作为中继压缩音频数据块中继到合适的RMRE130。下面结合图3A公开了关于SCARP230的示例的更多信息。

对于MRM200所处理的每个会议会话，SCVRP250可被分配以处理会话视频。SCVRP250的示例可通过NI220从参加会话的MRE130获得中继RTP压缩视频数据块(报头和有效载荷)。RTCP SR和RR报告也可由SCVRP250发送或获得。此外，SCVRP250可通过控制总线从SCM240接收MRM200挂钟和用于视频流的MRM200RTP视频时钟。对于由SCVRP250处理的视频流，计数器可被分配以创建MRM200TSv。MRM200RTP视频时钟可用作所分配的计数器的时钟。计数器可以利用随机数而发起并可以以循环模式运行。

基于MRM200挂钟和MRM200TSv，SCVRP250可被配置为操纵在每个RTP包中接收的视频时间戳。MTSv表示在RMRE130处接收到的视频时间戳，以便显得来自于MRM200的时间域。因此，从多个TMRE130接收到的每个流的每个包的MTSv显得从单个实体(中间节点(如MRM200))发起。因此，每几秒钟(如每5秒钟)，SCVRP250可以发送单个RTCP视频SR给每个RMRE130，而不是发送其中每个SR与一个TMRE130相关的多个SR。

例如，周期性地，每几秒，SCVRP250可选择一组视频块中继RTP压缩流以呈现并从而中继到RMRE130。该选择可基于从SCM240接收到的命令。例如，针对每个RMRE130选择的中继RTP压缩流及其视频参数的数目可以取决于用在该RMRE130中的CP布局。下面结合图3A和图4公开了关于SCVRP250和SCARP230的操作的更多信息。

MRM的某些实施例可以不具有SCARP230和SCVRP250。取而代之，这种MRM可以具有会话压缩音频和视频RTP处理器(SCAVRP)300B。这种SCAVRP300B的音频部分可被配置为解码接收到的压缩音频流，分析解码后的流来确定哪个与会者将被选择为主发言者以及哪些与会者将被选择以在会议中听到和／或在CP视频布局中呈现。然后，所选择的与会者的解码后的音频被混合，并且混合的音频可被压缩和嵌入到RTP包中。下面结合图3B公开了关于SCAVRP300B的更多信息。

SCM240的示例可以控制MRM200的整个操作。SCM240可发起会议会话(预留或即兴)并设置与端点的连接。基于会话的需要，SCM240可确定会话的属性，并且，相应地设置端点。SCM240也可分配资源给MRM200的内部模块并可以分配ID号给RTP压缩音频／视频的每个流。

不时地，SCM240可获得关于数据块的每个中继RTP压缩音频流的音频能量的信息，并相应地选择新的发言者和视频资源以呈现在每个端点上。基于这些选择，向SCARP230和SCVRP250给出指令。SCM240还可通知一个或多个RMRE130关于会议发言者的变化、与会者的数目、他们所贡献的媒体流和与会者的状态。

此外，SCM240可包括一个或多个定时模块，其可被使用以协助音频和视频流间的同步过程。SCM240的定时模块可包括挂钟、音频流的一个或多个时钟和视频流的一个或多个时钟。例如，挂钟可以以每秒百万次脉冲的速率传递脉冲。一个或多个音频时钟可以以每秒几千次到几万次脉冲的速率传递脉冲，例如每秒8,000到64,000次脉冲。一个或多个视频时钟可以以每秒几万次脉冲的速率传递脉冲，例如每秒90,000次脉冲。相关的时钟脉冲可通过控制总线而分发给适当的SCARP230和SCVRP250。下面结合图3A、3B和4公开了关于MRM的更多信息。

图3A是具有SCMRP300A的示例的相关元件的简化框图，SCMRP300A实现了音频和视频同步的不同实施例的技术和元件，其中音频混合由RMRE130完成。SCMRP300A可被配置为处理音频流并充当SCARP230。可替换地，例如，SCMRP300A可被配置为处理视频流并充当SCVRP250。SCMRP300的示例可包括RTP输入缓冲器310、RTP报头解析器和组织器320、多个TMRE130时间戳操纵器(TMTM)330A(针对从每个TMRE130接收的每个媒体流(音频或视频)一个TMTM330A)、总线340、多个RTP处理器350和RTCP会话管理器(RTCPSM)360A。SCMRP300A可由SCM240通过控制总线365控制，例如，该控制总线365可以是内部总线或共享存储器。SCMRP300A输入和输出媒体可通过压缩RTP媒体数据公共接口(CRMDCI)305连接到NI220，该接口用于接收和发射压缩音频或视频数据块。CRMDCI305可以是内部总线或共享存储器。

每个SCMRP300A可被分配以处理由MRM200处理的CP会议会话的音频或视频。SCMRP300A RTP输入缓冲器310可从CRMDCI305获得从参加会话的TMRE130接收到的中继RTP压缩媒体(依赖于SCMRP300A当前配置的音频或视频)数据块。在一个实施例中，RTP输入缓冲器310可通过使用中继RTP报头中的ID号来确定从CRMDCI305收集哪个中继RTP压缩媒体数据块。在可替换实施例中，RTP输入缓冲器310可基于接收到的相关包的源和／或目的地IP地址以及端口号从NI220接收中继RTP压缩媒体数据块。

RTP报头解析器和组织器320可从RTP媒体输入缓冲器310提取中继RTP压缩媒体数据块，并解析中继RTP压缩数据块的报头来确定所获得的RTP包应该被路由到的TMTM330A。例如，该决定可基于RTP报头的ID字段。此外，RTCP消息(如从每一个TMRE130接收的SR和RR)可被路由到RTCPSM360A。在某些实施例中，RTCP消息也可被传输到相关的TMTM330A。

每个TMTM330A可与从TMRE130接收到的特定媒体流相关联。依据SCMRP300A的当前配置，媒体可以是音频或视频。TMTM330A的示例可操纵被嵌入到接收到的相关媒体流的每个接收到的中继RTP压缩媒体数据块的RTP报头中的时间戳。该操纵将媒体的捕获时间从TMRE130的时间域变换到MRM200的时间域中。

一旦与TMRE130建立了承载新媒体流的连接，TMTM330A就可由RTCPSM360A分配和发起。在发起后，RTCPSM360A可将所计算出的ΔTSa或ΔTSv(分别为音频或视频)的值加载到TMTM330A。在获得ΔTSa或ΔTSv值后，对每个接收到的中继RTP压缩媒体数据块的报头进行解析，并将TSa或TSv字段转换为操纵的时间戳值，分别为MTSa或MTSv。MTSa可被计算为接收到的TSa减去所获得的ΔTSa(MTSa=TSa-ΔTSa)。MTSv可被计算为接收到的TSv减去所获得的ΔTSv(MTSv=TSv-ΔTSv)。

具有MTSa或MTSv的中继RTP压缩媒体数据块可通过缓冲器而被传输到总线340以及从总线340传输到一个或多个RTP处理器350。这一个或多个RTP处理器350中的每一个可与一个或多个需要混合和播放中继音频和／或视频流的RMRE130相关联。总线340可以是共享存储器，其中每个TMTM330A可被配置为以循环模式在特定地址间隔内存储所操纵的具有MTSa或MTSv的中继RTP压缩媒体数据块。以类似的方式，每个RTP处理器350可被告知被分配给每一个TMTM330A的地址间隔，并相应地可选择和取得合适的所操纵的媒体流。

在SCMRP300的其他实施例中，例如，总线340可以是TDM总线。在这样的实施例中，每个TMTM330A可被配置为在特定的时隙内传输所操纵的中继RTP压缩媒体数据块到总线340。以类似的方式，每一个RTP处理器350可以被告知被分配给每一个TMTM330A的时隙，并相应地可选择和取得适当的所操纵的媒体流。

每个RTP处理器350可被分配给一个或多个RMRE130。RTP处理器350可包括多路复用器／选择器352和RTP媒体输出FIFO354。多路复用器/选择器352可通过经由总线340选择一个或多个TMTM330A的输出来选择所操纵的压缩媒体中继数据块的一组一个或多个流。组选择可基于从RTCPSM360A接收的控制信号。在某些实施例中，该选择可基于会话中的当前活动。可以在使用或不使用VAD指示的情况下基于每个TMRE130的音频能量来确定当前活动。可替换地，该选择可基于一个或多个特定源的用户选择而与其当前活动无关。所选择的TMTM330A的数目可依赖于例如：RMRE130对音频流的混合能力；在该RMRE130中针对视频流呈现的CP图像的当前使用的布局；或者与会者的指令。通常，针对MRE130选择的源的组不包括其自身的媒体流。在可替换实施例中，多路复用器／选择器352可从相关的RMRE130接收关于选择哪些TMRE130的控制信号。此外，不时地，多路复用器／选择器352可依据会议中的实时变化来改变其对输入的选择。

转换后的中继RTP压缩媒体数据块(具有MTSa或MTSv)的所选择的流可被多路复用为一个中继RTP压缩媒体数据流，其被发送给RTP媒体输出FIFO354，并通过CRMDCI305和NI220从RTP媒体输出FIFO354传输到恰当的一个或多个RMRE130。经由CRMDCI305从RTP处理器350传输的每个所传输的中继RTP压缩媒体数据块具有所操纵的时间戳(MTSa或MTSv)，其表示在MRM200的时间域中媒体(音频或视频)的捕获时间。

RTP处理器350的可替换实施例(附图中未示出)可包括一组选择器。每个选择器连接到总线340并可选择一个TMTM330A的输出。选择器的另一端口可通过FIFO连接到CRMDCI305。在这样的实施例中，所选择的媒体流作为中继RTP压缩媒体数据块的多个流而被发送给MRE。

在可替换实施例中，RTP处理器350可被用于服务于一组参加会议会话的与会者，其中所有相关RMRE130将接收对中继RTP压缩媒体数据块的流的相同选择。

在多媒体会议会话的建立阶段期间，SCM240可分配SCMRP300A的资源并发起RTCPSM360A。RTCPSM360A的实施例可管理SCMRP300A的操作。RTCPSM360A可执行RTCP管理器的常用操作；例如发送和接收RTCP消息(如SR、RR)。常见操作是本领域中公知的并且不会被进一步公开。在发起之后，SCM240可经由控制总线365向相关RTCPSM360A路由挂钟和媒体时钟的一个或多个时钟脉冲(音频或视频)。例如，挂钟脉冲可以处于每秒百万次脉冲的速率。一个或多个音频时钟脉冲可以处于每秒几千次脉冲的速率，例如每秒8,000到64,000次脉冲。一个或多个视频时钟脉冲可以处于每秒几万次脉冲的速率，例如每秒50,000到150,000次脉冲。在可替换实施例中，RTCPSM360A可包括针对每个媒体的一个或多个脉冲产生器。

对加入会话的与会者的媒体、音频或视频的每个新流，分配TMTM330A。此外，RTCPSM360A可发起下面结合图4公开的新流适配过程400。该新流适配过程用于以恰当的速率确定ΔTSa或ΔTSv的值，该值与该流(音频或视频)相关。时钟速率匹配于用于接收到的流的RTP时钟速率。所计算的ΔTSa或ΔTSv的值被加载到合适的TMTM330A中。在SCMRP300A的一些实施例中，例如，RTCPSM360A可被配置为周期性地(例如每几十分钟)执行方法400以调整所计算的ΔTSa或ΔTSv从而修复补偿时钟漂移。

RTCPSM360A的实施例可包括多个计数器。一个计数器可被分配以针对该SCMRP300A的媒体类型监控挂钟。其他计数器可被分配以传递TSa或TSv。这些计数器可以在适当的时间处被采样，以传递成对的值<A WC_REF>(音频挂钟参考值)与<A TS_REF>(音频TS参考值)；和<V WC_REF>(视频挂钟参考值)与<V TS_REF>(视频TS参考值)。下面结合图4公开了关于RTCPSM360A的操作的更多信息。

图3B是具有会话压缩音频和视频RTP处理器(SCAVRP)300B的示例的相关元件的简化框图，SCAVRP300B实现了音频和视频同步的不同实施例的技术和元件，其中音频混合由MRM120完成。SCAVRP300B可传递视频流以由RMRE130组成和显示，并传递混合音频数据以由RMRE130播放。SCAVRP300B实现了从在CP布局中呈现的TMRE130发起的视频和从相同TMRE130发起的音频(如果其被包含在混合音频中的话)之间的同步。

SCAVRP300B可包括RTP输入缓冲器312、RTP报头解析器和组织器322、多个视频TMRE时间戳操纵器(VTMTM)330B(针对从每个TMRE130接收的每个视频流一个VTMTM330B)、总线340、多个RMRE RTP处理器350和RTCP会话管理器(RTCPSM)360B。此外，SCAVRP300B可包括多个音频TMRE时间戳操纵器(ATMTM)370(针对从每个TMRE130接收的每个音频流一个ATMTM370)、传统音频处理器372和一个或多个RMRE音频RTP输出处理器(RAROP)374。每个RAROP374可与一个或多个RMRE130关联。

多个VTMTM330B、总线340和多个RMRE RTP处理器350的元件可被配置为执行与已被配置为处理视频流的SCMRP300A(图3A)的相关元件相似的功能，并因此不会被进一步讨论。

RTP输入缓冲器312和RTP报头解析器和组织器322的实施例以与SCMRP300A的相应元件(分别为310和320)相似的方式处理承载压缩视频和音频的RTP包。示例RTP输入缓冲器312可从CRMDCI305获得从参加会话的TMRE130接收到的中继RTP压缩音频或视频数据块。例如，RTP输入缓冲器312可通过使用中继RTP报头中的ID号来确定从CRMDCI305收集哪些中继RTP压缩媒体数据块。在可替换实施例中，RTP输入缓冲器312可基于接收到的相关包的源和／或目的地IP地址以及端口号从NI220接收中继RTP压缩媒体数据块。

RTP报头解析器和组织器322的实施例可从RTP媒体输入缓冲器312提取中继RTP压缩媒体数据块，并解析中继RTP压缩数据块的报头来确定将所获得的RTP包路由到哪个ATMTM370或VTMTM330B。例如，该决定可基于媒体的类型(音频或视频)和／或RTP报头的ID字段。此外，RTCP消息(如从每一个TMRE接收的SR和RR)可被路由到RTCPSM360B。在某些实施例中，RTCP消息还可被传输到相关的VTMTM330B或ATMTM370。

每个ATMTM370可与从TMRE130接收到的特定音频流相关联。ATMTM370可操纵被嵌入到接收到的相关音频流的每个接收到的中继RTP压缩音频数据块的RTP报头中的TSa为该数据块的MTSa。该操纵将音频的捕获时间从TMRE的时间域变换到MRM的时间域中。ATMTM370和VTMTM330B的时间戳处理在上文中关于图3A中的TMTM330A而公开并且不会被进一步描述。

在MRM120的可能实施例中，MTSa以及每个接收到的RTP压缩音频数据块的相关流ID可被存储在存储设备中，并且，指向存储设备相关地址的指针可沿着解码、混合和压缩动作、作为元数据而与该音频数据块相关联。

MTSa和流ID可与RTP包的有效载荷(压缩音频)相关联地从每个ATMTM370传输到传统音频处理器372。在传统音频处理器372中，来自多个ATMTM370的多个有效载荷中的每个压缩音频流可由关联的解码器解码。每个流的解码音频可被分析以选择：要混合的两个或更多个音频流；要在下一个CP视频图像中呈现的TMRE130；和将作为当前发言者而呈现的与会者。所选择的流的ID可被传递给RTCPSM360B。多个音频流的音频解码和音频分析技术是视频会议领域中公知的，并且不会被进一步描述。

接下来，可以将所选择的音频流混合为混合的音频。混合的音频可被压缩为压缩混合音频的块。可以准备对的列表。每对可包括：所选择的音频流的ID，该音频流的音频被包括在压缩混合音频数据块中；以及由与该所选择的音频数据块有关的相关ATMTM370计算出的MTSa。对的列表(ID；MTSa)可与压缩混合音频的块相关联并一起被传输到一个或多个RAROP374。

每个RAROP374可被分配给一个或多个RMRE130。在一个实施例中，RAROP374可将所获得的压缩混合音频块转换为RTP包的有效载荷并添加与关联的一个或多个RMRE130相对应的相关RTP报头。此外，反映在该压缩混合音频块中混合的多个数据流中的每一个的流ID和MTSa的对的列表可被添加到RTP报头的扩展中的合适字段。接下来，压缩混合音频块和扩展RTP报头可通过CRMDCI305和NI220而被传输到合适的一个或多个RMRE130。如本文所使用的那样，术语一套、一组、一双或一对音频流ID和MTSa可以可交换地使用。

在RAROP374的一些实施例中，对的列表可被分为两个列表。第一个列表可包括对混合音频做出贡献的TMRE130的ID。第二个列表可以是其有效载荷被包含在混合中的音频包的MTSa的匹配列表。在RAROP374的可替换实施例中，可以以紧凑的方式将MTSa的列表表示为对公共MTSa的增量。因此，需要更少的比特来呈现MTSa值的列表。

在传统音频处理器372的另一个实施例中，可以在混合解码后的音频流之前依据其MTSa(反映在MRM时间域中的其捕获时间)来组织解码后的音频流。在这样的实施例中，可以消除对的列表，并且利用单个MTSa替代对的列表，MTSa现在表示被包含在混合中的流的所操纵的捕获时间。在这样的实施例中，SCAVRP300B实现了从在CP布局中呈现的任何TMRE发起的视频与混合音频之间的同步，而不管其音频是否被包含在混合音频中。

图4图示了用于准备为了将流的每个接收到的包的时间戳变换至MRM200时间域中而需要的参数的方法400的实施例的相关动作的流程图。这些参数可包括与该流(音频、视频等)相关的MRM200的挂钟和与该流相关的RTCP消息中的挂钟之间的差值；另一个参数可以是时间戳增量(ΔTSa／v)。时间戳增量可以用于在将包作为中继包传输到RMRE130之前在MRM200处将该流的每个接收到的包的TSa／v变换至MRM200的时间域中。在建立RTP连接和用于承载新媒体流的相关RTCP连接的结束时，可以在402处发起过程400。在SCMRP300A的一些实施例中，在分配该TMTM330A和路由合适的ΔTS值到该TMTM330A之后，可以由RTCPSM360A针对每个TMTM330A实现过程400。在某些实施例中，为了补偿时钟漂移，对于每个运行的TMTM330A，可以周期性地(如每几分钟)在框402中发起过程400。

下面的段落描述了示例过程400，其可由SCMRP300A的元件实现。具有几个适配的类似过程可由SCAVRP300B的元件实现。该适配可以包括通过SCAVRP300B的相应元件执行过程400的相似的框。为了简化描述，将利用关于要由SCAVRP300B实现的适配过程400的注释来详细描述由SCMRP300A实现的过程400的仅一个实施例。

在建立RTP连接和用于承载新媒体流的相关RTCP连接的结束时，可以在402处发起过程400。在SCMRP300A的一些实施例中，可以由RTCPSM360A针对每个TMTM330A实现过程400，以针对该TMTM330A准备合适的ΔTS值。以相似的方式，由SCAVRP300B实现的过程400的实施例可由RTCPSM360B针对每个VTMTM330B和每个ATMTM370执行。在某些实施例中，为了补偿时钟漂移，对于每个运行的TMTM330A，可以周期性地(如每几分钟)在框402中发起过程400。

在框402中的发起之后，RTCPSM360A或360B可以在框404中在与该媒体流(音频或视频)相关的RTCP连接上发送发送者报告(SR)到发起了该流的TMRE130，并等待接收来自该TMRE130的接收者报告(RR)。可以解析接收到的RR，并且可以在框410中检查接收到的RR中的LSR字段的值。如果LSR字段的值不是零，则过程400可以前进到框412。如果在框410中LSR值等于零，则过程400返回到框404并发送另一个SR。RR中的LSR字段是从由MRM200发送且由该TMRE130接收的最后SR中的WC字段导出的。

在框412中，可以计算与该流相关的往返时间(RTT)的值。方法400的示例可以通过使用下述各项来计算RTT：

(a)在MRM200处接收到RR时MRM200相关挂钟(A／V)的值。针对视频流的该值可被称为<V RR local Receive time>(V RR本地接收时间)，并且针对音频流的该值可被称为<ARR local Receive time>(A RR本地接收时间)；

(b)从接收来自MRM200的最后SR的时间到TMRE130发送该RR的时间表示TMRE130处的延迟的接收到的RR中的DLSR字段的值。针对视频流的该值可被称为<V RR：DLSR>，并且针对音频流的该值可被称为<A RR：DLSR>；以及

(c)接收到的RR中的LSR字段的值是由MRM200发送且由该TMRE130接收的最后SR中的WC字段导出的。针对视频流的该值可被称为<V RR：LSR＞，并且针对音频流的该值可被称为<A RR：LSR>。

用于计算视频流的RTT值(RTTv)的示例公式可以是：

RTTv=<VRR local Receive time>-<VRR：DLSR>-<VRR：LSR>。

以相似的方式，用于计算音频流的RTT值(RTTa)的示例公式可以是：

RTTa=<A RR local Receive time>-<A RR：DLSR>-<A RR：LSR>。

在框412中针对相关流计算RTT后，方法400可以在框420中等待接收通过相关RTCP连接从TMRE130发送的SR。接收到的SR可以由RTCPSM360A或360B解析，并且接收到的SR中的TMRE130挂钟字段的值可以被获取。基于所计算的RTT以及所获取的挂钟值和MRM200挂钟值，可以在框422中计算MRM200挂钟和与该流相关的TMRE130挂钟之间的挂钟差值(WC_DIFF)。方法400的示例可以通过使用下述各项来估计该流的WC_DIFF：

(a)接收到的SR中的挂钟字段的值。WC字段表示发送SR的TMRE130处、在发送SR的时刻处挂钟的值。针对视频流的该值可被称为：<V SR：WC>，并且针对音频流的该值可被称为：<ASR：WC>；

(b)在SR被RTCPSM360A或360B接收到的时刻处MRM200中的挂钟的值。针对视频流的该值可被称为：<V SR local receive time>(V SR本地接收时间)；针对音频流的该值可被称为：<A SR local receive time>(A SR本地接收时间)；以及

(c)在框412处计算出的相关RTT的估计值。

用于估计视频流的值WC_DIFF(WC_DIFF_v)的示例公式可以是：

(WC_DIFF_v)=<VSR：WC>+0.5×RTTv-<VSR local receive time>。

以相似的方式，用于估计音频流的WC_DIFF值(WC_DIFF_a)的示例公式可以是：

(WC_DIFF_a)=<A SR：WC>+0.5×RTTa-<A SR local receive time>。

使用RTT的一半可能未准确地表示上行链路传播时间，这是因为RTT可能不是在上行链路和下行链路之间对称地划分的。相应地，RTT的一半只是实际上行链路传播时间的估计。然而，这不影响RMRE130的同步来自相同TMRE130的不同流的能力，这是因为它将类似地影响每个流(音频和视频)的ΔTS。

在某些实施例中，针对音频或针对视频估计出的第一WC_DIFF可被定义为相关TMRE130和MRM200之间的WC_DIFF。该WC_DIFF值可以用于针对由该TMRE130产生的每个流计算ΔTS。

在其他实施例中，所选择的WC_DIFF可以是针对来自该TMRE130的所有流估计的最小WC_DIFF。

接下来，在框424处，可以计算可用于将承载该流的中继媒体的每个接收到的包的TS变换至MRM200时间域中的差值(ΔTS)。计算ΔTS的值可以基于对WC_DIFF的估计和从SR获取的参数，该SR是在框420中接收的。方法400的示例可以通过使用下述各项来估计该流的ΔTS：

(a)接收到的SR中的挂钟字段的值，对于视频流，其为<V SR：WC>，以及对于音频流，其为<A SR：WC>；

(b)在框422处计算出的与该TMRE130相关的WC_DIFF的估计值；

(c)在特定时刻处(例如当计算ΔTS时)RTCPSM360A或360B中的挂钟的值。针对视频流的该值可被称为：<V WC_REF>；并且针对音频流的该值可被称为：<AWC_REF>；

(d)在相同特定时刻处(例如当计算ΔTS时)RTCPSM360A中的相关TS计数器的值。针对视频流的该值可被称为：<V TS_REF>；并且针对音频流的该值可被称为<ATS_REF>；

(e)接收到的SR中的TS字段的值。TS字段表示发送SR的TMRE130处、在发送SR的时刻处TS的值。针对视频流的该值可被称为：<V SR：TS>；并且针对音频流的该值可被称为：<ASR：TS>；以及

(f)时间戳时钟速率(TS_CLOCK)。该值可与流的有效载荷类型相关。视频流的TS_CLOCK的示例值可以处于数万的范围内，例如90,000。音频流的TS_CLOCK的示例值可以处于数千的范围内，例如8,000。

用于计算视频流的值ΔTS(ΔTSv)的示例公式可以是：

ΔTSv=(＜VSR：WC>-WC_DIFF-<VWC_REF>)×TS_CLOCK_v+<VTS_REF>-<VSR：TS>。

以相似的方式，用于计算音频流的ΔTS值(ΔTSa)的示例公式可以是：

ΔTSa=(＜A SR：WC>-WC_DIFF-＜A WC_REF>)×TS_CLOCK_a+＜ATS_REF>-<ASR：TS>。

RTCPSM360A或360B的其他实施例可使用其他公式，以将接收到的包的TS变换至MRM200时间域中。例如，某些实施例可以针对MRE130和MRM120二者使用NTP同步协议。这样的实施例可以将下面的公式用于分别计算视频和音频的ΔTS值：

ΔTSv=(＜VSR：WC>-<VWC_REF>)×TS_CLOCK_v+<VTS_REF>-<VSR：TS>

ΔTSa=(＜A SR：WC>-＜A WC_REF＞)×TS_CLOCK_a+<ATS_REF>-<ASR：TS>。

在计算流的WC_DIFF和ΔTS值后，可以在框426中更新会话表(ST)。如果针对新的流执行过程400，则该更新可以包括在ST中针对新流分配新的条目和在该条目中存储ΔTS和WC_DIFF的估计值。如果过程400被执行以更新活动流的值，则该更新可以包括利用ΔTS和WC_DIFF的当前估计值来替换在相关的条目中写入的ΔTS和WC_DIFF的先前值。此外，当前估计的WC_DIFF和ΔTS可被RTCPSM360A传输到相关的TMTM330A，并且可以终止方法400。可替换地，当前估计的WC_DIFF和ΔTS可被传输到RTCPSM360B的相应的VTMTM300B或ATMTM370。

在一个实施例中，RTCPSM360A或360B可以并行执行多个过程400，针对从参与会话的MRE130传输的每个流执行一个过程。

上面的描述意图是说明性的而不是限制性的。例如，上面描述的实施例可以与彼此结合使用。在阅读了上文的描述后，许多其他实施例将对本领域技术人员来说显而易见。因此，本发明的范围应该参照所附权利要求以及这些权利要求被授权的等同物的全部范围而确定。在所附权利要求中，术语“包括”和“在其中”被用作相应术语“包含”和“其中”的通俗英语等同物。

Claims

1.一种媒体中继会议的方法，包括：

在多个媒体中继端点间通信耦合的中间设备处，从所述多个媒体中继端点接收多个输入流，其中每个流包括输入数据块；

解析输入数据块；

转换每个输入数据块的时间戳字段为操纵的时间戳，其反映单个时间域；和

计算与每个输入流相对应的用于转换输入数据块的时间戳至单个时间域中的参数，包括：

估计输入流的发射媒体中继端点的时钟和中间设备的时钟之间的差值；和

依据所估计的差值、与输入流相关联的时间戳时钟速率、与输入流相对应的发送者报告中的时钟字段和时间戳字段、中间设备的时钟值和中间设备的时间戳值来确定参数，

其中中间设备的时钟值和中间设备的时间戳值是同时获得的。

2.如权利要求1所述的方法，进一步包括：

创建输出数据块，每个输出数据块与相关的操纵的时间戳相关联；

组织来自所述多个媒体中继端点的子集的输出数据块为一个或多个输出流；和

中继所述一个或多个输出流到接收媒体中继端点。

3.如权利要求2所述的方法，进一步包括：

由接收媒体中继端点将所述一个或多个输出流解释为是使用单个时间域而产生的。

4.如权利要求2所述的方法，其中组织输出数据块包括：

写入操纵的时间戳到所述一个或多个输出流的相应输出数据块的时间戳字段中。

5.如权利要求4所述的方法，

其中所述一个或多个输出流包含视频流和音频流，和

其中视频流和音频流能够使用操纵的时间戳同步。

6.如权利要求1所述的方法，其中多个输入流包括多个视频流，所述方法进一步包括：

组织多个输入流为一个或多个输出视频流，所述一个或多个输出视频流被配置为组成为连续呈现视频图像。

7.如权利要求1所述的方法，其中多个输入流包括多个音频流，所述方法进一步包括：

组织多个音频流为一个或多个输出音频流，所述一个或多个输出音频流能够混合为混合的音频流。

8.如权利要求1所述的方法，其中单个时间域是中间设备的时间域。

9.如权利要求1所述的方法，其中中间设备是媒体中继多点控制单元。

10.如权利要求1所述的方法，其中转换时间戳字段包括通过与输入流相对应的参数来修改输入数据块的时间戳字段。

11.如权利要求1所述的方法，进一步包括：

组合输出数据块为单个输出流。

12.如权利要求1所述的方法，进一步包括：

发送来自中间设备的每种媒体类型的单个发送者报告到每个接收媒体中继端点，其表示单个时间域。

13.如权利要求1所述的方法，进一步包括：

组织来自多个媒体中继端点的子集的输出数据块为一个或多个输出流；和

由接收媒体中继端点组合一个或多个输出流为连续呈现视频图像。

14.如权利要求1所述的方法，其中多个输入流包括多个输入音频流，所述方法进一步包括：

将输入音频数据块的操纵时间戳的值与承载该输入音频数据块的输入流的标识符相关联；

解码接收到的输入音频数据流为解码音频流；

选择和混合两个或更多个解码音频流为混合的音频流；

压缩混合的音频流为输出混合音频流；

组织输出混合音频流为输出混合音频数据块的流；和

传输输出混合音频数据块的流到接收媒体中继端点，

其中解码、选择、压缩和组织的动作保持输出混合音频数据块、对应的操纵时间戳和流标识符之间的关联。

15.如权利要求14所述的方法，其中组织的动作包括：

操纵每个输出混合音频数据块以包含与被嵌入在混合中的输入数据块的一个或多个操纵时间戳和一个或多个流标识符相关的信息。

16.如权利要求14所述的方法，

其中关联的动作包括：

在混合输入数据块之前，依据其操纵的时间戳，在中间设备处对齐输入数据块，和

其中组织的动作包括：

插入操纵时间戳作为输出混合音频数据块的操纵时间戳。

17.一种媒体中继多点控制器，包括：

信令和控制模块，其被配置为从多个发射媒体中继端点选择一个或多个发射媒体中继端点；和

压缩媒体处理器，其被信令和控制模块控制，被配置为：

解析与多个输入流相对应的输入数据块；

将输入数据块的时间戳字段从接收到的时间戳值转换为反映单个时间域的操纵时间戳值；和

18.如权利要求17所述的媒体中继多点控制器，其中压缩媒体处理器进一步被配置为：

组织来自所选择的发射媒体中继端点的输入数据块为一个或多个输出流，其中每个输出流的每个数据块与对应的操纵时间戳相关联；和

传输一个或多个输出流到接收媒体中继端点。

19.如权利要求18所述的媒体中继多点控制器，

其中一个或多个输出流包括视频流和音频流，和

其中时间戳字段被接收媒体中继端点用于将视频流与音频流进行同步。

20.如权利要求18所述的媒体中继多点控制器，其中压缩媒体处理器被配置为通过媒体中继多点控制器和接收媒体中继端点之间的单个实时协议连接来传输一个或多个输出流到接收媒体中继端点。

21.如权利要求17所述的媒体中继多点控制器，

其中多个输入流包括多个视频流。

22.如权利要求17所述的媒体中继多点控制器，

其中多个输入流包括多个音频流。

23.如权利要求17所述的媒体中继多点控制器，其中单个时间域与媒体中继多点控制器相关联。

24.如权利要求17所述的媒体中继多点控制器，其中压缩媒体处理器被配置为通过被配置为执行下述操作来转换时间戳字段：

通过对应输入流的参数来调整时间戳字段。

25.如权利要求17所述的媒体中继多点控制器，其中压缩媒体处理器进一步被配置为将每种媒体类型的单个发送者报告发送到每个接收媒体中继端点，其表示单个时间域。

26.如权利要求17所述的媒体中继多点控制器，

其中多个输入流包括多个输入音频流，和

其中压缩媒体处理器进一步被配置为：

将输入音频数据块的操纵时间戳值与承载输入音频数据块的流的标识符相关联；

解码所获得的输入音频数据流为解码音频流；

选择和混合多个解码音频流为混合音频流；

将混合音频流压缩为压缩混合音频的流；

组织压缩混合音频的流为输出音频数据块的流；

传输输出音频数据块的流到接收媒体中继端点；和

保持输出音频数据块、对应的操纵时间戳值和流标识符之间的关联。

27.如权利要求26所述的媒体中继多点控制器，其中压缩媒体处理器进一步被配置为：

添加与流标识符和操纵时间戳相关的信息到每个相关输出音频数据块。