CN101689998A

CN101689998A - 活动说话者标识

Info

Publication number: CN101689998A
Application number: CN200880020159A
Authority: CN
Inventors: R·J·克林恩; H·M·卡恩; D·库克利卡
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2007-06-12
Filing date: 2008-05-30
Publication date: 2010-03-31
Also published as: EP2163035A4; US8717949B2; JP5579598B2; RU2009146029A; US8385233B2; US20140177482A1; KR20100021435A; JP2010529814A; US20080312923A1; US20130138740A1; US9160775B2; BRPI0812128A2; KR101486607B1; RU2483452C2; WO2008157005A1; EP2163035A1; EP2163035B1

Abstract

描述了用于标识音频事件中的客户机的过程。在一示例中，媒体服务器可基于输入水平来对提供音频的客户机进行排序。标识符可以与客户机相关联以标识在事件中提供输入的客户机。经排序的客户机可被包括在列表中，该列表可被插入到携带音频内容的分组首部中。

Description

活动说话者标识

背景

媒体会议参与者可能难以标识其他会议参与者。参与者可能不熟悉说话者的话音或参与者的面孔或者音频交换可能使收听者混淆。在后一种情况下，如果若干参与者同时说话或者如果在多个参与者之间存在快速交换，则无论是否正在说话，收听者都可能被混淆。在某些情况下，说话者可包括他/她的名字“这/他是Bob，...”或者收听者可询问在前说话者的身份。该问题的复杂性可随着说话或提供音频输入的参与者的数量的增加而提高。虽然收听者可从对话中的“上下文线索”中导出说话者的身份，但在某些情况下，参与者可能不会了解哪些参与者正在提供音频输入。

另外，可能期望最小化带宽消耗或者用于携带信息的数据吞吐量。例如，虽然用于传输数据的物理连接可具有额外的吞吐量，但消耗通信链路资源可减少对其他数据传输可用的吞吐量，或者可能在用户恰巧具有有限的网络带宽的情况下影响会议音频数据传输。

如果媒体会议改进不是“向后兼容的”，则对该改进的接受可能是有限的。例如，如果修改与现有协议和版本不相容，则用户可能必须获得已更新的版本以便与实现经修改版本的参与者进行通信和/或寻求组织批准。上述情形可能抑制对经修改的技术的接受。

概述

描述了用于标识音频或音频/视频事件中的客户机的过程。在一示例中，媒体服务器可基于输入电平来对提供音频的客户机进行排序。标识符可以与客户机相关联以标识在事件中提供输入的客户机。经排序的客户机可被包括在列表中，该列表可被插入到携带音频内容的分组首部中。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图简述

参考附图来描述该详细描述。在附图中，附图标记中的最左边的数字标识该附图标记首次出现的附图。在说明书和附图中的不同的实例中使用相同的附图标记可指示相似或相同的项目。

图1示出了可使用各种技术来准许标识活动说话者的示例性实现中的环境。

图2是描绘在贡献源(CSRC)字段的列表中包括经排序/经重新排序的活动客户机列表的实时协议数据分组的示图。

图3是描绘用于标识活动客户机的示例性实现中的过程的流程图。

图4是描绘用于标识实时协议会议中的活动客户机的示例性实现中的过程的流程图。

详细描述

概览

描述了标识媒体事件中的活动音频贡献者的技术。在各实现中，贡献或参与音频的客户机的列表可基于该客户机对会话的贡献来排列。标识符可以与参与的客户机相关联以使得这些客户机可标识哪一个/哪些客户机正活动地为事件作贡献。经排列的列表可被插入到供转发给各会议客户机的数据流分组首部中。在各实现中，标识信息可被包括在结合数据传输使用的控制分组中。此处所讨论的技术可提供说话者信息同时消耗最少的网络资源且不会引发同步问题。

在其他实现中，用于切换/混合音频流的媒体服务器可被配置成将将排序的活动客户机列表插入到数据分组首部中。例如，媒体服务器可包括活动说话者的列表，该列表可基于当前活动说话者来排序以使得向客户机提供关于哪些客户机正活动地说话的信息。该列表可在不增加网络的媒体传输开销的情况下提供。

示例性环境

图1示出了可用于使用活动说话者标识的示例性实现中的环境100。例如，媒体服务器102可在混合客户机在媒体事件中提供的音频流并在其间切换时标识活动音频客户机。虽然讨论了音频数据处理，但媒体服务器102可基于会议和客户机设备的能力来处理包括视频等在内的其他类型的媒体数据。例如，媒体服务器102可操纵某些客户机的音频/视频数据，同时将音频数据转发给缺乏视频能力等的客户机。

例如，媒体服务器处理器104可在混合/切换对应于客户机的音频流时确定哪一个或哪些客户机正在活动地贡献音频内容。媒体服务器处理器104可基于该处理器所采用的混合/切换算法/技术来确定哪些客户机正在活动地输入音频数据以生成发送媒体流。该确定可用于对为来自媒体服务器102的出站媒体流作贡献的客户机，或者为媒体服务器输出作贡献的客户机的列表进行排序。

对于包括客户机“A”106、“B”108、“C”110、“D”112和“E”114的音频事件，其中客户机“A”106和“E”114正在贡献音频输入(诸如客户机A 106和E 114正在进行对话)，可向非活动客户机“B”108、“C”110、“D”112提供来自媒体服务器102的“A+E”发送流，或这两个说话者的组合，而客户机“A”106和“E”114分别从媒体服务器102接收对方的发送流(例如，客户机A 106接收客户机E的发送流而客户机E 114接收客户机A的发送流)。合适的客户机设备包括但不限于，网际协议语音(VoIP)电话、具有音频能力的计算设备、通过网关连接到数字音频会话的公共交换电话网(PSTN)电话等等。

在某些实现中，可能不向活动说话者提供包括该说话者自己的发送流的信号以避免反馈或回声(例如，可不向客户机A 106发送包含客户机A的音频的音频流)。可考虑若干通用标识情形，例如，客户机A可能正在比客户机E“更高声地谈话”(诸如如果与客户机A 106相关联的参与者正在大声说话而参与者“E”(与客户机E 114相关联)正以相比较正常的话音说话)，参与者“A”和“E”参与其中当前说话者在这两个参与者之间变化的快速交换，或者参与者“A”主宰对话而参与者“E”提供相对较少的输入。后一种情形的示例可包括向主要说话者的占优势的独白添加次要确认的参与者。

在各实现中，媒体服务器102可基于在接收音频内容时从客户机接收到的分组数量、分组大小、音频能级等来确定主要客户机(并由此确定说话者)。由此，在两个或更多客户机正在同时贡献内容时，可基于上述因素来将一个活动客户机指定为主要客户机(并由此指定为说话者)。例如，媒体服务器102可结合混合从不同客户机接收到的输入并在其间切换，基于包括从活动客户机接收到的音频内容的当前数据分组来确定当前活动客户机(及相关联的说话者)。例如，如果客户机E当前没有在贡献数据分组，则媒体服务器102可将客户机A 106指定为当前“活动”客户机。在其他情况下，如果客户机A 106和客户机E 114两者都是活动的，但客户机A 106正以比客户机E 114更大的能级贡献音频内容(即，参与者A正在大声说话而E正以较低的声调说话)，则客户机A 106可被指定为主要活动说话者。可向各客户机提供从客户机A106开始的活动客户机列表。这种类型的确定可在混合/切换对于一个或多个正在进行的会议的客户机输入音频流时作出。例如，媒体服务器102处理器可在采用混合算法时在活动客户机之间进行区分，而标识模块116可用于将该信息插入到适用的数据分组中。

参考图2，在各实现中，在实现实时传输协议(RTP)及相关联的实时控制协议(RTCP)时，媒体服务器102可通过检查发自客户机的、包括数据传输和信令流(signaling stream)的流中的数据来标识活动客户机，并由此标识活动说话者。在客户机A 106的情况下，媒体服务器102可通过检查RTP分组中的同步源(SSRC)字段或根据RTCP报告中所包括的客户机SSRC(会话中的客户机的标识符)和规范名(CNAME)来标识音频客户机发送流源自客户机A 106。也可检查其他信息。该SSRC也可从RTP分组首部中获取。例如，SSRC可被映射到RTCP报告中的CNAME。

虽然RTCP信令可用于标识丢失的分组，确保数据传输质量等，但RTCP报告可从RTCP带外信号中获取。例如，RTCP报告可包括映射到客户机CNAME的随机生成的客户机SSRC。CNAME一般是与客户机设备所使用别名相关联的标识符/记录。在某些情况下，CNAME是数字串等。在各实现中，媒体服务器102可在会话中被分配一SSRC。在某些情况下，SSRC可对会话中所包括的客户机改变。例如，客户机SSRC可在客户机断开(例如，长时间暂停并然后重新加入)，客户机SSRC冲突(向不止一个客户机发放共同的SSRC)等情况下改变。以此方式，传入数据流可根据该数据流中的SSRC或根据RTCP信令来标识。媒体服务器102还可从RTCP信令中获取规范名以便在标识客户机时使用。

在生成发送流(包括音频输出)时，媒体服务器102可根据从活动客户机中获取的SSRC和CNAME来标识哪些客户机正在向会话贡献音频输入。例如，媒体服务器102可将插入到RTCP分组中的SSRC、CNAME与音频内容发送流(即，携带音频数据的媒体服务器输出流)相关联。返回到先前的客户机“A”106、“B”108、“C”110、“D”112和“E”114之间的示例会话，在混合信号“A+E”的情况下，媒体服务器102可根据哪一个客户机当前是活动的、哪一个客户机是活动的且主宰该会话等来对客户机“A”和“E”进行排序。该次序可基于提供音频输入的客户机而变化。在这种情况下，如果客户机A当前正在提供输入，或者如果客户机A主宰对话，则该列表可从客户机A106的标识符开始并且包括客户机E 114。在其中客户机A 106和客户机E 114之间存在音频交换的情形中，该次序可基于如在每一个分组的基础上所指示的当前正在说话的参与者而改变。

参考图2，在RTP配置中，媒体服务器标识模块116可将将排序的SSRC列表插入到输出流RTP分组首部中。例如，经排序的标识符被插入到在数据流中发送的分组首部中的贡献源(CSRC)字段204的列表中。如果客户机A和客户机E正在交换当前活动角色，则SSRC的排列可从“客户机A、客户机E...”204(a)变为“客户机E、客户机A...”204(b)。以上述方式，接收数据流的客户机(会话中的收听客户机或参与者)可得到关于哪些客户机正在提供输入、相对贡献等的通知，同时避免额外信令、相关联的同步问题和网络开销。例如，CSRC字段可被准许在保持遵照规约的同时包括至多15个每个32位的标识符。不遵照此处所讨论的技术来执行的客户机可参与但没有此处所讨论的好处。由此，使得系统和技术向后兼容。

虽然SSRC可标识活动客户机，但使用SSRC可能是有问题的，因为SSRC可能是随机分配的，可能由于与另一个具有类似SSRC的客户机冲突，客户机在退出会话并然后重新加入会话后被重新分配一SSRC而改变，等等。

媒体服务器102可将活动客户机CNAME插入到转发给各客户机的RTCP分组中(例如，使得其他“收听”客户机可变为知道活动客户机的CNAME和SSRC)。例如，媒体服务器标识模块116可在媒体服务器RTCP分组中“扇出”发送到“收听客户机”的活动客户机标识符。例如，如果若干活动客户机正在为会议作贡献，则媒体服务器可每隔一段指定时间将所获取的标识符插入到结合媒体服务器数据流发送的RTCP分组中。虽然RTCP分组可在每一个分组中包括CNAME，但CNAME可散布在转发给收听客户机的RTCP分组中以最小化传输开销。接收到包括活动客户机标识符的媒体服务器RTCP数据的客户机可将该数据存储在本地存储器中以使得可以在接收音频内容时将CNAME与数据分组相关联。例如，CNAME，映射到的SSRC及其他相关信息可被存储在查找表等中。例如，虽然数据流中所包括的音频内容可以按大致连续的方式发送，但RTCP信令只可间歇地发生，诸如每隔一段指定时间(例如，每隔5秒或10秒)。由此，接收数据分组的客户机可将CSRC中的SSRC与先前接收到的CNAME相关联。在各实现中，可使用全局可路由用户代理通用资源指示符(GRUU)来标识特定客户机。

在各实现中，活动客户机可得到该客户机是会议中的一个活动客户机的通知。例如，参与者(与活动客户机相关联)可能期望知道他/她没有比另一参与者“更高声地谈话”。返回到客户机“A”106、“B”108、“C”110、“D”112和“E”114之间的会话，例如，如果客户机A 106是活动的而客户机“B”108、“C”110、“D”112和“E”114不是活动的，则这可经由转发给客户机A的RTCP信号来标识。由此，虽然媒体服务器102可通过传递客户机A的发送流来为客户机“B”、“C”、“D”和“E”生成发送媒体流，但客户机A 106可作为“收听”客户机或会话成员，基于CSRC/RTCP分组来标识没有其他客户机是活动的。

在其他实现中，可将人类可理解信息与SSRC和CNAME相关联。例如，用户可能期望在一参与者正在说话时在相关联的监视器上显示该正在说话的参与者的图片。在各实现中，人类可理解客户机信息可在客户机之间交换。例如，该数据一般可在事件或会话开始时交换。

虽然可使用因特网(万维网)来连接客户机和其他组件，但其他网络和各种链路也是合适的。例如，将媒体服务器102连接到客户机的网络可以包括广域网(WAN)、局域网(LAN)、无线网络、公共电话网、内联网等。该网络可被配置成包括多个子网。

以下讨论描述了可使用上述系统和设备来实现的各种技术。这些过程中每一过程的各方面可用硬件、固件、或软件、或其组合来实现。这些过程被示为指定由一个或多个设备执行的操作的一组框，并且其不必限于所示由各框执行操作的顺序。

示例性过程

以下讨论描述了可利用上述系统和设备来实现的各种技术。这些过程中每一过程的各方面可用硬件、固件、或软件、或其组合来实现。这些过程被示为指定由一个或多个设备执行的操作的一组框，并且其不必限于所示由各框执行操作的顺序。也可以考虑各种其他的示例。

图3讨论了用于标识媒体会话中的活动音频输入客户机的示例性过程。例如，这些技术可用于某些客户机缺乏视频能力的电话会议或媒体会议等。

在各实现中，用作主机或中心点的媒体服务器可确定对应于由每一个活动客户机提供的输入的音频输入客户机302。例如，确定可作为混合和/或切换音频客户机输入的一部分来作出。由此，客户机A可被指定为最主要的活动客户机直到不同的客户机提供音频输入。在另一示例中，如果客户机A和客户机E正在作贡献但客户机A的音频具有更高的能级，则可选择客户机A。如果与客户机相关联的参与者诸如在该客户机正主宰音频输入的情况下大声谈话或者以更连续的方式谈话，则该客户机音频可具有更高的能级。

如果一音频输入客户机当前是活动，主宰对话等，则可将该客户机标识为“顶级”客户机。在根据本发明的技术工作的RTP/RTCP系统中，媒体服务器可获取对应于生成包括音频内容的流的特定客户机的客户机输入流以及包括映射到CNAME的SSRC的相关联的RTCP分组(例如，发自客户机的RTCP分组)304。例如，媒体服务器可获取客户机的SSRC和CNAME。CNAME结合SSRC来标识客户机。媒体服务器可根据哪些客户机当前正在提供音频输入，主宰会话等来对输入客户机SSRC进行排序306。例如，媒体服务器可使得活动客户机SSRC标识符从当前活动“说话者”(例如，提供输入的活动客户机)降序排列。在各种情况下，RTP可准许使用CSRC中所包括的每一个活动客户机的32位标识符来标识15个活动说话者。

媒体服务器可将标识符与音频输入客户机相关联。例如，媒体服务器可从音频输入客户机RTCP分组中获取SSRC和CNAME。SSRC可用于标识媒体服务器输出流中所包括的CSRC字段中的音频输入客户机。

客户机可接收其他数据或将其他数据与音频输入客户机相关联。例如，接收客户机(媒体事件中的收听客户机或客户机)可具有与CNAME相关联的人类可理解信息。例如，客户机可具有参与者的图片、参与者的名字等(其与客户机CNAME/SSRC相关联)。

可将经排序的音频输入客户机标识符插入到分组首部中的列表中308。例如，如果客户机“A”和“E”正在提供音频输入(客户机A作为当前活动客户机)，则RTP首部中的CSRC字段可包括以客户机“A”的SSRC作为列表开头的各SSRC。以此方式，可在内容流中将说话者的身份通知给收听客户机(其可包括从另一活动客户机接收音频输入的音频输入客户机)。在另一示例中，列表中的音频输入客户机的次序可至少部分地基于哪一个客户机正主宰媒体会话。主宰考虑事项可包括音频输入的能级、输入的持续时间、静默时间段的持续时间、分组大小等。例如，该列表可从客户机A开始，因为客户机A当前是活动的并且与一个或多个其他音频输入客户机相比，客户机A发送流指示高能级。

媒体服务器可在媒体服务器发送流(诸如结合内容传输发送的RTCP分组)中向收听客户机(会话客户机)发送SSRC和CNAME 310。对应于音频输入客户机的SSRC还可位于RTP分组的数据流分组首部中的CSRC字段中。例如，在五客户机媒体事件中，如果三个参与者正在说话，则与这些音频输入客户机相关联的客户机SSRC和CNAME可被包括在与传递音频内容的RTP分组相关联的媒体服务器RTCP分组(发送到收听客户机)中。以此方式，媒体服务器可向各客户机发送标识活动音频客户机的SSRC和CNAME。由此，收听客户机可参考RTP分组中的SSRC和CNAME来标识音频内容的始发源。如果一客户机SSRC与发放给另一客户机的SSRC相冲突，或者如果客户机出于另一原因改变源传输地址，则可更新该客户机SSRC。可将SSRC和CNAME存储在本地存储器中312以使得收听客户机可在整个媒体事件中访问该信息。

图4讨论了用于标识媒体会议中的活动客户机的示例性技术。例如，本发明的技术可在其中某些客户机缺少视频的媒体会议期间使用，或者可在音频电话会议中使用。

在本发明的各实现中，媒体服务器可从活动客户机接收活动客户机输入(音频内容)以及标识符402。例如，为音频会议作贡献的客户机可发送标识该客户机的SSRC和CNAME。例如，SSRC可在数据流中被包括在RTP分组首部中并连同CNAME一起被包括在RTCP分组中。

可生成会议中的一个或多个活动客户机的有序列表404。例如，混合/切换音频输入的媒体服务器可排列活动客户机(RTP/RTCP中的SSRC标识符)或向会议或会话提供输入的客户机的列表。例如，媒体服务器是音频/视频混合服务器(AVMCU)，其从活动客户机发送流中获取SSRC标识，该发送流还可包括数据部分及相关联的信令部分。AVMCU然后可确定活动客户机或会话中的其他客户机的标识符的相对排列。SSRC可从RTCP报告中标识，该SSRC可映射到客户机CNAME。例如，该排序可基于哪一个客户机当前是活动的。在其他实现中，可考虑诸如能级、所提供的数据分组的数量、静默时间段的持续时间、分组大小等因素。例如，该有序列表可从可能由于所提供的分组数量而主宰会话的活动客户机开始，而第二同时活动客户机被分配一相对较次要的状态。

可将有序列表插入到媒体服务器发送数据流中的分组首部中所包括的CSRC列表字段中406。例如，媒体服务器输出包括活动客户机所提供的音频、具有活动客户机的SSRC标识符的有序列表的CSRC字段。结果，收听客户机，即接收音频内容流的客户机可得到关于哪些客户机是活动的以及这些活动客户机的相对关系的通知。另外，SSRC和CNAME可被包括在媒体服务器发送RTCP分组中。

可将SSRC与活动音频客户机的CNAME相关联408。例如，媒体服务器可发送包括与RTP分组首部中的CSRC字段中所包括的SSRC相关的客户机CNAME的RTCP分组。该CNAME可从RTCP分组中获取。

还可将人类可理解信息与CNAME和/或音频输入客户机SSRC相关联。例如，可将图片或名字与客户机CNAME相关联以使得参与者的图片或名字在相关联的客户机正在提供音频内容时出现。该信息可在会议中传递或者客户机可输入该人类可理解信息。

在其他实现中，可将GRUU与活动客户机的SSRC相关联。在其中一客户机是活动的，但其他客户机不是活动的情形中，媒体服务器可向活动客户机提供指示410以使得通知该活动客户机没有其他客户机是活动的，但不将活动客户机发送流返回给该活动客户机。以此方式，使活动客户机知道该参与者没有比另一参与者“更大声地谈话”。

虽然讨论了RTP和RTCP，但本发明的技术和实现可应用于其他协议数据传输机制。

结论

虽然已经用对结构特征和/或方法动作专用的语言描述了本发明，但是应该理解，在所附权利要求中定义的本发明不必限于所述的具体特征或动作。相反地，这些具体特征和动作是作为实现权利要求的本发明的示例性形式而公开的。

Claims

1.一种方法，包括：

根据一个或多个音频输入客户机中所包括的单独的音频输入客户机所提供的输入来对所述一个或多个音频输入客户机进行排序(306)；

将标识符与所述单独的音频输入客户机相关联(304)；以及

将一个或多个音频输入客户机标识符的有序列表插入到分组首部中(308)。

2.如权利要求1所述的方法，其特征在于，所述列表被插入到所述分组首部中的实时传输协议(RTP)贡献源列表(CSRC)中。

3.如权利要求1所述的方法，其特征在于，排序由主机通过混合音频流来确定以使得所述列表从当前活动音频输入客户机降序排列。

4.如权利要求1所述的方法，其特征在于，还包括发送对应于所述单独的客户机的规范名(CNAME)和映射到所述CNAME的同步源(SSRC)标识(310)。

5.如权利要求4所述的方法，其特征在于，所述CNAME及相关联的SSRC从对应于所述单独的客户机的实时控制协议(RTCP)记录中获取。

6.如权利要求5所述的方法，其特征在于，所述CNAME及相关联的SSRC在RTCP分组中被发送到收听客户机。

7.如权利要求1所述的方法，其特征在于，还包括将所述CNAME和SSRC存储在收听客户机的本地存储器中(312)。

8.如权利要求1所述的方法，其特征在于，主要客户机基于能级、静默时间段的持续时间、持续时间或分组大小中的至少一个来确定。

9.如权利要求1所述的方法，其特征在于，还包括如果所述客户机在会话中改变源传输地址，则用客户机规范名(CNAME)来更新所述同步源(SSRC)标识。

10.一种方法，包括：

基于单独的活动音频客户机对会议的参与来对所述会议中的一个或多个活动音频客户机的列表进行排序(404)，所述单独的活动音频客户机与规范名(CNAME)和同步源(SSRC)标识相关联；

将有序列表插入到一个或多个音频流中的实时协议(RTP)贡献源列表字段中(408)。

11.如权利要求10所述的方法，其特征在于，所述有序列表从主要活动客户机开始。

12.如权利要求11所述的方法，其特征在于，还包括基于能级、静默时间段的持续时间、持续时间或分组大小中的至少一个来确定所述主要客户机。

13.如权利要求11所述的方法，其特征在于，所述SSRC标识被映射到从对于一个或多个接收到的音频流的控制分组中获取的CNAME。

14.如权利要求13所述的方法，其特征在于，所述控制分组是遵从实时控制协议(RTCP)的。

15.如权利要求13所述的方法，其特征在于，所述SSRC和所述CNAME被包括在实时控制协议(RTCP)分组中。

16.如权利要求10所述的方法，其特征在于，还包括向所述一个或多个活动客户机中所包括的主要活动音频客户机提供没有其他音频客户机是活动的指示(410)。

17.一种系统，包括：

用于从接收到的活动客户机中生成一个或多个发送媒体流的媒体服务器(102)，所述媒体服务器将一个或多个活动客户机的有序列表插入到所述一个或多个媒体流中。

18.如权利要求17所述的系统，其特征在于，所述媒体服务器将所述有序列表插入到分组首部中的实时传输协议(RTP)贡献源列表(CSRC)中。

19.如权利要求17所述的系统，其特征在于，所述有序列表基于能级、静默时间段的持续时间、持续时间、或者与从主要客户机接收到的媒体流相关联的分组大小来指示所述主要客户机。

20.如权利要求17所述的系统，其特征在于，所述媒体服务器向接收发送媒体流的客户机发送活动客户机标识符，所述活动客户机标识符包括实时控制协议(RTCP)分组中的、对应于所述活动客户机的规范名(CNAME)和映射到所述CNAME的同步源(SSRC)标识。