CN102484667A

CN102484667A - 用于在协作环境下控制音频的方法和系统

Info

Publication number: CN102484667A
Application number: CN2010800300951A
Authority: CN
Inventors: 约翰·H·尤库姆; 托尼·麦考马克; 约翰·科斯特洛
Original assignee: Avaya Inc
Current assignee: Avaya Inc
Priority date: 2009-09-22
Filing date: 2010-09-22
Publication date: 2012-05-30
Anticipated expiration: 2030-09-22
Also published as: US8144633B2; GB2485917A; WO2011036543A1; US20110069643A1; GB201122419D0; CN102484667B; GB2485917B

Abstract

提供了一种用于在协作环境中指定音频流的听觉位置的方法和系统。与参与者对应的多个图标显示在用户界面上。主持人可以从用户界面的第一位置移动图标到用户界面的第二位置。一旦从第一位置移动图标到第二位置，与所述第二位置对应的听觉位置标识符就被产生，并被发送到会议处理器。所述会议处理器使用所述听觉位置标识符产生输出音频流，其从听觉上将由所述图标对应的参与者所产生的音频流定位在该听觉位置处。所述输出音频流被提供给主持人，其使用多声道功能设备来感知在指定的听觉位置处的音频流。

Description

用于在协作环境下控制音频的方法和系统

技术领域

本发明一般地涉及协作环境(collaboration environment)，尤其涉及控制协作参与者的音频流。

背景技术

旅行中的花销和不便增加了对使得来自不同地方的参与者能够很容易地与另一个联系来讨论话题的有效协作环境的需求。当会议呼叫为一小群讨论特定话题的参与者提供了合适的环境时，会议呼叫并不适合于更大群的参与者，或者对于非常复杂问题的探讨。会议呼叫的一个问题在于承载参与者语音的音频流是单声道的，并且每一个参与者的语音都好像在相同的位置。在每个参与者彼此认识并且可以相互识别其他人的语音的少数参与者的会议呼叫中，非立体语音频流是令人满意的。但是当会议呼叫中参与者同时开始说话，跟讨论增长势头所发生的频率一样的时候，由于聆听者无法识别谁说的什么，因而通信就迅速变得无法辨识了。许多会议系统通过仅仅将最活跃发言者的语音信号、以及那些试图打断活跃发言者且声音最大的发言者的语音信号提供给参与者来改善这种情况。然而，这种方法有效地将会议限制于单个的发言者，并且趋向于优选大声并且持续的发言者。

即使没有同时发生的会话，在单声道会议呼叫的参与者会遇到谁正在发言的麻烦，除非他们就个人来说，非常熟悉发言者以识别他们的语音。即使发言者之前介绍了他们自己，这也可能在困难的几分钟之后才能识别你不熟悉的人的语音，特别是有许多参与者时。这其中极大的原因是在于每个参与者听起来就好像他们在相同的地方，并且一个聆听者只留下了极少的线索用于他们来回忆谁是谁。由于知道谁在会话中说话一般来说非常重要，因此每次当一个人开始说话的时候，由于聆听者要求发言者介绍他们自己，这就会导致令人尴尬的中断。

传统协作环境的另一缺点，比如作为会议呼叫，是不能够相对容易地实施用于普通面对面会议中的常见的问题解决技术。例如，在商业环境中，这对于一群雇员在会议室中面对面的见面来讨论包括多个子话题的复杂话题来说是很普通的。这群人可以开始讨论该话题，并且确定解决该问题的最有效的方式是将他们自己分成子群(subgroup)，并且给每一个子群分配一个子话题来解决。在子群讨论和解决关于他们各自的子话题的问题之后，他们以更大的群再次会面来合作和解决所有的问题。不幸地是，在传统的会议环境中，形成可以分别与另一个子群进行会话的参与者的子群、并且可以在子群完成了他们的会话之后很容易地再次形成整个群，这是非常困难的。而且，这样的子群与上述提及的单声道通信存在相同的困难。

考虑到传统的协作环境的缺点，提供一个协作环境来实际地模拟面对面的会议，将会是有益的。而且，提供一个协作环境来允许参与者更容易地参加多个同时存在的交谈，更容易地基于发言者语音的位置识别发言者，以及允许以简单直观的方式形成参与者的子群，也将会是有益的。

发明内容

本发明提供了一种协作环境，其中主持人可以定位会议参与者的语音在期望的听觉位置。所述会议包括若干参与者和一个主持人。所述参与者和所述主持人通过诸如计算机的通信设备来通信。每一个通信设备建立与在媒体服务器中的会议处理器的通信会话。当参与者发言时，所述通信设备产生包含参与者语音信号的输入音频流，并发送该输入音频流到会议处理器。所述通信会话也可以传递来自会议处理器的输出音频流到通信设备，该通信设备可以被提供给参与者。主持人使用诸如立体声耳机或立体声麦克风的具有多声道功能的设备来聆听由会议处理器给主持人的通信设备提供的输出音频流。

用户界面向主持人显示与每一个会议参与者对应的参与者图标。主持人可以通过在所述用户界面操作参与者的图标来指定参与者语音的听觉位置。通信设备耦合到所述会议处理器。基于从主持人接收到的输入，所述通信设备产生和发送听觉位置控制信号，指示会议处理器处理指定的输入音频流，以及提供能够被诸如主持人的聆听者所感知的输出音频流，就好像来自相对于聆听者的特定听觉位置一样。会议处理器接收听觉位置控制信号并处理指定的输入音频流以生成输出音频流，该输出音频流包括诸如频率和/或相位特性的特性，这些特性将输出音频流定位在相对于聆听者的特定听觉位置处。特定听觉位置可以通过听觉位置标识符在听觉位置控制信号中被标识，所述听觉位置标识符包括标识相对于聆听者的基准位置的期望听觉位置的数据。

在会议中的一个或多个参与者也可以使用诸如立体声耳机或立体声麦克风的多声道功能的设备来聆听由会议处理器提供给对应参与者通信设备的输出音频流。参与者也具有显示表示会议中的一个或多个其他参与者的图标的用户界面。参与者可以操作参与者图标以指定其他参与者的语音的听觉位置。通信设备发送听觉位置控制信号，指示会议处理器处理指定的输入音频流并提供输出音频流，该输出音频流被参与者感知，就好像来自于相对于参与者的特定听觉位置一样。参与者改变其他参与者听觉位置的能力依赖于主持人授予的权限。

主持人也可以操作用户界面以控制哪一个参与者可以听到指定的其他参与者。基于从主持人处接收的输入，通信设备发送混合控制信号到会议处理器，指示会议处理器混合已指定的输入音频流来形成一个或多个组合的输出音频流，并经由相应的通信会话提供该一个或多个输出音频流到一个或多个会议的参与者。主持人可以操作用户界面来形成参与者子群，其中的参与者可以听到并与相同子群中的其他参与者交谈，但不能听到并与其他子群中的参与者交谈。参与者可具有显示代表在他们各自子群中参与者的图标的用户界面。进一步，每一个参与者可以操作用户界面以从听觉上定位他们子群中的参与者的语音。

主持人可以授权一个或多个子群发起与一个或多个其它子群的会话。假如在第一个子群中的参与者获准发起与第二子群的会话，则参与者可以操作他们的用户界面以指示期望发起与第二子群的会话。通信设备可以向会议处理器发送混合控制信号以指示会议处理器将与第二子群的参与者相关联的输入音频流混合到提供给第一子群中的参与者的输出音频流中。会议处理器也可以将与在第一子群中的参与者相关联的输入音频流混合到被提供给第二子群中的参与者的输出音频流中。以这种方式，在第一和第二子群的每一个中的参与者可以听到其他子群中的参与者。

在阅读了以下与附图有关的优选实施例的详细描述之后，本领域技术人员应当知道本发明的范围和认识到其中的另外的方面。

附图说明

结合并成为本发明的一部分的附图阐述了本发明的几个方面，并且与说明书一起来解释本发明的原理。

图1为显示了依据本发明的一个实施例的协作环境的方框图；

图2为显示了依据本发明的一个实施例的用于针对主持人在协作环境中从听觉上定位参与者的语音信号的用户界面；

图3为显示了依据本发明一个实施例的会议处理器的方框图，该处理器根据多个输入音频流提供不同的输出音频流；

图4显示了一个用户界面，使得主持人能选择在协作环境的多个参与者中的哪一个来与其他参与者协作；

图5为显示了用于从听觉上定位相对于主持人的基准位置的参与者的音频流的方法；

图6显示了使得主持人能形成参与者子群的用户界面；

图7显示了图6所示的用户界面，其中在一个子群中的参与者可以听到主持人，并且在其他子群中的参与者不能听到主持人；

图8A显示了一个用户界面，用于使得第一参与者能够在听觉上定位相对于第一参与者的基准位置的同一子群中其他参与者的音频流；以及

图8B显示了在图8A中的用户界面，其用于使得一个子群能发起与第二子群的通信。

具体实施方式

以下给出的实施例阐明了本领域技术人员实施本发明的必要信息，并且显示了实施本发明的最好模式。在读取关于附图的以下说明后，本领域技术人员应当理解本发明的概念，并识别这些没有特别指定的概念的应用。应当知道这些概念和应用都落入本公开和权利要求的范围内。

本发明提供了一种协作环境，其中主持人(moderator)可以定位在期望的听觉位置处的会议参与者的语音。仅仅用于阐述的目的，本发明在这里以在线教育课程的情况被描述，其中主持人为教师，并且参与者为学生。然而，本发明可以被用在多种不同类型的协作环境，例如，其包括商业相关的会议、训练课程等。通过用户界面的使用，本发明必要地为主持人(以及在某些实施例中，也为一个或多个参与者提供)提供了“所见即所闻”的协作体验。

图1为显示了依据本发明的实施例的协作环境10的方框图。协作环境10包括媒体服务器12和多个通信设备14A-14E。这里通信设备14A-14E可以被集中地或者单独地称为通信设备14，其中讨论涉及任意的或者全部的通信设备14A-14E。通信设备14为可以发送和接收语音信号的任何设备，例如可以包括计算机、PDA、诸如苹果公司

的

的移动电话等。本发明一般地操作在会议的情况下，其中主持人用户16A和多个参与者用户16B-16E使用通信设备14A-14E来相互交谈。通信设备14经由网络18与媒体服务器12可通信地耦合。通信设备14A-14E可以经由任何合适的网络接入路径20A-20E连接到网络18，例如，数字用户线技术、电缆调制解调器技术、蜂窝技术、Wi-Fi、蓝牙等。诸如控制信号和音频数据流的数据一般地在相应的网络接入路径20上传送，正如这里更详细的说明一样。

诸如通信设备14A的示例性通信设备14包括控制器22，该控制器包括用于控制通信设备14A的整体操作的一个或多个中央处理单元和随机访问存储器(未示出)。通信设备14A也可以包括用于在通信设备14A与诸如媒体服务器12的外部设备之间通信的通信接口24。通信设备14A还可以包括或者耦合到显示设备26，其中用户界面(UI)28可以显示在显示设备26上，并且可由诸如主持人用户16A的用户来操作。在会议期间，经由通信接口24从媒体服务器12接收的数据可以用来更新用户界面28。由通信设备14A响应于用户界面28的操作产生的数据可以经由通信接口24提供给媒体服务器12。通信设备14A还优选地包括音频处理器30，该音频处理器产生包括主持人用户16A的语音信号的音频流，并发送所述音频流到媒体服务器12。音频处理器30还从媒体服务器12接收输出音频流，以及经由诸如立体声耳机32的具有多声道功能的设备提供输出音频流到主持人用户16A。本领域技术人员将意识到诸如立体声麦克风的其他具有多声道功能的设备也可以用于提供输出音频流到主持人用户16A。

通信设备14的每一个与媒体服务器12建立通信会话34，其分别标记为标号34A-34E。通信会话34可以包括在相应的通信设备14与媒体服务器12之间的任何类型的会话或连接，所述会话或连接能够从相应的通信设备14发送音频流到媒体服务器12，并从媒体服务器12接收音频流到相应的通信设备14，而不考虑用于传递音频流的基本物理框架，或在相应通信设备14和媒体服务器12之间用于建立通信会话34的特殊协议。合适的协议可以包括例如TCP/IP、会话发起协议(SIP)、传统PSTN信令等。通信会话34一般物理地实现在相应网络接入路径20上。

参与者用户16B-16E使用通信设备14B-14E来参与到协作环境10中。主持人用户16A与参与者用户16B-16E之间的差别是基于用户的角色，或可以是相对随意的，以及例如，基于在协作环境10中最初安排会议的人。例如，主持人用户16A可以是班级的教师，并且每一个参与者用户16B-16E可以是学生。可替代地，主持人用户16A可以简单地为安排会议的职员，或者即将讨论问题的员工群组的管理者。为了简洁的目的，下文中主持人用户16A被认为是主持人16A，并且参与者用户16B-16E被认为是参与者16B-16E。在一个实施例中，主持人16A实行的控制可以代表一个或多个参与者16B-16E。可替代地，主持人16A和参与者16B-16E可以交换角色，其中主持人变成参与者且参与者变成主持人。

媒体服务器12包括与通信会话34连接的通信接口38。通信接口38可以包括用于接收来自通信会话34的输入音频流和通过对应的通信会话34发送输出音频流所必要的硬件和软件的任何合适的组合。例如，假如通信会话34传递模拟语音信号，则通信接口38包括线路卡，或者假如通信会话34传递分组语音信号，则通信接口38包括以太网电路。媒体服务器12还包括交互式语音识别(IVR)处理器40，用于路由通信会话34到合适的会议。

媒体服务器12还包括在主持人16A的指示下建立参与者16B-16E与主持人16A之间的会议的会议处理器42。会议处理器42包括在主持人16A的指示下使得会议处理器42混合或组合多个音频流并提供混合后的输出音频流给一个或多个通信会话34的混合器44。由混合器44提供的额外的功能将在后面更详细描述。会议处理器42包括或耦合至三维(3D)空间音频引擎(3DSAE)46，其接收输入音频流和听觉位置标识符，修改音频流，以及产生包括诸如相位和频率信息的特性的输出音频流，所述特性从听觉上将输出音频流定位在听觉位置标识符的指示的听觉位置上。

为了说明的目的，当会议处理器42被示为包含3DSAE 46时，3DSAE 46的功能可以与所示的会议处理器42集成，或者可以与会议处理器42分离并且经由通信路径耦合到会议处理器42。类似地，当混合器44被示为与3DSAE46分离时，3DSAE 46也可具有混合能力(作为在混合器44中包含的混合能力的补充或者替代)。因此，依据期望的设计标准，会议处理器42、3DSAE46或混合器44所提供的功能可以在一个或多个模块中由媒体服务器12执行。因此，为了阐明和简洁的目的，在下文中由会议处理器42、3DSAE 46或混合器44的任何一个提供的功能通常被描述为由会议处理器42提供。媒体服务器12还包括包含中央处理单元和随机访问存储器(未示出)的控制器48，其耦合到通信接口38、IVR处理器40和会议处理器42中的每一个，以控制其中的操作。

本发明为主持人16A提供了以下能力：在期望的相对主持人16A的听觉位置上从听觉上定位由参与者16B-16E产生的音频流。听觉定位由会议处理器42经由3DSAE 46提供。3DSAE 46可以通过产生包括频率和相位信息的特性的输出音频流来从听觉上定位音频流，所述特性可以从听觉上定位输出音频流，从而当其从一个指定位置发起的时候，可以被诸如主持人16A的聆听者所感知。输入音频流可以是单声道的或多声道的。输出语音信号是诸如立体声或杜比数字(Dolby Digital)5.1语音信号的多声道语音信号，并且经由立体声耳机32被提供给主持人16A。适合用于本发明的3DSAE可以通过位于4856E.Baseline Rd.Ste.101，Mesa，AZ 85206的DiamondWare有限公司获取。

图2显示了由通信设备14A提供的并在显示设备26上显示的示例性用户界面28，并且将结合附图1进行描述。主持人16A操作用户界面以从听觉上定位与一个或多个参与者16B-16E相关联的音频流。主持人图标50A代表主持人16A的基准位置。每一个参与者16B-16E由相应的参与者图标50B-50E表示。用户界面28可以包括定位圆周52，其在主持人16A在用户界面28上操作一个或多个参与者图标50B-50E的时候辅助主持人16A。定位圆周52可具有“对齐(snap-to)”的特性(如果需要的话)，其在主持人16A移动相距定位圆周52预定距离内的参与者图标50B-50E中的一个的情况下，将特定的参与者图标50B-50E置于定位圆周52的中心。

对于在用户界面28中的每一个参与者图标50B-50E，通信设备14A计算与相应参与者图标50B-50E相对于主持人图标50A的基准位置的位置相对应的听觉位置标识符。听觉位置标识符可以包括可识别相应参与者图标50B-50E相对于主持人图标50A的位置的任何合适的信息。例如，听觉位置标识符可以包括相应参与者图标50B-50E相对于主持人图标50A的方位的角度，以及相应参与者图标50B-50E距主持人图标50A的距离。该角度可被3DSAE 46用来通过诸如频率和相位信息的合适特性来产生与相应参与者相关联的输出音频流，以便输出音频流当从由听觉位置标识符指示的方向发出时，由主持人16A感知。该距离信息可被3DSAE 46用来改变输出音频流的响度(loudness)特性。

参考参与者图标50C，假定参与者图标50C最初在位置54A处。参与者图标50C可以通过用户界面28缺省地被定位在这样的位置(在被通知到媒体服务器12的通信会话34C的连接时)，或者主持人16A使用诸如鼠标或触摸屏的输入设备预先将参与者图标50C拖曳到位置54A。在任何一种情况中，通信设备14A计算与位置50A对应的听觉位置标识符。假定听觉位置标识符包括相对于主持人图标50A的方位的角度偏移。还假定主持人图标50A具有360度圆周52上朝向90度位置的方位。换句话说，主持人图标50A“看起来”在360度圆周52上朝向90度的方向。因此，主持人的“耳朵”分别朝向180度和0度。注意，360度圆周60是为了阐述的目的而提供，并且不必要在用户界面28中被图示。

通信设备14A确定参与者图标50C的位置54A位于90度位置处(主持人50A的正前方)，并且位于与主持人图标50A距离56处。因此在该示例中，听觉位置标识符可包括角度90度和距离56。通信设备14A将包括听觉位置标识符和标识通信会话34C的通信会话标识符的听觉位置控制信号发送给媒体服务器12。3DSAE 46在由听觉位置标识符标识的听觉位置处从听觉上定位与参与者16C相关联的音频流。

假定主持人16A拖曳参与者图标50C到新位置54B。通信设备14A在用户界面28获取参与者图标50C的新位置54B(诸如通过获取参与者图标50C的x、y坐标)，并且计算新的听觉位置标识符。通信设备14A提供新的听觉位置标识符和通信会话标识符到媒体服务器12。3DSAE 46从听觉上定位与参与者16C相关联的音频流在相对于主持人图标50A的大约125度的位置处(即，从听觉上已定位的先前音频流的左边35度)。例如，使用立体声耳机32的主持人16A在将参与者图标50C从位置54A移动之前，正听到参与者图标50C的语音处于主持人16A先前听到的参与者16C的语音的左边。

主持人16A可以确定参与者16E的语音太大。主持人16A可以将与参与者16E对应的参与者图标50E从第一位置58A移动到新位置58B，其距离参与者图标50A更远。通信设备14A产生指示参与者图标50E与主持人图标50A之间的更远距离的新的听觉位置标识符，并提供新的位置标识符给媒体服务器12。3DSAE 46使用新的位置标识符来减少与参与者16E对应的输出音频流的音量。

根据本发明的一个实施例，除了从听觉上定位参与者16B-16E的音频流之外，主持人16A还操作用户界面28来控制由会议处理器42混合的音频流。通过控制音频流的混合，主持人16A可以确定谁将参与会议，谁能够听到谁，以及谁可以与谁通信。在进一步的实施例中，通信设备14B-14E中的一个或多个包括具有多声道功能的音频设备，诸如立体声耳机32。通信设备14B-14E也可以包括类似于用户界面28的用户界面，其允许相应的参与者16B-16E从听觉上定位与自身相关的会议的其他参与者16B-16E的音频流，并且通过具有多声道功能的音频设备监听从听觉上已定位的音频流的客户。

图3显示了本发明的混合和从听觉上定位的方框图，其中会议处理器42产生多个混合的输出音频流，其由每一个已混合的输出音频流的各自的接收方从听觉上被定位。假定参与者16B、16C的每一个具有在与各自的通信设备14B、14C相关联的相应的显示设备26上显示的用户界面。进一步假定，主持人16A已经操作用户界面28以使得参与者16B可以听到并与主持人16A和参与者16C交谈，并且通过之前关于图2的描述的类似方式，使得参与者16B从听觉上定位了在期望的听觉位置处的主持人16A和参与者16C的语音。假定参与者16C同样听到并与主持人16A和参与者16B交谈，并且参与者16C已经从听觉上定位了在在期望的听觉位置处的主持人16A和参与者16B的语音。同样地假定主持人16A能听到并与参与者16B和16C交谈，并且已经从听觉上定位了在期望的听觉位置处的参与者16B、16C。

在图3中，符号“VS”代表语音信号，并且紧跟VS符号之后的标号指示谁产生了相应的语音信号。例如，输入音频流60A传递包含主持人16A的语音信号的音频流，如符号“VS16A”所指示。短语“输入”和“输出”出于阐述的目的，并且是站在会议处理器42的角度上。因此，被发送到会议处理器42的音频流在这里描述为“输入”，并且从会议处理器42发送的音频流被描述为“输出”。输出音频流62A可以包括一个或多个输入音频流60，其包括已经被修改为从听觉上被定位在指定的听觉位置处的一个或多个输入音频流60。

紧跟在产生语音信号的用户的身份之后的上角标“AP”表示语音信号已经从听觉上被会议处理器42定位。紧跟上角标“Ap”的下角标指示谁指定了听觉位置。例如，符号“VS16B^AP _16A”表示由参与者16B所产生的语音信号，参与者16B已经从听觉上被定位在由主持人16A指定的听觉位置处。会议处理器42可以产生包括多个会议参与者的音频流的“混合”输出音频流。例如，输出音频流62A包括由参与者16B(已经由主持人16A在听觉上被定位)产生的音频流、以及由参与者16C(也已经由主持人16A在听觉上被定位)产生的音频流，正如符号“(VS16B^AP _16A+VS16C^AP _16A)”所示。如图3所示，会议处理器42可以从相同的输入音频流60A-60C产生多个不同的输出音频流62A-62C，其中每一输出音频流62A-62C包括由接收输出音频流62A-62C的各自参与者所指定的不同的听觉位置特性。

图4显示了用户界面28，其中当新参与者加入会议时，主持人16A管理会议。当新的通信会话34连接到媒体服务器12时，媒体服务器12提供消息给识别新的通信会话34连接的通信设备14A，并且可以包括唯一识别新的通信会话34的通信会话标识符。通信设备14A然后在用户界面28的第一显示区域64提供新的参与者图标50，诸如参与者图标50N-50P所示。在用户界面28中的每一个参与者图标对应特定的通信会话34和参与者16。因此，参与者图标50B-50P分别对应通信会话34B-34P，并且分别对应参与者16B-16P。参与者图标使用诸如对应的参与者的姓名的信息来标记，该信息可以在会话初始过程中由参与者提供给媒体服务器12。在参与者图标50N-50P从第一显示区域64移动到第二显示区域66之前，一旦被主持人16A批准，参与者16N-16P可以听到指示他们将加入到会议中的音乐或者消息。

当主持人16A选择第一显示区域64中的参与者图标50N-50P，并且拖曳参与者图标50N-50P到第二显示区域66时，相应的通信会话34N-34P由会议处理器42提供给输出音频流。会议的缺省行为可以是主持人16A选择的。主持人16A可以配置会议，以便在缺省情况下与在第二显示区域66中的参与者图标50对应的通信会话34仅仅由主持人16A产生的输入音频流提供。可替代地，缺省配置可以是通信会话34被提供以由具有在第二显示区域66中对应的参与者图标50的所有其他参与者产生的输入音频流。例如，假定主持人16A从第一显示区域64拖曳参与者图标50N到第二显示区域66。进一步假定缺省行为是每一个参与者16都可以听到其他参与者16和主持人16A。通信设备14A发送混合控制信号到会议处理器42，其识别与参与者图标50N对应的通信会话34N，并且发送指示会议处理器42提供输出音频流给通信会话34N的混合指令，所述输出音频流包括来自其他通信会话34的每一个的输入音频流。会议处理器42也将来自通信会话34N的新的输入音频流提供给其他通信会话34，因此每一个参与者16和主持人16A都可以听到新的参与者16N。

优选地，主持人16A通过用户界面28的操作，可以很容易地选择主持人16A想要交流的一个或多个特定的参与者16，或者很容易地指示主持人16A想要所有的参与者16听到主持人16A。例如，双击主持人图标50A可以指示主持人16A想要对所有的参与者16说话。通信设备14A发送混合控制信号到会议处理器42，指示会议处理器42提供由主持人16A产生的输入音频流到每一个通信会话34。用户界面28可以用虚线68来显示每一个参与者16B-16M都能够听到主持人16A。再次双击主持人图标50A，可以指示主持人16A不想任何参与者16B-16M能够听到主持人16A。通信设备14A发送混合控制信号到会议处理器42，指示会议处理器42不发送由主持人16A产生的输入音频流到任何通信会话34B-34M。

单击特定的参与者图标50可以发起仅与参与者图标50对应的参与者16的直接会话。例如，假定主持人16A想要通知参与者16K“Jane”她是被分裂出去的，即其他参与者16B-16J、16L-16M都听不见此交流。主持人16A可以单击参与者图标50K，通信设备14A可以发送混合控制信号到会议处理器42，指示控制处理器42提供主持人16A的输入音频流仅到通信会话34K。双击特定的参与者图标50B-50M可以进一步指示通信设备14A产生和发送混合控制信号到控制处理器42，以便相应的参与者16的输入音频流仅被提供给主持人16A。在这种方式下，主持人16A可以容易直观地与期望的任何一个参与者16B-16M中建立一对一的会话。

图5为显示了依据本发明的一个实施例而用于指定与已经加入到会议中的新参与者16相关联的音频流的听觉位置的一种方法的流程图。当与新的参与者16对应的通信会话34连接到媒体服务器12时，媒体服务器12发送标识新的通信会话34的数据到主持人16A的通信设备14A(步骤100)。用户界面28在第一显示区域64(图4)中显示与新的通信会话34相关联的参与者16所对应的新参与者图标50(步骤102)。主持人16A选择参与者图标50并将参与者图标50从第一显示区域64移动到第二显示区域66(步骤104)。基于新参与者图标50相对于第二显示区域64中的基准位置的位置，通信设备14A计算听觉位置标识符(步骤106)。依据本发明的一个实施例，基准位置由主持人图标50A的位置来指示。通信设备14A发送听觉位置标识符和标识与参与者图标50对应的通信会话34的通信会话标识符到会议处理器42(步骤108)。基于来自已识别的通信会话34的输入音频流，会议处理器42产生新的输出音频流，该已识别的通信会话将输出音频流定位在已识别的听觉位置处。会议处理器42将新的输出音频流与去往主持人16A的任何其他音频流进行混合，并提供已混合的输出音频流到通信会话34A，其由通信设备14A接收(步骤110)。

依据本发明的一个实施例，一个或多个参与者16B-16P具有诸如立体声耳机的多声道功能的设备，并且具有在相应的通信设备14B-14P上执行的用户界面28。每一个参与者16B-16P可以经由如在图4中描述的拖放接口为其他参与者16B-16P的每一个指定听觉位置。各自的通信设备14B-14P可以向会议处理器42提供针对每一个各自的音频流的听觉位置标识符，会议处理器42可以提供唯一的混合输出音频流给每一个通信会话34，其从听觉上将每一个参与者16B-16P的语音定位在期望的听觉位置处。

图6显示了依据本发明的另一个实施例的用户界面28，其中主持人16A可以经由用户界面28创建参与者16B-16P子群。用户界面28包括第一显示区域70，其中参与者图标50B-1到50M-1表示参与会议的相应的参与者16B-16M。在第二显示区域72中，主持人16A形成了参与者图标50B-2至50M-2的子群74A-74C，其中相应的参与者16B-16M仅可以与各自的子群74A-74C中的其他参与者16B-16M通信。例如，假定主持人16A为老师，其他每个参与者16B-16M都为学生。主持人16A确定每一个参与者16B-16M都对三个话题之一有疑问。主持人16A想要讨论特定话题的参与者16B-16M彼此碰面，并且讨论一个额外的作业，该作业被指定用来辅助学习话题的过程。主持人16A点击一个新的子群图标76，使得通信设备14A在第二显示区域72显示定位圆周52A。假定主持人16A单独地或集中地从第一显示区域70选择参与者图标50B-1、50G-1、50H-1、50K-1和50L-1，并且拖曳图标到定位圆周52A上或其附近。一旦在定位圆周52A上放下参与者图标50B-1、50G-1、50H-1、50K-1和50L-1，如图6所示，通信设备14A就创建这样的参与者图标的拷贝来展示在定位圆周52A上，作为参与者图标50B-2、50G-2、50H-2、50K-2和50L-2。如前所述，通信设备14A可以确定针对参与者图标50B-2、50G-2、50H-2、50K-2和50L-2中每一个的听觉位置标识符，并且如前所述，向会议处理器42提供听觉位置标识符来为主持人16A产生和混合输出音频流。通信设备14A还发送混合控制信号到会议处理器42，该控制信号向会议处理器42指示：通信会话34B、34G、34H、34K和34L的音频流被提供给彼此之间，但不提供给其他通信会话34。以这种方式，参与者16B、16G、16H、16K和16L可以在彼此之间通信。

假定主持人16A对子群74B和74C重复之前讨论的过程，每次拖曳参与者图标50到子群74B、74C中的一个或另一个(取决于相应的参与者16需要帮助的特定的话题)。基于响应于主持人16A对用户界面28的操作由通信设备14A产生的混合控制信号，在各自子群中的每一个参与者16可以与在他们相应的子群74中的其他参与者16说话，但不能与其他参与者16说话。

图7显示了在图6中所示的用户界面28的进一步实施例，其中主持人16A很容易地选择与特定的子群74中的参与者16交谈，或者可以很容易地选择与所有的参与者16交谈。假定主持人16A希望与子群74A中的参与者16B、16G、16H、16K和16L交谈。主持人16A可双击主持人图标50A-3，其指示通信设备14A产生和发送混合控制信号到会议处理器42。混合控制信号识别与子群74A中的参与者16B、16G、16H、16K和16L对应的通信会话34B、34G、34H、34K和34L，并且指示会议处理器42在与参与者图标50B-2、50G-2、50H-2、50K-2和50L-2对应的听觉位置处提供与通信会话34B、34G、34H、34K和34L相关联的输入音频流给主持人16A，以及提供来自主持人16A的输入音频流到通信会话34B、34G、34H、34K和34L。假如主持人16A希望跟所有的参与者16B-16M交谈，则可以双击第一显示区域70中的主持人图标50A-1。通信设备14A可以产生和发送混合控制信号到会议处理器42以使得所有的参与者16B-16M能够听到主持人16A。

依据本发明的另一个实施例，主持人16A可以授权子群74中的参与者16发起与另一个子群74中的其他参与者16的通信。例如，主持人16A可以意识到在子群74C中的参与者16C、16E、16I、16M非常清楚子群74B中讨论的话题，并且假如在子群74B中的参与者16D、16F、16J需要一些帮助，则在子群74C中的参与者16C、16E、16I、16M可以帮助他们。主持人16A可以经由用户界面28完成该授权，例如，通过右键点击子群74B，并选择“允许与其他子群通信”菜单选项(未示出)。通信设备14A可以提供该数据给媒体服务器12来将该配置数据存储在媒体服务器12的存储器中。

图8A显示了可由子群74B中的参与者16D、16F、16J用来发起与子群74C中的参与者16C、16E、16I、16M之间的通信的用户界面28。假定参与者16J“John”希望发起与子群74C中的参与者16C、16E、16I、16M之间的通信。参与者16J可以选择子群74C并尝试拖曳子群74C靠近子群74B。由参与者16J使用的通信设备14J将发出请求到媒体服务器12。媒体服务器12可以核对在存储器中的配置选项以确定主持人16A是否给予子群74B发起与子群74C之间的通信的授权。假如否，则媒体服务器12可以通知通信设备14J该行为不被允许，并且用户界面28不允许子群74B被拖曳到子群74C附近。然而，假定主持人16A已经提供了这样的授权，并且媒体服务器12通知通信设备14J请求的动作被允许。

图8B显示了在参与者16J拖曳子群74C到临近子群74B之后的用户界面28。一旦检测到子群74C临近子群74B，通信设备14J就创建混合控制信号和发送该混合控制信号到会议处理器42。混合控制信号可以识别与在子群74C中的参与者对应的通信会话34C、34E、34I和34M，并且指示会议处理器42提供与通信会话34C、34E、34I和34M相关联的输入音频流到通信会话34D、34F和34J。混合控制信号还可以指示会议处理器42提供与通信会话34D、34F和34J相关联的输入音频流到通信会话34C、34E、34I和34M。以这种方式，在子群74B中的每一个参与者可以与在子群74C中的参与者说话，反之亦然。通信设备14J可指示会议处理器42在与最靠近位置线52B的参与者图标50I-2的位置所对应的听觉位置处从听觉上定位与通信会话34C、34E、34I和34M对应的输入音频流中的每一个，以便参与者16C、16E、16I和16M的每一个对于参与者16J来说都听起来好像处在相同的位置。可替代地，用户界面28可以允许参与者16J在与参与者图标50C-2、50E-2、50I-2和50M-2的各自位置对应的不同的听觉位置处听到参与者16C、16E、16I和16M中的每一个。

本发明的各个方面可以被嵌入到存储在硬件中的指令中，并且例如，可以驻留在随机访问存储器(RAM)、闪存、只读存储器(ROM)、电可编程ROM(EPROM)、电可擦除编程ROM(EEPROM)、寄存器、硬盘、可移除硬盘、CD-ROM或现有技术已知的任何其他形式的计算机可读存储介质中。示例性的存储介质连接到处理器以便处理器可以从存储介质中读取信息并写信息到存储介质中。在可替代中，存储介质可以集成到处理器中。处理器和存储介质可以驻留在ASIC中。例如，该ASIC可以驻留在媒体服务器12或通信设备14中。

本领域技术人员可以意识到本发明的优选实施例的改进和修改。所有的这些改进和修改都认为是在这里公开的方面以及权利要求书的范围内。

Claims

1.一种用于在协作环境中指定音频流的听觉位置的方法，包括：

在显示设备的用户界面的第一显示区域中显示多个参与者图标；

接收与所述多个参与者图标的第一参与者图标对应的第一输出音频流，其中所述第一输出音频流包括听觉位置特性，该听觉位置特性从听觉上将所述第一输出音频流定位在第一听觉位置处，所述第一听觉位置对应于所述第一显示区域中的所述第一参与者图标的第一位置；

接收指示所述第一参与者图标已经被从所述第一位置移动到所述第一显示区域中的第二位置的第一输入；

响应于所述第一输入，基于所述第二位置和基准位置确定与所述第二位置对应的第一参与者图标的第二听觉位置；

发送控制信号到会议处理器，该控制信号包括标识所述第一输出音频流的音频流标识符和标识所述第二听觉位置的听觉位置标识符；以及

接收所述第一输出音频流，其中所述第一输出音频流包括从听觉上将第一输出音频流定位在所述第二听觉位置处的听觉位置特性。

2.如权利要求1所述的方法，其中所述多个参与者图标包括至少4个参与者图标，并且其中所述第一参与者图标与第一参与者通信会话对应，第二参与者图标与第二参与者通信会话对应；第三参与者图标与第三参与者通信会话对应，并且第四参与者图标与第四参与者通信会话对应，进一步包括：

接收请求包括所述第一参与者图标和所述第二参与者图标的子群的第二输入；以及

响应于所述第二输入，发送混合控制信号到会议处理器，其中所述混合控制信号指示所述会议处理器：

将与所述第一参与者相关联的输入音频流提供到所述第二参与者通信会话，而不提供到所述第三参与者通信会话或所述第四参与者通信会话；以及

将与所述第二参与者相关联的输入音频流提供到所述第一参与者通信会话，而不提供到所述第三参与者通信会话或所述第四参与者通信会话。

3.如权利要求2所述的方法，进一步包括在所述用户界面的第二显示区域中显示所述第一参与者图标和所述第二参与者图标。

4.如权利要求2所述的方法，进一步包括：

接收指示所述子群的选择的第三输入；以及

响应于所述第三输入，发送第二混合控制信号到所述会议处理器，其中所述第二混合控制信号指示所述会议处理器将与主持人相关联的输入音频流提供到所述第一参与者通信会话和所述第二参与者通信会话，而不提供到所述第三参与者通信会话或所述第四参与者通信会话。

5.如权利要求4所述的方法，进一步包括：

接收指示所有的所述多个参与者图标的选择的第四输入；以及

响应于所述第四输入，发送第三混合控制信号到所述会议处理器，其中所述第三混合控制信号指示所述会议处理器将与所述主持人相关联的所述输入音频流提供到所述第一参与者通信会话、所述第二参与者通信会话、所述第三参与者通信会话和所述第四参与者通信会话。

6.如权利要求3所述的方法，进一步包括多个第一参与者图标，所述多个第一参与者图标中的第一个被显示在所述第一显示区域中，且所述多个第一参与者图标中的第二个被同时显示在所述第二显示区域中，进一步包括：

接收第二输入，所述第二输入指示在所述第二显示区域中的所述第一参与者图标已经被从所述第二显示区域中的第一位置移动到所述第二显示区域中的第二位置；以及

响应于所述第二输入，基于所述第二位置和第二基准位置确定与所述第二位置对应的所述第二显示区域中的第一参与者图标的新的听觉位置，其中所述新的听觉位置与所述第二听觉位置不同。

7.如权利要求2所述的方法，进一步包括：

接收第三输入，所述第三输入请求包括所述第三参与者图标和所述第四参与者图标的第二子群；以及

发送所述混合控制信号到所述会议处理器，其中所述混合控制信号指示所述会议处理器：

将与所述第三参与者相关联的输入音频流提供到所述第四参与者通信会话，而不提供到所述第一参与者通信会话或所述第二参与者通信会话；以及

将与所述第四参与者相关联的输入音频流提供到所述第三参与者通信会话，而不提供到所述第一参与者通信会话或所述第二参与者通信会话。

8.如权利要求7所述的方法，进一步包括：

接收指示授权所述第一子群发起与所述第二子群的通信的第四输入，并且响应于所述第四输入，发送授权指示符到服务器，接收指示所述第一子群已经发起与所述第二子群的通信的数据，并且更新所述用户界面以指示所述第一子群已经发起与所述第二子群的通信。

9.如权利要求8所述的方法，其中所述授权指示符被发送到包括所述会议处理器的媒体服务器。

10.一种媒体服务器，包括：

通信接口，其被配置为与主持人通信会话、第一参与者通信会话和第二参与者通信会话进行通信；以及

会议处理器，其中所述会议处理器被配置为：

接收来自主持人的与所述第一参与者通信会话相关联的第一听觉位置数据和与所述第二参与者通信会话相关联的第二听觉位置数据；

接收来自所述第一通信会话的第一输入音频流和来自所述第二参与者通信会话的第二输入音频流；

基于所述第一输入音频流和所述第二输入音频流产生第一输出音频流，其中所述第一输出音频流从听觉上将所述第一输入音频流定位在由所述第一听觉位置数据指示的听觉位置处，并将所述第二输入音频流定位在由所述第二听觉位置数据指示的听觉位置处；以及

提供所述第一输出音频流到所述主持人通信会话。

11.如权利要求10所述的媒体服务器，其中所述通信接口进一步被配置为与第三参与者通信会话和第四参与者通信会话进行通信，其中所述会议处理器进一步被配置为：

接收第一混合控制信号，并基于所述第一混合控制信号提供基于所述第一输入音频流的第二输出音频流到所述第二参与者通信会话，而不是到所述第三参与者通信会话或所述第四参与者通信会话，以及提供基于所述第二输入音频流的第三输出音频流到所述第一参与者通信会话，而不是到所述第三参与者通信会话或所述第四参与者通信会话。

12.如权利要求11所述的媒体服务器，其中所述会议处理器进一步被配置为：

从与所述第二通信会话对应的第二参与者接收与所述第一参与者通信会话相关联的第三听觉位置数据，接收来自所述第一通信会话的所述第一输入音频流，产生第四输出音频流，所述第四输出音频流从听觉上将所述第四输出音频流定位在由所述第三听觉位置数据指示的听觉位置处，并且提供所述第四输出音频流到所述第二通信会话。

13.如权利要求12所述的媒体服务器，其中所述第三听觉位置数据与所述第一听觉位置数据不同，并且其中所述第一输出音频流和所述第四输出音频流基本是同时产生的，并且其中与提供所述第四输出音频流到所述第二通信会话同时地、所述第一输出音频流被提供到所述主持人通信会话。

14.如权利要求11所述的媒体服务器，其中所述会议处理器进一步被配置为：

接收第二混合控制信号，并且基于所述第二混合控制信号，将主持人输出音频流提供到所述第一参与者通信会话和所述第二参与者通信会话，而不提供到所述第三参与者通信会话或所述第四参与者通信会话。

15.如权利要求14所述的媒体服务器，其中所述会议处理器进一步被配置为：

接收第三混合控制信号，并且基于所述第三混合控制信号提供所述主持人输出音频流到所述第一参与者通信会话、所述第二参与者通信会话、所述第三参与者通信会话和所述第四参与者通信会话。

16.如权利要求11所述的媒体服务器，其中所述会议处理器进一步被配置为：

接收标识与所述第三参与者通信会话和所述第四参与者通信会话相关联的听觉位置的第三听觉位置数据；

基于来自所述第三参与者通信会话的第三输入音频流和来自所述第四参与者通信会话的第四输入音频流，在由所述第三听觉位置数据所指示的听觉位置处提供第二输出音频流。

17.如权利要求10所述的媒体服务器，其中所述会议处理器进一步被配置为接收第一混合控制信号，并且基于所述第一混合控制信号将来自所述主持人通信会话的主持人输入音频流提供到所述第一参与者通信会话，而不提供到所述第二参与者通信会话，并且将所述第一输入音频流提供到所述主持人通信会话，而不提供到所述第二参与者通信会话。

18.一种计算机程序产品，其包括具有嵌入其中的计算可读程序代码的计算机可用介质，所述计算可读程序代码被配置为执行实施一种用于指定音频流的听觉位置的方法，所述方法包括：

接收与所述多个参与者图标中的第一参与者图标对应的第一输出音频流，其中所述第一输出音频流包括听觉位置特性，该特性在与所述第一显示区域中的所述第一参与者图标的第一位置对应的第一听觉位置处从听觉上定位所述第一输出音频流；

接收指示所述第一参与者图标已经被从在所述第一显示区域中的所述第一位置移动到第二位置的第一输入；

接收所述第一输出音频流，其中所述第一输出音频流包括听觉位置特性，该特性在所述第二听觉位置处从听觉上定位所述第一输出音频流。

19.如权利要求18所述的计算机程序产品，其中所述多个参与者图标包括至少4个参与者图标，并且其中所述第一参与者图标与第一参与者通信会话对应，第二参与者图标与第二参与者通信会话对应；第三参与者图标与第三参与者通信会话对应，并且第四参与者图标与第四参与者通信会话对应，所述方法进一步包括：

提供与所述第一参与者相关联的输入音频流到所述第二参与者通信会话，而不是到所述第三参与者通信会话或所述第四参与者通信会话；和

提供与所述第二参与者相关联的输入音频流到所述第一参与者通信会话，而不是到所述第三参与者通信会话或所述第四参与者通信会话。

20.如权利要求19所述的计算机程序产品，进一步包括在所述用户界面的第二显示区域中显示所述第一参与者图标和所述第二参与者图标。

21.如权利要求19所述的计算机程序产品，其中所述方法进一步包括：

接收指示所述子群的选择的第三输入；以及

响应于所述第三输入，发送第二混合控制信号到所述会议处理器，其中所述第二混合控制信号指示所述会议处理器提供与主持人相关联的输入音频流到所述第一参与者通信会话和所述第二参与者通信会话，而不是到所述第三参与者通信会话或所述第四参与者通信会话。

22.一种控制协作环境的计算机执行的方法，包括：

在第一显示区域中显示第一参与者图标和第二参与者图标，其中所述第一参与者图标与第一通信会话相关联，并且所述第二参与者图标与第二通信会话相关联；

检测所述第一参与者图标从所述第一显示区域移动到第二显示区域内的一位置的移动；

确定相对于基准位置的该位置所关联的听觉位置数据；

提供所述听觉位置数据给会议处理器；

接收音频流，所述音频流将与所述第一通信会话对应的第一参与者音频流定位在由所述听觉位置数据标识的听觉位置处；以及

提供所述音频流给输出设备。