CN1929593A

CN1929593A - 多点视频会议中的空间相关音频

Info

Publication number: CN1929593A
Application number: CNA2006101516323A
Authority: CN
Inventors: 谢尔盖·帕特肯; 艾然·克纳兹; 沙龙·沙尼
Original assignee: Polycom Inc
Current assignee: Hewlett Packard Development Co LP
Priority date: 2005-09-07
Filing date: 2006-09-07
Publication date: 2007-03-14
Anticipated expiration: 2026-09-07
Also published as: EP1763241B1; EP1763241A2; JP2012213214A; EP1763241A3; JP2007074732A; JP2009177827A; US7612793B2; US20070064094A1; CN1929593B

Abstract

公开的方法通过向多点视频会议中的端点提供多个音频流，从而为多点视频会议中的端点提供了音频位置感知，其中音频流中的每一个都相应于端点处的其中一个扬声器。所述音频流得以区分，以便强调通过一个或者多个最接近于视频会议布局(其在端点处显示)中的发言端点位置的扬声器来广播音频流。例如，与在显示屏近端处的扬声器处的音频广播相比较，在屏幕远端的扬声器处的音频广播可能被衰减，或者被延时。所公开的内容还提供了一种多点控制单元(MCU)，其根据在端点的布局中的位置来处理来自两个或者多个端点的音频信号，而后以允许多个端点在空间上广播关联音频的方式将所处理的音频流发送到多个端点。

Description

多点视频会议中的空间相关音频

技术领域

本发明涉及多媒体多点会议领域。更具体地，本发明涉及用于在多点视频会议中提供音频位置感知的方法和装置。

技术背景

多点视频会议通常包括多个参会者或者端点。端点能够提供语音；语音和视频；或者语音、数据和视频。为了同时进行两个或者三个会议，实施视频会议的多点控制单元(MCU)将来自两个或者多个位置的视频图像编辑成要传送到不同参会人员的单一布局。MCU从接入端口接收若干个媒体通道。根据确定的标准，MCU处理视听和数据信号并且将它们分配到相连的通道。这种已编辑的布局还称为连续播放(CP)布局。。MCU例如包括来自Polycom有限公司的MGC-100。其他有关MGC-100的信息可以在 www.polycom.com网站上找到，其作为参考在此并入。有关端点(终端)和MCU的更加全面的定义可以在国际电信联盟(“ITU”)标准中找到，这些标准诸如是(但并不限于)H.320、H.324和H.323标准，其作为参考在此并入。(ITU是在电信领域中的联合国专门机构。其他有关ITU的信息可以在 www.itu.int网站上找到，其作为参考在此并入。)

通常，在CP显示中的参会人员的位置在会议期间动态地发生变化，这取决于会议的动态性。图1示出了在不同的会议期间不同的2x2布局快照。2x2布局是其中显示有当前参会者总数中的4个参会人员的布局。当前参会人员的数量可以是4个或者更多个，但在任何给定的时刻，最多可以显示4个参会者。在给定的时间显示哪一个会议取决于在预留会议或者建立会议时能够定义的选择标准。例如，一个标准可以是显示当前最大声的4个参会者。

以2x2布局发送的混合音频可以包括所述4个被显示参会者的混合音频。由于这4个发言参会者可能发生变化，所以在显示屏上的位置会由于会议动态性的原因而动态的发生变化。

例如，布局100是在参会人员A、B、C和D为最大声的参会者、从而在显示屏上显示时的一个快照。布局110是在同一个会议中的另一个期间的快照，其中参会者E的声音高于B，因而将B从布局中删除，并且由参会者E来取得他/她。布局110包括参会者A、E、C和D。布局120是这样一个快照，其中参会者B的声音高于C，因而将参会者C从布局中删除，并且由参会者B来取得他/她。上述三个布局举例说明了会议的动态性。

在通用多点会议系统中，混合音频为单声道且不能输送任何有关其在屏幕上的源的图像位置的印象。然而，为了增加用户的体验，希望能够将可以听到的参会者声音的方向与显示屏上的参会者的位置相关联。

很少有现有技术给出用于创建与虚拟位置相关联的合成立体声的参考性教导方法和/或系统。例如，全部内容在此引入作为参考的美国专利No.6408327公开了一种方法和系统，该方法和系统用于在局域网或者广域网上方便进行多个用户的合成立体声音频会议。然而，现有技术并没有提供如下的视频会议系统，其中混合立体声音频是谈话者在当前的会议布局上的位置函数。因此，需要通过将参会者的声音和在显示屏上的参会者的位置相关联来改善多媒体多点用户的体验。

发明内容

本发明公开的内容提供了多点视频会议，其中在端点的音频广播在空间上对应于音频源的位置，即在端点处显示的布局中的发言的端点。因此，端点用户能够在空间上享受已分辨的音频，即用户听到的音频将从音频源所在的显示屏上的位置发出。

所公开的方法通过为端点提供多个音频流而向端点提供音频位置感知，其中每个音频流对应于端点处的多个扬声器中的其中一个。所述音频流得以区分，以强调音频流通过在最接近于端点处显示的视频会议布局中的、讲话者端点的一个或者多个扬声器进行广播。例如，与位于显示屏近端的扬声器处的音频广播相比较，位于显示屏远端的扬声器处的音频广播可能被衰减和/或者时间延迟。

所公开的内容还提供了一种用于从视频会议中的各个端点接收和处理音频和视频信号的MCU。所述MCU解码并处理音频和视频信号，并且构建要发送到各个端点的视频布局。所述布局包括来自位于布局内的各个端点的视频的图像。具体端点的位置可能要根据视频会议会话的动态性，在会话期间在布局中发生变化。所述MCU确定在任何给定时间哪一个端点是音频源。这里所述的端点称为“发言端点”。应当注意在给定时间能够为多余一个的端点提供音频，因此可能存在多于一个的发言端点。所述MCU将音频发送到不同的端点，其中音频流得以区分，以强调音频流通过在最接近于发言端点的布局中的一个或者多个扬声器进行广播。

附图说明

通过阅读下面的描述并且参考附图，可以更加容易地理解本发明的示范性实施例，其中：

图1示出了在视频会议会话期间，在视频会议布局中的不同参会者的位置上的变化。

图2是示出了多媒体会议系统的组件的简单框图。

图3a是示出了非单声道音频端口组件的简单框图。

图3b示出了用于创建合成立体声效果的示例性的算法(参数)。

图4a是示出了在用于建立与端点的连接的示例性方法中的步骤的流程图。

图4b是示出了使用IVR(交互式语音响应)会话来调整非单声道端点的发言者的视频剪辑中的布局。

图5是一个流程图，其示出了在用于将音频源的位置调整到在视频中发生变化的位置的示例性方法中的步骤。

具体实施方式

本发明公开内容的一个方面是一种视频会议系统，其中端点用户能够享受在空间上进行了分辨的音频，即用户听到的音频将会来自音频源所在的显示屏上的位置。图2是示出了在多媒体会议系统200的常规拓扑结构中的组件的简单框图。会议系统200可以分别具有多个端点210a-n和多媒体线220a-n。会议系统200还具有多媒体线220q，网络230和视频控制单元(VCU)240。VCU240包括网络接口(NI)模块242，具有一个或者多个单声道音频端口262和一个或者多个非单声道音频端口264的音频模块260，具有控制线274、276、278的控制模块270，压缩视频线298，压缩音频线268和具有输入模块295、输出模块296的视频模块294。输出模块296中的每一个都可以包括一个编辑器299。

控制线274、276、278、视频线298、音频线268以及多媒体线220a-n和220q可以是分别特定设计的用于并专用用于携带控制信号，视频信号，音频信号以及多媒体信号。另选地，这些线路可由用于携带信号的通用缆线来构造。在本说明书中，控制线路274、276、278、视频线路298、音频线路268以及多媒体线路220a-n和220q除可以携带上述信号之外，还可以携带其他信号，例如，可以携带光学/电信号。这些线路中的每一个实际上都可以是如下的一种路径，即相应信号通过其传播的电路和/或部件的复杂阵列，或者可以是用于交换信息的通用存储缓存器。在通过这些线路中的任何线路连接的模块为软件部件实施例中，这些线路可以表示信息的交换。

在端点210a-n和VCU240之间传递的信息包括指示符、控制、音频信息、视频信息和数据。多媒体线220a-n将信息传送到网络230，以及多媒体线220q将信息传送到VCU240。

端点210a-n的任何组合都可以参与到任何指定的会议中。端点210a-n可以提供语音、数据、视频或者其组合。因此，根据端点的类型，端点210a-n可以具有用户控制设备212a-n，一个或者多个麦克风(microphone)214a-n，摄像机216a-n，显示屏218a-n，以及一个或者多个扬声器211a-n。每一个端点210a-n都可以包括这些部件的不同组合。通常，单声道210a具有一个扬声器211a和一个麦克风214a-n。立体声端点210b可以具有两个扬声器；右边的211br，和左边的211bl，以及分别在左右的一个或者两个麦克风214bL&214bR。端点可以具有超过两个扬声器，例如在四声道立体声中为四个扬声器。例如，端点可以具有扬声器(speaker)的二维阵列。

用户控制设备212a-n用作用户和端点之间的接口。用户控制设备212a-n例如可以是使用DTMF信号的拨号键盘(例如电话的小键盘)，可以使用除了DTMF信号之外的其他控制信号的专用控制设备，或者是使用ITU标准H.224和H.281的远端摄像机控制信令单元。在一个实施例中，用户控制设备212a-n为小键盘，和/或具有用于在会议图像(即与会议相关的图像)上定位光标或者移动会议图像位置的左、右、上、下箭头按键。作为选择，用户控制设备212a-n可以是在显示屏218a-n上表示虚拟键盘的软件。在又一个其他实施例中，用户控制设备212a-n可以包括DTMF生成器，诸如按键式电话的通用键盘和/或诸如用于电视机的遥控器。

麦克风214a-n使得在端点210a-n的用户能够在会议中发言，或者使得其他用户能够听到其声音或噪声。扬声器211a-n使得端点210a-n处的用户能够收听会议。在非单声道端点的情况下，诸如端点210b，所述两个或者多个扬声器211br和211bl能够根据显示屏218b上的谈话者的位置来提供位置感知。摄像机216a-n使得端点210a-n能够将实况视频数据(诸如与端点210a-n相关联的用户图像或者所显示的图像)供给会议。显示屏218a-n使得能够在端点210a-n处查看会议。缺少其中一个这样的部件的那些端点210a-n可能在他们能够参加会议的方式方面受限。

多个端点210a-n经由网络230连接到视频控制单元(VCU)240。VCU240例如可以是MCU或者媒体处理器。MCU是会议控制实体。在示范性的实施例中，MCU是位于网络230的节点处或终端中的一套设备，该终端从接入端口接收若干通道，并根据特定的标准对视听信号进行处理并将它们分布到所连接的信道中。例如，MCU是Polycom有限公司的产品MGC-100。网络230可以表示单网络或者两个或者多个网络的组合，诸如集成服务数字网络(ISDN)、交换电话网络(PSTN)、异步传输模式(ATM)、因特网和/或内部网。

作为本发明的VCU240的一个例子，下面的图形通常是指MCU。然而，媒体处理器(MP)可以用于替代MCU，并且可以在下面的讨论中替代MCU。

网络接口(NI)模块242可以是逻辑单元。逻辑模块或者逻辑单元是执行某种功能的模块或者单元。在该说明书中，术语逻辑模块、逻辑单元和这些术语的变型可交替地使用。逻辑模块可以包括一个或者多个元件，其可以是硬件和/或软件。逻辑模块可以位于一个实体中，或者在不同的实体上扩展，诸如但不限于数字信号处理、印刷电路板(DSP、PCB)、处理器或者计算机程序。NI242经由网络230从多个端点210a-n接收多媒体通信，并且根据诸如但不限于H.323、H.321、H.324、会话开始协议(SIP)和/或H.320这样的通信标准来处理多媒体通信。NI242将音频、视频、数据和控制流传送到VCU240的合适的元件。某些通信标准要求NI242的处理包括将输入的多媒体通信复用为音频、视频、数据和控制流。当把信息发送到端点210a-n时，NI242从VCU240的不同的单元接收独立流，并且根据相关的通信标准处理这些流。然后，NI242经由多媒体线220q将这些流传送到网络230，依次经由多媒体线220a-n将这些流发送到端点210a-n。例如，有关在端点和/或MCU之间基于不同网络进行通信的更多信息、以及用于描述信令、控制、压缩和如何建立视频调用的信息可以在国际电信联盟(“ITU”)标准H.320、H.321、H.323、H.324、H.324M、H.261和H.263、H.264、MPEG中找到；或者在SIP网站，3gpp.org中找到。音频压缩标准包括G.711、G.722、AMR、AMR-WB等。

音频模块260经由音频线268从NI242接收多个端点210a-n的压缩音频流。音频模块260处理被压缩的音频流，可以将相关的音频流(源自端点210a-n)混合，并且将已压缩的混合信号经由音频线268发送回NI242。将已压缩的音频发送回端点210a-n。被发送回每一个端点210a-n的音频流可以彼此不同，因为可以按照各个端点210a-n的不同需要，根据不同的通信标准对音频流进行格式化。例如，可以根据端点所具有的扬声器211a-n和当前视频显示屏等的数量对音频流进行格式化。作为另一个实例，被发送到特定端点的音频流可以不包括与该端点相关联的用户的语音，但可以将给语音包括在所有其他的音频流中。

作为一个示例性的实施例，音频模块260可以在其他的模块中包括至少一个单声道音频端口(MAP)262，至少一个单声道音频端口(NMAP)264，压缩音频通用接口(CACI)和解码音频通用接口(DACI)。CACI和DACI没有在图2中示出。CACI和DACI与两种音频端口(MAP262和NMAP264)类型相连，并且在MAP262和NMAP264的不同模块之间传送压缩音频或者解码音频。根据在端点处的扬声器的数量，MAP262或者NMAP264中的每一个都与端点相关联。每个音频端口都捕获经由NI242、音频总线268来自其相关端口的编码音频流。CACI解码所捕获的编码流并且基于DACI来处理解码流。

基于从控制模块270接收的命令和会议的当前状态，从DACI捕获一个或者多个属于不同参会者的合适的解码流。所捕获的解码流被处理、混合、编码并经由CACI发送到相关的端点。对所选编码音频流的操作取决于音频端口的类型，即音频端口是MAP262还是NMAP264。更多的有关MAP262操作的信息可以在美国专利公开Nos.2002/0123895，2002/0188731，2005/0069114和申请序列号No.10/909446中找到，上述全部内容在此并入作为参考。下面将结合图3a&b，图4和图5来描述NMAP264的更多的信息。

控制模块270可以是控制VCU240操作的逻辑单元。除了常规MCU的通用操作之外，作为含有控制模块270的结果，VCU240还能够处理其他的操作。特别是，在建立与端点210a-n中的每一个的连接期间，控制模块270可以确定为端点分配哪种类型的音频端口，根据确定的NMAP264需要多少扬声器通道，如何发送两个或者多个编码流(每个扬声器一个)，如何在不同的音频流中拆分CACI和DACI等等。在会议期间，基于布局类型和正在进行的有关各个参会者的声音活动性的信息，控制模块270可以指导视频模块290改变某个参会者在布局中的图像位置。因此，还可以将位置指令传送到NMAP264。下面将参照图3a&b，图4和图5来详细地描述控制模块270的某些独特的操作。

视频模块294可以是接收并发送压缩视频流的逻辑模块。示例性视频模块294可以包括一个或者多个输入模块295和一个或者多个输出模块296，其中输入模块295用于从参会的端点接收压缩输入视频流，输出模块296产生根据若干输入流进行编辑的已编辑压缩输出视频流，以便基于一个或者多个所选的布局形成一个或者多个表示会议的视频流。在图2中，输入模块295包括至少一个视频输入模块，但还可以包括任何数量的视频输入模块。例如，可以具有一个用于各个端点210a-n的视频输入模块。类似的，视频输出模块296可以包括任何数量的视频输出模块。例如，可以具有一个用于各个端点210a-n的视频输出模块。各个视频输出模块的编辑器299产生能够使多个端点210a-n的特定端点各不相同的显示布局。该布局和所选的布局中的参会者可以由控制模块270进行动态地控制。有关示例性视频模块294的更多的信息在US专利No.6300973和US专利申请No.10344762和US专利公开No.2003/0174202中进行了描述，其内容以引用的方式并入到这里。

现在参照图3a，非单声道音频端口(NMAP)300可以与具有两个或者多个扬声器210b(图2)的端点相关联。在其他的模块中，示例性的NMAP300可以使用非单声道编码器(NMC)310和非单声道桥(NMB)320。NMC310与CACI302和DACI304相连，而NMB320与DACI304相连。NMC310和NMB320二个单元都与控制模块270(图2)相连(在图3中没有示出)。

根据相关端点所具有的扬声器“k”的数量，NMC310可以包括一个或者多个解码器313a-g(根据由相关端点发送的输入流“g”的数量)和两个或者更多个编码器316a-k。对于立体声端点来说，NMC310典型地包括两个解码器313a&b，以及两个编码器316a&b；对于四声道立体声端点来说，编码器316a-d的数量通常为4个，而解码器的数量例如可以是两个313a&b或者4个解码器。示例性的NMB320可以包括分析和增强模块(A&E)322、交换器(选择器)324、流复制机325、复制机通用接口326、两个或者多个扬声器通道330a-k、与存储器(LUT)329相关联的控制单元(CU)328。扬声器通道“k”的数量取决于在相关端点处的扬声器的数量。各个扬声器通道可以包括延迟模块(DM)332、增益模块(GM)334、和混频器336。

CACI302和DACI304分别可以是诸如但不限于时分复用(TDM)总线、异步传输模式(ATM)总线、分组总线和/或共享存储器这样的通用接口。CACI302由多个在音频模块260(图2)中使用的多个MAP262和/或NMAP264共享。CACI302可以是音频总线268(图2)的延续。CACI302分别在不同的端点和它们相关的音频端口之间携带压缩音频流。DACI304由在音频模块260(图2)中使用的多个MAP262和/或NMAP264共享。DACI304在多个编码器(单声道或者非单声道)和多个桥(单声道或者非单声道)之间携带编码音频流。在某些示例性的实施例中，CACI302和DACI304可以共享相同的物理资源，例如它们可以共享相同的TDM总线或者相同的共享存储器。

在建立与其中一个非单声道端点的连接处理期间，适应于端点需求的NMAP300与端点相关联。端点的需求可以是扬声器的数量，音频流(麦克风)的数量，或者压缩参数，诸如但不限于编码算法、比特率等。有关在与NMAP302相关联的CACI302和DACI302中的位置的信息被传送到音频端口。该信息取决于CACI和/或DACI的类型。例如，如果通用接口为TDM总线，则该信息可以包括相关编码和解码流的时隙。如果通用接口为分组总线，则相关信息可以包括已编码和解码流的相关源和目的地的地址。对于共享存储器通用接口，相关信息可以包括在共享存储器中的不同队列的地址等。下面将结合图4来描述有关建立连接的更多的信息。

在会议期间，一个或者多个解码器313a-g从其相关的端点经由NI242、音频总线268(图2)和CACI302接收编码音频流。解码器313a-g根据由相关端点使用的压缩算法对已编码流进行解码。示例性的音频压缩方法包括，但不限于G.711、G.723、G.728、G.729和运动图像专家组(MPEG)音频压缩标准。所述一个或者多个解码流基于DACI304被放置在分配给相关解码器313a-g的时隙(地址)中。

NMB320的A&E模块322从DACI304接收已由不同端点创建的解码流。A&E模块322使用一组用于分析解码音频流的算法和用于增强其质量的流增强算法对已解码(或者解压缩)音频流执行流分析。示例性的增强处理例如包括根据国际电信联盟(ITU)G.165的回波消除、双音多频(DTMF)抑制等。可以在两个逻辑单元(分析单元和增强单元)之间来划分A&E模块322的功能性。流增强创建增强的音频信号。流分析创建诸如(但不限于)VAD(语音活动性检测)、信号能量和信号质量测量这样的控制信息。控制单元328从A&E模块322的流分析中接收控制信息，并且确定哪一个参会者(未示出)当前处于活动状态。基于该信息来创建控制指令，并且将其发送到VCU240(图2)的控制模块270、交换机324、存储器329和不同的扬声器通道330a-k。如果相关的端点传送了两个或者多个音频流，则可以复制A&E模块322的增强部分。可以通过不同的增强部分来增强各个音频流。作为选择，分析器部分可以将所述两个或者多个解码流组合为一个(仿真单声道端点)，并且分析组合后的流。

交换机324从控制单元(CU)328接收控制信息，并且从A&E模块322接收增强音频流。基于所述控制指令，交换机324根据由CU328作出的选择决定来选择并提供被选未压缩音频流的一组编号。所述选择决定可以基于不同的标准，例如会议的特征。会议的特征可以限定在不依赖某一参会者的音频流的VAD的情况下，就可以听到该参会者。另外的特征可以限定仅声音最大的谈话者将被听到，或者将选择4个声音较大的参会者的流等。

在所选端点210b(图2)传送两个或者多个音频流(例如左和右)的情况下，所述两个流由交换机324进行选择并且通过流复制机325进行复制。在扬声器通道330a-k中，对每个流进行处理，以仿真从端点(当其被放置在已编辑版本中时)发出的音频源图像的位置。

将所选的流传送到流复制机(SD)325，以便根据扬声器通道的数量“k”进行复制。流复制机325可以是由不同扬声器通道330a-k共享的通用接口。通道330a-k中的每一个重现被复制的属于所选参会者的音频流。通用接口可以是诸如TDM总线等这样的共享存储器接口。

在与相关端点建立连接期间，CU328接收涉及下述内容的信息，即端点处的扬声器数量及扬声器(右、左、上左、底右等)的生成位置、压缩算法、压缩参数、相关编码和解码流的CACI302和DACI304中的地址(时隙)、用于交换机324的流选择标准、开始视频布局和在开始布局中的相关参会者的开始位置。另外，CU328可以接收一组参数来创建符合音频源在显示屏上的位置及方向的合成音频。该组参数取决于布局和扬声器“k”的数量及它们相对于端点的位置。该组参数可以通过一组曲线示出，对于扬声器通道330a-k中的每一个来说，一条曲线用于幅度，而另外一条曲线用于延迟。该组参数(曲线)可以被存储到存储器(LUT)329中。

根据一个实施例，通过对幅度进行控制并使发送到一个扬声器的音频与另一扬声器相比而被延迟(相移)来创建位置感知。延迟和幅度取决于布局中的音频源的位置和端点处的扬声器(左/右)的位置。图3b中示出了用于立体声端点的一组示例性参数。图3b示出了被发送到扬声器通道330b的混频器336的音频流的延迟和衰减，与在左扬声器通道330b的输入处的音频流相比较，其与左扬声器相关联。

在图3b的上部340，在X:Y轴上设置对端点的显示。显示的宽度置于X轴上，而显示的高度置于Y轴上。显示的尺寸分别是W:H。图3b的350和360中示出了一组示例性的参数，该组参数用于左扬声器通道330b，并且可以用于创建位置感知。在中心(X＝W/2)左右的一组对称曲线350和360可以用于右扬声器通道330a(未示出)。根据该组示例性的参数，如果参会者的图像中心(Xi:Yi)位于所述中心处，或者位于所述布局的左侧(Xi≤W/2)，则其音频流的幅度和延迟将保持不变。所述延迟等于零，而幅度与左扬声器通道330b的入口中的幅度相同。其图像未被显示的参会者的音频流可以被处理，就好像其图像的中心位于布局的中心(W/2:H/2)。

如果参会者的图像中心(Xi:Yi)位于布局的右侧(Xi＞W/2)，则如线325所示其音频流的延迟增加。例如，如果Xi＝3/4W，则延迟大约为1/2D1。D1可能取决于端点(扬声器的位置和距离)。D1的通用值可以在大约几毫秒的范围内，例如大约3msec、5msec、9msec等。根据示例性曲线362，幅度可能要衰减。例如，如果Xi＝3/4W，则该幅度可以大约是在扬声器通道330b的入口处的相同参会者的信号幅度的70％。

本发明的其他示例性实施例也可以实现用于处理相关音频流的“与Head相关的传送功能”，以便对音频流的源的显示器上的位置进行模拟。

如果其中一个所选参会者传送立体声音频(输入到MCU的左输入流和右输入流)，则每个流都要被复制并传送到扬声器通道330a-k的其中一个。各个扬声器通道不同地处理左复制流和右复制流。例如，在左扬声器通道330a中的右复制流可能被延迟，并且相对于左复制流而衰减，反之亦然。在另一个实施例(在图中未示出)中，在两个或者更多个解码器313a-g的输出端处的解码流被组合为仿真单声道输入解码流的一个流。所述单声道输入解码流被放置到DACI304上。根据这一点，对来自立体声端点的输入音频作为单声道输入进行处理。

根据端点的类型，一个实施例包括具有多个不同曲线350和360的数据库。这些曲线可以由厂商预先准备，和/或可以由操作员进行修改。其他的示范性实施例可以保存一组不同的曲线，这些曲线已经由用户根据它们在数据库中的优先选择进行了准备和调整。这些曲线可以在日后与相关端点的连接中再次使用。因为布局的数量和在各个布局中图像数量的限制，在各个曲线中的点数也同样受限。因此，创建并管理具有多条曲线的数据库是能够实现的。

其他的实施例可以仅控制幅度，而忽略延迟或者控制延迟而忽略幅度。另外的实施例可以使用其他的曲线。例如，可以使用这样一组曲线，即从显示屏中心(W/2:W/2)之外的点开始，沿着显示屏的整个宽度(从点O:O到W:H)影响延迟和幅度。

如果一个端点具有4个扬声器，即在显示屏的每个角落都有一个，则该方法可以处理左边一对扬声器的信号和右边一对扬声器的信号，就像该端点仅具有两个扬声器一样，一个在左侧而一个在右侧。然后，确定是使用上部扬声器还是底部扬声器还是二者都使用。该决定是基于Hi的一个值作出的。如果Hi＞H/2，则可以使用上部扬声器，而且下部扬声器的信号增益被设置为零。如果Hi＜H/2，则可以使用下部扬声器，而且上部扬声器的信号增益(在相关的GM336中)被设置为零。如果Hi＝H/2，则使用两个扬声器，而且上部扬声器的信号增益等于下部扬声器的信号增益。其他的示范性实施例可以使用其他的方法来处理4个扬声器。例如，4个扬声器通道330a-d中的每一个都可被用于各个扬声器。由曲线350和360示出的相似参数组可用于高度而不是宽度，值‘W’可由“H”值来代替。轴“X”可以由“Y”来代替。

现在返回到图3a中的扬声器通道330a-k，延迟模块(DM)332可以是先进先出(FIFO)存储器集合；每个由交换机324选择的且由流复制机325复制的所选流(对于单声道输入参会者，‘i’；对于立体声端点，将是两个流“iL”和“iR”)一个存储器。读命令相对于写命令要延迟。针对各个FIFO(所选流，‘i’或者‘iL&iR’)的延迟可以是Di或者DiL和DiR。Di或者DiL和DiR的值取决于参会者‘i’图像中心在布局中的位置Xi:Yi，以及通道330的相关的扬声器(如上面结合图3b所公开的)。Di或者DiL和DiR的值经由控制单元CU328从LUT329重新获得，和/或当所选的会议变化时，在会议期间动态地发生改变。

增益模块(GM)334可以是一组乘法器，每个由交换机324选择的且由流复制机325复制的所选流(对于单声道输入参会者，‘i’；对于立体声端点，将是两个流“iL”和“iR”)一个乘法器。每个所选的流都与因子Mi或者Mil和MiR相乘。Mi或者MiL和MiR的值取决于参会者‘i’图像中心在布局中的位置Xi:Yi，以及通道330的相关的扬声器(如上面结合图3b所公开的)。Mi或者MiL和MiR的值通过CU328从LUT329重新获得，和/或当所选的会议变化时，在会议期间动态地发生改变。

通过混频器336来捕获并混合GM334处的流。各个扬声器通道330的混合音频被放置在与相应通道330a-k相关联的地址(时隙)中的DACI304上。每个编码器316a-k都从DACI304接收经解码的混合流，该混合流由相应的扬声器通道330a-k进行处理并混合，并且将目标定为相关的端点。不同所选流的操作是基于端点中的相关扬声器的位置和布局中相关音频源的位置。例如，与右扬声器211br(图2)相关联的编码器316a接收已由扬声器通道330a创建的已解码混合流。扬声器通道330a处理所选流，以模拟要由用户听到的它们的源在布局中的位置。上面描述的音频信号的处理可以概括为产生如下的音频流，区分该音频流以强调通过与讲话者端点的布局位置最接近的一个或者多个扬声器来进行音频流的广播。

基于已分配给该流的时隙(地址)中的CACI302来放置编码流。在可替换的实施例(未示出)中，可以将MUX添加到NMC310。MUX可以从编码器316a-k收集两个或者多个编码流，并且传送一个组合的编码流。例如，所述组合编码流包括来自一个编码器316a的编码帧，之后是来自另一个编码器316b的编码帧。在合适的时隙(地址)，将所组合的编码流放置到CACI302上。

在会议期间，CU328能够接收命令来放置某一所选的音频源。该命令可以包括有关在布局中新音频源的位置的信息。根据该信息，CU328能够从LUT329重新获得一组用于Di和Mi的值，用于扬声器330a-k中的每一个的Di和Mi对。然后，与被发送到交换机324的用于选择新音频源的命令并行地将适当的(参数)组加载到各个通道330的DM332和GM334中。

图4示出了表示在用于建立与端点的连接的示例性方法400中的步骤的流程图。方法400可以通过控制模块270(图2)和相关的控制单元(图3)来实现。一旦启动VCU240(图2)和端点210a-n之间的连接，方法400就可以开始402。一旦开始，方法400就可以从端点重新得到402相关的参数。这些参数可以是端点处扬声器的数量、压缩算法、端点发送的音频流的数量(即左输入音频流和右输入音频流)等。在410处确定端点是单声道端点还是非单声道端点。在410如果端点是单声道端点，则分配412一个单声道音频端口262(图2)，以服务该端点，同时方法400进入到414通用连接建立处理过程中。在设置414结束处，通用连接方法400终止。

在410如果端点是非单声道端点，则除了别的参数之外，VCU收集一组非单声道参数416。该组非单声道参数可以包括扬声器的数量、端点发送的音频流的数量(即左输入音频流和右输入音频流)、优选的立体声参数集(如果存在的话)、以创建与音频源在显示屏上的位置和方向相关联的合成音频、用于传送其他音频流的通信协议。示例性的通信协议可以针对压缩视频的各个帧进行定义，即右(输入音频)流将在左(输入音频)流之后。

基于所收集的信息，控制模块270(图2)分配416与所述端点相关联的非单声道音频端口资源。另外，还可以分配一组有关CACI302和DACI304(图3)的时隙/地址。非单声道端口可以包括合适的单声道编解码器310和合适的NMB320。非单声道编解码器310包括用于各个输入流的解码器和多个编码器。编码器的数量‘k’等于端点扬声器的数量。NMB310包括‘k’个扬声器通道330。编码器类型与端点的压缩标准相匹配。

在分配给416合适的非单声道音频端口300之后，将有关当前布局的信息、用于交换机324的初步选择音频流(参会者)的流选择标准、和最初的立体声参数组经由CU328加载到LUT329中。可以以不同的方式来选择最初的立体声参数组。例如，如果VCU具有包含多个立体声参数集的数据库，就要检索与相关端点相关联的一组参数，所述相关端点可以由序列号、用户名等识别。如果存在这样一组参数，则与最初的参数集一样进行加载。如果在数据库中不存在这样一组立体声参数，则可以选择符合所述端点类型的一组通用立体声参数。如果不存在这样一组通用参数，则选择并加载与多个扬声器匹配的一组默认参数。

将有关CACI302或者DACI304的地址/时隙通知给各个相关模块(一个或者多个解码器313a-g，A&E，DM332和编码器316a-k)，其中相关的音频流来自或到达CACI302或者DACI304。基于在各个所选参会者流的布局中的位置信息，将各个所选参会者流的Di(延迟)和Mi(增益因子)的合适值加载到相关的DM332和GM334上。根据与扬声器相关联的位置，从LUT329检索这些值，所述扬声器与包括有相关DM332和GM334的扬声器通道330相关联。因此，非单声道音频端口已准备开始处理来自其相关端点的音频/发送到其相关端点的音频。

在420处，确定是否需要调整不同扬声器的音频的处理。该确定是基于被加载的初始立体声参数集的类型而作出的。如果被选择的初始立体声参数集与相关端点相关联，则不必再次进行调整，同时方法400可以终止442。如果初始立体声参数集是普通的，则可能需要进行个性化调整，同时方法400进入到步骤422，以调整Di和Mi的不同值。

在步骤422，可以伴随着IVR(交互式语音响应)来启动示例性调整的视频剪辑(video clip)。正如下文所使用的，视频剪辑例如包括动画制作。可以将多个视频剪辑存储到与控制模块(图2)相关联的数据库(未示出)中。视频剪辑举例说明了具有多个参会者的视频会议。布局可能取决于端点所具有的扬声器数量。参照图4b，布局450举例说明了具有两个扬声器(一左一右)的立体声端点的示例性布局。因此，布局450包括一个参会者C1，在其他4个参会者中间(L1、L2、R1和R2)，在显示屏的每一边都有两个参会者。L1&L2位于显示屏的左侧，而R1&R2位于显示屏的右侧。其他的示例性布局也可以用于调整立体声参数集。其他的实例(未示出)可能在每一侧包括4个参会者。其他的示例性方法400可以使用布局的组合(未示出)。另一示例性方法400可以以每侧一个参会者这样的粗设置开始，而后是每侧两个参会者的较细布局，并且可以以每侧4个参会者的最细布局终止。另外的示例性方法可以针对中间位置(例如在L1和L2之间)来估计Di和Mi的值，例如该估计是通过使用L1与L2的适当值之间的内插值、或者如果与L1相比较图像的中心更接近于显示屏的中心或者与L2相比较更接近于左边，则使用外插值(extrapolation)。

布局460举例示出了一种针对具有4个扬声器的端点的示例性布局，在端点的每个拐角处具有一个扬声器。布局460包括：在中心处的一个参会者C11；在显示屏的第一行的每侧的两个参会者，其中L1T和L2T位于显示屏上部的左侧，而R1T和R2T位于显示屏上部的右侧；在显示屏的最后一行的每侧的两个参会者，其中L1B和L2B位于显示屏底部的左侧，而R1T和R2T位于显示屏底部的右侧；在显示屏的每个中间高度处的两个参会者，L2MU位于显示屏中间的左侧，而R2MU位于显示屏的中间的右侧；L2MD位于显示屏的中间靠下的左侧，而R2MD位于显示屏的中间靠下的右侧。

其他的实例(未示出)能够在每一侧和每个高度包括四个参会者。其他的示例性布局能够用于调整针对4个扬声器的参数的设置。其他的示例性方法400可以使用布局的组合(未示出)。另一示例性方法400可以以每一侧和每一个高度处具有一个参会者的粗设置开始，而后在每一侧和每一个高度处具有两个参会者的较细的布局，并且可以以每一侧和每一个高度具有4个参会者的最细布局终止。

以如下一种方式来设计示例性的视频剪辑，即使得能够容易地设置参数以便匹配在显示屏上的位置和声音的方向。一种示例性的剪辑可以包括多个会话，其中每个会话专用于某一个会议(布局中的位置)，在会议期间，仅相关的参会者发言。该会话可以循环进行，直到从用户接收到指令为止。在另外一种示例性剪辑中，可以显示用于标记当前发言者的指令。伴随有视频剪辑的IVR会话指导用户并且收集其优先选择(设置)。

在启动了视频剪辑之后，从步骤430到440开始循环。该循环在布局中的每一个参会者上运行。用于立体声端点的示例性循环可以从位于中心的参会者C1开始430。其他的示例性循环可以从边缘开始到中心。在各个参会者的会话开始时，会话可以以相关Mis和Dis的先前设置开始432，如果它们存在的话。如果它们不存在，则会话可以以默认设置开始。然后，IVR会话在该会话期间通知用户某一个会议正在进行，并且指导该用户调整与该会议相关的设置的操作。例如针对适当的参会者，可以指导该用户按压“3”来增加幅度；‘9’来降低幅度；‘1’增加延迟；以及‘7’降低延迟。一旦达到合适的设置，用户可以按压‘0’并且移动到下一个会议，或者可以按压‘*’返回到先前的步骤等等。

例如，可以经由DTMF信号将用户选择传送到VCU。基于该选择，重新计算并改变相关延迟(Di)和相关乘法器因子(Mi)。相关的Di和Mi是与布局中的当前参会者“i”和合适的扬声器通道的位置相关联。步骤432继续进行，直到接收到表明当前第“i”个参会者的设置满意的指示为止，例如当接收到‘0’时。保存最终的设置434。该设置可以被保存在LUT329(图3)中，以便在该会议期间使用。同时，可以将该值保存在与日后的会议中使用的控制模块270(图2)相关联的数据库中、和/或保存在日后会议使用的端点中

在步骤440，确定未进行调整的布局中是否存在一个会议。如果存在，则方法400继续上述循环并且返回到步骤430，用于处理布局中的随后的会议。如果没有额外的会议，则方法400可以终止442。在本发明的另选实施例中，如果在440没有另外的参会者，则可以向用户发问，请求其确定是否终止所述循环，或者重新开始以进行更细的调整或者再检查。基于用户的确定，方法400可以终止442，或者方法400可以返回到步骤430，并且利用在先前循环中进行的设置来开始循环。

图5是表示在示例性方法500中的步骤的流程图，在该方法中，使得音频源的位置适应在会议期间存在的布局中的变化。一旦接收到在布局中进行改变的指示，方法500就能够启动502。该指示可以包括一组新的参会者和它们在显示屏(布局)上的位置乃至新的布局结构。该指示可以从控制模块270(图2)发送到控制单元328(图3)。例如，存在的参会者的数量可以从4个参会者(图1中示出的2x2布局)变为5个参会者的布局(如布局450的结构所示，图4b)。该指示还可以包括分别用于Di和Mi350&360(图3b)的匹配新的布局结构的、新的参数集(曲线)。这些参数集可以取代LUT329(图3)中先前的参数。在可替换的实施例中，在LUT329中的该组参数没有发生变化，而且如果某参会者‘i’的中心(Xi:Yi)在LUT329中不存在，则从LUT329中重新获取最接近于Xi和Yi的一个或者两个位置，并且使用取决于所述一个或者两个最接近点(与Xi和Yi相比较)的位置的内插值和外插值来估计Di和Mi的值。其他的方法能够使用存在于LUT329中的最接近于Xi和Yi的位置。

在步骤520，可以针对已经由将被混频的交换机324(图3)选择的其中一个参会者来启动循环。该选择标准可以或者不必取决于当前的布局。上面已经公开了示例性的选择标准。从利用有关布局中变化的指令接收的信息中重新获得522循环中的当前会议的中心位置Xi:Yi。如果循环中的当前会议当前没有被显示，则方法500将该会议的位置当作布局的中心。因此，非显示会议的中心位置为Xi＝W/2以及Yi＝H/2。

基于循环中的当前会议的当前布局中的图像的Xi&Yi，从LUT329(图3)中重新获取针对各个扬声器通道330a-c的合适的Di和Mi，或者基于一个或者多个从LUT中重新获取的最接近的值进行评价。Di和Mi值被加载524到合适的延迟模块332(图3)和增益模块334(分别)，这些模块用于处理在各个扬声器330a-c中的参会者‘i’的流。

在设置了所有扬声器通道330a-c的Di和Mi值之后，在530确定是否在循环中存在更多的需要对扬声器通道进行设置的会议。如果是，则方法500继续该循环并且返回到步骤520，以便针对随后的会议‘i+1’来处理在各个扬声器通道330a-c中的Di+1和Mi+1的设置。如果530没有更多请求设置的参会者，则而后500终止532，并且NMB320(图3)被设置并准备传送合成非单声道混合音频，其根据当前显示屏、布局上的位置给出了语音的位置感知。

本领域的普通技术人员应当理解，能够以其他驻留在用于执行这里所公开方法的MCU上的软件形式、其他添加到MCU上的硬件或者在MCU中分布的其他软件或者硬件来实现当前公开的内容。

应当理解上面描述的方法可以进行多种形式的变化，包括改变步骤的顺序，以及改变所使用的原样的实施。还应当理解上面描述的方法和装置被解释为包括用于执行所述方法的装置和使用该装置的方法。

上述实施例包括不同的特征，并非在所有本发明的实施例中都要求这些特征。本发明的某些实施例仅使用某些特征，或者特征的可能组合。对上述实施例中提到的特征的进行不同组合对本领域的普通技术人员来说是显而易见的。

Claims

1、一种用于控制在多点视频会议中的第一端点的方法，所述第一端点包括多个在空间上相对屏幕进行排列的扬声器，包括：

从多个端点接收音频和视频图像信号；

根据音频信号进行评价，其中所述多个端点包括一个发言端点；

为第一端点产生视频布局，所述布局将来自一个或者多个所述多个端点的视频图像定位到布局中的不同位置；以及

为第一端点产生多个音频流，所述多个音频流中的每一个相应于所述多个扬声器的其中一个，

其中所述音频流得以区分以便产生一个感知，其中所述音频流从相应于来自发言端点的视频图像的布局中的位置发出。

2、根据权利要求1的方法，其中所述发言端点并没有显示到屏幕上，并且其中所述音频流得以区分，就好像来自发言端点的所述视频图像位于布局的中心位置。

3、根据权利要求1的方法，其中通过音量来区分音频流，以使得与通过接近于来自布局中的发言端点的视频图像位置的扬声器广播的音频流相比较，通过远离来自布局中的发言端点的视频图像位置的扬声器广播的音频流被衰减。

4、根据权利要求1的方法，其中音频流得以区分，以使得与通过接近于来自布局中的发言端点的视频图像位置的扬声器广播的音频流相比较，通过远离来自布局中的发言端点的视频图像位置的扬声器广播的音频流被延迟。

5、根据权利要求1的方法，其中所述区分是通过第一端点的用户可调整的。

6、根据权利要求1的方法，对所产生的多个音频流进行多路复用。

7、根据权利要求1的方法，其中来自视频布局中的发言端点的视频图像的位置在视频会议期间发生变化。

8、一种用于向多点视频会议中的第一端点提供音频位置感知的方法，所述端点包括多个扬声器，所述方法包括：

向所述第一端点提供多个音频流，所述多个音频流中的每一个相应于所述多个扬声器中的其中一个；

其中所述音频流得以区分，以便强调通过最接近于视频会议布局中的发言端点的位置的一个或者多个扬声器来广播所述音频流。

9、根据权利要求8的方法，在向所述第一端点提供多个音频流之前，还包括：

从所述发言端点接收一个或者多个音频信号；

获取有关在视频会议布局中的发言端点位置的信息；

根据所述在发言端点布局中的位置的信息，处理所述一个或者多个音频信号，以便在音频通道中形成音频流，每个音频通道都与所述第一端点的其中一个扬声器相关联。

10、根据权利要求8的方法，其中所述发言端点并未在布局中显示，而且其中对所述音频信号进行处理，就好像所述发言端点位于显示屏的中心。

11、根据权利要求8的方法，其中通过音量来区分音频流，以使得与通过接近于来自布局中的发言端点的位置的扬声器广播的音频流相比较，通过远离来自布局中的发言端点的位置的扬声器广播的音频流被衰减。

12、根据权利要求8的方法，其中音频流得以区分，以使得与通过接近于来自布局中的发言端点的位置的扬声器广播的音频流相比较，通过远离来自布局中的发言端点的位置的扬声器广播的音频流被延迟。

13、根据权利要求8的方法，其中所述区分是通过第一端点的用户可调整的。

14、根据权利要求8的方法，对所提供的多个音频流进行多路复用。

15、根据权利要求8的方法，其中在视频会议布局中的发言端点的位置在视频会议期间发生变化。

16、根据权利要求8的方法，还包括调整所述第一端点的扬声器。

17、根据权利要求8的方法，还包括提供用于调整所述第一端点的扬声器的交互式语音响应(IRV)会话。