CN102282847A

CN102282847A - 用于远程会议的多视频相机处理

Info

Publication number: CN102282847A
Application number: CN2009801550063A
Authority: CN
Inventors: 约瑟夫·T·福瑞尔; J·威廉·穆澈利
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2008-11-20
Filing date: 2009-11-11
Publication date: 2011-12-14
Anticipated expiration: 2029-11-11
Also published as: US20100123770A1; US8358328B2; CN102282847B; EP2368364A1; EP2368364B1; WO2010059481A1

Abstract

一种方法、装置和存储介质，该存储介质具有执行方法的可执行代码，该方法包括接受远程会议中的至少一些参与者的相机视图，每个视图来自对应的视频相机，这些相机视图一起包括每个参与者的至少一个视图。该方法包括接受来自多个麦克风的音频，并且处理来自所述多个麦克风的音频以生成音频数据和指示在麦克风处接收的声音的方向的方向信息。该方法还包括生成一个或多个候选人视图，每个人视图是包含至少一个参与者的头部和肩部视图的区域。该方法还包括根据所述方向信息选择所述候选人视图中将被发送给一个或多个远程端点的至少一个人视图。

Description

用于远程会议的多视频相机处理

相关申请

本申请要求2008年11月11日提交的美国专利申请No.12/275,119的优先权。

技术领域

本公开一般涉及视频会议系统。

背景技术

当今的视频会议系统已提高了质量以提供远程的会议参与者在场的感觉。因此，它们通常被称为“遥现系统(telepresence system)”。一个示例是思科系统公司的CISCO CTS3000遥现系统。在被设置用于这样的视频会议系统的视频会议室中，座位是固定的。相机具有固定的焦点、变焦和角度，以在相匹配的视频显示器上以实物大小的“特写”再现每个成员。

客户具有他们想要用于遥现会议的其它会议室。在这些房间中，座位可能对于每个会议显著不同。

一些现有的遥现系统使用实际云台(pan-tilt-zoom，PTZ)和/或电子PTZ(EPTZ)相机。无论是实际云台还是电子的，相机都必须由人来手动操控以获得良好的视图。当这对于一个相机较麻烦时，在多相机情形中就变得难以应付了。因此，希望使用自动地找出每个参与者的良好特写人视图的多个相机。

附图说明

图1A示出了根据本发明实施例的将三个相机用于视频会议的会议室的第一示例布置的俯视图。

图1B示出了根据本发明实施例的将两个相机用于视频会议的会议室的第二示例布置的俯视图。

图1C示出了根据本发明实施例的将三个相机121、123和125用于视频会议的第三示例的俯视图。

图2示出了例如可应用于图1A所示的参与者的布置的本发明一个实施例的简化功能框图。

图3示出了例如可应用于图1B和图1C所示的参与者的布置的本发明一个实施例的简化功能框图。

图4示出了根据本发明实施例的用于操作处理系统的方法实施例的流程图。

图5示出了根据本发明实施例的用于操作处理系统的另一方法实施例的流程图。

图6示出了根据用于视频远程会议的典型会议室中的广角相机视图的示例的照片的素描图。

图7示出了根据本发明实施例的根据来自显示屏一侧上的相机的示例广角相机视图的照片的素描图。

图8示出了根据本发明实施例的根据来自与图7所示的相对的显示屏一侧上的相机的示例广角相机视图的照片的素描图。

图9示出了根据本发明实施例的在图6和图7所示的示例中根据将被发送给远程端点的人视图的照片的素描图。

图10示出了包括远程会议终端的远程会议系统的简化框图，该远程会议终端包括本发明的实施例并被耦合到还与至少一个端点相耦合的网络。

具体实施方式

概述

用在标准会议室中的传统远程会议系统通常示出广角群组人视图。

这里描述了具有适应于房间中多个人的座位的视频相机的远程会议系统。一个或多个广角相机捕获例如桌子周围的参与者的广角相机视图。在一个实施例中，每个脸部通过音频和视频信息的组合被定位。人的镜头被构成或被选择，就好像存在每个都产生人视图的一组“虚拟”特写相机一样。由虚拟相机生成的人视图然后被用在远程会议中，例如使用多个显示屏的远程会议中。该系统不要求固定的座位布置，因为其自动地分析场景以及虚拟电子云台相机捕获正确的“头部和肩部”人视图的位置。该系统的实施例可以产生一个或多个视频输出流，每个视频输出流包含一个或多个人而不要求固定的座位布置。

一些实施例的特征是该系统可以被动态地部署。即，不需要将其永久地安装在特定位置中，而是可被移动到任何方便的房间。

因此，本发明的实施例包括可以将电子云台功能和多种视图能力添加到简单遥现系统中的装置和方法。

特定实施例包括一种装置，该装置包括多个视频相机，每个视频相机被配置为捕获会议中的至少一些参与者的各个相机视图。这些相机视图一起包括每个参与者的至少一个视图。该装置还包括多个麦克风以及音频处理模块，该音频处理模块被耦合到多个麦克风并被配置为生成音频数据和指示在麦克风处接收的声音的方向的方向信息。该装置还包括构图(composition)元件，被耦合到视频相机并被配置为生成一个或多个候选人视图，每个人视图是包含至少一个参与者的头部和肩部视图的区域。该装置还具有视频指导器(director)元件，被耦合到构图模块和音频处理模块，并被配置为根据方向信息选择候选人视图中将被发送给一个或多个远程端点的至少一个人视图。

在该装置的一个版本中，相机被设置为各自生成候选人视图。构图元件被配置为根据方向信息选择将被发送给一个或多个远程端点的至少一个相机视图。此版本中的该装置还包括：视频选择器元件，被耦合到视频指导器和视频相机，并被配置为根据视频指导器的选择来切换到相机视图中用于压缩和发送到一个或多个远程端点的至少一个相机视图。

该装置的其它版本还包括脸部检测元件，被耦合到相机并且被配置为确定每个相机视图中每个参与者脸部的位置并且将所确定的(一个或多个)位置输出给构图元件。这些版本中的不必是人视图。构图模块经由脸部检测元件被耦合到相机，并且还被配置为根据所确定的脸部位置来生成一个或多个候选人视图并且向视频指导器输出候选视图信息，每个候选人视图是包含至少一个参与者的头部和肩部视图的区域。在这些版本中，视频指导器还被配置为根据视频指导器的选择来输出所选视图信息，并且该装置还包括：电子云台元件，被耦合到视频指导器和视频相机，并被配置为根据所选视图信息来生成与候选视图中用于压缩和发送给一个或多个远程端点的至少一个候选视图相对应的视频。

每个参与者出现在仅一个人视图中，或者每个参与者可能出现在多于一个人视图中，在此情况中，构图元件包括被配置为构成人视图的第一构图元件以及被配置为从所构成人视图中选择候选人视图的第二构图元件，以使得每个参与者出现在仅一个候选人视图中。

特定实施例包括用于操作处理系统的方法。该方法包括接受会议中的至少一些参与者的多个相机视图。每个相机视图来自对应的视频相机，这些相机视图一起包括每个参与者的至少一个视图。该方法包括接受来自多个麦克风的音频，并且处理来自多个麦克风的音频以生成音频数据和指示在麦克风处接收的声音的方向的方向信息。该方法还包括生成一个或多个候选人视图，每个人视图是包含至少一个参与者的头部和肩部视图的区域。该方法还包括根据方向信息选择候选人视图中将被发送给一个或多个远程端点的至少一个人视图。

在一个版本中，所接受的相机视图各自是候选人视图，并且该方法还包括：响应于所作的选择，切换到所接受的相机视图中用于压缩和发送到一个或多个远程端点的至少一个相机视图。

其它版本包括检测相机视图中的任何脸部并且确定每个相机视图中每个所检测脸部的位置。在这些版本中，相机视图不必是人视图，并且一个或多个候选人视图的生成是根据所确定的脸部位置来进行的，以使得每个候选人视图是包含至少一个参与者的头部和肩部视图的区域，该生成确定了候选视图信息。此外，根据方向信息作出选择包括根据所作的选择来提供所选视图信息。这些版本包括根据所选视图信息来生成与候选视图中用于压缩和发送给一个或多个远程端点的至少一个候选视图相对应的视频。

在一种情况中，每个参与者出现在仅一个人视图中。在其它情况中，每个参与者可能出现在多于一个人视图中，并且用于这些版本的方法还包括：构成可能的人视图，并且从所构成的可能人视图中选择候选人视图，以使得每个参与者出现在仅一个候选人视图中。

特定实施例包括用于操作处理系统的方法。该方法包括：对于来自房间中的对应视频相机的多个相机视图，检测相机视图中的任何脸部；确定该房间中参与者的位置；确定哪个脸部或哪些脸部在多于一个相机视图中；对于一个或多个相邻脸部的每个子群组，构成人视图；为每个单独参与者选择各自的人视图；将每个人视图映射到所确定的语言方向，这样的每个所确定语言方向被与人视图之一相关联；以及选择用于发送给远程端点的一个或多个人视图，以使得被选择用于发送的人视图的视频能被形成。

在某个这样的方法中，当语音方向改变时，该方法包括根据声音方向在人视图之间进行切换。

特定实施例包括一种在其上编码有可执行指令的计算机可读介质，当可执行指令被处理系统的至少一个处理器运行时，使得执行方法。该方法包括：对于来自房间中的对应视频相机的多个相机视图，检测相机视图中的任何脸部；确定该房间中参与者的位置；确定哪个脸部或哪些脸部在多于一个相机视图中；对于一个或多个相邻脸部的每个子群组，构成人视图；为每个单独参与者选择各自的人视图；将每个人视图映射到所确定的语言方向，这样的每个所确定语言方向被与人视图之一相关联；以及选择用于发送给远程端点的一个或多个人视图，以使得被选择用于发送的人视图的视频能被形成。

特定实施例可以提供这些方面、特征或优点中的所有、一些，或者不提供。特定实施例可以提供一个或多个其它方面、特征或优点，本领域技术人员可以从这里的附图、描述和权利要求容易地清楚其中的一个或多个。

实施例

本发明的实施例使用两个或更多个广角相机，例如，高清晰视频相机。一些实施例和电子云台适用于具有脸部检测的相机视图中的一种或多种，以确定一个或多个特写视图，参与者中的一个或多个(例如，两个或三个)中的每个的特写视图。

图1A示出了根据本发明第一实施例的其中三台相机121、123和125被用于视频会议的会议室的第一示例布置的俯视图。至少一个显示屏127位于会议室的一端处，在该会议室中放置有桌子111。图1B示出了根据本发明实施例的其中两台相机121、123被用于视频会议的会议室的第二示例布置的俯视图，而图1C示出了三台视频相机121、123和125被使用的第三示例的俯视图。显示器通常在横向上示出并排的实物大小的垂直放置的一个或两个人，以使得他们眼睛的图像与房间中的人在相同高度上。该桌子是典型的会议室桌子，其可以是细长形桌子，例如，如图1A所示的矩形桌子或者如图1B和图1C所示的椭圆形桌子。图1A中的参与者101、102、103、104、105、106和107以及图1B和图1C的每个中的参与者101、102、103、104、105、106、107、108和109围着桌子。多个相机被用在交叉射击(cross-fire)布置中以提供广角相机视图，在一些布置中，例如，在图1B和图1C的布置中，这些广角相机视图相重叠以使得每个参与者在至少一个视图中。在图1A中，每个参与者恰好位于一个相机视图中，而在图1B或图1C的布置中，可能有位于多于一个视图中的至少一个参与者。此外，相机被调整角度以使得每个参与者的脸部在至少一个广角视图中。因此，例如，如果有位于桌子相对侧的参与者，则通过调整相机的角度，每个这样的参与者的脸部都在至少一个视图中。

使用尤其是配置有高清晰视频相机的房间的现代视频会议系统通常被称为遥现系统，因为它们在至少一个显示屏上为桌子周围的参与者提供远程参与者的实物大小图像，就好像远程参与者在场一样。显示器通常在横向上示出并排的实物大小的垂直放置的一个或两个人，以使得他们眼睛的图像与房间中的人在相同高度上。一种机制是设置以放射状方式位于房间中的各处并被固定的或者相隔一定距离并且彼此平行地定向并且与(一个或多个)显示器垂直的多个相机的视频会议室，使得当参与者坐在会议桌周围时，适合于显示在远程屏幕上的每个参与者的头部和肩部的人视图被获得以产生一个或多个参与者出现在远程位置处的印象。

本发明实施例的一个特征是提供与按照被布置来捕获广角视图的角度设置在(一个或多个)显示屏附近的多个相机的便宜布置(如图1A-1C的示例布置所示)相同的效果。在一个示例中，相机在显示器附近，其中两个相机接近显示器的两侧，并且如果有第三个相机(或仅一个相机)，则使其直接位于相对于显示器的中心。这些相机近似地位于参与者眼睛的水平面上，并且在一个示例中，可以离显示器的任一侧18英寸。

图2示出了例如可应用于图1A所示的参与者的布置的本发明一个实施例的简化功能框图。多个相机203被布置为使得每个相机视图示出并排的实物大小的两个或最多三个人，其中多个相机203例如是高清晰视频相机，其每个提供至少600行的视频的分辨率，例如，每秒60帧的的1920×1080。在一个实施例中，每个相机具有固定的广角视图。针对坐在桌子111旁边的参与者来布置景深(depth of field)，以使得对于每个参与者，至少有一个相机具有对准焦点的参与者的脸部视图。

在第一版本中，逐个相机地调节分幅(framing)以使得每一幅适合于参与者的头部和肩部的人视图，该人视图适合于显示在远程屏幕上以产生一个或多个参与者出现在远程位置处的印象。每个相机视图具有一个、两个或者可能的三个参与者。在这样的实施例中，每个参与者出现在一个且仅一个相机视图中。相机被布置为使得出现在相机的人视图中的两个或三个参与者不会明显地彼此遮挡。特定参与者通过这样的相机位置来捕获，该相机位置离该参与者最远，也是最靠近该参与者的“正面”人视图的位置。在第一版本中，逐个相机地调节分幅以使得相机视图具有已经被分幅成适合于人视图的一个、两个或者可能的三个参与者。

在第二版本中，不必逐个相机地调节分幅以使得相机视图是人视图。可能需要一些额外的构图。相机再次被布置为使得出现在相机视图的(一个或多个)人视图中的两个或三个参与者不会明显地彼此遮挡。这些人视图使得每个人出现在仅一个人视图中。特定参与者通过这样的相机位置来捕获，该相机位置离该参与者最远，也是最靠近该参与者的“正面”人视图的位置。由于在此第二版本中，分幅可能不一定是适合于显示在远程屏幕上以产生一个或多个参与者出现在远程位置处的印象的、参与者的头部和肩部的人视图，因此电子构图被执行来实现这样的功能。

在这两个版本中，定向麦克风子系统包括例如被布置为麦克风阵列的两个或更多个麦克风113，以及音频处理模块209，该音频处理模块209被耦合到麦克风并且被配置为生成音频数据和指示在麦克风处接收的声音的方向的方向信息。在一个示例实施例中，方向信息为声音的角度的形式。因此，麦克风被用来清晰地捕获每个参与者的音频，并且音频处理被用来确定参与者正在人视图中的哪个人视图中讲话。在麦克风与人之间的这样的布置中，不必存在对应关系，如每个参与者曾被提供单独的麦克风那样的布置。

本发明的一个方面可应用于这些布置，并且包括用于在在麦克风与相机视图之间不存在一对一的对应关系的情况中确定哪个相机视图示出了当前讲话者的方法。

在针对人视图预先设置了分幅并且每个参与者出现在一个且仅一个相机视图中的第一布置中，每个相机的朝向、分幅和缩放，例如，每个人相对于该相机的位置，被布置为使得对于该相机参与者眼睛的水平面和人视图在头部和肩部视图中示出了两个或最多三个人，该头部和肩部视图在典型远程会议室显示屏中将被缩放为实物大小。在这样的布置中，构图模块223生成关于哪个方向与哪个相机视图(在此情况中为人视图)相关联的信息。

视频指导器元件225被耦合到构图模块223和音频处理模块，并被配置为根据方向信息来选择将被发送给一个或多个远程端点的候选人视图中的至少一个。

该视频指导器向视频选择器元件227输出信息，以根据视频指导器的选择来选择相机视图中用于与经处理版本的音频数据一起被压缩并被发送给一个或多个远程端点的至少一个相机视图。所选择的(一个或多个)相机视图对应于所选择的(一个或多个)候选人视图，并且变成被发送给远程会议中的远程端点的(一个或多个)活动人视图。

在包括电子构图的第二布置中，即，当每个相机视图不必被直接分幅成人视图时，脸部检测元件221接受相机视图并且定位每个相机视图中的脸部。构图模块223被耦合到脸部检测元件221并被配置为生成候选人视图，其中，一个人在仅一个候选人视图中，并且通常每个相机一个，每个人视图是包含至少一个参与者，通常为两个或三个参与者的头部和肩部视图的区域。在一个实施例中，构图模块被布置为使得每个人视图提供如下这样的大小和布局的图像，该大小和布局的图像使得当被远程地显示在远程显示屏上时，每个参与者被显示为实物大小并且面对着该远程显示屏所在的远程位置中的所期望观众。构图元件利用与幅边界位置以及头部的位置和大小有关的信息来构成候选的人视图，并且例如以相对于对应相机视图幅的人视图大小和位置的形式输出候选视图信息。这些是可能的候选人视图。

视频指导器元件225被耦合到构图模块223以及音频处理模块，并且被配置为根据方向信息来选择将被发送给一个或多个远程端点的候选人视图中的至少一个。当一参与者讲话时，方向信息的任何改变将使得视频指导器将其选择切换为包括包含有正在讲话的该参与者的人视图。一种方法使用房间中的参与者的位置的二维头上映射(overhead mapping)来作出选择。视频指导器元件225例如以相对于对应相机视图的所选(一个或多个)人视图大小和位置的形式来输出所选择的候选视图信息，以使得电子的实时的电子云台(EPTZ)元件227可以根据视频指导器元件的选择来从(一个或多个)对应相机视图形成(一个或多个)高清晰视频帧。实时的电子云台元件227被配置为例如利用视频速率插值来形成用于每个所选人视图的高清晰视频帧，该每个所选人视图将成为被发送给远程会议中的远程端点的(一个或多个)活动人视图。

视频编解码器和音频编解码器子系统231被配置为接受音频和所选择的一个或多个活动的人视频视图，并且在某个实施例中，接受任何其它视图，并且压缩视频和音频以发送给视频远程会议中的其它端点。

本发明不限于编解码器的任何特定体系结构。在一个实施例中，编解码器子系统231以每秒60帧的高清晰形式来对视频编码。

第二组实施例可应用于这样的情况，其中，每个相机视图是广角视图，其不必被限制为人视图或者不必被限制为使得每个参与者可以出现在一个且仅一个相机视图中。图1B和图1C所示的布置具有可能在多于一个相机视图中具有同一参与者的重叠相机视图。电子云台(EPTZ)通过实时地处理视频信号来创建人视图，其中，每个人视图显示一个或多个参与者，通常为两个或三个参与者，例如适合于发送给远程端点的不多于三个参与者。脸部检测被用来检测每个相机视图中的参与者。在这些布置中，再次地，多个麦克风被使用，以便清晰地捕获每个参与者的音频并且能够确定哪个参与者正在讲话。在一个实施例中，多个麦克风被布置为麦克风阵列113，与音频处理模块一起被配置来将特定人视图与感测到的声音相关联，以使得当特定参与者讲话时，包括该参与者的最好视图的所构建人视图成为被发送给远程会议中的其它端点的至少一个人视图中的被选人视图。

图3示出了例如可应用于图1B和图1C所示的参与者的布置的本发明一个实施例的简化功能框图。多个相机303，例如高清晰视频相机，被布置为使得每个相机视图重叠在一起，这些相机视图示出了所有参与者。这些相机视图是广角的，并且一个或多个参与者能够并且可能出现在多于一个相机视图中。

视图选择/构图元件305包括：脸部检测元件321，用于定位每个相机视图内的人脸；第一构图元件323(“构图1”)，其被耦合到脸部检测元件321并被配置为接受相机视图的位置和脸部大小，并且从相机视图中构成一个、两个或三个脸部的人视图。构图模块323被布置为使得每个人视图提供如下这样的大小和布局的图像，该大小和布局的图像使得当被远程地显示在远程显示屏上时，每个参与者被显示为实物大小并且面对着该远程显示屏所在的远程位置中的所期望观众。在一个实施例中，构图元件323的输出包括人视图信息，例如，该人视图信息具有相对于(一个或多个)对应相机视图的分幅的(一个或多个)人视图的大小和位置的形式。

视图选择/构图元件305还包括作为人视图选择元件325的第二构图元件325(“构图2”)，被配置为接受来自构图元件323的人视图信息，例如，相对于(一个或多个)对应相机视图的分幅的(一个或多个)人视图大小和位置，并且为每个参与者选择人视图以形成候选人视图。人视图选择元件325的输出具有针对每个候选人视图的候选人视图信息的形式，例如，相对于(一个或多个)对应相机视图的分幅的(一个或多个)候选人视图大小和位置的形式。

因此，第一和第二构图元件325和327一起形成了被配置为生成候选人视图的构图元件。

定向麦克风子系统包括：例如被布置为麦克风阵列的两个或更多个麦克风113，以及被耦合到麦克风并被配置为生成音频数据以及指示在麦克风处接收的声音的方向的方向信息的音频处理模块209。在一个示例实施例中，方向信息为声音的角度的形式。因此，麦克风被用来清晰地捕获每个参与者的音频，并且音频处理被用来确定参与者正在人视图中的哪个人视图中讲话。

本领域已知了利用多个麦克风来确定声音的方向的许多方法，并且本发明不限于任何特定方法。

本发明的一个方面可应用于这样的布置，并且包括这样的映射方法，例如在人视图选择元件325中，所选人视图中的哪个人视图将映射用于哪个声音方向。

视频指导器元件327被耦合到第二构图元件(人视图选择元件)325以及音频处理模块，并被配置为根据方向信息来选择将被发送的候选人视图中的至少一个，该选择具有用于电子云台(EPTZ)元件329中的实时视频构图的和用于与经处理版本的音频数据一起被压缩并被发送给一个或多个远程端点的信息的形式。当一参与者讲话时，方向信息的任何改变将使得视频指导器327将其选择切换为包括包含有正在讲话的该参与者的人视图。一种方法将房间中的参与者位置的二维头上映射用于进行选择。视频指导器的输出具有用于将被发送的一个或多个人视图，通常为一个人视图的人视图信息的形式，例如，为相对于(一个或多个)对应相机视图的分幅的(一个或多个)人视图大小和位置。

电子云台(EPTZ)元件329被耦合到视图选择/构图模块305(具体地，视频指导器327)并被耦合到视频相机303的视频输出，并且根据人视图信息以视频速率来形成人视图的视频帧。这形成了针对(一个或多个)活动视频视图的(一个或多个)视频信号。

视频编解码器和音频编解码器子系统231被配置为接受音频以及(一个或多个)活动视频视图的(一个或多个)视频信号，并且在某个实施例中，接受任何其它视图，并且压缩视频和音频以发送给视频远程会议中的其它端点。本发明不限于编解码器的任何特定体系结构。在一个实施例中，编解码器子系统231以每秒60帧的高清晰形式来对视频编码。

注意，一些现有的遥现系统还使用脸部检测机制。在这样的系统中，如果脸部被检测到，则确定了相机的视图内的所检测脸部的大小和位置的脸部检测系统被用来操控该相机。较老的系统可能使用单独的广角相机和特写云台(PTZ)相机。一些系统可能利用电子云台来对此进行模拟，该电子云台被用来跟踪讲话者的位置并将云台视图指向该人。这样的跟踪方法至少在如下差别方面与本发明的方法不同：在本发明的实施例中，就“遥现”体验来说，人视图被约束并在远程会议会话的持续时间期间保持固定。即，每当特定参与者出现时，该参与者都位于同一地点，以模拟所使用的固定相机。

因此，在本发明的实施例中，声音的方向并不操控实际的或虚拟的相机，而是在由构图模块获得并由人视图选择模块选择的数个固定的虚拟(EPTZ)相机视图之间进行选择，以使得每个人出现在一个且仅一个所选择的所构成人视图中。脸部检测不直接操控PTZ，其仅在图片的中心处产生脸部的简单特写。每个脸部最终是由音频和视频信息的组合来定位的。该系统能够产生包含多个人的多个视频输出流，然而其不要求固定的座位布置。

高清晰视频相机至少具有每秒60帧的1280×620，并且在一些实施例中，具有每秒60帧的1920×1080。相机被布置来提供固定的广角视图，以使得即使在图像的仅一部分被选择时也维持合理的图像质量。在一个实施例中，相机具有相对大的景深以使得其相机视图中的所有参与者保持被聚焦。

相机被放置得稍微高于眼睛水平面。

因此，本发明的系统自动地构成人视图并且在它们之间进行选择，以产生多相机遥现系统中的实物大小的特写体验。该处理允许相对少量的相机-即使只有一个相机，也表现得好像有多得多的虚拟相机存在一样。

图4示出了用于操作处理系统的一个方法实施例的流程图。该方法包括在401中接受会议的至少一些参与者的多个相机视图。每个相机视图来自对应的视频相机，其中这些相机视图一起包括每个参与者的至少一个视图。该方法还包括在403中接受来自多个麦克风的音频，并且在405中处理来自多个麦克风的音频以生成音频数据和指示在麦克风处接收的声音的方向的方向信息。

该方法包括在407中生成一个或多个候选人视图，每个人视图是包含至少一个参与者的头部和肩部视图的区域。在一个版本中，所接受的相机视图的每个是候选人视图。即，相机被预先分幅以提供人视图。407在这样的情况中不是重要步骤。

在其它版本中，相机视图不必被预先设置为人视图，在此情况中，该方法还包括在407中检测相机视图中的任何脸部并且确定每个相机视图中每个所检测脸部的位置。在407中生成一个或多个候选人视图是根据所确定的脸部位置进行的，以使得每个候选人视图是包含至少一个参与者的头部和肩部视图的区域，该生成确定了候选视图信息。

该方法包括在409中根据方向信息选择将被发送给一个或多个远程端点的候选人视图中的至少一个。在相机视图不必均是人视图的情况中，根据方向信息作出该选择包括根据所作的选择来提供所选视图信息。

该方法还包括在411中响应于所作的选择来切换所接受相机视图中用于压缩和发送给一个或多个远程端点的至少一个相机视图。在相机视图不必均是人视图的情况中，该方法包括根据所选视图信息生成与候选视图中被选择用于压缩和发送给一个或多个远程端点的至少一个候选视图相对应的视频。该生成使用EPTZ。

该方法还包括在步骤413中对切换到的视频以及音频数据进行压缩，并且将经压缩数据发送给一个或多个端点。

在相机视图不必均是人视图的一个版本中，每个参与者出现在仅一个人视图中。在另一版本中，每个参与者可以出现在多于一个人视图中。在这样的情况中，407还包括构成可能的人视图，并且从所构成的可能人视图中选择候选人视图，以使得每个参与者出现在仅一个候选人视图中。

图5示出了示出了用于操作处理系统的另一方法实施例的流程图。该方法包括在脸部检测步骤501中，对于来自房间中的对应视频相机的每个相机视图，检测相机视图中的任何脸部。该方法还包括在步骤503中确定房间中的参与者的位置，例如，创建房间中的脸部的位置的地图来定位每个参与者。

该方法还包括在步骤505中确定哪一个脸部或哪些脸部位于多于一个相机视图中以用于构图。即，检测在多于一个相机视图中的每个参与者的图像。该方法包括在步骤507中基于脸部大小和/或离相机的距离确定例如针对每个脸部的缩放因子，再次地以用于构图。

在步骤509中，该方法还包括对于一个或多个相邻脸部的每个子群组，例如对于每对脸部，或者三个脸部的子群组，构成人视图。在一个实施例中，对于每个人视图中两个参与者的情况，用于该人视图的缩放是用于两个个体脸部的缩放因子的平均值。该人视图的构图包括该人视图内部的脸的子群组，例如，不接触周界带。

在步骤511中，该方法包括通过选择所构成人视图的子集以使得每个脸部出现在该子集的所构成人视图中的仅一个人视图中并且使得该子集包括每个参与者的脸部，从而为每个分部的参与者选择各自的人视图。这些候选视图可被认为是“虚拟相机”视图，就好像每对参与者具有其自己的固定“虚拟”相机一样。

步骤513包括将每个人视图映射到一个或多个语音方向，通过在音频处理元件209中执行的音频处理确定的每个语言方向被耦合到两个或更多个麦克风，并且这确定了语言来自哪个方向，以使得每个所确定语音方向被与人视图的子集中的人视图之一相关联。

步骤515包括选择一个或多个人视图用于发送给远程端点，包括当声音改变时，例如当语音方向改变时，根据声音方向在人视图之间切换。

步骤517包括为选择用于发送的人视图形成视频。在一个实施例中，视频输出由候选视图-虚拟相机视图之间的可能的叠像渐变(cross fade)或切割(cut)组成。在一个实施例中，这样的虚拟相机视图-活动人视图的多个流被形成用于同时发送并在端点处的多个显示屏上观看。

在一个实施例中，该方法包括在示出了会议的大多数或所有本地参与者的全景(group shot)与示出了仅一个或两个参与者的人视图之间自动切换。

步骤519包括对在515中选择并在步骤517中形成用于发送给远程会议的端点的一个或多个人视图以及音频进行编码或发送。

在一个实施例中，图5的方法的步骤503至513的人视图构图在远程会议会话开始时发生。

现在更详细地描述该方法的一个实施例。该方法利用相机视图并构造人视图，每个人视图是相机视图之一内的感兴趣的矩形区域。人视图实质上是参与者的子集，例如参与者中的两个的特写。视图构造在会话开始时发生。

脸部检测步骤501包括脸部检测方法对于每个视图报告作为相机视图内的每个脸部的x，y坐标的位置以及脸部的尺寸大小。如本领域技术人员将清楚的，许多脸部检测方法是已知的。本发明不依赖于所使用的任何特定类型的脸部检测方法。脸部检测的一个实施例包括眼睛检测，并且包括根据脸上的眼睛之间的距离来确定脸部大小尺寸。另一方法包括将将椭圆形状，例如半个椭圆拟合到在相机视图中检测到的边缘，以检测该脸部。具体地，一种方法如在2008年1月28日提交的、发明人为Tian等人、题为REAL-TIME FACE DETECTION的共同转让美国专利申请No.12/021,198中所描述的。另一方法如在2008年2月14日提交的、申请人为Tian等人、题为REAL-TIME FACE DETECTION USING TEMPORALDIFFERENCES.的共同转让美国专利申请No.12/031,590中所描述的。

因此，在一些实施例中，脸部检测包括如下中的至少一种：脸部检测和/或将将椭圆形状拟合到在与脸部相对应的相机视图中检测到的边缘。在仅眼睛检测被使用的情况中，脸部大小的尺寸是通过脸部中检测到的眼睛之间的距离来确定的。在仅椭圆形状拟合被使用的情况中，脸部的尺寸是根据椭圆形状被拟合到脸部边缘的性质来确定的。

参与者映射步骤503包括在给定每个相机视图的相机的已知位置和角度的情况下，利用每个脸部的(x，y)位置和多个视图来创建房间中的脸部的位置的地图。该方法包括利用已知为先验的相机的缩放因子来将所确定脸部大小转换为深度，即，离相机的距离。因此，每个脸部离已知相机位置的近似距离被确定。由于两个或更多个相机被使用，因此脸部被匹配并且三角测量被用来确定他们在房间中的物理位置。该方法因此定位房间中每个参与者的脸部。

该方法包括唯一脸部视图选择。步骤505包括标识冗余视图，包括确定哪个脸部或哪些脸部出现在多于一个相机视图中但共同位于该地图上。一个实施例包括验证，其包括近似图像比较。

对于唯一脸部视图选择，该方法包括从任何参与者的冗余相机视图中选择每个参与者的一个优选相机视图。对于特定参与者，如果仅存在该参与者的一个相机视图，则最好的相机视图是该仅有的一个相机视图，或者如果存在多于一个相机视图，则最好的相机视图是与轮廓视图相对的脸部更超前面的视图或者正面视图。来自脸部检测阶段的信息被用于此。例如，对于将椭圆或半椭圆拟合到每个脸部的方法，对针对同一参与者的两个半椭圆宽度进行比较。在另一实施例中，503的位置地图被使用并且正对着参与者脸部的相机的相机视图被选择。

所希望的构图预先被确定。例如，一个实施例选择包含并排的两个参与者的16∶9画面，其中两个脸部以某些位置为中心，例如，眼睛最接近预先定义的位置并且脸部具有预先选择的大小。

确定候选人视图的构图要素包括步骤507和509。在某个相机视图中相邻的两个(或更多个)脸部是用于人视图的候选。针对该群组选择/确定比例因子(放大或缩放)，其优化所有的脸部大小。脸部被分幅在预定的所希望构图的矩形内。因此，候选人视图是针对相机视图中的每对(或更多)参与者构成的。

一种方法包括评估候选群组视图。一种方法包括根据预定的所希望构图基于脸部离最优脸部位置的距离来计算优劣评分(merit score)。所希望构图的矩形被移动以优化该视图，相当于执行电子摇镜头。

步骤511包括选择每个参与者的所构成人视图，以使得所选构成人视图包括所有参与者仅一次并且具有最高的总分。

在操作期间，群组视图的集合保持固定。视图不会主动地摇镜头或倾斜或缩放以跟随移动。然而，如果场景更彻底地改变，则该视图选择方法重新计算一组新的视图。在一个实施例中，对该组人视图的计算，即，步骤501-513包括在人视图之一中的脸部数目改变时重新进行计算。

现在呈现操作的示例。现在呈现一些要素的更多细节。

图6-9示出了从实际照片产生的素描图。图6示出了在用于视频远程会议的典型会议室中来自近似位于房间的显示屏中心处的相机的广角相机视图的示例。这是通过传统现有技术视频远程会议系统时通常所看到的。该相机视图还对应于在类似于图1C的布置中来自相机125的相机视图可能的样子。

图7示出了来自显示屏一侧上的相机的广角相机视图，并且对应于在类似于图1B和图1C的布置中来自相机121的相机视图可能的样子。图7还示出了所构成的两个人视图的位置，每个人视图有两个参与者。图7的左边最靠近相机的参与者遮挡了他后面的参与者。

图8示出了来自显示屏另一侧上的相机的广角相机视图，并且对应于在类似于图1B和图1C的布置中来自相机123的相机视图可能的样子。图8还示出了所构成的两个人视图的位置，每个人视图有两个参与者。

注意，一些参与者出现在多于一个人视图中。此外，在图7的相机视图中被隐藏的参与者现在在图8倾斜地出现了正脸。

针对每个参与者，例如，针对每个麦克风方向或角度的后续人视图是根据哪个更接近正面视图来选择的。图9示出了对于离图7的相机视图的相机最远的两个参与者，即，图6所示的最右边的两个参与者的每个，将被发送给远程端点的视频人视图。

结果是一组虚拟特写相机。这些虚拟相机然后被用在多屏幕远程会议中。有效的“实物大小”图像非常类似于由现有的“遥现”远程会议系统提供的图像，现有的“遥现”远程会议系统例如是由与本发明的受让人有关的思科系统制造的CISCO CTS3000遥现系统。然而，使用本发明的实施例不要求固定的座位布置，因为其自动地分析场景以及虚拟相机捕获正确的“头部和肩部”人视图的位置。

因此，这里描述的是适应于房间中多个参与者的座位位置的远程会议相机系统。一个或多个，通常为两个或更多个广角相机捕获例如桌子周围的人的全景，并且使用所捕获的视频以及音频信息，并且自动地构成“虚拟相机”的人视图，并且在它们之间进行选择以生成具有较少相机且相机位于房间一侧的多相机“遥现”系统中的实物大小特写体验。

本发明的实施例因此提供了来自先前未被特别地设计用于遥现的会议室的当前遥现系统，例如，特写实物大小图像的益处。不是使用固定相机和固定座位位置，本发明的实施例使用位于屏幕近前方的两个或更多个相机，并且这可以是便携式的，以生成适应于座位布置的多个虚拟相机的位置。

因此，诸如这里描述的系统可以动态地来部署；不需要永久地将该系统安装在特定位置，而是可以移动到任何方便的房间。

在一些实施例中选择人视图的处理相对简单，而在另一实施例中，例如在EPTZ元件和构图元件中执行处理以校正可能因相机303位于与所模拟的“虚拟相机”位置不同的位置处所导致的失真中的至少一些。即，电子云台元件联合构图元件还被配置来构造正面视图，并且校正由于相机303未摄取参与者的正面视图而产生的失真中的至少一些。一个实施例采用透视校正(perspective correction)。这样的实施例使用在远距离点处会聚的直线的透视模型并且假设每个脸部是平面的。利用所拟合的每个脸部的距离，例如，眼睛之间的距离，或者所拟合半椭圆的宽度，以及相机的已知位置，来向相机施加几何变换以校正失真。校正因广角相机镜头引起的任何镜头失真的更复杂方法也是可以的。例如参见Steve Mann和Rosalind Picard的“Virtual bellows：constructing high quality still from Video，”Proceedings，First IEEE International Conference on Image Processing ICIP-94，Volume 1，13-16 Nov.1994，Page(s)：363-367，Austin Texas，November1994。

包括失真校正的本发明的这些方法不限于执行失真校正的任何特定方法，并且还知道许多这样的方法。例如，参见H.-Y.和Sing，Bing Kang的“A review of image-based rendering techniques”in SPIE Proceedings Vol.5067(3)，pp.2-13，Proceedings of the Conference on Visual communications andimage processing 2000，Perth，AUSTRALIA，20-23June 2000中对一些这样的方法的调查。自写该论文起已开发了更多方法。

这里描述的方法和装置可以用许多不同方式来实现。

图10示出了耦合到网络1007的远程会议终端1001的远程会议系统的简化框图，至少一个端点1009也耦合到网络1007以使得可以在终端1001与至少一个端点1009之间进行视频远程会议。终端1001包括本发明的实施例，例如，图3的实施例。终端1001包括多个视频相机303以及多个麦克风113。不同版本实现图2所示的装置，在该情况中的相机是相机203。还包括一组的一个或多个显示屏921。

处理系统1003包括至少一个可编程处理器1011和存储子系统1013。存储子系统至少包括存储器，并被编码有被示为程序1015的软件。程序1015的不同版本在被至少一个处理器1011执行时使得处理系统1003执行本说明书中描述的方法实施例。该处理系统包括编码器/解码器子系统1017，在一个实施例中，编码器/解码器子系统1017包括用于视频编码/解码的多个处理器以及存储器，该存储器包括使得处理器执行方法的程序代码，该方法使得该编码器/解码器子系统编码高清晰视频和/或解码高清晰视频。该处理系统还包括通信子系统1019，该通信子系统1019与至少一个可编程处理器1011一起掌管终端的操作的通信方面，并且该通信子系统1019包括到网络1007的接口。

当然，本领域技术人员将明白，处理系统1003仅是以简化方式被示出的，而未示出许多内部工作，以便不模糊本发明的创造性方面。

因此，在一个实施例中，计算机可读存储介质被编码有指令，当指令由例如远程会议终端的虚拟相机人视图构图装置中的处理系统的一个或多个处理器运行时，使得执行这里描述的任何方法。

除非特别指明，如从下面的讨论将清楚的，将理解，在整个说明书中，使用诸如“处理”、“运算”、“计算”、“确定”等术语的讨论涉及将表示为诸如电量之类的物理量的数据操纵和/或变换为类似地表示为物理量的其它数据的计算机或计算系统或类似电子计算设备的动作和/或处理。

以类似方法，术语“处理器”或“机器”可以指用于处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可被存储在寄存器和/或存储器中的电子数据的任何设备或设备的任何部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。

注意，当描述包括数个要素，例如数个步骤的方法时，除非特别指明，否则不暗示这样的要素(例如，步骤)的顺序。

在一个实施例中，这里描述的方法可由一个或多个处理器执行，其接受编码在一个或多个计算机可读有形介质上的计算机可读(也称为机器可读)逻辑，在计算机可读有形介质中编码有指令集，当该指令集被处理器中的一个或多个运行时执行这里描述的方法中的至少一个。能够执行用于指定将要采取的动作的指令集(顺序的或以其它方式)的任何处理器被包括。因此，一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统还可以包括存储器子系统，包括主RAM和/或静态RAM和/或ROM。总线子系统可被包括用于在组件之间进行通信。处理系统还可以是分布式处理系统，其中处理器通过网络被耦合起来。如果处理系统需要显示器，则诸如液晶显示器(LCD)或阴极射线管(CRT)显示器之类的显示器可以被包括。如果需要手动数据输入，则处理系统还包括输入设备，例如，诸如键盘之类的字母数字输入单元、诸如鼠标之类的点选可正式版等等中的一个或多个。如这里使用的术语存储器，如果可从上下文清楚并且除非以其它方式明确指定，否则还包括诸如盘驱动单元之类的存储系统。在一些配置中处理系统可以包括声音输出设备和网络接口设备。存储器子系统因此包括承载逻辑(例如，软件)的计算机可读介质，该逻辑包括指令集以使得当指令集被一个或多个处理器运行时使得执行这里描述的方法中的一个或多个。软件可以驻留在硬盘中，或者在由计算机系统运行时，也可以完全地或至少部分地驻留在RAM和/或处理器内。因此，存储器和处理器还构成其上编码有例如指令形式的逻辑的计算机可读介质。

此外，计算机可读介质可以形成或者被包括在计算机程序产品中。

在替代实施例中，一个或多个处理器作为独立的设备操作或者可被连接，例如，联网到其他(一个或多个)处理器，在联网部署中，一个或多个处理器可以在服务器-客户端网络环境中以服务器或客户端机器的能力来操作，或者作为端对端或分布式网络环境中的对等机器来操作。一个或多个处理器可以形成个人计算机(PC)、蜂窝电话、web装置、网络路由器、交换机或桥接器，或者能够运行用于指定将由机器采取的动作的指令集(顺序的或以其它方式)的任何机器。

注意，尽管某个或一些示图仅示出了单个处理器以及承载包括指令的逻辑的单个存储器，然而本领域技术人员将明白，上述组件中的许多组件也被包括，但是未明确示出或描述以不模糊创造性方面。例如，尽管仅单个机器被图示出，然而术语“机器”还被认为包括单独地或联合地运行一个(或多个)指令集以执行这里讨论的任一个或多个方法中的机器的任何集合。

因此，这里描述的每个方法的一个实施例是其中编码有一个指令集(例如，计算机程序)的介质的形式，该指令集用于在一个或多个处理器上运行，例如，在作为编码系统一部分的一个或多个处理器上运行。因此，如本领域技术人员将理解的，本发明的实施例可被实施为方法、诸如专用装置之类的装置、诸如数据处理系统之类的装置，或者介质，例如计算机程序产品。计算机可读介质承载包括一个指令集的逻辑，当其在一个或多个处理器上运行时使得包括这一个或多个处理器的装置实现方法。因此，本发明的各方面可以采取方法的形式、全为硬件的实施例、全为软件的实施例或者组合了软件和硬件方面的实施例的形式。此外，本发明可以采取介质的形式(例如，计算机可读存储介质上的计算机程序产品)，在该介质中包含有计算机可读程序代码。

尽管在示例实施例中介质被示为单个介质，然而术语“介质”应当被认为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的缓存和服务器)。术语“介质”还将被认为包括能够存储、编码供一个或多个处理器运行并且使得实现本发明的方法中的任何一个或多个的指令集的任何介质。介质可以采取许多形式，包括有形存储介质。非易失性介质例如包括光盘、磁盘和磁光盘。易失性介质包括动态存储器，如主存。例如，术语“介质”因此将被认为包括但不限于固态存储器、包含在光合磁介质中的计算机产品。

将明白，这里讨论的方法的步骤在一个实施例中由用于运行存储在存储装置中的指令的处理(即，计算机)系统的适当处理器(或多个处理器)来执行。还将明白，本发明不限于任何特定的实施方式或编程技术并且本发明可以利用用于实现这里描述的功能的任何适当技术来实现。本发明不限于任何特定的编程语言或操作系统。

在本说明书中对“一个实施例”或“实施例”的引用是指结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此，在本说明书各个地方出现的短语“在一个实施例中”或“在实施例中”不一定都指同一实施例，但是可以指同一实施例。此外，如本领域技术人员将从本公开清楚的，在一个或多个实施例中，特定特征、结构或特性可以以任何合适的方式被组合。

类似地，应当理解，在本发明的示例实施例的上面的描述中，为了精简本公开并辅助理解各个创造性方面中的一个或多个方面，本发明的各个特征在单个实施例、附图或其组合中有时被成组在一起。然而，这种公开方法不被解释为反映了这样的发明：所要求保护的发明需要比在每个权利要求中明确记载的特征更多的特征。而是，如下面的权利要求所反映的，创造性方面在于比前面公开的单个实施例的所有特征更少。因此，具体实施方式后面的权利要求在此明确地被包括进本具体实施方式中，其中每个权利要求作为本发明的单独实施例依靠其自身。

此外，虽然这里描述的一些实施例包括一些特征而不包括其它实施例中所包括的其它特征，然而人本领域技术人员将明白的，意图使不同实施例的特征的组合落在本发明的范围内。例如，在下面的权利要求中，要求保护的实施例中的任何实施例可被用在任何组合中。

此外，实施例中的一些在这里被描述为可由计算机系统的处理器或者由执行功能的其它装置实现的方法或者方法的要素的组合。因此，具有用于实现这样的方法或方法的要素的必要指令的处理器形成了用于实现该方法或方法的要素的装置。此外，这里描述的装置实施例的元件是用于执行由该元件执行的功能以便实现本发明的装置的示例。

在这里提供的描述中，阐述了多个具体细节。然而，将明白，本发明的实施例可以在不用这些具体细节的情况下来实施。在其它实例中，公知的方法、结构和技术未被详细示出，以不模糊对此描述的理解。

如这里使用的，除非以其它方式指定，用于描述共同对象的序数形容词“第一”、“第二”、“第三”等仅仅指示相似对象的不同实例被提及，并且不旨在隐含如此描述的对象必须具有时间地、空间地、排名中的或者任何其它方式的给定顺序。

这里引用的所有公报、专利和专利申请通过引用被结合于此，除非这样的结合不被相关专利规则和/或状态允许。

在本说明书中对现有技术的任何讨论绝不应当被认为是对这样的现有技术是广泛知道的、公知的或形成了本领域一般知识的一部分的承认。

在下面的权利要求和这里的描述中，术语包含、由...组成或者其包含中的任一种是开放式术语，其意味着至少包括跟随着的要素/特征，但不排除其它的。因此，当术语包含被用在权利要求中时，不应被解释为局限于此后列出的装置或元件或步骤。例如，表述“包含A和B的设备”的范围不应被限制为仅由元件A和B构成的设备。如这里使用的术语包括或其包括或它包括中的任一种也是开放式术语，其也意味着至少包括跟随着该术语的要素/特征，但不排除其它的。因此，包括与包含同义并且意思是包含。

类似地，将注意，术语相耦合当被用在权利要求中时，不应被解释为局限于仅直接连接。术语“相耦合”和“相连接”与其派生词一起可以被使用。应当明白，这些术语不打算被当做彼此同义的。因此，表述“设备A耦合到设备B”的范围不应被限制为设备A的输出直接连接到设备B的输入的设备或系统。其意味着存在A的输出与B的输入之间的路径，该路径可以是包括其它设备或装置的路径。“相耦合”可以指两个或更多个元件是直接物理接触或电气接触，或者两个或更多个元件不是彼此直接接触但仍然共同操作或彼此交互。

因此，尽管已描述了被认为是本发明的优选实施例的内容，然而本领域技术人员将认识到，可以在不脱离本发明的精神的情况下对其作出其它的和进一步的修改，并且当落入本发明的范围之内时打算要求保护所有这样的改变和修改。例如，上面给出的任何公式仅仅是可被使用的过程的表示。可从框图中删除或添加功能，并且可以在功能块间互换操作。对于在本发明的范围内描述的方法，可以添加或删除步骤。

Claims

1.一种装置，包括：

多个视频相机，每个视频相机被配置为捕获会议中的至少一些参与者的各个相机视图，这些相机视图一起包括每个参与者的至少一个视图；

多个麦克风；

音频处理模块，被耦合到所述多个麦克风并被配置为生成音频数据和指示在麦克风处接收的声音的方向的方向信息；

构图元件，被耦合到所述视频相机并被配置为生成一个或多个候选人视图，每个人视图是包含至少一个参与者的头部和肩部视图的区域；以及

视频指导器元件，被耦合到所述构图模块和所述音频处理模块，并被配置为根据所述方向信息选择所述候选人视图中将被发送给一个或多个远程端点的至少一个候选人视图。

2.如权利要求1所述的装置，

其中，相机被设置为每个相机生成一候选人视图，

其中，所述构图元件被配置为根据所述方向信息选择将被发送给所述一个或多个远程端点的至少一个相机视图，

并且其中，所述装置还包括：

视频选择器元件，被耦合到所述视频指导器和所述视频相机，并被配置为根据所述视频指导器的选择来切换到所述相机视图中用于压缩和发送到一个或多个远程端点的至少一个相机视图。

3.如权利要求1所述的装置，还包括脸部检测元件，被耦合到相机并且被配置为确定每个相机视图中每个参与者脸部的位置并且将所确定的一个或多个位置输出给所述构图元件，

其中，所述相机视图不一定是人视图，

其中，所述构图模块经由所述脸部检测元件被耦合到相机，并且还被配置为根据所确定的脸部位置来生成一个或多个候选人视图并且向所述视频指导器输出候选视图信息，每个候选人视图是包含至少一个参与者的头部和肩部视图的区域，

其中，所述视频指导器还被配置为根据所述视频指导器的选择来输出所选视图信息，并且

其中，所述装置还包括：

电子云台元件，被耦合到所述视频指导器和所述视频相机，并被配置为根据所选视图信息来生成与所述候选视图中用于压缩和发送给一个或多个远程端点的至少一个候选视图相对应的视频。

4.如权利要求3所述的装置，其中，每个参与者出现在仅一个人视图中。

5.如权利要求3所述的装置，其中，每个参与者可能出现在多于一个人视图中，并且其中，所述构图元件包括被配置为构成人视图的第一构图元件以及被配置为从所构成的人视图中选择候选人视图的第二构图元件，以使得每个参与者出现在仅一个候选人视图中。

6.如权利要求3所述的装置，其中，所述电子云台元件联合所述构图元件还被配置来构造正面人视图，包括校正由于与每个人视图相对应的相机视图未包括该人视图中的一个或多个参与者的一个或多个正面视图而导致的失真中的至少一些。

7.如权利要求3所述的装置，其中，所述构图元件还被配置来执行透视校正。

8.一种用于操作处理系统的方法，该方法包括：

接受会议中的至少一些参与者的多个相机视图，每个相机视图来自对应的视频相机，这些相机视图一起包括每个参与者的至少一个视图；

接受来自多个麦克风的音频；

处理来自所述多个麦克风的音频以生成音频数据和指示在麦克风处接收的声音的方向的方向信息；

生成一个或多个候选人视图，每个人视图是包含至少一个参与者的头部和肩部视图的区域；以及

根据所述方向信息选择所述候选人视图中将被发送给一个或多个远程端点的至少一个候选人视图。

9.如权利要求8所述的方法，

其中，所接受的相机视图各自是候选人视图，

该方法还包括：

响应于所作的选择，切换到所接受的相机视图中用于压缩和发送到一个或多个远程端点的至少一个相机视图。

10.如权利要求8所述的方法，

检测相机视图中的任何脸部并且确定每个相机视图中每个所检测脸部的位置，

其中，所述相机视图不一定是人视图，

其中，所述一个或多个候选人视图的生成是根据所确定的脸部位置来进行的，以使得每个候选人视图是包含至少一个参与者的头部和肩部视图的区域，该生成确定了候选视图信息，并且

其中，根据所述方向信息作出选择包括根据所作的选择来提供所选视图信息，并且

其中，该方法还包括：

根据所选视图信息来生成与所述候选视图中用于压缩和发送给一个或多个远程端点的至少一个候选视图相对应的视频。

11.如权利要求10所述的方法，其中，每个参与者出现在仅一个人视图中。

12.如权利要求10所述的方法，其中，每个参与者可能出现在多于一个人视图中，该方法还包括：

构成可能的人视图，并且

从所构成的可能人视图中选择候选人视图，以使得每个参与者出现在仅一个候选人视图中。

13.如权利要求10所述的方法，

其中，根据所选视图信息的生成包括校正由于与每个人视图相对应的相机视图未包括该人视图中的一个或多个参与者的一个或多个正面视图而导致的失真中的至少一些。

14.如权利要求10所述的方法，根据所选视图信息的生成包括透视校正。

15.一种用于操作处理系统的方法，包括：

对于来自房间中的对应视频相机的多个相机视图，检测相机视图中的任何脸部；

确定该房间中参与者的位置；

确定哪个脸部或哪些脸部在多于一个相机视图中；

对于一个或多个相邻脸部的每个子群组，构成一人视图；

为每个参与者选择各自的人视图；

将每个人视图映射到一个或多个所确定的语音方向，这样的每个所确定的语音方向被与人视图之一相关联；以及

选择用于发送给远程端点的一个或多个人视图，以使得被选择用于发送的人视图的视频能被形成。

16.如权利要求15所述的方法，还包括：当语音方向改变时，根据声音方向在人视图之间进行切换。

17.如权利要求15所述的方法，其中，脸部检测包括确定相机视图内每个脸部的位置以及该脸部的大小的尺寸。

18.如权利要求17所述的方法，其中，脸部检测包括如下中的至少一者：眼睛检测和/或将椭圆形状拟合到在与脸部相对应的相机视图中检测到的边缘，并且其中，在仅眼睛检测被使用的情况中，脸部的大小的尺寸是由检测到的该脸部中的眼睛之间的距离来确定的，并且其中，在仅椭圆形状拟合被使用的情况中，该脸部的尺寸是从椭圆形状被拟合到脸部的边缘的性质来确定的。

19.如权利要求17所述的方法，每个相机位置预先被确定，并且其中，该方法包括确定每个脸部离预先确定的相机位置的近似距离。

20.一种在其上编码有可执行指令的计算机可读介质，当所述可执行指令被处理系统的至少一个处理器运行时，使得执行方法，该方法包括：

确定该房间中参与者的位置；

确定哪个脸部或哪些脸部在多于一个相机视图中；

对于一个或多个相邻脸部的每个子群组，构成一人视图；

为每个参与者选择各自的人视图；