CN104349112B

CN104349112B - 视频会议装置及其方法

Info

Publication number: CN104349112B
Application number: CN201310327705.XA
Authority: CN
Inventors: J.魏; S.高; H.董; M.李; T.蒋
Original assignee: Polycom Inc
Current assignee: Huihe Development Co ltd
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2019-02-01
Anticipated expiration: 2033-07-31
Also published as: CN104349112A; HK1204409A1

Abstract

提供了一种视频会议装置，包括：一个摄像机，配置用来捕捉视频会议环境的宽画面的第一视频；通信接口，配置来使所述视频会议装置与视频会议系统通信连接；以及处理单元，可操作地耦接到所述摄像机，该处理单元可编程来执行下述步骤：基于第一视频的特征确定取景画面；从第一视频中剪切取景画面的第二视频；以及输出所述第二视频。还提供一种相应的视频会议方法。

Description

视频会议装置及其方法

技术领域

本发明的技术总体上涉及视频会议。更具体地，本发明涉及视频会议装置及其方法。

背景技术

一般来说，视频会议中的摄像机拍摄装进所有与会者的画面。不幸的是，远端与会者会失去视频中的许多有价值的内容，因为显示在远端的近端与会者的大小会很小。在一些情况下，远端与会者不能看清近端与会者的面部表情，难以确定谁正在发言。这些问题使视频会议具有难以使用的感觉，从而使与会者难以进行富有成效的会议。

为了处理取景较差的问题，与会者不得不进行干预，执行摇移、俯仰和推拉摄像机的一系列操作，以拍摄较好的画面。正如所料，用遥控器人工指挥摄像机会不方便。有时，与会者实在不愿麻烦去调整摄像机的画面，而只是使用默认的全景。当然，当与会者的确人工调整摄像机的画面时，如果与会者在视频会议期间改变位置，或者在后来的视频会议中使用不同的座位安排，那么必须重复该过程。

一种解决方式是使用一个摇移－俯仰－推拉（PTZ）摄像机（也叫云台摄像机）和一个非PTZ且高清的摄像机来取景和输出关心的区域。然而，显然产品的价格会非常高，在有限的预算下，用户无法享受到绝好的功能，因此产品将不会流行。

由于这些原因，在视频会议期间，理想的是提供能够根据会议环境，与会者的排列，和正在发言的人物，动态且自动调整与会者的画面的经济的摄像机，以及该设备可以基于某个关心的区域智能地调整摄像机的光参数和进行图像后处理。

发明内容

本发明的主题目的在于克服上述一个或多个问题，或者至少降低上述一个或多个问题的影响。

根据实施例的一个方面，提供了一种视频会议装置，包括：一个摄像机，配置用来捕捉视频会议环境的宽画面的第一视频；通信接口，配置来使所述视频会议装置与视频会议系统通信连接；以及处理单元，可操作地耦接到所述摄像机，该处理单元可编程来执行下述步骤：基于第一视频的特征确定取景画面；从第一视频中剪切取景画面的第二视频；以及输出所述第二视频。

根据实施例的另一个方面，提供了一种视频会议方法，包括：用视频会议装置的摄像机捕捉视频会议环境的宽画面的第一视频；基于第一视频的特征确定取景画面；从第一视频中剪切取景画面的第二视频；以及输出所述第二视频。

根据实施例的第三方面，提供了一种计算机程序产品，包括存储在非易失性记录介质上的指令，当该指令在处理器中执行时，实施本发明所公开的方法的步骤。

根据实施例的第四方面，提供了一种非易失存储介质，其存储了当在处理器中执行时实施根据本发明所公开的任意方法的方法步骤的指令。

作为整体或分场景来说，开发一种仅用一个非PTZ摄像机进行画面取景的新方式是有利的，这将极大地帮助降低享受智能和自动视频会议的成本。

附图说明

现在将以示例的方式，基于实施例并参考附图描述本发明的技术，其中：

图1A-1B表示视频会议端点的平面图。

图2表示按照本发明的用于端点的视频会议装置。

图3图解说明图2的视频会议装置的组件。

图4A图解说明所公开视频会议装置的利用视频处理的控制方案。

图4B图解说明视频会议期间，根据视频线索处理视频的判定过程。

图5图解说明根据一个策略操作公开的视频会议装置的过程。

图6A-6B图解说明当利用公开的视频会议装置定位一个或多个与会者时的取景画面。

图7A-7B图解说明利用公开的视频会议装置，自动取景与会者的画面的过程。

图8A-8C图解说明确定用于自动取景的相关块的各种过程。

图9A-9B图解说明在用公开的视频会议装置的自动取景期间的各个画面。

图10图解说明为运动检测而分析的各个块。

具体实施方式

以下将参照附图更充分地描述本发明实施例，在附图中示出了本发明实施例。然而，可以用很多不同形式来实施本发明，并且本发明不应理解为受限于在此所阐述的实施例。在全文中，使用相似的标号表示相似的元件。

在此所使用的术语仅用于描述特定实施例的目的，而并非意欲限制本发明。如在此所使用的那样，单数形式的“一个”、“这个”意欲同样包括复数形式，除非上下文清楚地另有所指。还应当理解，当在此使用时，术语“包括”指定出现所声明的特征、整体、步骤、操作、元件和/或组件，但并不排除出现或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外定义，否则在此所使用的术语（包括技术术语和科学术语）具有与本发明所属领域的普通技术人员所共同理解的相同意义。在此所使用的术语应解释为具有与其在该说明书的上下文以及有关领域中的意义一致的意义，而不能以理想化的或过于正式的意义来解释，除非在此特意如此定义。

以下参照示出根据本发明实施例的方法、装置（系统）和/或计算机程序产品的框图和/或流程图描述本发明。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个方框以及方框的组合。可以将这些计算机程序指令提供给通用计算设备、专用计算设备的处理器和/或其它可编程数据处理装置，使得经由计算设备处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件（包括固件、驻留软件、微码等）来实施本发明。更进一步地，本发明可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本发明上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

举例说明的操作方法的细节方面的各种变化都是可能的，而不脱离下述权利要求的范围。例如，图解说明的流程图步骤或过程步骤可按照与这里公开的顺序不同的顺序执行识别的步骤。另一方面，一些实施例可以结合这里被描述成独立步骤的活动。类似地，取决于实现所述方法的具体操作环境，一个或多个说明的步骤可被省略。

另外，与流程图或过程步骤相应的动作可用可编程控制装置实现，所述可编程控制装置执行组织成在非暂时性可编程存储装置上的一个或多个程序模块的指令。可编程控制装置可以是单个计算机处理器，专用处理器(例如，数字信号处理器，“DSP”)，用通信链路耦接的多个处理器，或者定制设计的状态机。定制设计的状态机可被嵌入诸如集成电路之类的硬件装置中，所述集成电路包括(但不限于)专用集成电路(“ASIC”)或者现场可编程门阵列(“FPGA”)。适合于有形地包含程序指令的非暂时性可编程存储装置(有时称为计算机可读介质)包括(但不限于)：磁盘(硬盘，软盘和可拆卸磁盘)和磁带；光学介质，比如CD-ROM和数字视频光盘(“DVDs”)；和半导体存储器装置，比如电可编程只读存储器(“EPROM”)，电可擦可编程只读存储器(“EEPROM”)，可编程门阵列和闪速装置。

下面将结合附图，参照本发明的实施例描述本发明。

A.视频会议端点

在图1A的平面图中，端点10的一种布置利用视频会议装置80，视频会议装置80包括摄像机50和一些与之集成的支持智能功能的其它组件。所有或一些必需的视频会议组件，包括音频和视频模块、网络模块等可被置于与视频会议装置80耦接的独立视频会议单元95中。麦克风箱28可被放置在会议桌上，不过可以使用其它种类的麦克风，比如吸顶式麦克风，个人桌式麦克风等等。麦克风箱28与视频会议装置80通信连接，捕捉视频会议的音频。对装置80来说，装置80可被合并到显示器和/或视频会议单元(未示出)中，或者安装在之上。

摄像机50可以是固定的或者房间画面摄像机。通过利用房间画面摄像机50，视频会议装置80拍摄房间的视频，或者至少拍摄房间的一般应包括所有的视频会议与会者以及一些周围环境的宽画面或拉远的画面。最好，摄像机50可以高清高质量显示。

在一个实施例中，房间画面摄像机50是网络摄像机。因而，房间画面摄像机50能够用电子方式操作，以改变其缩放，而不是可操纵的。不过，视频会议装置80可以利用摄像机的其它安排和种类。

图1B表示端点10的另一种布置的平面图。这里，端点10具有安装在房间四周的几个装置80/81，并且具有在会议桌上的麦克风箱28。和前面一样，一个主装置80包括摄像机50和和一些与之集成的支持智能功能的其它组件。和前面一样，所有或一些必需的视频会议组件，包括音频和视频模块、网络模块等可被置于与视频会议装置80耦接的独立视频会议单元95中。其它装置81与主装置80耦接，并可被布置在视频会议环境的侧面。

辅助装置81至少具有一个摄像机50并且能够与主装置80相同。不管怎样，这里说明的视频处理都能够识别在该环境中，哪部摄像机50具有环境中所有与会者或关心的一组人员的最佳画面。随后，可从在房间四周的摄像机50中，选择对境中所有与会者或关心的一组人员来说最佳的摄像机50，以致正面画面(或者最接近正面画面的画面)可被用于会议视频。

视频会议装置

首先讨论按照本发明的视频会议装置的细节。如图2中所示，视频会议装置80包括摄像机50，或者集成其上，或者可拆卸地电气且机械连接到其上。视频会议装置80具有一个外壳，其大多数组件包含在其内，并且摄像机50置于其上。

摄像机50是用来获得视频会议环境的宽画面或拉远的画面的房间画面摄像机。它安装在视频会议装置80的外壳上并且可以与之集成。摄像机50用来从宽画面或拉远的画面中获得视紧凑画面或者拉近的画面。

摄像机50可以可拆卸地且可替换地通过适配器或连接器附着到视频会议装置80。该适配器可以形成摄像机50和视频会议装置80之间的机械连接，以使得摄像机50的位置由视频会议装置80支持。机械连接可以包括锁定机制以防止摄像机50从视频会议装置80上脱开，诸如在视频会议装置80移动的过程中。该适配器可以使用例如传统的总线连接器、带状连接器、无线连接或任意其它可以契合或配合机械连接的其它配套连接形成摄像机50和视频会议装置80之间的电连接，以使得机械和电气连接同时形成。机械连接可以被配置，以形成摄像机50的机械配套，并且视频会议装置80在摄像机50和视频会议装置80的电气连接组件相互联系之前匹配电气连接组件。该电气连接例如可以承载视频数据或信号、控制数据或信号，以及供电。

进行视频会议的所有或部分必需组件，包括音频和视频模块，网络模块，摄像机控制模块等等可以包括在耦接到视频会议装置80的独立视频会议单元95中。另一方面，所有或一些必需的视频会议组件可被置于视频会议装置80中使它称为视频会议端点。因而，视频会议装置80可以是具有摄像机50其它有关组件的独立单元，而视频会议单元95负责所有的视频会议功能。当然需要时，装置80和单元95可被结合成一个单元。

尽管装置80被表示成具有被设置成与视频会议装置80附近的一个摄像机50，不过摄像机50可以完全与视频会议装置80分离。

图3简要表示可为图2的视频会议装置80的一部分的一些例证组件。如图所示，视频会议装置80包括控制处理器110，现场可编程门阵列(FPGA)120，和视频处理器140。

工作期间，FPGA120捕捉来自摄像机50的视频输入，产生给视频会议单元95的输出视频，并把输入视频发给视频处理器140。FPGA120还可比例缩放和合成视频和图形覆盖图。

可以是数字信号处理器(DSP)的视频处理器140捕捉来自FPGA120的视频，并负责运动检测，面部检测和其它视频处理，以帮助跟踪一个或多个与会者。如下更详细所述，例如，视频处理器140可以使用面部检测算法找出每个脸的位置，并随后基于该位置为每个脸生成帧信息以及一些具体的策略，这将在后面更详细地讨论。

可以是通用处理器(GPP)的控制处理器110负责与视频会议单元95的通信，并负责视频会议装置80的摄像机控制和全部系统控制。

C.控制方案

在了解上面说明的视频会议装置和组件的情况下，下面讨论公开的视频会议装置80的操作。首先，图4A表示公开的视频会议装置80用于进行视频会议的控制方案150。如前所述，在视频会议期间，控制方案150利用视频处理160控制摄像机50的操作并输出视频。尽管在下面进行了简要说明，不过各种视频处理技术中的几种技术将在后面更详细地讨论。

简要地，视频处理160可利用离摄像机50的焦距来确定到与会者的距离，并且可以利用以颜色，运动和面部识别为基础的基于视频的技术来跟踪与会者。于是如图所示，视频处理160可以利用运动检测，肤色检测，面部检测和其它算法来处理摄像机50的视频和控制操作。在视频处理160中，还能够利用在视频会议期间获得的记录信息的历史数据。用于摄像机50的优化的摄像机参数，例如增益、光圈（如果可以）等可以基于视频处理160中生成的取景画面来计算，并配置它。此外，可以基于生成的取景画面在视频处理160中在图像输出显示之前智能地对其进行后处理。

如果所有的与会者（优选地在一个时间限之后）离开，视频会议装置80将生成控制信号关闭或休眠视频会议系统。视频会议装置80并不太费电，它能够不断地记录视频来基于某些规则检测视频会议的意图，并生成控制信号来打开或者唤醒视频会议系统。

D.操作概述

在给出该概括的控制方案的情况下，下面讨论图4B中的，所公开视频会议装置80在视频会议期间的操作的更详细过程180。当开始视频会议时，视频会议装置80捕捉视频(方框181)，并输出视频会议中的包含物的当前画面(方框182)。一般来说，在视频会议开始时，摄像机50对房间取景，最好调整摄像机50以包括所有与会者(如果可能的话)。

运动检测、肤色检测、面部检测和其它算法将被用于对小组画面取景，包含几乎所有的与会者，或者一个或多个关心的与会者。一旦确定了取景画面，视频会议装置80直接从宽画面中将其剪切出来并且发送用于显示（方框243）。所述剪切可以是逐帧进行剪切的，对宽画面视频的每一帧图像或每一帧采样的图像中的取景画面进行剪切，以形成取景画面的视频。它可以对取景画面进行后处理并调节它的尺寸（例如发送显示之前进行方法以适应于显示）。

随着视频会议的进行，视频会议装置80监测捕捉的视频（方框244）。当这样做时，视频会议装置80利用各种判定和规则来管理视频会议装置80的行为。对于给定的实现，可按照任意特定的方式安排和构成所述各种判定和规则。由于一种判定会影响另一种判定，一种规则会影响另一种规则，因此可不同于图4B中所述地安排所述判定和规则。

1．视频会议器件区域改变了，但还不至于到要改变策略的程度

如果现有的与会者移动、离开，或新的与会者加入视频会议等，则生成的取景画面将多少会改变（方框245）。视频会议装置80应用各种规则246并且判定是否把视频会议装置80输出的当前取景画面切换成另一个画面(判定188)，从而输出当前画面(182)或者改变画面(189)。

例如，如果面部落在了当前取景画面之外，则视频会议装置80将确定改变画面。或者当各个脸的中心点偏离取景画面的中心点太远，则视频会议装置80将确定改变画面。

E.切换画面和取景

现在参见图5，过程200提供视频会议装置80如何切换画面，和对当前一个或多个与会者取景的更多细节。操作从视频会议装置80利用摄像机50拍摄视频开始(方框202)。视频会议装置80可利用宽画面，并可输出该视频，尤其是在视频会议开始时(方框204)。

视频会议装置80分析视频，使用面部监测算法来对所有与会者或指定的一个或一组人员取景（方框205），所述一个或一组人员可以通过历史数据指定。例如，视频会议装置80可以被指令来对其存储的约翰先生取景。或者视频会议装置80可以被指令来对特定位置的人员取景，例如桌子正中间。视频会议装置80将取景画面从宽画面中剪切出并输出（方框217）。

如在视频会议中所预料到的，与会者有时可移动、改变其位置，或随着会议的进行加入或离开。因此，管理输出什么视频的各种决策和规则最好按照避免过多切换摄像机画面和避免显示不太重要的或者题外的画面的方式，应付视频会议环境的动态性质。

这里公开用于确定当前取景画面是否恰当地对当前小组取景的几种技术。例如，一旦确定了取景画面，视频会议装置80就能够利用下面讨论的基于运动的视频处理算法，使该小组进入画面。如果所述算法报告取景良好(判定219)，那么取景画面保持不变（方框221）。如果没有报告取景良好，则视频会议装置80能够再次分析摄像机50捕捉的宽画面。

1.取景细节

为了跟踪移动的与会者，视频会议装置80还可把这里公开的基于运动的技术和其它技术用于会议期间一个或多个与会者的自动取景。此外，视频会议装置80可具有摄像机画面中的可配置的不拍摄区域。按照这种方式，用户能够定义摄像机视场中的不使视频会议装置80取景以拍摄视频的区域。一般来说，这些不拍摄区域应是视场中，主要会拍摄到会议桌、墙壁等的区域。

参见图6A-6B，表示了由摄像机50捕捉的用于分析目的宽画面230A。另外，表示了在与会者移动之后，以一位视频会议与会者为中心取景的由视频会议装置80确定的紧凑画面230B。在宽画面230A中定义了不拍摄区232，以供参考。可在关于特定房间校准视频会议装置80的过程中实现这些不拍摄区232，并且这些不拍摄区232不会因会议而异。

在图6A中，在视频会议与会者开始发言之后，视频会议装置已对定位了视频会议与会者并对紧凑画面230B取景。由于一些改变(即，离开，加入，移动等)，紧凑画面230B未恰当地对一个或多个与会者取景。为了核实正确的取景，视频会议装置80搜索紧凑画面230B的拍摄视频中的特性，比如运动，肤色或面部特征。

为了检测运动，视频会议装置80顺序比较剪切的视频的采样帧，并识别由移动引起的差异。例如，如下更详细所述，视频会议装置80能够通过计算帧或帧的一部分中的像素的亮度值的总和，确定移动，并在顺序各帧之间相互比较所述总和。如果两个总和之间的差异大于预定阈值，那么该帧或帧的一部分可被标记为具有运动的区域。最后，可迭代地调整紧凑画面230B，或者使其以该检测到的运动为中心。

例如，视频会议装置80可能使一个或多个与会者进入过高或过低，或者过右或过左的紧凑画面230B中。首先根据运动像素调整取景画面。如果摄像机50过高地指向一个或多个与会者(即，一个或多个与会者的头部被显示在画面230B的下半部)，那么根据运动像素(即，通过处理找到的最上面的运动块)，降低取景画面。

如果根本不存在与视频会议装置80取景的当前紧凑画面230B相关的运动块，那么视频会议装置80能够转向宽画面。

作为运动检测的备选方案，视频会议装置80利用本领域中已知的各种技术，检测紧凑画面230B的视频中的肤色。简要地说，视频会议装置80能够计算帧或帧的一部分内的色度值的平均值。如果所述平均值在与肤色相关的范围内，那么该帧或其一部分被认为具有肤色特性。另外，视频会议装置80可利用面部识别技术来检测和定位摄像机的画面230B中的面部。例如，视频会议装置80可通过找出可能包含人类皮肤的区域，随后从这些区域中找出指示画面中的面部位置的区域，来找出面部。在美国专利No.6593956，“Locating anAudio Source”中公开了与肤色和面部检测有关的细节，该专利在此引为参考。随后可迭代地调整紧凑画面230B，或者使其以检测到的肤色和/或面部识别为中心。

视频处理能够确定不同调整的画面之间在运动，肤色或面部确定方面的差异，以找出哪个画面更好地对与会者取景。另外，运动，肤色或面部确定都可被组合在一起。

通过利用这些取景技术，视频会议装置80减小了视频会议装置80产生不是一个或多个与会者、或者未被很好取景的某物的拉近画面的可能性。换句话说，视频会议装置80减小了在常规系统中会发生的不恰当取景(例如，对会议桌、空白墙壁的拉近，对一个或多个与会者的膝上型计算机的拉近)的可能性。

F.自动取景过程

当动态地使摄像机50对着当前一个或多个与会者时，公开的视频会议装置80能够利用运动，肤色和面部识别恰当地对与会者取景。作为取景技术的一部分，公开的视频会议装置80可首先通过在视频会议开始时，或者相隔不同的时间间隔检测房间的拍摄视频中的相关块，估计与会者的位置。通过查看拍摄的视频中的运动，肤色，面部识别，或者它们的组合，能够确定这些相关块。该自动取景过程可由视频会议与会者在会议开始时，或者在任何其它适当的时候启动。另一方面，自动取景过程可在开始视频会议呼叫时，或者在某一其它触发时间自动发生。通过了解拍摄的视频中，和与会者的位置对应的相关块，当确定取景画面时，视频会议装置80就能够利用这些已知的相关块。

图7A表示按照本发明的利用自动取景的过程400A。下面关于如在图1A中公开的单摄像机系统讨论过程400A。不过，自动取景技术同样可用于具有其它配置的视频会议系统。

在视频会议开始之前的发起期间(即，当连接呼叫和与会者作好准备时)，视频会议装置80启动时限(方框402)，并对由摄像机50拍摄的视频采样(方框404)。为此，视频会议装置80通过一直变焦拉远摄像机，获得整个房间的视频。在获得房间的宽画面之后，视频会议装置80随后把宽画面分成多个块，以便单独分析(方框406)。换句话说，关心的房间空间的默认宽画面被分成多个部分或块(N＝2，3等)。这些块都代表摄像机的特定紧凑画面。特定紧凑画面的位置可以由参数（x, y, w, h）确定，其中x和y指示画面左下角的坐标，w和h指示画面的宽和高。

每个图像460被表示成分成几个块462(本例中，15个，不过可以使用其它值)。块462至少和一个像素一样大，可以是视频压缩算法通常使用的宏块的大小。同样地，这些块462都与特定参数（x, y, w, h）相关。

在图7A中，把房间的宽画面分成多个块的情况下，视频会议装置80选择每个块(方框408)，并检查每个块，以确定该块对自动取景来说的关联性。为了检查每个块462，摄像机50被拉近成包含该块的紧凑画面，以确定在房间的整个画面中，该块具有什么关联性(即，运动，肤色，面部识别等)(方框410)。通过拉近，利用摄像机50获得的视频图像能够更好地检测运动，肤色和其它细节。然而，由于非PTZ摄像机的限制，不是所有的块都可以被拉近。这那样的情况下，该步骤可以被省略。

从而，视频会议装置80确定所选块的（拉近）图像是否相关(判定412)。如果块被确定为相关的，那么视频会议装置80把该块标记为相关(方框414)，并把它的关联位置信息参数(x, y, w, h)保存在存储器中，供以后使用。

相关块是重要的是，因为它们定义用于当在视频会议期间动态需要时，恰当地构成画面的关心区域并剪切输出。换句话说，相关块包含具有指示它至少是视频会议与会者的关心对象的一部分的特性的画面的一部分。通常在视频会议中，与会者是关心的对象。在这种情况下，表示视频会议与会者的可搜索特性可包括如前所述的运动，肤色和面部特征。

在检查所有块(判定416)和确定所述时限是否结束(判定418)之后，视频处理确定最外面的相关块(方框420)。这些最外面的相关块可包括最左边，最右边和最上面的相关块。如果需要的话，可忽略最下面的相关块。根据这样的最外面的块，视频会议装置80计算用于构成环境中的与会者的最适配画面的参数（x, y, w, h），所生成的取景画面将被从宽画面中剪切并输出(方框422)。

最后，视频会议装置80根据从分析块获得的合成结果，对房间取景。为了图解说明，图6A表示了广角画面460中的相关块462的取景区域470。在考虑区域470中的最左边，最右边和最上面的相关块462之后，图6B随后表示广角画面460中的最后得到的取景画面472。通过了解最佳画面472，视频会议装置80能够从宽画面中剪切取景画面，从而视频会议室的多余部分不被输出。

图7B表示按照本发明的利用自动取景的过程400B。下面关于如在图1A中公开的单摄像机系统讨论过程400A，不过，自动取景技术同样可用于的具有其它配置的视频会议系统。

在视频会议开始之前的发起期间(即，当连接呼叫和与会者作好准备时)，视频会议装置80启动时限(方框402)，并对由摄像机50拍摄的视频采样。为此，视频会议装置80通过一直变焦拉远摄像机，获得整个房间的视频(方框404)。在获得房间的宽画面之后，视频会议装置80缩放宽画面中捕捉的视频（方框405）。应注意它不对摄像机缩放，而是对宽画面视频缩放。这是为了一般面部模板的比较。面部模板可以是固定大小，而所捕捉的宽画面中的面部大小由于其到摄像机50的距离而变化。通过以不同的比例不断地缩放宽画面视频，我们可以分别将各个面部调整到与面部模板一样大小。

每次对宽画面缩放时，使用一般面部模板在视频中进行面部识别（方框407）。

相应地，视频会议装置80确定在缩放的图像中是否有面部识别出（判定409）。如果有面部被识别出，则视频会议装置80取得包含面部的长方形区域的左下角的坐标（x, y）以及该长方形的宽和高（方框411）。步骤405－411不断重复直到达到时限。

在确定时限已经结束后（判定418），视频处理确定包含所有面部的最大相关取景（方框419）。它可由最左边、最右边和最上边的面部确定。对于这样的取景，视频会议装置80计算参数以构成环境中的与会者的最适配画面（方框422）。例如，取景位置可以由（X, Y,W, H）决定，其中X和Y表明包含面部的长方形区域的左下角的点的坐标，W和H表明取景宽和高。

1.利用运动的自动取景

可利用如上所述的几种技术，确定块为相关块。在图8A中所示的一个实施例中，视频处理通过确定哪些块指示与会者移动，识别相关块。如图所示，视频处理选择一个块(方框408)，并如前所述，用紧凑画面拉近该块(方框410)。随后，视频处理对所选块的由拉近的摄像机50捕捉的视频帧速率进行抽选(decimate)，以降低计算复杂性。例如，在一种实现中，帧速率可被抽选到约6帧/秒。在此时或者任意其它时刻，可以应用时间和空间滤波以改善检测，和消除噪声或干扰。

通过利用连续各帧，视频处理计算块的各帧之一内的各个像素的亮度值之和，并把该值与在块的另一帧内的亮度值之和相比较(方框434)。如果这两个和数之间的差异大于预定阈值(判定436)，那么视频处理把该对象块标记为相关块，并且可能包含运动(方框414)。

最后，逐块地计算连续各帧之间在亮度值方面的差异，直到分析了所有块为止(判定416)。一旦分析了所有块，视频会议装置80根据运动确定了哪些块是相关块。此时，视频会议装置80继续图7A中的过程步骤，以根据相关块，对房间的宽画面自动取景。

为了图解说明，图10表示了块的与会者在第一位置的第一帧464，并且表示了该块的与会者已移动的后续帧465。上面讨论的基于运动的技术计算这两帧464/465的亮度的平均值，并比较这些平均值。如果亮度方面的差异大于阈值，那么与这些帧464/465相关的块被确定为能够被指定成取景画面的一部分的相关运动块。

相反，帧466/467表示视频会议室的保持静止的一部分。当在这些帧466/467之间比较亮度平均值时，所述差异低于所述阈值，以致与这些帧466/467关联的块不被确定为相关块。

关于亮度差的阈值可取决于使用的摄像机，白平衡，光量和其它因素。于是，所述阈值是可自动或人工配置的。例如，视频会议装置80可采用低阈值，以根据视频会议与会者的有意识和无意识运动，检测相关块。当视频处理利用这样的低阈值时，它对运动的灵敏度较高。相反，随着阈值的增大，视频会议装置对运动的灵敏度降低。从而，定位参加发言的视频会议与会者所必需的最小阈值高于定位仅仅表现出被动运动的视频会议与会者所必需的最小阈值。于是，通过调整阈值，在视频会议与会者发言时，视频处理能够检测到该与会者，当该与会者只是被动地坐着时，视频处理能够避免检测到该与会者。由于这些原因，运动检测中涉及的任何阈值都是可配置的，并且可在操作中自动调整。

2.利用肤色的自动取景

在图8B中所示的另一个实施例中，视频处理根据块的像素是否包含肤色，确定相关块。本领域中已知在图像内寻找肤色的多种方法。在这个例子中，和前面一样，视频处理选择一个块(方框408)，并可用紧凑画面拉近该块(方框410)。随后，视频处理对块或其各个部分的拍摄视频的一帧或多帧采样(方框440)，需要的话，对其滤波(方框442)，并计算对象块内的色度值的平均值(方框444)。如果所述平均值在与人类肤色相关的范围之内(判定446)，那么该块被标记为相关块(方框414)。

在引用的美国专利No.6593956中公开了与肤色检测相关的细节。肤色检测可取决于许多因素，也可以是人工配置和自动配置的。在任何情况下，逐块地计算平均色度值，直到对所有块分析了相关性为止(判定416)。此时，视频会议装置80继续图7A中的过程处理，以根据相关块，自动构成房间的宽画面。

G.利用面部识别的自动取景

在图8C中表示的另一个实施例中，视频处理可利用面部识别来确定相关块。本领域中已知识别面部特征的许多方法。在引用的美国专利No.6593956中公开了与面部检测相关的细节。在这个例子中，视频处理选择已被分析和标记为具有肤色的各个邻接块(方框450)。面部识别算法随后关于面部特征，对一组邻接的块进行分析(方框452)。如果检测到面部特征(判定454)，那么该组邻接的块被标记为可用于稍后的自动取景的相关面部块(方框456)。

最后，逐组地关于面部识别分析所有邻接块，直到分析了所有各个块为止(判定416)。此时，视频会议装置80继续图7A中的过程处理，以根据相关块自动构成房间的宽画面。

H.另外的自动取景细节

操作中，如果画面内的条件发生变化，那么视频会议装置80需要对由摄像机50获得的当前画面重新取景。例如，在视频会议期间，视频会议与会者可能离开画面，或者新的与会者可能进入房间中。视频会议装置80可定期重新扫描宽画面，以发现任何变化(即，任何新的或旧的相关块)。当重新扫描时，视频处理能够定位包含与会者或者没有与会者的那些块，从而在重新计算用于从摄像机画面剪切的参数，可以考虑这些块。另一方面，视频会议与会者可利用用户界面或者遥控器，开始重新取景序列。

尽管这些取景技术有益于前面公开的单摄像机装置80，不过，这些技术也可用在双摄像机装置中。此外，这些取景技术可以和具有麦克风的任何排列的系统一起使用。

虽然已经结合具体实施例描述了本发明，但是本领域技术人员将理解，可以做出许多改变和修改，并且可以对其元件进行等效替换，而不背离本发明的真正范围。此外，可以做出许多修改来使本发明的教导与特定情况适配，而不背离其中心范围。因此，本发明并不限于这里作为实现本发明而构思的最佳模式而公开的特定实施例，相反本发明包括落入所附权利要求书范围内的所有实施例。

Claims

1.一种用于视频会议系统的视频会议装置，包括：

一个摄像机，配置用来捕捉视频会议环境的宽画面的第一视频；

通信接口，配置来通信连接到所述视频会议系统；以及

处理单元，可操作地耦接到所述摄像机和所述通信接口，该处理单元可编程来执行下述步骤：

基于第一视频的特征确定取景画面；

从第一视频中剪切取景画面的第二视频；

输出第二视频；

基于所述第二视频的特征来确定所述摄像机的光参数以优化所述第二视频；以及

调节所述摄像机的光参数以优化所述第二视频。

2.如权利要求1所述的视频会议装置，其中所述摄像机的方向是固定的。

3.如权利要求1所述的视频会议装置，其中所述第二视频在输出之前被调节尺寸。

4.如权利要求1所述的视频会议装置，其中所述处理单元进一步被编程来对要输出的第二视频执行后处理。

5.如权利要求1所述的视频会议装置，其中所述取景画面按照如下步骤确定：

识别所述第一视频中的所有面部；

生成包含所有面部的取景框。

6.如权利要求1所述的视频会议装置，其中所述取景画面按照如下步骤确定：

识别所述第一视频中的指定的一个或多个面部；

生成包含指定的一个或多个面部的取景框。

7.如权利要求1所述的视频会议装置，其中所述处理单元被进一步配置来使用通过通信接口接收的更新数据更新所述视频会议装置。

8.如权利要求1所述的视频会议装置，其中所述视频会议装置是视频会议端点。

9.一种视频会议方法，包括：

用视频会议装置的摄像机捕捉视频会议环境的宽画面的第一视频；

基于第一视频的特征确定取景画面；

从第一视频中剪切取景画面的第二视频；

输出所述第二视频；

调节所述摄像机的光参数以优化所述第二视频。

10.如权利要求9所述的视频会议方法，其中所述摄像机的方向是固定的。

11.如权利要求9所述的视频会议方法，其中所述第二视频在输出之前被调节尺寸。

12.如权利要求9所述的视频会议方法，进一步包括：对要输出的第二视频执行后处理。

13.如权利要求9所述的视频会议方法，其中所述取景画面按照如下步骤确定：

识别所述第一视频中的所有面部；

生成包含所有面部的取景框。

14.如权利要求9所述的视频会议方法，其中所述取景画面按照如下步骤确定：

识别所述第一视频中的指定的一个或多个面部；

生成包含指定的一个或多个面部的取景框。

15.如权利要求9所述的视频会议方法，进一步包括：

接收所述视频会议装置的更新数据；

用更新数据更新所述视频会议装置。

16.如权利要求9所述的视频会议方法，其中所述视频会议装置是视频会议端点。