CN1555647A

CN1555647A - 通过合作分布式视觉工作的智能四画面显示器

Info

Publication number: CN1555647A
Application number: CNA028180267A
Authority: CN
Inventors: S��V��R��; S·V·R·古特塔; V·菲洛明; ά; M·特拉科维
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-09-17
Filing date: 2002-09-04
Publication date: 2004-12-15
Also published as: US20030052971A1; KR20040035803A; WO2003026281A1; EP1430712A1; JP2005503731A

Abstract

调整人的显示图像的位置的系统和方法。该系统包括控制单元，控制单元接收图像序列并处理接收的图像以确定人是否位于要显示的接收图像的边界处。如果是的话，则控制单元产生控制信号，控制提供图像序列的光学装置的位置，从而使这个人完全位于图像之内。

Description

通过合作分布式视觉工作的智能四画面显示器

本发明涉及四画面显示器以及在单一显示器上显示多个视频流的其它显示器。

与四画面显示器配合使用的视频系统的一部分如图1所示。图1中，四个摄像机C1-C4表示为提供房间R的视频监视。房间R表示为具有基本呈方形的房屋面积，摄像机C1-C4分别位于房间R的不同角落。各摄像机C1-C4捕捉处于摄像机视场(分别为FOV1-FOV4)内的图像，如图1所示。

应指出，摄像机C1-C4通常位于房间里接近天花板的角落，并朝下且覆盖要捕捉图像的空间。但是，为了便于描述，摄像机C1-C4的视场FOV1-FOV4的表示和描述仅限于对应于地面平面的二维，如图1所示。因此，摄像机C1-C4可视为安装在靠近地板且平行于地板朝向整个房间的位置。

图1中，人P表示为位于靠近摄像机C1、C2的视场FOV1、FOV2的边缘的位置，完全在摄像机C3的FOV3之内以及C4的FOV4之外。参照图2，说明四画面显示器D1-D4中的人P的图像。显示器D1-D4对应于摄像机C1-C4。可以看到，人P正面的一半在显示器D1(对应于C1)中显示，人P背面的一半在显示器D2(对应于C2)中显示。人P的背面在D3(对应于C3)的中央完全可见，在D4(对应于C4)中看不到P的图像。

先有技术四画面显示系统存在的问题在图1和图2中十分明显。可以看到，处于这种位置的人P可能把他的右手越过身体，把物品放入左边口袋，而四个显示器的任一个中却没有显示出他的手和物品。因此，人P可能站立在房间的某些区域并从商店中偷取商品，而在任何一个显示器上无法观察到这种偷窃行为。熟练的窃贼仅通过估计房间内摄像机的视场，就能轻易地确定如何站位。此外，即使人P没有仔细选定位置以使偷窃行为本身无法在摄像机之一上观察到，但熟练的窃贼通常能够选择自己的位置，使他的图像在两个摄像机(例如用于显示器D1和D2的摄像机C1和C2)之间分开。这会对监视显示器的人员在查看哪个显示器方面造成充分的混乱，使窃贼能够把商品放入其口袋、提包中而不被监测到。

因此，本发明的一个目的是提供一种系统和方法，用于采用多个摄像机和显示器来检测人和对象，它在检测到部分图像时进行调节和调整，以便显示人的至少一个完整正面图像。

因此，本发明其中还包括一种用于调整人的显示图像的位置的系统。该系统包括控制单元，它接收图像序列，并处理接收图像以确定人是否位于待显示的接收图像的边界处。如果是的话，则控制单元产生控制信号，控制提供图像序列的光学装置的位置，使得这个人完全位于图像之内。控制单元通过把图像序列中的活动对象识别为人，并在图像序列中跟踪这个人向图像边界的移动，可确定这个人位于接收图像的边界处。

另外，控制单元可以从两个或两个以上的相应光学装置接收两个或两个以上图像序列，其中光学装置经过定位，使得相应两个或两个以上图像序列的一些区域重叠，以及分开显示(例如在四画面显示器中)两个或两个以上图像序列。对于两个或两个以上图像序列中的每个，控制单元处理序列的接收图像以确定人是否位于接收图像的边界处。若对于两个或两个以上图像序列中的至少一个，控制单元确定这个人位于接收图像的边界处，则控制单元产生控制信号，控制相应图像序列的光学装置的位置，以便显示完整图像。

本发明还包括一种调整人的显示图像的位置的方法。首先，接收图像序列。随后，确定这个人是否位于待显示的接收图像的边界处。如果是，则调整提供图像序列的光学装置的位置，使得这个人完全位于图像之内。

在包含于本发明的范围之内的另一种方法中，接收两个或两个以上图像序列。确定这个人在每个待显示的接收图像序列中是全部可见还是部分可见。若确定这个人在待显示的一个或多个接收图像序列中部分可见，则调整提供一个或多个接收图像序列中的相应一个序列的至少一个光学装置，使得这个人完全位于接收图像之内。

图1是位于房间内的提供四画面显示的摄像机的表示；

图2是位于如图1所示的房间内的人的四画面显示；

图3a是用于本发明的一个实施例、位于房间内的摄像机的表示；

图3b是结合了如图3a所示定位的摄像机的本发明的一个实施例的系统的表示；

图3c和3d是位于图3a的房间内的人的四画面显示，其中摄像机通过根据本发明的一个实施例的图3b的系统进行调整。

参照图3a，说明本发明的系统100的一个实施例的一部分。图3a表示具有视场FOV1-FOV4、位于房间的四个角落、与图1的四个摄像机相似的四个摄像机C1-C4。以下说明也将集中于二维描述，但本领域的技术人员可容易地把系统修改为三维。

图3b描述系统100在图3a中没有标明的其它部件。可以看到，各摄像机C1-C4分别安装在步进电动机S1-S4上。步进电动机S1-S4允许摄像机C1-C4绕其相应的中心轴(分别为A1-A4)旋转。因此，例如，步进电动机C1能够把摄像机C1转动一个角度Φ，使得FOV1由图3a中的虚线来定义。轴A1-A4在图3a中从页面的平面向外伸出，如轴A1所示。

步进电动机S1-S4由控制单元110所产生的控制信号来控制，其中控制单元110可以是例如微处理器或其它数字控制器。控制单元110分别通过线路LS1-LS4向步进电动机S1-S4提供控制信号。绕轴A1-A4的旋转量分别确定摄像机C1-C4的光轴(在图3a中分别为OA1-OA4)的位置。由于光轴OA1-OA4平分相应的视场FOV1-FOV4且垂直于轴A1-A4，因此相应光轴OA1-OA4绕转动轴A1-A4的这种旋转有效地确定摄像机C1-C4的视场FOV1-FOV4覆盖的房间的区域。因此，例如，如果人P位于最初FOV1的边界处如图3a所示的位置，则从控制单元110发送到步进电动机S1、使摄像机C1绕轴A1旋转角度Φ的控制信号将把这个人完全定位在FOV1(图3a中表示为FOV1’)之内。步进电动机S2-S4分别可同样地控制摄像机C2-C4绕轴A2-A4旋转。

再参照图3a，可以看到，对于所示位置中的摄像机C1-C4的视场FOV1-FOV4，将在如图3c所示的相应四画面显示器中描述人P。P在视场和显示器中的最初位置类似于上述图2。对于图3c的描述，摄像机C1处于其最初(未旋转)的位置，其中人P处于FOV1的边界上。因此，在摄像机C1的显示器D1中仅显示了人P的正面图像的一半。另外，人P处于FOV2的边界上，因此在摄像机C2的显示器D2中仅显示了人P的背面图像的一半。摄像机C3捕捉P的整个背面图像，如显示器D3中所示。人P完全位于C4的FOV4之外；因此，显示器D4上没有出现人P的图像。

当控制单元110发信号通知步进电动机S1把摄像机C1绕轴A1旋转角度Φ、使摄像机C1的视场FOV’为如图3a所示以及如上所述完全捕捉到人P的FOV’时，则人P的整个正面图像将显示在显示器D1上，如图3d所示。通过以这种方式旋转摄像机C1，在显示器D1中清楚地显示了把物品放入其正面口袋的人P的图像。

一个或多个摄像机C1-C4为了对分割的图像或部分图像进行调整而进行的这种旋转由控制单元110通过对分别经数据线路LC1-LC4从摄像机C1-C4接收的图像进行图像处理来确定。从摄像机接收的图像最初经过处理，确定受关注对象、如人体是否仅部分显示在一个或多个显示器上。在以下描述中，重点说明位于一个或多个摄像机的视场边缘、因而仅部分出现在相应显示器的边缘上的人体，如图3c所示的摄像机D1和D2。

控制单元110可采用各种图像识别算法进行编程，以便检测人体，特别是识别因某个人处于摄像机视场的边界上而使人体图像部分显示在显示器边缘时的情况。例如，对于所接收的各视频流，控制单元110首先可编程为检测图像数据中的活动对象或物体，以及确定每个这种活动对象是不是人体。

在Srinivas Gutta和Vasanth Philomin于2001年2月27日提交的题为“通过模型集的对象分类”、序号为09/794443的美国专利申请(代理人档案号为US010040)中描述了可用于对对象运动的这种检测以及随后把活动对象识别为人体进行程序设计的一种特定技术，通过引用将其结合到本文中且称为“‘443申请”。因此，如‘443申请中所述，控制单元110分析所接收的每个视频数据流以检测其中的任何活动对象。‘443申请中提到的用于检测运动的特定技术包括背景减法方案并利用彩色信息来分割对象。

可使用其它运动检测技术。例如，在用于检测运动的另一种技术中，对图像的图像阵列中的各像素(x，y)计算函数S(x，y，t)的值，各连续图像用时间t表示：

S (x, y, t) = \frac{{&PartialD;}^{2} G (t)}{{&PartialD; t}^{2}} * I (x, y, t)

其中G(t)是高斯函数，I(x，y，t)是图像t中各像素的亮度。图像中的边缘的运动由S(x，y，t)中的时间过零点来标识。这些过零点将聚类在图像中，这些移动边缘的聚类将提供运动中的人体轮廓。

聚类也可用于根据对象的位置、运动以及形状来跟踪连续图像中对象的移动。对少量连续帧跟踪聚类之后，就可建立例如具有恒定高度和宽度(“有界框”)的模型，并可对有界框在连续图像中的重复出现进行监测和量化(例如通过持续参数)。这样，控制单元110可检测和跟踪在摄像机C1-C4的视场之内移动的对象。上述检测和跟踪技术在McKenna和Gong的“跟踪面部”(Proceedings of the Second InternationalConference on Automatic Face and Gesture Recognition，Killington，Vt.，1996年10月14-16日，第271-276页)中有详细描述，将其内容通过引用结合于本文中。(上述文件的第2部分描述对多个运动的跟踪。)

在数据流中控制单元110检测活动对象并启动对象跟踪之后，控制单元110确定对象是不是人体。采用大量各种分类模型之一、例如特别可靠的分类模型“径向基函数(RBF)”分类器对控制单元110编程。‘443申请描述了一种标识人体的RBF分类技术，用于最佳实施例中，对控制单元110进行编程以识别所检测的活动对象是不是人体。

简言之，所述RBF分类器技术从每个所检测的活动对象中提取两个或两个以上特征。最好是从每个所检测的活动对象中提取x梯度、y梯度以及组合的xy梯度。梯度属于活动体的视频数据流中提供的图像亮度的样值阵列。各x梯度、y梯度和x-y梯度图像由三个提供独立分类的独立RBF分类器使用。如以下的进一步描述，对象的RBF分类的这个集合(ERBF)改善了识别。

各RBF分类器是由三层组成的网络。第一输入层由源节点或感知单元组成，第二(隐藏)层由基函数(BF)节点组成，以及第三输出层由输出节点组成。活动对象的梯度图像馈送到输入层，作为一维向量。从输入层到隐藏层的变换是非线性的。一般来说，利用图像对于类的适当训练之后，隐藏层的各BF节点是对象分类(例如人体)的形状空间上的共同特征之一的函数表示。因此，在利用图像对类的适当训练之后，隐藏层的各BF节点把输入向量变换为反映BF由输入向量激活的标量值，它对于所考虑的对象的向量中所找出的、由BF所表示的特征的数量进行量化。

输出节点沿活动对象的形状空间把特征值映射为对象类型的一个或多个识别类，并确定活动对象的相应加权系数。RBF分类器确定活动对象属于具有加权系数最大值的类。RBF分类器最好是输出一个值，它表明活动对象属于对象的识别类的概率。

因此，接收例如视频流中活动对象的x梯度向量作为输入的RBF分类器将输出为该对象(例如人体或另一个对象类)确定的分类以及它属于该类输出的概率。包含RBF分类器的集合的其它RBF分类器(即y梯度和xy梯度的RBF分类器)也会提供对活动对象的输入向量的分类输出和概率。由三个RBF分类器所识别的类和相关概率用于记分方案中以推断活动对象是不是人体。

如果活动对象被分类为人体，则人要经过表征过程。所检测的人通过与表征关联来“标注”，因而能够在后续图像中被识别为已标注的人。标注人的过程与识别人的过程的不同之处在于，它不一定涉及明确地识别个人，而只是产生当前图像中的人被认为与前一个图像中的人匹配的指示。通过标注来对人进行的这种跟踪能够比对人的重复图像识别更迅速、更有效地进行，从而允许控制单元110更易于在来自四个不同摄像机C1-C4的各视频流中跟踪多个人。

本领域已知的标注人的基本技术采用例如模板匹配或彩色直方图作为表征。在Antonio Colmenarez和Srinivas Gutta于2000年11月1日提交的题为“利用基于外貌和几何特征的统计模型在图像处理系统中标注人”的美国专利申请序号09/703423(代理人档案号US000273)中描述了一种通过利用结合了外貌和几何特征的所标注人的统计模型来提供更有效的标注人的方法和设备，现将其通过引用结合于此，并且称为“‘423申请”。

控制单元110在最佳实施例中采用‘423申请的技术来标注和跟踪先前已识别的人。跟踪所标注的人充分利用视频段的先前帧中的已知位置和姿势的序列。在‘423申请中，识别的人的图像被分割为多个不同区域(r＝1，2，...，N)，例如头部、躯干和腿部。处理视频段的图像I，从而为要标注的人Ω产生基于外貌和几何的统计模型P(I|T，ξ，Ω)，其中T是用于捕捉图像I中人的全局移动的线性变换，ξ是用于捕捉给定时间点上人的局部移动的离散变量。

P(x|r，T，ξ，Ω)和P(f|r，T，ξ，Ω)在其相应的特征空间上均可近似为高斯分布。可从像素本身或从给定像素周围的指定“邻域”中为给定像素获取外貌特征向量f。外貌特征的色彩特征可根据诸如RGB、HIS、CIE等等众所周知的色彩空间的参数来确定。纹理特征可利用诸如边缘检测、纹理梯度、伽柏滤波器、Tamura特征滤波器等等众所周知的传统技术来获得。

这样，图像中像素的总和用于产生要标注的人Ω的基于外貌和几何的统计模型P(I|T，ξ，Ω)。生成之后，P(I|T，ξ，Ω)用于处理跟踪人的操作中的后续图像。如上所述，跟踪所标注的人充分利用视频段的前几帧中的已知位置和姿势的序列。因此，要产生由图像帧的序列所组成的视频段中的人的似然概率，统计模型P(I|T，ξ，Ω)与序列上人的全局轨迹T的似然概率(例如可由通过卡尔曼滤波器实现的全局运动模型来表征)以及在序列上所表征的局部运动的似然概率(可利用采用了转移矩阵的一阶马尔可夫模型来实现)相乘。

在上述方法中，控制单元110识别人体并根据来自各摄像机C1-C4的每个视频流中基于外貌和几何的统计模型来跟踪各种人。因此，控制单元110将对于从摄像机C1-C4接收的各视频流中的每个人产生单独的基于外貌和几何的统计模型。由于模型基于累积地对个人是唯一的色彩、纹理和/或其它特征，因此控制单元110比较各种视频流的模型，并识别所标识的哪个人在各种视频流的每个中是正被跟踪的同一个人。

例如，集中于出现在至少两个摄像机的视场中的一个人，这个人由此在至少两个视频流中被识别和跟踪。为简便起见，假定一个人为图3a的人P，他正从房间中央走向图3a所示的位置。因此，人P的完整图像最初由C1-C4所捕捉。因此，处理器P在各视频流中单独识别人P，并根据所产生的独立统计模型跟踪各视频流中的人P。控制单元110比较为数据流产生的P的统计模型(与正在数据流中移动的任何其它人的模型一起)，并根据人P在各数据流中相同的统计模型的相似性来确定。这样，控制单元110在各数据流中关联了对人P的跟踪。

进行关联之后，控制单元110监测各数据流中对人P的跟踪，以确定他是否移动到一个或多个摄像机的视场的边界处。例如，如果人P从房间中央移动到图3a所示的位置，则控制单元110在摄像机C1和C2的视频流中跟踪到达图像边界的P的图像，如图3c所示。作为响应，控制单元110可如以上所述驱动步进电动机，旋转一个或多个摄像机，使人P完全位于来自摄像机的图像之内。因此，控制单元110驱动步进电动机S1，顺时针旋转摄像机C1(如从图3a看到的)，直到人P完全处于来自摄像机C1的图像之内(如图3d的显示器D1中所示)。控制单元110还可驱动步进电动机S2以顺时针旋转摄像机C2，直到人P完全处于来自摄像机C2的图像之内。

如上所述，通过旋转摄像机C1，使人P的整个正面在图3d中可见，即可观察到这个人将物品放入他的口袋中。同样也提到，控制单元110可重新定位所有摄像机(例如图3a的摄像机C1和C2)，其中被跟踪的人P位于视场的边界处。但是，这对于系统的整体工作可能不是最有效的，因为希望其它摄像机覆盖尽可能多的空间。因此，在人P移动到如图3a所示(以及如图3c所示)的位置时，控制单元110或者也可确定哪个摄像机对准部分图像中的人的正面。这样，控制单元110将在来自摄像机C1和C2的图像中隔离人的头部区域(这是跟踪过程中的分割区域之一)，并在其中应用面部识别算法。面部识别可通过一种与上述利用RBF网络识别人体相似的方式来进行，在上述文档“跟踪面部”中有详细描述。对于来自C1的视频流中的图像，将检测到匹配，因为人P朝向摄像机，但对于C2则不存在匹配。通过这样确定，使人P朝向摄像机C1，摄像机C1由控制单元110进行旋转，以捕捉P的完整图像。另外，为了使空间的覆盖率最大以及减少操作员的混淆，显示P的背面部分的摄像机C2可由控制单元110进行逆时针旋转，使得根本不显示人P。

此外，还可为监视显示器的操作员提供以不同于控制单元110自动执行的方式来移动摄像机的选项。例如，在上例中，控制单元110移动摄像机C1，使人P的正面的完整图像显示在显示器D1上(如图3d所示)，并且还移动摄像机C2，使人P的背面的完整图像从显示器D2中消除。但是，如果窃贼用其右手绕到他的后部口袋，则更需要摄像机C2的图像。因此，可为操作员提供忽略控制单元110所执行的移动的选项。如果选定的话，则控制单元110倒转摄像机的移动，使人的完整图像通过摄像机C2来捕捉，并显示在D2上，而人的图像从显示器D1中去除。或者，控制单元110也可单独移动摄像机C2，使这个人的完整背面图像显示在显示器D2上，同时完整的正面图像保持在显示器D1上。或者，也可为操作员提供手动控制要旋转哪个摄像机以及手动输入旋转量的选项。

另外，在某些情况下(例如极少有人访问的高度机密区域)，控制单元110可调整所有摄像机的位置，使它们捕捉人的完整图像。在这个人完全超出了摄像机的视场之外(如图3a中的摄像机C4)的情况下，控制单元110可利用几何因素(如下面即将说明的那些)来确定旋转摄像机以捕捉图像的方向。

作为对于控制单元110根据所产生的统计模型在各种视频流中关联相同的人以跟踪这些人的备选方案，控制单元110可利用几何推理来关联相同的人。因此，对于各摄像机，控制单元110可把参考坐标系与从各摄像机接收的图像进行关联。参考坐标系的原点可定位于例如包含摄像机处于基准位置时的图像的画面的中心上的点。当摄像机由处理器经由相关步进电动机移动时，控制单元110经由来自步进电动机(例如通过线路LS1-LS4)的位置反馈信号或者通过记住过去和当前步进的累积量和方向来记住移动量。控制单元110还调整坐标系的原点，使其相对于画面中的点保持不变。控制单元110在图像中确定已识别的人的参考坐标系中的坐标(例如人的躯干的中心)。如上所述，参考坐标系相对于图像的画面中的点保持不变；因此，人的坐标随着人在图像中的移动而变化，控制单元110在各图像中为每个人维护该坐标。

如上所述，各摄像机的参考坐标系相对于包含来自摄像机的图像的画面中的点保持固定。各摄像机的参考坐标系通常在房间中的不同点上具有原点，并且可按照不同方式来定向。但是，由于它们各相对于房间(或各图像中的房间画面)为固定的，因此它们彼此之间可以是固定的。控制单元110经过编程，使得各摄像机的参考坐标系的原点和取向相对于另一个摄像机而言是已知的。

因此，正在摄像机的坐标系中移动的所识别的人的坐标由控制单元110转换为其它摄像机中每一个的坐标。如果所转换的坐标匹配一个或多个其它摄像机的视频流中所识别的人，则控制单元110确定它们是相同的人，并为上述目的而关联各数据流中对人的跟踪。

控制单元110可利用数据流中统计模型的比较以及采用参考坐标系的几何比较，从而确定不同视频流中所识别和跟踪的人是同一个人。另外，一个可用作主要判定而一个用作辅助判定，例如，当主要判定为不确定的时可使用辅助判定。

如上所述，为了便于描述，上述示范实施例实质上依靠可通过步进电动机S1-S2绕图3b所示的轴A1-A4旋转的基本上水平的摄像机。这些实施例很适合位于房间中较高位置、例如靠近天花板的摄像机。这些摄像机可以是PTZ(平移、俯仰或变焦)摄像机。平移特征实质上执行上述实施例中步进电动机S1-S4的旋转功能。摄像机的俯仰可通过相对于轴A1-A4调节摄像机的光轴角度的与各摄像机关联的第二步进电动机来执行，从而控制摄像机俯视房间的角度。活动对象被识别为人体并且以上述方式根据从摄像机接收的图像来跟踪，并且摄像机都可水平移动和垂直移动，以捕捉走到视场边界的人的完整图像。另外，通过垂直移动摄像机，所接收的图像可由控制单元110进行处理，从而利用已知的图像处理技术来说明三维(房间内相对于摄像机的高度)。控制单元110所产生的用于提供不同图像中的对象之间的几何关系的参考坐标系可扩展为包含第三维的高度。这些实施例当然容易修改以容纳超过或少于四个摄像机。

本发明包括调整一个或多个摄像机、使得在图像中完全捕捉到站立在视场边界上的人的其它方法。控制单元110为不同位置上的各个摄像机存储房间的一系列基准图像。基准图像包括一般位于房间内(例如架子、桌子、计算机等等)的对象，但不包括进出房间的任何对象、例如人(以下称作“暂时对象”)。控制单元110可把每个的视频流中的图像与适当的基准图像进行比较，并利用例如减法方案或者通过比较接收图像和基准图像之间的梯度来识别属于暂时对象的对象。这样，对于各摄像机，在视频流中识别一个或多个暂时对象的集合。

每个集合中的暂时对象的特定特征由控制单元110确定。例如，对象的色彩和/或纹理根据上述众所周知的方法来确定。来自不同视频流的对象集合中的暂时对象根据匹配特征、例如匹配色彩和/或纹理被识别为同一个对象。作为替代方式或者附加方式，上述与各摄像机的视频流关联的参考坐标系可由控制单元110用于同样如上所述根据位置来识别各视频流中的同一个暂时对象。

对于在各种数据流中识别为相同的每个对象，控制单元110分析一个或多个数据流中的对象，确定是不是一个人。控制单元110可在如上所述以及‘443申请中所述的判定中采用ERBF网络。在某个人位于某个对象之后或者位于摄像机之一的视场的边界处时，控制单元110可能必须分析第二摄像机的数据流中的对象。

在对象被确定为一个人的情况下，当这个人正在移动时，控制单元110在各种数据流中跟踪这个人。如果人是静止的或者停止不动，则控制单元110确定在一个或多个数据流中这个人是否被另一个对象(例如柱子、柜台等)所遮蔽，或者因处于一个或多个摄像机的视场的边缘而被部分截除。例如，控制单元110可通过图像中的位置或者数据流的参考坐标系来确定这个人位于视场的边缘。或者，控制单元110也可通过对各图像中的人的表面区域进行积分，确定这个人被遮蔽或位于视场的边缘。如果积分对于一个或多个数据流中的人比对于其它对象要小，则摄像机可由控制单元110来调整，直到面积分为最大，从而在摄像机的视场中捕捉完整图像(或者在某个对象遮蔽了这个人的情况下，尽可能多地捕捉)。或者，在这个人位于视场的边缘时，摄像机也可重新定位，使这个人完全处于视场之外。如上所述，调整也可由控制单元110根据一个或多个图像中的面部识别来进行，并且也可通过显示器操作员的手工输入来忽略。

通过引用将以下文档结合于本文中：

1.Gutta、Huang、Jonathon和Wechsler的“人类面部的性别、种族本源和姿势的分类专家的混合”(IEEE Transactions on NeuralNetworks，vol.11，no.4，第948-960页，2000年7月)，其中描述了利用所接收图像对面部细分类、如性别和种族的检测。“专家混合”论文中的技术可易于适合在图像中识别其它个人特征、如年龄。

2.Wren等人的“Pfinder：人体的实时跟踪”(M.I.T.Media LaboratoryPerceptual Computing Section Technical Report No.353，发表于IEEETransaction on Pattern Analysis and Machine Intelligence，vol.19，no.7，第780-85页，1997年7月)，它描述了在视频图像中查找并跟踪人体(或者例如头部或手)的“人类探测器”。

3.D.M.Gavrila的“从移动车辆中进行的行人检测”(ImageUnderstanding Systems，DaimlerChrysler Research)(Proceedings of theEuropean Conference on Computer Vision，Dublin，Ireland，2000年)(见于www.gavrila.net)，它描述了利用模板匹配方法对图像中的人(行人)的检测。

4.Isard和Blake的“视觉跟踪的压缩-条件性密度传播”(OxfordUniv.Dept.of Engineering Science，Int.J.Computer Vision，vol.29，no.1，第5-28页，1998年)(见于www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/ISARD1/condensation.html以及“Condensation”源代码)，它描述了利用统计抽样算法在图像中检测静态对象以及利用推测模型来检测对象运动。

5.Elgammal等人的“背景减法的非参数模型”(6th EuropeanConference on Computer Vision，ECCV 2000，Dublin，Ireland，2000年6月/7月)，它描述了利用减法方案在视频图像数据中检测活动对象。

6.Raja等人的“利用彩色混合模型的分割和跟踪”(Proceedings ofthe 3rd Asian Conference on Computer Vision，Vol.I，第607-614页，中国香港，1998年1月)。

虽然本文参照附图对本发明的说明性实施例进行了说明，但应当理解，本发明不限于这些具体的实施例，本发明的范围要由所附权利要求书的范围来定义。

Claims

1.一种用于调整人(P)的显示图像的位置的系统(100)，所述系统(100)包括接收图像序列的控制单元(110)，所述控制单元(110)处理所述接收图像，以便确定所述人(P)是否位于要显示的所述接收图像的边界处，以及当确定所述人(P)位于要显示的所述接收图像的边界处时，产生控制信号以控制提供所述图像序列的光学装置(C1-C4)的位置，使所述人(P)完全位于所述图像之内。

2.如权利要求1所述的系统(100)，其特征在于，所述控制单元(110)通过把所述图像序列中的活动对象识别为人(P)并在所述图像序列中跟踪所述人(P)向所述图像边界的移动，确定所述人(P)位于所述接收图像的边界处。

3.如权利要求2所述的系统(100)，其特征在于，通过利用RBF网络处理所述对象的数据，把所述活动对象识别为所述人(P)。

4.如权利要求2所述的系统(100)，其特征在于，在所述图像序列中跟踪所述人(P)的移动包括在所述图像中识别所述人(P)的至少一个特征，并利用所述至少一个特征来跟踪所述图像中的所述人(P)。

5.如权利要求4所述的系统(100)，其特征在于，所述至少一个特征是所述图像中的所述人(P)的至少一个区域的色彩和纹理其中至少一项。

6.如权利要求2所述的系统(100)，其特征在于，所述控制单元(110)从两个或两个以上的相应光学装置(C1-C4)接收两个或两个以上图像序列，所述光学装置(C1-C4)经过定位，使所述相应两个或两个以上图像序列的一些区域重叠，以及分开显示所述两个或两个以上图像序列。

7.如权利要求6所述的系统(100)，其特征在于，对于所述两个或两个以上图像序列其中的每个，所述控制单元(110)处理所述序列的接收图像以确定所述人(P)是否位于所述接收图像的边界处。

8.如权利要求7所述的系统(100)，其特征在于，对于所述两个或两个以上图像序列其中至少一个，在所述控制单元(110)确定所述人(P)位于所述接收图像的边界处时，所述控制单元(110)产生控制信号以控制相应图像序列的所述光学装置(C1-C4)的位置，以便捕捉所述人(P)的完整图像。

9.如权利要求8所述的系统(100)，其特征在于，所述控制单元(110)产生控制信号，使得所述光学装置(C1-C4)移动到使所述人(P)完全位于所述图像之内的位置。

10.如权利要求7所述的系统(100)，其特征在于，对于所述两个或两个以上图像序列其中的每个，所述控制单元(110)进行的关于所述人(P)是否位于所述序列的接收图像的边界处的判定包括在所述图像序列中识别活动对象，判定所述活动对象是不是人，并在所述图像序列中跟踪已确定为人的活动对象。

11.如权利要求10所述的系统(100)，其特征在于，在每个所述图像序列中对确定为人的活动对象的所述跟踪还包括在两个或两个以上所述图像序列中识别哪些人是同一个人。

12.如权利要求11所述的系统(100)，其特征在于，所述控制单元(110)通过把所述人(P)识别为两个或两个以上图像序列中的同一个人(P)并且跟踪所述人(P)到至少一个所述图像序列的边界处的位置，确定所述人(P)位于至少一个所述图像序列的所述接收图像的边界处。

13.一种调整人(P)的显示图像的位置的方法，所述方法包括以下步骤：接收图像序列，判定所述人(P)是否位于要显示的所述接收图像的边界处，以及调整提供所述图像序列的光学装置(C1-C4)的位置，使所述人(P)完全位于所述图像之内。

14.如权利要求13所述的方法，其特征在于，判定所述人(P)是否位于要显示的所述接收图像的边界处的步骤包括在所述接收图像中识别所述人(P)的步骤。

15.如权利要求14所述的方法，其特征在于，判定所述人(P)是否位于要显示的所述接收图像的边界处的步骤还包括在所述接收图像中跟踪所述人(P)的步骤。

16.一种调整人(P)的显示图像的位置的方法，所述方法包括以下步骤：接收两个或两个以上图像序列；判定所述人(P)在每个要显示的所述接收图像序列中是全部还是部分可见；以及在判定所述人(P)在一个或多个要显示的所述接收图像序列中部分可见时，调整至少一个提供所述一个或多个接收图像序列中的相应一个序列的光学装置(C1-C4)，使所述人(P)完全位于所述接收图像之内。