CN1324529C

CN1324529C - 对场景中的物体进行分类的系统及其方法

Info

Publication number: CN1324529C
Application number: CNB03807611XA
Authority: CN
Inventors: P·比尔滋利
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-07-30
Filing date: 2003-07-18
Publication date: 2007-07-04
Anticipated expiration: 2023-07-18
Also published as: CN1647097A; WO2004012140A2; JP4451307B2; US7043084B2; JP2005535016A; KR20040089670A; KR100617408B1; US20040022439A1; WO2004012140A3

Abstract

一种方法，用于把场景中的物体分类为运动的人或轮椅使用者。使用一组立体摄像机来获取场景中的图像。利用检测到的边来把场景中的物体从背景中分离。从边中生成物体的三维重建，并且对三维重建的高度和三维形状进行测试来对物体进行分类，分为活动的人或轮椅使用者。

Description

对场景中的物体进行分类的系统及其方法

技术领域

本发明主要涉及计算机视觉(computer vision)，尤其是在使用立体视觉(stereo vision)的场景中检测轮椅使用者。

背景技术

使用计算机视觉技术来分析场景中的图像是非常常见的。而经常需要分析的是随着时间动态变化的图像。例如，在许多的应用当中，需要判断一个物体，如一个人是否出现在场景中。

对物体的计算机视觉分析通常需要多个处理阶段。首先，物体要从背景中分离出来。其次，确定一些属性，如物体的形状、三维活动和位置。最后，为了进行分类或识别，对物体进行分析。

通常，在用固定的摄像机观察出现在静止背景前面的物体的情况下，背景减除(background subtraction)被用来进行分离。常规的背景减除采用的是基于每个像素亮度值的方法。通常，从静态场景的参考图像中对应的像素中减去活动图像的像素亮度来构造一个差图(differenceimage)。当在场景中没有活动物体的时候，可以提前获得参考图像。在差图中，任何值较低的像素被看作是静态背景的一部分，值较高的像素则被认为是物体的一部分。对于背景减除方法的综述，参见Toyama et al.，“Wallflower.：principles and practice of BackgroundMaintenance，”1999年国际计算机视觉会议论文集，255-261页(Proceedings of the international Conference on computervision，pp.255-261，1999.)

传统的背景减除的方法存在一些问题。首先，差图是根据单个像素确定的，因此，噪音和人工因素可能导致局部的错误。虽然可以利用连通分量分析(connected-component analysis)来消除小的失真响应(spurious responses)，但是需要额外的处理。除此以外，很难检测物体中与参考图像中的部分有相同颜色(或者在灰度图像中有相同的强度)的部分。在这种情况下，在轮廓边界或者内部阴影中的颜色或者亮度梯度还是可见的。这说明，在图像中，只有那些有颜色或亮度梯度(边)的图像部分才真正可以用于从背景中检测物体。

因此，与传统背景减除方法不同，需要直接计算物体的边界。

从静态背景中分离物体之后，还可以进行进一步的分析。许多现有技术的计算机视觉系统使用一个摄像机。众所周知，从一个固定的摄像机得到的图像中提取如形状、三维活动和位置等信息是非常困难的。随着摄像机变得相对便宜，对多个摄像机图像的立体分析将越来越普遍。与单独一个摄像机相比，立体分析提供了一个更加强有力的方法，用于度量物体的形状，三维活动和位置。

立体处理，需要选择什么是使得图片匹配的特征，像素还是诸如点和边这种特征。特别地，在后续的处理之前，作为边检测过程的一部分，边通常被链入到边链(edge chain)。由于在不同的图像中，给定的物体的边链计算不同，因此边链的立体匹配非常复杂。例如，给定物体的物理轮廓，即，轮廓边界或者表面纹理边界，在每个立体图中可能被检测为一个或者更多边链，在不同的图像中，该链有不同的终点，而且该链在不同的图像中可能以任意的方式连接物体和背景纹理。

因此，希望只链接对应于物体的物理轮廓的边。

有大量的基于图像的系统用于控制电梯门的操作，参见于2001年4月4日提交的美国专利申请2001/0045327“电梯门控制设备(ElevatorDoor Control Device)”。然而，那些系统不能分辨乘客的类型。还可以参照于2002年1月15日提交给Hirata et al.的美国专利申请6,339,375公布的″图像监测仪器和图像监测方法(Image monitoringapparatus and image monitoring method)″，它介绍了一个用于检测乘客是否在电梯入口的系统。入口是通过与形成入口的静止的，水平和垂直的线进行模式匹配确定的。二维的线的信息减少到一维信息。很显然，这个方法不适于检测形状不规则的活动物体。

日本专利公开11-268879，介绍了一个电梯控制系统，有两个摄像机放置在顶棚上，然后对获取的图像进行分析，根据乘客的身高和顶部平面形状(top planar shapes)来区别等候电梯的乘客的类型。这个系统要求乘客按下呼叫按钮和固定于顶棚的摄像机来进行手动激活。

于2002年5月14日提交给Fujita的美国专利6,386,325描述了“有大厅扫描器的电梯系统，用于区分站立和坐着的乘客(Elevatorsystem with a hall scanner tor distinguishing between standingand sitting elevator passengers.)”这个系统也要求乘客手动激活，让乘客按下一个呼叫按钮，并且这个系统只能监控对大厅呼叫按钮进行操作的乘客。这个系统使用的是传统的背景减除方法来生成一个二维差图。把该二维差图和预先存储的轮椅轮廓模型进行比较。显示的轮廓仅仅是轮椅用户的正视面和侧视图。

这个系统也存在许多主要问题。首先，系统使用传统的背景减除方法，因此，可能会有产生一个如前面提到的有用的差图的内在问题。其次，摄像机获取的任何图像都和轮廓显示相类似是不太可能的。事实上，走动的人和轮椅用户的不同轮廓不计其数。Fujita没有说明基本的轮廓模式如何与任意的视图相匹配。众所周知，在视图系统中，模式匹配是一个非常难的问题，只有对受约束的轮廓才有解决方案。第三，背景减除只提供了二维模型，不能确定深度信息，或者是物体内部的活动状况。

因此，需要提出一个轮椅检测系统，这个系统不使用背景减除，不需要预先存储的模型，建立在三维信息基础上。

发明内容

本发明提出了用于区别活动的人和轮椅用户的方法及系统。

在具体的应用中，系统检测某个位置是否有轮椅用户，这个位置需要提供适应于轮椅的服务。例如，这个位置可以在自动门的前面，系统可以自动把门打开一段较长时间，这段时间比通常情况下的时间长。

在另外一个应用中，轮椅用户正在等待一个电梯，或者是其他类型的提升设备。一旦检测到轮椅用户，就可以提供专门的电梯服务。例如，电梯地板可以精确地和地面持平，在轮椅用户进出电梯的时候，电梯门可以保持开启较长的时间。另外，为了传送轮椅用户而专门设计的电梯升降室可以指定用于服务轮椅用户，或者优先提供服务。

在现有技术中，通常需要轮椅用户按压位于某个位置的按钮，来表示需要专门的服务。然而，不是所有的轮椅用户都可以手动激活信号。也许还有其他的原因使得手动系统不切实际，或者不够理想。因此，本发明用一个全自动系统取代现有技术的手动系统。

本发明使用了计算机视觉系统，其中，在该位置放置了多个摄像机，特别是一个校准的三目摄像机系统(calibrated trinocular camerasystem)。摄像机获取该位置的场景的图片序列，然后图像经过四个阶段的处理。

首先，通过利用图像亮度梯度来检测场景中物体的边缘。其次，通过利用立体视像差(stereo disparity)链接边缘，使链接对应于物体的物理轮廓。再次，计算物体的三维重建。最后，对场景中的每个物体进行分类，例如，分为活动的人或者轮椅用户。接下来，执行分类从属(classification dependent)操作。如果场景中有多个物体，通过把三维重建分解为单个的物体来处理。

其中，还包括如下步骤：如果高度大于阈值，则物体归类为运动的人，该高度值是三维重建的最高点和地面之间的差值。此外，还包括如下步骤：从关于运动的人和轮椅用户的统计值确定阈值。

其中，还包括如下步骤：用垂直的平面拟合三维重建；测量该平面对于三维重建的吻合度；计算吻合度和高度的比值，其中高度值是三维重建的最高点和地面之间的差值；以及测试比值以分类物体为运动的人或轮椅用户。此外，测量作为该平面和三维重建的点之间的中线垂直距离的该平面的吻合度。或者，根据有关运动的人和轮椅使用者的统计数据，测试比值以对物体进行分类。

其中，还包括如下步骤：分析立体图像的时间序列，如果靠近物体底部的三维重建没有出现振动运动，则将物体分类为轮椅用户。此外，还包括如下步骤：把靠近物体底部的三维点投影到地面；用直线拟合投影点；并且用正弦波拟合经过一段时间的直线的角度，来检测投影点的振动。

其中，还包括如下步骤：对立体图像的时间序列进行分析，如果物体运动并且靠近物体底部的三维重建是固定的，则物体分类为轮椅使用者。

其中，场景有多个物体，对于场景中的每一个物体，把三维重建分成若干个单独的重建。

附图说明

图1是依照本发明的物体检测系统的框图。

图2是依照本发明的物体分类方法的流程图。

图3是依照本发明的基于梯度的边检测的流程图。

图4是依照本发明的识别目标和支持图像(support image)的流程图。

图5是依照本发明的匹配边的流程图。

图6是依照本发明的把链接边的流程图。

图7是依照本发明的检测轮椅的流程图。

最佳实施方式

系统概述

图1显示的是依照本发明的物体检测100。该系统100中，包括：多个摄像机1，2，3，例如他们的输出连接在用于进行计算机视觉处理的处理器120。处理器120的输出信号121连接到一个外部系统，例如，电梯控制系统(ECS)150。外部系统150根据摄像机观测到的结果进行控制。

摄像机1-3设置在电梯门130上方，以使摄像机获取的图像111是电梯门前的场景140。应当指出的是，摄像机可以被放置在接近场景的任何地方。摄像机可以使用灰度或者彩色传感器。摄像机1-3的内部和外部参数可以利用任何已知的校准过程来确定。为了下述目的，中间(交叉斜线cross-hatcbed)的摄像机1是主摄像机，其他的两个摄像机2-3是辅助摄像机。和采用单个或立体摄像机的现有技术相比，依照本发明的方法的三个摄像机提供了一个更强有力的分析。

系统操作

如附图2所示，三个摄像机1-3获取210的图像是静态图像111a和活动图像(live image)111b。图像111可以是灰度图像或者是彩色图像。在预先处理阶段，可以对图像111a和图像111b进行再取样来去除径向畸变(radial distortion)。首先，每个摄像机的差图221从对应摄像机的静态图像111a构造出来220。

其次，在一一对应的基础上，每个摄像机的差图221应用230于同一个摄像机的每个活动图像111b，来检测场景140中物体的边缘231。边匹配240识别出形成相同轮廓241的边链231。对轮廓241进行三维重建250来分割三维运动物体251。分割只识别和运动物体相关的像素(数据点的集合)。因为像素有坐标，数据点集合展现了三维物体的大概形状。

为了确定物体的分类261，可以对三维运动物体251进行分析260，例如，物体是一个运动的人或者轮椅使用者。根据分类结果，决定外部系统150后续的操作。

基于背景更换的边检测

差图

和现有技术的基于像素的背景减除技术相比，本发明使用的是基于背景更换230的边检测。对于每个摄像机，从静态场景111a的2个或者更多图像用构造220差图221。当得知场景中没有运动物体的时候，在一个预先处理过程中进行这个操作。可以周期性的更新差图。

对于差图221中的每个像素，从静态图像111a可以确定下面的平均值和方差值(高斯，Gaussians)222：像素亮度的平均值和方差，像素梯度大小(magnitude)的平均值和方差，以及像素梯度方向的平均值和方差。如果图像是用彩色相机拍摄的，则只需要使用RGB频道中的一个。

边检测

在这一步，可以处理场景104的运动图像111b。如上所述，现在，除了单个运动图像111b，确定了三个值222。用附图3所示的测试来判断某个像素是否是边302的一部分。假设识别了一个物体的边链。可以在比较器实施测试。

首先，值为0或者低梯度值310的像素不可能是边301。因此，本发明优于现有技术的是，大量的背景(参考)像素不需要被处理，而现有技术中每对像素都要减去。

非零的像素标记为p，它梯度方向相邻的亮度低的像素标记为p₁，梯度方向相邻的亮度高的像素标记为p_h。

如果梯度大小(GM)高于阈值T 320，执行(b)，否则像素可以被标记为不是边301。

如果像素p的梯度大小是局部极大值330，即，p的梯度比p₁和p_h的梯度值大，继续到(c)，否则像素不是边301。

如果运动图像中，像素p梯度大小和它在差图中对应的值之间的差距d_GM小于阈值T₂ 340，继续到(d)，否则，像素是边302。因为值是用高斯(Gaussian)来表示的，因此选取马哈朗诺比斯(Mahalanobis)距离。

如果在p测量的梯度方向和它的参考值之间的马哈朗诺比斯距离D_GD小于阈值T₃ 350，则继续到(e)，否则，像素是边302。

如果p1的亮度(RGB)值和它的参考值之间的马哈朗诺比斯距离d₁小于阈值T₄ 360，继续到(f)，否则像素是边。

如果p_h的亮度(RGB)值和其对应参考值之间的马哈朗诺比斯距离d_ph小于阈值T₅，则像素不是边301，否则像素是边302。

注意，通过测试(a)，运动图像111b中所有具有低梯度的像素都被排除了。在出现边遮蔽有低梯度值的参考像素的情况时，则用测试(c)来检测。因此，没有使用带有不利效果的方式实现可靠性低的参考梯度。还应该指出的是，上述的技术可以用于定位被前景中的静态物体遮断背景边。

识别了边302，可以把边连在一起形成边链，下面将做详细描述。注意，尽管使用了“链”这个术语，实际上该处理在存储器中产生了连接边像素的图像。

采用这种基于边的方法230是因为它实用。立体重建250是基于特征的，边检测直接为运动物体251的立体重建生成必要的轮廓241。采用这个方法，基于梯度的边检测的优点是显然的。

首先，和改变像素亮度值相比，边231用于指示物体是否存在更可靠。例如，全局(global)背景减除不能检测到物体中和静态背景有相同颜色的部分。在背景和物体有相同颜色(强度)的情况下，由于阴影效果，在物体边界很容易发生边的变化。因此，背景减除可能需要进一步的处理，边检测可以直接进行，反映出场景的变化。然而，两种方法都可能检测出边界附近的变化，依据本发明的基于边的方法更胜一筹，因为它能以子像素(sub-pixel)的精度检测到边。

采用基于边的方法，失真变化(spurious change)和噪音不太可能影响结果，因为本发明中的处理并入有梯度计算，非最大限制(non-maximum suppression)，以及边链接的滞后。所有这些都需要动态图像111b中的显著改变，因此，不太容易受到局部噪音的影响。

应该指出的是，差图221可以定期的更新，来反映环境的照明的变化，例如，白天/黑夜，以及大多数静态背景的变化，例如场景中放置了新的物体，在加入场景之后仍然保持静态。

利用光滑变化立体视觉的链接边(Edge chaining usingsmoothly-varying stereo disparity)

概述

如前面所述，边检测之后是边的链接过程，这个过程根据属性，如梯度方向，的相似性把相邻的边连接起来。在受限制的情况下，如黑白校准模式的整齐的图像(uncluttered image)例如，棋盘模式，边链能真实地反映模式中块的边界。然而，在现实世界的场景中，边链的物理意义可能不大。例如，边可能混于物体和背景纹理之间。

因此，需要把边连接起来，使得每个链都极有可能属于单个的物体。通过在立体图像的边之间进行对应匹配，形成边链使得相邻边的立体视觉差光滑地变化。

在立体处理过程中，视觉差是两个图像中，如像素，角落，边这样的对应属性的图像位移(image displacement)。视觉差是对深度的间接测量。因此具有光滑变化视觉差的边链，对应于有光滑变化深度的三维链，以前景物体的轮廓和表面文理为例，如，有光滑变化的视觉差的边链，更有可能定义三维物体251的轮廓241。

希望用这种类型的链连接物体的边界和物体表面纹理，但是不会和静态背景连接，静态背景的深度是不连续的。如下面将要描述的，轮廓是关注的重点。

收集匹配假设

给定场景140中的运动图像111b的集合，如图4所示计算边链。对应匹配的一种方法包括对所有摄像机1-3的对称处理，并且没有优先的图像。然而，因为使用了三个摄像机，这意味着有大量的数据需要处理。因此，本发明使用了一种技术来减少需要处理的数据量。

每个图像中的边为e_ci，其中c＝1，2，3，是摄像机的编号，i＝1，…，n，标注边。对主摄像机1的图像中的每个边e_1i依次进行处理。目的是为了识别包括每个边e_1i的所有可能的匹配，匹配是对应边M＝<e_1i，e_2j，e_3k>的一个三元组，即，e_1i或者是没有匹配的，或者是出现在多个图像中。在下文将描述，对这些假设还要进行进一步的处理，因此，图像中的每条边，或者不匹配，或者是和一个唯一的匹配相关联。

解决问题的一个办法就是把边e_1i和图2中的边e₂进行匹配，然后用图3中的边e₃来检验假定的匹配是否成立。这就忽略了一个事实，和外极线(epipolar)对齐的边匹配的结果非常糟糕。

反而，根据两个辅助摄像机2-3中外极线对齐的情况，每个边e_1i 401或者与图402的边匹配，或者与图403的边匹配。

下面是为了确定需要的目标t图像的测试。与边e_1i对齐的外极线为1₁ 411。计算410外极线1₂＝e_1i×f₂ 412，以及1₃＝e_1i×f₃ 413，其中f₂是摄像机2在图像1中的外极(epipole)，f₃是摄像机3在图像1中的外极(epipole)。

然后，测量420线1₁和1₂之间的角θ₂ 421，以及线1₁和1₃之间的角θ₃ 422。接着，比较430两个角421和422。目标图像是一个与较大的θ相关联的图像，即，相对于目标摄像机，e_1i外极线对齐程度较差。目标图像431标为t。第三个图像被称为支撑图像432，标为s。

如附图5所示，在图像t中，边e_1i和沿着其外极线的所有边都匹配。边的匹配有如下的测试。

计算510边e_1i 501和边e_tj的梯度方向之差，模180，如果差超出了阈值，则拒绝520匹配，否则继续。

另外，取e_1i相邻的两个和边的梯度方向一致的像素，称为p_1ia，和p_1ib。。类似的，对于e_tj的相邻的两个像素，称为p_tja，和p_tjb。利用图像的方向来确定图1和图t的这些像素之间的对应关系。注意，在这个测试中没有使用梯度方向，因为梯度方向可能在边及其匹配边之间翻转180度，见下文。然后，测量530对应相邻像素之间的亮度之差。如果一个或者两个对应的像素匹配，则继续。否则，如果差值大于另外一个阈值，拒绝520匹配。

若e_1i，和e_tj匹配，对于支撑图像s中这些点的每一个计算外极线，并且找到这些线的交点。然后，在交点周围窗口形状，搜索540寻找最近的边，e_sk。如果支撑图像中没有对应的点，则拒绝匹配520。

否则，边e_1i，和e_tj都要和边e_sk 503进行匹配550，方法如上所述。如果匹配成功，计算出一个基于所有三个边相似性的最终的匹配结果，并且接受和存储560匹配。为了保证一定的对于正确的对边进行分类失败的稳健性，e_sk可以是支撑图像中的任何一条边。

上述的测试引出进一步的讨论，在测试(a)，允许梯度方向有180度的逆转，因为从不同的立体摄像机看来，属于遮蔽边界的边可以遮蔽背景不同的部分。显然，在这种情况下，梯度方向可以翻转180度，尽管通常情况下梯度方向都是保持不变的。

同样的原因，测试(b)只要求在边的一侧像素匹配，因为在遮蔽边，颜色可以在边的背景侧改变，所以，边的该侧的像素匹配结果很差。因此，有意未对匹配的阈值进行严格的设置。

此外，测试(b)中的像素比较，设计为用于匹配像素颜色的弱定性测试，而不是一个精确的定量的测试。目的在于，给每个边e_1i提取几个匹配假设，并且高度相信真正的匹配是存在的，而不是尝试一个“胜者全拿(winner-takes-all)”的方法来识别一个唯一的最佳匹配。在前面的阶段，当匹配完全依赖于局部属性，如边梯度和相邻像素颜色的时候，“胜者全拿”的方法不可靠。

从匹配假设中提取边

在这个阶段，有一组假定的匹配M_p＝<e_1i，e_2j，e_3k>，P＝1，…，n，其中，一个边可以存在于一个以上的匹配中。目的是为了处理匹配集，从而，每条边或者是不匹配或者是与一个唯一的匹配相关联。

通过检查所有的匹配，并且寻找那些和具有光滑变化视觉差的边链接相关联的匹配可以实现这一目的。如果一个边出现在不止一个的匹配中，那么，保留和最长的链相关联的匹配，排除其他的匹配。附图6说明了这个过程。

依次选取每一个匹配边601，判断610它是否已经是链的一部分。如果图像1中的匹配边已经是链的一部分，停止620。否则，开始630一个新的链。

选取图像1中的匹配边。检查该边的8连通相邻边(eight-connectedneighboring edges)。如果当前边和相邻边的立体视觉差的差值小于阈值，连接640相邻边到链，并且递归，重复650直到对所有的边都进行了检测。

在创建了链之后，处理进入了重复的过程，它对竞争匹配(即共享边的匹配)重新排序660，直到达到一个稳定的解。对竞争匹配重新排序是为了奖励有最长关联链的匹配。任何阶段的链的长度，由两部分匹配数的总和构成，即(i)不竞争链中的匹配数，以及(ii)当前被标为成功匹配的竞争链中的匹配数。保留成功匹配的最终集合，并且传递给下一个阶段，三维重建250。

利用立体视觉检测轮椅

立体校准

三维重建250要求摄像机1-3完全校准。通过使用OpenCV库函数可以完成径向畸变校准，OpenCV可以从加利福尼亚州弗里蒙特的VA软件公司(VA software Corporation，Fermont，CA)获得。立体校准过程使用一个校准模式，这个模式能够在立体图像中被自动检测。计算得出摄像机的内部参数，外部参数是通过计算基本(F)矩阵得到的。把模式141放置在场景中来校准地面，如附图1所示，使用立体图像间的单应性来确定地面的三维坐标。

在场景中分割单独的物体

在一个应用当中，对场景140中的三维运动物体241进行分析，来判断物体是运动的人还是轮椅使用者。因为三维轮廓基于光滑变化视觉差，而视觉差不与深度的不连续性交叉，所以它为分割遮蔽的以及非重叠的单独物体提供了一个很好的基础，参见Shen et al.，″Shape Modelsfrom Image Sequences，″Proceedings Lecture Notes in ComputerScience，vol.800，Computer Vision-ECCV′94，Springer-Verlag，pp.225-230，1994。

去除无关的三维点

如附图7所示，利用一个随机取样共识(random sampling consensus，RANSAC)过程，通过在构成分割的物体的数据集中的点，搜索具有和其他的点的中点距离(median distance)最小的点，来估计分割的物体710-711的三维点的重心(Centers of gravity，COG)701-702。

然后，处理715分割的物体来去除无关的点720。无关的阈值被设置为中点的距离的预定的倍数，如两倍。然后可以根据下面的方法来处理内部的数据。

高度的测量

已知三维数据集，即，与三维物体以及预校准的地面730相关联的点，高度测量731-732给出数据集的最高点(最大高度)741-742。通常，运动的人(成人)的高度比轮椅使用者要高很多，因此，与阈值高度733相比，就可以把这些过高的不可能是轮椅使用者的人分出来。

形状的测量

通过平面751可以估计出一个站立或者活动的人710，而轮椅使用者类似楼梯形状752。所以，这里的过程就是用平面拟合该数据集，然后测量吻合度，为了约束平面拟合过程，平面751要通过估计的重心，它的法线(normal)752大致位于水平面。然后，对剩余的一个有自由度的角度进行穷举搜索，如，围绕垂直轴的旋转，确定与数据集中的三维点的中垂线距离最小的平面的位置。通过到确定平面的中线的垂直距离和个人高度的比率，给出一个适当的形状测量。该比率，比对于运动的人或者站立的人，不论是成人还是小孩，预先确定的阈值小，而比轮椅使用者的阈值大。

脚动作振动的测量

脚760的振动是运动的人的显著的视觉线索，相反，轮椅使用者的腿和脚附近是固定的，因此，检查物体底部761-762的振动状况可以有助于对物体进行分类。

三维数据集中所有的点，都小于一个固定的高度，通常是50cm，把这些点投影到地面。用直线和这个地面投影拟合。对于一个活动的人，迈步的时候，前脚和后脚之间的距离很明显。因而，当脚改变位置迈步的时候，拟合线也振动。用正弦曲线拟合经过一段时间的线的角度，可以测试出振的存在。相反，轮椅使用者的地面投影的角度，很可能是恒定的或者变化不大。

尽管本发明用最佳实施例的方式进行了描述，还需要说明的是，在本发明的思想和范围内，还可以做各种其他的适应方式和修改。因此，附属权利要求的目的是覆盖全部这些在本发明的真实思想和范围内的适应方式和修改。

Claims

1.对场景中的物体进行分类的方法，包括步骤：

用一组立体摄像机获得场景中物体的图像；

利用检测到的边把物体从背景中分离出来；

从检测到的边中产生物体的三维重建；

以及，对三维重建的高度和三维形状进行测试，以便把物体分类为运动的人或者是轮椅使用者。

2.如权利要求1所述的方法，其中，分离使用基于背景变化的边检测。

3.如权利要求2所述的方法，其中，利用基于光滑变化立体视差的边链以及边匹配来进行三维重建。

4.如权利要求1所述的方法，还包括如下步骤：

如果高度大于阈值，则物体归类为运动的人，其中高度值是三维重建的最高点和地面之间的差值。

5.如权利要求4所述的方法，还包括如下步骤：

从关于运动的人和轮椅用户的统计值确定阈值。

6.如权利要求1所述的方法，还包括如下步骤：

用垂直的平面拟合三维重建；

测量该平面对于三维重建的吻合度；

计算吻合度和高度的比值，其中高度值是三维重建的最高点和地面之间的差值；

以及测试比值以分类物体为运动的人或轮椅用户。

7.如权利要求6所述的方法，还包括如下步骤：

测量作为该平面和三维重建的点之间的中线垂直距离的该平面的吻合度。

8.如权利要求6所述的方法，还包括如下步骤：

根据有关运动的人和轮椅使用者的统计数据，测试比值以对物体进行分类。

9.如权利要求1所述的方法，其中，还包括如下步骤：

分析立体图像的时间序列，如果靠近物体底部的三维重建没有出现振动运动，则将物体分类为轮椅用户。

10.如权利要求9所述的方法，还包括如下步骤：

把靠近物体底部的三维点投影到地面；

用直线拟合投影点；并且

用正弦波拟合经过一段时间的直线的角度，来检测投影点的振动。

11.如权利要求1所述的方法，其中，还包括如下步骤：

对立体图像的时间序列进行分析，如果物体运动并且靠近物体底部的三维重建是固定的，则物体分类为轮椅使用者。

12.如权利要求1所述的方法，其中场景有多个物体，还包括如下步骤：

对于场景中的每一个物体，把三维重建分成若干个单独的重建。

13.用于对场景中物体进行分类的系统，包括：

一组摄像机用于获取场景中物体的图像；

用检测到的边把物体从背景分离出来的装置；

产生物体的三维重建的装置；以及

对高度和三维形状进行测试，以把物体分类为运动的人或轮椅使用者的装置。