CN102985945A

CN102985945A - 物体检测装置、物体检测方法和物体检测程序

Info

Publication number: CN102985945A
Application number: CN2012800019187A
Authority: CN
Inventors: 村松洋一
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Automotive Electronic Systems Co ltd
Priority date: 2011-06-02
Filing date: 2012-04-05
Publication date: 2013-03-20
Anticipated expiration: 2032-04-05
Also published as: US9152887B2; US20130070096A1; CN102985945B; JP5877376B2; EP2717219B1; EP2717219A1; WO2012164804A1; EP2717219A4; JPWO2012164804A1

Abstract

一种物体检测装置（10）具有：视频图像转换单元（20），将其中拍摄了车辆周围的输入视频图像转换为特征视频图像，已经从所述输入视频图像向所述特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成单元（30），基于距所述车辆的距离从特征视频图像提取根据距离而不同的区域，并且合成所述区域；第一物体检测单元（40），扫描合成视频图像，以执行第一物体检测处理；物体候选位置指定单元（50），从第一物体检测处理的结果确定物体候选位置；第二物体检测单元（60），对所述物体候选位置执行第二物体检测处理；和物体位置识别单元（70），从第二物体检测单元的结果识别物体位置。由此，可以高速检测在车辆周围的物体，而不降低检测性能。

Description

物体检测装置、物体检测方法和物体检测程序

技术领域

本发明涉及物体检测装置、物体检测方法和物体检测程序，并且具体地涉及能够检测诸如在车辆周围存在的行人的物体的物体检测装置、物体检测方法和物体检测程序。

背景技术

近来，车载相机已经变得普遍用于支持车辆的安全驾驶的目的。例如，车载相机（图像采集设备）被安装在车辆前部或后部，以拍摄车辆周围的视频图像。在司机座椅前安装的显示器上显示所拍摄的视频图像。由此，当车辆在行进时，司机可以确认车辆周围存在的诸如行人的物体的存在与不存在。

也正在努力通过下述方式来吸引司机的注意：不是通过在显示器上简单地显示车辆周围的视频图像，而是通过经由某种手段预先检测诸如行人的物体，并且显示被加上了检测结果信息的视频图像或者通过语音来发出警告。

作为用于检测诸如行人的物体的部件，例如，与车载相机分离地安装用于感测热源或距离的传感器的部件已经是该部件的主流。然而，从成本和通用性的视点看，独立传感器的安装是不利的，并且期望用于仅通过车载相机的视频图像来检测物体的图像识别部件投入了实际使用。

在研究领域中，已经将使用在视频图像中的边缘特征的方法看作有效地作为用于通过图像识别来检测物体的方法。已经建立了增强方法，其中，检测目标物体的大量视频图像被预先了解，并且被用作统计数据。在研究领域中，从检测精度的视点看，通过合成使用边缘特征的方法和增强方法来获得的物体检测方法已经达到了实用水平。

然而，从实用的视点看，用于通过图像识别来检测物体的上面的方法具有处理时间的问题。在图像识别的情况下，视频图像处理复杂，并且需要扫描整个视频图像。因此，获得用于视频图像的一个帧的物体检测结果会花费很多时间。因此，存在：物体检测处理的帧速率小于相机的帧速率的问题，以及出现在获得视频图像的物体检测结果前的延迟时间的问题。

为了处理与处理时间相关的这样的问题，根据专利文献1中所述的物体检测装置，公开了一种执行双阶段检测的技术，在专利文献1中，建立通过缩小输入图像而获得的缩小的图像，首先在缩小的图像上大体检测物体的存在或不存在，然后，仅当在缩小的图像上检测到物体时，对于具有原始大小的输入图像再执行检测处理。由此，大体对于缩小的图像的大小来执行扫描，可以加速检测处理。

然而，在专利文献1中所述的方法中，因为使用缩小的图像来执行检测处理，所以在物体检测处理中使用的图像特征因为缩小而丢失。因此，存在下述问题：特别是当在视频图像上以小的大小原始采集物体检测目标的图像时，不能充分地获得检测性能。作为以小的大小采集的物体检测目标的图像的因素，能够设想检测目标物体原始小的因素和检测目标物体位于相对于相机远距离处的位置的因素的任何一个，或能够设想该因素两者。此时，引起了不良的影响：在前一种情况下，是不能根据检测目标物体来获得足够的检测精度的不良影响，并且在后一种情况下，是缩小了到可检测物体的距离的范围的不良影响。

[引用列表]

[专利文献]

[专利文献1]日本公开专利No.2007-265390

发明内容

[技术问题]

已经在如上所述的背景下做出了本发明。本发明的目的是提供一种物体检测装置、方法和程序，能够在仅通过图像识别执行物体检测的同时加速检测处理时间，而不牺牲检测性能。

[对于问题的解决方案]

本发明的一个方面是物体检测装置，用于从输入视频图像检测在车辆附近的物体，所述输入视频图像是从所述车辆拍摄的所述车辆周围的视频图像。这个物体检测装置具有：视频图像转换单元，用于将所述输入视频图像转换为特征视频图像，已经从所述输入视频图像向所述特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成单元，用于基于距所述车辆的距离，从所述特征视频图像提取根据距离而不同的区域，作为通过距离分类的视频图像，并且使用所述通过距离分类的视频图像来合成一合成视频图像；第一物体检测单元，用于执行第一物体检测处理，所述第一物体检测处理用于扫描由所述通过距离分类的视频图像提取/合成单元合成的所述合成视频图像，以确定从所述合成视频图像检测的物体在所述合成视频图像上的位置；物体候选位置指定单元，用于基于由所述第一物体检测单元检测的所述物体在所述合成视频图像上的所述位置，确定在通过距离分类的所述视频图像中可能存在所述物体的物体候选位置；第二物体检测单元，用于对由所述物体候选位置指定单元确定的所述物体候选位置执行第二物体检测处理，所述第二物体检测处理用于识别在通过距离分类的所述视频图像中的对应的物体位置；以及，物体位置识别单元，用于基于由所述第二物体检测单元确定的所述物体位置来识别在所述输入视频图像中的物体位置。

本发明的另一个方面是用于从输入视频图像检测在车辆附近的物体的物体检测方法，所述输入视频图像是从所述车辆拍摄的所述车辆周围的视频图像。这个物体检测方法包括：视频图像转换步骤，用于将所述输入视频图像转换为特征视频图像，已经从所述输入视频图像向所述特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成步骤，用于基于距所述车辆的距离，从所述特征视频图像提取根据距离而不同的区域，作为通过距离分类的视频图像，并且使用所述通过距离分类的视频图像来合成一合成视频图像；第一物体检测步骤，用于执行第一物体检测处理，所述第一物体检测处理用于扫描在所述通过距离分类的视频图像提取/合成步骤中合成的所述合成视频图像，以确定从所述合成视频图像检测的物体在所述合成视频图像上的位置；物体候选位置检测步骤，用于基于在所述第一物体检测步骤中检测的所述物体在所述合成视频图像上的所述位置，确定在通过距离分类的所述视频图像中可能存在所述物体的物体候选位置；第二物体检测步骤，用于对在所述物体候选位置检测步骤中确定的所述物体候选位置执行第二物体检测处理，所述第二物体检测处理用于识别在通过距离分类的所述视频图像中的对应的物体位置；以及，物体位置识别步骤，用于基于在所述第二物体检测步骤中确定的所述物体位置来识别在所述输入视频图像中的物体位置。

本发明的另一个方面是用于从输入视频图像检测在车辆附近的物体的物体检测程序，所述输入视频图像是从所述车辆拍摄的所述车辆周围的视频图像。这个程序使计算机实现：视频图像转换功能，用于将所述输入视频图像转换为特征视频图像，已经从所述输入视频图像向所述特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成功能，用于基于距所述车辆的距离，从所述特征视频图像提取根据距离而不同的区域，作为通过距离分类的视频图像，并且合成通过距离分类的视频图像；第一物体检测功能，用于扫描由所述通过距离分类的视频图像提取/合成功能合成的所述合成图像，以执行第一物体检测处理；物体候选位置检测功能，用于基于已经被所述第一物体检测单元检测到物体在所述合成视频图像上的位置，确定在通过距离分类的所述视频图像中可能存在物体的物体候选位置；第二物体检测功能，用于对由所述物体候选位置检测功能确定的所述物体候选位置执行第二物体检测处理，以识别在通过距离分类的所述视频图像中的物体位置；以及物体位置识别功能，用于基于由所述第二物体检测功能确定的所述物体位置来识别在所述输入视频图像中的物体位置。

存在如下所述的本发明的其他方面。因此，本发明的公开意欲提供本发明的各方面的一部分，并不意欲限制在此描述和要求保护的本发明的范围。

附图说明

图1是示出根据本发明的一个实施例的物体检测装置的结构的框图。

图2，其中图2（a）是示出在A米距离的位置处存在的具有200厘米高度的行人的示例的说明图；图2（b）是示出在B米距离的位置处存在的具有200厘米高度的行人的示例的说明图；图2（c）是示出在C米距离的位置处存在的具有200厘米高度的行人的示例的说明图；图2（d）是示出在A米距离的位置处存在的具有100厘米高度的行人的示例的说明图；图2（e）是示出在B米距离的位置处存在的具有100厘米高度的行人的示例的说明图；以及图2（f）是示出在C米距离的位置处存在的具有100厘米高度的行人的示例的说明图。

图3，其中图3（a）是示出当在A米距离的位置处存在具有200厘米高度的行人时的图像采集区域的说明图；图3（b）是示出当在B米距离的位置处存在具有200厘米高度的行人时的图像采集区域的说明图；图3（c）是示出当在C米距离的位置处存在具有200厘米高度的行人时的图像采集区域的说明图；图3（d）是示出当在A米距离的位置处存在具有100厘米高度的行人时的图像采集区域的说明图；图3（e）是示出当在B米距离的位置处存在具有100厘米高度的行人时的图像采集区域的说明图；以及，图3（f）是示出当在C米距离的位置处存在具有100厘米高度的行人时的图像采集区域的说明图。

图4，其中图4（a）是用于比较当A米距离的位置处分别存在具有200厘米和100厘米高度的行人时的图像采集区域的说明图。

图5，其中图5（a）是示出与A米位置对应的A米视频图像的示例的说明图；图5（b）是示出与B米位置对应的B米视频图像的示例的说明图；以及，图5（c）是示出与C米位置对应的C米视频图像的示例的说明图。

图6，其中图6（a）是示出在放大/缩小前和后的A米视频图像的示例的说明图；图6（b）是示出在放大/缩小前和后的B米视频图像的示例的说明图；以及，图6（c）是示出在放大/缩小前和后的C米视频图像的示例的说明图。

图7是示出通过距离分类的视频图像的中心位置调整的示例的说明图。

图8是示出重叠的通过距离分类的视频图像的数量的示例的说明图。

图9，其中图9（a）是示出针对A米视频图像的、合成的视频图像的数量和图像特征的数量的示例的图；图9（b）是示出针B米视频图像的、合成的视频图像的数量和图像特征的数量的示例的图；以及，图9（c）是示出针对C米视频图像的、合成的视频图像的数量和图像特征的数量的示例的图。

图10，其中图10（a）是示出A米视频图像的合成系数的示例的图；图10（b）是示出B米视频图像的合成系数的示例的图；以及，图10（c）是示出C米视频图像的合成系数的示例的图。

图11，其中图11（a）是示出输入视频图像的示例的图；图11（b）是示出A米视频图像的示例的图；图11（c）是示出B米视频图像的示例的图；图11（d）是示出C米视频图像的示例的图；并且，图11（e）是示出合成视频图像的示例的图。

图12是示出在合成视频图像上正确地标准化的行人的示例的说明图。

图13，其中图13（a）是示出以100厘米的高度为目标的、从合成视频图像的切除部分的示例的说明图；以及图13（b）是示出放大合成视频图像的切除部分的示例的说明图。

图14是示出用于扫描计数在合成视频图像上的图像特征的数量的示例的图。

图15，其中图15（a）是示出输入视频图像的示例的说明图；图15（b）是示出通过对于合成视频图像执行第一物体检测处理而获得的检测结果的示例的说明图；图15（c）是示出用于指定在A米视频图像的物体候选位置的示例的说明图；图15（d）是示出用于指定在B米视频图像的物体候选位置的示例的说明图；以及，图15（e）是示出用于指定在C米视频图像的物体候选位置的示例的说明图。

图16，其中图16（a）是示出在A米视频图像上的物体检测结果的示例的说明图；图16（b）是示出在B米视频图像上的物体检测结果的示例的说明图；以及图16（c）是示出在C米视频图像上的物体检测结果的示例的说明图。

图17，其中图17（a）是示出在输入视频图像上的提取的通过距离分类的视频图像的坐标的示例的说明图；图17（b）是示出检测的通过距离分类的视频图像的坐标的示例的说明图；以及，图17（c）是示出在输入视频图像上的检测的坐标的示例的说明图。

具体实施方式

下面详细描述本发明。然而，下面的详细说明和附图不意欲将本发明限于此。

本发明的物体检测装置是用于从输入视频图像检测在车辆附近的物体的物体检测装置，输入视频图像是从车辆拍摄的车辆周围的视频图像。该装置被设置为具有：视频图像转换单元，将输入视频图像转换为特征视频图像，已经从输入视频图像向特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成单元，基于相对于车辆的距离，提取根据相对于作为通过距离分类的视频图像的特征视频图像的距离而不同的区域，并且使用通过距离分类的视频图像来形成合成视频图像；第一物体检测单元，执行第一物体检测处理，第一物体检测处理用于扫描由通过距离分类的视频图像提取/合成单元形成的合成视频图像，以确定从合成视频图像检测的物体在合成视频图像上的位置；物体候选位置指定单元，基于由第一物体检测单元检测的物体的合成视频图像上的位置来确定在通过距离分类的视频图像中的、其中有可能存在物体的物体候选位置；第二物体检测单元，对于由物体候选位置指定单元确定的物体候选位置执行第二物体检测处理，第二物体检测处理用于识别在通过距离分类的视频图像中的对应的物体位置；以及物体位置识别单元，基于由第二物体检测单元确定的物体位置来识别输入视频图像中的物体位置。

根据该结构，因为未损害输入视频图像的图像特征，所以可以提供能够加速检测处理时间而不牺牲检测性能的物体检测装置。

在本发明的物体检测装置中，优选的是，视频图像转换单元将边缘特征提取为图像特征。根据该结构，可以将输入视频图像转换为其中仅留下用于物体检测处理的边缘特征的视频图像。

在本发明的物体检测装置中，优选的是，通过距离分类的视频图像提取/合成单元基于相对于车辆的距离来改变从特征视频图像提取的区域的大小。通过该结构，可以与检测的目标物体的大小对应地执行物体检测，根据相对于车辆的距离在视频图像上以不同的大小采集该检测的目标物体的图像。

在本发明的物体检测装置中，优选的是，通过距离分类的视频图像提取/合成单元放大/缩小根据距离提取的视频图像，使得通过距离分类的所有视频图像的垂直大小彼此相等。通过该结构，可以均衡检测目标物体的大小，根据相对于车辆的距离在视频图像上以不同的大小采集该检测目标物体的图像，并且因此，简化了物体检测处理。

在本发明的物体检测装置中，优选的是，通过距离分类的视频图像提取/合成单元合成通过距离分类的视频图像，调整通过距离分类的视频图像的水平轴和垂直轴的位置，使得它们重叠。通过该结构，合成视频图像的中心位置是在通过距离分类的所有视频图像上的相同位置，并且因此，变得容易掌握所检测的物体的位置。而且，因为合成视频图像的大小小于所有通过距离分类的视频图像的总体大小，所以可以加速物体检测处理。

在本发明的物体检测装置中，优选的是，通过距离分类的视频图像提取/合成单元通过α混和来合成通过距离分类的视频图像。通过该结构，可以通过调整合成系数来调整每个通过距离分类的视频图像对于合成视频图像的影响程度。

在本发明的物体检测装置中，优选的是，通过距离分类的视频图像提取/合成单元合成通过距离分类的视频图像，根据所合成的通过距离分类的视频图像的数量，对于合成的、通过距离分类的视频图像的各部分，调整α混和的合成系数。通过该结构，可以当在合成视频图像上合成的通过距离分类的视频图像的数量在合成视频图像的各部分上不同时，建立其中当获得合成视频图像时对于各部分的每个保持最佳图像特征的状态。

在本发明的物体检测装置中，优选的是，通过距离分类的视频图像提取/合成单元合成通过距离分类的视频图像，根据在通过距离分类的视频图像中包括的图像特征的数量来调整α混和的合成系数。通过该结构，可以通过增大包括多个图像特征的通过距离分类的视频图像的合成系数，建立其中当获得合成视频图像时保持最佳图像特征的状态。

在本发明的物体检测装置中，优选的是，第一物体检测单元在第一物体检测处理中的检测目标物体的垂直大小等于合成视频图像的垂直大小。通过该结构，可以简化在检测目标处理中的物体检测扫描。

在本发明的物体检测装置中，优选的是，第一物体检测单元通过仅对在水平方向上的合成视频图像执行扫描来执行物体检测处理。通过该结构，可以减小用于物体检测的扫描的数量，并且因此，可以加速物体检测处理。

在本发明的物体检测装置中，优选的是，第一物体检测单元被具有合成视频图像切除/放大单元，用于切除与合成视频图像的底端接触的区域，并且产生通过放大切除区域的垂直大小使得垂直大小等于合成视频图像的垂直大小而获得的放大的合成视频图像。通过该结构，可以假设在处理检测目标物体中在大小上的差别（例如行人之间在高度上的差别）时物体底端必然与合成视频图像的底端接触，并且因此，视频图像上物体不能存在的区域不作为扫描目标。因此，可以加速物体检测处理。另外，因为切除的合成视频图像的大小被调整为与切除之前的合成视频图像的大小相同，所以存在不必对于物体检测处理考虑视频图像上的检测目标物体的大小的益处。

在本发明的物体检测装置中，优选的是，第一物体检测单元对于放大的合成视频图像执行物体检测处理。通过该结构，可以处理检测目标物体之间在大小上的差别（例如，行人之间在高度上的差别）。

在本发明的物体检测装置中，优选的是，第一物体检测单元通过对于仅在水平方向上放大的合成视频图像执行扫描来执行物体检测处理。通过该结构，可以减小用于物体检测的扫描的数量，并且因此，可以加速物体检测处理。

在本发明的物体检测装置中，优选的是，第一物体检测单元能够与第二物体检测单元分离地调整物体检测的检测判定标准，并且调整检测标准使得第一物体检测单元比第二物体检测单元更容易地判定物体是物体。通过该结构，第一物体检测单元可以执行粗略的检测，即，容易执行检测以防止在合成视频图像上的检测省略，并且第二物体检测单元可以严格地判定检测的物体存在以防止错误的检测。

在本发明物体检测装置的中，优选的是，第一物体检测单元仅对于合成视频图像中图像特征作为目标而存在的各部分执行第一物体检测处理。通过该结构，检测的物体不存在的位置的扫描不出现，并且因此，加速检测处理。

在本发明的物体检测装置中，优选的是，物体位置识别单元基于由第二物体检测单元检测的、在通过距离分类的视频图像上的物体位置来确定从车辆至检测的物体的距离。通过该结构，在检测到检测目标物体的存在或不存在的同时，获得关于至物体的距离的信息，并且这对于基于检测结果的警告等是有益的。

本发明的物体检测方法是用于从输入视频图像检测在车辆附近的物体的物体检测方法，输入视频图像是从车辆拍摄的车辆的周围的视频图像，该方法包括：视频图像转换步骤，用于将输入视频图像转换为特征视频图像，已经从输入视频图像向特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成步骤，用于基于相对于车辆的距离，提取根据相对于作为通过距离分类的视频图像的特征视频图像的距离而不同的区域，并且使用通过距离分类的视频图像来合成合成视频图像；第一物体检测步骤，用于执行第一物体检测处理，第一物体检测处理用于扫描在通过距离分类的视频图像提取/合成步骤中合成的合成视频图像，以确定从合成视频图像检测的物体在合成视频图像上的位置；物体候选位置检测步骤，用于基于在第一物体检测步骤中检测的物体在合成视频图像上的位置，确定在通过距离分类的视频图像中的、其中可能存在物体的物体候选位置；第二物体检测步骤，用于对在物体候选位置检测步骤中确定的物体候选位置执行第二物体检测处理，第二物体检测处理用于识别在通过距离分类的视频图像中的对应的物体位置；以及，物体位置识别步骤，用于基于在第二物体检测步骤中确定的物体位置来识别在输入视频图像中的物体位置。通过该方法，可以获得与上述装置的优点同样的优点。

本发明的物体检测程序是用于从输入视频图像检测在车辆附近的物体的物体检测程序，输入视频图像是从车辆拍摄的车辆周围的视频图像。该程序使得计算机实现：视频图像转换功能，用于将输入视频图像转换为特征视频图像，已经从输入视频图像向特征视频图像提取了图像特征；通过距离分类的视频图像提取/合成功能，用于基于相对于车辆的距离，提取根据相对于作为通过距离分类的视频图像的特征视频图像的距离而不同的区域，并且合成通过距离分类的视频图像；第一物体检测功能，用于扫描由通过距离分类的视频图像提取/合成功能合成的合成图像，以执行第一物体检测处理；物体候选位置检测功能，用于基于已经被第一物体检测单元检测到物体的合成视频图像上的位置，确定在通过距离分类的视频图像中的、其中可能存在物体的物体候选位置；第二物体检测功能，用于对由物体候选位置检测功能确定的物体候选位置执行第二物体检测处理，以识别在通过距离分类的视频图像中的物体位置；以及，物体位置识别功能，用于基于由第二物体检测功能确定的物体位置，识别在输入视频图像中的物体位置。也通过该程序，可以获得与上述装置的优点同样的优点。

根据本发明，获得下述良好优点：因为可以缩小视频图像而不损害输入视频图像的图像特征，所以可以加速检测处理时间，而不牺牲检测性能，并且也可以测量从车辆至物体的距离。

（实施例）

下面将参考附图描述根据本发明的实施例的物体检测装置。

图1是示出根据本发明的实施例的物体检测装置的结构的框图。图1中所示的物体检测装置10具有：视频图像转换单元20，其将从外部输入的输入视频图像转换为特征视频图像，已经从输入视频图像向特征视频图像内提取了图像特征；通过距离分类的视频图像提取/合成单元30，其基于相对于车辆的距离，合成通过距离分类的视频图像，该通过距离分类的视频图像包括根据距离从特征视频图像提取的不同区域；第一物体检测单元40，其对于获得的合成视频图像执行第一物体检测处理；物体候选位置指定单元50，其从第一物体检测处理的结果确定在通过距离分类的视频图像中的、其中可能存在物体的物体候选位置；第二物体检测单元60，其对于在通过距离分类的视频图像中的物体候选位置执行第二物体检测处理；以及，物体位置识别单元70，其从第二物体检测单元的检测结果识别在输入视频图像上的物体位置。

从外部输入的输入视频图像被假定为是通过例如以预定角度附接在车辆前侧或后侧的牌照附近的预定位置处的车载相机拍摄车辆的周围而获得的视频图像。

视频图像转换单元20基于输入视频图像执行用于在视频图像上提取图像特征的视频图像转换处理。在本发明的实施例中，将边缘特征提取为图像特征，并且，在随后阶段的处理中执行关注边缘特征的处理。然而，在本发明中作为目标的图像特征不限于边缘特征。例如，在检测道路上的交通标记和信号的目的的情况下，执行用于将特定颜色提取为图像特征的处理的有效的。作为用于提取边缘特征的具体处理，能够想到通过索贝尔过滤的压花（embossing）或边缘提取。然而，处理不限于这些方法。

通过距离分类的视频图像提取/合成单元30具有通过距离分类的视频图像提取单元31、通过距离分类的视频图像放大/缩小单元32、中心位置调整单元33、通过距离分类的视频图像的特征数量判定单元34、合成系数调整单元35和通过距离分类的视频图像合成单元36。通过距离分类的视频图像提取单元31从特征视频图像中以根据距离的不同大小提取下述区域：在该区域中，当检测目标物体存在于距车辆预定距离的位置处时，可能在视频图像上采集到检测目标物体的图像。通过距离分类的视频图像放大/缩小单元32放大或缩小已经被通过距离分类的视频图像提取单元31提取的与每个距离对应的通过距离分类的视频图像，使得通过距离分类的视频图像的垂直大小变为预定大小。由此，所有通过距离分类的视频图像的垂直大小变得彼此相等（水平大小彼此不同）。在下面的说明中，除非另外指定，通过距离分类的视频图像指的是被通过距离分类的视频图像放大/缩小单元32放大或缩小的通过距离分类的视频图像。中心位置调整单元33调整由通过距离分类的视频图像放大/缩小单元32重新调整大小的通过距离分类的视频图像的水平和垂直轴的位置使得这些位置重叠，并且，确定在视频图像位置处的合成视频图像的数量。合成视频图像的数量表示重叠的通过距离分类的视频图像的数量。通过距离分类的视频图像的特征判定单元34确定在每个通过距离分类的视频图像上存在的图像特征的数量。合成系数调整单元35基于由中心位置调整单元33确定的合成视频图像的数量和由通过距离分类的视频图像的特征数量判定单元34确定的图像特征的数量，确定通过距离分类的视频图像的每个部分区域的合成系数。通过距离分类的视频图像合成单元36将其中心位置已经被中心位置调整单元33调整为重叠的通过距离分类的视频图像乘以由合成系数调整单元35确定的合成系数，以产生其中合成所有通过距离分类的视频图像的合成视频图像。此时，合成视频图像的像素的数量小于所有通过距离分类的视频图像的像素的数量的总和。

第一物体检测单元40具有合成视频图像切除/放大单元41、合成视频图像的特征数量判定单元42和在合成视频图像中的物体检测单元43。合成视频图像切除/放大单元41切除合成视频图像的一部分，并且放大视频图像，使得去除的合成视频图像的垂直大小等于切除之前的垂直大小。该处理的目的是处理物体检测目标之间在大小上的差别（例如，行人之间在高度上的差别）。合成视频图像的特征数量判定单元42识别在从合成视频图像切除/放大单元41输出的合成视频图像上存在图像特征的位置。在合成视频图像中的物体检测单元43仅对于其中合成视频图像的特征数量判定单元42判定在从合成视频图像切除/放大单元41输出的合成视频图像上存在作为目标的图像特征的位置，执行物体检测处理。通过预先排除其中不存在图像特征的位置，因为检测目标物体在那里不存在，所以预期加速物体检测处理。在下面的说明中，在第一物体检测单元和随后阶段的单元处的合成图像指的是切除和放大的合成图像，除非另外指定。

物体候选位置指定单元50确定其中第一物体检测单元40已经检测到物体的检测位置位于通过距离分类的视频图像上的何处。例如，如果当合成视频图像由两个通过距离分类的视频图像合成时在合成视频图像上检测到一个物体，则存在总共两个物体候选位置，因为在每个通过距离分类的视频图像上存在可能存在物体的一个位置。

第二物体检测单元60仅对由物体候选位置指定单元50指定的通过距离分类的视频图像上的候选位置执行物体检测，以识别在通过距离分类的视频图像上存在的物体位置。

物体位置识别单元70基于第二物体检测单元60的检测结果来计算在输入视频图像上的物体位置，并且输出物体位置以及从车辆到物体的距离，作为最后结果。

已经上述了根据本发明的实施例的物体检测装置的结构和处理流程。

接下来，将参考附图详细描述通过距离分类的视频图像提取/合成单元30、第一物体检测单元40、物体候选位置指定单元50、第二物体检测单元60和物体位置识别单元70进行的一系列处理。以下，为了说明具体化，如下所示设置用于说明的数值。假定输入图像在水平具有640个像素并且在垂直具有480个像素。假定从通过距离分类的视频图像放大/缩小单元32输出的通过距离分类的视频图像和从合成视频图像切除/放大单元41输出的合成视频图像的垂直大小为128个像素。在通过第一物体检测单元和第二物体检测单元执行目标物体检测处理时使用的扫描范围的大小被假定为在水平具有64个像素并且在垂直具有128个像素。假定检测目标物体是在道路表面上存在的行人，并且，检测目标行人的高度被假定为100至200厘米。在相对于车辆A米、B米和C米距离的三个点处存在的行人是检测目标。在此给出的示例仅用于说明的目的，并且该实施例不限于此。

首先，将详细描述通过距离分类的视频图像提取/合成单元30。

通过距离分类的视频图像提取单元31根据相对于车辆的距离来产生通过距离分类的视频图像，已经从输入图像向该通过距离分类的视频图像内提取视频图像。如上所述，因为通过在车辆上在预定位置并且以预定角度安装的车载相机来拍摄输入视频图像，所以通过在车辆和行人之间的距离来唯一地确定其中在输入视频图像上采集行人的图像的区域。图2示出在相对于车辆A米、B米和C米（以下称为A米、B米和C米）的距离处的位置处存在具有200厘米高度的行人和具有100厘米的行人的情况下的输入视频图像。关于A、B和C之间的幅度关系，假定满足A<B<C。A米距离处的位置最接近车辆，并且C米距离的位置距离车辆最远。图2（a）、图2（b）和图2（c）分别示出具有高度200厘米的行人位于A米距离的位置处、B米距离的位置处和C米距离的位置处。图2（d）、图2（e）和图2（f）分别示出具有100厘米的行人位于A米距离的位置处、B米距离的位置处和C米距离的位置处。图3示出其中当输入视频图像与图2中的那些相同时在通过距离分类的视频图像的每个上采集的检测目标行人的区域。图3（a）至图3（f）分别对应于图2（a）至图2（f）。考虑行人位于道路表面上，如果在车辆和行人之间的距离相同，则行人的脚部的位置相同，而与行人的高度无关。因此，如果在A米距离的位置处存在具有100厘米的行人和具有高度200厘米的行人，则在视频图像上采集前者和后者的区域如图4中所示。其中拍摄具有高度200厘米的行人的区域包括其中拍摄具有100厘米的行人的区域。从上面，当具有100至200厘米的行人位于相对于车辆的A米、B米和C米距离的位置处时，用于A米、B米和C米的通过距离分类的视频图像分别如在图5（a）至图5（c）中那样。

通过距离分类的视频图像放大/缩小单元32放大/缩小由通过距离分类的视频图像提取单元31提取的通过距离分类的视频图像的每个，并且将通过距离分类的视频图像的垂直大小标准化为128个像素。假定通过距离分类的视频图像的长宽比在放大/缩小前和后不改变。图6示出通过距离分类的视频图像的放大/缩小处理的示例。图6（a）、图6（b）和图6（c）分别示出在放大/缩小前和后的与距离A米对应的通过距离分类的视频图像（以下称为A米视频图像）、与距离B米对应的通过距离分类的视频图像（以下称为B米视频图像）和与距离C米对应的通过距离分类的视频图像（以下称为C米视频图像）。在放大/缩小前的通过距离分类的视频图像的水平大小等同地是640像素。A米视频图像、B米视频图像和C米视频图像的垂直大小分别是Ya像素、Yb像素和Yc像素。放大/缩小后的通过距离分类的视频图像的垂直大小的全部是128个像素，并且A米视频图像、B米视频图像和C米视频图像分别是（640×120/Ya）像素、（640×128/Yb）像素和（640×128/Yc）像素。此时，如果拍摄具有相同高度的行人，则行人的大小在放大/缩小后在通过距离分类的视频图像中相等，而与相对于车辆的距离无关。

中心位置调整单元33调整其垂直大小已经被通过距离分类的视频图像放大/缩小单元32标准化为128个像素的通过距离分类的视频图像的中心位置，使得该中心位置彼此对应。图7示出调整作为通过距离分类的视频图像的A米视频图像、B米视频图像和C米视频图像的三个中心位置使得中心位置彼此对应的示例。如图7中所示，当通过距离分类的视频图像的中心位置被调整使得该中心位置彼此对应时，重叠的通过距离分类的视频图像的数量在每个部分上不同，因为虽然通过距离分类的视频图像的垂直大小被标准化为128个像素，但是水平大小彼此不同。图8图示了在图7的示例中的重叠的通过距离分类的视频图像的数量。该数量逐渐从中心位置减小，从三到二然后到一。重叠的数量是合成视频图像的数量。

通过距离分类的视频图像的特征数量判定单元34计数在从通过距离分类的视频图像放大/缩小单元32输出的每个通过距离分类的视频图像上存在多少图像特征。在这个实施例中，将边缘特征用作图像特征。虽然存在用于计数边缘的数量的各种手段，但是该手段在本发明中不受限制。例如，可以简单地使用存在边缘的像素的数量或存在边缘的像素上的边缘的大小。否则，如果预先已知检测目标物体在特定方向上具有许多边缘，则用于仅将在该特定方向上的边缘计数为目标的手段是有效的。在此假定，将在A米通过距离分类的视频图像中包括的图像特征的数量称为Ea；将在B米通过距离分类的视频图像中包括的图像特征的数量称为Eb；并且，将在C米通过距离分类的视频图像中包括的图像特征的数量称为Ec。虽然在这个实施例中以边缘特征为目标，但是可以以其他图像特征为目标。例如，也可以判定特定颜色的存在或不存在。用于判定存在或不存在等于特定电平或更大的亮度的处理也是可以的。而且，如图6中所示，因为从通过距离分类的视频图像放大/缩小单元输出的通过距离分类的视频图像的视频图像大小彼此不同，可以基于视频图像大小来标准化在视频图像中存在的图像特征的数量。

合成系数调整单元35基于由中心位置调整单元33确定的合成的通过距离分类的视频图像的数量和由通过距离分类的视频图像的特征数量判定单元34确定的通过距离分类的视频图像的图像特征的数量Ea、Eb和Ec，来计算通过距离分类的视频图像的合成系数。分别在图9（a）至图9（c）中示出对于用于距离A米、B米和C米的通过距离分类的视频图像的、在合成视频图像的数量和图像特征的数量之间的对应关系。将参考图10来描述在存在这样的对应关系的情况下计算合成系数的方法。图10（a）至图10（c）分别示出用于距离A米、B米和C米的通过距离分类的视频图像要设置的合成系数。对于A米视频图像，设置一种合成系数Ma1。对于B米视频图像，设置两种合成系数Mb1和Mb2。对于C米视频图像，设置三种合成系数Mc1至Mc3。其中，Ma1、Mb1和Mc1是用于其中合成三个视频图像（A米视频图像、B米视频图像和C米视频图像）的各部分的合成系数，并且Mb2和Mc2是用于其中合成两个视频图像（B米视频图像和C米视频图像）的各部分的合成系数。Mc3是用于一个视频图像（C米视频图像）的合成系数。考虑合成系数的基本方式是合成系数根据合成视频图像的数量被等同地分配到作为合成目标的通过距离分类的视频图像。即，关于其中合成三个视频图像的部分，每个通过距离分类的视频图像的合成系数被定为1/3，使得总数为1，并且关于其中合成两个视频图像的部分，每个通过距离分类的视频图像的合成系数被定为1/2，使得总数为1。在这个实施例中，对于其中构成多个通过距离分类的视频图像的部分，与通过距离分类的视频图像对应的图像特征的数量Ea至Ec被用于基于上述的总系数的思想来调整合成系数。基于图像特征的数量考虑调整的方式使得对于其中存在许多图像特征的通过距离分类的视频图像设置大合成系数，并且对于具有较少图像特征的通过距离分类的视频图像设置小合成系数。基于该思想，可以分别通过下面的公式来确定合成系数Ma1、Mb1、Mb2、Mc1、Mc2和Mc3：

[公式1]

Ma 1 = (\frac{Ea}{Ea + Eb + Ec})

[公式2]

Mb 1 = (\frac{Ea}{Ea + Eb + Ec})

[公式3]

Mb 2 = (\frac{Eb}{Eb + Ec})

[公式4]

Mc 1 = (\frac{Ec}{Ea + Eb + Ec})

[公式5]

Mc 2 = (\frac{Ec}{Eb + Ec})

[公式6]

Mc 3 = (\frac{Ec}{Ec}) = 1

如果合成系数的总和是1，则任何计算方法都是可以的，而不限于上面的计算公式。

通过距离分类的视频图像合成单元36使用由合成系数调整单元35确定的合成系数来合成已经被中心位置调整单元33执行了位置调整的通过距离分类的视频图像，以产生一个合成视频图像。一般的α混和被用作使用合成系数的图像合成处理。图11是示出视频图像合成的具体示例的图。图11（a）示出其中存在四个行人的输入视频图像的示例。为了描述该四个行人，分别具有200厘米和100厘米的两个行人在输入视频图像的左侧相对于车辆的A米距离并排存在；一个具有高度200厘米的行人位于输入视频图像的中心部分中相对于车辆B米距离；并且，一个具有高度200厘米的行人位于输入视频图像的右侧相对于车辆C米的距离。图11（b）、图11（c）和图11（d）分别示出A米视频图像、B米视频图像和C米视频图像，并且图11（e）示出标准化三个通过距离分类的视频图像的大小并且合成它们的结果的示例。

接下来，将描述第一物体检测单元40。

合成视频图像切除/放大单元41切除从通过距离分类的视频图像合成单元36输出的合成图像的一部分，并且将该部分放大到预定大小。在此，切除合成图像的目的是处理检测目标物体之间在大小上的差别。例如，该切除用于检测在图11中具有高度100厘米的行人和具有高度200厘米的行人两者。在此，图12示出其中已经仅提取了在图11（e）中的合成视频图像中的四个行人的图，他们的大小与相对于车辆的距离对应地被正确地标准化。此时，虽然所有行人的脚部的位置彼此对应而与他们的高度无关，但是他们的头部的位置根据它们的高度不同。如果他们的高度相同，则该大小相同，而与相对于车辆的距离无关。在随后阶段的物体检测处理中，要求行人的垂直大小因为扫描范围的设置而应当是大约128个像素，并且在上面的状态中，不能检测具有100厘米高度的行人。因此，将合成视频图像切除并且放大以处理这一点。在放大处理中，放大切除的视频图像，并且以切除的视频图像的垂直大小变为作为在切除之前的合成视频图像的垂直大小的128个像素的方式来保持视频图像的长宽比。图13示出以高度100厘米作为目标的去除和放大的示例。图13（a）是示出切除区域的图，并且图13（b）示出其中放大了切除的视频图像的图。已经在此示出了用于高度100厘米的切除/放大的示例。也对于其他高度，在必要时执行切除/放大处理。此时，因为行人的脚部必然位于合成视频图像的底端而与他们的高度无关，所以特征在于，切除位置必然与合成视频图像的底端接触。在不执行切除和放大的情况下，检测对应于高度200厘米的检测。因为一般存在用于由物体检测处理覆盖的大小的容限，所以可以适当地对检测目标高度执行切除/放大处理。

接下来，将参考图14描述合成视频图像的特征数量判定单元42。在在此执行的判定处理中，在合成视频图像切除/放大单元41切除和放大的合成图像上计数在物体检测处理的扫描范围（水平64个像素和垂直128个像素）内存在的图像特征的数量。因为在这个实施例中以边缘特征作为目标，并且用于计数边缘的方法与通过距离分类的视频图像的特征数量判定单元34的方法相同，所以省略其说明。

合成视频图像中的物体检测单元43对于合成视频图像执行物体检测处理。因为合成视频图像的垂直大小和物体检测处理的扫描范围的垂直大小彼此对应，所以物体检测处理是其中在合成视频图像上的水平方向上执行一次扫描以判定是否在扫描中存在检测目标物体的处理。此时，不是在扫描中的所有扫描位置处执行检测处理，而是使用合成视频图像的特征数量判定单元42的结果来判定是否执行检测处理。即，如果图像特征在扫描范围中不存在，则物体不可能存在，因此，扫描前进，而不执行检测处理。由此，加速了整个检测处理。关于是否存在图像特征的判定，适当地设置阈值，并且，仅当存在预定数量或更多的图像特征时，执行检测处理。

在这个实施例中的物体检测处理中，使用基于边缘特征的物体检测方法。作为使用边缘特征的方法，利用其中使用边缘的强度和方向的HOG特征的方法是常见的，并且该方法也适用于本发明。不仅利用HOG特征的方法适用，而且使用边缘特征的任何物体检测方法都适用。在本发明中，除了边缘特征之外的特征也适用于作为图像特征。

接下来，将参考图15来描述物体候选位置指定单元50。图15（a）示出输入视频图像；图15（b）示出对于合成视频图像执行第一物体检测处理的检测结果；图15（c）示出通过第一物体检测处理指定作为通过距离分类的视频图像放大/缩小单元32的输出的A米视频图像上的物体候选位置的结果；图15（d）示出了指定在B米视频图像上的物体候选位置的结果；并且图15（e）示出了指定在C米视频图像上的物体候选位置的结果。在此的输入视频图像示出了具有高度200厘米的一个行人位于在距离A米和距离C米的位置的每处，并且，该两个行人被检测为在合成视频图像上的检测结果。此时，通过合成三个视频图像--A米视频图像、B米视频图像和C米视频图像--来获得合成视频图像。因此，当在合成视频图像上存在一个检测结果时，可以在A米视频图像、B米视频图像和C米视频图像的每个上指定一个物体候选位置。因为合成视频图像的中心位置对应于每个通过距离分类的视频图像的中心位置，所以可以在来自在合成图像上的检测位置的相同坐标上指定在通过距离分类的视频图像上的候选位置。然而，合成视频图像不必由所有区域中的三个视频图像合成，并且，它部分地被两个视频图像或一个视频图像产生。因此，根据在合成视频图像上的检测结果的位置，不必可能在所有通过距离分类的视频图像上指定物体候选位置。在图15所示的示例中，在A米视频图像上指定一个物体候选位置，并且在B米和C米通过距离分类的视频图像上指定两个物体候选位置。

第二物体检测单元60对于由物体候选位置指定单元50在每个通过距离分类的视频图像上指定的物体候选位置执行物体检测处理，并且在通过距离分类的视频图像上识别其中存在物体的位置。在在此的物体检测处理中，不要求由合成视频图像中的物体检测单元43执行的扫描，并且，可以仅对由物体候选位置指定单元50指定的候选位置执行物体检测处理。图16示出对于在图15（c）至图15（e）中指定的物体候选位置执行的物体检测处理的检测结果。图16（a）、图16（b）和图16（c）分别示出在A米视频图像上的检测结果、在B米视频图像上的检测结果和在C米视频图像上的检测结果。在A米视频图像和C米视频图像的每个上检测到一个物体。即，看到一个行人位于相对于车辆A米和C米的距离的每处。关于用于物体检测处理的手段，基于边缘特征的物体检测方法同样用于合成视频图像中的物体检测单元43。要使用的方法可以是与合成视频图像中的物体检测单元43相同的检测方法，或者可以是不同的检测方法。而且，合成视频图像中的物体检测单元43和第二物体检测单元60可以使用不同的物体检测精度。在该情况下，对于第二物体检测单元60比合成视频图像中的物体检测单元43更严格地设置检测精度。因为合成视频图像中的物体检测单元43的处理量比第二物体检测单元60大，所以合成视频图像中的物体检测单元43执行其中允许一定程度的错误检测的简单物体检测。在其中物体候选者受限并且处理量降低的第二物体检测处理中，排除错误检测，使得仅仅检测目标物体肯定包括在检测结果内。由此，可以实现物体检测处理的加速，而不降低检测精度。

物体位置识别单元70基于在由第二物体检测单元60检测的通过距离分类的视频图像上的物体检测结果来识别在输入视频图像中的物体位置。可以在通过距离分类的视频图像提取单元31和通过距离分类的视频图像放大/缩小单元32产生通过距离分类的视频图像时，根据提取坐标位置和放大/缩小比率来容易地确定在输入视频图像中的物体位置。将参考图17来描述从在通过距离分类的视频图像上的检测位置坐标确定在输入视频图像上的位置坐标的过程。图17（a）示出用于从输入视频图像提取通过距离分类的视频图像的坐标位置。通过距离分类的视频图像对应于通过下述方式获得的内容：以输入视频图像的最左上为原点（0，0），将由左上（Xos，Yos）和右下（Xoe，Yoe）限定的区域乘以放大/缩小比率k。图17（b）示出用于识别在提取的通过距离分类的视频图像上的物体位置的坐标位置。以通过距离分类的视频图像的最左上为原点（0，0），由左上（Xds，Yds）和右下（Xde，Yde）限定的范围是检测的位置。图17（c）示出将在通过距离分类的视频图像上识别的物体位置的坐标转换为在输入视频图像上的坐标的结果。以输入视频图像的最左上为原点（0，0），由左上（Xrs，Yrs）和右下（Xre，Yre）限定的范围是最后物体结果检测的坐标。此时，可以利用在图17（a）和图17（b）中的变量，通过下面的公式7至10来确定Xrs、Yrs、Xre和Yre。

[公式7]

Xrs = (\frac{Xds}{K}) + Xos

[公式8]

Yrs = (\frac{Yds}{K}) + Yos

[公式9]

Xre = (\frac{Xde}{K}) + Xos

[公式10]

Xre = (\frac{Yde}{K}) + Yos

由此，可以识别在输入视频图像上的物体位置。不仅识别物体位置，而且也识别从车辆到物体的距离，因为在通过距离分类的视频图像上确定一次物体位置。

根据按照上面的实施例的物体检测装置，其中拍摄车辆周围的视频图像被转换为特征视频图像，并且，对于通过下述方式获得的视频图像执行第一物体检测处理，以确定物体候选位置：基于相对于车辆的距离，根据该距离来从特定视频图像提取不同的区域并且合成它们。而且，对于物体候选位置执行第二物体检测处理，以识别物体检测位置。因此，可以不仅加速物体检测处理，而不牺牲物体检测性能，而且可以测量从车辆至物体的距离。

上面已经描述当前能够设想的本发明的优选实施例。然而，该实施例的各种变化也是可以的，并且意欲在权利要求中包括本发明的真实精神和范围内的所有这样的变化。

本发明的物体检测方法可以是包括由上面的物体检测装置实现的每个步骤的方法。关于本发明的物体检测程序，可以实现由上面的物体检测装置实现的每个功能，并且不特别限制该程序。

上面已经描述了当前能够设想的本发明的优选实施例。然而，应当明白，该实施例的各种变化也是可以的，并且在权利要求中包括本发明的真实精神和范围内的所有这样的变化。

[工业上的适用性]

如上所述，本发明的物体检测装置将其中拍摄车辆周围的视频图像转换为特征视频图像，并且对于通过基于相对于车辆的距离根据该距离从特征视频图像提取不同区域并且合成它们而获得的视频图像执行第一物体检测处理以确定物体候选位置，并且进一步对于该物体候选位置执行第二物体检测处理以识别物体检测位置。因此，该物体检测装置的有益效果在于：可以不仅加速物体检测处理而不牺牲物体检测性能，而且可以测量从车辆至物体的距离，并且它作为检测车辆周围的物体的物体检测装置等是有用的。

[附图标记列表]

10 物体检测装置

20 视频图像转换单元

30 通过距离分类的视频图像提取/合成单元

31 通过距离分类的视频图像提取单元

32 通过距离分类的视频图像放大/缩小单元

33 中心位置调整单元

34 通过距离分类的视频图像的特征数量判定单元

35 合成系数调整单元

36 通过距离分类的视频图像合成单元

40 第一物体检测单元

41 合成视频图像切除/放大单元

42 合成视频图像的特征数量判定单元

43 合成视频图像中的物体检测单元

50 物体候选位置指定单元

60 第二物体检测单元

70 物体位置识别单元

Claims

1.一种物体检测装置，从输入视频图像检测在车辆附近的物体，所述输入视频图像是从所述车辆拍摄的所述车辆周围的视频图像，所述装置包括：

视频图像转换单元，用于将所述输入视频图像转换为特征视频图像，其中已经从所述输入视频图像向所述特征视频图像提取了图像特征；

通过距离分类的视频图像提取/合成单元，用于基于距所述车辆的距离，从所述特征视频图像提取根据距离而不同的区域，作为通过距离分类的视频图像，并且使用所述通过距离分类的视频图像来合成合成视频图像；

第一物体检测单元，执行第一物体检测处理，所述第一物体检测处理用于扫描由所述通过距离分类的视频图像提取/合成单元合成的所述合成视频图像，以确定从所述合成视频图像检测的物体在所述合成视频图像上的位置；

物体候选位置指定单元，基于由所述第一物体检测单元检测的所述物体在所述合成视频图像上的所述位置，确定在通过距离分类的所述视频图像中有可能存在所述物体的物体候选位置；

第二物体检测单元，对于由所述物体候选位置指定单元确定的所述物体候选位置执行第二物体检测处理，用于识别在通过距离分类的所述视频图像中的对应的物体位置；以及，

物体位置识别单元，基于由所述第二物体检测单元确定的所述物体位置，识别在所述输入视频图像中的物体位置。

2.根据权利要求1所述的物体检测装置，其中，所述视频图像转换单元将边缘特征提取为所述图像特征。

3.根据权利要求1所述的物体检测装置，其中，所述通过距离分类的视频图像提取/合成单元基于相对于所述车辆的所述距离来改变从所述特征视频图像提取的区域的大小。

4.根据权利要求1所述的物体检测装置，其中，所述通过距离分类的视频图像提取/合成单元根据距离来放大/缩小所述视频图像，使得通过距离分类的所有所述视频图像的垂直大小彼此相等。

5.根据权利要求1所述的物体检测装置，其中，所述通过距离分类的视频图像提取/合成单元调整通过距离分类的所述视频图像的水平中心轴和垂直中心轴的位置，使得它们重叠，并且合成所述合成视频图像。

6.根据权利要求1所述的物体检测装置，其中，所述通过距离分类的视频图像提取/合成单元通过α混和、按照距离来合成所述合成视频图像。

7.根据权利要求1所述的物体检测装置，其中，所述通过距离分类的视频图像提取/合成单元根据所合成的通过距离分类的视频图像的数量来调整α混和的合成系数，并且合成所述合成视频图像。

8.根据权利要求1所述的物体检测装置，其中，所述通过距离分类的视频图像提取/合成单元根据在通过距离分类的所述视频图像中包括的图像特征的数量来调整α混和的合成系数，并合成所述合成视频图像。

9.根据权利要求1所述的物体检测装置，其中，所述第一物体检测单元在所述第一物体检测处理中将检测目标物体的垂直大小设置为等于所述合成视频图像的垂直大小。

10.根据权利要求1所述的物体检测装置，其中，所述第一物体检测单元通过仅在水平方向上对所述合成视频图像执行扫描来执行物体检测处理。

11.根据权利要求1所述的物体检测装置，其中，所述第一物体检测单元包括合成视频图像切除/放大单元，用于切除与所述合成视频图像的底端接触的区域，并且产生通过放大所述切除区域的垂直大小使得所述垂直大小等于所述合成视频图像的垂直大小而获得的放大的合成视频图像。

12.根据权利要求11所述的物体检测装置，其中，所述第一物体检测单元对于所述放大的合成视频图像执行所述物体检测处理。

13.根据权利要求12所述的物体检测装置，其中，所述第一物体检测单元通过仅在水平方向上对所述放大的合成视频图像执行扫描来执行所述物体检测处理。

14.根据权利要求1所述的物体检测装置，其中，所述第一物体检测单元能够与所述第二物体检测单元分离地调整物体检测的检测判定标准，并且调整所述检测标准使得所述第一物体检测单元比所述第二物体检测单元更容易地判定物体是物体。

15.根据权利要求1所述的物体检测装置，其中，所述第一物体检测单元仅对所述合成视频图像中所述图像特征作为目标存在的部分执行所述第一物体检测处理。

16.根据权利要求1所述的物体检测装置，其中，所述物体位置识别单元基于由所述第二物体检测单元检测的、在通过距离分类的所述视频图像上的物体位置，确定从所述车辆至被检测物体的距离。

17.一种用于从输入视频图像检测在车辆附近的物体的物体检测方法，所述输入视频图像是从所述车辆拍摄的所述车辆周围的视频图像，所述方法包括：

视频图像转换步骤，用于将所述输入视频图像转换为特征视频图像，已经从所述输入视频图像向所述特征视频图像提取了图像特征；

通过距离分类的视频图像提取/合成步骤，用于基于距所述车辆的距离，从所述特征视频图像提取根据距离而不同的区域，作为通过距离分类的视频图像，并且使用所述通过距离分类的视频图像来合成合成视频图像；

第一物体检测步骤，用于执行第一物体检测处理，所述第一物体检测处理用于扫描在所述通过距离分类的视频图像提取/合成步骤中合成的所述合成视频图像，以确定从所述合成视频图像检测的物体在所述合成视频图像上的位置；

物体候选位置检测步骤，用于基于在所述第一物体检测步骤中检测的所述物体在所述合成视频图像上的所述位置，确定在通过距离分类的所述视频图像中有可能存在所述物体的物体候选位置；

第二物体检测步骤，用于对在所述物体候选位置检测步骤中确定的所述物体候选位置执行第二物体检测处理，所述第二物体检测处理用于识别在通过距离分类的所述视频图像中的对应的物体位置；以及，

物体位置识别步骤，用于基于在所述第二物体检测步骤中确定的所述物体位置来识别在所述输入视频图像中的物体位置。

18.一种用于从输入视频图像检测在车辆附近的物体的物体检测程序，所述输入视频图像是从所述车辆拍摄的所述车辆周围的视频图像，所述程序使计算机实现：

视频图像转换功能，用于将所述输入视频图像转换为特征视频图像，已经从所述输入视频图像向所述特征视频图像提取了图像特征；

通过距离分类的视频图像提取/合成功能，用于基于距所述车辆的距离，从所述特征视频图像提取根据距离而不同的区域，作为通过距离分类的视频图像，并且合成通过距离分类的视频图像；

第一物体检测功能，用于扫描由所述通过距离分类的视频图像提取/合成功能合成的合成图像，以执行第一物体检测处理；

物体候选位置检测功能，用于基于已经被所述第一物体检测功能检测到物体在所述合成视频图像上的位置，确定在通过距离分类的所述视频图像中可能存在所述物体的物体候选位置；

第二物体检测功能，用于对由所述物体候选位置检测功能确定的所述物体候选位置执行第二物体检测处理，以识别在通过距离分类的所述视频图像中的物体位置；以及，

物体位置识别功能，用于基于由所述第二物体检测功能确定的所述物体位置来识别在所述输入视频图像中的物体位置。