CN104463899B

CN104463899B - 一种目标对象检测、监控方法及其装置

Info

Publication number: CN104463899B
Application number: CN201410854906.XA
Authority: CN
Inventors: 陈心怡; 丁鹏; 赵勇
Original assignee: BEIJING DEEPGLINT INFORMATION TECHNOLOGY Co Ltd
Current assignee: Beijing gelingshentong Information Technology Co.,Ltd.
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2017-09-22
Anticipated expiration: 2034-12-31
Also published as: CN104463899A

Abstract

本申请实施方式提供了一种目标对象检测方法和装置。所述方法包括：获取以第一角度拍摄的第一图像和以第二角度拍摄的第二图像，所述第一图像和第二图像中存在相同对象；将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的像素坐标值分别进行作差运算；根据第一图像拍摄点与第二图像拍摄点的距离以及作差运算结果计算对象的深度信息；根据对象的深度信息进行目标对象的检测。本申请实施方式可以提高目标对象检测的准确性。

Description

一种目标对象检测、监控方法及其装置

技术领域

本申请的实施方式涉及信息数据处理技术领域，尤其涉及一种目标对象检测、监控方法及其装置。

背景技术

随着信息技术的迅速发展，监控技术也得到越来越广泛的应用。通常，在广场、地铁口、码头等人员密集、对象庞杂的复杂场景中，为了安全、管理等方面的需要，人们会利用监控技术对这些区域进行监控，以便及时发现这些区域中出现的需要紧急处理的情况。借助于信息技术实现对特定区域的监控，一个重要的步骤是要从拍摄的复杂图像中准确检测出被监控的对象(以下称为目标对象)，进而对该目标对象进行监控，实现监控任务。

但是，如前所述，复杂场景不同于普通场景，其通常存在这样的特点：对象的类型繁多、数量较大，各相邻对象之间的层级关系复杂(比如，不同对象之间的前后遮挡关系)，这些特点导致对目标对象的准确检测具有相当难度。在现有技术中，一种比较常见的做法是采用“枪球联动技术”，该技术在监控前端内置智能算法的高清枪机和一定数量的智能跟踪球机，通过枪机和球机的联动来实现对目标对象的检测与监控。但是，该技术存在多方面的问题。比如，由于复杂场景中各对象的层级关系复杂，要在平面图像中分割出具有相互遮挡关系的对象较为困难，从而导致对目标对象的检测准确性不高，降低了监控的精度。

发明内容

为了解决上述问题，本申请实施方式提供了一种目标对象检测、监控方法及其装置，以提高目标对象的检测准确性和监控的精度。

一方面，本申请实施方式提供的目标对象检测方法包括：

获取以第一角度拍摄的第一图像和以第二角度拍摄的第二图像，所述第一图像和第二图像中存在相同对象；

将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；

对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的像素坐标值分别进行作差运算；

根据第一图像拍摄点与第二图像拍摄点的距离以及作差运算的结果计算对象的深度信息；

根据对象的深度信息进行目标对象的检测。

优选地，所述将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点，具体包括：

以第一图像中的对象的像素点和第二图像中的像素点为中心，各自确定一个正方形窗口，获取正方形窗口内各个像素点的属性值；

对两个正方形窗口内各个对应像素点的属性值分别进行求差运算，将各个像素点的求差运算结果取绝对值后汇总；

将汇总得到的和值最小的两个正方形窗口对应的中心像素点确定为第一图像中的对象的像素点在第二图像中的对应像素点。

优选地，所述方法还包括：在获取第一图像和第二图像后，根据拍摄设备的内参数和外参数校准所述第一图像和第二图像。

优选地，所述方法还包括：

获取至少两帧前后相邻的第一图像或第二图像；

根据两帧图像上相同像素点属性值的变化建立混合高斯模型，当获取到新的一帧图像时，使用该新的一帧图像更新混合高斯模型；

将待确定背景点的图像中的各个像素点与混合高斯模型进行匹配，如果匹配成功，则将该像素点确定为背景点；

在将第一图像与第二图像进行匹配之前，从第一图像和/或第二图像中过滤掉背景点。

优选地，所述方法还包括：

根据第一图像拍摄点和第二图像拍摄点的位置计算地面深度信息，以及根据第一图像拍摄点和第二图像拍摄点的位置计算H平面的深度信息，所述H平面平行于地面，且H平面的高度大于或等于对象的高度；

所述将第一图像与第二图像进行匹配具体为在所述地面和H平面深度信息确定的区间范围内进行第一图像与第二图像的匹配。

优选地，所述根据对象的深度信息进行目标对象的检测具体包括：

根据对象的深度信息计算对象的三维信息，根据对象的三维信息计算对象的属性特征；

将目标对象的预设属性信息与图像中各个对象的属性特征进行匹配，将图像中与目标对象的预设属性特征匹配的对象确定为目标对象。

优选地，所述方法还包括：

在图像中确定目标对象后，根据所述目标对象的三维信息生成边界框，使用所述边界框在图像中标识出目标对象。

另一方面，本申请实施方式还提供了一种目标对象监控方法，该方法包括：

至少获取第i角度拍摄的第i图像，所述第i角度为第一角度和第二角度之外的角度，所述第i图像与第一图像中存在相同目标对象和/或第i图像与第二图像中存在相同目标对象；

根据上述的方法检测出目标对象后，根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象；

判断各个图像中的目标对象的状态是否满足预设条件，将目标对象的状态满足预设条件的图像进行展现，以实现监控。

优选地，所述根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象具体包括：

根据目标对象在第一图像或第二图像中的位置计算目标对象在以第一拍摄点或第二拍摄点为坐标系原点的坐标中的物理坐标；

根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像与第二图像拍摄点之间的位置关系以及目标对象在以第一拍摄点或第二拍摄点为坐标系原点的坐标中的物理坐标，确定目标对象在以第i图像拍摄点为坐标系原点的坐标中的物理坐标；

根据目标对象在以第i图像拍摄点为坐标系原点的坐标中的物理坐标确定目标对象在第i图像中的位置。

又一方面，本申请实施方式还提供了一种目标对象检测装置。该装置包括：图像获取单元、像素点匹配单元、作差运算单元、第一深度信息计算单元和对象检测单元，其中：

所述图像获取单元，用于获取以第一角度拍摄的第一图像和以第二角度拍摄的第二图像，所述第一图像和第二图像中存在相同对象；

所述像素点匹配单元，用于将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；

所述作差运算单元，用于对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的像素坐标性值分别进行作差运算；

所述第一深度信息计算单元，用于根据第一图像拍摄点与第二图像拍摄点的距离以及作差运算的结果计算对象的深度信息；

所述对象检测单元，用于根据对象的深度信息进行目标对象的检测。

优选地，所述像素点匹配单元具体包括：窗口确定子单元、属性值获取子单元，汇总子单元以及匹配像素点确定子单元，其中：

所述窗口确定子单元，用于以第一图像中对象的像素点和第二图像中的像素点为中心，各自确定一个正方形窗口；

所述属性值获取子单元，用于获取正方形窗口内各个像素点的属性值；

所述汇总子单元，用于对两个正方形窗口内各个对应像素点的属性值分别进行求差运算，将各个像素点的求差运算结果取绝对值后汇总；

所述匹配像素点确定子单元，用于将汇总得到的和值最小的两个正方形窗口对应的中心像素点确定为第一图像中的对象的像素点在第二图像中的对应像素点。

优选地，所述装置还包括：图像校准单元，用于在获取第一图像和第二图像后，根据拍摄设备的内参数和外参数校准所述第一图像和第二图像。

优选地，所述装置还包括：

背景点确定单元和背景点过滤单元，所述背景点确定单元包括模型建立子单元、模型匹配子单元、背景点确定子单元，其中：

所述图像获取单元具体用于获取至少两帧前后相邻的第一图像或第二图像；

所述模型建立子单元，用于根据两帧图像上相同像素点属性值的变化建立混合高斯模型，在获取到新的一帧图像时，使用该新的一帧图像更新混合高斯模型；

所述模型匹配子单元，用于将待确定背景点的图像中的各个像素点与混合高斯模型进行匹配；

所述背景点确定子单元，用于在像素点与混合高斯模型匹配成功时，将该匹配成功的像素点确定为背景点；

所述背景点过滤单元，用于在将第一图像与第二图像进行匹配之前，从第一图像和/或第二图像中过滤掉背景点。

优选地，所述装置还包括：第二深度信息计算单元，用于根据第一图像拍摄点和第二图像拍摄点的位置计算地面深度信息，以及根据第一图像拍摄点和第二图像拍摄点的位置计算H平面的深度信息，所述H平面平行于地面，且H平面的高度大于或等于目标对象的高度；

所述像素点匹配单元，具体用于在所述地面和H平面深度信息确定的区间范围内进行第一图像与第二图像的匹配。

优选地，所述对象检测单元具体包括：属性特征获取子单元和属性特征匹配子单元，其中：

所述属性特征获取子单元，用于根据对象的深度信息计算对象的三维信息，根据对象的三维信息计算对象的属性特征；

所述属性特征匹配子单元，用于将目标对象的预设属性信息与图像中各个对象的属性特征进行匹配，将图像中与目标对象的预设属性特征匹配的对象确定为目标对象。

优选地，所述装置还包括：边界框生成单元，用于在图像中确定目标对象后，根据所述目标对象的三维信息生成边界框，使用所述边界框在图像中标识出目标对象。

再一方面，本申请还提供了一种目标对象监控装置。该装置包括：第二图像获取单元、目标对象确定单元和状态判断单元，其中：

所述第二图像获取单元，用于在根据上述装置检测出目标对象后，至少获取第i角度拍摄的第i图像，所述第i角度为第一角度和第二角度之外的角度，所述第i图像与第一图像中存在相同目标对象和/或第i图像与第二图像中存在相同目标对象；

所述目标对象确定单元，用于根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象；

所述状态判断单元，用于判断各个图像中的目标对象的状态是否满足预设条件，将目标对象的状态满足预设条件的图像进行展现，以实现监控。

优选地，所述目标对象确定单元包括：

第一物理坐标确定子单元、第二物理坐标确定子单元和目标对象确定子单元，其中：

所述第一物理坐标确定子单元，用于根据目标对象在第一图像或第二图像中的位置计算目标对象在以第一拍摄点或第二拍摄点为坐标系原点的坐标中的物理坐标；

所述第二物理坐标确定子单元，用于根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系以及目标对象在以第一拍摄点或第二拍摄点为坐标系原点的坐标中的物理坐标，确定目标对象在以第i图像拍摄点为坐标系原点的坐标中的物理坐标；

所述目标对象确定子单元，用于根据目标对象在以第i图像拍摄点为坐标系原点的坐标中的物理坐标确定目标对象在第i图像中的位置。

本申请的实施方式先获取从不同角度拍摄的两幅图像，从这两幅图像中确定相同对象的相应像素点，然后将相应像素点的属性值进行作差运算，基于两幅图像的拍摄点之间的距离以及作出运算的结果计算深度信息，根据深度信息实现目标对象的检测、监控。与现有技术相比，由于在目标对象的检测过程中考虑了目标对象的深度信息，使得二维平面图像具有三维信息，即便在复杂图像中存在关系复杂的层级关系，也能较为容易地区分出具有遮挡关系的不同对象，从而可以对目标对象的检测准确性较高，进而可以提高监控的精度。此外，通过考虑对象的深度信息，可以明确地区分图像中对象本身所在的图像区域和因光线遮挡产生的阴影区域，从而可以避免图像中阴影区域对目标对象检测产生的不利影响。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本申请的目标对象检测方法的一个实施例的流程图；

图2为一种获取图像的设备结构示意图；

图3为本申请的目标对象可能位于的区间示意图；

图4为本申请的目标对象监控方法的一个实施例的流程图；

图5为本申请的目标对象检测装置的一个实施例的结构框图；

图6为本申请的目标对象监控装置的一个实施例的结构框图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本申请的公开更加透彻和完整，并且能够将本申请公开的范围完整地传达给本领域的技术人员。

参见图1，该图示出了本申请的目标对象检测方法的一个实施例的流程，该流程包括：

步骤S11：获取以第一角度拍摄的第一图像和以第二角度拍摄的第二图像，所述第一图像和第二图像中存在相同对象；

在确定对某个特定区域进行监控后，可以从不同的角度拍摄该区域的图像。从不同角度拍摄的图像应当具有交集，以便利用这些交集来进行后续信息处理，这里的“交集”，从拍摄出来的图像这个侧面而言，可以体现为在不同角度拍摄出来的图像中具有至少一个相同的对象，从拍摄图像的拍摄设备这个侧面而言，两个不同的拍摄设备或者一个拍摄设备的不同拍摄镜头的视野范围应当有重合的区域。举例而言，图2示出了一种用于拍摄的硬件设备，该硬件设备中包括在相同基线上的6个相机，分别为C₁到C₆，这6个相机相互之间可以具有相同的距离也可以具有不同的距离，每个相机所在的位置可以称为一个拍摄点，图中B表示基线长度，B的大小可以根据需要覆盖的场景大小而不同，通常而言，需要覆盖的场景越大，B越大。在该图中，最左侧的相机C₁和最右侧的相机C₆均具有α视场角，这两个相机的视场角在整个硬件设备的前方具有重合区域，那么在这个重合区域中的对象既会在C₁相机拍摄的图像中存在，也会在C₆相机拍摄的图像中存在，也就是说，C₁相机拍摄的图像(以第一角度拍摄的第一图像)和C₆相机拍摄的图像(以第二角度拍摄的第二图像)这两幅图像中存在相同对象。

这里为了便于对本申请技术方案的描述，需要强调几个问题：一是关于“对象”的概念，在本申请中对象意味着一个可以在相机中成像的事物，该事物可以是监控区域中的个体的人，也可以是监控区域中的建筑、基础设施、动物等，也就是说，本申请将从较为广义的角度来使用该术语，不对其进行过多限定，本申请将要检测的目标对象属于这些对象中的某一个或几个。当然，在实际应用中，为了加速信息处理的速度，可以将一些明显不可能成为目标对象的对象预先过滤掉，避免这些对象对真正目标对象检测产生的干扰。二是关于“角度”的问题。“角度”表达了一种相机拍摄方式，即选择的拍摄视角(注：不同于视场角)，但是，这里不表达角度本身的幅度大小，比如，在前述图2中的示例中，C₁相机的视角不同于C₆相机的视角，C₁相机的视角不同于C₂，从图中可以看出，虽然C₁相机和C₆相机具有相同的视场角α，但不属于相同的角度。此外，这里虽然采用第一、第二这样的序数词来表达两个角度，但是，这并不意味着这两个角度具有先后顺序或连续的关系，而仅仅是用于表达不同的角度，通常情况下，由于需要确定两个图像(第一图像和第二图像)中存在相同的对象，这两个角度之间应当具有某种几何上的关系。三是关于获取图像的设备。虽然前述图2示例出了一种获取图像的硬件设备，但是，在实际应用过程中，第一图像和第二图像可以来自于能够采集图像信息的任何硬件设备或软件，本申请并不对此特别限定，甚至在满足迟延要求的情况下，第一图像和第二图像可以是预先采集并缓存到某个数据库中的图像，本申请仅从该数据库中去读取该图像。四是关于获取图像的同步性问题。在本步骤中不仅需要获取第一图像，还要获取第二图像，但是，这两个图像的获取时间可以是同步的，也可以是异步的，到底是同步还是异步取决于后续信息的处理速度以及人们对监控区域监控的实时性要求，比如，在对时延的要求并不是最主要考虑的因素的情况下，可以容忍获取两个图像上的细微不同步。当然，在实际应用过程中，为了整个方案实施的协调性，以同步获取第一图像和第二图像为佳。此外，这里的图像可以是静态的，也可以是多态的，前者可以体现为一张张图片，后者可以体现为视频流。

步骤S12：将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；

在按照前述步骤获取到第一图像和第二图像后，将两个图像进行匹配，以确定第一图像中的对象的每个像素点在第二图像中相同对象上的对应像素点。由于从不同的角度拍摄监控区域，相同对象在拍摄的两个图像中的位置、角度、明暗程度等均存在差别。比如，在图2所示的拍摄设备中，如果真实对象在C₁与C₆两个相机距离中线偏C₁的一次侧，那么由于对象离C₁更近，可能拍摄到的图像更清晰，像素点的RGB值更高。由此可以看出，由于拍摄角度的不同，相同对象在不同图像中存在差异是必然的，而正是这种差异为计算对象的深度信息提供了基础。

对第一图像与第二图像进行匹配以确定具有对应关系的两个像素点，可以采取多种方式实现。比如，在第一图像、第二图像中分别取一个相同边宽的正方形窗口，然后获取正方形窗口内各个像素点的属性值，再将这两个正方形内各个对应像素点的属性值进行求差运算，然后对差值取绝对值后求和，根据该绝对值的和值来确定匹配的像素点。根据绝对值的和值来确定匹配像素点的一种方式是将绝对值的和值最小的两个窗口对应的中心像素点作为匹配的像素点。举例而言：假设现在要确定第一图像中的对象上的A像素点在第二图像中的对应像素点，则可以以A点为中心取一个边长为L的正方形窗口W1，并获取该正方形窗口内各个像素点的属性值，W1内第i行、j列像素点的属性值表示为I₁(i,j)。在第二图像中，从左至右、从上至下(当然，根据实际情况也可以采取其他顺序)开始，先以第一个像素点为中心也取边宽为L的正方形窗口W2，并获取该正方形窗口内各像素点的属性值，W2内第i行、j列像素点的像素属性值表示为I₂(i,j)，然后对W1、W2内各个对应像素点的属性值进行求差运算，对求得的差值进行绝对值求和，得到第一和值，即按照如下公式得到该和值：

随后，再对第二个像素点进行类似操作(相当于滑动W2窗口)，从而得到第二和值，依次类推，直到最后一个像素点对应的最后一个和值。将这多个和值中和值最小的W2窗口对应的中心像素点作为与A像素点匹配的像素点。

需要说明的是按照上述方式确定匹配的相应像素点的过程中是将和值最小的那个窗口对应的像素点作为最匹配的像素点，实际上，除此之外，还可以按照下述方式求取一个值(注：式中分别为两个窗口中所有像素点属性值的平均值)，将求取的多个值中最大的那个窗口对应的中心像素点作为最匹配的像素点：

事实上，上述过程也仅仅是一种示例，其匹配的总体思路属于局部匹配，本申请实施方式中还可以采取整体匹配或者半整体匹配等方式。

步骤S13：对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的像素坐标值分别进行作差运算；

在确定第一图像中的一个像素点与第二图像中的某个像素点之间对应后，可以将这两个点的坐标值进行作差运算。作差运算可能存在三种情形：一是两个对应像素点在相同的行但不同的列，这种情形下，可以将两个像素点的列坐标值进行作差运算；二是两个对应像素点在相同的列而不同的行，这种情形下可以将两个像素点的行坐标值进行作差运算；三是两个对应像素点行、列均不相同，这种情形下可以分别计算两个像素点的行列差值，将行列差值的算术平均值作为最终的结果。无论是哪种情形采取哪种具体的作差运算方式，计算出来的差值表达了对象与相机之间的距离(或基线位置)关系，通常情况下，计算出来的差值越大，表明对象距离相机(基线)越小，即差值与该像素点所在的真实对象离相机的距离成反比关系。

步骤S14：根据第一图像拍摄点与第二图像拍摄点的距离以及作差运算的结果计算对象的深度信息；

如前所述，作差运算得到的结果反映了像素点所在对象距离相机的远近，因而可以基于这些信息进行对象的深度信息的计算。具体计算方式存在多种，比如，一种优选的方式可以是按照如下公式计算对象的深度信息：

z＝f*b/d

其中：f表示相机的焦距，b为基线长度，即第一图像的拍摄点与第二图像拍摄点之间的距离，d表示按照上述步骤计算出来的差值。

步骤S15：根据对象的深度信息进行目标对象的检测；

在获得对象的深度信息后，即可在目标对象的检测中考虑深度信息，从而确定出目标对象。比如，根据对象的深度信息计算对象的三维信息，根据三维信息计算对象的属性特征，然后将目标对象的属性信息与各个对象的属性特征进行匹配，从而将与目标对象的属性特征匹配的对象确定为目标对象。假设需要匹配的目标对象是人，那么在计算出三维信息后，可以抽取出该人的各个属性特征，比如，身高、相貌轮廓、服饰、占地面积等，再将其信息与需要监控的目标人物的特征进行比对，如果匹配的，则可以确定图像中的这个人即是目标人物，当然，该过程可以通过机器学习的相关算法更精确地确定目标人物。这里的匹配可以是严格匹配，即要求目标对象的属性特征的各个要素与图像中对象的属性特征要素完全相同，也可以是不严格匹配，即虽然某些要素没有匹配上，但已匹配上的要素已达到一定的精确程度，则可以视为已找到目标对象。当然，在不严格匹配的情况下，可以将一些候选对象框定出来供相关人员指定，而将最终指定的对象作为目标对象。

从上述的描述可以看出，本申请的实施方式与现有技术存在较大的差别，从而能够取得更好的技术效果。具体而言：

(1)在现有技术中，抢球联动技术主要基于二维数据(比如，RGB彩色数据)对对象进行检测，在物体出现遮挡时，不能较好地实现具有层级关系的对象间的分割。而在本申请实施方式中，由于在目标对象的检测过程中，从不同角度获得相同对象的图像，并基于此获取目标对象的深度信息，使得二维平面图像具有了三维信息，从而可以得到对象的几何特征、远近情况等信息内容，这样即便在图像中存在关系复杂的层级关系，也能较为容易地区分出具有遮挡关系的不同对象，从而可以使对目标对象的检测具有较高的准确性，进而可以提高监控的精度。

(2)在现有技术中，对象在阳光下产生的阴影容易使计算机出现困扰，将阴影识别为对象本身。但是，实际上，由于对象的阴影在地面上，不同于对象本身具有的深度信息，本申请实施方式通过考虑对象的深度信息，可以明确区分出图像中对象本身所在的图像区域和因光线遮挡产生的阴影区域，从而可以避免图像中阴影区域对目标对象检测产生的不利影响。

(3)在现有技术中，不同对象处于一个图像平面中，没有物体的远近信息，信息处理化设备无法判断不同对象的比例关系，出现比例混淆现象，但是，在本申请实施方式中，由于获取到了对象的深度信息，其远近、大小等信息明确，从而不再会出现比例混淆问题。

上述过程详细叙述了本申请实施方式的基本过程，在实际应用过程中，基于各种需要可以对其进行各种改进，从而获得更好的技术效果。下面示例性地从两个方面来叙述对上述基本实施例的改进措施。本申请技术人员可以在此基础上获得替代性的其他措施，这些措施均在本申请技术方案的保护范围之内。

示例性改进方式之一：对获取的图像进行校正。在实际应用过程中，从第一角度(或第二角度)拍摄到的第一图像(或第二图像)可能出现拉伸、扭曲、行列位置没对齐等现象，不消除这些现象，将使图像的匹配过程的难度和计算量增加。为此，本申请的一个改进方向便是基于拍摄设备的内参数、外参数等对获取到的图像进行校正。内参数是只与拍摄设备相关的参数，比如可以是fu、fv、u0、v0，其中：fu为图像坐标系中u轴方向的归一化焦距，fv为图像坐标系中v轴方向的归一化焦距，其值可以根据如下公式获取：fu＝f/dX，fv＝f/dY，其中：f为拍摄设备的焦距，dX和dY分别表示拍摄设备的传感器在u轴和v轴上单位像素的尺寸大小；u0、v0为拍摄设备光学中心的坐标，即拍摄设备光轴与图像平面的交点。除上述常见的四个内参数外，通常每个拍摄设备拍摄出来的图像还存在形变，包括在径向方向的形变和切向方向的形变，因而还具有径向形变系数k1、k2、k3，以及切向形变系数p1、p2。外参数可以通过外参数矩阵来表示，它用来描述拍摄设备相对于一个固定场景的运动，或者相反，物体围绕相机的刚性运动，通常包括旋转矩阵R和平移矩阵t。对于每个拍摄设备存在如下摄像机矩阵A：

其中：cx、cy为图像平面的基准点，f_x，f_y为以像素为单位的焦距，该矩阵可以变换为如下的矩阵：

下面假设经过校正后的某个像素点的坐标为(u，v)，该像素点在校正前的图像中的坐标位置为(map_x，map_y)，则这两个坐标之间存在如下的变换关系：

x←(u-c′_x)/f′_x

y←(v-c′_y)/f′_y

[XYW]^T←R^-1*[xy1]^T

x′←X/W

y′←Y/W

x″←x′(1+k₁r²+k₂r⁴+k₃r⁶)+2p₁x′y′+p₂(r²+2x′²)

y″←y′(1+k₁r²+k₂r⁴+k₃r⁶)+p₁(r²+2y′²)+2p₂x′y′

map_x(u，v)←x″f_x+c_x

map_y(u，v)←y″f_y+c_y

式中：r²＝x^′2+y^′2。

根据上述变换关系可以确定校正前的每个像素点映射在校正后的图像中的对应像素点的坐标位置，从而实现对原图的校正，使得校正后的图像不再出现扭曲、拉升、行列位置不齐等现象。

示例性改进方式之二：减小匹配过程中的计算量。在前述S12步骤中提及需要对第一图像和第二图像进行匹配，通常而言，匹配的过程需要消耗大量的信息处理资源，因此，在实际应用中，一个需要面临的问题是：如何做到一方面既能够实现图像之间的匹配，快速找到两个图像中的对应像素点，另一方面又能尽可能地减少对处理资源的消耗。处理资源消耗量的降低，通常也就意味着匹配效率的提高。为达到这样目的，可以采取各种各样的方式，本申请优选采用如下的两种方式：

第一种方式：通过前景、背景的区分来减小匹配的计算量。背景在场景中通常存在较小的变化，比如在广场上，地面、建筑物、灯柱等在不同帧图像中，基本保持不变，这些区域在进行图像匹配时可以考虑从图像中过滤掉，从而减少匹配的计算量。具体地，可以采用如下方式实现：

对每幅图中的各个像素点在时间上的变化使用K个(比如，3到5)高斯分布函数来建立混合高斯模型。建立混合高斯模型的目的是使每个像素点在时刻N取某固定值的概率可以用这K个高斯分布函数的加权平均来表示，加权平均的权重系数(即每个高斯分布函数的权重系数)可以通过数据学习的方式而得到。混合高斯模型中的各个高斯分布函数可以根据每个高斯分布函数的权重系数比上其标准差而得到，换言之，权重系数越大、标准差越小，则这个高斯分布函数越重要。建立好混合高斯模型后，可以用每次获取的新一帧图像更新所述混合高斯模型。当需要判断图像中的背景点时，将当前图像中的每个像素点与混合高斯模型进行匹配，如果匹配成功，则可以判定该像素点为背景点。通过这种方式可以确定第一图像或第二图像中的背景部分，从而在进行图像匹配搜索时从整体图像中去掉背景部分，减少搜索范围，提高匹配速度。

第二种方式：通过缩小匹配范围来减小匹配过程的计算量。这里结合图3所示的示意图来进行说明。通常情况下，拍摄设备是半俯瞰场景的，这样从深度方向看，目标对象总是处于地面深度和与地面距离一定高度的H平面(平行于地面)的深度之间的，即目标对象的深度一定小于目标对象在它接触到的地面上的投影点(从拍摄设备的射线方向观察)的深度，如图3中人的脚的深度一定小于D点(图中拍摄设备射线与地面的交点)的深度，同时，一定大于目标对象正上方对应的H平面上的点的深度，如图3中人的头的深度一定大于C点(图中拍摄设备射线与H平面的交点)的深度。换言之，目标对象在两幅图像中的相应像素点的差值一定大于它接触到的地面反映在图像中的相应像素点的差值，同时，一定小于它正上方所对应的H平面反映在图像中的相应像素点的差值。通过确定这样的差值区间，从而可以缩小在匹配两幅图像中对象上对应像素点的过程中的搜索范围，进而达到减少计算量的目的。

通过上述的实施方式，可以实现对图像中某个特定对象(目标对象)的检测，在检测到目标对象后，可以基于检测的目标对象进行各种应用。一种常见的应用方式是对目标对象进行监控。为了便于进行监控，可以在检测出目标对象后，根据目标对象的三维信息计算对象的边界框，然后使用边界框标识出目标对象。一种更为复杂的监控是如何实现对目标对象的更清晰图像的获取。在图2所示的硬件设备中，位于左右两个边沿端的相机的视场角通常设置得比中间相机的视场角更大，因此，两端的相机可以拍摄到更大区域的图像，为大而开阔的场景监控提供了基础，而中间的相机由于视场角较小，能够获得更高的图像质量，从而为提供某个目标对象清晰的图像提供了基础。在前述内容中通过两个图像获得了目标对象，在此基础上，可以在其他相机中拍摄的图像中找到这个对象，然后将图像质量满足预设条件的那个图像提供给监控者。具体实现时，可以参见图4所示出的对目标对象进行监控的一个实施例的流程图，该流程包括：

步骤S41：至少获取第i角度拍摄的第i图像，所述第i角度为第一角度和第二角度之外的角度，所述第i图像与第一图像中存在相同目标对象和/或第i图像与第二图像中存在相同目标对象；

这里的第i图像可以是任何一个其他拍摄设备或者其他拍摄角度下拍摄的图像，比如，在图2所示的硬件设备中，第i图像可以是C₂拍摄的图像，也可以是C₃拍摄的图像等等。在进行本申请的本实施方式的时，可以获取一个或多个第i图像，比如，获取C₂～C₅每个相机拍摄的图像。

步骤S42：在检测出目标对象后，根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象；

步骤S43：判断各个图像中的目标对象的状态是否满足预设条件，将目标对象的状态满足预设条件的图像进行展现，以实现监控。

在上述步骤S42中提及需要根据目标对象在第一图像或第二图像中的位置信息确定该目标对象在其他相机拍摄的图像中的位置，具体实现时可以采取多种具体方式，本申请优选按照如下方式进行：

由于选择拍摄点时已确定各个拍摄点(拍摄设备)之间的距离，因此，可以根据已确定的所有其他相机和最左边相机(假设最先确定目标对象的相机为最左边相机)的位置关系计算得到转换矩阵，即把目标对象在以最左边相机为原点的坐标系里的位置转换到以每个其他相机为原点的坐标系里的位置。通过每个其他相机的内参数可以计算目标对象在每个相机拍摄的图像中的位置。具体地，以最左边相机为世界坐标系的原点，以垂直于成像面的方向为Z轴，成像面水平方向为X轴，垂直于ZOX平面的方向为Y轴，目标对象的某个像素在图像坐标系中的坐标为(i,j)，则按照如下公式可以得到坐标点(i、j)在以最左边相机为世界坐标系中的x、y值：

i＝f*x/z+u0

j＝f*y/z+v0

确定将要计算目标对象在其拍摄的图像中位置的相机后，根据转换矩阵得到上述x、y值在以该新相机为世界坐标系中的相应坐标值(x’，y’)，然后采用和上述公式同样的方式，确定该坐标点在该新相机拍摄出来的图像中的位置(i’，j’)。

上述内容详细介绍了本申请实施方式提供的目标对象检测、监控方法的实施例，与此对应地，本申请还提供了目标对象检测装置、监控装置的实施方式。参见图5，该图示出了本申请提供的目标对象检测装置的一个实施例。该实施例包括：图像获取单元51、像素点匹配单元52、作差运算单元53、第一深度信息计算单元54和对象检测单元55，其中：

图像获取单元51，用于获取以第一角度拍摄的第一图像和以第二角度拍摄的第二图像，所述第一图像和第二图像中存在相同对象；

像素点匹配单元52，用于将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；

作差运算单元53，用于对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的像素坐标值分别进行作差运算；

第一深度信息计算单元54，用于根据第一图像拍摄点与第二图像拍摄点的距离以及作差运算的结果计算对象的深度信息；

对象检测单元55，用于根据对象的深度信息进行目标对象的检测。

该检测装置实施例的工作过程是：图像获取单元获取以第一角度拍摄的第一图像和以第二角度拍摄的第二图像后，由像素点匹配单元将第一图像与第二图像进行匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点，然后再由作差运算单元对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的坐标值分别进行作差运算，紧接着，第一深度信息计算单元根据第一图像拍摄点与第二图像拍摄点的距离以及作差运算的结果计算对象的深度信息，最后，对象检测单元根据对象的深度信息进行目标对象的检测。该装置实施例同样能够取得与本申请方法的实施方式类似或相同的技术效果，为避免重复，这里不再赘叙。

上述目标对象检测装置的各个组成单元的内部结构与该单元实现的功能有关，在实际应用中，某个单元功能的不同实现方式往往对应着不同的内部结构。比如，上述检测装置中的像素点匹配单元52，可以进一步包括窗口确定子单元521、属性值获取子单元522，汇总子单元523以及匹配像素点确定子单元524，其中：窗口确定子单元521，用于以第一图像中的像素点和第二图像中的像素点为中心，各自确定一个正方形窗口；属性值获取子单元522，用于获取正方形窗口内各个像素点的属性值；汇总子单元523，用于对两个正方形窗口内各个对应像素点的属性值分别进行求差运算，将各个像素点的求差结果取绝对值后汇总(即对各个求差结果的绝对值进行求和)；匹配像素点确定子单元524，用于将汇总得到的和值最小的两个正方形窗口对应的中心像素点确定为第一图像中的对象的一个像素点在第二图像中的对应像素点。

还比如，上述装置实施例中的对象检测单元55，可以具体包括：属性特征获取子单元551和属性特征匹配子单元552，其中：属性特征获取子单元551，用于根据对象的深度信息计算对象的三维信息，根据对象的三维信息计算对象的属性特征；属性特征匹配子单元552，用于将目标对象的属性信息与对象的属性特征进行匹配，将与目标对象的属性特征匹配的对象确定为目标对象。

除上述这种由于实现某个单元的结构不同导致单元的内部组成结构的差异之外，上述装置实施方式还可能增加新的功能单元，以实现特定的其他目的，解决现实中面临的问题。比如，上述装置实施例可以包括图像校准单元56，用于在获取第一图像和第二图像后，根据拍摄设备的内参数和外参数校准所述第一图像和第二图像。通过图像校准后，减小了像素点匹配单元进行像素点匹配的难度和运算量，从而提高了匹配的效率。

还比如，上述装置实施方式还可以进一步包括：背景点确定单元57和背景点过滤单元58，背景点确定单元57包括模型建立子单元、模型匹配子单元、背景点确定子单元，其中：所述图像获取单元具体用于获取至少两帧前后相邻的第一图像或第二图像；所述模型建立子单元，用于根据两帧图像上相同像素点属性值的变化建立混合高斯模型，在获取到新的一帧图像时，使用该新的一帧图像更新混合高斯模型；所述模型匹配子单元，用于将待确定背景点的图像中的各个像素点与混合高斯模型进行匹配；所述背景点确定子单元，用于在像素点与混合高斯模型匹配成功时，将该匹配成功的像素点确定为背景点；所述背景点过滤单元，用于在将第一图像与第二图像进行匹配之前，从第一图像和第二图像中过滤掉背景点。通过该新增的功能单元将背景点去除后，像素点匹配单元在进行像素点匹配时可以将运算的处理资源集中在前景上，即那些最有可能成为目标对象中的像素点上，从而也能够起到降低运算量、提高匹配效率的作用。

与上述功能单元类似的一种做法是限定匹配过程中匹配的范围。通常情况下，目标对象是处在图像中的某个区间范围内的，即处于地面与某个一定高度且平行地面的平面之间的。为此，可以将图像中高于该特定平面的区域以及地面区域之下的区域不列为匹配的范围。具体做法是上述装置实施方式进一步包括：第二深度信息计算单元，用于根据第一图像拍摄点和第二图像拍摄点的位置计算地面深度信息，以及根据第一图像拍摄点和第二图像拍摄点的位置计算H平面的深度信息，所述H平面平行于地面，且H平面的高度大于或等于目标对象的高度；所述像素点匹配单元，具体用于在所述地面和H平面深度信息确定的区间范围内进行第一图像与第二图像的匹配。

参见图6，该图示出了本申请的一种目标对象监控装置的实施例，该实施例可以实现对目标对象的监控。当然，在实际应用过程中，当检测出目标对象后，可以根据目标对象的三维信息生成边界框，使用边界框标识出目标对象。然而，在实际应用过程中，可能存在多个拍摄同一个区域的相机，这些相机由于角度不同，拍摄到的目标对象的清晰度存在差别，为方便地实现对目标对象监控，可以将最为清晰的图像(或者符合预设条件的图像)提供给监控人员。在图6中示出的监控装置可以实现这样的目的，该监控装置包括：图像获取单元61、目标对象确定单元62和状态判断单元63，其中：

图像获取单元61，用于至少获取第i角度拍摄的第i图像，所述第i角度为第一角度和第二角度之外的角度，所述第i图像与第一图像中和/或第i图像与第二图像中存在相同目标对象；

目标对象确定单元62，用于在根据上述装置检测出目标对象后，根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象；

状态判断单元63，用于判断各个图像中的目标对象的状态是否满足预设条件，将目标对象的状态满足预设条件的图像进行展现，以实现监控。

优选地，所述目标对象确定单元62可以进一步包括：第一物理坐标确定子单元621、第二物理坐标确定子单元622和目标对象确定子单元623，其中：第一物理坐标确定子单元621，用于根据目标对象在第一图像或第二图像中的位置计算目标对象在以第一拍摄点或第二拍摄点位坐标系原点的坐标中的物理坐标；第二物理坐标确定子单元622，用于根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系确定目标对象在以第i图像拍摄点为坐标系原点的坐标中的物理坐标；目标对象确定子单元623，用于根据目标对象在以第i图像拍摄点为坐标系原点的坐标中的物理坐标确定目标对象在第i图像中的位置。

需要说明的是为了叙述的简便，本说明书的上述实施例以及实施例的各种变形实现方式重点说明的都是与其他实施例或变形方式的不同之处，各个情形之间相同、相似的部分可互相参见。尤其，对于装置实施例的改进方式而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处可参见方法实施例部分的说明。以上所描述的装置实施例的各单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到多个网络环境下。在实际应用过程中，可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的，本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

还值得说明的是，虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理，但是应该理解，本发明创造并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合，这种划分仅是为了表述的方便。本发明创造旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种目标对象检测方法，其特征在于，该方法包括：

在所述地面和H平面深度信息确定的区间范围内进行第一图像与第二图像的匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；

根据对象的深度信息进行目标对象的检测。

2.根据权利要求1所述的方法，其特征在于，所述进行第一图像与第二图像的匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在获取第一图像和第二图像后，根据拍摄设备的内参数和外参数校准所述第一图像和第二图像。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取至少两帧前后相邻的第一图像或第二图像；

5.根据权利要求1至4中任何一项所述的方法，其特征在于，所述根据对象的深度信息进行目标对象的检测具体包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种目标对象监控方法，其特征在于，该方法包括：

在根据上述权利要求1至6中任何一项权利要求所述的方法检测出目标对象后，根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象；

判断各个图像中的目标对象的状态是否满足预设条件，将目标对象的状态满足预设条件的图像进行展现，以实现监控，所述监控为对目标对象的更清晰图像的获取。

8.根据权利要求7所述的方法，其特征在于，所述根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象具体包括：

9.一种目标对象检测装置，其特征在于，该装置包括：图像获取单元、第二深度信息计算单元、像素点匹配单元、作差运算单元、第一深度信息计算单元和对象检测单元，其中：

第二深度信息计算单元，用于根据第一图像拍摄点和第二图像拍摄点的位置计算地面深度信息，以及根据第一图像拍摄点和第二图像拍摄点的位置计算H平面的深度信息，所述H平面平行于地面，且H平面的高度大于或等于目标对象的高度；

所述像素点匹配单元，用于在所述地面和H平面深度信息确定的区间范围内进行第一图像与第二图像的匹配，确定第一图像中的对象的各个像素点在第二图像中的对应像素点；

所述作差运算单元，用于对第一图像中的对象的各个像素点与第二图像中相同对象上的对应像素点的像素坐标值分别进行作差运算；

10.根据权利要求9所述的装置，其特征在于，所述像素点匹配单元具体包括：窗口确定子单元、属性值获取子单元，汇总子单元以及匹配像素点确定子单元，其中：

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：图像校准单元，用于在获取第一图像和第二图像后，根据拍摄设备的内参数和外参数校准所述第一图像和第二图像。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：背景点确定单元和背景点过滤单元，所述背景点确定单元包括模型建立子单元、模型匹配子单元、背景点确定子单元，其中：

13.根据权利要求9至12中任何一项所述的装置，其特征在于，所述对象检测单元具体包括：属性特征计算子单元和属性特征匹配子单元，其中：

所述属性特征计算子单元，用于根据对象的深度信息计算对象的三维信息，根据对象的三维信息计算对象的属性特征；

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：边界框生成单元，用于在图像中确定目标对象后，根据所述目标对象的三维信息生成边界框，使用所述边界框在图像中标识出目标对象。

15.一种目标对象监控装置，其特征在于，该装置包括：图像获取单元、目标对象确定单元和状态判断单元，其中：

所述图像获取单元，用于至少获取第i角度拍摄的第i图像，所述第i角度为第一角度和第二角度之外的角度，所述第i图像与第一图像中存在相同目标对象和/或第i图像与第二图像中存在相同目标对象；

所述目标对象确定单元，用于在根据上述权利要求9至14中任何一项权利要求所述的装置检测出目标对象后，根据第i图像拍摄点与第一图像拍摄点之间和/或第i图像拍摄点与第二图像拍摄点之间的位置关系在第i图像中确定所述目标对象；

所述状态判断单元，用于判断各个图像中的目标对象的状态是否满足预设条件，将目标对象的状态满足预设条件的图像进行展现，以实现监控，所述监控为对目标对象的更清晰图像的获取。

16.根据权利要求15所述的装置，其特征在于，所述目标对象确定单元包括：第一物理坐标确定子单元、第二物理坐标确定子单元和目标对象确定子单元，其中：