CN107689060A

CN107689060A - 目标对象的视觉处理方法、装置及基于视觉处理的设备

Info

Publication number: CN107689060A
Application number: CN201610630643.3A
Authority: CN
Inventors: 刘志花; 周明才; 南东暻; 李炜明; 王再冉; 洪涛; 马林; 刘伟恒; 王淳; 许珍九
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2016-08-03
Filing date: 2016-08-03
Publication date: 2018-02-13
Also published as: KR20180015570A; KR102458242B1

Abstract

本发明实施例提供了目标对象的视觉处理方法、装置和基于视觉处理的设备，所述方法包括：从通过双目拍摄装置获取的帧图像对中提取出目标区域；从目标区域中提取出目标对象的多个特征点；确定出目标对象的每个特征点的匹配代价后，进行匹配代价的累积；确定出特征点的最小累积匹配代价对应的深度信息；根据目标对象的多个特征点的深度信息，确定出与目标的距离后，进行报警提示或操作性处理。本发明的实施例中，减少了提取、处理特征点，以及确定匹配代价的工作量；可以在保证目标对象的深度信息的精度的情况下，减少整个视觉处理过程的工作量，大大提升视觉处理的速度，满足实时性的要求。

Description

目标对象的视觉处理方法、装置及基于视觉处理的设备

技术领域

本发明涉及视觉处理技术领域，具体而言，本发明涉及一种目标对象的视觉处理方法、装置和基于视觉处理的设备。

背景技术

双目相机是由两台位置相对固定的相机构成的，类似于人的双眼，可以从两个不同角度同时获取同一目标对象(例如景物)的两幅图像，通过计算空间点在两幅图像中的视差来获得景物的三维坐标值。

以目标对象中的景物为例，深度估计技术，是从景物的一幅或多幅图像中自动、有效的提取深度信息。双目立体视觉的基本原理是模仿人眼与人类视觉的立体感知过程，从两个视点观察同一景物，以获取不同视角下的感知图像，通过三角测量原理计算图像像素间的位置偏差，以获取景物的三维信息。

然而，下述因素容易对目标对象的深度估计造成影响:

光照变化：成像过程中不可避免的存在光线变化、噪声以及一些非线性因素的影响，因此，左右图像中对应点的亮度会有明显差异。

遮挡：遮挡是指对于世界坐标系中的一点，该点在其中一幅图像是可见的，在另一幅图像中是不可见的。一般来说，两个相机位置相隔越远，左右图像中存在遮挡像素的可能性就越大。

无纹理区域：在真实场景中，总存在一些无纹理的区域，使得匹配难以进行，对于这些区域，灰度一致性约束是没有用的。通常本发明实施例中需要通过光滑约束将纹理较为明显的区域的信息传播到纹理不明显的区域。

重复纹理：重复纹理是指实际场景中有很多相似的场景，比如窗户，墙等，对于重复纹理区域中的像素点，将可能出现多个匹配点与其对应。

视差不连续区域：视差不连续区域一般位于区域的边界处，这些区域也是容易发生遮挡的区域。

因此，在立体视觉处理中，计算精确的深度信息是一项既非常困难又非常重要的步骤。

当前的目标对象的视觉处理方法中确定深度信息的方法，主要是计算稠密的深度图，稠密深度估计。现有的稠密深度估计目前常用的算法大致可以分为两类：1)局部算法，2)全局算法。

现有的全局算法并行能力较差，计算耗时较长，基本不能实现实时计算反馈。

现有的局部算法通常是基于过滤器filter的代价累积，然而，局部算法通常有较高的硬件要求，例如需要GPU的加速，GPU功耗较大通常需要专门配备的散热装置，这种方法的硬件架构较为复杂且成本较高。而一旦硬件不能达到要求，局部算法也很难满足实时性的要求。

当前很少有稀疏深度估计的方法。现有的关于稀疏深度估计的几篇论文大致是提取特征点或者边缘，通过局部匹配的方法得到深度，这样得到的深度图精度不够高。

综上，现有的目标对象的深度信息的确定方法，存在无法满足实时性的要求或者确定出的深度信息的精度较低的问题；导致现有的包括深度信息的确定方法的目标对象的视觉处理方法，存在无法满足实时性的要求或者确定出的深度信息的精度较低的问题。

发明内容

本发明针对现有方式的缺点，提出一种目标对象的视觉处理方法、装置和基于视觉处理的设备，用以解决现有的目标对象的视觉处理技术存在无法满足实时性的要求或者确定出的深度信息的精度较低的问题。

本发明的实施例根据一个方面，提供了一种目标对象的视觉处理方法，包括：

从通过双目拍摄装置获取的帧图像对中提取出目标区域；

从所述目标区域中提取出所述目标对象的多个特征点；

确定出所述目标对象的每个特征点的匹配代价后，进行匹配代价的累积；

确定出所述特征点的最小累积匹配代价对应的深度信息；

根据所述目标对象的多个特征点的深度信息，确定出与所述目标的距离后，进行报警提示或操作性处理。

本发明的实施例根据另一个方面，还提供了一种目标对象的视觉处理装置，包括：

目标对象区域提取模块，用于从通过双目拍摄装置获取的帧图像对中提取出目标对象区域；

特征点提取模块，用于从所述目标对象区域中提取出所述目标对象的多个特征点；

匹配代价确定模块，用于确定出所述目标对象的每个特征点的匹配代价后，进行匹配代价的累积；

深度信息确定模块，用于确定出所述特征点的最小累积匹配代价对应的深度信息；

距离确定模块，用于根据所述目标对象的多个特征点的深度信息，确定出与所述目标对象的距离后，进行报警提示或操作性处理。

本发明的实施例根据另一个方面，还提供了一种基于视觉处理的设备，包括：双目拍摄装置、以及目标对象的视觉处理装置；

所述双目拍摄装置用于获取帧图像对；

所述目标对象的测距装置，包括：

目标对象区域提取模块，用于从通过所述双目拍摄装置获取的帧图像对中提取出目标对象区域；

本发明的实施例中，从数据小于原帧图像的目标区域中提取特征点，可以减少提取的工作量；对数据量远小于目标区域的特征点进行各种处理，大大减少了处理的工作量；确定出最小累积匹配代价，意味着滤除了其它累积的匹配代价，减少了该确定步骤的工作量。而且，提取的多个特征点保留了目标的特点，因此可以使得根据特征点确定出的密保对象的深度信息具有较高的精度。因此，利用本发明实施例，可以在保证目标对象的深度信息的精度的情况下，减少整个视觉处理过程的工作量，大大提升视觉处理的速度，满足实时性的要求。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的目标对象的视觉处理方法的流程示意图；

图2为本发明实施例的目标对象区域的视差范围估计的一个实例的示意图；

图3为本发明实施例的目标对象区域与对应区域的灰度的差值变化曲线的一个实例的示意图；

图4为本发明实施例的提取的目标对象的特征点的一个实例的示意图；

图5为本发明实施例的最小生成树和分割树的一个实例的示意图；

图6为本发明实施例的匹配代价的实验比较结果的实例的示意图；

图7为本发明实施例的响应函数的一个实例的示意图；

图8为本发明实施例的目标对象的视觉处理装置的内部结构的框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型确定机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型确定机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明的实施例中，基于视频处理的设备从通过双目拍摄装置获取的一对帧图像中提取出目标区域；从目标区域中提取出目标对象的多个特征点；确定出目标对象的每个特征点的匹配代价后，进行匹配代价的累积；确定出特征点的最小累积匹配代价对应的深度信息；根据目标对象的多个特征点的深度信息，确定出与目标的距离后，进行报警提示或操作性处理。可见，本发明的实施例中，从数据小于原帧图像的目标区域中提取特征点，可以减少提取的工作量；对数据量远小于目标区域的特征点进行各种处理，大大减少了处理的工作量；确定出最小累积匹配代价，意味着滤除了其它累积的匹配代价，减少了该确定步骤的工作量。而且，提取的多个特征点保留了目标的特点，因此可以使得根据特征点确定出的密保对象的深度信息具有较高的精度。因此，利用本发明实施例，可以在保证目标对象的深度信息的精度的情况下，减少整个视觉处理过程的工作量，大大提升视觉处理的速度，满足实时性的要求。

本发明的发明人经过研究发现，现有的目标对象跟踪通常是在视频图像的每一幅图像中确定出用户感兴趣的运动目标对象的位置，并把不同帧图像中同一目标对象对应起来。目标对象跟踪作为计算机视觉领域的一个重要分支，已经被广泛应用于众多生活和工作领域。例如，在智能交通应用中，可以实现车辆或行人等目标对象的检测与跟踪，并在此基础上分析和判断车辆的行为，在发生异常情况时及时作出反应；在人机交互应用中，计算机可以跟踪人类的面部表情、手势及其它的运动，从而进行识别和理解，以判断人类的意图。

虽然目标对象跟踪技术已经研究了很多年，但是仍然有很多因素在影响算法的精度和鲁棒性。

例如，光照变化：拍摄过程中不可避免的存在光线变化，特别的，目标对象区域的光照经历显著性的光照变化。

遮挡：目标对象区域部分或全部被遮挡，造成图像中目标对象不可见。

变形：非刚性的目标对象在运动过程中发生变形，造成前后目标对象区域的显著性差异。

运动模糊：由于目标对象与摄像机的运动造成的运动模糊，导致目标对象区域的不清晰。

快速运动：由于目标对象或摄像机的快速运动，导致算法跟踪的范围增大，极大的增加算法的难度。

背景杂乱：临近目标对象的背景区域与目标对象具有相似的颜色或纹理，使算法难以区分背景和目标对象区域。

尺度变化：感兴趣区域在运动过程中发生尺度的改变，变大或变小。

因此，目标对象的跟踪是一项极具挑战性和具有巨大应用前景的工作。

目标对象跟踪的常用算法大致可以分为两类：1)生成式算法，2)判别式算法。生成式方法的主要思想是搜索，即从大量的候选区域中找出与目标对象模型最相似的一个，其中比价有效的算法有卡尔曼滤波和粒子滤波。判别式方法是把跟踪当做一个分类问题，利用背景和目标对象的不同信息，从背景中提取出目标对象。

然而，现有的大多数目标对象跟踪算法的精度较低。

基于上述发现，本发明的实施例的目标对象的处理方法中，还提供了目标对象的跟踪方法，提取当前帧图像中的目标对象区域的特征值；对当前帧图像中的目标对象区域的特征值进行滤波；对滤波后的特征值进行插值构成当前帧图像的特征值平面；将当前帧图像的特征值平面与预先训练或更新的特征值平面模型进行拟合；将拟合出的最高的响应值所在的位置，作为所跟踪的目标对象区域的当前位置。可见，本发明实施例中，利用平面插值拟合的方法，大大提升了跟踪目标对象区域的位置的精度，使得跟踪目标对象区域的位置的精度可以达到亚像素级。

下面结合附图具体介绍本发明实施例的技术方案。

本发明实施例中的基于视觉处理的设备，通常可以包括如下设备之一：车辆、机器人、智能穿戴设备、计算机终端或移动终端。

本发明实施例中的基于视觉处理的设备中设置有双目拍摄装置。双目拍摄装置可以是双摄像头；例如，安装于基于视觉处理的设备中不同位置处的两个摄像头。

双目拍摄装置用于人的双眼，拍摄包含同一目标对象的帧图形对，以模拟人的双眼获取图像的方式。其中，目标对象包括下述至少一项：车辆、路标、行人、障碍物、景物。

本发明实施例提供了一种基于深度信息的目标对象的视觉处理方法，该方法的流程示意图如图1所示，包括下述步骤S101至S109：

S101：从通过双目拍摄装置获取的帧图像对中提取出目标区域。

双目拍摄装置获取的帧图像对。

从获取的帧图像对中提取出目标区域。

较佳地，从获取的图像对的一帧图像中提取出目标对象所在的区域，作为目标区域。

S102：对目标区域进行视差范围估计。

对于从图像对中的一帧图像中提取出的目标对象区域、以及另一帧图像中与目标对象区域具有相同高度、形状以及大小的对应区域，确定出该对象区域与目标对象区域的灰度的差值。

较佳地，将一帧图像的目标对象区域，设置到另一帧图像中与目标对象区域相同高度的区域中进行平移；若目标对象区域平移后的位置所覆盖的区域包含同一目标对象，作为目标对象区域的一个对应区域。

视差就是从有一定距离的两个视角观察同一个目标对象所产生的同一个点的水平坐标的差异，本发明实施例中即双目拍摄装置获取的帧图像对中，一帧图像与另一帧图像的位置差异。

例如，目标对象区域在另一帧图像中以像素为单位进行平移，直到另一帧图像中被平移后的目标对象区域所覆盖的区域包含同一目标对象，将该被覆盖的区域作为对应区域。由于目标对象所占面积小于对应区域，因此存在多次平移后分别得到的多个对应区域都包含同一目标对象。

第一次平移一个像素，得到第一个对应区域与目标对象区域的位置相差一个像素；第二次平移一个像素，得到第二个对应区域与目标对象区域的位置相差两个像素；同理，第一百个对应区域与目标对象区域的位置相差一百个像素。每个对应区域与目标对象区域都存在灰度差，在一定的视差范围内，对应区域与目标对象区域中都包含同一目标对象。

确定出该对象区域与目标对象区域的灰度的最小的差值。

根据最小的差值，估计出目标对象区域的视差范围。

本发明的发明人发现，实际场景的视差的范围可能是[0,100]或者[0,256]或者其他范围,而目标对象区域的视差会在一个很小的范围内变动，比如[10,20]，如果在0～100内搜索正确视差的话，不仅仅会降低匹配的精度，而且可能会造成误匹配。本发明实施例中提出了一种估计目标对象区域视差范围的方法。

例如，图2所示的目标对象区域的视差范围估计的实例中，左边的图像是目标对象区域，右边是stereo双目相机中的另一个视角的图像，本发明实施例中在[0,100]范围内，沿着红色的扫面线计算目标对象区域和右图对应区域的差值，记为difference，差值曲线见下图3，可以看出曲线类似于开口向上的抛物线，本发明实施例中可以找到最低点，本发明实施例中认为该点是左右两图最匹配的时刻。记为Dopt。

为了进一步求出目标对象区域可能的视差范围，定义了下面的规则：

公式(1)和(2)中的&&表示且，d表示如图3所示的曲线横坐标表示的目标对象区域与对应区域的视差。根据公式(1)和(2)，可以计算出目标对象区域的视差[minD,maxD]。在该规则中，阈值可以根据情况自行调整。另外，为了减少计算时间，本发明实施例中采用了采样的方法来比较左右两图的强度。

S103：从目标区域中提取出目标对象的多个特征点。

较佳地，为了满足实时性的要求，本发明实施例提取了ORB(Oriented FAST andRotate BRIEF，快速特征点检测和旋转不变的二值特征描述子)特征点。图4给出示例。其中绿色的点是提取出的ORB特征点。本发明实施例只估计这些特征点的深度。

S104：根据目标对象的各特征点之间的空间距离，构造出目标对象的特征点的连通图。

对于目标对象的每个特征点，确定出与该特征点的下述三种空间距离最近的其它特征点：水平距离、垂直距离、欧式距离。

将确定出的其它特征点，分别与该特征点连接，形成边；从而得到目标对象的特征点的连通图。

具体地，对前面提取的特征点来构造图，主要是如何构造边，分以下几步：

(1)对点p，若点q是与点p水平距离最近的点，连接p与q

(2)对点p，若点q是与点p垂直距离最近的点，连接p与q

(3)对点p，若点q是与点p欧式距离最近的点，连接p与q

也就是说，本发明实施例中构造的图可以是全局图，也可以是3-connected(连通)图。

S105：根据目标对象的特征点的连通图，确定出以目标对象所有特征点为节点的最小树。

对于目标对象的特征点的连通图中的每个边，将该边两端的两个特征点之间的空间距离作为该边的权重。

确定出加权后的连通图中各边的权重之和最小的树，作为最小树。

较佳地，最小树具体为最小生成树MST或者分割树ST。

具体地，其中边的权重定义为两点之间的空间距离。

进一步地，对于目标对象的特征点的连通图，可以采用prim(普里姆)算法来生成最小生成树。可以采用本领域的惯用技术手段来生成分割树。

例如，图5中的左侧部分、右侧部分，分别表示的MST、ST的实例。

S106：对于以目标对象所有特征点为节点的最小树，确定出该最小树中每个节点的匹配代价。

对于最小树中每个节点所表示的特征点，根据该特征点在目标对象区域中的灰度以及估计出的目标对象区域的视差范围中的视差，确定出该特征点的BT(Birchfield andTomasi，伯奇菲尔德和托马西)代价和Census(统计)代价。

根据特征点的BT代价和Census代价，确定出该特征点的匹配代价。

具体地，BT方法用线性插值来减小对图像采样效应敏感程度。Census是通过比较当前像素的灰度值与其相邻像素的灰度值并统计小于当前像素灰度值的像素的个数。因此，census对光照具有较强鲁棒性。本发明实施例将BT代价和census相结合，得到了公式(3)的衡量标准。

C(p)＝ω*C_BT(p)+(1-ω)*C_census(p)..................公式(3)

公式(3)中，C代表匹配代价，ω是权重。C_BT(p)表示像素p的BT代价，C_census(p)表示像素p的census代价。图6给出了AD,census,AD+census在middleburry上的实验比较结果。其中，AD(absolute intensity differences，灰度差的绝对值)

较佳地，上述公式(3)计算出的特征点的匹配代价具体为匹配代价向量，匹配代价向量的维度的数量与目标对象区域的视差范围中的视差的数目相一致。因此，当目标对象区域的视差范围在上述步骤中被估计得较小时，匹配代价向量的维度降低，计算量大大减小。

S107：对于以目标对象所有特征点为节点的最小树中每个节点，针对该节点进行匹配代价的累积。

对于最小树中每个节点，根据从最小树的根节点指向叶节点的方向，累加该节点的所有子节点的匹配代价，得到该节点的更新后的匹配代价。

根据从最小树的叶节点指向根节点的方向，确定出该节点的所有父节点的匹配代价。

根据该节点更新后的匹配代价和该节点的所有父节点的匹配代价，确定出该节点的累积匹配代价。

具体地，本发明实施例利用了基于树的滤波方法累积匹配代价。该方法是包括两部分：1)从根节点->叶节点，2)从叶节点->根节点对匹配代价滤波。其中从根节点向叶节点传播公式为：

等式(3)中,表示像素p变化后的累积代价，C_d(p)表示像素p初始代价，Ch(p)包含了像素p的所有子节点。像素q是像素p的父节点。S(p·,q·)是相似度函数，下述公式(6)给出了定义。d为匹配代价向量，该匹配代价向量的维度的数量与目标对象区域的视差范围中的视差的数目相一致。因此，当目标对象区域的视差范围在上述步骤中被估计得较小时，匹配代价向量的维度降低，计算量大大减小。

公式(4)可以理解为：对节点p,如果它所有的子节点都被访问过的话，那个更新节点p的代价。

从叶节点向根节点传播公式为：

公式(5)中，Pr(p)表示像素p的父节点，S(Pr(p),p)衡量像素p与其父节点的相似度，表示p的父节点的代价，可以看出最后的累积代价是由顶点p的父节点Pr(p)决定的。在公式(4)和(5)中，有相似度函数S(p·,q·)用来衡量p,q,的相似度，定义如下:

S(p,q)＝exp(-|I(p)-I(q)|/σ_s-sqrt((x_p-x_q)²+(y_p-y_q)²)/σ_r).....公式(6)

其中，I(p),I(q)表示像素p，q的灰度值，xp，yp表示像素p的横纵坐标，σ_s和σ_r是固定参数。可以实验调整。

S108：对于以目标对象所有特征点为节点的最小树中每个节点所表示的特征点，确定出该特征点的最小累积匹配代价对应的深度信息。

本发明实施例采用winners-takes-all方法来得到稀疏特征点深度。也就是说，对每个像素，本发明实施例中选择匹配代价最小的对应的深度作为该点的视差。

在公式(7)中，C’(p,d)表示像素p在视差为d的时刻的匹配代价。

S109：根据目标对象的多个特征点的深度信息，确定出与目标的距离后，进行报警提示或操作性处理。

目标对象包括下述至少一项：车辆、路标、行人、障碍物；以及

进行操作性处理，包括执行下述至少一项：制动、变向。

事实上，上述步骤S102与步骤S103、S104和S105之间不需要遵守严格的先后的关系。步骤S102可以与步骤S103、S104和S105中的至少一个步骤并行。步骤S102可以在步骤S103、S104和S105之间执行，也可以在S105与S106之间执行。

本发明实施例还提供了一种基于目标对象区域跟踪的目标对象的视觉处理方法，包括：提取当前帧图像中的目标对象区域的特征值；对当前帧图像中的目标对象区域的特征值进行滤波；对滤波后的特征值进行插值构成当前帧图像的特征值平面；将当前帧图像的特征值平面与预先训练或更新的特征值平面模型进行拟合；将拟合出的最高的响应值所在的位置，作为所跟踪的目标对象区域的当前位置。

较佳地，该基于目标对象区域跟踪的目标对象的视觉处理方法中，还包括：对于当前帧图像中的目标对象区域，根据所跟踪的目标对象区域的当前位置，对特征值平面模型进行更新。

具体地，在目标对象区域跟踪部分，本发明实施例中在已有的跟踪算法的基础上，提出了一种亚像素精度定位方法。该方法可以推广到任何通过计算响应函数来定位的框架中，具体地，图7给出一个响应函数的示例，本发明实施例中可以看出，响应最高的点应该是下一帧要跟踪的位置，由于以前计算的方法是基于像素的，本发明实施例通过平面插值拟合方法，使得跟踪的精度是亚像素级的。

假定响应函数为R(x，y)＝ax²+by²+cxy+dx+ey+f，分别对x，y求偏导可以得到响应点的位置：

响应函数中的6个参数求解方法可以通过解超定方程组的方法实现。具体的，在最高响应点附近取6个点，对应的响应值也已知，那么就有6个方程，代入法或者消去法可以求得这6个参数。

下面介绍本发明实施例的目标对象的视觉处理方法的两个特例。一个为本发明实例中目标对象的深度信息的估计的特例。

具体地，为了估计目标对象的深度信息，本发明实施例中从公共数据集KITTI上提取了280个目标对象区域，包括车，路标以及行人。在这个数据集上本发明实施例中比较了三种方法。从表1可以看出，本发明实施例提出的稀疏匹配方法可以达到90％的视差估计精度，提高了约10％。

表1

另一个为本发明实施例中目标对象区域的跟踪定位估计的特例，即亚像素定位方法的特例。

为了衡量跟踪的精度，本发明实施例中随机从一公共数据集(OOTB)选择了9段视频图像，包括FaceOcc1，Coke，David，Bolt，Car4，Suv，Sylvester，Walking2 and Singer2。实验结果见下表2.可以看出，亚像素定位方法的实验结果有了小幅提升。

表2

基于上述目标对象的视觉处理方法，本发明实施例还提供了一种目标对象的视觉处理装置，该装置的内部结构的框架示意图如图8所示，包括：目标对象区域提取模块801、特征点提取模块802、匹配代价确定模块803、深度信息确定模块804、距离确定模块805。

其中，目标对象区域提取模块801用于从通过双目拍摄装置获取的帧图像对中提取出目标对象区域。

特征点提取模块802用于从目标对象区域中提取出目标对象的多个特征点。

匹配代价确定模块803用于确定出目标对象的每个特征点的匹配代价后，进行匹配代价的累积。

深度信息确定模块804用于确定出特征点的最小累积匹配代价对应的深度信息。

距离确定模块805用于根据目标对象的多个特征点的深度信息，确定出与目标对象的距离后，进行报警提示或操作性处理。

更优的，如图8所示，本发明实施例中的目标对象的视觉处理装置，还包括：连通图构造模块806和最小树确定模块807。

其中，连通图构造模块806用于根据目标对象的各特征点之间的空间距离，构造出目标对象的特征点的连通图。

最小树确定模块807用于根据目标对象的特征点的连通图，确定出以目标对象所有特征点为节点的最小树。

以及，匹配代价确定模块803还用于对于以目标对象所有特征点为节点的最小树，确定出该最小树中每个节点的匹配代价。

较佳地，连通图构造模块806具体用于对于目标对象的每个特征点，确定出与该特征点的下述三种空间距离最近的其它特征点：水平距离、垂直距离、欧式距离；将确定出的其它特征点，分别与该特征点连接，形成边。

较佳地，最小树确定模块807具体用于对于目标对象的特征点的连通图中的每个边，将该边两端的两个特征点之间的空间距离作为该边的权重；确定出加权后的连通图中各边的权重之和最小的树，作为最小树。

更优的，如图8所示，本发明实施例中的目标对象的视觉处理装置，还包括：视差范围估计模块808。

视差范围估计模块808用于对目标对象区域进行视差范围估计，包括：对于从帧图像对中的一个帧图像中提取出的目标对象区域、以及另一个帧图像中与目标对象区域具有相同高度、形状以及大小的对应区域，确定出该对象区域与目标对象区域的灰度的差值；确定出最小的差值；根据最小的差值，估计出目标对象区域的视差范围。

进一步，匹配代价确定模块803还用于对于最小树中每个节点所表示的特征点，根据该特征点在目标对象区域中的灰度以及估计出的目标对象区域的视差范围中的视差，确定出该特征点的BT代价和Census代价；根据特征点的BT代价和Census代价，确定出该特征点的匹配代价。

进一步，匹配代价确定模块803还用于对于最小树中每个节点，根据从最小树的根节点指向叶节点的方向，累加该节点的所有子节点的匹配代价，得到该节点的更新后的匹配代价；根据从最小树的叶节点指向根节点的方向，确定出该节点的所有父节点的匹配代价；根据该节点更新后的匹配代价和该节点的所有父节点的匹配代价，确定出该节点的累积匹配代价。

更优的，如图8所示，本发明实施例中的目标对象的视觉处理装置，还包括：目标对象跟踪模块809。

目标对象跟踪模块809用于提取当前帧图像中的目标对象区域的特征值；对当前帧图像中的目标对象区域的特征值进行滤波；对滤波后的特征值进行插值构成当前帧图像的特征值平面；将当前帧图像的特征值平面与预先训练或更新的特征值平面模型进行拟合；将拟合出的最高的响应值所在的位置，作为所跟踪的目标对象区域的当前位置。

较佳地，目标对象跟踪模块809还用于根据所跟踪的目标对象区域的当前位置，对特征值平面模型进行更新。

更优的，本发明实施例中基于视觉处理的设备，包括：双目拍摄装置、以及上述目标对象的视觉处理装置。

基于视觉处理的设备具体为车辆、机器人、智能穿戴设备、计算机终端或移动终端。

而且，本发明的实施例中，可以通过对目标对象区域的视差范围估计来缩小其视差范围；可以减少与视差范围中的视差数量相一致的匹配代价向量的数量，进而大大减少后续匹配代价的确定步骤和累积步骤的计算量，整体上进一步提升视觉处理的速度，提升视觉处理的效率。

进一步，本发明的实施例中，根据目标对象区域中提取的目标对象的特征点，构造特征点的连通图；利用图论中从连通图中提取最小树的方法，在保留所有特征点的基础上，大大削减连通图中的边的数量；可以在保证目标对象的深度信息的精度的情况下，进一步减少后续的匹配代价的确定步骤和累积步骤的计算量，整体上进一步提升视觉处理的速度，提升视觉处理的效率。

此外，本发明实施例中，提取当前帧图像中的目标对象区域的特征值，对特征值进行插值构成当前帧图像的特征值平面；将当前帧图像的特征值平面与预先训练或更新的特征值平面模型进行拟合；将拟合出的最高的响应值所在的位置，作为所跟踪的目标对象区域的当前位置。进一步提升目标对象区域的跟踪精度，从而有利于提升目标对象的跟踪精度。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用确定机中的已知设备。这些设备具有存储在其内的确定机程序，这些确定机程序选择性地激活或重构。这样的确定机程序可以被存储在设备(例如，确定机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述确定机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，确定机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用确定机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些确定机程序指令提供给通用确定机、专业确定机或其他可编程数据处理方法的处理器来实现，从而通过确定机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标对象的视觉处理方法，其特征在于，包括：

从通过双目拍摄装置获取的帧图像对中提取出目标区域；

从所述目标区域中提取出所述目标对象的多个特征点；

确定出所述特征点的最小累积匹配代价对应的深度信息；

2.根据权利要求1所述的方法，其特征在于，所述确定出所述目标对象的每个特征点的匹配代价之前，还包括：

根据所述目标对象的各特征点之间的空间距离，构造出所述目标对象的特征点的连通图；

根据所述目标对象的特征点的连通图，确定出以所述目标对象所有特征点为节点的最小树；以及

所述确定出所述目标对象的每个特征点的匹配代价，具体包括：

对于以所述目标对象所有特征点为节点的最小树，确定出该最小树中每个节点的匹配代价。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标对象的各特征点之间的空间距离，构造出所述目标对象的特征点的连通图，具体包括：

对于所述目标对象的每个特征点，确定出与该特征点的下述三种空间距离最近的其它特征点：水平距离、垂直距离、欧式距离；

将所述确定出的其它特征点，分别与该特征点连接，形成边。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标对象的特征点的连通图，确定出以所述目标对象所有特征点为节点的最小树，具体包括：

对于所述目标对象的特征点的连通图中的每个边，将该边两端的两个特征点之间的空间距离作为该边的权重；

确定出加权后的连通图中各边的权重之和最小的树，作为所述最小树。

5.根据权利要求2-4任一项所述的方法，其特征在于，在所述确定出所述目标对象的每个特征点的匹配代价之前，还包括：

对所述目标对象区域进行视差范围估计，包括：

对于从所述帧图像对中的一个帧图像中提取出的目标对象区域、以及另一个帧图像中与所述目标对象区域具有相同高度、形状以及大小的对应区域，确定出该对象区域与目标对象区域的灰度的差值；

确定出最小的所述差值；

根据所述最小的差值，估计出目标对象区域的视差范围。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述确定出所述目标对象的每个特征点的匹配代价，具体包括：

对于所述最小树中每个节点所表示的特征点，根据该特征点在所述目标对象区域中的灰度以及估计出的目标对象区域的视差范围中的视差，确定出该特征点的伯奇菲尔德和托马西BT代价和统计Census代价；

根据所述特征点的BT代价和Census代价，确定出该特征点的匹配代价。

7.根据权利要求2-6任一项所述的方法，其特征在于，所述进行匹配代价的累积，具体包括：

对于所述最小树中每个节点，根据从所述最小树的根节点指向叶节点的方向，累加该节点的所有子节点的匹配代价，得到该节点的更新后的匹配代价；

根据从所述最小树的叶节点指向根节点的方向，确定出该节点的所有父节点的匹配代价；

8.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

提取当前帧图像中的所述目标对象区域的特征值；

对所述当前帧图像中的所述目标对象区域的特征值进行滤波；

对滤波后的特征值进行插值构成当前帧图像的特征值平面；

将当前帧图像的特征值平面与预先训练或更新的特征值平面模型进行拟合；

将拟合出的最高的响应值所在的位置，作为所跟踪的所述目标对象区域的当前位置。

9.根据权利要求8所述的方法，其特征在于，还包括：

根据所跟踪的所述目标对象区域的当前位置，对所述特征值平面模型进行更新。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述最小树具体为最小生成树或者分割树。

11.根据权利要求1-9任一项所述的方法，其特征在于，所述目标对象包括下述至少一项：车辆、路标、行人、障碍物；以及

所述进行操作性处理，包括执行下述至少一项：

制动、变向。

12.一种目标对象的视觉处理装置，其特征在于，包括：

13.一种基于视觉处理的设备，其特征在于，包括：双目拍摄装置、以及目标对象的视觉处理装置；

所述双目拍摄装置用于获取帧图像对；

所述目标对象的测距装置，包括：

14.根据权利要求13所述的设备具体为车辆、机器人、智能穿戴设备、计算机终端或移动终端。