CN109544619A

CN109544619A - 一种基于图割的双目视觉立体匹配方法及系统

Info

Publication number: CN109544619A
Application number: CN201811314493.0A
Authority: CN
Inventors: 赵勇; 陈天健; 李福池; 俞正中
Original assignee: Shenzhen Aipei Science And Technology Co Ltd
Current assignee: Shenzhen Aipei Science And Technology Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-03-29

Abstract

一种基于图割的双目视觉立体匹配方法及系统，该双目视觉立体匹配方法包括获取、估计、分割、聚合、计算等步骤。由于任意一像素点与该像素点邻域内的其它像素点可能不在同一深度曲面上，那么通过图像分割技术对该像素点邻域进行分割后可尽可能地去除一些不在同一深度上的像素点，通过规避异常像素点干扰的方法来在提高匹配代价的鲁棒性，从而代价聚合得到鲁棒性较高的匹配代价函数，进而根据匹配代价函数计算得像素点的最佳视差值。如此，可以有效解决立体匹配时发生误匹配的问题，利于在不同的视点图像中准确地找到匹配的对应点，可提高立体匹配的精确度。

Description

一种基于图割的双目视觉立体匹配方法及系统

技术领域

本发明涉及双目立体视觉领域，具体涉及一种基于图割的双目视觉立体匹配方法及系统。

背景技术

众所周知，场景中的光线在人眼这个精密的成像系统中被采集，通过神经中枢被送入包含有数以亿计的神经元的大脑中被并行的处理，得到了实时、高清晰、准确的深度感觉信息。这使得人类对环境的适应能力大大提高，很多复杂的动作能够得以完成：如行走、体育运动、驾驶车辆以及进行科学实验等。

而计算机视觉正是使用计算机来模拟人的视觉系统的学科，目的是根据获取的两幅平面图像恢复3D图像。当前，计算机立体视觉的水平与人类的双目视觉水平还相距甚远，因此对它的研究仍然是一个非常活跃的邻域。

双目立体视觉(Binocular Stereo Vision)是计算机视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。由此可知，它通过模拟人的视觉系统来处理现实世界，对于立体视觉匹配的研究，能够大大的增强计算机或机器人对环境的感知能力，使得机器人能够更好的适应环境、更加智能，从而能够更好的为人们服务。经过多年的技术发展，双目立体视觉已在机器人视觉、航空测绘、反求工程、军事运用、医学成像和工业检测等邻域中得以应用。

当前，双目立体视觉融合了两取像设备获得的图像并观察它们之间的差别，使计算机可以获得准确的深度信息，建立特征间的对应关系，将同一空间物理点在不同图像中的映像点对应起来，通常将这种差别称作视差(disparity)。然而，双目立体视觉中最重要但又非常困难的问题就是立体视觉匹配问题，即从不同视点图像中找到匹配的对应点。

发明内容

本发明主要解决的技术问题是如何从不同的视点图像中找到匹配的对应点，以提高双目视觉立体匹配的准确度。

根据第一方面，一种实施例中提供一种基于图割的双目视觉立体匹配方法,包括以下步骤：

获取步骤：获取两个视点下的图像；

估计步骤：根据预设的多个视差值分别对其中一幅图像中的每个像素点进行代价估计，得到各个视差值对应的函数图像；

分割步骤：根据预设的图割算法对所述函数图像上任意一像素点的邻域进行分割，得到该像素点所在的分割区域；

聚合步骤：在所述分割区域上对所述函数图像进行代价聚合，得到所述任意一像素点对应的匹配代价函数；

计算步骤：根据所述匹配代价函数计算所述任意一像素点的最佳视差值。

所述估计步骤包括：对于预设的一个视差值，获得其中一幅图像中的每个像素点在该视差值下的颜色、梯度和/或排名，根据该像素点的颜色、梯度和/或排名计算该视差值对应的函数图像。

对于其中一幅图像中的每个像素点I(y,x)，计算一视差值d对应的函数图像，用公式表示为

c(y,x,d)＝w₁*c_color(y,x,d)+w₂*c_grad(y,x,d)+w₃*c_rank(y,x,d)

其中，w₁、w₂、w₃均为用户设定的权重值，c_color为颜色函数，c_grad为梯度函数，c_rank为排名函数，d为像素点在行方向上的视差值；

在视差值d∈{0,1,...,d_max}且d_max为预设的最大视差值时，得到各个视差值对应的函数图像。

在所述估计步骤之后还包括转换步骤，所述转换步骤包括：

对于每个视差值对应的函数图像c(y,x,d)上的像素点I(y,x)，构造该像素点I(y,x)的邻域R(y,x)，使得

R(y,x)＝{r(i,j),i∈(y-b,y+b),j∈(x-b,x+b)}

其中，r(i,j)为邻域R(y,x)内任意的像素点，i、y均为像素点的行坐标，j、x均为像素点的列坐标，b为邻域R(y,x)的半径；

对每个视差值对应的函数图像c(y,x,d)进行指数转换，得到该视差值对应的仅对特定误差敏感的函数图像，用公式表示为

其中，e(y,x,d)为转换后的函数图像，exp表示指数函数，σ为邻域R(y,x)的灰度方差。

所述分割步骤包括：对于每个视差值对应的且转换后的函数图像e(y,x,d)，根据Graph-cuts图割算法对该函数图像e(y,x,d)上的像素点I(y,x)的邻域R(y,x)进行分割，得到该像素点I(y,x)所在的分割区域R′(y,x)。

所述聚合步骤包括：

在分割区域R′(y,x)上，对各个视差值对应的且转换后的函数图像进行代价聚合，得到像素点I(y,x)对应的匹配代价函数的数学表达式

其中，(i，j)∈R′(y，x)表示分割区域R′(y,x)内的像素点，N为分割区域R′(y,x)内的像素点的数目，视差值d∈{0,1,...,d_max}。

所述计算步骤包括：在视差值d的取值范围{0,1,...,d_max}内计算匹配代价函数C(y,x,d)，获得最小函数值时的视差值，并将该视差值作为最佳视差值d*。

根据第二方面，一种实施例中提供一种图像视觉立体匹配方法，其特征在于，

获取至少两个视点的图像；

通过上述第一方面中所述的双目视觉立体匹配方法对其中一幅图像中的各个像素点进行立体匹配，分别得到各个像素点的最佳视差值。

根据第三方面，一种实施例提供一种基于图割的双目视觉立体匹配系统，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现上述第一方面中所述的方法。

根据第四方面，一种实施例提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述第一方面中所述的方法。

本申请的有益效果是：

依据上述实施例的一种基于图割的双目视觉立体匹配方法及系统，该双目视觉立体匹配方法包括获取、估计、分割、聚合、计算等步骤。由于任意一像素点与该像素点邻域内的其它像素点可能不在同一深度曲面上，那么通过图像分割技术对该像素点邻域进行分割后可尽可能地去除一些不在同一深度的像素点，通过规避异常像素点干扰的方法来在提高匹配代价的鲁棒性，从而代价聚合得到鲁棒性较高的匹配代价函数，进而根据匹配代价函数计算得像素点的最佳视差值。如此，可以有效解决立体匹配时发生误匹配的问题，利于在不同的视点图像中准确地找到匹配的对应点，可提高立体匹配的精确度。

附图说明

图1为双目视觉立体匹配方法的流程图；

图2为估计步骤的具体流程图；

图3为分割步骤的具体流程图；

图4为图像视觉立体匹配方法的流程图；

图5为立体匹配系统的结构简图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

在双目视觉的立体匹配中，一个关键问题是寻找在左右图像中的匹配点，以得到两幅图像中对应像素的水平位置差，也称之为视差，从而进一步可以计算出该像素点的深度。

不在同一深度的像素点，完全可能有相同的颜色、纹理和梯度等，所以这常常会导致立体匹配时发生错配，从而进一步导致视差计算出现较大的错误，大大影响了双目视觉在深度测量中的应用。为了克服这一点，在现有的双目图像的立体匹配方法中，一般会采用像素点周边区域的像素点来估计该像素点，由于周边区域的像素点可能存在与中心像素不在同一深度的情形，因此现有的方法还有较大的不鲁棒性。为提高匹配代价的鲁棒性，本申请是在现有方法的技术上，采用现有的图像分割技术对中心素点的邻域进行分割，如此可尽可能地去除一些不在同一深度的像素点，通过规避异常像素点干扰的方法来提高匹配代价的鲁棒性，从而代价聚合得到鲁棒性较高的匹配代价函数，利于计算得到各个像素点的准确率较高的最佳视差值。通过本申请提供的技术方法，可以有效解决立体匹配时发生误匹配的问题，利于在不同的视点图像中准确地找到匹配的对应点，提高立体匹配的精确度。

实施例一：

请参考图1，本申请公开一种基于图割的双目视觉立体匹配方法，其包括步骤S110-S150，下面分别说明。

步骤S110，获取步骤，主要获取两个视点下的图像。在一实施例中，通过双目相机对立体匹配对象进行取像，由于双目相机构成了两个取像视点，则在这两个取像视点下分别得到一帧图像。

步骤S120，估计步骤，主要根据预设的多个视差值分别对其中一幅图像中的每个像素点进行代价估计，得到各个视差值对应的函数图像。在一实施例中，见图2，该步骤S120可包括步骤S121-S125，分别说明如下。

步骤S121，对于预设的一个视差值，获得其中一幅图像中的每个像素点在该视差值下的颜色、梯度和/或排名，以根据该像素点的颜色、梯度和/或排名计算该视差值对应的函数图像。例如，对于其中一幅图像中的每个像素点I(y,x)，根据视差值d可得c_color(y,x,d)、c_grad(y,x,d)、c_rank(y,x,d)，该些函数分别表示像素点I(y,x)在视差值d的颜色、梯度和排名。

需要说明的是，本实施例寻找左右两幅图像中的匹配点时，定义的视差是两幅图像中对应像素的水平位置差。

步骤S122，计算各个视差值对应的函数图像。

c(y,x,d)＝w₁*c_color(y,x,d)+w₂*c_grad(y,x,d)+w₃*c_rank(y,x,d) (1-1)

其中，w₁、w₂、w₃均为用户设定的权重值，c_color为颜色函数，c_grad为梯度函数，c_rank为排名函数，d为像素点在行方向上的视差值。

步骤S123，根据步骤S122中示意的计算公式，在视差值d∈{0,1,...,d_max}且d_max为预设的最大视差值时，得到各个视差值对应的函数图像，该些函数图像仍可用c(y,x,d)进行表示，只是式中的d存在差别。

此外，该估计步骤S120中还包括转换步骤S124-S125，下面分别说明。

步骤S124，构造函数图像中任意一像素点的邻域。

在一具体实施例中，对于每个视差值对应的函数图像c(y,x,d)上的像素点I(y,x)，构造该像素点I(y,x)的邻域R(y,x)，使得

R(y,x)＝{r(i,j),i∈(y-b,y+b),j∈(x-b,x+b)} (1-2)

其中，r(i,j)为邻域R(y,x)内任意的像素点，i、y均为像素点的行坐标，j、x均为像素点的列坐标，b为邻域R(y,x)的半径。

步骤S125，对每个视差值对应的函数图像c(y,x,d)进行指数转换，得到该视差值对应的仅对特定误差敏感的函数图像，用公式表示为

需要说明的是，根据其它视差值d∈{0,1,...,d_max}得到的函数图像仍可用e(y,x,d)进行表示，只是式中的d存在差别。

需要说明的是，函数图像e(y,x,d)仅对特定误差敏感，具体表现为，对较大的误差不敏感，而对较小的误差敏感，这种现象由指数函数的求解特性决定，这里采用指数转换的方式有利于增强函数图像c(y,x,d)的处理效果。

需要说明的是，对函数图像c(y,x,d)进行指数转换的方法是一种优选的处理方式，在另一个实施例中，可省却步骤S125，直接用函数图像c(y,x,d)进行后续的图割处理。

步骤S130，根据预设的图割算法对函数图像上任意一像素点的邻域进行分割，得到该像素点所在的分割区域。在一实施例中，见图3，该步骤S130可包括步骤S131-S132，分别说明如下。

步骤S131，对于每个视差值对应的且转换后的函数图像e(y,x,d)，根据Graph-cuts图割算法对该函数图像e(y,x,d)上的像素点I(y,x)的邻域R(y,x)进行分割，得到该像素点I(y,x)所在的分割区域R′(y,x)。

需要说明的是，Graph-cuts图割算法可以采用现有的图像分割算法，也可以采用未来出现的其它图像分割算法，这里不对其进行限制。当前，图像分割是指图像分成各具特性的区域并提取出感兴趣目标的技术和过程，它是由图像处理到图像分析的关键步骤，是一种基本的计算机视觉技术，主要包括特征阈值或聚类、边缘检测、区域生长或区域提取等功能；此外，图像分割算法是组合图论的经典算法之一，已有技术人员将其应用到图像和视频分割中，取得了很好的效果。这里将对Graph-cuts图割算法进行一些解释说明。

采用Graph-cuts图割算法时，首先用一个无向图G＝<V，E>表示要分割的图像，V和E分别是顶点(vertex)和边(edge)的集合。此处的Graph和普通的Graph稍有不同。普通的图由顶点和边构成，如果边的有方向的，这样的图被则称为有向图，否则为无向图，且边是有权值的，不同的边可以有不同的权值，分别代表不同的物理意义。而Graph Cuts图是在普通图的基础上多了2个顶点，这2个顶点分别用符号”S”和”T”表示，统称为终端顶点。其它所有的顶点都必须和这2个顶点相连形成边集合中的一部分。所以Graph Cuts中有两种顶点，也有两种边。第一种顶点和边是：第一种普通顶点对应于图像中的每个像素。每两个邻域顶点(对应于图像中每两个邻域像素)的连接就是一条边。这种边也叫n-links。第二种顶点和边是：除图像像素外，还有另外两个终端顶点，叫S(source：源点，取源头之意)和T(sink：汇点，取汇聚之意)。每个普通顶点和这2个终端顶点之间都有连接，组成第二种边。这种边也叫t-links。图中每条边都有一个非负的权值we，也可以理解为cost(代价或者费用)。一个cut(割)就是图中边集合E的一个子集C，那这个割的cost(表示为|C|)就是边子集C的所有边的权值的总和。

Graph Cuts图割算法中的Cuts是指这样一个边的集合，很显然这些边集合包括了上面2种边，该集合中所有边的断开会导致残留”S”和”T”图的分开，所以就称为“割”。如果一个割，它的边的所有权值之和最小，那么这个就称为最小割，也就是图割的结果。而福特-富克森定理表明，网路的最大流max flow与最小割min cut相等。所以由Boykov和Kolmogorov发明的max-flow/min-cut算法就可以用来获得s-t图的最小割。这个最小割把图的顶点划分为两个不相交的子集S和T，其中s∈S，t∈T和S∪T＝V。这两个子集就对应于图像的前景像素集和背景像素集，那就相当于完成了图像分割。图像分割可以看成pixellabeling(像素标记)问题，目标(s-node)的label设为1，背景(t-node)的label设为0，这个过程可以通过最小化图割来最小化能量函数得到。那很明显，发生在目标和背景的边界处的cut就是我们想要的(相当于把图像中背景和目标连接的地方割开，那就相当于把其分割了)。同时，这时候能量也应该是最小的。假设整幅图像的标签label(每个像素的label)为L＝{l1,l2,,,,lp}，其中li为0(背景)或者1(目标)。那假设图像的分割为L时，图像的能量可以表示为：E(L)＝aR(L)+B(L)，其中R(L)为区域项(regional term)，B(L)为边界项(boundary term)，而a就是区域项和边界项之间的重要因子，决定它们对能量的影响大小。如果a为0，那么就只考虑边界因素，不考虑区域因素。E(L)表示的是权值，即损失函数，也叫能量函数，图割的目标就是优化能量函数使其值达到最小。

步骤S132，根据步骤S131中所述的图像分割方法，对其它视差值对应的且转换后函数图像分别进行Graph-cuts图割算法的处理，以对其它函数图像上的同一像素点I(y,x)的邻域R(y,x)进行分割，仍得到该像素点I(y,x)所在的分割区域R′(y,x)。

步骤S140，聚合步骤，主要在分割区域上对函数图像进行代价聚合，得到任意一像素点对应的匹配代价函数。

在一具体实施例中，在分割区域R′(y,x)上，对各个视差值对应的且转换后的函数图像进行代价聚合，得到像素点I(y,x)对应的匹配代价函数的数学表达式

步骤S150，计算步骤，根据步骤S140中的匹配代价函数C(y,x,d)计算任意一像素点的最佳视差值。

在一具体实施例中，在视差d的取值范围{0,1,...,d_max}内计算匹配代价函数C(y,x,d)，获得最小函数值时的视差，并将该视差作为最佳视差值d*。

相应地，本申请还公开了一种基于图割的双目视觉立体匹配系统30。请参考图5，该系统包括存储器301和处理器302，其中，存储器301用于存储程序，而处理器302用于通过执行存储器301存储的程序以实现步骤S110-S150中所述的方法。

实施例二：

在基于实施例一中双目视觉立体匹配方法的基础上，本实施例还提供一种图像视觉立体匹配方法，请参考图4，该图像视觉立体匹配方法包括步骤S210-S220，下面分别说明。

步骤S210，获取至少两个视点的图像。在一具体实施例中，可通过多个相机来对立体匹配对象进行取像，如此可获得多个视点下的图像。

步骤S220，通过实施例一种所述的双目视觉立体匹配方法对其中一幅图像中的各个像素点进行立体匹配，分别得到各个像素点的最佳视差值。

本领域的技术人员可以理解，实施例一中的双目视觉立体匹配方法获得的是图像中一个像素点的最佳视差值，根据该最佳视差值可以找到另一个图像中的匹配对应点，那么，可以根据该方法继续计算图像中所有像素点的最佳视差值，如此可实现两幅或多幅图像之间像素点的一一立体匹配，进而达到图像立体匹配的效果。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于图割的双目视觉立体匹配方法,其特征在于，包括以下步骤：

获取步骤：获取两个视点下的图像；

2.如权利要求1所述的双目视觉立体匹配方法，其特征在于，所述估计步骤包括：

对于预设的一个视差值，获得其中一幅图像中的每个像素点在该视差值下的颜色、梯度和/或排名，根据该像素点的颜色、梯度和/或排名计算该视差值对应的函数图像。

3.如权利要求2所述的双目视觉立体匹配方法，其特征在于，

c(y,x,d)＝w₁*c_color(y,x,d)+w₂*c_grad(y,x,d)+w₃*c_rank(y,x,d)

4.如权利要求3所述的双目视觉立体匹配方法，其特征在于，在所述估计步骤之后还包括转换步骤，所述转换步骤包括：

R(y,x)＝{r(i,j),i∈(y-b,y+b),j∈(x-b,x+b)}

5.如权利要求4所述的双目视觉立体匹配方法，其特征在于，所述分割步骤包括：

对于每个视差值对应的且转换后的函数图像e(y,x,d)，根据Graph-cuts图割算法对该函数图像e(y,x,d)上的像素点I(y,x)的邻域R(y,x)进行分割，得到该像素点I(y,x)所在的分割区域R′(y,x)。

6.如权利要求5所述的双目视觉立体匹配方法，其特征在于，所述聚合步骤包括：

7.如权利要求1所述的双目视觉立体匹配方法，其特征在于，所述计算步骤包括：

在视差值d的取值范围{0,1,...,d_max}内计算匹配代价函数C(y,x,d)，获得最小函数值时的视差值，并将该视差值作为最佳视差值d*。

8.一种图像视觉立体匹配方法，其特征在于，

获取至少两个视点的图像；

通过权利要求1-7中任一项所述的双目视觉立体匹配方法对其中一幅图像中的各个像素点进行立体匹配，分别得到各个像素点的最佳视差值。

9.一种基于图割的双目视觉立体匹配系统，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的方法。