CN114445473B - 基于深度学习算子的立体匹配方法和系统 - Google Patents

基于深度学习算子的立体匹配方法和系统 Download PDF

Info

Publication number
CN114445473B
CN114445473B CN202210359320.0A CN202210359320A CN114445473B CN 114445473 B CN114445473 B CN 114445473B CN 202210359320 A CN202210359320 A CN 202210359320A CN 114445473 B CN114445473 B CN 114445473B
Authority
CN
China
Prior art keywords
parallax
value
pixel
cost
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210359320.0A
Other languages
English (en)
Other versions
CN114445473A (zh
Inventor
葛方海
杨超
刘永才
孙钊
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smarter Eye Technology Co Ltd
Original Assignee
Beijing Smarter Eye Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smarter Eye Technology Co Ltd filed Critical Beijing Smarter Eye Technology Co Ltd
Priority to CN202210359320.0A priority Critical patent/CN114445473B/zh
Publication of CN114445473A publication Critical patent/CN114445473A/zh
Application granted granted Critical
Publication of CN114445473B publication Critical patent/CN114445473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习算子的立体匹配方法和系统,所述方法包括:获取目标区域的左右视图;使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;基于赢家通吃算法,得到具有最大代价值的整像素视差结果;根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。该方法和系统提高了立体匹配方法的精度和泛化能力。

Description

基于深度学习算子的立体匹配方法和系统
技术领域
本申请实施例涉及自动驾驶技术领域,具体涉及一种基于深度学习算子的立体匹配方法和系统。
背景技术
随着人们对更加安全和便捷出行的需求的日益增长,智能驾驶技术正处于蓬勃发展时期,感知和理解环境的能力是汽车智能系统的基础和前提。智能车辆通过双目相机采集视图,并在感知周围环境后做出分析,通过将信息提供给控制系统,实现对路面情况的检测。同时,双目相机的立体匹配精度和泛化能力,直接影响数据采集的准确性。
因此,提供一种基于深度学习算子的立体匹配方法和系统,以提高立体匹配方法的精度和泛化能力,从而保证自动驾驶过程中的数据采集准确性,就成本领域技术人员亟待解决的问题。
发明内容
为此,本发明提供一种基于深度学习算子的立体匹配方法和系统,以提高立体匹配方法的精度和泛化能力,从而保证自动驾驶过程中的数据采集准确性。
为了实现上述目的,本申请实施例提供如下技术方案:
一种基于深度学习算子的立体匹配方法,所述方法包括:
获取目标区域的左右视图;
使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;
基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;
基于赢家通吃算法,得到具有最大代价值的整像素视差结果;
根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。
进一步地,使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值,具体包括:
使用第一Sobel算子对左右视图进行卷积,使用第二Sobel算子对左右视图进行卷积,所述第一Sobel算子和所述第二Sobel算子的大小不同,以便在卷积后得到两种不同的梯度信息;
计算左图对应右图的边缘结构相似值
Figure 812764DEST_PATH_IMAGE001
,并计算右图对应左图的边缘结构相似性
Figure 254241DEST_PATH_IMAGE002
计算
Figure 555909DEST_PATH_IMAGE003
Figure 713221DEST_PATH_IMAGE004
的最小值为当前点时,当前视差
Figure 100340DEST_PATH_IMAGE005
的匹配代价结果。
进一步地,计算左图对应右图的边缘结构相似值
Figure 470141DEST_PATH_IMAGE001
,具体包括:
计算左图中左图目标像素点
Figure 360737DEST_PATH_IMAGE006
基于所述第一Sobel算子得到的结果
Figure 454331DEST_PATH_IMAGE007
、基于所述第二Sobel算子得到的结果
Figure 63167DEST_PATH_IMAGE008
,以及所述左图目标像素点p左边相邻像素点
Figure 236659DEST_PATH_IMAGE009
基于所述第一Sobel算子结果
Figure 247340DEST_PATH_IMAGE010
Figure 12034DEST_PATH_IMAGE011
Figure 108166DEST_PATH_IMAGE012
Figure 819770DEST_PATH_IMAGE013
中的最大值
Figure 684958DEST_PATH_IMAGE014
和最小值
Figure 354974DEST_PATH_IMAGE015
,并计算右图目标像素点
Figure 938402DEST_PATH_IMAGE016
基于所述第一Sobel算子的
Figure 188118DEST_PATH_IMAGE017
,其中,所述右图目标像素点
Figure 173391DEST_PATH_IMAGE018
为所述左图目标像素点
Figure 30620DEST_PATH_IMAGE006
在右图中的对应像素点,且p和
Figure 101344DEST_PATH_IMAGE018
之间的视差为d;
计算
Figure 154751DEST_PATH_IMAGE019
Figure 791268DEST_PATH_IMAGE020
中的最大值
Figure 271928DEST_PATH_IMAGE021
,并以
Figure 564369DEST_PATH_IMAGE022
作为左图对应右图中的边缘结构相似性。
进一步地,利用以下公式,进行匹配代价聚合:
Figure 421467DEST_PATH_IMAGE023
其中,
Figure 646912DEST_PATH_IMAGE024
表示在
Figure 298473DEST_PATH_IMAGE025
传播方向上像素点
Figure 343789DEST_PATH_IMAGE006
Figure 738999DEST_PATH_IMAGE005
视差的聚合代价值,
Figure 835262DEST_PATH_IMAGE025
表示传播方向,
Figure 923303DEST_PATH_IMAGE026
表示像素点
Figure 190337DEST_PATH_IMAGE006
Figure 389237DEST_PATH_IMAGE005
视差的匹配代价值,
Figure 323695DEST_PATH_IMAGE027
表示在r传播方向上p像素点的前一个像素点所有视差的聚合代价,
Figure 582638DEST_PATH_IMAGE028
表示不同视差所对用的惩罚项。
进一步地,利用以下公式,对整像素视差结果进行亚像素视差计算:
Figure 336967DEST_PATH_IMAGE029
其中,
Figure 73979DEST_PATH_IMAGE030
为像素点p最后的亚像素视差值,d为像素点
Figure 394102DEST_PATH_IMAGE006
通过赢家通吃算法计算得到的整像素视差,
Figure 823946DEST_PATH_IMAGE031
为整像素
Figure 799993DEST_PATH_IMAGE032
的聚合代价,
Figure 622586DEST_PATH_IMAGE033
为整像素
Figure 266057DEST_PATH_IMAGE034
的聚合代价,
Figure 601224DEST_PATH_IMAGE035
为整像素
Figure 330145DEST_PATH_IMAGE005
的聚合代价。
本发明还提供一种基于深度学习算子的立体匹配系统,所述系统包括:
视图获取单元,用于获取目标区域的左右视图;
代价值计算单元,用于使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;
聚合代价值计算单元,用于基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;
视差调整单元,用于基于赢家通吃算法,得到具有最大代价值的整像素视差结果;
视差值获取单元,用于根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。
根据本申请实施例的第三方面,提供了一种电子设备,所述电子设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行第一方面任一项所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如第一方面任一项所述的方法。
本发明所提供的基于深度学习算子的立体匹配方法,通过使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;基于赢家通吃算法,得到具有最大代价值的整像素视差结果;根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。
这样,本发明所提供的立体匹配方法使用深度学习算子实现,并使用了新的代价匹配算法,加入了亚像素拟合方法,从而保证了算法的精度和泛化能力,而且可以高效的部署在现在主流的大部分的域控制器计算单元上,可以有效降低双目立体匹配系统开发难度和制造成本,既保证了立体匹配效果,又降低了计算难度,提高了计算效率,具有更好的泛化能力,边缘视差效果更好,精度更高,提高立体匹配方法的精度和泛化能力,从而保证自动驾驶过程中的数据采集准确性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明所提供的基于深度学习算子的立体匹配方法一种具体实施方式的流程图;
图2为本发明所提供的方法中匹配代价计算过程的流程图;
图3为本发明所提供的方法中计算左图对应右图的边缘结构相似值的流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的基于深度学习算子的立体匹配方法一种具体实施方式的流程图。
在一种具体实施方式中,本发明所提供的基于深度学习算子的立体匹配方法包括以下步骤:
S101:获取目标区域的左右视图,应当理解的是,左右视图包含双目相机采集的到左图和右图。
S102:使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值。匹配代价计算的目的是衡量待匹配像素与候选像素之间的相关性。两个像素无论是否为同名点,都可以通过匹配代价函数计算匹配代价,代价越小则说明相关性越大,是同名点的概率也越大。每个像素在搜索同名点之前,往往会指定一个视差搜索范围D(Dmin ~ Dmax),视差搜索时将范围限定在D内,用一个大小为W×H×D(W为影像宽度,H为影像高度)的三维矩阵C来存储每个像素在视差范围内每个视差下的匹配代价值。矩阵C通常称为DSI(DisparitySpace Image)。
可见,在原理上,视差匹配代价是通过左右图对应像素点的匹配程度计算得到的,在对左右图像进行标定和平行等位矫正之后,只需在左右图的同一行进行匹配代价计算即可。在进行代价匹配计算时可以使用多种方式,例如:SAD(sum of absolutedifferences), MI(Mutual Information),Census,SSIM(Structural Similarity)等,都是通过计算对应像素点周围范围内的特征值,来计算匹配代价值。
S103:基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值。代价聚合的根本目的是让代价值能够准确的反映像素之间的相关性。上一步匹配代价的计算往往只会考虑局部信息,通过两个像素邻域内一定大小的窗口内的像素信息来计算代价值,这很容易受到影像噪声的影响,而且当影像处于弱纹理或重复纹理区域,这个代价值极有可能无法准确的反映像素之间的相关性,直接表现就是真实同名点的代价值非最小。而代价聚合则是建立邻接像素之间的联系,以一定的准则,如相邻像素应该具有连续的视差值,来对代价矩阵进行优化,这种优化往往是全局的,每个像素在某个视差下的新代价值都会根据其相邻像素在同一视差值或者附近视差值下的代价值来重新计算,得到新的DSI,用矩阵S来表示。
实际上代价聚合类似于一种视差传播步骤,信噪比高的区域匹配效果好,初始代价能够很好的反映相关性,可以更准确的得到最优视差值,通过代价聚合传播至信噪比低、匹配效果不好的区域,最终使所有影像的代价值都能够准确反映真实相关性。常用的代价聚合方法有扫描线法、动态规划法、SGM算法中的路径聚合法等。
具体地,为了提高计算准确性,利用以下公式,进行匹配代价聚合:
Figure 205697DEST_PATH_IMAGE036
其中,
Figure 703675DEST_PATH_IMAGE037
表示在r传播方向上像素点p在d视差的聚合代价值,r表示传播方向,
Figure 209742DEST_PATH_IMAGE038
表示像素点p在d视差的匹配代价值,
Figure 425960DEST_PATH_IMAGE039
表示在r传播方向上p像素点的前一个像素点所有视差的聚合代价,
Figure 839624DEST_PATH_IMAGE040
表示不同视差所对用的惩罚项。
在该实施例中,直接求像素点p-r的所有视差的聚合代价的最小值进行传播,并按照视差d的不同设计不同的惩罚项。例如:根据视差距离当前要传播的视差的距离计算惩罚项,距离越远惩罚项越大,距离越近惩罚项越小,因为根据图像和物理特性,期望在同一平面上的视差要保持相似性。但在边界地方视差会有跳变,本实施例使用全视差传播,确保视差的跳变是被允许的。而且在深度学习算子中,数据整理和搬运是非常耗时的,本方案使用全视差,可以同时对所有视差进行计算,而不需要数据的选取和搬运。并且在非传播方向上,由于不需要传播,则可以所有像素点可以同时进行传播,更符合深度学习算子并行计算的特性,以加快计算效率;同时,该方法包含了上一个点的所有视差进行传播,有效消除视差图边界效果较差的现象。
S104:基于赢家通吃算法,得到具有最大代价值的整像素视差结果。视差计算即通过代价聚合之后的代价矩阵来确定每个像素的最优视差值,通常使用赢家通吃算法(WTA,Winner-Takes-All)来计算,其中,赢家通吃算法为通用算法,即某个像素的所有视差下的代价值中,选择最小代价值所对应的视差作为最优视差。这一步非常简单,这意味着聚合代价矩阵的值必须能够准确的反映像素之间的相关性,也表明上一步代价聚合步骤是立体匹配中极为关键的步骤,直接决定了算法的准确性。
S105:根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。
也就是说,采用亚像素视差计算的方式进行视差优化,视差优化的目的是对上一步得到的视差图进行进一步优化,改善视差图的质量,包括剔除错误视差、适当平滑以及子像素精度优化等步骤。在视差优化时,一般采用左右一致性检查(Left-Right Check)算法剔除因为遮挡和噪声而导致的错误视差;采用剔除小连通区域算法来剔除孤立异常点;采用中值滤波(Median Filter)、双边滤波(Bilateral Filter)等平滑算法对视差图进行平滑;另外还有一些有效提高视差图质量的方法如鲁棒平面拟合(Robust Plane Fitting)、亮度一致性约束(Intensity Consistent)、局部一致性约束(Locally Consistent)等也常被使用。
当得到了传播后的聚合代价结果后,对于每一个像素点,先使用赢家通吃(WinnerTakes All)算法,聚合代价最小的视差点即为当前像素点的整像素视差。但要得到精准的深度信息,整像素视差并不是最好的表示方式,因此需要通过整像素视差周围的视差聚合代价来拟合出真正最小值所在的亚像素视差值。在该实施例中,以使用抛物线拟合的方式进行亚像素计算为例,具体地,利用以下公式,对整像素视差结果进行亚像素视差计算:
Figure 192108DEST_PATH_IMAGE041
其中,
Figure 134656DEST_PATH_IMAGE042
为像素点
Figure 572591DEST_PATH_IMAGE006
最后的亚像素视差值,d为像素点
Figure 537748DEST_PATH_IMAGE006
通过赢家通吃算法计算得到的整像素视差,
Figure 10318DEST_PATH_IMAGE043
为整像素
Figure 858188DEST_PATH_IMAGE032
的聚合代价,
Figure 783419DEST_PATH_IMAGE044
为整像素
Figure 804464DEST_PATH_IMAGE034
的聚合代价,
Figure 131540DEST_PATH_IMAGE045
为整像素
Figure 415891DEST_PATH_IMAGE005
的聚合代价。
从理论上来讲,一种典型的立体匹配算法包括四个步骤:匹配代价计算、匹配代价聚和、视差计算和视差细化。对于立体匹配的整体性能而言,每个步骤都起到至关重要的作用。虽然深度卷积神经网络在各种视觉任务中都表现出强大的特征表达能力,并且可以应用到立体匹配中去提高视差估计精度,但强监督的深度学习网络的缺点就是泛化能力弱,而传统方法使用的都是从简单特征中提取的更加抽象的特征,因此能够更好的保持其泛化能力。此方法结合使用深度学习算子,使传统立体匹配方法可以有效地部署到深度学习芯片中,并应用于基于双目的路面平坦度检测中。
在一些实施例中,如图2所示,使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值,具体包括以下步骤:
S201:使用第一Sobel算子对左右视图进行卷积,使用第二Sobel算子对左右视图进行卷积,所述第一Sobel算子和所述第二Sobel算子的大小不同,以便在卷积后得到两种不同的梯度信息。Sobel算子是像素图像边缘检测中最重要的算子之一,在机器学习、数字媒体、计算机视觉等信息科技领域起着举足轻重的作用。在技术上,它是一个离散的一阶差分算子,用来计算图像亮度函数的一阶梯度之近似值。在图像的任何一点使用此算子,将会产生该点对应的梯度矢量或是其法矢量。将Sobel算子区分为第一和第二仅为了描述方便,不表示某种顺序或限定。
也就是说,使用两个大小不同的Sobel算子(即第一Sobel算子和第二Sobel算子)对左图和右图进行卷积。在一个使用场景中,使用1个3*3的水平方向的Sobel算子作为第一Sobel算子,使用1个3*4的水平方向的Sobel算子作为第二Sobel算子进行卷积,得到两种不同的梯度信息。
S202:计算左图对应右图的边缘结构相似值
Figure 359577DEST_PATH_IMAGE046
,并计算右图对应左图的边缘结构相似性
Figure 121996DEST_PATH_IMAGE047
S203:计算
Figure 303579DEST_PATH_IMAGE048
Figure 758831DEST_PATH_IMAGE049
的最小值为当前点时,当前视差d的匹配代价结果。
在得到匹配代价结果后,对左图中每一个点,以最大视差
Figure 206124DEST_PATH_IMAGE050
重复步骤S201-S203,则可得到一个大小为[d, h, w]的视差空间。
其中,计算左图对应右图的边缘结构相似值
Figure 772234DEST_PATH_IMAGE051
,具体包括以下步骤:
计算左图中左图目标像素点p基于所述第一Sobel算子得到的结果
Figure 808324DEST_PATH_IMAGE052
、基于所述第二Sobel算子得到的结果
Figure 434477DEST_PATH_IMAGE053
,以及所述左图目标像素点p左边相邻像素点
Figure 352754DEST_PATH_IMAGE054
基于所述第一Sobel算子结果
Figure 456977DEST_PATH_IMAGE055
Figure 613151DEST_PATH_IMAGE056
Figure 410206DEST_PATH_IMAGE057
Figure 815780DEST_PATH_IMAGE058
中的最大值
Figure 989272DEST_PATH_IMAGE059
和最小值
Figure 999953DEST_PATH_IMAGE060
,并计算右图目标像素点
Figure 967909DEST_PATH_IMAGE061
基于所述第一Sobel算子的
Figure 595200DEST_PATH_IMAGE062
,其中,所述右图目标像素点
Figure 41225DEST_PATH_IMAGE063
为所述左图目标像素点
Figure 171992DEST_PATH_IMAGE006
在右图中的对应像素点,且p和
Figure 310849DEST_PATH_IMAGE063
之间的视差为d;
计算
Figure 441747DEST_PATH_IMAGE064
Figure 691463DEST_PATH_IMAGE065
中的最大值
Figure 676737DEST_PATH_IMAGE066
,并以
Figure 517654DEST_PATH_IMAGE067
作为左图对应右图中的边缘结构相似性。
将左图和右图互换,重复执行步骤S201-S203则可以得到
Figure 588378DEST_PATH_IMAGE049
在上述具体实施方式中,本发明所提供的基于深度学习算子的立体匹配方法,通过使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;基于赢家通吃算法,得到具有最大代价值的整像素视差结果;根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。这样,本发明所提供的立体匹配方法使用深度学习算子实现,并使用了新的代价匹配算法,加入了亚像素拟合方法,从而保证了算法的精度和泛化能力,而且可以高效的部署在现在主流的大部分的域控制器计算单元上,可以有效降低双目立体匹配系统开发难度和制造成本,既保证了立体匹配效果,又降低了计算难度,提高了计算效率,具有更好的泛化能力,边缘视差效果更好,精度更高,提高立体匹配方法的精度和泛化能力,从而保证自动驾驶过程中的数据采集准确性。
除了上述方法,本发明还提供一种基于深度学习算子的立体匹配系统,如图3所示,所述系统包括:
视图获取单元100,用于获取目标区域的左右视图;
代价值计算单元200,用于使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;
代价值计算单元200具体用于:
使用第一Sobel算子对左右视图进行卷积,使用第二Sobel算子对左右视图进行卷积,所述第一Sobel算子和所述第二Sobel算子的大小不同,以便在卷积后得到两种不同的梯度信息;
计算左图对应右图的边缘结构相似值
Figure 641784DEST_PATH_IMAGE046
,并计算右图对应左图的边缘结构相似性
Figure 481564DEST_PATH_IMAGE047
计算
Figure 758962DEST_PATH_IMAGE048
Figure 51403DEST_PATH_IMAGE049
的最小值为当前点时,当前视差d的匹配代价结果。
其中,计算左图对应右图的边缘结构相似值
Figure 908501DEST_PATH_IMAGE046
,具体包括:
计算左图中左图目标像素点p基于所述第一Sobel算子得到的结果
Figure 602787DEST_PATH_IMAGE068
、基于所述第二Sobel算子得到的结果
Figure 801818DEST_PATH_IMAGE069
,以及所述左图目标像素点p左边相邻像素点
Figure 847135DEST_PATH_IMAGE070
基于所述第一Sobel算子结果
Figure 242344DEST_PATH_IMAGE071
Figure 791137DEST_PATH_IMAGE072
Figure 410337DEST_PATH_IMAGE057
Figure 677371DEST_PATH_IMAGE073
中的最大值
Figure 610692DEST_PATH_IMAGE074
和最小值
Figure 279570DEST_PATH_IMAGE075
,并计算右图目标像素点
Figure 335251DEST_PATH_IMAGE076
基于所述第一Sobel算子的
Figure 824001DEST_PATH_IMAGE077
,其中,所述右图目标像素点
Figure 826592DEST_PATH_IMAGE078
为所述左图目标像素点p在右图中的对应像素点,且p和
Figure 349977DEST_PATH_IMAGE078
之间的视差为d;
计算
Figure 799063DEST_PATH_IMAGE079
Figure 40689DEST_PATH_IMAGE080
中的最大值
Figure 581391DEST_PATH_IMAGE081
,并以
Figure 756021DEST_PATH_IMAGE082
作为左图对应右图中的边缘结构相似性。
聚合代价值计算单元300,用于基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;
聚合代价值计算单元300具体用于,利用以下公式进行匹配代价聚合:
Figure 356766DEST_PATH_IMAGE083
其中,
Figure 820109DEST_PATH_IMAGE084
表示在
Figure 164502DEST_PATH_IMAGE025
传播方向上像素点
Figure 193638DEST_PATH_IMAGE006
Figure 699706DEST_PATH_IMAGE005
视差的聚合代价值,
Figure 915924DEST_PATH_IMAGE025
表示传播方向,
Figure 798429DEST_PATH_IMAGE085
表示像素点
Figure 698383DEST_PATH_IMAGE006
Figure 375352DEST_PATH_IMAGE005
视差的匹配代价值,
Figure 813287DEST_PATH_IMAGE086
表示在
Figure 499483DEST_PATH_IMAGE025
传播方向上
Figure 503211DEST_PATH_IMAGE006
像素点的前一个像素点所有视差的聚合代价,
Figure 616660DEST_PATH_IMAGE087
表示不同视差所对用的惩罚项。
视差调整单元400,用于基于赢家通吃算法,得到具有最大代价值的整像素视差结果;
视差值获取单元500,用于根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。
视差值获取单元500具体用于,利用以下公式,对整像素视差结果进行亚像素视差计算:
Figure 541891DEST_PATH_IMAGE088
其中,
Figure 766199DEST_PATH_IMAGE089
为像素点
Figure 624434DEST_PATH_IMAGE006
最后的亚像素视差值,
Figure 908785DEST_PATH_IMAGE005
为像素点
Figure 55732DEST_PATH_IMAGE006
通过赢家通吃算法计算得到的整像素视差,
Figure 631201DEST_PATH_IMAGE090
为整像素
Figure 812784DEST_PATH_IMAGE032
的聚合代价,
Figure 268036DEST_PATH_IMAGE091
为整像素
Figure 167859DEST_PATH_IMAGE034
的聚合代价,
Figure 265128DEST_PATH_IMAGE092
为整像素d的聚合代价。
在上述具体实施方式中,本发明所提供的基于深度学习算子的立体匹配系统,通过使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;基于赢家通吃算法,得到具有最大代价值的整像素视差结果;根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值。这样,本发明所提供的立体匹配方法使用深度学习算子实现,并使用了新的代价匹配算法,加入了亚像素拟合方法,从而保证了算法的精度和泛化能力,而且可以高效的部署在现在主流的大部分的域控制器计算单元上,可以有效降低双目立体匹配系统开发难度和制造成本,既保证了立体匹配效果,又降低了计算难度,提高了计算效率,具有更好的泛化能力,边缘视差效果更好,精度更高,提高立体匹配方法的精度和泛化能力,从而保证自动驾驶过程中的数据采集准确性。
基于相同的技术构思,本申请实施例还提供了一种电子设备,所述电子设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行所述的方法。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行所述的方法。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种基于深度学习算子的立体匹配方法,其特征在于,所述方法包括:
获取目标区域的左右视图;
使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;
基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;
基于赢家通吃算法,得到具有最大代价值的整像素视差结果;
根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值;
使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值,具体包括:
使用第一Sobel算子对左右视图进行卷积,使用第二Sobel算子对左右视图进行卷积,所述第一Sobel算子和所述第二Sobel算子的大小不同,以便在卷积后得到两种不同的梯度信息;
计算左图对应右图的边缘结构相似值
Figure DEST_PATH_IMAGE001
,并计算右图对应左图的边缘结构相似性
Figure 154370DEST_PATH_IMAGE002
计算
Figure 71510DEST_PATH_IMAGE001
Figure 54509DEST_PATH_IMAGE002
的最小值为当前点时,当前视差d的匹配代价结果。
2.如权利要求1所述的立体匹配方法,其特征在于,计算左图对应右图的边缘结构相似值
Figure 449719DEST_PATH_IMAGE001
,具体包括:
计算左图中左图目标像素点p基于所述第一Sobel算子得到的结果
Figure DEST_PATH_IMAGE003
、基于所述第二Sobel算子得到的结果
Figure 732933DEST_PATH_IMAGE004
,以及所述左图目标像素点p左边相邻像素点
Figure DEST_PATH_IMAGE005
基于所述第一Sobel算子结果
Figure 978231DEST_PATH_IMAGE006
Figure 245265DEST_PATH_IMAGE003
Figure 647427DEST_PATH_IMAGE004
Figure 316306DEST_PATH_IMAGE006
中的最大值
Figure DEST_PATH_IMAGE007
和最小值
Figure 27779DEST_PATH_IMAGE008
,并计算右图目标像素点
Figure DEST_PATH_IMAGE009
基于所述第一Sobel算子的
Figure 985370DEST_PATH_IMAGE010
,其中,所述右图目标像素点
Figure 722382DEST_PATH_IMAGE009
为所述左图目标像素点p在右图中的对应像素点,且p和
Figure 714609DEST_PATH_IMAGE009
之间的视差为d;
计算
Figure DEST_PATH_IMAGE011
Figure 95518DEST_PATH_IMAGE012
中的最大值
Figure DEST_PATH_IMAGE013
,并以
Figure 540406DEST_PATH_IMAGE013
作为左图对应右图中的边缘结构相似性。
3.如权利要求1所述的立体匹配方法,其特征在于,利用以下公式,进行匹配代价聚合:
Figure 815530DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
表示在r传播方向上像素点p在d视差的聚合代价值,r表示传播方向,
Figure 380372DEST_PATH_IMAGE016
表示像素点p在d视差的匹配代价值,
Figure DEST_PATH_IMAGE017
表示在r传播方向上p像素点的前一个像素点所有视差的聚合代价,
Figure 184380DEST_PATH_IMAGE018
表示不同视差所对用的惩罚项。
4.如权利要求1所述的立体匹配方法,其特征在于,利用以下公式,对整像素视差结果进行亚像素视差计算:
Figure DEST_PATH_IMAGE019
其中,
Figure 116564DEST_PATH_IMAGE020
为像素点p最后的亚像素视差值,d为像素点p通过赢家通吃算法计算得到的整像素视差,
Figure DEST_PATH_IMAGE021
为整像素d-1的聚合代价,
Figure 664220DEST_PATH_IMAGE022
为整像素d+1的聚合代价,
Figure DEST_PATH_IMAGE023
为整像素d的聚合代价。
5.一种基于深度学习算子的立体匹配系统,其特征在于,所述系统包括:
视图获取单元,用于获取目标区域的左右视图;
代价值计算单元,用于使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值;
聚合代价值计算单元,用于基于得到的匹配代价值,使用深度学习算子沿多个方向进行匹配代价聚合,以得到聚合代价值;
视差调整单元,用于基于赢家通吃算法,得到具有最大代价值的整像素视差结果;
视差值获取单元,用于根据拟合算法对整像素视差结果进行亚像素视差计算,以得到目标视差值;
其中,使用卷积核对左右视图进行视差匹配代价计算,以得到匹配代价值,具体包括:
使用第一Sobel算子对左右视图进行卷积,使用第二Sobel算子对左右视图进行卷积,所述第一Sobel算子和所述第二Sobel算子的大小不同,以便在卷积后得到两种不同的梯度信息;
计算左图对应右图的边缘结构相似值
Figure 116192DEST_PATH_IMAGE024
,并计算右图对应左图的边缘结构相似性
Figure DEST_PATH_IMAGE025
计算
Figure 356681DEST_PATH_IMAGE024
Figure 635215DEST_PATH_IMAGE025
的最小值为当前点时,当前视差d的匹配代价结果。
6.一种电子设备,其特征在于,所述电子设备包括:数据采集装置、处理器和存储器;
所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。
CN202210359320.0A 2022-04-07 2022-04-07 基于深度学习算子的立体匹配方法和系统 Active CN114445473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210359320.0A CN114445473B (zh) 2022-04-07 2022-04-07 基于深度学习算子的立体匹配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210359320.0A CN114445473B (zh) 2022-04-07 2022-04-07 基于深度学习算子的立体匹配方法和系统

Publications (2)

Publication Number Publication Date
CN114445473A CN114445473A (zh) 2022-05-06
CN114445473B true CN114445473B (zh) 2022-07-26

Family

ID=81360250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210359320.0A Active CN114445473B (zh) 2022-04-07 2022-04-07 基于深度学习算子的立体匹配方法和系统

Country Status (1)

Country Link
CN (1) CN114445473B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063619B (zh) * 2022-08-18 2022-11-15 北京中科慧眼科技有限公司 基于双目立体匹配算法的代价聚合方法和系统
CN115100267A (zh) * 2022-08-29 2022-09-23 北京中科慧眼科技有限公司 基于深度学习算子的立体匹配方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956597A (zh) * 2016-05-04 2016-09-21 浙江大学 一种基于卷积神经网络的双目立体匹配方法
CN107590831A (zh) * 2017-08-30 2018-01-16 电子科技大学 一种基于深度学习的立体匹配方法
WO2018086348A1 (zh) * 2016-11-09 2018-05-17 人加智能机器人技术(北京)有限公司 双目立体视觉系统及深度测量方法
CN108648161A (zh) * 2018-05-16 2018-10-12 江苏科技大学 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN109544613A (zh) * 2018-11-23 2019-03-29 南昌航空大学 一种基于稠密网络深度学习的双目立体匹配方法及系统
CN112991420A (zh) * 2021-03-16 2021-06-18 山东大学 一种视差图的立体匹配特征提取及后处理方法
CN114119777A (zh) * 2022-01-27 2022-03-01 北京中科慧眼科技有限公司 基于深度学习的立体匹配方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210025942A (ko) * 2019-08-28 2021-03-10 성균관대학교산학협력단 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956597A (zh) * 2016-05-04 2016-09-21 浙江大学 一种基于卷积神经网络的双目立体匹配方法
WO2018086348A1 (zh) * 2016-11-09 2018-05-17 人加智能机器人技术(北京)有限公司 双目立体视觉系统及深度测量方法
CN107590831A (zh) * 2017-08-30 2018-01-16 电子科技大学 一种基于深度学习的立体匹配方法
CN108648161A (zh) * 2018-05-16 2018-10-12 江苏科技大学 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN109544613A (zh) * 2018-11-23 2019-03-29 南昌航空大学 一种基于稠密网络深度学习的双目立体匹配方法及系统
CN112991420A (zh) * 2021-03-16 2021-06-18 山东大学 一种视差图的立体匹配特征提取及后处理方法
CN114119777A (zh) * 2022-01-27 2022-03-01 北京中科慧眼科技有限公司 基于深度学习的立体匹配方法和系统

Also Published As

Publication number Publication date
CN114445473A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
US11341750B2 (en) Quasi-parametric optical flow estimation
US8199977B2 (en) System and method for extraction of features from a 3-D point cloud
US8385630B2 (en) System and method of processing stereo images
CN114445473B (zh) 基于深度学习算子的立体匹配方法和系统
CN111582054B (zh) 点云数据处理方法及装置、障碍物检测方法及装置
US20190114832A1 (en) Image processing method and apparatus using depth value estimation
Pantilie et al. SORT-SGM: Subpixel optimized real-time semiglobal matching for intelligent vehicles
CN108596975B (zh) 一种针对弱纹理区域的立体匹配算法
CN108961327A (zh) 一种单目深度估计方法及其装置、设备和存储介质
CN111340922B (zh) 定位与地图构建的方法和电子设备
CN113160068B (zh) 基于图像的点云补全方法及系统
CN111553946B (zh) 用于去除地面点云的方法及装置、障碍物检测方法及装置
EP3293700B1 (en) 3d reconstruction for vehicle
CN109859253A (zh) 一种立体匹配方法、装置和电子设备
CN111105452A (zh) 基于双目视觉的高低分辨率融合立体匹配方法
Schumacher et al. Matching cost computation algorithm and high speed fpga architecture for high quality real-time semi global matching stereo vision for road scenes
CN113989758A (zh) 一种用于自动驾驶的锚引导3d目标检测方法及装置
Haq et al. An edge-aware based adaptive multi-feature set extraction for stereo matching of binocular images
Kok et al. A review on stereo vision algorithm: Challenges and solutions
CN114155303B (zh) 基于双目相机的参数立体匹配方法和系统
KR100930286B1 (ko) 변이 추정 시의 비용 함수 연산 방법 및 가려진 영역 처리방법
Yoo et al. Accurate object distance estimation based on frequency‐domain analysis with a stereo camera
McKinnon et al. A semi-local method for iterative depth-map refinement
Tippetts et al. Efficient stereo vision algorithms for resource-limited systems
Popović et al. Computationally efficient dense moving object detection based on reduced space disparity estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant