CN116704000A - 一种无监督学习遮挡区域的立体匹配方法 - Google Patents
一种无监督学习遮挡区域的立体匹配方法 Download PDFInfo
- Publication number
- CN116704000A CN116704000A CN202310976275.8A CN202310976275A CN116704000A CN 116704000 A CN116704000 A CN 116704000A CN 202310976275 A CN202310976275 A CN 202310976275A CN 116704000 A CN116704000 A CN 116704000A
- Authority
- CN
- China
- Prior art keywords
- map
- scale
- feature
- image
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002776 aggregation Effects 0.000 claims abstract description 43
- 238000004220 aggregation Methods 0.000 claims abstract description 43
- 238000005457 optimization Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 7
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 230000008571 general function Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 14
- 230000000007 visual effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种无监督学习遮挡区域的立体匹配方法,采用多尺度代价聚合方式对构建的多个不同尺度的第一代价卷进行代价聚合,可以充分融合所有第一代价卷的信息,更大程度地扩大感受野和获取更丰富的结构信息;基于多尺度代价聚合后的代价卷实现对原始翘曲右图中的遮挡区域和该遮挡区域内正确的填充图像的无监督的学习,再根据学习到的遮挡区域和填充图像对原始翘曲右图进行处理得到新的翘曲右图,能够准确地预测遮挡区域并对鬼影效应产生的区域进行了有效处理,从而输出更清晰的翘曲右图;该立体匹配方法能够应用在不同工业产品上及不同类型的视觉场景下,快速且准确识别出物体深度距离,提高了视差预测的准确性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种无监督学习遮挡区域的立体匹配方法及计算机存储介质。
背景技术
立体匹配是计算机视觉领域一个古老的经典基础问题,至今仍是一个热点问题,有广泛的研究。传统的立体匹配算法通常包括以下步骤:图像特征提取、匹配代价计算、代价聚合、视差回归和视差优化。
在视差优化步骤中,对非理想遮挡区域的立体匹配是一个尚未完美解决的问题,把右视图翘曲到左视图的过程中,遮挡区域的前景物体会保持不动,导致会看到重复的前景物体副本,这被称为鬼影效应,图1示出了鬼影效应产生的区域,鬼影效应产生的区域会在视差优化过程引入不可靠的信息,网络可能会对左视图中的物体与右视图翘曲后图片中的重复物体进行匹配,造成混淆,对后续视差预测的准确性产生严重的负面影响。
发明内容
本发明提出的无监督学习遮挡区域的立体匹配方法能够准确地预测遮挡区域并对鬼影效应产生的区域进行有效处理,提升视差预测的准确性。
根据第一方面,一种实施例中提供一种无监督学习遮挡区域的立体匹配方法,包括:获取待匹配的左视图和右视图,所述左视图和所述右视图满足预设条件;采用权重共享的沙漏形卷积特征提取器分别对所述左视图和所述右视图进行特征提取,得到多个不同尺度的左特征图和多个不同尺度的右特征图,多个所述左特征图和多个所述右特征图一一对应且对应的所述左特征图和所述右特征图的尺度相同;对于多个不同尺度的所述左特征图和多个不同尺度的所述右特征图,将其中对应的所述左特征图和所述右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷;采用多尺度代价聚合方式分别对每个所述第一代价卷进行代价聚合,得到多个不同尺度的第二代价卷,所述第二代价卷与所述第一代价卷一一对应且对应的所述第二代价卷的尺度与所述第一代价卷的尺度相同;对尺度最大的所述第二代价卷进行视差回归,得到所述左视图和所述右视图的第一视差图;采用视差优化方式对所述第一视差图进行优化,得到所述左视图和所述右视图的第二视差图;根据所述第二视差图,计算得到所述左视图中的物体深度距离;所述视差优化方式,包括:将所述右视图翘曲到所述左视图,得到第一翘曲右图;基于尺度最大的所述第二代价卷,学习所述第一翘曲右图的遮挡区域和所述遮挡区域内正确的填充图像;根据所述第一翘曲右图、所述遮挡区域和所述填充图像,得到第二翘曲右图;根据所述左视图和所述第二翘曲右图,得到重构误差图;根据所述重构误差图,得到残差视差图;根据所述残差视差图和所述第一视差图,得到第二视差图。
一些实施例中,所述根据所述第一翘曲右图、所述遮挡区域和所述填充图像,得到第二翘曲右图,包括:根据所述遮挡区域,屏蔽第一翘曲右图中所述遮挡区域的模糊信息;根据所述遮挡区域内正确的填充图像,填充所述遮挡区域。
一些实施例中,所述根据所述第一翘曲右图、所述遮挡区域和所述填充图像,得到第二翘曲右图,通过以下方式表示:,其中,/>为所述第二翘曲右图,/>为所述遮挡区域,/>为所述遮挡区域内正确的填充图像,/>为权重共享的特征提取,/>为所述右视图,/>为翘曲操作。
一些实施例中,所述根据所述左视图和所述第二翘曲右图,得到重构误差图,通过以下方式表示:,其中,/>为所述重构误差图,/>为权重共享的特征提取,/>为所述左视图,/>为所述第二翘曲右图。
一些实施例中,所述根据所述残差视差图和所述第一视差图,得到第二视差图,通过以下方式表示:,其中,/>为所述第二视差图,/>为所述第一视差图,/>为所述残差视差图。
一些实施例中,所述对所述第一视差图优化,以得到所述左视图和所述右视图的第二视差图,还包括:采用非对称可变形卷积对第一翘曲右图进行编码,以抑制所述第一翘曲右图由于翘曲操作而引入的非对称性。
一些实施例中,所述对于多个不同尺度的左特征图和多个不同尺度的右特征图,将其中对应的左特征图和右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷,包括:对每个所述右特征图向右移动;将相同尺度的所述左特征图和向右移动后的所述右特征图进行特征相关性操作,以得到多个不同尺度的第一代价卷;所述对每个所述右特征图向右移动的位移量通过以下方式得到:,其中,/>为所述位移量,/>,/>为预设的最大视差搜索偏移量,/>对应于所述左视图和所述右视图的大小,/>为尺度大小,s对应于所述左特征图和所述右特征图的尺度大小。
一些实施例中,所述多尺度代价聚合方式,包括:分别对每个所述第一代价卷进行同尺度代价聚合,得到多个尺度内聚合代价卷;对所有所述尺度内聚合代价卷进行跨尺度代价聚合,得到多个不同尺度的第二代价卷,其中:每个所述第二代价卷,可通过以下方式表示:,其中,/>为所述尺度内聚合代价卷,/>是所述第二代价卷,/>是实现所有所述尺度内聚合代价卷融合的通用函数,s为尺度大小,S为尺度集合。
一些实施例中,所述对尺度最大的所述第二代价卷进行视差回归,得到所述左视图和所述右视图的第一视差图,通过以下计算方式得到:,其中,/>为所述第一视差图,/>为预设的视差候选值,/>与所述位移量/>的值一致,/>的数量为/>,/>为/>的对应概率,/>为回归操作。
根据第二方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如前述的方法。
根据上述实施例的无监督学习遮挡区域的立体匹配方法,采用多尺度代价聚合方式对构建的多个不同尺度的第一代价卷进行代价聚合,可以充分融合所有第一代价卷的信息,更大程度地扩大感受野和获取更丰富的结构信息;基于多尺度代价聚合后的代价卷实现对原始翘曲右图中的遮挡区域和该遮挡区域内正确的填充图像的无监督的学习,再根据学习到的遮挡区域和填充图像对原始翘曲右图进行处理得到新的翘曲右图,能够准确地预测遮挡区域并对鬼影效应产生的区域进行了有效处理,从而输出更清晰的翘曲右图,该立体匹配方法能够应用在不同工业产品上及不同类型的视觉场景下,快速且准确识别出物体深度距离,提高了视差预测的准确性。
附图说明
图1为鬼影效应产生的区域的示意图;
图2为本发明提供的无监督学习遮挡区域的立体匹配方法的流程图;
图3为一种实施例的深度学习网络OMNet的结构图;
图4为一种实施例的构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷的流程图;
图5为一种实施例的多尺度代价聚合方式的流程图;
图6为一种实施例的视差优化方式的流程图;
图7为一种实施例的将学习到的遮挡区域用于屏蔽第一翘曲右图中的鬼影效应产生的区域的效果示意图;
图8为一种实施例的视差优化方式的流程图;
图9为一种实施例的在KITTI2015测试集上实施过程中的结果示意图;
图10为本发明提供的计算机存储介质的结构图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
在视差忧化步骤中,如图1所示出的鬼影效应区域会严重影响后续的视差预测的准确性,因此如何准确地识别出遮挡区域,并对鬼影效应产生的区域进行有效处理,从而输出更清晰的翘曲右图。
本发明提出的一种无监督学习遮挡区域的立体匹配方法,基于多尺度代价聚合后的代价卷学习原始翘曲右图中的遮挡区域和该遮挡区域内正确的填充图像,根据遮挡区域和填充图像对原始翘曲右图进行处理得到新的翘曲右图,通过该方法屏蔽原始翘曲右图中遮挡区域的模糊信息,然后使用正确的填充图像来填充遮挡区域,对鬼影效应产生的区域进行了有效处理,从而输出更清晰的翘曲右图。
请参考图2,在本发明实施例中无监督学习遮挡区域的立体匹配方法,包括:
S10:获取待匹配的左视图和右视图,左视图和右视图满足预设条件。
一些实施例中,预设条件包括:左视图和右视图中的像素值满足预设的范围和分布;左视图和右视图中对应的像素点在同一条极线上。
应用时,首先对双目相机标定,即获取相机的内参、外参和畸变参数等相关参数,其中,相机内参指的是相机的焦距、主点、像素尺寸等参数,外参指的是相机的位置和方向,畸变参数则是指相机的透镜畸变和径向畸变等参数,通过获取这些参数,用于后续的计算步骤;双目相机标定的过程包括:放置标定板、拍摄标定图像、提取角点、计算相机参数和验证标定结果等步骤;双目相机标定的要点是,需要使用标定板等标准化物体,以保证标定的准确性和精度;然后通过双目相机分别拍摄同一场景,获取不同视角的图像,得到原始的左视图和原始的右视图,对原始的左视图和原始的右视图进行归一化和极线校正等预处理,归一化处理指的是将图像中的像素值按照一定的比例进行缩放和平移,使其符合一定的范围和分布,以便于后续的处理和分析;极线校正是指将立体视觉系统中的图像进行调整,使得两张图像的对应像素点在同一条极线上,极线是由立体视觉系统中的相机位置和视角决定的,在极线校正中,通过调整相机的位置和视角,使得两张图像的极线重合,从而简化图像匹配和测量的计算,极线校正的过程包括以下几个过程:计算基础矩阵、计算极线、计算变换矩阵、进行图像变换使得两张图像的极线重合。
一些实施例中,本发明提出的方法基于构建的深度学习网络OMNet实现,如图3所示,该网络包括特征提取模块100、多尺度代价卷构建模块200、代价聚合模块300、视差回归模块400和视差优化模块500,特征提取模块100采用权重共享的沙漏形卷积特征提取器分别对左视图和右视图进行特征提取,得到多个不同尺度的左特征图和多个不同尺度的右特征图,多个左特征图和多个右特征图一一对应且对应的左特征图和右特征图的尺度相同;对于多个不同尺度的左特征图和多个不同尺度的右特征图,多尺度代价卷构建模块200将其中对应的左特征图和右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷;代价聚合模块300对所有第一代价卷进行代价聚合,得到多个不同尺度的第二代价卷;视差回归模块400用于对尺度最大的第二代价卷进行视差回归,得到左视图和右视图的第一视差图;视差优化模块500用于对第一视差图进行优化,得到左视图和右视图的第二视差图,第二视差图是最终输出的视差图,深度学习网络OMNet及各模块的具体实施方式将在后面进行详细说明。
S20:采用权重共享的沙漏形卷积特征提取器分别对左视图和右视图进行特征提取,得到多个不同尺度的左特征图和多个不同尺度的右特征图,多个左特征图和多个右特征图一一对应且对应的左特征图和右特征图的尺度相同,具体实现方式如下:
给定一个极线校正后的左视图和右视图/>,采用权重共享的沙漏形卷积特征提取器得到一系列的左特征图/>和右特征图/>,其中/>,s为左特征图和右特征图的尺度大小,S为左特征图和右特征图的尺度集合,S={1/3,1/6,1/12},采用该提取器将多尺度特征图张量拼接起来,在增加感受野的同时,还保持了高频图像特征。
S30:对于多个不同尺度的左特征图和多个不同尺度的右特征图,将其中对应的左特征图和右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷。
一些实施例中,对于多个不同尺度的左特征图和多个不同尺度的右特征图,将其中对应的左特征图和右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷,如图4所示,包括:
S31:对每个右特征图向右移动。
对每个右特征图向右移动的位移量通过以下方式得到:
,
其中,为右特征图向右移动的位移量,/>的值为0到/>,/>,为预设的最大视差搜索偏移量,/>对应于左视图/>和右视图/>的大小,s为尺度大小,s对应于左特征图和右特征图的尺度大小,本实施例中s对应于左特征图和右特征图的尺度,即1/3,1/6,1/12。
S32:将相同尺度的左特征图和向右移动后的右特征图进行特征相关性操作得到多个不同尺度的第一代价卷,第一代价卷有效地表征了左特征图和右特征图的相似性,代价卷的尺度对应于左特征图和右特征图的尺度,即1/3,1/6,1/12。
S40:采用多尺度代价聚合方式分别对每个第一代价卷进行代价聚合,得到多个不同尺度的第二代价卷,第二代价卷与第一代价卷一一对应且对应的第二代价卷的尺度与第一代价卷的尺度相同。
一些实施例中,如图5所示,多尺度代价聚合方式包括:
S41:分别对每个第一代价卷进行同尺度代价聚合,得到多个尺度内聚合代价卷,尺度内聚合代价卷与第一代价卷一一对应且对应的尺度内聚合代价卷的尺度和第一代价卷的尺度相同。
一些实施例中,构建的深度学习网络OMNet的代价聚合模块300包括层级内聚合子模块310和层级间聚合子模块320,层级内聚合子模块310用于融合每个尺度的第一代价卷中的信息,其基于卷积神经网络实现,具体实现方法为现有技术,这里不再赘述;层级间聚合子模块320用于融合所有尺度内聚合代价卷的信息,具体实现方式在S42中进行具体说明。
S42:对所有尺度内聚合代价卷进行跨尺度代价聚合,得到多个不同尺度的第二代价卷。
一些实施例中,每个第二代价卷可通过以下方式表示:
,
其中,为尺度内聚合代价卷,/>是第二代价卷,/>是实现所有尺度内聚合代价卷融合的通用函数,s为尺度大小,s对应于第一代价卷的尺度,S为尺度集合, 在本实施例中S={1/3,1/6,1/12},/>可以通过二维卷积实现。
一些实施例中,对所有第一代价卷进行代价聚合基于2D卷积实现,可以理解的是,层级内聚合子模块310和层级间聚合子模块320都采用2D卷积,使得代价聚合过程轻量且有效。
S50:对尺度最大的第二代价卷进行视差回归,得到左视图和右视图的第一视差图。
一些实施例中,对尺度最大的第二代价卷进行视差回归,得到左视图和右视图的第一视差图,通过以下计算方式得到:
,
其中,为第一视差图,/>为预设的视差候选值,取值区间为0-191,/>的数量为,/>的值与右特征图向右移动的位移量/>一致,/>为/>的对应概率,/>为回归操作。
S60:采用视差优化方式对第一视差图进行优化,得到左视图和右视图的第二视差图。
一些实施例中,如图6所示,视差优化方式包括:
S61:将右视图翘曲到左视图,得到第一翘曲右图,翘曲操作可以通过以下公式描述:
,其中,/>为翘曲运算,/>为左视图,/>为右视图,/>为右视图上的像素点位置,/>为右视图的一个粗糙的初始预测视差图,/>为初始预测视差图上的像素点位置,理想情况下,在非遮挡区域。
S62:基于尺度最大的第二代价卷,学习第一翘曲右图的遮挡区域和遮挡区域内正确的填充图像。
一些实施例中,使用卷积神经网络学习遮挡区域和遮挡区域内正确的填充图像/>。
S63:根据第一翘曲右图、遮挡区域和填充图像,得到第二翘曲右图。
一些实施例中,根据第一翘曲右图、遮挡区域和填充图像,得到第二翘曲右图,包括:根据遮挡区域,屏蔽第一翘曲右图中遮挡区域的模糊信息;根据遮挡区域内正确的填充图像,填充遮挡区域;图7示出了是将学习到的遮挡区域用于屏蔽第一翘曲右图中的鬼影效应产生的区域的效果,从左到右的依次为第一翘曲右图、学习到的遮挡区域图和第二翘曲右图。
一些实施例中,将学习到的遮挡区域和与第一翘曲右图进行乘法操作来屏蔽第一翘曲右图中遮挡区域的模糊信息,然后使用遮挡区域内正确的填充图像与第一翘曲右图进行加法操作来填充遮挡区域,对鬼影区域进行有效处理,从而输出更清晰的第二翘曲右图。
一些实施例中,根据第一翘曲右图、遮挡区域和填充图像,得到第二翘曲右图,通过以下方式表示:
,
其中,为第二翘曲右图,/>为遮挡区域,/>为遮挡区域内正确的填充图像,/>为权重共享的特征提取,/>为右视图,/>为翘曲操作。
S64:根据左视图和第二翘曲右图,得到重构误差图。
一些实施例中,根据左视图和第二翘曲右图,得到重构误差图,通过以下方式表示:
,
其中,为重构误差图,/>为权重共享的特征提取,/>为左视图,/>为第二翘曲右图。
S65:根据重构误差图,得到残差视差图。
一些实施例中,采用一个卷积神经网络从重构误差图中学习残差视差图。
S66:根据残差视差图和第一视差图,得到第二视差图。
一些实施例中,根据残差视差图和第一视差图,得到第二视差图,通过以下方式表示:
,
其中,为第二视差图,/>为第一视差图,/>残差视差图。
一些实施例中,对第一视差图优化,以得到左视图和右视图的第二视差图,还包括:采用非对称可变形卷积对第一翘曲右图进行编码,以抑制第一翘曲右图由于翘曲操作而引入的非对称性。
一些实施例中,如图8所示,深度学习网络OMNet的视差优化模块500包括:第一卷积模块510、第二卷积模块520和第三卷积模块530,第一卷积模块510和第二卷积模块520为权重共享的特征提取模块,由于在翘曲操作中会破坏右视图特征提取过程中的对称性,因此在视差优化模块500中增加了可变形卷积模块540,采用可变形卷积模块540对第一翘曲右图进行非对称可变形卷积编码,可有效地抑制第一翘曲右图由于翘曲操作而引入的非对称性,提高网络的视差预测精度。
应用时,第一卷积模块510和第二卷积模块520分别对右视图和左视图进行特征提取得到第一右视图和第一左视图,可变形卷积模块540将输入的第一右视图和第一翘曲右图进行编码后得到第二右视图,第二右视图与学习到的遮挡区域进行乘法操作来屏蔽第二右视图中遮挡区域的模糊信息,然后使用遮挡区域内正确的填充图像与第二右视图进行加法操作来填充遮挡区域,得到第二翘曲右图,将第一左视图和第二翘曲右图相减得到重构误差图,重构误差图经第三卷积模块530处理后输出为残差视差图,将残差视差图和第一视差图进行相加操作得到第二视差图,第二视差图为深度学习网络OMNet最终输出的视差图。
本发明提出的深度学习网络OMNet是适用于立体匹配的端到端网络,下面对在进行网络训练时所用的数据集和训练过程、实施过程与算法性能验证等进行说明:
1、数据集和训练过程
采用SceneFlow、KITTI2012和KITTI2015数据集进行网络训练,其中,SceneFlow是大型合成立体数据集,包括Flyingthings3D、Driving和Monkaa,包含35454对训练左右视图对和4370对测试左右视图对,图片大小为540×960,SceneFlow数据集还提供了高质量的密集视差真值图,使用SceneFlow数据集中的Finalpass部分而不是Cleanpass部分,因为Finalpass部分中图片包含更多的运动模糊和散焦,更贴近真实世界的图像;KITTI2012和KITTI2015是真实世界的驾驶场景数据集,其中包含驾驶汽车的街景,KITTI2012分别提供了194对训练左右视图对和195对测试左右视图对,大小为1226× 370分辨率,KITTI2015分别提供了200对训练左右视图对和200对测试左右视图对,大小为1242 × 375分辨率,只有训练左右视图对提供从激光雷达获得的稀疏地真值差异。
深度学习网络OMNet是在一个NVIDIA 3090 GPU上用PyTorch框架进行训练的,训练时,对图像数据先进行预处理颜色归一化,然后随机裁剪到288 × 576分辨率大小,将最大视差设置为192,采用的批量大小为15,优化器使用/>。
训练过程为:在SceneFlow数据集上从头开始预训练网络,初始学习率设置为0.0002(在第20个epoch后每10个epoch减少一半),总计训练64个epoch;然后,在混合KITTI2012和KITTI2015的训练数据集上对预训练好的网络再进行1000epochs的微调,初始学习率为0.0001,在第400次、第600次、第800次和第900次时分别缩小为原先的1/2。
2、实施过程与性能验证
模型训练好后,在KITTI2012/ KITTI2015测试数据集上进行实施过程,对图像数据先进行预处理颜色归一化,然后通过训练好后的深度学习网络OMNet得到第二视差图,将第二视差图提交到KITTI数据集官方网站进行评测与排行榜排名,并与其他有代表性的领先算法进行比较,各算法在KITTI2012数据集和KITTI2015数据集上的评测结果如表1所示,其中, D1误差率(D1-bg(%)),指的是视差预测图中,误差大于3px或视差真值的5%的像素点个数,占总像素点个数的百分比;对于KITTI2012数据集报告了非遮挡(Noc)和所有(All)区域的D1误差率对于KITTI2015, 报告了背景(bg)和所有(all)区域的D1误差率。
表1
在进行性能验证时,如表1所示,将排行榜上的这些方法分为两组,第一组是基于3d卷积的精度较佳算法组,第二组是实时算法组;与第一组方法相比,采用本发明提供的方法构建的深度学习网络OMNet与精度最高的GANet方法性能不相上下,而推理时间只是基于3d卷积方法的一个零头,这得益于于本发明提出的强大的视差优化方式,以及高效的多尺度代价聚合方式;与第二组方法相比,采用本发明提供的方法构建的深度学习网络OMNet也达到了实时性要求(处理1248 × 384分辨率的双目图像对耗时为38.1ms),而且精度更高,本发明在KITTI2015数据集上的错误率为1.82%(D1-all),比最新的SOTA实时方法HITNet的错误率低8%。
图9示出了在KITTI2015测试集上实施过程中的结果图,从上到下分别为:左视图、第二视差图和误差图,误差图是第二视差图减去视差真值图得到的,误差图用来评判视差预测图的好坏。
S70:根据第二视差图,计算得到左视图中的物体深度距离。
一些实施例中,可通过以下方法根据第二视差图中的每个像素点的视差计算出左视图中的物体深度距离:
,
其中,为物体深度距离,/>为第二视差图中的每个像素点的视差,/>为相机镜头的焦距,/>为两个相机中心之间的距离。
本发明另一实施例提供一种计算机可读存储介质,如图10所述,介质600上存储有程序,程序能够被处理器700执行以实现如前述的方法。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种无监督学习遮挡区域的立体匹配方法,其特征在于,包括:
获取待匹配的左视图和右视图,所述左视图和所述右视图满足预设条件;
采用权重共享的沙漏形卷积特征提取器分别对所述左视图和所述右视图进行特征提取,得到多个不同尺度的左特征图和多个不同尺度的右特征图,多个所述左特征图和多个所述右特征图一一对应且对应的所述左特征图和所述右特征图的尺度相同;
对于多个不同尺度的所述左特征图和多个不同尺度的所述右特征图,将其中对应的所述左特征图和所述右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷;
采用多尺度代价聚合方式分别对每个所述第一代价卷进行代价聚合,得到多个不同尺度的第二代价卷,所述第二代价卷与所述第一代价卷一一对应且对应的所述第二代价卷的尺度与所述第一代价卷的尺度相同;
对尺度最大的所述第二代价卷进行视差回归,得到所述左视图和所述右视图的第一视差图;
采用视差优化方式对所述第一视差图进行优化,得到所述左视图和所述右视图的第二视差图;
根据所述第二视差图,计算得到所述左视图中的物体深度距离;
所述视差优化方式,包括:
将所述右视图翘曲到所述左视图,得到第一翘曲右图;
基于尺度最大的所述第二代价卷,学习所述第一翘曲右图的遮挡区域和所述遮挡区域内正确的填充图像;
根据所述第一翘曲右图、所述遮挡区域和所述填充图像,得到第二翘曲右图;
根据所述左视图和所述第二翘曲右图,得到重构误差图;
根据所述重构误差图,得到残差视差图;
根据所述残差视差图和所述第一视差图,得到第二视差图。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一翘曲右图、所述遮挡区域和所述填充图像,得到第二翘曲右图,包括:
根据所述遮挡区域,屏蔽第一翘曲右图中所述遮挡区域的模糊信息;
根据所述遮挡区域内正确的填充图像,填充所述遮挡区域。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一翘曲右图、所述遮挡区域和所述填充图像,得到第二翘曲右图,通过以下方式表示:,
其中,为所述第二翘曲右图,/>为所述遮挡区域,/>为所述遮挡区域内正确的填充图像,/>为权重共享的特征提取,/>为所述右视图,/>为翘曲操作。
4.如权利要求3所述的方法,其特征在于,所述根据所述左视图和所述第二翘曲右图,得到重构误差图,通过以下方式表示:
,
其中,为所述重构误差图,/>为权重共享的特征提取,/>为所述左视图,为所述第二翘曲右图。
5.如权利要求4所述的方法,其特征在于,所述根据所述残差视差图和所述第一视差图,得到第二视差图,通过以下方式表示:
,
其中,为所述第二视差图,/>为所述第一视差图,/>为所述残差视差图。
6.如权利要求1所述的方法,其特征在于,所述对所述第一视差图优化,以得到所述左视图和所述右视图的第二视差图,还包括:采用非对称可变形卷积对第一翘曲右图进行编码,以抑制所述第一翘曲右图由于翘曲操作而引入的非对称性。
7.如权利要求1所述的方法,其特征在于,所述对于多个不同尺度的左特征图和多个不同尺度的右特征图,将其中对应的左特征图和右特征图进行特征相关性操作,构建对应相同尺度的第一代价卷,以得到多个不同尺度的第一代价卷,包括:
对每个所述右特征图向右移动;
将相同尺度的所述左特征图和向右移动后的所述右特征图进行特征相关性
操作,以得到多个不同尺度的第一代价卷;
所述对每个所述右特征图向右移动的位移量通过以下方式得到:
,
其中,为所述位移量,/>,/>为预设的最大视差搜索偏移量,/>对应于所述左视图和所述右视图的大小,s为尺度大小,s对应于所述左特征图和所述右特征图的尺度大小。
8.如权利要求7所述的方法,其特征在于,所述多尺度代价聚合方式,包括:
分别对每个所述第一代价卷进行同尺度代价聚合,得到多个尺度内聚合代价卷;
对所有所述尺度内聚合代价卷进行跨尺度代价聚合,得到多个不同尺度的第二代价卷,其中:
每个所述第二代价卷,可通过以下方式表示:
,
其中,为所述尺度内聚合代价卷,/>为所述第二代价卷,/>是实现所有所述尺度内聚合代价卷融合的通用函数,s为尺度大小,S为尺度集合。
9.如权利要求8所述的方法,其特征在于,所述对尺度最大的所述第二代价卷进行视差回归,得到所述左视图和所述右视图的第一视差图,通过以下计算方式得到:
,
其中,为所述第一视差图,/>为预设的视差候选值,/>与所述位移量/>的值一致,/>的数量为/>,/>为/>的对应概率,/>为回归操作。
10.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976275.8A CN116704000B (zh) | 2023-08-04 | 2023-08-04 | 一种无监督学习遮挡区域的立体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976275.8A CN116704000B (zh) | 2023-08-04 | 2023-08-04 | 一种无监督学习遮挡区域的立体匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116704000A true CN116704000A (zh) | 2023-09-05 |
CN116704000B CN116704000B (zh) | 2023-10-03 |
Family
ID=87829720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976275.8A Active CN116704000B (zh) | 2023-08-04 | 2023-08-04 | 一种无监督学习遮挡区域的立体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704000B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819777A (zh) * | 2021-01-28 | 2021-05-18 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN113592026A (zh) * | 2021-08-13 | 2021-11-02 | 大连大学 | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 |
CN113887568A (zh) * | 2021-09-09 | 2022-01-04 | 西安理工大学 | 一种各向异性卷积的双目图像立体匹配方法 |
WO2022057556A1 (zh) * | 2020-09-18 | 2022-03-24 | 南京理工大学 | 一种基于深度学习的端到端散斑投影三维测量方法 |
WO2022179359A1 (zh) * | 2021-02-24 | 2022-09-01 | 嘉楠明芯(北京)科技有限公司 | 图像的立体匹配方法以及装置 |
CN115049676A (zh) * | 2022-06-10 | 2022-09-13 | 大连大学 | 一种基于密集分组空洞卷积和多尺度代价聚合的双目视觉立体匹配方法 |
CN115908992A (zh) * | 2022-10-22 | 2023-04-04 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
-
2023
- 2023-08-04 CN CN202310976275.8A patent/CN116704000B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057556A1 (zh) * | 2020-09-18 | 2022-03-24 | 南京理工大学 | 一种基于深度学习的端到端散斑投影三维测量方法 |
CN112819777A (zh) * | 2021-01-28 | 2021-05-18 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
WO2022179359A1 (zh) * | 2021-02-24 | 2022-09-01 | 嘉楠明芯(北京)科技有限公司 | 图像的立体匹配方法以及装置 |
CN113592026A (zh) * | 2021-08-13 | 2021-11-02 | 大连大学 | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 |
CN113887568A (zh) * | 2021-09-09 | 2022-01-04 | 西安理工大学 | 一种各向异性卷积的双目图像立体匹配方法 |
CN115049676A (zh) * | 2022-06-10 | 2022-09-13 | 大连大学 | 一种基于密集分组空洞卷积和多尺度代价聚合的双目视觉立体匹配方法 |
CN115908992A (zh) * | 2022-10-22 | 2023-04-04 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
Non-Patent Citations (3)
Title |
---|
YAN ZHAO等: "Visual comfort improvement for 3D video based on parallax adjustment", 《2016 SAI COMPUTING CONFERENCE (SAI)》, pages 1339 - 1343 * |
周文露: "基于深度学习的端到端双目立体匹配方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 07, pages 138 - 245 * |
李岩等: "融合多尺度信息的各向异性立体匹配", 《计算机集成制造系统》, pages 1 - 13 * |
Also Published As
Publication number | Publication date |
---|---|
CN116704000B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961327B (zh) | 一种单目深度估计方法及其装置、设备和存储介质 | |
US11145078B2 (en) | Depth information determining method and related apparatus | |
CN106846463B (zh) | 基于深度学习神经网络的显微图像三维重建方法及系统 | |
CN109919993B (zh) | 视差图获取方法、装置和设备及控制系统 | |
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
US8588516B2 (en) | Interpolation image generation apparatus, reconstructed image generation apparatus, method of generating interpolation image, and computer-readable recording medium storing program | |
Zhang et al. | Listereo: Generate dense depth maps from lidar and stereo imagery | |
Luo et al. | Wavelet synthesis net for disparity estimation to synthesize dslr calibre bokeh effect on smartphones | |
CN113762267B (zh) | 一种基于语义关联的多尺度双目立体匹配方法及装置 | |
CN117237546B (zh) | 一种基于光场成像的增材构件三维轮廓重建方法及系统 | |
CN114372523A (zh) | 一种基于证据深度学习的双目匹配不确定性估计方法 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN111582437A (zh) | 一种视差回归深度神经网络的构造方法 | |
Huang et al. | ES-Net: An efficient stereo matching network | |
CN117953151A (zh) | 基于三维场景的稀疏重建方法和装置 | |
CN116704000B (zh) | 一种无监督学习遮挡区域的立体匹配方法 | |
Zhao et al. | Distance transform pooling neural network for lidar depth completion | |
CN116630238A (zh) | 双目立体匹配方法、装置、电子设备及存储介质 | |
US20230316460A1 (en) | Binocular image quick processing method and apparatus and corresponding storage medium | |
CN114119704A (zh) | 一种基于空间金字塔池化的光场图像深度估计方法 | |
JP2018081378A (ja) | 画像処理装置、撮像装置、画像処理方法および画像処理プログラム | |
CN113132706A (zh) | 基于逆向映射的可控位置虚拟视点生成方法及装置 | |
JP2018133064A (ja) | 画像処理装置、撮像装置、画像処理方法および画像処理プログラム | |
CN117237358B (zh) | 一种基于度量学习的立体图像质量评价方法 | |
CN117315152B (zh) | 双目立体成像方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |