CN109887019A - 一种双目匹配方法及装置、设备和存储介质 - Google Patents
一种双目匹配方法及装置、设备和存储介质 Download PDFInfo
- Publication number
- CN109887019A CN109887019A CN201910127860.4A CN201910127860A CN109887019A CN 109887019 A CN109887019 A CN 109887019A CN 201910127860 A CN201910127860 A CN 201910127860A CN 109887019 A CN109887019 A CN 109887019A
- Authority
- CN
- China
- Prior art keywords
- feature
- matching cost
- correlation
- parallax
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000006116 polymerization reaction Methods 0.000 description 13
- 230000002596 correlated effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种双目匹配方法,所述方法包括:获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;利用所述3D匹配代价特征,确定所述图像的深度。本申请实施例同时还提供了一种双目匹配装置、计算机设备和存储介质。
Description
技术领域
本申请实施例涉及计算机视觉领域,涉及但不限于一种双目匹配方法及装置、设备和存储介质。
背景技术
双目匹配是一种从一对不同角度拍摄的图片中恢复深度的技术,通常每对图片通过一对左右或者上下放置的相机获得。为了简化问题,会对从不同摄像机拍摄的图片进行校正,使得当左右放置相机时对应像素位于同一水平线,或者上下放置相机时对应像素位于同一竖直线。此时问题变成了估计对应匹配像素的距离(又称为视差)。通过视差,相机的焦距与两个相机中心的距离,即可计算深度。目前双目匹配可以大致分为两种方法,基于传统匹配代价的算法,以及基于深度学习的算法。
发明内容
有鉴于此,本申请实施例提供一种双目匹配方法及装置、设备和存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种双目匹配方法,所述方法包括:
获取待处理的图像,其中,所述图像为包括左图和右图的2D(2Dimensions,二维)图像;
利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D(3Dimensions,三维)匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
利用所述3D匹配代价特征,确定所述图像的深度。
本申请实施例中,所述利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,包括:
利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征;
将所述分组互相关特征,确定为3D匹配代价特征。
本申请实施例中,所述利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,包括:
利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征和连接特征;
将所述分组互相关特征与所述连接特征进行拼接后的特征,确定为3D匹配代价特征;
其中,所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
本申请实施例中,所述利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征,包括:
将提取的所述左图的特征和所述右图的特征分别进行分组,确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果;
将所述互相关结果进行拼接,得到分组互相关特征。
本申请实施例中,所述将提取的所述左图的特征和所述右图的特征分别进行分组,确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果,包括:
将提取的所述左图的特征进行分组,形成第一预设数量的第一特征组;
将提取的所述右图的特征进行分组,形成第二预设数量的第二特征组,所述第一预设数量与所述第二预设数量相同;
确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果;其中,g为大于等于1小于等于第一预设数量的自然数;所述不同视差包括:零视差、最大视差和零视差与最大视差之间的任一视差,所述最大视差为待处理的图像对应的使用场景下的最大视差。
本申请实施例中,所述利用提取的所述左图的特征和所述右图的特征之前,所述方法还包括:
利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征。
本申请实施例中,所述利用所述3D匹配代价特征,确定所述图像的深度,包括:
使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率;
确定所述每一像素点对应的不同视差的概率的加权平均值;
将所述加权平均值确定为所述像素点的视差;
根据所述像素点的视差,确定所述像素点的深度。
第二方面,本申请实施例提供一种双目匹配网络的训练方法,所述方法包括:
确定获取的样本图像的3D匹配代价特征,其中,所述样本图像包括有深度标记信息的左图和右图,所述左图和右图的尺寸相同;所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
根据所述3D匹配代价特征,确定样本图像的预测视差;
将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
利用所述损失函数对所述双目匹配网络进行训练。
本申请实施例中,所述确定获取的样本图像的3D匹配代价特征,包括:
利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征。
本申请实施例中,所述利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征,包括:
利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征;
确定用于进行2D特征拼接的卷积层的标识;
根据所述标识,将所述左图中不同卷积层的2D特征在特征维度上进行拼接,得到第一2D拼接特征;
根据所述标识,将所述右图中不同卷积层的2D特征在特征维度上进行拼接,得到第二2D拼接特征。
本申请实施例中,所述确定用于进行2D特征拼接的卷积层的标识,包括:当第i卷积层的间隔率发生变化时,将所述第i卷积层确定为用于进行2D特征拼接的卷积层,其中,i为大于等于1的自然数。
本申请实施例中,所述利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征,包括:
利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征,其中,所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。
本申请实施例中,所述利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征,包括:
利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
将所述分组互相关特征,确定为3D匹配代价特征。
本申请实施例中,所述利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征,包括:
利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定连接特征;
将所述分组互相关特征和所述连接特征在特征维度上进行拼接,得到3D匹配代价特征。
本申请实施例中,所述利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征,包括:
将获取的第一2D拼接特征分成Ng组,得到Ng个第一特征组;
将获取的第二2D拼接特征分成Ng组,得到Ng个第二特征组,Ng为大于等于1的自然数;
确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
将所述Ng*Dmax个互相关图在特征维度上进行拼接,得到分组互相关特征。
本申请实施例中,所述确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图,包括:
确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果,得到Dmax个互相关图,其中,g为大于等于1小于等于Ng的自然数;
确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图。
本申请实施例中,所述利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定连接特征,包括:
确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果,得到Dmax个拼接图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
将所述Dmax个拼接图进行拼接,得到连接特征。
本申请实施例中,所述根据所述3D匹配代价特征,确定样本图像的预测视差,包括:
对所述3D匹配代价特征,进行匹配代价聚合;
对聚合后的结果进行视差回归,得到样本图像的预测视差。
本申请实施例中,所述对所述3D匹配代价特征,进行匹配代价聚合,包括:
使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
本申请实施例中,所述对聚合后的结果进行视差回归,得到样本图像的预测视差,包括:
将所述每一像素点对应的不同视差d的概率的加权平均值,确定为所述像素点的预测视差,以得到样本图像的预测视差;
其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
第三方面,本申请实施例提供一种双目匹配装置,所述装置包括:
获取单元,用于获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
构建单元,用于利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
确定单元,用于利用所述3D匹配代价特征,确定所述图像的深度。
本申请实施例中,所述构建单元,包括:
第一构建子单元,用于利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征;
第二构建子单元,用于将所述分组互相关特征,确定为3D匹配代价特征。
本申请实施例中,所述构建单元,包括:
第一构建子单元,用于利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征和连接特征;
第二构建子单元,用于将所述分组互相关特征与所述连接特征进行拼接后的特征,确定为3D匹配代价特征;
其中,所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
本申请实施例中,所述第一构建子单元,包括:
第一构建模块,用于将提取的所述左图的特征和所述右图的特征分别进行分组,确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果;
第二构建模块,用于将所述互相关结果进行拼接,得到分组互相关特征。
本申请实施例中,所述第一构建模块,包括:
第一构建子模块,用于将提取的所述左图的特征进行分组,形成第一预设数量的第一特征组;
第二构建子模块,用于将提取的所述右图的特征进行分组,形成第二预设数量的第二特征组,所述第一预设数量与所述第二预设数量相同;
第三构建子模块,用于确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果;其中,g为大于等于1小于等于第一预设数量的自然数;所述不同视差包括:零视差、最大视差和零视差与最大视差之间的任一视差,所述最大视差为待处理的图像对应的使用场景下的最大视差。
本申请实施例中,所述装置还包括:
提取单元,用于利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征。
本申请实施例中,所述确定单元,包括:
第一确定子单元,用于使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率;
第二确定子单元,用于确定所述每一像素点对应的不同视差的概率的加权平均值;
第三确定子单元,用于将所述加权平均值确定为所述像素点的视差;
第四确定子单元,用于根据所述像素点的视差,确定所述像素点的深度。
第四方面,本申请实施例提供一种双目匹配网络的训练装置,所述装置包括:
特征提取单元,用于确定获取的样本图像的3D匹配代价特征,其中,所述样本图像包括有深度标记信息的左图和右图,所述左图和右图的尺寸相同;所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
视差预测单元,用于根据所述3D匹配代价特征,确定样本图像的预测视差;
比较单元,用于将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
训练单元,用于利用所述损失函数对所述双目匹配网络进行训练。
本申请实施例中,所述特征提取单元,包括:
第一特征提取子单元,用于利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
第二特征提取子单元,用于利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征。
本申请实施例中,所述第一特征提取子单元,包括:
第一特征提取模块,用于利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征;
第二特征提取模块,用于确定用于进行2D特征拼接的卷积层的标识;
第三特征提取模块,用于根据所述标识,将所述左图中不同卷积层的2D特征在特征维度上进行拼接,得到第一2D拼接特征;
第四特征提取模块,用于根据所述标识,将所述右图中不同卷积层的2D特征在特征维度上进行拼接,得到第二2D拼接特征。
本申请实施例中,所述第二特征提取模块,配置为当第i卷积层的间隔率发生变化时,将所述第i卷积层确定为用于进行2D特征拼接的卷积层,其中,i为大于等于1的自然数。
本申请实施例中,所述第一特征提取模块,配置为利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征,其中,所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。
本申请实施例中,所述第二特征提取子单元,包括:
第一特征确定模块,用于利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
第二特征确定模块,用于将所述分组互相关特征,确定为3D匹配代价特征。
本申请实施例中,所述第二特征提取子单元,包括:
第一特征确定模块,用于利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
所述第一特征确定模块,还用于利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定连接特征;
第二特征确定模块,用于将所述分组互相关特征和所述连接特征在特征维度上进行拼接,得到3D匹配代价特征。
本申请实施例中,所述第一特征确定模块,包括:
第一特征确定子模块,用于将获取的第一2D拼接特征分成Ng组,得到Ng个第一特征组;
第二特征确定子模块,用于将获取的第二2D拼接特征分成Ng组,得到Ng个第二特征组,Ng为大于等于1的自然数;
第三特征确定子模块,用于确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
第四特征确定子模块,用于将所述Ng*Dmax个互相关图在特征维度上进行拼接,得到分组互相关特征。
本申请实施例中,所述第三特征确定子模块,配置为确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果,得到Dmax个互相关图,其中,g为大于等于1小于等于Ng的自然数;确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图。
本申请实施例中,所述第一特征确定模块,还包括:
第五特征确定子模块,用于确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果,得到Dmax个拼接图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
第六特征确定子模块,用于将所述Dmax个拼接图进行拼接,得到连接特征。
本申请实施例中,所述视差预测单元,包括:
第一视差预测子单元,用于对所述3D匹配代价特征,进行匹配代价聚合;
第二视差预测子单元,用于对聚合后的结果进行视差回归,得到样本图像的预测视差。
本申请实施例中,所述第一视差预测子单元,配置为使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
本申请实施例中,所述第二视差预测子单元,配置为将所述每一像素点对应的不同视差d的概率的加权平均值,确定为所述像素点的预测视差,以得到样本图像的预测视差;
其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
第五方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述双目匹配方法中的步骤,或,实现如上所述双目匹配网络的训练方法中的步骤。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述双目匹配方法中的步骤,或,实现如上所述双目匹配网络的训练方法中的步骤。
本申请实施例提供一种双目匹配方法及装置、设备和存储介质。通过获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;利用所述3D匹配代价特征,确定所述图像的深度,如此,能够提高双目匹配的准确度并降低网络的计算需求。
附图说明
图1A为本申请实施例双目匹配方法的实现流程示意图一;
图1B为本申请实施例待处理的图像深度估计示意图;
图2A为本申请实施例双目匹配方法的实现流程示意图二;
图2B为本申请实施例双目匹配方法的实现流程示意图三;
图3A为本申请实施例双目匹配网络的训练方法的实现流程示意图;
图3B为本申请实施例分组互相关特征示意图;
图3C为本申请实施例连接特征示意图;
图4A为本申请实施例双目匹配方法的实现流程示意图四;
图4B为本申请实施例双目匹配网络模型示意图;
图4C为本申请实施例双目匹配方法和现有技术双目匹配方法的实验结果对比图;
图5为本申请实施例双目匹配装置的组成结构示意图;
图6为本申请实施例双目匹配网络的训练装置的组成结构示意图;
图7为本申请实施例计算机设备的一种硬件实体示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请的具体技术方案做进一步详细描述。以下实施例仅用于说明本申请,不用于限制本申请的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本申请实施例使用分组互相关匹配代价特征提高双目匹配的准确度并降低网络的计算需求。下面结合附图和实施例对本申请的技术方案进一步详细阐述。
本申请实施例提供一种双目匹配方法,该方法应用于计算机设备,该方法所实现的功能可以通过服务器中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该服务器至少包括处理器和存储介质。图1A为本申请实施例双目匹配方法的实现流程示意图一,如图1A所示,所述方法包括:
步骤S101、获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
这里,所述计算机设备可以是终端,所述待处理图像,可以包含任意场景的图片。并且,所述待处理的图像,一般是包括左图和右图的双目图片,是一对不同角度拍摄的图片,通常每对图片通过一对左右或者上下放置的相机获得。
一般来说,所述终端在实施的过程中可以为各种类型的具有信息处理能力的设备,例如所述移动终端可以包括手机、PDA(PersonalDigital Assistant,个人数字助理)、导航仪、数字电话、视频电话、智能手表、智能手环、可穿戴设备、平板电脑等。服务器在实现的过程中可以是移动终端如手机、平板电脑、笔记本电脑,固定终端如个人计算机和服务器集群等具有信息处理能力的计算机设备。
步骤S102、利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
这里,当所述3D匹配代价特征可以由分组互相关特征构成,也可以由分组互相关特征与连接特征拼接后的特征构成,并且,无论使用上述哪两种特征构成3D匹配代价特征,都能得到非常精准的视差预测结果。
步骤S103、利用所述3D匹配代价特征,确定所述图像的深度;
这里,可以通过所述3D匹配代价特征,确定每个左图中像素可能的视差的概率,也就是说,通过所述3D匹配代价特征,确定左图上像素点的特征和右图对应像素点的特征的匹配程度。即通过左特征图上一个点的特征去需找它在右特征图上所有可能的位置,然后分别将右特征图上每个可能的位置的特征和左图所述点的特征结合,进行分类,得到右特征图上每个可能的位置是所述点在右图上的对应点的概率。
这里,确定图像的深度,指的是确定左图的点在右图对应的点,并且确定他们之间的横向像素距离(当相机为左右放置时)。当然,也可以是确定右图的点在左图的对应点,本申请并不做限制。
本申请实例中,所述步骤S102至步骤S103,可以通过训练得到的双目匹配网络实现,其中,所述双目匹配网络包括但不限于:CNN(Convolutional Neural Networks,卷积神经网络)、DNN(Deep Neural Network,深度神经网络)和RNN(Recurrent Neural Network,循环神经网络)等。当然,所述双目匹配网络可以包含所述CNN、DNN和RNN等网络中的一种网络,也可以包含所述CNN、DNN和RNN等网络中的至少两种网络。
图1B为本申请实施例待处理的图像深度估计示意图,如图1B所示,图片11为待处理的图像中的左图,图片12为待处理的图像中的右图,图片13为图片11根据所述图片12确定出的视差图,即图片11对应的视差图,根据所述视差图,即可获取图片11对应的深度图。
本申请实施例中,通过获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;利用所述3D匹配代价特征,确定所述图像的深度,如此,能够提高双目匹配的准确度并降低网络的计算需求。
基于上述的方法实施例,本申请实施例再提供一种双目匹配方法,图2A为本申请实施例双目匹配方法的实现流程示意图二,如图2A所示,所述方法包括:
步骤S201、获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
步骤S202、利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征;
本申请实施例中,所述步骤S202、利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征,可以通过以下步骤实现:
步骤S2021、将提取的所述左图的特征和所述右图的特征分别进行分组,确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果;
步骤S2022、将所述互相关结果进行拼接,得到分组互相关特征。
其中,所述步骤S2021、将提取的所述左图的特征和所述右图的特征分别进行分组,确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果,可以通过以下步骤实现:
步骤S2021a、将提取的所述左图的特征进行分组,形成第一预设数量的第一特征组;
步骤S2021b、将提取的所述右图的特征进行分组,形成第二预设数量的第二特征组,所述第一预设数量与所述第二预设数量相同;
步骤S2021c、确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果;其中,g为大于等于1小于等于第一预设数量的自然数;所述不同视差包括:零视差、最大视差和零视差与最大视差之间的任一视差,所述最大视差为待处理的图像对应的使用场景下的最大视差。
这里,可以将左图的特征分成多个特征组,将右图的特征也分成多个特征组,确定左图的多个特征组中的某一特征组和右图对应的特征组在不同视差下的互相关结果。所述分组互相关,指的是分别得到左右图的特征后,对左图的特征进行分组(同右组),然后对应的组进行互相关计算(计算他们的相关性)。
本申请其他实施例中,所述确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果,包括:利用公式确定第g组第一特征组与第g组第二特征组在不同视差d下的互相关结果;其中,所述Nc表示所述左图的特征或所述右图的特征的通道数,所述Ng表示第一预设数量或第二预设数量,所述表示所述第一特征组中的特征,所述表示所述第二特征组中的特征,所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标,所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标。
步骤S203、将所述分组互相关特征,确定为3D匹配代价特征;
这里,对于某个像素点,通过提取出所述像素点在0至Dmax视差下的3D匹配特征,确定每个可能视差的概率,将所述概率进行加权平均,就可以得到图像的视差,其中,所述Dmax表示待处理的图像对应的使用场景下的最大视差。也可以将可能视差中概率最大的视差,确定为图像的视差。
步骤S204、利用所述3D匹配代价特征,确定所述图像的深度。
本申请实施例中,通过获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征;将所述分组互相关特征,确定为3D匹配代价特征;利用所述3D匹配代价特征,确定所述图像的深度,如此,能够提高双目匹配的准确度并降低网络的计算需求。
基于上述的方法实施例,本申请实施例再提供一种双目匹配方法,图2B为本申请实施例双目匹配方法的实现流程示意图三,如图2B所示,所述方法包括:
步骤S211、获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
步骤S212、利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征和连接特征;
本申请实施例中,所述步骤S212、利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征的实现方法,与所述步骤S202的实现方法相同,在此不做赘述。
步骤S213、将所述分组互相关特征与所述连接特征进行拼接后的特征,确定为3D匹配代价特征;
其中,所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
这里,可以将分组互相关特征和连接特征在特征维度上进行拼接,得到3D匹配代价特征。3D匹配代价特征相当于对每种可能的视差都得到一个特征。比如最大视差是Dmax,那么对可能的视差0,1,……,Dmax-1都得到相应的2D特征,再拼起来就是3D特征。
本申请其他实施例中,可以利用公式确定左图的特征和右图的特征对每种可能的视差d的拼接结果,得到Dmax个拼接图;其中,所述fl表示所述左图的特征,所述fr表示所述右图的特征,所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标,所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标,所述Concat表示对两个特征进行拼接;然后,将所述Dmax个拼接图进行拼接,得到连接特征。
步骤S214、利用所述3D匹配代价特征,确定所述图像的深度。
本申请实施例中,通过获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征和连接特征;将所述分组互相关特征与所述连接特征进行拼接后的特征,确定为3D匹配代价特征;利用所述3D匹配代价特征,确定所述图像的深度,如此,能够提高双目匹配的准确度并降低网络的计算需求。
基于上述的方法实施例,本申请实施例再提供一种双目匹配方法,所述方法包括:
步骤S221、获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
步骤S222、利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征;
本申请实施例中,所述全卷积神经网络是双目匹配网络中的一个组成部分。在所述双目匹配网络中,可以利用一个全卷积神经网络提取待处理图像的2D特征。
步骤S223、利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
步骤S224、使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率;
本申请实施例中,所述步骤S224可以由一个分类的神经网络实现,所述分类的神经网络也是双目匹配网络中的一个组成部分,用于确定每一像素点对应的不同视差的概率。
步骤S225、确定所述每一像素点对应的不同视差的概率的加权平均值;
本申请其他实施例中,可以利用公式确定获取的每一像素点对应的不同视差d的概率的加权平均值;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为待处理的图像对应的使用场景下的最大视差,所述pd表示所述视差d对应的概率。
步骤S226、将所述加权平均值确定为所述像素点的视差;
步骤S227、根据所述像素点的视差,确定所述像素点的深度。
本申请其他实施例中,所述方法还包括:利用公式确定获取的像素点的视差对应的深度信息D;其中,所述F表示拍摄样本的摄像机的镜头焦距,所述L表示拍摄样本的摄像机的镜头基线距离。
基于上述的方法实施例,本申请实施例提供一种双目匹配网络的训练方法,图3A为本申请实施例双目匹配网络的训练方法的实现流程示意图,如图3A所示,所述方法包括:
步骤S301、确定获取的样本图像的3D匹配代价特征,其中,所述样本图像包括有深度标记信息的左图和右图,所述左图和右图的尺寸相同;所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
步骤S302、根据所述3D匹配代价特征,确定样本图像的预测视差;
步骤S303、将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
这里,可以通过得到的损失函数对所述双目匹配网络中的参数进行更新,更新参数后的双目匹配网络能够预测出更好的效果。
步骤S304、利用所述损失函数对所述双目匹配网络进行训练。
基于上述的方法实施例,本申请实施例再提供一种双目匹配网络的训练方法,所述方法包括:
步骤S311、利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
本申请实施例中,所述步骤S311、利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征,可以通过以下步骤实现:
步骤S3111、利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征;
这里,所述利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征,包括:利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征,其中,所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。
举例来说,样本的尺寸为1200*400像素,则所述2D特征的尺寸在所述样本的尺寸的四分之一,即300*100像素。当然,所述2D特征的尺寸也可以是其他的尺寸,本申请实施例对此不做限制。
本申请实施例中,所述全卷积神经网络是双目匹配网络中的一个组成部分。在所述双目匹配网络中,可以利用一个全卷积神经网络提取样本图像的2D特征。
步骤S3112、确定用于进行2D特征拼接的卷积层的标识;
这里,所述确定用于进行2D特征拼接的卷积层的标识,包括:当第i卷积层的间隔率发生变化时,将所述第i卷积层确定为用于进行2D特征拼接的卷积层,其中,i为大于等于1的自然数。
步骤S3113、根据所述标识,将所述左图中不同卷积层的2D特征在特征维度上进行拼接,得到第一2D拼接特征;
举例来说,有多层级的特征分别是64维度、128维度和128维度(这里的维度指的是通道数目),则连接起来就是一个320维的特征图。
步骤S3114、根据所述标识,将所述右图中不同卷积层的2D特征在特征维度上进行拼接,得到第二2D拼接特征。
步骤S312、利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征;
步骤S313、根据所述3D匹配代价特征,确定样本图像的预测视差;
步骤S314、将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
步骤S315、利用所述损失函数对所述双目匹配网络进行训练。
基于上述的方法实施例,本申请实施例再提供一种双目匹配网络的训练方法,所述方法包括:
步骤S321、利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
步骤S322、利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
本申请实施例中,所述步骤S322、利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征,可以通过以下步骤实现:
步骤S3221、将获取的第一2D拼接特征分成Ng组,得到Ng个第一特征组;
步骤S3222、将获取的第二2D拼接特征分成Ng组,得到Ng个第二特征组,Ng为大于等于1的自然数;
步骤S3223、确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
本申请实施例中,所述确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图,包括:确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果,得到Dmax个互相关图,其中,g为大于等于1小于等于Ng的自然数;确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图。
这里,所述确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果,得到Dmax个互相关图,包括:利用公式确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果,得到Dmax个互相关图;其中,所述Nc表示所述第一2D拼接特征或所述第二2D拼接特征的通道数,所述表示所述第一特征组中的特征,所述表示所述第二特征组中的特征,所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标,所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标。
步骤S3224、将所述Ng*Dmax个互相关图在特征维度上进行拼接,得到分组互相关特征。
这里,所述使用场景有很多,例如,驾驶场景、室内机器人场景和手机双摄场景等等。
步骤S323、将所述分组互相关特征,确定为3D匹配代价特征;
图3B为本申请实施例分组互相关特征示意图,如图3B所示,对左图的第一2D拼接特征进行分组,得到多个左图分组后的特征组31。对右图的第二2D拼接特征进行分组,得到多个右图分组后的特征组32。所述第一2D拼接特征或所述第二2D拼接特征的形状均为[C,H,W],其中,C为拼接特征的通道数,H为拼接特征的高,W为拼接特征的宽。则左图或右图对应的每个特征组的通道数为C/Ng,所述Ng为分组的个数。将左图和右图对应的特征组进行互相关计算,计算每个对应的特征组在视差0,1,……,Dmax-1下的互相关性,可以得到Ng*Dmax个互相关图33,所述单个互相关图33的形状为[Ng,H,W],将所述Ng*Dmax个互相关图33在特征维度上进行拼接,可以得到分组互相关特征,然后将所述分组互相关特征作为3D匹配代价特征,所述3D匹配代价特征的形状为[Ng,Dmax,H,W],即所述分组互相关特征的形状为[Ng,Dmax,H,W]。
步骤S324、根据所述3D匹配代价特征,确定样本图像的预测视差;
步骤S325、将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
步骤S326、利用所述损失函数对所述双目匹配网络进行训练。
基于上述的方法实施例,本申请实施例再提供一种双目匹配网络的训练方法,所述方法包括:
步骤S331、利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
步骤S332、利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
本申请实施例中,所述步骤S332、利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征的实现方法,与所述步骤S322的实现方法相同,在此不做赘述。
步骤S333、利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定连接特征;
本申请实施例中,所述步骤S333、利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定连接特征,可以通过以下步骤实现:
步骤S3331、确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果,得到Dmax个拼接图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
步骤S3332、将所述Dmax个拼接图进行拼接,得到连接特征。
本申请其他实施例中,可以利用公式确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果,得到Dmax个拼接图;其中,所述fl表示所述第一2D拼接特征中的特征,所述fr表示所述第二2D拼接特征中的特征,所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标,所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标,所述Concat表示对两个特征进行拼接。
图3C为本申请实施例连接特征示意图,如图3C所示,将左图对应的第一2D拼接特征35和右图对应的第二2D拼接特征36在不同的视差0,1,……,Dmax-1下进行连接,得到Dmax个拼接图37,将所述Dmax个拼接图37进行拼接,得到连接特征。其中,所述2D拼接特征的形状为[C,H,W],所述单个拼接图37的形状为[2C,H,W],所述连接特征的形状为[2C,Dmax,H,W],所述C为2D拼接特征的通道数,所述Dmax为左图或右图对应的使用场景下的最大视差,所述H为左图或右图的高,所述W为左图或右图的宽。
步骤S334、将所述分组互相关特征和所述连接特征在特征维度上进行拼接,得到3D匹配代价特征;
举例来说,所述分组互相关特征的形状为[Ng,Dmax,H,W],所述连接特征的形状为[2C,Dmax,H,W],则所述3D匹配代价特征的形状为[Ng+2C,Dmax,H,W]。
步骤S335、对所述3D匹配代价特征,进行匹配代价聚合;
这里,所述对所述3D匹配代价特征,进行匹配代价聚合,包括:使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
本申请实施例中,所述步骤S335可以由一个分类的神经网络实现,所述分类的神经网络也是双目匹配网络中的一个组成部分,用于确定每一像素点对应的不同视差d的概率。
步骤S336、对聚合后的结果进行视差回归,得到样本图像的预测视差;
这里,所述对聚合后的结果进行视差回归,得到样本图像的预测视差,包括:将所述每一像素点对应的不同视差d的概率的加权平均值,确定为所述像素点的预测视差,以得到样本图像的预测视差;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
本申请其他实施例中,可以利用公式确定获取的每一像素点对应的不同视差d的概率的加权平均值;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差,所述pd表示所述视差d对应的概率。
步骤S337、将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
步骤S338、利用所述损失函数对所述双目匹配网络进行训练。
基于上述的方法实施例,本申请实施例再提供一种双目匹配方法,图4A为本申请实施例双目匹配方法的实现流程示意图四,如图4A所示,所述方法包括:
步骤S401、提取2D拼接特征;
步骤S402、利用所述2D拼接特征,构建3D匹配代价特征;
步骤S403、利用聚合网络对所述3D匹配代价特征进行处理;
步骤S404、对处理后的结果,进行视差回归。
图4B为本申请实施例双目匹配网络模型示意图,如图4B所示,所述双目匹配网络模型大致可以分为四个部分,2D拼接特征提取模块41,3D匹配代价特征构建模块42,聚合网络模块43和视差回归模块44。所述图片46和图片47分别为样本数据中的左图和右图。所述2D拼接特征提取模块41,用于对左右图片使用共享参数(包括权值共享)的全卷积神经网络提取1/4相比原图大小的2D特征,不同层的特征图被连接成一个大的特征图。所述3D匹配代价特征构建模块42,用于获取连接特征和分组互相关特征,并利用所述连接特征和分组互相关特征对所有可能的视差d构建特征图,形成3D匹配代价特征;其中,所述所有可能的视差d包括零视差到最大视差中的所有视差,最大视差指的是左图或右图对应的使用场景下的最大视差。所述聚合网络模块43,用于使用3D神经网络来估计对所有可能的视差d的概率。所述视差回归模块44,用于使用所有视差的概率得到最终的视差图45。
本申请实施例中,提出了基于分组互相关操作的3D匹配代价特征来替代旧的3D匹配代价特征。首先将得到的2D拼接特征分组分成Ng组,选取左右图对应的第g组特征组(比如g=1时选取第1组左图特征和第1组右图特征),计算它们对于视差d的互相关结果。对于每个特征组g(0<=g<Ng),每个可能的视差d(0<=d<Dmax),可以得到一种Ng*Dmax个互相关图。将这些结果连接合并即可得到形状为[Ng,Dmax,H,W]的分组互相关特征。其中Ng,Dmax,H和W分别为特征组数量,对于特征图的最大视差,特征高和特征宽。
然后,将所述分组互相关特征和连接特征结合,作为3D匹配代价特征,以达到更好的效果。
本申请提出了一种新的双目匹配网络,此匹配网络基于分组互相关匹配代价特征以及改进的3D堆叠沙漏网络,能够在限制3D聚合网络计算代价的同时提高匹配精度。其中,分组互相关匹配代价特征使用高维度特征直接构建,能够得到更好的表征特征。
本申请提出的基于分组互相关的网络结构由四个部分组成,2D特征提取,构建3D匹配代价特征,3D聚合和视差回归。
第一步是2D特征提取,其中采用了类似金字塔立体匹配网络的网络,然后将提取的第2、3、4卷积层的最终特征进行连接,形成一个320通道的2D特征图。
3D匹配代价特征由两部分组成:连接特征和基于分组的互相关特征。所述连接特征与金字塔立体匹配网络中的相同,只是相比金字塔立体匹配网络来说有更少的通道数。提取出的2D特征首先通过卷积压缩成12个通道,然后对每种可能的视差进行左右特征的视差连接。将所述连接特征和基于分组互相关特征拼接后,作为3D聚合网络的输入。
3D聚合网络用于聚合从相邻视差和像素预测匹配代价得到的特征。它是由一个预沙漏模块和三个堆叠的3D沙漏网络形成的,以规范卷积特征。
预沙漏模块和三个堆叠的3D沙漏网络连接到输出模块。对于每一个输出模块,采用两个3D卷积输出一个通道的3D卷积特征,然后对该3D卷积特征进行上采样并通过softmax函数沿着视差维度转换为概率。
左图的2D特征和右图的2D特征用fl和fr表示,用Nc表示通道,2D特征的大小为原始图像的1/4。现有技术中,左右特征在不同的差异层被连接以形成不同的匹配代价,但是匹配度量需要使用3D聚合网络进行学习,并且,在连接之前为了节省内存特征需要被压缩至很小的通道。但是,这种压缩特征的表示可能会丢失信息。为了解决了上述问题,本申请实施例提出了基于分组互相关,利用了传统的匹配度量,建立匹配代价特征。
基于分组互相关的基本思想是将2D特征分成多个组,计算左图和右图对应组的互相关性。本申请实施例中使用公式计算分组互相关性,其中,所述Nc表示2D特征的通道数,所述Ng表示分组的个数,所述表示分组后的左图对应的特征组中的特征,所述表示分组后的右图对应的特征组中的特征,所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标,所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标,这里⊙表示两个特征的乘积。其中,相关性指的是计算所有特征组g和所有视差d的相关性。
为了进一步提高性能,分组互相关匹配代价可以与原始连接特征进行结合。实验结果表明,分组相关特征和连接特征是相互补充的。
本申请对金字塔立体匹配网络中的聚合网络进行了改进。首先,添加一个额外的辅助输出模块,这样,额外的辅助损失使网络学习较低层的更好聚合特征,有利于最终预测。其次,不同输出之间的剩余连接模块被移除,因此,节省了计算成本。
本申请实施例中,使用损失函数来训练基于分组互相关的网络,其中,j表示实施例中使用的基于分组互相关的网络中有三个临时结果和一个最终结果,λj表示对于不同的结果所附加的不同权值,表示使用所述基于分组互相关的网络得到的视差,所述d*表示真实视差,所述SmoothLj是一种现有的损失函数计算方法。
这里,第i个像素的预测误差可以用公式确定,其中,di表示使用本申请实施例提供的双目匹配方法确定的待处理图像左图或右图上第i个像素点的预测视差,表示所述第i个像素点的真实视差。
图4C为本申请实施例双目匹配方法和现有技术双目匹配方法的实验结果对比图,如图4C所示,现有技术包括PSMNet(即金字塔立体匹配网络)和Cat64(即使用连接特征的方法)。而本申请实施例的双目匹配方法包括两种,第一种是Gwc40(GwcNet-g)(即基于分组互相关特征的方法),第二种是Gwc40-Cat24(GwcNet-gc)(即基于分组互相关特征与连接特征拼接后的特征的方法)。其中,两种现有技术和本申请实施例的第二种方法,均使用了连接特征,但是,只有本申请实施例使用了分组互相关特征。进而,只有本申请实施例中的方法涉及到了特征分组,即,将得到的2D拼接特征分成了40组,每组8个通道数。最后,使用待处理图像对现有技术和本申请实施例中的方法进行测试,可以得到立体视差异常值的百分比,分别为大于1个像素的异常值的百分比,大于2个像素的异常值的百分比,和大于3个像素的异常值的百分比,从图中可以看出,本申请提出的两种方法得到的实验结果均优于现有技术,即使用本申请实施例的方法对待处理图像进行处理后,得到的立体视差异常值的百分比,均小于现有技术对待处理图像进行处理后得到的立体视差异常值的百分比。
基于前述的实施例,本申请实施例提供一种双目匹配装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为CPU(Central Processing Unit,中央处理器)、MPU(Microprocessor Unit,微处理器)、DSP(Digital Signal Processing,数字信号处理器)或FPGA(Field Programmable Gate Array,现场可编程门阵列)等。
图5为本申请实施例双目匹配装置的组成结构示意图,如图5所示,所述装置500包括:
获取单元501,用于获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
构建单元502,用于利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
确定单元503,用于利用所述3D匹配代价特征,确定所述图像的深度。
本申请其他实施例中,所述构建单元502,包括:
第一构建子单元,用于利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征;
第二构建子单元,用于将所述分组互相关特征,确定为3D匹配代价特征。
本申请其他实施例中,所述构建单元502,包括:
第一构建子单元,用于利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征和连接特征;
第二构建子单元,用于将所述分组互相关特征与所述连接特征进行拼接后的特征,确定为3D匹配代价特征;
其中,所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
本申请其他实施例中,所述第一构建子单元,包括:
第一构建模块,用于将提取的所述左图的特征和所述右图的特征分别进行分组,确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果;
第二构建模块,用于将所述互相关结果进行拼接,得到分组互相关特征。
本申请其他实施例中,所述第一构建模块,包括:
第一构建子模块,用于将提取的所述左图的特征进行分组,形成第一预设数量的第一特征组;
第二构建子模块,用于将提取的所述右图的特征进行分组,形成第二预设数量的第二特征组,所述第一预设数量与所述第二预设数量相同;
第三构建子模块,用于确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果;其中,g为大于等于1小于等于第一预设数量的自然数;所述不同视差包括:零视差、最大视差和零视差与最大视差之间的任一视差,所述最大视差为待处理的图像对应的使用场景下的最大视差。
本申请其他实施例中,所述装置还包括:
提取单元,用于利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征。
本申请其他实施例中,所述确定单元503,包括:
第一确定子单元,用于使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率;
第二确定子单元,用于确定所述每一像素点对应的不同视差的概率的加权平均值;
第三确定子单元,用于将所述加权平均值确定为所述像素点的视差;
第四确定子单元,用于根据所述像素点的视差,确定所述像素点的深度。
基于前述的实施例,本申请实施例提供一种双目匹配网络的训练装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为CPU、MPU、DSP或FPGA等。
图6为本申请实施例双目匹配网络的训练装置的组成结构示意图,如图6所示,所述装置600包括:
特征提取单元601,用于确定获取的样本图像的3D匹配代价特征,其中,所述样本图像包括有深度标记信息的左图和右图,所述左图和右图的尺寸相同;所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
视差预测单元602,用于根据所述3D匹配代价特征,确定样本图像的预测视差;
比较单元603,用于将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
训练单元604,用于利用所述损失函数对所述双目匹配网络进行训练。
本申请其他实施例中,所述特征提取单元601,包括:
第一特征提取子单元,用于利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
第二特征提取子单元,用于利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征。
本申请其他实施例中,所述第一特征提取子单元,包括:
第一特征提取模块,用于利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征;
第二特征提取模块,用于确定用于进行2D特征拼接的卷积层的标识;
第三特征提取模块,用于根据所述标识,将所述左图中不同卷积层的2D特征在特征维度上进行拼接,得到第一2D拼接特征;
第四特征提取模块,用于根据所述标识,将所述右图中不同卷积层的2D特征在特征维度上进行拼接,得到第二2D拼接特征。
本申请其他实施例中,所述第二特征提取模块,配置为当第i卷积层的间隔率发生变化时,将所述第i卷积层确定为用于进行2D特征拼接的卷积层,其中,i为大于等于1的自然数。
本申请其他实施例中,所述第一特征提取模块,配置为利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征,其中,所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。
本申请其他实施例中,所述第二特征提取子单元,包括:
第一特征确定模块,用于利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
第二特征确定模块,用于将所述分组互相关特征,确定为3D匹配代价特征。
本申请其他实施例中,所述第二特征提取子单元,包括:
第一特征确定模块,用于利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定分组互相关特征;
所述第一特征确定模块,还用于利用获取的第一2D拼接特征和获取的第二2D拼接特征,确定连接特征;
第二特征确定模块,用于将所述分组互相关特征和所述连接特征在特征维度上进行拼接,得到3D匹配代价特征。
本申请其他实施例中,所述第一特征确定模块,包括:
第一特征确定子模块,用于将获取的第一2D拼接特征分成Ng组,得到Ng个第一特征组;
第二特征确定子模块,用于将获取的第二2D拼接特征分成Ng组,得到Ng个第二特征组,Ng为大于等于1的自然数;
第三特征确定子模块,用于确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
第四特征确定子模块,用于将所述Ng*Dmax个互相关图在特征维度上进行拼接,得到分组互相关特征。
本申请其他实施例中,所述第三特征确定子模块,配置为确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果,得到Dmax个互相关图,其中,g为大于等于1小于等于Ng的自然数;确定Ng个第一特征组和Ng个第二特征组对于所述视差d的互相关结果,得到Ng*Dmax个互相关图。
本申请其他实施例中,所述第一特征确定模块,还包括:
第五特征确定子模块,用于确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果,得到Dmax个拼接图;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差;
第六特征确定子模块,用于将所述Dmax个拼接图进行拼接,得到连接特征。
本申请其他实施例中,所述视差预测单元602,包括:
第一视差预测子单元,用于对所述3D匹配代价特征,进行匹配代价聚合;
第二视差预测子单元,用于对聚合后的结果进行视差回归,得到样本图像的预测视差。
本申请其他实施例中,所述第一视差预测子单元,配置为使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率;其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
本申请其他实施例中,所述第二视差预测子单元,配置为将所述每一像素点对应的不同视差d的概率的加权平均值,确定为所述像素点的预测视差,以得到样本图像的预测视差;
其中,所述视差d为大于等于0小于Dmax的自然数,所述Dmax为样本图像对应的使用场景下的最大视差。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的双目匹配方法或双目匹配网络的训练方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、ROM(ReadOnly Memory,只读存储器)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例中提供的双目匹配方法中的步骤,或,实现上述实施例中提供的双目匹配网络的训练方法中的步骤。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的双目匹配方法中的步骤,或,实现上述实施例中提供的双目匹配网络的训练方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图7为本申请实施例计算机设备的一种硬件实体示意图,如图7所示,该计算机设备700的硬件实体包括:处理器701、通信接口702和存储器703,其中
处理器701通常控制计算机设备700的总体操作。
通信接口702可以使计算机设备通过网络与其他终端或服务器通信。
存储器703配置为存储由处理器701可执行的指令和应用,还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过FLASH(闪存)或RAM(Random Access Memory,随机访问存储器)实现。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM(Read Only Memory,只读存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种双目匹配方法,其特征在于,所述方法包括:
获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
利用所述3D匹配代价特征,确定所述图像的深度。
2.根据权利要求1所述的方法,其特征在于,所述利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,包括:
利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征;
将所述分组互相关特征,确定为3D匹配代价特征。
3.根据权利要求1所述的方法,其特征在于,所述利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,包括:
利用提取的所述左图的特征和所述右图的特征,确定分组互相关特征和连接特征;
将所述分组互相关特征与所述连接特征进行拼接后的特征,确定为3D匹配代价特征;
其中,所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
4.一种双目匹配网络的训练方法,其特征在于,所述方法包括:
确定获取的样本图像的3D匹配代价特征,其中,所述样本图像包括有深度标记信息的左图和右图,所述左图和右图的尺寸相同;所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
根据所述3D匹配代价特征,确定样本图像的预测视差;
将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
利用所述损失函数对所述双目匹配网络进行训练。
5.根据权利要求4所述的方法,其特征在于,所述确定获取的样本图像的3D匹配代价特征,包括:
利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征;
利用所述左图的2D拼接特征和所述右图的2D拼接特征,构建3D匹配代价特征。
6.根据权利要求5所述的方法,其特征在于,所述利用全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征,包括:
利用全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征;
确定用于进行2D特征拼接的卷积层的标识;
根据所述标识,将所述左图中不同卷积层的2D特征在特征维度上进行拼接,得到第一2D拼接特征;
根据所述标识,将所述右图中不同卷积层的2D特征在特征维度上进行拼接,得到第二2D拼接特征。
7.一种双目匹配装置,其特征在于,所述装置包括:
获取单元,用于获取待处理的图像,其中,所述图像为包括左图和右图的2D图像;
构建单元,用于利用提取的所述左图的特征和所述右图的特征,构建所述图像的3D匹配代价特征,其中,所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
确定单元,用于利用所述3D匹配代价特征,确定所述图像的深度。
8.一种双目匹配网络的训练装置,其特征在于,所述装置包括:
特征提取单元,用于确定获取的样本图像的3D匹配代价特征,其中,所述样本图像包括有深度标记信息的左图和右图,所述左图和右图的尺寸相同;所述3D匹配代价特征是由分组互相关特征构成的,或,由分组互相关特征与连接特征拼接后的特征构成的;
视差预测单元,用于根据所述3D匹配代价特征,确定样本图像的预测视差;
比较单元,用于将所述深度标记信息与所述预测视差进行比较,得到双目匹配的损失函数;
训练单元,用于利用所述损失函数对所述双目匹配网络进行训练。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3任一项所述双目匹配方法中的步骤,或,实现权利要求4至6任一项所述双目匹配网络的训练方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3任一项所述双目匹配方法中的步骤,或,实现权利要求4至6任一项所述双目匹配网络的训练方法中的步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910127860.4A CN109887019B (zh) | 2019-02-19 | 2019-02-19 | 一种双目匹配方法及装置、设备和存储介质 |
PCT/CN2019/108314 WO2020168716A1 (zh) | 2019-02-19 | 2019-09-26 | 双目匹配方法及装置、设备和存储介质 |
JP2020565808A JP7153091B2 (ja) | 2019-02-19 | 2019-09-26 | 両眼マッチング方法及び装置、機器並びに記憶媒体 |
KR1020207031264A KR20200136996A (ko) | 2019-02-19 | 2019-09-26 | 양안 매칭 방법 및 장치, 기기 및 저장 매체 |
SG11202011008XA SG11202011008XA (en) | 2019-02-19 | 2019-09-26 | Binocular matching method and apparatus, and device and storage medium |
US17/082,640 US20210042954A1 (en) | 2019-02-19 | 2020-10-28 | Binocular matching method and apparatus, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910127860.4A CN109887019B (zh) | 2019-02-19 | 2019-02-19 | 一种双目匹配方法及装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109887019A true CN109887019A (zh) | 2019-06-14 |
CN109887019B CN109887019B (zh) | 2022-05-24 |
Family
ID=66928674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910127860.4A Active CN109887019B (zh) | 2019-02-19 | 2019-02-19 | 一种双目匹配方法及装置、设备和存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210042954A1 (zh) |
JP (1) | JP7153091B2 (zh) |
KR (1) | KR20200136996A (zh) |
CN (1) | CN109887019B (zh) |
SG (1) | SG11202011008XA (zh) |
WO (1) | WO2020168716A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689060A (zh) * | 2019-09-16 | 2020-01-14 | 西安电子科技大学 | 一种基于聚合特征差异学习网络的异源图像匹配方法 |
CN111260538A (zh) * | 2018-12-03 | 2020-06-09 | 北京初速度科技有限公司 | 基于长基线双目鱼眼相机的定位及车载终端 |
WO2020168716A1 (zh) * | 2019-02-19 | 2020-08-27 | 北京市商汤科技开发有限公司 | 双目匹配方法及装置、设备和存储介质 |
CN111709977A (zh) * | 2020-03-17 | 2020-09-25 | 北京航空航天大学青岛研究院 | 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法 |
CN112819777A (zh) * | 2021-01-28 | 2021-05-18 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN113283848A (zh) * | 2021-07-21 | 2021-08-20 | 湖北浩蓝智造科技有限公司 | 一种货物入库检测方法、仓储入库系统及存储介质 |
CN114419349A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学技术大学 | 一种图像匹配方法和装置 |
CN114627535A (zh) * | 2022-03-15 | 2022-06-14 | 平安科技(深圳)有限公司 | 基于双目摄像头的坐标匹配方法、装置、设备及介质 |
CN115908992A (zh) * | 2022-10-22 | 2023-04-04 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
CN116229123A (zh) * | 2023-02-21 | 2023-06-06 | 深圳市爱培科技术股份有限公司 | 基于多通道分组互相关代价卷的双目立体匹配方法及装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383256B (zh) * | 2018-12-29 | 2024-05-17 | 北京市商汤科技开发有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
US11763433B2 (en) * | 2019-11-14 | 2023-09-19 | Samsung Electronics Co., Ltd. | Depth image generation method and device |
CN111260711B (zh) * | 2020-01-10 | 2021-08-10 | 大连理工大学 | 一种弱监督可信代价传播的视差估计方法 |
KR20220127642A (ko) * | 2021-03-11 | 2022-09-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113393366B (zh) * | 2021-06-30 | 2024-07-02 | 上饶市纯白数字科技有限公司 | 双目匹配方法、装置、设备以及存储介质 |
US20230133026A1 (en) * | 2021-10-28 | 2023-05-04 | X Development Llc | Sparse and/or dense depth estimation from stereoscopic imaging |
CN115063467B (zh) * | 2022-08-08 | 2022-11-15 | 煤炭科学研究总院有限公司 | 煤矿井下高分辨率图像视差估计方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680510A (zh) * | 2013-12-18 | 2015-06-03 | 北京大学深圳研究生院 | Radar视差图优化方法、立体匹配视差图优化方法及系统 |
US20150213617A1 (en) * | 2014-01-24 | 2015-07-30 | Samsung Techwin Co., Ltd. | Method and apparatus for estimating position |
US20150302595A1 (en) * | 2014-04-17 | 2015-10-22 | Altek Semiconductor Corp. | Method and apparatus for generating depth information |
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN106447661A (zh) * | 2016-09-28 | 2017-02-22 | 深圳市优象计算技术有限公司 | 一种深度图快速生成方法 |
CN106679567A (zh) * | 2017-02-14 | 2017-05-17 | 成都国铁电气设备有限公司 | 基于双目立体视觉的接触网及支柱几何参数检测测量系统 |
US20170223333A1 (en) * | 2016-02-01 | 2017-08-03 | Samsung Electronics Co., Ltd. | Method and apparatus for processing binocular disparity image |
CN107316326A (zh) * | 2017-06-29 | 2017-11-03 | 海信集团有限公司 | 应用于双目立体视觉的基于边的视差图计算方法和装置 |
CN107506711A (zh) * | 2017-08-15 | 2017-12-22 | 江苏科技大学 | 基于卷积神经网络的双目视觉障碍物检测系统及方法 |
CN108230235A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN108257165A (zh) * | 2018-01-03 | 2018-07-06 | 上海兴芯微电子科技有限公司 | 图像立体匹配方法、双目视觉设备 |
CN108381549A (zh) * | 2018-01-26 | 2018-08-10 | 广东三三智能科技有限公司 | 一种双目视觉引导机器人快速抓取方法、装置及存储介质 |
CN108961327A (zh) * | 2018-05-22 | 2018-12-07 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN109191512A (zh) * | 2018-07-27 | 2019-01-11 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7444013B2 (en) * | 2001-08-10 | 2008-10-28 | Stmicroelectronics, Inc. | Method and apparatus for recovering depth using multi-plane stereo and spatial propagation |
CN101908230B (zh) * | 2010-07-23 | 2011-11-23 | 东南大学 | 一种基于区域深度边缘检测和双目立体匹配的三维重建方法 |
US9430834B2 (en) * | 2014-01-20 | 2016-08-30 | Nokia Corporation | Visual perception matching cost on binocular stereo images |
CN107767413B (zh) * | 2017-09-20 | 2020-02-18 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN109887019B (zh) * | 2019-02-19 | 2022-05-24 | 北京市商汤科技开发有限公司 | 一种双目匹配方法及装置、设备和存储介质 |
-
2019
- 2019-02-19 CN CN201910127860.4A patent/CN109887019B/zh active Active
- 2019-09-26 JP JP2020565808A patent/JP7153091B2/ja active Active
- 2019-09-26 WO PCT/CN2019/108314 patent/WO2020168716A1/zh active Application Filing
- 2019-09-26 KR KR1020207031264A patent/KR20200136996A/ko not_active Application Discontinuation
- 2019-09-26 SG SG11202011008XA patent/SG11202011008XA/en unknown
-
2020
- 2020-10-28 US US17/082,640 patent/US20210042954A1/en not_active Abandoned
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680510A (zh) * | 2013-12-18 | 2015-06-03 | 北京大学深圳研究生院 | Radar视差图优化方法、立体匹配视差图优化方法及系统 |
US20150213617A1 (en) * | 2014-01-24 | 2015-07-30 | Samsung Techwin Co., Ltd. | Method and apparatus for estimating position |
US20150302595A1 (en) * | 2014-04-17 | 2015-10-22 | Altek Semiconductor Corp. | Method and apparatus for generating depth information |
US20170223333A1 (en) * | 2016-02-01 | 2017-08-03 | Samsung Electronics Co., Ltd. | Method and apparatus for processing binocular disparity image |
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN106447661A (zh) * | 2016-09-28 | 2017-02-22 | 深圳市优象计算技术有限公司 | 一种深度图快速生成方法 |
CN106679567A (zh) * | 2017-02-14 | 2017-05-17 | 成都国铁电气设备有限公司 | 基于双目立体视觉的接触网及支柱几何参数检测测量系统 |
CN107316326A (zh) * | 2017-06-29 | 2017-11-03 | 海信集团有限公司 | 应用于双目立体视觉的基于边的视差图计算方法和装置 |
CN108230235A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN107506711A (zh) * | 2017-08-15 | 2017-12-22 | 江苏科技大学 | 基于卷积神经网络的双目视觉障碍物检测系统及方法 |
CN108257165A (zh) * | 2018-01-03 | 2018-07-06 | 上海兴芯微电子科技有限公司 | 图像立体匹配方法、双目视觉设备 |
CN108381549A (zh) * | 2018-01-26 | 2018-08-10 | 广东三三智能科技有限公司 | 一种双目视觉引导机器人快速抓取方法、装置及存储介质 |
CN108961327A (zh) * | 2018-05-22 | 2018-12-07 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN109191512A (zh) * | 2018-07-27 | 2019-01-11 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
Non-Patent Citations (2)
Title |
---|
JAESEONG PARK等: "Robust Facial Pose Estimation Using Landmark Selection Method for Binocular Stereo Vision", 《2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
郭凯丽: "双目视觉立体匹配方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260538B (zh) * | 2018-12-03 | 2023-10-03 | 北京魔门塔科技有限公司 | 基于长基线双目鱼眼相机的定位及车载终端 |
CN111260538A (zh) * | 2018-12-03 | 2020-06-09 | 北京初速度科技有限公司 | 基于长基线双目鱼眼相机的定位及车载终端 |
WO2020168716A1 (zh) * | 2019-02-19 | 2020-08-27 | 北京市商汤科技开发有限公司 | 双目匹配方法及装置、设备和存储介质 |
CN110689060B (zh) * | 2019-09-16 | 2022-01-28 | 西安电子科技大学 | 一种基于聚合特征差异学习网络的异源图像匹配方法 |
CN110689060A (zh) * | 2019-09-16 | 2020-01-14 | 西安电子科技大学 | 一种基于聚合特征差异学习网络的异源图像匹配方法 |
CN111709977A (zh) * | 2020-03-17 | 2020-09-25 | 北京航空航天大学青岛研究院 | 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法 |
CN112819777A (zh) * | 2021-01-28 | 2021-05-18 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN112819777B (zh) * | 2021-01-28 | 2022-12-27 | 重庆西山科技股份有限公司 | 一种双目内窥镜辅助显示方法、系统、装置和存储介质 |
CN113283848A (zh) * | 2021-07-21 | 2021-08-20 | 湖北浩蓝智造科技有限公司 | 一种货物入库检测方法、仓储入库系统及存储介质 |
CN113283848B (zh) * | 2021-07-21 | 2021-09-28 | 湖北浩蓝智造科技有限公司 | 一种货物入库检测方法、仓储入库系统及存储介质 |
CN114627535A (zh) * | 2022-03-15 | 2022-06-14 | 平安科技(深圳)有限公司 | 基于双目摄像头的坐标匹配方法、装置、设备及介质 |
CN114627535B (zh) * | 2022-03-15 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于双目摄像头的坐标匹配方法、装置、设备及介质 |
CN114419349A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学技术大学 | 一种图像匹配方法和装置 |
CN114419349B (zh) * | 2022-03-30 | 2022-07-15 | 中国科学技术大学 | 一种图像匹配方法和装置 |
CN115908992A (zh) * | 2022-10-22 | 2023-04-04 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
CN115908992B (zh) * | 2022-10-22 | 2023-12-05 | 北京百度网讯科技有限公司 | 双目立体匹配的方法、装置、设备以及存储介质 |
CN116229123A (zh) * | 2023-02-21 | 2023-06-06 | 深圳市爱培科技术股份有限公司 | 基于多通道分组互相关代价卷的双目立体匹配方法及装置 |
CN116229123B (zh) * | 2023-02-21 | 2024-04-30 | 深圳市爱培科技术股份有限公司 | 基于多通道分组互相关代价卷的双目立体匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20200136996A (ko) | 2020-12-08 |
JP7153091B2 (ja) | 2022-10-13 |
SG11202011008XA (en) | 2020-12-30 |
CN109887019B (zh) | 2022-05-24 |
US20210042954A1 (en) | 2021-02-11 |
WO2020168716A1 (zh) | 2020-08-27 |
JP2021526683A (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887019A (zh) | 一种双目匹配方法及装置、设备和存储介质 | |
CN110659727B (zh) | 一种基于草图的图像生成方法 | |
CN110458765B (zh) | 基于感知保持卷积网络的图像质量增强方法 | |
CN110569875B (zh) | 一种基于特征复用的深度神经网络目标检测方法 | |
CN107204010A (zh) | 一种单目图像深度估计方法与系统 | |
CN110414674B (zh) | 一种基于残差网络及局部细化的单目深度估计方法 | |
CN113870422B (zh) | 一种点云重建方法、装置、设备及介质 | |
CN109146937A (zh) | 一种基于深度学习的电力巡检影像密集匹配方法 | |
CN117058160B (zh) | 基于自适应特征融合网络的三维医学图像分割方法及系统 | |
CN115205196A (zh) | 基于孪生网络与特征融合的无参考图像质量评价方法 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN113256699A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112507920A (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN115909201A (zh) | 一种基于多分支联合学习的遮挡行人重识别方法及系统 | |
CN114677350A (zh) | 连接点提取方法、装置、计算机设备及存储介质 | |
CN110738645A (zh) | 基于卷积神经网络的3d图像质量检测方法 | |
CN116258756A (zh) | 一种自监督单目深度估计方法及系统 | |
CN110766732A (zh) | 一种鲁棒的单相机深度图估计方法 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN111508024A (zh) | 一种基于深度学习估计机器人位姿的方法 | |
CN111553921B (zh) | 一种基于通道信息共享残差模块的实时语义分割方法 | |
CN107341151B (zh) | 图像检索数据库生成方法、增强现实的方法及装置 | |
CN114821438A (zh) | 一种基于多路径激励的视频人体行为识别方法及系统 | |
Lu et al. | Head-related transfer function reconstruction with anthropometric parameters and the direction of the sound source: Deep learning-based head-related transfer function personalization | |
CN117853960A (zh) | 基于Transformer架构的航拍图像预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |