CN111915660A - 基于共享特征和注意力上采样的双目视差匹配方法及系统 - Google Patents

基于共享特征和注意力上采样的双目视差匹配方法及系统 Download PDF

Info

Publication number
CN111915660A
CN111915660A CN202010594237.2A CN202010594237A CN111915660A CN 111915660 A CN111915660 A CN 111915660A CN 202010594237 A CN202010594237 A CN 202010594237A CN 111915660 A CN111915660 A CN 111915660A
Authority
CN
China
Prior art keywords
disparity
scale
map
scales
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010594237.2A
Other languages
English (en)
Other versions
CN111915660B (zh
Inventor
谢云
李巍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010594237.2A priority Critical patent/CN111915660B/zh
Publication of CN111915660A publication Critical patent/CN111915660A/zh
Application granted granted Critical
Publication of CN111915660B publication Critical patent/CN111915660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于共享特征和注意力上采样的双目视差匹配方法及系统,该方法步骤包括:将左、右图像预处理后提取1/2尺度、1/4尺度、1/8尺度、1/16尺度特征图;左、右图像1/16尺度特征图构建匹配代价矩阵,生成1/16尺度的初始视差图;使用1/16尺度初始视差图和1/16尺度图像特征图估计出1/16尺度的视差残差图,利用注意力机制实现上采样,生成1/8尺度的视差图;分别使用1/8尺度、1/4尺度、1/2尺度视差图和对应的图像特征图,分别生成1/4尺度、1/2尺度和原尺度视差图;进行模型训练并保存最优模型参数;载入预训练参数,输入图像帧,获取不同尺度视差图。本发明采用共享特征设计和注意力机制上采样,有效提升了视差匹配的精度和速度,能够实时地生成高精度视差图。

Description

基于共享特征和注意力上采样的双目视差匹配方法及系统
技术领域
本发明涉及双目视差匹配技术领域,具体涉及基于共享特征和注意力上采样的双目视差匹配方法及系统。
背景技术
深度估计是很多实际应用的核心问题,比如自动驾驶、三维重建、虚拟现实等。目前,获取深度值的方法有激光雷达,结构光,双目视觉等。其中,双目视觉方法因为成本低,部署方便,被广泛使用。双目视觉方法基于双目相机,双目相机同时拍摄左右两幅视图,从左右两幅视图得到对应的视差图,然后根据双目相机参数计算深度图像。
传统的视差匹配方法可以分为四步:匹配代价计算,代价聚合,视差计算和视差精化。然而,传统的视差匹配方法多是基于人为设计的特征,以及启发式的能量函数,且只能串行计算。因此,精度上和速度上都很难满足实际需求。
近年来,随着深度神经网络网络技术的发展,基于深度卷积神经网络的视差匹配技术在速度和精度上都超过了传统视差匹配方法。由于深度卷积神经网络强大的特征表征能力,使得视差匹配的精度有了大幅度的提高。而且,卷积神经网络能够在GPU上进行快速的并行计算,因此比传统方法要快很多。
然而,目前基于深度卷积神经网络的视差匹配计算仍存在一定局限性,具体表现为:1)参数过多,导致占用显存过大;2)计算量过大,难以支撑高实时的应用;3)无法根据需求实时地调整计算量和精度。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于共享特征和注意力上采样的双目视差匹配方法,以实际应用场景的视差匹配网络作为研究目标,综合考虑视差匹配的准确性与实时性,能够更加鲁棒地、灵活地应对实际应用场景的挑战。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于共享特征和注意力上采样的双目视差匹配方法,包括下述步骤:
对获取的图像进行归一化处理,将双目视觉采集到的左、右图像经预处理后输入卷积神经网络,提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图;
采用左、右图像的1/16尺度特征图构建匹配代价矩阵,采用三维卷积神经网络计算匹配代价矩阵,生成视差可能性特征图,采用Soft-Argmin函数计算视差可能性特征图,生成1/16尺度的初始视差图;
分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层,进行特征提取,采用提取得到的特征估计出1/16尺度的视差残差图,采用提取的特征为每个像素估计出自适应权重,应用注意力机制,将自适应权重与视差图相对应的邻域视差值进行加权求和,实现上采样,生成1/8尺度的视差图;
分别输入1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图,分别生成1/4尺度、1/2尺度、原尺度的视差图;
构建损失函数,根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值,求和取得总的损失值,然后进行反向传播,更新模型参数,当总的损失值不再下降时,保存模型参数;
将预处理后的图像输入模型中,获取不同尺度的视差图。
作为优选的技术方案,所述卷积神经网络由二维卷积层堆叠而成,其中包括用于下采样的二维卷积层,用于输出多种尺度的特征图。
作为优选的技术方案,所述Soft-Argmin函数具体表示为:
Figure BDA0002556910250000031
其中,Dispi表示第i个像素的视差值,σ(·)表示一维的softmax函数,Pi表示视差可能性特征图上第i个像素的特征向量,dmax表示网络训练时指定的最大视差值。
作为优选的技术方案,所述生成1/8尺度的视差图,具体步骤包括:
分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入卷积神经网络,分别提取特征,生成特征图,然后将两者的特征图沿着特征图通道拼接起来,形成融合特征图;
将融合特征图输入卷积神经网络,生成1/16尺度的视差残差图,将视差残差图与初始视差图相加,得到优化后的视差图;
将融合特征图输入卷积神经网络,利用卷积神经网络,生成1/8尺度的自适应权重图,权重图中每个像素的权重向量,代表了上采样后1/8尺度视差图对上采样前1/16尺度视差图的注意力依赖;
取1/16尺度视差图每个像素邻域像素的视差值,与权重图中对应的权重向量进行加权求和,生成1/8尺度视差图。
作为优选的技术方案,所述加权求和具体公式如下:
Figure BDA0002556910250000032
其中,U(pu)代表了1/8分辨率视差图的某个像素,pu的坐标为(x,y),W(pw)代表了权重图上对应的像素,pw的坐标为(i,j),Rd(pd,2r+1)为1/16分辨率视差图上对应像素的邻域,pd的坐标为(k,j),邻域大小为(2r+1)×(2r+1),
Figure BDA0002556910250000033
表示逐元素相乘操作,各坐标的对应关系为i=k=ceil(x/2),j=l=ceil(y/2)。
作为优选的技术方案,所述损失函数采用Smooth L1函数,具体表示为:
Figure BDA0002556910250000041
将预测的视差值与标签值的差输入Smooth L1函数即可获得损失值。
作为优选的技术方案,所述将预处理后的图像输入模型中,获取不同大小尺度的视差图,具体步骤包括:
在计算平台上加载模型及其参数,判断需要生成的视差图的尺度;
开启双目摄像头,左摄像头和右摄像头同时曝光,获取图像;
对获取的图像进行归一化处理,其图像像素值在-1到1之间;
将预处理后的图像输入模型,生成1/16尺度的视差图;
判断是否满足输出尺度需求,如果不满足,则执行上采样模块,如果满足,则直接返回视差图。
本发明还提供一种基于共享特征和注意力上采样的双目视差匹配系统,包括:归一化处理模块、特征提取模块、初始视差图生成模块、视差图生成模块、模型训练模块和测试模块;
所述归一化处理模块用于对获取的图像进行归一化处理;
所述特征提取模块用于将双目视觉采集到的左、右图像经预处理后输入卷积神经网络,提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图;
所述初始视差图生成模块用于采用左、右图像的1/16尺度特征图构建匹配代价矩阵,采用三维卷积神经网络计算匹配代价矩阵,生成视差可能性特征图,采用Soft-Argmin函数计算视差可能性特征图,生成1/16尺度的初始视差图;
所述视差图生成模块分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层,进行特征提取,采用提取得到的特征估计出1/16尺度的视差残差图,采用提取的特征为每个像素估计出自适应权重,应用注意力机制,将自适应权重与视差图相对应的邻域视差值进行加权求和,实现上采样,生成1/8尺度的视差图;
分别输入1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图,分别生成1/4尺度、1/2尺度、原尺度的视差图;
所述模型训练模块用于构建损失函数,根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值,求和取得总的损失值,然后进行反向传播,更新模型参数,当总的损失值不再下降时,保存模型参数;
所述测试模块用于将预处理后的图像输入模型中,获取不同尺度的视差图。
作为优选的技术方案,所述特征提取模块由残差卷积模块、空洞卷积模块和下采样卷积层组成。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用了创新性的网络架构,先生成低分辨率的视差图,然后再采用注意力上采样机制,逐步把低分辨率视差图上采样,解决了双目视差匹配网络参数过多、推理速度慢的技术问题,达到了在高端GPU上66Fps的实时运行效果,满足了实时的应用需求。
(2)本发明能够通过调整注意力上采样模块的数量,来进行速度和精度的权衡,推理速度范围为66~175Fps,从而尽可能地适应多种实施场景。
附图说明
图1为本实施例基于共享特征和注意力上采样的双目视差匹配方法的流程示意图;
图2为本实施例基于共享特征和注意力上采样的双目视差匹配系统的总体结构示意图;
图3为本实施例基于共享特征和注意力上采样的双目视差匹配系统的残差卷积示意图;
图4为本实施例基于共享特征和注意力上采样的双目视差匹配系统的注意力上采样模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于共享特征和注意力机制上采样的双目视差匹配方法,包括下述步骤:
S1:对训练的图像进行归一化预处理,使其图像像素值在-1到1之间,将归一化预处理后的左、右图像输入卷积神经网络,提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图;
在本实施例中,卷积神经网络由二维卷积层堆叠而成,其中包括用于下采样的二维卷积,来输出多种尺度的特征图。
如图2所示,本实施例将图像送入二维卷积层中,卷积神经网络具备4个步长为2的下采样层,这些下采样层把原始图片转化为1/2尺度、1/4尺度、1/8尺度和1/16尺度的特征图,并将这些特征图与注意力上采样模块进行特征共享,从而提高网络的效率。
结合图2和图3所示,特征提取模块由残差卷积模块、空洞卷积模块和下采样卷积层组成。残差卷积模块如图3所示,本实施例优选卷积核大小为3×3。空洞卷积模块是把残差卷积模块中的普通卷积层替换为空洞卷积层,空洞卷积层能够在不增加计算量的情况下显著地增加感受野。下采样卷积层是指步长大于1的二维卷积层,用于缩小特征尺度,本实施例优选步长为2。在每个下采样卷积后,均接着残差卷积模块或者空洞卷积模块,来增强特征提取能力。具体而言,在第一个、第二个和第三个下采样卷积层后,各自有1个残差卷积模块;在第四个下采样卷积层后,有5个空洞卷积模块,卷积核为3×3,空洞参数dilation分别为1、2、4、8、1。
S2:使用左、右图像的1/16尺度特征图构建匹配代价矩阵,采用三维卷积神经网络计算匹配代价矩阵,生成视差可能性特征图,采用Soft-Argmin函数计算视差可能性特征图,生成1/16尺度的初始视差图;
Soft-Argmin函数如下:
Figure BDA0002556910250000071
其中,Dispi表示第i个像素的视差值,σ(·)表示一维的softmax函数,Pi表示视差可能性特征图上第i个像素的特征向量,dmax表示网络训练时指定的最大视差值;
在本实施例中,代价矩阵是一个四维的数组。若假设1/16尺度特征图的维度是C×H×W,那么代价矩阵的维度是2C×D×H×W,其中D=ceil(dmax/16)。代价矩阵实际上拼接了所有可能匹配到像素的特征向量。本实施例的三维卷积神经网络仅由5个三维卷积层组成,三维卷积层的数量极少,仅为其他双目视差匹配网络的几分之一。由于三维卷积层消耗的计算量相对较大,因此本实施例相比于现有其他双目视差匹配网络速度提升了许多。
S3:分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层,进行特征提取,使用提取得到的特征估计出1/16尺度的视差残差图,同样地,使用提取的特征为每个像素估计出自适应权重,应用注意力机制,将自适应权重与视差图相对应的邻域视差值进行加权求和,从而实现上采样,生成1/8尺度的视差图;
S31、分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入卷积神经网络,分别提取特征,生成特征图,然后将两者的特征图沿着特征图通道拼接起来,形成融合特征图;
S32、将融合特征图输入卷积神经网络,生成1/16尺度的视差残差图,将视差残差图与初始视差图相加,得到优化后的视差图;
S33、将融合特征图输入卷积神经网络,利用卷积神经网络,生成1/8尺度的自适应权重图,权重图中每个像素的权重向量,代表了上采样后1/8尺度视差图对上采样前1/16尺度视差图的注意力依赖;
S34、取1/16尺度视差图每个像素邻域像素的视差值,与权重图中对应的权重向量进行加权求和,生成1/8尺度视差图,完成注意力机制上采样操作,具体公式如下:
Figure BDA0002556910250000081
其中,U(pu)代表了1/8分辨率视差图的某个像素,pu的坐标为(x,y),W(pw)代表了权重图上对应的像素,pw的坐标为(i,j),Rd(pd,2r+1)为1/16分辨率视差图上对应像素的邻域,pd的坐标为(k,j),邻域大小为(2r+1)×(2r+1),
Figure BDA0002556910250000082
是逐元素相乘操作,以上各坐标的对应关系为i=k=ceil(x/2),j=l=ceil(y/2)。
具体而言,步骤S33可参阅图4上分支。步骤S33中的卷积神经网络,将融合特征图作为输出,输出通道数为μ2×kd 2的特征图,然后该特征图进行了特征重组,从而形成所述权重图W。注意此时权重图W的长度和宽度均为1/8尺度的。步骤S34可参阅图4的下分支。步骤S34首先对残差优化后的视差图的每个像素的领域进行集成,注意领域大小为(2r+1)×(2r+1),且(2r+1)×(2r+1)=kd 2。对每个像素的领域进行集成后,形成一个通道数为kd 2的特征图。对该特征图进行最近邻上采样,这样每个该特征图变为1/8尺度的。最近邻上采样保证了步骤S34公式的快速实施。最后,如图4所示,将权重图W与步骤S34的特征图逐元素相乘,然后沿通道求和,即可获取1/8分辨率的视差图。注意力上采样机制的益处在于:能够通过特征图辨识低分辨视差图中不同视差区域从而生成不同的权重进行上采样,对于视差平滑的区域,生成均值权重,进行离群值的剔除,对于视差不连续的区域,可以根据边缘的信息,生成对应的权重值,因此,上采样后的视差图相比于其他上采样方法,减少了边缘模糊的现象,同时也剔除了离群值。
S4:分别使用1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图,生成1/4尺度、1/2尺度、原尺度的视差图;
S5:构建损失函数,根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失,求和取得总的损失,然后进行反向传播,更新模型参数,当总的损失不再下降时,保存模型参数;
步骤S5中的损失函数为Smooth L1函数,将预测的视差值与标签值的差输入Smooth L1函数即可获得损失值,所述Smooth L1函数为:
Figure BDA0002556910250000091
具体而言,步骤S5的训练过程使用的优化器为Adam,学习率为0.001,使用的数据集是虚拟数据集SceneFlow,网络输出的不同尺度的视差图,均需要用插值上采样到和标签视差图一样的分辨率,然后再计算损失函数。网络在虚拟数据集上达到较好效果后,需要在真实数据集上进行迁移学习。
S6:实际应用场景中,模型载入预训练参数,开启双目摄像头,左摄像头和右摄像头同时曝光,获取图像,对获取的图像进行归一化处理,使其图像像素值在-1到1之间,将预处理后的图像输入模型中,根据实际需求,获取不同大小尺度的视差图,具体步骤包括:
S61、在计算平台上加载模型及其参数,判断需要生成的视差图的尺度;
S62、开启双目摄像头,左摄像头和右摄像头同时曝光,获取图像;
S63、对获取的图像进行归一化处理,其图像像素值在-1到1之间;
S64、将预处理后的图像输入模型,生成1/16分辨率的视差图;
S65、判断是否满足输出尺度需求,如果不满足,则执行上采样模块,如果满足,则直接返回视差图;
S66、重复S65步骤。
综上,本发明针对实际应用场景提出了一种基于共享特征和注意力上采样的双目视差匹配方法。该方法采用了创新性的网络架构,先生成低分辨率的视差图,然后再采用注意力上采样机制,逐步把低分辨率视差图上采样。该方法能在高端GPU上以66Fps的帧率实时运行,满足了实时的应用需求。该方法能够通过调整注意力上采样模块的数量,来进行速度和精度的权衡,推理速度范围为66~175Fps,从而尽可能地适应多种实施场景。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,包括下述步骤:
对获取的图像进行归一化处理,将双目视觉采集到的左、右图像经预处理后输入卷积神经网络,提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图;
采用左、右图像的1/16尺度特征图构建匹配代价矩阵,采用三维卷积神经网络计算匹配代价矩阵,生成视差可能性特征图,采用Soft-Argmin函数计算视差可能性特征图,生成1/16尺度的初始视差图;
分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层,进行特征提取,采用提取得到的特征估计出1/16尺度的视差残差图,采用提取的特征为每个像素估计出自适应权重,应用注意力机制,将自适应权重与视差图相对应的邻域视差值进行加权求和,实现上采样,生成1/8尺度的视差图;
分别输入1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图,分别生成1/4尺度、1/2尺度、原尺度的视差图;
构建损失函数,根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值,求和取得总的损失值,然后进行反向传播,更新模型参数,当总的损失值不再下降时,保存模型参数;
将预处理后的图像输入模型中,获取不同尺度的视差图。
2.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,所述卷积神经网络由二维卷积层堆叠而成,其中包括用于下采样的二维卷积层,用于输出多种尺度的特征图。
3.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,所述Soft-Argmin函数具体表示为:
Figure FDA0002556910240000011
其中,Dispi表示第i个像素的视差值,σ(·)表示一维的softmax函数,Pi表示视差可能性特征图上第i个像素的特征向量,dmax表示网络训练时指定的最大视差值。
4.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,所述生成1/8尺度的视差图,具体步骤包括:
分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入卷积神经网络,分别提取特征,生成特征图,然后将两者的特征图沿着特征图通道拼接起来,形成融合特征图;
将融合特征图输入卷积神经网络,生成1/16尺度的视差残差图,将视差残差图与初始视差图相加,得到优化后的视差图;
将融合特征图输入卷积神经网络,利用卷积神经网络,生成1/8尺度的自适应权重图,权重图中每个像素的权重向量,代表了上采样后1/8尺度视差图对上采样前1/16尺度视差图的注意力依赖;
取1/16尺度视差图每个像素邻域像素的视差值,与权重图中对应的权重向量进行加权求和,生成1/8尺度视差图。
5.根据权利要求4所述的基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,所述加权求和具体公式如下:
Figure FDA0002556910240000021
其中,U(pu)代表了1/8分辨率视差图的某个像素,pu的坐标为(x,y),W(pw)代表了权重图上对应的像素,pw的坐标为(i,j),Rd(pd,2r+1)为1/16分辨率视差图上对应像素的邻域,pd的坐标为(k,j),邻域大小为(2r+1)×(2r+1),
Figure FDA0002556910240000022
表示逐元素相乘操作,各坐标的对应关系为i=k=ceil(x/2),j=l=ceil(y/2)。
6.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,所述损失函数采用Smooth L1函数,具体表示为:
Figure FDA0002556910240000031
将预测的视差值与标签值的差输入Smooth L1函数即可获得损失值。
7.根据权利要求1所述的基于共享特征和注意力上采样的双目视差匹配方法,其特征在于,所述将预处理后的图像输入模型中,获取不同尺度的视差图,具体步骤包括:
在计算平台上加载模型及其参数,判断需要生成的视差图的尺度;
开启双目摄像头,左摄像头和右摄像头同时曝光,获取图像;
对获取的图像进行归一化处理,其图像像素值在-1到1之间;
将预处理后的图像输入模型,生成1/16尺度的视差图;
判断是否满足输出尺度需求,如果不满足,则执行上采样模块,如果满足,则直接返回视差图。
8.一种基于共享特征和注意力上采样的双目视差匹配系统,其特征在于,包括:归一化处理模块、特征提取模块、初始视差图生成模块、视差图生成模块、模型训练模块和测试模块;
所述归一化处理模块用于对获取的图像进行归一化处理;
所述特征提取模块用于将双目视觉采集到的左、右图像经预处理后输入卷积神经网络,提取1/2尺度、1/4尺度、1/8尺度、1/16尺度的特征图;
所述初始视差图生成模块用于采用左、右图像的1/16尺度特征图构建匹配代价矩阵,采用三维卷积神经网络计算匹配代价矩阵,生成视差可能性特征图,采用Soft-Argmin函数计算视差可能性特征图,生成1/16尺度的初始视差图;
所述视差图生成模块分别将1/16尺度的初始视差图和1/16尺度的图像特征图送入二维卷积层,进行特征提取,采用提取得到的特征估计出1/16尺度的视差残差图,采用提取的特征为每个像素估计出自适应权重,应用注意力机制,将自适应权重与视差图相对应的邻域视差值进行加权求和,实现上采样,生成1/8尺度的视差图;
分别输入1/8尺度、1/4尺度、1/2尺度的视差图和对应的图像特征图,分别生成1/4尺度、1/2尺度、原尺度的视差图;
所述模型训练模块用于构建损失函数,根据损失函数分别计算1/16尺度、1/8尺度、1/4尺度、1/2尺度和原尺度的预测视差图与标签的损失值,求和取得总的损失值,然后进行反向传播,更新模型参数,当总的损失不再下降时,保存模型参数;
所述测试模块用于将预处理后的图像输入模型中,获取不同尺度的视差图。
9.根据权利要求8所述的基于共享特征和注意力上采样的双目视差匹配系统,其特征在于,所述特征提取模块由残差卷积模块、空洞卷积模块和下采样卷积层组成。
CN202010594237.2A 2020-06-28 2020-06-28 基于共享特征和注意力上采样的双目视差匹配方法及系统 Active CN111915660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594237.2A CN111915660B (zh) 2020-06-28 2020-06-28 基于共享特征和注意力上采样的双目视差匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594237.2A CN111915660B (zh) 2020-06-28 2020-06-28 基于共享特征和注意力上采样的双目视差匹配方法及系统

Publications (2)

Publication Number Publication Date
CN111915660A true CN111915660A (zh) 2020-11-10
CN111915660B CN111915660B (zh) 2023-01-06

Family

ID=73227934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594237.2A Active CN111915660B (zh) 2020-06-28 2020-06-28 基于共享特征和注意力上采样的双目视差匹配方法及系统

Country Status (1)

Country Link
CN (1) CN111915660B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418336A (zh) * 2020-11-27 2021-02-26 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112509021A (zh) * 2020-12-11 2021-03-16 华南理工大学 一种基于注意力机制的视差优化方法
CN112802079A (zh) * 2021-01-19 2021-05-14 奥比中光科技集团股份有限公司 一种视差图获取方法、装置、终端和存储介质
CN112907645A (zh) * 2021-03-05 2021-06-04 重庆紫光华山智安科技有限公司 视差图获取方法、装置、训练方法、电子设备和介质
CN112949504A (zh) * 2021-03-05 2021-06-11 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN113658277A (zh) * 2021-08-25 2021-11-16 北京百度网讯科技有限公司 立体匹配方法、模型训练方法、相关装置及电子设备
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法
CN114998600A (zh) * 2022-06-17 2022-09-02 北京百度网讯科技有限公司 图像处理方法、模型的训练方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507232A (zh) * 2017-07-14 2017-12-22 天津大学 基于多尺度迭代的立体匹配算法
CN110070489A (zh) * 2019-04-30 2019-07-30 中国人民解放军国防科技大学 一种基于视差注意力机制的双目图像超分辨方法
CN110427968A (zh) * 2019-06-28 2019-11-08 武汉大学 一种基于细节增强的双目立体匹配方法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN110570402A (zh) * 2019-08-19 2019-12-13 浙江科技学院 基于边界感知神经网络的双目显著物体检测方法
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法
CN111325782A (zh) * 2020-02-18 2020-06-23 南京航空航天大学 一种基于多尺度统一的无监督单目视图深度估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507232A (zh) * 2017-07-14 2017-12-22 天津大学 基于多尺度迭代的立体匹配算法
CN110070489A (zh) * 2019-04-30 2019-07-30 中国人民解放军国防科技大学 一种基于视差注意力机制的双目图像超分辨方法
CN110427968A (zh) * 2019-06-28 2019-11-08 武汉大学 一种基于细节增强的双目立体匹配方法
CN110570402A (zh) * 2019-08-19 2019-12-13 浙江科技学院 基于边界感知神经网络的双目显著物体检测方法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法
CN111325782A (zh) * 2020-02-18 2020-06-23 南京航空航天大学 一种基于多尺度统一的无监督单目视图深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGHUI ZHANG ET AL: "Multi-Dimensional Residual Dense Attention Network for Stereo Matching", 《IEEE ACCESS》 *
刘建国 等: "一种基于PSMNet改进的立体匹配算法", 《华南理工大学学报(自然科学版)》 *
鲁志敏 等: "一种基于卷积神经网络的立体匹配算法设计", 《信息技术与网络安全》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418336A (zh) * 2020-11-27 2021-02-26 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112418336B (zh) * 2020-11-27 2024-01-23 广东电网有限责任公司肇庆供电局 一种电力线巡检影像密集匹配方法
CN112509021A (zh) * 2020-12-11 2021-03-16 华南理工大学 一种基于注意力机制的视差优化方法
CN112509021B (zh) * 2020-12-11 2023-08-22 华南理工大学 一种基于注意力机制的视差优化方法
CN112802079A (zh) * 2021-01-19 2021-05-14 奥比中光科技集团股份有限公司 一种视差图获取方法、装置、终端和存储介质
CN112907645A (zh) * 2021-03-05 2021-06-04 重庆紫光华山智安科技有限公司 视差图获取方法、装置、训练方法、电子设备和介质
CN112949504A (zh) * 2021-03-05 2021-06-11 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN112949504B (zh) * 2021-03-05 2024-03-19 深圳市爱培科技术股份有限公司 立体匹配方法、装置、设备及存储介质
CN113658277A (zh) * 2021-08-25 2021-11-16 北京百度网讯科技有限公司 立体匹配方法、模型训练方法、相关装置及电子设备
CN114998600A (zh) * 2022-06-17 2022-09-02 北京百度网讯科技有限公司 图像处理方法、模型的训练方法、装置、设备及介质
CN114998453A (zh) * 2022-08-08 2022-09-02 国网浙江省电力有限公司宁波供电公司 一种基于高尺度单元的立体匹配模型及其应用方法

Also Published As

Publication number Publication date
CN111915660B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN111915660B (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN111598778B (zh) 一种绝缘子图像超分辨率重建方法
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113724155B (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
CN112734931B (zh) 一种辅助点云目标检测的方法及系统
CN109447897B (zh) 一种真实场景图像合成方法及系统
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN112785636A (zh) 一种多尺度增强式的单目深度估计方法
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN115082928A (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN116597146A (zh) 一种针对激光雷达稀疏点云数据的语义分割方法
CN115471718A (zh) 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法
CN115830094A (zh) 一种基于无监督的立体匹配方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN114119974A (zh) 基于改进PSPNet的语义分割模型
CN113887385A (zh) 一种基于多视角注意力卷积池化的三维点云分类方法
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN114550137B (zh) 识别交通标志牌的方法、装置和电子设备
CN113298097B (zh) 基于卷积神经网络的特征点提取方法、设备及存储介质
CN117934308A (zh) 一种基于图卷积网络的轻量化自监督单目深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant