CN115239783A - 视差估计方法、装置、图像处理设备及存储介质 - Google Patents

视差估计方法、装置、图像处理设备及存储介质 Download PDF

Info

Publication number
CN115239783A
CN115239783A CN202110442253.4A CN202110442253A CN115239783A CN 115239783 A CN115239783 A CN 115239783A CN 202110442253 A CN202110442253 A CN 202110442253A CN 115239783 A CN115239783 A CN 115239783A
Authority
CN
China
Prior art keywords
cost
image
volume
input image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110442253.4A
Other languages
English (en)
Inventor
陈大伟
陈诗军
林登萍
李俊强
杜鹃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202110442253.4A priority Critical patent/CN115239783A/zh
Priority to EP22791089.0A priority patent/EP4328857A1/en
Priority to PCT/CN2022/088084 priority patent/WO2022222983A1/zh
Publication of CN115239783A publication Critical patent/CN115239783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种视差估计方法、装置、图像处理设备及存储介质。该方法包括基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层;基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;根据所述预估成本计算所述第一图像和所述第二图像对应的估计视差。

Description

视差估计方法、装置、图像处理设备及存储介质
技术领域
本申请涉及图像处理技术领域,例如涉及一种视差估计方法、装置、图像处理设备及存储介质。
背景技术
立体匹配对于自动驾驶、3D模型重建、物体检测和识别以及其他计算机视觉任务中是非常关键的技术环节。立体匹配的目的是通过匹配两个摄像机捕获的校正图像对中的像素来估计深度。而立体匹配的核心在于视差估计。深度卷积神经网络(ConvolutionalNeural Networks,CNN)可以将视差估计转化为端到端的监督学习任务,省去不必要的处理过程,提高立体匹配的效率。
目前用于视差估计的神经网络大多采用较小的卷积核以及下采样层以扩大网络的感受野,但实际的感受野比该方法理论上的感受野要小得多,并不能获得足够多的上下文信息和不同场景中特征的依赖关系,大多数卷积神经网络用于视差估计往往会丢失许多相关联信息,影响视差估计的精度,进而影响匹配精度。
发明内容
本申请提供一种视差估计方法、装置、图像处理设备及存储介质,以考虑不同尺度和不同层次特征的关联性,提高视差估计和立体匹配的精度。
本申请实施例提供一种视差估计方法,包括:
基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络(Pyramidal Convolution,PyConv)和空间金字塔池化层(Spatial Pyramid Pooling,SPP);
基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;
根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;
根据所述预估成本计算所述第一图像和所述第二图像对应的估计视差。
本申请实施例还提供了一种视差估计装置,包括:
第一体积计算模块,设置为基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层;
第二体积计算模块,设置为基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;
成本估计模块,设置为根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;
视差估计模块,设置为根据所述预估成本计算所述第一图像和所述第二图像对应的视差。
本申请实施例还提供了一种图像处理设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的视差估计方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的视差估计方法。
附图说明
图1为一实施例提供的一种视差估计方法的流程图;
图2为一实施例提供的一种视差估计过程的示意图;
图3为一实施例提供的一种计算直接成本体积的示意图;
图4为一实施例提供的一种更新底层特征匹配成本的示意图;
图5为另一实施例提供的一种视差估计过程的示意图;
图6为一实施例提供的一种视差估计装置的结构示意图;
图7为一实施例提供的一种图像处理设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
本申请实施例提供一种视差估计方法。图1为一实施例提供的一种视差估计方法的流程图,如图1所示,本实施例提供的方法包括步骤110-140。
在步骤110中,基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层。
本实施例中,输入图像包括由不同位置的图像传感器采集到的两张图像,分别记为第一图像和第二图像,例如,输入图像可以是双目立体视觉中的左图和右图。第一网络模型用于提取两张输入图像的多尺度特征,以供计算两张输入图像的直接成本体积。第一网络模型包括CNN、PyConv和SPP,其中,CNN用于分别提取第一图像和第二图像的特征;PyConv用于分别对第一图像和第二图像的特征进行卷积操作,得到第一图像和第二图像各自的多尺度特征;SPP用于分别对第一图像和第二图像各自的多尺度特征进行聚合,从而得到第一图像和第二图像的匹配成本(也可以称为匹配代价),两张输入图像的匹配成本拼接在一起即可得到输入图像的直接成本体积。通过采用金字塔卷积网络,集成不同尺度的卷积核,可以提升多个视觉任务的性能。在步骤120中,基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络。
本实施例中,第二网络模型用于提取两张输入图像的底层特征,以供计算两张输入图像的相关联成本体积。第二网络模型包括残差网络,通过残差网络提取第一图像和第二图像各自的底层特征,分别得到第一图像和第二图像的底层特征匹配成本,两张输入图像的底层特征匹配成本拼接在一起即可得到输入图像的相关联成本体积。
需要说明的是,步骤110和步骤120不区分先后顺序,通常可以并行执行。在步骤130中,根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本。
本实施例中,输入图像的预估成本用于衡量第一图像和第二图像中待匹配的像素与候选像素之间的相关性。两个像素的预估成本越小,则两个像素的相关性越大,这两个像素是同名点的概率也越大。本实施例中,两张输入图像的预估成本是根据两张输入图像的相关联成本体积和直接成本体积综合确定的。例如,将相关联成本体积和直接成本体积的均值作为输入图像整体的成本体积(Cost Volume),并对成本体积进行聚合得到预估成本。确定预估成本的过程也可以理解为对相关联成本体积和直接成本体积进行成本聚合的过程。
在步骤140中,根据所述预估成本计算所述第一图像和所述第二图像对应的估计视差。
本实施例中,计算估计视差的过程可以理解为视差回归的过程,预估成本实质为一个由成本值构成的矩阵,根据该矩阵可以确定每个像素的最优视差。通常情况下,对于某个像素在所有视差下的成本值中,选择最小的成本值所对应的视差作为最优视差。本实施例通过根据两张输入图像的相关联成本体积和直接成本体积综合确定预估成本,能够准确的反映像素之间的相关性,在此基础上可得到准确的估计视差,进而提高立体匹配的准确性。
图2为一实施例提供的一种视差估计过程的示意图。本实施例的视差估计方法可适用于双目立体视觉中的立体匹配的场景。如图2所示,双目图像即指第一图像和第二图像,这两张输入图像分别经过第一网络模型和第二网络模型的处理,以分别得到直接成本体积和相关联成本体积。
其中,步骤(1)提取的是第一图像和第二图像的多尺度特征,用于计算匹配成本,该步骤可通过第一网络模型实现;
步骤(2)是将第一图像和第二图像的匹配成本拼接起来,得到直接成本体积(实质为一个由匹配成本的值构成的矩阵);
步骤(3)提取的是第一图像和第二图像的底层特征,用于计算底层特征匹配成本,该步骤可通过第二网络模型实现;
步骤(4)是将相关联匹配成本拼接起来,得到相关联成本体积(实质为一个由底层特征匹配成本的值构成的矩阵);需要说明的是,在此步骤中可以对底层特征匹配成本进行分组,以组为单位,将底层特征匹配成本转换为相关联成本值,目的是充分考虑像素间的关联,体现全局特征;
步骤(5)是根据直接成本体积和相关联成本体积综合确定双目图像整体的成本体积;
步骤(6)为成本聚合的过程,即根据双目图像的成本体积确定最终的预估成本;
步骤(7)为视差回归的过程,即根据预估成本确定每个像素的最优视差值。
本实施例的视差估计方法,在计算匹配成本的过程中引入金字塔卷积网络,可以提取更丰富的特征,获得不同尺度的特征细节;并且结合根据底层特征构造的相关联成本体积,综合确定预估成本,充分复用特征,考虑了像素之间的关联性,从而提高视差估计和立体匹配精度及性能。
在一实施例中,步骤110,包括:
步骤1110:基于卷积神经网络分别提取第一图像和第二图像的特征信息;
步骤1120:基于金字塔卷积网络分别对第一图像和第二图像的特征信息进行卷积运算,得到第一图像的多尺度特征信息以及第二图像的多尺度特征信息;
步骤1130:基于空间金字塔池化层分别聚合第一图像的多尺度特征信息以及第二图像的多尺度特征信息,得到第一图像的匹配成本以及第二图像的匹配成本;
步骤1140:将第一图像的匹配成本与第二图像的匹配成本拼接,得到输入图像的直接成本体积。
本实施例中,基于权值共享的卷积神经网络分别提取第一图像和第二图像的特征,第一图像的特征信息记为Fl,第二图像的特征信息记为Fr;Fl和Fr分别经过金字塔卷积网络,金字塔卷积网络的卷积核可设置为[3,5,7,9],以获得多尺度特征信息;然后使用空间金字塔池化层聚合多尺度特征信息;最后,将第一图像的所有多尺度特征信息拼接起来,作为第一图像的匹配成本Cl,将第二图像的所有多尺度特征信息拼接起来,作为第二图像的匹配成本Cr;在此基础上,将同一视差水平的Cl和Cr拼接起来得到直接成本体积。
图3为一实施例提供的一种计算直接成本体积的示意图。如图3所示,第一图像的匹配成本Cl是由第一图像的n种视差下的特征信息拼接得到,第二图像的匹配成本Cr是由第二图像的n种视差下的特征信息拼接得到;然后将同一视差水平的匹配成本拼接起来得到直接成本体积。
在一实施例中,步骤120,包括:
步骤1210:基于残差网络分别获取第一图像和第二图像的底层特征匹配成本;
步骤1220:分别将第一图像的底层特征匹配成本以及第二图像的底层特征匹配成本分分组得到至少一个相关联成本信息组,每一个相关联成本信息组中包括至少一个底层特征匹配成本;
步骤1230:更新每一个相关联成本信息组的底层特征匹配成本;
步骤1240:将第一图像的更新后的底层特征匹配成本与第二图像的更新后的底层特征匹配成本拼接,得到相关联成本体积;
重复上述的分组、更新和拼接操作(即步骤1220-1240)预设次数后,将得到的相关联成本体积作为输入图像的相关联成本体积。
本实施例中,基于权值共享的残差网络分别提取第一图像和第二图像的底层特征,以获得第一图像和第二图像的底层特征匹配成本,其中,残差网络例如为卷积核为3×3的浅层残差网络,由于残差网络的网络层较少,可以较完整地保留输入图像的底层特征信息。在此基础上,利用底层特征匹配成本计算相关联成本体积,具体包括:
对第一图像和第二图像的底层特征匹配成本分别进行分组,以组为单位,更新每一个相关联成本信息组的底层特征匹配成本,即,将每一个相关联成本信息组的底层特征匹配成本转换为相关联成本值,经过预设的迭代次数后得到的相关联成本值构成的矩阵即为相关联成本体积。
图4为一实施例提供的一种更新底层特征匹配成本的示意图。以对第一图像的处理过程为例,第一图像经过残差网络后得到的底层特征匹配成本表示为c1,c2,...,cn,将其分为k个相关联成本信息组,第一个相关联成本信息组包括c1,c2,...,ca,该相关联成本信息组的底层特征匹配成本都被更新为相关联成本值r1;第二个相关联成本信息组包括ca+1,ca+2,...,ci,该相关联成本信息组的底层特征匹配成本都被更新为相关联成本值r2,以此类推,第k个相关联成本信息组的底层特征匹配成本都被更新为相关联成本值rk;同理,对第二图像也进行上述操作,得到第二图像更新后的底层特征匹配成本;然后将第一图像更新后的底层特征匹配成本与第二图像更新后的底层特征匹配成本拼接,得到两张输入图像的相关联成本体积。
在一实施例中,步骤1230,包括:
计算每一个相关联成本信息组的底层特征匹配成本的均值;
将每一个相关联成本信息组的底层特征匹配成本替换为该相关联成本信息组的底层特征匹配成本的均值。
本实施例中,通过对每一个相关联成本信息组的底层特征匹配成本求均值,实现每一个相关联成本信息组的底层特征匹配成本的更新。参考图3,第一个相关联成本信息组包括a个底层特征匹配成本值,这些底层特征匹配成本值的均值
Figure BDA0003035582090000054
由此将第一个相关联
成本信息组的a个底层特征匹配成本值都更新为r1,同理,可将各相关联成本信息组的底层特征匹配成本的均值,分别扩展至对应的相关联成本信息组中的底层特征匹配成本,从而保持底层特征匹配成本值的个数不变,得到第一图像更新后的底层特征匹配成本以及第二图像更新后的底层特征匹配成本;最后将同一视差水平更新后的底层特征匹配成本拼接起来得到两张输入图像的相关联成本体积。
图5为另一实施例提供的一种视差估计过程的示意图。如图5所示,一方面,第一图像和第二图像分别输入至权值共享的CNN、Pyconv以及SPP,得到直接成本体积;另一方面,第一图像和第二图像分别输入至权值共享的残差网络,得到相关联成本体积,对直接成本体积和相关联成本体积进行成本聚合,可得到两张输入图像的预估成本。在一实施例中,成本聚合的过程可使用三维CNN实现。本实施例在确定预估成本的过程中引入了相关联成本体积,不会丢失完全相关联信息,增加了相关联信息的利用率。
需要说明的是,计算直接成本体积的过程是根据两个像素邻域内一定大小的窗口内的像素信息来计算的,只考虑了第一图像和第二图像的局部信息,使得成本体积容易受到图像噪声的影响,尤其是在图像处于弱纹理或重复纹理区域等时,直接成本体积无法准确反映像素之间的相关性,即,真实同名点对应的直接匹配成本并不一定是最小值。而上述实施例结合相关联成本体积,建立邻接像素之间的联系,对底层特征匹配成本的矩阵进行优化,使得相邻像素具有连续的视差值,这种优化是全局的,每个像素在某个视差下的底层特征匹配成本值都会根据其相邻像素在同一视差值或者附近视差值下的成本值更新,从而使所有底层特征匹配成本值能够准确反映真实像素的相关性,在此基础上能够得到更准确的最优视差,提高视差估计和立体匹配的准确性。
在一实施例中,相关联成本信息组的个数为:
Figure BDA0003035582090000051
其中,group表示相关联成本信息组的个数,Cnum表示底层特征匹配成本的个数,epoch表示当前迭代次数,epoch的最大值等于所述预设次数。
本实施例中,对于第二网络模型,在分组过程中引入网络模型参数epoch,用于确定每次迭代过程中相关联成本信息组的个数。例如,第一图像的底层特征匹配成本的个数Cnum=200,在第epoch=10次迭代过程中,由于
Figure BDA0003035582090000052
则第一图像的底层特征匹配成本被分为44个相关联成本信息组;在第epoch=12次迭代过程中,由于
Figure BDA0003035582090000053
则第一图像的底层特征匹配成本被分为200个相关联成本信息组。迭代预设次数后得到的相关联成本体积即为两张输入图像的相关联成本体积。可见,在迭代的前期,随着迭代次数的增加,相关联成本信息组的个数也增加,每个相关联成本信息组内的底层特征匹配成本的数量不断减少,即矩阵优化的粒度在减小;在迭代的后期,每个相关联成本信息组内只包括一个底层特征匹配成本,从而逐步提高相关联成本体积的精确性。
在一实施例中,步骤130,包括:
步骤1310:将所述相关联成本体积和所述直接成本体积的均值作为所述输入图像的成本体积;
步骤1320:基于三维卷积神经网络对所述成本体积进行成本聚合,得到所述输入图像的预估成本。
本实施例中,对直接成本体积与相关联成本体积取均值得到最终的成本体积。通过在确定预估成本的过程中引入相关联成本体积,不会丢失完全相关联信息,增加了相关联信息的利用率。
在一实施例中,所述第一图像和所述第二图像对应的视差为:
Figure BDA0003035582090000061
其中,
Figure BDA0003035582090000062
表示估计视差,Dmax表示最大视差,d表示视差,σ(·)表示Softmax函数,cd表示预估成本。其中,Dmax和d为视差回归算法中的已知量。在此基础上可以得到准确的估计视差,提高视差估计以及立体匹配的准确性。
本申请实施例还提供一种视差估计装置。图6为一实施例提供的一种视差估计装置的结构示意图。如图6所示,所述视差估计装置包括:
第一体积计算模块210,设置为基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层;
第二体积计算模块220,设置为基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;
成本估计模块230,设置为根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;
视差估计模块240,设置为根据所述预估成本计算所述第一图像和所述第二图像对应的视差。
本实施例的视差估计装置,在计算匹配成本的过程中引入金字塔卷积网络,可以提取更丰富的特征,获得不同尺度的特征细节;并且在匹配成本的基础上,还结合由底层特征构造的相关联成本体积,综合确定预估成本,充分复用特征,考虑了像素之间的关联性,从而提高视差估计和立体匹配精度及性能。
在一实施例中,第一体积计算模块210,包括:
特征提取单元,设置为基于所述卷积神经网络分别提取所述第一图像和所述第二图像的特征信息;
卷积单元,设置为基于所述金字塔卷积网络分别对所述第一图像和所述第二图像的特征信息进行卷积运算,得到所述第一图像的多尺度特征信息以及所述第二图像的多尺度特征信息;
特征聚合单元,设置为基于所述空间金字塔池化层分别聚合所述第一图像的多尺度特征信息以及所述第二图像的多尺度特征信息,得到所述第一图像的匹配成本以及所述第二图像的匹配成本;
第一拼接单元,设置为将所述第一图像的匹配成本与所述第二图像的匹配成本拼接,得到所述输入图像的直接成本体积。
在一实施例中,第二体积计算模块220,包括:
成本计算单元,设置为基于所述残差网络分别获取所述第一图像和所述第二图像的底层特征匹配成本;
分组单元,设置为分别将所述第一图像的底层特征匹配成本以及所述第二图像的底层特征匹配成本分分组得到至少一个相关联成本信息组,每一个相关联成本信息组中包括至少一个底层特征匹配成本;
更新单元,设置为更新每一个相关联成本信息组的底层特征匹配成本;
第二拼接单元,设置为将所述第一图像的更新后的底层特征匹配成本与所述第二图像的更新后的底层特征匹配成本拼接,得到相关联成本体积;
重复执行单元,设置为重复上述的分组、更新和拼接操作预设次数后,将得到的相关联成本体积作为所述输入图像的相关联成本体积。
在一实施例中,更新单元,设置为:
计算每一个相关联成本信息组的底层特征匹配成本的均值;
将每一个相关联成本信息组的底层特征匹配成本替换为该相关联成本信息组的底层特征匹配成本的均值。
在一实施例中,相关联成本信息组的个数为:
Figure BDA0003035582090000071
其中,group表示相关联成本信息组的个数,Cnum表示底层特征匹配成本的个数,epoch表示当前迭代次数,epoch的最大值等于所述预设次数。
在一实施例中,成本估计模块230,包括:
成本体积计算单元,设置为将所述相关联成本体积和所述直接成本体积的均值作为所述输入图像的成本体积;
成本体积聚合单元,设置为基于三维卷积神经网络对所述成本体积进行成本聚合,得到所述输入图像的预估成本。
在一实施例中,所述第一图像和所述第二图像对应的视差为:
Figure BDA0003035582090000072
其中,
Figure BDA0003035582090000073
表示估计视差,Dmax表示最大视差,d表示视差,σ(·)表示Softmax函数,cd表示预估成本。
本实施例提出的视差估计装置与上述实施例提出的视差估计方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述任意实施例,并且本实施例具备与执行视差估计方法相同的有益效果。
本申请实施例还提供了一种图像处理设备,图7为一实施例提供的一种图像处理设备的硬件结构示意图,如图7所示,本申请提供的图像处理设备,包括存储器32、处理器31以及存储在存储器上并可在处理器上运行的计算机程序,处理器31执行所述程序时实现上述的视差估计方法。
图像处理设备还可以包括存储器32;该图像处理设备中的处理器31可以是一个或多个,图7中以一个处理器31为例;存储器32用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器31执行,使得所述一个或多个处理器31实现如本申请实施例中所述的视差估计方法。
图像处理设备还包括:通信装置33、输入装置34和输出装置35。
图像处理设备中的处理器31、存储器32、通信装置33、输入装置34和输出装置35可以通过总线或其他方式连接,图7中以通过总线连接为例。
输入装置34可用于接收输入的数字或字符信息,以及产生与图像处理设备的用户设置以及功能控制有关的按键信号输入。输出装置35可包括显示屏等显示设备。
通信装置33可以包括接收器和发送器。通信装置33设置为根据处理器31的控制进行信息收发通信。
存储器32作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序以及模块,如本申请实施例所述视差估计方法对应的程序指令/模块(例如,视差估计装置中的第一体积计算模块310、第二体积计算模块320、成本估计模块330以及视差估计模块340)。存储器32可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据图像处理设备的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器32可进一步包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至图像处理设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中任一所述的视差估计方法。该方法,包括:基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层;基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;根据所述预估成本计算所述第一图像和所述第二图像对应的估计视差。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。
本领域内的技术人员应明白,术语用户终端涵盖任何适合类型的无线用户设备,例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。
一般来说,本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本申请不限于此。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(Read-Only Memory,ROM)、随机访问存储器(Random Access Memory,RAM)、光存储器装置和系统(数码多功能光碟(Digital Video Disc,DVD)或光盘(Compact Disk,CD)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑器件(Field-Programmable Gate Array,FGPA)以及基于多核处理器架构的处理器。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本申请的范围。因此,本申请的恰当范围将根据权利要求确定。

Claims (10)

1.一种视差估计方法,其特征在于,包括:
基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层;
基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;
根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;
根据所述预估成本计算所述第一图像和所述第二图像对应的估计视差。
2.根据权利要求1所述的方法,其特征在于,所述基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,包括:
基于所述卷积神经网络分别提取所述第一图像和所述第二图像的特征信息;
基于所述金字塔卷积网络分别对所述第一图像和所述第二图像的特征信息进行卷积运算,得到所述第一图像的多尺度特征信息以及所述第二图像的多尺度特征信息;
基于所述空间金字塔池化层分别聚合所述第一图像的多尺度特征信息以及所述第二图像的多尺度特征信息,得到所述第一图像的匹配成本以及所述第二图像的匹配成本;
将所述第一图像的匹配成本与所述第二图像的匹配成本拼接,得到所述输入图像的直接成本体积。
3.根据权利要求1所述的方法,其特征在于,所述基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,包括:
基于所述残差网络分别获取所述第一图像和所述第二图像的底层特征匹配成本;
分别将所述第一图像的底层特征匹配成本以及所述第二图像的底层特征匹配成本分组得到至少一个相关联成本信息组,每一个相关联成本信息组中包括至少一个底层特征匹配成本;
更新每一个相关联成本信息组的底层特征匹配成本;
将所述第一图像的更新后的底层特征匹配成本与所述第二图像的更新后的底层特征匹配成本拼接,得到相关联成本体积;
重复上述的分组、更新和拼接操作预设次数后,将得到的相关联成本体积作为所述输入图像的相关联成本体积。
4.根据权利要求3所述的方法,其特征在于,所述更新每一个相关联成本信息组的底层特征匹配成本,包括:
计算每一个相关联成本信息组的底层特征匹配成本的均值;
将每一个相关联成本信息组的底层特征匹配成本替换为该相关联成本信息组的底层特征匹配成本的均值。
5.根据权利要求3所述的方法,其特征在于,相关联成本信息组的个数为:
Figure FDA0003035582080000011
其中,group表示相关联成本信息组的个数,Cnum表示底层特征匹配成本的个数,epoch表示当前迭代次数,epoch的最大值等于所述预设次数。
6.根据权利要求1所述的方法,其特征在于,根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本,包括:
将所述相关联成本体积和所述直接成本体积的均值作为所述输入图像的成本体积;
基于三维卷积神经网络对所述成本体积进行成本聚合,得到所述输入图像的预估成本。
7.根据权利要求1所述的方法,其特征在于,所述第一图像和所述第二图像对应的视差为:
Figure FDA0003035582080000021
Figure FDA0003035582080000022
表示估计视差,Dmax表示最大视差,d表示视差,σ(·)表示Softmax函数,cd表示预估成本。
8.一种视差估计装置,其特征在于,包括:
第一体积计算模块,设置为基于第一网络模型对输入图像进行处理,得到所述输入图像的直接成本体积,所述输入图像包括第一图像和第二图像,所述第一网络模型包括卷积神经网络、金字塔卷积网络和空间金字塔池化层;
第二体积计算模块,设置为基于第二网络模型对所述输入图像进行处理,得到所述输入图像的相关联成本体积,所述第二网络模型包括残差网络;
成本估计模块,设置为根据所述相关联成本体积和所述直接成本体积确定所述输入图像的预估成本;
视差估计模块,设置为根据所述预估成本计算所述第一图像和所述第二图像对应的视差。
9.一种图像处理设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的视差估计方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的视差估计方法。
CN202110442253.4A 2021-04-23 2021-04-23 视差估计方法、装置、图像处理设备及存储介质 Pending CN115239783A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110442253.4A CN115239783A (zh) 2021-04-23 2021-04-23 视差估计方法、装置、图像处理设备及存储介质
EP22791089.0A EP4328857A1 (en) 2021-04-23 2022-04-21 Disparity estimation method and apparatus, and image processing device and storage medium
PCT/CN2022/088084 WO2022222983A1 (zh) 2021-04-23 2022-04-21 视差估计方法、装置、图像处理设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110442253.4A CN115239783A (zh) 2021-04-23 2021-04-23 视差估计方法、装置、图像处理设备及存储介质

Publications (1)

Publication Number Publication Date
CN115239783A true CN115239783A (zh) 2022-10-25

Family

ID=83666962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110442253.4A Pending CN115239783A (zh) 2021-04-23 2021-04-23 视差估计方法、装置、图像处理设备及存储介质

Country Status (3)

Country Link
EP (1) EP4328857A1 (zh)
CN (1) CN115239783A (zh)
WO (1) WO2022222983A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN110070574B (zh) * 2019-04-29 2023-05-02 麦特维斯(武汉)科技有限公司 一种基于改进PSMNet的双目视觉立体匹配方法
CN111462212B (zh) * 2020-03-26 2023-02-10 华南理工大学 一种针对双目测距的立体匹配成本体积构造的方法
CN111582437B (zh) * 2020-04-03 2023-06-20 华南理工大学 一种视差回归深度神经网络的构造方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN112150521B (zh) * 2020-08-24 2024-05-14 江苏大学 一种基于PSMNet优化的图像立体匹配方法

Also Published As

Publication number Publication date
EP4328857A1 (en) 2024-02-28
WO2022222983A1 (zh) 2022-10-27

Similar Documents

Publication Publication Date Title
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
CN108537837A (zh) 一种深度信息确定的方法及相关装置
KR20180087994A (ko) 스테레오 매칭 방법 및 영상 처리 장치
CN112200057B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN110443874B (zh) 基于卷积神经网络的视点数据生成方法和装置
CN108389172B (zh) 用于生成信息的方法和装置
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
Su et al. Uncertainty guided multi-view stereo network for depth estimation
CN115908992B (zh) 双目立体匹配的方法、装置、设备以及存储介质
CN110942097A (zh) 基于单像素探测器的免成像分类方法和系统
CN114677422A (zh) 深度信息生成方法、图像虚化方法和视频虚化方法
Popović et al. Volumetric occupancy mapping with probabilistic depth completion for robotic navigation
CN112270701A (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN111382654B (zh) 图像处理方法和装置以及存储介质
WO2024056030A1 (zh) 一种图像深度估计方法、装置、电子设备及存储介质
CN113269823A (zh) 深度数据获取方法、装置、存储介质与电子设备
CN115866229B (zh) 多视角图像的视角转换方法、装置、设备和介质
EP2947626B1 (en) Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel
CN115239783A (zh) 视差估计方法、装置、图像处理设备及存储介质
CN116258756A (zh) 一种自监督单目深度估计方法及系统
CN116182894A (zh) 一种单目视觉里程计方法、装置、系统及存储介质
CN114372944B (zh) 一种多模态和多尺度融合的候选区域生成方法及相关装置
Zhao et al. Distance transform pooling neural network for lidar depth completion
CN115311168A (zh) 面向多视角视觉系统的深度估计方法、电子设备及介质
Xu et al. A real-time semi-dense depth-guided depth completion network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination