CN112991422A - 一种基于空洞空间金字塔池化的立体匹配方法及系统 - Google Patents

一种基于空洞空间金字塔池化的立体匹配方法及系统 Download PDF

Info

Publication number
CN112991422A
CN112991422A CN202110461480.1A CN202110461480A CN112991422A CN 112991422 A CN112991422 A CN 112991422A CN 202110461480 A CN202110461480 A CN 202110461480A CN 112991422 A CN112991422 A CN 112991422A
Authority
CN
China
Prior art keywords
feature map
feature
parallax
disparity
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110461480.1A
Other languages
English (en)
Inventor
蔡绍滨
王宇昊
张妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yunzhisheng Intelligent Technology Co ltd
Original Assignee
Hangzhou Yunzhisheng Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yunzhisheng Intelligent Technology Co ltd filed Critical Hangzhou Yunzhisheng Intelligent Technology Co ltd
Priority to CN202110461480.1A priority Critical patent/CN112991422A/zh
Publication of CN112991422A publication Critical patent/CN112991422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明给出了一种基于空洞空间金字塔池化的立体匹配方法及系统,包括对视点图像使用卷积神经网络进行特征提取,得到特征图;基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对特征图提取像素的上下文信息;将得到的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;基于3D卷积的方式,用3D卷积层对匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,最终得到视差图。有效的保存了特征图的维度,从而在之后的处理中有效地提取到所需要的图像特征,提高了处理的适应性,提升了立体匹配精度。

Description

一种基于空洞空间金字塔池化的立体匹配方法及系统
技术领域
本发明涉及图像处理技术领域,尤其是一种基于空洞空间金字塔池化的立体匹配方法及系统。
背景技术
双目立体视觉系统可以根据左右相机拍摄得到的场景图像,恢复图像中物体的位置、外部特征等信息,还可以恢复出场景里障碍物的位置。其本质是从二维图像中恢复出三维信息的问题。场景中的点在图像上的位置由摄像机成像的几何模型决定。
为了从二维图像中获取场景中物体的深度信息,双目立体视觉系统在左右两个位置放置相同参数的摄像机,从不同角度获取同一物体的图像信息,计算左右摄像机获得图片的相关性,获取隐含的视差信息,根据视差值计算图像的深度信息,即双目立体成像。这一过程模拟了人眼的视觉系统。
现有一些开放性的机构提出了带有ground truth的双目视觉图像集,因此基于有监督的机器学习方法在立体匹配上得到了广泛的发展。现有的一些基于深度学习的立体匹配方法使用卷积神经网络学习匹配代价,再将匹配代价融合到传统立体匹配方法中。这种算法依然存在人工设计的步骤,立体匹配算法相对复杂,鲁棒性较弱,处理新的场景图像时适应能力差,没有充分发挥卷积神经网络强大的特征学习能力。现阶段立体视觉的主流研究方向是构建一个端到端的卷积神经网络。
发明内容
本发明提出了一种基于空洞空间金字塔池化的立体匹配方法及系统,以解决上文提到的现有技术的缺陷。
在一个方面,本发明提出了一种基于空洞空间金字塔池化的立体匹配方法,该方法包括以下步骤:
S1:对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
S2:基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
S3:将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
S4:基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
以上方法通过空间金字塔池化方法有效地提取到像素的上下文信息,再利用空洞卷积可以更有效地提取像素的上下文信息,从而在神经网络上用不同大小的扩张率抓取多尺度信息,在将得到的特征图进行保存时,区别于MC-CNN算法中使用计算特征向量的点积的方式用以组合左右输入图像的特征图,而是利用堆叠的方式,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免丢失图像的特征信息。
在具体的实施例中,以上步骤还包括步骤S5:基于视差回归方法对所述视差图进行精细化。
在具体的实施例中,步骤S1中的特征提取使用了3个3×3的卷积核。相比于传统的方法中使用7×7大小的卷积核,两者的感受是一样大的,利用本发明的方案可以减少参数的数量,降低计算的复杂度。
在具体的实施例中,在进行所述特征提取前,还包括将左视图和右视图下采样为原来图像尺寸的1/2。用以降低图像的分辨率,提高网络的运行效率。
在具体的实施例中,使用卷积神经网络进行特征提取包括:对所述左视图和右视图分别在每一个卷积操作结束后,添加批次归一化层和ReLU层。用以提高整个神经网络对于特征的学习能力,加快神经网络的收敛速度。
在具体的实施例中,空洞卷积和空间金字塔池化方法具体包括:利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取,同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。
在具体的实施例中,步骤S3中取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器,具体步骤包括:
分别从所述左视点特征图
Figure 953295DEST_PATH_IMAGE002
和所述右视点特征图
Figure 991658DEST_PATH_IMAGE004
中取一个特征图维度, 记为第i维的特征图
Figure 594678DEST_PATH_IMAGE006
Figure 503728DEST_PATH_IMAGE008
取一个视差值d对所述特征图
Figure 166791DEST_PATH_IMAGE010
Figure 161291DEST_PATH_IMAGE012
分别提取特征子图,得到所述视 差值d下第i维的特征图的特征子图;
遍历视差搜索范围内的所有视差值,得到第i维的特征图的所有特征子图;
遍历所有特征图,将得到的所有特征子图构成匹配代价容器。
在优选的实施例中,视差回归方法包括:
采用GC-Net提出的视差回归方法,计算出每个像素在不同视差下的匹配代价C d , 通过softmax运算,从匹配代价C d 计算出每个视差d的概率,最后对每个视差d加权求和得到 视差预测值
Figure 570932DEST_PATH_IMAGE014
,所述视差预测值
Figure 334488DEST_PATH_IMAGE016
的计算公式为:
Figure 168452DEST_PATH_IMAGE018
其中
Figure 650249DEST_PATH_IMAGE020
表示对匹配代价C d 进行softmax运算,D max表示视差搜索范围 的最大值。
在优选的实施例中,视差回归方法使用了smoothL1损失函数,具体方法包括:
记所述视差图的图像上具有视差值标记的点的个数为N
Figure 860651DEST_PATH_IMAGE022
表示实际的视差值,
Figure 478714DEST_PATH_IMAGE024
表示预测的视差值,i为视差值标记点,
Figure 952420DEST_PATH_IMAGE026
表示视差值标记点i的实际的视差值,
Figure 718251DEST_PATH_IMAGE028
表示视差值标记点i的预测的视差值,有
Figure 670027DEST_PATH_IMAGE030
其中,L是平均损失函数,smoothL1是损失函数,x是损失函数smoothL1的自变量,通过梯度下降算法使得所述损失函数的值一直降低,不断迭代直到所述损失函数的值不再下降,此时所述视差回归方法达到收敛,取此时的视差图为最终的视差图。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出一种基于空洞空间金字塔池化的立体匹配系统,该系统包括:
视点图像特征提取模块:配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
空洞空间金字塔池化模块:配置用于基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
匹配代价容器构建模块:配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
3D卷积模块:配置用于基于3D卷积的方式,用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
在具体的实施例中,该系统还包括:
视差回归模块:配置用于基于视差回归方法对所述视差图进行精细化。
本发明通过对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;基于3D卷积的方式,用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,最终得到视差图。利用空洞空间金字塔池化的方法,在神经网络上用不同大小的扩张率抓取图像中多尺度的信息,再采用堆叠的方式保存特征图,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免了丢失图像的特征信息。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配方法的流程图;
图2是本发明的一个具体的实施例的空洞空间金字塔池化模块示意图;
图3是本发明的一个具体的实施例的构建匹配代价容器的示意图;
图4是本发明的一个具体的实施例的编码解码结构的3D卷积示意图;
图5是本发明的一个具体的实施例的双线插值示意图;
图6是本发明的一个具体的实施例的KITTI 2012第5张彩色视差图示意图;
图7是本发明的一个具体的实施例的KITTI 2012第5张误点图示意图;
图8是本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配系统的框架图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配方法,图1示出了根据本发明的实施例的一种基于空洞空间金字塔池化的立体匹配方法的流程图。如图1所示,该方法包括以下步骤:
S101:对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图。
在具体的实施例中,在进行所述特征提取前,还包括将左视图和右视图下采样为原来图像尺寸的1/2。
在具体的实施例中,步骤S1中的特征提取使用了3个3×3的卷积核,同时使用了残差网络块来进行特征提取。
在具体的实施例中,使用卷积神经网络进行特征提取包括:对所述左视图和右视图分别在每一个卷积操作结束后,添加批次归一化层和ReLU层。
S102:基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度。
在具体的实施例中,空洞卷积和空间金字塔池化方法具体包括:利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取,同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。
图2示出了本发明的一个具体的实施例的空洞空间金字塔池化模块示意图,在本实施例中,使用并行的4个不同层级的空洞卷积操作和一个平均池化层对左视点特征图和右视点特征图进行操作,这五个层级分别为:
一个卷积核为1×1扩张率为1的卷积层201、一个卷积核为3×3扩张率为6的卷积层202、一个卷积核为3×3扩张率为12的卷积层203、一个卷积核为3×3扩张率为18的卷积层204和一个平均池化层205,最后将这五个层级提取出来的特征图维度按照左视点特征图和右视点特征图对应进行堆叠,得到保存了多种尺度的上下文信息的特征图。
S103:将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器。
图3示出了本发明的一个具体的实施例的构建匹配代价容器的示意图,在本实施例中,左右视点特征图分别为32通道,其中H为影像高度、W为影像宽度、D为视差搜索范围,具体步骤包括:
分别从所述左视点特征图
Figure 408175DEST_PATH_IMAGE032
和所述右视点特征图
Figure 583942DEST_PATH_IMAGE004
中取一个特征图维度, 记为第i维的特征图
Figure 43261DEST_PATH_IMAGE034
Figure 533148DEST_PATH_IMAGE036
取一个视差值d对所述特征图
Figure 188120DEST_PATH_IMAGE037
Figure 3629DEST_PATH_IMAGE039
分别提取特征子图,得到所述视 差值d下第i维的特征图的特征子图,此时
Figure 681735DEST_PATH_IMAGE037
取到的特征子图为d列到
Figure 772051DEST_PATH_IMAGE041
列的子图,
Figure 484792DEST_PATH_IMAGE043
取到的特征子图为第1列到第
Figure 205624DEST_PATH_IMAGE045
-d列的子图;
遍历视差搜索范围内的所有视差值,即遍历所有的视差值
Figure 636605DEST_PATH_IMAGE047
, 得到第i维的特征图的所有特征子图,共
Figure 530612DEST_PATH_IMAGE049
张;
遍历全部32通道的特征图,将得到的所有特征子图构成匹配代价容器,大小为
Figure 97859DEST_PATH_IMAGE051
S104:基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
图4示出了本发明的一个具体的实施例的编码解码结构的3D卷积示意图,在本实施例中,空洞空间金字塔池化网络形成的匹配代价容器在这里进 行了2次3D卷积下采样和2次3D反卷积上采样处理的过程,在经过若干卷积层的处理后,图像的宽度和高度变为原来的1/4;为了恢复特征图的尺寸,将它变为与原来输入图像尺寸一样,采用了双线性插值的方法对图像进行上采样,利用图像上对应关系的最近的四个点来猜测一个点的位置,将这个位置补全。
图5示出了本发明的一个具体的实施例的双线插值示意图,其中,f()为双线性插值函数,Q 11Q 21Q 12Q 22表示已知点,R 1R 2P表示未知点,f(Q 11)、f(Q 21)、f(Q 12)、f(Q 22)、f(R 1)、f(R 2)和f(P)分别表示各点的双线性插值函数值,图中(x 1,y 1)、(x 2,y 1)、(x 1,y 2)、(x 2,y 2)、(x,y 1)、(x,y 2)和(x,y)分别表示Q 11Q 21Q 12Q 22R 1R 2P各点的坐标,使用双线性插值方法补全未知点P的公式如下:
Figure 989592DEST_PATH_IMAGE053
在本实施例中,根据以上公式,并根据图5中Q 11Q 21的位置来猜测出R 1的位置,根据Q 12Q 22猜测出R 2的位置,最后根据R 1R 2的位置猜测出P的位置。
在具体的实施例中,以上步骤还包括步骤S105:基于视差回归方法对所述视差图进行精细化。
在本实施例中,采用GC-Net提出的视差回归方法,图像的视差等级是
Figure 707537DEST_PATH_IMAGE055
,本实施例的视差回归方法包括:
计算出每个像素在不同视差下的匹配代价C d ,通过softmax运算,从匹配代价C d 计 算出每个视差d的概率,最后对每个视差d加权求和得到视差预测值
Figure DEST_PATH_IMAGE057
,所述视差预测值
Figure DEST_PATH_IMAGE059
的计算公式为:
Figure DEST_PATH_IMAGE061
其中
Figure 467551DEST_PATH_IMAGE020
表示对匹配代价C d 进行softmax运算,D max表示视差搜索范围 的最大值,匹配代价越低,对应的视差d的置信度越高。
在优选的实施例中,视差回归方法使用了smoothL1损失函数,具体方法包括:
记所述视差图的图像上具有视差值标记的点的个数为N
Figure 889305DEST_PATH_IMAGE022
表示实际的视差值,
Figure DEST_PATH_IMAGE062
表示预测的视差值,i为视差值标记点,
Figure 545414DEST_PATH_IMAGE026
表示视差值标记点i的实际的视差值,
Figure 419829DEST_PATH_IMAGE028
表示视差值标记点i的预测的视差值,有
Figure DEST_PATH_IMAGE064
其中,L是平均损失函数,smoothL1是损失函数,x是损失函数smoothL1的自变量,通过梯度下降算法使得所述损失函数的值一直降低,不断迭代直到所述损失函数的值不再下降,此时所述视差回归方法达到收敛,取此时的视差图为最终的视差图。
在优选的实施例中,选用KITTI数据集作为基础数据集:
KITTI数据集是德国的一所高校所采集的数据集,同时作为目前国际上最大的自动驾驶场景中的计算机视觉算法评测数据集,在自动驾驶领域作出了突出的贡献。KITTI数据集是装有四个摄像机,雷达测距系统的汽车行驶在德国西南部城市,包含了树木、地面、草地和汽车等,对于图像的深度学习有很高的挑战性。图像上最多可以包含30个行人和15辆汽车。所以在 KITTI 数据集上的实验可以有效的验证在本章算法在真实路面上的适应性。
本实施例在标准公开数据集KITTI Stereo benchmark上评估了本发明公开的算法。上传网络训练得到的视差图到 KITTI Stereo benchmark 上,在这个数据集上分别做了实验的定量分析和定性分析,将从这两个角度上来分析本发明公开的空洞空间金字塔池化网络(ASPPMNet)的有效性。
在本实施例中,实验运行的环境,主要包括:
1)Inter Core i7-6700k,主频 4GHz的CPU。
2)8G内存
3)Nvidia GeForce GTX 1080Ti,11GB 显存的GPU。
4)Windows 10操作系统
5)Pytorch 0.4.1深度学习框架
6)CUDA9.0
在本实施例中,实验运行的方案,主要包括:
KITTI Stereo 2012 数据集收集了 194 对训练图像和与之对应的真实视差图,195 对测试图像,KITTI Stereo 2015数据集包含200对训练图像,还有200张对应的视差图。还有200对测试图像,并没有给出真实的视差值。将训练集的80%也就是160对图像作为训练集,10%也就是20对图像作为验证集,10% 作为测试集。为了扩大训练集的样本,对训练集进行了随机裁剪来扩大训练集。并且将原始图像裁剪成为512×256大小,所对应的 W为512,H为256。另外学习率恒定为lr=0.001。采用了Adam优化器,Adam算法是一种随机优化的方法,需要很小的内存,只用到一阶梯度,Batch size设为4。
在KITTI Stereo 2015数据集上进行了算法评估。使用SGM,MC-CNN-acrt,PSMNet,GC-Net,SegStereo以及本发明公开的空洞空间金字塔池化方法(ASPPMNet)这六种方法,对KITTI 2012中具有代表性的第5张图片进行立体匹配处理,并对处理结果进行对比评估。
图6示出了本发明的一个具体的实施例的KITTI 2012第5张彩色视差图示意图,Input Image表示真实图像,D1-Result表示输出的视差图,根据形成的视差图,经过彩色像素处理的D1 Result可以很明显的看出全部参考网络对于训练有光照还有弱纹理的区域的挑战性是很大的。根据实验结果图像可以看出,本发明公开的算法的实验效果较好。
图7示出了本发明的一个具体的实施例的KITTI 2012第5张误点图示意图,可以看出本发明公开的算法对于像素点语义信息的提取是成功的,可以有效的提升匹配精度。
图8示出了本发明的一个实施例的一种基于空洞空间金字塔池化的立体匹配系统的框架图。该系统包括视点图像特征提取模块801、空洞空间金字塔池化模块802、匹配代价容器构建模块803和3D卷积模块804。
在具体的实施例中,视点图像特征提取模块801被配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;空洞空间金字塔池化模块802被配置用于基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;匹配代价容器构建模块803被配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;3D卷积模块804被配置用于基于3D卷积的方式,用3D卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
在具体的实施例中,该系统还包括视差回归模块805,视差回归模块805被配置用于基于视差回归方法对所述视差图进行精细化。
通过以上模块的共同作用,实现了利用空洞空间金字塔池化的方法,在神经网络上用不同大小的扩张率抓取图像中多尺度的信息,再采用堆叠的方式保存特征图,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免了丢失图像的特征信息。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
本发明通过对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,最终得到视差图。利用空洞空间金字塔池化的方法,在神经网络上用不同大小的扩张率抓取图像中多尺度的信息,再采用堆叠的方式保存特征图,有效的保存了特征图的维度,从而在之后的处理中有效的提取到我们所需要的图像特征,避免了丢失图像的特征信息。
实验表明本发明所构建的基于空洞空间金字塔池化的立体匹配方法,在处理图像的前景的过程中有着更优秀的表现,并且在一些遮挡区域也能很好的适应处理,对于像素点语义信息的提取准确,可以有效的提升匹配精度。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种基于空洞空间金字塔池化的立体匹配方法,其特征在于,包括以下步骤:
S1:对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
S2:基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
S3:将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
S4:基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
2.根据权利要求1所述的方法,其特征在于,权利要求1所述的方法还包括步骤S5:基于视差回归方法对所述视差图进行精细化。
3.根据权利要求1所述的方法,其特征在于,所述步骤S1中的特征提取使用了3个3×3的卷积核。
4.根据权利要求1所述的方法,其特征在于,在进行所述特征提取前,还包括将左视图和右视图下采样为原来图像尺寸的1/2。
5.根据权利要求1所述的方法,其特征在于,所述使用卷积神经网络进行特征提取包括:对所述左视图和右视图分别在每一个卷积操作结束后,添加批次归一化层和ReLU层。
6.根据权利要求1所述的方法,其特征在于,所述空洞卷积和空间金字塔池化方法具体包括:利用并行的扩张率不同的多个空洞卷积和一个平均池化对所述左视点特征图的像素的上下文信息进行多次提取,同时利用所述多个空洞卷积和一个平均池化对所述右视点特征图的像素的上下文信息进行多次提取。
7.根据权利要求1所述的方法,其特征在于,所述步骤S3中取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器,具体步骤包括:
分别从所述左视点特征图
Figure 178250DEST_PATH_IMAGE002
和所述右视点特征图
Figure 767494DEST_PATH_IMAGE004
中取一个特征图维度,记为 第i维的特征图
Figure 2691DEST_PATH_IMAGE006
Figure 335583DEST_PATH_IMAGE008
取一个视差值d对所述特征图
Figure 743431DEST_PATH_IMAGE010
Figure 752844DEST_PATH_IMAGE012
分别提取特征子图,得到所述视差值d 下第i维的特征图的特征子图;
遍历视差搜索范围内的所有视差值,得到第i维的特征图的所有特征子图;
遍历所有特征图,将得到的所有特征子图构成匹配代价容器。
8.根据权利要求2所述的方法,其特征在于,所述视差回归方法包括:
采用GC-Net提出的视差回归方法,计算出每个像素在不同视差下的匹配代价C d ,通过 softmax运算,从匹配代价C d 计算出每个视差d的概率,最后对每个视差d加权求和得到视差 预测值
Figure 223139DEST_PATH_IMAGE014
,所述视差预测值
Figure 343411DEST_PATH_IMAGE016
的计算公式为:
Figure 949973DEST_PATH_IMAGE018
其中
Figure 133217DEST_PATH_IMAGE020
表示对匹配代价C d 进行softmax运算,D max表示视差搜索范围的最 大值。
9.根据权利要求8所述的方法,其特征在于,所述视差回归方法使用了smoothL1损失函数,具体方法包括:
记所述视差图的图像上具有视差值标记的点的个数为N
Figure 825229DEST_PATH_IMAGE022
表示实际的视差值,
Figure 14771DEST_PATH_IMAGE023
表示预测的视差值,i为视差值标记点,
Figure 944681DEST_PATH_IMAGE025
表示视差值标记点i的实际的视差值,
Figure 171263DEST_PATH_IMAGE027
表示视差值标记点i的预测的视差值,有
Figure DEST_PATH_IMAGE029
其中,L是平均损失函数,smoothL1是损失函数,x是损失函数smoothL1的自变量,通过梯度下降算法使得所述损失函数的值一直降低,不断迭代直到所述损失函数的值不再下降,此时所述视差回归方法达到收敛,取此时的视差图为最终的视差图。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至9中任一项所述的方法。
11.一种基于空洞空间金字塔池化的立体匹配系统,其特征在于,包括:
视点图像特征提取模块:配置用于对视点图像的左视图和右视图使用卷积神经网络进行特征提取,得到左视点特征图和右视点特征图;
空洞空间金字塔池化模块:配置用于基于空洞卷积和空间金字塔池化方法,利用不同大小的扩张率从多个尺度对所述左视点特征图和所述右视点特征图提取像素的上下文信息,得到所述左视点特征图的多个特征图维度和所述右视点特征图的多个特征图维度;
匹配代价容器构建模块:配置用于将所述左视点特征图的多个特征图维度使用堆叠的方式进行保存,将所述右视点特征图的多个特征图维度使用堆叠的方式进行保存,取不同的视差值对所述特征图维度提取特征子图,构成匹配代价容器;
3D卷积模块:配置用于基于3D卷积的方式,用 3D 卷积层对所述匹配代价容器进行卷积下采样和反卷积上采样后,基于双线性插值法进行上采样,对所述匹配代价容器中的所述特征子图进行尺寸恢复,得到视差图。
12.根据权利要求11所述的系统,其特征在于,还包括:
视差回归模块:配置用于基于视差回归方法对所述视差图进行精细化。
CN202110461480.1A 2021-04-27 2021-04-27 一种基于空洞空间金字塔池化的立体匹配方法及系统 Pending CN112991422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110461480.1A CN112991422A (zh) 2021-04-27 2021-04-27 一种基于空洞空间金字塔池化的立体匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110461480.1A CN112991422A (zh) 2021-04-27 2021-04-27 一种基于空洞空间金字塔池化的立体匹配方法及系统

Publications (1)

Publication Number Publication Date
CN112991422A true CN112991422A (zh) 2021-06-18

Family

ID=76340433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110461480.1A Pending CN112991422A (zh) 2021-04-27 2021-04-27 一种基于空洞空间金字塔池化的立体匹配方法及系统

Country Status (1)

Country Link
CN (1) CN112991422A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393366A (zh) * 2021-06-30 2021-09-14 北京百度网讯科技有限公司 双目匹配方法、装置、设备以及存储介质
CN115937217A (zh) * 2023-03-09 2023-04-07 安格利(成都)仪器设备有限公司 一种利用3d卷积和相关性算子来自动检测腐蚀坑的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308719A (zh) * 2018-08-31 2019-02-05 电子科技大学 一种基于三维卷积的双目视差估计方法
CN110070574A (zh) * 2019-04-29 2019-07-30 优乐圈(武汉)科技有限公司 一种基于改进PSMNet的双目视觉立体匹配算法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN111833386A (zh) * 2020-07-22 2020-10-27 中国石油大学(华东) 一种基于多尺度信息和注意力机制的金字塔双目立体匹配方法
CN111914853A (zh) * 2020-07-17 2020-11-10 三峡大学 一种用于立体匹配的特征提取方法
CN112150521A (zh) * 2020-08-24 2020-12-29 江苏大学 一种基于PSMNet优化的图像立体匹配方法
CN112365586A (zh) * 2020-11-25 2021-02-12 厦门瑞为信息技术有限公司 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法
CN112435282A (zh) * 2020-10-28 2021-03-02 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308719A (zh) * 2018-08-31 2019-02-05 电子科技大学 一种基于三维卷积的双目视差估计方法
CN110070574A (zh) * 2019-04-29 2019-07-30 优乐圈(武汉)科技有限公司 一种基于改进PSMNet的双目视觉立体匹配算法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN111914853A (zh) * 2020-07-17 2020-11-10 三峡大学 一种用于立体匹配的特征提取方法
CN111833386A (zh) * 2020-07-22 2020-10-27 中国石油大学(华东) 一种基于多尺度信息和注意力机制的金字塔双目立体匹配方法
CN112150521A (zh) * 2020-08-24 2020-12-29 江苏大学 一种基于PSMNet优化的图像立体匹配方法
CN112435282A (zh) * 2020-10-28 2021-03-02 西安交通大学 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN112365586A (zh) * 2020-11-25 2021-02-12 厦门瑞为信息技术有限公司 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393366A (zh) * 2021-06-30 2021-09-14 北京百度网讯科技有限公司 双目匹配方法、装置、设备以及存储介质
CN115937217A (zh) * 2023-03-09 2023-04-07 安格利(成都)仪器设备有限公司 一种利用3d卷积和相关性算子来自动检测腐蚀坑的方法

Similar Documents

Publication Publication Date Title
CN112270249B (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
Huang et al. Indoor depth completion with boundary consistency and self-attention
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
US20180231871A1 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
CN110517306B (zh) 一种基于深度学习的双目深度视觉估计的方法和系统
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN109344818B (zh) 一种基于深度卷积网络的光场显著目标检测方法
CN112991422A (zh) 一种基于空洞空间金字塔池化的立体匹配方法及系统
CN112734915A (zh) 一种基于深度学习的多视角立体视觉三维场景重建方法
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN113762267B (zh) 一种基于语义关联的多尺度双目立体匹配方法及装置
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
CN111508013A (zh) 立体匹配方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN113610905A (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN115830406A (zh) 一种基于多视差尺度的快速光场深度估计方法
CN114419568A (zh) 一种基于特征融合的多视角行人检测方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN116883588A (zh) 一种大场景下的三维点云快速稠密重建方法及系统
Huang et al. ES-Net: An efficient stereo matching network
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618