CN113807417B - 基于深度学习视野自选择网络的密集匹配方法及系统 - Google Patents

基于深度学习视野自选择网络的密集匹配方法及系统 Download PDF

Info

Publication number
CN113807417B
CN113807417B CN202111008702.0A CN202111008702A CN113807417B CN 113807417 B CN113807417 B CN 113807417B CN 202111008702 A CN202111008702 A CN 202111008702A CN 113807417 B CN113807417 B CN 113807417B
Authority
CN
China
Prior art keywords
parallax
network
branch
module
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111008702.0A
Other languages
English (en)
Other versions
CN113807417A (zh
Inventor
刘智
李志勇
郭昊珺
官恺
芮杰
王番
刘潇
赵自明
金飞
林雨准
王淑香
尚大帅
马刚
魏麟苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
61363 Troop Of Chinese Pla
Information Engineering University of PLA Strategic Support Force
Original Assignee
61363 Troop Of Chinese Pla
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 61363 Troop Of Chinese Pla, Information Engineering University of PLA Strategic Support Force filed Critical 61363 Troop Of Chinese Pla
Priority to CN202111008702.0A priority Critical patent/CN113807417B/zh
Publication of CN113807417A publication Critical patent/CN113807417A/zh
Application granted granted Critical
Publication of CN113807417B publication Critical patent/CN113807417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于密集匹配技术领域,特别涉及一种基于深度学习视野自选择网络的密集匹配方法及系统,构建深度学习视野自选择网络,包含多层级特征提取模块,匹配代价构建模块,多层级支路视差计算模块,上采样模块,单支路视差计算模块,支路选择权重计算模块,及输出模块;收集场景样本数据,划分为训练样本和测试样本,并分别用于对构建的网络进行训练和测试优化;针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。本发明在模型网络中采用多支路视差计算方式并基于单峰性构建的偏移损失为依据来实现最佳视野选择,能够确保视差不连续边缘匹配效果,提升场景数据匹配精度,具有较好应用前景。

Description

基于深度学习视野自选择网络的密集匹配方法及系统
技术领域
本发明属于密集匹配技术领域,特别涉及一种基于深度学习视野自选择网络的密集匹配方法及系统。
背景技术
随着人工智能的发展,基于深度学习的有监督密集匹配方法在虚拟、室内以及驾驶等近景数据集上取得了不错的表现。深度学习方法在特征自动提取上具有传统方法无可比拟的优势。随着硬件技术的发展和深度学习理论的完善,这种方法在密集匹配上的潜力逐步显现。M-CNN在密集匹配过程中采用了深度学习方法提取特征,利用卷积神经网络提取到了更为稳健的特征,替代了传统的测度匹配和相关系数匹配等特征提取方法,取得了不错的效果,同时为密集匹配端到端网络的出现奠定了基础。首个端到端的密集匹配网络DispNet,以光流预测网络FlowNet为基础,在改进其上采样模块后,应用于密集匹配网络。虽然其在KITTI数据集上的排名并不是当时最靠前的,但为后面其他端到端的网络提供了思路。考虑到DispNet视差图缺乏多尺度信息,且网络不包含视差精化模块,iResNet在DispNet基础上增加了多尺度信息,并采用贝叶斯网络精化视差,进一步提升了匹配精度。这个阶段的网络仍以类似“U-Net”的通用密集匹配网络结构为基础,通过大量的参数拟合密集匹配过程。GCNet借鉴传统密集匹配思想,开创了密集匹配专用网络的分支,其基本流程为:特征提取、匹配代价构建、视差计算以及视差软回归四个步骤。该网络的主要贡献包括:①引入了残差块,进一步深挖特征;②首次提出深度学习匹配代价构建和视差计算网络结构;③引入视差软回归(soft argmax),将分类问题变为回归问题,以较小的参数代价取得了不错的效果。随后,PSMNet针对GCNet网络缺乏多尺度信息的问题,利用空洞卷积、金字塔池化(spatial pyramid pooling,SPP)以及堆叠沙漏等多种方式引入全局信息,进一步提升了匹配的效果。
但当前深度学习密集匹配方法在视差不连续边缘匹配效果不佳,虽然通过金字塔池化和空洞卷积空间金字塔池化(atrous spatial pyramid pooling,ASPP)的方式能够在一定程度上缓解该问题,但无法从本质上解决该问题。因此需要设计一种能够选择合适“视野”的网络结构来解决该问题。
发明内容
为此,本发明提供一种基于深度学习视野自选择网络的密集匹配方法及系统,在模型网络中采用多支路视差计算方式并基于单峰性构建的偏移损失为依据来实现最佳视野选择,确保视差不连续边缘匹配效果,提升场景数据匹配精度。
按照本发明所提供的设计方案,提供一种基于深度学习视野自选择网络的密集匹配方法,包含:
构建深度学习视野自选择网络,该网络结构包含多层级特征提取模块,匹配代价构建模块,用于获取不同尺度视野的多层级支路视差计算模块,用于线性插值的上采样模块,用于视差回归的单支路视差计算模块,用于通过距离加权计算表示视野匹配效果偏移损失的支路选择权重计算模块,及用于通过支路视差与对应支路像素来获取最终视差的输出模块;
收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对深度学习视野自选择网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,多层级支路视差计算模块中,利用扩张率来控制视野大小,对多个视野支路设置不同的扩张率。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,通过视差范围内整数点与回归视差偏移绝对值两者之间的距离及对应位置的概率来获取偏移损失。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,偏移损失具体计算过程包含:首先,通过视差回归方法计算像素点视差回归值;然后,以视差回归值为基准,计算每个像素偏移值的绝对值;遍历当前视差和最大匹配视差之间的视差值,对视差值对应的偏移值绝对值和位置概率乘积进行求和;依据求和结果来获取偏移损失。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,支路选择权重计算模块中,在softmax通过引入温度项来选择最优置信度通道。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,假设ck为输入张量x的第k个支路置信度测度,则其对应的概率表示为:
Figure BDA0003237844710000021
其中,Npath为支路的数量,T为温度项。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,支路选择权重计算模块中,通过设置置信度网络对偏移损失进行调整,使其网络权重分布相符合,来获取偏移代价,其中,所述置信度网络采用三层卷积核结构的网络模型。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,网络预训练和测试调优中,还包含:利用场景样本数据分别对每个支路视差计算的网络参数进行预训练和调优测试;通过支路视差标签之间的光滑损失和最终生成的视差标签之间的光滑损失来构建深度学习视野自选择网络的总损失函数。
作为本发明基于深度学习视野自选择网络的密集匹配方法,进一步地,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的近景数据集和遥感数据集。
进一步地,本发明还提供一种基于深度学习视野自选择网络的密集匹配系统,包含:模型构建模块、模型调优模块和密集匹配模块,其中,
模型构建模块,用于构建深度学习视野自选择网络,该网络结构包含多层级特征提取模块,匹配代价构建模块,用于获取不同尺度视野的多层级支路视差计算模块,用于线性插值的上采样模块,用于视差回归的单支路视差计算模块,用于通过距离加权计算表示视野匹配效果偏移损失的支路选择权重计算模块,及用于通过支路视差与对应支路像素来获取最终视差的输出模块;
模型调优模块,用于收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对深度学习视野自选择网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
密集匹配模块,用于针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。
本发明的有益效果:
本发明针对当前深度学习密集匹配网络结构在视差不连续边缘表现较差的问题,通过构建视野自选择网络模型结构,采用多支路方式解决多视野问题,同时设置视野的选择依据偏移损失,并结合置信网络和带温度的sofmax函数选择最佳视野;进一步在损失函数设上采用了中间监督的思想训练各个子支路,使网络可以更多地训练选择器,以提升密集匹配效果和指令。并进一步通过实验结果表明:本案通过构建视野自选择网络网络结构能够明显增加密集匹配视差不连续边缘的精度;在数据集场景不同时,直接迁移通常难以直接符合要求,本案中可通过整体微调来提高网络精度,提升密集匹配在虚拟、室内以及驾驶等领域上的应用,具有较好的应用前景。
附图说明:
图1为实施例中基于深度学习视野自选择网络的密集匹配流程示意;
图2为实施例中自选择视野网络结构示意;
图3为实施例中视野置信度网络结构示意;
图4为实施例中直接反向传播示意;
图5为实施例中多支路同时反向传播示意;
图6为实施例中方法对比结果示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
随着人工智能的发展,基于深度学习的有监督密集匹配方法在虚拟、室内以及驾驶等近景数据集上取得了不错的表现,但当前的网络结构针对视差不连续边缘的处理精度仍然有限。为此,本发明实施例,提供一种基于深度学习视野自选择网络的密集匹配方法,包含:
S101、构建深度学习视野自选择网络,该网络结构包含多层级特征提取模块,匹配代价构建模块,用于获取不同尺度视野的多层级支路视差计算模块,用于线性插值的上采样模块,用于视差回归的单支路视差计算模块,用于通过距离加权计算表示视野匹配效果偏移损失的支路选择权重计算模块,及用于通过支路视差与对应支路像素来获取最终视差的输出模块;
S102、收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对深度学习视野自选择网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
S103、针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。
随着深度学习密集匹配方法研究的不断深入,其网络结构层出不穷。在经典的深度学习密集匹配过程中,单一卷积核由于视野小,因而对平滑区域、无纹理区域匹配效果差,该缺点在GCNet中已经体现;为解决“视野”过小的问题,SPP和ASPP融合了多尺度信息。这样虽然能够引入更大的“视野”信息,但多个尺度的特征信息在代价计算过程中会相互干扰,其结果是多个尺度相互“妥协”的结果,可能造成视差不连续边缘的匹配不准确。因此,在进行多尺度匹配时,不能只是简单的进行多尺度聚合,而是应该在多尺度下分别计算代价,然后从多个候选代价中选择合适的尺寸,最终形成视差图。本案实施例中,针对上述问题,通过在深度学习网络结构中考虑视野自选择,参见图2所示,针对每个像素选择适合自身特征的最佳视野,在PSMNetB特征提取部分的基础上,多视野的视差计算采用多支路的方式实现;偏移损失采用了距离加权方式实现,既能对抗弱纹理、无纹理和重复纹理,也可以有效避免多尺度求平均等问题。
作为本发明实施例中基于深度学习视野自选择网络的密集匹配方法,进一步地,多层级支路视差计算模块中,利用扩张率来控制视野大小,对多个视野支路设置不同的扩张率。
本案实施例中,网络模型各个层级的结构按照模块和层级的对应方式可如表1所示:
表1自选择视野网络结构和层级对应关系
Figure BDA0003237844710000041
/>
Figure BDA0003237844710000051
针对SPP和ASPP结构所遇到的问题,采用多个不同视野的支路分别进行匹配,然后从中选择最佳视野。视野的大小通过扩张率进行控制,每个支路采用不同的扩张率来实现不同尺度的视野。网络设计扩张率可为1至5,但由于显存限制,可从中选取3个扩张率进行实验。密集匹配中,大致分为三个阶段,准备数据集、训练模型及利用模型生成视差图。本案中视差自学习网络训练调优算法可设计如下:
步骤1:输入图像到网络结构
步骤1.1:入读取输入的图像,格式通常为pfm,png,tif等,调整通道位置;
步骤1.2:输入图像归一化,将数据集图像灰度值分布变为均值和方差均为1的正太分布;
步骤1.3:将生成的图像输入到网络中。
步骤2:特征提取
步骤2.1:首先左右图像分别通过3层卷积核尺寸为3×3,通道数为32的卷积层进行特征初提取;
步骤2.2:在特征初提取的基础上,进一步精华特征提取,依次通过conv1_x,conv2_x,conv3_x,conv4_x组成的残差块,其中conv3_x,conv4_x通过增加卷积核扩张率增加视野;
步骤2.3:左右特征图依次通过尺寸为1×1的卷积核,调整通道之间的权重;
步骤3:匹配代价构建
步骤3.1:左右特征图平移拼接
步骤3.2:拼接后的左右特征图在视差维进行堆叠
步骤4:匹配代价计算(视差计算)
通过6个卷积块来计算视差,每个卷积块由两层3×3×3的三维卷积层构成,在块间设置跳层结构,以增加多层级信息融合。
步骤5:上采样
将步骤4卷积的结果通过双线性插值的方式恢复输入图像的分辨率。
步骤6:视差软回归
通过视差软回归的方式,计算出概率最大值的下标。
步骤7:偏移损失计算
通过偏移计算每个像素点的偏移损失,该损失将作为选择支路的依据
步骤8:置信网络
为了解决偏移损失分布和网络分布的不一致性,通过置信网络对偏移损失的分布进行微调
步骤9:尺度选择
步骤9.1:利用带温度的softmax函数处理步骤7中的结果,从中计算各个支路的权重,选中的支路权重为1,其余支路为0
步骤9.2:利用9.1计算的权杖对步骤6的结果进行加权,将所需要的通道选出,生成视差图。
步骤10:生成视差图并计算损失函数
步骤10.1:将步骤6中各个支路结果和步骤9.2生成的视差图和标准视差图比较,用Smooth L1损失函数计算两者的损失并求和;
步骤10.2:通过损失函数计算梯度,并更新网络参数。
作为本发明实施例中基于深度学习视野自选择网络的密集匹配方法,进一步地,通过视差范围内整数点与回归视差偏移绝对值两者之间的距离及对应位置的概率来获取偏移损失。
基于匹配概率的单峰性,提出了偏移损失。偏移损失越大,则说明匹配的效果越差,存在多个匹配歧义点。在歧义点相同概率下,距离视差回归值越远,则该损失越大;偏移损失越小,则偏移相对集中,匹配结果单一,符合预期。进一步地,偏移损失具体计算过程包含:首先,通过视差回归方法计算像素点视差回归值;然后,以视差回归值为基准,计算每个像素偏移值的绝对值;遍历当前视差和最大匹配视差之间的视差值,对视差值对应的偏移值绝对值和位置概率乘积进行求和;依据求和结果来获取偏移损失。本案实施例中,可将偏移损失定义为视差范围内整数点与回归视差值偏移绝对值的距离乘以该位置的概率的和。具体计算过程可设计如下:
1)通过视差回归方法计算该像素点的视差回归值dmax
2)以视差回归值为基准,计算每个像素的偏移值的绝对值|d-dmax|;
3)求偏移绝对值与概率乘积的和。
根据定义和计算步骤,其过程可用如下公式描述:
Figure BDA0003237844710000061
式中,maxdisp为最大匹配视差;d为当前视差值,从0至maxdisp;i,j分别表示图像的行列坐标;k表示不同扩张率的通道。
Figure BDA0003237844710000071
式中,Fargmax表示选取最大值下标。
作为本发明实施例中基于深度学习视野自选择网络的密集匹配方法,进一步地,支路选择权重计算模块中,在softmax通过引入温度项来选择最优置信度通道。
在多支路视差计算之后,需要从中选择合适的“视野”,这部分需要解决两个问题,第一是找到一种适合深度学习的方法,使其能从多个视野中找到适合该点的扩张率,且这个扩张率是唯一的,而不是多个通道加权的结果;第二是在前者能够实现的前提下,采用什么样的标准判断“合适”的扩张率。本案实施例中,进一步地,针对第一个问题,可以采用带温度的softmax,假设ck为输入张量x的第k个支路置信度测度,则其对应的概率表示为:
Figure BDA0003237844710000072
其中,Npath为支路的数量,T为温度项。温度越小,则概率分布越趋近于代价c中的最大值,温度越大,则概率分布更加平滑。
下面以包含五个通道的输入为例,置信度测度依次为0.6,1.1,0.8,0.9,1.2若不采用温度softmax,即T=1时,其概率分别为0.14,0.23,0.17,0.19,0.26,最终的结果是多个通道共同起了作用,这与SPP和ASPP相类似,不能选出最优视野。因此需要引入温度T,下面测试了不同T对概率的影响,结果如表2所示:
表2温度对视差软回的影响
Figure BDA0003237844710000073
/>
从表中可明显看出,随着温度的减小,置信度经过softmax函数后的单峰性越来越明显。当小于临界值后,其余通道的权重可忽略不计,而最佳通道置信度将被选出。因此,只需要将温度控制在极小的范围内,就可以保证最优置信度的通道被选出。
在具有选择通道能力的基础上,需要给定一定标准,使之选择出符合需求的通道。若选择标准直接采用偏移损失作为权重,偏移损失越大的则对应的通道权重越小;反之越大。但是实践证明这样做会使网络不收敛,经过分析,最可能的原因是人工设定的统计量分布和深度学习所学习到的分布不一致,两者存在矛盾,因此在训练过程中会产生不收敛的现象。本案实施例中,进一步地,支路选择权重计算模块中,通过设置置信度网络对偏移损失进行调整,使其网络权重分布相符合,来获取偏移代价,其中,所述置信度网络采用三层卷积核结构的网络模型。置信度网络类似于注意力模块的网络结构,参见图3所示,将偏移损失作为输入,三层网络均采用1×1的卷积核,对偏移损失进行微调,使其分布与网络学习到的“视野”权重分布相符合。偏移损失经过网络调整变为偏移代价,此时依据带温度项的softmax,即可将偏移代价变为唯一概率,从中选择出最适合的网络。
由于存在唯一性通道,如图4所示,如果仅对最终结果进行反向传播,每个子网络只会根据最终选择的部分反馈的结果进行参数更新,造成网络训练的不充分。图中每个支路用深浅不同的颜色进行标注,右侧视差图颜色表示所用到的支路。在反向传播过程中,视差图深色区域会对支路1的参数训练产生影响;视差图浅色和花纹分别对支路2和支路3产生影响,因而每个子网络只有部分区域产生了反馈,故容易不收敛或者精度不理想。为了克服该问题,本发明实施例中,进一步地,网络预训练和测试调优中,还包含:利用场景样本数据分别对每个支路视差计算的网络参数进行预训练和调优测试;通过支路视差标签之间的光滑损失和最终生成的视差标签之间的光滑损失来构建深度学习视野自选择网络的总损失函数。在训练损失函数过程中,对每个子网也进行训练,该思想类似于中间监督,参见图5所示,针对各个子网进行训练使得最后总损失可以尽可能多的训练选择器,使得选择效果更佳。其中,总损失函数可定义为:
Figure BDA0003237844710000081
式中,Lselect表示最终生成的视差图和标签数据之间的光滑L1损失;Li表示第i个支路匹配的结果标签数据之间的光滑L1损失;Np表示参与计算的支路数量。
作为本发明实施例中基于深度学习视野自选择网络的密集匹配方法,进一步地,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的近景数据集和遥感数据集。本案实施例中,可以根据实际应用需求,例如计算机视觉的自动驾驶获取深度信息和测绘里航空摄影测量生产,可使用驾驶场景数据集是KITTI2012和KITTI2015,航空数据集是Vaihingen和WHU数据集。
SceneFlow数据集在密集匹配领域占有重要的一席之地,许多经典网络在应用到真实场景之前,均会在该数据集上进行预训练。该数据集原包含39000对双目图像,后期经过筛选,实际采用的图像数为35858对。完整的数据集包含彩色双目图像、语义分割图、光流图、视差图、视差变化图、运动边界图以及相机数据。本案实施例中,可使用其中的彩色双目图像和视差图。该数据集由3个子数据集构成,分别为Flying Things3D、Driving和Monkaa数据子集。近景数据集和遥感数据集中,KITTI数据集为真实场景的汽车驾驶数据集,包含KITTI2012和KITTI2015两个子集,前者包含194对训练图像和195对测试图像,图像尺寸为1226像素×370像素;后者包含200对训练图像和200对测试图像,图像尺寸为1242像素×375像素。Vaihingen数据集]为德国乡村航空场景,包含3条航带36张乡村影像,图像尺寸为9240像素×14430像素;航向重叠度和旁向重叠度均为60%。图像整体区域平坦,高层建筑较少,大部分为植被和密集低矮的房屋。数据集标签是由多套商业软件匹配出的DSM数据取平均后依据内外方位元素反算得到的半稠密视差图,裁切后的图像尺寸为955像素×360像素,共731对。WHU数据集为贵州乡村无人机场景,包括高楼大厦、少量的工厂以及一些山脉、河流等。拍摄航高为550米,地面分辨率10厘米,航向重叠率90%,旁向重叠率80%,共1776张尺寸为5376像素×5376像素的图像,对应1776视差真值图。经过整理和裁切,实际使用数据包含8316张训练图片和2663张测试图片,图像尺寸为768像素×384像素。通过以上样本数据对网络进行调优训练测试,能够保证用于密集匹配的网络模型性能,提升其密集匹配效果和质量。
进一步地,基于上述的方法,本发明实施例还提供一种基于深度学习视野自选择网络的密集匹配系统,包含:模型构建模块、模型调优模块和密集匹配模块,其中,
模型构建模块,用于构建深度学习视野自选择网络,该网络结构包含多层级特征提取模块,匹配代价构建模块,用于获取不同尺度视野的多层级支路视差计算模块,用于线性插值的上采样模块,用于视差回归的单支路视差计算模块,用于通过距离加权计算表示视野匹配效果偏移损失的支路选择权重计算模块,及用于通过支路视差与对应支路像素来获取最终视差的输出模块;
模型调优模块,用于收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对深度学习视野自选择网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
密集匹配模块,用于针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。
为验证本案方案有效性,下面结合试验数据做进一步解释说明:
利用样本数据进行网络调优训练测试中,可在Windows10操作系统下进行,通过Anaconda创建虚拟环境,采用PyTorch深度学习框架,显卡为1080Ti,显存11G。由于显存限制,参数batchsize通过梯度累加模拟实现,设置为8,优化器为Adam,β1=0.9,β2=0.999。由于用于密集匹配的网络对内存需求大,在训练过程中需要存储梯度,因此训练过程将原始图像随机裁剪为512×256大小的图片,该操作一方面可以节约内存,另一方面能够增强数据集。图像评价范围为裁剪非重叠边缘后的区域。
参数指标分别为终点误差(End Point Error)和3像素误差(3Pixel Error)。EPE的定义为所有像素预测视差与真实值之差绝对值的平均值;3PE为预测值与真实值误差大于3像素占图像所有参与预测点总数的百分比。两个标准均为值越小,匹配效果越好。
首先在Scene Flow进行10轮的预训练,然后综合考虑数据集规模和网络收敛速度设置微调论数。其中,DispNetC为通用密集匹配网络,模型参数多,收敛速度较慢。因此在KITTI的两个数据集上微调2000轮,Vaihingen数据集上微调400轮,WHU数据集上微调10轮;而PSMNetB、PSMNetS和AFSNet三个网络为专用密集匹配网络,参数少,收敛速度较快。在KITTI数据集上进行500轮微调,在Vaihingen数据集上进行100轮微调,在WHU数据集上进行10轮微调。实验的结果如表3所示:
表3自选择视野网络效果对比
Figure BDA0003237844710000091
Figure BDA0003237844710000101
从实验结果来看,精度从低到高依次是DispNetC、PSMNetB、PSMNetS以及AFSNet。本案实施例中所构建的AFSNet网络在EPE和3PE两方面上比DispNetC平均减少55.5%和58.0%,比PSMNetB分别减少10.6%和13.2%,比PSMNetS分别减少1.79%和6.76%。实验在精度上达到了预期。将实验生成的视差图按照视差值大小的方式进行染色,并将生成的数据和标签数据作差取绝对值得到误差图,如图6所示,从图中可以看出,AFSNet误差图的实验效果最好,视差非连续边缘的匹配误差得到了明显的改善。EPE和3PE均比其他方法有较大幅度的下降。值得注意的是,本案方案图中的PSMNetB的结果优于PSMNetS,导致该问题的原因是PSMNetS在匹配代价中使用了堆叠沙漏模块,利用含有多尺度的信息,简单的多尺度融合容易在视差非连续边缘产生匹配歧义,进而保证密集匹配效果。
试验中,通过将在Scene Flow数据集上训练的模型直接迁移到其他数据集上,结果如表4:
表4 Scene Flow直接迁移结果
Figure BDA0003237844710000102
结合表3和4,可以看出,未进行微调的数据集精度远低于微调后的数据集精度,说明微调是有必要的。从直接迁移结果来看,PSMNetB迁移效果整体最差,在三个数据集上的迁移精度略低于DispNetC;AFSNet除了在Vaihingen数据集上效果较差外,其余数据集精度整体较好,和PSMNetS效果相近。对比四个数据集可以看处,经Scene Flow训练后的模型在WHU数据集上表现较好,除了DispNet,其余三个网络的EPE均小于0.5像素,3PE在1%左右,在精度要求较低的场景可直接使用。说明WHU和Scene Flow数据集特征相似。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种基于深度学习视野自选择网络的密集匹配方法,其特征在于,包含:
构建深度学习视野自选择网络,该网络结构包含多层级特征提取模块,匹配代价构建模块,用于获取不同尺度视野的多层级支路视差计算模块,用于线性插值的上采样模块,用于视差回归的单支路视差计算模块,用于通过距离加权计算表示视野匹配效果偏移损失的支路选择权重计算模块,及用于通过支路视差与对应支路像素来获取最终视差的输出模块;其中,多层级支路视差计算模块中,利用扩张率来控制视野大小,对多个视野支路设置不同的扩张率;支路选择权重计算模块中,在softmax通过引入温度项来选择最优置信度通道,并通过视差范围内整数点与回归视差偏移绝对值两者之间的距离及对应位置的概率来获取偏移损失;
收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对深度学习视野自选择网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。
2.根据权利要求1所述的基于深度学习视野自选择网络的密集匹配方法,其特征在于,偏移损失具体计算过程包含:首先,通过视差回归方法计算像素点视差回归值;然后,以视差回归值为基准,计算每个像素偏移值的绝对值;遍历当前视差和最大匹配视差之间的视差值,对视差值对应的偏移值绝对值和位置概率乘积进行求和;依据求和结果来获取偏移损失。
3.根据权利要求1所述的基于深度学习视野自选择网络的密集匹配方法,其特征在于,假设ck为输入张量x的第k个支路置信度测度,则其对应的概率表示为:
Figure QLYQS_1
,其中,Npath为支路的数量,T为温度项。
4.根据权利要求1或3所述的基于深度学习视野自选择网络的密集匹配方法,其特征在于,支路选择权重计算模块中,通过设置置信度网络对偏移损失进行调整,使其网络权重分布相符合,来获取偏移代价,其中,所述置信度网络采用三层卷积核结构的网络模型。
5.根据权利要求1所述的基于深度学习视野自选择网络的密集匹配方法,其特征在于,网络预训练和测试调优中,还包含:利用场景样本数据分别对每个支路视差计算的网络参数进行预训练和调优测试;通过支路视差标签之间的光滑损失和最终生成的视差标签之间的光滑损失来构建深度学习视野自选择网络的总损失函数。
6.根据权利要求1所述的基于深度学习视野自选择网络的密集匹配方法,其特征在于,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的近景数据集和遥感数据集。
7.一种基于深度学习视野自选择网络的密集匹配系统,其特征在于,包含:模型构建模块、模型调优模块和密集匹配模块,其中,
模型构建模块,用于构建深度学习视野自选择网络,该网络结构包含多层级特征提取模块,匹配代价构建模块,用于获取不同尺度视野的多层级支路视差计算模块,用于线性插值的上采样模块,用于视差回归的单支路视差计算模块,用于通过距离加权计算表示视野匹配效果偏移损失的支路选择权重计算模块,及用于通过支路视差与对应支路像素来获取最终视差的输出模块;其中,多层级支路视差计算模块中,利用扩张率来控制视野大小,对多个视野支路设置不同的扩张率;支路选择权重计算模块中,在softmax通过引入温度项来选择最优置信度通道,并通过视差范围内整数点与回归视差偏移绝对值两者之间的距离及对应位置的概率来获取偏移损失;
模型调优模块,用于收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对深度学习视野自选择网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
密集匹配模块,用于针对目标场景数据,利用测试优化后的深度学习视野自选择网络选取最佳视野来实现目标场景数据的密集匹配。
CN202111008702.0A 2021-08-31 2021-08-31 基于深度学习视野自选择网络的密集匹配方法及系统 Active CN113807417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008702.0A CN113807417B (zh) 2021-08-31 2021-08-31 基于深度学习视野自选择网络的密集匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008702.0A CN113807417B (zh) 2021-08-31 2021-08-31 基于深度学习视野自选择网络的密集匹配方法及系统

Publications (2)

Publication Number Publication Date
CN113807417A CN113807417A (zh) 2021-12-17
CN113807417B true CN113807417B (zh) 2023-05-30

Family

ID=78942001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008702.0A Active CN113807417B (zh) 2021-08-31 2021-08-31 基于深度学习视野自选择网络的密集匹配方法及系统

Country Status (1)

Country Link
CN (1) CN113807417B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743069A (zh) * 2022-04-21 2022-07-12 复旦大学 一种对两帧图像进行自适应密集匹配计算的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254850A (zh) * 2016-08-23 2016-12-21 深圳市捷视飞通科技股份有限公司 双视点立体视频的图像匹配方法及装置
CN109685842A (zh) * 2018-12-14 2019-04-26 电子科技大学 一种基于多尺度网络的稀疏深度稠密化方法
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
WO2018171875A1 (en) * 2017-03-21 2018-09-27 Toyota Motor Europe Nv/Sa Control device, system and method for determining the perceptual load of a visual and dynamic driving scene

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254850A (zh) * 2016-08-23 2016-12-21 深圳市捷视飞通科技股份有限公司 双视点立体视频的图像匹配方法及装置
CN109685842A (zh) * 2018-12-14 2019-04-26 电子科技大学 一种基于多尺度网络的稀疏深度稠密化方法
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的驾驶场景关键目标检测与提取;张雪芹;魏一凡;;华东理工大学学报(自然科学版)(第06期);全文 *

Also Published As

Publication number Publication date
CN113807417A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及系统
US9042648B2 (en) Salient object segmentation
CN108038445B (zh) 一种基于多视角深度学习框架的sar自动目标识别方法
CN111259906B (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
Carvalho et al. Multitask learning of height and semantics from aerial images
CN111445488B (zh) 一种弱监督学习自动识别和分割盐体的方法
Kirthika et al. Automated road network extraction using artificial neural network
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
CN113239830B (zh) 一种基于全尺度特征融合的遥感图像云检测方法
US20230281913A1 (en) Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments
CN113780389B (zh) 基于一致性约束的深度学习半监督密集匹配方法及系统
CN111414931B (zh) 一种基于图像深度的多分支多尺度小目标检测方法
CN104156943B (zh) 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法
CN108428220A (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
CN112949414A (zh) 一种宽视域高分六号卫星影像地表水体智能制图方法
CN111611960B (zh) 一种基于多层感知神经网络大区域地表覆盖分类方法
CN113807417B (zh) 基于深度学习视野自选择网络的密集匹配方法及系统
CN113191213A (zh) 一种高分辨率遥感影像新增建筑物检测方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN116402851A (zh) 一种复杂背景下的红外弱小目标跟踪方法
Pang et al. Multihead attention mechanism guided ConvLSTM for pixel-level segmentation of ocean remote sensing images
Bukheet et al. Land cover change detection of Baghdad city using multi-spectral remote sensing imagery
EP2947626B1 (en) Method and apparatus for generating spanning tree, method and apparatus for stereo matching, method and apparatus for up-sampling, and method and apparatus for generating reference pixel

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant