CN112634341B

CN112634341B - 多视觉任务协同的深度估计模型的构建方法

Info

Publication number: CN112634341B
Application number: CN202011556047.8A
Authority: CN
Inventors: 李婕; 周顺; 巩朋成; 石文轩; 张正文
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-09-07
Anticipated expiration: 2040-12-24
Also published as: CN112634341A

Abstract

本发明提供一种多视觉任务协同的深度估计模型的构建方法，包括以下具体步骤：立体视觉约束下的快速场景深度估计模型构建；视差几何和知识先验协同的模型优化；联合语义特征的目标深度精细化：构造一个从粗糙到精细的逐阶段优化的类似深度估计的模块语义分割模块，形成特征层共享的对称结构，再利用相同阶段不同网络特征，经过视差获取网络得到融入了语义几何信息的视差图；进一步达到障碍物目标精细化的目的。本发明将多尺度、知识先验与视觉语义嵌入到深度估计模型中，通过多任务协同共享的学习模式，深层次逼近人类感知的本质，提高障碍物的深度估计精度。

Description

多视觉任务协同的深度估计模型的构建方法

技术领域

本发明涉及电子行走辅助设备技术领域，具体是一种电子行走辅助设备中的多视觉任务协同的深度估计模型的构建方法。

背景技术

据世界卫生组织最新统计数据显示，世界范围内视力受损人数约为2.85亿，仅中国低视力人士和盲人达到了两千万，日常出行是视力障碍者日常生活中面临的最大问题。在科技和网络快速发展的今天，它们比常人更渴望能享受到人工智能带来的便利。因此，如何造福视力受损人群，延展他们的视觉来感知周围环境是一个重要的研究课题。传统导盲辅助技术及工具有较大的局限性，随着智能技术的飞速发展，开发具有行走辅助系统的电子移动设备(ETA，Electronic Travel Aids)成为一种有效的方法。ETA这类基于感知替代的辅助设备通过不同传感器获取外部环境数据，获得使用者周围环境的三维信息，但是外部环境错综复杂，要保证使用者行走安全，必须快速准确反应周围环境状况。

视觉信息作为外部环境的感知来源具有其他信息无法比拟的优势，而视觉问题主要由识别、重建和重组三大部分构成，其中场景深度估计是重建的关键技术之一，也是获得周围环境三维信息的核心问题。现有的深度获取传感器都有其各自的局限性，例如无人驾驶领域应用较多的激光雷达，因为离散的工作方式、镜面黑洞、扫描频率、成本太高而无法推广到更多领域；机器人领域常用的超声波传感器存在精度不够；一些可商用深度传感器由于构造原理的限制，很难同时在室内外场景获得理想的深度信息。视觉神经心理学的研究发现，人类视觉系统中存在视差细胞，能够在人类视觉的初级阶段对场景深度产生激励，并随着视觉系统上级阶段的反馈，不断丰富对场景三维结构的精确认知。立体视觉传感器展现出的诸多优势及其与人眼结构的相似性，以及适合室内外环境，不易损坏等条件，使得此类方法的开展显得更为有效和经济，也为ETA技术的研究开拓了一个新的思路。

给定极线对齐的图像对、焦距和两相机之间的基线距离，传统双目立体视觉方法将深度估计转化为立体匹配问题，按照三角测量原理，通过找到两幅图像中对应像素之间的差异，恢复场景深度信息。但不适定区域(弱/重复纹理、遮挡、反光等)的匹配问题，无疑是此类方法的难点所在。基于学习的方法可以结合局部上下文和先验知识，提高不适定区域的深度估计精度，但此类方法由于对数据集的强依赖性，影响了模型的场景泛化能力，而且较多的参数很难在能耗或内存受限的ETA设备上使用。

因此，如何充分挖掘“人类视觉系统的优势是对经验和环境理解”的特性，利用语义和深度信息共享互补的特点，结合视差几何和视觉先验，突破室内外深度估计的场景限制，研究适用于双目ETA的场景快速精准映射方法，以扩大ETA的适用范围，具有重大的研究意义和应用价值。

发明内容

本发明的目的在于提供一种电子行走辅助设备中的多视觉任务协同的深度估计模型的构建方法，根据ETA对障碍物的深度估计精确度要求较高，剖析深度估计误差的原因，考虑从局部优化和训练数据均衡这两方面入手，将视觉语义嵌入到深度估计模型中，通过多任务协同共享的学习模式，深层次逼近人类感知的本质，提高障碍物的深度估计精度。

本发明的技术方案：

一种适应于电子辅助设备中的多视觉任务协同深度估计模型的构建方法，包括以下具体步骤：

立体视觉约束下的快速场景深度估计模型构建：

采用构建多尺度多重预测的高速推理模型的方法，通过快速特征提取网络提取多分辨率的深度特征，经过多阶段视差细化方案进行视差精度提升；

视差几何和知识先验协同的模型优化：利用一种置信引导的无监督学习框架，在无需真实深度值参与的情况下，通过对模型深度预测值进行权衡，达到模型微调，增加模型泛化能力的目的；

联合语义特征的目标深度精细化：构造一个从粗糙到精细的逐阶段优化的类似深度估计的模块语义分割模块，形成特征层共享的对称结构，再利用相同阶段不同网络特征，经过视差获取网络得到融入了语义几何信息的视差图；进一步达到障碍物目标精细化的目的。

所述立体视觉约束下的快速场景深度估计模型构建具体为：

1)快速特征提取模块：获得不同尺度上的特征提取和表达，拟采用U-Net架构提取左、右图像对多分辨率下的特征，并提取不同分辨率下的图片特征，分别被应用于不同尺度的阶段，原始图片通过池化或者卷积进行下采样操作，低分辨率的特征图可以包含全局上下文信息，高分辨率的特征图包含更多的细节信息，在不同尺度下的最终的卷积层都集合了前面已经计算过的不同尺度的特征；

2)视差估计模块：假设特征图维度为H×W，M表示场景最大候选视差，每次像素位置在每个视差上构成一个H×W×M成本立方体，因为不适定区域的匹配都会给成本立方体带来较大误差，因此加入三维网络结构进一步提升成本立方体，假设C_ijk表示表示左图像素点P(i,j)在第k个视差时的成本代价，那么成本与像素满足：

最后通过最小化C_ijk得到低分辨深度图；

3)差异预测模块：在高分辨率场景下，两图之间的视差可能会非常大，采用计算差异可有效的提升运算速度，假设已获得初始深度图像d₃，在尺度1和尺度2阶段只预测差异，首先对d₃进行上采样到更高分辨率的d₃₂，若左视差图(i,j)预测值为k，则将左图每个像素(i,j)的值覆盖对应的右图像素(i,j+k)的值，若超出边界则使用0，如果目前视差预测是正确的，那么更新的右图特征图会与左图匹配，若预测不正确，通过计算剩余视差图来纠正，剩余视差的预测与全视差图的计算方法相似，得到的差异视差图被添加到前一阶段放大的视差图中，以此类推，采用多个阶段，得到视差图d。

所述视差几何和知识先验协同的模型优化过程为：

1)深度置信函数的设计：假设用于微调的无监督网络预测深度估计用

表示，那么置信损失函数可以设计为：

其中p表示空间点，P_v为置信度高的稀疏样本，即P_v＝{p:c(p)>τ}，τ为一个可学习变量，用于控制样本数量，增加f(τ)项防止收敛过快，

2)考虑亮度的重建误差构建：在重建图像计算误差时考虑加入加权的局部对比度归一化用来移除亮度与视差的相关性，若μ为局部均值，σ表示标准差，那么归一化后的像素值I_LCN写为：

但在弱纹理区域局部标准差趋于0，考虑加入一个重加权重构σ_ij，用l₂范数进行图像与重构后像素的差异计算。

3)无监督损失函数的构成：无监督损失函数由置信损失L_c、左右图重建误差L_r以及视差间的平滑误差L_s构成，考虑到重建失真，重建误差函数中引入图像质量评价中的图像结构相似度指标，综合计算重构图像和原始图像在光度上的误差；为了使得视差在局部上保持平滑，深度不连续性通常出现在图像的梯度上，图像的梯度也需要被考虑进来，在总损失函数里添加对视差梯度进行l₂惩罚。

所述联合语义特征的目标深度精细化的过程为：

1)语义特征融入模式：采用快速特征提取模块，将其看作类似一个编码结构，之后增加一个语义分割网络分支；语义分割类似深度估计模块，也是一个从粗糙到精细的逐阶段优化的过程，通过上采样和差异拟合输出当前阶段语义分割图，与视差估计网络形成对称结构；将每个阶段语义特征和视差成本代价连接形成融合特征；利用融合特征和当前阶段深度图下进行视差精度的优化；

2)构建样本均衡权重项：在训练损失函数时考虑同等地对待所有像素的深度值分布，将深度置信损失函数中，添加权重项，使得每个像素点对应的深度估计值都有权重，同时考虑加入正则化项，避免训练开始时的梯度消失和较近区域学习时的截断。

与现有技术相比，本发明的有益效果是：针对ETA深度估计在精度和实时性上需求较高，加快推理速度往往会导致精度大幅度下降，而目前基于学习的模型参数多不利于在移动设备上实现的问题，本项目采用多尺度多重预测的深度估计高速推理模型，通过多阶段的分层细化进行视差优化，获得不同级别精度的视差图，以满足ETA的障碍物预警和视觉任务对深度估计的需求，这种多尺度多级深度估计模型构建方式，为双目ETA的深度信息获取提供了一种新策略。针对监督学习的真实深度值获取困难的问题，充分利用传统视差几何深度估计方法的优势，协同基于学习的方法决策最终的深度估计，引入置信引导策略，并将参数预测问题演变成一个图像重建问题，考虑光照对深度值的影响，构建双目视差图协同优化的目标函数；根据ETA对障碍物的深度估计精确度要求较高，剖析深度估计误差的原因，考虑从局部优化和训练数据均衡这两方面入手，将视觉语义嵌入到深度估计模型中，通过多任务协同共享的学习模式，深层次逼近人类感知的本质，提高障碍物的深度估计精度。

附图说明

图1是本发明的方法流程示意图。

图2a是实施例在Kitti场景原始图。

图2b是实施例对图2a利用GC-Net(机器视觉)深度估计可视化结果。

图2c是实施例对图2a利用MC-CNN(匹配卷积神经网络)深度估计可视化结果。

图2d是对图2a利用本发明多视觉任务协同的深度估计可视化结果。

图3a是宽阔马路上使用本发明多视觉任务协同的深度估计可视化结果。

图3b是狭窄马路上使用本发明多视觉任务协同的深度估计可视化结果。

图3c是有障碍物马路上使用本发明具多视觉任务协同的深度估计可视化结果。

图3d是行人较多且阴影较多的马路上使用本发明宽阔马路上多视觉任务协同的深度估计可视化结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本项目的研究围绕着ETA系统中的应用需求，针对深度估计面临的场景受限、精度和实时性难以平衡等问题，拟充分挖掘传统视差几何的优势，剖析产生深度误差的原因，嵌入语义线索，结合深度学习理论，开展适合于ETA的深度估计的方法研究。经过申请人的分析论证，制定的总体技术路线如图1所示。

首先，对双目ETA获取的图像进行数据预处理，主要包括图像的校准和极线校正，提高待测试图像质量，此部分工作将基于已有的研究基础实现；其次，深入研究人类视觉系统的深度感知特性，构建多尺度多重预测的高速推理模型，以满足ETA不同视觉任务的深度信息需求；然后，针对真实深度图获取困难的问题，发挥传统视差估计的优势，引入深度置信模块，将深度估计变换成图像重建问题，采用无监督的方式对深度估计网络进行微调，以提高网络泛化性能；最后，共享语义和几何特征，准确的分离目标背景，考虑数据不均衡对深度估计结果的影响，提高目标深度估计的精度。

相机作为视觉传感器，在使用前需要进行标定以获取其模型参数。张正友提出的相机标定方法，使用单平面棋盘格作为靶标，简便易行，对一般相机可以达到较高的精度，成为一直以来的主流方法，因此，本课题采用此方法对项目所采用的摄像头进行标定。此标定算法需要定制一块标准模式的高精度平面标定板，且在标定过程中需要多次移动标定板或相机，使得多次采集的角点，均匀地分布在相机视场中，减少标定误差。求解出各自的内外参数后，联合完成双目系统的立体标定。立体标定的结果用来对左右图像进行校正，像素点对应的极线能够较好的与水平轴保持平行。完成以上课题的预处理部分后，技术路线将按照以下几方面展开：

(1)立体视觉约束下的快速场景深度估计模型构建的研究方案

视觉ETA的深度估计在实时性和精度方面都有较高的需求。目前模型面临在精度和实时性做出平衡的问题，加快推理速度往往会导致精度大幅度下降。针对此问题，采用构建多尺度多重预测的高速推理模型的方法，通过快速特征提取网络提取多分辨率的深度特征，经过多阶段视差细化方案进行视差精度提升，从而满足ETA不同视觉任务(避障、即时定位与构图、识别等)对深度估计的需求。

深度估计的计算复杂度通常与图像分辨率成立方关系，与最大视差成线性关系。若让分辨率或最大视差范围足够低，可以确保最小的计算时间。但依赖低分辨率的粗匹配的缺点是由此产生的近景输出缺乏细节。考虑到这些特性，假设已有初始低分辨率的深度估计值，可以通过上采样依次细化初始深度图，并使用大尺度的特征输入作为指导来融合高频细节，纠正初始视差图在较高分辨率下出现的误差，指导视差图细节的完善。最后，通过局部滤波锐化上采样得到视差图，输出同分辨的最终深度估计图。1)多尺度深度获取架构：虽然采用更大的下采样值，可以减少成本计算，但是以牺牲薄结构和小物体的细节为代价。如果信号完全从成本代价立方体中丢失，则不太可能恢复，可能导致障碍物预警漏判或误判，因此设置下采样的次数K为2，从而形成三种分辨率场景进行分层处理。在通过视差获取模块获得低分辨深度图d₃后，上采样到跟当前分辨率同样大小的深度图，通过融合该尺度特征纠正并细化上采样的深度图，输出更新后的深度图d₂。此过程避免了全范围的视差计算，加快了视差细化速度。

2)快速特征提取模块：获得不同尺度上的特征提取和表达。拟采用U-Net架构提取左、右图像对多分辨率下的特征，并提取不同分辨率下的图片特征，分别被应用于不同尺度的阶段。原始图片通过池化或者卷积进行下采样操作，低分辨率的特征图可以包含全局上下文信息，高分辨率的特征图包含更多的细节信息。在不同尺度下的最终的卷积层都集合了前面已经计算过的不同尺度的特征。

3)视差估计模块：假设特征图维度为H×W，M表示场景最大候选视差，每次像素位置在每个视差上构成一个H×W×M成本立方体。因为不适定区域的匹配都会给成本立方体带来较大误差，因此加入三维网路结构进一步提升成本立方体。假设C_ijk表示表示左图像素点P(i,j)在第k个视差时的成本代价，那么成本与像素满足：

最后通过最小化C_ijk得到低分辨深度图d₃。

4)差异预测模块：在高分辨率场景下，两图之间的视差可能会非常大，采用计算差异可有效的提升运算速度。假设已获得初始深度图像d₃，在尺度1和尺度2阶段只预测差异。首先对d₃进行上采样到更高分辨率的d₃₂，若左视差图(i,j)预测值为k，则将左图每个像素(i,j)的值覆盖对应的右图像素(i,j+k)的值(若超出边界则使用0)。如果目前视差预测是正确的，那么更新的右图特征图会与左图匹配。若预测不正确，通过计算剩余视差图来纠正。剩余视差的预测与全视差图的计算方法相似。得到的差异视差图被添加到前一阶段放大的视差图中。以此类推，采用多个阶段，得到视差图d₂和d₁。

(2)视差几何和知识先验协同的模型优化的研究方案

深度学习训练中需要高精度的真实深度值参与训练，但精确的真实深度值获取困难。而目前公共的双目深度估计的数据集场景有限，与ETA使用环境匹配度不高。因此，本项目拟利用一种置信引导的无监督学习框架，在无需真实深度值参与的情况下，通过对模型深度预测值进行权衡，达到模型微调，增加模型泛化能力的目的。

首先利用ETA获得新环境下的立体图像对，根据传统视差几何方法对场景具有等价的视差估计能力，采用稠密匹配和视差几何的传统立体图像方法(ZASD、AD-Census或SGM等)，获得的视差估计图d_s；结合CCNN的置信策略，对新场景的深度值进行置信度评估。某点的置信度越高，那么该点处估计的视差值就越准，相反，不适定区域等造成的不准确视差估计的置信度低，得到归一化深度置信度c，{d_s,c}共同构成用于微调深度估计模型训练集s。根据上述分析，具体分为以下几个步骤实现：

表示，那么置信损失函数可以设计为：

其中p表示空间点，P_v为置信度高的稀疏样本，即P_v＝{p:c(p)>τ}，τ为一个可学习变量，用于控制样本数量，增加f(τ)项防止收敛过快。

2)考虑亮度的重建误差构建：ETA在感知外部环境时，接收到的信号强度与距离的平方成反比，导致光度对距离具有明显的依赖。明亮的像素点往往比暗的像素点更容易产生较大的差异。因此，网络在训练时倾向于在容易学习的地方学习(例如：明亮区域)，对其他区域进行平滑处理(例如：较暗区域)。且当前景和背景差异较大时，这种损失会在被遮挡的区域产生更大的误差，导致网络无法再继续学习下去。因此，在重建图像计算误差时考虑加入加权的局部对比度归一化(WLCN)用来移除亮度与视差的相关性，若μ为局部均值，σ表示标准差，那么归一化后的像素值I_LCN可以写为：I_LCN＝f(I,μ,σ,η)。但在弱纹理区域局部标准差趋于0，考虑加入一个重加权重构σ_ij，用l₂范数进行图像与重构后像素的差异计算。

3)无监督损失函数的构成：拟由置信损失L_r、左右图重建误差L_r和以及视差间的平滑误差L_s构成。考虑到重建失真，重建误差函数中引入图像质量评价中的图像结构相似度指标，综合计算重构图像和原始图像在光度上的误差；为了使得视差在局部上保持平滑，由于深度不连续性通常出现在图像的梯度上，因此图像的梯度也需要被考虑进来，因此在总损失函数里添加对视差梯度进行l₂惩罚。

(3)联合语义特征的目标深度精细化方法的研究方案

ETA系统对障碍物的深度估计精确度要求较高，但场景目标涵盖的像素比背景中的像素少得多，导致在场景深度估计中效果好的算法，并不能保证目标的深度估计是准确的。本项目拟通过嵌入语义信息对目标局部优化和训练数据均衡这两方面考虑，首先，构造一个从粗糙到精细的逐阶段优化的类似深度估计的模块语义分割模块，形成特征层共享的对称结构，再利用相同阶段不同网络特征，经过视差获取网络得到融入了语义几何信息的视差图；通过对已有数据集的统计发现，训练样本的不均衡影响目标的深度估计结果，因此构造一个训练数据关注项，进一步达到障碍物目标精细化的目的。

假设有一对极线对齐的双目相机，z是场景距离相机的距离，也就是本项目所需要的深度估计值，f为相机的焦距，b为两相机光心之间的距离，x_l和x_r分别表示三维场景中的点在成像面的横坐标，根据三角性相似可知：

用双目视差d表示x_l-x_r。从表达式看出，当深度z远远大于相机间距离b时，即当目标在远区域，很小的视差误差对深度估计的精度影响较大。因此考虑加入语义信息，更好的分离目标。

其次，当回归像素级深度时，损失函数考虑深度图中的每个像素并对其进行处理，即将每个像素的损失值总计为一个整体以进行优化，没有显着差异。然而，存在于物体中的像素可能比位于背景中的像素少得多，尤其远处目标，因此低平均误差并不表示物体中包含的像素中的深度值是准确的，那么训练时需要关注这些少量像素信息。根据上述分析，具体分为以下几个步骤实现：

1)语义特征融入模式：采用共享研究内容(1)的特征提取模块，将其看作类似一个编码结构，之后增加一个语义分割网络分支；语义分割类似深度估计模块，也是一个从粗糙到精细的逐阶段优化的过程，通过上采样和差异拟合输出当前阶段语义分割图，与视差估计网络形成对称结构；将每个阶段语义特征和视差成本代价连接形成融合特征；利用融合特征和当前阶段深度图下进行视差精度的优化。

2)构建样本均衡权重项：因为透视效应的内在自然属性来自成像过程会导致深度像素分布不均，通过在对室内和室外深度数据集统计发现，像素分布呈现长尾分布。每个深度值的样本/像素值在特定深度后急剧下降，大量像素只存在很小的深度范围内。由于深度值低的像素点更多，损失函数将会被这些低深度值的像素点主导，导致训练的模型在低深度值的部分预测地较好，而在高深度值区域表现一般。因此，在训练损失函数时考虑同等地对待所有像素的深度值分布。将研究内容(1)中的深度估计损失函数中，添加权重项，使得每个像素点对应的深度估计值都有权重，同时考虑加入正则化项，避免训练开始时的梯度消失和较近区域学习时的截断。

本项目从现有的深度估计算法应用在可移动设备上所面临的问题出发，引入深度学习等理论，研究适用于ETA的深度估计方法，立题较为新颖，研究内容涉及多个交叉学科。本项目的特色与创新如下：

第一，针对ETA深度估计在精度和实时性上需求较高，加快推理速度往往会导致精度大幅度下降，而目前基于学习的模型参数多不利于在移动设备上实现的问题，本项目采用多尺度多重预测的深度估计高速推理模型，通过多阶段的分层细化进行视差优化，获得不同级别精度的视差图，以满足ETA的障碍物预警和视觉任务对深度估计的需求，这种多尺度多级深度估计模型构建方式，为双目ETA的深度信息获取提供了一种新策略，这是本项目的主要创新。

第二，针对监督学习的真实深度值获取困难的问题，充分利用传统视差几何深度估计方法的优势，协同基于学习的方法决策最终的深度估计，引入置信引导策略，并将参数预测问题演变成一个图像重建问题，同时考虑光照对深度值的影响，构建双目视差图协同优化的目标函数；根据ETA对障碍物的深度估计精确度要求较高，剖析深度估计误差的原因，考虑从局部优化和训练数据均衡这两方面入手，将视觉语义嵌入到深度估计模型中，通过多任务协同共享的学习模式，深层次逼近人类感知的本质，提高障碍物的深度估计精度，这是本项目的另一创新。

实施例：

实验在Kitti数据集上进行验证并与几种经典深度获取算法进行对比，实验结果如表1所示，在深度图的指标上，本发明在全局以及遮挡区域都获得了最低的错误率。在场景细节的深度信息具有较好的效果，如图2所示。同时，本发明针对道路的不同情况进行算法验证，如图3所示，在四种不同路况情况下，都能获得较好的深度估计效果。

表1在Kitti数据集上的实验对比

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种多视觉任务协同的深度估计模型的构建方法，其特征在于，包括以下具体步骤：

立体视觉约束下的快速场景深度估计模型构建：

视差几何和知识先验协同的模型优化：利用一种知识置信引导的无监督学习框架，在无需真实深度值参与的情况下，通过对模型深度预测值进行权衡，达到模型微调，增加模型泛化能力的目的；

联合语义特征的目标深度精细化：构造一个从粗糙到精细的逐阶段优化的类似深度估计的模块语义分割模块，形成特征层共享的对称结构，再利用相同阶段不同网络特征，经过视差获取网络得到融入了语义几何信息的视差图；进一步达到障碍物目标精细化的目的；

所述立体视觉约束下的快速场景深度估计模型构建具体为：

1)快速特征提取模块：获得不同尺度上的特征提取和表达，采用轻量化的网络架构提取左、右图像对多分辨率下的特征，并提取不同分辨率下的图片特征，分别被应用于不同尺度的阶段，原始图片通过池化或者卷积进行下采样操作，低分辨率的特征图可以包含全局上下文信息，高分辨率的特征图包含更多的细节信息，在不同尺度下的最终的卷积层都集合了前面已经计算过的不同尺度的特征；

2)视差估计模块：假设特征图维度为H×W，M表示场景最大候选视差，每次像素位置在每个视差上构成一个H×W×M成本立方体，因为不适定区域的匹配都会给成本立方体带来较大误差，因此加入三维的网络结构进一步提升成本立方体的精度，假设C_ijk表示表示左图像素点P(i,j)在第k个视差时的成本代价，那么成本与像素颜色空间值满足：

最后通过最小化C_ijk得到低分辨深度图d₃；

3)差异预测模块：在高分辨率场景下，两图之间的视差可能会非常大，采用计算差异可有效的提升运算速度，假设已获得初始深度图像d₃，在尺度1和尺度2阶段只预测差异，首先对d₃进行上采样到更高分辨率的d₃₂，若左视差图(i,j)预测值为k，则将左图每个像素(i,j)的值覆盖对应的右图像素(i,j+k)的值，若超出边界则使用0，如果目前视差预测是正确的，那么更新的右图特征图会与左图匹配，若预测不正确，通过计算剩余视差图来纠正，剩余视差的预测与全视差图的计算方法相似，以此类推，采用多个阶段，得到视差图d₂和d₁；

所述视差几何和知识先验协同的模型优化过程为：

表示，那么置信损失函数可以设计为：

其中p表示空间点，P_v为置信度高的稀疏样本，即P_v＝{p:c(p)>τ}，τ为一个可学习函数，用于控制样本数量，防止收敛过快，

2)考虑亮度的重建误差构建：在重建图像计算误差时考虑加入加权的局部对比度归一化用来移除亮度与视差的相关性，若μ为局部均值，σ表示标准差，那么归一化后的像素值I_LCN写为：I_LCN＝f(I,μ,σ,η)，但在弱纹理区域局部标准差趋于0，考虑加入一个重加权重构σ_ij，用l₂范数进行图像与重构后像素的差异计算；

2.根据权利要求1所述的一种多视觉任务协同的深度估计模型的构建方法，其特征在于，所述联合语义特征的目标深度精细化的过程为：