CN111627055A

CN111627055A - 一种联合语义分割的场景深度补全方法

Info

Publication number: CN111627055A
Application number: CN202010377563.8A
Authority: CN
Inventors: 于慧敏; 厉佳男
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-04
Anticipated expiration: 2040-05-07
Also published as: CN111627055B

Abstract

本发明公开了一种联合语义分割的场景深度补全方法，通过构建联合语义分割的网络模型进行场景深度补全，网络模型包括编码模块、特征去干扰模块和交互解码模块。编码模块以稀疏深度图及对应彩色图像作为输入，提取多尺度特征；特征去干扰模块与编码模块连接，对最后一个尺度特征拆分重组实现深度补全和语义分割任务间信息去干扰；交互解码模块与特征去干扰模块连接，实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互，并输出深度图和语义分割图。网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失。跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全，重点提升深度图在语义边缘区域的性能。

Description

一种联合语义分割的场景深度补全方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种联合语义分割的场景深度补全方法。

背景技术

场景深度补全，即通过算法补全深度图中空洞或者不可靠的位置得到致密且精确的深度图，是计算机视觉领域中的一个重要课题，在机器人、自动驾驶和增强现实等领域中起到关键性作用。场景深度补全方法主要分为基于传统立体匹配的方法、基于硬件传感器的方法和基于学习的方法。

基于传统立体匹配的方法假设不同视图间匹配点的颜色或者特征相近，通过最优化能量函数来求解场景的深度信息。该方法在区域纹理丰富且视图间光照变化不明显的情况下可取得较好的结果，然而，实际场景中不同视图间存在遮挡区域和光照变化，违反了该方法的基本假设。此外，大量弱纹理区域导致该方法准确性较低。

基于硬件传感器的方法受限于各传感器自身的缺陷。例如，激光雷达造价昂贵，且只能获取稀疏的点云信息。基于结构光的传感器易受强光干扰且感知范围有限，往往只适用于室内环境。

近来，深度学习的蓬勃发展使得基于学习的方法受到越来越广泛的关注。其中一些方法仅以单目彩色图像作为输入，利用卷积神经网络强大的场景解析能力，估计场景深度。但是这种方法本质上存在不适定性，无法得到尺度信息因而不能获取准确的深度结果。还有一些方法借鉴传统立体匹配或者运动恢复结构的思想，通过卷积神经网络进行建模。但是相比传统立体匹配或者运动恢复结构，没有很好的泛化能力，且需要海量数据来训练。

基于卷积神经网络的深度补全方法的关键在于提取优良的场景结构特征，因此联合深度补全任务和语义分割任务可显式地提升网络提取多元化场景结构信息的能力。

发明内容

为了解决现有技术存在的问题，本发明提供了一种联合语义分割的场景深度补全方法，利用语义分割任务中特征空间信息和语义信息丰富的特点，显式地提升网络提取多元化场景结构信息的能力。

本发明提供的联合语义分割的场景深度补全方法，包括网络模型和损失函数。

网络模型包括编码模块、特征去干扰模块和交互解码模块。所述编码模块以稀疏深度图及对应彩色图像作为输入，提取多尺度特征；所述特征去干扰模块与编码模块连接，通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰；所述交互解码模块与特征去干扰模块连接，实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互，并输出深度图和语义分割图。网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失。所述跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全，可重点提升深度图在语义边缘区域的性能。

本发明中，编码模块由N(N≥2)个编码器串联而成。第1级编码器提取并融合稀疏深度图及对应彩色图像的特征，得到第1级编码特征。第i级编码器以第i-1级编码特征作为输入，提取第i级编码特征，其中1＜i≤N。

本发明中，特征去干扰模块包括特征拆分模块和特征重组模块。

特征拆分模块将第N级编码特征分成三个部分，第一部分特征仅用于深度补全任务，第二部分特征仅用于语义分割任务，第三部分特征由两项任务共享。

特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组，得到深度补全去干扰特征和语义分割去干扰特征。重组方法如公式(1)-(2)所示。

cdm＝a₁(f₁(dm₁，dm₃)) (1)

sdm＝a₂(f₂(dm₂，dm₃)) (2)

式中，dm₁、dm₂和dm₃分别表示第一部分特征、第二部分特征和第三部分特征；cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征；f₁和f₂均表示融合函数；a₁和a₂均表示自注意力函数。

本发明中，交互解码模块由M(M≥2)个交互解码器串联而成。

其中，将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征。第j级交互解码器由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成，以第j-1级深度补全解码特征和语义分割解码特征作为输入，提取第j级深度补全解码特征和语义分割解码特征，其中1≤j＜M。

第M级交互解码器由上采样单元、单向指导单元和输出单元依次串联而成，以第M-1级深度补全解码特征和语义分割解码特征作为输入，输出深度图和语义分割图。

本发明中，第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样，得到第j级深度补全上采样特征和语义分割上采样特征，其中1≤j＜M。上采样方法如公式(3)-(4)所示。

cu_j＝u₁(cd_j-1) (3)

su_j＝u₂(sd_j-1) (4)

式中，cd_j-1和sd_j-1分别表示第j-1级深度补全解码特征和语义分割解码特征；cu_j和su_j分别表示第j级深度补全上采样特征和语义分割上采样特征；u₁和u₂均表示上采样函数。

本发明中，第j级单向指导单元对第j级语义分割上采样特征进行特征提取，得到第j级语义分割指导特征；并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导，得到第j级深度补全被指导特征，其中1≤j＜M。特征提取和指导方法分别如公式(5)和公式(6)所示。

sg_j＝e₁(su_j) (5)

cg_j＝g(cu_j，sg_j) (6)

式中，sg_j和cg_j分别表示第j级语义分割指导特征和深度补全被指导特征；e₁表示特征提取函数；g表示指导函数，cu_j作为该函数的输入特征，sg_j作为该函数的指导特征。

本发明中，当1≤j＜min(M，N)时，第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合，得到第j级深度补全融合特征。并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合，得到第j级语义分割融合特征。融合方法如公式(7)-(8)所示。

cf_j＝f₃(cg_j，cu_j，enc_N-j) (7)

sf_j＝f₄(sg_j，su_j，enc_N-j) (8)

式中，enc_N-j表示第N-j级编码特征；cf_j和sf_j分别表示第j级深度补全融合特征和语义分割融合特征；f₃和f₄均表示融合函数。

当N≤j＜M时，第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合，得到第j级深度补全融合特征；并仅对第j级语义分割指导特征和语义分割上采样特征进行融合，得到第j级语义分割融合特征。融合方法如公式(9)-(10)所示。

cf_j＝f₅(cg_j，cu_j) (9)

sf_j＝f₆(sg_j，su_j) (10)

式中，f₅和f₆均表示融合函数。

本发明中，第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互，得到第j级深度补全解码特征和语义分割解码特征，其中1≤j＜M。交互方法如公式(11)-(12)所示。

cd_j＝a₃(cf_j)+σ(e₂(cf_j))⊙e₃(sf_j) (11)

sd_j＝a₄(sf_j)+σ(e₄(sf_j))⊙e₅(cf_j) (12)

式中，cd_j和sd_j分别表示第j级深度补全解码特征和语义分割解码特征；e₂～e₅均表示特征提取函数；a₃和a₄均表示自注意力函数；⊙表示逐元素相乘；σ表示Sigmoid激活函数，实现有选择性的信息交互。

本发明中，第M级交互解码器中的输出单元对第M-1级深度补全被指导特征进行回归，得到深度图。并对第M-1级语义分割指导特征进行分类，得到语义分割图。回归和分类方法分别如公式(13)和公式(14)所示。

d＝r(cg_M-1) (13)

s＝c(sg_M-1) (14)

式中，cg_M-1和sg_M-1分别表示第M-1级深度补全被指导特征和语义分割指导特征；d和s分别表示模型输出的深度图和语义分割图；r和c分别表示回归函数和分类函数。

本发明中，跨域边缘一致性损失L_cec包括不连续项L_dis和平滑项L_smo，如公式(15)-(17)所示。

L_cec＝L_dis+L_smo (15)

式中，s^*表示真实语义分割图；sgn表示符号函数；δ_h和δ_w分别表示在图像的高度方向和宽度方向上的求导函数；h和w分别表示在图像的高度方向和宽度方向上的索引；N_p表示图像像素数量。

本发明的有益效果是：

(1)提出一种对联合网络中的共享特征进行去干扰的方法，通过拆分和重组两个步骤，从共享特征中分别提取出对于各任务而言仅包含有利信息的特征，实现联合任务间信息去干扰。

(2)提出一种在联合网络的独立分支之间进行信息交互的策略，一方面，用语义分割相关特征对深度补全相关特征进行指导，另一方面，在深度补全相关特征和语义分割相关特征之间进行双向且有选择性的信息交互。

(3)提出一种跨域边缘一致性损失，利用真实语义分割图指导模型对深度图的补全，重点提升深度图在语义边缘区域的性能。

附图说明

图1是本发明实施例提供的场景深度补全网络的框图；

图2是本发明实施例提供的特征去干扰模块的框图；

图3是本发明实施例提供的第j级交互解码器的框图，其中1≤j＜6；

图4时本发明实施例提供的第6级交互解码器的框图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中，诸如“第1”和“第2”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在顺序关系。

同时，在本发明实施例中，术语“包括”、“包含”或者其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括这些过程、方法、物品或者装置所固有的要素。

本发明提出了一种联合语义分割的场景深度补全方法，如图1所示，下面介绍本发明的实施例。

网络模型包括编码模块、特征去干扰模块和交互解码模块。所述编码模块以稀疏深度图及对应彩色图像作为输入，提取多尺度特征。所述特征去干扰模块与编码模块连接，通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰。所述交互解码模块与特征去干扰模块连接，实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互，并输出深度图和语义分割图。

本实施例中，编码模块由6个编码器串联而成。第1级编码器提取并融合稀疏深度图及对应彩色图像的特征，得到第1级编码特征；第i级编码器以第i-1级编码特征作为输入，提取第i级编码特征，其中1＜i≤6。例如，作为一种具体实现方法，第1级编码器可由两个并行的卷积层构成，其中一个卷积层提取稀疏深度图的特征，该卷积层之后还包括ReLU激活函数；另一个卷积层提取彩色图像的特征，该卷积层之后还包括批归一化层和ReLU激活函数；将提取到的两个特征在通道维度上级联得到第1级编码特征；第2级～第5级编码器分别可采用ResNet34中ResBlock1～ResBlock4的计算方法；第6级编码器采用DeepLabv3中ASPP的计算方法。

特征去干扰模块包括特征拆分模块和特征重组模块，如图2所示，通过拆分和重组两个步骤，从共享特征中分别提取出对于各任务而言仅包含有利信息的特征，实现联合任务间信息去干扰。

其中，特征拆分模块将第6级编码特征分成三个部分，第一部分特征仅用于深度补全任务，第二部分特征仅用于语义分割任务，第三部分特征由两项任务共享。拆分可采用基于学习的方法或预先人为确定的方法，例如，作为一种具体实现方法，拆分时按照预设的比例，采用三个卷积层将第6级编码特征分成三个部分，每一个卷积层之后还包括批归一化层和ReLU激活函数。

cdm＝se₁(f₁(dm₁，dm₃)) (1)

sdm＝se₂(f₂(dm₁，dm₃)) (2)

式中，dm₁、dm₂和dm₃分别表示第一部分特征、第二部分特征和第三部分特征；cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征；f₁和f₂均表示融合函数；se₁和se₂均表示自注意力函数。例如，作为一种具体实现方法，f₁和f₂可表示对所有输入在通道维度上进行级联的操作；se₁和se₂可表示挤压-激励(Squeeze-and-Excitation)函数，以公式(1)中的se₁为例，挤压-激励函数的计算方法如公式(1.1)-(1.4)所示。

dm₁₃＝f₁(dm₁，dm₃) (1.1)

S＝σ(W₂*δ(W₁*Z)) (1.3)

cdm＝S·dm₁₃ (1.4)

式中，dm₁₃、Z和S表示计算过程中的三个中间特征；σ和δ分别表示Sigmoid和ReLU激活函数；*和·分别表示卷积和元素对应位置相乘操作；W₁和W₂均表示卷积核参数；H和W分别表示图像或特征的高度和宽度；c、h和w分别表示在图像或特征的通道方向、高度方向和宽度方向上的索引。

本实施例中，交互解码模块由6个交互解码器串联而成，一方面，用语义分割相关特征对深度补全相关特征进行指导，另一方面，在深度补全相关特征和语义分割相关特征之间进行双向且有选择性的信息交互。具体地，将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征。第j级交互解码器的框架如图3所示，由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成，以第j-1级深度补全解码特征和语义分割解码特征作为输入，提取第j级深度补全解码特征和语义分割解码特征，其中1≤j＜6。第6级解码器的框架如图4所示，由上采样单元、单向指导单元和输出单元依次串联而成，以第5级深度补全解码特征和语义分割解码特征作为输入，输出深度图和语义分割图。

第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样，得到第j级深度补全上采样特征和语义分割上采样特征，其中1≤j＜6。上采样方法如公式(3)-(4)所示。

cu_j＝u₁(cd_j-1) (3)

su_j＝u₂(sd_j-1) (4)

式中，cd_j-1和sd_j-1分别表示第j-1级深度补全解码特征和语义分割解码特征；cu_j和su_j分别表示第j级深度补全上采样特征和语义分割上采样特征；u₁和u₂均表示上采样函数。例如，作为一种具体实现方法，u₁和u₂可由一个双线性插值层、一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成。

第j级单向指导单元对第j级语义分割上采样特征进行特征提取，得到第j级语义分割指导特征；并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导，得到第j级深度补全被指导特征，其中1≤j＜6。特征提取和指导方法分别如公式(5)和公式(6)所示。

sg_j＝e₁(su_j) (5)

cg_j＝g(cu_j，sg_j) (6)

式中，sg_j和cg_j分别表示第j级语义分割指导特征和深度补全被指导特征；e₁表示特征提取函数；g表示指导函数。例如，作为一种具体实现方法，e₁可由一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成；g可表示像素自适应卷积(Pixel AdaptiveConvolution)函数，像素自适应卷积的计算方法如公式(6.1)-(6.2)所示。

cg_j[h，w]＝∑_m∑_lk(sg_j[h，w]，sg_j[h+m，w+l])W₃[m，l]cu_j[h+m，w+l] (6.1)

式中，k(·)表示高斯核函数，计算方法如公式(6.2)所示；W₃表示卷积核参数；m和l分别表示在卷积核的高度方向和宽度方向上的索引；T表示转置函数。

第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第6-j级编码特征进行融合，得到第j级深度补全融合特征；并对第j级语义分割指导特征、第j级语义分割上采样特征和第6-j级编码特征进行融合，得到第j级语义分割融合特征，其中1≤j＜6。融合方法如公式(7)-(8)所示。

cf_j＝f₃(cg_j，cu_j，enc_6-j) (7)

sf_j＝f₄(sg_j，su_j，enc_6-j) (8)

式中，enc_6-j表示第6-j级编码特征；cf_j和sf_j分别表示第j级深度补全融合特征和语义分割融合特征；f₃和f₄均表示融合函数。例如，作为一种具体实现方法，f₃和f₄可表示对所有输入在通道维度上进行级联的操作。

另外，所述编码器和交互解码器的数量可以不相等。假设编码器的数量为N，交互解码器的数量为M。作为另一种实施方式，当1≤j＜min(M，N)时，第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合，得到第j级深度补全融合特征；并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合，得到第j级语义分割融合特征；融合方法如公式(9)-(10)所示。

cf_j＝f₅(cg_j，cu_j，enc_N-j) (9)

sf_j＝f₆(sg_j，su_j，enc_N-j) (10)

式中，enc_N-j表示第N-j级编码特征；f₅和f₆均表示融合函数。例如，作为一种具体实现方法，f₅和f₆可表示对所有输入在通道维度上进行级联的操作。

当N≤j＜M时，第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合，得到第j级深度补全融合特征；并仅对第j级语义分割指导特征和语义分割上采样特征进行融合，得到第j级语义分割融合特征；融合方法如公式(11)-(12)所示。

cf_j＝f₇(cg_j，cu_j) (11)

sf_j＝f₈(sg_j，su_j) (12)

式中，f₇和f₈均表示融合函数。例如，作为一种具体实现方法，f₇和f₈可表示对所有输入在通道维度上进行级联的操作。

第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互，得到第j级深度补全解码特征和语义分割解码特征，其中1≤j＜6。交互方法如公式(13)-(14)所示。

cd_j＝gc₁(cf_j)+σ(e₂(cf_j))⊙e₃(sf_j) (13)

sd_j＝gc₂(sf_j)+σ(e₄(sf_j))⊙e₅(cf_j) (14)

式中，cd_j和sd_j分别表示第j级深度补全解码特征和语义分割解码特征；⊙表示逐元素相乘；σ表示Sigmoid激活函数，实现有选择性的信息交互；e₂～e₅均表示特征提取函数；gc₁和gc₂均表示自注意力函数。例如，作为一种具体实现方法，e₂～e₅可由一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成；gc₁和gc₂可表示全局内容(GlobalContext)函数，以公式(13)中的gc₁为例，全局内容函数的计算方法如公式(13.1)所示。

式中，W₄～W₆均表示卷积核参数；LN(·)表示层批归一化函数。

第6级交互解码器中的输出单元对第6级深度补全被指导特征进行回归，得到深度图。并对第6级语义分割指导特征进行分类，得到语义分割图。回归和分类方法分别如公式(15)和公式(16)所示。

d＝r(cg₆) (15)

s＝c(sg₆) (16)

式中，cg₆和sg₆分别表示第6级深度补全被指导特征和语义分割指导特征；d和s分别表示模型输出的深度图和语义分割图；r和c分别表示回归函数和分类函数。例如，作为一种具体实现方法，r可由一个卷积层构成，c可由一个卷积层和一个Softmax激活函数依次串联而成。

损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失，如公式(17)所示。

L＝λ_dL_a+λ_sL_s+λ_cecL_eec (17)

式中，L_d、L_s和L_ec分别表示深度补全损失、语义分割损失和跨域边缘一致性损失；λ_d、λ_s和λ_cec分别表示L_d、L_s和L_eec的权重，λ_d＝λ_s＝1，λ_cec＝0.1。

深度补全损失计算模型输出深度图和数据集内对应真实深度图的相似度，例如，作为一种具体实现方法，相似度的度量方法可采用欧式距离，如公式(18)所示。

L_d＝||d-d^*||₂ (18)

式中，d和d^*分别表示模型输出深度图和真实深度图。

语义分割损失计算模型输出语义分割图和数据集内对应真实语义图的相似度，例如，作为一种具体实现方法，相似度的度量方法可采用交叉熵，如公式(19)所示。

式中，s和s^*分别表示模型输出语义分割图和真实语义分割图；nc表示语义类别总数；N_p表示图像像素数量。n和k分别为图像像素和语义类别的索引。

跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全，可以重点提升深度图在语义边缘区域的性能，包括不连续项L_dis和平滑项L_smo，如公式(20)-(22)所示。

L_cec＝L_dis+L_smo (20)

式中，sgn表示符号函数；δ_h和δ_w分别表示在图像的高度方向和宽度方向上的求导函数。

以上结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和润饰，这样的修改和润饰均落入由所附权利要求所限定的范围之内。

Claims

1.一种联合语义分割的场景深度补全方法，其特征在于：通过构建联合语义分割的网络模型进行场景深度补全，所述网络模型包括编码模块、特征去干扰模块和交互解码模块；所述编码模块以稀疏深度图及对应彩色图像作为输入，提取多尺度特征；所述特征去干扰模块与编码模块连接，通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰。所述交互解码模块与特征去干扰模块连接，实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互，并输出深度图和语义分割图；所述网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失；所述跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全，可重点提升深度图在语义边缘区域的性能。

2.根据权利要求1中所述的方法，其特征在于：

所述编码模块由N(N≥2)个编码器串联而成；第1级编码器提取并融合稀疏深度图及对应彩色图像的特征，得到第1级编码特征；第i级编码器以第i 1级编码特征作为输入，提取第i级编码特征，其中1＜i≤N。

3.根据权利要求1中所述的方法，其特征在于：

所述特征去干扰模块包括特征拆分模块和特征重组模块。

特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组，得到深度补全去干扰特征和语义分割去干扰特征；重组方法如公式(1)-(2)所示；

cdm＝a₁(f₁(dm₁,dm₃)) (1)

sdm＝a₂(f₂(dm₂,dm₃)) (2)

4.根据权利要求1中所述的方法，其特征在于：

所述交互解码模块由M(M≥2)个交互解码器串联而成。

其中，将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征；第j级交互解码器由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成，以第j-1级深度补全解码特征和语义分割解码特征作为输入，提取第j级深度补全解码特征和语义分割解码特征，其中1≤j＜M。

5.根据权利要求4中所述的方法，其特征在于：

第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样，得到第j级深度补全上采样特征和语义分割上采样特征，其中1≤j＜M；上采样方法如公式(3)-(4)所示；

cu_j＝u₁(cd_j-1) (3)

su_j＝u₂(sd_j-1) (4)

6.根据权利要求4中所述的方法，其特征在于：

第j级单向指导单元对第j级语义分割上采样特征进行特征提取，得到第j级语义分割指导特征；并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导，得到第j级深度补全被指导特征，其中1≤j＜M；特征提取和指导方法分别如公式(5)和公式(6)所示；

sg_j＝e₁(su_j) (5)

cg_j＝g(cu_j,sg_j) (6)

7.根据权利要求4中所述的方法，其特征在于：

当1≤j＜min(M,N)时，第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合，得到第j级深度补全融合特征。并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合，得到第j级语义分割融合特征；融合方法如公式(7)-(8)所示；

cf_j＝f₃(cg_j,cu_j,enc_N-j) (7)

sf_j＝f₄(sg_j,su_j,enc_N-j) (8)

式中，enc_N-j表示第N-j级编码特征；cf_j和sf_j分别表示第j级深度补全融合特征和语义分割融合特征；f₃和f₄均表示融合函数；

当N≤j＜M时，第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合，得到第j级深度补全融合特征；并仅对第j级语义分割指导特征和语义分割上采样特征进行融合，得到第j级语义分割融合特征；融合方法如公式(9)-(10)所示；

cf_j＝f₅(cg_j,cu_j) (9)

sf_j＝f₆(sg_j,su_j) (10)

式中，f₅和f₆均表示融合函数。

8.根据权利要求4中所述的方法，其特征在于：

第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互，得到第j级深度补全解码特征和语义分割解码特征，其中1≤j＜M；交互方法如公式(11)-(12)所示；

cd_j＝d₃(cf_j)+σ(e₂(cf_j))⊙e₃(sf_j) (11)

sd_j＝a₄(sf_j)+σ(e₄(sf_j))⊙e₅(cf_j) (12)

9.根据权利要求4中所述的方法，其输出单元特征在于：

第M级交互解码器的输出单元对第M级深度补全被指导特征进行回归，得到深度图；并对第M级语义分割指导特征进行分类，得到语义分割图；回归和分类方法分别如公式(13)和公式(14)所示；

d＝r(cg_M) (13)

s＝c(sg_M) (14)

式中，cg_M和sg_M分别表示第M级深度补全被指导特征和语义分割指导特征；d和s分别表示模型输出的深度图和语义分割图；r和c分别表示回归函数和分类函数。

10.根据权利要求1中所述的方法，其特征在于：

所述跨域边缘一致性损失L_cec包括不连续项L_dis和平滑项L_smo，如公式(15)-(17)所示；

L_cec＝L_dis+L_smo (15)