CN111627055B - 一种联合语义分割的场景深度补全方法 - Google Patents

一种联合语义分割的场景深度补全方法 Download PDF

Info

Publication number
CN111627055B
CN111627055B CN202010377563.8A CN202010377563A CN111627055B CN 111627055 B CN111627055 B CN 111627055B CN 202010377563 A CN202010377563 A CN 202010377563A CN 111627055 B CN111627055 B CN 111627055B
Authority
CN
China
Prior art keywords
feature
semantic segmentation
level
depth
complement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010377563.8A
Other languages
English (en)
Other versions
CN111627055A (zh
Inventor
于慧敏
厉佳男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010377563.8A priority Critical patent/CN111627055B/zh
Publication of CN111627055A publication Critical patent/CN111627055A/zh
Application granted granted Critical
Publication of CN111627055B publication Critical patent/CN111627055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种联合语义分割的场景深度补全方法,通过构建联合语义分割的网络模型进行场景深度补全,网络模型包括编码模块、特征去干扰模块和交互解码模块。编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征;特征去干扰模块与编码模块连接,对最后一个尺度特征拆分重组实现深度补全和语义分割任务间信息去干扰;交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图。网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失。跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,重点提升深度图在语义边缘区域的性能。

Description

一种联合语义分割的场景深度补全方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种联合语义分割的场景深度补全方法。
背景技术
场景深度补全,即通过算法补全深度图中空洞或者不可靠的位置得到致密且精确的深度图,是计算机视觉领域中的一个重要课题,在机器人、自动驾驶和增强现实等领域中起到关键性作用。场景深度补全方法主要分为基于传统立体匹配的方法、基于硬件传感器的方法和基于学习的方法。
基于传统立体匹配的方法假设不同视图间匹配点的颜色或者特征相近,通过最优化能量函数来求解场景的深度信息。该方法在区域纹理丰富且视图间光照变化不明显的情况下可取得较好的结果,然而,实际场景中不同视图间存在遮挡区域和光照变化,违反了该方法的基本假设。此外,大量弱纹理区域导致该方法准确性较低。
基于硬件传感器的方法受限于各传感器自身的缺陷。例如,激光雷达造价昂贵,且只能获取稀疏的点云信息。基于结构光的传感器易受强光干扰且感知范围有限,往往只适用于室内环境。
近来,深度学习的蓬勃发展使得基于学习的方法受到越来越广泛的关注。其中一些方法仅以单目彩色图像作为输入,利用卷积神经网络强大的场景解析能力,估计场景深度。但是这种方法本质上存在不适定性,无法得到尺度信息因而不能获取准确的深度结果。还有一些方法借鉴传统立体匹配或者运动恢复结构的思想,通过卷积神经网络进行建模。但是相比传统立体匹配或者运动恢复结构,没有很好的泛化能力,且需要海量数据来训练。
基于卷积神经网络的深度补全方法的关键在于提取优良的场景结构特征,因此联合深度补全任务和语义分割任务可显式地提升网络提取多元化场景结构信息的能力。
发明内容
为了解决现有技术存在的问题,本发明提供了一种联合语义分割的场景深度补全方法,利用语义分割任务中特征空间信息和语义信息丰富的特点,显式地提升网络提取多元化场景结构信息的能力。
本发明提供的联合语义分割的场景深度补全方法,包括网络模型和损失函数。
网络模型包括编码模块、特征去干扰模块和交互解码模块。所述编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征;所述特征去干扰模块与编码模块连接,通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰;所述交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图。网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失。所述跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,可重点提升深度图在语义边缘区域的性能。
本发明中,编码模块由N(N≥2)个编码器串联而成。第1级编码器提取并融合稀疏深度图及对应彩色图像的特征,得到第1级编码特征。第i级编码器以第i-1级编码特征作为输入,提取第i级编码特征,其中1<i≤N。
本发明中,特征去干扰模块包括特征拆分模块和特征重组模块。
特征拆分模块将第N级编码特征分成三个部分,第一部分特征仅用于深度补全任务,第二部分特征仅用于语义分割任务,第三部分特征由两项任务共享。
特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组,得到深度补全去干扰特征和语义分割去干扰特征。重组方法如公式(1)-(2)所示。
cdm=a1(f1(dm1,dm3)) (1)
sdm=a2(f2(dm2,dm3)) (2)
式中,dm1、dm2和dm3分别表示第一部分特征、第二部分特征和第三部分特征;cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征;f1和f2均表示融合函数;a1和a2均表示自注意力函数。
本发明中,交互解码模块由M(M≥2)个交互解码器串联而成。
其中,将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征。第j级交互解码器由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成,以第j-1级深度补全解码特征和语义分割解码特征作为输入,提取第j级深度补全解码特征和语义分割解码特征,其中1≤j<M。
第M级交互解码器由上采样单元、单向指导单元和输出单元依次串联而成,以第M-1级深度补全解码特征和语义分割解码特征作为输入,输出深度图和语义分割图。
本发明中,第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样,得到第j级深度补全上采样特征和语义分割上采样特征,其中1≤j<M。上采样方法如公式(3)-(4)所示。
cuj=u1(cdj-1) (3)
suj=u2(sdj-1) (4)
式中,cdj-1和sdj-1分别表示第j-1级深度补全解码特征和语义分割解码特征;cuj和suj分别表示第j级深度补全上采样特征和语义分割上采样特征;u1和u2均表示上采样函数。
本发明中,第j级单向指导单元对第j级语义分割上采样特征进行特征提取,得到第j级语义分割指导特征;并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导,得到第j级深度补全被指导特征,其中1≤j<M。特征提取和指导方法分别如公式(5)和公式(6)所示。
sgj=e1(suj) (5)
cgjg(cuj,sgj) (6)
式中,sgj和cgj分别表示第j级语义分割指导特征和深度补全被指导特征;e1表示特征提取函数;g表示指导函数,cuj作为该函数的输入特征,sgj作为该函数的指导特征。
本发明中,当1≤j<min(M,N)时,第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合,得到第j级深度补全融合特征。并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合,得到第j级语义分割融合特征。融合方法如公式(7)-(8)所示。
cfj=f3(cgj,cuj,encN-j) (7)
sfj=f4(sgj,suj,encN-j) (8)
式中,encN-j表示第N-j级编码特征;cfj和sfj分别表示第j级深度补全融合特征和语义分割融合特征;f3和f4均表示融合函数。
当N≤j<M时,第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合,得到第j级深度补全融合特征;并仅对第j级语义分割指导特征和语义分割上采样特征进行融合,得到第j级语义分割融合特征。融合方法如公式(9)-(10)所示。
cfj=f5(cgj,cuj) (9)
sfj=f6(sgj,suj) (10)
式中,f5和f6均表示融合函数。
本发明中,第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互,得到第j级深度补全解码特征和语义分割解码特征,其中1≤j<M。交互方法如公式(11)-(12)所示。
cdj=a3(cfj)+σ(e2(cfj))⊙e3(sfj) (11)
sdj=a4(sfj)+σ(e4(sfj))⊙e5(cfj) (12)
式中,cdj和sdj分别表示第j级深度补全解码特征和语义分割解码特征;e2~e5均表示特征提取函数;a3和a4均表示自注意力函数;⊙表示逐元素相乘;σ表示Sigmoid激活函数,实现有选择性的信息交互。
本发明中,第M级交互解码器中的输出单元对第M-1级深度补全被指导特征进行回归,得到深度图。并对第M-1级语义分割指导特征进行分类,得到语义分割图。回归和分类方法分别如公式(13)和公式(14)所示。
d=r(cgM-1) (13)
s=c(sgM-1) (14)
式中,cgM-1和sgM-1分别表示第M-1级深度补全被指导特征和语义分割指导特征;d和s分别表示模型输出的深度图和语义分割图;r和c分别表示回归函数和分类函数。
本发明中,跨域边缘一致性损失Lcec包括不连续项Ldis和平滑项Lsmo,如公式(15)-(17)所示。
Lcec=Ldis+Lsmo (15)
式中,s*表示真实语义分割图;sgn表示符号函数;δh和δw分别表示在图像的高度方向和宽度方向上的求导函数;h和w分别表示在图像的高度方向和宽度方向上的索引;Np表示图像像素数量。
本发明的有益效果是:
(1)提出一种对联合网络中的共享特征进行去干扰的方法,通过拆分和重组两个步骤,从共享特征中分别提取出对于各任务而言仅包含有利信息的特征,实现联合任务间信息去干扰。
(2)提出一种在联合网络的独立分支之间进行信息交互的策略,一方面,用语义分割相关特征对深度补全相关特征进行指导,另一方面,在深度补全相关特征和语义分割相关特征之间进行双向且有选择性的信息交互。
(3)提出一种跨域边缘一致性损失,利用真实语义分割图指导模型对深度图的补全,重点提升深度图在语义边缘区域的性能。
附图说明
图1是本发明实施例提供的场景深度补全网络的框图;
图2是本发明实施例提供的特征去干扰模块的框图;
图3是本发明实施例提供的第j级交互解码器的框图,其中1≤j<6;
图4时本发明实施例提供的第6级交互解码器的框图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中,诸如“第1”和“第2”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在顺序关系。
同时,在本发明实施例中,术语“包括”、“包含”或者其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括这些过程、方法、物品或者装置所固有的要素。
本发明提出了一种联合语义分割的场景深度补全方法,如图1所示,下面介绍本发明的实施例。
网络模型包括编码模块、特征去干扰模块和交互解码模块。所述编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征。所述特征去干扰模块与编码模块连接,通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰。所述交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图。
本实施例中,编码模块由6个编码器串联而成。第1级编码器提取并融合稀疏深度图及对应彩色图像的特征,得到第1级编码特征;第i级编码器以第i-1级编码特征作为输入,提取第i级编码特征,其中1<i≤6。例如,作为一种具体实现方法,第1级编码器可由两个并行的卷积层构成,其中一个卷积层提取稀疏深度图的特征,该卷积层之后还包括ReLU激活函数;另一个卷积层提取彩色图像的特征,该卷积层之后还包括批归一化层和ReLU激活函数;将提取到的两个特征在通道维度上级联得到第1级编码特征;第2级~第5级编码器分别可采用ResNet34中ResBlock1~ResBlock4的计算方法;第6级编码器采用DeepLabv3中ASPP的计算方法。
特征去干扰模块包括特征拆分模块和特征重组模块,如图2所示,通过拆分和重组两个步骤,从共享特征中分别提取出对于各任务而言仅包含有利信息的特征,实现联合任务间信息去干扰。
其中,特征拆分模块将第6级编码特征分成三个部分,第一部分特征仅用于深度补全任务,第二部分特征仅用于语义分割任务,第三部分特征由两项任务共享。拆分可采用基于学习的方法或预先人为确定的方法,例如,作为一种具体实现方法,拆分时按照预设的比例,采用三个卷积层将第6级编码特征分成三个部分,每一个卷积层之后还包括批归一化层和ReLU激活函数。
特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组,得到深度补全去干扰特征和语义分割去干扰特征。重组方法如公式(1)-(2)所示。
cdm=se1(f1(dm1,dm3)) (1)
sdm=se2(f2(dm1,dm3)) (2)
式中,dm1、dm2和dm3分别表示第一部分特征、第二部分特征和第三部分特征;cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征;f1和f2均表示融合函数;se1和se2均表示自注意力函数。例如,作为一种具体实现方法,f1和f2可表示对所有输入在通道维度上进行级联的操作;se1和se2可表示挤压-激励(Squeeze-and-Excitation)函数,以公式(1)中的se1为例,挤压-激励函数的计算方法如公式(1.1)-(1.4)所示。
dm13=f1(dm1,dm3) (1.1)
S=σ(W2*δ(W1*Z)) (1.3)
cdm=S·dm13 (1.4)
式中,dm13、Z和S表示计算过程中的三个中间特征;σ和δ分别表示Sigmoid和ReLU激活函数;*和·分别表示卷积和元素对应位置相乘操作;W1和W2均表示卷积核参数;H和W分别表示图像或特征的高度和宽度;c、h和w分别表示在图像或特征的通道方向、高度方向和宽度方向上的索引。
本实施例中,交互解码模块由6个交互解码器串联而成,一方面,用语义分割相关特征对深度补全相关特征进行指导,另一方面,在深度补全相关特征和语义分割相关特征之间进行双向且有选择性的信息交互。具体地,将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征。第j级交互解码器的框架如图3所示,由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成,以第j-1级深度补全解码特征和语义分割解码特征作为输入,提取第j级深度补全解码特征和语义分割解码特征,其中1≤j<6。第6级解码器的框架如图4所示,由上采样单元、单向指导单元和输出单元依次串联而成,以第5级深度补全解码特征和语义分割解码特征作为输入,输出深度图和语义分割图。
第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样,得到第j级深度补全上采样特征和语义分割上采样特征,其中1≤j<6。上采样方法如公式(3)-(4)所示。
cuj=u1(cdj-1) (3)
suj=u2(sdj-1) (4)
式中,cdj-1和sdj-1分别表示第j-1级深度补全解码特征和语义分割解码特征;cuj和suj分别表示第j级深度补全上采样特征和语义分割上采样特征;u1和u2均表示上采样函数。例如,作为一种具体实现方法,u1和u2可由一个双线性插值层、一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成。
第j级单向指导单元对第j级语义分割上采样特征进行特征提取,得到第j级语义分割指导特征;并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导,得到第j级深度补全被指导特征,其中1≤j<6。特征提取和指导方法分别如公式(5)和公式(6)所示。
sgj=e1(suj) (5)
cgj=g(cuj,sgj) (6)
式中,sgj和cgj分别表示第j级语义分割指导特征和深度补全被指导特征;e1表示特征提取函数;g表示指导函数。例如,作为一种具体实现方法,e1可由一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成;g可表示像素自适应卷积(Pixel AdaptiveConvolution)函数,像素自适应卷积的计算方法如公式(6.1)-(6.2)所示。
cgj[h,w]=∑mlk(sgj[h,w],sgj[h+m,w+l])W3[m,l]cuj[h+m,w+l] (6.1)
式中,k(·)表示高斯核函数,计算方法如公式(6.2)所示;W3表示卷积核参数;m和l分别表示在卷积核的高度方向和宽度方向上的索引;T表示转置函数。
第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第6-j级编码特征进行融合,得到第j级深度补全融合特征;并对第j级语义分割指导特征、第j级语义分割上采样特征和第6-j级编码特征进行融合,得到第j级语义分割融合特征,其中1≤j<6。融合方法如公式(7)-(8)所示。
cfj=f3(cgj,cuj,enc6-j) (7)
sfj=f4(sgj,suj,enc6-j) (8)
式中,enc6-j表示第6-j级编码特征;cfj和sfj分别表示第j级深度补全融合特征和语义分割融合特征;f3和f4均表示融合函数。例如,作为一种具体实现方法,f3和f4可表示对所有输入在通道维度上进行级联的操作。
另外,所述编码器和交互解码器的数量可以不相等。假设编码器的数量为N,交互解码器的数量为M。作为另一种实施方式,当1≤j<min(M,N)时,第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合,得到第j级深度补全融合特征;并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合,得到第j级语义分割融合特征;融合方法如公式(9)-(10)所示。
cfj=f5(cgj,cuj,encN-j) (9)
sfj=f6(sgj,suj,encN-j) (10)
式中,encN-j表示第N-j级编码特征;f5和f6均表示融合函数。例如,作为一种具体实现方法,f5和f6可表示对所有输入在通道维度上进行级联的操作。
当N≤j<M时,第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合,得到第j级深度补全融合特征;并仅对第j级语义分割指导特征和语义分割上采样特征进行融合,得到第j级语义分割融合特征;融合方法如公式(11)-(12)所示。
cfj=f7(cgj,cuj) (11)
sfj=f8(sgj,suj) (12)
式中,f7和f8均表示融合函数。例如,作为一种具体实现方法,f7和f8可表示对所有输入在通道维度上进行级联的操作。
第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互,得到第j级深度补全解码特征和语义分割解码特征,其中1≤j<6。交互方法如公式(13)-(14)所示。
cdj=gc1(cfj)+σ(e2(cfj))⊙e3(sfj) (13)
sdj=gc2(sfj)+σ(e4(sfj))⊙e5(cfj) (14)
式中,cdj和sdj分别表示第j级深度补全解码特征和语义分割解码特征;⊙表示逐元素相乘;σ表示Sigmoid激活函数,实现有选择性的信息交互;e2~e5均表示特征提取函数;gc1和gc2均表示自注意力函数。例如,作为一种具体实现方法,e2~e5可由一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成;gc1和gc2可表示全局内容(GlobalContext)函数,以公式(13)中的gc1为例,全局内容函数的计算方法如公式(13.1)所示。
式中,W4~W6均表示卷积核参数;LN(·)表示层批归一化函数。
第6级交互解码器中的输出单元对第6级深度补全被指导特征进行回归,得到深度图。并对第6级语义分割指导特征进行分类,得到语义分割图。回归和分类方法分别如公式(15)和公式(16)所示。
d=r(cg6) (15)
s=c(sg6) (16)
式中,cg6和sg6分别表示第6级深度补全被指导特征和语义分割指导特征;d和s分别表示模型输出的深度图和语义分割图;r和c分别表示回归函数和分类函数。例如,作为一种具体实现方法,r可由一个卷积层构成,c可由一个卷积层和一个Softmax激活函数依次串联而成。
损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失,如公式(17)所示。
L=λdLasLscecLeec (17)
式中,Ld、Ls和Lec分别表示深度补全损失、语义分割损失和跨域边缘一致性损失;λd、λs和λcec分别表示Ld、Ls和Leec的权重,λd=λs=1,λcec=0.1。
深度补全损失计算模型输出深度图和数据集内对应真实深度图的相似度,例如,作为一种具体实现方法,相似度的度量方法可采用欧式距离,如公式(18)所示。
Ld=||d-d*||2 (18)
式中,d和d*分别表示模型输出深度图和真实深度图。
语义分割损失计算模型输出语义分割图和数据集内对应真实语义图的相似度,例如,作为一种具体实现方法,相似度的度量方法可采用交叉熵,如公式(19)所示。
式中,s和s*分别表示模型输出语义分割图和真实语义分割图;nc表示语义类别总数;Np表示图像像素数量。n和k分别为图像像素和语义类别的索引。
跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,可以重点提升深度图在语义边缘区域的性能,包括不连续项Ldis和平滑项Lsmo,如公式(20)-(22)所示。
Lcec=Ldis+Lsmo (20)
式中,sgn表示符号函数;δh和δw分别表示在图像的高度方向和宽度方向上的求导函数。
以上结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和润饰,这样的修改和润饰均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种联合语义分割的场景深度补全方法,其特征在于:通过构建联合语义分割的网络模型进行场景深度补全,所述网络模型包括编码模块、特征去干扰模块和交互解码模块;所述编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征;所述特征去干扰模块与编码模块连接,通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰;所述交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图;所述网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失;所述跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,可重点提升深度图在语义边缘区域的性能;
所述特征去干扰模块包括特征拆分模块和特征重组模块;
特征拆分模块将第N级编码特征分成三个部分,第一部分特征仅用于深度补全任务,第二部分特征仅用于语义分割任务,第三部分特征由两项任务共享;
特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组,得到深度补全去干扰特征和语义分割去干扰特征;重组方法如公式(1)-(2)所示;
cdm=a1(f1(dm1,dm3)) (1)
sdm=a2(f2(dm2,dm3)) (2)
式中,dm1、dm2和dm3分别表示第一部分特征、第二部分特征和第三部分特征;cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征;f1和f2均表示融合函数;a1和a2均表示自注意力函数;
所述交互解码模块由M(M≥2)个交互解码器串联而成;
其中,将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征;第j级交互解码器由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成,以第j-1级深度补全解码特征和语义分割解码特征作为输入,提取第j级深度补全解码特征和语义分割解码特征,其中1≤j<M;
第M级交互解码器由上采样单元、单向指导单元和输出单元依次串联而成,以第M-1级深度补全解码特征和语义分割解码特征作为输入,输出深度图和语义分割图;
第j级单向指导单元对第j级语义分割上采样特征进行特征提取,得到第j级语义分割指导特征;并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导,得到第j级深度补全被指导特征,其中1≤j<M;特征提取和指导方法分别如公式(5)和公式(6)所示;
sgj=e1(suj) (5)
cgj=g(cuj,sgj) (6)
式中,sgj和cgj分别表示第j级语义分割指导特征和深度补全被指导特征;e1表示特征提取函数;g表示指导函数,cuj作为该函数的输入特征,sgj作为该函数的指导特征。
2.根据权利要求1中所述的方法,其特征在于:
所述编码模块由N(N≥2)个编码器串联而成;第1级编码器提取并融合稀疏深度图及对应彩色图像的特征,得到第1级编码特征;第i级编码器以第i-1级编码特征作为输入,提取第i级编码特征,其中1<i≤N。
3.根据权利要求1中所述的方法,其特征在于:
第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样,得到第j级深度补全上采样特征和语义分割上采样特征,其中1≤j<M;上采样方法如公式(3)-(4)所示;
cuj=u1(cdj-1) (3)
suj=u2(sdj-1) (4)
式中,cdj-1和sdj-1分别表示第j-1级深度补全解码特征和语义分割解码特征;cuj和suj分别表示第j级深度补全上采样特征和语义分割上采样特征;u1和u2均表示上采样函数。
4.根据权利要求1中所述的方法,其特征在于:
当1≤j<min(M,N)时,第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合,得到第j级深度补全融合特征;并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合,得到第j级语义分割融合特征;融合方法如公式(7)-(8)所示;
cfj=f3(cgj,cuj,encN-j) (7)
sfj=f4(sgj,suj,encN-j) (8)
式中,encN-j表示第N-j级编码特征;cfj和sfj分别表示第j级深度补全融合特征和语义分割融合特征;f3和f4均表示融合函数;
当N≤j<M时,第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合,得到第j级深度补全融合特征;并仅对第j级语义分割指导特征和语义分割上采样特征进行融合,得到第j级语义分割融合特征;融合方法如公式(9)-(10)所示;
cfj=f5(cgj,cuj) (9)
sfj=f6(sgj,suj) (10)
式中,f5和f6均表示融合函数。
5.根据权利要求1中所述的方法,其特征在于:
第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互,得到第j级深度补全解码特征和语义分割解码特征,其中1≤j<M;交互方法如公式(11)-(12)所示;
cdj=a3(cfj)+σ(e2(cfj))⊙e3(sfj) (11)
sdj=a4(sfj)+σ(e4(sfj))⊙e5(cfj) (12)
式中,cdj和sdj分别表示第j级深度补全解码特征和语义分割解码特征;e2~e5均表示特征提取函数;a3和a4均表示自注意力函数;⊙表示逐元素相乘;σ表示Sigmoid激活函数,实现有选择性的信息交互。
6.根据权利要求1中所述的方法,其输出单元特征在于:
第M级交互解码器的输出单元对第M级深度补全被指导特征进行回归,得到深度图;并对第M级语义分割指导特征进行分类,得到语义分割图;回归和分类方法分别如公式(13)和公式(14)所示;
d=r(cgM) (13)
s=c(sgM) (14)
式中,cgM和sgM分别表示第M级深度补全被指导特征和语义分割指导特征;d和s分别表示模型输出的深度图和语义分割图;r和c分别表示回归函数和分类函数。
7.根据权利要求1中所述的方法,其特征在于:
所述跨域边缘一致性损失Lcec包括不连续项Lais和平滑项Lsmo,如公式(15)-(17)所示;
Lcec=Ldis+Lsmo (15)
式中,s*表示真实语义分割图;sgn表示符号函数;δh和δw分别表示在图像的高度方向和宽度方向上的求导函数;h和w分别表示在图像的高度方向和宽度方向上的索引;Np表示图像像素数量。
CN202010377563.8A 2020-05-07 2020-05-07 一种联合语义分割的场景深度补全方法 Active CN111627055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010377563.8A CN111627055B (zh) 2020-05-07 2020-05-07 一种联合语义分割的场景深度补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010377563.8A CN111627055B (zh) 2020-05-07 2020-05-07 一种联合语义分割的场景深度补全方法

Publications (2)

Publication Number Publication Date
CN111627055A CN111627055A (zh) 2020-09-04
CN111627055B true CN111627055B (zh) 2023-11-24

Family

ID=72272794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010377563.8A Active CN111627055B (zh) 2020-05-07 2020-05-07 一种联合语义分割的场景深度补全方法

Country Status (1)

Country Link
CN (1) CN111627055B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908036B2 (en) * 2020-09-28 2024-02-20 Adobe Inc. Refining image acquisition data through domain adaptation
CN112837360B (zh) * 2021-01-07 2023-08-11 北京百度网讯科技有限公司 深度信息处理方法、装置、设备、存储介质和程序产品
CN114120253B (zh) * 2021-10-29 2023-11-14 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215034A (zh) * 2018-07-06 2019-01-15 成都图必优科技有限公司 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法
CN109410129A (zh) * 2018-09-28 2019-03-01 大连理工大学 一种低光照图像场景理解的方法
CN109447923A (zh) * 2018-09-27 2019-03-08 中国科学院计算技术研究所 一种语义场景补全系统与方法
CN110147794A (zh) * 2019-05-21 2019-08-20 东北大学 一种基于深度学习的无人车室外场景实时分割方法
CN110263833A (zh) * 2019-06-03 2019-09-20 韩慧慧 基于编码-解码结构的图像语义分割方法
CN110956579A (zh) * 2019-11-27 2020-04-03 中山大学 一种基于生成语义分割图的文本改写图片方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678256B2 (en) * 2017-09-28 2020-06-09 Nec Corporation Generating occlusion-aware bird eye view representations of complex road scenes
US10685446B2 (en) * 2018-01-12 2020-06-16 Intel Corporation Method and system of recurrent semantic segmentation for image processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215034A (zh) * 2018-07-06 2019-01-15 成都图必优科技有限公司 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法
CN109447923A (zh) * 2018-09-27 2019-03-08 中国科学院计算技术研究所 一种语义场景补全系统与方法
CN109410129A (zh) * 2018-09-28 2019-03-01 大连理工大学 一种低光照图像场景理解的方法
CN110147794A (zh) * 2019-05-21 2019-08-20 东北大学 一种基于深度学习的无人车室外场景实时分割方法
CN110263833A (zh) * 2019-06-03 2019-09-20 韩慧慧 基于编码-解码结构的图像语义分割方法
CN110956579A (zh) * 2019-11-27 2020-04-03 中山大学 一种基于生成语义分割图的文本改写图片方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Nan Zou 等."Simultaneous Semantic Segmentation and Depth Completion with Constraint of Boundary".《Sensors》.2020,第20卷(第3期),正文第1-15页. *
Zhenyu Zhang 等."Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation".《Proceedings of the European Conference on Computer Vision (ECCV)》.2018,第235-251页. *
林坤辉 等."基于语义分割与深度估计的行车环境实时解析".《计算机测量与控制》.2019,第27卷(第12期),第234-238页. *

Also Published As

Publication number Publication date
CN111627055A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111627055B (zh) 一种联合语义分割的场景深度补全方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN111539887B (zh) 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN111985343A (zh) 一种行为识别深度网络模型的构建方法及行为识别方法
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN111445476A (zh) 基于多模态无监督图像内容解耦的单目深度估计方法
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN112581409A (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN114998373A (zh) 基于多尺度损失函数的改进型U-Net云图分割方法
CN111798460B (zh) 一种卫星图像分割方法
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
CN112419325A (zh) 一种基于深度学习的超像素分割方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant