CN111627055A - 一种联合语义分割的场景深度补全方法 - Google Patents
一种联合语义分割的场景深度补全方法 Download PDFInfo
- Publication number
- CN111627055A CN111627055A CN202010377563.8A CN202010377563A CN111627055A CN 111627055 A CN111627055 A CN 111627055A CN 202010377563 A CN202010377563 A CN 202010377563A CN 111627055 A CN111627055 A CN 111627055A
- Authority
- CN
- China
- Prior art keywords
- feature
- semantic segmentation
- level
- completion
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006870 function Effects 0.000 claims abstract description 69
- 230000002452 interceptive effect Effects 0.000 claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007500 overflow downdraw method Methods 0.000 claims description 7
- 230000006798 recombination Effects 0.000 claims description 7
- 238000005215 recombination Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 239000002778 food additive Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种联合语义分割的场景深度补全方法,通过构建联合语义分割的网络模型进行场景深度补全,网络模型包括编码模块、特征去干扰模块和交互解码模块。编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征;特征去干扰模块与编码模块连接,对最后一个尺度特征拆分重组实现深度补全和语义分割任务间信息去干扰;交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图。网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失。跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,重点提升深度图在语义边缘区域的性能。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种联合语义分割的场景深度补全方法。
背景技术
场景深度补全,即通过算法补全深度图中空洞或者不可靠的位置得到致密且精确的深度图,是计算机视觉领域中的一个重要课题,在机器人、自动驾驶和增强现实等领域中起到关键性作用。场景深度补全方法主要分为基于传统立体匹配的方法、基于硬件传感器的方法和基于学习的方法。
基于传统立体匹配的方法假设不同视图间匹配点的颜色或者特征相近,通过最优化能量函数来求解场景的深度信息。该方法在区域纹理丰富且视图间光照变化不明显的情况下可取得较好的结果,然而,实际场景中不同视图间存在遮挡区域和光照变化,违反了该方法的基本假设。此外,大量弱纹理区域导致该方法准确性较低。
基于硬件传感器的方法受限于各传感器自身的缺陷。例如,激光雷达造价昂贵,且只能获取稀疏的点云信息。基于结构光的传感器易受强光干扰且感知范围有限,往往只适用于室内环境。
近来,深度学习的蓬勃发展使得基于学习的方法受到越来越广泛的关注。其中一些方法仅以单目彩色图像作为输入,利用卷积神经网络强大的场景解析能力,估计场景深度。但是这种方法本质上存在不适定性,无法得到尺度信息因而不能获取准确的深度结果。还有一些方法借鉴传统立体匹配或者运动恢复结构的思想,通过卷积神经网络进行建模。但是相比传统立体匹配或者运动恢复结构,没有很好的泛化能力,且需要海量数据来训练。
基于卷积神经网络的深度补全方法的关键在于提取优良的场景结构特征,因此联合深度补全任务和语义分割任务可显式地提升网络提取多元化场景结构信息的能力。
发明内容
为了解决现有技术存在的问题,本发明提供了一种联合语义分割的场景深度补全方法,利用语义分割任务中特征空间信息和语义信息丰富的特点,显式地提升网络提取多元化场景结构信息的能力。
本发明提供的联合语义分割的场景深度补全方法,包括网络模型和损失函数。
网络模型包括编码模块、特征去干扰模块和交互解码模块。所述编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征;所述特征去干扰模块与编码模块连接,通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰;所述交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图。网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失。所述跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,可重点提升深度图在语义边缘区域的性能。
本发明中,编码模块由N(N≥2)个编码器串联而成。第1级编码器提取并融合稀疏深度图及对应彩色图像的特征,得到第1级编码特征。第i级编码器以第i-1级编码特征作为输入,提取第i级编码特征,其中1<i≤N。
本发明中,特征去干扰模块包括特征拆分模块和特征重组模块。
特征拆分模块将第N级编码特征分成三个部分,第一部分特征仅用于深度补全任务,第二部分特征仅用于语义分割任务,第三部分特征由两项任务共享。
特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组,得到深度补全去干扰特征和语义分割去干扰特征。重组方法如公式(1)-(2)所示。
cdm=a1(f1(dm1,dm3)) (1)
sdm=a2(f2(dm2,dm3)) (2)
式中,dm1、dm2和dm3分别表示第一部分特征、第二部分特征和第三部分特征;cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征;f1和f2均表示融合函数;a1和a2均表示自注意力函数。
本发明中,交互解码模块由M(M≥2)个交互解码器串联而成。
其中,将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征。第j级交互解码器由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成,以第j-1级深度补全解码特征和语义分割解码特征作为输入,提取第j级深度补全解码特征和语义分割解码特征,其中1≤j<M。
第M级交互解码器由上采样单元、单向指导单元和输出单元依次串联而成,以第M-1级深度补全解码特征和语义分割解码特征作为输入,输出深度图和语义分割图。
本发明中,第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样,得到第j级深度补全上采样特征和语义分割上采样特征,其中1≤j<M。上采样方法如公式(3)-(4)所示。
cuj=u1(cdj-1) (3)
suj=u2(sdj-1) (4)
式中,cdj-1和sdj-1分别表示第j-1级深度补全解码特征和语义分割解码特征;cuj和suj分别表示第j级深度补全上采样特征和语义分割上采样特征;u1和u2均表示上采样函数。
本发明中,第j级单向指导单元对第j级语义分割上采样特征进行特征提取,得到第j级语义分割指导特征;并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导,得到第j级深度补全被指导特征,其中1≤j<M。特征提取和指导方法分别如公式(5)和公式(6)所示。
sgj=e1(suj) (5)
cgj=g(cuj,sgj) (6)
式中,sgj和cgj分别表示第j级语义分割指导特征和深度补全被指导特征;e1表示特征提取函数;g表示指导函数,cuj作为该函数的输入特征,sgj作为该函数的指导特征。
本发明中,当1≤j<min(M,N)时,第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合,得到第j级深度补全融合特征。并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合,得到第j级语义分割融合特征。融合方法如公式(7)-(8)所示。
cfj=f3(cgj,cuj,encN-j) (7)
sfj=f4(sgj,suj,encN-j) (8)
式中,encN-j表示第N-j级编码特征;cfj和sfj分别表示第j级深度补全融合特征和语义分割融合特征;f3和f4均表示融合函数。
当N≤j<M时,第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合,得到第j级深度补全融合特征;并仅对第j级语义分割指导特征和语义分割上采样特征进行融合,得到第j级语义分割融合特征。融合方法如公式(9)-(10)所示。
cfj=f5(cgj,cuj) (9)
sfj=f6(sgj,suj) (10)
式中,f5和f6均表示融合函数。
本发明中,第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互,得到第j级深度补全解码特征和语义分割解码特征,其中1≤j<M。交互方法如公式(11)-(12)所示。
cdj=a3(cfj)+σ(e2(cfj))⊙e3(sfj) (11)
sdj=a4(sfj)+σ(e4(sfj))⊙e5(cfj) (12)
式中,cdj和sdj分别表示第j级深度补全解码特征和语义分割解码特征;e2~e5均表示特征提取函数;a3和a4均表示自注意力函数;⊙表示逐元素相乘;σ表示Sigmoid激活函数,实现有选择性的信息交互。
本发明中,第M级交互解码器中的输出单元对第M-1级深度补全被指导特征进行回归,得到深度图。并对第M-1级语义分割指导特征进行分类,得到语义分割图。回归和分类方法分别如公式(13)和公式(14)所示。
d=r(cgM-1) (13)
s=c(sgM-1) (14)
式中,cgM-1和sgM-1分别表示第M-1级深度补全被指导特征和语义分割指导特征;d和s分别表示模型输出的深度图和语义分割图;r和c分别表示回归函数和分类函数。
本发明中,跨域边缘一致性损失Lcec包括不连续项Ldis和平滑项Lsmo,如公式(15)-(17)所示。
Lcec=Ldis+Lsmo (15)
式中,s*表示真实语义分割图;sgn表示符号函数;δh和δw分别表示在图像的高度方向和宽度方向上的求导函数;h和w分别表示在图像的高度方向和宽度方向上的索引;Np表示图像像素数量。
本发明的有益效果是:
(1)提出一种对联合网络中的共享特征进行去干扰的方法,通过拆分和重组两个步骤,从共享特征中分别提取出对于各任务而言仅包含有利信息的特征,实现联合任务间信息去干扰。
(2)提出一种在联合网络的独立分支之间进行信息交互的策略,一方面,用语义分割相关特征对深度补全相关特征进行指导,另一方面,在深度补全相关特征和语义分割相关特征之间进行双向且有选择性的信息交互。
(3)提出一种跨域边缘一致性损失,利用真实语义分割图指导模型对深度图的补全,重点提升深度图在语义边缘区域的性能。
附图说明
图1是本发明实施例提供的场景深度补全网络的框图;
图2是本发明实施例提供的特征去干扰模块的框图;
图3是本发明实施例提供的第j级交互解码器的框图,其中1≤j<6;
图4时本发明实施例提供的第6级交互解码器的框图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中,诸如“第1”和“第2”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在顺序关系。
同时,在本发明实施例中,术语“包括”、“包含”或者其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括这些过程、方法、物品或者装置所固有的要素。
本发明提出了一种联合语义分割的场景深度补全方法,如图1所示,下面介绍本发明的实施例。
网络模型包括编码模块、特征去干扰模块和交互解码模块。所述编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征。所述特征去干扰模块与编码模块连接,通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰。所述交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图。
本实施例中,编码模块由6个编码器串联而成。第1级编码器提取并融合稀疏深度图及对应彩色图像的特征,得到第1级编码特征;第i级编码器以第i-1级编码特征作为输入,提取第i级编码特征,其中1<i≤6。例如,作为一种具体实现方法,第1级编码器可由两个并行的卷积层构成,其中一个卷积层提取稀疏深度图的特征,该卷积层之后还包括ReLU激活函数;另一个卷积层提取彩色图像的特征,该卷积层之后还包括批归一化层和ReLU激活函数;将提取到的两个特征在通道维度上级联得到第1级编码特征;第2级~第5级编码器分别可采用ResNet34中ResBlock1~ResBlock4的计算方法;第6级编码器采用DeepLabv3中ASPP的计算方法。
特征去干扰模块包括特征拆分模块和特征重组模块,如图2所示,通过拆分和重组两个步骤,从共享特征中分别提取出对于各任务而言仅包含有利信息的特征,实现联合任务间信息去干扰。
其中,特征拆分模块将第6级编码特征分成三个部分,第一部分特征仅用于深度补全任务,第二部分特征仅用于语义分割任务,第三部分特征由两项任务共享。拆分可采用基于学习的方法或预先人为确定的方法,例如,作为一种具体实现方法,拆分时按照预设的比例,采用三个卷积层将第6级编码特征分成三个部分,每一个卷积层之后还包括批归一化层和ReLU激活函数。
特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组,得到深度补全去干扰特征和语义分割去干扰特征。重组方法如公式(1)-(2)所示。
cdm=se1(f1(dm1,dm3)) (1)
sdm=se2(f2(dm1,dm3)) (2)
式中,dm1、dm2和dm3分别表示第一部分特征、第二部分特征和第三部分特征;cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征;f1和f2均表示融合函数;se1和se2均表示自注意力函数。例如,作为一种具体实现方法,f1和f2可表示对所有输入在通道维度上进行级联的操作;se1和se2可表示挤压-激励(Squeeze-and-Excitation)函数,以公式(1)中的se1为例,挤压-激励函数的计算方法如公式(1.1)-(1.4)所示。
dm13=f1(dm1,dm3) (1.1)
S=σ(W2*δ(W1*Z)) (1.3)
cdm=S·dm13 (1.4)
式中,dm13、Z和S表示计算过程中的三个中间特征;σ和δ分别表示Sigmoid和ReLU激活函数;*和·分别表示卷积和元素对应位置相乘操作;W1和W2均表示卷积核参数;H和W分别表示图像或特征的高度和宽度;c、h和w分别表示在图像或特征的通道方向、高度方向和宽度方向上的索引。
本实施例中,交互解码模块由6个交互解码器串联而成,一方面,用语义分割相关特征对深度补全相关特征进行指导,另一方面,在深度补全相关特征和语义分割相关特征之间进行双向且有选择性的信息交互。具体地,将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征。第j级交互解码器的框架如图3所示,由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成,以第j-1级深度补全解码特征和语义分割解码特征作为输入,提取第j级深度补全解码特征和语义分割解码特征,其中1≤j<6。第6级解码器的框架如图4所示,由上采样单元、单向指导单元和输出单元依次串联而成,以第5级深度补全解码特征和语义分割解码特征作为输入,输出深度图和语义分割图。
第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样,得到第j级深度补全上采样特征和语义分割上采样特征,其中1≤j<6。上采样方法如公式(3)-(4)所示。
cuj=u1(cdj-1) (3)
suj=u2(sdj-1) (4)
式中,cdj-1和sdj-1分别表示第j-1级深度补全解码特征和语义分割解码特征;cuj和suj分别表示第j级深度补全上采样特征和语义分割上采样特征;u1和u2均表示上采样函数。例如,作为一种具体实现方法,u1和u2可由一个双线性插值层、一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成。
第j级单向指导单元对第j级语义分割上采样特征进行特征提取,得到第j级语义分割指导特征;并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导,得到第j级深度补全被指导特征,其中1≤j<6。特征提取和指导方法分别如公式(5)和公式(6)所示。
sgj=e1(suj) (5)
cgj=g(cuj,sgj) (6)
式中,sgj和cgj分别表示第j级语义分割指导特征和深度补全被指导特征;e1表示特征提取函数;g表示指导函数。例如,作为一种具体实现方法,e1可由一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成;g可表示像素自适应卷积(Pixel AdaptiveConvolution)函数,像素自适应卷积的计算方法如公式(6.1)-(6.2)所示。
cgj[h,w]=∑m∑lk(sgj[h,w],sgj[h+m,w+l])W3[m,l]cuj[h+m,w+l] (6.1)
式中,k(·)表示高斯核函数,计算方法如公式(6.2)所示;W3表示卷积核参数;m和l分别表示在卷积核的高度方向和宽度方向上的索引;T表示转置函数。
第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第6-j级编码特征进行融合,得到第j级深度补全融合特征;并对第j级语义分割指导特征、第j级语义分割上采样特征和第6-j级编码特征进行融合,得到第j级语义分割融合特征,其中1≤j<6。融合方法如公式(7)-(8)所示。
cfj=f3(cgj,cuj,enc6-j) (7)
sfj=f4(sgj,suj,enc6-j) (8)
式中,enc6-j表示第6-j级编码特征;cfj和sfj分别表示第j级深度补全融合特征和语义分割融合特征;f3和f4均表示融合函数。例如,作为一种具体实现方法,f3和f4可表示对所有输入在通道维度上进行级联的操作。
另外,所述编码器和交互解码器的数量可以不相等。假设编码器的数量为N,交互解码器的数量为M。作为另一种实施方式,当1≤j<min(M,N)时,第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合,得到第j级深度补全融合特征;并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合,得到第j级语义分割融合特征;融合方法如公式(9)-(10)所示。
cfj=f5(cgj,cuj,encN-j) (9)
sfj=f6(sgj,suj,encN-j) (10)
式中,encN-j表示第N-j级编码特征;f5和f6均表示融合函数。例如,作为一种具体实现方法,f5和f6可表示对所有输入在通道维度上进行级联的操作。
当N≤j<M时,第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合,得到第j级深度补全融合特征;并仅对第j级语义分割指导特征和语义分割上采样特征进行融合,得到第j级语义分割融合特征;融合方法如公式(11)-(12)所示。
cfj=f7(cgj,cuj) (11)
sfj=f8(sgj,suj) (12)
式中,f7和f8均表示融合函数。例如,作为一种具体实现方法,f7和f8可表示对所有输入在通道维度上进行级联的操作。
第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互,得到第j级深度补全解码特征和语义分割解码特征,其中1≤j<6。交互方法如公式(13)-(14)所示。
cdj=gc1(cfj)+σ(e2(cfj))⊙e3(sfj) (13)
sdj=gc2(sfj)+σ(e4(sfj))⊙e5(cfj) (14)
式中,cdj和sdj分别表示第j级深度补全解码特征和语义分割解码特征;⊙表示逐元素相乘;σ表示Sigmoid激活函数,实现有选择性的信息交互;e2~e5均表示特征提取函数;gc1和gc2均表示自注意力函数。例如,作为一种具体实现方法,e2~e5可由一个卷积层、一个批归一化层和一个ReLU激活函数依次串联而成;gc1和gc2可表示全局内容(GlobalContext)函数,以公式(13)中的gc1为例,全局内容函数的计算方法如公式(13.1)所示。
式中,W4~W6均表示卷积核参数;LN(·)表示层批归一化函数。
第6级交互解码器中的输出单元对第6级深度补全被指导特征进行回归,得到深度图。并对第6级语义分割指导特征进行分类,得到语义分割图。回归和分类方法分别如公式(15)和公式(16)所示。
d=r(cg6) (15)
s=c(sg6) (16)
式中,cg6和sg6分别表示第6级深度补全被指导特征和语义分割指导特征;d和s分别表示模型输出的深度图和语义分割图;r和c分别表示回归函数和分类函数。例如,作为一种具体实现方法,r可由一个卷积层构成,c可由一个卷积层和一个Softmax激活函数依次串联而成。
损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失,如公式(17)所示。
L=λdLa+λsLs+λcecLeec (17)
式中,Ld、Ls和Lec分别表示深度补全损失、语义分割损失和跨域边缘一致性损失;λd、λs和λcec分别表示Ld、Ls和Leec的权重,λd=λs=1,λcec=0.1。
深度补全损失计算模型输出深度图和数据集内对应真实深度图的相似度,例如,作为一种具体实现方法,相似度的度量方法可采用欧式距离,如公式(18)所示。
Ld=||d-d*||2 (18)
式中,d和d*分别表示模型输出深度图和真实深度图。
语义分割损失计算模型输出语义分割图和数据集内对应真实语义图的相似度,例如,作为一种具体实现方法,相似度的度量方法可采用交叉熵,如公式(19)所示。
式中,s和s*分别表示模型输出语义分割图和真实语义分割图;nc表示语义类别总数;Np表示图像像素数量。n和k分别为图像像素和语义类别的索引。
跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,可以重点提升深度图在语义边缘区域的性能,包括不连续项Ldis和平滑项Lsmo,如公式(20)-(22)所示。
Lcec=Ldis+Lsmo (20)
式中,sgn表示符号函数;δh和δw分别表示在图像的高度方向和宽度方向上的求导函数。
以上结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和润饰,这样的修改和润饰均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种联合语义分割的场景深度补全方法,其特征在于:通过构建联合语义分割的网络模型进行场景深度补全,所述网络模型包括编码模块、特征去干扰模块和交互解码模块;所述编码模块以稀疏深度图及对应彩色图像作为输入,提取多尺度特征;所述特征去干扰模块与编码模块连接,通过对编码模块最后一个尺度特征进行拆分重组实现深度补全和语义分割任务间信息去干扰。所述交互解码模块与特征去干扰模块连接,实现语义分割任务对深度补全任务的单向指导和两项任务间的双向交互,并输出深度图和语义分割图;所述网络模型训练时的损失函数包括深度补全损失、语义分割损失和跨域边缘一致性损失;所述跨域边缘一致性损失利用真实语义分割图指导模型对深度图的补全,可重点提升深度图在语义边缘区域的性能。
2.根据权利要求1中所述的方法,其特征在于:
所述编码模块由N(N≥2)个编码器串联而成;第1级编码器提取并融合稀疏深度图及对应彩色图像的特征,得到第1级编码特征;第i级编码器以第i 1级编码特征作为输入,提取第i级编码特征,其中1<i≤N。
3.根据权利要求1中所述的方法,其特征在于:
所述特征去干扰模块包括特征拆分模块和特征重组模块。
特征拆分模块将第N级编码特征分成三个部分,第一部分特征仅用于深度补全任务,第二部分特征仅用于语义分割任务,第三部分特征由两项任务共享。
特征重组模块将第三部分特征分别与第一部分特征和第二部分特征重组,得到深度补全去干扰特征和语义分割去干扰特征;重组方法如公式(1)-(2)所示;
cdm=a1(f1(dm1,dm3)) (1)
sdm=a2(f2(dm2,dm3)) (2)
式中,dm1、dm2和dm3分别表示第一部分特征、第二部分特征和第三部分特征;cdm和sdm分别表示深度补全去干扰特征和语义分割去干扰特征;f1和f2均表示融合函数;a1和a2均表示自注意力函数。
4.根据权利要求1中所述的方法,其特征在于:
所述交互解码模块由M(M≥2)个交互解码器串联而成。
其中,将深度补全去干扰特征和语义分割去干扰特征分别视为第0级深度补全解码特征和语义分割解码特征;第j级交互解码器由上采样单元、单向指导单元、融合单元和双向交互单元依次串联而成,以第j-1级深度补全解码特征和语义分割解码特征作为输入,提取第j级深度补全解码特征和语义分割解码特征,其中1≤j<M。
第M级交互解码器由上采样单元、单向指导单元和输出单元依次串联而成,以第M-1级深度补全解码特征和语义分割解码特征作为输入,输出深度图和语义分割图。
5.根据权利要求4中所述的方法,其特征在于:
第j级上采样单元对第j-1级深度补全解码特征和语义分割解码特征进行上采样,得到第j级深度补全上采样特征和语义分割上采样特征,其中1≤j<M;上采样方法如公式(3)-(4)所示;
cuj=u1(cdj-1) (3)
suj=u2(sdj-1) (4)
式中,cdj-1和sdj-1分别表示第j-1级深度补全解码特征和语义分割解码特征;cuj和suj分别表示第j级深度补全上采样特征和语义分割上采样特征;u1和u2均表示上采样函数。
6.根据权利要求4中所述的方法,其特征在于:
第j级单向指导单元对第j级语义分割上采样特征进行特征提取,得到第j级语义分割指导特征;并用第j级语义分割指导特征对第j级深度补全上采样特征进行指导,得到第j级深度补全被指导特征,其中1≤j<M;特征提取和指导方法分别如公式(5)和公式(6)所示;
sgj=e1(suj) (5)
cgj=g(cuj,sgj) (6)
式中,sgj和cgj分别表示第j级语义分割指导特征和深度补全被指导特征;e1表示特征提取函数;g表示指导函数,cuj作为该函数的输入特征,sgj作为该函数的指导特征。
7.根据权利要求4中所述的方法,其特征在于:
当1≤j<min(M,N)时,第j级融合单元对第j级深度补全被指导特征、第j级深度补全上采样特征和第N-j级编码特征进行融合,得到第j级深度补全融合特征。并对第j级语义分割指导特征、第j级语义分割上采样特征和第N-j级编码特征进行融合,得到第j级语义分割融合特征;融合方法如公式(7)-(8)所示;
cfj=f3(cgj,cuj,encN-j) (7)
sfj=f4(sgj,suj,encN-j) (8)
式中,encN-j表示第N-j级编码特征;cfj和sfj分别表示第j级深度补全融合特征和语义分割融合特征;f3和f4均表示融合函数;
当N≤j<M时,第j级融合单元仅对第j级深度补全被指导特征和深度补全上采样特征进行融合,得到第j级深度补全融合特征;并仅对第j级语义分割指导特征和语义分割上采样特征进行融合,得到第j级语义分割融合特征;融合方法如公式(9)-(10)所示;
cfj=f5(cgj,cuj) (9)
sfj=f6(sgj,suj) (10)
式中,f5和f6均表示融合函数。
8.根据权利要求4中所述的方法,其特征在于:
第j级双向交互单元在第j级深度补全融合特征和语义分割融合特征之间进行交互,得到第j级深度补全解码特征和语义分割解码特征,其中1≤j<M;交互方法如公式(11)-(12)所示;
cdj=d3(cfj)+σ(e2(cfj))⊙e3(sfj) (11)
sdj=a4(sfj)+σ(e4(sfj))⊙e5(cfj) (12)
式中,cdj和sdj分别表示第j级深度补全解码特征和语义分割解码特征;e2~e5均表示特征提取函数;a3和a4均表示自注意力函数;⊙表示逐元素相乘;σ表示Sigmoid激活函数,实现有选择性的信息交互。
9.根据权利要求4中所述的方法,其输出单元特征在于:
第M级交互解码器的输出单元对第M级深度补全被指导特征进行回归,得到深度图;并对第M级语义分割指导特征进行分类,得到语义分割图;回归和分类方法分别如公式(13)和公式(14)所示;
d=r(cgM) (13)
s=c(sgM) (14)
式中,cgM和sgM分别表示第M级深度补全被指导特征和语义分割指导特征;d和s分别表示模型输出的深度图和语义分割图;r和c分别表示回归函数和分类函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010377563.8A CN111627055B (zh) | 2020-05-07 | 2020-05-07 | 一种联合语义分割的场景深度补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010377563.8A CN111627055B (zh) | 2020-05-07 | 2020-05-07 | 一种联合语义分割的场景深度补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627055A true CN111627055A (zh) | 2020-09-04 |
CN111627055B CN111627055B (zh) | 2023-11-24 |
Family
ID=72272794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010377563.8A Active CN111627055B (zh) | 2020-05-07 | 2020-05-07 | 一种联合语义分割的场景深度补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627055B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837360A (zh) * | 2021-01-07 | 2021-05-25 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质和程序产品 |
CN114120253A (zh) * | 2021-10-29 | 2022-03-01 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
US20220101476A1 (en) * | 2020-09-28 | 2022-03-31 | Adobe Inc. | Refining image acquisition data through domain adaptation |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
US20190043203A1 (en) * | 2018-01-12 | 2019-02-07 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
CN109410129A (zh) * | 2018-09-28 | 2019-03-01 | 大连理工大学 | 一种低光照图像场景理解的方法 |
CN109447923A (zh) * | 2018-09-27 | 2019-03-08 | 中国科学院计算技术研究所 | 一种语义场景补全系统与方法 |
US20190094875A1 (en) * | 2017-09-28 | 2019-03-28 | Nec Laboratories America, Inc. | Generating occlusion-aware bird eye view representations of complex road scenes |
CN110147794A (zh) * | 2019-05-21 | 2019-08-20 | 东北大学 | 一种基于深度学习的无人车室外场景实时分割方法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
CN110956579A (zh) * | 2019-11-27 | 2020-04-03 | 中山大学 | 一种基于生成语义分割图的文本改写图片方法 |
-
2020
- 2020-05-07 CN CN202010377563.8A patent/CN111627055B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190094875A1 (en) * | 2017-09-28 | 2019-03-28 | Nec Laboratories America, Inc. | Generating occlusion-aware bird eye view representations of complex road scenes |
US20190043203A1 (en) * | 2018-01-12 | 2019-02-07 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
CN109447923A (zh) * | 2018-09-27 | 2019-03-08 | 中国科学院计算技术研究所 | 一种语义场景补全系统与方法 |
CN109410129A (zh) * | 2018-09-28 | 2019-03-01 | 大连理工大学 | 一种低光照图像场景理解的方法 |
CN110147794A (zh) * | 2019-05-21 | 2019-08-20 | 东北大学 | 一种基于深度学习的无人车室外场景实时分割方法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
CN110956579A (zh) * | 2019-11-27 | 2020-04-03 | 中山大学 | 一种基于生成语义分割图的文本改写图片方法 |
Non-Patent Citations (3)
Title |
---|
NAN ZOU 等: ""Simultaneous Semantic Segmentation and Depth Completion with Constraint of Boundary"", vol. 20, no. 3, pages 1 - 15 * |
ZHENYU ZHANG 等: ""Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation"", pages 235 - 251 * |
林坤辉 等: ""基于语义分割与深度估计的行车环境实时解析"", vol. 27, no. 12, pages 234 - 238 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220101476A1 (en) * | 2020-09-28 | 2022-03-31 | Adobe Inc. | Refining image acquisition data through domain adaptation |
US11908036B2 (en) * | 2020-09-28 | 2024-02-20 | Adobe Inc. | Refining image acquisition data through domain adaptation |
CN112837360A (zh) * | 2021-01-07 | 2021-05-25 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质和程序产品 |
CN112837360B (zh) * | 2021-01-07 | 2023-08-11 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质和程序产品 |
CN114120253A (zh) * | 2021-10-29 | 2022-03-01 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
CN114120253B (zh) * | 2021-10-29 | 2023-11-14 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111627055B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN113469094B (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
CN110781776B (zh) | 一种基于预测和残差细化网络的道路提取方法 | |
CN111627055B (zh) | 一种联合语义分割的场景深度补全方法 | |
CN115170638B (zh) | 一种双目视觉立体匹配网络系统及其构建方法 | |
CN117078943B (zh) | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN111985343A (zh) | 一种行为识别深度网络模型的构建方法及行为识别方法 | |
CN111445476A (zh) | 基于多模态无监督图像内容解耦的单目深度估计方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN112581409A (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN116222577B (zh) | 闭环检测方法、训练方法、系统、电子设备及存储介质 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN111798460B (zh) | 一种卫星图像分割方法 | |
CN112418229A (zh) | 一种基于深度学习的无人船海上场景图像实时分割方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN115393735A (zh) | 基于改进U-Net的遥感影像建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |