CN112950645B - 一种基于多任务深度学习的图像语义分割方法 - Google Patents

一种基于多任务深度学习的图像语义分割方法 Download PDF

Info

Publication number
CN112950645B
CN112950645B CN202110312685.3A CN202110312685A CN112950645B CN 112950645 B CN112950645 B CN 112950645B CN 202110312685 A CN202110312685 A CN 202110312685A CN 112950645 B CN112950645 B CN 112950645B
Authority
CN
China
Prior art keywords
image
task
semantic segmentation
deep learning
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110312685.3A
Other languages
English (en)
Other versions
CN112950645A (zh
Inventor
袁兴生
龚建兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110312685.3A priority Critical patent/CN112950645B/zh
Publication of CN112950645A publication Critical patent/CN112950645A/zh
Application granted granted Critical
Publication of CN112950645B publication Critical patent/CN112950645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务深度学习的图像语义分割方法,具体方案为:包括以下步骤:S1:将自然场景图像进行语义分割,得到基于多任务深度学习的多层级结构化特征表达方法;S2:构建基于多任务深度学习的图像语义分割网络;S3:对多任务深度网络进行优化;S4:计算多任务深度学习训练中的梯度传播,得到基于多任务深度学习的图像语义分割模型;S1具体过程如下:将图像局部特征进行组合,得到图像信息;将图像信息中局部语义特征抽取,刻画图像中局部特征之间的相关关系,并构建层次结构。本发明可多任务深度学习方法解决图像语义分割中分割细节信息不敏感、目标定位精度低的问题,对促进图像语义分割广泛应用方面具有积极意义。

Description

一种基于多任务深度学习的图像语义分割方法
技术领域
本发明涉及图像语义分割领域,更具体地说,它涉及一种基于多任务深度学习的图像语义分割方法。
背景技术
图像语义分割作为机器视觉技术中图像理解的基础环节,融合传统意义的图像分割和目标识别两个任务,支持计算机系统和机器人等智能终端理解图像的语义内容,从而辅助指导和规划行动。图像语义分割在自动驾驶中通过对车体前方街道场景的语义分割可以精确定位道路、前方车辆和行人等场景目标,从而提升自动驾驶安全性能。Hariharan等首次利用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)解决语义分割问题,提出一种协同检测和分割方法,并利用R-CNN(Regions with Convolutional NeuralNetwork Features)框架对网络参数进行训练。
深度网络模型在提取图像的全局特征和上下文信息方面有突出的优势,但由于其特殊的结构和特征学习模式,使其在语义分割应用中存在明显的问题和挑战:1)当前基于FCN的图像语义分割方法以其全新的思路开辟了一个新的语义分割方向,但仍存在两个明显的缺点:分割得到的结果不够精细,对图像中的细节不敏感;对各个像素进行分类,没有充分考虑像素与像素之间的关系,缺乏空间一致性以及边缘信息约束。2)深度模型以端到端(end-to-end)的学习方式,成功的关键在于对局部图像变换的不变性,允许其学习更为抽象的数据表达,而这种不变性会影响语义分割为每个像素分类,并且引起目标定位精度降低。如何开展进一步的基于深度神经网络的图像语义分割研究,从而取得视觉特征的旋转不变性、尺度不变性和遮挡鲁棒性等不变性表达,是基于深度神经网络模型的图像语义分割方法亟待解决的问题。
发明内容
为解决上述技术问题,本发明提供一种基于多任务深度学习的图像语义分割方法,首先针对复杂自然场景图像语义分割提出基于多任务深度学习的多层级结构化特征表达方法;然后,利用深度残差网络和门限卷积层(GCL)构建基于多任务深度学习的图像语义分割网络,利用同方差不确定性(homoscedastic uncertainty)平衡多任务损失,对多任务深度网络进行优化;最后,使用Gumbel softmax技巧计算多任务深度学习训练中的梯度传播,采用多尺度推理方案对多任务深度学习网络训练,得到基于多任务深度学习的图像语义分割模型。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于多任务深度学习的图像语义分割方法,包括以下步骤:
S1:将自然场景图像进行语义分割,得到基于多任务深度学习的多层级结构化特征表达方法;
S2:构建基于多任务深度学习的图像语义分割网络;
S3:对多任务深度网络进行优化;
S4:计算多任务深度学习训练中的梯度传播,得到基于多任务深度学习的图像语义分割模型;
S1具体过程如下:将图像局部特征进行组合,得到图像信息;将图像信息中局部语义特征抽取,刻画图像中局部特征之间的相关关系,并构建层次结构。
作为一种优选方案,S1过程中,通过空间相关性和尺度相关性刻画图像中局部特征之间的相关关系;
空间相关性:多任务网络模型中,判断图像区域的特征,并将筛选的特征作为多任务卷积神经网络的主要任务,确定图像特征的特征语义作为多任务卷积神经网络的辅任务;在共享网络层建立各局部区域特征之间的共生关系,从而建立图像空间相关结构特征对表达;
尺寸相关性:通过三通道的结构,采用基于Resnet-101的网络模型,在目标层级和局部语义层级进行特征提取,然后对特征图进行融合,构建包含有全局和局部语义特征的描述,将不同尺寸的局部特征进行组合,并从大尺度特征开始向小尺度特征扩展的结构特征表达。
作为一种优选方案,尺寸相关性中,在特征图融合过程中,通过调整特征图的尺度,解决两种层级之间输入数据尺度存在的差异。
作为一种优选方案,S1过程中,语义分割中,通过边缘分支设计损失联合提升语义分割性能,具体包括以下步骤:采用three stream深度网络模型结构,将形状、纹理信息分别作为单独处理的分支,然后与regular stream的语义区域特征进行相关融合。
作为一种优选方案,S2过程中,利用深度残差网络和门限卷积层构建基于多任务深度学习的图像语义分割网络;
其中门限卷积层具体包括以下步骤:
S201:令m表示位置的数量,令t∈0,1,…,m表示运行索引,其中rt、st和τt分别表示使用GCL处理的相应常规分支、形状分支和纹理分支的中间表示;
S202:连接rt、st和τt得到一副注意图at∈RH×W和1×1标准化的卷积层C1×1
at=σ(C1×1(st||rt),C1×1t||rt))
其中:σ为sigmoid函数,‖表示特征映射的串联;
S203:给定注意图at,门限卷积层作为元素与注意图相乘,然后将残差连接相加,并使用ωt进行通道加权,在每个像素(i,j)中,门限卷积层*计算式为:
Figure BDA0002989970070000041
S204:将st传递到形状流中的下一层进行下一步处理。
作为一种优选方案,S2过程中,在优化训练期间共同监督分割和纹理区域、边界图预测,通过标准的交叉熵(CE)损失预测语义分割f:
Figure BDA0002989970070000042
其中:
Figure BDA0002989970070000043
为基准边界,
Figure BDA0002989970070000044
为基准纹理区域,
Figure BDA0002989970070000045
为基准的语义标签,λ123表示三个超参数,控制不同损失项的权重,
Figure BDA0002989970070000046
为BCE损失,
Figure BDA0002989970070000047
为CE损失。
作为一种优选方案,损失函数具体获取方法如下:
T1:令ζ∈RR×W表示特定像素是否属于输入图像I中的语义边界的势:
Figure BDA0002989970070000051
其中:p(y/r,s,τ)∈RK×H×W为融合模块的分类分步输出,G为高斯滤波;
T2:假定
Figure BDA0002989970070000052
是一个基准数据二进制掩码,其计算方式与GT语义标签
Figure BDA0002989970070000053
相同,得到损失函数:
Figure BDA0002989970070000054
其中:p+包含ζ和
Figure BDA0002989970070000055
所有非零像素坐标的集合;
T3:使用形状分支、纹理分支的边界预测s∈RH×W,确保二值化边界预测和预测语义p(y/r,s)的一致性:
Figure BDA0002989970070000056
Figure BDA0002989970070000057
其中,p和k分别覆盖所有图像像素和语义类,Is={1:s>thrs}对应于指标函数,thrs是置信阈值;
T4:得到总的三任务正则化器损失函数:
Figure BDA0002989970070000058
其中:λ456是控制正则化器权重的三个超参数。
作为一种优选方案,S3过程中,通过同方差不确定性来平衡单个任务的损失,具体包括以下步骤:
优化模型权重W={λ123}和噪声参数σ123以最小化优化目标:
Figure BDA0002989970070000064
其中:损失函数L1、L2和L3分别属于稠密特征提取、纹理区域和轮廓特征三个任务,通过最小化噪声参数σ123的损失L(W,σ123),以平衡训练过程中特定任务的损失。
作为一种优选方案,S4过程中,采用多尺度推理方案对多任务深度学习网络训练,得到基于多任务深度学习的图像语义分割模型,具体包括以下步骤:
设g=||·||,给定参数η的偏导数计算如下:
Figure BDA0002989970070000061
在向后传递过程中,通过softmax的温度系数t近似arg max运算符:
Figure BDA0002989970070000062
其中:gj~Gumbel(0,I)和t为超参数,算子
Figure BDA0002989970070000063
通过Sobel核滤波计算。
综上所述,本发明具有以下有益效果:
本发明可多任务深度学习方法解决图像语义分割中分割细节信息不敏感、目标定位精度低的问题,对促进图像语义分割广泛应用方面具有积极意义。
附图说明
图1为本发明实施例中的多任务深度学习的图像语义分割网络模型框架图;
图2为本发明实施例中的基于多任务深度网络模型的多层级结构化特征表达示意图;
图3为本发明实施例中的多任务深度学习的图像语义分割流程图;
图4为本发明实施例中的基于多任务深度网络模型多层级结构化特征表达的图像语义分割实验结果示例图。
具体实施方式
本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
以下结合附图对本发明作进一步详细说明,但不作为对本申请的限定。
1.基于多任务深度学习网络的多层级结构化特征表达方法
基于多任务卷积神经网络的多层级结构化特征表达。将图像局部特征按照某些方式组合来表达图像信息,使其更贴近对语义的表达,从而达到对局部语义特征的抽取,利用空间相关性和尺度相关性两个信息来刻画图像中局部特征之间的相关关系,进而利用这种相关关系来构建层次结构。
多任务网络模型中,将判断图像区域的特征作为多任务卷积神经网络的主要任务,确定图像特征的特征语义作为其辅任务,然后在共享网络层建立各局部区域特征之间的共生关系,从而建立图像空间相关结构特征对表达,如图1所示。
尺度结构特性反应图像中局部特征的信息提取范围,不同尺度的特征存在相互关联关系。利用三通道(tri-stream)的结构,采用基于Resnet-101的网络模型,在目标层级和局部语义层级进行特征提取,进而对特征图进行融合,融合过程中需要调整特征图的尺度解决两种层级之间输入数据尺度存在的差异,由此构建包含有全局与局部语义特征的描述。在此基础上,将不同尺度的局部特征进行组合并从大尺度特征开始向小尺度特征扩展的结构特征表达。
基于多任务深度网络模型的多层级结构化特征表达思路,在图像语义分割中,利用深度神经网络同时处理图像的颜色、形状和纹理信息用于像素级分类不是理想做法,通过研究多任务深度学习,利用边缘分支设计损失联合提升语义分割性能。首先,采用threestream深度网络模型结构,将形状、纹理信息分别作为单独处理的分支,称为shape stream和texture stream,两者是并行的,然后与regular stream的语义区域特征进行相关融合,提高图像语义分割精度。
2.基于多任务深度学习的图像语义分割算法
基于多任务深度学习的融合多层级特征的图像语义分割方法的网络结构如图2所示,regular stream采用前向全卷积网络Resnet-101;Shape stream和texture stream是一系列1×1卷积,残差块和GCL(Gated Conv Layer)的组合。门控卷积层实际上可以看成是一种注意力机制,根据regular stream的高层次信息去指导shape stream和texturestream集中在边界或纹理区域;然后ASPP(语义分割)在多尺度上融合三个分支输出特征图,最后输出语义分割图。图中edge BCE loss是局部监督损失,监督的是shape stream还没有送到ASPP前的边界概率图,segmentation loss是交叉熵损失(CE loss),监督最终输出语义分割图,更新包括ASPP的所有参数,tri-task loss是三任务的正则化损失,基于边界预测、纹理区域、和边界区域语义分割的二元性和边界预测和语义预测一致性思想。通过以上模型,以多任务卷积神经网络获取的多层级结构化特征为输入,融合多种粒度的上下文信息通过学习获得为每个像素分配语义标签的映射关系。
regular stream用
Figure BDA0002989970070000091
来表示,θ为参数,采用前向全卷积网络Resnet-101,以高度为H宽度为W的图像
Figure BDA0002989970070000092
为输入产生稠密像素特征。令
Figure BDA0002989970070000093
表示regularstream输出,m为卷积步长。
shape stream表示为Sφ,φ是参数,令图像梯度
Figure BDA0002989970070000094
和regular stream的第一卷积层作为输入,产生图像的语义边界作为输出。shape stream网络结构由深度残差网络和门限卷积层(GCL)组成,输出用
Figure BDA0002989970070000095
来表示。
Texture stream表示为
Figure BDA0002989970070000096
Figure BDA0002989970070000097
为参数,其输入与shape stream类似,图像梯度
Figure BDA0002989970070000098
和regular stream的第一卷积层作为输入,产生图像的纹理区域作为输出,其网络结构由深度残差网络和门限卷积层(GCL)组成,输出用
Figure BDA0002989970070000101
来表示。
fusionmodule表示为Fγ,其参数为γ,将regular分支的密集特征表示、形状分支和纹理分支输出的边界映射融合作为输出,以保持多尺度的上下文信息。通过将区域特征、纹理特征和边界特征相结合,输出精确的语义分割输出。对于图像语义分割问题,预测K个语义类,输出类别分布
Figure BDA0002989970070000102
这里,f表示每个像素属于K类的概率。具体来说,我们使用一个空洞空间金字塔池来合并边界映射形状s和纹理τ和稠密像素特征r。这使得我们能够保存多尺度的上下文信息,并被证明是最先进的语义切分网络的一个重要组成部分。
(1)门限卷积层(GCL)
门限卷积层(GCL)在三个分支的多个位置使用,令m表示位置的数量,令t∈0,1,…,m表示运行索引,其中rt和st和τt表示我们使用GCL处理的相应常规分支(regularstream)、形状分支和纹理分支的中间表示。为了使用GCL,我们首先通过连接rt、st和τt得到一幅注意图
Figure BDA0002989970070000103
和1×1标准化的卷积层C1×1,接着是一个sigmoid函数σ:
αt=σ(C1×1(st||rt),C1×1t||rt))  (2)
其中‖表示特征映射的串联,给定注意图αt,GCL作为元素与注意图相乘,随后是残差连接相加,并使用ωt进行通道加权。在每个像素(i,j),GCL*计算式为:
Figure BDA0002989970070000111
然后,将st传递到形状流中的下一层以进行进一步处理,注意到反向传播和微分映射都可以进行卷积。直观地说,α也可以被看作是一个注意力地图,它对具有重要边界信息的区域赋予了更大的权重。在我们的实验中,我们使用了形状分支和纹理分支分别采用三个GCL并将它们连接到regular stream的第三层、第四层和最后一层。如果需要,可以使用双线性插值对来自regular stream的特征映射进行上采样。
(2)联合多任务学习
我们与融合模块以端到端的方式共同学习regular stream、shape stream和texture stream,在训练期间共同监督分割和纹理区域、边界图预测;利用标准的二值交叉熵(BCE)来预测边界图s,并利用标准的交叉熵(CE)损失来预测语义分割f:
Figure BDA0002989970070000112
这里,
Figure BDA0002989970070000113
表示基准边界,
Figure BDA0002989970070000114
表示基准纹理区域,
Figure BDA0002989970070000115
表示基准的语义标签;λ1,λ2,λ3表示三个超参数控制不同损失项的权重。如图2所示,在将边界映射s馈送到融合模块之前,对边界映射s执行BCE监视。因此,BCE损失
Figure BDA0002989970070000116
更新了regularstream和形状分支、纹理分支的参数。语义类的最终分类分布f由CE损失
Figure BDA0002989970070000117
作为标准语义切分网络的监督,更新所有网络参数。
(3)三任务(tri-task)正则化器
如上所述,p(y/r,s,τ)∈RK×H×W表示融合模块的分类分布输出。令ζ∈RR×W是表示特定像素是否属于输入图像I中的语义边界的势
Figure BDA0002989970070000121
其中G表示高斯滤波。我们假设
Figure BDA0002989970070000122
是一个(ground truth)基准数据二进制掩码,其计算方式与GT语义标签
Figure BDA0002989970070000123
相同,我们写下下面的损失函数:
Figure BDA0002989970070000124
这里p+包含ζ和
Figure BDA0002989970070000125
所有非零像素坐标的集合,直观地说,我们希望确保边界像素在与GT边界不匹配时受到惩罚,并避免非边界像素支配损失函数。上述正则化损失函数利用了边界空间中边界预测和语义分割之间的对偶性。
类似的,我们可以使用形状分支、纹理分支的边界预测
Figure BDA0002989970070000126
以确保二值化边界预测和预测语义p(y/r,s)的一致性:
Figure BDA0002989970070000127
Figure BDA0002989970070000128
其中,p和k分别覆盖所有图像像素和语义类。Is={1:s>thrs}对应于指标函数,thrs是置信阈值,我们在实验中阈值使用0.8。总的三任务正则化器损失函数可以写成:
Figure BDA0002989970070000129
λ4、λ5和λ6是控制正则化器权重的三个超参数。
多任务深度学习的一个重大挑战来自于多个任务的网络体系结构优化,需要谨慎地平衡所有任务的联合学习,避免出现一个或多个任务在网络权重中占主导地位,在不损失一般性的前提下,假设任务特定权重λi和任务特定损失函数Li,多任务学习问题的优化目标可以表示为
Figure BDA0002989970070000131
式中的多任务优化目标,很难找到全局最优解。由于该问题的复杂性,如果某个选择提高了一个任务的性能,则可能会导致另一个任务的性能下降。
具体过程为:
多任务深度网络优化
我们使用同方差不确定性(homoscedastic uncertainty)来平衡单个任务的损失。同方差不确定性或任务相关不确定性不是模型的输出,而是同一任务的不同输入样本保持不变的量。优化过程是为了使高斯似然目标最大化,该目标考虑了同余不确定性。特别地,他们优化模型权重W={λ123}和噪声参数σ1、σ2和σ3以最小化优化目标
Figure BDA0002989970070000132
损失函数L1、L2和L3分别属于稠密特征提取、纹理区域和轮廓特征三个任务。通过最小化噪声参数σ1、σ2和σ3的损失L(W,σ123),基本上可以平衡训练过程中特定任务的损失。公式中的优化目标也可以很容易地扩展到三个以上的任务。在训练过程中通过标准反向传播更新噪声参数。
增加噪声参数σi会降低任务i的权重。因此,当任务的同方差不确定性较高时,任务i对网络权重更新的影响较小。这在处理噪声注释时是有利的,因为对于此类任务,特定于任务的权重将自动降低。
2多任务深度学习训练中的梯度传播
为了计算等式
Figure BDA0002989970070000141
的反向传播,我们需要计算等式
Figure BDA0002989970070000142
的梯度。设g=||·||,关于给定参数η的偏导数可计算如下:
Figure BDA0002989970070000143
由于argmax不是可微函数,我们使用Gumbel softmax技巧。在向后传递过程中,我们用softmax的温度系数t近似argmax运算符:
Figure BDA0002989970070000144
其中gj~Gumbel(0,I)和t是超参数;算子
Figure BDA0002989970070000145
可以通过Sobel核滤波来计算。
3基于多任务深度学习的图像语义分割
我们使用Cityscapes数据集进行训练网络模型,包含2975个训练,500个验证和1525个测试图像。城市景观还包括20000个额外的粗注释(即,覆盖单个对象的粗多边形)。我们用边界ground-truth真值来监督多任务深度网络中的形状流,密集像素标注包括城市街道场景中经常出现的30类,其中19类用于实际训练和评价。
我们遵循deeplabv3+的方法,但是使用实验中描述的更简单的编码器。所有的网络都是使用PyTorch实现的。我们采用768×768训练图像作为训练分辨率和同步批量范数。网络模型训练是在NVIDIA DGX工作站上进行的,使用8个GPU,总批量大小为16。对于城市景观,我们训练GCL和三任务损失函数使用1e-2的学习率和多项式衰减策略,使用均值采样的方案来检索768×768的截图。此外,我们使用了多尺度推理方案,使用0.5、1和2尺度。训练过程中我们不使用粗数据,因为我们的边界损失需要精细的边界注释。多任务深度学习训练中的梯度传播计算时,我们为Gumbel softmax设置t=1。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (5)

1.一种基于多任务深度学习的图像语义分割方法,其特征在于,包括以下步骤:
S1:将自然场景图像进行语义分割,得到基于多任务网络模型的多层级结构化特征表达;
S2:构建基于多任务卷积神经网络的图像语义分割网络;
S3:对基于多任务卷积神经网络图像语义分割模型进行优化;
S4:计算基于多任务卷积神经网络的图像语义分割模型中的梯度传播,得到基于多任务卷积神经网络的图像语义分割模型;
S1具体过程如下:将图像局部特征进行组合,得到图像信息;将图像信息中局部语义特征抽取,刻画图像局部特征之间的相关关系,并构建层次结构。
所述S1过程中,通过空间相关性和尺度相关性刻画图像局部特征之间的相关关系;
空间相关性:多任务网络模型中,判断图像区域的特征,并将筛选的特征作为多任务卷积神经网络的主要任务,确定图像特征的特征语义作为多任务卷积神经网络的辅任务;在共享网络层建立各局部区域特征之间的共生关系,从而建立图像空间相关结构特征对表达;
尺寸相关性:通过三通道的结构,采用基于Resnet-101的网络模型,在目标层级和局部语义层级进行特征提取,然后对特征图进行融合,构建包含有全局和局部语义特征的描述,将不同尺寸的局部特征进行组合,并建立从大尺度特征开始向小尺度特征扩展的结构特征表达;
所述S2过程中,利用深度残差网络和门限卷积层构建基于多任务卷积神经网络的图像语义分割网络;
其中门限卷积层具体包括以下步骤:
S201:令m表示位置的数量,令t∈0,1,…,m表示运行索引,其中rt、st和τt分别表示使用GCL处理的相应常规分支、形状分支和纹理分支的中间表示;
S202:连接rt、st和τt得到一副注意图at∈RH×W和1×1标准化的卷积层C1×1
at=σ(C1×1(st||rt),C1×1t||rt))
其中:σ为sigmoid函数,‖表示特征映射的串联;
S203:给定注意图at,门限卷积层作为元素与注意图相乘,然后将残差连接相加,并使用ωt进行通道加权,在每个像素(i,j)中,门限卷积层计算式为:
S204:将st传递到形状流中的下一层进行下一步处理;
所述S3过程中,通过同方差不确定性来平衡单个任务的损失,具体包括以下步骤:
优化模型权重W={λ123}和噪声参数σ123以最小化优化目标:
其中:损失函数L1、L2和L3分别属于稠密特征提取、纹理区域和轮廓特征三个任务,通过最小化噪声参数σ123的损失L(W,σ123),以平衡训练过程中特定任务的损失;
所述S4过程中,采用多尺度推理方案对基于多任务卷积神经网络的图像语义分割网络训练,得到基于多任务卷积神经网络的图像语义分割模型,具体包括以下步骤:
设g=||·||,给定参数η的偏导数计算如下:
在向后传递过程中,通过softmax的温度系数tcr近似计算argmax运算符:
其中:gj~Gumbel(0,I)为超参数,算子通过Sobel核滤波计算。
2.根据权利要求1所述的基于多任务深度学习的图像语义分割方法,其特征在于,尺寸相关性中,在特征图融合过程中,通过调整特征图的尺度,解决两种层级之间输入数据尺度存在的差异。
3.根据权利要求1所述的基于多任务深度学习的图像语义分割方法,其特征在于,所述S1过程中,语义分割中,通过边缘分支设计损失联合提升语义分割性能,具体包括以下步骤:采用threestream深度网络模型结构,将形状、纹理信息分别作为单独处理的分支,然后与regularstream的语义区域特征进行相关融合。S204:将st传递到形状流中的下一层进行下一步处理。
4.根据权利要求1所述的基于多任务深度学习的图像语义分割方法,其特征在于,所述S3过程中,在优化训练期间共同监督分割和纹理区域、边界图预测,计算语义分割f的标准交叉熵CE损失:
其中:为基准边界,为基准纹理区域,为基准的语义标签,λ123表示三个超参数,控制不同损失项的权重,为BCE损失,为CE损失。
5.根据权利要求4所述的基于多任务深度学习的图像语义分割方法,其特征在于,损失函数具体获取方法如下:
T1:令ζ∈RR×W表示特定像素是否属于输入图像I中的语义边界的势:
其中:p(yk/r,s,τ)∈RK×H×W为合模块的分类分步输出,G为高斯滤波;
T2:假定是一个基准数据二进制掩码,其计算方式与GT语义标签相同,得到损失函数:
其中:p+包含ζ和所有非零像素坐标的集合;
T3:使用形状分支、纹理分支的边界预测s∈RH×W、τ∈RH×W,确保二值化边界预测和预测语义p(yk/r,s)的一致性:
其中,p和k分别覆盖所有图像像素和语义类,Is={1:s>thrs}对应于指标函数,thrs是置信阈值;
T4:得到总的三任务正则化器损失函数:
其中:λ456是控制正则化器权重的三个超参数。
CN202110312685.3A 2021-03-24 2021-03-24 一种基于多任务深度学习的图像语义分割方法 Active CN112950645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110312685.3A CN112950645B (zh) 2021-03-24 2021-03-24 一种基于多任务深度学习的图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110312685.3A CN112950645B (zh) 2021-03-24 2021-03-24 一种基于多任务深度学习的图像语义分割方法

Publications (2)

Publication Number Publication Date
CN112950645A CN112950645A (zh) 2021-06-11
CN112950645B true CN112950645B (zh) 2023-05-12

Family

ID=76228022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110312685.3A Active CN112950645B (zh) 2021-03-24 2021-03-24 一种基于多任务深度学习的图像语义分割方法

Country Status (1)

Country Link
CN (1) CN112950645B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642395B (zh) * 2021-07-07 2023-05-23 中国人民解放军战略支援部队信息工程大学 面向城市增强现实信息标注的建筑物场景结构提取方法
CN113688696B (zh) * 2021-08-04 2023-07-18 南京信息工程大学 一种超高分遥感影像震害建筑物检测方法
CN114926635B (zh) * 2022-04-21 2024-06-11 北京工业大学 与深度学习方法相结合的多焦图像中目标分割方法
CN114882091B (zh) * 2022-04-29 2024-02-13 中国科学院上海微系统与信息技术研究所 一种结合语义边缘的深度估计方法
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN115187783B (zh) * 2022-09-09 2022-12-27 之江实验室 基于联邦学习的多任务混合监督医疗图像分割方法及系统
CN115546483B (zh) * 2022-09-30 2023-05-12 哈尔滨市科佳通用机电股份有限公司 基于深度学习的地铁受电弓碳滑板剩余使用量测量方法
CN115797632B (zh) * 2022-12-01 2024-02-09 北京科技大学 一种基于多任务学习的图像分割方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN110796166A (zh) * 2019-09-25 2020-02-14 浙江大学 一种基于注意力机制的多任务图像处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN110796166A (zh) * 2019-09-25 2020-02-14 浙江大学 一种基于注意力机制的多任务图像处理方法

Also Published As

Publication number Publication date
CN112950645A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112950645B (zh) 一种基于多任务深度学习的图像语义分割方法
CN110956651B (zh) 一种基于视觉和振动触觉融合的地形语义感知方法
CN112258618B (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
US11030525B2 (en) Systems and methods for deep localization and segmentation with a 3D semantic map
CN110084850B (zh) 一种基于图像语义分割的动态场景视觉定位方法
Wan et al. DA-RoadNet: A dual-attention network for road extraction from high resolution satellite imagery
CN111080659A (zh) 一种基于视觉信息的环境语义感知方法
Li et al. Dual-view 3d object recognition and detection via lidar point cloud and camera image
Chen et al. Milestones in autonomous driving and intelligent vehicles—part ii: Perception and planning
Vaquero et al. Dual-branch CNNs for vehicle detection and tracking on LiDAR data
Zhang et al. Vehicle global 6-DoF pose estimation under traffic surveillance camera
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
Yang et al. A fusion network for road detection via spatial propagation and spatial transformation
Huang et al. Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation
Zhao et al. Jperceiver: Joint perception network for depth, pose and layout estimation in driving scenes
Ni et al. Scene-adaptive 3D semantic segmentation based on multi-level boundary-semantic-enhancement for intelligent vehicles
Wang et al. Pedestrian detection based on YOLOv3 multimodal data fusion
Li et al. Multi-modal neural feature fusion for automatic driving through perception-aware path planning
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及系统
CN115294176B (zh) 一种双光多模型长时间目标跟踪方法、系统及存储介质
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg
Zhao et al. DHA: Lidar and vision data fusion-based on road object classifier
CN112802202A (zh) 图像处理方法、装置、电子设备及计算机存储介质
CN116503602A (zh) 基于多层级边缘增强的非结构化环境三维点云语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant