CN110276765A - 基于多任务学习深度神经网络的图像全景分割方法 - Google Patents

基于多任务学习深度神经网络的图像全景分割方法 Download PDF

Info

Publication number
CN110276765A
CN110276765A CN201910544228.XA CN201910544228A CN110276765A CN 110276765 A CN110276765 A CN 110276765A CN 201910544228 A CN201910544228 A CN 201910544228A CN 110276765 A CN110276765 A CN 110276765A
Authority
CN
China
Prior art keywords
segmentation
candidate region
network head
panorama
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910544228.XA
Other languages
English (en)
Other versions
CN110276765B (zh
Inventor
白双
王聪聪
李沛安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201910544228.XA priority Critical patent/CN110276765B/zh
Publication of CN110276765A publication Critical patent/CN110276765A/zh
Application granted granted Critical
Publication of CN110276765B publication Critical patent/CN110276765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多任务学习深度神经网络的图像全景分割方法,包括:将图像输入至基干卷积神经网络进行特征提取,得到对应的特征图;将特征图分别输入至语义分割网络头和区域提议网络头,得到图像的语义分割图和多个候选区域;根据语义分割图筛选候选区域;将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正;将分类和边界框修正后的候选区域输入至实例分割网络头,得到实例分割图;对语义分割图和实例分割图进行融合,得到全景分割图;通过训练优化机制对全景分割网络进行训练和优化得到优化的图像全景分割模型;对图像进行全景分割。本发明的方法可以同时完成全景语义和实例分割任务、减少计算量。

Description

基于多任务学习深度神经网络的图像全景分割方法
技术领域
本发明涉及计算机视觉识别技术领域,尤其涉及一种基于多任务学习深度神经网络的图像全景分割方法。
背景技术
伴随着计算机视觉研究和深度学习方法的不断深入,基于深度学习的图像分类、语义分割以及实例分割等技术都获得了巨大的进步。语义分割为图像中的每个像素赋予一个语义类别标签,但不能区分图像中相同语义类别的不同物体实例。实例分割对图像中的物体实例进行像素级的分割,但不涉及没有明确形状的各种不可数物体。全景分割任务是语义分割和实例分割任务的统一,对于如自动驾驶和智能机器人等依赖图像场景视觉感知的任务都十分重要。
传统的全景分割技术通常独立执行语义分割和实例分割任务,然后再将二者结果融合得全景分割结果。这种方法依赖于两个独立网络,网络计算量较大。因此需要一个可以同时完成全景语义和实例分割任务的、减少计算量的多任务网络分割方法。
发明内容
本发明提供了一种基于多任务学习深度神经网络的图像全景分割方法,以解决以上问题。
为了实现上述目的,本发明采取了如下技术方案。
本发明提供了一种基于多任务学习深度神经网络的图像全景分割方法,包括:
将图像输入至基干卷积神经网络进行特征提取,得到对应的特征图;
将所述特征图分别输入至语义分割网络头和区域提议网络头,得到图像的语义分割图和多个候选区域;
根据所述的语义分割图筛选所述候选区域;
将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正;
将所述的分类和边界框修正后的候选区域输入至实例分割网络头,得到实例分割图;
对所述的语义分割图和实例分割图进行融合,得到图像全景分割图;
根据所述的图像全景分割图,通过训练优化机制对全景分割网络进行训练和优化得到优化的图像全景分割模型;
根据所述优化的图像全景分割模型对图像进行全景分割。
优选地,将所述特征图分别输入至语义分割网络头和区域提议网络头,得到图像的语义分割图和候选区域,包括:
将所述的特征图输入至语义分割网络头,通过全卷积操作,生成像素级的类别预测,从而得到所述图像的语义分割图;
将所述的特征图输入区域提议网络头,通过多次卷积操作生成尺寸和长宽比例不同的候选区域以及得到每个候选区域的类别和其包围框坐标。
优选地,根据所述的语义分割图筛选所述的候选区域,包括:
根据所述每个候选区域的包围框坐标,确定出所述语义分割特征图中在位置上与之对应的区域;
根据所述每个候选区域,计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积,进而计算该面积与对应的候选区域的面积比例;
判断候选区域对应的面积比例是否在一定的阈值范围内,如果否,则删除所述候选区域。
优选地,一定的阈值范围为0.5-0.7。
优选地,方法还包括在根据所述的语义分割图对所述的多个候选区域进行筛选之前,对所述的多个候选区域进行初步筛选,剔除不符合规则的候选区域。
优选地,将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正,包括:
根据筛选后的候选区域,从所述的特征图中提取出对应筛选后的候选区域特征图;
对筛选后的候选区域特征图进行兴趣区域池化操作,得到一定尺寸的池化后的候选区域;
将池化后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头,得到池化后的候选区域的类别和边界框的坐标偏移量;
根据池化后的候选区域的类别和边界框的坐标偏移量对池化后的候选区域边界框进行修正。
优选地,将所述的分类和边界框修正后的候选区域输入至实例分割网络头,得到实例分割图,包括:
将所述的特征图和实例区域输入至实例分割网络头,执行与所述的语义分割网络头相同的操作,得到实例分割二值分布特征;
获取每个实例区域对应的目标实例掩模,进而生成实例分割图。
优选地,对所述的语义分割图和实例分割图进行融合,得到图像全景分割图,包括:
对基干网络生成的特征图分别进行卷积运算生成两组特征图,并分别与所述的语义分割图和实例分割图串接;
将串接后的语义分割图和实例分割图分别经过卷积运算以及sigmoid激活函数处理,得到实例分割软门值分布特征图和语义分割软门值分布特征图;
用实例分割软门值分布特征图与实例分割图进行逐元素的乘积,同时用语义分割软门值分布特征图与语义分割图进行逐元素的乘积;
将逐元素乘积操作后的语义分割图和实例分割图串接,采用卷积运算对串接后的语义分割图和实例分割图进行初步融合,然后使用具有不同扩张率的扩张卷积进行特征提取,并对提取后的结果进行串接;
采用卷积运算对串接后的结果进行进一步融合,将融合后的结果进行阈值比较,得到0-1分布的选通值分布图;
根据选通值分布图,对每个像素的0-1值选择使用语义分割或实例分割结果,得到全景分割图。
优选地,训练优化机制包括:
1)以Lstep-1=Lseg+Lrpn为目标函数,训练所述的语义分割网络头和区域提议网络头;
2)以Lstep-2=Lcls-m+Lreg+Lins为目标函数,训练物体识别网络头、边界框偏移预测网络头和实例分割网络头;
3)以二分类交叉熵损失函数为目标函数,训练生成全景分割图的后端融合网络;
将上述三个步骤中的目标函数进行求和,得到统一的目标函数,基于统一的目标函数对所述模型进行优化,得到优化的全景分割结模型。
优选地,基干卷积神经网络为空洞卷积结构或者编码-解码结构。
由上述本发明的基于多任务学习深度神经网络的图像全景分割方法提供的技术方案可以看出,本发明通过搭建统一的多任务网络同时实现图像语义分割、实例分割进而进行全景分割,以语义分割结果辅助实例分割任务的进行,进一步地提升了实例分割的精度,可以获得高质量的语义分割和实例分割的结果,最后通过后端的融合得到全景分割结果,该方法具在较少计算量的同时还可以实现高效、高精度的全景分割。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例提供的基于多任务学习深度神经网络的图像全景分割方法流程图;
图2为实施例提供的基于多任务学习深度神经网络的图像全景分割方法的结构示意图;
图3为实施例提供的基于多任务学习深度神经网络的图像全景分割方法的实现原理图;
图4为实施例提供的语义分割图和实例分割图进行融合的实现原理图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明。
实施例
全景分割方法:
全景分割方法的含义:全景分割是对图像中每个像素进行语义分类和实例ID标注,对于不可数物体对应的语义类别,所有属于某一语义类别的像素,其语义类别标注相同,实例ID也相同;而对于可数物体对应的语义类别,属于某一物体类别的像素,其语义类别标注相同,并根据其所属的不同物体实例分配不同实例ID。
图1为本实施例提供的基于多任务学习深度神经网络的图像全景分割方法流程图,图2为本实施例提供的基于多任务学习深度神经网络的图像全景分割方法的结构示意图,图3为本实施例提供的基于多任务学习深度神经网络的图像全景分割方法的实现原理图,参照图1、图2和图3,该方法包括以下步骤:
S1将图像输入至基干卷积神经网络进行特征提取,得到对应的特征图。
优选地,基干卷积神经网络为空洞卷积结构或者编码-解码结构。这种结构能够生成更加丰富的语义信息和更高分辨率的特征图,从而增强识别较大或较小物体的能力,以增强识别较大或较小物体的鲁棒性。
示意性地,采用编码-解码架构的网络结构作为基干卷积神经网络的结构,其中编码器由ResNeXt-101的前四个模块构成,解码器部分则由两级基于双线性上采样和卷积运算构成的解码模块组成。基干卷积神经网络首先使用编码器从图像中提取语义丰富的特征图,然后通过解码器逐渐恢复特征图中的空间信息。
S2将所述特征图分别输入至语义分割网络头和区域提议网络头,得到图像的语义分割图和多个候选区域。
将所述的特征图输入至语义分割网络头,通过全卷积操作,生成像素级的类别预测,从而得到所述图像的语义分割图。语义分割网络头由全卷积结构构成,全卷积结构由两个卷积层、两个反卷积层、一个1x1卷积层和一个softmax层组成,特征图经过全卷积结构后得到像素级的类别概率预测,进而得到输入的图像的语义分割图。
将所述的特征图输入区域提议网络头,通过多次卷积操作生成尺寸和长宽比例不同的候选区域及其包围框坐标。区域提议网络头由区域提议网络(Region ProposalNetwork,RPN)构成,特征图输入至RPN。
当然,所述全卷积结构还可以是其它形式,在此不作限制。
此处的语义分割网络头和区域提议网络头的构成不限于上述提到的内容,其他任何结构可以作为语义分割网络头和区域提议网络头的构成,都包含在本发明实施范围内。
S3根据所述的语义分割图筛选所述的候选区域。
优选地,该步骤之前,还包括对所述的多个候选区域进行初步筛选,剔除不符合规则的候选区域。该过程具体包括:首先,剔除太小和超出边界的候选区域;其次,按照RPN中获得的每个候选区域的类别置信得分递减将各个区域排序,筛选出固定数目的部分候选区域;然后使用非最大抑制Non-Maximum Suppression(NMS)算法排除掉重叠的候选区域;最后再按照类别置信得分高低保留部分高得分候选区域。
根据所述的语义分割图筛选候选区域,包括:
根据每个候选区域的包围框坐标,确定出所述语义分割特征图中在位置上与之对应的区域;根据所述每个候选区域,计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积,进而计算该面积与对应的候选区域的面积比例;判断候选区域对应的面积比例是否在一定的阈值范围内,如果否,则删除所述候选区域。
具体地,根据每个候选区域,计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积,进而计算该面积与对应的候选区域的面积比例进行辅助筛选候选区域包括:首先,根据各个候选区域的坐标,确定出所述语义分割特征图中在位置上与之对应的区域;然后,计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积,具体的,在一个语义分割区域中,如果某像素的类别属于可数物体,则该像素位置被置为“1”否则为“0”,最后统计该区域中所有像素值为“1”的像素面积;最后计算该面积与对应的候选区域的面积比例,若小于一定阈值T1,则舍弃该候选区域。
优选地,这里的一定的阈值T1的范围为0.5-0.7。
S4将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正。
根据筛选后的候选区域,从所述的特征图中提取出对应筛选后的候选区域特征图;
对筛选后的候选区域特征图进行兴趣区域(RI,Region of Interest)池化操作,得到一定尺寸的池化后的候选区域;该步骤的目的是为了将各个候选区域输入至全连接层进行分类等处理。
将池化后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头,得到池化后的候选区域的类别和边界框的坐标偏移量;
根据池化后的候选区域的类别和边界框的坐标偏移量对池化后的候选区域边界框进行修正,被物体识别网络头判别为背景的可数物体候选边界框被丢弃,而保留下来的候选边界框被基于坐标偏移量预测进行位置校正。
S5将所述的进行分类和坐标修正后的候选区域输入至实例分割网络头,得到实例分割图。
将特征图和实例区域输入至实例分割网络头,执行与所述的语义分割网络头相同的操作,得到实例分割二值分布特征,实例分割网络头使用与语义分割网络头具有相同的结构并且共享参数,区别在于语义分割网络头在生成语义分割预测时,为所有的语义类别生成概率分布图,而在生成实例分割预测时,则忽略非实例物体对应的预测输出而仅保留对应于实例物体的概率分布图。然后获取每个实例区域对应的目标实例掩模,进而生成实例分割图。
进一步地,当遇到不同实例间出现重叠问题时,选择实例分割二值分布特征中置信得分高的预测结果作为实例分割图。
S6对所述的语义分割图和实例分割图进行融合,得到图像全景分割图。参照图4,图4为本实施例提供的语义分割图和实例分割图进行融合的实现原理图。
由于实例分割输出和语义分割输出之间可能存在冲突。为得到统一的全景分割结果,需要对语义分割图和实例分割图进行融合,具体包括:
S61对基干网络生成的特征图分别进行卷积运算生成两组特征图,并分别与所述的语义分割图和实例分割图串接;
S62将串接后的语义分割图和实例分割图分别经过卷积运算以及sigmoid激活函数处理,得到实例分割软门值分布特征图和语义分割软门值分布特征图;
S63用实例分割软门值分布特征图与实例分割图进行逐元素的乘积,同时用语义分割软门值分布特征图与语义分割图进行逐元素的乘积;
S64将逐元素乘积操作后的语义分割图和实例分割图串接,采用卷积运算对串接后的语义分割图和实例分割图进行初步融合,然后使用具有不同扩张率的扩张卷积进行特征提取,并对提取后的结果进行串接;
S65采用卷积运算对串接后的结果进行进一步融合,将融合后的结果进行阈值比较,得到0-1分布的选通值分布图;
S66根据选通值分布图,对每个像素的0-1值选择使用语义分割或实例分割结果,得到全景分割图。
优选地,此步骤中的阈值为0.5。
S7根据所述的图像全景分割图,通过训练优化机制对所述的全景分割模型进行训练和优化得到优化的图像全景分割模型。
由于全景分割同时涉及语义分割和实例分割,涵盖了检测、识别和分割等多项基本任务。全景分割网络架构较复杂,为了得到最佳的优化结果,本发明通过训练优化机制将整个全景分割模型的训练过程分为如下4个步骤。
该训练优化机制包括:
1)以Lstep-1=Lseg+Lrpn为目标函数,训练所述的语义分割网络头和区域提议网络头使目标函数最小化。
定义代表训练语义分割网络头和区域建议网络头损失的多任务损失函数Lstep-1为下式(1)所示:
Lstep-1=Lseg+Lrpn (1)
其中,定义为交叉熵损失函数,表示为语义分割损失,NIP为图像中像素的数量,M为语义类别数,m代表某一语义类别,yi m为像素i的one-hot标注,pi m为模型对像素i的预测输出;定义为区域建议损失,其中,Lcls-b为二类交叉熵分类损失函数,表示为i为候选建议区域在图像中的索引,ai为提议建议区域i是可数物体的预测概率。表示提议建议区域是否是可数物体。如果是,则取1,否则取0。Lreg为边界框偏移预测损失函数,第二项中以为系数表示仅对对应于可数物体的候选建议区域计算边界框坐标偏移量损失,λ是偏移量损失的权重系数,用于平衡偏移量损失和分类损失。ti表示参数化的4维边界框坐标偏移向量的预测值,是与提议建议区域i相关联的真实边框的4维坐标偏移量。边界框坐标偏移量预测是一个回归问题,因此定义Lregj代表候选区域边界框的坐标表示,其中x,y为候选区域边界框的左上角坐标,w,h为候选区域边界框以左上角坐标为起点的宽和高,其中,
2)以Lstep-2=Lcls-m+Lreg+Lins为目标函数,训练物体识别网络头、边界框偏移预测网络头和实例分割网络头。
训练物体识别网络头、边界框偏移预测网络头和实例分割网络头,本发明采用由前级传递过来的候选边界框从特征图中提取边界框特征,并在每个边界框特征上定义多任务损失函数为下式(2)所示:
Lstep-2=Lcls-m+Lreg+Lins (2)
其中,Lcls-m为对可数物体及背景(这里不可数物体及背景都被定义为背景类)分类的多类交叉熵损失函数,NR为边界框特征的数量,Mins为可数物体类别数目加一,加一表示所有背景类别被看做一类。Lreg与步骤1)中的Lreg形式相同,用于定义可数物体实例的预测边界框坐标偏移量与实际边界框坐标偏移量的损失;Lins为对候选区域进行语义分割的损失值,NRP为候选区域中像素的数量,m为某一实例级语义类别,yi为像素i的one-hot标注,pi为模型对像素i的预测输出。在计算Lins损失值的过程中,仅考虑可数物体类别及背景。
3)以二分类交叉熵损失函数为目标函数,训练生成全景分割图的后端融合网络。
语义分割输出及实例分割输出融合网络的训练,由于融合网络输出单通道的仅包含0和1的两个数值的选通值分布图,因此,本项目将语义-实例分割选通问题表述为二分类问题,使用预测得到的选通值分布图和二值化的图像真实标注,通过计算二分类交叉熵损失函数来训练生成全景分割图的后端融合网络。
4)将上述三个步骤中的目标函数进行求和,得到统一的目标函数,基于统一的目标函数对所述模型进行优化,得到优化的全景分割结模型。
S8根据所述优化的图像全景分割模型对图像进行全景分割。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于多任务学习深度神经网络的图像全景分割方法,其特征在于,包括:
将图像输入至基干卷积神经网络进行特征提取,得到对应的特征图;
将所述特征图分别输入至语义分割网络头和区域提议网络头,得到图像的语义分割图和多个候选区域;
根据所述的语义分割图筛选所述候选区域;
将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正;
将所述的分类和边界框修正后的候选区域输入至实例分割网络头,得到实例分割图;
对所述的语义分割图和实例分割图进行融合,得到图像全景分割图;
根据所述的图像全景分割图,通过训练优化机制对全景分割网络进行训练和优化得到优化的图像全景分割模型;
根据所述优化的图像全景分割模型对图像进行全景分割。
2.根据权利要求1所述的方法,其特征在于,所述的将所述特征图分别输入至语义分割网络头和区域提议网络头,得到图像的语义分割图和候选区域,包括:
将所述的特征图输入至语义分割网络头,通过全卷积操作,生成像素级的类别预测,从而得到所述图像的语义分割图;
将所述的特征图输入区域提议网络头,通过多次卷积操作生成尺寸和长宽比例不同的候选区域以及得到每个候选区域的类别和其包围框坐标。
3.根据权利要求1所述的方法,其特征在于,所述的根据所述的语义分割图筛选所述的候选区域,包括:
根据所述每个候选区域的包围框坐标,确定出所述语义分割特征图中在位置上与之对应的区域;
根据所述每个候选区域,计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积,进而计算该面积与对应的候选区域的面积比例;
判断候选区域对应的面积比例是否在一定的阈值范围内,如果否,则删除所述候选区域。
4.根据权利要求3所述的方法,其特征在于,所述的一定的阈值范围为0.5-0.7。
5.根据权利要求1所述的方法,其特征在于,所述的方法还包括在根据所述的语义分割图对所述的多个候选区域进行筛选之前,对所述的多个候选区域进行初步筛选,剔除不符合规则的候选区域。
6.根据权利要求1所述的方法,其特征在于,所述的将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正,包括:
根据筛选后的候选区域,从所述的特征图中提取出对应筛选后的候选区域特征图;
对筛选后的候选区域特征图进行兴趣区域池化操作,得到一定尺寸的池化后的候选区域;
将池化后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头,得到池化后的候选区域的类别和边界框的坐标偏移量;
根据池化后的候选区域的类别和边界框的坐标偏移量对池化后的候选区域边界框进行修正。
7.根据权利要求1所述的方法,其特征在于,所述的将所述的分类和边界框修正后的候选区域输入至实例分割网络头,得到实例分割图,包括:
将所述的特征图和实例区域输入至实例分割网络头,执行与所述的语义分割网络头相同的操作,得到实例分割二值分布特征;
获取每个实例区域对应的目标实例掩模,进而生成实例分割图。
8.根据权利要求1所述的方法,其特征在于,所述的对所述的语义分割图和实例分割图进行融合,得到图像全景分割图,包括:
对基干网络生成的特征图分别进行卷积运算生成两组特征图,并分别与所述的语义分割图和实例分割图串接;
将串接后的语义分割图和实例分割图分别经过卷积运算以及sigmoid激活函数处理,得到实例分割软门值分布特征图和语义分割软门值分布特征图;
用实例分割软门值分布特征图与实例分割图进行逐元素的乘积,同时用语义分割软门值分布特征图与语义分割图进行逐元素的乘积;
将逐元素乘积操作后的语义分割图和实例分割图串接,采用卷积运算对串接后的语义分割图和实例分割图进行初步融合,然后使用具有不同扩张率的扩张卷积进行特征提取,并对提取后的结果进行串接;
采用卷积运算对串接后的结果进行进一步融合,将融合后的结果进行阈值比较,得到0-1分布的选通值分布图;
根据选通值分布图,对每个像素的0-1值选择使用语义分割或实例分割结果,得到全景分割图。
9.根据权利要求1所述的方法,其特征在于,所述的训练优化机制包括:
1)以Lstep-1=Lseg+Lrpn为目标函数,训练所述的语义分割网络头和区域提议网络头;
2)以Lstep-2=Lcls-m+Lreg+Lins为目标函数,训练物体识别网络头、边界框偏移预测网络头和实例分割网络头;
3)以二分类交叉熵损失函数为目标函数,训练生成全景分割图的后端融合网络;
将上述三个步骤中的目标函数进行求和,得到统一的目标函数,基于统一的目标函数对所述模型进行优化,得到优化的全景分割结模型。
10.根据权利要求1所述的方法,其特征在于,所述的基干卷积神经网络为空洞卷积结构或者编码-解码结构。
CN201910544228.XA 2019-06-21 2019-06-21 基于多任务学习深度神经网络的图像全景分割方法 Active CN110276765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544228.XA CN110276765B (zh) 2019-06-21 2019-06-21 基于多任务学习深度神经网络的图像全景分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544228.XA CN110276765B (zh) 2019-06-21 2019-06-21 基于多任务学习深度神经网络的图像全景分割方法

Publications (2)

Publication Number Publication Date
CN110276765A true CN110276765A (zh) 2019-09-24
CN110276765B CN110276765B (zh) 2021-04-23

Family

ID=67961578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544228.XA Active CN110276765B (zh) 2019-06-21 2019-06-21 基于多任务学习深度神经网络的图像全景分割方法

Country Status (1)

Country Link
CN (1) CN110276765B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199199A (zh) * 2019-12-27 2020-05-26 同济大学 一种基于自适应上下文区域选取的动作识别方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111259900A (zh) * 2020-01-13 2020-06-09 河海大学 一种卫星遥感图像的语义分割方法
CN111368845A (zh) * 2020-03-16 2020-07-03 河南工业大学 基于深度学习的特征字典构建及图像分割方法
CN111768415A (zh) * 2020-06-15 2020-10-13 哈尔滨工程大学 一种无量化池化的图像实例分割方法
CN111814593A (zh) * 2020-06-19 2020-10-23 浙江大华技术股份有限公司 交通场景解析方法和设备、存储介质
CN111915628A (zh) * 2020-06-24 2020-11-10 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111985457A (zh) * 2020-09-11 2020-11-24 北京百度网讯科技有限公司 交通设施损坏识别方法、装置、设备和存储介质
CN112053358A (zh) * 2020-09-28 2020-12-08 腾讯科技(深圳)有限公司 图像中像素的实例类别确定方法、装置、设备及存储介质
CN112257649A (zh) * 2020-11-03 2021-01-22 深圳创新奇智科技有限公司 一种物品识别方法、模型训练方法、装置及电子设备
CN112489064A (zh) * 2020-12-14 2021-03-12 桂林电子科技大学 一种基于边缘放缩修正的全景分割方法
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112766165A (zh) * 2021-01-20 2021-05-07 燕山大学 基于深度神经网络与全景分割的跌倒预判方法
CN112802039A (zh) * 2021-01-26 2021-05-14 桂林电子科技大学 一种基于全局边缘注意力的全景分割方法
CN112819840A (zh) * 2021-02-24 2021-05-18 北京航空航天大学 一种融合深度学习与传统处理的高精度图像实例分割方法
CN112950642A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 点云实例分割模型的训练方法、装置、电子设备和介质
CN113052858A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于语义流的全景分割方法
CN113096136A (zh) * 2021-03-30 2021-07-09 电子科技大学 一种基于深度学习的全景分割方法
CN113139549A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN113240723A (zh) * 2021-05-18 2021-08-10 中德(珠海)人工智能研究院有限公司 一种单目深度估计方法、装置以及深度评估设备
CN114758128A (zh) * 2022-04-11 2022-07-15 西安交通大学 基于受控像素嵌入表征显式交互的场景全景分割方法及系统
WO2022193497A1 (en) * 2021-03-17 2022-09-22 Huawei Technologies Co., Ltd. Method and system for graph-based panoptic segmentation
GB2606816A (en) * 2021-02-16 2022-11-23 Nvidia Corp Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106530305A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 语义分割模型训练和图像分割方法及装置、计算设备
CN108090911A (zh) * 2018-01-08 2018-05-29 北京航空航天大学 一种光学遥感图像的近岸舰船分割方法
CN108335305A (zh) * 2018-02-09 2018-07-27 北京市商汤科技开发有限公司 图像分割方法和装置、电子设备、程序和介质
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN109493330A (zh) * 2018-11-06 2019-03-19 电子科技大学 一种基于多任务学习的细胞核实例分割方法
CN109685060A (zh) * 2018-11-09 2019-04-26 科大讯飞股份有限公司 图像处理方法和装置
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN109801297A (zh) * 2019-01-14 2019-05-24 浙江大学 一种基于卷积实现的图像全景分割预测优化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106530305A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 语义分割模型训练和图像分割方法及装置、计算设备
CN108090911A (zh) * 2018-01-08 2018-05-29 北京航空航天大学 一种光学遥感图像的近岸舰船分割方法
CN108335305A (zh) * 2018-02-09 2018-07-27 北京市商汤科技开发有限公司 图像分割方法和装置、电子设备、程序和介质
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN109493330A (zh) * 2018-11-06 2019-03-19 电子科技大学 一种基于多任务学习的细胞核实例分割方法
CN109685060A (zh) * 2018-11-09 2019-04-26 科大讯飞股份有限公司 图像处理方法和装置
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN109801297A (zh) * 2019-01-14 2019-05-24 浙江大学 一种基于卷积实现的图像全景分割预测优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEXANDER KIRILLOV ET AL: "InstanceCut: from Edges to Instances with MultiCut", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
KAIMING HE ET AL: "Mask R-CNN", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
YUWEN XIONG ET AL: "UPSNet: A Unified Panoptic Segmentation Network", 《ARXIV:1901.03784V2 [CS.CV]》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199199A (zh) * 2019-12-27 2020-05-26 同济大学 一种基于自适应上下文区域选取的动作识别方法
CN111199199B (zh) * 2019-12-27 2023-05-05 同济大学 一种基于自适应上下文区域选取的动作识别方法
CN111210443B (zh) * 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111259900A (zh) * 2020-01-13 2020-06-09 河海大学 一种卫星遥感图像的语义分割方法
CN111368845A (zh) * 2020-03-16 2020-07-03 河南工业大学 基于深度学习的特征字典构建及图像分割方法
CN111368845B (zh) * 2020-03-16 2023-04-07 河南工业大学 基于深度学习的特征字典构建及图像分割方法
CN111768415A (zh) * 2020-06-15 2020-10-13 哈尔滨工程大学 一种无量化池化的图像实例分割方法
CN111814593A (zh) * 2020-06-19 2020-10-23 浙江大华技术股份有限公司 交通场景解析方法和设备、存储介质
CN111915628A (zh) * 2020-06-24 2020-11-10 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111915628B (zh) * 2020-06-24 2023-11-24 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111985457A (zh) * 2020-09-11 2020-11-24 北京百度网讯科技有限公司 交通设施损坏识别方法、装置、设备和存储介质
CN112053358A (zh) * 2020-09-28 2020-12-08 腾讯科技(深圳)有限公司 图像中像素的实例类别确定方法、装置、设备及存储介质
CN112257649A (zh) * 2020-11-03 2021-01-22 深圳创新奇智科技有限公司 一种物品识别方法、模型训练方法、装置及电子设备
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112489064B (zh) * 2020-12-14 2022-03-25 桂林电子科技大学 一种基于边缘放缩修正的全景分割方法
CN112489064A (zh) * 2020-12-14 2021-03-12 桂林电子科技大学 一种基于边缘放缩修正的全景分割方法
CN112766165A (zh) * 2021-01-20 2021-05-07 燕山大学 基于深度神经网络与全景分割的跌倒预判方法
CN112766165B (zh) * 2021-01-20 2022-03-22 燕山大学 基于深度神经网络与全景分割的跌倒预判方法
CN112802039A (zh) * 2021-01-26 2021-05-14 桂林电子科技大学 一种基于全局边缘注意力的全景分割方法
CN112802039B (zh) * 2021-01-26 2022-03-01 桂林电子科技大学 一种基于全局边缘注意力的全景分割方法
GB2606816A (en) * 2021-02-16 2022-11-23 Nvidia Corp Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision
CN112819840A (zh) * 2021-02-24 2021-05-18 北京航空航天大学 一种融合深度学习与传统处理的高精度图像实例分割方法
CN112950642A (zh) * 2021-02-25 2021-06-11 中国工商银行股份有限公司 点云实例分割模型的训练方法、装置、电子设备和介质
US11816841B2 (en) 2021-03-17 2023-11-14 Huawei Technologies Co., Ltd. Method and system for graph-based panoptic segmentation
WO2022193497A1 (en) * 2021-03-17 2022-09-22 Huawei Technologies Co., Ltd. Method and system for graph-based panoptic segmentation
CN113052858A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于语义流的全景分割方法
CN113052858B (zh) * 2021-03-23 2023-02-14 电子科技大学 一种基于语义流的全景分割方法
CN113139549A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN113139549B (zh) * 2021-03-25 2024-03-15 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN113096136A (zh) * 2021-03-30 2021-07-09 电子科技大学 一种基于深度学习的全景分割方法
CN113240723A (zh) * 2021-05-18 2021-08-10 中德(珠海)人工智能研究院有限公司 一种单目深度估计方法、装置以及深度评估设备
CN114758128A (zh) * 2022-04-11 2022-07-15 西安交通大学 基于受控像素嵌入表征显式交互的场景全景分割方法及系统
CN114758128B (zh) * 2022-04-11 2024-04-16 西安交通大学 基于受控像素嵌入表征显式交互的场景全景分割方法及系统

Also Published As

Publication number Publication date
CN110276765B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN110276765A (zh) 基于多任务学习深度神经网络的图像全景分割方法
Gosala et al. Bird’s-eye-view panoptic segmentation using monocular frontal view images
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN104809187B (zh) 一种基于rgb‑d数据的室内场景语义标注方法
CN110419049A (zh) 房间布局估计方法和技术
CN113486726B (zh) 一种基于改进卷积神经网络的轨道交通障碍物检测方法
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN110503112A (zh) 一种增强特征学习的小目标检测及识别方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN110751185A (zh) 目标检测模型的训练方法和装置
CN106780536A (zh) 一种基于对象掩码网络的形状感知实例分割方法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN107301400A (zh) 一种语义导向的半监督视频对象分割方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN112101410A (zh) 一种基于多模态特征融合的图像像素语义分割方法及系统
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN111797814A (zh) 基于通道融合和分类器对抗的无监督跨域动作识别方法
CN107239759A (zh) 一种基于深度特征的高空间分辨率遥感图像迁移学习方法
CN111696136B (zh) 一种基于编解码结构的目标跟踪方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN113052254A (zh) 多重注意力幽灵残差融合分类模型及其分类方法
CN111091059A (zh) 一种生活垃圾塑料瓶分类中的数据均衡方法
CN115862066A (zh) 一种改进YOLOv5的轻量化社区场景下行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant