CN110276765A

CN110276765A - 基于多任务学习深度神经网络的图像全景分割方法

Info

Publication number: CN110276765A
Application number: CN201910544228.XA
Authority: CN
Inventors: 白双; 王聪聪; 李沛安
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-24
Anticipated expiration: 2039-06-21
Also published as: CN110276765B

Abstract

本发明提供了一种基于多任务学习深度神经网络的图像全景分割方法，包括：将图像输入至基干卷积神经网络进行特征提取，得到对应的特征图；将特征图分别输入至语义分割网络头和区域提议网络头，得到图像的语义分割图和多个候选区域；根据语义分割图筛选候选区域；将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正；将分类和边界框修正后的候选区域输入至实例分割网络头，得到实例分割图；对语义分割图和实例分割图进行融合，得到全景分割图；通过训练优化机制对全景分割网络进行训练和优化得到优化的图像全景分割模型；对图像进行全景分割。本发明的方法可以同时完成全景语义和实例分割任务、减少计算量。

Description

基于多任务学习深度神经网络的图像全景分割方法

技术领域

本发明涉及计算机视觉识别技术领域，尤其涉及一种基于多任务学习深度神经网络的图像全景分割方法。

背景技术

伴随着计算机视觉研究和深度学习方法的不断深入，基于深度学习的图像分类、语义分割以及实例分割等技术都获得了巨大的进步。语义分割为图像中的每个像素赋予一个语义类别标签，但不能区分图像中相同语义类别的不同物体实例。实例分割对图像中的物体实例进行像素级的分割，但不涉及没有明确形状的各种不可数物体。全景分割任务是语义分割和实例分割任务的统一，对于如自动驾驶和智能机器人等依赖图像场景视觉感知的任务都十分重要。

传统的全景分割技术通常独立执行语义分割和实例分割任务，然后再将二者结果融合得全景分割结果。这种方法依赖于两个独立网络，网络计算量较大。因此需要一个可以同时完成全景语义和实例分割任务的、减少计算量的多任务网络分割方法。

发明内容

本发明提供了一种基于多任务学习深度神经网络的图像全景分割方法，以解决以上问题。

为了实现上述目的，本发明采取了如下技术方案。

本发明提供了一种基于多任务学习深度神经网络的图像全景分割方法，包括：

将图像输入至基干卷积神经网络进行特征提取，得到对应的特征图；

将所述特征图分别输入至语义分割网络头和区域提议网络头，得到图像的语义分割图和多个候选区域；

根据所述的语义分割图筛选所述候选区域；

将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正；

将所述的分类和边界框修正后的候选区域输入至实例分割网络头，得到实例分割图；

对所述的语义分割图和实例分割图进行融合，得到图像全景分割图；

根据所述的图像全景分割图，通过训练优化机制对全景分割网络进行训练和优化得到优化的图像全景分割模型；

根据所述优化的图像全景分割模型对图像进行全景分割。

优选地，将所述特征图分别输入至语义分割网络头和区域提议网络头，得到图像的语义分割图和候选区域，包括：

将所述的特征图输入至语义分割网络头，通过全卷积操作，生成像素级的类别预测，从而得到所述图像的语义分割图；

将所述的特征图输入区域提议网络头，通过多次卷积操作生成尺寸和长宽比例不同的候选区域以及得到每个候选区域的类别和其包围框坐标。

优选地，根据所述的语义分割图筛选所述的候选区域，包括：

根据所述每个候选区域的包围框坐标，确定出所述语义分割特征图中在位置上与之对应的区域；

根据所述每个候选区域，计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积，进而计算该面积与对应的候选区域的面积比例；

判断候选区域对应的面积比例是否在一定的阈值范围内，如果否，则删除所述候选区域。

优选地，一定的阈值范围为0.5-0.7。

优选地，方法还包括在根据所述的语义分割图对所述的多个候选区域进行筛选之前，对所述的多个候选区域进行初步筛选，剔除不符合规则的候选区域。

优选地，将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正，包括：

根据筛选后的候选区域，从所述的特征图中提取出对应筛选后的候选区域特征图；

对筛选后的候选区域特征图进行兴趣区域池化操作，得到一定尺寸的池化后的候选区域；

将池化后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头，得到池化后的候选区域的类别和边界框的坐标偏移量；

根据池化后的候选区域的类别和边界框的坐标偏移量对池化后的候选区域边界框进行修正。

优选地，将所述的分类和边界框修正后的候选区域输入至实例分割网络头，得到实例分割图，包括：

将所述的特征图和实例区域输入至实例分割网络头，执行与所述的语义分割网络头相同的操作，得到实例分割二值分布特征；

获取每个实例区域对应的目标实例掩模，进而生成实例分割图。

优选地，对所述的语义分割图和实例分割图进行融合，得到图像全景分割图，包括：

对基干网络生成的特征图分别进行卷积运算生成两组特征图，并分别与所述的语义分割图和实例分割图串接；

将串接后的语义分割图和实例分割图分别经过卷积运算以及sigmoid激活函数处理，得到实例分割软门值分布特征图和语义分割软门值分布特征图；

用实例分割软门值分布特征图与实例分割图进行逐元素的乘积，同时用语义分割软门值分布特征图与语义分割图进行逐元素的乘积；

将逐元素乘积操作后的语义分割图和实例分割图串接，采用卷积运算对串接后的语义分割图和实例分割图进行初步融合，然后使用具有不同扩张率的扩张卷积进行特征提取，并对提取后的结果进行串接；

采用卷积运算对串接后的结果进行进一步融合，将融合后的结果进行阈值比较，得到0-1分布的选通值分布图；

根据选通值分布图，对每个像素的0-1值选择使用语义分割或实例分割结果，得到全景分割图。

优选地，训练优化机制包括：

1)以L_step-1＝L_seg+L_rpn为目标函数，训练所述的语义分割网络头和区域提议网络头；

2)以L_step-2＝L_cls-m+L_reg+L_ins为目标函数，训练物体识别网络头、边界框偏移预测网络头和实例分割网络头；

3)以二分类交叉熵损失函数为目标函数，训练生成全景分割图的后端融合网络；

将上述三个步骤中的目标函数进行求和，得到统一的目标函数，基于统一的目标函数对所述模型进行优化，得到优化的全景分割结模型。

优选地，基干卷积神经网络为空洞卷积结构或者编码-解码结构。

由上述本发明的基于多任务学习深度神经网络的图像全景分割方法提供的技术方案可以看出，本发明通过搭建统一的多任务网络同时实现图像语义分割、实例分割进而进行全景分割，以语义分割结果辅助实例分割任务的进行，进一步地提升了实例分割的精度，可以获得高质量的语义分割和实例分割的结果，最后通过后端的融合得到全景分割结果，该方法具在较少计算量的同时还可以实现高效、高精度的全景分割。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例提供的基于多任务学习深度神经网络的图像全景分割方法流程图；

图2为实施例提供的基于多任务学习深度神经网络的图像全景分割方法的结构示意图；

图3为实施例提供的基于多任务学习深度神经网络的图像全景分割方法的实现原理图；

图4为实施例提供的语义分割图和实例分割图进行融合的实现原理图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明。

实施例

全景分割方法：

全景分割方法的含义：全景分割是对图像中每个像素进行语义分类和实例ID标注，对于不可数物体对应的语义类别，所有属于某一语义类别的像素，其语义类别标注相同，实例ID也相同；而对于可数物体对应的语义类别，属于某一物体类别的像素，其语义类别标注相同，并根据其所属的不同物体实例分配不同实例ID。

图1为本实施例提供的基于多任务学习深度神经网络的图像全景分割方法流程图，图2为本实施例提供的基于多任务学习深度神经网络的图像全景分割方法的结构示意图，图3为本实施例提供的基于多任务学习深度神经网络的图像全景分割方法的实现原理图，参照图1、图2和图3，该方法包括以下步骤：

S1将图像输入至基干卷积神经网络进行特征提取，得到对应的特征图。

优选地，基干卷积神经网络为空洞卷积结构或者编码-解码结构。这种结构能够生成更加丰富的语义信息和更高分辨率的特征图，从而增强识别较大或较小物体的能力，以增强识别较大或较小物体的鲁棒性。

示意性地，采用编码-解码架构的网络结构作为基干卷积神经网络的结构，其中编码器由ResNeXt-101的前四个模块构成，解码器部分则由两级基于双线性上采样和卷积运算构成的解码模块组成。基干卷积神经网络首先使用编码器从图像中提取语义丰富的特征图，然后通过解码器逐渐恢复特征图中的空间信息。

S2将所述特征图分别输入至语义分割网络头和区域提议网络头，得到图像的语义分割图和多个候选区域。

将所述的特征图输入至语义分割网络头，通过全卷积操作，生成像素级的类别预测，从而得到所述图像的语义分割图。语义分割网络头由全卷积结构构成，全卷积结构由两个卷积层、两个反卷积层、一个1x1卷积层和一个softmax层组成，特征图经过全卷积结构后得到像素级的类别概率预测，进而得到输入的图像的语义分割图。

将所述的特征图输入区域提议网络头，通过多次卷积操作生成尺寸和长宽比例不同的候选区域及其包围框坐标。区域提议网络头由区域提议网络(Region ProposalNetwork，RPN)构成，特征图输入至RPN。

当然，所述全卷积结构还可以是其它形式，在此不作限制。

此处的语义分割网络头和区域提议网络头的构成不限于上述提到的内容，其他任何结构可以作为语义分割网络头和区域提议网络头的构成，都包含在本发明实施范围内。

S3根据所述的语义分割图筛选所述的候选区域。

优选地，该步骤之前，还包括对所述的多个候选区域进行初步筛选，剔除不符合规则的候选区域。该过程具体包括：首先，剔除太小和超出边界的候选区域；其次，按照RPN中获得的每个候选区域的类别置信得分递减将各个区域排序，筛选出固定数目的部分候选区域；然后使用非最大抑制Non-Maximum Suppression(NMS)算法排除掉重叠的候选区域；最后再按照类别置信得分高低保留部分高得分候选区域。

根据所述的语义分割图筛选候选区域，包括：

根据每个候选区域的包围框坐标，确定出所述语义分割特征图中在位置上与之对应的区域；根据所述每个候选区域，计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积，进而计算该面积与对应的候选区域的面积比例；判断候选区域对应的面积比例是否在一定的阈值范围内，如果否，则删除所述候选区域。

具体地，根据每个候选区域，计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积，进而计算该面积与对应的候选区域的面积比例进行辅助筛选候选区域包括:首先，根据各个候选区域的坐标，确定出所述语义分割特征图中在位置上与之对应的区域；然后，计算所述与每个候选区域对应的语义分割图区域中属于可数物体的像素的面积，具体的，在一个语义分割区域中，如果某像素的类别属于可数物体，则该像素位置被置为“1”否则为“0”，最后统计该区域中所有像素值为“1”的像素面积；最后计算该面积与对应的候选区域的面积比例，若小于一定阈值T1，则舍弃该候选区域。

优选地，这里的一定的阈值T1的范围为0.5-0.7。

S4将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正。

对筛选后的候选区域特征图进行兴趣区域(RI,Region of Interest)池化操作，得到一定尺寸的池化后的候选区域；该步骤的目的是为了将各个候选区域输入至全连接层进行分类等处理。

根据池化后的候选区域的类别和边界框的坐标偏移量对池化后的候选区域边界框进行修正，被物体识别网络头判别为背景的可数物体候选边界框被丢弃，而保留下来的候选边界框被基于坐标偏移量预测进行位置校正。

S5将所述的进行分类和坐标修正后的候选区域输入至实例分割网络头，得到实例分割图。

将特征图和实例区域输入至实例分割网络头，执行与所述的语义分割网络头相同的操作，得到实例分割二值分布特征，实例分割网络头使用与语义分割网络头具有相同的结构并且共享参数，区别在于语义分割网络头在生成语义分割预测时，为所有的语义类别生成概率分布图，而在生成实例分割预测时，则忽略非实例物体对应的预测输出而仅保留对应于实例物体的概率分布图。然后获取每个实例区域对应的目标实例掩模，进而生成实例分割图。

进一步地，当遇到不同实例间出现重叠问题时，选择实例分割二值分布特征中置信得分高的预测结果作为实例分割图。

S6对所述的语义分割图和实例分割图进行融合，得到图像全景分割图。参照图4，图4为本实施例提供的语义分割图和实例分割图进行融合的实现原理图。

由于实例分割输出和语义分割输出之间可能存在冲突。为得到统一的全景分割结果，需要对语义分割图和实例分割图进行融合，具体包括：

S61对基干网络生成的特征图分别进行卷积运算生成两组特征图，并分别与所述的语义分割图和实例分割图串接；

S62将串接后的语义分割图和实例分割图分别经过卷积运算以及sigmoid激活函数处理，得到实例分割软门值分布特征图和语义分割软门值分布特征图；

S63用实例分割软门值分布特征图与实例分割图进行逐元素的乘积，同时用语义分割软门值分布特征图与语义分割图进行逐元素的乘积；

S64将逐元素乘积操作后的语义分割图和实例分割图串接，采用卷积运算对串接后的语义分割图和实例分割图进行初步融合，然后使用具有不同扩张率的扩张卷积进行特征提取，并对提取后的结果进行串接；

S65采用卷积运算对串接后的结果进行进一步融合，将融合后的结果进行阈值比较，得到0-1分布的选通值分布图；

S66根据选通值分布图，对每个像素的0-1值选择使用语义分割或实例分割结果，得到全景分割图。

优选地，此步骤中的阈值为0.5。

S7根据所述的图像全景分割图，通过训练优化机制对所述的全景分割模型进行训练和优化得到优化的图像全景分割模型。

由于全景分割同时涉及语义分割和实例分割，涵盖了检测、识别和分割等多项基本任务。全景分割网络架构较复杂，为了得到最佳的优化结果，本发明通过训练优化机制将整个全景分割模型的训练过程分为如下4个步骤。

该训练优化机制包括：

1)以L_step-1＝L_seg+L_rpn为目标函数，训练所述的语义分割网络头和区域提议网络头使目标函数最小化。

定义代表训练语义分割网络头和区域建议网络头损失的多任务损失函数L_step-1为下式(1)所示：

L_step-1＝L_seg+L_rpn (1)

其中，定义为交叉熵损失函数，表示为语义分割损失，N_IP为图像中像素的数量，M为语义类别数，m代表某一语义类别，yⁱ _m为像素i的one-hot标注，pⁱ _m为模型对像素i的预测输出；定义为区域建议损失，其中，L_cls-b为二类交叉熵分类损失函数，表示为i为候选建议区域在图像中的索引，a_i为提议建议区域i是可数物体的预测概率。表示提议建议区域是否是可数物体。如果是，则取1，否则取0。L_reg为边界框偏移预测损失函数，第二项中以为系数表示仅对对应于可数物体的候选建议区域计算边界框坐标偏移量损失，λ是偏移量损失的权重系数，用于平衡偏移量损失和分类损失。t_i表示参数化的4维边界框坐标偏移向量的预测值，是与提议建议区域i相关联的真实边框的4维坐标偏移量。边界框坐标偏移量预测是一个回归问题，因此定义L_reg为j代表候选区域边界框的坐标表示，其中x，y为候选区域边界框的左上角坐标，w，h为候选区域边界框以左上角坐标为起点的宽和高，其中，

2)以L_step-2＝L_cls-m+L_reg+L_ins为目标函数，训练物体识别网络头、边界框偏移预测网络头和实例分割网络头。

训练物体识别网络头、边界框偏移预测网络头和实例分割网络头，本发明采用由前级传递过来的候选边界框从特征图中提取边界框特征，并在每个边界框特征上定义多任务损失函数为下式(2)所示：

L_step-2＝L_cls-m+L_reg+L_ins (2)

其中，L_cls-m为对可数物体及背景(这里不可数物体及背景都被定义为背景类)分类的多类交叉熵损失函数，N_R为边界框特征的数量，M_ins为可数物体类别数目加一，加一表示所有背景类别被看做一类。L_reg与步骤1)中的L_reg形式相同，用于定义可数物体实例的预测边界框坐标偏移量与实际边界框坐标偏移量的损失；L_ins为对候选区域进行语义分割的损失值，N_RP为候选区域中像素的数量，m为某一实例级语义类别，yⁱ为像素i的one-hot标注，pⁱ为模型对像素i的预测输出。在计算L_ins损失值的过程中，仅考虑可数物体类别及背景。

3)以二分类交叉熵损失函数为目标函数，训练生成全景分割图的后端融合网络。

语义分割输出及实例分割输出融合网络的训练，由于融合网络输出单通道的仅包含0和1的两个数值的选通值分布图，因此，本项目将语义-实例分割选通问题表述为二分类问题，使用预测得到的选通值分布图和二值化的图像真实标注，通过计算二分类交叉熵损失函数来训练生成全景分割图的后端融合网络。

4)将上述三个步骤中的目标函数进行求和，得到统一的目标函数，基于统一的目标函数对所述模型进行优化，得到优化的全景分割结模型。

S8根据所述优化的图像全景分割模型对图像进行全景分割。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多任务学习深度神经网络的图像全景分割方法，其特征在于，包括：

根据所述的语义分割图筛选所述候选区域；

根据所述优化的图像全景分割模型对图像进行全景分割。

2.根据权利要求1所述的方法，其特征在于，所述的将所述特征图分别输入至语义分割网络头和区域提议网络头，得到图像的语义分割图和候选区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述的根据所述的语义分割图筛选所述的候选区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述的一定的阈值范围为0.5-0.7。

5.根据权利要求1所述的方法，其特征在于，所述的方法还包括在根据所述的语义分割图对所述的多个候选区域进行筛选之前，对所述的多个候选区域进行初步筛选，剔除不符合规则的候选区域。

6.根据权利要求1所述的方法，其特征在于，所述的将筛选后的候选区域分别输入至物体识别网络头和边界框偏移预测网络头进行分类和边界框修正，包括：

7.根据权利要求1所述的方法，其特征在于，所述的将所述的分类和边界框修正后的候选区域输入至实例分割网络头，得到实例分割图，包括：

8.根据权利要求1所述的方法，其特征在于，所述的对所述的语义分割图和实例分割图进行融合，得到图像全景分割图，包括：

9.根据权利要求1所述的方法，其特征在于，所述的训练优化机制包括：

10.根据权利要求1所述的方法，其特征在于，所述的基干卷积神经网络为空洞卷积结构或者编码-解码结构。