CN113139549B

CN113139549B - 一种基于多任务学习的参数自适应全景分割方法

Info

Publication number: CN113139549B
Application number: CN202110318993.7A
Authority: CN
Inventors: 王坤峰; 瞿安国; 徐鹏斌; 李瑞瑞
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-03-15
Anticipated expiration: 2041-03-25
Also published as: CN113139549A

Abstract

本发明涉及一种基于多任务学习的参数自适应调节的全景分割方法，包括：可提取图像前景对象信息的基于单阶段检测网络的实例分割分支网络设计；可提取图像背景语义信息的基于全卷积神经网络的语义分割分支设计；以两分支结果为先验信息，通过启发式方法进行结果聚合的端到端全景分割网络设计；以及基于多任务学习思想，设计可根据训练情况自适应调节参数改变训练权重的损失函数。本发明可以根据训练中损失函数的变化情况作为先验知识对全景分割子分支训练权重进行自适应调节，提高模型表现，完成全景分割任务。

Description

一种基于多任务学习的参数自适应全景分割方法

技术领域

本发明涉及图像分割技术领域，尤其涉及一种基于多任务学习的参数自适应全景分割方法。

背景技术

在计算机视觉领域，全景分割是一个新颖且重要的研究问题，深度学习作为目前主流的机器学习研究方法，在全景分割领域得到了广泛应用。全景分割的基本原则是将被分割的图像中每一个像素点的类别信息识别出来，以让计算机理解图像。这就意味着全景分割问题所带来的挑战：前景对象的定位与分类、背景像素信息的分类以及边界信息冲突解决。要让计算机理解一张所给定的图像，首先要做的便是将前景对象的位置给确定出来，再根据所检测出的热点区域像素的深层语义去确定前景对象的类别，这样一方面是将降低训练神经网络时的计算资源，另一方面可以提升处理稠密对象时的网络表现；其次是对背景信息的分类，不同于前景对象，背景信息一般缺少明确边界，且缺少规则外形等先验信息，所以并不适用于先检测再分割的方法；最后是对于冲突信息的处理，前景对象与背景信息在边界处常会存在分类置信度相近的问题，此时如何处理好信息的冲突问题往往决定着网络最终的准确度。

我们基于全景分割网络的基本结构将全景分割网络分为单阶段全景分割网络与两阶段全景分割网络这两类。基于单阶段分割网络的全景分割网络处理速度更快，实时响应能力强，更能满足部署在智能终端以及实时处理复杂现实情况的要求。基于单阶段分割网络的全景分割网络在准确性上更好，能够达到更高的准确性要求，但是响应速度少要比前者慢，更适合理想情况下的需求。

现有技术存在以下问题。第一，没有利用分支之间的任务相似性加强信息交流，网络表现力低。第二，训练过程中各分支权重设置为固定值，不能根据训练情况自适应调节。第三，在处理信息冲突时对小物体以及被覆盖物体不友好。

发明内容

为此，本发明提供一种基于多任务学习的参数自适应全景分割方法，用以克服现有技术中分支之间的任务相似性加强信息交流不强导致网络表现力低的问题。

为实现上述目的，本发明提供一种基于多任务学习的参数自适应全景分割方法，所述方法包括：

对输入的图像进行特征提取以获取其深层语义信息与特征图并通过多尺度融合增强全景分割网络对图像信息的提取能力；

利用单阶段检测网络以获取图像的前景对象位置与类别信息，通过基于检测网络实现的实例分割分支对图像进行多尺度融合，实现前景对象逐像素分割的信息获取；

以所述获取的前景对象信息为先验信息，通过全景分割网络中的语义分割分支确定背景的后验概率，通过基于先验信息的分割结果引导将两分支结果进行聚合，得到图像信息的全景分割结果；

以基于多任务学习的思想，对全景分割的目标损失函数进行设计，使训练中各分支的训练情况作为先验信息，动态调整各模块在训练中所占的权重，实现参数自适应调节的动态调整训练，增强网络准确度和鲁棒性。

进一步地，所述将输入图像通过实例分割分支获取前景对象先验信息包括：

使用特征提取网络VGG-16获取图像深层语义信息及特征图；

将所述获取的特征信息输入单阶段检测网络，获取候选框，并通过非最大值抑制，获取前景对象高置信度位置与类别；

将所述特征图通过多尺度融合，对图像中对象信息进行增强，并通过反卷积操作上采样，生成前景对象掩码，并覆盖于所述检测网络所生成的候选框中；

将所述特征图通过深度卷积网络提取图像信息，并连接全卷积层，给出逐像素分类信息，完成背景信息获取，构造语义分割分支，并以上述所获取前景对象为先验信息进行两分支之间的结果聚合。

进一步地，所述分支之间前景对象分割结果为先验信息，指导结果聚合，再以背景信息进行辅助，采用贝叶斯概率进行像素置信度结果计算；

根据下式进行结果聚合指导：

其中，P(B_i)为在实例分割分支结果中像素点分类结果置信度；P(A|B_i)为该像素点在以前景对象分割结果作为先验情况下的像素点类别置信度；P(B_i|A)为通过语义分割分支结果作为先验信息的置信度。

进一步地，所述以训练情况为先验信息进行自适应参数调整损失函数设计特征包括：

根据训练中各分支训练情况进行自适应调整，对于全景分割问题，由于其存在两个强关联性任务分支，对于整个网络的目标损失函数设置如下：

L_pan＝αL_ins+βL_sem

α+β＝1

其中，L_pan为整个全景分割网络的总体目标损失函数；L_ins为实例分割分支损失函数；L_sem为语义分割分支函数；α与β为相加为1的两个常数项，是对两个分支训练调整的权重。

进一步地，根据多任务学习的思想，以实时训练的情况来对损失函数中代表权重的参数进行实时调节，增强模型表现。对此，需要以损失函数的变化来对训练情况进行评估，调整后的模型自适应调整参数设计如下：

其中，D(x)为训练过程中分支调整情况的评价指标，用来实时对当前网络分支训练情况进行评估；为第k个分支在第i轮次迭代时的损失函数值；/>为第k个分支第i轮次迭代与第i-1次迭代损失函数的差值；F(x)为距离函数，用来强化分支之间损失函数的差距；最后，权值α与β通过对评价指标的归一化后确定。

进一步地，α与β初始设定为0.5。权重的自适应调整从第二个迭代轮次开始，每一轮迭代轮次数设为200。

进一步地，所述对于实例分支，其损失函数包括以下几个部分：

检测阶段候选框目标损失函数：

其中，L_det为检测阶段损失函数；N为锚点数量；L_conf(x，c)为分类阶段的损失函数，L_loc(x，l，g)为位置误差函数。

进一步地，L_conf(x，c)具体选用softmax多类别的损失函数，L_loc(x，l，g)具体选择为smooth L1损失函数，L_conf(x，c)与L_loc(x，l，g)的函数表示如下：

其中，对于Smooth_L1函数有：

进一步地，对于添加掩码部分的目标损失函数，公式如下：

其为binary cross-entropy公式。

进一步地，语义分割的目标函数如下：

所述对于语义分割分支，选择交叉熵作为目标函数，进行背景信息的分割，作为前景对象信息的后验信息补充。

与现有技术相比，本发明的有益效果在于，利用所述特征图进行多尺度的前景对象检测，获取高置信度的前景对象检测框，并对检测框内对象进行多尺度的反卷积操作，以生成前景对象掩码，以所生成的前景对象信息为先验知识，对图像添加通过语义分割分支所生成的背景信息；设计可根据训练中目标损失函数变化情况进行参数自适应调节的损失函数，能以训练中上一轮次各分支在训练中的表现情况自适应的调整各分支在训练中所占权重，提升训练的稳定性与最终的模型表现。

进一步地，本发明通过基于多任务学习的参数自适应调整全景分割方法，可以根据训练时损失函数下降情况作为先验知识，进行参数的自适应调整，从而进行高准确性的全景分割任务。

附图说明

图1为本发明实施例提供的基于多任务学习的参数自适应调整全景分割方法流程图；

图2为本发明实施例提供的输入图像示意图；

图3为本发明实施例提供的全景分割网络处理流程示意图；

图4为本发明实施例提供的实例分割分支处理流程图；

图5为本发明实施例提供的参数自适应调整函数图像；

图6为本发明实施例提供的前景对象检测与分类先期实验结果图；

图7为本发明实施例提供的前景对象分支分割先期实验结果图；

图8为本发明实施例提供的前景和背景的分割先期实验结果图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1-图3所示，图1为本发明实施例提供的基于多任务学习的参数自适应调整全景分割方法流程图，图2为本发明实施例提供的输入图像示意图，图3为本发明实施例提供的全景分割网络处理流程示意图，所述方法包括：

步骤S101，将输入图像通过特征提取网络获得深层语义信息，并通过多尺度融合进行信息增强，再由实例分割分支生成前景对象的检测与分割结果。

步骤S102，利用所述实例分支所分割得到的前景信息作为先验信息，通过语义分支处理图像中剩余像素点的分割，并以前景对象的分割作为高置信度信息引导两分支结果聚合，形成全景分割结果。

步骤S103，通过所述全景分割模型设计，修改损失函数中两分支的训练权重，以训练中损失函数下降情况为评估标准，对训练较为困难的分支提升下一轮迭代中分支的权重，提升训练过程的稳定性，最终达到提升训练后模型的稳定性的结果。

具体而言，所述将输入图像通过特征提取网络获得深层语义信息，并通过多尺度融合进行信息增强，再由实例分割分支生成前景对象的检测与分割结果包括：

从数据集读取所述输入图像；

将所述图像通过由VGG-16的特征提取网络获取图像的特征信息，获取特征图。

这里，需要将VGG-16分类网络做出修改，VGG-16网络的后五层为softmax层与四个全连接层，这是网络为了处理分类任务时使用的，本发明只需求VGG-16网络的特征提取功能，所以将之后的用于分类工作的网络层去掉，分别接上实例分割分支与语义分割分支，用于图像深层语义的获取。

所述分支之间前景对象分割结果为先验信息，指导结果聚合，再以背景信息进行辅助，采用贝叶斯概率进行像素置信度结果计算。

根据下式进行结果聚合指导：

请继续参阅图4，其为本发明实施例提供的实例分割分支处理流程图，实例分割分支处理流程如下，所述处理图像前景对象位置、类别以及逐像素掩码分割的实例分支设计包括：

在改进后的特征提取网络后接入单阶段检测器，以6层卷积层对特征图进行下采样操作，获取不同尺度下的特征。由于卷积层的感受野问题，浅层的特征对较小面积前景对象敏感，深层的特征对于较大面积的前景对象敏感，进行特征图的多尺度融合对前景对象的特征信息。

这里，单阶段检测网络通过候选框的回归与框内对象的分类操作，获取前景对象的位置与类别信息。进一步地，将多尺度融合后得到的特征图根据候选框得到的信息进行逐层上采样操作，为前景对象覆盖上掩码，得到前景对象的逐像素分割结果。

请继续参阅图6，其为本发明实施例提供的前景对象检测与分类先期实验结果图，从图中可以看出，在检测步骤，本发明实施例可以将前景对象的位置与类别进行确认。

请继续参阅图7，其为本发明实施例提供的前景对象分支分割先期实验结果图，这里给出了本发明实施例在实例分支对前景对象进行逐像素分类后并添加掩码的结果图。从该图中可以看出，对前景对象可以进行高置信度的分割操作。

这里，根据公式(1)计算实例分支的损失函数：

L_ins＝L_det+L_mask (1)

其中，L_det包括了检测框的回归损失与检测对象的分类损失，具体由公式(2)、(3)、(4)可知：

具体而言，对于前景对象的掩码由公式(6)来进行计算：

将所述多尺度融合后的特征图通过基于全卷积网络的背景提取分支，通过对不同尺度的特征图进行卷积操作，再经过全连接层对图像进行逐像素的分类，以获取背景信息。

这里，语义分支的损失函数如公式(6)所示：

为了处理由实例分支与语义分支所带来的冲突问题，本发明选择使用以前景对象分割结果为先验指导的结果聚合方法。给予前景对象分割结果以高置信度的权重，在此基础上对结果添加背景掩码。

请继续参阅图7，对每一个前景对象都给出了其类别信息的置信度以及包含该前景对象的检测框，并对框内的前景对象进行了逐像素的分类，且用掩码覆盖了所待分割的前景对象。

这里，对于整个全景分割网络，其损失函数由实例分支的损失函数与语义分支共同组成，如公式(7)所示：

L_pan＝αL_ins+βL_sem (7)

所述利用所设计的基于多任务学习的参数自适应调节的损失函数对网络训练进行调整。

请继续参阅图5，其为本发明实施例提供的参数自适应调节损失函数的图像。当某分支两轮迭代的损失函数差值较小时，说明上一个迭代轮次中该分支训练不够充分，需要增大该分支在下一轮次中所占的权重。

具体而言，根据公式(8)来度量两轮次之间的损失函数训练情况：

其中，函数的定义域为两轮次损失函数的差值，图5为该函数的图像，如图5所示，对于损失函数下降不明显的情况，两迭代轮次损失函数的差值会落在[0，1]区间之中，此时说明在上一个迭代轮次中该分支训练不够充分，则应该对该分支在下一轮次增加其训练中的权重。

本发明实施例增大权重的方法如公式(9)、公式(10)以及公式(11)所示：

其中，公式(9)为计算出两轮次迭代中第i个分支的损失函数下降差值，以D(x)作为下降的评价度量，公式(10)与(11)做归一化处理，并计算出实例分支与语义分支的各自在这一轮次中各自分支所占的权重。

具体而言，α与β初始设定为0.5，权重的自适应调整从第二个迭代轮次开始，每一轮迭代轮次数设为200。

请参阅图8所示，其为为本发明实施例提供的前景和背景的分割先期实验结果图。

如图8所示，对输入图像进行了逐像素的分割处理，包括了对不同前景对象的分割以及给予不同个体对象独特的类别ID，以及对于不同类别的背景信息的分割结果，本发明使用不同颜色的掩码对。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多任务学习的参数自适应全景分割方法，其特征在于，包括：

2.根据权利要求1所述的基于多任务学习的参数自适应全景分割方法，其特征在于，将输入图像通过实例分割分支获取前景对象先验信息包括：

使用特征提取网络VGG-16获取图像深层语义信息及特征图；

3.根据权利要求2所述的基于多任务学习的参数自适应全景分割方法，其特征在于，所述分支之间前景对象分割结果为先验信息，指导结果聚合，再以背景信息进行辅助，采用贝叶斯概率进行像素置信度结果计算；

根据下式进行结果聚合指导：

，

其中，为在实例分割分支结果中像素点分类结果置信度；/>为该像素点在以前景对象分割结果作为先验情况下的像素点类别置信度；/>为通过语义分割分支结果作为先验信息的置信度。

4.根据权利要求3所述的基于多任务学习的参数自适应全景分割方法，其特征在于，以训练情况为先验信息进行自适应参数调整损失函数设计特征包括：

，

其中，为整个全景分割网络的总体目标损失函数；/>为实例分割分支损失函数；为语义分割分支函数；α与β为相加为1的两个常数项，是对两个分支训练调整的权重。

5.根据权利要求4所述的基于多任务学习的参数自适应全景分割方法，其特征在于，根据多任务学习的思想，以实时训练的情况来对损失函数中代表权重的参数进行实时调节，增强模型表现，对此，需要以损失函数的变化来对训练情况进行评估，调整后的模型自适应调整参数设计如下：

，

其中，为训练过程中分支调整情况的评价指标，用来实时对当前网络分支训练情况进行评估；/>为第k个分支在第i轮次迭代时的损失函数值；/>为第k个分支第i轮次迭代与第i-1次迭代损失函数的差值；F(x)为距离函数，用来强化分支之间损失函数的差距；最后，权值α与β通过对评价指标的归一化后确定。

6.根据权利要求5所述的基于多任务学习的参数自适应全景分割方法，其特征在于，α与β初始设定为0.5，权重的自适应调整从第二个迭代轮次开始，每一轮迭代轮次数设为200。

7.根据权利要求6所述的基于多任务学习的参数自适应全景分割方法，其特征在于，对于实例分支，其损失函数为：

，

其中，为添加掩码部分的目标损失函数，/>为检测阶段损失函数；，

为分类阶段的损失函数，/>为位置误差函数。

8.根据权利要求7所述的基于多任务学习的参数自适应全景分割方法，其特征在于，具体选用softmax多类别的损失函数，/> 具体选择为smooth L1损失函数，/>与/>的函数表示如下：

，

其中，对于函数有：/>。

9.根据权利要求8所述的基于多任务学习的参数自适应全景分割方法，其特征在于，对于添加掩码部分的目标损失函数，公式如下：

，

其为binary cross-entropy公式。

10.根据权利要求9所述的基于多任务学习的参数自适应全景分割方法，其特征在于，语义分割的目标函数如下：

，

对于语义分割分支，选择交叉熵作为目标函数，进行背景信息的分割，作为前景对象信息的后验信息补充。