CN107564007A

CN107564007A - 融合全局信息的场景分割修正方法与系统

Info

Publication number: CN107564007A
Application number: CN201710650525.3A
Authority: CN
Inventors: 唐胜; 张蕊; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2018-01-09
Anticipated expiration: 2037-08-02
Also published as: CN107564007B

Abstract

本发明涉及一种场景分割修正方法，通过全局残差修正网络，以完全残差卷积网络作为前端模型，将该前端模型的置信度图和原始图像按通道拼接起来，作为该全局残差修正网络的输入，从而输出全局修正残差，将该全局修正残差与该置信度图相加，得到场景分割的修正结果；使用已知的场景分割数据集对该全局残差修正网络进行训练；使用已知的场景分割数据集对该全局残差修正网络进行训练。同时本发明还提出了将该全局残差修正网络和局部边界修正网络串联起来，形成级联的框架，该级联的框架可以对前端模型的分割结果进行全局修正和局部修正，从而得到更加精确的场景分割结果。

Description

融合全局信息的场景分割修正方法与系统

技术领域

本方法属于机器学习和计算机视觉领域，特别涉及面向计算机视觉中场景分割的机器学习问题。

背景技术

目前流行的场景分割方法主要基于卷积神经网络(Convolutional NeuralNetworks，CNNs)。其中大部分方法利用了全卷积网络(Fully Convolutional Networks，FCNs)的框架。许多方法在FCNs的基础上进行进一步的改进，利用膨胀卷积、添加多层反卷积层和捕捉网络中间层特征等方法。然而，这些方法主要基于改进网络结构的思路提高分割精度。

不同于上述方法，其他一些方法则以提高当前的分割结果为目的。其中较为著名的包括“全连接条件随机场”方法和“多尺度膨胀卷积”方法。全连接条件随机场方法可以有效的精细化分割边界，该方法基于优化一个能量函数，从而自动对分割类别的得分图进行一体化修正。然而，该方法仅仅利用了低层的信息进行能量函数的优化。多尺度膨胀卷积方法则使用了膨胀卷积操作子，逐步捕捉多尺度的图像信息，从而进行分割结果的修正。这种方法主要基于图像的全局信息。

目前也有很多基于捕捉图像中邻域信息和空间关系进行场景分割的方法。一些方法利用了多维循环神经网络捕捉邻域信息和空间关系。这些方法针对图像的特点，将循环神经网络设计为不同的拓扑结构，包括对角结构、八邻域结构和图结构等等。为了减小循环神经网络的序列长度从而降低运算复杂度，这些方法大部分将循环神经网络作用在低分辨率的预测结果中，这将导致许多细节信息的丢失。此外，基于图模型的方法也被大量运用在捕捉图像块之间的空间信息中。一些场景分割的方法中将图模型建模为某种特殊的层，然后将其插入到神经网络中进行端对端的优化。这些方法主要捕捉神经网络学习到的语义特征，因此获取的图像块的空间信息主要集中在语义层面。

目前流行的场景分割方法主要基于全卷积网络及其变形。这些方法均采纳了迁移学习的思路，利用在大规模图像分类数据集上预训练好的卷积神经网络，将其调整为全卷积网络结构并在场景分割数据集上进行重训练。这类方法主要存在以下问题：(1)分割结果中常常出现不一致、不连续的问题，(2)目标的分割边界常常是不精准、不连贯的。

发明内容

为了解决上述问题，本发明从充分挖掘图像的全局内容信息的角度提出了全局残差修正网络。该修正网络可单独使用，也可以与局部边界修正网络级联在前端网络之后组成一个联合框架，从而提高修正结果的精度。

本发明涉及一种场景分割修正方法，其特征在于包括：

全局残差修正网络，使用完全残差卷积网络作为前端模型，将该前端模型的置信度图和原始图像按通道拼接起来，作为全局残差修正网络的输入，从而输出全局修正残差，将该全局修正残差与该置信度图相加，得到场景分割的全局残差修正结果；使用已知的场景分割数据集对该全局残差修正网络进行训练。

全局残差修正网络主要利用了图像的全局内容信息，以解决目前的场景分割结果中经常出现不一致、不连续的问题。

为了能够同时从待修正结果的置信度图和原始图像中捕捉全局内容信息和空间相关性，全局残差修正网络将置信度图和原始图像连接起来作为网络的输入。由于原始图像的RGB值在预处理时进行了归一化，置信度图中的值也需要归一化到相同的量级。全局残差修正网络的输出是全局修正残差，将这些残差加到前端模型的置信度图中即可得到全局修正后的分割结果。

全局残差修正网络使用较深的卷积神经网络结构捕捉全局内容信息。在神经网络的前向传播过程中，后面层的每个位置会与其前层中相邻区域全连接，从而受到该区域中所有值的影响。因此随着神经网络层数的加深，感受野也在不断的增大。全局残差修正网络使用的卷积神经网络结构中包含许多3×3的卷积核和若干步长为2的下采样操作，因此可以获得一个较大的感受野，从而较好的捕捉全局内容信息。此外，修正后的结果可以再次与原始图像连接作为全局残差修正网络的输入，再次进行进一步的修正，从而形成一个迭代结构。在迭代的过程中，全局残差修正网络的感受野可以随着迭代次数的增加而线性扩大，从而快速的覆盖整个图像，捕捉全图的全局内容信息。

全局残差修正网络采用现在流行的残差网络结构，因此还可以利用残差网络在大规模图像分类数据集上预训练的参数进行初始化。其中不同的是，预训练的模型仅以原始图像作为输入，因此全局残差修正网络第一层中对应置信度图的参数将利用随机数进行初始化。在训练的过程中，使用前端模型的置信度图和所有迭代的残差和与真值的交叉熵作为损失函数。但由于前端模型的分割结果已经较为接近真值，因此损失函数中大部分值较小，造成反向传播时的梯度较小，参数优化较慢。为获得较大的梯度，加快优化速度，本发明中也直接计算了全局残差与真值的交叉熵，作为全局残差修正网络的辅助损失函数。该辅助分支在测试时会被忽略。

全局残差修正网络包括：

1、根据公式将该置信度图中的值归一化到该原始图像的RGB值相同的量级，其中是该前端模型在位置i对于类别k的置信度值，是归一化后该置信度值，K是数据集中包含的类别总数；

2、该全局残差修正网络使用卷积神经网络结构捕捉全局内容信息，该结构采用101层残差网络，包含若干层的3×3卷积层和若干步长为2的下采样操作；

3、将该置信度图和该原始图像按通道拼接起来作为该全局残差修正网络的输入，以同时从该置信度图和该原始图像中捕捉全局内容信息和空间相关性；

4、输出全局修正残差，将该全局修正残差加到该置信度图中即可得到全局修正后的分割结果；该全局残差修正网络进行若干次迭代，以提高该分割结果的性能；

5、使用该残差网络在大规模图像分类数据集上预训练的参数进行初始化，其中该全局残差修正网络第1层中对应的该置信度图的参数利用随机数进行初始化；

6、将该修正结果和该原始图像连接起来，作为该全局残差修正网络的输入，通过该全局残差修正网络对该修正结果进行迭代处理，以提高该修正后结果的性能；

7、将已知的场景分割数据集中的训练图像，通过该全局残差修正网络得到训练全局修正残差和训练图像修正结果，通过该全局残差修正网络对该训练图像修正结果进行迭代处理，将每次迭代得到的该训练全局修正残差进行求和，得到训练全局修正残差和；

8、将该训练全局修正残差和与该场景分割数据集真值的交叉熵作为该全局残差修正网络的损失函数，使用该损失函数对该全局残差修正网络进行优化；

9、以该训练全局修正残差与该场景分割数据集真值的交叉熵作为该全局残差修正网络的辅助损失函数，使用该辅助损失函数加快该全局残差修正网络的训练速度。

本发明所述的场景分割修正方法，还可以将全局残差修正网络和局部边界修正网络串联实施，形成级联的框架对该场景分割进行全局修正和局部修正。

本发明还涉及一种场景分割修正系统，用于将前端模型的置信度图和原始图像按通道拼接起来作为网络的输入，从而输出全局修正残差，并将该全局修正残差加到该置信度图中，得到全局残差修正结果。

本发明涉及的场景分割修正系统，包括：

初始化模块，用于通过使用残差网络在大规模图像分类数据集上预训练的参数，对该全局残差修正网络进行初始化；

归一化模块，用于将该置信度图中的值进行归一化，以达到该原始图像的RGB值相同的量级；

输入模块，用于将该置信度图和该原始图像按通道拼接起来作为该全局残差修正网络的输入；

输出模块，用于输出全局修正残差，并将该全局修正残差与该置信度图相加得到该修正结果。

训练模块，用于通过使用场景分割数据集，对该全局残差修正系统进行训练。

本发明涉及的场景分割修正系统，可以与局部边界修正系统串联实施，形成级联的框架，用于对场景分割进行全局修正和局部修正，以得到更加精确的场景分割结果。

附图说明

图1全局残差修正网络的结构

图2级联框架的结构

图3全局残差修正网络在ADE20K数据集的结果对比

图4全局残差修正网络在Cityscapes数据集的结果对比

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的全局残差修正网络进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

为了更好使用本发明提出的全局残差修正网络，本发明采用了一种级联的框架对前端网络的分割结果进行修正。该框架包括三个部分：(1)使用目前流行的完全残差卷积网络作为前端模型；(2)使用全局残差修正网络，利用全局内容信息进行修正；(3)使用局部边界修正网络，对分割边界进行局部修正。由于全局残差修正网络和局部边界修正网络具有一定的互补性和协同性，使用级联结构可以极大的提高修正后的分割精度。

在级联结构中，前端模型使用了目前流行的完全卷积残差网络。该网络利用在大规模图像分类数据集上预训练的残差网络的参数，从而得到低分辨率的分割结果，之后连接反卷积层，从而将分割结果上采样到与原始图像相同大小。原始残差网络中的7×7全局pooling层被替换为膨胀参数为3的3×3卷积层，从而在保持原始模型感受野大小不变的情况下保留更多的细节信息，同时尽可能减少参数数量。此外，原始残差网络中包含5个步长为2的下采样过程，会将反卷积前的分割结果的分辨率降到1/32。为了增大分割结果的分辨率，前端模型中使用了hole算法。将残差网络中最后两个步长为2的下采样过程去掉，并将hole算法应用于残差网络的第四和第五部分中的所有层。通过这种修改，反卷积层前面的分割结果的分辨率可以提高到1/8。

在模型训练过程中，前端模型和全局残差修正网络均使用了101层残差网络的结构，并且以残差网络在大规模图像分类数据集上预训练的参数作为初始化。残差网络最后一层的1000类分类器被替换为与分割数据集中类别数相同的分类器。在训练时需要对级联结构进行分解，逐个训练每个网络。训练时以修正后的分割结果和真值的交叉熵作为损失函数，采用随机梯度下降法进行优化。根据数据集的特点在实验中选取合适的优化参数。在训练的过程中还对训练数据采用了多尺度数据扩增方法，以提高模型的鲁棒性，减小过拟合的程度。

本发明涉及一种场景分割修正方法，其特征在于包括：

为了能够同时从待修正结果的置信度图和原始图像中捕捉全局内容信息和空间相关性，全局残差修正网络将置信度图和原始图像连接起来作为网络的输入。由于原始图像的RGB值在预处理时进行了归一化，置信度图中的值也需要归一化到相同的量级，根据以下公式：

其中是前端模型在位置i对于类别k的置信度值，K是数据集中包含的类别总数。全局残差修正网络的输出是全局修正残差，将这些残差加到前端模型的置信度图中即可得到全局修正后的分割结果。

全局残差修正网络包括：

本发明涉及的场景分割修正系统，包括：

下面的实验结果表明：本发明提出的全局残差修正网络可以从全局的角度修正前端模型的分割结果，从而取得更准确的分割结果和更高的分割精度。

为了验证本发明方法的有效性，我们在现在流行的ADE20K和Cityscapes数据集上分别进行实验验证。

ADE20K是一个规模较大的场景分割数据集，在2016年的ImageNet大规模视觉识别挑战赛中使用。该数据集包含150个语义类别，20210张训练图像，2000张验证图像和3351张测试图像。数据集中的每幅图像都提供了像素级别的精细标注。该数据集使用平均交并比(Mean IoU)作为性能检测指标。Cityscapes数据集包含5000张采集于城市街景的图像，且提供了19个类别的像素级别的精细标注。数据集中2975张图像用于训练模型，500张图像用于验证模型，1525张图像用于测试模型。该数据集中的图像分辨率较高，为2048×1024。该数据集使用平均交并比(Mean IoU)作为性能检测指标。

(1)本发明方法在ADE20K数据集的有效性

我们首先在ADE20K数据集上验证本发明提出的全局残差修正网络的有效性。我们利用ADE20K的训练集训练模型，并观察模型在ADE20K的验证集上的性能，结果如表1所示。以Mean IoU作为评测指标，基于101层残差网络的前端模型精度为38.45％。使用全局残差修正网络迭代三次可以带来1.57％的性能提升。我们也测试了目前流行的其他两种场景分割修正方法，包括“全连接条件随机场”方法和“多尺度膨胀卷积”方法。其中全连接条件随机场方法仅能带来0.33％的性能提升，而多尺度膨胀卷积方法可以带来0.98％的性能提升。这两种方法的提升幅度均小于本发明提出的全局残差修正网络。最后，我们还在测试阶段使用了多尺度融合的方法，将精度进一步提升到了42.60％。我们将本发明取得的性能与目前最优的方法进行比较，结果见表2。相比之下，本发明使用单模型基于101层残差网络作为前端模型，可以取得41.60％的精度。再利用152层和200层残差网络作为前端模型，使用多模型融合可以将精度提升至43.54％，大幅度超过目前最优的模型精度。经过全局残差修正网络修正后的效果示例图见图3。从中可以观察到，经过全局残差修正网络后，部分不连续的分割结果可以被平滑，从而使分割结果更加准确。

表1：本发明方法在ADE20K验证集的结果

表2：本发明方法与目前流行方法在ADE20K验证集的结果对比

(2)本发明方法在Cityscapes数据集的有效性

其次我们在Cityscapes数据集上验证了本发明提出的全局残差修正网络的有效性。我们首先在Cityscapes验证集上进行测试，以Mean IoU作为评测指标，结果如表3所示。基于101层残差网络的前端模型性能为72.93％。使用全局残差修正网络可以提升1.72％的分割精度。在此基础上，在测试阶段使用多尺度融合可以进一步将性能提升至76.16％。与目前流行的其他两种场景分割修正方法相比，全连接条件随机场方法能带来0.54％的性能提升，而多尺度膨胀卷积方法可以带来1.03％的性能提升，依然比本发明方法提出的全局修正修正网络的性能提升幅度低。我们将本发明方法的模型在测试集上进行测试，并将测试结果提交到Cityscapes数据集的测评网站，与目前流行的其他场景分割方法比较，结果见表4所示。在测试集上，我们使用单模型(基于101层残差网络)作为前端网络，利用全局残差修正网络修正后达到75.15％的结果，而使用多模型融合后可以进一步将分割精度提升至76.27％。经过全局残差修正网络进行结果修正的效果示例图见图4。从中可以发现，全局残差修正网络可以修正部分不连续的分割结果，从而使分割结果更加准确。

表3：本发明方法在Cityscapes验证集的结果

表4：本发明方法与目前流行方法在Cityscapes测试集的结果对比。

Claims

1.一种场景分割修正方法，其特征在于，包括：

通过全局残差修正网络，以完全残差卷积网络作为前端模型，将该前端模型的置信度图和原始图像按通道拼接起来，作为该全局残差修正网络的输入，从而输出全局修正残差，将该全局修正残差与该置信度图相加，得到场景分割的修正结果；使用已知的场景分割数据集对该全局残差修正网络进行训练。

2.如权利要求1所述的场景分割修正方法，其特征在于，包括：

使用残差网络在大规模图像分类数据集上预训练的参数，对该全局残差修正网络进行初始化。

3.如权利要求1所述的场景分割修正方法，其特征在于，包括：

步骤11，将该置信度图中的值进行归一化，达到该原始图像的RGB值相同的量级；

步骤12，将该置信度图和该原始图像按通道拼接起来作为该全局残差修正网络的输入；

步骤13，使用卷积神经网络结构，同时捕捉该置信度图和该原始图像的全局内容信息和空间相关性；

步骤14，输出全局修正残差，将该全局修正残差与该置信度图相加得到该修正结果。

4.如权利要求1所述的场景分割修正方法，其特征在于，包括：

将该修正结果和该原始图像连接起来，作为该全局残差修正网络的输入，通过该全局残差修正网络对该修正结果进行迭代处理，以提高该修正后结果的性能。

5.如权利要求1所述的场景分割修正方法，其特征在于，包括：

步骤21，将已知的场景分割数据集中的训练图像，通过该全局残差修正网络得到训练全局修正残差和训练图像修正结果，通过该全局残差修正网络对该训练图像修正结果进行迭代处理，将每次迭代得到的该训练全局修正残差进行求和，得到训练全局修正残差和；

步骤22，将该训练全局修正残差和与该场景分割数据集真值的交叉熵，作为该全局残差修正网络的损失函数，使用该损失函数对该全局残差修正网络进行优化；

步骤23，以该训练全局修正残差与该场景分割数据集真值的交叉熵，作为该全局残差修正网络的辅助损失函数，使用该辅助损失函数加快该全局残差修正网络的训练速度。

6.如权利要求1所述的场景分割修正方法，其特征在于，还包括：

可以将全局残差修正网络和局部边界修正网络串联实施，形成级联的框架对该场景分割进行全局修正和局部修正。

7.一种场景分割修正系统，其特征在于，包括：

全局残差修正系统，用于将前端模型的置信度图和原始图像按通道拼接起来，作为该全局残差修正系统的输入，从而输出全局修正残差，并将该全局修正残差加到该置信度图中，得到全局残差修正结果。

8.如权利要求7所述的场景分割修正系统，其特征在于，包括：

9.如权利要求7所述的场景分割修正系统，其特征在于，还包括：

10.如权利要求7所述的场景分割修正系统，其特征在于，该全局残差修正系统可以与局部边界修正系统串联实施，形成级联的框架，用于对场景分割进行全局修正和局部修正，以得到更加精确的场景分割结果。