CN108280452A

CN108280452A - 一种基于并行网络构架的图像语义标签纠错方法

Info

Publication number: CN108280452A
Application number: CN201810077749.4A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-07-13

Abstract

本发明中提出的一种基于并行网络构架的图像语义标签纠错方法，其主要内容包括：标签传播网络、标签替换网络、融合网络、并行网络构架和训练，其过程为，给定一个输入RGB图像和一个初始分割概率图，采用带有跳跃连接的编码器‑解码器结构表示位移估计，计算改进的分割概率图，训练标签更换网络，基于初始分割概率图来预测新的分割概率图，融合网络将两个并行分支的输出结合起来联合训练整个架构，使用共享编码器来学习两个子任务的特征，生成最终的分割结果。本发明提出了标签传播网络和标签替换网络，两个网络并行运行而不是按顺序运行，可以大大缩短推理时间，同时提高了解析性能和图像语义标签纠错的能力。

Description

一种基于并行网络构架的图像语义标签纠错方法

技术领域

本发明涉图像分割领域，尤其是涉及了一种基于并行网络构架的图像语义标签纠错方法。

背景技术

随着互联网的普及与图像处理设备的快速发展，网络图片和视频也正以几何级的数量增长，如何有效地使用和处理这些图片和视频也成为一个急需解决的问题。逐像素语义图像标签是许多应用程序中重要而又具有挑战性的任务，其可以应用于室内导航、人机交互、图像搜索引擎以及虚拟现实或增强现实系统等。具体地，在时尚服装设计领域，通过对人体的语义分割可以定位出人脸、身体部位、服装等各种信息，从而帮助用户在互联网购物过程中实现自动试衣、自助购买等功能；在车辆自动驾驶领域，通过对车体前方场景的语义分割可以精确定位道路、车体和行人等场景或物体信息，从而提升自动驾驶的安全性；语义图像标签还可以实现在无人机着陆点的判断和在穿戴式设备中的诸多应用。然而，传统的方法在残差校正阶段存在难以应用于离散密集标记任务的问题，如语义分割等。

本发明提出了一种基于并行网络构架的图像语义标签纠错方法，给定一个输入RGB图像和一个初始分割概率图，采用带有跳跃连接的编码器-解码器结构表示位移估计，计算改进的分割概率图，训练标签替换网络，基于初始分割概率图来预测新的分割概率图，融合网络将两个并行分支的输出结合起来以联合训练整个架构，使用共享编码器来学习两个子任务的特征，生成最终的分割结果。本发明提出了标签传播网络和标签替换网络，两个网络并行运行而不是按顺序运行，可以大大缩短推理时间，同时提高了解析性能和图像语义标签纠错的能力。

发明内容

针对在残差校正阶段难以应用于离散密集标记任务的问题，本发明的目的在于提供一种基于并行网络构架的图像语义标签纠错方法，给定一个输入RGB图像和一个初始分割概率图，采用带有跳跃连接的编码器-解码器结构表示位移估计，计算改进的分割概率图，训练标签更换网络，基于初始分割概率图来预测新的分割概率图，融合网络将两个并行分支的输出结合起来联合训练整个架构，使用共享编码器来学习两个子任务的特征，生成最终的分割结果。

为解决上述问题，本发明提供一种基于并行网络构架的图像语义标签纠错方法，其主要内容包括：

(一)标签传播网络；

(二)标签替换网络；

(三)融合网络；

(四)并行网络构架；

(五)训练。

其中，所述的图像语义标签纠错方法，给定一个输入RGB图像I^s和一个初始分割概率图S^s，提出一种端到端的纠错方法，它建立在三个网络上，即标签传播网络、标签替换网络和融合网络。

其中，所述的标签传播网络，建议估算每个像素(即2D位移场)的位移矢量(Δx,Δy)，以便从邻近像素传播标签；遵循变形层应用估计的位移，以便获得改进的分割概率图；采用带有跳跃连接的编码器-解码器结构表示位移估计，表示为标签传播网络E；

综上所述，给定输入图像I^s和初始分割概率图S^s，通过预测的2D位移场对S^s进行重新采样来训练网络E，计算改进的分割概率图S^prop；它可以表示为最小化S^prop和标定好的真实分割图S^gt之间的损失函数：

其中，是训练数据集，E(·)是指其参数用于优化的标签传播网络，表示交叉熵损失；标签传播网络E旨在利用来自附近像素的概率分布的上下文信息来预测一对位移矢量(Δx,Δy)。

进一步地，所述的位移矢量，每个方向有一个位移矢量，使像素的概率分布可以相对于其邻近像素重新估计；其中，(Δx,Δy)表示模型采样概率分布的位移向量；对于S^s中的每个像素(x_i,y_i)，传播后的坐标与下式相关：

最后，根据估计的位移矢量对初始概率图S^s进行扭曲，以生成精细化的概率图S^prop；关于翘曲操作，使用双线性抽样内核，以允许进行端到端的训练：

其中，表示输出中处的第i个像素的值，是输入S^s中处的像素的邻域；可以有效计算位移估计的参数。

其中，所述的标签替换网络，标签传播网络E能够通过将可能正确的标签传播到其邻域来纠正分割错误；但是，当一个区域中的几乎所有像素最初都有错误的标签时，它无法纠正标签；为了处理这种情况，提出将输入I^s和初始分割概率图S^s两者馈送到完全卷积的标签替换网络C中，直接重新计算新的分割概率图S^repl；网络重新估计每个像素的概率向量，但这次是基于其外观和其邻居的概率分布；遵循与标签传播网络相同的编码器-解码器架构，用卷积层替换标签传播网络的最后一层，以输出新的分割概率图。

进一步地，所述的概率图，给定图像I^s及其对应的初始分割概率图S^s，训练标签更换网络C，目的是基于初始的S^s预测新的分割概率图S^repl；该任务可以表述为最小化新产生的分割图S^repl与相应的标定好的真实标签S^gt之间的交叉熵损失：

损失函数如上式所示。

其中，所述的融合网络，标签传播和标签替换网络并行工作，专门用于纠正不同类型的错误；一方面，标签传播网络E考虑到附近的像素及其对应的类别概率，基于外观相似度传播概率向量；另一方面，标签替换网络C逐个像素地重新估计类别标签；因此使用融合网络M将这两个并行分支的输出结合起来，并联合训练整个架构；使用共享编码器来学习两个子任务的特征。

进一步地，所述的学习两个子任务的特征，使用共享编码器来学习两个子任务的特征，即标签传播和标签替换网络，并且减少了参数的总数量以进行优化；网络以分支的方式分成两个不同的解码器，一个用于预测位移，另一个用于直接预测新的标签；在最后阶段，结合两个分支的中间结果，加入融合网络M，将这些中间结果作为输入，预测一个掩模m，生成最终的分割结果；然后将最终结果计算为像素级的两个分支输出的加权平均值：

S^fuse＝m⊙S^prop+(1-m)⊙S^repl (5)

其中，S^prop和S^repl是两个分支的中间分割概率图，⊙表示元素乘法；

整体损失函数如上式所示。

其中，所述的并行网络构架，标签传播网络和标签替换网络的共享基于完全卷积编码器-解码器的基础架构；对于编码器，有四个模块，每个模块包含两个内核大小为3×3的卷积层和最大池层；对于解码器，有三个模块包含一个双线性上采样层和两个内核大小为3×3的卷积层；在三个模块的开头添加三个跳转连接，以整合不同的信息；融合网络预测一个掩码来结合标签传播网络和标签替换网络；它具有三个内核大小为3×3的卷积层和另一个用于生成单通道掩码的卷积层。

其中，所述的训练，训练时初始化网络中的权重；采用ADAM优化器学习网络参数，学习率为0.0001，β₁＝0.9，β₂＝0.999，批量大小为8；整个训练过程包括大约20000次迭代；采用随机镜像增强数据，将所有数据集的大小调整在0.5到1.5之间，根据每个数据集裁剪到一个固定的大小；然后将输入图像归一化为[-1,1]，并使用Softmax操作应用相应的初始分割概率图。

附图说明

图1是本发明一种基于并行网络构架的图像语义标签纠错方法的系统框架图。

图2是本发明一种基于并行网络构架的图像语义标签纠错方法的流程示意图。

图3是本发明一种基于并行网络构架的图像语义标签纠错方法的网络构架。

图4是本发明一种基于并行网络构架的图像语义标签纠错方法的标签传播网络。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于并行网络构架的图像语义标签纠错方法的系统框架图。主要包括标签传播网络、标签替换网络、融合网络、并行网络构架和训练。

图像语义标签纠错方法，给定一个输入RGB图像I^s和一个初始分割概率图S^s，提出一种端到端的纠错方法，它建立在三个网络上，即标签传播网络、标签替换网络和融合网络。

标签替换网络，标签传播网络E能够通过将可能正确的标签传播到其邻域来纠正分割错误；但是，当一个区域中的几乎所有像素最初都有错误的标签时，它无法纠正标签；为了处理这种情况，提出将输入I^s和初始分割概率图S^s两者馈送到完全卷积的标签替换网络C中，直接重新计算新的分割概率图S^repl；网络重新估计每个像素的概率向量，但这次是基于其外观和其邻居的概率分布；遵循与标签传播网络相同的编码器-解码器架构，用卷积层替换标签传播网络的最后一层，以输出新的分割概率图。

给定图像I^s及其对应的初始分割概率图S^s，训练标签更换网络C，目的是基于初始的S^s预测新的分割概率图S^repl；该任务可以表述为最小化新产生的分割图S^repl与相应的标定好的真实标签S^gt之间的交叉熵损失：

损失函数如上式所示。

融合网络，标签传播和标签替换网络并行工作，专门用于纠正不同类型的错误；一方面，标签传播网络E考虑到附近的像素及其对应的类别概率，基于外观相似度传播概率向量；另一方面，标签替换网络C逐个像素地重新估计类别标签；因此使用融合网络M将这两个并行分支的输出结合起来，并联合训练整个架构；使用共享编码器来学习两个子任务的特征。

使用共享编码器来学习两个子任务的特征，即标签传播和标签替换网络，并且减少了参数的总数量以进行优化；网络以分支的方式分成两个不同的解码器，一个用于预测位移，另一个用于直接预测新的标签；在最后阶段，结合两个分支的中间结果，加入融合网络M，将这些中间结果作为输入，预测一个掩模m，生成最终的分割结果；然后将最终结果计算为像素级的两个分支输出的加权平均值：

S^fuse＝m⊙S^prop+(1-m)⊙S^repl (2)

整体损失函数如上式所示。

并行网络构架，标签传播网络和标签替换网络的共享基于完全卷积编码器-解码器的基础架构；对于编码器，有四个模块，每个模块包含两个内核大小为3×3的卷积层和最大池层；对于解码器，有三个模块包含一个双线性上采样层和两个内核大小为3×3的卷积层；在三个模块的开头添加三个跳转连接，以整合不同的信息；融合网络预测一个掩码来结合标签传播网络和标签替换网络；它具有三个内核大小为3×3的卷积层和另一个用于生成单通道掩码的卷积层。

训练时初始化网络中的权重；采用ADAM优化器学习网络参数，学习率为0.0001，β₁＝0.9，β₂＝0.999，批量大小为8；整个训练过程包括大约20000次迭代；采用随机镜像增强数据，将所有数据集的大小调整在0.5到1.5之间，根据每个数据集裁剪到一个固定的大小；然后将输入图像归一化为[-1,1]，并使用Softmax操作应用相应的初始分割概率图。

图2是本发明一种基于并行网络构架的图像语义标签纠错方法的流程示意图。给定输入图像和相应的初始分割图，模型通过考虑输入(即图像)和输出(即标签)变量的联合空间依赖关系来预测改进的分割图。给定一个输入RGB图像和一个初始分割概率图，采用带有跳跃连接的编码器-解码器结构表示位移估计，计算改进的分割概率图，训练标签更换网络，基于初始分割概率图来预测新的分割概率图，融合网络将两个并行分支的输出结合起来联合训练整个架构，使用共享编码器来学习两个子任务的特征，生成最终的分割结果。

图3是本发明一种基于并行网络构架的图像语义标签纠错方法的网络构架。标签传播网络E传播来自附近像素的概率分布以改善对象边界；同时，标签替换网络C直接从RGB图像输入对和初始分割图预测新的分割概率图；最后，融合网络M将这些分支的结果与预测掩模结合以获得最佳标签，括号中的图像表示彩色标签图。

图4是本发明一种基于并行网络构架的图像语义标签纠错方法的标签传播网络。建议估算每个像素(即2D位移场)的位移矢量(Δx,Δy)，以便从邻近像素传播标签；遵循变形层应用估计的位移，以便获得改进的分割概率图；采用带有跳跃连接的编码器-解码器结构表示位移估计，表示为标签传播网络E；

每个方向有一个位移矢量，使像素的概率分布可以相对于其邻近像素重新估计；其中，(Δx,Δy)表示模型采样概率分布的位移向量；对于S^s中的每个像素(x_i,y_i)，传播后的坐标与下式相关：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于并行网络构架的图像语义标签纠错方法，其特征在于，主要包括标签传播网络(一)；标签替换网络(二)；融合网络(三)；并行网络构架(四)；训练(五)。

2.基于权利要求书1所述的图像语义标签纠错方法，其特征在于，给定一个输入RGB图像I^s和一个初始分割概率图S^s，提出一种端到端的纠错方法，它建立在三个网络上，即标签传播网络、标签替换网络和融合网络。

3.基于权利要求书1所述的标签传播网络(一)，其特征在于，建议估算每个像素(即2D位移场)的位移矢量(Δx,Δy)，以便从邻近像素传播标签；遵循变形层应用估计的位移，以便获得改进的分割概率图；采用带有跳跃连接的编码器-解码器结构表示位移估计，表示为标签传播网络E；

4.基于权利要求书3所述的位移矢量，其特征在于，每个方向有一个位移矢量，使像素的概率分布可以相对于其邻近像素重新估计；其中，(Δx,Δy)表示模型采样概率分布的位移向量；对于S^s中的每个像素(x_i,y_i)，传播后的坐标与下式相关：

5.基于权利要求书1所述的标签替换网络(二)，其特征在于，标签传播网络E能够通过将可能正确的标签传播到其邻域来纠正分割错误；但是，当一个区域中的几乎所有像素最初都有错误的标签时，它无法纠正标签；为了处理这种情况，提出将输入I^s和初始分割概率图S^s两者馈送到完全卷积的标签替换网络C中，直接重新计算新的分割概率图S^repl；网络重新估计每个像素的概率向量，但这次是基于其外观和其邻居的概率分布；遵循与标签传播网络相同的编码器-解码器架构，用卷积层替换标签传播网络的最后一层，以输出新的分割概率图。

6.基于权利要求书5所述的概率图，其特征在于，给定图像I^s及其对应的初始分割概率图S^s，训练标签更换网络C，目的是基于初始的S^s预测新的分割概率图S^repl；该任务可以表述为最小化新产生的分割图S^repl与相应的标定好的真实标签S^gt之间的交叉熵损失：

损失函数如上式所示。

7.基于权利要求书1所述的融合网络(三)，其特征在于，标签传播和标签替换网络并行工作，专门用于纠正不同类型的错误；一方面，标签传播网络E考虑到附近的像素及其对应的类别概率，基于外观相似度传播概率向量；另一方面，标签替换网络C逐个像素地重新估计类别标签；因此使用融合网络M将这两个并行分支的输出结合起来，并联合训练整个架构；使用共享编码器来学习两个子任务的特征。

8.基于权利要求书6所述的学习两个子任务的特征，其特征在于，使用共享编码器来学习两个子任务的特征，即标签传播和标签替换网络，并且减少了参数的总数量以进行优化；网络以分支的方式分成两个不同的解码器，一个用于预测位移，另一个用于直接预测新的标签；在最后阶段，结合两个分支的中间结果，加入融合网络M，将这些中间结果作为输入，预测一个掩模m，生成最终的分割结果；然后将最终结果计算为像素级的两个分支输出的加权平均值：

S^fuse＝m⊙S^prop+(1-m)⊙S^repl (5)

整体损失函数如上式所示。

9.基于权利要求书1所述的并行网络构架(四)，其特征在于，标签传播网络和标签替换网络的共享基于完全卷积编码器-解码器的基础架构；对于编码器，有四个模块，每个模块包含两个内核大小为3×3的卷积层和最大池层；对于解码器，有三个模块包含一个双线性上采样层和两个内核大小为3×3的卷积层；在三个模块的开头添加三个跳转连接，以整合不同的信息；融合网络预测一个掩码来结合标签传播网络和标签替换网络；它具有三个内核大小为3×3的卷积层和另一个用于生成单通道掩码的卷积层。

10.基于权利要求书1所述的训练(五)，其特征在于，训练时初始化网络中的权重；采用ADAM优化器学习网络参数，学习率为0.0001，β₁＝0.9，β₂＝0.999，批量大小为8；整个训练过程包括大约20000次迭代；采用随机镜像增强数据，将所有数据集的大小调整在0.5到1.5之间，根据每个数据集裁剪到一个固定的大小；然后将输入图像归一化为[-1,1]，并使用Softmax操作应用相应的初始分割概率图。