CN109472799B

CN109472799B - 基于深度学习的图像分割方法及装置

Info

Publication number: CN109472799B
Application number: CN201811172467.9A
Authority: CN
Inventors: 徐枫; 刘聪颖; 雍俊海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2021-02-23
Anticipated expiration: 2038-10-09
Also published as: CN109472799A

Abstract

本发明公开了一种基于深度学习的图像分割方法及装置，其中，方法包括：使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新轮廓分支的参数，在loss_{c_side}收敛后，固定轮廓分支的参数，以得到轮廓分支网络模型；使用自有数据集对形状分支进行训练，并使用loss_s对训练的形状分支进行约束，通过梯度反向传播更新形状分支的参数，以得到形状分支网络模型；根据轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到待分割图像的分割结果。该方法实现对图像中前景物体的分割，从而可以在不使用交互指导下提高图像分割的准确率，简单易实现。

Description

基于深度学习的图像分割方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于深度学习的图像分割方法及装置。

背景技术

图像分割是计算机视觉领域一个重要的研究方向，也是图像处理、机器人视觉等其它相关技术应用的基础，被越来越广泛地应用于各种领域。图像分割指针对一幅图像，分别求出其前景分量、背景分量以及前景的透明值，从而将前景从图像中分割出来。

使用图像底层视觉特征进行分割的方法较容易收到噪声、伪边界等影响；然而，使用交互式分割如图割算法往往需要一定的人工初始前背景标注以进行求解或迭代优化，分割结果依赖于交互、初始标注质量等且耗时较长；使用深度学习方法进行分割往往不能很好的处理分割的精确度。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的：

图像分割是计算机视觉领域一个重要的研究方向，如何快速精确的获得图像分割结果是一项重要的研究课题。传统分割方法往往需要一定的交互指导，很难适应于大数据量批处理的情形；随着深度学习技术的广泛应用，许多借助深度学习进行图像分割的方法也被提出，但这些方法或是由于特征空间与图像空间存在偏差难以在轮廓边缘进行精确分割，或是借助RNN(Recurrent Neural Network，循环神经网络)等以时间作为代价提高描述轮廓的序列的准确性。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习的图像分割方法，该方法可以在不使用交互指导下提高图像分割的准确率，简单易实现。

本发明的另一个目的在于提出一种基于深度学习的图像分割装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度学习的图像分割方法，包括以下步骤：使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新所述轮廓分支的参数，在loss_{c_side}收敛后，固定所述轮廓分支的参数，以得到轮廓分支网络模型；使用自有数据集对形状分支进行训练，并使用loss_s对训练的所述形状分支进行约束，通过所述梯度反向传播更新所述形状分支的参数，以得到形状分支网络模型；根据所述轮廓分支网络模型和所述形状分支网络模型对待分割图像进行预测，以得到所述待分割图像的分割结果。

本发明实施例的基于深度学习的图像分割方法，根据训练好的轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到最终的分割结果，实现对图像中前景物体的分割，从而可以在不使用交互指导下提高图像分割的准确率，简单易实现。

另外，根据本发明上述实施例的基于深度学习的图像分割方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据所述轮廓分支网络模型和所述形状分支网络模型对待分割图像进行预测，进一步包括：输入所述待分割图像在所述形状分支网络模型的多个池化层之后得到形状特征图，并将所述形状特征图上采样到预设分辨率后拼接构成前景形状特征图金字塔；输入所述待分割图像在所述轮廓分支网络模型的多个池化层之后得到轮廓特征图，并将所述轮廓特征图上采样到所述预设分辨率后拼接构成前景轮廓特征图金字塔。

进一步地，在本发明的一个实施例中，所述根据所述轮廓分支网络模型和所述形状分支网络模型对待分割图像进行预测，以得到所述待分割图像的分割结果，进一步包括：通过多层感知器融合所述前景形状特征图金字塔和所述前景轮廓特征图金字塔，以得到所述待分割图像的分割结果。

进一步地，在本发明的一个实施例中，所述待分割图像包括所述待分割图像的高、待分割图像的宽和待分割图像的通道数中的一种或多种。

进一步地，在本发明的一个实施例中，其中，形状分支和多层感知器训练式为：

其中，N_pos、N_neg和N_total分别表示C_GT中为是轮廓的像素数、不是轮廓的像素数和总像素数，l_pos表示轮廓的标注值，l_neg表示为不是轮廓的标注值，C_GT表示轮廓数据集中每张训练图片I_train对应的前景掩码标注图片；

形状分支及多层感知器的loss_s为：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}，

其中，α是制衡特征loss和主路loss比重的参数，loss_{s_side}和loss_{s_main}为类平衡的交叉熵。

为达到上述目的，本发明另一方面实施例提出了一种基于深度学习的图像分割装置，包括：轮廓分支网络模型训练模块，用于使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新所述轮廓分支的参数，在loss_{c_side}收敛后，固定所述轮廓分支的参数，以得到轮廓分支网络模型；形状分支网络模型训练模块，用于使用自有数据集对形状分支进行训练，并使用loss_s对训练的所述形状分支进行约束，通过所述梯度反向传播更新所述形状分支的参数，以得到形状分支网络模型；融合模块，用于根据所述轮廓分支网络模型和所述形状分支网络模型对待分割图像进行预测，以得到所述待分割图像的分割结果。

本发明实施例的基于深度学习的图像分割装置，根据训练好的轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到最终的分割结果，实现对图像中前景物体的分割，从而可以在不使用交互指导下提高图像分割的准确率，简单易实现。

另外，根据本发明上述实施例的基于深度学习的图像分割装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述融合模块进一步用于输入所述待分割图像在所述形状分支网络模型的多个池化层之后得到形状特征图，并将所述形状特征图上采样到预设分辨率后拼接构成前景形状特征图金字塔；并输入所述待分割图像在所述轮廓分支网络模型的多个池化层之后得到轮廓特征图，并将所述轮廓特征图上采样到所述预设分辨率后拼接构成前景轮廓特征图金字塔。

进一步地，在本发明的一个实施例中，所述融合模块进一步用于通过多层感知器融合所述前景形状特征图金字塔和所述前景轮廓特征图金字塔，以得到所述待分割图像的分割结果。

形状分支及多层感知器的loss_s为：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度学习的图像分割方法的流程图；

图2为根据本发明一个具体实施例的基于深度学习的图像分割方法的流程图；

图3为根据本发明一个实施例的基于深度学习的图像分割装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度学习的图像分割方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度学习的图像分割方法。

图1是本发明一个实施例的基于深度学习的图像分割方法的流程图。

如图1所示，该基于深度学习的图像分割方法包括以下步骤：

在步骤S101中，使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新轮廓分支的参数，在loss_{c_side}收敛后，固定轮廓分支的参数，以得到轮廓分支网络模型。

可以理解的是，如图2所示，步骤1：使用轮廓数据集D_c对轮廓分支进行训练，使用loss_{c_side}进行约束，借助梯度反向传播的方法更新轮廓分支的参数，loss_{c_side}收敛后，固定轮廓分支的参数。

需要说明的是，本发明实施例训练时使用的图像大小不定，图片可以为RGB三通道，且对应的标注为等分辨率单通道的二值图片，测试时使用分辨率为640×480的RGB图像，在此仅作为一种示例，不做具体限定。

在步骤S102中，使用自有数据集对形状分支进行训练，并使用loss_s对训练的形状分支进行约束，通过梯度反向传播更新形状分支的参数，以得到形状分支网络模型。

可以理解的是，如图2所示，步骤2：使用自有数据集D_s对形状分支进行训练，使用loss_s进行约束，借助梯度反向传播的方法更新形状分支的参数。为了加速收敛在迭代次数It₁之前可以对loss_{s_side}使用较大的权重如α＝0.8，随着迭代次数的增加，可以不断减弱α的值直到α＝0。需要说明的是，形状分支也可以称为掩码分支。

在步骤S103中，根据轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到待分割图像的分割结果。

可以理解的是，如图2所示，测试时使用已经训练好的模型，即预设形状分支网络模型和预设轮廓特征网络模型，对输入的图片进行预测，例如，对于分辨率为640×480的RGB图像，在网络模型中间得到的形状特征图金字塔F_p，轮廓特征图金字塔C_p的分辨率同为640×480，分别有4通道；最终得到的二值前景掩码M的分辨率为640×480，通道数为1。

其中，在本发明的一个实施例中，待分割图像包括待分割图像的高、待分割图像的宽和待分割图像的通道数中的一种或多种。

进一步地，在本发明的一个实施例中，根据轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，进一步包括：输入待分割图像在形状分支网络模型的多个池化层之后得到形状特征图，并将形状特征图上采样到预设分辨率后拼接构成前景形状特征图金字塔；输入待分割图像在轮廓分支网络模型的多个池化层之后得到轮廓特征图，并将轮廓特征图上采样到预设分辨率后拼接构成前景轮廓特征图金字塔。

在本发明的一个实施例中，其中，形状分支和多层感知器训练式为：

其中，N_pos、N_neg和N_total分别表示C_GT中为是轮廓的像素数、不是轮廓的像素数和总像素数，l_pos表示轮廓的标注值，l_neg表示为不是轮廓的标注值，C_GT表示轮廓数据集中每张训练图片I_train对应的前景掩码标注图片。

具体而言，(1)使用VGG(Visual Geometry Group，网络神经结构)网络模型生成前景形状特征图金字塔

假定网络的输入的待分割图片I为h*w*c,h为图片的高，w为图片的宽，c为图片的通道数，对于RGB输入图片c＝3。输入图片在形状分支的VGG网络的4个池化层之后分别得到形状特征图F_i(i＝1,2,…,4)，将特征图F_i分别上采样到h*w分辨率后进行拼接构成特征图金字塔F_p。其中网络可以使用在常见分类数据集上的预训练权重，再在自有数据集即具有特定前景集的数据集上与最后的多层感知器(层数可以为3)一同进行有监督的训练。

(2)使用VGG网络模型生成轮廓特征图金字塔

轮廓分支与形状分支结构类似，均使用相同的VGG网络模型结构，但不共享参数，最终拼接上采样后轮廓特征图C_i(i＝1,2,…,4)的得到轮廓特征图金字塔C_p作为分支输出结果。其中网络的训练使用轮廓数据集，每张训练图片I_train都有对应的前景掩码标注图片C_GT，使用如下带类平衡的交叉熵loss_{c_side}约束轮廓特征图金字塔C_p中每一层的结果output,其中N_pos,N_neg,N_total分别表示C_GT中为是轮廓的像素数，不是轮廓的像素数，总像素数，l_pos表示为是轮廓的标注值，l_neg表示为不是轮廓的标注值，且轮廓分支的参数不会在形状分支和多层感知器训练式更新：

进一步地，在本发明的一个实施例中，根据轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到待分割图像的分割结果，进一步包括：通过多层感知器融合前景形状特征图金字塔和前景轮廓特征图金字塔，以得到待分割图像的分割结果。

在本发明的一个实施例中，形状分支及多层感知器的loss_s为：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}，

具体而言，借助一个多层感知器将形状信息和轮廓信息进行融合。

将形状特征图金字塔F_p和轮廓特征图金字塔C_p进行拼接后输入到一个多层感知器(层数可以为3)，最终得到与输入的待分割图片I等分辨率的单通道的前景掩码M。形状分支的形状特征图金字塔F_p使用loss_{s_side}的带类平衡的交叉熵loss进行约束，同时使用交叉熵loss_{s_main}去约束多层感知器的输出结果M，即最终形状分支及多层感知器的loss_s如下，其中loss_{s_side}，loss_{s_main}与loss_{c_side}的定义相近，α是制衡特征loss和主路loss比重的参数：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}。

综上，本发明实施例通过借助多尺度的特征信息和形状信息进行前景分割的结果生成，在精度上有一定提升，且本身基于深度学习方法，相比于传统方法和基于检测的分割方法的速度要快。

根据本发明实施例提出的基于深度学习的图像分割方法，通过训练好的网络模型提取待分割图片的前景的形状信息和图片中的轮廓信息，并借助形状信息和轮廓信息最终得到前景分割对应的掩码结果，实现对图像中前景物体的分割，从而可以在不使用交互指导下提高图像分割的准确率，简单易实现。

其次参照附图描述根据本发明实施例提出的基于深度学习的图像分割装置。

图3是本发明一个实施例的基于深度学习的图像分割装置的结构示意图。

如图3所示，该基于深度学习的图像分割装置10包括：轮廓分支网络模型训练模块100、形状分支网络模型训练模块200和融合模块300。

其中，轮廓分支网络模型训练模块100用于使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新轮廓分支的参数，在loss_{c_side}收敛后，固定轮廓分支的参数，以得到轮廓分支网络模型。形状分支网络模型训练模块200用于使用自有数据集对形状分支进行训练，并使用loss_s对训练的形状分支进行约束，通过梯度反向传播更新形状分支的参数，以得到形状分支网络模型。融合模块300用于根据轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到待分割图像的分割结果。本发明实施例的装置10根据训练好的轮廓分支网络模型和形状分支网络模型对待分割图像进行预测，以得到最终的分割结果，实现对图像中前景物体的分割，从而可以在不使用交互指导下提高图像分割的准确率，简单易实现。

进一步地，在本发明的一个实施例中，融合模块300进一步用于输入待分割图像在形状分支网络模型的多个池化层之后得到形状特征图，并将形状特征图上采样到预设分辨率后拼接构成前景形状特征图金字塔；并输入待分割图像在轮廓分支网络模型的多个池化层之后得到轮廓特征图，并将轮廓特征图上采样到预设分辨率后拼接构成前景轮廓特征图金字塔。

进一步地，在本发明的一个实施例中，融合模块300进一步用于通过多层感知器融合前景形状特征图金字塔和前景轮廓特征图金字塔，以得到待分割图像的分割结果。

进一步地，在本发明的一个实施例中，待分割图像包括待分割图像的高、待分割图像的宽和待分割图像的通道数中的一种或多种。

形状分支及多层感知器的loss_s为：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}，

需要说明的是，前述对基于深度学习的图像分割方法实施例的解释说明也适用于该实施例的基于深度学习的图像分割装置，此处不再赘述。

根据本发明实施例提出的基于深度学习的图像分割装置，通过训练好的网络模型提取待分割图片的前景的形状信息和图片中的轮廓信息，并借助形状信息和轮廓信息最终得到前景分割对应的掩码结果，实现对图像中前景物体的分割，从而可以在不使用交互指导下提高图像分割的准确率，简单易实现。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的图像分割方法，其特征在于，包括以下步骤：

使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新所述轮廓分支的参数，在loss_{c_side}收敛后，固定所述轮廓分支的参数，以得到轮廓分支网络模型；

使用自有数据集对形状分支进行训练，并使用loss_s对训练的所述形状分支进行约束，通过所述梯度反向传播更新所述形状分支的参数，以得到形状分支网络模型；以及

根据所述轮廓分支网络模型和所述形状分支网络模型对待分割图像进行预测，以得到所述待分割图像的分割结果，具体地：输入所述待分割图像在所述形状分支网络模型的多个池化层之后得到形状特征图，并将所述形状特征图上采样到预设分辨率后拼接构成前景形状特征图金字塔；输入所述待分割图像在所述轮廓分支网络模型的多个池化层之后得到轮廓特征图，并将所述轮廓特征图上采样到所述预设分辨率后拼接构成前景轮廓特征图金字塔；将所述前景形状特征图金字塔和所述前景轮廓特征图金字塔进行拼接后输入到一个多层传感器，最终得到与输入的待分割图片等分辨率的单通道的前景掩码。

2.根据权利要求1所述的基于深度学习的图像分割方法，其特征在于，所述待分割图像的参数包括所述待分割图像的高、待分割图像的宽和待分割图像的通道数中的一种或多种。

3.根据权利要求l所述的基于深度学习的图像分割方法，其特征在于，其中，

形状分支和多层感知器训练式为：

形状分支及多层感知器的loss_s为：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}，

4.一种基于深度学习的图像分割装置，其特征在于，包括：

轮廓分支网络模型训练模块，用于使用轮廓数据集对轮廓分支进行训练，并使用带类平衡的交叉熵loss_{c_side}对训练的轮廓分支进行约束，通过梯度反向传播更新所述轮廓分支的参数，在loss_{c_side}收敛后，固定所述轮廓分支的参数，以得到轮廓分支网络模型；

形状分支网络模型训练模块，用于使用自有数据集对形状分支进行训练，并使用loss_s对训练的所述形状分支进行约束，通过所述梯度反向传播更新所述形状分支的参数，以得到形状分支网络模型；以及

融合模块，用于根据所述轮廓分支网络模型和所述形状分支网络模型对待分割图像进行预测，以得到所述待分割图像的分割结果，具体地：输入所述待分割图像在所述形状分支网络模型的多个池化层之后得到形状特征图，并将所述形状特征图上采样到预设分辨率后拼接构成前景形状特征图金字塔；输入所述待分割图像在所述轮廓分支网络模型的多个池化层之后得到轮廓特征图，并将所述轮廓特征图上采样到所述预设分辨率后拼接构成前景轮廓特征图金字塔；将所述前景形状特征图金字塔和所述前景轮廓特征图金字塔进行拼接后输入到一个多层传感器，最终得到与输入的待分割图片等分辨率的单通道的前景掩码。

5.根据权利要求4所述的基于深度学习的图像分割装置，其特征在于，所述待分割图像的参数包括所述待分割图像的高、待分割图像的宽和待分割图像的通道数中的一种或多种。

6.根据权利要求4所述的基于深度学习的图像分割装置，其特征在于，其中，

形状分支和多层感知器训练式为：

形状分支及多层感知器的loss_s为：

loss_s＝αloss_{s_side}+(1-α)loss_{s_main}，