CN114037712A

CN114037712A - 基于深度学习的用户实时涂抹交互式图像分割方法

Info

Publication number: CN114037712A
Application number: CN202111279335.8A
Authority: CN
Inventors: 孙创开; 黄海龙
Original assignee: Guangzhou Faisco Internet Technology Co ltd
Current assignee: Guangzhou Faisco Internet Technology Co ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-11

Abstract

本发明属于计算机视觉技术领域，公开了一种基于深度学习的用户实时涂抹交互式图像分割方法，实现方法包括：将原始图像、初始分割掩膜图、涂抹有保留和删除交互笔迹的掩膜图输入到交互式图像分割神经网络，推理得到前后景分割掩膜图；随后进入分割结果运算模块，将分割掩膜图与原图蒙版生成目标分割效果图；用户根据分割结果来判断是否需做进一步的修改；若分割不完整或精确度不足，则用户可再次进行局部修改，直达到满意为止。本方法允许用户简单地对前后景区域分别进行涂抹交互来实现感兴趣目标的精准分割，相比其他点击式交互分割，该方法可限制算法作用于用户指定区域的范围进而实现局部区域的精准修正，减小对目标区域全局分割结果的破坏。

Description

基于深度学习的用户实时涂抹交互式图像分割方法

技术领域

本发明属于计算机视觉技术领域，涉及基于深度学习的用户实时涂抹交互式图像分割方法。

背景技术

图像分割就是把图像分成若干个特定的、具有特定属性的区域并提取感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。随着近些年深度学习技术的发展，主要的分割任务集中在全自动分割领域。然而在某些特定的任务下自动分割方法无法灵活实现用户需求(例如仅分割感兴趣的目标)，另外自动分割还存在目标区域分割不准确的情况。此时，通过以用户监督的方式来介入并矫正分割结果就非常有必要，交互式分割可以在自动分割不充分的情况下通过用户提供前景和背景的标记实现更加精细和特定位置的目标分割。

根据交互式分割的类型可分为：涂抹式、点击式、边界点式、框选式等。早期传统图像算法主要是基于高斯混合模型和马尔科夫随机场来实现。2007年，Kyungsuk,Pyun等人(Image segmentation using hidden Markov Gauss mixture models)通过基于马尔科夫随机场模型的图像分割算法，假设待分割图像的像素只与其邻域内的像素相关与邻域外的像素无关。基于该假设定量计算图像局部的先验结构信息，并根据最大后验概率准则(MAP)，有效的利用像素间结构信息来实现图像分割。比较有代表性的有：Graph cut、Grabcut、Lazy snapping等，但传统交互分割算法在分割精度和速度上均不理想，无法达到商用的标准。

现阶段基于深度学习的交互式分割方法大多数集中在点击式交互分割的研究上，点击式追求以最少的交互量来快速实现目标区域的全局分割。2020年，Konstantin等人(f-BRS:Rethinking backpropagating refinement for interactive segmentation)提出一种新颖的反向传播优化方案(f-BRS)，该方案可在网络的中间特征上运行，并且仅需对网络的一小部分进行正反向传播，其在准确性和速度方面均取得较好的成绩。但仅需对目标的局部区域做微调时，该方法就可能会破坏目标区域的全局性分割结果。

发明内容

本发明针对上述的问题，提供了一种基于深度学习的用户实时涂抹交互式图像分割方法。

为了达到上述目的，本发明采用的技术方案为，

一种基于深度学习的用户实时涂抹交互式图像分割方法，具体包括一下步骤：

S1、将原始图像、初始分割掩膜图、涂抹有保留和删除交互笔迹的掩膜图输入到交互式图像分割神经网络，推理得到前、后景分割掩膜图；

S2、随后进入分割结果运算模块，将分割掩膜图与原图蒙版生成目标分割效果图；

S3、用户根据分割结果来判断是否需做进一步的修改；若分割不完整或精确度不足，则用户可再次进行局部修改，直达到满意为止。

作为优选，所述S1中的神经网络包括人工涂抹交互方式的Scribble生成模块、交互信息编码模块和骨干神经网络模块。

作为优选，

所述拟人工涂抹交互方式的Scribble生成模块，

具体功能是：将70％训练数据集当中的真实掩膜图经过随机腐蚀和膨胀生成待修正掩膜图(作为局部修正数据集)，将剩余30％的真实掩膜图不做任何处理(作为全局分割数据集)；其中，生成的待修正掩膜图数据集一部分使用opencv进行掩膜细化来提取待修正区域的骨架，另一部分通过贝塞尔曲线运算操作将待修正区域生成模拟人工涂抹的线条；另外对30％真实掩膜图的目标区域提取骨架得到Positive_scribble，非目标区域同样提取骨架得到Negative_scribble；70％比例的局部修正scribble和30％比例的全局分割scribble共同组成模拟人工涂抹交互方式的scribble训练集；

所述交互信息编码模块，

主要负责将RGB图像Image、预分割掩膜Mask_initial、涂抹保留的掩膜Positive_scribble和涂抹删除的掩膜Negative_scribble合并成的6通道张量Input_tensor，将交互信息编码为与骨干神经网络DeeplabV3+第一层维度大小相同的张量Output_tensor；

所述骨干神经网络模块，

其使用的是语义分割网络DeeplabV3+，设定分割网络的输出种类数量为1，编码后的交互信息导入DeeplabV3+推理得到交互分割掩膜图Mask。

作为优选，所述分割结果运算模块，

负责将用户交互获取到的感兴趣目标分割掩膜图Mask与原图Image进行蒙版运算，得到分割结果Image_seg。

作为优选，训练过程中使用归一化焦点损失函数来优化模型参数，具体地：

其中，p_ij代表图像(i,j)像素点属于前景的概率值，

交互分割神经网络的输出。因为有归一化且始终与二值交叉熵(BCE)总梯度保持相等，因此该NFL损失函数的不会随着迭代轮数的增加而出现梯度消失的现象，有利于快速收敛并且比使用BCE二值交叉熵拥有更高的精度。

作为优选，所述S1和S2中交互分割推理阶段包括以下步骤：

①首先，将RGB图像Image、初始化分割掩膜Mask_initial、涂抹保留交互轨迹的掩膜Positive_scribble和涂抹删除交互轨迹的掩膜Negative_scribble合并成为6通道张量Input_tensor；

②将①步骤获取的6通道张量Input_tensor输入交互信息编码模块，生成与骨干神经网络DeeplabV3+第一层维度大小相同的张量Output_tensor；

③将②步骤中交互信息编码模块获取的Output_tensor导入已提前设定输出种类数量为1的骨干神经网络DeeplabV3+，推理得到用户交互分割掩膜图Mask；

④将③获取的分割掩膜图Mask与原图Image进行蒙版运算得到目标分割图像Image_seg；

⑤用户对④步骤获取的目标分割图像Image_seg进行效果判断，如果目标区域完整度和精度满足要求，用户就终止交互；反之，就再次通过交互对目标区域进行微调，执行①到④的步骤直至分割效果达到满意为止。

与现有技术相比，本发明的优点和积极效果在于，

本发明首先用大量高精度的训练集对交互式分割神经网络模型进行训练，然后使用训练好的模型配合用户的交互对感兴趣目标进行分割；与传统交互分割算法和现有基于深度学习的点击式交互分割算法相比，本方法通过限制算法作用于用户指定区域的范围来实现局部区域的精准修正，可减小对目标区域全局分割结果的破坏。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的总框架流程图；

图2为本发明的涂抹交互式分割神经网络结构图；

图3为本发明的用户涂抹交互分割的效果图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1，本实施例公开了一种基于深度学习的用户实时涂抹交互式图像分割方法。如图1所示，本实施例进一步的操作说明如下：

1、交互分割网络训练阶段

1)训练数据集生成：将70％训练数据集当中的真实掩膜图经过随机腐蚀和膨胀生成待修正掩膜图(作为局部修正数据集)，将剩余30％的真实掩膜图不做任何处理(作为全局分割数据集)；其中，生成的待修正掩膜图数据集一部分使用opencv进行掩膜细化来提取待修正区域的骨架，另一部分通过贝塞尔曲线运算操作将待修正区域生成模拟人工涂抹的线条；另外对30％真实掩膜图的目标区域提取骨架得到Positive_scribble，非目标区域同样提取骨架得到Negative_scribble；70％比例的局部修正scribble和30％比例的全局分割scribble共同组成模拟人工涂抹交互方式的scribble训练集。

2)训练数据集编码：将每张RGB图像Image、预分割掩膜Mask_initial、涂抹保留的掩膜Positive_scribble和涂抹删除的掩膜Negative_scribble合并成的6通道张量Input_tensor，将交互信息编码为与骨干神经网络DeeplabV3+第一层维度大小相同的张量Output_tensor。

3)损失函数：训练过程中使用归一化焦点损失函数来优化模型参数，具体地：

其中，p_ij代表图像(i,j)像素点属于前景的概率值，

4)交互式分割网络参数设置：交互式分割神经网络使用Adam优化器，初始学习率为0.0001，学习率衰减策略为每100轮衰减0.5倍，gamma参数为0.1，weight_decay参数为0.0000001，batch_size大小为32。

5)大规模训练：训练使用单机4张Nvidia Tesla V100S显卡，采用Pytorch的DistributedDataParallel分布式训练策略。预设神经网络模型迭代轮次为1000轮，每50轮保存一次中间模型，记录每轮迭代训练损失函数的数据。

为了验证本方法的有效性，与训练集处理方式相同，同样按照7:3的比例对测试集中的500张真实掩膜图分别实施随机腐蚀和膨胀生成待修正掩膜图和不作任何处理。将处理好的测试集导入训练好的模型推理得到分割掩膜图结果，再对500张分割结果和500张真实掩膜图进行IOU数据统计，统计表明500张图像的平均IOU精度在92％以上，证明了该方法具有较高精度的交互分割性能。

2、用户交互分割阶段

S1、首先，将RGB图像Image、初始化分割掩膜Mask_initial、涂抹保留交互轨迹的掩膜Positive_scribble和涂抹删除交互轨迹的掩膜Negative_scribble合并成为6通道张量Input_tensor；

S2、将S1步骤获取的6通道张量Input_tensor输入交互信息编码模块，生成与骨干神经网络DeeplabV3+第一层维度大小相同的张量Output_tensor；

S3、将S2步骤中交互信息编码模块获取的Output_tensor导入已提前设定输出种类数量为1的骨干神经网络DeeplabV3+，推理得到用户交互分割掩膜图Mask。

S4、将S3获取的分割掩膜图Mask与原图Image进行蒙版运算得到目标分割图像Image_seg；

S5、用户对S4步骤获取的目标分割图像Image_seg进行效果判断，如果目标区域完整度和精度满足要求，用户就终止交互；反之，就再次通过交互对目标区域进行微调，执行S1到S4的步骤直至分割效果达到满意为止。

本发明提出一种基于深度学习技术的用户实时涂抹交互式图像分割方法。该方法首先用大量高精度的训练数据对涂抹交互式分割神经网络进行训练，然后使用训练好的模型配合用户的交互对感兴趣目标进行分割，具有较高精度的交互分割能力(如图3实际分割效果所示)。并且，与传统交互分割算法和现有基于深度学习的点击式交互分割算法相比，本方法通过限制算法作用于用户指定区域的范围来实现局部区域的精准修正，可减小对目标区域全局分割结果的破坏。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于深度学习的用户实时涂抹交互式图像分割方法，其特征在于，具体包括一下步骤：

2.根据权利要求1所述的基于深度学习的用户实时涂抹交互式图像分割方法，其特征在于，所述S1中的神经网络包括人工涂抹交互方式的Scribble生成模块、交互信息编码模块和骨干神经网络模块。

3.根据权利要求2所述的基于深度学习的用户实时涂抹交互式图像分割方法，其特征在于，

所述拟人工涂抹交互方式的Scribble生成模块，

具体功能是：将70％训练数据集当中的真实掩膜图经过随机腐蚀和膨胀生成待修正掩膜图，将剩余30％的真实掩膜图不做任何处理；其中，生成的待修正掩膜图数据集一部分使用opencv进行掩膜细化来提取待修正区域的骨架，另一部分通过贝塞尔曲线运算操作将待修正区域生成模拟人工涂抹的线条；另外对30％真实掩膜图的目标区域提取骨架得到Positive_scribble，非目标区域同样提取骨架得到Negative_scribble；70％比例的局部修正scribble和30％比例的全局分割scribble共同组成模拟人工涂抹交互方式的scribble训练集；

所述交互信息编码模块，

所述骨干神经网络模块，

4.根据权利要求3所述的基于深度学习的用户实时涂抹交互式图像分割方法，其特征在于，

所述分割结果运算模块，

5.根据权利要求4所述的基于深度学习的用户实时涂抹交互式图像分割方法，其特征在于，训练过程中使用归一化焦点损失函数来优化模型参数，具体地：

其中，p_ij代表图像(i,j)像素点属于前景的概率值，

6.根据权利要求5所述的基于深度学习的用户实时涂抹交互式图像分割方法，其特征在于，所述S1和S2中交互分割推理阶段包括以下步骤：