CN110610509A

CN110610509A - 可指定类别的优化抠图方法及系统

Info

Publication number: CN110610509A
Application number: CN201910881566.2A
Authority: CN
Inventors: 黄剑波; 王榕榕; 徐树公
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-24
Anticipated expiration: 2039-09-18
Also published as: CN110610509B

Abstract

一种可指定类别的优化抠图方法及系统，采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图，通过连通域计算可快速获得图片中某一类别的三元图，再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图，得到优化质量的alpha图。本发明能够自动提取图像中指定类别的前景部分，生成符合各种场景要求的透明底图，可以帮助提升后期图像处理效率，也可帮助市场营销人员用于生成海报等市场营销资料，有效提升商品转化率，减少人工成本。

Description

可指定类别的优化抠图方法及系统

技术领域

本发明涉及的是一种人工智能图像处理领域的技术，具体是一种可指定类别的优化抠图方法及系统。

背景技术

抠图技术在电商等场景有较大的应用前景和用户需求。传统的抠图技术往往基于三元图(包含有确定的前景部分，确定的背景部分和前背景结合的不确定部分)根据图片的颜色、纹理等低级特征从已知确定像素部分推测不确定像素部分，而没有利用高级的语义信息，这样的方法对于前背景颜色相似或者纹理复杂的图像来说提取效果并不好，对于逐像素的处理也需花费较长时间，可见传统抠图方法难以满足日常应用场景对提取前景的高质量要求和快速处理大量图像的要求。另外，三元图的精确程度也在一定程度上决定了最后提取的前景的质量，三元图越准确，对前景的提取速度越快，质量越高，而传统的三元图的获取方式也需要大量人工。

现有的全自动的人物抠图技术常见基于边缘检测大致检测出前景轮廓，再通过各类算法检测重点区域实现定位，最后根据定位所得到信息进行分割和前背景处理，但这些技术的①前背景颜色十分相近的图像无法达到较好效果，②对于边缘复杂前景部分直接使用语义分割二分类来得到最后的抠图结果，这样的方法精确度较低，③部分方法迭代计算过程复杂，处理所需时间较长，④部分方法只是针对图片中的某个类别而设计的，具有一定的局限性。

发明内容

本发明针对现有自动生成的三元图质量低，抠图效果差，所需时间长的问题，提出一种可指定类别的优化抠图方法及系统，能够自动提取图像中指定的类别的前景部分，生成符合各种场景要求的透明底图(alpha图)，可以帮助提升后期图像处理效率，也可帮助市场营销人员用于生成海报等市场营销资料，有效提升商品转化率，减少人工成本。

本发明是通过以下技术方案实现的：

本发明涉及一种可指定类别的优化抠图方法，采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图，通过连通域计算快速获得所需对象的三元图，再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图，得到优化质量的alpha图。

所述的多类别预测的语义分割网络，采用ResNet-101架构进行图像特征的提取，输出的是不同类别的语义分割图以及边缘预测。

所述的多类别预测的语义分割网络，通过对图像进行不同类别的语义分割和边缘的三元图的人工标注，用标注后的数据集进行训练。

所述的语义分割是指：根据图片内容的语义信息将图片中不同物体的像素进行分类，采用但不限于深度学习网络对图片进行不同类别前景、背景以及边缘的像素级多分类。

所述的标注，采用但不限于Lableme标注工具对数据集中的图像进行不同前景的类别、确定区域以及不确定区域进行标注。

所述的数据集是指：包含各类前景(如人、包、鞋子等)的网络图片。

所述的待测图像的不同类别前景的三元图，根据语义分割网络预测的类别确定每个类别的三元图中的对应的前景部分，再通过连通域的计算得到与对应前景部分相连的边缘部分作为三元图的未知区域，根据用户指定的某个类别得到其对应的三元图。

本发明涉及一种实现上述方法的系统，包括：语义分割模块、连通域计算模块以及抠图模块，其中：语义分割模块与图片输入相连并传输语义分割后的三元图，连通域模块与语义分割预测所得的三元图、用户指定的类别输入相连并传输相应类别的三元图，抠图模块与图片输入、连通域计算模块所得的三元图相连并得到最终的物体前景alpha图。

技术效果

与现有技术相比，本发明技术效果包括：

1)直接通过语义分割网络预测三元图，不仅利用了颜色、纹理等信息，并且结合图像的语义信息，不限于边缘，对物体内部包括纱质衣物、类似玻璃杯的透明材质都能有一个准确预测，将其划分为三元图中的未知区域，生成高质量的三元图，并通过抠图网络进一步预测物体前景alpha图。

2)可应对多类别前景提取场景，用户可指定提取图像中的某类前景，通过语义分割网络和连通域计算可自动生成图像中该类别的高质量三元图，并通过抠图网络得到最终的物体前景alpha图，可根据这样的流程快速处理多张图像，节约人工时间和成本。

3)可以用于对包含多种类别图像的编辑操作，如将图像中某种类别物体与不同背景的融合技术、图像拷贝克隆技术等。

附图说明

图1为本发明整体流程图；

图2为语义分割网络示意图；

图3为直接去除无关类别分割信息示意图；

图4为本发明后处理流程图示意图；

图5为连通域及类别mask计算示意图；

图6为指定类别三元图示意图；

图7为抠图网络示意图；

具体实施方式

本实施例在原始语义分割标注基础上增加一类边缘预测(即前背景像素融合、需要后续抠图网络精细化处理部分)，成为三元图的未知灰色区域，将物体的语义分割范围缩小成为三元图的已知确定前景区域，这样，用户只需确定要提取的是哪一类物体，本实施例可以根据语义分割的类别预测并通过连通域的计算快速得到多张图像中该类物体的三元图。

如图2所示，为本实施例涉及的语义分割网络，其采用ResNet-101架构进行图像特征的提取，输出的是不同类别的语义分割图以及边缘预测，该语义分割网络，采用标注后的数据集进行训练，优选在进行数据集标注时，将所有类别前景的边缘部分单独标注为一类，因此最后语义分割网络的预测类别数为前景类别数加上边缘和背景，再需将输出分割图通过连通域计算得到用户指定的类别的最终三元图。

所述的语义分割网络具体包括：下采样层、两层扩大感受野并保持分辨率不变的扩张卷积层、用于获得不同的空间特征信息的多尺度池化层和两层上采样层，将特征图还原到原始图像大小，最终得到的不同类别预测图。

所述的多尺度池化层是对特征图进行不同大小的池化操作，再通过concate的方法将不同尺度特征图进行结合。

所述的下采样层为conv-BN-relu结构，即由卷积层、批量归一化层BN和激活层relu组成，以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性，从而增加网络的表达能力；同时该上采样层采用两次4倍双线性插值将特征图恢复为原图大小以得到最后语义分割结果。

如图2所示，所述的下采样层进一步包括五个子单元，其中：

第一子单元：采用7*7*64的卷积核对输入做卷积操作，stride设为2，padding设为3，将所得特征图经过批量归一化(batch normalization)层，并通过relu函数激活，将所得的激活值通过最大池化操作得到第一子单元的输出，此时特征图大小为原图的1/2。

第二子单元：对第一子单元的输出通过3个bottleneck结构，该bottleneck结构是由1*1*64、3*3*64、1*1*256卷积层组成的，最后一个bottleneck的stride为2来进行特征图的缩小，此时特征图的大小为原图的1/4。

第三子单元：对第二子单元的输出通过4个bottleneck结构，该bottleneck结构是由1*1*128、3*3*128、1*1*512卷积层组成的，最后一个bottleneck的stride为2来进行特征图的缩小，此时特征图的大小为原图的1/8。

第四子单元：对第三子单元的输出通过23个bottleneck结构，该bottleneck结构是由1*1*256、3*3*256、1*1*1024卷积层组成的，最后一个bottleneck的stride为2来进行特征图的缩小，此时特征图的大小为原图的1/16。

第五子单元：对第四子单元的输出通过3个bottleneck结构，该bottleneck结构是由1*1*512、3*3*512(膨胀率为2的空洞卷积)、1*1*2048卷积层组成的，最后一个bottleneck的stride为1，此时特征图大小不变但感受野仍会增加。

由于一张图像中往往会有多个类别前景，因为将所有类别的边缘部分归为一类，所以无法通过单纯的去除其余分类结果来得到所需的三元图，如图3所示，(a)为语义分割结果图，不同颜色代表不同类别，(b)为仅根据类别信息获得的三元图表示，所以仅根据类别信息无法得到所需的三元图，根据图1流程得到的语义分割结果图进一步通过图4所示的后处理得到相应类别的三元图，具体步骤包括：

步骤1、如图5(a)所示，首先对语义分割结果计算连通域，聚合图像中各类别与其边缘信息；再如图5(b)所示，逐一判断指定前景类别在对应的连通域内得到连通域的mask图；最后根据mask图和根据语义分割网络得到的分割图相结合得到如图6所示的最终三元图。

步骤2、将最终三元图和原始图像共同输入抠图网络预测得到最终的物体前景alpha图，基于标定已知前景区域、已知背景区域以及未知区域的三元图的信息辅助，使得抠图网络更加关注未知区域的预测，从而得到更为准确的物体前景alpha图。

如图7所示，所述的抠图网络采用编码-解码(encoder-decoder)结构，并基于已有标注的抠图数据集进行训练。

所述的编码器(encoder)具体包括五个子单元。

第一子单元：包括2个conv-BN-relu结构，其中两个卷积层的卷积核参数均为3*3*64，stride和padding设为1，将卷积得到的结果通过一个最大池化(max pooling)层，保留池化操作时的索引信息(index)，以便在decoder部分做反池化(unpooling)操作，此时特征图的大小为原图的1/2。

第二子单元：包括2个conv-BN-relu结构，其中两个卷积层的卷积核参数均为3*3*128，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作，此时特征图的大小为原图的1/4。

第三子单元：包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果，其中两个普通卷积层的卷积核参数均为3*3*256，stride和padding设为1，可形变卷积层卷积核参数为3*3*256，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作，此时特征图的大小为原图的1/8。

第四子单元：包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果，其中两个普通卷积层的卷积核参数均为3*3*512，stride和padding设为1，可形变卷积层卷积核参数为3*3*512，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作，此时特征图的大小为原图的1/16。

第五子单元：包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果，其中两个普通卷积层的卷积核参数均为3*3*512，stride和padding设为1，可形变卷积层卷积核参数为3*3*512，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作，此时特征图的大小为原图的1/32。

所述的子单元中的conv-BN-relu结构，即由卷积层、批量归一化层BN和激活层relu组成，以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性，从而增加网络的表达能力。

所述的解码器(decoder)对应包括五子单元，用于逐步扩大特征图分辨率到原始输入图像大小，从而得到最终的预测结果。

第一子单元：通过encoder中第五子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第一次上采样结果，此时特征图为原图的1/16。

第二子单元：通过encoder中第四子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第二次上采样结果，此时特征图为原图的1/8。

第三子单元：通过encoder中第三子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第三次上采样结果，此时特征图为原图的1/4。

第四子单元：通过encoder中第二子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第四次上采样结果，此时特征图为原图的1/2。

第五子单元：通过encoder中第一子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第五次上采样结果，此时特征图为原图大小，得到最终的预测值。

所述的pooling层即池化层，采用的是最大池化操作，将特征图减小为原来的一半，能减少计算量并降低过拟合风险。

所述的可形变卷积层用于扩大感受野并实现类似attention的效果，可形变卷积学习的是一个偏移量，在原始卷积核的感受野上加上学习到的偏移量，这样偏移后感受野不再是个正方形，而是和物体的实际形状相匹配，因此卷积的区域会始终覆盖在物体形状的周围，使得网络更关注上下文结构，从而达到更优的预测效果。

所述的encoder-decoder结构采用Unet形式结构，将具有相同大小的encoder特征图和decoder特征图通过跳跃连接方式相融合，从而结合低层特征和高层特征，以达到优化细节的效果。

现有技术在对大量图像进行前景提取时，往往类别数众多，对于某类物体进行抠图设计和训练的网络只能处理其中部分图像，在图像基数过大、类别数过多的情况下，处理效率较低；而普通的人工利用Photoshop进行抠图或是人工大致标注三元图则会耗费大量人力物力。

本实施例可以很好的处理该种情况，用户只需指定要提取的前景类型，则可自动提取类别杂乱且大量的图像中的该类物体前景，节约时间和人力物力，其具体效果包括：(1)可预测多类别的语义分割以及连通域的计算方式可将该网络应用于多类别的抠图系统，现有发明技术均是针对某一种类别(如人物肖像等)特定设计并训练的网络，本实施实例可以有效解决该问题，节约计算资源。(2)在原有抠图网络基础上加入了可变形卷积层，类似于attention的方式，可以在原有抠图精细化细节部分，可以降低sad值(绝对误差和)。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种可指定类别的优化抠图方法，其特征在于，采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图，通过连通域计算和选择可快速得到某一类别的物体的三元图，再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图，得到优化质量的alpha图；

所述的多类别预测的语义分割网络，采用ResNet-101架构进行图像特征的提取，输出的是不同类别的语义分割图以及边缘预测，其中语义分割是指：根据图片内容的语义信息将图片中不同物体的像素进行分类。

2.根据权利要求1所述的方法，其特征是，所述的待测图像的不同类别前景的三元图，根据语义分割网络预测的类别确定每个类别的三元图中的对应的前景部分，再通过连通域的计算得到与对应前景部分相连的边缘部分作为三元图的未知区域，根据用户指定的某个类别得到其对应的三元图。

3.根据权利要求1所述的方法，其特征是，所述的语义分割网络具体包括：下采样层、两层扩大感受野并保持分辨率不变的扩张卷积层、用于获得不同的空间特征信息的多尺度池化层和两层上采样层，将特征图还原到原始图像大小，得到最终的不同类别预测图。

4.根据权利要求3所述的方法，其特征是，所述的下采样层为conv-BN-relu结构，即由卷积层、批量归一化层BN和激活层relu组成，以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性，同时该上采样层采用两次4倍双线性插值将特征图恢复为原图大小以得到最后语义分割结果。

5.根据权利要求1所述的方法，其特征是，所述的抠图网络采用Unet形式的encoder-decoder结构，包括五个子单元组成的encoder和对应五个子单元组成的decoder，通过将具有相同大小的encoder特征图和decoder特征图通过跳跃连接方式相融合，从而结合低层特征和高层特征，以达到优化细节的效果。

6.根据权利要求3或4所述的方法，其特征是，所述的下采样层进一步包括五个子单元，其中：

第一子单元：采用7*7*64的卷积核对输入做卷积操作，stride设为2，padding设为3，将所得特征图经过批量归一化层，并通过relu函数激活，将所得的激活值通过最大池化操作得到第一子单元的输出；

第二子单元：对第一子单元的输出通过3个bottleneck结构，该bottleneck结构是由1*1*64、3*3*64、1*1*256卷积层组成的，最后一个bottleneck的stride为2来进行特征图的缩小；

第三子单元：对第二子单元的输出通过4个bottleneck结构，该bottleneck结构是由1*1*128、3*3*128、1*1*512卷积层组成的，最后一个bottleneck的stride为2来进行特征图的缩小；

第四子单元：对第三子单元的输出通过23个bottleneck结构，该bottleneck结构是由1*1*256、3*3*256、1*1*1024卷积层组成的，最后一个bottleneck的stride为2来进行特征图的缩小；

第五子单元：对第四子单元的输出通过3个bottleneck结构，该bottleneck结构是由1*1*512、3*3*512，膨胀率为2的空洞卷积、1*1*2048卷积层组成的，最后一个bottleneck的stride为1。

7.根据权利要求5所述的方法，其特征是，所述的encoder具体包括：

第一子单元：包括2个conv-BN-relu结构，其中两个卷积层的卷积核参数均为3*3*64，stride和padding设为1，将卷积得到的结果通过一个max pooling层，保留池化操作时的index，以便在decoder部分做unpooling操作；

第二子单元：包括2个conv-BN-relu结构，其中两个卷积层的卷积核参数均为3*3*128，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作；

第三子单元：包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果，其中两个普通卷积层的卷积核参数均为3*3*256，stride和padding设为1，可形变卷积层卷积核参数为3*3*256，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作；

第四子单元：包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果，其中两个普通卷积层的卷积核参数均为3*3*512，stride和padding设为1，可形变卷积层卷积核参数为3*3*512，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作；

第五子单元：包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果，其中两个普通卷积层的卷积核参数均为3*3*512，stride和padding设为1，可形变卷积层卷积核参数为3*3*512，stride和padding设为1，将卷积得到的结果通过一个最大池化层，保留池化操作时的index，以便在decoder部分做unpooling操作。

8.根据权利要求5所述的方法，其特征是，所述的decoder具体包括：

第一子单元：通过encoder中第五子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第一次上采样结果；

第二子单元：通过encoder中第四子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第二次上采样结果；

第三子单元：通过encoder中第三子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第三次上采样结果；

第四子单元：通过encoder中第二子单元中最大池化层保留的index进行unpooling操作，再通过一个5*5*512，stride为1和padding为2的卷积层，采用relu作为激活函数，得到第四次上采样结果；

9.根据权利要求7或8所述的方法，其特征是，所述的可形变卷积层通过学习偏移量并在原始卷积核的感受野上加上该偏移量，使得偏移后感受野和物体的实际形状相匹配，因此卷积的区域会始终覆盖在物体形状的周围，使得网络更关注上下文结构，从而达到更优的预测效果。

10.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：语义分割模块、连通域计算模块以及抠图模块，其中：语义分割模块与图片输入相连并传输语义分割后的三元图，连通域模块与语义分割预测所得的三元图、用户指定的类别输入相连并传输相应类别的三元图，抠图模块与图片输入、连通域计算模块所得的三元图相连并得到最终的物体前景alpha图。