CN110610509B - 可指定类别的优化抠图方法及系统 - Google Patents

可指定类别的优化抠图方法及系统 Download PDF

Info

Publication number
CN110610509B
CN110610509B CN201910881566.2A CN201910881566A CN110610509B CN 110610509 B CN110610509 B CN 110610509B CN 201910881566 A CN201910881566 A CN 201910881566A CN 110610509 B CN110610509 B CN 110610509B
Authority
CN
China
Prior art keywords
convolution
subunit
layer
stride
relu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910881566.2A
Other languages
English (en)
Other versions
CN110610509A (zh
Inventor
黄剑波
王榕榕
徐树公
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910881566.2A priority Critical patent/CN110610509B/zh
Publication of CN110610509A publication Critical patent/CN110610509A/zh
Application granted granted Critical
Publication of CN110610509B publication Critical patent/CN110610509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种可指定类别的优化抠图方法及系统,采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图,通过连通域计算可快速获得图片中某一类别的三元图,再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图,得到优化质量的alpha图。本发明能够自动提取图像中指定类别的前景部分,生成符合各种场景要求的透明底图,可以帮助提升后期图像处理效率,也可帮助市场营销人员用于生成海报等市场营销资料,有效提升商品转化率,减少人工成本。

Description

可指定类别的优化抠图方法及系统
技术领域
本发明涉及的是一种人工智能图像处理领域的技术,具体是一种可指定类别的优化抠图方法及系统。
背景技术
抠图技术在电商等场景有较大的应用前景和用户需求。传统的抠图技术往往基于三元图(包含有确定的前景部分,确定的背景部分和前背景结合的不确定部分)根据图片的颜色、纹理等低级特征从已知确定像素部分推测不确定像素部分,而没有利用高级的语义信息,这样的方法对于前背景颜色相似或者纹理复杂的图像来说提取效果并不好,对于逐像素的处理也需花费较长时间,可见传统抠图方法难以满足日常应用场景对提取前景的高质量要求和快速处理大量图像的要求。另外,三元图的精确程度也在一定程度上决定了最后提取的前景的质量,三元图越准确,对前景的提取速度越快,质量越高,而传统的三元图的获取方式也需要大量人工。
现有的全自动的人物抠图技术常见基于边缘检测大致检测出前景轮廓,再通过各类算法检测重点区域实现定位,最后根据定位所得到信息进行分割和前背景处理,但这些技术的①前背景颜色十分相近的图像无法达到较好效果,②对于边缘复杂前景部分直接使用语义分割二分类来得到最后的抠图结果,这样的方法精确度较低,③部分方法迭代计算过程复杂,处理所需时间较长,④部分方法只是针对图片中的某个类别而设计的,具有一定的局限性。
发明内容
本发明针对现有自动生成的三元图质量低,抠图效果差,所需时间长的问题,提出一种可指定类别的优化抠图方法及系统,能够自动提取图像中指定的类别的前景部分,生成符合各种场景要求的透明底图(alpha图),可以帮助提升后期图像处理效率,也可帮助市场营销人员用于生成海报等市场营销资料,有效提升商品转化率,减少人工成本。
本发明是通过以下技术方案实现的:
本发明涉及一种可指定类别的优化抠图方法,采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图,通过连通域计算快速获得所需对象的三元图,再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图,得到优化质量的alpha图。
所述的多类别预测的语义分割网络,采用ResNet-101架构进行图像特征的提取,输出的是不同类别的语义分割图以及边缘预测。
所述的多类别预测的语义分割网络,通过对图像进行不同类别的语义分割和边缘的三元图的人工标注,用标注后的数据集进行训练。
所述的语义分割是指:根据图片内容的语义信息将图片中不同物体的像素进行分类,采用但不限于深度学习网络对图片进行不同类别前景、背景以及边缘的像素级多分类。
所述的标注,采用但不限于Lableme标注工具对数据集中的图像进行不同前景的类别、确定区域以及不确定区域进行标注。
所述的数据集是指:包含各类前景(如人、包、鞋子等)的网络图片。
所述的待测图像的不同类别前景的三元图,根据语义分割网络预测的类别确定每个类别的三元图中的对应的前景部分,再通过连通域的计算得到与对应前景部分相连的边缘部分作为三元图的未知区域,根据用户指定的某个类别得到其对应的三元图。
本发明涉及一种实现上述方法的系统,包括:语义分割模块、连通域计算模块以及抠图模块,其中:语义分割模块与图片输入相连并传输语义分割后的三元图,连通域模块与语义分割预测所得的三元图、用户指定的类别输入相连并传输相应类别的三元图,抠图模块与图片输入、连通域计算模块所得的三元图相连并得到最终的物体前景alpha图。
技术效果
与现有技术相比,本发明技术效果包括:
1)直接通过语义分割网络预测三元图,不仅利用了颜色、纹理等信息,并且结合图像的语义信息,不限于边缘,对物体内部包括纱质衣物、类似玻璃杯的透明材质都能有一个准确预测,将其划分为三元图中的未知区域,生成高质量的三元图,并通过抠图网络进一步预测物体前景alpha图。
2)可应对多类别前景提取场景,用户可指定提取图像中的某类前景,通过语义分割网络和连通域计算可自动生成图像中该类别的高质量三元图,并通过抠图网络得到最终的物体前景alpha图,可根据这样的流程快速处理多张图像,节约人工时间和成本。
3)可以用于对包含多种类别图像的编辑操作,如将图像中某种类别物体与不同背景的融合技术、图像拷贝克隆技术等。
附图说明
图1为本发明整体流程图;
图2为语义分割网络示意图;
图3为直接去除无关类别分割信息示意图;
图4为本发明后处理流程图示意图;
图5为连通域及类别mask计算示意图;
图6为指定类别三元图示意图;
图7为抠图网络示意图;
具体实施方式
本实施例在原始语义分割标注基础上增加一类边缘预测(即前背景像素融合、需要后续抠图网络精细化处理部分),成为三元图的未知灰色区域,将物体的语义分割范围缩小成为三元图的已知确定前景区域,这样,用户只需确定要提取的是哪一类物体,本实施例可以根据语义分割的类别预测并通过连通域的计算快速得到多张图像中该类物体的三元图。
如图2所示,为本实施例涉及的语义分割网络,其采用ResNet-101架构进行图像特征的提取,输出的是不同类别的语义分割图以及边缘预测,该语义分割网络,采用标注后的数据集进行训练,优选在进行数据集标注时,将所有类别前景的边缘部分单独标注为一类,因此最后语义分割网络的预测类别数为前景类别数加上边缘和背景,再需将输出分割图通过连通域计算得到用户指定的类别的最终三元图。
所述的语义分割网络具体包括:下采样层、两层扩大感受野并保持分辨率不变的扩张卷积层、用于获得不同的空间特征信息的多尺度池化层和两层上采样层,将特征图还原到原始图像大小,最终得到的不同类别预测图。
所述的多尺度池化层是对特征图进行不同大小的池化操作,再通过concate的方法将不同尺度特征图进行结合。
所述的下采样层为conv-BN-relu结构,即由卷积层、批量归一化层BN和激活层relu组成,以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性,从而增加网络的表达能力;同时该上采样层采用两次4倍双线性插值将特征图恢复为原图大小以得到最后语义分割结果。
如图2所示,所述的下采样层进一步包括五个子单元,其中:
第一子单元:采用7*7*64的卷积核对输入做卷积操作,stride设为2,padding设为3,将所得特征图经过批量归一化(batch normalization)层,并通过relu函数激活,将所得的激活值通过最大池化操作得到第一子单元的输出,此时特征图大小为原图的1/2。
第二子单元:对第一子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*64、3*3*64、1*1*256卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小,此时特征图的大小为原图的1/4。
第三子单元:对第二子单元的输出通过4个bottleneck结构,该bottleneck结构是由1*1*128、3*3*128、1*1*512卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小,此时特征图的大小为原图的1/8。
第四子单元:对第三子单元的输出通过23个bottleneck结构,该bottleneck结构是由1*1*256、3*3*256、1*1*1024卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小,此时特征图的大小为原图的1/16。
第五子单元:对第四子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*512、3*3*512(膨胀率为2的空洞卷积)、1*1*2048卷积层组成的,最后一个bottleneck的stride为1,此时特征图大小不变但感受野仍会增加。
由于一张图像中往往会有多个类别前景,因为将所有类别的边缘部分归为一类,所以无法通过单纯的去除其余分类结果来得到所需的三元图,如图3所示,(a)为语义分割结果图,不同颜色代表不同类别,(b)为仅根据类别信息获得的三元图表示,所以仅根据类别信息无法得到所需的三元图,根据图1流程得到的语义分割结果图进一步通过图4所示的后处理得到相应类别的三元图,具体步骤包括:
步骤1、如图5(a)所示,首先对语义分割结果计算连通域,聚合图像中各类别与其边缘信息;再如图5(b)所示,逐一判断指定前景类别在对应的连通域内得到连通域的mask图;最后根据mask图和根据语义分割网络得到的分割图相结合得到如图6所示的最终三元图。
步骤2、将最终三元图和原始图像共同输入抠图网络预测得到最终的物体前景alpha图,基于标定已知前景区域、已知背景区域以及未知区域的三元图的信息辅助,使得抠图网络更加关注未知区域的预测,从而得到更为准确的物体前景alpha图。
如图7所示,所述的抠图网络采用编码-解码(encoder-decoder)结构,并基于已有标注的抠图数据集进行训练。
所述的编码器(encoder)具体包括五个子单元。
第一子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*64,stride和padding设为1,将卷积得到的结果通过一个最大池化(max pooling)层,保留池化操作时的索引信息(index),以便在decoder部分做反池化(unpooling)操作,此时特征图的大小为原图的1/2。
第二子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*128,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作,此时特征图的大小为原图的1/4。
第三子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*256,stride和padding设为1,可形变卷积层卷积核参数为3*3*256,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作,此时特征图的大小为原图的1/8。
第四子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*512,stride和padding设为1,可形变卷积层卷积核参数为3*3*512,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作,此时特征图的大小为原图的1/16。
第五子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*512,stride和padding设为1,可形变卷积层卷积核参数为3*3*512,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作,此时特征图的大小为原图的1/32。
所述的子单元中的conv-BN-relu结构,即由卷积层、批量归一化层BN和激活层relu组成,以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性,从而增加网络的表达能力。
所述的解码器(decoder)对应包括五子单元,用于逐步扩大特征图分辨率到原始输入图像大小,从而得到最终的预测结果。
第一子单元:通过encoder中第五子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第一次上采样结果,此时特征图为原图的1/16。
第二子单元:通过encoder中第四子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第二次上采样结果,此时特征图为原图的1/8。
第三子单元:通过encoder中第三子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第三次上采样结果,此时特征图为原图的1/4。
第四子单元:通过encoder中第二子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第四次上采样结果,此时特征图为原图的1/2。
第五子单元:通过encoder中第一子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第五次上采样结果,此时特征图为原图大小,得到最终的预测值。
所述的pooling层即池化层,采用的是最大池化操作,将特征图减小为原来的一半,能减少计算量并降低过拟合风险。
所述的可形变卷积层用于扩大感受野并实现类似attention的效果,可形变卷积学习的是一个偏移量,在原始卷积核的感受野上加上学习到的偏移量,这样偏移后感受野不再是个正方形,而是和物体的实际形状相匹配,因此卷积的区域会始终覆盖在物体形状的周围,使得网络更关注上下文结构,从而达到更优的预测效果。
所述的encoder-decoder结构采用Unet形式结构,将具有相同大小的encoder特征图和decoder特征图通过跳跃连接方式相融合,从而结合低层特征和高层特征,以达到优化细节的效果。
现有技术在对大量图像进行前景提取时,往往类别数众多,对于某类物体进行抠图设计和训练的网络只能处理其中部分图像,在图像基数过大、类别数过多的情况下,处理效率较低;而普通的人工利用Photoshop进行抠图或是人工大致标注三元图则会耗费大量人力物力。
本实施例可以很好的处理该种情况,用户只需指定要提取的前景类型,则可自动提取类别杂乱且大量的图像中的该类物体前景,节约时间和人力物力,其具体效果包括:(1)可预测多类别的语义分割以及连通域的计算方式可将该网络应用于多类别的抠图系统,现有发明技术均是针对某一种类别(如人物肖像等)特定设计并训练的网络,本实施实例可以有效解决该问题,节约计算资源。(2)在原有抠图网络基础上加入了可变形卷积层,类似于attention的方式,可以在原有抠图精细化细节部分,可以降低sad值(绝对误差和)。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (1)

1.一种可指定类别的优化抠图系统,其特征在于,包括:语义分割模块、连通域计算模块以及抠图模块,其中:语义分割模块与图片输入相连并传输语义分割后的三元图,连通域模块与语义分割预测所得的三元图、用户指定的类别输入相连并传输相应类别的三元图,抠图模块与图片输入、连通域计算模块所得的三元图相连并得到最终的物体前景alpha图;
所述的可指定类别的优化抠图是指:采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图,通过连通域计算和选择可快速得到某一类别的物体的三元图,再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图,得到优化质量的alpha图;
所述的多类别预测的语义分割网络,采用ResNet-101架构进行图像特征的提取,输出的是不同类别的语义分割图以及边缘预测,其中语义分割是指:根据图片内容的语义信息将图片中不同物体的像素进行分类;
所述的待测图像的不同类别前景的三元图,根据语义分割网络预测的类别确定每个类别的三元图中的对应的前景部分,再通过连通域的计算得到与对应前景部分相连的边缘部分作为三元图的未知区域,根据用户指定的某个类别得到其对应的三元图;
所述的语义分割网络具体包括:下采样层、两层扩大感受野并保持分辨率不变的扩张卷积层、用于获得不同的空间特征信息的多尺度池化层和两层上采样层,将特征图还原到原始图像大小,得到最终的不同类别预测图;
所述的下采样层为conv-BN-relu结构,即由卷积层、批量归一化层BN和激活层relu组成,以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性,同时该上采样层采用两次4倍双线性插值将特征图恢复为原图大小以得到最后语义分割结果;
所述的抠图网络采用Unet形式的encoder-decoder结构,包括五个子单元组成的encoder和对应五个子单元组成的decoder,通过将具有相同大小的encoder特征图和decoder特征图通过跳跃连接方式相融合,从而结合低层特征和高层特征,以达到优化细节的效果;
所述的下采样层进一步包括五个子单元,其中:
第一子单元:采用7*7*64的卷积核对输入做卷积操作,stride设为2,padding设为3,将所得特征图经过批量归一化层,并通过relu函数激活,将所得的激活值通过最大池化操作得到第一子单元的输出;
第二子单元:对第一子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*64、3*3*64、1*1*256卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第三子单元:对第二子单元的输出通过4个bottleneck结构,该bottleneck结构是由1*1*128、3*3*128、1*1*512卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第四子单元:对第三子单元的输出通过23个bottleneck结构,该bottleneck结构是由1*1*256、3*3*256、1*1*1024卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第五子单元:对第四子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*512、3*3*512,膨胀率为2的空洞卷积、1*1*2048卷积层组成的,最后一个bottleneck的stride为1;
所述的encoder具体包括:
第一子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*64,stride和padding设为1,将卷积得到的结果通过一个max pooling层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第二子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*128,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第三子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*256,stride和padding设为1,可形变卷积层卷积核参数为3*3*256,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第四子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*512,stride和padding设为1,可形变卷积层卷积核参数为3*3*512,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第五子单元:包括2个conv-BN-relu结构和1个deformable conv-BN-relu结果,其中两个普通卷积层的卷积核参数均为3*3*512,stride和padding设为1,可形变卷积层卷积核参数为3*3*512,stride和padding设为1,将卷积得到的结果通过一个最大池化层,保留池化操作时的index,以便在decoder部分做unpooling操作;
所述的decoder具体包括:
第一子单元:通过encoder中第五子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第一次上采样结果;
第二子单元:通过encoder中第四子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第二次上采样结果;
第三子单元:通过encoder中第三子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第三次上采样结果;
第四子单元:通过encoder中第二子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第四次上采样结果;
第五子单元:通过encoder中第一子单元中最大池化层保留的index进行unpooling操作,再通过一个5*5*512,stride为1和padding为2的卷积层,采用relu作为激活函数,得到第五次上采样结果,此时特征图为原图大小,得到最终的预测值;
所述的可形变卷积层通过学习偏移量并在原始卷积核的感受野上加上该偏移量,使得偏移后感受野和物体的实际形状相匹配,因此卷积的区域会始终覆盖在物体形状的周围,使得网络更关注上下文结构,从而达到更优的预测效果。
CN201910881566.2A 2019-09-18 2019-09-18 可指定类别的优化抠图方法及系统 Active CN110610509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881566.2A CN110610509B (zh) 2019-09-18 2019-09-18 可指定类别的优化抠图方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881566.2A CN110610509B (zh) 2019-09-18 2019-09-18 可指定类别的优化抠图方法及系统

Publications (2)

Publication Number Publication Date
CN110610509A CN110610509A (zh) 2019-12-24
CN110610509B true CN110610509B (zh) 2023-07-21

Family

ID=68891529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881566.2A Active CN110610509B (zh) 2019-09-18 2019-09-18 可指定类别的优化抠图方法及系统

Country Status (1)

Country Link
CN (1) CN110610509B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256361A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 商品发布方法及图像处理方法、装置、设备和存储介质
CN111862136A (zh) * 2020-06-22 2020-10-30 南开大学 基于卷积神经网络的多模态核磁影像缺血性脑卒中病变分割方法
CN112396598B (zh) * 2020-12-03 2023-08-15 中山大学 一种基于单阶段多任务协同学习的人像抠图方法及系统
CN112581480A (zh) * 2020-12-22 2021-03-30 深圳市雄帝科技股份有限公司 自动抠图方法、系统及其可读存储介质
CN112884776B (zh) * 2021-01-22 2022-05-31 浙江大学 一种基于合成数据集增广的深度学习抠图方法
CN112990331A (zh) * 2021-03-26 2021-06-18 共达地创新技术(深圳)有限公司 图像处理方法、电子设备和存储介质
CN113744280A (zh) * 2021-07-20 2021-12-03 北京旷视科技有限公司 图像处理方法、装置、设备及介质
CN113887459B (zh) * 2021-10-12 2022-03-25 中国矿业大学(北京) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN116167922B (zh) * 2023-04-24 2023-07-18 广州趣丸网络科技有限公司 一种抠图方法、装置、存储介质及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945204A (zh) * 2017-10-27 2018-04-20 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
CN108345890A (zh) * 2018-03-01 2018-07-31 腾讯科技(深圳)有限公司 图像处理方法、装置和相关设备
CN108830205A (zh) * 2018-06-04 2018-11-16 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法
CN109934163A (zh) * 2018-12-27 2019-06-25 北京航空航天大学 一种基于场景先验和特征再融合的航空图像车辆检测方法
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945204A (zh) * 2017-10-27 2018-04-20 西安电子科技大学 一种基于生成对抗网络的像素级人像抠图方法
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN108345890A (zh) * 2018-03-01 2018-07-31 腾讯科技(深圳)有限公司 图像处理方法、装置和相关设备
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN108830205A (zh) * 2018-06-04 2018-11-16 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN109035253A (zh) * 2018-07-04 2018-12-18 长沙全度影像科技有限公司 一种语义分割信息指导的深度学习自动图像抠图方法
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法
CN109934163A (zh) * 2018-12-27 2019-06-25 北京航空航天大学 一种基于场景先验和特征再融合的航空图像车辆检测方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法

Also Published As

Publication number Publication date
CN110610509A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110610509B (zh) 可指定类别的优化抠图方法及系统
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN110675368B (zh) 一种融合图像分割与分类的细胞图像语义分割方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
US9501724B1 (en) Font recognition and font similarity learning using a deep neural network
Chen et al. An improved method for semantic image inpainting with GANs: Progressive inpainting
CN109800698B (zh) 基于深度学习的图标检测方法、图标检测系统和存储介质
US11651477B2 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
US11393100B2 (en) Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
Wang et al. Multifocus image fusion using convolutional neural networks in the discrete wavelet transform domain
CN111695633A (zh) 基于rpf-cam的低照度目标检测方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN111667465A (zh) 一种基于远红外图像的金属洗手盆缺陷检测方法
Liu et al. Attentive semantic and perceptual faces completion using self-attention generative adversarial networks
Han et al. Segmenting images with complex textures by using hybrid algorithm
Wang et al. Perception-guided multi-channel visual feature fusion for image retargeting
CN108665000A (zh) 一种基于不确定性分析的数字图像自动标注方法
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
CN111476226A (zh) 一种文本定位方法、装置及模型训练方法
Oludare et al. Attention-guided cascaded networks for improved face detection and landmark localization under low-light conditions
CN114913345A (zh) 基于fpga的sift算法的简化图像特征提取方法
TWI789267B (zh) 使用二維影像自動產生訓練三維點雲學習網路所需之真實資料的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant