CN110853039B - 一种多数据融合的草图图像分割方法、系统、装置及存储介质 - Google Patents

一种多数据融合的草图图像分割方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN110853039B
CN110853039B CN201910983888.8A CN201910983888A CN110853039B CN 110853039 B CN110853039 B CN 110853039B CN 201910983888 A CN201910983888 A CN 201910983888A CN 110853039 B CN110853039 B CN 110853039B
Authority
CN
China
Prior art keywords
segmentation
sketch
network
pixel
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910983888.8A
Other languages
English (en)
Other versions
CN110853039A (zh
Inventor
汪飞
盛建强
蔡铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201910983888.8A priority Critical patent/CN110853039B/zh
Publication of CN110853039A publication Critical patent/CN110853039A/zh
Application granted granted Critical
Publication of CN110853039B publication Critical patent/CN110853039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明提供了一种多数据融合的草图图像分割方法、系统、装置及存储介质,该草图图像分割方法包括草图像素特征处理步骤:生成像素级别的特征分割图;草图轮廓点集特征处理步骤:得到特征点级的分割图;融合步骤:通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,得到最终的草图分割结果。本发明有益效果是:本发明通过SketchNet网络处理草图图像并转换为像素级的特征图,通过SPointNet网络将草图转换为点集最终得到点级的分割结果图,通过对草图点集特征和像素信息特征进行融合,从而提高图像分割的准确率。

Description

一种多数据融合的草图图像分割方法、系统、装置及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种多数据融合的草图图像分割方法、系统、装置及存储介质。
背景技术
随着数字技术的快速发展和数码设备的广泛普及,以图像、视频、三维模型等为代表的可视媒体数据呈现出了爆发式的增长态势。这些数据不仅体量庞大,种类繁多,而且信息模态和结构也存在着巨大差异。如何有效地管理、存储和访问这些数字资源已经成为计算机多媒体领域所面临的重要挑战。作为协助人们从海量数据仓储中获取有价值信息的重要手段,信息检索技术已经引起了广泛关注并得到了系统深入地研究。然而,由于可视媒体内容的特点,传统的基于关键词和内容的检索技术仍然存在着很大的局限性。触控设备和人机交互技术的巨大进步使得基于手绘草图的跨域检索技术成为可能。
同时,通过对草图部件进行分割,并通过草图分割的部件和图像或者三维模型分割的部件建立部件之间的对应关系进行三维模型的检索,该算法成功的应用了草图精细化分析的结果。草图的应用分析也成为计算机视觉和图形领域的一个活跃的研究课题。其中,草图分割是精细化草图分析的一个重要步骤,主要任务是把草图分割为具有语义的部件,然后识别出每个部件完成对草图内容、语义的理解。目前,草图分割与标注被广泛的应用于诸多领域,如草图部件建模[1],草图编辑[2],草图解析[3]。同时,手绘草图分割问题推动了许多新颖的应用,如草图字幕[4],基于手绘草图部件的三维模型检索[5]和草图的生成[6]。
深度卷积神经网络最近几年在图像分割领域得到了广泛的应用,特别是处理具有丰富信息的自然图像,能充分引用图像的不同层次的特征信息从而得到图像的语义分割。然而,对于草图语义分割来说是一项非常具有挑战性的任务。虽然草图是一种简单的图像,但是草图不同于图像,草图包含有非常稀疏和单一的像素信息,并且草图是一种特殊的几何结构,尤其是当草图笔画不完整、笔画抖动强烈、抽象性程度高和歧义性大的时候,会使得对草图的分割变得更加困难,从而造成各个部件之间的语义模糊。因此,同时探索草图的像素信息和草图轮廓的几何结构对草图语义分割准确率的提高是一项值得研究的重要内容。
现有技术一的技术方案:
目前图像分割领域最具有代表性的是Chen等人[7]提出的Deeplab卷积网络通过改进FCN[8]中卷积和上采样操作导致的图像特征丢失问题。如图1所示,利用带孔的卷积(Atrous Convolution),增加特征密度,多孔卷积可以在深度卷积网络中计算特征响应时,有效的增加了网络的感受野捕获到更多的图像特征信息合成有效的细节特征,而且不会增加参数数量或计算量。通过结合空洞卷积与双线性插值将低分辨率图在保证完整特征信息的基础之上还原为原图大小,并且可以采用不同尺度的空洞卷及操作捕获图像的特征。并且在最后采用后处理的方式连接一个CRF模型,增强对物体边界的处理,进一步提升了该模型抓取细节特征的能力,优化了分割效果。
基于DeepLab图像分割的步骤如下:
(1)输入一张任意大小的自然图片;
(2)采用了FCN得到粗糙分割图并插值到原图像大小;
(3)通过空洞卷积(Atrous convolution)算法应用到图像分割模型上来扩展感受野,获取更多的上下文特征信息;
(4)采用完全连接条件随机场(Fully Connected CRFs)模型对从FCN得到的分割结果进行更细腻的分割。
现有技术二的技术方案:
基于多尺度深度学习的草图部件分割MCPNet[9](Multi-columnPoint-CNN)网络与传统图像分割方法不同的是,MCPNet并没有直接去处理草图像素信息,而是将草图的轮廓线转换为点集并通过二维的点集卷积神经网络进行特征点的学习。同时,利用不同尺度大小的滤波器,将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,输出每个点的语义部件标签。
基于点集特征的草图分割的步骤如下:
(1)草图轮廓转变为坐标点集;
(2)点集的深度学习表示;
(3)多尺度的草图部件分割方法。
现有技术一和二的草图分割有两方面的缺陷:
1.较低的基于轮廓点集特征的分割准确率:
基于多尺度的深度学习网络MCPNet,通过该网络可以获取草图轮廓点的局部和全局特征信息来解决草图分割准确率问题。然而,由于草图的高度抽象性以及绘画过程导致的草图噪声给草图分割技术带来巨大的挑战。同时,SPointNet网络框架是建立在草图轮廓特征点集上的,轮廓点采样的方式对分割的结果影响很大。此外,MCPNet关注的是草图本身的几何结构信息,却忽视了草图的像素特征信息。
2.较低的基于图像像素特征的分割准确率:
随着深度学习在图像分割领域的发展,提出了越来越多的基于深度学习的图像分割模型[10],它们非常适合处理色彩和纹理信息都很丰富的自然图像。相反,草图作为一种高度抽象的,像素信息极其稀少的图像,而且大部分的草图只有简单的黑白两种曲线构成,而且背景区域占了整张草图的绝大部分区域。因此,直接使用现有的深度神经网络进行草图分割得到的结果并不能达到令人满意的分割效果。
缩略语和关键术语定义:
1)Sketch Segmentation:草图分割。
2)Image Segmentation:图像分割。
3)SketchNet(Multi-column Point-CNN):多尺度点云卷积草图分割。
1)SPointNet(SketchSegmentationdatabase):草图分割数据集。
2)SPFusionNet:点云分割网络。
3)SIER(Spatial Invariance Enhanced Residual)空间不变性增强残差结构。
4)P-metric(Pixel-based accuracy):像素的准确率。
5)C-metric(Component-based accuracy):部件的准确率。
参考文献:
[1]L.Fan,R.Wang,L.Xu,J.Deng,and L.Liu,“Modeling by drawing withshadow guidance,”Computer Graphics Forum,Vol.32,No.7,2013,157~166.
[2]G.Noris,D.Sykora,A.Shamir,S.Coros,A.Hornung,R.Sumner,M.Simmons,B.Whited,and M.Gross,“Smart scribbles for sketch segmentation,”ComputerGraphics Forum,Vol.31,No.8,2012,2516~2527.
[3]R.K.Sarvadevabhatla,I.Dwivedi,A.Biswas,S.Manocha,and R.V.Babu,“Sketchparse:Towards rich descriptions for poorly drawn sketches using multi-task hierarchical deep networks,”2017,1~6.
[4]Y.Choi,“Sketch-to-text generation:Toward contextual,creative,andcoherent composition,”in Proceedings of the 9th International NaturalLanguage Generation conference,2016,40~40.
[5]L.Fan,R.Wang,L.Xu,J.Deng,and L.Liu,“Modeling by drawing withshadowguidance,”Computer Graphics Forum,Vol.32,No.7,2013,157~166.
[6]J.Song,K.Pang,Y.-Z.Song,T.Xiang,and T.Hospedales,“Learning tosketch with shortcut cycle consistency,”2018,801~810.
[7]L.C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs.”IEEE Transactions on Pattern Analysis and MachineIntelligence,Vol.40,No.4,2018,834~848.
[8]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks forsemantic segmentation,”IEEE Transactions on Pattern Analysis and MachineIntelligence,Vol.39,No.4,2017,640~651.
[9]Wang F,Lin S,Li H,et al.Multi-column Point-CNN for SketchSegmentation[J].2018.
[10]A.Chaurasia and E.Culurciello,“Linknet:Exploiting encoderrepresentations for efficient semantic segmentation,”in 2017IEEE VisualCommunications and Image Processing(VCIP),2017,1~4.
[11]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networksfor semanticsegmentation,”IEEE Transactions on Pattern Analysis and MachineIntelligence,Vol.39,No.4,2017,640~651
12.Iglovikov V,Shvets A.TernausNet:U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation[J].2018。
发明内容
本发明提供了一种多数据融合的草图图像分割方法,包括如下步骤:
草图像素特征处理步骤:通过SketchNet网络处理草图图像像素信息,SketchNet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;
草图轮廓点集特征处理步骤:通过SPointNet网络处理草图轮廓线的几何结构信息,SPointNet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;
融合步骤:通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
作为本发明的进一步改进,在所述融合步骤中,将SketchNet网络和SPointNet网络的输出结果统一转换为基于像素级的分割结果,然后将SketchNet网络和SPointNet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
作为本发明的进一步改进,在所述草图像素特征处理步骤中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,
所述本地网络用于将将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;
网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图V中的坐标位置,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置;
采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;
残差学习模块通过恒等映射函数H(x)=x保证随着SPFusionNet网络层数的增加不会造成精度下降。
作为本发明的进一步改进,所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;SktchNet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;
所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图Uk,k=1,2,3。
作为本发明的进一步改进,在所述草图轮廓点集特征处理步骤中,SPointNet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24。
作为本发明的进一步改进,在所述融合步骤中,得到一个大小为25×800×800像素概率分割图S,通过SPointNet网络得到点集所对应的部件概率图为P,大小为n×C,其中C为部件个数,在这里总共有24个部件;首先将点集部件概率图P转化为像素概率分割图Sp,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图P的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图PC+1,矩阵中的元素为
Figure BDA0002236091450000061
1≤i≤n,1≤c≤C+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图/>
Figure BDA0002236091450000071
其中的元素/>
Figure BDA0002236091450000072
1≤i,k≤800,1≤c≤C+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。
本发明还提供了一种多数据融合的草图图像分割系统,包括:
草图像素特征处理模块:用于通过SketchNet网络处理草图图像像素信息,SketchNet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;
草图轮廓点集特征处理模块:用于通过SPointNet网络处理草图轮廓线的几何结构信息,SPointNet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;
融合模块:用于通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
作为本发明的进一步改进,在所述融合模块中,将SketchNet网络和SPointNet网络的输出结果统一转换为基于像素级的分割结果,然后将SketchNet网络和SPointNet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
本发明还提供了一种多数据融合的草图图像分割装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权本发明所述的草图图像分割方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的草图图像分割方法的步骤。
本发明的有益效果是:本发明通过SketchNet网络处理草图图像并转换为像素级的特征图,通过SPointNet网络将草图转换为点集最终得到点级的分割结果图,通过对草图点集特征和像素信息特征进行融合,从而提高图像分割的准确率。
附图说明
图1是背景技术的基本流程图;
图2是多数据融合的草图分割深度学习网络SPFusionNet的原理图;
图3是本发明的网络框架图;
图4是空间不变性增强残差结构的原理框图;
图5是空间变换模块的原理图。
具体实施方式
为了解决现有草图像素特征信息稀疏和草图线性几何特征单一带来的较低的分割准确率问题,本发明公开了一种多数据融合的草图图像分割方法,解决了以下技术问题:
1.本发明提出了一种SketchNet网络处理草图图像像素信息。SketchNet目的是为了探索草图图像的特点,并以编码器-解码器的方式工作。在编码阶段,利用空间不变性增强残差结构(Spatial Invariance EnhancedResidual,SIER)学习和提取层次抽象的特征表示。然后,在解码阶段将这些多级表示结合在一起,以生成像素级别的特征分割图。
2.本发明提出了一种SPointNet网络处理草图轮廓线的几何结构信息。SPointNet计算草图轮廓点的几何特征。图像经过多次卷积操作以后使得图像的分辨率逐渐降低。然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图。
3.本发明提出了一种多数据融合的草图分割深度学习网络SPFusionNet。SPFusionNet同时将SketchNet和SPointNet两部分网络进行融合。其中SketchNet处理草图图像并转换为像素级的特征图,SPointNet将草图转换为点集最终得到点级的分割结果图。最后,将这两种类型的特征图以像素级的形式进行转换和连接,并进一步通过融合网络块得到草图分割结果。为了融合两种不同类型的数据结构,SPointNet的输出基于点级分割图转化为基于像素的分割图,将两个网络的输出结果统一转换为基于像素级的分割结果,同时将两种不同网络的分割结果进行级联操作。最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。因此,通过SketchNet和SPointNet两种处理不同数据格式的深度学习框架得到最终的融合网络SPFusionNet可以提高草图分割的准确率。
综上,本发明通过考虑到手绘草图的两种数据形式,草图轮廓点集特征和草图像素特征。如图2所示,本发明提出了一种基于草图部件分割的深度学习网络SPFusionNet,通过融合图像像素特征和轮廓结构特征进一步提高了草图分割的准确率。
对图像像素特征而言,图像特征网络SketchNet学习不同层次的抽象鲁棒性特征,并利用多级表示法生成逐像素特征分割结果;对草图轮廓的几何特征而言,点集网络SPointNet捕获采样点集的局部特征和全局上下文特征信息生成逐点的特征分割结果;对融合步骤而言,为了融合两种不同类型的数据结构,将SPointNet和SketchNet两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
在所述草图像素特征处理步骤中,如图4所示,空间不变性增强残差结构包括:
空间变换模块:空间变换模块的运作机制可以分为三个部分,如图5所示:1)本地网络(Localisation Network);2)网格生成器(Grid Genator);3)采样器(Sampler)。
本地网络(Localisation Network):是一个简单的回归网络。将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数Θ,Θ的维度取决于网络选择的具体变换类型,在这里我们是仿射变换,Θ就是一个6维(2×3)向量的输出,Θ=floc(U)。
网格生成器(Grid generator)是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出。负责将V中的坐标位置,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置,即生成TΘ(G),网格生成器其实得到的是一种映射关系。
经过本地网络和网格生成器操作之后,采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置。
残差学习模块:残差学习模块也可称为深度残差网络(Deep Residual Network)通过加上几个恒等映射层就能增加网络的深度获得图像更抽象的语义特征信息。通过采用残差学习模块增加SPFusionNet网络的层数提高草图的分割准确率。残差学习模块通过恒等映射函数H(x)=x可以保证随着网络层数的增加不会造成精度下降。
SketchNet网络以草图像素作为输入,并产生像素级别的分割结果。
SketchNet网络包括编码器(Encoder)和解码器(Decoder)。
编码器:在编码器阶段,我们的网络采用ResNet的34层残差网络中的一部分。编码器过程主要有三个残差块(block)和两个仿射不变块(block)构成,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成。第二残差块主要是由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3。SktchNet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32。同时,为了保证图像平移,旋转,缩放和笔画的扭曲不变性。我们在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块(STN)。假设通过三个不同残差块得到的特征图为Rk,k=1,2,3,经过仿射块得到的特征图为Tk,k=1,2。其中仿射不变块并不改变特征图的大小和通道数,R1和T1,T1,的特征大小分别为128×100×100和128×100×100,经过第二个残差块得到特征图为R2,大小为128×50×50,比原图分辨率缩小了32倍。
解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图Uk,k=1,2,3。具体的,特征图R3上采样扩大2倍得到特征图U1,大小为128×50×50,继续扩大2倍上采样得到特征图U2和扩大8倍得到与原图大小相等的特征图U3。在反卷积的过程当中,将一些反卷积结果进行叠加,第一阶段的输出通过反射变换以后的T1与反卷积的第一层U1进行叠加,即T1+U1,而第二阶段的输出T2与反卷积层U2进行叠加,即T2+U2。最终SketchNet输出特征的大小为25×800×800的分割概率图。
在所述草图轮廓点集特征处理步骤中,SPointNet网络通过以点集的方式捕捉草图的结构特征,点的坐标位置关系描述了草图的几何结构信息。SPointNet在最大池化层(Max Pooling)之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64,128,1024,得到一个n×1024全局特征图。为了结合前面的n×64的特征图以捕获更多的特征细节,我们复制了n组全局特征图得到n×1088的特征图。因此,SPointNet保留了草图轮廓的局部特征信息和全局特征信息。最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024,512,256,128和24。
在所述融合步骤中,将草图点集特征和像素信息特征进行融合。
在融合步骤中,我们得到了一个大小为25×800×800像素概率分割图S,通过SPointNet网络得到点集所对应的部件概率图为P,大小为n×C,其中C为部件个数,在这里总共有24个部件。然而,SketchNet和SPointNet处理的是两种不同数据类型的数据。为了结合点集特征和像素特征的优势,首先将点集部件概率图P转化为像素概率分割图SP。值得注意的是,我们进行像素分割的时候,空白部分也是整张草图的一部分,可以看作为一个空白部件。因此,我们在分割图P的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样我们就得到一个特征大小为n×25的点集部件分割图PC+1,矩阵中的元素为
Figure BDA0002236091450000111
1≤i≤n,1≤c≤C+1,点pi表示的是属于部件c的概率。因此,我们就能在800×800的图像上转换为一张像素部件概率图/>
Figure BDA0002236091450000112
其中的元素/>
Figure BDA0002236091450000113
1≤i,k≤800,1≤c≤C+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。
本发明还包括对草图分割深度学习网络SPFusionNet的优化步骤,在优化步骤中,SketchSeg数据集中有M个训练样本
Figure BDA0002236091450000114
Im表示的是第m张草图且大小为W×H。Ym=(yw,h)W×h是对应的分割标签图,yw,h∈{0,...,C}是像素(w,h)的部件标签,C是分割的部件总数。点集/>
Figure BDA0002236091450000115
是第m张草图的样点集合,对于草图Im中的像素(w,h)我们进一步定义了一维的有效编码(One-Hot)分布函数/>
Figure BDA0002236091450000116
其中如果像素(w,h)对应的部件为c,则
Figure BDA0002236091450000117
否则为0。因此交叉熵损失函数可以定义为:
Figure BDA0002236091450000118
其中,
Figure BDA0002236091450000119
表示的是第m个预测矩阵sm的元素(w,h,c)值,λc(c=0,...,C)是第c个部件的权重。为了摆脱背景对分割结果的影响,我们设置背景的权重为λ0=0,λc(c=1,...,C)为部件在草图当中所占的像素比例。
本发明还公开了一种多数据融合的草图图像分割系统,包括:
草图像素特征处理模块:用于通过SketchNet网络处理草图图像像素信息,SketchNet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;
草图轮廓点集特征处理模块:用于通过SPointNet网络处理草图轮廓线的几何结构信息,SPointNet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;
融合模块:用于通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
在所述融合模块中,将SketchNet网络和SPointNet网络的输出结果统一转换为基于像素级的分割结果,然后将SketchNet网络和SPointNet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
在所述草图像素特征处理模块中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,
所述本地网络用于将将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;
网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图V中的坐标位置,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置;
采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;
残差学习模块通过恒等映射函数H(x)=x保证随着SPFusionNet网络层数的增加不会造成精度下降。
所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;SktchNet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;
所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图Uk,k=1,2,3。
在所述草图轮廓点集特征处理模块中,SPointNet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24。
在所述融合模块中,得到一个大小为25×800×800像素概率分割图S,通过SPointNet网络得到点集所对应的部件概率图为P,大小为n×C,其中C为部件个数,在这里总共有24个部件;首先将点集部件概率图P转化为像素概率分割图Sp,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图P的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图PC+1,矩阵中的元素为
Figure BDA0002236091450000141
1≤i≤n,1≤c≤C+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图/>
Figure BDA0002236091450000142
其中的元素/>
Figure BDA0002236091450000143
1≤i,k≤800,1≤c≤C+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。
本发明还公开了一种多数据融合的草图图像分割装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权本发明所述的草图图像分割方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的草图图像分割方法的步骤。
表1和表2给出了本发明的SPFusionNet方法与图像分割方法的性能对比。从该表可以看出,SPFusionNet在基于像素的平均分割准确率达到了92.9%,在基于部件的平均分割准确率达到了90.7%。
Figure BDA0002236091450000144
表1:SPFusionNet与其它主流分割算法之间的基于部件准确率的对比。
Figure BDA0002236091450000151
表2:SPFusionNet与其它主流分割算法之间的基于像素准确率的对比结果。
多数据融合的草图分割深度学习网络SPFusionNet和单独每个网络框架SPointNet和SketchNet的对比结果。实验结果如表3所示,当SketchNet单独只处理一种基于草图图像信息的时候,平均像素准确率和平均部件准确率分别只有89.9%和87.1%,分别比SPFusionNet降低了3.0%和3.6%。相反,当只考虑SPointNet处理二维轮廓点集时,平均准确率下降的更为明显,基于像素的准确率和基于部件的准确率分别比SPFusionNet下降了17.2%和31.6%。
Figure BDA0002236091450000152
表3融合的网络框架和单独每个网络框架的对比结果(%)。
本发明有益效果:本发明通过SketchNet网络处理草图图像并转换为像素级的特征图,通过SPointNet网络将草图转换为点集最终得到点级的分割结果图,通过对草图点集特征和像素信息特征进行融合,从而提高图像分割的准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种多数据融合的草图图像分割方法,其特征在于,包括如下步骤:草图像素特征处理步骤:通过SketchNet网络处理草图图像像素信息,SketchNet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;
草图轮廓点集特征处理步骤:通过SPointNet网络处理草图轮廓线的几何结构信息,SPointNet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;
融合步骤:通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果;
在所述草图像素特征处理步骤中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,所述本地网络用于将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;
网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图V中的坐标位置,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置;
采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;
残差学习模块通过恒等映射函数H(x)=x保证随着SPFusionNet网络层数的增加不会造成精度下降;
所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;SktchNet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;
所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图Uk,k=1,2,3;
在所述草图轮廓点集特征处理步骤中,SPointNet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24;
在所述融合步骤中,得到一个大小为25×800×800像素概率分割图S,通过SPointNet网络得到点集所对应的部件概率图为P,大小为n×C,其中C为部件个数,在这里总共有24个部件;首先将点集部件概率图P转化为像素概率分割图SP,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图P的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图PC+1,矩阵中的元素为
Figure FDA0004105222240000021
1≤i≤n,1≤c≤C+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图/>
Figure FDA0004105222240000022
其中的元素/>
Figure FDA0004105222240000023
1≤i,k≤800,1≤c≤C+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。
2.根据权利要求1所述的草图图像分割方法,其特征在于,在所述融合步骤中,将SketchNet网络和SPointNet网络的输出结果统一转换为基于像素级的分割结果,然后将SketchNet网络和SPointNet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
3.一种多数据融合的草图图像分割系统,其特征在于,包括:
草图像素特征处理模块:用于通过SketchNet网络处理草图图像像素信息,SketchNet网络以编码器-解码器的方式工作,在编码阶段,利用空间不变性增强残差结构学习和提取层次抽象的特征表示,然后,在解码阶段将多级表示结合在一起,以生成像素级别的特征分割图;
草图轮廓点集特征处理模块:用于通过SPointNet网络处理草图轮廓线的几何结构信息,SPointNet网络计算草图轮廓点的几何特征,图像经过多次卷积操作以后使得图像的分辨率逐渐降低,然后通过上采样,将低分辨率的图像放大到与原始图像分辨率相同,得到特征点级的分割图;
融合模块:用于通过多数据融合的草图分割深度学习网络SPFusionNet将SPointNet网络和SketchNet网络两种格式不同的输出结果统一转化为基于像素的分割结果,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果;
在所述草图像素特征处理模块中,空间不变性增强残差结构包括空间变换模块和残差学习模块,空间变换模块包括本地网络、网格生成器和采样器,所述本地网络用于将输入的图片经过若干卷积或者全连接操作后连接一个回归层输出变换参数;
网格生成器是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出,网格生成器用于将目标图V中的坐标位置,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置;
采样器利用采样网格和输入的特征图同时作为输入得到输出结果,输出的特征图上每一个像素点都会通过空间变换到对应到输入特征图的某个像素位置;
残差学习模块通过恒等映射函数H(x)=x保证随着SPFusionNet网络层数的增加不会造成精度下降;
所述编码器包括三个残差块和两个仿射不变块,第一个残差块是由3个通道数为64的残差项和4个通道数为128的残差项组成,第二残差块由6个通道为256的残差项组成,第三个残差块是由3个通道为512的残差项组成,所有残差块的卷积核大小都为3×3;SktchNet输入的图片大小为3×800×800,通过以上阶段,最后一个残差块输出的特征大小为128×25×25,图像的分辨率缩小了1/32;在卷积化过程中分别在残差块的第一阶段和第二阶段嵌入了一个仿射不变块,第二和第三阶段也同样增加了仿射不变块;
所述解码器:为了得到和原图等大的分割图,总共进行了2×2×8=32倍的上采样,得到三个不同的特征图Uk,k=1,2,3;
在所述草图轮廓点集特征处理模块中,SPointNet网络在最大池化层之前总共有三个卷积层,每一层的卷积核大小为3,经过每层卷积之后的通道数分别是64、128、1024,得到一个n×1024全局特征图,复制n组全局特征图得到n×1088的特征图,最后,通过5个卷积层得到一个n×24的语义部件分割图,每个点表示的是对应于24个部件中的一个部件,其中这5个卷积层对应的通道数分别是1024、512,、256、128和24;
在所述融合模块中,得到一个大小为25×800×800像素概率分割图S,通过SPointNet网络得到点集所对应的部件概率图为P,大小为n×C,其中C为部件个数,在这里总共有24个部件;首先将点集部件概率图P转化为像素概率分割图SP,在进行像素分割的时候,空白部分也是整张草图的一部分,看作为一个空白部件;在分割图P的最左侧添加一个大小为n×1的数组,其中的元素都为0,这样就得到一个特征大小为n×25的点集部件分割图PC+1,矩阵中的元素为
Figure FDA0004105222240000041
1≤i≤n,1≤c≤C+1,点pi表示的是属于部件c的概率;在800×800的图像上转换为一张像素部件概率图/>
Figure FDA0004105222240000042
其中的元素/>
Figure FDA0004105222240000043
1≤i,k≤800,1≤c≤C+1表示的是该点p的像素所对应的部件概率,i,k表示的该点p的坐标位置。
4.根据权利要求3所述的草图图像分割系统,其特征在于,在所述融合模块中,将SketchNet网络和SPointNet网络的输出结果统一转换为基于像素级的分割结果,然后将SketchNet网络和SPointNet网络的分割结果进行级联操作,最后,使用1×1卷积层得到像素级的概率分割图得到最终的草图分割结果。
5.一种多数据融合的草图图像分割装置,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-2中任一项所述的草图图像分割方法的步骤。
6.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-2中任一项所述的草图图像分割方法的步骤。
CN201910983888.8A 2019-10-16 2019-10-16 一种多数据融合的草图图像分割方法、系统、装置及存储介质 Active CN110853039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910983888.8A CN110853039B (zh) 2019-10-16 2019-10-16 一种多数据融合的草图图像分割方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910983888.8A CN110853039B (zh) 2019-10-16 2019-10-16 一种多数据融合的草图图像分割方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110853039A CN110853039A (zh) 2020-02-28
CN110853039B true CN110853039B (zh) 2023-06-02

Family

ID=69597769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910983888.8A Active CN110853039B (zh) 2019-10-16 2019-10-16 一种多数据融合的草图图像分割方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110853039B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416340A (zh) * 2020-05-14 2021-02-26 上海哔哩哔哩科技有限公司 基于草图的网页生成方法和系统
CN111723845A (zh) * 2020-05-19 2020-09-29 浙江工业大学 一种基于Mask轮廓的细胞图像分割方法
CN112991495B (zh) * 2021-03-09 2023-10-27 大连海事大学 一种基于草图的交互迭代式虚拟鞋印图像生成方法
CN117495884B (zh) * 2024-01-02 2024-03-22 湖北工业大学 一种钢铁表面缺陷分割方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268870A (zh) * 2018-01-29 2018-07-10 重庆理工大学 基于对抗学习的多尺度特征融合超声图像语义分割方法
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110288603A (zh) * 2019-05-22 2019-09-27 杭州电子科技大学 基于高效卷积网络和卷积条件随机场的语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268870A (zh) * 2018-01-29 2018-07-10 重庆理工大学 基于对抗学习的多尺度特征融合超声图像语义分割方法
CN110288603A (zh) * 2019-05-22 2019-09-27 杭州电子科技大学 基于高效卷积网络和卷积条件随机场的语义分割方法
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法

Also Published As

Publication number Publication date
CN110853039A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110853039B (zh) 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
Lu et al. Indices matter: Learning to index for deep image matting
Zeng et al. Aggregated contextual transformations for high-resolution image inpainting
Jiang et al. Edge-enhanced GAN for remote sensing image superresolution
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
CN111275713A (zh) 一种基于对抗自集成网络的跨域语义分割方法
Li et al. A two-channel convolutional neural network for image super-resolution
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
CN111862294A (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
Zhao et al. Super-resolution for monocular depth estimation with multi-scale sub-pixel convolutions and a smoothness constraint
CN110889854B (zh) 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质
Peng et al. Sparse-to-dense multi-encoder shape completion of unstructured point cloud
Ardino et al. Semantic-guided inpainting network for complex urban scenes manipulation
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
Yu et al. WaterHRNet: A multibranch hierarchical attentive network for water body extraction with remote sensing images
Seddik et al. Generative collaborative networks for single image super-resolution
Sharma et al. An efficient image super resolution model with dense skip connections between complex filter structures in Generative Adversarial Networks
Cheng et al. A survey on image semantic segmentation using deep learning techniques
Zeng et al. Self-supervised learning for point cloud data: A survey
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Shabaninia et al. High‐order Markov random field for single depth image super‐resolution
Yang et al. Robust compare network for few-shot learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant