CN110889854A - 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质 - Google Patents

一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN110889854A
CN110889854A CN201910983270.1A CN201910983270A CN110889854A CN 110889854 A CN110889854 A CN 110889854A CN 201910983270 A CN201910983270 A CN 201910983270A CN 110889854 A CN110889854 A CN 110889854A
Authority
CN
China
Prior art keywords
sketch
mcpnet
segmentation
feature
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910983270.1A
Other languages
English (en)
Other versions
CN110889854B (zh
Inventor
盛建强
汪飞
蔡铁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201910983270.1A priority Critical patent/CN110889854B/zh
Publication of CN110889854A publication Critical patent/CN110889854A/zh
Application granted granted Critical
Publication of CN110889854B publication Critical patent/CN110889854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供了一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质,该方法包括:步骤1,草图预处理步骤:对草图进行平移、旋转和缩放,对草图轮廓进行细化;步骤2,转换步骤:草图轮廓转变为坐标点集;步骤3,深度学习步骤:坐标点集的深度学习表示;步骤4,分割步骤:通过多尺度的草图部件分割框架MCPNet将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。本发明的有益效果是:本发明MCPNet是建立在坐标点集之上,比直接处理图像像素信息的网络降低了计算的成本,而且将草图信息转换为点集特征进行考虑解决了草图的空白背景对草图分割结果的影响。

Description

一种基于多尺度深度学习的草图部件分割方法、系统、装置及 存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质。
背景技术
随着便捷化手绘板的出现,笔式交互成了一种新的人机交互方式之一,人机交互界面由触摸屏模拟了笔纸的环境。草图作为一种简单抽象的交流方式,依靠的是人的记忆通过描绘和模仿来进行信息的表达,对人们来说,仅用几条简单的线条就能勾勒出自己想要的形状或者场景使得交互方式变得更加的简单方便,也更加符合人们对事物的认知。
因此,基于草图分析的应用技术已经成为计算机视觉和图形领域的一个活跃的研究课题,其中草图分割是草图分析的基础。目前存在的草图分析大部分是考虑草图的整体性质,缺乏对草图部件结构进行分析和理解。草图分割是的主要任务是把草图分割为具有语义的部件,然后识别出每个部件完成对草图内容、语义的理解。目前,草图分割与标注被广泛的应用于诸多领域,如草图部件建模[1],草图编辑[2],草图解析[3]。同时,手绘草图分割问题推动了许多新颖的应用,如草图字幕[4],基于手绘草图部件的三维模型检索[5]和草图的生成[6]。Huang等人在2014年[7]首次提出了一种基于数据驱动的草图语义分割方法。后来,Qi等人[8]提出了一种感知分组框架,并将素描分割问题进一步表述为一个图形分割问题,在全局优化框架下,采用多格式塔提示的排序策略对笔画进行分组以及Schneider等人[9]通过使用条件随机场(CRF)找到最合理的全局标记来解决草图分割问题。
近年来,深度学习发展迅猛,在图像分割领域已经得到了广泛的应用。如何基于深度学习的方法帮助人们对手绘草图的几何结构进行分析和理解具有重要的意义。深度卷积神经网络特别是处理具有丰富信息的自然图像,能充分引用图像的不同层次的特征信息从而得到图像的语义分割。然而,对于草图语义分割来说是一项非常具有挑战性的任务。虽然草图是一种简单的图像,但是草图不同于图像,草图包含有非常稀疏和单一的像素信息,并且草图是一种特殊的几何结构,尤其是当草图笔画不完整、笔画抖动强烈、抽象性程度高和歧义性大的时候,会使得对草图的分割变得更加困难,从而造成各个部件之间的语义模糊。因此,利用深度学习探索草图语义分割新方法已经成为目前草图分析和处理领域的一项值得研究的重要内容。
现有技术一的技术方案:
目前图像分割领域最具有代表性的是Long等人[10]提出的端到端的全连接卷积神经Fully ConvolutionalNetworks(FCN),该网络将图像级别的分类任务细化到像素级别的分类,为每一个像素找到对应的语义部件。FCN将卷积网络中最后的全连接层替换为卷积层(卷积化)。由于FCN通过上釆样和特征层裁剪操作,可以使得任何大小的图像统一到相同的尺寸保证能端到端的训练,实现了像素(Pixel-Wise)级别的图像分割预测。
FCN方法采用VGG16网络的16个卷积层、5个最大池化层、3个全连接层以及1个softmax层。将原本3个全连接层转换为卷积层,并移除softmax层,成功地将分类的神经网络转换为图像分割的网络。FCN通过卷积化操作,图像的分割率逐渐降低,为了保证低分辨率的图像恢复到初始化状态,需要对低分辨率的图像进行上采样。比如,原图通过5次卷积之后,图像的大小缩小了32倍,对于最后一层的输出,需要进行32倍的上采样,得到和原图一样大小分辨率的分割图。基于FCN网络的流程图如图1所示。
基于FCN图像分割的步骤如下:
(1)输入一张任意大小的自然图片;
(2)首先进行卷积化操作:自然图片通过卷积层和池化层,得到的输出形状会越来越小,但是通道数会越来越大。如上图所示,经过5次卷积+池化后,图像尺寸依次缩小了2、4、8、16、32倍;
(3)对卷积化的最后一层做32倍上采样,得到与原图相同的分辨率;
(4)对上采样的最后一层得到像素预测分割图。
使用现有技术一的草图图像分割算法拥有两方面的缺陷:
1.较低的分割准确率:一般来说自然图像相对于草图包含有非常丰富的视觉信息,基于深度学习的图像分割模型[11]非常适合处理色彩和纹理信息都很丰富的自然图像。相反,草图是一种高度抽象的,像素信息极其稀少的图像,背景区域占了整张草图的绝大部分区域。同时,草图是由简单的曲线段构成的,曲线对草图来说是一种重要的几何结构,这种几何结构往往蕴藏在轮廓的坐标点信息当中。因此,直接使用现有的深度神经网络对这些稀疏的特征信息进行处理,或者忽略了草图的几何结构进行部件分割得到的结果都不能达到令人满意的分割效果。
2.低效的图像分割效率:草图包含有大量冗余的空白背景信息,现有的大部分图像分割技术是直接处理图像的像素信息,图像处理的过程中包含有大量的学习参数。这样除了我们计算像素信息消耗很多的计算时间外,大量的空白背景信息也要消耗额外的计算时间,从而大大降低了图像分割的效率。
缩略语和关键术语定义:
1)Sketch Segmentation:草图分割。
2)Image Segmentation:图像分割。
3)MCPNet(Multi-column Point-CNN):多尺度点云卷积草图分割。
4)SketchSeg(SketchSegmentationdatabase):草图分割数据集。
5)PointNet:点云分割网络。
6)P-metric(Pixel-based accuracy):像素的准确率。
7)C-metric(Component-based accuracy):部件的准确率。
参考文献:
[1]L.Fan,R.Wang,L.Xu,J.Deng,and L.Liu,“Modeling by drawing withshadow guidance,”Computer Graphics Forum,Vol.32,No.7,2013,157~166.
[2]G.Noris,D.Sykora,A.Shamir,S.Coros,A.Hornung,R.Sumner,M.Simmons,B.Whited,and M.Gross,“Smart scribbles for sketch segmentation,”ComputerGraphicsForum,Vol.31,No.8,2012,2516~2527.
[3]R.K.Sarvadevabhatla,I.Dwivedi,A.Biswas,S.Manocha,and R.V.Babu,“Sketchparse:Towards rich descriptions for poorly drawn sketches using multi-task hierarchical deep networks,”2017,1~6
[4]Y.Choi,“Sketch-to-text generation:Toward contextual,creative,andcoherent composition,”in Proceedings of the 9th International NaturalLanguage Generation conference,2016,40~40
[5]Y.Kang,C.Xu,S.Lin,S.Xu,X.Luo,and Q.Chen,“Component segmentationofsketches used in 3d model retrieval,”in ACM SIGGRAPH 2015 Posters,2015,64
[6]Y.Qi,J.Guo,Y.Z.Song,T.Xiang,H.Zhang,and Z.H.Tan,“Im2sketch:Sketchgeneration by unconflicted perceptual grouping,”Neurocomputing,Vol.165,2015,338~349
[7]H.Zhe,H.Fu,and R.W.H.Lau,“Data-driven segmentation and labeling offreehand sketches,”ACM Transactions on Graphics,Vol.33,No.6,2014,1~10
[8]Y.Qi,Y.-Z.Song,T.Xiang,H.Zhang,T.Hospedales,Y.Li,and J.Guo,“Makingbetter use of edges via perceptual grouping,”in Proceedings of the IEEEConferenceon Computer Vision and Pattern Recognition,2015,1856~1865
[9]R.G.Schneider and T.Tuytelaars,“Example-based sketch segmentationand labeling using crfs:,”ACM Transactions on Graphics,Vol.35,No.5,2016,1~9
[10]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networksfor semantic segmentation,”IEEE Transactions on Pattern Analysis and MachineIntelligence,Vol.39,No.4,2017,640~651.
[11]Iglovikov V,Shvets A.TernausNet:U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation[J].2018.
[12]A.Chaurasia and E.Culurciello,“Linknet:Exploiting encoderrepresentations for efficient semantic segmentation,”in 2017IEEE VisualCommunications and Image Processing(VCIP),2017,1~4.
13,R.Q.Charles,S.Hao,K.Mo,and L.J.Guibas,“Pointnet:Deep learning onpoint sets for 3d classification and segmentation,”in IEEE Conference onComputer Vision and Pattern Recognition,2017,77~85。
发明内容
本发明提供了一种基于多尺度深度学习的草图部件分割方法,包括如下步骤:
步骤1,草图预处理步骤:对草图进行平移、旋转和缩放,对草图轮廓进行细化;
步骤2,转换步骤:草图轮廓转变为坐标点集;
步骤3,深度学习步骤:坐标点集的深度学习表示;
步骤4,分割步骤:通过多尺度的草图部件分割框架MCPNet将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。
作为本发明的进一步改进,所述步骤1包括:
步骤11,对草图进行平移、旋转和缩放:草图经过裁剪被一个封闭的包围盒所包围,然后进行四条边等间距放大以便草图居中并包含在一个固定大小的框内;
步骤12,对草图轮廓进行细化:线条的粗细容易导致采集的样点有很多的冗余信息,因此将轮廓线的宽度细化为一个像素以保证从左到右,从上到下进行采样的时候在轮廓线上的交点处只能采集到一个轮廓点。
作为本发明的进一步改进,所述步骤2包括:
步骤21,建立坐标系:建立二维坐标系,以X轴为水平方向,Y轴为垂直方向,原点O在左上角并且与每张图片的左上顶角重合;
步骤22,获取轮廓每一个像素点的坐标:通过扫描整张草图采集轮廓上每个像素点相对于原点的坐标值(x,y),在采集坐标的过程当中,并没有对轮廓线进行采样;
步骤23,采集数据:从左到右从上到下计算轮廓线的坐标值保留草图轮廓的几何结构特征,然后,通过不同的尺度大小的网络结构捕获轮廓点之间的几何结构信息。
作为本发明的进一步改进,所述步骤4,分割步骤包括:
步骤41,分列步骤:MCPNet分成三列,每列都有不同的尺度,尺度的大小分别为1×1,1×3,1×5;
步骤42,MCPNet的卷积化步骤:MCPNet每列有3个卷积层和一个最大池化层,其中三个卷积层分别使用的是相同大小的卷积核,通道数分别是64、128、1024,在通过第一列的三层卷积以后得到点集特征图fc1,大小为N×64,第二列得到的特征图为fc2,大小为N×128,第三列得到的特征图为fc3,特征大小为N×1024;
步骤43,MCPNet的最大池化层步骤:MCPNet三列最后得到的特征图fc1,fc2和fc3经过最大池化层分别得到点集的全局特征MAXc1,MAXc2和MAXc3,大小都是1×1024,这样,采用不同的卷积核大小就获取了输入草图点集的全局特征;
步骤44,MCPNet的上采样步骤:分别复制每个全局特征N次得到点特征为fg1 fg2和fg3,特征大小都为N×1024,同时与前面的局部特征fci(i=1,2,3)进行级联达到更细节的分割效果得到特征图为
Figure BDA0002235901010000066
特征大小为N×1088;
步骤45,MCPNet特征融合步骤:MCPNet网络结构具有K列,令每一列得到的特征图为
Figure BDA0002235901010000061
级联得到3个特征得到总的
Figure BDA0002235901010000062
特征大小为N×1088*3,特征图
Figure BDA0002235901010000063
经过卷积层、通道数分别为1024、512、256、128和softmax层产生最后的一个评分矩阵
Figure BDA0002235901010000064
其中C为部件数量大小,
Figure BDA0002235901010000065
表示的是第n个点属于部件c的概率,概率最大的索引值对应的是部件的编号。
本发明还提供了一种基于多尺度深度学习的草图部件分割系统,包括:
草图预处理模块:用于对草图进行平移、旋转和缩放,对草图轮廓进行细化;
转换模块:用于草图轮廓转变为坐标点集;
深度学习模块:用于坐标点集的深度学习表示;
分割模块:用于通过多尺度的草图部件分割框架MCPNet将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。
作为本发明的进一步改进,所述草图预处理模块包括:
预处理模块:对草图进行平移、旋转和缩放:草图经过裁剪被一个封闭的包围盒所包围,然后进行四条边等间距放大以便草图居中并包含在一个固定大小的框内;
草图轮廓的细化模块:线条的粗细容易导致采集的样点有很多的冗余信息,因此将轮廓线的宽度细化为一个像素以保证从左到右,从上到下进行采样的时候在轮廓线上的交点处只能采集到一个轮廓点。
作为本发明的进一步改进,所述转换模块包括:
建立坐标系模块:用于建立二维坐标系,以X轴为水平方向,Y轴为垂直方向,原点O在左上角并且与每张图片的左上顶角重合;
坐标获取模块:用于获取轮廓每一个像素点的坐标,通过扫描整张草图采集轮廓上每个像素点相对于原点的坐标值(x,y),在采集坐标的过程当中,并没有对轮廓线进行采样;
采集数据模块:用于从左到右从上到下计算轮廓线的坐标值保留草图轮廓的几何结构特征,然后,通过不同的尺度大小的网络结构捕获轮廓点之间的几何结构信息。
作为本发明的进一步改进,所述分割模块包括:
分列模块:MCPNet分成三列,每列都有不同的尺度,尺度的大小分别为1×1,1×3,1×5;
MCPNet的卷积化模块:MCPNet每列有3个卷积层和一个最大池化层,其中三个卷积层分别使用的是相同大小的卷积核,通道数分别是64、128、1024,在通过第一列的三层卷积以后得到点集特征图fc1,大小为N×64,第二列得到的特征图为fc2,大小为N×128,第三列得到的特征图为fc3,特征大小为N×1024;
MCPNet的最大池化层模块:MCPNet三列最后得到的特征图fc1,fc2和fc3经过最大池化层分别得到点集的全局特征MAXc1,MAXc2和MAXc3,大小都是1×1024,这样,采用不同的卷积核大小就获取了输入草图点集的全局特征;
MCPNet的上采样模块:分别复制每个全局特征N次得到点特征为fg1 fg2和fg3,特征大小都为N×1024,同时与前面的局部特征fci(i=1,2,3)进行级联达到更细节的分割效果得到特征图为
Figure BDA0002235901010000071
特征大小为N×1088;
MCPNet特征融合模块:MCPNet网络结构具有K列,令每一列得到的特征图为
Figure BDA0002235901010000072
级联得到3个特征得到总的
Figure BDA0002235901010000073
特征大小为N×1088*3,特征图
Figure BDA0002235901010000074
经过卷积层、通道数分别为1024、512、256、128和softmax层产生最后的一个评分矩阵
Figure BDA0002235901010000081
其中C为部件数量大小,
Figure BDA0002235901010000082
表示的是第n个点属于部件c的概率,概率最大的索引值对应的是部件的编号。
本发明还提供了一种基于多尺度深度学习的草图部件分割装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的草图部件分割方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的草图部件分割方法的步骤。
本发明的有益效果是:本发明MCPNet是建立在坐标点集之上,比直接处理图像像素信息的网络降低了计算的成本,而且将草图信息转换为点集特征进行考虑解决了草图的空白背景对草图分割结果的影响。
附图说明
图1是背景技术的基于FCN网络的流程图;
图2是本发明基于MCPNet网络的框架图;
图3是本发明草图预处理示意图;
图4是本发明采集数据的示意图。
具体实施方式
本发明公开了一种基于多尺度深度学习的草图部件分割方法,解决现有草图特征信息单一和算法在处理图像像素信息时出现的不必要的时间消耗从而降低图像分割的效率所带来的弊端,解决了以下问题:
1.本发明的基于多尺度深度学习的草图部件分割方法,本发明与传统图像分割方法不同的是,本发明并没有直接去处理草图像素信息,而是将草图的轮廓线转换为点集并通过二维的点集卷积神经网络进行特征点的学习。首先,将每一个草图坐落于坐标系当中,该坐标系以左上角为原点,水平方向为X轴,垂直方向为Y轴,通过计算每个点相对于原点的坐标值(x,y),将每个草图的轮廓点转化为二维数组,采用这种方式可以通过聚集空间结构信息以便克服草图稀疏的像素特征信息。同时,本发明在MCPNet网络中增加不同尺度大小的滤波器,将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系。
2.本发明是建立在草图的轮廓特征点集之上,与传统的处理图像的像素信息不同,图像处理的网络包含很多的参数,而以点集为特征的输入降低了网络的学习参数。该发明有效的降低了草图分割学习的成本。
如图2所示,本发明公开了一种基于多尺度深度学习的草图部件分割方法,包括如下步骤:
步骤1,草图预处理步骤:对草图进行平移、旋转和缩放,对草图轮廓进行细化;
如图3所示,步骤1,草图预处理步骤具体包括:
步骤11,对草图进行平移、旋转和缩放:草图经过裁剪被一个封闭的包围盒所包围,然后进行四条边等间距放大以便草图居中并包含在一个固定大小的框内。考虑到草图的位置、画笔的位置和画板的大小,我们将固定宽度设置为800像素。
步骤12,对草图轮廓进行细化:线条的粗细容易导致采集的样点有很多的冗余信息,因此将轮廓线的宽度细化为一个像素以保证从左到右,从上到下进行采样的时候在轮廓线上的交点处只能采集到一个轮廓点,可以使得算法获得更好的草图结构信息。
步骤2,转换步骤:草图轮廓转变为坐标点集;
步骤2包括:
步骤21,建立坐标系:建立二维坐标系,以X轴为水平方向,Y轴为垂直方向,原点O在左上角并且与每张图片的左上顶角重合。
步骤22,获取轮廓每一个像素点的坐标:通过扫描整张草图采集轮廓上每个像素点相对于原点的坐标值(x,y)。在采集坐标的过程当中,并没有对轮廓线进行采样,这样可以保证草图几何结构的完整性。
步骤23,采集数据:如图4所示,每个点之间的坐标位置关系反映了草图的空间结构信息,也是草图分割中不可忽视的重要因素。在图中的台灯,从整体上看具有左右的对称结构,如点1和点4,点2和点3。局部上看很多部位具有局部的对称结构,如点1和点2,点3和点4,它们具有相似的轮廓结构和相对位置信息。因此,从左到右从上到下计算轮廓线的坐标值保留草图轮廓的几何结构特征。最后,通过不同的尺度大小的网络结构可以有效地捕获轮廓点之间的几何结构信息。
步骤3,深度学习步骤:坐标点集的深度学习表示;
在步骤3中,深度学习网络主要有三个关键模块组成聚集特征信息的对称函数模块、局部和全局信息组合模块以及输入点和点特征联合对准模块。最大值函数是一个简单的对称函数,它的作用可以聚集点的特征信息得到全局特征,同时任何一个一般性函数都可以用对称函数来逼近,即:f(x1,x2,...,xn)≈γ(MAX(h(x1),h(x2),...,h(xn)))。其中,其中f和γ是连续性函数,x1,x2,...,xn是轮廓点集坐标信息。
步骤4,分割步骤:通过多尺度的草图部件分割框架MCPNet(Multi-column Point-CNN)将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。
步骤4,分割步骤包括:
步骤41,分列步骤:MCPNet分成三列,每列都有不同的尺度,尺度的大小分别为1×1,1×3,1×5;
步骤42,MCPNet的卷积化步骤:MCPNet每列都有3个卷积层和一个最大池化层。其中三个卷积层分别使用的是相同大小的卷积核,但是得到的是不同的通道数,通道数分别是64,128,1024,在通过第一列的三层卷积以后得到点集特征图fc1,大小为N×64。同理,第二列我们得到的特征图为fc2,大小为N×128。第三列得到的特征图为fc3,特征大小为N×1024。
步骤43,MCPNet的最大池化层步骤:MCPNet三列最后得到的特征图fc1,fc2和fc3经过最大池化层分别得到点集的全局特征MAXc1,MAXc2和MAXc3,大小都是1×1024,这样,我们采用不同的卷积核大小就获取了输入草图点集的全局特征。
步骤44,MCPNet的上采样步骤:为了结合前面的局部特征,我们分别复制每个全局特征N次得到点特征为fg1 fg2和fg3,特征大小都为N×1024,同时我们与前面的局部特。征fci(i=1,2,3)进行级联达到更细节的分割效果得到特征图为
Figure BDA0002235901010000106
特征大小为N×1088。
步骤45,MCPNet特征融合步骤:MCPNet网络结构具有K列,令每一列得到的特征图为
Figure BDA0002235901010000101
级联得到这3个特征得到总的
Figure BDA0002235901010000102
特征大小为N×1088*3。特征图
Figure BDA0002235901010000103
经过一些卷积层(通道数分别为1024,512,256,128)和softmax层产生最后的一个评分矩阵
Figure BDA0002235901010000104
其中C为部件数量大小,
Figure BDA0002235901010000105
表示的是第n个点属于部件c的概率,概率最大的索引值对应的就是部件的编号。
步骤5,优化步骤:多尺度草图点集分割网络的优化,MCPNet根据相对熵得到最小化loss函数,并且我们优化Loss函数通过随机梯度下降算法。
本发明还公开了一种基于多尺度深度学习的草图部件分割系统,包括:
草图预处理模块:用于对草图进行平移、旋转和缩放,对草图轮廓进行细化;
转换模块:用于草图轮廓转变为坐标点集;
深度学习模块:用于坐标点集的深度学习表示;
分割模块:用于通过多尺度的草图部件分割框架MCPNet将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。
所述草图预处理模块包括:
预处理模块:对草图进行平移、旋转和缩放:草图经过裁剪被一个封闭的包围盒所包围,然后进行四条边等间距放大以便草图居中并包含在一个固定大小的框内;
草图轮廓的细化模块:线条的粗细容易导致采集的样点有很多的冗余信息,因此将轮廓线的宽度细化为一个像素以保证从左到右,从上到下进行采样的时候在轮廓线上的交点处只能采集到一个轮廓点。
所述转换模块包括:
建立坐标系模块:用于建立二维坐标系,以X轴为水平方向,Y轴为垂直方向,原点O在左上角并且与每张图片的左上顶角重合;
坐标获取模块:用于获取轮廓每一个像素点的坐标,通过扫描整张草图采集轮廓上每个像素点相对于原点的坐标值(x,y),在采集坐标的过程当中,并没有对轮廓线进行采样;
采集数据模块:用于从左到右从上到下计算轮廓线的坐标值保留草图轮廓的几何结构特征,然后,通过不同的尺度大小的网络结构捕获轮廓点之间的几何结构信息。
所述分割模块包括:
分列模块:MCPNet分成三列,每列都有不同的尺度,尺度的大小分别为1×1,1×3,1×5;
MCPNet的卷积化模块:MCPNet每列有3个卷积层和一个最大池化层,其中三个卷积层分别使用的是相同大小的卷积核,通道数分别是64、128、1024,在通过第一列的三层卷积以后得到点集特征图fc1,大小为N×64,第二列得到的特征图为fc2,大小为N×128,第三列得到的特征图为fc3,特征大小为N×1024;
MCPNet的最大池化层模块:MCPNet三列最后得到的特征图fc1,fc2和fc3经过最大池化层分别得到点集的全局特征MAXc1,MAXc2和MAXc3,大小都是1×1024,这样,采用不同的卷积核大小就获取了输入草图点集的全局特征;
MCPNet的上采样模块:分别复制每个全局特征N次得到点特征为fg1 fg2和fg3,特征大小都为N×1024,同时与前面的局部特征fci(i=1,2,3)进行级联达到更细节的分割效果得到特征图为
Figure BDA0002235901010000121
特征大小为N×1088;
MCPNet特征融合模块:MCPNet网络结构具有K列,令每一列得到的特征图为
Figure BDA0002235901010000122
级联得到3个特征得到总的
Figure BDA0002235901010000123
特征大小为N×1088*3,特征图
Figure BDA0002235901010000124
经过卷积层、通道数分别为1024、512、256、128和softmax层产生最后的一个评分矩阵
Figure BDA0002235901010000125
其中C为部件数量大小,
Figure BDA0002235901010000126
表示的是第n个点属于部件c的概率,概率最大的索引值对应的是部件的编号。
本发明还公开了一种基于多尺度深度学习的草图部件分割装置,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的草图部件分割方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的草图部件分割方法的步骤。
本发明(MCPNet方法)与其它同类方法对比的实验结果如表1和表2所示,MCPNet的方法的平均准确率优于同类的其它方法。其中,MCPNet-3的平均像素准确率的结果达到了87%,而U-Net[11],LinkNet[12],FCN[10]和PointNet[13]像素准确率分别是77.3%,79.9%,81.7%和80.2%,MCPNet比这些方法分别高了9.7%,7.1%,5.3%和6.8%。此外,基于部件的平均准确率分别为68.4%,75.0%,77.1%和67.3%。MCPNet比最好的FCN图像分割准确率高出了1.5%。
Figure BDA0002235901010000131
表1是本发明(MCPNet方法)与其它同类方法的基于像素准确率的对比结果。
Figure BDA0002235901010000132
表2是本发明(MCPNet方法)与其它同类方法的基于部件准确率的对比结果。
基于自然图像的分割网络计算成本比PointNet和MCPNet高出了两倍。同时,由于空白区域像素实际上并不是分割的一部分,MCPNet直接处理坐标点集信息,避免了空白背景的影响,进一步降低了计算的成本。此外,MCPNet-1的计算成本比PointNet略低,这是因为我们的MCPNet没有包含PointNet中的空间变化层。通过比较不同的MCPNet的计算时间成本,可以发现该网络的计算成本主要取决于尺度的大小,增加一个尺度,计算的时间成本大概需要70ms,为了得到一个效率与准确性的平衡,两列或者三列的MCPNet是一个值得考虑的最佳匹配方案。
Figure BDA0002235901010000141
表3是本发明与其它同类方法的对比结果。
本发明并没有直接去处理草图像素信息,而是将草图的轮廓线转换为点集并通过二维的点集卷积神经网络进行特征点的学习达到分割的目的。
本发明利用不同尺度大小的滤波器,将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,输出每个点的语义部件标签。
本发明MCPNet是建立在坐标点集之上,比直接处理图像像素信息的网络降低了计算的成本,而且将草图信息转换为点集特征进行考虑解决了草图的空白背景对草图分割结果的影响。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于多尺度深度学习的草图部件分割方法,其特征在于,包括如下步骤:
步骤1,草图预处理步骤:对草图进行平移、旋转和缩放,对草图轮廓进行细化;
步骤2,转换步骤:草图轮廓转变为坐标点集;
步骤3,深度学习步骤:坐标点集的深度学习表示;
步骤4,分割步骤:通过多尺度的草图部件分割框架MCPNet将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。
2.根据权利要求1所述的草图部件分割方法,其特征在于,所述步骤1包括:
步骤11,对草图进行平移、旋转和缩放:草图经过裁剪被一个封闭的包围盒所包围,然后进行四条边等间距放大以便草图居中并包含在一个固定大小的框内;
步骤12,对草图轮廓进行细化:线条的粗细容易导致采集的样点有很多的冗余信息,因此将轮廓线的宽度细化为一个像素以保证从左到右,从上到下进行采样的时候在轮廓线上的交点处只能采集到一个轮廓点。
3.根据权利要求1所述的草图部件分割方法,其特征在于,所述步骤2包括:
步骤21,建立坐标系:建立二维坐标系,以X轴为水平方向,Y轴为垂直方向,原点O在左上角并且与每张图片的左上顶角重合;
步骤22,获取轮廓每一个像素点的坐标:通过扫描整张草图采集轮廓上每个像素点相对于原点的坐标值(x,y),在采集坐标的过程当中,并没有对轮廓线进行采样;
步骤23,采集数据:从左到右从上到下计算轮廓线的坐标值保留草图轮廓的几何结构特征,然后,通过不同的尺度大小的网络结构捕获轮廓点之间的几何结构信息。
4.根据权利要求1所述的草图部件分割方法,其特征在于,所述步骤4,分割步骤包括:
步骤41,分列步骤:MCPNet分成三列,每列都有不同的尺度,尺度的大小分别为1×1,1×3,1×5;
步骤42,MCPNet的卷积化步骤:MCPNet每列有3个卷积层和一个最大池化层,其中三个卷积层分别使用的是相同大小的卷积核,通道数分别是64、128、1024,在通过第一列的三层卷积以后得到点集特征图fc1,大小为N×64,第二列得到的特征图为fc2,大小为N×128,第三列得到的特征图为fc3,特征大小为N×1024;
步骤43,MCPNet的最大池化层步骤:MCPNet三列最后得到的特征图fc1,fc2和fc3经过最大池化层分别得到点集的全局特征MAXc1,MAXc2和MAXc3,大小都是1×1024,这样,采用不同的卷积核大小就获取了输入草图点集的全局特征;
步骤44,MCPNet的上采样步骤:分别复制每个全局特征N次得到点特征为fg1fg2和fg3,特征大小都为N×1024,同时与前面的局部特征fci(i=1,2,3)进行级联达到更细节的分割效果得到特征图为
Figure FDA0002235899000000026
特征大小为N×1088;
步骤45,MCPNet特征融合步骤:MCPNet网络结构具有K列,令每一列得到的特征图为
Figure FDA0002235899000000021
级联得到3个特征得到总的
Figure FDA0002235899000000022
特征大小为N×1088*3,特征图
Figure FDA0002235899000000023
经过卷积层、通道数分别为1024、512、256、128和softmax层产生最后的一个评分矩阵
Figure FDA0002235899000000024
其中C为部件数量大小,
Figure FDA0002235899000000025
表示的是第n个点属于部件c的概率,概率最大的索引值对应的是部件的编号。
5.一种基于多尺度深度学习的草图部件分割系统,其特征在于,包括:
草图预处理模块:用于对草图进行平移、旋转和缩放,对草图轮廓进行细化;
转换模块:用于草图轮廓转变为坐标点集;
深度学习模块:用于坐标点集的深度学习表示;
分割模块:用于通过多尺度的草图部件分割框架MCPNet将具有相似几何结构的特征点集中在一起,学习不同特征点之间的全局空间结构和局部结构关系,从而完成草图部件的分割。
6.根据权利要求5所述的草图部件分割系统,其特征在于,所述草图预处理模块包括:
预处理模块:对草图进行平移、旋转和缩放:草图经过裁剪被一个封闭的包围盒所包围,然后进行四条边等间距放大以便草图居中并包含在一个固定大小的框内;
草图轮廓的细化模块:线条的粗细容易导致采集的样点有很多的冗余信息,因此将轮廓线的宽度细化为一个像素以保证从左到右,从上到下进行采样的时候在轮廓线上的交点处只能采集到一个轮廓点。
7.根据权利要求5所述的草图部件分割系统,其特征在于,所述转换模块包括:
建立坐标系模块:用于建立二维坐标系,以X轴为水平方向,Y轴为垂直方向,原点O在左上角并且与每张图片的左上顶角重合;
坐标获取模块:用于获取轮廓每一个像素点的坐标,通过扫描整张草图采集轮廓上每个像素点相对于原点的坐标值(x,y),在采集坐标的过程当中,并没有对轮廓线进行采样;
采集数据模块:用于从左到右从上到下计算轮廓线的坐标值保留草图轮廓的几何结构特征,然后,通过不同的尺度大小的网络结构捕获轮廓点之间的几何结构信息。
8.根据权利要求5所述的草图部件分割系统,其特征在于,所述分割模块包括:
分列模块:MCPNet分成三列,每列都有不同的尺度,尺度的大小分别为1×1,1×3,1×5;
MCPNet的卷积化模块:MCPNet每列有3个卷积层和一个最大池化层,其中三个卷积层分别使用的是相同大小的卷积核,通道数分别是64、128、1024,在通过第一列的三层卷积以后得到点集特征图fc1,大小为N×64,第二列得到的特征图为fc2,大小为N×128,第三列得到的特征图为fc3,特征大小为N×1024;
MCPNet的最大池化层模块:MCPNet三列最后得到的特征图fc1,fc2和fc3经过最大池化层分别得到点集的全局特征MAXc1,MAXc2和MAXc3,大小都是1×1024,这样,采用不同的卷积核大小就获取了输入草图点集的全局特征;
MCPNet的上采样模块:分别复制每个全局特征N次得到点特征为fg1fg2和fg3,特征大小都为N×1024,同时与前面的局部特征fci(i=1,2,3)进行级联达到更细节的分割效果得到特征图为
Figure FDA0002235899000000041
特征大小为N×1088;
MCPNet特征融合模块:MCPNet网络结构具有K列,令每一列得到的特征图为
Figure FDA0002235899000000042
级联得到3个特征得到总的
Figure FDA0002235899000000043
特征大小为N×1088*3,特征图
Figure FDA0002235899000000044
经过卷积层、通道数分别为1024、512、256、128和softmax层产生最后的一个评分矩阵
Figure FDA0002235899000000045
其中C为部件数量大小,
Figure FDA0002235899000000046
表示的是第n个点属于部件c的概率,概率最大的索引值对应的是部件的编号。
9.一种基于多尺度深度学习的草图部件分割装置,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的草图部件分割方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的草图部件分割方法的步骤。
CN201910983270.1A 2019-10-16 2019-10-16 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质 Active CN110889854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910983270.1A CN110889854B (zh) 2019-10-16 2019-10-16 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910983270.1A CN110889854B (zh) 2019-10-16 2019-10-16 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110889854A true CN110889854A (zh) 2020-03-17
CN110889854B CN110889854B (zh) 2023-12-05

Family

ID=69746202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910983270.1A Active CN110889854B (zh) 2019-10-16 2019-10-16 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110889854B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416340A (zh) * 2020-05-14 2021-02-26 上海哔哩哔哩科技有限公司 基于草图的网页生成方法和系统
CN114581806A (zh) * 2022-03-18 2022-06-03 重庆科技学院 一种基于主干边缘特征提取的工业零件空载率计算方法
CN114913330A (zh) * 2022-07-18 2022-08-16 中科视语(北京)科技有限公司 点云部件分割方法、装置、电子设备与存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833788A (zh) * 2010-05-18 2010-09-15 南京大学 一种采用手绘草图的三维人体建模方法
CN104850633A (zh) * 2015-05-22 2015-08-19 中山大学 一种基于手绘草图部件分割的三维模型检索系统及方法
CN106126581A (zh) * 2016-06-20 2016-11-16 复旦大学 基于深度学习的手绘草图图像检索方法
CN109118491A (zh) * 2018-07-30 2019-01-01 深圳先进技术研究院 一种基于深度学习的图像分割方法、系统及电子设备
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833788A (zh) * 2010-05-18 2010-09-15 南京大学 一种采用手绘草图的三维人体建模方法
CN104850633A (zh) * 2015-05-22 2015-08-19 中山大学 一种基于手绘草图部件分割的三维模型检索系统及方法
CN106126581A (zh) * 2016-06-20 2016-11-16 复旦大学 基于深度学习的手绘草图图像检索方法
CN109118491A (zh) * 2018-07-30 2019-01-01 深圳先进技术研究院 一种基于深度学习的图像分割方法、系统及电子设备
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416340A (zh) * 2020-05-14 2021-02-26 上海哔哩哔哩科技有限公司 基于草图的网页生成方法和系统
CN114581806A (zh) * 2022-03-18 2022-06-03 重庆科技学院 一种基于主干边缘特征提取的工业零件空载率计算方法
CN114581806B (zh) * 2022-03-18 2024-03-19 重庆科技学院 一种基于主干边缘特征提取的工业零件空载率计算方法
CN114913330A (zh) * 2022-07-18 2022-08-16 中科视语(北京)科技有限公司 点云部件分割方法、装置、电子设备与存储介质

Also Published As

Publication number Publication date
CN110889854B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
Wen et al. Dynamic selective network for RGB-D salient object detection
Simo-Serra et al. Real-time data-driven interactive rough sketch inking
CN110889854B (zh) 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质
CN110853039B (zh) 一种多数据融合的草图图像分割方法、系统、装置及存储介质
Zhiheng et al. PyramNet: Point cloud pyramid attention network and graph embedding module for classification and segmentation
Sun et al. Aesthetic Visual Quality Evaluation of Chinese Handwritings.
Wang et al. Multi-column point-CNN for sketch segmentation
CN109740539B (zh) 基于超限学习机和融合卷积网络的3d物体识别方法
Zheng et al. Learning to shadow hand-drawn sketches
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN113673338A (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
Su et al. DLA-Net: Learning dual local attention features for semantic segmentation of large-scale building facade point clouds
Chen et al. Autosweep: Recovering 3d editable objects from a single photograph
Chen et al. BINet: Bidirectional interactive network for salient object detection
Ding et al. Rethinking click embedding for deep interactive image segmentation
Wei et al. Bidirectional attentional interaction networks for rgb-d salient object detection
Ke et al. SRN: Side-output residual network for object reflection symmetry detection and beyond
Fang et al. Artificial Intelligence: Second CAAI International Conference, CICAI 2022, Beijing, China, August 27–28, 2022, Revised Selected Papers, Part I
Zhu et al. Visual normalization of handwritten Chinese characters based on generative adversarial networks
Lai et al. Pattern Recognition and Computer Vision: First Chinese Conference, PRCV 2018, Guangzhou, China, November 23-26, 2018, Proceedings, Part III
Siddiqui et al. Deep learning-based 3D instance and semantic segmentation: A review
Chang et al. 3D hand reconstruction with both shape and appearance from an RGB image
Wen Research on Modern Book Packaging Design Based on Aesthetic Evaluation Based on a Deep Learning Model
CN117011493B (zh) 基于符号距离函数表示的三维人脸重建方法、装置及设备
Jin et al. Extraction of Buddha Elements from Thangka Images Based on Improved DeepLabV3+

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant