CN108229501B - 融合纹理特征与形状特征的时序性的草图识别方法 - Google Patents
融合纹理特征与形状特征的时序性的草图识别方法 Download PDFInfo
- Publication number
- CN108229501B CN108229501B CN201711379401.2A CN201711379401A CN108229501B CN 108229501 B CN108229501 B CN 108229501B CN 201711379401 A CN201711379401 A CN 201711379401A CN 108229501 B CN108229501 B CN 108229501B
- Authority
- CN
- China
- Prior art keywords
- features
- sketch
- shape
- image
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 6
- 241000288105 Grus Species 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 125000004122 cyclic group Chemical group 0.000 abstract 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明属于计算机视觉领域,公开了一种融合纹理特征与形状特征的时序性的草图识别方法。首先,按照草图的笔画顺序获取一个图像序列;其次,提取每个图像的纹理特征和形状特征,形成对应于图像序列的特征序列;然后,将特征输入到包含两个阶段的网络中进行学习,第一阶段的两个循环神经网络分别接受图像的纹理特征和形状特征,第二阶段首先融合上一阶段的输出,然后输入到第三个循环神经网络,最后通过分类器得到结果,如此,按照序列中的顺序进行迭代学习。优点:将几何描述子用于草图识别,同时采用循环神经网络对草图的时序特征进行有效学习,从而显著改善原有识别模型忽视草图形状特征与时序性特征的缺陷,较好地提升草图识别率。
Description
技术领域
本发明属于计算机视觉领域,涉及图像分类任务,特别涉及一种融合纹理和形状特征的时序性的草图识别方法。
背景技术
反映物体主要特征的草图,是人们交流想法的一种有效途径。然而,自动识别笔画顺序多变和风格各异的手绘草图是一个巨大的挑战,以至于近些年来的自动识别率触到了天花板。大多数现行的方法,尤其是基于深度网络的方法,不是忽略了草图的几何特征,把在自然图像识别中取得巨大成功的纹理特征用于草图识别,而忽视了纹理特征在草图中并不太丰富的缺陷;就是把草图当作结构顺序固定的手写字母来处理,忽视了草图区别于其他形状的时序性,或者未能很好地解决手绘顺序有区别的同类草图对结果的扰动。
本发明结合这两个角度,设计了一种序列性双循环神经网络。通过几何描述子揭示草图的形状特征,并采用循环神经网络学习草图的时序性特征,从而弥补了单一纹理特征的缺陷,提高了草图识别率。
发明内容
为了弥补单一纹理特征的不足以更好地识别草图,本发明提供了一种结合纹理特征与形状特征的时序性的草图识别方法。
本发明的技术方案包括如下步骤:
步骤1.获取图像序列
对于每一个草图S,假设它有N个顺序笔画,则S可以表示为(s1,s2,...,sN)。其中,si为该草图S的第i个顺序笔画,i为[1,N]之间的整数。建立一个包含P个图像的序列(I1,I2,...,IP)。其中,第t个图像It包含了笔画s1到st×N/P,t为[1,P]之间的整数。
步骤2.提取图像特征
步骤3.利用循环神经网络对草图笔画进行迭代学习
搭建一个包含两个阶段和3个GRU(gated recurrent unit)的网络,如图1所示的每一行。然后,按照图像序列(I1,I2,...,IP)的顺序进行迭代学习。图1中的第t行即为利用图像It的纹理特征和形状特征进行第t次迭代学习。
其中,每一步的迭代学习又包含两个阶段:
其中,和表示GRU的输入和输出,ht是GRU的隐藏状态,并由其他三个门单元r,m和决定。操作符⊙表示向量的对应元素相乘。W*和U是权重矩阵,b*是GRU的权重向量。类似地,另一个GRU将纹理特征映射到
步骤3‐2在第t次迭代学习中,第二阶段的输入是(ytexture Tyshape T)T,输出则为其中,首先将线性函数W(ytexture Tyshape T)T+b应用于第二阶段的开始位置,W的维度为256*128,用以融合被记忆的纹理特征和形状特征;然后将融合后的特征输入第3个GRU网络。而第二阶段GRU的输出则与最终作为分类器的softmax层进行稠密连接,得到分类结果。
优选的,所述步骤1中,P=5,以更好地减轻过拟合的影响,更有效地描述草图特征。
优选的,所述步骤2‐3中,M=500,以更好地提取草图笔画的几何特征。
优选的,对于形状特征的提取有如下步骤:
步骤2‐1对每一个笔画应用形状上下文作为几何描述子,且每个笔画上采集5个特征点;
步骤2‐2对形状特征进行k‐means聚类,聚类中心作为codebook;
步骤2‐3使用其中M个聚类中心作为描述整个笔画空间的原型。并使用局部约束线性编码LLC生成最终编码了的笔画表示;
步骤2‐4将maxpooling应用于全部笔画特征,获取更具有区分性的500维的特征向量。
有益效果:本发明构造了基于GRU的序列性双循环神经网络(sequential dualrecurrent neural networks)——SD‐RNN,通过融合纹理与形状特征,极大地丰富了对草图的描述能力,同时提出累积顺序笔画以减小过拟合的观点,达到了用较少的训练数据得到更精确的分类结果的目的。这种网络模型使得草图区别于自然图像的形状特征得到关注,从而在草图识别任务中表现出良好的准确率。
附图说明
图1SD‐RNN网络结构。
图2累积顺序笔画。
图3图像集扩充。
图4原有方法错误示例。
图5形状特征的提升效果。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实例,对本发明做进一步详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
实施例:
对于步骤1,获取图像序列。取P=5,能有效利用草图笔画的时序特征,如图2所示。
通过剪裁和水平翻转,将图像序列(I1,I2,...,IP)中的每一个图像扩展为10个图像。图3中,左端的10个图像即展示了这种效果:从右到左,奇数位上的图像是在原图像上做了剪裁,偶数位上的图像是在原图像的水平翻转图像上做了剪裁,剪裁的顺序依次为保留原图的左上,左下,右上,右下和居中部分;以I2为例,将这10个图像从右到左命名为此时,原来的每个草图S变成了P*10个图像,其中的图像来源于图像It,k为[1,10]之间的整数。
图3中,按从右到左的顺序,将10个图像先后输入第一阶段的GRU中进行学习。
将SD‐CNN中用于生成纹理特征的Coded Shape Context和用于形状特征学习的GRU去掉,进行实验,结果中的错误示例如图4所示。
将SD‐CNN中用于生成纹理特征的Coded Shape Context和用于形状特征学习的GRU去掉,与SD‐RNN的结果对比如图5所示。
Claims (5)
1.一种融合纹理特征与形状特征的时序性的草图识别方法,包括以下步骤:
步骤1.获取图像序列
对于每一个草图S,有N个顺序笔画,将S表示为(s1,s2,...,sN);其中,si为该草图S的第i个顺序笔画,i为[1,N]之间的整数;建立一个包含P个图像的序列(I1,I2,...,IP),其中,第t个图像It包含了笔画s1到st×N/P,t为[1,P]之间的整数;
步骤2.提取图像特征
步骤3.利用循环神经网络对草图笔画进行迭代学习
其中,每一步的迭代学习又包含两个阶段:
其中,和表示GRU的输入和输出,ht是GRU的隐藏状态,并由其他三个门单元rt、zt、和决定;操作符⊙表示向量的对应元素相乘;W*和U是权重矩阵,b*是GRU的权重向量;同理,将另一个GRU将纹理特征映射到
2.根据权利要求1所述的融合纹理特征与形状特征的时序性的草图识别方法,其特征在于,所述步骤1中,P=5。
5.根据权利要求4所述的融合纹理特征与形状特征的时序性的草图识别方法,其特征在于,对于形状特征的提取有如下步骤:
步骤2-1对每一个笔画应用形状上下文作为几何描述子,且每个笔画上采集5个特征点;
步骤2-2对形状特征进行k-means聚类,聚类中心作为codebook;
步骤2-3使用其中M个聚类中心作为描述整个笔画空间的原型;并使用局部约束线性编码LLC生成最终编码了的笔画表示;
步骤2-4将maxpooling应用于全部笔画特征,获取更具有区分性的500维的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711379401.2A CN108229501B (zh) | 2017-12-20 | 2017-12-20 | 融合纹理特征与形状特征的时序性的草图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711379401.2A CN108229501B (zh) | 2017-12-20 | 2017-12-20 | 融合纹理特征与形状特征的时序性的草图识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229501A CN108229501A (zh) | 2018-06-29 |
CN108229501B true CN108229501B (zh) | 2021-09-28 |
Family
ID=62649944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711379401.2A Active CN108229501B (zh) | 2017-12-20 | 2017-12-20 | 融合纹理特征与形状特征的时序性的草图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229501B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230281978A1 (en) | 2022-03-03 | 2023-09-07 | NavInfo Europe B.V. | Method to Add Inductive Bias into Deep Neural Networks to Make Them More Shape-Aware |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722752A (zh) * | 2012-05-17 | 2012-10-10 | 天津大学 | 基于约束满足框架的空间问题求解方法 |
CN103106308A (zh) * | 2013-02-06 | 2013-05-15 | 浙江大学 | 一种个性化创意拐点识别方法及系统 |
CN103136515A (zh) * | 2013-02-06 | 2013-06-05 | 浙江大学 | 基于草图行为序列的创意拐点识别方法及系统 |
CN103400109A (zh) * | 2013-07-10 | 2013-11-20 | 西安交通大学 | 一种手绘草图离线识别与整形方法 |
CN103699740A (zh) * | 2013-12-20 | 2014-04-02 | 清华大学 | 在线捕捉设计意图的草图语义识别方法及系统 |
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779292B2 (en) * | 2014-10-15 | 2017-10-03 | William Ng | System and method for interactive sketch recognition based on geometric contraints |
-
2017
- 2017-12-20 CN CN201711379401.2A patent/CN108229501B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722752A (zh) * | 2012-05-17 | 2012-10-10 | 天津大学 | 基于约束满足框架的空间问题求解方法 |
CN103106308A (zh) * | 2013-02-06 | 2013-05-15 | 浙江大学 | 一种个性化创意拐点识别方法及系统 |
CN103136515A (zh) * | 2013-02-06 | 2013-06-05 | 浙江大学 | 基于草图行为序列的创意拐点识别方法及系统 |
CN103400109A (zh) * | 2013-07-10 | 2013-11-20 | 西安交通大学 | 一种手绘草图离线识别与整形方法 |
CN103699740A (zh) * | 2013-12-20 | 2014-04-02 | 清华大学 | 在线捕捉设计意图的草图语义识别方法及系统 |
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
Non-Patent Citations (5)
Title |
---|
"A PATCH-BASED SPARSE REPRESENTATION FOR SKETCH RECOGNITION";Qi Yonggang等;《IEEE Xplore》;20150105;第343-346页 * |
"Sketch recognition with few examples";Kemal Tugrul Yesilbek等;《Computers & Graphics》;20171005;第82-93页 * |
"一种基于视觉注意力机制的深度循环Q网络模型";刘全 等;《计算机学报》;20170630;第40卷(第6期);第1353-1365页 * |
"基于RBF神经网络的手绘电气草图分类研究";戴永 等;《湘潭大学自然科学学报》;20101231;第32卷(第4期);第102-107页 * |
"基于笔序的手绘草图识别方法";尹建峰 等;《计算机科学》;20051231;第32卷(第1期);第198-201页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108229501A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN101714262B (zh) | 单幅图像的三维场景重建方法 | |
CN105426919B (zh) | 基于显著性指导非监督特征学习的图像分类方法 | |
CN110322495A (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
CN107239730B (zh) | 智能汽车交通标志识别的四元数深度神经网络模型方法 | |
CN112347861B (zh) | 一种基于运动特征约束的人体姿态估计方法 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN109190561B (zh) | 一种视频播放中的人脸识别方法及系统 | |
CN111310668B (zh) | 一种基于骨架信息的步态识别方法 | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
CN112364791B (zh) | 一种基于生成对抗网络的行人重识别方法和系统 | |
CN110210433B (zh) | 一种基于深度学习的集装箱箱号检测与识别方法 | |
CN111639540A (zh) | 基于相机风格和人体姿态适应的半监督人物重识别方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN112101262A (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN111709443B (zh) | 一种基于旋转不变卷积神经网络的书法字风格分类方法 | |
CN113191216A (zh) | 基于姿态识别和c3d网络的多人实时动作识别方法和系统 | |
CN116469005A (zh) | 一种利用gf-2遥感影像进行多尺度建筑物屋顶识别的方法 | |
CN114387610A (zh) | 一种基于增强特征金字塔网络的任意形状场景文本检测方法 | |
CN108229501B (zh) | 融合纹理特征与形状特征的时序性的草图识别方法 | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |