CN109408655A - 结合带孔卷积与多尺度感知网络的手绘草图检索方法 - Google Patents
结合带孔卷积与多尺度感知网络的手绘草图检索方法 Download PDFInfo
- Publication number
- CN109408655A CN109408655A CN201811222085.2A CN201811222085A CN109408655A CN 109408655 A CN109408655 A CN 109408655A CN 201811222085 A CN201811222085 A CN 201811222085A CN 109408655 A CN109408655 A CN 109408655A
- Authority
- CN
- China
- Prior art keywords
- multiple dimensioned
- convolution
- network
- feature
- sensing network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉与深度学习领域,具体公开了一种结合带孔卷积与多尺度感知网络的手绘草图检索方法,该方法包括如下步骤:S1、获取手绘草图与自然彩图数据库S2、将自然彩图转换成边缘图S3、训练基于带孔卷积的多尺度感知网络S4、使用训练后的网络提取手绘图与边缘图的深度特征S5、对提取到的特征进行特征融合S6、计算特征之间的相似度得到初步检索结果S7、通过聚类算法进一步优化检索结果。本发明方法的有益效果是:1.在传统神经网络中融入带孔卷积,在增大网络感受野的同时提高了网络对手绘图像提取特征的鲁棒性2.网络采用多尺度感知结构,能有效应对手绘草图尺度变化的情况。本发明提出的方法能够大大提高手绘草图的检索精度。
Description
技术领域
本发明属于计算机视觉与深度学习领域,涉及结合带孔卷积与多尺度感知网络的手绘草图检索方法。
背景技术
手绘草图检索是基于内容的图像检索技术的一种,研究表明,手绘图片拥有与真实图片相同的机制来激活人类大脑皮层的视觉区域。与基于文本的图像检索以及传统的基于自然彩图的图像检索相比,手绘图具有易于获取、抽象概括性强、不受语言文化限制等优点,而且随着触屏手机、触屏平板电脑等可触屏设备的数量日益庞大,手绘图像的获取愈加容易,基于手绘草图的图像检索目前正得到越来越多的关注并具有广阔的应用前景。比如商业上在线商城使用手绘图检索商品,安防上使用画像追凶等等。
由于手绘草图与自然彩图在视觉上具有很大的鸿沟,可以认为他们来自不同的域,因此基于手绘草图的图像检索是一项具有挑战性的任务。目前手绘草图检索主流的思路是先通过边缘检测等算法将自然彩图转化成类手绘图,然后设计手工特征(HOG,ShapeContext,HELO等)或者使用神经网络提取深度特征来进行相似性度量,按相似性排序返回检索结果。
与传统方法相比,基于深度学习的方法在手绘草图检索任务上的优势愈加明显,然而由于可获取到的手绘草图数量相对较少,不足以训练深度卷积网络,因此,通过迁移学习,将针对其他任务训练的网络在当前任务上微调可以获得更好的效果。研究表明网络采用大尺寸卷积核,即大感受野更适合对手绘草图进行特征表达。然而目前主流的神经网络结构(比如VGG19、Resnet等)为了增加网络深度一般采用较小尺寸的卷积核,比如3x 3、1x1,显然不适合于手绘草图线条稀疏的特点。另外由于手绘草图线条随意,主体部分通常尺寸不一,采用固定尺寸卷积核的网络结构不能适应手绘草图尺度多变的特点。
因此,有必要设计一种更适合于对手绘草图进行特征表达的网络结构,以提高手绘草图检索的精度。
发明内容
本发明的目的在于提出一种结合带孔卷积与多尺度感知网络的手绘草图检索方法,其采用如下方案:
1、结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,包括以下步骤:
s1、获取待检索的手绘草图和数据库中的自然图像;
s2、通过边缘检测算法对自然图像进行边缘检测得到类手绘图,即边缘图;
s3、训练基于带孔卷积的多尺度感知网络;
s4、用训练完成的多尺度感知网络分别提取手绘图像和边缘图特征;
s5、对多尺度感知网络提取的特征进行特征融合;
s6、对手绘图特征和边缘图特征进行相似度计算并得到初步检索结果;
s7、通过聚类方法对检索结果重新排序得到最终检索结果。
2、根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s1中,采用的手绘图像和自然图片来自于公开数据集Sketchy,该数据集是用于手绘草图检索的权威数据集。
3、根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s2中,通过边缘检测算法,例如Berkeley边缘检测算法将自然彩图转换为边缘图,即类手绘图。
4、根据权利要求的1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s3中,设计并训练基于带孔卷积的多尺度感知网络,进一步包括:
s31、采用在ImageNet数据集上训练好的VGG19网络为基本网络结构,将conv1_1、conv2_1、conv3_1、conv4_1卷积层修改为多尺度感知层,即采用3个感受野不同的并行卷积核,3个卷积核均为带孔卷积,采取不同的扩张率,分别感知输入的不同尺度,并添加一层汇聚层将3个卷积核得到特征图聚合,聚合方式为取相应位置激活值的最大值;
s32、使用在ImageNet上训练得到的权重初始化神经网络,其中多尺度感知层并行的3个卷积核参数共享,损失函数采用交叉熵损失函数,使用手绘草图与自然图像边缘图训练网络直至收敛。
5、根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s4中,利用步骤s3中训练好的多尺度感知网络分别提取手绘草图与自然图像边缘图的深度特征,进一步包括:
s41、将手绘图与边缘图输入多尺度感知网络,提取网络pool5层与全连接层fc2的深度特征,其中fc2深度特征为4096维向量,称其为fc2特征;
s42、对s41中提取的pool5层特征通过全局最大池化得到512维特征向量,称其为pool5特征。
6、根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s5中,对步骤s4中提取到的深度特征进行特征融合,进一步包括:
s51、使用主成份分析将步骤s41中提取到的4096维fc2特征降低到128维;
s52、将s51中降维得到的128维特征与s42中提取到的512维pool5特征进行拼接融合,得到维度为640的特征向量作为图像的最终特征表达。
7、根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s6中,对于给定手绘图像,计算其与数据库中所有自然图片的相似度,相似度计算方法是计算手绘图像的特征向量和自然图片的特征向量之间的欧式距离,欧氏距离越小表示相似度越高,按相似度排序得到初步检索结果。
8、根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s7中,通过k-means聚类算法对检索结果进一步优化。
本发明具有如下优点:
本发明提出一种结合带孔卷积与多尺度感知网络的手绘草图检索方法,将带孔卷积引入传统网络结构,在最大程度上保留网络原始结构的前提下增大网络的感受野以更好地适应手绘草图稀疏性的特点。同时,针对手绘草图结构随意,主体部分尺度不一的特点,本发明所提出的网络结构通过并行排列多个不同感受野的卷积核,从多个尺度对输入图像进行特征提取,能够有效提高网络对手绘图像主体部分在尺度变化上的适应性。
本发明所提出的检索方法能够有效提高手绘草图的检索精度。
附图说明
图1为本发明中结合带孔卷积与多尺度感知网络的手绘草图检索方法的流程图;
图2为本发明中多尺度感知网络的训练网络结构图;
图3为本发明中特征提取网络的结构图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
结合图1、图2和图3所示,带孔卷积与多尺度感知网络的手绘草图检索方法,包括如下步骤:
s1、获取待检索的手绘图像和数据库中的自然图像
本发明的方法适用于所有的自然图片库和手绘图像数据集,其中,本发明中的训练数据来源于公开数据集Sketchy图像数据集,因为此数据集是目前该领域被大家工人同认可的,并且该数据集同时包含了大量手绘图像和自然图片数据。
s2、通过边缘检测算法对自然图像进行边缘检测得到类手绘图,即边缘图。
通过边缘检测的算法将自然彩图转化为边缘图以减小其与手绘草图在视觉上差异。
s3、训练基于带孔卷积的多尺度感知网络
结合图2,本发明中采取的基础网络结构为VGG19,因为其具有强大的特征表达能力与迁移学习能力。研究表明,对于线条稀疏的手绘图像而言,采用大尺寸卷积核,即大的感受野有助于提高手绘草图检索精度,但是为了增加网络深度,在VGG19网络中,所有卷积核尺寸均设置为3x 3,并不完全适用于手绘草图,本发明通过以下步骤修改VGG19使其对手绘图有更强的特征表达能力:
s31、VGG19共包含5个block,将前4个block的第一个卷积层,即conv1_1、conv2_1、conv3_1、conv4_1卷积层修改为多尺度感知层。使用3个感受野不同的并行卷积核,3个卷积核均为带孔卷积,采取不同的扩张率,分别感知输入的不同尺度,并添加一层汇聚层将3个卷积核得到的特征图聚合,聚合方式为取相应位置激活值的最大值。
s32、使用VGG19在ImageNet上训练得到的权重初始化神经网络,其中多尺度感知层并行的3个卷积核参数共享,损失函数采用交叉熵损失函数,使用手绘草图与自然图像边缘图训练网络直至收敛。
带孔卷积的引入可以在最大程度上保留网络原始结构的前提下增大感受野,以更好地适应手绘草图稀疏性的特点,同时多个不同感受野的卷积核并行排列可以有效降低网络对图像主体部分在尺度变化上的敏感程度。
s4、用训练完成的多尺度感知网络分别提取手绘图像和边缘图特征
结合图3,利用训练好的多尺度感知网络对手绘草图与自然图像边缘图进行特征提取。
s41、将手绘图与边缘图输入多尺度感知网络,提取网络pool5层(网络第5个block的池化层)与全连接层fc2(网络第二个全连接层)的深度特征,其中fc2深度特征为4096维向量,称其为fc2特征;
s42、对s41中提取的pool5层特征通过全局最大池化得到512维特征向量,称其为pool5特征。
s5、对多尺度感知网络提取的特征进行特征融合
网络中间层特征能较好地反映结构、位置信息,而全连接层特征则包含高层语义信息,因此将二者融合能获得更加鲁棒的特征表达。
s51、使用主成份分析将步骤s41中提取到的4096维fc2特征降低到128维。
利用主成份分析进行特征降维有助于保留鉴别力更强的特征,减少特征冗余,同时加快检索速度。
s52、将s51中降维得到的128维特征与s42中提取到的512维pool5特征进行拼接融合,得到维度为640的特征向量作为图像的最终特征表达。
s6、对手绘图特征和边缘图特征进行相似度计算并得到初步检索结果
计算特征向量之间的欧式距离,距离越小表示图像相似度越高,按照距离大小排序获得初步检索结果。
s7、通过聚类方法对检索结果重新排序得到最终检索结果
利用k-means聚类算法,对初步排序的结果进行聚类进一步优化,以得到更加准确的检索结果。
当然,本发明并不限于上述列举的实例,应当说明的是,任何熟悉本领域的技术人员在本说明书的指导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围内,理应受到本发明的保护。
Claims (8)
1.结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,包括以下步骤:
s1、获取待检索的手绘草图和数据库中的自然图像;
s2、通过边缘检测算法对自然图像进行边缘检测得到类手绘图,即边缘图;
s3、训练基于带孔卷积的多尺度感知网络;
s4、用训练完成的多尺度感知网络分别提取手绘图像和边缘图特征;
s5、对多尺度感知网络提取的特征进行特征融合;
s6、对手绘图特征和边缘图特征进行相似度计算并得到初步检索结果;
s7、通过聚类方法对检索结果重新排序得到最终检索结果。
2.根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s1中,采用的手绘图像和自然图片来自于公开数据集Sketchy,该数据集是用于手绘草图检索的权威数据集。
3.根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s2中,通过边缘检测算法,例如Berkeley边缘检测算法将自然彩图转换为边缘图,即类手绘图。
4.根据权利要求的1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s3中,设计并训练基于带孔卷积的多尺度感知网络,进一步包括:
s31、采用在ImageNet数据集上训练好的VGG19网络为基本网络结构,将conv1_1、conv2_1、conv3_1、conv4_1卷积层修改为多尺度感知层,即采用3个感受野不同的并行卷积核,3个卷积核均为带孔卷积,采取不同的扩张率,分别感知输入的不同尺度,并添加一层汇聚层将3个卷积核得到特征图聚合,聚合方式为取相应位置激活值的最大值;
s32、使用在ImageNet上训练得到的权重初始化神经网络,其中多尺度感知层并行的3个卷积核参数共享,损失函数采用交叉熵损失函数,使用手绘草图与自然图像边缘图训练网络直至收敛。
5.根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s4中,利用步骤s3中训练好的多尺度感知网络分别提取手绘草图与自然图像边缘图的深度特征,进一步包括:
s41、将手绘图与边缘图输入多尺度感知网络,提取网络pool5层与全连接层fc2的深度特征,其中fc2深度特征为4096维向量,称其为fc2特征;
s42、对s41中提取的pool5层特征通过全局最大池化得到512维特征向量,称其为pool5特征。
6.根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s5中,对步骤s4中提取到的深度特征进行特征融合,进一步包括:
s51、使用主成份分析将步骤s41中提取到的4096维fc2特征降低到128维;
s52、将s51中降维得到的128维特征与s42中提取到的512维pool5特征进行拼接融合,得到维度为640的特征向量作为图像的最终特征表达。
7.根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s6中,对于给定手绘图像,计算其与数据库中所有自然图片的相似度,相似度计算方法是计算手绘图像的特征向量和自然图片的特征向量之间的欧式距离,欧氏距离越小表示相似度越高,按相似度排序得到初步检索结果。
8.根据权利要求1所述的结合带孔卷积与多尺度感知网络的手绘草图检索方法,其特征在于,所述步骤s7中,通过k-means聚类算法对检索结果进一步优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811222085.2A CN109408655A (zh) | 2018-10-19 | 2018-10-19 | 结合带孔卷积与多尺度感知网络的手绘草图检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811222085.2A CN109408655A (zh) | 2018-10-19 | 2018-10-19 | 结合带孔卷积与多尺度感知网络的手绘草图检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408655A true CN109408655A (zh) | 2019-03-01 |
Family
ID=65467899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811222085.2A Pending CN109408655A (zh) | 2018-10-19 | 2018-10-19 | 结合带孔卷积与多尺度感知网络的手绘草图检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408655A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263199A (zh) * | 2019-06-21 | 2019-09-20 | 君库(上海)信息科技有限公司 | 一种基于深度学习的手绘草图以图搜图方法 |
CN111899315A (zh) * | 2020-08-07 | 2020-11-06 | 深圳先进技术研究院 | 利用多尺度特征感知深度网络重建低剂量图像的方法 |
CN112307243A (zh) * | 2019-07-23 | 2021-02-02 | 北京京东振世信息技术有限公司 | 用于检索图像的方法和装置 |
CN113157954A (zh) * | 2021-04-20 | 2021-07-23 | 江西师范大学 | 一种基于跨域转换的草图交互式服装图像检索方法 |
CN113673635A (zh) * | 2020-05-15 | 2021-11-19 | 复旦大学 | 一种基于自监督学习任务的手绘草图理解深度学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528589A (zh) * | 2015-12-31 | 2016-04-27 | 上海科技大学 | 基于多列卷积神经网络的单张图像人群计数算法 |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
CN107748798A (zh) * | 2017-11-07 | 2018-03-02 | 中国石油大学(华东) | 一种基于多层视觉表达和深度网络的手绘图像检索方法 |
US20180165551A1 (en) * | 2016-12-08 | 2018-06-14 | Intel Corporation | Technologies for improved object detection accuracy with multi-scale representation and training |
-
2018
- 2018-10-19 CN CN201811222085.2A patent/CN109408655A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528589A (zh) * | 2015-12-31 | 2016-04-27 | 上海科技大学 | 基于多列卷积神经网络的单张图像人群计数算法 |
US20180165551A1 (en) * | 2016-12-08 | 2018-06-14 | Intel Corporation | Technologies for improved object detection accuracy with multi-scale representation and training |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
CN107748798A (zh) * | 2017-11-07 | 2018-03-02 | 中国石油大学(华东) | 一种基于多层视觉表达和深度网络的手绘图像检索方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263199A (zh) * | 2019-06-21 | 2019-09-20 | 君库(上海)信息科技有限公司 | 一种基于深度学习的手绘草图以图搜图方法 |
CN112307243A (zh) * | 2019-07-23 | 2021-02-02 | 北京京东振世信息技术有限公司 | 用于检索图像的方法和装置 |
CN112307243B (zh) * | 2019-07-23 | 2023-11-03 | 北京京东振世信息技术有限公司 | 用于检索图像的方法和装置 |
CN113673635A (zh) * | 2020-05-15 | 2021-11-19 | 复旦大学 | 一种基于自监督学习任务的手绘草图理解深度学习方法 |
CN113673635B (zh) * | 2020-05-15 | 2023-09-01 | 复旦大学 | 一种基于自监督学习任务的手绘草图理解深度学习方法 |
CN111899315A (zh) * | 2020-08-07 | 2020-11-06 | 深圳先进技术研究院 | 利用多尺度特征感知深度网络重建低剂量图像的方法 |
CN111899315B (zh) * | 2020-08-07 | 2024-04-26 | 深圳先进技术研究院 | 利用多尺度特征感知深度网络重建低剂量图像的方法 |
CN113157954A (zh) * | 2021-04-20 | 2021-07-23 | 江西师范大学 | 一种基于跨域转换的草图交互式服装图像检索方法 |
CN113157954B (zh) * | 2021-04-20 | 2022-04-26 | 江西师范大学 | 一种基于跨域转换的草图交互式服装图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Exploring a fine-grained multiscale method for cross-modal remote sensing image retrieval | |
CN109408655A (zh) | 结合带孔卷积与多尺度感知网络的手绘草图检索方法 | |
Leng et al. | 3D object retrieval with stacked local convolutional autoencoder | |
Zhang et al. | Weakly supervised learning based on coupled convolutional neural networks for aircraft detection | |
CN105574510A (zh) | 一种步态识别方法及装置 | |
Leng et al. | A 3D model recognition mechanism based on deep Boltzmann machines | |
CN104850825A (zh) | 一种基于卷积神经网络的人脸图像颜值计算方法 | |
CN105243154B (zh) | 基于显著点特征和稀疏自编码的遥感图像检索方法及系统 | |
CN105138672B (zh) | 一种多特征融合的图像检索方法 | |
Wulamu et al. | Multiscale road extraction in remote sensing images | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
CN104200240A (zh) | 一种基于内容自适应哈希编码的草图检索方法 | |
CN104268140B (zh) | 基于权重自学习超图和多元信息融合的图像检索方法 | |
CN105808757B (zh) | 基于多特征融合的bow模型的中草药植物图片检索方法 | |
CN104462199A (zh) | 一种网络环境下的近似重复图像搜索方法 | |
CN105868706A (zh) | 一种基于稀疏自编码的三维模型识别方法 | |
CN104156464A (zh) | 基于微视频特征数据库的微视频检索方法及装置 | |
CN107908646A (zh) | 一种基于分层卷积神经网络的图像检索方法 | |
Abdul-Rashid et al. | Shrec’18 track: 2d image-based 3d scene retrieval | |
CN109299303A (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
Ye et al. | Parallel multi-stage features fusion of deep convolutional neural networks for aerial scene classification | |
Sun et al. | A multi-level convolution pyramid semantic fusion framework for high-resolution remote sensing image scene classification and annotation | |
Chen et al. | Feature extraction method of 3D art creation based on deep learning | |
CN109145140A (zh) | 一种基于手绘轮廓图匹配的图像检索方法及系统 | |
CN113380360A (zh) | 一种基于多模态病历图的相似病历检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190301 |
|
WD01 | Invention patent application deemed withdrawn after publication |