CN109299303B - 基于可变形卷积与深度网络的手绘草图检索方法 - Google Patents
基于可变形卷积与深度网络的手绘草图检索方法 Download PDFInfo
- Publication number
- CN109299303B CN109299303B CN201811222402.0A CN201811222402A CN109299303B CN 109299303 B CN109299303 B CN 109299303B CN 201811222402 A CN201811222402 A CN 201811222402A CN 109299303 B CN109299303 B CN 109299303B
- Authority
- CN
- China
- Prior art keywords
- hand
- network
- drawn
- image
- drawn sketch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉与深度学习领域,具体公开了一种基于可变形卷积与深度网络的手绘草图检索方法,该方法包括如下步骤:S1、获取手绘草图与自然彩图数据库S2、将自然彩图通过边缘检测算法转换成边缘图S3、通过形态学操作对手绘草图和边缘图进行预处理S4、训练基于可变形卷积的深度网络S5、使用训练好的深度网络分别提取手绘草图与自然图像边缘图的深度特征S6、计算特征之间的相似度并返回检索结果。本发明方法的有益效果是:在传统神经网络中融入可变形卷积,能够打破标准卷积在手绘草图上的限制,提高网络对手绘图像提取特征的鲁棒性,减少特征冗余。本发明提出的网络结构能够大大提高手绘草图的检索精度。
Description
技术领域
本发明属于计算机视觉与深度学习领域,涉及基于可变形卷积与深度网络的手绘草图检索方法。
背景技术
手绘草图检索是基于内容的图像检索技术的一种,研究表明,手绘图片拥有与真实图片相同的机制来激活人类大脑皮层的视觉区域。与基于文本的图像检索以及传统的基于自然彩图的图像检索相比,手绘图具有易于获取、抽象概括性强、不受语言文化限制等优点,而且随着触屏手机、触屏平板电脑等可触屏设备的数量日益庞大,手绘图像的获取愈加容易,基于手绘草图的图像检索目前正得到越来越多的关注并具有广阔的应用前景。比如商业上在线商城使用手绘图检索商品,安防上使用画像追凶等等。
由于手绘草图与自然彩图在视觉上具有很大的鸿沟,可以认为他们来自不同的域,因此基于手绘草图的图像检索是一项具有挑战性的任务。目前手绘草图检索主流的思路是先通过边缘检测等算法将自然彩图转化成类手绘图,然后设计手工特征(HOG,ShapeContext,HELO等)或者使用神经网络提取深度特征来进行相似性度量,按相似性排序返回检索结果。
与自然图像相比,手绘图像没有丰富的背景、颜色与纹理信息,仅仅由表示物体轮廓与骨架的稀疏线条组成,也即,自然图像属于信息密集型图像,其每一个像素点都代表了图像的部分信息,而手绘草图仅仅在特定位置的像素(代表线条的像素)才会提供有效信息。在用深度神经网络提取特征时,当前主流的神经网络均使用规则卷积进行特征提取,规则卷积对于信息密集的自然图像非常有效,但是对于手绘草图而言会提取到大量的无用特征并且存在严重冗余,也即,传统的神经网络结构并不能很好地适用于手绘草图。
因此,有必要设计一种更适合于对手绘草图进行特征表达的网络结构,以提高手绘草图检索的精度。
发明内容
本发明的目的在于提出一种基于可变形卷积与深度网络的手绘草图检索方法,其采用如下方案:
1、基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,包括以下步骤:
s1、获取待检索的手绘图像和数据库中的自然图像;
s2、通过边缘检测算法对自然图像进行边缘检测得到类手绘图,即边缘图;
s3、通过形态学操作分别对手绘草图和边缘图进行预处理;
s4、训练基于可变形卷积的深度网络;
s5、利用训练后的深度网络分别提取手绘图像和边缘图的深度特征;
s6、对提取到的手绘草图特征和边缘图特征进行相似度计算并得到检索结果。
2、步骤s1中,采用的手绘图像和自然图片来自于公开数据集Flickr15k,该数据集是用于手绘草图检索的权威数据集,包含330张由非专业的绘图人员所绘制的手绘草图,以及14490张彩色自然图片。
3、步骤s2中,通过边缘检测算法,例如Berkeley边缘检测算法将自然彩图转换为边缘图,即类手绘图。
4、步骤s3中,通过图像处理中的形态学操作对手绘图与边缘图进行预处理以减少噪声干扰,进一步包括:
s31、通过膨胀操作对手绘草图进行处理,凸显线条轮廓,增强手绘草图的结构性;
s32、通过腐蚀操作对自然图像的边缘图进行处理,消除在边缘检测过程中残存在背景区域的孤立点。
5、步骤s4中,设计并训练基于可变形卷积的深度网络,进一步包括:
s41、采用在ImageNet数据集上训练好的VGG19网络为基本网络结构,该网络共包含5个block,将每个block的第一个卷积层,即conv1_1、conv2_1、conv3_1、conv4_1、conv5_1卷积层由原来的标准卷积修改为可变形卷积,可变形卷积核尺寸与原卷积核尺寸相同;
s42、使用在ImageNet上训练得到的权重初始化神经网络,其中用于学习可变形卷积偏移量参数的卷积层权重初始化为零,损失函数采用交叉熵损失函数,使用手绘草图与自然图像边缘图训练网络直至收敛。
6、步骤s5中,修改步骤s4训练好的神经网络结构并用其分别提取手绘草图与自然图像边缘图的深度特征,进一步包括:
s51、去掉s4中训练得到的深度神经网络最后的几个全连接层,即fc1,fc2以及最后的Softmax分类层,并添加一层全局最大池化层,从而得到一个新的特征提取网络;
s52、以s4中训练得到的网络权重初始化步骤s51中修改得到的特征提取网络,分别将手绘草图与自然图像边缘图输入特征提取网络,以网络最后全局最大池化层的输出作为特征向量,该特征向量为512维。
7、步骤s6中,对于给定手绘图像,通过计算手绘图像特征向量和自然图片特征向量之间的相关系数来表示二者之间的相似度,相关系数越大表示越相似,按相似度排序得到最终的检索结果。
本发明具有如下优点:
本发明提出一种基于可变形卷积与深度网络的手绘草图检索方法,针对传统卷积神经网络更适合自然彩图而不适合手绘草图的缺点,提出一种新的深度卷积网络,引入可变形卷积,打破了传统卷积只能在特定矩形框范围内采样的特点,使网络能够在重要位置,即包含手绘线条的位置进行选择性采样,从而减少无关背景像素的干扰,增强了所提取深度特征的鲁棒性并减少了特征冗余。由于是在自然图像数据集上训练得到的网络的基础上进行修改,既能最大程度上保留网络对图像的特征表达能力,又能使网络很好地适应手绘草图。
本发明所提出的检索方法能够有效提高手绘草图的检索精度。
附图说明
图1为本发明中基于可变形卷积与深度网络的手绘草图检索方法的流程图;
图2为本发明中深度网络的训练模式结构图;
图3为本发明中特征提取网络的结构图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
结合图1、图2和图3所示,基于可变形卷积与深度网络的手绘草图检索方法,包括如下步骤:
s1、获取待检索的手绘图像和数据库中的自然图像
本发明的方法适用于所有的自然图片库和手绘图像数据集,其中,本发明中的训练数据来源于公开数据集Flickr15k图像数据集,因为此数据集是目前该领域被大家工人同认可的,并且该数据集同时包含了大量手绘图像和自然图片数据。
s2、通过边缘检测算法对自然图像进行边缘检测得到类手绘图,即边缘图
s3、通过形态学操作分别对手绘草图和边缘图进行预处理。
为了突出显著特征并减少背景噪声,需要对手绘草图与边缘图进行形态学处理。
s31、通过膨胀操作对手绘草图进行处理,凸显线条轮廓,增强手绘草图的结构性;
s32、通过腐蚀操作对自然图像的边缘图进行处理,消除在边缘检测过程中残存在背景区域的孤立点。
s4、训练基于可变形卷积的深度网络
结合图2,本发明中采取的基础网络结构为VGG19,因为其具有强大的特征表达能力与迁移学习能力。但是由于VGG19是在ImageNet自然图像数据集上训练完成,并不完全适用与手绘草图,而且其采用的标准卷积本发明通过以下步骤修改VGG19使其对手绘图有更强的特征表达能力。
s41、VGG19网络共包含5个block,将每个block的第一个卷积层,即conv1_1、conv2_1、conv3_1、conv4_1、conv5_1卷积层由原来的标准卷积层修改为可变形卷积层。即在该层之外并行连接一个额外卷积层学习可变形卷积核的偏移量参数。修改后的可变形卷积层与原卷积层采用尺寸相同的卷积核,即3x 3卷积核。
可变形卷积能够在一定程度上打破传统标准卷积只能通过固定大小矩形框进行滑窗采样的局限,通过学习到的偏移量参数在全图范围内有选择地进行采样,对于手绘草图而言,其优势在与可以重点关注线条所在区域,获取更加鲁棒的特征表达。
s42、使用在ImageNet上训练得到的权重初始化修改后的神经网络,其中用于学习可变形卷积偏移量的卷积层参数初始化为零,损失函数采用交叉熵损失函数,使用手绘草图与自然图像边缘图训练网络直至收敛。
s5、用训练好的深度网络分别提取手绘图像和边缘图特征
结合图3,修改训练好的深度卷积网络并用于对手绘草图与自然图像边缘图进行特征提取。
s51、由于手绘草图线条稀疏,其结构信息尤为重要,而全连接层更偏向于高层语义信息,会在很大程度上丢失结构位置信息,为此,本发明在特征提取阶段去掉网络在训练阶段使用的全连接层,并在网络最后一个block之后添加一层能够在一定程度上保留位置信息的全局最大池化层。
s52、使用修改后的特征提取网络分别对手绘草图与自然图像边缘图进行特征提取,由于网络经过最后一次卷积后得到512张特征图,因此经过全局最大池化后得到的特征向量为512维。
s6、对提取到的手绘图特征和边缘图特征进行相似度计算并得到检索结果。
通过特征向量之间的相关系数表示彼此间的相似度,对于给定的手绘草图,计算其特征向量与数据库中所有自然图像边缘图所对应特征向量之间的相似度,按相似度排序得到检索结果。
当然,本发明并不限于上述列举的实例,应当说明的是,任何熟悉本领域的技术人员在本说明书的指导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围内,理应受到本发明的保护。
Claims (6)
1.基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,包括以下步骤:
s1、获取待检索的手绘图像和数据库中的自然图像;
s2、通过边缘检测算法对自然图像进行边缘检测得到类手绘图,即边缘图;
s3、通过形态学操作分别对手绘草图和边缘图进行预处理;
s4、训练基于可变形卷积的深度网络,进一步包括:
s41、采用在ImageNet数据集上训练好的VGG19网络为基本网络结构,该网络共包含5个block,将每个block的第一个卷积层,即conv1_1、conv2_1、conv3_1、conv4_1、conv5_1卷积层由原来的标准卷积修改为可变形卷积,即在每层之外并行连接一个额外卷积层学习可变形卷积核的偏移量参数; 修改后的可变形卷积层与原卷积层采用尺寸相同的卷积核,即3x3卷积核;
s42、使用在ImageNet上训练得到的权重初始化神经网络,其中用于学习可变形卷积偏移量参数的卷积层权重初始化为零,损失函数采用交叉熵损失函数,使用手绘草图与自然图像边缘图训练网络直至收敛;
s5、利用训练后的深度网络分别提取手绘图像和边缘图的深度特征;
s6、对提取到的手绘草图特征和边缘图特征进行相似度计算并得到检索结果。
2.根据权利要求1所述的基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,所述步骤s1中,采用的手绘图像和自然图片来自于公开数据集Flickr15k,该数据集是用于手绘草图检索的权威数据集,包含330张由非专业的绘图人员所绘制的手绘草图,以及14490张彩色自然图片。
3.根据权利要求1所述的基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,所述步骤s2中,通过边缘检测算法,例如Berkeley边缘检测算法将自然彩图转换为边缘图,即类手绘图。
4.根据权利要求1所述的基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,所述步骤s3中,通过图像处理中的形态学操作对手绘图与边缘图进行预处理以减少噪声干扰,进一步包括:
s31、通过膨胀操作对手绘草图进行处理,凸显线条轮廓,增强手绘草图的结构性;
s32、通过腐蚀操作对自然图像的边缘图进行处理,消除在边缘检测过程中残存在背景区域的孤立点。
5.根据权利要求1所述的基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,所述步骤s5中,修改步骤s4训练好的神经网络结构并用其分别提取手绘草图与自然图像边缘图的深度特征,进一步包括:
s51、去掉s4中训练得到的深度神经网络最后的几个全连接层,即fc1,fc2以及最后的Softmax分类层,并添加一层全局最大池化层,从而得到一个新的特征提取网络;
s52、以s4中训练得到的网络权重初始化步骤s51中修改得到的特征提取网络,分别将手绘草图与自然图像边缘图输入特征提取网络,以网络最后全局最大池化层的输出作为特征向量,该特征向量为512维。
6.根据权利要求1所述的基于可变形卷积与深度网络的手绘草图检索方法,其特征在于,所述步骤s6中,对于给定手绘图像,通过计算手绘图像特征向量和自然图片特征向量之间的相关系数来表示二者之间的相似度,相关系数越大表示越相似,按相似度排序得到最终的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811222402.0A CN109299303B (zh) | 2018-10-19 | 2018-10-19 | 基于可变形卷积与深度网络的手绘草图检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811222402.0A CN109299303B (zh) | 2018-10-19 | 2018-10-19 | 基于可变形卷积与深度网络的手绘草图检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299303A CN109299303A (zh) | 2019-02-01 |
CN109299303B true CN109299303B (zh) | 2022-06-17 |
Family
ID=65158261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811222402.0A Active CN109299303B (zh) | 2018-10-19 | 2018-10-19 | 基于可变形卷积与深度网络的手绘草图检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299303B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263199A (zh) * | 2019-06-21 | 2019-09-20 | 君库(上海)信息科技有限公司 | 一种基于深度学习的手绘草图以图搜图方法 |
CN110322529B (zh) * | 2019-07-12 | 2023-04-18 | 电子科技大学 | 一种基于深度学习辅助艺术绘画的方法 |
CN110580302B (zh) * | 2019-08-13 | 2022-12-02 | 天津大学 | 一种基于半异构联合嵌入网络的草图图像检索方法 |
CN113673635B (zh) * | 2020-05-15 | 2023-09-01 | 复旦大学 | 一种基于自监督学习任务的手绘草图理解深度学习方法 |
CN111738330A (zh) * | 2020-06-19 | 2020-10-02 | 电子科技大学中山学院 | 一种手绘临摹作品的智能自动化评分方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
CN107748798A (zh) * | 2017-11-07 | 2018-03-02 | 中国石油大学(华东) | 一种基于多层视觉表达和深度网络的手绘图像检索方法 |
CN108009286A (zh) * | 2017-12-25 | 2018-05-08 | 合肥阿巴赛信息科技有限公司 | 一种基于深度学习的草图检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101159064B (zh) * | 2007-11-29 | 2010-09-01 | 腾讯科技(深圳)有限公司 | 画像生成系统以及按照图像生成画像的方法 |
-
2018
- 2018-10-19 CN CN201811222402.0A patent/CN109299303B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN107220277A (zh) * | 2017-04-14 | 2017-09-29 | 西北大学 | 基于手绘草图的图像检索算法 |
CN107748798A (zh) * | 2017-11-07 | 2018-03-02 | 中国石油大学(华东) | 一种基于多层视觉表达和深度网络的手绘图像检索方法 |
CN108009286A (zh) * | 2017-12-25 | 2018-05-08 | 合肥阿巴赛信息科技有限公司 | 一种基于深度学习的草图检索方法 |
Non-Patent Citations (1)
Title |
---|
基于手绘草图的图像检索技术研究进展;辛雨璇 等;《智能系统学报》;20150430;第10卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109299303A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299303B (zh) | 基于可变形卷积与深度网络的手绘草图检索方法 | |
Kumar et al. | Object-based image retrieval using the u-net-based neural network | |
Li et al. | Deepsaliency: Multi-task deep neural network model for salient object detection | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN111259786A (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN109086777B (zh) | 一种基于全局像素特征的显著图精细化方法 | |
Huang et al. | Hand gesture recognition with skin detection and deep learning method | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN110399840B (zh) | 一种快速的草坪语义分割及边界检测方法 | |
CN110188802B (zh) | 基于多层特征图融合的ssd目标检测算法 | |
WO2021012493A1 (zh) | 短视频关键词提取方法、装置及存储介质 | |
Wu et al. | Text Detection and Recognition for Natural Scene Images Using Deep Convolutional Neural Networks. | |
Hu et al. | RGB-D image multi-target detection method based on 3D DSF R-CNN | |
Li et al. | Superpixel segmentation based on spatially constrained subspace clustering | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
CN111666813A (zh) | 一种基于非局部信息的三维卷积神经网络的皮下汗腺提取方法 | |
El Abbadi | Scene Text detection and Recognition by Using Multi-Level Features Extractions Based on You Only Once Version Five (YOLOv5) and Maximally Stable Extremal Regions (MSERs) with Optical Character Recognition (OCR) | |
CN111985487A (zh) | 一种遥感影像目标提取方法、电子设备及存储介质 | |
Hou et al. | BFFNet: a bidirectional feature fusion network for semantic segmentation of remote sensing objects | |
Ling et al. | A facial expression recognition system for smart learning based on YOLO and vision transformer | |
CN111144469A (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
Yang et al. | Research on human motion recognition based on data redundancy technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |