CN106126581B

CN106126581B - 基于深度学习的手绘草图图像检索方法

Info

Publication number: CN106126581B
Application number: CN201610442187.XA
Authority: CN
Inventors: 张玥杰; 黄飞; 金城; 张涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2016-06-20
Filing date: 2016-06-20
Publication date: 2019-07-05
Anticipated expiration: 2036-06-20
Also published as: CN106126581A

Abstract

本发明属于多媒体信息检索技术领域，具体为基于深度学习的手绘草图图像检索方法。本发明利用边缘轮廓检测技术和非极大值抑制技术实现彩色图像到类草图图像的转换，然后利用深度学习技术来构造查询草图和类草图的深度特征区分性特征表示，这种深度特征融合了图像的高层语义特征和底层视觉特征；这种深度特征在草图检索中表现得更有区分性。通过深度挖掘初次检索结果的视觉信息，抑制检索结果排序靠前的不相关图像，返回更相关的结果给用户。本方法准确性高，适应性强。对于在大规模图像数据基础上，考虑草图的语义信息而进行高效的图像检索具有重要意义，能够减小手绘草图的模糊性的影响，提高检索相关性，增强用户体验，在多媒体图像检索领域具有广泛的应用价值。

Description

基于深度学习的手绘草图图像检索方法

技术领域

本发明属于多媒体信息检索技术领域，具体涉及基于深度学习的手绘草图图像检索方法。

背景技术

随着图像采集设备如手机、数码相机的普及以及互联网技术的发展，数字图像在过去几十年间呈爆炸增长趋势，一些图像分享网站，如Flickr，每日图像上传数量达到百万级。如何有效进行图像查找已经成为学术界和工业界的热点研究对象，许多图像检索系统也由此应运而生。早期的图像检索技术根据输入类型不同主要分为两类，第一种是基于文本的图像检索技术(Text-based Image Retrieval, TBIR)，第二种是基于内容的图像检索(Content-based Image Retrieval,CBIR)。

基于文本的图像检索技术是指根据用户输入的文本来实现检索，这种方式比较直观准确地反映了用户的真实需求。这些文本包括图像的属性，名称，拍摄地点，作者等。这种检索方式需要用户能精确地用文本表达出真实意图，同时数据库中的图像需要有相应的图像标注。而实际上不同个体对某种事物的主观理解不同，反映到文本表达也有所差别。另外依靠人工标注海量图像几乎是不可能的。一种更为有效的图像检索技术——基于内容的图像检索技术越来越受到大家的关注。基于内容的图像检索技术就是根据图像本身作为检索输入，检索出相似的图像。它往往利用图像本身的内容信息作为匹配特征，例如颜色、纹理、轮廓等。与基于文本的图像检索技术相比，基于内容的图像检索技术比较好地直接使用了图像本身包含的客观视觉特征。但是需要寻找与想要查询的图像相似的图像作为查询输入往往是非常困难的。对于大众来说，如果能用简单勾勒出的线条图像作为检索输入更为简单方便，这些需求促使了基于手绘草图的图像检索技术(Sketch-based Image Retrieval,SBIR)的发展。

基于草图的图像检索技术是根据用户手绘的线条图像作为查询输入，检索包含相似线条轮廓的彩色图像。但是草图只包含了物体粗略的轮廓信息，而彩色图像拥有更丰富准确的信息，例如颜色、纹理等，因此将草图中的线条图像与彩色图像进行匹配是非常困难的任务。若要构建有效的基于草图的图像检索系统，以下两个方面的问题需要同时被很好地解决：

1、草图和彩色图像是两种不同的视觉表达，草图包含目标物体的主要轮廓，手绘草图具有一定的主观性；彩色图像是目标物体的客观表达，包含更加准确丰富的信息。如何消除这两种表达形态的视觉鸿沟，建立草图与目标彩色图像之间的关联？

2、基于有效的特征表达，如何建立更加合理的匹配方式，使得查询草图获得更为相关的检索结果？

为解决第一个问题，最重要的就是充分利用草图的视觉信息和语义信息，探索有效的特征表达，更为准确和全面地描述稀疏的草图。

为解决第二个问题，最重要的是能够建立一个更加鲁棒的匹配算法，不仅很好的匹配相似的草图和目标彩色图像，还能深度挖掘初次检索结果的视觉信息，对初次检索结果进行重排序，返回更为相关的图像。

严格来说，基于草图的图像检索是基于内容的图像检索的一个分支。当前已有一些研究者对基于内容的图像检索提出不同的建模方法和匹配算法，从特征表示层面来看主要分为两个流派，一种是基于传统的特征表示方法，另一种是基于深度学习的特征表示方法。

（1）传统的特征表达方法

草图表示建模方法最早追溯于1990年。早期的研究主要使用预定义的纹理和颜色信息描述草图，然后使用简单的匹配方式。最近几年视觉词袋模型(Bag of Visual Words,BoVW)越来越多被应用到草图检索中。与传统的词袋模型(Bag of Words,BoW)在文本处理中相似，视觉词袋模型使用k-means聚类得到图像的视觉词典，然后将每张图片投射到固定长度的视觉词典得到一个视觉词汇的统计直方图表示。通过构建每一张图像的统计直方图表示，越相似的图像的直方图分布就越接近，反之，越不相似的图像的直方图分布就相差较大。这种相似度可以直接通过直方图交叉方法求出两种图像的距离来表现。

近几年的研究重点是如何构建有效的视觉单词。工作[15]探索了经典的SIFT和HOG特征作为图像的局部特征表示，构建视觉词汇单元，并且提出了GF-HOG局部特征描述子，可视为HOG的改进版本，然后将局部特征嵌入BoVW框架获得图像的整体特征表示。工作[13]改进了现有的两种特征描述子，称为Spark特征和SHoG特征，并在一个大规模数据集上取的了很好的检索效果。

最近，一些更有区分性的特征和匹配方法被提出。传统的草图检索默认线条为统一颜色，工作[5]扩充草图的颜色信息，用不同的颜色线条表达目标物体的不同颜色的轮廓，并且提出一种新颖的倒排索引加速大规模的图像检索。工作[16]综合了草图的兴趣点的局部结构信息和全局分布信息作为特征描述子，然后使用一种双向的分块匹配的方法。即按照兴趣点的分布密度将整个图像分为一个个具体的区域，然后分别计算对应区域的相似度，最后综合每个区域的相似度得到整幅图像的相似度。工作[20]改进了传统的匹配算法，加入重排序的步骤，深度挖掘初次检索结果中的图像信息，使得最终返回给用户更相关的检索结果。

（2）基于深度学习的特征表达方法

随着深度学习在图像分类任务上的成功，一些人开始探索深度学习模型在图像检索上面的效果。一些深度分类的模型转移到基于内容的图像检索上面也能取得很好的效果。其中工作[2]引入了AlexNet模型到图像检索中，分别抽取网络的最后几层的输出作为特征表示并进行比较。然后在与查询图像相似的数据集上重新训练了AlexNet模型做同样的特征抽取和比较，发现重新训练的模型取得更好效果。重新训练的前提是需要有大量的与查询图像类似的训练数据。工作[19]更进一步，直接通过卷积神经网络学习图像的二进制哈希编码，这种做法的优点是大大加速了查询速度。工作[22]探索了在ImageNet上训练的AlexNet的不同层的输出作为特征表示对检索结果的影响，结论是随着网络的层数加深，检索效果往往越差。主要原因是深层的特征损失了图像的局部细节信息，而这些信息在图像检索非常重要。

虽然深度学习在基于内容的图像检索上取的了一些成功，但是它在草图检索上鲜有被尝试。主要的原因是在ImageNet等公开彩色图像数据集上训练的模型不能直接应用于草图上，并且缺少大量的可用于训练的草图样本。

通过以上分析可以看出，当前方法在草图检索上都取得一些进展，然而以上所有方法仍未充分考虑以下三个方面所带来的影响：

（1）减小草图与彩色图像的视觉鸿沟——大多数现有的草图检索算法通常只关注草图的特征表示以及检索效率，并没有深入考虑如何缩小草图与彩色图像的视觉鸿沟。普遍的做法是使用Canny等边缘检测算法对彩色图像进行边缘检测后的类草图图像参与后续的步骤。这种做法带来的后果是使得这些类草图图像带有大量的噪声，极大的影响了检索效果。一个有效的彩色图像到类彩图图像的转换算法能很好的弥补这个缺陷，减少不重要的边缘信息带来的影响。

（2）充分挖掘草图的多层次信息——多数现有的草图检索技术只考虑草图的视觉信息，忽略了草图的高层的语义信息。研究的重点集中于构建有效的视觉特征表示方法表达草图中线条的整体结构，减小用户手绘线条的模糊性。但是仅仅依靠视觉特征不能很好排除噪声和线条扭曲带来的影响，尤其草图匹配对噪声非常敏感。因此需要充分利用草图的多层次信息，在原有的底层视觉信息基础上加入高层语义信息，融合得到更有区分性的深度特征表示是非常重要的。

（3）深度挖掘检索结果，提高检索准确率——在抽取了图像的特征后，多数现有的草图检索技术通常直接将查询草图与数据库中的图像计算相关性进行匹配，然后按照相关性分数排序返回给用户。然而，大多数检索中，初次排序结果中往往伴有与查询不相关的图像，它们有时占据较高的排序位置，极大地影响了用户体验。简单匹配方式无法避免以上问题。因此，需要在原有的匹配算法上加入重排序的步骤，通过深度挖掘初次排序结果中的图像视觉信息，更新相关性分数，使得与查询草图相关的图像排序得到提升，反之，不相关的检索结果得到抑制。

因此，非常有必要借鉴当前已有的相关成熟技术，同时从各方面考虑以上问题，更加全面地分析草图检索各个环节的难点和技术缺陷。本发明就是由此激发，从局部到整体，设计一种新颖的技术框架（包括三个主要算法）涵盖，类草图图像的生成、深度区分性的特征表示、基于重排序的匹配算法，从而建立有效的草图检索系统，最终为多媒体图像检索性能进行改进。

发明内容

本发明的目的在于提出一种基于深度学习的手绘草图检索方法，以提高基于草图的图像检索性能。

本发明首先提出一个新颖的基于草图的图像检索模型，该模型深度发掘草图的底层视觉特征和高层语义特征，融合两种特征得到更有区分性的深度特征，然后对初次检索结果进行建模，更新检索结果中的图片与查询草图的相关性进行重排序，利用所构建模型，能够有效促进提高草图检索的准确率，提升用户体验。该模型主要包括以下几个部分：

（1）类草图图像的生成(Sketch-like Image Transformation)。为了减小草图与彩色图片的视觉鸿沟，需要先将原彩色图片转换成草图形态，即类草图图像。采用一种两步转换的方法，第一步检测出彩色图像的粗略轮廓，第二步过滤出重要的轮廓，抑制不重要的边缘和孤立的噪声点；

（2）深度区分性特征表达构建(Deep Discriminative Representation)。针对查询草图和数据库中的类草图图像，利用深度学习技术构建有区分性的深度特征表达，它同时融合了图像的底层视觉特征和高层的语义特征。其中，底层的视觉特征用于更好的描述图像的视觉内容，尤其是局部的细节信息；而高层的语义特征可视为图像全局的特征表示，用于描述图像的语义的全局信息。比如，用户手绘草图局部有扭曲等表达不明确处，但是整体的轮廓结构是确定的，依然能够被肉眼识别，也就是说高层语义信息对局部细节的扭曲是不敏感的。与传统的单纯考虑视觉特征相比，这种融合了语义信息和视觉信息的深度特征，能够更深层次地挖掘抽象的草图的区分性信息；

（3）基于重排序的匹配优化(Re-ranking Optimization)。实际检索结果中往往混杂有很多不相关的图像。利用检索结果的视觉特征对初次检索结果进行重排序，提高检索结果的相关性，得到一个让用户满意的检索结果。

较之于当前已有的草图检索技术而言，本发明所提出的方法在应用中存在着两大优势，即准确率高、适应性强。其准确性体现在利用深度区分性特征代替传统的视觉特征，能更深层次挖掘草图的多层次信息，能够更好地消除用户手绘草图的模糊性，检索准确率远远高于当今的传统的视觉特征。利用一种新颖的重排序机制能够很好的抑制检索结果中的不相关图像，返回给用户较为一致的相关图像。适应性强体现在本文提出的特征提取方法和匹配机制，比当前的现有相关方法能够更好的适用于大规模和小规模草图数据，并且本发明并不受限于草图检索，也适用于一般的基于内容的彩色图像检索。

本发明提供的基于深度学习的草图检索方法，具体步骤如下：

（1）类草图图像的生成：多从媒体数据集采取的彩色图像，采用两步变换的方法将其转换成类草图图像；其中，第一步采用边缘检测算法检测出彩色图像的粗轮廓，第二步使用非极大值抑制方法提取重要的轮廓，抑制非重要的轮廓，排除噪声点；

（2）提取图像的多层次特征：利用深度学习的方法提取查询草图和类草图图像的两种特征：图像的高层语义特征和底层的视觉特征，即使用重新训练的CNN模型提取语义特征，使用CKN模型和BoVW框架来抽取图像的局部视觉特征；

（3）构建图像的深度区分性特征：基于步骤（2）中提取的图像的两种层次特征，使用双峰深度自编码器模型深度挖掘二者包含的区分性信息，融合得到图像最终的低维的特征向量表示；

（4）在线的初次检索：在初次检索中，首先将查询草图与数据库中类草图图像的图像距离度量方法转换成相似度度量方法，然后依次计算查询图像与每一张类草图图像特征的相似度，按照相似度由高到低进行初次排序；

（5）对初检索结果的重排序：首先根据初次检索结果前1000张图像作为候选集，为充分利用检索结果与查询图像的的视觉相似性，利用K-means聚类算法对候选集的局部视觉特征进行聚类，统计每一个聚类结果的可信度；然后利用每个聚类的可信度分别去重新更新图像的相似分数，得到候选集中每一张图像与查询草图的最终相似度，然后进行排序，返回给用户。

下面对以上各步骤进行详细的描述：

步骤（1）中，所述利用两步转换的方法将多媒体数据集中的彩色图像转换成类草图图像，以减小查询草图与彩色图像之间的视觉鸿沟，具体过程如下：

第一步，对于给定彩色图像，首先利用SE 边缘检测算法检测出图像的粗略轮廓：SE边缘检测算法假设自然界中的图像的局部边缘结构是可预测的，即可通过大量图片统计出来，利用改进的随机森林分类器训练出彩色图像局部区域与对应的边缘结构的分类器模型；然后使用该分类器模型分别预测彩色图像中每一个图像局部区域的边缘结构图；最终，集合图像每一图像局部区域的边缘图得到彩色图像整体的边缘图，该边缘图保留了图像的主要轮廓信息，但是包含很多噪声点和对检索无益的非重要线条。

具体来说，将原彩色图片按照一定规则分为一个个局部的小区域{D₁,D₂,D₃...D_n}，每个局部区域都有对应的正确的边缘结构{Y₁,Y₂,Y₃...Y_n}，称为结构标签。利用大量的图像区域D_i和对应的结构标签Y_i作为训练样本训练随机森林分类器。由于随机森林只能使用离散标签参与训练，所以先需要将结构标签做两步映射转化为离散标签{L₁,L₂,L₃...L_n}。第一步映射在每个结构标签内随机选取256对像素点，检查每一对像素点的像素值是否相等（通常结构标签的像素值为0或1），形成一个256维的二值向量表示。然后使用主成分分析(Principal Component Analysis,PCA)进一步降低维度得到中间标签空间Z。第二个映射使用k-means将Z空间下所有数据进行聚类得到固定个数的类别，依次编号每一个类别为离散标签{C₁,C₂,C₃...C_n}。之后使用图片区域{D₁,D₂,D₃...D_n}和离散标签{C₁,C₂,C₃...C_n}训练随机森林。具体类草图转换时，先将彩色图片按照同样的规则分为小区域，使用训练好的随机森林预测每一个区域的边缘结构，然后整合每个区域预测的边缘结构得到整体图像的边缘图像，这些边缘图像保留了原图像的主要的轮廓信息。

第二步，对于上面步骤检测出的边缘图像，利用一种非极大值抑制的方法保留重要的轮廓，抑制不明显的轮廓和噪声点；用P表示由SE边缘检测算法检测出来的粗略边缘图像，I表示原彩色图像；首先计算出边缘图像P每一个像素点的梯度得到梯度图像GP，设置(x,y)为梯度图像GP中最大梯度像素点，GP(x,y)表示(x,y)处的梯度值，max(GP(:,:))表示当前最大的梯度值，然后执行下面的循环：

当max(GP(:, :))>th2;

当 GP(x, y)>th1;

步骤1:找到以(x, y)为中心的(5╳5)邻域Ω内除(x, y)以外的最大梯度值的坐标集Φ；

步骤2: 从坐标集Φ中选取离(x, y)最近的点(x’, y’)作为下一次循环的候选点，连接(x, y)和(x’, y’)，抑制梯度图像GP中坐标集Ω中的其它像素点；

步骤3: 更新 (x, y)=(x’, y’)，进行下一轮循环；

结束；

设置 (x, y) 为GP中全局的最高梯度值的坐标点；

结束；

由此得到原彩色图像I的类草图图像GP。其中th1和th2 分别是控制类草图图像中线条长度和线条数量的经验值，在迭代之前确定后就保持不变，为了保证能够保存主要的轮廓和抑制次要轮廓。在梯度图像GP中，th1=平均像素值，th2= 0.4*最高像素+0.6*最低非零像素值。

步骤（2）中，所述提取查询草图和类草图图像的两种特征：图像的高层语义特征和底层的视觉特征，其中：

对于高层语义特征，使用重新训练的AlexNet模型抽取语义特征，具体过程为：首先利用步骤（1）中得到的类草图图像和它们的标注信息重新训练AlexNet模型；之后，利用训练好的AlexNet模型提取草图和类草图的语义特征，这里选取AlexNet模型的最后一层的1000维特征向量作为语义特征。

具体来说，对于给定草图或类草图图像，利用AlexNet模型提取高层语义特征。首先将图像转换为固定尺寸227*227作为卷积网络的输入。在训练AlexNet模型时，仅使用步骤（1）生成的类草图作为训练样本，使用每一张图像的标注作为监督信息，这里每张图像只考虑一个主要的标注。原AlexNet由5个卷积层(conv1~conv5)和3个全连接层(fc6~fc8)组成，训练时保持原来的网络结构。在提特征阶段，抽取卷积网络的最后一层，即fc8层的1024维输出作为图像的深层语义特征。相对于传统的视觉特征，用卷积神经网络提取的深层次特征接近于图像的语义信息，在一定程度上缓解了草图的视觉鸿沟问题，减少的用户手绘水平有限造成的噪声、扭曲等影响。

对于底层视觉特征，使用CKN模型和BoVW模型抽取图像的局部视觉特征，具体过程为：给定类草图图像或查询草图，以边缘点为中心取(16x16)的图像区域，利用CKN模型提取每一个图像区域的局部的视觉特征，于是每一个图像区域得到一个向量的特征表示；然后使用K-means算法，将所有的图像区域特征聚类成固定数量的类别，每个类别的中心作为一个独立的视觉单词，所有的类别中心点构成视觉词典；然后将图像的每一个局部区域的特征映射到视觉词典，得到图像全局的视觉词汇直方图表示。

具体来说，对于草图或类草图图像，定义非零像素点为兴趣点。利用CKN模型提取每个兴趣点的局部特征。CKN模型时一种非常有效的局部特征的学习算法，它是建立在高斯核函数的基础上，通过随机梯度下降算法对核函数近似估计。它的训练过程与卷积神经网络相似，并且与卷积神经网络有相同的参数。该模型能够很好地捕捉图像的局部结构特征，在mnist手写数字识别的任务中取得了与卷积神经网络相匹配的效果。以单层的CKN模型为例，假设M和M′是两个尺寸为(m×m)图像区域,Ω是一系列坐标，和分别是两个图像区域的特征图，定义两个区域的高斯核函数为：

（1）

其中，α和β是两个平滑参数。上面的核函数能够很好地表现局部平移不变性，因此非常适合用于编码稀疏的草图的局部结构信息。但是这种核函数的计算代价是非常高的，故采取一种近似的求法。其中，由以下公式计算：

(2)

(3)

其中，公式（3）类似于卷积神经网络中的卷积操作和非线性变换，公式（2）类比于带高斯权重的池化操作。采用随机梯度下降算法优化参数和，目标函数如下：

（4)

其中，n为训练样本的数量，为卷积滤波器的个数。在实际的特征提取过程中，直接从公式（2）求得的作为输出特征。多层的CKN与卷积神经网络结构类似，由上面的操作一层一层叠加，底层的输出作为上层的输入。

在抽取图像每个兴趣点周围区域的CKN特征作为该兴趣点的特征表示。假设每个兴趣点作为一个视觉单词，使用BoVW模型统计得到兴趣点的视觉词典。具体做法是将大量视觉词汇通过k-means聚类到固定类别，类别数就是词典的大小，每个类别中心作为一个视觉单词。然后将图像的所有的兴趣点投射到词典得到视觉单词的统计直方图，作为图像的底层视觉特征表示。

步骤（3）中，所述构建图像的深度区分性特征：

通过上面的步骤得到图像的高层语义特征和底层视觉特征，它们分别表达了图像不同方面的信息。相较于直接粗暴地串联两种特征，本发明利用双峰深度自编码器更深层次挖掘两种特征的相互关系，融合得到更有区分力的深度区分性特征。具体来说，假设和分别表示视觉特征和语义特征。训练时，与传统的自编码器相似，分为编码和解码两个阶段。

编码阶段，原来的较高维度的两种特征被编码到一个低维的中间层特征表示，使得尽可能包含原来两种特征的主要信息。编码过程如下：

(5)

其中，是非线性转换函数，如ReLU或sigmoid函数，和分别是两个隐藏层的输出表示。

在解码阶段，目标是从中尽最大程度重构原来的特征信息，过程如下：

(6)

为了实现最大程度的重构，需要在训练双峰深度自动编码器时优化以下目标函数：

（7）

其中，是控制两种特征重构比例的参数，第一个加数是n个训练样本的重构平方差损失函数，第二个加数是带权重的正则化项，减小过拟合和保持训练的平滑性。

步骤（4）中，所述初次检索的过程中，首先将查询草图与类草图图像的距离度量转换为相似度的度量，方便后续的重排序操作；假设表示图像特征间的欧式距离，Sim表示图像间的相似度，转换公式如下：

（8）

相似度越高，表示当前的图像与查询草图越像，然后将数据库中的图像按照相似度从大到小排序得到初始的检索结构。

步骤（5）中，所述对初检索结果的重排序，具体过程为：

假设给定初次的检索结果列表，取前1000张图像作为重排序的候选集，由于每一张原图像对应于一张类草图图像，取每一张类草图图像的BoVW-CKN特征作为聚类特征，使用k-means算法将候选集聚成k个类{C ₁, C ₂, …, C _k}，每个类别包含了局部视觉相似的图像；目标是使得与查询图像视觉相似的类别C _i中的图像的检索相似度得到提升，定义每个类别有一个查询可信度r(C _i)，反映了类别C _i中图像对检索的贡献大小；查询可信度定义如下：

（9）

其中，表示查询草图与类草图图像的相似度，这里相似度的计算只使用图像的底层视觉特征，表示类中图像的个数，norm是所有类别的查询可信度的求和，作为归一化项；候选集中的图片根据所在的类别的查询可信度进行更新，更新规则如下：

(10)

其中，Sim(img)表示初次检索时的相似度，是更新后的相似度；然后重新按照更新后的相似度分数对前1000张初始检索结果重排序，返回给用户。

综上所述，本发明针对基于草图的图像检索的一系列问题，提出一种基于深度学习的特征表示，融合了稀疏的草图的多层次信息，使特征表达更有区分性。继而提出了一种新颖的基于重排序的匹配算法，挖掘初次检索结果的相关性，提升检索结果质量。本发明方法可以有效运用于针对大规模图像的草图检索系统中，提高检索相关性，增强用户体验。

附图说明

图1是本发明的流程图。

图 2 是类草图图像生成的效果图。

图3是构建草图深度区分特征的示意图。

图 4 是本发明的应用效果图。

具体实施方式

下面结合附图，详细介绍本发明的具体实现细节。

（一）图像的采集与预处理

采集多媒体数据集的彩色图片作为图像数据库，所有的图像都统一为JPG格式。然后将每一张图片大小规整为256*256。由于本发明只考虑每张图片有一个单类别的标注信息，使用类别标签的图像数据重新训练CNN模型，所以限定了数据库中的图像类别。对于其它类别的图像直接剔除或者保留少量的作为噪声图像，同时剔除冗余的图像。

（二）类草图图像的生成

图2展示利用两步前文提到的两步变换的方法转换彩色图像到类草图的过程。本发明中首先使用SE边缘检测算法检测出原彩色图像粗略的轮廓边缘。本发明中以步长为2选取32*32大小的图像区域作为随机森林的输入，用于预测其中间的16*16大小的区域的边缘结构。因此在实现中每个像素点被多次预测，取平均值作为该像素点的边缘响应值。同时，每一张图像在输入前先转换到13个特征空间（3个颜色空间，2个梯度空间和8个方向空间）。训练随机森林时，先将结构标签转换成离散标签，采用前文提到的两步映射。在第一步映射中，对于每一个图像区域随机选取256对坐标，编码它们的像素值是否相等，形成一个256维的二值的特征表示。显然这样的计算代价是巨大的，所以然后先用主成分分析算法将每个兴趣点的特征表示降至较低的维度。第二步转换中，使用k-means算法将兴趣点特征值聚类成固定的类别，分别编码为离散标签。用于预测的随机森林中一般选取1到4个决策树分别预测，每个决策树的参数学习和预测是相互独立的。最后以取平均值的方式集合不同决策树的输出。

基于上面方法得到的粗略的边缘图像，利用一种非极大值抑制的算法筛选出重要的轮廓，抑制不重要的边缘和冗余的噪声点。具体实现在上面部分已详细介绍，其中涉及到两个循环和两个阈值的选取。第一个循环条件max(GP(:, :))>th2 定义了重要的边缘的选取标准，参数th2限制了被保留线条的数量。第二个循环条件GP(x, y)>th1定义了线条的结束条件，参数th1决定了线条的长度。

（三）提取深度区分性特征

图3展示提取草图或类草图的深度区分性特征的过程。具体算法过程在前面部分已详细介绍，它主要分为三个模块：底层视觉特征的提取、高层语义特征的提取和多特征的深度融合。

其中，底层视觉特征提取利用CKN模型和BoVW框架。选取草图或类草图的边缘点作为兴趣点，分别抽取兴趣点周围的CKN特征。具体是取以兴趣点为中心的16*16大小的区域代表该点作为CKN模型的输入，计算出固定大小的特征表示。CKN模型是一种无监督的特征学习算法，需要有训练的过程。本发明使用Flickr 15k中14660张类草图图像作为候选训练图片。由于每张类草图图像包含几乎超过2000个兴趣点，所以原本有14660*2000=29320000个训练样本，显然计算量是十分巨大并且不必要的，所以随机每张图片中随机选取100个兴趣点，训练样本减小为1466000个。使用一个3层的CKN网络结构，第一层计算输入兴趣点区域的梯度图，后面两层的卷积核大小分别为3和4，卷积滤波器数量分别为12和20。每个兴趣点周围区域的CKN特征被提取后，使用BoVW模型生成CKN视觉词典，词典大小取300。然后每一张图片就可投射到300维的特征表示。

对于语义特征的提取，使用Flickr 15k中14660张类草图图像作为训练样本重新训练AlexNet。为了防止过拟合，本发明采用了一种增加训练样本的方法，对每一张原类草图进行一些变换组合（镜像变换、膨胀、旋转、透视变换、剪裁和平移）产生30张类草图，于是训练样本扩充了14660*30=439800张。整个训练过程用Ubuntu 14.04下的Caffe工具包进行。最终使用重新训练好的AlexNet模型提取草图和类草图图像的深度语义特征。本发明选取最后一层的1024维的输出作为特征表示。

对于多特征的深度融合，使用双峰深度自编码器深度挖掘两种特征的关系。如图3所示，双峰深度自编码编码阶段和解码阶段分别有一个隐藏层，本发明中首先将两种特征投射到高维的空间,发掘高维空间下特征信息，因此隐藏层的输出维度均设置为2000。融合层的特征维度设置为100。

（四）基于重排序的匹配优化

给定初次的检索结果列表，取前1000张图像作为重排序的候选集。使用前面提取的视觉特征作为重排序依据，目标使得与查询草图视觉相似的图像的排序位置得到提升，不相似的图像得到抑制。使用k-means算法将候选集聚成k个类{C1, C2, …, Ck}。k-means算法的k个中心点初始时随机选取，由于k-means对中心点的初始化比较敏感，所以用不同的随机初始化做5次聚类，统计每次聚类结果的平方距离，选取最小的作为最终结果，这里k一般取值5~10。基于上面统计的类别，按照前面部分的详细算法分别计算每个类别的可信度。可信度实际上代表了当前类别所包含图像与查询草图的平均相似度。当类别中的图像与查询图像越相似，它所在的类别的可信度越高。相反，如果一张图片所在类别的可信度越高，那么它对查询结果的贡献越高。所以每张图片的检索相似度Sim(img)应该根据它所在类别的可信度进行调整，可信度越高的类别的图片有更大的概率与用户查询相关，应该促进它们的查询相似度Sim(img)，可信度越小的图像相似度Sim(img)应该相应降低。

（五）应用示例

图4为利用本发明所讲述的方法实现的草图检索的效果图，最左列为用户手绘草图，中间一列为初次检索的排序前8的结果，最后一列是经过重排序后的结果。分析可得，初次检索结果中往往有一些不相关的图像排序在较前的位置，重排序后，这些不相关的图像被抑制，检索结果得到提升。

参考文献

[1] Arbelaez, P., Maire, M., Fowlkes, C., &Malik, J. 2011.Contourdetection and hierarchical image segmentation. IEEE Transactions on PatternAnalysis and Machine Intelligence (PAMI), 33(5), 898-916.

[2] Babenko, A., Slesarev, A., Chigorin, A., & Lempitsky, V. 2014.Neural codes for image retrieval. In Proceedings ofECCV2014, 584-599.

[3] Belongie, S., Malik, J., & Puzicha, J. 2002. Shape matching andobject recognition using shape contexts. IEEE Transactions on PatternAnalysis and Machine Intelligence (PAMI), 24(4), 509-522.

[4]Bhatt, H. S., Singh, R., & Vatsa, M. 2014. On recognizing faces invideos using clustering-based re-ranking and fusion. IEEE TransactionsonInformation Forensics and Security 2014, 9(7), 1056-1068.

[5] Bui, T., &Collomosse, J. 2015. Scalable Sketch-Based ImageRetrieval Using Color Gradient Features. In Proceedings of ICCV 2015, 1-8.

[6] Canny, J. 1986. A computational approach to edge detection. IEEETransactions on Pattern Analysis and Machine Intelligence (PAMI), (6), 679-698.

[7] Cao, Y., Wang, C., Zhang, L., & Zhang, L. 2011. Edgel index forlarge-scale sketch-based image search. InProceedings ofCVPR2011, 761-768.

[8] Chalechale, A., Naghdy, G., & Premaratne, P. 2004. Sketch-basedshape retrieval using length and curvature of 2d digital contours. InProceedings of IWCIA 2005, 474-487.

[9] Dalal, N., & Triggs, B. 2005. Histograms of oriented gradientsfor human detection. In Proceedings ofCVPR 2005, 886-893.

[10] Dharani, T., & Aroquiaraj, I. L. 2013. A survey on content basedimage retrieval. In Proceedings of PRIME 2013, 485-490.

[11] Dollár, P., & Zitnick, C. 2013. Structured forests for fast edgedetection. In Proceedings of ICCV 2013, 1841-1848.

[12] Eitz, M., Hildebrand, K., Boubekeur, T., & Alexa, M. 2009. Adescriptor for large scale image retrieval based on sketched feature lines.In Proceedings of SBM 2009, 29-36.

[13] Eitz, M., Hildebrand, K., Boubekeur, T., & Alexa, M. 2011.Sketch-based image retrieval: Benchmark and bag-of-features descriptors. IEEETransactions on Visualization and Computer Graphics, 17(11):1624-1636.

[14] Eitz, M., Hays, J., & Alexa, M. 2012. How do humans sketchobjects?ACM Transactions on Graphics, 31(4):44.

[15]Hu, R., & Collomosse, J. 2013. A performance evaluation ofgradient field hog descriptor for sketch based image retrieval. ComputerVision and Image Understanding, 117(7):790-806.

[16] Jin, C., Wang, Z., Zhang, T., Zhu, Q., & Zhang, Y. 2015. A NovelVisual-Region-Descriptor-based Approach to Sketch-based Image Retrieval. InProceedings of ICMR 2015, 267-274.

[17] Krizhevsky, A., Sutskever, I., & Hinton, G. E. 2012. Imagenetclassification with deep convolutional neural networks. In Proceedings ofNIPS 2012,1097-1105.

[18] Lazebnik, S., Schmid, C., & Ponce, J. 2006. Beyond bags offeatures: Spatial pyramid matching for recognizing natural scene categories.In Proceedings of CVPR 2006, 2169-2178.

[19] Lin, K., Yang, H. F., Hsiao, J. H., & Chen, C. S. 2015. Deeplearning of binary hash codes for fast image retrieval. In Proceedings ofCVPR 2015, 27-35.

[20] Lowe, D. G. 1999. Object recognition from local scale-invariantfeatures. In Computer vision, 1999. In Proceedings of ICCV 1999, 2:1150-1157.

[21] Mairal, J., Koniusz, P., Harchaoui, Z., & Schmid, C. 2014.Convolutional kernel networks. In Proceedings of NIPS 2014, 2627-2635.

[22] Ng, J., Yang, F., & Davis, L. 2015. Exploiting local featuresfrom deep networks for image retrieval. In Proceedings of ICCV 2015, 53-61.

[23]Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y.2011. Multimodal deep learning. In Proceedings of ICML 2011, 689-696.

[24] Paulin, M., Douze, M., Harchaoui, Z., Mairal, J., Perronin, F.,& Schmid, C. 2015. Local convolutional features with unsupervised trainingfor image retrieval. In Proceedings of ICCV 2015, 91-99.

[25] Qian, X., Tan, X., Zhang, Y., Hong, R., & Wang, M. 2016.Enhancing Sketch-Based Image Retrieval by Re-Ranking and Relevance Feedback.IEEE Transactions on Image Processing2016, 25(1):195-208.

[26] Sarvadevabhatla, R. K., & Babu, R. V. 2015. Freehand SketchRecognition Using Deep Features. arXiv preprint arXiv:1502.00254.

[27]Springmann, M., Al Kabary, I., & Schuldt, H. 2010. Imageretrieval at memory's edge: known image search based on user-drawn sketches.In Proceedings of CIKM 2010, 1465-1468.

[28]Wang, Y., Yu, M., Jia, Q., & Guo, H. 2011. Query by sketch: Anasymmetric sketch-vs-image retrieval system. In Proceedings of CISP 2011, 3:1368-1372.

[29]Wei, Y., Xia, W., Huang, J., Ni, B., Dong, J., Zhao, Y., & Yan,S. 2014. CNN: Single-label to multi-label. arXiv:1406.5726.

[30]Yu, Q., Yang, Y., Song, Y. Z., Xiang, T., & Hospedales, T. M.2015. Sketch-a-net that beats humans. In Proceedings of BMVC, 7-1.。

Claims

1.一种基于深度学习的手绘草图图像检索方法，其特征在于具体步骤如下：

(1)类草图图像的生成：从多媒体数据集采取的彩色图像，采用两步变换的方法将其转换成类草图图像；其中，第一步采用边缘检测算法检测出彩色图像的粗轮廓，第二步使用非极大值抑制方法提取重要的轮廓，抑制非重要的轮廓，排除噪声点；

(2)提取图像的多层次特征：利用深度学习的方法提取查询草图和类草图图像的两种特征：图像的高层语义特征和底层的视觉特征，即使用重新训练的CNN模型提取语义特征，使用CKN模型和BoVW框架来抽取图像的局部视觉特征；

(3)构建图像的深度区分性特征：基于步骤(2)中提取的图像的两种层次特征，使用双峰深度自编码器模型深度挖掘二者的包含的区分性信息，融合得到图像最终的低维的特征向量表示；

(4)在线的初次检索：在初次检索中，首先将查询草图与数据库中类草图图像的图像距离度量方法转换成相似度度量方法，然后依次计算查询图像与每一张类草图图像特征的相似度，按照相似度由高到低进行初次排序；

(5)对初检索结果的重排序：首先根据初次检索结果前1000张图像作为候选集，为充分利用检索结果与查询图像的的视觉相似性，利用K-means聚类算法对候选集的局部视觉特征进行聚类，统计每一个聚类结果的可信度；然后利用每个聚类的可信度分别去重新更新图像的相似分数，得到候选集中每一张图像与查询草图的最终相似度，然后进行排序，返回给用户。

2.根据权利要求1所述的图像检索方法，其特征在于：步骤(1)中利用两步转换的方法将多媒体数据集中的彩色图像转换成类草图图像，以减小查询草图与彩色图像之间的视觉鸿沟，具体过程如下：

给定彩色图像，首先利用SE边缘检测算法检测出图像的粗略轮廓：SE边缘检测算法假设自然界中的图像的局部边缘结构是可预测的，即可通过大量图片统计出来，利用改进的随机森林分类器训练出彩色图像局部区域与对应的边缘结构的分类器模型；然后使用该分类器模型分别预测彩色图像中每一个图像局部区域的边缘结构图；最终，集合图像每一图像局部区域的边缘图得到彩色图像整体的边缘图，该边缘图保留了图像的主要轮廓信息，但是包含很多噪声点和对检索无益的非重要线条；

对于上面步骤检测出的边缘图像，利用一种非极大值抑制的方法保留重要的轮廓，抑制不明显的轮廓和噪声点；用P表示由SE边缘检测算法检测出来的粗略边缘图像，I表示原彩色图像；首先计算出边缘图像P每一个像素点的梯度得到梯度图像GP，初始化(x,y)为梯度图像GP中最大梯度像素点，GP(x,y)表示(x,y)处的梯度值，max(GP(:,:))表示当前最大的梯度值，然后执行下面的循环：

当max(GP(:,:))>th2；

当GP(x,y)>th1；

步骤1:找到以(x,y)为中心的(5╳5)邻域Ω内除(x,y)以外的最大梯度值的坐标集Φ；

步骤2:从坐标集Φ中选取离(x,y)最近的点(x’,y’)作为下一次循环的候选点，连接(x,y)和(x’,y’)，抑制梯度图像GP中坐标集Ω中的其它像素点；

步骤3:更新(x,y)＝(x’,y’)，进行下一轮循环；

结束；

设置(x,y)为GP中全局的最高梯度值的坐标点；

结束；

得到原彩色图像I的类草图图像GP；其中th1和th2分别是控制类草图图像中线条长度和线条数量的经验值，在迭代之前确定后保持不变。

3.根据权利要求1所述的图像检索方法，其特征在于：步骤(2)中所述提取查询草图和类草图图像的两种特征：图像的高层语义特征和底层的视觉特征，其中：

对于高层语义特征，使用重新训练的AlexNet模型抽取语义特征，具体过程为：首先利用步骤(1)中得到的类草图图像和它们的标注信息重新训练AlexNet模型；之后，利用训练好的AlexNet模型提取草图和类草图的语义特征，这里选取AlexNet模型的最后一层的1000维特征向量作为语义特征；

4.根据权利要求1所述的图像检索方法，其特征在于：步骤(3)中所述基于步骤(2)中提取的图像的两种层次特征，使用双峰深度自编码器模型深度挖掘二者的包含的区分性信息，融合得到图像最终的低维的特征向量表示，具体过程为：

假设X_l∈R^m和X_s∈Rⁿ分别表示视觉特征和语义特征，训练时，分为编码和解码两个阶段：

编码阶段，原来的较高维度的两种特征被编码到一个低维的中间层特征表示C_d∈R^t，使得C_d尽可能包含原来两种特征的主要信息，编码过程如下：

E_l＝f(W_l1X_l+b_l1)，E_s＝f(W_s1X_s+b_s1)

C_d＝f(W_l2E_l+W_s2E_s+b₂) (1)

其中，f()是非线性转换函数，E_l∈R^h1和E_s∈R^h2分别是两个隐藏层的输出表示；

在解码阶段，目标是从C_d中尽最大程度重构原来的特征信息，过程如下：

D_l＝f(W_l3C_d+b_l3)，D_s＝f(W_s3C_d+b_s3)

X′_l＝f(W_l4D_l+b_l4)，X′_s＝f(W_s4D_s+b_s4) (2)

为了实现最大程度的重构，在训练双峰深度自动编码器时优化以下目标函数：

其中，α是控制两种特征重构比例的参数，第一个加数是n个训练样本的重构平方差损失函数，第二个加数是带权重的正则化项，是为了减小过拟合和保持训练的平滑性。

5.根据权利要求1所述的图像检索方法，其特征在于：步骤(4)所述初次检索的过程中，首先将查询草图与类草图图像的距离度量转换为相似度的度量，方便后续的重排序操作；假设dis表示图像特征间的欧式距离，Sim表示图像间的相似度，转换公式如下：

6.根据权利要求1所述的图像检索方法，其特征在于：步骤(5)中所述对初检索结果的重排序，具体过程为：

假设给定初次的检索结果列表，取前1000张图像作为重排序的候选集，由于每一张原图像对应于一张类草图图像，取每一张类草图图像的BoVW-CKN特征作为聚类特征，使用k-means算法将候选集聚成k个类{C₁,C₂,…,C_k}，每个类别包含了局部视觉相似的图像；目标是使得与查询图像视觉相似的类别C_i中的图像的检索相似度得到提升，定义每个类别有一个查询可信度r(C_i)，反映了类别C_i中图像对检索的贡献大小；查询可信度定义如下：

其中，Sim(queryimg)表示查询草图与类草图图像的相似度，这里相似度的计算只使用图像的底层视觉特征，||C_i||表示类C_i中图像的个数，norm是所有类别的查询可信度的求和，作为归一化项；候选集中的图片根据所在的类别的查询可信度进行更新，更新规则如下：

其中，Sim(img)表示初次检索时的相似度，Sim^*(img)是更新后的相似度；然后重新按照更新后的相似度分数对前1000张初始检索结果重排序，返回给用户。