CN108733749A

CN108733749A - 一种基于草图的图像检索方法

Info

Publication number: CN108733749A
Application number: CN201810304970.9A
Authority: CN
Inventors: 雷建军; 宋宇欣; 侯春萍; 郑凯夫; 丛润民; 陈越
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-11-02

Abstract

本发明公开了一种基于草图的图像检索方法，所述方法实现了从图像域到草图域的域迁移学习，网络能够输出适应草图域的具有区分性的有效特征，方法包括以下步骤：提取图像Canny边缘，用作网络训练数据；基于ImageNet百万数量级图像的网络预训练；将图像的Canny边缘送入网络进行训练，实现域迁移学习；将草图和图像的Canny边缘送入训练好的网络，分别提取特征；计算提取到的特征间的余弦距离并进行排序，实现K最近邻检索。本方法充分弥补了网络在训练过程中草图数据的不足，提升了草图训练的效果，减小了草图和图像之间的跨域差距，取得了良好的检索效果。

Description

一种基于草图的图像检索方法

技术领域

本发明涉及图像检索、计算机视觉技术领域，尤其涉及一种基于草图的图像检索方法。

背景技术

互联网媒体图像数据急剧增加，高效准确的图像检索技术成了迫切的需要。早期的基于文本的检索方式存在着依赖人工标注、具有歧义性等缺点，无法适用于大规模图像检索。因此，基于内容的图像检索成了研究热点。在基于内容的图像检索中，基于草图的检索可以较方便、直观的表达出用户意图，受到了广泛关注。随着触屏设备的普及，手绘草图的绘制越来越便捷，手绘草图可以精确表达用户的检索意图，因此基于草图的图像检索具有十分重要的研究意义。

基于文本的图像检索技术根据对图像的文字描述来进行检索，这些描述包括：图像颜色、名称、主题、内容等信息。文本和图像是属于不同的输入域，所以无法直接对文本和图像进行相似度匹配度量。因此，这种检索方式往往需要对图像进行大规模的人工标注，然后通过输入文本与标注的文本信息进行匹配，来获得排序好的检索结果的输出。这种方法简单有效，具有较快的检索速度，但是同时也有一定的缺陷：图像的文本描述需要人工标注，互联网图像数据在飞速增长，对图像进行人工标注的速度远低于图像数量的增长速度，因此这种方式不可持续；其次，很多时候关键字往往不能精确的描述用户的检索意图；再次，人工标注的过程会引入标注者的主观判断，不同的标注者对图像的认知不同，这样对图像的理解就会产生一定的歧义。由于基于文本的图像检索存在以上问题，基于内容的图像检索技术逐步开展，受到了广泛关注。

基于内容的图像检索的基本原理是对图像的整体内容进行分析，使用算法提取和图像内容相关的特征，最后通过这个特征进行检索匹配。当用户输入一幅查询图像时，计算机对查询图像进行特征计算，将计算好的特征和图像库中的所有图像特征进行相似度计算，根据相似度的高低对图像数据库中的数据进行排序，得到检索召回序列。基于内容的图像检索避免了人工标注带来的歧义，整个检索流程由计算机自动完成，可以应用于大规模图像检索。

随着触摸屏技术的流行，草图成为一种能够表达使用者意图的有效方式，基于草图的图像检索(Sketch-based Image Retrieval,SBIR)受到了越来越多的关注。传统的SBIR方法可以分为三步：边缘近似、特征提取和特征匹配。第一步为通过提取图像的轮廓来寻找草图近似，第二步为提取图像轮廓的特征，特征提取方法包括传统的手工设计特征的方法和最近流行的深度学习方法。这些提取出来的特征描述符都和形状视觉相似性有关。最后一步是特征匹配，通常是一个KNN(K最近邻)排序过程。也有一些方法直接匹配草图和图像特征解决跨域适应问题。Saavendra等人提出了一种经过修正的HOG(方向梯度直方图)描述符来解决传统HOG特征带来的稀疏问题。所有上述方法都侧重于为草图和图像轮廓提取相同的特征。然而为两个域设计的公共特征可能不如为某个域单独设计的特征更加具有可分辨性。Xu等人提出了一种词典对学习方法，分别从草图特征和图像特征学习成对的稀疏表示。Qi等人引入了一种感知分组方法，通过对边缘进行分组，得到鲁棒的特征表达，然后将这个特征用于检索。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

手工设计的特征，如HOG和GF-HOG(梯度场方向梯度直方图)特征，已被广泛使用。然而，这些手工设计特征的局限性影响了基于草图的图像检索性能。同时，基于深度学习的方法是数据驱动的方法，缺少足够的训练数据不能让基于深度学习的方法取得很好的效果，容易造成过拟合问题。

发明内容

为了增强草图和图像的域相似性，本发明使用Canny边缘作为桥梁，提出了基于图像Canny边缘扩展训练数据、并进行跨域学习的方法，实现基于草图的图像检索，详见下文描述：

一种基于草图的图像检索方法，所述方法实现了从图像域到草图域的域迁移学习，网络能够输出适应草图域的具有区分性的有效特征，方法包括以下步骤：

提取图像Canny边缘，用作网络训练数据；基于ImageNet百万数量级图像的网络预训练；

将图像的Canny边缘送入网络进行训练，实现域迁移学习；

将草图和图像的Canny边缘送入训练好的网络，分别提取特征；计算提取到的特征间的余弦距离并进行排序，实现K最近邻检索。

其中，所述基于ImageNet百万数量级图像的网络预训练具体为：

使用经过ImageNet图像预训练的VGG19网络进行网络初始化；该过程使用已有的数据来提升草图训练的效果。为了弥补草图训练数据的不足，本发明将经过ImageNet图像预训练的网络作为初始化网络，在充足的图像数据集训练好的网络模型中，网络底部一些参数层同样可以为草图提取低级特征。

其中，VGG19卷积神经网络由16个卷积层、5个池化层外加3个完全连接层组成，通过该网络为草图提取特征。

进一步地，所述将图像的Canny边缘送入网络进行训练，实现域迁移学习具体为：

将提取的Canny边缘作为草图近似，送入经过预训练的VGG19网络中进行训练，使用Canny边缘作为草图近似，弥补了草图数据的不足；

VGG19网络在softmax层判断该Canny边缘属于训练数据集中每一类的概率，进而实现对Canny边缘的分类，得到具有差异性的特征；通过域迁移解决缺少草图训练数据的问题。

具体实现时，所述将草图和图像的Canny边缘送入训练好的网络，分别提取特征具体为：

将草图和图像的Canny边缘送入训练好的VGG19网络中，利用训练好的VGG19网络分别提取草图和图像Canny边缘的特征。

本发明提供的技术方案的有益效果是：

1、本发明提取图像的Canny边缘，作为草图近似，并使用在大型图像数据集上预训练的网络作为初始化网络，充分弥补了网络在训练过程中草图数据的不足，提升了草图训练的效果；

2、本发明将提取的Canny边缘送入经过预训练的卷积神经网络中进行训练，使得原本输入域为图像的网络架构适应了新的草图输入域，实现了从图像域到草图域的域迁移学习，网络能够输出适应草图域的具有区分性的有效特征；

3、基于图像Canny边缘扩展训练数据并进行跨域学习，所提取的草图特征与图像Canny边缘特征之间存在很强的关联性，有效地减小了草图和图像之间的失真差异，弥补了草图和图像之间的跨域差距，取得了良好的检索效果。

附图说明

图1为一种基于草图的图像检索方法的流程图；

图2为非极大值抑制的示意图；

图3为连接边缘的示意图；

图4为本方法和其他方法在Flickr15k数据集上的检索平均准确率的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

基于草图的图像检索是以草图作为查询输入，在自然图像数据库中检索相似性图像的技术。为了实现有效的检索，本发明实施例提出了一种基于图像Canny边缘扩展训练数据并进行跨域学习的方法，具体实现步骤如下：

101：提取图像Canny边缘，用作网络训练数据；

本发明实施例使用Canny算子进行边缘提取，用提取出的Canny边缘作为草图近似，目的在于基于草图和自然图像Canny边缘的相似性，扩展训练数据。

其中，提取图像Canny边缘的算法分为以下四步：

1)基于高斯函数对图像进行平滑滤波，去除图像中的噪声信息；

2)计算出平滑滤波后图像中每一点的局部梯度和边缘方向；

3)对梯度进行非极大值抑制；

4)双阈值检测和连接边缘。

102：基于ImageNet百万数量级图像的网络预训练；

其中，卷积神经网络在大规模图像分类任务和图像识别任务中取得了出色的效果，通过卷积神经网络提取的特征比传统的手工设计的特征具有更好的鲁棒性。由于卷积神经网络的特征检测层通过训练数据进行学习，所以在使用卷积神经网络时，避免了显式的特征抽取，而隐式地从训练数据中进行学习。

草图图像检索需要使原本输入域为图像的网络架构适应新的草图输入域，而基于深度学习的方法是数据驱动的方法，缺少足够的训练数据不能让基于深度学习的方法取得很好的效果，容易造成过拟合问题。因此，本发明实施例使用已有的数据来提升草图训练的效果，使用经过ImageNet图像预训练的VGG网络进行网络初始化。

103：将提取出的Canny边缘送入网络进行训练，实现迁移学习；

卷积神经网络在足够大的训练集上进行训练后，其中间层的输出可以作为包括图像检索在内的各种任务的图像描述符。然而，对于基于草图的图像检索任务，由于草图的训练数据不足，导致网络无法学习到更好的特征，深度学习方法通常无法取得在图像集上达到的效果。但是，在充足的图像数据集训练好的网络模型中，网络底部一些参数层同样可以为草图提取低级特征。

由于图像和草图来自两个不同的域，所以该过程是一个从图像域到草图域的域迁移学习过程。从图像域到草图域，产生这样的迁移，网络中间层有很多层参数可以共享。为了使基于图像域进行训练的网络适应草图域，本发明实施例将提取的Canny边缘作为草图近似，送入经过预训练的卷积神经网络中进行训练，实现迁移学习。

104：将草图和图像的Canny边缘送入训练好的网络，分别提取特征；

在网络测试阶段，将草图和图像的Canny边缘送入训练好的网络，利用网络分别提取草图和图像Canny边缘的特征。

105：计算特征间的余弦距离并进行排序，实现K最近邻检索。

将上一步提取的草图特征与候选区的所有图像Canny边缘的特征相匹配，用余弦距离来度量Canny边缘和输入的草图查询之间的损失。整个检索过程是一个K最近邻检索问题。

最近邻检索即根据数据的相似性，从数据库中寻找与目标数据最相似的项目，而这种相似性通常会被量化到空间上数据之间的距离，数据在空间中的距离越近则相似性越高。当需要查找离目标数据最近的前K个数据项时，就是K最近邻检索，即在尺度空间M中给定一个点集S和一个目标点q∈M，在点集S中找到距离目标点q最近的K个点。

设n维特征向量A＝(A₁,A₂,...,A_n)代表提取的草图特征，B＝(B₁,B₂,...,B_n)代表提取的候选图像Canny边缘的特征，本发明实施例采用余弦相似度来度量特征向量之间的距离，两者的夹角θ对应的余弦值为：

此余弦值用来表征草图特征和Canny边缘特征之间的相似性。最后输出的检索序列，按照草图和图像Canny边缘特征距离的递增关系进行排序。

综上所述，本发明实施例使用Canny边缘作为桥梁，提出了基于图像Canny边缘扩展训练数据、并进行跨域学习的方法，实现基于草图的图像检索。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：提取图像Canny边缘，用作网络训练数据；

本发明实施例使用Canny算子进行边缘提取，用提取出的Canny边缘作为草图近似，目的在于基于草图和自然图像Canny边缘的相似性，扩展训练数据。Canny边缘图和草图都是由简单的线条组成，其与草图之间的域的相似性程度高于原始图像和草图之间的相似性。提取图像Canny边缘的算法分为四步：

令f(x,y)表示输入源数据，G(x,y)表示二维高斯函数(即卷积操作数)，G(x,y)定义为：

其中，σ为高斯函数的标准差。

则卷积平滑(高斯模糊)后的图像f_s(x,y)则可以表示为：

f_s(x,y)＝f(x,y)*G(x,y)

2)计算出平滑滤波后图像中每一点的局部梯度和边缘方向；

基于边缘检测算子(例如Roberts,Sobel,Prewitt等)返回平滑滤波后图像中每一点的水平方向差分G_x和垂直方向差分G_y，然后基于如下公式计算梯度的模、与方向：

θ＝arctan(G_y/G_x)

其中，边缘点定义为梯度方向上局部强度最大的点。

3)对梯度进行“非极大值抑制”；

其中，非极大值抑制能帮助保留局部最大梯度而抑制所有其他梯度值。这意味着只保留了梯度变化中最锐利的位置。比较当前点的梯度强度和当前点沿正负梯度方向上的两个像素点的梯度强度，如果当前点的梯度强度与另外两个像素点的梯度强度相比，当前点的梯度强度最大，则将当前像素点保留为边缘点，否则该像素点将被抑制，即设为0。如图2所示，图中的数字代表了像素点的梯度强度，箭头方向代表了梯度方向。以第二排第三个像素点为例，该点梯度方向指向正下方90°方向，则将这一点的梯度强度(4)与其上下两个像素点的梯度强度(2和3)比较，由于该像素点强度最大，则保留该像素点。

4)双阈值检测和连接边缘。

边缘检测算法一般用一个阈值来滤除噪声或颜色变化引起的小梯度值，从而保留大梯度值。Canny算法应用双阈值，即一个高阈值和一个低阈值，来区分边缘像素。如果边缘像素的梯度值高于高阈值，则将其标记为强边缘点；如果边缘像素的梯度值高于低阈值且低于高阈值，则将其标记为弱边缘点；如果边缘像素的梯度值低于低阈值，则会被抑制。

强边缘点可以认为是真的边缘。弱边缘点则可能是真的边缘，也可能是由噪声或颜色变化引起的。为了得到精确的结果，后者引起的弱边缘点应该去掉。真实边缘引起的弱边缘点和强边缘点是连通的，而由噪声引起的弱边缘点则和强边缘点不连通。因此，查看弱边缘点及其8个邻域像素点，如果一条连通的弱边缘上存在任何一个点和强边缘点连通，则保留这条弱边缘，否则抑制这条弱边缘。

如图3所示，黑色块代表强边缘点，灰色块代表弱边缘点，白色块代表梯度值低于低阈值而被抑制的点。第四行第三列和第五行第四列的两个弱边缘点(A和B)由于其相邻8个邻域像素点存在强边缘点，因此都被保留。而第二行第五列的弱边缘点(C)由于相邻8个邻域像素点不存在强边缘点，因此被抑制。

Canny图像边缘能够保持图像的形状信息，作为桥梁能减轻草图和图像的几何偏差，缩小与草图之间的差异，弥补草图域和图像域之间的跨域差距。

202：基于ImageNet百万数量级图像的网络预训练；

草图图像检索需要使原本输入域为图像的网络架构适应新的草图输入域。本发明实施例使用的基础网络为VGG19网络，由16个卷积层、5个池化层外加3个完全连接层组成，它在ImageNet百万图像集识别以及图像分类任务上取得了很好的效果，通过卷积神经网络提取的特征比传统的人工设计的特征具有更好的鲁棒性。基于深度学习的方法是数据驱动的方法，缺少足够的训练数据不能让基于深度学习的方法取得很好的效果，容易造成过拟合问题。而草图数据远远少于图像数据，这限制了基于草图的图像检索性能的进一步提升。因此，本发明实施例使用已有的数据来提升草图训练的效果，使用经过ImageNet图像预训练的VGG19网络进行网络初始化。

203：将图像的Canny边缘送入网络进行训练，实现迁移学习；

卷积神经网络在足够大的训练集上进行训练后，其中间层的输出可以作为包括：图像检索在内的各种任务的图像描述符。然而，对于基于草图的图像检索任务，由于草图的训练数据不足，导致网络无法学习到更好的特征，深度学习方法通常无法取得在图像集上达到的效果。但是，在充足的图像数据集训练好的网络模型中，网络底部一些参数层同样可以为草图提取低级特征。由于图像和草图来自两个不同的域，所以这是一个网络从图像域到草图域的域迁移学习过程。从图像域到草图域，产生这样的迁移，网络中间层有很多层参数可以共享。

为了使基于图像域进行训练的网络适应草图域，本发明实施例将提取的Canny边缘作为草图近似，送入经过预训练的VGG19网络中进行训练。VGG19网络在softmax层判断该Canny边缘属于训练数据集中每一类的概率，进而实现对Canny边缘的分类，得到具有差异性的特征。

将Canny边缘送入网络的结果是网络发生了域迁移，这种域迁移过程本质上是一个特征重新选择的过程。如果网络能够从新的输入域中选择有用的功能，则网络就具备了处理这种新的输入风格的能力。这种跨域初始化的思想可以更好地解决缺少草图训练数据的问题。

204：将草图和图像的Canny边缘送入训练好的网络，分别提取特征；

经过训练，网络已实现了迁移学习，能够输出适应草图域的具有区分性的有效特征。在测试阶段，将草图和图像的Canny边缘送入训练好的网络，利用网络分别提取草图和图像Canny边缘的特征。

205：计算特征间的余弦距离并进行排序，实现K最近邻检索。

最近邻检索的引入将基于草图的图像检索转化为衡量特征向量空间中特征向量之间的距离，通过查找与草图特征向量距离最近的Canny边缘特征向量，来获得相应草图和图像Canny边缘之间的关系。本发明实施例采用余弦相似度来度量这种特征向量之间的距离。

设n维特征向量A＝(A₁,A₂,...,A_n)代表提取的草图特征，B＝(B₁,B₂,...,B_n)代表提取的候选图像Canny边缘的特征，两者的夹角θ对应的余弦值为：

此余弦值用来表征草图特征和图像Canny边缘特征之间的相似性。夹角越小，余弦值越接近于1，它们的方向更加吻合，说明二者之间具有相似的形状，即意味着草图和图像的相似度越高。最后输出的检索序列，按照草图和图像Canny边缘特征距离的递增关系进行排序。

实施例3

下面结合图4、具体的实例对实施例1和2中的方案进行可行性验证，详见下文描述：

实验基于Flickr15k数据集，该数据集在基于草图的图像检索任务中广泛使用。它包含约15000张图像和330幅草图，所有样本根据其形状被标记为33个类别。

首先提取数据集中所有图像的Canny边缘(同201部分)。

然后利用在ImageNet百万图像集上进行预训练的VGG19网络作为初始化网络。(同202部分)

接着将提取的Canny边缘作为草图近似，送入初始化网络中进行训练。上述经过预训练的VGG19初始化网络是为ImageNet分类任务设计的，共有1000个类别，最后softmax输出的数量k为1000。由于Flickr15k数据集包含33个类别，因此需要将k的值调整为33。网络在softmax层判断该Canny边缘属于训练数据集中33类中每一类的概率，进而实现对Canny边缘的分类，得到具有差异性的特征。

经过训练，网络已实现了迁移学习，能够输出适应草图域的具有区分性的有效特征。在测试阶段，使用Flickr15中的全部330张草图作为查询输入，全部14501张图像作为候选。将草图和图像的Canny边缘送入训练好的网络，在网络的“fc7”层分别提取草图和图像Canny边缘的特征，每张草图或边缘图都对应一个4096维的特征向量。

在检索阶段，将上一步提取的草图特征与候选区的所有图像Canny边缘的特征相匹配，用余弦距离来度量Canny边缘和输入的草图查询之间的损失。整个检索过程是一个K最近邻检索问题。本发明实施例采用余弦相似度来度量提取的特征向量之间的距离。特征向量A＝(A₁,A₂,...,A₄₀₉₆)代表提取的4096维草图特征，B＝(B₁,B₂,...,B₄₀₉₆)代表提取的候选图像Canny边缘的4096维特征，两者的夹角θ对应的余弦值为：

以上所有实验都基于Caffe实现。训练过程中，网络在约500次迭代后收敛。在Titan X GPU上，训练只需10分钟左右。网络训练过程非常快，原因是该网络已经使用ImageNet数据集进行了预训练，训练过程主要修改了与任务相关的顶层，其底层参数可以对图像Canny边缘输入数据进行低层特征提取。

将本方法的检索性能与现在比较流行的GF-HOG(梯度场方向梯度直方图)、PerceptualEdge(感知分组)、Siamese(孪生网络)草图检索方法基于相同数据集及同等实验条件进行比较，本方法的检索准确率达到了0.37，超出了以上所有方法的准确率。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于草图的图像检索方法，其特征在于，

所述方法实现了从图像域到草图域的域迁移学习，网络能够输出适应草图域的具有区分性的有效特征，方法包括以下步骤：

将图像的Canny边缘送入网络进行训练，实现域迁移学习；

2.根据权利要求1所述的一种基于草图的图像检索方法，其特征在于，所述基于ImageNet百万数量级图像的网络预训练具体为：

使用经过ImageNet图像预训练的VGG19网络进行网络初始化；该过程使用已有的数据来提升草图训练的效果，将经过ImageNet图像预训练的网络作为初始化网络，在充足的图像数据集训练好的网络模型中，网络底部一些参数层为草图提取低级特征；

3.根据权利要求1所述的一种基于草图的图像检索方法，其特征在于，所述将图像的Canny边缘送入网络进行训练，实现域迁移学习具体为：

4.根据权利要求1所述的一种基于草图的图像检索方法，其特征在于，所述将草图和图像的Canny边缘送入训练好的网络，分别提取特征具体为：