CN107220277A

CN107220277A - 基于手绘草图的图像检索算法

Info

Publication number: CN107220277A
Application number: CN201710245518.5A
Authority: CN
Inventors: 华庆; 华庆一; 李桥; 安勃卿
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2017-09-29

Abstract

本发明公开了一种基于手绘草图的图像检索算法，该方法采用度量学习算法得到一个映射函数,将手绘草图与真实图像映射到同一度量空间，在该度量空间中的L₁范式可以直接代表原空间中草图和真实照片之间的“语义”相似度，很好的解决了手绘草图与真实照片之间的跨域匹配问题。具体的讲，本发明使用正负样本对来训练卷积神经网络，从而将输入空间中标记为相似的草图与照片的特征向量“拉近”，而把标记为不相似的图像的特征向量“推远”，最终提出出一个集成化的检索方法。实验表明本发明在大规模手绘草图检索数据集上的检索性能有很大的提升。

Description

基于手绘草图的图像检索算法

技术领域

本发明属于信息检索技术领域，具体涉及一种基于手绘草图的图像检索的方法。

背景技术

随着计算机技术和多媒体技术的快速发展，大量的数字图像随之产生。有效的图像检索技术在各个领域比如遥感、时尚、出版、农业等都有广泛需求。在海量的图像数据集中如何快速找到特定的图像就需要使用图像检索技术。图像检索是一项通过给定的查询方式在海量图像数据集中快速查找相似图像的技术。近年来基于样例的查询随着基于手绘草图的信息检索技术快速发展而受到广泛关注。

基于手绘草图的信息检索最关键的挑战在于处理草图本身固有的模糊性，其模糊性主要表现在以下三个方面：(1)手绘草图相对于其所描绘的自然物体来说风格抽象，线条不规则，描绘的物体比例也往往与真实物体不同。(2)用户绘制草图时往往是根据意识中经过抽象处理的概念来绘制的，没有参照真实图像，这就导致有外观和结构千变万化的草图，即手绘草图与真实图像处在不同的视觉领域内。(3)由于用户的领域知识和绘制技巧参差不齐，绘制的草图具有较大的类内变化，即对同一物体不同用户会绘制出大相径庭的草图，这对检索的精确度造成很大的影响。

大多数现有的基于手绘草图的图像检索工作采用了传统的图像检索流程：首先将真实图像用边缘检测算法转换为边缘线条图像以填补草图与真实图像之间的风格差异。然后使用手工设计的特征描述算子(比如SIFT、HOG、形状上下文等)同时作用于手绘草图与真实图像的边缘图上，提取出他们的特征表达。最终使用视觉词袋框架来将图像的特征表达量化为特征向量，从而用特征向量来计算查询草图与候选真实图像之间的相似度。

然而传统的基于低级特征描述算子的检索方法的主要问题是它们都基于一个假设，即手绘草图与真实图像之间的视觉领域鸿沟可以通过手工设计的特征来轻松的填补。但是事实往往是该假设成立的条件十分苛刻，需要大量的人工干预来对手绘草图与真实图像进行对齐、裁剪等操作，还要将真实图像进行边缘提取等预处理操作，并且手工设计的特征需要根据训练数据集图像的特点人工设定大量的参数，在未知图像上的表现差。由于手绘草图固有的模糊性，即便进行了上述的各种预处理操作之后，真实图像的边缘图依然难以和主要以线条组成的手绘草图进行匹配。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于，提供一种基于手绘草图的图像检索算法，以提升在大规模手绘草图检索数据集上的检索性能。

为了实现上述任务，本发明采用以下技术方案：

一种基于手绘草图的图像检索算法，包括以下步骤：

步骤一，通过边缘检测算法将真实图像数据集P渲染成边缘图数据集E；

步骤二，将手绘草图数据集S和边缘图数据集E的并集作为AlexNet网络的输入进行迭代训练得到分类器，然后以分类器作为特征提取器，以分类器网络中的最大池化层为输出特征，将边缘图数据集中所有的边缘图输入分类器得到所有边缘图的索引；

步骤三，利用分类器对手绘草图数据集进行处理，得到训练数据集；

步骤四，构建用于度量学习的孪生卷积神经网络，然后使用训练数据训练该网络，训练结束后得到嵌入函数；

步骤五，用嵌入函数计算边缘图在度量空间中的特征点的集合，并建立索引结构以提高检索效率；

步骤六，输入查询草图，根据所述的索引结构，返回检索结果。

进一步地，所述的步骤二的具体过程包括：

步骤2.1，将S∪E作为AlexNet网络的输入，将AlexNet网络中全连接层节点的个数设置为真实图像数据集的图像类别数，以在ImageNet数据集上预训练的AlexNet网络的参数初始化权重，将学习率设置为0.01，权重衰减设置为0.0001，动量设置为0.9，以随机梯度下降法作为优化算法，迭代训练AlexNet网络得到分类器C(x)；

步骤2.2，将边缘图数据集E＝{e₁,e₂,...,e_n}中的每一个边缘图依次输入分类器C(x)中进行计算，得到边缘图数据集E中的所有图像的索引：

其中：c_j为类别编号，j＝1，2，...，k；k为真实图像数据集中的图像类别数，为所有标记为类别c_j的边缘图集合在分类器的最大池化层的输出向量组成特征向量集合

进一步地，步骤三的具体过程包括：

步骤3.1，取手绘草图数据集S中的任一手绘草图作为当前手绘草图s^a，将s^a输入分类器C(x)得到分类预测分数向量：

其中，当前手绘草图s^a的预测类别向量为为当前手绘草图s^a的预测类别编号，b＝1，2，…，c；c为预测类别总数，c为大于等于1的自然数，表示手绘草图s^a属于类别的概率，

步骤3.2，设当前手绘草图s^a的类别标签为l^a，将类别标签l^a作为正类标签p^a，从当前手绘草图s^a的预测类别向量C^a中随机选5个不同于p^a的标签作为负类标签集合

步骤3.3，从索引I中得到标记为正类标签p^a的所有边缘图的特征向量集合记为计算当前手绘草图s^a的特征向量C_mp3(s^a)与所有正类边缘图特征向量的欧氏距离选取其中距离最小的250个正类边缘图作为正样本，得到250个正样本

步骤3.4，选择负类标签集合n^a中的任一负类标签作为当前负类标签从索引I中得到标记为当前负类标签的所有边缘图的特征向量集合计算当前手绘草图s^a的特征向量C_mp3(s^a)与所有负类边缘图特征向量的欧氏距离选取其中距离最小的50个边缘图作为负样本

步骤3.5，重复步骤3.4，直至负类标签集合中所有负类标签都被作为当前负类标签，共得到250个负样本执行步骤3.6；

步骤3.6，将250个正样本与当前草图s^a组成正样本对集合：

其中0代表图像相似；

将250个负样本与当前草图s^a组成负样本对集合：

其中1代表图像不相似

步骤3.7，重复步骤3.1至3.6，直至手绘草图数据集S中所有的手绘草图都被作为当前手绘草图，得到每张手绘草图对应的正样本对集合和负样本对集合，最终将所有正样本对集合与负样本对集合做并集操作，得到最终的训练数据集T。

进一步地，步骤四的具体过程包括：

步骤4.1，设训练集T中的任意元素为元组(s,e,y)，元组中s为手绘草图，e为边缘图，y为二值相似性标记，若y＝1代表s与e不相似，若y＝0代表s与e相似；

步骤4.2，构建用于组成孪生结构的卷积神经网络Net；

步骤4.3，用2个步骤4.2中构建的Net以共享参数的方式构建用于度量学习的孪生卷积神经网络G；G中包含2个子卷积神经网络Net^s,Net^e，其中Net^s以手绘草图作为输入，Net^e以边缘图作为输入，2个子网络共享同一组参数，两个子网络的输出都记为f_W(·)；

步骤4.4，将训练集T中的任意N个元组{(s,e,y)¹,(s,e,y)²,...,(s,e,y)^N}作为当前批训练元组，将当前批训练元组中的手绘草图s^a输入Net^s得到f_W(s^a)，将元组中的边缘图e^a输入Netⁿ得到f_W(e^a)；

步骤4.5，通过式(1)得到孪生卷积神经网络G的损失函数值L:

式(1)中，(s,e,y)ⁱ当前批训练元组中第i个训练样本，N为当前批训练元组的个数，W为Net^s,Net^e共享的网络参数，即G要训练的对象；式(1)中单个训练元组的损失l定义如式(2)：

l(W,(s,e,y)ⁱ)＝(1-y)L_p(M_W(s,e)ⁱ)+yL_N(M_W(s,e)ⁱ) (2)

式(2)中，距离度量M_W(s,e)＝‖f_W(s)-f_W(e)‖，L_P(·)为正样本对的损失函数，L_N(·)为负样本的损失函数，β＝2Q，Q是M_W的上界；

步骤4.6，采用随机梯度下降法作为最优化算法，以最小化损失函数值L为目标修正卷积神经网络G的参数W；

步骤4.7，重复步骤4.4至步骤4.6，直至T中所有训练元组被当作当前批训练元组参与过训练，此时完成了一个纪元的训练；

步骤4.8，重复执行20次步骤4.7后结束网络训练，此时卷积神经网络G输出嵌入函数G(x)。

进一步地，步骤五的具体过程包括：

步骤5.1，将边缘图数据库E＝{e₁,e₂,...,e_n}中的任一张边缘图作为当前边缘图e_c，采用嵌入函数G(x)将当前边缘图e_c嵌入到度量空间中，得到度量空间中的特征点G(e_c)；

步骤5.2，重复步骤5.1，将边缘图数据库E＝{e₁,e₂,...,e_n}中所有边缘图嵌入度量空间得到特征点集合F＝{G(e₁),G(e₂),...,G(e_n)}；

步骤5.3，将步骤5.2中特征点集合F＝{G(e₁),G(e₂),...,G(e_n)}按照类别存储，得到边缘图数据集E中的所有图像的索引：

其中：c_j为类别编号，j＝1，2，...，k；k为当前要检索的数据集中的图像类别数，为所有标记为类别c_j的边缘图集合的特征点集合

进一步地，步骤六的具体过程包括：

步骤6.1，记待查询手绘草图为s_x，采用嵌入函数E(x)将s_x嵌入到度量空间中，得到s_x在度量空间中的特征点E(s_x)；

步骤6.2，在索引I_G中检索与待查询手绘草图s_x类别标签相同的真实图像边缘图特征点集合F，计算F中每个特征点和特征点E(s_x)之间的欧氏距离；

步骤6.3，选取欧氏距离最小的前K个边缘图特征点所对应的真实图像作为与待查询手绘草图s_x最相近的K个真实图像，返回给用户作为检索结果。

本发明与现有技术相比具有以下技术特点：

1.本发明方法采用度量学习算法得到一个映射函数，将手绘草图与真实图像映射到同一度量空间，在该度量空间中的L₁范式可以直接代表原空间中草图和真实图像之间的“语义”相似度，很好的解决了草图与真实图像之间的跨域匹配问题。具体的讲，本发明使用正负样本对来训练卷积神经网络，从而将输入空间中标记为相似的草图与照片的特征向量“拉近”，而把标记为不相似的图像的特征向量“推远”。最终设计出一个集成化的检索方法。

2.本发明通过针对手绘草图的特点设计一种全新的卷积神经网络结构，采用该卷积神经网络来自动学习超完备的特征过滤器组组成特征提取器，提取出高级抽象特征，该特征除了能够处理草图的几何形变之外，在未知数据集上也有很强的泛化能力，有效的解决了手工设计的低级几何特征描述子的算法泛化能力弱，难以扩展到未知数据集的问题。

3.本发明以度量学习方法对草图与真实图像学习一种相似度度量，有效的解决了传统的基于手绘草图的图像检索算法中存在的难以进行跨域匹配、难以对草图的大量类内变体保持不变性的问题，极大的提高了基于手绘草图的图像检索的精确度和鲁棒性，达到了目前本领域先进水平。

附图说明

图1是本方法的整体流程图；

图2是AlexNet结构图；

图3是孪生卷积神经网络结构图；

图4是本发明检索结果示意图；

具体实施方式

以下结合附图对本发明方案进行详细说明。

一种基于手绘草图的图像检索算法，如图1所示，包括以下步骤：

步骤一，通过边缘检测算法将真实图像数据集渲染成边缘图数据集；其具体过程为：

记真实图像数据集为P＝{p₁,p₂,...,p_n}，n为数据集中真实图像的个数；采用边缘检测算法依次将真实图像数据集中的照片p_i(i＝1,2,...n)渲染成边缘图e_i，构成边缘图数据集E＝{e₁,e₂,...,e_n}，E中的边缘图和P中的图片一一对应；

本实施例中，真实图像数据集P选用Flickr15K数据集，边缘检测算法采用Canny算法。

步骤二，将手绘草图数据集和边缘图数据集的并集作为AlexNet网络的输入进行迭代训练得到分类器，然后以分类器作为特征提取器，以分类器网络中的最大池化层(maxpool 3层)为输出特征，将边缘图数据集中所有边缘图输入分类器得到所有边缘图的索引，其具体过程为：

步骤2.1，记手绘草图数据集为S＝{s¹,s²,...,s^a,...,s^k}，a＝1，2，…，k；k为数据集中手绘草图个数；将S∪E作为AlexNet网络的输入，将AlexNet网络中全连接层节点的个数设置为真实图像数据集的图像类别数，本实施例使用的数据集步骤一所述的Flickr15K数据集中的类别数33；以在ImageNet数据集上预训练的AlexNet网络的参数初始化权重，将学习率设置为0.01，权重衰减设置为0.0001，动量设置为0.9，以随机梯度下降法作为优化算法，迭代训练AlexNet网络得到分类器C(x)；其中x为一张图像(边缘图或手绘草图)数据，分类器的输出为一个c维的向量，c为边缘图数据集或手绘草图数据集中图像类别的数量，向量的第b个元素为分类器判断输入的图像x属于第b类的概率值；构建出的AlexNet网络如图3所示。

本实施例中，所述的AlexNet卷积神经网络来自：Krizhevsky A，Sutskever I，Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105。

步骤2.2，将边缘图数据集E＝{e₁,e₂,...,e_n}中的每一个边缘图依次输入分类器C(x)中进行计算，得到边缘图数据集E中的所有图像的索引其中：

c_j为类别编号，j＝1，2，...，k；k为真实图像数据集P中的图像类别数，为所有标记为类别c_j的边缘图集合在分类器的最大池化层(max pool)3的输出向量组成特征向量集合

步骤三，利用分类器对手绘草图数据集进行处理，得到训练数据集，其具体步骤如下：

步骤3.2，设当前手绘草图s^a的类别标签为l^a，将类别标签l^a作为正类标签p^a，从当前手绘草图s^a的预测类别向量中随机选5个不同于p^a的标签作为负类标签集合

步骤3.3，从索引I中得到标记为正类标签p^a的所有边缘图(即正类边缘图)的特征向量集合记为计算当前手绘草图s^a的特征向量C_mp3(s^a)与所有正类边缘图特征向量的欧氏距离选取其中距离最小的250个边缘图作为正样本，得到250个正样本

C_layer-name(·)表示分类器某一层(未明确标识layer-name则特指最后一层)的输出，C_mp3(·)是分类器的最大池化层(max pool 3，简写为mp3)的输出向量；s^a,p^a中的上标a用于标识当前选中的草图，表示类别标签为p^a的边缘图，下标i是序号。索引I中存储的是已经经过分类器特征提取的特征向量，故可以直接从索引中得到边缘图的特征向量。C_mp3(s^a)是将手绘草图输入分类器后，将分类器最大池化层的输出作为特征向量，记为C_mp3(s^a)。所述的正类边缘图，是与当前处理手绘草图属于同一类别的真实图像对应的边缘图。可以从步骤2中构建的索引I中按照类别标签得到。

步骤3.4，选择负类标签集合n^a中的任一负类标签作为当前负类标签从索引I中得到标记为当前负类标签的所有边缘图(即负类边缘图)的特征向量集合记为有负类边缘图特征向量：计算当前手绘草图s^a的特征向量C_mp3(s^a)与所有负类边缘图特征向量的欧氏距离选取其中距离最小的50个边缘图作为负样本

步骤3.6，将250个正样本与当前草图s^a组成正样本对集合其中0代表图像相似；将250个负样本与当前草图s^a组成负样本对集合其中1代表图像不相似；

步骤3.7，重复步骤3.1至3.6，直至手绘草图数据集S中所有的手绘草图都被作为当前手绘草图，得到每张手绘草图对应的正样本对集合和负样本对集合，最终将所有正样本对集合与负样本对集合做并集操作，得到最终的训练数据集T；

步骤四，构建用于度量学习的孪生卷积神经网络，然后使用步骤三生成的训练数据训练该网络，训练结束后得到能够将图像嵌入学习的度量空间中的函数。其具体步骤如下：

步骤4.2，构建用于组成孪生结构的卷积神经网络Net，本实施例中，该神经网络的结构如表1：

表1本发明卷积神经网络结构表

步骤4.3，用2个步骤4.2中构建的Net以共享参数的方式构建用于度量学习的孪生(Siamese)卷积神经网络G；本步骤构建出的网络G如图3所示，由2个相同的子网络构成，两个子网络结构相同，共享参数，均为步骤4.2中所述的网络Net；

本实施例中，所构建的孪生卷积神经网络G的结构如图3所示，其中包含2个子卷积神经网络Net^s,Net^e，其中Net^s以手绘草图作为输入，Net^e以边缘图作为输入，每个子卷积神经网络的基础模型都为表1所示；2个子网络共享同一组参数，两个子网络的输出都记为f_W(·)，最终同时使用Net^s,Net^e的输出计算损失函数值；

步骤4.5，通过式(1)得到孪生卷积神经网络G的损失函数值L:

式(1)中，(s,e,y)ⁱ当当前批训练元组中第i个训练样本，N为当前批训练元组的个数，W为Net^s,Net^e共享的网络参数，即G要训练的对象；式(1)中单个训练元组的损失l定义如式(2)：

l(W,(s,e,y)ⁱ)＝(1-y)L_p(M_W(s,e)ⁱ)+yL_N(M_W(s,e)ⁱ) (2)

式(2)中，距离度量M_W(s,e)＝‖f_W(s)-f_W(e)‖，L_P(·)为正样本对的损失函数，L_N(·)为负样本的损失函数，β＝2Q，Q是M_W的上界，本实施例中设Q为10；

本实施例所采用的随机梯度下降法的参考文献为：Bottou L.Large-scalemachine learning with stochastic gradient descent[M]//Proceedings ofCOMPSTAT'2010.Physica-Verlag HD，2010:177-186.

训练过程包含2个阶段：

第一阶段是前向传播阶段，将训练样本输入网络的数据层，经过网络中各种隐含层进行逐层变换，逐层映射，直到输出层按照损失函数L计算损失值。

第二阶段是反向传播阶段，用损失值计算各个参数的梯度值，将参数向负梯度方向更新，进一步对整个卷积神经网络的参数进行监督优化。

步骤4.7，重复步骤4.6至步骤4.6，直至T中所有训练元组被当作当前批训练元组参与过训练，此时完成了一个纪元的训练；

步骤五，用嵌入函数G(x)计算边缘图在度量空间中的特征点的集合，并建立索引结构以减少检索时需要和手绘草图特征进行相似度计算的候选边缘图特征数量，提高检索效率。其具体步骤如下：

步骤六，输入查询草图，根据所述的索引结构，返回检索结果，具体步骤如下：

步骤6.2，在索引I_G中检索与待查询手绘草图s_x类别标签相同的真实图像边缘图特征点集合F，计算F中每个特征点和特征点E(s_x)之间的欧氏距离；此处使用该测试手绘草图s_x的类别标签从索引I_G中得到与查询手绘草图s_x类别标签相同的真实图像边缘图特征点集合；

仿真实验：

本发明采用Flickr15k数据集进行实验，Flickr15k中包含了大约15000幅真实图像，以及330张手绘草图；共分类为33类；本次实验选用Caffe深度学习库实现所有卷积神经网络的训练过程。训练时间与训练数据集的大小以及训练纪元数有关。本发明实验的机器配置为Intel Core-i5-6600K 3.2Hz CPU、16GB内存、Nvidia GTX 1060 6GB GPU×2、CUDAv8.0、CuDNN v5.1、MXNET v0.9.3、Ubuntu16.04操作系统。在预先计算所有真实图像的特征后，每张草图的查询处理时间平均大约为0.002秒，说明本发明设计的算法有较高的可用性。

表2：基于手绘草图的图像检索结果比较

表2展示了本发明算法与其他基准算法的平均均值准确率(mean averageprecision，MAP)对比结果。从表2中可见，本发明算法达到了0.1954的MAP，超过了其他所有基准方法。特别的，本发明算法相比于其他所有非线性方法而言鲁棒性更强。从表2中还可以看出，本发明算法比同样采用卷积神经网络的3Dshape有更好的性能，说明本算法设计的较大的卷积核尺寸更适合于提取手绘草图的特征。

图4展示了部分手绘草图的查询结果。从图4中可以看出本发明检索出的图像与手绘草图的相关性十分强，说明本算法的有效性。

总之，本算法通过设计一种新的卷积神经网络结构得到一种嵌入函数，将所有手绘草图与真实图像映射到学习到的度量函数所定义的度量空间中进行相似度度量，有效的提升了检索算法的精确度和鲁棒性，达到了目前的先进水平。

Claims

1.一种基于手绘草图的图像检索算法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于手绘草图的图像检索算法，其特征在于，所述的步骤二的具体过程包括：

3.如权利要求1所述的所述的基于手绘草图的图像检索算法，其特征在于，步骤三的具体过程包括：

步骤3.6，将250个正样本与当前草图s^a组成正样本对集合：

其中0代表图像相似；

将250个负样本与当前草图s^a组成负样本对集合：

其中1代表图像不相似

4.如权利要求1所述的所述的基于手绘草图的图像检索算法，其特征在于，步骤四的具体过程包括：

步骤4.2，构建用于组成孪生结构的卷积神经网络Net；

步骤4.5，通过式(1)得到孪生卷积神经网络G的损失函数值L:

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <msup> <mrow> <mo>(</mo> <mrow> <mi>s</mi> <mo>,</mo> <mi>e</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> </mrow> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

式(1)中，(s,e,y)ⁱ当前批训练元组中第i个训练样本，N为当前批训练元组的个数，W为Net^s,Net^e共享的网络参数，即G要训练的对象；式(1)中单

个训练元组的损失l定义如式(2)：

l(W,(s,e,y)ⁱ)＝(1-y)L_p(M_W(s,e)ⁱ)+yL_N(M_W(s,e)ⁱ) (2)

5.如权利要求1所述的基于手绘草图的图像检索算法，其特征在于，步骤五的具体过程包括：

6.如权利要求1所述的基于手绘草图的图像检索算法，其特征在于，步骤六的具体过程包括：