CN107895028B

CN107895028B - 采用深度学习的草图检索方法

Info

Publication number: CN107895028B
Application number: CN201711147602.XA
Authority: CN
Inventors: 周圆; 李绰; 杨晶; 霍树伟; 毛爱玲; 杨建兴
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2019-11-29
Anticipated expiration: 2037-11-17
Also published as: CN107895028A

Abstract

本发明公开了一种采用深度学习的草图检索方法，步骤(1)、接收待检索草图提供的轮廓信息和利用相应文本提供的草图中所有颜色的文本信息作为“双索引”输入数据；步骤(2)、在待查询数据集中搜索轮廓特征相匹配的图片目标对象；步骤(3)、利用欧几里德距离公式在由轮廓信息进行排序的基础上根据文字控制的颜色信息进行重新排序。与现有技术相比，本发明通过判断待检索图像颜色是否落入输入颜色对应的基准范围或者度量其与范围边界的距离，进而对草图检索网络的排序结果进行调整，实现检索准确率的提升，相比其它方法能取得更好的搜索结果。

Description

采用深度学习的草图检索方法

技术领域

本发明涉及人工智能技术领域、深度学习的图像特征提取、等技术，特别是涉及一种基于异构索引信息的图像检索方法。

背景技术

随着互联网和多媒体信息技术的飞速发展，图像信息正变得越来越重要，而众多行业的需求对专业的图像搜索提出了新的要求。传统的“以文搜图”的方式往往过度依赖于输入检索关键字和备查图像标注的准确性和完备性，难以保证复杂场景下的检索质量；而近年商用的“以图搜图”的方法所依赖的索引图一般不适用人工绘制或随地拍摄，因此，基于手绘草图的图像检索需求应运而生。

手绘草图是一种由稀疏的曲线构成的用于描述物体大致轮廓的简化图像，它具有获取方便、表现直接、信息冗余少等优点。基于手绘草图的图像检索(以下简称“草图检索”)是一种以不携带颜色信息的手绘轮廓图为索引信息的图像检索技术，其需要解决的关键问题是如何从语义与结构两个层面综合度量给定草图与待检图像轮廓之间的相似程度。经过初步探索，研究者提出一些基于机器学习的草图检索算法，这些算法在某些简单任务集上取得较为可靠的性能，但其处理能力仍受限于某些亟待解决的技术难题，包括：(i)索引信息(手绘草图)与待检索对象(彩图/灰度图)对物体的表示方式有较大差别；(ii)手绘草图的表示精度难以控制，即待训练草图与对应图像的相似程度将极大影响训练结果的鲁棒性；(iii)训练集数量有限：目前可获得的训练所需数据不足，使得机器学习的结果难以达到理想效果。

发明内容

基于上述现有技术，本发明提出一种基于手绘草图的图像检索方法，实现了一种“双索引协同检索”方法，基于图像轮廓和颜色信息，综合利用草图提供的轮廓信息和文本提供的颜色信息实现更加准确地图像检索。

本发明的一种采用深度学习的草图检索方法，该方法包括以下步骤：

步骤1、接收待检索草图提供的轮廓信息和利用相应文本提供的草图中所有颜色的文本信息作为“双索引”输入数据；

步骤2、依据轮廓特征和颜色的文本信息“双索引”在数据库中搜索与之轮廓特征、颜色的文本信息相匹配的图片目标对象；

步骤3、利用欧几里德距离公式在由轮廓信息进行排序的基础上根据文字控制的颜色信息进行重新排序。

所述步骤2具体包括以下步骤：

首先，依据轮廓特征进行搜索，具体包括以下处理：

训练好三元组神经网络：所述神经网络模型为一个深度学习的三元组排名模型：三个输入分支分别对应草图s、彩图正样本p⁺、彩图负样本p^-，通过训练使得草图分支神经网络的输出值f_θ(s)接近彩图正样本神经网络的输出f_θ(p⁺)，远离彩图负样本神经网络的输出f_θ(p^-)，对于给定的三元组t＝(s,p⁺,p^-)，将其损失函数表示为下式：

L_θ(t)＝max(0,Δ+D(f_θ(s),f_θ(p⁺))-D(f_θ(s),f_θ(p^-)))

其中，D(f_θ(s),f_θ(p⁺))，D(f_θ(s),f_θ(p^-))分别表示草图s的特征分别与正样本p⁺和负样本p^-特征之间的距离，Δ表示一个介于正样本—草图和负样本—草图距离之间的一个阈值度量；在两个候选图片中查询草图s到正样本p⁺的距离比负样本p^-更小：D(f_θ(s),f_θ(p⁺))＜D(f_θ(s),f_θ(p^-))；如果两张图片排序正确，之间的距离为大于Δ，表示这个三元组模型正确；否则，损失将是一个在0-1之间凸近似的排序损失，其测量违反了由三元组指定的期望排序顺序的程度，最终的目的是使得损失函数最小化，满足真正的排序顺序，损失函数的目标优化公式如下：

其中，T表示三元组的训练集，θ表示从输入空间到映射空间f_θ(·)深度模型的参数，并且R(·)表示l₂正则项，λ表示正则项参数；

将用训练好的单支网络对数据库中的彩色图像一一进行特征提取并缓存，然后当输入草图时，经过单支网络的特征提取将对缓存的数据库特征进行匹配和排序，从而检索出与草图相似的彩色图片。

所述步骤3具体包括以下步骤：

首先，对待查询数据库中彩色图片进行去噪、去除待查询图片的背景区域，使用公式如下：

其中，c(x,y)表示坐标(x,y)处像素的颜色，c_white表示纯白色在RGB颜色空间中的值c(x,y)＝[255，255，255]，O(x,y)为待测物体的目标区域，ε为像素差阈值参数；当整张图片的各像素点的值与纯白色像素的值之差小于或等于某个值时，认为该部分为背景区域；当不在此范围时，该部分为目标区域；当目标物体颜色与背景颜色相似时，初步判断后会在目标轮廓的周围产生大量噪声点；

根据草图中所有颜色的文字信息，从简笔画目标对象图片中搜索出对应颜色的物体，将文字信息转化为了颜色信息，实现了文字到颜色的跨域转换；具体作法包括：先将文字信息转换为对应的颜色信息，并给不同的颜色在RGB三个通道定义不同的范围值：首先定义了红、黄或橙黄、绿、蓝、紫、棕、黑、白、灰九个颜色作为实验颜色搜索的基准颜色；然后分别在每种颜色中选取同一类相似的五种颜色，一共45种颜色，在每种颜色中五个颜色里面分别找到其对应的RGB值，从而分别得到九种颜色的RGB基准范围；

其次，依据候选图片与基准颜色在r通道上的距离d_r进行轮廓特征的排序：输入查询草图的颜色时，当候选图片的RGB值位于查询图片规定的基准颜色范围内时，该RGB通道与基准颜色相同通道距离为0，若不在基准颜色范围内，将选取与基准颜色两端值距离最小的作为两颜色的距离；其公式如下：

其中，R₁为候选图片r通道最大概率的灰度值，A_r和B_r分别为r通道基准颜色范围的左右边界，d_r为候选图片与基准颜色在r通道上的距离；

根据原有轮廓信息排序结果结合颜色信息重新定义距离公式，其中图片颜色信息越符合，原有排序图片位置越靠前，则与测试草图的距离越小，越相似，其距离公式如下：

其中，i表示原有候选图片排序信息，分别表示候选图片颜色与基准颜色在r、g、b通道上的距离，eⁱ表示考虑对原来特征信息进行排序而加入原有排序信息的正则项；

将候选图片逐一进行距离计算后，根据距离按照从小到大的顺序实现重新排序。

与现有技术相比，本发明具有以下效果：

该方法首先根据经验划分了九种常见颜色在RGB通道灰度值的基准范围，在检索过程中，通过判断待检索图像颜色是否落入输入颜色对应的基准范围或者度量其与范围边界的距离，进而对草图检索网络的排序结果进行调整，实现检索准确率的提升，相比其它方法能取得更好的搜索结果。

附图说明

图1为本发明的采用深度学习的草图检索方法整体流程图；

图2为深度学习的三元组排名模型结构示意图；

图3为结果定性比较示意图；

图4为结果定量比较示意图。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

本发明的采用深度学习的草图检索方法，整体技术方案为：接收待检索草图提供的轮廓信息和相应文本提供的颜色信息作为输入数据；依据输入数据在数据库中搜索与之轮廓匹配的草图目标对象；以及将所述草图目标对象提供给用户，然后根据输入文字所表示的颜色信息对检索结果进行微调。

如图1所示，本发明的采用深度学习的草图检索方法，具体流程详细描述如下：

步骤1、接收待检索草图提供的轮廓信息和利用相应文本提供的草图中所有颜色的文字信息作为输入数据；

步骤2、依据输入数据在数据库中搜索与之轮廓匹配的简笔画目标对象，具体处理包括：(1)利用训练好的神经网络模型分别对草图和图像进行轮廓特征提取，然后将提取的查询图像特征与数据库中的自然图片轮廓特征进行匹配和排序，并输出最后的检索结果，即将测试部分加在训练结束后面；在神经网络模型中，本发明开发了一个深度学习的三元组排名模型、以及相应的训练流程，以缓解神经网络训练中数据不足和过拟合的问题。其训练过程如下：

(1)单支网络的预训练。用ImageNet数据集中图片对单支网络做分类与训练；

(2)单支网络的微调。用TU-Brlin数据集中草图对(1)中网络做分类微调；

(3)三元组网络的预训练。分别在TU-Brlin草图数据集和ImageNet图片数据集里挑选图片组成三元组对，对三元组网络训练；

(4)三元组网络的微调。用鞋子椅子三元组数据集微调。参见如图2所示的网络结构。

如图2所示，深度学习的三元组排名模型结构示意图；三个输入分支分别对应草图s、彩图正样本p⁺、彩图负样本p^-，通过训练使得草图分支神经网络的输出值f_θ(s)接近彩图正样本神经网络的输出f_θ(p⁺)，远离彩图负样本神经网络的输出f_θ(p^-)，例如，在两个候选图片中查询草图s到正样本p⁺的距离比负样本p^-更小：D(f_θ(s),f_θ(p⁺))＜D(f_θ(s),f_θ(p^-))，其中D(f_θ(s),f_θ(p⁺))，D(f_θ(s),f_θ(p^-))为草图s的特征分别与正样本p⁺和负样本p⁺特征之间的距离。

对于最终的目标，制定了一个有着排名损失的深度三元组排名模型。对于给定的三元组t＝(s,p⁺,p^-)，它的损失函数表示为：

L_θ(t)＝max(0,Δ+D(f_θ(s),f_θ(p⁺))-D(f_θ(s),f_θ(p^-))) (4-1)

其中，Δ是一个介于正样本—草图和负样本—草图距离之间的一个阈值度量。

如果两张图片排序正确，之间的距离为大于Δ，这个三元组模型将表示正确；否则，损失将是一个在0-1之间凸近似的排序损失，其测量违反了由三元组指定的期望排序顺序的程度。总体而言，本发明优化以下目标：

其中，T表示三元组的训练集，θ表示从输入空间到映射空间f_θ(·)深度模型的参数，并且R(·)表示l₂正则项λ表示正则项参数。

本发明最终的目的是最小化这种损失，这将缩小正查询距离，同时加大负查询距离，从而学习到满足真正的排序顺序。如果使用足够的三重注释，深度模型将最终学习到这种草图和照片之间的细粒度细节进行检索的能力。

按照以上步骤练好三元组神经网络以后，在测试部分，首先将用训练好的单支网络对数据库中的彩色图像一一进行特征提取并缓存，然后当输入草图时，经过单支网络的特征提取将对缓存的数据库特征进行匹配和排序，从而检索出与草图相似的彩色图片。

如图3所示，(3-1)为将提取的查询图像特征与数据库中的自然图片特征进行匹配和排序并输出最后的检索结果的定性比较示意图。

步骤3、图像的重排序，即利用欧几里德距离公式在由轮廓信息进行排序的基础上根据文字控制的颜色信息进行重新排序：

首先，对待检索图片进行去噪、去除待查询图片的背景区域，使用公式如下：

其中，c(x,y)表示坐标(x,y)处像素的颜色，c_white表示纯白色在RGB颜色空间中的值c(x,y)＝[255，255，255]，O(x,y)为待测物体的目标区域，ε为像素差阈值参数；当整张图片的各像素点的值与纯白色像素的值之差小于或等于某个值时，认为该部分为背景区域；当不在此范围时，该部分为目标区域；当目标物体颜色与背景颜色相似时，初步判断后会在目标轮廓的周围产生大量噪声点。

根据草图中所有颜色的文字信息，微调之前基于轮廓检索的排序结果，具体作法包括：先将文字信息转换为对应的颜色信息，并给不同的颜色在RGB三个通道定义不同的范围值：首先定义了红、黄(橙黄)、绿、蓝、紫、棕、黑、白、灰九个颜色作为实验颜色搜索的基准颜色；然后分别在每种颜色中选取同一类相似的五种颜色，一共45种颜色，在每种颜色中五个颜色里面分别找到其对应的RGB值，从而确定每种颜色RGB值的范围。这样就可以分别得到九种颜色的RGB基准范围。比如，当输入文字‘绿色’时，就可以得到绿色的R通道的范围是[0,110]，G通道范围是[190,255]，B通道范围是[0,110]。这样就将文字信息转化为了颜色信息，实现了文字到颜色的跨域转换。表1为选取RGB三个通道的基准范围表。

表1

颜色的直方图能够通过对图像RGB三通道颜色的提取，反映该图片的颜色分布(即不同颜色出现的概率)。颜色直方图方法主要是先把图像目标区域的颜色分为三个通道然后将颜色分别提取出来得到三个不同通道的直方图。为了排除各个因素对实验的影响，比如，对图像进行旋转、大小变换和图像降分辨率等操作之后重新对颜色进行提取，发现直方图变化不大，因此在进行图像颜色特征提取时排除了图像位置、大小、分辨率等物理信息对图像特征提取的影响。另外，如果图像分为不同的区域并且前后背景差异明显，在直方图上将会出现两个峰值，但是由于上一步中已将背景区域去除，因此本文将很容易得到目标物体的颜色直方图。由于对图片中目标物体的提取并不是十分精确在提取的目标周围可能存在较大面积噪声，这将影响接下来对于图片主要颜色的选取，因此之后要将上面提取的颜色直方图进行平滑，在此基础上再提取图像的主要颜色。

上述的步骤为候选图片颜色RGB通道提取方法并且定义了要查询颜色的RGB通道的基准颜色范围。

当本文输入查询草图的颜色时，将自动找到对应该颜色的RGB三个通道的取值范围，并且可以得到与该草图最相近的前20张图像的RGB值，其表示为R1、G1、B1，然后规定：当候选图片的RGB值位于查询图片规定的基准颜色范围内时，该通道与基准颜色相同通道距离为0，若不在基准颜色范围内，将选取与基准颜色两端值距离最小的作为两颜色的距离。其公式为如下：

考虑到根据草图线条信息排序在最终排名中占有一定的影响，将根据原有轮廓信息排序结果结合颜色信息重新定义距离公式，其中图片颜色信息越符合，原有排序图片位置越靠前，则与测试草图的距离越小，越相似，其距离公式如下：

其中，i为原有候选图片排序信息，分别为候选图片颜色与基准颜色在r、g、b通道上的距离，eⁱ为考虑对原来特征信息进行排序而加入原有排序信息的正则项。

将候选图片逐一进行距离计算后，根据距离按照从小到大的顺序进行了重新排序，并将重新排序后的图片进行可视化处理，得到如图3所示的(3-2)检索结果定量比较示意图。

为了验证本文所提出的深度检索网络的优越性，本文在数据集Shoes&Chairs上做了算法性能检测，并与现有成熟技术做了性能对比。实验结果说明，本文算法的排序结果中真值图的排序最靠前，而且排在前一、前十的比例明显高于现有算法。然后在此基础上创新性地提出了一种“双索引协同检索”方法，两种方法均在模拟计算环境下进行了实现。为检测“双索引协同检索”方法的性能，本文在相同数据集上对其进行了大规模实验检测，定量与定性实验结果表明加入颜色信息后，检索算法的排序结果中真值图的次序更加靠前，而且排在首位的比例显著提高。

在这过程中通过将分类网络作为检索网络的分支组成三元组检索网络，并通过四个不同的数据集对分类网络和检索网络进行了重新训练和微调，最后与其它的草图检索方法进行对比，表明本实验方法相比其它方法能取得更好的搜索结果。然后在原有草图轮廓特征搜索的基础上，首次提出加入文字控制的颜色信息对原有检索图片进行重排序的草图异构信息检索方法，并与的轮廓排序结果进行对比，完善了实验结果，如图4所示。

Claims

1.一种采用深度学习的草图检索方法，其特征在于，该方法包括以下步骤：

步骤(1)、接收待检索草图提供的轮廓信息和利用相应文本提供的草图中所有颜色的文本信息作为双索引输入数据；

步骤(2)、在待查询数据集中搜索轮廓特征相匹配的图片目标对象；

步骤(3)、利用欧几里德距离公式在由轮廓信息进行排序的基础上根据文字控制的颜色信息进行重新排序；

所述步骤(2)具体包括以下步骤：

首先，依据轮廓特征进行搜索，具体包括以下处理：

L_θ(t)＝max(0,Δ+D(f_θ(s),f_θ(p⁺))-D(f_θ(s),f_θ(p^-)))

其中，T表示三元组的训练集，θ表示从输入空间到映射空间f_θ(·)深度模型的参数，并且R(·)表示l₂正则项λ表示正则项参数；

将用训练好的单支网络对数据库中的彩色图像一一进行特征提取并缓存，然后当输入草图时，经过单支网络的特征提取将对缓存的数据库特征进行匹配和排序，从而检索出与草图相似的彩色图片，

所述步骤(3)具体包括以下步骤：

其次，依据候选图片与基准颜色在r通道上的距离d_r进行轮廓特征的排序：输入查询草图的颜色时，当候选图片的RGB值位于查询图片规定的基准颜色范围内时，该RGB 通道与基准颜色相同通道距离为0，若不在基准颜色范围内，将选取与基准颜色两端值距离最小的作为两颜色的距离；其公式如下：