CN105183746B

CN105183746B - 从多相关图片中挖掘显著特征实现图像检索的方法

Info

Publication number: CN105183746B
Application number: CN201510397208.6A
Authority: CN
Inventors: 钱学明; 杨锡玉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2018-04-17
Anticipated expiration: 2035-07-08
Also published as: CN105183746A

Abstract

本发明公开了一种从多幅相关图片中挖掘显著特征实现图像检索的方法，其特征是，采用灵活二值描述符的生成以及基于二值描述符的特征匹配来完成。灵活二值描述符将原始的浮点型图像特征的每一维通过与二叉平衡树各结点相应参考值的比较而转变为二进制的形式；而特征匹配首先基于二值描述符计算特征间的相似性，然后归一化特征的相似性得分，依次选出最佳匹配的特征对，由最佳匹配特征对可以找到多幅相关图中的显著特征。显著特征数量少，但代表着图片的重要视觉内容，结合其几何信息用于检索可以得到不错的检索结果。

Description

从多相关图片中挖掘显著特征实现图像检索的方法

技术领域

本发明涉及一种图像检索技术，特别涉及一种手机端基于内容的图像检索方法。

背景技术

近年来，手机正在经历爆炸式的发展。据统计，2014年全球手机用户已达到45亿，智能手机用户达到17亿。对于大多数人，尤其是年轻人来说，手机已成为生活中不可或缺的一部分。相比电脑，他们更倾向于使用手机做很多事情，比如分享照片、查询公交车路线，尤其是手机上网。随着智能手机的发展，手机内置摄像头的功能也越来越强大，可以说手机已经改变了人们的拍照方式。根据诺基亚公司2006年的统计，全球42％的人使用手机作为主要的拍照方式；CNTT报告显示2014年中国有78.5％的人使用手机作为主要的拍照方式，并且可以预见，这个比率会不断升高。手机的便携性使得人们希望可以通过手机处理更多的事情，手机端基于内容的图像检索也逐渐受到关注。传统的图像搜索引擎，比如谷歌、百度，要求用户输入文本形式的查询词，然后搜索引擎基于图片的描述成功地返回相关图片给用户。然而，有些时候用户不能用准确的词描述他的搜索意图，还有些时候用户看到了一个不认识的事物想要了解相关信息，这样的情况下，基于内容的图片检索可以解决以上问题，比如用户看到了一栋建筑，他可以拍下这栋建筑物的照片，然后搜索相似图片，那么用户可以通过相似图片的信息和描述了解他拍下的建筑。

针对于手机端的图像检索，大多数人习惯于拍摄多张照片以确保至少一张是满意的或者全面的展示事物，于是可以综合分析利用相关图片以捕捉查询图的重要内容。一般说来，从相关图中挖掘重要的视觉内容需要在相关图片中进行特征匹配，目前已有多种特征匹配方法被提出，通常的做法是计算图像特征间的欧式距离或者cosine距离，由欧式距离和cosine距离表示特征相似性，准确度虽高但效率低，为了提高效率，多种二值描述符被提出，然而大多数二值描述符对长度依赖大，且对原始特征的描述能力不足。

发明内容

本发明的目的是解决从手机端的相关图片中挖掘重要的视觉内容以实现图像检索的问题，而重要视觉内容的挖掘通常通过特征匹配实现，鉴于此，本发明提出了一种基于灵活二值描述符特征匹配的方法来实现图像的检索，灵活二值描述符尽可能多的保留原始特征的信息以准确区分不同的特征。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种从多相关图片中挖掘显著特征实现图像检索的方法,包括下述步骤:

第一步，多相关图挖掘，在用户的手机相册中搜索与查询图相关的图片，采用经典的BoW模型衡量相似用户相册中的图片与查询图的视觉相似性，由离线、在线两个部分构成，离线部分包括训练集中的图片特征提取、聚类和量化；在线部分包括图片特征提取、量化和相似性计算，其中，离线部分和在线部分的图片特征提取方法相同；

第二步，生成灵活二值描述符，具体操作如下：

2.1、计算特征最大值向量，SIFT特征描述符是128维的向量，首先计算训练集中的所有特征在每个维度上的最大值：

max_d＝{md₁,md₂,…,md_m}

其中，max_d表示特征最大值向量，md_i表示特征最大值向量max_d的第i维，是训练集中第j个特征的第i维，FN表示训练集中特征的数目；

2.2、定义二叉平衡树，二叉平衡树要求满足以下性质：

2.2.1若左子树不空，则左子树上所有结点的关键字值均小于根结点的关键字值；

2.2.2若右子树不空，则右子树上所有结点的关键字值均大于根结点的关键字值；

2.2.3其根的左、右子树高度之差的绝对值不超过1；

2.2.4其根的左、右子树都是二叉平衡树。

二叉平衡树的每个结点都是一个参考向量，参考向量定义为α·max_d，α为尺度因子，0<α<1；

2.3、生成初始二值描述符，分别将一个SIFT特征的每一维与二叉平衡树结点的对应位进行比较：

其中，d_i表示SIFT特征的第i维，表示d_i与二叉平衡树的第l层结点比较的结果，表示第l层某个结点的第i维；于是生成初始二值描述符的方法是分别将每一位表示为二进制形式，对于特征的每一维，首先将其与根结点的对应位进行比较，若结果为1，则继续与右子树比较，否则与左子树进行比较，如此迭代比较直到得到与叶子结点的结果，最终的结果是特征的每一维表示为l位的二进制形式；

第三步，基于二值描述符的特征匹配，包括下述子步骤：

3.1、特征匹配得分计算

3.1.1假设有两幅相关的图片分别定义为图a和图b,我们对图a和图b中量化到相同视觉词汇的特征进行匹配得分计算，根据特征的二值描述符计算两个特征的匹配得分：

其中，L表示二值描述符总的长度，表示和的匹配得分，和分别是图a中的第i个特征和图b中的第j个特征；和是和的第k维的二值表示，对于SIFT特征，k＝1,……,128；表示二进制减法的绝对值；

3.1.2匹配得分归一化

假设图a中的p个特征和图b中的q个特征量化到相同的视觉词汇，则量化到相同视觉词汇的图a中第i个特征与图b中第j个特征的匹配得分归一化表示为：

其中，表示和设定阈值去除相似性太低的特征对中量化到相同词汇的p个特征的相似度平均值，表示和选择最相似的特征对中量化到相同词汇的q个特征的相似度平均值；

3-2、最佳匹配对确定，具体操作如下：

首先设定一个阈值切断相似性太低的特征间的联系，留下的特征对则组成了可能的匹配特征对集合；接着从集合中选出具有最大归一化相似性得分的一对作为最佳匹配对，同时切断构成最佳匹配对的两个特征与其它特征的联系，即从集合中删除关于这两个特征的所有特征对，如此反复循环挑选出具有最高相似度的特征对，直到集合中没有成对的特征；

第四步，由最佳匹配对确定显著特征；

第五步，使用显著特征实现图像检索。

同现有的二值描述符相比，本发明的优点是：

1)引入了二叉树结构提高生成二值描述符的效率；

2)有效地划分特征的值的取值空间，二值描述符表明了特征每个维度所在的取值空间，取值空间的不同可区分特征本身的差异。同现有的特征匹配方法相比，本发明特征匹配得分通过归一化操作使得最佳匹配的特征对的匹配得分相对较大，容易被挖掘到，并且本发明提出的匹配方法能尽可能多的挖掘的潜在的匹配特征对。

3)在找到最佳匹配对后，通过综合分析相关图中的最佳匹配对确定显著特征，从而实现图像检索，准确度高同时也提高了效率。

附图说明

下面结合附图和具体实施方式对本发明做进一步的详细说明。

图1是本发明中基于二叉树生成二值描述符的二叉树结构示意图。图中：各结点的值表示结点所代表的参考向量的尺度因子。

图2为本发明中特征匹配的说明图。假设我们进行特征匹配的两幅图片分别定义为图a和图b,图2中d_a ¹，d_a ²和d_a ³表示图a中量化到某视觉词汇的三个特征，则d_b ¹和d_b ²表示图b中与d_a ¹，d_a ²和d_a ³量化到相同视觉词汇的两个个特征。图2(a)是设定阈值去除相似性太低的特征对，图中虚线表示不合格被去除的特征对；图2(b)是选择最相似的特征对，图中双箭头实线连接的是具有最大相似性得分的两个特征；图2(c)是切断其它特征与选出的最佳匹配对中的特征的联系，图中虚线表示去除的特征对。

具体实施方式

本发明基于二值描述符从多幅相关图片中挖掘显著特征以实现图像检索的方法，分五个步骤：多相关图挖掘；生成灵活二值描述符；基于二值描述符的特征匹配；确定显著特征；利用显著特征实现图像检索。

1、多相关图挖掘是在用户的手机相册中找到与查询图相关的图片，我们采用经典的BoW模型衡量相似用户相册中的图片与查询图的相似性。由离线部分和在线部分构成，离线部分包括训练集中的图片特征提取、聚类和量化；在线部分包括图片特征、量化和图片间视觉相似性计算。离线部分和在线部分的特征提取方法是一样的。

首先介绍特征提取，我们使用的是经典的图片局部特征：SIFT特征。SIFT特征的提取可以分为以下三个步骤实现：

(1)特征点的检测。对一幅图像，首先进行如下预处理，转化图像为灰度图像、进行平滑归一化处理以去除高频点、放大为原来的两倍。然后建立差分高斯金字塔(DoG)，在DoG尺度空间上将一个像素点通过与邻近的26个点的比较检测极大值点，去除低对比度极值点，计算Hessian矩阵求主曲率丢弃边缘不稳定点。剩下的极值点就是SIFT(尺度不变特征转换)算法提取出的特征点。

(2)确定主方向。计算特征点梯度方向，建立0度到360度梯度方向直方图，最大的定为主方向。

(3)生成特征向量。旋转坐标轴到主方向，这样保证SIFT特征就具有了旋转不变性。取特征点周围16个种子点(4*4的像素块)，每个种子点含有8个方向的梯度值，得到128维的特征数据，然后进行归一化生成SIFT特征描述符。

离线部分的特征聚类是对训练集中图片的SIFT特征进行采样，然后使用可分级k-means方法进行聚类，结果是将相似的特征聚为一类，并生成聚类中心作为每个类的描述，所有的聚类中心就构成了时间词汇码书。每一个类中心称为一个视觉词汇。

在线部分使用离线部分训练好的词汇码书对特征进行量化，也就是根据相似性以视觉词汇表示每个特征，于是每个图片可以表示为词汇包的形式(BoW)。我们对查询图及相册中的图片都提取SIFT特征，然后进行量化，量化结果是将查询图与相册中的图片都以BoW直方图的形式的表示。

在线部分的图片间相似性计算是计算图片的BoW直方图的相似性。假设查询图和相册中图片的归一化BoW直方图分别表示为hq和hm(i)，那么相册中第i张图片与查询图的相似性(记作Dis(i))，可通过计算BoW直方图的L1距离得到：

Dis(i)＝exp(-||h_q-h_m(i)||₁)

其中，||·||₁表示L1范数，i＝1,…,P，P是用户相册中的图片数量。

在计算出相册中所有图片与查询图的BoW直方图相似性得分后，对得分从高到底排序，得分最高的M-1张作为候选相关图。然后我们设置一个相似性阈值，如果某张候选相关图的相似性得分低于此阈值，则被去除，剩下的图片就是查询图的相关图。

2、在有相关图的情况下，我们基于二值描述符挖掘相关图中与查询图匹配的特征，具体操作如下：

2-1.计算特征最大值向量

SIFT特征描述符是128维的向量，首先计算训练集中的所有特征在每个维度上的最大值：

max_d＝{md₁,md₂,…,md_m}

其中，max_d表示特征最大值向量，md_i表示特征最大值向量max_d的第i维，是训练集中第j个特征的第i维，FN表示训练集中特征的数目。

2-2.定义二叉平衡树

二叉平衡树要求满足以下性质：

1)若左子树不空，则左子树上所有结点的关键字值均小于根结点的关键字值；

2)若右子树不空，则右子树上所有结点的关键字值均大于根结点的关键字值；

3)其根的左、右子树高度之差的绝对值不超过1；

4)其根的左、右子树都是二叉平衡树。

二叉平衡树的每个结点都是一个参考向量，参考向量定义为α·max_d，α为尺度因子，0<α<1。二叉平衡树的结构如图1所示，图1中每个结点的值即α的值。

2-3.生成初始二值描述符

分别将一个SIFT特征的每一维与二叉平衡树结点的对应位进行比较：

其中，d_i表示SIFT特征的第i维，表示d_i与二叉平衡树的第l层结点比较的结果，表示第l层某个结点的第i维。于是生成初始二值描述符的方法是分别将每一位表示为二进制形式。对于特征的每一维，首先将其与根结点的对应位进行比较，若结果为1，则继续与右子树比较，否则与左子树进行比较，如此迭代比较直到得到与叶子结点的结果，最终的结果是特征的每一维表示为l位的二进制形式。

3、基于二值描述符的特征匹配方法包括：

3-1特征匹配得分计算；

3-1-1.假设有两幅图片分别定义为图a和图b,我们对图a和图b中量化到相同视觉词汇的特征进行匹配得分计算，我们根据特征的二值描述符计算两个特征的匹配得分：

其中，L表示二值描述符总的长度，表示和的匹配得分，和分别是图a中的第i个特征和图b中的第j个特征。和是和的第k维的二值表示，对于SIFT特征，k＝1,……,128。表示二进制减法的绝对值。

3-1-2.匹配得分归一化

其中，表示和图a中量化到相同词汇的p个特征的相似度平均值，表示和图b中量化到相同词汇的q个特征的相似度平均值。

3-2最佳匹配对确定

具体操作如下：

如图2所示，首先设定一个阈值切断相似性太低的特征间的联系如图2(a)中虚线所示，留下的特征对则组成了可能的匹配特征对集合。接着从集合中选出具有最大归一化相似性得分的一对作为最佳匹配对如图2(b)双箭头实线连接的特征对所示，同时切断构成最佳匹配对的两个特征与其它特征的联系，即从集合中删除关于这两个特征的所有特征对如图2(c)中虚线所示，去除的特征是用红色虚线圈起来的。如此反复循环挑选出具有最高相似度的特征对，直到集合中没有成对的特征。

4、由最佳匹配对确定显著特征，具体操作如下：

4-1.整理最佳匹配对得到同义语义点(ISP)。我们以ISP表示一组相互最佳匹配的SIFT点：

其中，ISP_l表示第l个ISP，X表示相关图的数量，是查询图中的特征，是在第i张图中与ISP中其他特征能够最佳匹配的特征在的第i张图中SIFT ID，如果第i张图中没有特征与ISP_l中的其他特征相匹配，则

4-2.ISP重要性排序。用C表示ISP在多相关图中是否出现：

式中：表示ISP_l在第i张图在是否出现，也就是第i张图中是否有特征与ISP_l中的其他特征相匹配，如果有，即则不然

ISP_l的重要性由其在多图中的一致性得分(CS)来衡量：

于是，通过对所有ISP在多图中的一致性得分排序，ISP在大体上做了排序。然而有许多ISP有相同的一致性得分，接下来对有相同一致性得分的ISP根据稳定性做进一步排序。我们将一个ISP包含的特征间的相似性得分加和作为此ISP的稳定性得分：

总的来说，ISP首先按照一致性得分从高到低排序，然后对于具有相同一致性得分的ISP，根据它们的稳定性得分做更为细致的排序。在对ISP排序后，可以选择一定数量排序靠前的显著特征到服务器进行检索。

5、使用显著特征实现图像检索，具体方法如文献X.Yang,X.Qian.Learningsalient visual words for scalable mobile image retrieval.Pattern Recognition,2015.具体操作步骤如下：

5-1对显著特征按照在查询图中的空间位置进行空间编码

式中：x_i和x_j分别表示第i个和第j个显著特征在图中的横坐标，y_i和y_j表示纵坐标。

5-2显著特征对应的视觉词汇定义为显著视觉词汇，由显著词汇根据倒排索引表检索到匹配图片，然后对显著词汇在匹配图中的空间位置进行空间编码。

5-3匹配图中和显著视觉词汇一致的词汇的空间编码在匹配图和查询图中的空间编码结果进行相似性计算作为匹配图与查询图的相似性得分：

其中，SP_X(i)和SP_Y(i)分别表示第i个一致的词汇在匹配图和查询图中的Xmap和Ymap的差异。匹配图按照与查询图的相似性得分排序得到检索结果。

Claims

1.一种从多相关图片中挖掘显著特征实现图像检索的方法,其特征在于，包括下述步骤:

第二步，生成灵活二值描述符，具体操作如下：

max_d＝{md₁,md₂,…,md_m}

2.2、定义二叉平衡树，二叉平衡树要求满足以下性质：

2.2.1 若左子树不空，则左子树上所有结点的关键字值均小于根结点的关键字值；

2.2.2 若右子树不空，则右子树上所有结点的关键字值均大于根结点的关键字值；

2.2.3 其根的左、右子树高度之差的绝对值不超过1；

2.2.4 其根的左、右子树都是二叉平衡树；

第三步，基于二值描述符的特征匹配，包括下述子步骤：

3.1、特征匹配得分计算

3.1.1 假设有两幅相关的图片分别定义为图a和图b,对图a和图b中量化到相同视觉词汇的特征进行匹配得分计算，根据特征的二值描述符计算两个特征的匹配得分：

<mrow> <mi>M</mi> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>L</mi> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mi>k</mi> </munder> <mo>|</mo> <msup> <msubsup> <mi>sbd</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mi>k</mi> </msup> <mo>-</mo> <msup> <msubsup> <mi>sbd</mi> <mi>b</mi> <mi>j</mi> </msubsup> <mi>k</mi> </msup> <mo>|</mo> </mrow>

其中，L表示二值描述符总的长度，表示和的匹配得分，和分别是设定阈值去除相似性太低的特征对中的第i个特征和选择最相似的特征对中的第j个特征；和是和的第k维的二值表示，对于SIFT特征，k＝1,……,128；表示二进制减法的绝对值；

3.1.2 匹配得分归一化

图a中的p个特征和图b中的q个特征量化到相同的视觉词汇，则量化到相同视觉词汇的图a中第i个特征与图b中第j个特征的匹配得分归一化表示为：

<mrow> <mi>s</mi> <mi>c</mi> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>p</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </msubsup> <mi>M</mi> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>a</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <mi>q</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </msubsup> <mi>M</mi> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>d</mi> <mi>b</mi> <mrow> <mi>j</mi> <mi>c</mi> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

3-2、最佳匹配对确定，具体操作如下：

第四步，由最佳匹配对确定显著特征；

第五步，使用显著特征实现图像检索。

2.如权利要求1所述的从多相关图片中挖掘显著特征实现图像检索的方法,其特征在于，所述由最佳匹配对确定显著特征的具体方法如下：

a、整理最佳匹配对得到同义语义点ISP，以ISP表示一组相互最佳匹配的SIFT点：

其中，ISP_l表示第l个ISP，X表示相关图的数量，是查询图中的特征，是在第i张图中与ISP中其他特征能够最佳匹配的特征所在的第i张图中SIFT ID，如果第i张图中没有特征与ISP_l中的其他特征相匹配，则

b、ISP重要性排序，用C表示ISP在多相关图中是否出现：

式中：表示ISP_l在第i张图中是否出现，也就是第i张图中是否有特征与ISP_l中的其他特征相匹配，如果有，即则不然

ISP_l的重要性由其在多图中的一致性得分CS来衡量：

<mrow> <msub> <mi>CS</mi> <mi>l</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>X</mi> </munderover> <msubsup> <mi>c</mi> <mi>l</mi> <mi>i</mi> </msubsup> <mo>.</mo> </mrow>

3.如权利要求2所述的从多相关图片中挖掘显著特征实现图像检索的方法,其特征在于，当ISP有相同的一致性得分，将一个ISP包含的特征间的相似性得分加和作为此ISP的稳定性得分：

<mrow> <msub> <mi>Sta</mi> <mi>l</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> </munder> <mi>M</mi> <mi>S</mi> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>l</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>d</mi> <mi>l</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>.</mo> </mrow>