CN104462199B

CN104462199B - 一种网络环境下的近似重复图像搜索方法

Info

Publication number: CN104462199B
Application number: CN201410602359.6A
Authority: CN
Inventors: 胡卫明; 李峻; 兴军亮
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2017-09-12
Anticipated expiration: 2034-10-31
Also published as: CN104462199A

Abstract

本发明公开了一种网络环境下的近似重复图像搜索的方法，该方法包括：设计了网络图像的有效局部特征的提取和表示；利用视觉词包模型建立词典，并通过局部约束线性编码的方法对局部特征进行量化；为了将特征的空间信息嵌入图像表示，利用图像金字塔对图像进行空间弱分割，并对图像进行分块量化；将局部的量化的结果最后聚合成图像的全局描述，并计算图像之间的相似度或距离度量对待匹配图像进行相关排序，将图像序列中排在前面的图像返回。

Description

一种网络环境下的近似重复图像搜索方法

技术领域

本发明涉及网络多媒体信息处理领域，特别涉及一种网络图像搜索技术。

背景

随着互联网的普及和信息处理技术的不断发展，网络多媒体信息处理成为日益关注的焦点。多媒体包括文本，图形，声音，图像动画等各种信息院。由于当前图像处理的技术日新月异，网络图像数据量也呈现爆炸式的增长，然而这里面包含了很多经过编辑、修饰、拼接之后的重复图像。这就带来了图像盗版和侵权的问题。近年来对于近似重复图像搜索问题，众多学者展开了广泛的研究。不失一般性，近似重复图像搜索指的是找到所有的给定图像的变换拷贝图像，本发明关注的是“图像”类的近似重复图像搜索，即所有的拷贝图像和原始图像共有同源图像。

为了有效解决近似重复图像搜索的问题，视觉词包模型成为一种被广泛应用的解决方案，它提供了一种局部图像描述的有效统计信息，并同时生成一种紧致的基于直方图统计的图像表示。词包模型最早应用于目标检测和图像分类领域。由于传统的词包模型没有考虑特征的空间分部信息，而近似重复图像存在局部差异性和整体相似性的特点，所以在进行特征量化的阶段，需要将特征的空间分布统计和特征量化相结合，对图像进行基于空间感知的区域量化。

图1为网络近似重复图像的示例图，从图中可以看出，网络环境下的近似重复图像包括了更多更显著的图像变换，如：文字嵌入、图像剪裁拼接等等，这些变换明显改善了图像表观，都为网络近似重复图像搜索带来了极大的挑战。

发明内容

本发明的目的在于提出一种对图像进行基于空间感知的量化方法，以解决网络环境下近似重复图像搜索的问题。

为实现上述目的，本发明提出一种基于空间感知的网络近似重复图像搜索方法，其方法包括离线阶段和在线阶段，步骤如下：

离线阶段：

步骤A1：提取和描述输入网络图像的低层局部特征；

步骤A2：利用上述局部特征构建视觉词典，并将上述局部特征量化后，生成图相的全局特征描述；

步骤A3：构建倒排序索引；

在线阶段：

步骤B1：提取和描述给定查询图像的低层局部特征；

步骤B2：将B1种所获得的局部特征量化；

步骤B3：计算查询图像与离线阶段所输入网络图像的相关性，并对带匹配图像进行排序。

优选的，步骤B1与步骤A1中的所述的局部特征提取方法相同，步骤B2与步骤A2中所述的局部特征量化方法相同。

优选的，所述步骤A1包括：

步骤A11:对于输入的网络图像进行局部关键点的提取，并去除离群噪声点；

步骤A12:对所有保留的关键点，在其周围领域统计相关梯度方向信息，并生成基于梯度方向直方图的特征描述子。

优选的，所述步骤A2包括：

步骤A21:选取图像训练集，并提取图像训练集中所有图像的局部特征，通过无监督K-均值聚类法，对训练特征集进行聚类进而生成视觉词典；

步骤A22:在线更新视觉词典，使得词典适应于输入的网络图像并保持一致性；

步骤A23:在得到更新后的词典之后，利用局部约束线性编码的方法，将输入的网络图像中的所有特征进行量化，并映射到视觉词典上；

步骤A24:利用图像金字塔对图像进行弱分割，将量化后的局部特征按照分块原则进行特征的聚集，并生成图像的分块表示。

步骤A25:将不同层次上的所有图像分块表示串联起来，生成一幅图像的整体表示。

优选的，所述步骤A3包括：

离线阶段对于输入网络图像中的所有图像表示按照视觉单词目录建立倒排索引，并计算词频和倒排文档频率。

优选的，所述步骤B3包括：

步骤B31：通过计算词频以及倒排文档频率加权求和的方法计算给定查询图像与输入网络图像之间的相关性；

步骤B32:按照图像的相关性对待匹配图像进行排序，返回图像序列中排在前面的图像，作为给定查询图像的近似重复图像。

优选的，步骤A24所述图像金字塔为两层图像金字塔，第一层为图像本身，第二层被分为2*2图像单元。

本发明所提出的基于空间感知的网络近似重复图像搜索方法，可以将特征的空间分布统计信息嵌入图像特征表示，能够充分利用近似重复图像的局部差异性和全局相似性的特点，所以本发明在近似重复图像搜索准确度方面比传统的视觉词包模型的准确度更高。

附图说明

图1为网络近似重复图像示例图。

图2为本发明所采用的空间金字塔分割图像示意图。

图3为本发明相关算法的Matlab风格的伪代码。

图4为本发明提出的近似重复图像搜索方法的流程图。

图5为网络近似重复图像搜索的效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的方法并不受具体硬件和编程语言的限制，用任何语言编写都可以实现本发明的方法。本实施例采用一台具有2.83G赫兹中央处理器和4G字节内存的计算机，并用Matlab语言实现了本发明的方法。

为了更好地结合具体实施例进行描述，本实施例采用测试图像集代替实际应用中的输入网络图像。

如图4所示，本实施例的步骤如下：

离线阶段：

步骤A1：提取和描述测试图像集的低层局部特征；

步骤A3：构建倒排序索引；

在线阶段：

步骤B1：提取和描述给定查询图像的低层局部特征；

步骤B2：将B1种所获得的局部特征量化；

对于步骤A1，包括如下步骤：

步骤A11：对于输入的测试图像集进行局部关键点的提取，并去除离群噪声点。本实施例中提取图像的SIFT关键点，即在构建的尺度空间中通过高斯差分函数检测候选的关于尺度和旋转不变的兴趣点，然后对虚特征点进行过滤，并精确确定特征点的位置和尺度。

步骤A12：对所有保留的关键点，在其周围领域统计相关梯度方向信息，并生成基于梯度方向直方图的特征描述子。具体来说，以关键点为中心取16*16的邻域作为采样窗口，将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图，最后获得4*4*8的128维特征描述子。由于考虑SIFT特征维数相对过高，且不同特征维度之间存在冗余性的问题，本发明利用PCA算法对SIFT特征进行降维，降维后的特征描述子为64维。

步骤A2主要包括如下步骤：

步骤A21：从测试图像集中选取图像训练集，并提取图像训练集中所有图像的局部特征作为训练特征集，通过无监督K-均值聚类法，对训练特征集进行聚类进而生成视觉词典。对于图像训练集中的所有图像提取SIFT特征描述子，然后利用K-均值聚类方法对所有的特征进行聚类，最后得到的聚类中心作为视觉单词，构成了视觉词典用于后续的特征量化。

步骤A22：视觉词典的自适应更新。在训练特征集上学习得到的词典并不能够完全反应测试图像集上的特征分布，需要对训练特征集上学习得到的词典进行更新以满足和测试图像集特征分布的一致性。

步骤A23：特征的量化。在得到更新后的词典之后，本实施例利用局部约束线性编码的方法，将测试图像集中的所有特征进行量化，并映射到视觉词典上。局部约束线性编码方法是将每一个特征映射到与之最近的k个单词，然后利用稀疏编码的方法，用k个单词的线性组合对该特征进行重构，以最小化重构误差。由于局部约束线性编码本质上结合了近邻搜索和稀疏编码的思想，和传统的硬投票和软投票方法相比，量化误差更小。

步骤A24：图像金字塔的构建。如图2所示为本实施例所采用的两层图像金字塔结构示意图：第一层为图像本身，第二层被分为2*2图像单元，选择这种结构的主要原因是在计算效率和搜索效果之间取得了较好的折中。利用上述两层图像金字塔对图像进行弱分割，将量化后的局部特征按照分块原则进行特征的聚集，并生成图像的分块表示。

步骤A25:将不同层次上的所有图像分块表示串联起来，生成一幅图像的整体表示。图2所示的图像金字塔一共将图像分为1+4＝5个单元，每个单元通过前述的特征量化和聚集生成K*D维的特征表示，其中K为词典的大小，D为降维之后局部特征的维数。故串联之后的用于图像整体表示的特征长度为5*K*D。

步骤A3具体为：离线阶段构建倒排索引(Inverted Indexing),也被称作倒排文档(Inverted File)。倒排索引中的每一项对应于一个视觉单词，每个视觉单词都对应一个列表，列表中存储了图像的ID号以及单词在图像中出现的频率以及倒排文档频率(InverseDocument Frequency)：

步骤B1具体为：采用与步骤A1中的所述的局部特征提取方法相同的方法提取和描述给定查询图像的低层局部特征。

步骤B2具体为：采用与步骤A2中所述的局部特征量化方法相同的方法，将给定查询图像的所有特征进行量化，并映射到视觉词典上。

步骤B3具体为：

步骤B31：通过计算词频以及倒排文档频率加权求和的方法计算给定查询图像与测试图像集两两图像之间的相关性以进行图像匹配，具体的匹配函数如下所示：

f_tf-idf(x，y)＝(tf-idf(q(x))²)δ_q(x)，q(y)

其中δ_q(x)，q(y)表示的是Kronecker Delta函数，q(x),q(y)表示特征描述子x,y的量化器。

步骤B32：按照图像的相关性对待匹配图像进行排序，返回图像序列中排在前面的图像，作为查询图像的近似重复图像。

相关算法的Matlab风格的伪代码如图3所示。

网络近似重复图像搜索的效果示意图如图5所示。

经测试，本发明所述方法在近似重复图像搜索准确度方面比传统的视觉词包模型更高。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应理解的是，以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络环境下的近似重复图像搜索方法，其特征在于，该方法包括离线阶段和在线阶段，步骤如下：

离线阶段：

步骤A1：提取和描述输入网络图像的低层局部特征；

步骤A2：利用上述局部特征构建视觉词典，并将上述局部特征量化后，生成图像的全局特征描述；

步骤A3：构建倒排序索引；

在线阶段：

步骤B1：提取和描述给定查询图像的低层局部特征；

步骤B2：将B1中所获得的局部特征量化；

步骤B3：计算查询图像与离线阶段所输入网络图像的相关性，并对待匹配图像进行排序；

其中，所述步骤A2包括：

步骤A21:选取图像训练集，并提取图像训练集中所有图像的局部特征作为训练特征集，通过无监督K-均值聚类法，对训练特征集进行聚类进而生成视觉词典；

步骤A22:对视觉词典进行更新，使得词典适应于输入的网络图像并保持一致性；

步骤A24:利用图像金字塔对图像进行弱分割，将量化后的局部特征按照分块原则进行特征的聚集，并生成图像的分块表示；

2.根据权利要求1所述的方法，其特征在于，步骤B1与步骤A1中的所述的局部特征提取方法相同，步骤B2与步骤A2中所述的局部特征量化方法相同。

3.根据权利要求2所述的方法，其特征在于，所述步骤A1包括：

4.根据权利要求2所述的方法，其特征在于，所述步骤A3包括：离线阶段对于输入网络图像中的所有图像表示按照视觉单词目录建立倒排索引，并计算词频和倒排文档频率。

5.根据权利要求2所述的方法，其特征在于，所述步骤B3包括：

6.根据权利要求1所述的方法，其特征在于，步骤A24中所述图像金字塔为两层图像金字塔，第一层为图像本身，第二层被分为2*2图像单元。