CN106339486A

CN106339486A - 一种基于大规模词汇树的增量学习的图像检索方法

Info

Publication number: CN106339486A
Application number: CN201610783432.3A
Authority: CN
Inventors: 李静; 韩世伟; 杨涛; 张念曾
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-18

Abstract

本发明公开了一种基于大规模词汇树的增量学习的图像检索方法，利用已经生成好的包含百万图像的大规模训练图片的词汇树作为词典，从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来进行描述，完成新增图片的增量学习，使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量，对两者的叶节点信息矢量进行比对，找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那幅图像，作为检索结果返回；检索结果的正确率较高，具有良好的鲁棒性，可以满足实时的数据库增量的图像检索任务。

Description

一种基于大规模词汇树的增量学习的图像检索方法

技术领域

本发明属于图像检索技术领域，尤其涉及一种基于大规模词汇树的增量学习的图像检索方法。

背景技术

近年来，随着移动互联网的快速发展和移动终端向大众化的普及，人们可以随心所欲的拍摄并分享自己的图片。通过对图片的检索识别，可以分析用户行为，为各行各业提供数据支撑。如：理解客户、满足客户服务需求，优化机器和设备性能，改善安全和执法，改善城市交通，金融交易等。因此图像的检索识别技术具有极其重要的应用价值。因此快速有效地管理和检索有价值的信息迅速成为人们的迫切需求，随之基于内容的图像检索(Content-Based Image Retrieval,简称CBIR)技术应运而生，并且逐步成为了目前非常热门而又富有挑战性的课题之一。传统的基于内容的图像检索技术是一种近似匹配的技术，融合了图像处理，图像理解和数据库等技术，通过计算机对图像进行底层特征提取，包括颜色，特征角点，纹理，边缘或者其他的统计特征，然后对提取的特征进行索引，降维的处理，图像的特征向量一般都是高维的向量，为了让基于内容的图像检索系统能够真正的适合大型的数据库，减少检索花费的时间，往往将降维技术和多维索引技术相结合。目前由于计算机发展水平所限，使得CBIR系统还无法真正的支持基于语义的图像检索，为了提高匹配的效率，在建立索引的过程中需要花费大量的时间来对特征向量进行训练，以达到快速检索的效果。基于词汇树的图像检索技术是一种行之有效的方式，可以在百万张图片里面迅速找到检索的结果，但其缺陷是训练时间太长，百万张图片的训练时间长达数十个小时，对于想要在原有的数据库模型里新增加图片数据且保持一个较高的检索正确率来说，将新增加到数据库中的图片与原有的数据库中的图片一起训练时间代价太高，因此提出一种解决方案，利用已有的训练好的包含百万张图片的大规模树型索引结构作为词典，从树型结构中快速提取数据来表示新增加的图片，完成增量学习的目的。

发明内容

本发明的目的在于提供一种基于大规模词汇树的增量学习的图像检索方法，使得能够用现有的基于词汇树的图像检索技术完成对新增图片数据快速学习的过程，从而满足实时图像检索系统的要求。

本发明是这样实现的，一种基于大规模词汇树的增量学习的图像检索方法，所述基于大规模词汇树的增量学习的图像检索方法利用已经生成好的包含百万图像的大规模训练图片的词汇树作为词典，从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来进行描述，完成新增图片的增量学习，使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量，对两者的叶节点信息矢量进行比对，找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那副图像，作为检索结果返回。可将本发明应用到需要快速建立数据库的自建图像检索和识别系统中。

进一步，所述词汇树的节点数M的计算公式如下，其中L＝6，K＝10：

M = Σ_{i = 1}^{L} K^{i} = \frac{K^{L + 1} - 1}{K - 1} - 1.

进一步，为构建好的词汇树的每一个节点加入词频向量权值ω_i；

ω_{i} = \frac{n_{i d}}{n_{d}} l n \frac{N}{N_{i}};

n_id为视觉词汇在图像d中出现的次数，n_d表示图像d的词汇总数，N表示数据库图像总数，N_i表示经过此节点的图像的描述子的个数，n_id/n_d表示词汇在图像d的出现频率—词频TF。

进一步，对新增加到数据库的R张图片进行SIFT特征的提取，提取h个特征点，每一张图片特征点用X表示为：

X₁＝(X₁,X₂,X₃…X_h)^T；

X₂＝(X₁,X₂,X₃…X_h)^T；

…

X_R＝(X₁,X₂,X₃…X_h)^T；

对新增加到数据库中的图像和数据库中原有的图像按照图像的权值词频向量夹角的余弦值进行计算；数据库原有的一幅图像的权值词频向量为：

X_P＝(P₁,P₂,P₃,…P_h)^T；

两幅图像之间的相似度计算为：

S (P, R) = Σ_{i = 1}^{M} P_{i} \cdot R_{i} = Σ_{i = 1, P_{i &NotEqual; 0}, R_{i} &NotEqual; 0}^{M} P_{i} \cdot R_{i};

S(P,R)表示新增加到数据库中的一张图片R和数据库原有的一张图片P的相似度，M为词汇树节点的总数，根据计算出来的S(P,R)，从词汇树中找到有用的结点信息。

进一步，使用向量V来表示新增加到库里的每一张图片：

V₁＝(V_id1,V_id2,V_id3,…V_idh)^T

V₂＝(V_id1,V_id2,V_id3,…V_idh)^T

V₃＝(V_id1,V_id2,V_id3,…V_idh)^T

…

V_R＝(X_id1,X_id2,X_id3…X_idh)^T。

本发明的另一目的在于提供一种应用所述基于大规模词汇树的增量学习的图像检索方法的移动终端搜索引擎。

本发明提供的基于大规模词汇树的增量学习的图像检索方法，利用已经生成好的包含百万图像的大规模训练图片的词汇树作为“词典”，从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来对其进行描述，完成新增图片的增量学习，使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量，对两者的叶节点信息矢量进行比对，找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那副图像，作为检索结果返回，使用一万张图片作为新增的图片数据，加入到一百万张图片的数据集中，为保证较高的检索正确率，将数据库重新训练，花费63个小时，检索的正确率在89％左右，而使用本发明的方法，用已经训练好的词汇树结构去表达新的图片，需要30分钟，检索的正确率也能保持在89％左右，本发明能够使得新增数据库的训练时间大大缩短，而且能够保持较高的检索正确率，能够满足一定的实用性，可以应用于在线的实时更新数据库，该方法保留了原始词汇树检索抗旋转尺度缩放的特性，具有良好的鲁棒性，达到了较高的检索正确率。

附图说明

图1是本发明实施例提供的基于大规模词汇树的增量学习的图像检索方法流程图。

图2是本发明实施例提供的实施例1的流程图。

图3是本发明实施例提供的增量学习流程图。

图4是本发明实施例所用大规模图片样例图。

图5是本发明实施例新增加到数据库中所用图片样例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例的基于大规模词汇树的增量学习的图像检索方法包括以下步骤：

S101：对大规模图片数据库提取SIFT特征描述子，进行训练，生成一棵大规模的词汇树；

S102：将要增加的图片集也进行SIFT特征描述子的提取，SIFT特征描述子依次与词汇树的每一层的子节点进行欧氏距离的计算，找到最小距离的点，直到最后一层，每一个SIFT特征描述子都会找到一个与其最近的叶节点；

S103：将叶节点看作矢量来表达新增图片库，每一张新增图片对应一组矢量。查询图片也进行一个此类的操作，得到一组矢量，将查询图片的矢量与新增图片库的矢量进行对比，从新增图片的矢量中找到重合度最高的，则其表达的图片即是图像检索的结果。

下面结合具体实施例对本发明的应用原理作进一步的描述。

实施例1：

步骤1，提取大规模图像库中所有图片的SIFT特征，大规模图像库的容量定义为100万，，使用的大规模图片数据库为MIR-FLICKER-1M，图4为所选大规模图像库的样例图，每张图片提取200个SIFT特征点，得到描述子集合；

步骤2，构建一棵L层K个分支的树型数据结构。对这些SIFT特征描述子进行K-means聚类，将聚类中心作为视觉词汇放入词汇树的节点中。词汇树的节点数M的计算公式如下，其中L＝6，K＝10：

M = Σ_{i = 1}^{L} K^{i} = \frac{K^{L + 1} - 1}{K - 1} - 1;

大规模的词汇树的节点数约等于两百万。

步骤3，为构建好的词汇树的每一个节点加入词频向量权值ω_i；

ω_{i} = \frac{n_{i d}}{n_{d}} l n \frac{N}{N_{i}};

n_id为视觉词汇在图像d中出现的次数，n_d表示图像d的词汇总数，N表示数据库图像总数，N_i表示经过此节点的图像的描述子的个数，n_id/n_d表示词汇在图像d的出现频率—词频TF。将大规模图像库中提取的每个特征向量与每层节点内的聚类中心进行点积计算。点积计算结果越大，则说明两个向量越接近，在最接近的节点下的L个分支继续进行同样的点积计算，直到词汇树的叶节点。

步骤4，对新增加到数据库的一万张图片进行SIFT特征的提取，这里新增加的图片为一万本图书封面的图片，图5为新增加到数据库中的样例图，共提取10000*200个特征点，每一张图片特征点用X_R表示为：

X_R＝(X₁,X₂,X₃…X₂₀₀)^T；

对新增加到数据库中的图像和数据库中原有的大规模图像库中的图片按照图像的权值词频向量夹角的余弦值进行计算。假设数据库原有的一幅图像的权值词频向量为：

X_P＝(P₁,P₂,P₃,…P₂₀₀)^T；

两幅图像之间的相似度计算可以为：

S (P, R) = Σ_{i = 1}^{M} P_{i} \cdot R_{i} = Σ_{i = 1, P_{i &NotEqual; 0}, R_{i} &NotEqual; 0}^{M} P_{i} \cdot R_{i};

S(P,R)表示新增加到数据库中的一张图片R和数据库原有的一张图片P的相似度，M为词汇树节点的总数，此实施例中M约为200万。

步骤5，新增加到数据库中的图像的每一个特征描述子在经过相似度计算之后，最终都会找到一个叶节点内的视觉词汇与其最相似，每一张图片提取200个特征描述子，那么就会有200个叶节点被找到，将这些叶节点在词汇树中的标号取出，组成一个200维的向量用来表示新增加到数据库中的图片。从而完成数据库的增量学习如图3所示。使用向量V来表示新增加到库里的每一张图片。

V₁＝(V_id1,V_id2,V_id3,…V_id200)^T

V₂＝(V_id1,V_id2,V_id3,…V_id200)^T

V₃＝(V_id1,V_id2,V_id3,…V_id200)^T

…

V₁₀₀₀₀＝(X_id1,X_id2,X_id3…X_id200)^T

步骤6，待查询的图片按照步骤4，步骤5操作，也会得到一个向量V_Q：

V_Q＝(V_id1,V_id2,V_id3,…V_id200)^T，

步骤7，将向量V_Q和V₁至V_R作对比，从V₁至V₁₀₀₀₀中找到与V_Q相同id最多的那个向量表示的图片作为图像检索的结果返回。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大规模词汇树的增量学习的图像检索方法，其特征在于，所述基于大规模词汇树的增量学习的图像检索方法利用已经生成好的包含百万图像的大规模训练图片的词汇树作为词典，从词汇树中提取与新增图片的特征描述子相关联的叶节点编号信息组成矢量来进行描述，完成新增图片的增量学习，使用与增量学习相同的方式提取待查询图片特征描述子相关联的叶节点编号信息组成矢量，对两者的叶节点信息矢量进行比对，找出与待查询图片叶节点编号信息重合度最高的那个矢量代表的那副图像，作为检索结果返回。

2.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法，其特征在于，所述词汇树的节点数M的计算公式如下，其中L＝6，K＝10：

M = Σ_{i = 1}^{L} K^{i} = \frac{K^{L + 1} - 1}{K - 1} - 1.

3.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法，其特征在于，为构建好的词汇树的每一个节点加入词频向量权值ω_i；

ω_{i} = \frac{n_{i d}}{n_{d}} \ln \frac{N}{N_{i}};

n_id为视觉词汇在图像d中出现的次数，n_d表示图像d的词汇总数，N表示数据库图像总数，N_i表示经过此节点的图像的描述子的个数，n_id/n_d表示词汇在图像d的出现频率-词频TF。

4.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法，其特征在于，对新增加到数据库的R张图片进行SIFT特征的提取，提取h个特征点，每一张图片特征点用X表示为：

X₁＝(X₁，X₂，X₃...X_h)^T；

X₂＝(X₁，X₂，X₃...X_h)^T；

...

X_R＝(X₁，X₂，X₃...X_h)^T；

X_P＝(P₁，P₂，P₃，...P_h)^T；

两幅图像之间的相似度计算为：

S (P, R) = Σ_{i = 1}^{M} P_{i} \cdot R_{i} = Σ_{i = 1, P_{i &NotEqual; 0}, R_{i} &NotEqual; 0}^{M} P_{i} \cdot R_{i};

M为词汇树节点的总数。

5.如权利要求1所述的基于大规模词汇树的增量学习的图像检索方法，其特征在于，使用向量V来表示新增加到库里的每一张图片：

V₁＝(V_id1，V_id2，V_id3，...V_idh)^T

V₂＝(V_id1，V_id2，V_id3，...V_idh)^T

V₃＝(V_id1，V_id2，V_id3，...V_idh)^T

...

V_R＝(X_id1，X_id2，X_id3...X_idh)^T。

6.一种应用权利要求1-5任意一项所述基于大规模词汇树的增量学习的图像检索方法的移动终端。

7.一种应用权利要求1-5任意一项所述基于大规模词汇树的增量学习的图像检索方法的搜索引擎。