CN106203445B

CN106203445B - 一种基于大规模词典迁移的词典构造方法

Info

Publication number: CN106203445B
Application number: CN201610513668.5A
Authority: CN
Inventors: 杜强; 许正; 丁占阳
Original assignee: Beijing Xiao Bai Century Network Technology Co Ltd
Current assignee: Beijing Xiao Bai Century Network Technology Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2019-05-07
Anticipated expiration: 2036-06-30
Also published as: CN106203445A

Abstract

本发明公开了一种基于大规模词典迁移的词典构造方法，包括如下步骤：步骤S1：提取目标数据集图像的局部特征；步骤S2：根据原始的视觉词典，对所述局部特征进行特征量化；步骤S3：根据特征量化结果构造目标函数；步骤S4：优化目标函数。本发明提出的一种基于大规模词典迁移的词典构造方法能够在图像集之间为复数域的情况下，为目标图像集构造准确的视觉词典，从而保证在海量数据集、新数据不断出现的环境下，能快速、准确地迁移视觉词典。

Description

一种基于大规模词典迁移的词典构造方法

技术领域

本发明涉及计算机多媒体技术领域，尤其涉及一种基于大规模词典迁移的词典构造方法。

背景技术

词典构造技术在诸多现实场景中有着广泛的应用，如何构建准确、高效的词典构造技术是图像检索技术中的最重要的一步。现有的词典构造构建方法主要是基于词袋(Bagof Word)架构，即利用与文本处理相类似的词典构造方法，进行图像检索。近年来，随着场景的复杂化和数据的海量化，时常需要解决大规模的词典构造问题。然而，按照现有的视觉词袋架构，为每个图像集训练百万级别的视觉词典的成本非常高。例如使用常规的K-means聚类方法，训练一个百万级别的词典需要几个月的时间，这显然是不实用的。所以，如何快速有效的为一个图像集训练百万级别的视觉词典，成为了一个重要问题。

现有的视觉词典学习方法主要分为三个类别，第一个是基于Llord方式的K-means方法，第二种是利用近似最近邻查询方法的k-means方法，如近似k-means(Approximate K-means)、层次k-means(Hierarchy K-means)等方法，第三种方法是将特征映射到哈希空间，利用哈希代码的特殊性质进行快速聚类，这种方法的代表是Binary K-means。从目前看来，这些方法主要有两大缺陷，1)这些方法训练百万级别视觉词典的时间过长；2)这些方法主要关注单一域上的视觉词典构造，当不同图像集之间为复数域时，这些方法的效果会有大幅度的降低而无法直接使用。所以，如何在复数域上快速有效的构造视觉词典仍需要进一步的研究。

发明内容

本发明的目的之一在于提供一种基于大规模词典迁移的词典构造方法，以解在图像集之间为复数域的情况下，为目标图像集构造准确的视觉词典，从而保证在海量数据集、新数据不断出现的环境下，能快速、准确地迁移视觉词典，为后续的图像存储、管理和检索等应用提供支撑，并提升这些应用的效果，改善用户体验的问题。

本发明解决现有技术问题是通过下述技术方案来实现的：

一种基于大规模词典迁移的词典构造方法，，包括如下步骤：

步骤S1：提取目标数据集图像的局部特征；

步骤S2：根据原始的视觉词典，对所述局部特征进行特征量化；

步骤S3：根据所述步骤S2的特征量化结果构造目标函数；

步骤S4：优化所述目标函数。

进一步的，所述步骤S1：提取目标数据集图像的局部特征的步骤中，具体包括如下步骤：

步骤S1.1：提取目标数据集图像的局部特征向量，图像的局部特征向量表示为：

其中表示第m个局部特征向量中的第n_m个分量；

步骤S1.2：对所述局部特征向量的每一个维度进行归一化处理。

进一步的，在所述步骤S1中，利用Vlfeat或Inria工具提取目标数据集图像的局部特征向量。

进一步的，所述步骤S2：根据原始的视觉词典，对所述局部特征进行特征量化的步骤中，包括如下步骤：

通过K最邻近的方法创建目标数据集的图像特征表示，所述图像特征表示为a_c＝(a_c1，a_c2，…，a_cr)，其中a_cj(j＝1,2，…，r)表示原始的视觉词典中视觉词汇在图像上的分布数量。

进一步的，所述步骤S2：根据原始的视觉词典，对所述局部特征进行特征量化的步骤中，具体包括如下步骤：

步骤S2.1：找到目标数据集图像的局部特征在特征空间中所述视觉词典的视觉词汇的最近邻；

步骤S2.1：每当寻得一个所述最近邻，则在所述最近邻对应的局部特征向量位上加1或者按照预定规则计算权重，最后得到图像特征表示。

进一步的，所述步骤S3中的构造的目标函数为：

其中x_j为局部特征点；

c_i为视觉词汇对应的特征点聚类簇的聚类中心；

为c_i对应的视觉词汇频率，所述视觉词汇频率TA为一个视觉词汇在特征量化中作为最近邻的次数；

μ和σ分别为视觉词汇频率分布TAF的平均值和方差，所述视觉词汇频率分布TAF为具有相同视觉词汇频率TA的视觉词汇的数量。

进一步的，所述步骤S4：优化所述目标函数的步骤中，具体包括如下步骤：

步骤S4.1：将目标数据集图像的局部特征点量化到原始的视觉词典上，统计得到初始视觉词汇频率TA⁰和初始视觉词汇频率分布TAF⁰；

步骤S4.2：寻找视觉词汇频率TA大于预定值的干扰点，计算视觉词汇频率TA大于预定值的干扰点的局部特征点到最近邻的距离，选取距离最远的局部特征点为新的视觉词汇加入到所述视觉词典中；

步骤S4.3：排除视觉词汇频率TA小于预定值的干扰点；

步骤S4.4：将目标数据集图像的局部特征点量化到优化之后的视觉词典中，得到优化后的视觉词汇频率TA^k和优化后的视觉词汇频率分布TAF^k；

步骤S4.5：根据所述优化之后的视觉词典，更新视觉词汇对应的特征点聚类簇的聚类中心；

步骤S4.6：计算视觉词汇频率TA^k与视觉词汇频率TA^k-1的差和视觉词汇频率分布TAF^k与视觉词汇频率分布TAF^k-1的差是否都小于设定的阈值；是则转步骤S4.8；否则转下一步；

步骤S4.7：将优化后的视觉词汇频率TA^k和优化后的视觉词汇频率分布TAF^k作为下一轮迭代的初始值，重复步骤S4.2-步骤S4.5；

步骤S4.8：停止迭代，得到优化之后的迁移词典。

进一步的，所述S4.5：根据所述优化之后的视觉词典，更新视觉词汇对应的特征点聚类簇的聚类中心的步骤，包括如下步骤：

根据所述优化之后的视觉词典，获得聚类簇中的局部特征点，计算聚类簇中局部特征点特征向量的平均中心点，求得每一维的平均值，将所述平均中心点作为新的聚类中心，更新视觉词汇对应的特征点聚类簇的聚类中心。

进一步的，所述步骤S4.1：将目标数据集图像的局部特征点量化到视觉词典上，统计得到初始视觉词汇频率TA⁰和初始视觉词汇频率分布TAF⁰的步骤中，具体包括如下步骤：

步骤S4.1.1：在原始的视觉词典上使用K-D Tree Forest的方式建立索引；

步骤S4.1.2：根据所述索引，使用近似最近邻查询方法将目标数据集图像的局部特征点量化到视觉词典上，得到量化结果；

步骤S4.1.3：在上一步中的量化结果上利用稀疏矩阵计算方法得到初始视觉词汇频率TA⁰；

步骤S4.1.4：统计计算原始的视觉词典上的初始视觉词汇频率分布TAF⁰。

本发明的有益效果：本发明提出的一种基于大规模词典迁移的词典构造方法能够在图像集之间为复数域的情况下，为目标图像集构造准确的视觉词典，从而保证在海量数据集、新数据不断出现的环境下，能快速、准确地迁移视觉词典，为后续的图像存储、管理和检索等应用提供支撑，并提升这些应用的效果，改善用户体验。

附图说明

图1为本发明实施例中基于大规模词典迁移的词典构造方法的流程图；

图2为本发明实施例中步骤S4的方法流程图；

图3为本发明实施例中步骤S4.1的方法流程图。

具体实施方式

下文将结合具体实施方式详细描述本发明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

如图1-3所示，本发明所述的一种基于大规模词典迁移的词典构造方法，包括如下步骤：

步骤S1：提取目标数据集图像的局部特征。

为了更好地处理图像的信息，需要将图像用向量的形式进行表述，即特征提取。具体包括如下步骤：

其中表示第m个局部特征向量中的第n_m个分量；

步骤S1.2：对局部特征向量的每一个维度进行归一化处理。

对所有特征向量的每一个维度进行归一化，能够消除局部特征中不同向量分量的取值范围对距离计算和重构过程的影响，具体可以采用线性缩放的方式将每一维度的取值范围约束到[0，1]区间内。对此可以利用Vlfeat或Inria等工具提取目标数据集图像的局部特征向量。

步骤S2：根据原始的视觉词典，对局部特征进行特征量化。

为了将原始的视觉词典迁移到目标数据集上，需要检测原始的词典在目标数据集上的表示能力。视觉词典的表示能力可以通过图像特征表示。该图像特征表示为a_c＝(a_c1，a_c2，…，a_cr)，其中a_cj(j＝1,2，…，r)表示原始的视觉词典中视觉词汇在图像上的分布数量。为了得到这个特征表示，可以采用K最近邻(k-nearest neighbor，KNN)的方法，具体包括如下步骤：

步骤S2.1：找到目标数据集图像的局部特征在特征空间中视觉词典的视觉词汇的最近邻；

步骤S2.1：每当寻得一个最近邻，则在最近邻对应的局部特征向量位上加1或者按照预定规则计算权重，最后得到图像特征表示。

按照上述方法得到的图像特征表示可以使得所有的图像都可以在视觉词典所表示空间中进行比较。

步骤S3：根据特征量化结果构造目标函数。

为构造目标函数，首先提出概念视觉词汇频率(Term Appearance，TA)和视觉词汇频率分布(Term Appearance Frequency，TAF)。TA是指一个视觉词汇在特征量化中作为最近邻的次数，TAF是指具有相同TA的视觉词汇的数量。对于训练良好的视觉词典，每个视觉词汇对应特征空间中一个超球体，这个超球体是包含所有的以当前视觉词汇为最近邻的局部特征点所组成的最小超球体。通过实验验证，这个超球体的半径长度只存在于一个很小的范围内，所以视觉词汇之间对应的超球体的体积差异不大。可以假设，在同一个域中，同一个超球体内局部特征点是均匀分布的和不同超球体之间局部特征点分布是相似的，因此不同超球体包含的局部特征点数量，对应于TA，相差很小。所以，一个视觉词汇的TA落在正常范围之外则可以认为这个视觉词汇为误差，众所周知，一般误差分布服从正态分布，所以TA的分布服从正态分布。根据上面给出的结论和实验验证，训练良好的视觉词典的得到的TA服从正态分布，而迁移之前的原始词典得到的TA不服从正态分布。

训练良好的视觉词典应该满足的三个条件：(1)视觉词典的规模应该足够大，以保证视觉词典离散性；(2)每个视觉词汇能且仅能表示一个特征点聚类簇，或者称为具有辨识性；(3)TA分布应该为正态分布。

因此需要优化的目标方程可以形式化的表示为：

其中x_j为局部特征点；

c_i为视觉词汇对应的特征点聚类簇的聚类中心；

为c_i对应的视觉词汇频率；

μ和σ分别为视觉词汇频率分布TAF的平均值和方差。

目标方程的前半部分，称为F₁，这一部分约束视觉词典能够准确描述图像数据集的分布，对应上述条件(2)每个视觉词汇能且仅能表示一个特征点聚类簇，或者称为具有辨识性。后半部分，称为F₂，这一部分约束视觉词典能够全面描述图像数据集的分布，对应上述条件(1)视觉词典的规模应该足够大，以保证视觉词典离散性。目标方程需要优化F₁和F₂，使得整体的目标方程值最优，在满足标准K-means聚类方法的前提下，更快速的使得视觉词典的视觉词汇频率分布接近正态分布，对应上述条件(3)TA分布应该为正态分布。

实验发现，原始词典得到的TA分布的形状为低胖，尾部较长，这样说明原始词典包含两种干扰点，第一种干扰点为TA过小的视觉词汇，第二种为TA过大的视觉词汇。第一种干扰点违反了上述条件(1)和条件(2)，因为其不能表示任何一个聚类簇，所以这种视觉词典是没有用处的，因此这就相当于使视觉词典的规模降低了。第二种干扰点违反了上述条件(2)，因为按照之前的分析，一个视觉词汇所能表示的局部特征点数量是限制于一个范围内的，TA过大说明其表示了多于一个聚类簇，应该在第二种干扰点附近寻找一个新的视觉词汇。

步骤S4：优化目标函数。

该函数包含两个需要优化的部分F₁和F₂，分别是需要去除步骤S3中提到的两种干扰点。本发明提出了一种迭代式的优化算法来优化目标函数，迁移词典，具体包括如下步骤：

步骤S4.1：将目标数据集图像的局部特征点量化到原始的视觉词典上，统计得到初始视觉词汇频率TA⁰和初始视觉词汇频率分布TAF⁰。

该步骤完成了目标函数的初始化。

第二种干扰点表示TA过大，因此需要将其所代表的聚类簇进行分割，使得更多的局部特征点可以量化到更准确的视觉词典(聚类中心)上，具体方法如下：

步骤S4.2：寻找视觉词汇频率TA大于预定值的干扰点，计算视觉词汇频率TA大于预定值的干扰点的局部特征点到最近邻的距离，选取距离最远的局部特征点为新的视觉词汇加入到所述视觉词典中。

上述方法能够得到更小的聚类中心，所以得到的量化误差更小，结果更加准确。这符合Llord给出的聚类要求和本发明给出的上述条件(1)和条件(2)。

步骤S4.3：排除视觉词汇频率TA小于预定值的干扰点。

对于第一种TA过小的干扰点，可以直接将其排除。因为其无法表示目标数据集任何部分的分布，这种干扰点对目标数据集来说是没有用处的，因此可以直接将其排除。

步骤S4.4：将目标数据集图像的局部特征点量化到优化之后的视觉词典中，得到优化后的视觉词汇频率TA^k和优化后的视觉词汇频率分布TAF^k。

根据所述优化之后的视觉词典，获得聚类簇中的局部特征点，计算聚类簇中所有特征向量的平均中心点，即求解每一维的平均值，以这个新得到的中心点为这个聚类簇新的聚类中心，这样可以进一步优化，使用TA^k和TAF^k作为下一轮迭代的初始值进入下一轮迭代。

步骤S4.8：停止迭代，得到优化之后的迁移词典。

上述初始化的步骤S4.1，具体包括如下步骤：

本发明通过迭代式的优化算法来优化目标函数，可以保证训练不断地优化，从而提高了数据处理的效率。

本发明提出利用一种基于大规模词典迁移的词典构造方法，通过迁移训练良好的视觉词典，能够快速得到适用于目标数据集的视觉词典，减少分类过程中的信息损失，提升分类模型的准确性。

实施例

为验证本发明的有效性，在检索领域的标准数据集Oxford Building、Paris和Inria Holiday上进行实验。具体地，在Oxford Building数据集中，使用11个类别共55张图片作为检索输入；在Paris数据集中，使用12个类别共60张图片作为检索输入；在InriaHoliday数据集中，使用500张图片作为检索输入。在所有实验中，检索输入与检索图像库中图像不重复。对于这三个数据集，本发明所提出的方法在取得与当前最优方法可比较的检索效果的情况下，可以较少一个或两个数量级的时间消耗，效果优异。

综上所述，本发明提出的一种基于大规模词典迁移的词典构造方法能够在图像集之间为复数域的情况下，为目标图像集构造准确的视觉词典，从而保证在海量数据集、新数据不断出现的环境下，能快速、准确地迁移视觉词典，为后续的图像存储、管理和检索等应用提供支撑，并提升这些应用的效果，改善用户体验。

当然应意识到，虽然通过本发明的示例已经进行了前面的描述，但是对本发明做出的将对本领域的技术人员显而易见的这样和其他的改进及改变应认为落入如本文提出的本发明宽广范围内。因此，尽管本发明已经参照了优选的实施方式进行描述，但是，其意并不是使具新颖性的设备由此而受到限制，相反，其旨在包括符合上述公开部分、权利要求的广阔范围之内的各种改进和等同修改。

Claims

1.一种基于大规模词典迁移的词典构造方法，其特征在于，包括如下步骤：

步骤S1：提取目标数据集图像的局部特征；

步骤S3：根据所述步骤S2的特征量化结果构造目标函数；

步骤S4：优化所述目标函数；

所述步骤S1：提取目标数据集图像的局部特征的步骤中，具体包括如下步骤：

其中，其中表示第m个局部特征向量中的地n_m个分量；

步骤S1.2：对所述局部特征向量的每一个维度进行归一化处理；

所述步骤S1中，利用V1feat或inria工具提取目标数据集图像的局部特征向量；

所述步骤S2：根据原始的视觉词典，对所述局部特征进行特征量化的步骤中，包括如下步骤：

通过K最邻近的方法创建目标数据集的图像特征表示，所述图像特征表示为a_cj＝(a_c1，a_c2，…，a_cr)，其中，a_cj(j＝1,2，…，r)表示原始的视觉词典中视觉词汇在图像上的分布数量；

步骤S2.2：每当寻得一个所述最近邻，则在所述最近邻对应的局部特征向量位上加1或者按照预定规则计算权重，最后得到图像特征表示；

所述步骤S3中的构造的目标函数为：

其中x_j为局部特征点；

c_i为视觉词汇对应的特征点聚类簇的聚类中心；

μ和α分别为视觉词汇频率分布TAF的平均值和方差，所述视觉词汇频率分布TAF为具有相同视觉词汇频率TA的视觉词汇的数量。

2.如权利要求1所述的一种基于大规模词典迁移的词典构造方法，其特征在于，所述步骤S4：优化所述目标函数的步骤中，具体包括如下步骤：

步骤S4.2:寻找视觉词汇频率TA大于预定值的干扰点，计算视觉词汇频率TA大于预定值的干扰点的局部特征点到最近邻的距离，选取距离最远的局部特征点为新的视觉词汇加入到所述视觉词典中；

步骤S4.3：排出视觉词汇频率TA小于预定值的干扰点；

步骤S4.6：计算视觉词汇频率TA^k与视觉词汇频率TA^k-1|的差和视觉词汇频率分布TAF^k于视觉词汇频率分布TA^k-1|的差是否都小于预定的阈值；是则转步骤S4.8；否则转下一步；

步骤S4.8：停止迭代，得到优化之后的迁移词典。

3.如权利要求2所述的一种基于大规模词典迁移的词典构造方法，其特征在于，所述步骤S4.5：根据所述优化之后的视觉词典，更新视觉词汇对应的特征点聚类簇的聚类中心的步骤，包括如下步骤：

4.如权利要求3所述的一种基于大规模词典迁移的词典构造方法，其特征在于，所述步骤S4.1：将目标数据集图像的局部特征点量化到视觉词典上，统计得到初始视觉词汇频率TA⁰和初始视觉词汇频率分布TAF⁰的步骤中，具体包括如下步骤：