CN102968632A

CN102968632A - 获取图像的紧凑全局特征描述子的方法及图像检索方法

Info

Publication number: CN102968632A
Application number: CN 201210390965
Authority: CN
Inventors: 段凌宇; 林杰; 陈杰; 杨爽; 李冰; 黄铁军; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-10-15
Filing date: 2012-10-15
Publication date: 2013-03-13
Also published as: CN103226589B; CN103226589A

Abstract

本发明提供一种获取图像的紧凑全局特征描述子的方法及图像检索方法，其中，该方法包括：获取图像的至少一个局部特征描述子，从所有的局部特征描述子中选取一个或多个局部特征描述子，将所选取的局部特征描述子进行降维，获得降维后的局部特征描述子；根据第一规则，将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子；将全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子；其中，全局特征描述子的字节大小可根据第一规则中的参数值的变化而变化。上述方法获取的全局视觉特征更加紧凑并具有可伸缩性，解决了现有技术中内存较低的移动终端上空间不足的缺陷。

Description

获取图像的紧凑全局特征描述子的方法及图像检索方法

技术领域

本发明实施例涉及计算机领域，尤其涉及一种获取图像的紧凑全局特征描述子的方法及图像检索方法。

背景技术

随着智能终端的发展，移动视觉搜索应用越来越多。当前，基于智能终端的图像检索方法包括：1）在移动客户端提取图像的局部特征描述子；2）对提取到的局部特征描述子进行压缩；3）通过网络将压缩后的局部特征描述子传输给服务器，以使服务器根据局部特征描述子在服务器的数据库中进行查找，并将查找的结果发送至移动客户端。

然而，上述图像检索方法的局部特征压缩以及建立倒排等索引文件的计算量较高，特别地，图像检索方法中获取的局部特征描述子占用较大的空间，由此，根据当前的网络带宽，移动客户端存在无法较快地将局部特征描述子发送至服务器的问题。另外，由于局部特征描述子占用的较大的空间，故服务器根据移动客户端传送的局部特征描述子查找匹配的过程也非常迟缓，进而严重影响了检索系统的查询响应时间，降低了查询效率。

此外，现有技术还提出一种利用全局视觉特征进行图像检索的方法，该方法在提取全局特征描述子的过程中，所使用的特征降维方法和描述子压缩方法需要大量的存储空间用于存储降维矩阵和量化表等，在内存较低的移动终端上无法实现，同时，全局特征描述子的长度为固定长度，其无法应用于各种检索条件下，进而影响图像搜索的性能。

发明内容

针对上述缺陷，本发明实施例提供一种获取图像的紧凑全局特征描述子的方法及图像检索方法。

一方面，本发明实施例提供一种获取图像的紧凑全局特征描述子的方法，包括：

获取图像的至少一个局部特征描述子，所述至少一个局部特征描述子形成一集合；

根据局部特征描述子的选择方式，从所有的局部特征描述子中选取一个或多个局部特征描述子，所述选取的一个或多个局部特征描述子组成所述集合的第一子集；

将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子；

根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子；

将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子；

其中，所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化，相应地，在所述全局特征描述子的字节大小变化时，所述紧凑全局特征描述子的字节大小也相应变化。

可选地，将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子，包括：

采用降维矩阵对所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子；

其中，所述降维矩阵为采用降维方式训练预设的第一图像数据集之后得到的矩阵。

可选地，所述根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子，包括：

根据Fisher向量生成规则，对所述降维后的局部特征描述子进行转换，得到累积梯度向量集合，并由所述累积梯度向量集合中的累积梯度向量构造第一Fisher向量；以及

根据Fisher向量稀疏性判别规则，对所述累积梯度向量集合进行处理，并生成用于表达所述图像视觉特征的全局特征描述子。

可选地，所述Fisher向量生成规则包括离线步骤和在线步骤。

相应地，根据Fisher向量生成规则，对所述降维后的局部特征描述子进行转换，得到累积梯度向量集合，并由所述累积梯度向量集合中的累积梯度向量构造第一Fisher向量，包括：

所述Fisher向量生成规则的离线步骤包括：

训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型，所述概率分布模型是由M个独立的概率密度函数线性叠加得到的，其中，M为大于等于1的自然数；

所述Fisher向量生成规则的在线步骤包括：

根据所述概率分布模型中的每一概率密度函数，将每一所述降维后的局部特征描述子转换为梯度向量，得到针对所述每一概率密度函数的梯度向量集合；

针对所述每一概率密度函数的梯度向量集合，求所有所述梯度向量的平均值，得到每一概率密度函数对应的累积梯度向量。

所述概率分布模型的M个概率密度函数各自对应的所述累积梯度向量组成累积梯度向量集合，并由所述累积梯度向量集合中的累积梯度向量构造第一Fisher向量。

所述Fisher向量稀疏性判别规则为基于方差的稀疏性判别规则，或者基于概率的稀疏性判别规则；

相应地，所述根据Fisher向量稀疏性判别规则，对所述累积梯度向量集合进行处理，并生成用于表达所述图像视觉特征的全局特征描述子，包括：

获取所述累积梯度向量集合中的每一所述累积梯度向量的所有维度的值的方差；

将所有累积梯度向量的所述方差按照从大到小依次排序，选取排序中前K个方差对应的所述累积梯度向量，将选取的K个所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子；

或者，

针对所述概率分布模型中的每一概率密度函数求得每一所述降维后的局部特征描述子对应的概率值，所述概率值构成所述每一概率密度函数的概率值集合；

若概率密度函数的所述概率值集合中的最大概率值大于预设的第一阈值，则选取所述概率密度函数；

将选取的所述概率密度函数对应的所述累积梯度向量保留，并将所有保留的所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子。

可选地，所述将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子，包括：

采用二进制数值表示所述全局特征描述子中各维度的数值，若全局特征描述子中某一维度的数值为正数，则二进制数值为1；

若全局特征描述子中某一维度的数值为负数和零，则二进制数值为0。

由上述技术方案可知，本发明实施例的获取图像的紧凑全局特征描述子的方法，通过选取图像的所有局部特征描述子中的部分局部特征描述子，对选取的局部特征描述子降维，并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子，进而对全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子。上述方法获取的紧凑全局特征描述子利用了图像视觉特征的统计特性，更加紧凑并具有可伸缩性，解决了现有技术中内存较低的移动终端上空间不足的缺陷。

另一方面，本发明实施例提供一种采用紧凑全局特征描述子生成比特流的方法，包括：

如上任一所述的获取图像的紧凑全局特征描述子的方法，以及，还包括：

根据预设的的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。

可选地，所述比特流包括头部和非头部，所述第一规则中Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型，所述概率分布模型是由M个独立的概率密度函数线性叠加得到的，其中，M为大于等于1的自然数；

相应地，根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流，包括：

所述比特流的头部的维度与所述概率分布模型中的概率密度函数的个数相同，且所述概率分布模型中的一概率密度函数对应所述比特流的头部的一维度；

若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子，则与所述概率密度函数对应的所述比特流的头部的相应维度的数值为1，否则为0；

将所述紧凑全局特征描述子组成所述比特流的非头部。

由上述技术方案可知，本发明实施例的采用紧凑全局特征描述子生成比特流的方法，通过选取图像的所有局部特征描述子中的部分局部特征描述子，对选取的局部特征描述子降维，并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子，进而对全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子，进而生成表达图像全局视觉特征的比特流。上述方法获取的比特流占用空间非常小，解决了现有技术中网络带宽限制时图像检索能力低下的问题。

第三方面，本发明实施例提供一种基于比特流进行图像匹配的方法，包括：

如上任一所述的采用紧凑全局特征描述子生成比特流的方法，以及，还包括：

根据目标图像的比特流的头部和待匹配图像的比特流的头部，确定所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量；

若包含，则分别从目标图像的比特流的非头部与待匹配图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩后生成的全部比特位；

计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的相似度；

若所述基于汉明距离的相似度大于预置的第二阈值，则判定目标图像与待匹配图像匹配，否则不匹配。

由上述技术方案可知，本发明实施例的基于比特流进行图像匹配的方法，通过选取图像的所有局部特征描述子中的部分局部特征描述子，对选取的局部特征描述子降维，并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子，进而对全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子，进而生成表达图像视觉特征的比特流，所述比特流的特点是可以对不同字节大小的比特流进行比较，实现了图像匹配过程中的互操作，增加了图像匹配过程的灵活性。

第四方面，本发明实施例提供一种图像检索方法，包括：

客户端采用如上任一所述的采用紧凑全局特征描述子生成比特流的方法获取用于表达目标图像视觉特征的比特流，以及，还包括：

所述客户端将所述目标图像的全局视觉特征的比特流传输至服务器；

所述服务器根据上述任一所述的采用紧凑全局特征描述子生成比特流的方法获取用于表达所述服务器内图像库中任一图像视觉特征的比特流；

所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较，获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流；

所述服务器选择性地对所述前Q个基于汉明距离的相似度最大的服务器内的图像库中图像的比特流对应的图像进行后期处理；

所述服务器将经过所述后期处理获得的服务器内的图像库中图像发送至所述客户端。

可选地，所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较，获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流，包括：

所述服务器根据所述目标图像的比特流的头部和所述服务器内的图像库中的任一图像的比特流的头部，确定所述目标图像的全局特征描述子和所述服务器内的图像库中的任一图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量；

若包含，则从目标图像的比特流的非头部与所述服务器内的图像库中相应图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩生成的全部比特位；

计算从目标图像的比特流取出的所述全部比特位和从所述服务器内的图像库中相应图像的比特流取出的所述全部比特位之间的基于汉明距离的相似度；

获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流。

由上述技术方案可知，本发明实施例的图像检索方法，通过选取图像的所有局部特征描述子中的部分局部特征描述子，对选取的局部特征描述子降维，并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子，进而对全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子，进而生成表达图像视觉特征的比特流并发送至服务器，以使服务器查找相似的图像。上述方法可以在内存消耗和可伸缩性上满足不同图像搜索应用的需求，并且能够进一步提升图像搜索和匹配的性能，能更好地应用于基于移动终端的图像搜索。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地：下面附图只是本发明的一些实施例的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得同样能实现本发明技术方案的其它附图。

图1为本发明一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图；

图2至图5为本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图；

图6和图7为本发明另一实施例提供的采用紧凑全局特征描述子生成比特流的方法的流程示意图；

图8为本发明一实施例提供的基于比特流进行图像匹配的方法的流程示意图；

图9为本发明一实施例提供的获取图像的紧凑全局特征描述子的装置的结构示意图；

图10为本发明一实施例提供的比特流生成装置的结构示意图；

图11为本发明一实施例提供的图像检索系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述。显然，下述的各个实施例都只是本发明一部分的实施例。基于本发明下述的各个实施例，本领域普通技术人员即使没有作出创造性劳动，也可以通过等效变换部分甚至全部的技术特征，而获得能够解决本发明技术问题，实现本发明技术效果的其它实施例，而这些变换而来的各个实施例显然并不脱离本发明所公开的范围。

图1示出了本发明一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图，如图1所示，本实施例中的获取图像的紧凑全局特征描述子的方法如下所述。

需要说明的是，本实施例中的紧凑全局特征描述子可以是在任一设备上进行，本实施例不限制其执行主体为客户端还是服务器。

101、获取图像的至少一个局部特征描述子，所述至少一个局部特征描述子形成一集合。

举例来说，上述提及的图像可以是任意一幅图像，如，该图像可以是具有文件的照片，或者是手绘的图片，油画图像，从视频中截取的帧，地标照片、或者物品照片等，本实施例不限定上述图像的类型和图像的内容。

特别地，获取图像的至少一个局部特征描述子的方式为现有的方式，举例来说，上述的局部特征描述子可为尺度不变描述子（Scale InvariantFeature Transform，简称：SIFT），或者，上述的局部特征描述子可为快速鲁棒的尺度不变特征描述子（Speeded Up Robust Features，简称：SURF），或其他局部特征描述子。

应了解的是，SIFT或SURF的提取方式可为现有的提取方式，本实施例不再详述。通常，SIFT的维度为128维，SURF的维度为64维。

102、根据局部特征描述子的选择方式，从所有的局部特征描述子中选取一个或多个局部特征描述子，所述选取的一个或多个局部特征描述子组成所述集合的第一子集。

举例来说，若图像的局部特征描述子的总数为1000个，则可以选取300个局部特征描述子组成第一子集。

另外，若图像的局部特征描述子的总数为150个，则可以将150个局部特征描述子组成第一子集。

可选地，如下图2中所举例的图像的局部特征描述子的选择方式。

103、将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子。

104、根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子。

105、将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子；

其中，所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化，紧凑全局特征描述子的字节大小也会相应变化。

图2示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图，在上述图1所示的实施例的基础上，在本实施例中，上述步骤102可包括如下的子步骤1021至子步骤1023。

本实施例中对于一幅图像，提取一个以上SIFT，从所有SIFT中选取包含N个SIFT的子集，所述子集中的SIFT用于后续的全局特征描述子的生成使用，其中N大于0。本实施例中N为300。

需要注意的是，当上述图像提取的SIFT的个数小于N时，则选取图像的所有SIFT作为子集中的元素。

1021、分别对若干匹配图像对和非匹配图像对提取所述SIFT。

其中，匹配图像对是指包含同一个物体或同一个场景的两幅图像，非匹配图像对是指包含不同物体或不同场景的两幅图像。这些匹配图像对和非匹配图像对不包括上述步骤101中的待执行操作的图像。

1022、通过统计，获得所述SIFT的不同特性在正确匹配的SIFT和误匹配SIFT中的概率分布；

其中，不同特性可以包括，如：尺度、方向、高斯差分的峰值、到图像中心的距离等。

1023、基于上述概率分布，计算当步骤101中的待执行操作的图像的SIFT的各个特性分别处于某一取值范围时，所述SIFT正确匹配的概率，根据所述概率从步骤101中的待执行操作的图像的所有SIFT中选取一个或多个SIFT。

其中，假设所述SIFT的不同特性统计独立，所述SIFT正确匹配的概率为基于不同特性计算的SIFT正确匹配的概率的乘积，并以此作为选取SIFT子集中的元素的依据。

在实际应用中，也可以采用其他局部特征描述子的选择方法，不限于上述举例的步骤1021至步骤1023。

需要说明的是，若干匹配图像对和非匹配图像对与待生成紧凑全局特征描述子的图像是不同的。特别地，上述步骤1021和步骤1022是可以预先获取的，即离线获取然后存储在设备中的。

图3示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图，在上述图1所示的实施例的基础上，在本实施例中，上述步骤103可包括如下的子步骤1031。

103、将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子，包括：

1031、采用降维矩阵对所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子；

举例来说，降维方式可以是主成分分析、线性判别分析等方式，其中主成分分析方式可以参考“Jolliffe，I.T.(1986).Principal Component Analysis.Springer-Verlag.pp.487.”中所公开的内容。

本发明的实施例中，降维方式可主要采用主成分分析方式。

需要说明的是，上述的第一图像数据集不包括上述步骤101中提及的用于生成紧凑全局特征描述子的图像。

进一步地，在图2所示的实施例的基础上，上述的103的子步骤可为如下的图中未示出的子步骤1031’。

1031’，利用降维矩阵分别对选取的N个SIFT进行降维，将SIFT的维度从128维降至32维。

本发明的实施例中，降维方式可主要采用主成分分析方式。

需要注意的是，不同的局部特征描述子的维度可能不同。特别地，可以将不同的局部特征描述子选择降至不同的维度，该维度由上述的降维矩阵决定。上述仅为举例说明，本实施例不对其进行限定。

在本实施例中，对选取的第一子集中的局部特征描述子降维的目的在于，可以减小生成的图像的全局特征描述子的维度，进而可以减小最终生成的图像的紧凑全局特征描述子的维度；进一步地，通过降维操作，可以消除选取的第一子集中的局部特征描述子中的冗余信息，进而提升图像搜索和匹配的性能。

图4示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图，在上述图1所示的实施例的基础上，在本实施例中，上述步骤104可包括如下的子步骤1041和1042。

104、根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子，包括：

1041、根据Fisher向量（Fisher Vector）生成规则，对所述降维后的局部特征描述子进行转换，得到累积梯度向量集合，并由所述累积梯度向量集合中的累积梯度向量构造第一Fisher向量。

1042、根据Fisher向量稀疏性判别规则，对所述累积梯度向量集合进行处理，并生成用于表达所述图像视觉特征的全局特征描述子。

举例来说，上述步骤1041中的所述Fisher向量生成规则可包括离线步骤和在线步骤：

其中，所述Fisher向量生成规则的离线步骤包括：

所述Fisher向量生成规则的在线步骤包括：

在实际应用中，利用第二图像数据集，可离线训练用于产生Fisher向量的概率分布模型。举例来说，概率分布模型可为高斯混合模型。当然，实际应用中的概率分布模型也可以应用其他概率分布模型，不限于高斯混合模型。

需要说明的是，上述的第二图像数据集也不包括上述步骤101中提及的用于生成紧凑全局特征描述子的图像。当然，上述的第一图像数据集和上述的第二图像数据集可以相同，也可以不同。

此外，Fisher向量生成规则可以参考“Florent Perronnin，ChristopherDance(2007).Fisher Kernels on Visual Vocabularies for ImageCategorization，CVPR.”所公开的内容，本实施例通过采用Fisher向量生成规则构造第一Fisher向量。

针对上述的步骤1042中的Fisher向量稀疏性判别规则，该处的Fisher向量稀疏性判别规则可为基于方差的稀疏性判别规则，或者Fisher向量稀疏性判别规则可为基于概率的稀疏性判别规则。

相应地，若Fisher向量稀疏性判别规则可为基于方差的稀疏性判别规则，则上述步骤1042可具体包括如下的图中未示出的步骤10421和10422。

10421、获取所述累积梯度向量集合中的每一所述累积梯度向量的所有维度的值的方差；

10422、将所有累积梯度向量的所述方差按照从大到小依次排序，选取排序中前K个方差对应的所述累积梯度向量，将选取的K个所述累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子。

相应地，若Fisher向量稀疏性判别规则可为基于概率的稀疏性判别规则，则上述步骤1042可具体包括如下的图中未示出的步骤10421’和10422’。

10421’、针对所述概率分布模型中的每一概率密度函数求得每一所述降维后的局部特征描述子对应的概率值，所述概率值构成所述每一概率密度函数的概率值集合；

10422’、若概率密度函数的所述概率值集合中的最大概率值大于预设的第一阈值，则选取所述概率密度函数；

需要说明的是，上述Fisher向量稀疏性判别规则中的稀疏性是指：第一Fisher向量的大部分维度对于表达图像的面向检索的区分力的作用不大时，称这样的第一Fisher向量是稀疏的。

另外，上述的第一Fisher向量可为本领域所述的自适应Fisher向量，自适应是指根据图像视觉特征的统计特性生成Fisher向量，本发明实施例中为描述方便，在某些地方使用第一Fisher向量，在某些实施例中使用自适应Fisher向量，该处的第一Fisher向量和自适应Fisher向量是一致的，只是叫法不同。

为进一步详细描述上述的步骤104，在其他实施例中，上述的步骤104可包括如下的子步骤：

利用第二图像数据集训练高斯混合模型，所述高斯混合模型将用于为步骤101中的图像生成自适应Fisher向量，具体包括：

S01、通过第二图像数据集训练得到的高斯混合模型的参数集合为λ，λ包括M个高斯分量的参数，其中包括混合权重[w₁,......,w_M]、均值向量[μ₁，......,μ_M]和标准差[σ₁,......,σ_M]，即λ＝{w_i,μ_i,σ_i}i＝1…M。

S02、目标图像X可以表示为包含N个所述降维后的SIFT的集合，即X＝{x_t,t=1...N}，x_t为第t个降维后的SIFT，维度为d。本实施例中，N=300，d=32。

S03、用对数似然函数L(X|λ)表示目标图像，如式(1)所示，

L (X | λ) = \log p (X | λ) = Σ_{t = 1}^{N} \log p (x_{t} | λ) - - - (1)

其中：λ为高斯混合模型的参数集合，

为高斯混合模型的似然函数，p_i(x_t|λ)为第i个高斯分量的概率密度函数。

S04、对数似然函数L(X|λ)对第i个高斯分量的均值向量求偏导，得到第i个高斯分量的累积梯度向量

如式(2)所示，

g_{i}^{X} = \frac{&PartialD; L (X | λ)}{&PartialD; μ_{i}} = \frac{1}{\sqrt{w_{i}}} Σ_{t = 1}^{N} γ_{t} (i) (\frac{x_{t} - μ_{i}}{σ_{i}}) - - - (2)

其中，w_i为第i个高斯分量的混合权重，μ_i为第i个高斯分量的均值向量，σ_i为第i个高斯分量的标准差，

γ_{t} (i) = p (i | x_{t}, λ) = \frac{w_{i} p_{i} (x_{t} | λ)}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t} | λ)}

为在第i个高斯分量产生第t个降维后的SIFT x_t的概率。

S05、将128个高斯分量各自对应的累积梯度向量依次连接起来，得到所述自适应Fisher向量。

举例来说，在另一应用场景中，接续前述的S01至S05之后的步骤如S06和S07：

S06、基于方差的稀疏性判别规则，对于自适应Fisher向量，计算每个高斯分量的累积梯度向量所有维度的值的方差；

S07，将所有方差按照从大到小依次排序，选取前K个方差较大的高斯分量的累积梯度向量，K大于1；将所述选取的高斯分量的累积梯度向量拼接成可伸缩的全局特征描述子，即用于表达所述图像视觉特征的全局特征描述子。

需要了解的是，若所述高斯分量的累积梯度向量所有维度的值方差较小（趋近于0），则该所述累积梯度向量对于表达图像的面向搜索的区分力的作用很小。

该种Fisher向量稀疏性判别规则的优势是可以针对不同应用场景下对性能的不同要求生成可伸缩的全局特征描述子，进而提高图像搜索和匹配的效率。

举例来说，在另一应用场景中，第二种是基于高斯分量下产生所述降维后的SIFT的概率的稀疏性判别规则，具体的，

对最大概率max_0≤t≤Nγ_t(i)设置阈值，并将计算第i个高斯分量的累积梯度向量

的公式（2）做如下更改：

g_{i}^{X} = \frac{&PartialD; L (X | λ)}{&PartialD; u_{i}} = \{\begin{matrix} \frac{1}{\sqrt{w_{i}}} Σ_{t = 1}^{N} γ_{t} (i) (\frac{x_{t} - u_{i}}{σ_{i}}), & \max_{0 \leq t \leq N} γ_{t} (i) > τ \\ 0, & otherwise \end{matrix} - - - (2^{,})

其中，τ为预置阈值。在不同应用场景下可以通过修改所述预置阈值生成可伸缩的全局特征描述子。

需要了解的是，在统计意义上，第i个高斯分量下产生所有所述降维后的SIFT的最大概率越大，第i个高斯分量的累积梯度向量所有维度的值的方差就越大。因此，两种规则产生的结果基本一致。

图5示出了本发明另一实施例提供的获取图像的紧凑全局特征描述子的方法的流程示意图，在上述图1所示的实施例的基础上，在本实施例中，上述步骤105可包括如下的子步骤1051和1052。

105、将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子，包括：

1051、采用二进制数值表示所述全局特征描述子中各维度的数值，若全局特征描述子中某一维度的数值为正数，则二进制数值为1；

1052、若全局特征描述子中某一维度的数值为负数和零，则二进制数值为0。

本实施例中可采用最简单的二值化（Binarizing）方法，对所述可伸缩的全局特征描述子进行数据压缩；

例如，若可伸缩的全局特征描述子某一维度的值为非负值，则将对应位置为1，否则将对应位置为0。

在实际应用中，也可以采用其他将实数向量二值化的方法，如采用哈希映射函数等。

在一种优选的实现场景中，获取图像的紧凑全局特征描述子的方法可包括上述的步骤101—步骤1021—步骤1022—步骤1023—步骤1031—步骤1041—步骤1042—步骤1051—步骤1052。

或者，上述的步骤1031可采用1031’代替；或者，上述的步骤1042可采用10421’、10422’代替；或者，上述的步骤1042可采用10421、10422代替；或者，上述的步骤1041—步骤1042可采用S01至S07代替。

由上述图2至图5所示的技术方案可知，本实施例所述的方法，通过根据局部特征描述子的统计特性选择具有判决力的局部特征描述子，并采用主成分分析方法对选取的局部特征描述子进行降维，利用降维后的局部特征描述子生成图像的自适应Fisher向量，根据Fisher向量的稀疏性对自适应Fisher向量进行进一步压缩，进而得到可伸缩的全局特征描述子，最终通过对全局特征描述子二值化得到紧凑全局特征描述子。本实施例提供的面向搜索的全局特征描述子，可以满足不同应用对全局特征描述子字节大小的要求，并且能够进一步提升图像搜索和匹配的性能，减少内存的消耗，能更好地应用于基于移动设备的图像搜索。另外，本实施例提供的可伸缩的全局视觉特征描述子，可以在不同字节大小的全局特征描述子之间进行互操作，具有更好的灵活性。

图6示出了本发明另一实施例提供的采用紧凑全局特征描述子生成比特流的方法的流程示意图，如图6所示，本实施例中的采用紧凑全局特征描述子生成比特流的方法如下所述。

601、获取图像的至少一个局部特征描述子，所述至少一个局部特征描述子形成一集合。

602、根据局部特征描述子的选择方式，从所有的局部特征描述子中选取一个或多个局部特征描述子，所述选取的一个或多个局部特征描述子组成所述集合的第一子集。

可选地，如图2中所举例的图像的局部特征描述子的选取方式。

603、将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子。

可选地，如图3中所举例的获取降维后的局部特征描述子的内容。

604、根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子。

可选地，如图4中所举例的获取全局特征描述子的内容。

605、将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子；

可选地，如图5中所举例的获取紧凑全局特征描述子的内容。

606、根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。

由上述实施例可知，本实施例的采用紧凑全局特征描述子生成比特流的方法，通过选取图像的所有局部特征描述子中的部分局部特征描述子，对选取的局部特征描述子降维，并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子，进而对全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子，进而生成表达图像全局视觉特征的比特流。上述方法获取的比特流占用空间非常小，解决了现有技术中网络带宽限制时发送有限特征导致服务端图像检索能力低下的问题。

在一种应用场景中，上述的步骤602可具体采用图2中所示的步骤1021、步骤1022和步骤1023实现。

在第二种应用场景中，上述的步骤603可具体采用图3所示的步骤1031实现。或者，可选地，步骤603可具体采用上述实施例中举例的步骤1031’实现。

在第三种应用场景中，上述的步骤604可具体采用图4所示的步骤1041和步骤1042实现。或者，可选地，步骤604可具体采用步骤1041和步骤10421、步骤10422实现；或者，可选地，步骤604可具体采用步骤1041和步骤10421’、步骤10422’实现；在一种更优选的实现方式中，步骤604可具体采用步骤S01至步骤S07来实现。

在第四种应用场景中，上述的步骤605可具体采用步骤1051和步骤1052来实现。

图7示出了本发明另一实施例提供的采用紧凑全局特征描述子生成比特流的方法的流程示意图，在图7所示的基础上，在本实施例中，上述步骤606可包括如下的子步骤6061至子步骤6063。

所述比特流包括头部和非头部，所述第一规则中Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型，所述概率分布模型是由M个独立的概率密度函数线性叠加得到的，其中，M为大于等于1的自然数；

606、根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流，包括：

6061、所述比特流的头部的维度与所述概率分布模型中的概率密度函数的个数相同，且所述概率分布模型中的一概率密度函数对应所述比特流的头部的一维度；

6062、若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子，则与所述概率密度函数对应的所述比特流的头部的相应维度的数值为1，否则为0。

也就是说，比特流的头部由若干0、1组成，其维度等于概率分布模型中概率密度函数的个数，每一个概率分布模型的概率密度函数对应比特流头部的一位，如果该概率密度函数对应的累积梯度向量被用于拼接成可伸缩的全局特征描述子，那么比特流头部的相应位置成1，否则置成0。

6063、将所述紧凑全局特征描述子组成所述比特流的非头部。

图8示出了本发明另一实施例提供的基于比特流进行图像匹配的方法的流程示意图，如图8所示，本实施例中的基于比特流进行图像匹配的方法如下所述。

801、获取图像的至少一个局部特征描述子，所述至少一个局部特征描述子形成一集合。

802、根据局部特征描述子的选择方式，从所有的局部特征描述子中选取一个或多个局部特征描述子，所述选取的一个或多个局部特征描述子组成所述集合的第一子集。

803、将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子。

804、根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子。

可选地，如图4中所举例的获取全局特征描述子的内容。

805、将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子；

可选地，如图5中所举例的获取紧凑全局特征描述子的内容。

806、根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。

可选地，如图7中所举例的生成比特流的内容。

807、根据目标图像的比特流的头部和待匹配图像的比特流的头部，确定所述目标图像的全局特征描述子和所述待匹配图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量。

808、若包含，则分别从目标图像的比特流的非头部与待匹配图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩后生成的全部比特位。

809、计算从目标图像的比特流的非头部取出的所述全部比特位和从待匹配图像的比特流的非头部取出的所述全部比特位之间的基于汉明距离的相似度。

本实施例中，基于汉明距离的相似度的计算方法为：

目标图像的所述全部比特位与待匹配图像的所述全部比特位中能够对应到同一概率密度函数的比特位子段之间做异或操作，并计算异或操作结果中值为1的比特位的个数，记为目标图像的所述比特位子段与待匹配图像的所述比特位子段之间的汉明距离；

用预先学习的距离权重乘以所述比特位子段之间的汉明距离，得到所述比特位子段之间的加权汉明距离；

其中，距离权重是通过机器学习方法基于若干匹配图像对和非匹配图像对学习得到的，或者根据经验设置的；

将所述目标图像的全局特征描述子与所述待匹配图像的全局特征描述子共同使用的所有概率密度函数对应的所述比特位子段之间的加权距离累加，并做归一化操作，得到所述基于汉明距离的相似度，如式(3)所示，

S_{X, Y} = \frac{Σ_{i = 1}^{M} b_{i}^{X} b_{i}^{Y} (d - 2 * w_{i} Ha (u_{i}^{X}, u_{i}^{Y}))}{\sqrt{M Σ_{i = 1}^{M} b_{i}^{X}} \sqrt{M Σ_{i = 1}^{M} b_{i}^{Y}}}

其中，M为所述概率分布模型中概率密度函数的个数，d为所述概率密度函数对应的累积梯度向量的维度，和

分别表示图像X和图像Y的所述全局特征描述子是否使用了第i个概率密度函数对应的累积梯度向量，w_i为通过机器学习方法基于若干匹配图像对和非匹配图像对学习得到的或者根据经验设置的距离权重，

为图像X的所述全部比特位和图像Y的所述全部比特位中对应第i个概率密度函数的比特位子段之间的汉明距离。

810、若所述基于汉明距离的相似度大于预置的第二阈值，则判定目标图像与待匹配图像匹配，否则不匹配。

其中，互操作是指不同字节大小的比特流之间可以进行比较。

根据本发明的另一方面，本发明还提供一种图像检索方法，如下的步骤S901至S906所示，本实施例中的图像检索的方法如下所述。

S901、客户端根据图6或图7所示的任意方法获取用于表达目标图像视觉特征的比特流。

在移动设备性能、无限网络带宽等条件允许的情况下，可以同时将压缩后的局部特征描述子发送至服务器，用于对初步图像检索结果进行基于几何不变性的重排序。

其中，几何不变性是指对于相似图像，虽然一幅图像相对于另一幅图像发生了旋转、平移等图像变换，但是其特征点的相对几何位置具有不变性。

S902、客户端将所述目标图像的比特流传输至服务器。

S903、服务器根据上述图6或图7所示的任意方法获取用于表达所述服务器内图像库中任一图像视觉特征的比特流。

S904、所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较，获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流；

S905、所述服务器选择性地对所述前Q个基于汉明距离的相似度最大的服务器内的图像库中图像的比特流对应的图像进行后期处理；

其中，后期处理可以为基于几何不变性的重排序等。

S906、所述服务器将经过所述后期处理获得的服务器内的图像库中图像发送至所述客户端。

上述的Q为大于等于1的自然数。

由上述实施例可知，本实施例的图像检索方法，通过选取图像的所有局部特征描述子中的部分局部特征描述子，对选取的局部特征描述子降维，并将降维后的局部特征描述子转换为用于表达图像视觉特征的全局特征描述子，进而对全局特征描述子进行数据压缩，得到图像的紧凑全局特征描述子，进而生成表达图像视觉特征的比特流并发送至服务器，以使服务器查找相似的图像。上述方法可以在内存消耗和可伸缩性上满足不同图像搜索应用的需求，并且能够进一步提升图像搜索和匹配的性能，能更好地应用于基于移动终端的图像搜索。

举例来说，上述步骤S904可包括：

S9041、所述服务器根据所述目标图像的比特流的头部和所述服务器内的图像库中的任一图像的比特流的头部，确定所述目标图像的全局特征描述子和所述服务器内的图像库中的任一图像的全局特征描述子是否包含相同的概率密度函数对应的累积梯度向量；

S9042、若包含，则从目标图像的比特流的非头部与所述服务器内的图像库中相应图像的比特流的非头部中取出二者共同使用的概率密度函数对应的累积梯度向量经数据压缩生成的全部比特位；

S9043、计算从目标图像的比特流取出的所述全部比特位和从所述服务器内的图像库中相应图像的比特流取出的所述全部比特位之间的基于汉明距离的相似度；

本实施例中，基于汉明距离的相似度的计算方法为：

S_{X, Y} = \frac{Σ_{i = 1}^{M} b_{i}^{X} b_{i}^{Y} (d - 2 * w_{i} Ha (u_{i}^{X}, u_{i}^{Y}))}{\sqrt{M Σ_{i = 1}^{M} b_{i}^{X}} \sqrt{M Σ_{i = 1}^{M} b_{i}^{Y}}} - - - (3)

S9044、获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流。

由于上述计算基于汉明距离的相似度只涉及到比特位操作，因此可以有效减少全局特征描述子之间的比较时间，目前的计算机在硬件上对该操作的支持，可以实现更有效的全局特征描述子的比较。

由上述实施例可知，本实施例提供的图像检索方法，可较好的降低图像搜索时的查询响应时间，使得图像搜索的效率提高。通过选取并压缩局部特征描述子，由局部特征描述子集成可伸缩的紧凑全局特征描述子，降低了内存开销，并消除了描述子包含的冗余信息，提高了搜索结果的准确性，并且对于不同字节大小的紧凑全局特征描述子，可以进行有效的互操作，具有较好的灵活性。

图9示出了本发明一实施例提供的获取图像的紧凑全局特征描述子的装置的结构示意图；如图9所示，获取图像的紧凑全局特征描述子的装置包括：获取单元91、描述子选择单元92、描述子降维单元93、转换单元94和压缩单元95；

其中，获取单元91，用于获取图像的至少一个局部特征描述子，所述至少一个局部特征描述子形成一集合；

描述子选择单元92，用于根据局部特征描述子的选择方式，从所有的局部特征描述子中选取一个或多个局部特征描述子，所述选取的一个或多个局部特征描述子组成所述集合的第一子集；

描述子降维单元93，用于将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子；

转换单元94，用于根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子；

压缩单元95，用于将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子；

上述的获取图像的紧凑全局特征描述子的装置可以位于客户端中，也可以位于服务器中，本实施例仅为举例说明。

图10示出了本发明一实施例提供的比特流生成装置的结构示意图，如图10所示，本实施例中的比特流生成装置包括上述图9所示的获取图像的紧凑全局特征描述子的装置中的获取单元91、描述子选择单元92、描述子降维单元93、转换单元94和压缩单元95；以及还包括比特流生成单元96；

其中，比特流生成单元96，用于根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像视觉特征的比特流。

举例来说，所述比特流包括头部和非头部，所述第一规则中Fisher向量生成规则的离线步骤包括训练预设的第二图像数据集得到用于产生Fisher向量的概率分布模型，所述概率分布模型是由M个独立的概率密度函数线性叠加得到的，其中，M为大于等于1的自然数；

比特流生成单元96可具体用于：所述比特流的头部的维度与所述概率分布模型中的概率密度函数的个数相同，且所述概率分布模型中的一概率密度函数对应所述比特流的头部的一维度，若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子，则与所述概率密度函数对应的所述比特流的头部的相应维度的数值为1，否则为0，将所述紧凑全局特征描述子组成所述比特流的非头部。

本实施例中的比特流生成装置通常位于移动终端/移动设备中，当然也可以位于任何一个服务器中，本实施例不对其进行限定。

图11示出了本发明一实施例提供的图像检索系统的结构示意图，如图11所示，本实施例中的图像检索系统包括：客户端和服务器；

其中，客户端包括图10所示的比特流生成装置011、发送单元012、接收单元013，该发送单元012用于将比特流生成装置生成的比特流发送至服务器，该接收单元013用于接收服务器返回的图像；

服务器包括：接收单元021，比较单元022、发送单元023，以及还包括：图9所述获取图像的紧凑全局特征描述子的装置和/或包括图10所示的比特流生成装置024，

图11中仅举例的是服务器包括图10所示的比特流生成装置024的结构。

其中，比特流生成装置024获取服务器内的图像库中的每一图像的比特流；

其中接收单元021用于接收客户端发送的目标图像的比特流；

所述比较单元022用于将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较，获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流；以及选择性地对所述前Q个基于汉明距离的相似度最大的服务器内的图像库中图像的比特流对应的图像进行后期处理；发送单元023用于将经过所述后期处理获得的服务器内的图像库中图像发送至所述客户端。

上述的Q为大于等于1的自然数。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种获取图像的紧凑全局特征描述子的方法，其特征在于，包括：

其中，所述全局特征描述子的字节大小可根据所述第一规则中的参数值的变化而变化；相应地，在所述全局特征描述子的字节大小变化时，所述紧凑全局特征描述子的字节大小也相应变化。

2.根据权利要求1所述的方法，其特征在于，将所述第一子集中的局部特征描述子进行降维，获得降维后的局部特征描述子，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设的第一规则，将所述降维后的局部特征描述子转换为用于表达所述图像视觉特征的全局特征描述子，包括：

4.根据权利要求3所述的方法，其特征在于，

所述Fisher向量生成规则包括：离线步骤和在线步骤；

所述Fisher向量生成规则的离线步骤包括：

所述Fisher向量生成规则的在线步骤为：

根据所述概率分布模型中的每一概率密度函数，将所述每一降维后的局部特征描述子转换为梯度向量，得到针对每一概率密度函数的梯度向量集合；

针对每一概率密度函数的梯度向量集合，求所有所述梯度向量的平均值，得到每一概率密度函数对应的累积梯度向量；

将所有累积梯度向量的所述方差按照从大到小依次排序，选取排序中前K个方差对应的所述累积梯度向量，将选取的K个累积梯度向量组成用于表达所述图像视觉特征的全局特征描述子；

或者，

针对所述概率分布模型中的每一概率密度函数求得每一所述每一降维后的局部特征描述子对应的概率值，所述概率值构成所述每一概率密度函数的概率值集合；

若概率密度函数的所述概率值集合中的最大概率值大于预设的第一阈值，则选取该概率密度函数；

5.根据权利要求1所述的方法，其特征在于，所述将所述全局特征描述子进行数据压缩，得到所述图像的紧凑全局特征描述子，包括：

6.一种采用紧凑全局特征描述子生成比特流的方法，其特征在于，包括如上权利要求1至5任一所述的方法，还包括：

根据预设的第一规则和全局特征描述子、紧凑全局特征描述子生成用于表达图像全局视觉特征的比特流。

7.根据权利要求6所述的方法，其特征在于，

所述比特流包括头部和非头部，所述第一规则中Fisher向量生成规则的离线步骤包括：

若所述概率分布模型中的一概率密度函数对应的累积梯度向量用于组成所述全局特征描述子，则所述与该概率密度函数对应的所述比特流的头部的相应维度的数值为1，否则为0；

将所述紧凑全局特征描述子组成所述比特流的非头部。

8.一种基于比特流进行图像匹配的方法，其特征在于，包括如上权利要求6至7任一所述的方法，还包括：

9.一种图像检索方法，其特征在于，包括：

客户端采用如上权利要求6或7所述的方法获取目标图像视觉特征的比特流；

所述客户端将所述目标图像的比特流传输至服务器；

所述服务器根据上述权利要求6或7所述的方法获取用于表达所述服务器内图像库中任一图像视觉特征的比特流；

10.根据权利要求9所述的方法，其特征在于，

所述服务器将所述目标图像的比特流与所述服务器内的图像库中任一图像的比特流进行比较，获取前Q个与目标图像的比特流的基于汉明距离的相似度最大的服务器内的图像库中图像的比特流，包括：