CN102201001A

CN102201001A - 基于倒排技术的快速检索方法

Info

Publication number: CN102201001A
Application number: CN 201110110118
Authority: CN
Inventors: 廖开阳; 刘贵忠; 肖莉; 惠有师; 南楠; 王喆
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-04-29
Filing date: 2011-04-29
Publication date: 2011-09-28
Anticipated expiration: 2031-04-29
Also published as: CN102201001B

Abstract

本发明提供了一种基于倒排技术的快速检索方法，包括如下步骤：1.根据量化表，利用几何一致性，在倒排表中取出对应中心满足要求的所有数据，形成数据集A；2.利用基于数组的桶排序方法，快速排序统计数据集A中数据的顺序及出现次数；3.根据内容一致性计算匹配率，滤出干扰数据，获得数据集B；4.根据精度要求在数据集B中快速查找最优集C，作为输出结果。本发明的方法运行速度非常快，可以在大量杂乱无章的数据中快速、精确地找到用户所关心的数据，而且可根据实际应用对查询结果的精度进行调整。应用本发明方法的时间复杂度为O(n)，只与据集A的规模n有关，与总体数据集的规模无关，从而大大提高查询的效率。

Description

基于倒排技术的快速检索方法

技术领域

本发明涉及检索、排序、统计技术领域，特别涉及基于倒排技术的快速检索方法。

背景技术

在全球信息化大潮的推动下，各种信息，如文本信息、图像信息、音频信息、视频信息等，都在无节制地膨胀；目前，这些信息已经成为一个信息的海洋，改变了并还在改变着人类的工作和生活方式；面对海量的信息，如何从中找到自己感兴趣的内容便成了一个人们研究的课题，搜索引擎在这种情况下应运而生。而在检索方面，快速有效的倒排索引技术开辟了文本搜索引擎的先河，并在上个世纪末成就了一批新兴的搜索引擎公司，获得了巨大的商业利益。倒排表索引技术是受书目索引启发而诞生的，是一种将文本中出现的各个索引项和索引项出现的位置信息存储在称为表结构的索引中，检索时，仅查找倒排表来检索查询词的方法。在查询的时候由于可以一次得到关键字所对应的所有文档，所以效率很高。

倒排索引技术广泛地用于支持高效的海量数据的快速检索，目前很多优秀搜索引擎都是构建在这种结构之上的。图像、视频检索和文本检索相比要应对更大的数据量，那么借鉴文本搜索的优势，倒排索引结构将无疑是最好的选择，因此倒排索引结构也被应用到图像、音视频等多媒体检索中。

在采用倒排索引技术的检索中，检索的快速响应是最为关键的，而索引建立是在后台进行，效率会相对低一些。倒排索引的检索时间主要由两部分时间决定：建立量化表所须的时间，根据量化表读取倒排索引中相关倒排列表并进行查找所须的时间。建立量化表所须的时间与所选用的特征、量化方式等有关，在这里不作深入研究；本发明重点研究根据量化表读取倒排索引中相关倒排列表并进行查找所须的时间，并在此基础上提高查找的效率。这对要求实时响应或批量检索任务的用户来说这是非常有意义的。

发明内容

本发明的目标是提供一种能够在海量的数据中快速、精确的找到用户所关心数据的检索方法。

为了实现上述目标，基于倒排技术的快速检索方法，包括下列步骤：

根据量化表，应用几何一致性，在倒排表中取出对应中心满足要求的所有数据，形成数据集A；在量化表内逐个取出中心数，并在倒排表内找到这个中心所在倒排项的起始位置，逐个取出当前中心所对应的所有倒排项，满足规定的几何一致性，放入数据集A中；

应用基于数组的桶排序方法，快速排序统计数据集A中数据的顺序及出现次数，获得数据集B；

根据内容一致性计算匹配率，滤出干扰数据，获得数据集C；

根据精度要求在数据集C中快速查找最优集D，作为输出结果。

所述倒排表是一个词汇到出现过该词汇的所有文本、图像或视频帧位置的映射，以及关于这个词汇的方向、位置和尺度信息。

所述量化表是每个词汇在倒排表中对应中心位置和关于这个词汇的方向、位置和尺度信息。

所述几何一致性是指待查找内容与目标内容在局部具有空间几何一致性的属性，应用这一属性可以对查询的结果进行筛选。

所述应用基于数组的桶排序方法，快速排序统计数据集A中数据的顺序及出现次数，包括下列步骤：

建立一个按顺序排列的桶，根据目标数据的序号信息，建立一个数组，初始化为0，每个数组元素的下标对应着目标数据的一个序号，这个数组根据目标数据的序号信息可以是一维、二维或多维，把每一个数组元素看成一个桶，就建立了一个按顺序排列的桶；

把数据集A中数据分入桶中，根据数据集A中数据的序号信息，把每个数据分入对应桶中，即对应下标的数组元素增1，获得了一个有序的统计集合，即数据集B。

所述内容一致性是指待查找内容与目标内容在内容上具有相似性的属性，这样提取出的特征点数应该比较接近，应用这一属性对查询的结果进行筛选。

所述根据内容一致性计算匹配率，滤出干扰数据，获得数据集C，包括下列步骤：

找出数据集B中大于0的数组元素，该数组元素的值为匹配点数，即以这个元素下标为序号的目标项和查询项的特征匹配上的点数；

根据匹配点数、查询项和目标项的总特征点数，求得匹配率，先比较查询项总特征点数、目标项的总特征点数哪个大，然后用匹配点数除以较大的总特征点数得到匹配率；

找出数据集B中匹配率大于域值t的所有比值，放入数据集C中。

所述根据精度要求在数据集C中快速查找最优集D，作为输出结果，根据匹配率高说明匹配效果好这一事实，在数据集C中快速查找匹配率最高的前m项，形成最优集D，其中m代表精度，决定最优集的范围。

所述快速查找是指建立一个具有m项的有序单向链表L，扫描数据集C中的数据，如果找到一个数比链表L中最小的数大则插入链表L中，同时在链表L中删除最小的数，利用链表结构的快速插入和删除的特性，一次循环即可找到匹配率最高的前m项。

本发明的主要优点是检索结果精确、运行速度非常快，可以在大量杂乱无章数据中快速、精确地找到用户所关心的数据，而且可根据实际应用对查询结果精度作出不同的调整。应用本发明方法的时间复杂度为O(n)，只与据集A的规模n有关，与总体数据集的规模无关，从而大大提高查询的效率。本发明适用于应用倒排索引技术的检索引擎，可以用于文本检索、图像检索、视频检索等方面的快速检索。

从以上技术方案可以看出，本发明方案具有以下有益效果：

1)检索效率非常高，时间复杂度为O(n)；

2)适用范围广泛，可用于基于倒排索引技术的检索引擎；

3)检索结果精确，并且可根据实际应用调整查询结果精度。

附图说明

图1为本发明方法的处理流程图；

图2为本发明方法中的倒排索引示例图；

下面结合附图对本发明的内容作进一步详细说明。

具体实施方式

如图1所示，为本发明实现对海量数据快速检索的流程示意图。首先，根据量化表，应用几何一致性，在倒排表中取出对应中心的满足要求所有数据，形成数据集A；其次，应用基于数组的桶排序方法，快速排序统计数据集A中数据的顺序及出现次数，获得数据集B；然后，根据内容一致性计算匹配率，滤出干扰数据，获得数据集C；最后，根据精度要求在数据集C中快速查找最优集D，作为输出结果。

如图2所示，为本发明方法中的倒排索引示例图。首先，把查询项量化成量化表，然后根据量化表在倒排表中查找，根据查找到的信息再进行排序、统计，最终得到所查找的目标顶。

一个倒排索引通常可以由量化表文件和倒排表文件两部分组成。量化表文件记录了文档集(图像、视频帧)中出现的所有词汇。倒排表文件将每个词汇在记录文件(图像、视频帧)中的位置和频率等信息都记录下来，所有词汇的这些信息就构成了倒排表。对于量化表文件中的n个词汇(特征)w₁…w_n中的一个w_i，在m个记录文件(图像、视频帧)d₁…d_m中的倒排表可以表示为：

\begin{matrix} w_{i} & d_{1} [f_{1}] < p_{i 1}, \cdot \cdot \cdot, p_{{if}_{1}} > & \cdot \cdot \cdot & d_{m} [f_{m}] < p_{i 1}, \cdot \cdot \cdot, p_{{if}_{m}} > \end{matrix} - - - (1)

这样n条这样的记录就构成一个完整的倒排表，其中f_i表示频率、方向、尺度等其它信息。表达式(1)给出了一个完整的用于查询文本词汇的倒排索引结构。

一个倒排表实际上就是一个词汇到出现过该词汇的所有文本、图像或视频帧位置的映射，它同时也提供了一种描述符直接一对一匹配的近似方法。倒排索引技术被广泛应用到图像、拷贝检测、图像目标检索以及视频拷贝检测及检索领域，在如何利用局部特征建词汇这一问题上，很多研究者近几年做了大量的工作。Sivic J，Zisserman等人介绍了一种视频中的目标及场景检索方法。而他们的索引结构采用的是基于视觉词汇的倒排索引结构，在量化环节，最基本的K-均值聚类方法被用来将采样后的二十万个局部特征描述符样本分别量化到6000和10000个视觉词汇上，而后分别基于这6000和10000两个视觉词汇库，对特定目标和特殊场景进行检索。David Nister等人在研究了Sivic J等人的工作基础上，认为基于k-均值的视觉词汇产生方法在应对数量较大的描述符样本点时效率不高，他们提出用分级的k-均值聚类方法来产生分级的视觉词汇，从而建立分级的倒排索引文件。他们认为这种分级的倒排索引结构在搜索时更有效率，而且可以应对更大的数据库的需求。其他很多聚类及量化方法，如类k均值聚类方法或者网格量化方法等，也都曾被用来有效地产生视觉词汇。

倒排表和量化表的产生人们已经对它做出了大量研究，在这里不再做深入研究，本发明使用分级K-均值聚类方法来生成倒排表和量化表。

这种基于词汇的倒排索引结构，词汇的区分力度并不是很大，根据查询结果筛选出候选结果会存在大量的错误候选点，也就是说导入词汇的倒排表会非常大，而且很多倒排文件里的特征，与查询的特征所代表的内容，相差很远。那么大量的错误候选点将对后期进行所有词汇的倒排表求交带来困难。一方面是带来巨大的数据存贮和不可估量的运算量，另一方面，也有可能让误检点淹没真实的目标。所以，在导入某个词汇的倒排表前，可以先利用一些查询信息的基本特征参数，以相似性度量的方式对候选点进行筛选，从而在查询具体内容之前，就大大减少数据量，提升运算效率。

在文本的查询结果的排序中，Google对目标文档中，出现的与多个检索词顺序一致的候选文档排得靠前，而顺序不一致的则靠后。对于图像、视频帧来说，在特征点/区域检测时存储的特征空间分布及几何特性等信息就可以用来进行相似度的度量。查询图像、视频中的目标——即视频关键帧的局部区域，在目标视频库关键帧中出现的部分，这两者的局部分布应该是一样的。根据具体情况的不同，本发明提出了三种空间几何一致性筛选方案：

min(x-x′，y-y′)＜posTh (2)

min([α-α′]_(-π，π)，[(π-α)-α′]_(-π，π))＜oriTh (3)

| \frac{s}{s^{'}} - 1 | < sclTh - - - (4)

上面给出的公式中，(x，y)为查询图像、视频关键帧中的特征点坐标，α和s为查询图像、视频中的特征点的主方向和特征尺度。类似的，(x′，y′)，α′，s′为倒排索引中指示的目标图像、视频库中与查询图像、视频关键帧特征点属于同一视觉词汇的候选视频特征点的坐标位置，主方向，和特征尺度。这样，每导入一个倒排表文件，其数据量就减小到原始倒排文件的数据量的1/10～1/20，甚至更多。数据量更少，更准，为后期查询候选图像、视频关键帧，排序，起到了关键的作用。

进行检索时，首先从量化表内逐个取出词汇中的分类中心数，并在倒排表内找到这个中心所在倒排项的起始位置；然后逐个取出当前中心所对应的所有倒排项，如果满足规定的几何一致性，则放入数据集A中。

数据集A中的数据量很大，而且是无序排列的，因此需要对这些数据进行快速排序、统计。目前的很多方法都是先用各种排序算法对数据集A进行排序，然后采用合并同类项的方法进行统计工作。如果数据集A的规模很大，这种方法的效率是很低的，因为排序本身就是一件非常耗时的工作，即使是目前应用比较广泛的快速排序算法的时间复杂度也为O(nlog2n)。

如果记录关键字取值于[0，1]区间内，我们可将该区间平均分成N份，并将关键字落入区间

的记录收集到一起——称为“桶”。桶间记录的大小关系是由桶所完全确定的，因此只要桶内部记录有序我们就可以简单将这N个桶连接起来得到有序的目标数据集。由这一思想得到经典桶排序算法。经典桶排序则需要关键字满足[0，1]均匀分布。由于无法事先了解落入各“桶”中的确切记录数，经典桶排序算法以链表来构造桶，并通过插入排序处理桶内记录。若所有记录都落入同一桶中，算法退化为O(N²)插入排序算法。另一方面当数据分布均匀时，桶排序算法却能够获得O(N)时间效率。

通过对数据集A中的数据进行研究发现这些数据是有特点和规律的。这些数据是对目标对象的定量描述，如文章的编号、图像的编号、视频的编号或视频帧图像的编号等。即这些数据都是一些重复出现、顺序混乱的编号，而且这些编号的最小值、最大值是可以确定的。一般这些编号的最小值为0或1，最大值为目标对象库中对象的数目，也是可以确定的。因为当数据分布均匀时，桶排序算法却能够获得O(N)时间效率，所以本发明根据数据集A中数据的特点和规律改进桶排序算法称为基于数组的桶排序算法。根据桶排序的思想，可以把桶分得很小，小到每一个桶的范围为一个具体的数字(每个桶只存入某个数的个数)，并且这些桶采用数组结构代替链表结构以加速查找。链表结构在数据的插入或删除是非常高效的，但数据查找或定位的效率不高，而数组的数据查找或定位的效率非常高。

本发明采用基于数组的桶排序算法，快速地对数据集A进行排序和统计。首先，建立一个按顺序排列的桶。根据目标数据的序号信息，建立一个数组，初始化为0，每个数组元素的下标对应着目标数据的一个序号，这个数组根据目标数据的序号信息可以是一维、二维、甚至多维的。如对文本、图像的检索，序号是一维的；如对视频序列的检索，序号是二维的，由<视频号，帧号>就可以确定某个视频的某一帧。如果把每一个数组元素看成一个桶的话，就建立了一个按顺序排列的桶。然后，把数据集A中数据分入桶中。根据数据集A中数据的序号信息，把每个数据分入对应桶中，即对应下标的数组元素增1。这样就获得了一个有序的统计集合，即数据集B。

采用基于数组的桶排序法方法，对数据集A进行排序和统计一次性完成，且速度非常快，时间复杂度为O(n)，只与据集A的规模n有关，与总体数据集的规模无关，从而大大提高查询的效率。表1对各种常用的排序算法的时间复杂度进行了比较。

表1：常用排序算法的时间复杂度比较

排序算法	平均时间复杂度	最坏时间复杂度
			冒泡排序	O(n²)	O(n²)
直接插入排序	O(n²)	O(n²)
			直接选择排序	O(n²)	O(n²)
希尔排序	O(n^1.3)	O(n^1.3)
			快速排序	O(nlog2n)	O(n²)
堆排序	O(nlog2n)	O(nlog2n)
			归并排序	O(nlog2n)	O(nlog2n)
本发明排序算法	O(n)	O(n)

对于数据集B来说，已经是按照序号排列的了，但是数据集B的规模N只与目标数据的序号信息有关，且远大于据集A的规模n。接下来只须找出数据集B中大于0的数组元素，该数组元素的值为匹配点数，即以这个元素下标为序号的目标项和查询项的特征匹配上的点数。如果以匹配点数作为目标项和查询项匹配的依据的话，可能会产生很多错误。前面提到采用倒排索引结构，词汇的区分力度并不是很大，即使引入几何一致性降低了大多数错误，也不能完全避免错误。如果目标项和查询项的特征点数都很大，那么错误匹配上的点数也会很大，完全有可能比它们正确匹配上的点数还要大，因此采用这种绝对数值就不太合理。本发明采用基于内容一致性的相对比值匹配率，可以避免很多类似的错误。所谓内容一致性是指待查找内容与目标内容在内容上具有相似性的属性，这样提取出的特征点数应该比较接近。

本发明根据匹配点数、查询项和目标项的总特征点数，求得匹配率，即：

选取查询项总特征点数和目标项的总特征点数中的最大值作为分母是因为总特征点数越大所引入的错误就会越多，但它们的比值会很小；而对正确的匹配来说，它们应具有内容一致性，即查询项总特征点数和目标项的总特征点数相对比较接近，正确的匹配点数会很多，它们的比值也会很大。

设定一个域值t，匹配率大于域值t的为正确匹配。找出数据集B中匹配率大于域值t的所有比值，放入数据集C中。根据匹配率高的说明匹配效果好这一事实，在数据集C中快速查找匹配率最高的前m项(m代表精度，决定最优集的范围)，形成最优集D作为输出结果。但数据集C中的数据也是无序排列的，想要取出其中匹配率最高的前m项，一般的方法是首先排序，再取前m项，但是排序是很费时的，前面已经讨论过，因此在这里本发明采用一种快速查找最优集的方法。

本发明的快速查找最优集的方法是利用链表结构的快速插入和删除的特性，一次循环即可找到匹配率最高的前m项。建立一个具有m项的有序单向链表L，扫描数据集C中的数据，如果找到一个数比链表L中最小的数大则插入链表L中，同时在链表L中删除最小的数。具体算法如下：

(1)建立一个长度为m的单向空链表L；

(2)存入待处理数据集C中的前m项数据，并且使这些数据在链表中按从小到大的顺序存放，用head指针指向具有最小数值的头结点；

(3)新建一个结点p，从数据集C中读入下一个数据项，存放在结点p中；

(4)将结点p中数据与head结点中数据相比较，如果小于head结点中数据，跳转到步骤(7)；

(5)通过比较在链表中找到插入结点q，并将结点p插入到结点q的后面；

(6)将指针p指向head结点，然后移动head指针到下一个结点，并且释放指针p所指向结点的内存空间；

(7)若数据集C中还有数据须要处理，跳转到骤(3)，否则结束。

本发明的快速查找最优集的方法经一次循环即可找到所需的最优集，时间复杂度为O(n)。

本发明的方法应用在国家科技部“863”计划项目，“网络视频复制检测、定位和追踪技术”(No.2009 AA01Z409)中，在1.2万个目标视频中检测一个查询视频的平均查询时间为0.23秒，检测一帧视频的平均查询时间为0.00228秒。

Claims

1.基于倒排技术的快速检索方法，其特征在于，包括以下步骤：

根据内容一致性计算匹配率，滤出干扰数据，获得数据集C；

2.根据权利要求1所述的方法，其特征在于，所述倒排表是一个词汇到出现过该词汇的所有文本、图像或视频帧位置的映射，以及关于这个词汇的方向、位置和尺度信息。

3.根据权利要求1所述的方法，其特征在于，所述量化表是每个词汇在倒排表中对应中心位置和关于这个词汇的方向、位置和尺度信息。

4.根据权利要求1所述的方法，其特征在于，所述几何一致性是指待查找内容与目标内容在局部具有空间几何一致性的属性，应用这一属性可以对查询的结果进行筛选。

5.根据权利要求1所述的方法，其特征在于，所述应用基于数组的桶排序方法，快速排序统计数据集A中数据的顺序及出现次数，包括下列步骤：

6.根据权利要求1所述的方法，其特征在于，所述内容一致性是指待查找内容与目标内容在内容上具有相似性的属性，这样提取出的特征点数应该比较接近，应用这一属性对查询的结果进行筛选。

7.根据权利要求1所述的方法，其特征在于，所述根据内容一致性计算匹配率，滤出干扰数据，获得数据集C，包括下列步骤：

8.根据权利要求1所述的方法，其特征在于，所述根据精度要求在数据集C中快速查找最优集D，作为输出结果，根据匹配率高说明匹配效果好这一事实，在数据集C中快速查找匹配率最高的前m项，形成最优集D，其中m代表精度，决定最优集的范围。

9.根据权利要求7所述的方法，其特征在于，所述快速查找是指建立一个具有m项的有序单向链表L，扫描数据集C中的数据，如果找到一个数比链表L中最小的数大则插入链表L中，同时在链表L中删除最小的数，利用链表结构的快速插入和删除的特性，一次循环即可找到匹配率最高的前m项。