CN102201001A - 基于倒排技术的快速检索方法 - Google Patents

基于倒排技术的快速检索方法 Download PDF

Info

Publication number
CN102201001A
CN102201001A CN 201110110118 CN201110110118A CN102201001A CN 102201001 A CN102201001 A CN 102201001A CN 201110110118 CN201110110118 CN 201110110118 CN 201110110118 A CN201110110118 A CN 201110110118A CN 102201001 A CN102201001 A CN 102201001A
Authority
CN
China
Prior art keywords
data
data set
bucket
matching rate
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110110118
Other languages
English (en)
Other versions
CN102201001B (zh
Inventor
廖开阳
刘贵忠
肖莉
惠有师
南楠
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN2011101101186A priority Critical patent/CN102201001B/zh
Publication of CN102201001A publication Critical patent/CN102201001A/zh
Application granted granted Critical
Publication of CN102201001B publication Critical patent/CN102201001B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于倒排技术的快速检索方法,包括如下步骤:1.根据量化表,利用几何一致性,在倒排表中取出对应中心满足要求的所有数据,形成数据集A;2.利用基于数组的桶排序方法,快速排序统计数据集A中数据的顺序及出现次数;3.根据内容一致性计算匹配率,滤出干扰数据,获得数据集B;4.根据精度要求在数据集B中快速查找最优集C,作为输出结果。本发明的方法运行速度非常快,可以在大量杂乱无章的数据中快速、精确地找到用户所关心的数据,而且可根据实际应用对查询结果的精度进行调整。应用本发明方法的时间复杂度为O(n),只与据集A的规模n有关,与总体数据集的规模无关,从而大大提高查询的效率。

Description

基于倒排技术的快速检索方法
技术领域
本发明涉及检索、排序、统计技术领域,特别涉及基于倒排技术的快速检索方法。
背景技术
在全球信息化大潮的推动下,各种信息,如文本信息、图像信息、音频信息、视频信息等,都在无节制地膨胀;目前,这些信息已经成为一个信息的海洋,改变了并还在改变着人类的工作和生活方式;面对海量的信息,如何从中找到自己感兴趣的内容便成了一个人们研究的课题,搜索引擎在这种情况下应运而生。而在检索方面,快速有效的倒排索引技术开辟了文本搜索引擎的先河,并在上个世纪末成就了一批新兴的搜索引擎公司,获得了巨大的商业利益。倒排表索引技术是受书目索引启发而诞生的,是一种将文本中出现的各个索引项和索引项出现的位置信息存储在称为表结构的索引中,检索时,仅查找倒排表来检索查询词的方法。在查询的时候由于可以一次得到关键字所对应的所有文档,所以效率很高。
倒排索引技术广泛地用于支持高效的海量数据的快速检索,目前很多优秀搜索引擎都是构建在这种结构之上的。图像、视频检索和文本检索相比要应对更大的数据量,那么借鉴文本搜索的优势,倒排索引结构将无疑是最好的选择,因此倒排索引结构也被应用到图像、音视频等多媒体检索中。
在采用倒排索引技术的检索中,检索的快速响应是最为关键的,而索引建立是在后台进行,效率会相对低一些。倒排索引的检索时间主要由两部分时间决定:建立量化表所须的时间,根据量化表读取倒排索引中相关倒排列表并进行查找所须的时间。建立量化表所须的时间与所选用的特征、量化方式等有关,在这里不作深入研究;本发明重点研究根据量化表读取倒排索引中相关倒排列表并进行查找所须的时间,并在此基础上提高查找的效率。这对要求实时响应或批量检索任务的用户来说这是非常有意义的。
发明内容
本发明的目标是提供一种能够在海量的数据中快速、精确的找到用户所关心数据的检索方法。
为了实现上述目标,基于倒排技术的快速检索方法,包括下列步骤:
根据量化表,应用几何一致性,在倒排表中取出对应中心满足要求的所有数据,形成数据集A;在量化表内逐个取出中心数,并在倒排表内找到这个中心所在倒排项的起始位置,逐个取出当前中心所对应的所有倒排项,满足规定的几何一致性,放入数据集A中;
应用基于数组的桶排序方法,快速排序统计数据集A中数据的顺序及出现次数,获得数据集B;
根据内容一致性计算匹配率,滤出干扰数据,获得数据集C;
根据精度要求在数据集C中快速查找最优集D,作为输出结果。
所述倒排表是一个词汇到出现过该词汇的所有文本、图像或视频帧位置的映射,以及关于这个词汇的方向、位置和尺度信息。
所述量化表是每个词汇在倒排表中对应中心位置和关于这个词汇的方向、位置和尺度信息。
所述几何一致性是指待查找内容与目标内容在局部具有空间几何一致性的属性,应用这一属性可以对查询的结果进行筛选。
所述应用基于数组的桶排序方法,快速排序统计数据集A中数据的顺序及出现次数,包括下列步骤:
建立一个按顺序排列的桶,根据目标数据的序号信息,建立一个数组,初始化为0,每个数组元素的下标对应着目标数据的一个序号,这个数组根据目标数据的序号信息可以是一维、二维或多维,把每一个数组元素看成一个桶,就建立了一个按顺序排列的桶;
把数据集A中数据分入桶中,根据数据集A中数据的序号信息,把每个数据分入对应桶中,即对应下标的数组元素增1,获得了一个有序的统计集合,即数据集B。
所述内容一致性是指待查找内容与目标内容在内容上具有相似性的属性,这样提取出的特征点数应该比较接近,应用这一属性对查询的结果进行筛选。
所述根据内容一致性计算匹配率,滤出干扰数据,获得数据集C,包括下列步骤:
找出数据集B中大于0的数组元素,该数组元素的值为匹配点数,即以这个元素下标为序号的目标项和查询项的特征匹配上的点数;
根据匹配点数、查询项和目标项的总特征点数,求得匹配率,先比较查询项总特征点数、目标项的总特征点数哪个大,然后用匹配点数除以较大的总特征点数得到匹配率;
找出数据集B中匹配率大于域值t的所有比值,放入数据集C中。
所述根据精度要求在数据集C中快速查找最优集D,作为输出结果,根据匹配率高说明匹配效果好这一事实,在数据集C中快速查找匹配率最高的前m项,形成最优集D,其中m代表精度,决定最优集的范围。
所述快速查找是指建立一个具有m项的有序单向链表L,扫描数据集C中的数据,如果找到一个数比链表L中最小的数大则插入链表L中,同时在链表L中删除最小的数,利用链表结构的快速插入和删除的特性,一次循环即可找到匹配率最高的前m项。
本发明的主要优点是检索结果精确、运行速度非常快,可以在大量杂乱无章数据中快速、精确地找到用户所关心的数据,而且可根据实际应用对查询结果精度作出不同的调整。应用本发明方法的时间复杂度为O(n),只与据集A的规模n有关,与总体数据集的规模无关,从而大大提高查询的效率。本发明适用于应用倒排索引技术的检索引擎,可以用于文本检索、图像检索、视频检索等方面的快速检索。
从以上技术方案可以看出,本发明方案具有以下有益效果:
1)检索效率非常高,时间复杂度为O(n);
2)适用范围广泛,可用于基于倒排索引技术的检索引擎;
3)检索结果精确,并且可根据实际应用调整查询结果精度。
附图说明
图1为本发明方法的处理流程图;
图2为本发明方法中的倒排索引示例图;
下面结合附图对本发明的内容作进一步详细说明。
具体实施方式
如图1所示,为本发明实现对海量数据快速检索的流程示意图。首先,根据量化表,应用几何一致性,在倒排表中取出对应中心的满足要求所有数据,形成数据集A;其次,应用基于数组的桶排序方法,快速排序统计数据集A中数据的顺序及出现次数,获得数据集B;然后,根据内容一致性计算匹配率,滤出干扰数据,获得数据集C;最后,根据精度要求在数据集C中快速查找最优集D,作为输出结果。
如图2所示,为本发明方法中的倒排索引示例图。首先,把查询项量化成量化表,然后根据量化表在倒排表中查找,根据查找到的信息再进行排序、统计,最终得到所查找的目标顶。
一个倒排索引通常可以由量化表文件和倒排表文件两部分组成。量化表文件记录了文档集(图像、视频帧)中出现的所有词汇。倒排表文件将每个词汇在记录文件(图像、视频帧)中的位置和频率等信息都记录下来,所有词汇的这些信息就构成了倒排表。对于量化表文件中的n个词汇(特征)w1…wn中的一个wi,在m个记录文件(图像、视频帧)d1…dm中的倒排表可以表示为:
w i d 1 [ f 1 ] < p i 1 , &CenterDot; &CenterDot; &CenterDot; , p if 1 > &CenterDot; &CenterDot; &CenterDot; d m [ f m ] < p i 1 , &CenterDot; &CenterDot; &CenterDot; , p if m > - - - ( 1 )
这样n条这样的记录就构成一个完整的倒排表,其中fi表示频率、方向、尺度等其它信息。表达式(1)给出了一个完整的用于查询文本词汇的倒排索引结构。
一个倒排表实际上就是一个词汇到出现过该词汇的所有文本、图像或视频帧位置的映射,它同时也提供了一种描述符直接一对一匹配的近似方法。倒排索引技术被广泛应用到图像、拷贝检测、图像目标检索以及视频拷贝检测及检索领域,在如何利用局部特征建词汇这一问题上,很多研究者近几年做了大量的工作。Sivic J,Zisserman等人介绍了一种视频中的目标及场景检索方法。而他们的索引结构采用的是基于视觉词汇的倒排索引结构,在量化环节,最基本的K-均值聚类方法被用来将采样后的二十万个局部特征描述符样本分别量化到6000和10000个视觉词汇上,而后分别基于这6000和10000两个视觉词汇库,对特定目标和特殊场景进行检索。David Nister等人在研究了Sivic J等人的工作基础上,认为基于k-均值的视觉词汇产生方法在应对数量较大的描述符样本点时效率不高,他们提出用分级的k-均值聚类方法来产生分级的视觉词汇,从而建立分级的倒排索引文件。他们认为这种分级的倒排索引结构在搜索时更有效率,而且可以应对更大的数据库的需求。其他很多聚类及量化方法,如类k均值聚类方法或者网格量化方法等,也都曾被用来有效地产生视觉词汇。
倒排表和量化表的产生人们已经对它做出了大量研究,在这里不再做深入研究,本发明使用分级K-均值聚类方法来生成倒排表和量化表。
这种基于词汇的倒排索引结构,词汇的区分力度并不是很大,根据查询结果筛选出候选结果会存在大量的错误候选点,也就是说导入词汇的倒排表会非常大,而且很多倒排文件里的特征,与查询的特征所代表的内容,相差很远。那么大量的错误候选点将对后期进行所有词汇的倒排表求交带来困难。一方面是带来巨大的数据存贮和不可估量的运算量,另一方面,也有可能让误检点淹没真实的目标。所以,在导入某个词汇的倒排表前,可以先利用一些查询信息的基本特征参数,以相似性度量的方式对候选点进行筛选,从而在查询具体内容之前,就大大减少数据量,提升运算效率。
在文本的查询结果的排序中,Google对目标文档中,出现的与多个检索词顺序一致的候选文档排得靠前,而顺序不一致的则靠后。对于图像、视频帧来说,在特征点/区域检测时存储的特征空间分布及几何特性等信息就可以用来进行相似度的度量。查询图像、视频中的目标——即视频关键帧的局部区域,在目标视频库关键帧中出现的部分,这两者的局部分布应该是一样的。根据具体情况的不同,本发明提出了三种空间几何一致性筛选方案:
min(x-x′,y-y′)<posTh                                    (2)
min([α-α′](-π,π),[(π-α)-α′](-π,π))<oriTh     (3)
| s s &prime; - 1 | < sclTh - - - ( 4 )
上面给出的公式中,(x,y)为查询图像、视频关键帧中的特征点坐标,α和s为查询图像、视频中的特征点的主方向和特征尺度。类似的,(x′,y′),α′,s′为倒排索引中指示的目标图像、视频库中与查询图像、视频关键帧特征点属于同一视觉词汇的候选视频特征点的坐标位置,主方向,和特征尺度。这样,每导入一个倒排表文件,其数据量就减小到原始倒排文件的数据量的1/10~1/20,甚至更多。数据量更少,更准,为后期查询候选图像、视频关键帧,排序,起到了关键的作用。
进行检索时,首先从量化表内逐个取出词汇中的分类中心数,并在倒排表内找到这个中心所在倒排项的起始位置;然后逐个取出当前中心所对应的所有倒排项,如果满足规定的几何一致性,则放入数据集A中。
数据集A中的数据量很大,而且是无序排列的,因此需要对这些数据进行快速排序、统计。目前的很多方法都是先用各种排序算法对数据集A进行排序,然后采用合并同类项的方法进行统计工作。如果数据集A的规模很大,这种方法的效率是很低的,因为排序本身就是一件非常耗时的工作,即使是目前应用比较广泛的快速排序算法的时间复杂度也为O(nlog2n)。
如果记录关键字取值于[0,1]区间内,我们可将该区间平均分成N份,并将关键字落入区间
Figure BDA0000058456150000061
的记录收集到一起——称为“桶”。桶间记录的大小关系是由桶所完全确定的,因此只要桶内部记录有序我们就可以简单将这N个桶连接起来得到有序的目标数据集。由这一思想得到经典桶排序算法。经典桶排序则需要关键字满足[0,1]均匀分布。由于无法事先了解落入各“桶”中的确切记录数,经典桶排序算法以链表来构造桶,并通过插入排序处理桶内记录。若所有记录都落入同一桶中,算法退化为O(N2)插入排序算法。另一方面当数据分布均匀时,桶排序算法却能够获得O(N)时间效率。
通过对数据集A中的数据进行研究发现这些数据是有特点和规律的。这些数据是对目标对象的定量描述,如文章的编号、图像的编号、视频的编号或视频帧图像的编号等。即这些数据都是一些重复出现、顺序混乱的编号,而且这些编号的最小值、最大值是可以确定的。一般这些编号的最小值为0或1,最大值为目标对象库中对象的数目,也是可以确定的。因为当数据分布均匀时,桶排序算法却能够获得O(N)时间效率,所以本发明根据数据集A中数据的特点和规律改进桶排序算法称为基于数组的桶排序算法。根据桶排序的思想,可以把桶分得很小,小到每一个桶的范围为一个具体的数字(每个桶只存入某个数的个数),并且这些桶采用数组结构代替链表结构以加速查找。链表结构在数据的插入或删除是非常高效的,但数据查找或定位的效率不高,而数组的数据查找或定位的效率非常高。
本发明采用基于数组的桶排序算法,快速地对数据集A进行排序和统计。首先,建立一个按顺序排列的桶。根据目标数据的序号信息,建立一个数组,初始化为0,每个数组元素的下标对应着目标数据的一个序号,这个数组根据目标数据的序号信息可以是一维、二维、甚至多维的。如对文本、图像的检索,序号是一维的;如对视频序列的检索,序号是二维的,由<视频号,帧号>就可以确定某个视频的某一帧。如果把每一个数组元素看成一个桶的话,就建立了一个按顺序排列的桶。然后,把数据集A中数据分入桶中。根据数据集A中数据的序号信息,把每个数据分入对应桶中,即对应下标的数组元素增1。这样就获得了一个有序的统计集合,即数据集B。
采用基于数组的桶排序法方法,对数据集A进行排序和统计一次性完成,且速度非常快,时间复杂度为O(n),只与据集A的规模n有关,与总体数据集的规模无关,从而大大提高查询的效率。表1对各种常用的排序算法的时间复杂度进行了比较。
表1:常用排序算法的时间复杂度比较
  排序算法   平均时间复杂度   最坏时间复杂度
  冒泡排序   O(n2)   O(n2)
  直接插入排序   O(n2)   O(n2)
  直接选择排序   O(n2)   O(n2)
  希尔排序   O(n1.3)   O(n1.3)
  快速排序   O(nlog2n)   O(n2)
  堆排序   O(nlog2n)   O(nlog2n)
  归并排序   O(nlog2n)   O(nlog2n)
  本发明排序算法   O(n)   O(n)
对于数据集B来说,已经是按照序号排列的了,但是数据集B的规模N只与目标数据的序号信息有关,且远大于据集A的规模n。接下来只须找出数据集B中大于0的数组元素,该数组元素的值为匹配点数,即以这个元素下标为序号的目标项和查询项的特征匹配上的点数。如果以匹配点数作为目标项和查询项匹配的依据的话,可能会产生很多错误。前面提到采用倒排索引结构,词汇的区分力度并不是很大,即使引入几何一致性降低了大多数错误,也不能完全避免错误。如果目标项和查询项的特征点数都很大,那么错误匹配上的点数也会很大,完全有可能比它们正确匹配上的点数还要大,因此采用这种绝对数值就不太合理。本发明采用基于内容一致性的相对比值匹配率,可以避免很多类似的错误。所谓内容一致性是指待查找内容与目标内容在内容上具有相似性的属性,这样提取出的特征点数应该比较接近。
本发明根据匹配点数、查询项和目标项的总特征点数,求得匹配率,即:
Figure BDA0000058456150000081
选取查询项总特征点数和目标项的总特征点数中的最大值作为分母是因为总特征点数越大所引入的错误就会越多,但它们的比值会很小;而对正确的匹配来说,它们应具有内容一致性,即查询项总特征点数和目标项的总特征点数相对比较接近,正确的匹配点数会很多,它们的比值也会很大。
设定一个域值t,匹配率大于域值t的为正确匹配。找出数据集B中匹配率大于域值t的所有比值,放入数据集C中。根据匹配率高的说明匹配效果好这一事实,在数据集C中快速查找匹配率最高的前m项(m代表精度,决定最优集的范围),形成最优集D作为输出结果。但数据集C中的数据也是无序排列的,想要取出其中匹配率最高的前m项,一般的方法是首先排序,再取前m项,但是排序是很费时的,前面已经讨论过,因此在这里本发明采用一种快速查找最优集的方法。
本发明的快速查找最优集的方法是利用链表结构的快速插入和删除的特性,一次循环即可找到匹配率最高的前m项。建立一个具有m项的有序单向链表L,扫描数据集C中的数据,如果找到一个数比链表L中最小的数大则插入链表L中,同时在链表L中删除最小的数。具体算法如下:
(1)建立一个长度为m的单向空链表L;
(2)存入待处理数据集C中的前m项数据,并且使这些数据在链表中按从小到大的顺序存放,用head指针指向具有最小数值的头结点;
(3)新建一个结点p,从数据集C中读入下一个数据项,存放在结点p中;
(4)将结点p中数据与head结点中数据相比较,如果小于head结点中数据,跳转到步骤(7);
(5)通过比较在链表中找到插入结点q,并将结点p插入到结点q的后面;
(6)将指针p指向head结点,然后移动head指针到下一个结点,并且释放指针p所指向结点的内存空间;
(7)若数据集C中还有数据须要处理,跳转到骤(3),否则结束。
本发明的快速查找最优集的方法经一次循环即可找到所需的最优集,时间复杂度为O(n)。
本发明的方法应用在国家科技部“863”计划项目,“网络视频复制检测、定位和追踪技术”(No.2009 AA01Z409)中,在1.2万个目标视频中检测一个查询视频的平均查询时间为0.23秒,检测一帧视频的平均查询时间为0.00228秒。

Claims (9)

1.基于倒排技术的快速检索方法,其特征在于,包括以下步骤:
根据量化表,应用几何一致性,在倒排表中取出对应中心满足要求的所有数据,形成数据集A;在量化表内逐个取出中心数,并在倒排表内找到这个中心所在倒排项的起始位置,逐个取出当前中心所对应的所有倒排项,满足规定的几何一致性,放入数据集A中;
应用基于数组的桶排序方法,快速排序统计数据集A中数据的顺序及出现次数,获得数据集B;
根据内容一致性计算匹配率,滤出干扰数据,获得数据集C;
根据精度要求在数据集C中快速查找最优集D,作为输出结果。
2.根据权利要求1所述的方法,其特征在于,所述倒排表是一个词汇到出现过该词汇的所有文本、图像或视频帧位置的映射,以及关于这个词汇的方向、位置和尺度信息。
3.根据权利要求1所述的方法,其特征在于,所述量化表是每个词汇在倒排表中对应中心位置和关于这个词汇的方向、位置和尺度信息。
4.根据权利要求1所述的方法,其特征在于,所述几何一致性是指待查找内容与目标内容在局部具有空间几何一致性的属性,应用这一属性可以对查询的结果进行筛选。
5.根据权利要求1所述的方法,其特征在于,所述应用基于数组的桶排序方法,快速排序统计数据集A中数据的顺序及出现次数,包括下列步骤:
建立一个按顺序排列的桶,根据目标数据的序号信息,建立一个数组,初始化为0,每个数组元素的下标对应着目标数据的一个序号,这个数组根据目标数据的序号信息可以是一维、二维或多维,把每一个数组元素看成一个桶,就建立了一个按顺序排列的桶;
把数据集A中数据分入桶中,根据数据集A中数据的序号信息,把每个数据分入对应桶中,即对应下标的数组元素增1,获得了一个有序的统计集合,即数据集B。
6.根据权利要求1所述的方法,其特征在于,所述内容一致性是指待查找内容与目标内容在内容上具有相似性的属性,这样提取出的特征点数应该比较接近,应用这一属性对查询的结果进行筛选。
7.根据权利要求1所述的方法,其特征在于,所述根据内容一致性计算匹配率,滤出干扰数据,获得数据集C,包括下列步骤:
找出数据集B中大于0的数组元素,该数组元素的值为匹配点数,即以这个元素下标为序号的目标项和查询项的特征匹配上的点数;
根据匹配点数、查询项和目标项的总特征点数,求得匹配率,先比较查询项总特征点数、目标项的总特征点数哪个大,然后用匹配点数除以较大的总特征点数得到匹配率;
找出数据集B中匹配率大于域值t的所有比值,放入数据集C中。
8.根据权利要求1所述的方法,其特征在于,所述根据精度要求在数据集C中快速查找最优集D,作为输出结果,根据匹配率高说明匹配效果好这一事实,在数据集C中快速查找匹配率最高的前m项,形成最优集D,其中m代表精度,决定最优集的范围。
9.根据权利要求7所述的方法,其特征在于,所述快速查找是指建立一个具有m项的有序单向链表L,扫描数据集C中的数据,如果找到一个数比链表L中最小的数大则插入链表L中,同时在链表L中删除最小的数,利用链表结构的快速插入和删除的特性,一次循环即可找到匹配率最高的前m项。
CN2011101101186A 2011-04-29 2011-04-29 基于倒排技术的快速检索方法 Expired - Fee Related CN102201001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101101186A CN102201001B (zh) 2011-04-29 2011-04-29 基于倒排技术的快速检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101101186A CN102201001B (zh) 2011-04-29 2011-04-29 基于倒排技术的快速检索方法

Publications (2)

Publication Number Publication Date
CN102201001A true CN102201001A (zh) 2011-09-28
CN102201001B CN102201001B (zh) 2012-11-28

Family

ID=44661676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101101186A Expired - Fee Related CN102201001B (zh) 2011-04-29 2011-04-29 基于倒排技术的快速检索方法

Country Status (1)

Country Link
CN (1) CN102201001B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164436A (zh) * 2011-12-13 2013-06-19 阿里巴巴集团控股有限公司 一种图像搜索方法及装置
CN103294620A (zh) * 2012-03-05 2013-09-11 Lsi公司 用于无序数据报告的系统和方法
CN103678694A (zh) * 2013-12-26 2014-03-26 乐视网信息技术(北京)股份有限公司 视频资源的倒排索引文件建立方法及其系统
CN103838738A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种决策支持系统中数据完整性的解决方法
CN103853772A (zh) * 2012-12-04 2014-06-11 北京拓尔思信息技术股份有限公司 一种高效的倒排索引结构及组织方法
CN105204944A (zh) * 2015-09-10 2015-12-30 浪潮集团有限公司 一种海量数据的处理方法及装置
CN105426449A (zh) * 2015-11-09 2016-03-23 小米科技有限责任公司 海量数据查询方法和装置、服务器
CN105808709A (zh) * 2016-03-04 2016-07-27 北京智慧眼科技股份有限公司 人脸识别快速检索方法及装置
CN106936435A (zh) * 2017-03-21 2017-07-07 电子科技大学 一种快速确定adc拼合顺序的方法
CN107038173A (zh) * 2016-02-04 2017-08-11 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
CN107886003A (zh) * 2017-10-12 2018-04-06 东北大学 一种基于非线性系统的密码学置乱方法
CN107948734A (zh) * 2017-12-05 2018-04-20 深圳市茁壮网络股份有限公司 一种广告视频的筛选方法及系统
CN108228634A (zh) * 2016-12-15 2018-06-29 杭州华为数字技术有限公司 一种数据处理方法及装置
CN108304433A (zh) * 2017-08-31 2018-07-20 腾讯科技(深圳)有限公司 一种数据搜索方法及其设备、存储介质、服务器
CN108334613A (zh) * 2018-02-07 2018-07-27 掌阅科技股份有限公司 基于海量用户数据的实时排名方法、计算设备及存储介质
CN108628950A (zh) * 2018-04-04 2018-10-09 昆明理工大学 一种基于文本-域倒排的空间文本查询方法及装置
CN109388690A (zh) * 2017-08-10 2019-02-26 阿里巴巴集团控股有限公司 文本检索方法、用于文本检索的倒排表生成方法以及系统
CN110069524A (zh) * 2018-07-27 2019-07-30 北京奇虎科技有限公司 数据检索方法及装置
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112182287A (zh) * 2020-09-10 2021-01-05 南京信息工程大学 一种基于时空视觉词组和分层匹配的视频拷贝检测方法
CN113900622A (zh) * 2021-09-22 2022-01-07 中国科学院国家空间科学中心 一种基于fpga的数据信息快速排序方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281764A1 (en) * 2004-09-29 2008-11-13 Panscient Pty Ltd. Machine Learning System
US20100205172A1 (en) * 2009-02-09 2010-08-12 Robert Wing Pong Luk Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
CN102004786A (zh) * 2010-12-02 2011-04-06 上海交通大学 图像检索系统中的加速方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281764A1 (en) * 2004-09-29 2008-11-13 Panscient Pty Ltd. Machine Learning System
US20100205172A1 (en) * 2009-02-09 2010-08-12 Robert Wing Pong Luk Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
CN102004786A (zh) * 2010-12-02 2011-04-06 上海交通大学 图像检索系统中的加速方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164436A (zh) * 2011-12-13 2013-06-19 阿里巴巴集团控股有限公司 一种图像搜索方法及装置
CN103164436B (zh) * 2011-12-13 2017-06-16 阿里巴巴集团控股有限公司 一种图像搜索方法及装置
CN103294620A (zh) * 2012-03-05 2013-09-11 Lsi公司 用于无序数据报告的系统和方法
CN103838738A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种决策支持系统中数据完整性的解决方法
CN103853772A (zh) * 2012-12-04 2014-06-11 北京拓尔思信息技术股份有限公司 一种高效的倒排索引结构及组织方法
CN103853772B (zh) * 2012-12-04 2017-02-08 北京拓尔思信息技术股份有限公司 一种高效倒排索引组织方法
CN103678694A (zh) * 2013-12-26 2014-03-26 乐视网信息技术(北京)股份有限公司 视频资源的倒排索引文件建立方法及其系统
CN105204944A (zh) * 2015-09-10 2015-12-30 浪潮集团有限公司 一种海量数据的处理方法及装置
CN105426449A (zh) * 2015-11-09 2016-03-23 小米科技有限责任公司 海量数据查询方法和装置、服务器
CN107038173A (zh) * 2016-02-04 2017-08-11 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
CN105808709B (zh) * 2016-03-04 2019-10-29 智慧眼科技股份有限公司 人脸识别快速检索方法及装置
CN105808709A (zh) * 2016-03-04 2016-07-27 北京智慧眼科技股份有限公司 人脸识别快速检索方法及装置
CN108228634A (zh) * 2016-12-15 2018-06-29 杭州华为数字技术有限公司 一种数据处理方法及装置
CN106936435A (zh) * 2017-03-21 2017-07-07 电子科技大学 一种快速确定adc拼合顺序的方法
CN106936435B (zh) * 2017-03-21 2019-12-27 电子科技大学 一种快速确定adc拼合顺序的方法
CN109388690A (zh) * 2017-08-10 2019-02-26 阿里巴巴集团控股有限公司 文本检索方法、用于文本检索的倒排表生成方法以及系统
CN108304433B (zh) * 2017-08-31 2021-09-28 腾讯科技(深圳)有限公司 一种数据搜索方法及其设备、存储介质、服务器
CN108304433A (zh) * 2017-08-31 2018-07-20 腾讯科技(深圳)有限公司 一种数据搜索方法及其设备、存储介质、服务器
CN107886003B (zh) * 2017-10-12 2019-08-09 东北大学 一种基于非线性系统的密码学置乱方法
CN107886003A (zh) * 2017-10-12 2018-04-06 东北大学 一种基于非线性系统的密码学置乱方法
CN107948734B (zh) * 2017-12-05 2020-09-11 深圳市茁壮网络股份有限公司 一种广告视频的筛选方法及系统
CN107948734A (zh) * 2017-12-05 2018-04-20 深圳市茁壮网络股份有限公司 一种广告视频的筛选方法及系统
CN108334613A (zh) * 2018-02-07 2018-07-27 掌阅科技股份有限公司 基于海量用户数据的实时排名方法、计算设备及存储介质
CN108628950A (zh) * 2018-04-04 2018-10-09 昆明理工大学 一种基于文本-域倒排的空间文本查询方法及装置
CN110069524A (zh) * 2018-07-27 2019-07-30 北京奇虎科技有限公司 数据检索方法及装置
CN112182287A (zh) * 2020-09-10 2021-01-05 南京信息工程大学 一种基于时空视觉词组和分层匹配的视频拷贝检测方法
CN112182287B (zh) * 2020-09-10 2021-06-08 南京信息工程大学 一种基于时空视觉词组和分层匹配的视频拷贝检测方法
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112148831B (zh) * 2020-11-26 2021-03-19 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN113900622A (zh) * 2021-09-22 2022-01-07 中国科学院国家空间科学中心 一种基于fpga的数据信息快速排序方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN102201001B (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102201001B (zh) 基于倒排技术的快速检索方法
Wei et al. Analyticdb-v: A hybrid analytical engine towards query fusion for structured and unstructured data
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
CN101539930B (zh) 一种相关反馈图像检索方法
Zou et al. Pareto-based dominant graph: An efficient indexing structure to answer top-k queries
CN102214176B (zh) 超大维表的切分与表连接方法
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN103631910A (zh) 一种分布式数据库多列复合查询的系统及方法
CN105183897A (zh) 一种视频搜索排序的方法和系统
CN102364498A (zh) 一种基于多标签的图像识别方法
CN102982103A (zh) 一种olap海量多维数据维存储方法
CN115270738B (zh) 一种研报生成方法、系统及计算机存储介质
CN113535788B (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN107341199B (zh) 一种基于文献信息共性模式的推荐方法
CN102436491A (zh) 一种基于BigBase的海量图片搜索系统及方法
CN103970871A (zh) 存储系统中基于溯源信息的文件元数据查询方法与系统
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN102799681B (zh) 一种面向任意段数据的Top-k查询方法
Xie et al. OLAP over probabilistic data cubes I: Aggregating, materializing, and querying
CN103034656A (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN102622358A (zh) 一种搜索信息的方法和系统
Wei et al. Beyond simple aggregates: indexing for summary queries
CN112214488A (zh) 一种欧式空间数据索引树及构建和检索方法
Ramakrishnan et al. Exploratory mining in cube space

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121128

Termination date: 20150429

EXPY Termination of patent right or utility model