CN105956203A - 一种信息存储方法、信息查询方法、搜索引擎装置 - Google Patents
一种信息存储方法、信息查询方法、搜索引擎装置 Download PDFInfo
- Publication number
- CN105956203A CN105956203A CN201610499406.8A CN201610499406A CN105956203A CN 105956203 A CN105956203 A CN 105956203A CN 201610499406 A CN201610499406 A CN 201610499406A CN 105956203 A CN105956203 A CN 105956203A
- Authority
- CN
- China
- Prior art keywords
- document
- term
- bit
- information
- data block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种信息存储方法、信息查询方法、搜索引擎装置,属于通信、数据库存储领域。本发明信息存储方法,首先收集文档和术语信息,其次建立索引,计算权重构建索引项数据结构,接着建立索引项地址相关联的比特映射组,最后根据比特映射组建立哈希表。本发明信息查询方法基于上述信息存储方法实现,根据查询术语加载与之相关的比特映射组;加载比特映射组内的8*b比特数据块,b为大于0的整数,形成关键字,并根据哈希表查询术语的权重,最后计算该文档得分;当查询术语为多个,继续加载8*b比特数据块直至加载所有,之后对前k候选文档按得分排序;当查询术语为1个,结束。本发明基于比特映射和哈希表完成,不仅能使用多种逻辑运算,且运算速度大幅提高,提高了CPU运行效率。
Description
技术领域
本发明涉及通信领域和数据库存储领域,尤其涉及一种信息存储方法、信息查询方法和引擎装置。
背景技术
基于万维网、大数据信息、广告匹配和企业数据搜索等数据的文本信息检索需要利用相应存储、查找算法、技术和方法。几乎所有当代搜索引擎都基于一基本数据结构,即对前k文档检索的倒排索引。索引组织最常见方式之一是文档顺序索引。术语t出现在文档d内,被称为索引项。在本文索引过程期间,与术语t相关联的一组索引项构建为索引列表。为了记录每个术语的索引列表,建立与术语相关的索引项查询表。索引项的形式为< docid,payload>,其中docid是文档d的文档编号,以及其中payload被用于存储,诸如文档d出现术语t和其他对术语在此文档的权重因子的信息。每个索引列表按照文档编号docid的升序排列。
在搜索时,在输入中提取查询术语,并进一步基于倒排索引完成查询过程,以检索最相关的文档。所述查询过程包括两个关键步骤。第一个步骤:索引列表交运算,目的是从术语索引列表中找出结果候选文档。第二个步骤:评分,进一步计算结果内每个文档的得分。
在索引列表交运算过程中,现有方式是保持多个指针指向多个术语的索引列表,并同时通过它们,基于输入查询的布尔逻辑选择候选文档。这个方式,运算是在线性时间内完成。举例说明,如果列表长度为m和n,进行O(m+n)次交互运算。图1示出了两个术语索引列表的交运算。大致算法如下(参考:曼宁,拉加万,和舒策,“信息检索简介”,剑桥大学剑桥出版社,2009)
由此可见,上述过程运算有效,但随着索引尺寸增大,运算次数也变多。对于大尺寸索引,当查询流行术语,即多个文档内均有该术语时,由于索引列表长而多,索引列表交运算需要花费很长时间执行,而采用此方法完成的整个查询过程花费时间也相对变长,计算机运算速率降低。
发明内容
为了解决上述技术问题,本发明的目的是提供一种简单的信息存储方法、适用多种运算且运算速率高的信息查询方法、以及利用上述存储方法、查询方法实现的搜索引擎装置。
本发明提供一种信息存储方法,
步骤1:收集文档和术语信息,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数;
步骤1.1:计算每个文档d的每个术语t的术语频率 并保存;
步骤1.2:建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率;
步骤2:建立索引;
步骤2.1:对每个文档,根据术语频率和文档频率计算在此文档中术语的权重;
步骤2.2:建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W;
步骤2.3:建立比特映射组,保存每个术语t的文档编号docid,每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,“0”标识为某个文档编号docid下,该文档d不包含术语t;
步骤2.4:建立哈希表,所述哈希表由多个比特映射组内8*b比特数据块构成,每个8*b比特数据块以关键字标识,其中n不小于0,为8*b比特数据块的数量,data为8*b比特数据 ,每个8*b比特数据块存储有关键字值,所述关键字值为索引项数据结构内的索引项,其中b为大于0的整数。
该信息存储方法利用比特映射组织索引列表进行索引列表交运算,以提高索引列表交运算的运行性能,同时利用比特映射可通过任何术语布尔逻辑算法,如与、或、非运算,高效运算选择出候选文档;并且基于比特映射所建立的哈希表,为本发明提供了一个高效的索引列表查询结构。
作为优选,所述步骤1通过正排索引步骤收集文档和术语信息。
作为优选,所述步骤2通过倒排索引步骤建立索引。
作为优选,所述步骤2.1,,其中N为文档的总数。
作为优选,步骤2.4哈希表填充方法具体为:
步骤2.4.1:对给定术语t,从比特映射组中加载8*b比特数据块,加载具有文档编号docid的每个文档的相关术语权重;
步骤2.4.2:基于比特映射组中的多组8*b比特数据块,建立可变索引项阵列 ;
步骤2.4.3:形成关键字;
步骤2.4.4:在哈希表内插入关键字值。
本发明还提供一种信息查询方法,用于基于比特映射和哈希表实现文档和术语存储的信息系统,
步骤1:解析查询并提取所查询的术语;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的8*b比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分,其中b为大于0的整数;
步骤4:当查询的术语为多个时,继续步骤3,直至加载完成比特映射组内所有8*b比特数据块,进入步骤5;当查询的术语为1个时,结束。
步骤5:通过文档得分,对前k候选文档进行排序。
该信息查询方法,基于利用比特映射、哈希表存储文档和术语的信息系统实现,可采用按位逻辑运算,比传统的交运算速度更快,进一步提高了CPU运行效率。
作为优选,在步骤2之后,步骤3之前,进行按位逻辑与运算:对加载的比特映射组进行按位逻辑与运算,结果比特映射组包含前k候选文档的文档编号docid。
作为优选,在步骤2之后,步骤3之前,进行按位逻辑非运算:对加载的比特映射组进行按位逻辑非运算,结果比特映射组包含前k候选文档的文档编号docid。
作为优选,所述信息查询方法用于采用上述信息存储方法的信息系统。
本发明还提供一种采用上述信息查询方法的搜索引擎装置。
本发明具有以下有益效果:
本发明信息存储方法、信息查询方法、搜索引擎装置,基于比特映射和哈希表完成,不仅能使用多种运算逻辑算法,且运算速度大幅提高,进一步提高了CPU运行效率。
附图说明
图1为现有索引列表交运算的示例图;
图2为本发明比特映射组存储结构示意图;
图3为本发明哈希表存储结构示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
图1所示为传统索引列表交运算的方法,保持多个指针指向多个术语的索引列表,并同时通过它们,基于输入查询的布尔逻辑选择候选文档。通过比较文档地址,确定是否进行下一个查询,若相等则输出查询术语,不相等再逐个查询,整个运算是在线性时间内完成,随着列表的长度增长,其交互运算次数增多,运算也更加复杂,无法快速实现文本搜索,尤其不适用索引列表长的情况。
为了提高本发明索引列表交运算的性能,我们提出了利用比特映射和哈希表的方式存储文本信息,并基于此进行信息查询。
本发明提供一种信息存储方法,主要为索引构建过程。在此过程中,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数。首先,利用正排索引步骤收集文档和术语信息:(1)计算每个文档d的每个术语t的术语频率并保存;(2)建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率。
接着,利用倒排索引步骤构建索引:
(1)对每个文档,根据术语频率和文档频率计算在此文档中术语的权重,例如,其中N为文档的总数,权重与术语频率成正比,而与术语文档频率成反比,权重越大表示这个术语对该文档越重要。
(2)建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W。
下述为索引项数据结构:
(3)建立比特映射组,保存每个术语t的文档编号docid,如图2所示。每个术语t1,t2,ti对应具有如图2所示的比特映射组,在每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,例如,在N位置处的比特为“1”时,具有在N位置的文档地址的文档包含术语t;反之“0”标识为某个文档编号docid下,该文档d不包含术语t。比特映射组的大小为N比特或N/8+1字节,N为总共的文档数量。
(4)建立哈希表,基于比特映射的8*b比特数据块来快速访问索引项,其中b为大于0的整数。下述示例,以b为2时的16比特数据块进行说明。上述多个术语的比特映射组构成全体比特映射,取全体比特映射中16比特数据块或2字节数据块,在不需要计算的情况下进行快速数据访问。上述完成需要建立具有关键字Key的哈希表,关键字,其中t为术语,n不小于0,为16比特数据块或2字节数据块的数量,data为16比特数据或2字节数据。假定我们具有T个术语和N个文档,2字节数据的数量为T*N/16。因每个文档仅包含非常有限的术语,全体比特映射上大部分比特位上皆为0,因此哈希表内大部分值为空。
下述由多个索引项构成的索引项列表构建为哈希表,并参照附图3。
其中,哈希表填充方法具体为:
步骤1:对给定术语t,从比特映射组中加载16比特数据块,加载具有文档编号docid的每个文档的相关术语权重。
步骤2:基于比特映射组中的多组16比特数据块,将该多组比特映射组构成可变索引项阵列 。因每组16比特数据块由“0”、“1”构成,16比特数据块内具有不同数量M个“1”,因M的不同,则产生不同长度的索引项阵列。
步骤3:形成关键字,对每组16比特数据块进行标识;
因16比特数据块由“0”、“1”构成,当在查询处理逻辑与操作时,一些比特位从1变为0,这样会造成最终查询候选文档有遗漏,而如果要全面查找所有文档,在查询过程中一边计算可能遗漏的情况,一边查找,大大降低了整个运算速率,对CPU性能要求变高。为此,在获得的16比特数据块的基础上,需延伸获得与之相关的其他16比特数据或2字节数据,并在信息存储时,提前填充进哈希表内,这样一旦进行查询处理逻辑与、非等操作时,既可以提高查询速度,又提高了查询准确率。
假定某组16比特数据块内有M个“1”,则加上原本的16比特数据块外,一共具有Q组16比特数据块,,其中M为整数,1≦M≦16.。例如,当某组16比特数据块为“0100011000000001”,则为“1”的比特位从左往右为[1,5,6,15],即M=4。则data为[1,5,6,15],延伸的data有[1],[5],[6],[15],[1,5],[1,6],[1,15],[5,6],[5,15],[6,15],[1,5,6],[1,5,15],[1,6,15],[5,6,15],Q=1+4!/((4-1)!*1!)+ 4!/((4-2)!*2!)+ 4!/((4-3)!*3!)=15。则16比特数据块为“0100011000000001”时,具有15组data,该15组data以16比特数据表示为“0100011000000001”、“0100000000000000”、“0000010000000000”、“0000001000000000”、“0000000000000001”、“0100010000000000”、“0100001000000000”、“0100000000000001”、“0000011000000000”、“0000010000000001”、“0000001000000001”、 “0100011000000000”、“0100010000000001”、“0100001000000001”、“0000011000000001”。同时可见,随M的不同,延伸出来的data有不同长度,这也就是步骤2提到的可变索引项阵列指的是长度不同。上述延伸data的获得,利用下述算法建立整数集列表的算法完成,其中每个整数代表哪个比特位上包含文档。
首先,将16比特数据转换为整数列表:
Step1:建立一张新的空整数列表,设置整数I=0;
Step2:逐一比较比特位,若为“1”,确定是哪个比特位,并加入到整数列表内;否则,进行下一位比较。
Step3:最终该列表包含所有具有“1”的整数,该整数也就是具有文档的比特位的位序号。
其次,利用递归算法计算所有可能延伸的data。
Step1:设置“inputIntList”为输入整数列表,“resultSet”为整数设置集,每个集代表一个延伸的整数集。
Step2:递归方程计算,对于整数列表的大小为1时,也就是M=1,则“resultSet”为“inputIntList”;若整数列表的大小不为1时,在0到M-1的范围内,依次获得延伸的整数集。
Step3:最终“resultSet”包含所有可能的整数集。
Step4:获得“resultSet”中的整数列表,将每个整数列表转化为16比特数据。设置“inputIntList”为整数列表,“data”为初始值为0的16比特数据。
最终获得多组16比特数据。
步骤4:在哈希表内插入关键字值,所述关键字值为索引项。根据步骤3,可获得多组data,则具有多组关键字key,在以不同关键字key标识的哈希表内插入相应的关键字值。
上述信息存储方法,可根据查询需要,根据哈希表,利用关键字查找到对应的16比特数据块,根据16比特数据块内存储的文档地址,快速获知索引项内的术语比重,可快速访问到所需信息。
本发明信息查询方法基于上述信息存储方法实现:
步骤1:解析查询并提取所查询的术语;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分;
步骤4:当查询的术语为多个时,继续步骤3,直至加载完成比特映射组内所有16比特数据块,进入步骤5;当查询的术语为1个时,结束。
步骤5:通过文档得分,对前k候选文档进行排序。
当进行逻辑与查询处理步骤时,具体为:
步骤1:解析查询并提取所查询的术语t1,t2,…ti;
步骤2:加载与所有术语相关的比特映射组;
步骤3:对加载的比特映射组进行按位逻辑与运算,结果比特映射组包含前k候选文档的文档编号docid;
步骤4:根据查询术语,加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分;
步骤5:继续步骤4,直至加载完成比特映射组内所有16比特数据块,进入步骤6。
步骤6:通过文档得分,对前k候选文档进行排序。
当进行逻辑或查询处理步骤时,具体为:
步骤1:解析查询并提取所查询的术语t1,t2,…ti;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分;
步骤4:继续步骤3,直至加载完成比特映射组内所有16比特数据块,进入步骤5。
步骤5:通过文档得分,对前k候选文档进行排序。
当进行逻辑非查询处理步骤时,具体为:
步骤1:解析查询并提取所查询的术语t1和t2;
步骤2:加载与术语t1和t2相关的比特映射组;
步骤3:对加载的比特映射组进行按位逻辑非运算,结果比特映射组包含前k候选文档的文档编号docid;
步骤4:加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分。
本发明所用上述信息存储方法、信息查询方法,利用2个或多个比特映射组进行按位逻辑运算,其运算速度大大提高。而利用上述信息存储方法、信息查询方法实现的搜索引擎装置,可快速有效查询所需术语,并适用多种逻辑查询需求。例如,64位逻辑运算可在64位CPU机器上完成。如果索引列表长度为m和n,则运算次数为O((m+n)/64)次,而传统交运算次数为O(m+n)次,本发明大大减少了运算次数,提高运算效率。下表清楚显示了本发明和传统方案之间运算优劣。假定输入查询2个流行术语,采用逻辑或运算,并在64位CPU上进行。
表1:传统方法与本发明方法性能比较对照表
上面所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
Claims (10)
1.一种信息存储方法,其特征在于,
步骤1:收集文档和术语信息,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数;
步骤1.1:计算每个文档d的每个术语t的术语频率并保存;
步骤1.2:建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率;
步骤2:建立索引;
步骤2.1:对每个文档,根据术语频率和文档频率计算在此文档中术语的权重;
步骤2.2:建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W;
步骤2.3:建立比特映射组,保存每个术语t的文档编号docid,每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,“0”标识为某个文档编号docid下,该文档d不包含术语t,;
步骤2.4:建立哈希表,所述哈希表由多个比特映射组内8*b比特数据块构成,每个8*b比特数据块以关键字标识,其中n不小于0,为8*b比特数据块的序号,data为8*b比特数据,每个8*b比特数据块存储有关键字值,所述关键字值为索引项数据结构内的索引项,其中b为大于0的整数。
2.根据权利要求1所述的一种信息存储方法,其特征在于,所述步骤1通过正排索引步骤收集文档和术语信息。
3.根据权利要求1所述的一种信息存储方法,其特征在于,所述步骤2通过倒排索引步骤建立索引。
4.根据权利要求1所述的一种信息存储方法,其特征在于,所述步骤2.1,,其中N为文档的总数。
5.根据权利要求1所述的一种信息存储方法,其特征在于,步骤2.4哈希表填充方法具体为:
步骤2.4.1:对给定术语t,从比特映射中加载8*b比特数据块,加载具有文档编号docid的每个文档的相关术语权重;
步骤2.4.2:基于比特映射中的多组8*b比特数据块,建立可变索引项阵列;
步骤2.4.3:形成关键字;
步骤2.4.4:在哈希表内插入关键字值。
6.一种信息查询方法,用于基于比特映射和哈希表实现文档和术语存储的信息系统,其特征在于,
步骤1:解析查询并提取所查询的术语;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的8*b比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分,其中b为大于0的整数;
步骤4:当查询的术语为多个时,继续步骤3,直至加载完成比特映射组内所有8*b比特数据块,进入步骤5;当查询的术语为1个时,结束,
步骤5:通过文档得分,对前k候选文档进行排序。
7.根据权利要求6所述的一种信息查询方法,其特征在于,在步骤2之后,步骤3之前,进行按位逻辑与运算:对加载的比特映射组进行按位逻辑与运算,结果比特映射组包含前k候选文档的文档编号docid。
8.根据权利要求6所述的一种信息查询方法,其特征在于,在步骤2之后,步骤3之前,进行按位逻辑非运算:对加载的比特映射组进行按位逻辑非运算,结果比特映射组包含前k候选文档的文档编号docid。
9.根据权利要求6所述信息查询方法,其特征在于,所述信息查询方法用于采用权利要求1-5之一的信息存储方法的信息系统。
10.一种采用上述权利要求6-9之一信息查询方法的搜索引擎装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610499406.8A CN105956203B (zh) | 2016-06-30 | 2016-06-30 | 一种信息存储方法、信息查询方法、搜索引擎装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610499406.8A CN105956203B (zh) | 2016-06-30 | 2016-06-30 | 一种信息存储方法、信息查询方法、搜索引擎装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105956203A true CN105956203A (zh) | 2016-09-21 |
CN105956203B CN105956203B (zh) | 2019-03-08 |
Family
ID=56901787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610499406.8A Active CN105956203B (zh) | 2016-06-30 | 2016-06-30 | 一种信息存储方法、信息查询方法、搜索引擎装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105956203B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229571A (zh) * | 2017-06-08 | 2017-10-03 | 中国电子信息产业集团有限公司第六研究所 | EtherCAT从站中FMMU的控制方法及系统 |
CN108038224A (zh) * | 2017-12-25 | 2018-05-15 | 合肥宽信机电有限公司 | 一种基于计算机的新的水物理性质查询方法 |
CN110413813A (zh) * | 2019-06-25 | 2019-11-05 | 宁波图达信息技术有限公司 | 一种相同或相似图像搜索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004368A (ja) * | 2004-06-21 | 2006-01-05 | Kinpo Electronics (Shanghai) Co Ltd | ストリング急速対比サーチの電子装置及び方法 |
US20080010316A1 (en) * | 2006-07-06 | 2008-01-10 | Oracle International Corporation | Spelling correction with liaoalphagrams and inverted index |
CN101211352A (zh) * | 2006-12-28 | 2008-07-02 | 凌阳科技股份有限公司 | 一种电子字典数据更新系统及其方法 |
CN101859320A (zh) * | 2010-05-13 | 2010-10-13 | 复旦大学 | 一种基于多特征签名的海量图像检索方法 |
CN104636384A (zh) * | 2013-11-13 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 一种处理文档的方法及装置 |
TW201535136A (zh) * | 2014-03-06 | 2015-09-16 | Alibaba Group Services Ltd | 建立輸入建議的資料處理方法和系統 |
-
2016
- 2016-06-30 CN CN201610499406.8A patent/CN105956203B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004368A (ja) * | 2004-06-21 | 2006-01-05 | Kinpo Electronics (Shanghai) Co Ltd | ストリング急速対比サーチの電子装置及び方法 |
US20080010316A1 (en) * | 2006-07-06 | 2008-01-10 | Oracle International Corporation | Spelling correction with liaoalphagrams and inverted index |
CN101211352A (zh) * | 2006-12-28 | 2008-07-02 | 凌阳科技股份有限公司 | 一种电子字典数据更新系统及其方法 |
CN101859320A (zh) * | 2010-05-13 | 2010-10-13 | 复旦大学 | 一种基于多特征签名的海量图像检索方法 |
CN104636384A (zh) * | 2013-11-13 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 一种处理文档的方法及装置 |
TW201535136A (zh) * | 2014-03-06 | 2015-09-16 | Alibaba Group Services Ltd | 建立輸入建議的資料處理方法和系統 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229571A (zh) * | 2017-06-08 | 2017-10-03 | 中国电子信息产业集团有限公司第六研究所 | EtherCAT从站中FMMU的控制方法及系统 |
CN108038224A (zh) * | 2017-12-25 | 2018-05-15 | 合肥宽信机电有限公司 | 一种基于计算机的新的水物理性质查询方法 |
CN110413813A (zh) * | 2019-06-25 | 2019-11-05 | 宁波图达信息技术有限公司 | 一种相同或相似图像搜索方法 |
CN110413813B (zh) * | 2019-06-25 | 2023-05-12 | 宁波图达信息技术有限公司 | 一种相同或相似图像搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105956203B (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103282902B (zh) | 字尾数组候选选择和索引数据结构 | |
US8583646B2 (en) | Information searching apparatus, information searching method, and computer product | |
EP1360616B1 (en) | Database system and query optimiser | |
CN109947904B (zh) | 一种基于Spark环境的偏好空间Skyline查询处理方法 | |
US20090240655A1 (en) | Bit String Seacrching Apparatus, Searching Method, and Program | |
CN103577418B (zh) | 海量文档分布式检索排重系统和方法 | |
CN106326475A (zh) | 一种高效的静态哈希表实现方法及系统 | |
CN106055621A (zh) | 一种日志检索方法及装置 | |
CN107798346A (zh) | 一种基于Fréchet距离阈值的轨迹相似性快速匹配方法 | |
EP2788896B1 (en) | Fuzzy full text search | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
WO2016209964A1 (en) | Bit vector search index using shards | |
CN105956203A (zh) | 一种信息存储方法、信息查询方法、搜索引擎装置 | |
US20180210907A1 (en) | Data management system, data management method, and computer program product | |
CN107239549A (zh) | 数据库术语检索的方法、装置及终端 | |
CN102169491A (zh) | 一种多数据集中重复记录动态检测方法 | |
CN109727030A (zh) | 一种区块链中账户数据存储方法 | |
CN105359142A (zh) | 哈希连接方法、装置和数据库管理系统 | |
CN105956085A (zh) | 一种倒排索引的构建方法和装置、检索方法和装置 | |
CN107273529A (zh) | 基于哈希函数的高效层级索引构建及检索方法 | |
CN105447104A (zh) | 一种知识地图生成方法及装置 | |
JP4491480B2 (ja) | インデクス構築方法、文書検索装置及びインデクス構築プログラム | |
CN105912649A (zh) | 一种数据库模糊检索方法和系统 | |
Yadav et al. | Wavelet tree based hybrid geo-textual indexing technique for geographical search | |
CN114911826A (zh) | 一种关联数据检索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190320 Address after: 210000 Second Floor, Block C, Gupinggang 4, Gulou District, Nanjing City, Jiangsu Province Patentee after: Nanjing Network Chaodi Information Technology Co., Ltd. Address before: 313000 No. 1366 Hongfeng Road, Huzhou Economic and Technological Development Zone, Huzhou City, Zhejiang Province Co-patentee before: Zhao Wei Patentee before: Huzhou billion joint information technology Co., Ltd. |