CN105956203A - 一种信息存储方法、信息查询方法、搜索引擎装置 - Google Patents

一种信息存储方法、信息查询方法、搜索引擎装置 Download PDF

Info

Publication number
CN105956203A
CN105956203A CN201610499406.8A CN201610499406A CN105956203A CN 105956203 A CN105956203 A CN 105956203A CN 201610499406 A CN201610499406 A CN 201610499406A CN 105956203 A CN105956203 A CN 105956203A
Authority
CN
China
Prior art keywords
document
term
bit
information
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610499406.8A
Other languages
English (en)
Other versions
CN105956203B (zh
Inventor
赵炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Network Chaodi Information Technology Co., Ltd.
Original Assignee
Huzhou Billion Joint Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou Billion Joint Information Technology Co Ltd filed Critical Huzhou Billion Joint Information Technology Co Ltd
Priority to CN201610499406.8A priority Critical patent/CN105956203B/zh
Publication of CN105956203A publication Critical patent/CN105956203A/zh
Application granted granted Critical
Publication of CN105956203B publication Critical patent/CN105956203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息存储方法、信息查询方法、搜索引擎装置,属于通信、数据库存储领域。本发明信息存储方法,首先收集文档和术语信息,其次建立索引,计算权重构建索引项数据结构,接着建立索引项地址相关联的比特映射组,最后根据比特映射组建立哈希表。本发明信息查询方法基于上述信息存储方法实现,根据查询术语加载与之相关的比特映射组;加载比特映射组内的8*b比特数据块,b为大于0的整数,形成关键字,并根据哈希表查询术语的权重,最后计算该文档得分;当查询术语为多个,继续加载8*b比特数据块直至加载所有,之后对前k候选文档按得分排序;当查询术语为1个,结束。本发明基于比特映射和哈希表完成,不仅能使用多种逻辑运算,且运算速度大幅提高,提高了CPU运行效率。

Description

一种信息存储方法、信息查询方法、搜索引擎装置
技术领域
本发明涉及通信领域和数据库存储领域,尤其涉及一种信息存储方法、信息查询方法和引擎装置。
背景技术
基于万维网、大数据信息、广告匹配和企业数据搜索等数据的文本信息检索需要利用相应存储、查找算法、技术和方法。几乎所有当代搜索引擎都基于一基本数据结构,即对前k文档检索的倒排索引。索引组织最常见方式之一是文档顺序索引。术语t出现在文档d内,被称为索引项。在本文索引过程期间,与术语t相关联的一组索引项构建为索引列表。为了记录每个术语的索引列表,建立与术语相关的索引项查询表。索引项的形式为< docid,payload>,其中docid是文档d的文档编号,以及其中payload被用于存储,诸如文档d出现术语t和其他对术语在此文档的权重因子的信息。每个索引列表按照文档编号docid的升序排列。
在搜索时,在输入中提取查询术语,并进一步基于倒排索引完成查询过程,以检索最相关的文档。所述查询过程包括两个关键步骤。第一个步骤:索引列表交运算,目的是从术语索引列表中找出结果候选文档。第二个步骤:评分,进一步计算结果内每个文档的得分。
在索引列表交运算过程中,现有方式是保持多个指针指向多个术语的索引列表,并同时通过它们,基于输入查询的布尔逻辑选择候选文档。这个方式,运算是在线性时间内完成。举例说明,如果列表长度为m和n,进行O(m+n)次交互运算。图1示出了两个术语索引列表的交运算。大致算法如下(参考:曼宁,拉加万,和舒策,“信息检索简介”,剑桥大学剑桥出版社,2009)
由此可见,上述过程运算有效,但随着索引尺寸增大,运算次数也变多。对于大尺寸索引,当查询流行术语,即多个文档内均有该术语时,由于索引列表长而多,索引列表交运算需要花费很长时间执行,而采用此方法完成的整个查询过程花费时间也相对变长,计算机运算速率降低。
发明内容
为了解决上述技术问题,本发明的目的是提供一种简单的信息存储方法、适用多种运算且运算速率高的信息查询方法、以及利用上述存储方法、查询方法实现的搜索引擎装置。
本发明提供一种信息存储方法,
步骤1:收集文档和术语信息,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数;
步骤1.1:计算每个文档d的每个术语t的术语频率 并保存;
步骤1.2:建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率;
步骤2:建立索引;
步骤2.1:对每个文档,根据术语频率和文档频率计算在此文档中术语的权重
步骤2.2:建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W;
步骤2.3:建立比特映射组,保存每个术语t的文档编号docid,每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,“0”标识为某个文档编号docid下,该文档d不包含术语t;
步骤2.4:建立哈希表,所述哈希表由多个比特映射组内8*b比特数据块构成,每个8*b比特数据块以关键字标识,其中n不小于0,为8*b比特数据块的数量,data为8*b比特数据 ,每个8*b比特数据块存储有关键字值,所述关键字值为索引项数据结构内的索引项,其中b为大于0的整数。
该信息存储方法利用比特映射组织索引列表进行索引列表交运算,以提高索引列表交运算的运行性能,同时利用比特映射可通过任何术语布尔逻辑算法,如与、或、非运算,高效运算选择出候选文档;并且基于比特映射所建立的哈希表,为本发明提供了一个高效的索引列表查询结构。
作为优选,所述步骤1通过正排索引步骤收集文档和术语信息。
作为优选,所述步骤2通过倒排索引步骤建立索引。
作为优选,所述步骤2.1,,其中N为文档的总数。
作为优选,步骤2.4哈希表填充方法具体为:
步骤2.4.1:对给定术语t,从比特映射组中加载8*b比特数据块,加载具有文档编号docid的每个文档的相关术语权重
步骤2.4.2:基于比特映射组中的多组8*b比特数据块,建立可变索引项阵列 ;
步骤2.4.3:形成关键字
步骤2.4.4:在哈希表内插入关键字值。
本发明还提供一种信息查询方法,用于基于比特映射和哈希表实现文档和术语存储的信息系统,
步骤1:解析查询并提取所查询的术语;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的8*b比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分,其中b为大于0的整数;
步骤4:当查询的术语为多个时,继续步骤3,直至加载完成比特映射组内所有8*b比特数据块,进入步骤5;当查询的术语为1个时,结束。
步骤5:通过文档得分,对前k候选文档进行排序。
该信息查询方法,基于利用比特映射、哈希表存储文档和术语的信息系统实现,可采用按位逻辑运算,比传统的交运算速度更快,进一步提高了CPU运行效率。
作为优选,在步骤2之后,步骤3之前,进行按位逻辑与运算:对加载的比特映射组进行按位逻辑与运算,结果比特映射组包含前k候选文档的文档编号docid。
作为优选,在步骤2之后,步骤3之前,进行按位逻辑非运算:对加载的比特映射组进行按位逻辑非运算,结果比特映射组包含前k候选文档的文档编号docid。
作为优选,所述信息查询方法用于采用上述信息存储方法的信息系统。
本发明还提供一种采用上述信息查询方法的搜索引擎装置。
本发明具有以下有益效果:
本发明信息存储方法、信息查询方法、搜索引擎装置,基于比特映射和哈希表完成,不仅能使用多种运算逻辑算法,且运算速度大幅提高,进一步提高了CPU运行效率。
附图说明
图1为现有索引列表交运算的示例图;
图2为本发明比特映射组存储结构示意图;
图3为本发明哈希表存储结构示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
图1所示为传统索引列表交运算的方法,保持多个指针指向多个术语的索引列表,并同时通过它们,基于输入查询的布尔逻辑选择候选文档。通过比较文档地址,确定是否进行下一个查询,若相等则输出查询术语,不相等再逐个查询,整个运算是在线性时间内完成,随着列表的长度增长,其交互运算次数增多,运算也更加复杂,无法快速实现文本搜索,尤其不适用索引列表长的情况。
为了提高本发明索引列表交运算的性能,我们提出了利用比特映射和哈希表的方式存储文本信息,并基于此进行信息查询。
本发明提供一种信息存储方法,主要为索引构建过程。在此过程中,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数。首先,利用正排索引步骤收集文档和术语信息:(1)计算每个文档d的每个术语t的术语频率并保存;(2)建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率。
接着,利用倒排索引步骤构建索引:
(1)对每个文档,根据术语频率和文档频率计算在此文档中术语的权重,例如,其中N为文档的总数,权重与术语频率成正比,而与术语文档频率成反比,权重越大表示这个术语对该文档越重要。
(2)建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W。
下述为索引项数据结构:
(3)建立比特映射组,保存每个术语t的文档编号docid,如图2所示。每个术语t1,t2,ti对应具有如图2所示的比特映射组,在每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,例如,在N位置处的比特为“1”时,具有在N位置的文档地址的文档包含术语t;反之“0”标识为某个文档编号docid下,该文档d不包含术语t。比特映射组的大小为N比特或N/8+1字节,N为总共的文档数量。
(4)建立哈希表,基于比特映射的8*b比特数据块来快速访问索引项,其中b为大于0的整数。下述示例,以b为2时的16比特数据块进行说明。上述多个术语的比特映射组构成全体比特映射,取全体比特映射中16比特数据块或2字节数据块,在不需要计算的情况下进行快速数据访问。上述完成需要建立具有关键字Key的哈希表,关键字,其中t为术语,n不小于0,为16比特数据块或2字节数据块的数量,data为16比特数据或2字节数据。假定我们具有T个术语和N个文档,2字节数据的数量为T*N/16。因每个文档仅包含非常有限的术语,全体比特映射上大部分比特位上皆为0,因此哈希表内大部分值为空。
下述由多个索引项构成的索引项列表构建为哈希表,并参照附图3。
其中,哈希表填充方法具体为:
步骤1:对给定术语t,从比特映射组中加载16比特数据块,加载具有文档编号docid的每个文档的相关术语权重
步骤2:基于比特映射组中的多组16比特数据块,将该多组比特映射组构成可变索引项阵列 。因每组16比特数据块由“0”、“1”构成,16比特数据块内具有不同数量M个“1”,因M的不同,则产生不同长度的索引项阵列。
步骤3:形成关键字,对每组16比特数据块进行标识;
因16比特数据块由“0”、“1”构成,当在查询处理逻辑与操作时,一些比特位从1变为0,这样会造成最终查询候选文档有遗漏,而如果要全面查找所有文档,在查询过程中一边计算可能遗漏的情况,一边查找,大大降低了整个运算速率,对CPU性能要求变高。为此,在获得的16比特数据块的基础上,需延伸获得与之相关的其他16比特数据或2字节数据,并在信息存储时,提前填充进哈希表内,这样一旦进行查询处理逻辑与、非等操作时,既可以提高查询速度,又提高了查询准确率。
假定某组16比特数据块内有M个“1”,则加上原本的16比特数据块外,一共具有Q组16比特数据块,,其中M为整数,1≦M≦16.。例如,当某组16比特数据块为“0100011000000001”,则为“1”的比特位从左往右为[1,5,6,15],即M=4。则data为[1,5,6,15],延伸的data有[1],[5],[6],[15],[1,5],[1,6],[1,15],[5,6],[5,15],[6,15],[1,5,6],[1,5,15],[1,6,15],[5,6,15],Q=1+4!/((4-1)!*1!)+ 4!/((4-2)!*2!)+ 4!/((4-3)!*3!)=15。则16比特数据块为“0100011000000001”时,具有15组data,该15组data以16比特数据表示为“0100011000000001”、“0100000000000000”、“0000010000000000”、“0000001000000000”、“0000000000000001”、“0100010000000000”、“0100001000000000”、“0100000000000001”、“0000011000000000”、“0000010000000001”、“0000001000000001”、 “0100011000000000”、“0100010000000001”、“0100001000000001”、“0000011000000001”。同时可见,随M的不同,延伸出来的data有不同长度,这也就是步骤2提到的可变索引项阵列指的是长度不同。上述延伸data的获得,利用下述算法建立整数集列表的算法完成,其中每个整数代表哪个比特位上包含文档。
首先,将16比特数据转换为整数列表:
Step1:建立一张新的空整数列表,设置整数I=0;
Step2:逐一比较比特位,若为“1”,确定是哪个比特位,并加入到整数列表内;否则,进行下一位比较。
Step3:最终该列表包含所有具有“1”的整数,该整数也就是具有文档的比特位的位序号。
其次,利用递归算法计算所有可能延伸的data。
Step1:设置“inputIntList”为输入整数列表,“resultSet”为整数设置集,每个集代表一个延伸的整数集。
Step2:递归方程计算,对于整数列表的大小为1时,也就是M=1,则“resultSet”为“inputIntList”;若整数列表的大小不为1时,在0到M-1的范围内,依次获得延伸的整数集。
Step3:最终“resultSet”包含所有可能的整数集。
Step4:获得“resultSet”中的整数列表,将每个整数列表转化为16比特数据。设置“inputIntList”为整数列表,“data”为初始值为0的16比特数据。
最终获得多组16比特数据。
步骤4:在哈希表内插入关键字值,所述关键字值为索引项。根据步骤3,可获得多组data,则具有多组关键字key,在以不同关键字key标识的哈希表内插入相应的关键字值。
上述信息存储方法,可根据查询需要,根据哈希表,利用关键字查找到对应的16比特数据块,根据16比特数据块内存储的文档地址,快速获知索引项内的术语比重,可快速访问到所需信息。
本发明信息查询方法基于上述信息存储方法实现:
步骤1:解析查询并提取所查询的术语;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分;
步骤4:当查询的术语为多个时,继续步骤3,直至加载完成比特映射组内所有16比特数据块,进入步骤5;当查询的术语为1个时,结束。
步骤5:通过文档得分,对前k候选文档进行排序。
当进行逻辑与查询处理步骤时,具体为:
步骤1:解析查询并提取所查询的术语t1,t2,…ti;
步骤2:加载与所有术语相关的比特映射组;
步骤3:对加载的比特映射组进行按位逻辑与运算,结果比特映射组包含前k候选文档的文档编号docid;
步骤4:根据查询术语,加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分;
步骤5:继续步骤4,直至加载完成比特映射组内所有16比特数据块,进入步骤6。
步骤6:通过文档得分,对前k候选文档进行排序。
当进行逻辑或查询处理步骤时,具体为:
步骤1:解析查询并提取所查询的术语t1,t2,…ti;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分;
步骤4:继续步骤3,直至加载完成比特映射组内所有16比特数据块,进入步骤5。
步骤5:通过文档得分,对前k候选文档进行排序。
当进行逻辑非查询处理步骤时,具体为:
步骤1:解析查询并提取所查询的术语t1和t2;
步骤2:加载与术语t1和t2相关的比特映射组;
步骤3:对加载的比特映射组进行按位逻辑非运算,结果比特映射组包含前k候选文档的文档编号docid;
步骤4:加载比特映射组内的16比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分。
本发明所用上述信息存储方法、信息查询方法,利用2个或多个比特映射组进行按位逻辑运算,其运算速度大大提高。而利用上述信息存储方法、信息查询方法实现的搜索引擎装置,可快速有效查询所需术语,并适用多种逻辑查询需求。例如,64位逻辑运算可在64位CPU机器上完成。如果索引列表长度为m和n,则运算次数为O((m+n)/64)次,而传统交运算次数为O(m+n)次,本发明大大减少了运算次数,提高运算效率。下表清楚显示了本发明和传统方案之间运算优劣。假定输入查询2个流行术语,采用逻辑或运算,并在64位CPU上进行。
表1:传统方法与本发明方法性能比较对照表
上面所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

Claims (10)

1.一种信息存储方法,其特征在于,
步骤1:收集文档和术语信息,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数;
步骤1.1:计算每个文档d的每个术语t的术语频率并保存;
步骤1.2:建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率;
步骤2:建立索引;
步骤2.1:对每个文档,根据术语频率和文档频率计算在此文档中术语的权重
步骤2.2:建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W;
步骤2.3:建立比特映射组,保存每个术语t的文档编号docid,每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,“0”标识为某个文档编号docid下,该文档d不包含术语t,;
步骤2.4:建立哈希表,所述哈希表由多个比特映射组内8*b比特数据块构成,每个8*b比特数据块以关键字标识,其中n不小于0,为8*b比特数据块的序号,data为8*b比特数据,每个8*b比特数据块存储有关键字值,所述关键字值为索引项数据结构内的索引项,其中b为大于0的整数。
2.根据权利要求1所述的一种信息存储方法,其特征在于,所述步骤1通过正排索引步骤收集文档和术语信息。
3.根据权利要求1所述的一种信息存储方法,其特征在于,所述步骤2通过倒排索引步骤建立索引。
4.根据权利要求1所述的一种信息存储方法,其特征在于,所述步骤2.1,,其中N为文档的总数。
5.根据权利要求1所述的一种信息存储方法,其特征在于,步骤2.4哈希表填充方法具体为:
步骤2.4.1:对给定术语t,从比特映射中加载8*b比特数据块,加载具有文档编号docid的每个文档的相关术语权重
步骤2.4.2:基于比特映射中的多组8*b比特数据块,建立可变索引项阵列;
步骤2.4.3:形成关键字
步骤2.4.4:在哈希表内插入关键字值。
6.一种信息查询方法,用于基于比特映射和哈希表实现文档和术语存储的信息系统,其特征在于,
步骤1:解析查询并提取所查询的术语;
步骤2:加载与所有术语相关的比特映射组;
步骤3:根据查询术语,加载比特映射组内的8*b比特数据块,形成关键字,并根据哈希表查询术语的权重,最后进一步计算该文档的得分,其中b为大于0的整数;
步骤4:当查询的术语为多个时,继续步骤3,直至加载完成比特映射组内所有8*b比特数据块,进入步骤5;当查询的术语为1个时,结束,
步骤5:通过文档得分,对前k候选文档进行排序。
7.根据权利要求6所述的一种信息查询方法,其特征在于,在步骤2之后,步骤3之前,进行按位逻辑与运算:对加载的比特映射组进行按位逻辑与运算,结果比特映射组包含前k候选文档的文档编号docid。
8.根据权利要求6所述的一种信息查询方法,其特征在于,在步骤2之后,步骤3之前,进行按位逻辑非运算:对加载的比特映射组进行按位逻辑非运算,结果比特映射组包含前k候选文档的文档编号docid。
9.根据权利要求6所述信息查询方法,其特征在于,所述信息查询方法用于采用权利要求1-5之一的信息存储方法的信息系统。
10.一种采用上述权利要求6-9之一信息查询方法的搜索引擎装置。
CN201610499406.8A 2016-06-30 2016-06-30 一种信息存储方法、信息查询方法、搜索引擎装置 Active CN105956203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610499406.8A CN105956203B (zh) 2016-06-30 2016-06-30 一种信息存储方法、信息查询方法、搜索引擎装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610499406.8A CN105956203B (zh) 2016-06-30 2016-06-30 一种信息存储方法、信息查询方法、搜索引擎装置

Publications (2)

Publication Number Publication Date
CN105956203A true CN105956203A (zh) 2016-09-21
CN105956203B CN105956203B (zh) 2019-03-08

Family

ID=56901787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610499406.8A Active CN105956203B (zh) 2016-06-30 2016-06-30 一种信息存储方法、信息查询方法、搜索引擎装置

Country Status (1)

Country Link
CN (1) CN105956203B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229571A (zh) * 2017-06-08 2017-10-03 中国电子信息产业集团有限公司第六研究所 EtherCAT从站中FMMU的控制方法及系统
CN108038224A (zh) * 2017-12-25 2018-05-15 合肥宽信机电有限公司 一种基于计算机的新的水物理性质查询方法
CN110413813A (zh) * 2019-06-25 2019-11-05 宁波图达信息技术有限公司 一种相同或相似图像搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004368A (ja) * 2004-06-21 2006-01-05 Kinpo Electronics (Shanghai) Co Ltd ストリング急速対比サーチの電子装置及び方法
US20080010316A1 (en) * 2006-07-06 2008-01-10 Oracle International Corporation Spelling correction with liaoalphagrams and inverted index
CN101211352A (zh) * 2006-12-28 2008-07-02 凌阳科技股份有限公司 一种电子字典数据更新系统及其方法
CN101859320A (zh) * 2010-05-13 2010-10-13 复旦大学 一种基于多特征签名的海量图像检索方法
CN104636384A (zh) * 2013-11-13 2015-05-20 腾讯科技(深圳)有限公司 一种处理文档的方法及装置
TW201535136A (zh) * 2014-03-06 2015-09-16 Alibaba Group Services Ltd 建立輸入建議的資料處理方法和系統

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004368A (ja) * 2004-06-21 2006-01-05 Kinpo Electronics (Shanghai) Co Ltd ストリング急速対比サーチの電子装置及び方法
US20080010316A1 (en) * 2006-07-06 2008-01-10 Oracle International Corporation Spelling correction with liaoalphagrams and inverted index
CN101211352A (zh) * 2006-12-28 2008-07-02 凌阳科技股份有限公司 一种电子字典数据更新系统及其方法
CN101859320A (zh) * 2010-05-13 2010-10-13 复旦大学 一种基于多特征签名的海量图像检索方法
CN104636384A (zh) * 2013-11-13 2015-05-20 腾讯科技(深圳)有限公司 一种处理文档的方法及装置
TW201535136A (zh) * 2014-03-06 2015-09-16 Alibaba Group Services Ltd 建立輸入建議的資料處理方法和系統

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229571A (zh) * 2017-06-08 2017-10-03 中国电子信息产业集团有限公司第六研究所 EtherCAT从站中FMMU的控制方法及系统
CN108038224A (zh) * 2017-12-25 2018-05-15 合肥宽信机电有限公司 一种基于计算机的新的水物理性质查询方法
CN110413813A (zh) * 2019-06-25 2019-11-05 宁波图达信息技术有限公司 一种相同或相似图像搜索方法
CN110413813B (zh) * 2019-06-25 2023-05-12 宁波图达信息技术有限公司 一种相同或相似图像搜索方法

Also Published As

Publication number Publication date
CN105956203B (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN103282902B (zh) 字尾数组候选选择和索引数据结构
US8583646B2 (en) Information searching apparatus, information searching method, and computer product
EP1360616B1 (en) Database system and query optimiser
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
US20090240655A1 (en) Bit String Seacrching Apparatus, Searching Method, and Program
CN103577418B (zh) 海量文档分布式检索排重系统和方法
CN106326475A (zh) 一种高效的静态哈希表实现方法及系统
CN106055621A (zh) 一种日志检索方法及装置
CN107798346A (zh) 一种基于Fréchet距离阈值的轨迹相似性快速匹配方法
EP2788896B1 (en) Fuzzy full text search
CN107291895B (zh) 一种快速的层次化文档查询方法
WO2016209964A1 (en) Bit vector search index using shards
CN105956203A (zh) 一种信息存储方法、信息查询方法、搜索引擎装置
US20180210907A1 (en) Data management system, data management method, and computer program product
CN107239549A (zh) 数据库术语检索的方法、装置及终端
CN102169491A (zh) 一种多数据集中重复记录动态检测方法
CN109727030A (zh) 一种区块链中账户数据存储方法
CN105359142A (zh) 哈希连接方法、装置和数据库管理系统
CN105956085A (zh) 一种倒排索引的构建方法和装置、检索方法和装置
CN107273529A (zh) 基于哈希函数的高效层级索引构建及检索方法
CN105447104A (zh) 一种知识地图生成方法及装置
JP4491480B2 (ja) インデクス構築方法、文書検索装置及びインデクス構築プログラム
CN105912649A (zh) 一种数据库模糊检索方法和系统
Yadav et al. Wavelet tree based hybrid geo-textual indexing technique for geographical search
CN114911826A (zh) 一种关联数据检索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190320

Address after: 210000 Second Floor, Block C, Gupinggang 4, Gulou District, Nanjing City, Jiangsu Province

Patentee after: Nanjing Network Chaodi Information Technology Co., Ltd.

Address before: 313000 No. 1366 Hongfeng Road, Huzhou Economic and Technological Development Zone, Huzhou City, Zhejiang Province

Co-patentee before: Zhao Wei

Patentee before: Huzhou billion joint information technology Co., Ltd.