CN103473229A - 一种内存检索系统和方法、以及实时检索系统和方法 - Google Patents

一种内存检索系统和方法、以及实时检索系统和方法 Download PDF

Info

Publication number
CN103473229A
CN103473229A CN2012101846422A CN201210184642A CN103473229A CN 103473229 A CN103473229 A CN 103473229A CN 2012101846422 A CN2012101846422 A CN 2012101846422A CN 201210184642 A CN201210184642 A CN 201210184642A CN 103473229 A CN103473229 A CN 103473229A
Authority
CN
China
Prior art keywords
index data
data base
index
retrieval
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101846422A
Other languages
English (en)
Inventor
王长伟
汪伟
蒋宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN2012101846422A priority Critical patent/CN103473229A/zh
Priority to JP2015514344A priority patent/JP2015518223A/ja
Priority to PCT/CN2013/076788 priority patent/WO2013182054A1/zh
Priority to US14/403,047 priority patent/US9619512B2/en
Publication of CN103473229A publication Critical patent/CN103473229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种内存检索系统,所述系统包括:索引模块和检索模块;其中,索引模块,设置有多个索引数据库,用于分库得到和记录索引数据,并分库将更新的索引数据同步给所述检索模块;检索模块,用于接收所述索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。相应的,本发明还公开了一种内存检索方法、实时检索系统以及实时检索方法,能较好的支持实时检索,在实际应用中可到达索引数据的秒极更新,并且降低了硬件设备的成本,提高了检索效率。

Description

一种内存检索系统和方法、以及实时检索系统和方法
技术领域
本发明涉及数据处理技术,尤其涉及一种内存检索系统和方法、以及实时检索系统和方法。
背景技术
现有支持实时检索的系统,将索引和检索合并到一个进程中,它将索引和检索合并到一个进程里,新的倒排索引可以立即被检索使用。当内存中的索引数据达到阈值或者间隔时间达到阈值后,将内存的索引数据合并到磁盘的索引数据中。如此,检索时需要同时查找内存的索引数据和磁盘的索引数据。当检索数据集较小时,该检索系统的实时性能够满足要求。但由于将检索和索引集成在一个进程里,检索和索引均会消耗大量的计算资源,在拥有海量数据的检索系统中,采用类似的检索架构将消耗大量的硬件设备,成本高且效率低。
发明内容
有鉴于此,本发明的主要目的在于提供一种内存检索系统和方法、以及实时检索系统和方法,不仅能够实现实时快速的内存检索,而且能够降低成本和提高效率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种内存检索系统,所述系统包括:索引模块和检索模块;其中,索引模块,设置有多个索引数据库,用于分库得到和记录索引数据,并分库将更新的索引数据同步给所述检索模块;
检索模块,用于接收所述索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。
在上述方案中,所述索引模块,用于对当前接收到的原始数据进行处理,得到索引数据并记录到当前索引数据库,将当前索引数据库的索引数据同步给所述检索模块。
在上述方案中,所述索引模块设置的各索引数据库按照所保存数据的更新时间排序;所述索引模块,还用于在当前索引数据库存满时,将当前得到索引数据记录到下一个索引数据库,并将下一个索引数据库的索引数据同步给所述检索模块;如此往复,在最后一个索引数据库存满时,清空第一个索引数据库,将当前得到的索引数据记录到第一个索引数据库,并将第一个索引数据库的索引数据同步给所述检索模块。
在上述方案中,所述索引模块包括数据接收子模块、索引数据生成子模块和索引数据同步子模块;其中,
数据接收子模块,用于接收原始数据,生成源数据文件;
索引数据生成子模块,用于对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,并通知所述索引数据同步子模块;
索引数据同步子模块,用于在接收到所述索引数据生成子模块的通知后,将当前索引数据库中倒排库的倒排信息同步给所述检索模块。
在上述方案中,所述索引模块设置的各索引数据库包括一个用于记录顺排信息的顺排库和一个用于记录倒排信息的倒排库;
所述索引数据生成子模块,用于对所述源数据文件进行顺排处理,得到顺排信息并记录到当前索引数据库的顺排库,再对所述顺排信息进行倒排处理,得到倒排信息并记录到当前索引数据库的倒排库。
在上述方案中,所述检索模块,用于:接收所述索引数据同步子模块同步的倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
本发明还提供了一种实时检索系统,所述实时检索系统包括磁盘检索子系统、第一内存检索子系统和第二内存检索子系统;其中,
所述磁盘检索子系统包含有全部的索引数据,用于对全部数据进行检索;
所述第一内存检索子系统包含最近第一时间阈值内更新的索引数据,用于对最近第一时间阈值内更新的数据进行检索;
所述第二内存检索子系统包含最近第二时间阈值内更新的索引数据,用于对最近第二时间阈值内更新的数据进行检索;
所述第一时间阈值和第二时间阈值为预先设置,且所述第二时间阈值小于所述第一时间阈值。
在上述方案中,所述第一内存检索子系统包括:第一索引模块和第一检索模块;其中,
第一索引模块,设置有多个索引数据库,用于分库得到和记录最近第一时间阈值内更新的索引数据,并分库将更新的索引数据同步给所述第一检索模块;
第一检索模块,用于接收所述第一索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上;以及,用于对最近第一时间阈值内更新的数据进行检索。
在上述方案中,所述第一时间阈值为两天。
在上述方案中,所述第二内存检索子系统包括:第二索引模块和第二检索模块;其中,
第二索引模块,设置有多个索引数据库,用于分库得到和记录最近第二时间阈值内更新的索引数据,并分库将更新的索引数据同步给所述第二检索模块;
第二检索模块,用于接收所述第二索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上;以及,用于对最近第二时间阈值内更新的数据进行检索。
在上述方案中,所述第二时间阈值不小于十分钟且小于两天。
本发明还提供了一种内存检索方法,所述内存检索方法包括:
设置多个索引数据库,分库得到和记录索引数据,并分库将更新的索引数据进行同步;
接收所述同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。
在上述方案中,所述分库得到和记录索引数据,并分库将更新的索引数据进行同步,包括:
对当前接收到的原始数据进行处理,得到索引数据并记录到当前索引数据库,将当前索引数据库的索引数据进行同步。
在上述方案中,所述分库得到和记录索引数据,并分库将更新的索引数据进行同步,还包括:
所述各索引数据库按照所保存数据的更新时间排序;
在当前索引数据库存满时,将当前得到索引数据记录到下一个索引数据库,并将下一个索引数据库的索引数据进行同步;如此往复,在最后一个索引数据库存满时,清空第一个索引数据库,将当前得到的索引数据记录到第一个索引数据库,并将第一个索引数据库的索引数据进行同步。
在上述方案中,所述分库得到和记录索引数据,并分库将更新的索引数据进行同步,具体包括:接收原始数据,生成源数据文件;对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库;将当前索引数据库中倒排库的倒排信息进行同步。
在上述方案中,所述各索引数据库包括一个用于记录顺排信息的顺排库和一个用于记录倒排信息的倒排库;
所述对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,包括:对所述源数据文件进行顺排处理,得到顺排信息并记录到当前索引数据库的顺排库,再对所述顺排信息进行倒排处理,得到倒排信息并记录到当前索引数据库的倒排库。
在上述方案中,所述接收所述同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上,包括:
接收所述倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
本发明还提供了一种实时检索方法,所述方法由实时检索系统实现,所述实时检索系统包括磁盘检索子系统、第一内存检索子系统和第二内存检索子系统;其中,所述磁盘检索子系统包含有全部的索引数据,用于对全部数据进行检索;所述第一内存检索子系统包含最近第一时间阈值内更新的索引数据,用于对最近第一时间阈值内更新的数据进行检索;所述第二内存检索子系统包含最近第二时间阈值内更新的索引数据,用于对最近第二时间阈值内更新的数据进行检索;所述第一时间阈值和第二时间阈值为预先设置,且所述第二时间阈值小于所述第一时间阈值;
所述方法包括:接收到针对全部数据的检索请求时,所述磁盘检索子系统对全部数据进行检索;
和/或,接收到针对最近的不大于第一时间阈值且大于第二时间阈值的时间段内数据的检索请求时,所述第一内存检索子系统对最近第一时间阈值内更新的数据进行检索;
和/或,接收到针对最近的不大于第二时间阈值的时间段内数据的检索请求时,所述第二内存检索子系统对最近第二时间阈值内更新的数据进行检索。
在上述方案中,所述第一时间阈值为两天,所述第二时间阈值小于两天且不小于十分钟。
本发明的内存检索系统及方法,索引模块分库进行索引数据的更新,检索数据也能够分库更新内存中的索引数据,通过索引数据分库存储、增量同步索引和全内存检索,能较好的支持实时检索,在实际应用中可到达索引数据的秒极更新,并且在架构上将索引模块和检索模块分开,降低了硬件设备的成本,提高了检索效率。
附图说明
图1为本发明实施例二中内存检索方法的实现流程图;
图2为本发明实施例三中内存检索系统的组成结构示意图;
图3为本发明实施例三索引模块中多个索引数据库的设置的一种实例组成结构示意图;
图4为本发明实施例三检索模块更新内存中索引数据的实例示意图;
图5为本发明实施例三检索模块更新内存中索引数据的实例示意图;
图6为本发明实施例四实时检索系统的组成结构示意图。
具体实施方式
实施例一
本发明提供一种内存检索系统,包括索引模块和检索模块,其中,索引模块分库对索引数据进行更新并同步给检索模块,检索模块实时更新内存中相应的索引数据并切换索引数据库指针,使得索引数据能够快速及时的得到更新。
本发明的内存检索系统,所述系统包括:索引模块和检索模块;其中,索引模块,设置有多个索引数据库,用于分库得到和记录索引数据,并分库将更新的索引数据同步给所述检索模块;检索模块,用于接收所述索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。
其中,所述索引模块,用于对当前接收到的原始数据进行处理,得到索引数据并记录到当前索引数据库,将当前索引数据库的索引数据同步给所述检索模块。这里,所述索引模块设置的各索引数据库按照所保存数据的更新时间排序;所述索引模块,还用于在当前索引数据库存满时,将当前得到索引数据记录到下一个索引数据库,并将下一个索引数据库的索引数据同步给所述检索模块;如此往复,在最后一个索引数据库存满时,清空第一个索引数据库,将当前得到的索引数据记录到第一个索引数据库,并将第一个索引数据库的索引数据同步给所述检索模块。
具体地,所述索引模块包括数据接收子模块、索引数据生成子模块和索引数据同步子模块;其中,数据接收子模块,用于接收原始数据,生成源数据文件;索引数据生成子模块,用于对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,并通知所述索引数据同步子模块;索引数据同步子模块,用于在接收到所述索引数据生成子模块的通知后,将当前索引数据库中倒排库的倒排信息同步给所述检索模块。
所述索引模块设置的各索引数据库包括一个用于记录顺排信息的顺排库和一个用于记录倒排信息的倒排库;
所述索引数据生成子模块,用于对所述源数据文件进行顺排处理,得到顺排信息并记录到当前索引数据库的顺排库,再对所述顺排信息进行倒排处理,得到倒排信息并记录到当前索引数据库的倒排库。
具体地,所述索引数据生成子模块,用于:对于包含数值更新的原始数据,基于所述原始数据的ID查询保存其倒排信息的索引数据库,并对该索引数据库中倒排库的数值属性表进行更新;和/或,对于包含文本删除的原始数据,首先对该原始数据进行顺排处理,生成标记有删除命令和包含待删除ID的顺排文件、以及文档数据属性文件,并记录到当前索引库的顺排库;然后,将待删除ID添加到所有包含所述ID的倒排库的删除表中,并更新倒排库的倒排时间戳;和/或,对于包含文本更新的原始数据,首先对该原始数据进行顺排处理,生成标记有删除命令和包含待删除ID的顺排文件、以及文档数据属性文件,并记录到当前索引库的顺排库;然后,将待删除ID添加到所有包含所述ID的倒排库的删除表中,并读取所有顺排文件,对所有<文档,词,位置>三元组进行排序,得到倒排索引文件、倒排数值属性表、docid-pageid映射表和删除表,记录到当前索引数据库的倒排库,并更新所述倒排库的倒排时间戳;和/或,对于包含文本新增的原始数据,首先对该原始数据进行顺排处理,生成顺排文件和文档数据属性文件,并记录到当前索引库的顺排库;然后,读取所有顺排文件,对所有<文档,词,位置>三元组进行排序,得到倒排索引文件、倒排数值属性表、docid-pageid映射表和删除表,记录到当前索引数据库的倒排库,并更新所述倒排库的倒排时间戳。
其中,所述检索模块,用于:接收所述索引数据同步子模块同步的倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
实施例二
相应的,本发明还提供了一种内存检索方法,如图1所示,所述内存检索方法包括:
步骤101:设置多个索引数据库,分库得到和记录索引数据,并分库将更新的索引数据进行同步;
这里,步骤101由实施例一中所述系统的索引模块来实现,并同步到实施例一中所述的检索模块。
步骤102:接收所述同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。
这里,步骤102由实施例一中所述系统的检索模块来实现。
其中,所述分库得到和记录索引数据,并分库将更新的索引数据同步给检索模块,包括:对当前接收到的原始数据进行处理,得到索引数据并记录到当前索引数据库,将当前索引数据库的索引数据同步给检索模块。
这里,所述分库得到和记录索引数据,并分库将更新的索引数据同步给检索模块,还包括:所述各索引数据库按照所保存数据的更新时间排序;在当前索引数据库存满时,索引模块将当前得到索引数据记录到下一个索引数据库,并将下一个索引数据库的索引数据同步给检索模块;如此往复,在最后一个索引数据库存满时,清空第一个索引数据库,将当前得到的索引数据记录到第一个索引数据库,并将第一个索引数据库的索引数据同步给检索模块。
具体地,所述分库得到和记录索引数据,并分库将更新的索引数据同步给检索模块,具体包括:接收原始数据,生成源数据文件;对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库;将当前索引数据库中倒排库的倒排信息同步给所述检索模块。
这里,所述各索引数据库包括一个用于记录顺排信息的顺排库和一个用于记录倒排信息的倒排库;所述对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,包括:对所述源数据文件进行顺排处理,得到顺排信息并记录到当前索引数据库的顺排库,再对所述顺排信息进行倒排处理,得到倒排信息并记录到当前索引数据库的倒排库。
其中,所述检索模块接收所述索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上,包括:所述检索模块接收所述倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
实施例三
如图2所示,本发明提出的内存检索系统可以包括索引模块和检索模块,其中,索引模块和检索模块分别设置在两个不同的设备上,所述两个不同的设备之间可以通过有线方式连接或者通过无线方式通信。索引模块,用于对实时接收到的原始数据进行处理,得到倒排信息并记录到当前索引数据库的倒排库,将所述倒排库中的倒排信息同步给所述检索模块;检索模块,用于接收所述索引模块同步的倒排信息,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的相应索引数据库上。
其中,索引模块包括数据接收子模块、索引数据生成子模块和索引数据同步子模块,数据接收子模块用于接收原始数据,生成源数据文件;索引数据生成子模块,用于对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,并通知所述索引数据同步子模块;索引数据同步子模块,用于在接收到所述索引数据生成子模块的通知后,将当前索引数据库中倒排库的倒排信息同步给所述检索模块。
具体地,数据接收子模块接收到的原始数据中包含数据操作命令和数据内容,数据操作命令主要包括以下四种类型:文本新增、文本更新、文本删除和数值更新。其中,对应文本新增的原始数据可以是以固定的xml格式表示的文档,该文档的域包括文本域和数值域,文本域用于记录文档的文本信息,如标题、正文等,数值域用于记录文档的数值属性,如文档的ID、指纹等标识信息。对应数值更新的原始数据仅包含需更新文档的ID及对应的数值属性。对应文本删除的原始数据包含要删除文档的ID。这里,生成源数据文件时,对应文本新增、文本更新、文本删除的原始数据均被写入同一个文件中,对应数值更新的原始数据则存放在另一个单独的文件中。
在索引数据生成子模块设置多个索引数据库,每个索引数据库可以具有相同的容量阈值,该容量阈值用于表示索引数据库最大能够存放相应数量的原始数据的索引数据,各索引数据库按照所保存索引数据的更新时间进行排序,第一个索引数据库更新时间最早,最后一个索引数据库更新时间最晚。相应的,在内存中也相应的设置有多个索引数据库,内存中的各索引数据库分别与所述索引数据生成子模块中设置的各索引数据库相对应。
例如,如图3所示,可以在索引数据生成子模块中设置N(N为大于1的整数)个索引数据库,分别是1号索引数据库、2号索引数据库、3号索引数据库、......、N-1号索引数据库、N号索引数据库,各索引数据库按照数据更新时间(如,其倒排库的更新时间戳)排序,1号索引数据库更新时间最早,N号索引数据库更新时间最晚,如果当前使用的是2号索引数据库,则索引数据生成子模块将当前得到的索引数据合并保存到2号索引数据库中,也就是说,索引数据生成子模块将当前得到的顺排信息以及倒排信息合并保存到2号索引数据库中。
每个索引数据库中包括一个顺排库和一个倒排库,其中,顺排库用于记录该库中所有原始数据的顺排信息,可以包括顺排文件和文档数据属性文件等,顺排文件用于记录所有的三元组<文档,词,位置>,文档属性文件用于记录各原始数据的数值属性。倒排库用于记录该库中所有原始数据的倒排信息,可以包括倒排索引文件、倒排数值属性表、docid-pageid映射表和删除表等。
对于数据接收子模块得到的源数据文件,索引数据生成子模块实时对所述源数据文件进行扫描,对当前更新的原始数据进行顺排处理和倒排处理,并将得到的顺排信息以及倒排信息保存到当前索引数据库中。具体地,索引数据生成子模块对当前更新的原始数据进行顺排处理,得到顺排文件和文档数据属性文件等顺排信息并记录到当前索引数据库的顺排库中,再根据所述顺排文件和文档数据属性文件等顺排信息得到倒排索引文件、倒排数值属性表、docid-pageid映射表和删除表等倒排信息并记录到当前索引数据库的倒排库中。
如果当前索引数据库中数据数量达到了预设的容量阈值,则将当前得到的顺排信息以及倒排信息保存到当前索引数据库的下一个索引数据库中。如果当前所有索引数据库的数据数量均达到了预设的容量阈值,则将第一个索引数据库清空,将当前得到的顺排信息以及倒排信息保存到第一个索引数据库中,也就是说,将当前得到的顺排信息记录到第一个索引数据库的顺排库,并将当前得到的倒排信息记录到第一个索引数据库的倒排库中。索引数据生成子模块按照时间顺序将得到的索引数据保存各索引数据库,对于如图3所示的例子,在1号索引数据库存满时,将索引数据存放到2号索引数据库,在2号索引数据库存满时,将索引数据存放到3号索引数据库,依此类推,直到N号索引数据存满时,清空1号索引数据库清空,将索引数据存放到1号索引数据库。如此,索引数据可以在各索引数据库中循环存储,也就是说,可以将顺排信息和倒排信息在各索引数据库中循环进行存储。
具体地,针对不同的原始数据,索引数据生成子模块进行如下的顺排处理和倒排处理:
第一,对于包含数值更新的原始数据,基于所述原始数据的ID查询保存其倒排信息的索引数据库,并对该索引数据库中倒排库的数值属性表进行更新。具体地,将所述索引数据库中倒排库的数值属性表中相应的数值更新为与原始数据中数值相一致,并更新所述数值属性表的时间戳。
第二,对于包含文本删除的原始数据,首先对该原始数据进行顺排处理,得到顺排信息,也就是说,生成标记有删除命令和包含待删除ID的顺排文件、以及文档数据属性文件,并记录到当前索引库的顺排库;然后,进行倒排处理,也就是将待删除ID添加到所有包含所述ID的倒排库的删除表中,并更新所述倒排库的倒排时间戳。
第三,对于包含文本更新的原始数据,首先对该原始数据进行顺排处理,生成顺排信息,也就是说,生成标记有删除命令和包含待删除ID的顺排文件、以及文档数据属性文件,并记录到当前索引库的顺排库;然后,进行倒排处理,也就是将待删除ID添加到所有包含所述ID的倒排库的删除表中,并读取所有顺排文件,对所有<文档,词,位置>三元组进行排序,得到倒排索引文件、倒排数值属性表、docid-pageid映射表和删除表等倒排信息,记录到当前索引数据库的倒排库,并更新所述倒排库的倒排时间戳。
第四,对于包含文本新增的原始数据,首先对该原始数据进行顺排处理,生成顺排信息,也就是说,生成顺排文件和文档数据属性文件,并记录到当前索引库的顺排库;然后,进行倒排处理,也就是读取所有顺排文件,对所有<文档,词,位置>三元组进行排序,得到倒排索引文件、倒排数值属性表、docid-pageid映射表和删除表等倒排信息,记录到当前索引数据库的倒排库,并更新倒排库的倒排时间戳。
需要说明的是,索引数据生成子模块进行上述处理的过程中,首先对指定数量的原始数据进行上述的顺排处理,得到其顺排信息并记录到当前索引数据库的顺排库,然后再读取得到的所有倒排信息,对所有倒排信息一起进行上述的倒排处理,得到其倒排信息并记录到当前索引数据库的倒排库中。完成以上操作后,便得到了一个新的倒排库。这里,索引数据生成子模块一次处理的原始数据数量不大于一个索引数据库的容量阈值,可以是索引数据库容量阈值的几分之一,也可以等于索引数据库的容量阈值。
在生成一个新的倒排库或更新一个倒排库后,索引数据生成子模块通知索引数据同步子模块进行数据同步,索引数据同步子模块将当前索引数据库的倒排库中的倒排信息同步给检索模块。这里,除了当前正在使用的索引数据库外,其它索引数据库没有变化,不需要同步。如此,能够减低数据同步对检索系统性能的影响。
检索模块接收索引数据同步子模块同步的倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,检索模块将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
例如,如图4和图5所示,当前使用3号索引数据库,则索引数据同步子模块将3号索引数据库的倒排库中的倒排信息同步给检索模块,检索模块接收所述倒排信息并加载到内存的一个临时数据库中,在3号索引数据库的倒排库中所有的倒排信息均同步到该临时数据库后,检索模块将所述临时数据库作为新的3号索引数据库,将内存中原有的3号索引数据库删除,并将3号索引数据库的指针切换到所述新的3号索引数据库上。如此,能够确保检索模块依据实时更新的索引数据向外提供检索服务。并且,由于切库操作是在内存中通过切换指针实现,可以平滑切换,基本不影响检索模块向外提供检索服务。
综上可知,对于一篇文档,在进入索引模块后要经过顺排、倒排、以及数据同步三步处理。其中,由于每次都是对新增部分数据作处理,顺排处理的耗时较小,数据同步主要是网络传输操作,也不会成为性能瓶颈,每次都要对一个索引数据库中的所有顺排信息进行倒排处理,通常比较耗时,但由于上述过程中限制了单个索引数据库的容量,因而会减少倒排时间,加快索引数据的更新速度。
本实施例中,通过分库、增量同步和全内存检索等方式,可以使索引数据的更新速度得到大大提升。
实施例四
在实际使用中,还可以将多套检索系统组合起来使用以实现实时检索。
本实施例提供了一种实时检索系统,如图6所示,包括磁盘检索子系统、第一内存检索子系统和第二内存检索子系统;其中,
所述磁盘检索子系统包含有全部的索引数据,用于对全部数据进行检索;
所述第一内存检索子系统包含最近第一时间阈值内更新的索引数据,用于对最近第一时间阈值内更新的数据进行检索;
所述第二内存检索子系统包含最近第二时间阈值内更新的索引数据,用于对最近第二时间阈值内更新的数据进行检索;
所述第一时间阈值和第二时间阈值为预先设置,且所述第二时间阈值小于所述第一时间阈值。
这里,所述第一内存检索子系统包括:第一索引模块和第一检索模块;其中,第一索引模块,设置有多个索引数据库,用于分库得到和记录最近第一时间阈值内更新的索引数据,并分库将更新的索引数据同步给所述第一检索模块;第一检索模块,用于接收所述第一索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上;以及,用于对最近第一时间阈值内更新的数据进行检索。
这里,所述第二内存检索子系统包括:第二索引模块和第二检索模块;其中,第二索引模块,设置有多个索引数据库,用于分库得到和记录最近第二时间阈值内更新的索引数据,并分库将更新的索引数据同步给所述第二检索模块;第二检索模块,用于接收所述第二索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上;以及,用于对最近第二时间阈值内更新的数据进行检索。
也就是说,本实施例中的第一内存检索子系统与第二内存检索子系统,其组成结构均与实施例一中的内存检索系统相同,所不同的是,本实施例限定第一内存检索子系统更新第一时间阈值范围内的索引数据,限定第二内存检索子系统更新第二时间阈值范围内的索引数据。
相应的,本实施例还提供了一种实时检索方法,其特征在于,所述方法由上述的实时检索系统实现;所述方法可以包括:接收到针对全部数据的检索请求时,所述磁盘检索子系统对全部数据进行检索;和/或,接收到针对最近的不大于第一时间阈值且大于第二时间阈值的时间段内数据的检索请求时,所述第一内存检索子系统对最近第一时间阈值内更新的数据进行检索;和/或,接收到针对最近的不大于第二时间阈值的时间段内数据的检索请求时,所述第二内存检索子系统对最近第二时间阈值内更新的数据进行检索。
这里,所述第一时间阈值可以为两天,所述第二时间阈值小于两天且不小于10分钟,一般来说,设置第二时间阈值为10分钟。
其中,磁盘检索子系统的结构与现有的磁盘检索系统相同,保存有全量数据的索引数据,每天更新一次索引数据,能够对最近一天之前的全部数据进行检索,但无法覆盖最近一天更新的数据。第一内存检索子系统可以对最近两天内更新的数据进行检索,但是由于两天内数据更新量较大,其索引更新可能满足不了实时要求。第二内存检索子系统可以对最近十分钟内更新的数据进行检索,索引数据每10分钟更新一次,由于10分钟内的数据更新量较小,索引数据的更新更接近实时,进而实现实时的数据检索。通过将上述的三个子系统组合为一个检索系统,可以实现实时检索,并且保证了检索数据的全召回。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (19)

1.一种内存检索系统,其特征在于,所述系统包括:索引模块和检索模块;其中,
索引模块,设置有多个索引数据库,用于分库得到和记录索引数据,并分库将更新的索引数据同步给所述检索模块;
检索模块,用于接收所述索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。
2.根据权利要求1所述的内存检索系统,其特征在于,所述索引模块,用于对当前接收到的原始数据进行处理,得到索引数据并记录到当前索引数据库,将当前索引数据库的索引数据同步给所述检索模块。
3.根据权利要求2所述的内存检索系统,其特征在于,
所述索引模块设置的各索引数据库按照所保存数据的更新时间排序;
所述索引模块,还用于在当前索引数据库存满时,将当前得到索引数据记录到下一个索引数据库,并将下一个索引数据库的索引数据同步给所述检索模块;如此往复,在最后一个索引数据库存满时,清空第一个索引数据库,将当前得到的索引数据记录到第一个索引数据库,并将第一个索引数据库的索引数据同步给所述检索模块。
4.根据权利要求1至3任一项所述的内存检索系统,其特征在于,所述索引模块包括数据接收子模块、索引数据生成子模块和索引数据同步子模块;其中,
数据接收子模块,用于接收原始数据,生成源数据文件;
索引数据生成子模块,用于对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,并通知所述索引数据同步子模块;
索引数据同步子模块,用于在接收到所述索引数据生成子模块的通知后,将当前索引数据库中倒排库的倒排信息同步给所述检索模块。
5.根据权利要求4所述的内存检索系统,其特征在于,
所述索引模块设置的各索引数据库包括一个用于记录顺排信息的顺排库和一个用于记录倒排信息的倒排库;
所述索引数据生成子模块,用于对所述源数据文件进行顺排处理,得到顺排信息并记录到当前索引数据库的顺排库,再对所述顺排信息进行倒排处理,得到倒排信息并记录到当前索引数据库的倒排库。
6.根据权利要求5所述的内存检索系统,其特征在于,所述检索模块,用于:接收所述索引数据同步子模块同步的倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
7.一种实时检索系统,其特征在于,所述实时检索系统包括磁盘检索子系统、第一内存检索子系统和第二内存检索子系统;其中,
所述磁盘检索子系统包含有全部的索引数据,用于对全部数据进行检索;
所述第一内存检索子系统包含最近第一时间阈值内更新的索引数据,用于对最近第一时间阈值内更新的数据进行检索;
所述第二内存检索子系统包含最近第二时间阈值内更新的索引数据,用于对最近第二时间阈值内更新的数据进行检索;
所述第一时间阈值和第二时间阈值为预先设置,且所述第二时间阈值小于所述第一时间阈值。
8.根据权利要求7所述的实时检索系统,其特征在于,所述第一内存检索子系统包括:第一索引模块和第一检索模块;其中,
第一索引模块,设置有多个索引数据库,用于分库得到和记录最近第一时间阈值内更新的索引数据,并分库将更新的索引数据同步给所述第一检索模块;
第一检索模块,用于接收所述第一索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上;以及,用于对最近第一时间阈值内更新的数据进行检索。
9.根据权利要求7或8所述的实时检索系统,其特征在于,所述第一时间阈值为两天。
10.根据权利要求7所述的实时检索系统,其特征在于,所述第二内存检索子系统包括:第二索引模块和第二检索模块;其中,
第二索引模块,设置有多个索引数据库,用于分库得到和记录最近第二时间阈值内更新的索引数据,并分库将更新的索引数据同步给所述第二检索模块;
第二检索模块,用于接收所述第二索引模块同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上;以及,用于对最近第二时间阈值内更新的数据进行检索。
11.根据权利要求7、9、或10所述的实时检索系统,其特征在于,所述第二时间阈值不小于十分钟且小于两天。
12.一种内存检索方法,其特征在于,所述内存检索方法包括:
设置多个索引数据库,分库得到和记录索引数据,并分库将更新的索引数据进行同步;
接收所述同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上。
13.根据权利要求12所述的内存检索方法,其特征在于,所述分库得到和记录索引数据,并分库将更新的索引数据进行同步,包括:
对当前接收到的原始数据进行处理,得到索引数据并记录到当前索引数据库,将当前索引数据库的索引数据进行同步。
14.根据权利要求13所述的内存检索方法,其特征在于,所述分库得到和记录索引数据,并分库将更新的索引数据进行同步,还包括:
所述各索引数据库按照所保存数据的更新时间排序;
在当前索引数据库存满时,将当前得到索引数据记录到下一个索引数据库,并将下一个索引数据库的索引数据进行同步;如此往复,在最后一个索引数据库存满时,清空第一个索引数据库,将当前得到的索引数据记录到第一个索引数据库,并将第一个索引数据库的索引数据进行同步。
15.根据权利要求12至14任一项所述的内存检索方法,其特征在于,所述分库得到和记录索引数据,并分库将更新的索引数据进行同步,具体包括:接收原始数据,生成源数据文件;对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库;将当前索引数据库中倒排库的倒排信息进行同步。
16.根据权利要求15任一项所述的内存检索方法,其特征在于,
所述各索引数据库包括一个用于记录顺排信息的顺排库和一个用于记录倒排信息的倒排库;
所述对所述源数据文件进行处理,得到倒排信息,保存到当前索引数据库的倒排库,包括:对所述源数据文件进行顺排处理,得到顺排信息并记录到当前索引数据库的顺排库,再对所述顺排信息进行倒排处理,得到倒排信息并记录到当前索引数据库的倒排库。
17.根据权利要求15所述的内存检索方法,其特征在于,所述接收所述同步的索引数据,更新内存中相应的索引数据库,并将相应的索引数据库指针切换到更新后的索引数据库上,包括:
接收所述倒排信息,先将所接收到的倒排信息加载到内存的一个临时数据库中,待当前索引数据库的倒排库中所有倒排信息同步完成后,将相应的索引数据库指针切换到所述临时数据库上,并将所述临时数据库作为新的索引数据库替换掉内存中相应的索引数据库。
18.一种实时检索方法,其特征在于,所述方法由实时检索系统实现,所述实时检索系统包括磁盘检索子系统、第一内存检索子系统和第二内存检索子系统;其中,所述磁盘检索子系统包含有全部的索引数据,用于对全部数据进行检索;所述第一内存检索子系统包含最近第一时间阈值内更新的索引数据,用于对最近第一时间阈值内更新的数据进行检索;所述第二内存检索子系统包含最近第二时间阈值内更新的索引数据,用于对最近第二时间阈值内更新的数据进行检索;所述第一时间阈值和第二时间阈值为预先设置,且所述第二时间阈值小于所述第一时间阈值;
所述方法包括:接收到针对全部数据的检索请求时,所述磁盘检索子系统对全部数据进行检索;
和/或,接收到针对最近的不大于第一时间阈值且大于第二时间阈值的时间段内数据的检索请求时,所述第一内存检索子系统对最近第一时间阈值内更新的数据进行检索;
和/或,接收到针对最近的不大于第二时间阈值的时间段内数据的检索请求时,所述第二内存检索子系统对最近第二时间阈值内更新的数据进行检索。
19.根据权利要求18所述的实时检索方法,其特征在于,所述第一时间阈值为两天,所述第二时间阈值小于两天且不小于十分钟。
CN2012101846422A 2012-06-06 2012-06-06 一种内存检索系统和方法、以及实时检索系统和方法 Pending CN103473229A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2012101846422A CN103473229A (zh) 2012-06-06 2012-06-06 一种内存检索系统和方法、以及实时检索系统和方法
JP2015514344A JP2015518223A (ja) 2012-06-06 2013-06-05 メモリ検索、リアルタイム検索システム及び方法、コンピュータ記憶媒体
PCT/CN2013/076788 WO2013182054A1 (zh) 2012-06-06 2013-06-05 内存检索、实时检索系统和方法、计算机存储介质
US14/403,047 US9619512B2 (en) 2012-06-06 2013-06-05 Memory searching system and method, real-time searching system and method, and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101846422A CN103473229A (zh) 2012-06-06 2012-06-06 一种内存检索系统和方法、以及实时检索系统和方法

Publications (1)

Publication Number Publication Date
CN103473229A true CN103473229A (zh) 2013-12-25

Family

ID=49711380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101846422A Pending CN103473229A (zh) 2012-06-06 2012-06-06 一种内存检索系统和方法、以及实时检索系统和方法

Country Status (4)

Country Link
US (1) US9619512B2 (zh)
JP (1) JP2015518223A (zh)
CN (1) CN103473229A (zh)
WO (1) WO2013182054A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361009A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于倒排索引的实时索引方法
CN106055587A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 一种分库数据库系统及其路由方法
CN107992569A (zh) * 2017-11-29 2018-05-04 北京小度信息科技有限公司 数据访问方法、装置、电子设备及计算机可读存储介质
CN108205543A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲信息存储方法和系统
CN108334514A (zh) * 2017-01-20 2018-07-27 北京京东尚科信息技术有限公司 数据的索引方法以及装置
CN108694188A (zh) * 2017-04-07 2018-10-23 腾讯科技(深圳)有限公司 一种索引数据更新的方法以及相关装置
CN110222054A (zh) * 2019-05-22 2019-09-10 福建大屏网络科技有限公司 一种提高检索速度的方法、装置、终端设备和存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514173B2 (en) * 2014-04-15 2016-12-06 Facebook, Inc. Real-time index consistency check
CN105279213A (zh) * 2015-03-13 2016-01-27 中国移动通信集团广东有限公司 一种日志数据库检索装置及检索方法
CN104778267A (zh) * 2015-04-22 2015-07-15 无锡天脉聚源传媒科技有限公司 一种搜索及索引更新的方法及装置
US10311042B1 (en) * 2015-08-31 2019-06-04 Commvault Systems, Inc. Organically managing primary and secondary storage of a data object based on expiry timeframe supplied by a user of the data object
CN107402982A (zh) * 2017-07-07 2017-11-28 阿里巴巴集团控股有限公司 数据写入、数据匹配方法、装置及计算设备
CN108920749B (zh) * 2018-05-22 2022-09-06 广州市城市规划勘测设计研究院 管线二三维数据更新方法、装置与计算机可读存储介质
CN111797227A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 信息处理方法、装置、存储介质及电子设备
CN110928954A (zh) * 2019-12-04 2020-03-27 深圳前海环融联易信息科技服务有限公司 HBase索引同步方法、装置、计算机设备及存储介质
CN113672616B (zh) * 2021-07-22 2023-08-15 北京奇艺世纪科技有限公司 一种数据索引方法、装置、终端及存储介质
CN114942908B (zh) * 2022-07-19 2023-01-17 阿里巴巴(中国)有限公司 索引系统、数据处理方法、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080303A1 (en) * 2004-10-07 2006-04-13 Computer Associates Think, Inc. Method, apparatus, and computer program product for indexing, synchronizing and searching digital data
US7467129B1 (en) * 2002-09-06 2008-12-16 Kawasaki Microelectronics, Inc. Method and apparatus for latency and power efficient database searches
CN101989301A (zh) * 2010-10-22 2011-03-23 复旦大学 一种支持多数据源的索引维护方法
CN102103602A (zh) * 2009-12-17 2011-06-22 腾讯科技(深圳)有限公司 一种提高检索速度的系统及方法
CN102402605A (zh) * 2010-11-22 2012-04-04 微软公司 用于搜索引擎索引的混合分布模型

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146880A (ja) 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置及び方法
JPH1185585A (ja) 1997-09-12 1999-03-30 N T T Data:Kk 完全メモリ常駐型インデックス方法および装置
JP2001185585A (ja) 1999-12-24 2001-07-06 Hitachi Ltd 半導体装置およびその製造方法
US7827362B2 (en) * 2004-08-24 2010-11-02 Symantec Corporation Systems, apparatus, and methods for processing I/O requests
JP2006134169A (ja) 2004-11-08 2006-05-25 Nec Corp 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法
JP2006185019A (ja) 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 検索システム、および情報配置構成決定方法、並びにコンピュータ・プログラム
JP2007146880A (ja) 2005-11-24 2007-06-14 Denso Corp 管継手
JP4878178B2 (ja) * 2006-02-28 2012-02-15 株式会社日立製作所 データ処理方法および装置並びにその処理プログラム
US7962458B2 (en) * 2008-06-12 2011-06-14 Gravic, Inc. Method for replicating explicit locks in a data replication engine
CN101667179B (zh) * 2008-09-03 2012-08-15 华为技术有限公司 移动搜索方法及其系统、搜索服务器同步元索引的方法
US8090695B2 (en) * 2008-12-05 2012-01-03 Microsoft Corporation Dynamic restoration of message object search indexes
US20110270820A1 (en) * 2009-01-16 2011-11-03 Sanjiv Agarwal Dynamic Indexing while Authoring and Computerized Search Methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7467129B1 (en) * 2002-09-06 2008-12-16 Kawasaki Microelectronics, Inc. Method and apparatus for latency and power efficient database searches
US20060080303A1 (en) * 2004-10-07 2006-04-13 Computer Associates Think, Inc. Method, apparatus, and computer program product for indexing, synchronizing and searching digital data
CN102103602A (zh) * 2009-12-17 2011-06-22 腾讯科技(深圳)有限公司 一种提高检索速度的系统及方法
CN101989301A (zh) * 2010-10-22 2011-03-23 复旦大学 一种支持多数据源的索引维护方法
CN102402605A (zh) * 2010-11-22 2012-04-04 微软公司 用于搜索引擎索引的混合分布模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张志檩: "《实时数据库原理及应用》", 30 November 2001 *
王智强等: "一种实时更新索引结构的设计与实现", 《计算机系统应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361009A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于倒排索引的实时索引方法
CN104361009B (zh) * 2014-10-11 2017-10-31 北京中搜网络技术股份有限公司 一种基于倒排索引的实时索引方法
CN106055587A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 一种分库数据库系统及其路由方法
CN108205543A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲信息存储方法和系统
CN108334514A (zh) * 2017-01-20 2018-07-27 北京京东尚科信息技术有限公司 数据的索引方法以及装置
CN108694188A (zh) * 2017-04-07 2018-10-23 腾讯科技(深圳)有限公司 一种索引数据更新的方法以及相关装置
CN107992569A (zh) * 2017-11-29 2018-05-04 北京小度信息科技有限公司 数据访问方法、装置、电子设备及计算机可读存储介质
CN110222054A (zh) * 2019-05-22 2019-09-10 福建大屏网络科技有限公司 一种提高检索速度的方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
US9619512B2 (en) 2017-04-11
US20150142735A1 (en) 2015-05-21
JP2015518223A (ja) 2015-06-25
WO2013182054A1 (zh) 2013-12-12

Similar Documents

Publication Publication Date Title
CN103473229A (zh) 一种内存检索系统和方法、以及实时检索系统和方法
CN102999519B (zh) 一种数据库的读写方法及系统
US9197710B1 (en) Temporal based data string intern pools
KR102005831B1 (ko) 범위-기반 검색을 위한 데이터 저장 관리
CN102169507A (zh) 一种分布式实时搜索引擎
CN102819586B (zh) 一种基于高速缓存的url分类方法和设备
CN102375853A (zh) 分布式数据库系统、在其中建立索引的方法和查询方法
CN102419752A (zh) 一种工业数据库报文存储方法
CN105303456A (zh) 电力传输设备监控数据处理方法
CN106033324B (zh) 一种数据存储的方法和装置
CN103678494A (zh) 客户端同步服务端数据的方法及装置
CN102779138B (zh) 实时数据的硬盘存取方法
CN102436421A (zh) 缓存数据的方法
CN109726175A (zh) 一种基于HBase的海量文件离线分区管理方法
CN103092848A (zh) 一种图片存储与检索方法
CN103186622A (zh) 一种全文检索系统中索引信息的更新方法以及装置
CN101963977A (zh) 无城市搜索方法及移动终端
CN109063192A (zh) 一种高性能海量文件存储系统工作方法
US20140067820A1 (en) System and method for phonetic searching of data
CN103207872A (zh) 一种实时索引方法和服务器
CN105068761A (zh) 一种便于检索的视频截图存储方法和系统
KR101666440B1 (ko) 환형큐 기반의 인-메모리 데이터베이스 시스템에서의 데이터 처리방법
CN107273403A (zh) 一种历史数据收集及存储的方法
CN104375782A (zh) 千万级小文件数据的一种读写解决方法
CN110866068B (zh) 一种基于hdfs的公告数据存储方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131225