CN104899249A - 一种海量数据下可靠索引更新系统及方法 - Google Patents

一种海量数据下可靠索引更新系统及方法 Download PDF

Info

Publication number
CN104899249A
CN104899249A CN201510221611.3A CN201510221611A CN104899249A CN 104899249 A CN104899249 A CN 104899249A CN 201510221611 A CN201510221611 A CN 201510221611A CN 104899249 A CN104899249 A CN 104899249A
Authority
CN
China
Prior art keywords
resource
record
breakpoint
resource updates
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510221611.3A
Other languages
English (en)
Other versions
CN104899249B (zh
Inventor
朱红松
陈磊
孙利民
于楠
闫兆腾
黄伟武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510221611.3A priority Critical patent/CN104899249B/zh
Publication of CN104899249A publication Critical patent/CN104899249A/zh
Application granted granted Critical
Publication of CN104899249B publication Critical patent/CN104899249B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种海量数据下可靠索引更新系统,包括日志预写模块、日志数据库、断点控制模块、断点设置模块、资源缓存模块和内存索引存储区;本发明还涉及一种海量数据下可靠索引更新方法;本发明针对索引构建速度和资源数据更新速度不匹配以及宕机时内存索引易丢失的情况,加入了日志预写、断点设置的机制解决了以上问题,保证了索引更新的可靠性;其次,针对物联网实体资源数据动态变化速度快的特点,在传统的实时索引更新方法中的内存索引更新操作之前加入了资源缓存的机制,在10000个资源的属性重复更新100次的情况下将索引更新速度提升了10倍以上。

Description

一种海量数据下可靠索引更新系统及方法
技术领域
本发明涉及物联网搜索技术领域,尤其涉及一种海量数据下可靠索引更新系统及方法。
背景技术
物联网实体资源指一切能够接入网络的设备资源和物理实体。在物联网中,大量的实体资源互连互通,很多具备自动化控制的物理设备等实体都能连接到网络中,成为物联网实体资源海洋的一部分,这些物联网实体资源有的是传统的路由器、打印机、摄像头、手机等传感器设备,有的是新型的可接入车载网网络的汽车、可接入智能家居系统的电冰箱、甚至你桌子上的台灯等智能生活用品。这些接入网络中的实体资源越来越多,直接造成了物联网实体信息的海量性。另一方面,单个实体资源的属性也是动态变化的,其位置会随着时间而变化,状态也会随着时间和空间的变化而变化,数以百万千万计的实体资源合起来产生的信息是海量的动态变化的信息。
为了提高对这些海量动态变化的信息建立索引的速度,实时索引构建技术一直是物联网搜索技术研究的重点。现在,关键字检索技术中ApacheLucene(Gospodnetic O,Hatcher E.Lucene[M].Manning,2005.)较好地提供了实时索引构建技术的一种实现。它是通过建立硬盘主索引、内存索引和合并中索引的三级索引结构来实现实时索引构建(Hatcher E,Gospodnetic O.Lucene in action[J].2004.)的。该方案有如下特点:
(1)搜索服务是在硬盘主索引Ful l-Index和内存索引Ram-Index中同时进行。
(2)内存索引Ram-Index是索引数据更新的入口。
(3)当内存索引Ram-Index达到一定量时,需要与硬盘索引Ful l-Index进行合并,合并的过程如下:首先将Ram-Index转变为Merging-index,同时开辟一块新的内存索引空间Ram-Index接收新的文档索引,这时假如有查询请求,则同时查询Ram-Index,Ful l-Index和Merging-index,直到Merging-index完全合并到Ful l-Index中。
(4)当Merging-index完全合并到Ful l-Index中以后,这时Merging-index不会立即删除,而是会等待新的IndexReader打开。因为用IndexReader重新打开Ful l-Index的速度是很慢的,如果这时有搜索请求过来,仍然检索以上三个索引,保证了实时性。等到新的IndexReader打开以后,将其替代老的IndexReader,完成一次索引合并过程。
上述内存索引与硬盘索引适时合并的方式保证了索引、搜索的实时性,但是如果索引更新速度过快,内存索引的合并速度跟不上原始数据的推送速度,当合并中索引还没有完成与硬盘索引的合并操作,这时内存索引达到了阈值;或者硬盘上的索引已经很大,合并操作和重新打开IndexReader的操作要花费太长的时间,使得内存索引已经达到阈值的情况下,合并中索引与硬盘索引还没有完成合并;又如在内存索引尚未完成与硬盘索引合并的过程中发生服务器宕机事故,此时内存索引的数据就会丢失,导致索引文件的不完整甚至索引文件损坏情况发生。
发明内容
本发明所要解决的技术问题是提供一种海量数据下可靠索引更新系统及方法,加入了日志预写、断点检查机制和资源缓存机制,资源更新和索引构建之间添加了一级“缓存”,既解决了索引更新速度和原始数据推送速度不匹配的问题,又保证了索引更新的可靠性,且大大提升了海量资源属性索引的重复更新速度。
本发明解决上述技术问题的技术方案如下:一种海量数据下可靠索引更新系统,包括日志预写模块、日志数据库、断点控制模块、断点设置模块、资源缓存模块和内存索引存储区;
所述日志预写模块,用于实时接收从物联网实体资源数据中心推送来的资源更新信息,并将资源更新信息以“资源ID+属性参数”的格式写入日志数据库中;
所述日志数据库,用于保存各条“资源ID+属性参数”的资源更新记录;
所述断点控制模块,用于根据所述日志数据库中保存的资源更新记录的增长情况判断是否达到阈值,如果达到阈值,将断点信号发送至所述断点设置模块后,再发送更新信号至所述资源缓存模块进行处理;
所述断点设置模块,用于记录各组资源更新记录的断点信息,当接收到所述断点信号后,以本组资源更新记录中更新的最后一条资源更新记录作为断点来建立断点信息,并将断点信息写入断点记录表中;
所述资源缓存模块,用于当接收到更新信号后,在建立的更新记录缓存区或所述内存索引存储区中逐一对本组的资源更新记录的内容进行更新处理;
所述内存索引存储区,用于当资源缓存模块处理完成后,将在更新记录缓存区处理的资源更新记录的内容导入,并根据经过更新处理后的资源更新记录的内容对内存索引文件进行更新。
本发明的有益效果是:针对物联网实体资源海量性、动态性的特点,提出了一种保证索引更新速度和可靠性的方法,
(1)针对索引构建速度和资源数据更新速度不匹配以及宕机时内存索引易丢失的情况,本发明加入了日志预写与断点检查机制解决了以上问题,保证了索引更新的可靠性。
(2)针对物联网实体资源数据动态变化速度快的特点,本发明在传统的实时索引更新方法中的内存索引更新操作之前加入了资源缓存,在10000个资源的属性重复更新100次的情况下将索引更新速度提升了10倍以上。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述断点控制模块包括阈值设定单元、更新点判断单元和断点信息读取单元;
所述阈值设定单元,用于设定每组资源更新记录的数目的阈值;
所述更新点判断单元,用于从所述断点信息读取单元读取上一组资源更新记录的断点信息后,以该断点信息所记录的断点时间为监测点,实时监测所述日志数据库中本组资源更新记录的增长情况,并判断本组资源更新记录的数目是否达到设定的阈值,如果达到阈值,将本组资源更新记录的断点信号发送至所述断点设置模块后,再发送更新信号至所述资源缓存模块进行处理,否则,继续监测所述日志数据库中资源更新记录的增长情况;
所述断点信息读取单元,用于从所述断点设置模块中读取资源更新记录的断点信息。
进一步,所述资源缓存模块包括表单创建单元和记录处理单元和更新记录缓存区;
所述表单创建单元,用于从所述日志数据库中获取本组“资源ID+属性参数”的资源更新记录,并根据属性参数获取对应的属性内容,并建立<资源ID+属性内容>信息的表单;
所述记录处理单元,用于逐一判断表单中的资源ID是否已存在于所述更新记录缓存区中,如果存在,则调出原属性内容将其更新为表单中该资源ID对应的属性内容,否则,在所述内存索引存储区中查找,如果存在,则调出原属性内容将其更新为表单中该资源ID对应的属性内容,如果均不存在于两者中,则将该条资源更新记录的资源ID和属性内容保存至所述更新记录缓存区中;
所述更新记录缓存区,用于存储资源ID和属性内容,并将经过处理后的属性内容进行存储。
进一步,所述记录处理单元还用于当处理的资源更新记录为删除操作时,在所述更新记录缓存区和所述内存索引存储区中将该资源ID和其所对应的属性内容进行删除;在所述更新记录缓存区和内存索引存储区中先分别查找该资源ID,再将其对应的属性内容分别删除。
进一步,所述断点控制模块还用于当更新过程中断时,从所述断点设置模块中获取上一组和本组的资源更新记录的断点信息,再发送更新信号至所述资源缓存模块,从断点处重新对本组资源更新记录所对应的索引数据进行更新处理。中断后,读取断点信息,获得资源ID和断点时间,从断点处再次更新,有效保证了内存索引构建的可靠性。
所述断点信息包括资源ID和断点时间。
所述“资源ID+属性参数”的格式为:<资源ID,资源操作类型,资源属性>。
本发明解决上述技术问题的另一技术方案如下:一种海量数据下可靠索引更新方法,包括如下步骤:
步骤A:实时接收从物联网实体资源数据中心推送来的资源更新信息,并将资源更新信息以“资源ID+属性参数”的格式进行编写;
步骤B:保存各条“资源ID+属性参数”的资源更新记录;
步骤C:根据资源更新记录的增长情况判断是否达到阈值,如果达到阈值,则发送断点信号,并执行步骤D,再发送更新信号,并执行步骤E;
步骤D:当接收到断点信号后,以本组资源更新记录中更新的最后一条资源更新记录作为断点来建立断点信息,并将断点信息写入断点记录表中;
步骤E:当接收到更新信号后,在建立的更新记录缓存区或内存索引存储区中逐一对本组的资源更新记录的内容进行更新处理;
步骤F:将更新记录缓存区处理的资源更新记录的内容导入内存索引存储区中,并根据经过更新处理后的资源更新记录的内容对内存索引文件进行更新。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,实现步骤C的具体方法为:
步骤C1:设定每组资源更新记录的数目的阈值;
步骤C2:读取上一组资源更新记录的断点信息后,以该断点信息所记录的断点时间为监测点,实时监测本组资源更新记录的增长情况;
步骤C3:判断本组资源更新记录的数目是否达到设定的阈值,如果达到阈值,发送本组资源更新记录的断点信号,并执行步骤D,再发送更新信号,并执行步骤E;否则,继续监测资源更新记录的增长情况。
进一步,实现步骤E的具体方法为:
步骤E1:获取本组“资源ID+属性参数”的资源更新记录,并根据属性参数获取对应的属性内容,并建立<资源ID+属性内容>信息的表单;
步骤E2:逐一判断表单中的资源ID是否已存在于更新记录缓存区中,如果存在,则执行步骤E3,否则,在内存索引存储区中查找,如果存在,则执行步骤E4;如果均不存在于两者中,则执行步骤E5;
步骤E3:在更新记录缓存区中调出原属性内容将其更新为表单中该资源ID对应的属性内容;
步骤E4:在内存索引存储区调出原属性内容将其更新为表单中该资源ID对应的属性内容;
步骤E5:将该条资源更新记录的资源ID和属性内容保存至更新记录缓存区中。
进一步,还包括当处理的资源更新记录为删除操作时,在所述更新记录缓存区和内存索引存储区中将该资源ID和其所对应的属性内容进行删除的步骤;执行该步骤时,在所述更新记录缓存区和内存索引存储区中先分别查找该资源ID,再将其对应的属性内容分别删除。
进一步,还包括当更新过程中断时,获取上一组和本组的资源更新记录的断点信息,再发送更新信号,从断点处重新对本组资源更新记录所对应的索引数据进行更新处理的步骤。
进一步,所述断点信息包括资源ID和断点时间。
进一步,所述“资源ID+属性参数”的格式为:<资源ID,资源操作类型,资源属性>。
中断后,读取断点信息,获得资源ID和断点时间,从断点处再次更新,有效保证了内存索引构建的可靠性。
当索引更新时发生服务器宕机事故,这时索引数据会丢失,此时尚未更新到最新日期的记录,断点记录表刚好保存着最后一次的断点记录,而最后一个断点和倒数第二个断点之间的资源更新记录即为内存索引中丢失的数据。待系统恢复正常后,系统可重新读取这部分记录来恢复数据。
附图说明
图1为本发明海量数据下可靠索引更新系统的模块框图;
图2为本发明海量数据下可靠索引更新方法的方法流程图;
图3为本发明实现步骤E的方法流程图;
图4为本发明断点构建时序图。
附图中,各标记所代表的部件名称如下:
1、日志预写模块,2、日志数据库,3、断点控制模块,4、断点设置模块,5、资源缓存模块,6、内存索引存储区,7、物联网实体资源数据中心,301、阈值设定单元,302、更新点判断单元,303、断点信息读取单元,501、表单创建单元,502、记录处理单元,503、更新记录缓存区。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种海量数据下可靠索引更新系统,包括日志预写模块、日志数据库、断点控制模块、断点设置模块、资源缓存模块和内存索引存储区;
所述日志预写模块1,用于实时接收从物联网实体资源数据中心7推送来的资源更新信息,并将资源更新信息以“资源ID+属性参数”的格式写入日志数据库中;
所述日志数据库2,用于保存各条“资源ID+属性参数”的资源更新记录;
所述断点控制模块3,用于根据所述日志数据库2中保存的资源更新记录的增长情况判断是否达到阈值,如果达到阈值,将断点信号发送至所述断点设置模块4后,再发送更新信号至所述资源缓存模块5进行处理;
所述断点设置模块4,用于记录各组资源更新记录的断点信息,当接收到所述断点信号后,以本组资源更新记录中更新的最后一条资源更新记录作为断点来建立断点信息,并将断点信息写入断点记录表中;
所述资源缓存模块5,用于当接收到更新信号后,在建立的更新记录缓存区或所述内存索引存储区6中逐一对本组的资源更新记录的内容进行更新处理;
所述内存索引存储区6,用于当资源缓存模块5处理完成后,将在更新记录缓存区处理的资源更新记录的内容导入,并根据经过更新处理后的资源更新记录的内容对内存索引文件进行更新。
所述断点控制模块3包括阈值设定单元301、更新点判断单元302和断点信息读取单元303;
所述阈值设定单元301,用于设定每组资源更新记录的数目的阈值;
所述更新点判断单元302,用于从所述断点信息读取单元303读取上一组资源更新记录的断点信息后,以该断点信息所记录的断点时间为监测点,实时监测所述日志数据库2中本组资源更新记录的增长情况,并判断本组资源更新记录的数目是否达到设定的阈值,如果达到阈值,将本组资源更新记录的断点信号发送至所述断点设置模块4后,再发送更新信号至所述资源缓存模块5进行处理,否则,继续监测所述日志数据库2中资源更新记录的增长情况;
所述断点信息读取单元303,用于从所述断点设置模块4中读取资源更新记录的断点信息。
所述资源缓存模块5包括表单创建单元501和记录处理单元502和更新记录缓存区503;
所述表单创建单元501,用于从所述日志数据库2中获取本组“资源ID+属性参数”的资源更新记录,并根据属性参数获取对应的属性内容,并建立<资源ID+属性内容>信息的表单;
所述记录处理单元502,用于逐一判断表单中的资源ID是否已存在于所述更新记录缓存区503中,如果存在,则调出原属性内容将其更新为表单中该资源ID对应的属性内容,否则,在所述内存索引存储区6中查找,如果存在,则调出原属性内容将其更新为表单中该资源ID对应的属性内容,如果均不存在于两者中,则将该条资源更新记录的资源ID和属性内容保存至所述更新记录缓存区503中;
所述更新记录缓存区503,用于存储资源ID和属性内容,并将经过处理后的属性内容进行存储。
所述记录处理单元503还用于当处理的资源更新记录为删除操作时,在所述更新记录缓存区502和所述内存索引存储区6中将该资源ID和其所对应的属性内容进行删除;在所述更新记录缓存区502和内存索引存储区6中先分别查找该资源ID,再将其对应的属性内容分别删除。
所述断点控制模块3还用于当更新过程中断时,从所述断点设置模块4中获取上一组和本组的资源更新记录的断点信息,再发送更新信号至所述资源缓存模块5,从断点处重新对本组资源更新记录所对应的索引数据进行更新处理。中断后,读取断点信息,获得资源ID和断点时间,从断点处再次更新,有效保证了内存索引构建的可靠性。
所述断点信息包括资源ID和断点时间。
所述“资源ID+属性参数”的格式为:<资源ID,资源操作类型,资源属性>。
如图2所示,一种海量数据下可靠索引更新方法,包括如下步骤:
步骤A:实时接收从物联网实体资源数据中心推送来的资源更新信息,并将资源更新信息以“资源ID+属性参数”的格式进行编写;
步骤B:保存各条“资源ID+属性参数”的资源更新记录;
步骤C:根据资源更新记录的增长情况判断是否达到阈值,如果达到阈值,则发送断点信号,并执行步骤D,再发送更新信号,并执行步骤E;
步骤D:当接收到断点信号后,以本组资源更新记录中更新的最后一条资源更新记录作为断点来建立断点信息,并将断点信息写入断点记录表中;
步骤E:当接收到更新信号后,在建立的更新记录缓存区或内存索引存储区中逐一对本组的资源更新记录的内容进行更新处理;
步骤F:将更新记录缓存区处理的资源更新记录的内容导入内存索引存储区中,并根据经过更新处理后的资源更新记录的内容对内存索引文件进行更新。
实现步骤C的具体方法为:
步骤C1:设定每组资源更新记录的数目的阈值;
步骤C2:读取上一组资源更新记录的断点信息后,以该断点信息所记录的断点时间为监测点,实时监测本组资源更新记录的增长情况;
步骤C3:判断本组资源更新记录的数目是否达到设定的阈值,如果达到阈值,发送本组资源更新记录的断点信号,并执行步骤D,再发送更新信号,并执行步骤E;否则,继续监测资源更新记录的增长情况。
如图3所示,实现步骤E的具体方法为:
步骤E1:获取本组“资源ID+属性参数”的资源更新记录,并根据属性参数获取对应的属性内容,并建立<资源ID+属性内容>信息的表单;
步骤E2:逐一判断表单中的资源ID是否已存在于更新记录缓存区中,如果存在,则执行步骤E3,否则,在内存索引存储区中查找,如果存在,则执行步骤E4;如果均不存在于两者中,则执行步骤E5;
步骤E3:在更新记录缓存区中调出原属性内容将其更新为表单中该资源ID对应的属性内容;
步骤E4:在内存索引存储区调出原属性内容将其更新为表单中该资源ID对应的属性内容;
步骤E5:将该条资源更新记录的资源ID和属性内容保存至更新记录缓存区中。
所述断点信息包括资源ID和断点时间。
所述“资源ID+属性参数”的格式为:<资源ID,资源操作类型,资源属性>。
还包括当处理的资源更新记录为删除操作时,在所述更新记录缓存区和内存索引存储区中将该资源ID和其所对应的属性内容进行删除的步骤;执行该步骤时,在所述更新记录缓存区和内存索引存储区中先分别查找该资源ID,再将其对应的属性内容分别删除。
还包括当更新过程中断时,获取上一组和本组的资源更新记录的断点信息,再发送更新信号,从断点处重新对本组资源更新记录所对应的索引数据进行更新处理的步骤。
中断后,读取断点信息,获得资源ID和断点时间,从断点处再次更新,有效保证了内存索引构建的可靠性。
如图4所示,当索引更新时发生服务器宕机事故,这时索引数据会丢失,此时尚未更新到最新日期的记录,断点记录表刚好保存着最后一次的断点记录,而最后一个断点和倒数第二个断点之间的资源更新记录即为内存索引中丢失的数据。待系统恢复正常后,系统可重新读取这部分记录来恢复数据。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种海量数据下可靠索引更新系统,其特征在于,包括日志预写模块(1)、日志数据库(2)、断点控制模块(3)、断点设置模块(4)、资源缓存模块(5)和内存索引存储区(6);
所述日志预写模块(1),用于实时接收从物联网实体资源数据中心(7)推送来的资源更新信息,并将资源更新信息以“资源ID+属性参数”的格式写入日志数据库中;
所述日志数据库(2),用于保存各条“资源ID+属性参数”的资源更新记录;
所述断点控制模块(3),用于根据所述日志数据库(2)中保存的资源更新记录的增长情况判断是否达到阈值,如果达到阈值,将断点信号发送至所述断点设置模块(4)后,再发送更新信号至所述资源缓存模块(5)进行处理;
所述断点设置模块(4),用于记录各组资源更新记录的断点信息,当接收到所述断点信号后,以本组资源更新记录中更新的最后一条资源更新记录作为断点来建立断点信息,并将断点信息写入断点记录表中;
所述资源缓存模块(5),用于当接收到更新信号后,在建立的更新记录缓存区或所述内存索引存储区(6)中逐一对本组的资源更新记录的内容进行更新处理;
所述内存索引存储区(6),用于当资源缓存模块(5)处理完成后,将在更新记录缓存区处理的资源更新记录的内容导入,并根据经过更新处理后的资源更新记录的内容对内存索引文件进行更新。
2.根据权利要求1所述的海量数据下可靠索引更新系统,其特征在于,所述断点控制模块(3)包括阈值设定单元(301)、更新点判断单元(302)和断点信息读取单元(303);
所述阈值设定单元(301),用于设定每组资源更新记录的数目的阈值;
所述更新点判断单元(302),用于从所述断点信息读取单元(303)读取上一组资源更新记录的断点信息后,以该断点信息所记录的断点时间为监测点,实时监测所述日志数据库(2)中本组资源更新记录的增长情况,并判断本组资源更新记录的数目是否达到设定的阈值,如果达到阈值,将本组资源更新记录的断点信号发送至所述断点设置模块(4)后,再发送更新信号至所述资源缓存模块(5)进行处理,否则,继续监测所述日志数据库(2)中资源更新记录的增长情况;
所述断点信息读取单元(303),用于从所述断点设置模块(4)中读取资源更新记录的断点信息。
3.根据权利要求1所述的海量数据下可靠索引更新系统,其特征在于,所述资源缓存模块(5)包括表单创建单元(501)和记录处理单元(502)和更新记录缓存区(503);
所述表单创建单元(501),用于从所述日志数据库(2)中获取本组“资源ID+属性参数”的资源更新记录,并根据属性参数获取对应的属性内容,并建立<资源ID+属性内容>信息的表单;
所述记录处理单元(502),用于逐一判断表单中的资源ID是否已存在于所述更新记录缓存区(503)中,如果存在,则调出原属性内容将其更新为表单中该资源ID对应的属性内容,否则,在所述内存索引存储区(6)中查找,如果存在,则调出原属性内容将其更新为表单中该资源ID对应的属性内容,如果均不存在于两者中,则将该条资源更新记录的资源ID和属性内容保存至所述更新记录缓存区(503)中;
所述更新记录缓存区(503),用于存储资源ID和属性内容,并将经过处理后的属性内容进行存储。
4.根据权利要求3所述的海量数据下可靠索引更新系统,其特征在于,所述记录处理单元(503)还用于当处理的资源更新记录为删除操作时,在所述更新记录缓存区(502)和所述内存索引存储区(6)中同时将该资源ID和其所对应的属性内容进行删除。
5.根据权利要求1所述的海量数据下可靠索引更新系统,其特征在于,所述断点控制模块(3)还用于当更新过程中断时,从所述断点设置模块(4)中获取上一组和本组的资源更新记录的断点信息,再发送更新信号至所述资源缓存模块(5),从断点处重新对本组资源更新记录所对应的索引数据进行更新处理。
6.一种海量数据下可靠索引更新方法,其特征在于,包括如下步骤:
步骤A:实时接收从物联网实体资源数据中心推送来的资源更新信息,并将资源更新信息以“资源ID+属性参数”的格式进行编写;
步骤B:保存各条“资源ID+属性参数”的资源更新记录;
步骤C:根据资源更新记录的增长情况判断是否达到阈值,如果达到阈值,则发送断点信号,并执行步骤D,再发送更新信号,并执行步骤E;
步骤D:当接收到断点信号后,以本组资源更新记录中更新的最后一条资源更新记录作为断点来建立断点信息,并将断点信息写入断点记录表中;
步骤E:当接收到更新信号后,在建立的更新记录缓存区或内存索引存储区中逐一对本组的资源更新记录的内容进行更新处理;
步骤F:将更新记录缓存区处理的资源更新记录的内容导入内存索引存储区中,并根据经过更新处理后的资源更新记录的内容对内存索引文件进行更新。
7.根据权利要求6所述的海量数据下可靠索引更新方法,其特征在于,实现步骤C的具体方法为:
步骤C1:设定每组资源更新记录的数目的阈值;
步骤C2:读取上一组资源更新记录的断点信息后,以该断点信息所记录的断点时间为监测点,实时监测本组资源更新记录的增长情况;
步骤C3:判断本组资源更新记录的数目是否达到设定的阈值,如果达到阈值,发送本组资源更新记录的断点信号,并执行步骤D,再发送更新信号,并执行步骤E;否则,继续监测资源更新记录的增长情况。
8.根据权利要求6所述的海量数据下可靠索引更新方法,其特征在于,实现步骤E的具体方法为:
步骤E1:获取本组“资源ID+属性参数”的资源更新记录,并根据属性参数获取对应的属性内容,并建立<资源ID+属性内容>信息的表单;
步骤E2:逐一判断表单中的资源ID是否已存在于更新记录缓存区中,如果存在,则执行步骤E3,否则,在内存索引存储区中查找,如果存在,则执行步骤E4;如果均不存在于两者中,则执行步骤E5;
步骤E3:在更新记录缓存区中调出原属性内容将其更新为表单中该资源ID对应的属性内容;
步骤E4:在内存索引存储区调出原属性内容将其更新为表单中该资源ID对应的属性内容;
步骤E5:将该条资源更新记录的资源ID和属性内容保存至更新记录缓存区中。
9.根据权利要求8所述的海量数据下可靠索引更新方法,其特征在于,还包括当处理的资源更新记录为删除操作时,在所述更新记录缓存区和内存索引存储区中将该资源ID和其所对应的属性内容进行删除的步骤。
10.根据权利要求6所述的海量数据下可靠索引更新方法,其特征在于,还包括当更新过程中断时,获取上一组和本组的资源更新记录的断点信息,再发送更新信号,从断点处重新对本组资源更新记录所对应的索引数据进行更新处理的步骤。
CN201510221611.3A 2015-05-04 2015-05-04 一种海量数据下可靠索引更新系统及方法 Expired - Fee Related CN104899249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510221611.3A CN104899249B (zh) 2015-05-04 2015-05-04 一种海量数据下可靠索引更新系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510221611.3A CN104899249B (zh) 2015-05-04 2015-05-04 一种海量数据下可靠索引更新系统及方法

Publications (2)

Publication Number Publication Date
CN104899249A true CN104899249A (zh) 2015-09-09
CN104899249B CN104899249B (zh) 2018-07-13

Family

ID=54031912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510221611.3A Expired - Fee Related CN104899249B (zh) 2015-05-04 2015-05-04 一种海量数据下可靠索引更新系统及方法

Country Status (1)

Country Link
CN (1) CN104899249B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694188A (zh) * 2017-04-07 2018-10-23 腾讯科技(深圳)有限公司 一种索引数据更新的方法以及相关装置
CN108763534A (zh) * 2018-05-31 2018-11-06 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109165144A (zh) * 2018-09-06 2019-01-08 南京聚铭网络科技有限公司 一种基于变长记录的安全日志压缩存储和检索方法
CN111427989A (zh) * 2019-01-10 2020-07-17 北大方正集团有限公司 一种全文检索的索引处理方法、索引处理系统及存储介质
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置
CN118332049A (zh) * 2024-06-12 2024-07-12 中科山水(北京)科技信息有限公司 生态资源数据同步方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136016A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种全文检索系统的索引在线更新方法
WO2009082235A1 (en) * 2007-12-20 2009-07-02 Fast Search Transfer As A method for dynamic updating of an index, and a search engine implementing the same
CN102750174A (zh) * 2012-06-29 2012-10-24 Tcl集团股份有限公司 文件加载方法及装置
CN102843396A (zh) * 2011-06-22 2012-12-26 中兴通讯股份有限公司 一种分布式缓存系统中的数据写入及读取方法及装置
US20130173853A1 (en) * 2011-09-26 2013-07-04 Nec Laboratories America, Inc. Memory-efficient caching methods and systems
CN103294731A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 实时索引建立、实时搜索方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136016A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种全文检索系统的索引在线更新方法
WO2009082235A1 (en) * 2007-12-20 2009-07-02 Fast Search Transfer As A method for dynamic updating of an index, and a search engine implementing the same
CN102843396A (zh) * 2011-06-22 2012-12-26 中兴通讯股份有限公司 一种分布式缓存系统中的数据写入及读取方法及装置
US20130173853A1 (en) * 2011-09-26 2013-07-04 Nec Laboratories America, Inc. Memory-efficient caching methods and systems
CN103294731A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 实时索引建立、实时搜索方法及装置
CN102750174A (zh) * 2012-06-29 2012-10-24 Tcl集团股份有限公司 文件加载方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
傅巍玮: ""分布式实时垂直搜索引擎研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694188A (zh) * 2017-04-07 2018-10-23 腾讯科技(深圳)有限公司 一种索引数据更新的方法以及相关装置
CN108763534A (zh) * 2018-05-31 2018-11-06 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN108763534B (zh) * 2018-05-31 2019-10-18 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109165144A (zh) * 2018-09-06 2019-01-08 南京聚铭网络科技有限公司 一种基于变长记录的安全日志压缩存储和检索方法
CN109165144B (zh) * 2018-09-06 2023-06-13 南京聚铭网络科技有限公司 一种基于变长记录的安全日志压缩存储和检索方法
CN111427989A (zh) * 2019-01-10 2020-07-17 北大方正集团有限公司 一种全文检索的索引处理方法、索引处理系统及存储介质
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置
CN118332049A (zh) * 2024-06-12 2024-07-12 中科山水(北京)科技信息有限公司 生态资源数据同步方法、装置及电子设备

Also Published As

Publication number Publication date
CN104899249B (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN104899249A (zh) 一种海量数据下可靠索引更新系统及方法
CN104090889B (zh) 数据处理方法及系统
CN104301360B (zh) 一种日志数据记录的方法、日志服务器及系统
CN106294772B (zh) 分布式内存列式数据库的缓存管理方法
CN102761627B (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
US8135763B1 (en) Apparatus and method for maintaining a file system index
CN105303456A (zh) 电力传输设备监控数据处理方法
CN104156400B (zh) 一种海量网络流数据的存储方法及装置
CN102667772A (zh) 文件级分级存储管理系统、方法和设备
CN103795811B (zh) 一种基于元数据保存存储信息及统计管理数据的方法
CN104424219B (zh) 一种数据文件的管理方法及装置
CN106682042B (zh) 一种关系数据缓存及查询方法及装置
KR101429046B1 (ko) 키-밸류 구조를 가지는 데이터베이스에서 데이터를 검색, 입력, 삭제 및 가비지 컬렉션하는 방법
CN104239377A (zh) 跨平台的数据检索方法及装置
CN101106818B (zh) 一种统计gsm网络服务区中用户漫游状态的系统及方法
CN104584524A (zh) 聚合中介系统中的数据
CN103744913A (zh) 一种基于搜索引擎技术的数据库检索方法
CN106599152A (zh) 一种数据缓存方法及系统
WO2017000592A1 (zh) 数据处理方法、装置及系统
US20190057027A1 (en) Key Data Store Garbage Collection and Multipart Object Management
CN104461929B (zh) 基于拦截器的分布式数据缓存方法
CN107220287A (zh) 用于日志查询的索引管理方法、装置、存储介质及设备
CN1996305A (zh) 一种数据存储及读取方法及装置以及数据传输系统
CN109634911A (zh) 一种基于hdfs光盘库的存储方法
CN105701233A (zh) 一种优化服务器缓存管理的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180713