CN109101599A - 一种增量索引更新方法及系统 - Google Patents

一种增量索引更新方法及系统 Download PDF

Info

Publication number
CN109101599A
CN109101599A CN201810861174.5A CN201810861174A CN109101599A CN 109101599 A CN109101599 A CN 109101599A CN 201810861174 A CN201810861174 A CN 201810861174A CN 109101599 A CN109101599 A CN 109101599A
Authority
CN
China
Prior art keywords
data
index
full dose
increment
inverted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810861174.5A
Other languages
English (en)
Other versions
CN109101599B (zh
Inventor
王洪朋
高大陆
梁召
陈爱云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810861174.5A priority Critical patent/CN109101599B/zh
Publication of CN109101599A publication Critical patent/CN109101599A/zh
Application granted granted Critical
Publication of CN109101599B publication Critical patent/CN109101599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种增量索引更新方法及系统,本发明通过对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;将倒排索引增量数据在全量索引数据中置为删除状态,并将倒排索引增量数据加载至增量索引查询服务模块进行更新;获取正排增量索引数据,对全量索引数据中的正排增量索引数据进行更新。本发明通过引入增量索引查询服务模块,将倒排索引增量数据和正排索引增量数据进行数据分离,将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引,将正排索引增量数据进行实时更新,以降低服务器的风险以及提高服务器的稳定性;另外,可以更快的对用户的搜索趋势或意图做出响应,以提高用户搜索体验。

Description

一种增量索引更新方法及系统
技术领域
本发明涉及数据处理技术领域,特别是涉及一种增量索引更新方法及系统。
背景技术
随着网络的进一步发展,搜索索引量以800%的速度爆发式的增长,每天索引数据的生成及推送成为数据处理的瓶颈,索引数据的快速更新与迭代的实现成为极大的挑战。
若对所有全球数据每天都进行计算、生成并推送,则需要消耗大量的计算资源、带宽资源、时间成本以及人力成本。经分析,目前5亿的全量数据中大部分的数据在过去7天内的变化并不大,因此没必要每天都将这些数据重新进行计算、生成并推送,只需每天计算、生成以及推送有变化的增量索引数据,定期重建全量索引,即可实现索引数据的快速更新及迭代。
目前普遍的方法是将增量索引数据与全量索引做在线合并,在数据合并期间,对服务器的性能要求较高,例如:服务器的磁盘、内存和处理器等,在资源紧张的条件下,服务器存在一定的风险性,且不利于服务器的稳定性。
发明内容
本发明的目的在于提出一种增量索引更新方法及系统,以降低服务器的风险以及提高服务器的稳定性。
为达到上述目的,本发明提供了以下技术方案:
一种增量索引更新方法,包括:
对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;
将所述倒排索引增量数据在全量索引数据中置为删除状态,并将所述倒排索引增量数据加载至增量索引查询服务模块进行更新;
获取所述正排增量索引数据,对所述全量索引数据中的所述正排增量索引数据进行更新。
进一步的,还包括:
根据消息数据存储工具对实时索引数据进行更新,并在增量索引被所述增量索引查询服务模块成功加载完成后,将所述实时索引数据推送至全量索引。
进一步的,所述对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据,包括:
对全量索引数据进行数据分离处理,通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比,得到对比结果;
当所述对比结果为所述全量索引数据完全存在于所述当前全量索引数据中,而未存在于上一次推送完成的全景索引数据中,区分正排索引和倒排索引的变化,标记为正排索引增量数据和倒排索引增量数据;
当所述对比结果为所述全量索引数据中有新增数据存在于所述当前全量索引数据中,而未存在于上一次推送完成的全称索引数据中,则标记为新增倒排索引增量数据;
当所述对比结果为所述全量索引数据中有数据未存在于所述当前全量索引数据中,而存在于上一次推送完成的全称索引数据中,则标记为删除倒排索引增量数据。
进一步的,还包括:
按照预设时间重建全量索引,并进行所述全量索引数据的推送。
一种增量索引更新系统,包括:
处理模块,用于对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;
第一更新模块,用于将所述倒排索引增量数据在全量索引数据中置为删除状态,并将所述倒排索引增量数据加载至增量索引查询服务模块进行更新;
第二更新模块,用于获取所述正排增量索引数据,对所述全量索引数据中的所述正排增量索引数据进行更新。
进一步的,还包括:
第三更新模块,用于根据消息数据存储工具对实时索引数据进行更新,并在增量索引被所述增量索引查询服务模块成功加载完成后,将所述实时索引数据推送至全量索引。
进一步的,所述处理模块包括:
对比单元,用于对全量索引数据进行数据分离处理,通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比,得到对比结果;
第一标记单元,用于当所述对比结果为所述全量索引数据完全存在于所述当前全量索引数据中,而未存在于上一次推送完成的全景索引数据中,区分正排索引和倒排索引的变化,标记为正排索引增量数据和倒排索引增量数据;
第二标记单元,用于当所述对比结果为所述全量索引数据中有新增数据存在于所述当前全量索引数据中,而未存在于上一次推送完成的全称索引数据中,则标记为新增倒排索引增量数据;
第三标记单元,用于当所述对比结果为所述全量索引数据中有数据未存在于所述当前全量索引数据中,而存在于上一次推送完成的全称索引数据中,则标记为删除倒排索引增量数据。
进一步的,还包括:
推送模块,用于按照预设时间重建全量索引,并进行所述全量索引数据的推送。
经由上述的技术方案可知,与现有技术相比,本发明公开了一种增量索引更新方法及系统,本发明通过对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;将倒排索引增量数据在全量索引数据中置为删除状态,并将倒排索引增量数据加载至增量索引查询服务模块进行更新;获取正排增量索引数据,对全量索引中的正排增量索引数据进行更新。本发明通过引入增量索引查询服务模块,将倒排索引增量数据和正排索引增量数据进行数据分离,将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引,将正排索引增量数据进行实时更新,以降低服务器的风险以及提高服务器的稳定性;另外,可以更快的对用户的搜索趋势或意图做出响应,以提高用户搜索体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种增量索引更新方法流程示意图;
图2为本发明实施例提供的另一种增量索引更新方法流程示意图;
图3为本发明实施例提供的一种增量索引更新系统结构示意图;
图4为本发明实施例提供的另一种增量索引更新系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,图1为本发明实施例提供的一种增量索引更新方法流程示意图。如图1所示,本发明实施例公开了一种增量索引更新方法,该方法具体包括如下步骤:
S101、对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据。
在本实施例中,需要说明的是,为实现索引数据的快速更新迭代,我们将正排索引和倒排索引等索引各模块的数据进行分离,具体的,通过将当天的全量索引数据与上一次推送完成的全量索引数据做MD5对比:①对于同一数据有不同时,区分正排索引和倒排索引的变化,用于生产正排索引增量数据和倒排索引增量数据,并对数据做标记(1:倒排索引变化或正排索引和倒排索引发生变化;2:仅正排索引变化;);②对当天全量索引数据有的数据而上次推送完成的全量索引数据中没有的数据,标记为新增倒排索引增量数据(3:新增);③对于当天全量索引数据中没有的数据而上次推送完成的全量索引中有的数据,标记为删除倒排索引增量数据(0:删除)。
具体的,所述对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据,包括:
对全量索引数据进行数据分离处理,通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比,得到对比结果;
当对比结果为全量索引数据完全存在于当前全量索引数据中,而未存在于上一次推送完成的全景索引数据中,区分正排索引和倒排索引的变化,标记为正排索引增量数据和倒排索引增量数据;
当对比结果为全量索引数据中有新增数据存在于当前全量索引数据中,而未存在于上一次推送完成的全称索引数据中,则标记为新增倒排索引增量数据;
当对比结果为全量索引数据中有数据未存在于当前全量索引数据中,而存在于上一次推送完成的全称索引数据中,则标记为删除倒排索引增量数据。
S102、将倒排索引增量数据在全量索引数据中置为删除状态,并将倒排索引增量数据加载至增量索引查询服务模块进行更新。
在本实施例中,需要说明的是,为了保持倒排索引的更新,将增量索引查询服务模块中的所有数据在全量索引中置为删除状态(即为doc_id_filter),为了保证数据的服务的一致性,在增量索引查询服务模块的增量索引全部加载完毕以后,才将增量索引查询服务模块的数据作为doc_id_filter的加载命令发送至全量索引。本发明实施例的核心是增加存储倒排索引增量数据的模块,该模块为增量索引查询服务模块,引入该增量索引查询服务模块进行数据的存储。
S103、获取正排增量索引数据,对全量索引数据中的正排增量索引数据进行更新。
在本实施例中,需要说明的是,为解决索引数据中点击率等正排索引不能更新的问题,从步骤101中,获取数据标记为2(仅正排索引数据有变化)的数据的正排索引信息,对全量索引中正排索引有变化的数据,定期做独立更新,以保证全量索引的正排索引数据始终处于最新状态。需要说明的是,仅取有正排索引变化数据的用于更新全量索引中的正排索引数据,是因为有倒排索引变化的数据的都已进入了增量索引查询服务模块,增量索引查询服务模块中的数据的正排索引数据都是最新的状态。
优选的,如图2所示,本发明实施例公开了另一种增量索引更新方法,在图1的基础上,该方法还包括:
S104、根据消息数据存储工具对实时索引数据进行更新,并在增量索引被增量索引查询服务模块成功加载完成后,将实时索引数据推送至全量索引。
需要说明的是,实时索引以消息数据存储工具Kafka进行消息更新,实时索引更新时间戳以增量索引查询服务模块的增量索引开始生成时间T1为准,并在增量索引被增量索引查询服务模块成功加载完成以后,推送至全量索引和实时索引。时间戳T1以后的数据都会被认为是实时数据从消息数据存储工具中获取,全量开始生产的时间T0到T1之间的有倒排索引变化的数据、新增的数据、删除的增量索引数据都会进入增量索引查询服务模块。
S105、按照预设时间重建全量索引,并进行全量索引数据的推送。
需要说明的是,按照预设时间重建全量索引,并将全量索引数据推送至索引查询客户端,用于检索查询。
本发明实施例提供了一种增量索引更新方法,本方法实施例通过对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;将倒排索引增量数据在全量索引数据中置为删除状态,并将倒排索引增量数据加载至增量索引查询服务模块进行更新;获取正排增量索引数据,对全量索引数据中的正排增量索引数据进行更新。本方法实施例通过引入增量索引查询服务模块,将倒排索引增量数据和正排索引增量数据进行数据分离,将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引,将正排索引增量数据进行实时更新,以降低服务器的风险以及提高服务器的稳定性;另外,可以更快的对用户的搜索趋势或意图做出响应,以提高用户搜索体验。
本发明在上述公开的方法的基础上,还公开了对应的系统。
下面对本发明实施例提供的一种增量索引更新系统进行介绍,需要说明的是,有关该增量索引更新系统的说明可参照上文提供的增量索引更新方法,以下并不做赘述。
请参阅附图3,图3为本发明实施例提供的一种增量索引更新系统结构示意图。如图3所示,本发明实施例公开了一种增量索引更新系统,该系统具体包括如下:
处理模块301,用于对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据。
在本实施例中,需要说明的是,为实现索引数据的快速更新迭代,我们将正排索引和倒排索引等索引各模块的数据进行分离,具体的,通过将当天的全量索引数据与上一次推送完成的全量索引数据做MD5对比:①对于同一数据有不同时,区分正排索引和倒排索引的变化,用于生产正排索引增量数据和倒排索引增量数据,并对数据做标记(1:倒排索引变化或正排索引和倒排索引发生变化;2:仅正排索引变化;);②对当天全量索引数据有的数据而上次推送完成的全量索引数据中没有的数据,标记为新增倒排索引增量数据(3:新增);③对于当天全量索引数据中没有的数据而上次推送完成的全量索引中有的数据,标记为删除倒排索引增量数据(0:删除)。
具体的,所述处理模块201包括:
对比单元,用于对全量索引数据进行数据分离处理,通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比,得到对比结果;
第一标记单元,用于当对比结果为全量索引数据完全存在于当前全量索引数据中,而未存在于上一次推送完成的全景索引数据中,区分正排索引和倒排索引的变化,标记为正排索引增量数据和倒排索引增量数据;
第二标记单元,用于当对比结果为全量索引数据中有新增数据存在于当前全量索引数据中,而未存在于上一次推送完成的全称索引数据中,则标记为新增倒排索引增量数据;
第三标记单元,用于当对比结果为全量索引数据中有数据未存在于当前全量索引数据中,而存在于上一次推送完成的全称索引数据中,则标记为删除倒排索引增量数据。
第一更新模块302,用于将倒排索引增量数据在全量索引数据中置为删除状态,并将倒排索引增量数据加载至增量索引查询服务模块进行更新。
在本实施例中,需要说明的是,为了保持倒排索引的更新,将增量索引查询服务模块中的所有数据在全量索引中置为删除状态(即为doc_id_filter),为了保证数据的服务的一致性,在增量索引查询服务模块的增量索引全部加载完毕以后,才将增量索引查询服务模块的数据作为doc_id_filter的加载命令发送至全量索引。本发明实施例的核心是增加存储倒排索引增量数据的模块,该模块为增量索引查询服务模块,引入该增量索引查询服务模块进行数据的存储。
第二更新模块303,用于获取正排增量索引数据,对全量索引数据中的所述正排增量索引数据进行更新。
在本实施例中,需要说明的是,为解决索引数据中点击率等正排索引不能更新的问题,从步骤101中,获取数据标记为2(仅正排索引数据有变化)的数据的正排索引信息,对全量索引中正排索引有变化的数据,定期做独立更新,以保证全量索引的正排索引数据始终处于最新状态。需要说明的是,仅取有正排索引变化数据的用于更新全量索引中的正排索引数据,是因为有倒排索引变化的数据的都已进入了增量索引查询服务模块,增量索引查询服务模块中的数据的正排索引数据都是最新的状态。
优选的,如图4所示,本发明实施例公开了另一种增量索引更新系统,在图3的基础上,该系统还包括:
第三更新模块304,用于根据消息数据存储工具对实时索引数据进行更新,并在增量索引被所述增量索引查询服务模块成功加载完成后,将所述实时索引数据推送至全量索引。
需要说明的是,实时索引以消息数据存储工具Kafka进行消息更新,实时索引更新时间戳以增量索引查询服务模块的增量索引开始生成时间T1为准,并在增量索引被增量索引查询服务模块成功加载完成以后,推送至全量索引和实时索引。时间戳T1以后的数据都会被认为是实时数据从消息数据存储工具中获取,全量开始生产的时间T0到T1之间的有倒排索引变化的数据、新增的数据、删除的增量索引数据都会进入增量索引查询服务模块。
推送模块305,用于按照预设时间重建全量索引,并进行全量索引数据的推送。
需要说明的是,按照预设时间重建全量索引,并将全量索引数据推送至索引查询客户端,用于检索查询。
本发明实施例提供了一种增量索引更新系统,本系统实施例通过对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;将倒排索引增量数据在全量索引数据中置为删除状态,并将倒排索引增量数据加载至增量索引查询服务模块进行更新;获取正排增量索引数据,对全量索引中的正排增量索引数据进行更新。本系统实施例通过引入增量索引查询服务模块,将倒排索引增量数据和正排索引增量数据进行数据分离,将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引,将正排索引增量数据进行实时更新,以降低服务器的风险以及提高服务器的稳定性;另外,可以更快的对用户的搜索趋势或意图做出响应,以提高用户搜索体验。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种增量索引更新方法,其特征在于,包括:
对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;
将所述倒排索引增量数据在全量索引数据中置为删除状态,并将所述倒排索引增量数据加载至增量索引查询服务模块进行更新;
获取所述正排增量索引数据,对所述全量索引数据中的所述正排增量索引数据进行更新。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据消息数据存储工具对实时索引数据进行更新,并在增量索引被所述增量索引查询服务模块成功加载完成后,将所述实时索引数据推送至全量索引。
3.根据权利要求1所述的方法,其特征在于,所述对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据,包括:
对全量索引数据进行数据分离处理,通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比,得到对比结果;
当所述对比结果为所述全量索引数据完全存在于所述当前全量索引数据中,而未存在于上一次推送完成的全景索引数据中,区分正排索引和倒排索引的变化,标记为正排索引增量数据和倒排索引增量数据;
当所述对比结果为所述全量索引数据中有新增数据存在于所述当前全量索引数据中,而未存在于上一次推送完成的全称索引数据中,则标记为新增倒排索引增量数据;
当所述对比结果为所述全量索引数据中有数据未存在于所述当前全量索引数据中,而存在于上一次推送完成的全称索引数据中,则标记为删除倒排索引增量数据。
4.根据权利要求1所述的方法,其特征在于,还包括:
按照预设时间重建全量索引,并进行所述全量索引数据的推送。
5.一种增量索引更新系统,其特征在于,包括:
处理模块,用于对全量索引数据进行数据分离处理,确定倒排索引增量数据和正排索引增量数据;
第一更新模块,用于将所述倒排索引增量数据在全量索引数据中置为删除状态,并将所述倒排索引增量数据加载至增量索引查询服务模块进行更新;
第二更新模块,用于获取所述正排增量索引数据,对所述全量索引数据中的所述正排增量索引数据进行更新。
6.根据权利要求5所述的系统,其特征在于,还包括:
第三更新模块,用于根据消息数据存储工具对实时索引数据进行更新,并在增量索引被所述增量索引查询服务模块成功加载完成后,将所述实时索引数据推送至全量索引。
7.根据权利要求5所述的系统,其特征在于,所述处理模块包括:
对比单元,用于对全量索引数据进行数据分离处理,通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比,得到对比结果;
第一标记单元,用于当所述对比结果为所述全量索引数据完全存在于所述当前全量索引数据中,而未存在于上一次推送完成的全景索引数据中,区分正排索引和倒排索引的变化,标记为正排索引增量数据和倒排索引增量数据;
第二标记单元,用于当所述对比结果为所述全量索引数据中有新增数据存在于所述当前全量索引数据中,而未存在于上一次推送完成的全称索引数据中,则标记为新增倒排索引增量数据;
第三标记单元,用于当所述对比结果为所述全量索引数据中有数据未存在于所述当前全量索引数据中,而存在于上一次推送完成的全称索引数据中,则标记为删除倒排索引增量数据。
8.根据权利要求5所述的系统,其特征在于,还包括:
推送模块,用于按照预设时间重建全量索引,并进行所述全量索引数据的推送。
CN201810861174.5A 2018-08-01 2018-08-01 一种增量索引更新方法及系统 Active CN109101599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810861174.5A CN109101599B (zh) 2018-08-01 2018-08-01 一种增量索引更新方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810861174.5A CN109101599B (zh) 2018-08-01 2018-08-01 一种增量索引更新方法及系统

Publications (2)

Publication Number Publication Date
CN109101599A true CN109101599A (zh) 2018-12-28
CN109101599B CN109101599B (zh) 2021-02-23

Family

ID=64848079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810861174.5A Active CN109101599B (zh) 2018-08-01 2018-08-01 一种增量索引更新方法及系统

Country Status (1)

Country Link
CN (1) CN109101599B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866158A (zh) * 2019-11-14 2020-03-06 北京沃东天骏信息技术有限公司 信息更新方法、装置、系统、存储介质及电子设备
CN111400407A (zh) * 2020-04-10 2020-07-10 浙江大华技术股份有限公司 数据的同步方法及装置、存储介质及电子装置
CN111767284A (zh) * 2020-06-23 2020-10-13 Oppo(重庆)智能科技有限公司 数据处理方法、装置、存储介质和服务器
CN112838980A (zh) * 2020-12-30 2021-05-25 北京奇艺世纪科技有限公司 一种消息处理方法、系统、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8365160B2 (en) * 2006-06-26 2013-01-29 Research In Motion Limited Method and system for generating a reverse binary patch
CN103177117A (zh) * 2013-04-08 2013-06-26 北京奇虎科技有限公司 信息索引系统及信息索引的更新方法
CN103778219A (zh) * 2014-01-20 2014-05-07 西安交通大学 一种基于HBase的更新增量索引的方法
CN104077379A (zh) * 2014-06-25 2014-10-01 北京海泰方圆科技有限公司 一种索引更新的方法
CN105069078A (zh) * 2015-07-31 2015-11-18 天脉聚源(北京)传媒科技有限公司 一种处理增量索引合并失败的方法及装置
US20170046424A1 (en) * 2009-06-10 2017-02-16 At&T Intellectual Property I, L.P. Incremental maintenance of inverted indexes for approximate string matching
CN106598990A (zh) * 2015-10-16 2017-04-26 卓望数码技术(深圳)有限公司 一种搜索方法及系统
CN108334514A (zh) * 2017-01-20 2018-07-27 北京京东尚科信息技术有限公司 数据的索引方法以及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8365160B2 (en) * 2006-06-26 2013-01-29 Research In Motion Limited Method and system for generating a reverse binary patch
US20170046424A1 (en) * 2009-06-10 2017-02-16 At&T Intellectual Property I, L.P. Incremental maintenance of inverted indexes for approximate string matching
CN103177117A (zh) * 2013-04-08 2013-06-26 北京奇虎科技有限公司 信息索引系统及信息索引的更新方法
CN103778219A (zh) * 2014-01-20 2014-05-07 西安交通大学 一种基于HBase的更新增量索引的方法
CN104077379A (zh) * 2014-06-25 2014-10-01 北京海泰方圆科技有限公司 一种索引更新的方法
CN105069078A (zh) * 2015-07-31 2015-11-18 天脉聚源(北京)传媒科技有限公司 一种处理增量索引合并失败的方法及装置
CN106598990A (zh) * 2015-10-16 2017-04-26 卓望数码技术(深圳)有限公司 一种搜索方法及系统
CN108334514A (zh) * 2017-01-20 2018-07-27 北京京东尚科信息技术有限公司 数据的索引方法以及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C.SATHYA: "Effective Item Set Mining Using Incremental Update Strategy for IMine Index Structure", 《DATA MINING AND KNOWLEDGE ENGINEERING》 *
C6K7CH: "搜索引擎索引之索引更新策略", 《HTTPS://BLOG.CSDN.NET/C6K7CH/ARTICLE/DETAILS/79958782》 *
曾晔垠: "全文索引技术中索引归并算法的研究与分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨小龙: "面向脑科学领域的信息检索系统设计与实现", 《万方数据知识服务平台》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866158A (zh) * 2019-11-14 2020-03-06 北京沃东天骏信息技术有限公司 信息更新方法、装置、系统、存储介质及电子设备
CN111400407A (zh) * 2020-04-10 2020-07-10 浙江大华技术股份有限公司 数据的同步方法及装置、存储介质及电子装置
CN111400407B (zh) * 2020-04-10 2023-09-26 浙江大华技术股份有限公司 数据的同步方法及装置、存储介质及电子装置
CN111767284A (zh) * 2020-06-23 2020-10-13 Oppo(重庆)智能科技有限公司 数据处理方法、装置、存储介质和服务器
CN111767284B (zh) * 2020-06-23 2023-11-21 Oppo(重庆)智能科技有限公司 数据处理方法、装置、存储介质和服务器
CN112838980A (zh) * 2020-12-30 2021-05-25 北京奇艺世纪科技有限公司 一种消息处理方法、系统、装置、电子设备及存储介质
CN112838980B (zh) * 2020-12-30 2023-06-13 北京奇艺世纪科技有限公司 一种消息处理方法、系统、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109101599B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
US11314613B2 (en) Graphical user interface for visual correlation of virtual machine information and storage volume information
CN109101599A (zh) 一种增量索引更新方法及系统
CN102782643B (zh) 使用布隆过滤器的索引搜索
US9489412B2 (en) Managing replicated data
US6567810B1 (en) Efficient and effective distributed information management
CN101084499B (zh) 用于搜索和存储数据的系统和方法
CN101031907B (zh) 索引处理
CN103678494B (zh) 客户端同步服务端数据的方法及装置
CN109726174A (zh) 数据归档方法、系统、设备以及存储介质
US11188423B2 (en) Data processing apparatus and method
US10013424B2 (en) Efficient building of restore list
CN101727480A (zh) 用于复制数据库的方法和系统
CN103793493A (zh) 一种处理车载终端海量数据的方法和系统
CN103631922A (zh) 基于Hadoop集群的大规模Web信息提取方法及系统
CN106934048A (zh) 数据在线迁移方法、代理节点
CN104584524A (zh) 聚合中介系统中的数据
CN113420026B (zh) 数据库表结构变更方法、装置、设备及存储介质
CN102857949B (zh) 一种规划数据一致性保证的方法和装置
CN110580246A (zh) 迁徙数据的方法、装置、计算机设备及存储介质
JP5774513B2 (ja) ファイルリスト生成方法及びシステム並びにプログラム、ファイルリスト生成装置
CN104636401A (zh) 一种scada系统数据回滚的方法及装置
CN105787090A (zh) 一种电力数据的olap系统的索引建立方法和系统
CN110232057A (zh) 数据回滚方法、电子设备、存储介质
CN109684331A (zh) 一种基于Kudu的对象存储元数据管理装置及方法
WO2021207830A1 (en) Method and systems for indexing databases based on states and state transitions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant