CN109101599A

CN109101599A - 一种增量索引更新方法及系统

Info

Publication number: CN109101599A
Application number: CN201810861174.5A
Authority: CN
Inventors: 王洪朋; 高大陆; 梁召; 陈爱云
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-28
Anticipated expiration: 2038-08-01
Also published as: CN109101599B

Abstract

本发明公开了一种增量索引更新方法及系统，本发明通过对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据；将倒排索引增量数据在全量索引数据中置为删除状态，并将倒排索引增量数据加载至增量索引查询服务模块进行更新；获取正排增量索引数据，对全量索引数据中的正排增量索引数据进行更新。本发明通过引入增量索引查询服务模块，将倒排索引增量数据和正排索引增量数据进行数据分离，将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引，将正排索引增量数据进行实时更新，以降低服务器的风险以及提高服务器的稳定性；另外，可以更快的对用户的搜索趋势或意图做出响应，以提高用户搜索体验。

Description

一种增量索引更新方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种增量索引更新方法及系统。

背景技术

随着网络的进一步发展，搜索索引量以800％的速度爆发式的增长，每天索引数据的生成及推送成为数据处理的瓶颈，索引数据的快速更新与迭代的实现成为极大的挑战。

若对所有全球数据每天都进行计算、生成并推送，则需要消耗大量的计算资源、带宽资源、时间成本以及人力成本。经分析，目前5亿的全量数据中大部分的数据在过去7天内的变化并不大，因此没必要每天都将这些数据重新进行计算、生成并推送，只需每天计算、生成以及推送有变化的增量索引数据，定期重建全量索引，即可实现索引数据的快速更新及迭代。

目前普遍的方法是将增量索引数据与全量索引做在线合并，在数据合并期间，对服务器的性能要求较高，例如：服务器的磁盘、内存和处理器等，在资源紧张的条件下，服务器存在一定的风险性，且不利于服务器的稳定性。

发明内容

本发明的目的在于提出一种增量索引更新方法及系统，以降低服务器的风险以及提高服务器的稳定性。

为达到上述目的，本发明提供了以下技术方案：

一种增量索引更新方法，包括：

对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据；

将所述倒排索引增量数据在全量索引数据中置为删除状态，并将所述倒排索引增量数据加载至增量索引查询服务模块进行更新；

获取所述正排增量索引数据，对所述全量索引数据中的所述正排增量索引数据进行更新。

进一步的，还包括：

根据消息数据存储工具对实时索引数据进行更新，并在增量索引被所述增量索引查询服务模块成功加载完成后，将所述实时索引数据推送至全量索引。

进一步的，所述对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据，包括：

对全量索引数据进行数据分离处理，通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比，得到对比结果；

当所述对比结果为所述全量索引数据完全存在于所述当前全量索引数据中，而未存在于上一次推送完成的全景索引数据中，区分正排索引和倒排索引的变化，标记为正排索引增量数据和倒排索引增量数据；

当所述对比结果为所述全量索引数据中有新增数据存在于所述当前全量索引数据中，而未存在于上一次推送完成的全称索引数据中，则标记为新增倒排索引增量数据；

当所述对比结果为所述全量索引数据中有数据未存在于所述当前全量索引数据中，而存在于上一次推送完成的全称索引数据中，则标记为删除倒排索引增量数据。

进一步的，还包括：

按照预设时间重建全量索引，并进行所述全量索引数据的推送。

一种增量索引更新系统，包括：

处理模块，用于对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据；

第一更新模块，用于将所述倒排索引增量数据在全量索引数据中置为删除状态，并将所述倒排索引增量数据加载至增量索引查询服务模块进行更新；

第二更新模块，用于获取所述正排增量索引数据，对所述全量索引数据中的所述正排增量索引数据进行更新。

进一步的，还包括：

第三更新模块，用于根据消息数据存储工具对实时索引数据进行更新，并在增量索引被所述增量索引查询服务模块成功加载完成后，将所述实时索引数据推送至全量索引。

进一步的，所述处理模块包括：

对比单元，用于对全量索引数据进行数据分离处理，通过将当前全量索引数据与上一次推送完成的全量索引数据进行MD5对比，得到对比结果；

第一标记单元，用于当所述对比结果为所述全量索引数据完全存在于所述当前全量索引数据中，而未存在于上一次推送完成的全景索引数据中，区分正排索引和倒排索引的变化，标记为正排索引增量数据和倒排索引增量数据；

第二标记单元，用于当所述对比结果为所述全量索引数据中有新增数据存在于所述当前全量索引数据中，而未存在于上一次推送完成的全称索引数据中，则标记为新增倒排索引增量数据；

第三标记单元，用于当所述对比结果为所述全量索引数据中有数据未存在于所述当前全量索引数据中，而存在于上一次推送完成的全称索引数据中，则标记为删除倒排索引增量数据。

进一步的，还包括：

推送模块，用于按照预设时间重建全量索引，并进行所述全量索引数据的推送。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种增量索引更新方法及系统，本发明通过对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据；将倒排索引增量数据在全量索引数据中置为删除状态，并将倒排索引增量数据加载至增量索引查询服务模块进行更新；获取正排增量索引数据，对全量索引中的正排增量索引数据进行更新。本发明通过引入增量索引查询服务模块，将倒排索引增量数据和正排索引增量数据进行数据分离，将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引，将正排索引增量数据进行实时更新，以降低服务器的风险以及提高服务器的稳定性；另外，可以更快的对用户的搜索趋势或意图做出响应，以提高用户搜索体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种增量索引更新方法流程示意图；

图2为本发明实施例提供的另一种增量索引更新方法流程示意图；

图3为本发明实施例提供的一种增量索引更新系统结构示意图；

图4为本发明实施例提供的另一种增量索引更新系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅附图1，图1为本发明实施例提供的一种增量索引更新方法流程示意图。如图1所示，本发明实施例公开了一种增量索引更新方法，该方法具体包括如下步骤：

S101、对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据。

在本实施例中，需要说明的是，为实现索引数据的快速更新迭代，我们将正排索引和倒排索引等索引各模块的数据进行分离，具体的，通过将当天的全量索引数据与上一次推送完成的全量索引数据做MD5对比：①对于同一数据有不同时，区分正排索引和倒排索引的变化，用于生产正排索引增量数据和倒排索引增量数据，并对数据做标记(1：倒排索引变化或正排索引和倒排索引发生变化；2：仅正排索引变化；)；②对当天全量索引数据有的数据而上次推送完成的全量索引数据中没有的数据，标记为新增倒排索引增量数据(3：新增)；③对于当天全量索引数据中没有的数据而上次推送完成的全量索引中有的数据，标记为删除倒排索引增量数据(0：删除)。

具体的，所述对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据，包括：

当对比结果为全量索引数据完全存在于当前全量索引数据中，而未存在于上一次推送完成的全景索引数据中，区分正排索引和倒排索引的变化，标记为正排索引增量数据和倒排索引增量数据；

当对比结果为全量索引数据中有新增数据存在于当前全量索引数据中，而未存在于上一次推送完成的全称索引数据中，则标记为新增倒排索引增量数据；

当对比结果为全量索引数据中有数据未存在于当前全量索引数据中，而存在于上一次推送完成的全称索引数据中，则标记为删除倒排索引增量数据。

S102、将倒排索引增量数据在全量索引数据中置为删除状态，并将倒排索引增量数据加载至增量索引查询服务模块进行更新。

在本实施例中，需要说明的是，为了保持倒排索引的更新，将增量索引查询服务模块中的所有数据在全量索引中置为删除状态(即为doc_id_filter)，为了保证数据的服务的一致性，在增量索引查询服务模块的增量索引全部加载完毕以后，才将增量索引查询服务模块的数据作为doc_id_filter的加载命令发送至全量索引。本发明实施例的核心是增加存储倒排索引增量数据的模块，该模块为增量索引查询服务模块，引入该增量索引查询服务模块进行数据的存储。

S103、获取正排增量索引数据，对全量索引数据中的正排增量索引数据进行更新。

在本实施例中，需要说明的是，为解决索引数据中点击率等正排索引不能更新的问题，从步骤101中，获取数据标记为2(仅正排索引数据有变化)的数据的正排索引信息，对全量索引中正排索引有变化的数据，定期做独立更新，以保证全量索引的正排索引数据始终处于最新状态。需要说明的是，仅取有正排索引变化数据的用于更新全量索引中的正排索引数据，是因为有倒排索引变化的数据的都已进入了增量索引查询服务模块，增量索引查询服务模块中的数据的正排索引数据都是最新的状态。

优选的，如图2所示，本发明实施例公开了另一种增量索引更新方法，在图1的基础上，该方法还包括：

S104、根据消息数据存储工具对实时索引数据进行更新，并在增量索引被增量索引查询服务模块成功加载完成后，将实时索引数据推送至全量索引。

需要说明的是，实时索引以消息数据存储工具Kafka进行消息更新，实时索引更新时间戳以增量索引查询服务模块的增量索引开始生成时间T1为准，并在增量索引被增量索引查询服务模块成功加载完成以后，推送至全量索引和实时索引。时间戳T1以后的数据都会被认为是实时数据从消息数据存储工具中获取，全量开始生产的时间T0到T1之间的有倒排索引变化的数据、新增的数据、删除的增量索引数据都会进入增量索引查询服务模块。

S105、按照预设时间重建全量索引，并进行全量索引数据的推送。

需要说明的是，按照预设时间重建全量索引，并将全量索引数据推送至索引查询客户端，用于检索查询。

本发明实施例提供了一种增量索引更新方法，本方法实施例通过对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据；将倒排索引增量数据在全量索引数据中置为删除状态，并将倒排索引增量数据加载至增量索引查询服务模块进行更新；获取正排增量索引数据，对全量索引数据中的正排增量索引数据进行更新。本方法实施例通过引入增量索引查询服务模块，将倒排索引增量数据和正排索引增量数据进行数据分离，将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引，将正排索引增量数据进行实时更新，以降低服务器的风险以及提高服务器的稳定性；另外，可以更快的对用户的搜索趋势或意图做出响应，以提高用户搜索体验。

本发明在上述公开的方法的基础上，还公开了对应的系统。

下面对本发明实施例提供的一种增量索引更新系统进行介绍，需要说明的是，有关该增量索引更新系统的说明可参照上文提供的增量索引更新方法，以下并不做赘述。

请参阅附图3，图3为本发明实施例提供的一种增量索引更新系统结构示意图。如图3所示，本发明实施例公开了一种增量索引更新系统，该系统具体包括如下：

处理模块301，用于对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据。

具体的，所述处理模块201包括：

第一标记单元，用于当对比结果为全量索引数据完全存在于当前全量索引数据中，而未存在于上一次推送完成的全景索引数据中，区分正排索引和倒排索引的变化，标记为正排索引增量数据和倒排索引增量数据；

第二标记单元，用于当对比结果为全量索引数据中有新增数据存在于当前全量索引数据中，而未存在于上一次推送完成的全称索引数据中，则标记为新增倒排索引增量数据；

第三标记单元，用于当对比结果为全量索引数据中有数据未存在于当前全量索引数据中，而存在于上一次推送完成的全称索引数据中，则标记为删除倒排索引增量数据。

第一更新模块302，用于将倒排索引增量数据在全量索引数据中置为删除状态，并将倒排索引增量数据加载至增量索引查询服务模块进行更新。

第二更新模块303，用于获取正排增量索引数据，对全量索引数据中的所述正排增量索引数据进行更新。

优选的，如图4所示，本发明实施例公开了另一种增量索引更新系统，在图3的基础上，该系统还包括：

第三更新模块304，用于根据消息数据存储工具对实时索引数据进行更新，并在增量索引被所述增量索引查询服务模块成功加载完成后，将所述实时索引数据推送至全量索引。

推送模块305，用于按照预设时间重建全量索引，并进行全量索引数据的推送。

本发明实施例提供了一种增量索引更新系统，本系统实施例通过对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据；将倒排索引增量数据在全量索引数据中置为删除状态，并将倒排索引增量数据加载至增量索引查询服务模块进行更新；获取正排增量索引数据，对全量索引中的正排增量索引数据进行更新。本系统实施例通过引入增量索引查询服务模块，将倒排索引增量数据和正排索引增量数据进行数据分离，将倒排索引增量数据存储至增量索引查询服务模块进行更新和索引，将正排索引增量数据进行实时更新，以降低服务器的风险以及提高服务器的稳定性；另外，可以更快的对用户的搜索趋势或意图做出响应，以提高用户搜索体验。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种增量索引更新方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述对全量索引数据进行数据分离处理，确定倒排索引增量数据和正排索引增量数据，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.一种增量索引更新系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，还包括：

7.根据权利要求5所述的系统，其特征在于，所述处理模块包括：

8.根据权利要求5所述的系统，其特征在于，还包括：