CN114003585A

CN114003585A - 一种数据处理的方法、装置和存储介质

Info

Publication number: CN114003585A
Application number: CN202111299739.3A
Authority: CN
Inventors: 齐家辉
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beijing Fangjianghu Technology Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-01

Abstract

本申请公开了数据处理的方法、装置和存储介质。基于本申请，通过实时获取待处理任务，将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长，进一步地，响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群，实现待迁移版本和待升级版本对应的服务器集群的数据迁移，提升了数据迁移效率。

Description

一种数据处理的方法、装置和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理的方法、装置和存储介质。

背景技术

分布式全文搜索引擎Elasticsearch(以下简称ES)在版本升级后可以带来更好的读写性能。一般地，ES版本的升级为迭代升级，小版本直接升级或当前大版本最后一个小版本升级至下一个大版本。这就使得原集群与待升级版本之间版本数量较多时，迭代次数较多，效率较低。如原集群的当前版本为5.5，需要升级到7.7时，版本兼容升级至少需要3次迭代：5.5->5.6->6.8->7.7。

另外，在对ES进行数据迁移升级时，由于各个版本之间会存在数据结构的差异，因此是无法复制ES本地目录到其他版本集群的，而且备份快照在其他版本恢复也是不支持的，因此数据迁移是指数据读取后重新写入的操作。ES内部提供了reindex接口，可以将数据跨集群传输，实现版本升级。但需要升级的ES集群主要用于日志场景，写入量大，TPS达到350W，且需要保证实时性和稳定性，而ES提供的工具reindex，效率太慢写入效率较低，TPS不到1W，无法跟上写入速率，因此难以支持大数据量的索引迁移。

发明内容

本申请的各实施例提供了一种数据处理的方法、装置和存储介质，有助于提升ES数据迁移的效率。

在一个实施例中，一种数据处理的方法包括：

实时获取待处理任务；

将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长；

响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群。

可选地，将获取到的待处理任务写入Flink数据流处理框架，并基于Flink数据流处理框架将待处理任务对应的请求批量写入异步HTTP连接池，在异步响应成功时，复用异步HTTP连接池中的请求同时写入第一服务器集群和第二服务器集群。

可选地，在执行将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群的步骤时，为同步至第一服务器集群的待处理任务建立索引信息，以及，响应于数据同步时长达到第一服务器集群的数据存储时长：

将第一服务器集群中的索引信息迁移至第二服务器集群，并下线第一服务器集群。

可选地，将第一服务器集群和第二服务器集群的查询调用接口封装为查询包，并在数据同步期间，将用户的查询请求路由至查询包中的第一服务器集群的查询调用接口，以及，在第一服务器集群下线后，将用户的查询请求路由至查询包中的第二服务器集群的查询调用接口。

在另一个实施例中，提供了一种数据处理的装置，该装置包括：

实时获取模块，用于实时获取待处理任务；

双写同步模块，用于将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长；

同步模块，用于响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群。

可选地，双写同步模块还用于：

将获取到的待处理任务写入Flink数据流处理框架，并基于Flink数据流处理框架将待处理任务对应的请求批量写入异步HTTP连接池，在异步响应成功时，复用异步HTTP连接池中的请求同时写入第一服务器集群和第二服务器集群。

可选地，双写同步模块还用于：

为同步至第一服务器集群的待处理任务建立索引信息，以及，响应于数据同步时长达到第一服务器集群的数据存储时长：

可选地，该装置还包括查询模块：

将第一服务器集群和第二服务器集群的查询调用接口封装为查询包，并在数据同步期间，将用户的查询请求路由至查询包中的第一服务器集群的查询调用接口，以及，在第一服务器集群下线后，将用户的查询请求路由至查询包中的第二服务器集群的查询调用接口。

在本申请的另一个实施例中，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时引发所述处理器执行前述实施例中的数据处理的方法。

在另一个实施例中，提供了一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现前述实施例中的任一项所述的数据处理的方法。

在另一个实施例中，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时前述实施例中任一项所述的数据处理的方法。

基于上述实施例，通过实时获取待处理任务，将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长，进一步地，响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群，实现待迁移版本和待升级版本对应的服务器集群的数据迁移，提升了数据迁移效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请的一个实施例中的数据处理的方法的数据流转示意图；

图2为本申请的一个实施例中的第一服务器集群和第二服务器集群执行数据处理的步骤的示意图；

图3为本申请的一个实施例中的数据处理的方法的流程示意图；

图4为本申请的另一个实施例中的一种数据处理的装置的示意图；

图5为本申请的另一个实施例所提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

本申请实施例可以为ES集群进行版本之间的数据迁移。当ES集群主要用于日志收集和检索分析时，数据写入量大且存储的有效时间较短，会有到期删除操作。本申请实施例采取双写的方式，同时写入到待迁移版本和待升级版本两个版本的ES集群中，双写过程持续至待迁移版本的ES集群中存量数据过期删除后，两个ES集群间的数据完全同步，即可通过平滑切换流量实现版本升级。

如图1所示，为本申请的一个实施例中的数据处理的方法的数据流转示意图。其中，若要将待迁移版本的第一服务器集群中的数据迁移至待升级版本的第二服务器集群中，则将实时获取的待处理任务双写同步至第一服务器集群和第二服务器集群中。可选地，第一服务器集群和第二服务器集群均为ES集群。ES集群存在预设的数据存储时长，当ES集群中存储的待处理任务的存储时长超过数据存储时长时，即将该待处理任务在该ES集群中删除。因此在开始同步写入待处理任务时，第一服务器集群中之前获取的数据如待处理任务X不再被同步。在该数据迁移过程中仅关注增量数据即在向两个不同版本的服务器集群同时接收的待处理任务。

在确定本次数据迁移的起始时间并开始数据迁移的流程后，起始时间到达时第一服务器集群和第二服务器集群同时接收实时获取的待处理任务，例第一服务器集群和第二服务器集群基于接收时间同时将接收到的待处理任务1、待处理任务2和待处理任务3依次写入各自集群。以及，在起始时间到达的同时为数据同步时长计时并进行统计，其中，数据同步时长为本次数据迁移的过程时间长度。

第一服务器集群和第二服务器集群实时写入待处理任务的同时，判断数据同步时长是否超过第一服务器集群的数据存储时长。以及，响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群。此时，第一服务器集群中的数据与第二服务器集群的数据已实现迁移，两个版本的服务器集群中包含相同的数据(待处理任务1-待处理任务N)。第一服务器集群下线，不再参与数据处理，实时获取的待处理任务N+1写入第二服务器集群。与第一服务器集群类似地，第二服务器集群也存在预设的数据存储时长，当第二服务器集群中存储的待处理任务的存储时长超过数据存储时长时，即将该待处理任务在该服务器集群中删除，如本申请实施例在第二服务器集群中删除待处理任务1。

如图2所示，为第一服务器集群和第二服务器集群执行数据处理的步骤的示意图，其中，执行以下数据处理的步骤：

S101，实时获取待处理任务。

S102，将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长。

S103，响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群。

基于前述实施例的数据处理的方法，通过实时获取待处理任务，将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长，进一步地，响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群，实现待迁移版本和待升级版本对应的服务器集群的数据迁移，提升了数据迁移效率。

因服务器集群的写入量较大，若使用logstash、springboot等组件无法满足其实时性，且可能造成资源浪费。为执行如图1和图2中的数据处理方法，本申请实施例使用Flink数据流处理框架进行不同版本服务器集群的数据同步写入，构建第一服务器集群和第二服务器集群的双写架构。其中，对Flink数据流处理框架进行拓展，复用Flink数据流处理框架中的ETL流程，修改其中的落库sink阶段，将处理后的待处理任务同时写入两个不同版本的服务器集群。

将获取到的待处理任务写入Flink数据流处理框架，并基于Flink数据流处理框架将待处理任务对应的请求批量写入异步HTTP连接池，在异步响应成功时，复用异步HTTP连接池中的请求同时写入第一服务器集群和第二服务器集群。其中，通过异步HTTP连接池和bulk请求批量写入的rest请求实现双写，封装为双写包，并上线作为Flink数据流处理框架的依赖进行写入。

图3为本申请的一个实施例中的数据处理的方法的流程示意图。如图3所示，该分流方法的具体流程可以包括如下步骤：

S301，实时获取待处理任务。

S302，将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长。

本步骤中，预先设定集群间数据同步即本次数据迁移的起始时间，并在起始时间到达时基于前述的Flink数据流处理框架，将实时获取的待处理任务分别同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，实现数据的双写。以及，以起始时间开始统计数据同步时长。

S303，为同步至第一服务器集群的待处理任务建立索引信息。

本步骤中，在执行将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群的步骤时，为同步至第一服务器集群的待处理任务建立索引信息。

在数据同步期间，基于接收到的待处理任务，为同步至第一服务器集群的待处理任务建立索引信息。其中，索引信息(index)作为ES集群的一个逻辑存储，可以理解为关系型数据库中的数据库。ES集群可以把索引信息存放在服务器集群中的一台服务器上，也可以存到多台服务器上。每个索引信息对应一个或多个分片，每个分片可以有多个副本。另外，在ES集群中，一个索引信息可以存储多个不同用途的对象，通过对应的索引类型(index_type)可以区分单个索引中的不同对象。

S304，在数据同步期间，将用户的查询请求路由至查询包中的第一服务器集群的查询调用接口。

本步骤中，将第一服务器集群和第二服务器集群的查询调用接口封装为查询包，并在数据同步期间，将用户的查询请求路由至查询包中的第一服务器集群的查询调用接口。其中，将待迁移版本的第一服务器集群和待升级版本的第二服务器集群的查询调用接口封装为一个多版本兼容的ES集群的查询依赖包，作为ES集群查询层的依赖，同时通过配套设施在感知任务迁移后的版本替换，以实现任务迁移后用户侧的无感知切换。在获取到用户的查询请求时，通过查询依赖包，将用户的查询请求路由至第一服务器集群的查询调用接口，以通过该接口返回查询结果。

S305，响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群。

本步骤中，在数据同步期间，实时判断数据同步时长是否达到数据存储时长。以及，当达到数据存储时长时，不再将实时获取的待处理任务同步至第一服务器集群，仅同步至第二服务器集群。

S306，响应于数据同步时长达到第一服务器集群的数据存储时长，将第一服务器集群中的索引信息迁移至第二服务器集群，并下线第一服务器集群。

这里，响应于数据同步时长达到第一服务器集群的数据存储时长，将第一服务器集群中的索引信息迁移至第二服务器集群，并下线第一服务器集群。

S307，在第一服务器集群下线后，将用户的查询请求路由至查询包中的第二服务器集群的查询调用接口。

另外，对以上数据处理的步骤建立自动化流程，提供可视化操作页面和监控，以此提升效率，降低操作成本。

基于上述实施例，本申请实施例中的一种数据处理的方法，通过双写机制和查询及配套设施的多版本兼容，实现了用户的无感知平滑升级。实验显示ES集群升级后，集群稳定性提升，故障次数降为0，集群负载能力提升50％，写入每秒查询率增加30％，相同数据量占用磁盘空间节省20％，同时提升了了升级速率。

基于与前述数据处理的方法的同一发明构思，本申请实施例还提供一种数据处理的装置。图4为本申请的另一个实施例中的一种数据处理的装置的示意图。其中，该装置可以包括：

实时获取模块41，用于实时获取待处理任务；

双写同步模块42，用于将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群，并统计数据同步时长；

同步模块43，用于响应于数据同步时长达到第一服务器集群的数据存储时长，将获取到的待处理任务仅同步至第二服务器集群。

本实施例中，实时获取模块41、双写同步模块42和同步模块43的具体功能和交互方式，可参见图1和图2对应的实施例的记载，在此不再赘述。

可选地，双写同步模块42还用于：

可选地，该装置还包括查询模块44：

图5为本申请的另一个实施例所提供的一种电子设备的示意图。如图5所示，本申请的又一实施例还提供一种电子设备，其可以包括处理器501，其中，处理器501用于执行上述一种数据处理的方法的步骤。从图5中还可以看出，上述实施例提供的电子设备还包括非瞬时计算机可读存储介质502，该非瞬时计算机可读存储介质502上存储有计算机程序，该计算机程序被处理器501运行时执行上述一种数据处理的方法的步骤。

具体地，该非瞬时计算机可读存储介质502能够为通用的存储介质，如移动磁盘、硬盘、FLASH、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、或便携式紧凑磁盘只读存储器(CD-ROM)等，该非瞬时计算机可读存储介质502上的计算机程序被处理器501运行时，能够引发处理器501执行上述的一种对数据处理的方法中的各个步骤。

实际应用中，所述的非瞬时计算机可读存储介质502可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，能够执行上述的一种对数据处理的方法中的各个步骤。

本发明实施例还提供一种计算机可读介质，计算机可读存储介质存储指令，指令在由处理器执行时可执行如上的数据处理的方法中的步骤。实际应用中的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，可以实现上述各实施例描述的数据处理的方法。在本发明公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而且，本发明实施例还提供一种包括计算机指令的计算机程序产品。计算机指令被处理器执行时，实施上述实施例中描述的数据处理的方法。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些变更、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理的方法，其特征在于，包括：

实时获取待处理任务；

2.根据权利要求1所述的方法，其特征在于，将获取到的待处理任务分别同步至至少一个待迁移版本的第一服务器集群和待升级版本的第二服务器集群的步骤包括：

3.根据权利要求1所述的方法，其特征在于，在执行将获取到的待处理任务同步至待迁移版本的第一服务器集群和待升级版本的第二服务器集群的步骤时，为同步至第一服务器集群的待处理任务建立索引信息，以及，响应于数据同步时长达到第一服务器集群的数据存储时长：

4.根据权利要求3所述的方法，其特征在于，该方法进一步包括：

5.一种数据处理的装置，其特征在于，包括：

实时获取模块，用于实时获取待处理任务；

6.根据权利要求5所述的装置，其特征在于，双写同步模块还用于：

7.根据权利要求5所述的装置，其特征在于，双写同步模块还用于：

8.根据权利要求7所述的装置，其特征在于，该装置还包括查询模块：

9.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如权利要求1至4任一项所述的数据处理的方法。

10.一种电子设备，其特征在于，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如权利要求1至4中任一项所述的数据处理的方法。

11.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令在被处理器执行时实施权利要求1-4任一项所述的数据处理的方法。