CN107370773A

CN107370773A - 高可用可伸缩的分布式数据归档的方法和系统

Info

Publication number: CN107370773A
Application number: CN201610308963.7A
Authority: CN
Inventors: 周立伟; 崔岩
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2017-11-21

Abstract

本发明提供一种高可用可伸缩的分布式数据归档的方法和系统，能够实现归档算法配置化、调度任务模板化，灵活配置数据采集算法；并且还可实现调度服务器的动态扩展，实现性能稳定。该方法包括：配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器的本地缓存；将归档任务注册到Spring中生成模板化调度任务；调度中心加载调度任务，并将调度任务分配至若干调度服务器；调度服务器根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

Description

高可用可伸缩的分布式数据归档的方法和系统

技术领域

本发明涉及计算机技术和软件领域，尤其涉及一种高可用可伸缩的分布式数据归档的方法和系统。

背景技术

随着科技的发展，现代社会已经步入大数据时代，特别是互联网行业，伴随业务的发展、用户的增多，业务系统平台的数据量越来越大，最终造成数据库压力增大、系统响应性差、用户体验下降。

通过对系统的用户操作分析、数据分析等，可以发现存在大量的非活动数据或者非热点数据，这些数据在一些系统的占有率甚至达到了80％-90％，严重影响系统的性能和稳定性，因此就需要有效的数据归档方法，对数据进行及时的归档处理。

现有技术的归档方法一般为针对不同归档任务进行定制开发，通过调度任务实现数据的归档。具体过程大致如下：确定来源库、目标库数据源相关参数，初始化数据库连接池；针对不同的表结构定制开发一套归档逻辑，通过单点调度完成来源库数据采集、目标库数据持久化，来源库数据清除。

而面对大规模的数据归档需求，现有的归档方法在应用的过程中存在如下不足：

数据采集算法不灵活，如果采集需求发生变化，需要进行代码修改；

调度任务缺少模板化，过于死板，针对不同的调度任务需要进行定制化开发，不同的表结构对应一个调度任务，开发成本大，代码量繁重，不利于维护；

调度服务器扩展性差，需要在代码层面进行修改实现任务分流，重新部署。

发明内容

有鉴于此，本发明提供一种高可用可伸缩的分布式数据归档的方法和系统，能够实现归档算法配置化、调度任务模板化，灵活配置数据采集算法；并且还可实现调度服务器的动态扩展，实现性能稳定。

为实现上述目的，根据本发明的一个方面，提供了一种高可用可伸缩的分布式数据归档的方法。

本发明的高可用可伸缩的分布式数据归档的方法包括：配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器中的本地缓存；将归档任务注册到Spring中生成模板化调度任务；调度中心加载调度任务，并将调度任务分配至若干调度服务器；调度服务器根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

可选地，配置归档任务信息还包括：以配置表的方式配置归档任务信息。

可选地，其中，所述配置表中的归档任务信息包括表名称、采集条件、关联字段。

可选地，所述调度服务器包括心跳线程，在任务执行过程中监听调度服务器的上下线，以便于调度中心根据调度服务器的数量分配调度任务。

可选地，所述调度中心通过基于ZooKeeper的TBSchedule分布式调度框架得以实现，其中所述调度中心根据配置的执行时间、执行频率进行调度。

可选地，所述调度服务器进行数据归档处理的过程中，通过SQLCriterion进行SQL装配、数据类型转换、字段映射。

为实现上述目的，根据本发明的另一方面，提供了一种高可用可伸缩的分布式数据归档的系统。

本发明的高可用可伸缩的分布式数据归档的系统包括：配置模块，用于配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器中的本地缓存；任务模板模块，用于将归档任务注册到Spring中生成模板化调度任务；调度中心，用于加载调度任务，并将调度任务分配至若干调度服务器；调度服务器，用于根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

可选地，配置模块还用于：以配置表的方式配置归档任务信息。

根据本发明的技术方案，通过以配置表的方式配置归档任务信息，从而可以实现归档任务的灵活配置；通过对配置表进行集中缓存和在调度服务器的本地缓存，从而可以降低数据库压力；通过将归档任务注册到Spring框架中，从而可以实现调度任务模板化，减少代码编写，便于维护任务信息；通过引入基于ZooKeeper的TBSchedule框架作为调度中心，从而在保障并发处理归档任务，提高归档效率的同时，便于实现调度服务器的动态扩展；通过在TBSchedule分布式调度框架中架构若干zookeeper，从而可以避免调度中心单点调度的问题。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种高可用可伸缩的分布式数据归档的方法的主要步骤的示意图；

图2是根据本发明实施例的一种高可用可伸缩的分布式数据归档的方法的技术框架的示意图；

图3是根据本发明实施例的一种高可用可伸缩的分布式数据归档的方法的操作流程示意图；

图4是根据本发明实施例的一种高可用可伸缩的分布式数据归档的方法中配置信息缓存策略的示意图；

图5是根据本发明实施例的一种高可用可伸缩的分布式数据归档的系统的主要部分的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的一种高可用可伸缩的分布式数据归档的方法的主要步骤的示意图。

如图1所示，本发明实施例的一种高可用可伸缩的分布式数据归档的方法的主要步骤包括：

步骤S11：配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器中的本地缓存；

步骤S12：将归档任务注册到Spring中生成模板化调度任务；

步骤S13：调度中心加载调度任务，并将调度任务分配至若干调度服务器；

步骤S14：调度服务器根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

本发明实施例中，实现数据归档的技术框架可如图2所示。具体操作流程可如图3所示。下面结合图例对本发明实施例的分布式数据归档的方法进行详细描述。

在现有技术中，数据采集算法不灵活，如果采集需求变化了，需要进行代码修改。本发明实施例中，步骤S11可实现归档任务信息的配置化。具体可以采用配置表的方式配置归档任务信息。其中，配置表中维护任务属性，如表名称、采集条件、关联字段等。通过一张任务配置表(表结构如下图)维护动态任务配置信息。

数据表名称	功能说明
		code	任务代码
table_name	表名称
		parent_code	父任务代码
arg_column	关联字段
		sql_condition	采集条件
level	任务层级
		is_active	任务状态

由于配置表会被频繁扫描以对新增的归档任务进行初始化，会对数据库造成较大压力，所以本发明实施例中采用调用服务器本地缓存local cache加集中缓存centralized cache的多级缓存方式。即将配置数据全量同步到centralized cache(集中缓存，独立于应用服务器，这里可以是使用Redis、MemCache等作为集中缓存服务，本实施例中以Redis举例说明)，同时将数据同步到每个调用服务器的local cache。本发明实施例中，可以采用Apache MINA框架实现TCP长连接的接入，用Tomcat Comet机制实现HTTP长轮询，当有新增的归档任务或变化的归档任务时，都可以快速增量维护到Redis。在读取配置数据时先读取local cache，如果没有再读取Redis，这样既保证了配置归档任务的灵活性和配置数据的稳定性，避免服务重新部署，又缓解了数据库的压力。配置数据缓存策略如图4所示。

在步骤S11完成对归档任务信息的配置和缓存后，将归档任务注册到Spring中。任务模板处理器DynamicRegisterProcessor，读取配置中心配置的任务信息，利用Spring(Spring是一个开源框架，Spring是于2003年兴起的一个轻量级的Java开发框架，由Rod Johnson在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构，分层架构允许使用者选择使用哪一个组件，同时为J2EE应用程序开发提供集成的框架)动态注册技术将归档任务注册到IOC容器生产模板化调度任务，等待被调度中心加载。

接下来，实现分布式任务调度。本发明实施例中，分布式调度任务的调度中心可以是通过TBSchedule分布式调度框架实现，根据配置的执行时间、执行频率进行调度。

本发明实施例中，执行分布式调度任务的调度中心是利用了基于ZooKeeper的多任务分布式调度框架TBSchedule。但本发明实施例的分布式调度框架并不限于开源框架TBSchedule，还可以利用如elastic-job的开源框架等，只要能实现动态可扩展的分布式任务调度即可。本发明实施例以TBSchedule为例进行分布式调度的介绍。TBSchedule启动后通过TBScheduleManageFactory初始化Zookeeper。调度任务要求实现Schedule的接口IScheduleTaskDealMult或者IScheduleTaskDealSingle，此接口定义了两个方法selectTasks和execute，进行任务采集和处理。InitMyScheduleTask为所有调度任务的抽象类，用于向调度中心注册调度策略。

TBSchedule启动后，首先向调度工厂MyTBScheduleManagerFactory中装配Zookeeper配置，然后配置任务策略，执行时间范围、执行周期、数据分片Sharding规则(数据分片，即将一批数据按照特定规则，例如按照ID按10取模或按照月份等分成多个组，每个组成为一个分片。在分布式架构中，将分片分配到不同的服务器上并行处理)等。

调动中心启动后，通过调度工厂MyTBScheduleManagerFactory加载调度任务，将调度任务加入调度池，通过调度服务器ScheduleServer(本发明实施例中，进行任务执行的调度服务器是若干JVM实例)进行任务采集和任务处理。调度服务器有一个心跳线程，在任务执行过程中监听调度服务器的上下线，并向Zookeeper更新调度服务器的上下线状态。调度工厂监听当前在线调度服务器的数量重新计算任务的分配，实现调度服务器的动态扩展，同时避免集中调度任务调度中心的单点问题。

调度服务器ScheduleServer为由一组工作线程(1…n个线程Thread)组成任务处理单元，维护一个队列，其中一个线程thread根据分配到的任务项到来源库采集数据(利用selectTasks方法)push到队列，所有thread到队列中pop任务并发执行任务(利用execute方法)。利用execute方法实现数据迁移逻辑，将数据保存到目标库，清除来源库，实现数据归档。

前述Sharding规则在分布式过程中的体现如下：可以通过ID％10的余数把归档任务分成10片，即taskItems为(0,1,2,3,4,5,6,7,8,9)。根据当前调度服务器的在线数量进行平均分配，每台服务器根据分配到taskItem进行数据采集。

假设目前3台调度服务器在线(可设为A，B，C)依次启动，实现动态扩容。

Sharding逻辑如下为：

A启动：

A分配到任务项0,1,2,3,4,5,6,7,8,9

B启动：

A分配到任务项0,2,4,6,8

B分配到任务项1,3,5,7,9

C启动：

A分配到任务项0,3,6,9

B分配到任务项1,4,7

C分配到任务项2,5,8

此外，本发明实施例中，分布式任务执行的过程中，需要数据访问中心的连接。数据访问层负责连接调度中心和数据库。调度任务在执行的过程中从配置中心读取配置信息，通过SQL动态装配工具SQLCriterion进行SQL装配、数据类型转换、字段映射，完成数据采集、存储、删除。

根据本发明实施例的高可用可伸缩的分布式数据归档的方法可以看出，通过以配置表的方式配置归档任务信息，从而可以实现归档任务的灵活配置；通过对配置表进行集中缓存和在调度服务器的本地缓存，从而可以降低数据库压力；通过将归档任务注册到Spring框架中，从而可以实现调度任务模板化，减少代码编写，便于维护任务信息；通过引入基于ZooKeeper的TBSchedule框架作为调度中心，从而在保障并发处理归档任务，提高归档效率的同时，便于实现调度服务器的动态扩展；通过在TBSchedule分布式调度框架中架构若干zookeeper，从而可以避免调度中心单点调度的问题。

如图5所示，本发明实施例的高可用可伸缩的分布式数据归档的系统50的主要部分如下：配置模块501，用于配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器中的本地缓存；任务模板模块502，用于将归档任务注册到Spring中生成模板化调度任务；调度中心503，用于加载调度任务，并将调度任务分配至若干调度服务器；调度服务器504，用于根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

其中，配置模块501还可用于：以配置表的方式配置归档任务信息。

其中，配置表中的归档任务信息可以包括表名称、采集条件、关联字段等信息。

此外，调度服务器504还可包括心跳线程，在任务执行过程中监听调度服务器的上下线，以便于调度中心根据调度服务器的数量分配调度任务。

调度中心503可以是通过基于ZooKeeper的TBSchedule分布式调度框架得以实现，其中所述调度中心根据配置的执行时间、执行频率进行调度。

另外，在调度任务执行的过程中，数据访问层(图中未示出)负责连接调度中心503和数据库。调度任务在执行的过程中，可以从配置模块501读取配置信息，通过SQLCriterion进行SQL装配、数据类型转换、字段映射，完成数据采集、存储、删除。

从以上描述可以看出，通过以配置表的方式配置归档任务信息，从而可以实现归档任务的灵活配置；通过对配置表进行集中缓存和在调度服务器的本地缓存，从而可以降低数据库压力；通过将归档任务注册到Spring框架中，从而可以实现调度任务模板化，减少代码编写，便于维护任务信息；通过引入基于ZooKeeper的TBSchedule框架作为调度中心，从而在保障并发处理归档任务，提高归档效率的同时，便于实现调度服务器的动态扩展；通过在TBSchedule分布式调度框架中架构若干zookeeper，从而可以避免调度中心单点调度的问题。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种高可用可伸缩的分布式数据归档的方法，其特征在于，包括：

配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器的本地缓存；

将归档任务注册到Spring中生成模板化调度任务；

调度中心加载调度任务，并将调度任务分配至若干调度服务器；

调度服务器根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

2.根据权利要求1所述的方法，其特征在于，配置归档任务信息还包括：以配置表的方式配置归档任务信息。

3.根据权利要求2所述的方法，其特征在于，其中，所述配置表中的归档任务信息包括表名称、采集条件、关联字段。

4.根据权利要求1所述的方法，其特征在于，所述调度服务器包括心跳线程，在任务执行过程中监听调度服务器的上下线，以便于调度中心根据调度服务器的数量分配调度任务。

5.根据权利要求1所述的方法，其特征在于，所述调度中心通过基于ZooKeeper的TBSchedule分布式调度框架得以实现，其中所述调度中心根据配置的执行时间、执行频率进行调度。

6.一种高可用可伸缩的分布式数据归档的系统，其特征在于，包括：

配置模块，用于配置并缓存归档任务信息，所述缓存归档任务信息包括将归档任务信息进行集中缓存和在调度服务器的本地缓存；

任务模板模块，用于将归档任务注册到Spring中生成模板化调度任务；

调度中心，用于加载调度任务，并将调度任务分配至若干调度服务器；

调度服务器，用于根据分配的调度任务获取相应的归档任务信息，以进行数据归档处理。

7.根据权利要求6所述的系统，其特征在于，配置模块还用于：以配置表的方式配置归档任务信息。

8.根据权利要求7所述的系统，其中，所述配置表中的归档任务信息包括表名称、采集条件、关联字段。

9.根据权利要求6所述的系统，其特征在于，所述调度服务器包括心跳线程，在任务执行过程中监听调度服务器的上下线，以便于调度中心根据调度服务器的数量分配调度任务。

10.根据权利要求6所述的系统，其特征在于，所述调度中心通过基于ZooKeeper的TBSchedule分布式调度框架得以实现，其中所述调度中心根据配置的执行时间、执行频率进行调度。