CN112052095A

CN112052095A - 一种分布式高可用的大数据挖掘任务调度系统

Info

Publication number: CN112052095A
Application number: CN202010953828.4A
Authority: CN
Inventors: 代先勇; 谢宗明; 胡勇; 王炜; 邓金祥; 熊民; 刘洋; 谷峰; 周川
Original assignee: Chengdu Shensi Science & Technology Co ltd
Current assignee: Chengdu Shensi Science & Technology Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-08
Anticipated expiration: 2040-09-11
Also published as: CN112052095B

Abstract

本发明公开了一种分布式高可用的大数据挖掘任务调度系统，包括数据挖掘调度模块、资源服务器集群、业务服务器集群、Zookeeper集群与用户操作端；所述资源监视模块与资源服务器集群相连；任务队列模块与业务服务器集群相连；业务服务器集群通过Zookeeper集群与数据分析模块相连。本发明能够优选出当下最适合运行挖掘任务的业务服务器，最终将任务推送给优选出的业务服务器执行数据挖掘，完成了对数据挖掘任务整个生命周期的自动化操作，大幅提升了任务运行的稳定性和数据挖掘效率。

Description

一种分布式高可用的大数据挖掘任务调度系统

技术领域

本发明涉及大数据技术领域，尤其涉及一种分布式高可用的大数据挖掘任务调度系统。

背景技术

随着数据量的不断扩大，业务系统的数据量已经从TB级向PB级发展。面对越来越大的数据挖掘量，数据挖掘的难度也呈几何级增长，数据挖掘任务的复杂度也越来越高。以往仅仅需要对部分数据进行的统计汇总工作，现在不但需要对全部数据进行统计，甚至需要进行深度的挖掘，且挖掘的频率也越来越高。使用现有系统对大批量的数据进行高频次的深度挖掘，常常会导致业务系统的崩溃，从而需要大量的人力干预来修复异常，进行系统资源的重新分配、恢复挖掘任务等，处理这些异常情况大大增加了工作量，严重降低了工作效率，而且还无法解决根本性问题，即挖掘任务的运行稳定性低，且只要挖掘任务失败就需要人力干预才能恢复。所以为了解决这些问题，急需一个能有效保障任务正常运行，提供异常自动恢复，服务器资源合理调度，保障挖掘能够高效持续输出数据的方法及系统。

发明内容

本发明的目的就在于为了解决上述问题而提供一种分布式高可用的大数据挖掘任务调度系统，包括:

数据挖掘调度模块，包括用于存储任务队列的任务队列模块与调度子模块；所述调度子模块包括资源监视模块、用于负载计算的数据分析模块、任务控制模块与消息通知展示模块；所述数据分析模块连接资源监视模块、任务队列模块、任务控制模块与消息通知展示模块；

资源服务器集群，包括数据索引资源存储服务器，用于硬件资源信息和任务运行信息的收集，资源监视模块输入端与资源服务器集群相连；

业务服务器集群，接收数据挖掘调度模块分发的任务并进行处理，以及将硬件资源配置信息发送至Zookeeper集群；

Zookeeper集群，用于获取业务服务器集群的资源状态、业务服务器集群管理以及资源服务器集群硬件资源使用信息；

用户操作端，与消息通知展示模块相连，用于数据挖掘进度查看和控制、数据挖掘结果查看；

所述资源监视模块与资源服务器集群相连；任务队列模块与业务服务器集群相连；业务服务器集群通过Zookeeper集群与数据分析模块相连；

所述资源资源监控模块将硬件资源使用信息与任务运行信息发送至数据分析模块，数据分析模块进行任务分配和调度；所述数据分析模块通过任务队列模块连接业务服务器集群；所述数据分析模块通过任务控制模块连接业务服务器集群连接；所述业务服务器集群通过Zookeeper集群与数据分析模块相连。

本发明的有益效果在于：

本发明通过数据挖掘调度模块接收所有业务服务器上报的资源和负载信息后，将资源配置信息和负载状态作为算子，优选出当下最适合运行挖掘任务的业务服务器，最终将任务推送给优选出的业务服务器执行数据挖掘，完成了对数据挖掘任务整个生命周期的自动化操作，大幅提升了任务运行的稳定性和数据挖掘效率，释放了人工管控的成本。

附图说明

图1是本发明的系统图；

图2是数据挖掘调度模块的系统图。

具体实施方式

下面结合附图对本发明作进一步说明：

如附图1所示，本发明一种分布式高可用的大数据挖掘任务调度系统，包括:

所述任务队列模块用于存储数据挖掘任务信息，包括就绪队列、运行队列、异常队列与错误队列；调度子模块还包括数据同步模块，用于连接任务队列模块与业务服务器集群、任务控制模块与业务服务器集群、资源监视模块与资源服务器集群、以及消息通知展示模块与用户操作端，实现数据同步传输。

本发明的具体实现的功能及原理有：

(1)搭建zookeeper集群服务用于提供业务集群服务器管理。

(2)数据索引资源存储服务器进行硬件资源信息和任务运行信息的收集、存储、上报：

每一个提供数据挖掘服务的业务服务器都将自己作为节点注册到zookeeper集群服务上，并将自己的硬件资源配置(如CPU配置、内存配置、硬盘配置)告知至zookeeper集群服务，同时在业务服务器的运行过程中，还会将当前的硬件资源使用情况(如CPU占用率、内存使用率、硬盘使用率、IO负载)实时上报给zookeeper集群服务，作为挖掘任务的分配和调度依据。

数据索引资源存储服务器在运行过程中，将当前的硬件资源使用情况(CPU占用率、内存使用率、硬盘使用率、IO负载)实时上报给zookeeper集群服务，作为挖掘任务运行、暂停和优先级高低调度的依据，防止挖掘任务过多、过高的占用索引服务器资源，影响其他业务的运行。

用户提交的数据挖掘任务信息会储存在数据挖掘调度模块的任务队列模块中，包括有任务的配置信息、当前挖掘状态、挖掘进度，由调度中心的数据同步模块做所有业务服务器的数据一致性操作，保障业务服务器异常后，可以自动恢复到正确的状态。

(3)业务服务器集群执行数据挖掘任务，具体方法包括：

负载调度法：数据挖掘调度模块通过zookeeper集群服务获取所有在线的业务服务器，然后通过轮询的方式取出一台或多台业务服务器，最后下发数据挖掘任务给业务服务器；

轮询调度法：数据挖掘调度模块通过zookeeper集群服务获取所有在线的业务服务器，然后通过轮询的方式取出一台或多台业务服务器，最后下发挖掘任务给这些业务服务器；

倾斜式调度法：数据挖掘调度模块通过zookeeper集群服务获取所有在线业务服务器的硬件资源配置，根据硬件资源配置的不同，将挖掘任务分配到所有的业务服务器上，配置高低进行任务量分配。例如有A、B、C三台业务服务器，其中A服务器配置最好，B、C服务器次之，那么更多的数据挖掘任务分配给A服务器，剩下的均分到B、C服务器上。

(4)分发数据挖掘任务信息至业务服务器执行数据挖掘任务：

数据挖掘调度模块从任务队列中获取一条待挖掘或需要重新挖掘的任务；从任务队列中获取的任务直接下派给执行数据挖掘的业务服务器；从重试队列中获取的任务，首先需要经过数据分析模块的处理。数据分析模块根据任务中断时记录的状态，将重新挖掘的任务或者节点回滚到待执行状态。

任务下发到数据挖掘业务服务器后，数据挖掘调度模块将任务从等待或重试队列中弹出，加入到运行管理队列中。

(5)运行挖掘任务，计算数据挖掘进度：

a.挖掘任务前置要求：业务服务器获取到任务以后，首先会对任务信息做关联检查，包括有任务关联的数据挖掘索引是否存在、任务挖掘条件配置是否正确、索引服务器当前资源使用情况是否支持挖掘任务的运行，当所有条件验证通过后，业务服务器开始执行数据的挖掘。

b.挖掘任务子节点的运行与挖掘进度计算：数据挖掘任务中每个子节点都有自己的挖掘进度、关联的数据索引配置信息、挖掘配置条件，子节点运行过程中使用挖掘条件对关联索引数据进行匹配，并将符合条件的索引记录下来，计算方式为：子节点的挖掘总进度＝子节点关联的索引信息总条数；子节点的已挖掘进度＝已匹配到的挖掘结果索引总条数；子节点的挖掘当前进度＝子节点的已挖掘进度÷子节点的挖掘总进度。子节点的进度计算使用计时器来控制，每隔一段时间自动计算一次。

c.挖掘任务整体运行与挖掘进度计算:整体挖掘任务的运行与子节点相关联，只要有子节点还处于运行中，那么整体挖掘任务就在运行中，计算方式为：整体挖掘任务的总进度＝子节点的总个数；整体挖掘任务的已挖掘进度＝已完成挖掘的子节点个数；整体挖掘任务的当前进度＝整体挖掘任务的已挖掘进度÷整体挖掘任务的总进度；每当一个子节点挖掘完成时，进行一次整体挖掘任务进度的计算。

(6)用户操控任务运行，包括手动暂停挖掘与恢复挖掘:

手动暂停挖掘:任务调度系统支持手动暂停任务的挖掘，由用户发起暂停操作或命令，任务调度中心收到命令后，会从运行队列中弹出需要暂停的挖掘任务，将其加入到就绪队列，并在同一时间发送暂停指令给处理该任务的业务服务器，业务服务器收到暂停指令后会立刻执行停止数据挖掘的操作，释放相关的挖掘资源。停止挖掘的相关操作包括有，停止挖掘进程、更新挖掘状态为暂停、上报当前挖掘状态和进度给数据挖掘调度模块，数据挖掘调度模块记录任务的挖掘状态和进度，最终由调度中心完成数据一致性工作。

手动恢复挖掘：任务调度系统支持手动恢复任务的挖掘，手动操作仅支持恢复手动暂停的任务，自动暂停的任务只能由系统调度自动恢复。由用户发起恢复命令，任务调度中心收到命令后，会从就绪队列中弹出需要恢复运行的挖掘任务，并将其放入到运行队列，并重新执行分发数据挖掘任务信息至业务服务器执行数据挖掘任务的流程。由于该任务是已经运行过的任务，所以任务不会从头开始挖掘，而是从挖掘任务暂停时记录的指定的挖掘节点继续挖掘。例如挖掘任务有A、B、C、D、E5个节点，暂停前运行到C节点，且正在运行中未完成，那么恢复暂停后，该任务会继续以B为数据挖掘源，重新运行C节点。

(7)任务针对资源服务器资源的自动调节，包括自动暂停挖掘与恢复挖掘：

自动暂停挖掘：自动暂停挖掘是由数据挖掘调度模块触发，数据挖掘调度模块时刻监控数据索引资源存储服务器的资源使用情况，当资源使用率达到阈值时，就会向挖掘任务服务发送暂停挖掘命令，业务服务器接收到命令后，将挖掘进程执行挂起操作，但不会释放进程所使用的相关资源，也不会将任务从运行队列移动到就绪队列。数据挖掘调度模块自动暂停部分挖掘任务，可以有效避免多个挖掘任务同时与数据索引资源存储服务器进行数据传输，导致数据索引资源存储服务器负载过高，以及其他服务不可用的情况。

自动恢复暂挖掘：自动恢复挖掘是由数据挖掘调度模块触发，数据挖掘调度模块时刻监控数据索引资源存储服务器使用情况，当资源使用率空闲后，就会向数据挖掘调度模块发送恢复挖掘命令，因为自动暂停的挖掘进程并没有释放资源，仅仅是做了挂起操作。所以收到数据挖掘调度模块发送的恢复挖掘命令后，直接将挂起的进程恢复到运行状态，即可继续执行挖掘任务。

(8)数据挖掘任务的异常与恢复：

挖掘任务在运行过程中会遇到各种不可预料的异常导致挖掘任务的异常中断，本系统按异常中断的缘由将异常中断划分为了两个方面：硬件异常中断和软件异常中断。本系统针对这两种异常制定了对应的异常处理机制，保障数据挖掘任务的可恢复性。

硬件异常中断是由于服务器宕机、断电、硬件部分损坏等不可控因数导致的挖掘业务服务器异常；因为业务服务器会定期向调度中心服务器上报任务状态和自身资源状态，所以当数据挖掘调度模块长期同时无法收到业务服务器上报的任务状态和自身资源状态时，就能判定业务服务器发生了硬件异常中断。调度中心服务器会将业务服务器上报的最后一次状态、配置、进度持久化保存下来；等待业务服务器从硬件故障中恢复并启动后，业务服务器重新注册到Zookeeper集群，这样数据挖掘调度模块和业务服务器恢复正常通讯；数据挖掘调度模块把持久化保存的任务状态、配置、进度自动下发给业务服务器，业务服务器使用这些数据重新启动挖掘任务，自动恢复挖掘任务的运行。

软件异常中断是由于服务程序崩溃、进程被误杀、运行时异常等不可控因数导致的挖掘任务异常；应为业务服务器会定期向数据挖掘调度模块上报任务状态和自身资源，所以当数据挖掘调度模块长期只能收到上报的资源情况，而不能收到任务运行状态时，就能判定业务服务发生了软件异常中断；这时候调度中心服务器和业务服务器通讯还是正常的，数据挖掘调度模块自动将最后一次收到的任务状态、配置、进度下发给业务服务器，业务服务器使用这些数据重新启动挖掘任务，自动恢复挖掘任务的运行。

如果判定了挖掘任务已经发生了异常情况，则数据挖掘调度模块将该任务从运行队列移动到异常队列，随后调度系统会发送邮件报告任务的异常情况给管理员，并且会附带该任务的各项详情信息；数据挖掘调度模块对移入异常队列中的挖掘任务执行自动恢复的操作尝试(默认只尝试一次自动恢复)，如果执行自动恢复失败，调度中心系统会将任务标记为错误，放入错误队列中，并再次发送邮件提醒管理员，该次挖掘任务存在错误，请求人力介入。

本发明实现了对任务的等待、执行、暂停、重启、异常、恢复、完成所有状态和生命周期节点的管控；其中执行状态还细分为主任务状态、主任务进度、子任务状态、子任务进度、子节点状态、子节点进度等。

整个挖掘系统采用分布式的方式部署在多台服务器上，组成一个服务集群。集群中的服务器又划分为调度中心和业务节点，调度中心与业务节点是一对多的关系，各个业务节点之间相互独立、功能单一且易恢复，其他则统一由调度中心管理；该系统包含有对挖掘任务的自动化调度，任务挖掘关联资源的自动化分配，任务挖掘的自动化开启、暂停，任务挖掘异常的自动化恢复；数据挖掘调度模块接收所有业务服务器上报的资源和负载信息后，将资源配置信息和负载状态作为算子，结合系统策略和算法优选出当下最适合运行挖掘任务的业务服务器，最终将任务推送给优选出的业务服务器执行数据挖掘；数据挖掘调度模块接收所有服务器上报的资源和负载信息后，监控资源服务的负载状态，当发现负载过高达到指定阈值时，自动暂停部分挖掘任务，等待负载降低后又自动恢复挖掘任务的运行，确保整个系统的稳健运行，保障系统能持续的向外提供服务。

本发明将数据挖掘任务整个生命周期中的各个流程接管并控制；整个数据挖掘任务会拆分并分配到调度系统内多个任务负载低的机器上，并且在资源服务器压力过大的时候自动暂停数据挖掘任务，等待数据资源服务器压力释放后，由调度中心(数据挖掘调度模块)重新恢复运行任务；并且如果任务在运行过程中出现异常(包括软件与硬件异常)，调度中心系统会回收该任务，并且自动寻找另外一台符合条件，能够运行该任务的机器恢复任务的运行。通过本发明，完成了对数据挖掘任务整个生命周期的自动化操作，大幅提升了任务运行的稳定性和挖掘效率，释放了人工管控的成本。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.一种分布式高可用的大数据挖掘任务调度系统，其特征在于，包括:

2.根据权利要求1所述一种分布式高可用的大数据挖掘任务调度系统，其特征在于，所述硬件资源配置信息包括CPU配置数据、内存配置数据与硬盘配置数据；所述硬件资源使用信息包括CPU占用率、内存使用率、硬盘使用率、IO负载数据。