CN104461752B

CN104461752B - 一种两级故障容错的多媒体分布式任务处理方法

Info

Publication number: CN104461752B
Application number: CN201410675123.5A
Authority: CN
Inventors: 成浩
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2018-09-18
Anticipated expiration: 2034-11-21
Also published as: CN104461752A

Abstract

本发明提供一种两级故障容错的分布式计算集群方法，该方法应用于分布式集群系统，该分布式集群系统包括调度节点和若干计算节点；该方法包括：任一计算节点出现故障后，在一定的时间窗口内，该计算节点自身恢复任务的处理；在超过一定的时间窗口，则由调度节点执行该计算节点任务的重新分配。本发明方案在调度节点支持任务故障接管的同时，计算节点同时具备本节点任务的故障恢复能力。对于大多数故障情况，可以保证任务尽量在初始分配的计算节点上继续执行，有效避免任务重新分配到其他节点之后，造成各节点在计算资源占用上的不均衡。

Description

一种两级故障容错的多媒体分布式任务处理方法

技术领域

本发明涉及云计算技术领域，尤其涉及一种两级故障容错的多媒体分布式任务处理方法。

背景技术

对公安、交通等大型视频监控系统中的高清摄像机、卡口摄像机、电警产生的海量视频、图片数据执行分析处理，已经成为越来越迫切的需求。

一方面，对视频、图片进行智能分析，提取其中的人、车、物等结构化信息，可以方便对重点人、车进行录像检索，同时可以基于这些信息进行深入的数据挖掘。另外，对海量的监控视频数据，存在浓缩、摘要、诊断、转码等处理需求。

对于大规模视频监控系统来说，单一设备节点已经无法完成海量视频数据的计算处理任务，所以必然要部署较多的设备对视频数据进行处理。

在大量部署计算设备的情况下，如果不能合理分配设备的计算资源，一方面会造成设备资源的浪费，同时也会造成视频处理涉及的大量计算任务无法及时完成，影响利用监控系统处理社会治安、突发事件的响应速度。

通过分布式计算集群技术，可以将计算任务颗粒化，调度系统内任一存在空闲计算资源的设备节点完成计算子任务，从而以较小的设备投入，换回更多的智能化工作回报。同时，在需要尽可能短的时间内完成相关视频的分析工作的应用场景下，分布式计算集群技术可以整合系统所有设备节点的计算资源，完成突发事件相关视频的计算分析工作，从而满足了对突发事件进行实时分析计算的要求。因此，将分布式计算集群技术应用到大型视频监控系统，是大型视频监控系统建设的必然趋势，拥有广阔的应用场景。

Hadoop MapReduce是一个较通用的分布式计算框架，基于它开发的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理TB级别的数据集。

一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块，由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。

通常，MapReduce框架和分布式文件系统是运行在一组相同的节点上的，也就是说，计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效地利用。

MapReduce框架由一个单独的master JobTracker和每个集群节点一个slaveTaskTracker共同组成。master负责调度构成一个作业的所有任务，这些任务分布在不同的slave上，master监控它们的执行。而slave仅负责执行由master指派的任务。

MapReduce计算框架的master节点，在任务执行过程中，如果检测到某个slave节点出现故障，会即时将该节点未完成的任务，分配到其他节点执行。

Hadoop MapReduce分布式计算框架是一种由master节点执行任务故障恢复的单级管理方案，即：在master检测到某个节点故障(比如MapReduce进程崩溃)时，会将该节点未完成的任务，即时分配给其他节点执行。这种故障接管机制对于计算量较小、占用资源较少的任务，是没有问题的。但是，对于多媒体视频的处理任务，其机制未必合适。

视频类计算任务的计算量较大，需要占用较多的系统资源。一个计算节点实际能够处理的视频分析计算任务有限，在自身资源已经被任务接近占满的情况下，很难有剩余资源去接管其他节点的任务。比如：一路1080P高清摄像机的视频浓缩任务，对于i7-3770类型的CPU，CPU占用率达到15％，因此，配备上述CPU的设备，最多只能支持5-6路摄像机的视频浓缩任务。如果由10台i7-3770CPU的服务器组成小规模计算集群，处理60路1080P高清摄像机的视频浓缩任务，每台服务器的计算资源基本已经占满，很难去接管其他节点的任务。

发明内容

有鉴于此，本发明提供一种两级故障容错的分布式任务处理方法。该方法应用于分布式集群系统，该分布式集群系统包括调度节点和若干计算节点。

该两级故障容错的分布式任务处理方法包括：任一计算节点出现故障后，在一定的时间窗口内，该计算节点自身恢复任务的处理；在超过一定的时间窗口，则由调度节点执行该计算节点任务的重新分配。

优选地，该分布式集群系统还包括独立的数据库；所述计算节点包括集群中间件模块和视频处理算法模块；当计算节点的故障为在一定的时间窗口内掉电重启故障时，所述计算节点自身恢复任务的处理包括：计算节点的视频处理算法模块从数据库中装载本节点未完成的任务，恢复任务执行；且在所有任务恢复执行之后，向集群中间件模块发送通知；集群中间件模块收到通知后，向视频处理算法模块获取当前执行的任务信息，该任务信息包括任务ID；视频处理算法模块返回当前执行的所有任务的任务信息；集群中间件模块对于获取到的所有任务，逐个任务分配任务控制块，记录包括任务ID的任务的信息；集群中间件模块将所有任务控制块置不同步标识；集群中间件模块向调度节点发起注册；注册成功后，计算节点接收调度节点向其发送任务同步消息，该消息中携带调度节点所记录的该计算节点所有未完成任务的任务信息；集群中间件模块对于每一个任务控制块记录的任务ID，判断是否能匹配到同步消息中的任务ID，如果是，清除该任务控制块中的不同步标识；否则执行通知视频处理算法模块停止该不同步任务控制块对应任务的执行。

优选地，当计算节点的故障为在一定的时间窗口内的视频处理算法进程崩溃故障时，所述计算节点自身恢复任务的处理包括：计算节点的视频处理算法模块从数据库中装载本节点未完成的任务，恢复任务执行；且在所有任务恢复执行之后，向集群中间件模块发送通知；集群中间件模块收到通知后，向视频处理算法模块获取当前执行的任务信息，其中该任务信息包括任务ID；视频处理算法模块返回当前执行的所有任务的任务信息；集群中间件模块对返回的所有任务中的每一个任务ID，判断其是否能匹配自身的任务控制块中记录的任务ID，如果是，集群中间件模块基于该任务信息，更新任务控制块中的相应信息，否则，集群中间件模块通知视频处理算法模块停止对该任务的执行。

优选地，当计算节点的故障为在一定的时间窗口内和调度节点之间网络断开的故障时，所述计算节点自身恢复任务的处理包括：集群中间件模块将所有任务控制块置不同步标识；集群中间件模块向调度节点发起注册；注册成功后，接收调度节点向其发送任务同步消息，该消息中携带调度节点所记录的该计算节点所有未完成任务的任务信息；计算节点对于自身每一个任务控制块记录的任务ID，判断是否能匹配到同步消息中的任务ID，如果是，清除该任务控制块中的不同步标识，否则通知视频处理算法模块停止该不同步任务控制块对应任务的执行。

优选地，当计算节点的故障为超出一定时间窗口的故障时，所述调度节点执行该计算节点任务的重新分配包括：调度节点从自身的任务控制块中，获取到该故障计算节点未完成的所有任务信息；调度节点判断是否存在可以接管故障计算节点任务的其他节点，如果是，向对应的其他计算节点下发相应的计算任务；调度节点更新自身任务控制块中对应任务的计算节点信息，且更新数据库中对应任务的计算节点信息。

当调度节点判断不存在可以接管故障计算节点任务的其他节点时，将相应的计算任务挂到队列中以便后续再触发调度。

优选地，调度节点在预设的时间内未收到计算节点上报任务状态消息，则确认该计算节点的故障为超出一定时间窗口的故障。

优选地，计算节点和调度节点对任务的处理是基于Hadoop MapReduce框架的。

优选地，计算节点和调度节点采用异步消息通讯机制。

相较于现有技术，本发明方案在调度节点支持任务故障接管的同时，计算节点同时具备本节点任务的故障恢复能力。在计算节点出现断网、掉电、进程崩溃等异常情况时，在一定的时间窗口内，由计算节点自身实现故障恢复，不需要调度节点干预。这样对于大多数故障情况，可以保证任务尽量在初始分配的计算节点上继续执行，有效避免任务重新分配到其他节点之后，造成各节点在计算资源占用上的不均衡。另外，通过本发明提出的调度节点、计算节点之间的任务信息同步机制，实现了各种异常情况下，以调度节点的任务信息为基准，调度节点、计算节点的任务信息的最终一致性。

附图说明

图1本发明实施例组网方案图。

图2是本发明实施例一流程图。

图3是本发明实施例二流程图。

图4是本发明实施例三流程图。

图5是本发明实施例四流程图。

具体实施方式

基于背景技术中提到的问题，本发明提出的一种两级故障容错及任务信息同步的多媒体分布式任务处理方案。该方案在调度节点支持容错处理的同时，计算节点同时具备容错能力。以下通过具体实施例详细说明。

首先，请参图1所示的本发明实施例组网方案图。在本实施例的集群方案中，包括如下组件：

调度节点：该节点作为集群管理者，实现对集群所有设备资源、计算任务的统一管理。对于集群的计算任务，调度节点根据各计算节点部署的算法、当前的系统资源情况，选择最合适的计算节点执行任务。同时，对于大型计算任务，调度节点按照一定的数据粒度切分任务，将切分后的子任务下发到计算节点执行。

计算节点：该节点进一步包括集群中间件模块和视频处理算法模块。其中集群中间件模块实现所有集群功能。比如：向调度节点的注册、保活、采集和上报系统资源信息、任务状态信息等。该集群中间件模块通过异步消息机制与调度节点进行通讯。同时，通过标准接口(比如thrift接口)，实现对视频处理算法的功能调用。比如计算任务的启动、停止，计算任务状态或者执行进度的获取，算法配置参数的下发等。视频处理算法模块又可部署一到多个视频处理算法子模块。比如：视频浓缩算法子模块、视频诊断算法子模块、视频转码子模块、人/车/物的特征提取子模块等。每个算法子模块，实现获取媒体流、计算处理、保存计算结果为文件或者写入数据库等一系列的处理流程。

数据库：本发明实施例部署独立的数据库组件，用于调度节点、计算节点分别存储各自的任务信息数据。

用户界面：在PC机上安装多媒体分布式计算集群的用户界面，可执行视频处理任务创建、删除等操作，同时可查看集群的设备信息、任务信息。

本发明实施例方案主要包括：任一计算节点出现故障后，在一定的时间窗口内，由该计算节点自身恢复任务的处理；在超过一定的时间窗口，则由调度节点执行该计算节点任务的重新分配。

这里计算节点出现的故障包括但不限于：计算节点掉电重启、计算节点的视频处理算法模块进程崩溃、计算节点和调度节点之间的网络断开。

当计算节点发生上述故障时，只要在预定的时间内该故障能恢复(比如说重新上电启动、崩溃进程被看守进程重新拉起、断网后恢复)，则计算节点自身恢复故障前任务的处理，不需要调度节点的干预。这样对于大多数故障，可以保证视频处理任务尽量在初始分配的计算节点上继续执行，有效避免任务重新分配之后，造成各计算节点在计算资源占用上的不均衡。但是如果超出预定的时间，计算节点的故障仍然没有恢复，则调度节点需要调度其他计算节点替代该故障节点执行其任务。

以下结合附图，详细说明各故障情况下，计算节点故障恢复后的任务处理流程。

实施例一

请参图2，图2给出了计算节点掉电后在预定时间内又重新启动后继续任务的处理，该任务处理包括任务恢复和任务同步。该流程在实现对未完成任务的自动恢复执行时，保证了计算节点、调度节点之间任务信息的一致性。

S21、计算节点的视频处理算法模块从数据库中装载本节点未完成的任务，恢复任务执行；且在所有任务恢复执行之后，向集群中间件模块发送通知。

S22、集群中间件模块收到通知后，向视频处理算法模块获取当前执行的任务信息，该任务信息包括任务ID。

S23、视频处理算法模块返回当前执行的所有任务的任务信息。

S24、集群中间件模块对于获取到的所有任务，逐个任务分配任务控制块，记录任务的信息。

S25、集群中间件模块将所有任务控制块置不同步标识。

S26、集群中间件模块向调度节点发起注册。

S27、注册成功后，调度节点向其发送任务同步消息，该消息中携带调度节点所记录的该计算节点所有未完成任务的任务信息。

S28、对于每一个任务控制块记录的任务ID，判断是否能匹配到同步消息中的任务ID，如果是，执行步骤S29，否则执行步骤S30。

S29、清除该任务控制块中的不同步标识。

S30、通知视频处理算法模块停止该不同步任务控制块对应任务的执行。

在上述流程中，计算节点由于掉电重启，所以集群中间件模块和视频处理算法模块在掉电前保存在计算节点内存中的数据全部丢失。在计算节点上电启动后，首先由视频处理算法模块从数据库(独立于计算节点、调度节点的数据块)中装载自身未完成的任务，并且继续这些未完成任务的处理。集群中间件模块从视频处理算法模块获得其当前处理的任务信息，并和调度节点进行通信，以获得调度节点所记录的该计算节点未完成的任务信息。如果从视频处理算法获得某一个或者几个任务信息不在当前调度节点所记录的该计算节点未完成的任务信息中，则以该调度节点的记录为准，通知视频处理算法模块停止该一个或者几个任务的执行，并且集群中间件释放停止认为所对应的任务控制块。这样计算节点的视频处理算法模块中的任务信息、集群中间件模块的任务信息和调度节点中的任务信息就实现了同步。

实施例二

请参图3，图3给出了计算节点的视频处理算法模块进程崩溃且在预定时间内又恢复的任务恢复与任务同步流程。

S31、计算节点的视频处理算法模块从数据库中装载本节点未完成的任务，恢复任务执行；且在所有任务恢复执行之后，向集群中间件模块发送通知。

S32、集群中间件模块收到通知后，向视频处理算法模块获取当前执行的任务信息(包括任务ID、任务句柄等)。

S33、视频处理算法模块返回当前执行的所有任务的任务信息。

S34、集群中间件模块对返回的所有任务中的每一个任务ID，判断其是否能匹配自身的任务控制块中记录的任务ID，如果是，则转步骤S35，否则转步骤S36。

S35、集群中间件模块基于该任务信息，更新任务控制块中的相应信息。

S36、集群中间件模块通知视频处理算法模块停止对该任务的执行。

本实施例描述的是视频处理算法模块进程崩溃而后又恢复后的任务处理与同步。由于仅涉及视频处理算法模块进程的崩溃，集群中间件模块并未出现故障，集群中间件和调度节点之间的通信正常，彼此之间的任务始终保持同步。所以，视频处理算法模块在从数据库中恢复自身任务执行后，可能存在这些任务和集群中间件模块以及调度节点模块记录的任务不同步的问题，所以需要在步骤S34中执行任务匹配的操作。(步骤S34中的集群中间件模块的任务控制块是在用户通过用户界面创建任务，下发任务到调度节点，调度节点选择计算节点并将任务下发计算节点，计算节点的集群中间件模块据此创建的任务控制块。当然，如果后续调度节点对下发的任务更新时，比如删除该任务，将发通知给集群中间件模块，集群中间件模块据此进行任务的更新。)任务匹配操作是以集群中间件模块任务控制块中记录的任务为基准(该任务控制块中记录的任务是和调度节点中记录的该计算节点的任务是一致的)，如果视频处理算法模块从数据库中恢复执行的任务在集群中间件模块的任务控制块已经不存在，在表示该任务可能已经被调度节点删除了，所以视频处理算法模块需要停止该任务的执行，清除数据库中该任务的记录；如果视频处理算法模块从数据库中恢复执行的任务在集群中间件模块的任务控制块中存在，则集群中间件模块基于视频处理算法模块返回的任务信息，如任务句柄、任务进度等更新任务控制块中该任务的相应信息。

实施例三

实施例三给出计算节点与调度节点之间的网络断开后，在预定时间内又恢复的情况。在网络恢复后，计算节点的处理流程请参图4。

S41、计算节点的集群中间件模块将自身的所有任务控制块置不同步标识。

S42、集群中间件模块向调度节点发起注册。

S43、注册成功后，调度节点向其发送任务同步消息，该消息中携带调度节点所记录的该计算节点所有未完成任务的任务信息。

S44、计算节点对于自身每一个任务控制块记录的任务ID，判断是否能匹配到同步消息中的任务ID，如果是，执行步骤S45，否则执行步骤S46。

S45、清除该任务控制块中的不同步标识。

S46、通知视频处理算法模块停止该不同步任务控制块对应任务的执行。

计算节点和调度节点之间的网络虽然断开了，但是计算节点作为一个个体，其各项任务的执行还在有条不紊的进行着。当网络恢复后，需要执行的仅仅是计算节点和调度节点之间任务的同步。该同步过程由集群中间件模块主导，一旦确认任务和调度节点不同步(如任务被调度节点删除了)，则通知视频处理算法模块停止该任务的执行。

实施例四

在计算节点出现故障，并且在预定时间内未恢复该故障时，调度节点执行图5所示的容错流程。这里的计算节点出现故障，并且在预定时间内未恢复该故障包括：计算节点彻底损坏；计算节点长时间断网等异常情况。关于预定时间内未恢复故障，对于调度节点来讲，可以通过计算节点是否在预设的时间内上报任务状态消息来确定。比如说在10分钟内都没有上报任务消息，调度节点就认为该计算节点出现了故障，需要进行该计算节点任务的重新分配。

S51、调度节点从自身的任务控制块中，获取到该故障计算节点未完成的所有任务信息。

S52、调度节点判断是否存在可以接管故障计算节点任务的其他节点，如果是，向对应的其他计算节点下发相应的计算任务。

S53、调度节点更新自身任务控制块中对应任务的计算节点信息，且更新数据库中对应任务的计算节点信息。

调度节点在选择接管故障计算节点任务的其他节点时，基于负载均衡的原则，从在线的，资源空闲的，且有相应算法能力的计算节点中选择接管节点。故障计算节点未完成的任务包括多个时，可以将这些任务分配到不同的计算节点。如果调度节点无法从其他计算节点中找到可以接管故障计算节点任务的节点，调度节点将该任务挂到队列中，后续再触发调度。比如说有新的计算节点注册上线后，调度节点就可以将队列中的该任务分配给该新上线的计算节点。

通过以上四个实施例的描述可以看出，实施例一至实施例三是计算节点在出现故障且在短时间内恢复后，自身执行容错处理，即原来由自己执行的任务继续由自己执行，且进一步通过任务同步机制保证调度节点和自身任务信息的一致性；实施例四是计算节点在出现故障且较长时间未恢复时，由调度节点执行容错处理，即调度节点将该故障节点未完成得任务分配到其他计算节点，由其他计算节点进行处理，且调度节点保证和其他计算节点任务信息的一致性。所以，本发明的方案给出的是一种两级故障容错分布式任务处理方案，即计算节点本身和调度节点均能在计算节点出现故障时进行容错处理。

综上，本发明方案在调度节点支持任务故障接管的同时，计算节点同时具备本节点任务的故障恢复能力。在计算节点出现断网、掉电、进程崩溃等异常情况时，在一定的时间窗口内，由计算节点自身实现故障恢复，不需要调度节点干预。这样对于大多数故障情况，可以保证任务尽量在初始分配的计算节点上继续执行，有效避免任务重新分配到其他节点之后，造成各节点在计算资源占用上的不均衡。另外，通过本发明提出的调度节点、计算节点之间的任务信息同步机制，实现了各种异常情况下，以调度节点的任务信息为基准，调度节点、计算节点的任务信息的最终一致性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种两级故障容错的分布式任务处理方法，该方法应用于分布式集群系统，该分布式集群系统包括调度节点和若干计算节点；其特征在于，所述计算节点包括视频处理算法模块；

任一计算节点出现故障后，在一定的时间窗口内，该计算节点自身恢复任务的处理；在超过一定的时间窗口，则由调度节点执行该计算节点任务的重新分配；

所述分布式集群系统还包括独立的数据库；所述计算节点还包括集群中间件模块；当计算节点的故障为在一定的时间窗口内的视频处理算法进程崩溃故障时，所述计算节点自身恢复任务的处理包括：

计算节点的视频处理算法模块从数据库中装载本节点未完成的任务，恢复任务执行；且在所有任务恢复执行之后，向集群中间件模块发送通知；

集群中间件模块收到通知后，向视频处理算法模块获取当前执行的任务信息，其中该任务信息包括任务ID；

视频处理算法模块返回当前执行的所有任务的任务信息；

集群中间件模块对返回的所有任务中的每一个任务ID，判断其是否能匹配自身的任务控制块中记录的任务ID，如果是，集群中间件模块基于该任务信息，更新任务控制块中的相应信息，否则，集群中间件模块通知视频处理算法模块停止对该任务的执行。

2.如权利要求1所述的方法，其特征在于，所述分布式集群系统还包括独立的数据库；所述计算节点还包括集群中间件模块；当计算节点的故障为在一定的时间窗口内掉电重启故障时，所述计算节点自身恢复任务的处理包括：

集群中间件模块收到通知后，向视频处理算法模块获取当前执行的任务信息，该任务信息包括任务ID；

视频处理算法模块返回当前执行的所有任务的任务信息；

集群中间件模块对于获取到的所有任务，逐个任务分配任务控制块，记录包括任务ID的任务的信息；

集群中间件模块将所有任务控制块置不同步标识；

集群中间件模块向调度节点发起注册；

注册成功后，计算节点接收调度节点向其发送任务同步消息，该消息中携带调度节点所记录的该计算节点所有未完成任务的任务信息；

集群中间件模块对于每一个任务控制块记录的任务ID，判断是否能匹配到同步消息中的任务ID，如果是，清除该任务控制块中的不同步标识；否则执行通知视频处理算法模块停止该不同步任务控制块对应任务的执行。

3.如权利要求1所述的方法，其特征在于，当计算节点的故障为在一定的时间窗口内和调度节点之间网络断开的故障时，所述计算节点自身恢复任务的处理包括：

集群中间件模块将所有任务控制块置不同步标识；

集群中间件模块向调度节点发起注册；

注册成功后，接收调度节点向其发送任务同步消息，该消息中携带调度节点所记录的该计算节点所有未完成任务的任务信息；

计算节点对于自身每一个任务控制块记录的任务ID，判断是否能匹配到同步消息中的任务ID，如果是，清除该任务控制块中的不同步标识，否则通知视频处理算法模块停止该不同步任务控制块对应任务的执行。

4.如权利要求1所述的方法，其特征在于，当计算节点的故障为超出一定时间窗口的故障时，所述调度节点执行该计算节点任务的重新分配包括：

调度节点从自身的任务控制块中，获取到该故障计算节点未完成的所有任务信息；

调度节点判断是否存在可以接管故障计算节点任务的其他节点，如果是，向对应的其他计算节点下发相应的计算任务；

调度节点更新自身任务控制块中对应任务的计算节点信息，且更新数据库中对应任务的计算节点信息。

5.如权利要求4所述的方法，其特征在于，当调度节点判断不存在可以接管故障计算节点任务的其他节点时，将相应的计算任务挂到队列中以便后续再触发调度。

6.如权利要求4所述的方法，其特征在于，所述调度节点在预设的时间内未收到计算节点上报任务状态消息，则确认该计算节点的故障为超出一定时间窗口的故障。

7.如权利要求1～6任一项所述的方法，其特征在于，计算节点和调度节点对任务的处理是基于Hadoop MapReduce框架的。

8.如权利要求1～6任一项所述的方法，其特征在于，计算节点和调度节点采用异步消息通讯机制。