CN110888761B

CN110888761B - 一种基于关键任务部分主动备份的容错方法和流处理平台

Info

Publication number: CN110888761B
Application number: CN201911201534.XA
Authority: CN
Inventors: 庆骁
Original assignee: Beijing Simulation Center
Current assignee: Beijing Simulation Center
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-04-28
Anticipated expiration: 2039-11-29
Also published as: CN110888761A

Abstract

本申请提供了一种基于关键任务部分主动备份的容错方法和流处理平台，其中，该方法的步骤包括：对所述关键任务位置至少备份一次；备份后的每个关键任务位置对同一上游实例产生的元组进行处理；将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。本申请所述技术方案能够有效缩短发生故障情况下的平均故障恢复时间。当故障发生在主动备份顶点上时，可以在秒级别内实现快速故障恢复。此外，本方案能够充分利用状态备份节点上计算资源利用率，可以有效提升这些节点的资源利用率至50％以上。

Description

一种基于关键任务部分主动备份的容错方法和流处理平台

技术领域

本申请涉及流平台容错备份领域，特别涉及一种基于关键任务部分主动备份的容错方法和流处理平台。

背景技术

流计算作为一种基于内存计算的范式，且大多运行于分布式的环境下，因此极易受到系统故障的影响。在一个流处理系统中，一旦系统检测到故障的发生，系统必须迅速作出响应，尽快恢复源源不断到达的流数据的正常处理过程，否则不仅可能引起数据的丢失甚至会产生错误的计算结果。在传统的分布式流处理系统中，广泛采用主动备份、被动备份这两种容错机制。主动备份能够在发生故障时完成从主实例到其备份实例的即时切换，确保了最短的故障响应时间，但是同时也带来了高昂的容错开销，即至少产生两倍的资源消耗。设置检查点进行卷回恢复是一种基于被动备份思想的的容错机制，在大多数情况下可以显著提高系统的效率，因此在生产环境中被广泛采用。例如，流处理平台(Flink)作为目前最为流行的流处理平台之一，其实现了一种基于栅栏模式的检查点容错机制，并且能够保证“至少一次”、“恰好一次”等多种语义级别。Flink系统在部署应用时要求用户给出检查点周期参数，此后在运行过程中通过周期性往流中插入“栅栏”来完成检查点保存的相关操作，始终为所有算子维护一份全局一致的状态副本。当故障发生时，Flink仅需重启整个应用拓扑，并将各个算子的全局一致状态分别拉回，源头算子根据拉回的状态再进行相应的数据重放，这便实现了故障恢复的流程。

Flink流处理平台中发生故障时，需重启整个应用拓扑，并将各个算子的全局一致状态分别拉回，源头算子根据拉回的状态再进行相应的数据重放，该全局故障恢复时间较长。主动备份是可靠性理论中故障恢复时间最快的容错手段。然而，尽管主动备份可以实现故障时的迅速故障恢复，但其高昂的计算资源开销往往是现在大规模计算场景下所不能接受的。此外，存储节点往往CPU计算资源利用率也较低。

发明内容

为解决上述问题之一，本申请提供了一种基于关键任务部分主动备份的容错方法和流处理平台，能够缩短故障恢复时间、充分利用这部分资源、提高资源利用率。

根据本申请实施例的第一个方面，提供了一种基于关键任务部分主动备份的容错方法，该方法的步骤包括：

对所述关键任务位置至少备份一次；

备份后的每个关键任务位置对同一上游实例产生的元组进行处理；

将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。

在一种优选地实施例中，所述对所述关键任务位置进行备份步骤的前一步包括

挖掘流处理平台网络拓扑中关键任务位置。

在一种优选地实施例中，所述挖掘流处理平台网络拓扑中关键任务位置的步骤包括：

将某一顶点对拓扑局部连通性的影响程度和传播影响能力作为参考指标；

将至少上述两项指标进行归一化后加权，确定该节点是否为关键任务位置。

在一种优选地实施例中，所述处理结果中的一个作为下游的实例。

在一种优选地实施例中，该方法的步骤还包括：下游根据获取实例的唯一身份码，去除重复处理结果。

根据本申请实施例的第二个方面，提供了一种流处理平台，该平台包括：

备份单元，将关键任务位置进行至少一次备份；

多个相同的关键任务位置，对同一上游实例产生的元组进行处理，并将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。

在一种优选地实施例中，还平台还包括：挖掘单元，用于挖掘流处理平台网络拓扑中关键任务位置。

在一种优选地实施例中，所述挖掘单元具体执行如下步骤：将某一顶点对拓扑局部连通性的影响程度和传播影响能力作为参考指标；将至少上述两项指标进行归一化后加权，确定该节点是否为关键任务位置。

在一种优选地实施例中，所述下游中设有缓存模块，用于根据获取实例的唯一身份码，去除重复处理结果。

有益效果

本申请所述技术方案能够有效缩短发生故障情况下的平均故障恢复时间。当故障发生在主动备份顶点上时，可以在秒级别内实现快速故障恢复。此外，本方案能够充分利用状态备份节点上计算资源利用率，可以有效提升这些节点的资源利用率至50％以上。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出本方案所述流处理平台的容错方法的示意图；

图2示出本方案所述加权有向无环图构建的示意图；

图3示出本方案所述备份状态下向下游发送处理结果的示意图；

图4示出本方案所述下游去掉重复处理结果的示意图；

图5示出本方案不同资源增加比例下的应用本技术方案的示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

Flink流处理平台中发生故障时，需重启整个应用拓扑，并将各个算子的全局一致状态分别拉回，源头算子根据拉回的状态再进行相应的数据重放，该全局故障恢复时间较长。主动备份是可靠性理论中故障恢复时间最快的容错手段。因此本方案中在Flink原有的容错机制中结合主动备份的机制。然而，尽管主动备份可以实现故障时的迅速故障恢复，但其高昂的计算资源开销往往是现在大规模计算场景下所不能接受的。因此，本方案中采用部分主动备份机制，即在资源约束的条件下为任务拓扑中最为关键的前N个任务执行主动备份，在提高应用平均故障恢复时间的同时又不至于引入高昂的资源开销。在预实验中观察到状态快照的存储节点往往CPU计算资源利用率较低，为了充分利用这部分资源，本方案将主动备份的顶点安排在这些存储状态的节点上，达到提高资源利用率的目的。

如图1所示，本方案公开了一种基于关键任务部分主动备份的用于流处理平台的容错方法。该方法中需要先确定流处理平台网络拓扑中关键任务的位置。本方案中，根据网络拓扑中影响某一顶点重要度的参考指标，对其是否关键任务进行评定，其中，该顶点的布局连通性和传播影响能力可以作为影响顶点的重要参考指标；确定参考指标后，将至少上述两项指标进行归一化后加权，确定该节点是否为关键任务位置。确定完关键任务位置后，对所述关键任务位置至少备份一次；优选地，将关键任务位置备份一次；备份后的每个关键任务位置对同一上游实例产生的元组进行处理；将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。其中，所述处理结果中仅有一个处理结果作为下游的实例。

本方案中，为了避免下游对相同处理结果进行处理，本方案中，下游可以维护一个固定大小的缓存来保存已获取实例的唯一身份码，从而去除重复处理结果。

进一步地，本方案还提供了一种流处理平台，该平台包括：挖掘单元，用于挖掘流处理平台网络拓扑中关键任务位置；备份单元，将关键任务位置进行至少一次备份；多个相同的关键任务位置，对同一上游实例产生的元组进行处理，并将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游；缓存模块，用于根据获取实例的唯一身份码，去除重复处理结果。

本方案中，所述挖掘单元具体执行如下步骤：将某一顶点对拓扑局部连通性的影响程度和传播影响能力作为参考指标；将至少上述两项指标进行归一化后加权，确定该节点是否为关键任务位置。

在选择主动备份任务时，为了确定不同任务之间的关键度排序，本方案引入复杂网络关键顶点挖掘的相关理论，从拓扑结构、连通性等多维角度分析顶点的关键度，并综合不同分析方法的计算结果，从而得到最终的任务重要度排序结果。一方面，本方案从网络连通性角度分析顶点的关键度，认为在网络中移除某个顶点后导致整个网络的局部连通性越差，则该顶点越重要、越关键。另一方面，本方案采用改进的PageRank方法分析某个顶点在整个图中传播的影响能力，从而确定顶点的关键程度。指向某个顶点的有向边越多，说明该顶点越经常被使用，认为其影响能力也越大。最后，将上述两种关键度结算结果分别归一化后加权求和得到最终结果。

根据最终的关键度排序结果，结合可利用的计算资源，为关键任务执行主动备份。如图3所示，假设经过计算，确定算子B为关键任务位置，需要为算子B进行主动备份(B的上游为A，下游为C)，主从实例分别记作B1、B2。如图3-(a)所示，在正常备份状态时，执行主动备份的顶点B1与B2并无主次之分，同时接收来自上游实例A的元组，同时执行相同的运算并产生相同的结果，最终均将产生的结果发送至下游实例C。如图3-(b)所示，现假设B1发生了故障，将不能继续向下游输出元组，但是由于B2的存在，C完全不会感知到故障的发生。然而，由于B1和B2同时给C传递了相同的元组，可能造成相同元组的重复处理。如图4所示，为了保证恰好一次的语义，下游算子C还需要通过维护固定大小的闪存cache来保存已处理元组的唯一ID，从而进行元组的去重。

如图4所示，实现元组恰好处理一次，实际就是C要区分经由B1或B2发送过来的元组是否由同一个元组处理所产生。因此A在向B发送元组时需要加上唯一标识，此处可以使用UUID来区分A发出的不同元组。B1或B2在处理A发出的元组，会产生新的元组，并且可能产生多个(由应用逻辑决定)。然而，一般情况下产生的多个元组间的先后顺序不会发生变化。因此，若B1与B2在向下游发送元组时使用“UUID-k”这样的格式作为元组的唯一标识(其中k表示该元组是上游发送过来的唯一标识为“UUID”的元组处理产生的第k个结果)，则可以对不同元组进行区分，相同的元组将具有相同的“UUID-k”标识

经过上述步骤，即可在流处理平台中实现部分主动备份与检查点容错机制的结合，从而缩短平均故障恢复时间，提升集群计算资源的利用率。

下面通过实例对本方案作进一步说明。

本实施例基于应用拓扑构建加权有向无环图。具体地，流处理应用属于时间敏感型的应用，可以使用元组的网络传输时间作为边的权值，使用元组的处理延迟及排队等待时间作为顶点的权值。在一个AOE网中，顶点只是表示事件，而边上的权值表示活动持续的时间。为了将顶点的权值与边的权值统一化表示，可以将顶点的权值附加至指向其的有向边上。对于存在多个源点或多个汇点的顶点，可以虚拟出一个公共顶点作为源点或汇点。

根据重要参数指标对关键任务进行挖掘。具体地，分别采用基于网络连通性的方法与改进的PageRank算法对任务拓扑中的任务顶点进行关键度排序，并在资源约束的条件下，综合两种关键度排序方法选择出前若干个关键任务。

a)基于网络连通性的关键任务挖掘

如图2所示，在一个网络中，移除顶点v_i及与顶点v_i邻接的边后，v_i的邻居顶点间仍保持连通的顶点对数称为顶点v_i的邻居连通度。记s_i表示顶点v_i的邻居连通度，k_i表示顶点v_i的度数。根据公式

计算得到各个顶点的关键度，从而得到所有顶点的一种关键度排序，I(v_i)的结果越大，则表明顶点v_i越关键。

b)基于改进的PageRank算法的关键任务挖掘

传统针对无权有向图，可以利用公式

进行迭代计算直至收敛。其中PR(v_i)表示顶点v_i的重要度，β(β∈(0，1))为阻尼系数，n为拓扑图中顶点的数量，d_out(v_j)表示顶点v_j的出度。为了将PageRank算法应用于加权有向图，我们按照公式

迭代计算顶点的关键度。其中w_ji表示顶点v_j指向顶点v_i的有向边的权值，若不存在有向边则该值为O。公式中

项使用权值描述顶点的转移概率。

c)资源约束条件下关键任务选举

假设作业拓扑图中包含v₁，v₂，...，v_n一共n个顶点，使用基于网络连通性的方法计算出的关键度分别为I(v₁)，I(v₂)，...，I(v_n)，使用基于改进的PageRank算法计算出的关键度分别为V(v₁)，V(v₂)，...，V(v_n)。根据如下规则计算每个顶点的得分作为该任务顶点的关键度：为顶点v_i积

分，其中β可取值为1-α。根据可利用闲余资源比例选择前若干个关键任务顶点进行主动备份。

面向关键任务的部分主动备份。该步骤中在选择出前N个最为关键的任务后，需要为这些关键的任务添加各自的主动备份实例。在实现主动备份时，主从实例均存在连接所有上游实例与下游实例的通信链路。为了在该容错模式下，保证元组恰好一次地被处理，当一个应用或算子的处理逻辑不具有幂等性时，需要额外的机制来保证恰好一次语义。具体方法为：下游实例需要具有一个cache来存储处理过的元组的唯一标识，并采用“最老替换”的原则进行cache的更新。在确定cache容量大小时，可以根据算子的应用逻辑使用排队论大致估算元组的延迟，并结合输入速率λ一起确定较为合适的cache容量。

如图5-(a)所示，采用在9个虚拟机节点(采用Intel(R)Xeon(R)CPU E5-2620v2@2.10GHz为例)搭建的集群环境下的实验拓扑对方案进行实验验证。图5-(b)为10％资源增加比例；图5-(c)为20％资源增加比例；图5-(d)为30％资源增加比例。如图5-(b)、5-(c)、5-(d)所示，采用本技术方案后的实验结果表明，在未启用主动备份机制时，故障恢复时间约为30秒，当资源增加比例分别为10％、20％、30％的情况下，平均故障恢复时间可达到24.8秒、20.5秒、17秒。

经过实验测试，本方案可以有效缩短发生故障情况下的平均故障恢复时间。当故障发生在主动备份顶点上时，可以在秒级别内实现快速故障恢复。本方案能够充分利用状态备份节点上计算资源利用率的目的，可以有效提升这些节点的资源利用率至50％以上。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种基于关键任务部分主动备份的容错方法，其特征在于，该方法的步骤包括：

对所述关键任务位置至少备份一次；

将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游；

所述对所述关键任务位置进行备份步骤的前一步包括：

挖掘流处理平台网络拓扑中关键任务位置；

所述挖掘流处理平台网络拓扑中关键任务位置的步骤包括：

基于网络连通性的关键任务挖掘顶点的第一关键度，得到所有顶点的第一关键度排序并基于改进的PageRank算法进行关键任务挖掘，按照公式迭代计算顶点的第二关键度，其中w_ji表示顶点v_j指向顶点v_i的有向边的权值，若不存在有向边则该值为0，PR(v_i)表示顶点v_i的重要度，β(β∈(0，1))为阻尼系数，n为拓扑图中顶点的数量，d_ott(v_j)表示顶点v_j的出度；

使用元组的网络传输时间作为边的权值，使用元组的处理延迟及排队等待时间作为顶点的权值，将顶点的权值附加至指向其的有向边上；

将顶点的第一关键度和第二关键度进行归一化后加权，确定该顶点是否为关键任务位置；

所述处理结果中的一个作为下游的实例；

该方法的步骤还包括：

下游根据获取实例的唯一身份码，去除重复处理结果；

下游具有一个cache来存储处理过的元组的唯一标识，并采用“最老替换”的原则进行cache的更新，根据算子的应用逻辑使用排队论估算元组的延迟，并结合输入速率一起确定合适的cache容量。

2.一种流处理平台，其特征在于，该平台包括：

备份单元，将关键任务位置进行至少一次备份；

多个相同的关键任务位置，对同一上游实例产生的元组进行处理，并将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游；

该平台还包括：挖掘单元，用于挖掘流处理平台网络拓扑中关键任务位置；

所述挖掘单元具体执行如下步骤：将某一顶点对拓扑局部连通性的影响程度和传播影响能力作为参考指标；基于网络连通性的关键任务挖掘顶点的第一关键度，得到所有顶点的第一关键度排序并基于改进的PageRank算法进行关键任务挖掘，按照公式迭代计算顶点的第二关键度，其中w_fi表示顶点v_j指向顶点v_i的有向边的权值，若不存在有向边则该值为0，PR(v_i)表示顶点v_i的重要度，β(β∈(0，1))为阻尼系数，n为拓扑图中顶点的数量，d_put(v_f)表示顶点v_j的出度；使用元组的网络传输时间作为边的权值，使用元组的处理延迟及排队等待时间作为顶点的权值，将顶点的权值附加至指向其的有向边上；将顶点的第一关键度和第二关键度进行归一化后加权，确定该顶点是否为关键任务位置；

所述处理结果中的一个作为下游的实例；

所述下游中设有缓存模块，用于根据获取实例的唯一身份码，去除重复处理结果；