CN105893541A

CN105893541A - 一种基于混合存储的流式数据自适应持久化方法及系统

Info

Publication number: CN105893541A
Application number: CN201610197157.7A
Authority: CN
Inventors: 黄涛; 钟华; 魏峻; 王伟; 唐震; 段世凯
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-24
Anticipated expiration: 2036-03-31
Also published as: CN105893541B

Abstract

本发明一种基于混合存储的流式数据自适应持久化方法及系统，包括实时采集流式数据处理系统的状态特征信息；建立基于机器学习的多元线性回归模型，根据采集的状态特征信息估计模型参数；根据当前流式数据处理系统状态特征信息和建立的回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小；流式数据处理系统根据第得出的持久化窗口大小更改其当前的持久化窗口，将流数据处理过程中的中间状态或计算结果保存到固态硬盘中；当固态硬盘中的数据容量达到一定程度时，再将固态硬盘中的数据保存到普通硬盘上。本发明可以根据当前及历史状态信息，计算出此刻持久化窗口的大小，进而动态适配流式数据速率不稳定的情况，保证了系统在易用性和一致性之间的平衡。

Description

一种基于混合存储的流式数据自适应持久化方法及系统

技术领域

本发明涉及一种基于混合存储的流式数据自适应持久化方法及系统，属于软件技术领域。

背景技术

随着云计算、物联网、社交媒体等信息技术和应用模式的快速发展，流式数据逐渐成为信息化系统中一类关键的数据形式。典型运用领域中，流式大数据具有实时性、易失性、突发性、无序性和无限性等特征(参见文献：孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862.)。在诸如物联网领域，我们需要将数据流快速存储到非易失介质中，而在可靠性要求较高的金融领域；我们需要将节点的中间状态和计算结果存储下来，保存到非易失存储介质中以便能够进行失效恢复：流式数据处理中，数据如何及时有效的存入到非易失介质中是应用建设的一个重点。

在存储数据时，主流的商业产品一般有两种存储方式：同步存储和异步存储。同步存储是指在数据写入内存的同时，持久化到非易失存储介质中，如果持久化到非易失存储介质失败，则数据写入内存也失败，这种方式具有高可靠性保证，但易用性差，延迟较高；异步存储是指数据先缓存到例如队列这样的数据结构中，等到持久化周期到来时，一次性将这些数据写入到非易失存储介质中，这种方法具有高吞吐量，易用性好等特点，但是非易失存储介质中的数据相比内存中的数据会存在一定的延迟，一致性差。

以上两种方法无论是在流数据处理情景还是在批量数据情景下都是较为通用的方法。对数据准确性要求高而系统处理能力要求低的系统，偏向于选择同步存储的方法；而对于数据准确性要求宽松系统处理能力要求高的系统，偏向于选择异步存储的方法。大多数流式数据处理系统如Hazelcast,Puma都提供了这两种解决方案供用户选择。

针对异步存储，较为通用的做法是设置存储窗口，当窗口到达持久化存储触发条件时，一次性将窗口中的数据持久化到非易失存储介质中。此阶段中，窗口大小的设置成为影响系统处理性能和数据一致性的关键问题所在。一方面，当窗口较小时，持久化周期短，触发频率高，这样非易失存储介质中的数据一致性高，延迟低，但频繁的触发持久化，会较多的占用CPU等系统资源，影响系统的处理性能，系统可用性降低；另一方面，当窗口较大时，持久化周期长，触发频率低，批量写入非易失存储介质的量大，平均写入速度快，但数据的一致性低。

在流式数据处理需要存储数据(可能是流式数据本身，也可能是处理过程中产生的中间状态和计算结果)的场景中，其处理性能一方面受限于持久化窗口的大小，另外一方面受限于非持久化存储介质的读写性能。固态硬盘(SSD)在最近几年得到越来越多的关注，各大互联网公司都有大量基于固态硬盘的运用，比较成功的案例是SAP公司推出的内存计算产品HANA系统使用的就是固态硬盘作为存储解决方案，非常适用于需要快速存储和读取数据的场景。而流式数据对系统的性能要求高，需要能够快速的处理和存储中间状态和处理结果，这使得采用固态硬盘作为存储介质能够快速保存流式数据处理节点的中间状态和处理结果。而且失效恢复时，能够快速的从固态硬盘中读取数据进行恢复。

主流的商业产品中，都提供了流式数据的持久化接口，方便用户能够及时将内存中的数据备份到非易失存储介质中，然而这些持久化接口中关于持久化窗口大小的配置都是固定值。用户给定的固定值具有以下几个缺点：

(1)固定值往往很难确定，缺乏经验的用户往往无法一次性给定较为合理的窗口大小值，而且即使是经验较为丰富的用户，在面临复杂的运用场景中，也无法准确估计窗口大小；

(2)流式数据具有突发性的特征，即数据源发送的数据的速率往往不是一成不变的，而是会有较大的波动，固定窗口无法自适应这种波动，若给定的窗口太小，则触发持久化的频率过高，会占用较多的CPU等系统资源，使得节点的处理能力下降；若给定的窗口过大，而流式数据的速率较慢，则使得系统资源闲置，且机器宕机时，丢失的信息较多，可靠性差；

发明内容

本发明的目的在于：克服现有的流式数据持久化中窗口固定不变的问题，提出一种基于混合存储的流式数据自适应持久化方法，可以根据当前及历史状态信息，计算出此刻持久化窗口的大小，进而动态适配流式数据速率不稳定的情况，保证了系统在易用性和一致性之间的平衡。

为了达到上述技术目的，本发明采用如下技术方案：

一种基于混合存储的流式数据自适应持久化方法，包括以下步骤：

1)实时采集流式数据处理系统的状态特征信息；

2)建立基于机器学习的多元线性回归模型，根据采集的状态特征信息估计模型参数；

3)根据当前流式数据处理系统状态特征信息和第(2)步建立的回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小；

4)流式数据处理系统根据第(3)步得出的持久化窗口大小更改其当前的持久化窗口，将流数据处理过程中的中间状态或计算结果保存到固态硬盘中；

5)当固态硬盘中的数据容量达到一定程度(固态硬盘的使用率占到了80％)时，再将固态硬盘中的数据保存到普通硬盘上。

上述步骤中构建一个系统性能评价模型的方法为：

1、选取流式数据处理系统的状态特征

从流式数据处理系统内部运行状态和非易失性数据库运行状态这两方面来提取特征，结果如表1所示：

表1.流式数据处理系统特征表

采集到以上八种系统状态特征，按照系统易用性相关和系统一致性相关分为两类：

系统易用性相关：CPU使用率(C)，内存使用率(M)，网络速率(F)，固态硬盘使用率(U)；

系统一致性相关：流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)。

2、构建系统性能评价模型

在选定评价系统性能特征和采集对应的参数后，将问题简化为根据X＝(C,M,F,U,V,D,P,Z)，来预测窗口大小W的值。这是一个多元回归分析模型。本发明采用简单实用、应用广泛的多元线性回归模型作为回归模型，采用逐步回归方法来解模。具体方法如下：

W和X(C,M,F,U,V,D,P,Z)的线性回归模型为：

w＝β₀+β₁x₁+β₂x₂+β₃x₃+…+β_nx_n+ε (3.1)

注：这里为了叙述方便，X向量的各个分量(C,M,F,U,V,D,P,Z)分别用(x₁,x₂,...,x_n)来表示。β₀为回归常数，β_i(1≤i≤n)为偏回归系数，ε为随机误差，ε～(0,σ²)。对于m组观察数据(x_i,1,x_i,2,x_i,2,...,x_i,n:w_i),i＝1,2,3,...,m，线性回归模型(3.1)式可以表示为：

w_i＝β₀+β₁x_i,1+β₂x_i,2+β₃x_i,3+…+β_nx_i,n+ε_i,i＝1,2,...,m (3.2)

写成矩阵形式为：

W＝XΒ+Ε (3.3)

回归理论模型确定后，利用收集、整理的样本数据对模型的未知参数给出估计。这里采用逐步回归法构建线性模型，由于模型中变量较多而且每个变量的预测能力不同，变量之间有存在多重共线性会降低模型精度，逐步回归是一种常用的消除多重共线性，构建最优回归模型的方法。其基本思想是采用F检验逐个引入自变量，引入的条件是该自变量经F检验是显著的。每次引入一个变量，需要对已经选入的变量进行检验，如果已有变量由于新变量的引入变得不再显著，就将其剔除。反复执行这个过程，直到不再有变量被选入或剔除位置。(参考文献：Wang Y,Witten I H.Pace regression[J].1999.)

上述步骤中构建基于混合存储的流式数据自适应持久化框架方法为：

基于混合存储的流式数据自适应持久化框架由监控器、分析器、决策器、执行器四个部分组成，是轻量级框架，可以方便的嵌入到流式数据系统中。基于混合存储的流式数据自适应持久化框架和流式数据处理系统的集成图见图1，自适应持久化框架的执行流程见图2。

监控器，主要负责定时八种收集系统的历史状态特征信息，在决策器做决策时收集系统的当前状态特征信息以及在框架做出决策后对模型的执行结果进行反馈；

分析器，主要负责获取监控器采集的系统历史状态特征信息并对其进行预处理，建立多元线性回归模型，采用逐步回归方法训练模型，估计模型参数；

决策器，主要负责根据分析器建立的模型和监控器采集得到的系统当前状态特征信息来计算当前状态下的最优持久化窗口大小；

执行器，根据决策器计算的最优持久化窗口和系统当前实际持久化窗口决定是否对窗口进行调整，如果需要调整，则向流式数据处理系统发送调整窗口指令，改变流式数据持久化窗口尺寸为决策器计算得到的最优窗口尺寸；

所述监控器负责获取监控器采集的系统历史状态特征信息并对其进行预处理，建立多元线性回归模型，采用逐步回归方法训练模型，估计模型参数的过程如下：

(1)建立的多元线性回归模型为：

w＝β₀+β₁x₁+β₂x₂+β₃x₃+β₄x₄+β₅x₅+β₆x₆+β₇x₇+β₈x₈+ε (3.3)

x_i(1≤i≤8)为采集的流式数据处理系统的特征值，即(C,M,F,U,V,D,P,Z)，β₀为回归常数，β_i(1≤i≤8)为偏回归系数，ε为随机误差，ε～(0,σ²)。

(2)一段时间内，构建的流式数据自适应持久化框架采集的流式数据处理系统的特征值，假设采集了m组观察数据(x_i,1,x_i,2,x_i,2,...,x_i,n:w_i),i＝1,2,3,...,m，则带入该m组数据后，该线性回归模型可以表示为：

\{\begin{matrix} w_{1} = β_{0} + β_{1} x_{1, 1} + β_{2} x_{1, 2} + β_{3} x_{1, 3} + ... + β_{8} x_{1, 8} + {&Element;}_{1} \\ w_{2} = β_{0} + β_{1} x_{2, 1} + β_{2} x_{2, 2} + β_{3} x_{2, 3} + ... + β_{8} x_{2, 8} + {&Element;}_{2} \\ . \\ . \\ . \\ w_{m} = β_{0} + β_{1} x_{m, 1} + β_{2} x_{m, 2} + β_{3} x_{m, 3} + ... + β_{8} x_{m, 8} + {&Element;}_{m} \end{matrix} - - - (3.4)

(3)采用逐步回归方法，迭代选取最优的系统状态特征信息集合。首先初始化该集合为空集，每次从剩余的系统状态特征信息中选取一个最优特征加入到集合中，重复执行该过程，直到系统状态特征全部被选取或者选取的系统状态特征集合的性能无法提升为止，由此得到最优系统状态特征信息集合并根据该集合计算得到回归模型：

w = \hat{β_{0}} + + \hat{β_{1}} x_{1} + \hat{β_{2}} x_{2} + \hat{β_{3}} x_{3} + \hat{β_{4}} x_{4} + \hat{β_{5}} x_{5} + \hat{β_{6}} x_{6} + \hat{β_{7}} x_{7} + \hat{β_{8}} x_{8} - - - (3.5)

所述执行器根据决策器计算的最优持久化窗口的过程及计算公式为：

(1)监控器采集分布式处理系统的当前特征值(C,M,F,U,V,D,P,Z)

(2)将当前特征值代入到公式(3.5)中，计算得到最优持久化窗口大小为：

w = \hat{β_{0}} + + \hat{β_{1}} C + \hat{β_{2}} M + \hat{β_{3}} F + \hat{β_{4}} U + \hat{β_{5}} V + \hat{β_{6}} D + \hat{β_{7}} P + \hat{β_{8}} Z

本发明与现有技术相比的优点在于：

(1)本发明采用机器学习模型，解决了传统方法中流式数据的持久化窗口固定不变的问题，使得流式数据的持久化窗口能够根据当前及历史状态信息，动态调整持久化窗口大小以匹配流式数据速率变化的情况，从而保证了系统在易用性和一致性之间的平衡。

(2)为了保证数据存储是高效快速的，本发明采用了“SSD+HDD”的混合存储结构。这样一方面可以使得数据恢复时，能够直接从固态硬盘中快速读取保存的中间状态和计算结果，还能够保证拥有较高的IOPS(Input/Output Per Second，每秒读写次数)的固态硬盘能够适应动态变化的流数据写入速率，使性能好、价格高的固态盘在存储过程中发挥杠杆作用，让系统以接近机械硬盘的价格提供近似固态盘的性能。

附图说明

图1为本发明基于混合存储的流式数据自适应持久化框架和流式数据处理系统的集成图；

图2为本发明批量存储窗口的自适应调节框架执行流程图；

图3为本发明监控器采集系统状态特征信息图；

图4为本发明决策器执行过程图；

图5为本发明模型反馈过程图。

具体实施方式

以下结合具体实施例和附图对本发明进行详细说明。

本实例以Java语言为编程语言，以Hazelcast作为流式数据处理平台，应用场景为需要对流入Hazelcast处理系统中的数据流(该数据流可以是流式处理中的中间状态和计算结果，也可以是流式数据本身)异步持久化到非易失存储介质中。

如图1所示，本发明提出的基于混合存储的流式数据自适应持久化系统，可以分为监控器、分析器、决策器、执行器四个部分，底层采用“SSD+HDD”的混合存储方式对流式数据进行持久化存储，整套方法运用于流式数据处理系统。

如图2所示，首先，监控器会实时采集流式数据处理系统的状态特征信息，然后将这些特征信息交给分析器，接着，分析器建立多元线性回归模型，并根据监控器采集而来的状态特征信息估计模型参数，然后，决策器根据分析器建立的模型以及监控器采集的系统当前状态特征信息，计算得到最优持久化窗口大小，最后，执行器调整流式数据处理系统的持久化窗口大小为决策器计算得到的最优持久化窗口大小，同时为了进一步提高模型的精度，评估流式数据处理系统更改持久化窗口大小后的系统性能变化，需要对分析器建立的模型进行反馈，在这样不断迭代过程中逐步优化模型。

下面具体阐述每个步骤：

1、监控器监控和采集系统状态特征数据的方法

(1)CPU使用率、内存使用率、固态硬盘使用率、GC情况

CPU使用率和内存使用率可以通过Java语言编写的定时程序实时获取，Java本身提供了JMX来提供对Java虚拟机的监控和管理，还可以采用FuseSource公司开发的sigar包提供的接口，来实时获取系统的运行状态，包括CPU使用率、内存使用率、磁盘使用率、网络设备等；

(2)流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)

这四种数据的统计需要在流式数据处理系统中引入轻量级监控器，能够检测流式数据的流速和延迟，编写方式非常简单，只需要在数据流入到系统前检测数据的平均流入速率和延迟以及数据从系统持久化到固态硬盘时的平均流出速率和延迟即可。

通过上述方法可对系统的状态特征进行监控和采样，将这些采样得到的数据持久化到系统的log文件中，为方便系统崩溃时，可以直接从log文件中读取采样信息进行恢复。(系统的状态特征信息参数见附图说明3)

2、分析器估计模型参数方法

为了得到较为精准的模型，摒弃无用的参数，本发明选用了逐步回归方法(参见文献：Wang Y,Witten I H.Pace regression[J].1999.)来估计模型参数。现有的机器学习包非常多，本发明推荐使用由新西兰怀卡托大学用Java开发的数据挖掘开源软件Weka,它提供了丰富的机器学习模型，而且提供了Java语言API和详细的说明文档，用户可以选用其中的逐步回归(Pace Regression)模型来进行建模和估计模型参数。

3、决策器计算当前系统状态下的最优窗口

决策器向监控器发送获取系统当前状态特征信息指令获取系统的当前状态，然后根据第2步中分析器建立的多元线性回归模型来对窗口进行预测，得到当前系统状态下的最优窗口。决策器的决策过程见图4。

如图4所示，本发明决策器执行过程：决策器计算得到最优窗口后，比较流式数据处理系统的当前持久化窗口，如果最优窗口大小和当前持久化窗口大小的偏差在阈值范围内，则不对当前窗口进行修改，同时决策器等待下次决策周期，并继续对窗口大小进行预测；如果最优窗口大小和当前持久化窗口大小的偏差超过阈值，则向流式数据处理系统发出更改窗口大小请求，修改流式数据处理系统的持久化窗口为决策器计算得到的最优窗口。

4、执行器比较最优窗口和当前窗口并根据比较结果执行窗口变更

执行器根据第3步中预测得出的最优窗口，跟当前流式数据处理系统中的持久化窗口进行比较，如果差值在允许范围内(如10％)，则不需要对窗口进行调整，如果超出了阈值，需要向流式数据处理系统发送调整持久化窗口指令。

5、模型反馈迭代优化模型

模型反馈是指在执行器改变窗口大小之后，记录当前系统的状态特征值，根据改变窗口对系统的影响来改进分析器模型，并将当前系统的状态特征值作为训练数据中的一个样本点来迭代优化模型。(模型反馈过程如图5.)

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于混合存储的流式数据自适应持久化方法，其特征在于包括以下步骤：

(1)实时采集流式数据处理系统的状态特征信息；状态特征信息分为两类：一种是系统易用性相关信息和系统一致性相关信息，系统易用性相关信息包括CPU使用率(C)，内存使用率(M)，网络速率(F)，固态硬盘使用率(U)；系统一致性相关包括流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)；

(2)建立基于机器学习的多元线性回归模型，根据采集的流式数据处理系统的状态特征信息采用逐步回归方法估计模型参数；

(3)根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小；

(4)流式数据处理系统根据步骤(3)得出的持久化窗口大小更改当前的持久化窗口，将流数据处理过程中的中间状态或计算结果等数据保存到固态硬盘中；

(5)当固态硬盘中的数据达到一定程度即固态硬盘的使用率占到了80％时，再将固态硬盘中的数据转移到普通硬盘上。

2.根据权利要求1所述的基于混合存储的流式数据自适应持久化方法，其特征在于：所述步骤(2)建立基于机器学习的多元线性回归模型，根据采集的状态特征信息估计模型参数的过程为：

(21)建立的多元线性回归模型为：

W＝β₀+β₁x₁+β₂x₂+β₃x₃+β₄x₄+β₅x₅+β₆x₆+β₇x₇+β₈x₈+∈

x_i，1≤i≤8为采集的流式数据处理系统的8种状态特征信息值，即CPU使用率(C)，内存使用率(M)，网络速率(F)，固态硬盘使用率(U)；系统一致性相关包括流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)；β₀为回归常数，β_i，1≤i≤8为偏回归系数，∈为随机误差，∈～(0,σ²)；W为最优持久化窗口大小；

(22)采集一段时间内的流式数据处理系统的状态特征信息，设采集了m组样本数据(x_i,1,x_i,2,x_i,2,…,x_i,n:w_i),i＝1,2,3,…,m；n＝8；x_i,k表示的是第i组数据的第k分量；w_i表示第i组数据的持久化窗口大小；

(23)采用逐步回归方法迭代选取最优的系统状态特征集合，进而求解多元线性回归模型，基本方法为：将最优的系统状态特征集合初始化为空集，每次从剩余的系统状态特征中选取一个经过F检验为显著的特征信息加入到该集合中，重复执行这样的选择过程，直到所选取的系统状态特征集合的性能无法提升为止，由此得到最优系统状态特征集合并根据该集合计算得到回归模型的解为：

3.根据权利要求1所述的基于混合存储的流式数据自适应持久化方法，其特征在于：所述步骤(3)根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小的过程：

(31)采集当前的流式数据处理系统的状态特征信息，假设其值为(C,M,F,U,V,D,P,Z)；

(32)将当前流式数据处理系统的状态特征值代入到上述采用逐步回归方法解出的模型中，计算得到最优持久化窗口大小为：

4.一种基于混合存储的流式数据自适应持久化系统，其特征在于包括监控器、分析器、决策器、执行器：

监控器，负责定时收集流式数据处理系统的历史状态特征信息，在决策器做决策时收集流式数据处理系统的当前状态特征信息以及在做出决策后对分析器建立的基于机器学习的多元线性回归模型的执行结果进行反馈，为下一次多元线性回归模型的优化提供数据；

分析器，获取监控器采集的系统历史状态特征信息并对其进行预处理，同时建立多元线性回归模型，采用逐步回归方法训练模型，估计模型参数；

决策器，负责根据分析器建立的模型和监控器采集得到的系统当前状态特征信息来计算当前状态下的最优持久化窗口大小；

执行器，根据决策器计算的最优持久化窗口和系统当前实际持久化窗口决定是否对窗口进行调整，如果需要调整，则向流式数据处理系统发送调整窗口指令，改变流式数据持久化窗口尺寸为决策器计算得到的最优窗口尺寸，按照最新调整的数据持久化窗口定期将数据持久化到固态硬盘中；当固态硬盘中的数据容量达到一定程度即固态硬盘的使用率占到了80％时，再将固态硬盘中的数据持久化到普通硬盘上。

5.根据权利要求4所述的基于混合存储的流式数据自适应持久化系统，其特征在于：所述分析器中，建立基于机器学习的多元线性回归模型，根据采集的状态特征信息估计模型参数的过程为：

(21)建立的多元线性回归模型为：

(22)采集一段时间内的流式数据处理系统的状态特征信息，设采集了m组样本数据(x_i,1,x_i,2,x_i,2,…,x_i,n：w_i),i＝1,2,3,…,m；n＝8；x_i,k表示的是第i组数据的第k分量；w_i表示第i组数据的持久化窗口大小；

6.根据权利要求4所述的基于混合存储的流式数据自适应持久化系统，其特征在于：所述决策器中，计算当前状态下的最优持久化窗口大小的过程：