CN111523565B

CN111523565B - 一种大数据的流式处理方法、系统及存储介质

Info

Publication number: CN111523565B
Application number: CN202010239053.4A
Authority: CN
Inventors: 郑美光; 彭缘缘; 谢金定
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-06-20
Anticipated expiration: 2040-03-30
Also published as: CN111523565A

Abstract

本发明涉及大数据处理技术领域，公开了一种大数据的流式处理方法、系统及存储介质，以对云资源进行合理伸缩避免出现调整抖动现象；该方法包括：采集历史的流处理应用性能资源需求量，将采集的数据划分为训练集和测试集；采用聚类算法对训练集进行聚类；根据聚类结果确定隐状态数，并根据隐状态数确定多维连续隐马尔可夫模型；根据多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况；若是，则估计任务处理所需时间，将任务处理所需时间与预设的延迟约束时间做比较，若任务处理所需时间超过预设的延迟约束时间，则调整当前时刻的下一个时刻部署在云资源上的流式系统的资源量大小。

Description

一种大数据的流式处理方法、系统及存储介质

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种大数据的流式处理方法、系统及存储介质。

背景技术

流式计算是面向大数据计算的重要形态之一，流式数据大都呈现出实时性、易失性、突发性、无序性、无限性等特征。随着新兴的实时处理要求，传统的数据管理系统在处理大量数据时非常昂贵，并且它们无法应对流应用的实时处理需求。云计算允许用户低成本按需获取/释放资源，在弹性环境中快速部署应用程序。当前云平台还托管许多流数据处理系统来满足用户的基本需求，例如storm，spark，但是这些流处理系统在资源的弹性分配、负载均衡等方面仍存在不足。在分布式并行数据流处理中，面向实时变化且具有突发性的流数据负载，固定的资源分配将造成资源浪费或服务质量降低，因此，流式处理系统中可伸缩的弹性资源分配是一个亟待解决的关键问题。

从弹性资源调整的时机上，不同的策略可以通过延时调整或预先调整来触发云平台中的自动伸缩操作，其中，延时调整是在出现资源不足或过量时进行资源的调整，预先调整是在资源需求量波动尚未到达操作之前，使用基于历史资源需求量预测未来资源需求量的主动伸缩方法，预先启动资源调整，在云计算中广泛采用。

由于资源分配延迟和负载预测模型存在误差，弹性资源调度在流数据处理中面临多方面的挑战，例如，已有的云计算弹性资源分配策略无法准确地提供与系统负载相匹配的资源；流数据处理系统存在不必要的反复资源调整，即调整抖动，增加了系统开销；目前大多研究并未考虑部署在流数据处理系统中各应用的差异性，不能准确有效提供影响各应用处理性能的资源。

发明内容

本发明目的在于提供一种大数据的流式处理方法、系统及存储介质，以对云资源进行合理伸缩避免出现调整抖动现象。

为实现上述目的，本发明提供了一种大数据的流式处理方法，包括以下步骤：

采集历史的流处理应用性能资源需求量，将所采集的数据划分为训练集和测试集；

采用聚类算法对所述训练集进行聚类；

根据聚类结果确定隐状态数，并根据所述隐状态数及流处理应用的性能瓶颈资源个数确定多维连续隐马尔可夫模型；

根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况；

若是，则估计任务处理所需时间，将所述任务处理所需时间与预设的延迟约束时间做比较，若所述任务处理所需时间超过所述预设的延迟约束时间，则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小。

优选地，还包括以下步骤：采用所述测试集测试所述多维连续隐马尔可夫模型的准确率，若所述准确率超过设定的误差阈值，则获取最新的流式数据重新训练所述多维连续隐马尔可夫模型，直至所述多维连续隐马尔可夫模型的准确率低于所述设定的误差阈值。

优选地，所述根据所述多维连续隐马尔可夫模型的预测确定是否发生突增情况具体包括：

将当前时刻视为T时刻，获取T时刻的流处理应用性能瓶颈资源需求量，根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量；

将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较；

若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量，则视为发生了突增情况。

优选地，若没有发生突增情况，则判断：

是否与预设的第一条件一致，若与第一条件一致，则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T+2时刻的流处理应用性能瓶颈资源需求量；

若不与第一条件一致，则判断是否与预设的第二条件一致，若与第二条件一致，则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T+1时刻的流处理应用性能瓶颈资源需求量；

若不与第二条件一致，则判断是否与预设的第三条件一致，若与第三条件一致，则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量；

其中，所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增；所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减；所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量，且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量。

优选地，所述估计任务处理所需时间，将所述任务处理所需时间与预设的延迟约束时间做比较，若所述任务处理所需时间超过所述预设的延迟约束时间，则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小具体包括：

解析用户对于处理任务的延迟约束时间信息；

对所述任务的任务状态进行监控，根据监测结果和设定的排队论原理计算的相关时间信息，所述相关时间信息包括任务处理等待时间和任务执行时间；

将所述任务的相关时间信息与所述延迟约束时间信息进行比较，得到比较结果；

监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量，得到监测数据；

根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型，根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量；

根据预测结果与所述比较结果调整资源伸缩策略以指导云资源伸缩。

优选地，所述流处理应用性能瓶颈资源需求量包括CPU、内存、或者带宽中的一种或者任意几种的组合。

作为一个总的发明构思，本发明还提供一种大数据的流式处理系统，包括：

采集模块，用于采集历史的流处理应用性能资源需求量，将所采集数据划分为训练集和测试集；

聚类模块，用于采用聚类算法对所述训练集进行聚类；

制定模型模块，用于根据聚类结果确定隐状态数，并根据所述隐状态数及流处理应用性能瓶颈资源个数确定多维连续隐马尔可夫模型；

预测模块，用于根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况；

计算调整模块，用于当发生突增情况时，估计任务处理所需时间，将所述任务处理所需时间与预设的延迟约束时间做比较，若所述任务处理所需时间超过所述预设的延迟约束时间，则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小。

优选地，所述计算调整模块具体包括：

服务质量需求解析器，用于解析用户对于处理任务的延迟约束时间信息；

任务状态监控器，用于对所述任务的任务状态进行监控，并获取任务的相关时间信息，所述相关时间信息包括任务处理等待时间和任务执行时间；

比较器，用于将所述任务的相关时间信息与所述延迟约束时间信息进行比较，得到比较结果；

资源监测器，用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量，得到监测数据；

需求量预测器，用于根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型，资源需求量预测器将预测结果传输给资源分配器；

资源分配器，用于结合上述预测结果和所述比较结果调整资源伸缩策略以指导云资源伸缩。

作为一个总的发明构思，本发明还提供一种计算机存储介质，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明具有以下有益效果：

本发明提供的一种大数据的流式处理方法、系统及存储介质，该方法通过采用多维连续隐马尔可夫模型对未来时刻的流处理应用性能瓶颈资源进行双步预测，根据预测结果判断是否发生突增情况，当发生突增情况的时候，估计任务处理所需时间，将所述任务处理所需时间与预设的延迟约束时间做比较，若所述任务处理所需时间超过所述预设的延迟约束时间，则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小，该方法可以提前获知未来时刻的流处理应用性能瓶颈资源需求量，并可以对云资源进行合理伸缩避免出现调整抖动现象。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的大数据的流式处理方法流程图；

图2是本发明优选实施例的性能瓶颈资源CPU实际和预测比较情况示意图；

图3是本发明优选实施例的性能瓶颈资源内存实际和预测比较情况示意图；

图4是本发明优选实施例的资源调整次数与LMD-HMM方法资源调整次数的实验结果比较情况示意图；

图5是本发明优选实施例的大数据的流式处理系统的结构示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

如图1所示，本实施例提供一种大数据的流式处理方法，包括以下步骤：

采集待处理的流式大数据，将流式大数据划分为训练集和测试集；

首先，流数据处理系统按每个流事件的要求接收来自各种数据源的用户请求数据流，目前已有的分布式流数据处理系统有Kafka和Flume等。流式计算系统提供与Storm和Spark类似服务，通过在系统中部署流处理应用，接收流数据处理系统集成的数据流并提供连续的、实时的计算服务。采用聚类算法对训练集进行聚类。

本实施例中，采用的聚类算法为K-means聚类算法，根据K-means聚类算法进行聚类后，可以增快后续的根据聚类结果确定隐状态数的速度。

进一步地，根据聚类结果确定隐状态数，并根据隐状态数确定多维连续隐马尔可夫模型。

需要说明的是，隐马尔可夫模型(Hidden Markov Model，HMM)是一个针对时间序列数据的建模、分析的统计学工具，建立隐状态之间以及隐状态和观测值之间的概率分布联系。隐马尔科夫模型观测序列观测到的值称为观测状态，状态转移过程中的状态称为隐状态。通常，一个标准的隐马尔科夫模型可以用λ＝{N，M，π，A，B}五元组表示，其中N为隐状态个数，M为每个隐状态下观测值个数，π为初始隐状态概率分布向量，A为隐状态转移概率矩阵。当观测值离散时，B为观测值的概率矩阵，当观测值连续时，B为观测值的概率密度函数。

本实施例中，观测时间序列为应用的各性能瓶颈资源需求量。假设应用A_x有R个性能瓶颈资源,在时刻t，其观测值记为o_t，o_t是一个R维向量，

其中/>

表示在时刻t性能瓶颈资源r的观测值。在T个时间窗口内，应用A_x性能瓶颈资源的需求量观测序列由o_t组成，记为O＝{o₁，o₂，...，o_t，...，o_T}。如应用A_x性能瓶颈是CPU、内存和网络，即R＝3。

流式大数据的产生完全由数据源确定，由于不同数据源在不同时空范围内会发生动态变化，导致流入流式计算系统的数据存在较大的波动性，如果在某个持续时间很短的时间段Δt内出现突发数据，且Δt又是基本的流式数据处理单元时间，则可能出现调整抖动，导致资源调整出现短暂的反复，增加了不必要的调整开销。如果在时间段Δt内出现突发数据，而当前系统的资源量又不会造成应用的执行时间违反延迟约束，则可以考虑取消调整以减少调整代价。为避免调整抖动，本实施例提出基于预测T+1、T+2时刻资源需求量的调整策略。

本实施例中，以流式计算系统历史记录在前T个时刻R个性能瓶颈资源需求量的观测序列为基础，通过为每个流式应用A_x建立连续隐马尔科夫模型λ_x＝{R，N，M，π，A，ω，μ，∑}，分析得出系统在T+1、T+2时刻的性能瓶颈资源需求量，从而为系统后续弹性伸缩策略作出决策。

对流式应用A_x建立其连续隐马尔可夫模型λ_x。其中，本实施例中，R表示流式应用A_x的性能瓶颈资源数，模型的隐状态数N，可由传统的BIC(Bayesian InformationCriterion)方法确定。为避免BIC方法固有的存在过多候选模型(隐状态数选择多)复杂度过大的缺点，本实施例利用K-Means算法将全部样本数据聚为N'类，再采用BIC方法对N'进行评估确定最终的隐状态数N。隐状态集记为S＝{S₁，S₂，…，S_N}，任意时刻，各应用都处于N个隐状态中的一个。时刻t的隐状态记为q_t，q_t∈S，隐状态q₁为初始状态。

初始状态概率分布向量π＝(π_i)_1*N，π_i＝P(q₁＝S_i)，1≤i≤N，

假设应用A_x的初始状态等概率为状态集S中的任意一个，即π_i的训练初始值为

隐状态转移概率矩阵A＝(a_ij)_N*N，1≤i，j≤N,其中a_ij＝P(q_t+1＝S_j|q_t＝S_i)为应用状态从隐状态i转移到隐状态j的概率，

对A的初始训练值，假设应用A_x任意隐状态S_i转移到其他隐状态S_j或依然停留在本隐状态S_i等概率，即/>

本发明观测时间序列连续，λ_x中B为概率密度函数，由混合系数矩阵ω、均值矩阵μ、协方差矩阵∑表示。

本发明采用高斯混合模型(Gaussian Mixture Model,GMM)拟合各个状态下的概率密度函数的观测值，GMM是一种被广泛应用的概率密度函数，具有无限接近任意分布的优势。在状态S_i下，连续隐马尔可夫模型的观测值概率分布用连续概率密度函数b_i(o_t)描述，其中，连续概率密度函数b_i(o_t)的计算公式如下：

式中，M_i是当前隐状态S_i下高斯分量的个数，由对N个隐状态下每个隐状态继续聚类为M簇所得，为λ_x中的观测状态数。ω_im、μ_im、∑_im分别代表当前隐状态S_i下第m个高斯分布的权值、均值向量、方差矩阵。v_im初始化为第m个高斯分量中的观测向量数除以状态S_i下的观测向量数，即

μ_im初始化为第m个高斯分量中的观测向量的均值向量/>

∑_im初始化为第m个高斯分量中的观测向量的协方差矩阵/>

o_t是t时刻流式应用的性能瓶颈资源观测值向量，R是性能瓶颈资源个数。

至此可得到流式应用A_x的初始隐马尔科夫模型

为了训练隐马尔可夫模型

问题可转化为对一个给定的观测序列O，迭代训练模型/>

使在给定模型/>

下生成观测序列O的概率/>

最大化的问题，即

其中，要求解Q问题，首先需要确定如何计算

值，即评估在给定模型下生成观测序列O的概率。对每个应用A_x，已知当前模型/>

和各时刻应用的性能瓶颈资源需求量观测序列O，计算在模型/>

下生成观测序列O的概率/>

是一个HMM的评估问题，可采用基于前向变量和后向变量的Forward-Backward算法解决。前向变量表示给定模型/>

从时刻1到时刻t的部分观测序列为o₁，o₂，...，o_t且隐状态q_t为S_i的联合概率，记为α_t(i)。后向变量表示给定模型/>

在t时刻的隐状态q_t为S_i的条件下，将从时刻t+1到最后时刻T的部分观测序列为o_t+1，o_t+2，...，o_T的联合概率记为β_t(i)。

上述二者均可以归纳求解，计算公式如下：

由α_t(i)、β_t(i)及

定义可知，通过前向变量和后向变量可以计算概率

已知，对模型/>

进行迭代训练，对式/>

中的最大化问题进行求解是一个HMM学习问题，可使用迭代算法Baum-Welch算法解决。Baum-Welch算法的迭代过程中将定义两个重要的中间过程变量，即给定模型/>

和观测序列O，在时刻t隐状态q_t为S_i的概率γ_t(i)

和在时刻t隐状态q_t为S_i且时刻t+1隐状态q_t+1为S_j的概率ε_t(i，j)，分别计算如下：

利用前向变量α_t(i)和后向变量β_t(i)定义可知：

为适应本实施例连续隐马尔可夫模型的求解，引入一个新的中间过程变量δ_t(i，m)，即给定模型

和观测序列O，时刻t隐状态q_t为S_i且观测值o_i，t为状态S_i下混合高斯分布的第m个高斯分量的联合概率δ_t(i，m)，计算如下：

对于每个训练样本都可以通过Forward-Backward算法得到α_t(i)和β_t(i)的值，再由α_t(i)和β_t(i)可求解辅助变量γ_t(i)，ε_t(i，j)，δ_t(i，m)。

为了生成更优的新模型

对初始状态概率、隐状态转移概率、以及观测值概率分布b_i(o_t)涉及的隐状态S_i下第m个高斯分布的权值、均值向量、协方差矩阵通过中间过程变量进行重估如下：

其中，1≤i，j≤N,1≤m≤M_i。即可以得到更新后的模型

已知第k次训练的模型

欲更新模型/>

以得到更优的新模型/>

其关系描述如下：

其中g、h、f代表不同的函数关系。根据训练集中观测序列o_k+1计算所得的第k+1个前向变量

和后向变量/>

均是关于模型/>

和观测序列o_k+1的函数，而模型/>

参数的重估均是基于前向变量/>

和后向变量/>

即可知旧模型/>

和新模型/>

迭代关系。

经过n次以上步骤的迭代，直至各模型参数值在重估过程中收敛，并且其迭代次数达到设定的阈值Λ，即得到迭代更新后的最终模型

根据多维连续隐马尔可夫模型预测结果确定是否发生突增情况。

为避免资源调整抖动现象，弹性资源分配不仅需要确定资源扩展或者缩减的时机和大小，还需要确定当前的资源量是否能满足服务质量需求解析器解析的延迟约束，即当前资源量是否能在用户希望的时间内处理完请求并返回结果。

考虑到上述的弹性资源分配问题，本发明对流入系统的数据单元处理响应时间

进行求解。即数据单元处理响应时间/>

为应用A_x的数据处理功能Js_x的总队列等待时间/>

和总服务处理时间/>

之和。

其中，

和/>

分别为应用A_x的第i个子功能中数据单元等待时间和服务时间。

对于应用A_x的

将一个子功能/>

中的每个任务task看做一个单服务器排队系统，每个任务task的数据单元的到达时间间隔的概率分布和服务时间都是未知的，本实施例将每个任务task建模为一个GI/G/1排队系统。根据Kingman公式可以估算出子功能中任务队列平均等待时间/>

如下：

其中，

分别表示子功能/>

的数据单元到达时间间隔和服务时间，c表示变异系数，/>

表示子功能/>

的服务强度，/>

表示服务速率。

对于子功能

的数据单元的服务时间/>

是一个概率分布未知的随机变量，因此，根据监测的应用A_x的不同可知对应应用A_x子功能/>

的数据单元的服务时间/>

将数据单元处理响应时间

与延迟约束时长dc比较即可知当前的资源量是否能在约定的时长内完成用户请求。

为预测应用A_x在时刻T+1、T+2的性能瓶颈资源需求量，通过上述描述的方法确定初始模型

并以监测得到的O为观测值训练出最终模型/>

对应用A_x在时刻T+1、T+2的性能瓶颈资源需求量的预测是通过当前时刻T的性能瓶颈资源需求量O_T和预测T+1、T+2时刻性能瓶颈资源需求量的变化率/>

所得。应用A_x在时刻T+1的性能瓶颈资源需求量RS_T+1如下：

其中，性能瓶颈资源需求量变化率的预测值

是通过概率计算来寻找历史的相似模式所得。

首先计算当前时刻T观测序列O在模型

下的评估概率/>

及其似然值

再循环查找从时刻1到T-1时刻存在的与时刻T的相似模式：计算从时刻1到时刻t观测序列O_t在模型/>

下的评估概率/>

及其似然值/>

如果

小于相似性阈值τ，则认为O_t和O_T相似。计算t+1时刻的资源需求变化率/>

并将该时刻的资源需求变化率累加到总资源需求变化率sumΔR。这样相似的模型不止一个，所以根据距离当前时刻T的远近赋予不同的权值weight_t，将所有权值累加为权值和sumWeight。权值weight_t和资源需求变化率/>

计算公式分别如下：

weight_t＝exp(1/(T-t+1)) (15)

最后计算T+1时刻预测的资源需求量变化率

以上可知应用A_x在时刻T+1、T+2预测的性能瓶颈资源需求量RS_T+1、RS_T+2，结合数据单元处理响应时间

与延迟约束时长dc比较确定T+1时刻的性能瓶颈资源伸缩大小。

作为可变换的实施方式，进一步地，为了便于快速知晓当前应当调整的虚拟机的数量，再另一个可变换的实施例中，还包括以下步骤：

将累加各流式应用T+1时刻伸缩虚拟机(VM)个数作为计算T+1时刻流式系统伸缩VM个数。计算流式应用A_x在T+1时刻扩展VM个数outNumVMs(RS)或收缩VM个数inNumVMs(RS)，首先将根据双步资源需求预测结果及上述的资源伸缩策略确定T+1时刻应用A_x所需各性能瓶颈资源量RS，再以RS作为输入，确定能对应提供RS资源量的最小VM个数Min(NumVM(RS))。其中outNumVMs(RS)与inNumVMs(RS)的计算公式如下：

outNumVMs(RS)＝Min(NumVM(RS))-curNumVM；

Min(NumVM(RS))≥curNumVM；

inNumVMs(RS)＝curNumVM-Min(NumVM(RS))；

Min(NumVM(RS))＜curNumVM；

其中curNumVM表示当前系统所提供的VM数量。

针对本实施例所提的多个性能瓶颈特性确定VM数量Min(NumVM(RS))是以确保用户延迟约束的同时保证资源的高利用率为目的。对Min(NumVM(RS))的确定，本实施例采用同构的VM，循环比较各个性能瓶颈资源量，针对某一资源，若当前伸/缩后的VM个数对应的该资源量小于/大于RS对应该资源的需求,则当前VM加/减一，最终即可以确定Min(NumVM(RS))大小。通过该种方式，可以快速地知道如何根据需要调整的资源量大小分配虚拟机。

实施例2

本实施例中，建立仿真系统来评估利用连续隐马尔科夫模型预测出的双步预测结果指导大数据流式计算系统中弹性资源分配的效率和性能。进行仿真实验的物理平台为Intel core i5-6200U CPU、4GB内存的PC机。

本实施例选取阿里巴巴数据中心某应用的资源管理和调度数据集，经处理后数据集分为两组，训练集和预测集。初始化模型过后使用训练集建立最终模型，使用预测集确定其准确性。其双步预测结果将指导大数据流式计算系统中流式应用的性能瓶颈资源调整。

对于训练连续隐马尔可夫模型，首先初始化模型，模型中所有参数的确定都是基于隐状态数N。对选定隐状态数N，传统的BIC方法存在候选模型过多计算复杂度大的缺点。本实施例采用BIC方法结合K-Means算法的方式减少传统BIC方法在确定隐状态数N时存在的过多候选模型。首先利用K-Means算法将全部样本数据聚为N'类，聚类的结果用来建立混合高斯模型，聚类的个数在一定的范围变化，所以可以得到一系列具有不同成分个数的混合高斯模型，但是存在一个最优混合个数k，即隐状态数N，使得k个成分的混合高斯分布的拟合程度和无限成分的混合高斯分布的拟合程度接近。再将N'及其附近的隐状态数初始化的隐马尔可夫模型HMM作为本发明的BIC候选模型，又由于BIC值会随着隐状态数N值的增加而增加，直到某一个隐状态数k使得k之后的BIC值都趋于平稳，其中k即代表合适的模型，按照BIC准则对候选隐状态数进行评估，确定最可能的混合高斯模型的成分数k作为首选的HMM模型的隐状态数N。选取使用N'训练HMM得到

训练N'+1个隐状态的HMM得到/>

如果/>

则继续训练N'+2个隐状态的HMM，直到找到比后面一个模型的BIC值大的隐状态个数，即最终的隐状态数N。

针对本实施例所选数据集，选取隐状态数N＝3，并针对该应用的特性抽取CPU及内存两个性能瓶颈资源需求量作为观测值，即r＝2。通过观测值及重估公式迭代更新模型参数，得到最终的连续隐马尔可夫模型

本实施例对T+1时刻性能瓶颈资源伸缩大小的调整是基于T+2时刻性能瓶颈资源需求量作为参考，并以最小化资源调整抖动次数为目标，避免出现调整调动现象，减少系统开销，且在遵守延迟约束基础上保证资源利用率。

对于测试连续隐马尔可夫模型，评价模型的效果取决于训练模型时未使用到的预测数据集。对应用的某一性能瓶颈资源，本实施例基于平均误差(Mean AbsolutePercentage Error，MAPE)指标评估基于连续隐马尔可夫模型的ERSA算法预测资源需求量的准确性。其中MAPE指标的计算公式如下：

本实施例中，根据实验，图2和图3分别展示性能瓶颈资源CPU及内存的预测与实际结果的对比。

CPU的平均误差MAPE_cpu＝0.0496，内存的平均误差MAPE_mem＝0.0078。其中选取的相似性阈值τ＝0.15，CPU和内存的预测误差阈值θ分别为0.05和0.01。

为了评价弹性资源分配的效果，本实施例在保证满足服务质量需求解析器解析的延迟约束情况下，即保证能在用户希望的时间内处理完请求并返回结果记录情况下，将弹性资源调整算法ERSA在指导云资源伸缩的过程中资源调整次数的实验结果与LMD-HMM方法资源调整次数的实验结果进行了比较，如图4所示，本发明的弹性资源分配策略MSP-RAS减少了资源不必要的调整，避免出现资源调整抖动现象，从而一定程度上减少了系统不必要的性能消耗。

在上述方法中，针对大数据流式计算系统的弹性资源分配问题，提出了一种基于连续隐马尔科夫模型的性能瓶颈资源需求量双步预测算法ERSA，并利用已有的排队论研究估计流入流式计算系统的数据单元处理响应时间，确定当前的资源量是否能在延迟约束时间范围内完成流式数据的处理，并结合双步预测算法结果指导流式计算系统中资源的弹性调整。实验结果显示，ERSA算法能够有效地预测出应用的性能瓶颈资源需求量，改善资源分配延迟效果明显，并且减少了不必要的反复资源调整，提高了整个系统的性能和资源利用率。

实施例3

如图5所示，本实施例提供一种大数据的流式处理系统，包括：

采集模块，用于采集待处理的流式大数据，将流式大数据划分为训练集和测试集；

聚类模块，用于采用聚类算法对训练集进行聚类；

制定模型模块，用于根据聚类结果确定隐状态数，并根据隐状态数确定多维连续隐马尔可夫模型；

预测模块，用于根据多维连续隐马尔可夫模型预测是否发生突增情况；

计算调整模块，用于当发生突增情况时，计算任务所需时间，将任务所需时间与预设的延迟约束时间做比较，若任务所需时间超过预设的延迟约束时间，则调整当前时刻的下一个时刻的资源量大小。

作为本实施例优选的实施方式，计算调整模块具体包括：

服务质量需求解析器，用于解析任务的延迟约束时间信息；

任务状态监控器，用于对任务的任务状态进行监控，根据监测结果和设定的排队论原理计算任务的相关时间信息，相关时间信息包括等待时间和执行时间；

比较器，用于将任务的相关时间信息与延迟约束时间信息进行比较，并将比较结果传输给资源分配器；

资源检测器，用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量，并将监测到的数据传输给资源需求量预测器；

需求量预测器，用于构建流处理应用性能瓶颈资源需求量的预测模型，资源需求量预测器将预测结果传输给资源分配器，资源分配器结合上述判定结果评估出资源伸缩策略以指导云资源伸缩。

上述各器件模块的工作原理在上述实施例1中均已详细说明，此处，不多做赘述。

实施例4

本实施例提供一种计算机存储介质，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据的流式处理方法，其特征在于，包括以下步骤：

采集历史的流处理应用性能资源需求量，将采集的数据划分为训练集和测试集；

采用聚类算法对所述训练集进行聚类；

根据聚类结果确定隐状态数，并根据所述隐状态数确定多维连续隐马尔可夫模型；

若是，则估计任务处理所需时间，将所述任务处理所需时间与预设的延迟约束时间做比较，若所述任务处理所需时间超过所述预设的延迟约束时间，则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小；

所述根据所述多维连续隐马尔可夫模型预测是否发生突增情况具体包括：

若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量，则视为发生了突增情况；

若没有发生突增情况，则判断：

是否与预设的第一条件一致，若与第一条件一致，则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+2时刻的流处理应用性能瓶颈资源需求量；

若不与第一条件一致，则判断是否与预设的第二条件一致，若与第二条件一致，则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+1时刻的流处理应用性能瓶颈资源需求量；

其中，所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增；所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减；所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量，且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量；

所述估计任务处理所需时间，将所述任务处理所需时间与预设的延迟约束时间做比较，若所述任务处理所需时间超过所述预设的延迟约束时间，则调整当前时刻的下一个时刻的流处理应用性能瓶颈资源量大小具体包括：

解析任务的延迟约束时间信息；

对所述任务的任务状态进行监控，根据监测结果和设定的排队论原理估计任务处理的相关时间信息，所述相关时间信息包括数据单元等待时间和服务时间；其中，数据单元等待时间和服务时间满足如下关系式：