CN111523565B - 一种大数据的流式处理方法、系统及存储介质 - Google Patents

一种大数据的流式处理方法、系统及存储介质 Download PDF

Info

Publication number
CN111523565B
CN111523565B CN202010239053.4A CN202010239053A CN111523565B CN 111523565 B CN111523565 B CN 111523565B CN 202010239053 A CN202010239053 A CN 202010239053A CN 111523565 B CN111523565 B CN 111523565B
Authority
CN
China
Prior art keywords
moment
performance bottleneck
processing application
application performance
flow processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010239053.4A
Other languages
English (en)
Other versions
CN111523565A (zh
Inventor
郑美光
彭缘缘
谢金定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010239053.4A priority Critical patent/CN111523565B/zh
Publication of CN111523565A publication Critical patent/CN111523565A/zh
Application granted granted Critical
Publication of CN111523565B publication Critical patent/CN111523565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据处理技术领域,公开了一种大数据的流式处理方法、系统及存储介质,以对云资源进行合理伸缩避免出现调整抖动现象;该方法包括:采集历史的流处理应用性能资源需求量,将采集的数据划分为训练集和测试集;采用聚类算法对训练集进行聚类;根据聚类结果确定隐状态数,并根据隐状态数确定多维连续隐马尔可夫模型;根据多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;若是,则估计任务处理所需时间,将任务处理所需时间与预设的延迟约束时间做比较,若任务处理所需时间超过预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上的流式系统的资源量大小。

Description

一种大数据的流式处理方法、系统及存储介质
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据的流式处理方法、系统及存储介质。
背景技术
流式计算是面向大数据计算的重要形态之一,流式数据大都呈现出实时性、易失性、突发性、无序性、无限性等特征。随着新兴的实时处理要求,传统的数据管理系统在处理大量数据时非常昂贵,并且它们无法应对流应用的实时处理需求。云计算允许用户低成本按需获取/释放资源,在弹性环境中快速部署应用程序。当前云平台还托管许多流数据处理系统来满足用户的基本需求,例如storm,spark,但是这些流处理系统在资源的弹性分配、负载均衡等方面仍存在不足。在分布式并行数据流处理中,面向实时变化且具有突发性的流数据负载,固定的资源分配将造成资源浪费或服务质量降低,因此,流式处理系统中可伸缩的弹性资源分配是一个亟待解决的关键问题。
从弹性资源调整的时机上,不同的策略可以通过延时调整或预先调整来触发云平台中的自动伸缩操作,其中,延时调整是在出现资源不足或过量时进行资源的调整,预先调整是在资源需求量波动尚未到达操作之前,使用基于历史资源需求量预测未来资源需求量的主动伸缩方法,预先启动资源调整,在云计算中广泛采用。
由于资源分配延迟和负载预测模型存在误差,弹性资源调度在流数据处理中面临多方面的挑战,例如,已有的云计算弹性资源分配策略无法准确地提供与系统负载相匹配的资源;流数据处理系统存在不必要的反复资源调整,即调整抖动,增加了系统开销;目前大多研究并未考虑部署在流数据处理系统中各应用的差异性,不能准确有效提供影响各应用处理性能的资源。
发明内容
本发明目的在于提供一种大数据的流式处理方法、系统及存储介质,以对云资源进行合理伸缩避免出现调整抖动现象。
为实现上述目的,本发明提供了一种大数据的流式处理方法,包括以下步骤:
采集历史的流处理应用性能资源需求量,将所采集的数据划分为训练集和测试集;
采用聚类算法对所述训练集进行聚类;
根据聚类结果确定隐状态数,并根据所述隐状态数及流处理应用的性能瓶颈资源个数确定多维连续隐马尔可夫模型;
根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
若是,则估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小。
优选地,还包括以下步骤:采用所述测试集测试所述多维连续隐马尔可夫模型的准确率,若所述准确率超过设定的误差阈值,则获取最新的流式数据重新训练所述多维连续隐马尔可夫模型,直至所述多维连续隐马尔可夫模型的准确率低于所述设定的误差阈值。
优选地,所述根据所述多维连续隐马尔可夫模型的预测确定是否发生突增情况具体包括:
将当前时刻视为T时刻,获取T时刻的流处理应用性能瓶颈资源需求量,根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量;
将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较;
若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量,则视为发生了突增情况。
优选地,若没有发生突增情况,则判断:
是否与预设的第一条件一致,若与第一条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T+2时刻的流处理应用性能瓶颈资源需求量;
若不与第一条件一致,则判断是否与预设的第二条件一致,若与第二条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T+1时刻的流处理应用性能瓶颈资源需求量;
若不与第二条件一致,则判断是否与预设的第三条件一致,若与第三条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量;
其中,所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增;所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减;所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量,且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量。
优选地,所述估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小具体包括:
解析用户对于处理任务的延迟约束时间信息;
对所述任务的任务状态进行监控,根据监测结果和设定的排队论原理计算的相关时间信息,所述相关时间信息包括任务处理等待时间和任务执行时间;
将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量;
根据预测结果与所述比较结果调整资源伸缩策略以指导云资源伸缩。
优选地,所述流处理应用性能瓶颈资源需求量包括CPU、内存、或者带宽中的一种或者任意几种的组合。
作为一个总的发明构思,本发明还提供一种大数据的流式处理系统,包括:
采集模块,用于采集历史的流处理应用性能资源需求量,将所采集数据划分为训练集和测试集;
聚类模块,用于采用聚类算法对所述训练集进行聚类;
制定模型模块,用于根据聚类结果确定隐状态数,并根据所述隐状态数及流处理应用性能瓶颈资源个数确定多维连续隐马尔可夫模型;
预测模块,用于根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
计算调整模块,用于当发生突增情况时,估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小。
优选地,所述计算调整模块具体包括:
服务质量需求解析器,用于解析用户对于处理任务的延迟约束时间信息;
任务状态监控器,用于对所述任务的任务状态进行监控,并获取任务的相关时间信息,所述相关时间信息包括任务处理等待时间和任务执行时间;
比较器,用于将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
资源监测器,用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
需求量预测器,用于根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,资源需求量预测器将预测结果传输给资源分配器;
资源分配器,用于结合上述预测结果和所述比较结果调整资源伸缩策略以指导云资源伸缩。
作为一个总的发明构思,本发明还提供一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明具有以下有益效果:
本发明提供的一种大数据的流式处理方法、系统及存储介质,该方法通过采用多维连续隐马尔可夫模型对未来时刻的流处理应用性能瓶颈资源进行双步预测,根据预测结果判断是否发生突增情况,当发生突增情况的时候,估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小,该方法可以提前获知未来时刻的流处理应用性能瓶颈资源需求量,并可以对云资源进行合理伸缩避免出现调整抖动现象。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的大数据的流式处理方法流程图;
图2是本发明优选实施例的性能瓶颈资源CPU实际和预测比较情况示意图;
图3是本发明优选实施例的性能瓶颈资源内存实际和预测比较情况示意图;
图4是本发明优选实施例的资源调整次数与LMD-HMM方法资源调整次数的实验结果比较情况示意图;
图5是本发明优选实施例的大数据的流式处理系统的结构示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
如图1所示,本实施例提供一种大数据的流式处理方法,包括以下步骤:
采集待处理的流式大数据,将流式大数据划分为训练集和测试集;
首先,流数据处理系统按每个流事件的要求接收来自各种数据源的用户请求数据流,目前已有的分布式流数据处理系统有Kafka和Flume等。流式计算系统提供与Storm和Spark类似服务,通过在系统中部署流处理应用,接收流数据处理系统集成的数据流并提供连续的、实时的计算服务。采用聚类算法对训练集进行聚类。
本实施例中,采用的聚类算法为K-means聚类算法,根据K-means聚类算法进行聚类后,可以增快后续的根据聚类结果确定隐状态数的速度。
进一步地,根据聚类结果确定隐状态数,并根据隐状态数确定多维连续隐马尔可夫模型。
需要说明的是,隐马尔可夫模型(Hidden Markov Model,HMM)是一个针对时间序列数据的建模、分析的统计学工具,建立隐状态之间以及隐状态和观测值之间的概率分布联系。隐马尔科夫模型观测序列观测到的值称为观测状态,状态转移过程中的状态称为隐状态。通常,一个标准的隐马尔科夫模型可以用λ={N,M,π,A,B}五元组表示,其中N为隐状态个数,M为每个隐状态下观测值个数,π为初始隐状态概率分布向量,A为隐状态转移概率矩阵。当观测值离散时,B为观测值的概率矩阵,当观测值连续时,B为观测值的概率密度函数。
本实施例中,观测时间序列为应用的各性能瓶颈资源需求量。假设应用Ax有R个性能瓶颈资源,在时刻t,其观测值记为ot,ot是一个R维向量,
Figure SMS_1
其中/>
Figure SMS_2
表示在时刻t性能瓶颈资源r的观测值。在T个时间窗口内,应用Ax性能瓶颈资源的需求量观测序列由ot组成,记为O={o1,o2,...,ot,...,oT}。如应用Ax性能瓶颈是CPU、内存和网络,即R=3。
流式大数据的产生完全由数据源确定,由于不同数据源在不同时空范围内会发生动态变化,导致流入流式计算系统的数据存在较大的波动性,如果在某个持续时间很短的时间段Δt内出现突发数据,且Δt又是基本的流式数据处理单元时间,则可能出现调整抖动,导致资源调整出现短暂的反复,增加了不必要的调整开销。如果在时间段Δt内出现突发数据,而当前系统的资源量又不会造成应用的执行时间违反延迟约束,则可以考虑取消调整以减少调整代价。为避免调整抖动,本实施例提出基于预测T+1、T+2时刻资源需求量的调整策略。
本实施例中,以流式计算系统历史记录在前T个时刻R个性能瓶颈资源需求量的观测序列为基础,通过为每个流式应用Ax建立连续隐马尔科夫模型λx={R,N,M,π,A,ω,μ,∑},分析得出系统在T+1、T+2时刻的性能瓶颈资源需求量,从而为系统后续弹性伸缩策略作出决策。
对流式应用Ax建立其连续隐马尔可夫模型λx。其中,本实施例中,R表示流式应用Ax的性能瓶颈资源数,模型的隐状态数N,可由传统的BIC(Bayesian InformationCriterion)方法确定。为避免BIC方法固有的存在过多候选模型(隐状态数选择多)复杂度过大的缺点,本实施例利用K-Means算法将全部样本数据聚为N'类,再采用BIC方法对N'进行评估确定最终的隐状态数N。隐状态集记为S={S1,S2,…,SN},任意时刻,各应用都处于N个隐状态中的一个。时刻t的隐状态记为qt,qt∈S,隐状态q1为初始状态。
初始状态概率分布向量π=(πi)1*N,πi=P(q1=Si),1≤i≤N,
Figure SMS_3
假设应用Ax的初始状态等概率为状态集S中的任意一个,即πi的训练初始值为
Figure SMS_4
隐状态转移概率矩阵A=(aij)N*N,1≤i,j≤N,其中aij=P(qt+1=Sj|qt=Si)为应用状态从隐状态i转移到隐状态j的概率,
Figure SMS_5
对A的初始训练值,假设应用Ax任意隐状态Si转移到其他隐状态Sj或依然停留在本隐状态Si等概率,即/>
Figure SMS_6
本发明观测时间序列连续,λx中B为概率密度函数,由混合系数矩阵ω、均值矩阵μ、协方差矩阵∑表示。
本发明采用高斯混合模型(Gaussian Mixture Model,GMM)拟合各个状态下的概率密度函数的观测值,GMM是一种被广泛应用的概率密度函数,具有无限接近任意分布的优势。在状态Si下,连续隐马尔可夫模型的观测值概率分布用连续概率密度函数bi(ot)描述,其中,连续概率密度函数bi(ot)的计算公式如下:
Figure SMS_7
式中,Mi是当前隐状态Si下高斯分量的个数,由对N个隐状态下每个隐状态继续聚类为M簇所得,为λx中的观测状态数。ωim、μim、∑im分别代表当前隐状态Si下第m个高斯分布的权值、均值向量、方差矩阵。vim初始化为第m个高斯分量中的观测向量数除以状态Si下的观测向量数,即
Figure SMS_8
μim初始化为第m个高斯分量中的观测向量的均值向量/>
Figure SMS_9
im初始化为第m个高斯分量中的观测向量的协方差矩阵/>
Figure SMS_10
ot是t时刻流式应用的性能瓶颈资源观测值向量,R是性能瓶颈资源个数。
至此可得到流式应用Ax的初始隐马尔科夫模型
Figure SMS_11
Figure SMS_12
为了训练隐马尔可夫模型
Figure SMS_13
问题可转化为对一个给定的观测序列O,迭代训练模型/>
Figure SMS_14
使在给定模型/>
Figure SMS_15
下生成观测序列O的概率/>
Figure SMS_16
最大化的问题,即
Figure SMS_17
其中,要求解Q问题,首先需要确定如何计算
Figure SMS_18
值,即评估在给定模型下生成观测序列O的概率。对每个应用Ax,已知当前模型/>
Figure SMS_19
和各时刻应用的性能瓶颈资源需求量观测序列O,计算在模型/>
Figure SMS_20
下生成观测序列O的概率/>
Figure SMS_21
是一个HMM的评估问题,可采用基于前向变量和后向变量的Forward-Backward算法解决。前向变量表示给定模型/>
Figure SMS_22
从时刻1到时刻t的部分观测序列为o1,o2,...,ot且隐状态qt为Si的联合概率,记为αt(i)。后向变量表示给定模型/>
Figure SMS_23
在t时刻的隐状态qt为Si的条件下,将从时刻t+1到最后时刻T的部分观测序列为ot+1,ot+2,...,oT的联合概率记为βt(i)。
上述二者均可以归纳求解,计算公式如下:
Figure SMS_24
Figure SMS_25
由αt(i)、βt(i)及
Figure SMS_26
定义可知,通过前向变量和后向变量可以计算概率
Figure SMS_27
Figure SMS_28
Figure SMS_29
已知,对模型/>
Figure SMS_30
进行迭代训练,对式/>
Figure SMS_31
中的最大化问题进行求解是一个HMM学习问题,可使用迭代算法Baum-Welch算法解决。Baum-Welch算法的迭代过程中将定义两个重要的中间过程变量,即给定模型/>
Figure SMS_32
和观测序列O,在时刻t隐状态qt为Si的概率γt(i)
和在时刻t隐状态qt为Si且时刻t+1隐状态qt+1为Sj的概率εt(i,j),分别计算如下:
Figure SMS_33
Figure SMS_34
利用前向变量αt(i)和后向变量βt(i)定义可知:
Figure SMS_35
Figure SMS_36
为适应本实施例连续隐马尔可夫模型的求解,引入一个新的中间过程变量δt(i,m),即给定模型
Figure SMS_37
和观测序列O,时刻t隐状态qt为Si且观测值oi,t为状态Si下混合高斯分布的第m个高斯分量的联合概率δt(i,m),计算如下:
Figure SMS_38
对于每个训练样本都可以通过Forward-Backward算法得到αt(i)和βt(i)的值,再由αt(i)和βt(i)可求解辅助变量γt(i),εt(i,j),δt(i,m)。
为了生成更优的新模型
Figure SMS_39
对初始状态概率、隐状态转移概率、以及观测值概率分布bi(ot)涉及的隐状态Si下第m个高斯分布的权值、均值向量、协方差矩阵通过中间过程变量进行重估如下:
Figure SMS_40
其中,1≤i,j≤N,1≤m≤Mi。即可以得到更新后的模型
Figure SMS_41
Figure SMS_42
已知第k次训练的模型
Figure SMS_43
欲更新模型/>
Figure SMS_44
以得到更优的新模型/>
Figure SMS_45
其关系描述如下:
Figure SMS_46
Figure SMS_47
其中g、h、f代表不同的函数关系。根据训练集中观测序列ok+1计算所得的第k+1个前向变量
Figure SMS_50
和后向变量/>
Figure SMS_52
均是关于模型/>
Figure SMS_53
和观测序列ok+1的函数,而模型/>
Figure SMS_49
参数的重估均是基于前向变量/>
Figure SMS_51
和后向变量/>
Figure SMS_54
即可知旧模型/>
Figure SMS_55
和新模型/>
Figure SMS_48
迭代关系。
经过n次以上步骤的迭代,直至各模型参数值在重估过程中收敛,并且其迭代次数达到设定的阈值Λ,即得到迭代更新后的最终模型
Figure SMS_56
根据多维连续隐马尔可夫模型预测结果确定是否发生突增情况。
为避免资源调整抖动现象,弹性资源分配不仅需要确定资源扩展或者缩减的时机和大小,还需要确定当前的资源量是否能满足服务质量需求解析器解析的延迟约束,即当前资源量是否能在用户希望的时间内处理完请求并返回结果。
考虑到上述的弹性资源分配问题,本发明对流入系统的数据单元处理响应时间
Figure SMS_57
进行求解。即数据单元处理响应时间/>
Figure SMS_58
为应用Ax的数据处理功能Jsx的总队列等待时间/>
Figure SMS_59
和总服务处理时间/>
Figure SMS_60
之和。
Figure SMS_61
其中,
Figure SMS_62
和/>
Figure SMS_63
分别为应用Ax的第i个子功能中数据单元等待时间和服务时间。
对于应用Ax
Figure SMS_64
将一个子功能/>
Figure SMS_65
中的每个任务task看做一个单服务器排队系统,每个任务task的数据单元的到达时间间隔的概率分布和服务时间都是未知的,本实施例将每个任务task建模为一个GI/G/1排队系统。根据Kingman公式可以估算出子功能中任务队列平均等待时间/>
Figure SMS_66
如下:
Figure SMS_67
其中,
Figure SMS_68
分别表示子功能/>
Figure SMS_69
的数据单元到达时间间隔和服务时间,c表示变异系数,/>
Figure SMS_70
表示子功能/>
Figure SMS_71
的服务强度,/>
Figure SMS_72
表示服务速率。
对于子功能
Figure SMS_73
的数据单元的服务时间/>
Figure SMS_74
是一个概率分布未知的随机变量,因此,根据监测的应用Ax的不同可知对应应用Ax子功能/>
Figure SMS_75
的数据单元的服务时间/>
Figure SMS_76
将数据单元处理响应时间
Figure SMS_77
与延迟约束时长dc比较即可知当前的资源量是否能在约定的时长内完成用户请求。
为预测应用Ax在时刻T+1、T+2的性能瓶颈资源需求量,通过上述描述的方法确定初始模型
Figure SMS_78
并以监测得到的O为观测值训练出最终模型/>
Figure SMS_79
对应用Ax在时刻T+1、T+2的性能瓶颈资源需求量的预测是通过当前时刻T的性能瓶颈资源需求量OT和预测T+1、T+2时刻性能瓶颈资源需求量的变化率/>
Figure SMS_80
所得。应用Ax在时刻T+1的性能瓶颈资源需求量RST+1如下:
Figure SMS_81
其中,性能瓶颈资源需求量变化率的预测值
Figure SMS_82
是通过概率计算来寻找历史的相似模式所得。
首先计算当前时刻T观测序列O在模型
Figure SMS_85
下的评估概率/>
Figure SMS_88
及其似然值
Figure SMS_90
再循环查找从时刻1到T-1时刻存在的与时刻T的相似模式:计算从时刻1到时刻t观测序列Ot在模型/>
Figure SMS_84
下的评估概率/>
Figure SMS_86
及其似然值/>
Figure SMS_89
如果
Figure SMS_91
小于相似性阈值τ,则认为Ot和OT相似。计算t+1时刻的资源需求变化率/>
Figure SMS_83
并将该时刻的资源需求变化率累加到总资源需求变化率sumΔR。这样相似的模型不止一个,所以根据距离当前时刻T的远近赋予不同的权值weightt,将所有权值累加为权值和sumWeight。权值weightt和资源需求变化率/>
Figure SMS_87
计算公式分别如下:
weightt=exp(1/(T-t+1)) (15)
Figure SMS_92
最后计算T+1时刻预测的资源需求量变化率
Figure SMS_93
Figure SMS_94
以上可知应用Ax在时刻T+1、T+2预测的性能瓶颈资源需求量RST+1、RST+2,结合数据单元处理响应时间
Figure SMS_95
与延迟约束时长dc比较确定T+1时刻的性能瓶颈资源伸缩大小。
作为可变换的实施方式,进一步地,为了便于快速知晓当前应当调整的虚拟机的数量,再另一个可变换的实施例中,还包括以下步骤:
将累加各流式应用T+1时刻伸缩虚拟机(VM)个数作为计算T+1时刻流式系统伸缩VM个数。计算流式应用Ax在T+1时刻扩展VM个数outNumVMs(RS)或收缩VM个数inNumVMs(RS),首先将根据双步资源需求预测结果及上述的资源伸缩策略确定T+1时刻应用Ax所需各性能瓶颈资源量RS,再以RS作为输入,确定能对应提供RS资源量的最小VM个数Min(NumVM(RS))。其中outNumVMs(RS)与inNumVMs(RS)的计算公式如下:
outNumVMs(RS)=Min(NumVM(RS))-curNumVM;
Min(NumVM(RS))≥curNumVM;
inNumVMs(RS)=curNumVM-Min(NumVM(RS));
Min(NumVM(RS))<curNumVM;
其中curNumVM表示当前系统所提供的VM数量。
针对本实施例所提的多个性能瓶颈特性确定VM数量Min(NumVM(RS))是以确保用户延迟约束的同时保证资源的高利用率为目的。对Min(NumVM(RS))的确定,本实施例采用同构的VM,循环比较各个性能瓶颈资源量,针对某一资源,若当前伸/缩后的VM个数对应的该资源量小于/大于RS对应该资源的需求,则当前VM加/减一,最终即可以确定Min(NumVM(RS))大小。通过该种方式,可以快速地知道如何根据需要调整的资源量大小分配虚拟机。
实施例2
本实施例中,建立仿真系统来评估利用连续隐马尔科夫模型预测出的双步预测结果指导大数据流式计算系统中弹性资源分配的效率和性能。进行仿真实验的物理平台为Intel core i5-6200U CPU、4GB内存的PC机。
本实施例选取阿里巴巴数据中心某应用的资源管理和调度数据集,经处理后数据集分为两组,训练集和预测集。初始化模型过后使用训练集建立最终模型,使用预测集确定其准确性。其双步预测结果将指导大数据流式计算系统中流式应用的性能瓶颈资源调整。
对于训练连续隐马尔可夫模型,首先初始化模型,模型中所有参数的确定都是基于隐状态数N。对选定隐状态数N,传统的BIC方法存在候选模型过多计算复杂度大的缺点。本实施例采用BIC方法结合K-Means算法的方式减少传统BIC方法在确定隐状态数N时存在的过多候选模型。首先利用K-Means算法将全部样本数据聚为N'类,聚类的结果用来建立混合高斯模型,聚类的个数在一定的范围变化,所以可以得到一系列具有不同成分个数的混合高斯模型,但是存在一个最优混合个数k,即隐状态数N,使得k个成分的混合高斯分布的拟合程度和无限成分的混合高斯分布的拟合程度接近。再将N'及其附近的隐状态数初始化的隐马尔可夫模型HMM作为本发明的BIC候选模型,又由于BIC值会随着隐状态数N值的增加而增加,直到某一个隐状态数k使得k之后的BIC值都趋于平稳,其中k即代表合适的模型,按照BIC准则对候选隐状态数进行评估,确定最可能的混合高斯模型的成分数k作为首选的HMM模型的隐状态数N。选取使用N'训练HMM得到
Figure SMS_96
训练N'+1个隐状态的HMM得到/>
Figure SMS_97
如果/>
Figure SMS_98
则继续训练N'+2个隐状态的HMM,直到找到比后面一个模型的BIC值大的隐状态个数,即最终的隐状态数N。
针对本实施例所选数据集,选取隐状态数N=3,并针对该应用的特性抽取CPU及内存两个性能瓶颈资源需求量作为观测值,即r=2。通过观测值及重估公式迭代更新模型参数,得到最终的连续隐马尔可夫模型
Figure SMS_99
本实施例对T+1时刻性能瓶颈资源伸缩大小的调整是基于T+2时刻性能瓶颈资源需求量作为参考,并以最小化资源调整抖动次数为目标,避免出现调整调动现象,减少系统开销,且在遵守延迟约束基础上保证资源利用率。
对于测试连续隐马尔可夫模型,评价模型的效果取决于训练模型时未使用到的预测数据集。对应用的某一性能瓶颈资源,本实施例基于平均误差(Mean AbsolutePercentage Error,MAPE)指标评估基于连续隐马尔可夫模型的ERSA算法预测资源需求量的准确性。其中MAPE指标的计算公式如下:
Figure SMS_100
本实施例中,根据实验,图2和图3分别展示性能瓶颈资源CPU及内存的预测与实际结果的对比。
CPU的平均误差MAPEcpu=0.0496,内存的平均误差MAPEmem=0.0078。其中选取的相似性阈值τ=0.15,CPU和内存的预测误差阈值θ分别为0.05和0.01。
为了评价弹性资源分配的效果,本实施例在保证满足服务质量需求解析器解析的延迟约束情况下,即保证能在用户希望的时间内处理完请求并返回结果记录情况下,将弹性资源调整算法ERSA在指导云资源伸缩的过程中资源调整次数的实验结果与LMD-HMM方法资源调整次数的实验结果进行了比较,如图4所示,本发明的弹性资源分配策略MSP-RAS减少了资源不必要的调整,避免出现资源调整抖动现象,从而一定程度上减少了系统不必要的性能消耗。
在上述方法中,针对大数据流式计算系统的弹性资源分配问题,提出了一种基于连续隐马尔科夫模型的性能瓶颈资源需求量双步预测算法ERSA,并利用已有的排队论研究估计流入流式计算系统的数据单元处理响应时间,确定当前的资源量是否能在延迟约束时间范围内完成流式数据的处理,并结合双步预测算法结果指导流式计算系统中资源的弹性调整。实验结果显示,ERSA算法能够有效地预测出应用的性能瓶颈资源需求量,改善资源分配延迟效果明显,并且减少了不必要的反复资源调整,提高了整个系统的性能和资源利用率。
实施例3
如图5所示,本实施例提供一种大数据的流式处理系统,包括:
采集模块,用于采集待处理的流式大数据,将流式大数据划分为训练集和测试集;
聚类模块,用于采用聚类算法对训练集进行聚类;
制定模型模块,用于根据聚类结果确定隐状态数,并根据隐状态数确定多维连续隐马尔可夫模型;
预测模块,用于根据多维连续隐马尔可夫模型预测是否发生突增情况;
计算调整模块,用于当发生突增情况时,计算任务所需时间,将任务所需时间与预设的延迟约束时间做比较,若任务所需时间超过预设的延迟约束时间,则调整当前时刻的下一个时刻的资源量大小。
作为本实施例优选的实施方式,计算调整模块具体包括:
服务质量需求解析器,用于解析任务的延迟约束时间信息;
任务状态监控器,用于对任务的任务状态进行监控,根据监测结果和设定的排队论原理计算任务的相关时间信息,相关时间信息包括等待时间和执行时间;
比较器,用于将任务的相关时间信息与延迟约束时间信息进行比较,并将比较结果传输给资源分配器;
资源检测器,用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,并将监测到的数据传输给资源需求量预测器;
需求量预测器,用于构建流处理应用性能瓶颈资源需求量的预测模型,资源需求量预测器将预测结果传输给资源分配器,资源分配器结合上述判定结果评估出资源伸缩策略以指导云资源伸缩。
上述各器件模块的工作原理在上述实施例1中均已详细说明,此处,不多做赘述。
实施例4
本实施例提供一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种大数据的流式处理方法,其特征在于,包括以下步骤:
采集历史的流处理应用性能资源需求量,将采集的数据划分为训练集和测试集;
采用聚类算法对所述训练集进行聚类;
根据聚类结果确定隐状态数,并根据所述隐状态数确定多维连续隐马尔可夫模型;
根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
若是,则估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小;
所述根据所述多维连续隐马尔可夫模型预测是否发生突增情况具体包括:
将当前时刻视为T时刻,获取T时刻的流处理应用性能瓶颈资源需求量,根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量;
将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较;
若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量,则视为发生了突增情况;
若没有发生突增情况,则判断:
是否与预设的第一条件一致,若与第一条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+2时刻的流处理应用性能瓶颈资源需求量;
若不与第一条件一致,则判断是否与预设的第二条件一致,若与第二条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+1时刻的流处理应用性能瓶颈资源需求量;
若不与第二条件一致,则判断是否与预设的第三条件一致,若与第三条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量;
其中,所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增;所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减;所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量,且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量;
所述估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的流处理应用性能瓶颈资源量大小具体包括:
解析任务的延迟约束时间信息;
对所述任务的任务状态进行监控,根据监测结果和设定的排队论原理估计任务处理的相关时间信息,所述相关时间信息包括数据单元等待时间和服务时间;其中,数据单元等待时间和服务时间满足如下关系式:
Figure FDA0004094477420000021
其中,
Figure FDA0004094477420000022
为数据单元处理响应时间,Jsx为应用Ax的数据处理功能,/>
Figure FDA0004094477420000023
为总队列等待时间,/>
Figure FDA0004094477420000024
为总服务处理时间,/>
Figure FDA0004094477420000025
和/>
Figure FDA0004094477420000026
分别为应用Ax的第i个子功能中数据单元等待时间和服务时间;
将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量;
根据预测结果与所述比较结果确定调整资源伸缩策略以指导云资源伸缩。
2.根据权利要求1所述的大数据的流式处理方法,其特征在于,还包括以下步骤:采用所述测试集测试所述多维连续隐马尔可夫模型的准确率,若所述准确率超过设定的误差阈值,则获取最新的流处理应用性能瓶颈资源需求量重新训练所述多维连续隐马尔可夫模型,直至所述多维连续隐马尔可夫模型的准确率低于所述设定的误差阈值。
3.根据权利要求1-2任一所述的大数据的流式处理方法,其特征在于,所述流处理应用性能瓶颈资源需求量包括CPU、内存、或者带宽中的一种或者任意几种的组合。
4.一种大数据的流式处理系统,其特征在于,包括:
采集模块,用于采集历史的流处理应用性能资源需求量,将所述数据划分为训练集和测试集;
聚类模块,用于采用聚类算法对所述训练集进行聚类;
制定模型模块,用于根据聚类结果确定隐状态数,并根据所述隐状态数及流处理应用性能瓶颈资源个数确定多维连续隐马尔可夫模型;
预测模块,用于根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
计算调整模块,用于当发生突增情况时,估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小;
所述根据所述多维连续隐马尔可夫模型预测是否发生突增情况具体包括:
将当前时刻视为T时刻,获取T时刻的流处理应用性能瓶颈资源需求量,根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量;
将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较;
若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量,则视为发生了突增情况;
若没有发生突增情况,则判断:
是否与预设的第一条件一致,若与第一条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+2时刻的流处理应用性能瓶颈资源需求量;
若不与第一条件一致,则判断是否与预设的第二条件一致,若与第二条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+1时刻的流处理应用性能瓶颈资源需求量;
若不与第二条件一致,则判断是否与预设的第三条件一致,若与第三条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量;
其中,所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增;所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减;所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量,且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量;
所述估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的流处理应用性能瓶颈资源量大小具体包括:
解析任务的延迟约束时间信息;
对所述任务的任务状态进行监控,根据监测结果和设定的排队论原理估计任务处理的相关时间信息,所述相关时间信息包括数据单元等待时间和服务时间;其中,数据单元等待时间和服务时间满足如下关系式:
Figure FDA0004094477420000041
其中,
Figure FDA0004094477420000042
为数据单元处理响应时间,Jsx为应用Ax的数据处理功能,/>
Figure FDA0004094477420000043
为总队列等待时间,/>
Figure FDA0004094477420000044
为总服务处理时间,/>
Figure FDA0004094477420000045
和/>
Figure FDA0004094477420000046
分别为应用Ax的第i个子功能中数据单元等待时间和服务时间;
将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量;
根据预测结果与所述比较结果确定调整资源伸缩策略以指导云资源伸缩。
5.根据权利要求4所述的流式处理系统,其特征在于,所述计算调整模块具体包括:
服务质量需求解析器,用于解析用户对于处理任务的延迟约束时间信息;
任务状态监控器,用于对所述任务的任务状态进行监控,获取并估计任务的相关时间信息,所述相关时间信息包括等待时间和执行时间;
比较器,用于将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
资源监测器,用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
需求量预测器,用于根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,资源需求量预测器将预测结果传输给资源分配器;
资源分配器,用于结合上述预测结果和所述比较结果调整资源伸缩策略以指导云资源伸缩。
6.一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至3任一所述方法的步骤。
CN202010239053.4A 2020-03-30 2020-03-30 一种大数据的流式处理方法、系统及存储介质 Active CN111523565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010239053.4A CN111523565B (zh) 2020-03-30 2020-03-30 一种大数据的流式处理方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010239053.4A CN111523565B (zh) 2020-03-30 2020-03-30 一种大数据的流式处理方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111523565A CN111523565A (zh) 2020-08-11
CN111523565B true CN111523565B (zh) 2023-06-20

Family

ID=71901330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010239053.4A Active CN111523565B (zh) 2020-03-30 2020-03-30 一种大数据的流式处理方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111523565B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112130974B (zh) * 2020-09-10 2022-10-25 厦门市美亚柏科信息股份有限公司 云计算资源配置方法、装置、电子设备与存储介质
CN113515382B (zh) * 2021-07-22 2024-04-09 中移(杭州)信息技术有限公司 云资源的分配方法、装置、电子设备及存储介质
CN115171389B (zh) * 2022-07-22 2023-10-31 吉林大学 基于gmm-hmm的高速公路他车超车换道意图识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839105A (en) * 1995-11-30 1998-11-17 Atr Interpreting Telecommunications Research Laboratories Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood
CN103036974A (zh) * 2012-12-13 2013-04-10 广东省电信规划设计院有限公司 基于隐马尔可夫模型的云计算资源调度方法和系统
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
CN109412109A (zh) * 2018-11-14 2019-03-01 上海思源弘瑞自动化有限公司 一种识别异常大数的方法、装置和继电保护设备
CN109587220A (zh) * 2018-11-09 2019-04-05 金蝶软件(中国)有限公司 负载均衡方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094061A1 (en) * 2005-10-12 2007-04-26 Jianying Hu Method and system for predicting resource requirements for service engagements
US9912564B2 (en) * 2014-03-06 2018-03-06 Xerox Corporation Methods and systems to identify bottleneck causes in applications using temporal bottleneck point detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839105A (en) * 1995-11-30 1998-11-17 Atr Interpreting Telecommunications Research Laboratories Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood
CN103036974A (zh) * 2012-12-13 2013-04-10 广东省电信规划设计院有限公司 基于隐马尔可夫模型的云计算资源调度方法和系统
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
CN109587220A (zh) * 2018-11-09 2019-04-05 金蝶软件(中国)有限公司 负载均衡方法、装置、计算机设备和存储介质
CN109412109A (zh) * 2018-11-14 2019-03-01 上海思源弘瑞自动化有限公司 一种识别异常大数的方法、装置和继电保护设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙骞 ; 张家瑞 ; 高岭 ; 王宇翔 ; 杨建锋 ; .一种改进的边缘层节点健康态势预估方法.西安电子科技大学学报.2019,第47卷(第03期),第32-39页. *
李丽娜 ; 魏晓辉 ; 李翔 ; 王兴旺 ; .流数据处理中负载突发感知的弹性资源分配.计算机学报.2017,第41卷(第10期),第2193-2208页. *
李丽娜 ; 魏晓辉 ; 郝琳琳 ; 王兴旺 ; 王储 ; .大规模流数据处理中代价有效的弹性资源分配策略.吉林大学学报(工学版).2020,第50卷(第05期),第1832-1843页. *
陆汝华 ; 段盛 ; 杨胜跃 ; 樊晓平 ; .基于CGHMM的轴承故障音频信号诊断方法.计算机工程与应用.2009,第45卷(第11期),第223-234页. *

Also Published As

Publication number Publication date
CN111523565A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523565B (zh) 一种大数据的流式处理方法、系统及存储介质
CN108965024B (zh) 一种5g网络切片基于预测的虚拟网络功能调度方法
CN110187990B (zh) 一种基于模式转移的虚拟机混合备用动态可靠性评估方法
CN111459617B (zh) 基于云平台的容器化应用自动分配优化系统及其方法
Kuchuk et al. Method for calculating of R-learning traffic peakedness
JP5313990B2 (ja) 応答時間に基づいてサービスリソース消費を推定すること
CN110990159A (zh) 一种基于历史数据分析的容器云平台资源配额预测方法
Yu et al. Integrating clustering and learning for improved workload prediction in the cloud
CN103036974A (zh) 基于隐马尔可夫模型的云计算资源调度方法和系统
WO2019150343A1 (en) Resource needs prediction in virtualized systems: generic proactive and self-adaptive solution
US20120221373A1 (en) Estimating Business Service Responsiveness
CN112486687B (zh) 一种基于多任务学习时间序列的云平台工作负载预测方法
Chis et al. Adapting hidden Markov models for online learning
Tao et al. A multi-strategy collaborative prediction model for the runtime of online tasks in computing cluster/grid
Kim et al. Adaptive bandwidth allocation based on sample path prediction with Gaussian process regression
Kuranage et al. Deep learning based resource forecasting for 5G core network scaling in Kubernetes environment
CN117273233A (zh) 一种基于长短期记忆网络模型的用户未来任务量及资源需求精准预测方法
Wang et al. Estimating multiclass service demand distributions using Markovian arrival processes
CN115913967A (zh) 一种云环境下基于资源需求预测的微服务弹性伸缩方法
US7839861B2 (en) Method and apparatus for calculating bandwidth requirements
CN114564487B (zh) 预报预测相结合的气象栅格数据更新方法
Gupta et al. Online adaptation models for resource usage prediction in cloud network
Adel et al. Cloud computing predictive resource management framework using hidden Markov model
Ivanova et al. Significant simulation parameters for RESTART/LRE method in teletraffic systems of network of queues
Jittawiriyanukoon Approximation of regression-based fault minimization for network traffic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant