CN111523565B - 一种大数据的流式处理方法、系统及存储介质 - Google Patents
一种大数据的流式处理方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111523565B CN111523565B CN202010239053.4A CN202010239053A CN111523565B CN 111523565 B CN111523565 B CN 111523565B CN 202010239053 A CN202010239053 A CN 202010239053A CN 111523565 B CN111523565 B CN 111523565B
- Authority
- CN
- China
- Prior art keywords
- moment
- performance bottleneck
- processing application
- application performance
- flow processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000005111 flow chemistry technique Methods 0.000 claims abstract description 119
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000012544 monitoring process Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000013468 resource allocation Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 5
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 4
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 4
- 230000008602 contraction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 1
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- ANBQYFIVLNNZCU-CQCLMDPOSA-N alpha-L-Fucp-(1->2)-[alpha-D-GalpNAc-(1->3)]-beta-D-Galp-(1->3)-[alpha-L-Fucp-(1->4)]-beta-D-GlcpNAc-(1->3)-beta-D-Galp Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]1[C@H](O[C@H]2[C@@H]([C@@H](O[C@@H]3[C@@H]([C@@H](O)[C@@H](O)[C@@H](CO)O3)NC(C)=O)[C@@H](O)[C@@H](CO)O2)O[C@H]2[C@H]([C@H](O)[C@H](O)[C@H](C)O2)O)[C@@H](NC(C)=O)[C@H](O[C@H]2[C@H]([C@@H](CO)O[C@@H](O)[C@@H]2O)O)O[C@@H]1CO ANBQYFIVLNNZCU-CQCLMDPOSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- CLOMYZFHNHFSIQ-UHFFFAOYSA-N clonixin Chemical compound CC1=C(Cl)C=CC=C1NC1=NC=CC=C1C(O)=O CLOMYZFHNHFSIQ-UHFFFAOYSA-N 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据处理技术领域,公开了一种大数据的流式处理方法、系统及存储介质,以对云资源进行合理伸缩避免出现调整抖动现象;该方法包括:采集历史的流处理应用性能资源需求量,将采集的数据划分为训练集和测试集;采用聚类算法对训练集进行聚类;根据聚类结果确定隐状态数,并根据隐状态数确定多维连续隐马尔可夫模型;根据多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;若是,则估计任务处理所需时间,将任务处理所需时间与预设的延迟约束时间做比较,若任务处理所需时间超过预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上的流式系统的资源量大小。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据的流式处理方法、系统及存储介质。
背景技术
流式计算是面向大数据计算的重要形态之一,流式数据大都呈现出实时性、易失性、突发性、无序性、无限性等特征。随着新兴的实时处理要求,传统的数据管理系统在处理大量数据时非常昂贵,并且它们无法应对流应用的实时处理需求。云计算允许用户低成本按需获取/释放资源,在弹性环境中快速部署应用程序。当前云平台还托管许多流数据处理系统来满足用户的基本需求,例如storm,spark,但是这些流处理系统在资源的弹性分配、负载均衡等方面仍存在不足。在分布式并行数据流处理中,面向实时变化且具有突发性的流数据负载,固定的资源分配将造成资源浪费或服务质量降低,因此,流式处理系统中可伸缩的弹性资源分配是一个亟待解决的关键问题。
从弹性资源调整的时机上,不同的策略可以通过延时调整或预先调整来触发云平台中的自动伸缩操作,其中,延时调整是在出现资源不足或过量时进行资源的调整,预先调整是在资源需求量波动尚未到达操作之前,使用基于历史资源需求量预测未来资源需求量的主动伸缩方法,预先启动资源调整,在云计算中广泛采用。
由于资源分配延迟和负载预测模型存在误差,弹性资源调度在流数据处理中面临多方面的挑战,例如,已有的云计算弹性资源分配策略无法准确地提供与系统负载相匹配的资源;流数据处理系统存在不必要的反复资源调整,即调整抖动,增加了系统开销;目前大多研究并未考虑部署在流数据处理系统中各应用的差异性,不能准确有效提供影响各应用处理性能的资源。
发明内容
本发明目的在于提供一种大数据的流式处理方法、系统及存储介质,以对云资源进行合理伸缩避免出现调整抖动现象。
为实现上述目的,本发明提供了一种大数据的流式处理方法,包括以下步骤:
采集历史的流处理应用性能资源需求量,将所采集的数据划分为训练集和测试集;
采用聚类算法对所述训练集进行聚类;
根据聚类结果确定隐状态数,并根据所述隐状态数及流处理应用的性能瓶颈资源个数确定多维连续隐马尔可夫模型;
根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
若是,则估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小。
优选地,还包括以下步骤:采用所述测试集测试所述多维连续隐马尔可夫模型的准确率,若所述准确率超过设定的误差阈值,则获取最新的流式数据重新训练所述多维连续隐马尔可夫模型,直至所述多维连续隐马尔可夫模型的准确率低于所述设定的误差阈值。
优选地,所述根据所述多维连续隐马尔可夫模型的预测确定是否发生突增情况具体包括:
将当前时刻视为T时刻,获取T时刻的流处理应用性能瓶颈资源需求量,根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量;
将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较;
若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量,则视为发生了突增情况。
优选地,若没有发生突增情况,则判断:
是否与预设的第一条件一致,若与第一条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T+2时刻的流处理应用性能瓶颈资源需求量;
若不与第一条件一致,则判断是否与预设的第二条件一致,若与第二条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T+1时刻的流处理应用性能瓶颈资源需求量;
若不与第二条件一致,则判断是否与预设的第三条件一致,若与第三条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量;
其中,所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增;所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减;所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量,且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量。
优选地,所述估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小具体包括:
解析用户对于处理任务的延迟约束时间信息;
对所述任务的任务状态进行监控,根据监测结果和设定的排队论原理计算的相关时间信息,所述相关时间信息包括任务处理等待时间和任务执行时间;
将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量;
根据预测结果与所述比较结果调整资源伸缩策略以指导云资源伸缩。
优选地,所述流处理应用性能瓶颈资源需求量包括CPU、内存、或者带宽中的一种或者任意几种的组合。
作为一个总的发明构思,本发明还提供一种大数据的流式处理系统,包括:
采集模块,用于采集历史的流处理应用性能资源需求量,将所采集数据划分为训练集和测试集;
聚类模块,用于采用聚类算法对所述训练集进行聚类;
制定模型模块,用于根据聚类结果确定隐状态数,并根据所述隐状态数及流处理应用性能瓶颈资源个数确定多维连续隐马尔可夫模型;
预测模块,用于根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
计算调整模块,用于当发生突增情况时,估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小。
优选地,所述计算调整模块具体包括:
服务质量需求解析器,用于解析用户对于处理任务的延迟约束时间信息;
任务状态监控器,用于对所述任务的任务状态进行监控,并获取任务的相关时间信息,所述相关时间信息包括任务处理等待时间和任务执行时间;
比较器,用于将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
资源监测器,用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
需求量预测器,用于根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,资源需求量预测器将预测结果传输给资源分配器;
资源分配器,用于结合上述预测结果和所述比较结果调整资源伸缩策略以指导云资源伸缩。
作为一个总的发明构思,本发明还提供一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明具有以下有益效果:
本发明提供的一种大数据的流式处理方法、系统及存储介质,该方法通过采用多维连续隐马尔可夫模型对未来时刻的流处理应用性能瓶颈资源进行双步预测,根据预测结果判断是否发生突增情况,当发生突增情况的时候,估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的部署在云资源上流式系统资源量大小,该方法可以提前获知未来时刻的流处理应用性能瓶颈资源需求量,并可以对云资源进行合理伸缩避免出现调整抖动现象。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的大数据的流式处理方法流程图;
图2是本发明优选实施例的性能瓶颈资源CPU实际和预测比较情况示意图;
图3是本发明优选实施例的性能瓶颈资源内存实际和预测比较情况示意图;
图4是本发明优选实施例的资源调整次数与LMD-HMM方法资源调整次数的实验结果比较情况示意图;
图5是本发明优选实施例的大数据的流式处理系统的结构示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
如图1所示,本实施例提供一种大数据的流式处理方法,包括以下步骤:
采集待处理的流式大数据,将流式大数据划分为训练集和测试集;
首先,流数据处理系统按每个流事件的要求接收来自各种数据源的用户请求数据流,目前已有的分布式流数据处理系统有Kafka和Flume等。流式计算系统提供与Storm和Spark类似服务,通过在系统中部署流处理应用,接收流数据处理系统集成的数据流并提供连续的、实时的计算服务。采用聚类算法对训练集进行聚类。
本实施例中,采用的聚类算法为K-means聚类算法,根据K-means聚类算法进行聚类后,可以增快后续的根据聚类结果确定隐状态数的速度。
进一步地,根据聚类结果确定隐状态数,并根据隐状态数确定多维连续隐马尔可夫模型。
需要说明的是,隐马尔可夫模型(Hidden Markov Model,HMM)是一个针对时间序列数据的建模、分析的统计学工具,建立隐状态之间以及隐状态和观测值之间的概率分布联系。隐马尔科夫模型观测序列观测到的值称为观测状态,状态转移过程中的状态称为隐状态。通常,一个标准的隐马尔科夫模型可以用λ={N,M,π,A,B}五元组表示,其中N为隐状态个数,M为每个隐状态下观测值个数,π为初始隐状态概率分布向量,A为隐状态转移概率矩阵。当观测值离散时,B为观测值的概率矩阵,当观测值连续时,B为观测值的概率密度函数。
本实施例中,观测时间序列为应用的各性能瓶颈资源需求量。假设应用Ax有R个性能瓶颈资源,在时刻t,其观测值记为ot,ot是一个R维向量,其中/>表示在时刻t性能瓶颈资源r的观测值。在T个时间窗口内,应用Ax性能瓶颈资源的需求量观测序列由ot组成,记为O={o1,o2,...,ot,...,oT}。如应用Ax性能瓶颈是CPU、内存和网络,即R=3。
流式大数据的产生完全由数据源确定,由于不同数据源在不同时空范围内会发生动态变化,导致流入流式计算系统的数据存在较大的波动性,如果在某个持续时间很短的时间段Δt内出现突发数据,且Δt又是基本的流式数据处理单元时间,则可能出现调整抖动,导致资源调整出现短暂的反复,增加了不必要的调整开销。如果在时间段Δt内出现突发数据,而当前系统的资源量又不会造成应用的执行时间违反延迟约束,则可以考虑取消调整以减少调整代价。为避免调整抖动,本实施例提出基于预测T+1、T+2时刻资源需求量的调整策略。
本实施例中,以流式计算系统历史记录在前T个时刻R个性能瓶颈资源需求量的观测序列为基础,通过为每个流式应用Ax建立连续隐马尔科夫模型λx={R,N,M,π,A,ω,μ,∑},分析得出系统在T+1、T+2时刻的性能瓶颈资源需求量,从而为系统后续弹性伸缩策略作出决策。
对流式应用Ax建立其连续隐马尔可夫模型λx。其中,本实施例中,R表示流式应用Ax的性能瓶颈资源数,模型的隐状态数N,可由传统的BIC(Bayesian InformationCriterion)方法确定。为避免BIC方法固有的存在过多候选模型(隐状态数选择多)复杂度过大的缺点,本实施例利用K-Means算法将全部样本数据聚为N'类,再采用BIC方法对N'进行评估确定最终的隐状态数N。隐状态集记为S={S1,S2,…,SN},任意时刻,各应用都处于N个隐状态中的一个。时刻t的隐状态记为qt,qt∈S,隐状态q1为初始状态。
隐状态转移概率矩阵A=(aij)N*N,1≤i,j≤N,其中aij=P(qt+1=Sj|qt=Si)为应用状态从隐状态i转移到隐状态j的概率,对A的初始训练值,假设应用Ax任意隐状态Si转移到其他隐状态Sj或依然停留在本隐状态Si等概率,即/>
本发明观测时间序列连续,λx中B为概率密度函数,由混合系数矩阵ω、均值矩阵μ、协方差矩阵∑表示。
本发明采用高斯混合模型(Gaussian Mixture Model,GMM)拟合各个状态下的概率密度函数的观测值,GMM是一种被广泛应用的概率密度函数,具有无限接近任意分布的优势。在状态Si下,连续隐马尔可夫模型的观测值概率分布用连续概率密度函数bi(ot)描述,其中,连续概率密度函数bi(ot)的计算公式如下:
式中,Mi是当前隐状态Si下高斯分量的个数,由对N个隐状态下每个隐状态继续聚类为M簇所得,为λx中的观测状态数。ωim、μim、∑im分别代表当前隐状态Si下第m个高斯分布的权值、均值向量、方差矩阵。vim初始化为第m个高斯分量中的观测向量数除以状态Si下的观测向量数,即μim初始化为第m个高斯分量中的观测向量的均值向量/>∑im初始化为第m个高斯分量中的观测向量的协方差矩阵/>ot是t时刻流式应用的性能瓶颈资源观测值向量,R是性能瓶颈资源个数。
其中,要求解Q问题,首先需要确定如何计算值,即评估在给定模型下生成观测序列O的概率。对每个应用Ax,已知当前模型/>和各时刻应用的性能瓶颈资源需求量观测序列O,计算在模型/>下生成观测序列O的概率/>是一个HMM的评估问题,可采用基于前向变量和后向变量的Forward-Backward算法解决。前向变量表示给定模型/>从时刻1到时刻t的部分观测序列为o1,o2,...,ot且隐状态qt为Si的联合概率,记为αt(i)。后向变量表示给定模型/>在t时刻的隐状态qt为Si的条件下,将从时刻t+1到最后时刻T的部分观测序列为ot+1,ot+2,...,oT的联合概率记为βt(i)。
上述二者均可以归纳求解,计算公式如下:
已知,对模型/>进行迭代训练,对式/>中的最大化问题进行求解是一个HMM学习问题,可使用迭代算法Baum-Welch算法解决。Baum-Welch算法的迭代过程中将定义两个重要的中间过程变量,即给定模型/>和观测序列O,在时刻t隐状态qt为Si的概率γt(i)
和在时刻t隐状态qt为Si且时刻t+1隐状态qt+1为Sj的概率εt(i,j),分别计算如下:
利用前向变量αt(i)和后向变量βt(i)定义可知:
为适应本实施例连续隐马尔可夫模型的求解,引入一个新的中间过程变量δt(i,m),即给定模型和观测序列O,时刻t隐状态qt为Si且观测值oi,t为状态Si下混合高斯分布的第m个高斯分量的联合概率δt(i,m),计算如下:
对于每个训练样本都可以通过Forward-Backward算法得到αt(i)和βt(i)的值,再由αt(i)和βt(i)可求解辅助变量γt(i),εt(i,j),δt(i,m)。
其中g、h、f代表不同的函数关系。根据训练集中观测序列ok+1计算所得的第k+1个前向变量和后向变量/>均是关于模型/>和观测序列ok+1的函数,而模型/>参数的重估均是基于前向变量/>和后向变量/>即可知旧模型/>和新模型/>迭代关系。
根据多维连续隐马尔可夫模型预测结果确定是否发生突增情况。
为避免资源调整抖动现象,弹性资源分配不仅需要确定资源扩展或者缩减的时机和大小,还需要确定当前的资源量是否能满足服务质量需求解析器解析的延迟约束,即当前资源量是否能在用户希望的时间内处理完请求并返回结果。
对于应用Ax的将一个子功能/>中的每个任务task看做一个单服务器排队系统,每个任务task的数据单元的到达时间间隔的概率分布和服务时间都是未知的,本实施例将每个任务task建模为一个GI/G/1排队系统。根据Kingman公式可以估算出子功能中任务队列平均等待时间/>如下:
为预测应用Ax在时刻T+1、T+2的性能瓶颈资源需求量,通过上述描述的方法确定初始模型并以监测得到的O为观测值训练出最终模型/>对应用Ax在时刻T+1、T+2的性能瓶颈资源需求量的预测是通过当前时刻T的性能瓶颈资源需求量OT和预测T+1、T+2时刻性能瓶颈资源需求量的变化率/>所得。应用Ax在时刻T+1的性能瓶颈资源需求量RST+1如下:
首先计算当前时刻T观测序列O在模型下的评估概率/>及其似然值再循环查找从时刻1到T-1时刻存在的与时刻T的相似模式:计算从时刻1到时刻t观测序列Ot在模型/>下的评估概率/>及其似然值/>如果小于相似性阈值τ,则认为Ot和OT相似。计算t+1时刻的资源需求变化率/>并将该时刻的资源需求变化率累加到总资源需求变化率sumΔR。这样相似的模型不止一个,所以根据距离当前时刻T的远近赋予不同的权值weightt,将所有权值累加为权值和sumWeight。权值weightt和资源需求变化率/>计算公式分别如下:
weightt=exp(1/(T-t+1)) (15)
作为可变换的实施方式,进一步地,为了便于快速知晓当前应当调整的虚拟机的数量,再另一个可变换的实施例中,还包括以下步骤:
将累加各流式应用T+1时刻伸缩虚拟机(VM)个数作为计算T+1时刻流式系统伸缩VM个数。计算流式应用Ax在T+1时刻扩展VM个数outNumVMs(RS)或收缩VM个数inNumVMs(RS),首先将根据双步资源需求预测结果及上述的资源伸缩策略确定T+1时刻应用Ax所需各性能瓶颈资源量RS,再以RS作为输入,确定能对应提供RS资源量的最小VM个数Min(NumVM(RS))。其中outNumVMs(RS)与inNumVMs(RS)的计算公式如下:
outNumVMs(RS)=Min(NumVM(RS))-curNumVM;
Min(NumVM(RS))≥curNumVM;
inNumVMs(RS)=curNumVM-Min(NumVM(RS));
Min(NumVM(RS))<curNumVM;
其中curNumVM表示当前系统所提供的VM数量。
针对本实施例所提的多个性能瓶颈特性确定VM数量Min(NumVM(RS))是以确保用户延迟约束的同时保证资源的高利用率为目的。对Min(NumVM(RS))的确定,本实施例采用同构的VM,循环比较各个性能瓶颈资源量,针对某一资源,若当前伸/缩后的VM个数对应的该资源量小于/大于RS对应该资源的需求,则当前VM加/减一,最终即可以确定Min(NumVM(RS))大小。通过该种方式,可以快速地知道如何根据需要调整的资源量大小分配虚拟机。
实施例2
本实施例中,建立仿真系统来评估利用连续隐马尔科夫模型预测出的双步预测结果指导大数据流式计算系统中弹性资源分配的效率和性能。进行仿真实验的物理平台为Intel core i5-6200U CPU、4GB内存的PC机。
本实施例选取阿里巴巴数据中心某应用的资源管理和调度数据集,经处理后数据集分为两组,训练集和预测集。初始化模型过后使用训练集建立最终模型,使用预测集确定其准确性。其双步预测结果将指导大数据流式计算系统中流式应用的性能瓶颈资源调整。
对于训练连续隐马尔可夫模型,首先初始化模型,模型中所有参数的确定都是基于隐状态数N。对选定隐状态数N,传统的BIC方法存在候选模型过多计算复杂度大的缺点。本实施例采用BIC方法结合K-Means算法的方式减少传统BIC方法在确定隐状态数N时存在的过多候选模型。首先利用K-Means算法将全部样本数据聚为N'类,聚类的结果用来建立混合高斯模型,聚类的个数在一定的范围变化,所以可以得到一系列具有不同成分个数的混合高斯模型,但是存在一个最优混合个数k,即隐状态数N,使得k个成分的混合高斯分布的拟合程度和无限成分的混合高斯分布的拟合程度接近。再将N'及其附近的隐状态数初始化的隐马尔可夫模型HMM作为本发明的BIC候选模型,又由于BIC值会随着隐状态数N值的增加而增加,直到某一个隐状态数k使得k之后的BIC值都趋于平稳,其中k即代表合适的模型,按照BIC准则对候选隐状态数进行评估,确定最可能的混合高斯模型的成分数k作为首选的HMM模型的隐状态数N。选取使用N'训练HMM得到训练N'+1个隐状态的HMM得到/>如果/>则继续训练N'+2个隐状态的HMM,直到找到比后面一个模型的BIC值大的隐状态个数,即最终的隐状态数N。
本实施例对T+1时刻性能瓶颈资源伸缩大小的调整是基于T+2时刻性能瓶颈资源需求量作为参考,并以最小化资源调整抖动次数为目标,避免出现调整调动现象,减少系统开销,且在遵守延迟约束基础上保证资源利用率。
对于测试连续隐马尔可夫模型,评价模型的效果取决于训练模型时未使用到的预测数据集。对应用的某一性能瓶颈资源,本实施例基于平均误差(Mean AbsolutePercentage Error,MAPE)指标评估基于连续隐马尔可夫模型的ERSA算法预测资源需求量的准确性。其中MAPE指标的计算公式如下:
本实施例中,根据实验,图2和图3分别展示性能瓶颈资源CPU及内存的预测与实际结果的对比。
CPU的平均误差MAPEcpu=0.0496,内存的平均误差MAPEmem=0.0078。其中选取的相似性阈值τ=0.15,CPU和内存的预测误差阈值θ分别为0.05和0.01。
为了评价弹性资源分配的效果,本实施例在保证满足服务质量需求解析器解析的延迟约束情况下,即保证能在用户希望的时间内处理完请求并返回结果记录情况下,将弹性资源调整算法ERSA在指导云资源伸缩的过程中资源调整次数的实验结果与LMD-HMM方法资源调整次数的实验结果进行了比较,如图4所示,本发明的弹性资源分配策略MSP-RAS减少了资源不必要的调整,避免出现资源调整抖动现象,从而一定程度上减少了系统不必要的性能消耗。
在上述方法中,针对大数据流式计算系统的弹性资源分配问题,提出了一种基于连续隐马尔科夫模型的性能瓶颈资源需求量双步预测算法ERSA,并利用已有的排队论研究估计流入流式计算系统的数据单元处理响应时间,确定当前的资源量是否能在延迟约束时间范围内完成流式数据的处理,并结合双步预测算法结果指导流式计算系统中资源的弹性调整。实验结果显示,ERSA算法能够有效地预测出应用的性能瓶颈资源需求量,改善资源分配延迟效果明显,并且减少了不必要的反复资源调整,提高了整个系统的性能和资源利用率。
实施例3
如图5所示,本实施例提供一种大数据的流式处理系统,包括:
采集模块,用于采集待处理的流式大数据,将流式大数据划分为训练集和测试集;
聚类模块,用于采用聚类算法对训练集进行聚类;
制定模型模块,用于根据聚类结果确定隐状态数,并根据隐状态数确定多维连续隐马尔可夫模型;
预测模块,用于根据多维连续隐马尔可夫模型预测是否发生突增情况;
计算调整模块,用于当发生突增情况时,计算任务所需时间,将任务所需时间与预设的延迟约束时间做比较,若任务所需时间超过预设的延迟约束时间,则调整当前时刻的下一个时刻的资源量大小。
作为本实施例优选的实施方式,计算调整模块具体包括:
服务质量需求解析器,用于解析任务的延迟约束时间信息;
任务状态监控器,用于对任务的任务状态进行监控,根据监测结果和设定的排队论原理计算任务的相关时间信息,相关时间信息包括等待时间和执行时间;
比较器,用于将任务的相关时间信息与延迟约束时间信息进行比较,并将比较结果传输给资源分配器;
资源检测器,用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,并将监测到的数据传输给资源需求量预测器;
需求量预测器,用于构建流处理应用性能瓶颈资源需求量的预测模型,资源需求量预测器将预测结果传输给资源分配器,资源分配器结合上述判定结果评估出资源伸缩策略以指导云资源伸缩。
上述各器件模块的工作原理在上述实施例1中均已详细说明,此处,不多做赘述。
实施例4
本实施例提供一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种大数据的流式处理方法,其特征在于,包括以下步骤:
采集历史的流处理应用性能资源需求量,将采集的数据划分为训练集和测试集;
采用聚类算法对所述训练集进行聚类;
根据聚类结果确定隐状态数,并根据所述隐状态数确定多维连续隐马尔可夫模型;
根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
若是,则估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小;
所述根据所述多维连续隐马尔可夫模型预测是否发生突增情况具体包括:
将当前时刻视为T时刻,获取T时刻的流处理应用性能瓶颈资源需求量,根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量;
将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较;
若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量,则视为发生了突增情况;
若没有发生突增情况,则判断:
是否与预设的第一条件一致,若与第一条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+2时刻的流处理应用性能瓶颈资源需求量;
若不与第一条件一致,则判断是否与预设的第二条件一致,若与第二条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+1时刻的流处理应用性能瓶颈资源需求量;
若不与第二条件一致,则判断是否与预设的第三条件一致,若与第三条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量;
其中,所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增;所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减;所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量,且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量;
所述估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的流处理应用性能瓶颈资源量大小具体包括:
解析任务的延迟约束时间信息;
对所述任务的任务状态进行监控,根据监测结果和设定的排队论原理估计任务处理的相关时间信息,所述相关时间信息包括数据单元等待时间和服务时间;其中,数据单元等待时间和服务时间满足如下关系式:
将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量;
根据预测结果与所述比较结果确定调整资源伸缩策略以指导云资源伸缩。
2.根据权利要求1所述的大数据的流式处理方法,其特征在于,还包括以下步骤:采用所述测试集测试所述多维连续隐马尔可夫模型的准确率,若所述准确率超过设定的误差阈值,则获取最新的流处理应用性能瓶颈资源需求量重新训练所述多维连续隐马尔可夫模型,直至所述多维连续隐马尔可夫模型的准确率低于所述设定的误差阈值。
3.根据权利要求1-2任一所述的大数据的流式处理方法,其特征在于,所述流处理应用性能瓶颈资源需求量包括CPU、内存、或者带宽中的一种或者任意几种的组合。
4.一种大数据的流式处理系统,其特征在于,包括:
采集模块,用于采集历史的流处理应用性能资源需求量,将所述数据划分为训练集和测试集;
聚类模块,用于采用聚类算法对所述训练集进行聚类;
制定模型模块,用于根据聚类结果确定隐状态数,并根据所述隐状态数及流处理应用性能瓶颈资源个数确定多维连续隐马尔可夫模型;
预测模块,用于根据所述多维连续隐马尔可夫模型进行双步预测以确定是否发生突增情况;
计算调整模块,用于当发生突增情况时,估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻部署在云资源上流式系统的资源量大小;
所述根据所述多维连续隐马尔可夫模型预测是否发生突增情况具体包括:
将当前时刻视为T时刻,获取T时刻的流处理应用性能瓶颈资源需求量,根据所述多维连续隐马尔可夫模型分别预测T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量;
将所述T时刻的流处理应用性能瓶颈资源需求量、所述T+1时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量进行比较;
若所述T时刻的流处理应用性能瓶颈资源需求量和所述T+2时刻的流处理应用性能瓶颈资源需求量都小于所述T+1时刻的流处理应用性能瓶颈资源需求量,则视为发生了突增情况;
若没有发生突增情况,则判断:
是否与预设的第一条件一致,若与第一条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+2时刻的流处理应用性能瓶颈资源需求量;
若不与第一条件一致,则判断是否与预设的第二条件一致,若与第二条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为利用多维连续隐马尔可夫模型预测的T+1时刻的流处理应用性能瓶颈资源需求量;
若不与第二条件一致,则判断是否与预设的第三条件一致,若与第三条件一致,则将T时刻的下一个时刻的流处理应用性能瓶颈资源需求量调整为T时刻的流处理应用性能瓶颈资源需求量;
其中,所述预设的第一条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递增;所述预设的第二条件包括T时刻的流处理应用性能瓶颈资源需求量、T+1时刻的流处理应用性能瓶颈资源需求量和T+2时刻的流处理应用性能瓶颈资源需求量递减;所述预设的第三条件包括T时刻的流处理应用性能瓶颈资源需求量大于T+1时刻的流处理应用性能瓶颈资源需求量,且T+1时刻的流处理应用性能瓶颈资源需求量小于T+2时刻的流处理应用性能瓶颈资源需求量;
所述估计任务处理所需时间,将所述任务处理所需时间与预设的延迟约束时间做比较,若所述任务处理所需时间超过所述预设的延迟约束时间,则调整当前时刻的下一个时刻的流处理应用性能瓶颈资源量大小具体包括:
解析任务的延迟约束时间信息;
对所述任务的任务状态进行监控,根据监测结果和设定的排队论原理估计任务处理的相关时间信息,所述相关时间信息包括数据单元等待时间和服务时间;其中,数据单元等待时间和服务时间满足如下关系式:
将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,根据所述预测模型预测未来时刻的流处理应用性能瓶颈资源需求量;
根据预测结果与所述比较结果确定调整资源伸缩策略以指导云资源伸缩。
5.根据权利要求4所述的流式处理系统,其特征在于,所述计算调整模块具体包括:
服务质量需求解析器,用于解析用户对于处理任务的延迟约束时间信息;
任务状态监控器,用于对所述任务的任务状态进行监控,获取并估计任务的相关时间信息,所述相关时间信息包括等待时间和执行时间;
比较器,用于将所述任务的相关时间信息与所述延迟约束时间信息进行比较,得到比较结果;
资源监测器,用于监测在流式计算系统中的流处理应用的各性能瓶颈资源需求量,得到监测数据;
需求量预测器,用于根据所述监测数据构建流处理应用性能瓶颈资源需求量的预测模型,资源需求量预测器将预测结果传输给资源分配器;
资源分配器,用于结合上述预测结果和所述比较结果调整资源伸缩策略以指导云资源伸缩。
6.一种计算机存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至3任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239053.4A CN111523565B (zh) | 2020-03-30 | 2020-03-30 | 一种大数据的流式处理方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239053.4A CN111523565B (zh) | 2020-03-30 | 2020-03-30 | 一种大数据的流式处理方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523565A CN111523565A (zh) | 2020-08-11 |
CN111523565B true CN111523565B (zh) | 2023-06-20 |
Family
ID=71901330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010239053.4A Active CN111523565B (zh) | 2020-03-30 | 2020-03-30 | 一种大数据的流式处理方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523565B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112130974B (zh) * | 2020-09-10 | 2022-10-25 | 厦门市美亚柏科信息股份有限公司 | 云计算资源配置方法、装置、电子设备与存储介质 |
CN113760527A (zh) * | 2020-12-21 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 资源控制方法和装置 |
CN113515382B (zh) * | 2021-07-22 | 2024-04-09 | 中移(杭州)信息技术有限公司 | 云资源的分配方法、装置、电子设备及存储介质 |
CN115174395A (zh) * | 2022-07-01 | 2022-10-11 | 深圳致星科技有限公司 | 基于隐私计算平台的资源配置调整方法及装置 |
CN115171389B (zh) * | 2022-07-22 | 2023-10-31 | 吉林大学 | 基于gmm-hmm的高速公路他车超车换道意图识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839105A (en) * | 1995-11-30 | 1998-11-17 | Atr Interpreting Telecommunications Research Laboratories | Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood |
CN103036974A (zh) * | 2012-12-13 | 2013-04-10 | 广东省电信规划设计院有限公司 | 基于隐马尔可夫模型的云计算资源调度方法和系统 |
CN107404523A (zh) * | 2017-07-21 | 2017-11-28 | 中国石油大学(华东) | 云平台自适应资源调度系统和方法 |
CN109412109A (zh) * | 2018-11-14 | 2019-03-01 | 上海思源弘瑞自动化有限公司 | 一种识别异常大数的方法、装置和继电保护设备 |
CN109587220A (zh) * | 2018-11-09 | 2019-04-05 | 金蝶软件(中国)有限公司 | 负载均衡方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094061A1 (en) * | 2005-10-12 | 2007-04-26 | Jianying Hu | Method and system for predicting resource requirements for service engagements |
US9912564B2 (en) * | 2014-03-06 | 2018-03-06 | Xerox Corporation | Methods and systems to identify bottleneck causes in applications using temporal bottleneck point detection |
-
2020
- 2020-03-30 CN CN202010239053.4A patent/CN111523565B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839105A (en) * | 1995-11-30 | 1998-11-17 | Atr Interpreting Telecommunications Research Laboratories | Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood |
CN103036974A (zh) * | 2012-12-13 | 2013-04-10 | 广东省电信规划设计院有限公司 | 基于隐马尔可夫模型的云计算资源调度方法和系统 |
CN107404523A (zh) * | 2017-07-21 | 2017-11-28 | 中国石油大学(华东) | 云平台自适应资源调度系统和方法 |
CN109587220A (zh) * | 2018-11-09 | 2019-04-05 | 金蝶软件(中国)有限公司 | 负载均衡方法、装置、计算机设备和存储介质 |
CN109412109A (zh) * | 2018-11-14 | 2019-03-01 | 上海思源弘瑞自动化有限公司 | 一种识别异常大数的方法、装置和继电保护设备 |
Non-Patent Citations (4)
Title |
---|
孙骞 ; 张家瑞 ; 高岭 ; 王宇翔 ; 杨建锋 ; .一种改进的边缘层节点健康态势预估方法.西安电子科技大学学报.2019,第47卷(第03期),第32-39页. * |
李丽娜 ; 魏晓辉 ; 李翔 ; 王兴旺 ; .流数据处理中负载突发感知的弹性资源分配.计算机学报.2017,第41卷(第10期),第2193-2208页. * |
李丽娜 ; 魏晓辉 ; 郝琳琳 ; 王兴旺 ; 王储 ; .大规模流数据处理中代价有效的弹性资源分配策略.吉林大学学报(工学版).2020,第50卷(第05期),第1832-1843页. * |
陆汝华 ; 段盛 ; 杨胜跃 ; 樊晓平 ; .基于CGHMM的轴承故障音频信号诊断方法.计算机工程与应用.2009,第45卷(第11期),第223-234页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111523565A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523565B (zh) | 一种大数据的流式处理方法、系统及存储介质 | |
CN108965024B (zh) | 一种5g网络切片基于预测的虚拟网络功能调度方法 | |
CN110275758B (zh) | 一种虚拟网络功能智能迁移方法 | |
CN111459617B (zh) | 基于云平台的容器化应用自动分配优化系统及其方法 | |
Kuchuk et al. | Method for calculating of R-learning traffic peakedness | |
JP5313990B2 (ja) | 応答時間に基づいてサービスリソース消費を推定すること | |
CN110990159A (zh) | 一种基于历史数据分析的容器云平台资源配额预测方法 | |
Yu et al. | Integrating clustering and learning for improved workload prediction in the cloud | |
WO2019150343A1 (en) | Resource needs prediction in virtualized systems: generic proactive and self-adaptive solution | |
CN103036974A (zh) | 基于隐马尔可夫模型的云计算资源调度方法和系统 | |
CN112486687B (zh) | 一种基于多任务学习时间序列的云平台工作负载预测方法 | |
Chis et al. | Adapting hidden Markov models for online learning | |
CN115913967A (zh) | 一种云环境下基于资源需求预测的微服务弹性伸缩方法 | |
Kim et al. | Adaptive bandwidth allocation based on sample path prediction with Gaussian process regression | |
Zhang et al. | Simulation of an adaptive model based on AIC and BIC ARIMA predictions | |
Lu et al. | Gaussian process temporal-difference learning with scalability and worst-case performance guarantees | |
CN116993181A (zh) | 基于rbf-arx的综合能源系统时序概率多元负荷预测方法及系统 | |
Hansen et al. | Nonparametric inference from the M/G/1 workload | |
US7839861B2 (en) | Method and apparatus for calculating bandwidth requirements | |
Li et al. | A novel self-similar traffic prediction method based on wavelet transform for satellite Internet | |
CN116112379A (zh) | 一种数据中心多维业务共享设备的有向链路动态预测方法 | |
Zhou et al. | Inference replication at edges via combinatorial multi-armed bandit | |
Ivanova et al. | Significant simulation parameters for RESTART/LRE method in teletraffic systems of network of queues | |
Mu et al. | Omopredictor: An online multi-step operator performance prediction framework in distributed streaming processing | |
Hammer et al. | A queue model for reliable forecasting of future CPU consumption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |