CN109711554B - 一种基于基础设施大数据的应用弹性管理装置 - Google Patents

一种基于基础设施大数据的应用弹性管理装置 Download PDF

Info

Publication number
CN109711554B
CN109711554B CN201811041197.8A CN201811041197A CN109711554B CN 109711554 B CN109711554 B CN 109711554B CN 201811041197 A CN201811041197 A CN 201811041197A CN 109711554 B CN109711554 B CN 109711554B
Authority
CN
China
Prior art keywords
layer
capacity
application
information acquisition
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811041197.8A
Other languages
English (en)
Other versions
CN109711554A (zh
Inventor
黄峤睿
刘松辉
严永峰
马颂华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN201811041197.8A priority Critical patent/CN109711554B/zh
Publication of CN109711554A publication Critical patent/CN109711554A/zh
Application granted granted Critical
Publication of CN109711554B publication Critical patent/CN109711554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于基础设施大数据的应用弹性管理装置。它包括基础操作层、信息采集反馈层、决策处理层;基础操作层即一个应用节点的上线下线操作可以做到全自动,以网络服务的方式对外供外部调用;信息采集反馈层是接入实时监控获取到准实时的各应用、各组件的指标监控数据,供决策层判断应用是否需要扩容或缩容;决策处理层是根据信息采集反馈层的数据配合AI算法从多个维度评估分析,再结合之前的历史操作扩容或缩容的必要性,最终决定是否调用基础操作层进行实施扩容或缩容。本发明应用弹性管理装置可以通过弹性自动扩缩容,有效地节省机器资源成本,按需按量地分配资源。

Description

一种基于基础设施大数据的应用弹性管理装置
技术领域
本发明涉及属于应用节点的弹性扩容缩容管理装置和方法,特别是一种基于基础设施大数据的应用弹性管理装置。
背景技术
当软件架构发展到一定规模后应用节点均可实现扩容缩容,接下来将会遇到如下两个问题:
1、决策要不要扩以及要扩规模是多少。
2、如何定义高峰与上下坡的定义。
针对第1个问题,现时业界一般的做法是:
a.凭经验来判断
b.按业务的上坡与下坡或者讲是按流量预测来判断。
针对第2个问题,业内暂时没有办法很好的实践经验。
发明内容
本发明的目的在于提供一种基于基础设施大数据的应用弹性管理装置,解决现有基础设施大数据的应用节点的扩容缩容主要依靠经验判断,其可靠性不高,不科学的技术问题,本发明应用弹性管理装置可以通过弹性自动扩缩容,有效地节省机器资源成本,比如在业务的低谷期可以将机器资源降下来,在业务高峰期可以自动扩容出来新机器,按需按量地分配资源。
为解决上述技术问题,本发明采用如下技术方案:
一种基于基础设施大数据的应用弹性管理装置,其特征在于:它包括基础操作层、信息采集反馈层、决策处理层;其中:
1.1基础操作层
即一个应用节点的上线下线操作可以做到全自动,以网络服务的方式对外供外部调用。本层的挑战是企业在运维自动化,标准化的成熟程度;
1.2信息采集反馈层
信息采集层是接入实时监控获取到准实时的各应用、各组件的指标监控数据,供决策层判断应用是否需要扩容或缩容。本层重要挑战是:高并发的信息采集能力信息采集层是不需要作出决策,只需高效地采集数据供决策处理层即可;
1.3决策处理层
决策层是根据信息采集反馈层的数据配合AI算法从多个维度评估分析,再结合之前的历史操作扩容或缩容的必要性,最终决定是否调用基础操作层进行实施扩容或缩容;本层的挑战是大量时序数据的分析。
所述的基于基础设施大数据的应用弹性管理装置,其特征在于:依据定义阀值进行判断的规则;依据应用流量来预测的规则;比如下一个时段是业务的高峰,提前做扩容;比如下一个时段是业务低谷,提前对业务进行缩容,而业务高峰、低谷可通过机器学习的手段获得。
藉由上述结构,本发明具有如下优点:
1、本发明一种基于基础设施大数据的应用弹性管理装置作为一个旁挂系统独立于云计算平台外,不影响其可用性,不影响云计算平台的性能。
2、本发明可以通过弹性自动扩缩容,有效地节省机器资源成本。
3、本发明使用有监督学习的方法找到指标变换规律,解决大量人工设定阀值的方式所带来的工作量和准确性问题,真正意义上解决“指标爆炸”的问题。
附图说明
图1是本发明和云计算平台关系及架构图。
图2是信息采集层架构图。
图3是决策处理层中的流量预测模型。
具体实施方式
一种基于基础设施大数据的应用弹性管理装置,它包括基础操作层、信息采集反馈层、决策处理层,如图1所示。其中:
1.1基础操作层
即一个应用节点的上线下线操作可以做到全自动,以网络服务的方式对外供外部调用。本层的挑战是企业在运维自动化,标准化的成熟程度。
1.2信息采集反馈层
信息采集层是接入实时监控获取到准实时的各应用、各组件的指标监控数据,供决策层判断应用是否需要扩容或缩容。本层重要挑战是:高并发的信息采集能力信息采集层是不需要作出决策,只需高效地采集数据供决策处理层即可。
1.3决策处理层
决策层是根据信息采集反馈层的数据配合AI算法从多个维度评估分析,再结合之前的历史操作扩容或缩容的必要性,最终决定是否调用基础操作层进行实施扩容或缩容。本层的挑战是大量时序数据的分析。
图2是本发明中的信息采集层架构图。
图3是本发明中决策处理层中的流量预测模型。
●流量预测:
网站流量数据一般都具有下边的特征:
1、局部特征:当我们看到一个趋势时,希望它会继续(自回归模型)朝这个趋势发展;看到流量峰值时,知道它将逐渐衰减(滑动平均模型);看到活动日和假期时流量增加,就知道以后假期也会出现流量增加(季节模型)。
2、全局特征:如果我们查看历史数据图,就会注意到年与年之间的自相关和季节间的自相关。
依据上边的特征,我们使用RNN seq2seq模型(如图3)进行流量预测,模型主要由两部分组成,即编码器和解码器。
编码器使用cuDNN GRU,解码器使用TF GRUBlockCell,由于LSTM/GRU对于较短的时间序列是非常好的解决方案,对于长时间序列来说依然有效,只不过会逐渐遗忘较早时间步所包含的信息。解决方安案是对所有的数据进行一次卷积,对所有预测时间步使用相同的注意力权重。
根据上边的方案训练完成的模型进行流量预测。
●节点承载量模型
从监控数据中获取到最近3个月(这个时间随应用更新频率的提高而降低)应用服务器受流量变化而产生性能损耗变化,通过这些计算出一个应用节点的流量承载量:
Figure BDA0001792121500000041
●节点扩缩容:
根据计算出的节点承载量和预测的流量数来得出所需要总的节点数,并通过降噪,使这个数据平滑避免频繁变动,最后调用API进行智能容量变更。
使用本发明的平台于通过对长达6个月的内部业务数据进行有监督学习,顺利找到业务的高峰和低谷规律,结合完善的应用及组件时序数据,经受住2017年、2018年两次“5.25”的考验,做到秒级扩容。
翼支付每周五均有营销活动,而月底和月初均是话费充值高峰期,业务呈现非常强的时间相关性。通过本平台内部试验性介入,实现了在有限的资源下按需调配,在周五时资源自动调拨给营销业务线相关的系统,而月初月底,则把资源自动调配给充值相关的应用系统,业务低谷时平稳缩容。
通过阈值设置,平台自动计算出资源使用水位线,为服务器采购提出依据。
平台上线以来共计节省预算近两千万,在资源有限的情况下将综合体用率从30%提升至65%。
以上对本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中;在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (2)

1.一种基于基础设施大数据的应用弹性管理装置,其特征在于:它包括基础操作层、信息采集反馈层、决策处理层;其中:
1.1基础操作层
即一个应用节点的上线下线操作可以做到全自动,以网络服务的方式对外供外部调用;
1.2信息采集反馈层
信息采集层是接入实时监控获取到准实时的各应用、各组件的指标监控数据,供决策层判断应用是否需要扩容或缩容;
该信息采集层包括与各节点连接的业务指标消息处理器和基础设施指标消息处理器,该业务指标消息处理器和基础设施指标消息处理器分别连接各自的流量数据库;
1.3决策处理层
决策处理层是根据信息采集反馈层的数据配合AI算法从多个维度评估分析,再结合之前的历史操作扩容或缩容的必要性,最终决定是否调用基础操作层进行实施扩容或缩容;
该决策处理层中的流量预测模型使用RNN seq2seq模型进行流量预测,模型包括编码器和解码器;编码器使用cuDNN GRU,解码器使用TF GRUBlockCell,由于LSTM/GRU对于较短的时间序列是非常好的解决方案,对于长时间序列来说依然有效,只不过会逐渐遗忘较早时间步所包含的信息,解决方案是对所有的数据进行一次卷积,对所有预测时间步使用相同的注意力权重;
采用的节点承载模型是从监控数据中获取到近期应用服务器受流量变化而产生性能损耗变化,通过这些计算出一个应用节点的流量承载量;
该流量承载量的计算公式是:
Figure FDA0003019116730000021
采用的节点扩缩容方法是,根据计算出的节点承载量和预测的流量数来得出所需要总的节点数,并通过降噪,使这个数据平滑避免频繁变动,最后调用API进行智能容量变更。
2.根据权利要求1所述的基于基础设施大数据的应用弹性管理装置,其特征在于:依据定义阀值进行判断的规则;依据应用流量来预测的规则;下一个时段是业务的高峰,提前做扩容;下一个时段是业务低谷,提前对业务进行缩容,而业务高峰、低谷可通过机器学习的手段获得。
CN201811041197.8A 2018-09-07 2018-09-07 一种基于基础设施大数据的应用弹性管理装置 Active CN109711554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811041197.8A CN109711554B (zh) 2018-09-07 2018-09-07 一种基于基础设施大数据的应用弹性管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811041197.8A CN109711554B (zh) 2018-09-07 2018-09-07 一种基于基础设施大数据的应用弹性管理装置

Publications (2)

Publication Number Publication Date
CN109711554A CN109711554A (zh) 2019-05-03
CN109711554B true CN109711554B (zh) 2021-06-04

Family

ID=66253735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811041197.8A Active CN109711554B (zh) 2018-09-07 2018-09-07 一种基于基础设施大数据的应用弹性管理装置

Country Status (1)

Country Link
CN (1) CN109711554B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555226C (zh) * 2003-12-18 2009-10-28 俱爰特株式会社 服务器/客户端系统,负荷分散装置,负载分散方法
US9003416B2 (en) * 2010-09-29 2015-04-07 International Business Machines Corporation Predicting resource requirements for a computer application
CN104820630B (zh) * 2015-05-22 2017-07-07 上海新炬网络信息技术有限公司 基于业务变化量的系统资源监控装置
CN105577457B (zh) * 2016-03-09 2019-02-01 上海天玑科技股份有限公司 一种数据中心资源智能弹性调度系统及方法
CN107770084B (zh) * 2016-08-19 2020-03-20 华为技术有限公司 一种数据流量的管理方法及装置
CN106559266B (zh) * 2016-11-23 2019-06-07 国网安徽省电力公司芜湖供电公司 一种电力通信网络中基于密度聚类算法的ospf区域划分方法
CN106874113A (zh) * 2017-01-19 2017-06-20 国电南瑞科技股份有限公司 一种cpu+多gpu异构模式静态安全分析计算方法
CN107566184A (zh) * 2017-09-22 2018-01-09 天翼电子商务有限公司 一种资源统一管理方法及其系统
CN108040074B (zh) * 2018-01-26 2020-07-31 华南理工大学 一种基于大数据的实时网络异常行为检测系统及方法

Also Published As

Publication number Publication date
CN109711554A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
Yu et al. Integrating clustering and learning for improved workload prediction in the cloud
CN109756372B (zh) 一种电信计费系统的弹性伸缩方法及装置
CN117076882A (zh) 一种云服务资源动态预测管理方法
CN110618867A (zh) 一种预测资源使用量的方法和装置
CN106209967A (zh) 一种视频监控云资源预测方法及系统
CN115858155A (zh) 一种算力网络平台的应用资源动态扩缩容方法及装置
CN116225696A (zh) 用于流处理系统的算子并发度调优方法及装置
CN118260021A (zh) 基于时间序列预测的容器节能弹性扩缩容方法、系统及介质
CN109711554B (zh) 一种基于基础设施大数据的应用弹性管理装置
CN112533270B (zh) 基站节能的处理方法、装置、电子设备及存储介质
Aldhyani et al. An integrated model for prediction of loading packets in network traffic
Giagkos et al. Darly: Deep Reinforcement Learning for QoS-aware scheduling under resource heterogeneity Optimizing serverless video analytics
CN117290093A (zh) 资源调度决策方法、装置、设备、介质和程序产品
CN112350898A (zh) 一种微服务应用全链路性能实时监测系统及其检测方法
CN116340393A (zh) 数据库饱和度的预测方法、存储介质及数据库系统
CN107908476B (zh) 基于分布式集群的数据处理方法与装置
Okonor et al. Intelligent agent-based technique for virtual machine resource allocation for energy-efficient cloud data centre
Preetham et al. Resource provisioning in cloud using arima and lstm technique
CN112130991B (zh) 一种基于机器学习的应用程序控制方法和系统
US20240232698A1 (en) Sustainable retraining for production machine learning
Son et al. Dynamic SAR for Efficient Container Auto-Scaling Based on Network Traffic Prediction
CN113821344B (zh) 一种基于机器学习的集群负载预测方法及系统
CN116881106B (zh) 业务系统容量运营分析管理方法、装置、存储介质及设备
Zhang et al. HeteroPush: Communication-Efficient Video Analytics by Scheduling Heterogeneous Filters
CN118695302A (zh) 一种基于机器学习的基站流量调度管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant