CN106648867B - 基于云数据中心的智能平滑重启方法及装置 - Google Patents
基于云数据中心的智能平滑重启方法及装置 Download PDFInfo
- Publication number
- CN106648867B CN106648867B CN201611179918.2A CN201611179918A CN106648867B CN 106648867 B CN106648867 B CN 106648867B CN 201611179918 A CN201611179918 A CN 201611179918A CN 106648867 B CN106648867 B CN 106648867B
- Authority
- CN
- China
- Prior art keywords
- restart
- matrix
- application
- module
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 69
- 238000012423 maintenance Methods 0.000 claims description 14
- 238000007405 data analysis Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 5
- 230000007547 defect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了基于云数据中心的智能平滑重启方法,包括以下步骤:响应于应用重启请求信号,进行弹性调度;采集部署应用实例的数据指标;分析数据指标对于系统的整体需求和重要程度,得出重启策略;选择相应重启策略,进行重启。通过采用本发明的方法,在进行重启时不会造成用户感知能力强和数据中心的资源耗尽的缺陷,提高了数据中心的稳健性保证了业务的连续性。本发明综合考虑了应用的访问和各实例所使用的各项资源情况,并加以分析计算,使数据中心能够准确快速响应外部重启请求,具有很强的实用性和扩展性,便于推广应用。
Description
技术领域
本发明涉及云计算技术领域,特别涉及基于云数据中心的智能平滑重启方法。
背景技术
一般情况下,随着云计算技术的快速发展和容器的快速崛起,传统的数据中心已经向云数据中心转变,同时融合容器技术,可以快速方便的部署和恢复业务,提高业务的高可用性。在容器云时代,通过先启动部分新的实例,然后关闭老的实例,达到灰度发布应用的效果。这种方式可以保证在不影响业务连续性的前提下对应用进行升级、回滚等操作。由于业务扩展需要,业务系统往往会存在添加功能或删除功能的需求,在发布应用新版本时,需要重新启动应用实例,在重启过程中需要保证业务的连续性。当集群中实例个数过多,如果在保证老实例不关闭的情况下,启动新的实例,会出现资源不足的现象,进行动态扩容底层资源,造成资源浪费。业内通常的做法是首先根据现有业务的类型,对应用实例进行选择性的关闭,再启动新实例来保障业务的连续性。
如图1所示,当进行业务更新时,要对实例中的代码包进行替换,替换之后,为了保证业务的连续,需要对实例进行灰度的重启。策略一般为先启动新的实例,再关闭老的实例,这样就可以保证应用的高可用性。在以下情况会导致数据中心的业务的连续性出现故障:1)核心应用的实例个数较多,当先启动新的实例时,会瞬时占用过多的系统资源,导致启动不成功;2)没有考虑当前业务的使用情况,不能智能的选择对应的策略进行业务的重启操作。在生产环境中,业务的需要重启的情况较多,不当的重启操作和重启策略会影响业务的连续性,影响用户的感知。在发生以上问题时,由于重启过程不能被打断,在发生故障后,只能做被动的故障处理,重新修改策略。严重时,导致业务系统宕机,需要重新启动主机,这对于核心系统来说是不可接受的。
发明内容
为解决的不当的重启操作和重启策略会影响业务的连续性,影响用户的感知的技术问题,本发明提出了基于云数据中心的智能平滑重启方法及装置来实现。
基于云数据中心的智能平滑重启方法,包括以下步骤:
响应于应用重启请求信号,进行弹性调度;
采集部署应用实例的数据指标;
分析数据指标对于系统的整体需求和重要程度,得出重启策略;
选择相应重启策略,进行重启。
作为一种可实施方式,所述分析数据指标对于系统的整体需求和重要程度,得出重启策略,包括以下步骤:
根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值
根据权重值和权重值所对应的指标值,得到总的资源使用情况;
结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略。
作为一种可实施方式,所述根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值,过程如下:构建判断矩阵,对判断矩阵进行转换,得到转换后的矩阵,将转换后的矩阵的每一行进行归一化处理,得出归一化处理后的矩阵,归一化处理后的矩阵中的每行数据值代表各个指标对应的权重值;
检验判断矩阵构建的好坏程度,对转换后的矩阵进行一致性检验;一致性检验的计算公式如下,
当一致性比率CR小于0.1时,满足条件,选取权重值。
作为一种可实施方式,所述采集部署应用实例的数据指标是指请求队列长度、CPU使用率和内存的使用率中的至少一种。
作为一种可实施方式,所述应用重启请求信号为出现问题重新发布和应用更新中的至少一种。
一种云数据中心的智能平滑重启的装置,包括重启请求模块、智能重启调度模块和重启应用模块,所述智能重启调度模块包括数据采集模块和数据分析模块;
所述重启请求模块用于响应于应用重启请求信号,进行弹性调度;
所述数据采集模块用于采集部署应用实例的数据指标;
所述数据分析模块用于分析数据指标对于系统的整体需求和重要程度,得出重启策略;
所述重启应用模块选择相应重启策略,进行重启。
作为一种可实施方式,所述数据分析模块设置为:根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值;
根据权重值和权重值所对应的指标值,得到总的资源使用情况;
结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略。
作为一种可实施方式,所述根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值,过程如下:构建判断矩阵:构建判断矩阵,对判断矩阵进行转换,得到转换后的矩阵,将转换后的矩阵的每一行进行归一化处理,得出归一化处理后的矩阵,归一化处理后的矩阵中的每行数据值代表各个指标对应的权重值;
检验判断矩阵构建的好坏程度,对转换后的矩阵进行一致性检验;一致性检验的计算公式如下,
当一致性比率CR小于0.1时,满足条件,选取权重值。
作为一种可实施方式,所述数据采集模块设置为:所述采集部署应用实例的数据指标是指请求队列长度、CPU使用率和内存的使用率中的至少一种。
作为一种可实施方式,所述重启请求模块设置为:所述应用重启请求信号为出现问题重新发布和应用更新中的至少一种。
本发明相比于现有技术的有益效果在于:
本发明的基于云数据中心的智能平滑重启方法,包括以下步骤:响应于应用重启请求信号,进行弹性调度;采集部署应用实例的数据指标;分析数据指标对于系统的整体需求和重要程度,得出重启策略;选择相应重启策略,进行重启。通过采用本发明的方法,在进行重启时不会造成用户感知能力强和数据中心的资源耗尽的缺陷,提高了数据中心的稳健性保证了业务的连续性。本发明综合考虑了应用的访问和各实例所使用的各项资源情况,并加以分析计算,使数据中心能够准确快速响应外部重启请求,具有很强的实用性和扩展性,便于推广应用。
附图说明
图1为现有技术的整体流程示意图;
图2为本发明的整体流程示意图;
图3为本发明的分析数据指标对于系统的整体需求和重要程度的流程示意图;
图4为本发明的应用场景流程示意图;
图5为本发明的整体结构示意图;
图6为本发明的智能重启调度模块的结构示意图;
图7为智能重启调度模块的工作过程示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
发明概述
本发明基于云数据中心的智能平滑重启方法,包括以下步骤:
S1,响应于应用重启请求信号,进行弹性调度;
S2,采集部署应用实例的数据指标;
S3,分析数据指标对于系统的整体需求和重要程度,得出重启策略;
S4,选择相应重启策略,进行重启。
进一步地,参照附图3,所述分析数据指标对于系统的整体需求和重要程度,得出重启策略,包括以下步骤:
S21,根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值
S22,根据权重值和权重值所对应的指标值,得到总的资源使用情况;
S23,结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略。
通过采用本发明的方法,在进行重启时不会造成用户感知能力强和数据中心的资源耗尽的缺陷,提高了数据中心的稳健性保证了业务的连续性。本发明综合考虑了应用的访问和各实例所使用的各项资源情况,并加以分析计算,使数据中心能够准确快速响应外部重启请求,具有很强的实用性和扩展性,便于推广应用。
下面结合具体实施例来说明本发明的方法和装置。
实施例1
参照附图2,本发明基于云数据中心的智能平滑重启方法,包括以下步骤:
S1,响应于应用重启请求信号,进行弹性调度;
S2,采集部署应用实例的数据指标;
S3,分析数据指标对于系统的整体需求和重要程度,得出重启策略;
S4,选择相应重启策略,进行重启。
进一步地,参照附图3,在步骤S3中,具体包括以下步骤:
S31,根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值
S32,根据权重值和权重值所对应的指标值,得到总的资源使用情况;
S33,结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略。
步骤S31的具体实现方式如下:
构建判断矩阵:
其中,A表示判断矩阵,B表示判断矩阵经过转换后的矩阵,表示指标对于数据
指标的重要程度,将矩阵B的每一行进行归一化处理,可以得出i行1列的矩阵,i行1列的矩
阵中的每行数据值代表各个指标对应的权重值;
检验判断矩阵构建的好坏程度,对矩阵B进行一致性检验;一致性检验的计算公式如下,
当一致性比率CR小于0.1时,矩阵B满足条件。
下附随机一致性指标RI值,参见表1
表1 随机一致性指标RI值
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
RI | 0 | 0 | 0.58 | 0.90 | 1.12 | 1.24 | 1.32 | 1.41 | 1.45 | 1.49 | 1.51 |
应用场景示例,如图4所示,当有外部请求需要重启时,开始采集应用的资源和使用情况包括请求队列长度、CPU使用率和内存的使用率,并且对数据进行分析,分析数据指标对于系统的整体需求和重要程度,选取重启策略,执行重启动作,重启的同时还可以通过策略维护模块进行策略的查询和变更维护。
一种云数据中心的智能平滑重启的装置,包括重启请求模块1、智能重启调度模块2和重启应用模块3,智能重启调度模块2包括数据采集模块21和数据分析模块22;
重启请求模块1用于响应于应用重启请求信号,进行弹性调度;
数据采集模块21用于采集部署应用实例的数据指标;
数据分析模块22用于分析数据指标对于系统的整体需求和重要程度,得出重启策略;
重启应用模块3选择相应重启策略,进行重启。
附图6是智能重启调度模块的工作示意图,数据采集模块21采集数据中心应用集群实例(包括CPU、内存、带宽和硬盘)的CPU使用率,请求队列长度以及内存的使用率,计算总的资源使用情况,根据总的资源使用情况选择合适的重启策略。
数据分析模块22设置为:根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值;
根据权重值和权重值所对应的指标值,得到总的资源使用情况;
结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略。
根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值,过程如下:构建判断矩阵:
其中,A表示判断矩阵,B表示判断矩阵经过转换后的矩阵,表示指标对于数据
指标的重要程度,将矩阵B的每一行进行归一化处理,可以得出i行1列的矩阵,i行1列的矩
阵中的每行数据值代表各个指标对应的权重值;
检验判断矩阵构建的好坏程度,对矩阵B进行一致性检验;一致性检验的计算公式如下,
当一致性比率CR小于0.1时,矩阵B满足条件。
数据采集模块22设置为:采集部署应用实例的数据指标是指请求队列长度、CPU使用率和内存的使用率中的至少一种。
重启请求模块22设置为:应用重启请求信号为出现问题重新发布和应用更新中的至少一种。
智能重启调度模块2还包括了策略维护模块23,策略维护包括以下内容:
1) 新重启实例个数1个,上浮重启实例个数2个。
2) 新重启实例个数3个,上浮重启实例个数5个。
3) 新重启实例个数4个,上浮重启实例个数5个。
4) 新重启实例个数X个,上浮重启实例个数M个。
其中,策略维护模块可以根据运维人员和应用人员的经验进行对X和M进行调整。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.基于云数据中心的智能平滑重启方法,其特征在于,包括以下步骤:
响应于应用重启请求信号,进行弹性调度,所述应用重启请求信号为出现问题重新发布和应用更新中的至少一种;
采集部署应用实例的数据指标,所述数据指标是指请求队列长度、CPU使用率和内存的使用率中的至少一种;
分析数据指标对于系统的整体需求和重要程度,得出重启策略;
其中,所述分析数据指标对于系统的整体需求和重要程度,得出重启策略,包括以下步骤:
根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值,过程如下:
构建判断矩阵,对判断矩阵进行转换,得到转换后的矩阵,将转换后的矩阵的每一行进行归一化处理,得出归一化处理后的矩阵,归一化处理后的矩阵中的每行数据值代表各个指标对应的权重值;
检验判断矩阵构建的好坏程度,对判断转换后的矩阵进行一致性检验;一致性检验的计算公式如下,
当一致性比率CR小于0.1时,满足条件,选取权重值;
根据权重值和权重值所对应的指标值,得到总的资源使用情况;
结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略;
选择重启策略,进行重启,进行重启策略的查询和变更维护。
2.一种云数据中心的智能平滑重启的装置,其特征在于,包括重启请求模块、智能重启调度模块和重启应用模块,所述智能重启调度模块包括数据采集模块和数据分析模块;
所述重启请求模块用于响应于应用重启请求信号,进行弹性调度,所述应用重启请求信号为出现问题重新发布和应用更新中的至少一种;
所述数据采集模块用于采集部署应用实例的数据指标,所述数据指标是指请求队列长度、CPU使用率和内存的使用率中的至少一种;
所述数据分析模块用于分析数据指标对于系统的整体需求和重要程度,得出重启策略;
其中,所述数据分析模块设置为:根据数据指标对于系统的整体需求和重要程度,构建判断矩阵,计算权重值,过程如下:构建判断矩阵,对判断矩阵进行转换,得到转换后的矩阵,将转换后的矩阵的每一行进行归一化处理,得出归一化处理后的矩阵,归一化处理后的矩阵中的每行数据值代表各个指标对应的权重值;
检验判断矩阵构建的好坏程度,对转换后的矩阵进行一致性检验;一致性检验的计算公式如下,
当一致性比率CR小于0.1时,满足条件,选取权重值;
根据权重值和权重值所对应的指标值,得到总的资源使用情况;
结合总的资源使用情况,根据应用的实际运行状况和运维经验,得到重启策略;
所述重启应用模块选择相应重启策略,进行重启;
所述智能重启调度模块还包括策略维护模块,所述策略维护模块进行重启策略的查询和变更维护。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611179918.2A CN106648867B (zh) | 2016-12-19 | 2016-12-19 | 基于云数据中心的智能平滑重启方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611179918.2A CN106648867B (zh) | 2016-12-19 | 2016-12-19 | 基于云数据中心的智能平滑重启方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106648867A CN106648867A (zh) | 2017-05-10 |
CN106648867B true CN106648867B (zh) | 2020-07-10 |
Family
ID=58833852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611179918.2A Active CN106648867B (zh) | 2016-12-19 | 2016-12-19 | 基于云数据中心的智能平滑重启方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106648867B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992374A (zh) * | 2017-12-29 | 2019-07-09 | 中移互联网有限公司 | 一种应用实例的管理方法、装置及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2869197A1 (en) * | 2013-10-31 | 2015-05-06 | Sap Se | Automated procedure for kernel change |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216771B (zh) * | 2013-05-30 | 2018-01-23 | 华为技术有限公司 | 软件程序的重启方法及装置 |
CN105577457B (zh) * | 2016-03-09 | 2019-02-01 | 上海天玑科技股份有限公司 | 一种数据中心资源智能弹性调度系统及方法 |
-
2016
- 2016-12-19 CN CN201611179918.2A patent/CN106648867B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2869197A1 (en) * | 2013-10-31 | 2015-05-06 | Sap Se | Automated procedure for kernel change |
Non-Patent Citations (1)
Title |
---|
"面向云数据中心的工作流自动化系统设计与实现";吴国龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615;第I138-495页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106648867A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12039307B1 (en) | Dynamically changing input data streams processed by data stream language programs | |
CN102694868B (zh) | 一种集群系统实现及任务动态分配方法 | |
US10209908B2 (en) | Optimization of in-memory data grid placement | |
CN107357730B (zh) | 一种系统故障诊断修复方法及装置 | |
JP6205066B2 (ja) | ストリームデータ処理方法、ストリームデータ処理装置及び記憶媒体 | |
WO2023103349A1 (zh) | 负载调节方法、管理节点以及存储介质 | |
CN114637650B (zh) | 一种基于Kubernetes集群的弹性伸缩方法 | |
EP3200076A1 (en) | System and method for load estimation of virtual machines in a cloud environment and serving node | |
CN104021043A (zh) | 批量应用程序的中断重入方法及系统 | |
WO2021058020A1 (zh) | 一种有状态应用的实例创建方法、装置、设备及介质 | |
CN105786682A (zh) | 一种规避软件性能故障的实施系统及方法 | |
EP2940600A1 (en) | Data scanning method and device | |
CN106648867B (zh) | 基于云数据中心的智能平滑重启方法及装置 | |
CN114661482A (zh) | 一种gpu算力管理方法、介质、设备及系统 | |
US12067430B2 (en) | Adaptive idle detection in a software-defined data center in a hyper-converged infrastructure | |
CN106445788A (zh) | 一种信息系统运行状态预测方法和装置 | |
CN105389201B (zh) | 一种基于高性能计算集群的进程管理方法及其系统 | |
WO2024169138A1 (zh) | 一种资源调度方法、装置、设备及存储介质 | |
CN116468967B (zh) | 样本图像筛选方法、装置、电子设备及存储介质 | |
US8677003B1 (en) | Distributed processing of streaming data on an event protocol | |
CN108183870B (zh) | 一种基于云成熟度的云数据中心资源调度共享方法及系统 | |
US11212231B2 (en) | Data processing system and method of controlling the same | |
CN115883357A (zh) | 一种软负载服务器处理方法、装置、电子设备及介质 | |
CN112052087B (zh) | 动态资源调整与迁移的深度学习训练系统及方法 | |
CN114706893A (zh) | 故障检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |