CN111857962A - 一种预防可用空间耗尽的云硬盘自动化运维方法 - Google Patents

一种预防可用空间耗尽的云硬盘自动化运维方法 Download PDF

Info

Publication number
CN111857962A
CN111857962A CN202010736440.9A CN202010736440A CN111857962A CN 111857962 A CN111857962 A CN 111857962A CN 202010736440 A CN202010736440 A CN 202010736440A CN 111857962 A CN111857962 A CN 111857962A
Authority
CN
China
Prior art keywords
cloud
hard disk
disk
user
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010736440.9A
Other languages
English (en)
Inventor
王策
于昊
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202010736440.9A priority Critical patent/CN111857962A/zh
Publication of CN111857962A publication Critical patent/CN111857962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45579I/O management, e.g. providing access to device drivers or storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明特别涉及一种预防可用空间耗尽的云硬盘自动化运维方法。该预防可用空间耗尽的云硬盘自动化运维方法,实时统计用户虚机的每块云盘空间使用量,预设云盘使用量预警临界值和云盘使用量即将耗尽的临界值,在云盘空间被占满前发出预警通知,提醒用户及时处理;当云盘空间被占满时,发出告警通知并临时扩展云硬盘空间,用户在接收告警通知后及时处理即可。该预防可用空间耗尽的云硬盘自动化运维方法,通过预设两道关卡,能够提前预警通知用户,提前做出预防措施,并在云硬盘用尽时动态扩展一定比例的云硬盘空间,防止出现云硬盘占满后,现业务中断,导致经济损失,客户的流失等严重问题。

Description

一种预防可用空间耗尽的云硬盘自动化运维方法
技术领域
本发明涉及云计算技术领域,特别涉及一种预防可用空间耗尽的云硬盘自动化运维方法。
背景技术
用户购买云服务厂商虚机和云盘后用于部署自己的业务系统对外提供服务。用户的业务系统在运行过程中需要不断记录日志、临时文件,随着系统运行中日志文件越积越多,垃圾冗余数据不断膨胀,保存的图片、视频、临时文件等不可控的增加,在不知不觉中吞食了大量的云硬盘空间,与之带来的是系统运行速度变慢甚至最终会使得系统终端运行,严重影响对外服务的效率和客户的认可度。
用户购买的虚机和云盘在运行较长时间以后,可能会逐渐忽视对资源包括存储资源的关注和维护,可能导致服务突然降速甚至中断。
由于MQ自身原因、网络原因和磁盘故障均有可能导致云盘不可用,因而当购买虚机的客户发现的服务出现运行故障,例如部署在虚拟中的MQ服务中断时,通常无法第一时间定位到发生问题的具体原因。
为了避免因为云盘空间告急和耗尽带来的不良影响,本发明提出了一种预防可用空间耗尽的云硬盘自动化运维方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的预防可用空间耗尽的云硬盘自动化运维方法。
本发明是通过如下技术方案实现的:
一种预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:实时统计用户虚机的每块云盘空间使用量,并预设两个阈值:云盘使用量预警临界值和云盘使用量即将耗尽的临界值;在云盘空间被占满前发出预警通知,提醒用户及时对云硬盘进行扩容或清理冗余的垃圾数据;当云盘空间被占满时,发出告警通知并临时扩展云硬盘空间;用户在接收告警通知后,及时对云硬盘进行扩容或清理冗余的垃圾数据,从而规避云硬盘占满而出现业务中断的风险。
包括以下步骤:
第一步,实时统计用户虚机的每块云盘空间使用量;
第二步,调用QGA接口采集云盘使用量数据,并保存在独立于用户虚机之外的服务器上;
第三步,设定云盘使用量预警临界值,如果用户的云盘使用量达到了该临界值,则发出预警通知;
第四步,设定云盘使用量即将耗尽的临界值,若用户的云盘使用量达到了预设的临界值,则发出告警通知,并根据用户的需求为用户临时扩展云硬盘空间,防止出现业务中断的情况。
所述第一步中,利用shell脚本实时统计用户虚机的每块云盘空间使用量,并将统计的云盘空间使用量保存到云硬盘指定文件中。
所述shell脚本的核心命令是df-k|grep$Folder|awk'{print$5}'|awk-F%'{print$1}。
所述第二步中,利用监控工具prometheus调用QGA(Guest-Filesystem-Usagerate)接口采集云硬盘指定文件中的云盘使用量数据,并保存在单独的服务器的数据库中,以供统计计算。
所述第二步中,监测程序包括IOPS(Input/Output Operations Per Second,每秒进行读写(I/O)操作的次数)监测程序,云硬盘使用量监测程序和云硬盘吞吐量监测程序。
为了给用户争取更多的处理时间,所述第三步中,用户设自定义置预警临界值以及超过该预警值时关闭进程的优先级;当用户的云盘使用量达到了预设的临界值时,按照预设的优先级关闭指定的进程。
通过shell脚本中断用户启动的某些个进程(需要用户提供)。如果用户没有提供,则不操作这一步。
为了提高用户体验,云硬盘提供在线扩容技术,所述第四步中,扩容方案为shell脚本调用cinder-api的扩容接口,扩展大小按照原有云硬盘的比例扩展,调用的存储后端使用ceph。
所述预警通知和告警通知的形式包括但不限于邮件通知,手机短信通知和电话通知,以保证及时通知到用户。
本发明的有益效果是:该预防可用空间耗尽的云硬盘自动化运维方法,通过预设云硬盘使用量预警临界值和云盘使用量即将耗尽的临界值两道关卡,能够提前预警通知用户,提前做出预防措施;如果云硬盘用尽时依然没有解决,再次预警通知用户并动态扩展一定比例的云硬盘空间,防止出现云硬盘占满后,现业务中断,导致经济损失,客户的流失等严重问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明预防可用空间耗尽的云硬盘自动化运维方法示意图。
附图2为本发明云硬盘的架构示意图。
附图3为本发明监控系统架构示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该预防可用空间耗尽的云硬盘自动化运维方法,实时统计用户虚机的每块云盘空间使用量,并预设两个阈值:云盘使用量预警临界值和云盘使用量即将耗尽的临界值;
在云盘空间被占满前发出预警通知,提醒用户提前做出预防措施,及时对云硬盘进行扩容或清理冗余的垃圾数据;当云盘空间被占满时,发出告警通知并临时扩展云硬盘空间;用户在接收告警通知后,及时对云硬盘进行扩容或清理冗余的垃圾数据,从而规避云硬盘占满而出现业务中断的风险。
包括以下步骤:
第一步,实时统计用户虚机的每块云盘空间使用量;
第二步,监测程序调用QGA接口采集云盘使用量数据,并保存在独立于用户虚机之外的服务器上;
第三步,设定云盘使用量预警临界值,如果用户的云盘使用量达到了该临界值,则发出预警通知;
第四步,设定云盘使用量即将耗尽的临界值,若用户的云盘使用量达到了预设的临界值,则发出告警通知,并根据用户的需求为用户临时扩展云硬盘空间,防止出现业务中断的情况。
所述第一步中,利用shell脚本实时统计用户虚机的每块云盘空间使用量,并将统计的云盘空间使用量保存到云硬盘指定文件中。
所述shell脚本的核心命令是df-k|grep$Folder|awk'{print$5}'|awk-F%'{print$1}。
所述第二步中,利用监控工具prometheus调用QGA(Guest-Filesystem-Usagerate)接口采集云硬盘指定文件中的云盘使用量数据,并保存在单独的服务器的数据库中,以供统计计算。
所述第二步中,监测程序包括IOPS(Input/Output Operations Per Second,每秒进行读写(I/O)操作的次数)监测程序,云硬盘使用量监测程序和云硬盘吞吐量监测程序。
为了给用户争取更多的处理时间,所述第三步中,用户设自定义置预警临界值以及超过该预警值时关闭进程的优先级;当用户的云盘使用量达到了预设的临界值时,按照预设的优先级关闭指定的进程。
通过shell脚本中断用户启动的某些个进程(需要用户提供)。如果用户没有提供,则不操作这一步。
为了提高用户体验,云硬盘提供在线扩容技术,所述第四步中,扩容方案为shell脚本调用cinder-api的扩容接口,扩展大小按照原有云硬盘的比例扩展,调用的存储后端使用ceph。
所述预警通知和告警通知的形式包括但不限于邮件通知,手机短信通知和电话通知,以保证及时通知到用户。
与目前的现有技术相比,该预防可用空间耗尽的云硬盘自动化运维方法,具有以下特点:
第一、通过预设云硬盘使用量预警临界值和云盘使用量即将耗尽的临界值两道关卡,能够提前预警通知用户,提前做出预防措施;
第二、如果云硬盘用尽时用户依然没有及时对云硬盘进行扩容或清理冗余的垃圾数据,再次告警通知用户并动态扩展一定比例的云硬盘空间,防止出现云硬盘占满后,现业务中断,导致经济损失,客户的流失等严重问题。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:实时统计用户虚机的每块云盘空间使用量,预设云盘使用量预警临界值和云盘使用量即将耗尽的临界值,在云盘空间被占满前发出预警通知,提醒用户及时对云硬盘进行扩容或清理冗余的垃圾数据;当云盘空间被占满时,发出告警通知并临时扩展云硬盘空间;用户在接收告警通知后,及时对云硬盘进行扩容或清理冗余的垃圾数据,从而规避云硬盘占满而出现业务中断的风险。
2.根据权利要求1所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:包括以下步骤:
第一步,实时统计用户虚机的每块云盘空间使用量;
第二步,调用QGA接口采集云盘使用量数据,并保存在独立于用户虚机之外的服务器上;
第三步,设定云盘使用量预警临界值,如果用户的云盘使用量达到了该临界值,则发出预警通知;
第四步,设定云盘使用量即将耗尽的临界值,若用户的云盘使用量达到了预设的临界值,则发出告警通知,并根据用户的需求为用户临时扩展云硬盘空间,防止出现业务中断的情况。
3.根据权利要求2所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述第一步中,利用shell脚本实时统计用户虚机的每块云盘空间使用量,并将统计的云盘空间使用量保存到云硬盘指定文件中。
4.根据权利要求3所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述shell脚本的核心命令是df-k|grep$Folder|awk'{print$5}'|awk-F%'{print$1}。
5.根据权利要求3所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述第二步中,利用监控工具prometheus调用QGA接口采集云硬盘指定文件中的云盘使用量数据,并保存在单独的服务器的数据库中,以供统计计算。
6.根据权利要求3所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述第二步中,监测程序包括IOPS监测程序,云硬盘使用量监测程序和云硬盘吞吐量监测程序。
7.根据权利要求2所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述第三步中,用户设自定义置预警临界值以及超过该预警值时关闭进程的优先级;当用户的云盘使用量达到了预设的临界值时,按照预设的优先级关闭指定的进程。
8.根据权利要求2所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述第四步中,扩容方案为shell脚本调用cinder-api的扩容接口,扩展大小按照原有云硬盘的比例扩展,调用的存储后端使用ceph。
9.根据权利要求2、6或7所述的预防可用空间耗尽的云硬盘自动化运维方法,其特征在于:所述预警通知和告警通知的形式包括但不限于邮件通知,手机短信通知和电话通知,以保证及时通知到用户。
CN202010736440.9A 2020-07-28 2020-07-28 一种预防可用空间耗尽的云硬盘自动化运维方法 Pending CN111857962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010736440.9A CN111857962A (zh) 2020-07-28 2020-07-28 一种预防可用空间耗尽的云硬盘自动化运维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010736440.9A CN111857962A (zh) 2020-07-28 2020-07-28 一种预防可用空间耗尽的云硬盘自动化运维方法

Publications (1)

Publication Number Publication Date
CN111857962A true CN111857962A (zh) 2020-10-30

Family

ID=72948420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010736440.9A Pending CN111857962A (zh) 2020-07-28 2020-07-28 一种预防可用空间耗尽的云硬盘自动化运维方法

Country Status (1)

Country Link
CN (1) CN111857962A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201783A (zh) * 2006-12-14 2008-06-18 英业达股份有限公司 网络存储系统的存储空间不足预警方法
CN106649040A (zh) * 2016-12-26 2017-05-10 上海新炬网络信息技术有限公司 一种Weblogic中间件性能自动监控方法及装置
CN109669845A (zh) * 2018-12-04 2019-04-23 郑州云海信息技术有限公司 一种云操作系统设备告警通知方法及系统
CN109947616A (zh) * 2019-02-11 2019-06-28 北京国电通网络技术有限公司 一种基于OpenStack技术的云操作系统的自动化监控运维系统
CN110489062A (zh) * 2019-08-27 2019-11-22 浪潮云信息技术有限公司 一种基于OpenStack环境的磁盘扩容方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201783A (zh) * 2006-12-14 2008-06-18 英业达股份有限公司 网络存储系统的存储空间不足预警方法
CN106649040A (zh) * 2016-12-26 2017-05-10 上海新炬网络信息技术有限公司 一种Weblogic中间件性能自动监控方法及装置
CN109669845A (zh) * 2018-12-04 2019-04-23 郑州云海信息技术有限公司 一种云操作系统设备告警通知方法及系统
CN109947616A (zh) * 2019-02-11 2019-06-28 北京国电通网络技术有限公司 一种基于OpenStack技术的云操作系统的自动化监控运维系统
CN110489062A (zh) * 2019-08-27 2019-11-22 浪潮云信息技术有限公司 一种基于OpenStack环境的磁盘扩容方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁永卫主编: "《电脑入门实训教程》", 31 January 2010 *
郑印等: "一种基于OpenStack的云存储空间动态调整方案", 《计算机技术与发展》 *

Similar Documents

Publication Publication Date Title
CN112511339B (zh) 基于多集群的容器监控告警方法、系统、设备及存储介质
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US10528405B2 (en) Methods, apparatus and computer programs for managing persistence
CN110224858B (zh) 基于日志的告警方法及相关装置
US8305911B2 (en) System and method for identifying and managing service disruptions using network and systems data
WO2020228276A1 (zh) 网络告警的方法及装置
US20110239050A1 (en) System and Method of Collecting and Reporting Exceptions Associated with Information Technology Services
US10896073B1 (en) Actionability metric generation for events
CN111949497A (zh) 消息队列系统以及基于消息队列系统的消息处理方法
CN108924202A (zh) 一种分布式集群的数据容灾方法以及相关装置
WO2023138058A1 (zh) 一种告警事件的处理方法、装置及计算机可读存储介质
CN110875841A (zh) 报警信息的推送方法、装置及可读存储介质
CN111857962A (zh) 一种预防可用空间耗尽的云硬盘自动化运维方法
CN110620798A (zh) Ftp连接的控制方法、系统、设备和存储介质
CN112788108A (zh) 一种跨区块链分布式消息处理方法、平台及存储介质
CN115729786A (zh) 一种应用于多系统的监控方法、装置、设备及存储介质
CN111614501A (zh) 一种监控方法及系统
CN112269721A (zh) 一种性能数据统计的方法、系统、设备及可读存储介质
CN110955539A (zh) 进程退出方法、装置、电子设备及机器可读存储介质
CN103368754A (zh) 一种检测业务故障的方法、装置和系统及设备
JP6921908B2 (ja) 自動架電装置及び自動架電方法
CN115686381B (zh) 存储集群运行状态的预测方法及装置
WO2023093394A1 (zh) 一种基于日志的异常监测方法、系统、装置及存储介质
CN116954898A (zh) 内存溢出处理方法、设备、装置及计算机可读存储介质
CN114301927A (zh) 一种分布式系统中主节点选取方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030

RJ01 Rejection of invention patent application after publication