CN113157204A - 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法 - Google Patents

一种基于二阶差分法识别人工清理行为的磁盘容量预测方法 Download PDF

Info

Publication number
CN113157204A
CN113157204A CN202110127180.XA CN202110127180A CN113157204A CN 113157204 A CN113157204 A CN 113157204A CN 202110127180 A CN202110127180 A CN 202110127180A CN 113157204 A CN113157204 A CN 113157204A
Authority
CN
China
Prior art keywords
data
order difference
disk capacity
order
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110127180.XA
Other languages
English (en)
Other versions
CN113157204B (zh
Inventor
王晓光
王钧
付文涛
吴卓林
刘东海
刘璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangtong Software Ltd By Share Ltd Xinda
Hangzhou Youyun Software Co ltd
Original Assignee
Beijing Guangtong Software Ltd By Share Ltd Xinda
Hangzhou Youyun Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangtong Software Ltd By Share Ltd Xinda, Hangzhou Youyun Software Co ltd filed Critical Beijing Guangtong Software Ltd By Share Ltd Xinda
Priority to CN202110127180.XA priority Critical patent/CN113157204B/zh
Publication of CN113157204A publication Critical patent/CN113157204A/zh
Application granted granted Critical
Publication of CN113157204B publication Critical patent/CN113157204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于二阶差分法识别人工清理行为的磁盘容量预测方法,主要包括对磁盘容量使用情况进行采样上报,同时建立存储数据库保存历史数据;对磁盘使用量数据的采集时间进行一阶差分求采集时间间隔,以一定周期为准对采集数据进行聚合,保留聚合周期内的最大值;过滤聚合数据中的明显异常值,删除重复数据,并对数据缺失值进行线性插值处理;利用二阶差分检测历史数据中是否存在人为清理行为,并抹平因此造成的影响;根据聚合数据计算数据特征,智能匹配最优算法。本发明在智能IT运维领域中的对磁盘容量的预测时,通过二阶差分法抹平人工清理磁盘行为对数据和预测造成的影响,达到了提升预测准确性的目的。

Description

一种基于二阶差分法识别人工清理行为的磁盘容量预测方法
技术领域
本发明涉及智能IT运维的领域,具体涉及一种基于二阶差分法识别人工清理行为的磁盘 容量预测方法。
背景技术
近年来,运维技术已逐步从自动化阶段转变进入智能时代。智能运维旨在规范化、流程 化、自动化地智能辅助运维决策和执行,赋予运维系统智能监测、故障自愈等能力。众多公 司和研究机构已经积累了大量的历史数据以及运维经验。基于大数据和数据挖掘方法的智能 运维技术已在异常检测、根因分析、容量预测等应用场景得以落地实践,极大程度上减少了 人工开销。现有技术方法主要包括以下步骤:建立存储磁盘容量的数据库,监测存储系统的 运行,提供所需数据;读取数据库,获得历史数据,构造基于时间序列的神经网络模型,进 行预测;根据预测结果,与磁盘剩余容量对比,判断是否需要发出告警。
现有的算法模型几乎都遵循采用近期历史数据来实现对未来数据的短期预测的规则。而 磁盘容量问题不可避免地会出现人为清理行为,这会对算法对历史数据的学习产生极大的干 扰。基于深度学习神经网络的算法模型具有较高的算法精确度,但目前其资源消耗以及运行 效率尚为达到理想值。如何均衡运维效率和成本管控的难题不可避免。
发明内容
本发明的目的在于克服现有技术存在的不足,而提供一种基于二阶差分法识别人工清理 行为的磁盘容量预测方法。
本发明的目的是通过如下技术方案来完成的:这种基于二阶差分法识别人工清理行为的 磁盘容量预测方法,主要包括以下步骤:
1)对磁盘容量使用情况进行采样上报,同时建立存储数据库保存历史数据;
2)对磁盘使用量数据的采集时间进行一阶差分求采集时间间隔,以一定周期为准对采集 数据进行聚合,保留聚合周期内的最大值;
3)过滤聚合数据中的明显异常值,删除重复数据,并对数据缺失值进行线性插值处理;
4)利用二阶差分检测历史数据中是否存在人为清理行为,并抹平因此造成的影响;
5)根据聚合数据计算数据特征,智能匹配最优算法。
所述步骤4)中的二阶差分主要包括以下步骤:
1)对聚合数据计算一阶差分,公式为:
F(xi)=Δf(xi)=f(xi+1)-f(xi)
其中xi=x0+h,xi为第i采样点,h为采样间隔,函数f(x)代表采样点x处的磁盘容量值;
2)计算排序后的二阶差分,公式为:
G(xi)=F′(xi+1)-F′(xi)=f′(xi+2)-2*f′(xi+1)+f′(xi)
F′(xi)=sorted(F(xi))
其中F′(xi)表示对F(xi)进行排序,即一阶差分中F(xi)进行从大到小排序后得到F′(xi),再 计算二阶差分G(xi);
3)确定是否存在人为清理行为,并确定阈值,公式为:
Figure BDA0002923881590000021
其中,max(G)为排序后的二阶差分的最大值,second(G)为排序后的二阶差分的次大值, F(xj)代表排序后二阶差分最大值处对应的采样点j的一阶差分,当二阶差分的最大值小于五 倍的次大值时,认定不存在认为清理行为,否则,将一阶差分值与阈值H对比,界定人为清 理行为,对存在人为清理行为的历史数据,将其向下平移对齐清理后的数据。
所述步骤5)主要包括以下步骤:
1)对步骤4)处理后的数据计算一阶差分总体标准差,公式为:
Figure BDA0002923881590000022
其中,xi代表每个样本点的一阶差分值,σ为总体标准差;
2)设定阈值M,若σ小于M,则认定此磁盘容量时间序列为较平稳序列,采用统计学岭 回归算法预测,充分保障预测效率;若σ大于M,则采用深度学习NeuralDecomposition(ND) 算法将时间序列分解成周期项和非周期项进行预测,保障准确性,公式为:
Figure BDA0002923881590000023
其中:x(t)为原始磁盘容量产生的时间序列,g(t)为非周期项,ak、ωk
Figure BDA0002923881590000024
为周期项中需 要学习的参数。
本发明的有益效果为:本发明在智能IT运维领域中的对磁盘容量的预测时,通过二阶差 分法抹平人工清理磁盘行为对数据和预测造成的影响,达到了提升预测准确性的目的;通过 监测并抹平人为清理行为对数据产生的影响,保障并提高算法的学习能力,同时对数据形态、 趋势等特征进行分析决策,自主选择最优算法,充分保障运行效率,兼顾算法准确性和运行 效率。
附图说明
图1为本发明的模型设计示意图。
图2为本发明的人为清理磁盘行为数据调整示意图。
具体实施方式
下面将结合附图对本发明做详细的介绍:
如附图所示,这种基于二阶差分法识别人工清理行为的磁盘容量预测方法,主要包括以 下步骤:
1)对磁盘容量使用情况进行采样上报,同时建立存储数据库保存历史数据;
2)对磁盘使用量数据的采集时间进行一阶差分求采集时间间隔(如一分钟),以一定周 期(如5分钟)为准对采集数据进行聚合,保留聚合周期(如5分钟)内的最大值;
3)过滤聚合数据中的明显异常值,删除重复数据,并对数据缺失值进行线性插值处理;
4)利用二阶差分检测历史数据中是否存在人为清理行为,并抹平因此造成的影响;
5)根据聚合数据计算数据特征,智能匹配最优算法。
步骤4)中的二阶差分主要包括以下步骤:
1)对聚合数据计算一阶差分,公式为:
F(xi)=Δf(xi)=f(xi+1)-f(xi)
其中xi=x0+h,xi为第i采样点,h为采样间隔,函数f(x)代表采样点x处的磁盘容量值;
2)计算排序后的二阶差分,公式为:
G(xi)=F′(xi+1)-F′(xi)=f′(xi+2)-2*f′(xi+1)+f′(xi)
F′(xi)=sorted(F(xi))
其中F′(xi)表示对F(xi)进行排序,即一阶差分中F(xi)进行从大到小排序后得到F′(xi),再 计算二阶差分G(xi);
3)确定是否存在人为清理行为,并确定阈值,公式为:
Figure BDA0002923881590000031
其中,max(G)为排序后的二阶差分的最大值,second(G)为排序后的二阶差分的次大值, F(xj)代表排序后二阶差分最大值处对应的采样点j的一阶差分,当二阶差分的最大值小于五 倍的次大值时,认定不存在认为清理行为,否则,将一阶差分值与阈值H对比,界定人为清 理行为,对存在人为清理行为的历史数据,将其向下平移对齐清理后的数据。
步骤5)主要包括以下步骤:
1)对步骤4)处理后的数据计算一阶差分总体标准差,公式为:
Figure BDA0002923881590000032
其中,xi代表每个样本点的一阶差分值,σ为总体标准差;
2)设定阈值M,若σ小于M,则认定此磁盘容量时间序列为较平稳序列,采用统计学岭 回归算法预测,充分保障预测效率;若σ大于M,则采用深度学习NeuralDecomposition(ND) 算法将时间序列分解成周期项和非周期项进行预测,保障准确性,公式为:
Figure BDA0002923881590000041
其中:x(t)为原始磁盘容量产生的时间序列,g(t)为非周期项,ak、ωk
Figure BDA0002923881590000042
为周期项中需 要学习的参数。
附图2展示了如何抹平人工清理磁盘造成的影响。图中实线序列为存在人工清理磁盘行 为的原始数据,虚线序列位置为修正后的训练数据。
本发明使用计算机语言为Python,能达到最佳实施效果。本发明已经以产品形式在“优 云”系列运维产品中实施。
可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等同替换 或改变都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种基于二阶差分法识别人工清理行为的磁盘容量预测方法,其特征在于:主要包括以下步骤:
1)对磁盘容量使用情况进行采样上报,同时建立存储数据库保存历史数据;
2)对磁盘使用量数据的采集时间进行一阶差分求采集时间间隔,以一定周期为准对采集数据进行聚合,保留聚合周期内的最大值;
3)过滤聚合数据中的明显异常值,删除重复数据,并对数据缺失值进行线性插值处理;
4)利用二阶差分检测历史数据中是否存在人为清理行为,并抹平因此造成的影响;
5)根据聚合数据计算数据特征,智能匹配最优算法。
2.根据权利要求1所述的基于二阶差分法识别人工清理行为的磁盘容量预测方法,其特征在于:所述步骤4)中的二阶差分主要包括以下步骤:
1)对聚合数据计算一阶差分,公式为:
F(xi)=Δf(xi)=f(xi+1)-f(xi)
其中xi=x0+h,xi为第i采样点,h为采样间隔,函数f(x)代表采样点x处的磁盘容量值;
2)计算排序后的二阶差分,公式为:
G(xi)=F′(xi+1)-F′(xi)=f′(xi+2)-2*f′(xi+1)+f′(xi)
F′(xi)=sorted(F(xi))
其中F′(xi)表示对F(xi)进行排序,即一阶差分中F(xi)进行从大到小排序后得到F′(xi),再计算二阶差分G(xi);
3)确定是否存在人为清理行为,并确定阈值,公式为:
Figure FDA0002923881580000011
其中,max(G)为排序后的二阶差分的最大值,second(G)为排序后的二阶差分的次大值,F(xj)代表排序后二阶差分最大值处对应的采样点j的一阶差分,当二阶差分的最大值小于五倍的次大值时,认定不存在认为清理行为,否则,将一阶差分值与阈值H对比,界定人为清理行为,对存在人为清理行为的历史数据,将其向下平移对齐清理后的数据。
3.根据权利要求1所述的基于二阶差分法识别人工清理行为的磁盘容量预测方法,其特征在于:所述步骤5)主要包括以下步骤:
1)对步骤4)处理后的数据计算一阶差分总体标准差,公式为:
Figure FDA0002923881580000012
其中,xi代表每个样本点的一阶差分值,σ为总体标准差;
2)设定阈值M,若σ小于M,则认定此磁盘容量时间序列为较平稳序列,采用统计学岭回归算法预测,充分保障预测效率;若σ大于M,则采用深度学习ND算法将时间序列分解成周期项和非周期项进行预测,保障准确性,公式为:
Figure FDA0002923881580000021
其中:x(t)为原始磁盘容量产生的时间序列,g(t)为非周期项,ak、ωk
Figure FDA0002923881580000022
为周期项中需要学习的参数。
CN202110127180.XA 2021-01-29 2021-01-29 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法 Active CN113157204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110127180.XA CN113157204B (zh) 2021-01-29 2021-01-29 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127180.XA CN113157204B (zh) 2021-01-29 2021-01-29 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法

Publications (2)

Publication Number Publication Date
CN113157204A true CN113157204A (zh) 2021-07-23
CN113157204B CN113157204B (zh) 2022-11-18

Family

ID=76879081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127180.XA Active CN113157204B (zh) 2021-01-29 2021-01-29 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法

Country Status (1)

Country Link
CN (1) CN113157204B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法
CN108561119A (zh) * 2017-12-05 2018-09-21 西南石油大学 一种钻井溢流安全关井时间预测方法及系统
CN109766234A (zh) * 2018-12-11 2019-05-17 国网甘肃省电力公司信息通信公司 基于时间序列模型的磁盘存储容量预测方法
CN110865928A (zh) * 2019-11-26 2020-03-06 上海新炬网络技术有限公司 基于arima预测模型和灰色预测模型实现容量预测的方法
CN110880984A (zh) * 2019-10-18 2020-03-13 平安科技(深圳)有限公司 基于模型的流量异常监测方法、装置、设备及存储介质
CN111275307A (zh) * 2020-01-16 2020-06-12 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN111427753A (zh) * 2020-03-23 2020-07-17 上海新炬网络信息技术股份有限公司 基于arima模型的容量预测装置及其控制方法
CN112580880A (zh) * 2020-12-23 2021-03-30 中国交通信息科技集团有限公司 一种容量预测方法、计算机处理器以及终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法
CN108561119A (zh) * 2017-12-05 2018-09-21 西南石油大学 一种钻井溢流安全关井时间预测方法及系统
CN109766234A (zh) * 2018-12-11 2019-05-17 国网甘肃省电力公司信息通信公司 基于时间序列模型的磁盘存储容量预测方法
CN110880984A (zh) * 2019-10-18 2020-03-13 平安科技(深圳)有限公司 基于模型的流量异常监测方法、装置、设备及存储介质
CN110865928A (zh) * 2019-11-26 2020-03-06 上海新炬网络技术有限公司 基于arima预测模型和灰色预测模型实现容量预测的方法
CN111275307A (zh) * 2020-01-16 2020-06-12 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN111427753A (zh) * 2020-03-23 2020-07-17 上海新炬网络信息技术股份有限公司 基于arima模型的容量预测装置及其控制方法
CN112580880A (zh) * 2020-12-23 2021-03-30 中国交通信息科技集团有限公司 一种容量预测方法、计算机处理器以及终端设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUKE B. GODFREY: "Neural Decomposition of Time-Series Data for Effective Generalization", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
国家地震局预测预防司: "《地下流体地震预报方法》", 28 February 1997 *
王海青: "基于时间序列的网盘容量趋势预测算法的研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Also Published As

Publication number Publication date
CN113157204B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN109492193B (zh) 基于深度机器学习模型的异常网络数据生成与预测方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN111047082A (zh) 设备的预警方法及装置、存储介质和电子装置
CN111782491B (zh) 一种磁盘故障预测方法、装置、设备及存储介质
CN116559598B (zh) 一种智慧配电网故障定位方法及系统
CN111160626B (zh) 一种基于分解融合的电力负荷时间序列控制方法
CN110738255A (zh) 一种基于聚类算法的设备状态监测方法
CN113935440A (zh) 一种电压互感器误差状态迭代评估方法及系统
CN114218872B (zh) 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法
CN112682273B (zh) 基于代价敏感轻量级梯度提升机的风电机组故障检测方法
CN116316599A (zh) 一种智能用电负荷预测方法
CN116739829B (zh) 一种基于大数据的电力数据分析方法、系统及介质
Artemov et al. Detecting performance degradation of software-intensive systems in the presence of trends and long-range dependence
CN117114454B (zh) 一种基于Apriori算法的直流套管状态评估方法及系统
CN110779988A (zh) 一种基于深度学习的螺栓寿命预测方法
CN113157204B (zh) 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法
CN114090393A (zh) 一种告警级别的确定方法、装置及设备
KR20220160974A (ko) 지도 학습 모델 및 비지도 학습 모델의 앙상블 구조를 이용한 대기질 데이터의 이상 판정 방법 및 시스템
CN117034197A (zh) 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法
CN117060353A (zh) 基于前馈神经网络高压直流输电系统故障诊断方法及系统
CN115883424B (zh) 一种高速骨干网间流量数据预测方法及系统
CN111934903A (zh) 一种基于时序演化基因的Docker容器故障智能预测方法
CN111967532A (zh) 油田加热炉异常检测方法和系统及相关设备
CN115438239A (zh) 一种自动化异常样本筛选的异常检测方法及装置
CN116760033B (zh) 一种基于人工智能的实时电力需求预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 311305 room 505, 5 / F, block B, science and technology innovation building, No. 958, Dayuan Road, Qingshanhu street, Lin'an District, Hangzhou, Zhejiang Province

Applicant after: HANGZHOU YOUYUN SOFTWARE Co.,Ltd.

Applicant after: Beijing Guangtong Youyun Technology Co.,Ltd.

Address before: Room 030, building 3, No.6 heting street, Qingshanhu street, Lin'an City, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU YOUYUN SOFTWARE Co.,Ltd.

Applicant before: Beijing Guangtong software Limited by Share Ltd. XinDa

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant