CN105589785A - 监控存储设备的io性能的装置和方法 - Google Patents

监控存储设备的io性能的装置和方法 Download PDF

Info

Publication number
CN105589785A
CN105589785A CN201510896968.1A CN201510896968A CN105589785A CN 105589785 A CN105589785 A CN 105589785A CN 201510896968 A CN201510896968 A CN 201510896968A CN 105589785 A CN105589785 A CN 105589785A
Authority
CN
China
Prior art keywords
time
performance
performance data
baseline
predetermined amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510896968.1A
Other languages
English (en)
Inventor
郝建明
张炼
王夕夕
沈刚
张育新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201510896968.1A priority Critical patent/CN105589785A/zh
Publication of CN105589785A publication Critical patent/CN105589785A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

监控存储设备的IO性能的装置和方法。装置包括:IO性能数据采集模块,以预定的采样频率采集该存储设备的IO性能数据,监控基准生成模块,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值,分析模块,根据所述基线和所述阈值监控所述存储设备的IO性能。

Description

监控存储设备的IO性能的装置和方法
技术领域
本发明的实施例涉及监控存储设备的IO性能的装置和方法。
背景技术
联机事务处理OLTP(On-LineTransactionProcessing)系统,也称为面向交易的处理系统。典型的OLTP系统包括电子商务系统、银行业务系统等。衡量OLTP系统的一个重要性能指标是对来自用户的请求的实时响应时间。由于OLTP系统需要进行大量的随机写操作,其对数据库引擎的写性能的要求非常高。存储设备的存储性能的微小波动可能导致交易处理的失败。
通常在存储设备侧设置监控程序来监控存储设备的性能。但这种方案仅仅针对存储设备自身的运行情况,而没有考虑主机侧的特定业务和特定业务的时间段,因此,缺乏针对性,难以就特定业务和时间段的性能状况进行严密的监视。而且,该方案的分析粒度较粗,例如监控的时间间隔常常被规定为若干分钟,因此难以捕获短时间内的性能波动。
现有解决方案仍然不能很好地避免因存储设备的IO性能波动而造成的交易失败。
发明内容
一种监控存储设备的IO性能的装置,包括:IO性能数据采集模块,以预定的采样频率采集该存储设备的IO性能数据,监控基准生成模块,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值,分析模块,根据所述基线和所述阈值监控所述存储设备的IO性能。
可选地,所述IO性能数据采集模块、监控基准生成模块、分析模块被设置在主机侧,该主机和所述存储设备通过网络通信。
可选地,所述主机是针对特定业务的主机。
可选地,所述预定的采样频率是1Hz。
可选地,所述IO性能数据是读操作或者写操作的平均响应时间。
可选地,所述预定时间段是特定业务的时间段,所述阈值是超过该基线的采样点的计数。
可选地,所述预定时间段包括对应于多个业务的多个单独的时间段,所述阈值是所述多个业务在各自时间段内的超过该基线的采样点的计数的平均值。
可选地,所述基线是μ+3σ,其中,μ和σ分别是预定时间段的IO性能数据的平均值和标准差。
可选地,所述分析模块实时统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。
一种监控存储设备的IO性能的方法,包括:IO性能数据采集步骤,以预定的采样频率采集该存储设备的IO性能数据,监控基准生成步骤,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值,分析步骤,根据所述基线和所述阈值监控所述存储设备的IO性能。
可选地,所述IO性能数据采集步骤、监控基准生成步骤、分析步骤在主机侧被执行,该主机和所述存储设备通过网络通信。
可选地,所述分析步骤实时统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。
传统基于存储设备自身的性能监控软件其最短性能,分析粒度粗。当存储性能出现短时间波动时,监控软件无法捕获,但主机端交易系统已经出现交易失败现象。
本发明的优势在于能够察觉存储设备的性能出现的微小波动,并且对特定的主机系统、特定的业务、特定的时间段进行定向监控。此外,本发明的实施例通过建立监控基准,使得能够进行标准化性能分析。一定时间期间的性能数据的采集,使得能够定量分析存储设备的IO性能的变化。
当结合附图阅读以下描述时也将理解本发明的实施例的其它特征和优势,其中附图借助于实例示出了本发明的实施例的原理。
附图说明
图1是根据本发明实施例的监控存储设备的IO性能的装置的示意图。
图2是根据本发明实施例的监控存储设备的IO性能的方法示意图。
图3是根据本发明实施例的监控存储设备的IO性能的方法的流程图。
具体实施方式
在下文中,将结合实施例描述本发明的原理。应当理解的是,给出的实施例只是为了本领域技术人员更好地理解并且实践本发明,而不是限制本发明的范围。例如,本说明书中包含许多具体的实施细节不应被解释为对发明的范围或可能被要求保护的范围的限制,而是应该被视为特定于实施例的描述。例如,在各实施例的上下文描述的特征可被组合在单一实施例中来实施。在单一实施例的上下文中描述的特可在多个实施例来实施。
图1是根据本发明实施例的监控存储设备的IO性能的装置的示意图。如图所示,示例性地,监控存储设备的IO性能的装置被设置在主机侧的主机10中,并且包括IO性能数据采集模块11、监控基准生成模块12、分析模块13。可以理解的是,监控装置可以被设置在一个或多个主机中,而且组成监控装置的模块可以被设置在不同的主机中。在图中,主机10通过网络20与远程存储设备30耦合。典型地,图中所示的多个主机、网络、多个存储设备构成OLTP系统。
IO性能数据采集模块11,以预定的采样频率采集存储设备的IO性能数据。如图1中虚线所示,IO性能数据采集模块11可以经由网络20从存储设备30获得。所述预定的采样频率可以是1Hz,即以1秒的时间间隔采集IO性能数据。IO性能数据可以是读操作或者写操作的平均响应时间。可以以预定采样频率采集预定时间段的IO性能数据。在一个实例中,每天24小时连续采集IO性能数据,并且以天为单位进行保存。由此,每天可以保存86400个采样点。采用1秒的时间间隔监控存储设备的IO性能大大增加了监控的精度,从而能够发现IO性能的微小的波动,进而采取应对措施。
监控基准生成模块12,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值。该预定时间段例如是数周或者一个月。可以根据正态分布理论,将基线的性能值设定为μ+3σ,其中,μ和σ分别是该预定时间段的IO性能数据的平均值和标准差。在一个实例中,所述预定时间段是特定业务的时间段,所述阈值是超过该基线的采样点的计数。在另一个实例中,所述预定时间段包括对应于多个业务的多个单独的时间段,所述阈值是所述多个业务在各自时间段内的超过该基线的采样点的计数的平均值。多个业务可以是不同类型的业务,也可以是在多个单独时间段内的相同的业务。结合业务来产生监控基准,能够使得监控更加有针对性,提高监控的准度。可以理解的是,监控基准生成模块12还可以基于额外的时间段的IO性能数据更新性能控制基线和阈值。
分析模块13,根据所述基线和所述阈值监控所述存储设备的IO性能。在一个实例中,分析模块实时统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。由此,能够可及时、定量、有效地基于主机系统分析外置存储IO性能的变化趋势。并且,当发现异常时通过各种方式发出提示信号,从而应对措施可以及时地被执行。在另一个实例中,分析模块在预定的时间段预先采集IO性能数据,然后针对在该时间段采集的采集点的性能数据统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。在另一个实例中,分析模块在不同的时间段预先采集IO性能数据,然后针对在这些时间段采集的采集点的性能数据统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。
图2是根据本发明实施例的监控存储设备的IO性能的方法示意图。如图所示,监控存储设备的IO性能的方法包括:IO性能数据采集步骤201,以预定的采样频率采集该存储设备的IO性能数据,监控基准生成步骤202,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值,分析步骤203,根据所述基线和所述阈值监控所述存储设备的IO性能。
在一个实施例中,所述IO性能数据采集步骤、监控基准生成步骤、分析步骤在主机侧被执行,该主机和所述存储设备通过网络通信。
同上述关于图1所述的监控存储设备的IO性能的装置的描述相似,所述主机可以是针对特定业务的主机。所述预定的采样频率可以是1Hz。所述IO性能数据可以是读操作或者写操作的平均响应时间。
在一个实施例中,所述预定时间段是特定业务的时间段,所述阈值是超过该基线的采样点的计数。在另一个实施例中,所述预定时间段包括对应于多个业务的多个单独的时间段,所述阈值是所述多个业务在各自时间段内的超过该基线的采样点的计数的平均值。
在其它实施例中,所述基线是μ+3σ,其中,μ和σ分别是预定时间段的IO性能数据的平均值和标准差。所述分析步骤实时统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。
图3是根据本发明实施例的监控存储设备的IO性能的方法的流程图。在该方法中,示出根据前述实施例中所得到的基线和阈值进行IO性能监控的过程。
在步骤301中,采集IO性能数据,例如写操作的平均响应时间数据。
在步骤302中,从采集的IO性能数据取一个采样点进行分析。
在步骤303中,判断取得的采样点的平均响应时间(例如,平均响应时间)是否大于基线,如果是则进入步骤304,否则返回步骤302取下一个采样点。
在步骤304中,将平均响应时间大于基线的采样点作为异常采样点计数。
在步骤305中,判断异常采样点的技术是否大于阈值,如果是则进入步骤306,否则返回步骤302取下一个采样点。
在步骤306中,产生提示。本领域技术人员可以理解的是,提示可以以各种方式进行。
图2和图3所示的各个框可被视为方法步骤、和/或被视为由于运行计算机程序代码而导致的操作、和/或被视为构建为实施相关功能的多个耦合的逻辑电路元件。尽管操作按特定的顺序在图中被描绘,但这不应被理解为要求按照所示的特定顺序或按依次顺序来执行这些操作,或要求所有例示的操作被执行,以达到理想的结果。在某些情况下,多任务并行处理可能是有利的。
前文示例性实施例可在硬件、软件或其组合中来实施。例如,本发明的某些方面可在硬件中实施,而其它方面则可在软件中实施。尽管本发明的示例性实施例的方面可被示出和描述为框图、流程图,但很好理解的是,这里描述的这些装置、或方法可在作为非限制性实例的系统中被实现为功能模块。此外,上述装置不应被理解为要求在所有的实施例中进行这种分离,而应该被理解为所描述的程序组件和系统通常可以被集成在单一的软件产品中或打包成多个软件产品。
相关领域的技术人员当结合附图阅读前述说明书时,对本发明的前述示例性实施例的各种修改和变形对于相关领域的技术人员会变得明显。因此,本发明的实施例不限于所公开的特定实施例,并且变形例和其它实施例意在涵盖在所附权利要求的范围内。

Claims (18)

1.一种监控存储设备的IO性能的装置,其特征在于,包括:
IO性能数据采集模块,以预定的采样频率采集该存储设备的IO性能数据,
监控基准生成模块,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值,
分析模块,根据所述基线和所述阈值监控所述存储设备的IO性能。
2.如权利要求1所述的装置,其特征在于,所述IO性能数据采集模块、监控基准生成模块、分析模块被设置在主机侧,该主机和所述存储设备通过网络通信。
3.如权利要求2所述的装置,其特征在于,
所述主机是针对特定业务的主机。
4.如权利要求1所述的装置,其特征在于,
所述预定的采样频率是1Hz。
5.如权利要求1所述的装置,其特征在于,
所述IO性能数据是读操作或者写操作的平均响应时间。
6.如权利要求1所述的装置,其特征在于,
所述预定时间段是特定业务的时间段,所述阈值是超过该基线的采样点的计数。
7.如权利要求1所述的装置,其特征在于,
所述预定时间段包括对应于多个业务的多个单独的时间段,所述阈值是所述多个业务在各自时间段内的超过该基线的采样点的计数的平均值。
8.如权利要求1所述的装置,其特征在于,所述基线是μ+3σ,其中,μ和σ分别是预定时间段的IO性能数据的平均值和标准差。
9.如权利要求1所述的装置,其特征在于,
所述分析模块实时统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。
10.一种监控存储设备的IO性能的方法,其特征在于,包括:
IO性能数据采集步骤,以预定的采样频率采集该存储设备的IO性能数据,
监控基准生成步骤,以预定时间段的IO性能数据为基础,计算性能控制基线,以及根据该预定时间段内的超过该基线的采样点的计数计算阈值,
分析步骤,根据所述基线和所述阈值监控所述存储设备的IO性能。
11.如权利要求10所述的方法,其特征在于,所述IO性能数据采集步骤、监控基准生成步骤、分析步骤在主机侧被执行,该主机和所述存储设备通过网络通信。
12.如权利要求11所述的方法,其特征在于,
所述主机是针对特定业务的主机。
13.如权利要求10所述的方法,其特征在于,
所述预定的采样频率是1Hz。
14.如权利要求10所述的方法,其特征在于,
所述IO性能数据是读操作或者写操作的平均响应时间。
15.如权利要求10所述的方法,其特征在于,
所述预定时间段是特定业务的时间段,所述阈值是超过该基线的采样点的计数。
16.如权利要求10所述的方法,其特征在于,
所述预定时间段包括对应于多个业务的多个单独的时间段,所述阈值是所述多个业务在各自时间段内的超过该基线的采样点的计数的平均值。
17.如权利要求10所述的方法,其特征在于,所述基线是μ+3σ,其中,μ和σ分别是预定时间段的IO性能数据的平均值和标准差。
18.如权利要求10所述的方法,其特征在于,
所述分析步骤实时统计超出所述基线的采样点的计数,当判断所述计数超过所述阈值时,产生提示信号。
CN201510896968.1A 2015-12-08 2015-12-08 监控存储设备的io性能的装置和方法 Pending CN105589785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510896968.1A CN105589785A (zh) 2015-12-08 2015-12-08 监控存储设备的io性能的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510896968.1A CN105589785A (zh) 2015-12-08 2015-12-08 监控存储设备的io性能的装置和方法

Publications (1)

Publication Number Publication Date
CN105589785A true CN105589785A (zh) 2016-05-18

Family

ID=55929384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510896968.1A Pending CN105589785A (zh) 2015-12-08 2015-12-08 监控存储设备的io性能的装置和方法

Country Status (1)

Country Link
CN (1) CN105589785A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040115A1 (en) * 2016-09-05 2018-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Determination of faulty state of storage device
CN108388499A (zh) * 2018-02-24 2018-08-10 维沃移动通信有限公司 一种存储器监控方法及终端
CN108509634A (zh) * 2018-04-10 2018-09-07 深信服科技股份有限公司 抖动故障监测方法、监测装置及计算机可读存储介质
CN110069371A (zh) * 2019-04-11 2019-07-30 深圳大普微电子科技有限公司 一种识别固态硬盘性能的方法及固态硬盘
CN110140326A (zh) * 2017-12-08 2019-08-16 华为技术有限公司 对设备的性能数据进行采样的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007028781A1 (en) * 2005-09-09 2007-03-15 International Business Machines Corporation Performance evaluation of a network-based application
CN102118276A (zh) * 2009-12-31 2011-07-06 北京亿阳信通软件研究院有限公司 提供性能告警服务的方法和装置
WO2013043170A1 (en) * 2011-09-21 2013-03-28 Hewlett-Packard Development Company L.P. Automated detection of a system anomaly
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN103793309A (zh) * 2012-10-29 2014-05-14 中国移动通信集团浙江有限公司 一种批量业务预警方法及装置
CN104954154A (zh) * 2014-03-24 2015-09-30 北京神州泰岳软件股份有限公司 运维管理平台的监控及故障维护方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007028781A1 (en) * 2005-09-09 2007-03-15 International Business Machines Corporation Performance evaluation of a network-based application
CN102118276A (zh) * 2009-12-31 2011-07-06 北京亿阳信通软件研究院有限公司 提供性能告警服务的方法和装置
WO2013043170A1 (en) * 2011-09-21 2013-03-28 Hewlett-Packard Development Company L.P. Automated detection of a system anomaly
CN103793309A (zh) * 2012-10-29 2014-05-14 中国移动通信集团浙江有限公司 一种批量业务预警方法及装置
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN104954154A (zh) * 2014-03-24 2015-09-30 北京神州泰岳软件股份有限公司 运维管理平台的监控及故障维护方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林文锋 等: ""面向用户体验的IT指标管理研究与应用"", 《电信科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040115A1 (en) * 2016-09-05 2018-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Determination of faulty state of storage device
US11977434B2 (en) 2016-09-05 2024-05-07 Telefonaktiebolaget Lm Ericsson (Publ) Determination of faulty state of storage device
CN110140326A (zh) * 2017-12-08 2019-08-16 华为技术有限公司 对设备的性能数据进行采样的方法和装置
CN108388499A (zh) * 2018-02-24 2018-08-10 维沃移动通信有限公司 一种存储器监控方法及终端
CN108509634A (zh) * 2018-04-10 2018-09-07 深信服科技股份有限公司 抖动故障监测方法、监测装置及计算机可读存储介质
CN110069371A (zh) * 2019-04-11 2019-07-30 深圳大普微电子科技有限公司 一种识别固态硬盘性能的方法及固态硬盘
CN110069371B (zh) * 2019-04-11 2023-05-23 深圳大普微电子科技有限公司 一种识别固态硬盘性能的方法及固态硬盘

Similar Documents

Publication Publication Date Title
CN105589785A (zh) 监控存储设备的io性能的装置和方法
Alizamir et al. Diagnostic accuracy under congestion
TWI718941B (zh) 用於產生告警之系統與方法以及非暫態電腦可讀取媒體
US9424288B2 (en) Analyzing database cluster behavior by transforming discrete time series measurements
US20170097863A1 (en) Detection method and information processing device
US9704382B2 (en) Method for calculating error rate of alarm
CN106789251B (zh) 网银运行状态监控系统及方法
KR100982034B1 (ko) 데이터베이스 성능 모니터링 방법 및 시스템
US11165799B2 (en) Anomaly detection and processing for seasonal data
CN103345209B (zh) 生产监控方法及系统
CN110474871B (zh) 一种异常账号检测方法、装置、计算机设备及存储介质
DE112012001160T5 (de) Unregelmäßigkeitserkennungssystem zum Erkennen einer Unregelmäßigkeit in mehreren Steuersystemen
CN107566148B (zh) 终端应用操作数据的分析方法、系统、装置及终端
CN109005162B (zh) 工控系统安全审计方法及装置
CN104050289A (zh) 一种异常事件检测方法及系统
CN109857618B (zh) 一种监控方法、装置及系统
CN105589796A (zh) 用于监测信息交互数据异常的方法
WO2021178649A1 (en) An algorithmic learning engine for dynamically generating predictive analytics from high volume, high velocity streaming data
CN108446162A (zh) 监测JVM Full GC事件的方法及系统
JP2008108154A (ja) 稼働性能情報の管理システム
CN112686773A (zh) 一种基于融合业务拓扑的电力计量全链路关键业务异常定位模型构建方法
CN110990223A (zh) 一种基于系统日志的监控告警方法及装置
CN105956036A (zh) 一种交易质量分析装置以及交易质量分析方法
Geethika et al. Anomaly detection in high-performance api gateways
KR20190012756A (ko) 생존 함수 기반의 특질 추출 방법을 이용한 유사 설비 군집화 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518