CN111459734A - 一种故障监控周期的测试方法、系统及计算机存储介质 - Google Patents

一种故障监控周期的测试方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN111459734A
CN111459734A CN202010175029.9A CN202010175029A CN111459734A CN 111459734 A CN111459734 A CN 111459734A CN 202010175029 A CN202010175029 A CN 202010175029A CN 111459734 A CN111459734 A CN 111459734A
Authority
CN
China
Prior art keywords
time
test
monitoring period
fault
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010175029.9A
Other languages
English (en)
Inventor
孙静静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010175029.9A priority Critical patent/CN111459734A/zh
Publication of CN111459734A publication Critical patent/CN111459734A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2215Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test error correction or detection circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种故障监控周期的测试方法、系统及计算机存储介质,测试方法包括搭建测试环境,将host与BOX服务器BMC的时间调整一致;模拟BOX错误,并记录模拟时间;监控host日志,记录收到的对应告警时间;重复进行测试过程,分别计算对应的模拟时间与告警时间的时间差;根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。本发明通过模拟BOX服务器端的故障,并记录时间,同时监控host端的故障日志,筛选与模拟故障对应的告警日志,并记录告警时间,通过记录时间与告警时间的时间差与实际监控周期比较,判断当前监控周期是否出现异常。整个过程无需人为参与,能够准确高效的测试出监控周期的异常情况。

Description

一种故障监控周期的测试方法、系统及计算机存储介质
技术领域
本发明涉及计算机技术领域,尤其是一种故障监控周期的测试方法、系统及计算机存储介质。
背景技术
HOST(一个通用的服务器)搭配BOX(没有CPU、内存、BIOS,只有BMC、风扇、电源和显卡或者存储设备的服务器)多级级联这种搭配现在越来越被客户认可和接受。HOST可以级联BOX,通过BMC(Baseboard Management Controller.为基板管理控制器)来实时监控多级串并联BOX信息,及时反映出BOX异常或二者通信异常:此时Host监控BOX故障的周期也是值得关注的问题。监控周期异常则会漏掉告警,严重影响运维工作人员的工作,所以监控周期的测试也尤为重要。
然而现有测试中,均未涉及对监控周期进行测试的项目,实际运行中,一旦监控周期出现异常,告警不及时,会导致服务器宕机等严重后果。
发明内容
本发明提供了一种故障监控周期的测试方法、系统及计算机存储介质,用于解决现有缺乏对监控周期进行测试的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种故障监控周期的测试方法,所述测试方法包括以下步骤:
S1,搭建测试环境,将host与BOX服务器BMC的时间调整一致;
S2,模拟BOX错误,并记录模拟时间;
S3,监控host日志,记录收到的对应告警时间;
S4,重复步骤S2和S3,分别计算对应的模拟时间与告警时间的时间差;
S5,根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。
进一步地,所述测试环境的搭建,通过switch连接host和BOX服务器,根据host与BOX的级联方式进行对应的配置调整。
进一步地,所述步骤S2中,通过带外IPMI命令模拟BOX错误,所述IPMI命令中通过更改BOX服务器BMC的IP地址模拟不同BOX服务器的故障。
进一步地,所述步骤S3中,通过带外IPMI命令实时监控host日志,对host日志进行关键词筛选,筛选出与步骤S2中模拟故障对应的日志时,记录告警时间。
进一步地,所述步骤S5的具体实现过程为:
根据得到的若干时间差,将所述时间差的最大值作为测试的监控周期;
判断所述测试的监控周期是否大于所述实际监控周期;
若是,则认为监控周期异常;
若否,则认为监控周期正常。
进一步地,所述方法还包括:
将测试过程和测试结果数据进行记录并保存,形成测试日志。
本发明第二方面提供了一种故障监控周期的测试系统,所述系统包括:
环境配置单元,用于搭建测试环境,将host与BOX服务器BMC的时间调整一致,并配置第一测试单元和第二测试单元的循环次数;
第一测试单元,用于模拟BOX错误,并记录模拟时间;
第二测试单元,用于监控host日志,记录收到的对应告警时间;
数据处理单元,分别计算对应的模拟时间与告警时间的时间差;
数据分析单元,根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。
进一步地,所述系统还包括存储单元,所述存储单元用于将测试过程和测试结果数据进行记录并保存,形成测试日志。
本发明第三方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在故障监控周期的测试系统上运行时,使所述测试系统执行所述故障监控周期的方法。
本发明第二方面的所述故障监控周期的测试系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、本发明通过模拟BOX服务器端的故障,并记录时间,同时监控host端的故障日志,筛选与模拟故障对应的告警日志,并记录告警时间,通过记录时间与告警时间的时间差与实际监控周期比较,判断当前监控周期是否出现异常。整个过程无需人为参与,能够准确高效的测试出监控周期的异常情况。
2、测试过程中。通过带外IPMI命令模拟不同BOX服务器以及同一BOX服务器内不同设备的故障,在host与BOX服务器多级联时,能够实现高效测试。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法的流程示意图;
图2是本发明所述系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明故障监控周期的测试方法,包括以下步骤:
S1,搭建测试环境,将host与BOX服务器BMC的时间调整一致;
S2,模拟BOX错误,并记录模拟时间;
S3,监控host日志,记录收到的对应告警时间;
S4,重复步骤S2和S3,分别计算对应的模拟时间与告警时间的时间差;
S5,根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。
步骤S1中。测试环境的搭建,通过switch连接host和BOX服务器,根据host与BOX的级联方式进行对应的配置调整。
Host与BOX的级联方式有:1HOST级联1个BOX;1个HOST串联2个BOX;1个HOST并联2个BOX 2个HOST级联1个BOX;3个HOST级联1个BOX;4个HOST级联1个BOX;6个HOST级联1个BOX等多种配置。
步骤S2中,通过带外IPMI命令模拟BOX错误,带外IPMI命令为ipmitool–Ilanplus–H BOXBMCIP–U用户名–P密码raw 0x0A**,IPMI命令中通过更改BOX服务器BMC的IP地址模拟不同BOX服务器的故障,由于每个BOX都有电源,风扇,Switch的设备,在进行不同设备故障的模拟时,通过更改命令中对应的设备号即可实现。
步骤S3中,通过带外IPMI命令实时监控host日志,带外IPMI命令为ipmitool–Ilanplus–H HOSTBMCIP–U用户名–P密码sel elist筛选出BOX(1/2),对host日志进行关键词筛选,HOST BMC可以根据BOX的位置记录BOX(1/2)_PSU/FAN/Switch/**,筛选出与步骤S2中模拟故障对应的日志时,记录告警时间。
步骤S5的具体实现过程为:
根据得到的若干时间差,将所述时间差的最大值作为测试的监控周期;
判断所述测试的监控周期是否大于所述实际监控周期;
若是,则认为监控周期异常;
若否,则认为监控周期正常。
所述方法还包括:将测试过程和测试结果数据进行记录并保存,形成测试日志。
如图2所示,本发明故障监控周期的测试系统包括环境配置单元1、第一测试单元2、第二测试单元3、数据处理单元4、数据分析单元5和存储单元6。
环境配置单元1用于搭建测试环境,将host与BOX服务器BMC的时间调整一致,并配置第一测试单元和第二测试单元的循环次数;第一测试单元2用于模拟BOX错误,并记录模拟时间;第二测试单元3用于监控host日志,记录收到的对应告警时间;数据处理单元4分别计算对应的模拟时间与告警时间的时间差;数据分析单元5根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。存储单元用于将测试过程和测试结果数据进行记录并保存,形成测试日志。
本发明还提供一种计算机存储介质,计算机存储介质中存储有计算机指令,计算机指令在故障监控周期的测试系统上运行时,使测试系统执行故障监控周期的方法。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种故障监控周期的测试方法,其特征是,所述测试方法包括以下步骤:
S1,搭建测试环境,将host与BOX服务器BMC的时间调整一致;
S2,模拟BOX错误,并记录模拟时间;
S3,监控host日志,记录收到的对应告警时间;
S4,重复步骤S2和S3,分别计算对应的模拟时间与告警时间的时间差;
S5,根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。
2.根据权利要求1所述故障监控周期的测试方法,其特征是,所述测试环境的搭建,通过switch连接host和BOX服务器,根据host与BOX的级联方式进行对应的配置调整。
3.根据权利要求1所述故障监控周期的测试方法,其特征是,所述步骤S2中,通过带外IPMI命令模拟BOX错误,所述IPMI命令中通过更改BOX服务器BMC的IP地址模拟不同BOX服务器的故障。
4.根据权利要求1所述故障监控周期的测试方法,其特征是,所述步骤S3中,通过带外IPMI命令实时监控host日志,对host日志进行关键词筛选,筛选出与步骤S2中模拟故障对应的日志时,记录告警时间。
5.根据权利要求1所述故障监控周期的测试方法,其特征是,所述步骤S5的具体实现过程为:
根据得到的若干时间差,将所述时间差的最大值作为测试的监控周期;
判断所述测试的监控周期是否大于所述实际监控周期;
若是,则认为监控周期异常;
若否,则认为监控周期正常。
6.根据权利要求1-5任一项所述故障监控周期的测试方法,其特征是,所述方法还包括:
将测试过程和测试结果数据进行记录并保存,形成测试日志。
7.一种故障监控周期的测试系统,其特征是,所述系统包括:
环境配置单元,用于搭建测试环境,将host与BOX服务器BMC的时间调整一致,并配置第一测试单元和第二测试单元的循环次数;
第一测试单元,用于模拟BOX错误,并记录模拟时间;
第二测试单元,用于监控host日志,记录收到的对应告警时间;
数据处理单元,分别计算对应的模拟时间与告警时间的时间差;
数据分析单元,根据所述时间差,得到测试的监控周期,与实际监控周期比较,得到监控周期的测试结果。
8.根据权利要求7所述故障监控周期的测试系统,其特征是,所述系统还包括存储单元,所述存储单元用于将测试过程和测试结果数据进行记录并保存,形成测试日志。
9.一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在故障监控周期的测试系统上运行时,使所述测试系统执行如权利要求1-5任一项所述的故障监控周期的方法。
CN202010175029.9A 2020-03-13 2020-03-13 一种故障监控周期的测试方法、系统及计算机存储介质 Withdrawn CN111459734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010175029.9A CN111459734A (zh) 2020-03-13 2020-03-13 一种故障监控周期的测试方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010175029.9A CN111459734A (zh) 2020-03-13 2020-03-13 一种故障监控周期的测试方法、系统及计算机存储介质

Publications (1)

Publication Number Publication Date
CN111459734A true CN111459734A (zh) 2020-07-28

Family

ID=71682778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010175029.9A Withdrawn CN111459734A (zh) 2020-03-13 2020-03-13 一种故障监控周期的测试方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111459734A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032211A (zh) * 2021-03-19 2021-06-25 深圳市新威尔电子有限公司 数据安全监控方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032211A (zh) * 2021-03-19 2021-06-25 深圳市新威尔电子有限公司 数据安全监控方法

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US9569325B2 (en) Method and system for automated test and result comparison
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
CN110851320A (zh) 一种服务器宕机监管方法、系统、终端及存储介质
CN112241346B (zh) 对bios内存故障检测能力的测试方法、装置及系统
CN104615519A (zh) 一种linux系统下检测服务器内存容量是否缺失的方法
JP2007133870A (ja) コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム
CN111459734A (zh) 一种故障监控周期的测试方法、系统及计算机存储介质
WO2021056913A1 (zh) 基于i2c通讯的故障定位方法、装置及系统
CN111124724B (zh) 一种分布式块存储系统的节点故障测试方法及装置
CN112463516A (zh) 一种收集并验证bmc日志完整性的方法、系统
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN116225802A (zh) 一种故障测试方法、装置及计算设备
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
CN111459731A (zh) 一种图形处理器稳定性测试方法及系统
CN113674795B (zh) 用于固态硬盘的测试系统和测试方法
CN116382968B (zh) 外部设备的故障检测方法以及装置
CN114816939B (zh) 一种内存通信方法、系统、设备及介质
TWI815722B (zh) 利用伺服器日誌資料於測試前預先判斷伺服器狀態之判斷系統與判斷方法
CN113688017B (zh) 多节点BeeGFS文件系统自动化异常测试方法及装置
CN115695159B (zh) 一种设备诊断方法、装置、设备和存储介质
CN113094221B (zh) 故障注入方法、装置、计算机设备以及可读存储介质
CN117251320A (zh) 多节点服务器测试方法及装置
TWI679530B (zh) 批次測試系統及其方法
CN107438259B (zh) 一种网管系统性能模块故障的定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200728

WW01 Invention patent application withdrawn after publication