CN106776219B - 一种服务器整机烧机的检测方法 - Google Patents

一种服务器整机烧机的检测方法 Download PDF

Info

Publication number
CN106776219B
CN106776219B CN201611156452.4A CN201611156452A CN106776219B CN 106776219 B CN106776219 B CN 106776219B CN 201611156452 A CN201611156452 A CN 201611156452A CN 106776219 B CN106776219 B CN 106776219B
Authority
CN
China
Prior art keywords
server
daemon process
check
complete machine
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611156452.4A
Other languages
English (en)
Other versions
CN106776219A (zh
Inventor
田周鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201611156452.4A priority Critical patent/CN106776219B/zh
Publication of CN106776219A publication Critical patent/CN106776219A/zh
Application granted granted Critical
Publication of CN106776219B publication Critical patent/CN106776219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1044Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices with specific ECC/EDC distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请发明一种服务器整机烧机的检测方法,在待测试的服务器系统中运行一个守护进程,在守护进程中,可以设置对不同的设备或内存进行检查。当测试出异常后,守护进程会将不同的错误信息写入不同的日志中。当服务器烧机测试的时间结束后,可以检查日志,看是否存在错误报告,如果没有,则检测合格,如果检查到错误,可以进行后续的异常分析、故障排除等操作。通过该方法对服务器产品进行出厂测试,能够有效检测服务器存在的异常状况,可以减少人力、物力及流程管理的成本,提高测试覆盖率。

Description

一种服务器整机烧机的检测方法
技术领域
本发明涉及计算机软件开发领域,具体涉及一种服务器整机烧机的检测方法,通过该方法对服务器产品进行出厂测试,能够有效检测服务器存在的异常状况,可以减少人力、物力及流程管理的成本,提高测试覆盖率。
背景技术
目前在服务器生产过程中,对于需要出厂的服务器都需要进行出厂测试,即服务器的整机烧机测试(runing test)。通常的测试都是在服务器上电后,运行一些特定程序,测试下一些功能模块是否正常,比如对CPU、内存等的特定测试程序,如果在测试过程中发现问题,无法继续完成测试程序(fail),就中断并退出测试程序。这种测试方法对一般比较常见的问题能够发现。但是对于那些不常见的问题,尤其是服务器稳定性方面的问题很难检测出来。且由于服务器产品一般都工作在非常复杂的环境中,比如高温、潮湿,恶略环境下,这就要求交付给用户的服务器产品必须满足比较高的稳定性,如果仍按照通常的那种异常检测方法,很可能会将工作状态不稳定产品交付客户,从而影响公司的信誉,甚至导致客户投诉乃至索赔。
针对上述问题,本申请发明了一种对服务器出厂时进行的整机烧机的检测方法,可以很好提高服务器产品出厂时进行的烧机测试覆率,从而有效地解决这些问题。
发明内容
本发明是为提高服务器产品烧机测试覆率所作的。首先,在待测试的服务器系统中运行一个守护进程,让其可以永远运行在服务器产品中,除非需要结束它;在守护进程中设置错误检查步骤,添加内存错误检查和纠正(Error Checking and Correcting,ECC)的定期异常检查;在守护进程中设置判断是否有异常产生步骤,如果守护进程有异常产生,将异常产生日志(log)写入到队列中;读取分析记录步骤,当测试结束后,读取服务器系统中的日志(log)数据,分析是否有异常产生;判断检测是否通过步骤,如果没有异常产生,则判断检测通过;否则为检测未通过。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的判断是否有异常产生步骤中,后面检查出的异常可以陆续写入日志。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加管理控制站(BMC)系统事件日志(SEL log)的定期异常检查,检查管理控制站系统事件日志(BMC)是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加主机总线适配器(Host Bus Adapter,HBA)的定期异常检查,检查主机总线适配器是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加硬盘的定期异常检查,检查硬盘是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加网卡的定期异常检查,检查网卡是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤,定期检查一般可以设置五分钟检查一次。
所述的服务器整机烧机的检测方法,其特征还在于,判断是否有异常产生步骤中,日志(log)可以分设不同的错误严重级别,根据错误种类分别写入。
附图说明
图1、服务器测试流程图
图2、本发明中守护进程的工作流程图
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明申请需要测试的服务器为一般情况下安装Linux操作系统中。在待测试的服务器系统中运行一个守护进程,让其可以永远运行在服务器产品中,除非需要手动结束运行它。
在守护进程中,可以设置对不同的设备或内存进行检查。在本发明中,对内存错误检查和纠正(Error Checking and Correcting,ECC),管理控制站(BMC)系统事件日志(SELlog),主机总线适配器(Host Bus Adapter,HBA),硬盘以及网卡都可以进行定期检查。
可以根据需要设置定期检查的时间,本发明中,定期优选的时间为5分钟。
假设测试8个小时,测试期间,守护进程一直运行不会停。当测试出异常后,守护进程会将异常信息写入log日志,根据异常的类型,和错误的严重情况,可以将日志进行分类,将不同的错误信息写入不同的日志中。后续发现异常后,异常信息仍会陆续写入到队列中。
对服务器进行烧机测试的时候只需要执行该守护进程即可。
守护进程的程序代码如下,守护进程可以用C++语言写,或其他语言。
Figure BDA0001180658570000021
Figure BDA0001180658570000031
当服务器烧机测试的时间结束后,可以检查日志,看是否存在错误报告,如果没有,则检测合格,如果检查到错误,可以进行后续的异常分析、故障排除等操作。
采用本发明这种对服务器出厂时进行的整机烧机的检测方法,可以很好提高服务器产品出厂时进行的烧机测试覆率,从而有效发现服务器存在的问题。

Claims (8)

1.一种服务器整机烧机的检测方法,其特征在于,该检测方法具体包括如下步骤:
运行守护进程步骤,在待测试的服务器系统中运行一个守护进程,让其可以永远运行在服务器产品中,除非需要结束它;
在守护进程中设置错误检查步骤,添加内存错误检查和纠正的定期异常检查;
在守护进程中设置判断是否有异常产生步骤,如果守护进程有异常产生,将异常产生日志写入到队列中;
读取分析记录步骤,当测试结束后,读取服务器系统中的日志数据,分析是否有异常产生;
判断检测是否通过步骤,如果没有异常产生,则判断检测通过;否则为检测未通过。
2.如权利要求1所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的判断是否有异常产生步骤中,后面检查出的异常陆续写入日志。
3.如权利要求2所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加管理控制站系统事件日志的定期异常检查,检查管理控制站系统事件日志是否发生异常。
4.如权利要求3所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加主机总线适配器的定期异常检查,检查主机总线适配器是否发生异常。
5.如权利要求4所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加硬盘的定期异常检查,检查硬盘是否发生异常。
6.如权利要求5所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加网卡的定期异常检查,检查网卡是否发生异常。
7.如权利要求6所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤,定期检查为设置五分钟检查一次。
8.如权利要求1所述的服务器整机烧机的检测方法,其特征还在于,判断是否有异常产生步骤中,日志分设不同的错误严重级别,根据错误种类分别写入。
CN201611156452.4A 2016-12-14 2016-12-14 一种服务器整机烧机的检测方法 Active CN106776219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611156452.4A CN106776219B (zh) 2016-12-14 2016-12-14 一种服务器整机烧机的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611156452.4A CN106776219B (zh) 2016-12-14 2016-12-14 一种服务器整机烧机的检测方法

Publications (2)

Publication Number Publication Date
CN106776219A CN106776219A (zh) 2017-05-31
CN106776219B true CN106776219B (zh) 2020-02-21

Family

ID=58888426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611156452.4A Active CN106776219B (zh) 2016-12-14 2016-12-14 一种服务器整机烧机的检测方法

Country Status (1)

Country Link
CN (1) CN106776219B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943657A (zh) * 2017-11-24 2018-04-20 郑州云海信息技术有限公司 一种Linux系统问题自动分析方法及系统
CN109032873A (zh) * 2018-08-15 2018-12-18 郑州云海信息技术有限公司 一种服务器出厂检测方法和装置
CN109213617A (zh) * 2018-09-25 2019-01-15 郑州云海信息技术有限公司 一种osd故障原因的确定方法、系统及相关组件
CN111831493A (zh) * 2019-04-23 2020-10-27 神讯电脑(昆山)有限公司 烧机实时检测方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194584A (ja) * 1998-12-28 2000-07-14 Hitachi Ltd 障害情報の収集・通知方法及び障害情報収集・通知プログラムを記録したコンピュ―タ読み取り可能な記録媒体
CN102331950A (zh) * 2011-09-15 2012-01-25 北京安天电子设备有限公司 基于Linux定时任务的守护进程实现方法和系统
CN103383689A (zh) * 2012-05-03 2013-11-06 阿里巴巴集团控股有限公司 一种服务进程故障检测方法、装置及服务节点
CN105045690A (zh) * 2015-07-10 2015-11-11 小米科技有限责任公司 测试终端的方法及装置
CN106201756A (zh) * 2016-07-12 2016-12-07 努比亚技术有限公司 日志获取装置、移动终端及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194584A (ja) * 1998-12-28 2000-07-14 Hitachi Ltd 障害情報の収集・通知方法及び障害情報収集・通知プログラムを記録したコンピュ―タ読み取り可能な記録媒体
CN102331950A (zh) * 2011-09-15 2012-01-25 北京安天电子设备有限公司 基于Linux定时任务的守护进程实现方法和系统
CN103383689A (zh) * 2012-05-03 2013-11-06 阿里巴巴集团控股有限公司 一种服务进程故障检测方法、装置及服务节点
CN105045690A (zh) * 2015-07-10 2015-11-11 小米科技有限责任公司 测试终端的方法及装置
CN106201756A (zh) * 2016-07-12 2016-12-07 努比亚技术有限公司 日志获取装置、移动终端及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高效进程收据机制的设计和实现;顾文杰 等;《江苏科技信息》;20141130(第22期);40-42页 *

Also Published As

Publication number Publication date
CN106776219A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
CN106776219B (zh) 一种服务器整机烧机的检测方法
US11681595B2 (en) Techniques and system for optimization driven by dynamic resilience
US10733077B2 (en) Techniques for monitoring errors and system performance using debug trace information
US9317349B2 (en) SAN vulnerability assessment tool
US8418005B2 (en) Methods, apparatus and articles of manufacture to diagnose temperature-induced memory errors
CN112732477B (zh) 一种带外自检故障隔离的方法
CN109388569B (zh) 远程检测客户端环境异常的方法、测试服务器及存储介质
US20120254662A1 (en) Automated test system and automated test method
CN107111595B (zh) 用于检测早期引导错误的方法、设备及系统
CN102541679A (zh) 一种用于测试gpu卡的方法和系统
WO2021056913A1 (zh) 基于i2c通讯的故障定位方法、装置及系统
CN105183597A (zh) 一种快速有效进行系统硬盘失效分析及修复的方法
CN115101116A (zh) 固态硬盘存储颗粒焊接异常检测方法、装置、设备及介质
EP3651022B1 (en) Tool verification system and method of verifying an unqualified component
CN107562565A (zh) 一种验证内存Patrol Scurb功能的方法
CN115757099A (zh) 平台固件保护恢复功能自动测试方法和装置
US20220188221A1 (en) Regression testing method and regression testing apparatus
CN111223516B (zh) Raid卡检测方法以及装置
CN111176978B (zh) 验证不合格部件的工具验证系统和方法
US10684908B2 (en) Method for fault detection in an operating system
CN113094221B (zh) 故障注入方法、装置、计算机设备以及可读存储介质
CN111324543B (zh) 一种基于Dual BIOS中IE信息测试的方法及装置
TW202129499A (zh) 伺服器系統的測試自檢方法
US20100318854A1 (en) System and method for checking firmware definition file

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant