CN106776219B - 一种服务器整机烧机的检测方法 - Google Patents
一种服务器整机烧机的检测方法 Download PDFInfo
- Publication number
- CN106776219B CN106776219B CN201611156452.4A CN201611156452A CN106776219B CN 106776219 B CN106776219 B CN 106776219B CN 201611156452 A CN201611156452 A CN 201611156452A CN 106776219 B CN106776219 B CN 106776219B
- Authority
- CN
- China
- Prior art keywords
- server
- daemon process
- check
- complete machine
- checking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 230000005856 abnormality Effects 0.000 claims description 9
- 230000000737 periodic effect Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000008030 elimination Effects 0.000 abstract description 2
- 238000003379 elimination reaction Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1044—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices with specific ECC/EDC distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请发明一种服务器整机烧机的检测方法,在待测试的服务器系统中运行一个守护进程,在守护进程中,可以设置对不同的设备或内存进行检查。当测试出异常后,守护进程会将不同的错误信息写入不同的日志中。当服务器烧机测试的时间结束后,可以检查日志,看是否存在错误报告,如果没有,则检测合格,如果检查到错误,可以进行后续的异常分析、故障排除等操作。通过该方法对服务器产品进行出厂测试,能够有效检测服务器存在的异常状况,可以减少人力、物力及流程管理的成本,提高测试覆盖率。
Description
技术领域
本发明涉及计算机软件开发领域,具体涉及一种服务器整机烧机的检测方法,通过该方法对服务器产品进行出厂测试,能够有效检测服务器存在的异常状况,可以减少人力、物力及流程管理的成本,提高测试覆盖率。
背景技术
目前在服务器生产过程中,对于需要出厂的服务器都需要进行出厂测试,即服务器的整机烧机测试(runing test)。通常的测试都是在服务器上电后,运行一些特定程序,测试下一些功能模块是否正常,比如对CPU、内存等的特定测试程序,如果在测试过程中发现问题,无法继续完成测试程序(fail),就中断并退出测试程序。这种测试方法对一般比较常见的问题能够发现。但是对于那些不常见的问题,尤其是服务器稳定性方面的问题很难检测出来。且由于服务器产品一般都工作在非常复杂的环境中,比如高温、潮湿,恶略环境下,这就要求交付给用户的服务器产品必须满足比较高的稳定性,如果仍按照通常的那种异常检测方法,很可能会将工作状态不稳定产品交付客户,从而影响公司的信誉,甚至导致客户投诉乃至索赔。
针对上述问题,本申请发明了一种对服务器出厂时进行的整机烧机的检测方法,可以很好提高服务器产品出厂时进行的烧机测试覆率,从而有效地解决这些问题。
发明内容
本发明是为提高服务器产品烧机测试覆率所作的。首先,在待测试的服务器系统中运行一个守护进程,让其可以永远运行在服务器产品中,除非需要结束它;在守护进程中设置错误检查步骤,添加内存错误检查和纠正(Error Checking and Correcting,ECC)的定期异常检查;在守护进程中设置判断是否有异常产生步骤,如果守护进程有异常产生,将异常产生日志(log)写入到队列中;读取分析记录步骤,当测试结束后,读取服务器系统中的日志(log)数据,分析是否有异常产生;判断检测是否通过步骤,如果没有异常产生,则判断检测通过;否则为检测未通过。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的判断是否有异常产生步骤中,后面检查出的异常可以陆续写入日志。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加管理控制站(BMC)系统事件日志(SEL log)的定期异常检查,检查管理控制站系统事件日志(BMC)是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加主机总线适配器(Host Bus Adapter,HBA)的定期异常检查,检查主机总线适配器是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加硬盘的定期异常检查,检查硬盘是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还可以添加网卡的定期异常检查,检查网卡是否发生异常。
所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤,定期检查一般可以设置五分钟检查一次。
所述的服务器整机烧机的检测方法,其特征还在于,判断是否有异常产生步骤中,日志(log)可以分设不同的错误严重级别,根据错误种类分别写入。
附图说明
图1、服务器测试流程图
图2、本发明中守护进程的工作流程图
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明申请需要测试的服务器为一般情况下安装Linux操作系统中。在待测试的服务器系统中运行一个守护进程,让其可以永远运行在服务器产品中,除非需要手动结束运行它。
在守护进程中,可以设置对不同的设备或内存进行检查。在本发明中,对内存错误检查和纠正(Error Checking and Correcting,ECC),管理控制站(BMC)系统事件日志(SELlog),主机总线适配器(Host Bus Adapter,HBA),硬盘以及网卡都可以进行定期检查。
可以根据需要设置定期检查的时间,本发明中,定期优选的时间为5分钟。
假设测试8个小时,测试期间,守护进程一直运行不会停。当测试出异常后,守护进程会将异常信息写入log日志,根据异常的类型,和错误的严重情况,可以将日志进行分类,将不同的错误信息写入不同的日志中。后续发现异常后,异常信息仍会陆续写入到队列中。
对服务器进行烧机测试的时候只需要执行该守护进程即可。
守护进程的程序代码如下,守护进程可以用C++语言写,或其他语言。
当服务器烧机测试的时间结束后,可以检查日志,看是否存在错误报告,如果没有,则检测合格,如果检查到错误,可以进行后续的异常分析、故障排除等操作。
采用本发明这种对服务器出厂时进行的整机烧机的检测方法,可以很好提高服务器产品出厂时进行的烧机测试覆率,从而有效发现服务器存在的问题。
Claims (8)
1.一种服务器整机烧机的检测方法,其特征在于,该检测方法具体包括如下步骤:
运行守护进程步骤,在待测试的服务器系统中运行一个守护进程,让其可以永远运行在服务器产品中,除非需要结束它;
在守护进程中设置错误检查步骤,添加内存错误检查和纠正的定期异常检查;
在守护进程中设置判断是否有异常产生步骤,如果守护进程有异常产生,将异常产生日志写入到队列中;
读取分析记录步骤,当测试结束后,读取服务器系统中的日志数据,分析是否有异常产生;
判断检测是否通过步骤,如果没有异常产生,则判断检测通过;否则为检测未通过。
2.如权利要求1所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的判断是否有异常产生步骤中,后面检查出的异常陆续写入日志。
3.如权利要求2所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加管理控制站系统事件日志的定期异常检查,检查管理控制站系统事件日志是否发生异常。
4.如权利要求3所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加主机总线适配器的定期异常检查,检查主机总线适配器是否发生异常。
5.如权利要求4所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加硬盘的定期异常检查,检查硬盘是否发生异常。
6.如权利要求5所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤中,还包括添加网卡的定期异常检查,检查网卡是否发生异常。
7.如权利要求6所述的服务器整机烧机的检测方法,其特征还在于,在守护进程中的错误检查步骤,定期检查为设置五分钟检查一次。
8.如权利要求1所述的服务器整机烧机的检测方法,其特征还在于,判断是否有异常产生步骤中,日志分设不同的错误严重级别,根据错误种类分别写入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611156452.4A CN106776219B (zh) | 2016-12-14 | 2016-12-14 | 一种服务器整机烧机的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611156452.4A CN106776219B (zh) | 2016-12-14 | 2016-12-14 | 一种服务器整机烧机的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106776219A CN106776219A (zh) | 2017-05-31 |
CN106776219B true CN106776219B (zh) | 2020-02-21 |
Family
ID=58888426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611156452.4A Active CN106776219B (zh) | 2016-12-14 | 2016-12-14 | 一种服务器整机烧机的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776219B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943657A (zh) * | 2017-11-24 | 2018-04-20 | 郑州云海信息技术有限公司 | 一种Linux系统问题自动分析方法及系统 |
CN109032873A (zh) * | 2018-08-15 | 2018-12-18 | 郑州云海信息技术有限公司 | 一种服务器出厂检测方法和装置 |
CN109213617A (zh) * | 2018-09-25 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种osd故障原因的确定方法、系统及相关组件 |
CN111831493A (zh) * | 2019-04-23 | 2020-10-27 | 神讯电脑(昆山)有限公司 | 烧机实时检测方法及其系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194584A (ja) * | 1998-12-28 | 2000-07-14 | Hitachi Ltd | 障害情報の収集・通知方法及び障害情報収集・通知プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
CN102331950A (zh) * | 2011-09-15 | 2012-01-25 | 北京安天电子设备有限公司 | 基于Linux定时任务的守护进程实现方法和系统 |
CN103383689A (zh) * | 2012-05-03 | 2013-11-06 | 阿里巴巴集团控股有限公司 | 一种服务进程故障检测方法、装置及服务节点 |
CN105045690A (zh) * | 2015-07-10 | 2015-11-11 | 小米科技有限责任公司 | 测试终端的方法及装置 |
CN106201756A (zh) * | 2016-07-12 | 2016-12-07 | 努比亚技术有限公司 | 日志获取装置、移动终端及方法 |
-
2016
- 2016-12-14 CN CN201611156452.4A patent/CN106776219B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194584A (ja) * | 1998-12-28 | 2000-07-14 | Hitachi Ltd | 障害情報の収集・通知方法及び障害情報収集・通知プログラムを記録したコンピュ―タ読み取り可能な記録媒体 |
CN102331950A (zh) * | 2011-09-15 | 2012-01-25 | 北京安天电子设备有限公司 | 基于Linux定时任务的守护进程实现方法和系统 |
CN103383689A (zh) * | 2012-05-03 | 2013-11-06 | 阿里巴巴集团控股有限公司 | 一种服务进程故障检测方法、装置及服务节点 |
CN105045690A (zh) * | 2015-07-10 | 2015-11-11 | 小米科技有限责任公司 | 测试终端的方法及装置 |
CN106201756A (zh) * | 2016-07-12 | 2016-12-07 | 努比亚技术有限公司 | 日志获取装置、移动终端及方法 |
Non-Patent Citations (1)
Title |
---|
高效进程收据机制的设计和实现;顾文杰 等;《江苏科技信息》;20141130(第22期);40-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106776219A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9720758B2 (en) | Diagnostic analysis tool for disk storage engineering and technical support | |
CN106776219B (zh) | 一种服务器整机烧机的检测方法 | |
US11681595B2 (en) | Techniques and system for optimization driven by dynamic resilience | |
US10733077B2 (en) | Techniques for monitoring errors and system performance using debug trace information | |
US9317349B2 (en) | SAN vulnerability assessment tool | |
US8418005B2 (en) | Methods, apparatus and articles of manufacture to diagnose temperature-induced memory errors | |
CN112732477B (zh) | 一种带外自检故障隔离的方法 | |
CN109388569B (zh) | 远程检测客户端环境异常的方法、测试服务器及存储介质 | |
US20120254662A1 (en) | Automated test system and automated test method | |
CN107111595B (zh) | 用于检测早期引导错误的方法、设备及系统 | |
CN102541679A (zh) | 一种用于测试gpu卡的方法和系统 | |
WO2021056913A1 (zh) | 基于i2c通讯的故障定位方法、装置及系统 | |
CN105183597A (zh) | 一种快速有效进行系统硬盘失效分析及修复的方法 | |
CN115101116A (zh) | 固态硬盘存储颗粒焊接异常检测方法、装置、设备及介质 | |
EP3651022B1 (en) | Tool verification system and method of verifying an unqualified component | |
CN107562565A (zh) | 一种验证内存Patrol Scurb功能的方法 | |
CN115757099A (zh) | 平台固件保护恢复功能自动测试方法和装置 | |
US20220188221A1 (en) | Regression testing method and regression testing apparatus | |
CN111223516B (zh) | Raid卡检测方法以及装置 | |
CN111176978B (zh) | 验证不合格部件的工具验证系统和方法 | |
US10684908B2 (en) | Method for fault detection in an operating system | |
CN113094221B (zh) | 故障注入方法、装置、计算机设备以及可读存储介质 | |
CN111324543B (zh) | 一种基于Dual BIOS中IE信息测试的方法及装置 | |
TW202129499A (zh) | 伺服器系統的測試自檢方法 | |
US20100318854A1 (en) | System and method for checking firmware definition file |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |