CN108958995A - 一种整机柜服务器稳定性测试的方法及系统 - Google Patents

一种整机柜服务器稳定性测试的方法及系统 Download PDF

Info

Publication number
CN108958995A
CN108958995A CN201810487455.9A CN201810487455A CN108958995A CN 108958995 A CN108958995 A CN 108958995A CN 201810487455 A CN201810487455 A CN 201810487455A CN 108958995 A CN108958995 A CN 108958995A
Authority
CN
China
Prior art keywords
test
node
gpubox
booting
control node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810487455.9A
Other languages
English (en)
Inventor
韩超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810487455.9A priority Critical patent/CN108958995A/zh
Publication of CN108958995A publication Critical patent/CN108958995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种整机柜服务器稳定性测试的方法及系统,方法包括S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1‑S3的操作,至执行到设定测试次数结束。本发明的测试过程无需人为参与,提高测试效率且避免出现开关机顺序颠倒的情况。

Description

一种整机柜服务器稳定性测试的方法及系统
技术领域
本发明涉及整机柜服务器测试技术领域,具体地说是一种整机柜服务器稳定性测试的方法及系统。
背景技术
为满足客户提出的高性能计算服务器的需求,全新架构的计算型服务器—PCIE-SWITCH(PCIE,peripheral component interconnect express,一种高速串行计算机扩展总线标准;SWITCH,转换)应运而生,该服务器将GPU(Graphics Processing Uni,图形处理器)池化在一个GPUBOX中,通过PCIE retimer卡和minisashd高速线缆外接多台server使用。
此时GPUBOX相当于server端的PCIE设备,在对搭配后的PCIE-SWITCH进行稳定性测试时,GPUBOX需要与server联合测试。
为了保证产品质量,在产品开发过程中,服务器的稳定性测试极其重要。现有的稳定性测试过程需要进行1000次,累计时间需要5天,且完全由人工完成整机柜的顺序DC和reboot,十分浪费人力资源,且容易造成开关机顺序颠倒。
发明内容
本发明的目的在于提供一种整机柜服务器稳定性测试的方法及系统,用于解决现有整机柜服务器稳定性测试中,人工测试花费时间长且容易出错的问题。
本发明解决其技术问题所采用的技术方案是:一种整机柜服务器稳定性测试的方法,包括以下步骤:
S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;
S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;
S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;
S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1-S3的操作,至执行到设定测试次数结束。进一步地,所述测试信息包括测试项、测试节点数量、测试节点配置的GPU数量、开关机等待时间、测试节点的IP、GPUBOX的IP,所述测试项为重启测试或关机测试。
进一步地,所述GPUBOX和测试节点顺序开机的具体过程为:
GPUBOX开机,通过BMC获取GPU的状态信息,并记录开机时间及开机次数,将GPUBOX开机完成信号发送给控制节点;
控制节点获取到GPUBOX开机完成的信号后,向测试节点发送开机命令;
测试节点执行开机命令,且GPUBOX根据测试信息,为测试节点配置GPU数量,测试节点向控制节点发送开机完成信号;
控制节点接收到的测试节点的开机完成信号,同时通过BMC调用测试节点信息获取测试节点开机状态,判断测试节点的开机状况。
进一步地,控制节点对测试节点开机状况的判断过程为:
获取测试节点的开机完成信号,并查看接收到测试节点开机完成信号的信号数量是否与测试信息中设置的测试节点数量一致;
若不一致,按照所述开机等待时间进行等待;
若一致,通过BMC调用测试节点信息,获取测试节点开机状态;
在BMC返回状态为开机状态时,判定测试节点开机完成。
进一步地,若开机等待时间终止后,仍未完成开机操作,则结束测试。进一步地,步骤S3中所述在测试节点关机完成后,控制节点清除所有的开机完成信号。
本发明实施例还公开了一种整机柜服务器稳定性测试的系统,所述系统包括控制节点、测试节点和GPUBOX,所述控制节点用于设置包括测试项在内的相关测试信息,所述测试节点用于执行控制节点发送的开关机命令,并将开关机信号发送给控制节点,所述GPUBOX用于根据控制节点的测试信息,为测试节点分配GPU数量,并将GPUBOX的开关机信号发送给控制节点。
进一步地,所述测试节点和GPUBOX在开机时,分别记录各自的开机时间及开机次数。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、通过搭建测试节点、控制节点和GPUBOX端的测试环境,并通过调用各部分的测试脚本,自动进行整机柜测试节点及GPUBOX的顺序DC及reboot测试,无需人为参与测试过程,提高测试效率,且测试过程中自动进行顺序DC及reboot,避免人为操作中颠倒开关机顺序的情况,保证测试结果的准确性。
2、控制节点将测试节点数量设置为变量,在测试开始前,可灵活的选择测试节点的数量,便于对部分测试节点进行针对性测试。
3、测试过程中,一旦发生开关机失败的现象,直接停止测试,工作人员通过查看控制端接收到的开关机信号,对故障进行及时的修复,保证出厂产品的质量。
4、控制节点通过获取的测试节点发送的开机信号以及BMC检测到的测试节点开机状态双重条件,来判断测试节点是否开机完成,确保测试节点完成了正常开机,保证测试过程的顺利进行和测试结果的准确性。
附图说明
图1是本发明的方法流程图;
图2是本发明测试方法的应用场景图;
图3是本发明控制节点对测试过程的控制流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明的一种整机柜服务器稳定性测试的方法,包括以下步骤:
S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;
S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;
S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;
S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1-S3的操作,至执行到设定测试次数结束。
在执行步骤S1之前,还包括测试环境的搭建,搭建测试环境的过程为:为整机柜配置控制节点,设置控制节点与整机柜测试节点的IP在同一网段,并设置测试节点与控制节点间的无密码访问权限;将相应测试脚本分别拷贝至测试节点、控制节点和GPUBOX系统内。
控制节点设置的测试信息包括测试项、测试节点数量、测试节点配置的GPU数量、开关机等待时间、测试节点的IP、GPUBOX的IP;其中测试项为DC(关机测试)或reboot(重启)测试。
如图2所示,控制节点对整个测试过程进行控制,分别向GPUBOX和测试节点发送测试信息和开关机信号,GPUBOX和测试节点发送配置信息将开机完成信号发送给控制节点。GPUBOX根据控制节点的设置测试信息为测试节点分配CPU。
步骤S1中,在测试节点完成开机之前需要GPUBOX已完成开机,GPUBOX的开机测试过程为:
S11,GPUBOX执行控制节点发送的开机命令并开机;
S12,GPUBOX操作系统通过BMC获取GPU的状态信息,并记录开机时间及开机次数,将GPUBOX开机完成信号发送给控制节点;
对测试节点进行DC测试的具体过程为:
S13,测试节点执行控制节点发送的开机命令,并开机;
S14,测试节点抓取设备的总线ID,获取本节点分配的GPU数量及带宽,记录开机时间及开机次数,登录控制节点,并将开机完成信号发送给控制节点;
S14,测试节点执行关机命令。
步骤S3中,GPUBOX进行测试的具体过程为,
S31,GPUBOX判断是否进行DC测试;
S32,若是,GPUBOX关机,并向控制节点发送关机完成信号,关机完成后GPUBOX开机,并向控制节点发送开机完成信号;
S33,若否,GPUBOX重启,并向控制节点发送开机完成信号。步骤S4中获取的测试数据包括测试节点记录的开机时间、开机次数以及开机的测试节点数,控制节点获取测试节点端的测试数据后,对测试前设置的测试信息进行对比,判断是否与设定测试信息相符合,若符合,则继续进行测试,否则结束测试,工作人员进行故障排查。测试数据还包括GPUBOX端记录的开机时间、开机次数以及通过BMC获取的GPU温度,电压信息,控制节点检测相应的测试数据是否符合稳定性条件,若符合,则继续进行测试,否则结束测试,工作人员进行故障排查。
控制节点对测试节点开机状况的判断过程为:获取测试节点的开机完成信号,并查看接收到测试节点开机完成信号的信号数量是否与测试信息中设置的测试节点数量一致;若不一致,按照所述开机等待时间进行等待;若一致,通过BMC调用测试节点信息,获取测试节点开机状态;在BMC返回状态为开机状态时,判定测试节点开机完成。
如图3所示,从控制节点的角度,控制节点对根据获取的测试数据,控制测试过程并记录测试结果的具体过程为:
S41,获取所有测试节点及GPU的开机状态;
S42,在所有测试节点和GPU开机完成后,关闭所有测试节点;
S43,发送GPUBOX的DC测试命令或reboot测试命令;
S44,若是DC测试命令,则发送GPUBOX关机命令,清除收到的GPUBOX开机信号,在GPUBOX关机完成后,发送GPUBOX的开机命令;
S45,若是reboot测试,则发送GPUBOX重启命令,清除收到的GPUBOX开机信号;
S46,控制节点接收到GPUBOX开机完成信号后,发送多节点的开机命令,转到步骤S42,重复进行测试并记录测试节点和GPUBOX发送的测试结果。
其中步骤S42还包括:
S421,判断收到的开机信号的数量与设置的测试节点数量是否相同;
S422,若否,则按照设定的等待时间,等待测试节点开机;
S423,若是,则关闭测试节点,并判断测试节点是否关机完成;
S424,若否,则按照设定的等待时间,等待测试节点关机;
S425,若是,则转到步骤S43。
步骤S421中,控制节点对测试节点开机完成的判断还通过BMC读取的测试节点的开机状态来判定,只有同时接收到测试节点发送的开机信号并获取到BMC的开机状态后,才判定测试节点开机完成,保证后续GPUBOX的DC或reboot测试的顺利进行。
步骤S422和S424中,若等待时间终止后,仍未完成相应的开机或关机操作,则结束测试。本发明实施例中设置的等待时间为5s。
本发明还公开了一种测试整机柜服务器稳定性测试的系统,该系统包括控制节点、测试节点和GPUBOX,控制节点用于设置包括测试项在内的相关测试信息,测试节点用于执行控制节点发送的开关机命令,并将开关机信号发送给控制节点,GPUBOX用于根据控制节点的测试信息,为测试节点分配GPU数量,并将GPUBOX的开关机信号发送给控制节点。
测试节点和GPUBOX在开机时,分别记录各自的开机时间及开机次数,控制节点获取测试过程中测试节点和GPUBOX记录的测试数据,并将测试数据与设置的测试信息以及系统稳定性指标进行比对,得到整机柜服务器的稳定性测试结果。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (8)

1.一种整机柜服务器稳定性测试的方法,其特征是:包括以下步骤:
S1,控制节点发送开机命令,对GPUBOX和测试节点顺序开机;
S2,获取到测试节点开机成功的信息后,控制节点发送测试节点关机命令;
S3,在测试节点关机完成后,控制节点获取测试信息,对GPUBOX发送重启或关机命令,若为关机命令,在GPUBOX关机完成后,控制节点对GPUIBOX发送开机命令;
S4,在GPUBOX完成开机后,控制节点发送测试节点的开机命令,并判断测试节点的开机完成情况,重复进行步骤S1-S3的操作,至执行到设定测试次数结束。
2.根据权利要求1所述的一种整机柜服务器稳定性测试的方法,其特征是:所述测试信息包括测试项、测试节点数量、测试节点配置的GPU数量、开关机等待时间、测试节点的IP、GPUBOX的IP,所述测试项为重启测试或关机测试。
3.根据权利要求2所述的一种整机柜服务器稳定性测试的方法,其特征是:所述GPUBOX和测试节点顺序开机的具体过程为:
GPUBOX开机,通过BMC获取GPU的状态信息,并记录开机时间及开机次数,将GPUBOX开机完成信号发送给控制节点;
控制节点获取到GPUBOX开机完成的信号后,向测试节点发送开机命令;
测试节点执行开机命令,且GPUBOX根据测试信息,为测试节点配置GPU数量,测试节点向控制节点发送开机完成信号;
控制节点接收到的测试节点的开机完成信号,同时通过BMC调用测试节点信息获取测试节点开机状态,判断测试节点的开机状况。
4.根据权利要求3所述的一种整机柜服务器稳定性测试的方法,其特征是:控制节点对测试节点开机状况的判断过程为:
获取测试节点的开机完成信号,并查看接收到测试节点开机完成信号的信号数量是否与测试信息中设置的测试节点数量一致;
若不一致,按照所述开机等待时间进行等待;
若一致,通过BMC调用测试节点信息,获取测试节点开机状态;
在BMC返回状态为开机状态时,判定测试节点开机完成。
5.根据权利要求4所述的一种整机柜服务器稳定性测试的方法,其特征是:若开机等待时间终止后,仍未完成开机操作,则结束测试。
6.根据权利要求1所述的一种整机柜服务器稳定性测试的方法,其特征是:步骤S3中所述在测试节点关机完成后,控制节点清除所有的开机完成信号。
7.一种整机柜服务器稳定性测试的系统,其特征是:所述系统包括控制节点、测试节点和GPUBOX,所述控制节点用于设置包括测试项在内的相关测试信息,所述测试节点用于执行控制节点发送的开关机命令,并将开关机信号发送给控制节点,所述GPUBOX用于根据控制节点的测试信息,为测试节点分配GPU数量,并将GPUBOX的开关机信号发送给控制节点。
8.根据权利要求7所述的一种整机柜服务器稳定性测试的系统,其特征是:所述测试节点和GPUBOX在开机时,分别记录各自的开机时间及开机次数。
CN201810487455.9A 2018-05-21 2018-05-21 一种整机柜服务器稳定性测试的方法及系统 Pending CN108958995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810487455.9A CN108958995A (zh) 2018-05-21 2018-05-21 一种整机柜服务器稳定性测试的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810487455.9A CN108958995A (zh) 2018-05-21 2018-05-21 一种整机柜服务器稳定性测试的方法及系统

Publications (1)

Publication Number Publication Date
CN108958995A true CN108958995A (zh) 2018-12-07

Family

ID=64499307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810487455.9A Pending CN108958995A (zh) 2018-05-21 2018-05-21 一种整机柜服务器稳定性测试的方法及系统

Country Status (1)

Country Link
CN (1) CN108958995A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782448A (zh) * 2020-07-01 2020-10-16 长沙景嘉微电子股份有限公司 芯片自检测方法、装置、芯片、显示系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136081A (zh) * 2011-12-05 2013-06-05 鸿富锦精密工业(深圳)有限公司 数据中心服务器稳定性测试装置及测试方法
CN104932618A (zh) * 2015-06-16 2015-09-23 浪潮电子信息产业股份有限公司 一种gpu服务器设备
CN105912431A (zh) * 2016-04-01 2016-08-31 浪潮电子信息产业股份有限公司 服务器reboot测试方法、服务器、控制器和系统
US20170060707A1 (en) * 2015-08-25 2017-03-02 International Business Machines Corporation High availability dynamic restart priority calculator
CN106789216A (zh) * 2016-12-12 2017-05-31 郑州云海信息技术有限公司 一种检测方法、装置及系统
CN107612775A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种节点二级连服务器的dc测试方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136081A (zh) * 2011-12-05 2013-06-05 鸿富锦精密工业(深圳)有限公司 数据中心服务器稳定性测试装置及测试方法
CN104932618A (zh) * 2015-06-16 2015-09-23 浪潮电子信息产业股份有限公司 一种gpu服务器设备
US20170060707A1 (en) * 2015-08-25 2017-03-02 International Business Machines Corporation High availability dynamic restart priority calculator
CN105912431A (zh) * 2016-04-01 2016-08-31 浪潮电子信息产业股份有限公司 服务器reboot测试方法、服务器、控制器和系统
CN106789216A (zh) * 2016-12-12 2017-05-31 郑州云海信息技术有限公司 一种检测方法、装置及系统
CN107612775A (zh) * 2017-09-19 2018-01-19 郑州云海信息技术有限公司 一种节点二级连服务器的dc测试方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛为民: "《网络系统管理与维护》", 31 August 2007, 中央广播电视大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782448A (zh) * 2020-07-01 2020-10-16 长沙景嘉微电子股份有限公司 芯片自检测方法、装置、芯片、显示系统及存储介质

Similar Documents

Publication Publication Date Title
US9798624B2 (en) Automated fault recovery
US9026858B2 (en) Testing server, information processing system, and testing method
CN106293979B (zh) 检测进程无响应的方法和装置
US8910172B2 (en) Application resource switchover systems and methods
CN107612775A (zh) 一种节点二级连服务器的dc测试方法与系统
US20150095619A1 (en) Request change tracker
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN104391777B (zh) 基于Linux操作系统的云平台及其运行监控方法和装置
US8739151B1 (en) Computer system using in-service software upgrade
US10880153B2 (en) Method and system for providing service redundancy between a master server and a slave server
US11288164B2 (en) Dynamic distributed tracing instrumentation in a microservice architecture
US9798625B2 (en) Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation
CN109144701A (zh) 一种任务流管理方法、装置、设备及系统
CN112073263B (zh) 白盒交换机可靠性测试监测方法、系统、设备及介质
CN107783844A (zh) 一种计算机程序运行异常检测方法、装置和介质
CN111858201A (zh) 一种bmc综合测试方法、系统、终端及存储介质
US10963371B1 (en) Testing integration and automation system
CN111431749A (zh) 一种fpga云服务器管理平台及其使用方法
US11544148B2 (en) Preserving error context during a reboot of a computing device
CN108958995A (zh) 一种整机柜服务器稳定性测试的方法及系统
CN105468488B (zh) 一种基于ib网络的无盘测试cpu的方法、装置及系统
CN109582519A (zh) 一种服务器GPU设备powercycle稳定性测试方法
CN102664755A (zh) 控制通道故障确定方法及其装置
CN105183598A (zh) 一种云计算生态系统中服务器整机的可靠性测试方法
CN109144788B (zh) 一种重建osd的方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207