CN105260286A - 一种实时监控cpu工作状态的方法 - Google Patents

一种实时监控cpu工作状态的方法 Download PDF

Info

Publication number
CN105260286A
CN105260286A CN201510715445.2A CN201510715445A CN105260286A CN 105260286 A CN105260286 A CN 105260286A CN 201510715445 A CN201510715445 A CN 201510715445A CN 105260286 A CN105260286 A CN 105260286A
Authority
CN
China
Prior art keywords
cpu
frequency
real
time monitoring
duty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510715445.2A
Other languages
English (en)
Inventor
史沛玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510715445.2A priority Critical patent/CN105260286A/zh
Publication of CN105260286A publication Critical patent/CN105260286A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种实时监控CPU工作状态的方法,其具体实现过程为:通过shell编程工具,对节点CPU数量、CPU工作频率进行检测,配合集群工具来自动化执行,测试结果进行自动保存并自动处理。该一种实时监控CPU工作状态的方法与现有技术相比,节省大量的人力、时间、成本等多方面的资源,也减少了不必要的人工交互过程,从而大大提高了测试效率,并保证产品的稳定性,因而,具有很好的推广使用价值。

Description

一种实时监控CPU工作状态的方法
技术领域
  本发明涉及计算机技术领域,具体地说是一种实用性强、实时监控CPU工作状态的方法。
背景技术
随着IT领域技术的不断发展,传统信息化服务以及日趋强大的云计算服务对服务器的稳定性要求越来越高。作为服务器产品提供商,一款服务器无论是在研发阶段还是生产阶段都需要对产品进行系统可靠性测试,从而严格保证该产品的稳定性。
众所周知,Rack(机架式机柜)是一款集管理、供电、散热、服务为一体的的高密度、高可用的整机柜解决方案,其当前全新的DMI/FRU产品名称、资产号、序列号等信息的同步设计,以及小空间大存储容量的无raid存储设计,可以说是整机柜稳定性的薄弱环节,但是,在客户应用中,客户对CPU的计算非常重视,如果CPU出现降频,会导致客户应用响应变慢,甚至宕机,给客户带来不可估量的损失。所以这让我们不得不重视这些发挥重要角色而可靠性薄弱环节的稳定性。
对于Rack(机架式机柜)这种整机柜产品,其稳定性必须要经过重点测试验证。但是,由于Rack服务器节点较多以及传统的测试需要大量的人力投入,这对测试工程师都有不小的挑战,如何能自动化测试rack稳定性成为本领域的技术人员迫切需要解决的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、实时监控CPU工作状态的方法。
一种实时监控CPU工作状态的方法,其具体实现过程为:通过shell编程工具,对节点CPU数量、CPU工作频率进行检测,配合集群工具来自动化执行,测试结果进行自动保存并自动处理。
其具体实现步骤为:
首先设定测试参数;
抓取CPU工作频率;
然后对CPU工作频率进行比较;
在一定时间周期内实时监控CPU状态;
在整机柜集群监控CPU状态,即在整机柜的所有节点上运行CPU状态监控;
最后将所有测试结果进行收集,查看所有节点CPU的工作状态。
所述测试参数设定过程为:首先根据被测机型所使用的CPU的说明书,来设置CPU正常的CPU工作范围,作为判断CPU在系统中运行是否正常的依据,即整机高负载下,设置CPU正常工作范围,超出该范围的其他频率视为fail。
所述CPU工作频率的抓取过程为:安装intelPTU工具,通过PTU工具抓取CPU当前的信息,然后通过检索、筛选,获取CPU当前的工作频率。
所述对CPU工作频率进行比较的具体过程为:比较当前CPU工作频率和设定的工作频率,如果当前工作频率在设定的范围内,表示CPU工作正常,如果当前CPU工作频率不在设定范围内,表示CPU工作不正常。
本发明的一种实时监控CPU工作状态的方法,具有以下优点:
本发明的一种实时监控CPU工作状态的方法,通过shell语言编程,可以实现对CPU进行无人交互的自动化执行,高效并且不断的进行CPU频率信息的比较和判断,达到稳定性测试的效果;节省大量的人力、时间、成本等多方面的资源,也减少了不必要的人工交互过程,从而大大提高了测试效率,并保证产品的稳定性,实用性强,易于推广。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提供一种实时监控CPU工作状态的方法,其具体实现过程为:通过shell编程工具,对节点CPU数量、CPU工作频率进行检测,配合集群工具来自动化执行,测试结果进行自动保存并自动处理。
更为具体的,其实现步骤为:
测试参数设定:脚本中首先根据被测机型所使用的CPU的spec,来设置CPU正常的CPU工作范围,作为判断CPU在系统中运行是否正常的依据。比如,整机高负载下,该CPU正常工作频率1.5GHz,超频工作频率为2.0GHz,我们可设置其正常工作范围为1.5-2.0,其他频率视为fail;代码如下($1/$2为外部环境变量,可按照不同CPUspec高易用性设定):
cpumax=$1
cpumin=$2
log="/root/ptulog.txt"
dir=`pwd`。
抓取CPU工作频率:安装intelPTU工具,通过PTU工具抓取CPU当前的信息,然后通过检索、筛选,获取CPU当前的工作频率;代码如下:
curfrq=`catab.txt|grep"CPU:0CORE:0"|awk'{print$5}'|awk-F':''{print$2}'`
/root/ptumon-t1>ab.txt
echo$curfrq
times=`cat$log|greptime|wc-l`。
对CPU工作频率进行比较:通过脚本比较当前CPU工作频率和设定的工作频率,如果当前工作频率在设定的范围内,表示CPU工作正常,如果当前CPU工作频率不在设定范围内,表示CPU工作不正常,需要去研发人员去分析、解决;代码如下:
echo"$curfrq-$cpumin"|bc|grep'-'
if[$?-eq0]
then
echo"TheCPUfrequencyiserror!">>fail.txt
echo"time:`date`">>$log
catab.txt>>$log
exit0
else
echo"time:`date`">>$log
catab.txt>>$log
echo"TheCPUfrequencyisright!">>success.txt
echo"time:`date`">>$log
catab.txt>>$log
exit0
sleep50
fi。
长时间实时监控CPU状态:以上步骤完成了单次CPU工作状态的判定,我们把以上代码作为一个子函数,命名为checkfre,通过在主程序上不断的调用子函数checkfre便可以不断的监控CPU的工作状态,此程式不会给系统带来任何负载,仅做监控,与linux中top、iostat相似,可参考设为死循环,使用ctrl+c来停掉监控;以监控时间间隔3s为例,代码如下:
time=$3
if[$?-eq0];then
checkfre($1$2)
sleep$time
fi。
整机柜集群监控CPU状态:以上作为单节点运行的完整脚本,命名为CPUtest.sh,将此脚本copy到所有节点,然后批量执行;以集群40节点为例,代码添加如下:
foriin{1..40}
do
sshnode$i“./CPUtest.shcpu正常频率cpu超频频率检测时间间隔”
done。
收集测试结果:收集测试结果,查看所记录的log有没有fail的日志,CPU信息是否有变化。收集所有节点log信息,把步骤1-4执行的结果全部重定向到stability.log文件中,此指令可作为stabilitytest组成部分,然后检索其中的fail项;检索测试结果,代码如下:
foriin{1..40}
do
sshnode$i“catfail.txt”
done>>allfail.txt
catallfail.txt |grep error。
如果没有errorlog信息,说明CPU工作正常,无降频情况。
如果有errorlog,请收集相应节点的log信息。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种实时监控CPU工作状态的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (5)

1.一种实时监控CPU工作状态的方法,其特征在于,其具体实现过程为:通过shell编程工具,对节点CPU数量、CPU工作频率进行检测,配合集群工具来自动化执行,测试结果进行自动保存并自动处理。
2.根据权利要求1所述的一种实时监控CPU工作状态的方法,其特征在于,其具体实现步骤为:
首先设定测试参数;
抓取CPU工作频率;
然后对CPU工作频率进行比较;
在一定时间周期内实时监控CPU状态;
在整机柜集群监控CPU状态,即在整机柜的所有节点上运行CPU状态监控;
最后将所有测试结果进行收集,查看所有节点CPU的工作状态。
3.根据权利要求2所述的一种实时监控CPU工作状态的方法,其特征在于,所述测试参数设定过程为:首先根据被测机型所使用的CPU的说明书,来设置CPU正常的CPU工作范围,作为判断CPU在系统中运行是否正常的依据,即整机高负载下,设置CPU正常工作范围,超出该范围的其他频率视为fail。
4.根据权利要求2所述的一种实时监控CPU工作状态的方法,其特征在于,所述CPU工作频率的抓取过程为:安装intelPTU工具,通过PTU工具抓取CPU当前的信息,然后通过检索、筛选,获取CPU当前的工作频率。
5.根据权利要求2所述的一种实时监控CPU工作状态的方法,其特征在于,所述对CPU工作频率进行比较的具体过程为:比较当前CPU工作频率和设定的工作频率,如果当前工作频率在设定的范围内,表示CPU工作正常,如果当前CPU工作频率不在设定范围内,表示CPU工作不正常。
CN201510715445.2A 2015-10-29 2015-10-29 一种实时监控cpu工作状态的方法 Pending CN105260286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510715445.2A CN105260286A (zh) 2015-10-29 2015-10-29 一种实时监控cpu工作状态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510715445.2A CN105260286A (zh) 2015-10-29 2015-10-29 一种实时监控cpu工作状态的方法

Publications (1)

Publication Number Publication Date
CN105260286A true CN105260286A (zh) 2016-01-20

Family

ID=55099986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510715445.2A Pending CN105260286A (zh) 2015-10-29 2015-10-29 一种实时监控cpu工作状态的方法

Country Status (1)

Country Link
CN (1) CN105260286A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155866A (zh) * 2016-08-01 2016-11-23 浪潮电子信息产业股份有限公司 一种监控cpu核心频率的方法及装置
CN107276855A (zh) * 2017-07-27 2017-10-20 郑州云海信息技术有限公司 一种基于Linux系统的服务器压力自动化监控方法
CN107704368A (zh) * 2017-08-30 2018-02-16 安徽天达网络科技有限公司 一种基于计算机运行速度的监测及控制系统
CN107943638A (zh) * 2017-12-14 2018-04-20 郑州云海信息技术有限公司 一种cpu稳定性的测试和评估方法及系统
CN109101409A (zh) * 2018-07-24 2018-12-28 郑州云海信息技术有限公司 一种提升spec cpu2006执行效率的方法
CN109508265A (zh) * 2018-11-02 2019-03-22 郑州云海信息技术有限公司 一种判断cpu运行异常的方法、装置、终端及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060596A1 (en) * 2003-09-12 2005-03-17 An-Sheng Chang Device and method that automatically adjust CPU work frequency
CN1614530A (zh) * 2003-11-03 2005-05-11 技嘉科技股份有限公司 自动调整cpu工作频率的方法及装置
CN102819305A (zh) * 2012-07-30 2012-12-12 江苏瑞曼信息技术有限公司 一种自动调节处理器频率的计算机
CN103984612A (zh) * 2014-05-28 2014-08-13 浪潮电子信息产业股份有限公司 一种基于hpl工具的无人值守压力测试的方法
CN104123205A (zh) * 2013-04-24 2014-10-29 联想(北京)有限公司 一种检测cpu超频工作状态的方法及装置
CN104317714A (zh) * 2014-10-29 2015-01-28 浪潮电子信息产业股份有限公司 一种基于expect自动化测试rack稳定性的方法
CN104391780A (zh) * 2014-10-23 2015-03-04 浪潮电子信息产业股份有限公司 一种自动检验服务器电源冗余功能稳定性的方法
CN104598344A (zh) * 2015-02-03 2015-05-06 浪潮电子信息产业股份有限公司 一种基于shell的测试内存读写的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060596A1 (en) * 2003-09-12 2005-03-17 An-Sheng Chang Device and method that automatically adjust CPU work frequency
CN1614530A (zh) * 2003-11-03 2005-05-11 技嘉科技股份有限公司 自动调整cpu工作频率的方法及装置
CN102819305A (zh) * 2012-07-30 2012-12-12 江苏瑞曼信息技术有限公司 一种自动调节处理器频率的计算机
CN104123205A (zh) * 2013-04-24 2014-10-29 联想(北京)有限公司 一种检测cpu超频工作状态的方法及装置
CN103984612A (zh) * 2014-05-28 2014-08-13 浪潮电子信息产业股份有限公司 一种基于hpl工具的无人值守压力测试的方法
CN104391780A (zh) * 2014-10-23 2015-03-04 浪潮电子信息产业股份有限公司 一种自动检验服务器电源冗余功能稳定性的方法
CN104317714A (zh) * 2014-10-29 2015-01-28 浪潮电子信息产业股份有限公司 一种基于expect自动化测试rack稳定性的方法
CN104598344A (zh) * 2015-02-03 2015-05-06 浪潮电子信息产业股份有限公司 一种基于shell的测试内存读写的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林守林: "基于CPU利用率的功率调整策略的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155866A (zh) * 2016-08-01 2016-11-23 浪潮电子信息产业股份有限公司 一种监控cpu核心频率的方法及装置
CN107276855A (zh) * 2017-07-27 2017-10-20 郑州云海信息技术有限公司 一种基于Linux系统的服务器压力自动化监控方法
CN107704368A (zh) * 2017-08-30 2018-02-16 安徽天达网络科技有限公司 一种基于计算机运行速度的监测及控制系统
CN107943638A (zh) * 2017-12-14 2018-04-20 郑州云海信息技术有限公司 一种cpu稳定性的测试和评估方法及系统
CN109101409A (zh) * 2018-07-24 2018-12-28 郑州云海信息技术有限公司 一种提升spec cpu2006执行效率的方法
CN109508265A (zh) * 2018-11-02 2019-03-22 郑州云海信息技术有限公司 一种判断cpu运行异常的方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
CN105260286A (zh) 一种实时监控cpu工作状态的方法
CN105068920B (zh) 一种基于shell测试rack资产信息稳定性的方法
Lou et al. Mining invariants from console logs for system problem detection
Borghesi et al. Online anomaly detection in hpc systems
CN103294579A (zh) 一种高性能计算集群应用性能测试方法
CN104182288A (zh) 一种服务器集群系统功耗自动化测试的方法
CN103502942A (zh) 虚拟机管理设备、虚拟机管理方法及其程序
EP3591485B1 (en) Method and device for monitoring for equipment failure
CN103200050A (zh) 服务器的硬件状态监控方法和系统
US9471655B2 (en) Enabling symptom verification
CN104317714A (zh) 一种基于expect自动化测试rack稳定性的方法
CN106919485A (zh) 一种基于服务器上配置硬件测试工具的系统
CN111309546A (zh) 一种集群容器内文本日志的采集方法、系统及存储介质
CN107590037A (zh) 一种对服务器gpu进行edpp测试的方法
CN113193881A (zh) 一种基于hplc深化应用的智能化功能验证检测方法
CN102982037A (zh) 检测数据库节点健康状况的方法及装置
CN110955900A (zh) 一种针对大数据平台的脆弱性检测方法
Narayanan et al. Towards' integrated'monitoring and management of DataCenters using complex event processing techniques
CN113031969B (zh) 设备部署巡检方法、装置、计算机设备及存储介质
Hu et al. DDC: distributed data collection framework for failure prediction in Tianhe supercomputers
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
Wang et al. A density-based anomaly detection method for mapreduce
CN102822806B (zh) 检测应用的无进展状态
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群系统
Yin et al. CTPV: A cloud testing platform based on virtualization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160120

WD01 Invention patent application deemed withdrawn after publication