CN103117879B - 一种计算机硬件运行参数网络监测系统 - Google Patents

一种计算机硬件运行参数网络监测系统 Download PDF

Info

Publication number
CN103117879B
CN103117879B CN201310035504.2A CN201310035504A CN103117879B CN 103117879 B CN103117879 B CN 103117879B CN 201310035504 A CN201310035504 A CN 201310035504A CN 103117879 B CN103117879 B CN 103117879B
Authority
CN
China
Prior art keywords
client
hardware
parameter
warning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310035504.2A
Other languages
English (en)
Other versions
CN103117879A (zh
Inventor
刘明
方娇莉
尹业华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201310035504.2A priority Critical patent/CN103117879B/zh
Publication of CN103117879A publication Critical patent/CN103117879A/zh
Application granted granted Critical
Publication of CN103117879B publication Critical patent/CN103117879B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种计算机硬件运行参数网络监测系统,属计算机技术领域。本发明的目的在于克服现有机房环境监测系统不能直接监测计算机硬件运行参数及相关操作系统提供的运行参数的缺陷。鉴于此,本发明提供了一种计算机硬件运行参数网络监测系统,该系统包括:客户端和服务器端,客户端和服务器端通过网络方式连接。客户端包括硬件参数获取单元、操作系统参数获取单元、客户端网络通信单元;服务器端包括用户界面控制单元、参数处理单元和服务器端网络通信单元。客户端定时获取本机的各种硬件运行参数和操作系统提供的运行参数,通过网络传送到服务器端;服务器端接收客户端发来的各种参数,确定客户端的运行状态,保存数据,并更新用户界面,展示客户端状态。

Description

一种计算机硬件运行参数网络监测系统
技术领域
本发明涉及一种计算机硬件运行参数网络监测系统,属计算机技术领域。
背景技术
计算机硬件运行参数的监测,对硬件维护来说是十分重要的。特别是硬件温度的监测,由于温度过高往往会导致计算机系统运行不稳定,乃至影响设备寿命。因此,硬件运行参数的监测在无人值守服务器机房、集群服务器机房、学校计算机实验室等都十分重要。
而目前,多数学校或企业是通过建立机房环境监测系统来实现对机房的温度等参数的监测,其缺陷就在于不能直接监测到机房中运行的计算机的相关硬件运行时的温度等参数。现在各种计算机系统的主板、CPU及硬盘等硬件设备均集成相关传感器,能够提供CPU温度、CPU电压、CPU风扇转速、主机箱内温度(集成在主板上的温度传感器的温度值,也称为System温度),以及硬盘也提供了硬盘温度等详细的运行参数,并且硬件厂商提供了读取相关传感器数据的读取接口,由此可见,现有机房环境监测系统,也没能充分利用现有计算机系统自身的资源。同时现有机房环境监测系统往往需要另外构建网络系统,也没有充分利用现行网络资源。
现有机房环境监测系统由于不能监测到计算机本身的硬件运行状态,就经常会出现硬件温度过高而环境温度正常,机房环境监测系统却不能发出提示而及时的处理故障;或者计算机已经因为硬件温度过高而导致死机,却不得而知等现象。同时,现有机房环境监测系统提供的相关参数记录反应出来的信息也比较单一,对于分析和处理计算机自身的故障没有太大的帮助。
在现有的监测系统中,由于监测信息和处理方法单一而对报警处理缺乏人性化设计,对一些紧急程度低的警告会频繁的向用户发送提示,导致系统的用户体验下降,通常使得用户关闭一些低级别的警告提示功能,从而使得紧急程度不高的一些警告设置变得豪无意义,形同虚设,而不能真正做到防患于未然,也就难以有效的维护设备。
发明内容
针对上述问题,本发明提出一种计算机硬件运行参数网络监测系统,有效克服了现有机房环境监测系统的不足。
本发明采用的技术方案:一种计算机硬件运行参数网络监测系统,包括:客户端110和服务器端120;
客户端110,定时获取本机的各种硬件运行参数和操作系统提供的运行参数,通过网络传送到服务器端120。
服务器端120,接收客户端110发来的各种参数,确定客户端110的运行状态,保存数据,并更新用户界面和提示;
客户端110和服务器端120通过网络方式连接。
客户端110包括硬件参数获取单元111、操作系统参数获取单元112、客户端网络通信单元113;硬件参数获取单元111、操作系统参数获取单元112的输出端连接客户端网络通信单元113的输入端;利用定时器定时触发硬件参数获取单元111、操作系统参数获取单元112,获取硬件参数、操作系统参数,并将参数输入客户端网络通信单元113。
硬件参数获取单元111,用于获取本机硬件设备集成的传感器的各种实时运行参数,利用操作系统提供的I/O接口函数主要获取CPU温度、CPU风扇转速、硬盘温度、主机箱内温度参数;
操作系统参数获取单元112,用于获取本机操作系统能提供的各种实时运行参数,操作系统提供的各种运行参数,以辅助分析客户端110硬件运行状态;
客户端网络通信单元113,用于与服务器端120通信,将所获取的各种参数打包,通过网络将数据包传输到服务器端120。
客户端110为一个或者一个以上,当多个客户端110通过网络接入系统时,用IP地址来标识不同的客户端110。
服务器端120包括用户界面控制单元121、参数处理单元122和服务器端网络通信单元124;服务器端网络通信单元124的输出端连接参数处理单元122,参数处理单元122的输出端连接用户界面控制单元121;服务器端网络通信单元124通过网络获取客户端110的硬件参数、操作系统参数,经过参数处理单元122的分析、处理、判断;根据这些参数和阈值关系判断不同的运行状态,并将运行状态通过用户界面控制单元121显示出来。
用户界面控制单元121,提供用户接口,在服务器端120展示客户端110的状态并进行警告或报警提示。
参数处理单元122,用于处理接收到的客户端110的硬件运行参数,分析参数,划分状态,以确定客户端110硬件运行状态,并将客户端110的参数保存到数据库中。
服务器端网络通信单元124,用于与客户端110通信,负责接收并解析客户端110发送来的数据包。
参数处理单元122定时判断客户端110最新状态更新时间与当前时间之差是否超过指定的阈值来确认客户端110在线与离线,超过阈值则将客户端110确认为离线,否则为在线。
参数处理单元122对确认为在线的客户端110,根据不同硬件运行情况,确定各硬件运行状态的阈值,将服务器端网络通信单元124提供的硬件运行参数,与各硬件运行状态的阈值进行比对,从而将客户端110状态设定为:“正常”、“警告”、“报警”。
参数处理单元122依次将“正常”、“警告”、“报警”按紧急程度分为低、中、高三个等级,当各硬件运行状态分别处于不同紧急程度等级时,采用最高紧急程度等级确认客户端110的状态。
参数处理单元122对确认为离线的客户端110,与离线前的状态进行组合,进一步分为:“正常离线”、“警告离线”、“报警离线”。
服务器端120还包括预警分析单元123,预警分析单元123的输入端与参数处理单元连接,预警分析单元123的输出端与用户界面控制单元121连接;参数处理单元122在判断客户端为“警告”、“报警”后,将对应的硬件的参数信息输入预警分析单元123。在预警分析单元123中,对该项硬件参数来说,当某个时间点Ti的参数值为Vi,其前一时间点Ti-1的参数值为Vi-1,根据以下公式可计算出在时间点Ti该项参数斜率Ki
对于相邻时间点Ti和Ti-1,其斜率分别为Ki、Ki-1,如果Ki>Ki-1,判断为上升趋势,则向用户界面控制单元121发送预警;如果Ki≤Ki-1,判断为下降趋势,则不发送预警。
当客户端110处于警告状态时,用户界面控制单元123进行警告提示后,由是否收到预警来确定是否再次发送警告提示;如果接收到预警,则进行警告提示,否则不进行警告提示。
本发明的有益效果是:本发明有效克服了现有机房环境监测系统的不足,充分利用计算现有资源,读取计算机自身集成的各种传感器的参数,能直接监测计算机硬件的运行参数;采用软件方式实现对计算机硬件参数的监测,具有较好的扩展性,能够监测到更详细的计算机的运行参数,能够更好更有效的划分计算机运行状态,便于监测管理和分析处理故障,更有效的维护设备;在详细的硬件状态划分的基础上进行预警分析和人性化设计警告机制,进一步提升用户体验;整个监测系统占用资源少,而不会影响现行的计算机系统各项性能及现行网络带宽;同时,本发明可以大大降低监测成本,适应性强。
附图说明:
图1是本发明的结构框图;
图2是本发明的客户端实现流程图;
图3是本发明的服务器端实现流程图;
图4是本发明的多客户端应用示意图;
图5是本发明的服务器端的参数处理单元划分客户端离线状态的实现流程图;
图6是本发明的服务器端的参数处理单元划分客户端硬件状态的实现流程图;
图7是本发明的服务器端的用户界面控制单元接收客户端状态后的处理流程图;
图8是本发明的实施例中进行模拟测试的客户端CPU温度变化趋势曲线;
图中:110-客户端、111-硬件参数获取单元、112-操作系统参数获取单元、113-客户端网络通信单元、120-服务器端、121-用户界面控制单元、122-参数处理单元、123-预警分析单元、124-服务器端网络通信单元。
具体实施方式:
为了使技术人员对本发明的目的、优点更加明白,下面结合附图对本发明做进一步说明。
如图1所示,一种计算机硬件运行参数网络监测系统包括:客户端110和服务器端120,客户端110和服务器端120通过网络方式连接;
客户端110,定时获取本机的各种硬件运行参数和操作系统提供的运行参数,通过网络传送到服务器端120。
服务器端120,接收客户端110发来的各种参数,确定客户端110的运行状态,保存数据,并更新用户界面和提示。
客户端110包括硬件参数获取单元111、操作系统参数获取单元112、客户端网络通信单元113;硬件参数获取单元111、操作系统参数获取单元112的输出端连接客户端网络通信单元113的输入端;利用定时器定时触发硬件参数获取单元111、操作系统参数获取单元112,获取硬件参数、操作系统参数,并将参数输入客户端网络通信单元113。
硬件参数获取单元111,用于获取本机硬件设备集成的传感器的各种实时运行参数,利用操作系统提供的I/O接口函数主要获取CPU温度、CPU风扇转速、硬盘温度、主机箱内温度参数。
操作系统参数获取单元112,用于获取本机操作系统能提供的各种实时运行参数,操作系统提供的各种运行参数,以辅助分析客户端110硬件运行状态。
客户端网络通信单元113,用于与服务器端120通信,将所获取的各种参数打包,通过网络将数据包传输到服务器端120。
客户端110为一个或者一个以上。
服务器端120包括用户界面控制单元121、参数处理单元122和服务器端网络通信单元124;服务器端网络通信单元124的输出端连接参数处理单元122,参数处理单元122的输出端连接用户界面控制单元121;服务器端网络通信单元124通过网络获取客户端110的硬件参数、操作系统参数,经过参数处理单元122的分析、处理、判断;根据这些参数和阈值关系判断不同的运行状态,并将运行状态通过用户界面控制单元121显示出来。
用户界面控制单元121,提供用户接口,在服务器端120展示客户端110的状态并进行警告或报警提示。
参数处理单元122,用于处理接收到的客户端110的硬件运行参数,分析参数,划分状态,以确定客户端110硬件运行状态,并将客户端110的参数保存到数据库中。
服务器端网络通信单元124,用于与客户端110通信,负责接收并解析客户端110发送来的数据包。
参数处理单元122定时判断客户端110最新状态更新时间与当前时间之差是否超过指定的阈值来确认客户端110在线与离线,超过阈值则将客户端110确认为离线,否则为在线。
参数处理单元122对确认为在线的客户端110,根据不同硬件运行情况,确定各硬件运行状态的阈值,将服务器端网络通信单元124提供的硬件运行参数,与各硬件运行状态的阈值进行比对,从而将客户端110状态设定为:“正常”、“警告”、“报警”。
参数处理单元122依次将“正常”、“警告”、“报警”按紧急程度分为低、中、高三个等级,当各硬件运行状态分别处于不同紧急程度等级时,采用最高紧急程度等级确认客户端110的状态。
服务器端120还包括预警分析单元123,预警分析单元123的输入端与参数处理单元连接,预警分析单元123的输出端与用户界面控制单元121连接;参数处理单元122在判断客户端为“警告”、“报警”后,将对应的硬件的参数信息输入预警分析单元123。在预警分析单元123中,对该项硬件参数来说,当某个时间点Ti的参数值为Vi,其前一时间点Ti-1的参数值为Vi-1,根据以下公式可计算出在时间点Ti该项参数斜率Ki
对于相邻时间点Ti和Ti-1,其斜率分别为Ki、Ki-1,如果Ki>Ki-1,判断为上升趋势,则向用户界面控制单元121发送预警;如果Ki≤Ki-1,判断为下降趋势,则不发送预警。
当客户端110处于警告状态时,用户界面控制单元123进行警告提示后,由是否收到预警来确定是否再次发送警告提示;如果接收到预警,则进行警告提示,否则不进行警告提示。
实施例1
本发明的基本思路是:充分利用现有计算机系统自身的资源及现行网络资源,采用软件的方式来建立计算机硬件运行参数网络监测系统,以克服现行机房环境监测系统的不足。软件方式必然占用现行计算机系统及网络的资源,所以本发明实施的一个关键环节,就是需要采用一系列方案优化系统,尤其优化客户端110,使得客户端110是轻量级客户端110而极少占用本机资源和网络资源。
如图2所示,是所述客户端110的工作流程:
步骤S201:当定时器时间到,硬件参数获取单元111读取本机硬件运行参数,操作系统参数获取单元112获取本机操作系统运行参数,并将这些参数传送给客户端网络通信单元113。
在减少CPU占用方面,定时器技术是一种常用而有效的技术。本实施例中客户端110采用定时器触发运行参数读取的机制来减少客户端110对CPU的使用率。为减少CPU使用率,而且客户端硬件温度等参数的变化往往都需要一个过程,定时器时间间隔可以尽量长一点,默认为10s,这样可以保证客户端110极少占用CPU资源。
目前客户端系统的主板、CPU及硬盘等硬件设备均集成相关传感器,能够提供CPU温度、CPU电压、CPU风扇转速、主机箱内温度,以及硬盘也提供了硬盘温度等参数,并且硬件厂商提供了读取相关传感器数据的读取接口。其基本方法就是:通过操作系统提供的I/O接口函数读取出硬件中存储的各种传感器的实时参数。例如在Windows系统中,可以先调用I/O接口函数CreateFile打开设备并返回与设备相关的句柄,然后,再调用I/O接口函数DeviceIoControl与驱动程序通信,进而读取设备上的各种参数。而获取操作系统运行参数的基本方法就是调用操作系统提供的接口函数来完成的。
步骤S202:客户端网络通信单元113接收参数,打包,将数据包传输到服务器端120。等待定时器时间到,当定时器时间到,则转至S201。
在本实施例中,客户端110发送到服务器端120的数据包格式如表1所示:
表1
2字节标志主要用来验证是否是有效数据包,也就是通过客户端110和服务器端120预先约定一个特定数字作为标志,以验证数据包的有效性。
其中,基础数据单元为8个字节,一个数据单元表示某种硬件设备的某个参数值,其格式如表2所示:
表2
硬件编号为1个字节,取值范围为0~255,即可表示256种硬件。例如,可规定1表示CPU,2表示内存,3表示硬盘等。参数类型为1个字节,取值范围为0~255,即可表示256种参数类型,例如,可规定1表示温度,2表示风扇转速,3表示电压,4表示频率,5表示CPU使用率等。参数值为6个字节,前4个字节表示参数的整数部分,后2个字节表示参数的小数部分。
为尽可能减少网络通信流量,本实施例中客户端110与服务器端120之间选择采用UDP/IP协议,以减少客户端110与服务器端120的通信应答。数据包的传输协议采用UDP/IP协议,则其UDP协议数据报格式如表3所示:
表3
为尽可能的减少占用客户端110的CPU资源,简化客户端110结构,客户端网络通信单元113仅在发送数据时被激活,不对网络进行监听,也不接收服务器端120的数据和指令。因此,也可以说是一种单向通信模式。
如图3所示,是所述服务器端120的工作流程:
步骤S301:服务器端网络通信单元124监听网络。
步骤S302:本步骤中,服务器端网络通信单元124判断是否有数据包,若没有数据包,转至S301。
步骤S303:若有新的数据包,解析数据包,得到客户端110传送来的运行参数,并从UDP/IP数据报中,解析出客户端110的IP地址,将运行参数及IP地址传送给参数处理单元122。
步骤S304:参数处理单元122,对运行参数划分状态,确定客户端110主机的硬件状态,并将数据保存数据库中的被监测计算机运行参数记录表。参数处理单元122将运行参数及处理后的状态数据传送给预警分析单元123,同时将处理后的状态数据传送给用户界面控制单元121。
本实施例中,服务器端120通过维护一个“被监测计算机列表”和一个“被监测计算机运行参数记录表”来实现对客户端的监测。被监测计算机列表包括:IP地址、状态、更新时间等信息;被监测计算机运行参数记录表包括:IP地址、硬件名、参数类型、参数值、接收时间等信息。
本实施例中,IP地址作为客户端110的唯一标识,当多个客户端通过网络接入系统时,用IP地址来标识不同的客户端。服务器端120在收到数据包的同时,解析出客户端110的IP地址,在服务器端120的被监测计算机列表和被监测计算机运行参数记录表中用IP地址来标识该客户端110。
步骤S305:预警分析单元123进行预警分析。
步骤S306:用户界面控制单元121根据参数处理单元122、预警分析单元123所提供客户端110硬件状态更新用户界面,并向用户发送警告或报警提示。转至S301。
在实际应用中,客户端110包括计算机和安装并运行在其上的软件,软件中设定服务器端120的IP地址,服务器端120包括服务器和安装并运行在其上的软件。客户端110软件和服务器端120软件均设置为自启动,即在操作系统启动时自动启动软件。当客户端启动后,客户端110按预先设定的时间间隔,根据指定的服务器端120的网络地址,定期的向服务器端120发送硬件运行参数;服务器端120软件接收并处理这些参数,最后形象的在用户界面上展示客户端的状态。
如图4所示,通过IP网络建立了计算机硬件运行参数网络监测系统。假设UDP/IP的通信端口号为12345。客户端110的定时器时间设为10s,当网络中,某一客户端110定时器时间到,就会读取硬件运行参数,并通过UDP/IP协议向服务器发送数据包。服务器端120监听UDP/IP协议的端口号12345,当服务器端120监听到端口有数据,首先判断是否是有效的数据包。如果是,则将数据进行解包,并处理数据,读出包中的各项硬件运行参数,划分其状态。进而实现了对接入了硬件运行参数网络监测系统的计算机的硬件运行参数监测。
实施例2
计算机硬件运行参数监测系统中,对客户端划分状态是十分重要的。状态可以划分为:离线和在线,而进一步,在线状态又划分为“正常”、“警告”、“报警”。
离线表明客户端处于关机状态或因网络等故障不在监测系统中,离线状态为服务器端120初始化后,客户端110客户端的初始状态。离线状态的判断方法完全不同于“正常”、“警告”、“报警”等在线状态,因为此时服务器端120已经无法接收到客户端110的运行参数。
判断离线,可以根据被监测计算机运行参数记录表中最后一次收到记录的时间和当前时间进行比对,如果时间差超出预先设定的阈值,则将该客户端设置为离线。本实施例中,判断关机或离线的方法就是:参数处理单元122定时判断客户端110最新状态更新时间与当前时间之差是否超过指定的阈值(如60s)来确认客户端110在线或离线。离线与离线前的状态组合,进一步划分为“正常离线”、“警告离线”、“报警离线”。
在参数处理单元122中包括一个离线状态判断模块,离线状态判断模块定时的遍历被监测计算机列表,判断客户端110最新更新状态的时间与当前时间之差否超出阈值,若超出,则设置为离线。定时器的时间间隔设定为小于或等于预先设定的时间阈值。如图5所示,判断某一客户端110的离线状态是这样来实现的:
步骤S501:判断当前时间与被监测计算机列表中客户端110的状态更新时间之差是否小于阈值,若小于则维持原状态,完成其他操作指令。
步骤S502:若时间差大于阈值,则判断被监测计算机列表中客户端110的状态是否为正常,若为正常,则将被监测计算机列表中客户端110的状态设置为“正常离线”。
步骤S503:若不为正常,则判断被监测计算机列表中客户端110的状态是否为警告,若为警告,则将被监测计算机列表中客户端110的状态设置为“警告离线”。
步骤S504:若不为警告,则判断被监测计算机列表中客户端110的状态是否为报警,若为报警,则将被监测计算机列表中客户端110的状态设置为“报警离线”。
步骤S505:若不为报警,则维持原状态,完成其他操作指令。
这种对“离线”进一步划分状态的方法,解决了因“离线”模糊而无法进一步判断客户端110状态的问题。比如某一客户端110由于CPU温度过高在报警后死机,无法与服务器通信,而被笼统的设置为“离线”,这样就非常不利于用户判断故障和处理故障。通过对“离线”进一步划分状态,就有效的解决了这类问题。
实施例3
在线客户端的状态设定为“正常”、“警告”和“报警”,进而建立状态阈值表,如表4所示:
表4
状态阈值表包括有硬件、参数类型、状态、条件和阈值等数据项。例如,根据电子设备的特性,可以将温度的警告阈值设为:65℃,报警阈值设为:75℃。在参数处理单元122通过查找阈值表确定硬件状态。如图6所示,正常、警告和报警状态的划分是在参数处理单元122解析出某项硬件的参数后这样来实现的:
步骤S601:查询状态阈值表,以获得该硬件报警阈值及条件;
步骤S602:判断是否有该硬件的报警阈值,如果没有该硬件的报警阈值,则转至S604;
步骤S603:如果有该硬件的报警阈值,则根据报警阈值及条件判断是否报警。若是报警,则设置该硬件状态为报警。
步骤S604:如果没有报警,则查询状态阈值表,以获得该硬件警告阈值及条件;
步骤S605:判断是否有该硬件的警告阈值,如果没有该硬件的警告阈值,则将该硬件状态设置为正常;
步骤S606:如果有该硬件的警告阈值,则根据警告阈值及条件判断是否报警。若是警告,则设置该硬件状态为警告;若不是警告,则设置该硬件状态为正常。
由以上描述可知,如果某项硬件参数无需进行报警和警告提示,如CPU电压,则无需对该项硬件参数登记报警和警告阈值。又如,CPU风扇仅需要报警提示,则只需对该项参数登记报警阈值。通常关键的硬件运行参数是:CPU温度、CPU风扇转速、主机箱内温度等4项参数,在参数阈值表中,默认包括了这4项参数。
进一步的,客户端110的状态可以这样来确定:依次将“正常”、“警告”、“报警”按紧急程度分为低、中、高三个等级,当各硬件运行状态分别处于不同紧急程度等级时,采用最高紧急程度等级确认客户端110的状态。具体实现步骤如下:
a)若某一硬件的状态为报警,则无需进行接下来的判断,而将被监测计算机列表中该客户端的状态设置为“报警”;
b)若所有硬件均无报警,而有某一硬件为警告或预警,则将被监测计算机列表中该客户端的状态置为“警告”;
c)若没有任一项硬件处于报警或警告状态,则被监测计算机列表中该客户端的状态设置为“正常”。
在实际应用中,假如读出客户端110的CPU温度为76℃,硬盘温度为40℃,机箱内温度56℃,CPU风扇转速为4450转/分。首先,服务器端120根据状态报警阈值表将CPU的状态设置为“报警”,而将硬盘的状态设置为“正常”,CPU风扇转速设置为“正常”,机箱内温度设置为“警告”,而其余所有不在报警阈值状态表中相关参数项的状态判断均为正常。下一步,服务器端120将根据各项硬件状态中紧急程度最高的一项来确定客户端110的状态,而CPU的状态为报警,紧急程度最高,因此服务器端120将该客户端110的状态确定为报警,同时向用户发出报警提示。
实施例4
参数处理单元122在判断客户端120为“警告”、“报警”后,将参数信息输入预警分析单元123,在预警分析单元123内通过和缓存的各个时间点的参数采用线性比对方式,确定参数的线性变化趋势。如果是上升趋势,则向用户界面控制单元121发送预警,否则不发送预警。预警分析单元123是根据比较相邻的两个时间点的参数值变化的斜率来确定变化趋势的。对某项硬件参数,当某个时间点Ti其参数值为Vi,其前一时间点Ti-1的该项参数值为Vi-1,根据以下公式可计算出在时间点Ti该项参数斜率Ki
对于时间点Ti和Ti-1,其斜率分别为Ki、Ki-1,如果Ki>Ki-1,判断为上升趋势,则向用户界面控制单元121发送预警;如果Ki≤Ki-1,判断为下降趋势,则不发送预警。
如图7所述,用户界面控制单元121在收到参数处理单元122发送的客户端状态后,是这样来处理的:
步骤S701:判断接收到的客户端的状态值,如果是正常,转至S702;如果是报警,转至S703;如果是警告,转至S704。
步骤S702:更新界面,清除该客户端警告已发送标志。执行其它指令。
步骤S703:更新界面,报警提示,清除该客户端警告已发送标志。执行其它指令。
步骤S704:判断该客户端是否有警告已发送标志,若无标志,则转至S705;若有标志,转至S706。
步骤S705:更新界面,发送警告,标记该客户端警告已发送。
步骤S706:仅更新界面。
每次,当用户界面控制单元121收到预警分析单元123的预警后,则发送警告。
在应用实例中,假如定时器时间设为10s,某一客户端110第一次发送到服务器端120的CPU温度值为66℃,用户界面控制单元121发送警告;
第二次发送到服务器端120的温度值为67℃,预警分析单元123此时计算出第二次时间点上的斜率K2=0.01,预警分析单元123不比对斜率,也不发送预警,用户界面控制单元121不发送警告。
第三次发送到服务器端120的温度值为70℃,预警分析单元123此时计算出第三次时间点上的斜率K3=0.03,K3>K2,预警分析单元123发送预警,用户界面控制单元121再次发送警告。
第四次发送到服务器端120的温度值为69℃,预警分析单元123此时计算出第三次时间点上的斜率K4=-0.01,K4<K3,预警分析单元123不发送预警,用户界面控制单元121也不发送警告。
依次类推,在警告状态下,处于下降或保持趋势时,服务器端120都不会再次向用户发送警告;但如果处于上升趋势时,则会再次向用户发送警告。
假如在实际应用中,警告阈值为大于55℃,报警阈值为大65℃。如图8所示,是模拟CPU处于高负荷状态下,55℃~65之间,处于警告状态的温度变化的趋势图,在这种一直处于警告状态的情况下,系统不会在每个时间都发送警告,而只有在温度上升而且变化趋势加快的情况下才会发送警告。在测试过程中,温度虽然继续在上升,但变化趋势已经减缓了,就不会再发送警告,只有很少时间点上发送了警告。而且在此时收到警告,用户也能意识到温度变化在加剧,而不会在下降或保持状态下发送警告。这种方式就有效的避免了可能因为硬件设备由于某一时期工作负荷过重等原因,而使得温度进入警告范围而之后又恢复正常,在这期间系统却频繁的向用户发送警告的问题。
本发明有效克服了现有机房环境监测系统的不足,充分利用计算现有资源,读取计算机自身集成的各种传感器的参数,能直接监测计算机硬件的运行参数;采用软件方式实现对计算机硬件参数的监测,具有较好的扩展性,能够监测到更详细的计算机的运行参数,能够更好更有效的划分计算机运行状态,便于监测管理和分析处理故障,更有效的维护设备;在详细的硬件状态划分的基础上进行预警分析和人性化设计警告机制,进一步提升用户体验;整个监测系统占用资源少,而不会影响现行的计算机系统各项性能及现行网络带宽;同时,本发明可以大大降低监测成本,适应性强。
本专利是通过具体实施过程进行说明的,在不脱离本专利范围的情况下,还可以对本专利进行各种变换及等同代替,因此,本专利不局限于所公开的具体实施过程,而应当包括落入本专利权利要求范围内的全部实施方案。

Claims (2)

1.一种计算机硬件运行参数网络监测系统,系统包括客户端和服务器端;客户端定时获取本机的各种硬件运行参数和操作系统提供的运行参数,通过网络传送到服务器端;服务器端接收客户端发来的各种参数,确定客户端的运行状态,保存数据,并更新用户界面和提示;客户端和服务器端通过网络方式连接,其特征在于:
客户端包括硬件参数获取单元、操作系统参数获取单元、客户端网络通信单元;硬件参数获取单元、操作系统参数获取单元的输出端连接网络通信单元的输入端;利用定时器定时触发硬件参数获取单元、操作系统参数获取单元,获取硬件参数、操作系统参数,并将参数输入网络通信单元;
硬件参数获取单元,用于获取本机硬件设备集成的传感器的各种实时运行参数,利用操作系统提供的I/O接口函数主要获取CPU温度、CPU风扇转速、硬盘温度、主机箱内温度参数;
操作系统参数获取单元,用于获取本机操作系统能提供的各种实时运行参数,操作系统提供的各种运行参数,以辅助分析客户端硬件运行状态;客户端网络通信单元,用于与服务器端通信,将所获取的各种参数打包,通过网络将数据包传输到服务器端;
客户端为一个或者一个以上,当多个客户端通过网络接入系统时,用IP地址来标识不同的客户端;
服务器端包括用户界面控制单元、参数处理单元和服务器端网络通信单元;服务器端网络通信单元的输出端连接参数处理单元,参数处理单元的输出端连接用户界面控制单元;服务器端网络通信单元通过网络获取客户端的硬件参数、操作系统参数,经过参数处理单元的分析、处理、判断;根据这些参数和阈值关系判断不同的运行状态,并将运行状态通过用户界面控制单元显示出来;用户界面控制单元,提供用户接口,在服务器端展示客户端的状态并进行警告或报警提示;参数处理单元,用于处理接收到的客户端的硬件运行参数,分析参数,划分状态,以确定客户端硬件运行状态,并将客户端的参数保存到数据库中;服务器端网络通信单元,用于与客户端通信,负责接收并解析客户端发送来的数据包;
参数处理单元定时判断客户端最新状态更新时间与当前时间之差是否超过指定的阈值来确认客户端在线与离线,超过阈值则将客户端确认为离线,否则为在线;
参数处理单元对确认为在线的客户端,根据不同硬件运行情况,确定各硬件运行状态的阈值,将服务器端网络通信单元提供的硬件运行参数,与各硬件运行状态的阈值进行比对,从而将客户端状态设定为“正常”、“警告”、“报警”;
参数处理单元依次将“正常”、“警告”、“报警”按紧急程度分为低、中、高三个等级,当各硬件运行状态分别处于不同紧急程度等级时,采用最高紧急程度等级确认客户端的状态;
参数处理单元对确认为离线的客户端,与离线前的状态进行组合,进一步分为:“正常离线”、“警告离线”、“报警离线”。
2.根据权利要求1所述的一种计算机硬件运行参数网络监测系统,其特征在于,服务器端还包括预警分析单元,预警分析单元的输入端与参数处理单元连接,预警分析单元的输出端与用户界面控制单元连接;参数处理单元在判断客户端为“警告”、“报警”后,将对应的硬件的参数信息输入预警分析单元;在预警分析单元中,对该项硬件参数来说,当某个时间点Ti的参数值为Vi,其前一时间点Ti-1的参数值为Vi-1,根据以下公式可计算出在时间点Ti该项参数斜率Ki
对于相邻时间点Ti和Ti-1,其斜率分别为Ki、Ki-1,如果Ki>Ki-1,判断为上升趋势,则向用户界面控制单元发送预警;如果Ki≤Ki-1,判断为下降趋势,则不发送预警;
当客户端处于警告状态时,用户界面控制单元进行警告提示后,由是否收到预警来确定是否再次发送警告提示;如果接收到预警,则进行警告提示,否则不进行警告提示。
CN201310035504.2A 2013-01-30 2013-01-30 一种计算机硬件运行参数网络监测系统 Expired - Fee Related CN103117879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310035504.2A CN103117879B (zh) 2013-01-30 2013-01-30 一种计算机硬件运行参数网络监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310035504.2A CN103117879B (zh) 2013-01-30 2013-01-30 一种计算机硬件运行参数网络监测系统

Publications (2)

Publication Number Publication Date
CN103117879A CN103117879A (zh) 2013-05-22
CN103117879B true CN103117879B (zh) 2016-01-20

Family

ID=48416158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310035504.2A Expired - Fee Related CN103117879B (zh) 2013-01-30 2013-01-30 一种计算机硬件运行参数网络监测系统

Country Status (1)

Country Link
CN (1) CN103117879B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473165B (zh) * 2013-09-26 2016-08-17 浪潮(北京)电子信息产业有限公司 一种基于cpu负载的计算机保护方法及装置
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警系统及方法
CN104391555B (zh) * 2014-12-05 2017-08-25 浪潮集团有限公司 一种服务器风扇调速方法
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法
CN105353713A (zh) * 2015-12-15 2016-02-24 国网北京市电力公司 机房监控系统
CN107454362A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 数据分析方法及装置、系统
CN106126398A (zh) * 2016-06-22 2016-11-16 北京信安世纪科技有限公司 硬件设备的监控方法和装置
CN107395463A (zh) * 2017-09-05 2017-11-24 合肥爱吾宠科技有限公司 计算机硬件运行参数网络监测系统
CN108322336A (zh) * 2018-01-15 2018-07-24 北京华胜天成信息技术发展有限公司 面向国产自主可控服务器的智能管理方法及系统
CN108989289B (zh) * 2018-06-21 2020-10-13 北京亚鸿世纪科技发展有限公司 一种保障流量采集完整性的方法及装置
CN109374058A (zh) * 2018-11-27 2019-02-22 贵州荣创信息科技有限公司 一种机械状态监管系统
EP3706393B1 (de) * 2019-03-04 2024-04-24 Siemens Healthineers AG Verfahren zur übertragung einer benutzeroberfläche, medizingerät und anordnung
CN110687851A (zh) * 2019-10-31 2020-01-14 广东安可云科技有限公司 一种终端运行监控系统及方法
CN110990224A (zh) * 2019-11-28 2020-04-10 浪潮软件股份有限公司 监控硬件的方法及系统、服务器端、客户端
CN112199063A (zh) * 2020-10-14 2021-01-08 Vidaa美国公司 一种获取系统参数的方法及显示设备
CN114611868A (zh) * 2022-01-24 2022-06-10 成都鲁易科技有限公司 风险监控方法、装置、系统及电子设备
CN117539727B (zh) * 2024-01-10 2024-05-10 深圳市网时云计算有限公司 一种计算机运行状态监测方法及监测系统
CN118409918A (zh) * 2024-06-27 2024-07-30 江苏联道科技有限公司 一种计算机主机智能检测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1445669A (zh) * 2002-03-15 2003-10-01 联想(北京)有限公司 多途径获取和输出服务器监控信息的方法
CN102291257A (zh) * 2011-07-27 2011-12-21 奇智软件(北京)有限公司 一种基于网络的终端资源管理方法
CN102621502A (zh) * 2012-03-29 2012-08-01 首都师范大学 一种dc-dc电源系统故障监测与预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1445669A (zh) * 2002-03-15 2003-10-01 联想(北京)有限公司 多途径获取和输出服务器监控信息的方法
CN102291257A (zh) * 2011-07-27 2011-12-21 奇智软件(北京)有限公司 一种基于网络的终端资源管理方法
CN102621502A (zh) * 2012-03-29 2012-08-01 首都师范大学 一种dc-dc电源系统故障监测与预测方法

Also Published As

Publication number Publication date
CN103117879A (zh) 2013-05-22

Similar Documents

Publication Publication Date Title
CN103117879B (zh) 一种计算机硬件运行参数网络监测系统
CN110868336A (zh) 数据管理方法、装置和计算机可读存储介质
CN110352588B (zh) 用于收集遥测数据的方法和装置
US10848839B2 (en) Out-of-band telemetry data collection
EP2260611A1 (en) Automated power topology discovery
US10289522B2 (en) Autonomous information technology diagnostic checks
CN102681909A (zh) 一种基于内存错误的服务器预警方法
WO2016197737A1 (zh) 自检处理方法、装置及系统
CN103905441A (zh) 数据获取方法及装置
CN114978883A (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
WO2019218299A1 (zh) 一种耗电异常提示方法、服务器和终端
EP3756085A1 (en) Creating statistical analyses of data for transmission to servers
CN107086937A (zh) 一种监控方法及设备
CN117061335A (zh) 云平台设备健康管控方法、装置、存储介质和电子设备
WO2023116225A1 (zh) 一种网络巡检方法、网络设备及网络管理设备
WO2023147731A1 (zh) 异常数据的处理方法、装置及电子设备
US20230336408A1 (en) Machine learning for rule evaluation
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN114697319B (zh) 一种公有云的租户业务管理方法及装置
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN111522642B (zh) 风电机组状态监测数据的获取方法、查询方法及电子设备
CN111371601A (zh) 一种服务器配置方法、装置、设备及计算机可读存储介质
CN111414267A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN111414274A (zh) 运用于数据中心的机柜异常状态的远端排除方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20220130