CN102055615B - 服务器监控方法 - Google Patents

服务器监控方法 Download PDF

Info

Publication number
CN102055615B
CN102055615B CN 200910209172 CN200910209172A CN102055615B CN 102055615 B CN102055615 B CN 102055615B CN 200910209172 CN200910209172 CN 200910209172 CN 200910209172 A CN200910209172 A CN 200910209172A CN 102055615 B CN102055615 B CN 102055615B
Authority
CN
China
Prior art keywords
server
notification information
error notification
monitoring method
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910209172
Other languages
English (en)
Other versions
CN102055615A (zh
Inventor
林大华
陈宗楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taicang Hongyu Intelligent Technology Co ltd
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN 200910209172 priority Critical patent/CN102055615B/zh
Publication of CN102055615A publication Critical patent/CN102055615A/zh
Application granted granted Critical
Publication of CN102055615B publication Critical patent/CN102055615B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种服务器监控方法,用于服务器监控系统,用以监控服务器,包含下列步骤:由监控主机传送测试信号至服务器;根据服务器的响应判断服务器的平台事件过滤器功能是否正常;当平台事件过滤器功能不正常,起始服务器的测试流程;根据服务器的状况,更新各服务器的基板管理控制器的系统事件记录;通过监控主机撷取各基板管理控制器的系统事件记录;判断系统事件记录是否出现异常记录,当系统事件记录出现异常记录,以产生错误通知信息至远程主机;以及根据错误通知信息进一步通过远程主机进行错误分析。

Description

服务器监控方法
技术领域
本发明是有关于一种监控方法,且特别是有关于一种服务器监控方法。
背景技术
在服务器中,基板管理控制器(baseboard management controller;BMC)是一种设置于主机板上,以对系统进行控管的装置。在开发服务器的阶段中,必需对服务器及其上的基板管理控制器进行压力测试。压力测试是用以测试装置在长时间运作的情形下,是否能正常地工作。然而,在动辄十余小时的长时间测试下,目前的测试方式必需耗费人力进行检查与除错。举例来说,如果错误发生于测试流程的第十小时,则前面未发生错误的时间都将白费。而如果检测者在每隔两小时检测的情形下,错误却在第一小时即发生,则无法达到立即除错及分析的功效。
另一方面,有些基板管理控制器提供了平台事件过滤器(Platform EventFilter;PEF)的功能。平台事件过滤器是一项事件处理的功能,能在系统产生事件时通过网络来发出警示通知。然而如果在进行测试的服务器中,基板管理控制器并未提供这项功能,或是这项功能已经损坏,亦或网络的功能失效,则无法藉由基板管理控制器直接于服务器发生事件时产生任何警示通知。
因此,如何设计一个新的服务器监控方法,能够实时的对服务器的测试流程进行控管,并且可以在服务器的各种不正常情形发生时,仍能进行警示通知,是业界亟待解决的问题。
发明内容
因此,本发明的目的在于提供一种服务器监控方法,能够实时的对服务器的测试流程进行控管。
本发明的一实施方式是在提供一种服务器监控方法,用于服务器监控系统,用以监控服务器,包含下列步骤:由监控主机传送测试信号至服务器;根据服务器的响应判断服务器的平台事件过滤器功能是否正常;当平台事件过滤器功能不正常,起始服务器的测试流程;根据服务器的状况,更新各服务器的基板管理控制器的系统事件记录;通过监控主机撷取各基板管理控制器的系统事件记录;判断系统事件记录是否出现异常记录,当系统事件记录出现异常记录,以产生错误通知信息至远程主机;以及根据错误通知信息进一步藉由远程主机进行错误分析。
根据本发明的一实施例,服务器监控方法还包含:根据系统事件记录判断测试流程是否结束,当测试流程结束,产生测试结束通知信息至该远程主机。
根据本发明的另一实施例,还包含根据错误通知信息终止测试流程的步骤。
根据本发明的又一实施例,测试流程为压力测试。
根据本发明的再一实施例,还包含:判断服务器的网络功能是否正常;当网络功能正常,监控主机通过网络功能撷取各基板管理控制器的之系统事件记录;当网络功能不正常,监控主机通过直接联机路径撷取各基板管理控制器的系统事件记录。
本发明的另一实施方式是在提供一种服务器监控方法,用以监控服务器,包含下列步骤:由监控主机传送测试信号至服务器;根据服务器的响应判断服务器的平台事件过滤器功能是否正常;当平台事件过滤器功能正常,判断服务器的网络功能是否正常;当网络功能不正常,将平台事件过滤器功能的目标设定为监控主机,及将平台事件过滤器功能的传输路径设定为服务器及监控主机间的直接联机路径;起始服务器的测试流程;当服务器的基板管理控制器侦测到系统异常,通过平台事件过滤器功能产生错误通知信息,并通过直接联机路径传送至监控主机,再通过监控主机传送错误通知信息至远程主机;以及根据错误通知信息进一步通过远程主机进行错误分析。
根据本发明的一实施例,当网络功能正常,服务器监控方法还包含:起始服务器的测试流程;当服务器的基板管理控制器侦测到系统异常,通过平台事件过滤器功能产生错误通知信息,以透过网络功能传送错误通知信息至远程主机;以及根据错误通知信息进一步通过远程主机进行错误分析。
根据本发明的另一实施例,平台事件过滤器功能产生的错误通知信息包含警示方式字段、通知地址字段以及传输路径字段。
根据本发明的又一实施例,其中网络功能为局域网络(Local AreaNetwork;LAN)功能。
根据本发明的再一实施例,其中直接联机路径为串行端口(Serial Port)或I2C接口。
应用本发明的优点在于通过判断服务器的平台事件过滤器功能的网络功能是否运作正常,以因应各种服务器的情况,决定产生错误通知信息的方式,并且实时地通知远程主机以进行分析与除错,而轻易地达到上述的目的。
附图说明
为让本发明上述和其它目的、特征、优点与实施例能更明显易懂,所附附图的说明如下:
图1为本发明的一实施例的服务器监控系统的方块图;
图2为本发明的另一实施例的服务器监控方法的流程图;以及
图3为本发明一实施例中,当平台事件过滤器功能不正常时的服务器监控方法的流程图。
【主要组件符号说明】
1:监控系统                 10:服务器
100:基板管理控制器         11:系统事件记录
12:监控主机                121:测试信号
13、17、19:错误通知信息    14:远程主机
15:测试结束通知信息        201-211:步骤
301-308:步骤
具体实施方式
请参照图1,为本发明的一实施例的服务器监控系统1的一方块图。服务器监控系统1包含:服务器10、监控主机12以及远程主机14。须注意的是,图1中绘示三个服务器10,然而在其它实施例中,可因应不同的情况设置不同数目的服务器10。
本实施例的服务器监控系统1,可在服务器10有异常的事件发生时,在不同的情形下经由不同的方式产生错误通知信息13、17或19实时地使远程主机14可以进行错误分析,甚或终止测试流程的进行,以针对测试流程中,发生错误的关键点进行除错。
服务器10包含:基板管理控制器100以及通讯接口(未绘示)。在开发服务器10的阶段中,必需对服务器10及其上的基板管理控制器100进行测试流程。在一实施例中,测试流程为压力测试,用以测试装置在长时间运作的情形下,是否能正常地工作。
基板管理控制器100是一种设置于服务器10内的主机板(未绘示)上,以对服务器10的系统进行控管的装置,具有使系统管理软件与装置硬件相沟通的作用。基板管理控制器100可以根据服务器10内的各种侦测器(未绘示),掌握服务器10内的各种情况,如温度、风扇转速、电源模式、操作系统状态等等。
一般正常运作的基板管理控制器100提供了平台事件过滤器的功能。平台事件过滤器功能是一项事件处理的功能,能在系统产生事件时经由网络发出警示通知。然而如果在进行测试的服务器10中,基板管理控制器100并未提供这项功能,或是这项功能已经损坏,亦或网络的功能失效,则无法通过基板管理控制器100直接于服务器10发生事件时产生警示通知。
请同时参照图2,为本发明的一实施例的服务器监控方法的流程图。服务器监控方法可应用于如图1绘示的服务器监控系统1。服务器监控方法包含下列步骤:在步骤201,由监控主机12传送测试信号121至服务器10。接着在步骤202,根据服务器10的响应(未绘示)判断服务器的平台事件过滤器功能是否正常。
当平台事件过滤器功能不正常时,在图1中,以最左侧的服务器10为例,执行步骤203,起始服务器的测试流程。继续执行步骤204,根据服务器10的状况,更新服务器10的基板管理控制器100的系统事件记录11。基板管理控制器100在测试流程中,根据服务器10在的状况,包含上述如温度、风扇转速、电源模式、操作系统状态等等的状况,来持续更新系统事件记录11。系统事件记录11则以数据来对上述的状况进行记录。
接着在步骤205,判断服务器10的网络功能是否正常。当网络功能正常,执行步骤206,通过监控主机12经由网络功能撷取基板管理控制器100的系统事件记录11。其中网络功能在一实施例中,为局域网络接口。而当网络功能不正常,执行步骤207,通过监控主机12经由服务器10与监控主机12间的直接联机路径撷取基板管理控制器100的系统事件记录11。直接联机路径在一实施例中,为I2C或串行端口的通讯接口。
步骤206或207结束后,执行步骤208,根据系统事件记录11判断测试流程是否结束。当测试流程已经结束,即进行步骤209,产生测试结束通知信息13至远程主机14。而当测试流程依然在进行,则执行步骤210,判断系统事件记录11是否出现异常的记录。所谓的异常,举例来说,可为服务器10的温度过高、风扇转速未达到所设定的标准、电源供应不足或是操作系统产生错误等等。当系统事件记录11未出现异常的记录,则将回到步骤204,以随着测试流程继续更新系统事件记录11。
当系统事件记录11出现异常的记录时,则将执行步骤211,产生错误通知信息15至远程主机14,远程主机14将根据错误通知信息15进一步进行错误分析。因此,进行测试的人员不需要随时地在服务器10旁边观察,而可以在远程主机14远程地且实时地得知服务器10的状况。在一实施例中,远程主机14可在接收到错误通知信息13后,根据错误通知信息13,传递指令(未绘示)而终止测试流程,避免测试流程继续进行时,无法厘清错误状况发生的原因及时间点。
因此,上述实施例中的服务器监控方法,可以在平台事件过滤器功能不正常的情形下,由监控主机12侦测服务器10在测试过程中产生的错误,并通过错误通知信息13通知远程主机14,以进行错误分析。
在另一实施例中,当图2中的步骤202,根据服务器10的响应判断服务器的平台事件过滤器功能是否正常的判断结果,显示平台事件过滤器功能是正常的,则执行步骤A。步骤A详细绘示于图3中。
请参照图3,为本发明一实施例中,当平台事件过滤器功能正常时的服务器监控方法的流程图。在步骤202判断平台事件过滤器功能正常后,执行步骤301,判断服务器10的网络功能是否正常。当网络功能不正常,在图1中,是以中间的服务器10为例,执行步骤302,将平台事件过滤器功能的目标设定为监控主机12,及将平台事件过滤器功能的传输路径设定为服务器10及监控主机12间的直接联机路径。如上所述,直接联机路径在一实施例中,为I2C或串行端口的通讯接口。
接着在步骤303,起始服务器10的测试流程。接着在步骤304,判断基板管理控制器100是否侦测到系统异常。当基板管理控制器100未侦测到系统异常,重复执行步骤304,以侦测测试流程是否具有异常。而当基板管理控制器100侦测到系统异常,执行步骤305,通过平台事件过滤器功能产生错误通知信息17,并通过直接联机路径传送至监控主机12,再通过监控主机12传送错误通知信息17至远程主机14,以使远程主机14根据错误通知信息17进一步进行错误分析。
在一实施例中,平台事件过滤器功能产生的错误通知信息17包含警示方式字段、通知地址字段以及传输路径字段。其中警示方式字段表示以字符串或是其它形式来产生。通知地址字段在本实施例中则由于传输对象为监控主机12,而为监控主机12的地址。传输路径字段在本实施例中则为直接联机路径。
因此,上述实施例中的服务器监控方法,可以在平台事件过滤器功能正常,但网络功能不正常的情形下,由服务器10本身产生错误通知信息17,并通过监控主机12传送至远程主机14,以进行错误分析。
而当步骤301中,判断服务器10的网络功能是否正常的判断结果系显示网络功能正常,在图1中,是以最右侧的服务器10为例,执行步骤306,起始服务器的测试流程。
接着在步骤307,判断基板管理控制器100是否侦测到系统异常。当基板管理控制器100未侦测到系统异常,重复执行步骤307,以侦测测试流程是否具有异常。而当基板管理控制器100侦测到系统异常,执行步骤308,通过平台事件过滤器功能产生错误通知信息19,并通过网络传送至远程主机14,而不需再经由监控主机12,以使远程主机14根据错误通知信息17进一步进行错误分析。
在一实施例中,平台事件过滤器功能产生的错误通知信息19包含警示方式字段、通知地址字段以及传输路径字段。其中警示方式字段表示以字符串或是其它形式来产生。通知地址字段在本实施例中则由于传输对象为远程主机14,而为远程主机14的地址。传输路径字段在本实施例中则为网络。
因此,上述实施例中的服务器监控方法,可以在平台事件过滤器功能正常,并且网络功能亦正常的情形下,由服务器10本身产生错误通知信息19,并通过网络传送至远程主机14,以进行错误分析。(应了解到,在本实施方式中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行)。
由上述本发明实施方式可知,应用本发明的优点在于通过检测基板管理控制器的系统事件记录,判断是否具有异常,并实时地通知远程主机以进行分析与除错。
虽然本发明已以实施方式揭露如上,然其并非用以限定本发明,任何熟悉此技术的人员,在不脱离本发明的精神和范围内,当可作各种的更动与润饰,因此本发明的保护范围当视权利要求书所界定的范围为准。

Claims (10)

1.一种服务器监控方法,用以监控至少一服务器,其特征在于,包含下列步骤:
由一监控主机传送一测试信号至该服务器;
根据该服务器的响应判断该服务器的一平台事件过滤器功能是否正常;
当该平台事件过滤器功能不正常,起始该服务器的一测试流程;
根据该服务器的状况,更新该服务器的一基板管理控制器的一系统事件记录;
通过该监控主机撷取该基板管理控制器的该系统事件记录;
判断该系统事件记录是否出现异常记录,当该系统事件记录出现异常记录,以产生一错误通知信息至一远程主机;以及
根据该错误通知信息进一步通过该远程主机进行一错误分析。
2.根据权利要求1所述的服务器监控方法,其特征在于,还包含:根据该系统事件记录判断该测试流程是否结束,当该测试流程结束,产生一测试结束通知信息至该远程主机。
3.根据权利要求1所述的服务器监控方法,其特征在于,还包含:根据该错误通知信息终止该测试流程。
4.根据权利要求1所述的服务器监控方法,其特征在于,该测试流程为一压力测试。
5.根据权利要求1所述的服务器监控方法,其特征在于,还包含:
判断该服务器的一网络功能是否正常;以及
当该网络功能正常,该监控主机通过该网络功能撷取该基板管理控制器的该系统事件记录;
当该网络功能不正常,该监控主机通过一直接联机路径撷取该基板管理控制器的该系统事件记录。
6.一种服务器监控方法,用以监控至少一服务器,其特征在于,包含下列步骤:
由一监控主机传送一测试信号至该服务器;
根据该服务器的响应判断该服务器的一平台事件过滤器功能是否正常;
当该平台事件过滤器功能正常,判断该服务器的一网络功能是否正常;
当该网络功能不正常,将该平台事件过滤器功能的一目标设定为该监控主机,及将该平台事件过滤器功能的一传输路径设定为该服务器及该监控主机间的一直接联机路径;
起始该服务器的一测试流程;
当该服务器的一基板管理控制器侦测到一系统异常,通过该平台事件过滤器功能产生一错误通知信息,并通过该直接联机路径传送至该监控主机,再藉由该监控主机传送该错误通知信息至一远程主机;以及
根据该错误通知信息进一步通过该远程主机进行一错误分析。
7.根据权利要求6所述的服务器监控方法,其特征在于,当该网络功能正常,还包含:
起始该服务器的该测试流程;
当该服务器的一基板管理控制器侦测到一系统异常,通过该平台事件过滤器功能产生错误通知信息,以透过该网络功能传送该错误通知信息至该远程主机;以及
根据该错误通知信息进一步通过该远程主机进行一错误分析。
8.根据权利要求6所述的服务器监控方法,其特征在于,该平台事件过滤器功能产生的该错误通知信息包含一警示方式字段、一通知地址字段以及一传输路径字段。
9.根据权利要求6所述的服务器监控方法,其特征在于,该网络功能为一局域网络功能。
10.根据权利要求6所述的服务器监控方法,其特征在于,该直接联机路径为一串行端口或一I2C接口。
CN 200910209172 2009-10-28 2009-10-28 服务器监控方法 Expired - Fee Related CN102055615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910209172 CN102055615B (zh) 2009-10-28 2009-10-28 服务器监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910209172 CN102055615B (zh) 2009-10-28 2009-10-28 服务器监控方法

Publications (2)

Publication Number Publication Date
CN102055615A CN102055615A (zh) 2011-05-11
CN102055615B true CN102055615B (zh) 2013-05-01

Family

ID=43959573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910209172 Expired - Fee Related CN102055615B (zh) 2009-10-28 2009-10-28 服务器监控方法

Country Status (1)

Country Link
CN (1) CN102055615B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104122939A (zh) * 2013-04-23 2014-10-29 英业达科技有限公司 伺服器系统
CN104579593B (zh) * 2013-10-23 2018-01-16 鸿富锦精密工业(深圳)有限公司 数据监控系统及方法
CN104639380B (zh) * 2013-11-07 2018-03-09 英业达科技有限公司 服务器监控方法
CN109840232B (zh) 2017-11-28 2022-05-13 华为技术有限公司 存储设备及存储设备的元件管理方法
CN109062791A (zh) * 2018-07-20 2018-12-21 郑州云海信息技术有限公司 一种信号信息记录方法、系统、设备及计算机存储介质
CN109799806B (zh) * 2019-01-18 2020-10-30 南方电网科学研究院有限责任公司 一种阀控装置仿真测试方法与系统
CN112099980A (zh) * 2019-06-17 2020-12-18 环达电脑(上海)有限公司 服务器及错误事件记录登载功能的控制方法
CN111147295A (zh) * 2019-12-19 2020-05-12 江苏艾佳家居用品有限公司 一种服务器故障实时监测预警系统
CN113553243A (zh) * 2020-04-24 2021-10-26 捷普科技(上海)有限公司 远端侦错方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1746859A (zh) * 2004-09-09 2006-03-15 英业达股份有限公司 一种智能平台事件报警系统及其方法
CN1929409A (zh) * 2005-09-09 2007-03-14 环达电脑(上海)有限公司 基于远程的智能平台管理接口测试系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1746859A (zh) * 2004-09-09 2006-03-15 英业达股份有限公司 一种智能平台事件报警系统及其方法
CN1929409A (zh) * 2005-09-09 2007-03-14 环达电脑(上海)有限公司 基于远程的智能平台管理接口测试系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于IPMI的智能平台管理系统的实现;童燕;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081115;全文 *
童燕.基于IPMI的智能平台管理系统的实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2008,

Also Published As

Publication number Publication date
CN102055615A (zh) 2011-05-11

Similar Documents

Publication Publication Date Title
CN102055615B (zh) 服务器监控方法
CN113328872B (zh) 故障修复方法、装置和存储介质
US7975184B2 (en) Diagnostic access system
CN107632918B (zh) 计算存储设备的监控系统及方法
CN102740112B (zh) 一种基于视频监控系统的设备轮巡的控制方法
CN104639380A (zh) 服务器监控方法
US20120136970A1 (en) Computer system and method for managing computer device
CN112994972B (zh) 一种分布式探针监测平台
CN109547262A (zh) 一种基于zabbix监控交易系统异常的方法及其系统
CN107896172A (zh) 监听故障处理方法及装置、存储介质和电子设备
WO2023185061A1 (zh) 功能安全系统的检测方法、系统、电子设备、存储介质
CN117220917A (zh) 一种基于云计算的网络实时监控方法
CN112256470B (zh) 故障服务器定位方法及装置、存储介质及电子设备
CN106982141A (zh) Weblogic实例监控方法及装置
CN111796585B (zh) 一种工控设备漏洞挖掘检测系统
CN101661420A (zh) 外部总线检测装置及方法
JP2004094701A (ja) 監視情報表示システムと監視情報表示方法およびプログラムならびに監視装置
CN110058979A (zh) 一种温度读取失败故障的监控方法、bmc及存储介质
CA2793952C (en) Extracting data related to clinical diagnostic instruments
CN103903311A (zh) 机房智能巡检方法
CN107765123A (zh) 检测规则更新方法及用电安全监测系统
CN111274089B (zh) 一种基于旁路技术的服务器异常行为感知系统
CN111261271B (zh) 一种针对视频监控环境的业务可用性诊断方法及装置
CN111597095A (zh) 监控方法、监控装置、电子设备、以及介质
CN114401133B (zh) 一种基于代理的设备监控漏洞检测系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191216

Address after: No. 590 Xingwang Road, Bengbu High-tech Zone, Anhui Province

Patentee after: BENGBU KEDA ELECTRICAL EQUIPMENT Co.,Ltd.

Address before: Taipei City, Taiwan Chinese Shilin District Hougang Street No. sixty-six

Patentee before: Yingda Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201116

Address after: 215400 room 03, shop 43, Tinghai Road, Liuhe Town, Taicang City, Suzhou City, Jiangsu Province

Patentee after: Taicang Hongyu Intelligent Technology Co.,Ltd.

Address before: 233000, No. 590, prosperous road, hi tech Zone, Anhui, Bengbu

Patentee before: BENGBU KEDA ELECTRICAL EQUIPMENT Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130501