CN102053902A - 操作系统的监控方法 - Google Patents

操作系统的监控方法 Download PDF

Info

Publication number
CN102053902A
CN102053902A CN2009102115901A CN200910211590A CN102053902A CN 102053902 A CN102053902 A CN 102053902A CN 2009102115901 A CN2009102115901 A CN 2009102115901A CN 200910211590 A CN200910211590 A CN 200910211590A CN 102053902 A CN102053902 A CN 102053902A
Authority
CN
China
Prior art keywords
operating system
schedule time
watchdog timer
supervising
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102115901A
Other languages
English (en)
Inventor
林大华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2009102115901A priority Critical patent/CN102053902A/zh
Publication of CN102053902A publication Critical patent/CN102053902A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种操作系统的监控方法,其主要利用基板管理控制器去侦测操作系统当机与否。当操作系统当机时,传送警报信号给计算机管理装置。

Description

操作系统的监控方法
技术领域
本发明是有关于一种监控方法,且特别是有关于一种操作系统的监控方法。
背景技术
近年来由于工商发达、社会进步,相对提供的产品亦主要针对便利、确实、经济实惠为主旨,因此,当前开发的产品亦比以往更加进步,而得以贡献社会。
现行并无有效方法可以监控操作系统健康状态,故当操作系统发生当机情况时,往往需要经过一段时间后,由计算机管理者手动检查或经由使用者回报才得知计算机操作系统已发生当机现象,然后才会设法排除故障。
由此可见,上述现有的监控方式,显然仍存在不便与缺陷,而亟待加以进一步改进。为了解决上述问题,相关领域莫不费尽心思来谋求解决之道,但长久以来一直未见适用的方式被发展完成。因此,如何能在操作系统发生当机情况以后自动通知计算机管理者,实属当前重要研发课题之一,亦成为当前相关领域亟需改进的目标。
发明内容
因此,本发明的一目的是在提供一种操作系统的监控方法,用于自动判断操作系统当机与否,在操作系统发生当机情况,则自动发送警报信息。
依据本发明第一实施例,一种操作系统的监控方法包括下列步骤:
a.在计算机开机以后进入操作系统;
b.在操作系统下执行一驱动程序去驱动智能型平台管理接口(IntelligentPlatform Management Interface;IPMI)跟基板管理控制器(Baseboardmanagement controller;BMC)进行沟通;
c.利用基板管理控制器的看门狗定时器将第一预定时间倒数到零;
d.当计算机的操作系统未当机时,透过驱动程序每隔第二预定时间重置看门狗定时器,其中第二预定时间小于第一预定时间;以及
e.当看门狗定时器将第一预定时间倒数到零时,传送警报信号给计算机管理装置。
在第一实施例中,在执行步骤e.时,若计算机的操作系统发生当机,则无法透过操作系统下的驱动程序重置看门狗定时器,于是当看门狗定时器将第一预定时间倒数到零时,将警报信号传送给计算机管理装置。
具体而言,在第一实施例的步骤e.可采用下列子步骤实现:
e1.当看门狗定时器将第一预定时间倒数到零时,记录一看门狗事件文件(Watchdog2 event);
e2.利用基板管理控制器的平台事件过滤器(Platform Event Filter;PEF)筛选出看门狗事件文件;以及
e3.根据看门狗事件文件,将警报信号传送给计算机管理装置。
在第一实施例中,上述的传送警报信号给计算机管理装置的方式,例如可以是发送一电子邮件给计算机管理装置。
在硬件方面,上述计算机为一服务器,服务器所安装的操作系统为窗口操作系统或Linux操作系统。
依据本发明第二实施例,一种操作系统的监控方法包括下列步骤:
a.在一计算机所安装的操作系统下执行一智能型平台管理接口的驱动程序,借以透过智能型平台管理接口与一基板管理控制器进行沟通;
b.设定基板管理控制器的看门狗定时器去计时,直到看门狗定时器所计算的时间超过第一预定时间;
c.当计算机的操作系统未当机时,透过驱动程序每隔一第二预定时间重置看门狗定时器,俾使看门狗计时器重新开始计时,其中第二预定时间小于第一预定时间;以及
d.当计算机的操作系统当机时,则无法透过操作系统下的驱动程序重置看门狗定时器,于是当看门狗定时器所计算的时间超过第一预定时间时,传送一警报信号给计算机管理装置。
具体而言,在第二实施例的步骤a.可采用下列子步骤实现:
a1.在计算机开机以后进入操作系统;以及
a2.于操作系统下加载驱动程序去驱动智能型平台管理接口跟基板管理控制器进行沟通。
另一方面,在第二实施例的步骤d.可采用下列子步骤实现:
d1.当看门狗定时器所计算的时间超过第一预定时间时,由基板管理控制器记录一看门狗事件文件;
d2.利用基板管理控制器的平台事件过滤器筛选出看门狗事件文件;以及
d3.根据看门狗事件文件,将警报信号传送至计算机管理装置。
在第二实施例中,上述的传送警报信号给计算机管理装置的方式,例如可以是发送一电子邮件给计算机管理装置。
在硬件方面,上述计算机为一服务器,服务器所安装的操作系统为窗口操作系统或Linux操作系统。
综上所述,本发明的技术方案与现有技术相比具有明显的优点和有益效果。通过上述技术方案,可达到相当的技术进步,并具有产业上的广泛利用价值,其至少具有下列特点:
1.就企业计算机的管理层面而言,计算机管理者不需要手动检查或经由使用者回报才得知计算机操作系统已发生当机现象;以及
2.本技术方案可以在操作系统发生当机情况的数分钟内自动通知计算机管理者,让计算机管理者尽快安排故障排除事宜。
以下将以实施例对上述的说明以及接下来的实施方式做详细的描述,并对本发明提供更进一步的解释。
附图说明
为让本发明的上述和其它目的、特征、优点与实施例能更明显易懂,所附附图的说明如下:
图1是依照本发明一实施例的一种操作系统的监控方法的流程图。
【主要组件符号说明】
100:操作系统的监控方法
110~160:步骤
具体实施方式
为了使本发明的叙述更加详尽与完备,可参照所附的附图及以下所述各种实施例,附图中相同的号码代表相同或相似的组件。另一方面,众所周知的组件与步骤并未描述于实施例中,以避免对本发明造成不必要的限制。
本发明所提供的技术方案是一种操作系统的监控方法,其可适用于计算机,或是广泛地运用在相关的技术环节。此一计算机例如可为服务器、主机或其它有可能当机的计算器设备。在硬件方面,计算机具备一智能型平台管理接口与一基板管理控制器;在软件方面,计算机安装操作系统以及此智能型平台管理接口的驱动程序。
图1是依照本发明一实施例的一种操作系统的监控方法100的流程图。如图所示,监控方法100包含下列步骤110~160(应了解到,在本实施例中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行)。
首先,在步骤110可将计算机开机以进入操作系统。在本实施例中,计算机为服务器,而操作系统为窗口操作系统或Linux操作系统。
接着,在步骤120可于计算机所安装的操作系统下加载智能型平台管理接口的驱动程序,并执行此驱动程序以驱动智能型平台管理接口,借以透过智能型平台管理接口与基板管理控制器进行沟通。
在步骤130可透过智能型平台管理接口的驱动程序来设定基板管理控制器的看门狗定时器开始计时。在本实施例中,看门狗定时器可将一段第一预定时间倒数到零,或是看门狗定时器计时到其所计算的时间超过第一预定时间为止。
关于第一预定时间的长短可由计算机管理者依实际状况弹性设定。举例来说,第一预定时间可设定为6分钟。
在步骤140可透过智能型平台管理接口的驱动程序去重置基板管理控制器的看门狗定时器,俾使看门狗定时器每当被重置时就会重新开始计时。
在步骤150中,可判定计算机所安装的操作系统当机与否。具体而言,在步骤150设定每隔一第二预定时间就去执行步骤140,其中第二预定时间应小于第一预定时间,举例来说,第一预定时间可设定为6分钟,第二预定时间可设定为5分钟。倘若操作系统未当机时,在步骤140透过智能型平台管理接口的驱动程序每隔一第二预定时间就去重置基板管理控制器的看门狗定时器,则看门狗定时器会重新开始计时,使得看门狗定时器无法将第一预定时间倒数到零,当然也无法计时到超过第一预定时间。因此,只要操作系统不当机,就会反复执行步骤140、150,周期性地重置看门狗定时器。
然而,一旦操作系统当机时,在操作系统下执行的程序也会跟着瘫痪。因此,无法在步骤140透过智能型平台管理接口的驱动程序去重置基板管理控制器的看门狗定时器,则看门狗定时器会将第一预定时间倒数到零、或计时到超过第一预定时间。然后,在步骤160可将警报信号传送给计算机管理装置,借以提醒计算机管理者该操作系统已发生当机现象。若上述第一预定时间设定得愈短,则可以愈快侦测出当机现象。
上述的计算机管理装置例如可为远程监控计算机,使得计算机管理者可由计算机管理装置知道当机与否,不必亲自到现场检查。
在步骤160中,可由基板管理控制器记录一看门狗事件文件;接着,利用基板管理控制器的平台事件过滤器筛选出看门狗事件文件;然后,根据看门狗事件文件,将警报信号传送至计算机管理装置,举例来说,可发送一电子邮件给计算机管理装置。
虽然本发明已以实施方式揭露如上,然其并非用以限定本发明,任何熟悉此技术的人员,在不脱离本发明的精神和范围内,当可作各种的更动与润饰,因此本发明的保护范围当视权利要求书所界定的范围为准。

Claims (10)

1.一种操作系统的监控方法,其特征在于,至少包含:
(a)在一计算机开机以后进入一操作系统;
(b)在该操作系统下执行一驱动程序去驱动一智能型平台管理接口跟一基板管理控制器进行沟通;
(c)利用该基板管理控制器的看门狗定时器将一第一预定时间倒数到零;
(d)当该计算机的该操作系统未当机时,透过该驱动程序每隔一第二预定时间重置该看门狗定时器,其中该第二预定时间小于该第一预定时间;以及
(e)当该看门狗定时器将该第一预定时间倒数到零时,传送一警报信号给一计算机管理装置。
2.根据权利要求1所述的操作系统的监控方法,其特征在于,步骤(e)包含:
当该看门狗定时器将该第一预定时间倒数到零时,记录一看门狗事件文件;
利用该基板管理控制器的平台事件过滤器筛选出该看门狗事件文件;以及
根据该看门狗事件文件,将该警报信号传送给该计算机管理装置。
3.根据权利要求1所述的操作系统的监控方法,其特征在于,步骤(e)包含:
当该计算机的该操作系统当机时,则无法透过该操作系统下的该驱动程序重置该看门狗定时器,于是当该看门狗定时器将该第一预定时间倒数到零时,将该警报信号传送给该计算机管理装置。
4.根据权利要求1所述的操作系统的监控方法,其特征在于,传送该警报信号给该计算机管理装置的步骤包含:
发送一电子邮件给该计算机管理装置。
5.根据权利要求1所述的操作系统的监控方法,其特征在于,该计算机为一服务器,该服务器所安装的该操作系统为窗口操作系统或Linux操作系统。
6.一种操作系统的监控方法,其特征在于,至少包含:
(a)在一计算机所安装的操作系统下执行一智能型平台管理接口的驱动程序,借以透过该智能型平台管理接口与一基板管理控制器进行沟通;
(b)设定该基板管理控制器的看门狗定时器去计时,直到该看门狗定时器所计算的时间超过一第一预定时间;
(c)当该计算机的该操作系统未当机时,透过该驱动程序每隔一第二预定时间重置该看门狗定时器,俾使该看门狗计时器重新开始计时,其中该第二预定时间小于该第一预定时间;以及
(d)当该计算机的该操作系统当机时,则无法透过该操作系统下的该驱动程序重置该看门狗定时器,于是当该看门狗定时器所计算的时间超过该第一预定时间时,传送一警报信号给一计算机管理装置。
7.根据权利要求6所述的操作系统的监控方法,其特征在于,步骤(d)包含:
当该看门狗定时器所计算的时间超过该第一预定时间时,由该基板管理控制器记录一看门狗事件文件;
利用该基板管理控制器的平台事件过滤器筛选出该看门狗事件文件;以及
根据该看门狗事件文件,将该警报信号传送至该计算机管理装置。
8.根据权利要求6所述的操作系统的监控方法,其特征在于,步骤(a)包含:
在该计算机开机以后进入该操作系统;以及
在该操作系统下加载该驱动程序去驱动该智能型平台管理接口跟该基板管理控制器进行沟通。
9.根据权利要求6所述的操作系统的监控方法,其特征在于,传送该警报信号给该计算机管理装置的步骤包含:
发送一电子邮件给该计算机管理装置。
10.根据权利要求6所述的操作系统的监控方法,其特征在于,该计算机为一服务器,该服务器所安装的该操作系统为窗口操作系统或Linux操作系统。
CN2009102115901A 2009-11-10 2009-11-10 操作系统的监控方法 Pending CN102053902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102115901A CN102053902A (zh) 2009-11-10 2009-11-10 操作系统的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102115901A CN102053902A (zh) 2009-11-10 2009-11-10 操作系统的监控方法

Publications (1)

Publication Number Publication Date
CN102053902A true CN102053902A (zh) 2011-05-11

Family

ID=43958249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102115901A Pending CN102053902A (zh) 2009-11-10 2009-11-10 操作系统的监控方法

Country Status (1)

Country Link
CN (1) CN102053902A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102891762A (zh) * 2011-07-20 2013-01-23 鸿富锦精密工业(深圳)有限公司 连续处理网络数据的系统及方法
CN103294585A (zh) * 2012-03-02 2013-09-11 鸿富锦精密工业(深圳)有限公司 服务器监控系统
CN104122939A (zh) * 2013-04-23 2014-10-29 英业达科技有限公司 伺服器系统
CN111367185A (zh) * 2018-12-26 2020-07-03 博西华电器(江苏)有限公司 家电控制系统、家电控制方法、存储介质及家电

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102891762A (zh) * 2011-07-20 2013-01-23 鸿富锦精密工业(深圳)有限公司 连续处理网络数据的系统及方法
CN102891762B (zh) * 2011-07-20 2016-05-04 赛恩倍吉科技顾问(深圳)有限公司 连续处理网络数据的系统及方法
CN103294585A (zh) * 2012-03-02 2013-09-11 鸿富锦精密工业(深圳)有限公司 服务器监控系统
CN103294585B (zh) * 2012-03-02 2016-05-04 中山市云创知识产权服务有限公司 服务器监控系统
CN104122939A (zh) * 2013-04-23 2014-10-29 英业达科技有限公司 伺服器系统
CN111367185A (zh) * 2018-12-26 2020-07-03 博西华电器(江苏)有限公司 家电控制系统、家电控制方法、存储介质及家电

Similar Documents

Publication Publication Date Title
Li et al. Gandalf: An intelligent,{End-To-End} analytics service for safe deployment in {Large-Scale} cloud infrastructure
EP2911060B1 (en) Method and device for determining resource leakage and for predicting resource usage state
CN110245053A (zh) 故障预测诊断方法及系统
CN103577298A (zh) 基板管理控制器监控系统及方法
CN105677497A (zh) 一种高可用性看门狗电路
CN103425541A (zh) 异常处理机制检测电子装置、系统及方法
CN107465575A (zh) 一种集群的监控方法及系统
CN102053902A (zh) 操作系统的监控方法
CN103530197B (zh) 一种检测及解决Linux系统死锁的方法
CN101739305A (zh) 操作系统内核级实时看门狗监控装置及其监控方法
CN103475696A (zh) 云计算集群服务器状态监控系统和方法
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
US11657321B2 (en) Information processing device, non-transitory storage medium and information processing method
US8799608B1 (en) Techniques involving flaky path detection
CN103744778A (zh) 基于移动点的isq-fdefce软件可靠性增长模型
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
CN102792278B (zh) 用于计算环境中的诊断数据捕获的方法和设备
US8793538B2 (en) System error response
CN107451039B (zh) 一种对集群中执行设备评价的方法和设备
CN113378624A (zh) 基于网关设备的数据传输方法、系统、电子设备及介质
Sun et al. R 2 C: Robust rolling-upgrade in clouds
CN102592334B (zh) 一种门禁系统状态指示及故障分析的方法和装置
CN103064776A (zh) 一种性能监控方法及装置
CN107817729A (zh) 电子产品回收测试方法、存储介质及设备
CN107885626A (zh) 片上系统可编程器件的系统启动自检测的装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110511