CN103365755A - 云端系统的主机监控及异常处理方法 - Google Patents

云端系统的主机监控及异常处理方法 Download PDF

Info

Publication number
CN103365755A
CN103365755A CN2012100844843A CN201210084484A CN103365755A CN 103365755 A CN103365755 A CN 103365755A CN 2012100844843 A CN2012100844843 A CN 2012100844843A CN 201210084484 A CN201210084484 A CN 201210084484A CN 103365755 A CN103365755 A CN 103365755A
Authority
CN
China
Prior art keywords
main frame
entity main
clouds
entity
rack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100844843A
Other languages
English (en)
Inventor
毛之成
黄文铭
许秉慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HOPE BAY TECHNOLOGIES, INC.
Original Assignee
Delta Optoelectronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Optoelectronics Inc filed Critical Delta Optoelectronics Inc
Priority to CN2012100844843A priority Critical patent/CN103365755A/zh
Priority to TW101114612A priority patent/TWI467366B/zh
Priority to US13/743,933 priority patent/US20130262914A1/en
Publication of CN103365755A publication Critical patent/CN103365755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种云端系统的主机监控及异常处理方法,于云端的各实体主机中分别具有一常驻模块,并由常驻模块来监控实体主机的健康状况,再提供给云端的一管理终端。当管理终端察觉有任一实体主机的运作异常时,即发出一控制指令至运作异常的实体主机所在的机柜,并由机柜来强制运作异常的实体主机退出机柜之外。如此,有利于管理人员至现场更换运作异常的实体主机的便利性,以节省实地寻找所需花费的时间。

Description

云端系统的主机监控及异常处理方法
技术领域
本发明有关于云端机房中的实体主机,尤其有关于可以监控实体主机的运作状况,并于运作异常时,即时强制实体主机退出机柜的方法。
背景技术
近来,因半导体产业的迅速发展,实令电脑的功能愈来愈强大,并且,伴随着网际网络的发达,由服务端的服务器来代替客户端电脑进行运算作业的云端概念已被视为电脑领域未来发展的重点。
如图1所示,为先前技术的云端机房示意图。一般来说,一个强大的云端计算中心,实包含了数以万计的实体主机12,再由这些实体主机12来为客户端提供各种运算服务。虽然每一台实体主机12视客户端的需求而定,皆用以执行不同的工作,然而于云端机房1中,这些实体主机12通常具有一样的外观,管理人员难以由这些实体主机12的外观,直接辨识这些实体主机12分别扮演何种角色(如运算服务器或储存服务器等)。
如上所述,当云端机房1中其中一台实体主机12损坏而需要被更换时,管理人员要在为数可观的实体主机12中,正确找到需要更换的实体主机12,实有困难。是以,目前市场上提供了一种云端机房1的管理系统,于其中一实体主机12损坏时,自动通知管理人员该损坏的实体主机12位于哪一层楼的哪一间机房1,并且位于该机房1中哪一个机柜11中的哪一格的位置信息。由此,管理人员可依据该位置信息,至现场查找对应的位置,以更换该损坏的实体主机12。
然而如前文所述,每一台实体主机12的外观皆大同小异,若一间机房1中有数十或数百个机柜11,而每一个机柜11中又有数十或数百台实体主机12,即使管理人员拥有上述的位置信息,仍难以快速的找到该损坏的实体主机12的实际位置。如此,不但会造成管理人员的困扰,拉长更换实体主机12所需的工作时间,还可能因管理人员的人为疏失而换错实体主机12,进而造成无法挽回的错误。
是以,市场上实需一种新颖的技术,于云端机房1中的实体主机12需要更换时,不但能提供正确位置信息给管理人员,还能令需要更换的实体主机12直接于机柜11中退出,以令管理人员到达机房1现场时,能以极快的速度找到需要更换的实体主机12,并且不会发生更换错误的疏失。
发明内容
本发明的主要目的,在于提供一种云端系统的主机监控及异常处理方法,可令管理人员通过管理终端来监控云端机房中多台实体主机的运作状况,并于实体主机运作异常时,强制运作异常的实体主机由机柜中退出。
本发明提供了一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜之中,该云端系统的主机监控及异常处理方法包括:
a)该管理终端取得指出至少一台该实体主机运作异常的异常信息;
b)该管理终端依据该异常信息产生一控制指令,并传送该控制指令至该实体主机所在的机柜;
c)该机柜接收该控制指令,并依据该控制指令控制对应的该实体主机退出该机柜之外。
本发明还提供了一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜的中,该多个实体主机内部分别具有一常驻模块,该云端系统的主机监控及异常处理方法包括:
a)各该实体主机分别通过内部的该常驻模块,监控各该实体主机的各项数值信息;
b)该常驻模块分别统计所述多个数值信息,并依据统计结果制作一记录文件;
c)该常驻模块将该记录文件储存于网络上的一分享储存池中;
d)该管理终端通过内部的监控应用程序接口,于该分享储存池中取得所有实体主机的该记录文件;
e)该管理终端依据所述多个记录文件进行计算,以判断所述多个实体主机是否有运作异常的现象;
f)承步骤e,当所述多个实体主机的其中之一有运作异常的现象时,该管理终端产生一控制指令,并传送至该运作异常的实体主机所在的机柜;及
g)该机柜接收该控制指令,并依据该控制指令控制该运作异常的实体主机退出该机柜之外。
本发明还提供了一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜的中,该多个实体主机内部分别具有一常驻模块,该云端系统的主机监控及异常处理方法包括:
a)各该实体主机分别通过内部的该常驻模块,监控各该实体主机的各项数值信息;
b)该常驻模块依据所述多个数值信息与预设的一门限值进行计算,并依据计算结果判断该实体主机是否有运作异常的现象;
c)若该常驻模块判断该实体主机运作异常,该常驻模块产生一异常信息;
d)该常驻模块对外传送该异常信息,并排列于该管理终端中的一信息队列中;
e)该管理终端依据该信息队列中的该异常信息产生一控制指令,并传送至该运作异常的实体主机所在的机柜;及
f)该机柜接收该控制指令,并依据该控制指令控制该运作异常的实体主机退出该机柜之外。
为达上述目的,本发明于云端的各实体主机中分别具有一常驻模块,并由常驻模块来监控实体主机的健康状况,并提供给云端的一管理终端。当管理终端察觉有任一实体主机的运作异常时,即发出一控制指令至运作异常的实体主机所在的机柜,并由机柜来强制运作异常的实体主机退出机柜之外。
本发明对照先前技术所能达成的功效在于,各实体主机中的常驻模块会持续监控实体主机的各项数值信息,进而可判断实体主机的运作状况是否异常。管理人员可于远端操控管理终端,并由管理终端的使用者界面直接得知云端机房中的所有实体主机的运作状况,并且,当实体主机的运作异常,需要更换时,可直接强制该运作异常的实体主机由机柜中退出。如此一来,当管理人员至云端机房中,并欲更换实体主机时,可因该运作异常的实体主机已退出机柜,而轻易的找到目标,不会因为机房中的所有实体主机皆长得一模一样,而有难以寻找,甚至更换错误的困扰。
附图说明
图1为先前技术的云端机房示意图。
图2为本发明的一具体实施例的监控及控制流程图。
图3为本发明的第一具体实施例的系统架构图。
图4为本发明的第一具体实施例的系统方块图。
图5为本发明的第一具体实施例的监控流程图。
图6为本发明的第一具体实施例的强制退出流程图。
图7为本发明的第二具体实施例的系统架构图。
图8为本发明的第二具体实施例的系统方块图。
图9为本发明的第二具体实施例的监控流程图。
图10为本发明的第二具体实施例的强制退出流程图。
图11为本发明的第三具体实施例的系统方块图。
图12A为本发明的一具体实施例的实体主机退出机柜前示意图。
图12B为本发明的一具体实施例的实体主机退出机柜后示意图。
其中,附图标记说明如下:
1:云端机房
11、21:机柜
211:发光元件
212:弹性元件
213:卡榫
214:线圈电路
12、22:实体主机
221、222:常驻模块
223:卡挚部
23:控制模块
3:管理终端
4:数据库
31:监控应用程序接口
32:使用者界面
33:信息队列
S10~S18:步骤
S20~S26:步骤
S30~S42:步骤
S50~S58:步骤
S60~S68:步骤
C1:控制指令
F1:记录文件
M1:异常信息
P1:分享储存池
具体实施方式
兹就本发明的一较佳实施例,配合图式,详细说明如后。
本发明主要为一种云端系统的主机监控及异常处理方法,运用于云端系统的一管理终端(如图3中所示的该管理终端3)及多个的实体主机(如图3中所示的该实体主机22)之上。当云端系统中的其中一台该实体主机22需要被更换时,该管理终端3可受外部操控,或由该管理终端3自动控制需要被更换的该实体主机22所在的机柜(如图3中所示的该机柜21),以强制需要被更换的该实体主机22退出该机柜21。如此一来,有利于管理人员至现场查看时,能快速且正确地找到需要被更换的该实体主机22。
首请参阅图2,为本发明的一具体实施例的监控及控制流程图。首先,该管理终端3先取得指出该实体主机22运作异常的一异常信息(如图7中的该异常信息M1)(步骤S10),其中该管理终端3可通过多种方式取得该异常信息,将于下文中一一详述。
接着,该管理终端3依据该异常信息M1产生一控制指令(如图3中所示的该控制指令C1),并将该控制指令C1传送至该运作异常的实体主机22所在的该机柜21(步骤S12)。该机柜21接收该控制指令C1(步骤S14),并且依据该控制指令C1的内容,于对应位置上发出一警示信号(步骤S16)。本实施例中,该机柜21可于所述多个实体主机22的配置位置上,分别设置有至少一发光元件(例如图12A中所示的发光二极管211),以于该步骤S16中,该机柜21可由对应位置上的该发光元件211来发出警示信号(例如令LED发亮)。如此,当管理人员至现场查看时,可通过该发光元件211来迅速地找到需要更换的该实体主机22。
最后,该机柜1再依据该控制指令C1的内容,强制对应位置上的该实体主机22退出该机柜21(步骤S18)。由此,当管理人员至现场查看时,可迅速发现已退出该机柜21的该实体主机22,进而进行更换动作。本发明的主要目的,在于令管理人员可迅速且正确的发现需要更换的该实体主机22,因此,在该步骤S16及该步骤S18皆可达成上述目的的前提之下,该步骤S16及该步骤S18不必然同时存在,不可加以限定。
续请同时参阅图3、图4及图5,分别为本发明的第一具体实施例的系统架构图、系统方块图及监控流程图。如上所述,一个云端系统实可具有多个机房,并且每个机房中皆具有许多机柜21,为方便说明,本实施例中仅以一个机柜21来举例说明,并且该机柜21中配置有多台实体主机22,但不加以限定。如图所示,每一台该实体主机22中皆具有一常驻模块221,该常驻模块221可以采用常驻程序的形式实现,该常驻程序221为常态性执行,并且持续监控该实体主机22中的各项数值数据,进而可分析该实体主机22的健康状况。
如图5所示,首先,该常驻程序221监控该实体主机22的各项数值信息(步骤S20),并且,分别对所述多个数值信息加以统计(步骤S22)。进而,该常驻程序221可依据统计结果,制作一或多个记录文件F1(步骤S24),最后,该机柜21中的所述多个实体主机22,分别通过内部的该常驻程序221,将所述多个记录文件F1上传并储存于网络上的一分享储存池P1中(步骤S26)。
如图4所示,该常驻程序221主要是监控该实体主机22的各项数值信息,例如中央处理器、存储器、硬盘的使用状态,以及网络的流量、温度、电压及风扇转速状态等,但不加以限定。并且更具体而言,该常驻程序221系统计上述所述多个数值信息,并加以制成.rrd文件,以利该管理终端3查看。本实施例中,该常驻程序221侧如将中央处理器的状态制成cpu.rrd的文件、将存储器的状态制成memory.rrd的文件、将硬盘的状态制作disk.rrd的文件、将网络的流量制成network.rrd的文件、将温度的状态制成temperature.rrd的文件、将电压的状态制成voltage.rrd的文件、并将风扇转速状态制成fanspped.rrd的文件。然而以上所述仅为本发明的具体实例,不应以此为限。
该管理终端3中主要具有一监控应用程序接口(Application ProgrammingInterface,API)31及一使用者界面32,该管理终端3可通过该监控API 31,由该分享储存池P1中取得所述多个记录文件F1,并且,通过该使用者界面32来显示所述多个实体主机22的运作状况,以利管理人员查看并加以分析。
续请参阅图6,为本发明的第一具体实施例的强制退出流程图。首先,该管理终端3通过内部的该监控API 31,自动于该分享储存池P1中取得所有该实体主机22的该记录文件F1(步骤S30),接着,依据所述多个记录文件F1,分析所述多个实体主机22的运作状况(步骤S32)。该监控API 31分析所述多个实体主机22是否有运作异常的现象(步骤S34),若所述多个实体主机22中没有任何一台运作异常,则回到该步骤S30,重复由该分享储存池P1中取得更新后的所述多个记录文件F1。而若该监控API 31判断有任一台该实体主机22的运作异常,则通过该使用者界面32来显示一警示信息(步骤S36),以令管理人员知晓。
本实施例中,由该监控API 31依据该步骤S34的分析结果,产生一异常事件信息或一异常状态信息,以通知管理人员。其中,于该实体主机22发生异常事件,例如CPU使用率达70%、网络流量每秒超过10M或温度超过70度时,产生该异常事件信息;并且,该监控API 31于该实体主机22发生异常事件并持续一预定时间时,判断该实体主机22处于异常状态(例如CPU使用率达70%且超过5分钟),进而产生该异常状态信息。如此,该管理终端3可针对该异常事件信息及该异常状态信息,分别发出不同的警示信息,或是通知不同的管理人员以进行处理。
该步骤S36之后,该管理终端3可通过该使用者界面32接受管理人员的外部触发(步骤S38),再依据该触发来产生该控制信号C1,并传送该控制信号C1至该运作异常的实体主机22所在的该机柜21(步骤S40);再者,该管理终端3也可于该异常事件信息或该异常状态信息产生后,自动产生该控制指令C1,并且自动传送该控制指令C1至该运作异常的实体主机22所在的机柜21(步骤S42),不加以限定。如此,在该步骤S40或S42的后,该机柜21即可依据该控制指令C1,强制令该运作异常的实体主机22退出,以利管理人员寻找并进行更换。
上述第一实施例中,预设该常驻程序221的执行校能较差,无法执行复杂的运算,是以,该常驻程序221仅用以搜集并统计所述多个实体主机22中的信息,并把分析判断的动作交由该管理终端3来执行。然而,若该常驻程序221足以执行复杂的运算,则也可直接由该常驻程序221来分析该实体主机22的运作状况,以减轻该管理终端3的负担(Loading)。
请同时参阅图7、图8及图9,分别为本发明的第二具体实施例的系统架构图、系统方块图及监控流程图。如图8所示,本实施例中,各该实体主机22内分别执行有运算能力较强的一常驻程序222,并且,该管理终端3中还具有一信息队列33。
如图9所示,若要对该机柜21中的所述多个实体主机22进行监控,首先,需通过该常驻程序222来监控该实体主机22中的各项数值信息(步骤S50),例如上述中央处理器、存储器及硬盘的使用状态等。接着,该常驻程序222依据所述多个数值信息,与预设的一门限值进行比对计算(步骤S52),藉此,依据计算结果判断该实体主机22是否有运作异常的现象,更具体而言,判断该实体主机22是否发生异常事件,或是否处于异常状态(步骤S54)。若没有任何一台该实体主机22的运作异常,则回到该步骤S50,由该常驻程序222持续监控该实体主机22的信息;若判断其中一台该实体主机22的运作异常,则该常驻程序222产生该异常信息M1(步骤S56),并且,对外传送该异常信息M1(步骤S58)。
本实施例中,该常驻程序222于该实体主机22发生异常事件时(例如CPU使用率超过70%),产生该异常事件信息并对外传送,并于该实体主机22处于异常状态时(例如CPU使用率超过70%逾5分钟),产生该异常状态信息并对外传送。其中,该实体主机22于发生异常事件并持续一预定时间时,被该常驻程序222视为处于异常状态。
如图8所示,该管理终端3具有该信息队列33,上述该步骤S58中,该常驻程序222将该异常信息M1(该异常事件信息或该异常状态信息)传送至该管理终端3,由此,排列于该信息队列33中。如此一来,该管理终端3可通过该使用者界面32来显示该警示信息,以通知相关的处理人员知晓。
再者,该云端网络中还可设置有一数据库4,该数据库4通过网络系统与所述多个实体主机22及该管理终端3连线,上述该步骤S58中,该常驻程序222可将该异常信息M1传送并储存于该数据库4中。如此,该管理终端3可定期连线至该数据库4,以存取该数据库4中的该异常信息M1。然而,以上所述仅为本发明的较佳具体实例,不应以此为限。
续请参阅图10,为本发明的第二具体实施例的强制退出流程图。当所述多个实体主机22的其中的一运作异常时,该管理终端3先接收到该异常信息M1(步骤S60),更具体而言,该管理终端3可于该信息队列33中取得该异常信息M1,或连线至该数据库4以存取该异常信息M1,但不加以限定。该管理终端3接收该异常信息M1后,通过该使用者界面32显示该警示信息(步骤S62),以通知管理人员知晓。
本实施例中,该管理终端3也可通过该使用者界面32来接受管理人员的外部触发(步骤S64),并依据该触发来产生该控制信号C1,并传送该控制信号C1至该运作异常的实体主机22所在的该机柜21(步骤S66);并且,该管理终端3也可于接收该异常信息M1后,自动产生该控制指令C1,并且自动传送该控制指令C1至该运作异常的实体主机22所在的该机柜21(步骤S68)。由此,该机柜21可依据该控制指令C1的内容,令该运作异常的实体主机22退出该机柜21。
接续请参阅图11,为本发明的第三具体实施例的系统方块图。如图所示,该机柜21内部具有一控制模块23,该机柜21通过该控制模块23接收该管理终端3发出的该控制指令C1,由此,该控制模块23依据该控制指令C1的内容,令对应位置上的该实体主机22退出该机柜21外。
请同时参阅图12A及图12B,分别为本发明的一具体实施例的实体主机退出机柜前示意图与实体主机退出机柜后示意图。如图所示,该机柜21可于每一个插槽的后方分别设置有弹性元件212,例如弹簧、油压、气压、橡胶等构件,并且,于插槽前方设置可受该控制模块23控制的卡榫213。并且,每一台该实体主机22系于机壳上设置有对应的卡挚部223,当该实体主机22置入插槽中时,该卡挚部223恰可与该卡榫213互相对应,由此该机柜21可通过该卡榫213将该实体主机22卡固于该插槽中。
于前文所述的步骤S18、S40、S42、S66及S68中,该机柜21主要是通过该控制模块23接收该控制指令C1,并且,该控制模块23再依据该控制指令C1的内容,控制该机柜21的对应位置上的该卡榫213移动,以令该对应位置中的该实体主机22退出该机柜21。更具体而言,该控制模块23控制该卡榫213脱离该实体主机22机壳上的该卡挚部223,以令该机柜21后方的该弹性元件212将该实体主机22弹出该插槽外。然而以上所述仅为本发明的一较佳实例,不应以此为限。
更具体而言,该机柜21可于对应位置上设置有线圈电路214,当该控制模块23欲令该实体主机22退出时,令该线圈电路214通电以产生磁力,以吸引该卡榫213(如图12B所示)。如此,该卡榫213脱离该实体主机22机壳上的该卡挚部223,进而该机柜21后方的该弹性元件212将该实体主机22弹出插槽外。于本实施例中,该卡榫213为可受磁力吸引的材质所构成。然而,以上所述仅为本发明的一较佳具体实例,该机柜21实可通过其他方式来退出该实体主机22,应视实际结构而定,不应以此为限。
以上所述仅为本发明的较佳具体实例,非因此即局限本发明的专利范围,故举凡运用本发明内容所为的等效变化,均同理皆包含于本发明的范围内,合予陈明。

Claims (20)

1.一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜之中,该云端系统的主机监控及异常处理方法包括:
a)该管理终端取得指出至少一台该实体主机运作异常的异常信息;
b)该管理终端依据该异常信息产生一控制指令,并传送该控制指令至该实体主机所在的机柜;
c)该机柜接收该控制指令,并依据该控制指令控制对应的该实体主机退出该机柜之外。
2.如权利要求1所述的云端系统的主机监控及异常处理方法,其中该机柜内部具有一控制模块,并且该机柜中的各个插槽上分别设有用以卡固该实体主机的卡榫,该步骤c还包括:
c1)该机柜通过该控制模块接收该控制指令;
c2)该控制模块依据该控制指令的内容,控制该机柜的对应位置上的该卡榫移动,以令该对应位置中的该实体主机退出该机柜。
3.如权利要求1所述的云端系统的主机监控及异常处理方法,其中还包括一步骤d:该机柜接收该控制指令,并依据该控制指令于该机柜的对应位置发出一警示信号。
4.如权利要求3所述的云端系统的主机监控及异常处理方法,其中该机柜于各该实体主机的配置位置上分别设置有发光元件,该步骤d中通过该发光元件发出该警示信号。
5.如权利要求1所述的云端系统的主机监控及异常处理方法,其中该管理终端内具有一监控应用程序接口,并且该步骤a包括下列步骤:
a1)该管理终端通过内部的该监控应用程序接口,于网络上的一分享储存池中取得该云端机房中的所有实体主机的至少一记录文件,其中所述至少一记录文件分别记录所述实体主机的运作状况;及
a2)该管理终端依据所述至少一记录文件进行计算,以判断所述实体主机是否有运作异常的现象。
6.如权利要求5所述的云端系统的主机监控及异常处理方法,其中各该实体主机内部分别具有一常驻模块,该步骤a之前还包括下列步骤:
a01)各该实体主机通过内部的该常驻模块,监控各该实体主机的各项数值信息;
a02)该常驻模块分别统计各项数值信息;
a23)该常驻模块依据统计结果制作该记录文件;及
a14)该常驻模块将该记录文件储存于网络上的该分享储存池中。
7.如权利要求6所述的云端系统的主机监控及异常处理方法,其中该记录文件分别统计各该实体主机的中央处理器状态、存储器状态、硬盘状态、网络状态、温度状态、电压状态及风扇转速状态。
8.如权利要求6所述的云端系统的主机监控及异常处理方法,其中该记录文件为.rrd文件。
9.如权利要求5所述的云端系统的主机监控及异常处理方法,其中该步骤a2中,该管理终端判断该实体主机是否发生异常事件,并判断该实体主机是否处于异常状态,其中该实体主机于持续发生异常事件达一预定时间后,被视为处于异常状态。
10.如权利要求9所述的云端系统的主机监控及异常处理方法,其中该管理终端于该实体主机出现异常事件时产生一异常事件信息,并于该实体主机处于异常状态时产生一异常状态信息。
11.如权利要求1所述的云端系统的主机监控及异常处理方法,其中该管理终端更提供一使用者界面,该步骤b包括下列步骤:
b1)该使用者界面接受外部的触发;及
b2)依据上述触发产生并传送该控制信号。
12.如权利要求11所述的云端系统的主机监控及异常处理方法,其中还包括一步骤b3:通过该使用者界面显示一警示信息。
13.如权利要求1所述的云端系统的主机监控及异常处理方法,其中各该实体主机内部分别具有一常驻模块,该步骤a之前还包括下列步骤:
a11)各该实体主机通过内部的该常驻模块,监控各该实体主机的各项数值信息;
a12)该常驻模块依据所述多个数值信息与预设的一门限值进行计算;
a13)该常驻模块依据计算结果判断该实体主机是否出现运作异常的现象;
a14)若判断该实体主机运作异常,该常驻模块产生该异常信息;及
a15)该常驻模块对外传送该异常信息。
14.如权利要求13所述的云端系统的主机监控及异常处理方法,其中该步骤a13中,判断该实体主机是否发生异常事件,并判断该实体主机是否处于异常状态,其中该实体主机于持续发生异常事件达一预定时间后,被视为处于异常状态。
15.如权利要求14所述的云端系统的主机监控及异常处理方法,其中该步骤a14及该步骤a15中,于该实体主机有发生异常事件时,产生一异常事件信息并对外传送,并于该实体主机处于异常状态时,产生一异常状态信息并对外传送。
16.如权利要求13所述的云端系统的主机监控及异常处理方法,其中该步骤a15中,该实体主机通过该常驻模块,将该异常信息传送至该管理终端。
17.如权利要求16所述的云端系统的主机监控及异常处理方法,其中该管理终端内执行有至少一信息队列,各该实体主机分别传送该异常信息并排列于该信息队列。
18.如权利要求13所述的云端系统的主机监控及异常处理方法,其中该步骤a15中,该实体主机通过该常驻模块,将该异常信息传送至一数据库,该步骤a中,该管理终端连线至该数据库中以取得该异常信息。
19.一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜的中,该多个实体主机内部分别具有一常驻模块,该云端系统的主机监控及异常处理方法包括:
a)各该实体主机分别通过内部的该常驻模块,监控各该实体主机的各项数值信息;
b)该常驻模块分别统计所述多个数值信息,并依据统计结果制作一记录文件;
c)该常驻模块将该记录文件储存于网络上的一分享储存池中;
d)该管理终端通过内部的监控应用程序接口,于该分享储存池中取得所有实体主机的该记录文件;
e)该管理终端依据所述多个记录文件进行计算,以判断所述多个实体主机是否有运作异常的现象;
f)承步骤e,当所述多个实体主机的其中之一有运作异常的现象时,该管理终端产生一控制指令,并传送至该运作异常的实体主机所在的机柜;及
g)该机柜接收该控制指令,并依据该控制指令控制该运作异常的实体主机退出该机柜之外。
20.一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜的中,该多个实体主机内部分别具有一常驻模块,该云端系统的主机监控及异常处理方法包括:
a)各该实体主机分别通过内部的该常驻模块,监控各该实体主机的各项数值信息;
b)该常驻模块依据所述多个数值信息与预设的一门限值进行计算,并依据计算结果判断该实体主机是否有运作异常的现象;
c)若该常驻模块判断该实体主机运作异常,该常驻模块产生一异常信息;
d)该常驻模块对外传送该异常信息,并排列于该管理终端中的一信息队列中;
e)该管理终端依据该信息队列中的该异常信息产生一控制指令,并传送至该运作异常的实体主机所在的机柜;及
f)该机柜接收该控制指令,并依据该控制指令控制该运作异常的实体主机退出该机柜之外。
CN2012100844843A 2012-03-27 2012-03-27 云端系统的主机监控及异常处理方法 Pending CN103365755A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2012100844843A CN103365755A (zh) 2012-03-27 2012-03-27 云端系统的主机监控及异常处理方法
TW101114612A TWI467366B (zh) 2012-03-27 2012-04-24 雲端系統的主機監控及異常處理方法
US13/743,933 US20130262914A1 (en) 2012-03-27 2013-01-17 Cloud system and method for monitoring and handling abnormal states of physical machine in the cloud system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100844843A CN103365755A (zh) 2012-03-27 2012-03-27 云端系统的主机监控及异常处理方法

Publications (1)

Publication Number Publication Date
CN103365755A true CN103365755A (zh) 2013-10-23

Family

ID=49236725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100844843A Pending CN103365755A (zh) 2012-03-27 2012-03-27 云端系统的主机监控及异常处理方法

Country Status (3)

Country Link
US (1) US20130262914A1 (zh)
CN (1) CN103365755A (zh)
TW (1) TWI467366B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119767A (zh) * 2015-06-29 2015-12-02 北京宇航时代科技发展有限公司 一种数据自检及自清理的软件运行状态监测方法及系统
CN106383771A (zh) * 2016-09-29 2017-02-08 郑州云海信息技术有限公司 一种主机集群监控方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9049176B2 (en) 2011-06-22 2015-06-02 Dropbox, Inc. File sharing via link generation
US9378079B2 (en) * 2014-09-02 2016-06-28 Microsoft Technology Licensing, Llc Detection of anomalies in error signals of cloud based service
TWI573702B (zh) * 2015-10-12 2017-03-11 Mobiletron Electronics Co Ltd Tire pressure sensor burner
TWI579691B (zh) * 2015-11-26 2017-04-21 Chunghwa Telecom Co Ltd Method and System of IDC Computer Room Entity and Virtual Host Integration Management
CN109040277A (zh) * 2018-08-20 2018-12-18 北京奇虎科技有限公司 一种服务器的远程监控方法及装置
CN109284199A (zh) * 2018-09-04 2019-01-29 深圳市宝德计算机系统有限公司 服务器异常处理方法、设备、以及处理器
CN112231174B (zh) * 2020-09-30 2024-02-23 中国银联股份有限公司 异常告警方法、装置、设备及存储介质
JP7282066B2 (ja) * 2020-10-26 2023-05-26 株式会社日立製作所 データ圧縮装置及びデータ圧縮方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466053A (zh) * 2002-06-10 2004-01-07 联想(北京)有限公司 机群故障定位与报警的方法与系统
US20080068199A1 (en) * 2006-09-13 2008-03-20 Franz John P Computer system indicator panel with exposed indicator edge
US20090328083A1 (en) * 2008-06-30 2009-12-31 Matthew Bogner Ejection of storage drives in a computing network
CN102063360A (zh) * 2010-11-29 2011-05-18 深圳市五巨科技有限公司 一种远程服务器监控报警的方法和装置
CN202066932U (zh) * 2011-05-20 2011-12-07 华南理工大学 便携式局部放电超声波云检测装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5900010A (en) * 1996-03-05 1999-05-04 Sony Corporation Apparatus for recording magneto-optic disks
US7096459B2 (en) * 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems
US7484040B2 (en) * 2005-05-10 2009-01-27 International Business Machines Corporation Highly available removable media storage network environment
TWM324940U (en) * 2007-06-13 2008-01-01 Intellegent System Corp Intelligent machine rack
JP5428075B2 (ja) * 2009-04-17 2014-02-26 株式会社日立製作所 性能モニタリングシステム、ボトルネック判定方法及び管理計算機
US8839032B2 (en) * 2009-12-08 2014-09-16 Hewlett-Packard Development Company, L.P. Managing errors in a data processing system
US8255738B2 (en) * 2010-05-18 2012-08-28 International Business Machines Corporation Recovery from medium error on tape on which data and metadata are to be stored by using medium to medium data copy
US9384112B2 (en) * 2010-07-01 2016-07-05 Logrhythm, Inc. Log collection, structuring and processing
TWM402588U (en) * 2010-11-01 2011-04-21 Inventec Corp Rack server
TWM414870U (en) * 2011-03-30 2011-11-01 dong-qing Yang Computerized goods cabinet
US20130227352A1 (en) * 2012-02-24 2013-08-29 Commvault Systems, Inc. Log monitoring

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466053A (zh) * 2002-06-10 2004-01-07 联想(北京)有限公司 机群故障定位与报警的方法与系统
US20080068199A1 (en) * 2006-09-13 2008-03-20 Franz John P Computer system indicator panel with exposed indicator edge
US20090328083A1 (en) * 2008-06-30 2009-12-31 Matthew Bogner Ejection of storage drives in a computing network
CN102063360A (zh) * 2010-11-29 2011-05-18 深圳市五巨科技有限公司 一种远程服务器监控报警的方法和装置
CN202066932U (zh) * 2011-05-20 2011-12-07 华南理工大学 便携式局部放电超声波云检测装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119767A (zh) * 2015-06-29 2015-12-02 北京宇航时代科技发展有限公司 一种数据自检及自清理的软件运行状态监测方法及系统
CN106383771A (zh) * 2016-09-29 2017-02-08 郑州云海信息技术有限公司 一种主机集群监控方法及装置

Also Published As

Publication number Publication date
TWI467366B (zh) 2015-01-01
US20130262914A1 (en) 2013-10-03
TW201339834A (zh) 2013-10-01

Similar Documents

Publication Publication Date Title
CN103365755A (zh) 云端系统的主机监控及异常处理方法
US11586256B2 (en) Server rack for improved data center management
JP6438035B2 (ja) ラックスケールアーキテクチャコンピューティングシステムのためのワークロード最適化、スケジューリング及び配置
US11457029B2 (en) Log analysis based on user activity volume
US8433547B2 (en) System and method for analyzing nonstandard facility operations within a data center
CN103403686B (zh) 用于根本原因分析的系统和方法
JP5736881B2 (ja) ログ収集システム、装置、方法及びプログラム
CN103069749B (zh) 虚拟环境中的问题的隔离的方法和系统
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
US9319284B2 (en) Operation delay monitoring method, operation management apparatus, and operation management program
CN102782736A (zh) 警报综合系统和方法
US11611484B2 (en) System and method for use of virtual or augmented reality with data center operations or cloud infrastructure
CN105119737A (zh) 一种通过Zabbix监控Ceph集群的方法
CN106998265A (zh) 一种监控方法及其装置
US20210049136A1 (en) Data center modeling for facility operations
JP2024521357A (ja) Mlモデルを用いて準リアルタイムデータ/オフラインデータでデータセンタの大規模な故障の検出
US20140189103A1 (en) System for monitoring servers and method thereof
CN111861221A (zh) 设备故障信息的推送方法和装置、存储介质及电子装置
US20240037831A1 (en) Datacenter dashboard with temporal features
US10587465B1 (en) Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application
CN113473086A (zh) 视频播放的方法、装置、电子设备、智慧高速大屏
JP2008108154A (ja) 稼働性能情報の管理システム
US11556120B2 (en) Systems and methods for monitoring performance of a building management system via log streams
KR20220021339A (ko) 스마트 팜 시스템에서 다중 축사 장비의 동적 이상상황 인지 시스템 및 방법
JP2020035297A (ja) 機器状態監視装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: HOPE BAY TECHNOLOGIES, INC.

Free format text: FORMER OWNER: TAIDA ELECTRONIC INDUSTRY CO. LTD.

Effective date: 20150114

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150114

Address after: Chau Street China Neihu district of Taipei city Taiwan 48 Building No. 2

Applicant after: HOPE BAY TECHNOLOGIES, INC.

Address before: China Taiwan Taoyuan County

Applicant before: Delta Optoelectronics Inc.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131023