发明内容
本发明的主要目的,在于提供一种云端系统的主机监控及异常处理方法,可令管理人员通过管理终端来监控云端机房中多台实体主机的运作状况,并于实体主机运作异常时,强制运作异常的实体主机由机柜中退出。
本发明提供了一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜之中,该云端系统的主机监控及异常处理方法包括:
a)该管理终端取得指出至少一台该实体主机运作异常的异常信息;
b)该管理终端依据该异常信息产生一控制指令,并传送该控制指令至该实体主机所在的机柜;
c)该机柜接收该控制指令,并依据该控制指令控制对应的该实体主机退出该机柜之外。
本发明还提供了一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜的中,该多个实体主机内部分别具有一常驻模块,该云端系统的主机监控及异常处理方法包括:
a)各该实体主机分别通过内部的该常驻模块,监控各该实体主机的各项数值信息;
b)该常驻模块分别统计所述多个数值信息,并依据统计结果制作一记录文件;
c)该常驻模块将该记录文件储存于网络上的一分享储存池中;
d)该管理终端通过内部的监控应用程序接口,于该分享储存池中取得所有实体主机的该记录文件;
e)该管理终端依据所述多个记录文件进行计算,以判断所述多个实体主机是否有运作异常的现象;
f)承步骤e,当所述多个实体主机的其中之一有运作异常的现象时,该管理终端产生一控制指令,并传送至该运作异常的实体主机所在的机柜;及
g)该机柜接收该控制指令,并依据该控制指令控制该运作异常的实体主机退出该机柜之外。
本发明还提供了一种云端系统的主机监控及异常处理方法,运用于至少一管理终端及多个实体主机之上,其中该多个实体主机分别设置于机房中的多个机柜的中,该多个实体主机内部分别具有一常驻模块,该云端系统的主机监控及异常处理方法包括:
a)各该实体主机分别通过内部的该常驻模块,监控各该实体主机的各项数值信息;
b)该常驻模块依据所述多个数值信息与预设的一门限值进行计算,并依据计算结果判断该实体主机是否有运作异常的现象;
c)若该常驻模块判断该实体主机运作异常,该常驻模块产生一异常信息;
d)该常驻模块对外传送该异常信息,并排列于该管理终端中的一信息队列中;
e)该管理终端依据该信息队列中的该异常信息产生一控制指令,并传送至该运作异常的实体主机所在的机柜;及
f)该机柜接收该控制指令,并依据该控制指令控制该运作异常的实体主机退出该机柜之外。
为达上述目的,本发明于云端的各实体主机中分别具有一常驻模块,并由常驻模块来监控实体主机的健康状况,并提供给云端的一管理终端。当管理终端察觉有任一实体主机的运作异常时,即发出一控制指令至运作异常的实体主机所在的机柜,并由机柜来强制运作异常的实体主机退出机柜之外。
本发明对照先前技术所能达成的功效在于,各实体主机中的常驻模块会持续监控实体主机的各项数值信息,进而可判断实体主机的运作状况是否异常。管理人员可于远端操控管理终端,并由管理终端的使用者界面直接得知云端机房中的所有实体主机的运作状况,并且,当实体主机的运作异常,需要更换时,可直接强制该运作异常的实体主机由机柜中退出。如此一来,当管理人员至云端机房中,并欲更换实体主机时,可因该运作异常的实体主机已退出机柜,而轻易的找到目标,不会因为机房中的所有实体主机皆长得一模一样,而有难以寻找,甚至更换错误的困扰。
具体实施方式
兹就本发明的一较佳实施例,配合图式,详细说明如后。
本发明主要为一种云端系统的主机监控及异常处理方法,运用于云端系统的一管理终端(如图3中所示的该管理终端3)及多个的实体主机(如图3中所示的该实体主机22)之上。当云端系统中的其中一台该实体主机22需要被更换时,该管理终端3可受外部操控,或由该管理终端3自动控制需要被更换的该实体主机22所在的机柜(如图3中所示的该机柜21),以强制需要被更换的该实体主机22退出该机柜21。如此一来,有利于管理人员至现场查看时,能快速且正确地找到需要被更换的该实体主机22。
首请参阅图2,为本发明的一具体实施例的监控及控制流程图。首先,该管理终端3先取得指出该实体主机22运作异常的一异常信息(如图7中的该异常信息M1)(步骤S10),其中该管理终端3可通过多种方式取得该异常信息,将于下文中一一详述。
接着,该管理终端3依据该异常信息M1产生一控制指令(如图3中所示的该控制指令C1),并将该控制指令C1传送至该运作异常的实体主机22所在的该机柜21(步骤S12)。该机柜21接收该控制指令C1(步骤S14),并且依据该控制指令C1的内容,于对应位置上发出一警示信号(步骤S16)。本实施例中,该机柜21可于所述多个实体主机22的配置位置上,分别设置有至少一发光元件(例如图12A中所示的发光二极管211),以于该步骤S16中,该机柜21可由对应位置上的该发光元件211来发出警示信号(例如令LED发亮)。如此,当管理人员至现场查看时,可通过该发光元件211来迅速地找到需要更换的该实体主机22。
最后,该机柜1再依据该控制指令C1的内容,强制对应位置上的该实体主机22退出该机柜21(步骤S18)。由此,当管理人员至现场查看时,可迅速发现已退出该机柜21的该实体主机22,进而进行更换动作。本发明的主要目的,在于令管理人员可迅速且正确的发现需要更换的该实体主机22,因此,在该步骤S16及该步骤S18皆可达成上述目的的前提之下,该步骤S16及该步骤S18不必然同时存在,不可加以限定。
续请同时参阅图3、图4及图5,分别为本发明的第一具体实施例的系统架构图、系统方块图及监控流程图。如上所述,一个云端系统实可具有多个机房,并且每个机房中皆具有许多机柜21,为方便说明,本实施例中仅以一个机柜21来举例说明,并且该机柜21中配置有多台实体主机22,但不加以限定。如图所示,每一台该实体主机22中皆具有一常驻模块221,该常驻模块221可以采用常驻程序的形式实现,该常驻程序221为常态性执行,并且持续监控该实体主机22中的各项数值数据,进而可分析该实体主机22的健康状况。
如图5所示,首先,该常驻程序221监控该实体主机22的各项数值信息(步骤S20),并且,分别对所述多个数值信息加以统计(步骤S22)。进而,该常驻程序221可依据统计结果,制作一或多个记录文件F1(步骤S24),最后,该机柜21中的所述多个实体主机22,分别通过内部的该常驻程序221,将所述多个记录文件F1上传并储存于网络上的一分享储存池P1中(步骤S26)。
如图4所示,该常驻程序221主要是监控该实体主机22的各项数值信息,例如中央处理器、存储器、硬盘的使用状态,以及网络的流量、温度、电压及风扇转速状态等,但不加以限定。并且更具体而言,该常驻程序221系统计上述所述多个数值信息,并加以制成.rrd文件,以利该管理终端3查看。本实施例中,该常驻程序221侧如将中央处理器的状态制成cpu.rrd的文件、将存储器的状态制成memory.rrd的文件、将硬盘的状态制作disk.rrd的文件、将网络的流量制成network.rrd的文件、将温度的状态制成temperature.rrd的文件、将电压的状态制成voltage.rrd的文件、并将风扇转速状态制成fanspped.rrd的文件。然而以上所述仅为本发明的具体实例,不应以此为限。
该管理终端3中主要具有一监控应用程序接口(Application ProgrammingInterface,API)31及一使用者界面32,该管理终端3可通过该监控API 31,由该分享储存池P1中取得所述多个记录文件F1,并且,通过该使用者界面32来显示所述多个实体主机22的运作状况,以利管理人员查看并加以分析。
续请参阅图6,为本发明的第一具体实施例的强制退出流程图。首先,该管理终端3通过内部的该监控API 31,自动于该分享储存池P1中取得所有该实体主机22的该记录文件F1(步骤S30),接着,依据所述多个记录文件F1,分析所述多个实体主机22的运作状况(步骤S32)。该监控API 31分析所述多个实体主机22是否有运作异常的现象(步骤S34),若所述多个实体主机22中没有任何一台运作异常,则回到该步骤S30,重复由该分享储存池P1中取得更新后的所述多个记录文件F1。而若该监控API 31判断有任一台该实体主机22的运作异常,则通过该使用者界面32来显示一警示信息(步骤S36),以令管理人员知晓。
本实施例中,由该监控API 31依据该步骤S34的分析结果,产生一异常事件信息或一异常状态信息,以通知管理人员。其中,于该实体主机22发生异常事件,例如CPU使用率达70%、网络流量每秒超过10M或温度超过70度时,产生该异常事件信息;并且,该监控API 31于该实体主机22发生异常事件并持续一预定时间时,判断该实体主机22处于异常状态(例如CPU使用率达70%且超过5分钟),进而产生该异常状态信息。如此,该管理终端3可针对该异常事件信息及该异常状态信息,分别发出不同的警示信息,或是通知不同的管理人员以进行处理。
该步骤S36之后,该管理终端3可通过该使用者界面32接受管理人员的外部触发(步骤S38),再依据该触发来产生该控制信号C1,并传送该控制信号C1至该运作异常的实体主机22所在的该机柜21(步骤S40);再者,该管理终端3也可于该异常事件信息或该异常状态信息产生后,自动产生该控制指令C1,并且自动传送该控制指令C1至该运作异常的实体主机22所在的机柜21(步骤S42),不加以限定。如此,在该步骤S40或S42的后,该机柜21即可依据该控制指令C1,强制令该运作异常的实体主机22退出,以利管理人员寻找并进行更换。
上述第一实施例中,预设该常驻程序221的执行校能较差,无法执行复杂的运算,是以,该常驻程序221仅用以搜集并统计所述多个实体主机22中的信息,并把分析判断的动作交由该管理终端3来执行。然而,若该常驻程序221足以执行复杂的运算,则也可直接由该常驻程序221来分析该实体主机22的运作状况,以减轻该管理终端3的负担(Loading)。
请同时参阅图7、图8及图9,分别为本发明的第二具体实施例的系统架构图、系统方块图及监控流程图。如图8所示,本实施例中,各该实体主机22内分别执行有运算能力较强的一常驻程序222,并且,该管理终端3中还具有一信息队列33。
如图9所示,若要对该机柜21中的所述多个实体主机22进行监控,首先,需通过该常驻程序222来监控该实体主机22中的各项数值信息(步骤S50),例如上述中央处理器、存储器及硬盘的使用状态等。接着,该常驻程序222依据所述多个数值信息,与预设的一门限值进行比对计算(步骤S52),藉此,依据计算结果判断该实体主机22是否有运作异常的现象,更具体而言,判断该实体主机22是否发生异常事件,或是否处于异常状态(步骤S54)。若没有任何一台该实体主机22的运作异常,则回到该步骤S50,由该常驻程序222持续监控该实体主机22的信息;若判断其中一台该实体主机22的运作异常,则该常驻程序222产生该异常信息M1(步骤S56),并且,对外传送该异常信息M1(步骤S58)。
本实施例中,该常驻程序222于该实体主机22发生异常事件时(例如CPU使用率超过70%),产生该异常事件信息并对外传送,并于该实体主机22处于异常状态时(例如CPU使用率超过70%逾5分钟),产生该异常状态信息并对外传送。其中,该实体主机22于发生异常事件并持续一预定时间时,被该常驻程序222视为处于异常状态。
如图8所示,该管理终端3具有该信息队列33,上述该步骤S58中,该常驻程序222将该异常信息M1(该异常事件信息或该异常状态信息)传送至该管理终端3,由此,排列于该信息队列33中。如此一来,该管理终端3可通过该使用者界面32来显示该警示信息,以通知相关的处理人员知晓。
再者,该云端网络中还可设置有一数据库4,该数据库4通过网络系统与所述多个实体主机22及该管理终端3连线,上述该步骤S58中,该常驻程序222可将该异常信息M1传送并储存于该数据库4中。如此,该管理终端3可定期连线至该数据库4,以存取该数据库4中的该异常信息M1。然而,以上所述仅为本发明的较佳具体实例,不应以此为限。
续请参阅图10,为本发明的第二具体实施例的强制退出流程图。当所述多个实体主机22的其中的一运作异常时,该管理终端3先接收到该异常信息M1(步骤S60),更具体而言,该管理终端3可于该信息队列33中取得该异常信息M1,或连线至该数据库4以存取该异常信息M1,但不加以限定。该管理终端3接收该异常信息M1后,通过该使用者界面32显示该警示信息(步骤S62),以通知管理人员知晓。
本实施例中,该管理终端3也可通过该使用者界面32来接受管理人员的外部触发(步骤S64),并依据该触发来产生该控制信号C1,并传送该控制信号C1至该运作异常的实体主机22所在的该机柜21(步骤S66);并且,该管理终端3也可于接收该异常信息M1后,自动产生该控制指令C1,并且自动传送该控制指令C1至该运作异常的实体主机22所在的该机柜21(步骤S68)。由此,该机柜21可依据该控制指令C1的内容,令该运作异常的实体主机22退出该机柜21。
接续请参阅图11,为本发明的第三具体实施例的系统方块图。如图所示,该机柜21内部具有一控制模块23,该机柜21通过该控制模块23接收该管理终端3发出的该控制指令C1,由此,该控制模块23依据该控制指令C1的内容,令对应位置上的该实体主机22退出该机柜21外。
请同时参阅图12A及图12B,分别为本发明的一具体实施例的实体主机退出机柜前示意图与实体主机退出机柜后示意图。如图所示,该机柜21可于每一个插槽的后方分别设置有弹性元件212,例如弹簧、油压、气压、橡胶等构件,并且,于插槽前方设置可受该控制模块23控制的卡榫213。并且,每一台该实体主机22系于机壳上设置有对应的卡挚部223,当该实体主机22置入插槽中时,该卡挚部223恰可与该卡榫213互相对应,由此该机柜21可通过该卡榫213将该实体主机22卡固于该插槽中。
于前文所述的步骤S18、S40、S42、S66及S68中,该机柜21主要是通过该控制模块23接收该控制指令C1,并且,该控制模块23再依据该控制指令C1的内容,控制该机柜21的对应位置上的该卡榫213移动,以令该对应位置中的该实体主机22退出该机柜21。更具体而言,该控制模块23控制该卡榫213脱离该实体主机22机壳上的该卡挚部223,以令该机柜21后方的该弹性元件212将该实体主机22弹出该插槽外。然而以上所述仅为本发明的一较佳实例,不应以此为限。
更具体而言,该机柜21可于对应位置上设置有线圈电路214,当该控制模块23欲令该实体主机22退出时,令该线圈电路214通电以产生磁力,以吸引该卡榫213(如图12B所示)。如此,该卡榫213脱离该实体主机22机壳上的该卡挚部223,进而该机柜21后方的该弹性元件212将该实体主机22弹出插槽外。于本实施例中,该卡榫213为可受磁力吸引的材质所构成。然而,以上所述仅为本发明的一较佳具体实例,该机柜21实可通过其他方式来退出该实体主机22,应视实际结构而定,不应以此为限。
以上所述仅为本发明的较佳具体实例,非因此即局限本发明的专利范围,故举凡运用本发明内容所为的等效变化,均同理皆包含于本发明的范围内,合予陈明。