CN112799909A - 一种服务器自动化管理系统及方法 - Google Patents

一种服务器自动化管理系统及方法 Download PDF

Info

Publication number
CN112799909A
CN112799909A CN202110106655.7A CN202110106655A CN112799909A CN 112799909 A CN112799909 A CN 112799909A CN 202110106655 A CN202110106655 A CN 202110106655A CN 112799909 A CN112799909 A CN 112799909A
Authority
CN
China
Prior art keywords
server
data
healing
self
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110106655.7A
Other languages
English (en)
Inventor
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Handpay Information & Technology Co ltd
Original Assignee
Shanghai Handpay Information & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Handpay Information & Technology Co ltd filed Critical Shanghai Handpay Information & Technology Co ltd
Priority to CN202110106655.7A priority Critical patent/CN112799909A/zh
Publication of CN112799909A publication Critical patent/CN112799909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种服务器自动化管理系统及方法,涉及流程自动化技术领域,包括:上架监听模块,用于扫描监听网络中上架的服务器,并获取服务器的基础数据;数据采集模块,用于采集监听到的服务器的硬件数据以及状态数据;异常告警模块,用于在状态数据表示服务器状态异常时生成相应的告警信息并输出;异常自愈模块,用于对告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预;数据库,用于存储基础数据、硬件数据和状态数据。有益效果是把日常琐碎的服务器巡检自动化,彻底告别了以往人为的隔一段时间要去机房巡检的历史,减少人员沟通上时间的浪费。

Description

一种服务器自动化管理系统及方法
技术领域
本发明涉及流程自动化技术领域,尤其涉及一种服务器自动化管理系统及方法。
背景技术
数据中心IT基础设施越来越复杂,数量规模也越来越大,IT运维人员的压力也越来越大,SYS工程师或者IT工程师在日常运维中,有相当一部分时间花在了硬件巡检上,这就无形的占用了一部分工作量,日常故障检测及修复、日常运维大量重复性、耗时较久的任务消耗了大部分IT运维人力资源,真正花在公司服务器架构涉及高可用方案的时间少之又少。因此,亟需一种能够实现服务器自动化管理的方案,以将SYS工程师或者IT工程师从人工巡检中解放出来。
发明内容
针对现有技术中存在的问题,本发明提供一种服务器自动化管理系统,包括:
上架监听模块,用于扫描监听网络中上架的服务器,并获取所述服务器的基础数据;
数据采集模块,连接所述上架监听模块,用于采集监听到的所述服务器的硬件数据以及状态数据;
异常告警模块,连接所述数据采集模块,用于在所述状态数据表示所述服务器状态异常时生成相应的告警信息并输出;
异常自愈模块,连接所述异常告警模块,用于对所述告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预;
数据库,分别连接所述上架监听模块、所述数据采集模块和所述异常自愈模块,用于存储所述基础数据、所述硬件数据和所述状态数据。
优选的,还包括日志记录模块,分别连接所述上架监听模块、所述数据采集模块、所述异常告警模块、所述异常自愈模块和所述数据库,所述日志记录模块包括:
第一记录单元,用于在扫描监听过程中实时记录得到扫描监听日志并存储至所述数据库;和/或
第二记录单元,用于在对监听到的所述服务器进行所述硬件数据采集过程实时记录得到硬件采集日志并存储至所述数据库,以及进行所述状态数据采集过程中实时记录得到状态采集日志并存储至所述数据库;和/或
第三记录单元,用于在对所述状态数据进行异常分析过程中实时记录得到状态异常日志并存储至所述数据库;和/或
第四记录单元,用于在自愈处理过程中实时记录得到自愈过程日志并存储至所述数据库。
优选的,还包括一报表生成模块,连接所述数据库,用于分别根据所述硬件采集日志生成数据硬件报表,和/或根据所述状态采集日志生成数据状态报表,和/或根据所述状态异常日志生成状态异常报表并上报。
优选的,还包括一数据查询模块,连接所述数据库,用于供运维人员对所述数据库中的存储数据进行查询处理。
优选的,还包括一权限管理模块,连接所述数据查询模块,用于供系统管理员对所述运维人员的查询处理权限进行分配管理。
优选的,所述数据库中还存储有预先生成的一问题集,所述问题集中包括至少一所述告警信息以及所述告警信息关联的所述处理方案;
则所述异常自愈模块根据所述告警信息于所述问题集中进行匹配,在匹配得到关联的所述处理方案时,根据所述处理方案进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败或未匹配到关联的所述处理方案时生成报警工单,以提醒进行人为干预。
优选的,待上架的所述服务器中预先配置有远程管理IP地址;
则所述上架监听模块包括:
扫描监听单元,用于在首次扫描监听到网络中接入所述远程管理IP地址且所述远程管理IP地址对应的远程管理端口处于激活状态时输出监听信号;
数据获取单元,连接所述扫描监听单元,用于根据所述监听信号获取对应的所述服务器的品牌型号,并将所述远程管理IP地址、所述远程管理端口以及所述品牌型号作为所述基础数据存储至所述数据库。
本发明还提供一种服务器自动化管理方法,应用于上述的服务器自动化管理系统,包括:
步骤S1,所述服务器自动化管理系统扫描监听网络中上架的服务器,并获取所述服务器的基础数据存储至所述数据库;
步骤S2,所述服务器自动化管理系统采集监听到的所述服务器的硬件数据以及状态数据并存储至所述数据库;
步骤S3,所述服务器自动化管理系统在所述状态数据表示所述服务器状态异常时生成相应的告警信息并输出;
步骤S4,所述服务器自动化管理系统对所述告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预。
优选的,所述数据库中还存储有预先生成的一问题集,所述问题集中包括至少一所述告警信息以及所述告警信息关联的所述处理方案;
则所述步骤S4中,所述服务器自动化管理系统根据所述告警信息于所述问题集中进行匹配,在匹配得到关联的所述处理方案时,根据所述处理方案进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败或未匹配到关联的所述处理方案时生成报警工单,以提醒进行人为干预。
优选的,待上架的所述服务器中预先配置有远程管理IP地址;
则所述步骤S1包括:
步骤S11,所述服务器自动化管理系统在首次扫描监听到网络中接入所述远程管理IP地址且所述远程管理IP地址对应的远程管理端口处于激活状态时输出监听信号;
步骤S12,所述服务器自动化管理系统根据所述监听信号获取对应的所述服务器的品牌型号,并将所述远程管理IP地址、所述远程管理端口以及所述品牌型号作为所述基础数据存储至所述数据库。
上述技术方案具有如下优点或有益效果:
1)通过将服务器的人工巡检自动化,有效提升服务器管理效率以及准确性,同时大大降低了人力成本,节约了SYS工程师或者IT工程师的硬件巡检时间,使得其能够将更多时间用在公司服务器的高可用等核心架构上,以提升公司服务器的运行稳定性;
2)能够自动发现上架服务器并自动识别服务器的品牌及型号,自动采集服务器各项硬件数据及状态数据,且在异常时能够自动报警,尝试自愈修复,自愈修复失败则自动生成工单给相应的技术人员,修复成功后自动将结果进行通知,自动化生成硬件数据及状态数据报表,支持对以往记录进行查看,彻底告别了以往人为的隔一段时间要去机房巡检的历史。
附图说明
图1为本发明的较佳的实施例中,一种服务器自动化管理系统的结构示意图;
图2为本发明的较佳的实施例中,一种服务器自动化管理方法的流程示意图;
图3为本发明的较佳的实施例中,服务器自动发现过程的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式,只要符合本发明的主旨,则其他实施方式也可以属于本发明的范畴。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种服务器自动化管理系统,如图1所示,包括:
上架监听模块1,用于扫描监听网络中上架的服务器,并获取服务器的基础数据;
数据采集模块2,连接上架监听模块1,用于采集监听到的服务器的硬件数据以及状态数据;
异常告警模块3,连接数据采集模块2,用于在状态数据表示服务器状态异常时生成相应的告警信息并输出;
异常自愈模块4,连接异常告警模块3,用于对告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预;
数据库5,分别连接上架监听模块1、数据采集模块2和异常自愈模块4,用于存储基础数据、硬件数据和状态数据。
具体地,本实施例中,本技术方案可以用于物理服务器自动化发现、自动化分类、执行以及执行结果回顾。通过对服务器接入网络进行扫描监听,能够及时获取新上架的服务器,进而实现服务器上架自动发现,并在扫描监听到相应服务器后能够获取服务器的基础数据并存入数据库5中,以供后续查询处理使用。进一步地,能够自动采集服务器的各项硬件数据以及状态数据,并在状态数据表示对应的硬件异常时自动生成告警信息的同时尝试自愈修复,在自愈修复成功时能够自动生成相应的通知信息,以通知运维人员,以及在自愈修复失败时能够自动生成报警工单,以提醒运维人员进行人为干预,即解决上述硬件异常。可以看出,本技术方案实现将服务器的发现,服务器硬件数据及状态数据的采集,状态数据的异常判断自动化,只需在自愈失败时进行人工干预,彻底告别了以往人为的隔一段时间要去机房巡检的历史,换言之,将服务器的人工巡检自动化,有效提升服务器管理效率以及异常判断的准确性,同时大大降低了人力成本,节约了SYS工程师或者IT工程师的硬件巡检时间,使得其能够将更多时间用在公司服务器的高可用等核心架构上,以提升公司服务器的运行稳定性。
进一步地,通过将上述监听以及采集获取的基础数据、硬件数据以及状态数据存储至数据库5,方便运维人员后续进行数据查询、处理及追溯。作为优选的实施方式,上述数据库5中可以预先配置相应的基础数据表,以存储基础数据;硬件数据表,以存储硬件数据;状态数据表,以存储状态数据。
其中,上述硬件数据采集包括但不限于CPU数据采集,内存数据采集,硬盘数据采集以及阵列卡数据采集,上述CPU数据采集可以包括CPU型号,CPU使用率以及CPU核数等,上述内存数据采集可以包括内存型号,内存个数,单内存大小以及内存总大小等,上述硬盘数据采集可以包括硬盘型号,硬盘个数,单个硬盘大小以及硬盘总容量等,上述阵列卡数据采集可以包括阵列卡型号以及RAID卡阵列。上述状态数据采集可以包括CPU状态,内存状态,硬盘状态,阵列卡状态,电池状态,电源状态以及开关机状态等,还可以包括CPU温度、风扇转速以及电源电压,上述CPU温度、风扇转速以及电源电压可以通过对应设置的传感器采集得到。作为优选,根据状态数据进行服务器异常状态的判断标准可以根据不同的状态数据进行自行设定,如CPU温度,可以通过设置相应阈值的方式对服务器异常状态进行判断,在检测得到的CPU的实时温度超过该阈值时,则生成相应的告警信息。
作为优选的实施方式,上述告警信息以及通知信息可以以邮件,和/或微信,和/或电话的方式发送至运维人员,以便运维人员能够及时获取告警信息以及通知信息,进而能够及时获知告警信息以及对应的自愈方案的有效性。
作为优选的实施方式,本技术方案可以预先配置有各运维人员的值班人员列表,以使得上述告警信息、通知信息以及报警工单能够准确下发至相应的值班人员,减少人员沟通上时间的浪费,提升人为干预处理效率。
作为优选的实施方式,本技术方案还可以对接现有的工单系统,以使得生成的报警工单能够准确下发至相关人员进行处理。
本发明的较佳的实施例中,还包括日志记录模块6,分别连接上架监听模块1、数据采集模块2、异常告警模块3、异常自愈模块4和数据库5,日志记录模块6包括:
第一记录单元61,用于在扫描监听过程中实时记录得到扫描监听日志并存储至数据库;和/或
第二记录单元62,用于在对监听到的服务器进行硬件数据采集过程实时记录得到硬件采集日志并存储至数据库,以及进行状态数据采集过程中实时记录得到状态采集日志并存储至数据库;和/或
第三记录单元63,用于在对状态数据进行异常分析过程中实时记录得到状态异常日志并存储至数据库;和/或
第四记录单元64,用于在自愈处理过程中实时记录得到自愈过程日志并存储至数据库。
具体地,本实施例中,上述数据库5中可以预先配置相应的日志数据表,以存储上述扫描监听日志,硬件采集日志,状态采集日志,状态异常日志以及自愈过程日志。进一步地,上述日志数据表可以包括一问题日志表,以存储上述状态异常日志以及自愈失败日志,便于问题数据的集中查看分析。
本发明的较佳的实施例中,还包括一报表生成模块7,连接数据库5,用于分别根据硬件采集日志生成数据硬件报表,和/或根据状态采集日志生成数据状态报表,和/或根据状态异常日志生成状态异常报表并上报。
具体地,本实施例中,上述数据硬件报表,数据状态报表以及状态异常报表可以定时进行上报,其上报对象可以是部门领导,其上报方式可以是邮件形式,上述定时的时长可以根据用户需求进行设定,可以是一周,即每周均以邮件形式进行上报,以便部门领导能够及时获取服务器的各项数据。
本发明的较佳的实施例中,还包括一数据查询模块8,连接数据库5,用于供运维人员对数据库中的存储数据进行查询处理。上述处理包括但不限于对存储数据进行归档以及下载。
本发明的较佳的实施例中,还包括一权限管理模块9,连接数据查询模块8,用于供系统管理员对运维人员的查询处理权限进行分配管理。
具体地,本实施例中,通过为运维人员设置不同的查询处理权限,如对数据产品开发的运维人员分配只允许查看本部门数据的权限,不允许下载数据的权限,能够进一步提升存储数据的安全性。
本发明的较佳的实施例中,数据库5中还存储有预先生成的一问题集,问题集中包括至少一告警信息以及告警信息关联的处理方案;
则异常自愈模块4根据告警信息于问题集中进行匹配,在匹配得到关联的处理方案时,根据处理方案进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败或未匹配到关联的处理方案时生成报警工单,以提醒进行人为干预。
具体地,本实施例中,通过预先配置处理方案,使得相应的告警信息出现后,能够及时进行自愈修复,以进一步节约运维人员的维护时间。进一步地,在自愈成功时能够输出相应的通知信息,以告知相应的告警信息对应的状态异常问题已经解决,在自愈失败时,进行问题的自动升级,即不仅要给出告警信息,还要生成报警工单,以提醒运维人员进行人为干预,保证对应的状态异常问题能够及时解决。
本发明的较佳的实施例中,待上架的服务器中预先配置有远程管理IP地址;
则上架监听模块1包括:
扫描监听单元11,用于在首次扫描监听到网络中接入远程管理IP地址且远程管理IP地址对应的远程管理端口处于激活状态时输出监听信号;
数据获取单元12,连接扫描监听单元11,用于根据监听信号获取对应的服务器的品牌型号,并将远程管理IP地址、远程管理端口以及品牌型号作为基础数据存储至数据库。
具体地,本实施例中,上述待上架的服务器同时开启snmp服务,以便监视服务器的物理健康特征,如温度,电压等,以及开启ipmi服务,以便监视网络状态以及事件告警等。上述扫描监听单元11作为本技术方案的哨兵,可以通过Socket协议扫描监听网络中接入的远程管理IP地址以及远程管理IP地址对应的远程管理端口的状态,如果扫描监听到新的远程管理IP地址接入并且对应的远程管理端口存活,则将对应的远程管理IP地址和远程管理端口作为基础数据存入数据库中,并进一步进行品牌型号的获取,并将对应的服务器的品牌型号同样作为基础数据进行存储。
作为优选的实施方式,上述基础数据在首次扫描监听到接入的远程管理IP地址时进行获取,换言之,上述基础数据一般只会扫描依次,只有新服务器接入才会再次扫描,从一定意义上避免了系统资源的浪费。
本发明还提供一种服务器自动化管理方法,应用于上述的服务器自动化管理系统,如图2所示,包括:
步骤S1,服务器自动化管理系统扫描监听网络中上架的服务器,并获取服务器的基础数据存储至数据库;
步骤S2,服务器自动化管理系统采集监听到的服务器的硬件数据以及状态数据并存储至数据库;
步骤S3,服务器自动化管理系统在状态数据表示服务器状态异常时生成相应的告警信息并输出;
步骤S4,服务器自动化管理系统对告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预。
本发明的较佳的实施例中,数据库中还存储有预先生成的一问题集,问题集中包括至少一告警信息以及告警信息关联的处理方案;
则步骤S4中,服务器自动化管理系统根据告警信息于问题集中进行匹配,在匹配得到关联的处理方案时,根据处理方案进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败或未匹配到关联的处理方案时生成报警工单,以提醒进行人为干预。
本发明的较佳的实施例中,待上架的服务器中预先配置有远程管理IP地址;
如图3所示,则步骤S1包括:
步骤S11,服务器自动化管理系统在首次扫描监听到网络中接入远程管理IP地址且远程管理IP地址对应的远程管理端口处于激活状态时输出监听信号;
步骤S12,服务器自动化管理系统根据监听信号获取对应的服务器的品牌型号,并将远程管理IP地址、远程管理端口以及品牌型号作为基础数据存储至数据库。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种服务器自动化管理系统,其特征在于,包括:
上架监听模块,用于扫描监听网络中上架的服务器,并获取所述服务器的基础数据;
数据采集模块,连接所述上架监听模块,用于采集监听到的所述服务器的硬件数据以及状态数据;
异常告警模块,连接所述数据采集模块,用于在所述状态数据表示所述服务器状态异常时生成相应的告警信息并输出;
异常自愈模块,连接所述异常告警模块,用于对所述告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预;
数据库,分别连接所述上架监听模块、所述数据采集模块和所述异常自愈模块,用于存储所述基础数据、所述硬件数据和所述状态数据。
2.根据权利要求1所述的服务器自动化管理系统,其特征在于,还包括日志记录模块,分别连接所述上架监听模块、所述数据采集模块、所述异常告警模块、所述异常自愈模块和所述数据库,所述日志记录模块包括:
第一记录单元,用于在扫描监听过程中实时记录得到扫描监听日志并存储至所述数据库;和/或
第二记录单元,用于在对监听到的所述服务器进行所述硬件数据采集过程实时记录得到硬件采集日志并存储至所述数据库,以及进行所述状态数据采集过程中实时记录得到状态采集日志并存储至所述数据库;和/或
第三记录单元,用于在对所述状态数据进行异常分析过程中实时记录得到状态异常日志并存储至所述数据库;和/或
第四记录单元,用于在自愈处理过程中实时记录得到自愈过程日志并存储至所述数据库。
3.根据权利要求2所述的服务器自动化管理系统,其特征在于,还包括一报表生成模块,连接所述数据库,用于分别根据所述硬件采集日志生成数据硬件报表,和/或根据所述状态采集日志生成数据状态报表,和/或根据所述状态异常日志生成状态异常报表并上报。
4.根据权利要求1所述的服务器自动化管理系统,其特征在于,还包括一数据查询模块,连接所述数据库,用于供运维人员对所述数据库中的存储数据进行查询处理。
5.根据权利要求4所述的服务器自动化管理系统,其特征在于,还包括一权限管理模块,连接所述数据查询模块,用于供系统管理员对所述运维人员的查询处理权限进行分配管理。
6.根据权利要求1所述的服务器自动化管理系统,其特征在于,所述数据库中还存储有预先生成的一问题集,所述问题集中包括至少一所述告警信息以及所述告警信息关联的所述处理方案;
则所述异常自愈模块根据所述告警信息于所述问题集中进行匹配,在匹配得到关联的所述处理方案时,根据所述处理方案进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败或未匹配到关联的所述处理方案时生成报警工单,以提醒进行人为干预。
7.根据权利要求1所述的服务器自动化管理系统,其特征在于,待上架的所述服务器中预先配置有远程管理IP地址;
则所述上架监听模块包括:
扫描监听单元,用于在首次扫描监听到网络中接入所述远程管理IP地址且所述远程管理IP地址对应的远程管理端口处于激活状态时输出监听信号;
数据获取单元,连接所述扫描监听单元,用于根据所述监听信号获取对应的所述服务器的品牌型号,并将所述远程管理IP地址、所述远程管理端口以及所述品牌型号作为所述基础数据存储至所述数据库。
8.一种服务器自动化管理方法,其特征在于,应用于如权利要求1-8中任意一项所述的服务器自动化管理系统,包括:
步骤S1,所述服务器自动化管理系统扫描监听网络中上架的服务器,并获取所述服务器的基础数据存储至所述数据库;
步骤S2,所述服务器自动化管理系统采集监听到的所述服务器的硬件数据以及状态数据并存储至所述数据库;
步骤S3,所述服务器自动化管理系统在所述状态数据表示所述服务器状态异常时生成相应的告警信息并输出;
步骤S4,所述服务器自动化管理系统对所述告警信息进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败时生成报警工单,以提醒进行人为干预。
9.根据权利要求8所述的服务器自动化管理方法,其特征在于,所述数据库中还存储有预先生成的一问题集,所述问题集中包括至少一所述告警信息以及所述告警信息关联的所述处理方案;
则所述步骤S4中,所述服务器自动化管理系统根据所述告警信息于所述问题集中进行匹配,在匹配得到关联的所述处理方案时,根据所述处理方案进行自愈处理,并在自愈成功时输出相应的通知信息,以及在自愈失败或未匹配到关联的所述处理方案时生成报警工单,以提醒进行人为干预。
10.根据权利要求8所述的服务器自动化管理方法,其特征在于,待上架的所述服务器中预先配置有远程管理IP地址;
则所述步骤S1包括:
步骤S11,所述服务器自动化管理系统在首次扫描监听到网络中接入所述远程管理IP地址且所述远程管理IP地址对应的远程管理端口处于激活状态时输出监听信号;
步骤S12,所述服务器自动化管理系统根据所述监听信号获取对应的所述服务器的品牌型号,并将所述远程管理IP地址、所述远程管理端口以及所述品牌型号作为所述基础数据存储至所述数据库。
CN202110106655.7A 2021-01-26 2021-01-26 一种服务器自动化管理系统及方法 Pending CN112799909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110106655.7A CN112799909A (zh) 2021-01-26 2021-01-26 一种服务器自动化管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110106655.7A CN112799909A (zh) 2021-01-26 2021-01-26 一种服务器自动化管理系统及方法

Publications (1)

Publication Number Publication Date
CN112799909A true CN112799909A (zh) 2021-05-14

Family

ID=75811944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110106655.7A Pending CN112799909A (zh) 2021-01-26 2021-01-26 一种服务器自动化管理系统及方法

Country Status (1)

Country Link
CN (1) CN112799909A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672427A (zh) * 2021-08-26 2021-11-19 北京来也网络科技有限公司 基于rpa及ai的异常处理方法、装置、设备及介质
CN113676356A (zh) * 2021-08-27 2021-11-19 创新奇智(青岛)科技有限公司 报警信息处理方法、装置、电子设备及可读存储介质
CN113961492A (zh) * 2021-10-28 2022-01-21 上海辰锐信息科技公司 一种物联感知终端的自动适配方法及系统
CN115033419A (zh) * 2022-08-12 2022-09-09 浩鲸云计算科技股份有限公司 一种实现硬件故障自愈的方法和系统
CN116010156A (zh) * 2023-03-24 2023-04-25 摩尔线程智能科技(北京)有限责任公司 异常处理系统
CN116185997A (zh) * 2023-03-10 2023-05-30 上海翔麟马大数据科技有限公司 一种支持全面服务器的数据库管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667666A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种基于可视化技术的智能运维方法及其系统
CN110414774A (zh) * 2019-06-11 2019-11-05 华迪计算机集团有限公司 一种运维监控系统及方法
KR102085655B1 (ko) * 2019-06-17 2020-03-06 김혜리 전력선 통신 게이트웨이를 이용한 산업용 plc 연동 및 스마트 팩토리 설비 원격 모니터링 시스템 및 이를 이용한 a/s 유지보수 방법
CN111158983A (zh) * 2019-12-27 2020-05-15 广东华保数据有限公司 一种一体化运维管理系统
CN111858176A (zh) * 2020-07-22 2020-10-30 欧冶云商股份有限公司 一种远程监控故障自愈系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667666A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种基于可视化技术的智能运维方法及其系统
CN110414774A (zh) * 2019-06-11 2019-11-05 华迪计算机集团有限公司 一种运维监控系统及方法
KR102085655B1 (ko) * 2019-06-17 2020-03-06 김혜리 전력선 통신 게이트웨이를 이용한 산업용 plc 연동 및 스마트 팩토리 설비 원격 모니터링 시스템 및 이를 이용한 a/s 유지보수 방법
CN111158983A (zh) * 2019-12-27 2020-05-15 广东华保数据有限公司 一种一体化运维管理系统
CN111858176A (zh) * 2020-07-22 2020-10-30 欧冶云商股份有限公司 一种远程监控故障自愈系统和方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672427A (zh) * 2021-08-26 2021-11-19 北京来也网络科技有限公司 基于rpa及ai的异常处理方法、装置、设备及介质
CN113676356A (zh) * 2021-08-27 2021-11-19 创新奇智(青岛)科技有限公司 报警信息处理方法、装置、电子设备及可读存储介质
CN113961492A (zh) * 2021-10-28 2022-01-21 上海辰锐信息科技公司 一种物联感知终端的自动适配方法及系统
CN115033419A (zh) * 2022-08-12 2022-09-09 浩鲸云计算科技股份有限公司 一种实现硬件故障自愈的方法和系统
CN115033419B (zh) * 2022-08-12 2022-11-29 浩鲸云计算科技股份有限公司 一种实现硬件故障自愈的方法和系统
CN116185997A (zh) * 2023-03-10 2023-05-30 上海翔麟马大数据科技有限公司 一种支持全面服务器的数据库管理系统
CN116010156A (zh) * 2023-03-24 2023-04-25 摩尔线程智能科技(北京)有限责任公司 异常处理系统
CN116010156B (zh) * 2023-03-24 2024-06-04 摩尔线程智能科技(北京)有限责任公司 异常处理系统

Similar Documents

Publication Publication Date Title
CN112799909A (zh) 一种服务器自动化管理系统及方法
CN107508722B (zh) 一种业务监控方法和装置
CN111158983A (zh) 一种一体化运维管理系统
WO2021068814A1 (zh) 硬件设备异常监控方法、装置、服务器及计算机可读存储介质
CN113836044B (zh) 一种软件故障采集和分析的方法及系统
CN104699759A (zh) 一种数据库自动化运行维护方法
CN110209518A (zh) 一种多数据源日志数据集中收集存储方法及装置
CN114077525A (zh) 异常日志处理方法、装置、终端设备、云服务器及系统
CN114996090A (zh) 一种服务器异常检测方法、装置、电子设备及存储介质
US20160127207A1 (en) System for Analyzing an Industrial Control Network
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN115862177A (zh) 设备巡检方法及装置
CN112734057A (zh) 铁路编组站综合自动化综合运维监控系统
CN103986607A (zh) 一种智能数据中心语音声光报警监控系统
JP4842738B2 (ja) 障害管理支援システム及びその情報管理方法
CN106385343B (zh) 一种分布式系统下监控客户端的方法及装置、分布式系统
CN117411804A (zh) 服务器网络测试方法、装置、电子设备及存储介质
CN105703942B (zh) 一种日志采集方法及装置
CN114500178B (zh) 一种自运维的智慧物联网关
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN115934464A (zh) 一种信息化平台监控采集系统
CN112884176B (zh) 管理系统及方法
CN113946465A (zh) 一种大数据的故障处理方法及其相关设备
CN110990237B (zh) 一种信息收集系统、方法及存储介质
CN115687036A (zh) 日志采集方法、装置及日志系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514