CN114637640B - 运维管理系统 - Google Patents

运维管理系统 Download PDF

Info

Publication number
CN114637640B
CN114637640B CN202011381793.8A CN202011381793A CN114637640B CN 114637640 B CN114637640 B CN 114637640B CN 202011381793 A CN202011381793 A CN 202011381793A CN 114637640 B CN114637640 B CN 114637640B
Authority
CN
China
Prior art keywords
server
monitoring module
state
cloud server
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011381793.8A
Other languages
English (en)
Other versions
CN114637640A (zh
Inventor
葛志刚
白冰
张小龙
蔡波
徐志桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaovo Technology Co ltd
Original Assignee
Xiaovo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaovo Technology Co ltd filed Critical Xiaovo Technology Co ltd
Priority to CN202011381793.8A priority Critical patent/CN114637640B/zh
Publication of CN114637640A publication Critical patent/CN114637640A/zh
Application granted granted Critical
Publication of CN114637640B publication Critical patent/CN114637640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种运维管理系统,其特征在于,包括:具有不同种类的多个云服务器的云平台、由运维人员持有的运维终端以及管理服务器,其中,管理服务器具有监控模块存储部、模块获取部、监控模块输出部、设备状态判断部以及管理侧通信部,模块获取部根据被运维人员选定的服务器种类从监控模块存储部中获取到对应的状态监控模块,监控模块输出部将状态监控模块发送给云服务器,运行部运行状态监控模块并获取运行状态数据发送给管理服务器,设备状态判断部对运行状态数据进行分析并判断出云服务器是否处于正常工作状态,一旦设备状态判断部判断云服务器未处于正常工作状态,管理侧通信部就发送告警信息给运维终端让管理员对云服务器进行维护。

Description

运维管理系统
技术领域
本发明涉及一种运维管理系统,具体涉及一种针对云平台的运维管理系统。
背景技术
对于向用户提供网络服务以及对数据进行存储分析的互联网企业或机构,常常需要用到大量的服务器,来承担并处理庞大数量的用户所发送服务请求。也因此,为了保证服务器的正常运行以及对突发故障进行及时维护,这些企业机构需要专门的运维人员对服务器进行运行维护管理。
在运行维护过程中,运维人员通常需要依赖于专门的运维管理软件,通过运行在服务器上的这些运维管理软件来获知相应服务器的运行状态。但传统的运维管理软件往往是各个企业根据自身的业务特点、专门开发得到的,因此这些软件的针对性较强,如针对主要以数据存储为主的存储型服务器,需要通过数据库管理软件来采集服务器中数据库的数据存储量等状态;而针对数据处理为主的计算型服务器,则需要通过状态采集软件来采集服务器的CPU占有率等状态。并且,根据企业的具体业务的不同或是服务器的操作系统的不同,运维管理软件也不能通用。所以,在企业机构上线了新的服务器时,运维人员需要对根据服务器的操作系统、企业业务来针对性地安装运维管理软件,非常的麻烦。
尤其是随着云平台的发展,一个较大的云平台中往往会有几百、乃至上千的云服务器同时运行,其中的服务器等硬件设备会频繁地进行维护或是更新,如某些业务需求量激增时,需要批量部署新的服务器,此时运维人员就需要对大量的云服务器进行运维管理软件的安装,非常麻烦。同时,各台云服务器往往负责支持不同的业务且安装有不同的操作系统,这进一步加大了运维的难度。
发明内容
为解决上述问题,提供一种能够根据云服务器的种类,在服务器上线时自动地安装对应的状态监控软件并实现云服务器的状态自动监控的运维管理系统,本发明采用了如下技术方案:
本发明提供了一种运维管理系统,其特征在于,包括:具有不同种类的多个云服务器的云平台,用于提供数据处理和存储服务;运维终端,由运维人员持有;以及管理服务器,与各个云服务器以及运维终端分别相通信连接,其中,云服务器具有运行部,管理服务器具有监控模块存储部、模块获取部、监控模块输出部、设备运行信息存储部、设备状态判断部以及管理侧通信部,运维终端具有画面存储部以及输入显示部,监控模块存储部预先存储有多种服务器种类以及相对应的状态监控模块,画面存储部存储有设备添加画面,输入显示部显示设备添加画面让运维人员输入新增的云服务器的地址信息以及连接识别用信息,并显示被存储的各种服务器种类让运维人员选定,一旦管理侧通信部接收到运维人员确认输入的地址信息、连接识别用信息以及选定的服务器种类,模块获取部就根据被选定的服务器种类从监控模块存储部中获取到对应的状态监控模块,监控模块输出部基于地址信息以及连接识别用信息与云服务器进行通信连接并将状态监控模块发送给云服务器,运行部运行状态监控模块并获取云服务器的运行状态数据发送给管理服务器,设备运行信息存储部将运行状态数据与相对应的云服务器进行对应存储,设备状态判断部定期从设备运行信息存储部中获取每个云服务器的运行状态数据,并基于预定的设备状态判断规则对运行状态数据进行分析并判断出云服务器是否处于正常工作状态,一旦设备状态判断部判断云服务器未处于正常工作状态,管理侧通信部就发送告警信息给运维终端让运维人员对云服务器进行维护。
发明作用与效果
根据本发明的运维管理系统,由于监控模块中预存有多种网络设备种类以及对应的状态监控模块,在运维终端让运维人员输入地址信息后,模块获取部就根据服务器种类获取到对应的状态监控模块,并由监控模块输出部根据地址信息输出给对应的云服务器并让该云服务器运行,因此,在运维人员需要上线新的服务器时,只需要输入服务器的地址、登录信息并选定服务器的种类,运维管理系统就会自动地在服务器中安装对应的状态监控模块,从而大大方便了运维人员对新的服务器的管理。还由于状态监控模块与云服务器的服务器种类相对应,云服务器的运行部会运行状态监控模块并将相应的运行状态数据发送给管理服务器进行存储,使得设备状态判断部能够定期根据运行状态数据判断每个云服务器的运行状态,并在判断云服务器未处于所述正常工作状态时对运维人员进行告警,因此还实现了对云服务器的运行状态的自动监控,从而降低运维人员的运维压力。
附图说明
图1是本发明实施例中运维管理系统的结构示意图;
图2是本发明实施例中管理服务器的结构框图;
图3是本发明实施例中监控模块存储部存储的内容;
图4是本发明实施例中设备运行信息存储部存储的内容;
图5是本发明实施例中设备状态存储部存储的内容;
图6是本发明实施例中运维终端的结构框图;
图7是本发明实施例中设备添加画面的示意图;以及
图8是本发明实施例中云服务器连接管理过程的流程图。
具体实施方式
作为一种实施形态,本发明提供了一种运维管理系统,其特征在于,包括:具有不同种类的多个云服务器的云平台,用于提供数据处理和存储服务;运维终端,由运维人员持有;以及管理服务器,与各个云服务器以及运维终端分别相通信连接,其中,云服务器具有运行部,管理服务器具有监控模块存储部、模块获取部、监控模块输出部、设备运行信息存储部、设备状态判断部以及管理侧通信部,运维终端具有画面存储部以及输入显示部,监控模块存储部预先存储有多种服务器种类以及相对应的状态监控模块,画面存储部存储有设备添加画面,输入显示部显示设备添加画面让运维人员输入新增的云服务器的地址信息以及连接识别用信息,并显示被存储的各种服务器种类让运维人员选定,一旦管理侧通信部接收到运维人员确认输入的地址信息、连接识别用信息以及选定的服务器种类,模块获取部就根据被选定的服务器种类从监控模块存储部中获取到对应的状态监控模块,监控模块输出部基于地址信息以及连接识别用信息与云服务器进行通信连接并将状态监控模块发送给云服务器,运行部运行状态监控模块并获取云服务器的运行状态数据发送给管理服务器,设备运行信息存储部将运行状态数据与相对应的云服务器进行对应存储,设备状态判断部定期从设备运行信息存储部中获取每个云服务器的运行状态数据,并基于预定的设备状态判断规则对运行状态数据进行分析并判断出云服务器是否处于正常工作状态,一旦设备状态判断部判断云服务器未处于正常工作状态,管理侧通信部就发送告警信息给运维终端让运维人员对云服务器进行维护。
在上述运维管理系统中,还可以具有这样的技术特征,其中,地址信息为含有多个连续IP地址的IP段,管理服务器还包括设备搜寻部以及新增设备判断部,设备搜寻部会定期根据IP段依次对每个IP地址进行搜寻并搜寻出在线的云服务器作为在线服务器,新增设备判断部依次判断每个判断在线服务器是否为新增服务器,一旦新增设备判断部判断为是,模块获取部就根据被选定的服务器种类从监控模块存储部中获取到对应的状态监控模块,并且监控模块输出部就基于地址信息以及连接识别用信息与在线服务器进行通信连接并将状态监控模块发送给在线服务器,设备运行信息存储部将运行状态数据与相对应的网络设备的IP地址进行对应存储从而实现运行状态数据与云服务器的对应。
在上述运维管理系统中,还可以具有这样的技术特征,其中,监控模块存储部还存储有与服务器种类相对应的安全加固模块,管理服务器还包括设备安全判断部以及加固模块获取输出部,当设备搜寻部搜寻出在线服务器时,设备安全判断部依次对每个在线服务器进行安全扫描并判断是否达到安全基线,一旦设备安全判断部判断在线服务器未达到安全基线,加固模块获取输出部就根据在线服务器的服务器种类获取对应的安全加固模块并输出给在线服务器,运行部运行安全加固模块完成在线服务器的安全加固。
在上述运维管理系统中,还可以具有这样的技术特征,其中,服务器种类根据安装的操作系统种类进行划分,状态监控模块为能够在对应的操作系统上运行的服务器状态采集模块。
在上述运维管理系统中,还可以具有这样的技术特征,其中,服务器种类根据安装的数据库种类进行划分,状态监控模块为能够对相应类型的数据库进行监控的数据库状态监控模块。
在上述运维管理系统中,还可以具有这样的技术特征,其中,服务器种类根据不同业务部门所对应的业务种类进行划分,监控模块存储部还存储有与业务种类相对应的业务管理用模块,网络设备监控部在将状态监控模块发送给云服务器时,还将对应的业务管理用模块发送给云服务器,运行部还运行业务管理用模块并对云服务器输出的数据包进行业务处理。
在上述运维管理系统中,还可以具有这样的技术特征,其中,云平台还设有至少一种与云服务器相配套的网络设备,该网络设备为交换机、路由器、负载均衡器和防火墙中任意一种或任意两种以上的组合,管理服务器还包括设备监控模块运行部,监控模块存储部还预先存储有至少一种网络设备种类以及相对应的设备监控模块,输入显示部显示设备添加画面时,还让运维人员输入新增的网络设备的地址信息以及连接识别用信息,并显示被存储的各种网络设备种类让运维人员选定,一旦管理侧通信部接收到运维人员确认输入的地址信息、连接识别用信息以及选定的网络设备种类,监控模块运行部运行根据被选定的网络设备种类运行对应的设备监控模块并基于地址信息以及连接识别用信息采集相应网络设备的运行状态数据。
在上述运维管理系统中,还可以具有这样的技术特征,其中,云平台还包括用于对云服务器进行流量监控的流量监控服务器以及用于连接流量监控服务器和云服务器的核心交换机,监控模块存储部还存储有对应于核心交换机的网络设备种类以及相对应的作为设备监控模块的流量监控模块,监控模块运行部运行根据被选定的网络设备种类运行对应的流量监控模块时,将云服务器输出至核心交换机的数据包通过流量镜像的方式输出给流量监控服务器,流量监控服务器根据数据包的来源信息以及目的信息将数据包进行分类从而统计出各个云服务器的数据包输出流量。
在上述运维管理系统中,还可以具有这样的技术特征,其中,画面存储部还存储有设备管理画面,管理服务器还具有设备状态存储部,设备状态判断部在判断出网络设备是否处于正常工作状态时,还生成对应的设备状态判断结果,设备状态存储部在设备状态判断部生成设备状态结果时,将该设备状态结果、相应网络设备对应的地址信息以及运维人员输入的服务器种类和连接识别用信息进行对应存储,输入显示部在显示设备管理画面时显示设备状态存储部中存储的内容并让运维人员对各个网络设备进行管理。
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的运维管理系统作具体阐述。
<实施例>
图1是本发明实施例中运维管理系统的结构示意图。
如图1所示,运维管理系统100包括云平台101、一个管理服务器102、一个运维终端103、多个使用云平台101的客户端104以及专用通信网路105和通信网络106,其中,云平台子系统101包括N个云服务器11、流量监控服务器12、一个负载均衡器13、一个核心交换机14以及一个防火墙15。
云服务器11、负载均衡器13、核心交换机14、防火墙15以及管理服务器106之间通过有线连接的方式(如光纤)实现数据通信。
运维终端103通过专用通信网路105(如VPN)与防火墙15通信从而与管理服务器106建立通信连接。其中,运维终端103由运维人员持有,并
客户端103通过通信网络106与防火墙15通信从而与各个云服务器11相通信连接。其中,通信网络106可以为互联网,客户端103由云平台101的服务对象所持有,该服务对象可以通过客户端103访问并获取云服务器11提供的服务。
云平台101中,每个云服务器11具有不同的服务器种类,如图1所示,云服务器11-1安装的操作系统为linux系统;云服务器11-2安装的操作系统为linux系统并且还运行有一个sql数据库;云服务器11-3安装的操作系统为unix系统;云服务器11-N安装的操作系统为windows系统。
另外,本实施例中,每个云服务器11均具有一个运行部,该运行部用于运行程序。
流量监控服务器12为一个专门用于进行流量监测的云服务器,用于对云服务器11-1至11-N的数据流量进行监测分析。
负载均衡器13用于为各个云服务器11提供负载均衡,同时与云服务器11以及核心交换机14相通信连接。
核心交换机14用于进行各个云服务器11、负载均衡器13、防火墙15以及管理服务器102之间的数据交换。
防火墙15用于保障核心交换机14与通信网络106之间的通信安全。
另外,每个云服务器11以及流量统计服务器12、负载均衡器13、核心交换机14和防火墙15等网络设备在云平台101中均具有唯一的IP地址,管理服务器106能够通过IP地址搜寻到对应的网络设备。
图2是本发明实施例中管理服务器的结构框图。
如图2所示,管理服务器102包括监控模块存储部21、模块获取部22、设备搜寻部23、新增设备判断部24、监控模块输出部25、多个设备运行信息存储部26、设备状态判断部27、设备安全判断部28、加固模块获取输出部29、设备监控模块运行部30、设备状态存储部31、管理侧通信部32以及用于控制上述各部的管理侧控制部33。
图3是本发明实施例中监控模块存储部存储的内容。
如图3所示,监控模块存储部21预先存储有五种服务器种类211、相对应的状态监控模块212和安全加固模块213、以及三种网络设备种类214和相对应的设备监控模块215。
本实施例中,服务器种类根据云服务器11所安装的操作系统种类以及数据库种类进行划分,即操作系统种类分为“linux系统”、“unix系统”和“windows系统”,数据库种类分为“sql数据库”和“oracle数据库”。从图3中可以看出,每个服务器种类都对应有一个状态监控模块212,用于进行云服务器11的状态监控,特别地,三个操作系统种类还额外对应有一个安全加固模块213,用于对云服务器11进行安全加固。
网络设备种类对应与云平台101中除云服务器11以外的各种网络设备的种类,具体地,本实施例的网络设备种类分为“负载均衡器”、“核心交换机”以及“防火墙”,这三个网络设备种类分别对应有一个设备监控模块。
本实施例中,各个状态监控模块、安全加固模块以及设备监控模块均为具有对应功能且可执行的脚本或程序。各个状态监控模块每个五分钟采集一次云服务器11的状态监控数据。
当服务器上线时,运维终端103就让运维人员通过输入新增的云服务器11的地址信息、连接识别用信息(如能够登录云服务器11的运维人员账户名和密码)以及服务器种类,从而对这些新增的云服务器11进行运维管理。接下来,以运维人员输入的地址信息为IP段“x.x.x.2~x.x.x.5”、连接识别用信息为“zhm1,mm1”、选定的服务器种类为“linux系统”为例,进行详细介绍。
模块获取部22在管理侧通信部32接收到运维终端103发送的地址信息、连接识别用信息以及选定的服务器种类时,根据被选定的服务器种类“linux系统”,从监控模块存储部21中获取到对应的状态监控模块“模块1”。
设备搜寻部23根据接收到的IP段“x.x.x.2~x.x.x.5”,对云平台101中的云服务器11进行搜寻,并将搜寻到的网络设备作为在线设备(若搜寻到云服务器11则将其作为在线服务器),从图1中可以看出,设备搜寻部23搜索到的在线服务器为云服务器11-1以及云服务器11-2。
本实施例中,设备搜寻部23除了在运维人员输入IP段时对云平台101进行搜寻之外,还可以定期根据该IP段进行搜寻,从而实现云服务器11的自动搜寻。
新增设备判断部24依次判断设备搜寻部23搜寻到的在线服务器是否为新增的云服务器。本实施例中,针对各个在线服务器,新增设备判断部24可以通过判断该在线服务器中是否运行有状态监控模块,从而判断出其是否为新增的。
当新增设备判断部24判断为否时,表示该在线服务器是已经安装有状态监控模块的云服务器11。
当新增设备判断部24判断为是时,监控模块输出部25就将模块获取部22获取到的状态监控模块发送给对应的在线服务器。
本实施例中,假设云服务器11-1以及云服务器11-2均为新增的云服务器,则监控模块输出部25就通过连接识别用信息,分别根据IP地址“x.x.x.2”及“x.x.x.3”建立于云服务器11-1以及云服务器11-2的通信连接,并将状态监控模块“模块1”分别发送给这两个云服务器。
此时,在“模块1”接收完毕后,云服务器11-1以及11-2的运行部就会运行该“模块1”,“模块1”所含有的程序就会开始获取云服务器11-1以及11-2的运行状态数据发送给管理服务器102。
另外,对于云服务器11-2,由于还安装有“sql数据库”并兼有数据存储的功能,因此,在批量完成“模块1”的安装后,运维终端103还让运维人员输入地址信息“x.x.x.3”并选定服务器种类“sql数据库”,使得模块获取部22以及监控模块输出部25获取并输出状态监控模块“模块4”给云服务器11-2,从而同时实现对云服务器11-2的服务器状态监控以及数据库状态监控。
每个设备运行信息存储部26为管理服务器102中对应每个云服务器11的数据表。一旦管理侧通信部32接收到某个云服务器11的状态监控模块发送的运行状态数据,与该云服务器11相对应的设备运行信息存储部26就将这些运行状态数据进行存储。
本实施例中,设备运行信息存储部26与每个云服务器11的IP地址相对应。
图4是本发明实施例中设备运行信息存储部存储的内容。
以云服务器11-2为例,如图4所示,对应的IP地址为“x.x.x.3”的设备运行信息存储部26中存储有云服务器11-2被状态监控模块采集到的5条运行状态数据1至5,具体为:服务器状态采集模块“模块1”采集到的5条对应“CPU使用率”、“内存使用率”、“网络I/O吞吐量”等服务器状态数据,还存储有数据库状态监控模块采集到的5次“数据库占有率”、“数据库性能”等数据库状态数据。
设备状态判断部27定期从设备运行信息存储部26中获取每个云服务器11的运行状态数据,并基于预定的设备状态判断规则对运行状态数据进行分析并判断出云服务器11是否处于正常工作状态,进一步生成相应的设备状态判断结果。
同样以云服务器11-2为例,设备状态判断部27在每一次状态监控模块采集到运行状态数据时,就会对其进行分析,从图4可以看出,对于运行状态数据1至4,设备状态判断部27都判定云服务器11-2处于正常状态,但当运行状态数据5被采集到时,设备状态判断部27就会分析出该云服务器11-2的内存使用率达到了98%,超出了预定阈值,未处于正常工作状态。
一旦设备状态判断部27判断网络设备未处于正常工作状态,管理侧通信部32就发送告警信息给运维终端103让运维人员对云服务器11-2进行人工维护。
设备安全判断部28依次对设备搜寻部23搜寻到的在线服务器进行安全扫描并判断是否达到安全基线。
当设备安全判断部28判断在线服务器未达到安全基线时,加固模块获取输出部29就根据该在线服务器的服务器种类获取对应的所述安全加固模块并输出给所述在线服务器。
再次以云服务器11-2为例,若设备安全判断部28判定该云服务器11-2未达到安全基线,则加固模块获取输出部29就根据被选定的服务器种类“linux系统”,从监控模块存储部21中对应的安全加固模块“模块6”,并基于IP地址“x.x.x.3”将“模块6”进行输出。
此时,在“模块6”接收完毕后,云服务器11-2的运行部就会运行该“模块6”并进行安全加固。
另外,本实施例中,在云服务器11-2完成安全加固后,设备安全判断部28会再次对云服务器11-2进行安全扫描,若云服务器11-2仍然未达到安全基线,则管理侧通信部32就发送告警信息给运维终端103让运维人员对云服务器11-2进行人工维护。
设备搜寻部23除了在根据IP信息搜寻到云服务器11外,还可以搜寻到各种网络设备作为在线设备,即负载均衡器13、核心交换机14和防火墙15。同理地,模块获取部22在管理侧通信部32接收到运维终端103发送的地址信息、连接识别用信息以及选定的网络设备种类时,根据被选定的网络设备种类,从监控模块存储部21中获取到对应的设备监控模块,并且新增设备判断部24会依次判定在线设备是否为新增的网络设备。
当新增设备判断部24判定在线设备为新增的网络设备时,设备监控模块运行部30就会运行设备监控模块从而对网络设备的运行状态数据进行定期采集。
进一步,在采集到网络设备的运行状态数据,对应于该网络设备的IP地址的设备运行信息存储部26也会存储这些运行状态数据,并由设备状态判断部27根据运行状态数据对网络设备的运行状态进行判断从而生成对应的设备状态判断结果。
特别地,核心交换机14对应的设备监控模块为流量监控模块,在设备监控模块运行部30运行该流量监控模块时,核心交换机14会将各个云服务器11输出的数据包通过流量镜像的方式镜像至与流量监控服务器12相对应的端口,从而使得该流量监控服务器12获取到各个云服务器11输出的数据包。
进一步,流量监控服务器12按照五元组对数据包进行解析,并根据数据包的来源信息(端口)以及目的信息(目的地址)进行分类,从而得到每个云服务器11输出的数据包数量并统计出每个云服务器11的流量。
图5是本发明实施例中设备状态存储部存储的内容。
如图5所示,设备状态存储部31中存储有所有云服务器11、负载均衡器13、核心交换机14和防火墙15的IP地址311、对应被运维人员输入的所述服务器种类(网络设备种类)312和所述连接识别用信息313以及设备状态判断部27判断出的设备状态判断结果314。
本实施例中,设备状态判断结果314根据设备状态判断部27的判断频率对应更新。
图6是本发明实施例中运维终端的结构框图。
如图6所示,运维终端103具有画面存储部41、输入显示部42、运维侧通信部43以及用于控制上述各部的运维侧控制部44。
画面存储部41存储有设备添加画面以及设备管理画面。
图7是本发明实施例中设备添加画面的示意图。
如图7所示,设备添加画面411包括地址信息输入部分4111、连接识别用信息输入部分4112、服务器种类(网络设备种类)选择部分4113以及确认按钮4114。其中,在地址信息输入部分4111中,运维人员可以选择输入IP地址或是IP段;连接识别用信息输入部分4112用于让运维人员输入能够访问设备的运维人员账户以及相应的密码;服务器种类(网络设备种类)选择部分4113中,显示有从管理服务器102接收的、监控模块存储部21中存储的所有服务器种类以及网络设备种类,从而让运维人员从中选定一个。
当运维人员点击确认按钮4114时,运维侧通信部43就会将其输入的地址信息、连接识别用信息以及选定的服务器种类(网络设备种类)发送给管理服务器102。
设备管理画面显示管理服务器102中、设备状态存储部31存储的所有云服务器11以及其他所有网络设备的相关信息以及设备状态判断结果让运维人员确认各个网络设备的状态。
输入显示部42用于显示上述画面,从而让运维人员通过这些画面完成相应的人机交互。
另外,在运维终端3接收到管理服务器102发送的告警信息时,会通过消息提示框及提示音来提醒运维人员存在网络设备需要人工运维。
图8是本发明实施例中云服务器连接管理过程的流程图。
如图8所示,当云平台101中新增了云服务器101-1以及101-2时,运维人员启动运维终端103,然后开始如下步骤:
步骤S1,运维终端103显示设备添加画面让运维人员输入地址信息、连接识别用信息并选定服务器种类,并在运维人员确认后将其输入的IP段“x.x.x.2~x.x.x.5”、连接识别用信息“zhm1,mm1”以及服务器种类“linux系统”发送给管理服务器102,然后进入步骤S2;
步骤S2,模块获取部22根据步骤S1中被选定的服务器种类“linux系统”,从监控模块存储部21中获取到对应的状态监控模块“模块1”,然后进入步骤S3;
步骤S3,设备搜寻部23根据步骤S1中被输入的IP段“x.x.x.2~x.x.x.5”,对云平台101台中的网络设备进行搜寻,并搜寻出云服务器101-1以及101-2作为在线服务器,然后进入步骤S4;
步骤S4,新增设备判断部24依次判断步骤S3中搜寻到的在线服务器是否为新增的云服务器,若判断为是则进入步骤S5,若判断为否则进入步骤S8;
步骤S5,监控模块输出部25基于IP地址“x.x.x.2”及“x.x.x.3”建立于云服务器11-1以及云服务器11-2的通信连接,并将步骤S2中获取到的状态监控模块“模块1”分别发送给这两个云服务器,然后进入步骤S6;
步骤S6,云服务器11-1以及云服务器11-2的运行部分别运行“模块1”,并定期采集到运行状态数据发送给管理服务器102,然后进入步骤S7;
步骤S7,管理侧通信部32分别接收云服务器11-1以及云服务器11-2发送的运行状态数据,并由对应于云服务器11-1以及云服务器11-2的设备运行信息存储部26分别进行存储,然后进入步骤S8;
步骤S8,设备安全判断部28依次对步骤S3中搜寻到的在线服务器进行安全扫描并判断是否达到安全基线,若判断未达到安全基线则进入步骤S9,若判断达到安全基线则进入结束状态。
步骤S9,加固模块获取输出部29就根据步骤S8判断未达到安全基线的在线服务器的服务器种类获取对应的所述安全加固模块并输出给相应的在线服务器,使得该在线服务器的运行部运行安全加固模块,然后进入步骤S10;
步骤S10,设备安全判断部28再次判断步骤S9中进行安全加固后的在线服务器是否达到安全基线,若判断未达到安全基线则进入步骤S11,若判断达到安全基线则进入结束状态;
步骤S11,管理侧通信部32就发送告警信息给运维终端103让运维人员对云服务器11-2进行人工维护,然后进入结束状态。
另外,在上述步骤结束后,设备状态判断部27会定期从设备运行信息存储部26中获取每个云服务器(网络设备)的运行状态数据,并基于预定的设备状态判断规则对运行状态数据进行分析从而判断出该云服务器(网络设备)是否处于正常工作状态,若判断为是则结束此次的状态判定,若判断为否则进入步骤S11发送告警信息给运维人员。
实施例作用与效果
根据本实施例提供的运维管理系统,由于监控模块中预存有多种网络设备种类以及对应的状态监控模块,在运维终端让运维人员输入地址信息后,模块获取部就根据服务器种类获取到对应的状态监控模块,并由监控模块输出部根据地址信息输出给对应的云服务器并让该云服务器运行,因此,在运维人员需要上线新的服务器时,只需要输入服务器的地址、登录信息并选定服务器的种类,运维管理系统就会自动地在服务器中安装对应的状态监控模块,从而大大方便了运维人员对新的服务器的管理。还由于状态监控模块与云服务器的服务器种类相对应,云服务器的运行部会运行状态监控模块并将相应的运行状态数据发送给管理服务器进行存储,使得设备状态判断部能够定期根据运行状态数据判断每个云服务器的运行状态,并在判断云服务器未处于所述正常工作状态时对运维人员进行告警,因此还实现了对云服务器的运行状态的自动监控,从而降低运维人员的运维压力。
在实施例中,由于在运维人员输入IP段作为地址信息后,设备搜寻部会定期搜寻该IP段上在线的云服务器,并由新增设备判断部判断在线服务器是否为新增的云服务器,进一步由监控模块输出部将模块获取部获取到的状态监控模块自动发送给新增的云服务器,因此,本实施例的运维管理系统还实现了针对新增服务器的模块自动安装,从而更进一步地减少了运维人员在新增服务器时的工作量,尤其是在云平台这种云服务器频繁上下线的系统中,可以有效地帮助运维人员对云服务器进行运维管理。
在实施例中,由于网路设备搜寻部还会在检索到在线的网络设备时,还会将其作为待检测设备,设备安全判断部依次对每个待检测设备进行安全判断,并在判断为不安全时,加固模块获取输出部就会将与服务器种类相对应的安全加固模块输出给对应的服务器运行,从而进行安全加固,进一步在安全加固后仍然未达到安全基线时,输出提醒信息给运维人员,因此还实现了针对不同种类的云服务器的自动化安全检测及加固。
在实施例中,由于监控模块输出部还将流量监控模块输出给核心交换机,并让该核心交换机通过流量镜像的方式将数据表输出给流量监控服务器,并通过每个数据包中的目的地址以及来源端口统计出各个云服务器的输出流量,因此可以便于运维人员进一步地对各个云服务器的业务流量进行统计,并更有针对性地为各种业务分配适当数量的云服务器(即计算资源)。
在实施例中,由于云服务器可以根据安装的操作系统种类以及数据库种类进行划分,因此运维人员可以根据业务的实际需求选定相应的服务器种类,从而在云服务器中安装对应的状态监控模块,因此通过本实施例的运维管理系统,运维人员可以很方便地、针对性地对各个云服务器进行状态监控。
在实施例中,由于云平台还包括多种与云服务器相配套的网络设备,并且状态监控模块中还存储有与各种网络设备相对应的设备监控模块,因此运维人员还可以通过本实施例的运维管理系统对云平台中除云服务器以外的网络设备进行对应的状态监控,从而进一步地帮助运维人员方便地对云平台中所有的网络设备进行运维管理。
<变形例>
为了便于表述,本变形例中对于与实施例中相同的结构,赋予相同的符号并省略相应的说明。
本变形例中,各个云服务器的服务器种类根据业务种类进行划分,监控模块存储部中可以对应存储有与所述业务种类相对应的业务管理用模块。此时,网络设备监控部在将所述状态监控模块发送给所述云服务器时,还将对应的所述业务管理用模块发送给所述云服务器进行安装,从而让这些业务管理用模块执行对应的业务管理功能,例如,针对某通信业务,该业务管理功能可以为统计用户的请求量。
通过这样的方式,运维人员就可以根据业务的实际需求针对性地安装业务管理模块,从而更有目的性地对各个云服务器进行状态监控。
上述实施例及变形例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例及变形例的描述范围。
例如,在上述实施例中,在模块获取部获取到状态监控模块后,监控模块输出部直接将状态监控模块输出给云服务器运行。在本发明的其他方案中,为了进一步地保障监控模块的准确安装,监控模块存储部中还可以存储有状态监控模块的相关信息,并在模块获取部获取到状态监控模块后,将对应的相关信息发送给运维人员进行确认,最后在运维人员确认后由状态监控模块输出给云服务器进行安装。
例如,在上述实施例中,监控模块存储部中存储有状态监控模块以及安全加固模块,在实际应用中,运维人员还可以根据需求来预先开发并在监控模块存储部中存储其他模块,如
开发其他模块并与服务器种类或是网络设备种类进行对应存储,如在服务器种类对应各种业务时,将业务运行程序与服务器种类进行对应存储,此时,即可。
例如,在上述实施例中,管理服务器仅为一台服务器、在本发明的其他方案中,管理服务器也可以替换为一个由多个处理服务器和多个分布式数据服务器组成的服务器组,此时,一方面可以避免单个处理服务器崩溃时导致整个管理服务器无法使用的问题,另一方面也可以使得运行状态数据以分布式的方式进行分散存储,减少数据的并发量从而降低管理服务器的负荷。
同时,在实际使用时,管理服务器或是服务器组也采用云平台中一部分的云服务器来实现。
例如,在上述实施例中,负载均衡器、核心交换机、防火墙等网络设备仅设置有一个,在本发明的其他方案中,这些网络设备也可以根据实际需求设置有多个。
另外,在上述实施例中,客户端均通过防火墙来访问云服务器,在本发明的其他方案中,云平台的防火墙还可以与路由器相通信连接,客户端也可以通过路由器提供的网络来访问云服务器。
另外,在上述实施例中,运维管理系统中包括一个云平台,并针对该云平台进行了运维管理。在本发明的其他方案中,该运维管理系统也可以应用至一般的服务器机房中,同样能够实现服务器的状态监控模块的自动安装以及自动化监控。

Claims (9)

1.一种运维管理系统,其特征在于,包括:
具有不同种类的多个云服务器的云平台,用于提供数据处理和存储服务;
运维终端,由运维人员持有;以及
管理服务器,与各个所述云服务器以及所述运维终端分别通信连接,
其中,所述云服务器具有运行部,
所述管理服务器具有监控模块存储部、模块获取部、监控模块输出部、设备运行信息存储部、设备状态判断部以及管理侧通信部,
所述运维终端具有画面存储部以及输入显示部,
所述监控模块存储部预先存储有多种服务器种类以及相对应的状态监控模块,
所述画面存储部存储有设备添加画面,
所述输入显示部显示所述设备添加画面让所述运维人员输入新增的云服务器的地址信息以及连接识别信息,并显示被存储的各种所述服务器种类让所述运维人员选定,
一旦所述管理侧通信部接收到所述运维人员确认输入的所述地址信息、所述连接识别信息以及选定的所述服务器种类,所述模块获取部就根据被选定的所述服务器种类从所述监控模块存储部中获取到对应的所述状态监控模块,
所述监控模块输出部基于所述地址信息以及所述连接识别信息与所述云服务器进行通信连接并将所述状态监控模块发送给所述云服务器,
所述运行部运行所述状态监控模块并获取所述云服务器的运行状态数据发送给所述管理服务器,
所述设备运行信息存储部将所述运行状态数据与相对应的所述云服务器进行对应存储,
所述设备状态判断部定期从所述设备运行信息存储部中获取每个所述云服务器的所述运行状态数据,并基于预定的设备状态判断规则对所述运行状态数据进行分析并判断出所述云服务器是否处于正常工作状态,
一旦所述设备状态判断部判断所述云服务器未处于所述正常工作状态,所述管理侧通信部就发送告警信息给所述运维终端让所述运维人员对所述云服务器进行维护。
2.根据权利要求1所述的运维管理系统,其特征在于:
其中,所述地址信息为含有多个连续IP地址的IP段,
所述管理服务器还包括设备搜寻部以及新增设备判断部,
所述设备搜寻部会定期根据所述IP段依次对每个所述IP地址进行搜寻并搜寻出在线的所述云服务器作为在线服务器,
所述新增设备判断部依次判断每个判断所述在线服务器是否为新增服务器,
一旦所述新增设备判断部判断为是,所述模块获取部就根据被选定的所述服务器种类从所述监控模块存储部中获取到对应的所述状态监控模块,并且所述监控模块输出部就基于所述地址信息以及所述连接识别信息与所述在线服务器进行通信连接并将所述状态监控模块发送给所述在线服务器,
所述设备运行信息存储部将所述运行状态数据与相对应的网络设备的所述IP地址进行对应存储从而实现所述运行状态数据与所述云服务器的对应。
3.根据权利要求2所述的运维管理系统,其特征在于:
其中,所述监控模块存储部还存储有与所述服务器种类相对应的安全加固模块,
所述管理服务器还包括设备安全判断部以及加固模块获取输出部,
当所述设备搜寻部搜寻出所述在线服务器时,设备安全判断部依次对每个所述在线服务器进行安全扫描并判断是否达到安全基线,
一旦所述设备安全判断部判断所述在线服务器未达到所述安全基线,所述加固模块获取输出部就根据所述在线服务器的所述服务器种类获取对应的所述安全加固模块并输出给所述在线服务器,
所述运行部运行所述安全加固模块完成所述在线服务器的安全加固。
4.根据权利要求1所述的运维管理系统,其特征在于:
其中,所述服务器种类根据安装的操作系统种类进行划分,
所述状态监控模块为能够在对应的所述操作系统上运行的服务器状态采集模块。
5.根据权利要求1所述的运维管理系统,其特征在于:
其中,所述服务器种类根据安装的数据库种类进行划分,
所述状态监控模块为能够对相应类型的数据库进行监控的数据库状态监控模块。
6.根据权利要求1所述的运维管理系统,其特征在于:
其中,所述服务器种类根据不同业务部门所对应的业务种类进行划分,
所述监控模块存储部还存储有与所述业务种类相对应的业务管理用模块,
网络设备监控部在将所述状态监控模块发送给所述云服务器时,还将对应的所述业务管理用模块发送给所述云服务器,
所述运行部还运行所述业务管理用模块并对所述云服务器输出的数据包进行业务处理。
7.根据权利要求1所述的运维管理系统,其特征在于:
其中,所述云平台还设有至少一种与所述云服务器相配套的网络设备,该网络设备为交换机、路由器、负载均衡器和防火墙中任意一种或任意两种以上的组合,
所述管理服务器还包括设备监控模块运行部,
所述监控模块存储部还预先存储有多种网络设备种类以及相对应的设备监控模块,
所述输入显示部显示所述设备添加画面时,还让所述运维人员输入新增的网络设备的地址信息以及连接识别信息,并显示被存储的各种所述网络设备种类让所述运维人员选定,
一旦所述管理侧通信部接收到所述运维人员确认输入的所述地址信息、所述连接识别信息以及选定的所述网络设备种类,
所述监控模块运行部运行根据被选定的所述网络设备种类运行对应的所述设备监控模块并基于所述地址信息以及所述连接识别信息采集相应所述网络设备的运行状态数据。
8.根据权利要求7所述的运维管理系统,其特征在于:
其中,所述云平台还包括用于对所述云服务器进行流量监控的流量监控服务器以及用于连接所述流量监控服务器和所述云服务器的核心交换机,
所述监控模块存储部还存储有对应于所述核心交换机的网络设备种类以及相对应的作为所述设备监控模块的流量监控模块,
所述监控模块运行部运行根据被选定的所述网络设备种类运行对应的所述流量监控模块时,将所述云服务器输出至所述核心交换机的数据包通过流量镜像的方式输出给所述流量监控服务器,
所述流量监控服务器根据所述数据包的来源信息以及目的信息将所述数据包进行分类从而统计出各个所述云服务器的所述数据包输出流量。
9.根据权利要求1所述的运维管理系统,其特征在于:
其中,所述画面存储部还存储有设备管理画面,
所述管理服务器还具有设备状态存储部,
设备状态判断部在判断出网络设备是否处于正常工作状态时,还生成对应的设备状态判断结果,
所述设备状态存储部在所述设备状态判断部生成所述设备状态结果时,将该设备状态结果、相应所述网络设备对应的所述地址信息以及所述运维人员输入的所述服务器种类和所述连接识别信息进行对应存储,
所述输入显示部在显示所述设备管理画面时显示所述设备状态存储部中存储的内容并让所述运维人员对各个所述网络设备进行管理。
CN202011381793.8A 2020-12-01 2020-12-01 运维管理系统 Active CN114637640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011381793.8A CN114637640B (zh) 2020-12-01 2020-12-01 运维管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011381793.8A CN114637640B (zh) 2020-12-01 2020-12-01 运维管理系统

Publications (2)

Publication Number Publication Date
CN114637640A CN114637640A (zh) 2022-06-17
CN114637640B true CN114637640B (zh) 2024-04-19

Family

ID=81945383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011381793.8A Active CN114637640B (zh) 2020-12-01 2020-12-01 运维管理系统

Country Status (1)

Country Link
CN (1) CN114637640B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115426292B (zh) * 2022-09-01 2023-04-14 在云上(南京)智能科技有限公司 一种适用于多云管理的运维系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120113106A (ko) * 2011-04-04 2012-10-12 (주) 휴니트네트웍스 클라우드 서비스 단말기 및 이를 이용한 클라우드 서비스 시스템 및 그 방법, 컴퓨터로 읽을 수 있는 기록매체
CN104657813A (zh) * 2014-11-28 2015-05-27 小沃科技有限公司 员工服务考核信息存储管理系统
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN108416534A (zh) * 2018-03-27 2018-08-17 上海复旦后勤服务发展有限公司 公共设备运维管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120113106A (ko) * 2011-04-04 2012-10-12 (주) 휴니트네트웍스 클라우드 서비스 단말기 및 이를 이용한 클라우드 서비스 시스템 및 그 방법, 컴퓨터로 읽을 수 있는 기록매체
CN104657813A (zh) * 2014-11-28 2015-05-27 小沃科技有限公司 员工服务考核信息存储管理系统
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN108416534A (zh) * 2018-03-27 2018-08-17 上海复旦后勤服务发展有限公司 公共设备运维管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
信息设备状态集中监控平台的设计与实现;刘孙俊;吕磊;何雨欣;张明;;中国新通信;20160120(第02期);124-126 *

Also Published As

Publication number Publication date
CN114637640A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
US7831664B2 (en) Resource list management system
US7818371B2 (en) Communication system allowing users to know online or network status of sought users
US8024494B2 (en) Method of monitoring device forming information processing system, information apparatus and information processing system
US8997000B2 (en) Integrated view of network management data
US20100046377A1 (en) List-Based Alerting in Traffic Monitoring
KR20070011305A (ko) 인터넷을 이용한 화재경보 모니터링제어시스템과 방법
CN100349414C (zh) 远程管理系统
US11283638B1 (en) Determining the status of a node based on a distributed system
CN114637640B (zh) 运维管理系统
US20090129290A1 (en) Method for acquiring information of network resources connected to ports of network switches
Rochim et al. Design Log Management System of Computer Network Devices Infrastructures Based on ELK Stack
US8738804B2 (en) Supporting transactions in a data network using router information
CN111224815B (zh) 数据中心设备接入方法、装置及相关组件
Safrianti et al. Real-time network device monitoring system with simple network management protocol (SNMP) model
CN114143160A (zh) 一种云平台自动化运维系统
US20140052827A1 (en) Relay communication system
CN113537909A (zh) 设备资产管理方法及装置
JPH10229396A (ja) サービス管理方法及びシステム
Cisco Introduction
Cisco Introduction
Cisco Introduction
Cisco Introduction
Cisco Introduction
Cisco Product Overview
Cisco Introduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant