CN108282349A - 基于集群服务器故障处理技术 - Google Patents

基于集群服务器故障处理技术 Download PDF

Info

Publication number
CN108282349A
CN108282349A CN201710006885.XA CN201710006885A CN108282349A CN 108282349 A CN108282349 A CN 108282349A CN 201710006885 A CN201710006885 A CN 201710006885A CN 108282349 A CN108282349 A CN 108282349A
Authority
CN
China
Prior art keywords
server
management
agent
model
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710006885.XA
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Moving Power Network Technology Co Ltd
Original Assignee
Hunan Moving Power Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Moving Power Network Technology Co Ltd filed Critical Hunan Moving Power Network Technology Co Ltd
Priority to CN201710006885.XA priority Critical patent/CN108282349A/zh
Publication of CN108282349A publication Critical patent/CN108282349A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Abstract

基于集群服务器故障处理技术,主要方法是在每个服务器中安装代理,通过网络系统进行交流反馈,管理端对接受的信息进行采集,对预警时间进行通知,xCAT用来进行功率循环和引导计算节点,设计了用于Linux 服务器集群的故障预警系统,主要从采用服务器设备状态监测模型设计,管理端和代理端通信机制采用了SNMP 和 Agent X技术,管理端核心是引擎层,包含外壳程序执行模块、IPMI 模块、Agent X 子代理模块。引擎层通过系统 API、SHELL 命令以及 IPMI 与设备操作系统进行交互。系统总体架构框架为分层次设计,把系统划分预警通知模型、状态监测模型、预警判定模型、预警过滤模型、以及设备管理模型。从而实现对服务器集群的全方面监测预警。

Description

基于集群服务器故障处理技术
技术领域
本研究方法主要涉及到信息技术领域。
背景技术
随着计算机技术和网络通信技术的快速发展,服务器集群得到了广泛的应用,采用服务器集群的系统通常是为了提高系统的稳定性和网络中心的数据处理能力及服务能力,服务器集群网络规模和服务器数量随着企业业务发展而不断升级,集群系统内服务器数量和各组件不断增加,在不同的种类设备配置导致网络管理信息分布不均且容易出现故障,它的不足主要表现在以下几个方面:
1、服务器集群系统的自动化监控预警系统以及远程维护管理系统的缺失,人为的手工维护系统效率不高,对系统故障难以发现。
2、处理不及时,对管理人员的技术水平和操作能力要求过低,导致处理效率慢,系统死板,不能跟以前的数据做对比分析只能看到当前状态,不能正确评估分析。
原有的系统故障存在滞后性,一般是在发生问题后才去解决,且是通过人工监控的方式进行处理,对人力和财力方面造成了很大的浪费。
发明内容
1、基于集群服务器故障处理技术,主要对管理端模块进行处理,它为系统提供Web管理界面为浏览器和服务器结构,管理端后台和代理处理网络管理数据为客户机和服务器结构,主要引入了 SNMP 网络管理报文传输格式,SNMP 报文在传输层通过 UDP 协议传输,UDP 将 SNMP 报文封装后传递给 IP 层,IP 层继续封装后传递给底层网络接口传输。使交换数据更加便捷,脱离数据内部格式建立内部以外的格式,不管在说明情况下都能接收都消息做出及时的处理。
2、基于集群服务器故障处理技术,主要方法为对每台服务器安装代理,代理端对管理端进行网络通信,管理端对接到的信息进行相应的操作,管理端在规定时间内对接收到的信息进行过滤,做出正确的判断,即时做出故障预警,它的具体操作方法为由理站发送Get-Request 报文请求查询某个被管对象的信息,代理将被查询对象信息封装到 Get-Response 报文中进行响应,Set-Request 对管理对象进行设置。
3、基于集群服务器故障处理技术,主要运用到 SNMP、Agent X 和 IPMI 多种协议,分别对管理端、代理端以及通信模块进行了具体技术实现,主要包含对管理端的状态监测、预警判定、预警过滤、预警通知和设备管理模块。
4、基于集群服务器故障处理技术,SNMP协议是运用到网络管理中,管理工作站在不断监听接收 Trap 信息的同时还可以对代理端发送命令。通过管理信息库中查询或设置后返回结果给管理站;在被管代理设备出现异常状况时,主动发送 Trap告警信息给管理站。
5、基于集群服务器故障处理技术,Agent X 协议完成MIB 的动态变化,其通过将单一代理模式变为单一主代理和多个子代理协同工作的模式,灵活地解决了 MIB 和代理功能的动态扩展问题。
6、基于集群服务器故障处理技术,IPMI协议跟管理端完全结合,根据现有的网络管理系统连接起来,实现高级版和精准的服务管理功能,PMI集群管理软件可以为服务器提供各种传感器数据,来完成故障预警处理,IPMI 规范还定义了一套通信协议用于服务器平台和系统管理软件之间的通信以及服务器设备之间的通信。

Claims (2)

1. 基于集群服务器故障处理技术,主要对管理端模块进行处理,它为系统提供Web 管理界面为浏览器和服务器结构,管理端后台和代理处理网络管理数据为客户机和服务器结构,它采用的JAVA 开发,IDE 为 Eclipse J2EE。
2. 基于集群服务器故障处理技术,PMI协议跟管理端完全结合,根据现有的网络管理系统连接起来,实现高级版和精准的服务管理功能,PMI集群管理软件可以为服务器提供各种传感器数据,来完成故障预警处理,IPMI 规范还定义了一套通信协议用于服务器平台和系统管理软件之间的通信以及服务器设备之间的通信。
CN201710006885.XA 2017-01-05 2017-01-05 基于集群服务器故障处理技术 Withdrawn CN108282349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710006885.XA CN108282349A (zh) 2017-01-05 2017-01-05 基于集群服务器故障处理技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710006885.XA CN108282349A (zh) 2017-01-05 2017-01-05 基于集群服务器故障处理技术

Publications (1)

Publication Number Publication Date
CN108282349A true CN108282349A (zh) 2018-07-13

Family

ID=62800481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710006885.XA Withdrawn CN108282349A (zh) 2017-01-05 2017-01-05 基于集群服务器故障处理技术

Country Status (1)

Country Link
CN (1) CN108282349A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890988A (zh) * 2019-12-02 2020-03-17 安徽三实信息技术服务有限公司 一种服务器集群运行监控系统
CN113535464A (zh) * 2020-04-17 2021-10-22 海能达通信股份有限公司 一种容灾备份方法、服务器、集群系统和存储装置
CN117492604A (zh) * 2023-11-02 2024-02-02 安徽省中易环保新材料有限公司 用于垃圾焚烧的烟气处理方法及净化系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890988A (zh) * 2019-12-02 2020-03-17 安徽三实信息技术服务有限公司 一种服务器集群运行监控系统
CN110890988B (zh) * 2019-12-02 2022-04-22 安徽三实信息技术服务有限公司 一种服务器集群运行监控系统
CN113535464A (zh) * 2020-04-17 2021-10-22 海能达通信股份有限公司 一种容灾备份方法、服务器、集群系统和存储装置
CN113535464B (zh) * 2020-04-17 2024-02-02 海能达通信股份有限公司 一种容灾备份方法、服务器、集群系统和存储装置
CN117492604A (zh) * 2023-11-02 2024-02-02 安徽省中易环保新材料有限公司 用于垃圾焚烧的烟气处理方法及净化系统
CN117492604B (zh) * 2023-11-02 2024-04-19 安徽省中易环保新材料有限公司 用于垃圾焚烧的烟气处理方法及净化系统

Similar Documents

Publication Publication Date Title
CN106253487B (zh) 应用于智能变电站保护控制系统的智能电力服务器
CN101227329B (zh) 网络设备管理的方法、装置及系统
Liu et al. A Fault Management Protocol for Low-Energy and Efficient Wireless Sensor Networks.
CN109391516B (zh) 实现多厂家utn设备集中维护管理的云化第三方网管系统
CN108282349A (zh) 基于集群服务器故障处理技术
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
CN111885439B (zh) 一种光网络综合管理和值勤管理系统
CN109412877B (zh) 一种基于utn网络的网络能力开放系统
CN104751280A (zh) 一种石化企业电能耗监测系统及其数据管理方法
CN105790990A (zh) 一种监管配用电通信业务的方法及其系统
CN107943670A (zh) 一种ups电源设备监控系统
CN100499502C (zh) 陷阱解析与预处理系统及方法
CN110163484A (zh) 基于互联网的盾构设备智能运维管理系统及方法
CN102208996A (zh) 用于数字化变电站网络化智能设备的网络安全监视方法
CN110867955A (zh) 变电站自动化设备一体化运维工具
CN110752959A (zh) 一种智能变电站过程层物理链路故障定位系统
CN106789284A (zh) 一种基于Zabbix和Docker的监控系统和方法
CN107370771A (zh) 一种基于互联网的水电站集控系统及方法
CN114301809A (zh) 一种边缘计算平台架构
CN112153131A (zh) 一种基于超融合技术的钢铁质量私有云平台构建方法
CN103973495A (zh) 终端接入网接口适配器及其数据传输方法
CN103957153A (zh) 调度交换网接口适配器及其数据传输方法
CN105978715A (zh) 一种基于实时数据中心的数据接入接口统一管理方法
CN102904739A (zh) 一种实现事件转发的方法及通用信息模型cim服务器
CN114567568A (zh) 基于边缘计算的电力物联网数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180713

WW01 Invention patent application withdrawn after publication