CN108880901A - 一种网络设备及服务器故障诊断和修复的系统和方法 - Google Patents

一种网络设备及服务器故障诊断和修复的系统和方法 Download PDF

Info

Publication number
CN108880901A
CN108880901A CN201810715395.1A CN201810715395A CN108880901A CN 108880901 A CN108880901 A CN 108880901A CN 201810715395 A CN201810715395 A CN 201810715395A CN 108880901 A CN108880901 A CN 108880901A
Authority
CN
China
Prior art keywords
network
equipment
computer room
software
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810715395.1A
Other languages
English (en)
Inventor
胡石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Micro Business Circle Mdt Infotech Ltd
Original Assignee
Hefei Micro Business Circle Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Micro Business Circle Mdt Infotech Ltd filed Critical Hefei Micro Business Circle Mdt Infotech Ltd
Priority to CN201810715395.1A priority Critical patent/CN108880901A/zh
Publication of CN108880901A publication Critical patent/CN108880901A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Abstract

一种网络设备及服务器故障诊断和修复的系统和方法,系统包括:装置主体、设备状态大数据存储阵列和设备日志大数据存储阵列;方法包括以下步骤:采集硬件运行信息;通过神经网络模型判断是否出现故障及隐患;通过设备日志大数据阵列及设备状态大数据阵列对出现故障及隐患进行数据分析;判断故障及隐患是硬件或软件造成的;分析引起软件故障原因并解决问题,本发明的优点在于:通过大数据及神经网络技术对故障及安全事件风险评估与趋势研判平台,实现风险识别、趋势研判、安全隐患预见、安全预警、设备软件故障解决、设备硬件故障评估,能够减轻值班人员的工作强度,减少网络机房设备故障及安全风险降低经济损失。

Description

一种网络设备及服务器故障诊断和修复的系统和方法
技术领域
本发明涉及电子信息技术领域,特别涉及一种网络设备及服务器故障诊断和修复的系统和方法。
背景技术
如果机房环境设备出现故障,就会影响计算机系统正常运行,对数据传输、存储及系统运行的可靠性构成威胁,如果事故严重,又没有及时处理,就可能使硬件设备损坏,造成严重后果;对于政府、银行、电力、证券、海关等需要实时数据处理的单位,机房管理更为重要,一旦系统发生故障,造成的经济损失不可估量;目前,许多网络机房的管理人员逼迫采用24小时专人值班,定时巡查机房环境设备;这样不仅成为机房管理人员的负担,并且更多的时候,不能及时排除安全隐患,目前,国内普遍缺乏机房环境设备的专业管理人员,在许多地方的机房,只得安排软件人员或者不太懂机房设备维护甚至根本不懂机房设备维护的人员来值班,这对机房的安全运行是不利的。
实现网络机房设备故障及安全事件的风险识别、趋势研判及网络机房设备故障及安全隐患预见、安全预警,能够减轻值班人员的工作强度或网络机房的无人管理化,减少网络机房设备故障及安全风险降低经济损失。
现有网络机房设备监控系统一旦系统发生故障,造成的经济损失不可估量,目前,许多网络机房的管理人员逼迫采用24小时专人值班,定时巡查机房环境设备,这样不仅成为机房管理人员的负担,并且更多的时候,不能及时排除安全隐患。目前,国内普遍缺乏机房环境设备的专业管理人员,在许多地方的机房,只得安排软件人员或者不太懂机房设备维护甚至根本不懂机房设备维护的人员来值班,这对机房的安全运行是不利的。
此外,目前的机房设备监控管理均以安全设备为主,无法智能有效找到计算机服务器及网络设备故障通常需由工程师至现场检查设备型号、判断软件故障还是硬件故障,解决故障效率低下 ,解决故障时间较长,有时给企业带来损失。
例如:专利号:201510192330 .X名称:一种服务器故障在线诊断、健康分析及失效预报系统及方法,现有技术存在以下缺陷:1 .网络机房的管理人员逼迫采用24小时专人值班,定时巡查机房环境设备,这样不仅成为机房管理人员的负担,并且更多的时候,不能及时排除安全隐患;2.对机房服务器及网络设备故障进行提前预判;3. 故障出现时不能区分机房服务器及网络设备硬件故障还是软件故障;4. 无法解决机房服务器及网络设备软件进程造成的故障;5.无法评估硬件故障; 6. 无法对机房服务器及网络设备故障进行诊断;7.必须工程师到现场解决软硬件故障,解决故障周期较长。
发明内容
本发明针对现有技术的缺陷,提供了一种网络设备及服务器故障诊断和修复的系统和方法,能有效的解决上述现有技术存在的问题。
为了实现以上发明目的,本发明采取的技术方案如下:一种网络设备及服务器故障诊断和修复的系统,其包括装置主体、设备状态大数据存储阵列和设备日志大数据存储阵列;所述装置主体表面的前端有三部分接口组成;第一部分是千兆万兆网络接口或光纤接口,用于连接网络机房服务器、交换机、路由器等网络设备;第二部分是千兆万兆网络接口或光纤接口,用于连接各种数据库服务集群;第三部分是该调试接口用于设备调试;装置主体表面的后端设有电源接口和UPS电源接口;装置主体内部包括硬件部分和软件部分;其中硬件部分包括:电源模块:用于供电;CPU处理器:中央处理器;RAM存储器:用于数据的临时存储 ,相当于计算机内存;ROM存储器:用于系统的启动和维护,相当于计算机BIOS;Flash存储器:用于存储文件相当于计算机硬盘;网络接口模块:提供千兆万兆网络接口或者是光纤接口;操作系统:管理设备的硬件。
其中软件部分包括:神经网络框架:集成谷歌TensorFlow神经网络框架;设备管理软件:用于进行初始化和管理;网络机房故障诊断软件:用于对网络机房服务器及网络设备进行诊断,采集网络机房服务器及网络设备硬件运行信息,通过Logistic神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患。
网络机房数据分析软件:负责存储网络机房服务器及网络设备各种日志信息及状态信息进行离线静态分析,利用Apache Spark软件对网络机房服务器及网络设各种日志信息及状态信息进行离线静态分析将结果进行归类。
网络机房设备故障修复软件:对网络机房服务器及网络设备存在故障进行分析及修复,如果判断为硬件故障则定位故障点然后通知管理员,如果判断为软件故障则使用RNN (循环神经网络)神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题,问题无法解决定位故障点联系管理员。
所述设备日志大数据存储阵列负责存储网络机房服务器及网络设备各种日志信息。
所述设备状态大数据存储阵列负责存储网络机房服务器及网络设备硬件运行信息。
进一步地,该设备连接网络机房各种服务器及网络设备,后台的设备日志大数据存储阵列和设备状态大数据存储阵列也与该装置相连。
基于上述系统的诊断和修复方法,包括以下步骤:
步骤1,实时采集网络机房服务器及网络设备硬件运行信息。如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程及信息、各种应用程序服务程序进程信息、日志信息。
步骤2,通过逻辑回归神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患,无故障回到步骤1;出现故障及隐患进入步骤3。
步骤3,通过设备日志大数据阵列及设备状态大数据阵列对出现故障及隐患的服务器或者设备进行数据分析将分析结果传入步骤4,步骤5。
步骤4,将步骤3的分析结果利用逻辑回归神经网络模型判断网络机房服务器及网络设备故障及隐患是硬件造成的还是软件造成的,如果硬件故障通过步骤3获得的数据送入RNN神经网络模型评估硬件故障找到故障点联系管理员,若解决故障回到步骤1,若是软件故障到步骤5。
步骤5,通过步骤3获得的数据送入RNN神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题回到步骤1。如问题无法解决联系管理员。
与现有技术相比本发明的优点在于:通过大数据及神经网络技术对网络机房服务器及网络设备故障及安全事件风险评估与趋势研判平台,实现网络机房设备故障及安全事件的风险识别、趋势研判及服务器及网络设备故障及安全隐患预见、安全预警、设备软件故障解决、设备硬件故障评估,能够减轻值班人员的工作强度或网络机房的无人管理化,减少网络机房设备故障及安全风险降低经济损失。本发明促进智慧城市信息化建设。提高智慧城市服务水平、加快智慧城市及数字化建设具有积极的意义。
附图说明
图1为本发明实施例装置主体主视图;
图2为本发明实施例装置主体后视图;
图3为本发明实施例装置主体后视图;
图4为本发明实施例系统的结构示意。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明做进一步详细说明。
一种用于网络设备及服务器故障诊断和修复的系统,其包括装置主体、设备日志大数据存储阵列和设备日志大数据存储阵列。
如图1所示,装置主体表面的前端有三部分接口组成,第一部分是千兆万兆网络接口或光纤接口,用于连接网络机房服务器、交换机、路由器等网络设备。
第二部分是千兆万兆网络接口或光纤接口,用于连接各种数据库服务集群;第三部分是该调试接口用于设备调试。
如图2所示,装置主体表面的后端设有电源接口和UPS电源接口。
如图3所示,装置主体内部包括硬件部分和软件部分;其中硬件部分包括:电源模块:用于供电;CPU处理器:中央处理器;RAM存储器:用于数据的临时存储 ,相当于计算机内存;ROM存储器:用于系统的启动和维护,相当于计算机BIOS;Flash存储器:用于存储文件相当于计算机硬盘;网络接口模块:提供千兆万兆网络接口或者是光纤接口;操作系统:管理设备的硬件。
其中软件部分包括:神经网络框架:集成谷歌TensorFlow神经网络框架设备管理软件:用于进行初始化和管理网络机房故障诊断软件:用于对网络机房服务器及网络设备进行诊断,采集网络机房服务器及网络设备硬件运行信息,如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程及信息、各种应用程序服务程序进程信息、日志信息。通过Logistic(逻辑回归)神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患。
网络机房数据分析软件:负责存储网络机房服务器及网络设备各种日志信息及状态信息进行(离线静态)分析,利用Apache Spark软件对网络机房服务器及网络设各种日志信息及状态信息进行(离线静态)分析将结果进行归类。
网络机房设备故障修复软件:对网络机房服务器及网络设备存在故障进行分析及修复,如果判断为硬件故障则定位故障点然后通知管理员,如果判断为软件故障则使用RNN(循环神经网络)神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题,问题无法解决定位故障点联系管理员。
所述设备日志大数据存储阵列负责存储网络机房服务器及网络设备各种日志信息。
所述设备状态大数据存储阵列负责存储网络机房服务器及网络设备硬件运行信息,如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程信息、各种应用程序服务程序进程信息。
如图4所示,该设备连接网络机房各种服务器及网络设备,后台的设备日志大数据存储阵列和设备状态大数据存储阵列也与该装置相连。
基于上述系统的诊断和修复方法,包括以下步骤:
步骤1,实时采集网络机房服务器及网络设备硬件运行信息。如:CPU占用率及信息、内存使用情况,硬盘活动进程信息、网络活动进程及信息、各种应用程序服务程序进程信息、日志信息。
步骤2,通过逻辑回归神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患,无故障回到步骤1;出现故障及隐患进入步骤3。
步骤3,通过设备日志大数据阵列及设备状态大数据阵列对出现故障及隐患的服务器或者设备进行数据分析将分析结果传入步骤4,步骤5。
步骤4,将步骤3的分析结果利用逻辑回归神经网络模型判断网络机房服务器及网络设备故障及隐患是硬件造成的还是软件造成的。如果硬件故障通过步骤3获得的数据送入RNN(循环神经网络)神经网络模型评估硬件故障找到故障点联系管理员。若解决故障回到步骤1,若是软件故障到步骤5。
步骤5,通过步骤3获得的数据送入RNN(循环神经网络)神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题回到步骤1。如问题无法解决联系管理员。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例,本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (2)

1. 一种网络设备及服务器故障诊断和修复的系统和方法,其特征在于:所述系统包括装置主体、设备状态大数据存储阵列和设备日志大数据存储阵列;所述装置主体表面的前端有三部分接口组成;第一部分是千兆万兆网络接口或光纤接口,用于连接网络机房服务器、交换机、路由器等网络设备;第二部分是千兆万兆网络接口或光纤接口,用于连接各种数据库服务集群;第三部分是该调试接口用于设备调试;装置主体表面的后端设有电源接口和UPS电源接口;装置主体内部包括硬件部分和软件部分;其中硬件部分包括:电源模块:用于供电;CPU处理器:中央处理器;RAM存储器:用于数据的临时存储 ,相当于计算机内存;ROM存储器:用于系统的启动和维护,相当于计算机BIOS;Flash存储器:用于存储文件相当于计算机硬盘;网络接口模块:提供千兆万兆网络接口或者是光纤接口;操作系统:管理设备的硬件;其中软件部分包括:神经网络框架:集成谷歌TensorFlow神经网络框架;设备管理软件:用于进行初始化和管理;网络机房故障诊断软件:用于对网络机房服务器及网络设备进行诊断,采集网络机房服务器及网络设备硬件运行信息,通过Logistic神经网络模型判断网络机房服务器及网络设备是否出现故障及隐患;网络机房数据分析软件:负责存储网络机房服务器及网络设备各种日志信息及状态信息进行离线静态分析,利用ApacheSpark软件对网络机房服务器及网络设各种日志信息及状态信息进行离线静态分析将结果进行归类;网络机房设备故障修复软件:对网络机房服务器及网络设备存在故障进行分析及修复,如果判断为硬件故障则定位故障点然后通知管理员;如果判断为软件故障则使用RNN神经网络模型分析引起软件故障原因并找到引起故障的软件进程并关闭进程解决问题,问题无法解决定位故障点联系管理员;所述设备日志大数据存储阵列负责存储网络机房服务器及网络设备各种日志信息;所述设备状态大数据存储阵列负责存储网络机房服务器及网络设备硬件运行信息。
2.根据权利要求1所述的一种网络设备及服务器故障诊断和修复的系统和方法,其特征在于:该设备连接网络机房各种服务器及网络设备,后台的设备日志大数据存储阵列和设备状态大数据存储阵列也与该装置相连。
CN201810715395.1A 2018-06-29 2018-06-29 一种网络设备及服务器故障诊断和修复的系统和方法 Withdrawn CN108880901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810715395.1A CN108880901A (zh) 2018-06-29 2018-06-29 一种网络设备及服务器故障诊断和修复的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810715395.1A CN108880901A (zh) 2018-06-29 2018-06-29 一种网络设备及服务器故障诊断和修复的系统和方法

Publications (1)

Publication Number Publication Date
CN108880901A true CN108880901A (zh) 2018-11-23

Family

ID=64298388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810715395.1A Withdrawn CN108880901A (zh) 2018-06-29 2018-06-29 一种网络设备及服务器故障诊断和修复的系统和方法

Country Status (1)

Country Link
CN (1) CN108880901A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109600261A (zh) * 2018-12-14 2019-04-09 锐捷网络股份有限公司 网络修复方法、云端服务器、用户终端及网络修复系统
CN110188017A (zh) * 2019-05-28 2019-08-30 承德石油高等专科学校 网络机房服务器与网络设备大数据采集装置及方法
CN110414695A (zh) * 2019-07-29 2019-11-05 珠海格力智能装备有限公司 尿素机控制系统的维修方法及装置
CN111897683A (zh) * 2020-07-10 2020-11-06 广东小天才科技有限公司 电子设备及其故障修复方法和装置
CN112256470A (zh) * 2020-11-04 2021-01-22 中国建设银行股份有限公司 故障服务器定位方法及装置、存储介质及电子设备
CN113541988A (zh) * 2020-04-17 2021-10-22 华为技术有限公司 一种网络故障的处理方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109600261A (zh) * 2018-12-14 2019-04-09 锐捷网络股份有限公司 网络修复方法、云端服务器、用户终端及网络修复系统
CN110188017A (zh) * 2019-05-28 2019-08-30 承德石油高等专科学校 网络机房服务器与网络设备大数据采集装置及方法
CN110414695A (zh) * 2019-07-29 2019-11-05 珠海格力智能装备有限公司 尿素机控制系统的维修方法及装置
CN113541988A (zh) * 2020-04-17 2021-10-22 华为技术有限公司 一种网络故障的处理方法及装置
CN111897683A (zh) * 2020-07-10 2020-11-06 广东小天才科技有限公司 电子设备及其故障修复方法和装置
CN112256470A (zh) * 2020-11-04 2021-01-22 中国建设银行股份有限公司 故障服务器定位方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108880901A (zh) 一种网络设备及服务器故障诊断和修复的系统和方法
CN108199922A (zh) 一种用于网络设备及服务器故障诊断和修复的系统和方法
CN104991629B (zh) 电源失效侦测系统与其方法
CN107612756A (zh) 一种具有智能故障分析处理功能的运维管理系统
CN101771582B (zh) 一种基于状态机的安全监控关联分析方法及系统
EP3543923A1 (en) System and method to auto create aircraft maintenance records by aircraft data
CN104038373A (zh) 信息预警与自修复系统及方法
CN104574557A (zh) 一种基于告警的站点巡检方法、操控装置和系统
CN108337108A (zh) 一种基于关联分析的云平台故障自动化定位方法
CN108390763A (zh) PoE交换机、网络摄像机系统及其自动检测方法
CN106383286A (zh) 电力线路故障报警装置
CN114726642B (zh) 一种基于电力监控系统网络威胁的量化系统
CN117474357A (zh) 基于深度学习的配电房运维管理方法及系统
CN117220917A (zh) 一种基于云计算的网络实时监控方法
CN103839137A (zh) 一种基于物联网的无源箱体管理系统
KR101023533B1 (ko) 고속철도 에이티시의 실시간 원격복구 시스템 및 그 제어방법
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
CN104579745A (zh) 一种移动终端及网络巡检系统
CN209728730U (zh) 面向工业物联网边缘计算服务器的安全保障系统
CN202306242U (zh) 一种机房监控综合报警设备
CN112615812A (zh) 一种信息网络统一漏洞多维度安全情报收集分析管理系统
CN114120580B (zh) 一种远程监控信息系统
CN110955967A (zh) 一种母联备自投在bpa的建模方法及系统
CN105334839A (zh) 10kV配网设备管理系统
Platis et al. Coverage modeling and optimal maintenance frequency of an automated restoration mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181123