CN110704278A - 一种智能服务器管理系统及其管理方法 - Google Patents

一种智能服务器管理系统及其管理方法 Download PDF

Info

Publication number
CN110704278A
CN110704278A CN201910938669.8A CN201910938669A CN110704278A CN 110704278 A CN110704278 A CN 110704278A CN 201910938669 A CN201910938669 A CN 201910938669A CN 110704278 A CN110704278 A CN 110704278A
Authority
CN
China
Prior art keywords
server
data
platform
maintenance
control instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910938669.8A
Other languages
English (en)
Inventor
黄刚
肖德广
于治楼
陈亮甫
张黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue CNC Electronics Co Ltd
Original Assignee
Shandong Chaoyue CNC Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue CNC Electronics Co Ltd filed Critical Shandong Chaoyue CNC Electronics Co Ltd
Priority to CN201910938669.8A priority Critical patent/CN110704278A/zh
Publication of CN110704278A publication Critical patent/CN110704278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种智能服务器管理系统及其管理方法,其中,智能服务器管理系统包括:一个或一个以上的服务器、数据存储云平台、数据分析平台和数据运维平台;所述服务器包括:数据采集模块和控制模块。本方案,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。

Description

一种智能服务器管理系统及其管理方法
技术领域
本发明涉及服务器管理领域,特别涉及一种智能服务器管理系统及其管理方法。
背景技术
随着计算机技术的发展以及大数据时代的兴起,越来越多的数据需要通过服务器进行存储、管理,以方便人们使用。服务器集群管理一直以来都是企业数据中心维护人员面临的挑战之一,尤其是随着云计算以及大数据的兴起,数据中心的规模从几台到上百万台不等。现有的服务器机房一般需要大量的运维人员参与管理维护。当数据中心服务器出现异常时,运维人员排查问题需要耗费大量时间,浪费了大量的人力物力。
发明内容
本发明实施例提供了一种智能服务器管理系统及其管理方法,以解决数据中心服务器出现异常时运维人员排查问题所耗费的大量时间。
第一方面,本发明提供了一种智能服务器管理系统,包括:一个或一个以上的服务器、数据存储云平台、数据分析平台和数据运维平台;所述服务器包括:数据采集模块和控制模块;其中,
所述数据采集模块,用于根据预先存储的硬件资源配置表,利用智能平台管理接口IPMI协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台;
所述数据存储云平台,用于存储所述数据采集模块发送的信息;
所述数据分析平台,用于根据所述数据存储云平台存储的信息,构建逆向传播算法BP神经网络模型,并利用所述BP神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态;
所述数据运维平台,用于展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;
所述控制模块,用于接收所述数据运维平台发送的所述控制指令,并利用IPMI协议对所述服务器执行所述控制指令。
优选地,所述数据分析平台,进一步用于根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。
优选地,
所述数据分析平台,进一步用于在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述BP神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。
优选地,
所述数据存储云平台,进一步用于在接收到所述服务器的软硬件信息和日志信息后,对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;
所述数据分析平台,具体用于利用所述数据存储云平台中标记的数据,执行所述构建逆向传播算法BP神经网络模型。
优选地,
所述智能服务器管理系统还包括:远程控制端;
所述数据分析平台,还用于将所述分析结果发送给所述远程控制端;
所述远程控制端,用于远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。
第二方面,本发明提供了一种智能服务器管理方法,包括:
服务器的数据采集模块根据预先存储的硬件资源配置表,利用智能平台管理接口IPMI协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台,所述数据存储云平台存储所述数据采集模块发送的信息;
数据分析平台根据所述数据存储云平台存储的信息,构建逆向传播算法BP神经网络模型,并利用所述BP神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态;
所述数据运维平台展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;
所述服务器的控制模块利用IPMI协议对所述服务器执行所述控制指令。
优选地,还包括:所述数据分析平台在根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。
优选地,还包括:所述数据分析平台在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述BP神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。
优选地,
在所述数据存储云平台存储所述数据采集模块发送的信息之后,还包括:所述数据存储云平台对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;
所述数据分析平台利用所述数据存储云平台中标记的数据,执行所述构建逆向传播算法BP神经网络模型。
优选地,
还包括:所述数据分析平台将所述分析结果发送给远程控制端,所述远程控制端远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。
本发明实施例提供了一种智能服务器管理系统及其管理方法,通过服务器的数据采集模块,根据预先存储的硬件资源配置表,利用IPMI协议采集所述服务器的软硬件信息和日志信息,上传到数据存储云平台中存储,由数据分析平台根据数据存储平台中存储的信息,构建BP神经网络模型,利用BP神经网络模型对数据采集模块最新一次采集的服务器的软硬件信息和日志信息进行分析,将包括有所述服务器的运行状态的分析结果发送给数据运维平台,运维人员可以通过数据运维平台展示的分析结果,确定针对运行异常的服务器输入相应的控制指令,服务器的控制模块执行该控制指令,从而实现对服务器的维护。本方案,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种智能服务器管理系统的结构示意图;
图2是本发明一个实施例提供的另一种智能服务器管理系统的结构示意图;
图3是本发明一个实施例提供的一种智能服务器管理方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例提供了一种智能服务器管理系统,包括:一个或一个以上的服务器10(图1中以1个服务器为例)、数据存储云平台20、数据分析平台30和数据运维平台40;所述服务器10包括:数据采集模块101和控制模块102;其中,
所述数据采集模块101,用于根据预先存储的硬件资源配置表,利用智能平台管理接口(Intelligent Platform Management Interface,IPMI)协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台20;
所述数据存储云平台20,用于存储所述数据采集模块101发送的信息;
所述数据分析平台30,用于根据所述数据存储云平台20存储的信息,构建逆向传播算法(Error Back Propagation,BP)神经网络模型,并利用所述BP神经网络模型,对所述数据采集模块101最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台40;所述分析结果中包括所述服务器的运行状态;
所述数据运维平台40,用于展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;
所述控制模块102,用于接收所述数据运维平台40发送的所述控制指令,并利用IPMI协议对所述服务器执行所述控制指令。
本发明实施例中,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。
在本实施例中,每个服务器中均预先存储有硬件资源配置表,其中记录有该服务器的硬件配置信息,根据该硬件资源配置表,可以在服务器中构建基于IPMI协议的服务器管理软件,用于配合服务器外部的各个平台实现对服务器的控制维护,在服务器管理软件构建完成后,服务器中形成有数据采集模块和控制模块,用了实现该服务器管理软件的功能。
其中,数据采集模块采集的服务器的软硬件信息至少可以包括电压、温度、电源等信息,日志信息至少可以包括故障日志、系统日志等信息。
需要说明的是,数据采集模块可以按照一定采集规则进行信息采集,例如,每隔一个时间段采集一次,再如,收到采集指令时采集一次。
在本发明一个实施例中,为了在服务器运行异常时,能够及时对运行异常的服务器进行控制维护,数据分析平台,可以进一步用于根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。
其中,告警通知的发送方式可以通过短信方式、蓝牙方式等。
若服务器运行异常一段时间未能够采取有效措施,可能会对服务器的正常工作造成影响,在本发明一个实施例中,所述数据分析平台,可以进一步用于在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述BP神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。
其中,针对服务器的运行异常,可能存在多个控制措施,或者,在过往运行过程中,针对该运行异常的状态,采取过不同的控制措施,BP神经网络模型可以分析出该至少一个控制措施所对应的优先级,例如过往运行过程中使用控制措施的次数从多到少,那么使用次数最多的控制措施优先级较高,数据分析平台可以从优先级从高到低的顺序,逐个针对确定的控制措施生产控制指令。
由于每个服务器上用于存储数据的FLASH一般只有几十兆大小,难以存储服务器长期运行中产生的大量的数据,在本实施例中,通过架设云端存储方式,将每个服务器产生的日志信息以及服务器的软硬件信息上传到云端的数据存储云平台中,从而可以实现大量数据的长期、安全存储。
本发明一个实施例中,所述数据存储云平台不仅可以存储数据,还可以用于对数据的整理、清洗和标记,在接收到所述服务器的软硬件信息和日志信息后,整理出其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据,并对这些数据进行标记;其中,标记过的数据具有较高的研究价值,便于数据分析平台的数据分析。
进一步地,所述数据分析平台,具体用于利用所述数据存储云平台中标记的数据,执行所述构建BP神经网络模型。
在构建BP神经网络模型时,采用上传到数据存储云平台中标记的数据,训练BP神经网络模型,作为服务器管理数据的问题分析模型,其中训练的原理是通过先验知识将长假的服务器管理中遇到的问题及其相应的控制措施作为训练的原始数据,然后长期反复训练,得到稳定的分析模型。
本实施例中采用神经网络的方法进行构建,由于服务器上传到数据存储云平台的数据一般为非结构化数据,传统数据建模方式很难处理非结构化数据,而神经网络具有强大的特征提取能力,能够有效地整合多源数据、处理非结构化数据,最大限度的提取数据中有价值的部分。
需要说明的是,BP神经网络模型在构建之初,需要使用数据存储云平台中存储的大量长期的数据作为训练基础,在BP神经网络模型构建完成后,每得到一次分析结果,且运维人员根据该次分析结果采取了相应控制措施时,可以将该次分析结果和控制措施进一步作为模型的输入,以进行训练,得到更稳定的BP神经网络模型。
在本发明一个实施例中,为了便于运维人员对服务器的远程控制,请参考图2,所述智能服务器管理系统还包括:远程控制端50;
所述数据分析平台30,还用于将所述分析结果发送给所述远程控制端;
所述远程控制端50,用于远程登录所述数据运维平台40,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。
其中,该服务器具有KVM OVER IP功能,能够便于运维人员对服务器的控制。
控制模块可以根据控制指令,实现对服务器的风扇控制、开关机、复位等操作,从而实现对服务器的控制维护,保障数据中心的正常运行。
实施例二
请参考图3,本发明实施例基于实施例一的智能服务器管理系统,提供了一种智能服务器管理方法,包括:
步骤301:服务器的数据采集模块根据预先存储的硬件资源配置表,利用智能平台管理接口IPMI协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台。
其中,数据采集模块采集的服务器的软硬件信息至少可以包括电压、温度、电源等信息,日志信息至少可以包括故障日志、系统日志等信息。
需要说明的是,数据采集模块可以按照一定采集规则进行信息采集,例如,每隔一个时间段采集一次,再如,收到采集指令时采集一次。
步骤302:所述数据存储云平台存储所述数据采集模块发送的信息。
在本发明一个实施例中,所述数据存储云平台不仅可以存储数据,还可以用于对数据的整理、清洗和标记,在接收到所述服务器的软硬件信息和日志信息后,所述数据存储云平台还可以对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;其中,标记过的数据具有较高的研究价值,便于数据分析平台的数据分析。
步骤303:数据分析平台根据所述数据存储云平台存储的信息,构建逆向传播算法BP神经网络模型,并利用所述BP神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态。
在本发明一个实施例中,由于所述数据分析平台中对用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行了标记,因此,可以利用所述数据存储云平台中标记的数据,构建逆向传播算法BP神经网络模型。
在本发明一个实施例中,为了在服务器运行异常时,能够及时对运行异常的服务器进行控制维护,所述数据分析平台还可以根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。其中,告警通知的发送方式可以通过短信方式、蓝牙方式等。
若服务器运行异常一段时间未能够采取有效措施,可能会对服务器的正常工作造成影响,在本发明一个实施例中,所述数据分析平台,可以进一步在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述BP神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。
其中,针对服务器的运行异常,可能存在多个控制措施,或者,在过往运行过程中,针对该运行异常的状态,采取过不同的控制措施,BP神经网络模型可以分析出该至少一个控制措施所对应的优先级,例如过往运行过程中使用控制措施的次数从多到少,那么使用次数最多的控制措施优先级较高,数据分析平台可以从优先级从高到低的顺序,逐个针对确定的控制措施生产控制指令。
步骤304:所述数据运维平台展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器。
步骤305:所述服务器的控制模块利用IPMI协议对所述服务器执行所述控制指令。
在本发明一个实施例中,为了便于运维人员对服务器的远程控制,还可以通过远程控制端实现对服务器的控制维护,具体地,所述数据分析平台将所述分析结果发送给远程控制端,所述远程控制端远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。
本发明实施例中,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。
综上,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。
2、在本发明实施例中,数据分析平台在根据分析结果确定服务器运行异常时,可以通过短信方式、蓝牙等方式向运维人员发送告警通知,以告知运维人员当前有运行异常的服务器,督促运维人员及时采用相应的控制措施,实现对服务器的控制维护。
3、在本发明实施例中,数据分析平台在确定服务器运行异常,且运维人员在设定时间阈值内,未采用控制措施时,可以通过BP神经网络模型,确定出相应的控制措施,并根据确定的控制措施及时对服务器进行控制维护,保证了数据中心的正常运行。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种智能服务器管理系统,其特征在于,包括:一个或一个以上的服务器、数据存储云平台、数据分析平台和数据运维平台;所述服务器包括:数据采集模块和控制模块;其中,
所述数据采集模块,用于根据预先存储的硬件资源配置表,利用智能平台管理接口IPMI协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台;
所述数据存储云平台,用于存储所述数据采集模块发送的信息;
所述数据分析平台,用于根据所述数据存储云平台存储的信息,构建逆向传播算法BP神经网络模型,并利用所述BP神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态;
所述数据运维平台,用于展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;
所述控制模块,用于接收所述数据运维平台发送的所述控制指令,并利用IPMI协议对所述服务器执行所述控制指令。
2.根据权利要求1所述智能服务器管理系统,其特征在于,所述数据分析平台,进一步用于根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。
3.根据权利要求2所述智能服务器管理系统,其特征在于,
所述数据分析平台,进一步用于在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述BP神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。
4.根据权利要求1所述智能服务器管理系统,其特征在于,
所述数据存储云平台,进一步用于在接收到所述服务器的软硬件信息和日志信息后,对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;
所述数据分析平台,具体用于利用所述数据存储云平台中标记的数据,执行所述构建逆向传播算法BP神经网络模型。
5.根据权利要求1-4中任一所述智能服务器管理系统,其特征在于,
所述智能服务器管理系统还包括:远程控制端;
所述数据分析平台,还用于将所述分析结果发送给所述远程控制端;
所述远程控制端,用于远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。
6.一种智能服务器管理方法,其特征在于,包括:
服务器的数据采集模块根据预先存储的硬件资源配置表,利用智能平台管理接口IPMI协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台,所述数据存储云平台存储所述数据采集模块发送的信息;
数据分析平台根据所述数据存储云平台存储的信息,构建逆向传播算法BP神经网络模型,并利用所述BP神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态;
所述数据运维平台展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;
所述服务器的控制模块利用IPMI协议对所述服务器执行所述控制指令。
7.根据权利要求6所述的智能服务器管理方法,其特征在于,还包括:所述数据分析平台在根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。
8.根据权利要求7所述的智能服务器管理方法,其特征在于,还包括:所述数据分析平台在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述BP神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。
9.根据权利要求6所述的智能服务器管理方法,其特征在于,
在所述数据存储云平台存储所述数据采集模块发送的信息之后,还包括:所述数据存储云平台对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;
所述数据分析平台利用所述数据存储云平台中标记的数据,执行所述构建逆向传播算法BP神经网络模型。
10.根据权利要求6-9中任一所述的智能服务器管理方法,其特征在于,
还包括:所述数据分析平台将所述分析结果发送给远程控制端,所述远程控制端远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。
CN201910938669.8A 2019-09-30 2019-09-30 一种智能服务器管理系统及其管理方法 Pending CN110704278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910938669.8A CN110704278A (zh) 2019-09-30 2019-09-30 一种智能服务器管理系统及其管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910938669.8A CN110704278A (zh) 2019-09-30 2019-09-30 一种智能服务器管理系统及其管理方法

Publications (1)

Publication Number Publication Date
CN110704278A true CN110704278A (zh) 2020-01-17

Family

ID=69197406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910938669.8A Pending CN110704278A (zh) 2019-09-30 2019-09-30 一种智能服务器管理系统及其管理方法

Country Status (1)

Country Link
CN (1) CN110704278A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737092A (zh) * 2020-06-06 2020-10-02 苏州浪潮智能科技有限公司 一种基于无状态计算的服务器自动化运维系统及方法
CN114969163A (zh) * 2022-07-21 2022-08-30 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN116360992A (zh) * 2023-03-30 2023-06-30 郑州地铁集团有限公司运营分公司 基于容器化微服务的轨道交通供电智能运维方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426290A (zh) * 2015-11-18 2016-03-23 北京京东尚科信息技术有限公司 异常信息智能处理方法和系统
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN109062756A (zh) * 2018-07-09 2018-12-21 何思阳 一种数据中心集中预警监测的方法和系统
KR20190104267A (ko) * 2019-07-23 2019-09-09 엘지전자 주식회사 운전 로그 및 인공지능모델을 이용하여 고장 진단을 하는 인공 지능 기기 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426290A (zh) * 2015-11-18 2016-03-23 北京京东尚科信息技术有限公司 异常信息智能处理方法和系统
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN109062756A (zh) * 2018-07-09 2018-12-21 何思阳 一种数据中心集中预警监测的方法和系统
KR20190104267A (ko) * 2019-07-23 2019-09-09 엘지전자 주식회사 운전 로그 및 인공지능모델을 이용하여 고장 진단을 하는 인공 지능 기기 및 그 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737092A (zh) * 2020-06-06 2020-10-02 苏州浪潮智能科技有限公司 一种基于无状态计算的服务器自动化运维系统及方法
CN114969163A (zh) * 2022-07-21 2022-08-30 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN114969163B (zh) * 2022-07-21 2022-12-09 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN116360992A (zh) * 2023-03-30 2023-06-30 郑州地铁集团有限公司运营分公司 基于容器化微服务的轨道交通供电智能运维方法及系统
CN116360992B (zh) * 2023-03-30 2023-11-17 郑州地铁集团有限公司运营分公司 基于容器化微服务的轨道交通供电智能运维方法及系统

Similar Documents

Publication Publication Date Title
CN104699759B (zh) 一种数据库自动化运行维护方法
CN111835582B (zh) 物联网巡检设备的配置方法、装置、计算机设备
CN110704278A (zh) 一种智能服务器管理系统及其管理方法
CN110794800B (zh) 一种智慧工厂信息管理的监控系统
CN104022902A (zh) 一种监控服务器集群的方法和系统
CN108092836A (zh) 一种服务器的监控方法及装置
WO2019223062A1 (zh) 系统异常的处理方法和系统
CN104022903A (zh) 一站式自动化运维系统
CN102156729A (zh) 监控多个数据库服务器的系统和方法
CN107704904B (zh) 一种燃气设备的管理系统及方法、一种移动终端
CN110874272A (zh) 资源配置方法及装置、计算机可读存储介质、电子设备
CN110347694B (zh) 一种基于物联网的设备监控方法、装置及系统
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN104731062B (zh) 一种用于仪表状态监控及调度的智能网络管理系统及方法
CN112911013A (zh) 云应用的处理方法、装置、计算机设备和存储介质
CN109426597B (zh) 应用性能监控方法、装置、设备、系统及存储介质
CN115860729A (zh) 一种it运维综合管理系统
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN103973484A (zh) 一种基于网络拓扑结构的运维管理系统
CN113742174A (zh) 云手机应用监控方法、装置、电子设备和存储介质
CN116823570A (zh) 一种政务工作数据处理方法、装置、电子设备及存储介质
CN116401109A (zh) 一种机箱管理系统控制方法、装置、介质
JP5735998B2 (ja) 運用システム
CN116955232A (zh) 一种基于控制系统的硬件识别方法和装置
CN115222181B (zh) 机器人运营状态监控系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication