CN109542663A - 一种监控数据管理方法和系统 - Google Patents

一种监控数据管理方法和系统 Download PDF

Info

Publication number
CN109542663A
CN109542663A CN201811419043.8A CN201811419043A CN109542663A CN 109542663 A CN109542663 A CN 109542663A CN 201811419043 A CN201811419043 A CN 201811419043A CN 109542663 A CN109542663 A CN 109542663A
Authority
CN
China
Prior art keywords
information
failure
standardized format
data management
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811419043.8A
Other languages
English (en)
Inventor
王晓通
刘成平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811419043.8A priority Critical patent/CN109542663A/zh
Publication of CN109542663A publication Critical patent/CN109542663A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种监控数据管理方法和系统。涉及云计算技术,解决了只在发生故障后才监控发现故障导致停机的问题。该方法包括:根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息;将所述多条目标信息转换为标准化格式;存储所述标准化格式的信息。本发明提供的技术方案适用于大规模数据中心,实现了低成本、低复杂度、高效率的运维数据支撑。

Description

一种监控数据管理方法和系统
技术领域
本发明涉云计算技术,尤指一种监控数据管理方法和系统。
背景技术
当前的数据中心设备越来越多,计算任务也越来越繁重,这使得数据中心中服务器硬件设备的故障率持续增高,如何更加高效、快捷、智能的完成服务器硬件的监控及告警、预警,成为亟待解决的问题。在当前的数据中心,在对服务器的硬件进行监控维护时,大多数情况只能在服务器发生故障时,才能够监控到故障,这种情况下往往需要服务器进行停机后的人工设备修复,对用户的业务有一定的影响。
发明内容
为了解决上述技术问题,本发明提供了一种监控数据管理方法和系统。对故障及告警信息进行规格化存储管理,便于后续的提取分析,以准确高效的发现并排除设备故障,解决了只在发生故障后才监控发现故障导致停机的问题。
为了达到本发明目的,本发明提供了一种监控数据管理方法,其特征在于,包括:
根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息;
将所述多条目标信息转换为标准化格式;
存储所述标准化格式的信息。
优选的,所述采集规则为至少包含以下信息的故障或告警信息:
部件名称,故障或告警内容,故障或告警时间信息。
优选的,所述标准化格式包含如下标准信息:
部件名称,故障或告警内容,故障或告警时间信息。
优选的,将所述多条目标信息转换为标准化格式的步骤包括:
提取不同格式的所述多条目标信息中的所述标准信息;
将所述标准信息形成标准化格式的目标信息。
优选的,将所述多条目标信息转换为标准化格式的步骤还包括:
对故障码形式的故障或告警信息进行转码操作,获取所述故障码对应的故障/告警信息的具体内容。
优选的,存储所述标准化格式的信息的步骤包括:
将不同部件的故障或告警信息分别独立存储。
优选的,将不同部件的故障或告警信息分别独立存储的步骤包括:
为每个部件建立独立的信息存储表;
在各个部件对应的存储表中存储相应的标准化格式的目标信息。
优选的,所述目标信息为以下部件中的任一个或任意多个相关的目标信息:
CPU、内存、硬盘、电源、风扇、主板、网卡、RAID卡。
本发明还提供了一种监控数据管理系统,包括:
信息采集单元,用于根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息;
信息规格化单元,用于将所述多条目标信息转换为标准化格式;
规格化存储单元,用于存储所述标准化格式的信息。
优选的,所述规格化存储单元,具体用于为每个部件建立独立的信息存储表,在各个部件对应的存储表中存储相应的标准化格式的目标信息。
本发明提供了一种监控数据管理方法和系统,根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息,将所述多条目标信息转换为标准化格式,存储所述标准化格式的信息。持续监控并收集与故障、告警相关的信息,进行合理的存储,便于后续分析及查找,及时发现故障、告警,解决了只在发生故障后才监控发现故障导致停机的问题,实现了低成本、低复杂度、高效率的运维数据支撑。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明的一实施例提供的一种监控数据管理系统的结构示意图;
图2为本发明的一实施例提供的一种监控数据管理方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在当前的数据中心,在对服务器的硬件进行监控维护时,大多数情况只能在服务器发生故障时,才能够监控到故障,这种情况下往往需要服务器进行停机后的人工设备修复,对用户的业务有一定的影响。
为了解决上述问题,本发明的实施例一种监控数据管理方法和系统,通过对数据中心中服务器故障信息、以及服务器告警信息的规格化处理,实现智能运维原始数据的快速积累,避免了以前数据格式不统一,存储方式不统一、数据检索复杂且容易出错的弊端,在保障数据中心服务器能够安全运行的同时,最大化的减少人工的干预,降低数据中心的运维复杂度,节省运维的成本。
本发明的一实施例提供了一种监控数据管理系统,该系统能够对当前数据中心服务器的故障信息、告警信息进行部件级的规格化处理,并进行信息存储。在设备发生故障时,能够实现对历史故障信息、告警信息的快速查询,为实现服务器的自动运维,提供数据支撑,最大化减少人工干预,降低运维成本。该系统的结构如图1所示,包括:
信息采集单元101,用于根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息;
信息规格化单元102,用于将所述多条目标信息转换为标准化格式;
规格化存储单元103,用于存储所述标准化格式的信息。
优选的,所述规格化存储单元103,具体用于为每个部件建立独立的信息存储表,在各个部件对应的存储表中存储相应的标准化格式的目标信息。
具体的:
信息采集单元101的主要功能是对服务器产生的故障信息、告警信息等所有信息进行过滤处理,过滤的原则依据信息采集规则库进行。信息必须为故障/告警信息,且信息中必须包括故部件名称、故障/告警内容、故障/告警时间信息等,确保采集信息的真实有效性、完整性。例如,服务器产生了3条信息,分别是BIOS/FW升级通知信息、硬盘I/O异常告警信息、系统软件驱动升级信息,经过信息过滤,仅会将硬盘I/O异常告警信息保留。
信息规格化单元102的主要功能是对采集到的每一条信息进行规则库处理。服务器不同的固件产生的故障信息、告警信息是样式是不统一的。信息规格化单元需要对这些不规则的故障/告警信息,进行规则化的内容提取,并形成统一的信息格式。优选的,信息格式为部件名称+故障/告警内容+故障/告警时间。如图1所示,提前的硬盘告警信息名称为DISK3、提取的内容为I/O Error、提取的时间信息为201708101523;改硬盘告警信息规划化后为DISK3_I/O Error_201708101523。
对于故障信息、告警信息中的故障码,需要进行转换成具体故障内容,通过查询厂商提供的规则库,完成故障码到故障信息的转换。
规格化存储单元103的主要功能是以服务器部件为单位,建立服务器故障/告警信息的规则库;为每个固件建立独立的信息存储表,支持的固件包括CPU、内存、硬盘、电源、风扇、主板、网卡、RAID卡。为每个固件进行分门别类的规格化信息存储,为后续的数据分析提供可靠稳定的数量来源。如图1,将规格化后的硬盘告警信息,存储到硬盘信息存储表中。
本发明的一实施例还提供了一种监控数据管理方法,使用该方法收集并管理监控数据的流程如图2所示,包括:
步骤201、根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息。
本发明实施例中,所述采集规则为至少包含以下信息的故障或告警信息:
部件名称,故障或告警内容,故障或告警时间信息。
本步骤中,对数据中心服务器产生的各种信息进行过滤,获取故障或告警信息。
步骤202、将所述多条目标信息转换为标准化格式。
本发明实施例中,所述标准化格式包含如下标准信息:
部件名称,故障或告警内容,故障或告警时间信息。
优选的,将所述多条目标信息转换为标准化格式的步骤包括:
提取不同格式的所述多条目标信息中的所述标准信息;
将所述标准信息形成标准化格式的目标信息。
当收集得到的故障或告警信息为故障码时,对故障码形式的故障或告警信息进行转码操作,获取所述故障码对应的故障/告警信息的具体内容。
步骤203、存储所述标准化格式的信息。
本步骤中,将不同部件的故障或告警信息分别独立存储。
优选的,将不同部件的故障或告警信息分别独立存储的步骤包括:
为每个部件建立独立的信息存储表;
在各个部件对应的存储表中存储相应的标准化格式的目标信息。
所述目标信息为以下部件中的任一个或任意多个相关的目标信息:
CPU、内存、硬盘、电源、风扇、主板、网卡、RAID卡。
本发明的实施例提供了一种监控数据管理方法和系统,根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息,将所述多条目标信息转换为标准化格式,存储所述标准化格式的信息。持续监控并收集与故障、告警相关的信息,进行合理的存储,便于后续分析及查找,及时发现故障、告警,解决了只在发生故障后才监控发现故障导致停机的问题,实现低成本、低复杂度、高效率的运维数据支撑。
利用统一的数据规格化标准,能够方便、快捷的对数据中心中不同厂商的服务器进行数据的规格化信息积累,为后续开展的服务器硬件故障的解决,实现自动化的服务器的运维提供数据支撑,最大化的减少数据中心服务器的运维成本,提供数据中心服务器设备的运维效率。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种监控数据管理方法,其特征在于,包括:
根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息;
将所述多条目标信息转换为标准化格式;
存储所述标准化格式的信息。
2.根据权利要求1所述的监控数据管理方法,其特征在于,所述采集规则为至少包含以下信息的故障或告警信息:
部件名称,故障或告警内容,故障或告警时间信息。
3.根据权利要求1所述的监控数据管理方法,其特征在于,所述标准化格式包含如下标准信息:
部件名称,故障或告警内容,故障或告警时间信息。
4.根据权利要求3所述的监控数据管理方法,其特征在于,将所述多条目标信息转换为标准化格式的步骤包括:
提取不同格式的所述多条目标信息中的所述标准信息;
将所述标准信息形成标准化格式的目标信息。
5.根据权利要求4所述的监控数据管理方法,其特征在于,将所述多条目标信息转换为标准化格式的步骤还包括:
对故障码形式的故障或告警信息进行转码操作,获取所述故障码对应的故障/告警信息的具体内容。
6.根据权利要求2所述的监控数据管理方法,其特征在于,存储所述标准化格式的信息的步骤包括:
将不同部件的故障或告警信息分别独立存储。
7.根据权利要求6所述的监控数据管理方法,其特征在于,将不同部件的故障或告警信息分别独立存储的步骤包括:
为每个部件建立独立的信息存储表;
在各个部件对应的存储表中存储相应的标准化格式的目标信息。
8.根据权利要求1所述的监控数据管理方法,其特征在于,所述目标信息为以下部件中的任一个或任意多个相关的目标信息:
CPU、内存、硬盘、电源、风扇、主板、网卡、RAID卡。
9.一种监控数据管理系统,其特征在于,包括:
信息采集单元,用于根据预置的采集规则,对数据中心服务器产生的信息进行过滤,获取多条目标信息;
信息规格化单元,用于将所述多条目标信息转换为标准化格式;
规格化存储单元,用于存储所述标准化格式的信息。
10.根据权利要求9所述的监控数据管理系统,其特征在于,
所述规格化存储单元,具体用于为每个部件建立独立的信息存储表,在各个部件对应的存储表中存储相应的标准化格式的目标信息。
CN201811419043.8A 2018-11-26 2018-11-26 一种监控数据管理方法和系统 Withdrawn CN109542663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811419043.8A CN109542663A (zh) 2018-11-26 2018-11-26 一种监控数据管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811419043.8A CN109542663A (zh) 2018-11-26 2018-11-26 一种监控数据管理方法和系统

Publications (1)

Publication Number Publication Date
CN109542663A true CN109542663A (zh) 2019-03-29

Family

ID=65850279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811419043.8A Withdrawn CN109542663A (zh) 2018-11-26 2018-11-26 一种监控数据管理方法和系统

Country Status (1)

Country Link
CN (1) CN109542663A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112311577A (zh) * 2019-07-31 2021-02-02 中国移动通信集团广东有限公司 一种监控指标数据管理方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112311577A (zh) * 2019-07-31 2021-02-02 中国移动通信集团广东有限公司 一种监控指标数据管理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
CN104268061B (zh) 一种适用于虚拟机的存储状态监控方法
CN105207806A (zh) 分布式服务的监控方法及装置
WO2021068814A1 (zh) 硬件设备异常监控方法、装置、服务器及计算机可读存储介质
CN102340415A (zh) 一种服务器集群系统的监控方法和一种服务器集群系统
CN109240891A (zh) 一种sr整机柜服务器的监控方法及装置
CN111090440B (zh) 信息处理方法、系统、设备及存储介质
CN100549975C (zh) 计算机维护帮助系统及分析服务器
CN110035117A (zh) 一种基于可配置监控脚本监控系统及监控方法
CN113176978A (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
CN110275992B (zh) 应急处理方法、装置、服务器及计算机可读存储介质
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN116010456A (zh) 设备的处理方法、服务器和轨道交通系统
CN111884853A (zh) 一种云环境自动化资源管理方法和系统
CN103763143A (zh) 基于存储服务器的设备异常报警的方法及系统
CN109542663A (zh) 一种监控数据管理方法和系统
CN109460311A (zh) 固件异常状态的管理方法和装置
CN112232720A (zh) 工序监管方法、装置、计算机设备和可读存储介质
CN107798086A (zh) 服务器信息更新方法、装置、系统及电子设备
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
CN115102862B (zh) 一种用于sdn设备的自动同步方法及装置
CN106547958A (zh) 一种车载设备数据的图形化分析方法及装置
CN114374612B (zh) 基站系统拓扑信息的管理方法及装置
CN116062009A (zh) 故障分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190329

WW01 Invention patent application withdrawn after publication