CN109492044A - 大数据中心运维监控系统及方法 - Google Patents
大数据中心运维监控系统及方法 Download PDFInfo
- Publication number
- CN109492044A CN109492044A CN201811366405.1A CN201811366405A CN109492044A CN 109492044 A CN109492044 A CN 109492044A CN 201811366405 A CN201811366405 A CN 201811366405A CN 109492044 A CN109492044 A CN 109492044A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- realizing
- management
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种大数据中心运维监控系统,包括:数据采集模块、统一管理模块、数据处理模块、业务应用模块;数据采集模块用于实现数据信息的采集、汇聚与存储,其中所述数据信息包含状态信息、运维信息与处理结果信息;统一管理模块用于实现数据信息与设备设施的统一管理,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件;数据处理模块实现对数据信息的提取、聚合和分析;并返回处理结果;业务应用模块用于实现对数据信息的呈现;调取统一管理模块提供的接口,实现对设备的控制,支撑对运维业务的管理。本发明提供了业务覆盖全面、技术体系完整的运维监控系统。
Description
技术领域
本发明涉及运维监控技术领域,特别是涉及一种应用于大数据中心的运维监控系统及方法。
背景技术
随着Hadoop系统的产生与应用,越来越多的公司宣称自己采用了大数据技术,国家陆续颁布了大数据相关的法律法规。但从实际情况来看,中、小型企业仍然以传统数据库应用为主,而省市地方政府仍在使用流存储、存储矩阵、BI等传统数据应用方式,并宣称其采用了大数据技术。
由此可见,大数据技术普及速度缓慢,原因在于大数据技术虽在数据挖掘、人工智能等领域具有突出的优势,但对于绝大多数用户来说,运维的成本与可见的效益成了主要矛盾。由于传统的网站和业务系统所采用的技术、产品及解决方案较为成熟,极少出现运维问题,技术人员只需掌握较少的技能就可以胜任工作。而采用大数据技术之后,由于组件和生态并不成熟,加上技术栈急剧增加,导致能够承担运维工作的技术人员稀缺,使得这些部门难以招聘到合适的人员运维已经部署的大数据系统。
现有技术中公开了一些监控系统,如公开号为CN106549829A的专利文献《大数据计算平台监控系统及方法》;公开号为CN103001806A的专利文献《用于IT系统的分布式运维监控系统》、公开号为CN106375119A的专利文献《运维监控系统及方法》等等,分析其中的技术细节可知,其对大数据运维体系和技术组成缺乏完整的描述,主要体现在以下几个方面:
第一方面:当前工作对大数据中心整体运维业务的支撑力度不足。当前工作针对运维管理的部分内容,包含状态监控、图形化管理、任务提交等,并没有覆盖运维所需的所有工作内容;
第二方面:当前工作缺乏对大数据中心运维监控系统技术构成的全面描述。当前工作针对于某一方面描述技术体系,缺乏对大数据中心整体技术体系的构建;
第三方面:当前工作缺乏数据信息与运维业务的关联性描述。当前工作针对监控信息管理、运维工作管理,并没有对建立数据信息与运维业务的关联,进而描述数据信息对运维业务的支撑方式。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种大数据中心运维监控系统及方法,从而针对现代大数据中心的设备设施和运维业务,提供业务覆盖全面、技术体系完整的运维监控系统。本发明采用的技术方案是:
一种大数据中心运维监控系统,包括:数据采集模块、统一管理模块、数据处理模块、业务应用模块;
所述的数据采集模块,用于实现数据信息的采集、汇聚与存储,其中所述数据信息包含状态信息、运维信息与处理结果信息;
所述的统一管理模块,用于实现数据信息与设备设施的统一管理,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件;
所述的数据处理模块,用于实现对数据信息的提取、聚合和分析;并返回处理结果;
所述的业务应用模块,用于实现对数据信息的呈现;调取统一管理模块提供的接口,实现对设备的控制,支撑对运维业务的管理。
进一步地,数据采集模块具体包括:
消息单元,用于实现状态信息的采集、汇聚、传输;
缓存单元,用于存储需要实时调取和处理的状态信息;
结构化数据存储单元,用于运维信息和处理结果的采集和存储;
列式数据存储单元,用于存储状态信息,所述状态信息包含设备运行状态数据、操作系统运行状态数据与中间件运行状态数据。
进一步地,统一管理模块具体包括:
状态信息管理单元,用于实现对状态信息的管理,对外以WebService接口提供服务;
所述运维信息管理单元,用于实现对运维信息的管理,对外以WebService接口提供服务;
所述设备管控单元,用于实现对硬件设备的管理,对外以WebService接口提供服务;
所述中间件管控单元,用于实现对中间件软件的管理,对外以WebService接口提供服务。
进一步地,数据处理模块具体包括:
效能评估单元,用于实现对运维信息的提取、聚合与分析,并返回处理结果;
异常检测单元,用于实现对状态信息的提取、聚合与分析,通过实时比对历史状态信息,判断系统运行状态是否正常,并返回处理结果;
关联分析单元,用于实现运维信息与状态信息的关联分析,并返回处理结果。
进一步地,业务应用模块具体包括:
运维可视化单元,用于实现状态信息和处理结果的实时呈现;
运维一体化单元,用于实现对运维信息的利用,支撑对运维业务的管理;
可视化操作单元,用于实现硬件设备和中间件软件的可视化操作,通过Web客户端调取设备管控单元、中间件管控单元提供的接口实现可视化操作功能。
基于上述大数据中心运维监控系统,本发明提出的一种大数据中心运维监控方法,包括以下步骤:
步骤S1,采集、汇聚与存储数据信息,其中所述数据信息包含状态信息、运维信息与处理结果信息;
步骤S2,统一管理数据信息与设备设施,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件;
步骤S3,提取、聚合和分析数据信息;并返回处理结果;
步骤S4,呈现数据信息,调取统一管理模块提供的接口,实现对设备的控制,管理运维业务。
本发明的优点在于:
第一方面:本发明提供全面支撑和闭环管理。包括在数据信息上覆盖大数据中心所有设备设施,在运维业务层面覆盖监控和运维等业务工作;
第二方面:本发明通过提供完整的大数据中心运维管理技术体系,可以实现模块之间的解耦和透明调用,提高技术体系和模块本身的可扩展性;
第三方面:本发明通过建立数据信息与运维业务的关联,可以实现大数据中心数据信息的充分利用,以支撑监控和运维等业务工作。
附图说明
图1为本发明的运维监控系统结构组成示意图。
图2为本发明的运维监控方法流程图。
图3为本发明的运维监控方法第一具体实例的流程图。
图4为本发明的运维监控方法第二具体实例的流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示,本发明提出的一种大数据中心运维监控系统,包括:数据采集模块1、统一管理模块2、数据处理模块3、业务应用模块4;
(一)数据采集模块1,用于实现数据信息的采集、汇聚与存储,其中所述数据信息包含状态信息、运维信息与处理结果信息;数据采集模块具体包括:
消息单元11,用于实现状态信息的采集、汇聚、传输;
缓存单元12,用于存储需要实时调取和处理的状态信息;
结构化数据存储单元13,用于运维信息和处理结果的采集和存储,所述运维信息包含运维人员、运维业务、运维资产等信息;
列式数据存储单元14,用于存储状态信息,所述状态信息包含设备运行状态数据、操作系统运行状态数据与中间件运行状态数据;
(二)统一管理模块2,用于实现数据信息与设备设施的统一管理,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件,所述硬件设备包含网络设备、计算设备和存储设备,所述中间件软件包含 Hadoop中间件、应用服务中间件和数据库中间件等;统一管理模块具体包括:
状态信息管理单元21,用于实现对状态信息的管理,对外以WebService接口提供服务;
所述运维信息管理单元22,用于实现对运维信息的管理,对外以WebService接口提供服务;
所述设备管控单元23,用于实现对硬件设备的管理,对外以WebService接口提供服务;
所述中间件管控单元24,用于实现对中间件软件的管理,对外以WebService接口提供服务;
(三)数据处理模块3,用于实现对数据信息的提取、聚合和分析,并返回处理结果;数据处理模块具体包括:
效能评估单元31,用于实现对运维信息的提取、聚合与分析,并返回处理结果;
异常检测单元32,用于实现对状态信息的提取、聚合与分析,通过实时比对历史状态信息,判断系统运行状态是否正常,并返回处理结果;
关联分析单元33,用于实现运维信息与状态信息的关联分析,并返回处理结果;
(四)业务应用模块4,用于实现对数据信息的呈现;调取统一管理模块提供的接口,实现对设备的控制,支撑对运维业务的管理,业务应用模块具体包括:
运维可视化单元41,用于实现状态信息和处理结果的实时呈现;
运维一体化单元42,用于通过ITIL设计规范实现对运维信息的利用,支撑对运维业务的管理;ITIL是Information Technology Infrastructure Library,信息技术基础架构库的简称;
可视化操作单元43,用于实现硬件设备和中间件软件的可视化操作,通过Web客户端调取设备管控单元、中间件管控单元提供的接口实现可视化操作功能;
基于上述大数据中心运维监控系统,本发明提供的一种大数据中心运维监控方法,如图2所示,包括以下步骤:
步骤S1,采集、汇聚与存储数据信息,其中所述数据信息包含状态信息、运维信息与处理结果信息;
步骤S2,统一管理数据信息与设备设施,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件;
步骤S3,提取、聚合和分析数据信息;并返回处理结果;
步骤S4,呈现数据信息,调取统一管理模块提供的接口,实现对设备的控制,管理运维业务。
如图3所示,本发明提供的一种大数据中心运维监控方法,在一个具体实例中,用于监控管理,包括以下步骤:
步骤a1,被监控集群向大数据中心运维监控系统发送状态信息;
步骤a2,消息单元采集和汇聚状态信息;
步骤a3,缓存单元在内存中存储状态信息;
步骤a4,数据处理模块,判断是否需要处理这些数据信息,
步骤a5,如需要则对数据信息进行处理,经过处理的数据生成处理结果信息存放在结构化数据存储单元中;
步骤a6,列式数据存储单元每隔一段时间读取和交换缓存单元中的状态信息,交换数据后,缓存单元清空数据并释放内存空间;
步骤a7,运维可视化单元,实时读取缓存单元中存储的状态信息,进行可视化呈现状态信息和处理结果,供用户通过运维可视化单元查询存储在列式数据存储单元中的状态信息和存储在结构化数据存储单元中的处理结果信息。
如图4所示,本发明提供的一种大数据中心运维监控方法,在另一个具体实例中,用于运维管理,包括以下步骤:
步骤b1,运维人员通过运维可视化单元发现异常状态后,如果能够现场处理,通过可视化操作单元实现所述硬件设备和中间件软件的控制;
步骤b2,可视化操作单元通过设备管控单元实现硬件设备控制,通过中间件管控单元实现中间件软件的控制;
步骤b3,如果运维人员无法现场处理异常状态,通过运维一体化单元编辑异常状态说明信息进行提交,所述运维一体化单元将编辑的信息写入结构化数据存储单元,并通知其他运维人员;
步骤b4,其他运维人员接到通知到后,通过可视化操作单元实现硬件设备和中间件软件控制,完成运维工作。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种大数据中心运维监控系统,其特征在于,包括:数据采集模块、统一管理模块、数据处理模块、业务应用模块;
所述的数据采集模块,用于实现数据信息的采集、汇聚与存储,其中所述数据信息包含状态信息、运维信息与处理结果信息;
所述的统一管理模块,用于实现数据信息与设备设施的统一管理,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件;
所述的数据处理模块,用于实现对数据信息的提取、聚合和分析;并返回处理结果;
所述的业务应用模块,用于实现对数据信息的呈现;调取统一管理模块提供的接口,实现对设备的控制,支撑对运维业务的管理。
2.如权利要求1所述的大数据中心运维监控系统,其特征在于,数据采集模块具体包括:
消息单元,用于实现状态信息的采集、汇聚、传输;
缓存单元,用于存储需要实时调取和处理的状态信息;
结构化数据存储单元,用于运维信息和处理结果的采集和存储;
列式数据存储单元,用于存储状态信息,所述状态信息包含设备运行状态数据、操作系统运行状态数据与中间件运行状态数据。
3.如权利要求2所述的大数据中心运维监控系统,其特征在于,统一管理模块具体包括:
状态信息管理单元,用于实现对状态信息的管理,对外以WebService接口提供服务;
所述运维信息管理单元,用于实现对运维信息的管理,对外以WebService接口提供服务;
所述设备管控单元,用于实现对硬件设备的管理,对外以WebService接口提供服务;
所述中间件管控单元,用于实现对中间件软件的管理,对外以WebService接口提供服务。
4.如权利要求3所述的大数据中心运维监控系统,其特征在于,数据处理模块具体包括:
效能评估单元,用于实现对运维信息的提取、聚合与分析,并返回处理结果;
异常检测单元,用于实现对状态信息的提取、聚合与分析,通过实时比对历史状态信息,判断系统运行状态是否正常,并返回处理结果;
关联分析单元,用于实现运维信息与状态信息的关联分析,并返回处理结果。
5.如权利要求4所述的大数据中心运维监控系统,其特征在于,业务应用模块具体包括:
运维可视化单元,用于实现状态信息和处理结果的实时呈现;
运维一体化单元,用于实现对运维信息的利用,支撑对运维业务的管理;
可视化操作单元,用于实现硬件设备和中间件软件的可视化操作,通过Web客户端调取设备管控单元、中间件管控单元提供的接口实现可视化操作功能。
6.一种大数据中心运维监控方法,适用于如权利要求1~5中任一项所述的大数据中心运维监控系统,其特征在于,包括以下步骤:
步骤S1,采集、汇聚与存储数据信息,其中所述数据信息包含状态信息、运维信息与处理结果信息;
步骤S2,统一管理数据信息与设备设施,并通过WebService接口对外提供服务;其中所述设备设施包含硬件设备与中间件软件;
步骤S3,提取、聚合和分析数据信息;并返回处理结果;
步骤S4,呈现数据信息,调取统一管理模块提供的接口,实现对设备的控制,管理运维业务。
7.如权利要求6所述的大数据中心运维监控方法,其特征在于,该方法用于监控管理,具体包括以下步骤:
步骤a1,被监控集群向大数据中心运维监控系统发送状态信息;
步骤a2,消息单元采集和汇聚状态信息;
步骤a3,缓存单元在内存中存储状态信息;
步骤a4,数据处理模块,判断是否需要处理这些数据信息,
步骤a5,如需要则对数据信息进行处理,经过处理的数据生成处理结果信息存放在结构化数据存储单元中;
步骤a6,列式数据存储单元每隔一段时间读取和交换缓存单元中的状态信息,交换数据后,缓存单元清空数据并释放内存空间;
步骤a7,运维可视化单元,实时读取缓存单元中存储的状态信息,进行可视化呈现状态信息和处理结果,供用户通过运维可视化单元查询存储在列式数据存储单元中的状态信息和存储在结构化数据存储单元中的处理结果信息。
8.如权利要求6所述的大数据中心运维监控方法,其特征在于,该方法用于运维管理,具体包括以下步骤:
步骤b1,运维人员通过运维可视化单元发现异常状态后,如果能够现场处理,通过可视化操作单元实现所述硬件设备和中间件软件的控制;
步骤b2,可视化操作单元通过设备管控单元实现硬件设备控制,通过中间件管控单元实现中间件软件的控制;
步骤b3,如果运维人员无法现场处理异常状态,通过运维一体化单元编辑异常状态说明信息进行提交,所述运维一体化单元将编辑的信息写入结构化数据存储单元,并通知其他运维人员;
步骤b4,其他运维人员接到通知到后,通过可视化操作单元实现硬件设备和中间件软件控制,完成运维工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811366405.1A CN109492044A (zh) | 2018-11-16 | 2018-11-16 | 大数据中心运维监控系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811366405.1A CN109492044A (zh) | 2018-11-16 | 2018-11-16 | 大数据中心运维监控系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492044A true CN109492044A (zh) | 2019-03-19 |
Family
ID=65695200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811366405.1A Pending CN109492044A (zh) | 2018-11-16 | 2018-11-16 | 大数据中心运维监控系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492044A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667080A (zh) * | 2020-06-19 | 2020-09-15 | 安徽超清科技股份有限公司 | 一种基于云存储的公共安全运维监控系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
WO2018003192A1 (ja) * | 2016-06-29 | 2018-01-04 | 株式会社日立製作所 | 運用保守知識情報の策定支援システムおよび策定支援方法 |
CN108009300A (zh) * | 2017-12-28 | 2018-05-08 | 中译语通科技(青岛)有限公司 | 一种基于大数据技术的远程运维系统 |
US20180150777A1 (en) * | 2016-11-29 | 2018-05-31 | Pm-Pgm Co., Ltd. | Global construction business management apparatus, management method using the same, and global construction business management system |
CN108334959A (zh) * | 2018-01-30 | 2018-07-27 | 广州晟能电子科技有限公司 | 基于bim模型的综合管廊运维管理平台 |
CN108345286A (zh) * | 2018-04-04 | 2018-07-31 | 郑州云海信息技术有限公司 | 一种数据中心管理系统 |
CN108512691A (zh) * | 2018-02-07 | 2018-09-07 | 复旦大学 | 基于Hadoop的云自动预警运维监控系统 |
-
2018
- 2018-11-16 CN CN201811366405.1A patent/CN109492044A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888287A (zh) * | 2013-12-18 | 2014-06-25 | 北京首都国际机场股份有限公司 | 信息系统一体化运维监控服务预警平台及其实现方法 |
WO2018003192A1 (ja) * | 2016-06-29 | 2018-01-04 | 株式会社日立製作所 | 運用保守知識情報の策定支援システムおよび策定支援方法 |
US20180150777A1 (en) * | 2016-11-29 | 2018-05-31 | Pm-Pgm Co., Ltd. | Global construction business management apparatus, management method using the same, and global construction business management system |
CN108009300A (zh) * | 2017-12-28 | 2018-05-08 | 中译语通科技(青岛)有限公司 | 一种基于大数据技术的远程运维系统 |
CN108334959A (zh) * | 2018-01-30 | 2018-07-27 | 广州晟能电子科技有限公司 | 基于bim模型的综合管廊运维管理平台 |
CN108512691A (zh) * | 2018-02-07 | 2018-09-07 | 复旦大学 | 基于Hadoop的云自动预警运维监控系统 |
CN108345286A (zh) * | 2018-04-04 | 2018-07-31 | 郑州云海信息技术有限公司 | 一种数据中心管理系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667080A (zh) * | 2020-06-19 | 2020-09-15 | 安徽超清科技股份有限公司 | 一种基于云存储的公共安全运维监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108335075B (zh) | 一种面向物流大数据的处理系统及方法 | |
CN106708622A (zh) | 集群资源处理方法和系统、资源处理集群 | |
CN109784508A (zh) | 一种基于云平台的电网全景监测运维管理方法及系统 | |
CN106960292A (zh) | 一种应用于电力公司的业务流程监测系统及方法 | |
Bautista et al. | Collecting, monitoring, and analyzing facility and systems data at the national energy research scientific computing center | |
CN109241414A (zh) | 基于消息模板的系统消息推送方法及终端设备 | |
CN104991854A (zh) | 一种服务器资源的监控统计方法和系统 | |
CN111724046B (zh) | 一种购电管理系统 | |
CN107645410A (zh) | 一种基于OpenStack云平台的虚拟机管理系统及方法 | |
CN103870921B (zh) | 一种运维管理系统 | |
CN109614227A (zh) | 任务资源调配方法、装置、电子设备及计算机可读介质 | |
CN103646311A (zh) | 一种交通数据服务系统 | |
CN103595815A (zh) | 基于云计算的存储资源分配方法 | |
CN116132317B (zh) | 工业互联网数据采集分析及可视化一体系统及其部署方法 | |
CN109522360A (zh) | 一种大数据中心监控数据可视化系统及方法 | |
CN109302308A (zh) | 一种数据中心idc资源管理系统及管理方法 | |
CN110311802A (zh) | 网络运营方法、装置、电子设备及存储介质 | |
CN109800133A (zh) | 一种统一监控告警的方法、一站式监控告警平台及系统 | |
CN108563787A (zh) | 一种数据中心综合管理系统的数据交互管理系统及方法 | |
CN109492044A (zh) | 大数据中心运维监控系统及方法 | |
CN110048881A (zh) | 信息监控系统、信息监控方法及装置 | |
CN110769069B (zh) | 一种告警信息的推送方法与装置 | |
KR100584903B1 (ko) | 발전소 운전정보 실시간 관리 시스템 | |
CN204425400U (zh) | 应用服务器系统 | |
CN108920951A (zh) | 一种基于云模式下的安全审计框架 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |