CN104219088A - 一种基于Hive的网络告警信息OLAP方法 - Google Patents

一种基于Hive的网络告警信息OLAP方法 Download PDF

Info

Publication number
CN104219088A
CN104219088A CN201410416354.4A CN201410416354A CN104219088A CN 104219088 A CN104219088 A CN 104219088A CN 201410416354 A CN201410416354 A CN 201410416354A CN 104219088 A CN104219088 A CN 104219088A
Authority
CN
China
Prior art keywords
data
hive
alarm
dimension
olap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410416354.4A
Other languages
English (en)
Inventor
张柳
张登银
冒玮
陈磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Xindacheng Science and Technology Development Co., Ltd.
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410416354.4A priority Critical patent/CN104219088A/zh
Publication of CN104219088A publication Critical patent/CN104219088A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供了一种基于Hive的网络告警信息OLAP方法。主要步骤为:基于数据仓库体系,对网络管理系统中海量网络告警数据预处理,将告警数据映射到Hive中;然后搭建N-D方体模型,计算数据立方体总数,验证所采用的OLAP方法的科学性与可操作性后,进一步构建星型模型,将OLAP的多维分析自定义分N个维度,每个维度细分为Li层;分别根据分维和分层的结果,建立事实表与维表,最终采用Hive实现RollUp或Cube操作,实现网络告警中基于Hive的OLAP方法。本发明对存在域间设备和不存在域间直连设备的情况都适用。可提高系统分析性能,从多个维度揭示隐含在海量原始历史告警信息中的告警定位知识和一些有意义的用户与系统信息,对决策人员提供决策支持。

Description

一种基于Hive的网络告警信息OLAP方法
技术领域
本发明涉及一种基于Hive的网络告警信息OLAP方法,属于融合网络管理领域。
背景技术
随着大数据时代的到来,融合网络的快速发展,数据量与网络规模增大,数据与网络异构性和复杂性增加。网络规模与数据中心不断扩大,信息量呈现出爆炸式增长的趋势,远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。迫切需要寻求新的基础设施以及思考方式的业务、IT行业工作的新途径。国际数据公司(IDC)的研究预测,到2020年,总体数据将增加50倍增长,然而掌握数据管理的IT专业人士的数量仅是现在的1.5倍。
云计算的概念由IBM、Google等IT服务企业提出后一直在不断推进与深入,云计算的基本特征是资源共享、按需分配、弹性调度和服务可扩展,云计算所提供的强大计算能力和存储能力能够支撑网络告警功能的实现。Hadoop属于一个面向分布式的云计算平台,而Hive是基于Hadoop的数据仓库。它定义了一种HQL语言,直接将HQL编译成M/R Jobs。特别适合于不熟悉M/R编程模型的用户。Hive包含元数据存储,在数据探索,查询优化和统计分析中很有作用。Hive在数据分析中,可达到一些比高效率的分布式并行比较数据库更高的性能,但也需要底层存储方式的调整和正确的分析策略。
关系数据库之父Edgar Frank Codd(埃德加·弗兰克·科德,1923-2003)于1993年提出了多维数据分析构造大型数据仓库,他创造了术语OLAP表示联机分析处理。联机分析处理专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可应分析人员要求进行快速的、灵活地进行大数据量的复杂查询处理,并且以直观易懂的形式将查询结果提供决策人员。
如何降低基础设施承载压力,管理海量设备,解决实时性问题并盘活大量的网络数据资产,满足在数据中心及服务器、网络设备不断扩大的情况下用户对网络告警管理的需求,使其为企业运营、用户生活等领域提供决策支持与更准确高效的服务,是目前急需解决的问题。
发明内容
技术问题:本发明针对融合网络中,海量、异构的告警数据使用传统的数据库或数据仓库处理速率慢,内存消耗大甚至无法处理和分析的问题,提供一种基于Hive的网络告警信息OLAP方法,减少待分析的告警数据量,数据分析维度广、效率高。Hive简化MapReduce实现方式,减少开发复杂度、代价低、提高系统分析性能。
技术方案:
1、一种基于Hive的网络告警信息OLAP方法,包括:数据清理、数据集成、数据规约和数据变换,包括如下步骤:
1)告警数据映射先采用HiveJdbcDriver实现Jdbc方式链接Hive,再通过Hive外表方式实现数据共享;
2)初始化OLAP中所需的数据立方体维度数N与每维对应的层数Li,根据具体选择的N个网络告警相关信息维度,建立N-D方体模型;
3)计算数据立方体总数,判断是否存在维灾难,假如存在返回步骤2),重新初始化;
4)按照步骤2)的维度数和层数自定义维度和层次,针对网络告警管理采集到的数据与用户需求,完成OLAP星型模型的构建;
5)建立事实表和维表,解决各维度的层次数据刷新问题,导入数据;
6)基于以上操作,Hive实现RollUp和Cube;当需要更新维度时,返回步骤2)重新初始化。
所述步骤1)采用外联表方式间接操作;所述步骤5)与步骤6)为:
告警分析结合OLAP,基于步骤2)中建立的N-D方体模型,分维基础上进一步细分层次;其中告警区域维的层次划在刷新时分能满足存在/不存在区域直连设备或域间设备的两种情况。告警数据量巨大时,Hive处理海量数据更有效。
所述方法基于云计算Hadoop平台,采用新型的数据仓库Hive,能处理融合网络中海量的、异构的告警数据,解决告警风暴等网络告警管理中因数据量大或网络异构带来的一系列问题。不同于传统的简单统计方式,网络告警OLAP能准确提供多维度和多层次的分析信息,支持使用者决策。
有益效果:
本发明提出了一种基于Hive的网络告警信息OLAP方法,通过使用本发明提出的方法,可以处理海量告警数据,提高告警数据分析效率,扩大分析维度。同时开发复杂度相对减小,分析代价低、准确性高。
附图说明
图1基于本发明的融合网络告警管理流程。
图2是本发明的基于Hive的分析系统架构图。
图3是本发明的3-D数据立方体示意图。
图4是本发明的OLAP星型模型示意图。
图5是本发明的区域维粒度刷新流程图。
图6是本发明的基于Hive的网络告警信息OLAP方法流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1是基于本发明的融合网络告警管理基本流程图。本发明主要涉及其中的告警OLAP分析模块,考虑的是基于云计算网络管理中的告警管理模块,且系统中包含告警设备/区域树的告警管理场景。图2所示是本发明的基于Hive的分析系统架构图。本发明基于Hadoop平台,在Hadoop上安装HBase数据库和Hive数据仓库。将采集到的告警数据通过基于Hive的OLAP方法实现数据分析并显示给用户。具体在Hadoop上安装配置HBase数据库作为底层仓库数据库服务器。使用后端工具与实用程序,由该数据库和其他的外部数据源,提取数据存入底层,预处理数据更新数据仓库。这一层还包括元数据库,Hive内嵌的元数据库Derby,中间层是OLAP服务器,典型使用多维的模型,直接实现多维数据和分析操作。顶层是前端客户层。包括分析工具、报告工具等。Hive数据仓库工具,将HQL语句转换为MapReduce任务运行,汇总生成跨多个维度的数据:
(input)<k1,v1>->Map->List<k2,v2>->Combine
-><k2,List(v2)>->Reduce-><k3,v3>(output)
其中:每一个输入的<k1,v1>输出一批<k2,v2>。List<k2,v2>是计算的中间结果集。输入的中间结果<k2,List(v2)>中的List(v2)表示是一批属于同一个k2的value。
下面给出本发明的具体实施案例:
首先对海量数据采用综合的数据预处理方式,包含数据清理、数据集成、数据规约和数据变换。不考虑对偶然会产生的空值进行缺失填写处理,直接删除离群点。将不同厂商的不同设备经过主动轮询告警,ping告警和trap告警灯不同类型和格式的数据,转化为统一的数据格式。且只取含有内存、CPU以及硬盘利用率等告警类型的数据属性项。利用HBase的rowkey不重复的特点,通过对RowKey的时间戳处理,将原本每分钟内产生的多条告警信息压缩为一条。因Hive的HQL语句中无法使用数据加百分号的形式进行正确的范围判断,将原始的带百分号的数据转化为不带百分号的数据。
(1)使用HiveConn实现加载Hive驱动,HiveJdbcDriver实现HBase与Hive的数据连接。HBase中创建相应数据表,对应在Hive中建立外联表存放映射的数据。
(2)初始化N=3,选择3个网络告警相关信息维度,建立3-D方体模型,如图3所示。从基本方体自下向上探查,便类似于rollup。立方体操作相当于分组操作的n维推广。每个维度上,维度各自都不分层时,n维数据立方体的方体总数为2n。概念分层(粒度)时,存储需求会增长很多,进行维灾难判断如下:在n维的数据立方体中,可能产生的方体总数为:
其中:Li是与维i相关的层数。由于泛化到All时,等价于去掉一个维度,所以Li+1,使之包括虚拟顶层All。假如数据立方体有10个维度,每维包含All共6层,那么可能产生方体总数:610≈6.04×107。如维度一分三层,维度二分两层,维度三分两层的情况下,方体总数方体总数=(3+1)×(2+1)×(2+1)=36,不存在维灾难。
(3)自定义层次划分,针对网络告警管理采集到的数据与用户需求,根据图3的维度和层次划分定义具体的内容。如一种简单的三维情况:Time、Location、AlarmInfo。其中:Time分三层:year、month、week;Location分Location、LocationDetail两层。AlarmInfo分AlarmType和AlarmSeverity两层。其中告警区域Location包括具体的一些地理位置,随着用户的具体设备与区域的增删查改而动态改变。时间和告警信息也是实时刷新的。综上信息,如图4所示,OLAP星型模型包含一张事实表和三张维度表。分时间维、区域维、告警参数维。时间维分年、月、日;区域维分总区域、具体区域;告警参数维分告警类型和严重程度两层。
(4)首先在HBase中建立事实表Alarm_Info。然后在Hive中,创建同名事实表Alarm_Info如下,维表同理:
CREATE EXTERNAL TABLE ALARM_INFO(TIME_DEV_ID String,ALARM_TIME
String,ALARM_LOCATION String,DEV_ID String,DEV_IP String,
ALARM_DESC String,ALARM_NUM String)
STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH
SERDEPROPERTIES("hbase.columns.mapping"="ALARM_INFO:ALARM_TIME,ALARM_INFO:ALARM_LOCATION,ALARM_INFO:DEV_ID,ALARM_INFO:DEV_IP,ALARM_INFO:ALARM_DESC,ALARM_INFO:ALARM_NUM")TBLPROPERTIES("hbase.table.name"="ALARM_INFO")
告警管理中往往存在设备/区域树的情况,该树体现设备与区域的相互联系,以及不同区域间的父节点与子节点间的位置关系,后台存储为一张位置树表,假设是以0表示根节点1表示叶子节点,每个根节点后列出对应的子节点。此时刷新区域表时,要考虑每个区域存在域间设备的情况。如图5所示,本文采用的同时适用于存在和不存在域间设备情况的遍历方法。具体例如:
简单假设现有地区9个。分别用数字1-9表示。其中分两个总区域:1、8。1区下一级为区域2、3,2下一级区域4、5,3下细分为区域6,4区下一节点为区域7,父节点8下一级区域9。此时,首先找到父节点:1,8。然后分别进行遍历。从父节点1开始:遍历第二级,有:1_2,1_3。其中id=2时,子节点数为2,id=3时,子节点数为1不为0,说明两个id均为中间区域,未达到具体区域id号,需要继续遍历。于是继续采用递归方式分别搜索1_2,1_3,分别得到1_2_4,1_2_5,1_3_6。同理判断此时的全路径末尾是否已经达到具体区域的ID。由于路径1_2_4中对应的末尾id=4,子节点数不为1,于是继续递归遍历,得到1_2_4_7末位id=7,子节点数0,结束递归。同理1_2_5,1_3_6已经达到具体区域id,结束遍历。搜索完以上全部后开始另一个父节点8,最终得到如下的全路径结果:
1_2_0  1_3_0  1_2_4_0  1_2_5_0  1_2_4_7_0  1_3_6_08_9_0
以上只是一种区域较少的简单情况,也适用于区域增多的情况。且能同时适用于各区域包含和不含直连设备的情况。
(5)RollUp/Cube
Hive支持OLAP中的上卷以及分块操作。钻取的深度与维所划分的层次相对应,如rollup的操作,通过沿着一个维度的概念上的分层,逐渐向上延伸。在中心立方体执行上卷操作的最终结果。切块操作涉及的维度并不改变,只是改变各个维度的数据大小。操作前先将三个维表连接后的综合数据表tb。然后进行其他操作,如Rollup中的关键操作如下,cube同理:
case when(year is null)then'All'else year end as year,
case when(location is null)then'All'else location end aslocation,
case when(alarm_type is null)then'All'else alarm_type end astype,ceil(sum(num))as sum
from tb group by location,time,alarm_desc with rollup;
以上所述仅为本发明的较佳实施案例之一,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明在深入了解告警管理流程基础上进一步提出基于Hive的告警管理中的OLAP方法,通过建立网络告警数据仓库,利用联机分析的快速数据统计为管理者提供决策支持。用户可以方便灵活地获得不同粒度、不同角度的分析数据,满足了网络告警分析的需求,具有一定的应用价值。
与基于传统数据库和数据仓库的OLAP方法最大的不同,是该方法可以通过使用Hive数据仓库工具,处理海量告警数据,提高告警数据分析效率,扩大分析维度。同时开发复杂度相对减小,分析代价低、准确性高。改进后的方法有更强的数据处理和计算能力,以及更大的灵活性,即使在系统中包含设备/区域树的环境下,相比传统方式也具有更好的数据分析性能。

Claims (1)

1.一种基于Hive的网络告警信息OLAP方法,包括数据清理、数据集成、数据规约和数据变换,其特征在于,有如下步骤:
1)告警数据映射先采用HiveJdbcDriver实现Jdbc方式链接Hive,再通过Hive外表方式实现数据共享;
2)初始化OLAP中所需的数据立方体维度数N与每维对应的层数Li,根据具体选择的N个网络告警相关信息维度,建立N-D方体模型;
3)计算数据立方体总数,判断是否存在维灾难,假如存在返回步骤2),重新初始化;
4)按照步骤2)的维度数和层数自定义维度和层次,针对网络告警管理采集到的数据与用户需求,完成OLAP星型模型的构建;
5)建立事实表和维表,解决各维度的层次数据刷新问题,导入数据;
6)基于以上操作,Hive实现RollUp和Cube;当需要更新维度时,返回步骤2)重新初始化。
CN201410416354.4A 2014-08-21 2014-08-21 一种基于Hive的网络告警信息OLAP方法 Pending CN104219088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410416354.4A CN104219088A (zh) 2014-08-21 2014-08-21 一种基于Hive的网络告警信息OLAP方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410416354.4A CN104219088A (zh) 2014-08-21 2014-08-21 一种基于Hive的网络告警信息OLAP方法

Publications (1)

Publication Number Publication Date
CN104219088A true CN104219088A (zh) 2014-12-17

Family

ID=52100246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410416354.4A Pending CN104219088A (zh) 2014-08-21 2014-08-21 一种基于Hive的网络告警信息OLAP方法

Country Status (1)

Country Link
CN (1) CN104219088A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276854A (zh) * 2017-07-27 2017-10-20 中兴软创科技股份有限公司 一种大数据下molap统计分析的方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN110555021A (zh) * 2018-03-26 2019-12-10 深圳先进技术研究院 数据存储方法、查询方法及相关装置
CN111371602A (zh) * 2020-02-27 2020-07-03 中国联合网络通信集团有限公司 告警信息处理方法和设备
CN112559459A (zh) * 2020-12-15 2021-03-26 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
CN113055213A (zh) * 2019-12-27 2021-06-29 中兴通讯股份有限公司 告警信息管理方法、告警信息管理系统及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704721B1 (en) * 1999-04-02 2004-03-09 International Business Machines Corporation Systems and methods for automated navigation between dynamic data with dissimilar structures
CN1492336A (zh) * 2003-09-04 2004-04-28 上海格尔软件股份有限公司 基于数据仓库的信息安全审计方法
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704721B1 (en) * 1999-04-02 2004-03-09 International Business Machines Corporation Systems and methods for automated navigation between dynamic data with dissimilar structures
CN1492336A (zh) * 2003-09-04 2004-04-28 上海格尔软件股份有限公司 基于数据仓库的信息安全审计方法
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASHISH THUSOO 等: "Hive - a petabyte scale data warehouse using Hadoop", 《DATA ENGINEERING (ICDE), 2010 IEEE 26TH INTERNATIONAL CONFERENCE ON》 *
王欣: "基于分布式ETL的电子政务决策系统设计和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276854A (zh) * 2017-07-27 2017-10-20 中兴软创科技股份有限公司 一种大数据下molap统计分析的方法
CN107276854B (zh) * 2017-07-27 2021-11-09 浩鲸云计算科技股份有限公司 一种大数据下molap统计分析的方法
CN110555021A (zh) * 2018-03-26 2019-12-10 深圳先进技术研究院 数据存储方法、查询方法及相关装置
CN110555021B (zh) * 2018-03-26 2023-09-19 深圳先进技术研究院 数据存储方法、查询方法及相关装置
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN113055213A (zh) * 2019-12-27 2021-06-29 中兴通讯股份有限公司 告警信息管理方法、告警信息管理系统及服务器
CN111371602A (zh) * 2020-02-27 2020-07-03 中国联合网络通信集团有限公司 告警信息处理方法和设备
CN111371602B (zh) * 2020-02-27 2023-05-23 中国联合网络通信集团有限公司 告警信息处理方法和设备
CN112559459A (zh) * 2020-12-15 2021-03-26 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法
CN112559459B (zh) * 2020-12-15 2024-02-13 跬云(上海)信息科技有限公司 一种基于云计算的自适应存储分层系统及方法

Similar Documents

Publication Publication Date Title
Zhao et al. Geographical information system parallelization for spatial big data processing: a review
CN104219088A (zh) 一种基于Hive的网络告警信息OLAP方法
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
CN107590250A (zh) 一种时空轨迹生成方法及装置
CN107515952A (zh) 点云数据存储、并行计算和实时检索的方法及其系统
US10558665B2 (en) Network common data form data management
Tardio et al. An iterative methodology for big data management, analysis and visualization
CN106055590A (zh) 基于大数据及图数据库的电力网络数据处理方法和系统
Jin et al. Association rules redundancy processing algorithm based on hypergraph in data mining
Ghosh et al. Traj-cloud: a trajectory cloud for enabling efficient mobility services
CN116680090B (zh) 一种基于大数据的边缘计算网络管理方法及平台
CN113779105A (zh) 分布式轨迹流伴随模式挖掘方法
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
Singh et al. A comparative analysis of distributed clustering algorithms: A survey
Alkathiri et al. Geo-spatial big data mining techniques
CN104572648B (zh) 一种基于高性能计算的存储统计系统及方法
CN115907159A (zh) 一种相似路径台风的确定方法、装置、设备及介质
CN204557477U (zh) 基于数据仓库和olap技术的聚类挖掘系统
Gorawski et al. Materialized ar-tree in distributed spatial data warehouse
CN105930462A (zh) 基于云计算平台的海量数据处理方法
Wu et al. The design of distributed power big data analysis framework and its application in residential electricity analysis
Waghamare et al. Data mining technique for reduction of association rules in distributed system
Lin et al. GeoKSGrid: A geographical knowledge grid with functions of spatial data mining and spatial decision
Chen et al. Internet of things technology in ecological security assessment system of intelligent land
Yu et al. Efficient Spatio-Temporal-Data-Oriented Range Query Processing for Air Traffic Flow Statistics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160113

Address after: 215021, building 5, Luen Fat Industrial Park, 199 Tong Tao Road, Suzhou Industrial Park, Jiangsu

Applicant after: Suzhou Xindacheng Science and Technology Development Co., Ltd.

Applicant after: Nanjing Post & Telecommunication Univ.

Address before: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant before: Nanjing Post & Telecommunication Univ.

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141217

WD01 Invention patent application deemed withdrawn after publication