CN105868365A

CN105868365A - 一种基于Hadoop的传统网管数据处理方法

Info

Publication number: CN105868365A
Application number: CN201610189666.5A
Authority: CN
Inventors: 王炳亮
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-08-17

Abstract

本发明提供一种基于Hadoop的传统网管数据处理方法，涉及移动通信领域传统话务网管、数据网管、传输网管的数据采集、加工处理。在传统网管数据处理中通常采用关系型数据的方式实现对设备数据的存储与处理，通常采集处理时延高、数据补采补汇逻辑复杂，无法及时完成对数据的加工，影响上层基于数据的分析应用。采用基于Hadoop的传统网管数据处理方式，以Hadoop 分布式HDFS系统进行数据的存储、以Spark分布式数据处理框架进行数据的加工处理，通过基于文件方式的数据操作，快速实现对数据的采集及补采补汇处理。

Description

一种基于Hadoop的传统网管数据处理方法

技术领域

本发明涉及数据处理技术，尤其涉及一种基于Hadoop的传统网管数据处理方法。

背景技术

在通信行业内，语音、数据等各项业务的实现是基于网络内大量的通信设备完成，各类网络设备定期生成各类测量数据用于对设备性能、业务质量、业务容量等问题的统计分析，传统网管系统（如话务网管、数据网管）负责对移动网络设备各项测量数据进行采集、解析、加工及处理，支撑对网络质量的分析应用。

传统网管系统采用关系型数据库（如Oracle）进行设备采集数据的存储与计算加工，该方式完全基于数据库引擎技术，利用数据库语句进行数据的装载及处理，数据加载处理效率不高；另外在设备数据传送延时、数据传送不完整等情况下，针对历史数据的重新补采/补汇需要通过数据库的索引技术来进行已入库数据与新增数据的比对判断，该方式效率低，影响数据处理加工的效率，采用该种方式，在当前网络运维效率要求高，应用分析时延低的情况下，难以快速满足应用对数据的需求。

发明内容

为了解决该问题，本发明提出了一种基于Hadoop的传统网管数据处理方法。

本发明要解决的问题是通过Hadoop大数据技术，基于分布式文件处理方式提升数据加载效率，简化数据补采/补汇的判断逻辑，降对数据加工处理的时延，提升应用分析的实时性

本发明提供的技术方案：

本方案提供一种基于Hadoop的传统网管数据处理方法，以Hadoop分布式文件系统作为数据的存储方式，以Hadoop本地文件加载的方式实现对数据到Hadoop集群的加载，通过Spark分布式计算引擎实现对数据的进一步加工处理操作；对于数据的补采补汇，采用直接删除历史文件，重新进行数据加载、加工处理的方式。本技术方案中的实现包含三部分内容：

1、传统网管数据Hadoop存储

2、传统网管数据Hadoop加载及加工处理

3、传统网管数据Hadoop补采、补汇。

1.传统网管数据Hadoop存储

采用Hadoop分布式文件系统HDFS进行网管数据存储，数据本质上是以文件的形式存在集群中，在Hadoop中一张数据表会已一个文件夹的形式进行数据的存放。

设备采集原始数据存储格式说明：

从设备采集到的原始数据采用按天/小时/15分钟粒度进行目录建设规划，格式要求如下：

${HDFS_HOME}/rawdata/${网管系统标识}/${数据表名}/${日期，采用yyyymmdd格式}/${小时，采用hh24格式}/${分钟，采用mi格式，以00，15，30，45表示}

以话务网管LTE无线小区性能数据为例，其存储路径如下：

/hdfs/rawdata/hwwg/lte_wpm_cell/20150101/10/15

加工处理后的数据存储格式说明：

针对加载至Hadoop中的原始数据通过Spark进行数据的加工与处理，按照数据分层的原则将数据在Spark内分为三层，stg层（临时缓冲区）、odm层（归一化后基础数据）、dw层（维度汇总数据）。按照数据处理及应用的周期，其中stg层数据按天/小时/15分钟方式进行分区，odm层按天/小时/15分钟方式进行分区，dw层按天/小时进行分区。

以话务网管LTE无线小区性能数据加工处理为例，其存储路径如下：

Stg层：

/hdfs/user/spark/warehouse/stg.db/stg_lte_wpm_cell_15/day=20150101/hour=10/min=15

Odm层：

/hdfs/user/spark/warehouse/odm.db/odm_lte_wpm_cell_15/day=20150101/hour=10/min=15

Dw层：

/hdfs/user/spark/warehouse/dw.db/dw_ft_lte_wpm_cell_h/day=20150101/hour=10

2.传统网管数据Hadoop加载及加工处理

数据的加工处理共需要经过以下处理步骤：

数据采集解析：从设备网管按照数据周期性采集所需要的各类数据，并对不同类型格式的数据进行解析形成标准的文本文件。

清洗转换：根据数据的内容要求对不符合字段长度、不符合字段类型、不符合字段枚举值等记录进行清洗，对部分不标准的数据格式、时间格式等进行相应的转换操作。

文件合并：针对小于50M的文件进行合并处理，按照文件个数进行合并，以提高数据加载到HDFS的效率。

文件压缩：对数据文件进行压缩，减少数据存储量，采用lzo格式的压缩。

HDFS加载：通过Hadoop的load命令实现数据文件到Hadoop集群的加载操作，其实现原理是基于文件的MV操作，可极大提高数据加载的效率，优于传统关系型数据库的加载性能。

加载Spark：通过Spark进行数据的汇总处理，首先将HDFS数据加载到Spark中。

Spark汇总：通过Spark SQL（与传统关系型数据库的语法基本一致）进行数据从stg层到ODM、DW等的多层级数据汇总处理，Spark基于内存的分布式数据处理能力优于传统关系型数据库。

3.传统网管数据Hadoop补采、补汇

针对出现问题后的数据补采及补汇过程主要体现在数据加载Hadoop集群及在Hadoop集群内的汇总处理操作方面有所不同，主要包含以下两个操作：

HDFS文件删除：对于出现补采的数据，在加载Hadoop集群前，删除该时段的已存在的数据，其直接删除HDFS文件，效率极高，可在1～2s内完成原有错误数据的删除

Spark数据删除：在Spark内进行补汇前进行原有汇总数据的删除，其本质也是基于文件的删除操作，性能高，便于数据库的操作。

通过基于Hadoop的文件方式的直接操作，其处理性能由于传统关系型数据库的处理效率，且直接进行整体数据的删除重加载、重汇总，不需要进行数据的比对更新。

本发明的有益效果是

采用基于Hadoop的传统网管数据处理方法，由于其基于文件方式的操作，极大提高了数据加载处理效率，以LTE小区无线性能数据每小时的采集处理为例，传统关系型数据的处理方式完成整个数据加工过程需要30分钟以上，通过Hadoop进行处理，可在10分钟内完成整个加工过程，提升效率明显；对于出现补采补汇的情形，采用Hadoop处理方式，使原来的补采补汇过程由40分钟提升到10分钟，极大提升了对前端应用分析的实时性。

附图说明

图1是数据Hadoop存储规划示意图；

图2是数据Hadoop加载处理流程示意图；

图3是数据Hadoop补采/补汇流程示意图。

具体实施方式

下面对本发明的内容进行更加详细的阐述：

附图1描述传统网管数据在Hadoop内的存储方式，包含采集后的原始数据，加工处理后的汇总数据。

附图1是本发明中数据在Hadoop的存储，按照存储的规划，采集后的原始数据存储格式${HDFS_HOME}/rawdata/${网管系统标识}/${数据表名}/${日期}/${小时}/${分钟}，其中网管系统标识采用英文缩写，话务网管：hwwg、数据网管：sjwg、传输网管：cswg；日期采用天粒度格式，按照yyyymmdd格式定义；小时采用24进制的2位小时数字表示，分钟以2位数字来表示；加工后的数据存储在Hadoop的spark内，按照表的形式，以分区方式进行存储。

附图2描述传统网管数据基于Hadoop方案实现的整个处理加工的过程，描述了在该过程中主要的操作环节。

附图2：是本发明中采用Hadoop实现传统网管数据的加工处理流程，从数据的采集解析、加载到Hadoop集群以及在Hadoop集群内基于Spark引擎实现对数据的进一步加工汇总处理。从图中可以看出实现该过程的关键操作包含：数据采集解析、数据清洗转换、文件合并、文件压缩、加载HDFS、加载spark和spark汇总。

附图3描述了在数据出现异常情况下，进行补采/补汇的处理过程，在该过程中数据流转需要经过的各个主要操作环节。

附图3：是本发明中基于Hadoop实现对传统网管数据的补采、补汇流程，其与正常的数据加工处理流程的区别主要在对hadoop集群内已经加载处理的历史错误数据的处理上，在进行数据加载及数据汇总前，先将历史错误数据文件进行删除操作后再进行正常的数据加载处理操作，在删除HDFS数据文件时采用Hadoop的删除命令Hadoop fs –rmr命令直接对文件进行删除操作。

Claims

1.一种基于Hadoop的传统网管数据处理方法，其特征在于，

主要包含三部分内容：

1）传统网管数据Hadoop存储；

2）传统网管数据Hadoop加载及加工处理；

3）传统网管数据Hadoop补采、补汇；

以Hadoop分布式文件系统作为数据的存储方式，以Hadoop本地文件加载的方式实现对数据到Hadoop集群的加载，通过Spark分布式计算引擎实现对数据的进一步加工处理操作；对于数据的补采、补汇，采用直接删除历史文件，重新进行数据加载、加工处理的方式。

2.根据权利要求1所述的方法，其特征在于，1）中的存储目录规划是按照分类分区的方式进行设计的；

采用Hadoop分布式文件系统HDFS进行网管数据存储，数据本质上是以文件的形式存在集群中，在Hadoop中一张数据表会已一个文件夹的形式进行数据的存放；

设备采集原始数据存储格式说明：

${HDFS_HOME}/rawdata/${网管系统标识}/${数据表名}/${日期，采用yyyymmdd格式}/${小时，采用hh24格式}/${分钟，采用mi格式，以00，15，30，45表示}；

加工处理后的数据存储格式说明：

针对加载至Hadoop中的原始数据通过Spark进行数据的加工与处理，按照数据分层的原则将数据在Spark内分为三层，stg层、odm层、dw层；按照数据处理及应用的周期，其中stg层数据按天/小时/15分钟方式进行分区，odm层按天/小时/15分钟方式进行分区，dw层按天/小时进行分区。

3.权利要求1所述的方法，其特征在于， 2）中的数据处理流程各环节是基于Hadoop来实现的；数据的加工处理共需要经过以下处理步骤：

数据采集解析：从设备网管按照数据周期性采集所需要的各类数据，并对不同类型格式的数据进行解析形成标准的文本文件；

清洗转换：根据数据的内容要求对不符合字段长度、不符合字段类型、不符合字段枚举值等记录进行清洗，对部分不标准的数据格式、时间格式等进行相应的转换操作；

文件合并：针对小于50M的文件进行合并处理，按照文件个数进行合并，以提高数据加载到HDFS的效率；

文件压缩：对数据文件进行压缩，减少数据存储量，采用lzo格式的压缩；

HDFS加载：通过Hadoop的load命令实现数据文件到Hadoop集群的加载操作；

加载Spark：通过Spark进行数据的汇总处理，首先将HDFS数据加载到Spark中；

Spark汇总：通过Spark SQL进行数据从stg层到ODM、DW等的数层级数据汇总处理。

4.权利要求1所述的方法，其特征在于，3）中数据补采补汇流程是基于Hadoop对文件的操作来实现的；主要包含以下两个操作：

HDFS文件删除：对于出现补采的数据，在加载Hadoop集群前，删除该时段的已存在的数据，其直接删除HDFS文件，效率极高，在1～2s内完成原有错误数据的删除；

Spark数据删除：在Spark内进行补汇前进行原有汇总数据的删除。