CN110609819A

CN110609819A - 基于hdfs的数据处理方法

Info

Publication number: CN110609819A
Application number: CN201910721098.2A
Authority: CN
Inventors: 孙立华
Original assignee: Nari Information and Communication Technology Co
Current assignee: Nari Information and Communication Technology Co
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-12-24

Abstract

本发明公开了基于HDFS的数据处理方法，包括以下步骤：步骤一、将数据导入到HDFS中来创建数据源；步骤二，用户对步骤一中创建的数据源中的数据进行处理，检测所述数据的变化并同时将数据进行分区处理，按预设规则在分区后的数据中抽取目标数据；步骤三、并将目标数据通过显示屏页面显示或将处理结果指定到指定路径下的输出文件。预设规则的设定，即能够迅速锁定常规需要展示的数据，并形成目标数据，该数据区别于其他数据，在后台处理完毕。

Description

基于HDFS的数据处理方法

技术领域

本发明涉及数据处理领域，具体涉及基于HDFS的数据处理方法。

背景技术

在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中，引入网络，就不可避免地引入了所有网络编程的复杂性，例如挑战之一是如果保证在节点不可用的时候数据不丢失。

传统的网络文件系统（NFS）虽然也称为分布式文件系统，但是其存在一些限制。由于NFS中，文件是存储在单机上，因此无法提供可靠性保证，当很多客户端同时访问NFSServer时，很容易造成服务器压力，造成性能瓶颈。另外如果要对NFS中的文件进行操作，需要首先同步到本地，这些修改在同步到服务端之前，其他客户端是不可见的。某种程度上，NFS不是一种典型的分布式系统，虽然它的文件的确放在远端（单一）的服务器上面。

发明内容

本发明要解决的技术问题是提供基于HDFS的数据处理方法，其中HDFS，是HadoopDistributed File System的简称，是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成，甚至可以通过Web协议（webhsfs）来操作。HDFS的文件分布在集群机器上，同时提供副本进行容错及可靠性保证。例如客户端写入读取文件的直接操作都是分布在集群各个机器上的，没有单点性能压力。

HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

为达到上述目的，本发明的技术方案如下：

基于HDFS的数据处理方法，包括以下步骤：

步骤一、将数据导入到HDFS中来创建数据源；

步骤二，用户对步骤一中创建的数据源中的数据进行处理，检测所述数据的变化并同时将数据进行分区处理，按预设规则在分区后的数据中抽取目标数据；

步骤三、并将目标数据通过显示屏页面显示或将处理结果指定到指定路径下的输出文件。

预设规则的设定，即能够迅速锁定常规需要展示的数据，并形成目标数据，该数据区别于其他数据，在后台处理完毕；

对多个异构数据源中的批量数据及流数据进行处理并调用相应的预设数据库，以构建业务应用，将应用中数据进行展示。

在本发明的一个优选实施例中，所述HDFS的数据分区被拆分成block-sized的chunk，chunk作为独立单元存储。

数据分区便于快速锁定需要的数据，且数据存储独立进行，与其他数据不进行关联。

在本发明的一个优选实施例中，步骤一与步骤二之间还包括对异常数据进行筛选和剔除步骤：

采用Spark离线并行计算方式进行数据的甄别，采用基于HDFS的分布式运行数据存储方式对数据进行存储。

离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，且在解决一个问题后就要立即得出结果的前提下进行的计算；根据计算结果，与上述的分区管理进行匹配。

在本发明的一个优选实施例中，所述筛选和剔除步骤之前还包括预处理步骤：空值处理、数据正确性验证、字段完整性处理和规范化数据格式。

预处理步骤中的下述几个处理方式可以采用现有技术的实施方式，更为方便，快速。

在本发明的一个优选实施例中，所述步骤一数据来源包括但不限于：

从网站直接爬取下来的数据；以及内部数据存储，即通过sqoop命令将关系型数据库导入到HDFS上。

数据源包括常规的两种形态，其中网站爬取能够获得目前与数据相关的分类原则等，用于对后续的数据处理参考用；

内部数据存储，属于比较正常的方式，且采用sqoop命令将关系型数据库便于操作。

在本发明的一个优选实施例中，所述两个获得的数据互相备份共享。备份共享，使得数据存储的安全性。

在本发明的一个优选实施例中，所述步骤一数据包括电网业务数据，所述电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据。

在本发明的一个优选实施例中，还包括步骤四，用户处理步骤；

当接收到验证指令时，所述操作指令包括携带所述用户组信息和所述验证通过标识；

上述验证指令通过后，进行操作指令，操作请求获取数据文件的一个以上密钥和数据文件的一个以上解密算法，并能对数据源中的数据人为干预。

本方式中用户操作分为两个大类进行实现，验证指令以及操作指令，该两个指令依次进行，保证了数据干预的准确性和安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的工作原理步骤图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

实施例1：

基于HDFS的数据处理方法，包括以下步骤：

步骤一、将数据导入到HDFS中来创建数据源；

本方案中的HDFS具有以下功能：

存储非常大的文件：这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。

根据Hadoop官网，Yahoo！的Hadoop集群约有10万颗CPU，运行在4万个机器节点上。

采用流式的数据访问方式: HDFS基于这样的一个假设：最有效的数据处理模式是一次写入、多次读取数据集经常从数据源生成或者拷贝一次，然后在其上做很多分析工作

分析工作经常读取其中的大部分数据，即使不是全部。因此读取整个数据集所需时间比读取第一条记录的延时更重要。

运行于商业硬件上: Hadoop不需要特别贵的、reliable的（可靠的）机器，可运行于普通商用机器（可以从多家供应商采购），商用机器不代表低端机器。在集群中（尤其是大的集群），节点失败率是比较高的HDFS的目标是确保集群在节点失败的时候不会让用户感觉到明显的中断。

具体地在使用场景下， HDFS的数据分区被拆分成block-sized的chunk，chunk作为独立单元存储。数据分区便于快速锁定需要的数据，且数据存储独立进行，与其他数据不进行关联。

步骤一数据来源包括但不限于：从网站直接爬取下来的数据；以及内部数据存储，即通过sqoop命令将关系型数据库导入到HDFS上。

其中两个获得的数据互相备份共享。备份共享，使得数据存储的安全性。

而步骤一数据包括电网业务数据，所述电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据。将本方案应用于电力系统中，更具有广泛的应用基础，能迅速获知漏电等数据。

实施例2：

除了上述实施例1给出的方案外，步骤一与步骤二之间还包括对异常数据进行筛选和剔除步骤：采用Spark离线并行计算方式进行数据的甄别，采用基于HDFS的分布式运行数据存储方式对数据进行存储。

更进一步地，筛选和剔除步骤之前还包括预处理步骤：空值处理、数据正确性验证、字段完整性处理和规范化数据格式。预处理步骤中的下述几个处理方式可以采用现有技术的实施方式，更为方便，快速。

除了实施例1给出的三个步骤外，还包括步骤四，用户处理步骤；当接收到验证指令时，所述操作指令包括携带所述用户组信息和所述验证通过标识；

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于HDFS的数据处理方法，其特征在于，包括以下步骤：

步骤一、将数据导入到HDFS中来创建数据源；

2.根据权利要求1所述的基于HDFS的数据处理方法，其特征在于，所述HDFS的数据分区被拆分成block-sized的chunk，chunk作为独立单元存储。

3.根据权利要求1所述的基于HDFS的数据处理方法，其特征在于，步骤一与步骤二之间还包括对异常数据进行筛选和剔除步骤：

采用Spark离线并行计算方式进行数据的甄别；采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。

4.根据权利要求3所述的基于HDFS的数据处理方法，其特征在于，所述筛选和剔除步骤之前还包括预处理步骤：空值处理、数据正确性验证、字段完整性处理和规范化数据格式。

5.根据权利要求1所述的基于HDFS的数据处理方法，其特征在于，所述步骤一数据来源包括但不限于：

6.根据权利要求5所述的基于HDFS的数据处理方法，其特征在于，所述两个获得的数据互相备份共享。

7.根据权利要求1-6之一所述的基于HDFS的数据处理方法，其特征在于，所述步骤一数据包括电网业务数据，所述电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据。

8.根据权利要求7所述的基于HDFS的数据处理方法，其特征在于，还包括步骤四，用户处理步骤；