CN112506888A

CN112506888A - 基于hdfs不同数据源的数据处理方法

Info

Publication number: CN112506888A
Application number: CN202011592382.3A
Authority: CN
Inventors: 宋玉凝; 郭长营; 王楠楠
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-16

Abstract

本发明公开了一种基于HDFS不同数据源的数据处理方法，属于数据处理技术领域，本发明要解决的技术问题为如何能够实现来自不同数据源数据的处理，满足各种类型数据源的适配，更加灵活且功能多样，采用的技术方案为：该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎，将不同数据源接入不同节点，分别执行引擎对数据进行数据处理操作，并与关系型数据库的数据汇总，将汇总后的数据后续处理后统一输出，实现在同一大数据集群中处理不同类型的数据的需求。

Description

基于HDFS不同数据源的数据处理方法

技术领域

本发明涉及数据处理技术领域，具体地说是一种基于HDFS不同数据源的数据处理方法。

背景技术

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是ApacheHadoop Core项目的一部分。HDFS有着高容错性(fault-tolerant)的特点，并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

数据源是指数据库应用程序所使用的数据库或者数据库服务器。数据源(DataSource)顾名思义，数据的来源，是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样，通过提供正确的数据源名称，你可以找到相应的数据库连接。

通常数据处理系统应对的是某一种数据源中的数据，如存储在HDFS(Hadoop分布式文件系统)集群中的数据。针对不同种类的数据源，数据处理系统应有不同的结构。故如何能够实现来自不同数据源数据的处理，满足各种类型数据源的适配，更加灵活且功能多样是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种基于HDFS不同数据源的数据处理方法，来解决如何能够实现来自不同数据源数据的处理，满足各种类型数据源的适配，更加灵活且功能多样的问题。

本发明的技术任务是按以下方式实现的，一种基于HDFS不同数据源的数据处理方法，该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎，将不同数据源接入不同节点，分别执行引擎对数据进行数据处理操作，并与关系型数据库的数据汇总，将汇总后的数据后续处理后统一输出，实现在同一大数据集群(Hadoop)中处理不同类型的数据的需求。

作为优选，在大数据集群的节点内开发、部署应对不同数据源的引擎时，引入Query语句，用于查询大数据集群中的数据。

更优地，所述大数据集群中单个节点的数据处理过程具体如下：

(1)、执行数据处理引擎；

(2)、获取计算机可执行程序；

(3)、执行计算机可执行程序；

(4)、从外部数据源获取；

(5)、存储获取到的数据；

(6)、分别对不同数据源的数据上运行数据处理操作。

更优地，所述关系型数据库包括RDBMS和RDMS。

更优地，RDBMS的数据流流向具体如下：

①、对关系型数据库进行广播操作；

②、将广播后的关系型数据库与大数据集群进行合并操作；

③、将合并操作后的关系型数据库与大数据集群进行汇总操作；

④、将汇总操作后的数据流流向其余数据处理系统。

更优地，所述合并操作结合了两种类型的数据，一种类型的数据包含在一个数据源汇总，另一种类型的数据包含在另一个数据源中。

更优地，RDMS的数据流流向具体如下：

①、将大数据集群通过过滤器进行过滤处理；

②、将关系型数据库进行分区处理；

③、将过滤处理后的大数据集群和分区处理后的关系型数据库进行叠加操作；

④、将叠加操作后的数据进行汇总操作；

⑤、将汇总操作后的数据流流向其余数据处理系统。

更优地，汇总操作后的数据进入数据处理子系统中。

本发明的基于HDFS不同数据源的数据处理方法具有以下优点：

(一)本发明能够处理存储在各种源中的数据，如存储在HDFS(Hadoop分布式文件系统)集群中的数据，针对不同种类的数据源，采用不同的结构进行数据处理，应用范围广；

(二)本发明还可以对从其他类型的源接收的数据执行操作，通过对各种类型数据源的适配，使得数据处理变得更加灵活且功能多样；

(三)本发明应对不同类型的数据源，将在大数据集群中的不同节点中，部署应对不同的引擎，以实现在同一个大数据集群中处理不同类型的数据的需求；

(四)在大数据集群中使用不同的引擎实例，对来自不同的数据源中的数据进行操作后，数据被汇总到了一起，相比现有技术，本发明可以实现在同一集群内的不同节点内，分别实现对不同类型数据源的数据的操作，具有很好的推广使用价值。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于HDFS不同数据源的数据处理方法的示意图；

附图2为大数据集群中单个节点的数据处理的流程框图；

附图3为RDBMS的数据流流向示意图；

附图4为RDMS的数据流流向示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于HDFS不同数据源的数据处理方法作以下详细地说明。

实施例：

本发明的基于HDFS不同数据源的数据处理方法，该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎，将不同数据源接入不同节点，分别执行引擎对数据进行数据处理操作，并与关系型数据库的数据汇总，将汇总后的数据后续处理后统一输出，实现在同一大数据集群(Hadoop)中处理不同类型的数据的需求。

本实施例中的在大数据集群的节点内开发、部署应对不同数据源的引擎时，引入Query语句，用于查询大数据集群中的数据。

如附图1所示，将四种数据源接入大数据集群，分别执行引擎对数据进行处理，之后汇总为数据a；若有必要，将其与其他来源的数据(如关系型数据库)数据b一起汇总到数据处理子系统，在进行后续处理后统一输出。

如附图2所示，本实施例中的大数据集群中单个节点的数据处理过程具体如下：

(1)、执行数据处理引擎；

(2)、获取计算机可执行程序；

(3)、执行计算机可执行程序；

(4)、从外部数据源获取；

(5)、存储获取到的数据；

(6)、分别对不同数据源的数据上运行数据处理操作。

本实施例中，一个Hadoop集群中某个节点内的数据处理引擎实例，节点内已存储HDFS的第一部分数据，并且该数据处理引擎有能力从外部数据源中接收数据。例如外部数据源可以是附图1中所示的数据源a、数据源b、数据源c或数据源d。

本实施例中的关系型数据库包括RDBMS和RDMS。

如附图3所示，本实施例中的RDBMS的数据流流向具体如下：

①、对关系型数据库进行广播操作；

②、将广播后的关系型数据库与大数据集群进行合并操作；

④、将汇总操作后的数据流流向其余数据处理系统。

如附图4所示，本实施例中的RDMS的数据流流向具体如下：

①、将大数据集群通过过滤器进行过滤处理；

②、将关系型数据库进行分区处理；

④、将叠加操作后的数据进行汇总操作；

⑤、将汇总操作后的数据流流向其余数据处理系统。

在某些示例中，数据流可以显示在允许查看、配置和/或执行数据流图的用户界面中。如附图3所示，表示一个数据处理操作，该操作可能由Hadoop集群和附图1所示的数据处理系统执行。在本实施例中，数据流包含一个名为“合并”的操作，还将称之为连接组件。“合并”操作结合了两种类型的数据，一种类型的数据包含在一个数据源中，另一种类型的数据包含在另一个数据源中。如附图3所示的其他组件使数据流能够使用多种类型的数据源进行连接操作，包括一个数据源，即Hadoop集群。此外，大多数处理发生在Hadoop集群的节点上。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于HDFS不同数据源的数据处理方法，其特征在于，该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎，将不同数据源接入不同节点，分别执行引擎对数据进行数据处理操作，并与关系型数据库的数据汇总，将汇总后的数据后续处理后统一输出，实现在同一大数据集群中处理不同类型的数据的需求。

2.根据权利要求1所述的基于HDFS不同数据源的数据处理方法，其特征在于，在大数据集群的节点内开发、部署应对不同数据源的引擎时，引入Query语句，用于查询大数据集群中的数据。

3.根据权利要求1或2所述的基于HDFS不同数据源的数据处理方法，其特征在于，所述大数据集群中单个节点的数据处理过程具体如下：

(1)、执行数据处理引擎；

(2)、获取计算机可执行程序；

(3)、执行计算机可执行程序；

(4)、从外部数据源获取；

(5)、存储获取到的数据；

(6)、分别对不同数据源的数据上运行数据处理操作。

4.根据权利要求3所述的基于HDFS不同数据源的数据处理方法，其特征在于，所述关系型数据库包括RDBMS和RDMS。

5.根据权利要求4所述的基于HDFS不同数据源的数据处理方法，其特征在于，RDBMS的数据流流向具体如下：

①、对关系型数据库进行广播操作；

②、将广播后的关系型数据库与大数据集群进行合并操作；

④、将汇总操作后的数据流流向其余数据处理系统。

6.根据权利要求5所述的基于HDFS不同数据源的数据处理方法，其特征在于，所述合并操作结合了两种类型的数据，一种类型的数据包含在一个数据源汇总，另一种类型的数据包含在另一个数据源中。

7.根据权利要求6所述的基于HDFS不同数据源的数据处理方法，其特征在于，RDMS的数据流流向具体如下：

①、将大数据集群通过过滤器进行过滤处理；

②、将关系型数据库进行分区处理；

④、将叠加操作后的数据进行汇总操作；

⑤、将汇总操作后的数据流流向其余数据处理系统。

8.根据权利要求7所述的基于HDFS不同数据源的数据处理方法，其特征在于，汇总操作后的数据进入数据处理子系统中。