CN112506888A - 基于hdfs不同数据源的数据处理方法 - Google Patents

基于hdfs不同数据源的数据处理方法 Download PDF

Info

Publication number
CN112506888A
CN112506888A CN202011592382.3A CN202011592382A CN112506888A CN 112506888 A CN112506888 A CN 112506888A CN 202011592382 A CN202011592382 A CN 202011592382A CN 112506888 A CN112506888 A CN 112506888A
Authority
CN
China
Prior art keywords
data
different
hdfs
cluster
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011592382.3A
Other languages
English (en)
Inventor
宋玉凝
郭长营
王楠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202011592382.3A priority Critical patent/CN112506888A/zh
Publication of CN112506888A publication Critical patent/CN112506888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于HDFS不同数据源的数据处理方法,属于数据处理技术领域,本发明要解决的技术问题为如何能够实现来自不同数据源数据的处理,满足各种类型数据源的适配,更加灵活且功能多样,采用的技术方案为:该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎,将不同数据源接入不同节点,分别执行引擎对数据进行数据处理操作,并与关系型数据库的数据汇总,将汇总后的数据后续处理后统一输出,实现在同一大数据集群中处理不同类型的数据的需求。

Description

基于HDFS不同数据源的数据处理方法
技术领域
本发明涉及数据处理技术领域,具体地说是一种基于HDFS不同数据源的数据处理方法。
背景技术
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是ApacheHadoop Core项目的一部分。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
数据源是指数据库应用程序所使用的数据库或者数据库服务器。数据源(DataSource)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。
通常数据处理系统应对的是某一种数据源中的数据,如存储在HDFS(Hadoop分布式文件系统)集群中的数据。针对不同种类的数据源,数据处理系统应有不同的结构。故如何能够实现来自不同数据源数据的处理,满足各种类型数据源的适配,更加灵活且功能多样是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于HDFS不同数据源的数据处理方法,来解决如何能够实现来自不同数据源数据的处理,满足各种类型数据源的适配,更加灵活且功能多样的问题。
本发明的技术任务是按以下方式实现的,一种基于HDFS不同数据源的数据处理方法,该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎,将不同数据源接入不同节点,分别执行引擎对数据进行数据处理操作,并与关系型数据库的数据汇总,将汇总后的数据后续处理后统一输出,实现在同一大数据集群(Hadoop)中处理不同类型的数据的需求。
作为优选,在大数据集群的节点内开发、部署应对不同数据源的引擎时,引入Query语句,用于查询大数据集群中的数据。
更优地,所述大数据集群中单个节点的数据处理过程具体如下:
(1)、执行数据处理引擎;
(2)、获取计算机可执行程序;
(3)、执行计算机可执行程序;
(4)、从外部数据源获取;
(5)、存储获取到的数据;
(6)、分别对不同数据源的数据上运行数据处理操作。
更优地,所述关系型数据库包括RDBMS和RDMS。
更优地,RDBMS的数据流流向具体如下:
①、对关系型数据库进行广播操作;
②、将广播后的关系型数据库与大数据集群进行合并操作;
③、将合并操作后的关系型数据库与大数据集群进行汇总操作;
④、将汇总操作后的数据流流向其余数据处理系统。
更优地,所述合并操作结合了两种类型的数据,一种类型的数据包含在一个数据源汇总,另一种类型的数据包含在另一个数据源中。
更优地,RDMS的数据流流向具体如下:
①、将大数据集群通过过滤器进行过滤处理;
②、将关系型数据库进行分区处理;
③、将过滤处理后的大数据集群和分区处理后的关系型数据库进行叠加操作;
④、将叠加操作后的数据进行汇总操作;
⑤、将汇总操作后的数据流流向其余数据处理系统。
更优地,汇总操作后的数据进入数据处理子系统中。
本发明的基于HDFS不同数据源的数据处理方法具有以下优点:
(一)本发明能够处理存储在各种源中的数据,如存储在HDFS(Hadoop分布式文件系统)集群中的数据,针对不同种类的数据源,采用不同的结构进行数据处理,应用范围广;
(二)本发明还可以对从其他类型的源接收的数据执行操作,通过对各种类型数据源的适配,使得数据处理变得更加灵活且功能多样;
(三)本发明应对不同类型的数据源,将在大数据集群中的不同节点中,部署应对不同的引擎,以实现在同一个大数据集群中处理不同类型的数据的需求;
(四)在大数据集群中使用不同的引擎实例,对来自不同的数据源中的数据进行操作后,数据被汇总到了一起,相比现有技术,本发明可以实现在同一集群内的不同节点内,分别实现对不同类型数据源的数据的操作,具有很好的推广使用价值。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于HDFS不同数据源的数据处理方法的示意图;
附图2为大数据集群中单个节点的数据处理的流程框图;
附图3为RDBMS的数据流流向示意图;
附图4为RDMS的数据流流向示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于HDFS不同数据源的数据处理方法作以下详细地说明。
实施例:
本发明的基于HDFS不同数据源的数据处理方法,该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎,将不同数据源接入不同节点,分别执行引擎对数据进行数据处理操作,并与关系型数据库的数据汇总,将汇总后的数据后续处理后统一输出,实现在同一大数据集群(Hadoop)中处理不同类型的数据的需求。
本实施例中的在大数据集群的节点内开发、部署应对不同数据源的引擎时,引入Query语句,用于查询大数据集群中的数据。
如附图1所示,将四种数据源接入大数据集群,分别执行引擎对数据进行处理,之后汇总为数据a;若有必要,将其与其他来源的数据(如关系型数据库)数据b一起汇总到数据处理子系统,在进行后续处理后统一输出。
如附图2所示,本实施例中的大数据集群中单个节点的数据处理过程具体如下:
(1)、执行数据处理引擎;
(2)、获取计算机可执行程序;
(3)、执行计算机可执行程序;
(4)、从外部数据源获取;
(5)、存储获取到的数据;
(6)、分别对不同数据源的数据上运行数据处理操作。
本实施例中,一个Hadoop集群中某个节点内的数据处理引擎实例,节点内已存储HDFS的第一部分数据,并且该数据处理引擎有能力从外部数据源中接收数据。例如外部数据源可以是附图1中所示的数据源a、数据源b、数据源c或数据源d。
本实施例中的关系型数据库包括RDBMS和RDMS。
如附图3所示,本实施例中的RDBMS的数据流流向具体如下:
①、对关系型数据库进行广播操作;
②、将广播后的关系型数据库与大数据集群进行合并操作;
③、将合并操作后的关系型数据库与大数据集群进行汇总操作;
④、将汇总操作后的数据流流向其余数据处理系统。
如附图4所示,本实施例中的RDMS的数据流流向具体如下:
①、将大数据集群通过过滤器进行过滤处理;
②、将关系型数据库进行分区处理;
③、将过滤处理后的大数据集群和分区处理后的关系型数据库进行叠加操作;
④、将叠加操作后的数据进行汇总操作;
⑤、将汇总操作后的数据流流向其余数据处理系统。
在某些示例中,数据流可以显示在允许查看、配置和/或执行数据流图的用户界面中。如附图3所示,表示一个数据处理操作,该操作可能由Hadoop集群和附图1所示的数据处理系统执行。在本实施例中,数据流包含一个名为“合并”的操作,还将称之为连接组件。“合并”操作结合了两种类型的数据,一种类型的数据包含在一个数据源中,另一种类型的数据包含在另一个数据源中。如附图3所示的其他组件使数据流能够使用多种类型的数据源进行连接操作,包括一个数据源,即Hadoop集群。此外,大多数处理发生在Hadoop集群的节点上。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于HDFS不同数据源的数据处理方法,其特征在于,该方法是在大数据集群的节点内开发、部署应对不同数据源的引擎,将不同数据源接入不同节点,分别执行引擎对数据进行数据处理操作,并与关系型数据库的数据汇总,将汇总后的数据后续处理后统一输出,实现在同一大数据集群中处理不同类型的数据的需求。
2.根据权利要求1所述的基于HDFS不同数据源的数据处理方法,其特征在于,在大数据集群的节点内开发、部署应对不同数据源的引擎时,引入Query语句,用于查询大数据集群中的数据。
3.根据权利要求1或2所述的基于HDFS不同数据源的数据处理方法,其特征在于,所述大数据集群中单个节点的数据处理过程具体如下:
(1)、执行数据处理引擎;
(2)、获取计算机可执行程序;
(3)、执行计算机可执行程序;
(4)、从外部数据源获取;
(5)、存储获取到的数据;
(6)、分别对不同数据源的数据上运行数据处理操作。
4.根据权利要求3所述的基于HDFS不同数据源的数据处理方法,其特征在于,所述关系型数据库包括RDBMS和RDMS。
5.根据权利要求4所述的基于HDFS不同数据源的数据处理方法,其特征在于,RDBMS的数据流流向具体如下:
①、对关系型数据库进行广播操作;
②、将广播后的关系型数据库与大数据集群进行合并操作;
③、将合并操作后的关系型数据库与大数据集群进行汇总操作;
④、将汇总操作后的数据流流向其余数据处理系统。
6.根据权利要求5所述的基于HDFS不同数据源的数据处理方法,其特征在于,所述合并操作结合了两种类型的数据,一种类型的数据包含在一个数据源汇总,另一种类型的数据包含在另一个数据源中。
7.根据权利要求6所述的基于HDFS不同数据源的数据处理方法,其特征在于,RDMS的数据流流向具体如下:
①、将大数据集群通过过滤器进行过滤处理;
②、将关系型数据库进行分区处理;
③、将过滤处理后的大数据集群和分区处理后的关系型数据库进行叠加操作;
④、将叠加操作后的数据进行汇总操作;
⑤、将汇总操作后的数据流流向其余数据处理系统。
8.根据权利要求7所述的基于HDFS不同数据源的数据处理方法,其特征在于,汇总操作后的数据进入数据处理子系统中。
CN202011592382.3A 2020-12-29 2020-12-29 基于hdfs不同数据源的数据处理方法 Pending CN112506888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011592382.3A CN112506888A (zh) 2020-12-29 2020-12-29 基于hdfs不同数据源的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011592382.3A CN112506888A (zh) 2020-12-29 2020-12-29 基于hdfs不同数据源的数据处理方法

Publications (1)

Publication Number Publication Date
CN112506888A true CN112506888A (zh) 2021-03-16

Family

ID=74951942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011592382.3A Pending CN112506888A (zh) 2020-12-29 2020-12-29 基于hdfs不同数据源的数据处理方法

Country Status (1)

Country Link
CN (1) CN112506888A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678354A (zh) * 2012-09-11 2014-03-26 中国移动通信集团公司 基于云计算平台的本地关系型数据库节点调度方法和装置
CN104484472A (zh) * 2014-12-31 2015-04-01 天津南大通用数据技术股份有限公司 一种混合多种异构数据源的数据库集群及实现方法
CN106897322A (zh) * 2015-12-21 2017-06-27 中国移动通信集团山西有限公司 一种数据库和文件系统的访问方法和装置
US20190362011A1 (en) * 2018-05-23 2019-11-28 Microsoft Technology Licensing, Llc Scale out data storage and query filtering using data pools
CN110704479A (zh) * 2019-09-12 2020-01-17 新华三大数据技术有限公司 任务处理方法、装置、电子设备及存储介质
CN110851473A (zh) * 2018-07-25 2020-02-28 中兴通讯股份有限公司 一种数据处理方法、装置和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678354A (zh) * 2012-09-11 2014-03-26 中国移动通信集团公司 基于云计算平台的本地关系型数据库节点调度方法和装置
CN104484472A (zh) * 2014-12-31 2015-04-01 天津南大通用数据技术股份有限公司 一种混合多种异构数据源的数据库集群及实现方法
CN106897322A (zh) * 2015-12-21 2017-06-27 中国移动通信集团山西有限公司 一种数据库和文件系统的访问方法和装置
US20190362011A1 (en) * 2018-05-23 2019-11-28 Microsoft Technology Licensing, Llc Scale out data storage and query filtering using data pools
CN110851473A (zh) * 2018-07-25 2020-02-28 中兴通讯股份有限公司 一种数据处理方法、装置和系统
CN110704479A (zh) * 2019-09-12 2020-01-17 新华三大数据技术有限公司 任务处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109690524B (zh) 分布式事件处理系统中的数据序列化
AU2020203145B2 (en) Processing data from multiple sources
Brenna et al. Distributed event stream processing with non-deterministic finite automata
US11663242B2 (en) Mass insertion into single-threaded databases
Bruno et al. Advanced join strategies for large-scale distributed computation
CN109033109B (zh) 数据处理方法及系统
CN107016039B (zh) 数据库写入的方法和数据库系统
CN110659304A (zh) 一种基于数据倾斜的多路数据流连接系统
Karimov et al. AJoin: ad-hoc stream joins at scale
WO2015094269A1 (en) Hybrid flows containing a continuous flow
WO2021238902A1 (zh) 数据导入方法、装置、服务平台及存储介质
Marcu et al. Kera: Scalable data ingestion for stream processing
Sattler et al. Towards Elastic Stream Processing: Patterns and Infrastructure.
CN111078728B (zh) 一种数据库归档模式下跨库查询方法和装置
CN112506888A (zh) 基于hdfs不同数据源的数据处理方法
US20130007044A1 (en) Reliance oriented data stream management system
CN112052295A (zh) 一种数据同步方法、装置、电子设备和可读存储介质
CN111984826A (zh) 基于xml的数据自动入库方法、系统、装置和存储介质
CN110795265A (zh) 一种基于乐观容错方法的迭代器
US8484171B2 (en) Duplicate filtering in a data processing environment
CN112286918B (zh) 数据快速接入转换的方法、装置、电子设备及存储介质
US8862606B1 (en) Executing correlated and multi-row subqueries in a MPP database
da Silva Veith et al. Apache Spark
CN114254039A (zh) 分布式同步系统
CN114238834A (zh) 基于发布订阅式物联网大数据实时处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210316

RJ01 Rejection of invention patent application after publication