CN106293923A - 一种基于hadoop系统的数据处理和分发方法和系统 - Google Patents
一种基于hadoop系统的数据处理和分发方法和系统 Download PDFInfo
- Publication number
- CN106293923A CN106293923A CN201610685232.4A CN201610685232A CN106293923A CN 106293923 A CN106293923 A CN 106293923A CN 201610685232 A CN201610685232 A CN 201610685232A CN 106293923 A CN106293923 A CN 106293923A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- numbering
- distribution method
- data based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/483—Multiproc
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5018—Thread allocation
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种基于hadoop系统的数据处理和分发方法,其在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。其包括步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。还提供了一种基于hadoop系统的数据处理和分发系统。
Description
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种基于hadoop系统的数据处理和分发方法,以及基于hadoop系统的数据处理和分发系统。
背景技术
中国专利“一种Hadoop集群管理任务的分发方法和系统”(CN 201510347803.9)给出了一种Hadoop集群管理任务的分发方法及装置。所述方法首先根据Hadoop组件的依赖关系对管理任务进行阶段规划,然后依次处理每一阶段中的管理任务,将同一阶段内配往同一组件节点的管理任务规划为一个子阶段;然后当进入一个调度周期后,扫描当前待调度的所有子阶段,并对其进行排序。最后根据预设筛选条件按照排序后的子阶段从前到后的顺序依次判断当前子阶段是否适合在当前调度周期内进行任务分发。在该分发方法中,子阶段作为最小的调度单元,并且同一个子阶段内部以及同一父阶段内的子阶段之间能够并行执行。
但是,这种方法系统处理的目标是任务分发管理,任务之间有依赖关系,使用单机多线程技术进行实现,技术效果有一定的局限性,当数据规模超大时候,内存和带宽的限制将制约任务的执行。
中国专利“一种基于Hadoop的数据处理方法及其系统”(CN201210448379.3)一种基于Hadoop的数据处理方法及其系统,用于数据服务器和MAP程序所在的集群数据服务器之间进行数据交互,包括:步骤S1、当数据服务器收到集群数据服务器的数据请求时,从所述数据请求中提取请求的需求字段同时将源数据转化为KEY/VALUE格式;步骤S2、所述数据服务器从转换为KEY/VALUE格式的数据中提取所述需求字段对应的数据,将所述需求字段对应的数据发送给所述集群数据服务器;步骤S3、当所述集群数据服务器接收到所述需求字段对应的数据时,根据预设的配置信息对所述需求字段对应的数据进行适配识别并进行下一步运算。
但是,这种方法数据是被筛选后再进行交互的,数据不需要顺序编号,当数据规模超大时候,内存和带宽的限制将制约任务的执行。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于hadoop系统的数据处理和分发方法,其在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。
本发明的技术方案是:这种基于hadoop系统的数据处理和分发方法,其包括以下步骤:
(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;
(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。
本发明通过将海量数据进行多任务顺序编号,进行海量数据的多任务并发传输,从而在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。
还提供了一种基于hadoop系统的数据处理和分发系统,该系统包括:
编号模块,其配置来将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;
并发传输模块,其配置来进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。
附图说明
图1所示为根据本发明的基于hadoop系统的数据处理和分发方法的流程图。
具体实施方式
如图1所示,这种基于hadoop系统的数据处理和分发方法,其包括以下步骤:
(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;
(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。
本发明通过将海量数据进行多任务顺序编号,进行海量数据的多任务并发传输,从而在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。
另外,所述步骤(1)包括以下分步骤:
(1.1)启动多个任务各自处理一部分数据,完成部分编号,并记录最大值;
(1.2)在部分编号的基础上,扫描各任务的编号数据,并加上前一个任务的最大值,输出数据,得到各个数据的唯一编号。
另外,所述步骤(2)中传输时使用http协议、https协议、或ftp协议。
另外,在执行所述步骤(1)之前,准备超大规模的数据源;配置好各个参数,包括顺序编号的hdfs存储路径、mapreduce的reduce数目、每传输n条数据任务就休息m毫秒,远程传输协议和地址。
另外,该方法使用java编写mapreduce代码,从而实现本发明的步骤(1)、(2)的两部分任务的分布式工作。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于hadoop系统的数据处理和分发系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。该系统包括:
编号模块,其配置来将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;
并发传输模块,其配置来进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。
本发明的有益效果如下:
1.没有内存和带宽瓶颈;
2.实现多任务并发传输;
3.抗负载能力提高。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (6)
1.一种基于hadoop系统的数据处理和分发方法,其特征在于:其包括以下步骤:
(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;
(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。
2.根据权利要求1所述的基于hadoop系统的数据处理和分发方法,其特征在于:所述步骤(1)包括以下分步骤:
(1.1)启动多个任务各自处理一部分数据,完成部分编号,并记录最大值;
(1.2)在部分编号的基础上,扫描各任务的编号数据,并加上前一个任务的最大值,输出数据,得到各个数据的唯一编号。
3.根据权利要求2所述的基于hadoop系统的数据处理和分发方法,其特征在于:所述步骤(2)中传输时使用http协议、https协议、或ftp协议。
4.根据权利要求1所述的基于hadoop系统的数据处理和分发方法,其特征在于:在执行所述步骤(1)之前,准备超大规模的数据源;配置好各个参数,包括顺序编号的hdfs存储路径、mapreduce的reduce数目、每传输n条数据任务就休息m毫秒,远程传输协议和地址。
5.根据权利要求4所述的基于hadoop系统的数据处理和分发方法,其特征在于:该方法使用java编写mapreduce代码。
6.一种基于hadoop系统的数据处理和分发系统,其特征在于:该系统包括:
编号模块,其配置来将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;
并发传输模块,其配置来进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685232.4A CN106293923A (zh) | 2016-08-18 | 2016-08-18 | 一种基于hadoop系统的数据处理和分发方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685232.4A CN106293923A (zh) | 2016-08-18 | 2016-08-18 | 一种基于hadoop系统的数据处理和分发方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106293923A true CN106293923A (zh) | 2017-01-04 |
Family
ID=57678569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610685232.4A Pending CN106293923A (zh) | 2016-08-18 | 2016-08-18 | 一种基于hadoop系统的数据处理和分发方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106293923A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522138A (zh) * | 2018-11-14 | 2019-03-26 | 北京中电普华信息技术有限公司 | 一种分布式流数据的处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751397A (zh) * | 2008-12-04 | 2010-06-23 | 中国移动通信集团安徽有限公司 | 一种将文件导入数据库的方法及装置 |
CN103312732A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 数据文件的传输方法及装置 |
US20150039936A1 (en) * | 2013-07-31 | 2015-02-05 | Cleversafe, Inc. | Distributed storage network with alternative foster storage approaches and methods for use therewith |
CN104901783A (zh) * | 2014-03-06 | 2015-09-09 | 携程计算机技术(上海)有限公司 | 数据传输方法及服务器系统 |
CN105468756A (zh) * | 2015-11-30 | 2016-04-06 | 浪潮集团有限公司 | 一种海量数据处理系统的设计和实现方法 |
-
2016
- 2016-08-18 CN CN201610685232.4A patent/CN106293923A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751397A (zh) * | 2008-12-04 | 2010-06-23 | 中国移动通信集团安徽有限公司 | 一种将文件导入数据库的方法及装置 |
CN103312732A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 数据文件的传输方法及装置 |
US20150039936A1 (en) * | 2013-07-31 | 2015-02-05 | Cleversafe, Inc. | Distributed storage network with alternative foster storage approaches and methods for use therewith |
CN104901783A (zh) * | 2014-03-06 | 2015-09-09 | 携程计算机技术(上海)有限公司 | 数据传输方法及服务器系统 |
CN105468756A (zh) * | 2015-11-30 | 2016-04-06 | 浪潮集团有限公司 | 一种海量数据处理系统的设计和实现方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522138A (zh) * | 2018-11-14 | 2019-03-26 | 北京中电普华信息技术有限公司 | 一种分布式流数据的处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783229B (zh) | 线程资源分配的方法及装置 | |
CN108595157B (zh) | 区块链数据的处理方法、装置、设备和存储介质 | |
CN107015853B (zh) | 多阶段任务的实现方法和装置 | |
US10133797B1 (en) | Distributed heterogeneous system for data warehouse management | |
CN106712981B (zh) | 一种节点变更通知方法及装置 | |
US11086657B2 (en) | Method and system for scheduling transactions in a data system | |
CN105677469A (zh) | 定时任务执行方法及装置 | |
RU2749339C1 (ru) | Способ управления оборудованием, кластерная система, электронное устройство и читаемый носитель данных | |
CN108280150A (zh) | 一种分布式异步业务分发方法及系统 | |
CN112732227B (zh) | 一种工作流引擎及其配置方法、装置 | |
CN101197812A (zh) | 一种实现页面调用的系统及方法 | |
CN107623731A (zh) | 一种任务调度方法、客户端、服务集群及系统 | |
CN112905339B (zh) | 任务调度执行方法、装置及系统 | |
CN110515833A (zh) | 一种软件测试的方法、设备及可读介质 | |
CN106021512A (zh) | 一种页面刷新方法及装置 | |
CN109298937A (zh) | 文件解析方法及网络设备 | |
CN106155794A (zh) | 一种应用于多线程系统中的事件分配方法及装置 | |
CN115373822A (zh) | 任务调度方法、任务处理方法、装置、电子设备和介质 | |
JP6069503B2 (ja) | 系列データ並列分析基盤およびその並列分散処理方法 | |
CN103778005A (zh) | 自动化任务分配方法和装置 | |
CN106384292A (zh) | 社交网络用户关系采集系统及方法 | |
CN106293923A (zh) | 一种基于hadoop系统的数据处理和分发方法和系统 | |
WO2019029721A1 (zh) | 任务的调度方法、装置、设备及存储介质 | |
CN113377817A (zh) | 数据处理方法、系统、设备及存储介质 | |
WO2016197858A1 (zh) | 一种消息通知方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |