CN115809068A - 基于MapReduce的大数据处理方法及系统 - Google Patents

基于MapReduce的大数据处理方法及系统 Download PDF

Info

Publication number
CN115809068A
CN115809068A CN202211658521.7A CN202211658521A CN115809068A CN 115809068 A CN115809068 A CN 115809068A CN 202211658521 A CN202211658521 A CN 202211658521A CN 115809068 A CN115809068 A CN 115809068A
Authority
CN
China
Prior art keywords
mapreduce
code
java
codes
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211658521.7A
Other languages
English (en)
Inventor
王宏志
穆添愉
邵心玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211658521.7A priority Critical patent/CN115809068A/zh
Publication of CN115809068A publication Critical patent/CN115809068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Devices For Executing Special Programs (AREA)

Abstract

基于MapReduce的大数据处理方法及系统,解决了现有大数据处理框架对于迭代逻辑的实现效果差的问题,属于计算机领域。本发明包括:输入java代码,将java代码分成java代码段并转换为MapReduce代码,判断每个代码段是否为迭代逻辑,若是,利用全新API函数进行编译,全新API函数为:主节点申请缓存空间,用来存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引,主节点新建一个job控制模块,用于不断的启用map‑reduce过程来实现MapReduce代码的迭代逻辑,并根据索引从缓存空间中取出需要的数据;若否,利用已有大数据框架的API进行编译MapReduce代码,两种情况编译后的额执行结果作为下一个代码段的输入。

Description

基于MapReduce的大数据处理方法及系统
技术领域
本发明涉及一种基于MapReduce的大数据处理方法,属于计算机领域。
背景技术
MapReduce是一种用于大规模数据集并行计算的编程模型,借助于函数式程序设计语言思想,用Map和Reduce两个函数编程实现并行计算任务,具有多种高效的实现方式。所有这些实现都向开发人员公开了应用程序编程接口(API),虽然具体语法在不同的API之间略有不同,但它们都需要理解已有代码功能并能重写Map和Reduce函数计算,以实现MapReduce框架的优化。对于不熟悉MapReduce程序的开发人员来说,亟需学习不同API并且在保证无误的条件下重写代码和算法重构,这无疑具有不小的难度。
(1)现有的大数据处理框架(例如Hadoop,Spark),都是要求程序员首先了解其API,然后利用这些API编写MapReduce代码,这对于刚刚上手的程序员需要学习的时间很长,往往在工作时没有这么长的时间周期。
(2)现有的大数据处理框架对于迭代逻辑的实现效果很差,常见的大数据处理框架例如Hadoop不支持迭代,Spark为了相对减少一些处理迭代时候的I/O读取,根据数据库建立弹性数据集RDD(可以理解为一个小数据库,只能读,一般建立在内存中),RDD的建立是需要经验的,要人为的去判断哪些数据可能会频繁读取,依靠人为经验建立的RDD有些时候会显著提升效率,但是有些时候,如果RDD中的数据没有频繁被调用,反而对最后的效果没有太大帮助,并且,RDD需要定期更新,因为建立RDD所依赖的数据库是中的数据是会变化的,所以RDD只是较为特殊的情况下才能很高的提升迭代效率,以上导致目前基于MapReduce的迭代逻辑几乎不能进行处理,因为迭代逻辑本身的特性是有很多数据会进行重复的利用,势必要造成I/O读写次数极多,十分耗费时间,效率很低,即使有像Spark针对于I/O进行了优化,但是不保证效果一定很好,甚至有些时候利用Spark处理迭代,效果还不如利用Hadoop手动编排mapper和reducer实现迭代的效果好。
发明内容
针对现有大数据处理框架对于迭代逻辑的实现效果差的问题,本发明提供一种基于MapReduce的大数据处理方法及系统。
本发明提供一种基于MapReduce的大数据处理方法,包括
S1、输入java代码,将java代码分成java代码段;
S2、按照java代码段的执行顺序,取出java代码段,判断取出的每个java代码段是否为迭代逻辑,所述java代码段若是迭代逻辑,将java代码段转换为MapReduce代码,利用全新API函数进行编译,得到执行结果,所述全新API函数为:
主节点新建一个job控制模块,该job控制模块不断的启用map-reduce过程来实现MapReduce代码的迭代逻辑,用户定义循环不变量,主节点申请缓存空间,用来存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引,job控制模块进行多个map-reduce过程中,根据索引从缓存空间中取出需要的数据;
当迭代满足终止条件,结束迭代,获得MapReduce代码的执行结果,作为下一个代码段的输入;
所述java代码段若不是迭代逻辑,将java代码段转换为MapReduce代码,利用已有大数据框架的API进行编译该MapReduce代码,获得的执行结果作为下一个代码段的输入。
作为优选,将java代码段转换为MapReduce代码的方法,包括:
将java代码段转换为中间代码,并将中间代码进行摘要,搜索与摘要相类似表述的API函数,利用API函数将摘要转换成MapReduce码。
作为优选,将java代码段转换为MapReduce代码的方法,还包括:
将Java代码段和转换的MapReduce码进行编译获得结果,如果结果相同,证明MapReduce代码转换成功,否则,更换API函数,重新将摘要转换成MapReduce码。
作为优选,已有大数据框架包括Hadoop和Spark。
作为优选,迭代终止条件为两次迭代结果相等,或者当前迭代次数达到最大迭代次数。
本发明还提供一种基于MapReduce的大数据处理系统,包括:
拆分模块,用于输入java代码,将java代码分成java代码段,按照java代码段的执行顺序,取出java代码段;
处理模块,用于判断取出的每个java代码段是否为迭代逻辑,所述java代码段若是迭代逻辑,将java代码段转换为MapReduce代码,利用全新应用程序编程接口模块进行编译,得到执行结果,当迭代满足终止条件,结束迭代,获得MapReduce代码的执行结果,作为下一个代码段的输入;所述java代码段若不是迭代逻辑,将java代码段转换为MapReduce代码,利用已有MapReduce模块进行编译该MapReduce代码,获得的执行结果作为下一个代码段的输入;
全新应用程序编程接口模块包括job控制模块和缓存模块;
job控制模块,用于不断的启用map-reduce过程来实现MapReduce代码的迭代逻辑,获得执行结果;
缓存模块,与job控制模块连接,用于存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引;job控制模块在进行多个map-reduce过程中,根据索引从缓存空间中取出需要的数据。
作为优选,所述处理模块采用编译器将java代码段转换为MapReduce代码,所述编译器用于将java代码段转换为中间代码,并将中间代码进行摘要,搜索与摘要相类似表述的应用程序编程接口模块,利用该应用程序编程接口模块将摘要转换成MapReduce码。
作为优选,所述编译器,还用于将Java代码段和转换的MapReduce码进行编译获得结果,如果结果相同,证明MapReduce代码转换成功,否则,更换应用程序编程接口模块,重新将摘要转换成MapReduce码。
作为优选,所述MapReduce模块为基于Hadoop的MapReduce模块或基于Spark的MapReduce模块。
本发明的有益效果,本发明适用于处理需要迭代计算的MapReduce程序编译,通过添加缓存功能,缓存中间结果及循环不变量,减少了I/O次数,节省了时间,避免了在多次迭代中处理相同数据造成的资源浪费的问题。同时,本框架重新规定了迭代逻辑的执行方法,执行效率更高。同时,该框架不需要程序员熟悉MapReduce相关的API,只需要编写Java代码即可,方便入门。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本实施方式的基于MapReduce的大数据处理方法,包括:
步骤1、输入java代码,将java代码分成java代码段;
(1)代码第一行为一个代码段的首代码;
(2)紧跟在条件跳转语句的后一句为代码段的首代码;
例如:
If(…)
{A}
Else
{B}
这里A和B的第一行代码就是代码段的首代码;
(3)跳转语句的目标语句为代码段的首代码,例如:
Int a=0;
String M=“”;
Label:int size=M.length();
Char x=‘a’;
For(a;a<10;++a){
M+=a.toString();
Continue Label;
}
这里label就是一个首代码;
然后每个代码段对应的代码就是从首代码开始,到下一条首代码之前一句代码为止之间的所有代码;
这样,将java代码分为一个个代码段;
步骤2、按照java代码段的执行顺序,取出java代码段,判断取出的每个java代码段是否为迭代逻辑,所述java代码段若是迭代逻辑,将java代码段转换为MapReduce代码,利用全新API函数进行编译,得到执行结果,
全新API函数至少包括以下功能:申请新的缓存空间,建立新的控制模块,缓存中间结果、缓存循环不变量、新的控制模块重启;
所述全新API函数为:
主节点新建一个job控制模块,该job控制模块不断的启用map-reduce过程来实现MapReduce代码的迭代逻辑;这样,相当于一个job控制模块中有多个map-reduce对,十分高效,传统方法是建立多个job控制模块,每个job控制模块对应一个map-reduce对,job控制模块之间进行数据通讯,I/O多,效率低;
用户定义循环不变量,用户指定哪些数据是不变的,哪些数据是会发生变化的,主节点申请缓存空间,用来存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引,便于重复使用数据;job控制模块进行多个map-reduce过程中,根据索引从缓存空间中取出需要的数据;这里相比较于spark来说,可缓存的数据更灵活,不用像RDD一样只能读,并且对于每一轮迭代mapper之间的数据通信在一个job中,根本上解决I/O多的问题。进行map-reduce过程,一个job控制模块中可以进行多个map-reduce过程,其中需要访问的数据都是从缓存中读取的,可以是缓存的之前reducer的输出,也可以是循环不变量等等,这样减少I/O,效率更高,中间数据的比较也更方便。
当迭代满足终止条件,结束迭代,获得MapReduce代码的执行结果,作为下一个代码段的输入;
所述java代码段若不是迭代逻辑,将java代码段转换为MapReduce代码,利用已有大数据框架的API进行编译该MapReduce代码,获得的执行结果作为下一个代码段的输入。
和现有的大数据处理框架不同的是,本实施方式可以直接以java代码为输入,而不用编写MapReduce代码,本实施方式可以将java代码转化为同逻辑的MapReduce代码,后续用现有的大数据处理框架(以MapReduce代码为输入)进行处理。本实施方式针对于迭代逻辑,进行了特殊优化,设计了一套新的API,专门用于处理迭代逻辑,减少I/O次数,效率更高效。
本实施方式中,迭代终止情况的判断,可以是比较两次迭代是否相等,如果相等,自动结束迭代,如果用户有输入最大迭代次数,那么就按照最大迭代次数来判断终止条件。
本实施方式中,将java代码段转换为MapReduce代码的方法,包括:
将java代码段转换为中间代码,并将中间代码进行摘要,这里摘要就是指将中间代码进行进一步概括提取,搜索与摘要相类似表述的API函数,利用API函数将摘要转换成MapReduce码。
本实施方式在每一步转换完,设置检查程序,也就是设置输入,Java代码编译一遍,再调用转换后的MapReduce代码编译一遍,获得结果,如果结果相同,证明MapReduce代码转换成功,否则,更换API函数,一个摘要对应的API函数可能有很多种,一种不对,那么就试另一种,重新将摘要转换成MapReduce码。
针对java代码段若不是迭代逻辑,可以采用不同的框架来进行处理,例如Hadoop,Spark等,只要获取到输出作为执行后续代码段的输入即可。
本实施方式还包括一种基于MapReduce的大数据处理系统,包括:
拆分模块,用于输入java代码,将java代码分成java代码段,按照java代码段的执行顺序,取出java代码段;
处理模块,用于判断取出的每个java代码段是否为迭代逻辑,所述java代码段若是迭代逻辑,将java代码段转换为MapReduce代码,利用全新应用程序编程接口模块进行编译,得到执行结果,当迭代满足终止条件,结束迭代,获得MapReduce代码的执行结果,作为下一个代码段的输入;所述java代码段若不是迭代逻辑,将java代码段转换为MapReduce代码,利用已有MapReduce模块进行编译该MapReduce代码,获得的执行结果作为下一个代码段的输入;
全新应用程序编程接口模块包括job控制模块和缓存模块;
job控制模块,用于不断的启用map-reduce过程来实现MapReduce代码的迭代逻辑,获得执行结果;
缓存模块,与job控制模块连接,用于存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引;job控制模块在进行多个map-reduce过程中,根据索引从缓存空间中取出需要的数据。
本实施方式中,处理模块采用编译器将java代码段转换为MapReduce代码,所述编译器用于将java代码段转换为中间代码,并将中间代码进行摘要,搜索与摘要相类似表述的应用程序编程接口模块,利用该应用程序编程接口模块将摘要转换成MapReduce码。
本实施方式中,编译器,还用于将Java代码段和转换的MapReduce码进行编译获得结果,如果结果相同,证明MapReduce代码转换成功,否则,更换应用程序编程接口模块,重新将摘要转换成MapReduce码。
本实施方式中,所述MapReduce模块为基于Hadoop的MapReduce模块或基于Spark的MapReduce模块。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (10)

1.一种基于MapReduce的大数据处理方法,其特征在于,包括:
S1、输入java代码,将java代码分成java代码段;
S2、按照java代码段的执行顺序,取出java代码段,判断取出的每个java代码段是否为迭代逻辑,所述java代码段若是迭代逻辑,将java代码段转换为MapReduce代码,利用全新API函数进行编译,得到执行结果,所述全新API函数为:
主节点新建一个job控制模块,该job控制模块不断的启用map-reduce过程来实现MapReduce代码的迭代逻辑,用户定义循环不变量,主节点申请缓存空间,用来存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引,job控制模块进行多个map-reduce过程中,根据索引从缓存空间中取出需要的数据;
当迭代满足终止条件,结束迭代,获得MapReduce代码的执行结果,作为下一个代码段的输入;
所述java代码段若不是迭代逻辑,将java代码段转换为MapReduce代码,利用已有大数据框架的API进行编译该MapReduce代码,获得的执行结果作为下一个代码段的输入。
2.根据权利要求1所述的基于MapReduce的大数据处理方法及系统,其特征在于,将java代码段转换为MapReduce代码的方法,包括:
将java代码段转换为中间代码,并将中间代码进行摘要,搜索与摘要相类似表述的API函数,利用API函数将摘要转换成MapReduce码。
3.根据权利要求2所述的基于MapReduce的大数据处理方法及系统,其特征在于,将java代码段转换为MapReduce代码的方法,还包括:
将Java代码段和转换的MapReduce码进行编译获得结果,如果结果相同,证明MapReduce代码转换成功,否则,更换API函数,重新将摘要转换成MapReduce码。
4.根据权利要求1所述的基于MapReduce的大数据处理方法及系统,其特征在于,已有大数据框架包括Hadoop和Spark。
5.根据权利要求1所述的基于MapReduce的大数据处理方法及系统,其特征在于,迭代终止条件为两次迭代结果相等,或者当前迭代次数达到最大迭代次数。
6.根据权利要求1所述的基于MapReduce的大数据处理方法及系统,其特征在于,每个java代码段是从首代码开始到下一条首代码之前一句代码为止之间的所有代码;
所述首代码包括代码第一行、紧跟在条件跳转语句的后一句和跳转语句的目标语句三种。
7.一种基于MapReduce的大数据处理系统,其特征在于,包括:
拆分模块,用于输入java代码,将java代码分成java代码段,按照java代码段的执行顺序,取出java代码段;
处理模块,用于判断取出的每个java代码段是否为迭代逻辑,所述java代码段若是迭代逻辑,将java代码段转换为MapReduce代码,利用全新应用程序编程接口模块进行编译,得到执行结果,当迭代满足终止条件,结束迭代,获得MapReduce代码的执行结果,作为下一个代码段的输入;所述java代码段若不是迭代逻辑,将java代码段转换为MapReduce代码,利用已有MapReduce模块进行编译该MapReduce代码,获得的执行结果作为下一个代码段的输入;
全新应用程序编程接口模块包括job控制模块和缓存模块;
job控制模块,用于不断的启用map-reduce过程来实现MapReduce代码的迭代逻辑,获得执行结果;
缓存模块,与job控制模块连接,用于存储用户定义的循环不变量及每次mapper和reducer的输入输出缓存,并建立索引;job控制模块在进行多个map-reduce过程中,根据索引从缓存空间中取出需要的数据。
8.根据权利要求7所述的基于MapReduce的大数据处理系统,其特征在于,所述处理模块采用编译器将java代码段转换为MapReduce代码,所述编译器用于将java代码段转换为中间代码,并将中间代码进行摘要,搜索与摘要相类似表述的应用程序编程接口模块,利用该应用程序编程接口模块将摘要转换成MapReduce码。
9.根据权利要求8所述的基于MapReduce的大数据处理系统,其特征在于,所述编译器,还用于将Java代码段和转换的MapReduce码进行编译获得结果,如果结果相同,证明MapReduce代码转换成功,否则,更换应用程序编程接口模块,重新将摘要转换成MapReduce码。
10.根据权利要求7所述的基于MapReduce的大数据处理方法及系统,其特征在于,所述MapReduce模块为基于Hadoop的MapReduce模块或基于Spark的MapReduce模块。
CN202211658521.7A 2022-12-22 2022-12-22 基于MapReduce的大数据处理方法及系统 Pending CN115809068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211658521.7A CN115809068A (zh) 2022-12-22 2022-12-22 基于MapReduce的大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211658521.7A CN115809068A (zh) 2022-12-22 2022-12-22 基于MapReduce的大数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN115809068A true CN115809068A (zh) 2023-03-17

Family

ID=85486549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211658521.7A Pending CN115809068A (zh) 2022-12-22 2022-12-22 基于MapReduce的大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN115809068A (zh)

Similar Documents

Publication Publication Date Title
CN107844294B (zh) 一种高可用的合约执行方法及系统
US8762969B2 (en) Immutable parsing
US20210064619A1 (en) First futamura projection in the context of sql expression evaluation
WO2015078139A1 (zh) 移植方法及源到源编译器
CN108197027B (zh) 软件性能优化方法、可存储介质、计算机、计算机程序
JP7344259B2 (ja) 深層学習フレームワークにおけるパターン変換方法、装置、電子デバイス、コンピューター記憶媒体およびコンピュータープログラム製品
US20220172044A1 (en) Method, electronic device, and computer program product for deploying machine learning model
Ahmad et al. Leveraging parallel data processing frameworks with verified lifting
US20230186024A1 (en) Text Processing Method, Device and Storage Medium
US20170168787A1 (en) Optimized compiling of a template function
US11847436B2 (en) Machine learning (ML) model-based compiler
CN117472388B (zh) 一种优化程序性能的方法、系统及相关设备
US20200242207A1 (en) Tracking references to information storage resources in a quantum circuit
EP4113284A1 (en) Cross-platform code conversion method and device
JP4768984B2 (ja) コンパイル方法、コンパイルプログラムおよびコンパイル装置
US20100023924A1 (en) Non-constant data encoding for table-driven systems
CN115809068A (zh) 基于MapReduce的大数据处理方法及系统
CN115129320B (zh) 一种基于循环不变式的间接跳转目标地址识别方法及装置
CN109710419B (zh) 基于文本分析的mpi代码通信过程解析方法
US10592264B2 (en) Runtime optimization of arithmetic expressions with decimal numbers
CN102360306A (zh) 高级语言代码中循环数据流图提取优化信息处理方法
CN113031952A (zh) 深度学习模型的执行代码的确定方法、装置及存储介质
CN112860233A (zh) 目标语法树的生成方法以及相关设备
Yang et al. A function level Java code clone detection method
CN116560667B (zh) 一种基于预编译延迟执行的拆分调度系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination