CN109992372A - 一种基于映射归约的数据处理方法及装置 - Google Patents

一种基于映射归约的数据处理方法及装置 Download PDF

Info

Publication number
CN109992372A
CN109992372A CN201711485100.8A CN201711485100A CN109992372A CN 109992372 A CN109992372 A CN 109992372A CN 201711485100 A CN201711485100 A CN 201711485100A CN 109992372 A CN109992372 A CN 109992372A
Authority
CN
China
Prior art keywords
intermediate result
result set
link field
reduce node
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711485100.8A
Other languages
English (en)
Inventor
王晓春
马军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shanxi Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711485100.8A priority Critical patent/CN109992372A/zh
Publication of CN109992372A publication Critical patent/CN109992372A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Abstract

本申请涉及云计算技术领域,尤其涉及一种基于映射归约的数据处理方法及装置,用以解决现有技术中MapReduce框架在对多路数据集进行连接时存在着连接效率比较低的问题;本申请实施例提供的基于映射归约的数据处理方法包括:接收多路数据集和连接字段信息,对每一路数据集执行映射操作得到多个中间结果集,根据为各连接字段设置的分区函数,确定每一中间结果集对应的至少一个Reduce节点,将中间结果集发送给确定出的每一个Reduce节点,对各Reduce节点中的中间结果集进行汇总,得到多路数据集中满足所有连接字段的数据集,这里,每一个中间结果集都发送给了可能需要自己的Reduce节点,不必对中间结果集再进行反复地读取和传送的操作,能够节省磁盘IO开销、降低网络通信代价。

Description

一种基于映射归约的数据处理方法及装置
技术领域
本申请涉及云计算技术领域,尤其涉及一种基于映射归约的数据处理方法及装置。
背景技术
在云计算技术领域,MapReduce(映射归约)是一种重要的计算框架,它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
但通过对传统MapReduce框架下多路数据集的关联方法进行分析,发明人发现其存在以下两个方面的问题:
(1)每一次MapReduce任务完成两个数据集的连接后,都要先将得到的中间结果集写入Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)中,再由下个MapReduce任务从HDFS中重新读取,这样,当需要连接的数据集较多或者中间结果集的数据量很大时,则会带来巨大的磁盘I/O开销。
(2)前一个MapReduce任务得到的中间结果集会作为下一个MapReduce任务的输入项,经mapper处理后经网络再传输到reducer,这样,中间结果集会随着MapReduce任务个数的递增而不断地增大,进而带来巨大的网络通信代价。
举例说明,三个数据集的连接任务为R∞S∞T,基于MapReduce编程框架系统将该任务分解为三个顺序连接的MapReduce子任务,如图1所示,三路连接被转化为两个二路连接,具体地:
第一个子任务将R和S连接,此过程包括Map和Reduce操作,得到的中间结果集U输出到HDFS中;
第二个子任务从HDFS中读取U与T连接,此过程又包括Map和Reduce操作,得到的中间结果集V输出到HDFS中;
第三个子任务读取HDFS中的两个中间结果集U和V进行合并,将合并后的结果再写入HDFS中。
由此可见,在多数据集连接处理任务当中,如果连接条件中含有两个或者两个以上不同的连接字段时,MapReduce框架处理数据集的效率将会非常低。
发明内容
本申请实施例提供一种基于映射归约的数据处理方法及装置,用以解决现有技术中MapReduce框架在对多路数据集进行连接时存在着连接效率比较低的问题。
本申请实施例提供的一种基于映射归约的数据处理方法,包括:
接收多路数据集和对所述多路数据集进行关联查询的连接字段信息;
对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给所述至少一个Reduce节点中的每一个Reduce节点;
对各Reduce节点中的中间结果集进行汇总,得到所述多路数据集中满足所有连接字段的数据集。
本申请实施例提供的一种基于映射归约的数据处理装置,包括:
接收模块,用于接收多路数据集和对所述多路数据集进行关联查询的连接字段信息;
发送模块,用于对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给所述至少一个Reduce节点中的每一个Reduce节点;
汇总模块,用于对各Reduce节点中的中间结果集进行汇总,得到所述多路数据集中满足所有连接字段的数据集.
本申请实施例提供的一种电子设备,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述电子设备执行上述基于映射归约的数据处理方法的步骤。
本申请实施例提供的一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,使所述电子设备执行上述基于映射归约的数据处理方法的步骤。
本申请实施例中,接收多路数据集和对这多路数据集进行关联查询的连接字段信息,之后,对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给确定出的每一个Reduce节点,最后对各Reduce节点中的中间结果集进行汇总,得到这多路数据集中满足所有连接字段的数据集,其中,每一中间结果集都对应至少一个Reduce节点,这至少一个Reduce节点中的每一个Reduce节点都有可能需要该中间结果集,因此,将该中间结果集发送给确定出每一个Reduce节点,可以节省后续对中间结果集进行反复地读取和传送的操作,进而节省磁盘的IO开销、降低网络通信代价,并且,本申请实施例中在一次MapReduce任务中可以完成多路数据集的连接任务,因此还可以显著提升MapReduce的作业效率。
附图说明
图1为现有技术中基于MapReduce编程框架对三路数据集进行连接的示意图;
图2为本申请实施例提供的基于映射归约的数据处理方法流程图;
图3为本申请实施例提供的对三路数据集进行处理的示意图;
图4为本申请实施例提供的又一对三路数据集进行处理的示意图;
图5为本申请实施例提供的基于映射归约的数据处理装置结构图;
图6为本申请实施例提供的用于实现基于映射归约的数据处理方法的电子设备的硬件结构示意图。
具体实施方式
本申请实施例中,接收多路数据集和对这多路数据集进行关联查询的连接字段信息,之后,对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给确定出的每一个Reduce节点,最后对各Reduce节点中的中间结果集进行汇总,得到这多路数据集中满足所有连接字段的数据集,其中,每一中间结果集都对应至少一个Reduce节点,这至少一个Reduce节点中的每一个Reduce节点都有可能需要该中间结果集,因此,将该中间结果集发送给确定出每一个Reduce节点,可以节省后续对中间结果集进行反复地读取和传送的操作,进而节省磁盘的IO开销、降低网络通信代价,并且,本申请实施例中在一次MapReduce任务中可以完成多路数据集的连接任务,因此还可以显著提升MapReduce的作业效率。
下面结合说明书附图对本申请实施例作进一步详细描述。
实施例一
如图2所示,为本申请实施例提供的基于映射归约的数据处理方法流程图,包括以下步骤:
S201:接收多路数据集和对这多路数据集进行关联查询的连接字段信息。
这里,多路数据集如R、S、T等,进行关联查询时的连接字段如年龄、姓名等。
S202:对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给确定出的每一个Reduce节点。
在具体实施过程中,执行映射操作得到多个中间结果集均为键值(key-value)对,因此,对每一中间结果集,可以将该中间结果集代入为每一连接字段设置的分区函数,得到该中间结果集对应的分区函数值,然后根据该中间结果集对应的各分区函数值确定其对应的至少一个分区编号,进一步地,根据预先设置的分区编号与Reduce节点之间的对应关系,确定该中间结果集对应的至少一个Reduce节点,这里,确定出的每一个Reduce节点在后续的Reduce阶段都有可能需要该中间结果集,为了避免后续对中间结果集的反复读取和传输,这里将该中间结果集发送给可能需要该中间结果集的每一个Reduce节点。
其中,对每一中间结果集,分区函数用于确定可能需要该中间结果集的Reduce节点,分区函数的个数等于连接字段的个数,并且,各分区函数的取值个数的乘积等于Reduce节点的总个数。
可选地,假设连接字段为m个,则为m个连接字段中第k个连接字段设置的分区函数Hk(x)可以为:
Hk(x)=hk(x)mod nk
其中,x为中间结果集中连接字段的取值,hk(x)为对x求的哈希值,nk为对中间结果集进行分区所选择的哈希值。
由上述公式可知,Hk(x)的取值范围为0~nk-1,即Hk(x)的取值个数为nk,这里,每一连接字段对应的分区函数的取值个数不是任意的,而是必须满足各分区函数的取值个数的乘积等于Reduce节点的总个数。
并且,每一中间结果集对应的分区编号是按照指定顺序对H1(x)…Hk(x)…Hn(x)的取值进行组合得到的,其中,n为分区函数的个数,等于连接字段的个数m。
比如,可以按照<H1(x)…Hk(x)…Hn(x)>的顺序确定每一中间结果集对应的分区编号。
特别地,当某中间结果集中不包含第k个连接字段时,对该中间结果集求取的分区函数Hk(x)的取值为nk种,依次为0,1,2…nk-1
假设除了Hk(x),其它分区函数都只有一种取值,则根据<H1(x)…Hk(x)…Hn(x)>的顺序确定中间结果集对应的分区编号时,中间结果集对应nk个分区编号,这nk个分区编号分别为:<H1(x)…0…Hn(x)>,<H1(x)…1…Hn(x)>…<H1(x)…nk-1…Hn(x)>。
进一步地,根据预先设置的分区编号与Reduce节点之间的对应关系,确定中间结果集对应的nk个可能需要该中间结果集的Reduce节点,将中间结果集分别发送给nk个Reduce节点中的每一个Reduce节点。
S203:对各Reduce节点中的中间结果集进行汇总,得到多路数据集中满足所有连接字段的数据集。
这里,因为每一Reduce节点中种包含有自己可能需要的所有中间结果集,因此,可以直接对各Reduce节点中的中间结果集进行汇总,进而得到多路数据集中满足所有连接字段的数据集。在此过程中,不再存在从其它MapReduce任务中读取中间结果集的问题,并且能够在一次MapReduce任务中快速地完成对多路数据集的连接,显著提高MapReduce的作业效率。
本申请实施例中,接收多路数据集和对这多路数据集进行关联查询的连接字段信息,之后,对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给确定出的每一个Reduce节点,最后对各Reduce节点中的中间结果集进行汇总,得到这多路数据集中满足所有连接字段的数据集,其中,每一中间结果集都对应至少一个Reduce节点,这至少一个Reduce节点中的每一个Reduce节点都有可能需要该中间结果集,因此,将该中间结果集发送给确定出每一个Reduce节点,可以节省后续对中间结果集进行反复地读取和传送的操作,进而节省磁盘的IO开销、降低网络通信代价,并且,本申请实施例中在一次MapReduce任务中可以完成多路数据集的连接任务,因此还可以显著提升MapReduce的作业效率。
实施例二
为了解决传统MapReduce框架在实现多路数据集的连接时存在的磁盘I/O开销大和网络通信代价大的问题,本申请实施例对现有MapReduce框架中的分区函数接口进行改造,改造后一个MapReduce任务可以完成多数据集的连接任务,并且满足所有连接字段的中间结果集都发送到同一个Reduce节点中,以节省IO开销和网络资源,算法效率显著提升。
本申请实施例的基本思想是:在利用MapReduce框架进行多路数据集的连接时,可以将多路数据集中满足连接条件的中间结果集都能发送到同一个Reduce节点中进行连接处理,而不需要再将这多路数据集的连接任务进行拆分处理。
具体地,使用“一对多分区”策略改进的MapReduce框架在执行表 的连接过程如图3所示,开始时,将对RST三个表的连接任务提交给MapReduce框架,在Map阶段并行处理表RST中的数据:Mapper_R类中的map()方法处理来自表R中的数据,Mapper_S类中的map()方法处理来自表S中的数据,Mapper_T类中的map()方法处理来自表T中的数据;在Patition阶段,getPartition()方法对map()方法输出的键值对进行一对多分区;在Reduce阶段,Reducer对分到同一分区的数据执行连接操作,最后,Reducer将连接结果写入HDFS文件中,流程结束。
下面以三个表的连接为例,对上述过程进行说明。
当前MapReduce任务中存在两个不同的连接字段A和B,在将mapper的输出向reducer的定向过程中,可以定义两个分区函数<H1(x),H2(x)>对三个数据集进行分区,分区函数的结果为reduce的序号,这里,具有相同reduce序号代表将多个mapper的中间结果集合并到一起,即将满足R.a=S.a并且S.b=T.b的mapper结果分到同一个reduce任务当中进行合并处理。
其中,H1(x)=h1(x)mod n1,负责对字段R.a和S.a进行分区,x为表R和表S中字段A的取值,h1(x)代表对x求哈希值,n1代表对该key/value进行分区时选择的哈希桶值,且n1取值小于等于Reduce的任务数N。
类似地,H2(x)=h2(x)mod n2,负责对字段S.b和T.b进行分区,x为表S和表T中字段B的取值,h2(x)代表对x求哈希值,n2代表对该key/value进行分区时选择的哈希桶值,且n2取值小于等于Reduce的任务数N。
由上述公式可知,H1(x)的个数有n1个、且取值范围为0~n1-1,H2(x)的个数有n2个、且取值范围为0~n2-1,此时,<H1(x),H2(x)>存在(n1×n2)种不同组合,这里,哈希值n1和n2不是随便取的,而是必须满足:n1×n2=N。
在具体实施过程中,若<H1(x),H2(x)>每一种取值对应同一个Reduce节点,就可以将表R、S和T中满足A、B这两个连接字段的中间结果集都发送到同一个Reduce节点上,从而节省了等待中间结果集、从磁盘中读取中间结果集的时间,因此,可以节省IO开销和网络资源,提高MapReduce框架的计算效率。
下面结合具体的实施例对上述过程进行说明。
假设N=4,n1=2,n2=2,这里以最简单的情况h(x)=x,x表示连接字段的取值,对表R和表S而言连接字段就是A,对表S和表T而言连接字段就是B,那么<H1(x),H2(x)>存在<0,0>、<0,1>、<1,0>、<1,1>四种情况,每种情况代表一个reduce任务R0,R1,R2,R3。
如图4所示,假设<1,NULL>为R表中的键(key)值(value)对,可以理解为R表中的一行记录,其中,1为连接字段A的值,类似地,<1,(0,22.34)>为表S中的一个键值对,1为连接字段A的值,value中0为连接字段B的值,<0,’Data’>为表T中的值,0为连接字段B的值。
根据上面分析可知H1(x)=1,由于表R中不存在H2(x)对应的分区字段,这时需要考虑H2(x)所有可能的情况,因此,可以将键值对<1,NULL>同时发送到R2:<1,0>和R3:<1,1>中。类似地,表S输出的键值对<1,(0,22.34)>中S.a=1,S.b=0,得H1(x)=1,H2(x)=0,因此,键值对<1,(0,22.34)>只需发送给R2:<1,0>中,表T的输出<0,’Data’>被发送到R0:<0,0>和R2:<1,0>中。
也就是说,表R和表S只有一个共同的列,即第一列,表R中的一条记录<1,NULL>对应的h1(x)=1,对应h2(x)为字段B的所有可能,即h2(x)=0和h2(x)=1,所以<1,NULL>被同时分配到了Reduce<1,0>和<1,1>组当中。
以此类推,如果是M个数据集关联查询,当连接条件中包含有m个不同的字段,可以用m个分区函数:
H(x)=<H1(x),…Hm(x)>;
其中,每个分区函数Hi(x)=hi(x)mod ni,i∈{1,2…m},负责对一个字段进行分区,并且所有哈希值ni必须满足以下条件:
N为Reduce任务个数。
实施例三
基于同一发明构思,本申请实施例中还提供了一种与基于映射归约的数据处理方法对应的基于映射归约的数据处理装置,由于该装置解决问题的原理与本申请实施例基于映射归约的数据处理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,为本申请实施例提供的基于映射归约的数据处理装置结构图,包括:
接收模块501,用于接收多路数据集和对所述多路数据集进行关联查询的连接字段信息;
发送模块502,用于对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给所述至少一个Reduce节点中的每一个Reduce节点;
汇总模块503,用于对各Reduce节点中的中间结果集进行汇总,得到所述多路数据集中满足所有连接字段的数据集。
可选地,发送模块502具体用于:
将所述中间结果集代入为每一连接字段设置的分区函数,得到所述中间结果集对应的分区函数值;
根据所述中间结果集对应的各分区函数值,确定所述中间结果集对应的至少一个分区编号;
根据所述中间结果集对应的至少一个分区编号、以及预先设置的分区编号与Reduce节点之间的对应关系,确定所述中间结果集对应的至少一个Reduce节点;
其中,分区函数的个数等于连接字段的个数,且各分区函数的取值个数的乘积等于Reduce节点的总个数。
可选地,所述连接字段为m个,为m个连接字段中第k个连接字段设置的分区函数Hk(x)为:
Hk(x)=hk(x)mod nk
其中,x为中间结果集中所述连接字段的取值,hk(x)为对x求的哈希值,nk为对所述中间结果集进行分区所选择的哈希值。
可选地,当中间结果集中不包含第k个连接字段时,分区函数Hk(x)的取值为nk种,依次为0,1,2…nk-1
可选地,所述中间结果集对应的分区编号是按照指定顺序对H1(x)…Hk(x)…Hn(x)的取值进行组合得到的,其中,n为分区函数的个数。
实施例四
如图6所示,为本申请实施例提供的用于实现基于映射归约的数据处理方法的电子设备的硬件结构示意图,包括至少一个处理单元601、以及至少一个存储单元602,其中,存储单元存储有程序代码,当程序代码被所述处理单元执行时,使得电子设备执行上述基于映射归约的数据处理方法的步骤。
实施例五
本申请实施例提供的一种计算机可读存储介质,包括程序代码,当所述程序代码在电子设备上运行时,使电子设备执行上述基于映射归约的数据处理方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种基于映射归约的数据处理方法,其特征在于,包括:
接收多路数据集和对所述多路数据集进行关联查询的连接字段信息;
对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给所述至少一个Reduce节点中的每一个Reduce节点;
对各Reduce节点中的中间结果集进行汇总,得到所述多路数据集中满足所有连接字段的数据集。
2.如权利要求1所述的方法,其特征在于,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,包括:
将所述中间结果集代入为每一连接字段设置的分区函数,得到所述中间结果集对应的分区函数值;
根据所述中间结果集对应的各分区函数值,确定所述中间结果集对应的至少一个分区编号;
根据所述中间结果集对应的至少一个分区编号、以及预先设置的分区编号与Reduce节点之间的对应关系,确定所述中间结果集对应的至少一个Reduce节点;
其中,分区函数的个数等于连接字段的个数,且各分区函数的取值个数的乘积等于Reduce节点的总个数。
3.如权利要求2所述的方法,其特征在于,所述连接字段为m个,为m个连接字段中第k个连接字段设置的分区函数Hk(x)为:
Hk(x)=hk(x)mod nk
其中,x为中间结果集中所述连接字段的取值,hk(x)为对x求的哈希值,nk为对所述中间结果集进行分区所选择的哈希值。
4.如权利要求3所述的方法,其特征在于,当中间结果集中不包含第k个连接字段时,分区函数Hk(x)的取值为nk种,依次为0,1,2…nk-1
5.如权利要求4所述的方法,其特征在于,所述中间结果集对应的分区编号是按照指定顺序对H1(x)…Hk(x)…Hn(x)的取值进行组合得到的,其中,n为分区函数的个数。
6.一种基于映射归约的数据处理装置,其特征在于,包括:
接收模块,用于接收多路数据集和对所述多路数据集进行关联查询的连接字段信息;
发送模块,用于对每一路数据集执行映射操作得到多个中间结果集,对每个中间结果集,根据为各连接字段设置的分区函数,确定该中间结果集对应的至少一个Reduce节点,将该中间结果集发送给所述至少一个Reduce节点中的每一个Reduce节点;
汇总模块,用于对各Reduce节点中的中间结果集进行汇总,得到所述多路数据集中满足所有连接字段的数据集。
7.如权利要求6所述的装置,其特征在于,所述发送模块具体用于:
将所述中间结果集代入为每一连接字段设置的分区函数,得到所述中间结果集对应的分区函数值;
根据所述中间结果集对应的各分区函数值,确定所述中间结果集对应的至少一个分区编号;
根据所述中间结果集对应的至少一个分区编号、以及预先设置的分区编号与Reduce节点之间的对应关系,确定所述中间结果集对应的至少一个Reduce节点;
其中,分区函数的个数等于连接字段的个数,且各分区函数的取值个数的乘积等于Reduce节点的总个数。
8.如权利要求7所述的装置,其特征在于,所述连接字段为m个,为m个连接字段中第k个连接字段设置的分区函数Hk(x)为:
Hk(x)=hk(x)mod nk
其中,x为中间结果集中所述连接字段的取值,hk(x)为对x求的哈希值,nk为对所述中间结果集进行分区所选择的哈希值。
9.如权利要求8所述的装置,其特征在于,当中间结果集中不包含第k个连接字段时,分区函数Hk(x)的取值为nk种,依次为0,1,2…nk-1
10.如权利要求9所述的装置,其特征在于,所述中间结果集对应的分区编号是按照指定顺序对H1(x)…Hk(x)…Hn(x)的取值进行组合得到的,其中,n为分区函数的个数。
11.一种电子设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述电子设备执行权利要求1~5任一所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,包括程序代码,当所述程序代码在电子设备上运行时,使所述电子设备执行权利要求1~5任一所述方法的步骤。
CN201711485100.8A 2017-12-29 2017-12-29 一种基于映射归约的数据处理方法及装置 Pending CN109992372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711485100.8A CN109992372A (zh) 2017-12-29 2017-12-29 一种基于映射归约的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711485100.8A CN109992372A (zh) 2017-12-29 2017-12-29 一种基于映射归约的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN109992372A true CN109992372A (zh) 2019-07-09

Family

ID=67110351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711485100.8A Pending CN109992372A (zh) 2017-12-29 2017-12-29 一种基于映射归约的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN109992372A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489452A (zh) * 2019-08-21 2019-11-22 中国科学院深圳先进技术研究院 多路数据流θ连接优化方法及系统
CN112434923A (zh) * 2020-11-16 2021-03-02 太原科技大学 一种基于子空间聚类的机械产品质量分析方法
CN113722071A (zh) * 2021-09-10 2021-11-30 拉卡拉支付股份有限公司 数据处理方法、装置、电子设备、存储介质及程序产品
CN117437064A (zh) * 2023-12-18 2024-01-23 凯美瑞德(苏州)信息科技股份有限公司 处理金融数据的方法、装置、电子设备及计算机可读介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456031A (zh) * 2010-10-26 2012-05-16 腾讯科技(深圳)有限公司 一种MapReduce系统和处理数据流的方法
CN102629219A (zh) * 2012-02-27 2012-08-08 北京大学 并行计算框架中的Reduce端自适应负载均衡方法
CN102662639A (zh) * 2012-04-10 2012-09-12 南京航空航天大学 一种基于Mapreduce的多GPU协同计算方法
CN102663117A (zh) * 2012-04-18 2012-09-12 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN102710772A (zh) * 2012-06-04 2012-10-03 包丽霞 一种基于云平台的海量数据通讯系统
CN102761602A (zh) * 2012-06-05 2012-10-31 北京永洪商智科技有限公司 一种基于Hadoop的海量数据实时分析处理方法
CN102769615A (zh) * 2012-07-02 2012-11-07 北京大学 一种基于MapReduce机制的任务调度方法和系统
CN103106183A (zh) * 2013-01-29 2013-05-15 福建天晴数码有限公司 基于mapreduce的大规模稀疏矩阵乘法运算的方法
CN104809231A (zh) * 2015-05-11 2015-07-29 浪潮集团有限公司 一种基于Hadoop的海量web数据挖掘方法
CN104834557A (zh) * 2015-05-18 2015-08-12 成都博元科技有限公司 一种基于Hadoop的数据分析方法
CN105095515A (zh) * 2015-09-11 2015-11-25 北京金山安全软件有限公司 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN105975463A (zh) * 2015-09-25 2016-09-28 武汉安天信息技术有限责任公司 一种基于MapReduce识别优化数据倾斜的方法及系统
CN106156159A (zh) * 2015-04-16 2016-11-23 阿里巴巴集团控股有限公司 一种表连接处理方法、装置和云计算系统
CN107330083A (zh) * 2017-07-03 2017-11-07 贵州大学 等宽直方图并行构建方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456031A (zh) * 2010-10-26 2012-05-16 腾讯科技(深圳)有限公司 一种MapReduce系统和处理数据流的方法
CN102629219A (zh) * 2012-02-27 2012-08-08 北京大学 并行计算框架中的Reduce端自适应负载均衡方法
CN102662639A (zh) * 2012-04-10 2012-09-12 南京航空航天大学 一种基于Mapreduce的多GPU协同计算方法
CN102663117A (zh) * 2012-04-18 2012-09-12 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN102710772A (zh) * 2012-06-04 2012-10-03 包丽霞 一种基于云平台的海量数据通讯系统
CN102761602A (zh) * 2012-06-05 2012-10-31 北京永洪商智科技有限公司 一种基于Hadoop的海量数据实时分析处理方法
CN102769615A (zh) * 2012-07-02 2012-11-07 北京大学 一种基于MapReduce机制的任务调度方法和系统
CN103106183A (zh) * 2013-01-29 2013-05-15 福建天晴数码有限公司 基于mapreduce的大规模稀疏矩阵乘法运算的方法
CN106156159A (zh) * 2015-04-16 2016-11-23 阿里巴巴集团控股有限公司 一种表连接处理方法、装置和云计算系统
CN104809231A (zh) * 2015-05-11 2015-07-29 浪潮集团有限公司 一种基于Hadoop的海量web数据挖掘方法
CN104834557A (zh) * 2015-05-18 2015-08-12 成都博元科技有限公司 一种基于Hadoop的数据分析方法
CN105095515A (zh) * 2015-09-11 2015-11-25 北京金山安全软件有限公司 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN105975463A (zh) * 2015-09-25 2016-09-28 武汉安天信息技术有限责任公司 一种基于MapReduce识别优化数据倾斜的方法及系统
CN107330083A (zh) * 2017-07-03 2017-11-07 贵州大学 等宽直方图并行构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓军、孙惠: "基于 MapReduce 的多路连接优化方法研究", 《计算机技术与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489452A (zh) * 2019-08-21 2019-11-22 中国科学院深圳先进技术研究院 多路数据流θ连接优化方法及系统
CN112434923A (zh) * 2020-11-16 2021-03-02 太原科技大学 一种基于子空间聚类的机械产品质量分析方法
CN112434923B (zh) * 2020-11-16 2024-02-06 太原科技大学 一种基于子空间聚类的机械产品质量分析方法
CN113722071A (zh) * 2021-09-10 2021-11-30 拉卡拉支付股份有限公司 数据处理方法、装置、电子设备、存储介质及程序产品
CN117437064A (zh) * 2023-12-18 2024-01-23 凯美瑞德(苏州)信息科技股份有限公司 处理金融数据的方法、装置、电子设备及计算机可读介质

Similar Documents

Publication Publication Date Title
Thorpe et al. Dorylus: Affordable, scalable, and accurate {GNN} training with distributed {CPU} servers and serverless threads
US10764034B2 (en) Method and system for facilitating data transfer between blockchains
CN109992372A (zh) 一种基于映射归约的数据处理方法及装置
KR102361156B1 (ko) 분산 파일 시스템에서 데이터에 대한 병렬 액세스
CN102546402B (zh) 支持基于关键项的分布式进程的方法和计算实体
US9053067B2 (en) Distributed data scalable adaptive map-reduce framework
Neelakandan et al. Large scale optimization to minimize network traffic using MapReduce in big data applications
US8898422B2 (en) Workload-aware distributed data processing apparatus and method for processing large data based on hardware acceleration
CN110209494A (zh) 一种面向大数据的分布式任务调度方法及Hadoop集群
WO2019239254A1 (en) Parallel computational architecture with reconfigurable core-level and vector-level parallelism
JP2014525640A (ja) 並列処理開発環境の拡張
CN109508326B (zh) 用于处理数据的方法、装置和系统
Zhang et al. Skyline discovery and composition of multi-cloud mashup services
Elsayed et al. Mapreduce: State-of-the-art and research directions
CN109344268A (zh) 图形数据库写入的方法、电子设备及计算机可读存储介质
CN106373112A (zh) 图像处理方法、装置和电子设备
CN111782404A (zh) 一种数据处理方法及相关设备
CN109657197B (zh) 一种叠前深度偏移计算方法及系统
Anjos et al. BIGhybrid: a simulator for MapReduce applications in hybrid distributed infrastructures validated with the Grid5000 experimental platform
KR102545045B1 (ko) 정보 생성 방법 및 장치
WO2023071566A1 (zh) 数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品
CN107122849B (zh) 基于SparkR的产品检测总完工时间极小化方法
CN106330556B (zh) 一种用于生成服务模块调用关联信息的方法与装置
CN109885400A (zh) 用于发送指令的方法和装置
CN110769037B (zh) 嵌入式边缘计算平台资源配置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190709