CN111177103A

CN111177103A - 基于Hadoop的MapReduce框架的数据关联方法

Info

Publication number: CN111177103A
Application number: CN201911368399.8A
Authority: CN
Inventors: 舒丽; 孙龙超; 唐劭; 龚平; 曾永钢
Original assignee: Beijing Asiainfo Data Co ltd
Current assignee: Beijing Asiainfo Data Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-19

Abstract

本公开提供了一种基于Hadoop的MapReduce框架的数据关联方法，包括：获取参数，所述参数包括待关联的第一数据源和第二数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型；利用Hadoop的MapReduce框架的混排和排序，将第一数据源和第二数据源中的数据划分至多个列表中，其中，每个列表中的数据为第一数据源和第二数据源中键相同的数据；根据连接类型，对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，获得所述第一数据源与所述第二数据源的数据关联结果。本公开的方法能够提高数据关联的效率。

Description

基于Hadoop的MapReduce框架的数据关联方法

技术领域

本公开涉及数据处理技术领域，尤其涉及一种基于Hadoop的MapReduce框架的数据关联方法。

背景技术

目前，面对日益增长的海量数据的处理需求，常采用Hadoop的解决方案。Hadoop的框架最核心的设计就是HDFS(Hadoop Distributed FileSystem，分布式文件系统)和MapReduce。

HDFS为海量的数据提供了存储，HDFS有高容错性的特点，并且用来部署在低廉的(low-cost)硬件上；而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。MapReduce为海量的数据提供了计算。

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。Map(映射)和Reduce(归约)，是MapReduce的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。在Map阶段根据数据的大小划分为多个分布式计算任务，尽可能利用数据本地化出来速度快的优势在本地进行运算，然后进行分区(即根据相同的关键字的数据进入同一数据处理列)，最后在Reduce阶段进行合并关联运算。

相关技术中，在对两个数据源中的数据进行关联的过程中，通常需要对全部数据进行排序，并反复遍历所有数据以进行数据匹配，其消耗的资源较多，占用时间长，需要匹配的数据量基数非常大，严重影响了实现数据关联的效率。

发明内容

为了解决上述技术问题中的至少一个，本公开的一些实施例提供了一种基于Hadoop的MapReduce框架的数据关联方法，该方法包括：获取参数，所述参数包括待关联的第一数据源和第二数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型；利用Hadoop的MapReduce框架的混排和排序，将所述第一数据源和所述第二数据源中的数据划分至多个列表中，其中，每个列表中的数据为所述第一数据源和所述第二数据源中键相同的数据；根据所述连接类型，对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，获得所述第一数据源与所述第二数据源的数据关联结果。

在本公开的至少一个实施例中，所述连接类型包括内连接、左连接、右连接或者全连接。

在本公开的至少一个实施例中，所述第一数据源和所述第二数据源中键相同的数据以键值对的形式划分入同一列表中。

在本公开的至少一个实施例中，所述利用Hadoop的MapReduce框架的混排和排序，将所述第一数据源和所述第二数据源中的数据划分至多个列表中之后，所述基于Hadoop的MapReduce框架的数据关联方法还包括：对于每个列表，在所述列表中所有来自于所述第一数据源中的数据前面设置第一标识，在所述列表中来自于所述第二数据源中的数据前设置第二标识。

在本公开的至少一个实施例中，所述对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，包括：对每个列表中设置有第一标识的数据与设置有第二标识的数据进行笛卡尔积组合。

在本公开的至少一个实施例中，所述获得所述第一数据源与所述第二数据源的数据关联结果之后，所述基于Hadoop的MapReduce框架的数据关联方法还包括：去除设置有第一标识的数据前的第一标识；去除设置有第二标识的数据前的第二标识。

在本公开的至少一个实施例中，所述根据所述连接类型，对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，获得所述第一数据源与所述第二数据源的数据关联结果之前，所述基于Hadoop的MapReduce框架的数据关联方法还包括：获取辅助函数，辅助函数被配置为，根据获取的连接类型的参数，返回第一数据源和第二数据源之间数据的相应连接类型的结果。

在本公开的至少一个实施例中，所述获得所述第一数据源与所述第二数据源的数据关联结果之后，所述基于Hadoop的MapReduce框架的数据关联方法还包括：导出所述第一数据源与所述第二数据源的数据关联结果至指定文件。

另一方面，本公开的一些实施例还提供一种计算机产品，包括一个或多个处理器，所述一个或多个处理器被配置为运行计算机指令，以执行上述任一实施例所述的基于Hadoop的MapReduce框架的数据关联方法中的一个或多个步骤。

又一方面，本公开的一些实施例还提供一种计算机非瞬时可读存储介质，所述计算机非瞬时可读存储介质存储有计算机指令，计算机指令被配置为执行如上述任一实施例所述的基于Hadoop的MapReduce框架的数据关联方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为根据一些实施例的一种基于Hadoop的MapReduce框架的数据关联方法的流程图；

图2为根据一些实施例的另一种基于Hadoop的MapReduce框架的数据关联方法的流程图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。

请参阅图1，本公开的一些实施例提供了一种基于Hadoop的MapReduce框架的数据关联方法，该方法包括S1～S3。

S1，获取参数，所述参数包括待关联的第一数据源和第二数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型。

S2，利用Hadoop的MapReduce框架的混排和排序，将第一数据源和第二数据源中的数据划分至多个列表中，其中，每个列表中的数据为第一数据源和第二数据源中键相同的数据。

S3，根据连接类型，对每个列表中来自第一数据源的数据与来自第二数据源的数据进行笛卡尔积组合，获得第一数据源与第二数据源的数据关联结果。

此处，关联字段可以为一个或多个，实施时，将关联字段输入至基于Hadoop的MapReduce框架的数据关联方法的执行主体(例如为处理器)，由相应程序进行调用。示例性的，关联字段参数包括以逗号分隔的列名字符串，处理器接收关联字段参数后，MapReduce框架遍历每行数据时，将参数列的值用逗号拼接做为键，其他列的值用逗号拼接作为值。

本公开一些实施例提供的基于Hadoop的MapReduce框架的数据关联方法，能够实现两个数据源中数据的快速关联。具体的，本公开利用Hadoop的MapReduce框架的混排和排序功能，将两个数据源中键相同的数据分组到一起，将分组排序的步骤转交给Hadoop集群去实现，省去了全局排序消耗的资源和时间，大大提高了数据处理的速度和效率。另外，本公开一些实施例对将所有相同键的值存储至同一列表，从而缩小匹配数据的范围。在同一列表中的数据中，将来源于第一数据源的数据与来源于第二数据源的数据进行笛卡尔积组合，由于将组合的范围限制在键相同的一组数据范围内，因此大大缩小了数据组合的基数，从而加快了数据匹配速度，省去了反复遍历所有数据进行大量数据匹配的过程，节省人力物力，提高数据关联效率。

在本公开的至少一个实施例中，连接类型包括内连接、左连接、右连接或者全连接。

在本公开的至少一个实施例中，第一数据源和第二数据源中键相同的数据以键值对的形式划分入同一列表中。

请参阅图2，在本公开的至少一个实施例中，步骤S2利用Hadoop的MapReduce框架的混排和排序，将第一数据源和第二数据源中的数据划分至多个列表中之后，基于Hadoop的MapReduce框架的数据关联方法还包括S4。

S4，对于每个列表，在列表中所有来自于第一数据源中的数据前设置第一标识，在列表中来自于第二数据源中的数据前设置第二标识。

此处，如果将第一标识和第二标识分别设置在数据的后面，后续删除标识的步骤中，需要通过计算数据的长度来删除标识，处理步骤较麻烦；如果将第一标识和第二标识分别设置在中部等其他位置，处理和还原原始数据也很不方便。与之相比，本公开一些实施例将第一标识和第二标识分别设置在数据的前面，有利于后续的步骤中直接删除标识以还原原始数据，简化处理步骤，便于实现两份数据的快速关联。

在本公开的至少一个实施例中，步骤S3中，对每个列表中来自第一数据源的数据与来自第二数据源的数据进行笛卡尔积组合，包括S31。

S31，对每个列表中设置有第一标识的数据与设置有第二标识的数据进行笛卡尔积组合。

在本公开的至少一个实施例中，步骤S3中，获得第一数据源与第二数据源的数据关联结果之后，基于Hadoop的MapReduce框架的数据关联方法还包括S32。

S32，去除设置有第一标识的数据前的第一标识，去除设置有第二标识的数据前的第二标识。

在本公开的至少一个实施例中，步骤S3根据连接类型，对每个列表中来自第一数据源的数据与来自第二数据源的数据进行笛卡尔积组合，获得第一数据源与第二数据源的数据关联结果之前，基于Hadoop的MapReduce框架的数据关联方法还包括S5。

S5，获取辅助函数。辅助函数被配置为，根据获取的连接类型的参数，返回第一数据源和第二数据源之间数据的相应连接类型的结果。

实施时，将连接类型输入至基于Hadoop的MapReduce框架的数据关联方法的执行主体(例如为处理器)，执行主体调用辅助函数，根据输入的连接类型，返回不同的结果。示例性的，如果输入的连接方式是“内连接”，返回的结果为第一数据源和第二数据源之间数据的“内连接”结果，输入的连接方式是“左连接”，返回的结果为第一数据源和第二数据源之间数据的“左连接”结果。

在本公开的至少一个实施例中，步骤S3中，获得第一数据源与第二数据源的数据关联结果之后，基于Hadoop的MapReduce框架的数据关联方法还包括S6。

S6，导出第一数据源与第二数据源的数据关联结果至指定文件。

本公开一些实施例提供的基于Hadoop的MapReduce框架的数据关联方法，利用Hadoop的MapReduce框架的混排和排序功能，将两个数据源中键相同的数据分组到一起，将分组排序的步骤转交给Hadoop集群去实现，大大节省了数据处理时间。另外，本公开一些实施例对来自两个数据源中的数据分别进行标识，并将所有相同键的值存储至同一列表，从而缩小匹配数据的范围。在同一列表中的数据中，将来源于第一数据源的数据与来源于第二数据源的数据进行笛卡尔积组合，由于将组合的范围限制在键相同的一组数据范围内，因此大大缩小了数据组合的基数，从而加快了数据匹配速度，省去了反复遍历所有数据进行大量数据匹配的过程，节省人力物力，提高数据关联效率。

下面将结合具体实施例对上述基于Hadoop的MapReduce框架的数据关联方法进行详细地说明。

获取参数，所述参数包括待关联的A数据源和B数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型。其中连接类型为右连接。

利用Hadoop的MapReduce框架的混排和排序，将A数据源和B数据源中键相同的数据以键值对的形式划分入同一列表中。

对于每个列表，在列表中所有来自于A数据源中的数据前面设置一个字符A标识，在列表中来自于B数据源中的数据前设置字符B标识。

获取辅助函数。

对每个列表中设置有字符A标识的数据与设置有字符B标识的数据进行笛卡尔积组合，计算并获得A数据源和B数据源的数据关联结果。其中，根据获取的“右连接”连接方式，调用辅助函数后返回的结果为第一数据源和第二数据源之间数据的“右连接”结果。

去除设置有字符A标识的数据前的字符A标识，去除设置有字符B标识的数据前的字符B标识。

导出A数据源与B数据源的数据关联结果至指定文件

本公开的一些实施例还提供一种计算机产品，包括一个或多个处理器，一个或多个处理器被配置为运行计算机指令，以执行上述任一实施例所述的基于Hadoop的MapReduce框架的数据关联方法中的一个或多个步骤。

上述处理器为控制器或处理元件或多个处理元件的组合，所述处理器包括云端服务器、中央处理器(central processing unit，CPU)、通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application-specific integratedcircuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)和晶体管逻辑器件中的至少一种或任意至少两种的组合。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本公开的一些实施例还提供一种计算机非瞬时可读存储介质，计算机非瞬时可读存储介质存储有计算机指令，计算机指令被配置为执行如上述任一实施例所述的基于Hadoop的MapReduce框架的数据关联方法。

本公开的一些实施例可以全部或部分的通过软件，硬件，固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式出现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。

所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘，硬盘、磁带)、光介质(例如，DVD)或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。“和/或”仅仅是描述关联对象的关联关系，表示三种关系，例如，A和/或B，表示为：单独存在A，同时存在A和B，单独存在B这三种情况。同时，在本公开的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电性连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种基于Hadoop的MapReduce框架的数据关联方法，其特征在于，包括：

获取参数，所述参数包括待关联的第一数据源和第二数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型；

利用Hadoop的MapReduce框架的混排和排序，将所述第一数据源和所述第二数据源中的数据划分至多个列表中，其中，每个列表中的数据为所述第一数据源和所述第二数据源中键相同的数据；

根据所述连接类型，对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，获得所述第一数据源与所述第二数据源的数据关联结果。

2.根据权利要求1所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述连接类型包括内连接、左连接、右连接或者全连接。

3.根据权利要求1所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述第一数据源和所述第二数据源中键相同的数据以键值对的形式划分入同一列表中。

4.根据权利要求1所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述利用Hadoop的MapReduce框架的混排和排序，将所述第一数据源和所述第二数据源中的数据划分至多个列表中之后，所述基于Hadoop的MapReduce框架的数据关联方法还包括：

对于每个列表，在所述列表中所有来自于所述第一数据源中的数据前设置第一标识，在所述列表中来自于所述第二数据源中的数据前设置第二标识。

5.根据权利要求4所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，包括：

对每个列表中设置有第一标识的数据与设置有第二标识的数据进行笛卡尔积组合。

6.根据权利要求5所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述获得所述第一数据源与所述第二数据源的数据关联结果之后，所述基于Hadoop的MapReduce框架的数据关联方法还包括：

去除设置有第一标识的数据前的第一标识；

去除设置有第二标识的数据前的第二标识。

7.根据权利要求1所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述根据所述连接类型，对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合，获得所述第一数据源与所述第二数据源的数据关联结果之前，所述基于Hadoop的MapReduce框架的数据关联方法还包括：

获取辅助函数，所述辅助函数被配置为，根据获取的所述连接类型的参数，返回所述第一数据源和所述第二数据源之间数据的相应连接类型的结果。

8.根据权利要求1所述的基于Hadoop的MapReduce框架的数据关联方法，其特征在于，所述获得所述第一数据源与所述第二数据源的数据关联结果之后，所述基于Hadoop的MapReduce框架的数据关联方法还包括：导出所述第一数据源与所述第二数据源的数据关联结果至指定文件。

9.一种计算机产品，包括一个或多个处理器，其特征在于，所述一个或多个处理器被配置为运行计算机指令，以执行如权利要求1～8任一项所述的基于Hadoop的MapReduce框架的数据关联方法中的一个或多个步骤。

10.一种计算机非瞬时可读存储介质，其特征在于，所述计算机非瞬时可读存储介质存储有计算机指令，计算机指令被配置为执行如权利要求1～8任一项所述的基于Hadoop的MapReduce框架的数据关联方法。