CN114138828A

CN114138828A - 数据连接方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN114138828A
Application number: CN202111455591.8A
Authority: CN
Inventors: 关振宇; 朱家强; 郑为锋
Original assignee: Lakala Payment Co ltd
Current assignee: Lakala Payment Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-04

Abstract

本公开实施例公开了一种数据连接方法、装置、电子设备、存储介质及程序产品，所述方法包括：获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；基于所述两个数据的信息确定所述两个数据的数据量大小；在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，在Map阶段通过多次连接操作完成所述两个数据的连接操作；在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作。该技术方案能够明显降低大数据操作过程中两个数据的连接操作成本，并且提高数据连接效率。

Description

数据连接方法、装置、电子设备、存储介质及程序产品

技术领域

本公开实施例涉及大数据技术领域，具体涉及一种数据连接方法、装置、电子设备、存储介质及程序产品。

背景技术

在互联网高速发展的时代，每天都有数以百计请求查询及数据汇总，在这样大规模的数据处理中，数据的输入量是非常巨大的，目前单个PC机已经无法能满足现状的需求。采取分布式处理技术，将多台廉价计算机组成集群，将这些计算任务分布到这些廉价的计算机上处理。在分布式集群中Hadoop提供了分布式处理的平台，可以利用MapReduce框架在多台计算机组成的集群中并行的运行大规模的分布式计算操作，具有高效的计算能力。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供完整的结构化查询语言(SQL，Structured Query Language)查询功能，可以将SQL语句转换为MapReduce任务进行运行，防止了对于不熟悉MapReduce的编程人员编写MapReduce带来的不便。在Hive进行SQL语句操作时是通过底层的MapReduce框架来完成处理操作的。

MapReduce框架中较为常用的操作包括join操作，join操作包括Map阶段和Reduce阶段。在Map阶段，Mapper从连接表中读取数据并将连接的key和连接的value键值对输出到中间文件中。在Reduce阶段，Reducer将排序结果作为输入，并进行Join。但是Shuffle阶段代价非常昂贵，因为它需要排序和合并。因此减少Shuffle和Reduce阶段的代价可以提高任务性能。

发明内容

本公开实施例提供一种数据连接方法、装置、电子设备、存储介质及程序产品。

第一方面，本公开实施例中提供了一种数据连接方法，包括：

获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

基于所述两个数据的信息确定所述两个数据的数据量大小；

在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，在Map阶段通过多次连接操作完成所述两个数据的连接操作；

在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作。

进一步地，在Map阶段通过多次连接操作完成所述两个数据的连接操作，包括：

选择所述两个数据中的其中一个作为目标数据；

在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作。

进一步地，选择所述两个数据中的其中一个作为目标数据，包括：

比较所述两个数据的数据量大小；

将数据量较小的一个数据确定为所述目标数据。

进一步地，在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个发送给进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作，包括：

将所述目标数据划分为小于或等于所述第一预设阈值的多个部分；

在所述Map阶段的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作。

进一步地，所述第二预设阈值小于或等于n倍的所述第一预设阈值，所述n大于1，且小于或等于3。

进一步地，在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作，包括：

在Shuffle阶段将所述两个数据中同一数据键的数据划分为一个区；

在所述Map阶段标记出每个区中数据的来源，所述来源为所述两个数据中的其中一个；

在Reduce阶段利用Reduce任务将同一数据键的数据进行连接操作。

第二方面，本公开实施例中提供了一种数据连接方法，包括：

客户端向服务器发送数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

服务器接收所述数据连接请求，并基于所述两个数据的信息确定所述两个数据的数据量大小；

在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务器在Map阶段通过多次连接操作完成所述两个数据的连接操作；

在所述两个数据均大于所述第二预设阈值时，所述服务器在Reduce阶段完成所述两个数据的连接操作。

进一步地，所述服务器在Map阶段通过多次连接操作完成所述两个数据的连接操作，包括：

所述服务器选择所述两个数据中的其中一个作为目标数据；

所述服务器在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作。

进一步地，所述服务器选择所述两个数据中的其中一个作为目标数据，包括：

所述服务器比较所述两个数据的数据量大小；

所述服务器将数据量较小的一个数据确定为所述目标数据。

进一步地，所述服务器在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个发送给进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作，包括：

所述服务器将所述目标数据划分为小于或等于所述第一预设阈值的多个部分；

所述服务器在所述Map阶段的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作。

进一步地，所述服务器在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作，包括：

所述服务器在Shuffle阶段将所述两个数据中同一数据键的数据划分为一个区；

所述服务器在所述Map阶段标记出每个区中数据的来源，所述来源为所述两个数据中的其中一个；

所述服务器在Reduce阶段利用Reduce任务将同一数据键的数据进行连接操作。

进一步地，所述服务器在所述Map阶段的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作之后，所述方法还包括：

所述服务器将所述Map任务的输出文件返回给所述客户端。

进一步地，所述服务器在Reduce阶段利用Reduce任务将同一数据键的数据进行连接操作之后，所述方法还包括：

所述服务器将所述Reduce任务的输出文件返回给所述客户端。

第三方面，本公开实施例中提供了一种数据连接方法，包括：

服务节点从客户端获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

所述服务节点基于所述两个数据的信息确定所述两个数据的数据量大小；

在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务节点启动Map节点；

所述Map节点通过多次连接操作完成所述两个数据的连接操作；

在所述两个数据均大于所述第二预设阈值时，所述服务器节点启动Map节点和Reduce节点；

所述Map节点将所述两个数据中同一数据键的数据划分为一个区，并标识出每个区中数据的来源，所述来源为所述两个数据中的其中一个；

所述Reduce节点将每个分区中同一数据键的数据进行连接操作。

进一步地，所述Map节点通过多次连接操作完成所述两个数据的连接操作，包括：

所述服务节点选择所述两个数据中的其中一个作为目标数据；

所述Map节点的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map节点的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作。

进一步地，所述服务节点选择所述两个数据中的其中一个作为目标数据，包括：

所述服务节点比较所述两个数据的数据量大小；

所述服务节点将数据量较小的一个数据确定为所述目标数据。

进一步地，所述Map节点的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map节点的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作，包括：

所述服务节点将所述目标数据划分为小于或等于所述第一预设阈值的多个部分；

所述Map节点的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作。

进一步地，所述方法还包括：

所述服务节点将所述Map节点的输出文件返回给所述客户端。

进一步地，所述方法还包括：

所述服务节点将所述Reduce节点的输出文件返回给所述客户端。

第四方面，本公开实施例中提供了一种数据连接装置，包括：

第一获取模块，被配置为获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

第一确定模块，被配置为基于所述两个数据的信息确定所述两个数据的数据量大小；

第一连接模块，被配置为在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，在Map阶段通过多次连接操作完成所述两个数据的连接操作；

第二连接模块，被配置为在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作。

第五方面，本公开实施例中提供了一种数据连接系统，包括：客户端和服务端；

所述客户端向所述服务器发送数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

所述服务器接收所述数据连接请求，并基于所述两个数据的信息确定所述两个数据的数据量大小；

第六方面，本公开实施例中提供了一种服务系统，包括：服务节点、Map节点和Reduce节点；

所述服务节点从客户端获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务节点启动所述Map节点；

在所述两个数据均大于所述第二预设阈值时，所述服务器节点启动所述Map节点和所述Reduce节点；

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。

第七方面，本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持上述任一装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述任一装置还可以包括通信接口，用于与其他设备或通信网络通信。

第八方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方法所涉及的计算机指令。

第九方面，本公开实施例提供了一种计算机程序产品，其包含计算机指令，该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。

本公开实施例提供的技术方案可包括以下有益效果：

本公开实施例在大数据连接操作时，基于待连接的两个数据的数据大小确定连接方案，在两个数据中的其中一个大于第一预设阈值并小于或等于第二预设已知的情况下优先选择在Map阶段执行多次连接操作，而在两个数据均大于第二预设阈值的情况下，则在Map阶段不执行连接操作，而是在Reduce阶段执行连接操作。通过本公开实施例这种方式，可以明显降低大数据操作过程中两个数据的连接操作成本，并且提高数据连接效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开实施例。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开实施例的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的数据连接方法的流程图；

图2示出根据本公开另一实施方式的数据连接方法的流程图；

图3示出根据本公开另一实施方式的数据连接方法的流程图；

图4示出根据本公开一实施方式的数据连接方法的应用场景示意图；

图5示出根据本公开一实施方式的数据连接装置的结构框图；

图6示出根据本公开一实施方式的数据连接系统的结构框图；

图7示出根据本公开一实施方式的服务系统的结构框图；

图8是适于用来实现根据本公开一实施方式的数据连接方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开实施例的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开实施例中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。

目前，面对日益增长的海量数据，用以支撑主流搜索引擎公司、电子商务、社交网站的传统数据仓库系统早已不堪重负，而构建于Hadoop集群之上的Hive的出现实现了大数据时代分布式数据仓库，能有效的解决现有问题。数据连接是关系数据库功能的基本操作，是任何资源在万维网上发布的一种方式。基于分布式运算(mapreduce)的数据仓库Hive也支持在海量数据集上进行数据连接操作，通常Hive进行数据仓库(DW)数据连接时，都是由两个或多个海量数据集进行。例如，电子商务常见的数据模式为：将数十亿的用户流量和数亿的商品、千万级订单数据集进行连接运算来产生用户、商品搜索推荐结果和电子邮箱相连接的营销数据。

基于Hive的海量数据连接的底层实现是由mapreduce提供的，即在Map(映射)阶段根据数据的大小划分为多个分布式计算任务，尽可能利用数据本地化处理速度快的优势在本地进行运算，然后进行分区(即根据相同的关键字的数据进入同一数据处理列)，最后在reduce(归约)阶段进行合并连接运算。

Mapreduce在进行数据连接时，可在map阶段和reduce阶段分别进行。Map阶段聚合的适用条件是连接方有一个数据集足够小(不超过预设上限值)可以放在分布式缓存里，而reduce阶段连接的场景是连接成员的数据集都很大，无法缓存。故对于海量数据，无法进行map阶段连接的，只能在reduce阶段进行连接。如上文中所述，reduce阶段的数据连接成本昂贵。

针对如何节省数据连接成本的技术问题，本公开实施例提出了一种数据连接方法。该方法包括：获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；基于所述两个数据的信息确定所述两个数据的数据量大小；在所述两个数据均大于或等于第一预设阈值且其中一个数据小于或等于第二预设阈值时，在Map阶段通过多次连接操作完成所述两个数据的连接操作；在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作。该方法中，对于两个需要进行连接的数据，根据数据量大小确定是否适合采用常规的map阶段连接方式，如果其中一个的数据量小于能够执行map阶段连接的上限值(也即第一预设阈值)时，则可以采用常规的map阶段连接方式，如果两个数据的数据量均大于该上限值时，无法采用常规的map阶段连接方式，则可以采用本公开实施例提出的在Map阶段执行多次连接操作的方式进行连接操作；此外，如果两个数据均大于第二预设阈值时，既无法采用常规的map阶段连接方式，也无法在map阶段进行多次连接，而是需要在reduce阶段进行连接操作，该第二预设阈值可以是基于经验设置的一个较大的值，如果两个数据均大于该第二预设阈值，即使在map阶段执行多次连接操作，依然会造成较高的成本，因此这种情况下直接在reduce阶段执行连接操作即可。通过本公开实施例提出的这种方式，可以节省数据连接的操作成本。

图1示出根据本公开一实施方式的数据连接方法的流程图，如图1所示，所述数据连接方法包括以下步骤：

在步骤S101中，获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

在步骤S102中，基于所述两个数据的信息确定所述两个数据的数据量大小；

在步骤S103中，在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，在Map阶段通过多次连接操作完成所述两个数据的连接操作；

在步骤S104中，在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作。

为了减少Shuffle和Reduce阶段的代价，Mapjoin操作可以把小数据全部加载到内存中，在map阶段直接拿另外一个数据和内存中的数据做连接，由于在map阶段进行了连接操作，省去了reduce阶段的连接操作，可以提高运行的效率。

下面介绍MapJoin和Reducejoin的的数据连接过程。

Mapjoin的目的是减少Shuffle和Reducer阶段的代价，并仅在Map阶段进行Join，没有reduce阶段。

Mapjoin的做法是把该小数据加载到内存中，并按照连接关键字建立索引，然后大数据作为Map任务的输入，与内存当中的小数据进行关键字匹配连接，之后把连接结果按key输出；在实际操作中，可以使用hadoop中的DistributedCache把小数据分布到各个计算节点，每个Map任务的执行节点都将该小数据加载至内存，并且按连接关键字建立索引。

Reduce join是在map阶段完成数据的标记，在Reduce阶段完成数据的连接。

在map阶段，把关键字作为key输出，并在value中标记出数据是来自进行连接的第一个数据还是第二个数据。因为在shuffle阶段已经按key进行了分组，因此在reduce阶段，通过判断每一个value是来自第一个数据还是第二数据，并在内部分成2组，进而做集合的乘积，最终得到连接后的数据。

在本公开一实施方式中，该数据连接方法可适用于在服务器端对两个数据进行连接。

在本公开一实施方式中，数据连接请求可以是用户通过客户端发送的，数据连接请求中可以携带待连接的两个数据的信息，数据的信息例如可以是数据的标识、大小、存储位置等属性信息。例如，用户需要将某个电子商务系统中的商品数据和订单数据进行连接，则可以通过客户端产生连接商品数据和订单数据的连接请求，并在该数据连接请求中携带商品数据所存储的数据库表等标识、时间范围等属性信息，还可以包括订单数据的订单号、订单时间等属性信息。

服务器在接收到数据连接请求之后，根据数据连接请求中携带的两个数据的属性信息确定两个数据的大小。在一些实施例中，产生数据连接请求的客户端可以将两个数据的大小携带在属性信息中，服务器直接从数据连接请求携带的属性信息获取两个数据的大小。在另一些实施例中，数据连接请求中携带的属性信息可以不包括两个数据的大小，服务器端可以基于属性信息从存储两个数据的存储介质请求获取两个数据的大小。

如上文中所述，在Map阶段使用mapjoi n连接两个数据适用于其中一个数据较小，例如可以小于第一预设阈值(可以基于Map节点的内存大小以及兼顾效率考虑而预先设置)，而如果两个数据均大于第一预设阈值，则由于无法将其中一个数据直接存储至内存中，而不能使用mapjoi n进行连接，为了降低数据连接成本，本公开实施例针对这种情况，采用多次mapjoi n操作，也即在Map阶段执行多次连接数据操作的方式，依然在Map阶段将两个数据进行连接。

在一些实施例中，数据连接的操作次数可以基于两个数据的大小来确定。在一些实施例中，在Map阶段对于两个数据的连接操作次数不大于预设次数，例如该预设次数可以为3次。如果在Map阶段执行连接操作的次数过多，或者说由于待连接的两个数据过大，需要在Map阶段执行连接操作的次数过多，而导致执行多次连接操作的成本高于直接在Reduce阶段执行连接操作的成本，因此可以预先根据先验知识设定连接次数，进而将Map阶段的连接次数控制在该预设次数之内。

在一些实施例中，在Map阶段执行多次连接操作的两个数据均大于第一预设阈值，并且其中一个数据小于或等于第二预设阈值。

在一些实施例中，第二预设阈值大于第一预设阈值，并且第二预设阈值至少为第一预设阈值的两倍，也即第二预设阈值大于或等于第一预设阈值的两倍。之所以设置第二预设阈值，是因为两个数据如果均过大，在执行多次连接操作时，要么在Map阶段执行一次连接操作的数据依然会大于第一预设阈值，要么在Map阶段执行连接操作的次数会过多，从而导致多次Map阶段的连接操作的成本高于在Reduce阶段直接进行连接操作的成本。

在两个数据均大于第二预设阈值时，由于针对该两个数据在Map阶段执行多次连接操作会导致成本高于在Reduce阶段执行连接操作，因此这种情况下在Map阶段不执行连接操作，而是将连接操作留在Reduce阶段。

在本公开一实施方式中，步骤S103中，在Map阶段通过多次连接操作完成所述两个数据的连接操作的方法步骤，进一步可以包括以下步骤：

选择所述两个数据中的其中一个作为目标数据；

该可选的实现方式中，在待连接的两个数据均大于第一预设阈值而小于或等于第二预设阈值时，可以由一个Map任务将其中一个数据中的一部分加载至内存中，并与两个数据中的另一个进行连接操作，连接结果输出至一个目标文件中。而该一个数据中的其他部分则可以由其他的至少另一个Map任务来进行连接操作。通过这种方式，可以在两个数据的连接过程中启动多于一个的Map任务进行连接操作，使得每个Map任务能够针对两个数据中其中一个数据的一部分与另一个进行连接操作，最终由多个Map任务实现两个较大数据的连接操作。

在本公开一实施方式中，所述选择所述两个数据中的其中一个作为目标数据的方法步骤，进一步可以包括以下步骤：

比较所述两个数据的数据量大小；

将数据量较小的一个数据确定为所述目标数据。

该可选的实现方式中，为了启动多个Map任务对两个较大数据进行连接操作，可以将其中一个数据作为目标数据，进而由其中一个Map任务将该目标数据中的一部分数据与另一个数据进行连接操作，而其他Map任务将该目标数据中的其他部分与另一个数据进行连接操作。每个Map任务均会输出一个输出文件，该输出文件中存储完成连接操作的数据。

在一些实施例中，可以将两个数据中较小的数据作为目标数据，这是因为相较于较大数据，可以启动更少的Map任务执行连接操作，Map任务启动的越少，数据连接操作的成本约低，相较于在Reduce阶段进行数据连接操作，成本降低越明显。

在本公开一实施方式中，在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个发送给进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作的方法步骤，进一步可以包括以下步骤：

该可选的实现方式中，可以将目标数据划分为多个部分，并且每个部分均小于或等于第一预设阈值。在Map端启动多个Map任务，目标数据被划分成的部分的数量与Map任务的数量相对应，每个Map任务加载其中一个部分至内存当中，并将该部分数据与另一个数据进行连接操作，最终每个Map任务输出的文件即为最终的连接结果。

在本公开一实施方式中，所述第二预设阈值小于或等于n倍的所述第一预设阈值，所述n大于1，且小于或等于3。

在本公开一实施方式中，步骤S104，即在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作的方法步骤，进一步可以包括以下步骤：

该可选的实现方式中，如果两个数据均大于第二预设阈值，则基于成本与效率上的考虑，可以将连接操作保留至Reduce阶段执行。也即，在Shuffle阶段将两个数据中同一数据键的数据划分为一个区，并在Map阶段标记出每个区中数据的来源，也即每个区中的每条数据是来自待连接的两个数据中的哪一个，该Map阶段则不执行连接操作，而是在Reduce阶段，由Reduce任务将同一数据键的数据进行连接操作。

需要说明的是，Map阶段在Map端完成，而Reduce阶段在Reduce端完成。

图2示出根据本公开另一实施方式的数据连接方法的流程图，如图2所示，所述数据连接方法包括以下步骤：

在步骤S201中，客户端向服务器发送数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

在步骤S202中，服务器接收所述数据连接请求，并基于所述两个数据的信息确定所述两个数据的数据量大小；

在步骤S203中，在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务器在Map阶段通过多次连接操作完成所述两个数据的连接操作；

在步骤S204中，在所述两个数据均大于所述第二预设阈值时，所述服务器在Reduce阶段完成所述两个数据的连接操作。

在本公开一实施方式中，该数据连接方法可适用于在大数据处理系统上对两个数据进行连接操作。

在本公开一实施方式中，用户可以通过大数据系统中的客户端提交数据连接请求，用户可以指定需要进行连接的两个数据的信息。用户可以通过客户端将数据连接请求发送至服务器。数据连接请求中可以携带待连接的两个数据的信息，数据的信息例如可以是数据的标识、大小、存储位置等属性信息。例如，用户需要将某个电子商务系统中的商品数据和订单数据进行连接，则可以通过客户端产生连接商品数据和订单数据的连接请求，并在该数据连接请求中携带商品数据所存储的数据库表等标识、时间范围等属性信息，还可以包括订单数据的订单号、订单时间等属性信息。

在本公开一实施方式中，步骤S204中，所述服务器在Map阶段通过多次连接操作完成所述两个数据的连接操作的方法步骤，进一步可以包括以下步骤：

所述服务器选择所述两个数据中的其中一个作为目标数据；

在本公开一实施方式中，所述服务器选择所述两个数据中的其中一个作为目标数据的方法步骤，进一步可以包括以下步骤：

所述服务器比较所述两个数据的数据量大小；

所述服务器将数据量较小的一个数据确定为所述目标数据。

在本公开一实施方式中，所述服务器在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个发送给进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作的方法步骤，进一步可以包括以下步骤：

在本公开一实施方式中，步骤S205，即所述服务器在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作的方法步骤，进一步可以包括以下步骤：

该可选的实现方式中，如果两个数据均大于第二预设阈值，则基于成本与效率上的考虑，服务器可以将连接操作保留至Reduce阶段执行。也即，服务器在Shuffle阶段将两个数据中同一数据键的数据划分为一个区，并在Map阶段标记出每个区中数据的来源，也即每个区中的每条数据是来自待连接的两个数据中的哪一个，该Map阶段则不执行连接操作，而是在Reduce阶段，由Reduce任务将同一数据键的数据进行连接操作。

需要说明的是，服务器可以包括多个Map端以及多个Reduce端，Map阶段在Map端完成，而Reduce阶段在Reduce端完成。

在本公开一实施方式中，步骤S204，即所述服务器在所述Map阶段的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作的方法步骤之后，所述方法进一步可以包括以下步骤：

所述服务器将所述Map任务的输出文件返回给所述客户端。

该可选的实现方式中，在Map阶段完成连接操作之后，服务器将Map任务输出的文件返回给客户端，该文件中包括两个数据连接操作的结果，在启动多个Map任务的情况下，每个Map任务会输出一个目标文件，也即两个数据连接操作的结果可以在多个目标文件中，服务器端还可以将多个目标文件合并之后返回给客户端，也可以直接将多个目标文件返回给客户端。

在本公开一实施方式中，步骤S204，即所述服务器在Reduce阶段利用Reduce任务将同一数据键的数据进行连接操作的方法步骤之后，所述方法进一步可以包括以下步骤：

所述服务器将所述Reduce任务的输出文件返回给所述客户端。

该可选的实现方式中，在Reduce阶段完成连接操作之后，服务器将Reduce任务输出的文件返回给客户端。

图2所示及相关实施方式中涉及的技术术语和技术特征与图1所示及相关实施方式中提及的技术术语和技术特征相同或相似，对于图2所示及相关实施方式中涉及的技术术语和技术特征的解释和说明可参考上述对于图1所示及相关实施方式的解释的说明，此处不再赘述。

图3示出根据本公开另一实施方式的数据连接方法的流程图，如图3所示，所述数据连接方法包括以下步骤：

在步骤S301中，服务节点从客户端获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

在步骤S302中，所述服务节点基于所述两个数据的信息确定所述两个数据的数据量大小；

在步骤S303中，在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务节点启动Map节点；

在步骤S304中，所述Map节点通过多次连接操作完成所述两个数据的连接操作；

在步骤S305中，在所述两个数据均大于所述第二预设阈值时，所述服务器节点启动Map节点和Reduce节点；

在步骤S306中，所述Map节点将所述两个数据中同一数据键的数据划分为一个区，并标识出每个区中数据的来源，所述来源为所述两个数据中的其中一个；

在步骤S307中，所述Reduce节点将每个分区中同一数据键的数据进行连接操作。

在本公开一实施方式中，该数据连接方法可适用于在大数据处理系统的服务端对两个数据进行连接操作。

服务端在接收到数据连接请求之后，根据数据连接请求中携带的两个数据的属性信息确定两个数据的大小。在一些实施例中，服务器包括服务节点、Map节点和Reduce节点；其中，Map节点和Reduce节点可以包括多个，并且每个Map节点上可以运行一个或多个Map任务，每个Reduce节点上也可以运行一个或多个Reduce任务。

在一些实施例中，产生数据连接请求的客户端可以将两个数据的大小携带在属性信息中，服务端的服务节点直接从数据连接请求携带的属性信息获取两个数据的大小。在另一些实施例中，数据连接请求中携带的属性信息可以不包括两个数据的大小，服务节点可以基于属性信息从存储两个数据的存储介质请求获取两个数据的大小。

如上文中所述，在Map阶段使用mapjoi n连接两个数据适用于其中一个数据较小，例如可以小于第一预设阈值(可以基于Map节点的内存大小以及兼顾效率考虑而预先设置)，而如果两个数据均大于第一预设阈值，则由于无法将其中一个数据直接存储至内存中，而不能使用mapjoi n进行连接，为了降低数据连接成本，本公开实施例针对这种情况，采用多次mapjoi n操作，也即在Map阶段执行多次连接数据操作的方式，依然在Map阶段将两个数据进行连接。Map阶段在Map节点上完成，服务节点可以基于数据连接请求启动一个或多个Map节点，而Map节点则可以在本地启动一个或多个Map任务完成对数据的连接操作。

在两个数据均大于第二预设阈值时，由于针对该两个数据在Map阶段执行多次连接操作会导致成本高于在Reduce阶段执行连接操作，因此这种情况下在Map阶段不执行连接操作，而是将连接操作留在Reduce阶段。Reduce阶段在Reduce节点上完成，服务节点可以基于数据连接请求启动一个或多个Reduce节点，并且每个Reduce节点上可以运行一个或多个Reduce任务，一个Reduce任务从Map任务输出的一个分区中拉取数据并进行数据连接操作。

在本公开一实施方式中，步骤S204中，所述Map节点通过多次连接操作完成所述两个数据的连接操作的方法步骤，进一步可以包括以下步骤：

该可选的实现方式中，在待连接的两个数据均大于第一预设阈值而小于或等于第二预设阈值时，服务节点可以启动一个Map节点，该Map节点上可以通过运行一个map任务将其中一个数据中的一部分加载至内存中，并与两个数据中的另一个进行连接操作，连接结果输出至一个目标文件中。而该一个数据中的其他部分则可以由服务节点启动的同一Map节点或其他Map节点上的至少另一个Map任务来进行连接操作。通过这种方式，可以在两个数据的连接过程中启动多于一个的Map任务进行连接操作，使得每个Map任务能够针对两个数据中其中一个数据的一部分与另一个进行连接操作，最终由多个Map任务实现两个较大数据的连接操作。

在本公开一实施方式中，所述服务节点选择所述两个数据中的其中一个作为目标数据的方法步骤，进一步可以包括以下步骤：

所述服务节点比较所述两个数据的数据量大小；

该可选的实现方式中，为了启动多个Map任务对两个较大数据进行连接操作，服务节点可以将其中一个数据作为目标数据，进而由Map节点上的其中一个Map任务将该目标数据中的一部分数据与另一个数据进行连接操作，而其他Map任务将该目标数据中的其他部分与另一个数据进行连接操作。每个Map任务均会输出一个输出文件，该输出文件中存储完成连接操作的数据。

在一些实施例中，服务节点可以将两个数据中较小的数据作为目标数据，这是因为相较于较大数据，服务节点可以启动更少的Map节点执行连接操作，Map节点启动的越少，数据连接操作的成本约低，相较于在Reduce节点进行数据连接操作，成本降低越明显。

在本公开一实施方式中，所述Map节点的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map节点的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作的方法步骤，进一步可以包括以下步骤：

该可选的实现方式中，服务节点可以将目标数据划分为多个部分，并且每个部分均小于或等于第一预设阈值。服务节点可以启动多个Map节点以运行多个Map任务，目标数据被划分成的部分的数量与Map任务的数量相对应，每个Map任务加载其中一个部分至内存当中，并将该部分数据与另一个数据进行连接操作，最终每个Map任务输出的文件即为最终的连接结果。

在本公开一实施方式中，所述方法进一步可以包括以下步骤：

所述服务节点将所述Map节点的输出文件返回给所述客户端。

该可选的实现方式中，在Map节点上完成连接操作之后，服务节点将Map节点上的Map任务输出的文件返回给客户端，该文件中包括两个数据连接操作的结果，在启动多个Map任务的情况下，每个Map任务会输出一个目标文件，也即两个数据连接操作的结果可以在多个目标文件中，服务节点还可以将多个目标文件合并之后返回给客户端，也可以直接将多个目标文件返回给客户端。

该可选的实现方式中，在Reduce节点完成连接操作之后，服务器将Reduce任务输出的文件返回给客户端。

图3所示及相关实施方式中涉及的技术术语和技术特征与图1和图2所示及相关实施方式中提及的技术术语和技术特征相同或相似，对于图3所示及相关实施方式中涉及的技术术语和技术特征的解释和说明可参考上述对于图1和图2所示及相关实施方式的解释的说明，此处不再赘述。

图4示出根据本公开一实施方式的数据连接方法的应用场景示意图。如图4所示，数据连接系统包括客户端和服务端，服务端包括多个节点，该多个节点包括服务节点、Map节点和Reduce节点等。Map节点上运行多个Map任务，用于在数据连接过程中，如果待连接的两个数据均大于第一预设阈值而其中一个小于或等于第二预设阈值时，通过多次连接操作完成两个数据的连接操作；以及在两个数据均大于第二预设阈值时，对两个数据按照数据键进行分区，并标记出分区中每条数据的来源。Reduce节点上运行多个Reduce任务，每个Reduce任务从Map节点上的数据分区拉取数据，并对拉取的数据按照数据键进行连接操作。服务节点用于管理所有节点，并与客户端进行数据通信，服务节点还可以用于为Reduce节点和Map节点分配资源，用于管理Map任务和Reduce任务等。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图5示出根据本公开一实施方式的数据连接装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示，所述数据连接装置包括：

第一获取模块501，被配置为获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

第一确定模块502，被配置为基于所述两个数据的信息确定所述两个数据的数据量大小；

第一连接模块503，被配置为在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，在Map阶段通过多次连接操作完成所述两个数据的连接操作；

第二连接模块504，被配置为在所述两个数据均大于所述第二预设阈值时，在Reduce阶段完成所述两个数据的连接操作。

在本公开一实施方式中，所述第一连接模块，包括：

第一选择子模块，被配置为选择所述两个数据中的其中一个作为目标数据；

第一连接子模块，被配置为在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作。

在本公开一实施方式中，所述第一选择子模块，包括：

第一比较子模块，被配置为比较所述两个数据的数据量大小；

第一确定子模块，被配置为将数据量较小的一个数据确定为所述目标数据。

在本公开一实施方式中，所述第一连接子模块，包括：

第一划分子模块，被配置为将所述目标数据划分为小于或等于所述第一预设阈值的多个部分；

第二连接子模块，被配置为在所述Map阶段的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作。

在本公开一实施方式中，所述第二连接模块，包括：

第二划分子模块，被配置为在Shuffle阶段将所述两个数据中同一数据键的数据划分为一个区；

第一标记子模块，被配置为在所述Map阶段标记出每个区中数据的来源，所述来源为所述两个数据中的其中一个；

第三连接子模块，被配置为在Reduce阶段利用Reduce任务将同一数据键的数据进行连接操作。

图6示出根据本公开一实施方式的数据连接系统的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示，所述数据连接系统包括：客户端601和服务端602；

所述客户端601向所述服务器602发送数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

所述服务器602接收所述数据连接请求，并基于所述两个数据的信息确定所述两个数据的数据量大小；

在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务器602在Map阶段通过多次连接操作完成所述两个数据的连接操作；

在所述两个数据均大于所述第二预设阈值时，所述服务器602在Reduce阶段完成所述两个数据的连接操作。

在本公开一实施方式中，所述服务器602选择所述两个数据中的其中一个作为目标数据，并在所述Map阶段的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map阶段的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作。

在本公开一实施方式中，所述服务器602比较所述两个数据的数据量大小，并将数据量较小的一个数据确定为所述目标数据。

在本公开一实施方式中，所述服务器602将所述目标数据划分为小于或等于所述第一预设阈值的多个部分，以及在所述Map阶段的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作。

在本公开一实施方式中，所述服务器602在Shuffle阶段将所述两个数据中同一数据键的数据划分为一个区，并在所述Map阶段标记出每个区中数据的来源，所述来源为所述两个数据中的其中一个，以及在Reduce阶段利用Reduce任务将同一数据键的数据进行连接操作。

在本公开一实施方式中，所述服务器602将所述Map任务的输出文件返回给所述客户端601。

在本公开一实施方式中，所述服务器602将所述Reduce任务的输出文件返回给所述客户端601。

图7示出根据本公开一实施方式的服务系统的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示，所述服务系统包括：服务节点701、Map节点702和Reduce节点703；

所述服务节点701从客户端获取数据连接请求；所述数据连接请求包括待连接的两个数据的信息；

所述服务节点701基于所述两个数据的信息确定所述两个数据的数据量大小；

在所述两个数据均大于第一预设阈值且其中一个数据小于或等于第二预设阈值时，所述服务节点701启动所述Map节点702；

所述Map节点702通过多次连接操作完成所述两个数据的连接操作；

在所述两个数据均大于所述第二预设阈值时，所述服务器节点启动所述Map节点702和所述Reduce节点703；

所述Map节点702将所述两个数据中同一数据键的数据划分为一个区，并标识出每个区中数据的来源，所述来源为所述两个数据中的其中一个；

所述Reduce节点703将每个分区中同一数据键的数据进行连接操作。

在本公开一实施方式中，所述服务节点701选择所述两个数据中的其中一个作为目标数据，所述Map节点702的一个Map任务中将所述目标数据中的一部分与所述两个数据中的另一个进行连接操作，以及在所述Map节点702的至少另一个Map任务中将所述目标数据中的其他部分与所述两个数据中的另一个进行连接操作。

在本公开一实施方式中，所述服务节点701比较所述两个数据的数据量大小，所述服务节点701将数据量较小的一个数据确定为所述目标数据。

在本公开一实施方式中，所述服务节点701将所述目标数据划分为小于或等于所述第一预设阈值的多个部分，所述Map节点702的不同Map任务中将多个部分中的每一个分别与所述两个数据中的另一个进行连接操作。

在本公开一实施方式中，所述服务节点701将所述Map节点702的输出文件返回给所述客户端。

在本公开一实施方式中，所述服务节点701将所述Reduce节点703的输出文件返回给所述客户端。

上述装置实施例所涉及的技术特征及其对应的解释和说明与上文所描述的方法实施例所涉及的技术特征及其对应的解释和说明相同、相应或相似，对于上述装置实施例所涉及的技术特征及其对应的解释和说明可参考上述方法实施例所涉及的技术特征及其对应的解释和说明，本公开在此不再赘述。

本公开实施例还公开了一种电子设备，所述电子设备包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方法步骤。

如图8所示，计算机系统800包括处理单元801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述实施方式中的各种处理。在RAM803中，还存储有计算机系统800操作所需的各种程序和数据。处理单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。其中，所述处理单元801可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行所述数据传输方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

本公开实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述任一方法步骤。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据连接方法，包括：

基于所述两个数据的信息确定所述两个数据的数据量大小；

2.根据权利要求1所述的方法，其中，在Map阶段通过多次连接操作完成所述两个数据的连接操作，包括：

选择所述两个数据中的其中一个作为目标数据；

3.一种数据连接方法，包括：

4.一种数据连接方法，包括：

5.一种数据连接装置，包括：

6.一种数据连接系统，包括：客户端和服务端；

7.一种服务系统，包括：服务节点、Map节点和Reduce节点；

8.一种电子设备，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-4任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-4任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1-4任一项所述方法的步骤。