CN114172916A

CN114172916A - 一种Spark集群中的数据传输方法、系统及相关装置

Info

Publication number: CN114172916A
Application number: CN202111424693.3A
Authority: CN
Inventors: 胡德鹏; 刘兵
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-11

Abstract

本申请提供一种Spark集群中的数据传输方法，包括：接收数据传输任务，并确定数据传输任务对应的待同步数据；判断待同步数据的目标服务器是否配置RDMA网卡；若是，将待同步数据从源端内存通过预设接口写入至目标服务器的目标端内存，并经由目标端内存传输至目标服务器包含的目标Spark集群缓冲区；其中，预设接口为支持RDMA协议的接口。本申请应用RDMA网卡，利用远程内存直接访问技术，减少待同步数据在服务器内部的复制副本数量，使得待同步数据直接在源端内存和目标端内存之间传输，提高了待同步数据的网络传输速率。本申请还提供一种Spark集群中的数据传输系统、计算机可读存储介质和服务器，具有上述有益效果。

Description

一种Spark集群中的数据传输方法、系统及相关装置

技术领域

本申请涉及服务器领域，特别涉及一种Spark集群中的数据传输方法、系统及相关装置。

背景技术

分布式应用系统与大数据技术应用日益广泛，为实现大容量数据的高速计算，通过分布式计算框架，需要将数据分片分布到不同服务器上同步计算，集群内部通过网络实现数据共享交互。Spark作为分布式内存计算引擎，通过构建弹性分布式数据集模型，使用内存实现对海量数据的快速高效计算。

当前Spark集群使用网络是传统的TCP/IP协议网络，传统的TCP Socket数据传输需要经过如下步骤：

1、数据先从源端Spark执行器程序的Buffer拷贝到当前主机的Sockets缓存区；

2、数据由Sockets缓存区拷贝到TransportProtocol Driver缓存区；

3、数据由TransportProtocol Driver缓存区拷贝到NIC Driver，最后NIC通过以太网络将数据发送到目标主机的NIC，目标主机又经过上面步骤将数据传输到目标主机的应用程序内存中。

如此，使得数据在TCP/IP网络中传输，在每个服务器上都经过3次复制，至少存储3个副本，这严重占用了传输时间，影响了数据在网络间传输的效率。

发明内容

本申请的目标是提供一种Spark集群中的数据传输方法、Spark集群中的数据传输系统、计算机可读存储介质和服务器，能够提高数据在网络间传输的效率。

为解决上述技术问题，本申请提供一种Spark集群中的数据传输方法，具体技术方案如下：

接收数据传输任务，并确定所述数据传输任务对应的待同步数据；

判断所述待同步数据的目标服务器是否配置RDMA网卡；

若是，将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存，并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区；其中，所述预设接口为支持RDMA协议的接口。

其中，判断所述待同步数据的目标服务器是否配置RDMA网卡之前，还包括：

在Spark集群中添加所述预设接口，并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。

其中，将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存之前，还包括：

向源端内存池发出缓存空间的申请信息；所述缓存空间大小与所述待同步数据的数据容量相对应；

若所述源端内存池当前剩余缓存满足所述缓存空间，分配缓存空间，利用所述缓存空间执行将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤；

若所述源端内存池当前剩余缓存未满足所述缓存空间，挂起所述数据传输任务，以预设时间周期重复向源端内存池发出所述申请信息，直至所述当前剩余缓存满足所述缓存空间时，利用所述缓存空间执行将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤。

可选的，将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤包括：

将所述待同步数据复制至所述缓存空间，并调用所述Spark集群中源端的执行器启动RDMA传输线程；

利用所述RDMA传输线程将所述待同步数据传输至目标服务器中的目标执行器，并由所述目标执行器将所述待同步数据同步所述目标端内存。

可选的，分配缓存空间时，还包括：

记录所述缓存空间对应的页面号；

则经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区之后，还包括：

删除所述页面号，并释放所述页面号对应的缓存空间。

可选的，所述接收数据传输任务之前，还包括：

检测到数据Shuffle任务时，生成相应的数据传输任务。

本申请还提供一种Spark集群中的数据传输系统，包括：

接收模块，用于接收数据传输任务，并确定所述数据传输任务对应的待同步数据；

判断模块，用于判断所述待同步数据的目标服务器是否配置RDMA网卡；

传输模块，用于所述判断模块的判断结果为是时，将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存，并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区；其中，所述预设接口为支持RDMA协议的接口。

可选的，还包括：

硬件配置模块，用于在Spark集群中添加所述预设接口，并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种服务器，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种Spark集群中的数据传输方法，包括：接收数据传输任务，并确定所述数据传输任务对应的待同步数据；判断所述待同步数据的目标服务器是否配置RDMA网卡；若是，将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存，并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区；其中，所述预设接口为支持RDMA协议的接口。

本申请应用RDMA网卡，利用远程内存直接访问技术，减少待同步数据在服务器内部的复制副本数量，使得待同步数据直接在源端内存和目标端内存之间传输，提高了待同步数据的网络传输速率。

本申请还提供一种Spark集群中的数据传输系统、计算机可读存储介质和服务器，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种Spark集群中的数据传输方法的流程图；

图2为本申请实施例所提供的一种Spark集群中的数据传输过程示意图；

图3为本申请实施例所提供的一种Spark集群中的数据传输系统结构示意图。

具体实施方式

为使本申请实施例的目标、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种Spark集群中的数据传输方法的流程图，该方法包括：

S101：接收数据传输任务，并确定所述数据传输任务对应的待同步数据；

本步骤旨在接收数据传输任务，并确定相应的待同步数据。本实施例可以针对Spark集群中服务器之间传输的中间数据，所谓中间数据，指Spark集群运行计算所产生的中间过程数据。

Spark作为分布式内存计算引擎，其中运行了Spark应用程序，以及Driver，该Driver用于运行上述Spark应用程序的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark集群中有SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当执行器运行完毕后，Driver同时负责将SparkContext关闭。

执行器则是运行在工作节点的进程，负责运行任务单元。而一个Job包含多个弹性分布式数据集及作用于相应弹性分布式数据集上的各种操作，Stage是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet，代表一组关联的，相互之间没有Shuffle依赖关系的任务组成的任务集。一个Spark应用程序由一个Driver和若干个Job构成，一个Job由多个Stage构成，一个Stage由多个没有Shuffle关系的Task组成。

当执行一个Spark应用程序时，会产生若干中间数据，例如各Job对应的运行数据，均可以作为本步骤中的待同步数据。

需要注意的是，本步骤中的数据传输任务并不限定其任务分配方式，以及任务的具体形式。当存在需要同步的数据时，可以视为接收到数据传输任务，也可以在接收到待同步数据的数据同步指令时，视为接收到数据传输任务。一种优选的执行方式可以为，检测到数据Shuffle任务时，生成相应的数据传输任务。Shuffle任务对应MapReduce的三大阶段的中间阶段，即从map阶段到reduce阶段之间的阶段，其中常需要时间数据传输的传输过程。

S102：判断所述待同步数据的目标服务器是否配置RDMA网卡；若是，进入S102；

本步骤旨在判断目标服务器是否配置RDMA网卡。RDMA是一种智能网卡与软件架构充分优化的远端内存直接高速访问技术，通过将RDMA协议固化于硬件(即网卡)上，以及支持Zero-copy和Kernel bypass这两种途径来达到其高性能的远程直接数据存取的目标。使用RDMA技术，使得应用程序能够直接执行数据传输，在不涉及到网络软件栈的情况下。数据能够被直接发送到缓冲区或者能够直接从缓冲区里接收，而不需要被复制到网络层。同时应用程序可以直接在用户态执行数据传输，不需要在内核态与用户态之间做上下文切换。此外，还无需CPU干预。应用程序可以访问远程主机内存而不消耗远程主机中的任何CPU。远程主机内存能够被读取而不需要远程主机上的进程或CPU参与。远程主机的CPU的缓存不会被访问的内存内容所填充。

在具体的远程内存读写中，RDMA操作用于读写操作的远程虚拟内存地址包含在RDMA消息中传送，远程应用程序要做的只是在其本地网卡中注册相应的内存缓冲区。远程节点的CPU除在连接建立、注册调用等之外，在整个RDMA数据传输过程中并不提供服务，因此没有带来任何负载。

本步骤旨在判断目标服务器是否已经配置RDMA网卡，若判断结果为是，则可进入步骤S103。

容易理解的是，若判断结果为是，则表明在执行本步骤前，已经在Spark集群中添加所述预设接口，并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件，即实现了对RDMA网卡的配置过程。当然RDMA网卡的配置过程还可以包含其他操作，在此不一一具体限定。

S103：将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存，并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区。

一旦目标服务器配置RDMA网卡，可以通过RDMA技术传输待同步数据。需要注意的是，本实施例默认源端服务器已经实现了RDMA技术的相关配置，例如已经配置完毕RDMA网卡。

则此后，可以借助源端内存并通过预设接口写入目标服务器的目标端内存，此后在目标服务器内部，可实现目标端内存直接传输至目标Spark集群缓冲区。容易理解的是，该预设接口为支持RDMA协议的接口。

此外，本步骤中“从源端内存”指需要申请相应的源端内存空间。则在执行本步骤之前，可以向源端内存池发出缓存空间的申请信息，该缓存空间大小与待同步数据的数据容量相对应，即确保能够满足待同步数据的正常传输。

若源端内存池当前剩余缓存满足缓存空间，分配缓存空间，此后即可利用缓存空间执行本步骤；若源端内存池当前剩余缓存未满足缓存空间，挂起该数据传输任务，并以预设时间周期重复向源端内存池发出申请信息，直至当前剩余缓存满足缓存空间时，执行本步骤。在此对于预设时间周期不作具体限定，其目的在于定时申请，以期尽快申请到缓存空间，以便实现待同步数据的传输。

一旦申请到缓存空间，将待同步数据复制至缓存空间，并调用Spark集群中源端的执行器启动RDMA传输线程，利用RDMA传输线程将待同步数据传输至目标服务器中的目标执行器，并由目标执行器将待同步数据同步目标端内存。需要注意的是，启用RDMA传输线程传输至目标执行器与上文传输至目标服务器的目标端内存并不冲突，该过程可以为将待同步数据直接传输至目标执行器对应的内存，而目标执行器对应内存实际为目标服务器中内存池为目标服务器分配的内存空间。

更优选的，分配缓存空间时，还可以记录缓存空间对应的页面号。则经由目标端内存传输至目标服务器包含的目标Spark集群缓冲区之后，可以删除页面号，并释放页面号对应的缓存空间。

此外，若目标服务器未配置RDMA网卡，此时只能应用传统的TCP/IP连接进行待同步数据的传输。

本申请应用RDMA网卡，利用远程内存直接访问技术，减少待同步数据在服务器内部的复制副本数量，使得待同步数据直接在源端内存和目标端内存之间传输，提高了待同步数据的网络传输效率。同时将待同步数据经由TCP/IP网络中传输改为RAMA直连，大大提高了待同步数据的传输速度。

参见图2，图2为本申请实施例所提供的一种Spark集群中的数据传输过程示意图，可以看出，对于待同步数据，进过数据复制操作到HCA(Host Channel Adapter，主机通道适配器)，HCA能够使受管设备能够通过端口连接至其他设备，可以将该端口连接至另一个HCA、目标设备或交换机。图2中，HCA用于实现源端服务器和目标端服务器之间的传输，同时配置相应的HCA driver，即HCA驱动，其可以作为RDMA网卡的一种配置方式。

而当前Spark集群使用网络是传统的TCP/IP协议网络，传统的TCP Socket数据传输需要经过很多步骤：

1，数据先从源端Spark执行器程序的缓存区拷贝到当前主机的Sockets缓存区；

2，数据由Sockets缓存区拷贝到TransportProtocol Driver缓存区；

3，数据由TransportProtocol Driver缓存区拷贝到NIC Driver，最后NIC通过以太网络将数据发送到目标主机的NIC，目标主机又经过上面步骤将数据传输到目标主机的应用程序内存中，需要分别在源端和目标端复制三次。

显然，本申请仅需要在源端和目标端仅复制一次待同步数据即可实现数据的传输，大大提高了数据传输效率。

下面对本申请实施例提供的Spark集群中的数据传输系统进行介绍，下文描述的park集群中的数据传输系统与上文描述的Spark集群中的数据传输方法可相互对应参照。

参见图3，图3为本申请实施例所提供的一种Spark集群中的数据传输系统结构示意图，本申请还提供一种Spark集群中的数据传输系统，包括：

基于上述实施例，作为优选的实施例，还包括：

内存申请模块，用于向源端内存池发出缓存空间的申请信息；所述缓存空间大小与所述待同步数据的数据容量相对应；

内存分配模块，用于若所述源端内存池当前剩余缓存满足所述缓存空间，分配缓存空间，并跳转至所述传输模块执行将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存的步骤；

任务挂起模块，用于若所述源端内存池当前剩余缓存未满足所述缓存空间，挂起所述数据传输任务，以预设时间周期重复向源端内存池发出所述申请信息，直至所述当前剩余缓存满足所述缓存空间时先跳转至所述内存分配模块，再跳转至所述传输模块执行将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存的步骤。

基于上述实施例，作为优选的实施例，传输模块包括：

复制单元，用于将所述待同步数据复制至所述缓存空间，并调用所述Spark集群中源端的执行器启动RDMA传输线程；

传输单元，用于利用所述RDMA传输线程将所述待同步数据传输至目标服务器中的目标执行器，并由所述目标执行器将所述待同步数据同步所述目标端内存。

基于上述实施例，作为优选的实施例，还包括：

内存页面记录模块，用于记录所述缓存空间对应的页面号；

所述内存页面记录模块，还用于删除所述页面号，并释放所述页面号对应的缓存空间。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种服务器，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述服务器还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种Spark集群中的数据传输方法，其特征在于，包括：

判断所述待同步数据的目标服务器是否配置RDMA网卡；

2.根据权利要求1所述的数据传输方法，其特征在于，判断所述待同步数据的目标服务器是否配置RDMA网卡之前，还包括：

3.根据权利要求1所述的数据传输方法，其特征在于，将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存之前，还包括：

4.根据权利要求3所述的数据传输方法，其特征在于，将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤包括：

5.根据权利要求3所述的数据传输方法，其特征在于，分配缓存空间时，还包括：

记录所述缓存空间对应的页面号；

删除所述页面号，并释放所述页面号对应的缓存空间。

6.根据权利要求1所述的数据传输方法，其特征在于，所述接收数据传输任务之前，还包括：

检测到数据Shuffle任务时，生成相应的数据传输任务。

7.一种Spark集群中的数据传输系统，其特征在于，包括：

8.根据权利要求7所述的数据传输系统，其特征在于，还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的Spark集群中的数据传输方法的步骤。

10.一种服务器，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的Spark集群中的数据传输方法的步骤。