CN114172916A - 一种Spark集群中的数据传输方法、系统及相关装置 - Google Patents

一种Spark集群中的数据传输方法、系统及相关装置 Download PDF

Info

Publication number
CN114172916A
CN114172916A CN202111424693.3A CN202111424693A CN114172916A CN 114172916 A CN114172916 A CN 114172916A CN 202111424693 A CN202111424693 A CN 202111424693A CN 114172916 A CN114172916 A CN 114172916A
Authority
CN
China
Prior art keywords
data
target
synchronized
memory
data transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111424693.3A
Other languages
English (en)
Inventor
胡德鹏
刘兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111424693.3A priority Critical patent/CN114172916A/zh
Publication of CN114172916A publication Critical patent/CN114172916A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种Spark集群中的数据传输方法,包括:接收数据传输任务,并确定数据传输任务对应的待同步数据;判断待同步数据的目标服务器是否配置RDMA网卡;若是,将待同步数据从源端内存通过预设接口写入至目标服务器的目标端内存,并经由目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,预设接口为支持RDMA协议的接口。本申请应用RDMA网卡,利用远程内存直接访问技术,减少待同步数据在服务器内部的复制副本数量,使得待同步数据直接在源端内存和目标端内存之间传输,提高了待同步数据的网络传输速率。本申请还提供一种Spark集群中的数据传输系统、计算机可读存储介质和服务器,具有上述有益效果。

Description

一种Spark集群中的数据传输方法、系统及相关装置
技术领域
本申请涉及服务器领域,特别涉及一种Spark集群中的数据传输方法、系统及相关装置。
背景技术
分布式应用系统与大数据技术应用日益广泛,为实现大容量数据的高速计算,通过分布式计算框架,需要将数据分片分布到不同服务器上同步计算,集群内部通过网络实现数据共享交互。Spark作为分布式内存计算引擎,通过构建弹性分布式数据集模型,使用内存实现对海量数据的快速高效计算。
当前Spark集群使用网络是传统的TCP/IP协议网络,传统的TCP Socket数据传输需要经过如下步骤:
1、数据先从源端Spark执行器程序的Buffer拷贝到当前主机的Sockets缓存区;
2、数据由Sockets缓存区拷贝到TransportProtocol Driver缓存区;
3、数据由TransportProtocol Driver缓存区拷贝到NIC Driver,最后NIC通过以太网络将数据发送到目标主机的NIC,目标主机又经过上面步骤将数据传输到目标主机的应用程序内存中。
如此,使得数据在TCP/IP网络中传输,在每个服务器上都经过3次复制,至少存储3个副本,这严重占用了传输时间,影响了数据在网络间传输的效率。
发明内容
本申请的目标是提供一种Spark集群中的数据传输方法、Spark集群中的数据传输系统、计算机可读存储介质和服务器,能够提高数据在网络间传输的效率。
为解决上述技术问题,本申请提供一种Spark集群中的数据传输方法,具体技术方案如下:
接收数据传输任务,并确定所述数据传输任务对应的待同步数据;
判断所述待同步数据的目标服务器是否配置RDMA网卡;
若是,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,所述预设接口为支持RDMA协议的接口。
其中,判断所述待同步数据的目标服务器是否配置RDMA网卡之前,还包括:
在Spark集群中添加所述预设接口,并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。
其中,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存之前,还包括:
向源端内存池发出缓存空间的申请信息;所述缓存空间大小与所述待同步数据的数据容量相对应;
若所述源端内存池当前剩余缓存满足所述缓存空间,分配缓存空间,利用所述缓存空间执行将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤;
若所述源端内存池当前剩余缓存未满足所述缓存空间,挂起所述数据传输任务,以预设时间周期重复向源端内存池发出所述申请信息,直至所述当前剩余缓存满足所述缓存空间时,利用所述缓存空间执行将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤。
可选的,将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤包括:
将所述待同步数据复制至所述缓存空间,并调用所述Spark集群中源端的执行器启动RDMA传输线程;
利用所述RDMA传输线程将所述待同步数据传输至目标服务器中的目标执行器,并由所述目标执行器将所述待同步数据同步所述目标端内存。
可选的,分配缓存空间时,还包括:
记录所述缓存空间对应的页面号;
则经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区之后,还包括:
删除所述页面号,并释放所述页面号对应的缓存空间。
可选的,所述接收数据传输任务之前,还包括:
检测到数据Shuffle任务时,生成相应的数据传输任务。
本申请还提供一种Spark集群中的数据传输系统,包括:
接收模块,用于接收数据传输任务,并确定所述数据传输任务对应的待同步数据;
判断模块,用于判断所述待同步数据的目标服务器是否配置RDMA网卡;
传输模块,用于所述判断模块的判断结果为是时,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,所述预设接口为支持RDMA协议的接口。
可选的,还包括:
硬件配置模块,用于在Spark集群中添加所述预设接口,并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请还提供一种服务器,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本申请提供一种Spark集群中的数据传输方法,包括:接收数据传输任务,并确定所述数据传输任务对应的待同步数据;判断所述待同步数据的目标服务器是否配置RDMA网卡;若是,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,所述预设接口为支持RDMA协议的接口。
本申请应用RDMA网卡,利用远程内存直接访问技术,减少待同步数据在服务器内部的复制副本数量,使得待同步数据直接在源端内存和目标端内存之间传输,提高了待同步数据的网络传输速率。
本申请还提供一种Spark集群中的数据传输系统、计算机可读存储介质和服务器,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种Spark集群中的数据传输方法的流程图;
图2为本申请实施例所提供的一种Spark集群中的数据传输过程示意图;
图3为本申请实施例所提供的一种Spark集群中的数据传输系统结构示意图。
具体实施方式
为使本申请实施例的目标、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种Spark集群中的数据传输方法的流程图,该方法包括:
S101:接收数据传输任务,并确定所述数据传输任务对应的待同步数据;
本步骤旨在接收数据传输任务,并确定相应的待同步数据。本实施例可以针对Spark集群中服务器之间传输的中间数据,所谓中间数据,指Spark集群运行计算所产生的中间过程数据。
Spark作为分布式内存计算引擎,其中运行了Spark应用程序,以及Driver,该Driver用于运行上述Spark应用程序的main函数并创建SparkContext,创建SparkContext的目的是为了准备Spark应用程序的运行环境,在Spark集群中有SparkContext负责与ClusterManager通信,进行资源申请、任务的分配和监控等,当执行器运行完毕后,Driver同时负责将SparkContext关闭。
执行器则是运行在工作节点的进程,负责运行任务单元。而一个Job包含多个弹性分布式数据集及作用于相应弹性分布式数据集上的各种操作,Stage是Job的基本调度单位,一个Job会分为多组Task,每组Task被称为Stage,或者也被称为TaskSet,代表一组关联的,相互之间没有Shuffle依赖关系的任务组成的任务集。一个Spark应用程序由一个Driver和若干个Job构成,一个Job由多个Stage构成,一个Stage由多个没有Shuffle关系的Task组成。
当执行一个Spark应用程序时,会产生若干中间数据,例如各Job对应的运行数据,均可以作为本步骤中的待同步数据。
需要注意的是,本步骤中的数据传输任务并不限定其任务分配方式,以及任务的具体形式。当存在需要同步的数据时,可以视为接收到数据传输任务,也可以在接收到待同步数据的数据同步指令时,视为接收到数据传输任务。一种优选的执行方式可以为,检测到数据Shuffle任务时,生成相应的数据传输任务。Shuffle任务对应MapReduce的三大阶段的中间阶段,即从map阶段到reduce阶段之间的阶段,其中常需要时间数据传输的传输过程。
S102:判断所述待同步数据的目标服务器是否配置RDMA网卡;若是,进入S102;
本步骤旨在判断目标服务器是否配置RDMA网卡。RDMA是一种智能网卡与软件架构充分优化的远端内存直接高速访问技术,通过将RDMA协议固化于硬件(即网卡)上,以及支持Zero-copy和Kernel bypass这两种途径来达到其高性能的远程直接数据存取的目标。使用RDMA技术,使得应用程序能够直接执行数据传输,在不涉及到网络软件栈的情况下。数据能够被直接发送到缓冲区或者能够直接从缓冲区里接收,而不需要被复制到网络层。同时应用程序可以直接在用户态执行数据传输,不需要在内核态与用户态之间做上下文切换。此外,还无需CPU干预。应用程序可以访问远程主机内存而不消耗远程主机中的任何CPU。远程主机内存能够被读取而不需要远程主机上的进程或CPU参与。远程主机的CPU的缓存不会被访问的内存内容所填充。
在具体的远程内存读写中,RDMA操作用于读写操作的远程虚拟内存地址包含在RDMA消息中传送,远程应用程序要做的只是在其本地网卡中注册相应的内存缓冲区。远程节点的CPU除在连接建立、注册调用等之外,在整个RDMA数据传输过程中并不提供服务,因此没有带来任何负载。
本步骤旨在判断目标服务器是否已经配置RDMA网卡,若判断结果为是,则可进入步骤S103。
容易理解的是,若判断结果为是,则表明在执行本步骤前,已经在Spark集群中添加所述预设接口,并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件,即实现了对RDMA网卡的配置过程。当然RDMA网卡的配置过程还可以包含其他操作,在此不一一具体限定。
S103:将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区。
一旦目标服务器配置RDMA网卡,可以通过RDMA技术传输待同步数据。需要注意的是,本实施例默认源端服务器已经实现了RDMA技术的相关配置,例如已经配置完毕RDMA网卡。
则此后,可以借助源端内存并通过预设接口写入目标服务器的目标端内存,此后在目标服务器内部,可实现目标端内存直接传输至目标Spark集群缓冲区。容易理解的是,该预设接口为支持RDMA协议的接口。
此外,本步骤中“从源端内存”指需要申请相应的源端内存空间。则在执行本步骤之前,可以向源端内存池发出缓存空间的申请信息,该缓存空间大小与待同步数据的数据容量相对应,即确保能够满足待同步数据的正常传输。
若源端内存池当前剩余缓存满足缓存空间,分配缓存空间,此后即可利用缓存空间执行本步骤;若源端内存池当前剩余缓存未满足缓存空间,挂起该数据传输任务,并以预设时间周期重复向源端内存池发出申请信息,直至当前剩余缓存满足缓存空间时,执行本步骤。在此对于预设时间周期不作具体限定,其目的在于定时申请,以期尽快申请到缓存空间,以便实现待同步数据的传输。
一旦申请到缓存空间,将待同步数据复制至缓存空间,并调用Spark集群中源端的执行器启动RDMA传输线程,利用RDMA传输线程将待同步数据传输至目标服务器中的目标执行器,并由目标执行器将待同步数据同步目标端内存。需要注意的是,启用RDMA传输线程传输至目标执行器与上文传输至目标服务器的目标端内存并不冲突,该过程可以为将待同步数据直接传输至目标执行器对应的内存,而目标执行器对应内存实际为目标服务器中内存池为目标服务器分配的内存空间。
更优选的,分配缓存空间时,还可以记录缓存空间对应的页面号。则经由目标端内存传输至目标服务器包含的目标Spark集群缓冲区之后,可以删除页面号,并释放页面号对应的缓存空间。
此外,若目标服务器未配置RDMA网卡,此时只能应用传统的TCP/IP连接进行待同步数据的传输。
本申请应用RDMA网卡,利用远程内存直接访问技术,减少待同步数据在服务器内部的复制副本数量,使得待同步数据直接在源端内存和目标端内存之间传输,提高了待同步数据的网络传输效率。同时将待同步数据经由TCP/IP网络中传输改为RAMA直连,大大提高了待同步数据的传输速度。
参见图2,图2为本申请实施例所提供的一种Spark集群中的数据传输过程示意图,可以看出,对于待同步数据,进过数据复制操作到HCA(Host Channel Adapter,主机通道适配器),HCA能够使受管设备能够通过端口连接至其他设备,可以将该端口连接至另一个HCA、目标设备或交换机。图2中,HCA用于实现源端服务器和目标端服务器之间的传输,同时配置相应的HCA driver,即HCA驱动,其可以作为RDMA网卡的一种配置方式。
而当前Spark集群使用网络是传统的TCP/IP协议网络,传统的TCP Socket数据传输需要经过很多步骤:
1,数据先从源端Spark执行器程序的缓存区拷贝到当前主机的Sockets缓存区;
2,数据由Sockets缓存区拷贝到TransportProtocol Driver缓存区;
3,数据由TransportProtocol Driver缓存区拷贝到NIC Driver,最后NIC通过以太网络将数据发送到目标主机的NIC,目标主机又经过上面步骤将数据传输到目标主机的应用程序内存中,需要分别在源端和目标端复制三次。
显然,本申请仅需要在源端和目标端仅复制一次待同步数据即可实现数据的传输,大大提高了数据传输效率。
下面对本申请实施例提供的Spark集群中的数据传输系统进行介绍,下文描述的park集群中的数据传输系统与上文描述的Spark集群中的数据传输方法可相互对应参照。
参见图3,图3为本申请实施例所提供的一种Spark集群中的数据传输系统结构示意图,本申请还提供一种Spark集群中的数据传输系统,包括:
接收模块,用于接收数据传输任务,并确定所述数据传输任务对应的待同步数据;
判断模块,用于判断所述待同步数据的目标服务器是否配置RDMA网卡;
传输模块,用于所述判断模块的判断结果为是时,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,所述预设接口为支持RDMA协议的接口。
基于上述实施例,作为优选的实施例,还包括:
硬件配置模块,用于在Spark集群中添加所述预设接口,并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。
基于上述实施例,作为优选的实施例,还包括:
内存申请模块,用于向源端内存池发出缓存空间的申请信息;所述缓存空间大小与所述待同步数据的数据容量相对应;
内存分配模块,用于若所述源端内存池当前剩余缓存满足所述缓存空间,分配缓存空间,并跳转至所述传输模块执行将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存的步骤;
任务挂起模块,用于若所述源端内存池当前剩余缓存未满足所述缓存空间,挂起所述数据传输任务,以预设时间周期重复向源端内存池发出所述申请信息,直至所述当前剩余缓存满足所述缓存空间时先跳转至所述内存分配模块,再跳转至所述传输模块执行将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存的步骤。
基于上述实施例,作为优选的实施例,传输模块包括:
复制单元,用于将所述待同步数据复制至所述缓存空间,并调用所述Spark集群中源端的执行器启动RDMA传输线程;
传输单元,用于利用所述RDMA传输线程将所述待同步数据传输至目标服务器中的目标执行器,并由所述目标执行器将所述待同步数据同步所述目标端内存。
基于上述实施例,作为优选的实施例,还包括:
内存页面记录模块,用于记录所述缓存空间对应的页面号;
所述内存页面记录模块,还用于删除所述页面号,并释放所述页面号对应的缓存空间。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种服务器,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述服务器还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种Spark集群中的数据传输方法,其特征在于,包括:
接收数据传输任务,并确定所述数据传输任务对应的待同步数据;
判断所述待同步数据的目标服务器是否配置RDMA网卡;
若是,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,所述预设接口为支持RDMA协议的接口。
2.根据权利要求1所述的数据传输方法,其特征在于,判断所述待同步数据的目标服务器是否配置RDMA网卡之前,还包括:
在Spark集群中添加所述预设接口,并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。
3.根据权利要求1所述的数据传输方法,其特征在于,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存之前,还包括:
向源端内存池发出缓存空间的申请信息;所述缓存空间大小与所述待同步数据的数据容量相对应;
若所述源端内存池当前剩余缓存满足所述缓存空间,分配缓存空间,利用所述缓存空间执行将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤;
若所述源端内存池当前剩余缓存未满足所述缓存空间,挂起所述数据传输任务,以预设时间周期重复向源端内存池发出所述申请信息,直至所述当前剩余缓存满足所述缓存空间时,利用所述缓存空间执行将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤。
4.根据权利要求3所述的数据传输方法,其特征在于,将所述待同步数据从源端内存写入至所述目标服务器的目标端内存的步骤包括:
将所述待同步数据复制至所述缓存空间,并调用所述Spark集群中源端的执行器启动RDMA传输线程;
利用所述RDMA传输线程将所述待同步数据传输至目标服务器中的目标执行器,并由所述目标执行器将所述待同步数据同步所述目标端内存。
5.根据权利要求3所述的数据传输方法,其特征在于,分配缓存空间时,还包括:
记录所述缓存空间对应的页面号;
则经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区之后,还包括:
删除所述页面号,并释放所述页面号对应的缓存空间。
6.根据权利要求1所述的数据传输方法,其特征在于,所述接收数据传输任务之前,还包括:
检测到数据Shuffle任务时,生成相应的数据传输任务。
7.一种Spark集群中的数据传输系统,其特征在于,包括:
接收模块,用于接收数据传输任务,并确定所述数据传输任务对应的待同步数据;
判断模块,用于判断所述待同步数据的目标服务器是否配置RDMA网卡;
传输模块,用于所述判断模块的判断结果为是时,将所述待同步数据从源端内存通过预设接口写入至所述目标服务器的目标端内存,并经由所述目标端内存传输至目标服务器包含的目标Spark集群缓冲区;其中,所述预设接口为支持RDMA协议的接口。
8.根据权利要求7所述的数据传输系统,其特征在于,还包括:
硬件配置模块,用于在Spark集群中添加所述预设接口,并在Spark集群所属服务器中添加所述预设接口对应的RAMA网卡硬件。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的Spark集群中的数据传输方法的步骤。
10.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的Spark集群中的数据传输方法的步骤。
CN202111424693.3A 2021-11-26 2021-11-26 一种Spark集群中的数据传输方法、系统及相关装置 Withdrawn CN114172916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111424693.3A CN114172916A (zh) 2021-11-26 2021-11-26 一种Spark集群中的数据传输方法、系统及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111424693.3A CN114172916A (zh) 2021-11-26 2021-11-26 一种Spark集群中的数据传输方法、系统及相关装置

Publications (1)

Publication Number Publication Date
CN114172916A true CN114172916A (zh) 2022-03-11

Family

ID=80481199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111424693.3A Withdrawn CN114172916A (zh) 2021-11-26 2021-11-26 一种Spark集群中的数据传输方法、系统及相关装置

Country Status (1)

Country Link
CN (1) CN114172916A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550384A (zh) * 2022-11-25 2022-12-30 苏州浪潮智能科技有限公司 集群数据同步方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550384A (zh) * 2022-11-25 2022-12-30 苏州浪潮智能科技有限公司 集群数据同步方法、装置、设备及计算机可读存储介质
CN115550384B (zh) * 2022-11-25 2023-03-10 苏州浪潮智能科技有限公司 集群数据同步方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
KR102209452B1 (ko) 데이터 전송 방법, 장치 및 시스템
US7707337B2 (en) Object-based storage device with low process load and control method thereof
EP2821925B1 (en) Distributed data processing method and apparatus
JP2007011673A (ja) ホスト間データ転送方法、プログラム及びシステム
CN103793258A (zh) 基于管理程序的服务器复制系统及其方法
CN103095834A (zh) 一种跨虚拟化数据中心的虚拟机在线迁移方法
US11792272B2 (en) Establishment of socket connection in user space
CN102012899A (zh) 一种数据更新的方法、系统及设备
JP5124430B2 (ja) 仮想マシンの移行方法、サーバ、及び、プログラム
US7376679B2 (en) Facilitating delayed block allocation in a distributed file system
CN103885811A (zh) 虚拟机系统全系统在线迁移的方法、系统与装置
CN105760391B (zh) 数据动态重分布的方法、数据节点、名字节点及系统
CN113127139A (zh) 一种基于数据面开发套件dpdk的内存分配方法和装置
CN114172916A (zh) 一种Spark集群中的数据传输方法、系统及相关装置
US20210397492A1 (en) Establishment of queue between threads in user space
US20170366612A1 (en) Parallel processing device and memory cache control method
JP2012226471A (ja) 通信方法および通信サーバ
CN110445580B (zh) 数据发送方法及装置、存储介质、电子装置
JP5518143B2 (ja) 仮想マシンの移行方法、サーバ、プログラム、及び、仮想マシンシステム
JP2013003691A (ja) 計算機システムおよびその計算機システムにおけるディスク共有方法
JP2009251756A (ja) クライアント装置、分散ファイルシステム、共有リソース多重化方法およびプログラム
JP2007004710A (ja) ストレージアクセス方式、データ転送装置、ストレージアクセス方法、及びプログラム
CN109343928B (zh) 虚拟化集群中虚拟机的虚拟内存文件重定向方法及其系统
CN108932149A (zh) 数据传输方法及装置
CN107615259A (zh) 一种数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220311

WW01 Invention patent application withdrawn after publication