CN113517991A - 一种加速分布式ai训练云平台的部署方法及相关平台 - Google Patents

一种加速分布式ai训练云平台的部署方法及相关平台 Download PDF

Info

Publication number
CN113517991A
CN113517991A CN202010276391.5A CN202010276391A CN113517991A CN 113517991 A CN113517991 A CN 113517991A CN 202010276391 A CN202010276391 A CN 202010276391A CN 113517991 A CN113517991 A CN 113517991A
Authority
CN
China
Prior art keywords
distributed
network card
training
rdma network
physical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010276391.5A
Other languages
English (en)
Inventor
孙夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixing Technology Co Ltd
Original Assignee
Shenzhen Zhixing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixing Technology Co Ltd filed Critical Shenzhen Zhixing Technology Co Ltd
Priority to CN202010276391.5A priority Critical patent/CN113517991A/zh
Publication of CN113517991A publication Critical patent/CN113517991A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种加速分布式AI训练云平台的部署方法及相关平台。其中提供的一系列加速分布式AI训练云平台的部署方法以及相关平台系统、计算机可读存储介质,通过快速部署,特别是在部署过程中通过有效的RDMA网卡配置或多RDMA网卡配置,实现了加速分布式AI训练云平台系统的快速部署,以及在部署后使之为加速分布式AI训练云平台系统创建分布式训练集群时通过虚拟化机器设备上RDMA网卡/多RDMA网卡提供高效的、甚至更为高效的RDMA通信服务,以实现基于加速通信技术的高效分布式训练。

Description

一种加速分布式AI训练云平台的部署方法及相关平台
技术领域
本发明涉及AI(即人工智能)训练及云计算技术领域,具体地,涉及一种加速分布式AI训练云平台的部署方法及相关平台。
背景技术
AI技术,即人工智能,是计算机科学的一个重要分支,而且越来越成为一支被人们广泛关注的研究方向。广义上来说,人工智能(AI),可以被理解为是使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的技术领域;其中主要则包括计算机实现智能的原理、制造类似于人脑智能的计算机或开发接近于人脑智能的程序等,使计算机能实现更高层次的应用。随着计算机软、硬件技术的发展,人工智能(AI)技术在近几十年也得到了迅速发展,在诸多技术领域也获得了广泛应用。
尤其是近年来深度学习在人工智能(AI)领域表现尤为突出,以深度学习为代表的新一代AI技术,不仅在普罗大众间掀起了又一轮的“人工智能热”,而且可以更直观地看到AI技术在逐步地进入从传统的金融保险、工业制造等到私域化的个人日常生活等广泛的领域。一般来说,广义的深度学习,通常包括深度学习算法以及训练等相关内容;而目前在深度学习领域热度最高的算法即是深度神经网络(Deep Neural Network,DNN)。深度神经网络,是指包括若干隐藏层的神经网络;而其在训练过程中一般是是其中的大量的神经元输入通过不断的迭代更新参数完成模型定型,进而方能应用于生产实践。
为了获得更为精确的模型用于预测,像深度神经网络算法这类的深度学习模型训练都需要大规模的样板数据集。概而言之,即深度学习涉及的计算强度非常高,单一的计算机设备已经无法支撑如此庞大的运算。因此,深度学习模型训练已经基本选择采用了分布式计算。而在分布式机器学习的过程中,自然不可避免的产生大量的数据通信。而传统的TCP/IP网络通信存在的I/O bottleneck瓶颈问题(即在高速网络条件下与网络I/O相关的处理的高开销(例如数据移动操作、复制操作)限制了计算机设备间的带宽;这是由于传统的TCP/IP网络通信是通过内核发送消息的,而Messaging passing through kernel(即消息传输需要内核介入)导致了低性能,这种通信方式存在的很高的数据移动和数据复制的开销。而RDMA(RemoteDirect Memory Access),即远程直接内存访问技术,作为一种无需通信双方操作系统介入、高吞吐、低延迟的网络通信,则很好地避免了上述问题。
但是,随着云计算技术的发展,为了降低分布式训练集群的部署难度和提高集群部署弹性,人们开始逐渐关注分布式训练平台的“云化”。要实现云化,首先就要对原来以物理集群形式应用于训练的硬件资源进行有效管理,且不可避免地涉及对涉及的各类硬件资源进行虚拟化。这其中就涉及支持高效通信的硬件资源的虚拟化;之前的技术方案中,物理集群采用普通网卡(其支持TCP/IP通信),其通信资源的虚拟化将通过内核实现,因此能够很容易实现“云化”以及快速部署。但是,RDMA通信技术不需通信双方操作系统介入,不经过内核协议栈,那么适用于普通网卡的虚拟化技术则不能直接应用于RDMA网卡的虚拟化,进而就不能“云化”及快速部署。
发明内容
有鉴于此,本发明提供一种加速分布式AI训练云平台的部署方法及相关平台。
一方面,本发明实施例提供一种加速分布式AI训练云平台的部署方法。
上述的加速分布式AI训练云平台的部署方法,包括:
当在对应的裸机集群上部署前面述及的加速分布式AI训练平台时,
获取加速分布式AI训练平台的物理集群规格配置;其中,上述的物理集群规格配置包括物理节点资源配置;而上述的物理节点资源配置,包括默认RDMA网卡配置;
然后根据上述的物理集群规格配置在裸机集群上部署加速分布式AI训练平台;其中包括:根据上述的物理节点资源配置分别在裸机集群的各个机器设备上部署相应的分布式AI训练云平台应用、及RDMA网卡虚拟化服务;
在部署过程中,使上述的物理节点资源配置分别与各机器设备上的硬件逐一对应;其中包括:使上述的默认RDMA网卡配置分别与各机器设备上配置的支持硬件虚拟化的RDMA网卡对应;
其中,上述的分布式AI训练云平台应用在部署完成后将被用于提供分布式AI训练云平台服务;而上述的分布式AI训练云平台服务,其中包括:创建分布式训练集群、为分布式训练集群分配相应的物理资源和管理分布式训练集群等,以使之能够对外提供稳定、可靠的分布式训练服务;而上述的RDMA网卡虚拟化服务则将用于与上述的机器设备上支持硬件虚拟化的RDMA网卡一起,实现RDMA网卡的虚拟化,为在分布式AI训练云平台上创建的分布式训练集群中对应的逻辑计算机提供虚拟RDMA网卡以实现RDMA通信服务。
另一方面,本发明实施例提供一种更为高效的加速分布式AI训练云平台的部署方法。
上述的高效加速分布式AI训练云平台的部署方法,包括:
当在对应的裸机集群上部署前面述及的高效加速分布式AI训练平台时,
获取高效加速分布式AI训练平台的物理集群规格配置;其中,上述的物理集群规格配置包括物理节点资源配置;而上述的物理节点资源配置,包括若干(不少于2个)RDMA网卡配置;
然后根据上述的物理集群规格配置在裸机集群上部署高效加速分布式AI训练平台;其中包括:根据上述的物理节点资源配置分别在裸机集群的各个机器设备上部署相应的分布式AI训练云平台应用、及多RDMA网卡虚拟化服务;
在部署过程中,使上述的物理节点资源配置分别与各机器设备上的硬件逐一对应;其中包括:使上述的各个RDMA网卡配置分别与上述各机器设备上配置的各个支持硬件虚拟化的RDMA网卡对应;
其中,上述的分布式AI训练云平台应用在部署完成后将被用于提供分布式AI训练云平台服务;而上述的分布式AI训练云平台服务,其中包括:创建分布式训练集群、为分布式训练集群分配相应的物理资源和管理分布式训练集群等,以使之能够对外提供稳定、可靠的分布式训练服务;上述的各个机器设备则被配置了不少于RDMA网卡配置数的支持硬件虚拟化的RDMA网卡;上述的多RDMA网卡虚拟化服务则包括多RDMA网卡虚拟化管理服务和RDMA网卡虚拟化服务;而其中的RDMA网卡虚拟化服务将用于分别与机器设备上各个支持硬件虚拟化的RDMA网卡一起,实现它们各自的虚拟化;其中的多RDMA网卡虚拟化管理服务则将用于管理上述各RDMA网卡的虚拟化;当组成上述分布式训练集群的逻辑计算机被创建时,多RDMA网卡虚拟化管理服务即从其对应设备的各RDMA网卡确定一可用的RDMA网卡,利用该RDMA网卡资源,为上述的逻辑计算机提供虚拟RDMA网卡以及RDMA通信服务。
再一方面,本发明实施例提供一种加速分布式AI训练云平台系统。
结合第一、第二方面,上述的加速分布式AI训练云平台系统,包括:
分布式任务管理单元和平台物理资源管理单元;
其中,上述的分布式任务管理单元,被用于请求创建分布式训练集群以及管理分布式训练过程;而上述的平台物理资源管理单元,则被用于为上述的分布式训练集群提供其所需硬件资源及服务;具体而言,分布式任务管理单元,根据对应分布式训练任务请求的分布式训练集群规格配置,请求创建相应规格的分布式训练集群;以及在上述分布式训练集群执行训练时,管理分布式训练过程;其中,上述的分布式训练集群规格,是指用于描述分布式训练集群架构等具体内容的信息;例如,分布式训练集群逻辑拓扑等;上述的加速分布式AI训练云平台,一般则部署在由若干台(一般为多台)配置有若干支持硬件虚拟化的RDMA网卡的机器设备组成的裸机集群上;而平台物理资源管理单元,则根据上述的分布式训练集群规格配置等,为被创建的分布式训练集群中的各个逻辑计算机,提供其对应机器设备上的硬件资源及服务;其中,上述的平台物理资源管理单元,包括:
提供第一方面述及的加速分布式AI训练云平台的部署方法中的RDMA网卡虚拟化服务或第二方面述及的高效加速分布式AI训练云平台的部署方法中的多RDMA网卡虚拟化服务,以通过其在分布式训练集群对应的机器设备上,利用所述机器设备上的RDMA网卡资源,分别为分布式训练集群中对应的逻辑计算机提供虚拟RDMA网卡以及RDMA通信服务。
又一方面,本发明实施例提供一种计算机可读存储介质。
结合第一、第二方面,上述的计算机可读存储介质,存储有用于分布式AI训练云平台部署的代码,其中包括用于执行第一方面述及的加速分布式AI训练云平台的部署方法或第二方面述及的高效加速分布式AI训练云平台的部署方法操作的指令。
上述实施例提供的一系列加速分布式AI训练云平台的部署方法以及相关平台系统、计算机可读存储介质,通过快速部署,特别是在部署过程中通过有效的RDMA网卡配置或多RDMA网卡配置,实现了加速分布式AI训练云平台系统的快速部署,以及在部署后使之为加速分布式AI训练云平台系统创建分布式训练集群时通过虚拟化机器设备上RDMA网卡/多RDMA网卡提供高效的、甚至更为高效的RDMA通信服务,以实现基于加速通信技术的高效分布式训练。
下面通过附图、具体实施例对本发明的技术方案做进一步的描述。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为展示本发明一些优选实施例提供的一种高效加速分布式AI训练云平台部署过程的流程示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了获得更为精确的模型应用于预测等场景,深度神经网络这类算法涉及的相关模型一般需要提供大量的样本数据进行训练方能获得有实际使用意义的模型结果。然而,若使用单台计算机设备用于上述训练,那显然将耗时很长,显然不符合人们对AI训练效率的要求。于是,在对深度学习模型的训练等,现一般选择分布式训练。然而,在分布式AI训练过程中,自然不可避免的产生大量的数据传输(例如梯度等参数等的更新)。而传统的TCP/IP网络通信存在的通信瓶颈问题,RDMA技术则不存在上述问题。因此,人们在分布式训练集群搭建、部署时,在通信设备上倾向于选择更为高效的RDMA网卡。这一硬件基础设施的改进,对于用于训练的物理集群的搭建部署来说,仅是需要安装相应的硬件设备和在提交任务时手动配置通信网卡配置即可,并不存在难以克服的技术问题。
然而,随着云计算技术的发展,为了降低分布式训练集群的部署难度和提高集群部署弹性,人们开始逐渐关注分布式训练平台的“云化”。对于搭载普通网卡(支持TCP/IP通信)的平台基础设施,即其物理集群设备上采用普通网卡;而其通信资源的虚拟化,则通过部署过程中提供通过网络虚拟化技术实现的虚拟网卡通信服务来实现,而其中的网络虚拟化技术则又是基于内核实现的,可以简单易用的实现快速部署。但是,RDMA通信技术不需通信双方操作系统介入,不经过内核协议栈,因此,显然上述的方案显然不适用于在搭载RDMA网卡的平台基础设施上快速部署加速分布式AI训练云平台系统。
于是,本发明提供一种加速分布式AI训练云平台的部署方法及相关平台。以下为本发明的一些优选实施例。其中,
本发明的一些优选实施例提供一种加速分布式AI训练云平台的部署方法。该方法包括:
当在对应的裸机集群上部署前面述及的加速分布式AI训练平台时,获取加速分布式AI训练平台的物理集群规格配置;其中,加速分布式AI训练平台的物理集群规格配置,包括用来描述加速分布式AI训练云平台(部署后对应)的物理集群架构的具体内容;例如,物理集群逻辑拓扑等;而这些具体内容中就包括物理集群节点的资源配置情况(简称物理节点资源配置);例如,存储、网卡配置等;其中尤其包括:默认RDMA网卡配置;
然后根据上述的物理集群规格配置在裸机集群上部署加速分布式AI训练平台,其中:
根据上述的物理节点资源配置分别在裸机集群的各个机器设备上部署相应的分布式AI训练云平台应用,例如在相应的物理节点上(例如,管理节点、工作节点上)部署相应的分布式AI训练云平台应用(例如,对应管理节点功能的分布式AI训练云平台应用、对应工作节点功能的分布式AI训练云平台应用);并部署RDMA网卡虚拟化服务;
以及包括:在部署过程中,使上述的物理节点资源配置分别与各机器设备上的硬件逐一对应;例如,尤其是使上述的默认RDMA网卡配置分别与各机器设备上配置的支持硬件虚拟化的RDMA网卡对应;
其中,上述的分布式AI训练云平台应用在部署完成后将被用于提供分布式AI训练云平台服务;而上述的分布式AI训练云平台服务,其中包括:创建分布式训练集群、为分布式训练集群分配相应的物理资源和管理分布式训练集群等,以使之能够对外提供稳定、可靠的分布式训练服务;而上述的RDMA网卡虚拟化服务则将用于与上述的机器设备上支持硬件虚拟化的RDMA网卡一起,实现RDMA网卡的虚拟化,为在分布式AI训练云平台上创建的分布式训练集群中对应的逻辑计算机提供虚拟RDMA网卡以基于此实现RDMA通信服务。
进一步地,在上述的优选实施例中的一些提供的一种加速分布式AI训练云平台的部署方法中,其中的部署RDMA网卡虚拟化服务,包括:
在所述机器设备上部署网络虚拟化软件;而上述网络虚拟化软件在部署后运行时,其中包括RDMA网卡虚拟化管理单元;上述的RDMA网卡虚拟化管理单元,分别与机器设备上的RDMA网卡以及被创建的逻辑计算机耦接;其能够获取所述RDMA网卡的RDMA网卡物理功能模块配置信息,并选择可用的RDMA网卡物理功能模块关联的RDMA网卡虚拟功能模块给逻辑计算机,以为其提供虚拟RDMA网卡以基于此实现RDMA通信服务;而上述的RDMA网卡物理功能模块和与之关联的RDMA网卡虚拟功能模块,则即是由上述支持硬件虚拟化的RDMA网卡实现并提供给所述RDMA网卡虚拟化服务的。
在上述的优选实施例提供的加速分布式AI训练云平台的部署方法中,其中的物理节点资源配置对应的物理节点,通常主要包括两种类型的物理节点:管理节点和工作节点。由于它们在平台物理集群中的作用不同,出于成本等的考虑,在兼顾效率的同时,在一些优选实施例中,将会选择采用不同配置的机器设备,在不减损效率的前提下,以更加经济的机器设备对应不同类型的物理节点。因此,进一步地,在上述的优选实施例中的一些提供的一种加速分布式AI训练云平台的部署方法中,其中的物理节点资源配置包括:更加经济适用的管理节点资源配置和工作节点资源配置;
以及部署时,为上述的不同类型的物理节点选择经济适用的机器设备(一般来说,用作管理节点的机器设备,其对硬件配置要求并没有工作节点那么高,因此可以适当地选择低配置或缺省不必要硬件的服务器作为管理节点设备);在根据相应的物理节点资源配置,在相应的机器设备上进行部署:
即根据管理节点资源配置,(获取机器设备信息,并)在管理节点对应的机器设备上部署管理节点对应的分布式AI训练云平台应用及所述服务等;
根据工作节点资源配置,(获取机器设备信息,并)在工作节点对应的机器设备上部署工作节点对应的分布式AI训练云平台应用及所述服务等。
此外,在上述的优选实施例提供的加速分布式AI训练云平台的部署方法中,其中的加速分布式AI训练云平台,在部署后通常还需要提供对外的访问登陆服务、物理集群节点间的通信服务(例如,DHCP服务器分配网卡IP等)等附加或辅助功能;因此,进一步地,在上述的优选实施例中的一些提供的一种加速分布式AI训练云平台的部署方法中,其中的物理节点资源配置还包括:对应附加或辅助功能的物理节点的资源配置,即附加/辅助节点资源配置;类似于前面优选实施例中的,对应不同作用的物理节点,同样适用于经济适用原则,采用满足相应功能前提下更加经济适用的机器设备;在部署时,根据所述附加/辅助节点资源配置,在相应的机器设备上进行部署。
本发明的另一些优选实施例提供一种高效加速分布式AI训练云平台的部署方法。该方法包括:
当在对应的裸机集群上部署前面述及的高效加速分布式AI训练平台时,获取高效加速分布式AI训练平台的物理集群规格配置;其中,高效加速分布式AI训练平台的物理集群规格配置,包括用来描述高效加速分布式AI训练平台加速分布式AI训练云平台(部署后对应)的物理集群架构的具体内容;例如,物理集群逻辑拓扑等;而这些具体内容中就包括物理集群节点的资源配置情况(简称物理节点资源配置);例如,存储、网卡配置等;其中尤其包括:不少于2个的RDMA网卡配置;
然后根据上述的物理集群规格配置在裸机集群上部署高效加速分布式AI训练平台,其中:
根据上述的物理节点资源配置分别在裸机集群的各个机器设备上部署相应的分布式AI训练云平台应用,例如在相应的物理节点上(例如,管理节点、工作节点上)部署相应的分布式AI训练云平台应用(例如,对应管理节点功能的分布式AI训练云平台应用、对应工作节点功能的分布式AI训练云平台应用);并部署多RDMA网卡虚拟化服务;
以及包括:在部署过程中,使上述的物理节点资源配置分别与各机器设备上的硬件逐一对应;例如,尤其是使上述的各个RDMA网卡配置分别与上述各机器设备上配置的各个支持硬件虚拟化的RDMA网卡对应;
其中,上述的分布式AI训练云平台应用在部署完成后将被用于提供分布式AI训练云平台服务;而上述的分布式AI训练云平台服务,其中包括:创建分布式训练集群、为分布式训练集群分配相应的物理资源和管理分布式训练集群等,以使之能够对外提供稳定、可靠的分布式训练服务;上述的各个机器设备则被配置了不少于RDMA网卡配置数的支持硬件虚拟化的RDMA网卡;上述的多RDMA网卡虚拟化服务则包括多RDMA网卡虚拟化管理服务和RDMA网卡虚拟化服务;而其中的RDMA网卡虚拟化服务将用于分别与机器设备上各个支持硬件虚拟化的RDMA网卡一起,实现它们各自的虚拟化;其中的多RDMA网卡虚拟化管理服务则将用于管理上述各RDMA网卡的虚拟化;当组成上述分布式训练集群的逻辑计算机被创建时,多RDMA网卡虚拟化管理服务即从对应机器设备的各RDMA网卡确定一可用的RDMA网卡,利用该RDMA网卡资源,为上述的逻辑计算机提供虚拟RDMA网卡以及RDMA通信服务。
进一步地,在上述的优选实施例中的一些提供的一种高效加速分布式AI训练云平台的部署方法。该方法中,其中的部署多RDMA网卡虚拟化服务,包括:
在所述机器设备上部署网络虚拟化软件;而上述网络虚拟化软件在部署后运行时,其中包括多RDMA网卡虚拟化管理单元;分别与机器设备上的RDMA网卡以及被创建的逻辑计算机耦接;其能够获取机器设备上各个RDMA网卡的RDMA网卡物理功能模块配置信息,并从中选择RDMA网卡物理功能模块以及可用的与所述RDMA网卡物理功能模块关联的RDMA网卡虚拟功能模块给逻辑计算机,以为其提供虚拟RDMA网卡以基于此实现RDMA通信服务;而上述的各RDMA网卡物理功能模块和与之关联的RDMA网卡虚拟功能模块,则即是由对应的支持硬件虚拟化的RDMA网卡实现并提供给所述RDMA网卡虚拟化服务的。
在上述的优选实施例提供的高效加速分布式AI训练云平台的部署方法中,其中的物理节点资源配置对应的物理节点,通常主要包括两种类型的物理节点:管理节点和工作节点。由于它们在平台物理集群中的作用不同,出于成本等的考虑,在兼顾效率的同时,在一些优选实施例中,将会选择采用不同配置的机器设备,在不减损效率的前提下,以更加经济的机器设备对应不同类型的物理节点。因此,进一步地,在上述的优选实施例中的一些提供的一种高效加速分布式AI训练云平台的部署方法中,其中的物理节点资源配置包括:更加经济适用的管理节点资源配置和工作节点资源配置;
以及部署时,为上述的不同类型的物理节点选择经济适用的机器设备(一般来说,用作管理节点的机器设备,其对硬件配置要求并没有工作节点那么高,因此可以适当地选择低配置或缺省不必要硬件的服务器作为管理节点设备);在根据相应的物理节点资源配置,在相应的机器设备上进行部署:
即根据管理节点资源配置,(获取机器设备信息,并)在管理节点对应的机器设备上部署管理节点对应的分布式AI训练云平台应用及所述服务等;
根据工作节点资源配置,(获取机器设备信息,并)在工作节点对应的机器设备上部署工作节点对应的分布式AI训练云平台应用及所述服务等。
此外,在上述的优选实施例提供的高效加速分布式AI训练云平台的部署方法中,其中的高效加速分布式AI训练云平台,在部署后通常还需要提供对外的访问登陆服务、物理集群节点间的通信服务(例如,DHCP服务器分配网卡IP等)等附加或辅助功能;因此,进一步地,在上述的优选实施例中的一些提供的一种高效加速分布式AI训练云平台的部署方法中,其中的物理节点资源配置还包括:对应附加或辅助功能的物理节点的资源配置,即附加/辅助节点资源配置;类似于前面优选实施例中的,对应不同作用的物理节点,同样适用于经济适用原则,采用满足相应功能前提下更加经济适用的机器设备;在部署时,根据所述附加/辅助节点资源配置,在相应的机器设备上进行部署。
以下结合具体实施例及附图来详细说明上述平台部署的过程。
如图1所示,其示意了上述分布式AI训练平台部署的主要步骤。以下以在具有多台配置有两张支持SR-IOV功能的RDMA网卡的服务器设备组成的裸机集群上部署基于Kubernetes且支持RDMA高效通信的分布式AI训练平台的过程为例,进行详细说明。
其中包括:
获取上述分布式AI训练平台的物理集群规格配置;其中,所述物理集群规格配置包括物理节点资源配置,例如工作节点资源配置、管理节点配置等;而其中尤其包括两个对应服务器设备配置的RDMA网卡的RDMA网卡配置;
根据所述物理集群规格配置在裸机集群上部署高效加速分布式AI训练平台:即根据所述物理节点资源配置分别在各个服务器上部署相应功能的Kubernetes应用、mult_sriov_cni(一种为容器/Pod提供虚拟网卡接口的插件)以及相关RDMA驱动等;
在部署过程中,使所述物理节点资源配置分别与各机器设备上的硬件逐一对应;
其中就包括:使上述的两个RDMA网卡配置分别与上述各机器设备上配置的两个支持硬件虚拟化的RDMA网卡对应起来。
在上述优选实施例提供的部署方法基础上,本发明的再一些优选实施例提供一种加速分布式AI训练云平台系统。经上述方法部署完成后,所述的加速分布式AI训练云平台系统包括:分布式任务管理单元和平台物理资源管理单元;
其中,分布式任务管理单元,被用于请求创建分布式训练集群以及管理分布式训练过程;例如,其中可以包括:
根据算法工程师提交的预先设定的、或平台生成的对应分布式训练任务请求的分布式训练集群规格配置(用于描述分布式训练集群规模、架构等具体内容的信息;例如,分布式训练集群逻辑拓扑等),请求平台创建相应规格的分布式训练集群;以及在分布式训练集群创建后和执行训练时,管理分布式训练过程;如查询训练进度、查询训练集群资源利用情况、管理训练集群资源等;
而上述的加速分布式AI训练云平台,一般则部署在由若干台(一般为多台)配置有若干支持硬件虚拟化的RDMA网卡的机器设备组成的裸机集群上;那么,自然地,上述的平台物理资源管理单元,即被用于为上述的分布式训练集群提供其所需硬件资源及服务;具体地,例如,根据上述的分布式训练集群规格配置等,平台物理资源管理单元在分布式训练集群创建时为被创建的分布式训练集群中的各个逻辑计算机,提供其对应机器设备上的硬件资源及服务;以及尤其包括:
提供上述任一优选实施例中述及的加速分布式AI训练云平台的部署方法或高效加速分布式AI训练云平台的部署方法中的RDMA网卡虚拟化服务或多RDMA网卡虚拟化服务,以通过其在分布式训练集群对应的机器设备上,利用所述机器设备上的RDMA网卡资源,分别为分布式训练集群中对应的逻辑计算机提供虚拟RDMA网卡以及RDMA通信服务。
在上述优选实施例提供的部署方法基础上,本发明的又一些优选实施例提供一种计算机可读存储介质。该计算机可读存储介质,存储有用于分布式AI训练云平台部署的代码,其中包括用于执行上述任一优选实施例中的加速分布式AI训练云平台的部署方法或高效加速分布式AI训练云平台的部署方法操作的指令。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。

Claims (10)

1.一种加速分布式AI训练云平台的部署方法,其特征在于,包括:
当在对应的裸机集群上部署所述加速分布式AI训练平台时,
获取加速分布式AI训练平台的物理集群规格配置;其中,
所述的物理集群规格配置包括物理节点资源配置;而所述的物理节点资源配置,包括默认RDMA网卡配置;
根据所述物理集群规格配置在裸机集群上部署加速分布式AI训练平台;
其中包括:根据所述物理节点资源配置分别在裸机集群的各个机器设备上部署相应的分布式AI训练云平台应用、及RDMA网卡虚拟化服务;
在部署过程中,使所述的物理节点资源配置分别与各机器设备上的硬件逐一对应;其中包括:使所述默认RDMA网卡配置分别与各机器设备上配置的支持硬件虚拟化的RDMA网卡对应;
其中,所述的分布式AI训练云平台应用在部署完成后将被用于提供分布式AI训练云平台服务;其中包括:创建和管理分布式训练集群以及分布式训练集群分配相应的物理资源;而所述的RDMA网卡虚拟化服务则将用于与所述的支持硬件虚拟化的RDMA网卡一起,为在分布式AI训练云平台上创建的分布式训练集群中对应的逻辑计算机提供虚拟RDMA网卡以实现RDMA通信。
2.根据权利要求1所述的加速分布式AI训练云平台的部署方法,其特征在于,
其中的部署RDMA网卡虚拟化服务,包括:
在所述机器设备上部署网络虚拟化软件;而所述网络虚拟化软件在部署后运行时,其中包括RDMA网卡虚拟化管理单元;
所述的RDMA网卡虚拟化管理单元,能够获取所述RDMA网卡的RDMA网卡物理功能模块配置,并选择可用的RDMA网卡物理功能模块关联的RDMA网卡虚拟功能模块给逻辑计算机,以提供虚拟RDMA网卡;
其中,所述支持硬件虚拟化的RDMA网卡,提供所述的RDMA网卡物理功能模块和与之关联的RDMA网卡虚拟功能模块。
3.根据权利要求1所述的加速分布式AI训练云平台的部署方法,其特征在于,
其中的物理节点资源配置包括:管理节点资源配置和工作节点资源配置;
在部署时,为所述的不同类型的物理节点选择经济适用的机器设备;并根据相应的物理节点资源配置,在相应的机器设备上进行部署。
4.根据权利要求1所述的加速分布式AI训练云平台的部署方法,其特征在于,
其中的物理节点资源配置包括:附加/辅助节点资源配置;
在部署时,选择经济适用的机器设备作为附加/辅助节点;
并根据所述附加/辅助节点资源配置,在相应的机器设备上进行部署。
5.一种高效加速分布式AI训练云平台的部署方法,其特征在于,包括:
当在对应的裸机集群上部署所述高效加速分布式AI训练平台时,
获取高效加速分布式AI训练平台的物理集群规格配置;其中,
所述的物理集群规格配置包括物理节点资源配置;而所述的物理节点资源配置,包括不少于2个的RDMA网卡配置;
根据所述物理集群规格配置在裸机集群上部署高效加速分布式AI训练平台;
其中包括:根据所述物理节点资源配置分别在裸机集群的各个机器设备上部署相应的分布式AI训练云平台应用、及多RDMA网卡虚拟化服务;
在部署过程中,使所述的物理节点资源配置分别与各机器设备上的硬件逐一对应;其中包括:使所述的各个RDMA网卡配置分别与各机器设备上配置的各个支持硬件虚拟化的RDMA网卡对应;
其中,所述的分布式AI训练云平台应用在部署完成后将被用于提供分布式AI训练云平台服务;其中包括:创建和管理分布式训练集群以及分布式训练集群分配相应的物理资源;而所述的多RDMA网卡虚拟化服务,则包括多RDMA网卡虚拟化管理服务和RDMA网卡虚拟化服务;其中的RDMA网卡虚拟化服务,将用于分别与机器设备上各个支持硬件虚拟化的RDMA网卡一起,实现各RDMA网卡的虚拟化;其中的多RDMA网卡虚拟化管理服务,用于管理所述各RDMA网卡的虚拟化:
当组成分布式训练集群的逻辑计算机被创建时,多RDMA网卡虚拟化管理服务即从对应设备的各RDMA网卡确定一可用的RDMA网卡,利用该RDMA网卡资源,为逻辑计算机提供虚拟RDMA网卡以实现RDMA通信。
6.根据权利要求5所述的高效加速分布式AI训练云平台的部署方法,其特征在于,
其中的部署多RDMA网卡虚拟化服务,包括:
在所述机器设备上部署网络虚拟化软件;而所述网络虚拟化软件在部署后运行时,其中包括多RDMA网卡虚拟化管理单元;
所述的多RDMA网卡虚拟化管理单元,能够获取所述的各RDMA网卡的RDMA网卡物理功能模块配置,并从中选择RDMA网卡物理功能模块以及可用的与所述RDMA网卡物理功能模块关联的RDMA网卡虚拟功能模块给逻辑计算机,以提供虚拟RDMA网卡;
其中,所述的各个支持硬件虚拟化的RDMA网卡,提供各自的RDMA网卡物理功能模块和与之关联的RDMA网卡虚拟功能模块。
7.根据权利要求5所述的高效加速分布式AI训练云平台的部署方法,其特征在于,
其中的物理节点资源配置包括:管理节点资源配置和工作节点资源配置;
在部署时,为所述的不同类型的物理节点选择经济适用的机器设备;并根据相应的物理节点资源配置,在相应的机器设备上进行部署。
8.根据权利要求5所述的高效加速分布式AI训练云平台的部署方法,其特征在于,
其中的物理节点资源配置包括:附加/辅助节点资源配置;
在部署时,选择经济适用的机器设备作为附加/辅助节点;
并根据所述附加/辅助节点资源配置,在相应的机器设备上进行部署。
9.一种加速分布式AI训练云平台系统,其特征在于,包括:
分布式任务管理单元和平台物理资源管理单元;
分布式任务管理单元,用于请求创建分布式训练集群以及管理分布式训练过程;平台物理资源管理单元,用于为所述的分布式训练集群提供其所需硬件资源及服务;其中,
分布式任务管理单元,根据对应分布式训练任务请求的分布式训练集群规格配置,请求创建相应规格的分布式训练集群;以及管理所述分布式训练集群的分布式训练过程;其中,所述分布式训练集群规格,用于描述分布式训练集群架构的具体内容;
平台物理资源管理单元,为被创建的分布式训练集群中的各个逻辑计算机,提供其对应机器设备上的硬件资源及服务;其中包括:
提供权利要求1-4任一所述的加速分布式AI训练云平台的部署方法中的RDMA网卡虚拟化服务或权利要求5-8任一所述的高效加速分布式AI训练云平台的部署方法中的多RDMA网卡虚拟化服务,以通过其在分布式训练集群对应的机器设备上,利用所述机器设备上的RDMA网卡资源,分别为分布式训练集群中对应的逻辑计算机提供虚拟RDMA网卡、及基于此的RDMA通信服务。
10.一种计算机可读存储介质,其特征在于,
存储有用于分布式AI训练云平台部署的代码;
其中包括用于执行权利要求1-8任一所述的部署方法操作的指令。
CN202010276391.5A 2020-04-09 2020-04-09 一种加速分布式ai训练云平台的部署方法及相关平台 Pending CN113517991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010276391.5A CN113517991A (zh) 2020-04-09 2020-04-09 一种加速分布式ai训练云平台的部署方法及相关平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010276391.5A CN113517991A (zh) 2020-04-09 2020-04-09 一种加速分布式ai训练云平台的部署方法及相关平台

Publications (1)

Publication Number Publication Date
CN113517991A true CN113517991A (zh) 2021-10-19

Family

ID=78060467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010276391.5A Pending CN113517991A (zh) 2020-04-09 2020-04-09 一种加速分布式ai训练云平台的部署方法及相关平台

Country Status (1)

Country Link
CN (1) CN113517991A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105450588A (zh) * 2014-07-31 2016-03-30 华为技术有限公司 一种基于rdma的数据传输方法及rdma网卡
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN110297670A (zh) * 2019-05-17 2019-10-01 北京瀚海星云科技有限公司 一种提高容器云上分布式任务训练效率的方法及系统
CN110308986A (zh) * 2019-05-17 2019-10-08 北京瀚海星云科技有限公司 基于优化调度的容器云上分布式训练数据通信的方法
US20190325302A1 (en) * 2018-04-23 2019-10-24 EMC IP Holding Company LLC Implementing parameter server in networking infrastructure for high-performance computing
CN113515341A (zh) * 2020-04-09 2021-10-19 深圳致星科技有限公司 一种灵活的分布式ai训练云平台部署方法及相关平台

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105450588A (zh) * 2014-07-31 2016-03-30 华为技术有限公司 一种基于rdma的数据传输方法及rdma网卡
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
US20190325302A1 (en) * 2018-04-23 2019-10-24 EMC IP Holding Company LLC Implementing parameter server in networking infrastructure for high-performance computing
CN110297670A (zh) * 2019-05-17 2019-10-01 北京瀚海星云科技有限公司 一种提高容器云上分布式任务训练效率的方法及系统
CN110308986A (zh) * 2019-05-17 2019-10-08 北京瀚海星云科技有限公司 基于优化调度的容器云上分布式训练数据通信的方法
CN113515341A (zh) * 2020-04-09 2021-10-19 深圳致星科技有限公司 一种灵活的分布式ai训练云平台部署方法及相关平台

Similar Documents

Publication Publication Date Title
Chen et al. Energy-efficient offloading for DNN-based smart IoT systems in cloud-edge environments
CN110187973B (zh) 一种面向边缘计算的服务部署优化方法
CN113515341A (zh) 一种灵活的分布式ai训练云平台部署方法及相关平台
CN108460457A (zh) 一种面向卷积神经网络的多机多卡混合并行异步训练方法
CN109086134A (zh) 一种深度学习作业的运行方法和装置
CN106951926A (zh) 一种混合架构的深度学习系统方法及装置
Dong et al. NOMA-based energy-efficient task scheduling in vehicular edge computing networks: A self-imitation learning-based approach
Pluzhnik et al. Optimal control of applications for hybrid cloud services
Song et al. Gaia scheduler: A kubernetes-based scheduler framework
CN109815025A (zh) 业务模型调用方法、装置及存储介质
CN109117252A (zh) 基于容器的任务处理的方法、系统及容器集群管理系统
CN110308986B (zh) 基于优化调度的容器云上分布式训练数据通信的方法
CN114374609B (zh) 基于rdma设备的深度学习作业运行方法及系统
CN110430068A (zh) 一种特征工程编排方法及装置
CN114710330A (zh) 一种基于异构分层联邦学习的异常检测方法
Hu et al. Pipeedge: Pipeline parallelism for large-scale model inference on heterogeneous edge devices
Xie et al. Loosely coupled cloud robotic framework for QoS-driven resource allocation-based Web service composition
CN111435315A (zh) 分配资源的方法、装置、设备和计算机可读介质
Liu et al. Reliability modelling and optimization for microservice‐based cloud application using multi‐agent system
Zhou et al. Blockchain-based volunteer edge cloud for IoT applications
Wu et al. Deep reinforcement learning-based online task offloading in mobile edge computing networks
Narantuya et al. Multi-Agent Deep Reinforcement Learning-Based Resource Allocation in HPC/AI Converged Cluster.
CN110442753A (zh) 一种基于opc ua的图数据库自动建立方法及装置
Zanbouri et al. A new fog-based transmission scheduler on the Internet of multimedia things using a fuzzy-based quantum genetic algorithm
Chi et al. How matching theory enables multi-access edge computing adaptive task scheduling in iiot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211019