CN114584504B - 一种ai训练平台的网卡通信方法、装置、设备及介质 - Google Patents

一种ai训练平台的网卡通信方法、装置、设备及介质 Download PDF

Info

Publication number
CN114584504B
CN114584504B CN202210478751.9A CN202210478751A CN114584504B CN 114584504 B CN114584504 B CN 114584504B CN 202210478751 A CN202210478751 A CN 202210478751A CN 114584504 B CN114584504 B CN 114584504B
Authority
CN
China
Prior art keywords
container
subnet
virtual network
network card
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210478751.9A
Other languages
English (en)
Other versions
CN114584504A (zh
Inventor
王文潇
康英杰
王德奎
陈培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210478751.9A priority Critical patent/CN114584504B/zh
Publication of CN114584504A publication Critical patent/CN114584504A/zh
Priority to PCT/CN2022/102609 priority patent/WO2023206799A1/zh
Application granted granted Critical
Publication of CN114584504B publication Critical patent/CN114584504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17331Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种AI训练平台的网卡通信方法、装置、设备及介质,涉及人工智能技术领域,包括:基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。通过本申请的技术方案,能够通过子网通信策略路由规则实现不同虚拟网卡之间的通信。

Description

一种AI训练平台的网卡通信方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种AI训练平台的网卡通信方法、装置、设备及介质。
背景技术
AI(Artificial Intelligence,即人工智能)训练场景中会存在大量的数据传输,但受限于传统的操作系统接收与发送网络数据包机制的限制,无法满足训练任务大量数据集下载、巨量训练参数传递的需求。因此大量AI训练平台逐渐开始支持高性能网络,例如Infiniband(即无线宽带技术)、ROCE(即RDMA over Converged Ethernet,一种允许通过以太网使用远程直接内存访问(RDMA)的网络协议)等,当AI服务器存在多个GPU(GraphicProcessing Unit,即图形处理器)卡时,为了获得最优的训练效果,有时单台AI服务器会搭载2个、4个、8个ROCE网卡或Infiniband网卡。对于Infiniband网卡,4.8万节点规模以内,可以接入在一个二层网络,但是对于ROCE网卡,为了避免广播风暴或者符合机房网络统一管理,单台主机上的多个ROCE网卡会被划分到不同的子网,当使用多个宿主机的全部GPU卡进行任务训练任务时,可以通过NCCL(Nvidia Collective multi-GPU CommunicationLibrary的简称,用于实现多GPU的collective communication通信(all-gather, reduce,broadcast)库)的特性来设置 NCCL_CROSS_NIC=0,避免GPU卡跨子网通信的需求,但是对于基于容器构建的AI训练平台,存在将多个主机的部分GPU卡分配给容器,这些GPU卡可能会基于相同子网的ROCE网卡通信,也可能会基于不同子网的ROCE网卡通信,当需要跨子网通信的需求时,由于不同子网之间无法直接通信,会导致训练任务运行失败。如图1所示,图1中由于两个ROCE网卡属于不同的子网,导致无法进行数据传输。
综上,如何在AI训练平台中,实现不同网卡之间的通信是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种AI训练平台的网卡通信方法、装置、设备及介质,能够在AI训练平台中,实现不同网卡之间的通信。其具体方案如下:
第一方面,本申请公开了一种AI训练平台的网卡通信方法,包括:
基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;
对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;
向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。
可选的,所述AI训练平台的网卡通信方法,还包括:
确定所述叶交换机的预设收敛比,并基于所述预设收敛比确定脊交换机的数量,然后在每一所述叶交换机与每一所述脊交换机之间以及在每一所述叶交换机与每一所述虚拟网卡之间分别建立连接。
可选的,所述向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据,包括:
获取预先创建的与不同容器组对应的子网通信策略路由规则;
向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便基于所述子网通信策略路由规则获取训练数据的源IP地址和目的IP地址,并通过与所述源IP地址对应的虚拟网卡,将所述训练数据发送至与所述源IP地址对应的目标子网网关,然后通过所述目标子网网关将所述训练数据发送至与所述目的IP地址对应的虚拟网卡。
可选的,所述获取预先创建的与不同容器组对应的子网通信策略路由规则之前,还包括:
基于所述作业容器、初始化容器和基础容器构建容器组;
相应的,所述向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,包括:
向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则。
可选的,所述向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则之后,还包括:
确定预先为与每一所述容器组对应的虚拟网卡分配的子网网关;
通过每一所述容器组向所述子网网关发送ping命令,并基于所述ping命令将包括所述容器组的物理地址的地址解析协议请求发送至相应的叶交换机,以便所述叶交换机获取所述容器组的IP地址,以及通过所述脊交换机基于边界网关协议从所述叶交换机中学习到所述IP地址。
可选的,所述按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网,包括:
基于IP地址管理组件将所述虚拟网卡分配至相应的作业容器,以及基于所述IP地址管理组件为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网内IP地址和相应的子网网关。
可选的,所述AI训练平台的网卡通信方法,还包括:
若在所述交换机网络拓扑中增加预设数量台叶交换机,则向当前已存在的容器组中添加与所述预设数量台叶交换机对应的子网通信策略路由规则,并创建与所述预设数量台叶交换机对应的新容器组,然后向所述新容器组添加相应的子网通信策略路由规则。
第二方面,本申请公开了一种AI训练平台的网卡通信装置,包括:
配置模块,用于基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;
分配模块,用于对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;
通信模块,用于向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的AI训练平台的网卡通信方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的AI训练平台的网卡通信方法的步骤。
可见,本申请基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。由此可见,本申请中的交换机网络拓扑是基于叶脊网络搭建的,并且需要为交换机网络拓扑中的每一个叶交换机配置预设数量个虚拟局域网,此外还需对物理网卡进行虚拟化得到若干数量个虚拟网卡,并将虚拟网卡分配给作业容器,以及还需为作业容器所在的容器组添加子网通信策略路由规则,以便基于该子网通信策略路由规则实现作业容器中的虚拟网卡向其余虚拟网卡发送训练数据,也即实现不同虚拟网卡之间的通信。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种不同子网的虚拟网卡无法通信的示意图;
图2为本申请公开的一种AI训练平台的网卡通信方法流程图;
图3为本申请公开的一种具体的交换机网络拓扑图;
图4为本申请公开的一种具体的虚拟网卡之间的通信示意图;
图5为本申请公开的一种具体的AI训练平台的网卡通信方法流程图;
图6为本申请公开的一种容器组的构成示意图;
图7为本申请公开的一种AI训练平台的网卡通信装置结构示意图;
图8为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,在AI训练场景中,当ROCE网卡需要跨子网通信的需求时,由于不同子网之间无法直接通信,会导致训练任务运行失败,为此,本申请实施例公开了一种AI训练平台的网卡通信方法、装置、设备及介质,能够在AI训练平台中,实现不同网卡之间的通信。
参见图2所示,本申请实施例公开了一种AI训练平台的网卡通信方法,该方法包括:
步骤S11:基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网。
本实施例中的交换机网络拓扑是基于叶脊(spine-leaf)网络搭建的,并为交换机网络拓扑中的每一个叶(leaf)交换机配置预设数量个虚拟局域网(Virtual Local AreaNetwork,即VLAN)。如图3所示,图3中有两个叶交换机,分别记为叶交换机1(即leaf1)和叶交换机2(即leaf2),然后每个叶交换机分别配置两个不同的虚拟局域网,其中叶交换机1的两个虚拟局域网分别为vlan20和vlan60,叶交换机2的两个虚拟局域网分别为vlan30和vlan50。需要指出的是,本实施例的AI训练平台是基于Kubernetes搭建的,Kubernetes是一种开源的容器编排项目,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效。
步骤S12:对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网。
本实施例用到的网卡具体为ROCE网卡,是支持ROCE协议的网卡。并且在对物理网卡进行虚拟化时是通过AI训练平台基于SRIOV(即Single Root I/O Virtualization)技术实现物理ROCE网卡的虚拟化以得到若干数量个虚拟网卡,并将这些虚拟网卡信息上报到Kubernetes。然后通过AI训练平台对虚拟网卡进行资源分配,也即按照预设分配规则将这些虚拟网卡分配给相应的作业容器(Job-Container),并为作业容器中的每一个虚拟网卡分配不同的与虚拟局域网对应的子网。例如,假设一个作业容器中有两个虚拟网卡,那么这两个虚拟网卡分别属于不同的子网。如图3所示,节点132中运行的任务容器有两个虚拟网卡,分别记为roce1和roce2,而分配给roce1的子网与vlan20相对应,分配给roce2的子网与vlan60相对应。
本实施例中,该AI训练平台的网卡通信方法,还包括:确定所述叶交换机的预设收敛比,并基于所述预设收敛比确定脊交换机的数量,然后在每一所述叶交换机与每一所述脊交换机之间以及在每一所述叶交换机与每一所述虚拟网卡之间分别建立连接。可以理解的是,需要为叶交换机配置预设收敛比,收敛比指交换机下联流量与上联流量的比例,根据该收敛比可以确定叶交换机需要将多少数量个端口上联到脊(spine)交换机,而叶交换机上行端口的数量决定了脊交换机的数量,同理,脊交换机下行端口的数量决定叶交换机的数量,因此通过收敛比的具体值,可以确定出脊交换机的数量,本实施例中,假设叶交换机的数量为已知。然后在每一个叶交换机与每一个脊交换机之间以及在每一个叶交换机与每一个虚拟网卡之间分别建立连接,具体可以参见图3所示。本实施例中为了使训练任务不受通信带宽的约束,配置叶交换机的收敛比为1:1,并且有利于在基于AI训练平台进行GPU资源分配时,可以不再考虑网络通信的制约因素,按照AI训练最优分配GPU的原则进行GPU卡管理。
步骤S13:向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。
本实施例中,向每一作业容器所在的容器组(pod)添加相应的子网通信策略路由规则,以便每个作业容器中的虚拟网卡基于该子网通信策略路由向其余虚拟网卡发送训练数据,以实现任意虚拟网卡之间的通信。也即,对于运行在不同叶交换机下主机的容器组,分别注入不同的策略路由,基于该策略路由,以及利用物理交换机的跨子网路由能力,将跨子网的通信流量交由spine-leaf交换机的网关进行转发实现,从而达到任意虚拟网卡可以通信的效果,满足了分布式训练任务使用任意ROCE网卡的需求,避免训练任务在使用属于不同子网的ROCE网卡时,导致训练任务RDMA(Remote Direct Memory Access,即远程直接数据存取)通信超时失败的问题,需要指出的是,ROCE网卡基于UDP(User DatagramProtocol,即用户数据报协议)实现RDMA通信。参见图4所示,节点131中的ROCE1网卡能与其余任意一个网卡进行通信。
可见,本申请基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。由此可见,本申请中的交换机网络拓扑是基于叶脊网络搭建的,并且需要为交换机网络拓扑中的每一个叶交换机配置预设数量个虚拟局域网,此外还需对物理网卡进行虚拟化得到若干数量个虚拟网卡,并将虚拟网卡分配给作业容器,以及还需为作业容器所在的容器组添加子网通信策略路由规则,以便基于该子网通信策略路由规则实现作业容器中的虚拟网卡向其余虚拟网卡发送训练数据,也即实现不同虚拟网卡之间的通信。
参见图5所示,本申请实施例公开了一种具体的AI训练平台的网卡通信方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体包括:
步骤S21:基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网。
步骤S22:对物理网卡进行虚拟化得到若干数量个虚拟网卡,并基于IP地址管理组件将所述虚拟网卡分配至相应的作业容器,以及基于所述IP地址管理组件为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网内IP地址和相应的子网网关。
本实施例中,基于自研组件将多个虚拟网卡分配给用于训练任务的作业容器,其中,自研组件具体可以为IPAM(IP Address Management,即IP地址管理)组件。并且,还基于该IPAM组件为作业容器中的每一个虚拟网卡分配交换机的属于不同子网内的IP地址和相应的子网网关,在分配IP地址时,可以是在虚拟网卡所在物理网卡的VLAN子网内选择空闲未使用的IP地址使用。通过使用交换机定义的子网,从该子网内分配IP地址并配置子网网关到容器,基于交换机的三层路由能力,实现跨子网的RDMA通信。
步骤S23:获取预先创建的与不同容器组对应的子网通信策略路由规则。
本实施例中,需要获取预先创建的与不同容器组对应的子网通信策略路由规则。并且,上述获取预先创建的与不同容器组对应的子网通信策略路由规则之前,还包括:基于所述作业容器、初始化容器和基础容器构建容器组。可以理解的是,在创建用于训练任务使用的容器组pod时,在用于训练任务的作业容器启动之前,还需在pod中增加初始化容器(即Init-Container)用于注入子网通信策略路由规则。此外,每个pod中都有一个基础容器(即Pause-Container),Pause-Container会为pod构建网络环境的特性,该容器在每个Pod中都会第一个启动,为该Pod中的全部容器准备网络空间、存储空间。也即,参见图6所示,本实施例中的每个pod具体可以包括三个容器,分别为作业容器、初始化容器和基础容器。
步骤S24:向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便基于所述子网通信策略路由规则获取训练数据的源IP地址和目的IP地址,并通过与所述源IP地址对应的虚拟网卡,将所述训练数据发送至与所述源IP地址对应的目标子网网关,然后通过所述目标子网网关将所述训练数据发送至与所述目的IP地址对应的虚拟网卡。
本实施例中,上述向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,具体可以包括:向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则。也即,是向容器组的初始化容器中添加子网通信策略路由规则。上述子网通信策略路由规则为获取训练数据的源IP(Internet Protocol Address,即互联网协议地址)地址和目的IP地址,并通过与源IP地址对应的虚拟网卡将训练数据发送至与源IP地址对应的目标子网网关,然后通过目标子网网关将训练数据发送至与目的IP地址对应的虚拟网卡,以实现任意网卡之间的通信。也即,基于数据包的源IP地址和目的IP地址进行筛选数据包,将这些数据包发送到不同的子网网关,从而实现跨子网的通信。以图3中节点132的roce1卡访问其他任意节点的roce卡为例,假设与vlan20对应的网关为:192.168.10.254;与vlan60对应的网关为192.168.20.254;与vlan30对应的网关为:192.168.30.254;与vlan50对应的网关为:192.168.40.254。那么需要为该roce1注入的子网通信策略路由规则为:
ip route add 192.168.10.0/24 via 192.168.20.254 table 1;即目的子网为192.168.10.0/24子网的数据包需要通过网关192.168.20.254;
ip rule add from 192.168.20.0/24 to 192.168.10.0/24 table 1 prio 221;即源IP地址为192.168.20.0/24,目的IP地址为192.168.10.0/24 的训练数据包交由路由表1 处理,即将数据包发送到192.168.20.254的网关;
同理,得到该roce1所在容器组的其他策略路由规则为:
ip route add 192.168.20.0/24 via 192.168.10.254 table 2;
ip route add 192.168.30.0/24 via 192.168.20.254 table 3;
ip route add 192.168.40.0/24 via 192.168.10.254 table 4;
ip route add 192.168.30.0/24 via 192.168.10.254 table 5;
ip route add 192.168.40.0/24 via 192.168.20.254 table 6;
ip rule add from 192.168.10.0/24 to 192.168.20.0/24 table 2 prio 222;
ip rule add from 192.168.20.0/24 to 192.168.30.0/24 table 3 prio 223;
ip rule add from 192.168.20.0/24 to 192.168.40.0/24 table 6 prio 224;
ip rule add from 192.168.10.0/24 to 192.168.30.0/24 table 5 prio 225;
ip rule add from 192.168.10.0/24 to 192.168.40.0/24 table 4 prio 226。
本实施例中,上述向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则之后,还包括:确定预先为与每一所述容器组对应的虚拟网卡分配的子网网关;通过每一所述容器组向所述子网网关发送ping命令,并基于所述ping命令将包括所述容器组的物理地址的地址解析协议请求发送至相应的叶交换机,以便所述叶交换机获取所述容器组的IP地址,以及通过所述脊交换机基于边界网关协议从所述叶交换机中学习到所述IP地址。可以理解的是,ROCE交换机基于BGP(Border Gateway Protocol,即边界网关协议)协议学习路由信息,相比于物理机和虚拟机的启动速度以及启动过程,容器启动时间较短且并不会主动向交换机发送ARP(Address Resolution Protocol,即地址解析协议)请求,在容器启动后,交换机并没有该容器的MAC(Media Access Control Address,媒体存取控制位址,即物理地址)地址与IP关系表,导致交换机无法及时学习跨子网路由,此时如果运行训练任务,会偶尔出现通信失败的问题,因此,在向容器组中添加子网通信策略路由规则后,需要通过每一容器组向对应的子网网关发送ping命令,以将包括容器组的物理地址的地址解析协议请求发送至相应的叶交换机,以便叶交换机获取容器组的IP地址,以及通过脊交换机基于边界网关协议从叶交换机中学习到容器组的IP地址信息。也即,通过模拟物理机systemctl restart network的通信机制,与leaf交换机迅速建立连接,保证spine-leaf交换机上能够及时学习到正确的跨子网通信路由,以便训练任务启动时,交换机网络已经完成跨子网通信的准备工作。其中,容器组将自己的物理地址上报到leaf交换机,还需sleep一段时间,用于交换机学习路由。相应的操作如下:
ping 192.168.10.254 -c 10;
ping 192.168.20.254 -c 10;
sleep 120s。
本实施例中,该AI训练平台的网卡通信方法,还包括:若在所述交换机网络拓扑中增加预设数量台叶交换机,则向当前已存在的容器组中添加与所述预设数量台叶交换机对应的子网通信策略路由规则,并创建与所述预设数量台叶交换机对应的新容器组,然后向所述新容器组添加相应的子网通信策略路由规则。可以理解的是,对于大规模集群场景下,需要横向扩展更多的leaf交换机,此时需要对集群内的全部主机容器刷新策略路由,定义自动生成策略路由的自动化工具,以便用于集群运维。假设集群内已经存在的leaf交换机子网和相应的网关信息为(neti1,gatewayi1)和 (neti2,gatewayi2)其中 i表示leaf交换机的序号,每个leaf交换机有两个子网,i1和i2分别表示编号为i的leaf交换机下的两个子网。当新增leaf交换机时,定义新增leaf交换机的两个子网信息为neta和netb,网关为gatewaya和gatewayb。对于已经存在的第i个leaf交换机,该交换机下的主机容器需要增加以下策略规则:
Figure 196560DEST_PATH_IMAGE001
而对于新增的leaf交换机,需要在leaf交换机下的主机容器定义跨子网的策略路由,如下所示:
Figure 940132DEST_PATH_IMAGE002
其中,关于上述步骤S21更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
由此可见,本申请实施例需要获取预先创建的与不同容器组对应的子网通信策略路由规则;并向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便基于所述子网通信策略路由规则获取训练数据的源IP地址和目的IP地址,并通过与所述源IP地址对应的虚拟网卡,将所述训练数据发送至与所述源IP地址对应的目标子网网关,然后通过所述目标子网网关将所述训练数据发送至与所述目的IP地址对应的虚拟网卡,从而实现任意网卡之间的通信。并且,本申请实施例中的容器组基于作业容器、初始化容器和基础容器,并向容器组中的初始化容器添加相应的子网通信策略路由规则。此外,向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则之后,还包括:确定预先为与每一所述容器组对应的虚拟网卡分配的子网网关;通过每一所述容器组向所述子网网关发送ping命令,并基于所述ping命令将包括所述容器组的物理地址的地址解析协议请求发送至相应的叶交换机,以便所述叶交换机获取所述容器组的IP地址,以及通过所述脊交换机基于边界网关协议从所述叶交换机中学习到所述IP地址。如此一来,即可保证spine-leaf交换机上能够及时学习到正确的跨子网通信路由,以便训练任务启动时,交换机网络已经完成跨子网通信的准备工作。当交换机网络拓扑中增加了新的叶交换机,则利用自动生成策略路由的工具为所有容器组添加相应的子网通信策略路由规则。
参见图7所示,本申请实施例公开了一种AI训练平台的网卡通信装置,该装置包括:
配置模块11,用于基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;
分配模块12,用于对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;
通信模块13,用于向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。
可见,本申请基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据。由此可见,本申请中的交换机网络拓扑是基于叶脊网络搭建的,并且需要为交换机网络拓扑中的每一个叶交换机配置预设数量个虚拟局域网,此外还需对物理网卡进行虚拟化得到若干数量个虚拟网卡,并将虚拟网卡分配给作业容器,以及还需为作业容器所在的容器组添加子网通信策略路由规则,以便基于该子网通信策略路由规则实现作业容器中的虚拟网卡向其余虚拟网卡发送训练数据,也即实现不同虚拟网卡之间的通信。
图8为本申请实施例提供的一种电子设备的结构示意图。具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的由电子设备执行的AI训练平台的网卡通信方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的AI训练平台的网卡通信方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
进一步的,本申请实施例还公开了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的由AI训练平台的网卡通信过程中执行的方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种AI训练平台的网卡通信方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种AI训练平台的网卡通信方法,其特征在于,包括:
基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;
对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;
向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据;
其中,所述向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据,包括:
获取预先创建的与不同容器组对应的子网通信策略路由规则;向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便基于所述子网通信策略路由规则获取训练数据的源IP地址和目的IP地址,并通过与所述源IP地址对应的虚拟网卡,将所述训练数据发送至与所述源IP地址对应的目标子网网关,然后通过所述目标子网网关将所述训练数据发送至与所述目的IP地址对应的虚拟网卡;
并且,所述获取预先创建的与不同容器组对应的子网通信策略路由规则之前,还包括:基于所述作业容器、初始化容器和基础容器构建容器组;
相应的,所述向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,包括:向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则;
所述向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则之后,还包括:
确定预先为与每一所述容器组对应的虚拟网卡分配的子网网关;通过每一所述容器组向所述子网网关发送ping命令,并基于所述ping命令将包括所述容器组的物理地址的地址解析协议请求发送至相应的叶交换机,以便所述叶交换机获取所述容器组的IP地址,以及通过脊交换机基于边界网关协议从所述叶交换机中学习到所述IP地址。
2.根据权利要求1所述的AI训练平台的网卡通信方法,其特征在于,还包括:
确定所述叶交换机的预设收敛比,并基于所述预设收敛比确定脊交换机的数量,然后在每一所述叶交换机与每一所述脊交换机之间以及在每一所述叶交换机与每一所述虚拟网卡之间分别建立连接。
3.根据权利要求1所述的AI训练平台的网卡通信方法,其特征在于,所述按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网,包括:
基于IP地址管理组件将所述虚拟网卡分配至相应的作业容器,以及基于所述IP地址管理组件为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网内IP地址和相应的子网网关。
4.根据权利要求1至3任一项所述的AI训练平台的网卡通信方法,其特征在于,还包括:
若在所述交换机网络拓扑中增加预设数量台叶交换机,则向当前已存在的容器组中添加与所述预设数量台叶交换机对应的子网通信策略路由规则,并创建与所述预设数量台叶交换机对应的新容器组,然后向所述新容器组添加相应的子网通信策略路由规则。
5.一种AI训练平台的网卡通信装置,其特征在于,包括:
配置模块,用于基于叶脊网络搭建交换机网络拓扑,并为所述交换机网络拓扑中的每一叶交换机配置预设数量个虚拟局域网;
分配模块,用于对物理网卡进行虚拟化得到若干数量个虚拟网卡,并按照预设分配规则将所述虚拟网卡分配至相应的作业容器,以及为所述作业容器中的每一所述虚拟网卡分配不同的与所述虚拟局域网对应的子网;
通信模块,用于向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便所述作业容器中的所述虚拟网卡基于所述子网通信策略路由规则向其余所述虚拟网卡发送训练数据;
其中,所述通信模块,具体用于:获取预先创建的与不同容器组对应的子网通信策略路由规则;向每一所述作业容器所在的容器组添加相应的子网通信策略路由规则,以便基于所述子网通信策略路由规则获取训练数据的源IP地址和目的IP地址,并通过与所述源IP地址对应的虚拟网卡,将所述训练数据发送至与所述源IP地址对应的目标子网网关,然后通过所述目标子网网关将所述训练数据发送至与所述目的IP地址对应的虚拟网卡;
并且,所述装置还用于,在所述通信模块执行相应步骤之前,基于所述作业容器、初始化容器和基础容器构建容器组;
相应的,所述通信模块,具体用于:向每一所述容器组中的所述初始化容器中添加相应的子网通信策略路由规则;
所述通信模块,还包括:确定预先为与每一所述容器组对应的虚拟网卡分配的子网网关;通过每一所述容器组向所述子网网关发送ping命令,并基于所述ping命令将包括所述容器组的物理地址的地址解析协议请求发送至相应的叶交换机,以便所述叶交换机获取所述容器组的IP地址,以及通过脊交换机基于边界网关协议从所述叶交换机中学习到所述IP地址。
6.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至4任一项所述的AI训练平台的网卡通信方法的步骤。
7.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的AI训练平台的网卡通信方法的步骤。
CN202210478751.9A 2022-04-30 2022-04-30 一种ai训练平台的网卡通信方法、装置、设备及介质 Active CN114584504B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210478751.9A CN114584504B (zh) 2022-04-30 2022-04-30 一种ai训练平台的网卡通信方法、装置、设备及介质
PCT/CN2022/102609 WO2023206799A1 (zh) 2022-04-30 2022-06-30 一种ai训练平台的网卡通信方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210478751.9A CN114584504B (zh) 2022-04-30 2022-04-30 一种ai训练平台的网卡通信方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114584504A CN114584504A (zh) 2022-06-03
CN114584504B true CN114584504B (zh) 2022-07-22

Family

ID=81784614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210478751.9A Active CN114584504B (zh) 2022-04-30 2022-04-30 一种ai训练平台的网卡通信方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN114584504B (zh)
WO (1) WO2023206799A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584504B (zh) * 2022-04-30 2022-07-22 苏州浪潮智能科技有限公司 一种ai训练平台的网卡通信方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981493A (zh) * 2019-04-09 2019-07-05 苏州浪潮智能科技有限公司 一种用于配置虚拟机网络的方法和装置
CN111885075A (zh) * 2020-07-30 2020-11-03 广州华多网络科技有限公司 容器通信方法、装置、网络设备及存储介质
CN114157455A (zh) * 2021-11-16 2022-03-08 北京达佳互联信息技术有限公司 一种数据传输方法、装置、设备以及存储介质
CN114172905A (zh) * 2021-12-09 2022-03-11 新华三大数据技术有限公司 一种集群网络组网的方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10841195B2 (en) * 2017-02-10 2020-11-17 Oracle International Corporation System and method for controlled re-cabling and link testing for switches and switch ports in a high performance computing network
US10938787B2 (en) * 2017-12-01 2021-03-02 Kohl's, Inc. Cloud services management system and method
CN108965094A (zh) * 2018-08-23 2018-12-07 郑州云海信息技术有限公司 一种虚拟机网络连接方法和装置
CN114584504B (zh) * 2022-04-30 2022-07-22 苏州浪潮智能科技有限公司 一种ai训练平台的网卡通信方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981493A (zh) * 2019-04-09 2019-07-05 苏州浪潮智能科技有限公司 一种用于配置虚拟机网络的方法和装置
CN111885075A (zh) * 2020-07-30 2020-11-03 广州华多网络科技有限公司 容器通信方法、装置、网络设备及存储介质
CN114157455A (zh) * 2021-11-16 2022-03-08 北京达佳互联信息技术有限公司 一种数据传输方法、装置、设备以及存储介质
CN114172905A (zh) * 2021-12-09 2022-03-11 新华三大数据技术有限公司 一种集群网络组网的方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"[Docker]不同网络的容器之间互相访问";网友;《https://www.codenong.com/cs106954102/》;20200625;全文 *
"Docker容器跨主机多网段通信解决方案";Ray;《https://blog.csdn.net/lvjianzhaoa/article/details/102917558》;20191021;全文 *

Also Published As

Publication number Publication date
CN114584504A (zh) 2022-06-03
WO2023206799A1 (zh) 2023-11-02

Similar Documents

Publication Publication Date Title
EP3430512B1 (en) Network virtualization of containers in computing systems
US10708125B1 (en) Gateway configuration using a network manager
US9338097B2 (en) Method and system for load balancing at a data network
CN106452857B (zh) 生成配置信息的方法和网络控制单元
CN107409066B (zh) 用于自动检测和配置服务器上行链路网络接口的系统和方法
US9294351B2 (en) Dynamic policy based interface configuration for virtualized environments
CN105577723B (zh) 虚拟化网络中实现负载分担的方法和装置
CN106712988B (zh) 一种虚拟网络管理方法及装置
CN111638957B (zh) 一种集群共享式公有云负载均衡的实现方法
US20130124702A1 (en) Method and System For Network Configuration And/Or Provisioning Based On Metadata
US20100214949A1 (en) Distributed data center access switch
CN105407140A (zh) 一种网络化测试系统的计算资源虚拟化系统及方法
CN112688814B (zh) 一种设备接入方法、装置、设备及机器可读存储介质
TWI477110B (zh) 資料通信方法和資料通信系統
CN110224917B (zh) 数据传输方法、装置及系统、服务器
CN106911779A (zh) 一种云平台虚拟机获取ip方法及装置
US9166947B1 (en) Maintaining private connections during network interface reconfiguration
CN105704042A (zh) 报文处理方法、bng及bng集群系统
CN114584504B (zh) 一种ai训练平台的网卡通信方法、装置、设备及介质
CN108574613A (zh) Sdn数据中心的二层互通方法及装置
CN114124714B (zh) 一种多层级网络部署方法、装置、设备及存储介质
CN108512737B (zh) 一种数据中心ip层互联的方法和sdn控制器
CN110636149B (zh) 远程访问方法、装置、路由器及存储介质
CN112655185B (zh) 软件定义网络中的服务分配的设备、方法和存储介质
CN115987778A (zh) 一种基于Kubernetes集群的容器通信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant