CN111475250B

CN111475250B - 一种云环境下的网络优化方法和装置

Info

Publication number: CN111475250B
Application number: CN201910068142.4A
Authority: CN
Inventors: 龚志刚; 游亮
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2023-05-26
Anticipated expiration: 2039-01-24
Also published as: CN111475250A

Abstract

本发明涉及云计算技术领域，尤其涉及一种云环境下的网络优化方法和装置，该方法包括：根据N个节点之间的延迟，将N个节点划分为M类；根据M类节点中待测试节点之间的延迟，确定至少一个第一环，每个第一环中各相邻节点之间的延迟小于预设延迟；对至少一个第一环中的节点进行优化网络的归约操作。通过本申请的技术方案，在现有网络环境下，通过充分考虑各个节点之间的延迟，将相邻节点间延迟满足要求的节点归类并基于归类后的节点创建自适应延迟，动态优化的环形网络，从而可以有效的改善分布式以及单机人工智能训练的扩展性。

Description

一种云环境下的网络优化方法和装置

技术领域

本发明涉及云计算技术领域，尤其涉及一种云环境下的网络优化方法和装置。

背景技术

在云环境下可扩展图形处理器(Graphics Processing Unit，GPU)集群使用的是虚拟专用网络((Virtual Private Cloud，VPC)，也就是虚拟化的25Gb或者10Gb的以太网链路，这些资源被虚拟化并被多个虚拟机(Virtual Machine，VM)所共享。对于一个可扩展GPU集群来说，并不能保证分配出来的所有节点都位于同一个虚拟交换机下，也不能保证一个可靠的延迟上限。且对于云上最普通的VPC网络资源，相比较于线下的IB网络，延迟产生的影响会很大，尤其是在跨虚拟交换机的情况下，节点数过多的情况下，延迟的影响会更加的严重，甚至会让整个分布式训练失去扩展性。

然而，现有方案均是直接在硬件层面采用昂贵的IB硬件，降低所有节点之间的延迟，这种方案导致成本大幅增加。

发明内容

本说明书实施例的目的是提供一种云环境下的网络优化方法和装置，通过在现有网络环境下，创建自适应延迟，动态优化的环形网络，有效改善分布式以及单机人工智能训练的扩展性。

为了实现上述目的，本申请实施例采用下述技术方案：

第一方面，提供一种云环境下的网络优化方法，包括：

根据N个节点之间的延迟，将所述N个节点划分为M类，其中，N和M均为正整数，且N远大于M；

根据M类节点中待测试节点之间的延迟，确定至少一个第一环，每个所述第一环中各相邻节点之间的延迟小于预设延迟；

对至少一个所述第一环中的节点进行优化网络的归约操作。

第二方面，提供一种云环境下的网络优化装置，包括：

划分模块，用于根据N个节点之间的延迟，将所述N个节点划分为M类，其中，N和M均为正整数，且N远大于M；

确定模块，用于根据所述划分模块得到的M类节点中待测试节点之间的延迟，确定至少一个第一环，每个所述第一环中各相邻节点之间的延迟小于预设延迟；

处理模块，用于对所述确定模块确定的至少一个所述第一环中的节点优化网络的进行归约操作。

第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，

所述处理器，用于执行所述计算机指令实现如第一方面提供的云环境下的网络优化方法的步骤。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，在现有网络环境下，通过充分考虑各个节点之间的延迟，将相邻节点间延迟满足要求的节点归类并基于归类后的节点创建自适应延迟，动态优化的环形网络，从而可以有效的改善分布式以及单机人工智能训练的扩展性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书的一个实施例提供的一种云环境下的网络优化方法的示意性流程图；

图2为本说明书的一个实施例提供的一种云环境下网络节点的示意图；

图3为本说明书的另一个实施例提供的一种云环境下的网络优化方法的示意性流程图；

图4为本说明书的另一个实施例提供的一种云环境下的网络优化方法的示意性流程图；

图5为本说明书实施例提供的一种云环境下的网络优化装置的功能结构示意图；

图6为本说明书实施例提供的一种计算机设备的功能结构示意图；

图7为本说明书的另一实施例提供的一种单机8卡的示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书的一部分实施例，而不是全部实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本说明书保护的范围。

目前的一种经典的机器学习分布式训练方法是基于Allreduce算法，也就是所有的节点形成一个环形的逻辑网络，每个节点同时和相邻的两个节点交换数据。这样的拓扑结构被证明是在网络通信上带宽最优化的策略。

本发明的发明人在研究过程中发现：Allreduce作为传统高性能计算下常用的通信模式，用来同步共享传递消息，理论上是基于带宽最优的分布式通信方式。在线下的IB网络中，延迟低至2微妙量级，因此延迟基本不会成为问题，在线下可以获得很好的扩展性。

但是，在云上的VPC网路的延迟高达20微妙甚至更高，延迟带来的影响无法忽略，节点数增多后，会逐渐失去扩展性。而且，在传统的云计算场景下，在创建集群时，虽然也可以指定并要求用内聚的方式分配节点，但是这种方式受限很大，受限于物理环境并不能确保分配到相同的虚拟交换机下，最终得到的节点之间的网络距离依然是有一定的随机性。

如果硬性要求云服务商将所有节点分配在同一个虚拟交换机上，将大大的降低便利性同时也提升成本，是不实际的方案。考虑到：只要有一个节点距离过远，会使整个分布式训练的通信开销大幅增长，因此，在创建集群时静态的满足最优条件或近似最优条件是不太可能的。

基于上述原因，本说明书的实施例提供一种云环境下的网络优化方法，在现有网络环境下，通过充分考虑各个节点之间的延迟，将相邻节点间延迟满足要求的节点归类并基于归类后的节点创建自适应延迟，动态优化的环形网络，从而可以有效的改善分布式以及单机人工智能训练的扩展性。

由于，在最优环的创建过程中，可以获知环的具体分布，以及环中两个相邻节点间的延迟，在获知延迟的情况下，可以估算TCP的缓存区大小出来的，从而可以设定每个节点对应的TCP的缓存区大小。因此，可以在给定的最优延迟下，创建一个带宽最优的TCP配置。

如图1所示的一种云环境下的网络优化方法100，包括：

110、根据N个节点之间的延迟，将N个节点划分为M类。其中，N和M均为正整数，且N远大于M。

具体的，在该实施例中，每一类节点可以对应一个虚拟交换机。例如，可以为同一类节点添加同一虚拟标识以表示归属于一个虚拟交换机。

步骤110可以包括：

将N个节点中每两个节点之间的延迟作为节点间的距离进行聚类。

将聚类结果中距离小于预设延迟距离的两个节点划分为同一类，直至将N个节点划分为M类。

也就是说，归为同一类的多个节点中，每相邻两个节点之间的延迟均小于预设延迟。例如：如图2所示的将0～19号这20个节点划分为5类，分别对应虚拟交换机VSW0～4。

在对N个节点分类的过程中，可以针对每个节点，进行与其他节点的延迟测试，并利用聚类算法，挑选出位于同一虚拟交换机的节点划分为一类，确保同一类中相邻节点之间的延迟满足要求。但这种全量的两两测试会太耗时，为了缩减测试时间，可以从N个节点中随机挑选一些待测节点，针对每个待测节点，进行与其他节点的延迟测试，并将延迟满足要求的节点划分为一类。

120、根据M类节点中待测试节点之间的延迟，确定至少一个第一环，每个第一环中各相邻节点之间的延迟小于预设延迟。

应理解，在本说明书的实施例中，每个环为一个数据传输的环路。

具体的，在该实施例中，步骤120可以包括：

从每一类节点中选择至少一个待测节点。

将多个待测节点中属于不同类的每两个待测节点之间的延迟作为节点间的距离进行聚类。

将聚类结果中距离小于预设延迟距离的两个待测节点对应的虚拟交换机归为同一环，直至得到至少一个第一环。显然，属于同一环的虚拟交换机下的所有节点也归属于该环。

例如，如图2所示，0～19号这20个节点组成的3个第一环分别为：由3个虚拟交换机VSW0～2下的所有节点组成的第一环A、由虚拟交换机VSW3下的所有节点组成的第一环B，以及由虚拟交换机VSW4下的所有节点组成的第一环C。

应理解，在该实施例中，可以从每一类节点中随机挑选一个待测节点，测试这些待测节点间的延迟，确定出一个最小环，能够把尽量多的虚拟交换机连接起来，同时环上的延迟最小。

需要说明的是，N个节点组环时每两个节点间的延迟是不相等的。N个节点组环的过程可以看成一个排列组合的过程，有N！种排列方式也就是有N！个环。每一种确定的排列方式，对应组成的一个确定的环，将每个环上两两相邻节点中最大的延迟作为该环的延迟。而在N！个环中，选定延迟最小的那个环。

在网络中延迟分布均衡的情况，可以确定一个第一环将M个虚拟交换机连接起来，同时环上的延迟最小。例如：如图2所示，N个节点包括0～11号这个12个节点，通过各节点间的延迟划分为3类，对应3个虚拟交换机。在延迟测试中发现：在3个虚拟交换机上，都能找到连接其他虚拟交换机，且满足延迟要求的节点，这样所有节点就是一个环，例如：0号节点到8号节点、3号节点到4号节点、7号节点到11号节点之间的延迟均小于预设延迟，则将这3个虚拟交换机下的所有节点组成一个环。

在网络中延迟分布过于不均衡的情况下，可以确定出多个第一环，分别将M个虚拟交换机连接起来，同时每个环上的延迟最小。例如：如图2所示，N个节点包括0～19号这个20个节点，通过各节点间的延迟划分为5类，对应5个虚拟交换机。在延迟测试中发现：在某些虚拟交换机上，找不到连接其他虚拟交换机，且满足延迟要求的节点，则需要分出单独的环，例如：虚拟交换机VSW3和VSW4。

另外，在确定延迟最小的环时，还可以用近似算法，比如贪心算法，随机选定一个节点，然后挑选与该节点延迟小于预设延迟且最小的两个节点分别放在该的左右两边，然后对左右两边的两个节点，也选择与其延迟小于预设延迟且最小的节点放到各自的另一边，这样能够很快组建一个近似最小延迟的环。

130、对至少一个第一环中的节点进行优化网络的归约操作。

具体的，在该实施例中，若第一环为1个，则对该环中的节点进行一次归约操作，即：reduce操作，即可完成网络优化。

当第一环为多个时，可选地，作为一个实施例，如图3所示，在步骤130之前，方法100还可以包括：

140、根据从每个第一环中的节点中选择的一个代表节点组成第二环，第二环中各相邻代表节点之间的延迟小于预设延迟。

则，步骤130可以具体为：利用全局归约算法分别对多个第一环及第二环中的节点进行归约操作。例如：可以利用Allreduce算法分别对多个第一环及第二环中的节点进行归约操作。也可以利用其它的全局归约算法分别对多个第一环及第二环中的节点进行归约操作，本实施例对此不作任何限定。

具体的，在该实施例中，步骤130的实现过程可以为：

利用Allreduce算法分别对多个第一环中的节点进行归约操作，得到多个第一结果。

将每个第一环对应的第一结果归约到每个第一环的代表节点。

利用Allreduce算法对第二环中的代表节点进行全局归约操作，得到第二结果。

通过每个第一环中的代表节点将第二结果广播到每个第一环中的其他节点。

例如，如图2所示，当0～19号这20个节点组成的3个第一环时，分别从每个第一环的节点中选择一个代表节点，例如：从第一环A中选择8号节点、从第一环B中选择12号节点、从第一环C中选择16号节点。则在3个第一环中分别执行reduce操作，将每个第一环的结果reduce到该环的代表节点(8、12、16号节点)。然后，再由3个代表节点组成的第二环上执行Allreduce操作，这样每个第一环的代表节点就拥有了最终的结果。最后每个第一环中的代表节点将最终的结果广播到该第一环中所有其它的节点。

例如：第一环A的8号节点将最终的结果广播到第一环A中的0～7号节点以及9～11号节点；第一环B的12号节点将最终结果广播到第一环B中的13～15号节点；第一环C的16号节点将最终结果广播到第一环C中的17～19号节点。这样就完成了全局的归约操作。这种方法能够大幅降低多环之间的通信次数，降低的量级可以高达一到两个数量级。

另外，需要说明的是，多环的reduce方法应用的一个特例是在单机内部。由于GPU之间的PCIE或者NVLink的非一致性，导致A组GPU与B组GPU之间的带宽远小于组内的带宽。如图7所示的情况，可以分为2个环，进行上述实施例中的多次reduce操作。

一般情况下，如图7(a)的单机8卡可以通过测量节点内部的带宽差异，分出A、B组，如图7(c)所示的A组和B组各四张卡，组成了A和B两个环，环之间的通信量为1/2*2＝1份参数总量。而传统方式如图7(b)是对8卡统一做Allreduce操作，AB之间的通信量为2*7/8＝1.75份参数总量，因此，利用本说明书实施例的优化方法可以降低57％的通信量。虽然增大了A组内和B组内的通信量，但是考虑到A、B组内带宽远大于组间的通信量，本说明书实施例的优化方法仍然有较大的性能优势。

可选地，在一个实施例中，如图4所示，方法100还包括：

150、每间隔预设时间，对至少一个第一环中的节点重新进行归约操作。

160、判断重新进行归约操作前后任一第一环中相邻节点间的延迟变化率是否超过阈值，若当任一第一环中相邻节点间的延迟变化率超过阈值时，则重新执行步骤110-130，以对延迟变大的节点重新归类，且基于新划分的类重新确定至少一个第一环，并对重新确定的至少一个第一环中的节点进行归约操作，以重新优化网络。

具体的，在该实施例中，对网络定期进行全局归约Allreduce的测试，假若同一环上相邻节点间的延迟出现较大的变化，例如：测试之前形成的环的相邻节点的延迟，如果后续测得的数值增长超过50％，则认为发生了变化，说明网络环境发生变化，针对延时变大的节点，执行步骤110的操作，重新归到不同的虚拟交换机中，重新生成新的环形网络。这样可以不断优化并更新，使得网络为延迟最优化的环形网络，从而确保分布式训练的扩展性。

需要说明的是，本说明书实施例中的网络优化方法所保护的方案并不能替代现有的硬件方案，延迟依然是基于现有网络的数量级的延迟，远大于IB网络的延迟。但是这种数量级下的延迟，对大部分的AI网络来说，是可以适用的。而且相较于现有的在网络硬件层面进行改进的方案，该方案不会导致成本大幅增加。

应理解，在本说明书各实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施例的实施过程构成任何限定。

以上说明书部分结合图1-图4详细介绍了云环境下的网络优化方法实施例，下面结合图5介绍云环境下的网络优化装置，如图5所示，本说明书还提供了一种云环境下的网络优化装置200，该装置200包括：划分模块210、确定模块220和处理模块230。其中，

划分模块210用于根据N个节点之间的延迟，将N个节点划分为M类。确定模块220用于根据划分模块210得到的M类节点中待测试节点之间的延迟，确定至少一个第一环。处理模块230用于对确定模块220确定的至少一个第一环中的节点进行优化网络的归约操作。

其中，N和M均为正整数，且N远大于M；每个第一环中各相邻节点之间的延迟小于预设延迟。

本说明书实施例提供的云环境下的网络优化装置，在现有网络环境下，通过充分考虑各个节点之间的延迟，将相邻节点间延迟满足要求的节点归类并基于归类后的节点创建自适应延迟，动态优化的环形网络，从而可以有效的改善分布式以及单机人工智能训练的扩展性。

可选地，作为一个实施例，当至少一个第一环为多个时，确定模块220还用于：根据从每个第一环中的节点中选择的一个代表节点组成第二环，第二环中各相邻代表节点之间的延迟小于预设延迟。则，处理模块230具体用于：利用全局归约算法分别对多个第一环及第二环中的节点进行归约操作。

可选地，作为一个实施例，处理模块230具体用于：利用Allreduce算法分别对多个第一环中的节点进行归约操作，得到多个第一结果。将每个第一环对应的第一结果归约到每个第一环的代表节点。利用Allreduce算法对第二环中的代表节点进行全局归约操作，得到第二结果。通过每个第一环中的代表节点将第二结果广播到每个第一环中的其他节点。

可选地，作为一个实施例，处理模块230还用于：每间隔预设时间，对至少一个第一环中的节点重新进行归约操作，并当任一第一环中相邻节点间的延迟变化率超过阈值时，调用划分模块210对延迟变大的节点重新归类，调用确定模块230基于新划分的类重新确定至少一个第一环。

可选地，作为一个实施例，划分模块210具体用于：将N个节点中每两个节点之间的延迟作为节点间的距离进行聚类。将聚类结果中距离小于预设延迟距离的两个节点划分为同一类，直至将N个节点划分为M类。

可选地，作为一个实施例，每一类节点对应一个虚拟交换机，确定模块220具体用于：从每一类节点中选择至少一个待测节点。将多个待测节点中属于不同类的每两个待测节点之间的延迟作为节点间的距离进行聚类。将聚类结果中距离小于预设延迟距离的两个待测节点对应的虚拟交换机归为同一环，直至得到至少一个第一环。

应理解，在本说明书实施例中，根据本说明书实施例的云环境下的网络优化装置，可对应于根据本说明书实施例的方法的执行主体，并且该云环境下的网络优化装置中的各个模块的上述和其它操作和/或功能分别为了实现图1至图4中的各个方法的相应流程，为了简洁，在此不再赘述。

下面将结合图6详细描述根据本说明书实施例的计算机设备。参考图6，在硬件层面，计算机设备包括处理器，可选地，包括内部总线、网络接口、存储器。其中，如图6所示，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该计算机设备还可能包括实现其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成转发聊天信息的装置。处理器，执行存储器所存放的程序，并具体用于执行本说明书前文所述的方法实施例的操作。

上述图1至图4所示实施例揭示的方法、装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的云环境下的网络优化方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

图6所示的计算机设备还可执行图1至图4的方法，并实现云环境下的网络优化方法在图1至图4所示实施例的功能，本申请实施例在此不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于云环境下的网络优化装置实施例和计算机设备实施例而言，由于其基本相似于云环境下的网络优化方法实施例，所以描述的比较简单，相关之处参见云环境下的网络优化方法实施例的部分说明即可。

另外，可以理解的是，本领域技术人员在阅读本说明书文件之后，可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合，这些组合也在本说明书公开和保护的范围内。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

以上，仅为本说明书的具体实施方式，但本说明书的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本说明书的保护范围之内。因此，本说明书的保护范围应以权利要求的保护范围为准。

Claims

1.一种云环境下的网络优化方法，其特征在于，包括：

当至少一个所述第一环为多个时，根据从每个所述第一环中的节点中选择的一个代表节点组成第二环，所述第二环中各相邻代表节点之间的延迟小于所述预设延迟；

对至少一个所述第一环中的节点进行优化网络的归约操作；

其中，当至少一个所述第一环为多个时，所述对至少一个所述第一环中的节点进行优化网络的归约操作包括：利用全局归约算法分别对多个所述第一环及所述第二环中的节点进行归约操作。

2.根据权利要求1所述的方法，其特征在于，所述利用全局归约算法分别对多个所述第一环及所述第二环中的节点进行归约操作，包括：

利用Allreduce算法分别对多个所述第一环中的节点进行归约操作，得到多个第一结果；

将每个所述第一环对应的第一结果归约到每个所述第一环的代表节点；

利用Allreduce算法对所述第二环中的代表节点进行全局归约操作，得到第二结果；

通过每个所述第一环中的代表节点将所述第二结果广播到每个所述第一环中的其他节点。

3.根据权利要求1至2中任一项所述的方法，其特征在于，还包括：

每间隔预设时间，对至少一个所述第一环中的节点重新进行归约操作；

当任一所述第一环中相邻节点间的延迟变化率超过阈值时，则对延迟变大的节点重新归类，且基于新划分的类重新确定至少一个第一环。

4.根据权利要求1至2中任一项所述的方法，其特征在于，所述根据N个节点之间的延迟，将所述N个节点划分为M类，包括：

将所述N个节点中每两个节点之间的延迟作为节点间的距离进行聚类；

将聚类结果中距离小于预设延迟距离的两个节点划分为同一类，直至将所述N个节点划分为M类。

5.根据权利要求1至2中任一项所述的方法，其特征在于，每一类节点对应一个虚拟交换机，所述根据M类节点中待测试节点之间的延迟，确定至少一个第一环，包括：

从所述每一类节点中选择至少一个待测节点；

将多个所述待测节点中属于不同类的每两个待测节点之间的延迟作为节点间的距离进行聚类；

将聚类结果中距离小于预设延迟距离的两个待测节点对应的虚拟交换机归为同一环，直至得到至少一个第一环。

6.一种云环境下的网络优化装置，其特征在于，包括：

确定模块，用于根据所述划分模块得到的M类节点中待测试节点之间的延迟，确定至少一个第一环，每个所述第一环中各相邻节点之间的延迟小于预设延迟；当至少一个所述第一环为多个时，所述确定模块，还用于：根据从每个所述第一环中的节点中选择的一个代表节点组成第二环，所述第二环中各相邻代表节点之间的延迟小于所述预设延迟；处理模块，用于对所述确定模块确定的至少一个所述第一环中的节点优化网络的进行归约操作；当至少一个所述第一环为多个时，所述处理模块，具体用于：利用全局归约算法分别对多个所述第一环及所述第二环中的节点进行归约操作。

7.根据权利要求6所述的装置，其特征在于，所述处理模块，具体用于：

8.根据权利要求6中任一项所述的装置，其特征在于，

所述处理模块，还用于：每间隔预设时间，对至少一个所述第一环中的节点重新进行归约操作，并当任一所述第一环中相邻节点间的延迟变化率超过阈值时，调用所述划分模块对延迟变大的节点重新归类，调用所述确定模块基于新划分的类重新确定至少一个第一环。

9.根据权利要求6中任一项所述的装置，其特征在于，所述划分模块，具体用于：

10.根据权利要求6中任一项所述的装置，其特征在于，每一类节点对应一个虚拟交换机，所述确定模块，具体用于：

从所述每一类节点中选择至少一个待测节点；

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器，用于执行计算机指令实现如权利要求书1-5中任一项所述的云环境下的网络优化方法的步骤。