CN114389974A

CN114389974A - 查找分布式训练系统中异常流量节点的方法、装置及介质

Info

Publication number: CN114389974A
Application number: CN202210285862.8A
Authority: CN
Inventors: 高蕾; 姜晶菲; 李东升; 苏华友; 李荣春; 乔鹏; 许金伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-04-22
Anticipated expiration: 2042-03-23
Also published as: CN114389974B

Abstract

本申请公开了一种查找分布式训练系统中异常流量节点的方法、装置及介质，应用于深度学习领域，该方法中，分布式训练系统的节点包括计算节点和参数服务器，参数服务器主要负责存放模型参数，计算节点负责数据计算。该方法先获取节点的流量统计数据；并根据流量统计数据得到各计算节点之间和/或各参数服务器之间的相似性特征，再根据计算节点之间的相似性特征查找出计算节点中的异常流量节点，以及根据参数服务器之间的相似性特征查找出参数服务器中的异常流量节点。本申请提供的方法可找到节点中的异常流量节点，可以根据异常流量节点对分布式训练系统重新布局以提高分布式训练的效率。

Description

查找分布式训练系统中异常流量节点的方法、装置及介质

技术领域

本申请涉及深度学习领域，特别是涉及一种查找分布式训练系统中异常流量节点的方法、装置及介质。

背景技术

分布式训练系统中，节点分为参数服务器和计算节点两类，参数服务器主要负责存放模型参数，计算节点负责数据计算，计算组由多个计算节点组成。分布式训练系统无论是哪种并行处理方式，与单节点训练方式最大的区别在于节点间通过网络进行通信。

一方面，由于节点的每一次迭代都需要通过网络进行海量参数的同步，增加了多个节点间的参数请求与传递、梯度参数更新与同步等通信操作，由于过多的通信操作增加了参数同步开销，较高的通信延迟会降低分布式训练的效率。另一方面，由于模型或数据集分割不合理，或者计算节点的计算速度不均衡等问题，还会存在梯度失效问题，即部分计算节点由于参数更新速度过慢导致更新了过时的梯度信息，可能会进行无效的计算，拉低整个计算组的计算速度，降低了分布式训练的效率。上述在分布式训练系统中表现出异于其他正常节点的通信流量特征的节点即为异常流量节点，这些异常流量节点可能会导致整个分布式训练系统的计算效率低，故需要找到异常流量节点，并根据异常流量节点对分布式训练系统重新布局以提高效率。

由此可见，如何提高分布式训练的效率，是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种查找分布式训练系统中异常流量节点的方法、装置及介质，以提高分布式训练的效率。

为解决上述技术问题，本申请提供一种查找分布式训练系统中异常流量节点的方法，包括：

获取节点的流量统计数据，所述节点包括计算节点和参数服务器；

根据所述流量统计数据得到各所述计算节点之间和/或各所述参数服务器之间的相似性特征；

根据所述相似性特征查找所述节点中的所述异常流量节点。

优选地，多个所述计算节点组成一个计算组，所述分布式训练系统包括多个所述计算组；

根据所述流量统计数据得到各所述计算节点之间的所述相似性特征之前，还包括：

根据所述流量统计数据得到各所述计算组之间的所述相似性特征；

根据各所述计算组之间的所述相似性特征查找所述异常流量节点所在的所述计算组；

根据所述流量统计数据得到各所述计算节点之间的所述相似性特征具体为：

根据所述流量统计数据得到所述异常流量节点所在的所述计算组内各所述计算节点之间的所述相似性特征；

根据所述相似性特征查找所述计算节点中的所述异常流量节点具体为：

根据所述异常流量节点所在的所述计算组内各所述计算节点之间的所述相似性特征查找所述计算组内的所述异常流量节点。

优选地，所述根据各所述计算组之间的所述相似性特征查找所述异常流量节点所在的所述计算组包括：

获取目标计算组与其他各所述计算组之间的相似度值；

若与所述目标计算组的相似度值满足第一预设要求的其他所述计算组的数量大于第一预设值，则判定所述目标计算组中包含所述异常流量节点。

优选地，所述计算组内部的多个所述计算节点根据所述分布式训练系统的训练任务分为多个层级；

所述根据所述异常流量节点所在的所述计算组内各所述计算节点之间的所述相似性特征查找所述计算组内的所述异常流量节点具体为：

获取目标层级中各所述计算节点与相邻层级的其他所述计算节点的非线性动态变化特征；

若所述目标层级中的所述目标计算节点与相邻层级的其他所述计算节点的所述非线性动态变化特征，与所述目标层级中的其他各所述计算节点与相邻层级的其他所述计算节点的所述非线性动态变化特征之间的相似度值均满足第二预设要求，则判定所述目标计算节点为所述异常流量节点。

优选地，根据所述相似性特征查找所述参数服务器中的所述异常流量节点具体为：

获取目标参数服务器与其他各所述参数服务器之间的相似度值；

若与所述目标参数服务器的相似度值满足第三预设要求的其他所述参数服务器的数量大于第三预设值，则判定所述目标参数服务器为所述异常流量节点。

优选地，所述判定所述目标计算节点为所述异常流量节点之后，还包括：

根据异常的所述计算节点重新划分分布式训练的数据集和模型。

优选地，所述判定所述目标参数服务器为所述异常流量节点之后，还包括：

获取异常的所述参数服务器的参数访问频度；

若所述参数服务器的参数访问频度超过阈值，则将所述参数服务器的参数存放至其他所述参数服务器。

为解决上述技术问题，本申请还提供一种查找分布式训练系统中异常流量节点的装置，包括：

获取模块，用于获取节点的流量统计数据，所述节点包括计算节点和参数服务器；

得到模块，用于根据所述流量统计数据得到各所述计算节点之间和/或各所述参数服务器之间的相似性特征；

查找模块，用于根据所述相似性特征查找所述节点中的所述异常流量节点。

为解决上述技术问题，本申请还提供一种查找分布式训练系统中异常流量节点的装置，包括：存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述查找分布式训练系统中异常流量节点的方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述查找分布式训练系统中异常流量节点的方法的步骤。

本申请所提供的查找分布式训练系统中异常流量节点的方法，其中，分布式训练系统的节点包括计算节点和参数服务器，参数服务器主要负责存放模型参数，计算节点负责数据计算。该方法先获取节点的流量统计数据；并根据流量统计数据得到各计算节点之间和/或各参数服务器之间的相似性特征，再根据计算节点之间的相似性特征查找出计算节点中的异常流量节点，以及根据参数服务器之间的相似性特征查找出参数服务器中的异常流量节点。本申请提供的方法可找到节点中的异常流量节点，可以根据异常流量节点对分布式训练系统重新布局以提高分布式训练的效率。

本申请还提供了一种查找分布式训练系统中异常流量节点的装置及介质，与上述方法对应，故具有与上述方法相同的有益效果。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种分布式训练系统的逻辑结构图；

图2为本申请实施例提供的一种查找分布式训练系统中异常流量节点的方法的流程图；

图3是本申请实施例提供的分布式训练系统的结构图；

图4为本申请实施例提供的一种组内管理节点的模型计算设备执行流程图；

图5是本申请实施例提供的一种全局管理服务器的模型计算设备执行流程图；

图6是本申请实施例提供的一种服务器管理节点的模型计算设备执行流程图；

图7为本申请实施例提供的查找分布式训练系统中异常流量节点的装置的结构图；

图8为本申请另一实施例提供的查找分布式训练系统中异常流量节点的装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种查找分布式训练系统中异常流量节点的方法、装置及介质。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

随着数据、模型、算力的发展催生了大规模深度学习这个领域，如何利用大规模高性能算力来提升模型的训练速度，从而达到百倍甚至千倍的性能提升，正是分布式训练的主要目标，也是目前提升训练效率的最有效手段。为了解决机器学习模型或数据集过大的问题，分布式训练通常采用并行计算方式将模型或数据集进行拆分进而分布到多个计算节点上并行处理，并行方式包括数据并行、模型并行、流水并行以及混合并行等。目前主流的分布式训练架构采用参数服务器架构，图1为本申请实施例提供的一种分布式训练系统的逻辑结构图，具体实施时不限于此结构，如图1所示，分布式训练系统主要包括：计算组10、服务器组11，节点分为参数服务器和计算节点两类，服务器组11包括多个参数服务器，参数服务器主要负责存放模型参数，接收来自计算节点的参数请求并传递给请求的计算节点，参数服务器通常有多个，通过相互通信来复制和迁移参数提高参数服务器框架的可靠性和可扩展性，还会单独设置参数服务器管理节点管理所有参数服务器，用于维护服务器元数据一致；计算组10包括多个计算节点，计算节点在每个迭代过程需要从参数服务器获取参数，并将计算的梯度结果返回给参数服务器，在大规模分布式训练系统中，计算节点通常会被划分成多个计算组10，即每个计算组10由多个计算节点组成，计算组10内计算节点之间也会进行通信传递中间数据结果或参数。

由于节点的每一次迭代都需要通过网络进行海量参数的同步，增加了多个节点间的参数请求与传递、梯度参数更新与同步等通信操作，由于过多的通信操作增加了参数同步开销，较高的通信延迟还会降低分布式训练的性能，因此需避免通信过热节点或通信过冷节点的产生；另外，部分节点由于参数更新速度过慢导致为模型更新了过时的梯度信息，这部分节点称作过时更新节点，这会导致计算节点进行无效的计算，拉低整个计算组的计算速度，可知通信过热节点、通信过冷节点、以及过时更新节点等异常流量节点的存在会降低分布式训练的效率，故为了提高分布式训练的效率需要先找到这些异常流量节点，再针对不同的异常流量节点的问题进行修复。图2为本申请实施例提供的一种查找分布式训练系统中异常流量节点的方法的流程图，如图所示，该方法包括如下步骤：

S11：获取节点的流量统计数据，节点包括计算节点和参数服务器；

S12：根据流量统计数据得到各计算节点之间和/或各参数服务器之间的相似性特征；

S13：根据相似性特征查找节点中的异常流量节点。

本实施例以图1中的节点结构为例，本申请实施例包括但不限于此结构，在图1显示的分布式训练系统结构图中，主要包含服务器组11、计算组10和全局管理服务器，服务器组11包含一个服务器管理节点和若干个参数服务器，每个计算组10包含一个计算组内管理节点和若干个计算节点。具体实施中，也可以不通过计算组10进行查找，直接获取各个计算节点之间的流量统计数据找到异常流量节点。

图3是本申请实施例提供的分布式训练系统的结构图。其中包括计算节点12和参数服务器13，除了这两个节点，分布式训练系统还包括计算组内管理节点14、服务器管理节点15、以及全局管理服务器16，针对不同情况，各个节点的特征分析设备逻辑结构有所不同，图中给出其中一种方案：对于计算节点12和参数服务器13，特征分析设备主要由流量采集设备和传输设备组成；对于组内管理节点14、服务器管理节点15和全局管理服务器16，其中组内管理节点14即为计算组内管理节点，特征分析设备主要由模型计算设备和传输设备组成。流量采集设备主要负责动态通信流量在各时段的定期采集和统计，即获取节点的流量统计数据，实际应用时不限于此方式，传输设备主要发送和接收流量统计数据。为完成流量采集和流量模型计算，需在每个计算节点12、参数服务器13或管理服务器处增加相应的特征分析设备。特征分析设备主要完成流量采集和模型计算等功能，不同的节点根据任务需求包含不同的特征分析设备。针对计算节点12，特征分析设备主要包括流量采集设备和传输设备，流量采集设备用于统计不同时段的流量，传输设备将统计的流量数据传递给组内管理节点14。针对参数服务器13，特征分析设备主要包括流量采集设备和传输设备，流量采集设备用于统计不同时段的流量，传输设备将统计的流量数据传递给服务器管理节点15。针对计算组内的管理节点，特征分析设备包含传输设备和模型计算设备，模型计算设备将组内各计算节点12发送来的流量统计信息进行计算，分析组内节点流量动态变化特征；传输设备负责将流量统计信息发送给全局管理服务器16。针对全局管理服务器16，特征分析设备主要包含传输设备和模型计算设备，根据各组内管理节点14的流量统计信息，计算分析计算组之间动态流量特征。针对服务器管理节点15，特征分析设备主要包括传输设备和模型计算设备，传输设备接收各参数服务器13发送的统计流量，模型计算设备分析参数服务器13之间流量动态变化特征。

本申请实施例对分布式训练系统进行流量动态特征分析的过程如下：

第一步，计算节点和参数服务器进行动态流量统计。每个计算节点和参数服务器利用流量采集设备统计各时段流量以得到流量统计数据，并分别传递给组内管理节点和服务器管理节点。

第二步，组内管理节点接收组内各计算节点的流量统计数据，并将流量统计数据发送给全局管理服务器。

第三步，全局管理服务器接收各组内管理节点发送的流量统计数据，使用模型计算设备分析计算组之间节点动态流量线性相似性特征，并发现异常流量节点所在计算组。

第四步，在异常流量节点所在的计算组中，由组内管理节点的模型计算设备分析组内节点动态流量非线性相似性特征，查找到异常流量节点。

第五步，服务器管理节点接收参数服务器发送的流量统计数据，使用模型计算设备分析参数服务器之间动态流量线性相似性特征，并发现异常流量节点。

第六步，组内管理节点、全局管理服务器或服务器管理节点根据异常流量节点重新划分任务或对节点和对参数服务器进行维修。

本申请实施例具体分为三个部分来分别进行流量动态特征分析，但具体实施中不对此作限定，其中包括计算组之间节点流量分析、计算组内部节点流量分析、以及参数服务器节点间流量分析。

在流量动态特征分析之前，首先需获取各个节点的流量统计数据，具体的获取方式这里不作限定，再根据流量统计数据构建节点的流量序列矩阵，将分别针对参数服务器与计算节点分别构建流量序列矩阵。设定n个采样时段t1，t2，…，tn，采集每个节点对应采样时段的通信流量，继而组合成流量序列矩阵。设计算组数量为m，每个组内计算节点数量不超过l，可以得到如公式（1）中第k个计算组内节点的流量序列矩阵X^(k)：

（1）

其中，

表示第k(k=1，2，…，m)个计算组内第j(j=1，2，…，l)个计算节点的t_i (i=1，2，…，n)时段的采样流量。若某个计算组内节点数量不足l个，对应流量序列矩阵中超过此计算组内节点数量的列值全部补充0。

设参数服务器数量为p，可以得到如公式（2）中的参数服务器流量序列矩阵Y：

（2）

其中，y_i,v表示第v(v=1，2，…，p)个参数服务器ti(i=1，2，…，n)时段的采样流量。

通过对计算组间节点和计算组内节点，以及参数服务器节点之间的动态流量特征进行分析，从而发现节点间流量相似性特性。流量相似性具体采用皮尔逊相关系数和互信息系数来衡量，其中皮尔逊相关系数用来衡量计算组节点之间或参数服务器节点之间的流量序列的线性相似性关系，互信息系数用来衡量计算组内节点流量序列的非线性相似性关系。

首先，针对计算组之间节点相似性特征，主要采用皮尔逊相关系数进行分析。根据流量序列矩阵X，针对任意两个不同计算组f (f=1，2，…，m)和g(g=1，2，…，m)对应的流量序列矩阵X^(f)和X^(g)进行皮尔逊相关系数的计算，从两个矩阵中任意取出列向量

和

(s，q=1，2，…，l)的计算公式，如公式（3）：

（3）

其中，

和

分别是向量

和

的ti(i=1，2，…，n)时段的采样流量值，

和

分别是向量

和

的n个时段采样流量的均值。

通过上述计算可以得到X^(f)和X^(g)的皮尔逊相关系数相似度矩阵R^(f,g)，具体如公式（4）：

（4）

R^(f,g)中元素值

代表计算组f中节点s和计算组g中节点q的流量相似度特征值，每一行元素值代表计算组f中某个节点与计算组g中所有节点的流量相似度特征值。

计算得到的相似度特征值γ为0与1之间的数值，用来描述流量线性相似的强度，γ越接近1，则表明该两个节点线性关系越强，表明流量线性动态变化越相似；γ越接近0，则表明某两个节点线性关系越弱或几乎不存在相似性，表明流量线性动态越不相似；γ为0表明当前节点与空节点的计算，可忽略不考虑。一般将该系数定为0.6<γ≤1.0为强相似，0.2<γ≤0.6为中等强度相似， 0<γ≤0.2为极弱相似或不相似。对于相似性的分类只是本申请实施例提供的一种方案，但并不限定于此方案。

根据R^(f,g)即可判断计算组f和g的动态流量相似性。判定两个计算组动态流量是否具有相似性，主要依据为：计算皮尔逊相关系数矩阵R^(f,g)中每一行元素值是否至少存在一个值达到强相似或中等强度相似。如果任一行元素值至少存在一个值达到强相似或中等强度，则表明计算组f该节点与计算组g中相应节点的流量存在线性相似性，否则该节点与计算组g中任意节点都不相似。如果计算组f中超过50%的节点与计算组g中节点为不相似，则表明对应在两个计算组中节点流量可认定为不存在线性相似性。以上判定方式只是本申请实施例提供的其中一种，并不对其他方式造成限定。

若根据R^(f,g)判断出计算组f和g不存在线性相似性，则表明计算组f或计算组g中存在异常流量节点，则需进一步判断异常流量节点所在计算组。首先判断异常流量节点是存在于计算组f还是计算组g中，或者是两个计算组中均存在。分别对计算组f和计算组g与其他计算组的线性相似性矩阵进行比对，若存在两个及以上R^(f,h) (h=1，2，…，m且h≠g)不存在线性相似性，则表明计算组f中存在异常流量节点；若存在两个及以上R^(g,h) (h=1，2，…，m且h≠f)不存在线性相似性，则表明计算组g中存在异常流量节点。对于存在异常流量节点的计算组，表明与其他计算组相比，存在计算任务分割不平衡或计算异常的节点，还需进一步判断该计算组中哪个节点为异常流量节点，继而动态调整任务划分或者对计算异常的节点进行维修。

第二，计算组内部节点之间的相似性特征可以采用互信息系数进行分析。在确定出存在异常流量节点的计算组之后，需要进一步确定该计算组内部具体是哪个节点为异常流量节点。计算组内部节点通常采用多级分层形式，如图1所示，针对相邻层级的节点做互信息系数特征分析，发现相邻层级节点的非线性动态相似性。假设计算组内任意两个相邻层级的两个节点为X(u)和Y(w)，其中u,w（u,v=1,2,…,L且u,v相邻，L为计算组内最大分层数）分别为计算组内相邻分层，互信息系数的计算方法如下公式（5）：

（5）

其中

和

分别为两个节X^(u)和Y^(w)的第i个时段流量，

为两个节点第i个时段流量的联合概率密度，

分别为两个节点第i个时段流量的边缘概率密度。互信息M取值范围为[0，1]。M越接近1，表明两个节点X^(u)和Y^(w)非线性关系越强，表明两个节点的流量非线性动态变化越相似。

这样可以计算得到相邻层节点互信息系数矩阵I^(u,w)，具体如公式（6）：

（6）

其中，

表示第u层第i（i=1，2，…，Lu）个计算节点与第w层第j（j=1，2，…，L_w）个计算节点的互信息系数，L_u为第u层计算节点数，L_w为第w层计算节点数。

对计算组内节点流量特征分析主要考察同一层的不同节点与相邻层节点的流量非线性动态变化特征是否相似，也即第u层中任意两个节点的互消息系数行向量对应值是否相近，具体可以通过互信息系数矩阵I^(u,w)中计算任意两行元素对应项的差值得到，即

（i，k=1，2，…，L_u且i≠k，j=1，2，…，L_w）。如果每一个对应项差值均小于0.5，表明这两个u层节点互信息系数相近，考虑为正常流量节点，否则需与同层其他节点的互消息系数向量值进一步进行比较，当与其他的同层节点互消息系数向量差值均超过0.5时，则判定该节点则为异常流量节点，值得注意的是，这种判定方式以及采用的各种阈值只是实际应用时的一种较优的方案，本申请可以采用其他判定方案，例如，如果其中一个节点与同层其他节点的互消息系数向量值进行比较，如果该节点与指定数量的其余节点之间的向量差值均超过0.5时，判定该节点则为异常流量节点，上述指定数量可以是全部的其余节点，也可以根据实际情况设置一个值。本申请实施例可以根据计算节点或计算组之间的通信流量动态特征分析，及时发现存在异常流量的计算节点，有助于快速发现模型或数据集不合理的切分，为计算任务均衡调度提供依据，提升分布式训练的效率。

第三，参数服务器节点之间的线性相似性特征可以采用与上述类似的皮尔逊相关系数计算方法进行分析。根据参数服务器流量序列矩阵Y，任取两个列向量Y_j (j=1，2，…，p)和Y_k (k=1，2，…，p)，计算两个参数服务器节点的皮尔逊相关系数值，具体采用下面的公式（7）：

（7）

其中

和

分别是参数服务器j和k在t_i (i=1，2，…，n)时段的采样流量值，

和

分别是Y_j和Y_k的流量向量均值。

通过上述计算可以得到一个皮尔逊相关系数相似度矩阵Rc，如公式（8）：

（8）

其中，

表示参数服务器节点j和节点k的流量相似度值。R_c计算得到是对角线为1的矩阵。

计算得到的每个γ为0与1之间的数值，用来描述参数服务器节点流量线性相似的强度，γ越接近1，则表明两个参数服务器节点线性关系越强，表明流量线性动态变化越相似；γ越接近0，则表明某两个节点线性关系越弱或几乎不存在相似性，表明流量线性动态越不相似；对角线元素γ为1表明是同一节点相似度值，可忽略不考虑。一般将该系数设定为0.6<γ≤1.0为强相似， 0.2<γ≤0.6为中等强度相似， 0<γ≤0.2为极弱相似或不相似。

判定两个参数服务器的动态流量是否具有相似性，主要依据为：计算皮尔逊相关系数矩阵Rc中除对角线元素值外每一行元素值是否至少存在一个值达到极强相似或强相似。除对角线元素之外，如果任一行元素值至少存在一个值达到强相似或中等强度相似，则表明对应在两个参数服务器节点流量存在线性相似性；如果任一行元素值都为极弱相似，则表明对应在两个参数服务器节点流量可认定为不存在线性相似性。

若参数服务器j和k不存在线性相似性，表明两个参数服务器的通信流量有显著差异，存在某个参数服务器流量过大或流量过小的情况，即存在某些参数服务器被过度频繁访问，而某些参数服务器长时间不被访问的情况，被过度访问的参数服务器可能导致更新冲突或通信热点，需进一步确定流量异常的参数服务器节点。确定异常流量节点的方法为：查看参数服务器的皮尔逊相关系数矩阵R_c，若参数服务器j存在参数服务器总数量一半及以上的不相似参数服务器节点，表明参数服务器j为异常流量节点。对于异常流量参数服务器，需服务器管理节点根据参数访问频度重新优化参数存放的参数服务器的位置。同样的，上述对参数服务器中的异常流量节点的判定方式，以及采用的各种阈值都只是本申请实施例提供的其中一种方案，但并不限于此类方案。本申请实施例可以根据参数服务器的通信流量动态特征分析，帮助快速发现神经网络参数数据的存储是否合理，避免出现参数服务器访问瓶颈，提升计算节点对参数服务器的访问效率，以提高分布式训练的效率。

其中，图4为本申请实施例提供的一种组内管理节点的模型计算设备执行流程图。

具体执行流程如下：

S21：组内管理节点的模型计算设备接收来自传输设备的计算节点流量统计数据；

S22：根据公式（6）计算得到第u层与相邻第w层的流量互信息系数矩阵I^(u,w)；

S23：计算矩阵I^(u,w)中两行元素对应项差值|a_i,j-a_k,j|；

S24：判断对应元素差值|a_i,j-a_k,j|是否均小于0.5；如果是，则进入步骤S25；如果否，则进入步骤S28；

S25：判定第u层计算节点i和k为流量正常节点；

S26：判断是否已经遍历到第u层最后一个计算节点。如果是，则进入步骤S27；如果否，则进入步骤S32；

S27：判断是否所有计算节点分层都已经遍历完，如果是，则结束；如果否，则进入步骤S33；

S28：异常判断计数器增加1；

S29：判断是否同一分层的节点全部遍历完，如果是，则进入步骤S30；如果否，则进入步骤S34；

S30：判断异常计数器是否大于1，如果是，则进入步骤S31，如果否，则进入步骤S26；

S31：标记计算节点i为异常流量节点，进入步骤S26；

S32：i增加1，遍历第u层下一个计算节点，异常计数器清零，进入步骤S23；

S33：u增加1，遍历下一个计算节点分层，进入步骤S22；

S34：k增加1，遍历下一个同层节点，进入步骤S23。

图5是本申请实施例提供的一种全局管理服务器的模型计算设备执行流程图。

具体执行流程如下：

S41：全局管理服务器的模型计算设备接收来自传输设备的计算节点流量统计数据；

S42：根据公式（4）计算计算组f和g的皮尔逊相关系数矩阵R^(f,g)；

S43：将皮尔逊相关系数矩阵R^(f,g)中第i行每一个元素值与0.2进行比较；

S44：判断是否至少存在一个元素大于0.2，如果是，进入步骤S45；如果否，进入步骤S50；

S45：判定计算组f的计算节点i与计算组g存在线性相似性，相似节点数增加1；

S46：判断计算组f中所有节点是否都计算完成，如果是，则进入步骤S47；如果否，则进入步骤S51；

S47：判断相似节点数个数是否为计算组f节点总数的50%以上，如果是，则进入步骤S48；如果否，则进入步骤S52；

S48：计算组f与计算组g存在线性相似性，节点流量正常；

S49：判断是否所有计算组计算完成；如果是，则结束；如果否，则进入步骤S55；

S50：计算组f的i节点与计算组g不存在线性相似性，进入步骤S46；

S51：i增加1，判断下一个节点，进入步骤S43；

S52：计算组f与计算组g不存在线性相似性，异常计算组计数增加1；

S53：判断异常计算组数是否大于2，如果是，则进入步骤S54；如果否，则进入步骤S56；

S54：计算组f存在流量异常节点，转去进行计算组内节点相似性分析；

S55：f增加1，判断下一个计算组，相似节点计数清零，异常计算组计数清零，进入步骤S42；

S56：判断g是否为最后一个计算组，如果是，进入步骤S57；如果否，则进入步骤S58；

S57：判定计算组f不存在异常流量节点，进入步骤S49；

S58：g增加1，计算组f与下一个计算组进行比较，进入步骤S42。

图6是本申请实施例提供的一种服务器管理节点的模型计算设备执行流程图。

具体执行过程如下：

S61：服务器管理节点的模型计算设备接收传输设备传递的计算节点流量统计数据；

S62：根据公式（8）计算参数服务器j和k的皮尔逊相关系数相似度矩阵Rc；

S63：矩阵R_c中第j行除对角线元素外的其他元素值与0.2进行比较；

S64：判断是否至少存在参数服务器总数量一半的元素值不大于0.2，如果否，则进入步骤S65；如果是，则进入步骤S67；

S65：判定参数服务器j流量正常；

S66：判断是否所有参数服务器都完成计算，如果是，则结束；如果否，则进入步骤S68；

S67：参数服务器j存在流量异常，进入步骤S66；

S68：j增加1，继续判断下一个参数服务器，进入步骤S63。

需要注意的是，图4、图5以及图6中给出的方案只是本申请提供的其中一种，不对本申请其他方案造成限定，另外，步骤中设置的各种阈值也不限于图中给出的数值，可根据实际情况另设。

本申请实施例所提供的查找分布式训练系统中异常流量节点的方法，其中，分布式训练系统的节点包括计算节点和参数服务器，参数服务器主要负责存放模型参数，计算节点负责数据计算。该方法先获取节点的流量统计数据；并根据流量统计数据得到各计算节点之间和/或各参数服务器之间的相似性特征，再根据计算节点之间的相似性特征查找出计算节点中的异常流量节点，以及根据参数服务器之间的相似性特征查找出参数服务器中的异常流量节点。本申请提供的方法可找到节点中的异常流量节点，可以根据异常流量节点对分布式训练系统重新布局以提高分布式训练的效率。

在实际应用中，计算节点的数量较多，在所有的计算节点中找到存在异常的计算节点，会存在较大的工作量，而实际的分布式训练系统中，一般多个计算节点会组成一个计算组，分布式训练系统包括多个计算组。为了更快的找到异常的计算节点，根据流量统计数据得到各计算节点之间的相似性特征之前，还包括：根据流量统计数据得到各计算组之间的相似性特征；根据各计算组之间的相似性特征查找异常流量节点所在的计算组；根据流量统计数据得到各计算节点之间的相似性特征具体为：根据流量统计数据得到异常流量节点所在的计算组内各计算节点之间的相似性特征；根据相似性特征查找计算节点中的异常流量节点具体为：根据异常流量节点所在的计算组内各计算节点之间的相似性特征查找计算组内的异常流量节点。本申请实施例提供的具体方案在上述实施例中已有描述，这里不再赘述。

本申请实施例提供的方案，先找到存在异常流量节点的计算组，在从这些计算组内找到存在异常的计算节点，能够有效的提高查找异常流量节点的效率。

对于具体应用时，如何确定计算组中包含有异常流量节点的方法，本申请实施例提供一种具体的实施方式：根据各计算组之间的相似性特征查找异常流量节点所在的计算组包括：获取目标计算组与其他各计算组之间的相似度值；若与目标计算组的相似度值满足第一预设要求的其他计算组的数量大于第一预设值，则判定目标计算组中包含异常流量节点。

如上述实施例提供的方案，根据流量序列矩阵X，针对任意两个不同计算组f (f=1，2，…，m)和g(g=1，2，…，m)对应的流量序列矩阵X^(f)和X^(g)进行皮尔逊相关系数的计算，从两个矩阵中任意取出列向量

和

(s，q=1，2，…，l)的计算公式，如公式（3），通过计算可以得到X^(f)和X^(g)的皮尔逊相关系数相似度矩阵R^(f,g)，具体如公式（4），在得到相似度值γ之后，可设置多个相似度区间，值得注意的是，这些相似度区间的范围以及个数都不作要求，以下给出其中一种情形，例如将该系数定为0.6<γ≤1.0为强相似，0.2<γ≤0.6为中等强度相似， 0<γ≤0.2为极弱相似或不相似，而皮尔逊相关系数矩阵R^(f,g)中如果任一行元素值至少存在一个值达到强相似或中等强度，则表明计算组f该节点与计算组g中相应节点的流量存在线性相似性，否则该节点与计算组g中任意节点都不相似，而如果计算组f中超过50%的节点与计算组g中节点为不相似，则表明对应在两个计算组中节点流量可认定为不存在线性相似性。以上对其中一个计算组与其他某个计算组中节点流量认定为不存在线性相似性的条件即相当于第一预设条件，具体实施中对第一预设要求没有具体限定，以上只是提供其中一种方式。当其中一个计算组与其他多个计算组都不存在线性相似性，且这个数值超过第一预设值时，则认定该计算组中存在异常流量节点。可将第一预设值设置为2，即当其中一个计算组与两个以上的计算组都不存在线性相似性，则认定该计算组中存在异常流量节点。

本申请实施例提供的方案可以准确快速的找到存在异常流量节点的计算组，以便于进一步在该计算组中找到异常流量节点。

在确定出存在异常的节点之后，需要进一步在该计算组中找到异常流量节点，本申请实施例提供一种具体的实现方式，计算组内部的多个计算节点根据分布式训练系统的训练任务分为多个层级；根据异常流量节点所在的计算组内各计算节点之间的相似性特征查找计算组内的异常流量节点具体为：获取目标层级中各计算节点与相邻层级的其他计算节点的非线性动态变化特征；若目标层级中的目标计算节点与相邻层级的其他计算节点的非线性动态变化特征，与目标层级中的其他各计算节点与相邻层级的其他计算节点的非线性动态变化特征之间的相似度值均满足第二预设要求，则判定目标计算节点为异常流量节点。

如图1所示，计算组内部的多个计算节点分为多个层级，如图中的一个计算组包括层1、层2、层3，分别代表计算组1的三个层级，层1中包括计算节点1、计算节点2，层2中包括计算节点3、计算节点4、计算节点5，层3中包括计算节点5、计算节点7，具体如何划分各个计算组的层级以实际情况为准。针对相邻层级的节点做互信息系数特征分析，发现相邻层级节点的非线性动态相似性。假设计算组内任意两个相邻层级的两个节点为X(u)和Y(w)，其中u,w（u,v=1,2,…,L且u,v相邻，L为计算组内最大分层数）分别为计算组内相邻分层，利用公式（5）和（6）得到相邻层节点互信息系数矩阵I^(u,w)，对计算组内节点流量特征分析主要考察同一层的不同节点与相邻层节点的流量非线性动态变化特征是否相似，也即第u层中任意两个节点的互消息系数行向量对应值是否相近，具体可以通过互信息系数矩阵I^(u,w)中计算任意两行元素对应项的差值得到，即

（i，k=1，2，…，L_u且i≠k，j=1，2，…，L_w）。如果每一个对应项差值均小于0.5，表明这两个u层节点互信息系数相近，考虑为正常流量节点，否则需与同层其他节点的互消息系数向量值进一步进行比较，当与其他的同层节点互消息系数向量差值均超过0.5时，则判定该节点则为异常流量节点。第u层即为目标层级，目标层级中的目标计算节点与相邻层节点进行比较得到流量非线性动态变化特征，目标层级中的其他计算节点以同样方式得到相应的流量非线性动态变化特征，若目标计算节点对应的流量非线性动态变化特征与其余的流量非线性动态变化特征均不相似，则目标计算节点为异常流量节点。

本申请实施例提供的方案能够准确的从存在异常流量节点的计算组中找到该异常流量节点，通过对同一层的不同节点与相邻层节点的流量非线性动态变化特征之间的相似性计算，可以准确的找到存在异常的计算节点。其中目标计算节点与其余计算节点的流量非线性动态变化特征都不相似，说明目标计算节点为异常流量节点，故能进行准确的判断。

根据相似性特征查找参数服务器中的异常流量节点具体为：获取目标参数服务器与其他各参数服务器之间的相似度值；若与目标参数服务器的相似度值满足第三预设要求的其他参数服务器的数量大于第三预设值，则判定目标参数服务器为异常流量节点。

如上述实施例中所描述的，判定两个参数服务器的动态流量是否具有相似性，主要依据可以为：计算皮尔逊相关系数矩阵Rc中除对角线元素值外每一行元素值是否至少存在一个值达到极强相似或强相似。除对角线元素之外，如果任一行元素值至少存在一个值达到强相似或中等强度相似，则表明对应在两个参数服务器节点流量存在线性相似性；如果任一行元素值都为极弱相似，则表明对应在两个参数服务器节点流量可认定为不存在线性相似性，即满足第三预设要求。而其中一个参数服务器存在第三预设值以上的参数服务器与之不存在线性相似性，则判定该参数服务器为异常流量节点。

在判定目标计算节点为异常流量节点之后，需要对各个计算节点的任务重新进行划分，才能提高分布式训练的效率，具体为：根据异常的计算节点重新划分分布式训练的数据集和模型。

分布式训练的数据集和模型需要进行合理划分，各个计算节点才能够进行高效的计算，例如，当其中一个计算节点的计算任务过多，会导致该节点计算效率低下，还会影响其他计算节点的计算效率，从而导致整个分布式训练的效率低。故判断出该计算节点异常之后，可以根据该计算节点的异常重新划分数据集和模型，合理的分配能够提高分布式训练的效率。

判定目标参数服务器为异常流量节点之后，需要采取相应的措施以解决异常的参数服务器导致的问题，其中一种具体实施为：获取异常的参数服务器的参数访问频度；若参数服务器的参数访问频度超过阈值，则将参数服务器的参数存放至其他参数服务器。

以上述实施例中的情况为例，若参数服务器j和k不存在线性相似性，表明两个参数服务器的通信流量有显著差异，存在某个参数服务器流量过大或流量过小的情况，即存在某些参数服务器被过度频繁访问，而某些参数服务器长时间不被访问的情况，对于异常流量参数服务器，需服务器管理节点根据参数访问频度重新优化参数存放的参数服务器的位置。具体为：若参数服务器的参数访问频度超过阈值，则将该参数服务器的参数存放至其他参数访问频度较低的参数服务器中，防止部分参数服务器存放的参数过多而导致流量过大，从而导致分布式训练的效率低。

在上述实施例中，对于查找分布式训练系统中异常流量节点的方法进行了详细描述，本申请还提供查找分布式训练系统中异常流量节点的装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

基于功能模块的角度，本实施例提供一种查找分布式训练系统中异常流量节点的装置，图7为本申请实施例提供的查找分布式训练系统中异常流量节点的装置的结构图，如图7所示，该装置包括：

获取模块17，用于获取节点的流量统计数据，节点包括计算节点和参数服务器；

得到模块18，用于根据流量统计数据得到各计算节点之间和/或各参数服务器之间的相似性特征；

查找模块19，用于根据相似性特征查找节点中的异常流量节点。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本实施例提供的查找分布式训练系统中异常流量节点的装置，与上述方法对应，故具有与上述方法相同的有益效果。

基于硬件的角度，本实施例提供了另一种查找分布式训练系统中异常流量节点的装置，图8为本申请另一实施例提供的查找分布式训练系统中异常流量节点的装置的结构图，如图8所示，查找分布式训练系统中异常流量节点的装置包括：存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例中所提到的查找分布式训练系统中异常流量节点的方法的步骤。

本实施例提供的查找分布式训练系统中异常流量节点的装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器（Digital Signal Processor，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable LogicArray，PLA）中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器（CentralProcessing Unit，CPU）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有图像处理器（Graphics Processing Unit，GPU），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能（Artificial Intelligence，AI）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的查找分布式训练系统中异常流量节点的方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于查找分布式训练系统中异常流量节点的方法涉及到的数据等。

在一些实施例中，查找分布式训练系统中异常流量节点的装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图中示出的结构并不构成对查找分布式训练系统中异常流量节点的装置的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的查找分布式训练系统中异常流量节点的装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：查找分布式训练系统中异常流量节点的方法。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例描述的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的计算机可读存储介质，与上述方法对应，故具有与上述方法相同的有益效果。

以上对本申请所提供的一种查找分布式训练系统中异常流量节点的方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种查找分布式训练系统中异常流量节点的方法，其特征在于，包括：

根据所述相似性特征查找所述节点中的所述异常流量节点；

其中，多个所述计算节点组成一个计算组，所述分布式训练系统包括多个所述计算组；

2.根据权利要求1所述的查找分布式训练系统中异常流量节点的方法，其特征在于，所述根据各所述计算组之间的所述相似性特征查找所述异常流量节点所在的所述计算组包括：

获取目标计算组与其他各所述计算组之间的相似度值；

3.根据权利要求2所述的查找分布式训练系统中异常流量节点的方法，其特征在于，所述计算组内部的多个所述计算节点根据所述分布式训练系统的训练任务分为多个层级；

4.根据权利要求1所述的查找分布式训练系统中异常流量节点的方法，其特征在于，根据所述相似性特征查找所述参数服务器中的所述异常流量节点具体为：

5.根据权利要求3所述的查找分布式训练系统中异常流量节点的方法，其特征在于，所述判定所述目标计算节点为所述异常流量节点之后，还包括：

6.根据权利要求4所述的查找分布式训练系统中异常流量节点的方法，其特征在于，所述判定所述目标参数服务器为所述异常流量节点之后，还包括：

获取异常的所述参数服务器的参数访问频度；

7.一种查找分布式训练系统中异常流量节点的装置，其特征在于，包括：

查找模块，用于根据所述相似性特征查找所述节点中的所述异常流量节点；

8.一种查找异常流量节点的装置，其特征在于，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的查找分布式训练系统中异常流量节点的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的查找分布式训练系统中异常流量节点的方法的步骤。