CN108156032B

CN108156032B - 基于谱聚类与随机选择结合的参考节点选取方法

Info

Publication number: CN108156032B
Application number: CN201711402375.0A
Authority: CN
Inventors: 罗向阳; 柴理想; 赵帆; 刘斯奇; 李明月; 刘粉林
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-11-24
Anticipated expiration: 2037-12-22
Also published as: CN108156032A

Abstract

本发明涉及信息安全技术领域，特别是涉及一种基于谱聚类与随机选择结合的参考节点选取算法。基于谱聚类与随机选择结合的参考节点选取方法，包括以下步骤：对网络节点进行谱聚类；判断网络节点是否为离群点，若是，则去除离群点；若否，则直接进行下一步；随机选取参考节点；对选取的参考节点进行优化。本发明利用谱聚类对网络节点进行聚类，将时延相似的节点作为一类，然后对聚类结果进行离群点处理，最后在每类中随机选取若干点作为参考节点，将由参考节点构成的带权无向图划分为两个或者两个以上的最优子图，并且根据时延向量的相似度使子图内部差异性尽量小，而子图之间的差异性较大，从而达到聚类的目的，且避免了局部最优的情况。

Description

基于谱聚类与随机选择结合的参考节点选取方法

技术领域

本发明涉及信息安全技术领域，特别是涉及一种基于谱聚类与随机选择结合的参考节点选取算法。

背景技术

大规模分布式服务以及应用对于获取任意两个网络主机节点之间网络距离的需求越来越普遍，这些应用包括分布式文件共享、基于位置的路由协议、内容分发网络等。在这些应用中，通过端到端直接测量能够获取两个网络主机之间的时延，但是当网络节点数量较大时，这种方法测量的开销就会急剧增大，并且复杂度也会增加。假设网络中存在M个主机，则获得任意两个主机之间的时延需要M²的测量复杂度；此外，网络中还存在节点之间时延无法测量的问题，因而直接测量的时延获取方法难以应用于大规模网络服务。为了满足大规模网络测量的需求，研究者提出了一种网络时延预测的技术，通过计算两个节点的时延值来预测实际测量时延值。这种技术的典型方法称为网络坐标系NCS(NetworkCoordinate System)。NCS是使用少量直接测量数据进行网络距离(在网络坐标系中网络距离即为网络时延)预测的一种方法。

现有网络坐标系参考节点的选择大都是采取随机选择的方法，这种方法虽然能够以同等概率选择参考节点，但是同时也会选取到一些异常值点，由于异常值点的存在，导致利用所构建的初始网络坐标系预测节点时延时出现严重偏离实际值的结果，从而造成预测失效。因此，如何选择参考节点是提高网络坐标系时延预测精度的关键问题之一。

发明内容

针对上述情况，本发明提出一种基于谱聚类与随机选择结合的参考节点选取方法，提高了网络坐标系时延预测精度。

为了实现上述目的，本发明采用以下技术方案：

基于谱聚类与随机选择结合的参考节点选取方法，包括以下步骤：

步骤1：对网络节点进行谱聚类；

步骤2：判断网络节点是否为离群点，若是，则去除离群点；若否，则直接进行下一步；

步骤3：随机选取参考节点；

步骤4：对选取的参考节点进行优化。

优选地，所述参考节点的个数为聚类的类别数。

优选地，所述步骤1包括：

步骤1.1：将所有网络节点时延数据构造成一个带权无向图，图中的顶点为网络节点，权重为两个网络节点时延向量的相似度，并根据构造的带权无向图，得到网络节点邻接矩阵；

步骤1.2：根据网络节点邻接矩阵得到对角矩阵，其中对角矩阵的列数与网络邻接矩阵列数相同，且对角元素由上到下依次为网络邻接矩阵的每一列元素之和；

步骤1.3：根据网络节点邻接矩阵及所述对角矩阵，求网络节点的带权无向图的最优分割，得出多个子图及拉普拉斯矩阵；

步骤1.4：根据网络节点的带权无向图的最优分割，求拉普拉斯矩阵的前k个最小特征值，将前k个最小特征值对应的特征向量与网络节点构成k乘以网络节点数的矩阵，将矩阵的每一行看作网络节点时延向量，对网络节点时延向量进行K-means聚类。

优选地，在所述步骤2之前还包括：对每一类的网络节点个数进行遍历。

优选地，所述判断网络节点是否为离群点为判断每一类的网络节点个数是否为1。

优选地，所述步骤3包括：

步骤3.1：为每类中的节点分配序号，序号从1开始，从小到大排列；

步骤3.2：对每类中的节点序号进行随机排序；

步骤3.3：选择排序结果中前M个数字，选择对应数字的节点作为参考节点；

步骤3.4：构建由参考节点构成的初始网络坐标系，并将剩余节点作为待预测节点。

优选地，所述步骤4包括：

步骤4.1：将待预测节点利用映射函数加入到初始网络坐标系；

步骤4.2：基于选取的参考节点对待预测节点计算预测时延；

步骤4.3：统计所有待预测节点预测时延与实测时延的相对误差；

步骤4.4：判断相对误差是否小于设定的阈值，若是，则将对应的参考节点作为构建初始网络坐标系的参考节点；若否，则重新对网络节点进行谱聚类；

步骤4.5：若经过设定的轮数后，仍未找到相对误差小于设定阈值对应的参考节点，则修改阈值并重复上述步骤，直到找到满足判断条件的参考节点。

与现有技术相比，本发明具有的有益效果：

本发明利用谱聚类对网络节点进行聚类，将时延相似的节点作为一类，然后对聚类结果进行离群点处理，最后在每类中随机选取若干点作为参考节点，本发明选择的谱聚类算法是一种基于图论的聚类算法，其基本思想是将由参考节点构成的带权无向图划分为两个或者两个以上的最优子图，并且根据时延向量的相似度使子图内部差异性尽量小，而子图之间的差异性较大，从而达到聚类的目的，且避免了局部最优的情况。

本发明在聚类过程中将一个类中只有一个节点的情况去除，离群点到其余各点的时延出现异常，这些点作为参考节点时，利用其构建的网络坐标系，会使得节点坐标出现大于容忍误差的情况，需要将其剔除，而随机选择算法由于同等概率选择所有节点，因此存在将离群点作为参考节点的情况，此时就会出现预测时延失效的问题，因此，与随机算法相比本发明能够降低由于选择参考节点过于集中的误差，并且有效避免预测时延失效问题。

附图说明

图1为本发明基于谱聚类与随机选择结合的参考节点选取方法的基本流程示意图之一。

图2为本发明基于谱聚类与随机选择结合的参考节点选取方法的基本流程示意图之二。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例一：

如图1所示，本发明的一种基于谱聚类与随机选择结合的参考节点选取方法，包括以下步骤：步骤S101：对网络节点进行谱聚类。

步骤S102：判断网络节点是否为离群点，若是，则去除离群点；若否，则直接进行下一步。

步骤S103：随机选取参考节点。

步骤S104：对选取的参考节点进行优化。

实施例二：

如图2所示，本发明的另一种基于谱聚类与随机选择结合的参考节点选取方法，包括以下步骤：

步骤S201：对网络节点进行谱聚类，包括：

步骤S2011：将网络节点时延数据集中的所有点构造成一个带权无向图，图中的所有顶点为数据集中的所有网络节点，权重为两个节点时延向量的相似度，为了计算时延向量的相似度，引入高斯核函数来计算两个节点的时延向量的相似度，权重计算公式如公式(1)所示：

其中，F_i和F_j是两个节点的时延特征向量，利用上式可以计算出二者之间的相关性，边的权重越大，两个节点的时延向量越相似，将所有边的权重计算后，即可构成带权无向图；根据构造的带权无向图，得到网络节点邻接矩阵，记为E，E如下所示：

其中S_ij表示两个节点之间的距离，即为两个时延向量之间的权重；ε为阈值，作为一种可实施方式，设定为1。

作为一种可实施方式，网络节点时延数据集由1740个DNS服务器相互测量时延得到。

步骤S2012：将E的每一列元素加起来得到N个数，将这N个数依次放在对角线上，其他元素都为零，组成一个N×N的矩阵，记为D，计算公式如下：

其中，N为样本个数，E_i,j为邻接矩阵的元素，D_i,j为对角矩阵的元素；D中对角线上的值为矩阵E中对应行或列的和。

步骤S2013：根据谱聚类的思想，将网络节点带权无向图划分为多个子图，子图与子图之间差异要大，而子图中各个节点差异要小，即求图的最优分割，使得分割结果满足子图间差异最大，子图内最小，引入RationCut分割准则，如公式(4)所示：

其中

为任意两个网络节点构成的子图之间的连接权值，即子图之间时延向量的相似度，|A_i|为子图中的参考节点数，k表示分割的子图数，利用上式即可求的网络节点的带权无向图的最优分割，上式问题求解可转化为对拉普拉斯矩阵L求其前k个最小特征值问题，因此要求出矩阵L可以根据拉普拉斯矩阵的定义，如公式(5)即可求得L：

L＝D-E (5)

将上式归一化后可得：

式中矩阵E和D已分别在步骤S2011和步骤S2012中求出。

步骤S2014：根据网络节点的带权无向图的最优分割法则，求矩阵L的前k个最小特征值，将前k个最小特征值对应的特征向量与N个网络节点构成N×K的矩阵，将矩阵的每一行看作网络节点时延向量，对网络节点时延向量进行K-means聚类。

步骤S202：对每一类的网络节点个数进行遍历。

步骤S203：判断每一类的网络节点个数是否为1，若是，则作为离群点进行去除；若否，则直接进行下一步。

步骤S204：随机选取参考节点，包括：

步骤S2041：为每类中的节点分配序号，序号从1开始，从小到大排列；

步骤S2042：对每类中的节点序号进行随机排序；

步骤S2043：选择排序结果中前M个数字，选择对应数字的节点作为参考节点；作为一种可实施方式，M取值为4；

步骤S2044：构建由参考节点构成的初始网络坐标系，并将剩余节点作为待预测节点。

步骤S205：对选取的参考节点进行优化，包括：

步骤S2051：将待预测节点利用映射函数加入到初始网络坐标系；

步骤S2052：基于选取的参考节点对待预测节点计算预测时延；

步骤S2053：统计所有待预测节点预测时延与实测时延的相对误差；

步骤S2054：判断相对误差是否小于设定的阈值，若是，则将对应的参考节点作为构建初始网络坐标系的参考节点；若否，则重新对网络节点进行谱聚类；作为一种可实施方式，设定的阈值为5ms；

步骤S2055：若经过设定的轮数R后，仍未找到相对误差小于设定阈值对应的参考节点，则修改阈值并重复上述步骤，直到找到满足判断条件的参考节点；作为一种可实施方式，R取值为200。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于谱聚类与随机选择结合的参考节点选取方法，其特征在于，包括以下步骤：

步骤1：对网络节点进行谱聚类；所述步骤1包括：

步骤1.4：根据网络节点的带权无向图的最优分割，求拉普拉斯矩阵的前k个最小特征值，将前k个最小特征值对应的特征向量与网络节点构成k乘以网络节点数的矩阵，将矩阵的每一行看作网络节点时延向量，对网络节点时延向量进行K-means聚类；

步骤3：随机选取参考节点；

步骤4：对选取的参考节点进行优化。

2.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法，其特征在于，所述参考节点的个数为聚类的类别数。

3.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法，其特征在于，在所述步骤2之前还包括：对每一类的网络节点个数进行遍历。

4.根据权利要求3所述的基于谱聚类与随机选择结合的参考节点选取方法，其特征在于，所述判断网络节点是否为离群点为判断每一类的网络节点个数是否为1。

5.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法，其特征在于，所述步骤3包括：

步骤3.2：对每类中的节点序号进行随机排序；

6.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法，其特征在于，所述步骤4包括：

步骤4.2：基于选取的参考节点对待预测节点计算预测时延；

步骤4.5：若经过设定的轮数后，仍未找到相对误差小于设定阈值对应的参考节点，则修改阈值并重复步骤4.1至步骤4.4，直到找到满足判断条件的参考节点。