CN108156032B - 基于谱聚类与随机选择结合的参考节点选取方法 - Google Patents

基于谱聚类与随机选择结合的参考节点选取方法 Download PDF

Info

Publication number
CN108156032B
CN108156032B CN201711402375.0A CN201711402375A CN108156032B CN 108156032 B CN108156032 B CN 108156032B CN 201711402375 A CN201711402375 A CN 201711402375A CN 108156032 B CN108156032 B CN 108156032B
Authority
CN
China
Prior art keywords
nodes
network
node
spectral clustering
reference node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711402375.0A
Other languages
English (en)
Other versions
CN108156032A (zh
Inventor
罗向阳
柴理想
赵帆
刘斯奇
李明月
刘粉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN201711402375.0A priority Critical patent/CN108156032B/zh
Publication of CN108156032A publication Critical patent/CN108156032A/zh
Application granted granted Critical
Publication of CN108156032B publication Critical patent/CN108156032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Discrete Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息安全技术领域,特别是涉及一种基于谱聚类与随机选择结合的参考节点选取算法。基于谱聚类与随机选择结合的参考节点选取方法,包括以下步骤:对网络节点进行谱聚类;判断网络节点是否为离群点,若是,则去除离群点;若否,则直接进行下一步;随机选取参考节点;对选取的参考节点进行优化。本发明利用谱聚类对网络节点进行聚类,将时延相似的节点作为一类,然后对聚类结果进行离群点处理,最后在每类中随机选取若干点作为参考节点,将由参考节点构成的带权无向图划分为两个或者两个以上的最优子图,并且根据时延向量的相似度使子图内部差异性尽量小,而子图之间的差异性较大,从而达到聚类的目的,且避免了局部最优的情况。

Description

基于谱聚类与随机选择结合的参考节点选取方法
技术领域
本发明涉及信息安全技术领域,特别是涉及一种基于谱聚类与随机选择结合的参考节点选取算法。
背景技术
大规模分布式服务以及应用对于获取任意两个网络主机节点之间网络距离的需求越来越普遍,这些应用包括分布式文件共享、基于位置的路由协议、内容分发网络等。在这些应用中,通过端到端直接测量能够获取两个网络主机之间的时延,但是当网络节点数量较大时,这种方法测量的开销就会急剧增大,并且复杂度也会增加。假设网络中存在M个主机,则获得任意两个主机之间的时延需要M2的测量复杂度;此外,网络中还存在节点之间时延无法测量的问题,因而直接测量的时延获取方法难以应用于大规模网络服务。为了满足大规模网络测量的需求,研究者提出了一种网络时延预测的技术,通过计算两个节点的时延值来预测实际测量时延值。这种技术的典型方法称为网络坐标系NCS(NetworkCoordinate System)。NCS是使用少量直接测量数据进行网络距离(在网络坐标系中网络距离即为网络时延)预测的一种方法。
现有网络坐标系参考节点的选择大都是采取随机选择的方法,这种方法虽然能够以同等概率选择参考节点,但是同时也会选取到一些异常值点,由于异常值点的存在,导致利用所构建的初始网络坐标系预测节点时延时出现严重偏离实际值的结果,从而造成预测失效。因此,如何选择参考节点是提高网络坐标系时延预测精度的关键问题之一。
发明内容
针对上述情况,本发明提出一种基于谱聚类与随机选择结合的参考节点选取方法,提高了网络坐标系时延预测精度。
为了实现上述目的,本发明采用以下技术方案:
基于谱聚类与随机选择结合的参考节点选取方法,包括以下步骤:
步骤1:对网络节点进行谱聚类;
步骤2:判断网络节点是否为离群点,若是,则去除离群点;若否,则直接进行下一步;
步骤3:随机选取参考节点;
步骤4:对选取的参考节点进行优化。
优选地,所述参考节点的个数为聚类的类别数。
优选地,所述步骤1包括:
步骤1.1:将所有网络节点时延数据构造成一个带权无向图,图中的顶点为网络节点,权重为两个网络节点时延向量的相似度,并根据构造的带权无向图,得到网络节点邻接矩阵;
步骤1.2:根据网络节点邻接矩阵得到对角矩阵,其中对角矩阵的列数与网络邻接矩阵列数相同,且对角元素由上到下依次为网络邻接矩阵的每一列元素之和;
步骤1.3:根据网络节点邻接矩阵及所述对角矩阵,求网络节点的带权无向图的最优分割,得出多个子图及拉普拉斯矩阵;
步骤1.4:根据网络节点的带权无向图的最优分割,求拉普拉斯矩阵的前k个最小特征值,将前k个最小特征值对应的特征向量与网络节点构成k乘以网络节点数的矩阵,将矩阵的每一行看作网络节点时延向量,对网络节点时延向量进行K-means聚类。
优选地,在所述步骤2之前还包括:对每一类的网络节点个数进行遍历。
优选地,所述判断网络节点是否为离群点为判断每一类的网络节点个数是否为1。
优选地,所述步骤3包括:
步骤3.1:为每类中的节点分配序号,序号从1开始,从小到大排列;
步骤3.2:对每类中的节点序号进行随机排序;
步骤3.3:选择排序结果中前M个数字,选择对应数字的节点作为参考节点;
步骤3.4:构建由参考节点构成的初始网络坐标系,并将剩余节点作为待预测节点。
优选地,所述步骤4包括:
步骤4.1:将待预测节点利用映射函数加入到初始网络坐标系;
步骤4.2:基于选取的参考节点对待预测节点计算预测时延;
步骤4.3:统计所有待预测节点预测时延与实测时延的相对误差;
步骤4.4:判断相对误差是否小于设定的阈值,若是,则将对应的参考节点作为构建初始网络坐标系的参考节点;若否,则重新对网络节点进行谱聚类;
步骤4.5:若经过设定的轮数后,仍未找到相对误差小于设定阈值对应的参考节点,则修改阈值并重复上述步骤,直到找到满足判断条件的参考节点。
与现有技术相比,本发明具有的有益效果:
本发明利用谱聚类对网络节点进行聚类,将时延相似的节点作为一类,然后对聚类结果进行离群点处理,最后在每类中随机选取若干点作为参考节点,本发明选择的谱聚类算法是一种基于图论的聚类算法,其基本思想是将由参考节点构成的带权无向图划分为两个或者两个以上的最优子图,并且根据时延向量的相似度使子图内部差异性尽量小,而子图之间的差异性较大,从而达到聚类的目的,且避免了局部最优的情况。
本发明在聚类过程中将一个类中只有一个节点的情况去除,离群点到其余各点的时延出现异常,这些点作为参考节点时,利用其构建的网络坐标系,会使得节点坐标出现大于容忍误差的情况,需要将其剔除,而随机选择算法由于同等概率选择所有节点,因此存在将离群点作为参考节点的情况,此时就会出现预测时延失效的问题,因此,与随机算法相比本发明能够降低由于选择参考节点过于集中的误差,并且有效避免预测时延失效问题。
附图说明
图1为本发明基于谱聚类与随机选择结合的参考节点选取方法的基本流程示意图之一。
图2为本发明基于谱聚类与随机选择结合的参考节点选取方法的基本流程示意图之二。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
实施例一:
如图1所示,本发明的一种基于谱聚类与随机选择结合的参考节点选取方法,包括以下步骤:步骤S101:对网络节点进行谱聚类。
步骤S102:判断网络节点是否为离群点,若是,则去除离群点;若否,则直接进行下一步。
步骤S103:随机选取参考节点。
步骤S104:对选取的参考节点进行优化。
实施例二:
如图2所示,本发明的另一种基于谱聚类与随机选择结合的参考节点选取方法,包括以下步骤:
步骤S201:对网络节点进行谱聚类,包括:
步骤S2011:将网络节点时延数据集中的所有点构造成一个带权无向图,图中的所有顶点为数据集中的所有网络节点,权重为两个节点时延向量的相似度,为了计算时延向量的相似度,引入高斯核函数来计算两个节点的时延向量的相似度,权重计算公式如公式(1)所示:
Figure GDA0002727613310000031
其中,Fi和Fj是两个节点的时延特征向量,利用上式可以计算出二者之间的相关性,边的权重越大,两个节点的时延向量越相似,将所有边的权重计算后,即可构成带权无向图;根据构造的带权无向图,得到网络节点邻接矩阵,记为E,E如下所示:
Figure GDA0002727613310000041
其中Sij表示两个节点之间的距离,即为两个时延向量之间的权重;ε为阈值,作为一种可实施方式,设定为1。
作为一种可实施方式,网络节点时延数据集由1740个DNS服务器相互测量时延得到。
步骤S2012:将E的每一列元素加起来得到N个数,将这N个数依次放在对角线上,其他元素都为零,组成一个N×N的矩阵,记为D,计算公式如下:
Figure GDA0002727613310000042
其中,N为样本个数,Ei,j为邻接矩阵的元素,Di,j为对角矩阵的元素;D中对角线上的值为矩阵E中对应行或列的和。
步骤S2013:根据谱聚类的思想,将网络节点带权无向图划分为多个子图,子图与子图之间差异要大,而子图中各个节点差异要小,即求图的最优分割,使得分割结果满足子图间差异最大,子图内最小,引入RationCut分割准则,如公式(4)所示:
Figure GDA0002727613310000043
其中
Figure GDA0002727613310000044
为任意两个网络节点构成的子图之间的连接权值,即子图之间时延向量的相似度,|Ai|为子图中的参考节点数,k表示分割的子图数,利用上式即可求的网络节点的带权无向图的最优分割,上式问题求解可转化为对拉普拉斯矩阵L求其前k个最小特征值问题,因此要求出矩阵L可以根据拉普拉斯矩阵的定义,如公式(5)即可求得L:
L=D-E (5)
将上式归一化后可得:
Figure GDA0002727613310000045
式中矩阵E和D已分别在步骤S2011和步骤S2012中求出。
步骤S2014:根据网络节点的带权无向图的最优分割法则,求矩阵L的前k个最小特征值,将前k个最小特征值对应的特征向量与N个网络节点构成N×K的矩阵,将矩阵的每一行看作网络节点时延向量,对网络节点时延向量进行K-means聚类。
步骤S202:对每一类的网络节点个数进行遍历。
步骤S203:判断每一类的网络节点个数是否为1,若是,则作为离群点进行去除;若否,则直接进行下一步。
步骤S204:随机选取参考节点,包括:
步骤S2041:为每类中的节点分配序号,序号从1开始,从小到大排列;
步骤S2042:对每类中的节点序号进行随机排序;
步骤S2043:选择排序结果中前M个数字,选择对应数字的节点作为参考节点;作为一种可实施方式,M取值为4;
步骤S2044:构建由参考节点构成的初始网络坐标系,并将剩余节点作为待预测节点。
步骤S205:对选取的参考节点进行优化,包括:
步骤S2051:将待预测节点利用映射函数加入到初始网络坐标系;
步骤S2052:基于选取的参考节点对待预测节点计算预测时延;
步骤S2053:统计所有待预测节点预测时延与实测时延的相对误差;
步骤S2054:判断相对误差是否小于设定的阈值,若是,则将对应的参考节点作为构建初始网络坐标系的参考节点;若否,则重新对网络节点进行谱聚类;作为一种可实施方式,设定的阈值为5ms;
步骤S2055:若经过设定的轮数R后,仍未找到相对误差小于设定阈值对应的参考节点,则修改阈值并重复上述步骤,直到找到满足判断条件的参考节点;作为一种可实施方式,R取值为200。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.基于谱聚类与随机选择结合的参考节点选取方法,其特征在于,包括以下步骤:
步骤1:对网络节点进行谱聚类;所述步骤1包括:
步骤1.1:将所有网络节点时延数据构造成一个带权无向图,图中的顶点为网络节点,权重为两个网络节点时延向量的相似度,并根据构造的带权无向图,得到网络节点邻接矩阵;
步骤1.2:根据网络节点邻接矩阵得到对角矩阵,其中对角矩阵的列数与网络邻接矩阵列数相同,且对角元素由上到下依次为网络邻接矩阵的每一列元素之和;
步骤1.3:根据网络节点邻接矩阵及所述对角矩阵,求网络节点的带权无向图的最优分割,得出多个子图及拉普拉斯矩阵;
步骤1.4:根据网络节点的带权无向图的最优分割,求拉普拉斯矩阵的前k个最小特征值,将前k个最小特征值对应的特征向量与网络节点构成k乘以网络节点数的矩阵,将矩阵的每一行看作网络节点时延向量,对网络节点时延向量进行K-means聚类;
步骤2:判断网络节点是否为离群点,若是,则去除离群点;若否,则直接进行下一步;
步骤3:随机选取参考节点;
步骤4:对选取的参考节点进行优化。
2.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法,其特征在于,所述参考节点的个数为聚类的类别数。
3.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法,其特征在于,在所述步骤2之前还包括:对每一类的网络节点个数进行遍历。
4.根据权利要求3所述的基于谱聚类与随机选择结合的参考节点选取方法,其特征在于,所述判断网络节点是否为离群点为判断每一类的网络节点个数是否为1。
5.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法,其特征在于,所述步骤3包括:
步骤3.1:为每类中的节点分配序号,序号从1开始,从小到大排列;
步骤3.2:对每类中的节点序号进行随机排序;
步骤3.3:选择排序结果中前M个数字,选择对应数字的节点作为参考节点;
步骤3.4:构建由参考节点构成的初始网络坐标系,并将剩余节点作为待预测节点。
6.根据权利要求1所述的基于谱聚类与随机选择结合的参考节点选取方法,其特征在于,所述步骤4包括:
步骤4.1:将待预测节点利用映射函数加入到初始网络坐标系;
步骤4.2:基于选取的参考节点对待预测节点计算预测时延;
步骤4.3:统计所有待预测节点预测时延与实测时延的相对误差;
步骤4.4:判断相对误差是否小于设定的阈值,若是,则将对应的参考节点作为构建初始网络坐标系的参考节点;若否,则重新对网络节点进行谱聚类;
步骤4.5:若经过设定的轮数后,仍未找到相对误差小于设定阈值对应的参考节点,则修改阈值并重复步骤4.1至步骤4.4,直到找到满足判断条件的参考节点。
CN201711402375.0A 2017-12-22 2017-12-22 基于谱聚类与随机选择结合的参考节点选取方法 Active CN108156032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711402375.0A CN108156032B (zh) 2017-12-22 2017-12-22 基于谱聚类与随机选择结合的参考节点选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711402375.0A CN108156032B (zh) 2017-12-22 2017-12-22 基于谱聚类与随机选择结合的参考节点选取方法

Publications (2)

Publication Number Publication Date
CN108156032A CN108156032A (zh) 2018-06-12
CN108156032B true CN108156032B (zh) 2020-11-24

Family

ID=62464173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711402375.0A Active CN108156032B (zh) 2017-12-22 2017-12-22 基于谱聚类与随机选择结合的参考节点选取方法

Country Status (1)

Country Link
CN (1) CN108156032B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111800446B (zh) * 2019-04-12 2023-11-07 北京沃东天骏信息技术有限公司 调度处理方法、装置、设备和存储介质
CN113347013B (zh) * 2020-02-18 2022-07-19 广东博智林机器人有限公司 网络内根节点的故障恢复方法和装置
CN112364181B (zh) * 2020-11-27 2024-05-28 深圳市慧择时代科技有限公司 一种保险产品匹配度确定方法及装置
CN115297114B (zh) * 2022-08-02 2024-07-02 中国电信股份有限公司 节点分配方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2174235A2 (en) * 2007-06-14 2010-04-14 Microsoft Corporation Distributed kernel density estimation
CN103455612A (zh) * 2013-09-07 2013-12-18 西安电子科技大学 基于两阶段策略的非重叠与重叠网络社区检测方法
CN104090985A (zh) * 2014-07-25 2014-10-08 武汉大学 一种基于电气距离的主动解列最优断面搜索方法
CN105786622A (zh) * 2016-03-01 2016-07-20 国网安徽省电力公司 一种云环境下用于实时协同计算的节点选择方法
CN107124306A (zh) * 2017-04-24 2017-09-01 电子科技大学 网络功能虚拟化环境下的内容交付网络服务器优化部署方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2174235A2 (en) * 2007-06-14 2010-04-14 Microsoft Corporation Distributed kernel density estimation
CN103455612A (zh) * 2013-09-07 2013-12-18 西安电子科技大学 基于两阶段策略的非重叠与重叠网络社区检测方法
CN104090985A (zh) * 2014-07-25 2014-10-08 武汉大学 一种基于电气距离的主动解列最优断面搜索方法
CN105786622A (zh) * 2016-03-01 2016-07-20 国网安徽省电力公司 一种云环境下用于实时协同计算的节点选择方法
CN107124306A (zh) * 2017-04-24 2017-09-01 电子科技大学 网络功能虚拟化环境下的内容交付网络服务器优化部署方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
无中心式调度框架下网格作业的节点选择优化;王庆江,徐建良;《电子学报》;20060830;第1420-1423页 *

Also Published As

Publication number Publication date
CN108156032A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN108156032B (zh) 基于谱聚类与随机选择结合的参考节点选取方法
CN109194707B (zh) 分布式图嵌入的方法及装置
CN107070867B (zh) 基于多层局部敏感哈希表的网络流量异常快速检测方法
CN113422695B (zh) 一种提高物联网拓扑结构鲁棒性能的优化方法
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
CN109840558B (zh) 基于密度峰值-核心融合的自适应聚类方法
CN116681104B (zh) 分布式空间图神经网络的模型建立及实现方法
CN111242165A (zh) 商户聚类方法、装置、计算机设备和存储介质
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN112203324B (zh) 一种基于位置指纹库的mr定位方法及装置
CN106909619B (zh) 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
CN117829307A (zh) 一种面向数据异构性的联邦学习方法及系统
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN108133234B (zh) 基于稀疏子集选择算法的社区检测方法、装置及设备
CN108965016B (zh) 一种虚拟网络的映射方法及装置
CN113689526B (zh) 地图中无效区域的划分方法及装置、电子设备
CN109245948A (zh) 安全感知的虚拟网络映射方法及其装置
CN113723006B (zh) 一种基于ls-svm的单台站地球变化磁场建模预测方法及系统
CN111917589B (zh) 一种电力通信网络资源备份方法及相关装置
CN113065604B (zh) 一种基于dtw-dbscan算法的空中目标分群方法
Dai et al. Clustering of DOA data in radar pulse based on SOFM and CDbw
CN115292303A (zh) 数据处理方法及装置
CN110278119B (zh) 边缘节点的资源分配方法、资源分配装置
CN114646313A (zh) 一种用户轨迹定位方法、电子设备及计算机存储介质
CN107291873B (zh) 地理位置聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant