CN108923962B - 一种基于半监督聚类的局部网络拓扑测量任务选择方法 - Google Patents

一种基于半监督聚类的局部网络拓扑测量任务选择方法 Download PDF

Info

Publication number
CN108923962B
CN108923962B CN201810666646.1A CN201810666646A CN108923962B CN 108923962 B CN108923962 B CN 108923962B CN 201810666646 A CN201810666646 A CN 201810666646A CN 108923962 B CN108923962 B CN 108923962B
Authority
CN
China
Prior art keywords
measurement
address
local network
task
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810666646.1A
Other languages
English (en)
Other versions
CN108923962A (zh
Inventor
张宇
余卓勋
张晔
张宏莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201810666646.1A priority Critical patent/CN108923962B/zh
Publication of CN108923962A publication Critical patent/CN108923962A/zh
Application granted granted Critical
Publication of CN108923962B publication Critical patent/CN108923962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于半监督聚类的局部网络拓扑测量任务选择方法,涉及网络拓扑测量技术领域。本发明为了解决现有的网络拓扑测量方法对局部网络对外连接IP地址发现效率较低的问题。技术要点:局部网络的大规模测量任务集如何生成和局部网络的对外连接IP地址定义,并分析了用半监督聚类的思想选择测量任务的可行性。利用IP地址的部分属性作为测量任务属性集,结合测量系统实时执行测量并获取测量结果,以此作为监督信息执行半监督聚类算法。设计对照实验选择合适的半监督聚类的参数,最后对本发明的实验结果设计了评价方案。本发明能分析局部网络对外连接方式,能够预测部分测量任务的测量结果。

Description

一种基于半监督聚类的局部网络拓扑测量任务选择方法
技术领域
本发明涉及一种基于半监督聚类的局部网络拓扑测量任务选择方法,涉及网络拓扑测量技术领域。
背景技术
互联网由大量的局部网络组成,分析局部网络如何与外部网络进行连接是了解网络拓扑结构的关键一步。局部网络对外连接方式受商业关系,地理位置等因素影响,无法从运营商,IXP处直接获得大量局部网络对外连接信息,于是从traceroute测量结果中分析拓扑数据是获取相关信息的一种主要方式。在相关的网络测量工作中,主要通过对局部网络执行长时间大规模的测量任务,最后从测量结果中获取局部网络对外连接IP地址。通过分析历史测量数据发现,大量的traceroute路径经过相同的局部网络对外连接IP地址,于是推测此现象和traceroute的测量点,目的节点的属性相关。这样存在的问题是拓扑测量效率低,发现局部网络对外连接IP地址的能力较弱。
发明内容
本发明的目的是提供一种基于半监督聚类的局部网络拓扑测量任务选择方法,以解决现有的网络拓扑测量方法对局部网络对外连接IP地址发现效率较低的问题。本发明将相同局部网络对外连接IP地址的测量任务聚合到一起。
本发明为解决上述技术问题采取的技术方案是:
一种基于半监督聚类的局部网络拓扑测量任务选择方法,所述方法的实现过程为:
(1)生成局部网络的测量任务集,利用局部网络的目的IP地址和looking Glass测量点生成测量任务集;确定局部网络对外连接IP地址;
(2)从测量任务集中选择少量的测量任务执行测量作为已知样本,剩余的测量任务作为未知样本,进行半监督聚类,循环多轮直到满足停止条件,找到局部网络对外连接IP地址。
进一步地,确定局部网络对外连接IP地址的过程为:
每个任务执行测量后可获得一条有向traceroute路径,对原始traceroute路径做如下处理:从每个TTL中选取第一个IP地址作为有效IP地址,保留第一个时间延迟信息(其他信息均舍弃),最后生成的TTL-IP地址对(如图2所示);由于任务元素中的测量点位于局部网络外,目的IP地址位于局部网络内,如果该traceroute路径有效(traceroute路径中至少有一个IP地址定位在局部网络内),那么可认为在traceroute路径中第一个出现的位于局部网络内的IP地址为对外连接IP地址。
进一步地,所述半监督聚类的算法流程为:
(2.1):从测量任务集中启发式的选择少量测量任务作为初始待测任务集,执行测量,标记任务元素的类别,记为标记样本;(2.2):利用初始待测任务集的属性计算每个类别的质心向量,聚合未标记样本类别,从无法聚合到已知类别的未标记样本中选取测量任务加入待测任务集;(2.3):测量新的待测任务集,如果测量结果中没有发现新类别,结束,否则利用新的测量结果生成新的标记样本,再进入(2.2)中。
进一步地,步骤(2)中的三个步骤具体为:
(2.1)定义局部网络的测量任务集具有M个测量点与N个目的IP地址,得到具有M*N个测量任务的测量任务集,对所述测量任务集中的每个测量任务的属性进行标注;初始待测任务集采用启发式选取方案,具体为:按照以矩阵对角线下滑的方式选取N个任务元素作为初始测量任务,执行测量后标记初始集类别,记为标记样本,其余任务元素记为未标记样本;
(2.2)此步骤为半监督算法的核心流程,同一个类别的标记样本数据生成该类别质心向量,具体生成方法为:统计每个属性中不同属性值出现的次数,每个属性的总权重为1,按照属性值出现比例分割权重,所有的属性量化后合并在一起后构成初始类别的质心向量;令
Figure BDA0001706848830000021
记为每个任务的属性向量集,
Figure BDA0001706848830000022
记为初始待测任务集发现的类别集合,则类别的质心向量形式描述如下:
Figure BDA0001706848830000023
得到初始类别的质心后,依次遍历所有的未标记样本,计算未标记样本到每个类别中心的欧式距离,如果该样本到距离最近的类别中心小于阈值α,则将样本标记为该类别,否则认为样本不属于任何已知类别,不执行聚合,用于生成下一轮的待测任务集;
(2.3)最后将已经标记的样本(包括被聚合的样本)从所有测量任务集中剔除,再从剩下的未标记样本中随机选取任务加入待测任务集并执行测量,分析测量结果,如果没有新的类别出现则结束算法,否则利用新的测量结果生成新的类别中心,再按照上述(2.2)中算法重新聚合未标记样本,选择待测任务集。
进一步地,在步骤(2.1)中,测量任务的属性为,选取目的IP地址的属性四个属性“AS号、国家、城市、IP地址前缀”和测量点IP地址的属性“国家”这五个属性作为测量任务的属性。
进一步地,在步骤(2.2)中,所述阈值α确定如下:通过固定测量任务属性和待测任务集规模设置不同的距离阈值,进行比较实验,选择发现局部网络对外连接IP地址最多的实验结果中对应的阈值。
本发明具有以下有益效果:
本发明所述基于半监督聚类的局部网络拓扑测量任务选择方法中的局部网络一般是指国家或地区的网络。本发明实现了以下两个目的:(1)利用少量的测量任务发现大量的局部网络对外连接IP地址;(2)将相同局部网络对外连接IP地址的测量任务聚合到一起。本发明技术要点:局部网络的大规模测量任务集如何生成和局部网络的对外连接IP地址定义,并分析了用半监督聚类的思想选择测量任务的可行性。利用IP地址的部分属性作为测量任务属性集,结合测量系统实时执行测量并获取测量结果,以此作为监督信息执行半监督聚类算法。设计对照实验选择合适的半监督聚类的参数,最后对本发明的实验结果设计了评价方案。
本发明利用traceroute中测量点和目的节点的属性对测量任务进行半监督聚类,旨在利用少量的已知测量数据预测traceroute的测量结果,选择最具测量意义的测量任务以减少不必要的测量,发现大量的局部网络对外连接方式IP地址,并能将通过相同对外连接IP地址的测量任务聚合到一起,这样可以用于分析局部网络对外连接方式。
本发明提高了在局部网络对外连接IP地址发现效率,即在较短时间内发现的局部网络对外IP地址的数量,本发明能够将相同局部网络对外连接IP地址的测量任务聚合到一起,能够预测部分测量任务的测量结果。
将相同局部网络对外连接IP地址的测量任务聚合到一起的能力的评价标准:Jaccard系数(Jaccard coefficient),FM指数(Flowlkes and Mallows Index),Rand指数(Rand Index)。
附图说明
图1是本发明的测量任务集生成框图,图2是traceroute结果格式化对比图,图3是局部网络的对外连接IP地址示意图,图4是测量任务集选择流程图,图5是初始测量任务集选取示意图。
具体实施方式
具体实施方式一:如图1所示,本实施方式对一种基于半监督聚类的局部网络拓扑测量任务选择方法进行如下说明:
选择局部网络的目的IP地址和收集的looking Glass测量点生成总测量任务集,利用地理定位数据库获取目的IP地址和测量点IP地址的属性,用IP地址的部分属性(AS号,国家,城市,IP地址前缀)作为测量任务的属性,从总测量任务集中选择少量的测量任务执行测量作为已知样本,剩余的测量任务作为未知样本,进行半监督聚类工作,循环多轮直到算法满足停止条件;
所述方法的实现过程为:
(1)生成局部网络的测量任务集,利用局部网络的目的IP地址和looking Glass测量点生成测量任务集;确定局部网络对外连接IP地址;
(2)从测量任务集中选择少量的测量任务执行测量作为已知样本,剩余的测量任务作为未知样本,进行半监督聚类,循环多轮直到满足停止条件,找到局部网络对外连接IP地址。
步骤(1)中主要内容为局部网络测量任务的生成和局部网络对外连接IP地址的定义两部分:
步骤(1.1)是生成局部网络的总测量任务集,测量任务由测量点和目的节点组成,已收集的稳定的1000个Looking Glass服务器作为测量点,利用抓包工具tcpdump获取测量点的源IP地址,从地理定位数据库(ip2location)获取测量点IP地址属性。利用地理定位数据库(ip2Location)获取局部网络的IP地址段,按照预定的IP地址段规模对IP地址段进行切分,所有的IP地址段被切分成相同的规模,从每个IP地址段中随机选择一个活跃的IP地址(用ping测试是否连通)加入目的IP地址集。从定位在局部网络外的每个测量点接口(部分接口有多个测量点)中轮流选择一个测量点加入测量点集,测量点集和目的IP地址集作笛卡尔乘积记为测量任务集,如图1所示,因此测量任务集中的每个任务元素为一次traceroute。
步骤(1.2)是关于局部网络的对外连接IP地址的定义,每个任务执行测量后可获得一条有向traceroute路径,对原始traceroute路径做如下处理:从每个TTL中选取第一个IP地址作为有效IP地址,保留第一个时间延迟信息(其他信息均舍弃),最后生成的TTL-IP地址对(如图2所示)。由于任务元素中的测量点位于局部网络外,目的IP地址位于局部网络内,如果该traceroute路径有效(traceroute路径中至少有一个IP地址定位在局部网络内),那么可认为在traceroute路径中第一个出现的位于局部网络内的IP地址为对外连接IP地址,如图3所示(序号为traceroute中的TTL值,白色的点是定位于局部网络外的IP地址,灰色的点是定位在局部网络内的IP地址),该traceroute路径中TTL为6的IP地址是其发现的局部网络对外连接IP地址。
步骤(2)主要为本发明的详细算法流程,以步骤(1.2)中定义的局部网络对外连接IP地址作为类别标签,以测量任务中测量点IP地址和目的IP地址的部分属性作为属性集,利用任务属性和类别确定的少量测量任务对所有的测量任务进行聚类,从距离所有已知类别中心距离都很远的任务集中选择测量任务加入待测任务集。流程如图4所示,实施步骤包括四个部分(2.1):启发式的选择少量测量任务作为初始待测任务集,执行测量,标记任务元素的类别,记为标记样本;(2.2):此步骤为半监督聚类算法执行流程,利用初始集的属性计算每个类别的质心向量,预测未标记样本类别,从无法聚合到已知类别的未标记样本中选取测量任务加入待测任务集;(2.3):测量新的待测任务集,如果测量结果中没有发现新类别,算法结束,否则利用新的测量结果生成标记样本,进入(2.2)中。
下面对以上三个步骤中的核心内容做详细描述:
(2.1)以M个测量点与N个目的IP地址为例,共生成M*N个测量任务,对这些测量任务的属性进行标注,本文给出了一种启发式的初始集方案,按照以矩阵对角线下滑的方式选取N个任务元素作为初始测量任务,如图5(灰色未被选取的任务元素)所示。执行测量后标记初始集类别,记为标记样本,其余任务元素记为未标记样本;
(2.2)此步骤为半监督算法的核心流程,同一个类别的标记样本数据生成该类别质心向量,具体生成方法为:统计每个属性中不同属性值出现的次数,每个属性的总权重为1,按照属性值出现比例分割权重(例如某类别中共有四条数据,对于测量点IP地址的国家这一属性,中国出现三次,美国出现一次,则该属性量化为[CN:0.75,US:0.25]),所有的属性量化后合并在一起后构成初始类别的质心向量。令
Figure BDA0001706848830000051
记为每个任务的属性向量集,
Figure BDA0001706848830000052
记为初始待测任务集发现的类别集合,则类别的质心向量形式描述如下:
Figure BDA0001706848830000053
得到初始类别的质心后,依次遍历所有的未标记样本,计算未标记样本到每个类别中心的欧式距离,如果该样本到距离最近的类别中心小于阈值α,则将样本标记为该类别,否则认为样本不属于任何已知类别,不执行聚合,用于生成下一轮的待测任务集。算法的伪代码描述如下,T为未标记样本,S={S1,S2,...,Sk}为类别已知的标记样本,由K个类别构成:
Figure BDA0001706848830000061
(2.3)最后将已经标记的样本(包括被聚合的样本)从所有测量任务集中剔除,再从剩下的未标记样本中随机选取任务加入待测任务集并执行测量,分析测量结果,如果没有新的类别出现则结束算法,否则利用新的测量结果生成新的类别中心,再按照上述(2.2)中算法重新聚合未标记样本,选择待测任务集。
设计对照实验来为步骤(2)的半监督聚类算法选择合适的参数,主要包括3个部分,样本属性的选取;样本到类别质心的最小距离阈值α设定;每轮选择待测任务集的规模。
主要是选取测量任务属性集,常用的IP地址属性包括BGP信息和地理位置信息,由于测量局部网络,以目的IP地址的属性集为主,最后选取目的IP地址的属性(AS号,国家,城市,IP地址前缀)和测量点IP地址的属性(国家)这五个属性作为测量任务的属性。
样本到质心的最小距离阈值是步骤(2.2)中判断样本是否被聚合到某个类别的参数,影响聚类的准确率和算法收敛速度,通过固定其他参数设置不同的距离阈值,比较实验结果,选择合适的距离阈值;
算法每轮选择的测量任务规模也影响算法收敛速度,选择的测量任务越多,聚类准确度和收敛速度都有提升,当提升不明显则不必选择更多的测量任务集,通过控制变量法,设计对照实验,设置算法每轮选取的测量任务集规模。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
实施例:
为了更好的说明本发明内容,将结合实际的测量任务选择过程做详细描述:
步骤(1)中主要内容为局部网络测量任务的生成和局部网络对外连接IP地址的定义两部分:
(1.1)局部网络测量任务的生成:选择位于局部网络(伊朗)外的可用的121个Looking Glass服务器接口,从地理定位数据库(ip2location)获取局部网络(伊朗)的IP地址段,将所有的IP地址段切分成不超过/24的IP地址段(如果IP地址段大于/24,则切分成多个/24),从每个切分后的IP地址段中随机选择一个存活的(ping测试)IP地址加入目的IP地址集,目的IP地址集4931个目的IP地址。共生成121*4331个测量任务。
(1.2)局部网络对外连接IP地址:每个任务执行测量后可获得一条有向traceroute路径,对原始traceroute路径做发明内容中所述方式的处理,得到处理后的traceroute路径,如图3所示,选择路径中第一个定位在伊朗的IP地址作为该路径的局部网络对外连接IP地址,如果该局部网络IP地址在三条不同的目的IP地址traceroute路径中出现才认为是有效的局部网络IP地址。
步骤(2)实施步骤包括四个部分(2.1):启发式的选择少量测量任务作为初始待测任务集,执行测量,标记任务元素的类别,记为标记样本;(2.2):此步骤为半监督聚类算法执行流程,利用初始集的属性计算每个类别的质心向量,预测未标记样本类别,从无法聚合到已知类别的未标记样本中选取测量任务加入待测任务集;(2.3):测量新的待测任务集,如果测量结果中没有发现新类别,算法结束,否则利用新的测量结果生成标记样本,进入(2.2)中。
(2.1)随机选择测量任务数量的50%的目的IP地址(约2150个),从121个接口中循环选择测量点,组成初始测量集(约2150个测量任务),执行测量,标记类别。
(2.2)同一个类别的标记样本数据生成该类别质心向量,选择了5个属性(目的IP地址的国家,城市,AS号,IP地址前缀,测量点IP地址的国家),统计每个属性中不同属性值出现的次数,每个属性的总权重为1,按照属性值出现比例分割权重(例如某类别中共有四条数据,对于测量点IP地址的国家这一属性,中国出现三次,美国出现一次,则该属性量化为[CN:0.75,US:0.25]),所有的属性量化后合并在一起后构成初始类别的质心向量。需要说明的是,如(1.2)中局部网络的对外连接IP地址定义所述,如果该局部网络IP地址在三条不同的目的IP地址traceroute路径中出现才认为是有效的局部网络IP地址,对于有效的局部网络对外连接IP地址才生成类别。计算未标记样本到每个类别中心的欧式距离,如果该样本到距离最近的类别中心小于阈值α(其值为1),则将样本标记为该类别,否则认为样本不属于任何已知类别,不执行聚合。
(2.3)最后将已经标记的样本(包括被聚合的样本)从所有测量任务集中剔除,再从剩下的未标记样本中随机选取任务(任务规模为测量任务集的0.25%)加入待测任务集并执行测量,分析测量结果,如果没有新的类别出现则结束算法,否则利用新的测量结果生成新的类别中心(总共执行了16轮选择)。
步骤(3)的主要工作在于设计对照实验来为步骤(2)的半监督聚类算法选择合适的参数,主要包括3个部分,(3.1)样本属性的选取;(3.2)样本到类别质心的最小距离阈值α设定;(3.3)步骤(2.3)中每轮选择待测任务集的规模,将利用对照实验详细说明(2)中相关参数是如何选取的:
(3.1)样本属性的选取:因为局部网络测量工作以目的IP地址为主,主要选择了目的IP地址的属性,测量点IP地址属性选择一个具有代表性的(国家)即可。
(3.2)本发明中判断样本是否聚合到最近质心的类别的距离阈值控制着算法收敛的速度,如果最小距离阈值过大,算法很快收敛,但是聚类准确度低,无法找到预期的类别,如果最小距离阈值太小,满足聚类条件的任务元素少,收敛速度慢,且最后收敛时被聚合的任务元素也过少,为了选取合适的距离阈值,设置不同的距离阈值观察收敛速度和被聚合的任务元素规模,算法每轮选取总测量任务集0.25%的任务作为待测任务集,实验结果如表1(被聚合的样本比例:可以根据距离预测类别的样本数量占总样本集的比例;准确率:被聚合的样本为N,和质心类别相同的样本数量为K,则准确率为K/N)所示,因此最后选取的距离阈值为1。
表1距离阈值的对照实验
Figure BDA0001706848830000091
(3.3)本发明的算法中每轮选取的待测任务集规模不同对算法的收敛速度影响也不同,直观的认识就是选择的待测任务越多,发现的类别数量越多,且类别聚合的准确率更高,但是如果选择的测量任务数量对聚类效果影响不大时,无需再提高每轮测量任务数量,通过设置不同规模的待测任务集执行对照实验,距离阈值为1,实验结果如表2所示,最后每轮选取总样本集的0.25%。
表2待测任务集规模的对照实验
Figure BDA0001706848830000092
步骤(4)主要是对算法的能力进行评价,评价主要包括两个部分(4.1):发现的局部网络对外IP地址的数量的能力,用4个局部网络进行了实验(4.2):半监督聚类算法中将通过相同局部网络对外连接IP地址聚合到一起的能力,对4个局部网络的聚类结果进行性能计算。实验中算法参数与步骤(3)中相同
(4.1)比较算法选择出的任务集和所有测量任务集的实验结果,如表3(测量任务集:所有的测量任务;待测任务集及占比:算法选择的测量任务数量及其占所有测量任务集的比例;所有对外连接IP地址:测量任务集发现的对外连接IP地址数量;发现的对外连接IP地址数量及占比:待测任务集发现的对外连接IP地址数量及其占所有对外连接IP地址的比例)所示,从实验结果中不难发现,大约在选择了任务集中百分之三的任务时,算法停止,最后能够找到局部网络中90%的对外连接IP地址。
表3测量任务选择算法实验结果
Figure BDA0001706848830000101
(4.2)用所有的测量任务集结果作为真实的类别标签,以此作为参考模型,对于任务集T={t1,t2,...,tn},本发明中聚类的簇划分结果S={S1,S2,...,Sk},参考模型(真实测量结果)的簇划分为S'={S1',S'2,...,S'k1}。令λ与λ'分别为S与S'的类别标签,用于定义以下四个不同的集合:
A={(ti,tj)|λi=λj,λ'i=λ'j,i<j}
B={(ti,tj)|λi=λj,λ'i≠λ'j,i<j}
C={(ti,tj)|λi≠λj,λ'i=λ'j,i<j}
D={(ti,tj)|λi≠λj,λ'i≠λ'j,i<j}
由该集合的定义可知,A集合中的任务对在S与S'均被划分到同一类别;B集合中的任务对在S中同类,而在S'被划分到不同类别;C集合中的任务对在S'中同类,而在S被划分到不同类别;D集合中的任务对在S与S'类均被划分到不同类别。任意两个任务组成的任务对(ti,tj)(i<j)必定属于其中某个集合,由排列组合知识可知n个任务共可组成n*(n-1)/2个任务对。
评价指标:Jaccard系数(Jaccard coefficient),FM指数(Flowlkes and MallowsIndex),Rand指数(Rand Index)它们的计算公式按序如下所示:
Figure BDA0001706848830000111
Figure BDA0001706848830000112
Figure BDA0001706848830000113
根据上述评价指标分别对局部网络的聚类结果(表4中的实验结果)进行计算,如表4所示(三个指标的值都是在[0,1]之间,数值越大,说明聚类效果越好)。
表5聚类性能评价
Figure BDA0001706848830000114

Claims (3)

1.一种基于半监督聚类的局部网络拓扑测量任务选择方法,其特征在于,所述方法的实现过程为:
(1)生成局部网络的测量任务集,利用局部网络的目的IP地址和looking Glass测量点生成测量任务集;确定局部网络对外连接IP地址;
所述确定局部网络对外连接IP地址的过程为:
每个任务执行测量后可获得一条有向traceroute路径,对原始traceroute路径做如下处理:从每个TTL中选取第一个IP地址作为有效IP地址,保留第一个时间延迟信息,最后生成的TTL-IP地址对;由于任务元素中的测量点位于局部网络外,目的IP地址位于局部网络内,如果该traceroute路径有效,那么可认为在traceroute路径中第一个出现的位于局部网络内的IP地址为对外连接IP地址;
(2)从测量任务集中选择少量的测量任务执行测量作为已知样本,剩余的测量任务作为未知样本,进行半监督聚类,循环多轮直到满足停止条件,找到局部网络对外连接IP地址;
所述半监督聚类的算法流程为:
(2.1)定义局部网络的测量任务集具有M个测量点与N个目的IP地址,得到具有M*N个测量任务的测量任务集,对所述测量任务集中的每个测量任务的属性进行标注;初始待测任务集采用启发式选取方案,具体为:按照以矩阵对角线下滑的方式选取N个任务元素作为初始测量任务,执行测量后标记初始集类别,记为标记样本,其余任务元素记为未标记样本;
(2.2)此步骤为半监督算法的核心流程,同一个类别的标记样本数据生成该类别质心向量,具体生成方法为:统计每个属性中不同属性值出现的次数,每个属性的总权重为1,按照属性值出现比例分割权重,所有的属性量化后合并在一起后构成初始类别的质心向量;令
Figure FDA0002950069930000011
记为每个任务的属性向量集,
Figure FDA0002950069930000012
记为初始待测任务集发现的类别集合,则类别的质心向量形式描述如下:
Figure FDA0002950069930000013
得到初始类别的质心后,依次遍历所有的未标记样本,计算未标记样本到每个类别质心的欧式距离,如果该样本到距离最近的类别质心小于阈值α,则将样本标记为该类别,否则认为样本不属于任何已知类别,不执行聚合,用于生成下一轮的待测任务集;
(2.3)最后将已经标记的样本从所有测量任务集中剔除,再从剩下的未标记样本中随机选取任务加入待测任务集并执行测量,分析测量结果,如果没有新的类别出现则结束算法,否则利用新的测量结果生成新的类别质心,再按照上述(2.2)中算法重新聚合未标记样本,选择待测任务集。
2.根据权利要求1所述的一种基于半监督聚类的局部网络拓扑测量任务选择方法,其特征在于,在步骤(2.1)中,测量任务的属性为,选取目的IP地址的属性四个属性“AS号、国家、城市、IP地址前缀”和测量点IP地址的属性“国家”这五个属性作为测量任务的属性。
3.根据权利要求2所述的一种基于半监督聚类的局部网络拓扑测量任务选择方法,其特征在于,在步骤(2.2)中,所述阈值α确定如下:通过固定测量任务属性和待测任务集规模设置不同的距离阈值,进行比较实验,选择发现局部网络对外连接IP地址最多的实验结果中对应的阈值。
CN201810666646.1A 2018-06-25 2018-06-25 一种基于半监督聚类的局部网络拓扑测量任务选择方法 Active CN108923962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810666646.1A CN108923962B (zh) 2018-06-25 2018-06-25 一种基于半监督聚类的局部网络拓扑测量任务选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810666646.1A CN108923962B (zh) 2018-06-25 2018-06-25 一种基于半监督聚类的局部网络拓扑测量任务选择方法

Publications (2)

Publication Number Publication Date
CN108923962A CN108923962A (zh) 2018-11-30
CN108923962B true CN108923962B (zh) 2021-05-28

Family

ID=64421780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810666646.1A Active CN108923962B (zh) 2018-06-25 2018-06-25 一种基于半监督聚类的局部网络拓扑测量任务选择方法

Country Status (1)

Country Link
CN (1) CN108923962B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241812A (zh) * 2020-01-09 2020-06-05 内蒙古工业大学 基于并行改进的K-means算法的大数据文本聚类试验方法及系统
CN112396090A (zh) * 2020-10-22 2021-02-23 国网浙江省电力有限公司杭州供电公司 用于电网业务大数据检测分析的聚类方法及装置
CN113052534B (zh) * 2021-03-30 2023-08-01 上海东普信息科技有限公司 基于半监督聚类的地址分配方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291279A (zh) * 2011-08-18 2011-12-21 西北工业大学 P2p网络流量检测方法
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
CN107590262A (zh) * 2017-09-21 2018-01-16 黄国华 大数据分析的半监督学习方法
CN107846326A (zh) * 2017-11-10 2018-03-27 北京邮电大学 一种自适应的半监督网络流量分类方法、系统及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283859A1 (en) * 2015-03-25 2016-09-29 Cisco Technology, Inc. Network traffic classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291279A (zh) * 2011-08-18 2011-12-21 西北工业大学 P2p网络流量检测方法
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
CN107590262A (zh) * 2017-09-21 2018-01-16 黄国华 大数据分析的半监督学习方法
CN107846326A (zh) * 2017-11-10 2018-03-27 北京邮电大学 一种自适应的半监督网络流量分类方法、系统及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Semi-supervised network traffic classification;Jeffrey Erman等;《ACM SIGMETRICS Performance Evaluation Review》;20070630;第35卷(第1期);全文 *
基于半监督聚类的局部网络拓扑测量任务选取方法;张晔等;《智能计算机与应用》;20181031;第8卷(第5期);全文 *
轻量级分布式局部网络拓扑测量技术研究;张晔;《中国优秀硕士论文集》;20190115;第5章 *

Also Published As

Publication number Publication date
CN108923962A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108923962B (zh) 一种基于半监督聚类的局部网络拓扑测量任务选择方法
US20110167149A1 (en) Internet flow data analysis method using parallel computations
CN110324327B (zh) 基于特定企业域名数据的用户及服务器ip地址标定装置及方法
CN109688056B (zh) 智能网络控制系统及方法
Kakkavas et al. Network tomography for efficient monitoring in SDN-enabled 5G networks and beyond: Challenges and opportunities
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN114401516B (zh) 一种基于虚拟网络流量分析的5g切片网络异常检测方法
Yang et al. Adaptive measurements using one elastic sketch
CN111064817B (zh) 一种基于节点排序的城市级ip定位方法
Lee et al. Identifying and aggregating homogeneous ipv4/24 blocks with hobbit
CN109952743B (zh) 用于低内存和低流量开销大流量对象检测的系统和方法
JPWO2015182629A1 (ja) 監視システム、監視装置及び監視プログラム
Basat et al. q-MAX: A unified scheme for improving network measurement throughput
CN112989526B (zh) 一种基于核极限学习机的航空网络关键节点识别方法
He et al. Histsketch: A compact data structure for accurate per-key distribution monitoring
Bruschi et al. FlowFight: High performance–low memory top-k spreader detection
CN113850346B (zh) Mec环境下多维属性感知的边缘服务二次聚类方法及系统
CN113297430B (zh) 基于Sketch的高性能任意部分键测量方法和系统
CN115473688A (zh) 面向软件定义网络的异常检测方法、装置及设备
CN108418715B (zh) 无线网络虚拟化环境中资源发现方法
Gray et al. Simulative evaluation of KPIs in SDN for topology classification and performance prediction models
Wang et al. Community detection with self-adapting switching based on affinity
Zhang Link loss inference algorithm with network topology aware in communication networks
Wang et al. Continuously distinct sampling over centralized and distributed high speed data streams
CN111106974A (zh) 一种测试无损网络性能的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Yu

Inventor after: Yu Zhuoxun

Inventor after: Zhang Ye

Inventor after: Zhang Hongli

Inventor before: Zhang Yu

Inventor before: Zhang Ye

Inventor before: Zhang Hongli

GR01 Patent grant
GR01 Patent grant