CN104935458A - 一种基于分布式自动化测量的性能瓶颈分析方法及装置 - Google Patents

一种基于分布式自动化测量的性能瓶颈分析方法及装置 Download PDF

Info

Publication number
CN104935458A
CN104935458A CN201510211657.7A CN201510211657A CN104935458A CN 104935458 A CN104935458 A CN 104935458A CN 201510211657 A CN201510211657 A CN 201510211657A CN 104935458 A CN104935458 A CN 104935458A
Authority
CN
China
Prior art keywords
link
critical
node
measurement
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510211657.7A
Other languages
English (en)
Other versions
CN104935458B (zh
Inventor
陈琳
王宝生
张晓哲
黄杰
孙志刚
张飞朋
南洋
廖纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201510211657.7A priority Critical patent/CN104935458B/zh
Publication of CN104935458A publication Critical patent/CN104935458A/zh
Application granted granted Critical
Publication of CN104935458B publication Critical patent/CN104935458B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种基于分布式自动化测量的性能瓶颈分析方法及装置,该方法步骤包括:1)获取被测网络的网络拓扑信息;2)获取各交换机节点之间的链路作为关键链路,分别执行测量,进行网络瓶颈点、故障点定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模;3)获取交换机节点与计算节点之间的链路作为端链路,分别执行测量,进行网络瓶颈点、故障点定位,且每次定位时若未定位到,则根据测量结果收敛端链路的待测网络规模;该装置包括网络信息获取模块、关键链路分析模块以及端链路分析模块。本发明具有能够针对大规模网络实现分布式的自动化测量,同时能够快速、准确的定位网络瓶颈点或故障点的优点。

Description

一种基于分布式自动化测量的性能瓶颈分析方法及装置
技术领域
本发明涉及大规模数据中心网络、高性能巨型机网络中系统测量及性能分析技术领域,尤其涉及一种基于分布式自动化测量的性能瓶颈分析方法及装置。
背景技术
 当前数据中心一般使用数量众多的核心交换机、汇聚交换机和接入交换机,负责为整个数据中心的计算服务器、应用服务器和存储系统提供高速信息交互的支撑平台,数据中心网络的可用性和连通性是影响整个数据中心网络提供服务的重要因素。由于数据中心互连计算和服务节点数能达到10K以上的量级,而交换节点数也接近K 的量级,在这种规模下,快速排查和精确定位整个网络故障非常困难,因而针对这种大规模数据中心网络,如何通过智能测量自动发现数据中心网络的网络故障设备、链路和网络瓶颈显得尤为重要。针对网络测量的方法通常应该具有以下特性:a.健壮性,即在被测网络发成轻微变化时,测量方法不会因此失效;b.可重复行,即在相同网络条件下,多次测量结果应该保持一致,不会出现较大差别;c.准确性,即测量的结果能够准确的反映网络的实际情况。
目前针对网络测量的方法从测量的方式、测量点的位置、测量参与者等方面分类,主要有以下几类:
(1)主动测量和被动测量:主动测量是根据测量需要向被测网络中发送一些特定的探测数据包,通过对探测数据包穿越网络而发生的变化进行分析,得到当前网络的状态和性能参数;例如,网络测试命令Ping通过发送ICMP探测数据包,获得被测网络的连通性、往返延时和丢包率;被动测量是在网络中的关键设备和节点上部署测量装置捕获数据包并进行统计分析,进而获得当前网络的状态和性能参数。
(2)网络边缘测量和网络内部测量:网络边缘测量不需要网络核心设备的配合,只需要网络边缘主机的参与即可,通过边缘主机对网络进行端到端的业务性能测量,了解网络的性能参数,例如网络延时、分组丢包率;网络断层扫描或网络层析(Network Tomography,NT)技术就是一种网络边缘测量技术,NT技术就是根据对网络外部(网络端点)的测量来分析和推断整个网络的拓扑结构和网络性能;网络内部设备测量是一种被动测量的方法,是在网络内相关设备上通过抽样统计等方法,来对网络的性能和流量进行测量。
(3)协作式测量和非协作式测量:协作式测量指需要被测网络配合才能对所测网络进行测量的方法,例如,路由器协作的测量;非协作式的测量方法不需要被测网络的参与,例如,监测网络拓扑的变化。
(4)单点测量和分布式测量:单点测量方法主要针对网络规模较小、且网络结构相对简单的情况,通过设置单个测量点就能够测试网络的性能;对于规模较大的网络,则需要在所测网络中部署较多的测量代理进行分布式的测量,得到更详细的测量数据以实现对网络更精确的测量。
综上所述,以上几种方法都需要网络管理人员较大的参与度,而当前数据中心具有网络规模大而复杂的特点,因而以上方法均无法实现对数据中心网络自动化和智能化的测量,更难以实现快速的发现和定位网络故障。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种能够针对大规模网络实现分布式的自动化测量,同时能够快速、准确的定位网络瓶颈点或故障点的基于分布式自动化测量的性能瓶颈分析方法及装置。
为解决上述技术问题,本发明提出的技术方案为:
一种基于分布式自动化测量的性能瓶颈分析方法,步骤包括:
1)网络信息获取:获取被测网络的网络拓扑信息,所述网络拓扑信息包括被测网络中所有交换机节点信息、计算节点信息以及交换机节点与计算节点之间的连接信息;
2)关键链路分析:根据所述网络拓扑信息获取被测网络的中各交换机节点之间的链路作为关键链路,分别执行各条所述关键链路的测量,并根据各条关键链路的测量结果分别进行关键链路故障定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模,直至定位得到关键链路的瓶颈点、故障点;
3)端链路分析:根据所述网络拓扑信息获取被测网络中交换机节点与计算节点之间的链路作为端链路,分别执行各条所述端链路的测量,并根据各条端链路的测量结果分别进行端链路故障定位,且每次定位时若未定位到,则根据所述端链路的测量结果收敛端链路的待测网络规模,直至定位得到端链路的所有瓶颈点、故障点。
作为本发明方法的进一步改进:所述步骤2)、步骤3)中收敛待测网络规模具体是通过递归的基于最小覆盖原则的测量方法,将测量结果为正常的链路从测量集合中删除,以逐渐收敛待测网络的规模。
作为本发明方法的进一步改进,所述步骤2)的具体步骤为:
2.1)关键链路获取:获取被测网络的所有链路中直连的两个节点均为交换机节点的链路作为关键链路,构成待测关键链路集合;
2.2)关键链路任务生成:启动测量时,从被测网络的核心层设备开始,依次递归的取出与核心层相连的汇聚设备,以及再通过汇聚设备找到相连的接入交换设备,生成关键链路的测量任务;
2.3)关键链路任务执行:配置各所述关键链路测量任务中每个关键任务测量对的测量参数并执行测量,得到各关键任务测量对的测量结果;
2.4)关键链路任务分析:分别判断所述各关键任务测量对的测量结果,每次判断时,若存在异常,则判定对应关键任务测量对之间所覆盖的关键链路中存在瓶颈点或故障点;若正常,则判定对应关键任务测量对之间所覆盖的所有关键链路均正常,并将对应关键任务测量对从待测关键链路集合中删除以收敛待测关键链路集合的规模,各关键任务测量对判断完成后得到关键链路的所有瓶颈点、故障点。
作为本发明方法的进一步改进,所述步骤2.2)的具体步骤为:
2.2.1)启动测量时,获取被测网络的所有核心层交换机节点构成核心交换节点集合;定义一个关键链路测量任务集合并初始化为空;
2.2.2)判断核心交换节点集合是否为空,若不为空,则取出其中任意一个核心层交换机节点作为当前核心层交换机节点,跳转到步骤2.2.3);若为空,得到所有核心层交换机节点对应的关键链路测量任务集合并退出;
2.2.3)获取当前核心层交换机节点下所有的子节点构成一级子节点集合,跳转到步骤2.2.4);
2.2.4)判断所述一级子节点集合是否为空,若不为空则取出其中任意两个子节点,跳转到步骤2.2.5);若为空,生成得到当前核心层交换机节点对应的关键链路测量任务集合,返回执行步骤2.2.2);
2.2.5)判断所述步骤2.2.4)取出的两个子节点是否均为接入层交换机节点,如果是,则由所述取出的两个子节点构成关键链路测量任务对并加入到关键链路测量任务集合中,删除取出的所述两个子节点,跳转到步骤2.2.4);否则跳转到步骤2.2.6);
2.2.6)由所述步骤2.2.4)取出的两个子节点下的所有子节点得到两个对应的二级子节点集合,转入执行步骤2.2.7);
2.2.7)判断所述步骤2.2.6)中得到的两个二级子节点集合是否为空,若均不为空,则分别从所述两个二级子节点集合中任意取一个子节点,转入执行步骤2.2.8);若其中有一个为空,则从不为空的二级子节点集合中任意取一个子节点,并从与所述一级子节点集合中子节点直连的所有子节点中任意取一个接入层交换机节点,转入执行步骤2.2.8);若均为空,返回执行步骤2.2.4);
2.2.8)若所述步骤2.2.7)取出的两个子节点均为接入层交换机节点,则由取出的两个子节点构成关键链路测量任务对并加入到所述关键链路测量任务集合中,删除取出的所述两个子节点,返回执行步骤2.2.7)。
作为本发明方法的进一步改进,所述步骤2.4)中关键任务测量对之间的所有链路的获取步骤为:
2.4.1)定义一个存储关键任务测量对之间关键链路的测量分析链路集合并初始化为空,跳转执行步骤2.4.2);
2.4.2)取所述关键链路测量任务集合中一个关键链路测量任务对作为当前测量任务对,并将对应的两个节点作为当前两个分析节点,跳转执行步骤2.4.3);
2.4.3)将当前两个分析节点与对应直连父节点之间的关键链路加入至所述测量分析链路集合中,跳转执行步骤2.4.4);
2.4.4)若当前两个分析节点的两个直连父节点不相同,则递归循环的取上一次两个分析节点的直连父节点作为当前两个分析节点,跳转执行步骤2.4.3),直至当前两个分析节点的直连父节点相同,输出当前测量任务对所对应的测量分析链路集合。
作为本发明方法的进一步改进,所述步骤3)的具体步骤为:
3.1)端链路获取:获取被测网络的所有链路中直连的两个节点分别为交换机节点、计算节点的链路作为端链路,构成待测端链路集合;
3.2)端链路测量任务生成:启动测量,依次的获取每一个接入层设备下所有计算节点,生成对应各接入层交换机的端链路测量任务;
3.3)端链路测量任务执行:配置各端链路测量任务中每一个端链路任务的测量参数并执行测量,得到各端链路任务测量对的测量结果;
3.4)端链路性能分析:分别判断所述各端链路任务的测量结果,每次判断时,若测量结果异常,则定位得到网络瓶颈点、故障点;若测量结果正常,将对应的测量端链路从待测端链路集合中剔除,各端链路任务判断完成后得到端链路的所有瓶颈点、故障点。
作为本发明方法的进一步改进,所述步骤3.2)的具体步骤为:
3.2.1)启动测量时,获取被测网络所有接入层交换机节点构成接入层交换机节点集合;定义一个端链路测量任务集合并初始化为空;
3.2.2)判断所述接入层交换机节点集合是否为空,若不为空,从其中任意取出一个接入层交换机节点作为当前接入层交换机节点,跳转执行步骤3.2.3);若为空,得到所有接入层交换机节点对应的端链路测量任务集合并退出;
3.2.3)获取当前接入层交换机节点的所有子节点构成接入子节点集合,从所述接入子节点集合中循环的取出两个计算节点构成端链路任务测量对并加入至所述端链路测量任务集合中,删除取出的两个所述计算节点并作为已测量节点;当所述接入子节点集合中只存在一个目标计算节点时,任取一个已测量节点与所述目标计算节点构成端链路任务测量对并加入至所述端链路测量任务集合中,生成当前接入层交换机节点对应的端链路测量任务集合,跳转执行步骤3.2.2)。
一种基于分布式自动化测量的性能瓶颈分析装置,包括:
网络信息获取模块,用于获取被测网络的网络拓扑信息,所述网络拓扑信息包括被测网络中所有交换机节点信息、计算节点信息以及交换机节点与计算节点的连接信息;
关键链路分析模块,用于根据所述网络拓扑信息获取被测网络的中各交换机节点之间的链路作为关键链路,分别执行各条所述关键链路的测量,并根据各条关键链路的测量结果分别进行关键链路故障定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模,最后得到关键链路的瓶颈点、故障点;
端链路分析模块,用于根据所述网络拓扑信息获取被测网络中交换机节点与计算节点之间的链路作为端链路,分别执行各条所述端链路的测量,并根据各条端链路的测量结果分别进行端链路故障定位,且每次定位时若未定位到,则根据所述端链路的测量结果收敛端链路的待测网络规模,最后得到端链路的所有瓶颈点、故障点。
作为本发明装置的进一步改进,所述关键链路分析模块包括:
关键链路获取单元,用于获取被测网络的所有链路中直连的两个节点均为交换机节点的链路作为关键链路,构成待测关键链路集合;
关键链路任务生成单元,用于启动测量时,从被测网络的核心层设备开始,依次递归的取出与核心层相连的汇聚设备,以及再通过汇聚设备找到相连的接入交换设备,生成关键链路的测量任务;
关键链路任务执行单元,用于配置各所述关键链路测量任务中每个关键任务测量对的测量参数并执行测量,得到各关键任务测量对的测量结果;
关键链路任务分析单元,用于分别判断所述各关键任务测量对的测量结果,每次判断时,若存在异常,则判定对应关键任务测量对之间所覆盖的关键链路中存在瓶颈点或故障点;若正常,则判定对应关键任务测量对之间所覆盖的所有关键链路均正常,并将对应关键任务测量对从待测关键链路集合中删除以收敛待测关键链路集合的规模,各关键任务测量对判断完成后得到关键链路的所有瓶颈点、故障点。
作为本发明装置的进一步改进,所述端链路分析模块包括:
端链路获取单元,获取被测网络的所有链路中直连的两个节点分别为交换机节点、计算节点的链路作为端链路,构成待测端链路集合;
端链路测量任务生成单元,用于启动测量,依次的获取每一个接入层设备下所有计算节点,生成对应各接入层交换机的端链路测量任务;
端链路测量任务执行单元,用于配置各端链路测量任务中每一个端链路任务的测量参数并执行测量,得到各端链路任务测量对的测量结果;
端链路性能分析单元,用于分别判断所述各端链路任务的测量结果,每次判断时,若测量结果异常,则定位得到网络瓶颈点、故障点;若测量结果正常,将对应的测量端链路从待测端链路集合中剔除,各端链路任务判断完成后得到端链路的所有瓶颈点、故障点。
与现有技术相比,本发明的优点在于:
1)本发明基于分布式自动化测量的性能瓶颈分析方法,根据网络状态优先对各交换机之间的关键链路执行测量,再对交换机与计算节点之间的端链路执行测量,有效针对规模大而复杂的网络实现自动化、智能化测量,从而全面衡量网络的性能;同时通过关键链路、端链路的测量结果定位网络瓶颈点、故障点,且在未定位到时收敛被测网络的规模,则通过每次测量能够逐渐缩小测量的范围,从而能够快速、准确的定位和发现网络性能瓶颈和故障点。
2)本发明基于分布式自动化测量的性能瓶颈分析方法,针对整个网络中关键链路、端链路能够自动生成测量任务并执行测量,因而可直接应用于大规模数据中心网络、高性能巨型机网络以及高速以太网中,发现并定位网络当前的性能瓶颈,全面衡量网络的实际性能。
3)本发明基于分布式自动化测量的性能瓶颈分析方法,在尚未定位到网络瓶颈点、故障点时,通过递归的基于最小覆盖原则的测量方法收敛被测网络的规模,从而快速、准确的定位到网络瓶颈点、故障点。
附图说明
图1是本实施例基于分布式自动化测量的性能瓶颈分析方法的实现流程示意图。
图2是本发明性能瓶颈分析方法在具体实施例中的实现原理示意图。
图3是本发明性能瓶颈分析方法在具体实施例中的实现原理流程示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于分布式自动化测量的性能瓶颈分析方法,步骤包括:
1)网络信息获取:获取被测网络的网络拓扑信息,网络拓扑信息包括被测网络中所有交换机节点信息、计算节点信息以及交换机节点与计算节点之间的连接信息;
2)关键链路分析:根据网络拓扑信息获取被测网络的中各交换机节点之间的链路作为关键链路,分别执行各条关键链路的测量,并根据各条关键链路的测量结果分别进行关键链路故障定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模,最后得到关键链路的所有瓶颈点、故障点;
3)端链路分析:根据网络拓扑信息获取被测网络中交换机节点与计算节点之间的链路作为端链路,分别执行各条端链路的测量,并根据各条端链路的测量结果分别进行端链路故障定位,且每次定位时若未定位到,则根据端链路的测量结果收敛端链路的待测网络规模,最后得到端链路的所有瓶颈点、故障点。
在大规模数据中心网络、高性能巨型机网络中,交换机设备是网络的核心设备,特别是对处于核心层和汇聚层的交换设备,网络中的大部分数据和流量都要从其上经过,将两个交换设备之间的链路作为关键链路,交换机节点与计算节点之间的链路作为端链路,当关键链路出现瓶颈和故障时,将会大范围的影响网络性能,当端链路出现故障时,则主要影响处于网络边缘的计算节点,影响范围相对较小。考虑到在被测网络中关键链路比端链路对于故障的影响更大,本实施例基于分布式自动化测量的性能瓶颈分析方法,根据网络当前状态执行分布式的自动化测量,优先对各交换机之间的关键链路执行测量,再对交换机与计算节点之间的端链路执行测量,有效针对规模大而复杂的网络实现自动化、智能化测量,且通过关键链路、端链路的测量结果能够全面衡量网络的性能;同时通过测量结果定位网络瓶颈点、故障点(或拥塞点),且在未定位到时收敛被测网络的规模,则通过每次测量能够逐渐缩小定位分析的范围,从而快速、准确的定位和发现网络性能瓶颈和故障点。
本实施例中,通过网络拓扑数据库获取被测网络的拓扑信息,主要包含被测网络中所有交换机节点信息、计算节点信息、交换机节点和计算节点之间的连接关系,其中交换机和计算节点信息主要包含该节点在网络拓扑中的层次、权重和各节点之间的父子关系信息。接入层交换设备下直连计算节点,计算节点为整个网络拓扑的叶节点。被测网络拓扑表示为G = { V , E },其中V={v 1 ,v 2 ,…,v N }表示交换机设备和计算节点终端的集合,N为交换机设备和计算节点终端的总数;E={e 1 ,e 2 ,…,e M }表示交换机设备之间的互连链路、以及计算节点与交换机设备之间互连链路的总链路集合,其中对于两个交换机设备之间存在多条聚合链路的情况,将多条聚合链路视为一条逻辑链路,M为各交换机设备之间互连链路、各计算节点与交换机间互连链路的总数。在网络拓扑中,两个相邻节点ij之间的连接称为链路,记为l ij ,对于两个非相邻端节点mn,节点mn之间的路径记为p mn  ,路径p mn 是节点mn之间的多有链路集合。
本实施例中,步骤2)、步骤3)中收敛被测网络的规模具体是通过递归的基于最小覆盖原则的测量方法,将测量结果为正常的链路从被测集合中删除,以逐渐收敛被测网络的规模。其基本原理主要为:获取被测网络中的所有链路(关键链路和端链路),对于关键链路首先总是从网络中层次最高的核心层设备开始,不断的递归的找出其下的接入层设备,将其作为关键链路的测量任务,执行完关键链路测量任务后,测量结果正常说明这些关键链路正常,将这些链路从关键链路集合中剔除;对于端链路,依次的获取每一个接入层设备下所有计算节点进行任务的生成、执行和测量,将测量正常的链路从端链路集合中剔除。通过递归的贪心算法以及分层最小覆盖测量的方法获取链路进行分析及处理,能够快速收敛被测网络的规模,减少定位周期,从而快速、准确的定位到网络瓶颈点、故障点。
本实施例中,步骤2)的具体步骤为:
2.1)关键链路获取:获取被测网络的所有链路中直连的两个节点均为交换机设备的链路作为关键链路,构成关键链路集合;
2.2)关键链路任务生成:启动测量时,从被测网络的核心层设备开始,依次递归的取出与核心层相连的汇聚设备,以及再通过汇聚设备找到相连的接入交换设备,生成对应的关键链路测量任务,即从被测网络内每个核心层交换机节点的子节点中,两两递归的取出其下为接入层交换机的子节点构成关键任务测量对生成关键链路测量任务;
2.3)关键链路任务执行:配置各关键链路测量任务中每个关键任务测量对的测量参数并执行测量,得到各关键任务测量对的测量结果;
2.4)关键链路任务分析:分别判断各关键任务测量对的测量结果,每次判断时,若存在异常,说明该关键任务测量对所覆盖的关键链路集合中存在瓶颈点或故障点,但由于不能确定具体的瓶颈点或故障点,所以不采取任何操作;若正常,说明该关键任务测量对所覆盖的关键链路集合中不存在瓶颈点或故障点,则将该关键任务测量对所覆盖的所有关键链路从待测关键链路集合中剔除以收敛待测关键链路集合的规模,各关键任务测量对判断完成后得到关键链路的所有瓶颈点、故障点。
本实施例在收到测量请求后,首先对被测网络中的关键链路自动生成测量任务并执行各测量任务的测量,由测量结果是否正常判断是否为网络瓶颈点、故障点,每次判断时,若测量结果异常,则不采取任何操作;若测量结果正常,则将从关键链路集合中删除关键任务测量对之间正常的链路以收敛关键链路的待测网络的规模,并加入到正常关键链路集合中,通过将所有已测正常的链路删除,最终确定出存在故障或瓶颈的关键链路,有效提高了网络瓶颈点、故障点的定位速度及精度。
本实施例中,步骤2.2)的具体步骤为:
2.2.1)启动测量时,获取被测网络的所有核心层交换机节点构成核心交换节点集合;定义一个关键链路测量任务集合并初始化为空;
2.2.2)判断核心交换节点集合是否为空,若不为空,则取出其中任意一个核心层交换机节点作为当前核心层交换机节点,跳转到步骤2.2.3);若为空,得到所有核心层交换机节点对应的关键链路测量任务集合并退出;
2.2.3)获取当前核心层交换机节点下所有的子节点构成一级子节点集合,跳转到步骤2.2.4);
2.2.4)判断一级子节点集合是否为空,若不为空则取出其中任意两个子节点,跳转到步骤2.2.5);若为空,生成得到当前核心层交换机节点对应的关键链路测量任务集合,返回执行步骤2.2.2);
2.2.5)判断步骤2.2.4)取出的两个子节点是否均为接入层交换机节点,如果是,则由取出的两个子节点构成关键链路测量任务对并加入到关键链路测量任务集合中,删除取出的两个子节点,跳转到步骤2.2.4);否则跳转到步骤2.2.6);
2.2.6)由步骤2.2.4)取出的两个子节点下的所有子节点得到两个对应的二级子节点集合,转入执行步骤2.2.7);
2.2.7)判断步骤2.2.6)中得到的两个二级子节点集合是否为空,若均不为空,则分别从两个二级子节点集合中任意取一个子节点,转入执行步骤2.2.8);若其中有一个为空,则从不为空的二级子节点集合中任意取一个子节点,并从与一级子节点集合中子节点直连的所有子节点中任意取一个接入层交换机节点,转入执行步骤2.2.8);若均为空,返回执行步骤2.2.4);
2.2.8)若步骤2.2.7)取出的两个子节点均为接入层交换机节点,则由取出的两个子节点构成关键链路测量任务对并加入到关键链路测量任务集合中,删除取出的两个子节点,返回执行步骤2.2.7)。
通过上述步骤,被测网络中每个核心层交换机设备均获得一个对应的关键链路测量任务集合,关键链路测量任务集合中包含各关键链路测量任务对。
本实施例中,步骤2.4)中关键任务测量对之间的所有链路的获取步骤为:
2.4.1)定义一个存储关键任务测量对之间关键链路的测量分析链路集合并初始化为空,跳转执行步骤2.4.2);
2.4.2)取关键链路测量任务集合中一个关键链路测量任务对作为当前测量任务对,并将对应的两个节点作为当前两个分析节点,跳转执行步骤2.4.3);
2.4.3)将当前两个分析节点与对应直连父节点之间的关键链路加入至测量分析链路集合中,跳转执行步骤2.4.4);
2.4.4)若当前两个分析节点的两个直连父节点不相同,则递归循环的取上一次两个分析节点的直连父节点作为当前两个分析节点,跳转执行步骤2.4.3),直至当前两个分析节点的直连父节点相同,输出当前测量任务对所对应的测量分析链路集合。
本实施例中,步骤3)的具体步骤为:
3.1)端链路获取:获取被测网络的所有链路中直连的两个节点分别为交换机节点、计算节点的链路作为端链路,构成待测端链路集合;
3.2)端链路测量任务生成:启动测量时,依次的获取每一个接入层设备下所有计算节点生成对应各接入层交换机的端链路测量任务,即从被测网络每个接入层交换机的所有子节点中,两两取出计算节点构成端链路任务测量对;
3.3)端链路测量任务执行:配置各端链路测量任务中每一个端链路任务的测量参数并执行测量,得到各端链路任务测量结果;
3.4)端链路性能分析:分别判断各端链路任务的测量结果,每次判断时,若测量结果异常,则定位得到网络瓶颈点、故障点;若测量结果正常,将对应的测量端链路从待测端链路集合中剔除,各端链路任务判断完成后得到端链路的所有瓶颈点、故障点。
本实施例在完成关键链路的测量后,对被测网络中的端链路自动生成测量任务并执行各测量任务的测量,由测量结果是否正常判断是否为网络瓶颈点、故障点,每次判断时,若测量结果异常,则上传网络瓶颈点、故障点的分析结果;若测量结果正常,则删除端链路任务测量对之间正常的链路以收敛端链路的待测网络的规模,完成本次测量,由收敛后的被测网络再执行下一次端链路的测量,通过不断的删除待测端链路集合中的已测正常端链路最终定位到所有故障端链路。
本实施例中,步骤3.2)的具体步骤为:
3.2.1)启动测量时,获取被测网络所有接入层交换机节点构成接入层交换机节点集合;定义一个端链路测量任务集合并初始化为空;
3.2.2)判断接入层交换机节点集合是否为空,若不为空,从其中任意取出一个接入层交换机节点作为当前接入层交换机节点,跳转执行步骤3.2.3);若为空,得到所有接入层交换机节点对应的端链路测量任务集合并退出;
3.2.3)获取当前接入层交换机节点的所有子节点构成接入子节点集合,从接入子节点集合中循环的取出两个计算节点构成端链路任务测量对并加入至端链路测量任务集合中,删除取出的两个计算节点并作为已测量节点;当接入子节点集合中只存在一个目标计算节点时,任取一个已测量节点与目标计算节点构成端链路任务测量对并加入至端链路测量任务集合中,生成当前接入层交换机节点对应的端链路测量任务集合,跳转执行步骤3.2.2)。
为更为具体的实现上述各步骤,本实施例定义以下参数:
GetParentv i )表示获取设备v i  的父节点,其中对于拓扑最上层的根节点root i GetParentroot i )=NULL,即根节点不存在父节点。
GetChildv i )表示获取设备v i  的所有子节点,其中对于拓扑最底层的计算节p i 点,GetChild (p i )=NULL,即计算节点不存在子节点。
GetDevTypev i )表示获取当前设备类型,取值范围为1、2、3、4,分别对应终端计算节点、接入层交换机、汇聚层交换机和核心层交换机。
GetLinkByDevv i v j )表示获取两个相邻节点v i v j 之间的链路。
本实施例中,首先获取整个被测网络拓扑中的所有交换机节点放入交换机节点集合V switch 中,即V switch =GetDevTypen|n=2,3,4};定义关键链路测量任务集合T core 、待测关键链路集合E core 和正常链路集合L core
本实施例中,实现步骤2.1)待测关键链路获取的具体步骤为:
ⅰ. 初始化待测关键链路集合E core 为空;
ⅱ. 取总链路集合E={e 1 ,e 2 ,…,e M }中的一条链路e i ,若链路e i 直连的两个节点全为交换机节点,则将链路e i 作为关键链路;
ⅲ. 将关键链路e i 加入至待测关键链路集合E core 中,并从总链路集合E删除链路e i
ⅳ. 若总链路集合为空,则待测关键链路集合E core 生成完毕,否则转入执行步骤ⅱ。
本实施例中,实现步骤2.2)关键链路测量任务生成的具体步骤为:
ⅰ. 获取网络拓扑中所有核心层交换机设备集合V CS ,即V CS =GetDevType4)},若集合V CS 不为空,取出集合V CS 中任意一个核心层交换机设备V CSi
ⅱ. 获取设备V CSi 下所有子节点设备集合V DS = {GetChildV CSi )};
ⅲ. 若集合V DS 不为空,取出V DS 中任意两个子节点设备V DSi V DSj
ⅳ. 若GetDevType(V DSi )=2,GetDevType(V DSj )=2,则表明子节点设备V DSi V DSj 均为接入层交换机节点,将关键任务测量对(V DSi V DSj )加入到关键链路测量任务集合T core 中,并将子节点设备V DSi V DSj 从集合V DS 中删除,跳转到步骤ⅱ;否则执行步骤ⅴ;
ⅴ. 获取子节点设备V DSi V DSj 下所有子节点设备集合V SWBi V SWBj ,即V SWBi = {GetChildV DSi )},V SWBj = {GetChildV DSj )};
ⅵ. 若集合V SWBi V SWBj 都不为空,取出集合V SWBi V SWBj 下任意一个子节点设备V SWBip V SWBjq ;若集合V SWBi V SWBj 其中一个集合为空,则从集合V DS 下任取一个子节点V DSk ,获取子节点V DSk 下直连的任意一个子节点集合V SWBk  ,即V SWBk ={GetChildV DSi )},当子节点设备V SWBk  为接入层交换机设备时,即GetDevType(V SWBk )=2,则用该节点代替为空的V SWBi V SWBj ,从集合V SWBi V SWBj 下任意取一个子节点设备V SWBip V SWBjq
ⅶ. 若GetDevType(V SWBip )=2,GetDevType(V SWBjq )=2,则表明子节点设备V SWBip V SWBjq 均为接入层交换机设备,将关键任务测量对(V SWBip V SWBjq )加入到关键链路测量任务集合T core 中,并将子节点设备V SWBip V SWBjq 分别从集合V SWBi V SWBj 中删除,执行步骤ⅵ;
ⅷ. 关键链路测量任务集合T core 生成完毕。
本实施例中,实现步骤2.4)关键链路任务分析的具体步骤为:
ⅰ. 对于每个关键链路测量任务对(V Pi ,V Pj ),获取节点V Pi 的直连父节点V SWBi 以及节点V Pj 即的直连父节点V SWBj ,即V SWBi =GetParentV Pi ),V SWBj =GetParentV Pj );
ⅱ. 将节点V Pi 与对应父节点V SWB i 之间的链路e i 、链路V Pj 与对应父节点V SWBj 之间的链路e j 分别添加到链路集合E measure ,其中e i ={GetLinkByDevV Pi V SWBi )},e j ={GetLinkByDevV Pj V SWBj )};
ⅲ. 若节点V SWBi V SWBj 为同一节点,则表明关键链路测量任务对(V Pi V Pj )之间的所有链路都添加到了该测量任务对所对应的链路集合E measure 中,否则,跳转步骤ⅰ;递归获取测量任务对(V SWBi V SWBj )之间的链路并添加到E measure 中,直到测量任务对中的两个节点存在相同的父节点;
ⅳ. 若测量对(V Pi ,V Pj )所测的测量结果正常,则将测量对(V Pi ,V Pj )对应的链路集合E measure 中所有链路从待测关键链路集合E core 中删除,并将集合E measure 中所有链路添加到正常关键集合L core 中。
本实施例中,首先获取整个被测网络拓扑中的所有接入层交换设备集合;定义端链路测量任务集合T border 、待测关键链路集合E border 和正常链路集合L border 。本实施例中,实现步骤3.1)待测端链路集合获取的具体步骤为:
ⅰ. 初始化待测端链路集合E border 为空;
ⅱ. 取总链路集合E={e 1 ,e 2 ,…,e M }中的一条链路e i ,若链路e i 直连的两个节点一个为交换机节点另一个为计算节点,则将链路e i 作为端链路;
ⅲ. 将端链路e i 加入至待测端链路集合E border 中,并从总链路集合E删除链路e i
ⅳ. 若总链路集合为空,则待测端链路集合E border 生成完毕,否则转入执行步骤ⅱ。
本实施例中,实现步骤3.2)端链路测量任务生成的具体步骤为:
ⅰ. 将整个网络中的所有接入层交换机放入集合V swb 中,即V swb ={GetDevType2)};初始化端链路测量任务集合T border 为空;
ⅱ. 循环执行步骤ⅲ~ⅴ,直到集合V swb 为空,端链路测量任务集合生成完毕;
ⅲ. 若集合V swb 不为空,从集合V swb 中任取一个接入层交换机节点v i
ⅳ. 获取接入层交换机v 的所有子节点,并放入集合V untreated 中,即V untreated ={ GetChildv i )};
ⅴ. 循环执行步骤a)~ c),直到集合V untreated 为空;
a)若集合V untreated 中的计算节点个数大于两个,则循环的从集合V untreated 中取出任意两个计算节点v p1 v p2 
b)将(v p1 v p2 )作为一组端链路测量任务放入端链路测量任务集合T p 中,并将计算节点v p1 v p2  从未测量集合V untreated 中移除,放入已测量节点集合V  treated 中;
c)若集合V p 仅有一个计算节点v p1 ,则从已测量节点集合V  treated  中任取一个计算节点v p3  ,并将(v p1 v p3 )作为一组端链路测量任务放入端链路测量任务集合T border 中。
本实施例中,实现步骤3.4)端链路性能分析的具体步骤为:获得每个端链路测量对(v p1 v p2 )的测量结果,若测量链路正常,获取计算节点v p1 到其父节点之间的链路e i v p2 到其父节点之间的链路e j ,则将端链路e i e j 从待测端链路集合E border 中删除,并将端链路e i e j 加入到正常端链路集合L border 中,若测量对(v p1 v p3 )的测量结果出现故障或不正常,则不对待测端链路集合E border 做任何处理。
如图2、3所示,本发明具体实施例中由一个管理客户端模块配置测量策略,并由一个测量任务生成模块生成测量任务,启动测量后由一个测量任务执行模块并发执行测量任务,并下发给部署在计算节点上的各测量代理,由各测量代理执行端到端的性能测量并上报测量结果,再由一个性能分析模块对上报的测量结果进行计算和分析,定位瓶颈点、故障点,定位到的结果通过管理客户端模块进行可视化展现。各模块的具体功能为:
管理客户端模块,用于提供人机交互界面,使网络管理人员能够对整个自动测量系统进行控制以及对测量结果进行查看。
网络拓扑数据库,用于保存数据中心网络的拓扑信息,主要包含被测网络中所有交换机节点信息、计算节点信息、交换机节点和计算节点之间的连接关系,其中交换机和计算节点信息主要包含该节点在网络拓扑中的层次、权重和各节点之间的父子关系;
测量任务生成模块,用于根据网络拓扑信息生成测量任务集合,并提交给测量任务执行模块,所需要的网络拓扑信息包括所有被测交换机节点、计算机点和整个拓扑的所有链路信息。
测量任务执行模块,用于响应测量任务生成模块的测量请求,对测量任务集合中每个测量任务按照测量任务描述信息配置各个测量代理的测量参数,启动测量任务执行并将收集到的测量结果返回给性能分析模块。
性能分析模块,用于对测量任务执行模块返回的测量结果进行统计、分析和计算,若已定位到网络瓶颈点、故障点,则将网络瓶颈点、故障点生成测量记录上报给管理客户端模块,否则根据测量分析结果收敛被测网络规模,并发送给测量任务生成模块,直到准确定位到网络瓶颈点、故障点。
测量代理,部署在计算节点上,用于按照测量任务执行模块下发的测量任务执行端到端的性能测量,并上报测量结果给测量任务执行模块。
如图3所示,本发明性能瓶颈分析方法在具体实施例中步骤为:
(1)网络管理员通过管理客户端模块对网络性能测量进行策略配置;
(2)测量任务生成模块检查测量启动标记,若启动标记为未启动,则根据管理客户端模块测量配置测量策略,启动标记为未启动,则被测网络尚未进行过自动化的测量和性能瓶颈分析,此时客户端模块的测量策略为针对整个被测网络进行自动测量和分析,生成本次测量任务集合,发送给测量任务执行模块,并将启动标记修改为已启动;若启动标记为已启动,则响应性能分析模块的请求;
(3)测量任务执行模块根据测量任务生成模块生成的测量任务集合,下发测量任务到各测量代理并发执行测量任务;
(4)测量任务执行模块收集各测量代理上报的测量结果并传递给性能分析模块;
(5)性能分析模块对测量结果进行计算和分析,若尚未定位到网络瓶颈或故障点,通过递归的贪心算法并使用分层最小覆盖测量的方法收敛被测网络规模,将请求提交给测量任务生成模块,转入执行步骤(2),若成功定位到网络瓶颈或故障点,转入执行步骤第(6);
(6)将根据性能分析模块发现的网络性能瓶颈或故障点上报给管理客户端模块,管理客户端模块通过可视化方式展示本次测量结果给网络管理员。
本实施例中,由测量任务生成模块检查测量启动标记,若启动标记为未启动,则根据管理客户端模块测量配置策略,生成本次测量任务集合;若启动标志为启动,则跳转到步骤4,通过性能分析模块收敛被测网络。
本实施例中,关键链路分析时 ,测量任务执行模块从关键链路测量任务集合T core 中依次获取每一个关键链路任务测量对,配置获取的关键链路任务测量中对应测量节点参数,并下发到对应测量节点的测量代理;同时测量任务执行模块获取测量代理返回的测量结果,并将测量结果传递给性能分析模块进行计算和分析,性能分析模块获取整个网络拓扑的所有链路集合E={e 1 ,e 2 ,…,e M }的子集合:待测关键链路集合E core ,循环的获取关键链路测量任务集合T core 中的每个关键链路测量任务对(V Pi ,V Pj )之间的所有链路集合E measure ,并将测量结果正常的测量对之间的所有正常链路从待测关键链路集合E core 删除,通过将所有已测正常的链路删除,最终确定出存在故障或瓶颈的关键链路。
端链路分析时,测量任务执行模块从端链路测量任务集合T border 中获取测量任务,配置相关终端代理的测量任务参数,统一启动并执行相关终端代理的测量任务;同时测量任务执行模块获取测量任务集合中每组测量任务的测量结果,并将测量结果传递给性能分析模块进行计算和分析,性能分析模块获得每个端链路测量对(v p1 v p2 )的测量结果,若测量链路正常,获取计算节点v p1 到其父节点之间的链路e i v p2 到其父节点之间的链路e j 则将端链路e i e j 从待测端链路集合E border 中删除,并将端链路e i e j 加入到正常端链路集合L border 中,若测量对(v p1 v p3 )的测量结果出现故障或不正常,说明该端链路为故障链路,将其留在待测端链路集合中,通过不断的删除待测端链路集合中的已测正常端链路最终定位到所有故障端链路。
本实施例还提供一种基于分布式自动化测量的性能瓶颈分析装置,包括:
网络信息获取模块,用于获取被测网络的网络拓扑信息,网络拓扑信息包括被测网络中所有交换机节点信息、计算节点信息以及交换机节点与计算节点的连接信息;
关键链路分析模块,用于根据网络拓扑信息获取被测网络的中各交换机节点之间的链路作为关键链路,分别执行各条关键链路的测量,并根据各条关键链路的测量结果进行关键链路故障定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模,最后得到到关键链路的所有瓶颈点、故障点;
端链路分析模块,用于根据所述网络拓扑信息获取被测网络中交换机节点与计算节点之间的链路作为端链路,分别执行各条所述端链路的测量,并根据各条端链路的测量结果分别进行端链路故障定位,且每次定位时若未定位到,则根据所述端链路的测量结果收敛端链路的待测网络规模,最后得到端链路的所有瓶颈点、故障点。
本实施例中,关键链路分析模块包括:
关键链路获取单元,用于获取被测网络的所有链路中直连的两个节点均为交换机节点的链路作为关键链路,构成待测关键链路集合;
关键链路任务生成单元,用于启动测量时,从被测网络的核心层设备开始,依次递归的取出与核心层相连的汇聚设备,以及再通过汇聚设备找到相连的接入交换设备,生成关键链路的测量任务;
关键链路任务执行单元,用于配置各关键链路测量任务中每个关键任务测量对的测量参数并执行测量,得到各关键任务测量对的测量结果;
关键链路任务分析单元,用于分别判断所述各关键任务测量对的测量结果,每次判断时,若存在异常,则判定对应关键任务测量对之间所覆盖的关键链路中存在瓶颈点或故障点;若正常,则判定对应关键任务测量对之间所覆盖的所有关键链路均正常,并将关键任务测量对从待测关键链路集合中删除以收敛待测关键链路集合的规模,各关键任务测量对判断完成后得到关键链路的所有瓶颈点、故障点。
本实施例中,端链路分析模块包括:
端链路获取单元,获取被测网络的所有链路中直连的两个节点分别为交换机节点、计算节点的链路作为端链路,构成待测端链路集合;
端链路测量任务生成单元,用于启动测量,依次的获取每一个接入层设备下所有计算节点,生成对应各接入层交换机的端链路测量任务;
端链路测量任务执行单元,用于配置各端链路测量任务中每一个端链路任务的测量参数并执行测量,得到各端链路任务的测量结果;
端链路性能分析单元,用于分别判断所述各端链路任务的测量结果,每次判断时,若测量结果异常,则定位得到网络瓶颈点、故障点;若测量结果正常,将对应的测量端链路从待测端链路集合中剔除,各端链路任务判断完成后得到端链路的所有瓶颈点、故障点。
本实施例基于分布式自动化测量的性能瓶颈分析装置与上述性能瓶颈分析方法的原理一致,再次不再进行赘述。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (10)

1.一种基于分布式自动化测量的性能瓶颈分析方法,其特征在于,步骤包括:
1)网络信息获取:获取被测网络的网络拓扑信息,所述网络拓扑信息包括被测网络中所有交换机节点信息、计算节点信息以及交换机节点与计算节点之间的连接信息;
2)关键链路分析:根据所述网络拓扑信息获取被测网络的中各交换机节点之间的链路作为关键链路,分别执行各条所述关键链路的测量,并根据各条关键链路的测量结果分别进行关键链路故障定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模,最后得到关键链路的所有瓶颈点、故障点;
3)端链路分析:根据所述网络拓扑信息获取被测网络中交换机节点与计算节点之间的链路作为端链路,分别执行各条所述端链路的测量,并根据各条端链路的测量结果分别进行端链路故障定位,且每次定位时若未定位到,则根据所述端链路的测量结果收敛端链路的待测网络规模,最后得到端链路的所有瓶颈点、故障点。
2.根据权利要求1所述的基于分布式自动化测量的性能瓶颈分析方法,其特征在于:所述步骤2)、步骤3)中收敛待测网络规模具体是通过递归的基于最小覆盖原则的测量方法,将测量结果为正常的链路从测量集合中删除,以逐渐收敛待测网络的规模。
3.根据权利要求2所述的基于分布式自动化测量的性能瓶颈分析方法,其特征在于,所述步骤2)的具体步骤为:
2.1)关键链路获取:获取被测网络的所有链路中直连的两个节点均为交换机节点的链路作为关键链路,构成待测关键链路集合;
2.2)关键链路任务生成:启动测量时,从被测网络的核心层设备开始,依次递归的取出与核心层相连的汇聚设备,以及再通过汇聚设备找到相连的接入交换设备,生成关键链路的测量任务;
2.3)关键链路任务执行:配置各所述关键链路测量任务中每个关键任务测量对的测量参数并执行测量,得到各关键任务测量对的测量结果;
2.4)关键链路任务分析:分别判断所述各关键任务测量对的测量结果,每次判断时,若存在异常,则判定对应关键任务测量对之间所覆盖的关键链路中存在瓶颈点或故障点;若正常,则判定对应关键任务测量对之间所覆盖的所有关键链路均正常,并将对应关键任务测量对从待测关键链路集合中删除以收敛待测关键链路集合的规模,各关键任务测量对判断完成后得到关键链路的所有瓶颈点、故障点。
4.根据权利要求3所述的基于分布式自动化测量的性能瓶颈分析方法,其特征在于,所述步骤2.2)的具体步骤为:
2.2.1)启动测量时,获取被测网络的所有核心层交换机节点构成核心交换节点集合;定义一个关键链路测量任务集合并初始化为空;
2.2.2)判断核心交换节点集合是否为空,若不为空,则取出其中任意一个核心层交换机节点作为当前核心层交换机节点,跳转到步骤2.2.3);若为空,得到所有核心层交换机节点对应的关键链路测量任务集合并退出;
2.2.3)获取当前核心层交换机节点下所有的子节点构成一级子节点集合,跳转到步骤2.2.4);
2.2.4)判断所述一级子节点集合是否为空,若不为空则取出其中任意两个子节点,跳转到步骤2.2.5);若为空,生成得到当前核心层交换机节点对应的关键链路测量任务集合,返回执行步骤2.2.2);
2.2.5)判断所述步骤2.2.4)取出的两个子节点是否均为接入层交换机节点,如果是,则由所述取出的两个子节点构成关键链路测量任务对并加入到关键链路测量任务集合中,删除取出的所述两个子节点,跳转到步骤2.2.4);否则跳转到步骤2.2.6);
2.2.6)由所述步骤2.2.4)取出的两个子节点下的所有子节点得到两个对应的二级子节点集合,转入执行步骤2.2.7);
2.2.7)判断所述步骤2.2.6)中得到的两个二级子节点集合是否为空,若均不为空,则分别从所述两个二级子节点集合中任意取一个子节点,转入执行步骤2.2.8);若其中有一个为空,则从不为空的二级子节点集合中任意取一个子节点,并从与所述一级子节点集合中子节点直连的所有子节点中任意取一个接入层交换机节点,转入执行步骤2.2.8);若均为空,返回执行步骤2.2.4);
2.2.8)若所述步骤2.2.7)取出的两个子节点均为接入层交换机节点,则由取出的两个子节点构成关键链路测量任务对并加入到所述关键链路测量任务集合中,删除取出的所述两个子节点,返回执行步骤2.2.7)。
5.根据权利要求4所述的基于分布式自动化测量的性能瓶颈分析方法,其特征在于,所述步骤2.4)中关键任务测量对之间的所有链路的获取步骤为:
2.4.1)定义一个存储关键任务测量对之间关键链路的测量分析链路集合并初始化为空,跳转执行步骤2.4.2);
2.4.2)取所述关键链路测量任务集合中一个关键链路测量任务对作为当前测量任务对,并将对应的两个节点作为当前两个分析节点,跳转执行步骤2.4.3);
2.4.3)将当前两个分析节点与对应直连父节点之间的关键链路加入至所述测量分析链路集合中,跳转执行步骤2.4.4);
2.4.4)若当前两个分析节点的两个直连父节点不相同,则递归循环的取上一次两个分析节点的直连父节点作为当前两个分析节点,跳转执行步骤2.4.3),直至当前两个分析节点的直连父节点相同,输出当前测量任务对所对应的测量分析链路集合。
6.根据权利要求1~5中任意一项所述的基于分布式自动化测量的性能瓶颈分析方法,其特征在于,所述步骤3)的具体步骤为:
3.1)端链路获取:获取被测网络的所有链路中直连的两个节点分别为交换机节点、计算节点的链路作为端链路,构成待测端链路集合;
3.2)端链路测量任务生成:启动测量,依次的获取每一个接入层设备下所有计算节点,生成对应各接入层交换机的端链路测量任务;
3.3)端链路测量任务执行:配置各端链路测量任务中每一个端链路任务的测量参数并执行测量,得到各端链路任务的测量结果;
3.4)端链路性能分析:分别判断所述各端链路任务的测量结果,每次判断时,若测量结果异常,则定位得到网络瓶颈点、故障点;若测量结果正常,将对应的测量端链路从待测端链路集合中剔除,各端链路任务判断完成后得到端链路的所有瓶颈点、故障点。
7.根据权利要求6所述的基于分布式自动化测量的性能瓶颈分析方法,其特征在于,所述步骤3.2)的具体步骤为:
3.2.1)启动测量时,获取被测网络所有接入层交换机节点构成接入层交换机节点集合;定义一个端链路测量任务集合并初始化为空;
3.2.2)判断所述接入层交换机节点集合是否为空,若不为空,从其中任意取出一个接入层交换机节点作为当前接入层交换机节点,跳转执行步骤3.2.3);若为空,得到所有接入层交换机节点对应的端链路测量任务集合并退出;
3.2.3)获取当前接入层交换机节点的所有子节点构成接入子节点集合,从所述接入子节点集合中循环的取出两个计算节点构成端链路任务测量对并加入至所述端链路测量任务集合中,删除取出的两个所述计算节点并作为已测量节点;当所述接入子节点集合中只存在一个目标计算节点时,任取一个已测量节点与所述目标计算节点构成端链路任务测量对并加入至所述端链路测量任务集合中,生成当前接入层交换机节点对应的端链路测量任务集合,跳转执行步骤3.2.2)。
8.一种基于分布式自动化测量的性能瓶颈分析装置,其特征在于,包括:
网络信息获取模块,用于获取被测网络的网络拓扑信息,所述网络拓扑信息包括被测网络中所有交换机节点信息、计算节点信息以及交换机节点与计算节点的连接信息;
关键链路分析模块,用于根据所述网络拓扑信息获取被测网络的中各交换机节点之间的链路作为关键链路,分别执行各条所述关键链路的测量,并根据各条关键链路的测量结果进行分别关键链路故障定位,且每次定位时若未定位到,则根据测量结果收敛关键链路的待测网络规模,定位得到关键链路的所有瓶颈点、故障点;
端链路分析模块,用于根据所述网络拓扑信息获取被测网络中交换机节点与计算节点之间的链路作为端链路,分别执行各条所述端链路的测量,并根据各条端链路的测量结果分别进行端链路故障定位,且每次定位时若未定位到,则根据所述端链路的测量结果收敛端链路的待测网络规模,定位到端链路的所有瓶颈点、故障点。
9.根据权利要求8所述的基于分布式自动化测量的性能瓶颈分析装置,其特征在于,所述关键链路分析模块包括:
关键链路获取单元,用于获取被测网络的所有链路中直连的两个节点均为交换机节点的链路作为关键链路,构成待测关键链路集合;
关键链路任务生成单元,用于启动测量时,从被测网络的核心层设备开始,依次递归的取出与核心层相连的汇聚设备,以及再通过汇聚设备找到相连的接入交换设备,生成关键链路的测量任务;
关键链路任务执行单元,用于配置各所述关键链路测量任务中每个关键任务测量对的测量参数并执行测量,得到各关键任务测量对的测量结果;
关键链路任务分析单元,用于分别判断所述各关键任务测量对的测量结果,每次判断时,若存在异常,则判定对应关键任务测量对之间所覆盖的关键链路中存在瓶颈点或故障点;若正常,则判定对应关键任务测量对之间所覆盖的所有关键链路均正常,并将关键任务测量对从待测关键链路集合中删除以收敛待测关键链路集合的规模,各关键任务测量对判断完成后得到关键链路的所有瓶颈点、故障点。
10.根据权利要求8或9所述的基于分布式自动化测量的性能瓶颈分析装置,其特征在于,所述端链路分析模块包括:
端链路获取单元,获取被测网络的所有链路中直连的两个节点分别为交换机节点、计算节点的链路作为端链路,构成待测端链路集合;
端链路测量任务生成单元,用于启动测量时,依次的获取每一个接入层设备下所有计算节点,生成对应各接入层交换机的端链路测量任务;
端链路测量任务执行单元,用于配置各端链路测量任务中每一个端链路任务的测量参数并执行测量,得到各端链路任务的测量结果;
端链路性能分析单元,用于分别判断所述各端链路任务的测量结果,每次判断时,若测量结果异常,则定位得到网络瓶颈点、故障点;若测量结果正常,将对应的测量端链路从端链路集合中剔除,各各端链路任务判断完成后得到端链路的所有瓶颈点、故障点。
CN201510211657.7A 2015-04-29 2015-04-29 一种基于分布式自动化测量的性能瓶颈分析方法及装置 Expired - Fee Related CN104935458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510211657.7A CN104935458B (zh) 2015-04-29 2015-04-29 一种基于分布式自动化测量的性能瓶颈分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510211657.7A CN104935458B (zh) 2015-04-29 2015-04-29 一种基于分布式自动化测量的性能瓶颈分析方法及装置

Publications (2)

Publication Number Publication Date
CN104935458A true CN104935458A (zh) 2015-09-23
CN104935458B CN104935458B (zh) 2018-05-29

Family

ID=54122435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510211657.7A Expired - Fee Related CN104935458B (zh) 2015-04-29 2015-04-29 一种基于分布式自动化测量的性能瓶颈分析方法及装置

Country Status (1)

Country Link
CN (1) CN104935458B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108494630A (zh) * 2018-04-02 2018-09-04 郑州云海信息技术有限公司 一种检测数据平面链路性能异常方法
CN109818829A (zh) * 2019-02-27 2019-05-28 广州供电局有限公司 网络数据处理方法、装置、计算机设备和存储介质
CN110233798A (zh) * 2018-03-05 2019-09-13 华为技术有限公司 数据处理方法、装置及系统
CN110380878A (zh) * 2018-04-12 2019-10-25 阿里巴巴集团控股有限公司 链路巡检方法、装置及电子设备
CN110740075A (zh) * 2019-09-06 2020-01-31 北京直真科技股份有限公司 一种以太网聚合链路精细化拨测与质量分析的方法
CN110912746A (zh) * 2019-11-28 2020-03-24 江苏电力信息技术有限公司 基于网络拓扑图的网络链路分析方法
CN114844784A (zh) * 2022-04-11 2022-08-02 桂林电子科技大学 一种可重构扫描网络的拓扑建模方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009070070A1 (en) * 2007-11-27 2009-06-04 Telefonaktiebolaget Lm Ericsson (Publ) Method for measuring network performance using intermediate measurement nodes
CN102082710A (zh) * 2011-01-24 2011-06-01 中兴通讯股份有限公司 网络中节点实现网络拓扑故障检测的方法和系统
CN104270268A (zh) * 2014-09-28 2015-01-07 曙光信息产业股份有限公司 一种分布式系统网络性能分析及故障诊断方法
CN104363142A (zh) * 2014-11-25 2015-02-18 中国人民解放军国防科学技术大学 一种自动化数据中心网络性能瓶颈分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009070070A1 (en) * 2007-11-27 2009-06-04 Telefonaktiebolaget Lm Ericsson (Publ) Method for measuring network performance using intermediate measurement nodes
CN102082710A (zh) * 2011-01-24 2011-06-01 中兴通讯股份有限公司 网络中节点实现网络拓扑故障检测的方法和系统
CN104270268A (zh) * 2014-09-28 2015-01-07 曙光信息产业股份有限公司 一种分布式系统网络性能分析及故障诊断方法
CN104363142A (zh) * 2014-11-25 2015-02-18 中国人民解放军国防科学技术大学 一种自动化数据中心网络性能瓶颈分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
符永铨: "互联网环境下分布式网络延迟测量技术研究", 《中国博士学位论文全文数据库》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110233798B (zh) * 2018-03-05 2021-02-26 华为技术有限公司 数据处理方法、装置及系统
US11855880B2 (en) 2018-03-05 2023-12-26 Huawei Technologies Co., Ltd. Data processing method, apparatus, and system for combining data for a distributed calculation task in a data center network
CN110233798A (zh) * 2018-03-05 2019-09-13 华为技术有限公司 数据处理方法、装置及系统
US11522789B2 (en) 2018-03-05 2022-12-06 Huawei Technologies Co., Ltd. Data processing method, apparatus, and system for combining data for a distributed calculation task in a data center network
CN108494630A (zh) * 2018-04-02 2018-09-04 郑州云海信息技术有限公司 一种检测数据平面链路性能异常方法
CN108494630B (zh) * 2018-04-02 2021-06-25 郑州云海信息技术有限公司 一种检测数据平面链路性能异常方法
CN110380878A (zh) * 2018-04-12 2019-10-25 阿里巴巴集团控股有限公司 链路巡检方法、装置及电子设备
CN109818829A (zh) * 2019-02-27 2019-05-28 广州供电局有限公司 网络数据处理方法、装置、计算机设备和存储介质
CN110740075B (zh) * 2019-09-06 2021-06-22 北京直真科技股份有限公司 一种以太网聚合链路精细化拨测与质量分析的方法
CN110740075A (zh) * 2019-09-06 2020-01-31 北京直真科技股份有限公司 一种以太网聚合链路精细化拨测与质量分析的方法
CN110912746A (zh) * 2019-11-28 2020-03-24 江苏电力信息技术有限公司 基于网络拓扑图的网络链路分析方法
CN114844784A (zh) * 2022-04-11 2022-08-02 桂林电子科技大学 一种可重构扫描网络的拓扑建模方法
CN114844784B (zh) * 2022-04-11 2023-08-08 桂林电子科技大学 一种可重构扫描网络的拓扑建模方法

Also Published As

Publication number Publication date
CN104935458B (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN104935458A (zh) 一种基于分布式自动化测量的性能瓶颈分析方法及装置
CN1925437B (zh) 用于检测网络中状态改变的系统及方法
Chen et al. Tomography-based overlay network monitoring
CN108933694A (zh) 基于拨测数据的数据中心网络故障节点诊断方法及系统
CN107925590B (zh) 分析与网络的一个或更多个部分有关的网络性能的方法和设备
CN101715203B (zh) 一种自动定位故障点的方法和设备
WO2015161872A1 (en) Network tomography through selection of probing paths
CN106569054A (zh) 多卫星异步智能测试系统
CN113411221A (zh) 电力通信网络故障仿真验证方法、装置、设备和存储介质
CN114915546A (zh) 一种停电用户定位方法、装置、设备、介质
CN107147534A (zh) 一种用于电力通信网故障检测的数量优化的探针部署方法
CN116264558A (zh) 云专线质量监测方法、装置、设备以及计算机存储介质
CN101615789A (zh) 广域量测系统追踪状态估计方法
CN109218140A (zh) 一种软件定义部署nfv网络测量系统的方法
CN104363142B (zh) 一种自动化数据中心网络性能瓶颈分析方法
CN101252477B (zh) 一种网络故障根源的确定方法及分析装置
CN110474801A (zh) 基于业务可靠性的电力通信网络故障仿真方法
CN105656662A (zh) 一种故障定位方法及装置
US7646729B2 (en) Method and apparatus for determination of network topology
JP6467365B2 (ja) 故障解析装置、故障解析プログラムおよび故障解析方法
Chai et al. Modeling distributed platforms from application traces for realistic file transfer simulation
Shahraeini et al. Towards an unified dependency analysis methodology for wide area measurement systems in smart grids
CN112235145B (zh) 流量状态检测方法和装置
CN104333491B (zh) 一种巨系统域网络可用性的自动化测试方法及装置
CN107426044B (zh) 一种串线检测方法、装置及操作维护服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180529

Termination date: 20190429