CN105656662B

CN105656662B - 一种故障定位方法及装置

Info

Publication number: CN105656662B
Application number: CN201410742739.XA
Authority: CN
Inventors: 李从娟; 周洪; 李峰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2019-02-12
Anticipated expiration: 2034-12-08
Also published as: CN105656662A

Abstract

本发明实施例提供一种故障定位方法及装置，所述方法包括：网络设备获得节点集合，节点集合包括属于待测网络的N个测量节点；将N个测量节点两两组合，生成第一测量对集合，第一测量对集合包括M个测量对，M个测量对中的每个测量对对应于待测网络中的一条路径，每条路径包括至少一条链路；从第一测量对集合中选取第二测量对集合，第二测量对集合包括L个测量对，L个测量对对应的路径包括N个测量节点之间的所有链路，L<M；向L个测量对发送第一测量报文；接收L个测量对发送的测量结果，测量结果为L个测量对对待测网络的性能进行测量获得的结果；若测量结果表示存在故障，则利用测量结果进行故障定位。如此，有助于提高故障定位的效率。

Description

一种故障定位方法及装置

技术领域

本发明涉及通信技术领域，具体涉及一种故障定位方法及装置。

背景技术

通常，可通过网络性能来评估网络所提供业务的业务质量，一般情况下，如果网络性能好，网络所提供业务的业务质量就高；如果网络性能差，网络所提供业务的业务质量就低。举例来说，网络性能可以为时延、丢包率或可用带宽等参数中的至少一个。

测量网络性能时，可以先结合业务的实际需求，为网络中的每条链路设置一个对应的阈值；然后利用网络性能测量技术，获得所述网络的网络性能测量结果；最后利用测量结果与预设阈值相比较，如果测量结果符合预设阈值的要求，则说明网络性能好。

目前的网络性能测量技术是一种全覆盖型(英文：Full-Mesh)的测量，也就是说，需要测量网络中任意两个相邻测量节点之间的链路性能。举例来说，测量图1所示网络的网络性能时，网络中包括A、B、C、D、E、F、G和H共8个测量节点，需要测量AG、BG、FG、GH、CH、DH和EH共7次。如此方案，导致测量过程中使用大量的测量报文，不仅增大了测量过程对网络传输资源的消耗，还会占用过多的数据通信带宽。另外，以链路为网络性能测量的基本单位，还会限制网络性能测量的效率，特别是在测量节点较多的网络中，测量效率低的问题尤其明显。

发明内容

本发明实施例的故障定位方法及装置，有助于提高故障定位的效率。

为此，本发明实施例提供如下技术方案：

第一方面，提供了一种故障定位方法，所述方法包括：

网络设备获得节点集合，所述节点集合包括属于待测网络的N个测量节点，N为正整数；

所述网络设备将所述N个测量节点两两组合，生成第一测量对集合，所述第一测量对集合包括M个测量对，所述M个测量对中的每个测量对对应于所述待测网络中的一条路径，每条路径包括至少一条链路，M为正整数；

所述网络设备从所述第一测量对集合中选取第二测量对集合，所述第二测量对集合包括L个测量对，所述L个测量对对应的路径包括所述N个测量节点之间的所有链路，L为正整数，L<M；

所述网络设备向所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识；

所述网络设备接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果；

如果所述测量结果表示所述待测网络中存在故障，所述网络设备利用所述测量结果，进行故障定位。

结合第一方面，在第一方面的第一种可能的实现方式中，所述网络设备从所述第一测量对集合中选取第二测量对集合包括：

所述网络设备从所述第一测量对集合中选取第一测量对，将所述第一测量对加入所述第二测量对集合；

所述网络设备获得所述第一测量对对应的第一路径，并从第一链路集合中剔除所述第一路径包括的链路，形成第二链路集合，所述第一链路集合包括所述N个测量节点之间的所有链路；

所述网络设备确定所述第二链路集合是否为空集；

如果确定所述第二链路集合为空集，所述网络设备停止选取所述第二测量对集合。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述网络设备从所述第一测量对集合中选取第一测量对包括：

所述网络设备获得测量对i的测量代价值W_i和测量对i对应的路径所包括的链路的数目E_i，i＝1,2,…,M；

所述网络设备获得测量对i的比值R_i＝E_i/W_i；

所述网络设备选取比值最大的测量对作为所述第一测量对。

结合第一方面的第一种或第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述方法还包括：

如果确定所述第二链路集合不是空集，所述网络设备从所述第一测量对集合中选取第二测量对，将所述第二测量对加入所述第二测量对集合；

所述网络设备获得所述第二测量对对应的第二路径，并从所述第二链路集合中剔除所述第二路径包括的链路，形成第三链路集合；

所述网络设备确定所述第三链路集合是否为空集；

如果确定所述第三链路集合为空集，所述网络设备停止选取所述第二测量对集合。

结合第一方面的第一种至第三种任一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述第一链路集合中的第一链路的测量次数为P，所述从第一链路集合中剔除所述第一路径包括的链路包括：

所述网络设备确定所述第一链路是否属于所述第一路径包括的链路；

如果确定所述第一链路属于所述第一路径包括的链路，所述网络设备记录所述第一链路的获得次数；

所述网络设备确定所述第一链路的获得次数是否为所述P；

如果确定所述第一链路的获得次数为所述P，所述网络设备从所述第一链路集合中剔除所述第一路径包括的链路；

如果确定所述第一链路的获得次数不为所述P，所述网络设备从所述第一链路集合中剔除第二链路，所述第二链路为所述第一路径包括的链路中除所述第一链路之外的剩余链路。

结合第一方面或第一方面的第一种至第四种任一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述网络设备利用所述测量结果，定位所述故障链路包括：

所述网络设备利用所述测量结果确定存在故障的第三路径，所述第三路径属于所述L个测量对对应的路径；

如果所述第三路径包括至少两条链路，所述网络设备获得所述至少两条链路中的每条链路的历史故障概率；

所述网络设备根据所述历史故障概率从所述第三路径上定位故障链路和/或故障测量节点。

第二方面，提供了一种故障定位装置，所述装置包括：

获得单元，用于获得节点集合，所述节点集合包括属于待测网络的N个测量节点，N为正整数；

生成单元，用于将所述获得单元获得的所述N个测量节点两两组合，生成第一测量对集合，所述第一测量对集合包括M个测量对，所述M个测量对中的每个测量对对应于所述待测网络中的一条路径，每条路径包括至少一条链路，M为正整数；

选取单元，用于从所述生成单元生成的所述第一测量对集合中选取第二测量对集合，所述第二测量对集合包括L个测量对，所述L个测量对对应的路径包括所述N个测量节点之间的所有链路，L为正整数，L<M；

发送单元，用于向所述选取单元选取的所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识；

接收单元，用于接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果；

定位单元，用于在所述接收单元接收的所述测量结果表示所述待测网络中存在故障时，利用所述测量结果，进行故障定位。

结合第二方面，在第二方面的第一种可能的实现方式中，所述选取单元包括：

第一选取子单元，用于从所述第一测量对集合中选取第一测量对，将所述第一测量对加入所述第二测量对集合；

第一剔除单元，用于获得所述第一测量对对应的第一路径，并从第一链路集合中剔除所述第一路径包括的链路，形成第二链路集合，所述第一链路集合包括所述N个测量节点之间的所有链路；

第一确定单元，用于确定所述第二链路集合是否为空集；

第一停止选取单元，用于在所述第一确定单元确定所述第二链路集合为空集时，停止选取所述第二测量对集合。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述第一选取子单元包括：

数值获得单元，用于获得测量对i的测量代价值W_i和测量对i对应的路径所包括的链路的数目E_i，i＝1,2,…,M；

比值获得单元，用于利用所述W_i和所述E_i，获得测量对i的比值R_i＝E_i/W_i；

第一测量对选取单元，用于选取比值最大的测量对作为所述第一测量对。

结合第二方面的第一种或第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述装置还包括：

第二选取子单元，用于在所述第一确定单元确定所述第二链路集合不是空集时，从所述第一测量对集合中选取第二测量对，将所述第二测量对加入所述第二测量对集合；

第二剔除单元，用于获得所述第二测量对对应的第二路径，并从所述第二链路集合中剔除所述第二路径包括的链路，形成第三链路集合；

第二确定单元，用于确定所述第三链路集合是否为空集；

第二停止选取单元，用于在所述第二确定单元确定所述第三链路集合为空集时，停止选取所述第二测量对集合。

结合第二方面的第一种至第三种任一种可能的实现方式，在第二方面的第四种可能的实现方式中，所述第一链路集合中的第一链路的测量次数为P，所述第一剔除单元包括：

第三确定单元，用于确定所述第一链路是否属于所述第一路径包括的链路；

记录单元，用于在所述第三确定单元确定所述第一链路属于所述第一路径包括的链路时，记录所述第一链路的获得次数；

第四确定单元，用于确定所述第一链路的获得次数是否为所述P；

第一剔除子单元，用于在所述第四确定单元确定所述第一链路的获得次数为所述P时，从所述第一链路集合中剔除所述第一路径包括的链路；

第二剔除子单元，用于在所述第四确定单元确定所述第一链路的获得次数不为所述P时，从所述第一链路集合中剔除第二链路，所述第二链路为所述第一路径包括的链路中除所述第一链路之外的剩余链路。

结合第二方面或第二方面的第一种至第四种任一种可能的实现方式，在第二方面的第五种可能的实现方式中，所述定位单元包括：

第五确定单元，用于利用所述测量结果确定存在故障的第三路径，所述第三路径属于所述L个测量对对应的路径；

历史故障概率获得单元，用于在所述第五确定单元确定的所述第三路径包括至少两条链路时，获得所述至少两条链路中的每条链路的历史故障概率；

定位子单元，用于根据所述历史故障概率从所述第三路径上定位故障链路和/或故障测量节点。

第三方面，提供了一种用于故障定位设备，所述设备包括：处理器和存储器；

所述存储器，用于存储程序指令和数据；

所述处理器，用于读取所述存储器中存储的程序指令和数据，执行以下操作：

所述处理器获得节点集合，所述节点集合包括属于待测网络的N个测量节点，N为正整数；

所述处理器将所述N个测量节点两两组合，生成第一测量对集合，所述第一测量对集合包括M个测量对，所述M个测量对中的每个测量对对应于所述待测网络中的一条路径，每条路径包括至少一条链路，M为正整数；

所述处理器从所述第一测量对集合中选取第二测量对集合，所述第二测量对集合包括L个测量对，所述L个测量对对应的路径包括所述N个测量节点之间的所有链路，L为正整数，L<M；

所述处理器向所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识；

所述处理器接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果；

如果所述测量结果表示所述待测网络中存在故障，所述处理器利用所述测量结果，进行故障定位。

结合第三方面，在第三方面的第一种可能的实现方式中，所述处理器从所述第一测量对集合中选取第二测量对集合包括：

所述处理器从所述第一测量对集合中选取第一测量对，将所述第一测量对加入所述第二测量对集合；

所述处理器获得所述第一测量对对应的第一路径，并从第一链路集合中剔除所述第一路径包括的链路，形成第二链路集合，所述第一链路集合包括所述N个测量节点之间的所有链路；

所述处理器确定所述第二链路集合是否为空集；

如果确定所述第二链路集合为空集，所述处理器停止选取所述第二测量对集合。

结合第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述处理器从所述第一测量对集合中选取第一测量对包括：

所述处理器获得测量对i的测量代价值W_i和测量对i对应的路径所包括的链路的数目E_i，i＝1,2,…,M；

所述处理器获得测量对i的比值R_i＝E_i/W_i；

所述处理器选取比值最大的测量对作为所述第一测量对。

结合第三方面的第一种或第二种可能的实现方式，在第三方面的第三种可能的实现方式中，所述处理器还执行以下操作：

如果确定所述第二链路集合不是空集，所述处理器从所述第一测量对集合中选取第二测量对，将所述第二测量对加入所述第二测量对集合；

所述处理器获得所述第二测量对对应的第二路径，并从所述第二链路集合中剔除所述第二路径包括的链路，形成第三链路集合；

所述处理器确定所述第三链路集合是否为空集；

如果确定所述第三链路集合为空集，所述处理器停止选取所述第二测量对集合。

结合第三方面的第一种至第三种任一种可能的实现方式，在第三方面的第四种可能的实现方式中，所述第一链路集合中的第一链路的测量次数为P，所述处理器从第一链路集合中剔除所述第一路径包括的链路包括：

所述处理器确定所述第一链路是否属于所述第一路径包括的链路；

如果确定所述第一链路属于所述第一路径包括的链路，所述处理器记录所述第一链路的获得次数；

所述处理器确定所述第一链路的获得次数是否为所述P；

如果确定所述第一链路的获得次数为所述P，所述处理器从所述第一链路集合中剔除所述第一路径包括的链路；

如果确定所述第一链路的获得次数不为所述P，所述处理器从所述第一链路集合中剔除第二链路，所述第二链路为所述第一路径包括的链路中除所述第一链路之外的剩余链路。

结合第三方面或第一方面的第一种至第四种任一种可能的实现方式，在第三方面的第五种可能的实现方式中，所述处理器利用所述测量结果，定位所述故障链路包括：

所述处理器利用所述测量结果确定存在故障的第三路径，所述第三路径属于所述L个测量对对应的路径；

如果所述第三路径包括至少两条链路，所述处理器获得所述至少两条链路中的每条链路的历史故障概率；

所述处理器根据所述历史故障概率从所述第三路径上定位故障链路和/或故障测量节点。

本发明实施例的故障定位方法及装置，网络设备将待测网络中的测量节点两两组合，生成第一测量对集合；再根据实际测量需求，从第一测量对集合中选取出第二测量对集合，保证第二测量对集合对测量节点之间的链路覆盖至少一次；网络设备控制第二测量对集合中的每个测量对进行网络性能测量，进而利用测量结果对网络进行故障定位。如此，有助于提高故障定位的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1是一种网络的拓扑结构示意图；

图2是本发明实施例故障定位方法实施例1的流程图；

图3是本发明实施例中选取第二测量对集合的流程图；

图4是本发明实施例故障定位方法实施例2的流程图；

图5是本发明实施例故障定位装置的示意图；

图6是本发明实施例故障定位设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例故障定位方法中的网络设备可以为一台独立的设备；或者，在集中式网络中，网络设备可以为集成了网络设备功能的控制器(英文：Controller)；或者，在分布式网络中，网络设备可以为集成了网络设备功能、且能与管理系统交互的控制类设备，举例来说，控制类设备可以为网元管理系统(英文：Element Management System，简称：EMS)、网络管理系统(英文：Network Management System，简称：NMS)等等；或者，网络设备还可以为共同实现网络设备功能的多台设备，即，将网络设备的功能拆分到所述多台设备上。本发明实施例对网络设备在网络中的存在形式不做具体限定。

参见图2，示出了本发明实施例故障定位方法实施例1的流程图，可包括：

101，网络设备获得节点集合，所述节点集合包括属于待测网络的N个测量节点，N为正整数。

102，所述网络设备将所述N个测量节点两两组合，生成第一测量对集合，所述第一测量对集合包括M个测量对，所述M个测量对中的每个测量对对应于所述待测网络中的一条路径，每条路径包括至少一条链路，M为正整数。

举例来说，本发明实施例中的故障链路，可以为出现传输中断的链路，或者，也可以为性能不满足预设阈值要求的链路，本发明实施例对此可不做具体限定。

进行故障定位时，网络设备可以先获得待测网络对应的节点集合，节点集合包括N个属于待测网络的测量节点。举例来说，测量节点可以路由器或交换机等转发设备，本发明实施例对此可不做具体限定。

参见图1所示待测网络，节点集合包括{A、B、C、D、E、F、G、H}共8个测量节点，即，N＝8。第一链路集合包括{AG、BG、FG、GH、CH、DH、EH}共7条链路。8个测量节点两两组合，确定出的第一测量对集合包括{AB、AC、AD、AE、AF、AG、AH、BC、BD、BE、BF、BG、BH、CD、CE、CF、CG、CH、DE、DF、DG、DH、EF、EG、EH、FG、FH}，共27个测量对，即M＝27。

可选地，本发明实施例中，至少可通过以下两种方式触发网络设备进行故障定位：

方式一，根据业务需求触发网络设备。举例来说，供应商A向华北地区提供某个视频业务，可根据视频业务对网络性能的要求向网络设备发送请求，触发网络设备进行故障定位。举例来说，视频业务对网络性能的要求可为时延不超过20ms。

方式二，根据预设周期触发网络设备。举例来说，可为网络设备预设一个测量周期t，每间隔t网络设备即被触发进行一次故障定位。举例来说，t＝30s。

可选地，针对上述触发网络设备进行故障定位的方式一，向网络设备发送的请求中还可包括业务的应用范围。如上述示例中，应用范围可体现为华北地区。对应于此，在网络设备获得节点集合时，可根据该应用范围进行一次预处理。举例来说，待测网络覆盖华东地区和华北地区，即，待测网络既包括位于华东地区的测量节点，又包括位于华北地区的测量节点，网络设备在获得节点集合时，可以筛除位于华东地区的测量节点，即，节点集合仅包括位于华北地区的测量节点。如此预处理过程，可以缩小故障定位的范围，提高故障定位的效率。

103，所述网络设备从所述第一测量对集合中选取第二测量对集合，所述第二测量对集合包括L个测量对，所述L个测量对对应的路径包括所述N个测量节点之间的所有链路，L为正整数，L<M。

相对全覆盖型测量以链路为基本测量单元，本发明实施例可以将测量节点两两组合为多个测量对，并以测量对对应的路径为基本测量单元，进行网络性能测量，然后再结合路径的性能测量结果，分析路径所包括的链路的性能，实现故障链路的定位。

如上文所做介绍，图1所示待测网络中，第一测量对集合包括27个测量对，27个测量对就对应有27条路径，在以路径为基本测量单元进行网络性能测量时，部分链路会被重复测量。举例来说，测量对AC对应的路径包括链路{AG、GH、CH}，测量对AE对应的路径包括链路{AG、GH、EH}，这两条路径存在两条重复的链路{AG、GH}，也就是说，利用测量对AC进行网络性能测量和利用测量对AE进行网络性能测量，都会测量链路AG和链路GH的性能。基于此，为了提高本发明实施例故障定位的效率，网络设备可以从第一测量对集合中选取出第二测量对集合，并利用第二测量对集合包括的测量对进行网络性能测量。

本发明实施例中，选取出的第二测量对集合至少可满足如下第一条件：覆盖第一链路集合中的每条链路，即，第二测量对集合中的L个测量对对应的路径，应包括第一链路集合中的所有链路，也即，本发明实施例的网络性能测量可涉及到第一链路集合中的每条链路。举例来说，第二测量对集合可以为{AD、BF、CE}，对应于此，网络设备进行3次路径性能测量，即可覆盖第一链路集合中的7条链路，相对全覆盖型测量方案需要进行7次链路性能测量，有助于提高故障定位的效率，还可减少测量过程中使用的测量报文数量，从而降低测量过程对网络传输资源的消耗，减小测量报文占用的数据通信带宽。

对于本发明实施例，从第一测量对集合中选取第二测量对集合的方式，此处暂不详述，具体可参见下文图3处所做介绍。

104，所述网络设备向所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识。

网络设备选取第二测量对集合后，可指示第二测量对集合中的L个测量对进行网络性能测量。举例来说，网络设备可以向L个测量对中的每个测量对发送第一测量报文，以此使每个测量节点知晓本测量节点所属的测量对，并进行网络性能测量。

举例来说，网络设备向L个测量对中的每个测量对发送第一测量报文，可为：网络设备利用广播技术向L个测量对发送第一测量报文。举例来说，针对第二测量对集合{AD、BF、CE}，网络设备发送一次第一测量报文，第一测量报文可包括：测量对AD包括的两个测量节点的身份标识、测量对BF包括的两个测量节点的身份标识、测量对CE包括的两个测量节点的身份标识。举例来说，网络设备可将属于同一测量对的两个测量节点的身份标识写入一个字段，以此使测量节点知晓自身所属测量对。或者，网络设备可为属于同一测量对的两个测量节点设置相同的标志位，以此使测量节点知晓自身所属测量对。本发明实施例对此可不做具体限定，只要能区分开各个测量对即可。

举例来说，网络设备向L个测量对中的每个测量对发送第一测量报文，可为：网络设备利用单播技术向L个测量对发送第一测量报文。举例来说，针对第二测量对集合{AD、BF、CE}，网络设备发送三次第一测量报文，分别为：针对测量对AD发送的第一测量报文，该第一测量报文包括：测量节点A和测量节点D的身份标识；针对测量对BF发送的第一测量报文，该第一测量报文包括：测量节点B和测量节点F的身份标识；针对测量对CE发送的第一测量报文，该第一测量报文包括：测量节点C和测量节点E的身份标识。

举例来说，本发明实施例中测量节点的身份标识可以为测量节点的名字和/或测量节点的地址，其中，测量节点的地址可以为测量节点的MAC地址或者测量节点的IP地址，本发明实施例对此可不做具体限定。

可选地，第一检测报文中还可包括：测量报文的发送频率、测量报文的长度(英文：Lenght)等等，以此来模拟真实的报文传输对网络的影响，本发明实施例对此可不做具体限定。

105，所述网络设备接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果。

第二测量对集合中的测量对接收到第一检测报文后，分别测量各自对应路径的性能。仍以上文所举示例为例，测量对AD可以测量链路AG、GH和DH构成的路径的性能，并将测量结果发送至网络设备；测量对BF可以测量链路BG和FG构成的路径的性能，并将测量结果发送至网络设备；测量对CE可以测量链路CH和EH构成路径的性能，并将测量结果发送至网络设备。

以测量对AD测量路径的时延性能为例，测量节点A向测量节点D发送时延测量报文，并记录发送时间戳；对应地，测量节点D接收时延测量报文，并记录接收时间戳；然后计算发送时间戳与接收时间戳的差值，获得链路AG、GH和DH构成的路径的时延值；最后将该时延值作为测量结果发送至网络设备。可选地，时延测量报文也可由测量节点D发送至测量节点A，并进行性能测量；或者，时延测量报文也可在测量节点A和D之间相互发送，并进行性能测量，本发明实施例对测量路径性能的方案可不做具体限定。可选地，测量结果可以为上文所举示例中的时延值，即，测量节点A或者测量节点D计算出时延值反馈给网络设备；或者，测量结果也可以为发送时间戳和接收时间戳，即，测量节点A和测量节点D不进行时延值计算，可由网络设备根据发送时间戳和接收时间戳自行计算时延值。可选地，如果测量结果为时延值，则时延值可以由测量节点A计算，或者由测量节点D计算，或者由测量节点A和测量节点D计算，本发明实施例对此可不做具体限定。可选地，本发明实施例中的时延性能，可以通过单向延时测量方案获得，也可通过双向延时(英文：Round Trip Time，简称：RTT)测量方案获得，本发明实施例对此亦可不做具体限定。

106，如果所述测量结果表示所述待测网络中存在故障，所述网络设备利用所述测量结果，进行故障定位。

网络设备接收到L个测量对发送的测量结果，可根据测量结果确定哪些测量对对应的路径存在故障，进而定位故障链路和/或故障测量节点。

以检测网络的时延性能来定位故障为例。举例来说，测量对AD发送的测量结果为时延值T1₁＝13ms，若测量对AD对应的路径要求时延不高于预设时延值T1₀＝15ms，T1₁符合T1₀的要求，网络设备根据该测量结果可确定测量对AD对应的路径不存在故障，进而确定链路AG、GH和DH不属于故障链路，测量节点A、G、H和D不属于故障测量节点。测量对BF发送的测量结果为时延值T2₁＝15ms，若测量对BF对应的路径要求时延不高于预设时延值T2₀＝20ms，T2₁符合T2₀的要求，网络设备根据该测量结果可确定测量对BF对应的路径不存在故障，进而确定链路BG和FH不属于故障链路，测量节点B、G和F不属于故障测量节点。测量对CE发送的测量结果为时延值T3₁＝15ms，若测量对CE对应的路径要求时延不高于预设时延值T3₀＝10ms，T3₁不符合T3₀的要求，网络设备根据该测量结果可确定测量对CE对应的路径存在故障。

本发明实施例中，路径存在故障，可能是所述路径包括的链路存在故障；或者，也可能是所述路径包括的测量节点存在故障；或者，还可能是所述路径包括的链路和测量节点均存在故障，故，本发明实施例在确定路径存在故障时，可对路径包括的链接和/或测量节点进行故障定位。

举例来说，网络设备确定测量对CE对应的路径存在故障后，至少可按照以下方式进行故障定位：

方式一，将测量对CE对应的路径所包括的链路CH和EH均定位为故障链路，和/或，将测量对CE对应的路径上的测量节点C和E均定位为故障测量节点。需要说明的是，通过测量对AD的测量结果可知，测量节点H不属于故障测量节点，故可在测量节点故障定位时，排除测量节点H。

方式二，网络设备获得链路CH和EH的历史故障概率，利用最大似然估计法，将历史故障概率相对较高的链路定位为故障链路，和/或，将所述故障链路对应的测量节点定位为故障测量节点。举例来说，链路CH的历史故障概率为0.005，链路EH的历史故障概率为0.01，网络设备可定位链路EH为故障链路，和/或，将链路EH对应的测量节点E定位为故障测量节点。

方式三，网络设备获得链路CH和EH的历史故障概率，利用贝叶斯估计法计算每条链路的当前故障概率，将当前故障概率相对较高的链路定位为故障链路，和/或，将所述故障链路对应的测量节点定位为故障测量节点。

举例来说，本发明实施例中，历史故障概率可以为链路在最近预设时间段内出现故障的概率。

可选地，网络设备进行故障定位后，可存储故障链路的标识和/或故障测量节点的标识，以便其它业务需求触发网络设备，对相同待测网络进行故障定位时，网络设备可直接将存储的故障链路的标识和/或故障测量节点的标识反馈给所述其它业务需求，有助于提高本发明实施例故障定位的效率。可选地，为了保证网络设备直接反馈故障链路的标识和/或故障测量节点的标识的准确性，还可设置一个有效时限，从网络设备定位并存储故障链路的标识和/或故障测量节点的标识开始计时，若所述其它业务需求触发网络设备时未超出所述有效时限，网络设备则可直接将存储的故障链路的标识和/或故障测量节点的标识反馈给所述其它业务需求；若所述其它业务需求触发网络设备时已超出了所述有效时限，网络设备则可按照图2所示方案进行故障定位，本发明实施例对此可不做具体限定。

可选地，利用路径测量结果分析获得链路性能后，还可进一步分析获得第一测量对集合中剩余测量对所对应路径的性能。第一测量对集合中剩余测量对为(M-L)个，网络设备可结合获得的每条链路的性能，分析(M-L)个测量对对应的(M-L)条路径的性能。

可选地，网络设备进行故障定位后，还可根据故障定位结果更新链路的历史故障概率，以备后续进行故障定位时使用，保证后续故障定位的准确性。

参见图3，示出了本发明实施例中选取第二测量对集合的流程图，可包括：

201，所述网络设备从所述第一测量对集合中选取第一测量对，将所述第一测量对加入所述第二测量对集合。

举例来说，网络设备可从第一测量对集合中任选一个测量对，作为第一测量对。或者，为了使选取出的第二测量对集合还满足如下第二条件：测量代价值尽量小，网络设备还可按照以下方式选取第一测量对：

所述网络设备获得测量对i的测量代价值W_i和测量对i对应的路径所包括的链路的数目E_i，i＝1,2,…,M；所述网络设备获得测量对i的比值R_i＝E_i/W_i；所述网络设备选取比值最大的测量对作为所述第一测量对。如此方式选出的第一测量对，包括的链路数目较多，且测量代价值较小。

举例来说，本发明实施例中，测量代价值可以理解为测量对对应的路径的长度，路径长则代价值大，路径短则代价值小。作为一种示例，路径的长度可以体现为测量对之间间隔的测量节点个数。或者，测量代价值可以理解为测量对包括的测量节点所承载的负载数量，负载数量多则代价值大，负载数量少则代价值小。或者，测量代价值可以理解为测量对包括的测量节点在网络中所起的作用，作用重则代价值大，作用轻则代价值小。作为一种示例，在网络中所起的作用可以体现为测量节点能实现的作用、测量节点对通信质量或其它节点的影响程度，等等，本发明实施例对此可不做具体限定。

202，所述网络设备获得所述第一测量对对应的第一路径，并从第一链路集合中剔除所述第一路径包括的链路，形成第二链路集合，所述第一链路集合包括所述N个测量节点之间的所有链路。

203，所述网络设备确定所述第二链路集合是否为空集。

204，如果确定所述第二链路集合为空集，所述网络设备停止选取所述第二测量对集合。

结合上文选取第二测量对集合的第一条件，第二测量对可以对每条链路只覆盖一次，也可对某些链路覆盖多次，具体可根据实际测量需求而定，本发明实施例对此可不做具体限定。

(1)针对覆盖一次的场景。

网络设备选出第一测量对后，可获得第一测量对对应的第一路径包括的所有链路，并将所述所有链路从第一链路集合中剔除。本发明实施例中，将链路从第一链路集合中剔除可以理解为，在本次选取第二测量对集合的过程中，该链路不再作为备选对象，并非将该链路永久地从第一链路集合中删除。

举例来说，第一链路集合包括{AG、BG、FG、GH、CH、DH、EH}，网络设备选出的第一测量对为AD，第一测量对AD可覆盖链路AG、GH和DH，从第一链路集合中剔除第一测量对AD覆盖的链路后，第二链路集合包括{BG、FG、CH、EH}。

网络设备获得第二链路集合后，可判断第二链路集合是否为空集。如果第二链路集合为空集，则说明将第一测量对添加到第二测量对集合后，第二测量对集合已满足第一条件的要求，能覆盖第一链路集合中的每条链路。网络设备可以停止选取第二测量对。如果第二链路集合不是空集，则说明将第一测量对添加到第二测量对集合后，第二测量对集合仍不满足第一条件的要求，网络设备可继续从第一测量对集合剩余的测量对中选取第二测量对，并将第二测量对添加到第二测量对集合，并相应地从第二链路集合中剔除第二测量对对应的第二路径所包括的所有链路，继续判断获得的第三链路集合是否为空集，如此循环往复，直至第二测量对集合满足第一条件为止，此处不再赘述。

可选地，网络设备获得第二链路集合后，除可判断第二链路集合是否为空集之外，还可判断第一测量对集合中是否还存在未被选取的测量对。如果第二链路集合为空集，或者，第一测量对集合中不存在未被选取的测量对，网络设备可以停止选取第二测量对。

(2)针对覆盖多次的场景。

针对覆盖一次的场景，网络设备获得第一路径包括的所有链路后，可直接将所述所有链路从第一链路集合中剔除，针对覆盖多次的场景来说，网络设备获得第一路径包括的所有链路后，可执行以下处理：所述网络设备确定第一链路是否属于所述第一路径包括的链路，所述第一链路为要求覆盖P次的链路；如果确定所述第一链路属于所述第一路径包括的链路，所述网络设备记录所述第一链路的获得次数；所述网络设备确定所述第一链路的获得次数是否为所述P；如果确定所述第一链路的获得次数为所述P，所述网络设备从所述第一链路集合中剔除所述第一路径包括的链路；如果确定所述第一链路的获得次数不为所述P，所述网络设备从所述第一链路集合中剔除第二链路，所述第二链路为所述第一路径包括的链路中除所述第一链路之外的剩余链路。

举例来说，第一链路集合中的链路GH要求覆盖3次，即P_GH＝3；链路DH要求覆盖2次，即P_DH＝2。网络设备获得第一测量对AD后，获得第一测量对AD覆盖的链路AG、GH和DH。网络设备记录链路GH的获得次数为1，不满足P_GH＝3的覆盖要求，暂时不可从第一链路集合中剔除链路GH；网络设备记录链路DH的获得次数为1，不满足P_DH＝2的覆盖要求，暂时不可从第一链路集合中剔除链路DH；网络设备记录链路AG的获得次数为1，已满足链路AG的覆盖要求，可将链路AG从第一链路集合中剔除。如此，获得的第二链路集合包括{BG、FG、GH、CH、DH、EH}。

可选地，网络设备选取出的第二测量对为测量对BD，该测量对覆盖的链路为BG、GH和DH。网络设备记录链路GH的获得次数为2，不满足P_GH＝3的覆盖要求，暂时不可从第二链路集合中剔除链路GH；网络设备记录链路DH的获得次数为2，已满足P_DH＝2的覆盖要求，可将链路DH从第二链路集合中剔除。如此，获得的第三链路集合包括{BG、FG、GH、CH、EH}。循环往复，直至第二测量对集合满足第一条件和覆盖次数的要求为止，此处不再赘述。

可选地，针对覆盖多次的场景，本发明实施例中，网络设备还可按照以下方式进行故障定位：

举例来说，第二测量对集合中至少包括测量对AD和BD，若测量结果表示测量对BD对应的路径不存在故障，则可确定链路BG、GH和DH不属于故障链路；若测量结果表示测量对AD对应的路径存在故障，考虑到测量对AD对应的路径包括链路AG、GH和DH，且链路GH和DH不属于故障链路，故网络设备可定位链路AG为故障链路。

举例来说，第二测量对集合中至少包括测量对AD和BD，若测量结果表示测量对BD对应的路径不存在故障，则可确定测量节点B、G、H和D不属于故障测量节点；若测量结果表示测量对AD对应的路径存在故障，考虑到测量对AD对应的路径包括测量节点A、G、H和D，且测量节点G、H和D不属于故障测量节点，故网络设备可定位测量节点A为故障测量节点。

参见图4，示出了本发明实施例故障定位方法实施例2的流程图，可包括：

301，网络设备获得节点集合，所述节点集合包括属于待测网络的N个测量节点，N为正整数。

302，所述网络设备将所述N个测量节点两两组合，生成第一测量对集合，所述第一测量对集合包括M个测量对，所述M个测量对中的每个测量对对应于所述待测网络中的一条路径，每条路径包括至少一条链路，M为正整数。

303，所述网络设备从所述第一测量对集合中选取第二测量对集合，所述第二测量对集合包括L个测量对，所述L个测量对对应的路径包括所述N个测量节点之间的所有链路，L为正整数，L<M。

304，所述网络设备向所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识。

305，所述网络设备接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果。

306，如果所述测量结果表示所述待测网络中存在故障，所述网络设备利用所述测量结果，进行故障定位，确定故障链路和/或故障测量节点。

本实施例中301～306的实现过程可参照上文图2所示101～106，此处不再赘述。

307，对应于所述故障链路，所述网络设备获得第一校验结果，并根据所述第一校验结果确定所述故障链路是否存在故障，所述第一校验结果为对所述故障链路的性能进行测量获得的结果。

308，对应于所述故障测量节点，所述网络设备获得第二校验结果，并根据所述第二校验结果确定所述故障测量节点是否存在故障，所述第二校验结果为对所述故障测量节点的性能进行测量获得的结果。

为了提高本发明实施例定位故障链路的准确性，网络设备根据301～306进行故障定位后，还可进一步执行校验处理过程，获得所述故障链路的第一校验结果，并根据所述第一校验结果，判断本发明实施例根据路径测量结果分析链路性能的准确性。或者，网络设备还可获得所述故障测量节点的第二校验结果，并根据所述第二校验结果，判断本发明实施例根据路径测量结果分析测量节点性能的准确性。

以获得第一校验结果为例，本发明实施例中，网络设备至少可通过以下两种方式获得第一校验结果：

方式一，网络设备可以读取管理系统记录的结果，并将该记录的结果作为本发明实施例中的第一校验结果。举例来说，管理系统可以为网管系统，或者为应用层流量优化(英文：Application Layer Traffic Optimization，简称：ALTO)系统，本发明实施例对此可不做具体限定。

方式二，网络设备构造测量报文，利用测量报文实测故障链路的性能。举例来说，仍以图2所示实施例中检测网络的时延性能为例，如果网络设备定位出的故障链路为EH，网络设备可指示测量对EH进行链路性能测量。举例来说，测量节点E向测量节点H发送时延测量报文，并记录发送时间戳，对应地，测量节点H接收时延测量报文，并记录接收时间戳，作为一种示例，测量节点H可计算发送时间戳与接收时间戳的差值，获得链路EH的时延值，并将该时延值作为第一校验结果发送至网络设备。

网络设备获得第一校验结果后，可根据第一校验结果验证网络设备在306中定位的故障链路是否正确。如果第一校验结果表示链路EH不满足该链路的预设时延值的要求，即链路EH确实存在故障，则说明网络设备在306中故障链路定位正确；如果第一校验结果表示链路EH满足该链路的预设时延值的要求，即链路EH不存在故障，则说明网络设备在306中故障链路定位错误，网络设备可进行更正处理。举例来说，网络设备可以在校验306定位的故障链路之后，再将定位正确的故障链路的标识存储在网络设备中。

举例来说，本发明实施例方案可以应用于4K视频部署场景，4K视频一般指分辨率可以达到3840×2160的视频。通常，为了保证4K视频在网络中无误传输，部署4K视频的网络至少应具备如下性能：带宽不小于60Mbps，丢包率不大于5.6*10^-7，RTT不大于35ms。一旦网络性能达不到上述要求，就可能影响4K视频的无误传输，进而影响用户观看视频的质量，因此，在部署4K视频之前，可利用本发明实施例图2、4所示方案检测部署4K视频的网络的性能，定位出不能满足上述要求的故障链路，进而通过优化故障链路或规避故障链路的方式，实现4K视频的无误传输。具体故障链路的定位过程可参见上文所做介绍，此处不再赘述。需要说明的是，本示例中部署4K视频的网络即为本发明实施例中的待测网络。

与图2所示方法相对应地，本发明实施例还提供了一种故障定位装置，参见图5所示示意图，所述装置可包括：

获得单元401，用于获得节点集合，所述节点集合包括属于待测网络的N个测量节点，N为正整数；

生成单元402，用于将所述获得单元获得的所述N个测量节点两两组合，生成第一测量对集合，所述第一测量对集合包括M个测量对，所述M个测量对中的每个测量对对应于所述待测网络中的一条路径，每条路径包括至少一条链路，M为正整数；

选取单元403，用于从所述生成单元生成的所述第一测量对集合中选取第二测量对集合，所述第二测量对集合包括L个测量对，所述L个测量对对应的路径包括所述N个测量节点之间的所有链路，L为正整数，L<M；

发送单元404，用于向所述选取单元选取的所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识；

接收单元405，用于接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果；

定位单元406，用于在所述接收单元接收的所述测量结果表示所述待测网络中存在故障时，利用所述测量结果，进行故障定位。

本发明实施例的故障定位装置，可以集成在网络设备中，应用于上文图2所示方法实施例中，实现其中网络设备的功能。在需要进行故障定位时，可以将测量节点两两组合，生成第一测量对集合，再根据实际测量需求，从第一测量对集合中选取出第二测量对集合，并保证第二测量对集合对测量节点之间的链路覆盖至少一次。然后再控制第二测量对集合中的每个测量对进行网络性能测量，并根据测量结果对网络进行故障定位。如此方案，有助于提高故障定位的效率。

可选地，所述选取单元包括：

第一确定单元，用于确定所述第二链路集合是否为空集；

可选地，所述第一选取子单元包括：

可选地，所述装置还包括：

第二确定单元，用于确定所述第三链路集合是否为空集；

可选地，所述第一链路集合中的第一链路的测量次数为P，所述第一剔除单元包括：

可选地，所述定位单元包括：

在上述可选方案中，本发明实施例故障定位装置可以实现的附加功能，请参照方法实施例中对网络设备附加功能的描述，这里不再赘述。

另外，上述实施例提供的故障定位装置在进行故障定位时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

与图2所示方法相对应地，本发明实施例还提供了一种故障定位设备500，参见图6所示示意图，所述设备可包括：处理器501、存储器502、网络接口503、总线系统504。

所述总线系统504，用于连接上述处理器501、存储器502和网络接口503。

所述网络接口503，用于实现设备与其它网络设备之间的通信连接。所述网络接口503可以由光收发器，电收发器，无线收发器或其任意组合实现。例如，光收发器可以是小封装可插拔(英文：small form-factor pluggable transceiver，缩写：SFP)收发器(英文：transceiver),增强小封装可插拔(英文：enhanced small form-factor pluggable，缩写：SFP+)收发器或10吉比特小封装可插拔(英文：10Gigabit small form-factor pluggable，缩写：XFP)收发器。电收发器可以是以太网(英文：Ethernet)网络接口控制器(英文：network interface controller，缩写：NIC)。无线收发器可以是无线网络接口控制器(英文：wireless network interface controller，缩写：WNIC)。

所述存储器502，用于存储程序指令和数据。所述存储器502可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器还可以包括上述种类的存储器的组合。

所述处理器501是中央处理器(英文：central processing unit，缩写：CPU)，也可以是CPU和硬件芯片的组合。上述硬件芯片可以是以下一种或多种的组合：专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)以及网络处理器(英文：networkprocessor，缩写：NP)。所述处理器501，用于读取所述存储器502中存储的程序指令和数据，执行以下操作：

所述处理器通过所述网络接口向所述L个测量对发送第一测量报文，所述第一测量报文包括所述L个测量对中的每个测量对所包括的测量节点的身份标识；

所述处理器通过所述网络接口接收所述L个测量对发送的测量结果，所述测量结果为所述L个测量对对所述待测网络的性能进行测量获得的结果；

可选地，所述处理器从所述第一测量对集合中选取第二测量对集合包括：

所述处理器确定所述第二链路集合是否为空集；

可选地，所述处理器从所述第一测量对集合中选取第一测量对包括：

所述处理器获得测量对i的比值R_i＝E_i/W_i；

所述处理器选取比值最大的测量对作为所述第一测量对。

可选地，所述处理器还用于执行以下操作：

所述处理器确定所述第三链路集合是否为空集；

可选地，所述第一链路集合中的第一链路的测量次数为P，所述处理器从第一链路集合中剔除所述第一路径包括的链路包括：

所述处理器确定所述第一链路的获得次数是否为所述P；

可选地，所述处理器利用所述测量结果，定位所述故障链路包括：

附图6所示的故障定位设备的实现细节，请参考前面附图2所示的方法实施例中的描述，此处不再赘述。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，简称：ROM)、RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备)执行本发明各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置及设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的可选实施方式，并非用于限定本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种故障定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述网络设备从所述第一测量对集合中选取第二测量对集合包括：

所述网络设备确定所述第二链路集合是否为空集；

3.根据权利要求2所述的方法，其特征在于，所述网络设备从所述第一测量对集合中选取第一测量对包括：

所述网络设备获得测量对i的比值R_i＝E_i/W_i；

所述网络设备选取比值最大的测量对作为所述第一测量对。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

所述网络设备确定所述第三链路集合是否为空集；

5.根据权利要求2或3所述的方法，其特征在于，所述第一链路集合中的第一链路的测量次数为P，所述从第一链路集合中剔除所述第一路径包括的链路包括：

所述网络设备确定所述第一链路的获得次数是否为所述P；

6.根据权利要求1～3任一项所述的方法，其特征在于，所述网络设备利用所述测量结果，定位所述故障链路包括：

7.一种故障定位装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述选取单元包括：

第一确定单元，用于确定所述第二链路集合是否为空集；

9.根据权利要求8所述的装置，其特征在于，所述第一选取子单元包括：

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

第二确定单元，用于确定所述第三链路集合是否为空集；

11.根据权利要求8或9所述的装置，其特征在于，所述第一链路集合中的第一链路的测量次数为P，所述第一剔除单元包括：

12.根据权利要求7～9任一项所述的装置，其特征在于，所述定位单元包括：