CN110601888B - 一种时间敏感网络中确定性故障检测与定位方法及系统 - Google Patents

一种时间敏感网络中确定性故障检测与定位方法及系统 Download PDF

Info

Publication number
CN110601888B
CN110601888B CN201910851512.1A CN201910851512A CN110601888B CN 110601888 B CN110601888 B CN 110601888B CN 201910851512 A CN201910851512 A CN 201910851512A CN 110601888 B CN110601888 B CN 110601888B
Authority
CN
China
Prior art keywords
detection
fault
switch
link
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910851512.1A
Other languages
English (en)
Other versions
CN110601888A (zh
Inventor
赵曦滨
高跃
万海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910851512.1A priority Critical patent/CN110601888B/zh
Publication of CN110601888A publication Critical patent/CN110601888A/zh
Application granted granted Critical
Publication of CN110601888B publication Critical patent/CN110601888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/126Shortest path evaluation minimising geographical or physical path length
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/38Flow based routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/555Error detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本说明书公开一种时间敏感网络中确定性故障检测与定位方法及系统,该方法包括:获取时间敏感网络中的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径;根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,以使得所述时间敏感网络中的交换机按照所述调度表中对应的时刻发送探测流;接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置。采用说明书提供的方案,能够降低故障检测和定位的时间不确定性,达到实时检测网络故障、保障全网络拓扑时效性的目的。

Description

一种时间敏感网络中确定性故障检测与定位方法及系统
技术领域
本说明书涉及工业控制中的时间敏感网络领域,具体而言,涉及一种时间敏感网络中确定性故障检测与定位方法及系统。
背景技术
随着工业网络技术的发展,确定性传输已成为工业控制中的关键技术之一。时间敏感网络(Time-Sensitive Network,TSN)作为提供可靠确定性传输的代表,正在被业界采纳、并将成为标准化的工业网络通信技术。时间敏感网络主要通过时间同步和实时数据调度来保证可靠的确定性传输,时间同步机制由802.1AS标准实现,实时数据调度由802.1Qbv标准实现。全局统一的时间和预先规划的调度表保证了在规定的时间内进行消息转发,确保了实时数据流端到端的确定性时延,使关键性任务和非关键性任务的传输时间能在同一个网络中收敛,达到了可靠确定性传输的目的。
为保证复杂工况下的可靠确定性传输,时间敏感网络必须提供实时、可靠的网络调度策略,网络调度的计算则依靠全局的网络拓扑。网络故障引发的网络拓扑变化可能导致调度策略不再适用。为了避免严重的丢包造成重大损失,必须实时的监控网络连接状态,实时发现故障连接并重新规划调度。
因此,故障检测时间的确定性是维持动态网络确定性传输的关键。现有网络中的故障检测方法均是将故障检测和定位分开,即检测到故障存在时启动程序进行迭代定位故障点。由于普通网络本身传输的不确定性,再加上迭代的次数不定,造成现有机制不能满足实时检测和定位故障。
发明内容
本说明书提供一种时间敏感网络中确定性故障检测与定位方法及系统,用以克服现有技术中存在的至少一个技术问题。
为了实现上述目的,本说明书实施例提供一种时间敏感网络中确定性故障检测与定位方法,适于在时间敏感网络中的控制器上执行,包括:获取时间敏感网络中的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径:将获取的所述全局网络拓扑进行点边转换构建新的拓扑结构,将新的拓扑结构作为最小流覆盖问题的模型,根据启发式算法求解最少流覆盖问题的模型求得最小代价树,将位于所述最小代价树的单儿子节点和叶子节点处的交换机作为初始发送探测流的交换机,将所述最小代价树中的初始发送探测流的交换机到控制器的路径作为对应的探测流路径;根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,以使得所述时间敏感网络中的交换机按照所述调度表中对应的时刻发送探测流;接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置:生成一个用二位数组表示的故障表,所述故障表的第j行第i列元素表示第j个初始发送探测流的交换机发送的探测流经过第i条链路的情况,将每条初始发送探测流的交换机发送的探测流流过的链路对应在故障表中的元素初始化为1,其表示每个探测流均能正常流过对应的探测流路径所包含的全部链路,i、j均为正整数,将每个探测流未经过的链路对应在故障表中的元素置为无效元素,记录所有初始发送探测流的交换机发送的不能正常到达控制器的探测流,并将该未正常到达控制器的探测流对应的探测流路径所包含的所有链路对应在故障表中的元素置为0,其表示该未正常到达控制器的探测流对应的探测流路径所包含的所有链路中包含了故障链路,若故障表的一行中只有一列元素为有效元素,其余为无效元素,则根据该有效元素判断对应的链路的故障情况,若故障表的一行中有多列元素为有效元素,其余为无效元素,并且其余行的相同列中也对应有有效元素,则根据故障表的一行中的多列有效元素以及其余行的相同列有效元素判断对应链路的故障情况。
可选地,根据所述探测流路径生成调度表,包括:根据探测流遵守链路无冲突约束、路径依赖约束、传输时延约束,调用SMT求解器进行求解得到调度表,所述调度表包括:初始发送探测流的交换机发送探测流的时间、每个交换机发送探测流的端口号和该探测流对应到达的交换机的端口号以及探测流到达交换机或控制器的时间。
可选地,在生成调度表时,若至少两个初始发送探测流的交换机对应的探测流路径有重合链路,则在调度表中为对应有重合链路的探测流添加聚合调度约束,以使得具有重合链路的至少两个探测流通过第一个共同通过的交换机时进行聚合:其中,聚合后新的探测流携带有聚合前每条探测流依次经过的交换机端口号以及新的探测流每经过一个交换机所添加的交换机端口号。
可选地,所述接收所述时间敏感网络中的交换机发送的探测流具体包括:接收正常到达的探测流;将接收到的探测流进行解析,获得每个探测流所携带的交换机端口号,根据每个探测流经过的交换机端口号得到对应的链路信息。
可选地,具有重合链路的至少两个探测流通过第一个共同通过的交换机时进行聚合通过以下实现方式中的任意一种来实现:第一种实现方式,根据朴素的信息聚合方式,以使得所有正常到达同一个交换机的探测流所携带的链路信息都储存在新的探测流的数据域中;第二种实现方式,根据基于布隆过滤器的信息聚合方式,以使得所有正常到达同一个交换机的探测流所携带的链路信息通过哈希函数映射,储存到新的探测流的布隆过滤器中。
可选地,将接收到的探测流进行解析,获得每个探测流所携带的交换机端口号,根据每个探测流经过的交换机端口号得到对应的链路信息,包括:根据预设的解析方法对接收到的探测流进行解析;若预设的聚合方式为朴素的信息聚合方式,则根据对应的解析方式对接收到的探测流进行解析,获得储存在该探测流数据域中的所有链路信息;若预设的聚合方式为基于布隆过滤器的信息聚合方式,则根据对应的解析方式对接收到的探测流进行解析,获得储存在该探测流的布隆过滤器中的所有链路信息的映射。
可选地,基于对探测流进行解析后所获得的链路信息,进行故障诊断,包括:若预设的聚合方式为朴素的信息聚合方式,则将获得的储存在该探测流数据域中的所有链路与所述最小代价树中的全部链路进行对比,确定缺少的链路为故障链路;若预设的聚合方式为基于布隆过滤器的信息聚合方式,则根据探测流逆序路径,将每段链路信息按照探测流逆流的顺序在布隆过滤器中查询,确定探测流逆序路径中第一个不在布隆过滤器中的链路为故障链路。
为达到上述目的,本说明书实施例还提供了一种时间敏感网络系统,包括:一个控制器和至少一个交换机,所述控制器包括存储模块,所述存储模块有程序,当所述程序被执行时,所述控制器执行实时的故障检测和定位。
本说明书实施例的有益效果如下:
本说明书实施例通过时间敏感网络中的控制器获取时间敏感网络的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径,进而根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,这样,所述时间敏感网络中的交换机即可按照所述调度表中对应的时刻发送探测流;在控制器端接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置。因此,采用本说明书实施例提供的方案,能够将故障检测和定位结合起来,同时实现故障检测和故障定位,以此来降低故障检测和定位的时间不确定性,达到实时检测网络故障、保障全网络拓扑时效性的目的。
本说明书实施例的创新点包括:
1、基于集中式控制器的时间敏感网络,通过获取时间敏感网络的全局网络拓扑确定该全局网络拓扑的最少流覆盖的探测流路径,并根据该探测流路径生成调度表。控制器根据调度表接收正常到达的探测流,根据探测流的到达状态生成故障表,对故障表进行分析可确定故障链路。利用多条探测流遍历全局网络到达控制器的到达状态,可以对故障进行实时检测和定位,保证了故障检测和定位的时间确定性,保证了网络拓扑的时效性,是本说明书实施例的创新点之一。
2、基于全局拓扑结构确定最少流覆盖的探测流路径,所述最少流覆盖的探测流路径实现了利用最少的探测流历遍整个全局网络,不仅节约了探测流发送成本,还减少了在故障检测和定位时的运算时间,是本说明书实施例的创新点之一。
3、根据所接收到的探测流的到达状态对应生成故障表,并根据故障表定位到故障链路。所述故障表中的每个有效元素代表每个探测流经过每条链路的情况,探测流路径不包含的链路对应在所述故障表中的元素为无效元素,对所述故障表中的有效元素进行分析,可以确定故障链路,从而实现了在故障检测的同时还定位到了故障链路。将故障检测和定位环节合并,在检测的同时即可定位故障链路,保证了故障检测和定位的时间确定性,是本说明书实施例的创新点之一。
4、将经过同一个交换机的多条探测流进行聚合,即把多条探测流的路径信息共同存储在一条探测流的数据域内。控制器将接收到的探测流进行解析后获得数据域内存储的所有路径信息,并根据所述路径信息进行故障检测和定位。通过探测流聚合方法可以降低探测流所占带宽,并且还可以利用到达控制器的探测流所携带的路径信息进行故障检测和定位,解决了探测流过多占用带宽问题的同时还保证了实时的故障检测和定位,是本说明书实施例的创新点之一。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例的时间敏感网络中确定性故障检测与定位方法的流程图;
图2示出了本说明书实施例中集中式控制的时间敏感网络架构示意图;
图3示出了本说明书实施例中确定性故障和定位检测机制执行原理图;
图4示出了本说明书实施例中简易的最小代价树;
图5示出了本说明书实施例中故障检测与定位流程图;
图6示出了本说明书实施例中路径信息聚合的过程示意图;
图7是根据本说明书实施例的时间敏感网络系统的示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
时间敏感网络是一种可以提供可靠确定性传输的工业网络通信技术。时间敏感网络是通过时间同步和实时数据调度来保证可靠的确定性传输,时间敏感网络必须提供实时、可靠的网络调度策略,网络调度计算则依靠全局网络拓扑。网路故障引发的网络拓扑变化可能导致调度策略不再适用。为了避免严重丢包造成的重大损失,必须实时监测网络连接状态,实时发现故障连接并重新规划调度。
实时故障检测和定位的目的是实时监控全局网络拓扑的连接状态,避免因连接发生故障导致的调度策略不适用,从而避免大量数据包的丢失,这样才能保证数据在时间敏感网络中实时、可靠地传输。
时间敏感网络中确定性故障检测和定位的意义在于,可以依靠时间敏感网络的确定性传输,将故障检测和定位环节合并,检测的同时即可定位故障点,降低故障检测和定位的时间不确定性,达到了实时检测网络故障、保证数据传输的时效性和可靠性。
本说明书实施例基于集中式控制的时间敏感网络,通过求解最少流覆盖网络问题,进而对用于故障检测的探测流进行规划,得到探测流路径,将探测流作为实时数据进行调度计算,可以使用聚合调度达到带宽优化的目的,集中式控制器根据探测流周期性到达情况或数据域路径信息,可进行故障检测和定位,以达到时间上的确定性要求。以下结合说明书附图进行详细介绍:
图1是根据本说明书实施例的时间敏感网络中确定性故障检测与定位方法的流程图。如图1所示,根据本说明书实施例的时间敏感网络中确定性故障检测与定位方法,适用于在时间敏感网络中的控制器上执行,包括:
S110,获取时间敏感网络中的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径。得到最少流覆盖的探测流路径可以保证以最少的探测流条数历遍全局网路,节约了成本,并且为后续的故障检测和定位工作提供了较为简单的运算模型,减少了故障检测和定位的运算时间。
在一个具体的实施例中,通过简单网络管理协议SNMP获取时间敏感网络的全局网络拓扑,该协议监控各种网络设备,因此通过该协议能够快速便捷地获取到全局网络拓扑信息。根据所述全局网络拓扑确定最少流覆盖的探测流路径,包括:将获取的所述全局网络拓扑进行点边转换构建新的拓扑结构,将新的拓扑结构作为最小流覆盖问题的模型,进行点边转换后得到以控制器为根节点拓扑结构,并且该拓扑结构更加简单。根据启发式算法求解最少流覆盖问题的模型求得最小代价树,该最小代价树可保证接近最少流覆盖问题的最优解、并保证树高最小。将位于所述最小代价树的单儿子节点和叶子节点处的交换机作为初始发送探测流的交换机,并且将所述最小代价树中的初始发送探测流的交换机到控制器的路径作为对应的探测流路径,所述最小代价树中的探测流路径保证了探测流以最少的个数遍历整个全局网络到达控制器,不仅节约了探测流发送成本,还降低了后续的故障检测和定位的运算量,使检测更加高效的运行。
例如,在具体实施时,将全局网络拓扑看作图G=(V,E),其中V和E分别代表了顶点处的控制器和靠近终端的所有交换机的集合,将图G的边转换成顶点、顶点转换成多条连接边得到新图G’=(V’,E’),其中V’和E’分别代表图G’的顶点和边集合,还有一个与控制器连接的链路顶点V0’。求解最少流覆盖问题就是从图G’中找到一个最小代价树T,最小代价树T是以V0’为根并能够连接图G’中其他的顶点,最小代价是指生成的数据流个数最少,即T的叶子节点数与单儿子节点数之和最小。采用启发式算法中的最短路径树算法求解最少流覆盖问题,以链路V0’为根,并加入队列中,按照宽度优先搜索的方式建立多叉树结构。当队列不为空,则出队节点,将该节点的所有邻边作为该节点的儿子节点,保证儿子节点没有被访问,以及不能和其父节点连续的三个节点在原图中出现三线共点的情况。构建的多叉树即可作为最小代价树,根据所得的最小代价树,分别从叶子节点以及单儿子节点处回溯到根节点即控制器,每一条路径就代表一条探测流路径。
通过以上具体实施例的方法,可保证得到的最小代价树接近最少流覆盖问题的最优解、并保证树高最少,保证了探测流以最少的个数历遍整个全局网络到达控制器,不仅节约了探测流发送成本,还降低了后续的故障检测和定位的运算量,使检测更加高效地运行。
S120,根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,以使得所述时间敏感网络中的交换机按照所述调度表中对应的时刻发送探测流,由于将探测流作为实时数据按照调度表进行调度,因此可以保证故障检测和定位的时间是确定的。
在一个具体实施例中,根据所述探测流路径生成调度表,包括:根据探测流遵守链路无冲突约束、路径依赖约束、传输时延约束,调用SMT求解器进行求解得到调度表,所述调度表包括:初始发送探测流的交换机发送探测流的时间、每个交换机发送探测流的端口号和该探测流对应到达的交换机的端口号以及探测流到达交换机或控制器的时间。在进行调度计算得到调度表后,使用TFTP协议将调度表发送给时间敏感网络中的交换机,调度表是实现探测流实时传输的前提,只有按照调度表上规定的时间接收和发送探测流,才能保证探测流的确定性传输,从而保证故障检测和定位的时间确定性。
例如,在具体实例中,将探测流将作为实时数据进行调度,用F表示所有探测流TT实时数据的集合,其中每一个元素fi∈F,fi表示为{fi.period,fi.length,fi.offset}。其中period和length是已知的TT实时数据的预设值,分别表示探测流的发送周期和帧长度。实时数据调度会对实时数据流路径上的每一段链路[vk,vl]计算偏移量offset,其表示流fi从顶点vk到vl传输时相对于宏周期起始时刻的偏移时间。宏周期是指所有需要调度的实时数据流周期的最小公倍数。调度计算后会给每一个交换机的每一个端口生成两个调度表格,表示对探测流进行发送和接收的调度表。调度配置工具使用TFTP协议将调度表发送给时间敏感网络交换机设备中,使交换机配置的调度表得到自动更新。
S130,接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置,在确定故障的同时还确定了故障的具体位置,实现了故障检测和故障定位一体化,降低了故障检测和定位的时间不确定性。
在一个具体实施例中,根据所接收到的探测流的到达状态,生成一个用二位数组表示的故障表,所述故障表的第j行第i列元素表示第j个初始发送探测流的交换机发送的探测流经过第i条链路的情况,将每条初始发送探测流的交换机发送的探测流流过的链路对应在故障表中的元素初始化为1,其表示每个探测流均能正常流过对应的探测流路径所包含的全部链路,i、j均为正整数,与此同时,将每个探测流未经过的链路对应在故障表中的元素置为无效元素。记录所有初始发送探测流的交换机发送的不能正常到达控制器的探测流,并将该未正常到达控制器的探测流对应的探测流路径所包含的所有链路对应在故障表中的元素置为0,其表示该未正常到达控制器的探测流对应的探测流路径所包含的所有链路中包含了故障链路。若故障表的一行中只有一列元素为有效元素,其余为无效元素,则根据该有效元素判断对应的链路的故障情况;若故障表的一行中有多列元素为有效元素,其余为无效元素,并且其余行的相同列中也对应有有效元素,则根据故障表的一行中的多列有效元素以及其余行的相同列有效元素判断对应链路的故障情况。利用一个周期内探测流的到达状态生成对应的故障表,对故障表进行分析可以确定故障链路,将故障检测与定位相结合,减少了传统网络对故障进行定位时迭代计算所花费的时间,提高了检测效率的同时还能保证检测的时间确定性。
在上述实施例中,通过时间敏感网络中的控制器获取时间敏感网络中的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径,进而根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,这样,所述时间敏感网络中的交换机即可按照所述调度表中对应的时刻发送探测流;在控制器端接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置。因此,通过上述实施例可以使故障检测和定位相结合,保证故障检测和定位的时间确定性,满足当下工业控制网络的需求。
图2示出了本说明书实施例中集中式控制的时间敏感网络架构示意图。本说明书基于集中式控制的时间敏感网络,架构如图2所示。本说明书采用集中式带内控制架构,数据转发平面与控制平面之间共享物理链路,数据平面的交换机少部分与控制平面的控制器直接相连,而部分非直连交换机的控制数据需要通过数据平面的交换网络和控制器交互。集中式控制架构中,控制平面拥有全网的完整拓扑视图,对故障检测十分有利。
图3示出了本说明书实施例中确定性故障和定位检测机制执行原理图。如图3所示,在执行故障和定位检测机制时,需要分成网络初始阶段和网络正常运行阶段两个阶段进行;首先在网络初始化阶段,控制器通过简单网络管理SNMP协议获取了时间敏感网络的全局网络拓扑,并将该全局网络拓扑进行点边转换,构建转换图;将该转换图作为求解最少流覆盖问题的模型,利用启发式算法得到最小代价树;将最小代数中的单儿子节点和叶子节点到根节点的路径规划成探测流路径;把规划好的探测流路径、其他相关约束以及进行聚合优化时的聚合调度约束代入到SMT求解器中求解,生成调度表;把调度配置下载下来,调度配置工具通过TFTP协议把调度表发送给时间敏感网络中的每个交换机设备中,使交换机的调度配置得到自动更新。其次,在网络正常运行阶段,控制器周期性接收来自时间敏感网络中交换机的探测流,并将探测流到达状态或探测流数据域中的内容发送到故障检测与定位程序中;故障检测与定位程序定位故障后立刻将故障上报到用户层;用户层在网络管理软件中显示链路故障报警信息,并通过报警、短信、邮箱等形式迅速通知网管人员,或启动网络容错方案。通过以上步骤可实现实时故障检测与定位,避免了因网络故障发现不及时或补救不及时引发的大量重要控制数据丢失。
图4示出了本说明书实施例中简易的最小代价树。如图4所示,根据该最小代价树来简单介绍如何生成故障表以及进行故障检测和定位:1~4分别为初始发送探测流的交换机的序号,其表示探测流的序号,①~⑥分别为最小代价树中的链路;当只有链路①故障时,探测流1不能正常到达,探测流2能正常到达,对应于故障表中的第一行第一列元素为0,第一行第二列元素为0,第二行第二列元素为1,第一和第二行中的其他元素均为无效元素,若故障表出现以上情况则可判断链路①出现故障;当只有链路②故障时,探测流1和2均不能正常到达,对应于故障表中的第一行第一列元素、第一行第二列元素和第二行第三列元素均为0,第一和第二行中的其他元素均为无效元素,若故障表出现以上情况则可判断链路②出现故障,但不能确定链路①的情况;当只有链路③故障时,探测流3不能正常到达,探测流4能正常到达,对应于故障表中的第三行第三列和第三行第五列元素均为0,第四行第四列和第四行第五列元素均为1,第三行和第四行的其他元素均为无效元素,若故障表出现以上情况,则可判断链路③出现故障;只有链路④故障时,探测流4不能正常到达,探测流3能正常到达,对应于故障表中的第四行第四列和第四行第五列元素均为0,第三行第三列和第三行第五列元素均为1,第三行和第四行的其他元素均为无效元素,若故障表出现以上情况,则可判断链路④出现故障;当只有链路⑤故障时,探测流3和4均不能正常到达,对应于故障表中的第三行第三列元素、第三行第五列元素、第四行第四列元素和第四行第五列元素均为0,第三和第四行中的其他元素均为无效元素,若故障表出现以上情况则判断链路⑤发生故障或者链路③和链路④都发生故障。当只有链路⑥出现故障时,所有的探测流均不能正常到达,其对应于故障表中的有效元素均为0,若故障表出现以上情况则判断链路⑥发生故障,或者链路②和⑤同时发生故障,或者链路①、③和④同时发生故障。根据不同探测流的到达情况对应生成故障表,对故障表加以分析得出故障链路位置,实现了故障检测和定位的结合。
图5示出了本说明书实施例中故障检测与定位流程图。如图5所示,根据接收到的探测流状态,以探测流的标识ID为序,组成流状态的bit码。访问故障表信息判断是否出现故障,出现故障则生成故障报告,并上传到用户层,否则继续周期性的接收探测数据流。利用周期性的接收探测流,可以达到实时故障检测和定位的效果。
由于路径规划后所有链路上的探测流都将通过一条链路到达控制器,这在复杂网络中将导致过多的带宽占用,即控制器与交换机网络连接的链路带宽占用过高。并且在集中式控制的网络中,交换机网络和控制业务交互频繁,探测流负载过高势必会影响其他正常传输业务。因此,需要对探测流的带宽占用进行优化,于是引入了探测流聚合调度的优化方案来减少探测流的带宽占用。在最少流覆盖网络问题的求解中得到一个树结构,路径规划会使探测流流经很多重复链路到达跟节点,而聚合调度是将同时经过一个父节点的来自所有儿子节点的探测流进行聚合,产生一条新的探测流携带路径信息来代替来自所有儿子节点的探测流,新的探测流也必须进行调度计算,保证到达控制器的时间确定性。调度计算时将聚合调度约束加入SMT求解器中求解。使用探测流聚合,必须对交换机程序进行修改,聚合后使探测流携带足够的路径信息,供集中式控制器恢复拓扑诊断故障。通过以下具体实施例来介绍路径信息的聚合过程。
图6示出了本说明书实施例中路径信息聚合的过程示意图。如图6所示,当探测流f3和f4到达交换机S5后,在入端口处将进入的端口分别添加进其数据域,交给报文处理程序处理。在报文处理程序中进行探测流聚合操作,将探测流f3和f4的数据域进行合并,产生新的探测流f’,并选择port3端口转出,在端口port3处把出端口继续添加到f’中发送到链路中,路径信息聚合完成。若在两条探测流中有一条探测流没有按时到达,则在报文处理程序中产生一条空数据域的探测流代替没有按时到达的探测流,进行聚合后转发。其中,朴素的信息聚合方法是将探测流经过的链路信息全部记录在探测流数据域中,使用{sendVid,sendPid,receiveVid,receivePid}的形式表示一条链路的信息,即流在该链路的发送端交换机id、端口号和接收端交换机id、端口号;基于布隆过滤器的信息聚合方法是将探测流路径进行压缩编码,在探测流经过的每个交换机,修改探测流中的布隆过滤器,将交换机id、接收端口recv_port和发生端口send_port进行组合编码,通过哈希函数映射到布隆过滤器中,并进行布隆过滤器的聚合,终传回集中控制器的bit位数组,即是当前探测流路径的压缩编码状态。通过以上两种探测流聚合的优化方案,可降低探测流的带宽占用,提高了本发明的实用性。
在一个具体实施例中,朴素信息聚合方法对应的故障检测和定位方法是,控制器根据接收到的探测流数据域信息,使用预先设定好的解析方法解析出所有的链路信息,将解析得到的链路和最小代价树中的链路进行比较,缺少的链路即是故障链路,在优化探测流带宽的基础上,还保证了故障检测和定位的时间确定性;基于布隆过滤器的信息聚合方法对应的故障检测和定位方法是,根据探测流路径的逆方向,从控制器遍历到源设备,使用交换机id、接收端口recv_port和发生端口send_port组合code在布隆过滤器中进行查询,第一个不在布隆过滤器中的元素即为故障链路,布隆过滤器的压缩编码比朴素的信息聚合方法节省一半的带宽占用,但存在一定的错误概率。
图7是根据本说明书实施例的时间敏感网络的示意图。如图7所示,根据本说明书实施例的时间敏感网路系统700,包括:一个控制器710,至少一个交换机720,所述控制器包括存储模块,所述存储模块有程序,当所述程序被执行时,所述控制器开始故执行上述方法实施例中故障的实时检测和定位方法。
在一个具体实施例中,通过时间敏感网络系统中的控制器获取时间敏感网络中的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径,进而根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,这样,所述时间敏感网络中的交换机即可按照所述调度表中对应的时刻发送探测流;在控制器端接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置。采用本说明书实施例的时间敏感网络系统,实现了实时检测网络故障和定位,保证了全局网络拓扑的时效性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于说明书实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本说明书的技术方案,而非对其限制;尽管参照前述实施例对本说明书进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本说明书实施例技术方案的精神和范围。

Claims (8)

1.一种时间敏感网络中确定性故障检测与定位方法,适于在时间敏感网络中的控制器上执行,其特征在于,包括:
获取时间敏感网络中的全局网络拓扑,根据所述全局网络拓扑确定最少流覆盖的探测流路径:将获取的所述全局网络拓扑进行点边转换构建新的拓扑结构,将新的拓扑结构作为最小流覆盖问题的模型,根据启发式算法求解最少流覆盖问题的模型求得最小代价树,将位于所述最小代价树的单儿子节点和叶子节点处的交换机作为初始发送探测流的交换机,将所述最小代价树中的初始发送探测流的交换机到控制器的路径作为对应的探测流路径;
根据所述探测流路径生成调度表,并将所述调度表发送至所述时间敏感网络中的每个交换机,以使得所述时间敏感网络中的交换机按照所述调度表中对应的时刻发送探测流;
接收所述时间敏感网络中的交换机发送的探测流,并根据所接收到的探测流的到达状态,确定对应的探测流路径包含的链路是否出现故障以及故障链路的具体位置:生成一个用二位数组表示的故障表,所述故障表的第j行第i列元素表示第j个初始发送探测流的交换机发送的探测流经过第i条链路的情况,将每条初始发送探测流的交换机发送的探测流流过的链路对应在故障表中的元素初始化为1,其表示每个探测流均能正常流过对应的探测流路径所包含的全部链路,i、j均为正整数,将每个探测流未经过的链路对应在故障表中的元素置为无效元素,记录所有初始发送探测流的交换机发送的不能正常到达控制器的探测流,并将该未正常到达控制器的探测流对应的探测流路径所包含的所有链路对应在故障表中的元素置为0,其表示该未正常到达控制器的探测流对应的探测流路径所包含的所有链路中包含了故障链路,若故障表的一行中只有一列元素为有效元素,其余为无效元素,则根据该有效元素判断对应的链路的故障情况,若故障表的一行中有多列元素为有效元素,其余为无效元素,并且其余行的相同列中也对应有有效元素,则根据故障表的一行中的多列有效元素以及其余行的相同列有效元素判断对应链路的故障情况;其中,所述链路是指每条探测流路径中相邻交换机或相邻的交换机和控制器之间的路径。
2.根据权利要求1所述的方法,其特征在于,根据所述探测流路径生成调度表,包括:
根据探测流遵守链路无冲突约束、路径依赖约束、传输时延约束,调用SMT求解器进行求解得到调度表,所述调度表包括:
初始发送探测流的交换机发送探测流的时间、每个交换机发送探测流的端口号和该探测流对应到达的交换机的端口号以及探测流到达交换机或控制器的时间。
3.根据权利要求1所述的方法,其特征在于,在生成调度表时,若至少两个初始发送探测流的交换机对应的探测流路径有重合链路,则在调度表中为对应有重合链路的探测流添加聚合调度约束,以使得具有重合链路的至少两个探测流通过第一个共同通过的交换机时进行聚合:
其中,聚合后新的探测流携带有聚合前每条探测流依次经过的交换机端口号以及新的探测流每经过一个交换机所添加的交换机端口号。
4.根据权利要求3所述的方法,其特征在于,所述接收所述时间敏感网络中的交换机发送的探测流具体包括:
接收正常到达的探测流;
将接收到的探测流进行解析,获得每个探测流所携带的交换机端口号,根据每个探测流经过的交换机端口号得到对应的链路信息。
5.根据权利要求3所述的方法,其特征在于,具有重合链路的至少两个探测流通过第一个共同通过的交换机时进行聚合通过以下实现方式中的任意一种来实现:
第一种实现方式:
根据朴素的信息聚合方式,以使得所有正常到达同一个交换机的探测流所携带的链路信息都储存在新的探测流的数据域中;
第二种实现方式:
根据基于布隆过滤器的信息聚合方式,以使得所有正常到达同一个交换机的探测流所携带的链路信息通过哈希函数映射,储存到新的探测流的布隆过滤器中。
6.根据权利要求4所述的方法,其特征在于,将接收到的探测流进行解析,获得每个探测流所携带的交换机端口号,根据每个探测流经过的交换机端口号得到对应的链路信息,包括:
根据预设的解析方法对接收到的探测流进行解析;
若预设的聚合方式为朴素的信息聚合方式,则根据对应的解析方式对接收到的探测流进行解析,获得储存在该探测流数据域中的所有链路信息;
若预设的聚合方式为基于布隆过滤器的信息聚合方式,则根据对应的解析方式对接收到的探测流进行解析,获得储存在该探测流的布隆过滤器中的所有链路信息的映射。
7.根据权利要求6所述的方法,其特征在于,基于对探测流进行解析后所获得的链路信息,进行故障诊断,包括:
若预设的聚合方式为朴素的信息聚合方式,则将获得的储存在该探测流数据域中的所有链路与所述最小代价树中的全部链路进行对比,确定缺少的链路为故障链路;
若预设的聚合方式为基于布隆过滤器的信息聚合方式,则根据探测流逆序路径,将每段链路信息按照探测流逆流的顺序在布隆过滤器中查询,确定探测流逆序路径中第一个不在布隆过滤器中的链路为故障链路。
8.一种时间敏感网络系统,其特征在于,包括一个控制器和至少一个交换机,所述控制器包括存储模块,所述存储模块有程序,当所述程序被执行时,所述控制器执行权利要求1-7中任一项所述的方法。
CN201910851512.1A 2019-09-10 2019-09-10 一种时间敏感网络中确定性故障检测与定位方法及系统 Active CN110601888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910851512.1A CN110601888B (zh) 2019-09-10 2019-09-10 一种时间敏感网络中确定性故障检测与定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910851512.1A CN110601888B (zh) 2019-09-10 2019-09-10 一种时间敏感网络中确定性故障检测与定位方法及系统

Publications (2)

Publication Number Publication Date
CN110601888A CN110601888A (zh) 2019-12-20
CN110601888B true CN110601888B (zh) 2020-11-06

Family

ID=68858560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910851512.1A Active CN110601888B (zh) 2019-09-10 2019-09-10 一种时间敏感网络中确定性故障检测与定位方法及系统

Country Status (1)

Country Link
CN (1) CN110601888B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020236272A1 (en) 2019-05-23 2020-11-26 Cray Inc. System and method for facilitating fine-grain flow control in a network interface controller (nic)
CN112511995B (zh) * 2020-03-30 2024-04-26 中兴通讯股份有限公司 消息交互方法、装置、设备和存储介质
CN113765727B (zh) * 2020-06-03 2023-07-11 深信服科技股份有限公司 一种数据中心网络时延探测方法、装置、设备及介质
CN113300868B (zh) * 2020-07-13 2024-04-30 阿里巴巴集团控股有限公司 故障网络设备节点的定位方法、装置和网络通信方法
CN112653721A (zh) * 2020-08-21 2021-04-13 广州市昇博电子科技有限公司 一种分布式的网络传输与控制方法
EP3962004A1 (en) * 2020-08-27 2022-03-02 ABB Schweiz AG System and method for enabling tsn-stream configuration
CN112165405B (zh) * 2020-10-13 2022-04-22 中国人民解放军国防科技大学 基于网络拓扑结构的超级计算机大数据处理能力测试方法
US12081436B2 (en) * 2020-11-20 2024-09-03 Ge Aviation Systems Llc System and method for a time-sensitive network
CN112866052B (zh) * 2020-12-31 2022-08-05 清华大学 网络链路状态的检测方法、检验矩阵的训练方法和装置
CN112910727B (zh) * 2021-01-20 2022-07-05 中国电子技术标准化研究院 Tsn网络丢包率计算装置、系统及方法
JP2022132862A (ja) * 2021-03-01 2022-09-13 オムロン株式会社 通信方法、通信システムおよびネットワークコントローラ
CN112994947A (zh) * 2021-03-30 2021-06-18 建信金融科技有限责任公司 一种网络运维方法、装置、存储介质及电子设备
CN115208744B (zh) * 2021-04-09 2023-09-26 黑龙江亿林网络股份有限公司 一种多数据中心节点下错误定位方法及其解决方法
CN114039936B (zh) * 2021-10-22 2023-12-26 北京邮电大学 基于时间敏感的虚拟电厂通信业务流量调度方法及装置
CN115801544B (zh) * 2023-01-29 2023-05-23 北京智芯微电子科技有限公司 网络监测方法、设备、系统及存储介质
CN116962143B (zh) * 2023-09-18 2024-01-26 腾讯科技(深圳)有限公司 网络故障检测方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10447543B2 (en) * 2009-06-11 2019-10-15 Talari Networks Incorporated Adaptive private network (APN) bandwith enhancements
CN105721184B (zh) * 2014-12-03 2018-12-07 中国移动通信集团山东有限公司 一种网络链路质量的监控方法及装置
CN105049299B (zh) * 2015-08-27 2018-11-13 北京百度网讯科技有限公司 时延状态信息的检测方法及装置、网络架构
CN107612754B (zh) * 2017-10-30 2021-07-06 新华三技术有限公司 双向转发链路故障检测方法、装置及网络节点设备
CN108616418A (zh) * 2018-03-30 2018-10-02 新华三技术有限公司 检测故障的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Delay sensitive aware distributed data fault recognition algorithm for distributed sensor networks;J. Kirubakaran等;《Peer-to-Peer Networking and Applications》;20190824;第1080-1090页 *

Also Published As

Publication number Publication date
CN110601888A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110601888B (zh) 一种时间敏感网络中确定性故障检测与定位方法及系统
CN111147287B (zh) 一种sdn场景下的网络仿真方法及系统
US7173934B2 (en) System, device, and method for improving communication network reliability using trunk splitting
CN106063195B (zh) 具有单独控制设备和转发设备的网络中的控制设备发现
US8325629B2 (en) System and method for assuring the operation of network devices in bridged networks
CN102474454B (zh) 节点间链路聚合系统和方法
JP4610621B2 (ja) ネットワークシステム
US9515845B2 (en) Utility communication method and system
JP4257509B2 (ja) ネットワークシステム、ノード装置、冗長構築方法、および冗長構築プログラム
CN103069754B (zh) 通信单元、通信系统、通信方法、以及记录介质
CN113938407B (zh) 基于带内网络遥测系统的数据中心网络的故障检测方法及装置
US20070076590A1 (en) Selecting one of multiple redundant network access points on a node within an industrial process control network
CN106209615B (zh) 一种基于spfa算法计算转发路径的动态路由控制方法和系统
CN102394787A (zh) 基于epa交换机的双链路冗余控制方法
CN101764706B (zh) 基于epa网桥的链路冗余控制方法
CN102821050A (zh) 一种快速生成树协议应用于单环网拓扑的处理方法
CN101136921A (zh) 通信装置及通信系统
Waleed et al. Demonstration of single link failure recovery using Bellman Ford and Dijikstra algorithm in SDN
US20090310483A1 (en) Network device and link switching method
CN114500354B (zh) 一种交换机控制方法、装置、控制设备及存储介质
CN104283780A (zh) 建立数据传输路径的方法和装置
Zhang et al. SDN-based resilience solutions for smart grids
KR20180122513A (ko) Sdn 기반 네트워크 가상화 플랫폼의 네트워크 하이퍼바이저에서 트래픽 엔지니어링 방법 및 프레임워크
CN105794156A (zh) 通信系统、通信方法、网络信息组合装置以及网络信息组合程序
CN109167742B (zh) 双归属协议部署系统、方法、装置、交换机和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant