CN116132350A - 一种路径选择方法、装置及存储介质 - Google Patents

一种路径选择方法、装置及存储介质 Download PDF

Info

Publication number
CN116132350A
CN116132350A CN202111332301.0A CN202111332301A CN116132350A CN 116132350 A CN116132350 A CN 116132350A CN 202111332301 A CN202111332301 A CN 202111332301A CN 116132350 A CN116132350 A CN 116132350A
Authority
CN
China
Prior art keywords
path
network
reinforcement learning
learning model
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111332301.0A
Other languages
English (en)
Inventor
王敬宇
郭令奇
庄子睿
周铖
朱艳宏
姚柯翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Beijing University of Posts and Telecommunications
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
Beijing University of Posts and Telecommunications
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, Beijing University of Posts and Telecommunications, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111332301.0A priority Critical patent/CN116132350A/zh
Publication of CN116132350A publication Critical patent/CN116132350A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/22Alternate routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种路径选择方法、装置及存储介质,包括:确定各数据传输路径;从网络收集各数据传输路径的数据;在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。采用本发明,能够自动生成替换路径,从而解决了在维护期间故障仍会导致网络通信的不通畅,甚至会造成网络瘫痪的问题。

Description

一种路径选择方法、装置及存储介质
技术领域
本发明涉及通信技术领域,特别涉及一种路径选择方法、装置及存储介质。
背景技术
随着互联网产业的发展,用户的需求更加多样化,数据流量的大大提高,这对网络性能提出了更高的要求。为了避免网络发生故障,提高用户的使用体验,现有的网络维护技术通常是基于规则对网络状态进行监控,当某些关键网络指标(如时延、丢包率等)发生异常时,由系统发出报警,再由特定的维护人员对网络状态进行维护。
现有技术的不足在于:在维护期间故障仍会导致网络通信的不通畅,甚至会造成网络瘫痪。
发明内容
本发明提供了一种路径选择方法、装置及存储介质,用以解决在维护期间故障仍会导致网络通信的不通畅,甚至会造成网络瘫痪的问题。
本发明提供以下技术方案:
一种路径选择方法,包括:
确定各数据传输路径;
从网络收集各数据传输路径的数据;
在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。
实施中,确定各数据传输路径,是使用路径搜索算法确定各数据传输路径。
实施中,确定各数据传输路径,是使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的数据。
实施中,从网络收集各数据传输路径的数据,是使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的链路时延数据。
实施中,确定网络出现故障,是根据路径的时延确定的。
实施中,根据路径的时延确定网络出现故障,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
实施中,进一步包括:
在网络出现故障时,从网络收集各数据传输路径的数据;
使用收集的网络出现故障时的数据对深度强化学习模型进行选路决策训练。
实施中,通过深度强化学习模型进行选路决策训练,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
实施中,在通过深度强化学习模型进行训练选出路径前,进一步包括:
按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;
在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
实施中,所述预设规则为选择未包含故障链路的路径作为所述临时使用的路径。
实施中,所述预设规则进一步包括:
选择链路总时延最小的路径作为所述临时使用的路径。
一种路径选择装置,包括:
处理器,用于读取存储器中的程序,执行下列过程:
确定各数据传输路径;
从网络收集各数据传输路径的数据;
在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,并用选出的路径替换出现故障的路径以使网络自愈;
收发机,用于在处理器的控制下接收和发送数据。
实施中,确定各数据传输路径,是使用路径搜索算法确定各数据传输路径。
实施中,确定各数据传输路径,是使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的数据。
实施中,从网络收集各数据传输路径的数据,是使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的链路时延数据。
实施中,确定网络出现故障,是根据路径的时延确定的。
实施中,根据路径的时延确定网络出现故障,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
实施中,进一步包括:
在网络出现故障时,从网络收集各数据传输路径的数据;
使用收集的网络出现故障时的数据对深度强化学习模型进行选路决策训练。
实施中,通过深度强化学习模型进行选路决策训练,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
实施中,在通过深度强化学习模型进行训练选出路径前,进一步包括:
按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;
在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
实施中,所述预设规则为选择未包含故障链路的路径作为所述临时使用的路径。
实施中,所述预设规则进一步包括:
选择链路总时延最小的路径作为所述临时使用的路径。
一种路径选择装置,包括:
确定模块,用于确定各数据传输路径;
采集模块,用于从网络收集各数据传输路径的数据;
训练模块,用于在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
路径模块,用于在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。
实施中,确定模块进一步用于使用路径搜索算法确定各数据传输路径。
实施中,确定模块进一步用于使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
实施中,采集模块进一步用于使用测量方法探测网络后收集各数据传输路径的数据。
实施中,采集模块进一步用于使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
实施中,采集模块进一步用于使用测量方法探测网络后收集各数据传输路径的链路时延数据。
实施中,路径模块进一步用于确定网络出现故障,是根据路径的时延确定的。
实施中,路径模块进一步用于在根据路径的时延确定网络出现故障时,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
实施中,训练模块进一步用于在网络出现故障时,从网络收集各数据传输路径的数据;使用收集的网络出现故障时的数据对深度强化学习模型进行选路决策训练。
实施中,训练模块进一步用于在通过深度强化学习模型进行选路决策训练时,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
实施中,路径模块进一步用于在通过深度强化学习模型进行训练选出路径前,按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
实施中,路径模块进一步用于采用选择未包含故障链路的路径作为所述临时使用的路径作为所述预设规则。
实施中,路径模块进一步用于采用选择链路总时延最小的路径作为所述临时使用的路径为所述预设规则。
一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述路径选择方法的计算机程序。
本发明有益效果如下:
现有方案中,仅利用了规则或人工智能的方式对网络状态进行监测,当故障发生时进行报警,之后由专业的运维人员对网络进行维护。然而由于运维人员维修网络的时间成本不足以在要求的时延内修复网络故障,在维护期间故障仍会导致网络通信的不通畅,甚至会造成网络瘫痪。而在本发明实施例提供的技术方案中,由于在确定网络出现故障后,即由深度强化学习模型进行训练后选出路径,用以替换出现故障的路径,由于深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,能够自动生成替换路径,从而解决了在维护期间故障仍会导致网络通信的不通畅,甚至会造成网络瘫痪的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中路径选择方法实施流程示意图;
图2为本发明实施例中基于深度强化学习的网络故障自愈方法流程示意图;
图3为本发明实施例中基于深度强化学习的网络故障自愈实施模块交互流程示意图;
图4为本发明实施例中路径选择装置结构示意图。
具体实施方式
发明人在发明过程中注意到:
现有方案中,仅利用了规则或人工智能的方式对网络状态进行监测,当故障发生时进行报警,之后由专业的运维人员对网络进行维护。由于运维人员维修网络的时间成本不足以在要求的时延内修复网络故障,在维护期间故障仍会导致网络通信的不通畅,甚至会造成网络瘫痪,从而给用户造成不可估量的损失。另一方面,大量且重复的网络故障维护造成了人力资源的浪费。
目前也有方案是将故障感知过程放置在信息采集服务器降低信息采集开销,同时使用强化学习算法构建网络故障诊断模型,再使用信息增益方法进一步优化故障诊断模型,提高了故障诊断精度。
但该方案将重点放在了网络故障的诊断,并没有完成自愈功能。
基于此,本发明实施例提供的技术方案中,将提供一种基于深度强化学习的方案,当网络发生故障时,利用智能选路模块来维护网络正常运行的方案,利用规则进行临时路径的选取,自动规避有故障的节点,保持网络的正常通信,将故障带来的影响降到最低,避免网络的大规模瘫痪,从而满足用户对网络稳定性的需求。此外,由于方案利用规则和深度强化学习的方法来进行网络故障自愈,大大节约了人力资源的成本。
下面结合附图对本发明的具体实施方式进行说明。
图1为路径选择方法实施流程示意图,如图所示,可以包括:
步骤101、确定各数据传输路径;
步骤102、从网络收集各数据传输路径的数据;
步骤103、在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
步骤104、在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。
实施中,在通过深度强化学习模型进行训练后选出路径前,还可以进一步包括:
按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;
在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
实施中,深度强化学习模型进行训练是在网络状态正常的情况下进行的;和/或,
在网络出现故障的情况下进行的。
具体的,可以在网络状态正常的情况下利用深度强化学习模型做出全局最优的选路决策;也可以在出现故障时开始学习有故障节点的网络拓扑中的状态信息。
当网络状态正常时,智能路由选路模块中的深度强化学习模型通过学习网络状态,做出全局最优的选路决策。当故障发生时,智能路由选路模块中的深度强化学习模块由于网络拓扑发生变化需要继续学习网络状态。
在深度强化学习模型第一次学习网络状态时,按一定比例加入一些生成的有故障的网络状态数据。当故障发生后,由于模型之前学习过故障情况下的网络数据,可以大大缩短模型的再学习时间,加快拟合速度,最终代替规则选路策略,由于深度强化学习模型之前训练过程中加入了人工生成的有故障节点的网络拓扑数据,因此在学习真实的故障网络数据会更快收敛。
具体的,本发明实施例提供的技术方案提出的是一种基于深度强化学习的网络故障自愈方案,该方案利用路径搜索算法(如K短路算法)得到数据传输路径,利用测量方法(如三角测量法)探测网络收集数据,在网络状态正常的情况下利用深度强化学习模型做出全局最优的选路决策,在训练深度强化学习模型时,利用了人工生成有故障数据的方法以增强模型的通用性,缩短故障发生后的模型再训练过程。通过网络链路的时延是否有波动来判断网络是否发生故障,当故障发生时,深度强化学习不足以立刻学习到新的网络状态,则利用规则选出临时路径,同时再训练深度强化学习模型,最终由深度强化学习模型做出的选路决策替代临时路径。
对于深度强化学习模型,深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,深度强化学习(DeepReinforcement Learning)将深度学习的感知能力和强化学习的决策能力相结合,优势互补,可以直接从高维原始数据学习控制策略,是一种更接近人类思维方式的人工智能方法。
深度强化学习通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。
下面以实例来进行说明。实例中,智能路由选路模块是进行深度强化学习以及按规则选路的功能模块,主要包含深度强化学习模型以及规则选路;网络控制器是根据智能路由选路模块下发的路径进行路由的功能模块;数据收集模块是收集网络的各类信息的功能模块。
图2为基于深度强化学习的网络故障自愈方法流程示意图,如图所示,包括:
确定是否存在已训练的模型,若否,则网络控制器发送网络状态数据,用以判断是否出现故障;
若是,网络控制器向智能路由选路模块发送网络状态数据,进行训练深度强化学习模型;
判断是否出现故障,若出现故障,则智能路由选路模块利用规则选出局部最优路径,继续训练深度强化学习模型;
深度强化学习模型进行选路。
图3为基于深度强化学习的网络故障自愈实施模块交互流程示意图,如图所示,主要按数据收集模块完成网络状态的采集、智能路由选路模块的训练、当故障发生时的处理规则、智能路由选路模块的再训练四个部分来进行说明。
1、数据收集模块完成网络状态的采集。
实施中,确定网络出现故障,是根据路径的时延确定的。
具体实施中,根据路径的时延确定网络出现故障,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
具体的,数据收集模块的主要功能是对网络状态数据的采集,包括网络的拓扑结构、终端与终端之间的通信路径、各链路的时延等信息。数据收集模块利用图的搜索算法得到网络拓扑和每两个终端节点的所有路径,并测得这些路径上所有链路的时延,求出路径上时延的和,将这些数据整理成Json格式并发送。
1.1、获取网络拓扑结构。
数据收集模块利用深度优先搜索算法获得完整的网络拓扑结构,并将其进行存储。
1.2、获取终端节点通信路径。
实施中,确定各数据传输路径,是使用路径搜索算法确定各数据传输路径。
具体实施中,确定各数据传输路径,是使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
具体的,遍历网络中的所有终端节点,数据收集模块调用K短路算法获取当前起始终端节点与其他终端节点的所有路径。当网络拓扑较为复杂时,广度优先搜索算法会占用大量的内存,造成了资源的浪费,因此在求最短路径时可以选用基于A*算法的K短路算法。K短路算法是利用A*算法的一种最短路径搜索算法,它可以根据网络拓扑图中的两点找到两点间最短的k条路径。其中,A*算法是一种启发式搜索算法,根据目标地点与当前点的距离和估计要走的步数来决策下一步走哪个方向。
1.3、获取链路状态。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的数据。
具体实施中,从网络收集各数据传输路径的数据,是使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
具体实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的链路时延数据。
将所有路径求出后,探测得到这些路径所有链路的时延。
1.4、探测网络状态是否发生变化。
当网络拓扑结构发生变化时(如网络中部分节点故障),数据收集模块需要重新采集网络的拓扑结构以及终端节点之间的通信路径,重新测量各链路的时延,即执行1.2和1.3。每次节点进行通信时,数据收集模块需要测量各链路时延,即执行1.3。
2、智能路由选路模块的训练。
实施中,通过深度强化学习模型进行选路决策训练时,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
具体的,智能路由选路模块主要包含了深度强化学习模型和按自定义规则配置的规则选路组成,主要对控制器发送选路策略,防止网络故障;具体内容是:将1中数据收集模块获得的网络状态数据发送到智能路由选路模块,智能路由选路模块输出选路策略发送给网络控制器,网络控制器再将策略下发到网络,之后再重复1和2的内容。
2.1、将网络状态发送到智能路由选路模块。
将网络状态发送到智能路由选路模块。得到1中的网络状态数据,在网络每个终端节点部署智能路由选路模块,为了智能路由选路模块中的深度强化学习模型能更快适应含有故障节点的网络环境,以一定的概率(如15%)选取网络状态数据中的链路,将选中的链路时延数据设为一个极大值(远远大于其他正常链路的时延值即可)。在此过程中,概率的选取会随着网络规模的变化而改变,最终的目的是既要让模型的学习能力收敛,又要让模型能够再学习到这种随机生成的有故障的数据,当真实的故障发生时,能够再次快速收敛。
2.2、训练深度强化学习模型。
将2.1中的数据进行整理,将各链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态(State)向量供模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值(Reward)输入模型。
2.3、深度强化学习模型向网络控制器发送选路状态。
深度强化学习模型发送选路策略。深度强化学习模型经过编码,输出具体选路策略,即动作向量(Action),动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略,并将选路策略发送给控制器,控制器再按照选路策略控制网络进行通信。
重复以上三个环节,直至模型的奖励值不再发生变化,此时智能路由选路模块中的深度强化学习模型的学习能力达到收敛,选路策略达到全局最优。
3、当故障发生时的处理规则。
实施中,所述预设规则为选择未包含故障链路的路径作为所述临时使用的路径。
具体实施中,所述预设规则进一步包括:
选择链路总时延的最小的路径作为所述临时使用的路径。
具体的,当故障发生时,会测得某些链路的时延增大超过阈值,此时选择一条不包括故障链路的路径作为暂定路径,同时重复1中采集暂定路径的各链路的网络状态。
3.1、探测到故障,调用规则选路。
当故障发生时,发生故障的节点所在链路会发生较大的时延波动,一旦时延波动较大,则判定为网络发生故障或发生拥塞,此时启动临时选路策略。若原路径上不包含发生故障的节点,则无需进行临时选路。
3.2、寻找临时路径。
遍历起始终端设备到目标终端设备的所有路径,选择一条不含有故障链路的路径作为临时路径,临时路径一般选择路径中链路总时延的最小的那一条,即最短路径。
3.3、向网络控制器发送临时选路策略。
将临时路径信息发送给控制器,由控制器下发到网络。
4、智能路由选路模块的再训练。
智能路由选路模块中的深度强化学习模型通过步骤3发送的数据,重复步骤2的内容,继续学习网络状态,做出选路决策。
4.1、将规则选路后的网络状态发送到智能路由选路模块。
按照3.3中控制器执行的临时选路策略,数据收集模块执行1中采集网络状态数据,并将这些网络状态数据整理成Json格式。
4.2、深度强化学习模型再训练。
将上一环节中获得的数据按照2.2的方式输入智能路由选路模块中的深度强化学习模型,深度强化学习模型输出新的选路策略,并开始学习有故障节点的网络拓扑中的状态信息,由于深度强化学习模型之前训练过程中加入了人工生成的有故障节点的网络拓扑数据,因此在学习真实的故障网络数据会更快收敛。
4.3、深度强化学习模型向网络控制器发送选路状态。
将新的选路策略发送到控制器,控制器将选路策略下发到网络中。
重复以上三个环节,直至模型收敛,此时网络通信均避开了故障节点,完成自愈。
基于同一发明构思,本发明实施例中还提供了一种路径选择装置、及计算机可读存储介质,由于这些设备解决问题的原理与路径选择方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。
在实施本发明实施例提供的技术方案时,可以按如下方式实施。
图4为路径选择装置结构示意图,如图所示,装置中包括:
处理器400,用于读取存储器420中的程序,执行下列过程:
确定各数据传输路径;
从网络收集各数据传输路径的数据;
在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,并用选出的路径替换出现故障的路径以使网络自愈;
收发机410,用于在处理器400的控制下接收和发送数据。
实施中,确定各数据传输路径,是使用路径搜索算法确定各数据传输路径。
实施中,确定各数据传输路径,是使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的数据。
实施中,从网络收集各数据传输路径的数据,是使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
实施中,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的链路时延数据。
实施中,确定网络出现故障,是根据路径的时延确定的。
实施中,根据路径的时延确定网络出现故障,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
实施中,进一步包括:
在网络出现故障时,从网络收集各数据传输路径的数据;
使用收集的网络出现故障时的数据对深度强化学习模型进行选路决策训练。
实施中,通过深度强化学习模型进行选路决策训练,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
实施中,在通过深度强化学习模型进行训练选出路径前,进一步包括:
按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;
在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
实施中,所述预设规则为选择未包含故障链路的路径作为所述临时使用的路径。
实施中,所述预设规则进一步包括:
选择链路总时延最小的路径作为所述临时使用的路径。
其中,在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器400代表的一个或多个处理器和存储器420代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机410可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器400负责管理总线架构和通常的处理,存储器420可以存储处理器400在执行操作时所使用的数据。
本发明实施例中还提供了
一种路径选择装置,包括:
确定模块,用于确定各数据传输路径;
采集模块,用于从网络收集各数据传输路径的数据;
训练模块,用于在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
路径模块,用于在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。
实施中,确定模块进一步用于使用路径搜索算法确定各数据传输路径。
实施中,确定模块进一步用于使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
实施中,采集模块进一步用于使用测量方法探测网络后收集各数据传输路径的数据。
实施中,采集模块进一步用于使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
实施中,采集模块进一步用于使用测量方法探测网络后收集各数据传输路径的链路时延数据。
实施中,路径模块进一步用于确定网络出现故障,是根据路径的时延确定的。
实施中,路径模块进一步用于在根据路径的时延确定网络出现故障时,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
实施中,训练模块进一步用于在网络出现故障时,从网络收集各数据传输路径的数据;使用收集的网络出现故障时的数据对深度强化学习模型进行选路决策训练。
实施中,训练模块进一步用于在通过深度强化学习模型进行选路决策训练时,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
实施中,路径模块进一步用于在通过深度强化学习模型进行训练选出路径前,按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
实施中,路径模块进一步用于采用选择未包含故障链路的路径作为所述临时使用的路径作为所述预设规则。
实施中,路径模块进一步用于采用选择链路总时延最小的路径作为所述临时使用的路径为所述预设规则。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述路径选择方法的计算机程序。
具体实施可以参见上述路径选择方法的实施。
综上所述,本发明实施例提供的技术方案中,利用路径搜索算法(如K短路算法)得到数据传输路径,利用测量方法(如三角测量法)探测网络收集数据,在网络状态正常的情况下利用深度强化学习模型做出全局最优的选路决策,在训练深度强化学习模型时,利用了人工生成有故障数据的方法以增强模型的通用性,缩短故障发生后的模型再训练过程。同时通过网络链路的时延是否有波动来判断网络是否发生故障,当故障发生时,深度强化学习不足以立刻学习到新的网络状态,则利用规则选出临时路径,同时再训练深度强化学习模型,最终由深度强化学习模型做出的选路决策替代临时路径。
进一步的,当网络状态正常时,智能路由选路模块中的深度强化学习模型通过学习网络状态,做出全局最优的选路决策。当故障发生时,智能路由选路模块中的深度强化学习模块由于网络拓扑发生变化需要继续学习网络状态,因此本发明利用规则选择一条局部最优的可用路径,同时深度强化学习模块继续学习新的网络状态,降低网络故障带来的影响。
进一步的,数据收集模块负责数据的采集,利用路径搜索算法(如K短路算法)获得终端节点之间的通信路径,采用测量方法(如三角测量法)来探测获取网络状态数据,节约了内存占用。
进一步的,在深度强化学习模型第一次学习网络状态时,按一定比例加入一些生成的有故障的网络状态数据。当故障发生后,由于模型之前学习过故障情况下的网络数据,可以大大缩短模型的再学习时间,加快拟合速度,最终代替规则选路策略。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种路径选择方法,其特征在于,包括:
确定各数据传输路径;
从网络收集各数据传输路径的数据;
在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。
2.如权利要求1所述的方法,其特征在于,确定各数据传输路径,是使用路径搜索算法确定各数据传输路径。
3.如权利要求2所述的方法,其特征在于,确定各数据传输路径,是使用路径搜索算法中基于A*算法的K短路算法确定各数据传输路径。
4.如权利要求1所述的方法,其特征在于,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的数据。
5.如权利要求4所述的方法,其特征在于,从网络收集各数据传输路径的数据,是使用测量方法中三角测量法探测网络后收集各数据传输路径的数据。
6.如权利要求4所述的方法,其特征在于,从网络收集各数据传输路径的数据,是使用测量方法探测网络后收集各数据传输路径的链路时延数据。
7.如权利要求1所述的方法,其特征在于,确定网络出现故障,是根据路径的时延确定的。
8.如权利要求7所述的方法,其特征在于,根据路径的时延确定网络出现故障,包括:
利用深度优先搜索算法获得网络拓扑结构;
遍历网络中的终端节点,通过路径搜索算法获取当前终端节点与其他终端节点的路径;
探测所述路径的时延,根据路径上的链路的时延确定网络是否出现故障。
9.如权利要求1所述的方法,其特征在于,进一步包括:
在网络出现故障时,从网络收集各数据传输路径的数据;
使用收集的网络出现故障时的数据对深度强化学习模型进行选路决策训练。
10.如权利要求1或9所述的方法,其特征在于,通过深度强化学习模型进行选路决策训练,包括:
将各路径的链路时延拼接为维度与链路数量相等的特征向量,该特征向量作为状态向量供深度强化学习模型学习,将当前路径中所有链路的平均时延的倒数作为奖励值输入模型;
深度强化学习模型输出的动作向量作为路径选择策略,动作向量的维度与起始节点到目标节点的所有路径数量相等,每一维的数值代表了选择这一条路径的概率,依照概率的最大值得出最终的选路策略;
训练直至深度强化学习模型的奖励值不再发生变化。
11.如权利要求1至9任一所述的方法,其特征在于,在通过深度强化学习模型进行训练选出路径前,进一步包括:
按预设规则选出临时使用的路径,并用临时使用的路径替换出现故障的路径以使网络自愈;
在通过深度强化学习模型选出路径后,用选出的路径替换所述临时使用的路径。
12.如权利要求11所述的方法,其特征在于,所述预设规则为选择未包含故障链路的路径作为所述临时使用的路径。
13.如权利要求12所述的方法,其特征在于,所述预设规则进一步包括:
选择链路总时延最小的路径作为所述临时使用的路径。
14.一种路径选择装置,其特征在于,包括:
处理器,用于读取存储器中的程序,执行下列过程:
确定各数据传输路径;
从网络收集各数据传输路径的数据;
在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,并用选出的路径替换出现故障的路径以使网络自愈;
收发机,用于在处理器的控制下接收和发送数据。
15.一种路径选择装置,其特征在于,包括:
确定模块,用于确定各数据传输路径;
采集模块,用于从网络收集各数据传输路径的数据;
训练模块,用于在网络状态正常时使用收集的数据对深度强化学习模型进行选路决策训练;
路径模块,用于在确定网络出现故障时,通过深度强化学习模型进行训练后选出路径,用选出的路径替换出现故障的路径以使网络自愈。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至13任一所述方法的计算机程序。
CN202111332301.0A 2021-11-11 2021-11-11 一种路径选择方法、装置及存储介质 Pending CN116132350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111332301.0A CN116132350A (zh) 2021-11-11 2021-11-11 一种路径选择方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111332301.0A CN116132350A (zh) 2021-11-11 2021-11-11 一种路径选择方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116132350A true CN116132350A (zh) 2023-05-16

Family

ID=86306696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111332301.0A Pending CN116132350A (zh) 2021-11-11 2021-11-11 一种路径选择方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116132350A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424664A (zh) * 2023-12-19 2024-01-19 南京华鹄科技发展有限公司 一种基于复合通信网络的应急广播系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424664A (zh) * 2023-12-19 2024-01-19 南京华鹄科技发展有限公司 一种基于复合通信网络的应急广播系统及方法

Similar Documents

Publication Publication Date Title
Monsef et al. Fuzzy rule-based expert system for power system fault diagnosis
US8051330B2 (en) Fault location in telecommunications networks using bayesian networks
CN106953802B (zh) 一种基于深度学习的网络最优路径选择方法
CN102868553B (zh) 故障定位方法及相关设备
CN117124910B (zh) 智慧城市充电桩节点故障报警系统及方法
RU2336566C2 (ru) Способ моделирования процессов обеспечения технической готовности сетей связи при технической эксплуатации и система для его реализации
CN114666204B (zh) 一种基于因果强化学习的故障根因定位方法及系统
CN108696453B (zh) 轻量级的电力通信网sdn业务流感知方法及系统
CN105469317B (zh) 一种电力通信网络可靠性分析方法
CN114158102B (zh) 面向馈线自动化实时控制的无线异构通信网络切换方法
CN116132350A (zh) 一种路径选择方法、装置及存储介质
Qin et al. Traffic optimization in satellites communications: A multi-agent reinforcement learning approach
CN113435307B (zh) 一种基于视觉识别技术的运维方法、系统及存储介质
Stanly Jayaprakash et al. Deep q-network with reinforcement learning for fault detection in cyber-physical systems
CN110108981A (zh) 一种有源配电网中线路的故障诊断方法和系统
CN111680375B (zh) 一种分布式fa仿真系统负荷预测方法及系统
US11494654B2 (en) Method for machine failure prediction using memory depth values
CN116578873A (zh) 一种充电桩故障诊断方法、装置、设备及介质
CN112866052B (zh) 网络链路状态的检测方法、检验矩阵的训练方法和装置
CN115412443A (zh) 一种基于突发检测的网络拓扑变化检测方法
CN113923099B (zh) 一种通信网络故障的根因定位方法及相关设备
Fischer et al. Industrial network topology generation with genetic algorithms
Ding et al. GROM: A generalized routing optimization method with graph neural network and deep reinforcement learning
Cao Using reinforcement learning for agent-based network fault diagnosis system
CN115118608B (zh) 快速流量工程方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination