CN116527558A - 基于q学习的多目标路由规划方法及装置 - Google Patents
基于q学习的多目标路由规划方法及装置 Download PDFInfo
- Publication number
- CN116527558A CN116527558A CN202310574121.6A CN202310574121A CN116527558A CN 116527558 A CN116527558 A CN 116527558A CN 202310574121 A CN202310574121 A CN 202310574121A CN 116527558 A CN116527558 A CN 116527558A
- Authority
- CN
- China
- Prior art keywords
- value
- path
- objective function
- preset
- round
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006870 function Effects 0.000 claims abstract description 282
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 71
- 238000004891 communication Methods 0.000 claims abstract description 63
- 238000011156 evaluation Methods 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims description 25
- 230000008901 benefit Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 40
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/14—Routing performance; Theoretical aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/74—Address processing for routing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于Q学习的多目标路由规划方法及装置,该方法包括构建用于评价路径性能的第一目标函数和第二目标函数;通过Q学习算法获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。本发明实施例同时考量路径的服务质量和路由成本,并引入Q学习方法进行运算,获取满足服务质量和路由成本需求的预设解集,能够满足本地通信业务在服务质量和路由成本方面的差异化需求。
Description
技术领域
本发明涉及路由规划技术领域,尤其涉及一种基于Q学习的多目标路由规划方法及装置。
背景技术
在本地通信网中,通存算业务的复杂性不断增加,不同类型的业务交织存在。对于本地通信典型场景的业务路由传输而言,在网络资源紧张的状态下,为了保证网络可靠性,需要基于节点网络业务状态,在网络中的路由器、交换机等路由转发设备和主机之间合理地进行路由规划。
本地通信网中通存算业务对服务质量(Quality of Service,QoS)的需求各不相同,如时延、带宽、时延抖动、丢包率等,在进行路由规划时需要根据不同业务的差异化需求来自适应分配路由,保障网络效益及可靠性。在保证服务质量的同时,路由成本也是本地通信网中一个很重要的关注点,需要平衡好服务质量和路由成本之间的关系。现有的研究大多只考虑服务质量或以加权的形式将成本纳入服务质量中,难以满足本地通信不同业务对服务质量和路由成本的同时考量。
发明内容
有鉴于此,本发明实施例提供了一种基于Q学习的多目标路由规划方法及装置,以解决现有路由规划方法不能同时考量服务质量和路由成本的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供了一种基于Q学习的多目标路由规划方法,包括:
构建用于评价路径性能的第一目标函数和第二目标函数,其中,所述第一目标函数为服务质量函数,所述第二目标函数为路由成本函数;
通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;
根据所述第一目标函数和所述第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;
根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;
重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。
可选地,根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集,包括:
根据所述第一目标函数的值和所述第二目标函数的值将本轮迭代路径和预设解集中的每一个路径分别进行比较;
根据比较结果,若预设解集中存在一路径的所述第一目标函数的值和所述第二目标函数的值均劣于本轮迭代路径对应的值,则将对应的路径从预设解集中删除;
若预设解集中的任一路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则将本轮迭代路径舍弃;
若预设解集中的不存在所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值的路径,则将本轮迭代路径加入预设解集。
可选地,通过Q学习算法获取通信请求的源节点到通信请求的目标节点的本轮迭代路径,包括:
从所述源节点开始,根据当前迭代次数动态调整ε-贪婪算法的探索因子,并基于调整后的ε-贪婪算法选择下一跳的路由,其中,当前迭代次数越大,ε-贪婪算法的探索因子越小;
重复上述步骤直至到达所述目标节点并获得本轮迭代路径。
可选地,在基于调整后的ε-贪婪算法选择下一跳的路由之后,还包括:
判断所述源节点到当前路由的路径是否满足预设约束条件,若满足预设约束条件,则继续采用动态调整的ε-贪婪算法选择下一跳的路由,若不满足,则排除所述源节点到当前路由的路径并返回源节点重新选择下一跳的路由。
可选地,根据评价结果更新Q学习算法中的Q值,包括:
根据评价结果更新奖励函数;
根据奖励函数更新Q学习算法中的Q值。
可选地,根据评价结果获取奖励函数,包括:
若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则奖励函数的值为第一奖励值;
若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于上一轮迭代路径对应的值,则奖励函数的值为第二奖励值;
若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于本轮迭代路径对应的值,且若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于上一轮迭代路径对应的值,则奖励函数的值为第三奖励值;
其中,所述第一奖励值小于所述第三奖励值,所述第三奖励值小于所述第二奖励值。
可选地,构建第一目标函数的过程包括:
获取预设服务质量指标并对所述预设服务质量指标进行归一化处理;
根据归一化处理后的所述预设服务质量指标构建第一目标函数;
构建第二目标函数的过程包括:
获取预设路由成本指标并对所述预设路由成本指标进行归一化处理;
根据归一化处理后的所述预设路由成本指标构建第二目标函数。
可选地,所述预设服务质量指标包括时延、时延抖动、丢包率和带宽;所述预设路由成本指标包括功耗和路径长度。
本发明实施例第二方面提供一种基于Q学习的多目标路由规划装置,包括:
构建模块,用于构建评价路径性能的第一目标函数和第二目标函数;
路径获取模块,用于通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;
学习模块,用于根据所述第一目标函数和所述第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;
更新模块,用于根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;
输出模块,用于重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。
可选地,所述更新模块包括:
比较模块,用于根据所述第一目标函数的值和所述第二目标函数的值将本轮迭代路径和预设解集中的每一个路径分别进行比较;
删除模块,用于根据比较结果,若预设解集中存在一路径的所述第一目标函数的值和所述第二目标函数的值均劣于本轮迭代路径对应的值,则将对应的路径从预设解集中删除;
舍弃模块,用于根据比较结果,若预设解集中的任一路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则将本轮迭代路径舍弃;
加入模块,用于根据比较结果,若预设解集中不存在所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值的路径,则将本轮迭代路径加入预设解集。
可选地,所述路径获取模块包括:
动作模块,用于从所述源节点开始,根据当前迭代次数动态调整ε-贪婪算法的探索因子,并基于调整后的ε-贪婪算法选择下一跳的路由,其中,当前迭代次数越大,ε-贪婪算法的探索因子越小;
重复模块,用于重复上述步骤直至到达所述目标节点并获得本轮迭代路径。
可选地,所述路径获取模块还包括:
约束判断模块,用于判断所述源节点到当前路由的路径是否满足预设约束条件,若满足预设约束条件,则继续采用动态调整的ε-贪婪算法选择下一跳的路由,若不满足,则排除所述源节点到当前路由的路径并返回源节点重新选择下一跳的路由。
可选地,所述学习模块包括:
函数更新模块,用于根据评价结果更新奖励函数;
Q值更新模块,用于根据奖励函数更新Q学习算法中的Q值。
可选地,所述函数更新模块包括:
第一奖励值模块,用于若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则奖励函数的值为第一奖励值;
第二奖励值模块,用于若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于上一轮迭代路径对应的值,则奖励函数的值为第二奖励值;
第三奖励值模块,用于若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于本轮迭代路径对应的值,且若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于上一轮迭代路径对应的值,则奖励函数的值为第三奖励值;
其中,所述第一奖励值小于所述第三奖励值,所述第三奖励值小于所述第二奖励值。
可选地,所述构建模块包括:
第一目标函数模块,用于获取预设服务质量指标并对所述预设服务质量指标进行归一化处理;根据归一化处理后的所述预设服务质量指标构建第一目标函数;
第二目标函数模块,用于获取预设路由成本指标并对所述预设路由成本指标进行归一化处理;根据归一化处理后的所述预设路由成本指标构建第二目标函数。
可选地,所述预设服务质量指标包括时延、时延抖动、丢包率和带宽;所述预设路由成本指标包括功耗和路径长度。
本发明实施例第三方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面任一项所述的基于Q学习的多目标路由规划方法。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面任一项所述的基于Q学习的多目标路由规划方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例提供的一种基于Q学习的多目标路由规划方法及装置,构建用于评价路径性能的第一目标函数和第二目标函数,其中,所述第一目标函数为服务质量函数,所述第二目标函数为路由成本函数;通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;根据所述第一目标函数和所述第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。本发明实施例通过构建的第一目标函数和第二目标函数实现了对路径的服务质量和路由成本的同时考量,并引入Q学习方法进行运算,最终获取满足服务质量和路由成本需求的预设解集,能够满足本地通信业务在服务质量和路由成本方面的差异化需求。
附图说明
为了更清楚地表达说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于Q学习的多目标路由规划方法的流程图;
图2为本发明实施例中另一基于Q学习的多目标路由规划方法的流程图;
图3为本发明实施例中采用动态调整ε-贪婪算法获取本轮迭代路径的流程图;
图4为本发明实施例中更新预设解集的流程图;
图5为本发明实施例中基于Q学习的多目标路由规划装置的结构示意图;
图6为本发明实施例中电子设备的结构示意图;
图7为本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于Q学习的多目标路由规划方法,如图1和图2所示,基于Q学习的多目标路由规划方法包括:
步骤S100:构建用于评价路径性能的第一目标函数和第二目标函数,其中,第一目标函数为服务质量函数,第二目标函数为路由成本函数。
具体地,服务质量函数通常用于评估网络路径的传输质量和可靠性。它可以基于多种指标来进行定义,如数据包传输时延、丢失率、吞吐量、带宽利用率等。通过设置合适的服务质量函数,可以确保在网络负载较大时提供稳定的服务质量,并最小化对用户体验的影响。路由成本函数用于衡量从源节点到目标节点的路径的成本。这些成本可以包括物理距离、功率消耗等。通过设置合适的路由成本函数,可以找到一条低成本的路径,从而最大程度地节约网络资源并提高整个网络的运行效率。需要注意的是,服务质量函数和路由成本函数综合了多个指标的衡量,在实际应用中,需要考虑多种指标的权重来构建合适的服务质量函数和路由成本函数。
步骤S200:通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径。
强化学习是基于动态规划有关理论以及动物学习心理的一种结合。Q学习(Q-learning)在强化学习方法中应用较为广泛,该方法结构简单、无需先验知识、参数设置少,具有求解复杂对象多目标优化问题的潜力。Q学习算法一般包括以下步骤:初始化Q值表;根据Q值最大原则选取当前状态下的动作;执行该动作并获得奖励;根据当前状态、执行的动作和获得的奖励更新Q值表;重复以上步骤直至达到设定的终止条件。
在通过Q学习算法获取本轮迭代路径时,需要将本地通信的网络模型表示为加权无向图G=(V,E)。其中,网络模型中的路由器、交换机等路由转发设备和主机被抽象为节点集合V,节点之间直连通信的链路被抽象为无向图中边的集合E。定义s∈V为路由请求的源节点,d∈V-{s}为路由请求的目的节点,n∈V-{s,d}为中间节点,e∈E为两个节点间通信的链路。定义每个状态为无向图中的一个节点,并定义每个状态下所采取的动作,即选择一个相邻节点作为下一跳。初始化Q值表,根据当前状态选择Q值最大的动作,进而得到源节点到通信请求的目标节点的本轮迭代路径。
步骤S300:根据第一目标函数和第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值。
具体地,在更新Q值时,只针对本轮迭代路径中的中间节点进行更新,对其他节点不进行更新。如果上一轮迭代路径pt-1(s,d)得到的第一目标函数和第二目标函数均优于本轮迭代路径pt(s,d),则称pt-1(s,d)支配pt(s,d),通过比较pt(s,d)和pt-1(s,d)之间的支配关系,更新Q学习算法中的Q值,示例性地,若pt-1(s,d)支配pt(s,d),则减小本轮迭代路径中的中间节点的Q值,若pt(s,d)支配pt-1(s,d),则增加本轮迭代路径中的中间节点的Q值,随着迭代的进行,不断更新Q值,从而找到更优的路径。
步骤S400:根据第一目标函数和第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集。
具体地,预设解集为帕累托(Pareto)解集,Pareto解集也称为非支配解集,是多目标优化问题中的一个概念。Pareto解集表示了在多个目标函数之间存在平衡时所能达到的最优解的集合。通过第一目标函数和第二目标函数比较本轮迭代路径和预设解集中的路径的优劣得到预设解集,预设解集涵盖了对服务质量和路由成本有不同需求的多条路径,在提高本地通信路由传输稳定性的同时,也可以降低开销,从而满足本地通信业务的差异化需求。
步骤S500:重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。
具体地,预设结束条件为迭代次数或预设解集中的解的数量等,例如迭代次数为10000时,终止迭代并输出预设解集。
本发明实施例提供的一种基于Q学习的多目标路由规划方法,构建用于评价路径性能的第一目标函数和第二目标函数,其中,第一目标函数为服务质量函数,第二目标函数为路由成本函数;通过Q学习算法获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;根据第一目标函数和第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;根据第一目标函数和第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。本发明实施例通过构建的第一目标函数和第二目标函数实现了对路径的服务质量和路由成本的同时考量,并引入Q学习方法进行运算,最终获取满足服务质量和路由成本需求的预设解集,预设解集涵盖了对服务质量和路由成本有不同需求的多条路径,在提高本地通信路由传输稳定性的同时,也可以降低开销,从而满足本地通信业务的差异化需求。
在一实施例中,构建第一目标函数的过程包括:获取预设服务质量指标并对预设服务质量指标进行归一化处理;根据归一化处理后的预设服务质量指标构建第一目标函数;
构建第二目标函数的过程包括:获取预设路由成本指标并对预设路由成本指标进行归一化处理;根据归一化处理后的预设路由成本指标构建第二目标函数。
具体地,针对本地通信的网络模型中任一节点定义4类性能指标属性,分别为时延属性、时延抖动属性、代价属性和丢包率属性。针对任一通信链路也定义4类性能指标属性,分别为时延属性、时延抖动属性、代价属性和带宽属性。
根据以上定义,将本地通信网络的性能指标分为两类,一类是服务质量指标,包括节点的时延、时延抖动、丢包率和通信链路的时延、时延抖动、带宽;另一类是表示代价属性的路由成本指标,包括节点的功耗和通信链路的路径长度。此处将通信链路的路径长度看作路由成本的一部分,是因为路径长度和路径损耗呈正相关,且路径损耗越大,保证接收端所需最低功率的发射功率也越大,因此可以建立起路径长度和功率消耗的有机联系。p(s,d)表示源节点s到目标节点d的一条路径,包括从源节点s到目标节点d途经的所有节点和通信链路。p(s,d)的预设服务质量指标包括时延、时延抖动、丢包率和带宽,分别表示为:
p(s,d)的时延:
D(p(s,d))=∑n∈p(s,d)D(n)+∑e∈p(s,d)D(e)
其中,D(n)表示节点n的时延,D(e)表示通信链路e的时延。
p(s,d)的时延抖动:
DJ(p(s,d))=∑n∈p(s,d)DJ(n)+∑e∈p(s,d)DJ(e)
其中,DJ(n)表示节点n的时延抖动,DJ(e)表示通信链路e的时延抖动。
p(s,d)的丢包率:
其中,PL(n)表示节点n的丢包率。
p(s,d)的带宽:
BW(p(s,d))=in(BW(e))
其中,BW(e)表示通信链路e的带宽。
p(s,d)的预设路由成本指标包括功耗和路径长度,分别表示为:
p(s,d)的功耗:
其中,PWac(n)表示处于活跃状态,即转发状态的节点n的功耗;PWsl(m)表示处于休眠状态,即不处于转发状态的节点m的功耗。
p(s,d)的路径长度:
L(p(s,d))=∑e∈p(s,d)L(e)
其中,L(e)表示通信链路e的路径长度。
p(s,d)的时延、时延抖动、丢包率和带宽分别满足以下约束:
为了将4个服务质量指标合并成一个服务质量函数,分别对其进行归一化处理:
同样,对p(s,d)的功耗和路径长度进行归一化处理:
因此,将本地通信路由的第一目标函数和第二目标函数分别建立为:
第一目标函数(服务质量函数):
其中,α、β、γ、η分别是时延、时延抖动、丢包率和带宽的加权因子,具体数值可根据本地通信通存算业务的需求来选定。
第二目标函数(路由成本函数):
f2(p(s,d))=-[f(PW)+f(L)
其中,λ是路径长度的加权因子,具体数值可根据路径长度和功耗之间的关系来选定。此处,将路由成本取负是为了让服务质量函数和路由成本函数统一成最大化的形式。
本发明实施例通过时延、时延抖动、丢包率和带宽构建第一目标函数,通过功耗和路径长度构建第二目标函数,从而同时优化服务质量和路由成本,得到的预设解集涵盖对服务质量和路由成本有不同需求的多条路径,从而满足本地通信业务的差异化需求。
在一实施例中,步骤S200,通过Q学习算法获取通信请求的源节点到通信请求的目标节点的本轮迭代路径,包括:
步骤S210:从源节点开始,根据当前迭代次数动态调整ε-贪婪算法的探索因子,并基于调整后的ε-贪婪算法选择下一跳的路由,其中,当前迭代次数越大,ε-贪婪算法的探索因子越小;
步骤S220:重复上述步骤直至到达目标节点并获得本轮迭代路径。
具体地,获取通信请求的源节点和目标节点,如图3所示,从源节点s开始,采用动态调整的ε-贪婪算法来选择下一跳的路由,ε-贪婪算法表示如下:
其中,表示在节点ni选择链路ei,使得下一个节点ni+1的Q值最大;q表示选择该动作的概率。探索因子ε的定义为:
其中,ε0是ε的初始值,iter是当前迭代次数,itermax是最大迭代次数。当迭代次数比较小的时候,ε的值较大,可以充分地探索其他未知的路由节点;当迭代次数比较大的时候,方法对环境的认知趋于饱和,此时ε的值较小,可以更好地利用已经学习的经验,提高搜索效率。
本发明实施例在利用Q学习算法进行下一跳路由的选择时,采用动态调整的ε-贪婪算法。随着迭代次数的增加,方法对环境的认知能力加大,从而动态地减小探索因子ε的值。与传统的ε-贪婪算法相比,动态调整的ε-贪婪算法能更好地利用已经学习的经验,提高搜索效率。
在一实施例中,在基于调整后的ε-贪婪算法选择下一跳的路由之后,还包括:
判断源节点到当前路由的路径是否满足预设约束条件,若满足预设约束条件,则继续采用动态调整的ε-贪婪算法选择下一跳的路由,若不满足,则排除源节点到当前路由的路径并返回源节点重新选择下一跳的路由。
具体地,预设约束条件为预设服务质量指标或预设路由成本指标的约束条件。示例性地,预设约束条件为预设服务质量指标的约束条件,预设服务质量指标包括时延、时延抖动、丢包率和带宽,其约束条件为:
采用动态调整的ε-贪婪算法选择下一跳路由时,需判断当前链路是否满足上述约束条件,若满足,则继续选择下一跳路由,否则,从源节点s开始重新选择路由,直到到达目标节点d,得到当前的一条最优路径,即本轮迭代路径pt(s,d)。
在一实施例中,步骤S300,根据评价结果更新Q学习算法中的Q值,包括:
步骤S310:根据评价结果更新奖励函数;
步骤S320:根据奖励函数更新Q学习算法中的Q值。
具体地,在根据评价结果更新奖励函数时,只针对本轮迭代路径中的中间节点进行更新,对其他节点不进行更新。如果上一轮迭代路径pt-1(s,d)得到的第一目标函数和第二目标函数均优于本轮迭代路径pt(s,d),则称pt-1(s,d)支配pt(s,d),通过比较pt(s,d)和pt-1(s,d)之间的支配关系,更新Q学习算法中的奖励函数,然后再根据奖励函数更新Q值。
Q值的更新策略为:
其中,Q(ni,ei)表示在节点ni选择链路ei的Q值大小,λ为学习率,μ为折扣因子,表示在节点ni选择链路ei,使得下一个节点ni+1的Q值最大。
在一实施例中,步骤S310,根据评价结果获取奖励函数,包括:
步骤S311:若上一轮迭代路径的第一目标函数的值和第二目标函数的值均优于本轮迭代路径对应的值,则奖励函数的值为第一奖励值;
步骤S312:若本轮迭代路径的第一目标函数的值和第二目标函数的值均优于上一轮迭代路径对应的值,则奖励函数的值为第二奖励值;
步骤S313:若上一轮迭代路径的第一目标函数的值和第二目标函数的值不均优于本轮迭代路径对应的值,且若本轮迭代路径的第一目标函数的值和第二目标函数的值不均优于上一轮迭代路径对应的值,则奖励函数的值为第三奖励值;
其中,第一奖励值小于第三奖励值,第三奖励值小于第二奖励值。
第一奖励值、第二奖励值和第三奖励值的具体数值可以根据实际情况设定,示例性地,第一奖励值、第二奖励值和第三奖励值的值分别为0、2和1,即本轮迭代路径pt(s,d)上中间节点的奖励函数更新策略为:
其中,pt-1(s,d)>pt(s,d)表示pt-1(s,d)支配pt(s,d),pt(s,d)>pt-1(s,d)表示pt(s,d)支配pt-1(s,d)。
奖励函数的更新是基于本轮迭代路径与上一轮迭代路径的比较,对不同的比较结果赋予本轮迭代路径不同的奖励函数,可以很好地评价本轮迭代路径的优劣,并更新Q值,激励其朝着Pareto优解前进。
在一实施例中,步骤S400,根据第一目标函数和第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集,包括:
步骤S410:根据第一目标函数的值和第二目标函数的值将本轮迭代路径和预设解集中的每一个路径分别进行比较;
步骤S420:根据比较结果,若预设解集中存在一路径的所述第一目标函数的值和所述第二目标函数的值均劣于本轮迭代路径对应的值,则将对应的路径从预设解集中删除;
步骤S430:若预设解集中的任一路径的第一目标函数的值和第二目标函数的值均优于本轮迭代路径对应的值,则将本轮迭代路径舍弃;
步骤S440:若预设解集中不存在第一目标函数的值和第二目标函数的值均优于本轮迭代路径对应的值的路径,则将本轮迭代路径加入预设解集。
具体地,如图4所示,预设解集的更新策略为:当完成一次迭代后,将当前得到的本轮迭代路径pt(s,d)与预设解集P中的个体p(s,d)进行比较,若pt(s,d)被任一p(s,d)支配,则将pt(s,d)丢弃;若pt(s,d)支配某一p(s,d),则将该p(s,d)从P中删除;遍历完预设解集P中的所有个体后,若pt(s,d)不被任一p(s,d)支配,则将pt(s,d)加入预设解集P中。
最终得到的预设解集涵盖了对服务质量和路由成本有不同需求的多条路径,在提高本地通信路由传输稳定性的同时,也可以降低开销,从而满足本地通信业务的差异化需求。
本发明实施例还提供一种基于Q学习的多目标路由规划装置,如图5所示,基于Q学习的多目标路由规划装置包括:
构建模块301,用于构建评价路径性能的第一目标函数和第二目标函数,具体内容参见上述方法实施例对应部分,在此不再赘述;
路径获取模块302,用于通过Q学习算法获取通信请求的源节点到通信请求的目标节点的本轮迭代路径,具体内容参见上述方法实施例对应部分,在此不再赘述;
学习模块303,用于根据第一目标函数和第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值,具体内容参见上述方法实施例对应部分,在此不再赘述;
更新模块304,用于根据第一目标函数和第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集,具体内容参见上述方法实施例对应部分,在此不再赘述;
输出模块305,用于重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集,具体内容参见上述方法实施例对应部分,在此不再赘述。
本发明实施例提供的一种基于Q学习的多目标路由规划装置,构建用于评价路径性能的第一目标函数和第二目标函数,其中,第一目标函数为服务质量函数,第二目标函数为路由成本函数;通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;根据第一目标函数和第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;根据第一目标函数和第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。本发明实施例通过构建的第一目标函数和第二目标函数实现了对路径的服务质量和路由成本的同时考量,并引入Q学习方法进行运算,最终获取满足服务质量和路由成本需求的预设解集,预设解集涵盖了对服务质量和路由成本有不同需求的多条路径,在提高本地通信路由传输稳定性的同时,也可以降低开销,从而满足本地通信业务的差异化需求。
在一实施例中,更新模块304包括:
比较模块,用于根据第一目标函数的值和第二目标函数的值将本轮迭代路径和预设解集中的每一个路径分别进行比较;
删除模块,用于根据比较结果,若预设解集中存在一路径的所述第一目标函数的值和所述第二目标函数的值均劣于本轮迭代路径对应的值,则将对应的路径从预设解集中删除;
舍弃模块,用于根据比较结果,若预设解集中的任一路径的第一目标函数的值和第二目标函数的值均优于本轮迭代路径对应的值,则将本轮迭代路径舍弃;
加入模块,用于根据比较结果,若预设解集中不存在第一目标函数的值和第二目标函数的值均优于本轮迭代路径对应的值的路径,则将本轮迭代路径加入预设解集。
在一实施例中,路径获取模块302包括:
动作模块,用于从源节点开始,根据当前迭代次数动态调整ε-贪婪算法的探索因子,并基于调整后的ε-贪婪算法选择下一跳的路由,其中,当前迭代次数越大,ε-贪婪算法的探索因子越小;
重复模块,用于重复上述步骤直至到达目标节点并获得本轮迭代路径。
在一实施例中,路径获取模块302还包括:
约束判断模块,用于判断源节点到当前路由的路径是否满足预设约束条件,若满足预设约束条件,则继续采用动态调整的ε-贪婪算法选择下一跳的路由,若不满足,则排除源节点到当前路由的路径并返回源节点重新选择下一跳的路由。
在一实施例中,学习模块303包括:
函数更新模块,用于根据评价结果更新奖励函数;
Q值更新模块,用于根据奖励函数更新Q学习算法中的Q值。
在一实施例中,函数更新模块304包括:
第一奖励值模块,用于若上一轮迭代路径的第一目标函数的值和第二目标函数的值均优于本轮迭代路径对应的值,则奖励函数的值为第一奖励值;
第二奖励值模块,用于若本轮迭代路径的第一目标函数的值和第二目标函数的值均优于上一轮迭代路径对应的值,则奖励函数的值为第二奖励值;
第三奖励值模块,用于若上一轮迭代路径的第一目标函数的值和第二目标函数的值不均优于本轮迭代路径对应的值,且若本轮迭代路径的第一目标函数的值和第二目标函数的值不均优于上一轮迭代路径对应的值,则奖励函数的值为第三奖励值;
其中,第一奖励值小于第三奖励值,第三奖励值小于第二奖励值。
在一实施例中,构建模块301包括:
第一目标函数模块,用于获取预设服务质量指标并对预设服务质量指标进行归一化处理;根据归一化处理后的预设服务质量指标构建第一目标函数;
第二目标函数模块,用于获取预设路由成本指标并对预设路由成本指标进行归一化处理;根据归一化处理后的预设路由成本指标构建第二目标函数。
在一实施例中,预设服务质量指标包括时延、时延抖动、丢包率和带宽;预设路由成本指标包括功耗和路径长度。
本发明实施例还提供了一种电子设备,如图6所示,包括:存储器420和处理器410,存储器420和处理器410之间互相通信连接,存储器420存储有计算机指令,处理器410通过执行计算机指令,从而执行如本发明上述实施例中的基于Q学习的多目标路由规划方法。其中处理器410和存储器420可以通过总线或者其他方式连接。处理器410可以为中央处理器(CentralProcessingUnit,CPU)。处理器410还可以为其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。存储器420作为一种非暂态计算机存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器410通过运行存储在存储器420中的非暂态软件程序、指令以及模块,从而执行处理器410的各种功能应用以及数据处理,即实现上述方法实施例中的基于Q学习的多目标路由规划方法。存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器410所创建的数据等。此外,存储器420可以包括高速随机存取存储器420,还可以包括非暂态存储器420,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器420,这些远程存储器420可以通过网络连接至处理器410。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。一个或者多个模块存储在存储器420中,当被处理器410执行时,执行如上述方法实施例中的基于Q学习的多目标路由规划方法。上述电子设备具体细节可以对应上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,如图7所示,其上存储有计算机程序510,该指令被处理器执行时实现上述实施例中基于Q学习的多目标路由规划方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序510可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;存储介质还可以包括上述种类的存储器的组合。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (18)
1.一种基于Q学习的多目标路由规划方法,其特征在于,包括:
构建用于评价路径性能的第一目标函数和第二目标函数,其中,所述第一目标函数为服务质量函数,所述第二目标函数为路由成本函数;
通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;
根据所述第一目标函数和所述第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;
根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;
重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。
2.根据权利要求1所述的基于Q学习的多目标路由规划方法,其特征在于,根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集,包括:
根据所述第一目标函数的值和所述第二目标函数的值将本轮迭代路径和预设解集中的每一个路径分别进行比较;
根据比较结果,若预设解集中存在一路径的所述第一目标函数的值和所述第二目标函数的值均劣于本轮迭代路径对应的值,则将对应的路径从预设解集中删除;
若预设解集中的任一路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则将本轮迭代路径舍弃;
若预设解集中的不存在所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值的路径,则将本轮迭代路径加入预设解集。
3.根据权利要求1所述的基于Q学习的多目标路由规划方法,其特征在于,通过Q学习算法获取通信请求的源节点到通信请求的目标节点的本轮迭代路径,包括:
从所述源节点开始,根据当前迭代次数动态调整ε-贪婪算法的探索因子,并基于调整后的ε-贪婪算法选择下一跳的路由,其中,当前迭代次数越大,ε-贪婪算法的探索因子越小;
重复上述步骤直至到达所述目标节点并获得本轮迭代路径。
4.根据权利要求3所述的基于Q学习的多目标路由规划方法,其特征在于,在基于调整后的ε-贪婪算法选择下一跳的路由之后,还包括:
判断所述源节点到当前路由的路径是否满足预设约束条件,若满足预设约束条件,则继续采用动态调整的ε-贪婪算法选择下一跳的路由,若不满足,则排除所述源节点到当前路由的路径并返回源节点重新选择下一跳的路由。
5.根据权利要求1所述的基于Q学习的多目标路由规划方法,其特征在于,根据评价结果更新Q学习算法中的Q值,包括:
根据评价结果更新奖励函数;
根据奖励函数更新Q学习算法中的Q值。
6.根据权利要求5所述的基于Q学习的多目标路由规划方法,其特征在于,根据评价结果获取奖励函数,包括:
若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则奖励函数的值为第一奖励值;
若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于上一轮迭代路径对应的值,则奖励函数的值为第二奖励值;
若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于本轮迭代路径对应的值,且若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于上一轮迭代路径对应的值,则奖励函数的值为第三奖励值;
其中,所述第一奖励值小于所述第三奖励值,所述第三奖励值小于所述第二奖励值。
7.根据权利要求1所述的基于Q学习的多目标路由规划方法,其特征在于,构建第一目标函数的过程包括:
获取预设服务质量指标并对所述预设服务质量指标进行归一化处理;
根据归一化处理后的所述预设服务质量指标构建第一目标函数;
构建第二目标函数的过程包括:
获取预设路由成本指标并对所述预设路由成本指标进行归一化处理;
根据归一化处理后的所述预设路由成本指标构建第二目标函数。
8.根据权利要求7所述的基于Q学习的多目标路由规划方法,其特征在于,所述预设服务质量指标包括时延、时延抖动、丢包率和带宽;所述预设路由成本指标包括功耗和路径长度。
9.一种基于Q学习的多目标路由规划装置,其特征在于,包括:
构建模块,用于构建评价路径性能的第一目标函数和第二目标函数;
路径获取模块,用于通过Q学习算法基于Q值最大原则获取通信请求的源节点到通信请求的目标节点的本轮迭代路径;
学习模块,用于根据所述第一目标函数和所述第二目标函数评价本轮迭代路径和上一轮迭代路径的优劣,根据评价结果更新Q学习算法中的Q值;
更新模块,用于根据所述第一目标函数和所述第二目标函数比较本轮迭代路径和预设解集中的路径的优劣,根据比较结果更新预设解集;
输出模块,用于重复获取本轮迭代路径到更新预设解集的步骤,直至满足预设结束条件后,输出预设解集。
10.根据权利要求9所述的基于Q学习的多目标路由规划方法,其特征在于,所述更新模块包括:
比较模块,用于根据所述第一目标函数的值和所述第二目标函数的值将本轮迭代路径和预设解集中的每一个路径分别进行比较;
删除模块,用于根据比较结果,若预设解集中存在一路径的所述第一目标函数的值和所述第二目标函数的值均劣于本轮迭代路径对应的值,则将对应的路径从预设解集中删除;
舍弃模块,用于根据比较结果,若预设解集中的任一路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则将本轮迭代路径舍弃;
加入模块,用于根据比较结果,若预设解集中不存在所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值的路径,则将本轮迭代路径加入预设解集。
11.根据权利要求9所述的基于Q学习的多目标路由规划方法,其特征在于,所述路径获取模块包括:
动作模块,用于从所述源节点开始,根据当前迭代次数动态调整ε-贪婪算法的探索因子,并基于调整后的ε-贪婪算法选择下一跳的路由,其中,当前迭代次数越大,ε-贪婪算法的探索因子越小;
重复模块,用于重复上述步骤直至到达所述目标节点并获得本轮迭代路径。
12.根据权利要求11所述的基于Q学习的多目标路由规划方法,其特征在于,所述路径获取模块还包括:
约束判断模块,用于判断所述源节点到当前路由的路径是否满足预设约束条件,若满足预设约束条件,则继续采用动态调整的ε-贪婪算法选择下一跳的路由,若不满足,则排除所述源节点到当前路由的路径并返回源节点重新选择下一跳的路由。
13.根据权利要求9所述的基于Q学习的多目标路由规划方法,其特征在于,所述学习模块包括:
函数更新模块,用于根据评价结果更新奖励函数;
Q值更新模块,用于根据奖励函数更新Q学习算法中的Q值。
14.根据权利要求13所述的基于Q学习的多目标路由规划方法,其特征在于,所述函数更新模块包括:
第一奖励值模块,用于若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于本轮迭代路径对应的值,则奖励函数的值为第一奖励值;
第二奖励值模块,用于若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值均优于上一轮迭代路径对应的值,则奖励函数的值为第二奖励值;
第三奖励值模块,用于若上一轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于本轮迭代路径对应的值,且若本轮迭代路径的所述第一目标函数的值和所述第二目标函数的值不均优于上一轮迭代路径对应的值,则奖励函数的值为第三奖励值;
其中,所述第一奖励值小于所述第三奖励值,所述第三奖励值小于所述第二奖励值。
15.根据权利要求9所述的基于Q学习的多目标路由规划方法,其特征在于,所述构建模块包括:
第一目标函数模块,用于获取预设服务质量指标并对所述预设服务质量指标进行归一化处理;根据归一化处理后的所述预设服务质量指标构建第一目标函数;
第二目标函数模块,用于获取预设路由成本指标并对所述预设路由成本指标进行归一化处理;根据归一化处理后的所述预设路由成本指标构建第二目标函数。
16.根据权利要求15所述的基于Q学习的多目标路由规划方法,其特征在于,所述预设服务质量指标包括时延、时延抖动、丢包率和带宽;所述预设路由成本指标包括功耗和路径长度。
17.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1至8任一项所述的基于Q学习的多目标路由规划方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1至8任一项所述的基于Q学习的多目标路由规划方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310574121.6A CN116527558A (zh) | 2023-05-19 | 2023-05-19 | 基于q学习的多目标路由规划方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310574121.6A CN116527558A (zh) | 2023-05-19 | 2023-05-19 | 基于q学习的多目标路由规划方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116527558A true CN116527558A (zh) | 2023-08-01 |
Family
ID=87392146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310574121.6A Pending CN116527558A (zh) | 2023-05-19 | 2023-05-19 | 基于q学习的多目标路由规划方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116527558A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033005A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种无死锁路由方法、装置、存储介质及电子设备 |
-
2023
- 2023-05-19 CN CN202310574121.6A patent/CN116527558A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033005A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种无死锁路由方法、装置、存储介质及电子设备 |
CN117033005B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种无死锁路由方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | DRL-R: Deep reinforcement learning approach for intelligent routing in software-defined data-center networks | |
CN110365514B (zh) | 基于强化学习的sdn多级虚拟网络映射方法和装置 | |
CN110601973B (zh) | 一种路由规划方法、系统、服务器及存储介质 | |
CN108667734A (zh) | 一种基于q学习和lstm神经网络的快速路由决策算法 | |
CN111770019A (zh) | 基于Dijkstra算法的Q-learning光片上网络自适应路由规划方法 | |
Khallef et al. | Multiple constrained QoS routing with RPL | |
CN111953547B (zh) | 一种基于业务的异构基站重叠分组及资源配置方法及装置 | |
CN116527558A (zh) | 基于q学习的多目标路由规划方法及装置 | |
CN107094112A (zh) | 基于果蝇优化算法的带宽约束组播路由优化方法 | |
WO2024066626A1 (zh) | 实时音视频网络的路由规划方法及装置 | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
Kechiche et al. | A novel opportunistic fuzzy logic based objective function for the routing protocol for low-power and lossy networks | |
CN116418808A (zh) | 一种mec的联合计算卸载和资源分配方法及装置 | |
Chen et al. | Deep reinforcement learning for AoI aware VNF placement in multiple source systems | |
Long et al. | Research on applying hierachical clustered based routing technique using artificial intelligence algorithms for quality of service of service based routing | |
Rao et al. | A deep learning-based constrained intelligent routing method | |
US20060056302A1 (en) | Apparatus for implementation of adaptive routing in packet switched networks | |
CN116389347A (zh) | 一种基于强化学习的动态sdn路由优化算法 | |
Chai et al. | A multi-objective Dyna-Q based routing in wireless mesh network | |
Huang et al. | A generic intelligent routing method using deep reinforcement learning with graph neural networks | |
CN116389266A (zh) | 一种基于强化学习的数字孪生网络切片的方法和装置 | |
Vendramin et al. | CGrAnt: a swarm intelligence-based routing protocol for delay tolerant networks | |
Yang et al. | A routing optimization technology based on neural networks in MANET | |
US20220263572A1 (en) | Optical Network Optimizer and Optical Network Optimization Method Thereof | |
Narayanan et al. | Energy efficient Q learning based Kullback sparse encoder for traffic and congestion control data delivery in WSN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |