CN113645589B - 一种基于反事实策略梯度的无人机集群路由计算方法 - Google Patents
一种基于反事实策略梯度的无人机集群路由计算方法 Download PDFInfo
- Publication number
- CN113645589B CN113645589B CN202110774836.7A CN202110774836A CN113645589B CN 113645589 B CN113645589 B CN 113645589B CN 202110774836 A CN202110774836 A CN 202110774836A CN 113645589 B CN113645589 B CN 113645589B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- node
- unmanned aerial
- coma
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims abstract description 18
- 206010073261 Ovarian theca cell tumour Diseases 0.000 claims abstract description 16
- 208000001644 thecoma Diseases 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims abstract description 13
- 230000002787 reinforcement Effects 0.000 claims abstract description 5
- 206010010071 Coma Diseases 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 4
- 230000009916 joint effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 abstract description 6
- 230000001105 regulatory effect Effects 0.000 abstract description 2
- 230000004044 response Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/12—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/22—Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/02—Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
- H04W84/04—Large scale networks; Deep hierarchical networks
- H04W84/08—Trunked mobile radio systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种基于反事实策略梯度的无人机集群路由计算方法,包括采用一种COMA动态自适应的强化学习算法,所述COMA算法采用了“集中式训练‑分布式执行”的混合架构。能够有效针对网络节点动态性高、网内流量波动性大的路由场景,COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡,进而实现高效而稳定的智能路由策略;能够更好地动态调正路由策略,实现对网络状态的全局最优响应。关于数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点的设计,该设计不仅解决了多智能体环境下动作空间较大的问题,还提高了算法的稳定性,一定程度上减少了节点移动性对训练造成的干扰。
Description
技术领域
本发明涉及无人机技术领域,尤其涉及一种基于反事实策略梯度的无人机集群路由计算方法。
背景技术
对于网络路由问题而言,其根本任务是向用户提供端到端的服务质量保证。对此,如何权衡路由方法的性能与开销是其中的核心科学问题。此外,网络流量的波动性、节点的动态性也对路由算法的鲁棒性提出了较高的挑战。
因此仅从路由方法的核心思路出发,介绍与本方案最相关的背压路由方法与Q-routing路由方法,包括:
1)背压路由的核心思路在于将缓存队列应用于网内设备,并使用Lyapunovoptimization优化方法对设备的缓存队列进行最优控制,形成高效的拥塞控制方法。通俗来讲,“背压”(back pressure)即在网内多跳传输数据包的场景下,通过衡量相邻节点之间缓存队列的拥塞梯度差(队列长度差),选择最优的下一跳节点,以完成动态路由转发过程。由于其基于“最大化拥塞梯度差”进行拥塞控制的传输特点,背压算法在高网络负载情况下具有高吞吐量的优良特征。
2.Q-routing算法基于经典的Q值强化学习方法,并创新性地将其与路由相结合,形成了具备细粒度的流量感知能力的高效路由智能算法。Q-routing将网络内各节点视为分布式的智能体,通过将端到端传输时间抽象为q值,并借助q值决策数据包每跳的节点间传输过程,来自适应地避免网络拥塞的产生,形成较低端到端延迟的健壮性智能路由方法。其核心单步更新公式如下:
Qx(s,a)=(1-η)Qx(s,a)+η·[r(s,a)+tas]
3.最后,在经典算法中还存在着以Dijkstra算法、Bellman-Ford算法为代表的基于最短路径的路由算法,均是以带宽和跳数进行路由的选择和收敛。
考虑到现有的智能路由方法应用场景大多为固定的静态拓扑结构,而动态性网络节点的高效路由方法仍然有待探索。
发明内容
本方案提出了一种基于反事实策略梯度的无人机集群路由计算方法,用于在通过其集中式训练分布式执行的混合架构,在高动态节点的网络环境中形成鲁棒且稳定的高效路由方法。
一种基于反事实策略梯度的无人机集群路由计算方法,包括采用一种COMA动态自适应的强化学习算法,所述COMA算法采用了“集中式训练-分布式执行”的混合架构,所有智能体共享一个联合的critic network,并分别维护一个actor network并只基于在路由中进行局部观察。
COMA算法通过比较智能体遵循当前actor network进行决策得到的全局回报与遵循某个默认策略进行决策得到的全局回报,用以解决多智能体信用分配问题,其信用分配机制的核心更新公式如下:
其中,Q(s,u)代表所有智能体在当前状态下基于联合动作u的整体Q值,而后一项通过求加权平均的方式,计算了智能体a进行所有动作的“平均效用值”(权重即为当前智能体a对应各个行为的概率,由该智能体维护的actor网络提供),用该值来近似代替智能体a的“默认效用值”;因此,前后两项相减的意义在于:在全局的整体Q值中,用于探索智能体a的独立回报值。
进一步地,结合所述COMA算法架构和路由中的局部观察并将该问题抽象为逐跳路由的范式;因此,对于各无人机在每个训练步骤中进行的路由转发过程,主要由三部分构成:
1)状态值:[当前数据包终点{区域id+节点id}|当前节点{区域id+节点id}|当前节点缓存];
2)动作值:[下一跳节点的区域id](在传输范围内,可选区域即当前区域与相邻区域);
3)单步奖励:t1*(当前节点缓存-下一跳区域平均缓存)+t2*(下一跳离终点更近/更远);
进一步地,对于无人机每个训练步骤中的动作选择,数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点。
本发明的有益效果包括:
1)能够有效针对网络节点动态性高、网内流量波动性大的路由场景,COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡,进而实现高效而稳定的智能路由策略;能够更好地动态调正路由策略,实现对网络状态的全局最优响应。
2)关于数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点的设计,该设计不仅解决了多智能体环境下动作空间较大的问题,还提高了算法的稳定性,一定程度上减少了节点移动性对训练造成的干扰。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1为本发明涉及的一种基于反事实策略梯度的无人机集群路由计算方法的核心算法流程图;
图2为本发明中3D空间中移动性较高的无人机群场景示意图;
图3为本发明中围绕网络平均生存时间的技术效果直观分析图;
图4为本发明中围绕数据包的成功传输比率的技术效果直观分析图;
图5为本发明中围绕累计奖励值曲线的技术效果直观分析图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
请参阅图1所示,一种基于反事实策略梯度的无人机集群路由计算方法,包括采用一种COMA动态自适应的强化学习算法,所述COMA算法采用了“集中式训练-分布式执行”的混合架构,所有智能体共享一个联合的critic network,并分别维护一个actor network并只基于在路由中进行局部观察。
COMA算法通过比较智能体遵循当前actor network进行决策得到的全局回报与遵循某个默认策略进行决策得到的全局回报,用以解决多智能体信用分配问题,其信用分配机制的核心更新公式如下:
其中,Q(s,u)代表所有智能体在当前状态下基于联合动作u的整体Q值,而后一项通过求加权平均的方式,计算了智能体a进行所有动作的“平均效用值”(权重即为当前智能体a对应各个行为的概率,由该智能体维护的actor网络提供),用该值来近似代替智能体a的“默认效用值”;因此,前后两项相减的意义在于:在全局的整体Q值中,用于探索智能体a的独立回报值。
进一步地,结合所述COMA算法架构和路由中的局部观察并将该问题抽象为逐跳路由的范式;因此,对于各无人机在每个训练步骤中进行的路由转发过程,主要由三部分构成:
1)状态值:[当前数据包终点{区域id+节点id}|当前节点{区域id+节点id}|当前节点缓存];
2)动作值:[下一跳节点的区域id](在传输范围内,可选区域即当前区域与相邻区域);
3)单步奖励:t1*(当前节点缓存-下一跳区域平均缓存)+t2*(下一跳离终点更近/更远);
进一步地,对于无人机每个训练步骤中的动作选择,数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点。
请参阅图2所示,将正方体环境基于空间分布划分为8个区域,并为每个区域至少部署1个无人机,本场景中共10架无人机。认为区域0、区域2、区域4和区域6的无人机处于悬停状态,而其他6架无人机处于移动状态,这样的设计在保证算法稳定的前提下对环境的动态性进行了最大化。设置每轮训练时,各无人机已经预先缓存10个数据包,并且每个单步训练都会对各无人机生成随机终点的1个新数据包,认为单轮结束条件为达到最大轮次数值或某无人机的缓存占用满,即发生网络拥塞。
对上文所述的场景与算法模型,我们围绕网络平均生存时间、数据包成功传输比率、平均累计奖励值这三个方面因素进行了技术效果的直观分析。
请参阅图3所示,随着训练轮次的提高,虽然COMA算法的平均生存时间无法达到背压路由的40个step,但其最终仍可以达到约34个step,而随机方法的平均生存时间仅可达到约30个step。
请参阅图4所示,在上述流量压力较大的场景下,COMA算法最终传输比率可达到16%,远高于背压路由的9%与随机方法的8%。
请参阅图5所示,可以看到,针对上述复杂场景,COMA算法的奖励函数曲线的收敛值是三个方法中最高的。
综合分析上述三方面,可以得出以下结论:针对上述网络节点动态性高、网内流量波动性大的路由场景,COMA算法能够在网络平均生存时间与数据包传输成功率之间形成有效的权衡,进而实现高效而稳定的智能路由策略。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (2)
1.一种基于反事实策略梯度的无人机集群路由计算方法,包括采用一种COMA动态自适应的强化学习算法,其特征在于:所述COMA算法采用了“集中式训练-分布式执行”的混合架构,所有智能体共享一个联合的critic network,并分别维护一个actor network并只基于在路由中进行局部观察;
COMA算法通过比较智能体遵循当前actor network进行决策得到的全局回报与遵循某个默认策略进行决策得到的全局回报,用以解决多智能体信用分配问题,其信用分配机制的核心更新公式如下:
其中,Q(s,u)代表所有智能体在当前状态下基于联合动作u的整体Q值,而后一项通过求加权平均的方式,计算了智能体a进行所有动作的“平均效用值”,用该值来近似代替智能体a的“默认效用值”;因此,前后两项相减的意义在于:在全局的整体Q值中,用于探索智能体a的独立回报值;
结合所述COMA算法架构和路由中的局部观察并将该问题抽象为逐跳路由的范式;因此,对于各无人机在每个训练步骤中进行的路由转发过程,主要由三部分构成:
1)状态值:[当前数据包终点{区域id+节点id}|当前节点{区域id+节点id}|当前节点缓存];
2)动作值:[下一跳节点的区域id](在传输范围内,可选区域即当前区域与相邻区域);
3)单步奖励:t1*(当前节点缓存-下一跳区域平均缓存)+t2*(下一跳离终点更近/更远)。
2.根据权利要求1所述一种基于反事实策略梯度的无人机集群路由计算方法,其特征在于,对于无人机每个训练步骤中的动作选择,数据包将所选择的区域中的任意一个随机节点作为下一跳传输节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774836.7A CN113645589B (zh) | 2021-07-09 | 2021-07-09 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110774836.7A CN113645589B (zh) | 2021-07-09 | 2021-07-09 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113645589A CN113645589A (zh) | 2021-11-12 |
CN113645589B true CN113645589B (zh) | 2024-05-17 |
Family
ID=78416938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110774836.7A Active CN113645589B (zh) | 2021-07-09 | 2021-07-09 | 一种基于反事实策略梯度的无人机集群路由计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113645589B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114499648B (zh) * | 2022-03-10 | 2024-05-24 | 南京理工大学 | 基于多智能体协作的无人机集群网络智能多跳路由方法 |
CN114942653B (zh) * | 2022-07-26 | 2022-10-25 | 北京邮电大学 | 无人集群飞行策略的确定方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020024170A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112491712A (zh) * | 2020-11-30 | 2021-03-12 | 复旦大学 | 一种基于多智能体深度强化学习的数据包路由算法 |
CN112651486A (zh) * | 2020-12-09 | 2021-04-13 | 中国人民解放军陆军工程大学 | 一种提高maddpg算法收敛速度的方法及其应用 |
CN112703457A (zh) * | 2018-05-07 | 2021-04-23 | 强力物联网投资组合2016有限公司 | 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统 |
CN112867083A (zh) * | 2020-12-29 | 2021-05-28 | 北京邮电大学 | 一种基于多智能体强化学习的时延容忍网络路由算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2757663C1 (ru) * | 2018-02-07 | 2021-10-20 | Хохшуле Анхальт | Способ адаптивного выбора маршрута в узле беспроводной ячеистой сети связи, соответствующее устройство для выполнения способа адаптивного выбора маршрута и соответствующая компьютерная программа |
-
2021
- 2021-07-09 CN CN202110774836.7A patent/CN113645589B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112703457A (zh) * | 2018-05-07 | 2021-04-23 | 强力物联网投资组合2016有限公司 | 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统 |
WO2020024170A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112491712A (zh) * | 2020-11-30 | 2021-03-12 | 复旦大学 | 一种基于多智能体深度强化学习的数据包路由算法 |
CN112651486A (zh) * | 2020-12-09 | 2021-04-13 | 中国人民解放军陆军工程大学 | 一种提高maddpg算法收敛速度的方法及其应用 |
CN112867083A (zh) * | 2020-12-29 | 2021-05-28 | 北京邮电大学 | 一种基于多智能体强化学习的时延容忍网络路由算法 |
Non-Patent Citations (9)
Title |
---|
A Learning-Based Approach to Intra-Domain QoS Routing;Yao, Haipeng;《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》;20181231;全文 * |
A Multi-domain Virtual Network Embedding Algorithm with Delay Prediction.;Haipeng Yao;《Ad Hoc Sens. Wirel. Networks》;20201231;全文 * |
A Near-Optimal UAV-Aided Radio Coverage Strategy for Dense Urban Areas;Yao, Haipeng;《IEEE Transactions on Vehicular Technology》;20191031;全文 * |
A novel reinforcement learning algorithm for virtual network embedding;Yao, Haipeng;《Neurocomputing》;20181231;全文 * |
Eye in the Sky: Real-time Drone Surveillance System (DSS) for Violent Individuals Identification using ScatterNet Hybrid Deep Learning Network;yao haipeng;《Computer Vision and Pattern Recognition》;20181231;全文 * |
Zeyu Qin.Traffic Optimization in Satellites Communications: A Multi-agent Reinforcement Learning Approach.《2020 International Wireless Communications and Mobile Computing》.2020,全文. * |
基于改进蚁群算法的应急通信网络路由协议;宋方振;徐彦彦;唐鑫;潘少明;;计算机工程与应用(第18期);全文 * |
基于软件定义网络技术实现人工智能网络体系架构;姚海鹏;《信息技术与网络安全》;20181231;全文 * |
王朱伟 ; 徐广书 ; 买天乐 ; 杨磊 ; 高宇 ; .基于AI的LEO卫星网络资源管理架构设计.信息技术与网络安全.2018,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113645589A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111416771B (zh) | 基于多智能体强化学习路由策略控制路由动作的方法 | |
CN113645589B (zh) | 一种基于反事实策略梯度的无人机集群路由计算方法 | |
CN105960783B (zh) | 域间sdn流量工程 | |
Liu et al. | An agent-assisted QoS-based routing algorithm for wireless sensor networks | |
CN108112049B (zh) | 一种基于鲸鱼群算法的无线传感器网络能效优化分簇方法 | |
CN104168620B (zh) | 无线多跳回传网络中的路由建立方法 | |
CN113194034A (zh) | 基于图神经网络和深度强化学习的路由优化方法及系统 | |
Li et al. | Adaptive vehicular routing protocol based on ant colony optimization | |
Kalantari et al. | Routing in wireless ad hoc networks by analogy to electrostatic theory | |
CN108540204A (zh) | 用于卫星网络拓扑生成的快速收敛蚁群算法 | |
CN111130853B (zh) | 一种基于时间信息的软件定义车辆网络的未来路由预测方法 | |
CN114567365A (zh) | 一种低轨卫星网络负载均衡的路由方法及系统 | |
CN115484205A (zh) | 确定性网络路由与队列调度方法及装置 | |
CN104734808A (zh) | 一种无线传感网络中最差时延感知跨层优化方法 | |
CN116963225B (zh) | 一种面向流媒体传输的无线mesh网络路由方法 | |
Anastasopoulos et al. | Adaptive routing strategies in IEEE 802.16 multi-hop wireless backhaul networks based on evolutionary game theory | |
CN113676407A (zh) | 一种通信网的深度学习驱动的流量优化机制 | |
CN113094857A (zh) | 一种节能的软件定义车辆网络的控制器布局方法 | |
CN115473854B (zh) | 一种多模态网络的流量智能控制方法 | |
De Rango et al. | Minimum hop count and load balancing metrics based on ant behavior over HAP mesh | |
Fu et al. | Reinforcement Learning Based Intelligent Routing for Software Defined LEO Satellite Networks | |
Liu et al. | A DRL Empowered Multipath Cooperative Routing for Ultra-Dense LEO Satellite Networks | |
CN115277531B (zh) | 面向云上广域网的多径瓶颈公平性约束的两阶段路由方法 | |
Yang et al. | A Routing Algorithm Based on Fuzzy Logic for Satellite Networks | |
Dhurandher et al. | Ant colony optimization-based congestion control in ad-hoc wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |