CN116009590A - 无人机网络分布式轨迹规划方法、系统、设备及介质 - Google Patents
无人机网络分布式轨迹规划方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116009590A CN116009590A CN202310080166.8A CN202310080166A CN116009590A CN 116009590 A CN116009590 A CN 116009590A CN 202310080166 A CN202310080166 A CN 202310080166A CN 116009590 A CN116009590 A CN 116009590A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- action
- network
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000009471 action Effects 0.000 claims abstract description 114
- 230000005540 biological transmission Effects 0.000 claims abstract description 34
- 238000005265 energy consumption Methods 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 37
- 238000007493 shaping process Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 239000000872 buffer Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供的一种无人机网络分布式轨迹规划方法、系统、设备及介质,所述方法包括:以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;获取观测信息、动作信息,并根据观测信息、动作信息创建奖励模型;根据所述多无人机系统的历史数据,预测所有无人机的下一时隙轨迹点,并将各无人机的下一时隙轨迹点输入贝叶斯预测模型,得到奖励信息;获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中预测最优动作。本发明可以减少无人机的能量消耗,提升系统的稳定性。
Description
技术领域
本发明涉及无人机技术领域,特别是涉及一种无人机网络分布式轨迹规划方法、系统、设备及介质。
背景技术
随着5G技术的发展,以往的低成本物联网传感设备已经很难满足数据传输中的服务质量要求。通过部署无人机辅助无线通信网络,可以摆脱地面复杂的信道条件对无线通信的影响,转而使用干扰少、衰减慢、实时性好的视距信道。
学者们通过联合优化无人机的轨迹和传输控制策略,为整个无线通信网络提供了更高的性能增益。进一步地,通过联合优化无人机的轨迹、能耗和服务时间,可以有效地降低传感数据的信息年龄。
现有技术采用的是无优化驱动的多智能体强化学习算法,由于无人机辅助无线通信问题具有高维性和较为复杂的观测、动作空间,现有技术普遍存在收敛速度慢的问题。现有技术中,无人机利用多跳信息或全局观测作为参考来做出动作决策,这消耗了无人机的机身存储空间,加大了无人机的通信成本和计算负担,进而增加了无人机的能耗。
发明内容
本发明的目的是提供一种无人机网络分布式轨迹规划方法、系统、设备及介质,以减少无人机的能量消耗,提升系统的稳定性。
为了实现上述目的,第一方面,本发明实施例提供了一种无人机网络分布式轨迹规划方法,所述方法包括:
以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;
获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息,并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型;
根据所述多无人机系统的历史数据,预测所有无人机的下一时隙轨迹点,并将各无人机的下一时隙轨迹点输入贝叶斯预测模型,得到奖励信息;
获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中预测最优动作。
进一步地,所述构建所述多无人机系统的系统模型,包括:
对多无人机系统基础架构进行建模,所述多无人机系统基础架构包括一个基站与多个无人机的通信网络;
对多无人机网络成型进行建模,所述多无人机网络成型包括无人机直接连接到基站的连接以及无人机之间的连接;
对各通信信道进行建模,所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道;
对用户、无人机和基站的数据更新过程进行建模;
对公平性单元和无人机能耗单元进行建模,所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算,所述无人机能耗单元包括无人机的总能耗计算。
进一步地,所述系统模型中各无人机在观测空间中的观测信息包括无人机的位置、采集的数据量,无人机对其他无人机的部分观测和对所有无人机的状态和动作预测;
所述动作空间的动作信息包括无人机的飞行方向、飞行速度和多无人机网络成型策略;
所述奖励模型包括采集奖励、能耗奖励、传输奖励和碰撞惩罚。
进一步地,所述多无人机系统的系统模型包括如下约束:
无人机数据缓冲区的数据量小于或等于预设最大容量;
无人机的飞行速度小于或等于预设最大速度;
任意两架无人机之间的距离大于预设最小间距;
所述公平性单元中的公平因子大于预设阈值;
无人机在同一时隙只能向一架其他无人机或基站传输数据。
进一步地,所述时隙包括飞行子时隙、采集子时隙、传输子时隙和决策子时隙;
所述飞行子时隙为无人机从当前位置飞往下一位置的时隙;
所述采集子时隙为无人机进行数据采集的时隙;
所述传输子时隙为无人机向基站或其他无人机传输数据的时隙;
所述决策子时隙为无人机根据自身观测结果和基站预测结果决定当前时隙的执行策略。
进一步地,所述根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中确定最优动作,包括:
根据所述部分观测值以及贝叶斯模块预测的其他无人机动作生成当前无人机动作,并训练动作策略网络;
根据所述部分观测值,贝叶斯模块预测的其他无人机动作,以及动作策略网络输出的策略生成无人机当前策略的价值,并训练价值评估网络;
以所述奖励信息为目标,训练价值评估网络以评估动作策略网络;
以价值评估网络为目标训练动作策略网络以生成动作策略。
第二方面,本发明实施例提供了一种无人机网络分布式轨迹规划系统,所述系统包括:
系统模型构建模块,用于以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;
奖励模型构建模块,获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息,并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型;
贝叶斯预测模块,用于根据所述多无人机系统的历史数据,预测所有无人机的当前时隙内的动作策略和轨迹点,并将预测的各无人机的轨迹点广播给所有无人机;
轨迹规划模块,用于获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中预测最优动作。
进一步地,所述系统模型构建模块包括:
基础架构建模模块,用于对多无人机系统基础架构进行建模,所述多无人机系统基础架构包括一个基站与多个无人机的通信网络;
网络成型建模模块,用于对多无人机网络成型进行建模,所述多无人机网络成型包括无人机直接连接到基站的连接以及无人机之间的连接;
通信信道建模模块,用于对各通信信道进行建模,所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道;
数据更新建模模块,用于对用户、无人机和基站的数据更新过程进行建模;
负载均衡建模模块,用于对公平性单元和无人机能耗单元进行建模,所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算,所述无人机能耗单元包括无人机的总能耗计算。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的一种无人机网络分布式轨迹规划方法、系统、设备及介质,所述方法包括:以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;获取观测信息、动作信息,并根据观测信息、动作信息创建奖励模型;根据所述多无人机系统的历史数据,预测所有无人机的下一时隙轨迹点,并将各无人机的下一时隙轨迹点输入贝叶斯预测模型,得到奖励信息;获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中预测最优动作。本发明可以减少无人机的能量消耗,提升系统的稳定性。
附图说明
图1是本发明实施例一种无人机网络分布式轨迹规划方法的流程示意图;
图2是本发明实施例一种无人机网络分布式轨迹规划方法的系统模型示意图;
图3是本发明实施例一种无人机网络分布式轨迹规划方法的仿真模拟参数图;
图4是本发明实施例一种无人机网络分布式轨迹规划方法的算法流程图;
图5是本发明实施例一种无人机网络分布式轨迹规划方法部分可观测环境下整体奖励示意图;
图6是本发明实施例一种无人机网络分布式轨迹规划方法全局观测环境下算法性能示意图;
图7是本发明实施例一种无人机网络分布式轨迹规划方法一种用户分布下的无人机轨迹图;
图8是本发明实施例一种无人机网络分布式轨迹规划方法另一种用户分布下的无人机轨迹图;
图9是本发明实施例一种无人机网络分布式轨迹规划方法另一种用户分布下的网络成型图;
图10是本发明实施例一种无人机网络分布式轨迹规划方法另一种用户分布下的无人机数据负载;
图11是本发明实施例一种无人机网络分布式轨迹规划方法各无人机的数据负载变化图;
图12是本发明实施例一种无人机网络分布式轨迹规划方法各无人机的奖励变化图;
图13是本发明实施例一种无人机网络分布式轨迹规划方法各无人机位置的横坐标变化图;
图14是本发明实施例一种无人机网络分布式轨迹规划方法各无人机位置的纵坐标变化图;
图15是本发明实施例一种无人机网络分布式轨迹规划系统的系统框图;
图16是本发明实施例一种无人机网络分布式轨迹规划系统的系统模型构建模块的系统框图;
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一个实施例中,如图1所示,本发明提供了一种无人机网络分布式轨迹规划方法,所述方法包括:
S11、以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;
构建所述多无人机系统的系统模型,包括:
对多无人机系统基础架构进行建模,所述多无人机系统基础架构包括一个基站与多个无人机的通信网络,如图2所示;
本实施例考虑具有一个基站(BS)和多个无人机(UAV)辅助的无线中继通信网络。其中,所有UAV被表示为N={1,2,...,N},地面用户(GU)被表示为M={1,2,...,M}。UAV在每个时隙收集传感数据,并通过多跳网络将数据传输到BS。UAV的通信信道描述如下:
(1)GU-to-UAV(G2U信道):G2U信道用于每架UAV在其信号覆盖范围内收集传感数据。由于GU到BS之间距离很远或有障碍物阻隔,所有传感数据将通过UAV来采集,UAV将以最大信噪比对GU进行数据采集。
(2)UAV-to-other(U2X信道):U2X信道用于每架UAV通过多跳网络或直接将数据卸载到BS。UAV将选择其他UAV进行中继传输(U2U通信)或在信道条件良好的情况下直接将其数据卸载到BS(U2B通信),不同信道上的数据速率取决于UAV的位置、发射功率和信道条件。
上述信道均可视为视距信道。
对多无人机网络成型进行建模,所述多无人机网络成型包括无人机与基站的连接以及无人机与其他无人机的连接组成的传输网络;
在本实施例中,每架UAV既可以直接连接到BS,也可以通过其他UAV的中继传输最终把数据传输至BS,U2U通信允许各UAV之间形成网络连接,各UAV可以根据自身数据传输的需要开启或关闭U2U连接,这就是多UAV的网络成型。在UAV的飞行过程中,网络成型也会随之发生动态变化。
使用二值矩阵
来表示U2B和U2U的网络成型策略,φi,j(t)=1表示在t时隙UAV-i将数据传输至UAV-j。
为了避免不同链路之间的干扰,我们要求同一时隙内每架UAV只能向一架其他UAV或BS传输数据。因此,U2X数据链路受到以下限制:
Φ(t)即所有UAV在不同时隙的网络成型,需要根据UAV的实时轨迹进行调整。
对各通信信道进行建模,所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道;
假设所有的UAV都以固定高度H飞行。
UAV-i的轨迹可以定义为所有时隙UAV位置的集合,即Li=[li(t)]t∈T。
UAV-i在t时隙的位置li(t)由三维坐标li(t)=(xi(t),yi(t),hi(t)=H)组成,BS位于坐标原点,天线高度为Hb。
在t时隙,UAV-i向指定方向di(t)移动的速度vi(t)受到以下限制:
vi(t)≤vmax
UAV-i在下一时隙的位置为li(t+1)=li(t)+vi(t)di(t)
UAV-i与UAV-j之间的距离表示为di,j(t)=||li(t)-lj(t)||
其中,δ2表示噪声功率。
对用户、无人机和基站的数据更新过程进行建模;
UAV决定要采取的动作之后,其在飞行子时隙tf中完成移动,并悬停在目标上空,以便在后续各子时隙进行数据的采集和传输。
UAV在采集子时隙ts从GU处采集数据并保存在其数据缓冲区,数据缓冲区的最大容量为Dmax,UAV-i从GU-m处采集的数据量为si(t)=om,i(t)。
UAV的数据缓冲区将更新为Di(t)=Di(t)+si(t)。
在传输子时隙to内,UAV将向其他UAV或直接向BS传输数据,因此UAV的数据缓冲区将更新为:
这里的[x]+表示取x与0两者之间的最大值;
其中,Oi(t)表示UAV输出的数据,具体表示为:
因此,BS收集到的数据将更新为:
对公平性单元和无人机能耗单元进行建模,所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算,所述无人机能耗单元包括无人机的总能耗计算。
各UAV的负载均衡有助于提升系统的稳定性,本实施例的首要目标是通过多UAV的网络成型和轨迹优化来最大化BS从GU处收集到的数据,因此可能出现部分UAV工作量远大于其他UAV的情形,本发明定义了公平因子来解决这个问题,公平因子F的定义如下:
若GU-m的数据在t时隙被采集,则将zm,t置为1,否则将zm,t置为0。
F的取值接近1时,各UAV负载均衡。
因为飞行子时隙的时长是固定的,故每架UAV的能耗主要取决于其飞行速度vt。
使用ei(t)来表示UAV-i在t时隙的飞行能耗,给定工作时间T,UAV-i的总能耗可以表示为:
所述多无人机系统的系统模型包括如下约束:
无人机数据缓冲区的数据量小于或等于预设最大容量;
无人机的飞行速度小于或等于预设最大速度;
任意两架无人机之间的距离大于预设最小间距;
所述公平性单元中的公平因子大于预设阈值;
本实施例中有多个UAV协助GU到BS的数据传输,旨在通过多UAV的网络成型和轨迹优化以最大限度地提高系统的数据传输能力。
给定工作时间T,这一目标可以表示为:
同时,该优化问题还应满足上述步骤中提到的各约束:数据缓冲区的数据量不应超出最大容量Dmax、这些数据最终应全部传输至BS端、UAV的飞行速度不应超出最大速度vmax、任意两架UAV的距离应始终大于dmin、公平因子F应大于阈值fmin以及前文所述U2X数据链路所受限制。
本实施例通过公平因子的设定,有利于提升系统的稳定性。
S12、获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息,并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型;
所述系统模型中各无人机在观测空间中的观测信息包括无人机的位置、采集的数据量,无人机对其他无人机的部分观测和对所有无人机的动作预测;
所述动作空间的动作信息包括无人机的飞行方向、飞行速度和多无人机网络成型策略;
所述奖励模型包括采集奖励、能耗奖励、传输奖励和碰撞惩罚。
UAV的全局观测需要各UAV之间频繁通信,大大增加了UAV的数据负载和通信能耗。为解决该问题,本发明将上述系统模型中提出的优化问题重新表述为部分可观测马尔可夫决策过程(POMDP)。
其中, 是贝叶斯模块给出的对于UAV-j的贝叶斯预测,这部分在BS广播时被UAV-i获取;oj(t)是UAV-j对自身的观测,若UAV-j与UAV-i建立了连接,那这一部分将在数据传输时被UAV-i获取。
显然,当其他UAV建立到UAV-i的通信链路并传输数据时,UAV-i可以从接收到的数据中获取UAV-j对其本身的观测,同时UAV-i可以获取贝叶斯模块对所有UAV下一步动作做出的预测,然后UAV-i综合以上信息来决定下一步动作。
动作at表示每个UAV的行动选取,即:
at=(a1(t),a2(t),...,aN(t))
其中,ai(t)包括UAV-i的飞行方向di(t)、速度vi(t)和网络成型策略Φi(t)={φi,j(t),j≠i,j∈N}。
奖励函数R给定了UAV到达不同状态的即时奖励,当UAV-i在t时隙的观测oi(t)中采取了行动ai(t)时,它可以获得的奖励为:
Ri=Ri,c(t)+γ1Ri,e(t)+γ2Ri,d(t)-μRi,p(t)
其中,I(·)是指示函数,γ1、γ2与μ是权衡各奖励与惩罚的参数。
所述时隙包括飞行子时隙、采集子时隙、传输子时隙和决策子时隙;
所述飞行子时隙为无人机从当前位置飞往下一位置的时隙;
所述采集子时隙为无人机进行数据采集的时隙;
所述传输子时隙为无人机向基站或其他无人机传输数据的时隙;
所述决策子时隙为无人机根据自身观测结果和基站预测结果决定当前时隙的执行策略。
整个工作时间被划分为T个时隙,表示为T={1,2,...,T},每个时隙又被划分为四个子时隙,对这四个子时隙的具体描述如下:
(1)在飞行子时隙tf内,UAV按照选定的方向和速度,从当前位置飞往下一个位置。
(2)在采集子时隙ts内,UAV悬停在采集目标上方,以最大信噪比对目标进行数据采集。
(3)在传输子时隙to内,UAV按照网络成型策略向其他UAV或BS传输数据,UAV的状态信息也将在这一阶段更新至BS。
(4)在决策子时隙td内,BS将预测各UAV的下一步行动,并将结果广播给各UAV,各UAV将结合自身的本地观测结果采取下一步行动。
通过上述部分可观测马尔可夫决策过程,便于后续过程中对于无人机系统优化问题的求解。
S13、根据所述多无人机系统的历史数据,预测所有无人机的下一时隙轨迹点,并将各无人机的下一时隙轨迹点输入所述奖励模型,得到奖励信息;
贝叶斯模块可根据历史数据预测UAV下一时隙的状态信息,包含轨迹点和数据采集量。
考虑到贝叶斯优化需要大量的先验历史数据,本实施例中将贝叶斯模块部署在BS处。
在每个时隙,BS记录每架UAV回传的局部观测和自身状态数据。通过对地面数据分布进行建模,BS可以预测UAV的下一个轨迹点li(t)的概率分布fi(li(t)),表示为:
fi:li(t)→si(t)+εi(t)
其中εi(t)是误差项,可以看作独立同分布的零均值高斯噪声。
Di(t)包含UAV-i的历史轨迹点和历史数据采集量,表示为:
Di(t)=(li(τ),si(τ))τ∈Ht
其中,Ht={t-t0,...,t-1,t}表示过去的一组时隙。
根据贝叶斯定理可知:
P(fi|Di(t))=P(Di(t)|fi)P(fi)
而GU的空间分布和数据传输需求对于UAV是未知的,因此我们采用多变量高斯分布G来模拟先验分布P(fi),表示为:
fi~G(μi(Ht),Vi(Ht))
给定历史数据Di(t),可将后验数据更新为:
Ei,t(li)是t时隙UAV-i飞到轨迹点li时函数值fi(li)的预期改进,表示为:
表示过去采样点的最大函数值。
我们可以通过最大化预期改进来预测UAV-i在下一时隙的轨迹点,表示为:
li(t+1)=arg max Ei,t(li)
由此可以得到无人机UAV-i对其他UAV的综合观测
得到所有UAV的综合观测信息之后,BS会将结果广播给每架UAV,UAV将结合自身观测信息决定下一步动作。
S14、获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中确定最优动作。
所述根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中确定最优动作,包括:
根据所述部分观测值以及贝叶斯模块预测的其他无人机动作生成当前无人机动作,并训练动作策略网络;
根据所述部分观测值,贝叶斯模块预测的其他无人机动作,以及动作策略网络输出的策略生成无人机当前策略的价值,并训练价值评估网络;
以所述奖励信息为目标,训练价值评估网络使之能够预估动作策略网络的好坏。
以价值评估网络为目标训练动作策略网络使之能生成良好的动作策略。
给定信道条件、位置状态和GU的初始数据量,智能体将选定一个动作来最大化长期奖励。
本发明使用actor-critic网络结构来解决该连续控制问题。
actor-critic网络的更新使用如下loss进行训练:
其中,p是采样空间,yt=R(t)+γQt+1。
由于动作空间大,计算复杂度高,本发明采用确定性策略梯度算法来简化计算,在每个状态下选择最大概率动作,策略梯度计算如下:
为了提高学习的稳定性,本发明使用了一个对偶网络结构,表示为目标网络Q'、U'和当前网络Q、U,目标值yt由目标critic网络评估,
即:
其中参数ω't是当前critic网络对当前参数ωt的延迟软更新,表示为:
ω't+1=τωt+(1-τ)ω't
其中,常数τ是平滑参数,目标actor网络的更新与之类似。
最后,actor-critic网络参数将更新为:
此处设置了基于确定性策略梯度算法的actor-critic网络,优化了计算过程,进一步节省了时间。
与现有技术相比,本申请使用贝叶斯优化驱动的深度强化学习,根据无人机的历史数据预测无人机的下一步动作,无人机综合自身的观测和贝叶斯预测的结果决定下一步动作,相比于传统无驱动模型,初期的探索过程更有效率,加快了算法收敛的速度,使系统投入实际使用成为可能。
同时,本申请使用部分可观测马尔可夫决策过程对多无人机的网络成型和轨迹优化进行建模,无人机在观测阶段仅能获取自身和向自身传输数据的无人机的状态信息,贝叶斯模块设定在基站处,采用集中式训练、分布式执行的方式运作系统。相比于传统的全局观测模型,无人机端的数据负载更少,计算负担更小,能量消耗也随之变少。
此外,本申请使用公平因子以衡量多无人机系统的公平性,使各无人机之间的数据负载均衡,部分满载的概率变小,整个系统的抗干扰能力变强,能及时应对突发状况或突然产生的大量数据,提升了系统的稳定性。
在一个具体的实施例中,考虑一个多无人机辅助通信系统。如图1所示,多个地面用户分布在2×2km2范围的区域内,多架无人机负责从地面的用户处收集所有传感数据,通过多无人机中继传输或直接传输将数据卸载至基站,其它参数详见图3.本发明对该系统进行了仿真实验,算法流程如图4,结果如下:
首先,我们评估了POMARL算法的收敛性和学习性能。如图5所示,我们的算法在部分观察环境下收敛速度快,获得的奖励高于传统MADDPG算法。MADDPG由于缺乏观察信息使收敛变得更加困难,因此,智能体无法学习到有效的协作策略,算法退化为多个独立的DDPG算法,不适合我们的场景。在图6中,我们展示了我们的算法在全局观察下的性能,实验表明我们的算法在全局观察环境下表现出与MADDPG相似的性能。
之后,我们对比了不同用户分布下的轨迹优化和网络成型。
如图7所示,几个地面用户在空间中分布不均,大部分地面用户集中在地图的左上角,少数用户分布在基站附近。在这种不平衡分布下,基于局部观察的智能体很容易忽略少数用户而提高自己获取的奖励,无法达成全局最优解。我们采取的策略是分工合作,UAV-1负责离基站近的用户,且作为UAV-2和UAV-3的中继节点,UAV-2和UAV-3则服务于左上角密集分布的地面用户。如图8所示,用户分布更加均匀,无人机将用户分为三部分分别进行服务。
在图9中,我们展示了第二种用户分布下不同轨迹点的网络成型策略。我们使用黑色实心点表示无人机正在与其他无人机进行数据传输。空心点表示无人机不参与中继传输,直接将数据卸载到基站。结果表明,当UAV-2和UAV-3远离基站时,它们会将UAV-1作为中继节点。UAV-2靠近基站时,会调整网络成型策略,直接向基站传输数据。每个无人机的数据缓冲区动态如图10所示。数据缓冲区的动态变化进一步说明了网络成型策略的调整。在初始阶段,UAV-3以高数据速率向UAV-1传输数据,这导致UAV-1的数据负载短暂增加。由于UAV-1离BS更近,它会以更高的速率将数据卸载到基站。最后,所有无人机的数据几乎同时传输完毕,这意味着多跳网络的传输能力得到了充分利用。
最后,我们比较了多无人机关键参数的变化。在图11中,我们可视化了每个无人机收集的数据量的动态变化。随着算法的迭代,无人机可以在相同的时间内收集更多的数据。在训练初期,由于地面用户分布不均,不同无人机采集的数据量差异很大。随着算法的迭代,各个无人机之间的数据变得更加平衡。在图12中,我们展示了每架无人机奖励的动态变化。显然,UAV-1获取的奖励比UAV-2和UAV-3更多,这是因为UAV-1离基站更近,可以在短时间内卸载更多数据。UAV-2和UAV-3的奖励接近,但随着算法的迭代,UAV-3获得的奖励变得更多,这是因为UAV-3的整体移动范围更小,因此相比于UAV-2消耗能量更少。在图13和图14中,我们可视化了无人机在x轴和y轴上的移动距离。在初始阶段,无人机通过大范围飞行来探索环境并进行试错,随着迭代的进行,无人机的运动策略逐渐稳定并进行小范围飞行。这种策略可以大大降低能耗,并以稳定的飞行轨迹获得更高的奖励。
基于上述一种无人机网络分布式轨迹规划方法,本发明还提供了一种无人机网络分布式轨迹规划系统,如图15所示,所述系统包括:
系统模型构建模块1,用于以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;
奖励模型构建模块2,获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息,并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型;
贝叶斯预测模块3,用于根据所述多无人机系统的历史数据,预测所有无人机的下一时隙轨迹点,并将各无人机的下一时隙轨迹点输入所述奖励模型,得到奖励信息;
轨迹规划模块4,用于获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中确定最优动作。
如图16所示,系统模型构建模块1包括:
基础架构建模模块11,用于对多无人机系统基础架构进行建模,所述多无人机系统基础架构包括一个基站与多个无人机的通信网络;
网络成型建模模块12,用于对多无人机网络成型进行建模,所述多无人机网络成型包括无人机与基站的连接以及无人机与其他无人机的连接组成的传输网络;
通信信道建模模块13,用于对各通信信道进行建模,所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道;
数据更新建模模块14,用于对用户、无人机和基站的数据更新过程进行建模;
负载均衡建模模块15,用于对公平性单元和无人机能耗单元进行建模,所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算,所述无人机能耗单元包括无人机的总能耗计算。
关于一种无人机网络分布式轨迹规划系统的具体限定可以参见上文中对于一种无人机网络分布式轨迹规划方法的限定,在此不再赘述。上述系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
综上,本发明提供的一种分布式的轨迹优化和网络成型优化方法,通过自身的观测值和对其他无人机的观测预估值来为当前时隙的无人机做出动作策略,从而实现数据的采集和回传。本发明可以在在复杂的环境场景中分布式执行,大大降低无人机之间的通信成本,同时可以快速的实现部署工作,辅助地面用户卸载自身数据,降低了数据卸载成本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种无人机网络分布式轨迹规划方法,其特征在于,所述方法包括:
以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;
获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息,并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型;
根据所述多无人机系统的历史数据,预测所有无人机的下一时隙轨迹点,并将各无人机的下一时隙轨迹点输入贝叶斯预测模型,得到奖励信息;
获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中预测最优动作。
2.根据权利要求1所述的一种无人机网络分布式轨迹规划方法,其特征在于,所述构建所述多无人机系统的系统模型,包括:
对多无人机系统基础架构进行建模,所述多无人机系统基础架构包括一个基站与多个无人机的通信网络;
对多无人机网络成型进行建模,所述多无人机网络成型包括无人机直接连接到基站的连接以及无人机之间的连接;
对各通信信道进行建模,所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道;
对用户、无人机和基站的数据更新过程进行建模;
对公平性单元和无人机能耗单元进行建模,所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算,所述无人机能耗单元包括无人机的总能耗计算。
3.根据权利要求2所述的一种无人机网络分布式轨迹规划方法,其特征在于,
所述系统模型中各无人机在观测空间中的观测信息包括无人机的位置、采集的数据量,无人机对其他无人机的部分观测和对所有无人机的状态和动作预测;
所述动作空间的动作信息包括无人机的飞行方向、飞行速度和多无人机网络成型策略;
所述奖励模型包括采集奖励、能耗奖励、传输奖励和碰撞惩罚。
4.根据权利要求2所述的一种无人机网络分布式轨迹规划方法,其特征在于,所述多无人机系统的系统模型包括如下约束:
无人机数据缓冲区的数据量小于或等于预设最大容量;
无人机的飞行速度小于或等于预设最大速度;
任意两架无人机之间的距离大于预设最小间距;
所述公平性单元中的公平因子大于预设阈值;
无人机在同一时隙只能向一架其他无人机或基站传输数据。
5.根据权利要求4所述的一种无人机网络分布式轨迹规划方法,其特征在于,所述时隙包括飞行子时隙、采集子时隙、传输子时隙和决策子时隙;
所述飞行子时隙为无人机从当前位置飞往下一位置的时隙;
所述采集子时隙为无人机进行数据采集的时隙;
所述传输子时隙为无人机向基站或其他无人机传输数据的时隙;
所述决策子时隙为无人机根据自身观测结果和基站预测结果决定当前时隙的执行策略。
6.根据权利要求1所述的一种无人机网络分布式轨迹规划方法,其特征在于,根据所述部分观测值、奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中确定最优动作,包括:
根据所述部分观测值以及贝叶斯模块预测的其他无人机动作生成当前无人机动作,并训练动作策略网络;
根据所述部分观测值,贝叶斯模块预测的其他无人机动作,以及动作策略网络输出的策略生成无人机当前策略的价值,并训练价值评估网络;
以所述奖励信息为目标,训练价值评估网络以评估动作策略网络;
以价值评估网络为目标,训练动作策略网络以生成动作策略。
7.一种无人机网络分布式轨迹规划系统,其特征在于,所述系统包括:
系统模型构建模块,用于以多无人机系统的数据传输能力最大为优化目标,构建所述多无人机系统的系统模型;
奖励模型构建模块,获取所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息,并根据所述系统模型中各无人机在观测空间中的观测信息、以及在动作空间的动作信息创建所述无人机到达不同状态的奖励模型;
贝叶斯预测模块,用于根据所述多无人机系统的历史数据,预测所有无人机的当前时隙内的动作策略和轨迹点,并将预测的各无人机的轨迹点广播给所有无人机;
轨迹规划模块,用于获取所述系统模型中各无人机的部分观测值、根据所述部分观测值、所述奖励信息以及通过贝叶斯模块对所有无人机的动作预测信息,从所述动作预测信息中预测最优动作。
8.根据权利要求7所述的,一种无人机网络分布式轨迹规划系统,其特征在于,所述系统模型构建模块包括:
基础架构建模模块,用于对多无人机系统基础架构进行建模,所述多无人机系统基础架构包括一个基站与多个无人机的通信网络;
网络成型建模模块,用于对多无人机网络成型进行建模,所述多无人机网络成型包括无人机直接连接到基站的连接以及无人机之间的连接;
通信信道建模模块,用于对各通信信道进行建模,所述各通信信道包括用户对无人机的信道、无人机对无人机的信道和无人机对基站的信道;
数据更新建模模块,用于对用户、无人机和基站的数据更新过程进行建模;
负载均衡建模模块,用于对公平性单元和无人机能耗单元进行建模,所述公平性单元包括采用公平因子进行各无人机之间的负载均衡计算,所述无人机能耗单元包括无人机的总能耗计算。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310080166.8A CN116009590B (zh) | 2023-02-01 | 2023-02-01 | 无人机网络分布式轨迹规划方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310080166.8A CN116009590B (zh) | 2023-02-01 | 2023-02-01 | 无人机网络分布式轨迹规划方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116009590A true CN116009590A (zh) | 2023-04-25 |
CN116009590B CN116009590B (zh) | 2023-11-17 |
Family
ID=86024826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310080166.8A Active CN116009590B (zh) | 2023-02-01 | 2023-02-01 | 无人机网络分布式轨迹规划方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116009590B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723470A (zh) * | 2023-08-10 | 2023-09-08 | 中国电信股份有限公司 | 空中基站的移动轨迹预测模型的确定方法、装置和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107615822A (zh) * | 2015-04-10 | 2018-01-19 | 深圳市大疆创新科技有限公司 | 向无人飞行器提供通信覆盖范围的方法、设备和系统 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112256056A (zh) * | 2020-10-19 | 2021-01-22 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及系统 |
CN113382060A (zh) * | 2021-06-07 | 2021-09-10 | 北京理工大学 | 一种物联网数据收集中的无人机轨迹优化方法及系统 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
CN113507717A (zh) * | 2021-06-08 | 2021-10-15 | 山东师范大学 | 一种基于车辆轨迹预测的无人机轨迹优化方法及系统 |
CN114785397A (zh) * | 2022-03-11 | 2022-07-22 | 浙江以正通信技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
CN115494732A (zh) * | 2022-09-29 | 2022-12-20 | 湖南大学 | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 |
-
2023
- 2023-02-01 CN CN202310080166.8A patent/CN116009590B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107615822A (zh) * | 2015-04-10 | 2018-01-19 | 深圳市大疆创新科技有限公司 | 向无人飞行器提供通信覆盖范围的方法、设备和系统 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112256056A (zh) * | 2020-10-19 | 2021-01-22 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及系统 |
CN113382060A (zh) * | 2021-06-07 | 2021-09-10 | 北京理工大学 | 一种物联网数据收集中的无人机轨迹优化方法及系统 |
CN113507717A (zh) * | 2021-06-08 | 2021-10-15 | 山东师范大学 | 一种基于车辆轨迹预测的无人机轨迹优化方法及系统 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
CN114785397A (zh) * | 2022-03-11 | 2022-07-22 | 浙江以正通信技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
CN115494732A (zh) * | 2022-09-29 | 2022-12-20 | 湖南大学 | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 |
Non-Patent Citations (2)
Title |
---|
吴凡毅等: "基于深度强化学习的U2D通信场景下无人机飞行轨迹设计", 2019年全国公共安全通信学术研讨会优秀论文集, pages 12 - 17 * |
张衡: "基于改进马尔可夫决策模型的多无人机协同航路规划研究", 中国优秀硕士学位论文全文数据库(电子期刊), no. 07, pages 031 - 460 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723470A (zh) * | 2023-08-10 | 2023-09-08 | 中国电信股份有限公司 | 空中基站的移动轨迹预测模型的确定方法、装置和设备 |
CN116723470B (zh) * | 2023-08-10 | 2023-11-07 | 中国电信股份有限公司 | 空中基站的移动轨迹预测模型的确定方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116009590B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Kim et al. | Coordinated trajectory planning for efficient communication relay using multiple UAVs | |
WO2020134507A1 (zh) | 无人机网络路由构建方法、无人机及存储介质 | |
CN113543074B (zh) | 一种基于车路云协同的联合计算迁移和资源分配方法 | |
CN114169234A (zh) | 一种无人机辅助移动边缘计算的调度优化方法及系统 | |
Li et al. | When UAVs meet cognitive radio: Offloading traffic under uncertain spectrum environment via deep reinforcement learning | |
Wu et al. | On the interplay between sensing and communications for UAV trajectory design | |
CN116009590B (zh) | 无人机网络分布式轨迹规划方法、系统、设备及介质 | |
CN113254188A (zh) | 调度优化方法和装置、电子设备及存储介质 | |
CN117528649A (zh) | 建立端边云系统架构的方法、任务卸载和资源分配优化方法及端边云系统架构 | |
Pham et al. | When RAN intelligent controller in O-RAN meets multi-UAV enable wireless network | |
CN114142908A (zh) | 一种面向覆盖侦察任务的多无人机通信资源分配方法 | |
CN116963034A (zh) | 一种面向应急场景的空地网络分布式资源调度方法 | |
Ren et al. | High altitude platform station (HAPS) assisted computing for intelligent transportation systems | |
CN114205769A (zh) | 基于无人机数据采集系统的联合轨迹优化与带宽分配方法 | |
CN116208968B (zh) | 基于联邦学习的轨迹规划方法及装置 | |
CN116882270A (zh) | 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统 | |
CN116578354A (zh) | 电力巡检无人机边缘计算任务卸载方法及装置 | |
CN116896777A (zh) | 基于强化学习的无人机群通感一体能耗优化方法 | |
CN116249202A (zh) | 一种物联网设备的联合定位与计算支持方法 | |
CN116471694A (zh) | 一种无线通信系统的调度控制方法及装置 | |
Arani et al. | UAV-assisted space-air-ground integrated networks: A technical review of recent learning algorithms | |
CN115483964A (zh) | 一种空天地一体化物联网通信资源联合分配方法 | |
Yang et al. | Deep reinforcement learning in NOMA-assisted UAV networks for path selection and resource offloading | |
Lu et al. | Trajectory design for unmanned aerial vehicles via meta-reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |