CN115119174A - 灌区场景中基于能耗优化的无人机自主部署方法 - Google Patents
灌区场景中基于能耗优化的无人机自主部署方法 Download PDFInfo
- Publication number
- CN115119174A CN115119174A CN202210758217.3A CN202210758217A CN115119174A CN 115119174 A CN115119174 A CN 115119174A CN 202210758217 A CN202210758217 A CN 202210758217A CN 115119174 A CN115119174 A CN 115119174A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- energy consumption
- base station
- ground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开的灌区场景中基于能耗优化的无人机自主部署方法,首先,构建由地面基站、无人机基站、地面终端组成的空地协作无人机组网模型;针对空对地通信过程的路径损耗,构建能耗优化模型;搭建基于DQN算法的强化学习神经网络模型,训练神经网络,通过梯度下降法优化损失函数,得到当前状态下最优无人机位置部署策略。本方法通过结合强化学习的决策能力和深度学习的感知能力,提高无人机基站的部署速度,快速组建空中移动基站,同时减少部署过程中的路径损耗和能耗,能在复杂灌区环境中增强蜂窝网络覆盖服务并节约部署能耗。
Description
技术领域
本发明属于无人机控制技术领域,具体涉及一种灌区场景中基于能耗优化的无人机基站自主部署方法。
背景技术
当前无人机应用飞速发展,无人机自身固有的机动性和灵活性使其在无线系统中有非常大的应用潜力。我国是传统农业大国,农业灌区中水资源的配置及农作物生长情况影响总体农业生产,为提升农业生产效率,需对灌区水资源配置与作物生长情况进行数据监测,并通过蜂窝网络将采集的数据信息传输至灌区信息化系统,进行数据的集中管理与分析,从而提高灌区用水效率。传统的灌区网络管理方式,对于一些偏远的有网络通信需求却无需长时间网络覆盖的灌区,效率低下,造成人力物力的浪费。现有灌区蜂窝网络的容量和覆盖极为紧张,部署低空无人机被认为是复杂灌区地理区域中提供无线连通的有效方法。一方面,高空平台无人机可提供更长期的持续解决方案,为灌区提供网络覆盖并为信息化灌区终端设备按需提供连接和高数据率无线通信服务。另一方面,物联网技术应用中,空地一体化协同组网架构在增强灌区移动通信系统性能方面有巨大潜力,能够在由于障碍物或相隔距离太远而无法直接通信的环境中,保持可靠的通信链路。
目前无人机大多采用电池供电,执行任务时间有限,因此现有研究主要考虑将能量更多的用于飞行过程;另一方面,无人机基站部署的速度也会对网络通信质量和数据传输效率造成影响,因此无人机基站自主部署所面临的最大挑战为:如何利用最低能耗来快速部署无人机基站,以为终端用户提供智能接入服务。提高无人机组建空中移动基站的速度、实现部署最优覆盖、减少部署过程中的路径损耗以及能量消耗和快速选择最优位置是提升部署效率、节省能量的有效方法。已有的针对控制无人机解决通信问题的方法主要包括以下两个方向:第一,传统强化学习算法,其具有一定局限性,如较早在通信领域应用的强化学习算法Q-learning只适用于离散动作空间较小的无人机部署场景中,从而在灌区多终端复杂环境下无法实时获得连续动作获取的最优策略;第二,粒子群算法,该方法局部搜索能力差,容易陷入局部极值。
发明内容
本发明的目的是提供一种灌区场景中基于能耗优化的无人机基站自主部署方法,利用深度强化学习算法通过神经网络训练来得到无人机部署的模型参数,从而得到灌区场景中无人机自主部署过程中所应采取的最优动作和最佳位置。
本发明所采用的技术方案是,灌区场景中基于能耗优化的无人机基站自主部署方法,具体按照以下步骤实施:
步骤1、构建由地面基站、无人机基站和地面终端组成的空地协作无人机组网模型;
步骤2、基于步骤1构建的空地协作无人机组网模型,针对空对地通信过程的路径损耗,构建能耗优化模型,得到能耗奖励值;
步骤3、针对步骤2得到的过程能耗奖励值,搭建基于DQN算法的强化学习神经网络模型;
步骤4、训练步骤3得到的神经网络模型,实时得到最优动作,对无人机进行自主部署。
本发明的特点还在于:
步骤1具体操作为:
步骤1.1、地面基站与终端间的通信链路为非可视距链路,地面基站和无人机基站之间以及无人机基站和终端之间的通信链路为可视距链路;
步骤1.2、将无人机提供通信覆盖的目标灌区划分为i*j个单元,并用B={b11,b12,b13,…bij}表示地面传感设备的分布指示变量集合,即:若单元ij(i∈{1,2,3,…I},j∈{1,2,3,…J})中有传感设备时,指示变量bij=1;否则,bij=0;用C={c11,c12,c13,…,cij}表示无人机覆盖的指示变量集合,即:单元ij被无人机覆盖时,cij=1;否则,cij=0;由集合B和C可以得到地面终端覆盖状态的集合W={w11,w12,w13,…,wij},若wij=1表示该位置有终端且被覆盖,可以进行通信;
设定无人机的初始位置为(uX0,uy0,0),在t时刻无人机的位置为为了寻找一个相对最优策略,在平衡覆盖率的和能耗的前提下,无人机以最少的能耗部署,t时刻的覆盖率定义为被覆盖地面终端的数量除以地面终端总数量:
步骤1.3、基于空对地信道模型,目标单元ij和无人机基站之间的视距(Line-of-Sight,LoS)链路定义为:
其中,a,b是基于环境的常数权重,其取值大小有环境中障碍物占地面积与总土地面积的比值和灌区中单位面积障碍物数量及高度发布的比例参数所决定,h表示无人机基站高度,rij为无人机基站与单元ij之间的水平距离;非视距(Non Line-of-Sight,NLoS)链路计算为:
PNLoS=1-PLoS。 (3)
步骤2具体按照以下步骤实施:
步骤2.1、空地协作无人机组网模型的通信过程中视距链路与非视距链路的路径损失:
其中,fc为载波频率,ηLoS为基于环境因素的视距信号传输平均附加路径损耗,ηNLoS为基于环境因素的强反射信号传输平均附加路径损耗,dij为无人机和单元ij的直线距离,即
基于步骤1的LoS和NLoS型,空对地链路平均损失为:
L(h,rij)=LLoS*PLoS+LNLoS*PNLoS (7)
对于给定的无人机发射功率Pt,单元ij接收的功率为Pr:
Pr=Pt-L(h,rij) (8)
其中,Pr需要超过一个阈值Pmin,若单元ij的链路经历的路径损耗不超过某个阈值k,则单元ij将被覆盖,即
L(h,rij)≤k; (9)
步骤2.2、最小化其部署过程中的能量消耗,具体为:设定无人机水平飞行单位距离的能耗为e1,垂直飞行单位距离能耗为ηe1,η参数根据无人机型号代入相应的参数,部署过程的能耗为:
为达到要求覆盖率的同时移动能耗最少,t时刻的奖励函数定义为:
其中Rt为t时刻的奖励值,Δe=et-et-1为覆盖率增量。
当路径损耗L(h,rij)大于k时:
Rt=Rt-p (12)
步骤3具体按照以下步骤实施:
针对过程能耗奖励值,搭建基于DQN算法的深度强化学习神经网络,该网络输入的是状态,输出的是该状态对应的所有行为所给予的奖励,选择最大奖励对应的行为,网络结构设置为全连接网络,设有三个隐含层,每层有48个节点,激活函数为ReLU函数;
DQN引入深度学习,优势在于可以处理大规模的状态输入,同时考虑没有出现过的状态也可以尽力拟合数据,
值函数更新公式:
Q(s,a)←Q(s,a)+α(R+γmaxa'Q'(s',a')-Q(s,a)) (13)
式中,当前智能体处于s状态,执行了a这个动作,获得了R奖励,此时智能体处于s'状态,然后选择了a'这个动作但是没有执行,通过行为价值函数得到Q'(s',a')以及即时奖励R来更新Q(s,a)的价值,然后继续执行a'动作。
步骤4具体按照以下步骤实施:
步骤4.1、训练神经网络参数,然后初始化一个经验回放库,通过抽取批量记忆的方式训练神经网络模型,同时使用样本无偏估计总体,使得神经网络模型更容易朝着极值点优化;
步骤4.2、训练神经网络,每次迭代步中,均使用ε-贪婪策略选择行为,对于某个单一样本来说,时序差分强化学习目标值:
y=R+γmaxa'Q'(s',a';θ') (14)
其中,γ为衰减因子,θ'为DQN模型的权重向量,R的设计十分重要,需要不断调试,一般来说是给一个较大的值,然后通过贝尔曼方程前向更新;
步骤4.3、通过梯度下降法优化损失函数,将TD误差最小化,
损失函数为:
本发明的有益效果是:
本发明的灌区场景中基于能耗优化的无人机自主部署方法,结合强化学习的决策能力和深度学习强大的感知能力,通过深度强化学习算法指导无人机基站做出部署决策,通过部署无人机基站的方式来增强蜂窝信号覆盖,同时考虑通信过程能耗优化的无人机基站自主部署系统;本发明可有效提高灌区场景中无人机基站的部署速度,快速组建空中移动基站,提升对灌区地面终端的通信效率,同时,对无人机基站部署能耗优化方案进行设计,在实现最优无人机坐标部署的前提下,减少部署过程中的路径损耗和部署能耗,有效提高部署效率。
附图说明
图1是本发明灌区场景中基于能耗优化的无人机自主部署方法的流程框图;
图2是本发明灌区场景中基于能耗优化的无人机自主部署方法的无人机基站部署运作模式图;
图3是本发明灌区场景中基于能耗优化的无人机自主部署方法的神经网络结构图;
图4是本发明灌区场景中基于能耗优化的无人机自主部署方法中SARSA和Q-learning算法对比图;
图5是本发明灌区场景中基于能耗优化的无人机自主部署方法中深度强化学习算法对比图;
图6是本发明灌区场景中基于能耗优化的无人机自主部署方法中学习速率变化图;
图7是本发明灌区场景中基于能耗优化的无人机自主部署方法中不同概率密度对DQN算法的影响图;
图8是本发明灌区场景中基于能耗优化的无人机自主部署方法中不同概率密度对Q-learning算法的影响图;
图9是本发明灌区场景中基于能耗优化的无人机自主部署方法中多无人机自主部署图;
图10是本发明灌区场景中基于能耗优化的无人机自主部署方法的多无人机算法对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的灌区场景中基于能耗优化的无人机自主部署方法,流程如图1所示,具体按照以下步骤实施:
步骤1、构建由地面基站、无人机基站和地面终端组成的空地协作无人机组网模型;
步骤1.1、地面基站与终端间的通信链路为非可视距链路,地面基站和无人机基站之间以及无人机基站和终端之间的通信链路为可视距链路,为了增加灌区地面终端的通信性能,本发明采用部署无人机基站的方式来增强灌区蜂窝信号覆盖,无人机基站部署运作模式如图2所示;
步骤1.2、将无人机提供通信覆盖的目标灌区划分为i*j个单元,并用B={b11,b12,b13,…bij}表示地面传感设备的分布指示变量集合,即:若单元ij(i∈{1,2,3,…I},j∈{1,2,3,…J})中有传感设备时,指示变量bij=1;否则,bij=0;拟进一步用C={c11,c12,c13,…,cij}表示无人机覆盖的指示变量集合,即:单元ij被无人机覆盖时,cij=1;否则,cij=0;
由集合B和C可以得到地面终端覆盖状态的集合W={w11,w12,w13,…,wij},若wij=1表示该位置有终端且被覆盖,可以进行通信;
设定无人机的初始位置为(uX0,uy0,0),一般直接设置为(0,0,0),在t时刻无人机的位置为为了寻找一个相对最优策略,在平衡覆盖率的和能耗的前提下,无人机以最少的能耗部署,t时刻的覆盖率定义为被覆盖地面终端的数量除以地面终端总数量:
步骤1.3、基于空对地信道模型,目标单元ij和无人机基站之间的视距(LoS)链路定义为:
其中,a,b是基于环境的常数权重,其取值大小有环境中障碍物占地面积与总土地面积的比值和灌区中单位面积障碍物数量及高度发布的比例参数所决定,h表示无人机基站高度,rij为无人机基站与单元ij之间的水平距离。非视距(Non Line-of-Sight,NLoS)链路计算为:
PNLoS=1-PLoS (3)
步骤2、基于所构建的空地协作无人机组网模型,针对空对地通信过程的路径损耗,构建能耗优化模型,得到能耗奖励值;
步骤2.1、空地协作无人机组网模型的通信过程中视距链路与非视距链路的路径损失:
其中,fc为载波频率,ηLoS为基于环境因素的视距信号传输平均附加路径损耗,ηNLoS为基于环境因素的强反射信号传输平均附加路径损耗,dij为无人机和单元ij的直线距离,即
基于步骤1的LoSNLoS型,空对地链路平均损失为:
L(h,rij)=LLoS*PLoS+LNLoS*PNLoS (7)
对于给定的无人机发射功率Pt,单元ij接收的功率为Pr:
Pr=Pt-L(h,rij) (8)
其中,Pr需要超过一个阈值Pmin,若单元ij的链路经历的路径损耗不超过某个阈值k,则单元ij将被覆盖,即
L(h,rij)≤k (9)
步骤2.2、为了延长无人机的服务时间,需要最小化其部署过程中的能量消耗。具体为:无人机水平飞行和垂直飞行的能耗不同,设定无人机水平飞行单位距离的能耗为e1,垂直飞行单位距离能耗为ηe1,η参数根据无人机型号代入相应的参数,部署过程的能耗为:
最后要实现的目标是达到要求覆盖率的同时移动能耗最少,所以t时刻的奖励函数定义为:
其中Rt为t时刻的奖励值,Δe=et-et-1为覆盖率增量。
当路径损耗L(h,rij)大于k时:
Rt=Rt-p (12)
相当于给一个惩罚。
步骤3、针对过程能耗奖励值,搭建基于DQN算法的强化学习神经网络模型;
具体为:针对过程能耗奖励值,搭建基于DQN算法的深度强化学习神经网络,该网络输入的是状态,输出的是该状态对应的所有行为所给予的奖励,选择最大奖励对应的行为。网络结构设置为全连接网络,设有三个隐含层,每层有48个节点,激活函数为ReLU函数;
DQN引入深度学习,优势在于可以处理大规模的状态输入,同时考虑没有出现过的状态也可以尽力拟合数据,
值函数更新公式:
Q(s,a)←Q(s,a)+α(R+γmaxa'Q'(s',a')-Q(s,a)) (13)
式中,当前智能体处于s状态,执行了a这个动作,获得了R奖励,此时智能体处于s'状态,然后选择了a'这个动作但是没有执行,通过行为价值函数得到Q'(s',a')以及即时奖励R来更新Q(s,a)的价值,然后继续执行a'动作。
步骤4、训练所搭建的神经网络模型,实时得到最优动作,对无人机进行自主部署。
步骤4具体按照以下步骤实施:
步骤4.1、训练神经网络参数,然后初始化一个经验回放库,传统的Q-learning算法单步运行就更新表格,但是这种做法不适合DQN,因为前后状态相关性强,对某次行为选择的估值只是针对某个策略下的某个状态,这种估值方式就会产生偏颇,所以通过随机抽取记忆的方式打破这种相关性,其次,相较于Q-learning算法单步运行,通过抽取批量记忆的方式训练神经网络模型,其训练速度更快,同时使用样本无偏估计总体,使得神经网络模型更容易朝着极值点优化;
步骤4.2、训练神经网络,每次迭代步中,均使用ε-贪婪策略选择行为,目的是让智能体更多探索环境,增强动作选区的随机性。对于某个单一样本来说,时序差分强化学习目标值:
y=R+γmaxa'Q'(s',a';θ') (14)
其中,γ为衰减因子,θ'为DQN模型的权重向量。
步骤4.3、通过梯度下降法优化损失函数,将TD误差最小化。
损失函数为:
通过使用反向传播算法来最小化损失函数并更新网络参数。对于不同的网络数据,需要选择合适的损失函数,才能保证网络模型能够高效收敛。
传统的强化学习的SARSA和Q-learning实现效果对比如图4所示,两种方法都需要结果100多次Episode才基本稳定,但是每轮平均奖励却很低,此外平均奖励仍然在一个范围的振荡,很难稳定。并且在测试过程中发现很难寻找到最优位置,原因就在于基于表格存储记忆的方式无法泛化学习过的知识。另外从图中可以发现在250次Episode以后Q-learning的平均奖励要大于SARSA算法,所以后续的实现也都是继续Q-learning算法的升级。
深度强化学习需要感知能力极强的深度学习神经网络,神经网络结构如图3所示,添加深度学习后的效果如图5所示。可以发现Priorized Experience Replay方法是最快爬升的,原因就在于其挑选的就是TD偏差最大的经验用于学习。其次Double DQN以及DuelingDQN效果类似。
本申请使用了学习率下降的技巧,随着训练的进行,学习速率不断下降,其学习速率变化图如图6所示。
考虑一般强化学习方法和深度强化学习方法应对不同终端密度的能力,分别设置终端概率密度为0.3和0.5,对DQN算法和Q-learning算法进行测试,效果图如图7、图8所示。对比图7、图8两图,DQN算法对于高概率密度的终端来说,既加快了收敛时间,同时收敛结果更加稳定;但是Q-learning算法对于不同概率密度的终端结果差距不大,仅仅是收敛的时间稍微早一点,对于收敛后的结果同样不稳定,而且平均奖励对于终端概率的变化不明显。
仿真实验:模拟多无人机(设置数量为2)自主部署情况,地面设置为10*10的区域,无人机基站初始位置为(0,0,0),地面区域随机抛撒随机数量的终端,其余相关参数如下:
参数表
多无人机自主部署模拟情况如图9所示。同时,考虑了为多无人机分配单个网络和多个网络两种情况。单个网络即多个无人机共享一个记忆库,共享一套参数;多个网络即每个无人机有自己的记忆库和网络参数,多无人机之间通过奖励函数进行交流。效果对比图如图10所示,从图中可以看到。多个网络平均奖励效果高于单个网络。
Claims (5)
1.灌区场景中基于能耗优化的无人机自主部署方法,其特征在于,具体按照以下步骤实施:
步骤1、构建由地面基站、无人机基站和地面终端组成的空地协作无人机组网模型;
步骤2、基于步骤1构建的空地协作无人机组网模型,针对空对地通信过程的路径损耗,构建能耗优化模型,得到能耗奖励值;
步骤3、针对步骤2得到的过程能耗奖励值,搭建基于DQN算法的强化学习神经网络模型;
步骤4、训练步骤3得到的神经网络模型,实时得到最优动作,对无人机进行自主部署。
2.根据权利要求1所述的灌区场景中基于能耗优化的无人机自主部署方法,其特征在于,所述步骤1具体操作为:
步骤1.1、地面基站与终端间的通信链路为非可视距链路,地面基站和无人机基站之间以及无人机基站和终端之间的通信链路为可视距链路;
步骤1.2、将无人机提供通信覆盖的目标灌区划分为i*j个单元,并用B={b11,b12,b13,…bij}表示地面传感设备的分布指示变量集合,即:若单元ij(i∈{1,2,3,…I},j∈{1,2,3,…J})中有传感设备时,指示变量bij=1;否则,bij=0;用C={c11,c12,c13,…,cij}表示无人机覆盖的指示变量集合,即:单元ij被无人机覆盖时,cij=1;否则,cij=0;由集合B和C可以得到地面终端覆盖状态的集合W={w11,w12,w13,…,wij},若wij=1表示该位置有终端且被覆盖,可以进行通信;
设定无人机的初始位置为(uX0,uy0,0),在t时刻无人机的位置为为了寻找一个相对最优策略,在平衡覆盖率的和能耗的前提下,无人机以最少的能耗部署,t时刻的覆盖率定义为被覆盖地面终端的数量除以地面终端总数量:
步骤1.3、基于空对地信道模型,目标单元ij和无人机基站之间的视距(Line-of-Sight,LoS)链路定义为:
其中,a,b是基于环境的常数权重,其取值大小有环境中障碍物占地面积与总土地面积的比值和灌区中单位面积障碍物数量及高度发布的比例参数所决定,h表示无人机基站高度,rij为无人机基站与单元ij之间的水平距离;非视距(Non Line-of-Sight,NLoS)链路计算为:
PNLoS=1-PLoS。 (3)。
3.根据权利要求1所述的灌区场景中基于能耗优化的无人机自主部署方法,所述步骤2具体按照以下步骤实施:
步骤2.1、空地协作无人机组网模型的通信过程中视距链路与非视距链路的路径损失:
其中,fc为载波频率,ηLoS为基于环境因素的视距信号传输平均附加路径损耗,ηNLoS为基于环境因素的强反射信号传输平均附加路径损耗,dij为无人机和单元ij的直线距离,即
基于步骤1的LoS和NLoS模型,对地链路平均损失为:
L(h,rij)=LLoS*PLoS+LNLoS*PNLoS (7)
对于给定的无人机发射功率Pt,单元ij接收的功率为Pr:
Pr=Pt-L(h,rij) (8)
其中,Pr需要超过一个阈值Pmin,若单元ij的链路经历的路径损耗不超过某个阈值k,则单元ij将被覆盖,即
L(h,rij)≤k; (9)
步骤2.2、最小化其部署过程中的能量消耗,具体为:设定无人机水平飞行单位距离的能耗为e1,垂直飞行单位距离能耗为ηe1,η参数根据无人机型号代入相应的参数,部署过程的能耗为:
为达到要求覆盖率的同时移动能耗最优,t时刻的奖励函数定义为:
其中Rt为t时刻的奖励值,Δe=et-et-1为覆盖率增量。
当路径损耗L(h,rij)大于k时:
Rt=Rt-p (12)。
4.根据权利要求1所述的灌区场景中基于能耗优化的无人机自主部署方法,所述步骤3具体按照以下步骤实施:
针对过程能耗奖励值,搭建基于DQN算法的深度强化学习神经网络,该网络输入的是状态,输出的是该状态对应的所有行为所给予的奖励,选择最大奖励对应的行为,网络结构设置为全连接网络,设有三个隐含层,每层有48个节点,激活函数为ReLU函数;
DQN引入深度学习,优势在于可以处理大规模的状态输入,同时考虑没有出现过的状态也可以尽力拟合数据,
值函数更新公式:
Q(s,a)←Q(s,a)+α(R+γmaxa'Q'(s',a')-Q(s,a)) (13)
式中,当前智能体处于s状态,执行了a这个动作,获得了R奖励,此时智能体处于s'状态,然后选择了a'这个动作但是没有执行,通过行为价值函数得到Q'(s',a')以及即时奖励R来更新Q(s,a)的价值,然后继续执行a'动作。
5.根据权利要求1所述的灌区场景中基于能耗优化的无人机自主部署方法,所述步骤4具体按照以下步骤实施:
步骤4.1、训练神经网络参数,然后初始化一个经验回放库,通过抽取批量记忆的方式训练神经网络模型,同时使用样本无偏估计总体,使得神经网络模型更容易朝着极值点优化;
步骤4.2、训练神经网络,每次迭代步中,均使用ε-贪婪策略选择行为,对于某个单一样本来说,时序差分强化学习目标值:
y=R+γmaxa'Q'(s',a';θ') (14)
其中,γ为衰减因子,θ'为DQN模型的权重向量,R的设计十分重要,需要不断调试,一般来说是给一个较大的值,然后通过贝尔曼方程前向更新;
步骤4.3、通过梯度下降法优化损失函数,将TD误差最小化,损失函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210758217.3A CN115119174A (zh) | 2022-06-30 | 2022-06-30 | 灌区场景中基于能耗优化的无人机自主部署方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210758217.3A CN115119174A (zh) | 2022-06-30 | 2022-06-30 | 灌区场景中基于能耗优化的无人机自主部署方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115119174A true CN115119174A (zh) | 2022-09-27 |
Family
ID=83330883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210758217.3A Pending CN115119174A (zh) | 2022-06-30 | 2022-06-30 | 灌区场景中基于能耗优化的无人机自主部署方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115119174A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116456307A (zh) * | 2023-05-06 | 2023-07-18 | 山东省计算中心(国家超级计算济南中心) | 一种基于q学习的能量受限物联网数据采集和融合方法 |
-
2022
- 2022-06-30 CN CN202210758217.3A patent/CN115119174A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116456307A (zh) * | 2023-05-06 | 2023-07-18 | 山东省计算中心(国家超级计算济南中心) | 一种基于q学习的能量受限物联网数据采集和融合方法 |
CN116456307B (zh) * | 2023-05-06 | 2024-04-09 | 山东省计算中心(国家超级计算济南中心) | 一种基于q学习的能量受限物联网数据采集和融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110856134B (zh) | 一种基于无人机的大规模无线传感器网络数据收集方法 | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN114025330B (zh) | 一种空地协同的自组织网络数据传输方法 | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN113543068B (zh) | 一种基于层次化分簇的林区无人机网络部署方法与系统 | |
CN115696211A (zh) | 一种基于信息年龄的无人机轨迹自适应优化方法 | |
CN111800185A (zh) | 一种无人机辅助通信中的分布式空地联合部署方法 | |
Rosalie et al. | Coverage optimization with connectivity preservation for uav swarms applying chaotic dynamics | |
CN112817327B (zh) | 一种通信约束下的多无人机协同搜索方法 | |
CN111818535B (zh) | 一种融合多种群优化算法的无线局域网三维优化部署方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
Donevski et al. | Federated learning with a drone orchestrator: Path planning for minimized staleness | |
CN114980169A (zh) | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 | |
Gao et al. | Cellular-connected UAV trajectory design with connectivity constraint: A deep reinforcement learning approach | |
Bayerlein et al. | Learning to rest: A Q-learning approach to flying base station trajectory design with landing spots | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
Dang et al. | AoI oriented UAV trajectory planning in wireless powered IoT networks | |
CN115119174A (zh) | 灌区场景中基于能耗优化的无人机自主部署方法 | |
CN116113025A (zh) | 一种无人机协能通信网络中轨迹设计和功率分配方法 | |
CN114142908A (zh) | 一种面向覆盖侦察任务的多无人机通信资源分配方法 | |
Wei et al. | DRL-based energy-efficient trajectory planning, computation offloading, and charging scheduling in UAV-MEC network | |
Wang et al. | An efficient and robust UAVs’ path planning approach for timely data collection in wireless sensor networks | |
Zhao et al. | Adaptive multi-UAV trajectory planning leveraging digital twin technology for urban IIoT applications | |
CN112383893B (zh) | 一种基于分时的可充式传感网络无线功率传输方法 | |
CN115765826A (zh) | 一种面向按需服务的无人机网络拓扑重构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |