CN114091754A - 一种多无人机移动基站协同部署及调度方法 - Google Patents
一种多无人机移动基站协同部署及调度方法 Download PDFInfo
- Publication number
- CN114091754A CN114091754A CN202111390810.9A CN202111390810A CN114091754A CN 114091754 A CN114091754 A CN 114091754A CN 202111390810 A CN202111390810 A CN 202111390810A CN 114091754 A CN114091754 A CN 114091754A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- mobile base
- base station
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 claims abstract description 38
- 238000004088 simulation Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 47
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000005265 energy consumption Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种多无人机移动基站协同部署及调度方法,基于深度强化学习,将网络服务区域均匀地划分为较小的网格和较大的区块,使用仿真软件获得区域的模拟吞吐量,在每个调度时间区间,使用基于深度强化学习的多无人机移动基站协同部署模块,找到能够提供较高吞吐量的区块的集合;使用基于深度强化学习的多无人机移动基站协同调度模块,规划无人机扫描能够提供较高吞吐量的区块的集合的路线,在无人机能量不足时及时充电;无人机在扫描完成后,在最高吞吐量的网格处悬停提供服务,直到这个调度时间区间结束;重复以上步骤,直到整个网络服务的任务完成。本发明以较少的执行时间达到较好的效果,最大限度地提供总服务时间及更好的工作负载平衡。
Description
技术领域
本发明涉及无人机移动基站部署技术领域,尤其涉及一种基于深度强化学习的多无人机移动基站协同部署及调度方法。
背景技术
当前用于多无人机移动基站协同部署及调度的方法主要是启发式算法,基于经验制定算法规则,并根据当前状态做决策。这类方法存在三个方面的不足:1)对于无人机基站部署问题,启发式算法可以在小规模场景中取得较好的效果,随着应用场景规模的扩大、无人机数量的增加,时间复杂度会上升,导致算法执行时间过长;2)对于复杂的多无人机调度问题,影响因素很多,包括当前调度无人机的电量、其他无人机的状态、充电站的状态、未扫描区域的分布等,根据经验制定规则很难将因素考虑全面;3)启发式算法没有考虑长期影响,在大多数情况下决策结果与全局最优解差距较大。
针对以上问题,深度强化学习技术借助智能体和深度神经网络对环境进行探索和学习,从而输出策略,使用训练好的模型可以更高效地做决策,不需要人为地设计策略,并且通过设置奖励值、考虑长期回报优化长期决策任务,可以被用来更好地解决多无人机移动基站协同部署及调度问题。然而,由于无人机电量有限,执行长期任务时需要及时充电,但频繁的充电会影响无人机的服务时间从而影响无人机的服务质量,这一现实问题也被大多数研究方法忽略。因此,目前方法不能为多无人机移动基站协同部署及调度的问题提供高效可靠的解决方案。
发明内容
本发明针对上述问题,提出一种多无人机移动基站协同部署及调度方法,通过考虑环境中不同位置提供的吞吐量、无人机群的分布等影响因素,为无人机群确定提供高吞吐量的部署区域;通过考虑无人机的电量、位置、充电站的状态、未扫描区域的分布等影响因素,在保证无人机有足够电量执行任务的前提下,为无人机规划飞行路径,使无人机提供最长的总服务时间,最终实现优质的网络服务质量的目标。
为了实现上述目的,本发明提供如下技术方案:
一种多无人机移动基站协同部署及调度方法,将网络服务区域均匀地划分为10m×10m的网格和20m×20m的区块,即一个区块中包含4个网格,使用仿真软件获得区域的模拟吞吐量,包括以下步骤:
S1、在每个调度时间区间,使用基于深度强化学习的多无人机移动基站协同部署模块,找到提供有效吞吐量最高的前K个区块的集合,K为无人机的个数;
S2、使用基于深度强化学习的多无人机移动基站协同调度模块,规划无人机扫描能够提供有效吞吐量最高的前K个区块的集合的路线,并在无人机能量不足时及时充电;
S3、无人机在扫描完成后,在最高吞吐量的网格处悬停提供服务,直到这个调度时间区间结束;
S4、重复以上步骤,直到整个网络服务的任务完成。
进一步地,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块包括四个核心元素的强化学习任务,四个核心元素分别是状态空间动作空间A、奖励函数R和折扣因子γ;状态空间用来描述当前时刻环境的状态,在调度时间Tt,状态空间St表示为St=(LU,LC,ST),其中,LU表示当前时刻所有无人机的位置分布,LC表示当前时刻所有用户的分布,ST表示当前时刻区域的模拟吞吐量;动作空间A表示无人机可选择的扫描区块集合,动作空间A表示为A={CHl|l=1,2,...,L},在调度时间Tt,从A中选择一个动作at作为无人机扫描的区块,被选择过的区块选择概率被设置为0;对于状态St,当执行动作at后,系统进入下一个状态S′t并且返回一个奖励值r(St,at),奖励值r(St,at)是选择的区域块带来的吞吐量差值。
进一步地,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的训练过程如下:
第一步,用随机权重θ和θ′=θ对评价网络Q和目标网络Q′进行初始化,初始化重现记忆库D容量为N;
第二步,在每个时刻t,分别为K台无人机选择服务的位置:从环境中获得当前状态St=(LU,LC,ST),当随机值小于epsilon时,随机选择动作at,否则at=argmaxaQ(st,a;θ);
第三步,执行动作at将获得奖励值r(St,at),此时状态更新为S′t,将(St,at,r(St,at),S′t)存入重现记忆库D,并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j),令yj=rj+γargmaxa′Q′(sj+1,a′;θ′),通过最小化损失函数更新权重θ,每选择C次动作,通过令Q′=Q更新Q′;
第四步,重复第二步和第三步,直到模型收敛。
进一步地,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络:评价网络Q和目标网络Q′,其中评价网络Q的更新频率高于目标网络Q′。
进一步地,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层组成,包括批标准化层、卷积层和两层全连接层,使用的激活函数为Relu。
进一步地,步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块包括四个核心元素的强化学习任务,四个核心元素分别是状态空间动作空间A、奖励函数R和折扣因子γ;状态空间用来描述当前时刻环境的状态,在调度时间Tt,状态空间St表示为St=(St1,St2),其中,St1表示全局状态,包括当前时刻需要扫描的网格位置SGt、需要扫描的网格的扫描状态Xt、其他无人机的位置U′loc和剩余电量U′elec、充电站的位置Lcharge和需要充的电量Echarge;St2表示局部状态,包括当前调度无人机的位置电量前往扫描网格和充电站所需的能耗UPtu和UCtu;动作空间表示无人机可执行的任务,包括充电站和需扫描的网格,动作空间A表示为A=(G,CS),其中G表示所有网格的集合,CS表示所有充电站的集合,在调度时间Tt,从A中选择一个动作at作为无人机执行的任务,被选择过的网格或不需要扫描的网格选择概率被设置为0;对于状态St,当执行动作at后,系统进入下一个状态S′t并且返回一个奖励值rt,rt表示为:
当动作是网格时,x=1,y=0;否则,x=0,y=1;当该动作使无人机耗尽能量时,γ是惩罚值,UPtu[at]和UCtu[at]是无人机uk移动到at的能耗,UPtu[at]对应的at是需要扫描的网格,UCtu[at]对应的at是充电站。
进一步地,步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块的训练过程如下:
第一步,用随机权重θ和θ′=θ对评价网络Q和目标网络Q′进行初始化,初始化重现记忆库D容量为N;
第二步,在每个时刻t,为当前可调度的无人机规划移动路径:如果所有扫描任务都已完成,停止规划路径;否则,从环境中获得当前状态St=(St1,St2),当随机值小于epsilon时,随机选择动作at,否则at=argmaxaQ(st,a;θ);
第三步,执行动作at将获得奖励值r(St,at),此时状态更新为S′t,将(St,at,r(St,at),S′t)存入重现记忆库D,并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j),令yj=rj+γargmaxa′Q′(sj+1,a′;θ′),通过最小化损失函数更新权重θ;每选择C次动作,通过令Q′=Q更新Q′;
第四步,重复第二步、第三步,直到模型收敛。
进一步地,步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络:评价网络Q和目标网络Q′,其中评价网络Q的更新频率高于目标网络Q′。
进一步地,步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层全连接层组成,使用的激活函数为Relu。
与现有技术相比,本发明的有益效果为:
现有的方法没有考虑无人机电量有限的特点以及环境的动态性对决策的影响,本发明提出的多无人机移动基站协同部署及调度方法,有效解决了上述问题,并具有以下两个优点:
1)现有的启发式方法没有考虑用户的移动性,并且在解决大规模问题时执行效率较低,本方法针对此问题在多无人机移动基站协同部署算法中,对状态空间和奖励函数进行了设计,使算法可以以较少的执行时间达到较好的效果。
2)针对无人机提供网络服务的场景下,现有的无人机路径规划算法中,大多没有考虑无人机电量有限的特点,在少数考虑充电问题的方法里没有考虑充电时间对服务质量的影响。本方法针对此问题在多无人机移动基站协同调度算法中,对状态空间和奖励函数进行了设计,使算法可以最大限度地提供总服务时间,并提供比其他先进算法更好的工作负载平衡。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多无人机移动基站协同部署模块神经网络结构图。
图2为本发明实施例提供的多无人机移动基站协同调度模块神经网络结构图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
本发明将网络服务区域均匀地划分为10m×10m的网格和20m×20m的区块,即一个区块中包含4个网格,使用仿真软件获得区域的模拟吞吐量。
本发明所提出的基于深度强化学习的多无人机移动基站协同部署及调度方法整体步骤如下:
1)在每个调度时间区间,使用基于深度强化学习的多无人机移动基站协同部署模块,找到能够提供较高吞吐量的区块的集合。
2)使用基于深度强化学习的多无人机移动基站协同调度模块,规划无人机扫描能够提供有效吞吐量最高的前K个区块的集合的路线,并在无人机能量不足时及时充电。
3)无人机在扫描完成后,在最高吞吐量的网格处悬停提供服务,直到这个调度时间区间结束。
4)重复以上步骤,直到整个网络服务的任务完成。
下面分别对基于深度强化学习的多无人机移动基站协同部署模块和基于深度强化学习的多无人机移动基站协同调度模块进行详细的阐述。
(一)基于深度强化学习的多无人机移动基站协同部署模块
1)对状态空间、动作空间、奖励值和算法的设计
状态空间:状态空间用来描述当前时刻环境的状态。在调度时间Tt,状态空间St可以表示为St=(LU,LC,ST)。其中,LU表示当前时刻所有无人机的位置分布,LC表示当前时刻所有用户的分布,ST表示当前时刻区域的模拟吞吐量。
动作空间:动作空间A表示无人机可选择的扫描区块集合,动作空间A可以表示为A={CHl|l=1,2,...,L}。在调度时间Tt,从A中选择一个动作at作为无人机扫描的区块,但同一时刻区块不可以重复选择,即每个区块只能被一台无人机提供服务。为了使模型的训练更有效率,动作空间需要具有一致性,所以被选择过的区块选择概率被设置为0。
奖励值:对于状态St,当执行动作at后,系统将会进入下一个状态S′t并且返回一个奖励值r(St,at)。r(St,at)是选择的区域块带来的吞吐量差值。
模型训练过程可简述如下:
第一步,用随机权重θ和θ′=θ对评价网络Q和目标网络Q′进行初始化,初始化重现记忆库D容量为N。
第二步,在每个时刻t,分别为K台无人机选择服务的位置:
从环境中获得当前状态St=(LU,LC,ST),当随机值小于epsilon时,随机选择动作at,否则at=argmaxaQ(st,a;θ)。
第三步,执行动作at将获得奖励值r(St,at),此时状态更新为S′t,将(St,at,r(St,at),S′t)存入重现记忆库D,并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j),令yj=rj+γargmaxa′Q′(sj+1,a′;θ′),通过最小化损失函数更新权重θ。每选择C次动作,通过令Q′=Q更新Q′。
第四步,重复第二步和第三步,直到模型收敛。
2)神经网络
多无人机移动基站协同部署问题是一个动作空间离散的任务,因此我们的方法基于DQN框架进行设计。我们使用两个结构相同但参数不同的神经网络:评价网络Q和目标网络Q′,其中评价网络Q的更新频率高于目标网络Q′。神经网络由4层组成,如图1所示,状态空间依次通过批标准化层、卷积层和两层全连接层,输出为动作空间对应的Q值表。批标准化层可以加速模型训练,卷积层可以提取输入三位数组的特征。全连接层之间使用的激活函数为Relu,防止过拟合。
(二)基于深度强化学习的多无人机移动基站协同调度模块
1)对状态空间、动作空间和奖励值的设计
状态空间:状态空间用来描述当前时刻环境的状态。在调度时间Tt,状态空间St可以表示为St=(St1,St2)。其中,St1表示全局状态,包括当前时刻需要扫描的网格位置SGt、需要扫描的网格的扫描状态Xt、其他无人机的位置U′loc和剩余电量U′elec、充电站的位置Lcharge和需要充的电量Echarge;St2表示局部状态,包括当前调度无人机的位置电量前往扫描网格和充电站所需的能耗UPtu和UCtu。
动作空间:动作空间表示无人机可执行的任务,包括充电站和需扫描的网格,动作空间A可以表示为A=(G,CS)。其中G表示所有网格的集合,CS表示所有充电站的集合。在调度时间Tt,从A中选择一个动作at作为无人机执行的任务,但网格不可以重复选择,即每个网格只能被一台无人机扫描。为了使模型的训练更有效率,动作空间需要具有一致性,所以被选择过的网格或不需要扫描的网格选择概率被设置为0。
奖励值:对于状态St,当执行动作at后,系统将会进入下一个状态S′t并且返回一个奖励值rt。rt可表示为:
当动作是网格时,x=1,y=0;否则,x=0,y=1。当该动作使无人机耗尽能量时,γ是惩罚值。UPtu[at]和UCtu[at]是无人机uk移动到at的能耗,但UPtu[at]对应的at是需要扫描的网格,UCtu[at]对应的at是充电站。
模型训练过程可简述如下:
第一步,用随机权重θ和θ′=θ对评价网络Q和目标网络Q′进行初始化,初始化重现记忆库D容量为N。
第二步,在每个时刻t,为当前可调度的无人机规划移动路径:如果所有扫描任务都已完成,停止规划路径;否则,从环境中获得当前状态St=(St1,St2),当随机值小于epsilon时,随机选择动作at,否则at=argmaxaQ(st,a;θ)。
第三步,执行动作at将获得奖励值r(St,at),此时状态更新为S′t,将(St,at,r(St,at),S′t)存入重现记忆库D,并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j),令yj=rj+γargmaxa′Q′(sj+1,a′;θ′),通过最小化损失函数更新权重θ。每选择C次动作,通过令Q′=Q更新Q′。
第四步,重复第二步、第三步,直到模型收敛。
2)神经网络
多无人机移动基站协同调度问题是一个动作空间离散的任务,因此我们的方法基于DQN框架进行设计。我们使用两个结构相同但参数不同的神经网络:评价网络Q和目标网络Q′,其中评价网络Q的更新频率高于目标网络Q′。神经网络由4层全连接层组成,如图2所示,输出为动作空间对应的Q值表。状态空间依次通过四层全连接层,全连接层之间,使用的激活函数为Relu。
与现有技术相比,本发明的有益效果为:
现有的方法没有考虑无人机电量有限的特点以及环境的动态性对决策的影响,本发明提出的多无人机移动基站协同部署及调度方法,有效解决了上述问题,并具有以下两个优点:
1)现有的启发式方法没有考虑用户的移动性,并且在解决大规模问题时执行效率较低,本方法针对此问题在多无人机移动基站协同部署算法中,对状态空间和奖励函数进行了设计,使算法可以以较少的执行时间达到较好的效果。
2)针对无人机提供网络服务的场景下,现有的无人机路径规划算法中,大多没有考虑无人机电量有限的特点,在少数考虑充电问题的方法里没有考虑充电时间对服务质量的影响。本方法针对此问题在多无人机移动基站协同调度算法中,对状态空间和奖励函数进行了设计,使算法可以最大限度地提供总服务时间,并提供比其他先进算法更好的工作负载平衡。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种多无人机移动基站协同部署及调度方法,其特征在于,将网络服务区域均匀地划分为10m×10m的网格和20m×20m区块,即一个区块中包含4个网格,使用仿真软件获得区域的模拟吞吐量,包括以下步骤:
S1、在每个调度时间区间,使用基于深度强化学习的多无人机移动基站协同部署模块,找到提供有效吞吐量最高的前K个区块的集合,K为无人机的个数;
S2、使用基于深度强化学习的多无人机移动基站协同调度模块,规划无人机扫描提供有效吞吐量最高的前K个的区块的集合的路线,并在无人机能量不足时及时充电;
S3、无人机在扫描完成后,在最高吞吐量的网格处悬停提供服务,直到这个调度时间区间结束;
S4、重复以上步骤,直到整个网络服务的任务完成。
2.根据权利要求1所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块包括四个核心元素的强化学习任务,四个核心元素分别是状态空间动作空间A、奖励函数R和折扣因子γ;状态空间用来描述当前时刻环境的状态,在调度时间Tt,状态空间St表示为St=(LU,LC,ST),其中,LU表示当前时刻所有无人机的位置分布,LC表示当前时刻所有用户的分布,ST表示当前时刻区域的模拟吞吐量;动作空间A表示无人机可选择的扫描区块集合,动作空间A表示为A={CHl|l=1,2,…,L},在调度时间Tt,从A中选择一个动作at作为无人机扫描的区块,被选择过的区块选择概率被设置为0;对于状态St,当执行动作at后,系统进入下一个状态S′t并且返回一个奖励值r(St,at),奖励值r(St,at)是选择的区域块带来的吞吐量差值。
3.根据权利要求2所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的训练过程如下:
第一步,用随机权重θ和θ′=θ对评价网络Q和目标网络Q′进行初始化,初始化重现记忆库D容量为N;
第二步,在每个时刻t,分别为K台无人机选择服务的位置:从环境中获得当前状态St=(LU,LC,ST),当随机值小于epsilon时,随机选择动作at,否则at=argmaxaQ(st,a;θ);
第三步,执行动作at将获得奖励值r(St,at),此时状态更新为S′t,将(St,at,r(St,at),S′t)存入重现记忆库D,并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j),令yj=rj+γargmaxa′Q′(sj+1,a′;θ′),通过最小化损失函数更新权重θ,每选择C次动作,通过令Q′=Q更新Q′;
第四步,重复第二步和第三步,直到模型收敛。
4.根据权利要求1所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络:评价网络Q和目标网络Q′,其中评价网络Q的更新频率高于目标网络Q′。
5.根据权利要求1所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层组成,包括批标准化层、卷积层和两层全连接层,使用的激活函数为Relu。
6.根据权利要求1所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块包括四个核心元素的强化学习任务,四个核心元素分别是状态空间动作空间A、奖励函数R和折扣因子γ;状态空间用来描述当前时刻环境的状态,在调度时间Tt,状态空间St表示为St=(St1,St2),其中,St1表示全局状态,包括当前时刻需要扫描的网格位置SGt、需要扫描的网格的扫描状态Xt、其他无人机的位置U′loc和剩余电量U′elec、充电站的位置Lcharge和需要充的电量Echarge;St2表示局部状态,包括当前调度无人机的位置电量前往扫描网格和充电站所需的能耗UPtu和UCtu;动作空间表示无人机可执行的任务,包括充电站和需扫描的网格,动作空间A表示为A=(G,CS),其中G表示所有网格的集合,CS表示所有充电站的集合,在调度时间Tt,从A中选择一个动作at作为无人机执行的任务,被选择过的网格或不需要扫描的网格选择概率被设置为0;对于状态St,当执行动作at后,系统进入下一个状态S′t并且返回一个奖励值rt,rt表示为:
当动作是网格时,x=1,y=0;否则,x=0,y=1;当该动作使无人机耗尽能量时,γ是惩罚值,UPtu[at]和UCtu[at]是无人机uk移动到at的能耗,UPtu[at]对应的at是需要扫描的网格,UCtu[at]对应的at是充电站。
7.根据权利要求6所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块的训练过程如下:
第一步,用随机权重θ和θ′=θ对评价网络Q和目标网络Q′进行初始化,初始化重现记忆库D容量为N;
第二步,在每个时刻t,为当前可调度的无人机规划移动路径:如果所有扫描任务都已完成,停止规划路径;否则,从环境中获得当前状态St=(St1,St2),当随机值小于epsilon时,随机选择动作at,否则at=argmaxaQ(st,a;θ);
第三步,执行动作at将获得奖励值r(St,at),此时状态更新为S′t,将(St,at,r(St,at),S′t)存入重现记忆库D,并从D中随机采样H组变换(Sj,aj,r(Sj,aj),S′j),令yj=rj+γargmaxa′Q′(sj+1,a′;θ′),通过最小化损失函数更新权重θ;每选择C次动作,通过令Q′=Q更新Q′;
第四步,重复第二步、第三步,直到模型收敛。
8.根据权利要求1所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络:评价网络Q和目标网络Q′,其中评价网络Q的更新频率高于目标网络Q′。
9.根据权利要求1所述的多无人机移动基站协同部署及调度方法,其特征在于,步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层全连接层组成,使用的激活函数为Relu。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111390810.9A CN114091754A (zh) | 2021-11-23 | 2021-11-23 | 一种多无人机移动基站协同部署及调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111390810.9A CN114091754A (zh) | 2021-11-23 | 2021-11-23 | 一种多无人机移动基站协同部署及调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114091754A true CN114091754A (zh) | 2022-02-25 |
Family
ID=80302979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111390810.9A Pending CN114091754A (zh) | 2021-11-23 | 2021-11-23 | 一种多无人机移动基站协同部署及调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091754A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116185077A (zh) * | 2023-04-27 | 2023-05-30 | 北京历正飞控科技有限公司 | 一种黑飞无人机窄带精准打击方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268719A1 (en) * | 2015-01-13 | 2018-09-20 | Guangzhou Xaircraft Technology Co., Ltd. | Scheduling method and system for unmanned aerial vehicle, and unmanned aerial vehicle |
CN109283938A (zh) * | 2018-09-27 | 2019-01-29 | 深圳市道通智能航空技术有限公司 | 一种无人机系统和无人机系统控制方法 |
CN111216572A (zh) * | 2020-02-27 | 2020-06-02 | 西北工业大学 | 一种无人机集群的无线充电方法 |
CN113283013A (zh) * | 2021-06-10 | 2021-08-20 | 北京邮电大学 | 一种基于深度强化学习的多无人机充电及任务调度方法 |
-
2021
- 2021-11-23 CN CN202111390810.9A patent/CN114091754A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268719A1 (en) * | 2015-01-13 | 2018-09-20 | Guangzhou Xaircraft Technology Co., Ltd. | Scheduling method and system for unmanned aerial vehicle, and unmanned aerial vehicle |
CN109283938A (zh) * | 2018-09-27 | 2019-01-29 | 深圳市道通智能航空技术有限公司 | 一种无人机系统和无人机系统控制方法 |
CN111216572A (zh) * | 2020-02-27 | 2020-06-02 | 西北工业大学 | 一种无人机集群的无线充电方法 |
CN113283013A (zh) * | 2021-06-10 | 2021-08-20 | 北京邮电大学 | 一种基于深度强化学习的多无人机充电及任务调度方法 |
Non-Patent Citations (1)
Title |
---|
周毅;马晓勇;郜富晓;李伟;承楠;路宁: "基于深度强化学习的无人机自主部署及能效优化策略", 物联网学报, vol. 3, no. 002, 31 December 2019 (2019-12-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116185077A (zh) * | 2023-04-27 | 2023-05-30 | 北京历正飞控科技有限公司 | 一种黑飞无人机窄带精准打击方法 |
CN116185077B (zh) * | 2023-04-27 | 2024-01-26 | 北京历正飞控科技有限公司 | 一种黑飞无人机窄带精准打击方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388958B (zh) | 一种二维姿态机动卫星任务规划技术研究的方法及装置 | |
CN108880663B (zh) | 基于改进遗传算法的天地一体化网络资源分配方法 | |
Ding et al. | Improved particle swarm optimization algorithm based novel encoding and decoding schemes for flexible job shop scheduling problem | |
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
CN111913787B (zh) | 基于遗传算法的成像卫星调度方法和系统 | |
Cai et al. | A multi-objective chaotic particle swarm optimization for environmental/economic dispatch | |
Park et al. | A hybrid genetic algorithm for the job shop scheduling problems | |
CN103279793B (zh) | 一种确定环境下的无人飞行器编队任务分配方法 | |
Andervazh et al. | Emission‐economic dispatch of thermal power generation units in the presence of hybrid electric vehicles and correlated wind power plants | |
CN108256671A (zh) | 一种基于学习型遗传算法的多任务多资源滚动分配方法 | |
Khan et al. | Adopting Scenario-Based approach to solve optimal reactive power Dispatch problem with integration of wind and solar energy using improved Marine predator algorithm | |
CN109165808A (zh) | 一种电力通信网现场运维工单派发方法 | |
Chen et al. | Task scheduling method for data relay satellite network considering breakpoint transmission | |
Zhou et al. | Multi-objective optimization of electric vehicle routing problem with battery swap and mixed time windows | |
CN113885555A (zh) | 面向输电线路密集通道巡检的多机任务分配方法和系统 | |
CN109039428A (zh) | 基于冲突消解的中继卫星单址天线调度随机搜索方法 | |
CN117077981B (zh) | 融合邻域搜索变异和差分进化的停机位分配方法及装置 | |
Chopra et al. | An improved particle swarm optimization using simplex-based deterministic approach for economic-emission power dispatch problem | |
Makhadmeh et al. | Recent advances in Grey Wolf Optimizer, its versions and applications | |
Bhadoria et al. | A solution to non-convex/convex and dynamic economic load dispatch problem using moth flame optimizer | |
CN114091754A (zh) | 一种多无人机移动基站协同部署及调度方法 | |
CN115310775A (zh) | 多智能体强化学习滚动调度方法、装置、设备及存储介质 | |
Senthil et al. | Improved tabu search algorithm to economic emission dispatch with transmission line constraint | |
CN113283013B (zh) | 一种基于深度强化学习的多无人机充电及任务调度方法 | |
Ahmad et al. | EV charging station placement using nature-inspired optimisation algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |