CN114048689B - 基于深度强化学习的多无人机空中充电和任务调度方法 - Google Patents

基于深度强化学习的多无人机空中充电和任务调度方法 Download PDF

Info

Publication number
CN114048689B
CN114048689B CN202210034831.5A CN202210034831A CN114048689B CN 114048689 B CN114048689 B CN 114048689B CN 202210034831 A CN202210034831 A CN 202210034831A CN 114048689 B CN114048689 B CN 114048689B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
user
drone
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210034831.5A
Other languages
English (en)
Other versions
CN114048689A (zh
Inventor
夏景明
王亮
李斌
谈玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210034831.5A priority Critical patent/CN114048689B/zh
Publication of CN114048689A publication Critical patent/CN114048689A/zh
Application granted granted Critical
Publication of CN114048689B publication Critical patent/CN114048689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/12Timing analysis or timing optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于深度强化学习的多无人机空中充电和任务调度方法,包括:构建多无人机群辅助边缘计算模型;预设每个无人机的计算资源;构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型;以无人机群能耗最小为优化目标,采用DDQN算法求解用户设备的卸载决策;采用差分进化算法求解无人机的计算资源分配策略;再次利用差分进化算法对无人机部署策略进行优化;迭代直至获得无人机的部署策略、无人机的计算资源最优分配策略,以及用户设备的最优卸载决策。本发明考虑到了多无人机之间的协作,无人机之间计算资源的平衡,使部分无人机充当中继站,将任务传输给其他无人机来计算,以获得无人机系统能耗最小的最优卸载决策。

Description

基于深度强化学习的多无人机空中充电和任务调度方法
技术领域
本发明涉及多无人机协同的任务调度和空中能量捕获技术领域,具体而言涉及一种基于深度强化学习的多无人机空中充电和任务调度方法。
背景技术
随着第五代(5G)移动网络的大规模商业运营,需要高速网络支持的软件相续出现,如移动应用,移动在线游戏、增强现实和智能导航等。然而,这些应用程序大多数都是需要大量密集资源以及高质量网络服务,这使得只靠用户自身的移动设备是很难能够处理这些软件数据的,因为一般移动设备的电池容量和计算资源都十分有限,短时间内处理不了如此庞大的数据,电量消耗上也不允许,而移动边缘计算主要通过部署在高空无人机上的服务器来给附件的用户提供服务,用户通过自身设备将任务卸载给附近的高空无人机,让无人机来处理任务并传回计算结果;与传统的地面基站相比,移动边缘计算不仅在资源密集型任务中表现优秀,还对于突发性灾难和高密度人群区域的网络卡顿以及信号差等问题带来了解决方案;同时基于无人机本身的灵活性、易部署性和低成本等特点,移动边缘计算在自然灾害、紧急事件、时变热点人群聚集区和附近没有基站的边远山区时使用效果非常突出。近年来,移动边缘计算也自然成为了热点研究项目之一。
移动边缘计算的问题主要聚焦在以下几点:降低能耗、计算资源分配以及无人机续航等。国内外大多数研究中都会针对能耗问题进行一定的优化,而计算资源分配和无人机续航则少有研究涉及。一般情况下用户都会把任务传输给最近的无人机或基站等计算节点进行计算,而在人群聚集区,单无人机或基站的计算资源和服务覆盖范围总归是有限的,无法服务数量庞大的任务数据。同时,远处的无人机或基站由于没有用户上传任务导致机器空闲,计算资源浪费。所以,部署多个无人机并使之相互合作,配合基站传输任务给空闲的计算节点是非常有必要的。
多无人机协同是指部署多架无人机,无人机不仅可以计算任务,还能相互卸载任务给对方,同时也能接受或传输任务给地面基站,由于一般无人机上都附有天线设备,传输速度和传输范围都比用户的移动设备要快和广。当多无人机系统中有部分无人机出现任务量过载,整个系统会自动调配平衡各个无人机之间的任务量,将任务数据量与计算资源相匹配,把过载无人机上的多余任务传输给其他闲置的无人机,使得计算资源能够有效的利用,最大程度上的降低能耗;但多无人机的部署位置,各无人机与用户之间的关联性,以及如何得到平衡有效的任务调度,都是多无人机系统需要面临的问题。
在续航方面,一般无人机都会自带充满电的电池在高空中为用户服务。一般服务几个小时之后就会因为电量不足飞回充电处充电然后再次飞向高空服务用户。目前有部分研究对于续航的解决方案是给无人机装上太阳能电池板,使无人机在空闲状态下可以通过太阳能来给自身恢复电量,延长服务时间;而面临的问题也很显然,一旦天气不好或在夜间服务时,太阳能板的能量转化率很低,无法有效为无人机供电,使无人机的自动续航功能限制在了白天。
2021.02.19公开的发明(CN112381265A)中提及一种基于无人机的充电和任务卸载系统及其任务耗时优化方法,向用户设备提供本地计算的消耗电量和将任务卸载的消耗电量,通过对用户设备所具备资源的最大化利用,使用户设备能在最短时间内处理或传输其任务数据,在这个前提下,通过对本地计算和卸载计算两种模式下任务总耗时的比较权衡,选择最优于用户设备体验的策略方案,实现了系统任务完成总耗时最小化的目标。该发明不涉及无人机空中充电情形下的最优任务调度。
2021.08.24公开的发明(CN113296963A)中提及一种考虑用户移动性的无人机辅助的边缘计算方法,包括:建立由数字孪生驱动的无人机辅助计算网络;由无人机辅助计算网络实时反馈用户、无人机和空闲设备的实时数据、位置和状态;以降低用户总时延为目标,采用分布式深度学习求解用户的卸载策略;利用差分进化学习求解无人机的位置部署。本发明可以有效的利用孪生网络反馈用户实时数据,获得全局近优解的无人机部署和卸载策略,降低用户的处理时延。该发明同样不涉及无人机空中充电情形下的最优任务调度。
发明内容
本发明针对现有技术中的不足,提供一种基于深度强化学习的多无人机空中充电和任务调度方法,根据各无人机的位置、用户位置、待执行任务数量,通过深度强化学习模型进行任务调度,得到最佳卸载决策。在无人机闲置的时候,无人机上的能量板能够吸收太阳能或地面基站发射的能量波来转化为自身电量,提高无人机的续航能力。本发明考虑到了多无人机之间的协作,无人机之间计算资源的平衡,使部分无人机充当中继站,将任务传输给其他无人机来计算,以获得无人机系统能耗最小的最优卸载决策。
为实现上述目的,本发明采用以下技术方案:
本发明实施例提出了一种基于深度强化学习的多无人机空中充电和任务调度方法,所述多无人机空中充电和任务调度方法包括以下步骤:
S1,根据第三方收集的数据,得到环境中各个用户和基站的位置,构建多无人机群辅助边缘计算模型;
S2,初始化无人机群的部署位置,预设每个无人机的计算资源;
S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型;每个用户设备的计算任务有三种不同的卸载方式: 本地计算、近端卸载和远端卸载;本地计算是指计算任务在用户设备上执行;近端卸载是指用户设备将计算任务卸载到其最近无人机节点;远端卸载是指用户设备将计算任务先卸载到最近的无人机节点,以此无人机作为中继站,帮助用户把任务传输给其他无人机进行计算;当无人机电量不足时,此无人机会中止计算服务,将全部任务传给其他无人机后专心吸收太阳能和能量波来充电,同时充当任务中继站;
S4,基于步骤S3的优化模型,以无人机群能耗最小为优化目标,采用DDQN算法求解用户设备的卸载决策;
S5,基于无人机的当前位置和S4得到的卸载决策,采用差分进化算法求解无人机的计算资源分配策略;
S6,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化;
S7,循环执行步骤S4至步骤S6,直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值,或者达到最大预设迭代次数时,迭代结束,获得无人机的部署策略、无人机的计算资源最优分配策略,以及用户设备的最优卸载决策。
进一步地,步骤S2中,根据区域范围内的用户密度,初始化无人机群的部署位置。
进一步地,S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型的过程包括以下步骤:
S31,设环境中的用户设备总数量为
Figure 715733DEST_PATH_IMAGE001
Figure 196393DEST_PATH_IMAGE002
是指第
Figure 816731DEST_PATH_IMAGE002
个用户设备,
Figure 408249DEST_PATH_IMAGE003
,无人机 总数量为𝑁,第𝑛架无人机的编号为𝑛,∀𝑛∈𝑁;
构造三维坐标欧几里得坐标系模型,其中用户设备i的位置为
Figure 102535DEST_PATH_IMAGE004
Figure 331260DEST_PATH_IMAGE005
, 无人机j的位置为
Figure 110997DEST_PATH_IMAGE006
Figure 568524DEST_PATH_IMAGE007
,无人机固定高度为H;每个用户设备都有一个要执行的 任务
Figure 195945DEST_PATH_IMAGE008
Figure 18408DEST_PATH_IMAGE009
,其中
Figure 285441DEST_PATH_IMAGE010
表示完成
Figure 546658DEST_PATH_IMAGE008
的CPU周期总数,
Figure 215537DEST_PATH_IMAGE011
表示用户设备输入数 据的大小,
Figure 208901DEST_PATH_IMAGE012
表示计算任务
Figure 274814DEST_PATH_IMAGE008
的最大时延;
每个无人机均配备两个通信模块;其中一个通信模块包括半功率波束宽度仰角为2θ∈(0,π)的定向天线,用于与用户设备传输通信,另一个通信模块包括全向天线,用于与其他无人机传输通信;
S32,设
Figure 11826DEST_PATH_IMAGE013
表示用户i的近端无人机边缘节点集,
Figure 535212DEST_PATH_IMAGE014
表示远端无人机边缘节点集
Figure 965056DEST_PATH_IMAGE015
;它产生以下约束:
Figure 268998DEST_PATH_IMAGE016
Figure 544122DEST_PATH_IMAGE017
表示处于充电过程中的无人机集合,
Figure 187593DEST_PATH_IMAGE018
表示处于正常工作状态中的无人机集 合,用户设备i的近端无人机边缘节点集
Figure 335808DEST_PATH_IMAGE019
和远端无人机边缘节点集
Figure 64730DEST_PATH_IMAGE020
表示为:
Figure 143544DEST_PATH_IMAGE021
它产生以下约束:
Figure 703839DEST_PATH_IMAGE022
设无人机j覆盖的用户设备集合为
Figure 475486DEST_PATH_IMAGE023
未覆盖的用户设备集合为
Figure 426124DEST_PATH_IMAGE024
,每个无人机 同时执行的最大任务数为
Figure 308630DEST_PATH_IMAGE025
,产生以下约束:
Figure 972698DEST_PATH_IMAGE026
Figure 915246DEST_PATH_IMAGE027
S33,设
Figure 353181DEST_PATH_IMAGE028
表示用户的卸载决策;其中,
Figure 836115DEST_PATH_IMAGE029
表示用户i的任务自己执行,否 则为0;
Figure 308684DEST_PATH_IMAGE030
表示用户i的任务卸载到近端无人机边缘节点j,否则为0;
Figure 422134DEST_PATH_IMAGE031
表示用 户i的任务通过近端无人机边缘节点
Figure 160414DEST_PATH_IMAGE032
的中继卸载到远端无人机边缘节点k,否则为0;同时 用户的计算任务只能在一个设备上执行,不能多设备执行同一个任务;计算任务卸载决策 有以下限制:
Figure 384722DEST_PATH_IMAGE033
S34,无人机j到无人机k的传输数据速率为:
Figure 446219DEST_PATH_IMAGE034
其中
Figure 730569DEST_PATH_IMAGE035
为信道带宽,
Figure 205413DEST_PATH_IMAGE036
为无人机j的发射功率,
Figure 233412DEST_PATH_IMAGE037
为参考距离1m处的信道功 率增益,
Figure 414995DEST_PATH_IMAGE038
为无人机k与无人机j之间的距离平方,
Figure 916252DEST_PATH_IMAGE039
为噪声功率谱密度;
用户i到无人机j的上传数据速率为:
Figure 816075DEST_PATH_IMAGE040
其中,
Figure 382185DEST_PATH_IMAGE041
是用户i的信道带宽,
Figure 746171DEST_PATH_IMAGE042
是用户i的传输功率,
Figure 106745DEST_PATH_IMAGE043
是参考距离1 m处的 信道功率增益,
Figure 493864DEST_PATH_IMAGE044
是M用户i和无人机j之间的距离平方,
Figure 863665DEST_PATH_IMAGE039
是噪声功率谱密度,
Figure 567310DEST_PATH_IMAGE045
为正常 数,G0≈ 2.2846;
S35,当用户的卸载决策为本地卸载时,其计算时延和计算能耗的公式为:
Figure 364365DEST_PATH_IMAGE046
Figure 973201DEST_PATH_IMAGE047
其中
Figure 209010DEST_PATH_IMAGE048
为用户i的有效交换电容,
Figure 219691DEST_PATH_IMAGE049
为用户i本身的计算资源;
当用户的卸载决策为近端卸载时,其计算时延和计算能耗的公式为:
Figure 187647DEST_PATH_IMAGE050
Figure 283779DEST_PATH_IMAGE051
其中
Figure 306968DEST_PATH_IMAGE052
为近端无人机j的有效切换电容,
Figure 172156DEST_PATH_IMAGE053
为近端无人机j为用户i分配的计算资 源,
Figure 311013DEST_PATH_IMAGE054
为用户i本身设备的传输发射功率;
当用户的卸载决策为远端卸载时,其计算时延和计算能耗的公式为:
Figure 956758DEST_PATH_IMAGE055
Figure 206474DEST_PATH_IMAGE056
其中
Figure 191747DEST_PATH_IMAGE057
是远端无人机k为用户 i分配的计算资源,
Figure 314555DEST_PATH_IMAGE058
是中继无人机j的发射功率;
用户设备i对应的能耗公式以及时延公式如下所示:
Figure 385279DEST_PATH_IMAGE059
其中
Figure 438686DEST_PATH_IMAGE060
是用户选择本地卸载时的能耗,
Figure 278466DEST_PATH_IMAGE061
是用户选择本地卸载时的时延;
Figure 821443DEST_PATH_IMAGE062
是用户选择近端卸载时的能耗;
Figure 113884DEST_PATH_IMAGE063
是用户选择远端卸载时的能耗;
S36,设无人机自带大小容量为
Figure 970982DEST_PATH_IMAGE064
的电池,无人机空中捕获能量的效率公式表 示为:
Figure 976853DEST_PATH_IMAGE065
其中,
Figure 628414DEST_PATH_IMAGE058
为每个无人机在
Figure 673730DEST_PATH_IMAGE066
时间内所捕获的能量,
Figure 68939DEST_PATH_IMAGE067
为第n个子信道的增益,
Figure 680049DEST_PATH_IMAGE068
为基站向第n个子信道广播发射功率;
无人机的太阳能板充电效率为:
Figure 768091DEST_PATH_IMAGE069
其中
Figure 35124DEST_PATH_IMAGE070
代表能量转换效率,
Figure 47074DEST_PATH_IMAGE071
代表太阳能电池板的面积,
Figure 450373DEST_PATH_IMAGE072
代表地球上的平均太 阳辐射,
Figure 709316DEST_PATH_IMAGE073
是大气透过率的最大值,
Figure 525963DEST_PATH_IMAGE074
是大气的消光系数,
Figure 262975DEST_PATH_IMAGE075
地球的尺度高度;
无人机电量警戒值设为满电量的20%,即:
Figure 786360DEST_PATH_IMAGE076
无人机从警戒值到满电所需要的充电时间为:
Figure 527789DEST_PATH_IMAGE077
其中
Figure 503835DEST_PATH_IMAGE078
是无人机飞行时的能量消耗速率;
无人机充当中继站的同时从警戒值到满电所需要的充电时间为:
Figure 44538DEST_PATH_IMAGE079
充电约束如下:
Figure 750325DEST_PATH_IMAGE080
S37,总系统能耗优化问题如下:
Figure 85492DEST_PATH_IMAGE081
Figure 814413DEST_PATH_IMAGE082
其中目标函数表示整个系统的能耗,
Figure 893228DEST_PATH_IMAGE083
表示的是无人机的悬停能耗;约束C1和C2 表示用户的位置在规定范围内,约束C3和C4表示无人机的位置在规定范围内,约束C5表示 所有任务的处理时延不能超过最大时延
Figure 204255DEST_PATH_IMAGE084
进一步地,步骤S4中,采用DDQN算法求解用户设备的卸载决策的过程包括以下步骤:
S41,建模深度强化学习模型,模型参数包括:迭代轮数T、状态特征维度n、动作集 A、步长α、衰减因子γ、探索率
Figure 710322DEST_PATH_IMAGE085
、网络结构Q、用于表示马尔可夫决策过程的批量梯度下降的 样本数m、状态S、动作A、执行完A后的奖励函数R和执行完A后的下一状态S′;
S42, 初始化S为当前状态序列的第一个状态, 获取其特征向量
Figure 926540DEST_PATH_IMAGE086
S43,在Q网络中使用
Figure 871362DEST_PATH_IMAGE086
作为输入,得到Q网络的所有动作对应的Q值输出;用
Figure 223846DEST_PATH_IMAGE085
− 贪婪法在当前Q值输出中选择对应的动作A;
S44,在状态S执行当前动作A,得到新状态S′对应的特征向量
Figure 166394DEST_PATH_IMAGE087
和奖励R;
S45,将
Figure 604329DEST_PATH_IMAGE088
这个五元组存入经验回放集合D;
S46,令S=S′;
S47,从经验回放集合D中采样m个样本
Figure 336530DEST_PATH_IMAGE089
,计算当前目标Q值
Figure 809100DEST_PATH_IMAGE090
Figure 656970DEST_PATH_IMAGE091
S48,使用均方差损失函数
Figure 644518DEST_PATH_IMAGE092
,通过神经 网络的梯度反向传播来更新Q网络的所有参数w;
S49,如果S′是终止状态,当前轮迭代完毕,否则转到S43;
S410,迭代执行S42 至S49,直到满足预设终止条件时为止,输出基于当前无人机部署和资源分配的最优卸载决策。
进一步地,步骤S5中,采用差分进化算法求解无人机的计算资源分配策略的过程包括以下步骤:
S51,将每个无人机的坐标当作一个个体,所有无人机的个体组合起来,生成无人 机种群;基于步骤S4得到的卸载决策,将所有无人机的资源分配表示为一个种群,每个无人 机分给任务的资源被编码成一个个体;
Figure 868826DEST_PATH_IMAGE093
代表第
Figure 195902DEST_PATH_IMAGE094
代无人机的资源分配:
Figure 293302DEST_PATH_IMAGE095
其中
Figure 705829DEST_PATH_IMAGE096
表示无人机j分给所有在此无人机上计算的任务的计算资源,
Figure 468249DEST_PATH_IMAGE097
;
S52,初始化生成无人机的资源分配策略为
Figure 712148DEST_PATH_IMAGE098
,构造种群P(X,1);在第
Figure 167400DEST_PATH_IMAGE094
代中, 每个个体
Figure 67223DEST_PATH_IMAGE096
执行变异和交叉操作以生成新的个体
Figure 968356DEST_PATH_IMAGE099
S53,基于卸载决策分别评估新的和旧的资源分配决策,选择最佳个体作为下一代,表述为:
Figure 4445DEST_PATH_IMAGE100
其中
Figure 630598DEST_PATH_IMAGE101
代表
Figure 80034DEST_PATH_IMAGE099
取代
Figure 184256DEST_PATH_IMAGE102
Figure 340431DEST_PATH_IMAGE103
表示基于之前的卸载决策,给定资源分配后整 体系统的能耗情况,当
Figure 950535DEST_PATH_IMAGE104
Figure 559371DEST_PATH_IMAGE105
表现的要优秀时,
Figure 732863DEST_PATH_IMAGE106
S54,循环步骤S52和S53直到达到迭代次数上线或满足相应的预设条件时为止。
进一步地,步骤S6中,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化的过程包括以下步骤:
S61,基于S5步骤得到的资源分配,将所有无人机的位置表示为一个种群,每个无 人机的坐标被编码成一个个体,
Figure 743545DEST_PATH_IMAGE093
代表第
Figure 773818DEST_PATH_IMAGE094
代无人机的x,y轴坐标;
S62,令无人机的位置为
Figure 869950DEST_PATH_IMAGE107
,构造种群P(X,1);在第
Figure 315974DEST_PATH_IMAGE094
代中,每个个体
Figure 758326DEST_PATH_IMAGE108
执行变 异和交叉操作以生成新的个体
Figure 897183DEST_PATH_IMAGE109
S63,基于卸载决策和任务调度分别评估新的和旧的无人机部署位置,并选择最佳个体作为下一代,其表述为:
Figure 480611DEST_PATH_IMAGE110
其中
Figure 730327DEST_PATH_IMAGE101
代表
Figure 777918DEST_PATH_IMAGE109
取代
Figure 87676DEST_PATH_IMAGE108
Figure 158400DEST_PATH_IMAGE111
表示基于之前的卸载决策和资源分配,根据相应 无人机位置求出整体系统的能耗情况,当
Figure 24856DEST_PATH_IMAGE112
Figure 864636DEST_PATH_IMAGE113
表现的优秀时,
Figure 345296DEST_PATH_IMAGE114
进一步地,所述多无人机空中充电和任务调度方法还包括以下步骤:
S8,在无人机自身空闲的情况下,无人机发送充电需求至地面基站或其他设施,地面基站或其他设施向空中发射能量波供无人机吸收充电,同时无人机也能够通过自身的太阳能板来吸收太阳能,以此恢复自身电量;
其中,在无人机正在处理任务时,若电量小于设定的电量警戒值,停止当前任务,将自身所有任务传输给其他无人机,自身开始专心吸收能量充电,直至电量高于80%,期间该无人机充当中继站帮助其他无人机转发任务。
进一步地,所述电量警戒值为20%总电量。
本发明的有益效果是:
本发明公开的一种基于深度强化学习的多无人机空中充电和任务调度方法,涉及多无人机协同的任务调度和空中能量捕获,具体而言为一种多无人机相互合作卸载任务,在空闲时间会捕获太阳能或基站发射的能量波来给无人机自身充电。本发明考虑到了多无人机之间的协作,无人机之间计算资源的平衡,使部分无人机充当中继站,将任务传输给其他无人机来计算,以获得无人机系统能耗最小的最优卸载决策。
附图说明
图1是本发明实施例的基于深度强化学习的多无人机空中充电和任务调度方法流程图。
图2是本发明实施例的多无人机协同计算模型图。
图3是本发明实施例的深度强化学习网络结构示意图。
图4是本发明实施例的深度强化学习结果收敛情况示意图。
图5是本发明实施例的差分进化学习种群示意图。
图6是在完成多无人机协同计算的同时,考虑到无人机空中蓄能的流程示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
图1是本发明实施例的基于深度强化学习的多无人机空中充电和任务调度方法流程图。参见图1,该多无人机空中充电和任务调度方法根据自身任务数量和电量,通过深度强化学习模型来对无人机进行调度,无人机会将多余的任务传输给附近有多余计算资源的无人机来计算;当无人机电量不足时,此无人机会中止计算服务,将全部任务传给其他无人机后专心吸收太阳能和能量波来充电,同时充当任务中继站。具体步骤为:
S1,根据第三方收集的数据,得到环境中各个用户和基站的位置,构建多无人机群辅助边缘计算模型;该模型可以使无人机之间相互协作,可以相互卸载来自用户的任务,减少无人机的空闲状态,降低计算资源的浪费。
S2,先初始化一组无人机的部署位置,预设好每个无人机的计算资源,之后的步骤将通过此步骤初始化的无人机位置和计算资源来求得用户的卸载决策和任务调度;一开始拟定的无人机位置是尽可能人为的把无人机安排在用户密集的区域,同时通过固定计算资源给下一步的深度强化学习提供一个相对简单的环境来得出卸载决策。
S3,基于步骤S1和S2获得的用户位置及任务等信息,无人机位置及计算资源等信息,构建多无人机位置部署,用户设备卸载决策和计算资源分配的优化模型。
S4,基于步骤S3构建的优化模型,使用DDQN算法求解用户设备的卸载决策,DDQN是深度强化学习的一种, DDQN是基于DQN的算法,与DQN的最大不同之处就是解决了DQN的过估计问题;在DQN的基础上,将动作的选择和动作的评估分别用不同的值函数来实现,解决了DQN在每次学习时,不是使用下一次交互的真实动作,而是使用当前认为价值最大的动作来更新目标值函数(对于真实的策略来说并在给定的状态下并不是每次都选择使得Q值最大的动作,所以在这里目标值直接选择动作最大的Q值往往会导致目标值要高于真实值),使得目标Q值的计算更加准确。
S5,基于步骤S2的无人机初始位置和S4得到的卸载决策,应用差分进化算法求解无人机的计算资源分配策略。
S6,基于步骤S5求解出的用户设备卸载决策和无人机的计算资源分配策略,再次利用差分进化算法得到更好的无人机部署策略。
S7,循环执行步骤S4和步骤S6,直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值,或者达到最大预设迭代次数时,迭代结束,即获得无人机的部署策略,无人机的计算资源最优分配策略,以及获得用户设备的最优卸载决策。
可选地,步骤S3中,基于第三方收集和S2中拟定的数据来得到环境中的信息来建立优化模型,包括:
利用自第三方收集的数据中得到环境中各用户设备数量
Figure 700054DEST_PATH_IMAGE115
, 和其位置 信息,假设最终的无人机数量为𝑁,第𝑛架无人机的编号为𝑛,∀𝑛∈𝑁。
S31,构造了一个三维坐标欧几里得坐标系模型,其中用户位置由
Figure 557152DEST_PATH_IMAGE116
给出,
Figure 251438DEST_PATH_IMAGE117
,无人机位置由
Figure 903000DEST_PATH_IMAGE118
Figure 259900DEST_PATH_IMAGE119
,无人机固定高度为H给出。此外,本实施例假定每 个用户设备都有一个要执行的任务
Figure 655110DEST_PATH_IMAGE120
Figure 203903DEST_PATH_IMAGE120
可以描述为
Figure 354261DEST_PATH_IMAGE121
,其中
Figure 621295DEST_PATH_IMAGE122
描述完成
Figure 554615DEST_PATH_IMAGE120
的CPU周期总数,
Figure 223494DEST_PATH_IMAGE123
表示用户设备输入数据的大小,
Figure 295487DEST_PATH_IMAGE124
表示计算任务
Figure 784237DEST_PATH_IMAGE120
的最 大时延。至于无人机边缘节点,我们假设它们配备了两个通信模块。一个通信模块有一个半 功率波束宽度仰角为2θ∈(0,π)的定向天线,用于与用户设备传输通信,另一个通信模块有 一个全向天线,用于与其他无人机传输通信。
S32,参见图2,在上述多无人机边缘网络系统中每个用户设备的计算任务可以有 三种不同的卸载方式: 本地计算、近端卸载和远端卸载。本地计算意味着计算任务在用户 设备上执行;近端卸载意味着用户设备将计算任务卸载到其最近无人机节点。远端卸载意 味着用户设备将计算任务先卸载到最近的无人机节点,然后此无人机作为中继站,帮助用 户把任务传输给其他无人机进行计算;为了更清楚地表达计算任务卸载策略,我们引入
Figure 786828DEST_PATH_IMAGE125
来表示用户i的近端无人机边缘节点集,
Figure 372530DEST_PATH_IMAGE126
来表示远端无人机边缘节点集
Figure 536795DEST_PATH_IMAGE127
;它产生以 下约束:
Figure 778421DEST_PATH_IMAGE016
S33,考虑到无人机在空中进行能量捕获时,只能作为中继站给用户提供任务传输 服务,而不能够给用户提供计算任务服务,引入
Figure 630708DEST_PATH_IMAGE128
表示处于充电过程中的无人机集合,
Figure 8599DEST_PATH_IMAGE129
表 示处于正常工作状态中的无人机集合,所以用户i的近端无人机边缘节点集
Figure 609345DEST_PATH_IMAGE130
和远端无人 机边缘节点集
Figure 72687DEST_PATH_IMAGE131
进一步表示为:
Figure 479398DEST_PATH_IMAGE132
它产生以下约束:
Figure 977375DEST_PATH_IMAGE133
同时,假设无人机j覆盖的用户设备集合为
Figure 483443DEST_PATH_IMAGE134
未覆盖的用户设备集合为
Figure 512710DEST_PATH_IMAGE135
,每个 无人机同时执行的最大任务数为
Figure 395216DEST_PATH_IMAGE136
,产生以下约束:
Figure 747699DEST_PATH_IMAGE137
Figure 486985DEST_PATH_IMAGE138
S34,引入
Figure 924920DEST_PATH_IMAGE139
来表示用户的卸载决策,
Figure 611116DEST_PATH_IMAGE140
表示用户i的任务自己执行,否 则为0;
Figure 818107DEST_PATH_IMAGE141
表示用户i的任务卸载到近端无人机边缘节点j,否则为0;
Figure 243141DEST_PATH_IMAGE142
表示用 户i的任务通过近端无人机边缘节点
Figure 168371DEST_PATH_IMAGE143
的中继卸载到远端无人机边缘节点k,否则为0。同时 用户的计算任务只能在一个设备上执行,不能多设备执行同一个任务。计算任务卸载决策 有以下限制:
Figure 392679DEST_PATH_IMAGE144
S35,在本实施例的优化模型中,每个无人机边缘节点配备有两个通信模块。考虑到空中没有障碍物,无人机通信链路的视线通道占优势。因此,从无人机到无人机的信道增益被描述为自由空间路径损耗模型。然后,无人机j到无人机k的传输数据速率给出为:
Figure 782072DEST_PATH_IMAGE145
其中
Figure 66423DEST_PATH_IMAGE146
为信道带宽,
Figure 213371DEST_PATH_IMAGE147
为无人机j的发射功率,
Figure 54419DEST_PATH_IMAGE148
为参考距离1m处的信道功 率增益,
Figure 236001DEST_PATH_IMAGE149
为无人机k与无人机j之间的距离平方,
Figure 691254DEST_PATH_IMAGE150
为噪声功率谱密度。
用户i到无人机j的上传数据速率给定为:
Figure 653393DEST_PATH_IMAGE151
其中,
Figure 219504DEST_PATH_IMAGE152
是用户i的信道带宽,
Figure 255593DEST_PATH_IMAGE153
是用户i的传输功率,
Figure 881746DEST_PATH_IMAGE154
是参考距离1 m处的 信道功率增益,
Figure 314871DEST_PATH_IMAGE155
是M用户i和无人机j之间的距离平方,
Figure 684672DEST_PATH_IMAGE150
是噪声功率谱密度。
Figure 840847DEST_PATH_IMAGE156
为正常 数(≈ 2.2846)。
S36,当用户的卸载决策为本地卸载时,其计算时延和计算能耗的公式为:
Figure 700219DEST_PATH_IMAGE157
Figure 309054DEST_PATH_IMAGE158
其中
Figure 216968DEST_PATH_IMAGE159
为用户i的有效交换电容,
Figure 40698DEST_PATH_IMAGE160
为用户i本身的计算资源。
当用户的卸载决策为近端卸载时,其计算时延和计算能耗的公式为:
Figure 8654DEST_PATH_IMAGE161
Figure 104786DEST_PATH_IMAGE162
其中
Figure 816390DEST_PATH_IMAGE163
为近端无人机j的有效切换电容,
Figure 9474DEST_PATH_IMAGE164
为近端无人机j为用户i分配的计算资 源,
Figure 148332DEST_PATH_IMAGE165
为用户i本身设备的传输发射功率。
当用户的卸载决策为远端卸载时,其计算时延和计算能耗的公式为:
Figure 466180DEST_PATH_IMAGE166
Figure 293060DEST_PATH_IMAGE167
其中
Figure 278333DEST_PATH_IMAGE168
是远端无人机k为用户 i分配的计算资源,
Figure 588092DEST_PATH_IMAGE169
是中继无人机j的发射功率。
本实施例的能耗公式以及时延公式如下所示:
Figure 455554DEST_PATH_IMAGE170
Figure 508960DEST_PATH_IMAGE171
其中
Figure 348741DEST_PATH_IMAGE172
是用户选择本地卸载时的能耗,时延
Figure 829400DEST_PATH_IMAGE173
同理;
Figure 200470DEST_PATH_IMAGE174
是用户选择近端卸 载时的能耗;
Figure 791988DEST_PATH_IMAGE175
是用户选择远端卸载时的能耗。
S37,无人机自带大小容量为
Figure 751854DEST_PATH_IMAGE176
的电池,无人机空中捕获能量的效率公式可以表 示为:
Figure 465732DEST_PATH_IMAGE177
其中,
Figure 245469DEST_PATH_IMAGE178
为每个无人机在
Figure 640679DEST_PATH_IMAGE179
时间内所捕获的能量,
Figure 766635DEST_PATH_IMAGE180
为第n个子信道的增益,
Figure 589098DEST_PATH_IMAGE181
为基站向第n个子信道广播发射功率。
无人机的太阳能板充电效率为:
Figure 856131DEST_PATH_IMAGE182
其中
Figure 117348DEST_PATH_IMAGE183
代表能量转换效率,
Figure 786227DEST_PATH_IMAGE184
代表太阳能电池板的面积,
Figure 779591DEST_PATH_IMAGE185
代表地球上的平均 太阳辐射,
Figure 533920DEST_PATH_IMAGE186
是大气透过率的最大值,
Figure 349560DEST_PATH_IMAGE187
是大气的消光系数,
Figure 872946DEST_PATH_IMAGE188
地球的尺度高度。可以看 出,海拔越高,总是越好获得的太阳能。
无人机电量警戒值设为满电量的20%,即:
Figure 37211DEST_PATH_IMAGE189
无人机从警戒值到满电所需要的充电时间为:
Figure 341153DEST_PATH_IMAGE190
其中
Figure 881856DEST_PATH_IMAGE191
是无人机飞行时的能量消耗速率。
无人机充当中继站的同时从警戒值到满电所需要的充电时间为:
Figure 259748DEST_PATH_IMAGE192
为了防止充电时,继续充当中继站的无人机在传输时消耗的能量比充电获得的能量还大,现有以下约束:
Figure 172078DEST_PATH_IMAGE193
S38总系统能耗优化问题如下:
Figure 510786DEST_PATH_IMAGE081
Figure 855180DEST_PATH_IMAGE082
本优化问题主要是为了使无人机能耗最小化,间接延长无人机空中工作时间,其 中目标函数表示整个系统的能耗,
Figure 149895DEST_PATH_IMAGE194
表示的是无人机的悬停能耗。约束C1和C2表示用户的 位置在规定范围内,约束C3和C4表示无人机的位置在规定范围内,约束C5表示所有任务的 处理时延不能超过最大时延
Figure 921542DEST_PATH_IMAGE195
参见图3,步骤S4中,应用深度强化学习里的DDQN算法求解用户设备的卸载决策,选择DDQN算法而不选择其他的深度强化学习算法主要是因为DDQN在DQN的基础上,将动作的选择和动作的评估分别用不同的值函数来实现,解决了DQN在每次学习时,不是使用下一次交互的真实动作,而是使用当前认为价值最大的动作来更新目标值函数,使得目标Q值的计算更加准确;具体操作内容包括:
S41,深度强化学习模型建模为迭代轮数T,状态特征维度n, 动作集A, 步长α,衰 减因子γ, 探索率
Figure 872181DEST_PATH_IMAGE196
,网络结构Q, 批量梯度下降的样本数m表示的马尔可夫决策过程,S为 状态,A为动作,R为执行完A后的奖励函数,S′为执行完A后的下一状态.
S42, 初始化S为当前状态序列的第一个状态, 拿到其特征向量
Figure 66270DEST_PATH_IMAGE197
S43,在Q网络中使用
Figure 418754DEST_PATH_IMAGE197
作为输入,得到Q网络的所有动作对应的Q值输出。用
Figure 361302DEST_PATH_IMAGE196
− 贪婪法在当前Q值输出中选择对应的动作A。
S44,在状态S执行当前动作A,得到新状态S′对应的特征向量
Figure 799237DEST_PATH_IMAGE198
和奖励R。
S45,将
Figure 547750DEST_PATH_IMAGE199
这个五元组存入经验回放集合D。
S46,S=S′。
S47,从经验回放集合D中采样m个样本
Figure 754741DEST_PATH_IMAGE200
,计算当前目标Q值
Figure 868190DEST_PATH_IMAGE201
Figure 606470DEST_PATH_IMAGE202
S48,使用均方差损失函数
Figure 830778DEST_PATH_IMAGE203
,通过神经网络 的梯度反向传播来更新Q网络的所有参数w。
S49,如果S′是终止状态,当前轮迭代完毕,否则转到S43。
S410,迭代进行S42 至S49,直到满足条件时为止,最终深度强化学习模型输出的是基于当前无人机部署和资源分配的最优卸载决策。
步骤S5中,应用差分进化算法求解无人机的计算资源分配策略。
S51,原本求解无人机的部署是一个十分复杂的问题,使用传统的凸优化办法求解,复杂度太高。相反,差分进化学习虽然不一定能求解出全局最优解,但是该方法能够以较小的复杂度求解出全局近优解,在可以接受的情况下,差分进化学习更加具有实用性。具体来说,每个无人机的坐标当作一个个体。所有无人机的个体组合起来,生成无人机种群。基于S4步骤得到的卸载决策,本实施例将所有无人机的资源分配表示为一个种群,每个无人机分给任务的资源被编码成一个个体。P(X,g)代表第g代无人机的资源分配:
Figure 157854DEST_PATH_IMAGE204
其中
Figure 238943DEST_PATH_IMAGE205
,表示无人机j分给所有在此无人机上计算的任务的计算资源。
S52,本实施例初始化生成无人机的资源分配策略为
Figure 651470DEST_PATH_IMAGE206
,构造种群P(X,1);然 后,在第g代中,每个个体
Figure 679468DEST_PATH_IMAGE205
执行变异和交叉操作以生成新的个体
Figure 172635DEST_PATH_IMAGE207
S53,本实施例基于卸载决策分别评估新的和旧的资源分配决策,并选择最佳个体作为下一代,其可以表述为:
Figure 627888DEST_PATH_IMAGE208
其中
Figure 262131DEST_PATH_IMAGE209
代表
Figure 890559DEST_PATH_IMAGE207
取代
Figure 192227DEST_PATH_IMAGE205
Figure 631430DEST_PATH_IMAGE210
表示基于之前的卸载决策,给定资源分配后整 体系统的能耗情况,当
Figure 815286DEST_PATH_IMAGE211
Figure 185088DEST_PATH_IMAGE212
表现的要优秀时,
Figure 341263DEST_PATH_IMAGE213
S54,循环步骤S5-2和S5-3直到达到迭代次数上线或满足条件时为止。
步骤S6中,基于步骤S5求解出的用户设备卸载决策和无人机的计算资源分配策略,再次利用差分进化算法得到更好的无人机部署策略,具体包括:
S61,基于S5步骤得到的资源分配,将所有无人机的位置表示为一个种群,每个无人机的坐标被编码成一个个体。P(X,g)代表第g代无人机的x,y轴坐标,具体公式同S51。
S62,本实施例使用步骤S2中拟定的出书无人机的位置为
Figure 138317DEST_PATH_IMAGE206
,构造种群P(X,1); 然后,在第g代中,每个个体
Figure 58738DEST_PATH_IMAGE205
执行变异和交叉操作以生成新的个体
Figure 966651DEST_PATH_IMAGE214
S63,本实施例基于卸载决策和任务调度分别评估新的和旧的无人机部署位置,并选择最佳个体作为下一代,其表述为:
Figure 39649DEST_PATH_IMAGE215
其中
Figure 7605DEST_PATH_IMAGE209
代表
Figure 916786DEST_PATH_IMAGE214
取代
Figure 628391DEST_PATH_IMAGE205
Figure 493578DEST_PATH_IMAGE210
表示基于之前的卸载决策和资源分配,根据 相应无人机位置求出整体系统的能耗情况,当
Figure 694753DEST_PATH_IMAGE211
Figure 589765DEST_PATH_IMAGE212
表现的优秀时,
Figure 105060DEST_PATH_IMAGE216
图4是本发明实施例的深度强化学习结果收敛情况示意图。
步骤S7中,循环执行步骤S4和步骤S6,直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值,或者达到最大预设迭代次数时,迭代结束,即获得无人机的部署策略,无人机的计算资源最优分配策略,以及获得用户设备的最优卸载决策。
参见图6,此外,前述空中蓄能方法,具体包括:
在无人机自身有计算任务时,不进行吸收能量的充电操作,在无人机自身空闲的情况下,自动进行吸收能量并转化成自身电量的充电操作;在无人机充电的同时,无人机也可以通过充当中继站来帮助用户将任务传输给其他无人机;一旦无人机有充电需求,地面基站或其他设施向空中发射能量波供无人机吸收充电,同时无人机也能够通过自身的太阳能板来吸收太阳能,以此恢复自身电量;在无人机正在处理任务时,若电量小于设定的警戒值(例如20%),立马停止任务,并将自身所有任务传输给其他无人机,自身开始专心吸收能量充电,直至电量高于80%,期间依旧可充当中继站帮助其他无人机。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述多无人机空中充电和任务调度方法包括以下步骤:
S1,根据第三方收集的数据,得到环境中各个用户和基站的位置,构建多无人机群辅助边缘计算模型;
S2,初始化无人机群的部署位置,预设每个无人机的计算资源;
S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型;每个用户设备的计算任务有三种不同的卸载方式:本地计算、近端卸载和远端卸载;本地计算是指计算任务在用户设备上执行;近端卸载是指用户设备将计算任务卸载到其最近无人机节点;远端卸载是指用户设备将计算任务先卸载到最近的无人机节点,以此无人机作为中继站,帮助用户把任务传输给其他无人机进行计算;当无人机电量不足时,此无人机会中止计算服务,将全部任务传给其他无人机后专心吸收太阳能和能量波来充电,同时充当任务中继站;
S4,基于步骤S3的优化模型,以无人机群能耗最小为优化目标,采用DDQN算法求解用户设备的卸载决策;
S5,基于无人机的当前位置和S4得到的卸载决策,采用差分进化算法求解无人机的计算资源分配策略;
S6,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化;
S7,循环执行步骤S4至步骤S6,直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值,或者达到最大预设迭代次数时,迭代结束,获得无人机的部署策略、无人机的计算资源最优分配策略,以及用户设备的最优卸载决策;
步骤S4中,采用DDQN算法求解用户设备的卸载决策的过程包括以下步骤:
S41,建模深度强化学习模型,模型参数包括:迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、网络结构Q、用于表示马尔可夫决策过程的批量梯度下降的样本数m、状态S、动作A、执行完A后的奖励函数R和执行完A后的下一状态S′;
S42,初始化S为当前状态序列的第一个状态,获取其特征向量φ(S);
S43,在Q网络中使用φ(S)作为输入,得到Q网络的所有动作对应的Q值输出;用∈-贪婪法在当前Q值输出中选择对应的动作A;
S44,在状态S执行当前动作A,得到新状态S′对应的特征向量φ(S′)和奖励R;
S45,将{φ(S),A,R,φ(S′),end}这个五元组存入经验回放集合D;
S46,令S=S′;
S47,从经验回放集合D中采样m个样本{φ(Sj),Aj,Rj,φ(S′j),endj},j=1,2…,m,计算当前目标Q值yj
Figure FDA0003537995230000011
S48,使用均方差损失函数
Figure FDA0003537995230000021
通过神经网络的梯度反向传播来更新Q网络的所有参数w;
S49,如果S′是终止状态,当前轮迭代完毕,否则转到S43;
S410,迭代执行S42至S49,直到满足预设终止条件时为止,输出基于当前无人机部署和资源分配的最优卸载决策。
2.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S2中,根据区域范围内的用户密度,初始化无人机群的部署位置。
3.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型的过程包括以下步骤:
S31,设环境中的用户设备总数量为M,m是指第m个用户设备,
Figure FDA0003537995230000022
无人机总数量为N,第n架无人机的编号为n,
Figure FDA0003537995230000023
构造三维坐标欧几里得坐标系模型,其中用户设备i的位置为(xi,yi,0),i∈M,无人机j的位置为(Xj,Yj,H),j∈N,无人机固定高度为H;每个用户设备都有一个要执行的任务Ui
Figure FDA0003537995230000024
其中Ci表示完成Ui的CPU周期总数,Di表示用户设备输入数据的大小,
Figure FDA0003537995230000025
表示计算任务Ui的最大时延;
每个无人机均配备两个通信模块;其中一个通信模块包括半功率波束宽度仰角为2θ∈(0,π)的定向天线,用于与用户设备传输通信,另一个通信模块包括全向天线,用于与其他无人机传输通信;
S32,设Ni表示用户i的近端无人机边缘节点集,N′i表示远端无人机边缘节点集i∈M;它产生以下约束:
Figure FDA0003537995230000026
设U0表示处于充电过程中的无人机集合,U1表示处于正常工作状态中的无人机集合,用户设备i的近端无人机边缘节点集Ui和远端无人机边缘节点集U′i表示为:
Ni∪U1=Ui,N′i∪U1=U′i
它产生以下约束:
Figure FDA0003537995230000027
设无人机j覆盖的用户设备集合为Mj,未覆盖的用户设备集合为M′j,每个无人机同时执行的最大任务数为nmax,产生以下约束:
Figure FDA0003537995230000028
Figure FDA0003537995230000029
S33,设ai,j,k表示用户的卸载决策;其中,ai,0,0=1表示用户i的任务自己执行,否则为0;ai,j,0=1表示用户i的任务卸载到近端无人机边缘节点j,否则为0;ai,j,k=1表示用户i的任务通过近端无人机边缘节点j的中继卸载到远端无人机边缘节点k,否则为0;同时用户的计算任务只能在一个设备上执行,不能多设备执行同一个任务;计算任务卸载决策有以下限制:
Figure FDA0003537995230000031
S34,无人机j到无人机k的传输数据速率为:
Figure FDA0003537995230000032
其中Buav为信道带宽,
Figure FDA0003537995230000033
为无人机j的发射功率,
Figure FDA0003537995230000034
为参考距离1m处的信道功率增益,
Figure FDA0003537995230000035
为无人机k与无人机j之间的距离平方,N0为噪声功率谱密度;
用户i到无人机j的上传数据速率为:
Figure FDA0003537995230000036
其中,BMT是用户i的信道带宽,
Figure FDA0003537995230000037
是用户i的传输功率,
Figure FDA0003537995230000038
是参考距离1m处的信道功率增益,
Figure FDA0003537995230000039
是M用户i和无人机j之间的距离平方,N0是噪声功率谱密度,G0为正常数,G0≈2.2846;
S35,当用户的卸载决策为本地卸载时,其计算时延和计算能耗的公式为:
Figure FDA00035379952300000310
Figure FDA00035379952300000311
其中ki为用户i的有效交换电容,fi,0为用户i本身的计算资源;
当用户的卸载决策为近端卸载时,其计算时延和计算能耗的公式为:
Figure FDA00035379952300000312
Figure FDA00035379952300000313
其中κj为近端无人机j的有效切换电容,fj,i为近端无人机j为用户i分配的计算资源,Pi为用户i本身设备的传输发射功率;
当用户的卸载决策为远端卸载时,其计算时延和计算能耗的公式为:
Figure FDA0003537995230000041
Figure FDA0003537995230000042
其中fk,i是远端无人机k为用户i分配的计算资源,Pj是中继无人机j的发射功率;
用户设备i对应的能耗公式以及时延公式如下所示:
Figure FDA0003537995230000043
Figure FDA0003537995230000044
其中
Figure FDA0003537995230000045
是用户选择本地卸载时的能耗,
Figure FDA0003537995230000046
是用户选择本地卸载时的时延;
Figure FDA0003537995230000047
是用户选择近端卸载时的能耗;
Figure FDA0003537995230000048
是用户选择远端卸载时的能耗;
S36,设无人机自带大小容量为Emax的电池,无人机空中捕获能量的效率公式表示为:
Figure FDA0003537995230000049
其中,Pj为每个无人机在T时间内所捕获的能量,
Figure FDA00035379952300000410
为第n个子信道的增益,
Figure FDA00035379952300000411
为基站向第n个子信道广播发射功率;
无人机的太阳能板充电效率为:
Figure FDA00035379952300000412
其中ηs代表能量转换效率,S代表太阳能电池板的面积,Gs代表地球上的平均太阳辐射,αs是大气透过率的最大值,βs是大气的消光系数,δs地球的尺度高度;
无人机电量警戒值设为满电量的20%,即:
Emin=0.2Emax
无人机从警戒值到满电所需要的充电时间为:
Figure FDA00035379952300000413
其中Pf是无人机飞行时的能量消耗速率;
无人机充当中继站的同时从警戒值到满电所需要的充电时间为:
Figure FDA0003537995230000051
充电约束如下:
Pj+Psolar-Pj-Pf>0;
S37,总系统能耗优化问题如下:
Figure FDA0003537995230000052
Figure FDA0003537995230000053
Figure FDA0003537995230000054
Figure FDA0003537995230000055
Figure FDA0003537995230000056
Figure FDA0003537995230000057
其中目标函数表示整个系统的能耗,
Figure FDA0003537995230000058
表示的是无人机的悬停能耗;约束C1和C2表示用户的位置在规定范围内,约束C3和C4表示无人机的位置在规定范围内,约束C5表示所有任务的处理时延不能超过最大时延
Figure FDA0003537995230000059
4.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S5中,采用差分进化算法求解无人机的计算资源分配策略的过程包括以下步骤:
S51,将每个无人机的坐标当作一个个体,所有无人机的个体组合起来,生成无人机种群;基于步骤S4得到的卸载决策,将所有无人机的资源分配表示为一个种群,每个无人机分给任务的资源被编码成一个个体;P(X,g)代表第g代无人机的资源分配:
P(X,g)={X1(g),…,Xj(g),…,XN(g)}
其中Xj(g)表示无人机j分给所有在此无人机上计算的任务的计算资源,g=1,…,gmax
S52,初始化生成无人机的资源分配策略为Xj(1),构造种群P(X,1);在第g代中,每个个体Xj(g)执行变异和交叉操作以生成新的个体Fj(g);
S53,基于卸载决策分别评估新的和旧的资源分配决策,选择最佳个体作为下一代,表述为:
Figure FDA00035379952300000510
其中X′代表Fj(g)取代Xj(g),f()表示基于之前的卸载决策,给定资源分配后整体系统的能耗情况,当P(X′,g)比P(X,g)表现的要优秀时,Xj(g+1)=Fj(g+1);
S54,循环步骤S52和S53直到达到迭代次数上线或满足相应的预设条件时为止。
5.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S6中,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化的过程包括以下步骤:
S61,基于S5步骤得到的资源分配,将所有无人机的位置表示为一个种群,每个无人机的坐标被编码成一个个体,P(X,g)代表第g代无人机的x,y轴坐标;
S62,令无人机的位置为Xj(1),构造种群P(X,1);在第g代中,每个个体Xj(g)执行变异和交叉操作以生成新的个体Uj(g);
S63,基于卸载决策和任务调度分别评估新的和旧的无人机部署位置,并选择最佳个体作为下一代,其表述为:
Figure FDA0003537995230000061
其中X′代表Uj(g)取代Xj(g),f()表示基于之前的卸载决策和资源分配,根据相应无人机位置求出整体系统的能耗情况,当P(X′,g)比P(X,g)表现的优秀时,Xj(g+1)=Fj(g+1)。
6.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述多无人机空中充电和任务调度方法还包括以下步骤:
S8,在无人机自身空闲的情况下,无人机发送充电需求至地面基站或其他设施,地面基站或其他设施向空中发射能量波供无人机吸收充电,同时无人机也能够通过自身的太阳能板来吸收太阳能,以此恢复自身电量;
其中,在无人机正在处理任务时,若电量小于设定的电量警戒值,停止当前任务,将自身所有任务传输给其他无人机,自身开始专心吸收能量充电,直至电量高于80%,期间该无人机充当中继站帮助其他无人机转发任务。
7.根据权利要求6所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述电量警戒值为20%总电量。
CN202210034831.5A 2022-01-13 2022-01-13 基于深度强化学习的多无人机空中充电和任务调度方法 Active CN114048689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210034831.5A CN114048689B (zh) 2022-01-13 2022-01-13 基于深度强化学习的多无人机空中充电和任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210034831.5A CN114048689B (zh) 2022-01-13 2022-01-13 基于深度强化学习的多无人机空中充电和任务调度方法

Publications (2)

Publication Number Publication Date
CN114048689A CN114048689A (zh) 2022-02-15
CN114048689B true CN114048689B (zh) 2022-04-15

Family

ID=80196460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210034831.5A Active CN114048689B (zh) 2022-01-13 2022-01-13 基于深度强化学习的多无人机空中充电和任务调度方法

Country Status (1)

Country Link
CN (1) CN114048689B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114745666B (zh) * 2022-06-09 2022-08-30 南京信息工程大学 一种用于拥挤场馆中无人机辅助边缘计算方法
CN114757352B (zh) * 2022-06-14 2022-09-23 中科链安(北京)科技有限公司 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN115103410B (zh) * 2022-08-22 2022-11-08 中国人民解放军国防科技大学 一种测控数传资源调度方法、系统及装置
CN115290096B (zh) * 2022-09-29 2022-12-20 广东技术师范大学 一种基于强化学习差分算法的无人机动态航迹规划方法
CN116126428B (zh) * 2023-04-14 2023-06-13 昆明理工大学 一种面向能量采集的无人机计算任务卸载方法
CN116502547A (zh) * 2023-06-29 2023-07-28 深圳大学 一种基于图强化学习的多无人机无线能量传输方法
CN117241300B (zh) * 2023-11-16 2024-03-08 南京信息工程大学 一种无人机辅助的通感算网络融合方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296963A (zh) * 2021-07-27 2021-08-24 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN113852994A (zh) * 2021-11-18 2021-12-28 南京信息工程大学 一种用于应急通信中的高空基站集群辅助边缘计算方法
CN113873660A (zh) * 2021-10-29 2021-12-31 浙江工业大学 无人机辅助的服务缓存边缘计算最优计算卸载决策与资源分配方法
CN113905347A (zh) * 2021-09-29 2022-01-07 华北电力大学 一种空地一体化电力物联网云边端协同方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112351503B (zh) * 2020-11-05 2022-09-06 大连理工大学 基于任务预测的多无人机辅助边缘计算资源分配方法
CN113612843B (zh) * 2021-08-02 2022-08-30 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296963A (zh) * 2021-07-27 2021-08-24 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN113905347A (zh) * 2021-09-29 2022-01-07 华北电力大学 一种空地一体化电力物联网云边端协同方法
CN113873660A (zh) * 2021-10-29 2021-12-31 浙江工业大学 无人机辅助的服务缓存边缘计算最优计算卸载决策与资源分配方法
CN113852994A (zh) * 2021-11-18 2021-12-28 南京信息工程大学 一种用于应急通信中的高空基站集群辅助边缘计算方法

Also Published As

Publication number Publication date
CN114048689A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN114048689B (zh) 基于深度强化学习的多无人机空中充电和任务调度方法
CN110381444B (zh) 一种无人机轨迹优化及资源分配方法
Wei et al. Application of edge intelligent computing in satellite Internet of Things
CN109753082B (zh) 多无人机网络协同通信方法
CN113939034A (zh) 一种立体异构电力物联网云边端协同资源分配方法
CN111432433B (zh) 基于强化学习的无人机中继智能流量卸载方法
CN112564767B (zh) 无人机网络中基于自组织优化协作的连续覆盖方法
CN112737842A (zh) 空地一体化车联网中基于最小化时延的任务安全卸载方法
CN112821938B (zh) 一种空天地卫星通信系统的总吞吐量及能耗优化方法
CN113556163A (zh) 面向多类业务需求的中继卫星系统波束调度系统及方法
CN113359480A (zh) 基于mappo算法多无人机与用户协同通信优化方法
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN114880046B (zh) 联合卸载决策和带宽分配的低轨卫星边缘计算卸载方法
CN110913400A (zh) 一种基于空天地远程物联网络的资源分配方法和系统
CN114638155A (zh) 一种基于智能机场的无人机任务分配与路径规划方法
CN112702713A (zh) 一种多约束条件下的低空无人机通信部署方法
CN114650567A (zh) 一种无人机辅助v2i网络任务卸载方法
CN115942460A (zh) 基于资源图谱与对抗学习的低轨卫星无线资源调度方法及装置
Bozkaya et al. Airnet: Energy-aware deployment and scheduling of aerial networks
CN115173922A (zh) 基于cmaddqn网络的多波束卫星通信系统资源分配方法
CN114521002A (zh) 一种云边端合作的边缘计算方法
CN114363803A (zh) 一种移动边缘计算网络节能的多任务分配方法及系统
CN115664486A (zh) 一种ris辅助uav边缘计算系统中无线供能的能效优化方法
CN114980017A (zh) 一种无人机辅助无线通信的吞吐量最大化适配方法
CN108736956B (zh) 一种基于球面数字相控阵系统的海洋卫星通信组网方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant