CN110428115A - 基于深度强化学习的动态环境下的最大化系统效益方法 - Google Patents

基于深度强化学习的动态环境下的最大化系统效益方法 Download PDF

Info

Publication number
CN110428115A
CN110428115A CN201910741705.1A CN201910741705A CN110428115A CN 110428115 A CN110428115 A CN 110428115A CN 201910741705 A CN201910741705 A CN 201910741705A CN 110428115 A CN110428115 A CN 110428115A
Authority
CN
China
Prior art keywords
unmanned plane
user
terminal
service
consider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910741705.1A
Other languages
English (en)
Inventor
刘倩
丁冉
邢志超
吴平阳
赵熙唯
李骏
桂林卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910741705.1A priority Critical patent/CN110428115A/zh
Publication of CN110428115A publication Critical patent/CN110428115A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明设计了一种基于深度强化学习的移动边缘计算架构下为动态用户提供低延时高可靠的计算服务的无人机路径规划方法。考虑无人驾驶飞机具有便捷的基础设施,且可在偏远或灾难区域快速搭建通信渠道,也可架栽计算资源为终端移动用户提供服务,因此考虑将无人机当作移动计算服务器,在终端移动用户的上方为其提供高效的交互服务。本发明考虑到终端用户的实时移动,将其建模成高斯‑马尔科夫移动模型,再通过对用户位置状态、无人机位置状态、无人机电池量状态以及无人机与用户之间的信道状态进行建模,结合深度强化学习算法规划无人机路径最大化系统长期效益。

Description

基于深度强化学习的动态环境下的最大化系统效益方法
技术领域
本发明涉及通信行业的移动边缘计算领域,现在正在兴起的无人机领域,以及计算机行业的基于神经网络的深度强化学习算法领域。
背景技术
随着通信技术的高速发展,为了给终端实时移动用户提供高质量服务,坐落于网络系统边缘区域的移动边缘技术(Mobile Edge Computing,MEC)应运而生,其可利用无线接入网络就近提供终端移动用户所需的高性能、低延迟与高带宽服务,让终端用户享有不间断的高质量网络体验。然而,近年来随着终端用户智能设备的指数级增长,其产生的数据服务请求数量也随之激增,传统的移动边缘计算服务已无法为终端用户提供所需的计算服务。同时,可利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机—无人机(Unmanned Aerial Vehicle,UAV)引起广泛关注。基于无人机的移动边缘计算框架能够在敌对环境中提供更加灵活、成本更低的计算服务,它不需要其他基础设施便可作为移动云层设备,所以基于无人机的移动边缘技术架构能够为用终端移动户提供更好的计算服务。
本发明将对基于终端用户实时移动,并考虑用户公平性约束和无人机能量约束的无人机协助的移动边缘计算架构的最大化系统长期奖励方法,合理规划无人机路径算法进行说明。
发明内容
发明目的:基于终端用户实时移动性的无人机路劲规划算法,考虑终端移动用户的公平性约束和无人机的能量约束两种限制条件,本发明设计了一种基于深度强化学习的最大化系统长期奖励。
技术方案:本发明提出的无人机路径规划方法,主要包括以下几个步骤。
步骤一:建立用户移动模型(Gauss-Markov Random Model,GMRM)
本发明的系统模型中包含N个初始位置随机分布的用户,考虑高斯-马尔科夫移动模型,第n个用户的速度vn(t)与角度θn(t)分别为:
其中κ1,κ2用来调整先前状态对当前时刻状态的影响程度。所以,第t时刻的din个用户的位置状态为:
此外,无人机仅可在空中的M个固定感知接入点(Fixed Perceptual AccessPoints,FPAPs)盘旋为终端移动用户提供计算服务,因此第t时刻无人机的位置状态为:
步骤二:建立无人机能量消耗模型
无人机在消耗完一次自身电池量服务终端移动用户之前,每次服务都会产生三种能量消耗:
·无人机飞行能耗:考虑无人机固定飞行速度V以及飞行功率Pf,第t时刻的无人机飞行能耗只与无人机每个时隙的从一个FPAP给到另一个FPAP的飞行距离相关
·无人机盘旋能耗:第t时刻,无人机在第m个固定点服务第n个终端移动用户,考虑他们之间的信道为Line-of-sight,则用户上传任务量μi(t)的速度为:
其中Pt为用户端固定传输功率。考虑无人机飞行固定高度H,ρ0为每米的信道增益,则信道增益cnm(t)为
且每个任务的比特数为Nb,所以无人机的在t时刻的盘旋能耗为
·无人机计算能耗:
第t时刻,考虑有效电容CPU转速C,无人机计算频率fc,所以无人机计算能耗为
ec(t)=γcC(fC)2μn(t)Nb
因此,在t时刻,无人机的总能耗为W(t)=ef(t)+eh(t)+ec(t)
则无人机的剩余能量为b(t)=b(t-1)-W(t)
步骤三:约束条件
·无人机能量约束:无人机在服务终端移动用户期间所消耗的能量必须小于自身所有的电池总量B
·终端移动用户公平性约束:为保证所有终端用户都能被无人机服务到,本发明设定了每个用户必须迁移的任务量最低阈值Z
步骤四:将问题建立成马尔科夫过程
·系统状态集S:每个时刻的状态包含所有终端用户位置,当前时刻无人机位置,无人机与终端用户之间的信道状态以及无人机能量状态,则当前系统的状态空间为
·系统动作集A:考虑到无人机与用户关联,每个时刻无人机采取的决策包含先决定服务哪个终端移动用户,再决定飞往哪个点为其提供计算迁移服务,则当前系统的动作空间为At={at|at=an,m(t)}
·系统即时奖励函数R:
(1)无人机处理终端移动用户迁移上来的任务量会获得正奖励
(2)同时将无人机产生的能耗W(t)作为系统负奖励
因此,系统的即时奖励定义为Rt+1=U(μn(t))-ψW(t)
解决方法-深度强化学习(Double Deep Q-Network,DDQN)
因系统状态及动作集较大,本发明采用神经网络近似状态动作值函数,再结合基于值迭代的强化学习算法做出最优策略,从而规划无人机路径。
由于基于Q表查询的值迭代强化学习算法在系统状态集和动作集服从大的情况下,及其消耗内存且极其耗时,因此本发明采用神经网络架构近似该系统的状态动作值函数,以便基于值迭代的强化学习算法在选择动作时依据该值函数进行动作选择。同时,基于神经网络的深度强化学习算法如Deep Q-Network(DQN),由于每次动作选择时会有大概率选择当前状态下对应Q值最大的动作,一般会存在过估计问题。因此,本设计中采用DoubleDeep Q-Network(DDQN),其中包含两个独立的神经网络模块,解决DQN存在的过拟合问题。
基于深度强化学习的最大化系统长期奖励算法的流程如下:
·初始化神经网络参数以及动作选择策略参数
·初始化系统状态s
·根据动作选择策略选择动作a
·得到当前状态动作对的及时奖励,并且转移到下一个状态s'
·将当前状态转移对(s,a,r,s’)存在记忆库中
·从记忆库中抽取小样本训练神经网络更新参数近似状态动作值函数
附图说明
图1是方法流程图,
图2是系统模型图,
图3是DDQN流程图。
具体实施方式
下面将结合附图中的本设计的方法流程图、系统模型图、以及具体算法框架图,进一步阐明本发明的相关内容,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域方法人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明着重于基于深度强化学习算法为边缘计算架构中将无人机当作移动边缘服务器为终端实时移动用户提供高可靠低时延的计算服务时的无人机进行合理高效路径规划设计。
作为一种实施例,所述方法中需考虑:
■终端实时移动用户的移动模型——模拟真实用户在移动时的速度、角度变化;
■无人机的能耗模型——合理建立飞行能耗模型、盘旋能耗模型和计算能耗模型;
■合理建立目标方程与用户任务量以及无人机能耗之间的关系;
■将优化问题建模成马尔科夫决策过程,再利用深度强化学习算法求解最优策略;
■深度强化学习算法中,先用神经网络近似系统的状态当作值函数,再结合基于值迭代的强化学习算法基于每个时刻的状态动作值做出最优决策,从而最大化系统长期奖励以做出最合理高效的无人机路劲规划。

Claims (2)

1.基于深度强化学习的动态环境下的最大化系统效益方法,其特征在于:考虑终端用户的实时移动性,将其建模成高斯-马尔科夫移动模型,合理考虑终端用户的实时移动,在此基础上考虑无人机路径规划问题为其提供计算服务,考虑用户端的相对公平性和无人机的能量约束,无人机在每个时隙所做出的决策都合理分配自身的能量在满足用户公平性的前提下服务用户,从而最大化系统长期奖励。
2.如权利要求1所述的基于深度强化学习的动态环境下的最大化系统效益方法,其特征在于:采用强化学习的方法寻找最优解,先将问题建模成马尔科夫决策过程,再用神经网络去近似状态动作值函数,然后基于强化学习求解最优策略,从而规划无人机路径。
CN201910741705.1A 2019-08-13 2019-08-13 基于深度强化学习的动态环境下的最大化系统效益方法 Pending CN110428115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910741705.1A CN110428115A (zh) 2019-08-13 2019-08-13 基于深度强化学习的动态环境下的最大化系统效益方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910741705.1A CN110428115A (zh) 2019-08-13 2019-08-13 基于深度强化学习的动态环境下的最大化系统效益方法

Publications (1)

Publication Number Publication Date
CN110428115A true CN110428115A (zh) 2019-11-08

Family

ID=68415660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910741705.1A Pending CN110428115A (zh) 2019-08-13 2019-08-13 基于深度强化学习的动态环境下的最大化系统效益方法

Country Status (1)

Country Link
CN (1) CN110428115A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111506104A (zh) * 2020-04-03 2020-08-07 北京邮电大学 一种规划无人机位置的方法及装置
CN111552313A (zh) * 2020-04-29 2020-08-18 南京理工大学 基于边缘计算动态任务到达的多无人机路径规划方法
CN111585637A (zh) * 2020-04-17 2020-08-25 长沙理工大学 一种基于边缘计算系统的无人机任务卸载和资源分配方法
CN111625360A (zh) * 2020-05-26 2020-09-04 多伦科技股份有限公司 一种基于平面分离的车辆大数据边缘计算卸载方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN113032904A (zh) * 2021-03-22 2021-06-25 北京航空航天大学杭州创新研究院 模型构建方法、任务分配方法、装置、设备及介质
CN113255218A (zh) * 2021-05-27 2021-08-13 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113938830A (zh) * 2021-09-24 2022-01-14 北京邮电大学 无人机基站部署方法及装置
CN114268986A (zh) * 2021-12-14 2022-04-01 北京航空航天大学 一种无人机计算卸载与充电服务效能优化方法
CN114372612A (zh) * 2021-12-16 2022-04-19 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
WO2019085430A1 (zh) * 2017-11-03 2019-05-09 深圳市道通智能航空技术有限公司 无人飞行器的控制方法和终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019085430A1 (zh) * 2017-11-03 2019-05-09 深圳市道通智能航空技术有限公司 无人飞行器的控制方法和终端
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN LI 等: "Task Offloading for UAV-based Mobile Edge Computing via Deep Reinforcement Learning", 《2018 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》 *
SUVADIP BATABYAL 等: "Mobility Models, Traces and Impact of Mobility on Opportunistic Routing Algorithms: A Survey", 《IEEE COMMUNICATION SURVEYS & TUTORIALS》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112118556B (zh) * 2020-03-02 2022-11-18 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111506104B (zh) * 2020-04-03 2021-10-01 北京邮电大学 一种规划无人机位置的方法及装置
CN111506104A (zh) * 2020-04-03 2020-08-07 北京邮电大学 一种规划无人机位置的方法及装置
CN111585637A (zh) * 2020-04-17 2020-08-25 长沙理工大学 一种基于边缘计算系统的无人机任务卸载和资源分配方法
CN111552313A (zh) * 2020-04-29 2020-08-18 南京理工大学 基于边缘计算动态任务到达的多无人机路径规划方法
CN111552313B (zh) * 2020-04-29 2022-06-28 南京理工大学 基于边缘计算动态任务到达的多无人机路径规划方法
CN111625360A (zh) * 2020-05-26 2020-09-04 多伦科技股份有限公司 一种基于平面分离的车辆大数据边缘计算卸载方法
CN111625360B (zh) * 2020-05-26 2023-09-05 多伦科技股份有限公司 一种基于平面分离的车辆大数据边缘计算卸载方法
CN113032904B (zh) * 2021-03-22 2021-11-23 北京航空航天大学杭州创新研究院 模型构建方法、任务分配方法、装置、设备及介质
CN113032904A (zh) * 2021-03-22 2021-06-25 北京航空航天大学杭州创新研究院 模型构建方法、任务分配方法、装置、设备及介质
CN113255218B (zh) * 2021-05-27 2022-05-31 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113255218A (zh) * 2021-05-27 2021-08-13 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113938830A (zh) * 2021-09-24 2022-01-14 北京邮电大学 无人机基站部署方法及装置
CN114268986A (zh) * 2021-12-14 2022-04-01 北京航空航天大学 一种无人机计算卸载与充电服务效能优化方法
CN114372612A (zh) * 2021-12-16 2022-04-19 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN114372612B (zh) * 2021-12-16 2023-04-28 电子科技大学 面向无人机移动边缘计算场景的路径规划和任务卸载方法

Similar Documents

Publication Publication Date Title
CN110428115A (zh) 基于深度强化学习的动态环境下的最大化系统效益方法
Liu et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning
Yu et al. Multi-objective optimization for UAV-assisted wireless powered IoT networks based on extended DDPG algorithm
Wang et al. Deep reinforcement learning based dynamic trajectory control for UAV-assisted mobile edge computing
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
CN110968426B (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
WO2023168824A1 (zh) 一种基于联邦学习的移动边缘缓存优化方法
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN110794965B (zh) 一种基于深度强化学习的虚拟现实语言任务卸载方法
CN112395090B (zh) 一种移动边缘计算中服务放置的智能混合优化方法
CN113905347B (zh) 一种空地一体化电力物联网云边端协同方法
CN112104502A (zh) 时敏多任务边缘计算与缓存协作卸载策略方法
CN110958625B (zh) 一种基于移动边缘智能的实时多模态语言分析系统和方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN112287990A (zh) 一种基于在线学习的边云协同支持向量机的模型优化方法
CN111915142A (zh) 一种基于深度强化学习的无人机辅助资源分配方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
Rahbari et al. Fast and fair computation offloading management in a swarm of drones using a rating-based federated learning approach
CN116600316A (zh) 一种基于深度双q网络和联邦学习的空地一体化物联网联合资源分配方法
Lv et al. Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks
Wang et al. Improving the performance of tasks offloading for internet of vehicles via deep reinforcement learning methods
CN116847293A (zh) 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统
CN114520991B (zh) 基于无人机集群的边缘网络自适应部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108

RJ01 Rejection of invention patent application after publication