CN110428115A

CN110428115A - 基于深度强化学习的动态环境下的最大化系统效益方法

Info

Publication number: CN110428115A
Application number: CN201910741705.1A
Authority: CN
Inventors: 刘倩; 丁冉; 邢志超; 吴平阳; 赵熙唯; 李骏; 桂林卿
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-08

Abstract

本发明设计了一种基于深度强化学习的移动边缘计算架构下为动态用户提供低延时高可靠的计算服务的无人机路径规划方法。考虑无人驾驶飞机具有便捷的基础设施，且可在偏远或灾难区域快速搭建通信渠道，也可架栽计算资源为终端移动用户提供服务，因此考虑将无人机当作移动计算服务器，在终端移动用户的上方为其提供高效的交互服务。本发明考虑到终端用户的实时移动，将其建模成高斯‑马尔科夫移动模型，再通过对用户位置状态、无人机位置状态、无人机电池量状态以及无人机与用户之间的信道状态进行建模，结合深度强化学习算法规划无人机路径最大化系统长期效益。

Description

基于深度强化学习的动态环境下的最大化系统效益方法

技术领域

本发明涉及通信行业的移动边缘计算领域，现在正在兴起的无人机领域，以及计算机行业的基于神经网络的深度强化学习算法领域。

背景技术

随着通信技术的高速发展，为了给终端实时移动用户提供高质量服务，坐落于网络系统边缘区域的移动边缘技术(Mobile Edge Computing,MEC)应运而生，其可利用无线接入网络就近提供终端移动用户所需的高性能、低延迟与高带宽服务，让终端用户享有不间断的高质量网络体验。然而，近年来随着终端用户智能设备的指数级增长，其产生的数据服务请求数量也随之激增，传统的移动边缘计算服务已无法为终端用户提供所需的计算服务。同时，可利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机—无人机(Unmanned Aerial Vehicle,UAV)引起广泛关注。基于无人机的移动边缘计算框架能够在敌对环境中提供更加灵活、成本更低的计算服务，它不需要其他基础设施便可作为移动云层设备，所以基于无人机的移动边缘技术架构能够为用终端移动户提供更好的计算服务。

本发明将对基于终端用户实时移动，并考虑用户公平性约束和无人机能量约束的无人机协助的移动边缘计算架构的最大化系统长期奖励方法，合理规划无人机路径算法进行说明。

发明内容

发明目的：基于终端用户实时移动性的无人机路劲规划算法，考虑终端移动用户的公平性约束和无人机的能量约束两种限制条件，本发明设计了一种基于深度强化学习的最大化系统长期奖励。

技术方案：本发明提出的无人机路径规划方法，主要包括以下几个步骤。

步骤一：建立用户移动模型(Gauss-Markov Random Model,GMRM)

本发明的系统模型中包含N个初始位置随机分布的用户，考虑高斯-马尔科夫移动模型，第n个用户的速度v_n(t)与角度θ_n(t)分别为：

其中κ₁，κ₂用来调整先前状态对当前时刻状态的影响程度。所以，第t时刻的din个用户的位置状态为：

此外，无人机仅可在空中的M个固定感知接入点(Fixed Perceptual AccessPoints，FPAPs)盘旋为终端移动用户提供计算服务，因此第t时刻无人机的位置状态为：

步骤二：建立无人机能量消耗模型

无人机在消耗完一次自身电池量服务终端移动用户之前，每次服务都会产生三种能量消耗：

·无人机飞行能耗：考虑无人机固定飞行速度V以及飞行功率P_f，第t时刻的无人机飞行能耗只与无人机每个时隙的从一个FPAP给到另一个FPAP的飞行距离相关

·无人机盘旋能耗：第t时刻，无人机在第m个固定点服务第n个终端移动用户，考虑他们之间的信道为Line-of-sight，则用户上传任务量μ_i(t)的速度为：

其中Pt为用户端固定传输功率。考虑无人机飞行固定高度H，ρ₀为每米的信道增益，则信道增益c_nm(t)为

且每个任务的比特数为N_b，所以无人机的在t时刻的盘旋能耗为

·无人机计算能耗：

第t时刻，考虑有效电容CPU转速C，无人机计算频率f_c，所以无人机计算能耗为

e_c(t)＝γ_cC(f_C)²μ_n(t)N_b

因此，在t时刻，无人机的总能耗为W(t)＝e_f(t)+e_h(t)+e_c(t)

则无人机的剩余能量为b(t)＝b(t-1)-W(t)

步骤三：约束条件

·无人机能量约束：无人机在服务终端移动用户期间所消耗的能量必须小于自身所有的电池总量B

·终端移动用户公平性约束：为保证所有终端用户都能被无人机服务到，本发明设定了每个用户必须迁移的任务量最低阈值Z

步骤四：将问题建立成马尔科夫过程

·系统状态集S：每个时刻的状态包含所有终端用户位置，当前时刻无人机位置，无人机与终端用户之间的信道状态以及无人机能量状态，则当前系统的状态空间为

·系统动作集A：考虑到无人机与用户关联，每个时刻无人机采取的决策包含先决定服务哪个终端移动用户，再决定飞往哪个点为其提供计算迁移服务，则当前系统的动作空间为A_t＝{a_t|a_t＝a_n，m(t)}

·系统即时奖励函数R：

(1)无人机处理终端移动用户迁移上来的任务量会获得正奖励

(2)同时将无人机产生的能耗W(t)作为系统负奖励

因此，系统的即时奖励定义为R_t+1＝U(μ_n(t))-ψW(t)

解决方法-深度强化学习(Double Deep Q-Network，DDQN)

因系统状态及动作集较大，本发明采用神经网络近似状态动作值函数，再结合基于值迭代的强化学习算法做出最优策略，从而规划无人机路径。

由于基于Q表查询的值迭代强化学习算法在系统状态集和动作集服从大的情况下，及其消耗内存且极其耗时，因此本发明采用神经网络架构近似该系统的状态动作值函数，以便基于值迭代的强化学习算法在选择动作时依据该值函数进行动作选择。同时，基于神经网络的深度强化学习算法如Deep Q-Network(DQN)，由于每次动作选择时会有大概率选择当前状态下对应Q值最大的动作，一般会存在过估计问题。因此，本设计中采用DoubleDeep Q-Network(DDQN)，其中包含两个独立的神经网络模块，解决DQN存在的过拟合问题。

基于深度强化学习的最大化系统长期奖励算法的流程如下：

·初始化神经网络参数以及动作选择策略参数

·初始化系统状态s

·根据动作选择策略选择动作a

·得到当前状态动作对的及时奖励，并且转移到下一个状态s'

·将当前状态转移对(s,a,r,s’)存在记忆库中

·从记忆库中抽取小样本训练神经网络更新参数近似状态动作值函数

附图说明

图1是方法流程图，

图2是系统模型图，

图3是DDQN流程图。

具体实施方式

下面将结合附图中的本设计的方法流程图、系统模型图、以及具体算法框架图，进一步阐明本发明的相关内容，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域方法人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明着重于基于深度强化学习算法为边缘计算架构中将无人机当作移动边缘服务器为终端实时移动用户提供高可靠低时延的计算服务时的无人机进行合理高效路径规划设计。

作为一种实施例，所述方法中需考虑：

■终端实时移动用户的移动模型——模拟真实用户在移动时的速度、角度变化；

■无人机的能耗模型——合理建立飞行能耗模型、盘旋能耗模型和计算能耗模型；

■合理建立目标方程与用户任务量以及无人机能耗之间的关系；

■将优化问题建模成马尔科夫决策过程，再利用深度强化学习算法求解最优策略；

■深度强化学习算法中，先用神经网络近似系统的状态当作值函数，再结合基于值迭代的强化学习算法基于每个时刻的状态动作值做出最优决策，从而最大化系统长期奖励以做出最合理高效的无人机路劲规划。

Claims

1.基于深度强化学习的动态环境下的最大化系统效益方法，其特征在于：考虑终端用户的实时移动性，将其建模成高斯-马尔科夫移动模型，合理考虑终端用户的实时移动，在此基础上考虑无人机路径规划问题为其提供计算服务，考虑用户端的相对公平性和无人机的能量约束，无人机在每个时隙所做出的决策都合理分配自身的能量在满足用户公平性的前提下服务用户，从而最大化系统长期奖励。

2.如权利要求1所述的基于深度强化学习的动态环境下的最大化系统效益方法，其特征在于：采用强化学习的方法寻找最优解，先将问题建模成马尔科夫决策过程，再用神经网络去近似状态动作值函数，然后基于强化学习求解最优策略，从而规划无人机路径。