CN110458283A

CN110458283A - 基于深度强化学习的静态环境下的最大化全局吞吐量方法

Info

Publication number: CN110458283A
Application number: CN201910741851.4A
Authority: CN
Inventors: 刘倩; 丁冉; 赵熙唯; 吴平阳; 邢志超; 李骏; 桂林卿
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-15

Abstract

本发明设计了一种最大化全局吞吐量方法，实现了在移动边缘计算架构中将无人机当作移动边缘计算服务器为终端静止用户提供及时有效的计算服务。随着现代科技技术日新月异，来自终端用户的任务越来越多，传统的移动边缘计算框架已无法为用户提供及时有效的计算服务，因此考虑将无人机当作移动计算服务器，在用户的上方为其提供服务，从而实现高效的交互服务。本发明考虑到用户移动较慢，将其近似看成静止不动的，通过对用户状态和无人机状态以及无人机与用户之间的信道状态进行建模，结合深度强化学习算法最大化全局吞吐量。

Description

基于深度强化学习的静态环境下的最大化全局吞吐量方法

技术领域

本发明涉及通信行业的移动边缘计算领域，以及计算机行业的基于神经网络的深度强化学习算法领域。

背景技术

通信领域关注的是通信过程中的信息传输和信号处理的原理和应用，尤其是数字移动通信、光纤通信、Internet网络通信使人们在传递信息和获得信息方面达到了前所未有的便捷程度。随着3G、4G等通信技术的高速发展，移动边缘技术(Mobile EdgeComputing,MEC)应运而生为用户提供高质量服务，其坐落于网络系统边缘区域，可利用无线接入网络就近提供电信用户IT所需服务和云端计算功能，而创造出一个具备高性能、低延迟与高带宽的电信级服务环境，加速网络中各项内容、服务及应用的快速下载，让终端用户享有不间断的高质量网络体验。再随着智能通信设备的指数级增长，来自终端用户的数据服务请求越来越多，传统的移动边缘计算服务无法为终端用户提供及时有效的计算服务，基于无人机的移动边缘计算框架的通信系统渐渐引人注目。

无人驾驶飞机简称“无人机”(Unmanned Aerial Vehicle,UAV)，可利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机，或者由车载计算机完全地或间歇地自主地操作。移动边缘技术一直致力于移动边缘服务器，能够在敌对环境中提供更加灵活和成本更高的计算服务。无人机作为移动云层设备，由于其具有廉价的基础设施以及高可靠连通性，可在移动边缘技术中广泛应用，所以基于无人机的移动边缘技术架构比现有的传统通信系统更方便部署于灾难或偏远区域，也能为用户提供更好的通信服务。

本发明将对基于终端用户公平性约束和无人机能量约束的无人机协助的移动边缘计算架构的的最大化全局吞吐量方法进行说明。

发明内容

发明目的：考虑终端用户公平性约束和无人机能量约束两种限制条件，为提高用户公平性和系统用户迁移量，本发明设计了一种基于深度强化学习的最大化全局吞吐量方法。

技术方案：本发明提出的最大化全局吞吐量方法，主要包括以下几个阶段。

第一阶段：初始化用户位置，以及无人机在空中的固定盘旋点

本发明的系统模型中包含N个随机分布的用户，则用户的位置状态为l_i(t)＝(x_i,y_i),i∈{1,2,...,N}，以及M个空中固定点，对应代表无人机的位置状态，d_j(t)＝(x_j,y_j),j∈{1,2,...,M}。

第二阶段：建立无人机能耗模型

无人机在服务期间存在三种能量消耗：飞行能耗、盘旋能耗和计算能耗

·无人机飞行能耗：考虑无人机固定飞行速度V以及飞行功率P_f，无人机在t时刻的飞行能耗与无人机每个时隙的飞行距离密切相关。

·无人机盘旋能耗：当无人机飞到当前时刻的固定点为终端用户提供计算服务时，需等待用户将当前任务量μ_i(t)全部传输到无人机上，考虑当前无人机与用户之前的信道为LoS信道，无人机飞行高度H，信道增益为

则传输速率为

所以无人机的盘旋能耗为

·无人机计算能耗：

无人机的计算能耗只与当前时刻用户迁移上来的任务量有关

e_c(t)＝βμ_i(t)

第三阶段：考虑无人机能量约束

在t时刻，无人机的总能耗为

W(t)＝e_f(t)+e_h(t)+e_c(t)

无人机的剩余能量为

b(t)＝b(t-1)-W(t)

所以无人机在服务用户期间所消耗的能量必须小于自身所有的电池总量B

第四阶段：考虑用户公平性约束

为保证所有终端用户都能被无人机公平服务，本发明设定了每个用户必须迁移的任务量最低阈值Z

第五阶段：马尔科夫过程建立

·状态集：S＝{l_i(t),d_j(t),b(t),c_ij(t)}

·动作集：A＝{a_j|j＝1,2,...,M}

·奖励函数：R_t+1＝U(μ_i(t))-W(t)

解决方法-深度强化学习

考虑到终端用户公平性约束和无人机能量约束，基于深度强化学习的最大化全局吞吐量方法基本流程如下：

(1)步骤1：

传统强化学习更新状态动作值函数方法

(2)步骤2：

本发明中由于环境较复杂，状态集非常巨大，因此引入神经网络来近似状态动作值函数

Q(S_t,A_t；θ)≈Q*(S_t,A_t)

(3)步骤3：

基于神经网络的状态动作值函数近似方法大大节省了需要查询Q表的内存及时间，与传统强化学习方法相比，基于深度强化学习的最大化全局吞吐量方法具有极大的优势。

附图说明

图1是方法流程图，

图2是基于深度强化学习的最大化全局吞吐量方法的框架图。

具体实施方式

下面将结合附图和具体算法框架图以及伪代码图，进一步阐明本发明的相关内容，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域方法人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的一种无人机协助的移动边缘计算架构的基于深度强化学习的最大化全局吞吐量的方法包括：确定本系统的优化目标，找出目标与对应参数的关系，通过合理建模成马尔科夫决策过程，再通过深度强化学习方法寻找最优策略，从而达到目标结果-最大化全局吞吐量。

作为一种实施例，所述方法包括：考虑终端用户和无人机的位置状态；考虑终端用户的公平性约束；考虑无人机有限电池量约束；通过深度强化学习算法，在每个时隙根据当前状态做出最优决策，实现全局吞吐量最大化目标。

Claims

1.基于深度强化学习的静态环境下的最大化全局吞吐量方法，其特征在于：考虑终端用户的公平性，以及无人机有限电量的能量约束，需考虑无人机在每个时隙的飞行决策，合理分配有限的能量充分服务用户，从而最大化用户吞吐量。

2.如权利要求1所述的基于深度强化学习的静态环境下的最大化全局吞吐量方法，考虑到全部终端用户的位置状态以及无人机的位置状态和电池量状态，系统状态空间较大，以及需要实现的无人机与用户关联的动作空间较大，需采用传统强化学习结合深度神经网络近似状态动作值函数，再基于强化学习的值迭代方法找出最优策略最大化全局吞吐量。