CN113316239B

CN113316239B - 一种基于强化学习的无人机网络发射功率分配方法及装置

Info

Publication number: CN113316239B
Application number: CN202110505367.9A
Authority: CN
Inventors: 张海君; 李亚博; 唐书和; 唐睿卿; 隆克平; 高鹏; 李福昌
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-07-08
Anticipated expiration: 2041-05-10
Also published as: CN113316239A

Abstract

本发明公开了一种基于强化学习的无人机网络发射功率分配方法及装置，所述方法包括：初始化无人机以及用户的状态，定义动作空间以及神经网络的参数；初始化价值函数和当前网络状态的Q值；与环境交互接收奖励反馈并计算采取当前动作的Q值；根据反馈得到的奖励的最大值选取最优动作；更新系统的下一状态并存储至经验池中；判断经验数量是否达到预期值，若达到则开始进行深度强化学习，若未达到则继续循环；根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习，以长期奖励函数最大化为目标进行强化学习；判断长期奖励函数的值是否趋于收敛，当趋于收敛时终止学习，此时已完成无人机无线自组网的资源分配最优化。

Description

一种基于强化学习的无人机网络发射功率分配方法及装置

技术领域

本发明涉及基于无人机的无线通信网络技术领域，特别涉及一种面向多无人机的无线自组网网络场景下的基于强化学习的无人机网络发射功率分配方法及装置。

背景技术

无人机(UAV)由于其灵活可控、高移动性以及良好的空对地视距链路等特征，而成为无线通信技术领域当中提供有效无线连接服务的重要合作伙伴，为当今社会构建应急、海量等通信场景提供了高效的解决方案。UAV可作为可移动的空中基站，为地面上的用户提供高质量通信，提高无线网络的容量。同传统的地面通信系统相比，灵活、时间成本低是UAV系统的优势所在。借助UAV，可以建立LOS通信链路，由于其高机动性，可以进行实时的动态调整来适应环境以为地面上的用户提供稳定高质量的通信服务。事实上，UAV无线通信为人们提供了一种具有成本和能源效益的解决方案，可用于没有任何基础通信设施的场景。然而，传统的技术存在项目资源分配机制浪费信道资源、分配效率低等弊端，这也是一直以来无线通信网络中所需攻破的难题，尤其是功率分配有着举足轻重的作用。

强化学习是一种解决动态决策问题时的可靠方式，近年来被广泛用于无线通信领域。基于强化学习(RL)的方法能够解决空中无线资源管理方面的问题，但是传统的RL算法在状态过多时收敛速度太慢，在此，我们引入深度学习，二者结合为DRL，以解决复杂的资源管理问题。之前很多RL算法依赖于手工选取的特征和线性函数逼近，但这些系统都依赖于特征的选取质量。如何在拓扑动态变化的无人机无线网络中进行合理、有效、绿色的无线资源分配是值得被关注的热点。

发明内容

本发明的目的在于提供一种基于强化学习的无人机网络发射功率分配方法及装置，解决当前无人机无线自组网中资源分配机制中浪费信道资源，功率分配效率低下等问题，构建基于人工智能的无人机无线网络资源分配方案。

为解决上述技术问题，本发明的实施例提供如下方案：

一方面，提供了一种基于强化学习的无人机网络发射功率分配方法，包括以下步骤：

S1、初始化无人机以及用户的状态，定义动作空间以及神经网络的参数；

S2、初始化价值函数和当前网络状态的Q值；

S3、与环境交互接收奖励反馈并计算采取当前动作的Q值；

S4、根据反馈得到的奖励的最大值选取最优动作；

S5、更新系统的下一状态并存储至经验池中；

S6、判断经验数量是否达到预期值，若达到则开始进行深度强化学习，若未达到则继续循环；

S7、根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习，以长期奖励函数最大化为目标进行强化学习；

S8、判断长期奖励函数的值是否趋于收敛，当趋于收敛时终止学习，此时已完成无人机无线自组网的资源分配最优化。

优选地，所述步骤S1包括：

初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率P_max，网络参数θ和θ′，智能体动作、状态、重放经验池

优选地，所述步骤S2包括：

定义Q值函数为：Q(I(z),D(z),θ)，其中I(z)，D(z)，θ分别表示当前网络系统的状态，当前选取的动作和当前网络系统的权重参数；

根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节；

在Q-learning中，Q值的更新策略为：

其中Q'表示下一个状态的Q值，γⁿ表示第n次的折损因子，r_z表示无人机网络中第z个用户对中用户的速率回报；而对于θ，则定义功率损失为：

L_i(θ_i)＝E(Q'(I(z),D(z)；θ_i)-Q(I(z),D(z)；θ_i))²

其中，将满足使得L_i(θ_i)最小化的θ_i更新为θ_i+1。

优选地，所述步骤S3包括：

根据香农公式，第k个用户的信道容量为：

R_k＝Wlog₂(1+SINR_k)

其中W表示在无人机网络里的用户带宽，是一个常量，SINR_k表示第k个用户的信噪比，表示如下：

其中p_k表示第k个用户的功率分配系数，w_k表示第k个用户的信道增益，其遵循无人机的常用LoS信道模型，σ_k表示第k个用户的加性白高斯噪声功率，α_k表示相应的噪声功率系数；

则系统的能效即目标函数值为：

优选地，所述步骤S4包括：

系统获取即时奖励并更新参数，系统获得即时奖励的约束：

所有用户的功率和小于无人机发射的最大功率P_max；

对于约束条件：只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可：

第k个用户的即时奖励为：

优选地，所述步骤S5包括：

系统获得的总即时奖励为：

根据即时奖励的最大值选取对应的动作d(k)，并循环进行积累经验。

优选地，所述步骤S6包括：

根据存储的经验数量判断是否进行深度强化学习，若存储的经验数量满足预期值，则开始进行深度强化学习。

优选地，所述步骤S7包括：

由贝尔曼方程得到即时奖励，并展开深度强化学习，使用DPPO算法，通过副网络在不同的环境中收集数据，然后交给主网络来更新参数；

深度强化学习算法的表达式为：

y^DPPO＝r+γQ(I',argmaxQ(I',d；θ)；θ’)

其中y^DPPO表示目标值即实际值，r表示反馈的即时奖励，γ表示折扣因子，I'表示系统的下一状态，d表选取的动作，θ表示主神经网络的参数，θ’表示目标神经网络的参数。

优选地，所述步骤S8包括：

在深度强化学习的过程中，无人机网络的目标函数值会不断上升，当长期奖励函数的值趋于收敛，即长期奖励函数在一定范围内不再发生明显变化时，得到最优资源分配方案，此时终止学习。

一方面，提供了一种基于强化学习的无人机网络发射功率分配装置，包括：

第一初始化模块，用于初始化无人机以及用户的状态，定义动作空间以及神经网络的参数；

第二初始化模块，用于初始化价值函数和当前网络状态的Q值；

交互反馈模块，用于与环境交互接收奖励反馈并计算采取当前动作的Q值；

选取模块，用于根据反馈得到的奖励的最大值选取最优动作；

更新模块，用于更新系统的下一状态并存储至经验池中；

第一判断模块，用于判断经验数量是否达到预期值，若达到则开始进行深度强化学习，若未达到则继续循环；

深度学习模块，用于根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习，以长期奖励函数最大化为目标进行强化学习；

第二判断模块，用于判断长期奖励函数的值是否趋于收敛，当趋于收敛时终止学习，此时已完成无人机无线自组网的资源分配最优化。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，通过将深度学习的概念引入RL，结合为DRL，能够解决复杂的资源管理问题；通过建立用户与无人机之间的信息交互模型，能够实时获取当前的状态参量，并通过DPPO算法进行深度强化学习，完成功率资源的最佳分配，从而最大限度地提高系统能效，并实现频谱共享。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于强化学习的无人机网络发射功率分配方法的流程图；

图2是本发明实施例提供的一种基于强化学习的无人机网络发射功率分配装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种基于强化学习的无人机网络发射功率分配方法，如图1所示，所述方法包括以下步骤：

S2、初始化价值函数和当前网络状态的Q值；

S3、与环境交互接收奖励反馈并计算采取当前动作的Q值；

S4、根据反馈得到的奖励的最大值选取最优动作；

S5、更新系统的下一状态并存储至经验池中；

具体地，本发明所述方法的详细流程如下：

步骤S1中，初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率P_max，网络参数θ和θ′，智能体动作、状态、重放经验池

等。

步骤S2中，定义Q值函数为：Q(I(z),D(z),θ)，其中I(z)，D(z)，θ分别表示当前网络系统的状态，当前选取的动作和当前网络系统的权重参数；

在Q-learning中，Q值的更新策略为：

L_i(θ_i)＝E(Q'(I(z),D(z)；θ_i)-Q(I(z),D(z)；θ_i))²

其中，将满足使得L_i(θ_i)最小化的θ_i更新为θ_i+1。

步骤S3中，根据香农公式，第k个用户的信道容量为：

R_k＝Wlog₂(1+SINR_k)

则系统的能效即目标函数值为：

步骤S4中，系统获取即时奖励并更新参数，系统获得即时奖励的约束：

所有用户的功率和小于无人机发射的最大功率P_max；

第k个用户的即时奖励为：

步骤S5中，系统获得的总即时奖励为：

步骤S6中，根据存储的经验数量判断是否进行深度强化学习，若存储的经验数量满足预期值，则开始进行深度强化学习。

步骤S7中，由贝尔曼方程得到即时奖励，并展开深度强化学习，使用DPPO算法，通过副网络在不同的环境中收集数据，然后交给主网络来更新参数；这种方式节省了时空开销，同时解决了DQN中存在的过高估计问题；

深度强化学习算法的表达式为：

y^DPPO＝r+γQ(I',argmaxQ(I',d；θ)；θ’)

步骤S8中，在深度强化学习的过程中，无人机网络的目标函数值会不断上升，当长期奖励函数的值趋于收敛，即长期奖励函数在一定范围内不再发生明显变化时，得到最优资源分配方案，此时终止学习。

相应地，本发明的实施例还提供了一种基于强化学习的无人机网络发射功率分配装置，如图2所示，所述装置包括：

更新模块，用于更新系统的下一状态并存储至经验池中；

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在本发明中，将深度学习的概念引入RL，结合为DRL，以此来解决复杂的资源管理问题；通过建立用户与无人机之间的信息交互模型，实时获取当前动作，状态及策略，以此调节功率。本发明的DRL系统框架中，通过DPPO算法来进行深度强化学习，其目的是达到长期奖励函数最大化，即确保用户功率总和不超过无人机发射最大功率，最终实现功率的最优分配，达到系统能效最大化的目的。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。