CN108112082B

CN108112082B - 一种基于无状态q学习的无线网络分布式自主资源分配方法

Info

Publication number: CN108112082B
Application number: CN201711366713.XA
Authority: CN
Inventors: 黎海涛; 吴晓媛; 罗佳伟
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2021-05-25
Anticipated expiration: 2037-12-18
Also published as: CN108112082A

Abstract

本发明公开了一种基于无状态Q学习的无线网络分布式自主资源分配方法，首先把信道数和发射功率作为一组动作，随机选择一组动作，计算出实际网络吞吐量；然后把实际网络吞吐量和理论吞吐量的比值作为动作选择后的奖赏，并据此奖赏更新动作值函数；最后，迭代调整动作可以寻找到累计奖赏值函数最大解，其相应的动作即可达到无线网络的最优性能。本发明提出的方法能够在未知网内其他节点资源配置等先验信息的条件下，各个节点自主进行信道分配和发射功率控制使网络吞吐量最大化。

Description

一种基于无状态Q学习的无线网络分布式自主资源分配方法

技术领域

本发明属于无线通信网络领域，尤其涉及一种基于无状态Q学习的无线网络分布式自主资源分配方法。

背景技术

随着WiFi无线网络的用户急剧增多、无线设备数量和种类迅猛增长，无线业务对于接入质量的要求越来越高。为了提升WiFi网络的整体性能、改善网络的服务质量和实际用户体验，需要有效提高WiFi链路传输速率和区域吞吐量。然而在密集组网环境下由于同/异频干扰，使得实际组网环境下网络性能不高。因此，如何提高复杂环境中无线网络容量是待解决的难点问题。

WiFi网络性能优化的主要技术手段包括：AP(接入点)的工作信道分配、发射功率控制和负载均衡等。功率控制不仅可以改变每个链路传输的速率以提高频带资源的利用率，还会改变用户关联关系及网络结构，进而改善网络负载不均衡的情况。同时，信道选择可以避免个别信道的负载过大导致的网络性能下降以及信道资源浪费，从而提高网络性能并保证公平性。

目前，人们提出了一些WiFi网络信道分配和发射功率控制方法，但每个AP优化计算时，需要已知网内其他AP节点信道使用等先验信息。而在密集部署场景下，难以有效获得这些信息，故而降低了网络性能。因此，本发明提出一种无需先验信息的分布式强化学习资源分配方法。

强化学习(RL)是一类经典的机器学习的方法，包括了Q学习等算法，在多个领域得到了广泛应用。强化学习能够利用智能体(Agent)通过与环境的交互来选择能够达到目标的最优动作。强化学习模型组成如下：(1)状态集合S＝{s₁,s₂,L,s_m}；(2)动作集合A＝{a₁,a₂,L,a_n}；(3)奖赏函数r；(4)策略π:S→A。强化学习的每次迭代时过程中Agent获得环境状态s，并根据当前所选择的策略选择动作a，此动作将在后续影响环境。环境在受到动作a的作用后将会变为新的环境状态s'，环境同时也产生强化信号(奖赏)r并反馈给Agent。智能体根据奖赏r更新策略，并继续新的一次迭代过程。通过不断尝试，最终将会找到每个状态对应的最佳策略π^*，从而最大化期望的长期累计奖赏

其中，r_t ^π(s)是在第t个迭代值时刻获得的奖赏，因奖赏函数可能无限，故需引入折扣因子(γ＜1)。

强化学习在复杂、未知环境下能从观察结果中学习到性能良好的动作策略。特别地，鉴于RL中Q学习算法的自主学习能力和易实现性，本发明提出了基于无状态Q学习的分布式资源分配策略，并利用该策略在各个网络节点独立进行信道选择和功率分配，提高了整个无线网络的吞吐量。

发明内容

本发明解决的技术问题是如何在未知网内其他AP节点资源配置等先验信息的条件下，各个节点自主进行信道分配和发射功率控制使网络吞吐量最大化。

为实现上述目的，本发明采用如下的技术方案：

一种基于无状态Q学习的无线网络的分布式自主资源分配方法，包括以下实现步骤：

步骤(1)：设置初始时间t₀＝0，Q值函数Q(a_k)＝0，给每个节点k分配信道数和发射功率，信道数和发射功率构成动作集{a_k}，设置ε初始值，其为[0，1]之间的随机值。

步骤(2)：更新时间t＝t₀+1。

步骤(3)：在迭代时刻t，随机产生0到1的数m，根据ε贪婪机制选择动作，若m＜ε，则无线节点i则随机选择新的动作(即发射功率和信道数)；反之，则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。

步骤(4)：计算迭代时刻节点i的最大理论吞吐量。

首先根据通信距离等参数计算功率损耗值

其中，PL₀是单位路径损耗，α是路径损耗指数，d_i,j是接收端i到发送端j的距离，G_S是阴影效应，G_o是障碍物损耗，d_obs是障碍物间的距离。

再依据节点j发送功率P_tx,j和功率损耗PL_i,j计算出节点i的接收信号功率P_i,t＝P_tx,j-PL_i,j。最后，由接收端功率和地面噪声功率N₀计算理论吞吐量

其中B是根据分配的信道数获得的带宽。

步骤(5)：根据选择的信道和接收到的功率计算信号干扰噪声比

其中，P_i,t是WiFi网络节点i在时刻t的接收功率，I_i,t是总干扰，N₀是地面噪声功率。再计算出t时刻节点i的实际信道容量Γ_i,t＝Blog₂(1+SINR_i,t)。

步骤(6)：计算节点i在时刻t的奖赏值函数，其为实际最大容量与理论最大容量的比值

步骤(7)：网络节点根据动作a_k获得的奖赏函数值

t时刻的学习速率α_t(α_t＜1)、折扣因子γ(γ＜1)来更新Q值，公式如下：

步骤(8)：更新ε值，

其中，ε′为更新的值。

步骤(9)：重复步骤(2)至步骤(8)，直到矩阵Q接近于收敛状态。

有益效果

本发明采用的针对基于无状态Q学习的无线网络分布式自主资源分配方法，在动态未知的复杂环境中，无线网络进行信道选择和功率分配，观察其奖赏值和更新Q值寻找到最优策略。运用Q学习得到最优策略，无线网络各节点进行独立调整信道选择和功率分配，能使整个无线网络的吞吐量达到最优。

附图说明

图1为本发明的总体流程图。

图2为ε贪婪动作选择机制流程图。

具体实施方式

本发明提供一种基于无状态Q学习的无线网络分布式自主资源分配方法，首先，把信道数和发射功率作为一组动作，随机选择一组动作，计算出实际网络吞吐量，然后把实际网络吞吐量和理论吞吐量的比值作为动作选择后的奖赏，并据此奖赏更新动作值函数Q(s,a)，其是状态s时所采取动作a而获得的累计奖赏。最后，迭代调整动作可以寻找到累计奖赏值函数最大解，其相应的动作即可达到无线网络的最优性能。

如图1、2所示，一种基于无状态Q学习的无线网络的分布式自主资源分配方法，包括以下实现步骤：

步骤(2)：更新时间t＝t₀+1。

步骤(4)：计算迭代时刻节点i的最大理论吞吐量。

首先根据通信距离等参数计算功率损耗值

其中B是根据分配的信道数获得的带宽。

步骤(7)：网络节点根据动作a_k获得的奖赏函数值

步骤(8)：更新ε值，

其中，ε′为更新的值。

步骤(9)：重复步骤(2)至步骤(8)，直到矩阵Q接近于收敛状态。

实施例1：

步骤(1)：设置初始时间t＝0，Q值函数Q(a_k)＝0，给每个节点k分配的分别为2和0(dBm)，信道数和发射功率构成动作集{a_k}。设置ε初始值为0.8。

步骤(2)：更新时间，t＝t+1＝1。

步骤(3)：在迭代时刻t＝1，随机产生一个数m＝0.3，根据ε贪婪机制选择动作，比较二者大小，因为m＜ε，无线节点i则随机选择新发射功率和信道数分别为5(dBm)和2。反之，如果m大于ε，则选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。

步骤(4)：计算迭代时刻节点i的最大理论吞吐量。

首先根据PL₀是5dB，α是4.4，d_i,j是2m，G_S是均值为9.5的正态分布，G_o是均值为30的均匀分布，d_obs是5，计算出功率损耗值

再根据节点j发送功率P_tx,j和功率损耗PL_i,j计算出节点i的接收信号功率P_i,t＝P_tx,j-PL_,i _j＝-34.7453dBm。由于地面噪声功率N₀为-100(dBm)和分配的信道数获得的带宽B是20MHz，得到理论吞吐量

步骤(5)：总干扰I_i,t是-20dBm，地面噪声功率N₀为-100dBm，根据选择的信道和接收到的功率P_i,t计算出信号干扰噪声比

再计算出t时刻节点i的实际信道容量Γ_i,t＝Blog₂(1+SINR_i,t)＝7.33725。

步骤(7)：设置折扣因子γ(γ＜1)为0.5和的学习率α_t(α_t＜1)为0.5。网络节点根据

更新Q值，得到Q值为0.42635。

步骤(8)：更新

步骤(9)：重复步骤(2)至步骤(8)，直到矩阵Q接近于收敛状，即可找到是网络性能达到最优的动作。