CN108112082B - 一种基于无状态q学习的无线网络分布式自主资源分配方法 - Google Patents

一种基于无状态q学习的无线网络分布式自主资源分配方法 Download PDF

Info

Publication number
CN108112082B
CN108112082B CN201711366713.XA CN201711366713A CN108112082B CN 108112082 B CN108112082 B CN 108112082B CN 201711366713 A CN201711366713 A CN 201711366713A CN 108112082 B CN108112082 B CN 108112082B
Authority
CN
China
Prior art keywords
node
power
value
action
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711366713.XA
Other languages
English (en)
Other versions
CN108112082A (zh
Inventor
黎海涛
吴晓媛
罗佳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711366713.XA priority Critical patent/CN108112082B/zh
Publication of CN108112082A publication Critical patent/CN108112082A/zh
Application granted granted Critical
Publication of CN108112082B publication Critical patent/CN108112082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种基于无状态Q学习的无线网络分布式自主资源分配方法,首先把信道数和发射功率作为一组动作,随机选择一组动作,计算出实际网络吞吐量;然后把实际网络吞吐量和理论吞吐量的比值作为动作选择后的奖赏,并据此奖赏更新动作值函数;最后,迭代调整动作可以寻找到累计奖赏值函数最大解,其相应的动作即可达到无线网络的最优性能。本发明提出的方法能够在未知网内其他节点资源配置等先验信息的条件下,各个节点自主进行信道分配和发射功率控制使网络吞吐量最大化。

Description

一种基于无状态Q学习的无线网络分布式自主资源分配方法
技术领域
本发明属于无线通信网络领域,尤其涉及一种基于无状态Q学习的无线网络分布式自主资源分配方法。
背景技术
随着WiFi无线网络的用户急剧增多、无线设备数量和种类迅猛增长,无线业务对于接入质量的要求越来越高。为了提升WiFi网络的整体性能、改善网络的服务质量和实际用户体验,需要有效提高WiFi链路传输速率和区域吞吐量。然而在密集组网环境下由于同/异频干扰,使得实际组网环境下网络性能不高。因此,如何提高复杂环境中无线网络容量是待解决的难点问题。
WiFi网络性能优化的主要技术手段包括:AP(接入点)的工作信道分配、发射功率控制和负载均衡等。功率控制不仅可以改变每个链路传输的速率以提高频带资源的利用率,还会改变用户关联关系及网络结构,进而改善网络负载不均衡的情况。同时,信道选择可以避免个别信道的负载过大导致的网络性能下降以及信道资源浪费,从而提高网络性能并保证公平性。
目前,人们提出了一些WiFi网络信道分配和发射功率控制方法,但每个AP优化计算时,需要已知网内其他AP节点信道使用等先验信息。而在密集部署场景下,难以有效获得这些信息,故而降低了网络性能。因此,本发明提出一种无需先验信息的分布式强化学习资源分配方法。
强化学习(RL)是一类经典的机器学习的方法,包括了Q学习等算法,在多个领域得到了广泛应用。强化学习能够利用智能体(Agent)通过与环境的交互来选择能够达到目标的最优动作。强化学习模型组成如下:(1)状态集合S={s1,s2,L,sm};(2)动作集合A={a1,a2,L,an};(3)奖赏函数r;(4)策略π:S→A。强化学习的每次迭代时过程中Agent获得环境状态s,并根据当前所选择的策略选择动作a,此动作将在后续影响环境。环境在受到动作a的作用后将会变为新的环境状态s',环境同时也产生强化信号(奖赏)r并反馈给Agent。智能体根据奖赏r更新策略,并继续新的一次迭代过程。通过不断尝试,最终将会找到每个状态对应的最佳策略π*,从而最大化期望的长期累计奖赏
Figure BDA0001512881900000021
其中,rt π(s)是在第t个迭代值时刻获得的奖赏,因奖赏函数可能无限,故需引入折扣因子(γ<1)。
强化学习在复杂、未知环境下能从观察结果中学习到性能良好的动作策略。特别地,鉴于RL中Q学习算法的自主学习能力和易实现性,本发明提出了基于无状态Q学习的分布式资源分配策略,并利用该策略在各个网络节点独立进行信道选择和功率分配,提高了整个无线网络的吞吐量。
发明内容
本发明解决的技术问题是如何在未知网内其他AP节点资源配置等先验信息的条件下,各个节点自主进行信道分配和发射功率控制使网络吞吐量最大化。
为实现上述目的,本发明采用如下的技术方案:
一种基于无状态Q学习的无线网络的分布式自主资源分配方法,包括以下实现步骤:
步骤(1):设置初始时间t0=0,Q值函数Q(ak)=0,给每个节点k分配信道数和发射功率,信道数和发射功率构成动作集{ak},设置ε初始值,其为[0,1]之间的随机值。
步骤(2):更新时间t=t0+1。
步骤(3):在迭代时刻t,随机产生0到1的数m,根据ε贪婪机制选择动作,若m<ε,则无线节点i则随机选择新的动作(即发射功率和信道数);反之,则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。
步骤(4):计算迭代时刻节点i的最大理论吞吐量。
首先根据通信距离等参数计算功率损耗值
Figure BDA0001512881900000031
其中,PL0是单位路径损耗,α是路径损耗指数,di,j是接收端i到发送端j的距离,GS是阴影效应,Go是障碍物损耗,dobs是障碍物间的距离。
再依据节点j发送功率Ptx,j和功率损耗PLi,j计算出节点i的接收信号功率Pi,t=Ptx,j-PLi,j。最后,由接收端功率和地面噪声功率N0计算理论吞吐量
Figure BDA0001512881900000041
其中B是根据分配的信道数获得的带宽。
步骤(5):根据选择的信道和接收到的功率计算信号干扰噪声比
Figure BDA0001512881900000042
其中,Pi,t是WiFi网络节点i在时刻t的接收功率,Ii,t是总干扰,N0是地面噪声功率。再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t)。
步骤(6):计算节点i在时刻t的奖赏值函数,其为实际最大容量与理论最大容量的比值
Figure BDA0001512881900000043
步骤(7):网络节点根据动作ak获得的奖赏函数值
Figure BDA0001512881900000044
t时刻的学习速率αtt<1)、折扣因子γ(γ<1)来更新Q值,公式如下:
Figure BDA0001512881900000045
步骤(8):更新ε值,
Figure BDA0001512881900000046
其中,ε′为更新的值。
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状态。
有益效果
本发明采用的针对基于无状态Q学习的无线网络分布式自主资源分配方法,在动态未知的复杂环境中,无线网络进行信道选择和功率分配,观察其奖赏值和更新Q值寻找到最优策略。运用Q学习得到最优策略,无线网络各节点进行独立调整信道选择和功率分配,能使整个无线网络的吞吐量达到最优。
附图说明
图1为本发明的总体流程图。
图2为ε贪婪动作选择机制流程图。
具体实施方式
本发明提供一种基于无状态Q学习的无线网络分布式自主资源分配方法,首先,把信道数和发射功率作为一组动作,随机选择一组动作,计算出实际网络吞吐量,然后把实际网络吞吐量和理论吞吐量的比值作为动作选择后的奖赏,并据此奖赏更新动作值函数Q(s,a),其是状态s时所采取动作a而获得的累计奖赏。最后,迭代调整动作可以寻找到累计奖赏值函数最大解,其相应的动作即可达到无线网络的最优性能。
如图1、2所示,一种基于无状态Q学习的无线网络的分布式自主资源分配方法,包括以下实现步骤:
步骤(1):设置初始时间t0=0,Q值函数Q(ak)=0,给每个节点k分配信道数和发射功率,信道数和发射功率构成动作集{ak},设置ε初始值,其为[0,1]之间的随机值。
步骤(2):更新时间t=t0+1。
步骤(3):在迭代时刻t,随机产生0到1的数m,根据ε贪婪机制选择动作,若m<ε,则无线节点i则随机选择新的动作(即发射功率和信道数);反之,则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。
步骤(4):计算迭代时刻节点i的最大理论吞吐量。
首先根据通信距离等参数计算功率损耗值
Figure BDA0001512881900000061
其中,PL0是单位路径损耗,α是路径损耗指数,di,j是接收端i到发送端j的距离,GS是阴影效应,Go是障碍物损耗,dobs是障碍物间的距离。
再依据节点j发送功率Ptx,j和功率损耗PLi,j计算出节点i的接收信号功率Pi,t=Ptx,j-PLi,j。最后,由接收端功率和地面噪声功率N0计算理论吞吐量
Figure BDA0001512881900000062
其中B是根据分配的信道数获得的带宽。
步骤(5):根据选择的信道和接收到的功率计算信号干扰噪声比
Figure BDA0001512881900000063
其中,Pi,t是WiFi网络节点i在时刻t的接收功率,Ii,t是总干扰,N0是地面噪声功率。再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t)。
步骤(6):计算节点i在时刻t的奖赏值函数,其为实际最大容量与理论最大容量的比值
Figure BDA0001512881900000064
步骤(7):网络节点根据动作ak获得的奖赏函数值
Figure BDA0001512881900000065
t时刻的学习速率αtt<1)、折扣因子γ(γ<1)来更新Q值,公式如下:
Figure BDA0001512881900000066
步骤(8):更新ε值,
Figure BDA0001512881900000067
其中,ε′为更新的值。
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状态。
实施例1:
一种基于无状态Q学习的无线网络的分布式自主资源分配方法,包括以下实现步骤:
步骤(1):设置初始时间t=0,Q值函数Q(ak)=0,给每个节点k分配的分别为2和0(dBm),信道数和发射功率构成动作集{ak}。设置ε初始值为0.8。
步骤(2):更新时间,t=t+1=1。
步骤(3):在迭代时刻t=1,随机产生一个数m=0.3,根据ε贪婪机制选择动作,比较二者大小,因为m<ε,无线节点i则随机选择新发射功率和信道数分别为5(dBm)和2。反之,如果m大于ε,则选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。
步骤(4):计算迭代时刻节点i的最大理论吞吐量。
首先根据PL0是5dB,α是4.4,di,j是2m,GS是均值为9.5的正态分布,Go是均值为30的均匀分布,dobs是5,计算出功率损耗值
Figure BDA0001512881900000071
再根据节点j发送功率Ptx,j和功率损耗PLi,j计算出节点i的接收信号功率Pi,t=Ptx,j-PL,i j=-34.7453dBm。由于地面噪声功率N0为-100(dBm)和分配的信道数获得的带宽B是20MHz,得到理论吞吐量
Figure BDA0001512881900000072
步骤(5):总干扰Ii,t是-20dBm,地面噪声功率N0为-100dBm,根据选择的信道和接收到的功率Pi,t计算出信号干扰噪声比
Figure BDA0001512881900000081
再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t)=7.33725。
步骤(6):计算节点i在时刻t的奖赏值函数,其为实际最大容量与理论最大容量的比值
Figure BDA0001512881900000082
步骤(7):设置折扣因子γ(γ<1)为0.5和的学习率αtt<1)为0.5。网络节点根据
Figure BDA0001512881900000083
更新Q值,得到Q值为0.42635。
步骤(8):更新
Figure BDA0001512881900000084
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状,即可找到是网络性能达到最优的动作。

Claims (1)

1.一种基于无状态Q学习的无线网络的分布式自主资源分配方法,其特征在于:包括以下实现步骤:
步骤(1):设置初始时间t0=0,Q值函数Q(ak)=0,给每个节点k分配信道数和发射功率,信道数和发射功率构成动作集{ak};设置ε初始值,其中,ε为[0,1]之间的概率;
步骤(2):更新时间t=t0+1;
步骤(3):在迭代时刻t,随机产生0到1的数m,根据ε贪婪机制选择动作,若m<ε,则无线节点i则随机选择新的动作,其中动作包括发射功率、信道数;反之,则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作;
步骤(4):计算迭代时刻节点i的最大理论吞吐量
首先根据通信距离等参数计算功率损耗值
Figure FDA0003012600810000011
其中,PL0是单位路径损耗,α是路径损耗指数,di,j是接收端i到发送端j的距离,GS是阴影效应,Go是障碍物损耗,dobs是障碍物间的距离;
再依据节点j的发送功率Ptx,j和功率损耗PLi,j计算出节点i的接收信号功率Pi,t=Ptx,j-PLi,j;最后,由接收端功率和地面噪声功率N0计算理论吞吐量
Figure FDA0003012600810000012
其中,B是根据分配的信道数获得的带宽;
步骤(5):根据选择的信道和接收到的功率计算信号干扰噪声比
Figure FDA0003012600810000013
其中,Pi,t是WiFi网络节点i在时刻t的接收功率,Ii,t是总干扰,N0是地面噪声功率;再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t);
步骤(6):计算节点i在时刻t的奖赏值函数,其为实际最大容量与理论最大容量的比值
Figure FDA0003012600810000021
步骤(7):网络节点根据动作ak获得的奖赏函数值
Figure FDA0003012600810000024
t时刻的学习速率αt、折扣因子γ来更新Q值,其中αt<1、γ<1,公式如下:
Figure FDA0003012600810000022
步骤(8):更新ε值,
Figure FDA0003012600810000023
其中,ε′为更新的值;
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状态。
CN201711366713.XA 2017-12-18 2017-12-18 一种基于无状态q学习的无线网络分布式自主资源分配方法 Active CN108112082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711366713.XA CN108112082B (zh) 2017-12-18 2017-12-18 一种基于无状态q学习的无线网络分布式自主资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711366713.XA CN108112082B (zh) 2017-12-18 2017-12-18 一种基于无状态q学习的无线网络分布式自主资源分配方法

Publications (2)

Publication Number Publication Date
CN108112082A CN108112082A (zh) 2018-06-01
CN108112082B true CN108112082B (zh) 2021-05-25

Family

ID=62210861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711366713.XA Active CN108112082B (zh) 2017-12-18 2017-12-18 一种基于无状态q学习的无线网络分布式自主资源分配方法

Country Status (1)

Country Link
CN (1) CN108112082B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407997B (zh) * 2018-11-09 2021-04-23 长沙理工大学 一种数据处理方法、装置、设备及可读存储介质
CN109787696B (zh) * 2018-12-11 2021-05-11 杭州电子科技大学 基于案例推理与合作q学习的认知无线电资源分配方法
CN109639374B (zh) * 2018-12-29 2021-05-14 北京工业大学 一种基于强化学习算法的认知抗干扰通信方法
CN109743778B (zh) * 2019-01-14 2022-05-10 长沙学院 一种基于强化学习的资源分配优化方法和系统
CN109714786B (zh) * 2019-03-06 2021-07-16 重庆邮电大学 基于Q-learning的毫微微小区功率控制方法
CN110083064B (zh) * 2019-04-29 2022-02-15 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
US11463961B2 (en) 2019-06-03 2022-10-04 Nokia Solutions And Networks Oy Uplink power control using deep Q-learning
CN110933723B (zh) * 2019-11-21 2022-01-04 普联技术有限公司 一种漫游切换控制方法、装置和无线ap
CN111211831A (zh) * 2020-01-13 2020-05-29 东方红卫星移动通信有限公司 一种多波束低轨卫星智能动态信道资源分配方法
CN112822781B (zh) * 2021-01-20 2022-04-12 重庆邮电大学 一种基于q学习的资源分配方法
CN113163447B (zh) * 2021-03-12 2022-05-20 中南大学 基于q学习的通信网络任务资源调度方法
CN113543065B (zh) * 2021-05-31 2024-02-02 北京邮电大学 一种基于强化学习的通信资源分配方法及其相关设备
CN115173922B (zh) * 2022-06-30 2024-03-15 深圳泓越信息科技有限公司 基于cmaddqn网络的多波束卫星通信系统资源分配方法
CN115361690A (zh) * 2022-08-18 2022-11-18 国网福建省电力有限公司经济技术研究院 密集宏微协同组网容量与覆盖联合优化方法、设备及基站

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013100831A1 (en) * 2011-12-29 2013-07-04 Telefonaktiebolaget L M Ericsson (Publ) A user equipment and a radio network node, and methods therein
CN103220751A (zh) * 2013-05-08 2013-07-24 哈尔滨工业大学 基于q学习资源分配策略的异构网络准入控制方法
CN106358308A (zh) * 2015-07-14 2017-01-25 北京化工大学 一种超密集网络中的强化学习的资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013100831A1 (en) * 2011-12-29 2013-07-04 Telefonaktiebolaget L M Ericsson (Publ) A user equipment and a radio network node, and methods therein
CN103220751A (zh) * 2013-05-08 2013-07-24 哈尔滨工业大学 基于q学习资源分配策略的异构网络准入控制方法
CN106358308A (zh) * 2015-07-14 2017-01-25 北京化工大学 一种超密集网络中的强化学习的资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Q学习和双向ACO算法的云计算任务资源分配模型设计;孙花;朱锦新;《计算机测量与控制》;20141025;全文 *

Also Published As

Publication number Publication date
CN108112082A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN108112082B (zh) 一种基于无状态q学习的无线网络分布式自主资源分配方法
Zhao et al. Joint power control and channel allocation for interference mitigation based on reinforcement learning
Zhang et al. Deep reinforcement learning for multi-agent power control in heterogeneous networks
CN103096415B (zh) 一种面向认知无线Mesh网络的路由优化装置及方法
CN107949025B (zh) 一种基于非合作博弈的网络选择方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
Becvar et al. Path selection using handover in mobile networks with cloud-enabled small cells
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
CN113890564B (zh) 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
US20220394727A1 (en) Scheduling method, scheduling algorithm training method, related system, and storage medium
CN105813189B (zh) 一种蜂窝网中的d2d分布式功率优化方法
CN109257811A (zh) 联合功率控制的无线Mesh网络部分重叠信道分配方法
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
WO2013104120A1 (zh) 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
Qiao et al. Optimal channel selection based on online decision and offline learning in multichannel wireless sensor networks
CN103957565B (zh) 分布式无线网络中基于目标sinr的资源分配方法
CN109600793B (zh) 基于社会关系的d2d通信动态中继选择方法
Zhang et al. Energy efficient resource allocation in millimeter-wave-based fog radio access networks
CN114340017B (zh) 一种具有eMBB和URLLC混合服务的异构网络资源切片方法
Wang SINR feedback-based integrated base-station assignment, diversity, and power control for wireless networks
Wang et al. Dynamic uplink/downlink configuration using Q-learning in femtocell networks
CN106059728A (zh) 一种大规模mimo系统中的基于相移的导频设计方法
Zheng et al. A utility-based joint power and rate adaptive algorithm in wireless ad hoc networks
CN111148254A (zh) 一种基于补偿机制的合作抗干扰分层博弈模型及方法
CN104486744A (zh) 一种异构小蜂窝网络中的d2d模式选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant