CN108112082B - 一种基于无状态q学习的无线网络分布式自主资源分配方法 - Google Patents
一种基于无状态q学习的无线网络分布式自主资源分配方法 Download PDFInfo
- Publication number
- CN108112082B CN108112082B CN201711366713.XA CN201711366713A CN108112082B CN 108112082 B CN108112082 B CN 108112082B CN 201711366713 A CN201711366713 A CN 201711366713A CN 108112082 B CN108112082 B CN 108112082B
- Authority
- CN
- China
- Prior art keywords
- node
- power
- value
- action
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明公开了一种基于无状态Q学习的无线网络分布式自主资源分配方法,首先把信道数和发射功率作为一组动作,随机选择一组动作,计算出实际网络吞吐量;然后把实际网络吞吐量和理论吞吐量的比值作为动作选择后的奖赏,并据此奖赏更新动作值函数;最后,迭代调整动作可以寻找到累计奖赏值函数最大解,其相应的动作即可达到无线网络的最优性能。本发明提出的方法能够在未知网内其他节点资源配置等先验信息的条件下,各个节点自主进行信道分配和发射功率控制使网络吞吐量最大化。
Description
技术领域
本发明属于无线通信网络领域,尤其涉及一种基于无状态Q学习的无线网络分布式自主资源分配方法。
背景技术
随着WiFi无线网络的用户急剧增多、无线设备数量和种类迅猛增长,无线业务对于接入质量的要求越来越高。为了提升WiFi网络的整体性能、改善网络的服务质量和实际用户体验,需要有效提高WiFi链路传输速率和区域吞吐量。然而在密集组网环境下由于同/异频干扰,使得实际组网环境下网络性能不高。因此,如何提高复杂环境中无线网络容量是待解决的难点问题。
WiFi网络性能优化的主要技术手段包括:AP(接入点)的工作信道分配、发射功率控制和负载均衡等。功率控制不仅可以改变每个链路传输的速率以提高频带资源的利用率,还会改变用户关联关系及网络结构,进而改善网络负载不均衡的情况。同时,信道选择可以避免个别信道的负载过大导致的网络性能下降以及信道资源浪费,从而提高网络性能并保证公平性。
目前,人们提出了一些WiFi网络信道分配和发射功率控制方法,但每个AP优化计算时,需要已知网内其他AP节点信道使用等先验信息。而在密集部署场景下,难以有效获得这些信息,故而降低了网络性能。因此,本发明提出一种无需先验信息的分布式强化学习资源分配方法。
强化学习(RL)是一类经典的机器学习的方法,包括了Q学习等算法,在多个领域得到了广泛应用。强化学习能够利用智能体(Agent)通过与环境的交互来选择能够达到目标的最优动作。强化学习模型组成如下:(1)状态集合S={s1,s2,L,sm};(2)动作集合A={a1,a2,L,an};(3)奖赏函数r;(4)策略π:S→A。强化学习的每次迭代时过程中Agent获得环境状态s,并根据当前所选择的策略选择动作a,此动作将在后续影响环境。环境在受到动作a的作用后将会变为新的环境状态s',环境同时也产生强化信号(奖赏)r并反馈给Agent。智能体根据奖赏r更新策略,并继续新的一次迭代过程。通过不断尝试,最终将会找到每个状态对应的最佳策略π*,从而最大化期望的长期累计奖赏其中,rt π(s)是在第t个迭代值时刻获得的奖赏,因奖赏函数可能无限,故需引入折扣因子(γ<1)。
强化学习在复杂、未知环境下能从观察结果中学习到性能良好的动作策略。特别地,鉴于RL中Q学习算法的自主学习能力和易实现性,本发明提出了基于无状态Q学习的分布式资源分配策略,并利用该策略在各个网络节点独立进行信道选择和功率分配,提高了整个无线网络的吞吐量。
发明内容
本发明解决的技术问题是如何在未知网内其他AP节点资源配置等先验信息的条件下,各个节点自主进行信道分配和发射功率控制使网络吞吐量最大化。
为实现上述目的,本发明采用如下的技术方案:
一种基于无状态Q学习的无线网络的分布式自主资源分配方法,包括以下实现步骤:
步骤(1):设置初始时间t0=0,Q值函数Q(ak)=0,给每个节点k分配信道数和发射功率,信道数和发射功率构成动作集{ak},设置ε初始值,其为[0,1]之间的随机值。
步骤(2):更新时间t=t0+1。
步骤(3):在迭代时刻t,随机产生0到1的数m,根据ε贪婪机制选择动作,若m<ε,则无线节点i则随机选择新的动作(即发射功率和信道数);反之,则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。
步骤(4):计算迭代时刻节点i的最大理论吞吐量。
步骤(5):根据选择的信道和接收到的功率计算信号干扰噪声比其中,Pi,t是WiFi网络节点i在时刻t的接收功率,Ii,t是总干扰,N0是地面噪声功率。再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t)。
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状态。
有益效果
本发明采用的针对基于无状态Q学习的无线网络分布式自主资源分配方法,在动态未知的复杂环境中,无线网络进行信道选择和功率分配,观察其奖赏值和更新Q值寻找到最优策略。运用Q学习得到最优策略,无线网络各节点进行独立调整信道选择和功率分配,能使整个无线网络的吞吐量达到最优。
附图说明
图1为本发明的总体流程图。
图2为ε贪婪动作选择机制流程图。
具体实施方式
本发明提供一种基于无状态Q学习的无线网络分布式自主资源分配方法,首先,把信道数和发射功率作为一组动作,随机选择一组动作,计算出实际网络吞吐量,然后把实际网络吞吐量和理论吞吐量的比值作为动作选择后的奖赏,并据此奖赏更新动作值函数Q(s,a),其是状态s时所采取动作a而获得的累计奖赏。最后,迭代调整动作可以寻找到累计奖赏值函数最大解,其相应的动作即可达到无线网络的最优性能。
如图1、2所示,一种基于无状态Q学习的无线网络的分布式自主资源分配方法,包括以下实现步骤:
步骤(1):设置初始时间t0=0,Q值函数Q(ak)=0,给每个节点k分配信道数和发射功率,信道数和发射功率构成动作集{ak},设置ε初始值,其为[0,1]之间的随机值。
步骤(2):更新时间t=t0+1。
步骤(3):在迭代时刻t,随机产生0到1的数m,根据ε贪婪机制选择动作,若m<ε,则无线节点i则随机选择新的动作(即发射功率和信道数);反之,则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。
步骤(4):计算迭代时刻节点i的最大理论吞吐量。
步骤(5):根据选择的信道和接收到的功率计算信号干扰噪声比其中,Pi,t是WiFi网络节点i在时刻t的接收功率,Ii,t是总干扰,N0是地面噪声功率。再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t)。
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状态。
实施例1:
一种基于无状态Q学习的无线网络的分布式自主资源分配方法,包括以下实现步骤:
步骤(1):设置初始时间t=0,Q值函数Q(ak)=0,给每个节点k分配的分别为2和0(dBm),信道数和发射功率构成动作集{ak}。设置ε初始值为0.8。
步骤(2):更新时间,t=t+1=1。
步骤(3):在迭代时刻t=1,随机产生一个数m=0.3,根据ε贪婪机制选择动作,比较二者大小,因为m<ε,无线节点i则随机选择新发射功率和信道数分别为5(dBm)和2。反之,如果m大于ε,则选择已得到Q值中的最大Q值对应的动作(即发射功率和信道数)。
步骤(4):计算迭代时刻节点i的最大理论吞吐量。
再根据节点j发送功率Ptx,j和功率损耗PLi,j计算出节点i的接收信号功率Pi,t=Ptx,j-PL,i j=-34.7453dBm。由于地面噪声功率N0为-100(dBm)和分配的信道数获得的带宽B是20MHz,得到理论吞吐量
步骤(5):总干扰Ii,t是-20dBm,地面噪声功率N0为-100dBm,根据选择的信道和接收到的功率Pi,t计算出信号干扰噪声比再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t)=7.33725。
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状,即可找到是网络性能达到最优的动作。
Claims (1)
1.一种基于无状态Q学习的无线网络的分布式自主资源分配方法,其特征在于:包括以下实现步骤:
步骤(1):设置初始时间t0=0,Q值函数Q(ak)=0,给每个节点k分配信道数和发射功率,信道数和发射功率构成动作集{ak};设置ε初始值,其中,ε为[0,1]之间的概率;
步骤(2):更新时间t=t0+1;
步骤(3):在迭代时刻t,随机产生0到1的数m,根据ε贪婪机制选择动作,若m<ε,则无线节点i则随机选择新的动作,其中动作包括发射功率、信道数;反之,则以(1-ε)的概率选择已得到Q值中的最大Q值对应的动作;
步骤(4):计算迭代时刻节点i的最大理论吞吐量
再依据节点j的发送功率Ptx,j和功率损耗PLi,j计算出节点i的接收信号功率Pi,t=Ptx,j-PLi,j;最后,由接收端功率和地面噪声功率N0计算理论吞吐量其中,B是根据分配的信道数获得的带宽;
步骤(5):根据选择的信道和接收到的功率计算信号干扰噪声比其中,Pi,t是WiFi网络节点i在时刻t的接收功率,Ii,t是总干扰,N0是地面噪声功率;再计算出t时刻节点i的实际信道容量Γi,t=Blog2(1+SINRi,t);
步骤(9):重复步骤(2)至步骤(8),直到矩阵Q接近于收敛状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711366713.XA CN108112082B (zh) | 2017-12-18 | 2017-12-18 | 一种基于无状态q学习的无线网络分布式自主资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711366713.XA CN108112082B (zh) | 2017-12-18 | 2017-12-18 | 一种基于无状态q学习的无线网络分布式自主资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108112082A CN108112082A (zh) | 2018-06-01 |
CN108112082B true CN108112082B (zh) | 2021-05-25 |
Family
ID=62210861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711366713.XA Active CN108112082B (zh) | 2017-12-18 | 2017-12-18 | 一种基于无状态q学习的无线网络分布式自主资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108112082B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109407997B (zh) * | 2018-11-09 | 2021-04-23 | 长沙理工大学 | 一种数据处理方法、装置、设备及可读存储介质 |
CN109787696B (zh) * | 2018-12-11 | 2021-05-11 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN109639374B (zh) * | 2018-12-29 | 2021-05-14 | 北京工业大学 | 一种基于强化学习算法的认知抗干扰通信方法 |
CN109743778B (zh) * | 2019-01-14 | 2022-05-10 | 长沙学院 | 一种基于强化学习的资源分配优化方法和系统 |
CN109714786B (zh) * | 2019-03-06 | 2021-07-16 | 重庆邮电大学 | 基于Q-learning的毫微微小区功率控制方法 |
CN110083064B (zh) * | 2019-04-29 | 2022-02-15 | 辽宁石油化工大学 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
US11463961B2 (en) | 2019-06-03 | 2022-10-04 | Nokia Solutions And Networks Oy | Uplink power control using deep Q-learning |
CN110933723B (zh) * | 2019-11-21 | 2022-01-04 | 普联技术有限公司 | 一种漫游切换控制方法、装置和无线ap |
CN111211831A (zh) * | 2020-01-13 | 2020-05-29 | 东方红卫星移动通信有限公司 | 一种多波束低轨卫星智能动态信道资源分配方法 |
CN112822781B (zh) * | 2021-01-20 | 2022-04-12 | 重庆邮电大学 | 一种基于q学习的资源分配方法 |
CN113163447B (zh) * | 2021-03-12 | 2022-05-20 | 中南大学 | 基于q学习的通信网络任务资源调度方法 |
CN113543065B (zh) * | 2021-05-31 | 2024-02-02 | 北京邮电大学 | 一种基于强化学习的通信资源分配方法及其相关设备 |
CN115173922B (zh) * | 2022-06-30 | 2024-03-15 | 深圳泓越信息科技有限公司 | 基于cmaddqn网络的多波束卫星通信系统资源分配方法 |
CN115361690A (zh) * | 2022-08-18 | 2022-11-18 | 国网福建省电力有限公司经济技术研究院 | 密集宏微协同组网容量与覆盖联合优化方法、设备及基站 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013100831A1 (en) * | 2011-12-29 | 2013-07-04 | Telefonaktiebolaget L M Ericsson (Publ) | A user equipment and a radio network node, and methods therein |
CN103220751A (zh) * | 2013-05-08 | 2013-07-24 | 哈尔滨工业大学 | 基于q学习资源分配策略的异构网络准入控制方法 |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
-
2017
- 2017-12-18 CN CN201711366713.XA patent/CN108112082B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013100831A1 (en) * | 2011-12-29 | 2013-07-04 | Telefonaktiebolaget L M Ericsson (Publ) | A user equipment and a radio network node, and methods therein |
CN103220751A (zh) * | 2013-05-08 | 2013-07-24 | 哈尔滨工业大学 | 基于q学习资源分配策略的异构网络准入控制方法 |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
Non-Patent Citations (1)
Title |
---|
基于Q学习和双向ACO算法的云计算任务资源分配模型设计;孙花;朱锦新;《计算机测量与控制》;20141025;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108112082A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108112082B (zh) | 一种基于无状态q学习的无线网络分布式自主资源分配方法 | |
Zhao et al. | Joint power control and channel allocation for interference mitigation based on reinforcement learning | |
Zhang et al. | Deep reinforcement learning for multi-agent power control in heterogeneous networks | |
CN103096415B (zh) | 一种面向认知无线Mesh网络的路由优化装置及方法 | |
CN107949025B (zh) | 一种基于非合作博弈的网络选择方法 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
Becvar et al. | Path selection using handover in mobile networks with cloud-enabled small cells | |
CN113225794B (zh) | 一种基于深度强化学习的全双工认知通信功率控制方法 | |
CN113890564B (zh) | 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置 | |
US20220394727A1 (en) | Scheduling method, scheduling algorithm training method, related system, and storage medium | |
CN105813189B (zh) | 一种蜂窝网中的d2d分布式功率优化方法 | |
CN109257811A (zh) | 联合功率控制的无线Mesh网络部分重叠信道分配方法 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
WO2013104120A1 (zh) | 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 | |
Qiao et al. | Optimal channel selection based on online decision and offline learning in multichannel wireless sensor networks | |
CN103957565B (zh) | 分布式无线网络中基于目标sinr的资源分配方法 | |
CN109600793B (zh) | 基于社会关系的d2d通信动态中继选择方法 | |
Zhang et al. | Energy efficient resource allocation in millimeter-wave-based fog radio access networks | |
CN114340017B (zh) | 一种具有eMBB和URLLC混合服务的异构网络资源切片方法 | |
Wang | SINR feedback-based integrated base-station assignment, diversity, and power control for wireless networks | |
Wang et al. | Dynamic uplink/downlink configuration using Q-learning in femtocell networks | |
CN106059728A (zh) | 一种大规模mimo系统中的基于相移的导频设计方法 | |
Zheng et al. | A utility-based joint power and rate adaptive algorithm in wireless ad hoc networks | |
CN111148254A (zh) | 一种基于补偿机制的合作抗干扰分层博弈模型及方法 | |
CN104486744A (zh) | 一种异构小蜂窝网络中的d2d模式选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |