CN108401254A - 一种基于强化学习的无线网络资源分配方法 - Google Patents
一种基于强化学习的无线网络资源分配方法 Download PDFInfo
- Publication number
- CN108401254A CN108401254A CN201810164127.5A CN201810164127A CN108401254A CN 108401254 A CN108401254 A CN 108401254A CN 201810164127 A CN201810164127 A CN 201810164127A CN 108401254 A CN108401254 A CN 108401254A
- Authority
- CN
- China
- Prior art keywords
- wireless network
- learning
- moment
- rate
- resource distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/02—Resource partitioning among network components, e.g. reuse partitioning
- H04W16/10—Dynamic resource partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/542—Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明属于无线网络资源分配以及强化学习领域,特别涉及一种基于强化学习的无线网络资源分配方法。该方法包括初始化步骤、状态检测步骤以及循环步骤。根据当前网络状态,获得当前状态数据;采用Q网络强化学习算法进行优化,可有效提高无线网络能效。该方法适用于无线网络资源的优化分配。
Description
技术领域
本发明属于无线网络资源分配以及强化学习领域,特别涉及一种基于强化学习的无线网络资源分配方法。
背景技术
强化学习目的是构造一个控制策略,使得Agent行为性能达到最大。Agent从复杂的环境中感知信息,对信息进行处理。Agent通过学习改进自身的性能并选择行为,从而产生群体行为的选择,个体行为选择和群体行为选择使得Agent作出决策选择某一动作,进而影响环境。
强化学习是指从动物学习、随机逼近和优化控制等理论发展而来,是一种无导师在线学习技术,从环境状态到动作映射学习,使得Agent根据最大奖励值采取最优的策略;Agent感知环境中的状态信息,搜索策略(哪种策略可以产生最有效的学习)选择最优的动作,从而引起状态的改变并得到一个延迟回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。
将强化学习技术应用到无线网络资源分配中,采用Q网络强化学习算法进行资源优化,可大幅提升无线网络效能。
发明内容
本发明针对现有技术存在的上述不足,提供了一种基于强化学习的无线网络资源分配方法。
为实现上述目的,本发明采用如下技术方案:
一种基于强化学习的无线网络资源分配方法,它包括以下步骤,
初始化步骤:
运行Q网络学习算法,即对每个s,a初始化Q(s,a)为0,
其中s表示状态,a表示动作,价值函数Q(s,a)表示对状态s下动作a得到的总体期望回报的一个估计,r为t时刻此动作的立即回报,γ为折扣因子,
观察当前状态s:
获取当前t时刻无线网络状态数据包括,
无线网络的信号干扰噪声比:
其中Pi,t为接受功耗,Ii,t为t时刻网络i总干扰,N为本地噪声功耗;
t时刻无线网络WNi的理论最大吞吐量:
Γi,t=B log2(1+SINRi,t)
无线网络WN i的最大可达吞吐量:
t时刻无线网络WN i获得的回报奖励:
其中,B为指信道的带宽,SNRi为网络信号和噪声的比值,即噪声比,循环步骤:
根据当前的信号干扰噪声比作为输入选择一个行为a输入并执行它,选择执行使Q(s,a)最大的行为a,接收立即回报r,
观察t+1时刻新状态s′,对Q(s′,a′)按照下式更新:
Q(s,a)=r(s,a)+γ*max Q(s′,a′)
状态更新:
s=s′
其中α为学习速率,γ为折扣因子。
本技术方案进一步的优化,所述学习速率α为0.9。
本技术方案进一步的优化,所述折扣因子γ为0.8。
本技术方案进一步的优化,根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率,实时更新Q网络状态,根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率,实时更新Q网络状态。
区别于现有技术,本发明采取的Q网络强化学习方法进行无线网络的资源优化分配。为减少了计算数据量,并对算法进行效能优化。根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率。通过实验证明,该方法可获得较好的结果并且具有较强的抗干扰性,相对于传统的资源分配算法,内存容量减少约四分之三,处理时间可减少20%以上。
附图说明
图1为具体实施方式所述方法流程图;
图2为具体实施方式所述强化学习流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,本发明优选一实施例一种基于强化学习的无线网络资源分配方法,它包括以下步骤,
初始化步骤:
运行Q网络学习算法,即对每个s,a初始化Q(s,a)为0,
其中s表示状态,a表示动作,价值函数Q(s,a)表示对状态s下动作a得到的总体期望回报的一个估计,r为t时刻此动作的立即回报,γ为折扣因子,
E是指期望值;
观察当前状态s:
获取当前t时刻无线网络状态数据包括,
无线网络的信号干扰噪声比:
其中Pi,t为接受功耗,Ii,t为总干扰(t时刻网络i),N为本地噪声功耗;
t时刻无线网络WN i的理论最大吞吐量:
Γi,t=B log2(1+SINRi,t)
无线网络WN i的最大可达吞吐量:
t时刻无线网络WN i获得的回报奖励:
其中,B为指信道的带宽,SNRi为网络信号和噪声的比值,即噪声比,
循环步骤:
根据当前的信号干扰噪声比作为输入选择一个行为a输入(即分配给无线网络相应的能量和通道)并执行它,选择执行使Q(s,a)最大的行为a,接收立即回报r,
观察t+1时刻新状态s′,对Q(s′,a′)按照下式更新:
Q(s,a)=r(s,a)+γ*max Q(s′,a′)
状态更新(更新无线网络的状态参数):
s=s′
其中α为学习速率,γ为折扣因子。学习速率α越大,保留之前训练的效果就越少,该实施例取值为0.9。折扣因子γ越大,所起到的作用就越大,该实施例取值为0.8。根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率
使用该实施例的系统测试结果如表1和表2所示。
表1系统测试参数
表2不同方法的内存容量比较
采用无线网络信号干扰噪声比作为输入,能量和通道分配作为输出,最大理论吞吐量比上最大可达吞吐量作为奖励回报,实时更新Q网络状态。
参阅图2所示,为强化学习流程图,本发明采取的Q网络强化学习方法进行无线网络的资源优化分配。为减少了计算数据量,并对算法进行效能优化。根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (4)
1.一种基于强化学习的无线网络资源分配方法,其特征在于:它包括以下步骤,
初始化步骤:
运行Q网络学习算法,即对每个s,a初始化Q(s,a)为0,
其中s表示状态,a表示动作,价值函数Q(s,a)表示对状态s下动作a得到的总体期望回报的一个估计,r为t时刻此动作的立即回报,γ为折扣因子,
观察当前状态s:
获取当前t时刻无线网络状态数据包括,
无线网络的信号干扰噪声比:
其中Pi,t为接受功耗,Ii,t为t时刻网络i总干扰,N为本地噪声功耗;
t时刻无线网络WN i的理论最大吞吐量:
Γi,t=B log2(1+SINRi,t)
无线网络WN i的最大可达吞吐量:
t时刻无线网络WN i获得的回报奖励:
其中,B为指信道的带宽,SNRi为网络信号和噪声的比值,即噪声比,循环步骤:
根据当前的信号干扰噪声比作为输入选择一个行为a输入并执行它,选择执行使Q(s,a)最大的行为a,接收立即回报r,
观察t+1时刻新状态s′,对Q(s′,a′)按照下式更新:
Q(s,a)=r(s,a)+γ*max Q(s′,a′)
状态更新:
s=s′
其中α为学习速率,γ为折扣因子。
2.如权利要求1所述的基于强化学习的无线网络资源分配方法,其特征在于:所述学习速率α为0.9。
3.如权利要求1所述的基于强化学习的无线网络资源分配方法,其特征在于:所述折扣因子γ为0.8。
4.如权利要求1所述的基于强化学习的无线网络资源分配方法,其特征在于:根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率,实时更新Q网络状态,根据输入调整学习速率,当输入变化超过20%时,增加10%的学习率,反之,降低10%的学习率,实时更新Q网络状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810164127.5A CN108401254A (zh) | 2018-02-27 | 2018-02-27 | 一种基于强化学习的无线网络资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810164127.5A CN108401254A (zh) | 2018-02-27 | 2018-02-27 | 一种基于强化学习的无线网络资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108401254A true CN108401254A (zh) | 2018-08-14 |
Family
ID=63096699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810164127.5A Pending CN108401254A (zh) | 2018-02-27 | 2018-02-27 | 一种基于强化学习的无线网络资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108401254A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966330A (zh) * | 2018-09-21 | 2018-12-07 | 西北大学 | 一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法 |
CN109787696A (zh) * | 2018-12-11 | 2019-05-21 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN111050330A (zh) * | 2018-10-12 | 2020-04-21 | 中兴通讯股份有限公司 | 移动网络自优化方法、系统、终端及计算机可读存储介质 |
CN111182637A (zh) * | 2019-12-24 | 2020-05-19 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
CN112149835A (zh) * | 2019-06-28 | 2020-12-29 | 杭州海康威视数字技术股份有限公司 | 一种网络重构方法及装置 |
CN113254192A (zh) * | 2020-02-12 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 资源分配方法、资源分配装置、电子设备及存储介质 |
US11483399B2 (en) * | 2018-09-19 | 2022-10-25 | Citrix Systems, Inc. | Systems and methods for maintaining and transferring SaaS session state |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007036003A1 (en) * | 2005-09-30 | 2007-04-05 | University Of South Australia | Reinforcement learning for resource allocation in a communications system |
CN102238631A (zh) * | 2011-08-17 | 2011-11-09 | 南京邮电大学 | 基于强化学习的异构网络资源管理方法 |
US20130218814A1 (en) * | 2012-02-20 | 2013-08-22 | Xerox Corporation | Method and system for the dynamic allocation of resources based on fairness, throughput, and user behavior measurement |
CN103906238A (zh) * | 2012-12-24 | 2014-07-02 | 中国移动通信集团北京有限公司 | 一种带宽分配方法、装置及服务器 |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
-
2018
- 2018-02-27 CN CN201810164127.5A patent/CN108401254A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007036003A1 (en) * | 2005-09-30 | 2007-04-05 | University Of South Australia | Reinforcement learning for resource allocation in a communications system |
CN102238631A (zh) * | 2011-08-17 | 2011-11-09 | 南京邮电大学 | 基于强化学习的异构网络资源管理方法 |
US20130218814A1 (en) * | 2012-02-20 | 2013-08-22 | Xerox Corporation | Method and system for the dynamic allocation of resources based on fairness, throughput, and user behavior measurement |
CN103906238A (zh) * | 2012-12-24 | 2014-07-02 | 中国移动通信集团北京有限公司 | 一种带宽分配方法、装置及服务器 |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
Non-Patent Citations (7)
Title |
---|
FRANCESC WILHELMI等: "Implications of decentralized Q-learning resource allocation in wireless networks", 《2017 IEEE 28TH ANNUAL INTERNATIONAL SYMPOSIUM ON PERSONAL, INDOOR, AND MOBILE RADIO COMMUNICATIONS (PIMRC)》 * |
JUNHONG NIE: "A -Learning-Based Dynamic Channel Assignment", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 * |
SOUMYA MAULIK等: "Online dynamic Resource allocation in", 《2012 INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND COMMUNICATIONS (SPCOM)》 * |
TIANMU GAO∗等: "Reinforcement Learning based Resource Allocation in", 《2017 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》 * |
刘杰: "基于强化学习的蜂窝网频谱规划和D2D系统资源管理", 《中国优秀硕士论文电子期刊网》 * |
周鑫: "载波聚合下基于强化学习的资源分配研究", 《中国优秀硕士论文电子期刊网》 * |
连传强等: "面向资源分配问题的Q-CF多智能体强化学习", 《智能系统学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11483399B2 (en) * | 2018-09-19 | 2022-10-25 | Citrix Systems, Inc. | Systems and methods for maintaining and transferring SaaS session state |
CN108966330A (zh) * | 2018-09-21 | 2018-12-07 | 西北大学 | 一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法 |
CN111050330A (zh) * | 2018-10-12 | 2020-04-21 | 中兴通讯股份有限公司 | 移动网络自优化方法、系统、终端及计算机可读存储介质 |
CN109787696A (zh) * | 2018-12-11 | 2019-05-21 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN109787696B (zh) * | 2018-12-11 | 2021-05-11 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN112149835A (zh) * | 2019-06-28 | 2020-12-29 | 杭州海康威视数字技术股份有限公司 | 一种网络重构方法及装置 |
CN112149835B (zh) * | 2019-06-28 | 2024-03-05 | 杭州海康威视数字技术股份有限公司 | 一种网络重构方法及装置 |
CN111182637A (zh) * | 2019-12-24 | 2020-05-19 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
CN111182637B (zh) * | 2019-12-24 | 2022-06-21 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
CN113254192A (zh) * | 2020-02-12 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 资源分配方法、资源分配装置、电子设备及存储介质 |
CN113254192B (zh) * | 2020-02-12 | 2024-04-16 | 北京沃东天骏信息技术有限公司 | 资源分配方法、资源分配装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108401254A (zh) | 一种基于强化学习的无线网络资源分配方法 | |
CN110958680B (zh) | 面向能量效率的无人机群多智能体深度强化学习优化方法 | |
Liu et al. | Big-data-based intelligent spectrum sensing for heterogeneous spectrum communications in 5G | |
CN111726217B (zh) | 基于深度强化学习的宽带无线通信自主选频方法及系统 | |
CN109302262A (zh) | 一种基于深度确定梯度强化学习的通信抗干扰方法 | |
CN109274456B (zh) | 一种基于强化学习的不完全信息智能抗干扰方法 | |
CN107690176B (zh) | 一种基于q学习算法的网络选择方法 | |
CN103987051B (zh) | 基于无线传感器网络可靠感知的频谱共享方法 | |
CN109586820A (zh) | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 | |
CN104936186B (zh) | 基于布谷鸟搜索算法的认知无线电网络频谱分配方法 | |
CN108712748B (zh) | 一种基于强化学习的认知无线电抗干扰智能决策的方法 | |
CN106358308A (zh) | 一种超密集网络中的强化学习的资源分配方法 | |
CN109067427B (zh) | 一种基于优化型小波神经网络的跳频序列预测方法 | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN112836569B (zh) | 基于序列卷积网络的水声通信信号识别方法、系统及设备 | |
CN105391490B (zh) | 一种基于认知的卫星通信网络选择算法 | |
CN101321388B (zh) | 一种基于博弈论的认知无线电网络fdm信道选择方法 | |
CN114126021B (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
Mufid et al. | Performance evaluation of PEGASIS protocol for energy efficiency | |
Li et al. | Partially observable double DQN based IoT scheduling for energy harvesting | |
CN111917529A (zh) | 一种基于改进exp3算法的水声ofdm资源分配方法 | |
CN116866048A (zh) | 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法 | |
CN105072687A (zh) | 基于人工蜂群算法的wlan信道分配方法 | |
CN111934786B (zh) | 一种基于深度强化学习的信号隐蔽抗干扰方法和装置 | |
CN112672426A (zh) | 一种基于在线学习的抗干扰频点分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180814 |