CN108401254A

CN108401254A - 一种基于强化学习的无线网络资源分配方法

Info

Publication number: CN108401254A
Application number: CN201810164127.5A
Authority: CN
Inventors: 方武; 朱婷
Original assignee: Suzhou Institute of Trade and Commerce
Current assignee: Suzhou Institute of Trade and Commerce
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2018-08-14

Abstract

本发明属于无线网络资源分配以及强化学习领域，特别涉及一种基于强化学习的无线网络资源分配方法。该方法包括初始化步骤、状态检测步骤以及循环步骤。根据当前网络状态，获得当前状态数据；采用Q网络强化学习算法进行优化，可有效提高无线网络能效。该方法适用于无线网络资源的优化分配。

Description

一种基于强化学习的无线网络资源分配方法

技术领域

本发明属于无线网络资源分配以及强化学习领域，特别涉及一种基于强化学习的无线网络资源分配方法。

背景技术

强化学习目的是构造一个控制策略，使得Agent行为性能达到最大。Agent从复杂的环境中感知信息，对信息进行处理。Agent通过学习改进自身的性能并选择行为，从而产生群体行为的选择，个体行为选择和群体行为选择使得Agent作出决策选择某一动作，进而影响环境。

强化学习是指从动物学习、随机逼近和优化控制等理论发展而来，是一种无导师在线学习技术，从环境状态到动作映射学习，使得Agent根据最大奖励值采取最优的策略；Agent感知环境中的状态信息，搜索策略(哪种策略可以产生最有效的学习)选择最优的动作，从而引起状态的改变并得到一个延迟回报值，更新评估函数，完成一次学习过程后，进入下一轮的学习训练，重复循环迭代，直到满足整个学习的条件，终止学习。

将强化学习技术应用到无线网络资源分配中，采用Q网络强化学习算法进行资源优化，可大幅提升无线网络效能。

发明内容

本发明针对现有技术存在的上述不足，提供了一种基于强化学习的无线网络资源分配方法。

为实现上述目的，本发明采用如下技术方案：

一种基于强化学习的无线网络资源分配方法，它包括以下步骤，

初始化步骤：

运行Q网络学习算法，即对每个s，a初始化Q(s，a)为0，

其中s表示状态，a表示动作，价值函数Q(s，a)表示对状态s下动作a得到的总体期望回报的一个估计，r为t时刻此动作的立即回报，γ为折扣因子，

观察当前状态s：

获取当前t时刻无线网络状态数据包括，

无线网络的信号干扰噪声比：

其中P_i，t为接受功耗，I_i，t为t时刻网络i总干扰，N为本地噪声功耗；

t时刻无线网络WNi的理论最大吞吐量：

Γ_i，t＝B log₂(1+SINR_i，t)

无线网络WN i的最大可达吞吐量：

t时刻无线网络WN i获得的回报奖励：

其中，B为指信道的带宽，SNR_i为网络信号和噪声的比值，即噪声比，循环步骤：

根据当前的信号干扰噪声比作为输入选择一个行为a输入并执行它，选择执行使Q(s，a)最大的行为a，接收立即回报r，

观察t+1时刻新状态s′，对Q(s′，a′)按照下式更新：

Q(s，a)＝r(s，a)+γ*max Q(s′，a′)

状态更新：

s＝s′

其中α为学习速率，γ为折扣因子。

本技术方案进一步的优化，所述学习速率α为0.9。

本技术方案进一步的优化，所述折扣因子γ为0.8。

本技术方案进一步的优化，根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率，实时更新Q网络状态，根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率，实时更新Q网络状态。

区别于现有技术，本发明采取的Q网络强化学习方法进行无线网络的资源优化分配。为减少了计算数据量，并对算法进行效能优化。根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率。通过实验证明，该方法可获得较好的结果并且具有较强的抗干扰性，相对于传统的资源分配算法，内存容量减少约四分之三，处理时间可减少20％以上。

附图说明

图1为具体实施方式所述方法流程图；

图2为具体实施方式所述强化学习流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1所示，本发明优选一实施例一种基于强化学习的无线网络资源分配方法，它包括以下步骤，

初始化步骤：

运行Q网络学习算法，即对每个s，a初始化Q(s，a)为0，

E是指期望值；

观察当前状态s：

获取当前t时刻无线网络状态数据包括，

无线网络的信号干扰噪声比：

其中P_i，t为接受功耗，I_i，t为总干扰(t时刻网络i)，N为本地噪声功耗；

t时刻无线网络WN i的理论最大吞吐量：

Γ_i，t＝B log₂(1+SINR_i，t)

无线网络WN i的最大可达吞吐量：

t时刻无线网络WN i获得的回报奖励：

其中，B为指信道的带宽，SNR_i为网络信号和噪声的比值，即噪声比，

循环步骤：

根据当前的信号干扰噪声比作为输入选择一个行为a输入(即分配给无线网络相应的能量和通道)并执行它，选择执行使Q(s，a)最大的行为a，接收立即回报r，

观察t+1时刻新状态s′，对Q(s′，a′)按照下式更新：

Q(s，a)＝r(s，a)+γ*max Q(s′，a′)

状态更新(更新无线网络的状态参数)：

s＝s′

其中α为学习速率，γ为折扣因子。学习速率α越大，保留之前训练的效果就越少，该实施例取值为0.9。折扣因子γ越大，所起到的作用就越大，该实施例取值为0.8。根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率

使用该实施例的系统测试结果如表1和表2所示。

表1系统测试参数

表2不同方法的内存容量比较

采用无线网络信号干扰噪声比作为输入，能量和通道分配作为输出，最大理论吞吐量比上最大可达吞吐量作为奖励回报，实时更新Q网络状态。

参阅图2所示，为强化学习流程图，本发明采取的Q网络强化学习方法进行无线网络的资源优化分配。为减少了计算数据量，并对算法进行效能优化。根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于强化学习的无线网络资源分配方法，其特征在于：它包括以下步骤，

初始化步骤：

运行Q网络学习算法，即对每个s，a初始化Q(s，a)为0，

观察当前状态s：

获取当前t时刻无线网络状态数据包括，

无线网络的信号干扰噪声比：

t时刻无线网络WN i的理论最大吞吐量：

Γ_i，t＝B log₂(1+SINR_i，t)

无线网络WN i的最大可达吞吐量：

t时刻无线网络WN i获得的回报奖励：

观察t+1时刻新状态s′，对Q(s′，a′)按照下式更新：

Q(s，a)＝r(s，a)+γ*max Q(s′，a′)

状态更新：

s＝s′

其中α为学习速率，γ为折扣因子。

2.如权利要求1所述的基于强化学习的无线网络资源分配方法，其特征在于：所述学习速率α为0.9。

3.如权利要求1所述的基于强化学习的无线网络资源分配方法，其特征在于：所述折扣因子γ为0.8。

4.如权利要求1所述的基于强化学习的无线网络资源分配方法，其特征在于：根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率，实时更新Q网络状态，根据输入调整学习速率，当输入变化超过20％时，增加10％的学习率，反之，降低10％的学习率，实时更新Q网络状态。