CN112492656B

CN112492656B - 一种基于强化学习的无线网络接入点切换方法

Info

Publication number: CN112492656B
Application number: CN202011334205.5A
Authority: CN
Inventors: 雷建军; 刘昕
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: China Mobile IoT Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-08-05
Anticipated expiration: 2040-11-25
Also published as: CN112492656A

Abstract

本发明涉及无线通信技术领域，具体涉及一种基于强化学习的无线网络接入点切换方法，使用SDN控制器控制站点切换至不同的AP，收集站点与AP之间的RSSI；使用SDN控制器收集站点与AP之间的RSSI，控制站点切换至不同的AP；在当前动作调整周期，使用ε‑贪婪策略选择出站点要关联的AP集合；控制器从AP集合中选择出当前状态下的最佳AP；控制器控制站点进行AP切换；切换完毕后，根据系统的吞吐量以及公平性计算奖励；更新动作价值函数；判断是否满足终止条件，若不满足，则进入下一个动作调整周期后返回不断优化最佳AP的选择；若满足，终止流程。本发明能够提高系统吞吐量和公平性，即站点关联最佳AP后，实现与最佳AP相关联的其他站点的吞吐量公平。

Description

一种基于强化学习的无线网络接入点切换方法

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于强化学习的无线网络接入点切换方法。

背景技术

无线局域网(Wireless Local Area Network，WLAN)因其高速、便利等优点得到了广泛地应用。无线局域网规模的扩大导致AP接入点的数量越来越多。在这种情况下，移动站点可能会被多个AP覆盖。在WiFi通信中，移动站点(STA)通过接入点AP实现Internet的接入，由于一个AP接入点的覆盖范围有限，通常只有50-300m，对站点移动性的支持十分有限，因此需要在不同AP间执行快速切换，以减少AP间切换导致的网络中断时间。在传统的切换方案中，移动站点(STA)以接收信号强度信息(RSSI)为切换的阈值，并且移动站点在切换过程中会和AP交换一些信息。由于遍历AP需要花费一定的时间，因此移动站点切换的时间会更长。

随着软件定义网络(SDN)技术的出现，传统的网络架构开始改变。SDN技术通过将网络的控制面与数据面解耦，并由控制器提供开放的接口和协议，使得网络管理者能够通过编程实现对网络的控制和管理。通过将SDN技术应用到无线局域网，管理员可以更好地管理无线节点，进而实现无缝切换和负载均衡等应用。但是仍然存在STA何时切换以及如何选择AP的问题。

传统的WiFi网络站点切换根据RSSI，当RSSI小于阈值时，站点断开与当前AP的连接，然后随机关联其他大于阈值的AP。这存在以下几个问题：第一个，站点并不能根据当前的网络状况动态地调整阈值，进而实现智能切换；第二个，站点在传统切换过程，不能选择最佳的AP，导致网络资源利用率低。

AP接入点切换遵循的是“先断后连”的思想，即当前的连接质量变得不可接受时，移动站点(STA)才会转而试着去连接其他AP，移动站点(STA)在正常通信的时候并不会为可能的切换做准备，所以它对于周围的AP资源一无所知，那么在切换的时候它就必须首先搜索周围可用的AP，这个扫描过程耗时巨大。

发明内容

为了解决上述问题，本发明提供一种基于强化学习的无线网络接入点切换方法。

一种基于强化学习的无线网络接入点切换方法，包括以下步骤：

S1、使用SDN控制器控制站点切换至不同的AP，收集站点与AP之间的RSSI；

S2、在当前动作调整周期，使用ε-贪婪策略选择出站点要关联的AP集合；

S3、控制器从AP集合中选择出当前状态下的最佳AP；

S4、控制器控制站点进行AP切换：与当前关联的AP去关联，并且与最佳AP进行关联；

S5、当前动作调整周期结束后，根据系统的吞吐量以及公平性计算奖励；

S6、根据当前动作调整周期系统的奖励更新动作价值函数(动作价值函数能记录历史经验，反馈到算法中，控制器根据最大化价值，调整AP的选择)；

S7、判断是否满足终止条件(终止条件为：动作价值的估计值等于真实值时)，若不满足终止条件，则进入下一个动作调整周期后返回步骤S2不断优化最佳AP的选择；若满足终止条件，则终止流程；

一个动作调整周期指的是：站点从一个AP点切换到另一个AP点的完整过程。

进一步的，使用ε-贪婪策略选择出站点要关联的AP集合，ε-贪婪策略进行AP选择动作所采用的公式包括：

其中，π(s|a)表示控制器以概率1-ε选择当前最大化价值的动作，以概率ε随机从所有动作中选择一个动作；|A(s)|表示在s状态下可选动作的数量；q_π(s，a)表示在策略π下的动作价值函数。

进一步的，系统的性能指标的奖励的计算方式包括：

R＝ω₁(T_{sys_cur}-T_{sys_pre})+ω₂T_i(1-σ)

其中，R表示奖励，ω₁和ω₂为权重，T_{sys_cur}为当前的系统吞吐，T_{sys_pre}为切换之前的系统吞吐，T_i是移动站点STA当前关联AP_i的吞吐，σ表示站点切换至新的AP后，所有站点的吞吐量公平，σ被定义为：

其中：

其中，N为AP_i关联的站点数量减一(不包括STA)，T_n,i表示与APi关联的站点n的吞吐量，

表示与APi所在的BSS(Basic Service Set，基本服务集)的平均吞吐量。

进一步的，选择AP的过程建模成马尔科夫决策的过程，马尔科夫决策过程的模型具体包括：

S_t＝{s₁,s₂,...,s_M-1,s_M}.

A＝{a₁,a₂,...,a_M-1,a_M}.

其中，M为AP的数量，控制器在t个时刻从网络中收集的STA的状态定义为S_t，站点与AP之间的RSSI被选做状态，即s₁表示站点与AP₁之间的RSSI。A表示动作空间，即AP的集合；a₁表示控制器选择AP₁最为最佳AP，站点将与当前关联的AP断开，然后与AP₁进行关联。

进一步的，动作价值函数包括：初始的动作价值为q(s,a)＝0，更新动作价值函数的计算公式包括：

q(s,a)←q(s,a)+α[U-q(s,a)]

U←R+γmax_{a′∈A(s′)}q_π(s′,a′)

其中，q(s,a)表示在s状态采取动作a的价值；α为学习率，γ为折扣因子；R表示性能指标的奖励；U为时序差分目标，表示预测的实际奖励；q_π(s′，a′)表示使用策略π，在下一个状态s′中选择动作a′的价值。

进一步的，AP切换过程包括以下过程：

S41、控制器收集网络状态信息RSSI后，对站点进行切换管理，选择出最佳AP；

S42、控制器首先断开STA当前的连接，然后控制站点与最佳AP进行关联；

S43、站点与最佳AP认证后，完成关联过程。

相对于现有技术，本发明的优点以及有益效果如下：

本发明使用的强化学习技术，有两个好处。第一个好处是根据当前网络状况，可以动态调整RSSI阈值，使得站点可以实现自适应地切换；第二个好处是在IEEE 802.11ax标准的基础上，使用强化学习算法动态的进行AP选择，为站点选择最佳AP，实现对站点的进一步控制，从而达到了提升系统吞吐量和公平性，即站点关联最佳AP后，实现与最佳AP相关联的其他站点的吞吐量公平的效果。本发明能够提高系统吞吐量和公平性，即站点关联最佳AP后，实现与最佳AP相关联的其他站点的吞吐量公平。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明中基于强化学习的AP切换的SDN框架结构图；

图2为本发明中强化学习的模型图；

图3为本发明的基于强化学习的AP切换方法的流程图；

图4为本发明中控制器执行站点切换的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例的一种基于强化学习的无线网络接入点(Access Point，AP)切换方法基于SDN(Software-defined network，软件定义网络)架构实现，如图1所示，SDN的整体架构分包括三层，从下至上分别是数据平面层、控制层和应用层。数据平面层包括站点、AP等；控制层包括控制器，控制器控制站点切换，即站点切换至不同的AP；还负责收集网络的状态信息，如站点与AP之间RSSI(Received Signal Strength Indication，接受信号强度指示)；应用层负责实现切换管理的应用。

在一个实施例中，如图2所示，本实施例提供AP进行强化学习的模型(这个模型有两个目的，根据当前的网络状况动态调整RSSI阈值和选择最佳AP)，建立以控制器为智能体、以其环境状态为RSSI的马尔科夫决策模型，初始化参数。AP所处的环境状态S为：站点到AP的RSSI；允许执行的动作A为：选择不同的AP进行切换；奖励为网络中重要的性能指标，如系统吞吐量、公平性等。

在下列实施例中，一个动作调整周期指的是站点从一个AP点切换到另一个AP点的完整过程。

本实施例提供一种基于强化学习的无线网络接入点切换方法，将切换过程中的AP选择问题建模为马尔科夫决策过程，通过强化学习算法实现系统性能的提升，本发明主要应用于IEEE 802.11ax的网络环境中。如图3-4所示，本实施例提供一种基于强化学习的AP切换方法，包括但不限于如下步骤：

选择AP的过程建模成马尔科夫决策的过程，马尔科夫决策过程的模型具体包括：

S_t＝{s₁,s₂,...,s_M-1,s_M}.

A＝{a₁,a₂,...,a_M-1,a_M}.

S2、在当前动作调整周期，使用ε-贪婪策略(ε-贪婪策略指的是以ε的概率进行探索，站点随机选择AP进行关联，以1-ε的概率选择实现最大化奖励的AP进行关联)选择出站点要关联的AP集合。

具体地，使用ε-贪婪策略选择出站点要关联的AP集合，具体包括：ε-贪婪策略指的是以ε的概率进行探索，站点随机选择AP进行关联，以1-ε的概率选择可以实现最大化奖励的AP，并进行关联。优选地，控制器选择的动作实际上指的是选择合适的AP进行切换，利用ε-贪婪策略选择动作公式包括：

S3、控制器从AP集合中选择出当前状态下的最佳AP，具体包括：控制器根据强化学习的经验，选择可以实现最大化奖励的AP为最佳AP。

S4、控制器控制站点进行AP切换：与当前关联的AP去关联，并且与最佳AP进行关联。

去关联：最佳AP会向当前的AP发送IAPP协议Move request，然后当前的AP会回复最佳AP Move respones，以此完成站点的去关联过程。

关联：站点首先向最佳AP发送association request，然后AP回复站点association respones，以此完成站点的切换过程。

在一个实施例中，AP切换过程包括以下过程：

S43、站点与最佳AP认证后，完成关联过程。

S5、当前动作调整周期结束后，根据系统的性能指标计算奖励。

使用本发明的AP切换方法之后，系统运行一个动作调整周期之后就可以统计这个周期内的系统吞吐量、公平性等性能指标，在一个动作调整周期内可以进行多次数据传输。通过这些性能指标可以计算奖励R，系统的性能指标的奖励的计算方式包括：

R＝ω₁(T_{sys_cur}-T_{sys_pre})+ω₂T_i(1-σ)

其中：

在一个优选实施例中，选择以系统的吞吐量以及公平性作为系统的性能指标。

在一个实施例中，系统的性能指标的奖励的计算方式包括：

R＝ω₁(T_{sys_cur}-T_{sys_pre})+ω₂T_i(1-σ)

其中：

S6、根据当前动作调整周期系统的奖励更新动作价值函数(动作价值函数能记录历史经验，反馈到算法中，控制器根据最大化价值，调整AP的选择)；，动作价值函数能记录历史经验，可用于后期AP选择的调整。

本系统采用DQN算法的价值函数更新方式，系统首次运行不存在更新动作价值函数，初始的动作价值为q(s,a)＝0，非首次运行需用动作价值函数进行更新，更新动作价值函数的计算公式包括：

q(s,a)←q(s,a)+α[U-q(s,a)]

U←R+γmax_{a′∈A(s′)}q_π(s′,a′)

S7、判断是否满足终止条件(终止条件为：动作价值的估计值等于真实值时)，若不满足终止条件，则进入下一个动作调整周期后返回步骤S2不断优化最佳AP的选择；若满足终止条件，则终止流程。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于强化学习的无线网络接入点切换方法，其特征在于，包括以下步骤：

使用ε-贪婪策略选择出站点要关联的AP集合，ε-贪婪策略进行AP选择动作所采用的公式包括：

其中，π(s|a)表示控制器以概率1-ε选择当前最大化价值的动作，以概率ε随机从所有动作中选择一个动作；|A(s)|表示在s状态下可选动作的数量；q_π(s,a)表示在策略π下的动作价值函数；

S3、控制器从AP集合中选择出当前状态下的最佳AP；

S_t＝{s₁,s₂,...,s_M-1,s_M}

A＝{a₁,a₂,...,a_M-1,a_M}

其中，M为AP的数量，控制器在t个时刻从网络中收集的STA的状态定义为S_t，站点与AP之间的RSSI被选做状态，即s₁表示站点与AP₁之间的RSSI。A表示动作空间，即AP的集合；a₁表示控制器选择AP₁最为最佳AP，站点将与当前关联的AP断开，然后与AP₁进行关联；

系统的性能指标的奖励的计算方式包括：

R＝ω₁(T_{sys_cur}-T_{sys_pre})+ω₂T_i(1-σ)

其中：

表示与APi所在的BSS(Basic Service Set，基本服务集)的平均吞吐量；

S6、根据当前动作调整周期系统的奖励更新动作价值函数；

动作价值函数包括：初始的动作价值为q(s,a)＝0，更新动作价值函数的计算公式包括：

q(s,a)←q(s,a)+α[U-q(s,a)]

U←R+γmax_{a′∈A(s′)}q_π(s′,a′)

其中，q(s,a)表示在s状态采取动作a的价值；α为学习率，γ为折扣因子；R表示性能指标的奖励；U为时序差分目标，表示预测的实际奖励；q_π(s′,a′)表示使用策略π，在下一个状态s′中选择动作a′的价值；

S7、判断是否满足终止条件，终止条件为动作价值的估计值等于真实值，若不满足终止条件，则进入下一个动作调整周期后返回步骤S2不断优化最佳AP的选择；若满足终止条件，则终止流程；

2.根据权利要求1所述的一种基于强化学习的无线网络接入点切换方法，其特征在于，AP切换过程包括以下过程：

S43、站点与最佳AP认证后，完成关联过程。