CN110933723B

CN110933723B - 一种漫游切换控制方法、装置和无线ap

Info

Publication number: CN110933723B
Application number: CN201911154421.9A
Authority: CN
Inventors: 程文强; 黄泽淳
Original assignee: TP Link Technologies Co Ltd
Current assignee: TP Link Technologies Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-01-04
Anticipated expiration: 2039-11-21
Also published as: CN110933723A

Abstract

本发明公开了一种漫游切换控制方法、装置和无线AP，其中方法包括检测所接入的所有客户端中是否存在待漫游客户端；若检测到存在待漫游客户端，则获取待漫游客户端的漫游条件信息以及待漫游客户端与当前关联无线AP之间的漫游前链路吞吐量；根据待漫游客户端的漫游条件信息和存储的Q值表确定待漫游客户端的目标无线AP；控制待漫游客户端漫游切换到目标无线AP；在待漫游客户端漫游完成后，获取待漫游客户端与目标无线AP之间的漫游后链路吞吐量，并根据漫游前链路吞吐量和漫游后链路吞吐量，对Q值表进行更新。本发明能够根据通信环境的反馈动态调整漫游策略，采用适合于当前的通信环境的漫游策略进行漫游切换控制，准确地确定出最合适的目标无线AP。

Description

一种漫游切换控制方法、装置和无线AP

技术领域

本发明涉及漫游切换技术领域，尤其涉及一种漫游切换控制方法、装置和无线AP。

背景技术

漫游指的是客户端从一个无线AP(即，无线接入点)切换到另一个无线AP的过程。由于无线AP功率有限，覆盖范围有限，在同一网络系统中，通常需要多个无线AP来保证网络的覆盖范围，当某一客户端离开当前关联的当前无线AP的网络覆盖区域时，往往需要进行漫游切换，切换至与其他无线AP重新关联连接。

现有的无线AP漫游策略，大都是将客户端与无线AP之间的信号强度与信号强度阈值的大小关系作为切换判断依据来实现无线漫游，例如，无线AP周期性监控客户端的RSSI值，与信号强度阈值进行比较，当监控到的RSSI值小于信号强度阈值时，则无线AP向客户端发出漫游指令，客户端开始查询备选的无线AP对应的RSSI值，将各个备选的无线AP对应的RSSI值返回至当前关联的无线AP，当前关联的无线AP再根据返回的RSSI值确定目标无线AP，控制客户端漫游到该目标无线AP。

然而，无线网络的通信质量随着时间的推移受到干扰因素可能会发生变化，例如，不同的海拔高度、温度湿度、无线AP与客户端之间连接链路的遮挡情况等因素，现有技术中，信号强度阈值是一固定值，仅通过RSSI值和信号强度阈值来判断网络链路质量是一固定的漫游策略，无法在无线网络通信质量变化后采取适合当前网络环境的漫游策略进行漫游控制，不能准确地确定最适合的目标无线AP。

发明内容

本发明实施例所要解决的技术问题在于，提供一种漫游切换控制方法、装置和无线AP，能够根据通信环境的反馈动态调整漫游策略，采用适合于通信网络环境的漫游策略进行漫游切换控制，准确地确定出最合适的目标无线AP。

为了解决上述技术问题，第一方面，本发明提供了一种漫游切换控制方法，所述方法包括：

检测所接入的所有客户端中是否存在待漫游客户端；

若检测到存在所述待漫游客户端，则获取所述待漫游客户端的漫游条件信息以及所述待漫游客户端与当前关联无线AP之间的漫游前链路吞吐量；其中，所述漫游条件信息包括所述待漫游客户端的RSSI值、所述待漫游客户端的网络时延和所述当前关联无线AP所处信道的信道利用率；

根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M>1；

控制所述待漫游客户端漫游切换到所述目标无线AP；

在所述待漫游客户端漫游完成后，获取所述待漫游客户端与所述目标无线AP之间的漫游后链路吞吐量，并根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新；

所述根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP具体为：

根据所述待漫游客户端的漫游条件信息，从所述状态空间中选定一个所述状态向量，并确定与所述状态向量对应的所有所述状态行为组合；

获取预设的探索系数ε的当前数值ε_t；以第一概率随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；以第二概率根据与选定的状态向量对应的所有所述状态行为组合的Q值，从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；其中，所述第一概率为ε_t，所述第二概率为1-ε_t；

将所选择的状态行为组合对应的无线AP作为所述目标无线AP。

进一步的，在对所述Q值表进行更新之后，所述方法还包括：

将更新后的Q值表发送到所述当前关联无线AP所在的网络系统的其余M-1个无线AP，以使所述网络系统的其余M-1个无线AP对存储的Q值表进行同步更新。

进一步的，在对所述Q值表进行更新之后，所述方法还包括：

对所述探索系数ε的数值进行更新。

进一步的，所述以第一概率随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；以第二概率根据与选定的状态向量对应的所有所述状态行为组合的Q值，从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合具体为：

随机生成一个对比值，并比较所述探索系数的当前数值与所述对比值的大小关系；其中，所述对比值的取值范围为[0，1]，所述探索系数的取值范围为[0，1]；

若所述探索系数的当前数值大于所述对比值，则随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；

若所述探索系数的当前值不大于所述对比值，则确定与选定的状态向量对应的所有所述状态行为组合的Q值中的最大Q值，将所述最大Q值对应的状态行为组合作为所选择的状态行为组合。

进一步的，所述方法通过对所述探索系数ε的数值进行更新：

其中，ε_t+1为所述探索系数更新后的数值，r_decay为探索系数衰减系数，r_decay取值为[0，1]，ε_start为预设的所述探索系数的初始数值，global_step为探索系数的当前迭代轮数，decay_step为预设的衰减步数，decay_step＞0。

进一步的，所述根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新具体为：

根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，确定所选择的状态行为组合对应的实际奖励值；

获取所述待漫游客户端漫游后的漫游条件信息，并根据所述待漫游客户端漫游后的漫游条件信息、所选择的状态行为组合对应的所述实际奖励值和Q值更新函数，对所述Q值表中所选择的状态行为组合对应的Q值进行更新。

进一步的，所述根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，确定所选择的状态行为组合对应的实际奖励值具体包括：

通过以下的奖励函数确定所选择的状态行为组合对应的实际奖励值：

其中，(S_t，a)为所选择的状态行为组合，R_t(S_t，a)为所选择的状态行为组合对应的实际奖励值，Thr_start为所述漫游前链路吞吐量，Thr_end为所述漫游后链路吞吐量。

进一步的，所述Q值更新函数具体为：

Q′_t(S_t，a)＝R_t(S_t，a)+γ×max[Q_t(S′_t，A)]；

其中，Q′_t(S_t，a)为所选择的状态行为组合更新后的Q值，R_t(S_t，a)为所选择的状态行为组合对应的实际奖励值，γ为预设的折损率，A为所述行为空间，S′_t为与所述待漫游客户端漫游后的漫游条件信息对应的状态向量，Q_t(S′_t，A)为状态向量S′_t在行为空间内的所有Q值，max[Q_t(S′_t，A)]为Q_t(S′_t，A)中的最大值。

进一步的，所述Q值表的所述状态空间包括预先确定的N个不同的RSSI值、预设的K个不同的网络时延等级和预设的P个不同的信道利用率等级；则，所述状态空间含有N*K*P个所述状态向量；其中，每一所述网络时延等级预先对应有相应的网络时延范围，每一所述信道利用率等级预先对应有相应的信道利用率范围，N＞1，K＞1，P＞1。

进一步的，所述方法通过以下步骤预先确定所述状态空间中的N个不同的RSSI值：

获取所述当前关联无线AP所在的网络系统的所有客户端的RSSI值，确定所有所述客户端的RSSI值中的最大RSSI值和最小RSSI值；其中，所述网络系统包括M个无线AP以及每一无线AP所连接的若干个客户端；

根据所述最大RSSI值、所述最小RSSI值和预设的RSSI离散间距上限值，计算N的取值和RSSI离散间距；

根据N的取值、所述最小RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值；或，根据N的取值、所述最大RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值。

进一步的，所述根据所述最大RSSI值、所述最小RSSI值和预设的RSSI离散间距上限值，计算N的取值和RSSI离散间距具体包括：

统计所述网络系统中客户端的总数量，并通过以下公式计算N的取值：

通过以下公式计算所述RSSI离散间距：

其中，N_sum所述网络系统中客户端的总数量，RSSI_max为所述最大RSSI值，RSSI_min为所述最小RSSI值，D_max为预设的所述RSSI离散间距上限值，D为所述RSSI离散间距。

进一步的，所述根据N的取值、所述最小RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值具体为：

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_min+i*D；

所述根据N的取值、所述最大RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值具体为：

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_max-(N-i)*D；

其中，1≤i≤N，RSSI_i为所述状态空间的N个不同的RSSI值中的第i个RSSI值。

为了解决相应的技术问题，第二方面，本发明还提供了一种漫游切换控制装置，所述装置包括：

检测模块，用于检测所接入的所有客户端中是否存在待漫游客户端；

获取模块，用于若检测到存在所述待漫游客户端，则获取所述待漫游客户端的漫游条件信息以及所述待漫游客户端与当前关联无线AP之间的漫游前链路吞吐量；其中，所述漫游条件信息包括所述待漫游客户端的RSSI值、所述待漫游客户端的网络时延和所述当前关联无线AP所处信道的信道利用率；

确定模块，用于根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M>1；

控制模块，用于控制所述待漫游客户端漫游切换到所述目标无线AP；

更新模块，用于在所述待漫游客户端漫游完成后，获取所述待漫游客户端与所述目标无线AP之间的漫游后链路吞吐量，并根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新；

所述确定模块具体包括：

状态行为组合确定单元，用于根据所述待漫游客户端的漫游条件信息，从所述状态空间中选定一个所述状态向量，并确定与所述状态向量对应的所有所述状态行为组合；

选择单元，用于获取预设的探索系数ε的当前数值ε_t；以第一概率随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；以第二概率根据与选定的状态向量对应的所有所述状态行为组合的Q值，从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；其中，所述第一概率为ε_t，所述第二概率为1-ε_t；

目标无线AP确定单元，用于将所选择的状态行为组合对应的无线AP作为所述目标无线AP。

为了解决相应的技术问题，第三方面，本发明还提供了一种无线AP，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面提供的任意一项所述的漫游切换控制方法。

上述提供的一种漫游切换控制方法、装置和无线AP，能够充分考虑了RSSI值、网络时延、信道利用率、链路吞吐量等衡量通信质量的多维度参数，通过Q值表的漫游策略选择目标无线AP，执行漫游切换，并对Q值表进行更新。由于考虑了多维度参数，且Q值表存储的漫游策略能够根据通信环境给予的反馈不断更新，漫游策略能够根据通信环境实现动态调整，以实现进行漫游切换时，能够采用适合于当前的通信环境的漫游策略进行漫游切换控制，准确地确定出最合适的目标无线AP。

附图说明

图1是本发明提供的网络系统的结构示意图；

图2是本发明提供的一种漫游切换控制方法的一个优选实施例的流程示意图；

图3是本发明提供的一种漫游切换控制装置的一个优选实施例的结构示意图；

图4是本发明提供的一种无线AP的一个优选实施例的结构参考示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种漫游切换控制方法，请参阅图1至图2，图1是本发明提供的网络系统的结构示意图，图2是本发明提供的一种漫游切换控制方法的一个优选实施例的流程示意图；具体的，所述方法包括：

S1、检测所接入的所有客户端中是否存在待漫游客户端；

S2、若检测到存在所述待漫游客户端，则获取所述待漫游客户端的漫游条件信息以及所述待漫游客户端与当前关联无线AP之间的漫游前链路吞吐量；其中，所述漫游条件信息包括所述待漫游客户端的RSSI值、所述待漫游客户端的网络时延和所述当前关联无线AP所处信道的信道利用率；

S3、根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M>1；

S4、控制所述待漫游客户端漫游切换到所述目标无线AP；

S5、在所述待漫游客户端漫游完成后，获取所述待漫游客户端与所述目标无线AP之间的漫游后链路吞吐量，并根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新。

需要说明的是，在一个网络系统中包括M个无线AP(如图1中的无线AP₁～无线AP_M)实现网络的覆盖，每一无线AP下负载有若干个客户端，如图1中的无线AP₁负载的客户端C₁₁～客户端C_1x，无线AP₂负载的客户端C₂₁～客户端C_2y，无线AP_M负载的客户端C_M1～客户端C_Mz，x、y、z均为自然数。Q值表是Q强化学习中用于存储每一状态向量下执行某一行为动作后，在下一状态向量所能获得的奖励的数据表，是执行策略的集合，在本发明中Q值表是存储着漫游策略的数据表。Q值表中Q值即用于指示每一状态行为组合对应的奖励，如下表1所示，k≥1，状态空间S包括N个状态向量S_i，每一行表示一个状态向量S_i，状态空间A包括M个行为动作α，每一列表示一个行为动作α。通过不断的探索环境中的状态并执行相应行为动作来逐渐获知准确的环境给予每一状态行为组合的奖励(Q值)，进而可以选择出准确的漫游策略，选出最佳的目标无线AP进行漫游切换。本发明中每一行为动作对应一个无线AP，执行某一行为动作意味着该行为动作对应的无线AP即为选择的目标无线AP。当前关联无线AP是指待漫游客户端在漫游前所关联连接的无线AP；目标无线AP是指待漫游客户端的漫游目标，即漫游后所关联连接的无线AP。

表1 Q值表

需要说明的是，每一状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，其中不同的网络时延等级有对应的网络时延范围，不同的信道利用率等级有对应的信道利用率范围，状态空间中的RSSI值是预先根据网络系统的RSSI值确定一定数量的RSSI值。需要说明的是，预先确定的RSSI值、网络时延等级和信道利用率等级的数量均可以根据实际需要设定，每一个网络时延等级的网络时延范围、每一个信道利用率等级的信道利用率范围均可以根据实际需求设定。例如信道利用率等级U分为4个等级，用U1～U4表示，可为[25％，50％，75％，100％]；例如网络时延等级T划分为四个等级，分别为“极快”、“良好”、“普通”和“差”，分别用t1～t4表示，进一步的，每一网络时延等级对应的网络时延范围可根据实际需要自行设置，例如，每一网络时延等级对应的网络时延范围设置为如下：

(1)网络时延等级“极快”：1ms≤t1≤30ms，几乎察觉不出有延迟；

(2)网络时延等级“良好”：31ms≤t2≤50ms，没有明显的延迟情况；

(3)网络时延等级“普通”：51ms≤t3≤100ms，网络稍有停顿；

(4)网络时延等级“差”：100ms≤t4，网络有卡顿、丢包并掉线现象。

本发明提供的一种漫游切换控制方法由网络系统中的无线AP执行，每一无线AP均可独立执行上述步骤，对自身所连接的客户端进行漫游管理以及更新自身存储的Q值表。以图中的无线AP₁为例说明本发明的一种漫游切换控制方法的实施过程：无线AP₁检测所接入的所有客户端(图1中客户端C₁₁～客户端C_1x)中是否存在待漫游客户端；若检测到存在待漫游客户端，例如检测到图1中的客户端C₁₁需要进行漫游切换，则客户端C₁₁为待漫游客户端，则获取待漫游客户端C₁₁的漫游条件信息以及待漫游客户端C₁₁与当前关联无线AP(即无线AP₁)之间的漫游前链路吞吐量；漫游条件信息包括待漫游客户端C₁₁与的RSSI值、待漫游客户端C₁₁与的网络时延t和当前关联无线AP(即无线AP₁)所处信道的信道利用率u；根据待漫游客户端C₁₁的漫游条件信息和存储的Q值表，确定待漫游客户端C₁₁的目标无线AP，具体的，确定目标无线AP时，根据待漫游客户端C₁₁的漫游条件信息与Q值表的状态向量的匹配情况，通过一定的选择策略选择出匹配的状态向量下的一个状态行为组合，所选择的状态行为组合中的行为动作对应的无线AP即为确定的无线AP，例如，匹配的状态向量为S₂，所选择的状态行为组合为(S₂，α₂)，则待漫游客户端C₁₁的目标无线AP为无线AP₂；执行所选择的状态行为组合，即控制待漫游客户端漫游切换到目标无线AP(无线AP₂)，完成待漫游客户端的漫游切换。本发明为了实现漫游策略能根据环境的相应动态调整，在漫游切换完成本发明对Q值表进行更新，且本发明通过链路吞吐量反映了根据状态行为组合执行漫游切换后通信环境反馈的回报，具体的，在待漫游客户端C₁₁漫游完成后，获取待漫游客户端C₁₁与目标无线AP(无线AP₂)之间的漫游后链路吞吐量，根据漫游前链路吞吐量和漫游后链路吞吐量，对Q值表进行更新。

需要说明的是，漫游条件信息可以根据实际需要增加其他参数，例如还包括RSSI值变化率、在预设时间段内无线AP的丢包率或丢包次数等，通过RSSI值变化率用于获知无线AP与客户端之间的链路的稳定性，通过丢包率或丢包次数反映无线AP的通信连接质量。

需要说明的是，检测所接入的所有客户端中是否存在待漫游客户端时，可以通过检测所接入的客户端的RSSI值来判断，可选的，获取所接入的所有客户端的RSSI值，判断所接入的所有客户端的RSSI值中是否存在低于RSSI阈值的RSSI值，当存在低于RSSI阈值的RSSI值时，判定所接入的所有客户端中存在待漫游客户端，且将RSSI值低于RSSI阈值的客户端作为待漫游客户端。需要说明的是，RSSI值阈值可以通过在不同的通信环境中多次试验测试后确定，例如在某一通信环境中通过大量试验测试得出一个经验值，得出RSSI值为-65dBm时，客户端需要进行漫游切换来保证继续连接在该网络系统中，则设置RSSI阈值为-65dBm。

本发明提供的一种漫游切换控制方法，充分考虑了RSSI值、网络时延、信道利用率、链路吞吐量等衡量通信质量的多维度参数，通过Q值表的漫游策略选择目标无线AP，执行漫游切换，并对Q值表进行更新。由于考虑了多维度参数，且Q值表存储的漫游策略能够根据通信环境给予的反馈不断更新，漫游策略能够根据通信环境实现动态调整，以实现进行漫游切换时，能够采用适合于当前的通信环境的漫游策略进行漫游切换控制，准确地确定出最合适的目标无线AP。

需要说明的是，在正式利用上述方法对实际的网络系统的客户端进行切换之前，Q值表通过上述方法迭代更新一定次数后视为迭代完成，后续直接使用上述方法进行实际漫游切换，即除了Q值表初始化后的训练阶段外，运用上述进行实际的漫游切换场景时Q值表仍然在继续更新中。可选的，迭代次数为5M次。

需要说明的是，上述表1的Q值表只是示意，还可以将状态空间S、行为空间A、Q值通过不同的表格或者矩阵分开存储，只要能够确定每一状态行为组合对应的Q值即可。

优选地，在对所述Q值表进行更新之后，所述方法还包括：

在本实施例中，本申请提供的一种漫游切换控制方法在当前无线AP完成自身的Q值表更新后，还将更新后的Q值表同步更新到其他无线AP，能够通过网络系统内部的信息共享收集，提高整个网络系统的通信性能，同时能加快其他无线AP的Q值表的更新速度，其他无线AP也能在较短时间内获得适用于当前通信环境的漫游策略，当其他无线AP也有检测到待漫游客户端时就能利用共享的最新的Q值表为待漫游客户端选择更佳的目标无线AP。需要说明的是，状态空间S、行为空间A、Q值通过不同的表格或者矩阵分开存储，则每一表格或者矩阵均需要发送到其余的无线AP。

优选地，所述根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP具体为：

将所选择的状态行为组合对应的无线AP作为所述目标无线AP；

则，在对所述Q值表进行更新之后，所述方法还包括：

对所述探索系数ε的数值进行更新。

具体的，在本实施例中，确定目标无线AP时，先从所述状态空间中选定一个与待漫游客户端的漫游条件信息最接近的状态向量，例如，假设待漫游客户端C₁₁的漫游条件信息包括待漫游客户端C₁₁的RSSI值-50dBm、待漫游客户端C₁₁与的网络时延t＝35ms和当前关联无线AP(即无线AP₁)所处信道的信道利用率u＝45％，从并确定状态空间中选定一个最接近的状态向量S_t＝[RSSI_t，T_t，U_t]＝[-55dBm，良好，50％]，行为空间A有α₁～α_M个行为动作，分别对应网络系统中的M个无线AP，则确定与所述状态向量S_t对应的所有状态行为组合(S_t，α₁)～(S_t，α_M)。进一步的，为了从状态行为组合(S_t，α₁)～(S_t，α_M)中选择出一个状态行为组合来执行，获取预设的探索系数ε的当前数值ε_t，有第一概率ε_t是按照随机选择的方式从状态行为组合(S_t，α₁)～(S_t，α_M)中选择出一个状态行为组合，有第二概率1-ε_t是按照Q值表的Q值选择一个状态行为组合。例如若选择方式为随机选择，从状态行为组合(S_t，α₁)～(S_t，α_M)中选择出状态行为组合(S_t，α₂)，则状态行为组合(S_t，α₂)对应的无线AP₂就是确定的目标无线AP。若选择方式为根据Q值表的Q值选择，从状态行为组合(S_t，α₁)～(S_t，α_M)中选择出状态行为组合(S_t，α₃)，则状态行为组合(S_t，α₃)对应的无线AP₃就是确定的目标无线AP。在确定了目标无线AP后，对探索系数进行更新。

需要说明的是，随机选择一个状态行为组合实际是对通信网络环境不断发现的过程，以一定概率探索之前未执行过的漫游策略来发现可能在执行经验外存在的更好的漫游策略；根据Q值表选择状态行为组合实际是根据以往的执行经验进一步探索的过程，例如某个漫游策略得到更好的反馈，则更多可能地往该漫游策略的方向进一步探索。通过上述以第一概率的随机选择状态行为组合，以第二概率根据Q值表选择状态行为组合，能够环境探索和经验中得到一种平衡，既不局限于以往的探索经验，能突破以往探索经验的经验探索其他可能的策略，又不会一直循环做没有目的性的探索，能对以往的探索经验加以利用，能够很好地对通信环境进行探索和漫游策略更新。需要说明的是，对探索系数进行更新实际是根据对通信环境的探索，强化学习网络对通信环境越来越了解，后续便可以更大概率地根据以往的探索经验进一步探索，逐渐往漫游更好地方向更新漫游策略。

优选地，所述以第一概率随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；以第二概率根据与选定的状态向量对应的所有所述状态行为组合的Q值，从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合具体为：

随机生成一个对比值，并比较所述探索系数的当前数值与所述对比值的大小关系；其中，所述对比值的取值范围为[0,1]，所述探索系数的取值范围为[0,1]；

为了实现以第一概率随机选择状态行为组合、以第二概率根据Q值表选择状态向量组合，本发明在获取预设的探索系数ε的当前数值ε_t后，随机生成一个对比值，则探索系数ε的当前数值ε_t有第一概率是大于对比值的，有第二概率是不大于对比值的，故以对比值和探索系数ε的当前数值ε_t的大小关系作为选择方式的依据，便能实现以第一概率随机选择状态行为组合、以第二概率根据Q值表选择状态向量组合。具体的，若探索系数的当前数值ε_t大于对比值，则随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；若探索系数的当前值不大于对比值，则确定与选定的状态向量对应的所有所述状态行为组合的Q值中的最大Q值，即Q[(S_t，α₁)]～Q[(S_t，α_M)]中最大值，若Q[(S_t，α₁)]～Q[(S_t，α_M)]中的最大值Q[(S_t，α₂)]为，将Q[(S_t，α₂)]对应的状态行为组合(S_t，a₂)作为所选择的状态行为组合，确定目标无线AP为无线AP₂。

优选地，所述方法通过对所述探索系数ε的数值进行更新：

具体的，decay_step为预设的衰减步数，代表着迭代多少轮探索系数后可以完成一个周期的衰减，决定着探索系数的衰减周期。可选的，预设的探索系数的初始数值ε_start设为1。随着探索系数的更新次数增大，探索系数的当前迭代轮数global_step增大，r_decay的指数

不断增大，则

不断减小，实现探索系数衰减。

优选地，所述根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新具体为：

具体的，Q值表中Q值代表着执行每一状态行为组合的奖励，但这个奖励有可能是初始化时的估计值或者通过其他函数计算的估计值，也有可能是上一次执行该状态行为组合时获得的奖励，当无线通信通信环境不断变化，且漫游后整体网络系统的性能也有可能发生变化，故获取到当前的无线通信环境反馈的实际奖励值后，需要根据当前的无线通信环境反馈的实际奖励值、待漫游客户端漫游后的RSSI值、网络时延和目标无线AP的信道利用率等对Q值表进行更新，以实现Q值表不断根据通信环境动态调整。需要说明的是，Q值更新函数可以根据实际需要进行设计，实际奖励值可以通过设计计算函数确定，也可以在给定的几个数值中通过奖励函数确定某一个数值作为实际奖励值。

优选地，所述根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，确定所选择的状态行为组合对应的实际奖励值具体包括：

具体的，本发明通过漫游前链路吞吐量和漫游后链路吞吐的变化率来作为选择条件，在给定的数值-1、0、1中选择确定实际奖励值。需要说明的是，R_t(S_t，a)可以在设备中通过额外的矩阵或表格存储，更新完成后，也一并同Q值表发送给网络系统的其余无线AP进行同步更新。

优选地，所述Q值更新函数具体为：

Q′_t(S_t，a)＝R_t(S_t，a)+γ×max[Q_t(S′_t，A)]；

其中，Q′_t(S_t，a)为所选择的状态行为组合更新后的Q值，R_t(S_t，a)为所选择的状态行为组合对应的实际奖励值，γ为预设的折损率，A为所述行为空间，S′_t为与所述待漫游客户端漫游后的漫游条件信息对应的状态向量，Q_t(S′_t，A)为与状态向量S′_t在行为空间内的所有Q值，max[Q_t(S′_t，A)]为Q_t(S′_t，A)中的最大值。

优选地，所述Q值表的所述状态空间包括预先确定的N个不同的RSSI值、预设的K个不同的网络时延等级和预设的P个不同的信道利用率等级；则，所述状态空间含有N*K*P个所述状态向量；其中，每一所述网络时延等级预先对应有相应的网络时延范围，每一所述信道利用率等级预先对应有相应的信道利用率范围，N＞1，K＞1，P＞1。

需要说明的是，状态空间S含有N*K*P个状态向量S₁～S_N*K*P，行为空间A含有M个行为动作a₁～a_M，则有N*K*P*M个状态行为组合的Q值：Q₁(S₁，a₁)～Q_N*K*P*M(S_N*K*P，a_M)，Q值表在初始化后，每一状态行为组合对应的Q值初始化为0。

优选地，所述方法通过以下步骤预先确定所述状态空间中的N个不同的RSSI值：

需要说明的是，Q值表的RSSI值以及RSSI值离散化数量N的确定均是网络系统第一次触发漫游时，开始触发Q值表的初始化时执行。

优选地，所述根据所述最大RSSI值、所述最小RSSI值和预设的RSSI离散间距上限值，计算N的取值和RSSI离散间距具体包括：

通过以下公式计算所述RSSI离散间距：

需要说明的是，

是向上取整，例如，若

则

即N的取值为

和N_sum中的较大者。

优选地，所述根据N的取值、所述最小RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值具体为：

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_min+i*D；

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_max-(N-i)*D；

具体的，通过RSSI_i＝RSSI_min+i*D计算获得状态空间的N个不同的RSSI值从小到大依次为：RSSI_min+D，RSSI_min+2D，RSSI_min+3D，......，RSSI_min+(N-1)*D，RSSI_max。

通过RSSI_i＝RSSI_max-(N-i)*D计算获得状态空间的N个不同的RSSI值从小到大依次为：RSSI_max-(N-1)*D，RSSI_max-(N-2)*D，RSSI_max-(N-3)*D，......，RSSI_min-D，RSSI_max。

上述2中计算方式所获得RSSI值的大小相同，只是计算方式不同。

本发明提供的一种漫游切换方法，检测所接入的所有客户端中是否存在待漫游客户端；若检测到存在所述待漫游客户端，则获取所述待漫游客户端的漫游条件信息以及所述待漫游客户端与当前关联无线AP之间的漫游前链路吞吐量；其中，所述漫游条件信息包括所述待漫游客户端的RSSI值、所述待漫游客户端的网络时延和所述当前关联无线AP所处信道的信道利用率；根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M>1；控制所述待漫游客户端漫游切换到所述目标无线AP；在所述待漫游客户端漫游完成后，获取所述待漫游客户端与所述目标无线AP之间的漫游后链路吞吐量，并根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新。

本发明实施例还提供了一种漫游切换控制装置，请参阅图3，图3是本发明提供的一种漫游切换控制装置的一个优选实施例的结构示意图；具体的，所述装置包括：

检测模块11，用于检测所接入的所有客户端中是否存在待漫游客户端；

获取模块12，用于若检测到存在所述待漫游客户端，则获取所述待漫游客户端的漫游条件信息以及所述待漫游客户端与当前关联无线AP之间的漫游前链路吞吐量；其中，所述漫游条件信息包括所述待漫游客户端的RSSI值、所述待漫游客户端的网络时延和所述当前关联无线AP所处信道的信道利用率；

确定模块13，用于根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M>1；

控制模块14，用于控制所述待漫游客户端漫游切换到所述目标无线AP；

更新模块15，用于在所述待漫游客户端漫游完成后，获取所述待漫游客户端与所述目标无线AP之间的漫游后链路吞吐量，并根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新。

优选地，所述装置还包括发送模块，所述发送模块用于：

在对所述Q值表进行更新之后，将更新后的Q值表发送到所述当前关联无线AP所在的网络系统的其余M-1个无线AP，以使所述网络系统的其余M-1个无线AP对存储的Q值表进行同步更新。

优选地，所述确定模块13具体包括：

目标无线AP确定单元，用于将所选择的状态行为组合对应的无线AP作为所述目标无线AP；

则，所述装置还包括探索系数更新模块，所述探索系数更新模块用于：

在对所述Q值表进行更新之后，对所述探索系数ε的数值进行更新。

优选地，所述选择单元具体包括：

对比值生成子单元，用于随机生成一个对比值，并比较所述探索系数的当前数值与所述对比值的大小关系；其中，所述对比值的取值范围为[0,1]，所述探索系数的取值范围为[0,1]；

第一选择子单元，用于若所述探索系数的当前数值大于所述对比值，则随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；

第二选择子单元，用于若所述探索系数的当前值不大于所述对比值，则确定与选定的状态向量对应的所有所述状态行为组合的Q值中的最大Q值，将所述最大Q值对应的状态行为组合作为所选择的状态行为组合。

优选地，所述探索系数更新模块用于：

通过对所述探索系数ε的数值进行更新：

其中，ε_t+1为所述探索系数更新后的数值，r_decay为探索系数衰减系数，r_decay取值为[0,1]，ε_start为预设的所述探索系数的初始数值，global_step为探索系数的当前迭代轮数，decay_step为预设的衰减步数，decay_step>0。

优选地，所述更新模块15包括：

实际奖励值确定单元，用于根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，确定所选择的状态行为组合对应的实际奖励值；

更新单元，用于获取所述待漫游客户端漫游后的漫游条件信息，并根据所述待漫游客户端漫游后的漫游条件信息、所选择的状态行为组合对应的所述实际奖励值和Q值更新函数，对所述Q值表中所选择的状态行为组合对应的Q值进行更新。

优选地，所述实际奖励值确定单元具体用于：

优选地，所述Q值更新函数具体为：

Q′_t(S_t，a)＝R_t(S_t，a)+γ×max[Q_t(S′_t，A)]；

优选地，所述装置包括用于预先确定所述状态空间中的N个不同的RSSI值的初始化模块，所述初始化模块用于：

获取单元，用于获取所述当前关联无线AP所在的网络系统的所有客户端的RSSI值，确定所有所述客户端的RSSI值中的最大RSSI值和最小RSSI值；其中，所述网络系统包括M个无线AP以及每一无线AP所连接的若干个客户端；

第一计算单元，用于根据所述最大RSSI值、所述最小RSSI值和预设的RSSI离散间距上限值，计算N的取值和RSSI离散间距；

第二计算单元，用于根据N的取值、所述最小RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值；或，根据N的取值、所述最大RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值。

优选地，所述第一计算单元具体用于：

通过以下公式计算所述RSSI离散间距：

优选地，所述第二计算单元具体用于：

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_min+i*D；

或，所述第二计算单元具体用于：

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_max-(N-i)*D；

本发明提供的一种漫游切换控制装置，充分考虑了RSSI值、网络时延、信道利用率、链路吞吐量等衡量通信质量的多维度参数，通过Q值表的漫游策略选择目标无线AP，执行漫游切换，并对Q值表进行更新。由于考虑了多维度参数，且Q值表存储的漫游策略能够根据通信环境给予的反馈不断更新，漫游策略能够根据通信环境实现动态调整，以实现进行漫游切换时，能够采用适合于当前的通信环境的漫游策略进行漫游切换控制，准确地确定出最合适的目标无线AP。

需要说明的是，本发明实施例提供的所述漫游切换控制装置用于执行上述实施例所述的漫游切换控制方法的步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本领域技术人员可以理解，所述漫游切换控制装置的示意图仅仅是漫游切换控制装置的示例，并不构成对漫游切换控制装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述漫游切换控制装置还可以包括输入输出设备、网络接入设备、总线等。

本发明实施例还提供了一种无线AP，请参阅图4，图4是本发明提供的一种无线AP的一个优选实施例的结构参考示意图；具体的，所述无线AP包括处理器10、存储器20以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例提供的任意一项所述的漫游切换控制方法。

本实施例的无线AP包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述实施例提供的漫游切换控制方法中的步骤，例如图2所示的步骤S1、检测所接入的所有客户端中是否存在待漫游客户端。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如实现检测模块11，用于检测所接入的所有客户端中是否存在待漫游客户端。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元(如图4所示的计算机程序1、计算机程序2、……)，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述无线AP中的执行过程。例如，所述计算机程序可以被分割成检测模块11、获取模块12、确定模块13、控制模块14和更新模块15，各模块具体功能如下：

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述无线AP的控制中心，利用各种接口和线路连接整个无线AP的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述无线AP的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述无线AP集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例提供的漫游切换控制方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述任一实施例提供的漫游切换控制方法的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，上述无线AP可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图4结构示意图仅仅是上述无线AP的示例，并不构成对无线AP的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种漫游切换控制方法，其特征在于，所述方法包括：

检测所接入的所有客户端中是否存在待漫游客户端；

根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M＞1；

控制所述待漫游客户端漫游切换到所述目标无线AP；

将所选择的状态行为组合对应的无线AP作为所述目标无线AP。

2.如权利要求1所述的漫游切换控制方法，其特征在于，在对所述Q值表进行更新之后，所述方法还包括：

3.如权利要求1所述的漫游切换控制方法，其特征在于，在对所述Q值表进行更新之后，所述方法还包括：

对所述探索系数ε的数值进行更新。

4.如权利要求1所述的漫游切换控制方法，其特征在于，所述以第一概率随机从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合；以第二概率根据与选定的状态向量对应的所有所述状态行为组合的Q值，从与选定的状态向量对应的所有所述状态行为组合中选择一个状态行为组合具体为：

5.如权利要求3所述的漫游切换控制方法，其特征在于，所述方法通过对所述探索系数ε的数值进行更新：

6.如权利要求1所述的漫游切换控制方法，其特征在于，所述根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，对所述Q值表进行更新具体为：

7.如权利要求6所述的漫游切换控制方法，其特征在于，所述根据所述漫游前链路吞吐量和所述漫游后链路吞吐量，确定所选择的状态行为组合对应的实际奖励值具体包括：

8.如权利要求6所述的漫游切换控制方法，其特征在于，所述Q值更新函数具体为：

Q′_t(S_t，a)＝R_t(S_t，a)+γ×max[Q_t(S′_t，A)]；

9.如权利要求1所述的漫游切换控制方法，其特征在于，所述Q值表的所述状态空间包括预先确定的N个不同的RSSI值、预设的K个不同的网络时延等级和预设的P个不同的信道利用率等级；则，所述状态空间含有N*K*P个所述状态向量；其中，每一所述网络时延等级预先对应有相应的网络时延范围，每一所述信道利用率等级预先对应有相应的信道利用率范围，N＞1，K＞1，P＞1。

10.如权利要求9所述的漫游切换控制方法，其特征在于，所述方法通过以下步骤预先确定所述状态空间中的N个不同的RSSI值：

11.如权利要求10所述的漫游切换控制方法，其特征在于，所述根据所述最大RSSI值、所述最小RSSI值和预设的RSSI离散间距上限值，计算N的取值和RSSI离散间距具体包括：

通过以下公式计算所述RSSI离散间距：

12.如权利要求11所述的漫游切换控制方法，其特征在于，所述根据N的取值、所述最小RSSI值和所述RSSI离散间距，计算获得所述状态空间的N个不同的RSSI值具体为：

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_min+i*D；

通过以下公式计算获得所述状态空间的N个不同的RSSI值：

RSSI_i＝RSSI_max-(N-i)*D；

13.一种漫游切换控制装置，其特征在于，所述装置包括：

确定模块，用于根据所述待漫游客户端的漫游条件信息和存储的Q值表，确定所述待漫游客户端的目标无线AP；其中，所述Q值表包含由若干条状态向量构成的状态空间、由M个行为动作构成的行为空间、以及每一组状态行为组合对应的Q值，每一所述状态向量包括预先确定的RSSI值、网络时延等级和信道利用率等级，每一所述行为动作对应一个无线AP，M＞1；

所述确定模块具体包括：

14.一种无线AP，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至12中任意一项所述的漫游切换控制方法。