CN112468265A

CN112468265A - 基于强化学习的无线局域网调制编码自适应选择方法及无线设备

Info

Publication number: CN112468265A
Application number: CN202011250663.0A
Authority: CN
Inventors: 王健; 谢锐明; 高博文; 潘璠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-03-09
Anticipated expiration: 2040-11-10
Also published as: CN112468265B

Abstract

本发明提出基于强化学习的无线局域网调制编码自适应选择方法及无线设备，该方法在无线设备内训练一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表；在训练Q值表的过程中，无线设备根据学习策略在Q表中选择MCS索引值，并根据搭建的外部环境反馈的吞吐量和丢包率计算奖励值，通过更新策略更新Q表。最终训练完成的Q表可获得特定SNR下一定丢包率范围内吞吐量最大的MCS索引值，无线设备实时通过带宽测试得到无线局域网络的吞吐量和丢包率数据，然后自适应地从训练好的Q值表中选择预设丢包率范围内预计获得最大网络吞吐量的最优MCS索引值，并执行相应调制编码方案，保证了传输的可靠性和有效性，同时避免了抽样探测带来的网络性能浪费问题。

Description

基于强化学习的无线局域网调制编码自适应选择方法及无线设备

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于强化学习的无线局域网调制编码自适应选择方法及无线设备。

背景技术

IEEE802.11标准下的无线局域网(Wireless Local Area Network，WLAN)已成为解决家庭无线设备接入，中大型企业和商业设施网络部署的主要方式。在WLAN系统中，由于无线信道衰落的特征，为了保证传输的可靠性和有效性，无线接入点(Access Point，AP)通常会采用不同的调制编码(Modulation and Coding Scheme，MCS)方式以应对不同的信道状况。

IEEE802.11标准并没有定义不同调制编码方式间的选择方式，MCS的自适应算法主要由硬件厂商在设备驱动中定义。当前主流的MCS自适应算法包括Minstrel算法，ath9k算法和MiRA算法等。上述算法均采用了按一定顺序对设备支持的所有MCS索引值进行抽样探测，得到不同MCS下的吞吐量和丢包率，再进行门限值比较判别的方法来选择最优的MCS。在网络环境复杂，信道状况不稳定时，基于抽样的算法存在算法即时性不够的问题，同时其中的抽样过程对网络性能均会造成一定的浪费。

发明内容

发明目的：为克服现有的基于抽样的MCS自适应算法的不足，本发明提出一种基于Q学习的无线局域网调制编码自适应选择方法。

技术方案：强化学习(Reinforcement Learnmg，RL)是机器学习的一个分支，主要用于描述和解决智能体与环境的交互过程中通过一定的学习策略得到最大化的回报的问题，其不要求预先给定任何数据，而是通过智能体接收环境对所采取的动作反馈回的奖励值更新模型参数。相比于传统无线技术，强化学习方法可使得网络性能得到一定的提升。Q学习是强化学习算法中一种基于价值的算法。本发明基于Q学习原理设计了无线局域网调制编码自适应选择机制，并提出了一种基于强化学习的无线局域网调制编码自适应选择方法，该方法由无线设备实现，包括以下步骤：

(1)在无线设备内构建一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表；所述Q值表的回报函数R(t)为：

其中，TP为通过带宽测试得到的无线局域网络的吞吐量，t表示时间节点；PLR为通过带宽测试得到的无线局域网的丢包率；m为序列窗口值，表示前m次带宽测试得到的吞吐量数据；k₁，k₂和k₃为参数系数，用于调参以便R(t)在训练过程中的收敛；

Q值更新策略如下：

其中，s为当前信噪比和MCS状态；a为由当前MCS索引值切换为下一个MCS索引值的行为；α为学习效率；r为通过回报函数计算出的奖励值；γ为未来奖励的衰减系数；

(2)训练所述Q值表至R(t)收敛；

(3)无线设备实时通过带宽测试得到无线局域网络的吞吐量和丢包率数据，然后自适应地从训练好的Q值表中选择预设丢包率范围内预计获得最大网络吞吐量的最优MCS索引值，并执行相应调制编码方案。

进一步的，在训练所述Q值表之前，还搭建具备衰落特征并且信道衰落幅度随时间不断变化的无线信道作为外部环境，所述无线设备在外部环境中获得随时间变化的信噪比SNR，并不断进行带宽测试，每隔一段时间反馈当前网络吞吐量和丢包率数据。

进一步的，所述外部环境的搭建通过将处在一定移动状态的无线设备接入空气信道或将无线设备接入支持衰落调整的信道模拟器实现。

进一步的，训练所述Q值表的具体步骤为：

1)初始化Q值表中的Q值以及回报函数和Q值更新策略的参数系数；

2)根据决策系数从Q值表中选择奖励值最高的MCS索引值或随机选择MCS索引值；

3)根据步骤2)选择的MCS索引值进行数据发送；

4)外部环境反馈一定时间窗口内的网络吞吐量和丢包率数据；

5)根据反馈回的网络吞吐量和丢包率，结合本地记录的过去一段时间的吞吐量和丢包率序列，通过回报函数计算此次MCS选择行为的奖励值；

6)根据计算出的奖励值，通过Q值更新策略更新当前Q值表；

7)不断重复第2)至第6)步的过程，直至R(t)收敛。

本发明还提出一种无线设备，所述无线设备内置MCS自适应选择模块，以实现所述基于强化学习的无线局域网调制编码自适应选择方法的具体步骤。

有益效果：与现有技术相比，本发明具有以下优势：

相比于现行的基于抽样探测的MCS自适应算法，通过强化学习的Q学习算法，为无线AP在不同信道状况下自适应地选择一定丢包率范围内传输能力最大的调制编码方式，保证了传输的可靠性和有效性，同时避免了抽样探测带来的网络性能浪费问题，同时在一定程度上提高了MCS自适应切换的即时性，使得无线AP能够更好地适应信道状况复杂多变的网络环境。

附图说明

图1是实施例涉及的基于强化学习的无线局域网调制编码自适应选择方法的阶段流程图；

图2是实施例涉及的强化学习基本模型和原理图；

图3是实施例涉及的Q学习算法训练过程流程图

图4是实施例涉及的基于强化学习的无线局域网调制编码自适应选择方法的应用系统架构图。

具体实施方式

下面结合附图和具体实施例对本发明作更进一步的说明。

本实施例所涉及的基于强化学习的无线局域网调制编码自适应选择方法主要分为四个阶段：算法加入-环境搭建-模型训练-结果应用，附图1是基于强化学习的无线局域网调制编码自适应选择方法阶段流程图。

算法加入阶段：为WLAN中的无线设备加入基于强化学习的MCS自适应算法模块，并屏蔽设备原本的MCS选择算法，避免造成冲突；

环境搭建阶段：搭建本发明采用的强化学习的Q学习算法模型训练所需外部环境，并预设模型和算法参数；

模型训练阶段：对于训练设备开启训练模式，并基于外部环境和预设参数对Q学习算法模型进行训练；

结果应用阶段：将训练完成的模型导入应用设备中的MCS自适应算法训练模块，将算法实际应用于设备的MCS选择；

最后，用户可自行选择是否对于应用设备开启训练模式继续进行模型训练。

为了便于理解本实施例涉及的强化学习的Q学习算法相关技术，首先对强化学习和Q学习算法的技术原理进行简要描述。强化学习(Reinforcement Learning，RL)是机器学习的一个分支，主要用于描述和解决智能体与环境的交互过程中通过一定的学习策略得到最大化的回报的问题，属于马尔可夫决策过程(Markov Decision Process，MDP)。其不要求预先给定任何数据，而是通过智能体接收环境对所采取的动作反馈回的奖励值更新模型参数。

附图2是本实施例涉及的强化学习基本模型和原理图，如图2所示，智能体选择一个行为At，外部环境接收该行为后由状态S_t变成S_t+1，同时产生一个奖励值R_t+1反馈给智能体，而智能体根据反馈回的奖励值和当前状态，通过学习策略再次选择下一个行为A_t+1，策略的原则是使得下一个行为受到的奖励值增大。

Q学习算法是一种基于价值的强化学习分支算法，通过引进期望的延迟奖励，找到获得最大奖励的策略。Q学习算法的核心是建立并维护一张关于状态S和行为A的Q值表Q(s_t，a_t)，智能体每一次行为都会根据一定的策略系数ε在Q表中选择奖励值最大的行为或是随机选择行为(即智能体有ε％的行为从Q值表中选择最高奖励值的行为，而(1-ε)％随机选择行为)，再根据外部环境反馈的奖励值更新Q值表。

具体到本实施例，无线设备中加入的MCS自适应选择模块作为智能体，在其内部维护一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表，Q值表在训练过程开始时被初始化为全0。无线设备所处的具备衰落特征，并且信道衰落幅度随时间不断变化的无线信道构成了本实施例的外部环境，无线设备在外部环境中获得随时间变化的信噪比SNR，并不断进行带宽测试，每隔一段时间反馈当前网络吞吐量和丢包率数据。外部环境的搭建可以通过将处在一定移动状态的无线设备接入空气信道或将无线设备接入支持衰落调整的信道模拟器实现。奖励值的计算由MCS自适应选择模块根据反馈回的吞吐量和丢包率数据，结合本地记录的过去一段时间的吞吐量和丢包率序列，通过回报函数计算完成。

本实施例采用的计算奖励值reward的回报函数R(t)定义如下：

其中，TP为测试软件反馈的吞吐量；PLR为反馈的丢包率；m为序列窗口值，表示前m次回报的吞吐量数据；k₁，k₂和k₃为参数系数，用于调参以便R(t)在训练过程中的收敛。

本实施例采用的Q学习算法的Q值更新策略如下式所示：

其中，s为当前信噪比和MCS状态；a为由当前MCS索引值切换为下一个MCS索引值的行为；α为学习效率(为一个0～1之间的数)；r为通过回报函数计算出的奖励值；γ为未来奖励的衰减系数，系数越大，算法越偏向于最近时刻的期望；下标t和t+1分别表示此轮状态/行为和下一轮状态/行为。

每一次Q值的更新，都由Q值表中预估奖励值最大的Q值乘上未来奖励衰减系数，加上计算出的奖励值再减去上一次的Q值，最后乘以学习效率再加上上一次的Q值来完成。Q表中的状态s和行为a都由矩阵形式存储，策略系数ε，学习效率d和未来奖励衰减系数γ都由用户预先设定，并可由用户自行调整更改，以面向不同信道状况的网络场景进行Q学习算法的调参。

本实施例涉及的基于强化学习的MCS自适应选择方法在实际应用前首先需在训练设备上进行算法的模型训练过程。附图3是本发明涉及的Q学习算法训练过程流程图。

如附图3所示，每一轮训练过程的步骤如下：

S1、首先对于训练设备开启训练模式，并初始化训练设备中的基于强化学习的MCS自适应选择算法模块维护的Q值表和Q值更新策略中的各个参数；

S2、MCS自适应选择模块根据决策系数，按ε的概率从Q表中选择最高奖励值的MCS索引值或是从Q表中随机选择MCS索引值；

S3、训练设备采用MCS自适应选择模块选择的MCS索引值，调用网卡驱动和物理层设备发送数据包；

S4、训练设备不断进行带宽测试，MCS自适应选择模块根据外部环境反馈回的网络吞吐量和丢包率数据，再结合本地记录的过去一段窗口时间的吞吐量和丢包率序列，通过回报函数R(t)计算此次MCS切换行为的奖励值r。在网络环境和信道状况变化不是非常频繁和剧烈的情况下，可以认为极短时间内的网络吞吐量和丢包率数据可以近似地表征当前时刻的网络信道状态。窗口值可由用户在在算法参数中手动设置；

S5、MCS自适应选择模块根据上一步计算出的奖励值，通过Q值更新策略更新当前Q表；

S6、训练设备内部将重复上述步骤，直至用户手动结束本轮训练过程。

附图4是本实施例涉及的基于强化学习的MCS自适应选择方法的应用系统架构图。如附图4所示，训练设备通过与外部环境的交互完成内部维护的Q学习算法的Q表的训练过程。

在一次训练完成后，将训练好的Q表从训练设备中导出，并导入实际应用的无线设备中的MCS自适应算法模块(在此之前需为应用设备加入本发明涉及的基于强化学习的MCS自适应算法模块，并屏蔽设备原本的MCS选择算法)。

优选的，本实施例还提出一种无线设备，所述无线设备内置MCS自适应选择模块，以实现所述基于强化学习的无线局域网调制编码自适应选择方法的具体步骤。

本实例提出的无线设备架构由用户程序，系统内核，网卡驱动和物理层设备等组成。实际数据收发应用中，基于强化学习的MCS自适应算法模块位于系统内核，默认不开启训练模式。算法模块接收网卡驱动和物理层设备提供的链路信噪比SNR信息，将自适应地从Q表中选择一定丢包率范围内预计获得最大网络吞吐量的最优MCS索引值，提供给系统内核中的数据收发模块进行数据发送。用户可在用户程序中对MCS自适应算法模块进行参数配置。

对于导入完成的应用设备，用户在用户程序中可自行配置决定是否再次开启训练模式，即进行在线训练过程。需注意，由于正常使用状态下无线设备不可能长时间保持以最大发送能力发送数据，外部环境反馈的吞吐量和丢包率不能准确表征当前网络信道状态，为了保证算法有效性，不推荐在应用设备中开启训练模式。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于强化学习的无线局域网调制编码自适应选择方法，该方法由无线设备实现，其特征在于，包括以下步骤：

Q值更新策略如下：

(2)训练所述Q值表至R(t)收敛；

2.根据权利要求1所述的基于强化学习的无线局域网调制编码自适应选择方法，其特征在于，在训练所述Q值表之前，还搭建具备衰落特征并且信道衰落幅度随时间不断变化的无线信道作为外部环境，所述无线设备在外部环境中获得随时间变化的信噪比SNR，并不断进行带宽测试，每隔一段时间反馈当前网络吞吐量和丢包率数据。

3.根据权利要求2所述的基于强化学习的无线局域网调制编码自适应选择方法，其特征在于，所述外部环境的搭建通过将处在一定移动状态的无线设备接入空气信道或将无线设备接入支持衰落调整的信道模拟器实现。

4.根据权利要求所述的基于强化学习的无线局域网调制编码自适应选择方法，其特征在于，训练所述Q值表的具体步骤为：

3)根据步骤2)选择的MCS索引值进行数据发送；

6)根据计算出的奖励值，通过Q值更新策略更新当前Q值表；

7)不断重复第2)至第6)步的过程，直至R(t)收敛。

5.一种无线设备，其特征在于，所述无线设备内置MCS自适应选择模块以实现权利要求1至4任意一项所述基于强化学习的无线局域网调制编码自适应选择方法的具体步骤。