CN116600324A

CN116600324A - 一种信道绑定WiFi网络的信道分配方法

Info

Publication number: CN116600324A
Application number: CN202310847842.XA
Authority: CN
Inventors: 刘苇; 钟琰; 游理钊; 舒继武
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-08-15
Anticipated expiration: 2043-07-12
Also published as: CN116600324B

Abstract

本发明涉及一种信道绑定WiFi网络的信道分配方法，其包括训练阶段：通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息，并将其存储在数据缓冲区中，构建神经网络，并使用PPO算法对神经网络进行训练；部署阶段：通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息，利用训练后的神经网络生成每个AP的信道选择动作，并将其下发到每个AP进行执行。本发明不依赖先验干扰模型，只通过实际吞吐量的反馈信息训练神经网络，并用于多AP信道参数的选择，在难以获取干扰模型的隐藏终端和隐藏信道场景下有更好的吞吐量表现。

Description

一种信道绑定WiFi网络的信道分配方法

技术领域

本发明涉及无线网络领域，具体涉及一种信道绑定WiFi网络的信道分配方法。

背景技术

WiFi网络能提供越来越高的传输速率，其中关键技术之一是信道绑定（channelbonding）。在信道绑定WiFi网络中，接入点（Access Point，AP）会确定一个主信道，同时设置一个最大的信道绑定带宽用于选择次信道。在信道接入时，AP会根据实际信道使用情况，绑定主信道与次信道进行数据传输。另一方面，多个AP组成的WiFi网络也越来越普遍，多个AP共同为一个区域内的WiFi终端节点服务。但是在这种大规模网络下，进行信道绑定参数分配存在严峻的挑战。由于AP数量多于可用信道数量，不可避免地会进行信道重用，不恰当的信道选择会造成严重的干扰导致网络吞吐量的下降。

此外，WiFi网络的动态性也会给信道分配带来巨大的挑战。一方面，每个AP服务的区域的流量需求存在动态性，如何为多个AP分配适当的信道绑定参数以满足不断变化的流量需求同时达到较高的吞吐量存在挑战。另一方面，网络部署环境复杂，常常存在隐藏终端和隐藏信道的情况，且存在动态性。隐藏终端问题主要由于AP在彼此监听范围之外，同时发送数据包造成的，如果接收终端节点刚好处于两个AP的通信范围内，则导致碰撞，否则两AP可同时传输。隐藏信道问题主要是因为AP选择了不同的信道配置，产生了不对称的干扰关系，随着所选信道配置的变化，彼此之间的干扰关系也在变化。

为了进行信道分配，现有的方法主要是传统的启发式算法或基于模型驱动的强化学习方法。传统的启发式算法（Abraham N, Winston P P E, Vadivel M. Adaptivechannel allocation algorithm for WiFi networks, 2014 International Conferenceon Circuits, Power and Computing Technologies. IEEE, 2014: 1307-1311.)以最小化网络干扰为优化目标，需要准确的信道干扰模型。但在复杂网络环境中（比如隐藏信道和隐藏终端），很难获得准确的干扰模型。此外现有方法往往依赖确定的流量模型，不适用于流量变化场景。

基于模型的强化学习方法net2seq (Iacoboaiea O, Krolikowski J, Houidi ZB, et al. Real-time channel management in WLANs: Deep reinforcement learningversus heuristics, 2021 IFIP Networking Conference (IFIP Networking). IEEE,2021: 1-9 )是通过干扰模型来进行信道分配的。虽然适用于流量变化场景，但是依赖固定的干扰模型，在复杂网络环境中（比如隐藏信道和隐藏终端），难以适用。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种信道绑定WiFi网络的信道分配方法，其依靠吞吐量的反馈识别存在冲突的信道配置，依靠深度强化学习自适应动态干扰关系与流量变换，使用PPO算法训练神经网络实现稳定的收敛，从而解决隐藏终端和隐藏信道场景下的信道分配策略问题，并且适用于流量动态变换的场景。

为实现上述目的，本发明采用的技术方案是：

一种信道绑定WiFi网络的信道分配方法，其包括以下阶段：

训练阶段：通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息，并将其存储在数据缓冲区中，构建神经网络，并使用PPO算法对神经网络进行训练；

部署阶段：通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息，利用训练后的神经网络生成每个AP的信道选择动作，并将其下发到每个AP进行执行。

所述训练阶段包括以下几个步骤：

步骤1.1、构造训练集：在训练阶段，通过中央控制器周期性收集每个AP的信道选择、流量负载/>和吞吐量/>，并将其存储在数据缓冲区中；

步骤1.2、构造神经网络：构造两个全连接网络分别作为Actor网络和Critic网络，Actor网络用于生成每个AP的信道选择动作，Critic网络用于生成信道选择动作的状态价值/>，并复制一个old_Actor网络用于信道选择动作/>的对数概率/>计算，其中，/>为old_Actor网络参数/>下的策略表示，用于计算状态/>下动作的对数概率，并在每轮训练结束后将Actor网络参数复制给old_Actor网络；

步骤1.3、训练神经网络：将观测信息归一化处理后构建观测状态向量作为输入状态，将每个AP的所有信道选择组合作为动作空间，将累计吞吐量作为奖励函数，通过PPO算法训练神经网络。

所述步骤1.3中，训练神经网络过程具体包括：

步骤1.31、将观测信息归一化处理后构建观测状态向量作为输入状态；

步骤1.32、将每个AP的所有信道选择组合作为动作空间，即表示为每个AP分配的主信道，表示为每个AP分配的最大允许绑定信道数量；

步骤1.33、将累积吞吐量作为奖励函数，/>表示AP的数量，/>表示第j个AP在t时刻的吞吐量；

步骤1.34、通过PPO算法训练神经网络；

步骤1.3.1中，将观测信息归一化的操作具体为：

（1）信道选择：，其中/>表示可用信道数量，/>表示信道/>是否被/>所选择，/>表示第j个AP；

（2）流量负载：，/>表示当前周期/> 生成的数据包数量和最大可发送数据包数量的比例，并将其剪切在0和1之间；

（3）吞吐量：，/>表示/>在当前周期的吞吐量，/>表示/>可以实现的最大吞吐量。

所述步骤1.34中，通过PPO算法训练神经网络的过程具体包括以下步骤：

（1）根据数据缓冲区中的数据，计算每一条数据的累计奖励值，将观测状态向量/>输入到Critic网络获取状态价值/>；然后计算优势值/>，表示当前Actor网络生成的信道选择动作/>的好坏程度；

（2）将观测状态向量输入到old_Actor网络和Actor网络分别计算信道选择动作/>的对数概率/>和/>，然后计算重要性采样系数/>；

（3）根据Actor网络的损失函数计算损失值，并使用梯度下降方法更新Actor网络；

（4）根据累计奖励值和状态价值/>计算Critic网络的损失值/>，并使用梯度下降方法更新Critic网络。

所述部署阶段包括以下几个步骤：

步骤2.1、部署神经网络：将训练好的PPO智能体部署在WiFi网络的中央控制器上；

步骤2.2、收集输入状态：通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息，归一化处理后构成观测状态向量；

步骤2.3、生成并执行动作：将观测状态向量输入训练后的Actor网络生成每个AP的信道选择动作，并下发到每个AP执行。

采用上述方案后，本发明不依赖先验干扰模型，只通过实际吞吐量的反馈信息训练神经网络，并用于多AP信道参数的选择，在难以获取干扰模型的隐藏终端和隐藏信道场景下有更好的吞吐量表现。

附图说明

图1为本发明的信道绑定WiFi网络信道分配示意图；

图2为隐藏终端场景的示意图；

图3为隐藏信道场景的示意图；

图4为动态流量场景的示意图；

图5为本发明的流程示意图；

图6为本发明的PPO算法更新流程图；

图7为本发明和基于模型的强化学习方法的net2seq在隐藏终端场景的吞吐量对比图；

图8为本发明和基于模型的强化学习方法的net2seq在隐藏信道场景的吞吐量对比图；

图9为本发明和基于模型的强化学习方法的net2seq在动态场景下的吞吐量曲线图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1展示了本发明所涉及的WiFi网络场景。网络中存在多个可用信道，每个AP根据流量需求动态选择信道。

图2展示了隐藏终端场景。在该场景中，对角线上的两个AP位于彼此的载波监听范围之外，当它们使用重叠信道同时向干扰范围内的用户发送数据包时，会产生干扰导致数据包发送失败。相邻AP在彼此的载波监听范围之内，在发送数据包之前进行载波监听，避免了使用重叠信道同时发送数据包。此外，当用户在相邻AP的干扰重叠范围之外，使用重叠信道同时传输数据包，不会产生冲突。

图3展示了隐藏信道场景。相邻的两个AP选择了不同带宽的信道进行传输，导致载波感知范围不对称。例如，选择了80MHz信道进行传输的AP1无法感知到选择了40MHz信道的AP2正在传输数据包，因此AP1单方面地抢占了信道，导致AP2发送的数据包失败。如果相邻AP选择了相同的带宽信道进行传输，则它们的载波感知范围是对称的。

图4则展示了流量动态变化的场景。每个AP的流量需求在周期性变化。

基于以上场景系统，本发明揭示了一种信道绑定WiFi网络的信道分配方法，如图1所示，本发明的方法具体来说分为两个阶段，即训练阶段和部署阶段。其中，训练阶段，中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息，并将其存入数据缓冲区中；构建两个全连接神经网络作为Actor网络和Critic网络，分别用于信道选择动作的生成和生成信道选择动作的价值函数，并复制一个old_Actor网络用于信道选择动作对数概率的计算；智能体将观测信息归一化处理后构建观测状态向量作为输入状态，将每个AP的所有信道选择组合作为动作空间，将累计吞吐量作为奖励函数，通过PPO算法训练神经网络。部署阶段，中央控制器收集每个AP的信道选择、流量负载和吞吐量等观测信息，然后将观测信息归一化处理构成观测状态向量，将观测状态向量输入到Actor网络中生成信道选择动作。

具体来说，训练阶段包括以下步骤：

步骤1.1、构造训练集：中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量/>等观测信息并存入数据缓冲区，其中。

步骤1.2、构造神经网络：构造两个全连接网络分别作为Actor网络和Critic网络，Actor网络用于生成每个AP的信道选择动作，Critic网络用于对Actor网络生成的信道选择动作生成状态价值/>，并复制一个old_Actor网络用于每个AP信道选择动作的对数概率/>的计算，在每次训练步骤结束后将Actor网络参数复制给old_Actor网络。其中，/>为old_Actor网络参数/>下的策略表示，用于计算状态/>下动作的对数概率。

步骤1.3、训练神经网络：智能体将观测信息归一化处理后构建观测状态向量作为输入状态，将每个AP的所有信道选择组合作为动作空间，将累计吞吐量作为奖励函数，通过PPO（Proximal Policy Optimization，近端策略优化）算法训练神经网络。

训练神经网络过程具体包括：

步骤1.31、将观测信息归一化处理后构建观测状态向量作为输入状态，其中

。

归一化具体为：

（1）信道选择：，其中/>表示可用信道数量，/>表示信道/>是否被/>所选择。

（2）流量负载：，/>表示当前周期/>生成的数据包数量和最大可发送数据包数量的比例，并将其剪切在0和1之间。

（3）吞吐量：，/>表示/>在当前周期的吞吐量，表示/>可以实现的最大吞吐量，/>表示第j个AP。

步骤1.32、将每个AP的所有信道选择组合作为动作空间，即表示为每个AP分配的主信道，表示为每个AP分配的最大允许绑定信道数量。

步骤1.33、将累积吞吐量作为奖励函数；/>表示AP的数量，/>表示第j个AP在t时刻的吞吐量。

步骤1.34、通过PPO算法训练神经网络。

图6给出了使用PPO算法训练神经网络的流程，具体为：

（1）根据数据缓冲区中的数据，计算每一条数据的累计奖励值，

其中，表示t时刻的奖励，/>表示折扣因子，/>为t时刻的累计奖励值，表示当前周期信道选择动作的长期价值。

（2）将上一周期的观测状态向量输入到Critic网络获取状态价值/>。然后计算优势值/>，表示当前Actor网络生成的信道选择动作/>的好坏程度。

（3）将数据缓冲区中的每条数据的观测状态向量输入到Actor网络，得到信道选择动作/>对应的对数概率/>。然后使用old_Actor网络计算信道选择动作/>的对数概率/>，最后计算得到重要性采样系数/>，

为与环境交互时Actor网络输出的动作对数概率，/>为当前的Actor网络输出的动作对数概率。

（4）根据Actor网络的损失函数计算损失值，并使用梯度下降方法更新Actor网络；

其中，表示期望，/>表示限制更新步长的裁剪系数。

（5）根据累计奖励值和状态价值/>计算Critic网络的损失值，并使用梯度下降方法更新 Critic网络，/>

一次训练过程中，重复更新网络30次（次数具体可以调整）。反复执行步骤(1)到步骤(5)直到Actor网络收敛，则表明基于深度强化学习的信道绑定WiFi网络信道分配方法训练完成。

部署阶段，具体步骤如下：

为了验证本发明方法的效果，使用Komondor仿真器进行了实验评估，并与基于模型的强化学习方法net2seq进行了性能比较。net2seq通过干扰模型进行信道选择，目标是最小化网络整体干扰。

Komondor仿真器参数如下：

表1Komondor仿真器参数

强化学习超参数如下：

表2强化学习超参数

如图7所示，隐藏终端场景下本发明的吞吐量比net2seq提升了50%。为net2seq手动设置正确的干扰关系并将其定义为net2seq-opt，net2seq-opt实现了与本发明相近的吞吐量。

如图8所示，隐藏信道场景下本发明的吞吐量比net2seq提升了35%。因为隐藏信道场景下，网络没有一个固定的干扰关系，手动为net2seq设置了两个干扰关系进行性能对比。

如图9所示，本发明在动态流量变化的场景下能够选择合适信道分配策略，满足每个AP变化的流量需求。

综上，本发明在训练阶段，通过中央控制器周期性收集每个接入点（AP）的信道选择、流量负载和吞吐量等观测信息；构建两个全连接神经网络分别作为Actor网络和Critic网络，Actor网络用于生成每个AP的信道选择动作，Critic网络用于生成信道选择动作的状态价值，并复制一个old_Actor网络用于信道选择动作的对数概率计算，并在每轮训练后复制Actor网络参数；将观测信息归一化处理后构建观测状态向量作为输入状态，将每个AP的所有信道选择组合作为动作空间，将累计吞吐量作为奖励函数，通过PPO算法训练神经网络；在部署阶段，通过中央控制器周期性收集每个AP的信道选择、流量负载和吞吐量等观测信息；利用训练后的神经网络生成每个AP的信道选择动作，并下发到每个AP执行。本发明依靠吞吐量的反馈识别存在冲突的信道配置，依靠深度强化学习自适应动态干扰关系与流量变换，使用PPO算法训练神经网络实现稳定的收敛，从而解决隐藏终端和隐藏信道场景下的信道分配策略问题，并且适用于流量动态变换的场景。本发明不依赖先验干扰模型，只通过实际吞吐量的反馈信息训练神经网络，并用于多AP信道参数的选择，在难以获取干扰模型的隐藏终端和隐藏信道场景下有更好的吞吐量表现。

本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信道绑定WiFi网络的信道分配方法，其特征在于：包括以下阶段：

2.如权利要求1所述的一种信道绑定WiFi网络的信道分配方法，其特征在于：所述训练阶段包括以下几个步骤：

步骤1.2、构造神经网络：构造两个全连接网络分别作为Actor网络和Critic网络，Actor网络用于生成每个AP的信道选择动作，Critic网络用于生成信道选择动作的状态价值/>，并复制一个old_Actor网络用于信道选择动作/>的对数概率/>计算，其中，/>为old_Actor网络参数/>下的策略表示，用于计算状态/>下动作/>的对数概率，并在每轮训练结束后将Actor网络参数复制给old_Actor网络；

3.如权利要求2所述的一种信道绑定WiFi网络的信道分配方法，其特征在于：所述步骤1.3中，训练神经网络过程具体包括：

步骤1.32、将每个AP的所有信道选择组合作为动作空间，即，表示为每个AP分配的主信道，/>表示为每个AP分配的最大允许绑定信道数量；

步骤1.34、通过PPO算法训练神经网络。

4.如权利要求3所述的一种信道绑定WiFi网络的信道分配方法，其特征在于：步骤1.3.1中，将观测信息归一化的操作具体为：

（1）信道选择：，其中/>表示可用信道数量，/>表示信道i是否被/>所选择，/>表示第j个AP；

（2）流量负载：，/>表示当前周期/>生成的数据包数量和最大可发送数据包数量的比例，并将其剪切在0和1之间；

5.如权利要求3所述的一种信道绑定WiFi网络的信道分配方法，其特征在于：所述步骤1.34中，通过PPO算法训练神经网络的过程具体包括以下步骤：

（4）根据累计奖励值和状态价值/>计算Critic网络的损失值/>，并使用梯度下降方法更新 Critic网络。

6.如权利要求1所述的一种信道绑定WiFi网络的信道分配方法，其特征在于：所述部署阶段包括以下几个步骤：