CN111313996A

CN111313996A - 基于强化学习的ap信道分配和功率控制联合优化方法

Info

Publication number: CN111313996A
Application number: CN202010240904.7A
Authority: CN
Inventors: 徐川; 赵国锋; 黄伟; 吕青懋; 伊俊杰; 李勇
Original assignee: Sichuan Jiuqiang Communication Technology Co ltd
Current assignee: Sichuan Jiuqiang Communication Technology Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-06-19

Abstract

本发明公开了一种基于强化学习的AP信道分配和功率控制联合优化方法，属于通信技术领域，包括控制器对AP信息数据进行收集获取不同参数信息，并将参数值上传至控制器存储处理，生成数据信道功率对和吞吐量对应的统计表；在控制器中根据数据进行数据处理，获得AP的状态效用值；引入强化学习算法对数据进行学习，此时控制器估算不同参数值下的状态效用值，并更新信道功率对统计表的吞吐量，进而获得使状态效用函数值最大的信道和功率组合，AP根据该信道和功率的组合调整自身工作状态；本发明在保证用户吞吐量的情况下，同时调整AP发射功率和工作信道以降低信号干扰，减少对相邻AP的影响，提高空间复用率，进一步提高网络通信质量。

Description

基于强化学习的AP信道分配和功率控制联合优化方法

技术领域

本发明涉及通信技术领域，更为具体地，涉及一种基于强化学习的AP信道分配和功率控制联合优化方法。

背景技术

随着无线通信的普及，智能终端数量的急剧增加，为了给用户提供高带宽、稳定性服务，运营商和服务提供商在公共场所部署了越来越密集的无线局域网。但是，传统WLAN系统默认采用最大功率进行发送，由于信道资源有限，同频或相邻信道存在多个AP，呈现出更高的动态性和干扰，空间复用率低，减少了系统整体容量。因此，当多个参与者以不协调的方式共享媒体时，这种无线系统的整体性能显着低于系统最大容量，有效的资源分配对于任何性能的改进都是至关重要的。

针对上述关于密集部署的WLAN中存在的干扰问题以及整体容量性能受到抑制的问题，研究者们展开了大量的研究工作。目前的吞吐量提升方案主要有：

1、通过发射端功率控制实现无线网络中若干目标的性能提升，包括最小化功耗和延长移动节点的数量，减轻干扰和增加网络容量。由于功率控制对多层协议栈的影响，它直接影响网络中的吞吐量、容量、延迟和公平性，也可能影响能耗和网络连接性。

2、通过物理层的传输速率选择决定整个通信系统的效率。具体地说，在发送方使用高传输速率，从而获得更高的吞吐量、更低的介质占用(从而降低争用延迟和更高的效率)和更低的功耗。

3、通过分组/信号检测机制和载波侦听机制以支持CSMA/CA，实现在干扰和空间重用之间的平衡来调节无线访问中的并发性，提升系统吞吐量性能。

4、联合影响性能的关键因素进行系统吞吐量性能优化，如：联合物理层的符号速率和MAC层的数据包长度；联合功率分配和邻居信道选择等。

然而，现有的WLAN系统吞吐量方法仍然存在以下问题：

1、在自治式WLAN系统中，AP进行正常数据交互前，通过Configure状态机进行初始配置，主要包括通信信道和传输功率配置。AP为用户提供命令行窗口，满足不同网络环境配置需求，但是，AP在进行数据交互过程中，不能对传输功率进行实时自适应调整。

2、由于AP没有自适应功率控制模块，而部署AP设备时，其发射功率均是默认最大的状态，WLAN密集部署时，会因为缺乏正交信道造成严重的同频干扰问题，吞吐量性能不能满足需求，与密集部署AP的初衷相违背。

3、随着AP部署密度的上升，网络环境越来越复杂，影响网络质量的因素也很多。仅通过对单一因素的考虑，能够在一定程度上改善网络质量，提升网络吞吐量性能。但是，不足以最大限度的提升网络吞吐量性能。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于强化学习的AP信道分配和功率控制联合优化方法，利用SDWN的灵活可编程以及集中控制思想，在保障网络有效覆盖以及用户QoE的前提下，实现对网络的实时控制，更加适应网络的高动态性；在保证数据吞吐量的情况下，尽可能的降低AP发射功率，达到节约能耗得效果，同时，降低发射功率和调整信道间隔可以降低信号干扰，减少对相邻AP的影响，提高空间复用率，进一步提高网络通信质量。

本发明的目的是通过以下技术方案来实现的：

一种基于强化学习的AP信道分配和功率控制联合优化方法，包括以下步骤：

S1、采用集中控制的方式对AP数据进行监视获取不同AP的数据信息，并将获取的数据上传至控制器进行存储处理，控制器根据数据建立信道和功率联合优化问题模型；

S2、根据网络吞吐量优化问题，构建包括状态动作信息、奖励函数的强化学习模块；

S3、以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量；

S4、判断根据最优策略调整AP工作状态的系统是否满足用户对吞吐量的需求阈值，若是则进行步骤S5，否则返回步骤S3；

S5、控制器根据最优动作策略获得使系统吞吐量函数值最大时的信道和发射功率的组合(f^*,p^*)，无线访问接入点根据该信道和功率的组合调整自身工作状态，计算系统吞吐量函数T_t(f,p)；其中，fi，pi分别表示工作和发射功率；f*，p*分别表示最优的工作信道和最优的发射功率。

进一步的，在步骤S1中，针对无线局域网中，吞吐量与AP信道和功率的高度相关问题，建立信道和功率联合优化模型：

其中，T_t表示在时刻t时系统吞吐量大小，B代表无线信道带宽，其中N₀表示系统热噪声功率强度，p_i表示AP_i的发射功率，g_ij表示从AP_i到用户j的信道增益，信道增益只与用户与AP之间的距离有关。

进一步的，在步骤S2中，构建包括状态动作信息、奖励函数的强化学习模块：

C1：S＝{s₁,s₂,…,s_n}

C2：A＝{a₁,a₂,…,a_n}

C3：r(t)＝T_t-T_t-1

C4：

C5：Q(s,a)＝R(s,a)+γmaxQ((s′,a′)|(s,a))

C6：

其中，C1为具有马尔科夫性质的网络状态空间；C2为强化学习的智能体用于调整网络状态的动作空间；C3表示在时刻t时动作策略对应的奖励；C4表示时刻t开始获得的长期累积折扣奖励，γ为折扣因子；C5表示强化学习的状态动作Q值函数；C6表示最大预期累积折扣奖励对应的策略，即最优策略。

进一步的，在步骤S3中，以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量，实现该最优策略的选择包括：

S31、将数据统计表中的AP工作信道和功率值作为强化学习的状态空间集：

s_t＝(f，p)

其中，f＝{f₁,f₂,...,f_i}表示系统中所有AP的工作信道集合，而f_i∈{1,2,…,11}为AP工作的信道；p＝{p₁,p₂,...,p_i}表示系统中所有AP的发射功率集合，而p_min≤p_i≤p_max，其中p_min表示AP发射功率的最小值，p_max表示AP发射功率的最大值。

S32、根据当前信道状态智能体(控制器)可以采取一系列动作调节AP的工作信道和发射功率值：

a_t＝(f’，p’)

其中，f′＝{f₁′,f₂′,...,f_i′}表示调节所有AP信道的动作集合，f_i′为0-1变量，表示AP_i信道的调节，1表示信道增加，0表示信道减小；p′＝{p₁′,p₂′,...,p_i′}表示调整所有AP的发射功率的动作集合，p_i′为0-1变量，表示AP_i的功率调整，1表示功率增加，0表示功率减小。

S33、根据系统优化目标定义强化学习的奖励函数，奖励函数评判一次学习动作的好坏，并指导训练学习向着优化目标进行，因此，其奖励函数定义为系统吞吐量在一次动作前后的变化量如下：

r(t)＝T_t-T_t-1

其中，R表示累积折扣奖励，即执行策略的预期收益；

S34、根据无线网络的马尔科夫性，强化学习的更新规则为：

其中，Q_t表示当前状态的Q值，Q_t+1表示下一个状态时刻的Q值，α表示的强化学习的学习率，学习率的取值为[0,1]，γ∈[0,1]表示实时奖励和累计奖励重要性的奖励折扣因子。

S35、根据强化学习特性，可以根据控制器收集的信息学习获得一个最优的信道和功率调整策略，该策略满足：

若达到停止条件，系统的长期累积奖励达到最大值，智能体使用状态动作来指导其决策。累积最大奖励的策略是最优策略，因此，可以根据最大化状态Q值函数获得最优的功率和信道分配策略(f^*,p^*)。

进一步的，在步骤S4中，通过系统吞吐量要满足用户通信质量需求：

其中，δ为满足通信需求的链路信干噪比阈值。

进一步的，在步骤S4中，包括：控制器根据最优策略调整AP工作状态的系统是否满足用户对吞吐量的需求阈值，即最小的用户吞吐量需求值得到满足：

进一步的，在步骤S5中，若在使用最优策略的信道和功率组合(f^*,p^*)调整AP工作模式时，仍然不能使吞吐量最大，则返回步骤S1控制器重新收集数据并重新训练数据，重新得到最优策略。

本发明的有益效果是：

(1)本发明基于SDWN集中控制架构，实时获取各AP的参数信息，AP发射功率，用户需求等信息，并根据收集的信息计算吞吐量，生成统计表，在数据统计表的基础上利用强化学习获得最优信道和功率控制策略，实现AP信道和功率的联合控制，获得关于吞吐量优化函数的信道和功率组合，控制器选择使系统吞吐量函数最大的信道和功率组合作为最优决策，并下发控制指令调节AP工作模式。

(2)本发明的主要优点如下：其一，通过控制器实时获取各AP负载、发射功率、传输速率、覆盖半径、用户流量需求、用户和AP的关联关系等信息，保证用户的覆盖概率和需求，便于获取全局最优的资源配置方案；其二，通过实时数据的采样，获取实时的AP信息，并根据实时AP信息进行信道和功率控制，可以实现对网络的实时控制，更加适应网络的高动态性；其三，本文联合信道分配和功率控制的算法，可以在保证数据吞吐量的情况下，尽可能的降低AP发射功率，达到节约能耗得效果，同时，降低发射功率和调整信道间隔可以降低信号干扰，减少对相邻AP的影响，提高空间复用率，进一步提高网络通信质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中SDWN集中控制网络架构图；

图2为本发明中联合信道功率控制的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对实施例进行描述之前，需要对一些必要的术语进行解释。例如：

若本申请中出现使用“第一”、“第二”等术语来描述各种元件，但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此，下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是，若提及一元件“连接”或者“联接”到另一元件时，其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地，当提及一元件“直接地连接”或“直接地联接”到另一元件时，则不存在中间元件。

在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定，除非上下文另外清楚地指出，否则单数形式意图也包括复数形式。

当在本说明书中使用术语“包括”和/或“包括有”时，这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在，但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。

如图1所示，在SDWN集中控制框架中，包括控制器、AP、交换机以及因特网；有AP1、AP2和AP3这3个AP，其中AP1使用信道1与交换机通信、AP2使用信道6与交换机通信和AP3使用信道11与交换机通信收集；图1中SDWN控制器覆盖的所有AP的负载、发射功率、传输速率、覆盖半径、用户流量需求、用户和AP的关联关系等信息，生成相关信息的数据统计表，同时将这些信息上传至控制器进行存储处理。

在步骤S1中，根据AP数据统计表，针对无线局域网中，吞吐量与AP信道和功率的高度相关问题，建立信道和功率联合优化模型：

在步骤S2中，根据无线网络环境，构建包括状态动作信息、奖励函数的强化学习模块：

C1：S＝{s₁,s₂,…,s_n}

C2：A＝{a₁,a₂,…,a_n}

C3：r(t)＝T_t-T_t-1

C4：

C5：Q(s,a)＝R(s,a)+γmaxQ((s′,a′)|(s,a))

C6：

为了确定AP_i的发射功率和工作信道，根据控制器收集的数据集，利用强化学习算法训练获得最优信道和功率控制策略，具体策略获取包括：

以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量，实现该最优策略的选择包括：

s_t＝(f，p)

a_t＝(f’，p’)

r(t)＝T_t-T_t-1

其中，R表示累积折扣奖励，即执行策略的预期收益；

S34、根据无线网络的马尔科夫性，强化学习的更新规则为：

判断当前信道和功率调整是否满足要求，不满足则重新根据上述内容重新获得AP功率和信道控制信息，具体要求为：

1)链路通信质量是否满足要求，即：

2)用户吞吐量是否满足要求，即：

若满足上述的要求，则吞吐量函数T(f_i,p_i)决策将分配给AP的信道和功率值，获得使所有AP吞吐量值最大的信道和功率组合(f^*,p^*)，其中，δ为满足通信需求的链路信干噪比阈值。

在步骤S5中，若在使用最优策略的信道和功率组合(f^*,p^*)调整AP工作模式时，仍然不能使吞吐量最大，则返回步骤S1控制器重新收集数据并重新训练数据，重新得到最优策略。

如图2所示，详细说明一种基于强化学习的AP信道分配和功率控制联合优化方法的具体步骤：

步骤201，控制器对AP参数信息进行采集，实现对网络场景的实时监控；

步骤202，根据AP信息采集数据，将数据统计结果上传至控制器存储并处理；

步骤203，根据无线网络环境，建立联合信道和功率控制的吞吐量模型；

步骤204，根据控制器收集的AP信息数据，建立基于强化学习的状态信息集、动作信息集和奖励函数等模块；

步骤205，在控制器中利用强化学习算法对204步骤中的数据进行训练，并获得使累积折扣奖励最大的策略π^*；

步骤206，判断该优化策略的信道和功率控制策略(f^*，p^*)是否使系统吞吐量达到最大值；

步骤207，若在该信道和功率控制下系统吞吐量达到最大值，则将205步获得得的最优AP信道和功率调整策略下发到AP进行工作模式调整，否则，重新进入204；

步骤208，根据强化学习训练所得的最优信道和功率控制策略，调整AP的工作模式。

本发明基于SDWN集中控制架构，实时获取各AP的参数信息，AP发射功率，用户需求等信息，并根据收集的信息计算吞吐量，生成统计表，在数据统计表的基础上利用强化学习获得最优信道和功率控制策略，实现AP信道和功率的联合控制，获得关于吞吐量优化函数的信道和功率组合，控制器选择使系统吞吐量函数最大的信道和功率组合作为最优决策，并下发控制指令调节AP工作模式。

在本实施例中的其余技术特征，本领域技术人员均可以根据实际情况进行灵活选用以满足不同的具体实际需求。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的组成，结构或部件，均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。

在本发明的描述中，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”均是广义含义，本领域技术人员应作广义理解。例如，可以是固定连接，也可以是活动连接，或整体地连接，或局部地连接，可以是机械连接，也可以是电性连接，可以是直接相连，也可以是通过中间媒介间接连接，还可以是两个元件内部的连通等，对于本领域的技术人员来说，可以根据具体情况理解上述术语在本发明中的具体含义，即，文字语言的表达与实际技术的实施可以灵活对应，本发明的说明书的文字语言(包括附图)的表达不构成对权利要求的任何单一的限制性解释。

本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。在以上描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的技术，例如具体的施工细节，作业条件和其他的技术条件等。

Claims

1.一种基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S1中，针对无线局域网中，吞吐量与AP信道和功率的高度相关问题，建立信道和功率联合优化模型：

3.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S2中，构建包括状态动作信息、奖励函数的强化学习模块：

C1：S＝{s₁,s₂,…,s_n}

C2：A＝{a₁,a₂,…,a_n}

C3：r(t)＝T_t-T_t-1

C4：

C5：Q(s,a)＝R(s,a)+γmaxQ((s′,a′)|(s,a))

C6：

4.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S3中，以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量，实现该最优策略的选择包括：

s_t＝(f，p)

a_t＝(f’，p’)

其中，f′＝{f₁′,f₂′,...,f_i′}表示调节所有AP信道的动作集合，f_i′为0-1变量，表示AP_i信道的调节，1表示信道增加，0表示信道减小；p′＝{p′₁,p′₂,...,p′_i}表示调整所有AP的发射功率的动作集合，p′_i为0-1变量，表示AP_i的功率调整，1表示功率增加，0表示功率减小。

r(t)＝T_t-T_t-1

其中，R表示累积折扣奖励，即执行策略的预期收益；

S34、根据无线网络的马尔科夫性，强化学习的更新规则为：

5.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S4中，通过系统吞吐量要满足用户通信质量需求：

其中，δ为满足通信需求的链路信干噪比阈值。

6.根据权利要求1或5所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S4中，包括：控制器根据最优策略调整AP工作状态的系统是否满足用户对吞吐量的需求阈值，即最小的用户吞吐量需求值得到满足：

7.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S5中，若在使用最优策略的信道和功率组合(f^*,p^*)调整AP工作模式时，仍然不能使吞吐量最大，则返回步骤S1控制器重新收集数据并重新训练数据，重新得到最优策略。