CN114599116A

CN114599116A - 一种非授权频段公平共存接入方法及系统

Info

Publication number: CN114599116A
Application number: CN202210197667.XA
Authority: CN
Inventors: 孙兴华; 许浩维; 詹文; 王玺钧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-07

Abstract

本发明公开了一种非授权频段公平共存接入方法及系统，该方法包括：将新接入非授权频段的节点定义为智能体，并进行网络初始化；智能体根据当前状态决策并执行动作，得到对应的经验；将经验存入经验池，并基于经验回放机制对智能体的深度Q网络进行训练更新；生成虚拟经验并对智能体进行训练更新；按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新；循环更新步骤。该系统包括：初始化模块、执行动作模块、第一更新模块、第二更新模块、第三更新模块和循环模块。通过使用本发明，能够使新接入非授权频段的节点根据环境调整接入策略，从而更加快速且平稳地实现在非授权频段中的公平共存。本发明可广泛应用于无线通信领域。

Description

一种非授权频段公平共存接入方法及系统

技术领域

本发明涉及无线通信领域，尤其涉及一种非授权频段公平共存接入方法及系统。

背景技术

在无线通信领域中，非授权频段作为授权频段的补充，允许4G、5G等蜂窝网络设备接入到非授权频段中进行传输。考虑到新接入节点需要与非授权频段中原本存在的其他MAC节点(如WiFi节点)共存，因此如何保证非授权频段中不同MAC节点之间的公平性接入成为了当前的一个研究热点。

目前基于数据驱动的无模型强化学习算法是解决多址接入问题的热门方法，但是受限于其边训练边执行的方式，数据量不足将导致算法收敛速度慢或者无法在有限时间内收敛到最优解。尤其是在当前以及未来的无线网络中，网络环境往往变化较快，同时网络中有着大量的数据传输，这就要求接入算法能够快速有效地收敛到最优接入策略。因此如何充分利用有限的真实数据，或者如何快速扩充智能体训练所需的数据样本，从而提高智能体的拟合速度，成为了目前急需解决的技术问题。

发明内容

为了解决上述技术问题，本发明的目的是提供一种非授权频段公平共存接入方法及系统，能够快速产生大量的虚拟数据，使智能体的收敛效果得到有效提升。

本发明所采用的第一技术方案是：一种非授权频段公平共存接入方法，包括以下步骤：

S1、将新接入非授权频段的节点定义为智能体，并进行网络初始化；

S2、智能体根据当前状态决策并执行动作，得到对应的经验；

S3、将经验存入经验池，并基于经验回放机制对智能体的深度Q网络进行训练更新；

S4、生成虚拟经验并对智能体进行训练更新；

S5、按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新；

S6、循环步骤S2-S5直至达到预设的迭代步数。

进一步，所述网络初始化包括智能体的深度Q网络初始化和虚拟多址接入环境模型的深度神经网络初始化，所述深度Q网络包括策略网络和目标网络，所述虚拟多址接入环境模型包括状态模型和奖励模型。

进一步，所述智能体根据当前状态决策并执行动作中决策策略的公式表示如下：

上式中，f_α表示α公平性局部效用函数，1-∈表示选择一个当前策略下的最优动作的概率，∈表示选择一个随机动作的概率，N表示节点数量，Q⁽ⁱ⁾(s_t，a)表示节点i所对应的“状态-动作对”的价值，s_t表示环境状态，a表示动作，random action表示随机动作。

进一步，所述得到对应的经验的表达式如下：

e_t＝{c_t，a_t，r_t，c_t+1}

上式中，e_t表示经验，c_t表示在时间步t时的信道状态，a_t表示智能体选择的动作，r_t表示智能体所获得的奖励，c_t+1表示智能体在信道状态c_t执行动作a_t后转移到的下一个信道状态。

进一步，深度Q网络的更新公式表示如下：

上式中，γ表示折扣因子，θ和θ^-表示深度Q网络的参数，N表示节点数量，E表示经验池中经验样本，a′表示环境状态为s_t+1时智能体在当前策略下的最优动作。

进一步，所述生成虚拟经验并对智能体进行训练更新这一步骤，其具体包括：

基于虚拟多址接入环境模型从经验池中选择输入状态，并以对应动作的相反动作为输入动作，生成输出值，得到虚拟经验；

基于虚拟经验对智能体的深度Q网络进行训练更新。

进一步，所述按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新这一步骤，其具体包括：

按照预设时间间隔从经验池取出经验，以经验中的状态和动作作为输入，以对应下一个信道状态和奖励分别作为状态模型和奖励模型的标签，训练虚拟多址接入环境模型并更新神经网络参数。

本发明所采用的第二技术方案是：一种非授权频段公平共存接入系统，包括：

初始化模块，用于将新接入非授权频段的节点定义为智能体，并进行网络初始化；

执行动作模块，智能体根据当前状态决策并执行动作，得到对应的经验；

第一更新模块，用于将经验存入经验池，并基于经验回放机制对智能体的深度Q网络进行训练更新；

第二更新模块，用于生成虚拟经验并对智能体进行训练更新；

第三更新模块，用于按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新；

循环模块，用于执行循环步骤。

本发明方法及系统的有益效果是：本发明将基于模型的Dyna框架应用到无线通信领域来解决多址接入问题。通过搭建虚拟多址接入环境模型，使其可以产生大量虚拟经验辅助智能体的训练，解决了无模型深度强化学习算法中因为数据量缺乏而无法有效收敛的问题，同时在虚拟网络环境进行虚拟经验采样时，通过设计一定的采样策略，选择与智能体相反的动作，达到了帮助智能体进行状态空间探索的目的，也加快了智能体收敛的速度，使得本方案更加适用于对算法收敛延迟要求较高的无线通信场景。

附图说明

图1是本发明一种非授权频段公平共存接入方法的步骤流程图；

图2是本发明具体实施例方法框架图；

图3是本发明一种非授权频段公平共存接入系统的结构框图；

图4是本发明具体实施例通信场景示意图；

图5是本发明具体实施例智能体的深度Q网络结构图；

图6是本发明具体实施例虚拟多址接入环境模型中状态模型的DNN结构图；

图7是本发明具体实施例虚拟多址接入环境模型中奖励模型的DNN结构图；

图8是具体实施例仿真实验结果图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

图4为本发明所考虑的非授权频段多址接入系统，系统中包括运行于非授权频段的若干个WiFi节点，以及新接入该频段的其他通信节点。该通信场景的优化目标是达到系统中所有节点之间的α公平性接入。

参照图1和图2，本发明提供了一种非授权频段公平共存接入方法方法，使得新接入的其他通信节点应用这种算法(称为Dyna节点)，与原有的WiFi节点达到α公平性共存，该方法包括以下步骤：

S1、将新接入非授权频段的节点视为智能体，与该频段中原有的WiFi节点竞争接入同一个信道，并初始化智能体的深度Q网络和虚拟多址接入环境模型的深度神经网络(DNN)；

具体地，参照图5，搭建并初始化智能体的深度Q网络，包含一层长短期记忆网络(LSTM)层，一层全连接(FC)层以及输出层；参照图6和图7，搭建并初始化虚拟多址接入环境模型的DNN，其中状态模型和奖励模型的区别仅在于输出层的维度。

S2、智能体在每个时间步t决策自己的动作，即决策是否接入信道进行传输；

具体地，智能体根据使得所有N个节点的局部效用函数最大化的准则来选择动作，具体地可以选择∈-贪婪策略：

其中f_α为α公平性局部效用函数，N表示节点数量，Q⁽ⁱ⁾(s_t，a)表示节点i所对应的“状态-动作对”的价值，s_t表示环境状态，a表示动作，random action表示随机动作。智能体以概率1-∈选择一个当前策略下的最优动作，而以概率∈选择一个随机动作，选择随机动作的意义是让智能体保持探索整个状态空间的能力，避免陷入局部最优解。

S3、智能体执行动作，并在执行动作后获取对应的经验e_t＝{c_t，a_t，r_t，c_t+1}，其中c_t表示在时间步t时的信道状态，a_t表示智能体选择的动作，r_t表示智能体所获得的奖励，c_t+1表示智能体在信道状态c_t执行动作a_t后转移到的下一个信道状态；

具体地，信道状态可以定义为c_t＝{a_t-1，o_t-1}，其中a_t-1表示智能体的动作，包括进行传输或等待；o_t-1表示智能体对于信道的观测结果，包括传输成功与否和信道空闲与否。奖励r_t为一个向量，向量中的每一位对应网络中的每一个节点，当节点i在该时间步进行了一次成功传输，则r_t ⁱ＝1，否则r_t ⁱ＝0。

S4、将经验存入真实经验池，如果经验池容量已满则移出最早放入的一条数据，之后使用经验回放机制对智能体进行批量训练；

具体地，智能体可以采用如下损失函数，对深度Q网络以批量梯度下降方式进行参数更新：

其中，，γ表示折扣因子，θ和θ^-表示深度Q网络的参数，N表示节点数量，E表示经验池中经验样本，a′表示环境状态为s_t+1时智能体在当前策略下的最优动作。θ每经过200次训练后，将θ^-的值替换为最新的θ值。

S5、使用虚拟多址接入环境模型产生一批虚拟经验，同样对智能体进行批量训练；

具体地，虚拟多址接入环境模型首先从智能体的真实经验中随机选出一个批次的真实状态作为输入状态s_τ；而将智能体在真实状态s_τ所选动作的相反动作作为输入动作a_τ，起到帮助智能体进行状态空间探索的作用。模型输入值s_τ，a_τ与输出值

一起构成了一个虚拟经验。通过不断随机选择输入状态和动作，得到输出状态和奖励，可以在短时间内得到大量的虚拟经历，从而与真实经验一起对智能体的深度Q网络进行批量训练。

S6，每隔一段固定时间，从真实经验池中取出批量真实经验对虚拟多址接入环境模型进行训练更新；

具体地，将真实经验中的状态s_τ和动作a_τ作为虚拟多址接入环境模型的输入，而下一个信道状态c_τ+1和奖励r_τ分别作为状态模型和奖励模型的标签，从而对两个模型中的神经网络参数按照如下损失函数进行批量梯度下降：

其中

和

分别表示状态模型和奖励模型的神经网络参数。

S7、重复步骤S2-S6，直到第100000个时隙结束。

具体地，通过循环迭代这些过程，智能体最终实现了与非授权频段中原有节点之间的公平共存。

S8、分别统计系统中WiFi节点和Dyna节点的吞吐量，以横轴表示时间，纵轴表示吞吐量，画出吞吐量随时间的变化情况。同时，作为对比，我们还进行了无模型的DRL节点与WiFi节点共存的实验，在其他条件均与Dyna节点相同的情况下，同样画出DRL节点和WiFi节点吞吐量随时间的变化曲线。

如图8所示，MF-DRL和MF-WiFi分别表示应用无模型的DRL算法时，DRL节点与WiFi节点的吞吐量；Dyna和Dyna-WiFi分别表示应用基于模型的深度Dyna-Q算法时，Dyna节点和WiFi节点的吞吐量；Benchmark表示理论上的最优吞吐量。通过图8我们可以看到深度Dyna-Q算法不仅收敛速度要快于无模型的DRL算法，而且其收敛效果也更优，曲线波动更平稳。

如图3所示，一种非授权频段公平共存接入系统，包括：

循环模块，用于执行循环步骤。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种非授权频段公平共存接入装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种非授权频段公平共存接入方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种非授权频段公平共存接入方法。

上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种非授权频段公平共存接入方法，其特征在于，包括以下步骤：

S4、生成虚拟经验并对智能体进行训练更新；

S6、循环步骤S2-S5直至达到预设的迭代步数。

2.根据权利要求1所述一种非授权频段公平共存接入方法，其特征在于，所述网络初始化包括智能体的深度Q网络初始化和虚拟多址接入环境模型的深度神经网络初始化，所述深度Q网络包括策略网络和目标网络，所述虚拟多址接入环境模型包括状态模型和奖励模型。

3.根据权利要求2所述一种非授权频段公平共存接入方法，其特征在于，所述智能体根据当前状态决策并执行动作中决策策略的公式表示如下：

上式中，f_α表示α公平性局部效用函数，1-∈表示选择一个当前策略下的最优动作的概率，∈表示选择一个随机动作的概率，N表示节点数量，Q⁽ⁱ⁾(s_t,a)表示节点i所对应的“状态-动作对”的价值，s_t表示环境状态，a表示动作，random action表示随机动作。

4.根据权利要求3所述一种非授权频段公平共存接入方法，其特征在于，所述得到对应的经验的表达式如下：

e_t＝{c_t,a_t,r_t,c_t+1}

5.根据权利要求4所述一种非授权频段公平共存接入方法，其特征在于，深度Q网络的更新公式表示如下：

上式中，γ表示折扣因子，θ和θ^-表示深度Q网络的参数，N表示节点数量，E表示经验池中经验样本，a'表示环境状态为s_t+1时智能体在当前策略下的最优动作。

6.根据权利要求5所述一种非授权频段公平共存接入方法，其特征在于，所述生成虚拟经验并对智能体进行训练更新这一步骤，其具体包括：

基于虚拟多址接入环境模型从经验池中选择输入状态，并以经验池中对应动作的相反动作为输入动作，生成输出值，得到虚拟经验；

基于虚拟经验对智能体的深度Q网络进行训练更新。

7.根据权利要求6所述一种非授权频段公平共存接入，其特征在于，所述按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新这一步骤，其具体包括：

8.一种非授权频段公平共存接入系统，其特征在于，包括：

循环模块，用于执行循环步骤。