CN115250156A - 一种基于联邦学习的无线网络多信道频谱接入方法 - Google Patents

一种基于联邦学习的无线网络多信道频谱接入方法 Download PDF

Info

Publication number
CN115250156A
CN115250156A CN202111053985.0A CN202111053985A CN115250156A CN 115250156 A CN115250156 A CN 115250156A CN 202111053985 A CN202111053985 A CN 202111053985A CN 115250156 A CN115250156 A CN 115250156A
Authority
CN
China
Prior art keywords
cognitive
channel
cluster
learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111053985.0A
Other languages
English (en)
Inventor
李枫
沈博文
王丽
张松博
孙忠明
孙连钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111053985.0A priority Critical patent/CN115250156A/zh
Publication of CN115250156A publication Critical patent/CN115250156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/08Trunked mobile radio systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

在本发明中,我们提出了一种认知无线网络中基于联邦深度强化学习的多信道动态频谱接入策略。首先,根据多信道动态频谱的特点将之描述为马尔可夫决策过程并使用深度强化学习算法实现多信道动态频谱的智能接入。在此基础上,应用联邦学习算法,根据认知用户数据及自身特点,设计以多小区间互不干扰且具有相似运作情况的认知用户为一个集群,每个集群中的认知用户将自身的训练模型上传至同一边缘参数服务器进行神经网络模型参数聚合,快速地形成一个该集群的全局模型。然后参数服务器将全局模型的权重参数下发给对应集群的所有认知用户进行下一轮学习,以实现认知用户高效、快速、安全地智能接入合理的频谱资源。

Description

一种基于联邦学习的无线网络多信道频谱接入方法
技术领域
本发明涉及一种认知无线网络中基于联邦深度强化学习的多信道动态频谱接入策略,属于认知无线网络中的链路层资源分配技术范畴。
技术背景
随着无线通讯技术的快速发展,如何高效、合理地分配有限的频谱资源成为相关研究者广泛关注的问题。其中,动态频谱接入是无线通信技术的研究热点之一。在动态访问过程中,认知用户仅可在以不对授权用户产生干扰的前提下动态地接入频谱以获得空闲频谱的使用权。然而,在此过程中,由于信道与频谱状态的变化,接入频谱的效率较为低下,需要消耗大量的网络资源,且用户间的干扰和访问冲突较为严重。因此,如何提高动态频谱接入网络的效益受到众多关注与研究。
近几年,人工智能技术快速发展,深度强化学习因具有良好的感知与决策能力,较为适合于用户动态频谱接入场景中的应用。智能体与环境交互,当环境发生变化时,智能体通过模型训练时的策略及对应动作的奖励来影响模型权重参数,以快速调整智能体对环境的动作。同时,联邦学习作为分布式领域的一种重要技术,可以在保证大数据交换时的信息安全、保护终端数据和个人数据隐私的前提下,在多个参与者或多个计算节点之间训练高效的神经网络模型。
本发明运用深度强化学习和联邦学习的优势,提出了一种面向动态频谱接入的联邦学习框架。所考虑的场景是不同小区中的所有认知用户进行联邦学习。认知用户首先在当地进行深度强化学习,每轮训练完成后互相不受干扰的认知用户作为一个集群将自身的训练模型参数上传到同一边缘参数服务器进行神经网络模型参数聚合,形成一个全局模型。参数服务器将该全局模型的参数下发给对应集群的所有认知用户进行下一轮学习,以达到高效的信道智能接入的目的。本发明根据区域认知用户分布特点及联邦学习自身特点,对参与联邦学习的认知用户进行具体的划分。同时,根据动态频谱接入中通信网络的具体特点设计了深度强化学习中的状态集、动作集及奖励函数。提高了认知用户接入空闲、有效频谱的速度和成功率。本发明中提出的方法可更好地提高通信网络的信道利用率及认知用户动态频谱接入的效益。
发明内容
为了更好地提高无线网络动态频谱接入策略的效率,本发明的目的在于提出了一种基于联邦学习的无线网络多信道动态频谱接入方法。具体方法包括如下步骤:
一、步骤1,将多信道动态频谱接入描述为马尔可夫决策过程;
步骤2,通过深度强化学习算法实现多信道动态频谱的智能接入;
步骤3,以多小区间互不干扰的认知用户为一个集群,将自身的训练模型上传至同一边缘参数服务器进行神经网络模型参数聚合,实现快速地形成一个该集群的全局模型;
步骤4,参数服务器将全局模型的权重参数下发给对应集群的所有认知用户进行下一轮学习。
二、进一步地,步骤1中,所述的马尔可夫决策过程包括:
考虑到认知用户当前时刻接入信道所获得的效用仅与当前信道状态有关,与信道之前状态无关,上述多信道接入过程可描述为一个马尔可夫决策过程(S;A;r;π(a|s)),具体描述如下:
状态空间S:认知用户u在时间t时刻的状态可以表示为
Figure BDA0003253938920000021
其中,Cu表示所选取接入的信道,
Figure BDA0003253938920000022
表示t时刻该信道的状态。
Figure BDA0003253938920000023
为0表示该信道处于空闲状态,
Figure BDA0003253938920000024
为1表示该信道正被授权用户所占用;
动作空间A:选择某一可选信道的动作a的集合;
系统奖励r:奖励机制基于认知用户接入信道后的服务质量(QoS),奖励函数表示为
Figure BDA0003253938920000025
其中,au表示认知用户u到基站的衰减,pu表示认知用户u的发射功率,n表示所有认知用户的集合,σu表示认知用户u所需的服务质量的阈值;
策略
Figure BDA0003253938920000026
当认知用户状态为
Figure BDA0003253938920000027
时,选择动作a的概率。
三、进一步地,步骤2中通过深度强化学习算法实现多信道动态频谱的智能接入包括:
本发明使用双深度Q-learning算法来解决上述马尔可夫决策过程,通过认知用户与环境不断进行交互试错,寻找累计奖励最大值的策略,以达到下一时刻快速、高效智能接入信道的目的。双深度Q-learning算法的使用可以避免传统深度Q-learning算法容易高估Q值的缺陷。在双深度Q-learning算法中,每个认知用户u有两个神经网络,分别是基本网络
Figure BDA0003253938920000028
和目标网络
Figure BDA0003253938920000029
在每个训练时刻t中,基本网络
Figure BDA00032539389200000210
被实时更新,而目标网络
Figure BDA00032539389200000211
的更新频率较低,目标网络
Figure BDA00032539389200000212
更新时被设计为等于
Figure BDA00032539389200000213
为了找到一个最优策略,状态-动作值函数服从贝尔曼方程
Figure BDA00032539389200000214
且更新过程表示为
Figure BDA00032539389200000215
其中,α∈(0,1]表示学习率,β表示折扣因子,β的值越大,认知用户将越重视过程中的过去经验。在训练过程中会形成一个Q-learning表。在每一个训练步骤中,认知用户按照∈-贪婪策略来选择动作,以概率∈从动作空间A中随机选择动作,并以概率1-∈选择具有最大Q-learning值得动作,可以表示为
Figure BDA0003253938920000031
认知用户当地进行的强化学习算法具体实现过程包括:
(1)初始化基本网络权重
Figure BDA0003253938920000032
目标网络权重
Figure BDA0003253938920000033
目标网络更新频率f,服务质量阈值σu,学习率α,折扣因子β,训练轮数N和训练总时刻数T;
(2)认知用户随机选择一个动作并获取此时的状态su
(3)根据∈-贪婪策略选择一个动作
Figure BDA0003253938920000034
(4)执行动作
Figure BDA0003253938920000035
来接入信道;
(5)获得对应的奖励
Figure BDA0003253938920000036
和新的状态
Figure BDA0003253938920000037
(6)更新状态-动作值函数
Figure BDA0003253938920000038
(7)将经验
Figure BDA0003253938920000039
放入内存缓冲区Mu
(8)从内存缓冲区Mu中随机抽取一个mini-batch样本
Figure BDA00032539389200000310
使用梯度下降法计算损失函数;
(9)间隔频率f后将基本网络权重
Figure BDA00032539389200000311
赋值给目标网络权重
Figure BDA00032539389200000312
(10)重复第3到第9步骤T次,若获得的奖励
Figure BDA00032539389200000313
大于服务质量阈值σu或所选信道正在被授权用户使用,则停止重复;
(11)重复第2到第10步骤N次。
深度强化学习框架如图2所示。
四、进一步地,步骤3中以多小区间互不干扰的认知用户为一个集群,将自身的训练模型上传至同一边缘参数服务器进行神经网络模型参数聚合的具体实现过程包括:
由于不同认知用户的数据类型、硬件性能和模型性能的差异,以简单的方式聚合所有认知用户设备的模型参数反而会对系统产生不利影响。在本发明中,我们考虑的联邦学习场景是多个小区间互相不受干扰并且具有相似的运作情况的认知用户作为一个集群将自身的训练模型参数上传到同一边缘参数服务器进行神经网络模型参数聚合。联邦平均算法(FedAvg)因具有通信成本低、训练时间短的优点被应用来进行模型参数的聚合,形成一个全局模型,该模型
Figure BDA00032539389200000314
可以表示为
Figure BDA00032539389200000315
其中,Co表示联邦集群o的认知用户集合。
进一步地,步骤4中全局模型权重参数下发的具体实现过程包括:
边缘参数服务器在每轮训练中完成联邦集群o的模型聚合形成全局模型
Figure BDA0003253938920000041
后,全局模型
Figure BDA0003253938920000042
将被分发给联邦集群o中的每个认知用户u并进行下一轮联邦学习。
本发明中的联邦学习框架通过仿真后,效果如图3和图4所示。
附图说明
图1基于联邦学习多信道动态频谱接入的系统框架
图2深度强化学习算法框架
图3接入合适信道平均步数情况
图4接入合适信道平均奖励情况
具体实施方式
一、本发明为了更好地提高无线通信网络动态频谱接入策略的效率,提出了一种基于联邦学习的无线网络多信道动态频谱接入方法。首先,将多信道动态频谱接入描述为马尔可夫决策过程并使用深度强化学习算法实现多信道动态频谱的智能接入。在此基础上,以多小区间互不干扰的认知用户为一个集群,将自身的训练模型上传至同一边缘参数服务器进行神经网络模型参数聚合,实现快速地形成一个该集群的全局模型。然后参数服务器将全局模型的权重参数下发给对应集群的所有认知用户进行下一轮学习。该框架如图1所示。
二、A.马尔可夫决策模型
考虑到认知用户当前时刻接入信道所获得的效用仅与当前信道状态有关,与信道之前状态无关,上述多信道接入过程可描述为一个马尔可夫决策过程(S;A;r;π(a|s)),具体描述如下:
状态空间S:认知用户u在时间t时刻的状态可以表示为
Figure BDA0003253938920000043
其中,Cu表示所选取接入的信道,
Figure BDA0003253938920000044
表示t时刻该信道的状态。
Figure BDA0003253938920000045
为0表示该信道处于空闲状态,
Figure BDA0003253938920000046
为1表示该信道正被授权用户所占用;
动作空间A:选择某一可选信道的动作a的集合;
系统奖励r:奖励机制基于认知用户接入信道后的服务质量(QoS),奖励函数表示为
Figure BDA0003253938920000047
其中,au表示认知用户u到基站的衰减,pu表示认知用户u的发射功率,n表示所有认知用户的集合,σu表示认知用户u所需的服务质量的阈值;
策略
Figure BDA0003253938920000048
当认知用户状态为
Figure BDA0003253938920000049
时,选择动作a的概率。
三、B.深度强化学习模型
本发明使用双深度Q-learning算法来解决上述马尔可夫决策过程,通过认知用户与环境不断进行交互试错,寻找累计奖励最大值的策略,以达到下一时刻快速、高效智能接入信道的目的。双深度Q-learning算法的使用可以避免传统深度Q-learning算法容易高估Q值的缺陷。在双深度Q-learning算法中,每个认知用户u有两个神经网络,分别是基本网络
Figure BDA0003253938920000051
和目标网络
Figure BDA0003253938920000052
在每个训练时刻t中,基本网络
Figure BDA0003253938920000053
被实时更新,而目标网络
Figure BDA0003253938920000054
的更新频率较低,目标网络
Figure BDA0003253938920000055
更新时被设计为等于
Figure BDA0003253938920000056
为了找到一个最优策略,状态-动作值函数服从贝尔曼方程
Figure BDA0003253938920000057
且更新过程表示为
Figure BDA0003253938920000058
其中,α∈(0,1]表示学习率,β表示折扣因子,β的值越大,认知用户将越重视过程中的过去经验。在训练过程中会形成一个Q-learning表。在每一个训练步骤中,认知用户按照∈-贪婪策略来选择动作,以概率∈从动作空间A中随机选择动作,并以概率1-∈选择具有最大Q-learning值得动作,可以表示为
Figure BDA0003253938920000059
认知用户当地进行的强化学习算法具体实现过程包括:
(1)初始化基本网络权重
Figure BDA00032539389200000510
目标网络权重
Figure BDA00032539389200000511
目标网络更新频率f,服务质量阈值σu,学习率α,折扣因子β,训练轮数N和训练总时刻数T;
(2)认知用户随机选择一个动作并获取此时的状态su
(3)根据∈-贪婪策略选择一个动作
Figure BDA00032539389200000512
(4)执行动作
Figure BDA00032539389200000513
来接入信道;
(5)获得对应的奖励
Figure BDA00032539389200000514
和新的状态
Figure BDA00032539389200000515
(6)更新状态-动作值函数
Figure BDA00032539389200000516
(7)将经验
Figure BDA00032539389200000517
放入内存缓冲区Mu
(8)从内存缓冲区Mu中随机抽取一个mini-batch样本
Figure BDA00032539389200000518
使用梯度下降法计算损失函数;
(9)间隔频率f后将基本网络权重
Figure BDA00032539389200000519
赋值给目标网络权重
Figure BDA00032539389200000520
(10)重复第3到第9步骤T次,若获得的奖励
Figure BDA00032539389200000521
大于服务质量阈值σu或所选信道正在被授权用户使用,则停止重复;
(11)重复第2到第10步骤N次。
深度强化学习框架如图2所示。
四、C.联邦学习模型
由于不同认知用户的数据类型、硬件性能和模型性能的差异,以简单的方式聚合所有认知用户设备的模型参数反而会对系统产生不利影响。在本发明中,我们考虑的联邦学习场景是多个小区间互相不受干扰并且具有相似的运作情况的认知用户作为一个集群将自身的训练模型参数上传到同一边缘参数服务器进行神经网络模型参数聚合。联邦平均算法(FedAvg)因具有通信成本低、训练时间短的优点被应用来进行模型参数的聚合,形成一个全局模型,该模型
Figure BDA0003253938920000061
可以表示为
Figure BDA0003253938920000062
其中,Co表示联邦集群o的认知用户集合。
五、D.全局模型权重参数下发过程
边缘参数服务器在每轮训练中完成联邦集群o的模型聚合形成全局模型
Figure BDA0003253938920000063
后,全局模型
Figure BDA0003253938920000064
将被分发给联邦集群o中的每个认知用户u并进行下一轮联邦学习。
六、本发明中的联邦学习框架通过仿真实验后,效果如图3和图4所示。在仿真实验中,系统的参数化设置包括:α=1,β=0.95,f=10,N=100,可以看出,迭代算法经过几次迭代后即很快收敛,性能稳定。

Claims (5)

1.一种基于联邦学习的无线网络多信道动态频谱接入方法,所述方法包括如下步骤:
步骤1,将多信道动态频谱接入描述为马尔可夫决策过程;
步骤2,通过深度强化学习算法实现多信道动态频谱的智能接入;
步骤3,以多小区间互不干扰的认知用户为一个集群,将自身的训练模型上传至同一边缘参数服务器进行神经网络模型参数聚合,实现快速地形成一个该集群的全局模型;
步骤4,参数服务器将全局模型的权重参数下发给对应集群的所有认知用户进行下一轮学习。
2.步骤1中,所述的马尔可夫决策过程包括:
考虑到认知用户当前时刻接入信道所获得的效用仅与当前信道状态有关,与信道之前状态无关,上述多信道接入过程可描述为一个马尔可夫决策过程(S;A;r;π(a|s)),具体描述如下:
状态空间S:认知用户u在时间t时刻的状态可以表示为
Figure FDA0003253938910000011
其中,Cu表示所选取接入的信道,
Figure FDA0003253938910000012
表示t时刻该信道的状态,
Figure FDA0003253938910000013
为0表示该信道处于空闲状态,
Figure FDA0003253938910000014
为1表示该信道正被授权用户所占用;
动作空间A:选择某一可选信道的动作a的集合;
系统奖励r:奖励机制基于认知用户接入信道后的服务质量(QoS),奖励函数表示为
Figure FDA0003253938910000015
其中,au表示认知用户u到基站的衰减,pu表示认知用户u的发射功率,n表示所有认知用户的集合,σu表示认知用户u所需的服务质量的阈值;
策略
Figure FDA0003253938910000016
当认知用户状态为
Figure FDA0003253938910000017
时,选择动作a的概率。
3.步骤2中,通过深度强化学习算法实现多信道动态频谱的智能接入包括:
本发明使用双深度Q-learning算法来解决上述马尔可夫决策过程,通过认知用户与环境不断进行交互试错,寻找累计奖励最大值的策略,以达到下一时刻快速、高效智能接入信道的目的。双深度Q-learning算法的使用可以避免传统深度Q-learning算法容易高估Q值的缺陷。在双深度Q-learning算法中,每个认知用户u有两个神经网络,分别是基本网络
Figure FDA0003253938910000018
和目标网络
Figure FDA0003253938910000019
在每个训练时刻t中,基本网络
Figure FDA00032539389100000110
被实时更新,而目标网络
Figure FDA00032539389100000111
的更新频率较低,目标网络
Figure FDA00032539389100000112
更新时被设计为等于
Figure FDA00032539389100000113
为了找到一个最优策略,状态-动作值函数服从贝尔曼方程
Figure FDA00032539389100000114
且更新过程表示为
Figure FDA00032539389100000115
其中,α∈(0,1]表示学习率,β表示折扣因子,β的值越大,认知用户将越重视过程中的过去经验,训练过程中会形成一个Q-learning表,每一个训练步骤中,认知用户按照∈-贪婪策略来选择动作,以概率∈从动作空间A中随机选择动作,并以概率1-∈选择具有最大Q-learning值得动作,可以表示为
Figure FDA0003253938910000021
认知用户当地进行的强化学习算法具体实现过程包括:
(1)初始化基本网络权重
Figure FDA0003253938910000022
目标网络权重
Figure FDA0003253938910000023
目标网络更新频率f,服务质量阈值σu,学习率α,折扣因子β,训练轮数N和训练总时刻数T;
(2)认知用户随机选择一个动作并获取此时的状态su
(3)根据∈-贪婪策略选择一个动作
Figure FDA0003253938910000024
(4)执行动作
Figure FDA0003253938910000025
来接入信道;
(5)获得对应的奖励
Figure FDA0003253938910000026
和新的状态
Figure FDA0003253938910000027
(6)更新状态-动作值函数
Figure FDA0003253938910000028
(7)将经验
Figure FDA0003253938910000029
放入内存缓冲区Mu
(8)从内存缓冲区Mu中随机抽取一个mini-batch样本
Figure FDA00032539389100000210
使用梯度下降法计算损失函数;
(9)间隔频率f后将基本网络权重
Figure FDA00032539389100000211
赋值给目标网络权重
Figure FDA00032539389100000212
(10)重复第3到第9步骤T次,若获得的奖励
Figure FDA00032539389100000213
大于服务质量阈值σu或所选信道正在被授权用户使用,则停止重复;
(11)重复第2到第10步骤N次。
4.步骤3中,以多小区间互不干扰的认知用户为一个集群,将自身的训练模型上传至同一边缘参数服务器进行神经网络模型参数聚合的具体实现过程包括:
由于不同认知用户的数据类型、硬件性能和模型性能的差异,以简单的方式聚合所有认知用户设备的模型参数反而会对系统产生不利影响;在本发明中,我们考虑的联邦学习场景是多个小区间互相不受干扰并且具有相似的运作情况的认知用户作为一个集群将自身的训练模型参数上传到同一边缘参数服务器进行神经网络模型参数聚合;联邦平均算法(FedAvg)因具有通信成本低、训练时间短的优点被应用来进行模型参数的聚合,形成一个全局模型,该模型
Figure FDA00032539389100000214
可以表示为
Figure FDA00032539389100000215
其中,Co表示联邦集群o的认知用户集合。
5.步骤4中,全局模型权重参数下发的具体实现过程包括:
缘参数服务器在每轮训练中完成联邦集群o的模型聚合形成全局模型
Figure FDA0003253938910000031
后,全局模型
Figure FDA0003253938910000032
将被分发给联邦集群o中的每个认知用户u并进行下一轮联邦学习。
CN202111053985.0A 2021-09-09 2021-09-09 一种基于联邦学习的无线网络多信道频谱接入方法 Pending CN115250156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053985.0A CN115250156A (zh) 2021-09-09 2021-09-09 一种基于联邦学习的无线网络多信道频谱接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053985.0A CN115250156A (zh) 2021-09-09 2021-09-09 一种基于联邦学习的无线网络多信道频谱接入方法

Publications (1)

Publication Number Publication Date
CN115250156A true CN115250156A (zh) 2022-10-28

Family

ID=83696797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111053985.0A Pending CN115250156A (zh) 2021-09-09 2021-09-09 一种基于联邦学习的无线网络多信道频谱接入方法

Country Status (1)

Country Link
CN (1) CN115250156A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116056090A (zh) * 2023-03-29 2023-05-02 塔盾信息技术(上海)有限公司 一种基于人工智能的认知自组网通信方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523055A (zh) * 2011-12-09 2012-06-27 北京科技大学 Nakagami-m衰落信道下的合作频谱感知方法
EP2782381A1 (en) * 2013-03-22 2014-09-24 Alcatel Lucent Optimizing configuration parameters of a cluster of base stations
CN111756460A (zh) * 2020-06-23 2020-10-09 常州工学院 认知网络中基于无监督学习的协作频谱感知方法、装置
WO2021068638A1 (zh) * 2019-10-12 2021-04-15 中国海洋大学 结合tamer框架和面部表情反馈的交互强化学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523055A (zh) * 2011-12-09 2012-06-27 北京科技大学 Nakagami-m衰落信道下的合作频谱感知方法
EP2782381A1 (en) * 2013-03-22 2014-09-24 Alcatel Lucent Optimizing configuration parameters of a cluster of base stations
WO2021068638A1 (zh) * 2019-10-12 2021-04-15 中国海洋大学 结合tamer框架和面部表情反馈的交互强化学习方法
CN111756460A (zh) * 2020-06-23 2020-10-09 常州工学院 认知网络中基于无监督学习的协作频谱感知方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NING WANG等: "Privacy Protection and Efficient Incumbent Detection in Spectrum Sharing Based on Federated Learning", 《2020 IEEE CONFERENCE ON COMMUNICATIONS AND NETWORK SECURITY (CNS)》, 7 August 2020 (2020-08-07) *
范文翰;赵旦峰;: "基于Q-Learning的机会频谱接入算法", 电子技术与软件工程, no. 12, 27 June 2018 (2018-06-27) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116056090A (zh) * 2023-03-29 2023-05-02 塔盾信息技术(上海)有限公司 一种基于人工智能的认知自组网通信方法
CN116056090B (zh) * 2023-03-29 2023-06-02 塔盾信息技术(上海)有限公司 一种基于人工智能的认知自组网通信方法

Similar Documents

Publication Publication Date Title
Mei et al. Intelligent radio access network slicing for service provisioning in 6G: A hierarchical deep reinforcement learning approach
Fadlullah et al. HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks
Wei et al. Deep Q-Learning Based Computation Offloading Strategy for Mobile Edge Computing.
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
Luo et al. Dynamic resource allocations based on Q-learning for D2D communication in cellular networks
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
CN109982434B (zh) 无线资源调度一体智能化控制系统及方法、无线通信系统
WO2023179010A1 (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
Chen et al. Deep Q-network based resource allocation for UAV-assisted ultra-dense networks
CN114885426B (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
Zhang et al. Joint resource allocation and multi-part collaborative task offloading in MEC systems
Xu et al. Resource allocation algorithm based on hybrid particle swarm optimization for multiuser cognitive OFDM network
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
Bi et al. Deep reinforcement learning based power allocation for D2D network
CN115278708B (zh) 一种面向联邦学习的移动边缘计算资源管理方法
Ren et al. Vehicular network edge intelligent management: A deep deterministic policy gradient approach for service offloading decision
Wang et al. Task allocation mechanism of power internet of things based on cooperative edge computing
Gao et al. Multi-armed bandits scheme for tasks offloading in MEC-enabled maritime communication networks
CN114615744A (zh) 一种知识迁移强化学习网络切片通感算资源协同优化方法
CN115250156A (zh) 一种基于联邦学习的无线网络多信道频谱接入方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN116567667A (zh) 一种基于深度强化学习的异构网络资源能效优化方法
CN116542319A (zh) 边缘计算环境中基于数字孪生的自适应联邦学习方法及系统
CN110392377A (zh) 一种5g超密集组网资源分配方法及装置
Sun et al. Energy-efficient resource allocation in c-ran with fronthaul rate constraints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination