CN113038616A - 一种基于联邦学习的频谱资源管理分配方法 - Google Patents

一种基于联邦学习的频谱资源管理分配方法 Download PDF

Info

Publication number
CN113038616A
CN113038616A CN202110279397.2A CN202110279397A CN113038616A CN 113038616 A CN113038616 A CN 113038616A CN 202110279397 A CN202110279397 A CN 202110279397A CN 113038616 A CN113038616 A CN 113038616A
Authority
CN
China
Prior art keywords
network
parameters
information
terminal device
terminal equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110279397.2A
Other languages
English (en)
Other versions
CN113038616B (zh
Inventor
张科
袁鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110279397.2A priority Critical patent/CN113038616B/zh
Publication of CN113038616A publication Critical patent/CN113038616A/zh
Application granted granted Critical
Publication of CN113038616B publication Critical patent/CN113038616B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于联邦学习的频谱资源管理分配方法。该方法包括终端设备从环境中收集状态信息;若信息变化超过门限值,则做出信道传输的频谱、子信道和传输功率决策;终端设备收集决策后下一时刻的状态信息和奖励信息,并采用梯度下降法训练主网络中的行动者网络和评论家网络;当终端设备累计梯度达到预设梯度门限值后将其主网络参数上传至基站;基站收集的主网络参数量达到门限值后,根据预设权重将主网络参数聚合并广播给所有终端设备;终端设备接收到聚合参数后更新其主网络和目标网络的参数。本发明为了解决现有技术中频谱利用率低,用户隐私易泄露等问题,采用了异步的联邦学习方式,在解决以上问题的同时还具有通信消耗低的优点。

Description

一种基于联邦学习的频谱资源管理分配方法
技术领域
本发明涉及一种频谱资源管理分配方法,尤其涉及一种基于联邦学习的频谱资源管理分配方法。
背景技术
在未来通信网络中,终端设备规模的日益增长和多样化服务类型不断涌现,对网络容量形成巨大压力。即便是使用全频谱,面对庞大的带宽需求,仍然存在挑战。只有充分提升全频谱的利用率,才能有效缓解网络负荷,最大程度满足用户服务质量。然而,相对于现有无线通信系统,全频谱网络频谱资源呈现出差异性和高动态性,而现有的基于数学优化理论的频谱资源管理机制缺乏对可用频谱资源的预测能力,所以难以有效应对。如何适应频谱和业务的动态性、随机性,进而实现适变、高效地使用全频谱资源成为难点。
若采用认知无线电中的单用户感知,容易受到阴影效应、多径衰落以及终端隐蔽的影响,从而导致次级用户的环境感知结果产生偏差。多个次级用户对环境感知的不充分会引起次级用户的决策发生错误,从而导致发生冲突,大大降低频谱利用率。
为此,提出多用户联合感知频谱接入方案,提高频谱利用率。由于数据在真实环境下的分布得十分广泛,使得基站收集这些分散的数据来进行集中式的学习从而完成资源调度不仅需要消耗极大的通信资源,还存在着恶意攻击者可以通过监听次级用户发送的信息推导出次级用户的位置以及通信频段等隐私信息的危险。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于联邦学习的频谱资源管理分配方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于联邦学习的频谱资源管理分配方法,包括以下步骤:
S1、终端设备从环境中收集状态信息;
S2、终端设备判断步骤S1收集的当前时刻状态信息和上一时刻状态信息变化差值是否超过预设差值门限值,若是,执行步骤S3,否则返回步骤S1;
S3、终端设备根据当前状态信息对主网络中的行动者网络信道传输的频谱、子信道和传输功率进行决策;
S4、终端设备收集决策后下一时刻的状态信息和奖励信息,并将当前时刻状态信息、当前时刻动作、下一时刻状态信息和奖励信息组成经验元组,把经验元组放入记忆池;
S5、终端设备利用步骤S4放入记忆池的经验元组采用梯度下降法训练主网络中的行动者网络和评论家网络;
S6、判断终端设备累计梯度是否达到预设梯度门限值,若是,执行步骤S7,否则返回步骤S1;
S7、终端设备将其主网络参数上传至基站;
S8、基站判断其收集的主网络参数量是否达到预设收集门限值,若是,根据设定权重将所有的主网络参数进行聚合并广播给所有终端设备并执行步骤S9,否则继续收集主网络参数;
S9、终端设备根据接收到的聚合参数更新其主网络和目标网络的参数,并返回步骤S1。
本发明具有以下有益效果:本发明采用了异步的联邦学习方式来进行频谱资源管理分配,联邦学习使得基站和用户可以联合学习一个共享参数的模型,在学习过程中保证了用户数据放在本地不被泄露,并利用深度强化学习算法来应对具有高动态性与具有较大差异性的环境。为用户提供了差异化服务质量,提升了收敛速度,异步的联邦学习方式通过降低通信的次数,即仅在对全局模型产生较大影响时才进行通信的方式,降低了联邦学习带来的通信消耗。本发明还利用了深度学习方法,可以从具有大量性、动态性、多样性特征的全频谱网络中制定出精准的频谱资源分配决策,提高了无线接入网络的频谱利用效率。
优选地,步骤S1收集的状态信息包括当前时刻信道增益信息gij k(t)、上一时刻信道增益信息gij k(t-1)、上一时刻的动作信息ak(t-1)和上一时刻的信道干扰信息Iij k(t-1),表示为:
St k={{gij k(t)}i∈N,j∈Bi,{gij k(t-1)}i∈N,j∈Bi,{Iij k(t-1)}i∈N,j∈Bi,ak(t-1)}。
该优选方案具有以下有益效果:不仅收集了当前时刻状态信息,还收集了上一时刻的环境信息和动作信息,使用户在当前时刻获取到更多信息,改善了用户学习的模型性能,使得联邦学习模型收敛的更快。
优选地,步骤S14中收集的上一时刻信道干扰信息表示为:
Figure BDA0002978069540000031
其中
Figure BDA0002978069540000032
为上一时刻终端设备m对i频段的j子信道的动作信息,pm(t-1)为上一时刻终端设备m的发射功率,
Figure BDA0002978069540000033
为上一时刻终端设备m在i频段的j子信道的信道增益。
优选地,步骤S4中的奖励信息表示为:
Figure BDA0002978069540000034
其中xij k(t)为当前时刻设备k对i频段的j子信道的选择,Wij为频段i的j子信道的带宽,γij k(t)为当前设备k在频段i的j子信道的信干躁比。
该优选方案具有以下有益效果:考虑了全频谱下的设备对于信道的选择情况;考虑了通信环境中的噪声和干扰的影响;以通信速率作为深度强化学习中的奖励函数可实现通信更为高效的系统。
优选地,步骤S4中奖励信息表达式中的约束条件为:
Figure BDA0002978069540000041
Figure BDA0002978069540000042
Figure BDA0002978069540000043
Figure BDA0002978069540000044
该优选方案具有以下有益效果:约束(1)保证了终端设备的发射功率;约束(2)保证了终端设备的通信质量;约束(3)保证了所有终端设备在当前时刻至多占用一段频谱的一条子信道;约束(4)保证了所有频段的所有子信道至多被一个终端用户占用。
优选地,步骤S5包括以下分步骤:
S51、终端设备从经验池中小批量的选取经验元组,利用行动者网络和评论家网络计算相应的损失函数值,行动者网络的损失函数表达式为:
J(θπ)=-Q(s,a;θ)
评论家网络的损失函数表达式为:
L(θ)=[r(s,a)+γQ(s',π(s';θπ T);θT)-Q(s,a;θ)]2
其中r(s,a)为当前状态下采取的动作所获得的奖励,γ为折扣因子,θ为主评论家网络的参数,θT为评论家网络的参数,s'为t+1时刻状态,θπ T为目标行动者网络参数;
S52、计算行动者网络损失函数的梯度,其表达式为:
Figure BDA0002978069540000051
计算评论家网络损失函数的梯度,其表达式为:
Figure BDA0002978069540000052
S53、更新主网络的行动者网络参数,其表达式为:
Figure BDA0002978069540000053
其中απ为行动者网络参数的学习率;
更新主网络的评论家网络参数,其表达式为:
Figure BDA0002978069540000054
其中αQ为评论家网络参数的学习率。
该优选方案具有以下有益效果:通过对两个网络参数进行调整完成了本地网络的迭代更新优化。
优选地,步骤S8中聚合所有收到的主网络参数的表达式为:
Figure BDA0002978069540000055
Figure BDA0002978069540000056
Figure BDA0002978069540000057
其中ωk为服务器聚合模型时的权重,Dk为终端设备k的本地数据集大小,
Figure BDA0002978069540000058
为终端设备k学习的主网络中的行动者网络参数,θk(t)为终端设备k学习的主网络中的评论家网络参数。
该优选方案具有以下有益效果:基站在收到一定数量的模型参数后对全局的模型参数进行了更新。
优选地,步骤S9中终端设备更新其主网络和目标网络的参数的表达式为:
θπ k=θπ
θk=θ
其中θπ k为终端设备k的本地主网络的行动者网络参数,θk为终端设备k的本地主网络的评论家网络参数,θπ为从服务器聚合后的全局模型中的行动者网络参数,θ为从服务器聚合后的全局模型中的评论家网络参数。
该优选方案具有以下有益效果:利用全局模型参数中的行动者网站参数和评论家网络参数更新到本地网络中的主网络和目标网络,终端设备利用全局模型继续训练,实现了模型收敛。
附图说明
图1是本发明实施例应用的场景示意图;
图2是本发明一种基于联邦学习的频谱资源管理分配方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明公开了一种基于联邦学习的频谱资源管理分配方法,应用于边缘智能驱动的全频谱管理。在对全频谱网络应用需求和网络环境信息进行充分认知的条件下,采用机器学习方法提取网络业务时/空规律性变化特征,并利用联邦学习方法制定全频谱共享、接入以及切换的优化决策,提高全频谱资源使用效率。
请参照图1,本发明实施例应用的场景为:在基站BS的覆盖范围内,存在着多种多样的终端设备,它们对通信的要求,设备本身的存储资源、计算资源都不尽相同。当前基站覆盖范围内的设备数量为M,设备的集合为M={1,2,...,M},第k个用户的最小通信质量要求为Rmin k,每个用户可以接入任意可用的网络。考虑当前场景下包括N个频段,记为N={1,2,...N}。对于每一个频段i,有bi个子信道。假设场景如下:终端设备处于当前网络中,其需要根据自身的通信需求以及周围通信带来的干扰等信息,选取合适的信道进行通信。
集合M中的终端设备需要先收集当前环境的状态信息,根据其学习的主要网络的行动者网络采取行动策略,然后有评论家网络提供评估结果以促进网络学习策略梯度。在学习一定的轮次后,把自己本地网络的参数上传至基站,基站收到所有本地网络参数后按一定的权重做聚合,然后下发给各个终端设备,终端设备更新本地网络参数,从而完成联邦学习过程。
请参照图2,本发明提供了一种基于联邦学习的频谱资源管理分配方法,包括以下步骤:
S1、终端设备从环境中收集状态信息;
本发明实施例中,步骤S1收集的状态信息包括当前时刻信道增益信息gij k(t)、上一时刻信道增益信息gij k(t-1)、上一时刻的动作信息ak(t-1)和上一时刻的信道干扰信息Iij k(t-1),表示为:
St k={{gij k(t)}i∈N,j∈Bi,{gij k(t-1)}i∈N,j∈Bi,{Iij k(t-1)}i∈N,j∈Bi,ak(t-1)}。
因为状态信息包括终端设备的上一时刻动作以及终端设备所观测到的环境信息,是不全面的,所有不同的终端设备的观测的状态信息是不同的,在本发明中,设备所观测到的环境信息包括当前环境内主用户的使用频谱的情况,主用户的发送功率,以及当前环境的频谱是否空闲等信息。
本发明实施例中,步骤S14中收集的上一时刻信道干扰信息表示为:
Figure BDA0002978069540000071
其中
Figure BDA0002978069540000081
为上一时刻终端设备m对i频段的j子信道的动作信息,pm(t-1)为上一时刻终端设备m的发射功率,
Figure BDA0002978069540000082
为上一时刻终端设备m在i频段的j子信道的信道增益。
S2、终端设备判断步骤S1收集的当前时刻状态信息和上一时刻状态信息变化差值是否超过预设差值门限值,若是,执行步骤S3,否则返回步骤S1;
设备所观测到的环境信息是与设备所处的地理位置紧密相关,并且因为环境的波动程度不同,若当前设备感知到的环境状态信息与前一时刻环境状态信息或者变化不大,即代表着当前的环境相对稳定,则终端设备无须进行本地模型更新,等待下一时刻的环境感知。
S3、终端设备根据当前状态信息对主网络中的行动者网络信道传输的频谱、子信道和传输功率进行决策;
终端设备在观测到当前时刻环境的状态信息与之前的环境状态信息发生较大变化时,才会根据主网络中的行动者网络采取动作,行动者网络也是一个神经网络,其主要的功能就是根据当前的状态信息选出最优的动作,因为本文场景中的动作空间比较大,所以采用神经网络的方法选择最优动作,并不断更新行动者网络参数以达到最优策略,其具体选择表达式为:
ak(t)=π(st k;θπ)+Nt
其中Nt为给动作加上的噪声,另外动作空间为:
Ak(t)={xij k(t),pk(t)}
即终端设备需要做出的决策包括两部分:第一部分是决定选取哪个频段的哪个子信道进行通信;第二部分是决定采用多大的功率进行通信。
S4、终端设备收集决策后下一时刻的状态信息和奖励信息,并将当前时刻状态信息、当前时刻动作、下一时刻状态信息和奖励信息组成经验元组,把经验元组放入记忆池;
本发明实施例中,步骤S4中的奖励信息表示为:
Figure BDA0002978069540000091
其中xij k(t)为当前时刻设备k对i频段的j子信道的选择,其取值为0或1,Wij为频段i的j子信道的带宽,γij k(t)为当前设备k在频段i的j子信道的信干躁比。
步骤S4奖励信息表达式中当前设备k在频段i的j子信道的信干躁比γij k(t)的表达式为:
Figure BDA0002978069540000092
其中gij k(t)为当前设备k在频段i的j子信道的信道增益,σ2为信道中存在的高斯白噪声带来的噪声干扰。
本发明实施例中,步骤S4中奖励信息表达式中的约束条件为:
Figure BDA0002978069540000093
Figure BDA0002978069540000094
Figure BDA0002978069540000095
Figure BDA0002978069540000096
约束(1)保证了终端设备的发射功率;约束(2)保证了终端设备的通信质量;约束(3)保证了所有终端设备在当前时刻至多占用一段频谱的一条子信道;约束(4)保证了所有频段的所有子信道至多被一个终端用户占用。
S5、终端设备利用步骤S4放入记忆池的经验元组采用梯度下降法训练主网络中的行动者网络和评论家网络;
本发明实施例中,步骤S5包括以下分步骤:
S51、终端设备从经验池中小批量的选取经验元组,利用行动者网络和评论家网络计算相应的损失函数值,行动者网络的损失函数表达式为:
J(θπ)=-Q(s,a;θ)
评论家网络的损失函数表达式为:
L(θ)=[r(s,a)+γQ(s',π(s';θπ T);θT)-Q(s,a;θ)]2
其中r(s,a)为当前状态下采取的动作所获得的奖励,γ为折扣因子,θ为主评论家网络的参数,θT为评论家网络的参数,s'为t+1时刻状态,θπ T为目标行动者网络参数;
S52、计算行动者网络损失函数的梯度,其表达式为:
Figure BDA0002978069540000101
计算评论家网络损失函数的梯度,其表达式为:
Figure BDA0002978069540000102
S53、更新主网络的行动者网络参数,其表达式为:
Figure BDA0002978069540000103
其中απ为行动者网络参数的学习率;
更新主网络的评论家网络参数,其表达式为:
Figure BDA0002978069540000104
其中αQ为评论家网络参数的学习率。
终端设备通过以上流程即可完成对本地网络的迭代更新。
S6、判断终端设备累计梯度是否达到预设梯度门限值,若是,执行步骤S7,否则返回步骤S1;
当本地更新的累计梯度超过门限值时,终端设备才会上传自己参数至基站服务器端,从而进行异步的联邦学习过程。
S7、终端设备将其主网络参数上传至基站;
对于设备k来说,其上传的参数表示为θk(t),其中包含的有主网络的行动者网络参数和评论家网络参数,即θk(t)={θπ k(t),θk(t)}。
S8、基站判断其收集的主网络参数量是否达到预设收集门限值,若是,根据设定权重将所有的主网络参数进行聚合并广播给所有终端设备并执行步骤S9,否则继续收集主网络参数;
本发明实施例中,步骤S8中聚合所有收到的主网络参数的表达式为:
Figure BDA0002978069540000111
Figure BDA0002978069540000112
Figure BDA0002978069540000113
其中ωk为服务器聚合模型时的权重,Dk为终端设备k的本地数据集大小,
Figure BDA0002978069540000114
为终端设备k学习的主网络中的行动者网络参数,θk(t)为终端设备k学习的主网络中的评论家网络参数。
S9、终端设备根据接收到的聚合参数更新其主网络和目标网络的参数,并返回步骤S1。
本发明实施例中,步骤S9中终端设备更新其主网络和目标网络的参数的表达式为:
θπ k=θπ
θk=θ
其中θπ k为终端设备k的本地主网络的行动者网络参数,θk为终端设备k的本地主网络的评论家网络参数,θπ为从服务器聚合后的全局模型中的行动者网络参数,θ为从服务器聚合后的全局模型中的评论家网络参数。
本发明首次将异步联邦学习与全频谱管理相结合,其中的异步体现在:终端设备只有观测到环境信息发生较大变化时才会进行模型的学习,并且设备在更新梯度在累积到一定程度时才上传更新的梯度,相应的服务器在收到一定数量的终端设备的模型参数时,才会进行全局参数的聚合。
本发明的异步与一般的根据设备的计算或通信资源不同而设置不同设备的上传频谱不同的异步联邦学习不同,本发明的异步指终端设备与动态的环境变化紧密相关,当环境变化幅度大时,设备则进行模型更新,反之模型等待下一时刻的环境观测信息,本发明的异步与所观测到的频谱信息息息相关。
本发明中的终端设备所学习的模型为深度强化学习中的深度确定性策略梯度算法,本发明将其中的状态空间包括四部分,其中包括了上一时刻的环境信息以及动作信息,状态空间中包含上一时刻信息可以使用户在当前时刻获取到更多信息,从而改善用户学习的模型性能,使得联邦学习模型收敛得更快。
通过上述实施例可以看出,本发明采用异步联邦学习和深度强化学习实现对全频谱资源管理。通过设备对当前环境的部分观测以及自己的过去行为信息,使得设备对环境状态有尽可能高的估计。本发明设计的深度确定性策略梯度学习方法可以实现在大动作空间条件下的智能频谱选择最优策略。本发明还引入联邦学习,不仅加快了信道的决策过程,同时还保护了用户数据的隐私,达到了同集中式学习类似的效果且没有带来太大的通信消耗。
本领域的普通技术人员将会意识到,这里所描述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种基于联邦学习的频谱资源管理分配方法,其特征在于,包括以下步骤:
S1、终端设备从环境中收集状态信息;
S2、终端设备判断步骤S1收集的当前时刻状态信息和上一时刻状态信息变化差值是否超过预设差值门限值,若是,执行步骤S3,否则返回步骤S1;
S3、终端设备根据当前状态信息对主网络中的行动者网络信道传输的频谱、子信道和传输功率进行决策;
S4、终端设备收集决策后下一时刻的状态信息和奖励信息,并将当前时刻状态信息、当前时刻动作、下一时刻状态信息和奖励信息组成经验元组,把经验元组放入记忆池;
S5、终端设备利用所述步骤S4放入记忆池的经验元组采用梯度下降法训练主网络中的行动者网络和评论家网络;
S6、判断终端设备累计梯度是否达到预设梯度门限值,若是,执行步骤S7,否则返回所述步骤S1;
S7、终端设备将其主网络参数上传至基站;
S8、基站判断其收集的主网络参数量是否达到预设收集门限值,若是,根据设定权重将所有的主网络参数进行聚合并广播给所有终端设备并执行步骤S9,否则继续收集主网络参数;
S9、终端设备根据接收到的聚合参数更新其主网络和目标网络的参数,并返回所述步骤S1。
2.如权利要求1所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于:所述步骤S1收集的状态信息包括当前时刻信道增益信息gij k(t)、上一时刻信道增益信息gij k(t-1)、上一时刻的动作信息ak(t-1)和上一时刻的信道干扰信息Iij k(t-1),表示为:
St k={{gij k(t)}i∈N,j∈Bi,{gij k(t-1)}i∈N,j∈Bi,{Iij k(t-1)}i∈N,j∈Bi,ak(t-1)}。
3.如权利要求2所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于,所述步骤S1中收集的上一时刻信道干扰信息表示为:
Figure FDA0002978069530000021
其中
Figure FDA0002978069530000022
为上一时刻终端设备m对i频段的j子信道的动作信息,pm(t-1)为上一时刻终端设备m的发射功率,
Figure FDA0002978069530000023
为上一时刻终端设备m在i频段的j子信道的信道增益。
4.如权利要求3所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于,所述步骤S4中的奖励信息表示为:
Figure FDA0002978069530000024
其中xij k(t)为当前时刻设备k对i频段的j子信道的选择,Wij为频段i的j子信道的带宽,γij k(t)为当前设备k在频段i的j子信道的信干躁比。
5.如权利要求4所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于,所述步骤S4中奖励信息表达式中的约束条件为:
Figure FDA0002978069530000025
Figure FDA0002978069530000026
Figure FDA0002978069530000027
Figure FDA0002978069530000028
6.如权利要求5所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于,所述步骤S5包括以下分步骤:
S51、终端设备从经验池中小批量的选取经验元组,利用行动者网络和评论家网络计算相应的损失函数值,行动者网络的损失函数表达式为:
J(θπ)=-Q(s,a;θ)
评论家网络的损失函数表达式为:
L(θ)=[r(s,a)+γQ(s',π(s';θπ T);θT)-Q(s,a;θ)]2
其中r(s,a)为当前状态下采取的动作所获得的奖励,γ为折扣因子,θ为主评论家网络的参数,θT为评论家网络的参数,s'为t+1时刻状态,θπ T为目标行动者网络参数;
S52、计算行动者网络损失函数的梯度,其表达式为:
Figure FDA0002978069530000031
计算评论家网络损失函数的梯度,其表达式为:
Figure FDA0002978069530000032
S53、更新主网络的行动者网络参数,其表达式为:
Figure FDA0002978069530000033
其中απ为行动者网络参数的学习率;
更新主网络的评论家网络参数,其表达式为:
Figure FDA0002978069530000034
其中αQ为评论家网络参数的学习率。
7.如权利要求6所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于,所述步骤S8中聚合所有收到的主网络参数的表达式为:
Figure FDA0002978069530000041
Figure FDA0002978069530000042
Figure FDA0002978069530000043
其中ωk为服务器聚合模型时的权重,Dk为终端设备k的本地数据集大小,
Figure FDA0002978069530000044
为终端设备k学习的主网络中的行动者网络参数,θk(t)为终端设备k学习的主网络中的评论家网络参数。
8.如权利要求7所述的一种基于联邦学习的频谱资源管理分配方法,其特征在于,所述步骤S9中终端设备更新其主网络和目标网络的参数的表达式为:
θπ k=θπ
θk=θ
其中θπ k为终端设备k的本地主网络的行动者网络参数,θk为终端设备k的本地主网络的评论家网络参数,θπ为从服务器聚合后的全局模型中的行动者网络参数,θ为从服务器聚合后的全局模型中的评论家网络参数。
CN202110279397.2A 2021-03-16 2021-03-16 一种基于联邦学习的频谱资源管理分配方法 Expired - Fee Related CN113038616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279397.2A CN113038616B (zh) 2021-03-16 2021-03-16 一种基于联邦学习的频谱资源管理分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279397.2A CN113038616B (zh) 2021-03-16 2021-03-16 一种基于联邦学习的频谱资源管理分配方法

Publications (2)

Publication Number Publication Date
CN113038616A true CN113038616A (zh) 2021-06-25
CN113038616B CN113038616B (zh) 2022-06-03

Family

ID=76470772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279397.2A Expired - Fee Related CN113038616B (zh) 2021-03-16 2021-03-16 一种基于联邦学习的频谱资源管理分配方法

Country Status (1)

Country Link
CN (1) CN113038616B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114513270A (zh) * 2022-03-07 2022-05-17 苏州大学 基于联邦学习的异构无线网络频谱资源感知方法及系统
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法
CN115037669A (zh) * 2022-04-27 2022-09-09 东北大学 一种基于联邦学习的跨域数据传输方法
WO2023082207A1 (en) * 2021-11-12 2023-05-19 Lenovo (Beijing) Limited Methods and apparatuses for user equipment selecting and scheduling in intelligent wireless system
WO2024032453A1 (zh) * 2022-08-10 2024-02-15 索尼集团公司 用于频谱管理装置的电子设备和方法、存储介质
WO2024066345A1 (zh) * 2022-09-26 2024-04-04 中兴通讯股份有限公司 一种ccfd系统中频谱资源的分配方法及网络设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089307A (zh) * 2018-07-19 2018-12-25 浙江工业大学 一种基于异步优势行动者评论家算法的集能型无线中继网络吞吐量最大化方法
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN111339554A (zh) * 2020-02-17 2020-06-26 电子科技大学 基于移动边缘计算的用户数据隐私保护方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
WO2020174262A1 (en) * 2019-02-27 2020-09-03 Telefonaktiebolaget Lm Ericsson (Publ) Transfer learning for radio resource management
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089307A (zh) * 2018-07-19 2018-12-25 浙江工业大学 一种基于异步优势行动者评论家算法的集能型无线中继网络吞吐量最大化方法
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
WO2020174262A1 (en) * 2019-02-27 2020-09-03 Telefonaktiebolaget Lm Ericsson (Publ) Transfer learning for radio resource management
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN111339554A (zh) * 2020-02-17 2020-06-26 电子科技大学 基于移动边缘计算的用户数据隐私保护方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘春玲: "基于多域联合的无人机集群认知抗干扰算法", 《计算机工程》 *
刘春玲: "基于多域联合的无人机集群认知抗干扰算法", 《计算机工程》, 19 January 2020 (2020-01-19) *
张科 等: "Analysis of cognitive radio spectrum access with constraining interference", 《2011 INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROBLEM-SOLVING (ICCP)》 *
张科 等: "Analysis of cognitive radio spectrum access with constraining interference", 《2011 INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROBLEM-SOLVING (ICCP)》, 23 October 2011 (2011-10-23) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082207A1 (en) * 2021-11-12 2023-05-19 Lenovo (Beijing) Limited Methods and apparatuses for user equipment selecting and scheduling in intelligent wireless system
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法
CN114513270A (zh) * 2022-03-07 2022-05-17 苏州大学 基于联邦学习的异构无线网络频谱资源感知方法及系统
CN114513270B (zh) * 2022-03-07 2022-12-02 苏州大学 基于联邦学习的异构无线网络频谱资源感知方法及系统
CN115037669A (zh) * 2022-04-27 2022-09-09 东北大学 一种基于联邦学习的跨域数据传输方法
WO2024032453A1 (zh) * 2022-08-10 2024-02-15 索尼集团公司 用于频谱管理装置的电子设备和方法、存储介质
WO2024066345A1 (zh) * 2022-09-26 2024-04-04 中兴通讯股份有限公司 一种ccfd系统中频谱资源的分配方法及网络设备

Also Published As

Publication number Publication date
CN113038616B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN113038616B (zh) 一种基于联邦学习的频谱资源管理分配方法
Zhou et al. A deep-learning-based radio resource assignment technique for 5G ultra dense networks
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Tan et al. Deep reinforcement learning for joint channel selection and power control in D2D networks
JP5216023B2 (ja) ワイヤレス通信システムにおける同一チャネル干渉の特徴付け
CN111666149A (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
Zhang et al. Team learning-based resource allocation for open radio access network (O-RAN)
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
Lu et al. A cross-layer resource allocation scheme for ICIC in LTE-Advanced
Mehbodniya et al. A fuzzy extension of VIKOR for target network selection in heterogeneous wireless environments
CN112601284A (zh) 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
CN106454920A (zh) 一种lte与d2d混合网络中基于时延保证的资源分配优化算法
Yang et al. Two-tier resource allocation in dynamic network slicing paradigm with deep reinforcement learning
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
Yin et al. Decentralized federated reinforcement learning for user-centric dynamic TFDD control
Shi et al. Deep reinforcement learning for 5G radio access network slicing with spectrum coexistence
Guruacharya et al. Access control via coalitional power game
Khuntia et al. An actor-critic reinforcement learning for device-to-device communication underlaying cellular network
Kumar et al. Harmonized Q-learning for radio resource management in LTE based networks
Eskandari et al. Smart interference management xApp using deep reinforcement learning
Kim Femtocell network power control scheme based on the weighted voting game
Tsai et al. QoE-aware Q-learning based approach to dynamic TDD uplink-downlink reconfiguration in indoor small cell networks
Tong et al. Qoe-fairness tradeoff scheme for dynamic spectrum allocation based on deep reinforcement learning
Pesavento et al. Machine learning for optimal resource allocation
Nanivadekar et al. A hybrid optimization model for resource allocation in OFDM-based cognitive radio system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220603