CN113038616A

CN113038616A - 一种基于联邦学习的频谱资源管理分配方法

Info

Publication number: CN113038616A
Application number: CN202110279397.2A
Authority: CN
Inventors: 张科; 袁鑫
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-25
Anticipated expiration: 2041-03-16
Also published as: CN113038616B

Abstract

本发明公开了一种基于联邦学习的频谱资源管理分配方法。该方法包括终端设备从环境中收集状态信息；若信息变化超过门限值，则做出信道传输的频谱、子信道和传输功率决策；终端设备收集决策后下一时刻的状态信息和奖励信息，并采用梯度下降法训练主网络中的行动者网络和评论家网络；当终端设备累计梯度达到预设梯度门限值后将其主网络参数上传至基站；基站收集的主网络参数量达到门限值后，根据预设权重将主网络参数聚合并广播给所有终端设备；终端设备接收到聚合参数后更新其主网络和目标网络的参数。本发明为了解决现有技术中频谱利用率低，用户隐私易泄露等问题，采用了异步的联邦学习方式，在解决以上问题的同时还具有通信消耗低的优点。

Description

一种基于联邦学习的频谱资源管理分配方法

技术领域

本发明涉及一种频谱资源管理分配方法，尤其涉及一种基于联邦学习的频谱资源管理分配方法。

背景技术

在未来通信网络中，终端设备规模的日益增长和多样化服务类型不断涌现，对网络容量形成巨大压力。即便是使用全频谱，面对庞大的带宽需求，仍然存在挑战。只有充分提升全频谱的利用率，才能有效缓解网络负荷，最大程度满足用户服务质量。然而，相对于现有无线通信系统，全频谱网络频谱资源呈现出差异性和高动态性，而现有的基于数学优化理论的频谱资源管理机制缺乏对可用频谱资源的预测能力，所以难以有效应对。如何适应频谱和业务的动态性、随机性，进而实现适变、高效地使用全频谱资源成为难点。

若采用认知无线电中的单用户感知，容易受到阴影效应、多径衰落以及终端隐蔽的影响，从而导致次级用户的环境感知结果产生偏差。多个次级用户对环境感知的不充分会引起次级用户的决策发生错误，从而导致发生冲突，大大降低频谱利用率。

为此，提出多用户联合感知频谱接入方案，提高频谱利用率。由于数据在真实环境下的分布得十分广泛，使得基站收集这些分散的数据来进行集中式的学习从而完成资源调度不仅需要消耗极大的通信资源，还存在着恶意攻击者可以通过监听次级用户发送的信息推导出次级用户的位置以及通信频段等隐私信息的危险。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于联邦学习的频谱资源管理分配方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于联邦学习的频谱资源管理分配方法，包括以下步骤：

S1、终端设备从环境中收集状态信息；

S2、终端设备判断步骤S1收集的当前时刻状态信息和上一时刻状态信息变化差值是否超过预设差值门限值，若是，执行步骤S3，否则返回步骤S1；

S3、终端设备根据当前状态信息对主网络中的行动者网络信道传输的频谱、子信道和传输功率进行决策；

S4、终端设备收集决策后下一时刻的状态信息和奖励信息，并将当前时刻状态信息、当前时刻动作、下一时刻状态信息和奖励信息组成经验元组，把经验元组放入记忆池；

S5、终端设备利用步骤S4放入记忆池的经验元组采用梯度下降法训练主网络中的行动者网络和评论家网络；

S6、判断终端设备累计梯度是否达到预设梯度门限值，若是，执行步骤S7，否则返回步骤S1；

S7、终端设备将其主网络参数上传至基站；

S8、基站判断其收集的主网络参数量是否达到预设收集门限值，若是，根据设定权重将所有的主网络参数进行聚合并广播给所有终端设备并执行步骤S9，否则继续收集主网络参数；

S9、终端设备根据接收到的聚合参数更新其主网络和目标网络的参数，并返回步骤S1。

本发明具有以下有益效果：本发明采用了异步的联邦学习方式来进行频谱资源管理分配，联邦学习使得基站和用户可以联合学习一个共享参数的模型，在学习过程中保证了用户数据放在本地不被泄露，并利用深度强化学习算法来应对具有高动态性与具有较大差异性的环境。为用户提供了差异化服务质量，提升了收敛速度，异步的联邦学习方式通过降低通信的次数，即仅在对全局模型产生较大影响时才进行通信的方式，降低了联邦学习带来的通信消耗。本发明还利用了深度学习方法，可以从具有大量性、动态性、多样性特征的全频谱网络中制定出精准的频谱资源分配决策，提高了无线接入网络的频谱利用效率。

优选地，步骤S1收集的状态信息包括当前时刻信道增益信息g_ij ^k(t)、上一时刻信道增益信息g_ij ^k(t-1)、上一时刻的动作信息a^k(t-1)和上一时刻的信道干扰信息I_ij ^k(t-1)，表示为：

S_t ^k＝{{g_ij ^k(t)}_i∈N,j∈Bi,{g_ij ^k(t-1)}_i∈N,j∈Bi,{I_ij ^k(t-1)}_i∈N,j∈Bi,a^k(t-1)}。

该优选方案具有以下有益效果：不仅收集了当前时刻状态信息，还收集了上一时刻的环境信息和动作信息，使用户在当前时刻获取到更多信息，改善了用户学习的模型性能，使得联邦学习模型收敛的更快。

优选地，步骤S14中收集的上一时刻信道干扰信息表示为：

其中

为上一时刻终端设备m对i频段的j子信道的动作信息，p^m(t-1)为上一时刻终端设备m的发射功率，

为上一时刻终端设备m在i频段的j子信道的信道增益。

优选地，步骤S4中的奖励信息表示为：

其中x_ij ^k(t)为当前时刻设备k对i频段的j子信道的选择，W_ij为频段i的j子信道的带宽，γ_ij ^k(t)为当前设备k在频段i的j子信道的信干躁比。

该优选方案具有以下有益效果：考虑了全频谱下的设备对于信道的选择情况；考虑了通信环境中的噪声和干扰的影响；以通信速率作为深度强化学习中的奖励函数可实现通信更为高效的系统。

优选地，步骤S4中奖励信息表达式中的约束条件为：

该优选方案具有以下有益效果：约束(1)保证了终端设备的发射功率；约束(2)保证了终端设备的通信质量；约束(3)保证了所有终端设备在当前时刻至多占用一段频谱的一条子信道；约束(4)保证了所有频段的所有子信道至多被一个终端用户占用。

优选地，步骤S5包括以下分步骤：

S51、终端设备从经验池中小批量的选取经验元组，利用行动者网络和评论家网络计算相应的损失函数值，行动者网络的损失函数表达式为：

J(θ_π)＝-Q(s,a；θ)

评论家网络的损失函数表达式为：

L(θ)＝[r(s,a)+γQ(s',π(s'；θ_π ^T)；θ^T)-Q(s,a；θ)]²

其中r(s,a)为当前状态下采取的动作所获得的奖励，γ为折扣因子，θ为主评论家网络的参数，θ^T为评论家网络的参数，s'为t+1时刻状态，θ_π ^T为目标行动者网络参数；

S52、计算行动者网络损失函数的梯度，其表达式为：

计算评论家网络损失函数的梯度，其表达式为：

S53、更新主网络的行动者网络参数，其表达式为：

其中α_π为行动者网络参数的学习率；

更新主网络的评论家网络参数，其表达式为：

其中α_Q为评论家网络参数的学习率。

该优选方案具有以下有益效果：通过对两个网络参数进行调整完成了本地网络的迭代更新优化。

优选地，步骤S8中聚合所有收到的主网络参数的表达式为：

其中ω^k为服务器聚合模型时的权重，D_k为终端设备k的本地数据集大小，

为终端设备k学习的主网络中的行动者网络参数，θ^k(t)为终端设备k学习的主网络中的评论家网络参数。

该优选方案具有以下有益效果：基站在收到一定数量的模型参数后对全局的模型参数进行了更新。

优选地，步骤S9中终端设备更新其主网络和目标网络的参数的表达式为：

θ_π ^k＝θ_π

θ^k＝θ

其中θ_π ^k为终端设备k的本地主网络的行动者网络参数，θ^k为终端设备k的本地主网络的评论家网络参数，θ_π为从服务器聚合后的全局模型中的行动者网络参数，θ为从服务器聚合后的全局模型中的评论家网络参数。

该优选方案具有以下有益效果：利用全局模型参数中的行动者网站参数和评论家网络参数更新到本地网络中的主网络和目标网络，终端设备利用全局模型继续训练，实现了模型收敛。

附图说明

图1是本发明实施例应用的场景示意图；

图2是本发明一种基于联邦学习的频谱资源管理分配方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明公开了一种基于联邦学习的频谱资源管理分配方法，应用于边缘智能驱动的全频谱管理。在对全频谱网络应用需求和网络环境信息进行充分认知的条件下，采用机器学习方法提取网络业务时/空规律性变化特征，并利用联邦学习方法制定全频谱共享、接入以及切换的优化决策，提高全频谱资源使用效率。

请参照图1，本发明实施例应用的场景为：在基站BS的覆盖范围内，存在着多种多样的终端设备，它们对通信的要求，设备本身的存储资源、计算资源都不尽相同。当前基站覆盖范围内的设备数量为M，设备的集合为M＝{1,2,...,M}，第k个用户的最小通信质量要求为R_min ^k，每个用户可以接入任意可用的网络。考虑当前场景下包括N个频段，记为N＝{1,2,...N}。对于每一个频段i，有bi个子信道。假设场景如下：终端设备处于当前网络中，其需要根据自身的通信需求以及周围通信带来的干扰等信息，选取合适的信道进行通信。

集合M中的终端设备需要先收集当前环境的状态信息，根据其学习的主要网络的行动者网络采取行动策略，然后有评论家网络提供评估结果以促进网络学习策略梯度。在学习一定的轮次后，把自己本地网络的参数上传至基站，基站收到所有本地网络参数后按一定的权重做聚合，然后下发给各个终端设备，终端设备更新本地网络参数，从而完成联邦学习过程。

请参照图2，本发明提供了一种基于联邦学习的频谱资源管理分配方法，包括以下步骤：

S1、终端设备从环境中收集状态信息；

本发明实施例中，步骤S1收集的状态信息包括当前时刻信道增益信息g_ij ^k(t)、上一时刻信道增益信息g_ij ^k(t-1)、上一时刻的动作信息a^k(t-1)和上一时刻的信道干扰信息I_ij ^k(t-1)，表示为：

因为状态信息包括终端设备的上一时刻动作以及终端设备所观测到的环境信息，是不全面的，所有不同的终端设备的观测的状态信息是不同的，在本发明中，设备所观测到的环境信息包括当前环境内主用户的使用频谱的情况，主用户的发送功率，以及当前环境的频谱是否空闲等信息。

本发明实施例中，步骤S14中收集的上一时刻信道干扰信息表示为：

其中

为上一时刻终端设备m在i频段的j子信道的信道增益。

设备所观测到的环境信息是与设备所处的地理位置紧密相关，并且因为环境的波动程度不同，若当前设备感知到的环境状态信息与前一时刻环境状态信息或者变化不大，即代表着当前的环境相对稳定，则终端设备无须进行本地模型更新，等待下一时刻的环境感知。

终端设备在观测到当前时刻环境的状态信息与之前的环境状态信息发生较大变化时，才会根据主网络中的行动者网络采取动作，行动者网络也是一个神经网络，其主要的功能就是根据当前的状态信息选出最优的动作，因为本文场景中的动作空间比较大，所以采用神经网络的方法选择最优动作，并不断更新行动者网络参数以达到最优策略，其具体选择表达式为：

a^k(t)＝π(s_t ^k；θ_π)+N_t

其中N_t为给动作加上的噪声，另外动作空间为：

A^k(t)＝{x_ij ^k(t),p^k(t)}

即终端设备需要做出的决策包括两部分：第一部分是决定选取哪个频段的哪个子信道进行通信；第二部分是决定采用多大的功率进行通信。

本发明实施例中，步骤S4中的奖励信息表示为：

其中x_ij ^k(t)为当前时刻设备k对i频段的j子信道的选择，其取值为0或1，W_ij为频段i的j子信道的带宽，γ_ij ^k(t)为当前设备k在频段i的j子信道的信干躁比。

步骤S4奖励信息表达式中当前设备k在频段i的j子信道的信干躁比γ_ij ^k(t)的表达式为：

其中g_ij ^k(t)为当前设备k在频段i的j子信道的信道增益，σ²为信道中存在的高斯白噪声带来的噪声干扰。

本发明实施例中，步骤S4中奖励信息表达式中的约束条件为：

约束(1)保证了终端设备的发射功率；约束(2)保证了终端设备的通信质量；约束(3)保证了所有终端设备在当前时刻至多占用一段频谱的一条子信道；约束(4)保证了所有频段的所有子信道至多被一个终端用户占用。

本发明实施例中，步骤S5包括以下分步骤：

J(θ_π)＝-Q(s,a；θ)

评论家网络的损失函数表达式为：

L(θ)＝[r(s,a)+γQ(s',π(s'；θ_π ^T)；θ^T)-Q(s,a；θ)]²

S52、计算行动者网络损失函数的梯度，其表达式为：

计算评论家网络损失函数的梯度，其表达式为：

S53、更新主网络的行动者网络参数，其表达式为：

其中α_π为行动者网络参数的学习率；

更新主网络的评论家网络参数，其表达式为：

其中α_Q为评论家网络参数的学习率。

终端设备通过以上流程即可完成对本地网络的迭代更新。

当本地更新的累计梯度超过门限值时，终端设备才会上传自己参数至基站服务器端，从而进行异步的联邦学习过程。

S7、终端设备将其主网络参数上传至基站；

对于设备k来说，其上传的参数表示为θ_k(t)，其中包含的有主网络的行动者网络参数和评论家网络参数，即θ_k(t)＝{θ_π ^k(t),θ^k(t)}。

本发明实施例中，步骤S8中聚合所有收到的主网络参数的表达式为：

本发明实施例中，步骤S9中终端设备更新其主网络和目标网络的参数的表达式为：

θ_π ^k＝θ_π

θ^k＝θ

本发明首次将异步联邦学习与全频谱管理相结合，其中的异步体现在：终端设备只有观测到环境信息发生较大变化时才会进行模型的学习，并且设备在更新梯度在累积到一定程度时才上传更新的梯度，相应的服务器在收到一定数量的终端设备的模型参数时，才会进行全局参数的聚合。

本发明的异步与一般的根据设备的计算或通信资源不同而设置不同设备的上传频谱不同的异步联邦学习不同，本发明的异步指终端设备与动态的环境变化紧密相关，当环境变化幅度大时，设备则进行模型更新，反之模型等待下一时刻的环境观测信息，本发明的异步与所观测到的频谱信息息息相关。

本发明中的终端设备所学习的模型为深度强化学习中的深度确定性策略梯度算法，本发明将其中的状态空间包括四部分，其中包括了上一时刻的环境信息以及动作信息，状态空间中包含上一时刻信息可以使用户在当前时刻获取到更多信息，从而改善用户学习的模型性能，使得联邦学习模型收敛得更快。

通过上述实施例可以看出，本发明采用异步联邦学习和深度强化学习实现对全频谱资源管理。通过设备对当前环境的部分观测以及自己的过去行为信息，使得设备对环境状态有尽可能高的估计。本发明设计的深度确定性策略梯度学习方法可以实现在大动作空间条件下的智能频谱选择最优策略。本发明还引入联邦学习，不仅加快了信道的决策过程，同时还保护了用户数据的隐私，达到了同集中式学习类似的效果且没有带来太大的通信消耗。

本领域的普通技术人员将会意识到，这里所描述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。