CN113613332B

CN113613332B - 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统

Info

Publication number: CN113613332B
Application number: CN202110845613.5A
Authority: CN
Inventors: 刘德荣; 林得有; 王永华; 刘骏; 王宇慧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-07-14
Filing date: 2021-07-26
Publication date: 2023-06-09
Anticipated expiration: 2041-07-26
Also published as: CN113613332A

Abstract

本发明提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法和系统，方法是一种多智能体联合学习方法，各个智能体共享同一个DQN网络模型，相同的奖励函数，鼓励智能体之间的合作行为。利用所有的智能体先前所收集到的经验来训练同一个DQN，这样能大大减少训练所需的内存和计算资源。这相当于让用户增加了先验知识，从而能加快学习速度，提高学习效率。与独立式多智能体不同的是，本方法采用集中训练，但是在接入点上DQN是分布式执行，这有助于算法实施和和改进算法稳定性。在此方法中，还结合了一种经典优化算法——模拟退火算法，进而避免了神经网络一个常见问题，局部最优的问题，使系统最终往全局最优的方向收敛。

Description

基于协作分布式DQN联合模拟退火算法的频谱资源分配方法和系统

技术领域

本发明涉及认知无线电信道分配领域，更具体地，涉及一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法和系统。

背景技术

随着无线通信技术在各个行业和领域的广泛运用，并且伴随着飞速演进的无线技术不断朝着宽带化、无缝化、智能化等趋势发展，尤其是无线局域网(WLAN,Wireless LocalAccess Network)、物联网、4G/5G移动通信技术的发展，越来越多的设备通过无线技术接入互联网，这就导致了在无线通信的技术发展上我们不得不面对的瓶颈之一与挑战之一就是频谱资源的不足，频谱资源变得越来越稀缺。

认知无线电(Cognitive Radio,CR)的概念首次提起于1999年Joseph Mitola博士的博士论文中。自认知无线电的概念提出，受到了各国通信专家的广泛关注，并且不断地开展相关研究。在认知无线电网络中，信道资源是非常宝贵，一般情况下，在信道分配问题中，信道和接入点在很多情况下并不是一一对应的。信道分配是频谱分配中非常重要的一环，每次接入点需要接入信道时，在不违反频率重用的条件下，为其分配一个任意信道。目前信道分配主要面临两个棘手的问题，一个是信道分配的算法复杂度较高，需要大量的计算资源才可实现实时的动态信道分配，避免造成大幅度的冲突，一个是信道分配具有动态随机性，导致信道难以最大化重复利用。

频谱分配中的信道分配问题可以建模为一个马尔可夫决策过程(MarkovDecision Process,MDP),因此可以用强化学习的来求解最优解，因为强化学习的环境是用MDP来描述的。目前Q-learning是最流行的强化学习算法之一，经过多年研究，研究员发现Q-learning的一些缺点，首先Q-learning是一种渐进式的寻找最优解的过程，其缺点是在寻找问题解决行动选择时收敛速度较慢；第二，Q-learning需要一个Q table，在状态很多的情况下，容易产生巨大的Q值，所以Q table会很大，查找和存储都会耗费巨量的空间和时间；第三，Q-learning存在过高估计的问题。因为Q-learning在更新Q函数时使用的是下一时刻最优值对应的action，这样就会导致过高的估计采样过的action，而对于没有采样到的action，便不会被选择为最优的action。在近几年，有研究员依托Q-learning，提出深度Q网络(Deep Q-Network,DQN)。深度强化学习自从提出，就备受关注，因为它可以在处理非常大的操作状态和空间时，提供目标值(称为q值)的良好近似估计。与在小规模模型中行之有效但在大规模模型中行之无效的Q学习方法相反，深度强化学习将深层神经网络与称为深层Q(DQN)网络的Q学习结合起来，以克服这个问题。

公开日为2018年11月13日，公开号为CN108809456A的中国专利公开了一种基于改进强化学习的集中式认知无线电频谱分配方法，包括：收集不同的认知用户感知数据，得到认知环境的状态信息；分析信道状态模型和调制方式对传输功率和误码率的影响；设定误码率门限标准约束为强化学习算法的奖励函数，当选择的动作适应于当前状态时给予激励正值，否则给予惩罚负值，构建强化学习算法模型；利用改进强化学习算法动态地分配频谱资源，即在执行算法时需要结合案例历史信息和自适应的贪心算子。该专利同样存在收敛速度较慢的问题。

发明内容

本发明的首要目的是提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法，加快算法的收敛速度。

本发明的进一步目的是提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法，包括以下步骤：

S1：构建DQN网络，将每个接入点作为一个智能体，接入点选择接入哪个信道作为智能体的动作，接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态；

S2：每个智能体随机选择动作，根据每个智能体的动作，获取每个智能体的初始观察值、状态以及奖励；

S3：利用模拟退火算法计算每一个动作的概率，按最大概率选择动作；

S4：计算得到每个智能体的下一步观察值，根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励；

S5：重复步骤S3至S4若干次后，计算累积奖励和累极冲突次数，所述冲突指不同接入点接入到相同信道中，将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中；

S6：从记忆体抽取样本，对DQN网络进行训练；

S7：利用训练好的DQN网络进行频谱资源分配。

优选地，所述接入点个数hum_users与信道个数num_channels满足下式：

num_channels≤num_users。

优选地，步骤S1中智能体的动作空间表示为：

a_i＝[0，1，2，...，num_channels]

其中的数值表示选择哪一个信道，且所有的智能体都有相同的动作空间，

优选地，步骤S1中，状态空间表示为t时刻，i个智能体的状态集合：

S_t＝[S₁，S₂，...，S_i]

第i个智能体的状态：

C_{num_users}的值为第num_users用户的所选的信道，A_numchannels为剩余可接入信道，R为奖励，具体为：

/>

I为约束条件，I₀为接入点接入信道成功，I₁为接入点接入信道失败，定义接入点接入非空信道并且不发生信道冲突为接入信道成功，接入点接入到空信道或者发生信道冲突为接入信道失败，定义两个或两个以上的接入点选到同一信道为信道冲突，当接入成功，给1奖励，否则为0；

R_i＝[R₁，R₂，...，R_i]

R_i为i个智能体的奖励集合。

优选地，所述智能体利用观察函数对环境进行观察，所述观察函数为：

observation＝[O₁，O₂，...，O_{num_users}，A₁，A₂，...，A_{num_channels}]

O_{num_users}为智能体接入信道状态：

O_num-users＝(C_{num_users}，R(t))。

优选地，所述每个智能体共享相同的奖励函数。

优选地，步骤S3中利用模拟退火算法计算每一个动作的概率，具体为：

式中，Q(s_t，a)为每个状态-动作对的Q值，P(a/s_t，Q)表示在状态s_t选择动作a的概率，β为可调节的温度常数。

优选地，每次重复步骤S3至S4时，所述β的取值随之衰减。

优选地，所述DQN网络的具体结构包括输入层、三个全连接层和输出层，其中：

输入层的输入是大小为2K+2的向量，每一个K+i的输入向量表示在上一个时隙用户选择的动作，即选择的信道，当用户选了K信道，则该信道置为1，其余k个信道都置为0；如果成功接入信道的用户收到确认信号，每一个K+1的输入向量的最后一个输入为1，如果传输失败或未执行传出，则设置为0；

所述三个全连接层分别有128个神经元组成；

所述输出层的输出是大小为K+1的向量，该K+1的向量中的每一个元素为对应动作的Q值，如果用户选择在t时间不发送，则为第一个Q(s，0)值，1≤k≤K，第(k+1)个Q值则为用户在t时刻在k信道传输的Q值。

一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统，包括：

网络构建模块，所述网络构建模块构建DQN网络，将每个接入点作为一个智能体，接入点选择接入哪个信道作为智能体的动作，接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态；

动作选择模块，所述动作选择模块使每个智能体随机选择动作，根据每个智能体的动作，获取每个智能体的初始观察值、状态以及奖励；

第一计算模块，所述第一计算模块利用模拟退火算法计算每一个动作的概率，按最大概率选择动作；

第二计算模块，所述第二计算模块计算得到每个智能体的下一步观察值，根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励；

重复模块，所述重复模块将数据回传至第一计算模块后，计算累积奖励和累极冲突次数，所述冲突指不同接入点接入到相同信道中，将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中；

抽取模块，所述抽取模块从记忆体抽取样本，对DQN网络进行训练；

分配模块，所述分配模块利用训练好的DQN网络进行频谱资源分配。

与现有技术相比，本发明技术方案的有益效果是：

本发明相对于现有的独立式分布式DQN，使各个智能体共享彼此的动作策略，采取集中训练、分布执行的方法，不仅加强了算法的稳定性，还提高了学习效率，加快了学习速度，然后又在执行阶段加入模拟退火算法，使其避免了局部最优。综合下来，本方法对信道分配的提升较大。

附图说明

图1为本发明的方法流程示意图。

图2为实施例中多智能体间的环境交互图。

图3为实施例中信道分配系统模型示意图。

图4为实施例中集中训练、分布执行的流程示意图。

图5为DQN网络的结构示意图。

图6为信道状态转移过程模型图。

图7为实施例中用独立分布式算法和本发明的方法进行仿真的所有智能体的累极冲突次数比较示意图。

图8为实施例中用独立分布式算法和本发明的方法进行仿真的所有智能体的累极奖励比较示意图。

图9为实施例中用独立分布式算法和本发明的方法进行仿真的成功率比较示意图。

图10为本发明的系统模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法，如图1所示，包括以下步骤：

S6：从记忆体抽取样本，对DQN网络进行训练；

S7：利用训练好的DON网络进行频谱资源分配。

图2为多智能体间的环境交互图。在频谱资源分配问题中，认知无线网络中有K个接入点，将每个接入点视作每个智能体，同时探索未知环境。从数学上讲，这个问题可以建模为MDP。在每个相干时间步骤t，给定当前环境状态s_t，每个智能体k接收由观察函数O确定的环境的观察Z(k)_t，Z(k)_t＝O(s_t，k)，接着采取动作a(k)_t，然后形成联合动作A_t。此后，智能体接收奖励R_t+1，环境以概率p(s′，r|s，a)演化到下一状态s_t+1，接着每个智能体接收到新的观测值Z(k)_t+1。虽然资源共享问题是一个竞争博弈的过程，但是为了提高系统整体的性能，也就是为了尽量减少接入点在接入时的累积冲突次数，通过给每个智能体共享相同奖励函数，将其转换为完全合作的博弈。

如图3所示，为构建的认知无线网络中的系统模型图，在这个模型中，有num_channels个可用信道用于相互通信，num_users个接入点数，接入点用于服务用户之间的通信，接入点能否顺利接入信道直接影响着用户的正常通信。在信道分配中，接入点与信道并不是一一对应的关系。所以，对于信道分配，需要考虑接入点是否会接入到相同信道导致信道冲突。所述接入点个数num_users与信道个数num_channels满足下式：

num_channels≤num_users。

步骤S1中智能体的动作空间表示为：

a_i＝[0，1，2，...，num_channels]

步骤S1中，状态空间表示为t时刻，i个智能体的状态集合：

S_t＝[S₁，S₂，...，S_i]

第i个智能体的状态：

/>

图6为信道状态转移过程模型图，图中P₁、P₂均为信道状态转移概率。

智能体的奖励函数：

R_i＝[R₁，R₂，...，R_i]

R_i为i个智能体的奖励集合；

所述智能体利用观察函数对环境进行观察，所述观察函数为：

O_{num_users}为智能体接入信道状态：

O_{num_users}＝(C_{num_users}，R(t))。

所述每个智能体共享相同的奖励函数。

将认知无线网络中关于接入点的信道分配的通信环境建模为一个多智能体环境，使用分布式算法来解决多接入点接入可用信道的问题。该算法可分为两个阶段，分别为学习(训练)和实现阶段。专注于集中训练和分布式执行的设置，如图4。先看集中训练部分，在每一个timeslott中，对于DQN中Q(t)的target的参数，每个智能体都是一样的。集中式训练可以利用所有的智能体收集到的经验来训练一个DQN，这样能大大减少训练所需的内存和计算资源。在分布式执行部分，每个智能体(每个接入点)接收到对环境的观察值，然后基于训练的DQN在随着time slot的推移而其算法的探索率不断衰减，直至最低，采取行动(选取信道接入)，这时候我们会结合模拟退火算法。

步骤S3中利用模拟退火算法计算每一个动作的概率，在Q值中使用Boltzmann分布，用温度(β)归一化每个动作的概率，然后按最大概率选择动作，具体为：

式中，Q(s_t，a)为每个状态-动作对的Q值，P(a/s_t，Q)表示在状态s_t选择动作a的概率，β为可调节的温度常数，β的大小代表了随机性的程度大小，如果β越大，则选择的动作的随机性越强。在智能体学习的初始阶段，因为学习的经验较少，需要增加探索能力，所以β取较高的值，使得每个动作被选中的概率大致相同；在训练过程中，应逐渐减小温度常数β，以保证以前的经验不会被破坏。训练刚开始时温度β较大，动作选择随机性选择的趋势，当训练了一段时间后，β较小，动作选择则倾向于Q值得大小。

每次重复步骤S3至S4时，所述β的取值随之衰减。

图5为实施例中使用的网络结构图，所述DQN网络的具体结构包括输入层、三个全连接层和输出层，其中：

输入层的输入是大小为2K+2的向量，每一个K+i的输入向量表示在上一个时隙用户选择的动作，即选择的信道，当用户选了K信道，则该信道置为1，其余k个信道都置为0；如果成功接入信道的用户收到确认信号，每一个K+i的输入向量的最后一个输入为1，如果传输失败或未执行传出，则设置为0；

所述三个全连接层分别有128个神经元组成；

所述输出层的输出是大小为K+1的向量，该K+i的向量中的每一个元素为对应动作的Q值，如果用户选择在t时间不发送，则为第一个Q(s，0)值，1≤k≤K，第(k+1)个Q值则为用户在t时刻在k信道传输的Q值。

本实施例还验证算法的有效性。设置接入点有3个，供接入的信道2个，目标是通过算法来使3个接入点尽可能减少接入冲突，增加奖励。分别用独立分布式算法和实施例所提出的协作分布式算法进行仿真，并进行了对比，设置TIMESLOT＝50000。如图7所示，独立分布式算法基本是呈现线性上升，相对应的累积奖励也提升的较慢，并且在约35000个timeslot基本就收敛了。相对于独立式分布式算法，协作式分布式算法表现出了不俗的结果，在算法性能和收敛上也更好。从图7中我们可以看出协作式在降低接入点冲突上明显比独立式好很多，并且随着time slot的增加，累积冲突次数增加的速率也随之降低，最后逐渐收敛于60000左右。再看图8，协作式的算法得到累积奖励相对于独立式也多出了不少，并且其奖励的增加速率在不断提升，所以我们可以看出协作式的算法性能对信道分配的提升是较大的。

图9描绘了两种算法的成功率对比曲线。定义只要有一个接入点成功接入信道，则视为一次成功。每次抽取1000个的time slot进行统计，连续抽取50次，也就是50000个timeslot回合。从仿真结果可以看出，显然协作式分布式算法的成功率优于独立分布式。虽然独立分布式算法的成功率较协作分布式算法稳定，但是独立分布式算法的成功率远低于协作式。独立分布式算法成功率最后收敛于0.2左右，而协作式分布式算法的能保证最大限度的成功率，也就是在仿真的末时，成功率接近于1.0。

实施例2

一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统，如图10所示，包括：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。