CN113613332B - 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统 - Google Patents

基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统 Download PDF

Info

Publication number
CN113613332B
CN113613332B CN202110845613.5A CN202110845613A CN113613332B CN 113613332 B CN113613332 B CN 113613332B CN 202110845613 A CN202110845613 A CN 202110845613A CN 113613332 B CN113613332 B CN 113613332B
Authority
CN
China
Prior art keywords
channel
action
dqn
agent
num
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110845613.5A
Other languages
English (en)
Other versions
CN113613332A (zh
Inventor
刘德荣
林得有
王永华
刘骏
王宇慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Publication of CN113613332A publication Critical patent/CN113613332A/zh
Application granted granted Critical
Publication of CN113613332B publication Critical patent/CN113613332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法和系统,方法是一种多智能体联合学习方法,各个智能体共享同一个DQN网络模型,相同的奖励函数,鼓励智能体之间的合作行为。利用所有的智能体先前所收集到的经验来训练同一个DQN,这样能大大减少训练所需的内存和计算资源。这相当于让用户增加了先验知识,从而能加快学习速度,提高学习效率。与独立式多智能体不同的是,本方法采用集中训练,但是在接入点上DQN是分布式执行,这有助于算法实施和和改进算法稳定性。在此方法中,还结合了一种经典优化算法——模拟退火算法,进而避免了神经网络一个常见问题,局部最优的问题,使系统最终往全局最优的方向收敛。

Description

基于协作分布式DQN联合模拟退火算法的频谱资源分配方法 和系统
技术领域
本发明涉及认知无线电信道分配领域,更具体地,涉及一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法和系统。
背景技术
随着无线通信技术在各个行业和领域的广泛运用,并且伴随着飞速演进的无线技术不断朝着宽带化、无缝化、智能化等趋势发展,尤其是无线局域网(WLAN,Wireless LocalAccess Network)、物联网、4G/5G移动通信技术的发展,越来越多的设备通过无线技术接入互联网,这就导致了在无线通信的技术发展上我们不得不面对的瓶颈之一与挑战之一就是频谱资源的不足,频谱资源变得越来越稀缺。
认知无线电(Cognitive Radio,CR)的概念首次提起于1999年Joseph Mitola博士的博士论文中。自认知无线电的概念提出,受到了各国通信专家的广泛关注,并且不断地开展相关研究。在认知无线电网络中,信道资源是非常宝贵,一般情况下,在信道分配问题中,信道和接入点在很多情况下并不是一一对应的。信道分配是频谱分配中非常重要的一环,每次接入点需要接入信道时,在不违反频率重用的条件下,为其分配一个任意信道。目前信道分配主要面临两个棘手的问题,一个是信道分配的算法复杂度较高,需要大量的计算资源才可实现实时的动态信道分配,避免造成大幅度的冲突,一个是信道分配具有动态随机性,导致信道难以最大化重复利用。
频谱分配中的信道分配问题可以建模为一个马尔可夫决策过程(MarkovDecision Process,MDP),因此可以用强化学习的来求解最优解,因为强化学习的环境是用MDP来描述的。目前Q-learning是最流行的强化学习算法之一,经过多年研究,研究员发现Q-learning的一些缺点,首先Q-learning是一种渐进式的寻找最优解的过程,其缺点是在寻找问题解决行动选择时收敛速度较慢;第二,Q-learning需要一个Q table,在状态很多的情况下,容易产生巨大的Q值,所以Q table会很大,查找和存储都会耗费巨量的空间和时间;第三,Q-learning存在过高估计的问题。因为Q-learning在更新Q函数时使用的是下一时刻最优值对应的action,这样就会导致过高的估计采样过的action,而对于没有采样到的action,便不会被选择为最优的action。在近几年,有研究员依托Q-learning,提出深度Q网络(Deep Q-Network,DQN)。深度强化学习自从提出,就备受关注,因为它可以在处理非常大的操作状态和空间时,提供目标值(称为q值)的良好近似估计。与在小规模模型中行之有效但在大规模模型中行之无效的Q学习方法相反,深度强化学习将深层神经网络与称为深层Q(DQN)网络的Q学习结合起来,以克服这个问题。
公开日为2018年11月13日,公开号为CN108809456A的中国专利公开了一种基于改进强化学习的集中式认知无线电频谱分配方法,包括:收集不同的认知用户感知数据,得到认知环境的状态信息;分析信道状态模型和调制方式对传输功率和误码率的影响;设定误码率门限标准约束为强化学习算法的奖励函数,当选择的动作适应于当前状态时给予激励正值,否则给予惩罚负值,构建强化学习算法模型;利用改进强化学习算法动态地分配频谱资源,即在执行算法时需要结合案例历史信息和自适应的贪心算子。该专利同样存在收敛速度较慢的问题。
发明内容
本发明的首要目的是提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法,加快算法的收敛速度。
本发明的进一步目的是提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法,包括以下步骤:
S1:构建DQN网络,将每个接入点作为一个智能体,接入点选择接入哪个信道作为智能体的动作,接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态;
S2:每个智能体随机选择动作,根据每个智能体的动作,获取每个智能体的初始观察值、状态以及奖励;
S3:利用模拟退火算法计算每一个动作的概率,按最大概率选择动作;
S4:计算得到每个智能体的下一步观察值,根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励;
S5:重复步骤S3至S4若干次后,计算累积奖励和累极冲突次数,所述冲突指不同接入点接入到相同信道中,将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中;
S6:从记忆体抽取样本,对DQN网络进行训练;
S7:利用训练好的DQN网络进行频谱资源分配。
优选地,所述接入点个数hum_users与信道个数num_channels满足下式:
num_channels≤num_users。
优选地,步骤S1中智能体的动作空间表示为:
ai=[0,1,2,...,num_channels]
其中的数值表示选择哪一个信道,且所有的智能体都有相同的动作空间,
Figure BDA0003180441570000034
优选地,步骤S1中,状态空间表示为t时刻,i个智能体的状态集合:
St=[S1,S2,...,Si]
第i个智能体的状态:
Figure BDA0003180441570000035
Cnum_users的值为第num_users用户的所选的信道,Anumchannels为剩余可接入信道,R为奖励,具体为:
Figure BDA0003180441570000031
/>
Figure BDA0003180441570000032
Figure BDA0003180441570000033
I为约束条件,I0为接入点接入信道成功,I1为接入点接入信道失败,定义接入点接入非空信道并且不发生信道冲突为接入信道成功,接入点接入到空信道或者发生信道冲突为接入信道失败,定义两个或两个以上的接入点选到同一信道为信道冲突,当接入成功,给1奖励,否则为0;
Ri=[R1,R2,...,Ri]
Ri为i个智能体的奖励集合。
优选地,所述智能体利用观察函数对环境进行观察,所述观察函数为:
observation=[O1,O2,...,Onum_users,A1,A2,...,Anum_channels]
Onum_users为智能体接入信道状态:
Onum-users=(Cnum_users,R(t))。
优选地,所述每个智能体共享相同的奖励函数。
优选地,步骤S3中利用模拟退火算法计算每一个动作的概率,具体为:
Figure BDA0003180441570000041
式中,Q(st,a)为每个状态-动作对的Q值,P(a/st,Q)表示在状态st选择动作a的概率,β为可调节的温度常数。
优选地,每次重复步骤S3至S4时,所述β的取值随之衰减。
优选地,所述DQN网络的具体结构包括输入层、三个全连接层和输出层,其中:
输入层的输入是大小为2K+2的向量,每一个K+i的输入向量表示在上一个时隙用户选择的动作,即选择的信道,当用户选了K信道,则该信道置为1,其余k个信道都置为0;如果成功接入信道的用户收到确认信号,每一个K+1的输入向量的最后一个输入为1,如果传输失败或未执行传出,则设置为0;
所述三个全连接层分别有128个神经元组成;
所述输出层的输出是大小为K+1的向量,该K+1的向量中的每一个元素为对应动作的Q值,如果用户选择在t时间不发送,则为第一个Q(s,0)值,1≤k≤K,第(k+1)个Q值则为用户在t时刻在k信道传输的Q值。
一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统,包括:
网络构建模块,所述网络构建模块构建DQN网络,将每个接入点作为一个智能体,接入点选择接入哪个信道作为智能体的动作,接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态;
动作选择模块,所述动作选择模块使每个智能体随机选择动作,根据每个智能体的动作,获取每个智能体的初始观察值、状态以及奖励;
第一计算模块,所述第一计算模块利用模拟退火算法计算每一个动作的概率,按最大概率选择动作;
第二计算模块,所述第二计算模块计算得到每个智能体的下一步观察值,根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励;
重复模块,所述重复模块将数据回传至第一计算模块后,计算累积奖励和累极冲突次数,所述冲突指不同接入点接入到相同信道中,将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中;
抽取模块,所述抽取模块从记忆体抽取样本,对DQN网络进行训练;
分配模块,所述分配模块利用训练好的DQN网络进行频谱资源分配。
与现有技术相比,本发明技术方案的有益效果是:
本发明相对于现有的独立式分布式DQN,使各个智能体共享彼此的动作策略,采取集中训练、分布执行的方法,不仅加强了算法的稳定性,还提高了学习效率,加快了学习速度,然后又在执行阶段加入模拟退火算法,使其避免了局部最优。综合下来,本方法对信道分配的提升较大。
附图说明
图1为本发明的方法流程示意图。
图2为实施例中多智能体间的环境交互图。
图3为实施例中信道分配系统模型示意图。
图4为实施例中集中训练、分布执行的流程示意图。
图5为DQN网络的结构示意图。
图6为信道状态转移过程模型图。
图7为实施例中用独立分布式算法和本发明的方法进行仿真的所有智能体的累极冲突次数比较示意图。
图8为实施例中用独立分布式算法和本发明的方法进行仿真的所有智能体的累极奖励比较示意图。
图9为实施例中用独立分布式算法和本发明的方法进行仿真的成功率比较示意图。
图10为本发明的系统模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法,如图1所示,包括以下步骤:
S1:构建DQN网络,将每个接入点作为一个智能体,接入点选择接入哪个信道作为智能体的动作,接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态;
S2:每个智能体随机选择动作,根据每个智能体的动作,获取每个智能体的初始观察值、状态以及奖励;
S3:利用模拟退火算法计算每一个动作的概率,按最大概率选择动作;
S4:计算得到每个智能体的下一步观察值,根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励;
S5:重复步骤S3至S4若干次后,计算累积奖励和累极冲突次数,所述冲突指不同接入点接入到相同信道中,将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中;
S6:从记忆体抽取样本,对DQN网络进行训练;
S7:利用训练好的DON网络进行频谱资源分配。
图2为多智能体间的环境交互图。在频谱资源分配问题中,认知无线网络中有K个接入点,将每个接入点视作每个智能体,同时探索未知环境。从数学上讲,这个问题可以建模为MDP。在每个相干时间步骤t,给定当前环境状态st,每个智能体k接收由观察函数O确定的环境的观察Z(k)t,Z(k)t=O(st,k),接着采取动作a(k)t,然后形成联合动作At。此后,智能体接收奖励Rt+1,环境以概率p(s′,r|s,a)演化到下一状态st+1,接着每个智能体接收到新的观测值Z(k)t+1。虽然资源共享问题是一个竞争博弈的过程,但是为了提高系统整体的性能,也就是为了尽量减少接入点在接入时的累积冲突次数,通过给每个智能体共享相同奖励函数,将其转换为完全合作的博弈。
如图3所示,为构建的认知无线网络中的系统模型图,在这个模型中,有num_channels个可用信道用于相互通信,num_users个接入点数,接入点用于服务用户之间的通信,接入点能否顺利接入信道直接影响着用户的正常通信。在信道分配中,接入点与信道并不是一一对应的关系。所以,对于信道分配,需要考虑接入点是否会接入到相同信道导致信道冲突。所述接入点个数num_users与信道个数num_channels满足下式:
num_channels≤num_users。
步骤S1中智能体的动作空间表示为:
ai=[0,1,2,...,num_channels]
其中的数值表示选择哪一个信道,且所有的智能体都有相同的动作空间,
Figure BDA0003180441570000074
步骤S1中,状态空间表示为t时刻,i个智能体的状态集合:
St=[S1,S2,...,Si]
第i个智能体的状态:
Figure BDA0003180441570000075
Cnum_users的值为第num_users用户的所选的信道,Anumchannels为剩余可接入信道,R为奖励,具体为:
Figure BDA0003180441570000071
Figure BDA0003180441570000072
/>
图6为信道状态转移过程模型图,图中P1、P2均为信道状态转移概率。
智能体的奖励函数:
Figure BDA0003180441570000073
I为约束条件,I0为接入点接入信道成功,I1为接入点接入信道失败,定义接入点接入非空信道并且不发生信道冲突为接入信道成功,接入点接入到空信道或者发生信道冲突为接入信道失败,定义两个或两个以上的接入点选到同一信道为信道冲突,当接入成功,给1奖励,否则为0;
Ri=[R1,R2,...,Ri]
Ri为i个智能体的奖励集合;
所述智能体利用观察函数对环境进行观察,所述观察函数为:
observation=[O1,O2,...,Onum_users,A1,A2,...,Anum_channels]
Onum_users为智能体接入信道状态:
Onum_users=(Cnum_users,R(t))。
所述每个智能体共享相同的奖励函数。
将认知无线网络中关于接入点的信道分配的通信环境建模为一个多智能体环境,使用分布式算法来解决多接入点接入可用信道的问题。该算法可分为两个阶段,分别为学习(训练)和实现阶段。专注于集中训练和分布式执行的设置,如图4。先看集中训练部分,在每一个timeslott中,对于DQN中Q(t)的target的参数,每个智能体都是一样的。集中式训练可以利用所有的智能体收集到的经验来训练一个DQN,这样能大大减少训练所需的内存和计算资源。在分布式执行部分,每个智能体(每个接入点)接收到对环境的观察值,然后基于训练的DQN在随着time slot的推移而其算法的探索率不断衰减,直至最低,采取行动(选取信道接入),这时候我们会结合模拟退火算法。
步骤S3中利用模拟退火算法计算每一个动作的概率,在Q值中使用Boltzmann分布,用温度(β)归一化每个动作的概率,然后按最大概率选择动作,具体为:
Figure BDA0003180441570000081
式中,Q(st,a)为每个状态-动作对的Q值,P(a/st,Q)表示在状态st选择动作a的概率,β为可调节的温度常数,β的大小代表了随机性的程度大小,如果β越大,则选择的动作的随机性越强。在智能体学习的初始阶段,因为学习的经验较少,需要增加探索能力,所以β取较高的值,使得每个动作被选中的概率大致相同;在训练过程中,应逐渐减小温度常数β,以保证以前的经验不会被破坏。训练刚开始时温度β较大,动作选择随机性选择的趋势,当训练了一段时间后,β较小,动作选择则倾向于Q值得大小。
每次重复步骤S3至S4时,所述β的取值随之衰减。
图5为实施例中使用的网络结构图,所述DQN网络的具体结构包括输入层、三个全连接层和输出层,其中:
输入层的输入是大小为2K+2的向量,每一个K+i的输入向量表示在上一个时隙用户选择的动作,即选择的信道,当用户选了K信道,则该信道置为1,其余k个信道都置为0;如果成功接入信道的用户收到确认信号,每一个K+i的输入向量的最后一个输入为1,如果传输失败或未执行传出,则设置为0;
所述三个全连接层分别有128个神经元组成;
所述输出层的输出是大小为K+1的向量,该K+i的向量中的每一个元素为对应动作的Q值,如果用户选择在t时间不发送,则为第一个Q(s,0)值,1≤k≤K,第(k+1)个Q值则为用户在t时刻在k信道传输的Q值。
本实施例还验证算法的有效性。设置接入点有3个,供接入的信道2个,目标是通过算法来使3个接入点尽可能减少接入冲突,增加奖励。分别用独立分布式算法和实施例所提出的协作分布式算法进行仿真,并进行了对比,设置TIMESLOT=50000。如图7所示,独立分布式算法基本是呈现线性上升,相对应的累积奖励也提升的较慢,并且在约35000个timeslot基本就收敛了。相对于独立式分布式算法,协作式分布式算法表现出了不俗的结果,在算法性能和收敛上也更好。从图7中我们可以看出协作式在降低接入点冲突上明显比独立式好很多,并且随着time slot的增加,累积冲突次数增加的速率也随之降低,最后逐渐收敛于60000左右。再看图8,协作式的算法得到累积奖励相对于独立式也多出了不少,并且其奖励的增加速率在不断提升,所以我们可以看出协作式的算法性能对信道分配的提升是较大的。
图9描绘了两种算法的成功率对比曲线。定义只要有一个接入点成功接入信道,则视为一次成功。每次抽取1000个的time slot进行统计,连续抽取50次,也就是50000个timeslot回合。从仿真结果可以看出,显然协作式分布式算法的成功率优于独立分布式。虽然独立分布式算法的成功率较协作分布式算法稳定,但是独立分布式算法的成功率远低于协作式。独立分布式算法成功率最后收敛于0.2左右,而协作式分布式算法的能保证最大限度的成功率,也就是在仿真的末时,成功率接近于1.0。
实施例2
一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统,如图10所示,包括:
网络构建模块,所述网络构建模块构建DQN网络,将每个接入点作为一个智能体,接入点选择接入哪个信道作为智能体的动作,接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态;
动作选择模块,所述动作选择模块使每个智能体随机选择动作,根据每个智能体的动作,获取每个智能体的初始观察值、状态以及奖励;
第一计算模块,所述第一计算模块利用模拟退火算法计算每一个动作的概率,按最大概率选择动作;
第二计算模块,所述第二计算模块计算得到每个智能体的下一步观察值,根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励;
重复模块,所述重复模块将数据回传至第一计算模块后,计算累积奖励和累极冲突次数,所述冲突指不同接入点接入到相同信道中,将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中;
抽取模块,所述抽取模块从记忆体抽取样本,对DQN网络进行训练;
分配模块,所述分配模块利用训练好的DQN网络进行频谱资源分配。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于协作分布式DQN联合模拟退火算法的频谱资源分配方法,其特征在于,包括以下步骤:
S1:构建DQN网络,将每个接入点作为一个智能体,接入点选择接入哪个信道作为智能体的动作,接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态;
S2:每个智能体随机选择动作,根据每个智能体的动作,获取每个智能体的初始观察值、状态以及奖励;
S3:利用模拟退火算法计算每一个动作的概率,按最大概率选择动作;
S4:计算得到每个智能体的下一步观察值,根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励;
S5:重复步骤S3至S4若干次后,计算累积奖励和累极冲突次数,所述冲突指不同接入点接入到相同信道中,将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中;
S6:从记忆体抽取样本,对DQN网络进行训练;
S7:利用训练好的DQN网络进行频谱资源分配;
所述接入点个数num_users与信道个数num_channels满足下式:
num_channels≤num_users
其特征在于,步骤S1中智能体的动作空间表示为:
ai=[0,1,2,...,num_channels]
其中的数值表示选择哪一个信道,且所有的智能体都有相同的动作空间,a1=aj=ai
Figure FDA0004217991200000012
步骤S1中,状态空间表示为t时刻,i个智能体的状态集合:
St=[S1,S2,...,Si]
第i个智能体的状态:
Figure FDA0004217991200000011
Cnum_users的值为第num_users用户的所选的信道,Anum_channels为剩余可接入信道,R为奖励,具体为:
Figure FDA0004217991200000021
Figure FDA0004217991200000022
Figure FDA0004217991200000023
I为约束条件,I0为接入点接入信道成功,I1为接入点接入信道失败,定义接入点接入非空信道并且不发生信道冲突为接入信道成功,接入点接入到空信道或者发生信道冲突为接入信道失败,定义两个或两个以上的接入点选到同一信道为信道冲突,当接入成功,给1奖励,否则为0;
Ri=[R1,R2,...,Ri]
Ri为i个智能体的奖励集合;
所述智能体利用观察函数对环境进行观察,所述观察函数为:
observation=[O1,O2,...,Onum_users,A1,A2,...,Anum_channels]
Onum_users为智能体接入信道状态:
Onum_users=(Cnum_users,R(t))
所述每个智能体共享相同的奖励函数;
步骤S3中利用模拟退火算法计算每一个动作的概率,具体为:
Figure FDA0004217991200000024
式中,Q(st,a)为每个状态-动作对的Q值,P(a/st,Q)表示在状态st选择动作a的概率,β为可调节的温度常数;
每次重复步骤S3至S4时,所述β的取值随之衰减。
2.根据权利要求1所述的基于协作分布式DQN联合模拟退火算法的频谱资源分配方法,其特征在于,所述DQN网络的具体结构包括输入层、三个全连接层和输出层,其中:
输入层的输入是大小为2K+2的向量,每一个K+1的输入向量表示在上一个时隙用户选择的动作,即选择的信道,当用户选了K信道,则该信道置为1,其余k个信道都置为0;如果成功接入信道的用户收到确认信号,每一个K+1的输入向量的最后一个输入为1,如果传输失败或未执行传出,则设置为0;
所述三个全连接层分别有128个神经元组成;
所述输出层的输出是大小为K+1的向量,该K+1的向量中的每一个元素为对应动作的Q值,如果用户选择在t时间不发送,则为第一个Q(s,0)值,1≤k≤K,第(k+1)个Q值则为用户在t时刻在k信道传输的Q值。
3.一种基于协作分布式DQN联合模拟退火算法的频谱资源分配系统,其特征在于,所述频谱资源分配系统应用权利要求1或2所述的基于协作分布式DQN联合模拟退火算法的频谱资源分配方法,包括:
网络构建模块,所述网络构建模块构建DQN网络,将每个接入点作为一个智能体,接入点选择接入哪个信道作为智能体的动作,接入点所选的信道、剩余信道状态以及信道是否占用成功作为环境状态;
动作选择模块,所述动作选择模块使每个智能体随机选择动作,根据每个智能体的动作,获取每个智能体的初始观察值、状态以及奖励;
第一计算模块,所述第一计算模块利用模拟退火算法计算每一个动作的概率,按最大概率选择动作;
第二计算模块,所述第二计算模块计算得到每个智能体的下一步观察值,根据S3选择的动作以及每个智能体的下一步观察值得到下一步状态以及奖励;
重复模块,所述重复模块将数据回传至第一计算模块后,计算累积奖励和累极冲突次数,所述冲突指不同接入点接入到相同信道中,将每一次重复得到的状态、动作、奖励以及下一步状态存储至记忆体中;
抽取模块,所述抽取模块从记忆体抽取样本,对DQN网络进行训练;
分配模块,所述分配模块利用训练好的DQN网络进行频谱资源分配。
CN202110845613.5A 2021-07-14 2021-07-26 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统 Active CN113613332B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021107960435 2021-07-14
CN202110796043 2021-07-14

Publications (2)

Publication Number Publication Date
CN113613332A CN113613332A (zh) 2021-11-05
CN113613332B true CN113613332B (zh) 2023-06-09

Family

ID=78338358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110845613.5A Active CN113613332B (zh) 2021-07-14 2021-07-26 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统

Country Status (1)

Country Link
CN (1) CN113613332B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115315020A (zh) * 2022-08-08 2022-11-08 重庆邮电大学 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN117651346A (zh) * 2022-08-12 2024-03-05 华为技术有限公司 一种强化学习的训练方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809456A (zh) * 2018-07-04 2018-11-13 天津大学 一种基于改进强化学习的集中式认知无线电频谱分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN111767991A (zh) * 2020-06-29 2020-10-13 重庆大学 一种基于深度q学习的测控资源调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809456A (zh) * 2018-07-04 2018-11-13 天津大学 一种基于改进强化学习的集中式认知无线电频谱分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN111767991A (zh) * 2020-06-29 2020-10-13 重庆大学 一种基于深度q学习的测控资源调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于量子遗传模拟退火算法的认知无线电频谱分配方法研究;肖婵婵;;中国新通信(第24期);全文 *

Also Published As

Publication number Publication date
CN113613332A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
Chen et al. iRAF: A deep reinforcement learning approach for collaborative mobile edge computing IoT networks
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
CN111726826B (zh) 一种基站密集型边缘计算网络中的在线任务卸载方法
CN113613332B (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
Zhang et al. A multi-agent reinforcement learning approach for efficient client selection in federated learning
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
Fan et al. Dnn deployment, task offloading, and resource allocation for joint task inference in iiot
Ko et al. Joint client selection and bandwidth allocation algorithm for federated learning
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Chen et al. Joint caching and computing service placement for edge-enabled IoT based on deep reinforcement learning
CN114615744A (zh) 一种知识迁移强化学习网络切片通感算资源协同优化方法
CN113891327A (zh) 一种基于深度多用户drqn的动态频谱接入方法
Zou et al. Multi-agent reinforcement learning enabled link scheduling for next generation internet of things
CN111917529B (zh) 一种基于改进exp3算法的水声ofdm资源分配方法
Yang et al. Research on cognitive radio engine based on genetic algorithm and radial basis function neural network
CN116112934A (zh) 一种基于机器学习的端到端网络切片资源分配方法
CN115150335B (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN113543160A (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
CN114173421B (zh) 基于深度强化学习的LoRa逻辑信道及功率分配方法
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN115250156A (zh) 一种基于联邦学习的无线网络多信道频谱接入方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant