CN112601284B - 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 - Google Patents

基于多智能体深度强化学习的下行多小区ofdma资源分配方法 Download PDF

Info

Publication number
CN112601284B
CN112601284B CN202011416092.3A CN202011416092A CN112601284B CN 112601284 B CN112601284 B CN 112601284B CN 202011416092 A CN202011416092 A CN 202011416092A CN 112601284 B CN112601284 B CN 112601284B
Authority
CN
China
Prior art keywords
network
cell
channel
sub
allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011416092.3A
Other languages
English (en)
Other versions
CN112601284A (zh
Inventor
王小明
胡静
徐友云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011416092.3A priority Critical patent/CN112601284B/zh
Publication of CN112601284A publication Critical patent/CN112601284A/zh
Application granted granted Critical
Publication of CN112601284B publication Critical patent/CN112601284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体深度强化学习的下行多小区OFDMA资源分配方法。属于无线通信领域;具体步骤如下:1、构建多智能体网络;2、建立每个接收用户的信噪比及每个小区获得数据速率;3、状态获取;4、子信道分配;5、功率分配;6、反馈获取和参数更新。本发明是一种基于多智能体深度强化学习的方法,设计了多个DDQN网络和多个DDPG网络来联合解决子信道分配和功率分配问题,并采用集中训练、分散执行的模式,此方法降低了网络的输入输出维度、信令开销以及计算复杂度,可以有效地得到最优资源分配方案,与传统强化学习方法相比,提高了下行OFDMA系统中各小区的传输速率,进而提高了整个网络的性能。

Description

基于多智能体深度强化学习的下行多小区OFDMA资源分配 方法
技术领域
本发明涉及无线通信领域,具体涉及一种基于多智能体深度强化学习的方法来获取下行多小区正交频分多址(OFDMA)系统最优子信道和功率分配方案,以最大化每个小区的传输速率。
背景技术
随着移动设备的迅速增长,使得利用有限的系统资源来保证用户高速率服务质量成为无线通信网络的关键问题。作为无线通信标准的OFDMA技术,通过子载波之间的正交性,有效避免了小区内用户间的干扰。然而,在多小区OFDMA系统中,各个基站都占用相同的频谱资源,相邻小区的同频子载波之间就会互相产生干扰,这对多小区OFDMA系统资源的合理利用和分配提出了巨大挑战。
在专利“基于QoE的OFDMA网络下行链路资源分配方法”(公开号:CN104869651B)中;该发明先后建立了单小区多用户ODFMA网络下行链路模型和流媒体业务QoE评估模型,获得各用户的传输速率约束;然后利用次梯度迭代法对该系统资源分配问题进行求解,获得系统子载波和子载波功率分配的最优值;其缺点在于:该发明仅考虑了单小区OFDMA系统中的资源分配方案;而在实际应用场景中,由于各小区占用了相同频谱资源,小区内的用户必然会受到其邻近小区的干扰,因此通过对多小区OFDMA系统的子信道和功率的合理分配来提高系统性能已成为当下的一个研究热点。
另外,在《IEEE Transactions on Vehicular Technology,pp.1395-1408,March2016.(电气和电子工程师协会车辆技术期刊,2016年3月,第1395-1408页)》上发表了题为“Energy-Efficient Resource Allocation in Coordinated Downlink MulticellOFDMA Systems(协同下行多小区OFDMA系统的能效资源分配)”一文,该文提出了一种迭代算法来最大化多小区OFDMA系统的能效;迭代是通过重复反馈过程来逼近所需的目标,在应对一些大规模系统资源分配问题时,往往周期性长、计算复杂度高,于是研究者们考虑将具有较强计算能力和学习速率的强化学习方法应用到无线通信网络资源分配问题上;在《2019 11th International Conference on Wireless Communications and SignalProcessing(WCSP),pp.1-6.(2019年第十一届无线通信与信号处理国际会议,第1-6页)》上发表了题为“Energy-efficient resource allocation in uplink NOMA systems withdeep reinforcement learning(基于深度强化学习的上行NOMA系统的能效资源分配)”一文,该文很好地将单智能体深度强化学习方法运用在了无线通信领域,有效解决了单小区NOMA系统的资源分配问题;但是其缺点在于,该文将该深度强化学习方法直接运用在多小区OFDMA系统中时,会由于优化器过度优化而会导致系统性能相对较差;为解决该问题,本专利提出了基于多智能体深度强化学习方法来解决多小区OFDMA系统资源分配的方案,利用多个智能体进行全局控制以降低复杂任务的维度。具体地,先用多个竞争深度Q网络来解决子信道分配问题,再用多个深度确定性策略梯度网络解决功率分配问题,最后联合子信道和功率分配方案来最大化每个小区的传输速率。
发明内容
针对上述问题,本发明提供了一种基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,本发明提出了联合子信道分配和功率分配的多智能体网络来提高下行多小区OFDMA系统性能,在考虑小区间同频干扰的情况下,实现了每个小区数据速率最大化。
本发明的技术方案是:基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,具体步骤包括如下:
步骤(1.1)、构建用于解决下行多小区OFDMA系统资源分配的多智能体网络;
步骤(1.2)、基于OFDMA系统中小区间的干扰,建立每个接收用户的信噪比及每个小区获得数据速率;
步骤(1.3)、状态获取:包括训练阶段及测试阶段;
步骤(1.4)、子信道分配:所述的子信道分配是基于MADDQN算法选择最优子信道分配方案C;所述C={C1,C2,……,CN},式中,C中的元素表示各个小区的子信道分配情况;
步骤(1.5)、功率分配:在得到子信道分配方案C后,再联合MADDPG网络来选择最优的功率分配方案P;所述P={P1,P2,……,PN},P中的元素表示各个小区的功率分配情况;
步骤(1.6)、反馈获取和参数更新:联合MADDQN算法和MADDPG两个网络输出的资源分配方案及目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率;然后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络,更新网络的参数。
进一步的,在所述步骤(1.1)中,构建多智能体网络的具体操作方法如下:首先,设定OFDMA系统中有N个基站,每个基站有M个用户随机分布在小区内,每个用户被分配一根天线用于接收和发送数据,且每个基站内有L个子信道;然后,构建一个多智能体竞争深度Q网络和一个多智能体深度确定性策略梯度网络,分别用来解决下行多小区OFDMA系统中的子信道分配和功率分配问题。
进一步的,在步骤(1.2)中,建立每个接收用户的信噪比及每个小区获得数据速率的具体操作步骤如下:
首先,用户m接收到来自基站n的第l个子信道的信噪比为:
Figure BDA0002820121920000031
式中,
Figure BDA0002820121920000032
表示用户m接收到来自基站n的第l个子信道的信噪比,
Figure BDA0002820121920000033
表示在t时刻用户m收到来自基站n的第l个子信道的信道增益,
Figure BDA0002820121920000034
表示在t时刻基站n的第l个子信道的发送功率,
Figure BDA0002820121920000035
表示在t时刻用户m收到来自基站k的第l个子信道的信道增益,
Figure BDA0002820121920000036
表示在t时刻基站k的第l个子信道的发送功率,N0表示噪声功率。
然后,得到用户m在基站n的第l个子信道实现的发送速率为:
Figure BDA0002820121920000037
式中,
Figure BDA0002820121920000038
表示用户m在基站n的第l个子信道实现的发送速率;w表示每个子信道的带宽,
Figure BDA0002820121920000039
表示子信道的分配索引;
最后,每个小区实现的传输速率可表示为:
Figure BDA00028201219200000310
式中,Xn(ct,pt)表示每个小区实现的传输速率。
进一步的,在步骤(1.3)中,所述状态获取的具体操作步骤如下:
在训练阶段,获取t时刻各小区内所有用户在不同子信道上的信道增益信息,作为当前状态st,表示如下:
Figure BDA00028201219200000311
在测试阶段,则将本小区内用户的信道增益Si作为输入即可。
进一步的,在步骤(1.4)中,所述子信道分配的具体操作步骤如下所述:
首先,采用多个竞争深度Q网络对下行多小区OFDMA系统进行子信道分配,其中,每个竞争深度Q网络架构均由两个流组成,分别用于估计当前信道增益信息的价值V(si,β)和子信道分配动作的优势A(si,ci,α);式中,β,α分别为上述两个流对应网络的参数;
其次,通过聚合层将两个流组合并产生状态—动作值函数Q(si,ci;α,β),该Q值用来衡量在当前信道增益信息Si下选取子信道分配动作Ci的价值。
进一步的,在步骤(1.5)中,在所述功率分配的过程中,采用多个深度确定性策略梯度网络来分配功率,其中,每个深度确定性策略梯度网络由一个Actor网络和一个Critic网络构成,网络参数设置为θ;其具体操作步骤如下所述:
首先,在集中训练阶段,每个智能体的Actor网络根据本小区信道增益信息Si选择一个功率分配动作Pi
其次,Critic网络收集所有小区的信道增益信息S和功率分配动作P计算一个Q值,用作对Actor网络所选动作Pi的反馈;
最后,Critic网络根据估计的Q值和实际的Q值来进行训练,即最小化以下损失函数:
Figure BDA0002820121920000041
式中,yi表示由该Critic网络内的目标Q网络
Figure BDA0002820121920000042
产生的目标Q值。
进一步的,在步骤(1.6)中,所述反馈获取和参数更新的具体操作方法如下所述:首先,联合MADDQN算法和MADDPG两个网络输出的资源分配方案at={C,P},再根据目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率,即奖励rt
rt=Xn(ct,pt),
然后,再基于多智能体深度强化学习算法最大化长期的累计折扣奖励Rt
Figure BDA0002820121920000043
式中,γ表示折扣因子;最后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络,更新网络的参数。
本发明的有益效果是:本发明是一种基于多智能体深度强化学习的方法,设计了多个DDQN网络和多个DDPG网络来联合解决子信道分配和功率分配问题,并采用集中训练、分散执行的模式,此方法降低了网络的输入输出维度、信令开销以及计算复杂度,可以有效地得到最优资源分配方案,与传统优化方法和普通强化学习方法相比,提高了下行OFDMA系统中各小区的传输速率,进而提高了整个网络的性能。
附图说明
图1是本发明的结构流程图;
图2是本发明中下行多小区OFDMA系统示意图;
图3是本发明中基于多智能体深度强化学习的多小区OFDMA系统资源分配框图;
图4是本发明中选取的第i个小区的子信道分配和功率分配框图;
图5是本发明中基于多智能体深度强化学习的联合子信道和功率分配方法与其他方法的每个小区内所有用户平均传输速率对比示意图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所述;基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,具体步骤包括如下:
步骤(1.1)、构建用于解决下行多小区OFDMA系统资源分配的多智能体网络;
步骤(1.2)、基于OFDMA系统中小区间的干扰,建立每个接收用户的信噪比及每个小区获得数据速率;
步骤(1.3)、状态获取:包括训练阶段及测试阶段;
步骤(1.4)、子信道分配:所述的子信道分配是基于MADDQN算法选择最优子信道分配方案C;所述C={C1,C2,……,CN},式中,C中的元素表示各个小区的子信道分配情况;
步骤(1.5)、功率分配:在得到子信道分配方案C后,再联合MADDPG网络来选择最优的功率分配方案P;所述P={P1,P2,……,PN},P中的元素表示各个小区的功率分配情况;
步骤(1.6)、反馈获取和参数更新:联合MADDQN算法和MADDPG两个网络输出的资源分配方案及目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率;然后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络,更新网络的参数。
本发明是基于多智能体深度强化学习的多小区OFDMA系统的联合子信道分配和功率分配方案;
如图2-4所述,设定OFDMA系统中有N个基站,且每个基站有M个用户随机分布在各小区的中央,每个小区有M个用户随机分布在小区内,每个用户被分配一根天线用于接收和发送数据,且每个基站内有L个子信道;系统的总带宽为B,每个子信道拥有相同的带宽为w,且设定多小区OFDMA频分复用因子为1;用
Figure BDA0002820121920000061
Figure BDA0002820121920000062
分别表示t时刻下用户m在基站n的子信道l上的子信道分配标记和分配的功率;其中,
Figure BDA0002820121920000063
表示t时刻用户m被分配到基站n的第l个子信道上,否则
Figure BDA0002820121920000064
具体的,1、构建一个多智能体竞争深度Q网络(MADDQN)和一个多智能体深度确定性策略梯度网络(MADDPG),分别用来解决下行多小区OFDMA系统中的子信道分配和功率分配问题。
2、基于OFDMA系统中小区间的干扰,建立每个接收用户的信噪比(SINR)及每个小区获得数据速率;其具体操作步骤如下:
首先,用户m接收到来自基站n的第l个子信道的信噪比(SINR)为:
Figure BDA0002820121920000065
式中,
Figure BDA0002820121920000066
表示用户m接收到来自基站n的第l个子信道的信噪比,
Figure BDA0002820121920000067
表示在t时刻用户m收到来自基站n的第l个子信道的信道增益,
Figure BDA0002820121920000068
表示在t时刻基站n的第l个子信道的发送功率,
Figure BDA0002820121920000069
表示在t时刻用户m收到来自基站k的第l个子信道的信道增益,
Figure BDA00028201219200000610
表示在t时刻基站k的第l个子信道的发送功率,N0表示噪声功率。
然后,得到用户m在基站n的第l个子信道实现的发送速率为:
Figure BDA00028201219200000611
式中,
Figure BDA00028201219200000612
表示用户m在基站n的第l个子信道实现的发送速率;w表示每个子信道的带宽,
Figure BDA00028201219200000613
表示子信道的分配索引;
最后,每个小区实现的传输速率可表示为:
Figure BDA00028201219200000614
式中,Xn(ct,pt)表示每个小区实现的传输速率。
即本发明需要优化的目标函数。
步骤(1.3)、状态获取:包括训练阶段及测试阶段;其具体操作步骤如下:
在训练阶段,需要获取t时刻各小区内所有用户在不同子信道上的信道增益信息,作为当前状态st,其表示如下:
Figure BDA0002820121920000071
在测试阶段,则只需要本小区内用户的信道增益Si作为输入即可。
4、子信道分配:本发明所述的子信道分配是基于MADDQN算法选择最优子信道分配方案C;所述C={C1,C2,……,CN},式中,C中的元素表示各个小区的子信道分配情况;其具体操作步骤如下所述:
首先,本发明采用多个竞争深度Q网络对下行多小区OFDMA系统进行子信道分配,其中,每个竞争深度Q网络架构均由两个流组成,分别用于估计当前信道增益信息的价值V(si,β)和子信道分配动作的优势A(si,ci,α);式中,β,α分别为上述两个流对应网络的参数;
其次,通过聚合层将两个流组合并产生状态—动作值函数Q(si,ci;α,β),该Q值用来衡量在当前信道增益信息Si下选取子信道分配动作Ci的价值;
具体的;在集中训练阶段,将所有智能体的经验(当前时刻各小区的信道增益信息、子信道分配动作、各小区所有用户传输速率和下一时刻各小区的信道增益信息)通过一个中心控制器汇聚在一起,训练一个竞争深度Q网络,之后每个智能体的竞争深度Q网络都共享该网络的参数;然后到测试阶段,在时刻t,以本小区的信道增益信息
Figure BDA0002820121920000072
作为输入,基于所有智能体过去的经验,第i个智能体根据输入的信道增益信息并遵循ε-greedy策略从所有子信道分配方案中选择一个作为当前的最佳分配方案,即选择:
Figure BDA0002820121920000073
然后通过随机梯度下降的方法最小化损失函数来更新每个竞争深度Q网络的参数α,β;其中的损失函数表示如下:
Figure BDA0002820121920000074
式中,yi表示由该竞争深度Q网络内的目标Q网络
Figure BDA0002820121920000075
产生的目标Q值。
5、功率分配:在得到子信道分配方案C后,再联合MADDPG网络来选择最优的功率分配方案P;所述P={P1,P2,……,PN},P中的元素表示各个小区的功率分配情况;在所述功率分配的过程中,采用多个深度确定性策略梯度网络来分配功率,其中,每个深度确定性策略梯度网络由一个Actor网络和一个Critic网络构成,网络参数设置为θ;其具体操作步骤如下所述:
首先,在集中训练阶段,每个智能体的Actor网络根据本小区信道增益信息Si选择一个功率分配动作Pi
其次,Critic网络收集所有小区的信道增益信息S和功率分配动作P计算一个Q值,用作对Actor网络所选动作Pi的反馈;
最后,Critic网络根据估计的Q值和实际的Q值来进行训练,即最小化以下损失函数:
Figure BDA0002820121920000081
式中,yi表示由该Critic网络内的目标Q网络
Figure BDA0002820121920000082
产生的目标Q值;
Actor网络则根据Critic网络的反馈来更新策略。在测试阶段,Actor网络只需根据Critic网络提供的本小区信道增益信息Si选择功率分配动作Pi,此时不需要Critic网络的反馈。
6、反馈获取和参数更新:联合MADDQN算法和MADDPG两个网络输出的资源分配方案at={C,P},再根据目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率,即奖励rt
rt=Xn(ct,pt),
本发明的目的是最大化长期的累计折扣奖励(各小区内所有用户的传输速率)Rt
Figure BDA0002820121920000083
式中,γ表示折扣因子;然后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络,更新网络的参数。
本实例考虑多小区多用户下行OFDMA场景,联合优化每个用户的子信道和功率分配方案,本实例仿真场景的主要参数如表1所示;
表1仿真场景主要参数
用户速度v 1m/s
路径损耗模型d(km) 128+37.6log(d)
基站覆盖直径d<sub>s</sub> 500m
总系统带宽 1MHz
每个小区最大传输功率P<sub>max</sub> 10W
噪声功率谱密度 -174dBm/Hz
总回合数 200
每回合包含的时隙数 100
学习速率α 0.001
折扣因子γ 0.9
ε-greedy因子ε 0.9
图5是本发明所述的基于多智能体深度强化学习的联合子信道和功率分配方法与其他方法的一个小区内所有用户传输速率对比示意图;将本发明提出的多智能体深度强化学习算法(MADDQN&MADDPG)与单智能体深度强化学习算法(DQN&DDPG和DDQN&DDPG)的目标函数(每个小区所有用户获得的传输速率)进行了对比。从图中可以看出,由于多智能体深度强化学习算法的参数共享理念和并行计算能力,以及单智能体算法的不稳定性,本发明的算法实现了一个更高的速率。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims (4)

1.基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,其特征在于,具体步骤包括如下:
步骤(1.1)、构建用于解决下行多小区OFDMA系统资源分配的多智能体网络;
构建多智能体网络的具体操作方法如下:首先,设定OFDMA系统中有N个基站,每个基站有M个用户随机分布在小区内,每个用户被分配一根天线用于接收和发送数据,且每个基站内有L个子信道;然后,构建一个多智能体竞争深度Q网络和一个多智能体深度确定性策略梯度网络,分别用来解决下行多小区OFDMA系统中的子信道分配和功率分配问题;
步骤(1.2)、基于OFDMA系统中小区间的干扰,建立每个接收用户的信噪比及每个小区获得数据速率;
步骤(1.3)、状态获取:包括训练阶段及测试阶段;
步骤(1.4)、子信道分配:所述的子信道分配是基于MADDQN算法选择最优子信道分配方案C;所述C={C1,C2,……,CN},式中,C中的元素表示各个小区的子信道分配情况;
所述子信道分配的具体操作步骤如下所述:
首先,采用多个竞争深度Q网络对下行多小区OFDMA系统进行子信道分配,其中,每个竞争深度Q网络架构均由两个流组成,分别用于估计当前信道增益信息的价值V(si,β)和子信道分配动作的优势A(si,ci,α);式中,β,α分别为上述两个流对应网络的参数;
其次,通过聚合层将两个流组合并产生状态—动作值函数Q(si,ci;α,β),该Q值用来衡量在当前信道增益信息Si下选取子信道分配动作Ci的价值;
步骤(1.5)、功率分配:在得到子信道分配方案C后,再联合MADDPG网络来选择最优的功率分配方案P;所述P={P1,P2,……,PN},P中的元素表示各个小区的功率分配情况;
在所述功率分配的过程中,采用多个深度确定性策略梯度网络来分配功率,其中,每个深度确定性策略梯度网络由一个Actor网络和一个Critic网络构成,网络参数设置为θ;其具体操作步骤如下所述:
首先,在集中训练阶段,每个智能体的Actor网络根据本小区信道增益信息Si选择一个功率分配动作Pi
其次,Critic网络收集所有小区的信道增益信息S和功率分配动作P计算一个Q值,用作对Actor网络所选动作Pi的反馈;
最后,Critic网络根据估计的Q值和实际的Q值来进行训练,即最小化以下损失函数:
Figure FDA0003840360380000021
式中,yi表示由该Critic网络内的目标Q网络
Figure FDA0003840360380000022
产生的目标Q值;
Actor网络则根据Critic网络的反馈来更新策略;在测试阶段,Actor网络只需根据Critic网络提供的本小区信道增益信息Si选择功率分配动作Pi,此时不需Critic网络的反馈;
步骤(1.6)、反馈获取和参数更新:联合MADDQN算法和MADDPG两个网络输出的资源分配方案及目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率;然后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络,更新网络的参数。
2.根据权利要求1所述的基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,其特征在于,
在步骤(1.2)中,建立每个接收用户的信噪比及每个小区获得数据速率的具体操作步骤如下:
首先,用户m接收到来自基站n的第l个子信道的信噪比为:
Figure FDA0003840360380000023
式中,
Figure FDA0003840360380000024
表示用户m接收到来自基站n的第l个子信道的信噪比,
Figure FDA0003840360380000025
表示在t时刻用户m收到来自基站n的第l个子信道的信道增益,
Figure FDA0003840360380000026
表示在t时刻基站n的第l个子信道的发送功率,
Figure FDA0003840360380000027
表示在t时刻用户m收到来自基站k的第l个子信道的信道增益,
Figure FDA0003840360380000028
表示在t时刻基站k的第l个子信道的发送功率,N0表示噪声功率;
然后,得到用户m在基站n的第l个子信道实现的发送速率为:
Figure FDA0003840360380000029
式中,
Figure FDA00038403603800000210
表示用户m在基站n的第l个子信道实现的发送速率;w表示每个子信道的带宽,
Figure FDA00038403603800000211
表示子信道的分配索引;
最后,每个小区实现的传输速率表示为:
Figure FDA00038403603800000212
Figure FDA0003840360380000031
式中,Xn(ct,pt)表示每个小区实现的传输速率。
3.根据权利要求2所述的基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,其特征在于,
在步骤(1.3)中,所述状态获取的具体操作步骤如下:
在训练阶段,获取t时刻各小区内所有用户在不同子信道上的信道增益信息,作为当前状态st,表示如下:
Figure FDA0003840360380000032
在测试阶段,则将本小区内用户的信道增益Si作为输入即可。
4.根据权利要求2所述的基于多智能体深度强化学习的下行多小区OFDMA资源分配方法,其特征在于,
在步骤(1.6)中,所述反馈获取和参数更新的具体操作方法如下所述:首先,联合MADDQN算法和MADDPG两个网络输出的资源分配方案at={C,P},再根据目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率,即奖励rt
rt=Xn(ct,pt),
然后,再基于多智能体深度强化学习算法最大化长期的累计折扣奖励Rt
Figure FDA0003840360380000033
式中,γ表示折扣因子;最后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络,更新网络的参数。
CN202011416092.3A 2020-12-07 2020-12-07 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 Active CN112601284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011416092.3A CN112601284B (zh) 2020-12-07 2020-12-07 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011416092.3A CN112601284B (zh) 2020-12-07 2020-12-07 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Publications (2)

Publication Number Publication Date
CN112601284A CN112601284A (zh) 2021-04-02
CN112601284B true CN112601284B (zh) 2023-02-28

Family

ID=75188460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011416092.3A Active CN112601284B (zh) 2020-12-07 2020-12-07 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Country Status (1)

Country Link
CN (1) CN112601284B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113242602B (zh) * 2021-05-10 2022-04-22 内蒙古大学 毫米波大规模mimo-noma系统资源分配方法及系统
CN113301656B (zh) * 2021-05-20 2022-10-04 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113312874B (zh) * 2021-06-04 2022-12-06 福州大学 基于改进深度强化学习的总体布线方法
CN113543342B (zh) * 2021-07-05 2024-03-29 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113490219B (zh) * 2021-07-06 2022-02-25 香港中文大学(深圳) 一种面向超密集组网的动态资源分配方法
CN114389784B (zh) * 2022-01-21 2023-07-21 南京邮电大学 基于迁移学习的下行miso-ofdma协作传输方法
CN114423028B (zh) * 2022-01-29 2023-08-04 南京邮电大学 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法
CN117614573B (zh) * 2024-01-23 2024-03-26 中国人民解放军战略支援部队航天工程大学 基于深度强化学习的联合功率信道分配方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110113179A (zh) * 2019-02-22 2019-08-09 华南理工大学 一种基于深度学习的携能noma系统的资源分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7903537B2 (en) * 2008-03-27 2011-03-08 Mitsubishi Electric Research Labs, Inc. Graph-based method for allocating resources in OFDMA networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110113179A (zh) * 2019-02-22 2019-08-09 华南理工大学 一种基于深度学习的携能noma系统的资源分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法

Also Published As

Publication number Publication date
CN112601284A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112601284B (zh) 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
Lai et al. Efficient resource allocation and power control for LTE-A D2D communication with pure D2D model
CN107613555B (zh) 非正交多址接入蜂窝和终端直通密集网络资源管控方法
CN109617662B (zh) 基于水声ofdm-noma系统下行链路的联合资源优化方法
CN106454920B (zh) 一种lte与d2d混合网络中基于时延保证的资源分配优化算法
CN104717755A (zh) 一种蜂窝网络中引入d2d技术的下行频谱资源分配方法
CN104703270B (zh) 适用于异构无线蜂窝网络的用户接入和功率分配方法
Mitran et al. Queue-aware resource allocation for downlink OFDMA cognitive radio networks
Koutsimanis et al. A dynamic resource allocation scheme for guaranteed bit rate services in OFDMA networks
Rahman et al. Interference avoidance through dynamic downlink OFDMA subchannel allocation using intercell coordination
CN111465054A (zh) 基于效用公平性的d2d通信资源分配方法
CN102752757B (zh) 在频谱聚合过程中按照最小浪费准则优化频谱分配的方法
CN114423028A (zh) 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法
CN106954269A (zh) D2D通信系统中的一种基于QoS的分簇信道分配方法
CN110753365B (zh) 异构蜂窝网络干扰协调方法
Arnob et al. Dual-order resource allocation in 5G H-CRAN using matching theory and ant colony optimization algorithm
Pei et al. A Q-learning based Resource Allocation Algorithm for D2D-Unlicensed communications
CN103281695B (zh) 一种多跳中继网络频谱规划方法
CN112738827B (zh) H-cran中基于谱效最大化的子载波与功率联合优化方法
Navaie On the interference management in wireless multi-user networks
Wang et al. Traffic offloading and resource allocation for PDMA-based integrated satellite/terrestrial networks
CN104660392A (zh) 认知ofdm网络中基于预测的资源联合分配方法
CN111314938A (zh) 一种用于单个蜂窝小区的蜂窝网络时频域资源分配的优化方法
Moretti et al. Distributed radio resource allocation for the downlink of multi-cell OFDMA radio systems
CN104581963A (zh) 一种基于lte的认知网络下行链路资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant