CN114938543A - 一种基于深度强化学习的蜂窝异构网络资源分配方法 - Google Patents

一种基于深度强化学习的蜂窝异构网络资源分配方法 Download PDF

Info

Publication number
CN114938543A
CN114938543A CN202210753100.6A CN202210753100A CN114938543A CN 114938543 A CN114938543 A CN 114938543A CN 202210753100 A CN202210753100 A CN 202210753100A CN 114938543 A CN114938543 A CN 114938543A
Authority
CN
China
Prior art keywords
network
learning
action
state
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210753100.6A
Other languages
English (en)
Inventor
刘洋
赵鑫
连尹博
宋海鹏
龙旭东
罗易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University
Original Assignee
Inner Mongolia University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University filed Critical Inner Mongolia University
Priority to CN202210753100.6A priority Critical patent/CN114938543A/zh
Publication of CN114938543A publication Critical patent/CN114938543A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开了一种基于深度强化学习的蜂窝异构网络资源分配方法,包括如下步骤:S1:构建三层异构网络模型,获得三层异构网络模型的参数信息,其中,参数信息至少包括:可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量;S2:完成构建后,通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。本申请的能够在没有CSI的情况下进行优化,同时也能在大量用户和基站的情况下完成策略收敛。

Description

一种基于深度强化学习的蜂窝异构网络资源分配方法
技术领域
本申请涉及无线网络通信技术领域,尤其涉及一种基于深度强化学习的蜂窝异构网络资源分配方法。
背景技术
异构网络技术作为未来6G的热门研究问题,可以通过宏基站与微基站共享频谱解决频谱短缺,并通过增加微基站提升系统容量。但是在大量基站与海量用户设备共存的异构网络中,由于共用信道和设备密集的原因存在着严重的干扰。对每个用户来说,选择合适的基站和信道可以极大程度的减少干扰。所以解决用户关联和信道分配的联合优化问题意义重大。但是传统算法无法在没有CSI(信道状态信息)的情况下进行优化,同时也无法在大量用户和基站的情况下完成策略收敛。
发明内容
本申请的目的在于提供一种基于深度强化学习的蜂窝异构网络资源分配方法,能够在没有CSI的情况下进行优化,同时也能在大量用户和基站的情况下完成策略收敛。
为达到上述目的,本申请提供一种基于深度强化学习的蜂窝异构网络资源分配方法,包括如下步骤:S1:构建三层异构网络模型,获得三层异构网络模型的参数信息,其中,参数信息至少包括:可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量;S2:完成构建后,通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。
如上的,其中,MAPD3QN算法的具体步骤如下:S201:输入三层异构网络模型中的可选行动列表,其中,可选行动列表包括:各个用户设备关联的基站的列表和信道的列表;S202:假设智能体后,对状态、动作、Sum Tree记忆存储器
Figure BDA0003721663440000011
权值更新间隔N进行初始化;S203:通过在线网络的权值θ对在线网络Qu(s,au;θ)和Double Q网络QDouble Q Net(s′,au;θ)进行初始化;S204:通过在线网络的权值θ更新目标网络的权值θ-,根据目标网络的权值θ-初始化目标网络Qu(s′,a′u;θ-);S205:通过将消息传递至连接的基站初始化状态;S206:智能体在状态s下通过ε-greedy算法从在线网络Qu(s,au;θ)中以概率ε随机选择一个动作au;S207:智能体向选定的基站发送请求,以访问选定的信道;如果基站向用户设备发送可用信道频率的反馈信号,用户设备将获得即时奖励μu(s,au);否则,基站将不回复任何内容,用户设备将获得负奖励;S208:智能体通过将消息传递至连接的基站获取状态s′;S209:智能体将数据(s,auu(s,au),s′)以概率pu的最大优先级顺序存储在编号为H的SumTree记忆存储器中;S210:智能体将SumTree记忆存储器H中的数据(s,auu(s,au),s′)按最小批次的大小分成B个部分,根据概率pu从B个部分中进行采样,获得多个样本;S211:计算所有样本的TD偏差η,更新SumTree记忆存储器H中所有节点的优先级;S212:通过目标网络Qu(s′,a′u;θ-)获取最大Q值的动作au;S213:根据最大Q值的动作au进行学习,获得更新的目标网络
Figure BDA0003721663440000021
S214:对损失函数进行更新,获得最小化损失函数;S215:每学习N次,智能体替换目标网络参数θ-=θ;S216:当完成N次学习后,获得学习N次的状态集合s={1,...,1},完成一轮学习,若当前不是最后一轮学习,则重新执行S201进行新一轮的学习,直到所有轮的学习均完成,则输出最优行动序列。
如上的,其中,三层异构网络模型至少包括:Bm个宏基站、Bp个微型基站、Bf个毫微微基站和U个随机定位的用户设备。
如上的,其中,利用用户设备的最终的奖励Ru(t)来表示即时奖励μu(s,au),用户设备最终的奖励Ru(t)的表达式如下:Ru(t)=wu(t)-ψu;其中,Ru(t)为最终的奖励;wu(t)为用户的收益;
Figure BDA0003721663440000022
为与Bl相关联的总传输成本,Bl表示索引集合B中的第l个基站;ψu为行动选择的成本,ψu>0。
如上的,其中,通过绝对偏差|η|表示TD偏差η的大小,绝对偏差|η|的表达式为:|ηu|=|μu(s,au)+γQu(s′,a′u;θ-)-Qu(s,au;θ)|;其中,|ηu|为第u个用户设备的绝对偏差;μu(s,au)为为即时奖励;μu为第u个用户设备的奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;γ为折扣因子,γ∈[0,1];Qu(s,au;θ)为在线网络;Qu(s,au;θ-)为目标网络,Qu(s′,a′u;θ-)为Qu(s,au;θ-)之后的一个目标网络构架;θ-代表目标网络的权重;θ表示在线网络的权值。
如上的,其中,目标网络
Figure BDA0003721663440000031
的表达式如下:
Figure BDA0003721663440000032
其中,μ为奖励;au为最大Q值的动作;γ为折扣因子;s′∈S,s∈S,S为状态;θ为在线网络中的权值;θ-为目标网络的参数;μu(s,au)为即时奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;otherwise表示此时的状态s不是最后一个状态;if s′is terminal表示如果状态s′是最后一个状态。
如上的,其中,最小化损失函数的表达式如下:
Figure BDA0003721663440000033
其中,
Figure BDA0003721663440000034
其中,Qu(s,au;θ)为在线网络;Qu(s,au;θ-)为目标网络;s′∈S,s∈S,S为状态;θ为在线网络中的权值;θ-为目标网络的参数;μu(s,au)为即时奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;a′∈A,动作a′为动作a之后的一个动作,A为动作;γ为折扣因子;
Figure BDA0003721663440000035
表示深度神经网络的目标网络;
Figure BDA0003721663440000036
表示期望。
如上的,其中,每一次学习完成后,对用户设备是否满足最小服务质量门限进行判断,若满足,则在状态集合中的取值为1;若不满足,则在状态集合中的取值为0;若N次学习的用户设备均满足最小服务质量门限,则获得的状态集合为s={1,...,1}。
如上的,其中,MAPD3QN算法的用户设备的数量U=500,学习的轮数E=500,学习的次数N=50。
如上的,其中,学习率δ为0.005;折扣率为0.9;智能体的数量和信道的数量的比例为5:3。
本申请能够在没有CSI的情况下进行优化,同时也能在大量用户和基站的情况下完成策略收敛。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为三层异构网络模型的示意图;
图2为智能体的强化学习流程;
图3为Double Q网络的Double DQN策略的迭代过程图;
图4为多种基站和用户的示意图;
图5a为不同梯度优化算法对比图;
图5b为不同梯度优化算法对比细节图;
图6a为不同隐藏层数量训练平稳步数对比图;
图6b为不同隐藏层数量训练平稳步数对比细节图;
图7a为不同数量神经元训练平稳步数对比图;
图7b为不同数量神经元训练平稳步数对比细节图;
图8a为不同学习率下训练平稳步数对比图;
图8b为不同学习率下训练平稳步数对比细节图;
图8c为不同学习率下训练平稳步数对比细节图;
图8d为MAPD3QN算法在不同学习率时的和速率对比图;
图9a为不同折扣率下训练平稳步数对比图;
图9b为不同学习率下训练平稳步数对比细节图;
图9c为MAPD3QN算法在不同门限时的和速率对比图;
图10为不同收敛门限值对训练平稳步数的影响对比图;
图11a为不同信道数量训练平稳步数对比图;
图11b为不同信道数量训练平稳步数对比细节图;
图12为不同用户和信道数量训练平稳步数对比图;
图13为不同用户和信道数量和速率对比图;
图14a为不同算法训练平稳步数对比图;
图14b为不同算法和速率对比图;
图15为不同算法在不同信道数量时的和速率对比图;
图16为不同算法在不同用户数量时的和速率对比图;
图17为Qos门限为-5dB时,不同算法在不同信道数量时的和速率对比图;
图18为Qos门限为-5dB时,不同算法在不同用户数量时的和速率对比图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供一种基于深度强化学习的蜂窝异构网络资源分配方法,包括如下步骤:
S1:构建三层异构网络模型,获得三层异构网络模型的参数信息,其中,参数信息至少包括:可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量。
进一步的,如图1所示,三层异构网络模型至少包括:Bm个宏基站(Macro BaseStations,MBSs)、Bp个微型基站(Pico Base Stations,PBSs)、Bf个毫微微基站(Femto BaseStations,FBSs)和U个随机定位的用户设备(User Equipments,UEs),其中,脚标s表示复数。
具体的,三层异构网络模型中的所有的基站的表达式为:
Figure BDA0003721663440000051
其中,
Figure BDA0003721663440000052
表示1~Bm个宏基站(MBS);
Figure BDA0003721663440000053
表示1~Bp个微型基站(PBS);
Figure BDA0003721663440000054
表示1~Bf个毫微微基站。
其中,基站(Base Stations,BSs)的索引集合B为:
B={0,1,...L-1};
其中,L为基站的总数,L=Bm+Bp+Bf;Bm为宏基站的个数,Bp为微型基站的个数,Bf为毫微微基站的格式。
假设基站在K个共享正交信道上工作。假设每个用户设备(UE)在任何时候最多只能选择一个基站,表达式如下:
Figure BDA0003721663440000061
其中,
Figure BDA0003721663440000062
表示第u个用户设备的关联向量,
Figure BDA0003721663440000063
U=[1,U],U为用户设备的个数;
Figure BDA0003721663440000064
表示第u个用户设备与第0个基站的用户关联向量;
Figure BDA0003721663440000065
表示第u个用户设备与第L-1个基站的用户关联向量。
假设每个用户设备在任何时候最多只能选择一个信道,表达式如下:
Figure BDA0003721663440000066
其中,
Figure BDA0003721663440000067
表示第t时刻第u个用户设备在信道k上的的信道分配向量,
Figure BDA0003721663440000068
U=[1,U],K=[1,K],K为共享正交的信道的个数;
Figure BDA0003721663440000069
表示表示第u个用户设备与第0个信道的信道分配向量;
Figure BDA00037216634400000610
表示表示第u个用户设备与第K个信道的信道分配向量。
定义发射功率的集合Pl,u(t)为:
Figure BDA00037216634400000611
u∈U,U=[1,U],l∈B,k∈K,K=[1,K];
Figure BDA00037216634400000612
表示第u个用户设备与第l个基站相关联时使用第1个信道时的功率;
Figure BDA00037216634400000613
表示表示第u个用户设备与第l个基站相关联时使用第K个信道时的功率。第u个用户设备通过信道Ck(Ck表示第k个信道)与其相关联的基站Bl(Bl表示B集合中的第l个基站)这一链路的信干噪比(signal to interference plus noise ratio,SINR)
Figure BDA00037216634400000614
的定义如下:
Figure BDA00037216634400000615
其中,
Figure BDA00037216634400000616
是t时刻B集合中的第l个基站与第u个用户设备之间在信道k上的信道增益;
Figure BDA00037216634400000617
是t时刻B集合中的第m个基站与第u个用户设备之间在信道k上的信道增益;
Figure BDA00037216634400000618
为t时刻第m个BS和第u个用户设备的关联向量;
Figure BDA0003721663440000071
为t时刻第l个BS和第u个用户设备的关联向量;
Figure BDA0003721663440000072
表示第t时刻第u个用户设备在信道k上的的信道分配向量;
Figure BDA0003721663440000073
表示t时刻第m个基站与第u个用户设备之间在信道k上的发射功率向量;
Figure BDA0003721663440000074
表示第l个基站与第u个用户设备之间在信道k上的发射功率向量;W表示信道带宽,N0表示噪声功率谱密度。BS属于BSs。
t时刻B集合中的第l个基站与第u个用户设备之间在信道k上的的下行链路容量
Figure BDA0003721663440000075
表示为:
Figure BDA0003721663440000076
因此,t时刻第u个用户设备的总传输容量ru(t)表示为:
Figure BDA0003721663440000077
S2:完成构建后,通过MAPD3QN算法(多智能体优先经验回放决斗网络和深度双Q网络算法)完成三层异构网络模型中的用户关联和信道分配的联合优化。
进一步的,如表1所示,MAPD3QN算法的具体步骤如下:
S201:输入三层异构网络模型中的可选行动列表,其中,可选行动列表包括:各个用户设备关联的基站的列表和信道的列表。
S202:假设智能体后,对状态、动作、Sum Tree记忆存储器
Figure BDA0003721663440000078
权值更新间隔N进行初始化。
具体的,如图2所示,假设环境中存在一个可以做出行为的智能体(Agent),用S代表Agent在一个时刻有特定的状态(State);用A代表Agent在环境中做出动作(Action);R表示这些动作有时会带来奖励(Reward);P代表在不断的学习过程中(初始状态S0采取动作A0后,改变了环境,根据状态S0或动作A0获得了奖励R0,并使Agent进入了新的状态S1,在新一轮的学习中Agent又采取新的动作A1,如此不断循环学习下去),形成了最终的策略(Policy)。在MAPD3QN算法中的强化学习的最终目的是通过Agent与环境的交互,学习到一个从环境状态到动作的映射,即策略π,因此,强化学习通过引入状态价值函数来确定策略π的效果,从而实现策略的最大化长期效益。每一轮学习完成后,均需要对状态和动作进行初始化,即:在程序中对状态和动作的初始状态进行定义,在程序的执行过程中对状态和动作进行赋值。
进一步的,考虑策略π的状态转移概率为p(s′|s,a),s′∈S,s∈S,a∈A,则状态价值函数Vπ(s)的表达式如下:
Figure BDA0003721663440000081
其中,π(s)表示状态s的策略;p(s′|s,π(s))表示转移概率;Vπ(s′)为状态s之后的一个状态s′的状态价值函数;r∈R;γ为折扣因子,γ∈[0,1]。
进一步的,状态值函数Vπ(s)在遵循策略π时描述的是一个状态的值,而描述策略π在给定状态(State)下的动作(Action)的值则需要定义为行动值函数Qπ(s,a)。在策略π的状态转移概率为p(s′|s,a)时,可得行动值函数Qπ(s,a)的表达式如下:
Figure BDA0003721663440000082
其中,r(s′|s,a)为与上一个状态和动作有关的奖励R的表达式;a′∈A,动作a′为动作a之后的一个动作;Qπ(s′,a′)为下一个状态和动作的行动值函数。
进一步的,每一轮学习完成后,均需要对Sum Tree(求和树)记忆存储器
Figure BDA0003721663440000083
(其中,H为求和树的编号)进行初始化。
进一步的,每一轮学习完成后,均需要对权值更新间隔N进行初始化,目标网络的权值更新间隔N越大,算法就会越稳定,目标网络更新频率越慢,算法收敛速度会越慢。
S203:通过在线网络的权值θ对在线网络Qu(s,au;θ)和Double Q网络QDouble Q Net(s′,au;θ)进行初始化。
具体的,通过ε-greedy算法从在线网络Qu(s,au;θ)中选择出动作au,同时不断更新在线网络中的权值θ;即以概率ε随机选择一个动作au;而每一轮学习完成后,均需要通过更新的在线网络的权值θ对当前的在线网络Qu(s,au;θ)进行初始化。
如图3所示,DoubleQ网络(DoubleDeepQNetwork,双重深度Q网络)在DQN(DeepQNetwork,一种融合了神经网络和Qlearning的强化学习方法)目标网络的目标网络Qu(s',a';θ-)中新增加了一个Q网络,将DQN目标网络中直接选取最大Qu(s',a';θ-)的方式转变为DoubleDQN先通过新增加的Q网络找到最优动作au后,再将au代入得到Qu(s',a';θ-)。DoubleDQN通过与在线网络的权值θ相同的Double Q网络
Figure BDA0003721663440000091
找到能够获得最大Q值的动作au;再计算这个动作au在权值为θ-的目标Q网络QDouble Q Net,u(s,au;θ-)中的Q值,利用Double Q网络监督目标Q网络。
其中,DQN目标网络
Figure BDA0003721663440000092
的表达式为:
Figure BDA0003721663440000093
S204:通过在线网络的权值θ更新目标网络的权值θ-,根据目标网络的权值θ-初始化目标网络Qu(s′,a′u;θ-)。
具体的,θ-为目标网络的参数,在N次学习后,由权值θ更新权值θ-
进一步的,目标网络Qu(s′,a′u;θ-)的表达式为:
Figure BDA0003721663440000094
其中,QTargetQ Net,u()表示增加的Q网络;
Figure BDA0003721663440000095
表示最大化目标网络的动作au
具体的,目标网络Qu(s′,a′u;θ-)表示QDN的目标网络;增加的Q网络QTargetQ Net,u()表示doubleDQN在DQN中的目标网络中增加的Q网络。
S205:通过将消息传递至连接的基站初始化状态。
具体的,将消息传递至连接的基站,通过连接的基站散发至每个基站,从而实现所有基站的更新。
S206:智能体在状态s下通过ε-greedy算法从在线网络Qu(s,au;θ)中以概率ε随机选择一个动作au
S207:智能体向选定的基站发送请求,以访问选定的信道;如果基站向用户设备发送可用信道频率的反馈信号,用户设备将获得即时奖励μu(s,au);否则,基站将不回复任何内容,用户设备将获得负奖励。
具体的,如果基站向用户设备发送可用信道频率的反馈信号,则表示该基站可以连接,且连接成功,只有连接成功才能获得即时奖励;如果基站不向用户设备发送可用信道频率的反馈信号,则表示该基站不可以连接,连接失败,不能获得即时奖励。
进一步的,利用用户设备的最终的奖励Ru(t)来表示即时奖励μu(s,au),用户设备最终的奖励Ru(t)的表达式如下:
Ru(t)=wu(t)-ψu
其中,
Figure BDA0003721663440000101
其中,
Figure BDA0003721663440000102
其中,Ru(t)为最终的奖励;wu(t)为用户的收益,即获得的收益和传输成本之间的差额;
Figure BDA0003721663440000103
为与Bl相关联的总传输成本,Bl表示索引集合B中的第l个基站;-ψu为负奖励;ψu为行动选择的成本,ψu>0;λl表示BS的Bl的发射功率的成本;ρu是传输速率的收益率;ru为第u个用户设备的传容量输。
S208:智能体通过将消息传递至连接的基站获取状态s′。
具体的,通过将消息传递至连接的基站获取状态s′,设置s←s′,即:状态s′为状态s之后的一个状态。
S209:智能体将数据(s,auu(s,au),s′)以概率pu的最大优先级顺序存储在编号为H的Sum Tree记忆存储器中。
具体的,Sum Tree是一种树状数据结构,运用求和树的技术,将(s,auu(s,au),s′)以数据的形式和绝对偏差|η|一同存储于编号为H的Sum Tree记忆存储器。其中,定义求和树以子节点数字大小的方式存入数据相应的优先级,父节点根据子节点的大小生成,即父节点是所有子节点大小之和,根节点则是所有优先级数字的总和。
S210:智能体将Sum Tree记忆存储器H中的数据(s,auu(s,au),s′)按最小批次的大小分成B个部分,根据概率pu从B个部分中进行采样,获得多个样本。
S211:计算所有样本的TD偏差η,更新Sum Tree记忆存储器H中所有节点的优先级。
引入优先级经验回放技术,通过对数据赋予优先级的方式,对强化学习效率高的数据经验给予更高的采样概率。TD(时间差分法)偏差η的大小决定了经验的重要性,TD偏差越大,强化学习时的更新量和对反向传播时的作用就越大,则该次学习效率越高。
进一步的,通过绝对偏差|η|表示TD偏差η的大小,绝对偏差|η|的表达式为:
u|=|μu(s,au)+γQu(s′,a′u;θ-)-Qu(s,au;θ)|;
其中,|ηu|为第u个用户设备的绝对偏差;μu(s,au)为即时奖励;μu为第u个用户设备的奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;γ为折扣因子,γ∈[0,1];Qu(s,au;θ)为在线网络;Qu(s,au;θ-)为目标网络,Qu(s′,a′u;θ-)为Qu(s,au;θ-)之后的一个目标网络构架;θ-代表目标网络的权重;θ表示在线网络的权值。
S212:通过目标网络Qu(s′,a′u;θ-)获取最大Q值的动作au
具体的,定义
Figure BDA0003721663440000111
计算动作au在参数为θ-的目标网络QDouble Q Net,u(s,au;θ-)中的Q值,获取最大Q值的动作au为步骤S213做准备。
S213:根据最大Q值的动作au进行学习,获得更新的目标网络
Figure BDA0003721663440000112
进一步的,目标网络
Figure BDA0003721663440000113
的表达式如下:
Figure BDA0003721663440000114
其中,μ为奖励;au为最大Q值的动作;γ为折扣因子;s′∈S,s∈S,S为状态;θ为在线网络中的权值;θ-为目标网络的参数;μu(s,au)为即时奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;otherwise表示此时的状态s不是最后一个状态;if s′is terminal表示如果状态s′是最后一个状态。
S214:对损失函数进行更新,获得最小化损失函数。
具体的,用梯度下降法更新损失函数。
进一步的,最小化损失函数的表达式如下:
Figure BDA0003721663440000121
其中,
Figure BDA0003721663440000122
其中,Qu(s,au;θ)为在线网络;Qu(s,au;θ-)为目标网络;s′∈S,s∈S,S为状态;θ为在线网络中的权值;θ-为目标网络的参数;μu(s,au)为即时奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;a′∈A,动作a′为动作a之后的一个动作,A为动作;γ为折扣因子;
Figure BDA0003721663440000123
表示深度神经网络(DNN)的目标网络;
Figure BDA0003721663440000124
表示期望。
S215:每学习N次,智能体替换目标网络参数θ-=θ。
具体的,在N次学习后,由权值θ更新权值θ-,即更新动作-价值的评价标准,动作-价值的评价标准为算法中的评价标准,算法根据动作-价值的评价标准进行学习。
S216:当完成N次学习后,获得学习N次的状态集合s={1,...,1},完成一轮学习,若当前不是最后一轮学习,则重新执行S201进行新一轮的学习,直到所有轮的学习均完成,则输出最优行动序列。
进一步的,每一次学习完成后,对用户设备是否满足最小服务质量(Qos)门限进行判断,若满足,则在状态集合中的取值为1;若不满足,则在状态集合中的取值为0。若N次学习的用户设备均满足最小服务质量门限,则获得的状态集合为s={1,...,1},完成一轮学习,若当前不是最后一轮学习,则重新执行S201进行新一轮的学习,直到所有轮的学习均完成,则输出最优行动序列。
其中,自行学习包括U个用户设备,每个用户设备需要进行E轮学习,每轮学习包括N次学习。E的具体数量根据实际情况而定,本申请优选为E=500;N的具体数量根据实际情况而定,本申请优选为N=50。
其中,最优行动序列包括:满足最小服务质量(Qos)门限的用户设备关联的基站的列表和信道的列表。
进一步的,第u个用户设备的信干噪比SINRu不小于最小服务质量(Qos)门限Ωu,表达式如下:
Figure BDA0003721663440000131
其中,
Figure BDA0003721663440000132
为第u个用户设备通过信道Ck(Ck表示第k个信道)与其相关联的基站Bl(Bl表示B集合中的第l个基站)这一链路的信干噪比。
Figure BDA0003721663440000133
Figure BDA0003721663440000141
表1
进一步的,基于深度强化学习的蜂窝异构网络资源分配方法还包括:通过计算机进行仿真,根据仿真来观测MAPD3QN算法的学习情况,获得仿真结果,根据仿真结果确定学习完成后MAPD3QN算法的实际效果。
具体的,作为一个实施例,在仿真过程中,仿真实验平台选择十代i7 CPU的计算机作为硬件平台,深度神经网络使用Python 3.7版本下的Pytorch作为软件平台。在进行仿真之前,需先对仿真环境的参数进行设置,如表2所示:
Figure BDA0003721663440000142
表2
如图4所示,仿真中,网络由2个宏基站(Macro Base Stations,MBSs)、8个微型基站(Pico Base Stations,PBSs)、16个毫微微基站(Femto Base Stations,FBSs)和50-500个UE组成,BS半径分别为500m、100m和30m,每次仿真UE都是随机变化的,蒙特卡洛实验数设为20。
采用仿真分析方式获取不同学习超参数下的训练效率的实验如下:
实验一:不同优化算法的迭代次数
如图5a和图5b所示,从各种优化策略下的训练情况可以看出,训练步数较少时,适应性矩估计梯度(adaptive moment estimation,Adam)和均方差传播梯度(RMSProp)的收敛速度基本相同,但是通过细节图可以看出RMSprop的优势所在,而自适应梯度优化算法(AdaGrad)收敛速度较慢,总体来说RMSprop有收敛速度快和收敛后较为稳定的优点。
进一步的,本申请选择RMSProp优化策略。
实验二:不同优化算法的迭代次数
1、不同隐藏层
如图6a和6b所示,从各DNN结构层的训练步骤可以看出效果最好的是layer=4时;同时,当隐藏层数过大时,优化问题趋于局部最优,而隐藏层过少又不易提取出关键信息,因此需要在一个特定的问题中选择一个合适的隐藏层。
进一步的,在联合优化问题中,layer=4收敛速度较快且较为稳定,因此四层网络是最佳参数。
2、不同神经网络
如图7a和7b所示,从总体上看64-32-32-32收敛速度最快,且收敛后较为平稳。同时,当神经元数量过大时,优化问题可能会导致过拟合,增加训练时间,神经元过小又不容易提取到关键信息。因此,选择64、32、32和32个神经元的4层网络结构。
实验三:不同学习率下的收敛效果
从图8a、图8b、图8c和图8d可以看出,考虑到MAPD3QN算法的实时性和收敛的平稳性,选择学习率δ为0.005,收敛效果较好、较为稳定。
进一步的,针对用户关联和信道选择联合优化问题所选取的学习率为0.005。
实验四:不同学习率下的收敛效果
如图9(a)、9(b)和9(c)所示,当折扣率为0.9时,能达到了最优的和速率。
实验五:不同Qos门限对系统的影响
实验五讨论不同收敛Qos门限对收敛平稳后和速率的影响。从图10可以看出在SINR为-5dB和10dB时,效果不太稳定,在不断学习的过程中出现了大幅度的波动。选择Ω=5作为后面实验的参数,不只因为此时的系统容量最大,还因为SINR=5dB在通信中是一个衡量通信质量好坏较为合理的阈值。
实验六:不同信道数对算法收敛及和速率的影响
如图11(a)所示,信道数量为20时,无法找到满足Qos的策略,原因是信道数量小共用信道的UE过多,难以满足SINR的Qos门限。如图11(b)所示,信道数量为30的时可以满足UEs的QoS要求的最低信道数量,因此,在Agent=50的情况下信道数量选择30,在其他数量的Agent情况下,保持Agent和信道数量5:3的比例。
实验七:用户和信道数据不同时的收敛效果
经过上述实验对算法超参数的设定,实验七测试超参数的性能。如图12所示,随着Agents数量增加,收敛的迭代次数有相应的增加,但是均可以在很快的时间内收敛,同时收敛后较为平稳,没有过大的波动。
实验八:不同用户数量时的和速率
如图13所示,Agent为500的情况下,在算法进行学习后,和速率有一个明显的上升,说明算法对系统和速率的增长十分有效,在算法收敛后,这种和速率上的增长停止;同时在不断迭代中,保持较为平稳的和速率,这种稳定性在Agent数量小于500更加明显,这证明算法对用户关联和信道分配做出的决策给通信系统带来了稳定的系统性能。
通过仿真实验对所提出的MAPD3QN算法的性能进行评估。本文选择DQN算法、MADDQN算法、随机分配方法、Double DQN算法和贪婪分配算法进行对比。MAPD3QN的超参数如表3所示。
Figure BDA0003721663440000161
表3
实验八:用户数量为500时,不同算法收敛情况对比
仿真用户数量为500,属于用户数量极高的情况,如14(a)所示,DQN、Double DQN、Random算法以及Greedy算法均无法使所有UE满足Qos门限,无法完成最终的收敛,而MADDQN无法完成最终的平稳收敛,主要是因为Dueling DQN将Q函数分为了A和V两部分,相比于DQN和Double DQN可以快速提取出关键信息;但是在用户数量极高的情况下,也不足以学习到平稳收敛的策略。相比之下,本申请的MAPD3QN算法在优先级经验回放技术的加持下,仅仅20次迭代就完成了满足Qos门限的策略,并且在后面的步骤中,保持平稳。如图14(b)所示,本申请的MAPD3QN和速率(系统容量)保持平稳且高于其他几种算法。
实验九:Qos=5时,不同信道数量时,不同算法和速率(系统容量)对比
本仿真主要为了对比不同信道数量时,不同算法的增长情况。如图15所示,随着信道数量的增长,系统容量的增长速度在不断减缓,是因为信道增加后,共用信道的情况会减少,因此系统中的干扰也会减小;但是当信道数量趋近于用户数量时,共用信道的情况将趋于消失,即增加信道带来的系统容量收益会越来越小。
实验十:Qos=5时,不同用户数量时,不同算法和速率对比
如图16所示,在固定的信道数量下,随着用户数量的增加,系统容量的增长速度在不断减缓,主要是因为随着用户数量的增加,共用信道的情况会不断增加,从而会造成巨大的干扰,虽然增加新用户会使整体系统容量增加,但是由于共用信道的干扰也随之增加,因此增加用户带来的系统容量收益会越来越小。本申请的MAD3QN算法随着用户的增加趋于平稳,但是在不同用户情况下均高于其他算法。
实验十一:Qos门限为-5dB时,不同信道数量时,不同算法和速率(系统容量)对比
如图17所示,随着信道数量的增加,和速率也在增加,但是增速不断减缓,原因是信道内干扰随着信道数量的增加也会不断减少,这与Qos=5dB时的趋势基本相同。同时可以看出在信道数量非常少的时候,几种算法所取得的和速率非常相近,而随着信道数量的增加,其他算法的与MAPD3QN算法差距越来越来,因为信道数量极少的情况选择的种类也较少,而在动作空间和状态空间增加时,MAPD3QN算法的优势就逐渐体现出来了。
实验十二:Qos门限为-5dB时,不同用户数量时,不同算法和速率(系统容量)对比
如图18所示,不同算法在用户数量由10增加到50的和速率对比,在信道资源充足的时候,随着用户数量的增加,和速率得到了接近于线性的增加,而到信道资源紧缺时,用户增加带来的系统和速率增长变得极其有限,但是MAPD3QN算法仍获得了相当不错的系统和速率。
实验十三:不同Qos门限(Qos=5,-5)时算法运行时间(表)
Figure BDA0003721663440000181
表4 不同Qos门限时不同算法运行时间
如表4所示,以明显看出当Qos标准降低后,算法运行时间减少很多。同时因为MAPD3QN收敛速度快,在两种Qos门限时运行速度均为最快。MADDQN因为使用了Dueling架构,可以快速提取出信息完成收敛,所以运行时间比DQN、Double DQN短很多。
本申请能够在没有CSI的情况下进行优化,同时也能在大量用户和基站的情况下完成策略收敛。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,包括如下步骤:
S1:构建三层异构网络模型,获得三层异构网络模型的参数信息,其中,参数信息至少包括:可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量;
S2:完成构建后,通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。
2.根据权利要求1所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,MAPD3QN算法的具体步骤如下:
S201:输入三层异构网络模型中的可选行动列表,其中,可选行动列表包括:各个用户设备关联的基站的列表和信道的列表;
S202:假设智能体后,对状态、动作、Sum Tree记忆存储器
Figure FDA0003721663430000011
权值更新间隔N进行初始化;
S203:通过在线网络的权值θ对在线网络Qu(s,au;θ)和Double Q网络QDoubleQ Net(s′,au;θ)进行初始化;
S204:通过在线网络的权值θ更新目标网络的权值θ-,根据目标网络的权值θ-初始化目标网络Qu(s′,a′u;θ-);
S205:通过将消息传递至连接的基站初始化状态;
S206:智能体在状态s下通过ε-greedy算法从在线网络Qu(s,au;θ)中以概率ε随机选择一个动作au
S207:智能体向选定的基站发送请求,以访问选定的信道;如果基站向用户设备发送可用信道频率的反馈信号,用户设备将获得即时奖励μu(s,au);否则,基站将不回复任何内容,用户设备将获得负奖励;
S208:智能体通过将消息传递至连接的基站获取状态s′;
S209:智能体将数据(s,auu(s,au),s′)以概率pu的最大优先级顺序存储在编号为H的SumTree记忆存储器中;
S210:智能体将SumTree记忆存储器H中的数据(s,auu(s,au),s′)按最小批次的大小分成B个部分,根据概率pu从B个部分中进行采样,获得多个样本;
S211:计算所有样本的TD偏差η,更新SumTree记忆存储器H中所有节点的优先级;
S212:通过目标网络Qu(s′,a′u;θ-)获取最大Q值的动作au
S213:根据最大Q值的动作au进行学习,获得更新的目标网络
Figure FDA0003721663430000021
S214:对损失函数进行更新,获得最小化损失函数;
S215:每学习N次,智能体替换目标网络参数θ-=θ;
S216:当完成N次学习后,获得学习N次的状态集合s={1,...,1},完成一轮学习,若当前不是最后一轮学习,则重新执行S201进行新一轮的学习,直到所有轮的学习均完成,则输出最优行动序列。
3.根据权利要求2所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,三层异构网络模型至少包括:Bm个宏基站、Bp个微型基站、Bf个毫微微基站和U个随机定位的用户设备。
4.根据权利要求3所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,利用用户设备的最终的奖励Ru(t)来表示即时奖励μu(s,au),用户设备最终的奖励Ru(t)的表达式如下:
Ru(t)=wu(t)-ψu
其中,Ru(t)为最终的奖励;wu(t)为用户的收益;
Figure FDA0003721663430000022
为与Bl相关联的总传输成本,Bl表示索引集合B中的第l个基站;ψu为行动选择的成本,ψu>0。
5.根据权利要求4所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,通过绝对偏差|η|表示TD偏差η的大小,绝对偏差|η|的表达式为:
u|=|μu(s,au)+γQu(s′,a′u;θ-)-Qu(s,au;θ)|;
其中,|ηu|为第u个用户设备的绝对偏差;μu(s,au)为为即时奖励;μu为第u个用户设备的奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;γ为折扣因子,γ∈[0,1];Qu(s,au;θ)为在线网络;Qu(s,au;θ-)为目标网络,Qu(s′,a′u;θ-)为Qu(s,au;θ-)之后的一个目标网络构架;θ-代表目标网络的权重;θ表示在线网络的权值。
6.根据权利要求5所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,目标网络
Figure FDA0003721663430000031
的表达式如下:
Figure FDA0003721663430000032
其中,μ为奖励;au为最大Q值的动作;γ为折扣因子;s′∈S,s∈S,S为状态;θ为在线网络中的权值;θ-为目标网络的参数;μu(s,au)为即时奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;otherwise表示此时的状态s不是最后一个状态;if s′ isterminal表示如果状态s′是最后一个状态。
7.根据权利要求6所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,最小化损失函数的表达式如下:
Figure FDA0003721663430000033
其中,
Figure FDA0003721663430000034
其中,Qu(s,au;θ)为在线网络;Qu(s,au;θ-)为目标网络;s′∈S,s∈S,S为状态;θ为在线网络中的权值;θ-为目标网络的参数;μu(s,au)为即时奖励;au为第u个用户设备的动作,au∈Au,Au为每个用户设备的动作向量;a′∈A,动作a′为动作a之后的一个动作,A为动作;γ为折扣因子;
Figure FDA0003721663430000035
表示深度神经网络的目标网络;
Figure FDA0003721663430000036
表示期望。
8.根据权利要求7所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,每一次学习完成后,对用户设备是否满足最小服务质量门限进行判断,若满足,则在状态集合中的取值为1;若不满足,则在状态集合中的取值为0;若N次学习的用户设备均满足最小服务质量门限,则获得的状态集合为s={1,...,1}。
9.根据权利要求8所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,MAPD3QN算法的用户设备的数量U=500,学习的轮数E=500,学习的次数N=50。
10.根据权利要求9所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,学习率δ为0.005;折扣率为0.9;智能体的数量和信道的数量的比例为5:3。
CN202210753100.6A 2022-06-29 2022-06-29 一种基于深度强化学习的蜂窝异构网络资源分配方法 Pending CN114938543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210753100.6A CN114938543A (zh) 2022-06-29 2022-06-29 一种基于深度强化学习的蜂窝异构网络资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210753100.6A CN114938543A (zh) 2022-06-29 2022-06-29 一种基于深度强化学习的蜂窝异构网络资源分配方法

Publications (1)

Publication Number Publication Date
CN114938543A true CN114938543A (zh) 2022-08-23

Family

ID=82868818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210753100.6A Pending CN114938543A (zh) 2022-06-29 2022-06-29 一种基于深度强化学习的蜂窝异构网络资源分配方法

Country Status (1)

Country Link
CN (1) CN114938543A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117545094A (zh) * 2024-01-09 2024-02-09 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117545094A (zh) * 2024-01-09 2024-02-09 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法
CN117545094B (zh) * 2024-01-09 2024-03-26 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN111970733B (zh) 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111585816B (zh) 一种基于自适应遗传算法的任务卸载决策方法
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN112367683B (zh) 基于改进深度q学习的网络选择方法
CN107690176A (zh) 一种基于q学习算法的网络选择方法
CN109787696B (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN112788605A (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN115277689A (zh) 一种基于分布式联邦学习的云边网络通信优化方法及系统
Jiang et al. Dynamic user pairing and power allocation for NOMA with deep reinforcement learning
CN114938543A (zh) 一种基于深度强化学习的蜂窝异构网络资源分配方法
Li et al. Parallel deep reinforcement learning based online user association optimization in heterogeneous networks
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
CN117098189A (zh) 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法
Gao et al. Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users
Zheng et al. An adaptive backoff selection scheme based on Q-learning for CSMA/CA
Dai et al. Contextual multi-armed bandit for cache-aware decoupled multiple association in UDNs: A deep learning approach
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
Liu et al. Spectrum allocation optimization for cognitive radio networks using binary firefly algorithm
CN116634500A (zh) 基于超图匹配计算与通信容量增强的d2d计算卸载方法
CN115038155B (zh) 一种超密集多接入点的动态协同传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination