CN115066036A - 一种基于多智能体协作的多基站排队式前导码分配方法 - Google Patents
一种基于多智能体协作的多基站排队式前导码分配方法 Download PDFInfo
- Publication number
- CN115066036A CN115066036A CN202210570855.2A CN202210570855A CN115066036A CN 115066036 A CN115066036 A CN 115066036A CN 202210570855 A CN202210570855 A CN 202210570855A CN 115066036 A CN115066036 A CN 115066036A
- Authority
- CN
- China
- Prior art keywords
- agent
- agents
- lead code
- action
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 11
- 230000001174 ascending effect Effects 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 abstract description 3
- 230000036963 noncompetitive effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access
- H04W74/08—Non-scheduled access, e.g. ALOHA
- H04W74/0833—Random access procedures, e.g. with 4-step access
- H04W74/0841—Random access procedures, e.g. with 4-step access with collision treatment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/086—Load balancing or load distribution among access entities
- H04W28/0861—Load balancing or load distribution among access entities between base stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多智能体协作的多基站排队式前导码分配方法,针对海量智能体随机接入时发生的拥塞问题,在多基站多小区的场景下,提出了一种非竞争的前导码分配方法。基于深度强化学习将设备排队式地选择前导码,并采用联邦学习的训练方法,有效解决了竞争接入时会发生的拥塞问题。首先对新接入的智能体进行分组,根据延迟容忍时间来设定优先级;其次基于多智能的强化学习算法将智能体合理分配给空闲队列;最后采用联邦训练方法,通过神经网络梯度的平均优化来同步优化每个智能体的神经网络,完成各智能体的前导码分配。
Description
技术领域
本发明属于无线通信技术领域,具体涉及物联网大规模机器类设备随机接入时的一种前导码分配方法。
背景技术
大规模机器类通信(mMTC)是第五代移动通信技术的三大应用场景之一。机器类型通信是第五代新无线电(5G NR)的一项关键技术,在远程医疗,自动驾驶,智能交通等重要且关键的应用场景发挥巨大的作用。机器类通信(MTC)也被称为M2M通信,与人与人(H2H)通信不同,M2M通信主要发生在上行链路,终端数量庞大,持续时间短且次数频繁。传统的接入方法下,MTC设备总是会选择最佳信号质量的演进型Node B进行接入,大量的MTC设备进行碰撞,造成网络的拥塞,严重影响设备的接入成功率。因此,如何为大规模MTCD的随机接入设计合理的方案成为5G移动通信系统的关键。最有前途的解决方案是使用强化学习来制定一套前导码分配方案,让设备做决策,选择合适的前导码,最大限度减少随机接入时发生的冲突。这些方案中,设备互相竞争前导码,在设备数量越来越大的情况下,冲突无法避免,并且接入成功率将越来越低。因此需要制定合理的前导码分配方案来为大规模MTCD随机接入减少甚至避免冲突。
发明内容
本发明目的:在于提供针一种基于多智能体协作的多基站排队式前导码分配方法,针对海量多智能体随机接入时发生的拥塞问题,在多基站多小区的场景下,提出了一种非竞争的前导码分配方法。
为实现以上功能,本发明设计一种基于多智能体协作的多基站排队式前导码分配方法,目标区域内包括由至少两个基站组成的网络,每个基站分别均包括前导码池,针对接入网络的各智能体,执行以下步骤S1-步骤S3,完成各智能体的前导码分配;
S1.根据各智能体的业务种类,对接入网络的各智能体进行分组,分别针对各组智能体,计算平均延迟容忍度,并按照升序排列各组智能体的平均延迟容忍度,获得优先级集;
S2.分别针对各组智能体,基于强化学习算法对各组中的各智能体进行前导码分配;
其中,每个前导码对应一个队列,以各队列的最大排队数构建状态空间S,以智能体选择前导码进行排队的动作构建动作空间A,以状态空间S为输入,基于深度神经网络,结合Q学习方法,智能体基于贪婪策略,以收益最大化为目标,选择动作空间A中的动作作为智能体的可执行动作,以智能体的可执行动作的Q值为输出,构建本地智能体前导码分配模型;
S3.基于各智能体对应的本地智能体前导码分配模型、以及联邦智能体,构建全局智能体前导码分配模型,基于联邦学习方法,对全局智能体前导码分配模型进行训练,获得训练好的全局智能体前导码分配模型,应用全局智能体前导码分配模型,完成接入网络的各智能体的前导码分配。
作为本发明的一种优选技术方案:步骤S1中根据业务种类,对接入网络的各智能体进行分组,分别针对各组智能体,计算平均延迟容忍度,并按照升序排列各组智能体的平均延迟容忍度,获得优先级集的具体步骤如下:
S11:根据各智能体的业务的时延要求,计算各智能体的业务的相似度如下式:
式中,c(i,j)为业务i与业务j的相似度,ti为业务i的时延要求,tj为业务j的时延要求,σ为相似度系数,0≤c(i,j)≤1;
根据各智能体的业务的相似度,将相似度差值小于预设值的智能体的业务作为同类业务,所对应的智能体分为同组智能体;
S12:分别针对各组智能体,计算平均延迟容忍度如下式:
S13:分别计算各组智能体的平均延迟容忍度,表示为其中n为智能体的组数,将各组智能体的平均延迟容忍度按照升序排列,并依次赋予优先级,其中优先级次序为平均延迟容忍度最小的智能体组赋予最高优先级,平均延迟容忍度最大的智能体组赋予最低优先级,获得由各智能体组的优先级构成的优先级集。
作为本发明的一种优选技术方案:步骤S2的具体步骤如下:
S21:每个前导码对应一个队列,以t时刻各队列的最大排队数构建状态如下式:
st={p1,p2,…,pi,…,pM}
式中,st为t时刻的状态,pi为第i个队列的最大排队数,i∈{1,2,…,M},M为队列总数;
以初始时刻至t时刻的状态构建状态空间S如下式:
S={s0,s1,…,st}
其中,s0,s1,…,st表示初始时刻至t时刻的状态,s0为初始时刻的状态;
S22:智能体接入网络时,在M个前导码所对应的队列中选择一个进行排队,以智能体选择前导码进行排队的动作构建动作空间A如下式:
A={a1,a2,…,ai,…,aM}
式中,ai表示智能体的动作策略,即选择第i个前导码进行排队的动作;
S23:针对智能体选择执行的动作策略a1,a2,…,an,分别对应奖励r1,r2,…,rn,并构建奖励函数R如下式:
R=ri(r1,r2,…,rn)
引入智能体的优先级,以及各队列的方差,将奖励函数R转化为如下形式:
式中,fi(a1,a2,…,an)表示智能体i的优先级,gi(a1,a2,…,an)表示队列的方差;
S24:基于深度神经网络,结合Q学习方法,构建本地智能体前导码分配模型,以状态空间S为输入,以智能体的可执行动作的Q值为输出,智能体在st状态下的每个动作对应Q值Q(st,at),其中at具体如下式:
式中,a表示状态st下所有可执行的动作;
根据Q学习算法,通过下式更新下一时刻的Q值Qk+1(st,at):
式中,αk和γ分别为学习率和折扣因子,st+1表示下一时刻状态,rt+1表示在状态st+1下智能体的可执行动作所获得的奖励,a′表示状态st+1下智能体的可执行动作,A为动作空间,Qk(st,at)表示状态st下的Q值,maxa′∈A Qk(st+1,a′)表示状态st+1下动作空间A中的各可执行动作所对应的最大Q值;
S25:更新状态st+1及其所对应的奖励rt+1,构建经验样本(st,at,st+1,rt+1),并存放到经验库中;
S26:各智能体的损失函数Li(θ)如下式:
Li(θ)=E[(yDQN-Qk(st,at;θ))2]
式中,θ表示在线网络的权重;
其中,yDQN的计算具体如下式:
式中,a′i表示在状态s′下使目标网络Q值最大的动作,θ-表示权重;
S27:随机抽取经验库中的各经验样本对本地智能体前导码分配模型进行训练。
作为本发明的一种优选技术方案:步骤S2中本地智能体前导码分配模型训练预设次数后再进行状态更新。
作为本发明的一种优选技术方案:步骤S2中各智能体使用ε贪婪策略选择动作ai,以探索因子ε的概率选择动作空间A中的动作策略,以(1-ε)的概率选择动作空间A中的最佳动作策略。
作为本发明的一种优选技术方案:步骤S3中基于联邦学习方法,对全局智能体前导码分配模型进行训练的具体步骤如下:
S31:所有智能体根据当前状态,选择动作策略,并获得相应的奖励;
S32:各智能体将当前状态输入各自的本地智能体前导码分配模型中的深度神经网络中进行学习,获得各本地智能体前导码分配模型的参数,并发送至联邦智能体;
S33:联邦智能体采用聚合平均算法,对各本地智能体前导码分配模型的参数进行学习,获得全局智能体前导码分配模型,其中全局智能体前导码分配模型参数如下式:
式中,θg为全局智能体前导码分配模型权重,θl为本地智能体前导码分配模型权重,D为训练数据的数量,Dk表示第k个参与方所拥有的数据数量。
有益效果:相对于现有技术,本发明的优点包括:
(1)与传统竞争前导码方式不同,非竞争排队接入可以解决碰撞问题,在同一条件下可以使更多的智能体接入。
(2)本发明中智能体进行决策时,采用了基于多智能体强化学习算法来协作选择合适的前导码,采用该学习算法可以更好的适应环境变化作出最优决策。
(3)采用联邦学习来进行训练,可以提高强化学习的性能,训练出更健壮的模型。
附图说明
图1是根据本发明实施例提供的智能体分组示意图;
图2是根据本发明实施例提供的智能体接入网络的示意图;
图3是根据本发明实施例提供的智能体神经网络结构图;
图4是根据本发明实施例提供的联邦训练模型图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明实施例提供的一种基于多智能体协作的多基站排队式前导码分配方法,目标区域内包括由至少两个基站组成的网络,每个基站分别均包括前导码池,针对接入网络的各智能体,执行以下步骤S1-步骤S3,完成各智能体的前导码分配;
S1.智能体为MTC设备,各智能体均有各自的业务种类,根据各智能体的业务种类,对接入网络的各智能体进行分组,分别针对各组智能体,计算平均延迟容忍度,并按照升序排列各组智能体的平均延迟容忍度,获得优先级集,智能体分组示意图参照图1;
步骤S1的具体步骤如下:
S11:网络中存在着不同的业务种类,根据各业务种类对时延的敏感程度不同分为时延容忍业务和时延敏感业务。除此之外,还需要考虑到各智能体的QoS要求,由于同时接入网络的智能体数量多,同一时刻接入的业务种类也是有所不同的。针对当前网络对MTC应用的要求,采用各业务种类的时延要求来度量业务种类的相关性,根据各智能体的业务的时延要求,计算各智能体的业务的相似度如下式:
式中,c(i,j)为业务i与业务j的相似度,ti为业务i的时延要求,tj为业务j的时延要求,σ为相似度系数,0≤c(i,j)≤1,c(i,j)越大,两业务越相似;
根据各智能体的业务的相似度,将相似度差值小于预设值的智能体的业务作为同类业务,所对应的智能体分为同组智能体;
S12:分别针对各组智能体,计算平均延迟容忍度如下式:
S13:分别计算各组智能体的平均延迟容忍度,表示为其中n为智能体的组数,将各组智能体的平均延迟容忍度按照升序排列,并依次赋予优先级,其中优先级次序为平均延迟容忍度最小的智能体组赋予最高优先级,平均延迟容忍度最大的智能体组赋予最低优先级,获得由各智能体组的优先级构成的优先级集。
S2.分别针对各组智能体,基于强化学习算法对各组中的各智能体进行前导码分配,运用强化学习的思想,智能体不断与网络交互,基于网络来选择可以获得最大化收益的动作;
强化学习用于解决马尔可夫决策过程的问题。在强化学习中,智能体可以周期性的学习采取行动,观察最大收益并自动调整动作策略,以获得最优动作策略。由于对智能体进行了分组,多个智能体在与网络的交互中进行学习。多智能体在竞争博弈的情况下,可达到局部最优,但不能满足整体网络性能最大化。为了达到优化问题的目标,将多智能体问题转化为合作博弈,对所有智能体使用相同的奖励函数。
其中,每个前导码对应一个队列,以各队列的最大排队数构建状态空间S,以智能体选择前导码进行排队的动作构建动作空间A,以状态空间S为输入,基于深度神经网络,结合Q学习方法,智能体基于贪婪策略,以收益最大化为目标,选择动作空间A中的动作作为智能体的可执行动作,以智能体的可执行动作的Q值为输出,构建本地智能体前导码分配模型,智能体接入网络的示意图参照图2,图中R1,R2,…,RM-1,RM表示前导码;
步骤S2的具体步骤如下:
S21:每个前导码对应一个队列,以t时刻各队列的最大排队数构建状态如下式:
st={p1,p2,…,pi,…,pM}
式中,st为t时刻的状态,pi为第i个队列的最大排队数,i∈{1,2,…,M},M为队列总数;
以初始时刻至t时刻的状态构建状态空间S如下式:
S={s0,s1,…,st}
其中,s0,s1,…,st表示初始时刻至t时刻的状态,s0为初始时刻的状态;
S22:智能体接入网络时,在M个前导码所对应的队列中选择一个进行排队,以智能体选择前导码进行排队的动作构建动作空间A如下式:
A={a1,a2,…,ai,…,aM}
式中,ai表示智能体的动作策略,即选择第i个前导码进行排队的动作;
S23:针对智能体选择执行的动作策略a1,a2,…,an,分别对应奖励r1,r2,…,rn,并构建奖励函数R如下式:
R=ri(r1,r2,…,rn)
当每个队列中排队的智能体数量趋向于一致时,此时不存在空闲的队列,因此不存在前导码闲置的情况,此时接入效率更高。当智能体数量很多时,优先级高的智能体会更快进入队列,在延迟容忍时间内接入,保证智能体的接入成功率。
引入智能体的优先级,以及各队列的方差,将奖励函数R转化为如下形式:
式中,fi(a1,a2,…,an)表示智能体i的优先级,优先级最高的智能体进入队列获得的奖励最大,gi(a1,a2,…,an)表示队列的方差;
S24:基于深度神经网络,结合Q学习方法,构建本地智能体前导码分配模型,以状态空间S为输入,以智能体的可执行动作的Q值为输出,智能体的神经网络结构图参照图3,智能体在st状态下的每个动作对应Q值Q(st,at),其中at具体如下式:
式中,a表示状态st下所有可执行的动作;
根据Q学习算法,通过下式更新下一时刻的Q值Qk+1(st,at):
式中,αk和γ分别为学习率和折扣因子,st+1表示下一时刻状态,rt+1表示在状态st+1下智能体的可执行动作所获得的奖励,a′表示状态st+1下智能体的可执行动作,A为动作空间,Qk(st,at)表示状态st下的Q值,maxa′∈A Qk(st+1,a′)表示状态st+1下动作空间A中的各可执行动作所对应的最大Q值;
S25:更新状态st+1及其所对应的奖励rt+1,构建经验样本(st,at,st+1,rt+1),并存放到经验库中;
S26:各智能体的损失函数Li(θ)如下式:
Li(θ)=E[(yDQN-Qk(st,at;θ))2]
式中,θ表示在线网络的权重;
其中,yDQN的计算具体如下式:
式中,a′i表示在状态s′下使目标网络Q值最大的动作,θ-表示权重;
S27:随机抽取经验库中的各经验样本对本地智能体前导码分配模型进行训练。
在一个实施例中,步骤S2中本地智能体前导码分配模型训练预设次数后再进行状态更新。
在一个实施例中,步骤S2中各智能体使用ε贪婪策略选择动作ai,以探索因子ε的概率选择动作空间A中的动作策略,以(1-ε)的概率选择动作空间A中的最佳动作策略。
S3.基于各智能体对应的本地智能体前导码分配模型、以及联邦智能体,构建全局智能体前导码分配模型,基于联邦学习方法,对全局智能体前导码分配模型进行训练,获得训练好的全局智能体前导码分配模型,应用全局智能体前导码分配模型,完成接入网络的各智能体的前导码分配,联邦训练模型图参照图4。
由于多智能体系统中的单个智能体面临不同的任务或情况,存储在经验库中的经验样本无法适应变化。因此采用一种联邦训练方法,通过神经网络梯度的平均优化来同步优化每个智能体的神经网络。在这种联邦训练方法中,每个智能体通过本地的经验和来自其他协作智能体的神经网络梯度来优化自身神经网络。设计一个联邦智能体,目的是收集所涉及智能体的各种局部梯度并进行平均优化。这个联邦智能体具有与其他智能体相同的神经网络结构,但不采取任何行动。
步骤S3中基于联邦学习方法,对全局智能体前导码分配模型进行训练的具体步骤如下:
S31:所有智能体根据当前状态,选择动作策略,并获得相应的奖励;
S32:各智能体将当前状态输入各自的本地智能体前导码分配模型中的深度神经网络中进行学习,获得各本地智能体前导码分配模型的参数,并发送至联邦智能体;
S33:联邦智能体采用聚合平均算法,对各本地智能体前导码分配模型的参数进行学习,获得全局智能体前导码分配模型,其中全局智能体前导码分配模型参数如下式:
式中,θg为全局智能体前导码分配模型权重,θl为本地智能体前导码分配模型权重,D为训练数据的数量,Dk表示第k个参与方所拥有的数据数量。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种基于多智能体协作的多基站排队式前导码分配方法,其特征在于,目标区域内包括由至少两个基站组成的网络,每个基站分别均包括前导码池,针对接入网络的各智能体,执行以下步骤S1-步骤S3,完成各智能体的前导码分配;
S1.根据各智能体的业务种类,对接入网络的各智能体进行分组,分别针对各组智能体,计算平均延迟容忍度,并按照升序排列各组智能体的平均延迟容忍度,获得优先级集;
S2.分别针对各组智能体,基于强化学习算法对各组中的各智能体进行前导码分配;
其中,每个前导码对应一个队列,以各队列的最大排队数构建状态空间S,以智能体选择前导码进行排队的动作构建动作空间A,以状态空间S为输入,基于深度神经网络,结合Q学习方法,智能体基于贪婪策略,以收益最大化为目标,选择动作空间A中的动作作为智能体的可执行动作,以智能体的可执行动作的Q值为输出,构建本地智能体前导码分配模型;
S3.基于各智能体对应的本地智能体前导码分配模型、以及联邦智能体,构建全局智能体前导码分配模型,基于联邦学习方法,对全局智能体前导码分配模型进行训练,获得训练好的全局智能体前导码分配模型,应用全局智能体前导码分配模型,完成接入网络的各智能体的前导码分配。
2.如权利要求1所述的一种基于多智能体协作的多基站排队式前导码分配方法,其特征在于,步骤S1中根据业务种类,对接入网络的各智能体进行分组,分别针对各组智能体,计算平均延迟容忍度,并按照升序排列各组智能体的平均延迟容忍度,获得优先级集的具体步骤如下:
S11:根据各智能体的业务的时延要求,计算各智能体的业务的相似度如下式:
式中,c(i,j)为业务i与业务j的相似度,ti为业务i的时延要求,tj为业务j的时延要求,σ为相似度系数,0≤c(i,j)≤1;
根据各智能体的业务的相似度,将相似度差值小于预设值的智能体的业务作为同类业务,所对应的智能体分为同组智能体;
S12:分别针对各组智能体,计算平均延迟容忍度如下式:
3.如权利要求2所述的一种基于多智能体协作的多基站排队式前导码分配方法,其特征在于,步骤S2的具体步骤如下:
S21:每个前导码对应一个队列,以t时刻各队列的最大排队数构建状态如下式:
st={p1,p2,…,pi,…,pM}
式中,st为t时刻的状态,pi为第i个队列的最大排队数,i∈{1,2,…,M},M为队列总数;
以初始时刻至t时刻的状态构建状态空间S如下式:
S={s0,s1,…,st}
其中,s0,s1,…,st表示初始时刻至t时刻的状态,s0为初始时刻的状态;
S22:智能体接入网络时,在M个前导码所对应的队列中选择一个进行排队,以智能体选择前导码进行排队的动作构建动作空间A如下式:
A={a1,a2,…,ai,…,aM}
式中,ai表示智能体的动作策略,即选择第i个前导码进行排队的动作;
S23:针对智能体选择执行的动作策略a1,a2,…,an,分别对应奖励r1,r2,…,rn,并构建奖励函数R如下式:
R=ri(r1,r2,…,rn)
引入智能体的优先级,以及各队列的方差,将奖励函数R转化为如下形式:
式中,fi(a1,a2,…,an)表示智能体i的优先级,gi(a1,a2,…,an)表示队列的方差;
S24:基于深度神经网络,结合Q学习方法,构建本地智能体前导码分配模型,以状态空间S为输入,以智能体的可执行动作的Q值为输出,智能体在st状态下的每个动作对应Q值Q(st,at),其中at具体如下式:
式中,a表示状态st下所有可执行的动作;
根据Q学习算法,通过下式更新下一时刻的Q值Qk+1(st,at):
式中,αk和γ分别为学习率和折扣因子,st+1表示下一时刻状态,rt+1表示在状态st+1下智能体的可执行动作所获得的奖励,a′表示状态st+1下智能体的可执行动作,A为动作空间,Qk(st,at)表示状态st下的Q值,maxa′∈AQk(st+1,a′)表示状态st+1下动作空间A中的各可执行动作所对应的最大Q值;
S25:更新状态st+1及其所对应的奖励rt+1,构建经验样本(st,at,st+1,rt+1),并存放到经验库中;
S26:各智能体的损失函数Li(θ)如下式:
Li(θ)=E[(yDQN-Qk(st,at;θ))2]
式中,θ表示在线网络的权重;
其中,yDQN的计算具体如下式:
式中,a′i表示在状态s′下使目标网络Q值最大的动作,θ-表示权重;
S27:随机抽取经验库中的各经验样本对本地智能体前导码分配模型进行训练。
4.如权利要求3所述的一种基于多智能体协作的多基站排队式前导码分配方法,其特征在于,步骤S2中本地智能体前导码分配模型训练预设次数后再进行状态更新。
5.如权利要求3所述的一种基于多智能体协作的多基站排队式前导码分配方法,其特征在于,步骤S2中各智能体使用ε贪婪策略选择动作ai,以探索因子ε的概率选择动作空间A中的动作策略,以(1-ε)的概率选择动作空间A中的最佳动作策略。
6.如权利要求3所述的一种基于多智能体协作的多基站排队式前导码分配方法,其特征在于,步骤S3中基于联邦学习方法,对全局智能体前导码分配模型进行训练的具体步骤如下:
S31:所有智能体根据当前状态,选择动作策略,并获得相应的奖励;
S32:各智能体将当前状态输入各自的本地智能体前导码分配模型中的深度神经网络中进行学习,获得各本地智能体前导码分配模型的参数,并发送至联邦智能体;
S33:联邦智能体采用聚合平均算法,对各本地智能体前导码分配模型的参数进行学习,获得全局智能体前导码分配模型,其中全局智能体前导码分配模型参数如下式:
式中,θg为全局智能体前导码分配模型权重,θl为本地智能体前导码分配模型权重,D为训练数据的数量,Dk表示第k个参与方所拥有的数据数量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570855.2A CN115066036A (zh) | 2022-05-24 | 2022-05-24 | 一种基于多智能体协作的多基站排队式前导码分配方法 |
PCT/CN2022/107420 WO2023226183A1 (zh) | 2022-05-24 | 2022-07-22 | 一种基于多智能体协作的多基站排队式前导码分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570855.2A CN115066036A (zh) | 2022-05-24 | 2022-05-24 | 一种基于多智能体协作的多基站排队式前导码分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115066036A true CN115066036A (zh) | 2022-09-16 |
Family
ID=83198743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210570855.2A Pending CN115066036A (zh) | 2022-05-24 | 2022-05-24 | 一种基于多智能体协作的多基站排队式前导码分配方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115066036A (zh) |
WO (1) | WO2023226183A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392483B (zh) * | 2023-12-06 | 2024-02-23 | 山东大学 | 基于增强学习的相册分类模型训练加速方法、系统及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11809977B2 (en) * | 2019-11-14 | 2023-11-07 | NEC Laboratories Europe GmbH | Weakly supervised reinforcement learning |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
CN113114581A (zh) * | 2021-05-14 | 2021-07-13 | 南京大学 | 基于多智能体深度强化学习的tcp拥塞控制方法及装置 |
-
2022
- 2022-05-24 CN CN202210570855.2A patent/CN115066036A/zh active Pending
- 2022-07-22 WO PCT/CN2022/107420 patent/WO2023226183A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023226183A1 (zh) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111277437B (zh) | 一种智能电网的网络切片资源分配方法 | |
CN111867139B (zh) | 基于q学习的深度神经网络自适应退避策略实现方法及系统 | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN103931241B (zh) | 通过用站分群、代理csma和tim监视来优化争用时段开销从而在无线网络站中降低功耗 | |
CN108123828B (zh) | 一种基于接入用户移动性预测的超密集网络资源分配方法 | |
CN111629380A (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN110167176B (zh) | 一种基于分布式机器学习的无线网络资源分配方法 | |
CN111367657A (zh) | 一种基于深度强化学习的计算资源协同合作方法 | |
CN106453608A (zh) | 一种基于云端的移动应用的后台请求自适应调度算法 | |
CN114980339B (zh) | 基于可变时隙调度的c-v2x多业务下行资源分配方法 | |
CN113490184A (zh) | 一种面向智慧工厂的随机接入资源优化方法及装置 | |
CN115374853A (zh) | 基于T-Step聚合算法的异步联邦学习方法及系统 | |
CN115066036A (zh) | 一种基于多智能体协作的多基站排队式前导码分配方法 | |
CN112492686A (zh) | 一种基于深度双q网络的蜂窝网络功率分配方法 | |
CN116744311B (zh) | 基于per-ddqn的用户组频谱接入方法 | |
CN114785397A (zh) | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 | |
He et al. | Multi-objective deep reinforcement learning based time-frequency resource allocation for multi-beam satellite communications | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN116709567A (zh) | 基于信道特性的联合学习接入方法 | |
CN116882270A (zh) | 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统 | |
CN113890653B (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
CN116484976A (zh) | 一种无线网络中异步联邦学习方法 | |
CN114126021B (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
CN114727323A (zh) | 无人机基站控制方法及装置、模型训练方法及装置 | |
CN115529604A (zh) | 一种基于服务器协作的联合资源分配与多元任务卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |