CN113890653A

CN113890653A - 面向多用户利益的多智能体强化学习功率分配方法

Info

Publication number: CN113890653A
Application number: CN202111007827.1A
Authority: CN
Inventors: 刘德荣; 王宇慧; 王永华; 林得有; 刘骏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2022-01-04
Anticipated expiration: 2041-08-30
Also published as: CN113890653B

Abstract

本发明公开一种面向多用户利益的多智能体强化学习功率分配方法，具体步骤如下：智能体对每个次用户进行动作值的选择并获取认知无线电功率分配环境的状态值，得到奖励值，并将每一次算法执行后的动作值、状态值、奖励值和一下状态值保存在次用户的优先经验池中，利用优先经验池对算法进行训练，最后将训练完成后的算法应用到认知无线电功率分配环境中，完成无线电功率分配过程。该方案将多智能体强化学习算法进行改进，将改进后的算法和功率分配结合在一起，同时对认知无线电网络环境的奖励函数进行改进，能让更多次用户成功接入信道的动作拥有更高的价值，解决了多智能体强化学习算法运用到功率分配中容易造成的智能体“功利”行为问题。

Description

面向多用户利益的多智能体强化学习功率分配方法

技术领域

本发明涉及无线通信技术中的认知无线电领域，更具体地，涉及一种面向多用户利益的多智能体强化学习功率分配方法。

背景技术

目前，随着无线通信业务种类的快速增长，对无线频谱资源的需求也呈指数增长，使得未来无线通信中的频谱资源“匮乏”问题日益突出。认知无线电技术在保证主用户服务质量的条件下以“伺机接入”的方式利用授权用户的空闲频段，大大提高了频谱的使用效率，是解决“频谱匮乏”问题的有效方法。认知网络中(cognitive radio networks简称CRN)的频率功率联合分配技术通过合理的分配各认知用户或次级用户(secondary user，简称SU)所使用的频率和功率，尽可能的减少SU之间的干扰，提升认知无线网络的吞吐量。因此，频率功率联合分配技术是保证认知无线网络传输效率的前提和基础。

功率分配是实现认知网络共享频谱资源的主要方法之一。通过合理配置SU的接入信道以及发射功率，实现在不干扰主用户(primary user，简称PU)的前提下，优化认知网络的吞吐量性能。然而与非认知系统的资源分配不同，由于PU占用状态的动态变化，认知用户的可用频谱资源同样是动态的，因此SU必须根据PU状态实时的调整策略。此时给联合分配方法的设计带来许多新的挑战。

近年来，计算机科学领域飞速发展，一些由于硬件条件的限制而无法实现的复杂的计算，现在已经成为可能，这就迎来了机器学习的时代。它能使得承载着机器学习算法的智能体拥有学习能力，甚至模仿人类的行为来做出决定和预测。深度学习由一组算法和技术组成，这些算法和技术试图找到数据的重要特征并对其高级抽象进行建模。一般深度学习模型都基于人工神经网络(Artificial neural network,ANN)，通常由两个或多个隐藏层的神经网络组成深度神经网络(Deep neural network,DNN)。深度学习的主要目标是通过自动学习和提取数据，从而避免人工手动地描述数据结构，如手写功能，因此它具有强大的感知能力。强化学习(Reinforcement Learning)也是机器学习的一个分支，它可以通过不断地与环境互动以及反馈回的奖励值去学习如何做出正确的决策。

强化学习采用对外界环境和自身决策不断探测的方式，获取在动态环境中，能最优化长远收益的决策。通过采用RL学习方法，单个SU能够适应频谱资源的动态性，实现最大化长远收益的频率功率联合决策。然而在多个SU并存时，由于各SU的频率功率联和决策互相影响，互相制约，且处于动态变化之中，因此RL学习方法的性能将大打折扣，甚至无法收敛，并且RL算法在处理SU个数很多的场景时对计算机的要求和开销是巨大的，并不适合处理SU的规模比较大的场景。

多智能体系统是一种分布式计算技术，可用于解决各种领域的问题，包括机器人系统、分布式决策、交通控制和商业管理等。多智能体强化学习(multi-agentreinforcement learning，简称MARL)是多智能体系统研究领域中的一个重要分支，它将强化学习技术、博弈论等应用到多智能体系统，使得多个智能体能在更高维且动态的真实场景中通过交互和决策完成更错综复杂的任务。在2015年Ardi Tampuu等人将DQN与IQL算法结合起来，将其应用到ALE环境中的Pong游戏中，通过修改回报函数设计了完全合作，完全竞争以及非完全协作和非完全竞争的环境，最终得出了DQN直接应用到多智能体环境中也能达到一个比较好的性能，然而IQL算法是个非常简单的算法，处理不了环境的非平稳问题。2019年学者在车联网的频谱共享环境中提出了一种基于指纹的非平稳q学习方法，通过考虑不同任务之间的权衡来设置合理的奖励函数，该方法对奖励函数设置的要求较高，当整个环境中需要考虑的参数过多时奖励函数就更难设置，因此也不是很好的解决方法。因此如何使得算法适应环境的非平稳性问题依旧是多智能体强化学习算法需要解决的难点。

现有的算法无法适应环境的非平稳性问题，公开号为CN113115451A(公开日2021-07-13)提出的基于多智能体深度强化学习的干扰管理和资源分配方案，该方案利用一种新型的多智能体强化学习算法，包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法，通过提出的CPU周期频率优化方法来选取最优的CPU周期频率；当每个智能体接收到多变的、动态的和复杂的信道状态信息时，每个智能体将输出卸载决策、信道分配和发射功率选择；根据获得的奖励函数，来进行actor-critic网络参数的调整，将得到的结果对神经网络进行间断性的训练，以使其更加稳定且快速的收敛到最优解。但该方案并不能解决多智能体强化学习算法直接运用到认知无线电网络中容易造成智能体的“功利性”行为问题。

发明内容

本发明为克服上述现有技术所述的多智能体强化学习算法直接运用到认知无线电网络中容易造成智能体的“功利性”行为问题等缺陷，提供一种面向多用户利益的多智能体强化学习功率分配方法。

为解决上述技术问题，本发明的技术方案如下：

一种面向多用户利益的多智能体强化学习功率分配方法，包括以下步骤：

S1：在认知无线电功率分配环境中，初始化每个智能体、每个次用户的优先经验池、算法执行的回合次数和神经网络的参数；

S2：将功率值作为动作值，针对其中一个次用户，智能体对该次用户进行动作值的选择，并获取该环境的初始状态值；

S3：根据动作值和状态值利用奖励函数进行计算，得到奖励值；

S4：基于该次用户的动作值和对应的奖励值得到该环境下一时刻的状态值；

S5：将得到的动作值、状态值、奖励值和下一时刻的状态值作为一组经验保存在该次用户的优先经验池中；

S6：智能体对该次用户重新进行动作值的选择，将下一时刻的状态值作为该环境的初始状态值，并重复执行步骤S3、S4和S5，得到存储有该次用户所有经验的优先经验池；

S7：对所有次用户执行步骤S2、S3、S4、S5和S6，得到存储有所有次用户所有经验的优先经验池；

S8：利用存储有所有次用户所有经验的优先经验池对算法进行训练；

S9：将训练完成后的算法应用到认知无线电功率分配环境中，完成无线电功率分配过程。

优选地，所述步骤S2中动作值的选择的具体操作为：智能体利用随机函数输出每个次用户的功率值，将功率值作为动作值，供智能体对每个次用户进行动作值的选择。

优选地，所述步骤S2中动作值的选择的具体操作为：由神经网络输出每个次用户的功率值，次用户给功率值添加噪声，添加噪声后的功率值作为动作值，供智能体对每个次用户进行动作值的选择。

优选地，在所述步骤S3中，动作值和状态值共同影响信噪比，根据信噪比计算奖励函数，从而得出奖励值，奖励函数的定义为：

其中，SINR_j代表信噪比大于μ_j的次用户j的信噪比，SINR_i代表第i个主用户的信噪比，n代表满足约束条件的次用户数量，α是学习效率参数，为正值；

I₁：

且

I₂：

I₃：其他。

优选地，在所述步骤S5中，算法每执行一次后次用户的经验会产生损失，该损失作为经验会存储在次用户的优先经验池中。

优选地，经验的损失计算公式为：

Loss＝(y-Q^π(s，a₁，a₂，...，a_N))²

其中，y代表神经网络的输出值，s代表状态值，a代表动作值，Q代表价值函数，r代表当前状态下的奖励值，γ代表学习率。

优选地，在所述步骤S8中，对算法进行训练的具体步骤为：

S81：先创建一个空的经验数组；

S82：从存储有所有次用户的所有经验的优先经验池中抽取一组经验，再对这组经验中的经验样本进行抽取；

S83：将抽取到的经验样本存储到空的经验数组中；

S84：重复步骤S82、S83直到抽取的经验样本达到经验数组的容量上限；

S85：将经验数组整理，集中所有的智能体对算法进行训练。

优选地，在所述步骤S82中，在抽取经验之前，先对每个经验组中的经验样本赋予优先级，再按照每个经验样本的优先级进行抽取，所述优先级pr(i)的计算方式为：

pr(i)＝rank(rank(Loss(i))+rank_reverse(T))

其中：rank(Loss(i))代表第i个经验样本的损失在递增排序中的位置，rank_reverse(T)代表经验样本被抽取的次数在递减排序中的位置，β代表经验样本被抽取概率的偏移量。

优选地，在所述步骤S82中，给每个经验样本赋予优先级以后，每个经验样本根据优先级进行被抽取的概率计算，概率P(i)的计算公式为：

其中，P(i)的值越大代表第i个经验样本被抽取到的概率越大。

优选地，该算法的神经网络是竞争深度Q网络，竞争深度Q网络的表达式为：

Q(s，a)＝V(s)+A(s，a)

其中，V代表状态价值，A代表动作优势，s代表状态值，a代表动作值；

竞争深度Q网络由输入层、隐藏层和输出层依次连接，在输入层输入动作值和状态值，在隐藏层输入次用户动作的探索值，输出层输出价值函数，价值函数用来逼近竞争深度Q网络的目标值，目标值用来评判次用户的动作值，使智能体为每个次用户选择最佳的动作值。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供一种面向多用户利益的多智能体强化学习功率分配方法，该方案将多智能体强化学习算法进行改进，使次用户的经验存储在优先经验池中，从而构成一个新的算法，并将新算法和功率分配结合在一起，同时对认知无线电网络环境的奖励函数进行改进，能让更多次用户成功接入信道的动作拥有更高的价值，解决了多智能体强化学习算法运用到功率分配中容易造成的智能体“功利”行为问题。

附图说明

图1为maddpg-pec算法步骤图；

图2为maddpg-pec的算法流程图；

图3为竞争深度Q网络结构图；

图4为2个次用户情况下认知无线电功率分配环境的仿真图；

图5为3个次用户情况下认知无线电功率分配环境的仿真图；

图6为4个次用户情况下认知无线电功率分配环境的仿真图；

图7为面向多用户利益的maddpg算法、maddpg算法和dqn算法成功接入的平均次用户个数对比图；

图8为maddpg算法、maddpg-pec算法和dqn算法在2个次用户情况下的奖励值对比图；

图9为maddpg算法、maddpg-pec算法和dqn算法在3个次用户情况下的奖励值对比图；

图10为maddpg算法、maddpg-pec算法和dqn算法在4个次用户情况下的奖励值对比图；

图11为maddpg算法、maddpg-pec算法和dqn算法在2个次用户情况下的成功率对比图；

图12为maddpg算法、maddpg-pec算法和dqn算法在3个次用户情况下的成功率对比图；

图13为maddpg算法、maddpg-pec算法和dqn算法在4个次用户情况下的成功率对比图；

图14为maddpg算法和maddpg-pec算法在2个次用户情况下的神经网络损失对比图；

图15为maddpg算法和maddpg-pec算法在3个次用户情况下的神经网络损失对比图；

图16为maddpg算法和maddpg-pec算法在3个次用户情况下的神经网络损失对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

在整个认知无线电网络中需要拥有主用户，次用户和宏基站，还应该存在一定数量的微基站，来为次用户进行信息传输，每个智能体对应一个次用户，智能体控制次用户的行为。一种面向多用户利益的多智能体强化学习功率分配方法，如图1所示，其特征在于，包括以下步骤：

在本方案中，对多智能体强化学习算法maddpg进行改进，构成一种面向多用户利益的多智能体强化学习功率分配算法——maddpg-pec算法；

另外，该maddpg-pec算法的神经网络是竞争深度Q网络，竞争深度Q网络的表达式为：

Q(s，a)＝V(s)+A(s，a)

V代表状态价值，A代表动作优势，s代表状态值，a代表动作值；

竞争深度Q网络由依次连接的输入层、隐藏层和输出层依次连接，在输入层输入动作值和状态值，在隐藏层输入次用户动作的探索值，输出层输出价值函数，价值函数是用来逼近竞争深度Q网络的目标值，目标值是用来评判次用户的动作值，使智能体为每个次用户选择最佳的动作值。

一般的神经网络只注重算法模型的动作值变化而竞争深度Q网络不仅重视动作值，还重视状态值的变化，在面对认知无线电环境中智能体只能借助微基站来传递客观观测值的情况，竞争深度Q网络能够帮助智能体快速找到更优的策略，增加算法算法的稳定性；另一方面，在功率分配中，比起能否让更多的次用户接入的主用户的信道更重要的前提是不能够对主用户的正常通信造成干扰，另外，从微基站收集的信息只能间接反映主用户的信号强度，不能完全反映出主用户调整发射功率的行为，当微基站收集到的信号强度无法反映主用户的发射功率变化时，深度Q网络很有可能将该状态值视为主用户没有调整发射功率，导致次用户学习到次优的功率控制策略，因此，在优先级经验池的基础上采用竞争深度Q网络的方法来优化次用户的动态功率控制问题，竞争深度Q网络能有效解决微基站不能直接反映主用户的功率选择，从而给智能体的策略选择造成干扰的问题。

另外，普通的神经网络反映的是动作的价值，而在功率分配场景中的环境是动态变化的，主用户的功率选择也是动态变化的，因此只依靠动作反映价值并不完全可靠，而竞争深度Q网络对比普通的神经网络而言，为了既能反映动作的价值又能反映状态的价值，在神经网络的输出层加入了两条数据流，一条是输入状态的Q值，另一条是输入动作的探索值(advantage值)，竞争深度Q网络的结构图如图3所示。

动作值的选择有两种方式，一种是在maddpg-pec算法按照第一执行次数重复执行时，智能体利用随机函数输出每个次用户的功率值，将功率值作为动作值，供智能体对每个次用户进行动作值的选择；另一种是由神经网络输出每个次用户的功率值，次用户给功率值添加噪声，添加噪声后的功率值作为动作值，供智能体对每个次用户进行动作值的选择。

S3：从认知无线电功率分配环境中得到每个次用户的状态值，利用状态值和动作值通过奖励函数得到奖励值；

现有技术的认知无线电功率分配环境中的奖励函数如下：

其中，SINR_j代表信噪比大于μ_j的次用户j的信噪比，SINR_i代表第i个主用户的信噪比；I₁：

且

I₂：

I₃：其他。

该奖励函数并未考虑次用户数量的影响，而根据认知无线电功率分配环境的特点，这样非常容易造成智能体的“功利”行为，而做出不利于实际的决策；本算法对奖励函数进行了改进，为避免过多抛弃有潜力的次用户，应当增大满足多用户符合约束条件的动作价值，又要避免整个系统中的认知次用户过多造成总价值过大的情况，因此改进后的奖励函数如下：

其中SINR_j代表信噪比大于μ_j的次用户j的信噪比，SINR_i代表第i个主用户的信噪比，n代表满足约束条件的次用户数量，α是学习效率参数，为正值，α越大则次用户数量对奖励函数的影响就越大；I₁：

且

I₂：

I₃：其他；次用户的动作值和状态值决定信噪比，奖励函数由信噪比决定，从公式中可以看出，在通常条件下，当次用户数量增多时奖励函数的值比次用户少的时候大，而当整个认知无线电功率分配环境的次用户数量过多时，由于对数函数的作用，奖励函数的值不会突增过大而导致神经网络过拟合。

其中，次用户的优先经验池中的经验还包括maddpg-pec算法每执行一次后经验的损失、对maddpg-pec算法的训练次数和每个用户在每一个状态下经验的优先级；

经验的损失计算公式为：

Loss＝(y-Q^π(s，a₁，a₂，…，a_N))²

其中，y代表神经网络的输出值，s代表状态值，a代表动作值，Q代表价值函数，r代表当前状态下的奖励值，γ代表学习率；

Loss越大，说明对此次经验而言，目标网络的评价值和实际值的差别越大，需要提高采样频率以便更快更新目标网络和评估网络的值，达到最优的训练效果。

S8：利用存储有所有次用户所有经验的优先经验池对算法进行训练，；如图2所示；

训练过程如下：

S81：先创建一个空的经验数组；

S82：从存储有所有次用户的经验的优先经验池中抽取一组经验，再对这组经验中的经验样本进行抽取；

在抽取经验之前，先对每个经验组中的经验样本赋予优先级，再按照每个经验样本的优先级进行抽取，优先级Pr是衡量经验重要性的唯一指标，是抽取经验的重要依据；

优先级pr(i)的计算方式为：

pr(i)＝rank(rank(Loss(i))+rank_reverse(T))

rank(Loss(i))为第i个经验的样本损失在递增排序中的位置，Loss越大代表，在递增排序中越靠前，rank_reverse(T)为抽取次数T在递减排序中的位置，T越小，递减排序中越靠前；β∈(0，1)，代表经验样本被抽取概率的偏移量，增加参数β是为了防止p(i)过小而抽中的概率较低。

而优先级决定了经验样本被抽取的概率，概率计算公式为：

由于在神经网络中Loss的数值差异较大，单纯以损失数值进行概率计算会导致部分经验的P(i)值较小而无法抽取进行训练，而以rank(Loss(i))的排序可以较好地衡量经验的重要性，其中rank(Loss(i))代表第i个损失在递增排序中的位置。而已采样次数T为该经验在智能体训练时被抽取的次数，为了防止只抽取经验池中损失较大的值，部分损失较小的经验的训练次数较小，造成神经网络的过拟合或者无法收敛，因此需要综合考虑损失值Loss和被抽取的训练次数，经验中损失越大，P(i)越大，被抽取的训练次数越多，P(i)越小，因此P(i)的计算公式可以修改为：

S83：将抽取到的经验样本保存到空的经验数组中；

S85：将经验数组整理，集中所有的智能体对maddpg-pec算法进行训练。

该方案对maddpg算法进行了改进，首先利用次用户的优先经验池来对maddpg-pec算法进行训练可以加快算法的收敛速度，优先级经验池的重点在于抽取经验时并不是进行简单的随机抽样，而是给经验池中的经验样本赋予优先级，再按照经验样本的优先级来进行样本的抽取，maddpg-pec算法的神经网络能根据具体情况优先选取训练效率高的经验样本，这种方法使maddpg-pec算法的收敛性能得到了很大的提升；然后在神经网络输入次用户动作的探索值，使神经网络构成竞争深度Q网络，这种方法既能反映动作的价值又能反映状态的价值，增加了maddpg-pec算法的稳定性。

在maddpg-pec算法训练完成后，将该算法运用到认知无线电功率分配环境中，并对该环境中的奖励函数进行改进，从而让更多次用户成功接入信道的动作拥有更高的价值，解决了maddpg算法运用到功率分配中容易造成的智能体“功利”行为问题。

实施例2

在本实施例中，对认知无线电功率分配环境进行仿真，仿真环境的范围是半径为300的圆，PBS为宏基站，SBS为微基站，PU为主用户，SU为次用户，设主用户发射功率应当小于30mW，次用户发射功率应当小于12mV，环境噪声为1mW，主用户信噪比阈值μ_i为1.0db，次用户信噪比阈值μ_j为0.5db，发射机和接收机增益设为1，发射天线高度设为4，接收天线高度设为3，实验开始时主用户，次用户和微基站位置会随机分布，仿真开始后每隔10000次回合，主用户和次用户的位置会重新分布以实现环境动态改变，设置总回合次数为50000次，经验池存储容量为5000，并且从5000回合之后开始训练神经网络，下文将对次用户数量为2个，3个和4个时的仿真结果进行性能分析和对比，如图4、图5和图6所示，图3为2个次用户数量的仿真环境图，图4为3个次用户数量的仿真环境图，图5为4个次用户数量的仿真环境图。

图7展示了面向多用户利益的maddpg算法、maddpg算法和dqn算法在次用户个数从2至4时运行10次成功接入的次用户平均个数的对比图，从图中可以看出maddpg算法能够成功接入的次用户个数最少，而面向多用户利益的maddpg算法由于把成功接入的次用户个数也加进了奖励函数，因此可以成功接入的次用户个数最多。

图8、图9和图10分别表示表示maddpg算法、maddpg-pec算法和dqn算法在次用户数量为2、3、4时的奖励值对比图，由于每10000个回合整个算法系统的环境会动态变化，因此算法在实验开始的前期，每执行到10000个回合环境动态改变时，算法还没有适应动态变化的环境而产生较大的波动，在训练一段时间后，maddpg算法和改进后的算法maddpg-pec更能适应动态变化的环境而不波动，并且maddpg-pec算法由于添加了优先级经验池和竞争深度Q网络，其稳定性是最好的。

图11、图12和图13分别maddpg算法、maddpg-pec算法和dqn算法在次用户数量为2、3、4时的成功率对比图，和奖励函数类似，maddpg-pec算法在收敛性能和稳定性能上上是优于其他算法的。

图14、图15、图16分别表示maddpg算法和maddpg-pec算法的actor网络损失对比图，损失越低代表评价网络给予的评判就越优，因此从图13、图14和图15可以看出maddpg-pec算法的评价网络能够更快地知道如何评判策略的好坏，也可以说明该算法的收敛速度更快。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，所述步骤S2中动作值的选择的具体操作为：智能体利用随机函数输出每个次用户的功率值，将功率值作为动作值，供智能体对每个次用户进行动作值的选择。

3.根据权利要求1所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，所述步骤S2中动作值的选择的具体操作为：由神经网络输出每个次用户的功率值，次用户给功率值添加噪声，添加噪声后的功率值作为动作值，供智能体对每个次用户进行动作值的选择。

4.根据权利要求1所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，在所述步骤S3中，动作值和状态值共同影响信噪比，根据信噪比计算奖励函数，从而得出奖励值，奖励函数的定义为：

I₁：

且

I₂：

I₃：其他。

5.根据权利要求1所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，在所述步骤S5中，算法每执行一次后次用户的经验会产生损失，该损失作为经验会存储在次用户的优先经验池中。

6.根据权利要求5所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，经验的损失计算公式为：

Loss＝(y-Q^π(s，a₁，a₂，...，a_N))²

7.根据权利要求1所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，在所述步骤S8中，对算法进行训练的具体步骤为：

S81：先创建一个空的经验数组；

S83：将抽取到的经验样本存储到空的经验数组中；

S85：将经验数组整理，集中所有的智能体对算法进行训练。

8.根据权利要求7所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，在所述步骤S82中，在抽取经验之前，先对每个经验组中的经验样本赋予优先级，再按照每个经验样本的优先级进行抽取，所述优先级pr(i)的计算方式为：

pr(i)＝rank(rank(Loss(i))+rank_reverse(T))

9.根据权利要求8所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，在所述步骤S82中，给每个经验样本赋予优先级以后，每个经验样本根据优先级进行被抽取的概率计算，概率P(i)的计算公式为：

10.根据权利要求9所述的一种面向多用户利益的多智能体强化学习功率分配方法，其特征在于，该算法的神经网络是竞争深度Q网络，竞争深度Q网络的表达式为：

Q(s，a)＝V(s)+A(s，a)