CN112383965B - 基于drqn和多传感器模型的认知无线电功率分配方法 - Google Patents

基于drqn和多传感器模型的认知无线电功率分配方法 Download PDF

Info

Publication number
CN112383965B
CN112383965B CN202011204883.XA CN202011204883A CN112383965B CN 112383965 B CN112383965 B CN 112383965B CN 202011204883 A CN202011204883 A CN 202011204883A CN 112383965 B CN112383965 B CN 112383965B
Authority
CN
China
Prior art keywords
drqn
power
network
cognitive radio
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011204883.XA
Other languages
English (en)
Other versions
CN112383965A (zh
Inventor
高玉龙
原子鸿
王孝
陈鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011204883.XA priority Critical patent/CN112383965B/zh
Publication of CN112383965A publication Critical patent/CN112383965A/zh
Application granted granted Critical
Publication of CN112383965B publication Critical patent/CN112383965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于DRQN和多传感器模型的认知无线电功率分配方法,涉及认知无线电中的频谱共享技术领域。本发明是为了解决现有对认知无线电中频谱的分配和共享所采用的方法没有考虑频谱资源之间异构性的问题。本发明在环境中安置多个传感器,将传感器感知到的环境数据作为DRQN网络的环境状态集,利用深度强化学习中的DRQN网络,结合环境模型中多个传感器传出的信息,根据通信需求为网络中的用户制定功率策略。

Description

基于DRQN和多传感器模型的认知无线电功率分配方法
技术领域
本发明属于认知无线电中的频谱共享技术领域。
背景技术
电磁波是无线通信系统中通信的载体,多数国家采用固定的频谱分配策略对其进行管理和分配,保证不同的无线通信系统之间不会产生干扰。固定的频谱分配策略是将电磁波中适用于无线通信的频谱资源划分为许多不同的频段,然后分别以独占的方式分配给不同用途的通信业务或无线通信系统。获得使用权的用户被称为授权用户,对该频段拥有长期所有权,任何用户不得使用该频谱资源。由于这种静态的频谱分配策略无法应对频谱资源被空闲用户长期占用导致的浪费问题,认知无线电技术应运而生。
在认知无线电中频谱的分配和共享是一项重要技术。所谓共享,就是指网络中的用户可以以主用户加次用户的模式完全平等地享用共同的频谱资源。在共享的过程中,要制定相应的规则保证网络中所有用户的通信不受干扰,并在一定程度上满足各自的通信需求,这就需要网络的管理者寻找一种最优算法,在干扰受限的条件下为用户选择最合适的频段和功率接入信道。
目前资源共享使用的主要技术有基于图论、基于频谱交易、基于智能优化算法的分配方法。但这些方法没有考虑频谱资源之间的异构性,应用场景也比较简单。
发明内容
本发明是为了解决现有对认知无线电中频谱的分配和共享所采用的方法没有考虑频谱资源之间异构性的问题,现提供基于DRQN和多传感器模型的认知无线电功率分配方法。
基于DRQN和多传感器模型的认知无线电功率分配方法,移动网络中设置有N个功率传感器,N为正整数,所述认知无线电功率分配方法包括以下步骤:
步骤一:利用N个功率传感器采集k时刻移动网络中目标信道上的信号功率,将N个功率传感器获得的信号功率构成k时刻环境状态集,并将该环境状态集输入到DRQN网络中,
步骤二:利用贪心策略和奖励函数计算k时刻DRQN网络的动作值和奖励值,
步骤三:利用动作值和奖励值更新DRQN网络的Q函数值和损失函数值,
步骤四:判断更新后的DRQN网络是否完成训练,是则执行步骤五,否则使k=k+1,然后返回步骤一;
步骤五:利用N个功率传感器采集当前时刻移动网络中目标信道上的信号功率,并将该信号功率作为环境状态向量输入至训练完成的DRQN网络中,
步骤六:选取DRQN网络获得的所有Q函数值中最大值所对应的动作值作为当前时刻的DRQN网络输出,
步骤七:判断移动网络中认知无线电功率分配是否完成,是则结束,否则返回步骤五。
上述步骤一所述k时刻的环境状态集表达式如下:
Figure BDA0002756720610000021
其中,
Figure BDA0002756720610000022
为第f个功率传感器在k时刻采集的信号功率,f=1,2,...,N,
Figure BDA0002756720610000023
其中,P1(k)为当前用户的信号功率,P2(k)g2f+...+Pi(k)gif为除当前用户外其它用户的信号总功率,i为用户总数,wf(k)为目标信道上的噪声功率,g1f为当前用户到第f个功率传感器的信号增益,
Figure BDA0002756720610000024
其中,λ为波长,d1f为第f个功率传感器到当前用户的距离。
上述步骤二所述奖励值表达式如下:
Figure BDA0002756720610000025
其中,c为正反馈奖励,SINRi(k+1)为第i个用户的信干噪比,ηi为第i个用户能够正常通信时的最低信噪比,
Figure BDA0002756720610000026
其中,hii为第i个用户在信道上通信的信道增益,hji为其他用户和第i个用户产生干扰时的信道增益,pi和pj分别为第i个用户和其他用户的通信功率,β为噪声功率。
上述步骤三中根据下式更新Q函数值Q(s,a):
Q(s,a)=Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]
其中,r(s,a)为在s环境下执行a动作所获得的奖励,γ为折损函数,α为学习率,maxQ(s′,a′)为k+1时刻环境变为s′、动作选用a′时Q函数值的最大值。
上述步骤三中根据下式更新损失函数值L(θ):
L(θ)=E{[r(s,a)+γmaxQ(s′,a′)-Q(s,a,θ)]2},
其中,θ为DRQN网络的权重,E{}为期望函数。
上述步骤四判断更新后的DRQN网络是否完成训练的方法为:DRQN网络是否收敛,是则完成训练,否则未完成训练;或更新是否到达最大迭代次数,是则完成训练,否则未完成训练。
上述步骤七判断认知无线电功率分配是否完成的方法为:DRQN网络中所有用户是否均被满足,是则认知无线电功率分配完成,否则认知无线电功率分配未完成;或分配否到达最大迭代次数,是则认知无线电功率分配完成,否则认知无线电功率分配未完成。
在上述步骤七之后还包括验证步骤:计算分配成功率和平均步数,当成功率或平均步数不能够满足要求时,返回步骤一。
本发明所述的基于DRQN和多传感器模型的认知无线电功率分配方法,在环境中安置多个传感器,将传感器感知到的环境数据作为DRQN网络(Deep Recurrent Q-LearningNetwork,递归深度Q网络)的环境状态集,利用深度强化学习中的DRQN网络,结合环境模型中多个传感器传出的信息,根据通信需求为网络中的用户制定功率策略,并利用损失函数、成功率、平均步数作为衡量功率分配结果的指标。
仿真结果表明,在多传感器模型下,经过多次迭代,损失函数下降到了个位数字,成功率可以达到99%左右,满足所有用户最低信噪比要求的平均步数稳定在2.5步左右,同随机选择功率的方案相比,具有比较好的表现。
附图说明
图1为多传感器位于移动网络中的模型示意图;
图2为损失函数曲线图;
图3为成功率曲线图;
图4为平均步数曲线图;
图5为基于DRQN和多传感器模型的认知无线电功率分配方法的流程图。
具体实施方式
强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态。对于该新的状态,环境会给出奖励信号(正奖励或负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式。
事实上,强化学习就是人与环境交互的一种模型化表示。在每个时间点t,智能体都会从可选动作集合A中选择一个动作at执行。这个动作集合A可以是连续的,也可以是离散的。智能体在环境中的任务目标是获取尽可能多的奖励。在每个时间点,智能体都会根据当前的观察来确定下一步的动作,观察的数据就是智能体所处的状态值。因此,状态和动作之间存在着某种映射的关系,一个状态可以对应一个动作,或者对应不同的状态概率(强化学习中往往使用概率来表示,概率最高的就是最值得执行的动作)。状态与动作的关系其实就是输入与输出的关系,把这种从状态到动作的过程称之为策略,用π来表示。强化学习的最终任务就是找到这样一个最优策略:在这个策略下,智能体知道在任意一个状态下采取怎样的动作能够使任务的累计奖励最大。
本实施方式中的强化学习策略使用马尔科夫决策过程(MDP)来进行数学建模。在这种模型下,假设下一个状态仅取决于当前的状态和当前的动作。既然一个状态对应一个动作或者动作的概率,则在MDP下,有了动作便确定了下一个状态,这就意味着可以用一个确定的值来描述每个状态,并由此来判断这个状态是好的状态还是不好的状态。
显然,状态的好坏其实等价于为未来回报的期望。因此能够使用回报(Result)来描述某个时刻t的状态将具备的回报;使用贝尔曼方程来描述当前状态的好坏。贝尔曼方程表明,当前状态的好坏可以用在这个状态下所获得的回报的期望值来描述,且这个好坏值可以通过迭代来求得。
在大多数情况下使用动作价值函数来描述在某个状态下采取某个动作的好坏。原理和上面的状态价值函数一样,动作价值函数通过计算在某个状态下采用某个动作所能获得奖励的期望值来描述在该状态下采用这个动作的好坏程度。显然,在计算出当前状态下所有动作对应的动作价值函数值Qπ(s,a)后,便可以把那个值最大的动作定义为最优动作:
Q*(s,a)=maxQπ(s,a)
此外,为了能够根据实际情况及时地更新Q值,采用Q-learning算法更新:
Q(St,At)←Q(St,At)+α(Rt+1+λmaxaQ(St+1,a)-Q(St,At))
如上所示,在强化学习的过程中,智能体便可以根据Q-learning算法原理、结合根据实际情况制定的奖励函数更新Q表。
当环境状态集变得巨大甚至无限时,强化学习便无法通过反复尝试来构造出完整的Q表,换言之,强化学习无法在这种环境下生成一个具体的价值函数。深度强化学习技术应运而生,它是强化学习和深度学习理论结合的产物。深度学习算法使用神经网络来模拟一些不方便使用数学表达式表达的函数。因此,深度神经网络可以通过不断地调参找到在巨大状态集下的价值函数,这就是深度强化学习技术。相对于强化学习中的Q-learning算法,深度强化学习有与之对应的DQN(Deep Q-learning)算法。在DQN中把目标Q值作为标签,使用神经网络来使当前Q值逼近目标Q值。网络的损失函数定义如下:
Figure BDA0002756720610000051
其中,r+γmaxa′Q(s′,a′,w)便是目标Q值。此时便可以利用反向梯度下降算法来更新网络中的权重参数,直到网络收敛。
DRQN网络是DQN网络的改进,近年来由于在处理POMDP(Partially ObservableMarkov Decision Process,部分观测马尔科夫过程)问题上的优越表现受到学者们的高度关注。DQN在处理POMDP过程时有天然的局限性。以游戏环境举例,DQN网络获取的每一帧图像之间其实都有关联性,但由于DQN网络使用的是全连接神经网络,无法利用这些图像之间的关联信息,因此DQN往往需要使用十分完整的观测信息,以及很大的内存来存储经验数据。换言之,既然用户所处的环境是不完全观测的,那么顺理成章地,就让用户在环境中“多观察几次”,对多次观察的结果之间的联系进行分析,就可以很好地适应这种POMDP过程了。DRQN网络之所以能很好地解决POMDP问题,就是因为其在全连接网络层之前接入了一层LSTM层。由于LSTM层具有记忆功能,可以从相关联的信息中提取到有用的部分,在一定程度上可以有效解决POMDP过程中的不完全观测问题。
本实施方式提出的方法就是利用深度强化学习中的DRQN网络,将动态的网络环境建模为一个多传感器模型,以用户在网络中的信干噪比为基础设置奖励函数,寻找用户最优的功率接入策略,提高用户在网络中通信的质量。本实施方式是基于深度强化学习技术和认知无线电理论实现的,具体如下:
具体实施方式一:参照图1至图5具体说明本实施方式,本实施方式所述的基于DRQN和多传感器模型的认知无线电功率分配方法,采用DRQN+多传感器模型。假设在某个移动网络中存在着N(正整数)个人为放置的功率传感器能够感知到目标信道上的信号功率,同时环境中有I对用户通信链路。这些传感器放置在网络中的不同位置,和网络中所有用户的距离各不相同,因此得到的功率数据也各不相同,环境对于各个传感器来说,具有部分感知的性质,用户需要根据N个传感器得到的部分感知数据作为环境状态,选择自己的动作,由此将环境构建为一个部分感知马尔科夫过程(POMDP过程)。
POMDP过程,就是要从数据中学习到一种策略,在这种策略指导下,用户根据当前的环境状态能够选取收益最大的动作。在这个模型中,智能体要学会在多个传感器结果组成的环境状态中,选择多大的通信功率才能获得最大的收益。定义折损收益为:
Figure BDA0002756720610000061
其中,γ为折损函数,T′表示时间节点。则根据QoS要求,当前用户需要学习策略π,使得更新策略为:
Figure BDA0002756720610000062
假设环境中除了智能用户以外,其他用户为非智能用户,它们的功率随时间变化情况满足DCPC(Distributed Constrained Power Control)算法,它们的功率更新策略为:
Figure BDA0002756720610000063
其中,SINRo(k)表示用户在k时刻通信的信干噪比,ηo表示用户的最低信噪比门限,D()表示一种离散算法,可以选取
Figure BDA0002756720610000064
和可选功率集
Figure BDA0002756720610000065
中差值的绝对值最小的值。
基于DRQN和多传感器模型的认知无线电功率分配方法具体步骤如下:
步骤一:利用N个功率传感器采集k时刻移动网络中目标信道上的信号功率,将N个功率传感器获得的信号功率构成k时刻环境状态集,并将该环境状态集输入到DRQN网络中,所述k时刻的环境状态集表达式如下:
Figure BDA0002756720610000066
其中,
Figure BDA0002756720610000067
为第f个功率传感器在k时刻采集的信号功率,f=1,2,...,N,
Figure BDA0002756720610000068
其中,P1(k)为当前用户的信号功率,P2(k)g2f+...+Pi(k)gif为除当前用户外其它用户的信号总功率,i为用户总数,wf(k)为目标信道上的噪声功率,g1f为当前用户到第f个功率传感器的信号增益,
Figure BDA0002756720610000071
其中,λ为波长,d1f为第f个功率传感器到当前用户的距离。
每个传感器都只能得到信道上所有用户功率的总和,而无法区分信道上当前用户和其他用户各自的通信功率。为了简化,将P2(k)g2f+...+Pi(k)gif表示为Po(k)gof,则有:
Figure BDA0002756720610000072
假设当前用户在目标频段上共有M个功率可以选择,那么智能体的动作状态集便是
Figure BDA0002756720610000073
步骤二:利用贪心策略和奖励函数计算k时刻DRQN网络的动作值和奖励值,所述奖励值表达式如下:
Figure BDA0002756720610000074
其中,c为正反馈奖励,SINRi(k+1)为第i个用户的信干噪比,ηi为第i个用户能够正常通信时的最低信噪比,i为用户总数,
Figure BDA0002756720610000075
其中,hii为第i个用户在信道上通信的信道增益,hji为其他用户和第i个用户产生干扰时的信道增益,pi和pj分别为第i个用户和其他用户的通信功率,β为噪声功率。
步骤三:利用动作值和奖励值更新DRQN网络的Q函数值和损失函数值,根据下式更新Q函数值Q(s,a):
Q(s,a)=Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]
其中,r(s,a)为在s环境下执行a动作所获得的奖励,γ为折损函数,α为学习率,maxQ(s′,a′)为k+1时刻环境变为s′、动作选用a′时Q函数值的最大值。
根据下式更新损失函数值L(θ):
L(θ)=E{[r(s,a)+γmaxQ(s′,a′)-Q(s,a,θ)]2},
其中,θ为DRQN网络的权重,E{}为期望函数。
步骤四:判断更新后的DRQN网络是否完成训练,是则执行步骤五,否则使k=k+1,然后返回步骤一;
所述判断更新后的DRQN网络是否完成训练的方法为:
DRQN网络是否收敛,是则完成训练,否则未完成训练;
或更新是否到达最大迭代次数,是则完成训练,否则未完成训练。
步骤五:利用N个功率传感器采集当前时刻移动网络中目标信道上的信号功率,并将该信号功率作为环境状态向量输入至训练完成的DRQN网络中。
步骤六:选取DRQN网络获得的所有Q函数值中最大值所对应的动作值作为当前时刻的DRQN网络输出。
步骤七:判断移动网络中认知无线电功率分配是否完成,是则结束,否则返回步骤五。
所述判断认知无线电功率分配是否完成的方法为:
DRQN网络中所有用户是否均被满足,是则认知无线电功率分配完成,否则认知无线电功率分配未完成;
或分配否到达最大迭代次数,是则认知无线电功率分配完成,否则认知无线电功率分配未完成。
步骤八:计算分配成功率和平均步数,当成功率或平均步数不能够满足要求时,返回步骤一。
实施方式首先使用贪心策略离线训练一定次数后,再进行在线测试,每一次在线测试都需要进行20个片段,每个片段执行50个时间步。在此基础上,定义每一次在线测试的成功率为:20个片段中、成功让所有智能体满足最低信噪比要求的次数和总次数的比值。定义每一次在线测试的平均步数为:假设第w个片段达到所有智能用户都满足最低信噪比要求时执行的时间步为Ni,平均步数就是所有成功的片段时间步的平均值。
如图2所示为损失函数曲线图,仿真使用的传感器数量为10个,通信链路数量为2对,其他用户功率以DCPC模型改变。可以看出,随着迭代次数的增多,损失函数逐渐趋于收敛,说明本实施方式中神经网络的训练是有效的。如图3所示为成功率曲线图,可以看到,随着迭代次数增加到25000次左右,成功率可以维持在95%以上,迭代次数增加到35000次,成功率可以维持在99%左右,效果良好。如图4所示为平均步数曲线图,可以看到随着迭代次数的增加,成功率达到90%以上需要的平均步数维持在2.5步左右,效果显著。

Claims (6)

1.基于DRQN和多传感器模型的认知无线电功率分配方法,其特征在于,移动网络中设置有N个功率传感器,N为正整数,所述认知无线电功率分配方法包括以下步骤:
步骤一:利用N个功率传感器采集k时刻移动网络中目标信道上的信号功率,将N个功率传感器获得的信号功率构成k时刻环境状态集,并将该环境状态集输入到DRQN网络中,
步骤二:利用贪心策略和奖励函数计算k时刻DRQN网络的动作值和奖励值,
步骤三:利用动作值和奖励值更新DRQN网络的Q函数值和损失函数值,
步骤四:判断更新后的DRQN网络是否完成训练,是则执行步骤五,否则使k=k+1,然后返回步骤一;
步骤五:利用N个功率传感器采集当前时刻移动网络中目标信道上的信号功率,并将该信号功率作为环境状态向量输入至训练完成的DRQN网络中,
步骤六:选取DRQN网络获得的所有Q函数值中最大值所对应的动作值作为当前时刻的DRQN网络输出,
步骤七:判断移动网络中认知无线电功率分配是否完成,是则结束,否则返回步骤五;
步骤三中根据下式更新Q函数值Q(s,a):
Q(s,a)=Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)],
其中,r(s,a)为在s环境下执行a动作所获得的奖励,γ为折损函数,α为学习率,maxQ(s′,a′)为k+1时刻环境变为s′、动作选用a′时Q函数值的最大值;
步骤三中根据下式更新损失函数值L(θ):
L(θ)=E{[r(s,a)+γmaxQ(s′,a′)-Q(s,a,θ)]2},
其中,θ为DRQN网络的权重,E{}为期望函数。
2.根据权利要求1所述的基于DRQN和多传感器模型的认知无线电功率分配方法,其特征在于,步骤一所述k时刻的环境状态集表达式如下:
Figure FDA0004051628600000011
其中,
Figure FDA0004051628600000012
为第f个功率传感器在k时刻采集的信号功率,f=1,2,...,N,
Figure FDA0004051628600000013
其中,P1(k)为当前用户的信号功率,P2(k)g2f+...+Pi(k)gif为除当前用户外其它用户的信号总功率,i为用户总数,wf(k)为目标信道上的噪声功率,g1f为当前用户到第f个功率传感器的信号增益,
Figure FDA0004051628600000021
其中,λ为波长,d1f为第f个功率传感器到当前用户的距离。
3.根据权利要求1所述的基于DRQN和多传感器模型的认知无线电功率分配方法,其特征在于,步骤二所述奖励值表达式如下:
Figure FDA0004051628600000022
其中,c为正反馈奖励,SINRi(k+1)为第i个用户的信干噪比,ηi为第i个用户能够正常通信时的最低信噪比,i为用户总数,
Figure FDA0004051628600000023
其中,hii为第i个用户在信道上通信的信道增益,hji为其他用户和第i个用户产生干扰时的信道增益,pi和pj分别为第i个用户和其他用户的通信功率,β为噪声功率。
4.根据权利要求1所述的基于DRQN和多传感器模型的认知无线电功率分配方法,其特征在于,步骤四判断更新后的DRQN网络是否完成训练的方法为:
DRQN网络是否收敛,是则完成训练,否则未完成训练;
或更新是否到达最大迭代次数,是则完成训练,否则未完成训练。
5.根据权利要求1所述的基于DRQN和多传感器模型的认知无线电功率分配方法,其特征在于,步骤七判断认知无线电功率分配是否完成的方法为:
DRQN网络中所有用户是否均被满足,是则认知无线电功率分配完成,否则认知无线电功率分配未完成;
或分配否到达最大迭代次数,是则认知无线电功率分配完成,否则认知无线电功率分配未完成。
6.根据权利要求1至5任意权利要求所述的基于DRQN和多传感器模型的认知无线电功率分配方法,其特征在于,在步骤七之后还包括验证步骤:
计算分配成功率和平均步数,当成功率或平均步数不能够满足要求时,返回步骤一。
CN202011204883.XA 2020-11-02 2020-11-02 基于drqn和多传感器模型的认知无线电功率分配方法 Active CN112383965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011204883.XA CN112383965B (zh) 2020-11-02 2020-11-02 基于drqn和多传感器模型的认知无线电功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011204883.XA CN112383965B (zh) 2020-11-02 2020-11-02 基于drqn和多传感器模型的认知无线电功率分配方法

Publications (2)

Publication Number Publication Date
CN112383965A CN112383965A (zh) 2021-02-19
CN112383965B true CN112383965B (zh) 2023-04-07

Family

ID=74576562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011204883.XA Active CN112383965B (zh) 2020-11-02 2020-11-02 基于drqn和多传感器模型的认知无线电功率分配方法

Country Status (1)

Country Link
CN (1) CN112383965B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344B (zh) * 2018-12-28 2019-10-11 北京邮电大学 一种无人机网络拓扑及路由联合构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Dealing with Partial Observations in Dynamic Spectrum Access: Deep Recurrent Q-Networks;Y. Xu, J等;《2018 IEEE Military Communications Conference (MILCOM)》;20190103;全文 *
Intelligent Power Control for Spectrum Sharing in Cognitive Radios: A Deep Reinforcement Learning Approach;Xingjian Li等;《IEEE Access》;20180430;正文第1-3节 *
Power Control Based on Deep Reinforcement Learning for Spectrum Sharing;Haijun Zhang等;《IEEE Transactions on Wireless Communications》;20200324;正文第1-3章,附图1 *
基于强化学习的动态频谱分配研究;杜江等;《数字通信》;20120825(第04期);正文第1-3章 *
基于深度强化学习的无线网络资源分配算法;李孜恒等;《通信技术》;20200810(第08期);全文 *
认知无线电中的频谱感知研究进展;张中兆等;《黑龙江大学工程学报》;20110825(第03期);全文 *

Also Published As

Publication number Publication date
CN112383965A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN101466111B (zh) 基于政策规划约束q学习的动态频谱接入方法
Supraja et al. Optimized neural network for spectrum prediction using genetic algorithm in cognitive radio networks
CN112512069B (zh) 基于信道波束图样的网络智能优化方法及装置
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
CN117202377B (zh) 基于双深q网络和冲突度算法的网络无冲突资源分配方法
Krishnan et al. Optimizing throughput performance in distributed MIMO Wi-Fi networks using deep reinforcement learning
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN112383369A (zh) 基于cnn-lstm网络模型的认知无线电多信道频谱感知方法
Benbouzid-SiTayeb et al. An effective multi-objective hybrid immune algorithm for the frequency assignment problem
CN114095940A (zh) 混合接入认知无线网络切片资源分配方法及设备
CN117715218B (zh) 基于超图的d2d辅助超密集物联网资源管理方法及系统
CN106257849B (zh) 基于多目标量子萤火虫搜索机制的频谱感知方法
CN113613332B (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN112383965B (zh) 基于drqn和多传感器模型的认知无线电功率分配方法
Tan et al. A hybrid architecture of cognitive decision engine based on particle swarm optimization algorithms and case database
CN115499876A (zh) Msde场景下基于dqn算法的计算卸载策略
CN115811788A (zh) 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
Jiang et al. Dynamic spectrum access for femtocell networks: A graph neural network based learning approach
Han et al. Analysis and optimization of wireless federated learning with data heterogeneity
Antonius Efficient resource allocation through CNN-game theory based network slicing recognition for next-generation networks
CN117750436B (zh) 一种移动边缘计算场景中的安全服务迁移方法及系统
CN114980254B (zh) 基于决斗深度循环q网络的动态多信道接入方法和装置
Jiang Graph Neural Network Based Learning for Dynamic Spectrum Access

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant