CN112367132A - 基于强化学习解决认知无线电中的功率分配算法 - Google Patents

基于强化学习解决认知无线电中的功率分配算法 Download PDF

Info

Publication number
CN112367132A
CN112367132A CN202011161787.1A CN202011161787A CN112367132A CN 112367132 A CN112367132 A CN 112367132A CN 202011161787 A CN202011161787 A CN 202011161787A CN 112367132 A CN112367132 A CN 112367132A
Authority
CN
China
Prior art keywords
value
cognitive
function
setting
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011161787.1A
Other languages
English (en)
Other versions
CN112367132B (zh
Inventor
梁微
温书慧
杨思远
王大伟
高昂
李立欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011161787.1A priority Critical patent/CN112367132B/zh
Publication of CN112367132A publication Critical patent/CN112367132A/zh
Application granted granted Critical
Publication of CN112367132B publication Critical patent/CN112367132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习解决认知无线电中的功率分配算法,S1、设置深度学习算法的初始值参数,S2、设置关于CR‑NOMA系统的场景模型,并设置关于状态和动作的初始状态集合;S3、当某一计算时刻t小于等于最大限制的时间值Tmax时,求得时刻t下的状态值并计算相对应的奖励函数,并计算TD误差δt;S4、基于值函数选择用户的下一步动作,利用学习率以及TD误差值函数,将初始值函数更新为Q(st,at)←Q(st,at)+ηcδt;再根据已选择的执行动作获得相应的奖励,并获得策略函数π(g),然后将其更新为π(st,at)←π(st,at)‑ηaδt;π(g);S5、根据步骤S3使TD误差值达到最小,不停的迭代更新,最后获得最大的奖励函数值,即分配算法结束。解决了现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。

Description

基于强化学习解决认知无线电中的功率分配算法
技术领域
本发明属于通信技术领域,特别涉及一种功率分配策略,可用于解决覆盖式(underlay)认知无线电网络中的功率分配问题。
背景技术
覆盖式认知无线电网络能够解决频谱稀缺问题,即在由认知用户造成的干扰不能降低主用户的服务质量的约束下,认知用户能够使用相同的频谱与主用户同时传输。另一方面,非正交多址接入技术(Non-orthogonal Multiple Access,NOMA)作为提高未来无线网络的频谱效率的一种具有潜力的技术挑战,从根本上改变了常规的接入技术的设计。功率域的非正交多址接入技术(Power-domain NOMA)作为NOMA技术中最受欢迎的技术之一,它的核心思想是探索多址接入(MA)中的功率域差异,同时在时间、频率等其他域实现非正交性。更具体地说,在下行链路NOMA发明中,通过不同的功率分配系数,基站能够在相同的时间、频率信道中为多个用户服务,其中信道条件较差的用户被赋予更多的发射功率。因此,NOMA鼓励用户共享可用频谱,其中MA干扰可通过使用先进的收发器设计来去除,比如连续干扰消除和超级位置编码。在这一趋势下,通过融合NOMA和覆盖式认知无线电网络(underlay cognitive radio,underlay CR)的概念,提出了一种新的系统解决发明,即覆盖式CR-NOMA,该新系统可显著提高网络的频谱利用率。
近期,强化学习算法在许多领域中得到了广泛的应用。具体地说,每一个主体通过自身的学习以及环境的学习来改变自己的行为,同时,只获得一种奖励并反馈给自己的行为。现如今,研究者们在无线通信中实现了强化学习(Reinforcement Learning,RL)技术的应用。因此,本发明中通过使用RL方法进行信道选择,目的是为了减少系统所需的感应量,进而提高吞吐量和能量效率。迄今为止,基于RL发明的解决认知无线电系统中资源分配的研究是十分有限的,特别是在覆盖式CR-NOMA中,并没有过相关研究。
发明内容
本发明的目的是提供一种基于强化学习解决认知无线电中的功率分配算法,以解决现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。
本发明采用以下技术发明:基于强化学习解决认知无线电中的功率分配算法,
功率分配方法基于覆盖式CR-NOMA系统,覆盖式CR-NOMA系统包括主用户发射机-接收机对以及认知网络;认知网络中的认知发送器包括认知基站和K个认知用户,认知用户的索引包含在集合K中;覆盖式CR-NOMA系统中,多个认知用户利用NOMA技术接入同一主要用户频谱资源上;CR-NOMA系统中的,多个认知用户将利用NOMA技术接入同一主要用户频谱资源上。即认知用户们形成NOMA群组,其中需要考虑形成群组后各认知用户的功率分配机制。
功率分配方法按照以下步骤实施:
S1、设置深度学习算法的初始值参数,包括:
设置动作空间集合的学习率ηa,设置评论空间集合的学习率ηc,设置覆盖式CR-NOMA系统的折扣因子β,设置初始值函数Q(.),则Q(siniini)=0,设置状态空间集合S={s1(t),s2(t),...,sK(t)},设置算法的动作空间At={α1(t),α2(t),Λ,αK(t)},设置输入状态si
其中,sint是初始状态下状态空间集合内的元素,αint是初始状态下动作空间集合内的元素,sK(t)是状态空间集合内的元素;αK(t)是动作空间集合内的元素,t表示某一时刻,i∈[1,K];
S2、设置关于CR-NOMA系统的场景模型,在该场景模式下,设置初始状态集合为移动用户的信道特征集合,设置动作的初始状态集合为移动用户的功率分配参数;
S3、当某一计算时刻t小于等于最大限制的时间值Tmax时,求得时刻t下的状态值并计算相对应的奖励函数,奖励函数是由认知系统的频谱效率来决定,即
Figure BDA0002744580240000032
并计算深度学习算法中的TD误差δt
S4、基于值函数选择算法的下一步动作,即选择认知网络中移动用户的功率参数值,利用学习率以及TD误差值函数,将初始值函数更新为Q(st,at)←Q(st,at)+ηcδt;再根据已选择的执行动作获得相应的奖励,并获得策略函数π(·),然后将其更新为π(st,at)←π(st,at)-ηaδt
其中,st是t时刻状态空间集合内的元素;αt是t时刻动作空间集合内的元素;
S5、根据步骤S3使TD误差值达到最小,不停的迭代更新,最后获得最大的奖励函数值,即在满足最大化CR-NOMA系统频谱效率值的前提下,求得NOMA认知用户组的最优功率分配系数值。
步骤S3中,奖励函数为CR-NOMA系统的频谱效率值
Figure BDA0002744580240000031
根据误差函数δt=Rt+1+βQ(st+1,at+1)-Q(st,at)来计算TD误差,在误差迭代达到最小值时,找到NOMA认知用户组中,认知用户的功率最优分配值;其中算法中的折扣因子β的取值范围为0到1。
本发明有益效果是:
1.本发明基于AC-RL算法实现功率分配,成功寻到一种对于覆盖式认知无线电网络系统的最优跟踪控制器。
2.本发明在完整信道信息缺乏的情况下,根据来自无线环境的适应训练,可以有效调节认知用户的发射功率。
附图说明
图1为本发明的基于强化学习解决认知无线电中的功率分配算法基于所构想的覆盖式CR-NOMA环境的AC-RL示意图;
图2为本发明的基于强化学习解决认知无线电中的功率分配算法中认知用户的频谱利用率与时间指数的关系;
图3为本发明的基于强化学习解决认知无线电中的功率分配算法中认知基站最大发射功率和主用户最大发射功率比,即PS/PPU变化时认知用户的性能比较图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明主要适用于覆盖式CR-NOMA系统,该系统由主用户发射机-接收机对以及认知网络组成。特别地,有一个认知发送器,称为认知基站和K个认知用户,认知用户的索引包含在集合K中。在本发明的分配算法中,主要关注认知基站(CBS)到认知用户(CUs)之间的下行链路传输。通过使用非正交多址接入技术,K个CUs能够同时接入相同的频谱。因此,与现有的研究不同,只要主用户(PU)传输的干扰低于预先设定的阈值Ith,允许多路CUs而不是一路CU接入到PU的频带。在这种情况下,认知用户保持沉默,根据主传输的性能要求限制认知用户的发射功率。
在覆盖式CR-NOMA系统下行链路认知传输中,CBS同时传输K个CUs的叠加信息,且PU在允许一簇CUs接入其频谱之前,应先满足自身的要求。通过限制CBS的最大传输功率来控制PU处的多余CUs干扰。在不丧失一般的前提下,我们假设CBS有CUs信道质量的排序信息。当使用NOMA技术时,CUs的发射功率系数应该满足α1≥α2≥Λ≥αK,其中假设总功率分配系数归一化使得
Figure BDA0002744580240000051
因此,可以在CU接收机端使用连续信道干扰抵消技术。根据NOMA发明原则,具有最佳信道条件的CUk的SE可以表示为:
Figure BDA0002744580240000052
该项工作的重点是考虑到的覆盖式CR-NOMA系统的功率分配,其目的是最大化CUs的SE。当给定PU的预定义QoS需求时,最大化认知网络频谱效率的目标函数公式如下:
Figure BDA0002744580240000053
观察目标函数发现,公式(1)最大化认知网络系统的网络频谱效率是一个不明显的问题,该问题很难解决并且需要知道所有CUs的瞬时信道状态信息(CSI)。然而,在一些实际发明中,由于反馈信道和动态通信环境的能力限制,很难获得用户CSI的完整信息。
在覆盖式CR-NOMA问题中,公式(1)中的功率分配问题可以看作具有连续状态和行为的离散时间马尔可夫决策过程(MDP)。为解决实际执行问题,传统的凸最优化方法不能够在已知量化信道增益的情况下找到最优解,甚至次优解。相反,无模型RL框架能够应用于我们的问题,因为它只需要知道无线环境的部分信息(包括不完全CSI)就可以得到状态(即功率分配策略)转移概率和状态期望回报(即CUs的SE)。
利用一般RL框架的特点,本发明采用AC-RL方法用于解决本发明所提出的功率分配的问题,示意图如图1所示。在算法开始,代理观测环境并且产生基于高斯策略和即刻奖励的动作。因此,批评者部分能够估计值函数并且计算TD误差。然而,批评者根据TD误差和资格跟踪比例更新其参数。参与者使用来自批评者的结果计算优势函数并估计策略。此后,它的参数根据策略进行更新。最后,当其收敛至最优策略和最优值函数时,可以得到参与者和批评者的最优参数。
本发明的功率分配方法基于覆盖式CR-NOMA系统,覆盖式CR-NOMA系统中认知用户将形成认知用户组并在满足主要用户的干扰限制前提下,同一时间接入同一频段进行传输,其中系统的结构包括主用户发射机和接收机对以及认知网络;所述认知网络中的认知发送器包括认知基站和K个认知用户;为了解决认知用户组内功率分配问题,将使用Actor-Critic强化学习算法来对于认知用户组内功率进行分配。由于Actor-Critic作为一种强化学习算法也叫作演员评论家强化学习算法,它结合了以动作为基础(Actor)和以值为基础(Critic)的两类算法,通过分别学习值函数和策略函数以加速学习过程,最终得到最大化值函数的策略。即Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,然后Actor再根据Critic的评分修改选行为的概率。所以本发明对这个以值为基础和以动作为基础的部分进行了设定。
总而言之,基于强化学习的四个决定性因素状态(state)、动作(action)、策略(policy)、奖励(reward),以下的步骤是要设计符合本发明环境的强化学习算法对系统进行合理功率分配并按照以下步骤实施:
S1、设置动作空间集合(Actor部分)ηa的学习率;设置评论空间集合(Critic部分)ηc的学习率,定值比如设置0.0001.同时,设置覆盖式CR-NOMA系统的折扣因子β;设置初始值函数为Q(siniini)=0,其中αk(t)是动作空间集合内的元素初始值设置,sk(t)是状态空间集合内的元素初始值设置;以上初始值设置都为强化学习算法的必要条件。
S2、设置本发明中关于CR-NOMA系统的环境模型,包括输入状态si,其中i∈[1,K];在本发明中,将系统用户的信道增益设置为算法的状态空间值,则状态空间St,St={s1(t),s2(t),...,sK(t)}。其中sk(t)是状态空间集合内的元素;其次,设置为算法的动作空间At,At={α1(t),α2(t),Λ,αK(t)},其中αk(t)是动作空间集合内的元素。算法中的动作是和基于状态得到的奖励函数有关,算法中是根据奖励函数值以及策略来进行动作的选择。对于状态值函数和策略(动作)函数是分开进行更新的,所以对其要分别设定集合以及集合中的元素。状态值函数表示从当前状态采取动作的累积奖赏的期望值,然后用给定的策略来选择应采取的动作。Critic部分采用状态值函数来计算累积回报。
S3、当某一计算时刻小于最大限制的时间值,即t≤Tmax时,计算即刻奖励函数
Figure BDA0002744580240000071
使用δt=Rt+1+βQ(st+1,at+1)-Q(st,at)计算TD误差;其中,δt是算法中的计算误差值,系统的折扣因子β的取值范围为0到1,Q函数是关于每一步的转态和动作的。这个差值的含义就是每次机器更新会与上一轮得到的奖赏函数进行比较,是误差值不断减小,最终达到奖赏函数的最大值。TD-error可以通过在先前的状态下产生的状态值Q函数以及在Critic部分产生的状态值函计算,即δt=Rt+1+βQ(st+1,at+1)-Q(st,at)。之后通过将TD-error反馈给Actor指导Actor对策略进行更好的更新。如果每个动作在每种状态下执行无限次,并且算法遵循贪婪的探索,则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q*(s)和最优策略π*,此时系统的能量效率也达到最优。
S4、基于值函数选择动作,将初始值函数更新为Q(st,at)←Q(st,at)+ηcδt;执行选择的动作并且获得相应的奖励,并获得策略函数,将其更新为π(st,at)←π(st,at)-ηaδt
S5、最后根据步骤S3是误差值达到很小,不停的迭代更新,最后达到最大的奖励函数获得最大的奖励函数值,即分配算法结束。
实施例:
1.仿真条件:1)CUs的数目是K=6,2)PU的传输功率是PPU=15dB,3)折扣因子是β=0.9,4)参与者的学习率是ηa=0.01,5)批评者的学习率是ηc=0.001。
2.仿真内容:对采用不同学习算法情景下CUs的频谱的有效率(Spectralefficiency,SE)性能与时间指数的关系进行仿真比较,结果如图2。图2中,纵坐标为“认知用户们的频谱利用率”;横坐标为“仿真的迭代时间”。
由图2仿真结果可知,通过使用Q学习,连续值状态和作用必须量化,并且实际值由有限离散值的近似值代替。与我们的AC-RL算法相反,基于Q学习的功率分配算法需要知道CUs的即刻CSI。图片2证明基于AC-RL算法的功率分配成功寻到一种对于覆盖式CR系统的最优跟踪控制器。
3.仿真内容:当认知基站(Cognitive Base Station,CBS)最大发射功率和PU最大发射功率比,即PS/PPU变化时,对于采用AC-RL算法、Q学习算法及无学习过程时CUs的SE性能进行仿真比较,结果如图3所示。图3中,纵坐标为“认知用户的频谱利用率”;横坐标为“CBs最大发射功率和PU最大发射功率比,即PS/PPU”。
由图3仿真结果可知,Q学习算法和AC-RL算法重叠。AC-RL算法性能和Q学习算法性能相似,当CUs的发射功率足够大时,CUs产生的SE保持不变。AC-RL算法和无学习过程的算法相比,应用AC-RL算法可以使CUs获得更高的SE。
在已有的技术平台上对于功率分配将利用凸优化算法求得最优解。前提是在已知系统信道信息的,假如对于信道信息位置,只是有个模糊不完全的前提信息,利用RL发明就可以解决该条件下的功率分配问题。这个解决办法是当下没有考虑过的。凸优化数学工具和深度学习方法可使认知网络系统中的功率分配达到最优值,为了提高两种方法的实用性,本发明考虑了实际情况下的可变的认知用户地理位置模型。在理想情况下,用户的位置在工作中保持不变。实际情况中假设用户的位置可在工作中改变。对于实际情况,并考虑大密度用户的前提下,本发明拟利用RL方法进行计算。
本发明的基于强化学习解决认知无线电中的功率分配算法使用了一种由参与者与批评者加入的强化学习(Actor-critic RL,AC-RL)算法,用于解决覆盖式非正交认知无线电网络(CR-NOMA)中的功率分配策略,目的是为了达到主用户限制的最小速率要求的同时,有效地协调认知用户们的发射功率,进而提高认知用户们的频谱利用率。
该算法能够在已知量化信道增益(即不知道认知用户的瞬时信道状态信息(CSI))情况下有效地管理认知用户的发射功率。具体地说,通过将奖励函数设置为加权数据率,提出的AC-RL方法迭代地产生受时差(TD)误差影响的行为(即功率分配策略),并且能够自动学习接近最优的分配策略,以使认知用户频谱利用率最大化。
本发明提出了一种基于AC-RL算法的覆盖式认知无线电网络中功率分配策略,在主用户的干扰约束下,一簇认知用户可利用非正交多址接入技术同时接入相同的主频段。在该发明中,不同认知用户的功率分配基于AC-RL模型,该模型将加权数据率设置为奖励函数,并且迭代批评和更新用户产生的行为策略,即功率分配。在AC-RL学习的训练中,将认知用户的频谱效率和主用户的干扰约束条件考虑在内。本发明将AC-RL算法与无学习过程的基准发明以及现存的基于Q学习的方法进行了相比,基于所得到的仿真结果可得到,本发明使系统得到较高的频谱利用率,由此同时,认知用户们对于主用户的传输干扰被限制在一个给定的容许范围内。
本发明使用的强化学习方法有别于一般强化学习方法,其场景设置是按照CR-NOMA系统场景设置,其状态值是由信道增益设置。本发明的信道设置方式与平常系统不同,本发明假设用户位置是不固定的,即用户位置可变,相较于传统用户位置固定的方式,本发明的优势是用户在一个可变换的区间内,对于用户组的功率进行最优分配。同时本发明的奖励函数是由有效频谱来设定,根据每个阶段达到的频谱值来判定下一个阶段中用户的动作状态。综上所述,本发明基于AC-RL算法实现功率分配,成功寻到一种对于覆盖式认知无线电网络系统的最优跟踪控制器;同时,在完整信道信息缺乏的情况下,根据来自无线环境的适应训练,可以有效调节认知用户的发射功率;解决了现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。

Claims (2)

1.基于强化学习解决认知无线电中的功率分配算法,其特征在于,
所述功率分配方法基于覆盖式CR-NOMA系统,所述覆盖式CR-NOMA系统包括主用户发射机-接收机对以及认知网络;所述认知网络中的认知发送器包括认知基站和K个认知用户,所述认知用户的索引包含在集合K中;所述覆盖式CR-NOMA系统中,多个认知用户利用NOMA技术接入同一主要用户频谱资源上;
所述功率分配方法按照以下步骤实施:
S1、设置深度学习算法的初始值参数,包括:
设置动作空间集合的学习率ηa,设置评论空间集合的学习率ηc,设置覆盖式CR-NOMA系统的折扣因子β,设置初始值函数Q(.),则Q(siniini)=0,设置状态空间集合S={s1(t),s2(t),...,sK(t)},设置算法的动作空间At={α1(t),α2(t),…,αK(t)},设置输入状态si
其中,sint是初始状态下状态空间集合内的元素,αint是初始状态下动作空间集合内的元素,sK(t)是状态空间集合内的元素;αK(t)是动作空间集合内的元素,t表示某一时刻,i∈[1,K];
S2、设置关于CR-NOMA系统的场景模型,在该场景模式下,设置初始状态集合为移动用户的信道特征集合,设置动作的初始状态集合为移动用户的功率分配参数;
S3、当某一计算时刻t小于等于最大限制的时间值Tmax时,求得时刻t下的状态值并计算相对应的奖励函数,奖励函数是由认知系统的频谱效率来决定,即
Figure FDA0002744580230000011
并计算深度学习算法中的TD误差δt
S4、基于值函数选择算法的下一步动作,即选择认知网络中移动用户的功率参数值,利用学习率以及TD误差值函数,将初始值函数更新为Q(st,at)←Q(st,at)+ηcδt;再根据已选择的执行动作获得相应的奖励,并获得策略函数π(g),然后将其更新为π(st,at)←π(st,at)-ηaδt
其中,st是t时刻状态空间集合内的元素;αt是t时刻动作空间集合内的元素;
S5、根据步骤S3使TD误差值达到最小,不停的迭代更新,最后获得最大的奖励函数值,即在满足最大化CR-NOMA系统频谱效率值的前提下,求得NOMA认知用户组的最优功率分配系数值。
2.如权利要求1所述的基于强化学习解决认知无线电中的功率分配算法,其特征在于,所述步骤S3中,所述奖励函数为CR-NOMA系统的频谱效率值
Figure FDA0002744580230000021
根据误差函数δt=Rt+1+βQ(st+1,at+1)-Q(st,at)来计算TD误差,在误差迭代达到最小值时,找到NOMA认知用户组中,认知用户的功率最优分配值;其中算法中的折扣因子β的取值范围为0到1。
CN202011161787.1A 2020-10-27 2020-10-27 基于强化学习解决认知无线电中的功率分配算法 Active CN112367132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011161787.1A CN112367132B (zh) 2020-10-27 2020-10-27 基于强化学习解决认知无线电中的功率分配算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011161787.1A CN112367132B (zh) 2020-10-27 2020-10-27 基于强化学习解决认知无线电中的功率分配算法

Publications (2)

Publication Number Publication Date
CN112367132A true CN112367132A (zh) 2021-02-12
CN112367132B CN112367132B (zh) 2021-12-24

Family

ID=74512233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011161787.1A Active CN112367132B (zh) 2020-10-27 2020-10-27 基于强化学习解决认知无线电中的功率分配算法

Country Status (1)

Country Link
CN (1) CN112367132B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113316239A (zh) * 2021-05-10 2021-08-27 北京科技大学 一种基于强化学习的无人机网络发射功率分配方法及装置
CN113438723A (zh) * 2021-06-23 2021-09-24 广东工业大学 一种高额奖励惩罚的竞争深度q网络功率控制方法
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113890653A (zh) * 2021-08-30 2022-01-04 广东工业大学 面向多用户利益的多智能体强化学习功率分配方法
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114200834A (zh) * 2021-11-30 2022-03-18 辽宁石油化工大学 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN115022953A (zh) * 2022-05-30 2022-09-06 昆明理工大学 一种面向cr-noma系统的动态功率分配方法
TWI830235B (zh) * 2022-05-24 2024-01-21 國立成功大學 基於人工智慧算法之下行多用戶疊加傳輸系統資源分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809456A (zh) * 2018-07-04 2018-11-13 天津大学 一种基于改进强化学习的集中式认知无线电频谱分配方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109068391A (zh) * 2018-09-27 2018-12-21 青岛智能产业技术研究院 基于边缘计算和Actor-Critic算法的车联网通信优化算法
CN110300412A (zh) * 2019-06-18 2019-10-01 西北工业大学 基于博弈论的非正交认知无线电网络中资源分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809456A (zh) * 2018-07-04 2018-11-13 天津大学 一种基于改进强化学习的集中式认知无线电频谱分配方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109068391A (zh) * 2018-09-27 2018-12-21 青岛智能产业技术研究院 基于边缘计算和Actor-Critic算法的车联网通信优化算法
CN110300412A (zh) * 2019-06-18 2019-10-01 西北工业大学 基于博弈论的非正交认知无线电网络中资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI LIANG等: "Cooperative Game Aided Spectrum Sharing in Underlay Cognitive Radio Networks Employing NOMA Schemes", 《2018 IEEE GLOBECOM WORKSHOPS (GC WKSHPS)》 *
张少敏等: "基于人工智能算法的功率域NOMA系统功率分配方法研究", 《移动通信》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113225794B (zh) * 2021-04-29 2022-09-27 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113316239B (zh) * 2021-05-10 2022-07-08 北京科技大学 一种基于强化学习的无人机网络发射功率分配方法及装置
CN113316239A (zh) * 2021-05-10 2021-08-27 北京科技大学 一种基于强化学习的无人机网络发射功率分配方法及装置
CN113438723A (zh) * 2021-06-23 2021-09-24 广东工业大学 一种高额奖励惩罚的竞争深度q网络功率控制方法
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113641192B (zh) * 2021-07-06 2023-07-18 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113890653A (zh) * 2021-08-30 2022-01-04 广东工业大学 面向多用户利益的多智能体强化学习功率分配方法
CN113890653B (zh) * 2021-08-30 2023-06-09 广东工业大学 面向多用户利益的多智能体强化学习功率分配方法
CN114126021A (zh) * 2021-11-26 2022-03-01 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114126021B (zh) * 2021-11-26 2024-04-09 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114200834A (zh) * 2021-11-30 2022-03-18 辽宁石油化工大学 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN114200834B (zh) * 2021-11-30 2023-06-30 辽宁石油化工大学 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
TWI830235B (zh) * 2022-05-24 2024-01-21 國立成功大學 基於人工智慧算法之下行多用戶疊加傳輸系統資源分配方法
CN115022953A (zh) * 2022-05-30 2022-09-06 昆明理工大学 一种面向cr-noma系统的动态功率分配方法

Also Published As

Publication number Publication date
CN112367132B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN112367132B (zh) 基于强化学习解决认知无线电中的功率分配算法
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
Cui et al. Spatial deep learning for wireless scheduling
Ding et al. No-pain no-gain: DRL assisted optimization in energy-constrained CR-NOMA networks
CN114389678B (zh) 一种基于决策性能评估的多波束卫星资源分配方法
CN109274456B (zh) 一种基于强化学习的不完全信息智能抗干扰方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
Zaher et al. Learning-based downlink power allocation in cell-free massive MIMO systems
CN113316154A (zh) 一种授权和免授权d2d通信资源联合智能分配方法
CN111726845A (zh) 多用户异构网络系统中的基站切换选择和功率分配方法
Guo et al. Deep reinforcement learning optimal transmission algorithm for cognitive Internet of Things with RF energy harvesting
CN109982434A (zh) 无线资源调度一体智能化控制系统及方法、无线通信系统
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN101778465B (zh) Cdma蜂窝系统中基于误差估计的比例功率控制方法
Xiao et al. Intervention in power control games with selfish users
CN114885340A (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
Zhang et al. Calibrated learning for online distributed power allocation in small-cell networks
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Chandra et al. Joint resource allocation and power allocation scheme for MIMO assisted NOMA system
CN113038583A (zh) 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN116744311A (zh) 基于per-ddqn的用户组频谱接入方法
CN116132997A (zh) 基于a2c算法优化混合供电异构网中能源效率的方法
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
Kaur et al. Cuckoo search based optimization of multiuser cognitive radio system under the effect of shadowing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant