CN108924935A - 一种基于强化学习算法功率域的noma中的功率分配方法 - Google Patents

一种基于强化学习算法功率域的noma中的功率分配方法 Download PDF

Info

Publication number
CN108924935A
CN108924935A CN201810739496.2A CN201810739496A CN108924935A CN 108924935 A CN108924935 A CN 108924935A CN 201810739496 A CN201810739496 A CN 201810739496A CN 108924935 A CN108924935 A CN 108924935A
Authority
CN
China
Prior art keywords
power
user
state
critic
power distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810739496.2A
Other languages
English (en)
Inventor
李立欣
张少敏
梁微
李旭
高昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201810739496.2A priority Critical patent/CN108924935A/zh
Publication of CN108924935A publication Critical patent/CN108924935A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习算法的功率域NOMA中的功率分配方法,将Actor‑Critic算法中的Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor‑Critic算法中的Actor部分进行策略更新;通过不断的迭代,最终使得状态动作值函数和策略趋于最佳值函数和最佳策略,此时系统的能量效率是最优的,解决了现有中功率分配方法复杂度较高,且在优化系统的性能方面不能达到很好效果的问题。

Description

一种基于强化学习算法功率域的NOMA中的功率分配方法
【技术领域】
本发明属于无线通信技术领域,具体涉及一种基于强化学习算法功率域的 NOMA中的功率分配方法。
【背景技术】
随着智能终端普及应用及移动新业务需求的持续增长,无线传输速率需求呈指数增长,无线通信的传输速率将仍然难以满足未来移动通信的应用需求。在 4G网络的基础上,5G网络定位于频谱效率更高、速率更快、容量更大的无线网络,所以业内提出采用非正交多址接入(NOMA)来提高频谱效率。NOMA方式可以将一个资源分配给多个用户,因而NOMA在提供大的系统吞吐量、高可靠性、低延迟和等方面发挥了重要的作用,而功率域NOMA(在发送端采用叠加编码和在接收端采用串行干扰消除)因为其可以在同一时隙,OFDMA子载波或扩频码中为多个用户提供服务,更适合未来系统的部署,已经成为5G发展中一个很有潜力的候选者。
由于系统的功率分配和吞吐量有着密切的联系,所以可以通过研究功率分配来提高系统的吞吐量。在下行链路的功率域NOMA系统中,基站分配给用户的功率决定了整个系统的性能。通过优化功率分配策略可以最大化能量效率。目前已有的研究中提出了不同的方法来研究最优的功率分配策略。
文献1“Energy-efficient transmission design in non-orthogonal multipleaccess[in IEEE Transactions on Vehicular Technology,vol.66,no.3,pp.2852–2857,Mar. 2017].”为了解决非凸分数编程问题,通过建立能够支持每个用户数据速率要求的发射功率的可行范围,提出了一个能量效率最优的功率分配策略。
文献2“Energy-efficientjoint power and bandwidth allocation for nomasystems [IEEE Communications Letters,vol.22,no.4,pp.780–783,Apr.2018].”提出了一个基于约束凹凸过程的迭代算法(CCCP)来解决最大化系统能量效率过程中的非凸优化问题。该方法将用户分组在多个不等宽带的子信道上,功率和带宽分配被联合优化,以便在基站处的发射功率约束下以及针对个体用户的最小速率约束下最大化系统的能量效率。
文献3“Energy efficient resource allocation in multi-user downlinknon-orthogonal multiple access systems[in IEEE Global CommunicationsConference, Singapore,Singapore,Dec.2017].”提出了一种新的低复杂度的次优子信道分配算法,并获得了子信道复用用户间的最优功率分配系数。为了进一步改善系统的能量效率,该方法研究了跨子信道(UPPAS)方案的不均等分配,包括最优解和次优解Dinkelbach算法。
尽管已经存在的这些功率分配策略在一定程度上提高了系统的能量效率,但是这些方案都存在一定的局限性,比如优化过程中的计算复杂度问题以及在联合优化过程中不能使信道和带宽均达到最优。
因此,我们提出一种强化学习算法来解决功率分配问题。强化学习机器学习的一个分支,通过一系列连续的决策实现特定的目标。它是一个从环境到智能系统行为的学习,可以看做是一个试验性的评估过程。目标是动态调整参数以最大化强化信号。因此,强化学习可以用来预测基站分配每个用户的功率分配系数。目前由于人工智能浪潮的到来,越来越多的问题可以通过机器学习来解决,因此强化学习在许多领域都展现出了其巨大的优势。
【发明内容】
本发明的目的是提供一种基于强化学习算法功率域的NOMA中的功率分配方法,以解决现有中功率分配方法复杂度较高,且在优化系统的性能方面不能达到很好效果的问题。
本发明采用以下技术方案:一种基于强化学习算法功率域的NOMA中的功率分配方法,将Actor-Critic算法中的Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor-Critic算法中的Actor部分进行策略更新;通过不断的迭代,最终使得状态动作值函数和策略趋于最佳值函数和最佳策略,此时系统的能量效率是最优的。
进一步的,按照以下步骤实施:
步骤一、系统模型构建:基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据。在功率域非正交多址系统中,在发送端采用叠加编码的方式发送信息,在接收端采用串行干扰消除方法进行解码;
步骤二、马尔可夫功率分配过程建立:由于功率分配的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程,而且移动环境中状态转移概率和所有状态的期望奖励往往都是未知的,因此将功率分配问题表示为一个马尔可夫过程;
步骤三、采用Actor-Critic算法优化功率分配策略:将状态空间、动作空间以及奖励函数分别设定之后,用Actor-Critic强化学习算法进行功率分配策略的优化。在Actor-Critic算法中,价值函数和策略函数是分别进行更新的。Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor进行评价,从而进行策略函数的更新,通过不断的迭代以优化系统的能量效率。
进一步的,步骤一的具体方法是:
基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据;且假定无线链路历经独立同分布的块瑞利衰落和加性高斯白噪声,所有用户的瞬时信道状态信息在基站处是已知的,把信道分类为0<|h1|2<|h2|2<…<|hK|2,其中hi(1<i<K)是第i个用户的信道增益,并且始终保持第i个用户的瞬时信道是最弱的;
非正交多址方案允许在基站处的叠加编码和用户处的串行干扰消除解码技术的帮助下通过使用整个系统带宽传输数据来同时为所有用户提供服务,在功率域中执行用户复用,在接收机处采用串行干扰消除的方法消除多用户干扰;
第k个用户的可实现速率表示为:
其中B是系统的带宽,基站处的总功率为P,αk是基站分配给第k个用户的功率与总功率的比值,并且有σ2是加性高斯白噪声的功率,总的可实现速率可表示为:
其中Rk是用户k的速率;则整个系统的能量效率可以定义为系统可实现的总速率和总的功耗之比,即
优化能量效率的问题表述如下:
s.t.pk≥pi,i<k,
其中pk是基站分配给第k个用户的功率pk=αkP,Pmax是系统的最大功率。
进一步的,骤一中接收机处采用串行干扰消除的方法消除多用户干扰的具体方法是:
当i>k时,第i个用户的消息被视为噪声;当i<k时,第k个用户首先解码第i个用户的信息,然后按照i=1,2,...的顺序从它的接收信号中减去这个信息,再对第i个用户的信号进行解码。
进一步的,步骤二的具体方法是:
将功率域NOMA中的功率分配问题看做一个马尔可夫决策过程 M={S,A,P,R},将任意用户的信噪比看作状态空间S,它由信道增益hi、功率分配系数αi以及加性高斯白噪声的功率σi 2决定,因此,第t步的状态st(st∈S)可以定义为
st=(h1t,h2t,...,hKt1t2t,...,αKt1t2t,...,σKt);
将增加或减少基站分配给用户的功率看作动作空间A,因此,第t步的动作 at(at∈A)可以表示为
at={(-1,1),...,(-1,1)},
其中-1表示减小基站给用户分配的功率,反之则用1表示;
在连续马尔可夫决策过程中,使用状态转移概率密度函数f来描述从状态转移概率,即
其中st+1表示在(t+1)步的状态且
即时奖赏可以表示为:Rt=ηt
代理从给定状态s开始,采取动作a,以概率P转移到下一个状态s’,同时环境给代理反馈奖赏R,直到结束状态为止;其目的是通过不断的学习,最大化长期奖励总和Rsum定义为:
其中γ是折扣因子且γ∈(0,1),Rt表示第t步的奖励。
进一步的,步骤三的具体方法是:
强化学习代理的目标是找到一个最优策略π*来最大化一个长期的奖赏总和:
其中E[.]表示期望值;
当使用Actor-Critic算法优化功率分配策略时,值函数和策略函数是分开进行更新的;Critic部分的状态动作值函数可以表示为
其中π表示给定的策略,且π(a|s)=P(at=a|st=s)。很显然,对于一个最优的策略π*,最优状态动作值函数为其中Rt表示第t步系统的能量效率。
状态动作值函数可以分为两部分:即时奖赏和后续状态的折扣值函数: Q(s,a)=E[Rt+γQ(st+1,at+1)]。
而且时间差分误差可以表示为:δt=Rt+1+γQ(st+1,at+1)-Q(st,at)。
因此Critic部分更新状态动作值函数如下:Q(st,at)=Q(st,at)+αcδt,其中αc表示Critic部分的学习速率。
之后通过将时间差分误差反馈给Actor指导其对策略进行更好的更新,其策略更新如下:p(st,at)=p(st,at)-αaδt,其中αa表示Critic部分的学习速率。
如果每个动作在每种状态下执行无限次,并且算法遵循贪婪的探索,则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q*(s) 和最优策略π*,此时系统的能量效率也达到最优。
与现有技术相比,本发明至少具有以下有益效果:
1、本发明在下行链路NOMA中研究功率分配问题,提出一种新型的功率分配策略,即用基于Actor-Critic算法的强化学习框架来优化功率域NOMA中的功率分配,以提高系统的能量效率。
2、本发明提出将系统的能量效率作为奖励函数,通过时间差分误差来衡量功率分配策略的好坏,通过不断与前一时刻奖励函数的对比来逐步优化,进而找到趋势最好的策略,以提高系统的能量效率。
【附图说明】
图1为本发明一种基于强化学习算法功率域的NOMA中的功率分配方法中的功率域NOMA中的下行链路的系统模型图;
图2为本发明一种基于强化学习算法功率域的NOMA中的功率分配方法中的基于强化学习框架Actor-Critic算法在不同的学习速率下达到稳定状态的平均训练步数对比图;
图3为本发明一种基于强化学习算法功率域的NOMA中的功率分配方法中在基于Actor-Critic算法的动态功率分配策略和固定的功率分配策略下用户数量不同时系统的能量效率对比图。
【具体实施方式】
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明提供了一种基于强化学习算法功率域的NOMA中的功率分配方法,如图1 所示,基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据。将信道分类为0<|h1|2<|h2|2<…<|hK|2,其中hi(1<i<K)是第i个用户的信道增益,并且始终保持第i个用户的瞬时信道是最弱的。在非正交多址系统中进行信息传输,在基站处采用叠加编码发送消息,在接收端采用串行干扰消除进行解码。
本发明基于Actor-Critic强化学习算法对功率域非正交多址中的功率分配问题进行研究。为了适应不断发展的移动通信的需求,提供高质量的通信服务,已经提出将非正交多址中作为5G发展中的一个重要技术。在最近的研究中,非正交多址因其可以提供高吞吐量、高可靠性以及广域覆盖而成为5G网络中一个有效的工具。而功率域非正交多址由于可以在同一时隙内为多个用户提供服务,并且通过为用户分配不同的的功率值来实现多址接入,已经成为5G发展中的潜在候选者。而吞吐量和功率分配有着密切的联系,因此对于功率分配的研究是很有必要的。
随着人工智能浪潮的到来,越来越多的问题可以通过机器学习来解决。作为机器学习的一个分支,强化学习可以通过一系列连续的决策实现特定的目标。功率域非正交多址中的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程。由于移动环境中状态转移概率和所有状态的期望奖励往往都是未知的,因此用无模型强化学习框架解决非正交多址中的功率分配问题。
Actor-Critic算法结合了基于策略的和基于价值的两种算法。在本发明中,Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor部分进行策略更新。通过不断的迭代,最终使得状态动作值函数和策略趋于最佳值函数和最佳策略,此时系统的能量效率是最优的。
一种基于强化学习算法功率域的NOMA中的功率分配方法,包括以下步骤:
步骤一、首先进行系统模型的构建。我们基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据。在功率域非正交多址系统中,在发送端采用叠加编码的方式发送信息,在接收端采用串行干扰消除方法进行解码。
具体的,在本发明中基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据。假定无线链路历经独立同分布的块瑞利衰落和加性高斯白噪声我们假设所有用户的瞬时信道状态信息在基站处是已知的。为了不失一般性,把信道分类为0<|h1|2<|h2|2<…<|hK|2,其中hi(1<i<K)是第i个用户的信道增益,并且始终保持第i个用户的瞬时信道是最弱的。非正交多址方案允许在基站处的叠加编码和用户处的串行干扰消除解码技术的帮助下通过使用整个系统带宽传输数据来同时为所有用户提供服务。其中,在功率域中执行用户复用,在接收机处采用串行干扰消除的方法消除多用户干扰。具体而言,当i<k时,第k个用户首先解码第ii个用户的信息,然后按照i=1,2,...的顺序从它的接收信号中减去这个信息,再对第i个用户的信号进行解码;当i>k时,第i个用户的消息被视为噪声。第k个用户的可实现速率表示为
其中B是系统的带宽,基站处的总功率为P,αk是基站分配给第k个用户的功率与总功率的比值,并且有σ2是加性高斯白噪声的功率,总的可实现速率可表示为
其中Rk是用户k的速率。则整个系统的能量效率可以定义为系统可实现的总速率和总的功耗之比,即
我们考虑功率域非正交多址中的功率分配策略,通过优化基站分配给用户的功率分配系数来提高系统的能量效率。基站分配给用户的功率必须受限于系统的总功率P,同时,为了能成功实现串行干扰消除解码,用户i的功率必然受到用户k的功率的限制。因此,优化能量效率的问题可以表述如下:
s.t.pk≥pi,i<k,
其中pk是基站分配给第k个用户的功率pk=αkP,Pmax是系统的最大功率。
步骤二、马尔可夫功率分配过程建立:由于功率分配的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程,而且移动环境中状态转移概率和所有状态的期望奖励往往都是未知的,因此将功率分配问题表示为一个马尔可夫过程。具体分配过程如下:
一般情况下,马尔可夫决策过程由一个四元数组表示,即M=<S,A,P,R>。
i)S表示状态空间,在非正交多址的功率分配问题中将任意用户的信噪比看作状态空间,它由信道增益hi、功率分配系数αi以及加性高斯白噪声的功率决定,因此,第t步的状态st(st∈S)可以定义为
st=(h1t,h2t,...,hKt1t2t,...,αKt1t2t,...,σKt)。
ii)A表示动作空间,在功率域非正交多址系统的功率分配问题中,将增加或减少基站分配给用户的功率看作状态空间。因此,第t步的动作at(at∈A)可以表示为
at={(-1,1),...,(-1,1)},
其中-1表示减小基站给用户分配的功率,反之则用1表示。
iii)P表示在从某一状态转移到下一状态的概率,在连续马尔可夫决策过程中,使用状态转移概率密度函数f来描述从当前状态转换到下一状态的概率,即
其中st+1表示在(t+1)步的状态且
iv)R表示奖赏,即在状态s下选择动作a得到的即时奖赏。在功率域非正交多址的功率分配问题中,即时奖赏可以表示为
代理从给定状态s开始,采取动作a,以概率P转移到下一个状态s’,同时环境给代理反馈奖赏R,直到结束状态为止。代理的目的是通过不断的学习,最大化长期奖励总和Rsum定义为
其中γ是折扣因子且γ∈(0,1),Rt表示第t步的奖励。
步骤三、采用Actor-Critic算法优化功率分配策略:将状态空间、动作空间以及奖励函数分别设定之后,用Actor-Critic强化学习算法进行功率分配策略的优化。在Actor-Critic算法中,价值函数和策略函数是分别进行更新的。Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor进行评价,从而进行策略函数的更新,通过不断的迭代以优化系统的能量效率。
具体的优化功率分配策略如下:
对于给定的一个马尔可夫决策过程,强化学习代理的目标是找到一个最优策略π*来最大化一个长期的奖赏总和:
其中E[.]表示期望值。
当使用Actor-Critic算法优化功率分配策略时,值函数和策略函数是分开进行更新的。动作状态值函数表示从当前状态采取动作的累积奖赏的期望值,然后用给定的策略来选择应采取的动作。Critic部分采用状态动作值函数来计算累积回报,它可以表示为
其中π表示给定的策略,且π(a|s)=P(at=a|st=s)。从以上定义可知状态动作值函数是某个状态动作对下的长期奖赏总和,所以只要最优化值函数就可以最大化期望奖赏总和,这与强化学习的目标一致。
很显然,对于一个最优的策略π*,最优状态动作值函数为
其中Rt表示第t步系统的能量效率。
状态动作值函数用于了解在状态s下选取动作a时的效果好坏,它可以分为两部分:即时奖赏和后续状态的折扣值函数:
Q(s,a)=E[Rt+γQ(st+1,at+1)],
上述递归关系称为贝尔曼方程,它可以用来计算Q(s,a)的真实值。
时间差分误差可以通过在先前的状态下产生的状态动作值函数Q(st,at)以及在Critic部分产生的状态动作值函数Rt+1+Q(st+1,at+1)计算,即
δt=Rt+1+γQ(st+1,at+1)-Q(st,at)。
因此Critic部分更新状态动作值函数如下:
Q(st,at)=Q(st,at)+αcδt,其中,αc表示Critic部分的学习速率。
之后通过将时间差分误差反馈给Actor指导其对策略进行更好的更新,其策略更新如下:
p(st,at)=p(st,at)-αaδt,其中αa表示Critic部分的学习速率。
如果每个动作在每种状态下执行无限次,并且算法遵循贪婪的探索,则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q*(s) 和最优策略π*,此时系统的能量效率也达到最优。
然后,通过数值模拟证明了所用算法的性能优势。在仿真分析中,将基站分配给用户的功率归一化为1W,所有用户共享1Hz的带宽,折扣因子设置为0.9。本发明通过设置不同的学习速率来研究算法的收敛性。图2显示了在不同的学习速率下达到稳定状态的训练步数。在实现过程中,将学习速率设置为0.005,0.01, 0.02以研究Actor-Critic算法的收敛性。从图中可以看出,当学习速率为0.005时,代理必须进行900多步才能在第一次试验中学习到最优策略,大约在200步时达到收敛。随着学习速率的增大,第一次试验时学习到最优策略的步数逐渐减少。为了避免振荡,学习速率一般都比较小,但是如果太小的话达到收敛需要很长时间,因此必须谨慎选择学习速率的取值。
图3比较了基于Actor-Critic算法和固定功率分配策略用户数不同时系统能量效率的变化。当用户数固定时,基于Actor-Critic算法的功率分配策略的系统能量效率优于固定功率分配策略。这是因为Actor-Critic算法可以通过从环境中学习并不断调整用户的功率分配系数来优化系统的能量效率。此外,图3显示了随着用户数量的增加,无论基于Actor-Critic功率分配策略还是固定功率分配策略,系统的能量效率呈现下降趋势,并且随着用户数不断增加,趋势逐渐趋于平稳。原因是虽然用户数量增加,但由于的限制,系统的可实现总速率下降,因此能量效率的曲线呈现下降的趋势。
由于非正交多址在提供大的系统吞吐量、高可靠性、低延迟和等方面发挥了重要的作用,所以已经将非正交多址作为5G研究中一个重要的技术。而作为5G 发展中的潜在候选者之一,它的研究就变得更重要。由于系统的吞吐量和功率密切相关,因此寻求好的功率分配策略是很有必要的。
随着人工智能浪潮的到来,越来越多的问题可以通过机器学习来解决,而强化学习作为机器学习的分支,也展现出了其巨大的优势。它可以通过一系列连续的决策实现特定的目标,目的是动态地调整参数以最大化强化信号。
因此本发明公开了一种基于强化学习算法功率域的NOMA中的功率分配方法。将每个用户的信噪比看为状态空间,将系统的能量效率作为奖励函数,采用 Actor-Critic强化学习算法来预测基站分配每个用户的功率分配系数,通过不断的迭代以优化系统的能量效率。和已有的功率分配策略相比,采用Actor-Critic算法优化功率分配策略大大降低了计算复杂度。而且由于强化学习可以进行智能的学习,所以可以提高系统的能量效率。

Claims (6)

1.一种基于强化学习算法功率域的NOMA中的功率分配方法,其特征在于,
将Actor-Critic算法中的Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor-Critic算法中的Actor部分进行策略更新;通过不断的迭代,最终使得状态动作值函数和策略趋于最佳值函数和最佳策略,此时系统的能量效率是最优的。
2.如权利要求1所述的一种基于强化学习算法功率域的NOMA中的功率分配方法,其特征在于,按照以下步骤实施:
步骤一、系统模型构建:基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据。在功率域非正交多址系统中,在发送端采用叠加编码的方式发送信息,在接收端采用串行干扰消除方法进行解码;
步骤二、马尔可夫功率分配过程建立:由于功率分配的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程,而且移动环境中状态转移概率和所有状态的期望奖励往往都是未知的,因此将功率分配问题表示为一个马尔可夫过程;
步骤三、采用Actor-Critic算法优化功率分配策略:将状态空间、动作空间以及奖励函数分别设定之后,用Actor-Critic强化学习算法进行功率分配策略的优化。在Actor-Critic算法中,价值函数和策略函数是分别进行更新的。Critic部分进行值函数更新,然后将即时奖励和时间差分误差反馈给Actor进行评价,从而进行策略函数的更新,通过不断的迭代以优化系统的能量效率。
3.如权利要求2所述的一种基于强化学习算法功率域的NOMA中的功率分配方法,其特征在于,所述步骤一的具体方法是:
基于单小区无线蜂窝网络的下行链路来建立模型,假设有单个基站和K个用户,并且所有终端都配备单个天线,基站在总功率的约束下向所有用户发射数据;且假定无线链路历经独立同分布的块瑞利衰落和加性高斯白噪声,所有用户的瞬时信道状态信息在基站处是已知的,把信道分类为0<|h1|2<|h2|2<…<|hK|2,其中hi(1<i<K)是第i个用户的信道增益,并且始终保持第i个用户的瞬时信道是最弱的;
非正交多址方案允许在基站处的叠加编码和用户处的串行干扰消除解码技术的帮助下通过使用整个系统带宽传输数据来同时为所有用户提供服务,在功率域中执行用户复用,在接收机处采用串行干扰消除的方法消除多用户干扰;
第k个用户的可实现速率表示为:
其中B是系统的带宽,基站处的总功率为P,αk是基站分配给第k个用户的功率与总功率的比值,并且有σ2是加性高斯白噪声的功率,总的可实现速率可表示为:
其中Rk是用户k的速率;则整个系统的能量效率可以定义为系统可实现的总速率和总的功耗之比,即
优化能量效率的问题表述如下:
s.t.pk≥pi,i<k,
其中pk是基站分配给第k个用户的功率pk=αkP,Pmax是系统的最大功率。
4.如权利要求3所述的一种基于强化学习算法功率域的NOMA中的功率分配方法,其特征在于,所述步骤一中接收机处采用串行干扰消除的方法消除多用户干扰的具体方法是:
当i>k时,第i个用户的消息被视为噪声;当i<k时,第k个用户首先解码第i个用户的信息,然后按照i=1,2,...的顺序从它的接收信号中减去这个信息,再对第i个用户的信号进行解码。
5.如权利要求2所述的一种基于强化学习算法功率域的NOMA中的功率分配方法,其特征在于,所述步骤二的具体方法是:
将功率域NOMA中的功率分配问题看做一个马尔可夫决策过程M={S,A,P,R},将任意用户的信噪比看作状态空间S,它由信道增益hi、功率分配系数αi以及加性高斯白噪声的功率决定,因此,第t步的状态st(st∈S)可以定义为
st=(h1t,h2t,...,hKt1t2t,...,αKt1t2t,...,σKt);
将增加或减少基站分配给用户的功率看作动作空间A,因此,第t步的动作at(at∈A)可以表示为
at={(-1,1),...,(-1,1)},
其中-1表示减小基站给用户分配的功率,反之则用1表示;
在连续马尔可夫决策过程中,使用状态转移概率密度函数f来描述从状态转移概率,即
其中st+1表示在(t+1)步的状态且即时奖赏可以表示为:Rt=ηt;代理从给定状态s开始,采取动作a,以概率P转移到下一个状态s’,同时环境给代理反馈奖赏R,直到结束状态为止;其目的是通过不断的学习,最大化长期奖励总和Rsum定义为:
其中γ是折扣因子且γ∈(0,1),Rt表示第t步的奖励。
6.权利要求2所述的一种基于强化学习算法功率域的NOMA中的功率分配方法,其特征在于,所述步骤三的具体方法是:
强化学习代理的目标是找到一个最优策略π*来最大化一个长期的奖赏总和:
其中E[.]表示期望值;
当使用Actor-Critic算法优化功率分配策略时,值函数和策略函数是分开进行更新的;Critic部分的状态动作值函数可以表示为
其中π表示给定的策略,且π(a|s)=P(at=a|st=s)。很显然,对于一个最优的策略π*,最优状态动作值函数为
其中Rt表示第t步系统的能量效率;
状态动作值函数可以分为两部分,即时奖赏和后续状态的折扣值函数:
Q(s,a)=E[Rt+γQ(st+1,at+1)];
而且时间差分误差可以表示为:δt=Rt+1+γQ(st+1,at+1)-Q(st,at)。
因此Critic部分更新状态动作值函数如下:Q(st,at)=Q(st,at)+αcδt
其中αc表示Critic部分的学习速率;
之后通过将时间差分误差反馈给Actor指导其对策略进行更好的更新,其策略更新如下:p(st,at)=p(st,at)-αaδt,其中αa表示Critic部分的学习速率;
如果每个动作在每种状态下执行无限次,并且算法遵循贪婪的探索,则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q*(s)和最优策略π*,此时系统的能量效率达到最优。
CN201810739496.2A 2018-07-06 2018-07-06 一种基于强化学习算法功率域的noma中的功率分配方法 Pending CN108924935A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810739496.2A CN108924935A (zh) 2018-07-06 2018-07-06 一种基于强化学习算法功率域的noma中的功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810739496.2A CN108924935A (zh) 2018-07-06 2018-07-06 一种基于强化学习算法功率域的noma中的功率分配方法

Publications (1)

Publication Number Publication Date
CN108924935A true CN108924935A (zh) 2018-11-30

Family

ID=64425773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810739496.2A Pending CN108924935A (zh) 2018-07-06 2018-07-06 一种基于强化学习算法功率域的noma中的功率分配方法

Country Status (1)

Country Link
CN (1) CN108924935A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639374A (zh) * 2018-12-29 2019-04-16 北京工业大学 一种基于强化学习算法的认知抗干扰通信方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN109996264A (zh) * 2019-03-27 2019-07-09 西北工业大学深圳研究院 非正交多址系统中最大化安全能量效率的功率分配方法
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110113190A (zh) * 2019-04-24 2019-08-09 西北工业大学 一种移动边缘计算场景中卸载时延优化方法
CN110149627A (zh) * 2019-04-22 2019-08-20 西北工业大学 基于深度学习的应急通信系统无线供能d2d通信安全的方法
CN110708108A (zh) * 2019-08-07 2020-01-17 西北工业大学 一种多无人机毫米波网络的波束控制优化方法
CN110909644A (zh) * 2019-11-14 2020-03-24 南京理工大学 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统
CN111212423A (zh) * 2020-01-13 2020-05-29 北京交通大学 基于隐马尔科夫模型的可信协作干扰节点选取方法
CN112118632A (zh) * 2020-09-22 2020-12-22 电子科技大学 面向微小蜂窝基站的自适应功率分配系统、方法和介质
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112991384A (zh) * 2021-01-27 2021-06-18 西安电子科技大学 基于ddpg的发射资源智能认知管理方法
CN113099491A (zh) * 2021-03-12 2021-07-09 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法
CN113194542A (zh) * 2021-04-29 2021-07-30 东南大学 一种非圆信号辅助noma系统的功率分配方法
CN113242601A (zh) * 2021-05-10 2021-08-10 黑龙江大学 一种基于优化样本采样的noma系统资源分配方法及存储介质
CN113543065A (zh) * 2021-05-31 2021-10-22 北京邮电大学 一种基于强化学习的通信资源分配方法及其相关设备
CN114364007A (zh) * 2022-01-10 2022-04-15 西南科技大学 低轨道卫星与无人机蜂窝融合网络的子载波功率控制方法
CN114520989A (zh) * 2022-01-21 2022-05-20 重庆邮电大学 多载波数能同传noma网络能效最大化方法
CN116367223A (zh) * 2023-03-30 2023-06-30 广州爱浦路网络技术有限公司 基于强化学习的xr服务优化方法、装置、电子设备和存储介质
CN116456464A (zh) * 2023-06-15 2023-07-18 南京信息工程大学 基于用户服务质量的noma用户资源分配方法及装置
CN117395626A (zh) * 2023-12-11 2024-01-12 厦门大学 基于元学习及noma的水声网络水质监测数据搜集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
CN106686710A (zh) * 2017-01-23 2017-05-17 浙江大学 一种考虑不完美sic的下行noma功率分配方法
CN107105492A (zh) * 2017-05-04 2017-08-29 桂林电子科技大学 基于非正交多址接入提高超密异构网络能量效率的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
CN106686710A (zh) * 2017-01-23 2017-05-17 浙江大学 一种考虑不完美sic的下行noma功率分配方法
CN107105492A (zh) * 2017-05-04 2017-08-29 桂林电子科技大学 基于非正交多址接入提高超密异构网络能量效率的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YI ZHANG ET AL: "Energy-Efficient Transmission Design in Non-orthogonal Multiple Access", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
YIFEI WEI ET AL: "User Scheduling and Resource Allocation in HetNets With Hybrid Energy Supply: An Actor-Critic Reinforcement Learning Approach", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
刘全等: "连续空间中的一种动作加权行动者评论家算法", 《计算机学报》 *
彭木根等: "《宽带移动通信系统的网络自组织技术》", 31 October 2013 *
李屹,李曦: "《认知无线网络中的人工智能》", 31 August 2014 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639374B (zh) * 2018-12-29 2021-05-14 北京工业大学 一种基于强化学习算法的认知抗干扰通信方法
CN109639374A (zh) * 2018-12-29 2019-04-16 北京工业大学 一种基于强化学习算法的认知抗干扰通信方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN109996264A (zh) * 2019-03-27 2019-07-09 西北工业大学深圳研究院 非正交多址系统中最大化安全能量效率的功率分配方法
CN109996264B (zh) * 2019-03-27 2022-01-07 西北工业大学深圳研究院 非正交多址系统中最大化安全能量效率的功率分配方法
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法
CN110149627A (zh) * 2019-04-22 2019-08-20 西北工业大学 基于深度学习的应急通信系统无线供能d2d通信安全的方法
CN110113190A (zh) * 2019-04-24 2019-08-09 西北工业大学 一种移动边缘计算场景中卸载时延优化方法
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110708108A (zh) * 2019-08-07 2020-01-17 西北工业大学 一种多无人机毫米波网络的波束控制优化方法
CN110909644A (zh) * 2019-11-14 2020-03-24 南京理工大学 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统
CN111212423A (zh) * 2020-01-13 2020-05-29 北京交通大学 基于隐马尔科夫模型的可信协作干扰节点选取方法
CN112118632A (zh) * 2020-09-22 2020-12-22 电子科技大学 面向微小蜂窝基站的自适应功率分配系统、方法和介质
CN112118632B (zh) * 2020-09-22 2022-07-29 电子科技大学 面向微小蜂窝基站的自适应功率分配系统、方法和介质
CN112367132B (zh) * 2020-10-27 2021-12-24 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112991384A (zh) * 2021-01-27 2021-06-18 西安电子科技大学 基于ddpg的发射资源智能认知管理方法
CN112991384B (zh) * 2021-01-27 2023-04-18 西安电子科技大学 基于ddpg的发射资源智能认知管理方法
CN113099491A (zh) * 2021-03-12 2021-07-09 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法
CN113099491B (zh) * 2021-03-12 2022-05-10 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法
CN113194542A (zh) * 2021-04-29 2021-07-30 东南大学 一种非圆信号辅助noma系统的功率分配方法
CN113242601A (zh) * 2021-05-10 2021-08-10 黑龙江大学 一种基于优化样本采样的noma系统资源分配方法及存储介质
CN113242601B (zh) * 2021-05-10 2022-04-08 黑龙江大学 一种基于优化样本采样的noma系统资源分配方法及存储介质
CN113543065A (zh) * 2021-05-31 2021-10-22 北京邮电大学 一种基于强化学习的通信资源分配方法及其相关设备
CN113543065B (zh) * 2021-05-31 2024-02-02 北京邮电大学 一种基于强化学习的通信资源分配方法及其相关设备
CN114364007A (zh) * 2022-01-10 2022-04-15 西南科技大学 低轨道卫星与无人机蜂窝融合网络的子载波功率控制方法
CN114364007B (zh) * 2022-01-10 2023-05-19 西南科技大学 低轨道卫星与无人机蜂窝融合网络的子载波功率控制方法
CN114520989A (zh) * 2022-01-21 2022-05-20 重庆邮电大学 多载波数能同传noma网络能效最大化方法
CN114520989B (zh) * 2022-01-21 2023-05-26 重庆邮电大学 多载波数能同传noma网络能效最大化方法
CN116367223A (zh) * 2023-03-30 2023-06-30 广州爱浦路网络技术有限公司 基于强化学习的xr服务优化方法、装置、电子设备和存储介质
CN116367223B (zh) * 2023-03-30 2024-01-02 广州爱浦路网络技术有限公司 基于强化学习的xr服务优化方法、装置、电子设备和存储介质
CN116456464A (zh) * 2023-06-15 2023-07-18 南京信息工程大学 基于用户服务质量的noma用户资源分配方法及装置
CN116456464B (zh) * 2023-06-15 2023-09-22 南京信息工程大学 基于用户服务质量的noma用户资源分配方法及装置
CN117395626A (zh) * 2023-12-11 2024-01-12 厦门大学 基于元学习及noma的水声网络水质监测数据搜集方法
CN117395626B (zh) * 2023-12-11 2024-02-09 厦门大学 基于元学习及noma的水声网络水质监测数据搜集方法

Similar Documents

Publication Publication Date Title
CN108924935A (zh) 一种基于强化学习算法功率域的noma中的功率分配方法
Zhang et al. Intelligent user association for symbiotic radio networks using deep reinforcement learning
Wang et al. Resource scheduling based on deep reinforcement learning in UAV assisted emergency communication networks
Wang et al. Joint interference alignment and power control for dense networks via deep reinforcement learning
Sun et al. Deep learning-based long-term power allocation scheme for NOMA downlink system in S-IoT
Yoshida et al. MAB-based client selection for federated learning with uncertain resources in mobile networks
CN108737057A (zh) 基于深度学习的多载波认知noma资源分配方法
CN103746729B (zh) 分布式mimo系统基站侧天线位置优化方法
Gao et al. Machine learning empowered resource allocation in IRS aided MISO-NOMA networks
Ye et al. Deep reinforcement learning based distributed resource allocation for V2V broadcasting
Zhou et al. Dynamic spectrum management via machine learning: State of the art, taxonomy, challenges, and open research issues
CN111431646B (zh) 一种毫米波系统中的动态资源分配方法
Sun et al. Revised reinforcement learning based on anchor graph hashing for autonomous cell activation in cloud-RANs
Chaieb et al. Deep reinforcement learning for resource allocation in multi-band and hybrid OMA-NOMA wireless networks
Zhang et al. A dynamic power allocation scheme in power-domain NOMA using actor-critic reinforcement learning
CN106231665B (zh) 数能一体化网络中基于rrh动态模式切换的资源分配方法
Kumaresan et al. Efficient user clustering using a low-complexity artificial neural network (ANN) for 5G NOMA systems
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
Li et al. Deep reinforcement learning for energy-efficient beamforming design in cell-free networks
CN115412134A (zh) 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法
Zhang et al. Joint user association and power allocation in heterogeneous ultra dense network via semi-supervised representation learning
Gao et al. Resource allocation in IRSs aided MISO-NOMA networks: A machine learning approach
CN111277308A (zh) 基于机器学习的波宽控制方法
Ji et al. Reinforcement learning based joint trajectory design and resource allocation for RIS-aided UAV multicast networks
Guo et al. Joint design of access and backhaul in densely deployed mmWave small cells

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130