CN108924935A

CN108924935A - 一种基于强化学习算法功率域的noma中的功率分配方法

Info

Publication number: CN108924935A
Application number: CN201810739496.2A
Authority: CN
Inventors: 李立欣; 张少敏; 梁微; 李旭; 高昂
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-11-30

Abstract

本发明公开了一种基于强化学习算法的功率域NOMA中的功率分配方法，将Actor‑Critic算法中的Critic部分进行值函数更新，然后将即时奖励和时间差分误差反馈给Actor‑Critic算法中的Actor部分进行策略更新；通过不断的迭代，最终使得状态动作值函数和策略趋于最佳值函数和最佳策略，此时系统的能量效率是最优的，解决了现有中功率分配方法复杂度较高，且在优化系统的性能方面不能达到很好效果的问题。

Description

一种基于强化学习算法功率域的NOMA中的功率分配方法

【技术领域】

本发明属于无线通信技术领域，具体涉及一种基于强化学习算法功率域的 NOMA中的功率分配方法。

【背景技术】

随着智能终端普及应用及移动新业务需求的持续增长，无线传输速率需求呈指数增长，无线通信的传输速率将仍然难以满足未来移动通信的应用需求。在 4G网络的基础上，5G网络定位于频谱效率更高、速率更快、容量更大的无线网络，所以业内提出采用非正交多址接入(NOMA)来提高频谱效率。NOMA方式可以将一个资源分配给多个用户，因而NOMA在提供大的系统吞吐量、高可靠性、低延迟和等方面发挥了重要的作用，而功率域NOMA(在发送端采用叠加编码和在接收端采用串行干扰消除)因为其可以在同一时隙，OFDMA子载波或扩频码中为多个用户提供服务，更适合未来系统的部署，已经成为5G发展中一个很有潜力的候选者。

由于系统的功率分配和吞吐量有着密切的联系，所以可以通过研究功率分配来提高系统的吞吐量。在下行链路的功率域NOMA系统中，基站分配给用户的功率决定了整个系统的性能。通过优化功率分配策略可以最大化能量效率。目前已有的研究中提出了不同的方法来研究最优的功率分配策略。

文献1“Energy-efficient transmission design in non-orthogonal multipleaccess[in IEEE Transactions on Vehicular Technology,vol.66,no.3,pp.2852–2857,Mar. 2017].”为了解决非凸分数编程问题，通过建立能够支持每个用户数据速率要求的发射功率的可行范围，提出了一个能量效率最优的功率分配策略。

文献2“Energy-efficientjoint power and bandwidth allocation for nomasystems [IEEE Communications Letters,vol.22,no.4,pp.780–783,Apr.2018].”提出了一个基于约束凹凸过程的迭代算法(CCCP)来解决最大化系统能量效率过程中的非凸优化问题。该方法将用户分组在多个不等宽带的子信道上，功率和带宽分配被联合优化，以便在基站处的发射功率约束下以及针对个体用户的最小速率约束下最大化系统的能量效率。

文献3“Energy efficient resource allocation in multi-user downlinknon-orthogonal multiple access systems[in IEEE Global CommunicationsConference, Singapore,Singapore,Dec.2017].”提出了一种新的低复杂度的次优子信道分配算法，并获得了子信道复用用户间的最优功率分配系数。为了进一步改善系统的能量效率，该方法研究了跨子信道(UPPAS)方案的不均等分配，包括最优解和次优解Dinkelbach算法。

尽管已经存在的这些功率分配策略在一定程度上提高了系统的能量效率，但是这些方案都存在一定的局限性，比如优化过程中的计算复杂度问题以及在联合优化过程中不能使信道和带宽均达到最优。

因此，我们提出一种强化学习算法来解决功率分配问题。强化学习机器学习的一个分支，通过一系列连续的决策实现特定的目标。它是一个从环境到智能系统行为的学习，可以看做是一个试验性的评估过程。目标是动态调整参数以最大化强化信号。因此，强化学习可以用来预测基站分配每个用户的功率分配系数。目前由于人工智能浪潮的到来，越来越多的问题可以通过机器学习来解决，因此强化学习在许多领域都展现出了其巨大的优势。

【发明内容】

本发明的目的是提供一种基于强化学习算法功率域的NOMA中的功率分配方法，以解决现有中功率分配方法复杂度较高，且在优化系统的性能方面不能达到很好效果的问题。

本发明采用以下技术方案：一种基于强化学习算法功率域的NOMA中的功率分配方法，将Actor-Critic算法中的Critic部分进行值函数更新，然后将即时奖励和时间差分误差反馈给Actor-Critic算法中的Actor部分进行策略更新；通过不断的迭代，最终使得状态动作值函数和策略趋于最佳值函数和最佳策略，此时系统的能量效率是最优的。

进一步的，按照以下步骤实施：

步骤一、系统模型构建：基于单小区无线蜂窝网络的下行链路来建立模型，假设有单个基站和K个用户，并且所有终端都配备单个天线，基站在总功率的约束下向所有用户发射数据。在功率域非正交多址系统中，在发送端采用叠加编码的方式发送信息，在接收端采用串行干扰消除方法进行解码；

步骤二、马尔可夫功率分配过程建立：由于功率分配的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程，而且移动环境中状态转移概率和所有状态的期望奖励往往都是未知的，因此将功率分配问题表示为一个马尔可夫过程；

步骤三、采用Actor-Critic算法优化功率分配策略：将状态空间、动作空间以及奖励函数分别设定之后，用Actor-Critic强化学习算法进行功率分配策略的优化。在Actor-Critic算法中，价值函数和策略函数是分别进行更新的。Critic部分进行值函数更新，然后将即时奖励和时间差分误差反馈给Actor进行评价，从而进行策略函数的更新，通过不断的迭代以优化系统的能量效率。

进一步的，步骤一的具体方法是：

基于单小区无线蜂窝网络的下行链路来建立模型，假设有单个基站和K个用户，并且所有终端都配备单个天线，基站在总功率的约束下向所有用户发射数据；且假定无线链路历经独立同分布的块瑞利衰落和加性高斯白噪声，所有用户的瞬时信道状态信息在基站处是已知的，把信道分类为0＜|h₁|²＜|h₂|²＜…＜|h_K|²，其中h_i(1＜i＜K)是第i个用户的信道增益，并且始终保持第i个用户的瞬时信道是最弱的；

非正交多址方案允许在基站处的叠加编码和用户处的串行干扰消除解码技术的帮助下通过使用整个系统带宽传输数据来同时为所有用户提供服务，在功率域中执行用户复用，在接收机处采用串行干扰消除的方法消除多用户干扰；

第k个用户的可实现速率表示为：

其中B是系统的带宽，基站处的总功率为P，α_k是基站分配给第k个用户的功率与总功率的比值，并且有σ²是加性高斯白噪声的功率，总的可实现速率可表示为：

其中R_k是用户k的速率；则整个系统的能量效率可以定义为系统可实现的总速率和总的功耗之比，即

优化能量效率的问题表述如下：

s.t.p_k≥p_i,i＜k,

其中p_k是基站分配给第k个用户的功率p_k＝α_kP，P_max是系统的最大功率。

进一步的，骤一中接收机处采用串行干扰消除的方法消除多用户干扰的具体方法是：

当i>k时，第i个用户的消息被视为噪声；当i<k时，第k个用户首先解码第i个用户的信息，然后按照i＝1,2,...的顺序从它的接收信号中减去这个信息，再对第i个用户的信号进行解码。

进一步的，步骤二的具体方法是：

将功率域NOMA中的功率分配问题看做一个马尔可夫决策过程 M＝{S,A,P,R}，将任意用户的信噪比看作状态空间S，它由信道增益h_i、功率分配系数α_i以及加性高斯白噪声的功率σ_i ²决定，因此，第t步的状态s_t(s_t∈S)可以定义为

s_t＝(h_1t,h_2t,...,h_Kt,α_1t,α_2t,...,α_Kt,σ_1t,σ_2t,...,σ_Kt)；

将增加或减少基站分配给用户的功率看作动作空间A，因此，第t步的动作 a_t(a_t∈A)可以表示为

a_t＝{(-1,1),...,(-1,1)}，

其中-1表示减小基站给用户分配的功率，反之则用1表示；

在连续马尔可夫决策过程中，使用状态转移概率密度函数f来描述从状态转移概率，即

其中s_t+1表示在(t+1)步的状态且

即时奖赏可以表示为：R_t＝η_t；

代理从给定状态s开始，采取动作a，以概率P转移到下一个状态s’，同时环境给代理反馈奖赏R，直到结束状态为止；其目的是通过不断的学习，最大化长期奖励总和R_sum定义为：

其中γ是折扣因子且γ∈(0,1)，R_t表示第t步的奖励。

进一步的，步骤三的具体方法是：

强化学习代理的目标是找到一个最优策略π*来最大化一个长期的奖赏总和：

其中E[.]表示期望值；

当使用Actor-Critic算法优化功率分配策略时，值函数和策略函数是分开进行更新的；Critic部分的状态动作值函数可以表示为

其中π表示给定的策略，且π(a|s)＝P(a_t＝a|s_t＝s)。很显然，对于一个最优的策略π*，最优状态动作值函数为其中R_t表示第t步系统的能量效率。

状态动作值函数可以分为两部分：即时奖赏和后续状态的折扣值函数： Q(s,a)＝E[R_t+γQ(s_t+1,a_t+1)]。

而且时间差分误差可以表示为：δ_t＝R_t+1+γQ(s_t+1,a_t+1)-Q(s_t,a_t)。

因此Critic部分更新状态动作值函数如下：Q(s_t,a_t)＝Q(s_t,a_t)+α_cδ_t，其中α_c表示Critic部分的学习速率。

之后通过将时间差分误差反馈给Actor指导其对策略进行更好的更新，其策略更新如下：p(s_t,a_t)＝p(s_t,a_t)-α_aδ_t，其中α_a表示Critic部分的学习速率。

如果每个动作在每种状态下执行无限次，并且算法遵循贪婪的探索，则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q*(s) 和最优策略π*，此时系统的能量效率也达到最优。

与现有技术相比，本发明至少具有以下有益效果：

1、本发明在下行链路NOMA中研究功率分配问题，提出一种新型的功率分配策略，即用基于Actor-Critic算法的强化学习框架来优化功率域NOMA中的功率分配，以提高系统的能量效率。

2、本发明提出将系统的能量效率作为奖励函数，通过时间差分误差来衡量功率分配策略的好坏，通过不断与前一时刻奖励函数的对比来逐步优化，进而找到趋势最好的策略，以提高系统的能量效率。

【附图说明】

图1为本发明一种基于强化学习算法功率域的NOMA中的功率分配方法中的功率域NOMA中的下行链路的系统模型图；

图2为本发明一种基于强化学习算法功率域的NOMA中的功率分配方法中的基于强化学习框架Actor-Critic算法在不同的学习速率下达到稳定状态的平均训练步数对比图；

图3为本发明一种基于强化学习算法功率域的NOMA中的功率分配方法中在基于Actor-Critic算法的动态功率分配策略和固定的功率分配策略下用户数量不同时系统的能量效率对比图。

【具体实施方式】

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明提供了一种基于强化学习算法功率域的NOMA中的功率分配方法，如图1 所示，基于单小区无线蜂窝网络的下行链路来建立模型，假设有单个基站和K个用户，并且所有终端都配备单个天线，基站在总功率的约束下向所有用户发射数据。将信道分类为0＜|h₁|²＜|h₂|²＜…＜|h_K|²，其中h_i(1＜i＜K)是第i个用户的信道增益，并且始终保持第i个用户的瞬时信道是最弱的。在非正交多址系统中进行信息传输，在基站处采用叠加编码发送消息，在接收端采用串行干扰消除进行解码。

本发明基于Actor-Critic强化学习算法对功率域非正交多址中的功率分配问题进行研究。为了适应不断发展的移动通信的需求，提供高质量的通信服务，已经提出将非正交多址中作为5G发展中的一个重要技术。在最近的研究中，非正交多址因其可以提供高吞吐量、高可靠性以及广域覆盖而成为5G网络中一个有效的工具。而功率域非正交多址由于可以在同一时隙内为多个用户提供服务，并且通过为用户分配不同的的功率值来实现多址接入，已经成为5G发展中的潜在候选者。而吞吐量和功率分配有着密切的联系，因此对于功率分配的研究是很有必要的。

随着人工智能浪潮的到来，越来越多的问题可以通过机器学习来解决。作为机器学习的一个分支，强化学习可以通过一系列连续的决策实现特定的目标。功率域非正交多址中的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程。由于移动环境中状态转移概率和所有状态的期望奖励往往都是未知的，因此用无模型强化学习框架解决非正交多址中的功率分配问题。

Actor-Critic算法结合了基于策略的和基于价值的两种算法。在本发明中，Critic部分进行值函数更新，然后将即时奖励和时间差分误差反馈给Actor部分进行策略更新。通过不断的迭代，最终使得状态动作值函数和策略趋于最佳值函数和最佳策略，此时系统的能量效率是最优的。

一种基于强化学习算法功率域的NOMA中的功率分配方法，包括以下步骤：

步骤一、首先进行系统模型的构建。我们基于单小区无线蜂窝网络的下行链路来建立模型，假设有单个基站和K个用户，并且所有终端都配备单个天线，基站在总功率的约束下向所有用户发射数据。在功率域非正交多址系统中，在发送端采用叠加编码的方式发送信息，在接收端采用串行干扰消除方法进行解码。

具体的，在本发明中基于单小区无线蜂窝网络的下行链路来建立模型，假设有单个基站和K个用户，并且所有终端都配备单个天线，基站在总功率的约束下向所有用户发射数据。假定无线链路历经独立同分布的块瑞利衰落和加性高斯白噪声我们假设所有用户的瞬时信道状态信息在基站处是已知的。为了不失一般性，把信道分类为0＜|h₁|²＜|h₂|²＜…＜|h_K|²，其中h_i(1＜i＜K)是第i个用户的信道增益，并且始终保持第i个用户的瞬时信道是最弱的。非正交多址方案允许在基站处的叠加编码和用户处的串行干扰消除解码技术的帮助下通过使用整个系统带宽传输数据来同时为所有用户提供服务。其中，在功率域中执行用户复用，在接收机处采用串行干扰消除的方法消除多用户干扰。具体而言，当i<k时，第k个用户首先解码第ii个用户的信息，然后按照i＝1,2,...的顺序从它的接收信号中减去这个信息，再对第i个用户的信号进行解码；当i>k时，第i个用户的消息被视为噪声。第k个用户的可实现速率表示为

其中B是系统的带宽，基站处的总功率为P，α_k是基站分配给第k个用户的功率与总功率的比值，并且有σ²是加性高斯白噪声的功率，总的可实现速率可表示为

其中R_k是用户k的速率。则整个系统的能量效率可以定义为系统可实现的总速率和总的功耗之比，即

我们考虑功率域非正交多址中的功率分配策略，通过优化基站分配给用户的功率分配系数来提高系统的能量效率。基站分配给用户的功率必须受限于系统的总功率P，同时，为了能成功实现串行干扰消除解码，用户i的功率必然受到用户k的功率的限制。因此，优化能量效率的问题可以表述如下：

s.t.p_k≥p_i,i＜k,

步骤二、马尔可夫功率分配过程建立：由于功率分配的功率控制问题可以表示为具有连续状态和动作空间的离散时间马尔可夫决策过程，而且移动环境中状态转移概率和所有状态的期望奖励往往都是未知的，因此将功率分配问题表示为一个马尔可夫过程。具体分配过程如下：

一般情况下，马尔可夫决策过程由一个四元数组表示，即M＝<S,A,P,R>。

i)S表示状态空间，在非正交多址的功率分配问题中将任意用户的信噪比看作状态空间，它由信道增益h_i、功率分配系数α_i以及加性高斯白噪声的功率决定，因此，第t步的状态s_t(s_t∈S)可以定义为

s_t＝(h_1t,h_2t,...,h_Kt,α_1t,α_2t,...,α_Kt,σ_1t,σ_2t,...,σ_Kt)。

ii)A表示动作空间，在功率域非正交多址系统的功率分配问题中，将增加或减少基站分配给用户的功率看作状态空间。因此，第t步的动作a_t(a_t∈A)可以表示为

a_t＝{(-1,1),...,(-1,1)}，

其中-1表示减小基站给用户分配的功率，反之则用1表示。

iii)P表示在从某一状态转移到下一状态的概率，在连续马尔可夫决策过程中，使用状态转移概率密度函数f来描述从当前状态转换到下一状态的概率，即

其中s_t+1表示在(t+1)步的状态且

iv)R表示奖赏，即在状态s下选择动作a得到的即时奖赏。在功率域非正交多址的功率分配问题中，即时奖赏可以表示为

代理从给定状态s开始，采取动作a，以概率P转移到下一个状态s’，同时环境给代理反馈奖赏R，直到结束状态为止。代理的目的是通过不断的学习，最大化长期奖励总和R_sum定义为

其中γ是折扣因子且γ∈(0,1)，R_t表示第t步的奖励。

具体的优化功率分配策略如下：

对于给定的一个马尔可夫决策过程，强化学习代理的目标是找到一个最优策略π*来最大化一个长期的奖赏总和：

其中E[.]表示期望值。

当使用Actor-Critic算法优化功率分配策略时，值函数和策略函数是分开进行更新的。动作状态值函数表示从当前状态采取动作的累积奖赏的期望值，然后用给定的策略来选择应采取的动作。Critic部分采用状态动作值函数来计算累积回报，它可以表示为

其中π表示给定的策略，且π(a|s)＝P(a_t＝a|s_t＝s)。从以上定义可知状态动作值函数是某个状态动作对下的长期奖赏总和，所以只要最优化值函数就可以最大化期望奖赏总和，这与强化学习的目标一致。

很显然，对于一个最优的策略π*，最优状态动作值函数为

其中R_t表示第t步系统的能量效率。

状态动作值函数用于了解在状态s下选取动作a时的效果好坏，它可以分为两部分：即时奖赏和后续状态的折扣值函数：

Q(s,a)＝E[R_t+γQ(s_t+1,a_t+1)]，

上述递归关系称为贝尔曼方程，它可以用来计算Q(s,a)的真实值。

时间差分误差可以通过在先前的状态下产生的状态动作值函数Q(s_t,a_t)以及在Critic部分产生的状态动作值函数R_t+1+Q(s_t+1,a_t+1)计算，即

δ_t＝R_t+1+γQ(s_t+1,a_t+1)-Q(s_t,a_t)。

因此Critic部分更新状态动作值函数如下：

Q(s_t,a_t)＝Q(s_t,a_t)+α_cδ_t，其中，α_c表示Critic部分的学习速率。

之后通过将时间差分误差反馈给Actor指导其对策略进行更好的更新，其策略更新如下：

p(s_t,a_t)＝p(s_t,a_t)-α_aδ_t，其中α_a表示Critic部分的学习速率。

然后，通过数值模拟证明了所用算法的性能优势。在仿真分析中，将基站分配给用户的功率归一化为1W，所有用户共享1Hz的带宽，折扣因子设置为0.9。本发明通过设置不同的学习速率来研究算法的收敛性。图2显示了在不同的学习速率下达到稳定状态的训练步数。在实现过程中，将学习速率设置为0.005，0.01， 0.02以研究Actor-Critic算法的收敛性。从图中可以看出，当学习速率为0.005时，代理必须进行900多步才能在第一次试验中学习到最优策略，大约在200步时达到收敛。随着学习速率的增大，第一次试验时学习到最优策略的步数逐渐减少。为了避免振荡，学习速率一般都比较小，但是如果太小的话达到收敛需要很长时间，因此必须谨慎选择学习速率的取值。

图3比较了基于Actor-Critic算法和固定功率分配策略用户数不同时系统能量效率的变化。当用户数固定时，基于Actor-Critic算法的功率分配策略的系统能量效率优于固定功率分配策略。这是因为Actor-Critic算法可以通过从环境中学习并不断调整用户的功率分配系数来优化系统的能量效率。此外，图3显示了随着用户数量的增加，无论基于Actor-Critic功率分配策略还是固定功率分配策略，系统的能量效率呈现下降趋势，并且随着用户数不断增加，趋势逐渐趋于平稳。原因是虽然用户数量增加，但由于的限制，系统的可实现总速率下降，因此能量效率的曲线呈现下降的趋势。

由于非正交多址在提供大的系统吞吐量、高可靠性、低延迟和等方面发挥了重要的作用，所以已经将非正交多址作为5G研究中一个重要的技术。而作为5G 发展中的潜在候选者之一，它的研究就变得更重要。由于系统的吞吐量和功率密切相关，因此寻求好的功率分配策略是很有必要的。

随着人工智能浪潮的到来，越来越多的问题可以通过机器学习来解决，而强化学习作为机器学习的分支，也展现出了其巨大的优势。它可以通过一系列连续的决策实现特定的目标，目的是动态地调整参数以最大化强化信号。

因此本发明公开了一种基于强化学习算法功率域的NOMA中的功率分配方法。将每个用户的信噪比看为状态空间，将系统的能量效率作为奖励函数，采用 Actor-Critic强化学习算法来预测基站分配每个用户的功率分配系数，通过不断的迭代以优化系统的能量效率。和已有的功率分配策略相比，采用Actor-Critic算法优化功率分配策略大大降低了计算复杂度。而且由于强化学习可以进行智能的学习，所以可以提高系统的能量效率。

Claims

1.一种基于强化学习算法功率域的NOMA中的功率分配方法，其特征在于，

将Actor-Critic算法中的Critic部分进行值函数更新，然后将即时奖励和时间差分误差反馈给Actor-Critic算法中的Actor部分进行策略更新；通过不断的迭代，最终使得状态动作值函数和策略趋于最佳值函数和最佳策略，此时系统的能量效率是最优的。

2.如权利要求1所述的一种基于强化学习算法功率域的NOMA中的功率分配方法，其特征在于，按照以下步骤实施：

3.如权利要求2所述的一种基于强化学习算法功率域的NOMA中的功率分配方法，其特征在于，所述步骤一的具体方法是：

第k个用户的可实现速率表示为：

优化能量效率的问题表述如下：

s.t.p_k≥p_i,i＜k,

4.如权利要求3所述的一种基于强化学习算法功率域的NOMA中的功率分配方法，其特征在于，所述步骤一中接收机处采用串行干扰消除的方法消除多用户干扰的具体方法是：

5.如权利要求2所述的一种基于强化学习算法功率域的NOMA中的功率分配方法，其特征在于，所述步骤二的具体方法是：

将功率域NOMA中的功率分配问题看做一个马尔可夫决策过程M＝{S,A,P,R}，将任意用户的信噪比看作状态空间S，它由信道增益h_i、功率分配系数α_i以及加性高斯白噪声的功率决定，因此，第t步的状态s_t(s_t∈S)可以定义为

s_t＝(h_1t,h_2t,...,h_Kt,α_1t,α_2t,...,α_Kt,σ_1t,σ_2t,...,σ_Kt)；

将增加或减少基站分配给用户的功率看作动作空间A，因此，第t步的动作a_t(a_t∈A)可以表示为

a_t＝{(-1,1),...,(-1,1)}，

其中-1表示减小基站给用户分配的功率，反之则用1表示；

其中s_t+1表示在(t+1)步的状态且即时奖赏可以表示为：R_t＝η_t；代理从给定状态s开始，采取动作a，以概率P转移到下一个状态s’，同时环境给代理反馈奖赏R，直到结束状态为止；其目的是通过不断的学习，最大化长期奖励总和R_sum定义为：

其中γ是折扣因子且γ∈(0,1)，R_t表示第t步的奖励。

6.权利要求2所述的一种基于强化学习算法功率域的NOMA中的功率分配方法，其特征在于，所述步骤三的具体方法是：

其中E[.]表示期望值；

其中π表示给定的策略，且π(a|s)＝P(a_t＝a|s_t＝s)。很显然，对于一个最优的策略π*，最优状态动作值函数为

其中R_t表示第t步系统的能量效率；

状态动作值函数可以分为两部分，即时奖赏和后续状态的折扣值函数：

Q(s,a)＝E[R_t+γQ(s_t+1,a_t+1)]；

因此Critic部分更新状态动作值函数如下：Q(s_t,a_t)＝Q(s_t,a_t)+α_cδ_t，

其中α_c表示Critic部分的学习速率；

之后通过将时间差分误差反馈给Actor指导其对策略进行更好的更新，其策略更新如下：p(s_t,a_t)＝p(s_t,a_t)-α_aδ_t，其中α_a表示Critic部分的学习速率；

如果每个动作在每种状态下执行无限次，并且算法遵循贪婪的探索，则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q*(s)和最优策略π*，此时系统的能量效率达到最优。