CN114126021B

CN114126021B - 一种基于深度强化学习的绿色认知无线电的功率分配方法

Info

Publication number: CN114126021B
Application number: CN202111425954.3A
Authority: CN
Inventors: 林瑞全; 丘航丁; 王俊; 谢欢
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2024-04-09
Anticipated expiration: 2041-11-26
Also published as: CN114126021A

Abstract

本发明涉及一种基于深度强化学习的绿色认知无线电的功率分配方法，首先建立功率分配模型，并按如下步骤对其进行训练：S1、初始化回合训练次数、记忆池的容量以及深度神经网络随机参数；S2、在每个回合开始时，初始化状态；S3、在每个回合的第t步，根据贪婪策略选择动作；S4、将动作输入到认知无线环境中，环境返回回报，更新电池可用能量，更新状态，并把状态转移存储到记忆池；S5、从记忆池中随机采样设定批量的状态转移，执行梯度下降步骤；然后通过训练好的功率分配模型进行功率分配。该方法有利于根据环境的变化做出最优的功率控制和分配。

Description

一种基于深度强化学习的绿色认知无线电的功率分配方法

技术领域

本发明属于无线通信领域，具体涉及一种基于深度强化学习的绿色认知无线电的功率分配方法。

背景技术

无线通信业务的发展使得频谱资源愈发紧张，而现有的频谱利用效率却不高，这一矛盾很大程度归结为频谱的静态分配策略。从目前来看，这种固定的无线电频谱分配方式不能将频谱资源充分利用，因此考虑将认知无线电技术通过执行动态频谱接入，为无线设备提供灵活使用未授权频谱的能力，被广泛认为是解决频谱静态分配问题的可行方案。

一般来说，认知无线电网络有三种常用的DSA策略，分别为underlay、overlay和interweave。在底层频谱共享(underlay)模式中，SU与PU可以同时共用同一频谱，因此，SU不需要进行频谱感知操作，但为确保对PU造成的干扰在可容忍的范围内，引入了干扰温度的概念来确定主接收机(PR)的可容忍干扰水平。资源分配分为频谱分配和功率分配两类。

为了解决无线网络中传统电池寿命有限以及传统供电方式造成的环境污染问题，能量收集技术被提出来。区别于传统的电网供电认知无线电系统，能量收集认知无线电(EH-CRN)最大的特点就是所收集能量的不确定性。另外，对于无线通信的信道来说，它常常存在着各种衰落，这使得通信系统的信道参数处于随机变化状态。如果事先不知道所处环境，包括能量到达过程和信道变化过程，认知无线电系统就无法做出合理的功率分配以获得系统的最优性能。

发明内容

本发明的目的在于提供一种基于深度强化学习的绿色认知无线电的功率分配方法，该方法有利于根据环境的变化做出最优的功率控制和分配。

为实现上述目的，本发明采用的技术方案是：一种基于深度强化学习的绿色认知无线电的功率分配方法，首先建立功率分配模型，并按如下步骤对其进行训练：

S1、初始化回合训练次数N，记忆池D的容量以及深度神经网络随机参数θ₀；

S2、在每个回合开始时，初始化状态s₀；

S3、在每个回合的第t步，根据贪婪策略选择动作a_t；

S4、将动作a_t输入到认知无线环境中，环境返回回报r_t，更新电池可用能量B_t，更新状态并把状态转移(s_t,a_t,r_t,s_t+1)存储到记忆池D；

S5、从记忆池D中随机采样设定批量的(s_j,a_j,r_j,s_j+1)，计算以(y_j-Q(s_j,α_j；θ))²执行梯度下降步骤；

其中，ω_t表示第t个时隙的信道占用情况，E_t表示第t个时隙电池收集到的能量，B_t表示第t个时隙电池的可用能量，和/>表示第t个时隙各链路的信道功率增益，γ为折扣因子，ε为概率阈值，A为可选动作集合，Q(s_j+1,a'；θ')表示参数为θ'的神经网络输出的下一个状态s_j+1和动作a'对应的状态-动作函数值；

然后通过训练好的功率分配模型进行功率分配。

进一步地，所述步骤S2中，在每个回合开始时，初始化状态其中ω₀表示当前时隙的信道占用情况，E₀表示初始时刻收集到的能量，B₀表示初始时刻的可用能量，/>和/>表示各链路的信道功率增益。

进一步地，所述步骤S3中，在每个回合的第t步，根据贪婪策略选择动作a_t的具体方法为：随机生成概率p，若p≤ε，则随机选择动作a_t，否则根据公式选择a_t。

进一步地，所述步骤S4中，按如下方法更新状态、能量以及获取回报：

将动作a_t输入到认知无线环境中，环境返回回报r_t，然后根据以下公式更新电池可用能量：

其中，B_max为电池的最大容量，I_t＝1时表示第t个时隙进行能量采集，I_t＝0时表示第t个时隙传输数据；然后更新状态并把状态转移(s_t,a_t,r_t,s_t+1)存储到记忆池D；相关参数的定义如下：

进一步地，所述步骤S5中，按如下方法更新神经网络参数：

从记忆池D中随机采样设定批量的样本(s_j,a_j,r_j,s_j+1)，计算进而计算损失函数L(θ)＝E[(y_j-Q(s_j,a_j；θ))²]，再采用随机梯度下降法SGD更新参数来缩小L(θ)，更新规则为/>其中α表示学习率，α∈(0,1)，从而完成神经网络参数更新。

与现有技术相比，本发明具有以下有益效果：提供了一种基于深度强化学习的绿色认知无线电的功率分配方法，在信道占用情况随机变化的情况下，运用深度Q学习来解决认知无线电的功率最优分配问题。该方法通过利用深度Q网络对次用户发射功率进行控制，针对信道占用和空闲两种情况设置不同的奖励函数，智能体通过与环境交互，能够根据环境的变化做出最优功率控制，以使SU的和速率最大。

附图说明

图1为本发明实施例中在underlay模式下的能量收集认知无线电网络系统模型；

图2为本发明实施例中功率分配模型的训练流程；

图3为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同折扣因子γ对SU的平均和速率的影响；

图4为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同策略对SU的平均和速率的影响；

图5为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同电池容量对平均和速率的影响；

图6为本发明实施例中在underlay模式下能量收集认知无线电网络模型下PU处干扰门限P_I对SU的平均和速率的影响。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，在underlay模式下的能量收集认知无线电网络系统模型包括三部分：认知无线电网络模型、信道模型和能量到达模型。其中PT为主发射机，ST为次发射机，PU为主用户，SU为次用户，PR为主无线电，SR为次无线电，假设每个时隙收集到的能量

在认知无线电网络模型中，SU从周围环境中收集能量并将其存储在一个容量有限的电池中。PU和SU以时隙方式运行，假设有N个时隙，每个时隙长度τ为1秒。在前M个时隙内，PU占用信道，主发射机(PT)在传输时隙以固定的发射功率P_p传输。此外，当PU和SU同时进行传输时，PU有一个干扰限制P_I需要被满足，以确保SU的接入不会对PU的传输产生影响。在剩下的N-M个时隙内，信道空闲，次发射机(ST)根据当前信道状况调整传输策略。ST在每个时隙只能执行一种操作，收集能量或者以发射功率P进行自身的数据传输。

在信道模型中，PT-PR、PT-SR、ST-PR、ST-SR的信号链路为带有路径损耗的瑞利衰落信道，相应的信道功率增益g_pp、g_ps、g_sp、g_ss均服从i.i.d的单位均值指数分布。定义信道增益的有限集合g_pp，g_s∈H，g_sp，g_ps∈Γ_c假设各用户端的噪声设为均值为0，方差为σ²的循环对称复高斯变量；在一个时隙τ内，各链路的信道功率增益保持不变，在第t个时隙，/>从Η集合中随机选取数值，/>从Γ集合中随机选取数值。定义一个指示函数ω_t来表示当前时隙的信道占用情况：

在第t个时隙，SU的瞬时可达速率其中当ω_t＝0时，ST的瞬时可达速率为：/>当ω_t＝1时，ST的瞬时可达速率/>

在能量到达模型中，将能量收集过程建模为每个时隙具有独立同分布的能量到达模型。假设每个时隙收集到的能量服从0～e_max的均匀分布，即/>从有限集合/> 随机取值，e_max为每个时隙能收集的最大能量值。假设初始时刻收集的能量E₀＝0，ST处的电池初始可用能量为B₀，最大容量为B_max。在每个时隙的开始，电池的可用能量的大小取决于上一时隙ST收集或者消耗的能量大小，故定义一个指示函数I_t来表征ST进行收集或传输决策：

B_t表示在第t个时隙的开始时刻的电池可用能量，则在第t+1个时隙的开始时刻，电池的可用能量更新为：

ST可以使用的能量需要满足限制条件：

基于认知无线电网络系统模型，本发明的目标是在可用能量约束和最大干扰约束下，最大化ST在所有时隙的总速率。优化问题如下：

s.t.

本发明将顺序决策问题公式化为马尔科夫决策过程(MDP)问题并解决。

如图2所示，本实施例提供了一种基于深度强化学习的绿色认知无线电的功率分配方法，首先建立功率分配模型，并按如下步骤对其进行训练：

S1、初始化回合训练次数N，记忆池D的容量以及深度神经网络随机参数θ₀。

S2、在每个回合开始时，初始化状态其中ω₀表示当前时隙的信道占用情况，E₀表示初始时刻收集到的能量，B₀表示初始时刻的可用能量，/>和/>表示各链路的信道功率增益。

S3、一个回合有T个时隙，在第t个时隙内做以下操作：将当前状态s_t输入到神经网络中，输出多个状态-动作值Q；然后根据贪婪策略选择动作a_t：随机生成概率p，若p≤ε，则随机选择动作a_t，否则根据公式选择a_t；其中ST在第t个时隙采取的动作a_t由两个变量组成，即/>其中/>

S4、将动作a_t输入到认知无线环境中，环境返回回报r_t，更新电池可用能量B_t，更新状态并把状态转移(s_t,a_t,r_t,s_t+1)存储到记忆池D。具体为：

S5、从记忆池D中随机采样小批量的(s_j,a_j,r_j,s_j+1)，计算以(y_j-Q(s_j,a_j；θ))²执行梯度下降步骤。

其中，ω_t表示第t个时隙的信道占用情况，E_t表示第t个时隙电池收集到的能量，B_t表示第t个时隙电池的可用能量，和/>表示第t个时隙各链路的信道功率增益，γ为折扣因子，ε为概率阈值，A为可选动作集合，Q(s_j+1,a'；θ')表示参数为θ'的神经网络输出的下一个状态s_j+1和动作a'对应的状态-动作函数值。具体为：

从记忆池D中随机取出小批量的样本(s_j,a_j,r_j,s_j+1)，计算在当前状态为s_j+1、动作为a'，神经网络参数为θ下对应的状态-动作函数值的标签值进而计算损失函数L(θ)＝E[(y_j-Q(s_j,a_j；θ))²]，再采用随机梯度下降法(SGD)更新参数来缩小L(θ)，更新规则为/>其中α表示学习率，α∈(0,1)，决定了梯度下降算法更新的速度。从而完成神经网络参数更新。

通过训练好的功率分配模型进行功率分配。

通过以下仿真进一步说明本发明方法的可行性和有效性。

图3示出了在underlay模式下的能量收集认知无线电网络系统模型下不同折扣因子γ对SU的平均和速率的影响。当γ＝0.99时，系统的性能最好。当γ取较小值时，SU和速率性能较差。折扣因子表示未来回报对当前回报的重要程度。γ越小，智能体越注重眼前收益，γ越大，智能体往前考虑的步数越多，更加敢于探索环境从而获得更优的策略。因此，随着γ的增大，N个时隙内SU的总速率变大。

图4示出了在underlay模式下的能量收集认知无线电网络系统模型下不同策略对SU的平均和速率的影响。观察到本方法(DQN)优于其他方法，因为该方法可以适应动态变化的无线环境。随着时隙数的增多，offline policy方法会导致PU退出信道后，电池的能量不足，因此SU只能以较小发射功率进行数据传输，而本发明所提策略不受PU的影响，在每个时隙均能做出最优决策。另一方面，本方法采用贪婪机制选择最优动作，不仅可以搜索已经出现过的情况，还可以探索未出现的情况，因此，本方法的性能要优于随机动作选择策略。

图5示出了在underlay模式下的能量收集认知无线电网络系统模型下不同电池容量对平均和速率的影响。从图中可以看出，随着B_max的增大，平均和速率也会增加，这是因为增大电池容量，SU会选择收集更多的能量以满足SU后续使用更大的发射功率传输数据。随着B_max继续增大，SU学习到收集能量获得的奖励较小，因此会选择更多的时隙进行数据传输。因为收集的能量不再增加，所以发射功率趋于平稳，使得SU的平均和速率趋于稳定。

图6示出了在underlay模式下的能量收集认知无线电网络系统模型下SU处干扰门限P_I对SU平均和速率的影响。随着P_I增大，SU则可以更大的发射功率进行数据传输，因此SU的平均和速率会逐渐增大。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于深度强化学习的绿色认知无线电的功率分配方法，其特征在于，首先建立功率分配模型，并按如下步骤对其进行训练：

S2、在每个回合开始时，初始化状态s₀；

S3、在每个回合的第t步，根据贪婪策略选择动作a_t；

S5、从记忆池D中随机采样设定批量的(s_j,a_j,r_j,s_j+1)，计算以(y_j-Q(s_j,a_j；θ))²执行梯度下降步骤；

其中，ω_t表示第t个时隙的信道占用情况，E_t表示第t个时隙电池收集到的能量，B_t表示第t个时隙电池的可用能量，表示第t个时隙次用户发射机ST到次用户接收机SR的信道功率增益，/>表示第t个时隙次用户发射机ST到主用户接收机PR的信道功率增益，/>表示第t个时隙主用户发射机PT到次用户接收机SR的信道功率增益，γ为折扣因子，ε为概率阈值，A为可选动作集合，Q(s_j+1,a'；θ')表示参数为θ'的神经网络输出的下一个状态s_j+1和动作a'对应的状态-动作函数值；

然后通过训练好的功率分配模型进行功率分配；

所述步骤S2中，在每个回合开始时，初始化状态其中ω₀表示当前时隙的信道占用情况，E₀表示初始时刻收集到的能量，B₀表示初始时刻的可用能量，和/>表示各链路的信道功率增益；

所述步骤S3中，在每个回合的第t步，根据贪婪策略选择动作a_t的具体方法为：随机生成概率p，若p≤ε，则随机选择动作a_t，否则根据公式选择a_t；

所述步骤S4中，按如下方法更新状态、能量以及获取回报：

所述步骤S5中，按如下方法更新神经网络参数：