CN112367132B

CN112367132B - 基于强化学习解决认知无线电中的功率分配算法

Info

Publication number: CN112367132B
Application number: CN202011161787.1A
Authority: CN
Inventors: 梁微; 温书慧; 杨思远; 王大伟; 高昂; 李立欣
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-12-24
Anticipated expiration: 2040-10-27
Also published as: CN112367132A

Abstract

本发明公开了一种基于强化学习解决认知无线电中的功率分配算法，S1、设置深度学习算法的初始值参数，S2、设置关于CR‑NOMA系统的场景模型，并设置关于状态和动作的初始状态集合；S3、当某一计算时刻t小于等于最大限制的时间值T_max时，求得时刻t下的状态值并计算相对应的奖励函数，并计算TD误差δ_t；S4、基于值函数选择用户的下一步动作，利用学习率以及TD误差值函数，将初始值函数更新为Q(s_t,a_t)←Q(s_t,a_t)+η_cδ_t；再根据已选择的执行动作获得相应的奖励，并获得策略函数π(g)，然后将其更新为π(s_t,a_t)←π(s_t,a_t)‑η_aδ_t；π(g)；S5、根据步骤S3使TD误差值达到最小，不停的迭代更新，最后获得最大的奖励函数值，即分配算法结束。解决了现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。

Description

基于强化学习解决认知无线电中的功率分配算法

技术领域

本发明属于通信技术领域，特别涉及一种功率分配策略，可用于解决覆盖式(underlay)认知无线电网络中的功率分配问题。

背景技术

覆盖式认知无线电网络能够解决频谱稀缺问题，即在由认知用户造成的干扰不能降低主用户的服务质量的约束下，认知用户能够使用相同的频谱与主用户同时传输。另一方面，非正交多址接入技术(Non-orthogonal Multiple Access,NOMA)作为提高未来无线网络的频谱效率的一种具有潜力的技术挑战，从根本上改变了常规的接入技术的设计。功率域的非正交多址接入技术(Power-domain NOMA)作为NOMA技术中最受欢迎的技术之一，它的核心思想是探索多址接入(MA)中的功率域差异，同时在时间、频率等其他域实现非正交性。更具体地说，在下行链路NOMA发明中，通过不同的功率分配系数，基站能够在相同的时间、频率信道中为多个用户服务，其中信道条件较差的用户被赋予更多的发射功率。因此，NOMA鼓励用户共享可用频谱，其中MA干扰可通过使用先进的收发器设计来去除，比如连续干扰消除和超级位置编码。在这一趋势下，通过融合NOMA和覆盖式认知无线电网络(underlay cognitive radio,underlay CR)的概念，提出了一种新的系统解决发明，即覆盖式CR-NOMA，该新系统可显著提高网络的频谱利用率。

近期，强化学习算法在许多领域中得到了广泛的应用。具体地说，每一个主体通过自身的学习以及环境的学习来改变自己的行为，同时，只获得一种奖励并反馈给自己的行为。现如今，研究者们在无线通信中实现了强化学习(Reinforcement Learning,RL)技术的应用。因此，本发明中通过使用RL方法进行信道选择，目的是为了减少系统所需的感应量，进而提高吞吐量和能量效率。迄今为止，基于RL发明的解决认知无线电系统中资源分配的研究是十分有限的，特别是在覆盖式CR-NOMA中，并没有过相关研究。

发明内容

本发明的目的是提供一种基于强化学习解决认知无线电中的功率分配算法，以解决现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。

本发明采用以下技术发明：基于强化学习解决认知无线电中的功率分配算法，

功率分配方法基于覆盖式CR-NOMA系统，覆盖式CR-NOMA系统包括主用户发射机-接收机对以及认知网络；认知网络中的认知发送器包括认知基站和K个认知用户，认知用户的索引包含在集合K中；覆盖式CR-NOMA系统中，多个认知用户利用NOMA技术接入同一主要用户频谱资源上；CR-NOMA系统中的，多个认知用户将利用NOMA技术接入同一主要用户频谱资源上。即认知用户们形成NOMA群组，其中需要考虑形成群组后各认知用户的功率分配机制。

功率分配方法按照以下步骤实施：

S1、设置深度学习算法的初始值参数，包括：

设置动作空间集合的学习率η_a，设置评论空间集合的学习率η_c，设置覆盖式CR-NOMA系统的折扣因子β，设置初始值函数Q(.)，则Q(s_ini,α_ini)＝0，设置状态空间集合S＝{s₁(t),s₂(t),...,s_K(t)}，设置算法的动作空间A_t＝{α₁(t),α₂(t),Λ,α_K(t)},设置输入状态s_i；

其中，s_int是初始状态下状态空间集合内的元素，α_int是初始状态下动作空间集合内的元素，s_K(t)是状态空间集合内的元素；α_K(t)是动作空间集合内的元素，t表示某一时刻，i∈[1,K]；

S2、设置关于CR-NOMA系统的场景模型，在该场景模式下，设置初始状态集合为移动用户的信道特征集合，设置动作的初始状态集合为移动用户的功率分配参数；

S3、当某一计算时刻t小于等于最大限制的时间值T_max时，求得时刻t下的状态值并计算相对应的奖励函数，奖励函数是由认知系统的频谱效率来决定，即

并计算深度学习算法中的TD误差δ_t；

S4、基于值函数选择算法的下一步动作，即选择认知网络中移动用户的功率参数值，利用学习率以及TD误差值函数，将初始值函数更新为Q(s_t,a_t)←Q(s_t,a_t)+η_cδ_t；再根据已选择的执行动作获得相应的奖励，并获得策略函数π(·)，然后将其更新为π(s_t,a_t)←π(s_t,a_t)-η_aδ_t；

其中，s_t是t时刻状态空间集合内的元素；α_t是t时刻动作空间集合内的元素；

S5、根据步骤S3使TD误差值达到最小，不停的迭代更新，最后获得最大的奖励函数值，即在满足最大化CR-NOMA系统频谱效率值的前提下，求得NOMA认知用户组的最优功率分配系数值。

步骤S3中，奖励函数为CR-NOMA系统的频谱效率值

根据误差函数δ_t＝R_t+1+βQ(s_t+1,a_t+1)-Q(s_t,a_t)来计算TD误差，在误差迭代达到最小值时，找到NOMA认知用户组中，认知用户的功率最优分配值；其中算法中的折扣因子β的取值范围为0到1。

本发明有益效果是：

1.本发明基于AC-RL算法实现功率分配，成功寻到一种对于覆盖式认知无线电网络系统的最优跟踪控制器。

2.本发明在完整信道信息缺乏的情况下，根据来自无线环境的适应训练，可以有效调节认知用户的发射功率。

附图说明

图1为本发明的基于强化学习解决认知无线电中的功率分配算法基于所构想的覆盖式CR-NOMA环境的AC-RL示意图；

图2为本发明的基于强化学习解决认知无线电中的功率分配算法中认知用户的频谱利用率与时间指数的关系；

图3为本发明的基于强化学习解决认知无线电中的功率分配算法中认知基站最大发射功率和主用户最大发射功率比，即P_S/P_PU变化时认知用户的性能比较图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明主要适用于覆盖式CR-NOMA系统，该系统由主用户发射机-接收机对以及认知网络组成。特别地，有一个认知发送器，称为认知基站和K个认知用户，认知用户的索引包含在集合K中。在本发明的分配算法中，主要关注认知基站(CBS)到认知用户(CUs)之间的下行链路传输。通过使用非正交多址接入技术，K个CUs能够同时接入相同的频谱。因此，与现有的研究不同，只要主用户(PU)传输的干扰低于预先设定的阈值I_th，允许多路CUs而不是一路CU接入到PU的频带。在这种情况下，认知用户保持沉默，根据主传输的性能要求限制认知用户的发射功率。

在覆盖式CR-NOMA系统下行链路认知传输中，CBS同时传输K个CUs的叠加信息，且PU在允许一簇CUs接入其频谱之前，应先满足自身的要求。通过限制CBS的最大传输功率来控制PU处的多余CUs干扰。在不丧失一般的前提下，我们假设CBS有CUs信道质量的排序信息。当使用NOMA技术时，CUs的发射功率系数应该满足α₁≥α₂≥Λ≥α_K，其中假设总功率分配系数归一化使得

因此，可以在CU接收机端使用连续信道干扰抵消技术。根据NOMA发明原则，具有最佳信道条件的CU_k的SE可以表示为：

该项工作的重点是考虑到的覆盖式CR-NOMA系统的功率分配，其目的是最大化CUs的SE。当给定PU的预定义QoS需求时，最大化认知网络频谱效率的目标函数公式如下：

观察目标函数发现，公式(1)最大化认知网络系统的网络频谱效率是一个不明显的问题，该问题很难解决并且需要知道所有CUs的瞬时信道状态信息(CSI)。然而，在一些实际发明中，由于反馈信道和动态通信环境的能力限制，很难获得用户CSI的完整信息。

在覆盖式CR-NOMA问题中，公式(1)中的功率分配问题可以看作具有连续状态和行为的离散时间马尔可夫决策过程(MDP)。为解决实际执行问题，传统的凸最优化方法不能够在已知量化信道增益的情况下找到最优解，甚至次优解。相反，无模型RL框架能够应用于我们的问题，因为它只需要知道无线环境的部分信息(包括不完全CSI)就可以得到状态(即功率分配策略)转移概率和状态期望回报(即CUs的SE)。

利用一般RL框架的特点，本发明采用AC-RL方法用于解决本发明所提出的功率分配的问题，示意图如图1所示。在算法开始，代理观测环境并且产生基于高斯策略和即刻奖励的动作。因此，批评者部分能够估计值函数并且计算TD误差。然而，批评者根据TD误差和资格跟踪比例更新其参数。参与者使用来自批评者的结果计算优势函数并估计策略。此后，它的参数根据策略进行更新。最后，当其收敛至最优策略和最优值函数时，可以得到参与者和批评者的最优参数。

本发明的功率分配方法基于覆盖式CR-NOMA系统，覆盖式CR-NOMA系统中认知用户将形成认知用户组并在满足主要用户的干扰限制前提下，同一时间接入同一频段进行传输，其中系统的结构包括主用户发射机和接收机对以及认知网络；所述认知网络中的认知发送器包括认知基站和K个认知用户；为了解决认知用户组内功率分配问题，将使用Actor-Critic强化学习算法来对于认知用户组内功率进行分配。由于Actor-Critic作为一种强化学习算法也叫作演员评论家强化学习算法，它结合了以动作为基础(Actor)和以值为基础(Critic)的两类算法，通过分别学习值函数和策略函数以加速学习过程，最终得到最大化值函数的策略。即Actor基于概率选行为，Critic基于Actor的行为评判行为的得分，然后Actor再根据Critic的评分修改选行为的概率。所以本发明对这个以值为基础和以动作为基础的部分进行了设定。

总而言之，基于强化学习的四个决定性因素状态(state)、动作(action)、策略(policy)、奖励(reward)，以下的步骤是要设计符合本发明环境的强化学习算法对系统进行合理功率分配并按照以下步骤实施：

S1、设置动作空间集合(Actor部分)η_a的学习率；设置评论空间集合(Critic部分)η_c的学习率，定值比如设置0.0001.同时，设置覆盖式CR-NOMA系统的折扣因子β；设置初始值函数为Q(s_ini,α_ini)＝0，其中α_k(t)是动作空间集合内的元素初始值设置，s_k(t)是状态空间集合内的元素初始值设置；以上初始值设置都为强化学习算法的必要条件。

S2、设置本发明中关于CR-NOMA系统的环境模型，包括输入状态s_i，其中i∈[1,K]；在本发明中，将系统用户的信道增益设置为算法的状态空间值，则状态空间S_t，S_t＝{s₁(t),s₂(t),...,s_K(t)}。其中s_k(t)是状态空间集合内的元素；其次，设置为算法的动作空间A_t，A_t＝{α₁(t),α₂(t),Λ,α_K(t)}，其中α_k(t)是动作空间集合内的元素。算法中的动作是和基于状态得到的奖励函数有关，算法中是根据奖励函数值以及策略来进行动作的选择。对于状态值函数和策略(动作)函数是分开进行更新的，所以对其要分别设定集合以及集合中的元素。状态值函数表示从当前状态采取动作的累积奖赏的期望值，然后用给定的策略来选择应采取的动作。Critic部分采用状态值函数来计算累积回报。

S3、当某一计算时刻小于最大限制的时间值，即t≤T_max时，计算即刻奖励函数

使用δ_t＝R_t+1+βQ(s_t+1,a_t+1)-Q(s_t,a_t)计算TD误差；其中，δ_t是算法中的计算误差值，系统的折扣因子β的取值范围为0到1，Q函数是关于每一步的转态和动作的。这个差值的含义就是每次机器更新会与上一轮得到的奖赏函数进行比较，是误差值不断减小，最终达到奖赏函数的最大值。TD-error可以通过在先前的状态下产生的状态值Q函数以及在Critic部分产生的状态值函计算，即δ_t＝R_t+1+βQ(s_t+1,a_t+1)-Q(s_t,a_t)。之后通过将TD-error反馈给Actor指导Actor对策略进行更好的更新。如果每个动作在每种状态下执行无限次，并且算法遵循贪婪的探索，则值函数Q(s)和策略函数π(s,a)最终将以1的概率分别收敛至最优值函数Q^*(s)和最优策略π^*，此时系统的能量效率也达到最优。

S4、基于值函数选择动作，将初始值函数更新为Q(s_t,a_t)←Q(s_t,a_t)+η_cδ_t；执行选择的动作并且获得相应的奖励，并获得策略函数，将其更新为π(s_t,a_t)←π(s_t,a_t)-η_aδ_t；

S5、最后根据步骤S3是误差值达到很小，不停的迭代更新，最后达到最大的奖励函数获得最大的奖励函数值，即分配算法结束。

实施例：

1.仿真条件：1)CUs的数目是K＝6,2)PU的传输功率是P_PU＝15dB,3)折扣因子是β＝0.9，4)参与者的学习率是η_a＝0.01，5)批评者的学习率是η_c＝0.001。

2.仿真内容：对采用不同学习算法情景下CUs的频谱的有效率(Spectralefficiency,SE)性能与时间指数的关系进行仿真比较，结果如图2。图2中，纵坐标为“认知用户们的频谱利用率”；横坐标为“仿真的迭代时间”。

由图2仿真结果可知，通过使用Q学习，连续值状态和作用必须量化，并且实际值由有限离散值的近似值代替。与我们的AC-RL算法相反，基于Q学习的功率分配算法需要知道CUs的即刻CSI。图片2证明基于AC-RL算法的功率分配成功寻到一种对于覆盖式CR系统的最优跟踪控制器。

3.仿真内容：当认知基站(Cognitive Base Station,CBS)最大发射功率和PU最大发射功率比，即P_S/P_PU变化时，对于采用AC-RL算法、Q学习算法及无学习过程时CUs的SE性能进行仿真比较，结果如图3所示。图3中，纵坐标为“认知用户的频谱利用率”；横坐标为“CBs最大发射功率和PU最大发射功率比，即P_S/P_PU”。

由图3仿真结果可知，Q学习算法和AC-RL算法重叠。AC-RL算法性能和Q学习算法性能相似，当CUs的发射功率足够大时，CUs产生的SE保持不变。AC-RL算法和无学习过程的算法相比，应用AC-RL算法可以使CUs获得更高的SE。

在已有的技术平台上对于功率分配将利用凸优化算法求得最优解。前提是在已知系统信道信息的，假如对于信道信息位置，只是有个模糊不完全的前提信息，利用RL发明就可以解决该条件下的功率分配问题。这个解决办法是当下没有考虑过的。凸优化数学工具和深度学习方法可使认知网络系统中的功率分配达到最优值，为了提高两种方法的实用性，本发明考虑了实际情况下的可变的认知用户地理位置模型。在理想情况下，用户的位置在工作中保持不变。实际情况中假设用户的位置可在工作中改变。对于实际情况，并考虑大密度用户的前提下，本发明拟利用RL方法进行计算。

本发明的基于强化学习解决认知无线电中的功率分配算法使用了一种由参与者与批评者加入的强化学习(Actor-critic RL，AC-RL)算法，用于解决覆盖式非正交认知无线电网络(CR-NOMA)中的功率分配策略，目的是为了达到主用户限制的最小速率要求的同时，有效地协调认知用户们的发射功率，进而提高认知用户们的频谱利用率。

该算法能够在已知量化信道增益(即不知道认知用户的瞬时信道状态信息(CSI))情况下有效地管理认知用户的发射功率。具体地说，通过将奖励函数设置为加权数据率，提出的AC-RL方法迭代地产生受时差(TD)误差影响的行为(即功率分配策略)，并且能够自动学习接近最优的分配策略，以使认知用户频谱利用率最大化。

本发明提出了一种基于AC-RL算法的覆盖式认知无线电网络中功率分配策略，在主用户的干扰约束下，一簇认知用户可利用非正交多址接入技术同时接入相同的主频段。在该发明中，不同认知用户的功率分配基于AC-RL模型，该模型将加权数据率设置为奖励函数，并且迭代批评和更新用户产生的行为策略，即功率分配。在AC-RL学习的训练中，将认知用户的频谱效率和主用户的干扰约束条件考虑在内。本发明将AC-RL算法与无学习过程的基准发明以及现存的基于Q学习的方法进行了相比，基于所得到的仿真结果可得到，本发明使系统得到较高的频谱利用率，由此同时，认知用户们对于主用户的传输干扰被限制在一个给定的容许范围内。

本发明使用的强化学习方法有别于一般强化学习方法，其场景设置是按照CR-NOMA系统场景设置，其状态值是由信道增益设置。本发明的信道设置方式与平常系统不同，本发明假设用户位置是不固定的，即用户位置可变，相较于传统用户位置固定的方式，本发明的优势是用户在一个可变换的区间内，对于用户组的功率进行最优分配。同时本发明的奖励函数是由有效频谱来设定，根据每个阶段达到的频谱值来判定下一个阶段中用户的动作状态。综上所述，本发明基于AC-RL算法实现功率分配，成功寻到一种对于覆盖式认知无线电网络系统的最优跟踪控制器；同时，在完整信道信息缺乏的情况下，根据来自无线环境的适应训练，可以有效调节认知用户的发射功率；解决了现有技术中信道信息不完全的前提下不能很好的进行功率分配的问题。

Claims

1.基于强化学习解决认知无线电中的功率分配算法，其特征在于，

所述功率分配方法基于覆盖式CR-NOMA系统，所述覆盖式CR-NOMA系统包括主用户发射机-接收机对以及认知网络；所述认知网络中的认知发送器包括认知基站和K个认知用户，所述认知用户的索引包含在集合K中；所述覆盖式CR-NOMA系统中，多个认知用户利用NOMA技术接入同一主要用户频谱资源上；

所述功率分配方法按照以下步骤实施：

S1、设置深度学习算法的初始值参数，包括：

设置动作空间集合的学习率η_a，设置评论空间集合的学习率η_c，设置覆盖式CR-NOMA系统的折扣因子β，设置初始值函数Q(.)，则Q(s_ini,α_ini)＝0，设置状态空间集合S＝{s₁(t),s₂(t),...,s_K(t)}，设置算法的动作空间A_t＝{α₁(t),α₂(t),…,α_K(t)},设置输入状态s_i；

S2、设置关于CR-NOMA系统的场景模型，在该场景模型下，设置初始状态集合为移动用户的信道特征集合，设置动作的初始状态集合为移动用户的功率分配参数；

并计算深度学习算法中的TD误差δ_t；

其中，R_t为t时刻的奖励函数，SE为频谱有效率，CU为认知用户，k为认知用户的索引，TD误差为时差误差；

S4、基于值函数选择算法的下一步动作，即选择认知网络中移动用户的功率参数值，利用学习率以及TD误差值函数，将初始值函数更新为Q(s_t,a_t)←Q(s_t,a_t)+η_cδ_t；再根据已选择的执行动作获得相应的奖励，并获得策略函数π(.)，然后将其更新为π(s_t,a_t)←π(s_t,a_t)-η_aδ_t；

2.如权利要求1所述的基于强化学习解决认知无线电中的功率分配算法，其特征在于，所述步骤S3中，奖励函数为CR-NOMA系统的频谱效率值