CN113747447A

CN113747447A - 基于先验知识的双动作强化学习频谱接入方法和系统

Info

Publication number: CN113747447A
Application number: CN202111042843.4A
Authority: CN
Inventors: 张建照; 姚富强; 曾令辉; 柳永祥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03
Anticipated expiration: 2041-09-07
Also published as: CN113747447B; US20230397012A1

Abstract

本发明公开了一种基于先验知识的双动作强化学习频谱接入方法和系统，属于电磁频谱技术领域。所述方法对先验知识进行评价筛选，初始化Q表，确认当前状态；进行Q学习，首先将动作空间分解为二维，其中一维动作定义为智能体选择的信道，另一维动作定义为接入信道的时隙数，按维度依次进行动作选择；然后根据动作选择结果，进行频谱接入；最后结合偏向信息更新Q表，所述偏向信息为奖励值。所述系统用于实现所提出的方法。本发明的方法具有较好的性能，能够提高频谱接入的效率。

Description

基于先验知识的双动作强化学习频谱接入方法和系统

技术领域

本发明属于通信技术领域，具体涉及一种基于先验知识的双动作强化学习频谱接入方法和系统。

背景技术

6G需要满足未来超链接、高密度、数据驱动、智能化的社会发展需求，电子健康、自动驾驶等应用需要更高速率、更健壮通信能力。为此，需要更多的频谱资源和更高效的频谱利用技术，对于前者，THz技术正在快速发展，对于后者，需要基于机器学习、人工智能等技术，开发更高效的频谱共享利用方式。其中，最大的挑战之一是如何在超高密度用户和快速变化的电磁环境中，为用户提供可靠的通信服务。超高密度用户意味着频谱资源十分紧张，对高优先级用户的干扰和相同优先级用户的互扰将成为影响频谱利用和用户性能的关键因素。

复杂电磁环境下高效频谱接入问题一直是移动通信领域研究热点。强化学习作为解决频谱管理问题的有效方法，也需要面临冷启动问题，这限制了利用强化学习的方法进行频谱接入的效率，也与实际场景中用户具备环境先验知识的实际不符，使得用户不能快速的适应电磁环境。

发明内容

技术问题：本发明提供一种能够提高频谱接入效率的基于先验知识的双动作强化学习频谱接入方法和系统。

技术方案：一方面，本发明提供一种基于先验知识的双动作强化学习抗干扰频谱接入方法，包括：

对先验知识进行评价筛选，初始化Q表，确认当前状态；

进行Q学习，首先将动作空间分解为二维，其中一维动作定义为智能体选择的信道，另一维动作定义为接入信道的时隙数，按维度依次进行动作选择；然后根据动作选择结果，进行频谱接入；最后结合偏向信息更新Q表，所述偏向信息为奖励值。

进一步地，所述按维度依次进行动作选择的方法为：

设置两个维度参数x、y，所述参数x、y为[0,1]的随机数；

当x<ε时，依随机概率选择其中一维度的动作，否则，求Q表在该维度上的均值，依最大值选择该维度的动作，其中ε为常数；

当y<ε时，依随机概率选择另一维度的动作，否则，依最大值选择该维度的动作。

进一步地，所述结合偏向信息更新Q表的方法包括：

获取奖励值；

确定下一时刻状态值；

更新Q表；

利用偏向信息对Q表进行调整。

进一步地，所述利用偏向信息对Q表进行调整的方法为：

以奖励值作为偏向信息，当奖励值小于零时，如果Q(s,a₁,a₂)>0，则使Q(s,a₁,a₂)＝const1×Q(s,a₁,a₂)；否则，使Q(s,a₁,a₂)＝(1/const1)×Q(s,a₁,a₂)，其中，const1为常数，a₁、a₂分别为两个维度的动作。

当奖励值小于统计平均奖励值

的情况下，如果Q(s,a₁,a₂)>0，则使Q(s,a₁,a₂)＝const2×Q(s,a₁,a₂)；否则，使Q(s,a₁,a₂)＝(1/const2)×Q(s,a₁,a₂)，其中，const2为常数。

进一步地，所述获取奖励值的方法为：采用信道容量与效用函数的比值作为奖励，公式如下：

其中，c为信道容量，u为克斯卡效用函数，W为信道带宽，k₁为常数，Th为干扰阈值，u₁为平衡奖励值数量级的系数，u₂为时长引导系数。

进一步地，更新Q值得方法为：

其中，α为学习率，γ为衰减因子，s与s′分别表示当前时刻的状态与下一状态，a表示下一状态下最优动作集合，包括a₁和a₂。

进一步地，所述对先验知识进行评价筛选的方法为：

根据皮尔逊相关系数定义先验知识的准确度，并选择准确度高的信息作为先验信息。

进一步地，任一时刻的状态包括：每个信道前两个时隙的差值以及均值。

另一方面，提供一种基于先验知识的双动作强化学习抗干扰频谱接入系统，利所述的方法进行频谱接入，其特征在于，包括：

先验信息评价及状态确认单元，用于对先验知识进行评价筛选，初始化Q表，确认当前状态；

学习单元，用于进行Q学习，首先将动作空间分解为二维，其中一维动作定义为智能体选择的信道，另一维动作定义为接入信道的时隙数，按维度依次进行动作选择；然后根据动作选择结果，进行频谱接入；最后结合偏向信息更新Q表，所述偏向信息为奖励值。

本发明与现有技术相比，具有以下优点：通过构建先验知识准确度模型，利用先验知识初始化Q表来引导智能体，以加速算法收敛过程并提升算法性能。针对先验知识准确度不同对智能体学习的影响，本发明考虑将奖励值作为偏向信息，通过激励智能体选择高奖励值动作以及减小错误动作对系统造成的影响，以避免不准确先验知识对智能体带来的负面导向。同时，通过仿真实验，也验证了本发明在显著减小获得高期望奖励所需的探索次数的同时，能够同时提升最终的学习性能并有效利用不同准确度的先验知识，提高收益，从而提高频谱接入的效率。

附图说明

图1为本发明的实施例中时隙帧结构的示意图；

图2为本发明的实施例中基于先验知识的双动作强化学习抗干扰频谱接入方法的流程图；

图3为四种方案的平均吞吐量的仿真图；

图4为四种方案的有效接入时长的仿真图；

图5为不同先验准确度的情况下利用本发明的方法的平均吞吐量的仿真图；

图6为不同先验准确度的情况下利用本发明的方法的平均吞吐量的仿真图。

具体实施方式

假定当前网络中有M个信道，1个认知用户，1个干扰机。认知用户具有频谱感知、自主学习与决策能力。在本发明的实施例中的模型，考虑具有固定传输时间T_f的帧结构，每一帧包含状态获取、动作决策、信道切换、信息传输以及确认五个阶段，如图1所示。

在状态获取阶段，智能体根据收集到的部分历史信息，确认当前状态，所需时间为T_s。认知用户基于当前状态，进行动作决策，决策时间为T_a。智能体根据决策进行信道的切换，完成信息的传输，并根据确认帧获取环境给予的奖励值，所需时间分别为T_c、T_tr和T_ACK。

每一次基于动作决策的信息传输，都会获得相应的吞吐量。吞吐量受当前时刻发射功率与干扰功率的影响。本发明的实施例中，旨在满足通信最低质量的前提下充分利用频谱资源，所以在本发明的一个实施例中，信干噪比(SINR)的目标μ^tar为1。假设信道的干扰阈值为Th，若干扰功率超过阈值，增大发射功率以抵抗干扰的途径会导致发射端代价损失过大，所以将发射功率固定为Th以减小损失。因此，一次传输的吞吐量T_p可以表示为：

式(1)中，b为本次传输的时隙长度，c_i,i∈b为各个时隙的信道容量，定义如下：

c＝W·log₂(1+SINR) (2)

式(2)中，W为信道带宽；式(3)中，P_j为干扰功率，σ²为噪声功率。

在上述模型下，结合图2，在本发明的实施例中，基于先验知识的双动作强化学习频谱接入方法包括：

S100：对先验知识进行评价筛选，初始化Q表，确认当前状态；

由于先验知识存在不准确的可能性，当先验知识不准确时，会阻碍智能体的迭代。因此，在本发明的实施例中，考虑了先验知识的准确性的问题。针对先验知识准确性的问题，本发明的实施例中提出基于皮尔逊相关系数的衡量方法。利用皮尔逊积矩相关系数，衡量两个变量之间的线性相关性，定义如下：

其中，μ_X和μ_Y分别为变量X和Y的均值，σ_X和σ_Y分别为X和Y的标准差。ρ_X,Y的绝对值大小与变量之间的相关性成正比，皮尔逊相关系数的关联程度如表(1)所示：

表1皮尔逊相关系数评价标准

在本发明的实施例中，因为考虑了双动作，所以Q表维度为三维，且不同状态之间无法衡量相关性，所以定义先验知识相似度ρ如下：

其中，X和Y为待对比的不同矩阵，Q_X(i)和Q_Y(i)为状态i下的二维Q矩阵Q(a₁,a₂)，其中，a₁和a₂分别为两个维度的动作。

在本发明的实施例中，通过啥上述方法对先验知识的相似度进行分析，在频谱接入时，选择相似度最高的先验知识。

Q学习(又称为强化学习)能够通过与环境的交互在线更新自身的策略，从而针对环境寻得最优策略。在本发明的实施例中，可以信道状态可以建模为环境，将认知用户建模为智能体，在Q表中，存储有状态以及动作信息，在利用强化学习进行频谱接入时，需要考虑一个参数就是状态，在本发明的实施例中，定义如下状态空间：

定义c_i＝P_j,t-1-P_j,t-2i∈M为第i个信道前两个时隙的差值，

i∈M为第i个信道前两个时隙的均值。在t时刻下，状态空间定义为每个信道的t-1时刻以及t-2时刻的差值与均值，即：

也就是说，在本发明的实施例中，任一时刻的状态包括每个信道的前两个时隙的差值和均值。考虑到状态空间过大，且差值与均值只体现趋势，并无实际含义。因此，本发明的实施例中可以采用量化的方法将状态值量化到S个以缩小状态空间，提升方法性能。

S200：进行Q学习，首先将动作空间分解为二维，其中一维动作定义为智能体选择的信道，另一维动作定义为接入信道的时隙数，按维度依次进行动作选择；然后根据动作选择结果，进行频谱接入；最后结合偏向信息更新Q表，所述偏向信息为奖励值。在Q学习的过程中，实现频谱的接入。

在本发明的实施例中，对于图1中的帧结构，如果任何时隙都先检测再接入，虽然能够有效避免认知用户受到干扰机的干扰，但是却占用系统很大的资源。理想情况下，在接入信道时，直接传输多个时隙帧，并在干扰机干扰当前信道之前停止传输。所以，智能体不仅应该对接入的信道进行选择，接入多少时隙也需要进行决策。因此在本发明的实施例中，设计了双动作方案，将动作空间分解为二维，其中一维动作定义为智能体选择的信道，另一维动作定义为接入信道的时隙数。先针对其中一维动作进行选择，将其他维度动作通过求均值合并到当前维度，当前维度动作决策完毕后，再进行后续维度动作选择。

具体的方法为：设置两个维度参数x，y，所述参数为[0,1]的随机数；

当x<ε时，依随机概率选择其中一个维度的动作，否则，求Q表在该动作维度上的均值，依最大值选择该维度的动作；

当y<ε时，依随机概率选择另一维度的动作，否则，依最大值选择该维度的动作。在本发明的实施例中，可以给出如下的伪代码：

其中，ε是一个[0,1]的常数，a₁和a₂分别表示两个维度的动作，例如可以将a₁定义为智能体选择的信道，a₂定义为接入信道的时隙数。在后续的说明中，均将a₁定义为智能体选择的信道，a₂定义为接入信道的时隙数。

传统的强化学习过程都是针对当前状态下选择特定的动作，若将多个动作映射到单个动作输出，则会导致动作空间过大，难以遍历到最优解。而本发明的实施例中提出双动作方式，将双动作分解输出，以提升效率，从而在频谱接入的过程中，具有更高的效率。

当动作选择完成后，进行频谱接入。

然后，结合偏向信息更新Q表。在本发明的实施例中，更新Q表可以按照如下方式进行：

S310：获取奖励值。

为激励智能体选择受干扰程度低的信道，并在干扰阈值之下尽可能接入较长时间，提高频谱利用率，减小信道切换次数，因此在本发明的实施例中，利用克斯卡效用函数设计奖励函数。克斯卡效用函数如公式(7)所示：

u＝k₁·p+k₂·(μ^tar-μ)² (7)

其中k₁和k₂为常数，p为发射功率，μ^tar为目标信干噪比，μ为实际信干噪比。克斯卡效用函数旨在使智能体在满足目标信干噪比的情况下最小化发射功率，减小对频谱环境的污染，从而节约系统资源。本发明为激励智能体选择干扰程度低的信道，奖励函数设计为信道容量与效用函数的比值，如公式(8)所示：

其中，R为奖励值，c为信道容量，u为克斯卡效用函数，W为信道带宽，k₁为常数，Th为干扰阈值。

为设计固定损失数，以给予智能体在阈值之上接入的惩罚。u₁为平衡奖励值数量级的系数，以平衡奖励值并给予智能体漏检情况更大的惩罚；u₂为时长引导系数，以激励智能体采用接入时长较长动作，减小切换次数。综上所述，认知用户在决策当中应综合考虑信道质量，选择最高奖励值动作进行信道选择与接入。

S320：观察下一时刻状态。下一时刻的状态也就是当前时刻状态与上一时刻状态的差值和均值。

S330：更新Q表。

智能体通过获取状态、决策动作、获得奖励值以进行策略的迭代，目标是找到一个最优策略π，使得当前策略下Q^π(s,a₁,a₂)值最大。Q值更新公式如(9)所示：

其中，0<α<1为学习率，表示当前学习到的Q值占自身的比重，α值越大表明智能体对学到的Q值越看重；0<γ<1为衰减因子，表示智能体对未来奖励的重视程度，γ值越大表明智能体对未来奖励越重视；s与s'分别表示当前状态与下一状态，a表示下一状态下最优动作，包括a₁和a₂。

S340：利用偏向信息对Q表进行调整。

强化学习方法当中，探索与利用的权衡问题是一个基本问题。为了能够提高探索效率，本发明的实施例中，提出基于偏向信息指导的强化学习方法。由于偏向信息的表示各不相同，在本发明的实施例中，采用奖励值作为偏向信息。

在强化学习的迭代过程中，不同的动作决策会导致不同的奖励值。如果智能体探索不足，很容易导致算法陷入局部最优解。本文考虑统计平均奖励值

设置const1和const2两个常数，若当前奖励值为负或者低于平均奖励，则给予当前Q值不同的惩罚，使得算法能够避免错误动作以及次优动作，探索全局最优解。

具体的，利用偏向信息对Q表进行调整的方法为：

以奖励值作为偏向信息，当奖励值小于零时，如果Q(s,a₁,a₂)>0，则使Q(s,a₁,a₂)＝const1×Q(s,a₁,a₂)；否则，使Q(s,a₁,a₂)＝(1/const1)×Q(s,a₁,a₂)，其中，const1为常数；

当奖励值小于统计平均奖励值

的情况下，如果Q(s,a₁,a₂)>0，则使Q(s,a₁,a₂)＝const2×Q(s,a₁,a₂)；否则，使Q(s,a₁,a₂)＝(1/const2)×Q(s,a₁,a₂)，其中，const2为常数。在本发明的实施例中，给出一个可以实现相应功能的伪代码：

为了验证本发明的实施例中所提供的方法相对于现有技术具有较好的效果，对实施例中的方法进行仿真验证，

设置如下：假定当前网络中信道数量M＝5，存在一个认知用户，一个干扰机。干扰机干扰样式为扫频干扰，每个信道的干扰功率是随时间呈正弦型变化的，即P_j,i＝Asin(ωt+φ_i)i∈M，其中A＝10dBm为幅值，ω为角频率，φ_i为各个信道的相位。加性高斯白噪声功率为1dBm，干扰阈值Th设置为4dBm。为防止状态空间过大，本文将状态值当中的差值c与均值m均进行量化，将状态空间缩小至S＝40个，以提升算法性能。Q学习中参数设置为：学习率α＝0.2，折扣因子γ＝0.4。ε设置为随时隙均匀下降的值，以平衡强化学习当中探索与利用问题。奖励值函数中，平衡数量级的常数值u₁取值为

时长引导系数u₂取值为

其中

为当前时刻统计的平均接入时长。在偏向信息当中，常数const1和const2分别设置为0.6和0.9。在帧时隙结构中，假设每个时隙帧长度为50ms，状态确认所需时间为3ms，决策时间为3ms，信道切换时间为5ms，确认帧时长为1ms。

采用蒙特卡洛方法仿真500次，取算术平均值；每次仿真30000时隙。

可以考虑从两个角度来对所提出的方法进行评价，分别为平均吞吐量、有效接入时长，其中，平均吞吐量

为在智能体本次接入时间内吞吐量的平均值，表示为：

其中，T_p为本次传输吞吐量，如公式(1)所示。

有效接入时长t_valid为智能体本次未被干扰的接入时长，表示为：

t_valid＝a₂-t_jam (11)

其中，t_jam为被干扰的时隙长度。

通过对比说明本发明的方法的有益效果。对比如下：

(1)先验知识+双动作+偏向信息，即本发明实施例中的方法，

(2)先验知识+单动作+偏向信息，传统强化学习方法中加入偏向信息，Q表为二维；

(3)无先验知识+双动作，无先验信息的传统强化学习方法，并利用本发明实施例中的双动作方式，Q表为三维；

(4)无先验知识+单动作，无先验信息的传统强化学习方法，Q表为二维。

图3给出了四种方案平均吞吐量的对比情况。可以看出，方案(3)在前期拥有更高的探索率，但多动作的探索并没有换来收敛时较高的吞吐量。对比于方案(3)，方案(2)的过程能够以较小的探索率，获得较为理想的吞吐量。本发明的方法(方案(1))能够在10000次迭代左右达到收敛。相比于方案(3)，本发明的方法能够提升约66％的收敛速度，并且相较于其他三种方案，平均吞吐量分别能够提升约3.0％、2.16％以及1.09％。

图4给出了四种方案有效接入时长的对比情况。更长的有效接入时长意味着对当前频谱的充分利用，减小了信道的切换次数。在充分的探索过后，无先验知识的方案仅仅达到了有先验知识的方案的初始水平。方案(2)的收敛最快，但学习的效果并没有很大的提升。本发明的方法能够在有效提升时长的同时，在15000次迭代左右达到收敛，相比于对比算法分别提升约25.88％、19.80％以及7.48％。

通过仿真结果中单动作输出算法与双动作输出算法之间的对比得出，本发明提出的方法能够使得动作空间较大的情况得到改善。相比于无先验知识的情况，基于先验知识或偏向信息的强化学习算法能够以较低的探索率进行学习；同时，本发明的方法能够以较快的收敛速度获得良好的性能。

考虑到先验知识准确度对强化学习算法的影响，本文针对不同程度的先验知识进行仿真以验证算法性能。为体现方法有效性，仿真中将先验准确度为94.77％的先验知识设置为参考先验，不进行学习迭代。

同时，仿真中还对先验知识的准确度对方法性能的影响，图5给出了不同先验准确度的情况下利用本发明的方法的平均吞吐量的对比情况。可以看到先验知识不准确的情况下，前期的性能并不理想，但随着迭代，不同先验准确度的情况都能够收敛到与参考先验相当的水平。在相同先验知识准确度的情况下，偏向信息学习算法与本发明的方法的初期性能相当，随着迭代，本发明的方案的提升要高于方案(2)，在15000次迭代左右超过参考先验。

图6给出了不同先验准确度的情况下利用本发明的方法的有效接入时长的对比情况。通过迭代，不同先验准确度的智能体都能够达到较高的接入时长。在相同先验知识准确度的情况下，本发明的方法能够迅速超过方案(2)，在10000次迭代左右超过参考先验。意味着本发明的方法能够更充分的利用频谱，减小切换损失。

通过对不同程度的先验知识进行仿真得出，本发明所提出的方法能够有效利用先验知识，同时能够排除不利甚至是错误动作，从而有效提升算法性能。

通过构建先验知识准确度模型，利用先验知识初始化Q表来引导智能体，以加速算法收敛过程并提升算法性能。针对先验知识准确度不同对智能体学习的影响，本发明考虑将奖励值作为偏向信息，通过激励智能体选择高奖励值动作以及减小错误动作对系统造成的影响，以避免不准确先验知识对智能体带来的负面导向。仿真表明，提出的方法在显著减小获得高期望奖励所需的探索次数的同时，能够同时提升最终的学习性能并有效利用不同准确度的先验知识，提高收益，从而提高频谱接入的效率。

此外，本发明还提供一种基于先验知识的双动作强化学习频谱接入系统，用于实现本发明实施例中所提出的方法，该系统包括先验信息评价及状态确认单元，用于对先验知识进行评价筛选，初始化Q表，确认当前状态；学习单元，用于进行Q学习，首先将动作空间分解为二维，其中一维动作定义为智能体选择的信道，另一维动作定义为接入信道的时隙数，按维度依次进行动作选择；然后根据动作选择结果，进行频谱接入；最后结合偏向信息更新Q表，所述偏向信息为奖励值。利用所提出的系统，使得本发明实施例中的方法得以实施，从而实现频谱的高效接入。

Claims

1.一种基于先验知识的双动作强化学习频谱接入方法，其特征在于，包括：

对先验知识进行评价筛选，初始化Q表，确认当前状态；

2.根据权利要求1所述的方法，其特征在于，所述按维度依次进行动作选择的方法为：

设置两个维度参数x、y，所述参数x、y为[0,1]的随机数；

3.根据权利要求1所述的方法，其特征在于，所述结合偏向信息更新Q表的方法包括：

获取奖励值；

确定下一时刻状态值；

更新Q表；

利用偏向信息对Q表进行调整。

4.根据权利要求3所述的方法，其特征在于，所述利用偏向信息对Q表进行调整的方法为：

以奖励值作为偏向信息，当奖励值小于零时，如果Q(s,a₁,a₂)>0，则使Q(s,a₁,a₂)＝const1×Q(s,a₁,a₂)；否则，使Q(s,a₁,a₂)＝(1/const1)×Q(s,a₁,a₂)，其中，const1为常数，a₁、a₂分别为两个维度的动作；

当奖励值小于统计平均奖励值

5.根据权利要求4所述的方法，其特征在于，所述获取奖励值的方法为：采用信道容量与效用函数的比值作为奖励，公式如下：

6.根据权利要求5所述的方法，其特征在于，更新Q值得方法为：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述对先验知识进行评价筛选的方法为：

8.根据权利要求7所述的方法，其特征在于，任一时刻的状态包括：每个信道前两个时隙的差值以及均值。

9.一种基于先验知识的双动作强化学习频谱接入系统，利用权利要求1-8任一项所述的方法进行频谱接入，其特征在于，包括：