CN112672426A

CN112672426A - 一种基于在线学习的抗干扰频点分配方法

Info

Publication number: CN112672426A
Application number: CN202110283758.0A
Authority: CN
Inventors: 黄洋; 唐煊; 江志炜; 吴启晖; 千雪映; 谢子心; 朱鑫昱
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-04-16
Anticipated expiration: 2041-03-17
Also published as: CN112672426B

Abstract

本发明公开了一种基于在线学习的抗干扰频点分配方法，包括：用频用户在每个时隙开始时分配一个频点作为工作频点，同时用频设备开始学习外部干扰源的干扰规律，至用频设备处基于核函数的强化学习方法的频点分配算法收敛，用频用户习得最优策略并按此策略进行频点选择、数据传输；若在算法收敛之后，当前频段干扰发生变化，用频设备继续按照之前的频点分配策略选择频点，根据被干扰的频点时的瞬时回报，启动频点分配算法重新进行学习，至用频设备处的频点分配算法重新收敛，习得干扰改变后的最优频点分配策略并按此策略进行数据传输。本发明能够动态监测环境信息，在未知干扰源的系统中，实时分析环境的干扰情况，做出最优的抗干扰频点分配决策。

Description

一种基于在线学习的抗干扰频点分配方法

技术领域

本发明涉及无线通信技术领域，具体而言涉及一种基于在线学习的抗干扰频点分配方法。

背景技术

近年来，随着无线设备和服务的数量爆炸式增长，无线通信系统中的用户数与业务种类大幅增加，通信设备的频谱资源分配问题成为一大难点。同时，面对越发复杂的电磁环境，具有开放性的无线通信系统相比有线通信系统更易受到电磁环境中的干扰攻击，抗干扰技术的研究在构建更加稳健，高效的无线通信系统中的重要性日益凸显。

当下，主流的传统抗干扰技术包括跳频扩频（Frequency Hopping SpreadSpectrum，FHSS）和直接序列扩频（direct-sequence spread spectrum，DSSS），传统的抗干扰技术需要有大量的可用频谱资源作为抗干扰技术的支持，在无法提供大量频谱资源时抗干扰效果会下降，并且传统的抗干扰技术无法应对网络频谱动态变化的场景。

近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法，被广泛地应用于无线通信系统的抗干扰问题中。然而，由于电磁环境的复杂性，基于传统强化学习技术对抗干扰频点分配问题进行求解时会面临巨大的状态和动作空间，由此会陷入维度诅咒等问题。为解决此类问题所提出的基于神经网络或隐马尔可夫模型等的预测模型需要大量的计算资源来进行训练，并且需要定期重新训练，同时需要大量参数来获取相关的通信环境信息，在具有业务延迟要求等的实际无线通信网络中具有一定的局限性。因此，需要更先进的技术方法，来动态监测环境信息，实时分析相关数据，做出频点资源分配的最优决策。

发明内容

本发明针对现有技术中的不足，提供一种基于在线学习的抗干扰频点分配方法，利用了基于核函数的强化学习方法，能够动态监测环境信息，在未知干扰源的系统中，实时分析环境的干扰情况，做出最优的抗干扰频点分配决策。

为实现上述目的，本发明采用以下技术方案：

一种基于在线学习的抗干扰频点分配方法，所述分配方法包括：

用频用户在每个时隙开始时分配一个频点作为工作频点，不同用频用户使用不同频点作为工作频点；同时用频设备开始学习外部干扰源的干扰规律，至用频设备处的频点分配算法收敛，用频用户习得最优策略并按此策略进行频点选择、数据传输；

若在算法收敛之后，当前频段干扰发生变化，用频设备继续按照之前的频点分配策略选择频点，用频用户得到接入被干扰的频点时的瞬时回报，启动频点分配算法重新进行学习，至用频设备处的频点分配算法重新收敛，用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输；

其中，所述频点分配算法基于核函数的强化学习方法，对干扰环境下的频点分配问题进行马尔可夫建模，以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数，对每一时隙的状态、动作选择及回报情况进行计算，得到状态-动作值函数，直至算法收敛，将收敛后的动作选择决策作为抗干扰频点分配最优决策；

用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势，用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点，用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述频点分配算法包括以下步骤：

S1，在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态，并以此构建频谱池；

S2，用频设备采用改进的贪心算法，以最大化访问的状态-动作对类型为目标，进行动作选择，在所有可用频点中选择用于进行数据传输的频点；

S3，发射机发送数据包，在接收机处获取接收到的信号，得到动作选择的瞬时回报值，瞬时回报值是指某一时隙用频设备是否接入未被干扰的频点作为工作频点；

S4，基于步骤S1至S3中所获取的当前时隙的状态、动作选择及回报情况，计算状态-动作值函数，即Q值；

S5，在下一时隙重复上述步骤S1至S4，直至算法收敛，将收敛后的动作选择决策作为抗干扰频点分配最优决策。

进一步地，步骤S1中，所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态，并以此构建频谱池的过程包括以下步骤：

S11，在某一时隙t，对每个用频用户创建该用户的频谱态势向量：对每个可用频点，用1表示该频点受到干扰，用0表示该频点未受到干扰；

S12，对于每个用频用户，感知环境中若干时隙的频谱态势，由这若干个频谱态势向量构建包含时域和频域信息的二维矩阵，作为频谱池。

进一步地，步骤S2中，所述用频设备采用改进的贪心算法，以最大化访问的状态-动作对类型为目标，进行动作选择，在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤：

S21，建立一个集合M以存放已被访问过的状态-动作对，若状态-动作对在之前的时隙被访问，则将该状态-动作对添加到集合M中；

S22，在任一时隙，用频设备以概率ε根据Q表选取当前状态下Q值最大的动作作为当前时隙接入的频点，以概率1 - ε随机选取一个动作，与当前用频设备所处的状态构成状态-动作对；

其中，当随机选取的动作构成的状态-动作对不包含于集合M中时，用频设备选择随机动作作为当前时隙接入的频点；当该状态-动作对包含于集合M中时，则根据Q表选取当前状态下，Q值最大的动作作为当前时隙接入的频点。

进一步地，步骤S4中，所述计算状态-动作值函数的过程包括以下步骤：

S41，创建字典集合用以存放当前环境的特征信息，即获取状态-动作对样本数据存入字典中；

S42，采用基于近似线性相关性分析（Approximate Linear Dependence，ALD）的在线内核稀疏方法对字典进行更新；

S43，求解当前时隙的数据样本特征关于字典中每一个元素的核函数，核函数计算结果为当前时隙用频设备观察到的状态和选择的动作分别关于当前时隙字典中存储的状态和动作的数据样本特征的高斯核函数的乘积；

S44，根据当前时隙的状态、动作、瞬时回报更新字典中每一个元素的权重系数；

S45，将步骤S43所求得的核函数和步骤S44所求得的对应元素的权重系数相乘并求和得到当前时隙状态-动作值函数。

进一步地，步骤S42中，所述采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的过程包括以下步骤：

S421，定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值，针对当前时隙的数据样本计算对应的差值；

S422，定义当前数据样本与字典内元素的差值函数阈值μ；

S423，判断步骤S421中计算所得差值与步骤S422中所定义的差值函数阈值的大小关系，如果计算所得差值大于差值函数阈值，则将当前数据样本加入到字典集合中；否则，维持当前的字典集合不变。

进一步地，步骤S44中，采用迭代方法，根据当前时隙的状态、动作、瞬时回报，通过定义下一时隙的权重系数等于当前时隙权重系数与当前时隙下的权重系数增量之和以更新字典中每一个元素的权重系数；其中，当前时隙下的权重系数增量等于当前时隙下的状态-动作对的值函数的增量核函数及学习速率的乘积；当前时隙下的状态-动作对的值函数的增量等于当前时隙的瞬时回报、负的当前时隙状态-动作对的值函数与执行Q值最大的动作后所观察到的状态-动作对的值函数三项的和。

例如，以

、

分别表示用频用户k在t时隙和t+1时隙的状态；

、

分别表示用频用户k在t时隙和t+1时隙的动作选择情况；

表示用频用户k在t时隙所处的状态下执行动作选择后所获取的瞬时回报；

表示折扣系数；

表示核函数。

权重系数的更新使用了迭代的方法，定义下一时隙的权重系数（记作

）等于本时隙权重系数（记作

）与本时隙下的权重系数增量（记作

）之和。即权重系数的更新满足下式：

当前时隙下的权重系数增量为当前时隙下的状态-动作对的值函数的增量（记作

）与核函数（记作

）及学习速率（记作ϒ）的乘积。即当前时隙下的权重系数增量的更新满足下式：

当前时隙下的状态-动作对的值函数的增量等于当前时隙用频用户k在t时隙执行动作选择后所获得的瞬时回报（记作

）、负的当前时隙状态-动作对的值函数（记作

）与执行Q值最大的动作后所观察到的状态-动作对的值函数（记作

三项的和。即当前时隙下的状态-动作对的值函数增量的更新满足下述公式：

权重系数的更新满足下述公式：

。

本发明的有益效果是：

在实际应用中，用频用户通过不断地在线学习环境的干扰模式，以此习得最优的频谱资源调度策略，最终实现抗干扰频点资源分配的目的。通过该方法，可以有效规避传统强化学习模型在解决抗干扰频点分配问题时的局限性，节省了计算资源，提高了决策质量，降低了算法收敛时间，在干扰源未知的情况下算法具有较强的稳定性，更具实用价值。

附图说明

图1为本发明的基于在线学习的抗干扰频点分配方法的流程示意图。

图2为基于核函数的强化学习的抗干扰频点分配算法流程图。

图3为基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的算法流程图。

图4为用频设备的可用频段和邻频点的划分和分簇情况示意图。

图5为包含通信用频设备和雷达用频设备的雷达通信一体化系统；其中，1表示雷达设备，2表示雷达波束，3表示干扰源，4表示干扰链路，5表示通信设备，6表示通信链路。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

结合图1，本发明提及一种基于在线学习的抗干扰频点分配方法，所述分配方法包括：

用频用户在每个时隙开始时分配一个频点作为工作频点，不同用频用户使用不同频点作为工作频点；同时用频设备开始学习外部干扰源的干扰规律，至用频设备处的频点分配算法收敛，用频用户习得最优策略并按此策略进行频点选择、数据传输。若在算法收敛之后，当前频段干扰发生变化，用频设备继续按照之前的频点分配策略选择频点，用频用户得到接入被干扰的频点时的瞬时回报，启动频点分配算法重新进行学习，至用频设备处的频点分配算法重新收敛，用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输。其中，所述频点分配算法基于核函数的强化学习方法，对干扰环境下的频点分配问题进行马尔可夫建模，以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数，对每一时隙的状态、动作选择及回报情况进行计算，得到状态-动作值函数，直至算法收敛，将收敛后的动作选择决策作为抗干扰频点分配最优决策。用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势，用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点，用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。

具体地，本发明将通过以下实施例来进行阐述，实施例的系统背景建模均如下：在共有K对用频设备的通信网络中，每对用频设备的接收设备处有一个感知设备，用于感知用频设备所在频段的频谱态势，同时环境中存在U个干扰源。将该时间划分为等长的时隙，每个时隙的长度用T来表示；不同的用频用户拥有不同的可用频段，不同频段之间可能有重叠的部分，并且各个用频用户可用频段内的单个频点的带宽不同，可用频段共有H个可用频点；干扰源在每个时隙t开始时选择以一定的干扰方式对所有的可用频段进行干扰，干扰信息并不会被无线网络中的用频用户感知到，同一网络中的不同用频用户之间不存在频点间干扰。

用频设备为了增加对本用户可用频段附近频点的感知，在用频设备可用频段的两侧均有一个邻频点，邻频点用于感知可用频段两侧相邻频点的频谱态势，如图4所示，其中黑色块为邻频点，邻频点不能被使用该频段的用频设备作为工作频点，白色块为用频设备的可用频点，图4中有四个用频设备。若不同用频设备的可用频点有重叠，则这些用频设备被划分为同一个簇，由簇头分配重叠频点的优先使用权。在图4中，由于用频设备1和用频设备2的可用频点有重叠，故划分为簇1。

对抗干扰频点分配问题进行马尔可夫建模：将状态空间、动作空间、瞬时回报和目标函数表示如下：

状态空间：每个用频设备在特定时刻所处的状态由该时刻的频谱池所决定。频谱池定义为该设备处前y个时隙的频谱态势向量组成的矩阵。以

表示t时刻第k个设备所处的状态，以

表示在t时刻第k个设备的第j个频点的频谱态势。以

表示该频点受到干扰，以

表示该频点未受干扰。将各个时隙每个频点的频谱态势组合得到该时刻第k个用频设备的频谱态势向量

，

的更新满足下式：

v _k,t-1= (v _k,1,t-1,… , v _k,j,t-1)

其中j为可用频点和邻频点的数目总和。将第k个用频设备前y个时隙的频谱态势向量组合得到一个

的二维矩阵，即为该时隙第k个用频设备的所处的状态

。

的更新满足下式：

。

动作空间：以

表示t时刻第k个设备所执行的动作，以

表示t时刻对第k个设备的第j个频点所执行的动作，以

表示接入该频点，以

表示不接入该频点。每个用频设备在特定时刻的动作由该用频设备对每个频点所执行的操作组成。

瞬时回报：以

表示t时刻第k个设备的瞬时回报。通过判断t时刻第k个设备是否接入了未被干扰的频点来定义瞬时回报的值。

目标函数：定义为最大化通信网络中用频设备处的累计折扣回报的期望，即最大化通信网络中用频设备接入未受干扰频点的次数的累计折扣回报的期望。

在本实施例中，考虑如图5所示的一个包含通信用频设备和雷达用频设备的雷达通信一体化系统，其中通信用频设备和雷达用频设备的总设备对数为K=5，其中，第k = 3个用频设备为雷达用频设备，其余4个设备均为通信设备。在上述系统中的雷达用频设备为捷变频雷达，捷变频雷达对可用频段内的可用频点进行频谱的实时分析，来获得可用频段的干扰状态，构建频谱池，对当前时隙下的频点分配进行决策。

下面将分别针对通信用频设备和雷达用频设备两个具体实施例对本发明基于在线学习的抗干扰频点分配技术与算法的具体实时过程做进一步阐述。

实施例一：

结合图1，本发明提供了一种基于在线学习的抗干扰频点分配算法，该算法使用了基于核函数的强化学习方法，包含下述步骤：

步骤1：在线获取用频设备的各个可用频点在过去一段时间内的频谱态势作为用频设备当前的状态，并以此构建频谱池。

步骤2：用频设备进行动作选择，在所有可用频点中选择用于进行数据传输的频点。

步骤3：发射机发送数据包，在接收机处获取接收到的信号，得到动作选择的瞬时回报值。

步骤4：基于步骤1，步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况，计算状态-动作值函数，即Q值。

步骤5：在下一时隙重复上述步骤1-步骤4直至算法收敛，此时动作选择决策即为抗干扰频点分配最优决策。

本实施例中，基于在线学习的抗干扰频点资源分配技术与算法应用于通信用频设备的频点分配问题。

首先执行步骤1。

在该系统内，通信设备的频谱池由前y个时隙的可用频点和邻频点的频谱态势组成。通信设备根据信干噪比来判断可用频段的频谱态势，以p表示发射功率，

表示第j个信道的增益，σ²表示噪声，则信干噪比可以表示为通信环境中信号与干扰和噪声之间功率的比值。由于环境中的噪声包括高斯白噪声和外部干扰源的干扰，以

表示高斯白噪声的功率，以N₀表示噪声功率谱密度，

表示第k个用频设备的带宽，由此高斯白噪声的功率即为噪声的功率谱密度与第k个用频设备带宽的成绩，即高斯白噪声的功率计算满足下式：

以

表示外部干扰源的功率，n _k,j,t表示用频设备k的第j个频点是否被干扰，若第j个载波被干扰，则n _k,j,t= 1，否则，n _k,j,t= 0。总噪声的功率即为高斯白噪声的功率与外部干扰源功率之和，即总噪声功率的计算满足下式：

。

环境中有用信号的功率等于发射功率与对应信道的增益的乘积。故信干噪比的计算满足下式：

。

在t-1时隙，用通信设备对当前时隙的可用频点和邻频点的信干噪比进行感知，获得对应频点的频谱态势，将各个时隙每个频点的频谱态势组合得到该时刻第k个用频设备的频谱态势向量

，

的更新满足下式：

v_k,t-1 = (v_k,1,t-1,… , v_k,j,t-1)

其中j为可用频点和邻频点的数目总和。随着通信设备在每个时隙对可用频点和邻频点进行感知，获得t-y时隙到t-1时隙内对应频点的频谱态势，进而构成了通信设备k的频谱池，随着时隙的增加，通信设备不断更新频谱池中的频谱态势。

至此，本实施例完成了频谱池的构建，进而执行步骤2。

建立一个集合M以存放已被访问过的状态-动作对。若状态-动作对在之前的时隙被访问，则将该状态-动作对添加到集合M中。

在任一时隙，通信设备以概率ε根据Q表选取当前状态下，Q值最大的动作作为本时隙接入的频点。

在任一时隙，通信设备以概率1 - ε随机选取一个动作，与当前通信设备所处的状态构成状态-动作对。若该状态-动作对不包含于集合M中，则通信设备选择随机动作作为本时隙接入的频点；若该状态-动作对包含于集合M中，则根据Q表选取当前状态下，Q值最大的动作作为本时隙接入的频点。以Q_k,t(s_k,t, a_k,t)表示t时隙通信设备k在状态s_k,t下选取动作a_k,t的Q值，其计算结果为数据样本特征的特征向量与权重系数的乘积。以

表示数据样本特征

的特征向量，以

表示t时隙第k个用频设备的权重系数，则Q值的计算满足下述计算公式：

进而动作a_k,t的选取符合下述公式：

。

至此，完成动作选择后，执行步骤3。发射机连入所选择的频点，发送数据包，在接收机处获取接收到的信号，通信用频设备根据接收设备处是否能成功译码来判定用频设备是否接入未被干扰的频点作为工作频点。若通信用户k接入频谱态势为v_k,j,t = 0的频点，则r_k,t = r₁，若通信用户k接入频谱态势为v_k,j,t = 1的频点，则r_k,t = r₂，其中r₁和r₂分别为通信设备k成功接入未被干扰的频点作为工作频点和未成功接入未被干扰的频点作为工作频点的回报参数。

得到瞬时回报后，执行步骤4：基于步骤1，步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况，计算状态-动作值函数，即Q值。具体执行流程如下：

步骤4.1：创建字典集合D_k,t用以存放当前环境的特征信息，即获取状态-动作对样本数据存入字典中。D_k,t是一个包含了L_t个状态动作对的字典，并且字典D_k,t中状态动作对及其对应的权重系数是需要进行不断的学习和更新的。

步骤4.2：使用基于ALD的在线内核稀疏方法对字典进行更新：

首先定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值。定义t时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值，以

表示这一差值，根据上述定义，该差值的计算满足下述公式：

。

其次，定义当前数据样本与字典内元素的差值函数阈值μ。

最后，判断计算所得

与所定义的差值函数阈值μ的大小关系，如果差值大于阈值，则将当前的样本加入到字典集合中；若差值小于阈值，则维持当前的字典集合不变。

步骤4.3：求解当前时隙的数据样本特征关于字典中每一个元素的核函数，核函数计算结果为当前时隙用频设备观察到的状态和选择的动作分别关于当前时隙字典D_k,t中存储的状态和动作的数据样本特征的高斯核函数的乘积：

其中

是t时隙字典D_k,t中的状态动作对，即当前时隙字典D_k,t中存储的特征，而数据样本的特征

代表当前时隙用频设备观察到的状态和选择的动作。

步骤4.4：根据更新字典中每一个元素的权重系数，包括：

以

、

分别表示用频用户k在t时隙和t+1时隙的状态；

、

分别表示用频用户k在t时隙和t+1时隙的动作选择情况；

表示折扣系数；

表示核函数。

）等于本时隙权重系数（记作

）与本时隙下的权重系数增量（记作

）之和。即权重系数的更新满足下式：

其中本时隙下的权重系数增量为本时隙下的状态-动作对的值函数的增量（记作

）与核函数（记作

）及学习速率（记作ϒ）的乘积。即本时隙下的权重系数增量的更新满足下式：

本时隙下的状态-动作对的值函数的增量等于本时隙用频用户k在t时隙执行动作选择后所获得的瞬时回报（记作

）、负的本时隙状态-动作对的值函数（记作

三项的和。即本时隙下的状态-动作对的值函数增量的更新满足下述公式：

。

因此，权重系数的更新满足下述公式：

。

步骤4.5：将步骤4.3所求得的核函数（记作

）和步骤4.4所求得的对应元素的权重系数（记作

）相乘并求和得到当前时隙状态-动作值函数。即t时隙第k个用频设备的状态-动作对的值函数的更新满足下式：

。

至此，我们完成了存储环境特征的字典集合的更新和状态-动作值函数的计算。算法通过重复执行上述步骤直至算法收敛，由此习得环境中的干扰规律，获得当前干扰环境下的最优资源分配决策。

当环境中的干扰模式发生改变时，通信用户会被接入被干扰的频点作为工作频点，得到用频用户被接入被干扰频点的瞬时回报参数，进而影响字典集合内各元素的权重系数，进而影响当前样本的特征向量与当前字典中样本特征向量的期望之间的差值函数，当该差值函数大于一定的阈值后，当前数据样本特征被作为全新的环境样本特征加入字典集合，由此算法习得全新的干扰模式，重新得到最优频点分配决策。

本实施例中，通信用户不断重复上述流程，以实现在线动态监测环境信息，实时做出抗干扰频点分配决策的功能。

实施例二：

结合图1，本发明提供了一种基于在线学习的抗干扰频点分配方法，该方法使用了基于核函数的强化学习方法，包含下述步骤：

本实施例应用于雷达用频设备的频点分配问题。

雷达用频设备通过频率捷变来避开外部的未知干扰源，捷变频雷达的频率捷变技术主要通过干扰分析与频率选择系统（Jamming Analysis Transmission Selection，JATS）来实现的。雷达信号通常是窄带的、带通的、相位或频率调制的函数，这意味着单个散射体的回波波形

。其中，幅度调制A(t)仅仅表示脉冲的包络。接收到的信号被分离到两个通道，其中一个通道称为同相通道（I通道），另一个通道称为正交通道（Q通道）。在经过混频和低通滤波后，等式(1)中的回波信号可以表示为：

。

首先执行步骤1。

在该系统内，雷达设备的频谱池由前y个时隙的可用频点和邻频点的频谱态势组成。捷变频雷达对可用频段内的可用频点进行频谱的实时分析，来获得可用频段的干扰状态，它在每个时隙对雷达设备可用频点的幅度进行实时监测，单个可用频点处的信号幅度可以表示为回波信号的模，即对回波信号中的同向通道部分信号的幅度和正交通道部分信号的幅度分别取平方，再求和，最后做开方运算。以g_k,j,t表示t时隙雷达设备k的第j个可用频点的幅度值，I_k,j,t表示t时隙雷达设备k的第j个可用频点的同相通道信号的幅度值，Q_k,j,t表示t时隙雷达设备k的第j个可用频点的正交通道信号的幅度值，则g_k,j,t的计算满足下式：

。

设定干扰门限g_th，若g_k,j,t ≤ g_th，则该频点未被干扰，反之g_k,j,t ≥ g_th，则该频点被干扰。对每个可用频点，用1表示该频点受到干扰，用0表示该频点未受到干扰。

在t-1时隙，用雷达设备对当前时隙的可用频点和邻频点进行感知，获得对应频点的频谱态势集合v_k,t-1 = (v_k,1,t-1,… , v_k,j,t-1)，其中j为可用频点和邻频点的数目总和。随着雷达设备在每个时隙对可用频点和邻频点进行感知，获得t-y时隙到t-1时隙内对应频点的频谱态势，进而构成了雷达设备k的频谱池，随着时隙的增加，雷达设备不断更新频谱池中的频谱态势。

至此，本实施例完成了频谱池的构建，进而执行步骤2。

表示数据样本特征

的特征向量，以

进而动作a_k,t的选取符合下述公式：

。

至此，完成动作选择后，执行步骤3。发射机连入所选择的频点，发送数据包，在接收机处获取接收到的信号，定义r₁和r₂分别为雷达设备k成功接入未被干扰的频点作为工作频点和未成功接入未被干扰的频点作为工作频点的回报参数。若雷达用户k接入未被干扰的频点作为工作频点，则对应该频点的频谱态势为v_k,j,t= 0，由此得到该雷达用频设备处得到的瞬时回报参数为雷达设备k成功接入未被干扰的频点作为工作频点的瞬时回报参数。若雷达用户k接入被干扰的频点作为工作频点，则对应该频点的频谱态势为v_k,j,t = 1，由此得到该雷达用频设备处得到的瞬时回报参数为雷达设备k接入被干扰的频点作为工作频点的瞬时回报参数则。定义r_k,t为该雷达用频设备t时隙的瞬时回报值，瞬时回报的更新满足下述公式：

。

得到瞬时回报后，执行步骤4：基于步骤1，步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况，计算状态-动作值函数，即Q值。具体实现方案与实施例一通信用频设备频点分配所使用的技术方案原理类似，在此不做赘述。

本实施例中，雷达用户不断重复上述流程，以实现在线动态监测环境信息，实时做出抗干扰频点分配决策的功能。

本发明所提出的基于在线学习的抗干扰频点分配方法使用了基于核函数强化学习技术，与传统基于Q学习的强化学习方法相比，本发明可以快速规避外部未知干扰源的干扰，接入未被干扰的频点作为工作频点，有效降低收敛时间并避免出现维度诅咒等问题，节约了计算资源。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于在线学习的抗干扰频点分配方法，其特征在于，所述分配方法包括：

2.根据权利要求1所述的基于在线学习的抗干扰频点分配方法，其特征在于，所述频点分配算法包括以下步骤：

3.根据权利要求2所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S1中，所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态，并以此构建频谱池的过程包括以下步骤：

4.根据权利要求2所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S2中，所述用频设备采用改进的贪心算法，以最大化访问的状态-动作对类型为目标，进行动作选择，在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤：

5.根据权利要求2所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S4中，所述计算状态-动作值函数的过程包括以下步骤：

S42，采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新；

6.根据权利要求5所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S42中，所述采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的过程包括以下步骤：

S422，定义当前数据样本与字典内元素的差值函数阈值μ；

7.根据权利要求5所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S44中，采用迭代方法，根据当前时隙的状态、动作、瞬时回报，通过定义下一时隙的权重系数等于当前时隙权重系数与当前时隙下的权重系数增量之和以更新字典中每一个元素的权重系数；其中，当前时隙下的权重系数增量等于当前时隙下的状态-动作对的值函数的增量核函数及学习速率的乘积；当前时隙下的状态-动作对的值函数的增量等于当前时隙的瞬时回报、负的当前时隙状态-动作对的值函数与执行Q值最大的动作后所观察到的状态-动作对的值函数三项的和。