CN112672426A - 一种基于在线学习的抗干扰频点分配方法 - Google Patents

一种基于在线学习的抗干扰频点分配方法 Download PDF

Info

Publication number
CN112672426A
CN112672426A CN202110283758.0A CN202110283758A CN112672426A CN 112672426 A CN112672426 A CN 112672426A CN 202110283758 A CN202110283758 A CN 202110283758A CN 112672426 A CN112672426 A CN 112672426A
Authority
CN
China
Prior art keywords
frequency
time slot
frequency point
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110283758.0A
Other languages
English (en)
Other versions
CN112672426B (zh
Inventor
黄洋
唐煊
江志炜
吴启晖
千雪映
谢子心
朱鑫昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110283758.0A priority Critical patent/CN112672426B/zh
Publication of CN112672426A publication Critical patent/CN112672426A/zh
Application granted granted Critical
Publication of CN112672426B publication Critical patent/CN112672426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于在线学习的抗干扰频点分配方法,包括:用频用户在每个时隙开始时分配一个频点作为工作频点,同时用频设备开始学习外部干扰源的干扰规律,至用频设备处基于核函数的强化学习方法的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输;若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,根据被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,习得干扰改变后的最优频点分配策略并按此策略进行数据传输。本发明能够动态监测环境信息,在未知干扰源的系统中,实时分析环境的干扰情况,做出最优的抗干扰频点分配决策。

Description

一种基于在线学习的抗干扰频点分配方法
技术领域
本发明涉及无线通信技术领域,具体而言涉及一种基于在线学习的抗干扰频点分配方法。
背景技术
近年来,随着无线设备和服务的数量爆炸式增长,无线通信系统中的用户数与业务种类大幅增加,通信设备的频谱资源分配问题成为一大难点。同时,面对越发复杂的电磁环境,具有开放性的无线通信系统相比有线通信系统更易受到电磁环境中的干扰攻击,抗干扰技术的研究在构建更加稳健,高效的无线通信系统中的重要性日益凸显。
当下,主流的传统抗干扰技术包括跳频扩频(Frequency Hopping SpreadSpectrum,FHSS)和直接序列扩频(direct-sequence spread spectrum,DSSS),传统的抗干扰技术需要有大量的可用频谱资源作为抗干扰技术的支持,在无法提供大量频谱资源时抗干扰效果会下降,并且传统的抗干扰技术无法应对网络频谱动态变化的场景。
近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法,被广泛地应用于无线通信系统的抗干扰问题中。然而,由于电磁环境的复杂性,基于传统强化学习技术对抗干扰频点分配问题进行求解时会面临巨大的状态和动作空间,由此会陷入维度诅咒等问题。为解决此类问题所提出的基于神经网络或隐马尔可夫模型等的预测模型需要大量的计算资源来进行训练,并且需要定期重新训练,同时需要大量参数来获取相关的通信环境信息,在具有业务延迟要求等的实际无线通信网络中具有一定的局限性。因此,需要更先进的技术方法,来动态监测环境信息,实时分析相关数据,做出频点资源分配的最优决策。
发明内容
本发明针对现有技术中的不足,提供一种基于在线学习的抗干扰频点分配方法,利用了基于核函数的强化学习方法,能够动态监测环境信息,在未知干扰源的系统中,实时分析环境的干扰情况,做出最优的抗干扰频点分配决策。
为实现上述目的,本发明采用以下技术方案:
一种基于在线学习的抗干扰频点分配方法,所述分配方法包括:
用频用户在每个时隙开始时分配一个频点作为工作频点,不同用频用户使用不同频点作为工作频点;同时用频设备开始学习外部干扰源的干扰规律,至用频设备处的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输;
若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,用频用户得到接入被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输;
其中,所述频点分配算法基于核函数的强化学习方法,对干扰环境下的频点分配问题进行马尔可夫建模,以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数,对每一时隙的状态、动作选择及回报情况进行计算,得到状态-动作值函数,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策;
用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势,用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点,用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。
为优化上述技术方案,采取的具体措施还包括:
进一步地,所述频点分配算法包括以下步骤:
S1,在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池;
S2,用频设备采用改进的贪心算法,以最大化访问的状态-动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点;
S3,发射机发送数据包,在接收机处获取接收到的信号,得到动作选择的瞬时回报值,瞬时回报值是指某一时隙用频设备是否接入未被干扰的频点作为工作频点;
S4,基于步骤S1至S3中所获取的当前时隙的状态、动作选择及回报情况,计算状态-动作值函数,即Q值;
S5,在下一时隙重复上述步骤S1至S4,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策。
进一步地,步骤S1中,所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池的过程包括以下步骤:
S11,在某一时隙t,对每个用频用户创建该用户的频谱态势向量:对每个可用频点,用1表示该频点受到干扰,用0表示该频点未受到干扰;
S12,对于每个用频用户,感知环境中若干时隙的频谱态势,由这若干个频谱态势向量构建包含时域和频域信息的二维矩阵,作为频谱池。
进一步地,步骤S2中,所述用频设备采用改进的贪心算法,以最大化访问的状态-动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤:
S21,建立一个集合M以存放已被访问过的状态-动作对,若状态-动作对在之前的时隙被访问,则将该状态-动作对添加到集合M中;
S22,在任一时隙,用频设备以概率ε根据Q表选取当前状态下Q值最大的动作作为当前时隙接入的频点,以概率1 - ε随机选取一个动作,与当前用频设备所处的状态构成状态-动作对;
其中,当随机选取的动作构成的状态-动作对不包含于集合M中时,用频设备选择随机动作作为当前时隙接入的频点;当该状态-动作对包含于集合M中时,则根据Q表选取当前状态下,Q值最大的动作作为当前时隙接入的频点。
进一步地,步骤S4中,所述计算状态-动作值函数的过程包括以下步骤:
S41,创建字典集合用以存放当前环境的特征信息,即获取状态-动作对样本数据存入字典中;
S42,采用基于近似线性相关性分析(Approximate Linear Dependence,ALD)的在线内核稀疏方法对字典进行更新;
S43,求解当前时隙的数据样本特征关于字典中每一个元素的核函数,核函数计算结果为当前时隙用频设备观察到的状态和选择的动作分别关于当前时隙字典中存储的状态和动作的数据样本特征的高斯核函数的乘积;
S44,根据当前时隙的状态、动作、瞬时回报更新字典中每一个元素的权重系数;
S45,将步骤S43所求得的核函数和步骤S44所求得的对应元素的权重系数相乘并求和得到当前时隙状态-动作值函数。
进一步地,步骤S42中,所述采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的过程包括以下步骤:
S421,定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值,针对当前时隙的数据样本计算对应的差值;
S422,定义当前数据样本与字典内元素的差值函数阈值μ;
S423,判断步骤S421中计算所得差值与步骤S422中所定义的差值函数阈值的大小关系,如果计算所得差值大于差值函数阈值,则将当前数据样本加入到字典集合中;否则,维持当前的字典集合不变。
进一步地,步骤S44中,采用迭代方法,根据当前时隙的状态、动作、瞬时回报,通过定义下一时隙的权重系数等于当前时隙权重系数与当前时隙下的权重系数增量之和以更新字典中每一个元素的权重系数;其中,当前时隙下的权重系数增量等于当前时隙下的状态-动作对的值函数的增量核函数及学习速率的乘积;当前时隙下的状态-动作对的值函数的增量等于当前时隙的瞬时回报、负的当前时隙状态-动作对的值函数与执行Q值最大的动作后所观察到的状态-动作对的值函数三项的和。
例如,以
Figure 521786DEST_PATH_IMAGE001
Figure 32402DEST_PATH_IMAGE002
分别表示用频用户k在t时隙和t+1时隙的状态;
Figure 546560DEST_PATH_IMAGE003
Figure 410610DEST_PATH_IMAGE004
分别表示用频用户k在t时隙和t+1时隙的动作选择情况;
Figure 585502DEST_PATH_IMAGE005
表示用频用户k在t时隙所处的状态下执行动作选择后所获取的瞬时回报;
Figure 876806DEST_PATH_IMAGE006
表示折扣系数;
Figure 878260DEST_PATH_IMAGE007
表示核函数。
权重系数的更新使用了迭代的方法,定义下一时隙的权重系数(记作
Figure 670636DEST_PATH_IMAGE008
)等于本时隙权重系数(记作
Figure 808356DEST_PATH_IMAGE009
)与本时隙下的权重系数增量(记作
Figure 660774DEST_PATH_IMAGE010
)之和。即权重系数的更新满足下式:
Figure 149525DEST_PATH_IMAGE011
当前时隙下的权重系数增量为当前时隙下的状态-动作对的值函数的增量(记作
Figure 620957DEST_PATH_IMAGE012
)与核函数(记作
Figure 737818DEST_PATH_IMAGE013
)及学习速率(记作ϒ)的乘积。即当前时隙下的权重系数增量的更新满足下式:
Figure 902083DEST_PATH_IMAGE014
当前时隙下的状态-动作对的值函数的增量等于当前时隙用频用户k在t时隙执行动作选择后所获得的瞬时回报(记作
Figure 612550DEST_PATH_IMAGE005
)、负的当前时隙状态-动作对的值函数(记作
Figure 979684DEST_PATH_IMAGE015
)与执行Q值最大的动作后所观察到的状态-动作对的值函数(记作
Figure 357576DEST_PATH_IMAGE016
三项的和。即当前时隙下的状态-动作对的值函数增量的更新满足下述公式:
Figure 427163DEST_PATH_IMAGE017
权重系数的更新满足下述公式:
Figure 749560DEST_PATH_IMAGE018
本发明的有益效果是:
在实际应用中,用频用户通过不断地在线学习环境的干扰模式,以此习得最优的频谱资源调度策略,最终实现抗干扰频点资源分配的目的。通过该方法,可以有效规避传统强化学习模型在解决抗干扰频点分配问题时的局限性,节省了计算资源,提高了决策质量,降低了算法收敛时间,在干扰源未知的情况下算法具有较强的稳定性,更具实用价值。
附图说明
图1为本发明的基于在线学习的抗干扰频点分配方法的流程示意图。
图2为基于核函数的强化学习的抗干扰频点分配算法流程图。
图3为基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的算法流程图。
图4为用频设备的可用频段和邻频点的划分和分簇情况示意图。
图5为包含通信用频设备和雷达用频设备的雷达通信一体化系统;其中,1表示雷达设备,2表示雷达波束,3表示干扰源,4表示干扰链路,5表示通信设备,6表示通信链路。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
结合图1,本发明提及一种基于在线学习的抗干扰频点分配方法,所述分配方法包括:
用频用户在每个时隙开始时分配一个频点作为工作频点,不同用频用户使用不同频点作为工作频点;同时用频设备开始学习外部干扰源的干扰规律,至用频设备处的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输。若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,用频用户得到接入被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输。其中,所述频点分配算法基于核函数的强化学习方法,对干扰环境下的频点分配问题进行马尔可夫建模,以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数,对每一时隙的状态、动作选择及回报情况进行计算,得到状态-动作值函数,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策。用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势,用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点,用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。
具体地,本发明将通过以下实施例来进行阐述,实施例的系统背景建模均如下:在共有K对用频设备的通信网络中,每对用频设备的接收设备处有一个感知设备,用于感知用频设备所在频段的频谱态势,同时环境中存在U个干扰源。将该时间划分为等长的时隙,每个时隙的长度用T来表示;不同的用频用户拥有不同的可用频段,不同频段之间可能有重叠的部分,并且各个用频用户可用频段内的单个频点的带宽不同,可用频段共有H个可用频点;干扰源在每个时隙t开始时选择以一定的干扰方式对所有的可用频段进行干扰,干扰信息并不会被无线网络中的用频用户感知到,同一网络中的不同用频用户之间不存在频点间干扰。
用频设备为了增加对本用户可用频段附近频点的感知,在用频设备可用频段的两侧均有一个邻频点,邻频点用于感知可用频段两侧相邻频点的频谱态势,如图4所示,其中黑色块为邻频点,邻频点不能被使用该频段的用频设备作为工作频点,白色块为用频设备的可用频点,图4中有四个用频设备。若不同用频设备的可用频点有重叠,则这些用频设备被划分为同一个簇,由簇头分配重叠频点的优先使用权。在图4中,由于用频设备1和用频设备2的可用频点有重叠,故划分为簇1。
对抗干扰频点分配问题进行马尔可夫建模:将状态空间、动作空间、瞬时回报和目标函数表示如下:
状态空间:每个用频设备在特定时刻所处的状态由该时刻的频谱池所决定。频谱池定义为该设备处前y个时隙的频谱态势向量组成的矩阵。以
Figure 562795DEST_PATH_IMAGE001
表示t时刻第k个设备所处的状态,以
Figure 654248DEST_PATH_IMAGE019
表示在t时刻第k个设备的第j个频点的频谱态势。以
Figure 160315DEST_PATH_IMAGE020
表示该频点受到干扰,以
Figure 579795DEST_PATH_IMAGE021
表示该频点未受干扰。将各个时隙每个频点的频谱态势组合得到该时刻第k个用频设备的频谱态势向量
Figure 321355DEST_PATH_IMAGE022
Figure 142681DEST_PATH_IMAGE022
的更新满足下式:
v k,t-1 = (v k,1,t-1 ,… , v k,j,t-1 )
其中j为可用频点和邻频点的数目总和。将第k个用频设备前y个时隙的频谱态势向量组合得到一个
Figure 819650DEST_PATH_IMAGE023
的二维矩阵,即为该时隙第k个用频设备的所处的状态
Figure 618104DEST_PATH_IMAGE024
Figure 507562DEST_PATH_IMAGE024
的更新满足下式:
Figure 714553DEST_PATH_IMAGE025
动作空间:以
Figure 687057DEST_PATH_IMAGE026
表示t时刻第k个设备所执行的动作,以
Figure 81129DEST_PATH_IMAGE027
表示t时刻对第k个设备的第j个频点所执行的动作,以
Figure 39858DEST_PATH_IMAGE028
表示接入该频点,以
Figure 960409DEST_PATH_IMAGE029
表示不接入该频点。每个用频设备在特定时刻的动作由该用频设备对每个频点所执行的操作组成。
瞬时回报:以
Figure 713602DEST_PATH_IMAGE030
表示t时刻第k个设备的瞬时回报。通过判断t时刻第k个设备是否接入了未被干扰的频点来定义瞬时回报的值。
目标函数:定义为最大化通信网络中用频设备处的累计折扣回报的期望,即最大化通信网络中用频设备接入未受干扰频点的次数的累计折扣回报的期望。
在本实施例中,考虑如图5所示的一个包含通信用频设备和雷达用频设备的雷达通信一体化系统,其中通信用频设备和雷达用频设备的总设备对数为K=5,其中,第k = 3个用频设备为雷达用频设备,其余4个设备均为通信设备。在上述系统中的雷达用频设备为捷变频雷达,捷变频雷达对可用频段内的可用频点进行频谱的实时分析,来获得可用频段的干扰状态,构建频谱池,对当前时隙下的频点分配进行决策。
下面将分别针对通信用频设备和雷达用频设备两个具体实施例对本发明基于在线学习的抗干扰频点分配技术与算法的具体实时过程做进一步阐述。
实施例一:
结合图1,本发明提供了一种基于在线学习的抗干扰频点分配算法,该算法使用了基于核函数的强化学习方法,包含下述步骤:
步骤1:在线获取用频设备的各个可用频点在过去一段时间内的频谱态势作为用频设备当前的状态,并以此构建频谱池。
步骤2:用频设备进行动作选择,在所有可用频点中选择用于进行数据传输的频点。
步骤3:发射机发送数据包,在接收机处获取接收到的信号,得到动作选择的瞬时回报值。
步骤4:基于步骤1,步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况,计算状态-动作值函数,即Q值。
步骤5:在下一时隙重复上述步骤1-步骤4直至算法收敛,此时动作选择决策即为抗干扰频点分配最优决策。
本实施例中,基于在线学习的抗干扰频点资源分配技术与算法应用于通信用频设备的频点分配问题。
首先执行步骤1。
在该系统内,通信设备的频谱池由前y个时隙的可用频点和邻频点的频谱态势组成。通信设备根据信干噪比来判断可用频段的频谱态势,以p表示发射功率,
Figure 860549DEST_PATH_IMAGE031
表示第j个信道的增益,σ2表示噪声,则信干噪比可以表示为通信环境中信号与干扰和噪声之间功率的比值。由于环境中的噪声包括高斯白噪声和外部干扰源的干扰,以
Figure 482023DEST_PATH_IMAGE032
表示高斯白噪声的功率,以N0表示噪声功率谱密度,
Figure 398027DEST_PATH_IMAGE033
表示第k个用频设备的带宽,由此高斯白噪声的功率即为噪声的功率谱密度与第k个用频设备带宽的成绩,即高斯白噪声的功率计算满足下式:
Figure 322121DEST_PATH_IMAGE034
Figure 319813DEST_PATH_IMAGE035
表示外部干扰源的功率,n k,j,t 表示用频设备k的第j个频点是否被干扰,若第j个载波被干扰,则n k,j,t = 1,否则,n k,j,t = 0。总噪声的功率即为高斯白噪声的功率与外部干扰源功率之和,即总噪声功率的计算满足下式:
Figure 620345DEST_PATH_IMAGE036
环境中有用信号的功率等于发射功率与对应信道的增益的乘积。故信干噪比的计算满足下式:
Figure 656434DEST_PATH_IMAGE037
在t-1时隙,用通信设备对当前时隙的可用频点和邻频点的信干噪比进行感知,获得对应频点的频谱态势,将各个时隙每个频点的频谱态势组合得到该时刻第k个用频设备的频谱态势向量
Figure 610483DEST_PATH_IMAGE038
Figure 732023DEST_PATH_IMAGE038
的更新满足下式:
vk,t-1 = (vk,1,t-1,… , vk,j,t-1)
其中j为可用频点和邻频点的数目总和。随着通信设备在每个时隙对可用频点和邻频点进行感知,获得t-y时隙到t-1时隙内对应频点的频谱态势,进而构成了通信设备k的频谱池,随着时隙的增加,通信设备不断更新频谱池中的频谱态势。
至此,本实施例完成了频谱池的构建,进而执行步骤2。
建立一个集合M以存放已被访问过的状态-动作对。若状态-动作对在之前的时隙被访问,则将该状态-动作对添加到集合M中。
在任一时隙,通信设备以概率ε根据Q表选取当前状态下,Q值最大的动作作为本时隙接入的频点。
在任一时隙,通信设备以概率1 - ε随机选取一个动作,与当前通信设备所处的状态构成状态-动作对。若该状态-动作对不包含于集合M中,则通信设备选择随机动作作为本时隙接入的频点;若该状态-动作对包含于集合M中,则根据Q表选取当前状态下,Q值最大的动作作为本时隙接入的频点。以Qk,t(sk,t, ak,t)表示t时隙通信设备k在状态sk,t下选取动作ak,t的Q值,其计算结果为数据样本特征的特征向量与权重系数的乘积。以
Figure 836245DEST_PATH_IMAGE039
表示数据样本特征
Figure 320316DEST_PATH_IMAGE040
的特征向量,以
Figure 851792DEST_PATH_IMAGE041
表示t时隙第k个用频设备的权重系数,则Q值的计算满足下述计算公式:
Figure 54103DEST_PATH_IMAGE042
进而动作ak,t的选取符合下述公式:
Figure 962016DEST_PATH_IMAGE043
至此,完成动作选择后,执行步骤3。发射机连入所选择的频点,发送数据包,在接收机处获取接收到的信号,通信用频设备根据接收设备处是否能成功译码来判定用频设备是否接入未被干扰的频点作为工作频点。若通信用户k接入频谱态势为vk,j,t = 0的频点,则rk,t = r1,若通信用户k接入频谱态势为vk,j,t = 1的频点,则rk,t = r2,其中r1和r2分别为通信设备k成功接入未被干扰的频点作为工作频点和未成功接入未被干扰的频点作为工作频点的回报参数。
得到瞬时回报后,执行步骤4:基于步骤1,步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况,计算状态-动作值函数,即Q值。具体执行流程如下:
步骤4.1:创建字典集合Dk,t用以存放当前环境的特征信息,即获取状态-动作对样本数据存入字典中。Dk,t是一个包含了Lt个状态动作对的字典,并且字典Dk,t中状态动作对及其对应的权重系数是需要进行不断的学习和更新的。
步骤4.2:使用基于ALD的在线内核稀疏方法对字典进行更新:
首先定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值。定义t时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值,以
Figure 707118DEST_PATH_IMAGE044
表示这一差值,根据上述定义,该差值的计算满足下述公式:
Figure 770014DEST_PATH_IMAGE045
其次,定义当前数据样本与字典内元素的差值函数阈值μ。
最后,判断计算所得
Figure 600567DEST_PATH_IMAGE044
与所定义的差值函数阈值μ的大小关系,如果差值大于阈值,则将当前的样本加入到字典集合中;若差值小于阈值,则维持当前的字典集合不变。
步骤4.3:求解当前时隙的数据样本特征关于字典中每一个元素的核函数,核函数计算结果为当前时隙用频设备观察到的状态和选择的动作分别关于当前时隙字典Dk,t中存储的状态和动作的数据样本特征的高斯核函数的乘积:
Figure 46592DEST_PATH_IMAGE046
其中
Figure 505255DEST_PATH_IMAGE047
是t时隙字典Dk,t中的状态动作对,即当前时隙字典Dk,t中存储的特征,而数据样本的特征
Figure 378533DEST_PATH_IMAGE048
代表当前时隙用频设备观察到的状态和选择的动作。
步骤4.4:根据更新字典中每一个元素的权重系数,包括:
Figure 430803DEST_PATH_IMAGE024
Figure 539573DEST_PATH_IMAGE049
分别表示用频用户k在t时隙和t+1时隙的状态;
Figure 259268DEST_PATH_IMAGE026
Figure 303447DEST_PATH_IMAGE050
分别表示用频用户k在t时隙和t+1时隙的动作选择情况;
Figure 967646DEST_PATH_IMAGE030
表示用频用户k在t时隙所处的状态下执行动作选择后所获取的瞬时回报;
Figure 755474DEST_PATH_IMAGE006
表示折扣系数;
Figure 64095DEST_PATH_IMAGE051
表示核函数。
权重系数的更新使用了迭代的方法,定义下一时隙的权重系数(记作
Figure 902345DEST_PATH_IMAGE052
)等于本时隙权重系数(记作
Figure 929207DEST_PATH_IMAGE041
)与本时隙下的权重系数增量(记作
Figure 255146DEST_PATH_IMAGE053
)之和。即权重系数的更新满足下式:
Figure 542908DEST_PATH_IMAGE054
其中本时隙下的权重系数增量为本时隙下的状态-动作对的值函数的增量(记作
Figure 928890DEST_PATH_IMAGE055
)与核函数(记作
Figure 708627DEST_PATH_IMAGE056
)及学习速率(记作ϒ)的乘积。即本时隙下的权重系数增量的更新满足下式:
Figure 697312DEST_PATH_IMAGE014
本时隙下的状态-动作对的值函数的增量等于本时隙用频用户k在t时隙执行动作选择后所获得的瞬时回报(记作
Figure 980525DEST_PATH_IMAGE030
)、负的本时隙状态-动作对的值函数(记作
Figure 662042DEST_PATH_IMAGE015
)与执行Q值最大的动作后所观察到的状态-动作对的值函数(记作
Figure 663497DEST_PATH_IMAGE057
三项的和。即本时隙下的状态-动作对的值函数增量的更新满足下述公式:
Figure 596817DEST_PATH_IMAGE058
因此,权重系数的更新满足下述公式:
Figure 95057DEST_PATH_IMAGE059
步骤4.5:将步骤4.3所求得的核函数(记作
Figure 88421DEST_PATH_IMAGE060
)和步骤4.4所求得的对应元素的权重系数(记作
Figure 577171DEST_PATH_IMAGE061
)相乘并求和得到当前时隙状态-动作值函数。即t时隙第k个用频设备的状态-动作对的值函数的更新满足下式:
Figure 48604DEST_PATH_IMAGE062
至此,我们完成了存储环境特征的字典集合的更新和状态-动作值函数的计算。算法通过重复执行上述步骤直至算法收敛,由此习得环境中的干扰规律,获得当前干扰环境下的最优资源分配决策。
当环境中的干扰模式发生改变时,通信用户会被接入被干扰的频点作为工作频点,得到用频用户被接入被干扰频点的瞬时回报参数,进而影响字典集合内各元素的权重系数,进而影响当前样本的特征向量与当前字典中样本特征向量的期望之间的差值函数,当该差值函数大于一定的阈值后,当前数据样本特征被作为全新的环境样本特征加入字典集合,由此算法习得全新的干扰模式,重新得到最优频点分配决策。
本实施例中,通信用户不断重复上述流程,以实现在线动态监测环境信息,实时做出抗干扰频点分配决策的功能。
实施例二:
结合图1,本发明提供了一种基于在线学习的抗干扰频点分配方法,该方法使用了基于核函数的强化学习方法,包含下述步骤:
步骤1:在线获取用频设备的各个可用频点在过去一段时间内的频谱态势作为用频设备当前的状态,并以此构建频谱池。
步骤2:用频设备进行动作选择,在所有可用频点中选择用于进行数据传输的频点。
步骤3:发射机发送数据包,在接收机处获取接收到的信号,得到动作选择的瞬时回报值。
步骤4:基于步骤1,步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况,计算状态-动作值函数,即Q值。
步骤5:在下一时隙重复上述步骤1-步骤4直至算法收敛,此时动作选择决策即为抗干扰频点分配最优决策。
本实施例应用于雷达用频设备的频点分配问题。
雷达用频设备通过频率捷变来避开外部的未知干扰源,捷变频雷达的频率捷变技术主要通过干扰分析与频率选择系统(Jamming Analysis Transmission Selection,JATS)来实现的。雷达信号通常是窄带的、带通的、相位或频率调制的函数,这意味着单个散射体的回波波形
Figure 165464DEST_PATH_IMAGE063
。其中,幅度调制A(t)仅仅表示脉冲的包络。接收到的信号被分离到两个通道,其中一个通道称为同相通道(I通道),另一个通道称为正交通道(Q通道)。在经过混频和低通滤波后,等式(1)中的回波信号可以表示为:
Figure 329729DEST_PATH_IMAGE064
首先执行步骤1。
在该系统内,雷达设备的频谱池由前y个时隙的可用频点和邻频点的频谱态势组成。捷变频雷达对可用频段内的可用频点进行频谱的实时分析,来获得可用频段的干扰状态,它在每个时隙对雷达设备可用频点的幅度进行实时监测,单个可用频点处的信号幅度可以表示为回波信号的模,即对回波信号中的同向通道部分信号的幅度和正交通道部分信号的幅度分别取平方,再求和,最后做开方运算。以gk,j,t表示t时隙雷达设备k的第j个可用频点的幅度值,Ik,j,t表示t时隙雷达设备k的第j个可用频点的同相通道信号的幅度值,Qk,j,t表示t时隙雷达设备k的第j个可用频点的正交通道信号的幅度值,则gk,j,t的计算满足下式:
Figure 899251DEST_PATH_IMAGE065
设定干扰门限gth,若gk,j,t ≤ gth,则该频点未被干扰,反之gk,j,t ≥ gth,则该频点被干扰。对每个可用频点,用1表示该频点受到干扰,用0表示该频点未受到干扰。
在t-1时隙,用雷达设备对当前时隙的可用频点和邻频点进行感知,获得对应频点的频谱态势集合vk,t-1 = (vk,1,t-1,… , vk,j,t-1),其中j为可用频点和邻频点的数目总和。随着雷达设备在每个时隙对可用频点和邻频点进行感知,获得t-y时隙到t-1时隙内对应频点的频谱态势,进而构成了雷达设备k的频谱池,随着时隙的增加,雷达设备不断更新频谱池中的频谱态势。
至此,本实施例完成了频谱池的构建,进而执行步骤2。
建立一个集合M以存放已被访问过的状态-动作对。若状态-动作对在之前的时隙被访问,则将该状态-动作对添加到集合M中。
在任一时隙,通信设备以概率ε根据Q表选取当前状态下,Q值最大的动作作为本时隙接入的频点。
在任一时隙,通信设备以概率1 - ε随机选取一个动作,与当前通信设备所处的状态构成状态-动作对。若该状态-动作对不包含于集合M中,则通信设备选择随机动作作为本时隙接入的频点;若该状态-动作对包含于集合M中,则根据Q表选取当前状态下,Q值最大的动作作为本时隙接入的频点。以Qk,t(sk,t, ak,t)表示t时隙通信设备k在状态sk,t下选取动作ak,t的Q值,其计算结果为数据样本特征的特征向量与权重系数的乘积。以
Figure 174375DEST_PATH_IMAGE039
表示数据样本特征
Figure 552266DEST_PATH_IMAGE040
的特征向量,以
Figure 480908DEST_PATH_IMAGE041
表示t时隙第k个用频设备的权重系数,则Q值的计算满足下述计算公式:
Figure 944250DEST_PATH_IMAGE066
进而动作ak,t的选取符合下述公式:
Figure 757486DEST_PATH_IMAGE067
至此,完成动作选择后,执行步骤3。发射机连入所选择的频点,发送数据包,在接收机处获取接收到的信号,定义r1和r2分别为雷达设备k成功接入未被干扰的频点作为工作频点和未成功接入未被干扰的频点作为工作频点的回报参数。若雷达用户k接入未被干扰的频点作为工作频点,则对应该频点的频谱态势为vk,j,t= 0,由此得到该雷达用频设备处得到的瞬时回报参数为雷达设备k成功接入未被干扰的频点作为工作频点的瞬时回报参数。若雷达用户k接入被干扰的频点作为工作频点,则对应该频点的频谱态势为vk,j,t = 1,由此得到该雷达用频设备处得到的瞬时回报参数为雷达设备k接入被干扰的频点作为工作频点的瞬时回报参数则。定义rk,t为该雷达用频设备t时隙的瞬时回报值,瞬时回报的更新满足下述公式:
Figure 989884DEST_PATH_IMAGE068
得到瞬时回报后,执行步骤4:基于步骤1,步骤2和步骤3中所获取的当前时隙的状态、动作选择及回报情况,计算状态-动作值函数,即Q值。具体实现方案与实施例一通信用频设备频点分配所使用的技术方案原理类似,在此不做赘述。
本实施例中,雷达用户不断重复上述流程,以实现在线动态监测环境信息,实时做出抗干扰频点分配决策的功能。
本发明所提出的基于在线学习的抗干扰频点分配方法使用了基于核函数强化学习技术,与传统基于Q学习的强化学习方法相比,本发明可以快速规避外部未知干扰源的干扰,接入未被干扰的频点作为工作频点,有效降低收敛时间并避免出现维度诅咒等问题,节约了计算资源。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于在线学习的抗干扰频点分配方法,其特征在于,所述分配方法包括:
用频用户在每个时隙开始时分配一个频点作为工作频点,不同用频用户使用不同频点作为工作频点;同时用频设备开始学习外部干扰源的干扰规律,至用频设备处的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输;
若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,用频用户得到接入被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输;
其中,所述频点分配算法基于核函数的强化学习方法,对干扰环境下的频点分配问题进行马尔可夫建模,以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数,对每一时隙的状态、动作选择及回报情况进行计算,得到状态-动作值函数,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策;
用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势,用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点,用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。
2.根据权利要求1所述的基于在线学习的抗干扰频点分配方法,其特征在于,所述频点分配算法包括以下步骤:
S1,在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池;
S2,用频设备采用改进的贪心算法,以最大化访问的状态-动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点;
S3,发射机发送数据包,在接收机处获取接收到的信号,得到动作选择的瞬时回报值,瞬时回报值是指某一时隙用频设备是否接入未被干扰的频点作为工作频点;
S4,基于步骤S1至S3中所获取的当前时隙的状态、动作选择及回报情况,计算状态-动作值函数,即Q值;
S5,在下一时隙重复上述步骤S1至S4,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策。
3.根据权利要求2所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S1中,所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池的过程包括以下步骤:
S11,在某一时隙t,对每个用频用户创建该用户的频谱态势向量:对每个可用频点,用1表示该频点受到干扰,用0表示该频点未受到干扰;
S12,对于每个用频用户,感知环境中若干时隙的频谱态势,由这若干个频谱态势向量构建包含时域和频域信息的二维矩阵,作为频谱池。
4.根据权利要求2所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S2中,所述用频设备采用改进的贪心算法,以最大化访问的状态-动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤:
S21,建立一个集合M以存放已被访问过的状态-动作对,若状态-动作对在之前的时隙被访问,则将该状态-动作对添加到集合M中;
S22,在任一时隙,用频设备以概率ε根据Q表选取当前状态下Q值最大的动作作为当前时隙接入的频点,以概率1 - ε随机选取一个动作,与当前用频设备所处的状态构成状态-动作对;
其中,当随机选取的动作构成的状态-动作对不包含于集合M中时,用频设备选择随机动作作为当前时隙接入的频点;当该状态-动作对包含于集合M中时,则根据Q表选取当前状态下,Q值最大的动作作为当前时隙接入的频点。
5.根据权利要求2所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S4中,所述计算状态-动作值函数的过程包括以下步骤:
S41,创建字典集合用以存放当前环境的特征信息,即获取状态-动作对样本数据存入字典中;
S42,采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新;
S43,求解当前时隙的数据样本特征关于字典中每一个元素的核函数,核函数计算结果为当前时隙用频设备观察到的状态和选择的动作分别关于当前时隙字典中存储的状态和动作的数据样本特征的高斯核函数的乘积;
S44,根据当前时隙的状态、动作、瞬时回报更新字典中每一个元素的权重系数;
S45,将步骤S43所求得的核函数和步骤S44所求得的对应元素的权重系数相乘并求和得到当前时隙状态-动作值函数。
6.根据权利要求5所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S42中,所述采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的过程包括以下步骤:
S421,定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值,针对当前时隙的数据样本计算对应的差值;
S422,定义当前数据样本与字典内元素的差值函数阈值μ;
S423,判断步骤S421中计算所得差值与步骤S422中所定义的差值函数阈值的大小关系,如果计算所得差值大于差值函数阈值,则将当前数据样本加入到字典集合中;否则,维持当前的字典集合不变。
7.根据权利要求5所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S44中,采用迭代方法,根据当前时隙的状态、动作、瞬时回报,通过定义下一时隙的权重系数等于当前时隙权重系数与当前时隙下的权重系数增量之和以更新字典中每一个元素的权重系数;其中,当前时隙下的权重系数增量等于当前时隙下的状态-动作对的值函数的增量核函数及学习速率的乘积;当前时隙下的状态-动作对的值函数的增量等于当前时隙的瞬时回报、负的当前时隙状态-动作对的值函数与执行Q值最大的动作后所观察到的状态-动作对的值函数三项的和。
CN202110283758.0A 2021-03-17 2021-03-17 一种基于在线学习的抗干扰频点分配方法 Active CN112672426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110283758.0A CN112672426B (zh) 2021-03-17 2021-03-17 一种基于在线学习的抗干扰频点分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110283758.0A CN112672426B (zh) 2021-03-17 2021-03-17 一种基于在线学习的抗干扰频点分配方法

Publications (2)

Publication Number Publication Date
CN112672426A true CN112672426A (zh) 2021-04-16
CN112672426B CN112672426B (zh) 2021-06-29

Family

ID=75399611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110283758.0A Active CN112672426B (zh) 2021-03-17 2021-03-17 一种基于在线学习的抗干扰频点分配方法

Country Status (1)

Country Link
CN (1) CN112672426B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221903A (zh) * 2022-09-19 2022-10-21 东集技术股份有限公司 一种rfid识读方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130122819A1 (en) * 2011-11-10 2013-05-16 Toyota Infotechnology Center Co., Ltd. Optimizing Dynamic Spectrum Access
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN111970072A (zh) * 2020-07-01 2020-11-20 中国人民解放军陆军工程大学 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130122819A1 (en) * 2011-11-10 2013-05-16 Toyota Infotechnology Center Co., Ltd. Optimizing Dynamic Spectrum Access
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN111970072A (zh) * 2020-07-01 2020-11-20 中国人民解放军陆军工程大学 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOAN HAN: "TWO-DIMENSIONAL ANTI-JAMMING COMMUNICATION BASED ON DEEP REINFORCEMENT LEARNING", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》 *
XIN GUAN, YANG HUANG,CHAO DONG,QIHUI WU: "User Association and Power Allocation for UAV-Assisted Learning Approach", 《CHINA COMMUNICATION》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221903A (zh) * 2022-09-19 2022-10-21 东集技术股份有限公司 一种rfid识读方法和设备
CN115221903B (zh) * 2022-09-19 2022-11-29 东集技术股份有限公司 一种rfid识读方法和设备

Also Published As

Publication number Publication date
CN112672426B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
Liu et al. Anti-jamming communications using spectrum waterfall: A deep reinforcement learning approach
CN111866954B (zh) 一种基于联邦学习的用户选择和资源分配方法
CN111182637B (zh) 一种基于生成对抗强化学习的无线网络资源分配方法
CN111726217A (zh) 基于深度强化学习的宽带无线通信自主选频方法及系统
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN101321388B (zh) 一种基于博弈论的认知无线电网络fdm信道选择方法
Han et al. Joint resource allocation in underwater acoustic communication networks: A game-based hierarchical adversarial multiplayer multiarmed bandit algorithm
CN112672426B (zh) 一种基于在线学习的抗干扰频点分配方法
Yu et al. Multi-agent Q-learning algorithm for dynamic power and rate allocation in LoRa networks
Thornton et al. Efficient online learning for cognitive radar-cellular coexistence via contextual thompson sampling
Huang et al. A DRL-based automated algorithm selection framework for cross-layer QoS-aware scheduling and antenna allocation in massive MIMO systems
CN109743780A (zh) 信道选择和传输时间联合优化的分层强化学习抗干扰算法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Karmakar et al. SmartBond: A deep probabilistic machinery for smart channel bonding in IEEE 802.11 ac
Song et al. Federated dynamic spectrum access through multi-agent deep reinforcement learning
CN115276858A (zh) 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
Eskandari et al. Smart Interference Management xApp using Deep Reinforcement Learning
Akter et al. Modeling and forecasting secondary user activity in cognitive radio networks
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
Reena Raj et al. Chaotic sequence‐based MC‐CDMA for 5G
CN115913486A (zh) 信息上报方法、装置、终端及可读存储介质
Menard et al. Distributed Resource Allocation In 5g Networks With Multi-Agent Reinforcement Learning
Guan et al. Deep reinforcement learning based efficient access scheduling algorithm with an adaptive number of devices for federated learning IoT systems
Wang et al. Network association for cognitive communication and radar co-systems: A POMDP formulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant