CN114978388B - 一种无人机时频域联合认知抗干扰智能决策方法 - Google Patents
一种无人机时频域联合认知抗干扰智能决策方法 Download PDFInfo
- Publication number
- CN114978388B CN114978388B CN202210541914.3A CN202210541914A CN114978388B CN 114978388 B CN114978388 B CN 114978388B CN 202210541914 A CN202210541914 A CN 202210541914A CN 114978388 B CN114978388 B CN 114978388B
- Authority
- CN
- China
- Prior art keywords
- channel
- aerial vehicle
- unmanned aerial
- transmission
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000019771 cognition Effects 0.000 title claims description 12
- 230000005540 biological transmission Effects 0.000 claims abstract description 82
- 230000009471 action Effects 0.000 claims abstract description 38
- 230000006854 communication Effects 0.000 claims abstract description 28
- 238000004891 communication Methods 0.000 claims abstract description 27
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000008054 signal transmission Effects 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 abstract description 7
- 238000005265 energy consumption Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 4
- 235000008694 Humulus lupulus Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种无人机时频域联合认知抗干扰智能决策方法,包括:根据无人机通信信道模型与干扰机信道模型,确定时隙传输结构;通过动态深度双Q学习网络模型D‑DDQN获取无人机当前状态下一步动作;将动态深度双Q学习网络模型进行迭代更新,得到最大Q值对应的最佳传输信道和传输时长。本发明在频域上通过贪婪因子动态变化,优化更新策略,再对存放在经验池的数据进行动态监督,最大程度破除数据关联性,在频域上改善算法收敛速度;在时域上,将网络跳转信道时间进行实时更新,减少用户在不同信道间的不必要跳转,从而减少多余的能量消耗,保证较低的时延,提高了信道利用率。
Description
技术领域
本发明涉及无人机通信抗干扰技术领域,具体涉及一种无人机时频域联合认知抗干扰智能决策方法。
背景技术
无人机通信环境面临智能性干扰的情况下,要确保信息安全可靠的进行传输成为一项挑战,因此无人机通信系统抗干扰研究至关重要。为了有效对抗智能干扰,提高无人机系统通信质量,目前研究热点方向为无人机认知抗干扰。
认知抗干扰主要通过智能决策算法对抗智能干扰,智能决策算法大致有两类:一类基于功率域抗干扰,智能体的发射功率可以根据干扰方发射功率进行调整来应对攻击。在干扰功率不大的情况下,基于博弈理论,根据博弈双方的竞争关系,建立认知抗干扰网络模型,求出博弈均衡,获得用户最佳发射功率。另一类是基于频域抗干扰,利用强化学习选择安全信道,规避干扰信道,信道选择方法主要是基于Q学习(Q learning,QL),虽然提高了数据传输安全容量,但算法收敛速度较慢。在此基础上衍生出深度强化学习,一是利用深度Q网络(Deep Q Network,DQN)选择安全信道,累计奖励值高于QL算法,但是DQN由于Q值估计过高导致收敛速度减慢、估值失真。二是基于演员-评论员(Actor-Critic,AC)算法选择安全信道,但该算法的Actor与Critic网络实时更新数据,导致两个网络依赖性较强,算法稳定性较低。
发明内容
本发明的目的在于,提供一种无人机时频域联合认知抗干扰智能决策方法,该方法收敛速度更快,增加了通信容量,提高了决策成功率,优化了通信系统性能。
为实现上述目的,本申请提出一种无人机时频域联合认知抗干扰智能决策方法,包括:
根据无人机通信信道模型与干扰机信道模型,确定时隙传输结构;
通过动态深度双Q学习网络模型D-DDQN获取无人机当前状态(当前所处的传输信道和传输时长)和下一步动作(要选择的传输信道和传输时长);
将动态深度双Q学习网络模型进行迭代更新,得到最大Q值对应的最佳传输信道和传输时长。
进一步的,根据无人机通信信道模型与干扰机信道模型,确定时隙传输结构,具体为:
如图1所示,设置发送端和接收端之间一共有M个信道,每个信道有L个不同的传输时间,所述传输时间等级集合为L={l1,l2,...,lL},根据无人机当前信道状态s选择传输等级;
如图2所示,获取时隙传输结构,其包括干扰时长Tj,无人机的传输时长Tu,ACK传输的时间长度TACK,能量检测时长Twbss;在通信开始时隙k0中,无人机根据获取的原始频谱信息随机选择动作a0,a0=(f0,l0),其中f0为动作a0对应的传输信道,l0为动作a0对应的传输时间;接收端接收数据完成后,得到该过程的奖励值r0;
进一步的,接收端进行能量检测得到信道干扰信息,根据该信道干扰信息进行动态深度双Q学习网络模型学习,确定时隙k1要选择的动作a1,a1=(f1,l1),并更新参数权值θk;然后接收端在时间长度TACK内发送ACK信号将判决信息反馈给无人机发射端。
进一步的,所述动态深度双Q学习网络模型D-DDQN获取方式为:
建立DDQN网络,如图3所示,设置初始状态s0,并根据输入的干扰信息,决策下一歩要选择的传输动作ak+1,此时时隙k的状态表示为sk,状态sk的估计Q(sk,ak+1;θk)值由估值神经网络输出,以此选择最大Q值对应的动作;状态sk的目标值由目标神经网络输出,用来评估最优动作对应的Q值,达到避免发散的目的。其中,θk和θk -分别代表第k歩时估值神经网络和目标神经网络的权值参数;
在DDQN网络更新过程中,根据歩数与当前奖励值改变贪婪因子ε的值,形成D-DDQN网络模型,具体为:在选择动作a的过程中,根据来选择最大Q值所对应的动作时,增加选择对应动作的概率值;选择其他动作时,减少选择对应动作的概率值;其中x表示在0~1内随机生成数,ε代表贪婪因子,所述贪婪因子根据奖励值与歩数动态改变,形成动态ε更新策略:/>其中εk-1代表上一时隙的贪婪因子,rm代表奖励,ε初始化为1,每次迭代后,ε相应动态调整一次,直到ε减少到0;若前一歩受到干扰,那么rm≤0,减少ε值,降低策略的随机性,加快算法的收敛速度;若前一歩安全传输,那么rm≥0,则ε值不变,原有的随机性继续保持。通过此动态更新策略,ak到ak+1的过程收敛速度更快。
更进一步的,将前一歩的经验样本ek=(sk,ak+1,r(sk,ak+1),sk+1)存放在经验池E中,ek=(sk,ak+1,r(sk,ak+1),sk+1)表示在第k歩状态为sk时采取动作ak+1到达状态sk+1,并且该时刻奖励为r(sk,ak+1),可以为后面的学习提供借鉴数据;在更新参数权值θk时,从经验池E中随机抽取批量经验样本e更新D-DDQN网络,提升样本利用率、破除相邻数据相关性。
更进一步的,所述动态深度双Q学习网络模型D-DDQN更新过程的误差函数为:
其中:γ代表折扣因子,且γ∈(0,1);通过对估值神经网络进行更新,并且通过/>同步每G歩的网络参数。
更进一步的,得到最大Q值对应的最佳传输信道和传输时长具体方式为:
定义当前M个信道状态s为1表示信道在当前时刻与干扰信号产生冲突,为0表示没有与干扰信号产生冲突;将发射端在第k个时隙状态sk下完成的动作选择表示为ak=(fk,lk),其中fk是第k个时隙的传输信道,lk是第k个时隙的传输时间等级且满足l={1,2,...,L},动作空间大小定义为M×L;且传输信道集合表示为A={a1,a2,a3,...,an},ak∈A,为无人机提供下一时隙动作选择集合。
通过最大奖励值来选择对应动作,第k个时隙的状态sk中执行动作ak的奖励值通过Rk=r(s,a,k)表示;最大奖励值根据无人机的通信以及切换信道的效用值表示。
更进一步的,无人机的通信以及切换信道的效用值获取方式为:首先获取无人机接收端信噪比:
其中,ft代表传输信号在t时刻的中心频率,ft j代表干扰信号在t时刻的中心频率,n(f)表高斯白噪声功率谱密度函数PSD,代表干扰信号功率谱密度函数PSD,pu代表信号传输功率,gt代表传输信道增益,gj代表干扰信道增益;
其次获取无人机切换信道效用值,如下所示:
其中,μ(ft,ft j)表示传输过程是否成功;
更换安全信道的开销为:其中,c代表信道切换系数,a(t)代表用户在t时刻采取的动作;
无人机优化目标是通过最大化累计效用值来选择抗干扰策略如下式所示:其中,γ代表折扣因子,且γ∈(0,1);
上述方法通过效用值最大化来更新D-DDQN网络,从状态sk选择动作ak到达状态sk+1。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:
(1)在频域上通过贪婪因子动态变化,优化更新策略,再对存放在经验池的数据进行动态监督,最大程度破除数据关联性,在频域上改善算法收敛速度;
(2)在时域上,将网络跳转信道时间进行实时更新,减少用户在不同信道间的不必要跳转,从而减少多余的能量消耗,保证较低的时延,提高了信道利用率。
(3)通过时频域联合认知抗干扰,提高无人机单个节点的收敛速度和收敛稳定性,节省通信时长,提高通信安全容量和决策成功率。
附图说明
图1为本发明实施例的无人机系统模型图;
图2为本发明实施例的无人机数据传输时隙图;
图3为本发明实施例的D-DDQN算法结构图;
图4为本发明实施例的整体流程图;
图5为本发明实施例的详细流程图;
图6为本发明实施例的信号信道内传输干扰示意图;
图7为本发明实施例不同传输时间下不同方法效用值的对比结果图;
图8为本发明实施例的通信安全容量对比结果图;
图9为本发明实施例的稳定性对比结果图;
图10为本发明实施例的智能决策成功率对比结果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
实施例1
本发明首先改进深度双Q网络(Deep Double Q Network,DDQN)算法中贪婪算法ε更新机制,进行动态深度双Q学习(Dynamic-Deep Double Q Learning,D-DDQN)智能决策,以加快算法收敛速度;其次,针对时频域联合的角度,在通信传输时隙内根据信道实际受到干扰情况,实时改变传输持续时间,提高信道利用;如图5所示,具体实现步骤可以为:
S1.建立估值神经网络和目标神经网络,初始化权值参数θk;令θk=θk -,经验池为E,设置总歩数为Z;
S2.建立信道模型,随机选择通信传输信道和传输时长;
S3.k≤Z时,重复执行S4~S10;
S4.获得信道状态集合Sk;
S5.根据更新ε值;
S6.根据D-DDQN模型选择下一歩传输信道和传输时长ak+1;
S7.根据奖励值r(sk,ak+1),获取下一步的信道状态集合Sk+1;
S8.将经验样本ek=(sk,ak+1,r(sk,ak+1),sk+1)存入经验池E中;
S9.从经验池E中随机选取经验样本NB个,更新θk;
S10.每经过G歩,θk=θk -;
S11.k>Z时,迭代结束,得到最优解。
在S2中,具体信道模型建立如下:在通信过程中,接收端根据能量检测感知干扰信息对安全传输信道和传输时间进行决策,然后将上一步完成的决策信息以确认字符(Acknowledge character,ACK)的形式送回发射端,表示确认接收到正确决策成功通信;然后无人机发射端根据新的传输策略在下一个时隙进行通信。
假设传输信道M=5,传输时间长度等级L=4,状态和动作时频传输如图6所示:横轴代表频率,竖轴代表时隙。在第k-1个时隙信道状态为[01100];因为信道1足够安全,所以从k-2个时隙进入k-1个时隙时可从信道5跳转到信道1,持续传输较长时间,由于信道1在k时隙依然没有干扰,那么传输可以在两个时隙都保持成功,此时奖励最大;如果k-2跳转到k-1时选择信道4,那么持续传输时间等级依然保持最大,但在传输之后若不立即进行信道跳转就会受到干扰,即使下个时隙进行信道跳转也会消耗转换信道的能量。
为体现本发明的优势,将本发明所提出的无人机时频域联合认知抗干扰(Time-Frequency Domain Joint Cognitive Anti-Jamming,TFDJ-AJ)智能决策方法与强化学习抗干扰(Q LearningAnti-Jamming,QL-AJ)方法、深度Q网络抗干扰(Deep Q Network Anti-Jamming,DQN-AJ)方法、演员评论家抗干扰(Actor-CriticAnti-Jamming,AC-AJ)方法对比,对系统获得效用值、通信安全容量、决策成功率、状态均方误差指标进行仿真,从不同角度验证了各方法的综合性能。
具体参数设置如下:经验池容量大小为NE=10000。小批量经验样本NB=32。设定传输带宽bu为5MHz,那么信道个数M=16。设定干扰机的干扰模式有四种,一是扫频干扰,每个传输时隙扫频带宽为500kHz;二是梳状谱干扰,每个传输时隙选择8个干扰谱,每个干扰谱带宽为1MHz;三是左右扫频干扰,每个频带上的干扰带宽为250kHZ;四是智能型干扰,为以上四种干扰每间隔20个传输时隙随机切换的一种。
仿真所用参数如表1所示:
表1仿真参数
各方法不同传输时间下智能决策获得效用值的比较结果如图7所示,效用值根据不同的时间设定变化较大,因为持续传输时间较长会增加系统受干扰的可能,持续传输时间较短会加剧传输能量的消耗,实际应用中干扰机随机变化干扰策略,很难确定一个最佳持续传输时间。同样在D-DDQN架构下,持续传输时间的不同,智能决策方法到达效用值限值的收敛速度是大致相同的,但TFDJ-AJ算法由于自适应的选择持续传输时长,避免了频繁切换信道造成的能量损失,效用值表现最佳。
图8表示在时频联合基础下4种决策方法的通信安全容量;无人机通信有M个子信道,总带宽为B,那么每个子信道均分为b,由可以求得传输过程中的通信安全容量Csec如下:
由图8可知,提出的TFDJ-AJ算法要优于DQN-AJ与AC-AJ以及QL-AJ算法。TFDJ-AJ算法采用DDQN的架构,目标值神经网络和估计值神经网络分别更新,与使用深度强化的DQN-AJ算法和未使用网络的QL-AJ算法相比,其算法收敛速度有明显的提升,通信安全容量提高;同AC-AJ算法相比,虽然AC-AJ算法可以同时实现值函数的估计和动作的选择,但是对于Actor和Critic网络之间的依赖性太强,收敛速度尽管有所提升,但网络稳定性较差。TFDJ-AJ算法利用动态ε更新策略将原本的贪婪策略进行改进,增强了全局寻优的能力,得到的数据可靠性更高,通信安全容量较AC-AJ算法提高了15%左右。
定义单个状态s的均方价值误差 它表示近似价值函数Vθ(s)与真实Csec(s)差的平方。其中,|S|为信道系统状态的个数。
图9表示4种决策算法在10000歩下,每一百歩的值:经过训练,DQN-AJ虽然相较于QL-AJ有明显提升,但是由于其Q值估计过高,不如AC-AJ算法。TFDJ-AJ算法既改善了DQN的缺点又增加了全局寻优能力,相较于AC-AJ算法更为稳定,最后得到的/>值更小,验证了所提方法的稳定性。
图10表示基于不同贪婪策略更新的决策算法在前10000歩下决策成功率:在设定不同的贪婪因子情况下,在前2000歩左右,基于D-DDQN的TFDJ-AJ算法低于利用固定ε值进行策略更新的决策成功率,这是因为算法动态调整ε值,前期具有较强的随机性,成功率相对较低,但是收敛速度加快。在固定ε值的决策下,随着ε值逐渐增大,收敛后的平均决策成功率逐渐降低,而在3000歩之后,利用动态ε更新策略的D-DDQN算法性能提升至95%以上,这再次证明了D-DDQN策略较好的性能。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (7)
1.一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,包括:
根据无人机通信信道模型与干扰机信道模型,确定时隙传输结构;
通过动态深度双Q学习网络模型D-DDQN获取无人机当前状态和下一步动作;
将动态深度双Q学习网络模型进行迭代更新,得到最大Q值对应的最佳传输信道和传输时长;
所述动态深度双Q学习网络模型D-DDQN获取方式为:
建立DDQN网络,设置初始状态s0,并根据输入的干扰信息,决策下一歩要选择的传输动作ak+1,此时时隙k的状态表示为sk,状态sk的估计Q(sk,ak+1;θk)值由估值神经网络输出,以此选择最大Q值对应的动作;状态sk的目标值由目标神经网络输出,用来评估最优动作对应的Q值,其中θk和θk -分别代表第k歩时估值神经网络和目标神经网络的权值参数;
在DDQN网络更新过程中,根据歩数与当前奖励值改变贪婪因子ε的值,形成D-DDQN网络模型,具体为:在选择动作a的过程中,根据来选择最大Q值所对应的动作时,增加选择对应动作的概率值;选择其他动作时,减少选择对应动作的概率值;其中x表示在0~1内随机生成数,ε代表贪婪因子,所述贪婪因子根据奖励值与歩数动态改变,形成动态ε更新策略:/>其中εk-1代表上一时隙的贪婪因子,rm代表奖励,ε初始化为1,每次迭代后,ε相应动态调整一次,直到ε减少到0;若前一歩受到干扰,那么rm≤0,减少ε值;若前一歩安全传输,那么rm≥0,则ε值不变。
2.根据权利要求1所述一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,根据无人机通信信道模型与干扰机信道模型,确定时隙传输结构,具体为:
设置发送端和接收端之间一共有M个信道,每个信道有L个不同的传输时间,所述传输时间等级集合为L={l1,l2,...,lL},根据无人机当前信道状态s选择传输等级;
获取时隙传输结构,其包括干扰时长Tj,无人机的传输时长Tu,ACK传输的时间长度TACK,能量检测时长Twbss;在通信开始时隙k0中,无人机根据获取的原始频谱信息随机选择动作a0,a0=(f0,l0),其中f0为动作a0对应的传输信道,l0为动作a0对应的传输时间;接收端接收数据完成后,得到奖励值r0。
3.根据权利要求2所述一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,接收端进行能量检测得到信道干扰信息,根据该信道干扰信息进行动态深度双Q学习网络模型学习,确定时隙k1要选择的动作a1,a1=(f1,l1),并更新参数权值θk;然后接收端在时间长度TACK内发送ACK信号将判决信息反馈给无人机发射端。
4.根据权利要求1所述一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,将前一歩的经验样本ek=(sk,ak+1,r(sk,ak+1),sk+1)存放在经验池E中,ek=(sk,ak+1,r(sk,ak+1),sk+1)表示在第k歩状态为sk时采取动作ak+1到达状态sk+1,并且该第k歩奖励为r(sk,ak+1);在更新参数权值θk时,从经验池E中随机抽取批量经验样本e更新D-DDQN网络。
5.根据权利要求4所述一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,所述动态深度双Q学习网络模型D-DDQN更新过程的误差函数为:
其中:γ代表折扣因子,且γ∈(0,1);通过对估值神经网络进行更新,并且通过/>k=nG(n=1,2,…)同步每G歩的网络参数。
6.根据权利要求1所述一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,得到最大Q值对应的最佳传输信道和传输时长具体方式为:
定义当前M个信道状态s为1表示信道在当前时刻与干扰信号产生冲突,为0表示没有与干扰信号产生冲突;将发射端在第k个时隙状态sk下完成的动作选择表示为ak=(fk,lk),其中fk是第k个时隙的传输信道,lk是第k个时隙的传输时间等级且满足l={1,2,...,L},动作空间大小定义为M×L;且传输信道集合表示为A={a1,a2,a3,...,an},ak∈A,为无人机提供下一时隙动作选择集合;
通过最大奖励值来选择对应动作,第k个时隙的状态sk中执行动作ak的奖励值通过Rk=r(s,a,k)表示;最大奖励值根据无人机的通信以及切换信道的效用值表示。
7.根据权利要求6所述一种无人机时频域联合认知抗干扰智能决策方法,其特征在于,无人机的通信以及切换信道的效用值获取方式为:首先获取无人机接收端信噪比:
其中,ft代表传输信号在t时刻的中心频率,ft j代表干扰信号在t时刻的中心频率,n(f)表高斯白噪声功率谱密度函数PSD,代表干扰信号功率谱密度函数PSD,pu代表信号传输功率,gt代表传输信道增益,gj代表干扰信道增益;
其次获取无人机切换信道效用值,如下所示:
其中,μ(ft,ft j)表示传输过程是否成功;
更换安全信道的开销为:其中,c代表信道切换系数,a(t)代表用户在t时刻采取的动作;
无人机优化目标是通过最大化累计效用值来选择抗干扰策略如下式所示:其中,γ代表折扣因子,且γ∈(0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210541914.3A CN114978388B (zh) | 2022-05-18 | 2022-05-18 | 一种无人机时频域联合认知抗干扰智能决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210541914.3A CN114978388B (zh) | 2022-05-18 | 2022-05-18 | 一种无人机时频域联合认知抗干扰智能决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114978388A CN114978388A (zh) | 2022-08-30 |
CN114978388B true CN114978388B (zh) | 2023-11-07 |
Family
ID=82983382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210541914.3A Active CN114978388B (zh) | 2022-05-18 | 2022-05-18 | 一种无人机时频域联合认知抗干扰智能决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114978388B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117675054B (zh) * | 2024-02-02 | 2024-04-23 | 中国电子科技集团公司第十研究所 | 一种多域联合的抗干扰智能决策方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN110519020A (zh) * | 2019-08-13 | 2019-11-29 | 中国科学院计算技术研究所 | 无人系统网络智能跨层数据传输方法及系统 |
US10666342B1 (en) * | 2019-05-01 | 2020-05-26 | Qualcomm Incorporated | Beam management using adaptive learning |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
CN113169887A (zh) * | 2018-09-28 | 2021-07-23 | 诺基亚技术有限公司 | 基于来自无线电网络和时空传感器的数据的无线电网络自优化 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10136250B2 (en) * | 2015-09-02 | 2018-11-20 | Estimote Polska Sp. Z O. O. | System and method for lower power data routing |
US20200153535A1 (en) * | 2018-11-09 | 2020-05-14 | Bluecom Systems and Consulting LLC | Reinforcement learning based cognitive anti-jamming communications system and method |
-
2022
- 2022-05-18 CN CN202210541914.3A patent/CN114978388B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN113169887A (zh) * | 2018-09-28 | 2021-07-23 | 诺基亚技术有限公司 | 基于来自无线电网络和时空传感器的数据的无线电网络自优化 |
US10666342B1 (en) * | 2019-05-01 | 2020-05-26 | Qualcomm Incorporated | Beam management using adaptive learning |
CN110519020A (zh) * | 2019-08-13 | 2019-11-29 | 中国科学院计算技术研究所 | 无人系统网络智能跨层数据传输方法及系统 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
Non-Patent Citations (1)
Title |
---|
基于强化学习的功率与信道联合干扰方法研究;张双义;沈箬怡;陈学强;田华;张潇;杜吉庆;;通信技术(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114978388A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108777872B (zh) | 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统 | |
CN111726217B (zh) | 基于深度强化学习的宽带无线通信自主选频方法及系统 | |
CN108712748B (zh) | 一种基于强化学习的认知无线电抗干扰智能决策的方法 | |
CN109274456B (zh) | 一种基于强化学习的不完全信息智能抗干扰方法 | |
CN114978388B (zh) | 一种无人机时频域联合认知抗干扰智能决策方法 | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN113207127B (zh) | 一种noma系统中基于分层深度强化学习的动态频谱接入方法 | |
CN112468265B (zh) | 基于强化学习的无线局域网调制编码自适应选择方法及无线设备 | |
CN110336620A (zh) | 一种基于mac层公平接入的ql-uacw退避方法 | |
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
Ratcliffe et al. | Win or learn fast proximal policy optimisation | |
CN115567148A (zh) | 一种基于合作q学习的智能干扰方法 | |
Han et al. | Primary-user-friendly dynamic spectrum anti-jamming access: A GAN-enhanced deep reinforcement learning approach | |
CN113795050B (zh) | 一种基于Sum Tree采样的深度双Q网络动态功率控制方法 | |
CN116318520A (zh) | 一种干扰机的路径控制方法、装置、系统以及存储介质 | |
CN116866048A (zh) | 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法 | |
CN107018103A (zh) | 一种基于自适应步长猴群优化的小波常模盲均衡方法 | |
CN113890653B (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
CN116073856A (zh) | 一种基于深度确定性策略的跳频智能抗干扰决策方法 | |
CN116755046B (zh) | 一种不完美专家策略的多功能雷达干扰决策方法 | |
CN117750525B (zh) | 一种基于强化学习的频域抗干扰方法及系统 | |
Ye et al. | Power control based on deep Q network with modified reward function in cognitive networks | |
Zhao et al. | Deep Reinforcement Learning for the Joint AoI and Throughput Optimization of the Random Access System | |
CN117793913A (zh) | 一种动态频谱快速适配抗干扰方法、装置、系统及存储介质 | |
Ding et al. | Intelligent Anti-jamming Algorithm Based on Time-frequency Domain Joint |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |