CN114157345B - 一种基于数据辅助的无人机集群协同空域抗干扰方法 - Google Patents

一种基于数据辅助的无人机集群协同空域抗干扰方法 Download PDF

Info

Publication number
CN114157345B
CN114157345B CN202210118237.4A CN202210118237A CN114157345B CN 114157345 B CN114157345 B CN 114157345B CN 202210118237 A CN202210118237 A CN 202210118237A CN 114157345 B CN114157345 B CN 114157345B
Authority
CN
China
Prior art keywords
receiver
interference
vector
spatial spectrum
experience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210118237.4A
Other languages
English (en)
Other versions
CN114157345A (zh
Inventor
姚昌华
高泽郃
韩贵真
安蕾
程康
胡程程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210118237.4A priority Critical patent/CN114157345B/zh
Publication of CN114157345A publication Critical patent/CN114157345A/zh
Application granted granted Critical
Publication of CN114157345B publication Critical patent/CN114157345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/08Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station
    • H04B7/0837Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the receiving station using pre-detection combining
    • H04B7/0842Weighted combining
    • H04B7/086Weighted combining using weights depending on external parameters, e.g. direction of arrival [DOA], predetermined weights or beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于数据辅助的无人机集群协同空域抗干扰方法,包括:将接收机生成的滤波向量作为动作,生成动作集;以概率
Figure DEST_PATH_IMAGE002
从动作集中随机选择接收滤波向量,以概率
Figure DEST_PATH_IMAGE004
贪婪选择接收收益最大的滤波向量;感知当前空间谱,将每个时刻的空间谱导入动态空间谱;接收机通过接收波束成形向量处理接收到的信号,求取信号对应的信干噪比来获取通信速率奖励;将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机;从接收机中对经验进行随机批次采样,计算并更新权重。本发明能够提高接收无人机抗干扰性能。

Description

一种基于数据辅助的无人机集群协同空域抗干扰方法
技术领域
本发明涉及无人机集群系统智能优化技术领域,具体而言涉及一种基于数据辅助的无人机集群协同空域抗干扰方法。
背景技术
无人机发展面临的新威胁是无人机网络能够受到恶意干扰,这极大的增加了无人机正常运行,执行任务的风险。不同于基站等终端,无人机往往在远离其控制站点的地点执行任务,这使得它容易受到欺骗、干扰和窃听等攻击,导致重要信息丢失,甚至无法满足任务需求,任务中断。
现有大多数工作都是在讨论接收机和干扰机之间是连续实施干扰,接收机能够获取几乎所有干扰信道的信道状态信息。实际情况下接收机并不能知晓干扰信号所有的来波方向,因此不可能收集所有的干扰机动作数据。在数据缺少的情况下,接收机收集到的干扰机动作轨迹是不完整的,如果缺少一部分数据来进行数据分析,接收机不能每次都准确的估计干扰信道的信道状态信息,造成抗干扰决策训练的不充分。如果接收机缺失一部分干扰机动作数据,抗干扰性能必然会下降。
发明内容
本发明针对现有技术中的不足,提供一种基于数据辅助的无人机集群协同空域抗干扰方法,通过加入辅助无人机收集干扰信号的数据,间接补充接收无人机获得的干扰机动作数据,使接收机获得的干扰机动作数据增加,增大接收机准确估计干扰信道的信道状态信息的概率,提高接收无人机抗干扰性能。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明实施例提出了一种基于数据辅助的无人机集群协同空域抗干扰方法,所述抗干扰方法包括以下步骤:
S1,初始化生成Q网络和目标Q网络,将接收机生成的滤波向量作为动作,生成动作集;其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量;
S2,基于以下策略选择动作:以概率ε从动作集中随机选择接收滤波向量,以概率1-ε贪婪选择接收收益最大的滤波向量;ε为预设阈值限制,随学习过程推进逐渐减小;
S3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励;
S4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机;
S5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值;
S6,重复循环步骤S2至步骤S5。
进一步地,步骤S1,生成动作集的过程包括以下步骤:
S12,采用两个单独的神经网络分别生成Q网络Q(s,a;τ)和目标Q网络
Figure GDA0003568316260000021
目标Q网络
Figure GDA0003568316260000022
拥有与Q网络相同的网络结构;每次训练,根据损失函数的更新公式来更新Q网络中的参数,目标Q网络中的参数在训练过程中不变;每训练N次,复制Q网络中的参数更新一次目标Q网络;N为大于1的正整数;s是当前状态,τ是权重,a是当前状态所选的动作;
S12,将接收机生成的滤波向量作为动作,根据干扰信号到达方向角的变化来设定动作,根据MVBS抗干扰波束成形公式来生成接收机的滤波向量,动作集A的大小根据干扰信号到达方向角的范围而变化。
进一步地,步骤S12中,根据MVBS抗干扰波束成形公式来生成接收机的滤波向量的过程包括以下步骤:
S121,利用MIMO通信设计波束成形,使信号与干扰加噪声比SINR最大化:
Figure GDA0003568316260000023
s.t.||wt||=1;
通过使干扰和噪声功率最小来设计接收滤波向量f,再计算预编码向量wt,同时生成较优的收发信机滤波向量;t表示发送机,||·||表示欧几里得范数;
S122,对接收到的干扰信号数据进行处理,估计下一时刻干扰信道的瞬时信道状态信息;设发送无人机不工作时,接收机接收到干扰和噪声信号为yi=Hj,rwjzj+n;n是加性高斯白噪声矢量,其元素服从独立同分布、均值为0方差为
Figure GDA0003568316260000031
的复高斯分布;Hj,r是接收机与干扰机之间的信道,j表示干扰机,r表示接收机;xj=wjzj表示干扰信号;
Figure GDA0003568316260000032
为干扰方为提升干扰性能的预编码向量,C表示复数域,
Figure GDA0003568316260000033
为C的Nj×1次方,Nj表示干扰机的天线数,干扰机干扰功率限制||wj||=1,||·||表示欧几里得范数;zj表示为干扰符号;
S123,令
Figure GDA0003568316260000034
Pj表示干扰机的概率,I为单位向量,对干扰和噪声信号进行处理,Rj的估计结果表示为:
Figure GDA0003568316260000035
其中M为采样数,()H表示向量或矩阵的共轭转置;
S124,对Rj进行处理,分解为干扰子空间
Figure GDA0003568316260000036
和噪声子空间
Figure GDA0003568316260000037
Λj为干扰的特征值对角矩阵;
S125,通过添加以下条件来计算最优接收滤波向量,以减少对有用信号的抑制影响:
Figure GDA0003568316260000038
s.t.fHert,r)=1;
其中er为接收机的阵列响应向量,()H表示向量或矩阵的共轭转置,θt,r为发送机t到接收机r的到达方向角;
S126,将最优滤波向量表示为:
Figure GDA0003568316260000039
()-1表示矩阵的逆;对于通信方,假设收发信机之间通过信道估计知道它们之间的信道状态信息,求得估计的最优接收滤波向量,通过最大比传输方法来获得预编码向量,即
Figure GDA0003568316260000041
()H表示向量或矩阵的共轭转置,||·||表示欧几里得范数;对于干扰方,考虑干扰机已知其与接收机之间已知信道状态信息的最坏情况,并运用最大比传输方法以提高干扰效果;干扰机对接收机进行干扰,即
Figure GDA0003568316260000042
()H表示向量或矩阵的共轭转置,||·||表示欧几里得范数。
进一步地,步骤S3中,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱的过程包括以下步骤:
S301,将i时刻的空间谱表示为mi=[o1,o2,…,os]T,其中os为空间谱在角度为180*s/S度时的观测值,S为空间角度分辨率,()T表示向量或矩阵的转置;
S302,构建动态空间谱为si=Si=[mi,mi-1,…,mi-h+1]T,si是状态,Si为动态空间谱;动态空间谱Si的矩阵大小为h*S,h表示拥有h个时隙的空间谱数据,()T表示向量或矩阵的转置;在i+1时刻,i+1的空间谱mi+1进入动态空间谱,同时删除较早的空间谱。
进一步地,步骤S3中,接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励的过程包括以下步骤:
S311,将MIMO信号用物理信道模型来表示,接收机r到干扰机j的离开方向角和到达方向角分别用
Figure GDA0003568316260000043
和θr,j表示;接收机与干扰机之间的信道表示为:
Figure GDA0003568316260000044
其中μr,j为接收机与干扰机之间的路径损耗,dr,j为接收机与干扰机天线之间的距离,λc为载波波长;
发送机和接收机的天线阵列响应向量用
Figure GDA0003568316260000051
与ejr,j)表达:
Figure GDA0003568316260000052
Figure GDA0003568316260000053
其中Δr和Δj表示天线间隔距离,Nr和Nj分别为接收机和干扰机的天线数;
S312,在信号传输阶段,接收机接收到的信号表示为:
Figure GDA0003568316260000054
其中t为发送机,
Figure GDA0003568316260000055
表示为接收机期望接收到的有用信号,
Figure GDA0003568316260000056
表示为干扰信号,Pt表示接收机的功率,Pj表示干扰机的功率;xt=wtzt表示有用信号,wt为发送波束成形向量,对于发送机而言,其发送功率有限制||wt||=1;xj=wjzj表示干扰信号,
Figure GDA0003568316260000057
为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制||wj||=1;zt和zj分别表示为发送符号和干扰符号,限制均为E[|z|2]=1,E[·]表示期望函数,|·|表示标量的绝对值运算;n是加性高斯白噪声矢量;
S313,接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示:
Figure GDA0003568316260000058
接收端输出的信号与干扰噪声的比值SINR为:
Figure GDA0003568316260000061
其中,λ为解调门限,只有满足SINR>λ,接收机才能正确解调接收到的信号;
S314,令
Figure GDA0003568316260000062
I为单位向量,采用fHRjf表示接收机接收到的所有干扰和噪声信号;传输速率表示为:
Figure GDA0003568316260000063
进一步地,步骤S4中,采用辅助机中的辅助经验作为新的实时经验补充更新接收机的过程包括以下步骤:
S41,初始化经验池D,容量为|D|,通过ε-贪婪策略将其中部分经验填充至其中;初始化存放辅助经验的辅助机D1,容量为|D|,将未进入经验池D中的剩余部分经验导入辅助机D1;
S42,从D中随机抽取经验对Q网络进行训练;
其中,每经过k次迭代后,将辅助机D1的经验补充至经验池D,清空辅助机D1的经验;如果经验池D中经验数超过容量,删除经验池D中额外的时间最早的部分经验;k为大于1的正整数。
进一步地,步骤S5中,从接收机中对实时经验进行随机批次采样,计算并更新权重的过程包括以下步骤:
S51,在训练过程中,采用近似目标值yi=r+γmaxa′Q(s′,a′;τi-1)替代最佳目标值,其中r为奖励,γ为奖励性衰变系数,s′为下一状态,a′为下一动作,τi-1为第i-1次训练过程中的网络权重参数;s为当前状态,a为当前动作,τi为第i次训练过程中的网络权重参数;
损失函数为:
Figure GDA0003568316260000064
对损失函数相对于权重进行微分,得到相应的梯度公式:
Figure GDA0003568316260000071
S52,通过调整Q网络的权重τ以减少贝尔曼方程中的均分误差。
本发明的有益效果是:
本发明提出的基于数据辅助的无人机集群协同空域抗干扰方法,对于干扰机动作数据的缺失,通过加入辅助无人机收集干扰信号的数据,间接补充接收无人机获得的干扰机动作数据,接收机获得的干扰机动作数据增加,接收机准确估计干扰信道的信道状态信息的概率就会变大,提高接收无人机抗干扰性能。
附图说明
图1是本发明中空域抗干扰系统模型示意图。
图2是本发明中训练过程中平均Q值的变化结果示意图。
图3是本发明中不同程度数据辅助下平均传输速率对比结果示意图。
图4是本发明中不同时延辅助下平均传输速率对比结果示意图。
图5是本发明实施例的基于数据辅助的无人机集群协同空域抗干扰方法流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
图5是本发明实施例的基于数据辅助的无人机集群协同空域抗干扰方法流程图。参见图5,该抗干扰方法包括以下步骤:
S1,初始化生成Q网络和目标Q网络,将接收机生成的滤波向量作为动作,生成动作集;其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量。
S2,基于以下策略选择动作:以概率ε从动作集中随机选择接收滤波向量,以概率1-ε贪婪选择接收收益最大的滤波向量。
S3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励。
S4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机。
S5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值。
S6,重复循环步骤S2至步骤S5。
步骤1中,在训练过程中使用单独的神经网络来生成目标Q值,该网络被称为目标Q网络
Figure GDA0003568316260000081
且拥有与Q(s,a;τ)相同的网络结构。本实施例根据损失函数的更新公式来更新网络中的参数,目标网络中的参数在训练过程中不变,每训练N次,复制Q网络中的参数。使用目标Q网络,能够让目标Q值保持一段时间不发生变化,使其减少与估计Q值的关联,从而使得训练时损失值震荡发散的可能性降低,本实施例的稳定性提高。
在此模型中,将接收机生成的滤波向量做为动作,由于干扰信号的到达方向角是时刻变化的,可以根据其变化来设定动作,然后根据MVBS抗干扰波束成形公式来生成接收机的滤波向量。动作集A的大小根据干扰信号到达方向角的范围而变化。
抗干扰波束成形方法是最小方差波束成形方法(Minimum-Variance BeamformingScheme,MVBS)。利用MIMO通信设计波束成形,主要目的还是使SINR最大化,即:
Figure GDA0003568316260000082
s.t.||wt||=1。
通过使干扰和噪声功率最小来设计接收滤波向量f,然后再计算预编码向量wt,这样就可以同时生成较优的收发信机滤波向量。对接收到的干扰信号数据进行处理,然后来估计下一时刻干扰信道的瞬时信道状态信息。当发送无人机不工作时,接受无人机接收到的就只有干扰和噪声,接收机接收到信号为yj=Hj,rwjzj+n。对干扰和噪声信号进行处理,Rj的估计结果可以表示为:
Figure GDA0003568316260000091
其中M为采样数。对该信号进行处理,可以分解为干扰子空间
Figure GDA0003568316260000092
和噪声子空间
Figure GDA0003568316260000093
干扰的特征值对角矩阵为Λj。为了消除大部分干扰信号造成的影响,通过在噪声子空间中来设计滤波向量来实现。如果接受无人机接收到的干扰信号到达方向角与有用信号到达方向角接近时,这将会压制有用信号的功率。所以通过添加一个条件来计算最优接收滤波向量,以减少对有用信号的抑制影响:
Figure GDA0003568316260000094
s.t.fHert,r)=1,其中er为接收机的阵列响应向量,θt,r为发送机t到接收机r的到达方向角。最优滤波向量在通过DoA为θs,r的信号时,抑制干扰和噪声的显著能量。为了解决约束优化问题,可以求助于拉格朗日乘子,最优滤波向量可以表示为:
Figure GDA0003568316260000095
由此可以求得估计的最优接收滤波向量,然后通过最大比传输方法来获得预编码向量,即
Figure GDA0003568316260000096
干扰机也会用此方法对接收机进行干扰,即
Figure GDA0003568316260000097
步骤2中,设置一个阈值,比如说初始值是ε,意思就是现在选择动作的时候,ε的可能性是随机地从动作集中选择一个动作,1-ε的可能性是通过神经网络计算每个动作的收益,然后选收益最大的那一个。但是随着学习过程推进,阈值越来越低,随机选择的次数要越来越少,到最后几乎不做随机的选择。
步骤3中,由于马尔可夫决策过程一般是用来解决动态问题的,将i时刻的空间谱表示为mi=[o1,o2,…,os]T,其中os为空间谱在角度为180*s/S度时的观测值,S为空间角度分辨率。构建动态空间谱为si=Si=[mi,mi-1,…,mi-h+1]T,si是此实施例的状态。动态空间谱的矩阵大小为h*S,h表示拥有h个时隙的空间谱数据。在i+1时刻,i+1的空间谱mi进入动态空间谱,与此同时,删除较早的空间谱,达到更新空间谱的目的。
将MIMO信号用物理信道模型来表示,接收机r到干扰机j的离开方向角(Directionof Departure,DoD)和到达方向角(DoA)可以分别用
Figure GDA0003568316260000101
和θr,j表示。接收机与干扰机之间的信道可以表示为:
Figure GDA0003568316260000102
其中μr,j为接收机与干扰机之间的路径损耗,dr,j为接收机与干扰机天线之间的距离,λc为载波波长。发送机和接收机的天线阵列响应向量可以用er
Figure GDA0003568316260000103
与ejr,j)表达:
Figure GDA0003568316260000104
Figure GDA0003568316260000105
其中Δr和Δj表示天线间隔距离,Nr和Nj分别为接收机和干扰机的天线数。在信号传输阶段,接收机接收到的信号可以表示为
Figure GDA0003568316260000106
其中t为发送机,
Figure GDA0003568316260000107
表示为接收机期望接收到的有用信号,
Figure GDA0003568316260000108
表示为干扰信号。xt=wtzt表示有用信号,wt为发送波束成形(预编码)向量,对于发送机而言,其发送功率有限制||wt||=1。xj=wjzj表示干扰信号,
Figure GDA0003568316260000109
为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制||wj||=1。zt和zj分别表示为发送符号和干扰符号,限制均为E[|z|2]=1。n是加性高斯白噪声矢量。接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示,即:
Figure GDA0003568316260000111
信号与干扰噪声的比值能比较直观表现出通信质量,接收端输出的SINR可以写成:
Figure GDA0003568316260000112
只有满足SINR>λ,接收机才能正确解调接收到的信号,其中λ为解调门限。令
Figure GDA0003568316260000113
I为单位向量,那么fHRjf就能表示接收机接收到的所有干扰和噪声信号。此传输速率可以表示为:
Figure GDA0003568316260000114
步骤4中,在深度强化学习中经验一般表示为(si,ai,ri,si+1)。首先,实施例初始化一个经验池D,容量为|D|,并通过ε-贪婪策略将部分经验填充至其中。经验池存储了带标签的一个个数据样本(在本实施例中,经验池中的经验为(si,ai,ri,si+1)四元组),训练神经网络是需要带标签的样本。其次,实施例从D中随机抽取经验(即批次)进行Q网络训练。这种机制的优点是在训练过程中,神经网络通过随机抽样解决了训练数据之间的相关性和非静态发布问题。
根据数据辅助的需要和实际过程,本实施例初始化同时生成一个存放辅助经验的辅助机D1,容量也为|D|,但是与经验进入经验池D中不同,已经进入经验池D中的经验不会再次进入辅助机D1,未进入经验池D中的部分经验才会进入辅助机D1,以控制不会有重复的经验。每经过n次迭代后,将辅助机D1的经验补充至经验池D。与此同时,辅助机的经验清空。如果经验池D中经验数超过容量,那么会删除经验池D较早的一部分经验,这样以保持经验池D中的经验都是最新的。
步骤5中,在神经网络当中,将带有权值τ的神经网络称为Q网络。在训练过程中,通过调整权重τ来减少贝尔曼方程中的均分误差,最佳目标值将会被近似目标值yi=r+γmaxa′Q(s′,a′;τi-1))替代,其中r为奖励,γ为奖励性衰变系数,s′为下一状态,a′为下一动作,bi-1为第i-1次训练过程中的网络权重参数;s为当前状态,a为当前动作,τi为第i次训练过程中的网络权重参数。最佳目标值与近似目标值产生了差值,因此产生了损失函数:
Figure GDA0003568316260000121
值得注意的是,目标值取决于网络权重参数。在优化损失函数的同时,权重τi也会与上一次的权重参数τi-1相同,这导致了一系列的优化问题。通过对损失函数相对于权重的微分,得到了下面的梯度:
Figure GDA0003568316260000122
实例
为了验证本发明方案的有效性,进行如下仿真实验。
假设无人机是按照设定好的轨迹飞行。通过模拟随机游走来生成15条无人机轨迹。在每次训练过程中,无人机都会从生成的15条不同的轨迹中随机选择一条轨迹。干扰机的功率Pj为20dB,发送机的功率Pt为10dB。解调阈值λ=5dB。设定一个时隙通信需要0.1秒,其中感知阶段TS为0.03秒、数据传输阶段TD为0.05秒、学习阶段TL为0.01秒和ACK传输阶段TACK为0.01秒。当有辅助数据传输时,辅助数据传输与数据传输时间总和为0.05秒,整个时隙总体时间不变。
在此实例中,将折扣率设为0.8。假设干扰信号到达方向角的范围是1°至180°,接收机每隔3°生成一个滤波向量,所以此动作集大小为60。动态空间谱每次拥有10个时隙的空间谱数据,空间谱矩阵大小为10*180。经验池D和D1容量为M=5000。采用ADAM优化器来训练网络,每次迭代从经验池中采样的样本数为32。总迭代次数各不相同,均用来训练Q网络。随机探索概率ε随着迭代次数的增加从1线性递减至10-3。目标网络
Figure GDA0003568316260000131
的权重每100次更新1次。
在迭代过程开始时,接收机随机地从动作集A选取滤波向量。随机选择动作会随着迭代次数的增加慢慢减少,对于每个状态,接收机就会根据之前获得的经验来选择能否获得高收益的动作,从而提高吞吐量性能。
图2显示了训练过程中平均Q值的变化,该变化是通过取Q网络输出的平均值获得的,其中每个点是每1000次迭代的滑动平均值。通过图2可以看出,曲线逐渐趋向收敛,验证了该实施例是收敛的。
图3给出了接收无人机在不同程度数据辅助的干扰机动作数据量下平均传输速率性能对比,其中每个点是每1000次迭代的滑动平均值。如图3所示,假设接收机一开始只有20%的干扰机动作数据时,抗干扰性能是较差的。辅助机通过数据传输将接收到20%的干扰机动作数据发送给接收机,即接收机拥有40%的干扰机动作数据,抗干扰性能明显提高。辅助机再通过数据传输将接收到20%的干扰机动作数据发送给接收机,即接收机拥有60%的干扰机动作数据,抗干扰性能也明显提高。辅助机再通过数据将发送接收到20%的干扰机动作数据传输给接收机,即接收机拥有80%的干扰机动作数据,由于接收机已经拥有大部分干扰机动作数据,抗干扰性能提高,但不如干扰机动作数据少有数据辅助时抗干扰性能提升明显。总体而言,辅助机辅助的干扰机动作数据逐渐增多,接收机抗干扰性能也逐渐提高。
图4给出了接收机不能得到所有的干扰机动作数据,在辅助机在不同时延情况下补充一部分数据后,平均传输速率性能对比,其中每个点是每1000次迭代的滑动平均值。如图4所示,接收机在有辅助机的辅助获得干扰机动作数据的情况下,时延比较低的时候,接收机只需花费较少的时间就能较好地进行抗干扰,就如辅助机每5000次通过数据传输将接收到20%的干扰机动作数据发送给接收机,辅助机的作用较大。而时延比较高的时候。再如辅助机每10000次通过数据传输将接收到20%干扰机动作数据发送给接收机,这时接收机的抗干扰性能较差,辅助机几乎不起作用。由此可知,辅助机提供干扰机动作数据越快,接收机抗干扰性能提升越快,辅助机提供干扰机动作数据较慢,接收机抗干扰性能提升也相对较慢。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (1)

1.一种基于数据辅助的无人机集群协同空域抗干扰方法,其特征在于,所述抗干扰方法基于空域抗干扰系统模型,所述空域抗干扰系统模型由一个接收机、一个发送机、一个辅助机以及一个干扰机组成,其中所述接收机为接收无人机,所述发送机为发送无人机,所述辅助机为辅助无人机;所述抗干扰方法包括以下步骤:
S1,初始化生成Q网络和目标Q网络,将接收机生成的滤波向量作为动作,生成动作集;其中,根据干扰信号到达方向角的变化来设定动作,根据抗干扰波束成形公式来生成接收机的滤波向量;
S2,基于以下策略选择动作:以概率ε从动作集中随机选择接收滤波向量,以概率1-ε贪婪选择接收收益最大的滤波向量;ε为预设阈值限制,随学习过程推进逐渐减小;
S3,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱;接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励;
S4,将其中部分空间谱数据存入接收机,将未进入接收机中的剩余部分空间谱数据作为辅助数据存入辅助机;按照预设补充周期,辅助机发送接收到的空间谱数据给接收机,采用辅助机中的辅助经验补充更新接收机,同时清空辅助机;
S5,从接收机中对经验进行随机批次采样,计算并更新权重;在训练过程中,通过调整权重来减少贝尔曼方程中的均分误差,采用近似目标值代替最佳目标值;
S6,重复循环步骤S2至步骤S5;
步骤S1,生成动作集的过程包括以下步骤:
S12,采用两个单独的神经网络分别生成Q网络Q(s,a;τ)和目标Q网络
Figure FDA0003558564650000011
目标Q网络
Figure FDA0003558564650000012
拥有与Q网络相同的网络结构;每次训练,根据损失函数的更新公式来更新Q网络中的参数,目标Q网络中的参数在训练过程中不变;每训练N次,复制Q网络中的参数更新一次
目标Q网络;N为大于1的正整数;s是当前状态,τ是权重,a是当前状态所选的动作;
S12,将接收机生成的滤波向量作为动作,根据干扰信号到达方向角的变化来设定动作,根据MVBS抗干扰波束成形公式来生成接收机的滤波向量,动作集A的大小根据干扰信号到达方向角的范围而变化;MVBS为最小方差波束成形方法;
步骤S12中,根据MVBS抗干扰波束成形公式来生成接收机的滤波向量的过程包括以下步骤:
S121,利用MIMO通信设计波束成形,使信号与干扰加噪声比SINR最大化:
Figure FDA0003558564650000021
s.t.||wt||=1;
通过使干扰和噪声功率最小来设计接收滤波向量f,再计算预编码向量wt,同时生成较优的收发信机滤波向量;t表示发送机,||·||表示欧几里得范数;
S122,对接收到的干扰信号数据进行处理,估计下一时刻干扰信道的瞬时信道状态信息;设发送无人机不工作时,接收机接收到干扰和噪声信号为yj=Hj,rwjzj+n;n是加性高斯白噪声矢量,其元素服从独立同分布、均值为0方差为
Figure FDA0003558564650000022
的复高斯分布;Hj,r是接收机与干扰机之间的信道,j表示干扰机,r表示接收机;xj=wjzj表示干扰信号;
Figure FDA0003558564650000029
为干扰方为提升干扰性能的预编码向量,C表示复数域,
Figure FDA00035585646500000210
为C的Nj×1次方,Nj表示干扰机的天线数,干扰机干扰功率限制||wj||=1;zj表示为干扰符号;
S123,令
Figure FDA00035585646500000211
Pj表示干扰机的概率,I为单位向量,对干扰和噪声信号进行处理,Rj的估计结果表示为:
Figure FDA00035585646500000212
其中M为采样数,OH表示向量或矩阵的共轭转置;
S124,对Rj进行处理,分解为干扰子空间
Figure FDA00035585646500000213
和噪声子空间
Figure FDA00035585646500000214
Λj为干扰的特征值对角矩阵;
S125,通过添加以下条件来计算最优接收滤波向量,以减少对有用信号的抑制影响:
Figure FDA0003558564650000031
s.t.fHert,r)=1;
其中er为接收机的阵列响应向量,θt,r为发送机t到接收机r的到达方向角;
S126,将最优滤波向量表示为:
Figure FDA0003558564650000032
对于通信方,假设收发信机之间通过信道估计知道它们之间的信道状态信息,求得估计的最优接收滤波向量,通过最大比传输方法来获得预编码向量,即
Figure FDA0003558564650000033
对于干扰方,考虑干扰机已知其与接收机之间已知信道状态信息的最坏情况,并运用最大比传输方法以提高干扰效果;干扰机对接收机进行干扰,即
Figure FDA0003558564650000034
步骤S3中,感知当前空间谱,将每个时刻的空间谱导入动态空间谱,同时删除较早的空间谱,以更新动态空间谱的过程包括以下步骤:
S301,将i时刻的空间谱表示为mi=[o1,o2,…,os]T,其中os为空间谱在角度为180*s/S度时的观测值,S为空间角度分辨率,OT表示向量或矩阵的转置;
S302,构建动态空间谱为si=Si=[mi,mi-1,…,mi-h+1]T,si是状态,Si为动态空间谱;动态空间谱Si的矩阵大小为h*S,h表示拥有h个时隙的空间谱数据;在i+1时刻,i+1的空间谱mi+1进入动态空间谱,同时删除较早的空间谱;
步骤S3中,接收机通过接收波束成形向量处理接收到的信号,通过求取信号对应的信干噪比来获取通信速率奖励的过程包括以下步骤:
S311,将MIMO信号用物理信道模型来表示,接收机r到干扰机j的离开方向角和到达方向角分别用
Figure FDA00035585646500000410
和θr,j表示;接收机与干扰机之间的信道表示为:
Figure FDA0003558564650000042
其中μr,j为接收机与干扰机之间的路径损耗,dr,j为接收机与干扰机天线之间的距离,λc为载波波长;
发送机和接收机的天线阵列响应向量用
Figure FDA00035585646500000411
与ejr,j)表达:
Figure FDA0003558564650000044
Figure FDA0003558564650000045
其中Δr和Δj表示天线间隔距离,Nr和Nj分别为接收机和干扰机的天线数;
S312,在信号传输阶段,接收机接收到的信号表示为:
Figure FDA0003558564650000046
其中t为发送机,
Figure FDA00035585646500000412
表示为接收机期望接收到的有用信号,
Figure FDA00035585646500000413
表示为干扰信号,Pt表示接收机的功率,Pj表示干扰机的功率;xt=wtzt表示有用信号,wt为发送波束成形向量,对于发送机而言,其发送功率有限制||wt||=1;xj=wjzj表示干扰信号,
Figure FDA0003558564650000049
为干扰方为提升干扰性能的预编码向量,干扰机干扰功率限制||wj||=1;zt和zj分别表示为发送符号和干扰符号,限制均为E[|z|2]=1,E[·]表示期望函数,|·|表示标量的绝对值运算;n是加性高斯白噪声矢量;
S313,接收机通过接收波束成形向量处理接收到的信号,接收滤波向量用f表示:
Figure FDA0003558564650000051
接收端输出的信号与干扰噪声的比值SINR为:
Figure FDA0003558564650000052
其中,λ为解调门限,只有满足SINR>λ,接收机才能正确解调接收到的信号;
S314,令
Figure FDA0003558564650000055
I为单位向量,采用fHRjf表示接收机接收到的所有干扰和噪声信号;传输速率表示为:
Figure FDA0003558564650000054
步骤S4中,采用辅助机中的辅助经验作为新的实时经验补充更新接收机的过程包括以下步骤:
S41,初始化经验池D,容量为|D|,通过ε-贪婪策略将其中部分经验填充至其中;初始化存放辅助经验的辅助机D1,容量为|D|,将未进入经验池D中的剩余部分经验导入辅助机D1;
S42,从D中随机抽取经验对Q网络进行训练;
其中,每经过k次迭代后,将辅助机D1的经验补充至经验池D,清空辅助机D1的经验;如果经验池D中经验数超过容量,删除经验池D中额外的时间最早的部分经验;k为大于1的正整数;
步骤S5中,从接收机中对实时经验进行随机批次采样,计算并更新权重的过程包括以下步骤:
S51,在训练过程中,采用近似目标值yi=r+γmaxa′Q(s′,a′;τi-1)替代最佳目标值,其中r为奖励,γ为奖励性衰变系数,s′为下一状态,a′为下一动作,τi-1为第i-1次训练过程中的网络权重参数;s为当前状态,a为当前动作,τi为第i次训练过程中的网络权重参数;
损失函数为:
Figure FDA0003558564650000061
对损失函数相对于权重进行微分,得到相应的梯度公式:
Figure FDA0003558564650000062
S52,通过调整Q网络的权重τ以减少贝尔曼方程中的均分误差。
CN202210118237.4A 2022-02-08 2022-02-08 一种基于数据辅助的无人机集群协同空域抗干扰方法 Active CN114157345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210118237.4A CN114157345B (zh) 2022-02-08 2022-02-08 一种基于数据辅助的无人机集群协同空域抗干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210118237.4A CN114157345B (zh) 2022-02-08 2022-02-08 一种基于数据辅助的无人机集群协同空域抗干扰方法

Publications (2)

Publication Number Publication Date
CN114157345A CN114157345A (zh) 2022-03-08
CN114157345B true CN114157345B (zh) 2022-05-06

Family

ID=80450180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210118237.4A Active CN114157345B (zh) 2022-02-08 2022-02-08 一种基于数据辅助的无人机集群协同空域抗干扰方法

Country Status (1)

Country Link
CN (1) CN114157345B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115276858B (zh) * 2022-07-11 2024-01-23 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN115473560B (zh) * 2022-08-29 2024-02-06 西安电子科技大学 无人机通信雷达一体全双工中继传输系统、中继方法及节点

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110082761A (zh) * 2019-05-31 2019-08-02 电子科技大学 分布式外辐射源雷达成像方法
CN111917508A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
CN112243252A (zh) * 2020-09-08 2021-01-19 西北工业大学 一种面向无人机中继网络的安全传输增强方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110082761A (zh) * 2019-05-31 2019-08-02 电子科技大学 分布式外辐射源雷达成像方法
CN111917508A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
CN112243252A (zh) * 2020-09-08 2021-01-19 西北工业大学 一种面向无人机中继网络的安全传输增强方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bandit based Dynamic Spectrum Anti-jamming Strategy in Software Defined UAV Swarm Network;Qiming Qiu等;《2020 IEEE 11th International Conference on Software Engineering and Service Science (ICSESS)》;20201104;第184-187页 *
Jamming Attack Detection in Optical UAV Networks;Maha Sliti等;《2018 20th International Conference on Transparent Optical Networks (ICTON)》;20180927;第1-5页 *
Joint Optimization of Control and Communication in Autonomous UAV Swarms: Challenges, Potentials, and Framework;Changhua Yao等;《 IEEE Wireless Communications》;20211115;第28-35页 *
采用深度神经网络的无人机蜂群视觉协同控制算法;闵欢等;《西安交通大学学报》;20200520;第173-179页 *

Also Published As

Publication number Publication date
CN114157345A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN114157345B (zh) 一种基于数据辅助的无人机集群协同空域抗干扰方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN111917508B (zh) 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法
JP3701334B2 (ja) 多重経路環境における信号受信方法及び装置
CN111865378B (zh) 基于深度学习的大规模mimo下行预编码方法
US7565171B2 (en) Radio base system, transmission directional control method, and transmission directional control program
CN110300075B (zh) 一种无线信道估计方法
CN103605117B (zh) 基于干扰抑制的相控阵信号失真实时校正方法
Patel et al. Comparative analysis of adaptive beamforming algorithm LMS, SMI and RLS for ULA smart antenna
CN113341383B (zh) 基于dqn算法的雷达抗干扰智能决策方法
CN113162665B (zh) 一种基于深度学习信道预测的预编码方法
CN113644952B (zh) 基于分布式csi的多测控站多星mimo上行抗干扰方法
CN112994770B (zh) 基于部分csi的ris辅助多用户下行鲁棒无线传输方法
CN108737303B (zh) 一种水下无人平台远程稳健通信方法
CN114567358B (zh) 大规模mimo鲁棒wmmse预编码器及其深度学习设计方法
CN113794660B (zh) 面向多输入多输出检测的模型驱动的深度神经网络方法
EP2293482B1 (en) Signal detecting method and device for multi-code multi-transmitting multi-receiving system
CN117014051B (zh) 基于复合型天线的高铁移动通信方法及系统
CN108415040A (zh) 一种基于子空间投影的csmg波束形成方法
CN114938232B (zh) 基于lstm的同时同频全双工数字域自干扰抑制方法
CN100592655C (zh) 无线装置及用于该无线装置的多普勒频率估算电路
CN115714612A (zh) 基于感知的通信波束跟踪方法
CN113784353A (zh) 用于状态更新系统的方法、装置及存储介质
CN113311404B (zh) 一种mimo雷达实时角分辨率提升方法
CN115001553B (zh) 一种机器学习辅助的卫星下行预编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant