CN115085856A - 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统 - Google Patents

一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统 Download PDF

Info

Publication number
CN115085856A
CN115085856A CN202210528197.0A CN202210528197A CN115085856A CN 115085856 A CN115085856 A CN 115085856A CN 202210528197 A CN202210528197 A CN 202210528197A CN 115085856 A CN115085856 A CN 115085856A
Authority
CN
China
Prior art keywords
node
power
interference
time slot
spoofed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210528197.0A
Other languages
English (en)
Other versions
CN115085856B (zh
Inventor
杜奕航
乔晓强
张余
张涛
钱鹏智
司呈呈
郭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210528197.0A priority Critical patent/CN115085856B/zh
Publication of CN115085856A publication Critical patent/CN115085856A/zh
Application granted granted Critical
Publication of CN115085856B publication Critical patent/CN115085856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/86Jamming or countermeasure characterized by its function related to preventing deceptive jamming or unauthorized interrogation or access, e.g. WLAN access or RFID reading
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Electromagnetism (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出的基于背靠背协作学习的分布式诱骗抗干扰方法中,各节点基于相同的信念在无信息交互的条件下根据特定抗干扰策略更新机制制定自身的抗干扰策略,通过背靠背协作机制联合抵抗反应式干扰攻击。各节点持有的相同信念为“单边策略的改变会导致其他节点的联合策略发生线性变化”,在该信念下,各节点在制定自身抗干扰策略时能够对其他节点的诱骗策略进行推测,并在该推测的基础上制定自身抗干扰策略,实现无信息交互条件下的协作抗干扰。该方法应用于分布式无线通信网络场景中,可使用户不通过任何信息交互即可学习到有效的欺骗式抗干扰策略,同时自主选择高效通信策略,在抵御反应式干扰攻击的同时最大化通信系统容量。

Description

一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统
技术领域
本发明涉及无线通信领域,尤其涉及一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统。
背景技术
由于无线通信具有开放性和易探测性,无线通信系统极易受到敌方恶意干扰攻击。随着干扰方式和手段趋于智能化,反应式干扰技术得到了快速发展和应用。反应式干扰机能够对传输信道进行持续监测,当检测到用户信号传输后自适应调整干扰策略并施放干扰,从而使得基于频谱跳变的传统抗干扰方法无法摆脱干扰机追踪而失效。针对反应式干扰机持续跟踪、隐蔽性强、生命周期长等特点,有必要采取相应的诱骗式抗干扰策略,通过欺骗手段使其攻击某一“诱饵”目标,从而保证合法用户的有效数据传输。
目前,基于“诱饵”信道的诱骗式抗干扰方法是应对反应式干扰攻击的一种有效手段。在该方案中,每个节点中的发射端均配备两部发射机,使用其中一部进行数据传输,另一部发射机则用于发射诱骗信号。根据特定协议,所有发射端均通过同一特定信道发射有限功率假信号,联合吸引反应式干扰机对该“诱饵”信道发起攻击,从而保护合法用户正常通信。具体可参考:Pourranjbar A,etc.,“Reinforcement learning for deceivingreactive jammers in wireless networks”,IEEE Transactions on Communications,vol.69,no.6, June.2021。然而,该方法需要获取无线通信网络中所有通信节点的完整策略信息,因而仅适用于集中式无线通信网络场景。在分布式无线通信网络中,各通信节点无法承受如此巨大的信息交互通信开销,获取完整的网络信息是不现实的。不仅如此,由于该方案中智能体的状态和动作均包含其他所有通信节点的频谱选择策略,当节点数量较多时极易造成“维度灾难”,大幅增加智能体的存储开销。
发明内容
为了解决上述现有技术中缺乏用于分布式无线通信网络诱骗抗干扰方法的缺陷,本发明提出了一种基于背靠背协作学习的分布式诱骗抗干扰方法,该方法应用于分布式无线通信网络场景中,可使各通信节点不通过任何信息交互即可学习到有效的欺骗式抗干扰策略,同时自主选择高效通信策略,在抵御反应式干扰攻击的同时最大化通信系统容量。
本发明提出的一种基于背靠背协作学习的分布式诱骗抗干扰方法,适用于由N个节点和1个反应式干扰机组成的无线通信网络;每个节点包括发射端和接收端,每个发射端均配备有两台发射机,其中一台发射机用于向本节点中的接收端发射数据传输信号,另一台发射机用于向反应式干扰机发射诱骗信号;反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰;
所述分布式诱骗抗干扰方法包括以下步骤:
S1、定义节点ni的动作ai={ci,vi,pi},其中,ci为节点ni的数据传输信道,vi为节点ni选择的诱骗信道,pi为节点ni的欺骗功率值;
定义节点ni的抗干扰策略为
Figure RE-GDA0003757239710000021
其中,A为动作空间,表示为 A=M×M×T;M为可用信道集合,M={信道1,信道2,…,信道m},m为可用信道总数量;T为欺骗功率档位集合,记为T={p1,p2,…,pL},p1,p2,…,pL均为功率值,且p1<p2<……<pL,pL为设定欺骗功率上限值,L表示欺骗功率档位数量,pi∈T;πi(ai)表示节点ni选择动作ai的概率值,
Figure RE-GDA0003757239710000022
定义诱骗策略推测集合
Figure RE-GDA0003757239710000023
其中,p-i为除节点ni以外的其他所有节点选择的欺骗功率向量,p-i={p1 p2 … pi-2 pi-1 pi+1 pi+2 … pN},其中 pi-1为节点ni-1的欺骗功率值,以此类推;p-i为所有欺骗功率向量p-i的集合,即除节点ni以外的其他所有节点选择的欺骗功率向量的不同组合;
Figure RE-GDA0003757239710000031
为t时隙上节点ni推测其他所有节点选择欺骗功率向量p-i的概率值,
Figure RE-GDA0003757239710000032
N 为节点总数;
定义诱骗策略推测更新函数:
Figure RE-GDA0003757239710000033
其中,
Figure RE-GDA0003757239710000034
为欺骗功率向量p-i对应的推测更新系数,
Figure RE-GDA0003757239710000035
为定义的推测更新系数集合;
Figure RE-GDA0003757239710000036
为t+1时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-GDA0003757239710000037
为t 时隙上节点ni选择欺骗功率pi的概率值。
定义学习回报:
Figure RE-GDA0003757239710000038
其中,
Figure RE-GDA0003757239710000039
表示t时隙上节点ni执行动作ai后获得的学习回报;
Figure RE-GDA00037572397100000310
表示节点ni的诱骗策略推测集合,
Figure RE-GDA00037572397100000311
ri表示节点ni执行动作ai后的有效数据接收功率,D表示节点ni观测得到的诱骗信道数量;ε1、ε2、ε3为预设常数;
定义抗干扰策略更新函数:
Figure RE-GDA00037572397100000312
其中,a表示动作,a∈A;
Figure RE-GDA00037572397100000313
表示t+1时隙上节点ni选择动作a的概率值,
Figure RE-GDA00037572397100000314
表示t时隙上节点ni选择动作a的概率值;θ为学习率,θ为预设常数;
S2、针对任意节点ni,执行以下步骤;
S21、初始化
Figure RE-GDA00037572397100000315
表示t时隙上节点ni选择动作ai的概率值;
Figure RE-GDA00037572397100000316
表示t时隙上节点ni的诱骗策略推测集合;
Figure RE-GDA00037572397100000317
分别表示
Figure RE-GDA00037572397100000318
的初始化值;初始化t=0;
S22、判断迭代次数是否达到设定值;否,则执行以下步骤S23-S25;是,则此后所有时隙上节点ni均根据t时隙上的抗干扰策略
Figure RE-GDA00037572397100000319
选择动作ai
S23、节点ni在t时隙上基于
Figure RE-GDA0003757239710000041
选择动作ai,观测诱骗信道数量D并获得执行动作ai后的有效数据接收功率ri;计算学习回报
Figure RE-GDA0003757239710000042
S24、节点ni基于抗干扰策略更新函数获取下一个时隙上的抗干扰策略
Figure RE-GDA0003757239710000043
节点ni基于诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合
Figure RE-GDA0003757239710000044
S25、令t=t+1,然后返回步骤S22。
优选的,S23中,节点ni有效数据接收功率ri的计算公式为:
Figure RE-GDA0003757239710000045
其中,
Figure RE-GDA00037572397100000416
为任意节点中两部发射机总发射功率上限值,pi为节点ni的欺骗功率值,
Figure RE-GDA0003757239710000046
为节点ni的数据传输功率值,
Figure RE-GDA0003757239710000047
为节点ni在信道ci上的信道增益;χi表示二进制系数,节点ni执行动作ai后,判断干扰信号是否干扰自身正常通信,如果是则χi=0,否则χi=1。
优选的,S21中,
Figure RE-GDA0003757239710000048
Figure RE-GDA0003757239710000049
Figure RE-GDA00037572397100000410
Figure RE-GDA00037572397100000411
其中,a={c,v,pi}表示节点ni选择的欺骗功率为pi的任意动作,
Figure RE-GDA00037572397100000412
表示t时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-GDA00037572397100000413
Figure RE-GDA00037572397100000414
的初始化值;M为可用信道集合;c表示数据传输信道,v表示诱骗信道;L表示欺骗功率档位数量,N 为节点总数。
优选的,S1中诱骗策略推测更新函数为:
Figure RE-GDA00037572397100000415
其中,p-i为除节点ni以外的所有节点选择的欺骗功率向量,
Figure RE-GDA0003757239710000051
为t时隙上节点ni推测其他所有节点选择欺骗功率向量p-i的概率值;
Figure RE-GDA0003757239710000052
为欺骗功率向量p-i对应的推测更新系数,
Figure RE-GDA0003757239710000053
为定义参数集合;p-i为所有欺骗功率向量 p-i的集合;
Figure RE-GDA0003757239710000054
为t+1时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-GDA0003757239710000055
为t时隙上节点ni选择欺骗功率pi的概率值;
Figure RE-GDA0003757239710000056
表示p-i为p-i中的任一个向量。
优选的,参数集合
Figure RE-GDA0003757239710000057
的设置满足以下约束:
Figure RE-GDA0003757239710000058
Figure RE-GDA0003757239710000059
其中,δ为推测更新系数的初始化参数,δ=10-10
Figure RE-GDA00037572397100000513
表示任意p-i
优选的,S1中学习回报根据以下公式计算获得:
Figure RE-GDA00037572397100000510
ε1、ε2、ε3为设定常数;D表示节点ni观测到的诱骗信道数量;
χi、γi和ηi均表示二进制系数;节点ni执行动作ai后,观测无线通信网络中节点ni以外的其他节点的正常通信是否被节点ni的诱骗信号干扰,如果被干扰则γi=0,否则γi=1;节点ni执行动作ai后,判定反应式干扰信号是否干扰自身正常通信,如果是则χi=0,否则χi=1;观测反应式干扰信号是否被无线通信网络中任一节点的诱骗信号成功吸引,如果是则ηi=1,否则ηi=0;所述反应式干扰信号为反应式干扰机发送的干扰信号;
Pi total为节点ni对无线通信网络中所有节点的总欺骗功率值的推测值:
Figure RE-GDA00037572397100000512
其中,p-i为除节点ni以外的所有其他节点选择的欺骗功率向量,p-i为所有欺骗功率向量p-i的集合;pi为节点ni的欺骗功率值,
Figure RE-GDA0003757239710000061
为t时隙上节点ni推测其他所有节点选择欺骗功率向量p-i的概率值,pk为除节点ni外的任一节点nk的欺骗功率值,pk∈T。
优选的,S1中抗干扰策略更新函数为:
Figure RE-GDA0003757239710000062
其中,θ为学习率,
Figure RE-GDA0003757239710000063
表示t时隙上节点ni的学习回报,
Figure RE-GDA0003757239710000064
为t时隙上节点ni选择动作a的概率值,
Figure RE-GDA0003757239710000065
为t+1时隙上节点ni选择动作a的概率值。
优选的,在单个时隙内,无线通信网络中用于发射数据传输信号的发射机和用于发射诱骗信号的发射机错时工作;每个时隙中对无线通信网络中的信道进行两次观测,第一次观测设置在用于发射数据传输信号的发射机工作且用于发射诱骗信号的发射机不工作的时间段上,第二次观测设置在用于发射数据传输信号的发射机和用于发射诱骗信号的发射机同时工作的时间段上;通过两次信道观测的对比判断诱骗信道数量D。
本发明还提出了一种基于背靠背协作学习的分布式诱骗抗干扰系统,为上述基于背靠背协作学习的分布式诱骗抗干扰方法提供载体,便于所述方法的推广。
本发明提出的一种基于背靠背协作学习的分布式诱骗抗干扰系统,包括由 N个节点和1个反应式干扰机组成的无线通信网络;每个节点包括发射端和接收端,发射端配备有两台发射机,其中一台发射机用于向本节点中的接收端发射数据传输信号,另一台发射机用于向反应式干扰机发射诱骗信号;反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰;所述无线通信网络采用所述的基于背靠背协作学习的分布式诱骗抗干扰方法。
本发明提出的另一种基于背靠背协作学习的分布式诱骗抗干扰系统,包括存储器,所述存储器用于存储计算机程序,所述计算机程序被执行时,实现的抗干扰方法包括以下步骤:
S21、初始化
Figure RE-GDA0003757239710000071
表示t时隙上节点ni选择动作ai的概率值;
Figure RE-GDA0003757239710000072
表示t时隙上节点ni的诱骗策略推测集合;
Figure RE-GDA0003757239710000073
分别表示
Figure RE-GDA0003757239710000074
的初始化值;初始化t=0;ai={ci,vi,pi},其中,ci为节点ni的数据传输信道,vi为节点ni的诱骗信道,pi为节点ni的欺骗功率值;p-i为除节点ni以外的其他所有节点选择的欺骗功率向量, p-i={p1 p2 … pi-2 pi-1 pi+1 pi+2 … pN},pi-1为节点ni-1的欺骗功率值,以此类推;p-i为所有欺骗功率向量p-i的集合;
S22、判断迭代次数是否达到设定值;否,则执行以下步骤S23-S25;是,则此后所有时隙上节点ni均根据t时隙上的抗干扰策略
Figure RE-GDA0003757239710000075
选择动作ai
S23、节点ni在t时隙上基于
Figure RE-GDA0003757239710000076
选择动作ai,观测诱骗信道数量D并获得执行动作ai后的有效数据接收功率ri;基于设定的学习回报计算规则计算学习回报
Figure RE-GDA0003757239710000077
S24、节点ni基于设定的抗干扰策略更新函数获取的下一个时隙上的抗干扰策略
Figure RE-GDA0003757239710000078
节点ni基于设定的诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合
Figure RE-GDA0003757239710000079
S25、令t=t+1,然后返回步骤S22。
本发明的优点在于:
(1)本发明提出的基于背靠背协作学习的分布式诱骗抗干扰方法,首先通过策略和算法定义,使得各节点持有共同的信念即“单边策略的改变会导致其他节点的联合策略发生线性变化”,并在该信念的基础上对其他节点的干扰诱骗策略进行推测,从而使得各节点基于特定的策略更新算法结合自身特点和对其他节点的策略推测选择抗干扰策略,实现了无线通信网络中各节点在无需进行任何信息交互的状态下联合抵抗反应式干扰攻击。
(2)本发明中,通过算法定义使得各节点实现背靠背协作,在持有相同信念的基础上,各节点仅通过推测其他节点的干扰诱骗策略从而独立学习抗干扰策略,在学习过程中各节点之间没有信息交互,实现了干扰诱骗策略和数据传输策略的联合优化,在极大降低网络通信开销的前提下提升了系统的有效接收功率。
(3)本发明采用背靠背协作的学习机制,各节点基于共同信念而非信息交互实现联合抵抗反应式干扰攻击,避免了节点之间信息交互所造成的额外通信开销,也极大减小了单个节点的存储空间占用,取得了更高的通信系统容量,适用于分布式无线通信网络等对通信开销敏感的应用场景。
(4)与现有技术相比,在发射相同功率的诱骗信号时,本发明可获取更高的网络吞吐量,显著提升了欺骗功率效费比,可有效延长节点生命周期。
(5)可见与现有技术相比,本发明提出了一种具有弱连接、轻量化、高效费比等显著优势的适用于分布式无线通信网络的诱骗抗干扰方法。
(6)本发明中,各节点的抗干扰策略初始化值相同,各节点的诱骗策略推测集合的初始化值相同,且规定了各参数的计算公式,从而使得各节点的协作抗干扰策略更加默契,进一步提高了背靠背协作的可靠性。
(7)本发明提出了一种基于背靠背协作学习的分布式诱骗抗干扰系统,为上述基于背靠背协作学习的分布式诱骗抗干扰方法提供了适用于常规通信节点的载体,如此现有无线通信网络只需要加载存储器便可改造为基于背靠背协作学习的分布式诱骗抗干扰系统,改造成本低,效益高。
附图说明
图1是本发明基于背靠背协作学习的分布式诱骗抗干扰方法的系统模型图。
图2是本发明中基于背靠背协作学习算法的流程示意图。
图3是本发明中分布式诱骗抗干扰方法的帧结构示意图。
图4(a)是本发明实施例中节点1的欺骗策略变化曲线图。
图4(b)是本发明实施例中节点2的欺骗策略变化曲线图。
图4(c)是本发明实施例中节点3的欺骗策略变化曲线图。
图5是本发明所设计的算法与基于欺骗的Q学习方法和交叉检查Q学习方法(交叉检查Q学习方法)的系统有效接收功率对比。
图6是本发明所设计的算法与基于欺骗的Q学习方法的欺骗功率效费比对比。
具体实施方式
一种基于背靠背协作学习的分布式诱骗抗干扰方法
本实施方式提出的一种基于背靠背协作学习的分布式诱骗抗干扰方法,适用于由N个节点和1个反应式干扰机组成的无线通信网络;每个节点包括发射端和接收端,每个发射端均配备有两台发射机,其中一台发射机用于向本节点中的接收端发射数据传输信号,另一台发射机用于向反应式干扰机发射诱骗信号;反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰。
本实施方式中,各节点基于相同的信念在无信息交互条件下根据特定的学习回报计算函数、抗干扰策略更新函数、诱骗策略推测更新函数等制定自身的抗干扰策略,实现背靠背协作抗干扰的效果。
本实施方式中,各节点持有的相同信念为“单边策略的改变会导致其他节点的联合策略发生线性变化”,在该信念下,各节点在制定自身抗干扰策略的时能够对其他节点的诱骗策略进行推测,并在该推测的基础上制定自身抗干扰策略,实现无信息交互条件下的联合抗干扰。
本实施方式中,各节点的抗扰动作维度均相同,且各节点基于相同的诱骗策略推测更新函数更新其诱骗策略推测集合,各节点基于相同的抗干扰策略更新函数更新抗干扰策略。
具体的,本实施方式中定义节点ni的动作ai={ci,vi,pi},其中,ci为节点ni的数据传输信道,vi为节点ni选择的诱骗信道,pi为节点ni的欺骗功率值。
定义节点ni的抗干扰策略为
Figure RE-GDA0003757239710000101
其中,A为动作空间,表示为 A=M×M×T;M为可用信道集合,M={信道1,信道2,…,信道m},m为可用信道总数量;T为欺骗功率档位集合,记为T={p1,p2,…,pL},p1,p2,…,pL均为功率值,且p1<p2<……<pL,pL为设定欺骗功率上限值,L表示欺骗功率档位数量,pi∈T;πi(ai)表示节点ni选择动作ai的概率值,
Figure RE-GDA0003757239710000102
定义诱骗策略推测集合
Figure RE-GDA0003757239710000103
其中,p-i为除节点ni以外的其他所有节点的欺骗功率向量,p-i={p1 p2 … pi-2 pi-1 pi+1 pi+2 … pN},其中pi-1为节点ni-1的欺骗功率值,以此类推;p-i为所有欺骗功率向量p-i的集合,即除节点 ni以外的其他所有节点选择的欺骗功率向量的不同组合;
Figure RE-GDA0003757239710000104
为t时隙上节点 ni推测其他所有节点选择欺骗功率向量p-i的概率值,
Figure RE-GDA0003757239710000105
N为节点总数。
现有的抗干扰策略中,各节点通过信息交互实时获知其他节点的抗干扰策略,除节点ni以外的其他所有节点选择欺骗功率向量p-i的真实概率值为
Figure RE-GDA0003757239710000106
满足
Figure RE-GDA0003757239710000107
由于分布式无线通信网络中的节点ni无法获取整个网络的全局信息,节点ni只能对其他节点的诱骗策略进行推测,
Figure RE-GDA0003757239710000108
为节点ni对其他所有节点选择欺骗功率向量p-i的概率的推测值,故而本实施方式中定义诱骗策略推测集合
Figure RE-GDA0003757239710000109
定义诱骗策略推测更新函数:
Figure RE-GDA0003757239710000111
具体的,
Figure RE-GDA0003757239710000112
其中,p-i为除节点ni以外的所有节点选择的欺骗功率向量,
Figure RE-GDA0003757239710000113
为t时隙上节点ni推测其他节点选择欺骗功率向量p-i的概率值;
Figure RE-GDA0003757239710000114
为欺骗功率向量 p-i对应的推测更新系数,
Figure RE-GDA0003757239710000115
为定义的推测更新系数集合;p-i为所有欺骗功率向量p-i的集合;
Figure RE-GDA0003757239710000116
为t+1时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-GDA0003757239710000117
为t时隙上节点ni选择欺骗功率pi的概率值;
Figure RE-GDA0003757239710000118
表示p-i为p-i中的任一个欺骗功率向量。
本实施方式中,参数集合
Figure RE-GDA0003757239710000119
的设置满足以下约束:
Figure RE-GDA00037572397100001110
Figure RE-GDA00037572397100001111
其中,δ为推测更新系数的初始化参数,δ=10-10
Figure RE-GDA00037572397100001112
表示任意欺骗功率向量p-i
定义学习回报:
Figure RE-GDA00037572397100001113
其中,
Figure RE-GDA00037572397100001114
表示t时隙上节点ni执行动作ai后获得的学习回报;
Figure RE-GDA00037572397100001115
表示节点ni的诱骗策略推测集合,
Figure RE-GDA00037572397100001116
ri表示节点ni执行动作ai后的有效数据接收功率,D表示节点ni观测得到的诱骗信道数量;ε1、ε2、ε3为预设常数。
具体的,
Figure RE-GDA00037572397100001117
χi、γi和ηi均表示二进制系数;节点ni执行动作ai后,观测无线通信网络中节点ni以外的其他节点的正常通信是否被节点ni的诱骗信号干扰,如果被干扰则γi=0,否则γi=1;节点ni执行动作ai后,判定反应式干扰信号是否干扰自身正常通信,如果是则χi=0,否则χi=1;观测反应式干扰信号是否被无线通信网络中任一节点的诱骗信号成功吸引,如果是则ηi=1,否则ηi=0;
Pi total为节点ni对无线通信网络中所有节点的总欺骗功率值的推测值:
Figure RE-GDA0003757239710000122
其中,p-i为除节点ni以外的所有其他节点选择的欺骗功率向量,p-i为所有欺骗功率向量p-i的集合;pi为节点ni的欺骗功率值,
Figure RE-GDA0003757239710000123
为t时隙上节点ni推测其他节点选择欺骗功率向量p-i的概率值,pk为除节点ni外的任一节点nk的欺骗功率值,pk∈T。
定义抗干扰策略更新函数:
Figure RE-GDA0003757239710000124
其中,a表示动作,a∈A;
Figure RE-GDA0003757239710000125
表示t+1时隙上节点ni选择动作a的概率值,
Figure RE-GDA0003757239710000126
表示t时隙上节点ni选择动作a的概率值;θ为学习率,θ为预设常数。
公式(3)具体为:
Figure RE-GDA0003757239710000127
其中,θ为学习率,
Figure RE-GDA0003757239710000128
表示t时隙上节点ni的学习回报,
Figure RE-GDA0003757239710000129
为t时隙上节点ni选择动作a的概率值,
Figure RE-GDA00037572397100001210
为t+1时隙上节点ni选择动作a的概率值。
本实施方式中,各节点均采用以上定义,在此基础上各节点独立学习抗干扰策略,学习方法具体包括以下步骤。
S21、初始化
Figure RE-GDA00037572397100001211
表示t时隙上节点ni选择动作ai的概率值;
Figure RE-GDA00037572397100001212
表示t时隙上节点ni的诱骗策略推测集合;
Figure RE-GDA0003757239710000131
分别表示
Figure RE-GDA0003757239710000132
的初始化值;初始化t=0。
本实施方式中,为了进一步提高各节点的协作默契,初始化值
Figure RE-GDA0003757239710000133
为固定值,具体为:
Figure RE-GDA0003757239710000134
Figure RE-GDA0003757239710000135
Figure RE-GDA00037572397100001315
Figure RE-GDA0003757239710000136
其中,a={c,v,pi}表示节点ni选择的欺骗功率为pi的任意动作,
Figure RE-GDA0003757239710000137
表示t时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-GDA0003757239710000138
Figure RE-GDA0003757239710000139
的初始化值;M为可用信道集合;c表示数据传输信道,v表示诱骗信道;L表示欺骗功率档位数量,N 为节点总数。
S22、判断迭代次数是否达到设定值;否,则执行以下步骤S23-S25;是,则此后所有时隙上节点ni均根据t时隙上的抗干扰策略
Figure RE-GDA00037572397100001310
选择动作ai。即,本实施方式中在算法收敛后固定各节点的抗干扰策略。
S23、节点ni在t时隙上基于
Figure RE-GDA00037572397100001311
选择动作ai,观测诱骗信道数量D并获得执行动作ai后的有效数据接收功率ri;计算学习回报
Figure RE-GDA00037572397100001312
S24、节点ni基于抗干扰策略更新函数获取的下一个时隙上的抗干扰策略
Figure RE-GDA00037572397100001313
节点ni基于诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合
Figure RE-GDA00037572397100001314
S25、令t=t+1,然后返回步骤S22。
本实施方式中,结合抗干扰策略更新函数,实现了在关联学习回报的情况下实现抗干扰策略更新。
设置网络效益函数:
Figure RE-GDA0003757239710000141
本实施方式基于各节点之间的背靠背协作,通过学习回报以及对网络中其他节点诱骗策略的推测对抗干扰策略进行更新,使得无线通信网络在无需信息交互的条件下实现了网络效益函数最大化的抗干扰通信效果。
本实施方式中,为了方便观测诱骗信道数量D,各节点的发射端中的两部发射机错时发送信号,以便根据观测到的不同时刻上各信道的通信功率对比判断诱骗信号占用的信道,从而获得诱骗信道数量D。
结合图3,各节点在单个时隙内通信步骤如下:将时隙起始时间记作0,0~Ta时间段上,各节点根据抗干扰策略选择动作;Ta~Tt时间段上,各节点的发射端配备的两部发射机分别在不同信道上发射数据传输信号和诱骗信号;具体的, (Ta)~(Ta+Ttransmit)时间段上发射机1在数据传输信道上发射数据传输信号, (Ta+Ts)~(Ta+Ts+Tdeception)时间段上发射机2在诱骗信道上发射诱骗信号, Tt=Ttransmit+TACK=Ts+Tdeception;(Ta+Ttransmit)~(Ta+Ttransmit+TACK)时间段上接收端通过数据传输信道向对应发射端的发射机1反馈ACK信令;(Ta+Tt)~(Ta+Tt+Tc)时间段上,各发射端计算学习回报;(Ta+Tt+Tc)~(Ta+Tt+Tc+Tu)时间段上,各发射端更新抗干扰策略和诱骗策略推测集合。
在每个时隙上,各发射端需要对无线通信网络中的所有可用信道进行两次观测,获取信道占用情况以及信道能量值,第一次观测在时间段Ta~(Ta+Ts)上,即只有发射机1工作的时间段上;第二次观测在(Ta+Ts)~(Ta+Ttransmitt)时间段上,即发射机1和发射机2同时工作的时间段上,以便通过两次信道观测的对比判断诱骗信道数量D。
假设某个无线通信网络包含5个信道,分别为信道1、信道2、信道3、信道4和信道5。在某个时隙上,第一次观测获得被占用的信道包括:信道1、信道2、信道5;第二次观测获得被占用的信道包括:信道1、信道2、信道3、信道5,且信道5的能量值明显大于第一次观测中信道5的能量值。如此可知,诱骗信道为信道3和信道5,即D=2。
本实施方式中,为了保证各节点背靠背协作的默契,还进一步规定了各参数的计算公式,具体如下。
S23中,节点ni有效数据接收功率ri的计算公式为:
Figure RE-GDA0003757239710000151
其中,
Figure RE-GDA0003757239710000152
为任意节点中两部发射机总发射功率上限值,pi为节点ni的欺骗功率值,
Figure RE-GDA0003757239710000153
为节点ni的数据传输功率值,
Figure RE-GDA0003757239710000154
为节点ni在信道ci上的信道增益;χi表示二进制系数,节点ni执行动作ai,判断干扰信号是否干扰自身正常通信,如果是则χi=0,否则χi=1。
本实施方式还提出了一种基于背靠背协作学习的分布式诱骗抗干扰系统,包括由N个节点和1个反应式干扰机组成的无线通信网络;每个节点包括发射端和接收端,每个发射端配备有两台发射机,其中一台发射机用于向本节点中的接收端发射数据传输信号,另一台发射机用于向反应式干扰机发射诱骗信号;反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰;该无线通信网络采用所述的基于背靠背协作学习的分布式诱骗抗干扰方法。
值得注意的时,本实施方式中,无线通信网络中各节点可通过加装存储器实现抗干扰方法的改进,各存储器存储有适用于常规通信节点的计算机程序,故而无线通信网络中各通信节点可通过添加存储有相同计算机程序的存储器从而形成上述的基于背靠背协作学习的分布式诱骗抗干扰系统。如此,本实施方式中,存储器的设置为现有无线通信网络的改造提供了便利。
实施例
本实施例采用Python语言,基于Numpy数值计算框架对本发明提供的基于背靠背协作学习的分布式诱骗抗干扰方法进行了仿真验证,同时分析了所提算法的性能。仿真过程中,参数设定不影响一般性。
本实施例中,包含3个节点和1个反应式干扰机的分布式无线通信网络均匀随机分布在一个的2000×2000平方米的方形区域内,每个节点中发射端与接收端之间的距离为20米,发射端分别向反应式干扰机和本节点中的接收端发送信号。每个信道都满足瑞利衰落模型,其路径损耗因子α=2,瞬时衰落系数ξ服从均值为1的指数分布。
本实施例中,节点1的数据传输信道、节点2的数据传输信道和节点3的数据传输信道分别记作c1、c2和c3,节点1、节点2和节点3的诱骗信道均为c4
本实施例中参数设置如下表1所示:
表1:本实施例中基于背靠背协作学习的分布式诱骗抗干扰方法的参数设置
Figure RE-GDA0003757239710000161
统计本实施例中3个节点的抗干扰策略收敛次数和收敛后的欺骗策略,具体如图4所示。可知,该3个节点循环步骤S21-S24学习欺骗策略均在500个时隙内实现收敛,即在500个时隙以后各节点的诱骗信道和欺骗功率都保持不变。且本实施例中算法收敛所有节点都选择了信道2作为诱骗信道,证明了所提算法可以在无信息交互条件下使各节点将欺骗功率聚焦于同一特定诱骗信道。可见本实施例采用基于背靠背协作学习的分布式诱骗抗干扰方法,实现了干扰诱骗策略和数据传输策略的联合优化,提升了系统的有效接收功率。
为了进一步验证基于背靠背协作学习的分布式诱骗抗干扰方法的性能,本实施例中还通过两组对比试验验证基于背靠背协作学习的分布式诱骗抗干扰方法的有效接收功率。
对比试验1采用基于欺骗的Q学习方法,该方法通过一个集中控制器对无线通信网络中所有节点的诱骗策略和数据传输策略进行决策,并通过公共控制信道将相关抗干扰策略传输至每个节点,该方法能够获取无线通信网络中所有节点的完整策略信息。
对比试验2采用交叉检查Q学习方法,该方法是一种基于频谱跳变的抗干扰方法,每个节点通过估计无线通信网络中其他节点的抗干扰策略Q值表以避免信息交互带来的通信开销。
为了方便表述,本实施例中将采用基于背靠背协作学习的分布式诱骗抗干扰方法的试验记作验证试验。
结合图5可知,验证试验收敛慢,但是在500时隙以后无线通信网络中所有节点的有效接收功率之和还可以稳步上升,而对比试验1、对比试验2收敛后无线通信网络中所有节点的有效接收功率之和基本不变。且随着学习时隙数的增加,验证试验获得的系统有效接收功率逐步超越对比试验1-2并一直保持到最后,证明本发明所提基于背靠背协作学习的分布式诱骗抗干扰方法的抗干扰性能优于当前最新的集中式抗干扰方案即基于欺骗的Q学习方法,同时相比基于频谱跳变的抗干扰方法(即交叉检查Q学习方法)难以摆脱反应式干扰机的跟踪攻击,基于背靠背协作学习的分布式诱骗抗干扰方法通过干扰诱骗手段显著提升了系统的有效接收功率。
图6给出了验证实验和对比实验1的欺骗功率效费比对比图。通过仿真结果可以发现,发射相同功率的诱骗信号的前提下,验证实验可获取更高的网络吞吐量,可见本发明所提基于背靠背协作学习的分布式诱骗抗干扰方法的欺骗功率效费比优于基于欺骗的Q学习方法。
结合该实施例,通过验证实验和对比实验的对比可知,本发明提出的一种基于背靠背协作学习的分布式诱骗抗干扰方法,不仅能通过背靠背协作机制在无信息交互的情况下实现联合抗干扰并取得更高的通信系统容量,还显著提升了欺骗功率效费比,有效延长节点生命周期。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。

Claims (10)

1.一种基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,适用于由N个节点和1个反应式干扰机组成的无线通信网络;每个节点包括发射端和接收端,每个发射端均配备有两台发射机,其中一台发射机用于向本节点中的接收端发射数据传输信号,另一台发射机用于向反应式干扰机发射诱骗信号;反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰;
所述分布式诱骗抗干扰方法包括以下步骤:
S1、定义节点ni的动作ai={ci,vi,pi},其中,ci为节点ni的数据传输信道,vi为节点ni选择的诱骗信道,pi为节点ni的欺骗功率值;
定义节点ni的抗干扰策略为
Figure RE-FDA0003757239700000011
其中,A为动作空间,表示为A=M×M×T;M为可用信道集合,M={信道1,信道2,…,信道m},m为可用信道总数量;T为欺骗功率档位集合,记为T={p1,p2,…,pL},p1,p2,…,pL均为功率值,且p1<p2<……<pL,pL为设定欺骗功率上限值,L表示欺骗功率档位数量,pi∈T;πi(ai)表示节点ni选择动作ai的概率值,
Figure RE-FDA0003757239700000012
定义诱骗策略推测集合
Figure RE-FDA0003757239700000013
其中,p-i为除节点ni以外的其他所有节点选择的欺骗功率向量,p-i={p1 p2…pi-2 pi-1 pi+1 pi+2…pN},其中pi-1为节点ni-1的欺骗功率值,以此类推;p-i为所有欺骗功率向量p-i的集合,即除节点ni以外的其他所有节点选择的欺骗功率向量的不同组合;
Figure RE-FDA0003757239700000014
为t时隙上节点ni推测其他所有节点选择欺骗功率向量p-i的概率值,
Figure RE-FDA0003757239700000015
N为节点总数;
定义诱骗策略推测更新函数:
Figure RE-FDA0003757239700000016
其中,
Figure RE-FDA0003757239700000021
为欺骗功率向量p-i对应的推测更新系数,
Figure RE-FDA0003757239700000022
为定义的推测更新系数集合;
Figure RE-FDA0003757239700000023
为t+1时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-FDA0003757239700000024
为t时隙上节点ni选择欺骗功率pi的概率值。
定义学习回报:
Figure RE-FDA0003757239700000025
其中,
Figure RE-FDA0003757239700000026
表示t时隙上节点ni执行动作ai后获得的学习回报;
Figure RE-FDA0003757239700000027
表示节点ni的诱骗策略推测集合,
Figure RE-FDA0003757239700000028
ri表示节点ni执行动作ai后的有效数据接收功率,D表示节点ni观测得到的诱骗信道数量;ε1、ε2、ε3为预设常数;
定义抗干扰策略更新函数:
Figure RE-FDA0003757239700000029
其中,a表示动作,a∈A;
Figure RE-FDA00037572397000000210
表示t+1时隙上节点ni选择动作a的概率值,
Figure RE-FDA00037572397000000211
表示t时隙上节点ni选择动作a的概率值;θ为学习率,θ为预设常数;
S2、针对任意节点ni,执行以下步骤;
S21、初始化
Figure RE-FDA00037572397000000212
Figure RE-FDA00037572397000000213
表示t时隙上节点ni选择动作ai的概率值;
Figure RE-FDA00037572397000000214
表示t时隙上节点ni的诱骗策略推测集合;
Figure RE-FDA00037572397000000215
分别表示
Figure RE-FDA00037572397000000216
的初始化值;初始化t=0;
S22、判断迭代次数是否达到设定值;否,则执行以下步骤S23-S25;是,则此后所有时隙上节点ni均根据t时隙上的抗干扰策略
Figure RE-FDA00037572397000000217
选择动作ai
S23、节点ni在t时隙上基于
Figure RE-FDA00037572397000000218
选择动作ai,观测诱骗信道数量D并获得执行动作ai后的有效数据接收功率ri;计算学习回报
Figure RE-FDA00037572397000000219
S24、节点ni基于抗干扰策略更新函数获取下一个时隙上的抗干扰策略
Figure RE-FDA00037572397000000220
节点ni基于诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合
Figure RE-FDA00037572397000000221
S25、令t=t+1,然后返回步骤S22。
2.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,S23中,节点ni有效数据接收功率ri的计算公式为:
Figure RE-FDA0003757239700000031
其中,
Figure RE-FDA0003757239700000032
为任意节点中两部发射机总发射功率上限值,pi为节点ni的欺骗功率值,
Figure RE-FDA0003757239700000033
为节点ni的数据传输功率值,
Figure RE-FDA0003757239700000034
为节点ni在信道ci上的信道增益;χi表示二进制系数,节点ni执行动作ai后,判断干扰信号是否干扰自身正常通信,如果是则χi=0,否则χi=1。
3.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,S21中,
Figure RE-FDA0003757239700000035
Figure RE-FDA0003757239700000036
Figure RE-FDA0003757239700000037
Figure RE-FDA0003757239700000038
其中,a={c,v,pi}表示节点ni选择的欺骗功率为pi的任意动作,
Figure RE-FDA0003757239700000039
表示t时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-FDA00037572397000000310
Figure RE-FDA00037572397000000311
的初始化值;M为可用信道集合;c表示数据传输信道,v表示诱骗信道;L表示欺骗功率档位数量,N为节点总数。
4.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,S1中诱骗策略推测更新函数为:
Figure RE-FDA00037572397000000312
其中,p-i为除节点ni以外的所有节点选择的欺骗功率向量,
Figure RE-FDA00037572397000000313
为t时隙上节点ni推测其他所有节点选择欺骗功率向量p-i的概率值;
Figure RE-FDA00037572397000000314
为欺骗功率向量p-i对应的推测更新系数,
Figure RE-FDA0003757239700000041
为定义参数集合;p-i为所有欺骗功率向量p-i的集合;
Figure RE-FDA0003757239700000042
为t+1时隙上节点ni选择欺骗功率pi的概率值,
Figure RE-FDA0003757239700000043
为t时隙上节点ni选择欺骗功率pi的概率值;
Figure RE-FDA0003757239700000044
表示p-i为p-i中的任一个向量。
5.如权利要求4所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,参数集合
Figure RE-FDA0003757239700000045
的设置满足以下约束:
Figure RE-FDA0003757239700000046
Figure RE-FDA0003757239700000047
其中,δ为推测更新系数的初始化参数,δ=10-10
Figure RE-FDA0003757239700000048
表示任意p-i
6.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,S1中学习回报根据以下公式计算获得:
Figure RE-FDA0003757239700000049
ε1、ε2、ε3为设定常数;D表示节点ni观测到的诱骗信道数量;
χi、γi和ηi均表示二进制系数;节点ni执行动作ai后,观测无线通信网络中节点ni以外的其他节点的正常通信是否被节点ni的诱骗信号干扰,如果被干扰则γi=0,否则γi=1;节点ni执行动作ai后,判定反应式干扰信号是否干扰自身正常通信,如果是则χi=0,否则χi=1;观测反应式干扰信号是否被无线通信网络中任一节点的诱骗信号成功吸引,如果是则ηi=1,否则ηi=0;所述反应式干扰信号为反应式干扰机发送的干扰信号;
Pi total为节点ni对无线通信网络中所有节点的总欺骗功率值的推测值:
Figure RE-FDA00037572397000000410
Figure RE-FDA0003757239700000056
其中,p-i为除节点ni以外的所有其他节点选择的欺骗功率向量,p-i为所有欺骗功率向量p-i的集合;pi为节点ni的欺骗功率值,
Figure RE-FDA0003757239700000051
为t时隙上节点ni推测其他所有节点选择欺骗功率向量p-i的概率值,pk为除节点ni外的任一节点nk的欺骗功率值,pk∈T。
7.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,S1中抗干扰策略更新函数为:
Figure RE-FDA0003757239700000052
其中,θ为学习率,
Figure RE-FDA0003757239700000053
表示t时隙上节点ni的学习回报,
Figure RE-FDA0003757239700000054
为t时隙上节点ni选择动作a的概率值,
Figure RE-FDA0003757239700000055
为t+1时隙上节点ni选择动作a的概率值。
8.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法,其特征在于,在单个时隙内,无线通信网络中用于发射数据传输信号的发射机和用于发射诱骗信号的发射机错时工作;每个时隙中对无线通信网络中的信道进行两次观测,第一次观测设置在用于发射数据传输信号的发射机工作且用于发射诱骗信号的发射机不工作的时间段上,第二次观测设置在用于发射数据传输信号的发射机和用于发射诱骗信号的发射机同时工作的时间段上;通过两次信道观测的对比判断诱骗信道数量D。
9.一种基于背靠背协作学习的分布式诱骗抗干扰系统,其特征在于,包括由N个节点和1个反应式干扰机组成的无线通信网络;每个节点包括发射端和接收端,发射端配备有两台发射机,其中一台发射机用于向本节点中的接收端发射数据传输信号,另一台发射机用于向反应式干扰机发射诱骗信号;反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰;所述无线通信网络采用如权利要求1至8任一项所述的基于背靠背协作学习的分布式诱骗抗干扰方法。
10.一种基于背靠背协作学习的分布式诱骗抗干扰系统,其特征在于,包括存储器,所述存储器用于存储计算机程序,所述计算机程序被执行时,实现的抗干扰方法包括以下步骤:
S21、初始化
Figure RE-FDA0003757239700000061
Figure RE-FDA0003757239700000062
表示t时隙上节点ni选择动作ai的概率值;
Figure RE-FDA0003757239700000063
表示t时隙上节点ni的诱骗策略推测集合;
Figure RE-FDA0003757239700000064
分别表示
Figure RE-FDA0003757239700000065
的初始化值;初始化t=0;ai={ci,vi,pi},其中,ci为节点ni的数据传输信道,vi为节点ni的诱骗信道,pi为节点ni的欺骗功率值;p-i为除节点ni以外的其他所有节点选择的欺骗功率向量,p-i={p1 p2…pi-2 pi-1 pi+1 pi+2…pN},pi-1为节点ni-1的欺骗功率值,以此类推;p-i为所有欺骗功率向量p-i的集合;
S22、判断迭代次数是否达到设定值;否,则执行以下步骤S23-S25;是,则此后所有时隙上节点ni均根据t时隙上的抗干扰策略
Figure RE-FDA0003757239700000066
选择动作ai
S23、节点ni在t时隙上基于
Figure RE-FDA0003757239700000067
选择动作ai,观测诱骗信道数量D并获得执行动作ai后的有效数据接收功率ri;基于设定的学习回报计算规则计算学习回报
Figure RE-FDA0003757239700000068
S24、节点ni基于设定的抗干扰策略更新函数获取的下一个时隙上的抗干扰策略
Figure RE-FDA0003757239700000069
节点ni基于设定的诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合
Figure RE-FDA00037572397000000610
S25、令t=t+1,然后返回步骤S22。
CN202210528197.0A 2022-05-16 2022-05-16 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统 Active CN115085856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210528197.0A CN115085856B (zh) 2022-05-16 2022-05-16 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210528197.0A CN115085856B (zh) 2022-05-16 2022-05-16 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统

Publications (2)

Publication Number Publication Date
CN115085856A true CN115085856A (zh) 2022-09-20
CN115085856B CN115085856B (zh) 2024-06-04

Family

ID=83246803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210528197.0A Active CN115085856B (zh) 2022-05-16 2022-05-16 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统

Country Status (1)

Country Link
CN (1) CN115085856B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333612A (zh) * 2022-10-13 2022-11-11 中国人民解放军战略支援部队航天工程大学 基于欺骗机制的卫星互联网抗干扰方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120051239A1 (en) * 2010-08-25 2012-03-01 University Of Florida Research Foundation, Inc. Efficient protocols against sophisticated reactive jamming attacks
CN108353081A (zh) * 2015-09-28 2018-07-31 13部门有限公司 无人机入侵检测和对抗
WO2020091170A1 (ko) * 2018-11-02 2020-05-07 고려대학교 산학협력단 협력 재밍과 스푸핑을 이용한 무선 통신 채널 감시 시스템 및 방법
CN112346087A (zh) * 2020-11-04 2021-02-09 上海交通大学 多峰检测和增益监测结合的gnss欺骗检测方法及系统
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120051239A1 (en) * 2010-08-25 2012-03-01 University Of Florida Research Foundation, Inc. Efficient protocols against sophisticated reactive jamming attacks
CN108353081A (zh) * 2015-09-28 2018-07-31 13部门有限公司 无人机入侵检测和对抗
WO2020091170A1 (ko) * 2018-11-02 2020-05-07 고려대학교 산학협력단 협력 재밍과 스푸핑을 이용한 무선 통신 채널 감시 시스템 및 방법
CN112346087A (zh) * 2020-11-04 2021-02-09 上海交通大学 多峰检测和增益监测结合的gnss欺骗检测方法及系统
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YIHANG DU: "Interference-Aware Spectrum Resource Management in Dynamic Environment: Strategic Learning With Higher-Order Statistic Optimization", 《IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》, 20 April 2022 (2022-04-20) *
张余: "一种基于比特流特征识别的无线信道入侵检测方法", 《航天电子对抗》, 28 August 2018 (2018-08-28) *
张涛;任志良;孙常存;李耀波;: "鱼雷电磁引信接收机对欺骗式干扰抗干扰能力评估", 鱼雷技术, no. 03, 15 June 2011 (2011-06-15) *
徐靖涛;陆钰;王金根;: "无人机通信链路抗干扰手段探析", 桂林航天工业高等专科学校学报, no. 04, 15 December 2007 (2007-12-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333612A (zh) * 2022-10-13 2022-11-11 中国人民解放军战略支援部队航天工程大学 基于欺骗机制的卫星互联网抗干扰方法

Also Published As

Publication number Publication date
CN115085856B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
Wang et al. CatchIt: Detect malicious nodes in collaborative spectrum sensing
Chen et al. DQN-based power control for IoT transmission against jamming
CN109274456B (zh) 一种基于强化学习的不完全信息智能抗干扰方法
Wang et al. Anti-jamming communication in cognitive radio networks with unknown channel statistics
Aref et al. Survey on cognitive anti‐jamming communications
CN113382381B (zh) 一种基于贝叶斯q学习的无人机集群网络智能跳频方法
Van Huynh et al. DeepFake: Deep dueling-based deception strategy to defeat reactive jammers
He et al. Improving learning and adaptation in security games by exploiting information asymmetry
CN113973362B (zh) 强化学习非零和非合作多智能体安全通信功率控制方法
CN115085856A (zh) 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
Bi et al. Deep reinforcement learning based multi-user anti-jamming strategy
Uddin et al. Carrier sensing-based medium access control protocol for WLANs exploiting successive interference cancellation
Ibrahim et al. Anti-jamming game to combat intelligent jamming for cognitive radio networks
CN110061982B (zh) 一种基于强化学习的对抗智能攻击安全传输方法
Song et al. Optimizing DoS attack energy with imperfect acknowledgments and energy harvesting constraints in cyber-physical systems
CN113038567B (zh) 多中继通信中的抗干扰系统的抗干扰方法
Yu et al. The security of physical layer in cognitive radio networks
Karmakar et al. SmartBond: A deep probabilistic machinery for smart channel bonding in IEEE 802.11 ac
Arghavani et al. A game-theoretic approach to covert communications in the presence of multiple colluding wardens
CN116866895A (zh) 一种基于神经虚拟自博弈的智能对抗方法
CN112272072B (zh) 针对非理想wcsi隐蔽通信的稳健波束成形设计方法
Sarıtaş et al. Adversarial attacks on CFO-based continuous physical layer authentication: A game theoretic study
CN110933679B (zh) 一种依概率主动窃听下的稳健d2d功率控制方法
CN117768010B (zh) 一种基于分层斯坦伯格博弈与匹配博弈的卫星抗干扰方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant