CN115085856A

CN115085856A - 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统

Info

Publication number: CN115085856A
Application number: CN202210528197.0A
Authority: CN
Inventors: 杜奕航; 乔晓强; 张余; 张涛; 钱鹏智; 司呈呈; 郭辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-09-20
Anticipated expiration: 2042-05-16
Also published as: CN115085856B

Abstract

本发明提出的基于背靠背协作学习的分布式诱骗抗干扰方法中，各节点基于相同的信念在无信息交互的条件下根据特定抗干扰策略更新机制制定自身的抗干扰策略，通过背靠背协作机制联合抵抗反应式干扰攻击。各节点持有的相同信念为“单边策略的改变会导致其他节点的联合策略发生线性变化”，在该信念下，各节点在制定自身抗干扰策略时能够对其他节点的诱骗策略进行推测，并在该推测的基础上制定自身抗干扰策略，实现无信息交互条件下的协作抗干扰。该方法应用于分布式无线通信网络场景中，可使用户不通过任何信息交互即可学习到有效的欺骗式抗干扰策略，同时自主选择高效通信策略，在抵御反应式干扰攻击的同时最大化通信系统容量。

Description

一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统

技术领域

本发明涉及无线通信领域，尤其涉及一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统。

背景技术

由于无线通信具有开放性和易探测性，无线通信系统极易受到敌方恶意干扰攻击。随着干扰方式和手段趋于智能化，反应式干扰技术得到了快速发展和应用。反应式干扰机能够对传输信道进行持续监测，当检测到用户信号传输后自适应调整干扰策略并施放干扰，从而使得基于频谱跳变的传统抗干扰方法无法摆脱干扰机追踪而失效。针对反应式干扰机持续跟踪、隐蔽性强、生命周期长等特点，有必要采取相应的诱骗式抗干扰策略，通过欺骗手段使其攻击某一“诱饵”目标，从而保证合法用户的有效数据传输。

目前，基于“诱饵”信道的诱骗式抗干扰方法是应对反应式干扰攻击的一种有效手段。在该方案中，每个节点中的发射端均配备两部发射机，使用其中一部进行数据传输，另一部发射机则用于发射诱骗信号。根据特定协议，所有发射端均通过同一特定信道发射有限功率假信号，联合吸引反应式干扰机对该“诱饵”信道发起攻击，从而保护合法用户正常通信。具体可参考：Pourranjbar A,etc.,“Reinforcement learning for deceivingreactive jammers in wireless networks”,IEEE Transactions on Communications,vol.69,no.6, June.2021。然而，该方法需要获取无线通信网络中所有通信节点的完整策略信息，因而仅适用于集中式无线通信网络场景。在分布式无线通信网络中，各通信节点无法承受如此巨大的信息交互通信开销，获取完整的网络信息是不现实的。不仅如此，由于该方案中智能体的状态和动作均包含其他所有通信节点的频谱选择策略，当节点数量较多时极易造成“维度灾难”，大幅增加智能体的存储开销。

发明内容

为了解决上述现有技术中缺乏用于分布式无线通信网络诱骗抗干扰方法的缺陷，本发明提出了一种基于背靠背协作学习的分布式诱骗抗干扰方法，该方法应用于分布式无线通信网络场景中，可使各通信节点不通过任何信息交互即可学习到有效的欺骗式抗干扰策略，同时自主选择高效通信策略，在抵御反应式干扰攻击的同时最大化通信系统容量。

本发明提出的一种基于背靠背协作学习的分布式诱骗抗干扰方法，适用于由N个节点和1个反应式干扰机组成的无线通信网络；每个节点包括发射端和接收端，每个发射端均配备有两台发射机，其中一台发射机用于向本节点中的接收端发射数据传输信号，另一台发射机用于向反应式干扰机发射诱骗信号；反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰；

所述分布式诱骗抗干扰方法包括以下步骤：

S1、定义节点n_i的动作a_i＝{c_i,v_i,p_i}，其中，c_i为节点n_i的数据传输信道，v_i为节点n_i选择的诱骗信道，p_i为节点n_i的欺骗功率值；

定义节点n_i的抗干扰策略为

其中，A为动作空间，表示为 A＝M×M×T；M为可用信道集合，M＝{信道1,信道2,…,信道m}，m为可用信道总数量；T为欺骗功率档位集合，记为T＝{p¹,p²,…,p^L}，p¹,p²,…,p^L均为功率值，且p¹＜p²＜……＜p^L，p^L为设定欺骗功率上限值，L表示欺骗功率档位数量，p_i∈T；π_i(a_i)表示节点n_i选择动作a_i的概率值，

定义诱骗策略推测集合

其中，p_-i为除节点n_i以外的其他所有节点选择的欺骗功率向量，p_-i＝{p₁ p₂ … p_i-2 p_i-1 p_i+1 p_i+2 … p_N}，其中 p_i-1为节点n_i-1的欺骗功率值，以此类推；p_-i为所有欺骗功率向量p_-i的集合，即除节点n_i以外的其他所有节点选择的欺骗功率向量的不同组合；

为t时隙上节点n_i推测其他所有节点选择欺骗功率向量p_-i的概率值，

N 为节点总数；

定义诱骗策略推测更新函数：

其中，

为欺骗功率向量p_-i对应的推测更新系数，

为定义的推测更新系数集合；

为t+1时隙上节点n_i选择欺骗功率p_i的概率值，

为t 时隙上节点n_i选择欺骗功率p_i的概率值。

定义学习回报：

其中，

表示t时隙上节点n_i执行动作a_i后获得的学习回报；

表示节点n_i的诱骗策略推测集合，

r_i表示节点n_i执行动作a_i后的有效数据接收功率，D表示节点n_i观测得到的诱骗信道数量；ε₁、ε₂、ε₃为预设常数；

定义抗干扰策略更新函数：

其中，a表示动作，a∈A；

表示t+1时隙上节点n_i选择动作a的概率值，

表示t时隙上节点n_i选择动作a的概率值；θ为学习率，θ为预设常数；

S2、针对任意节点n_i，执行以下步骤；

S21、初始化

表示t时隙上节点n_i选择动作a_i的概率值；

表示t时隙上节点n_i的诱骗策略推测集合；

分别表示

的初始化值；初始化t＝0；

S22、判断迭代次数是否达到设定值；否，则执行以下步骤S23-S25；是，则此后所有时隙上节点n_i均根据t时隙上的抗干扰策略

选择动作a_i；

S23、节点n_i在t时隙上基于

选择动作a_i，观测诱骗信道数量D并获得执行动作a_i后的有效数据接收功率r_i；计算学习回报

S24、节点n_i基于抗干扰策略更新函数获取下一个时隙上的抗干扰策略

节点n_i基于诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合

S25、令t＝t+1，然后返回步骤S22。

优选的，S23中，节点n_i有效数据接收功率r_i的计算公式为：

其中，

为任意节点中两部发射机总发射功率上限值，p_i为节点n_i的欺骗功率值，

为节点n_i的数据传输功率值，

为节点n_i在信道c_i上的信道增益；χ_i表示二进制系数，节点n_i执行动作a_i后，判断干扰信号是否干扰自身正常通信，如果是则χ_i＝0，否则χ_i＝1。

优选的，S21中，

其中，a＝{c,v,p_i}表示节点n_i选择的欺骗功率为p_i的任意动作，

表示t时隙上节点n_i选择欺骗功率p_i的概率值，

为

的初始化值；M为可用信道集合；c表示数据传输信道，v表示诱骗信道；L表示欺骗功率档位数量，N 为节点总数。

优选的，S1中诱骗策略推测更新函数为：

其中，p_-i为除节点n_i以外的所有节点选择的欺骗功率向量，

为t时隙上节点n_i推测其他所有节点选择欺骗功率向量p_-i的概率值；

为欺骗功率向量p_-i对应的推测更新系数，

为定义参数集合；p_-i为所有欺骗功率向量 p_-i的集合；

为t+1时隙上节点n_i选择欺骗功率p_i的概率值，

为t时隙上节点n_i选择欺骗功率p_i的概率值；

表示p_-i为p_-i中的任一个向量。

优选的，参数集合

的设置满足以下约束：

其中，δ为推测更新系数的初始化参数，δ＝10^-10，

表示任意p_-i。

优选的，S1中学习回报根据以下公式计算获得：

ε₁、ε₂、ε₃为设定常数；D表示节点n_i观测到的诱骗信道数量；

χ_i、γ_i和η_i均表示二进制系数；节点n_i执行动作a_i后，观测无线通信网络中节点n_i以外的其他节点的正常通信是否被节点n_i的诱骗信号干扰，如果被干扰则γ_i＝0，否则γ_i＝1；节点n_i执行动作a_i后，判定反应式干扰信号是否干扰自身正常通信，如果是则χ_i＝0，否则χ_i＝1；观测反应式干扰信号是否被无线通信网络中任一节点的诱骗信号成功吸引，如果是则η_i＝1，否则η_i＝0；所述反应式干扰信号为反应式干扰机发送的干扰信号；

P_i ^total为节点n_i对无线通信网络中所有节点的总欺骗功率值的推测值：

其中，p_-i为除节点n_i以外的所有其他节点选择的欺骗功率向量，p_-i为所有欺骗功率向量p_-i的集合；p_i为节点n_i的欺骗功率值，

为t时隙上节点n_i推测其他所有节点选择欺骗功率向量p_-i的概率值，p_k为除节点n_i外的任一节点n_k的欺骗功率值，p_k∈T。

优选的，S1中抗干扰策略更新函数为：

其中，θ为学习率，

表示t时隙上节点n_i的学习回报，

为t时隙上节点n_i选择动作a的概率值，

为t+1时隙上节点n_i选择动作a的概率值。

优选的，在单个时隙内，无线通信网络中用于发射数据传输信号的发射机和用于发射诱骗信号的发射机错时工作；每个时隙中对无线通信网络中的信道进行两次观测，第一次观测设置在用于发射数据传输信号的发射机工作且用于发射诱骗信号的发射机不工作的时间段上，第二次观测设置在用于发射数据传输信号的发射机和用于发射诱骗信号的发射机同时工作的时间段上；通过两次信道观测的对比判断诱骗信道数量D。

本发明还提出了一种基于背靠背协作学习的分布式诱骗抗干扰系统，为上述基于背靠背协作学习的分布式诱骗抗干扰方法提供载体，便于所述方法的推广。

本发明提出的一种基于背靠背协作学习的分布式诱骗抗干扰系统，包括由 N个节点和1个反应式干扰机组成的无线通信网络；每个节点包括发射端和接收端，发射端配备有两台发射机，其中一台发射机用于向本节点中的接收端发射数据传输信号，另一台发射机用于向反应式干扰机发射诱骗信号；反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰；所述无线通信网络采用所述的基于背靠背协作学习的分布式诱骗抗干扰方法。

本发明提出的另一种基于背靠背协作学习的分布式诱骗抗干扰系统，包括存储器，所述存储器用于存储计算机程序，所述计算机程序被执行时，实现的抗干扰方法包括以下步骤：

S21、初始化

表示t时隙上节点n_i选择动作a_i的概率值；

表示t时隙上节点n_i的诱骗策略推测集合；

分别表示

的初始化值；初始化t＝0；a_i＝{c_i,v_i,p_i}，其中，c_i为节点n_i的数据传输信道，v_i为节点n_i的诱骗信道，p_i为节点n_i的欺骗功率值；p_-i为除节点n_i以外的其他所有节点选择的欺骗功率向量， p_-i＝{p₁ p₂ … p_i-2 p_i-1 p_i+1 p_i+2 … p_N}，p_i-1为节点n_i-1的欺骗功率值，以此类推；p_-i为所有欺骗功率向量p_-i的集合；

选择动作a_i；

S23、节点n_i在t时隙上基于

选择动作a_i，观测诱骗信道数量D并获得执行动作a_i后的有效数据接收功率r_i；基于设定的学习回报计算规则计算学习回报

S24、节点n_i基于设定的抗干扰策略更新函数获取的下一个时隙上的抗干扰策略

节点n_i基于设定的诱骗策略推测更新函数获取下一个时隙上的诱骗策略推测集合

S25、令t＝t+1，然后返回步骤S22。

本发明的优点在于：

(1)本发明提出的基于背靠背协作学习的分布式诱骗抗干扰方法，首先通过策略和算法定义，使得各节点持有共同的信念即“单边策略的改变会导致其他节点的联合策略发生线性变化”，并在该信念的基础上对其他节点的干扰诱骗策略进行推测，从而使得各节点基于特定的策略更新算法结合自身特点和对其他节点的策略推测选择抗干扰策略，实现了无线通信网络中各节点在无需进行任何信息交互的状态下联合抵抗反应式干扰攻击。

(2)本发明中，通过算法定义使得各节点实现背靠背协作，在持有相同信念的基础上，各节点仅通过推测其他节点的干扰诱骗策略从而独立学习抗干扰策略，在学习过程中各节点之间没有信息交互，实现了干扰诱骗策略和数据传输策略的联合优化，在极大降低网络通信开销的前提下提升了系统的有效接收功率。

(3)本发明采用背靠背协作的学习机制，各节点基于共同信念而非信息交互实现联合抵抗反应式干扰攻击，避免了节点之间信息交互所造成的额外通信开销，也极大减小了单个节点的存储空间占用，取得了更高的通信系统容量，适用于分布式无线通信网络等对通信开销敏感的应用场景。

(4)与现有技术相比，在发射相同功率的诱骗信号时，本发明可获取更高的网络吞吐量，显著提升了欺骗功率效费比，可有效延长节点生命周期。

(5)可见与现有技术相比，本发明提出了一种具有弱连接、轻量化、高效费比等显著优势的适用于分布式无线通信网络的诱骗抗干扰方法。

(6)本发明中，各节点的抗干扰策略初始化值相同，各节点的诱骗策略推测集合的初始化值相同，且规定了各参数的计算公式，从而使得各节点的协作抗干扰策略更加默契，进一步提高了背靠背协作的可靠性。

(7)本发明提出了一种基于背靠背协作学习的分布式诱骗抗干扰系统，为上述基于背靠背协作学习的分布式诱骗抗干扰方法提供了适用于常规通信节点的载体，如此现有无线通信网络只需要加载存储器便可改造为基于背靠背协作学习的分布式诱骗抗干扰系统，改造成本低，效益高。

附图说明

图1是本发明基于背靠背协作学习的分布式诱骗抗干扰方法的系统模型图。

图2是本发明中基于背靠背协作学习算法的流程示意图。

图3是本发明中分布式诱骗抗干扰方法的帧结构示意图。

图4(a)是本发明实施例中节点1的欺骗策略变化曲线图。

图4(b)是本发明实施例中节点2的欺骗策略变化曲线图。

图4(c)是本发明实施例中节点3的欺骗策略变化曲线图。

图5是本发明所设计的算法与基于欺骗的Q学习方法和交叉检查Q学习方法(交叉检查Q学习方法)的系统有效接收功率对比。

图6是本发明所设计的算法与基于欺骗的Q学习方法的欺骗功率效费比对比。

具体实施方式

一种基于背靠背协作学习的分布式诱骗抗干扰方法

本实施方式提出的一种基于背靠背协作学习的分布式诱骗抗干扰方法，适用于由N个节点和1个反应式干扰机组成的无线通信网络；每个节点包括发射端和接收端，每个发射端均配备有两台发射机，其中一台发射机用于向本节点中的接收端发射数据传输信号，另一台发射机用于向反应式干扰机发射诱骗信号；反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰。

本实施方式中，各节点基于相同的信念在无信息交互条件下根据特定的学习回报计算函数、抗干扰策略更新函数、诱骗策略推测更新函数等制定自身的抗干扰策略，实现背靠背协作抗干扰的效果。

本实施方式中，各节点持有的相同信念为“单边策略的改变会导致其他节点的联合策略发生线性变化”，在该信念下，各节点在制定自身抗干扰策略的时能够对其他节点的诱骗策略进行推测，并在该推测的基础上制定自身抗干扰策略，实现无信息交互条件下的联合抗干扰。

本实施方式中，各节点的抗扰动作维度均相同，且各节点基于相同的诱骗策略推测更新函数更新其诱骗策略推测集合，各节点基于相同的抗干扰策略更新函数更新抗干扰策略。

具体的，本实施方式中定义节点n_i的动作a_i＝{c_i,v_i,p_i}，其中，c_i为节点n_i的数据传输信道，v_i为节点n_i选择的诱骗信道，p_i为节点n_i的欺骗功率值。

定义节点n_i的抗干扰策略为

定义诱骗策略推测集合

其中，p_-i为除节点n_i以外的其他所有节点的欺骗功率向量，p_-i＝{p₁ p₂ … p_i-2 p_i-1 p_i+1 p_i+2 … p_N}，其中p_i-1为节点n_i-1的欺骗功率值，以此类推；p_-i为所有欺骗功率向量p_-i的集合，即除节点 n_i以外的其他所有节点选择的欺骗功率向量的不同组合；

为t时隙上节点 n_i推测其他所有节点选择欺骗功率向量p_-i的概率值，

N为节点总数。

现有的抗干扰策略中，各节点通过信息交互实时获知其他节点的抗干扰策略，除节点n_i以外的其他所有节点选择欺骗功率向量p_-i的真实概率值为

满足

由于分布式无线通信网络中的节点n_i无法获取整个网络的全局信息，节点n_i只能对其他节点的诱骗策略进行推测，

为节点n_i对其他所有节点选择欺骗功率向量p_-i的概率的推测值，故而本实施方式中定义诱骗策略推测集合

定义诱骗策略推测更新函数：

具体的，

其中，p_-i为除节点n_i以外的所有节点选择的欺骗功率向量，

为t时隙上节点n_i推测其他节点选择欺骗功率向量p_-i的概率值；

为欺骗功率向量 p_-i对应的推测更新系数，

为定义的推测更新系数集合；p_-i为所有欺骗功率向量p_-i的集合；

为t+1时隙上节点n_i选择欺骗功率p_i的概率值，

为t时隙上节点n_i选择欺骗功率p_i的概率值；

表示p_-i为p_-i中的任一个欺骗功率向量。

本实施方式中，参数集合

的设置满足以下约束：

其中，δ为推测更新系数的初始化参数，δ＝10^-10，

表示任意欺骗功率向量p_-i。

定义学习回报：

其中，

表示t时隙上节点n_i执行动作a_i后获得的学习回报；

表示节点n_i的诱骗策略推测集合，

r_i表示节点n_i执行动作a_i后的有效数据接收功率，D表示节点n_i观测得到的诱骗信道数量；ε₁、ε₂、ε₃为预设常数。

具体的，

χ_i、γ_i和η_i均表示二进制系数；节点n_i执行动作a_i后，观测无线通信网络中节点n_i以外的其他节点的正常通信是否被节点n_i的诱骗信号干扰，如果被干扰则γ_i＝0，否则γ_i＝1；节点n_i执行动作a_i后，判定反应式干扰信号是否干扰自身正常通信，如果是则χ_i＝0，否则χ_i＝1；观测反应式干扰信号是否被无线通信网络中任一节点的诱骗信号成功吸引，如果是则η_i＝1，否则η_i＝0；

为t时隙上节点n_i推测其他节点选择欺骗功率向量p_-i的概率值，p_k为除节点n_i外的任一节点n_k的欺骗功率值，p_k∈T。

定义抗干扰策略更新函数：

其中，a表示动作，a∈A；

表示t+1时隙上节点n_i选择动作a的概率值，

表示t时隙上节点n_i选择动作a的概率值；θ为学习率，θ为预设常数。

公式(3)具体为：

其中，θ为学习率，

表示t时隙上节点n_i的学习回报，

为t时隙上节点n_i选择动作a的概率值，

为t+1时隙上节点n_i选择动作a的概率值。

本实施方式中，各节点均采用以上定义，在此基础上各节点独立学习抗干扰策略，学习方法具体包括以下步骤。

S21、初始化

表示t时隙上节点n_i选择动作a_i的概率值；

表示t时隙上节点n_i的诱骗策略推测集合；

分别表示

的初始化值；初始化t＝0。

本实施方式中，为了进一步提高各节点的协作默契，初始化值

为固定值，具体为：

表示t时隙上节点n_i选择欺骗功率p_i的概率值，

为

选择动作a_i。即，本实施方式中在算法收敛后固定各节点的抗干扰策略。

S23、节点n_i在t时隙上基于

S24、节点n_i基于抗干扰策略更新函数获取的下一个时隙上的抗干扰策略

S25、令t＝t+1，然后返回步骤S22。

本实施方式中，结合抗干扰策略更新函数，实现了在关联学习回报的情况下实现抗干扰策略更新。

设置网络效益函数：

本实施方式基于各节点之间的背靠背协作，通过学习回报以及对网络中其他节点诱骗策略的推测对抗干扰策略进行更新，使得无线通信网络在无需信息交互的条件下实现了网络效益函数最大化的抗干扰通信效果。

本实施方式中，为了方便观测诱骗信道数量D，各节点的发射端中的两部发射机错时发送信号，以便根据观测到的不同时刻上各信道的通信功率对比判断诱骗信号占用的信道，从而获得诱骗信道数量D。

结合图3，各节点在单个时隙内通信步骤如下：将时隙起始时间记作0，0～T_a时间段上，各节点根据抗干扰策略选择动作；T_a～T_t时间段上，各节点的发射端配备的两部发射机分别在不同信道上发射数据传输信号和诱骗信号；具体的， (T_a)～(T_a+T_transmit)时间段上发射机1在数据传输信道上发射数据传输信号， (T_a+T_s)～(T_a+T_s+T_deception)时间段上发射机2在诱骗信道上发射诱骗信号， T_t＝T_transmit+T_ACK＝T_s+T_deception；(T_a+T_transmit)～(T_a+T_transmit+T_ACK)时间段上接收端通过数据传输信道向对应发射端的发射机1反馈ACK信令；(T_a+T_t)～(T_a+T_t+T_c)时间段上，各发射端计算学习回报；(T_a+T_t+T_c)～(T_a+T_t+T_c+T_u)时间段上，各发射端更新抗干扰策略和诱骗策略推测集合。

在每个时隙上，各发射端需要对无线通信网络中的所有可用信道进行两次观测，获取信道占用情况以及信道能量值，第一次观测在时间段T_a～(T_a+T_s)上，即只有发射机1工作的时间段上；第二次观测在(T_a+T_s)～(T_a+T_transmitt)时间段上，即发射机1和发射机2同时工作的时间段上，以便通过两次信道观测的对比判断诱骗信道数量D。

假设某个无线通信网络包含5个信道，分别为信道1、信道2、信道3、信道4和信道5。在某个时隙上，第一次观测获得被占用的信道包括：信道1、信道2、信道5；第二次观测获得被占用的信道包括：信道1、信道2、信道3、信道5，且信道5的能量值明显大于第一次观测中信道5的能量值。如此可知，诱骗信道为信道3和信道5，即D＝2。

本实施方式中，为了保证各节点背靠背协作的默契，还进一步规定了各参数的计算公式，具体如下。

S23中，节点n_i有效数据接收功率r_i的计算公式为：

其中，

为节点n_i的数据传输功率值，

为节点n_i在信道c_i上的信道增益；χ_i表示二进制系数，节点n_i执行动作a_i，判断干扰信号是否干扰自身正常通信，如果是则χ_i＝0，否则χ_i＝1。

本实施方式还提出了一种基于背靠背协作学习的分布式诱骗抗干扰系统，包括由N个节点和1个反应式干扰机组成的无线通信网络；每个节点包括发射端和接收端，每个发射端配备有两台发射机，其中一台发射机用于向本节点中的接收端发射数据传输信号，另一台发射机用于向反应式干扰机发射诱骗信号；反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰；该无线通信网络采用所述的基于背靠背协作学习的分布式诱骗抗干扰方法。

值得注意的时，本实施方式中，无线通信网络中各节点可通过加装存储器实现抗干扰方法的改进，各存储器存储有适用于常规通信节点的计算机程序，故而无线通信网络中各通信节点可通过添加存储有相同计算机程序的存储器从而形成上述的基于背靠背协作学习的分布式诱骗抗干扰系统。如此，本实施方式中，存储器的设置为现有无线通信网络的改造提供了便利。

实施例

本实施例采用Python语言，基于Numpy数值计算框架对本发明提供的基于背靠背协作学习的分布式诱骗抗干扰方法进行了仿真验证，同时分析了所提算法的性能。仿真过程中，参数设定不影响一般性。

本实施例中，包含3个节点和1个反应式干扰机的分布式无线通信网络均匀随机分布在一个的2000×2000平方米的方形区域内，每个节点中发射端与接收端之间的距离为20米，发射端分别向反应式干扰机和本节点中的接收端发送信号。每个信道都满足瑞利衰落模型，其路径损耗因子α＝2，瞬时衰落系数ξ服从均值为1的指数分布。

本实施例中，节点1的数据传输信道、节点2的数据传输信道和节点3的数据传输信道分别记作c₁、c₂和c₃，节点1、节点2和节点3的诱骗信道均为c₄。

本实施例中参数设置如下表1所示：

表1：本实施例中基于背靠背协作学习的分布式诱骗抗干扰方法的参数设置

统计本实施例中3个节点的抗干扰策略收敛次数和收敛后的欺骗策略，具体如图4所示。可知，该3个节点循环步骤S21-S24学习欺骗策略均在500个时隙内实现收敛，即在500个时隙以后各节点的诱骗信道和欺骗功率都保持不变。且本实施例中算法收敛所有节点都选择了信道2作为诱骗信道，证明了所提算法可以在无信息交互条件下使各节点将欺骗功率聚焦于同一特定诱骗信道。可见本实施例采用基于背靠背协作学习的分布式诱骗抗干扰方法，实现了干扰诱骗策略和数据传输策略的联合优化，提升了系统的有效接收功率。

为了进一步验证基于背靠背协作学习的分布式诱骗抗干扰方法的性能，本实施例中还通过两组对比试验验证基于背靠背协作学习的分布式诱骗抗干扰方法的有效接收功率。

对比试验1采用基于欺骗的Q学习方法，该方法通过一个集中控制器对无线通信网络中所有节点的诱骗策略和数据传输策略进行决策，并通过公共控制信道将相关抗干扰策略传输至每个节点，该方法能够获取无线通信网络中所有节点的完整策略信息。

对比试验2采用交叉检查Q学习方法，该方法是一种基于频谱跳变的抗干扰方法，每个节点通过估计无线通信网络中其他节点的抗干扰策略Q值表以避免信息交互带来的通信开销。

为了方便表述，本实施例中将采用基于背靠背协作学习的分布式诱骗抗干扰方法的试验记作验证试验。

结合图5可知，验证试验收敛慢，但是在500时隙以后无线通信网络中所有节点的有效接收功率之和还可以稳步上升，而对比试验1、对比试验2收敛后无线通信网络中所有节点的有效接收功率之和基本不变。且随着学习时隙数的增加，验证试验获得的系统有效接收功率逐步超越对比试验1-2并一直保持到最后，证明本发明所提基于背靠背协作学习的分布式诱骗抗干扰方法的抗干扰性能优于当前最新的集中式抗干扰方案即基于欺骗的Q学习方法，同时相比基于频谱跳变的抗干扰方法(即交叉检查Q学习方法)难以摆脱反应式干扰机的跟踪攻击，基于背靠背协作学习的分布式诱骗抗干扰方法通过干扰诱骗手段显著提升了系统的有效接收功率。

图6给出了验证实验和对比实验1的欺骗功率效费比对比图。通过仿真结果可以发现，发射相同功率的诱骗信号的前提下，验证实验可获取更高的网络吞吐量，可见本发明所提基于背靠背协作学习的分布式诱骗抗干扰方法的欺骗功率效费比优于基于欺骗的Q学习方法。

结合该实施例，通过验证实验和对比实验的对比可知，本发明提出的一种基于背靠背协作学习的分布式诱骗抗干扰方法，不仅能通过背靠背协作机制在无信息交互的情况下实现联合抗干扰并取得更高的通信系统容量，还显著提升了欺骗功率效费比，有效延长节点生命周期。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，适用于由N个节点和1个反应式干扰机组成的无线通信网络；每个节点包括发射端和接收端，每个发射端均配备有两台发射机，其中一台发射机用于向本节点中的接收端发射数据传输信号，另一台发射机用于向反应式干扰机发射诱骗信号；反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰；

所述分布式诱骗抗干扰方法包括以下步骤：

定义节点n_i的抗干扰策略为

其中，A为动作空间，表示为A＝M×M×T；M为可用信道集合，M＝{信道1,信道2,…,信道m}，m为可用信道总数量；T为欺骗功率档位集合，记为T＝{p¹,p²,…,p^L}，p¹,p²,…,p^L均为功率值，且p¹＜p²＜……＜p^L，p^L为设定欺骗功率上限值，L表示欺骗功率档位数量，p_i∈T；π_i(a_i)表示节点n_i选择动作a_i的概率值，

定义诱骗策略推测集合

其中，p_-i为除节点n_i以外的其他所有节点选择的欺骗功率向量，p_-i＝{p₁ p₂…p_i-2 p_i-1 p_i+1 p_i+2…p_N}，其中p_i-1为节点n_i-1的欺骗功率值，以此类推；p_-i为所有欺骗功率向量p_-i的集合，即除节点n_i以外的其他所有节点选择的欺骗功率向量的不同组合；

N为节点总数；

定义诱骗策略推测更新函数：

其中，

为欺骗功率向量p_-i对应的推测更新系数，

为定义的推测更新系数集合；

为t+1时隙上节点n_i选择欺骗功率p_i的概率值，

为t时隙上节点n_i选择欺骗功率p_i的概率值。

定义学习回报：

其中，

表示t时隙上节点n_i执行动作a_i后获得的学习回报；

表示节点n_i的诱骗策略推测集合，

定义抗干扰策略更新函数：

其中，a表示动作，a∈A；

表示t+1时隙上节点n_i选择动作a的概率值，

S2、针对任意节点n_i，执行以下步骤；

S21、初始化

表示t时隙上节点n_i选择动作a_i的概率值；

表示t时隙上节点n_i的诱骗策略推测集合；

分别表示

的初始化值；初始化t＝0；

选择动作a_i；

S23、节点n_i在t时隙上基于

S25、令t＝t+1，然后返回步骤S22。

2.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，S23中，节点n_i有效数据接收功率r_i的计算公式为：

其中，

为节点n_i的数据传输功率值，

3.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，S21中，

表示t时隙上节点n_i选择欺骗功率p_i的概率值，

为

的初始化值；M为可用信道集合；c表示数据传输信道，v表示诱骗信道；L表示欺骗功率档位数量，N为节点总数。

4.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，S1中诱骗策略推测更新函数为：

其中，p_-i为除节点n_i以外的所有节点选择的欺骗功率向量，

为欺骗功率向量p_-i对应的推测更新系数，

为定义参数集合；p_-i为所有欺骗功率向量p_-i的集合；

为t+1时隙上节点n_i选择欺骗功率p_i的概率值，

为t时隙上节点n_i选择欺骗功率p_i的概率值；

表示p_-i为p_-i中的任一个向量。

5.如权利要求4所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，参数集合

的设置满足以下约束：

其中，δ为推测更新系数的初始化参数，δ＝10^-10，

表示任意p_-i。

6.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，S1中学习回报根据以下公式计算获得：

7.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，S1中抗干扰策略更新函数为：

其中，θ为学习率，

表示t时隙上节点n_i的学习回报，

为t时隙上节点n_i选择动作a的概率值，

为t+1时隙上节点n_i选择动作a的概率值。

8.如权利要求1所述的基于背靠背协作学习的分布式诱骗抗干扰方法，其特征在于，在单个时隙内，无线通信网络中用于发射数据传输信号的发射机和用于发射诱骗信号的发射机错时工作；每个时隙中对无线通信网络中的信道进行两次观测，第一次观测设置在用于发射数据传输信号的发射机工作且用于发射诱骗信号的发射机不工作的时间段上，第二次观测设置在用于发射数据传输信号的发射机和用于发射诱骗信号的发射机同时工作的时间段上；通过两次信道观测的对比判断诱骗信道数量D。

9.一种基于背靠背协作学习的分布式诱骗抗干扰系统，其特征在于，包括由N个节点和1个反应式干扰机组成的无线通信网络；每个节点包括发射端和接收端，发射端配备有两台发射机，其中一台发射机用于向本节点中的接收端发射数据传输信号，另一台发射机用于向反应式干扰机发射诱骗信号；反应式干扰机对所有信道进行持续监测并选择接收功率值最高的信道进行压制性干扰；所述无线通信网络采用如权利要求1至8任一项所述的基于背靠背协作学习的分布式诱骗抗干扰方法。

10.一种基于背靠背协作学习的分布式诱骗抗干扰系统，其特征在于，包括存储器，所述存储器用于存储计算机程序，所述计算机程序被执行时，实现的抗干扰方法包括以下步骤：

S21、初始化

表示t时隙上节点n_i选择动作a_i的概率值；

表示t时隙上节点n_i的诱骗策略推测集合；

分别表示

的初始化值；初始化t＝0；a_i＝{c_i,v_i,p_i}，其中，c_i为节点n_i的数据传输信道，v_i为节点n_i的诱骗信道，p_i为节点n_i的欺骗功率值；p_-i为除节点n_i以外的其他所有节点选择的欺骗功率向量，p_-i＝{p₁ p₂…p_i-2 p_i-1 p_i+1 p_i+2…p_N}，p_i-1为节点n_i-1的欺骗功率值，以此类推；p_-i为所有欺骗功率向量p_-i的集合；

选择动作a_i；

S23、节点n_i在t时隙上基于

S25、令t＝t+1，然后返回步骤S22。