CN112867087B

CN112867087B - 一种基于多用户随机森林强化学习的抗干扰方法

Info

Publication number: CN112867087B
Application number: CN202110076580.2A
Authority: CN
Inventors: 徐煜华; 黄璐莹; 汪西明; 李文; 徐逸凡; 姚凯凌
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2023-08-04
Anticipated expiration: 2041-01-20
Also published as: CN112867087A

Abstract

本发明公开了一种基于多用户随机森林强化学习的抗干扰方法。首先，将多用户多中继场景中的抗干扰通信问题建模为马尔科夫博弈，其次，基于多用户随机森林强化学习算法，同时考虑外界干扰和用户之间的互干扰，每个时隙后用户之间进行信息交互，每个用户对的接收端根据当前信道质量作出下一步决策，通过控制信道将决策反馈给中继和主用户。循环执行“决策‑反馈‑调整”，当达到最大循环次数时，算法结束。本发明模型完备，物理意义清晰，设计算法合理有效，能够很好地刻画基于多用户随机森林强化学习算法的多用户多中继通信抗干扰场景。

Description

一种基于多用户随机森林强化学习的抗干扰方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于多用户随机森林强化学习的抗干扰方法。

背景技术

在远距离通信中，中继的存在为通信双方提供了可靠的接入点，并通过信息的二次转发来保证通信质量。在认知中继网络中，中继选择是获得分集增益的有效途径之一。(参考文献K.Yang,et al.,“Efficient Full-Duplex Relaying With Joint Antenna-Relay Selection and Self-Interference Suppression.”IEEE Transactions onWireless Communications,vol.14,no.7,pp.3991-4005,July 2015.)。在多中继通信网络中，选择一个最优的中继节点可以使用户的接收信噪比最大，有效的提高系统吞吐量。然而由于无线通信环境的开放性，无线通信系统极易遭受恶意干扰的攻击，影响多中继场景中的中继选择。特别是当可选中继节点都在干扰范围内时，传统的中继选择方案无法躲避干扰的攻击，从而影响中继节点到目的节点的通信质量。

发明内容

本发明的目的是针对现有技术的问题，提出了一种基于多用户随机森林强化学习的抗干扰方法。在多用户多中继通信场景下，不仅仅存在外界的恶意干扰，同时用户间也存在互扰，将此抗干扰问题建模为马尔科夫博弈，采用多用户随机森林强化学习方法解决中继和信道选择联合优化抗干扰问题。各个用户通过信息交互做出最优联合决策以最大化系统吞吐量。

本发明采用的技术方案为：一种基于多用户随机森林强化学习的抗干扰方法，包括N个主用户、R个中继节点，一个主用户和一个中继节点组成一个通信用户对；一个干扰机对用户通信实施干扰；每个通信时隙后，用户之间进行信息交互，基于多用户随机森林强化学习算法，每个用户对的接收端做出抗干扰决策，通过不断的“决策-反馈-调整”，实现抗干扰通信；具体包括以下步骤：

步骤1，初始化：设置初始化状态其中f_jx(0)表示在初始时刻干扰机所在的信道，/>表示初始时刻用户的联合信道动作；初始化各个用户的Q值表Q_n，n∈N，设置学习参数、仿真时隙数为k，k＞0；

步骤2，计算选择该策略的回报值，观察选择该策略后下一时刻的状态变化；

步骤3，根据当前回报值，以及观察到的下一时刻状态，更新用户Q值表；

步骤4，用户交互各自的评估函数，根据当前所有用户的评估函数之和选择联合动作，并按采用ε-greedy的策略更新方式；并返回步骤2；

循环步骤2～4，直至达到最大迭代次数，算法结束。

优选的是，本发明将当前时隙的频谱信息定义为状态，通过与环境进行不断交互，决策出联合最优决策，具体如下：

环境状态集定义为其中，/>表示k时隙时用户n和协助用户m选择的联合信道，表示为/>其中/>表示笛卡尔积，/>表示用户可选的信道集合；f_jx(k)表示干扰机在k时隙所在的信道；动作集表示为/>苴中/>表示k时隙用户n和协助用户m选择的联合中继节点，表示为/>其中/>表示用户n可选的中继节点集合；用户在s^k状态下执行动作a^k转移到状态s^k+1的转移概率表示为对于立即回报r定义为：r_n＝SINR_n(f_txn，R_ni)。

优选的是，本发明步骤2中计算选择该策略的回报值，观察选择该策略后下一时刻的状态变化；具体过程如下：通信用户n接收端的信干噪比SINR表示为：

其中R_n表示用户n选择的中继节点，R_m表示用户m选择的中继节点，为中继节点R_n的放大系数，p_m表示用户m的传输功率，p_n表示用户n的传输功率，J表示干扰机的干扰功率。/>表示用户n发射机到中继节点R_n的信道增益，/>表示中继节点R_n到用户n接收机的信道增益，/>表示在中继节点R_n处的噪声，N_n表示用户n接收机的噪声，/>表示干扰机到中继节点R_n的信道增益，/>表示干扰机到用户n接收机的信道增益。

公式(1)中，f_txn表示用户n的通信信道，f_txm表示用户m的通信信道，f_jx表示干扰信道；R_n表示协助用户n通信的中继节点，R_m表示协助用户m通信的中继节点，当f_txn≠f_jx&f_txn≠f_txm&R_n≠R_m时，表示用户n既不受外界干扰的攻击同时与其他用户之间也没有互扰；当f_txn＝f_jx&f_txn＝f_txm&R_n≠R_m，f_txn＝f_jx&f_txm＝f_txm&R_n＝R_m时，表示用户n既受到外界干扰的攻击，同时用户之间也存在互扰；当f_txn＝f_jx&f_txn≠f_txm&R_n≠R_m时，表示用户n只受到外界干扰的攻击，用户之间不存在互扰；当f_txn≠f_jx&f_txn＝f_txm&R_n≠R_m，f_txn≠f_jx&f_txn＝f_txm&R_n＝R_m时，表示用户n没有受到外界干扰的攻击，但是存在用户之间的互扰；当f_txn＝f_jx&f_txn≠f_txm&R_n＝R_m，f_txn≠f_jx&f_txn≠f_txm&R_n＝R_m时，表示用户n在不同信道上选择同一中继节点，造成通信失败。

p_m表示协助用户m的传输功率，p_n表示用户n的传输功率，J表示干扰机的干扰功率。

优选的是，本发明步骤3中所述的根据各个用户选择该联合策略的回报值，以及观察到的选择该联合策略后下一时刻的状态，用户分别更新各自的Q值表，具体如下：

用户n在学习过程中Q值更新公式表示为：

其中Q_n(k+1)表示用户n在k+1时隙的Q值，S_k表示k时隙的状态，a_k表示k时隙的联合动作，α表示学习速率，r_nk是用户n在时隙k的奖励值，γ表示折扣因子，表示用户n在S_k+1状态下的最大Q值。

优选的是，本发明步骤4中用户交互各自的评估函数，根据当前所有用户的评估函数之和选择联合动作，并且采用ε-greedy的策略更新方式；具体表示为：

用户的策略更新公式为：

其中，表示联合动作的平均分布，a表示在状态S_k下所有可选动作，/>公式(3)表示用户以ε(0＜ε＜1)的概率随机选择了一个动作/>以1-ε的概率选择最大评估函数值之和所对应的联合动作。Q_n(S_k，a)+add_n(S_k，a)表示用户n的评估函数，其中add_n(S_k，a)表示用户n的附加值，具体表示为：

其中为效用偏差，定义如下：

其中T_an(k)表示用户n在过去k个时隙中执行决策动作a的次数，r_n(i|a)表示用户n选择决策动作a的第i次回报值。

本发明与现有技术相比，其显著优点在于：(1)在传统的多用户强化学习的基础上提出多用户随机森林强化学习，在不影响性能的情况下，加快算法的收敛速度；(2)模型完备，物理意义清晰，所提出的基于多用户随机森林强化学习的中继和信道选择联合优化抗干扰算法，实现对提出模型的有效求解，求出多用户的联合抗干扰策略；(3)能够有效的应对外界恶意干扰和用户之间的互扰，并很好地刻画了多用户多中继抗干扰场景。

本发明基于传统的中继选择方案，结合多用户抗干扰问题，考虑外界干扰和内部互扰同时存在的情况下，传统的中继选择无法满足抗干扰通信，设计了基于多用户随机森林强化学习的中继和信道选择联合优化的抗干扰算法。在每个通信时隙后，用户之间进行信息交互，基于多用户随机森林强化学习算法，每个用户对的接收端做出抗干扰决策，通过不断的“合作-联合决策-反馈-调整”，最终实现抗干扰通信。

附图说明

图1是本发明多用户多中继场景抗干扰的系统模型图。

图2是本发明实施例中的各节点位置分布示意图。

图3是本发明实施例中主用户的系统吞吐量。

图4是本发明实施例中主用户传输成功概率。

图5是本发明实施例中学习收敛前两个用户和干扰机的传输时频图。

图6是本发明实施例中学习收敛后两个用户和干扰机的传输时频图。

具体实施方式

一种基于多用户随机森林强化学习的抗干扰方法，包括N个主用户、R个中继节点，一个主用户和一个中继节点组成一个通信用户对；一个干扰机对用户通信实施干扰；每个通信时隙后，用户之间进行信息交互，基于多用户随机森林强化学习算法，每个用户对的接收端做出抗干扰决策，通过不断的“决策-反馈-调整”，实现抗干扰通信；具体包括以下步骤：

将当前时隙的频谱信息定义为状态，通过与环境进行不断交互，决策出联合最优决策，具体如下：

通信用户n接收端的信干噪比SINR表示为：

其中R_n表示用户n选择的中继节点，R_m表示用户m选择的中继节点，为中继节点R_n的放大系数，p_m表示用户m的传输功率，p_n表示用户n的传输功率，J表示干扰机的干扰功率。/>表示用户n发射机到中继节点R_n的信道增益，/>表示中继节点R_n到用户n接收机的信道增益，/>表示在中继节点R_n处的噪声，N_n表示用户n接收机的噪声，/>表示干扰机到中继节点R_n的信道增益，g_Jn表示干扰机到用户n接收机的信道增益。

公式(1)中，f_txn表示用户n的通信信道，f_txm表示用户m的通信信道，f_jx表示干扰信道；R_n表示协助用户n通信的中继节点，R_m表示协助用户m通信的中继节点，当f_txn≠f_jx&f_txn≠f_txm&R_n≠R_m时，表示用户n既不受外界干扰的攻击同时与其他用户之间也没有互扰；当f_txn＝f_jx&f_txn＝f_txm&R_n≠R_m，f_txn＝f_jx&f_txn＝f_txm&R_n＝R_m时，表示用户n既受到外界干扰的攻击，同时用户之间也存在互扰；当f_txn＝f_jx&f_txm≠f_txm&R_n≠R_m时，表示用户n只受到外界干扰的攻击，用户之间不存在互扰；当f_txn≠f_jx&f_txn＝f_txm&R_n≠R_m，f_txn≠f_jx&f_txn＝f_txm&R_n＝R_m时，表示用户n没有受到外界干扰的攻击，但是存在用户之间的互扰；当f_txn＝f_jx&f_txn≠f_txn&R_n＝R_m，f_txn≠f_jx&f_txn≠f_txm&R_n＝R_m时，表示用户n在不同信道上选择同一中继节点，造成通信失败。

具体过程为：

用户n在学习过程中Q值更新公式表示为：

具体过程为：

用户的策略更新公式为：

其中为效用偏差，定义如下：

循环步骤2～4，直至达到最大迭代次数，算法结束。

本发明所提出的基于多用户随机森林强化学习算法的中继和信道选择联合优化抗干扰算法，旨在提供方案解决多用户多中继场景的智能干扰问题。本发明将抗干扰问题建模为马尔科夫博弈，多用户之间进行信息交互，通过多用户随机森林强化学习算法，决策出最优联合策略。

图1是多用户多中继场景抗干扰系统模型图。该模型中存在两个主用户，4个中继节点。一个主用户和一个中继节点组成一组通信用户，在该模型中存在有多对用户进行通信，一个干扰机以扫频方式对通信进行干扰，用户通过调整各自中继节点和传输信道，以达到最优抗干扰效果。

实施例1

本发明的实施例具体描述如下，系统仿真采用MATLAB软件，参数设定不影响一般性。该实施例验证所提算法模型与方法的有效性和收敛性，场景中各个节点分布在一个4000m*4000m的网格中如图2所示，两个主用户发射机的坐标分别为(0m，2000m)、(0m，3000m)，4个中继节点分别为(1500m，1000m)、(1500m，2000m)、(2500m，2000m)、(2500m，3000m)，接收端的坐标分别为(4000m，1000m)(4000m，2000m)，干扰节点坐标为(4000m，5000m)。参数设置为：可用信道数为8。接收端每1.76ms进行一次宽带频谱感知，并将感知数据反馈给中继节点和源节点，并交换各自的Q值表。干扰机，源节点和中继节点的传输功率设为5W。学习速率为a＝0.01，折扣因子设为γ＝0.7，路径衰落系数设为η＝1.4。在该实施例中我们考虑双扫频干扰，干扰时隙为2.5ms。

图3是两个主用户的系统吞吐量，从图中可以看出，两个用户的吞吐量逐渐增长随后保持稳定，这说明两个用户的中继和信道选择联合策略已收敛至均衡状态，即获得了最优策略。

图4是本发明实施例中用户传输成功的概率，用户最后传输成功率收敛且传输成功概率接近于1。

图5是本发明实施例中学习收敛前两个用户和干扰机的传输时频图，图6是本发明实施例中学习收敛后两个用户和干扰机的传输时频图，在学习前期(图5)，用户传输时会受到干扰机的攻击或者两个用户会产生互扰，等到学习收敛后(图6)，可以看出用户能够完美躲避干扰的攻击，并且用户之间没有产生互扰。

综上所述，本发明提出的基于多用户随机森林强化学习的中继和信道选择联合优化抗干扰模型，充分考虑了干扰智能性强、干扰决策估计困难等问题，能够实现对所提模型的有效求解方法，求出各个用户的最优联合传输策略，实现了多用户多中继场景下的抗干扰通信。

Claims

1.一种基于多用户随机森林强化学习的抗干扰方法，其特征在于，包括N个主用户、R个中继节点，一个主用户和一个中继节点组成一个通信用户对；一个干扰机对用户通信实施干扰；每个通信时隙后，用户之间进行信息交互，基于多用户随机森林强化学习算法，每个用户对的接收端做出抗干扰决策，通过不断的“决策-反馈-调整”，实现抗干扰通信；具体包括以下步骤：

步骤1，初始化：设置初始化状态其中f_jx(0)表示在初始时刻干扰机所在的信道，/>表示初始时刻用户的联合信道动作；初始化各个用户的Q值表Q_n，n∈N，设置学习参数、仿真时隙数为k，k>0；

步骤2，计算选择策略的回报值，观察选择策略后下一时刻的状态变化；

循环步骤2～4，直至达到最大迭代次数，算法结束。

2.根据权利要求1所述的基于多用户随机森林强化学习的抗干扰方法，其特征在于，将当前时隙的频谱信息定义为状态，通过与环境进行不断交互，决策出联合最优决策，具体如下：

环境状态集定义为其中，/>表示k时隙时用户n和协助用户m选择的联合信道，表示为/>其中/>表示笛卡尔积，/>表示用户可选的信道集合；f_jx(k)表示干扰机在k时隙所在的信道；动作集表示为/>其中/>表示k时隙用户n和协助用户m选择的联合中继节点，表示为/>其中/>表示用户n可选的中继节点集合；用户在s^k状态下执行动作a^k转移到状态s^k+1的转移概率表示为对于立即回报r定义为：r_n＝SINR_n(f_txn，R_ni)。

3.根据权利要求2所述的基于多用户随机森林强化学习的抗干扰方法，其特征在于，步骤2中计算选择该策略的回报值，观察选择该策略后下一时刻的状态变化；具体过程如下：通信用户n接收端的信干噪比SINR表示为：

其中R_n表示用户n选择的中继节点，R_m表示用户m选择的中继节点，为中继节点R_n的放大系数，p_m表示用户m的传输功率，p_n表示用户n的传输功率，J表示干扰机的干扰功率，表示用户n发射机到中继节点R_n的信道增益，/>表示中继节点R_n到用户n接收机的信道增益，/>表示在中继节点R_n处的噪声，N_n表示用户n接收机的噪声，/>表示干扰机到中继节点R_n的信道增益，g_Jn表示干扰机到用户n接收机的信道增益；

公式(1)中，f_txn表示用户n的通信信道，f_txm表示用户m的通信信道，f_jx表示干扰信道；R_n表示协助用户n通信的中继节点，R_m表示协助用户m通信的中继节点，当f_txn≠f_jx&f_txn≠f_txm&R_n≠R_m时，表示用户n既不受外界干扰的攻击同时与其他用户之间也没有互扰；当f_txn＝f_jx&f_txn＝f_txm&R_n≠R_m，f_txn＝f_jx&f_txn＝f_txm&R_n＝R_m时，表示用户n既受到外界干扰的攻击，同时用户之间也存在互扰；当f_txn＝f_jx&f_txn≠f_txm&R_n≠R_m时，表示用户n只受到外界干扰的攻击，用户之间不存在互扰；当f_txn≠f_jx&f_txn＝f_txm&R_n≠R_m，f_txn≠f_jx&f_txn＝f_txm&R_n＝R_m时，表示用户n没有受到外界干扰的攻击，但是存在用户之间的互扰；当f_txn＝f_jx&f_txn≠f_txm&R_n＝R_m，f_txn≠f_jx&f_txn≠f_txm&R_n＝R_m时，表示用户n在不同信道上选择同一中继节点，造成通信失败。

4.根据权利要求3所述的基于多用户随机森林强化学习的抗干扰方法，其特征在于，步骤3中根据各个用户选择联合策略的回报值，以及观察到的选择联合策略后下一时刻的状态，用户分别更新各自的Q值表，具体如下：

用户n在学习过程中Q值更新公式表示为：

5.根据权利要求4所述的基于多用户随机森林强化学习的抗干扰方法，其特征在于，步骤4中用户交互各自的评估函数，根据当前所有用户的评估函数之和选择联合动作，并且采用ε-greedy的策略更新方式；具体表示为：

用户的策略更新公式为：

其中，表示联合动作的平均分布，a表示在状态S_k下所有可选动作，/>公式(3)表示用户以ε(0＜ε＜1)的概率随机选择了一个动作/>以1-ε的概率选择最大评估函数值之和所对应的联合动作；Q_n(S_k，a)+add_n(S_k，a)表示用户n的评估函数，其中add_n(S_k，a)表示用户n的附加值，具体表示为：

其中为效用偏差，定义如下：