CN112616158A

CN112616158A - 一种认知通信干扰决策方法

Info

Publication number: CN112616158A
Application number: CN202011462821.9A
Authority: CN
Inventors: 许华; 饶宁; 宋佰霖
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-06
Anticipated expiration: 2040-12-14
Also published as: CN112616158B

Abstract

本发明提供一种认知通信干扰决策方法，包括：建立对抗双方模型，构建融合有效方差置信上界的强化学习决策模型，决策干扰参数，输出最佳干扰动作；本发明在传统强化学习方法框架基础上，通过利用高效干扰动作的干扰效能方差设置置信区间，剔除不在置信区间内的干扰动作，对决策空间进行降维搜索，并利用贪婪策略选择最佳决策方案，加快了学习速度并降低了决策波动性。

Description

一种认知通信干扰决策方法

技术领域

本发明属于通信对抗技术领域，具体涉及一种通信干扰决策方法。

背景技术

通信干扰决策是通信对抗中的重要环节，传统通信干扰决策手段主要是基于经验、专家系统等人工决策方法。人工决策不可避免地使得决策方案受决策者自身认知水平和心理状态影响较大，干扰策略缺少一定的实时性与科学性。认知干扰决策技术相对于传统人工决策具有自主决策的能力，而认知决策方法是的通信干扰决策的核心，因此寻找更符合通信对抗条件的决策方法具有重要的意义。

目前通信对抗的决策方法主要采用遗传方法、粒子群方法、蚁群方法、强化学习方法等，这些方法大都需要通信方的先验通信参数，而实际场景中干扰方很难获取有关通信方的先验信息，并且这些决策方法目标函数十分复杂，设置的参数变量较多，对优化函数所需的计算和内存空间要求较高。其中基于强化学习的决策方法虽无需知晓通信方的先验通信参数，但是当环境频谱状态空间维度较高，如当通信方随机使用20个波道进行通信时，传统强化学习决策方法需近9000次迭代才能学习到通信方切换波道的内在规律，并且探索频谱环境的随机性会给决策回合中选择干扰动作带来波动性。当通信方受到干扰后改变通信参数时，利用已有的强化学习方法进行干扰决策，其较大的决策波动性和过慢的学习速率会影响整体的干扰效果。

发明内容

为了克服现有技术的不足，本发明提供一种认知通信干扰决策方法，包括：

步骤1：建立对抗双方模型，即建立干扰方模型、通信方模型并构建即时干扰效能函数：

步骤2：构建融合有效方差置信上界的强化学习决策模型，即在融合有效方差置信上界的强化学习框架中，利用干扰方模型的输入和即时干扰效能函数作为决策模型的输入，决策模型输出的干扰动作作为干扰方模型的输出；

步骤3：决策干扰参数，即利用强化学习决策模型选择干扰参数；

步骤4：输出最佳干扰动作，即当达到设置的迭代次数时，输出强化学习决策模型的干扰动作。

进一步的，步骤1包括：

步骤1-1：建立通信方模型，即设置通信方模型输入为上一时刻调制方式、中心频率构成的通信参数组、上一时刻确认帧/非确认帧协议信息，输出为下一时刻的调制方式、中心频率构成的通信参数组；

步骤1-2：建立干扰方模型，即设置干扰方模型输入为上一时刻干扰动作、上一时刻确认帧/非确认帧协议信息，输出为下一时刻干扰动作，其中干扰动作包含干扰信号调制样式、干扰中心频率；

步骤1-3：构建即时干扰效能函数，即设置该函数输入为通信方模型上一时刻的输入、干扰方模型上一时刻的输入，输出为干扰方干扰动作的即时干扰效能。

进一步的，步骤2包括：

步骤2-1：设定决策模型参数，即设置决策模型的学习步长、折扣因子、探索因子，设置模型最大迭代次数；

步骤2-2：构建干扰动作空间和环境状态空间，即在设定强化学习决策模型参数基础上，构建干扰动作空间，构建环境状态空间，建立状态-干扰动作对的效能矩阵、状态-动作对平均效能矩阵以及状态动作执行次数矩阵，将上述矩阵全部初始化为零矩阵；

步骤2-3：设置干扰动作剔除参数的初始值，即在构建的干扰动作空间、环境状态空间和最大迭代次数基础上，设定动作剔除参数。

进一步的，步骤3包括：

步骤3-1：计算干扰动作的即时干扰效能，即将干扰动作空间和环境状态空间中的元素进行两两组合，逐一输入至强化学习决策模型中，强化学习决策模型根据即时干扰效能函数得到该环境状态下该干扰动作的即时干扰效能；

步骤3-2：输出强化学习决策模型选择的最佳干扰动作，即将各干扰动作的即时干扰效能代入干扰动作贪婪选择公式，贪婪选择当前最优的干扰动作，作为强化学习决策模型的输出；

步骤3-3：进行干扰动作的剔除，即将各干扰动作的干扰效能代入动作剔除公式以建立置信区间，对该环境状态下的干扰动作进行筛选，剔除在置信区间之外的干扰动作，得到新的干扰动作空间；

步骤3-4：更新剔除参数，即当满足剔除条件时，依据迭代公式更新所设定的剔除参数值；

步骤3-5：更新干扰动作的干扰效能，即利用时序差分公式更新干扰动作空间中所有干扰动作的干扰效能。

进一步的，通信方采用四种数字调制方式和二十个通信波道进行通信；步骤1-1中确认帧/非确认帧协议信息为单位时间非确认帧数量τ；步骤1-3中即时干扰效能函数为：

其中k为比例常数；τ表示该时隙干扰方侦收到的单位时间非确认帧数量；τ₀为预设定门限值100；t₁、t₂构成的时隙区间[t₁,t₂](t₂＞t₁)，表示通信方在此区间内受到干扰方连续干扰；t₃、t₄构成的时隙区间[t₃,t₄](t₄＞t₃)，表示通信方在此区间内均正常通信；

表示波道碰撞指示函数，f_t ^c表示通信方所选波道的中心频率，f_t ^j表示干扰方所选波道的中心频率；

步骤2-2中干扰动作空间A内的干扰动作a为步骤1-2中的干扰参数组，a∈A；环境状态空间S⁺内的元素s为步骤1-1中的通信参数组和单位时间内非确认帧数量τ构成的元组，s∈S⁺；建立状态-干扰动作对的效能矩阵Q(s,a)＝0_|S|×|A|，其中的元素Q(s,a)表示在环境状态s下干扰动作a的干扰效能大小；建立状态-动作对平均效能矩阵P(s,a)＝0_|S|×|A|，其中的元素P(s,a)表示在环境状态s下干扰动作a的平均干扰效能；建立状态动作执行次数矩阵Ν(s,a)＝0_|S|×|A|，其中的元素N(s,a)表示在环境状态s下干扰方选择干扰动作a的累计次数，将上述矩阵全部初始化为零矩阵；

步骤2-3中设置剔除干扰动作剔除参数的初始值为：剔除轮次初始值m＝0和第m剔除轮次对应的剔除因子ε_m＝1，剔除轮次上界值

e为自然对数，设置常量

其中|A(s)|表示环境状态s下的干扰动作空间大小，设置干扰动作探索访问上界值

所有干扰动作总访问上界值为N₀＝|A(s)|n₀；

步骤3-1中将干扰动作空间A的元素a和环境状态空间S⁺的元素s进行两两组合得到元组(s,a)，逐一输入步骤1-3构建的即时干扰效能函数得到该环境状态s下该干扰动作a的即时干扰效能r_a；

步骤3-2中将状态s下各干扰动作a的即时干扰效能r_s,a依次代入干扰动作贪婪选择公式，贪婪选择当前最优的干扰动作，作为决策模型的输出；干扰动作贪婪选择公式为：

其中

为干扰动作的效能方差，P(s,a)为该状态动作对的平均效能；

步骤3-3中将各干扰动作的干扰效能Q(s,a)代入动作剔除公式以建立置信区间，对该环境状态下的干扰动作进行筛选，剔除在置信区间之外的干扰动作，得到新的干扰动作空间；

所述的动作剔除公式为：

置信区间为

若某干扰动作i满足动作剔除公式则从干扰动作空间A中剔除动作i，得到新的干扰动作空间A(s)′，其中N(s,i)与N(s,j)分别表示在状态s干扰动作i和干扰动作j被选择的次数；

步骤3-4中若当前迭代次数t≥N_m且m≤M，如下进行剔除参数的更新，其中N_m表示第m轮的干扰动作总访问次数上界值：

步骤3-5中利用时序差分公式更新干扰动作空间A(s)中所有干扰动作的干扰效能，时序差分公式为

其中r_s,a为状态s下选择干扰动作a可获得的即时干扰效能。

进一步的，通信方四种调制方式分别为：二进制相移键控调制BPSK、四相移键控调制QPSK、四进制脉冲幅度调制4-PAM、十六进制正交振幅调制16-QAM；二十个通信波道分别为225MHz、230MHz、235MHz、240MHz、245MHz、250MHz、255MHz、260MHz、265MHz、270MHz、275MHz、280MHz、285MHz、290MHz、295MHz、300MHz、305MHz、310MHz、315MHz、320MHz；步骤1-1中τ值为100；步骤2-1中设定决策模型的学习步长α＝0.1、折扣因子γ＝0.9探索因子ρ＝0.9，最大迭代次数T为10000步。

本发明在传统强化学习方法框架基础上，通过利用高效干扰动作的干扰效能方差设置置信区间，剔除不在置信区间内的干扰动作，对决策空间进行降维搜索，并利用贪婪策略选择最佳决策方案，加快了学习速度并降低了决策波动性。

附图说明

图1为本发明方法步骤流程框图；

图2为本发明方法与传统方法在对抗单对通信用户时干扰成功率收敛曲线对比图；

图3为本发明方法与传统方法在对抗三对通信用户时干扰成功率收敛曲线对比图；

图4为本发明方法与传统方法在对抗单对通信用户时干扰总收益收敛曲线对比图；

图5为本发明方法与传统方法在对抗三对通信用户时干扰总收益收敛曲线对比图。

具体实施方式

为使本发明的目的、技术方案以及优势更加明晰，下面结合附图和实施例，对本发明进行进一步详细说明。

本发明的原理是在传统强化学习方法框架基础上，通过利用高效干扰动作的干扰效能方差设置置信区间，剔除不在置信区间内的干扰动作，对决策空间进行降维搜索，并利用贪婪策略选择最佳决策方案，加快了学习速度并降低了决策波动性。

如图1所示，一种认知通信干扰决策方法，包括：

步骤1-1：建立通信方模型，即设置通信方模型输入为上一时刻通信参数、上一时刻确认帧/非确认帧协议信息，输出为下一时刻通信参数，其中通信参数包含通信信号调制样式、通信中心频率；

步骤1-3：构建即时干扰效能函数，即设置该函数输入为通信方模型上一时刻的输入、干扰方模型上一时刻的输入，输出为干扰方干扰动作的即时干扰效能；

步骤2-1：设定决策模型参数，即设置强化学习决策模型的学习步长、折扣因子、探索因子，设置模型最大迭代次数；

步骤3-4：更新剔除参数，即当满足剔除条件时，依据迭代公式更新所设定的剔除参数值。

步骤3-5：更新干扰动作的干扰效能，即利用时序差分公式更新干扰动作空间中所有干扰动作的干扰效能；

步骤4：输出最佳干扰动作，即当达到设置的迭代次数时，输出强化学习决策模型的干扰动作，此时干扰动作为最佳干扰动作。

在本发明的一个具体实施例中，通信方采用四种数字调制方式和使用二十个不同的通信波道进行通信，四种调制方式分别为：二进制相移键控调制BPSK、四相移键控调制QPSK、四进制脉冲幅度调制4-PAM、十六进制正交振幅调制16-QAM；二十个通信波道的中心频率分别为225MHz、230MHz、235MHz、240MHz、245MHz、250MHz、255MHz、260MHz、265MHz、270MHz、275MHz、280MHz、285MHz、290MHz、295MHz、300MHz、305MHz、310MHz、315MHz、320MHz，通信方受到干扰后可基于干扰方未知的作战计划改变调制方式和中心频率，干扰方则采用本发明方法决策干扰参数实施干扰，干扰参数包括BPSK、QPSK等调制方式和选择225-320MHz频段内的频率作为干扰信号中心频率。本具体实施例仿真环境为64位Win 7操作系统，处理器为Inter Xeon W-2125,显卡为NVIDIA Quadro P4000，通信信号由ROHDE&SCHWARZ SMW矢量信号源产生，程序编译环境为Python 3.7和Matlab 2018a。

使用本发明方法，实现通信干扰决策的具体流程如下：

步骤1：建立对抗双方模型，包含干扰方模型、通信方模型、即时干扰效能函数：

步骤1-1：建立通信方模型，输入为上一时刻调制方式、中心频率构成的通信参数组、上一时刻确认帧/非确认帧协议信息，输出为下一时刻的调制方式、中心频率构成的通信参数组。其中确认帧/非确认帧协议信息为单位时间非确认帧数量τ，若τ大于预设定门限值100，则模型基于作战计划从集合{(BPSK,225MHz),(QPSK,225MHz),(4-PAM,225MHz),(16-QAM,225MHz),(BPSK,230MHz),(QPSK,230MHz),(4-PAM,230MHz),(16-QAM,230MHz),…,(BPSK,320MHz),(QPSK,320MHz),(4-PAM,320MHz),(16-QAM,320MHz),(BPSK,225MHz),(QPSK,225MHz),(4-PAM,225MHz),(16-QAM,225MHz)}中以周期性规律选择一种不同于输入的通信参数组输出；若τ小于或者等于预设定门限值100，输出的通信参数组不变。

步骤1-2：建立干扰方模型，输入为上一时刻干扰动作、上一时刻确认帧/非确认帧协议信息，输出为下一时刻干扰动作，其中干扰动作为调制方式和中心频率构成的干扰参数组，干扰方模型输出的干扰动作由决策模型决定，干扰方模型中设置单个干扰机单机干扰模式与多个干扰机协同干扰模式。

步骤1-3：构建即时干扰效能函数，具体为：

其中：k为比例常数；τ表示该时隙干扰方侦收到的单位时间非确认帧数量；τ₀为预设定门限值100；t₁、t₂构成的时隙区间[t₁,t₂](t₂＞t₁)，表示通信方在此区间内受到干扰方连续干扰；t₃、t₄构成的时隙区间[t₃,t₄](t₄＞t₃)，表示通信方在此区间内均正常通信。

表示波道碰撞指示函数，f_t ^c表示通信方所选波道的中心频率，f_t ^j表示干扰方所选波道的中心频率。只有通信方和干扰方在同一波道即

时，通信方才可能受到干扰方的干扰。

步骤2：构建融合有效方差置信上界的强化学习决策模型。

步骤2-1：设定决策模型的学习步长α＝0.1、折扣因子γ＝0.9探索因子ρ＝0.9，最大迭代次数T设为10000步；

步骤2-2：在设定模型参数基础上，构建干扰动作空间A，干扰动作空间A内的干扰动作a为步骤1-2中的干扰参数组，a∈A；构建环境状态空间S⁺，环境状态空间S⁺内的元素s为步骤1-1中的通信参数组和单位时间内非确认帧数量τ构成的元组，s∈S⁺；建立状态-干扰动作对的效能矩阵Q(s,a)＝0_|S|×|A|，其中的元素Q(s,a)表示在环境状态s下干扰动作a的干扰效能大小；建立状态-动作对平均效能矩阵P(s,a)＝0_|S|×|A|，其中的元素P(s,a)表示在环境状态s下干扰动作a的平均干扰效能；建立状态动作执行次数矩阵Ν(s,a)＝0_|S|×|A|，其中的元素N(s,a)表示在环境状态s下干扰方选择干扰动作a的累计次数，将上述矩阵全部初始化为零矩阵；

步骤2-3：在构造干扰动作空间、环境状态空间和最大迭代次数基础上，设置剔除干扰动作剔除参数的初始值为：剔除轮次初始值m＝0和第m剔除轮次对应的剔除因子ε_m＝1，剔除轮次上界值

e为自然对数，设置常量

所有干扰动作总访问上界值为N₀＝|A(s)|n₀。

步骤3：利用决策模型选择干扰参数；

步骤3-1：计算干扰动作的即时干扰效能，即将干扰动作空间A和环境状态空间S⁺的元素a和s进行两两组合得到元组(s,a)，逐一输入步骤1-3构建的即时干扰效能函数得到该环境状态s下该干扰动作a的即时干扰效能r_a；

即时干扰效能函数，即规定干扰方某时隙干扰成功获得的效能，正相关于到当前时隙为止干扰方连续干扰成功的时隙总数和当前时隙单位时间非确认帧数的乘积；干扰方某时隙干扰失败获得的收益与到当前时隙为止通信方连续非正常通信的时隙数成负相关。此干扰效能函数反应出，连续成功的决策出最佳干扰动作，将获得更高的干扰效能。故可以此效能函数表征决策波动性，波动性越小，干扰效能越高，波动性越大，干扰效能越小。

步骤3-2：输出决策模型选择的最佳干扰动作，即将状态s下各干扰动作a的即时干扰效能r_s,a依次代入干扰动作贪婪选择公式，贪婪选择当前最优的干扰动作，作为决策模型的输出。干扰动作贪婪选择公式为：

其中

为干扰动作的效能方差，P(s,a)为该状态动作对的平均效能，干扰动作效能方差为：

平均效能为：

步骤3-3：进行干扰动作的剔除，即将各干扰动作的干扰效能Q(s,a)代入动作剔除公式以建立置信区间，对该环境状态下的干扰动作进行筛选，剔除在置信区间之外的干扰动作，得到新的干扰动作空间；

所述的动作剔除公式为：

置信区间为

若某干扰动作i满足动作剔除公式则从干扰动作空间A中剔除动作i，得到新的干扰动作空间A(s)′，其中N(s,i)与N(s,j)分别表示在状态s干扰动作i和干扰动作j被选择的次数。

步骤3-4：更新剔除参数。

若当前迭代次数t≥N_m且m≤M，如下进行剔除参数的更新，其中N_m表示第m轮的干扰动作总访问次数上界值：

剔除因子：

当前轮次所有状态对应的动作集合：

动作探索访问上界值：

所有动作总访问上界值：N_m+1＝t+|A(s)_m+1|n_m+1，

动作剔除轮次：m＝m+1。

步骤3-5：更新干扰动作的干扰效能，即利用时序差分公式更新干扰动作空间A(s)中所有干扰动作的干扰效能。

所述的时序差分公式为

其中r_s,a为状态s下选择干扰动作a可获得的即时干扰效能。

步骤4：输出决策的最佳干扰动作，即当达到设置的最大迭代次数T时，输出决策出的干扰动作，此时干扰动作为最佳干扰动作。

为了评价本发明的有效性，本发明方法与基于传统强化学习方法的通信干扰决策方法进行比较，设置了单个干扰机干扰单对通信用户的单机对抗场景和三个干扰机干扰三对通信用户的协同对抗场景，以在相同迭代次数条件下决策方法的最终干扰成功率、可获得的干扰总收益为评价指标，其中将干扰方获得的干扰总收益定义为所有时隙内各个干扰机获得干扰效能之和即：

其中：t为通信时隙，Rⁱ _t为第i个干扰机在该时隙的干扰效能。干扰方的最佳干扰策略π^*就是在一定时间内最大化干扰总收益R_sum，如下式：

π^*＝argmax_πE_τ～π(τ)[R_sum(τ)]

从即时干扰效能函数可以明确：连续成功的决策出最佳干扰参数，将获得更高的干扰效能。以此效能函数表征决策波动性，波动性越小，干扰效能越高，波动性越大，干扰效能越小。

图2为对抗单对通信用户时本发明方法干扰成功率收敛曲线和传统的强化学习方法的干扰成功率收敛曲线对比，单对通信用户指一对发射-接收机。

图3为对抗三对通信用户时本发明方法干扰成功率收敛曲线和传统的强化学习方法的干扰成功率收敛曲线对比，三对通信用户指三对发射-接收机。

图4为对抗单对通信用户时本发明方法干扰总收益收敛曲线和传统的强化学习方法的干扰总收益收敛曲线对比，单对通信用户指一对发射-接收机。

图5为对抗三对通信用户时本发明方法干扰总收益收敛曲线和传统的强化学习方法的干扰总收益收敛曲线对比，三对通信用户指三对发射-接收机。

图2和图3结果表明，在对抗单对通信用户和对抗三对通信用户，本发明方法的干扰成功率曲线其收敛速度均优于传统强化学习方法。在对抗单对通信用户时，传统强化学习方法需近10000次迭代干扰成功率才能达到80％，而本发明方法只需2600次迭代就可达到80％干扰成功率。且在对抗三对通信用户组网通信时，经过10000次迭代后本发明方法最终的协同干扰成功率达到78％，传统强化学习方法只有51％。

图4和图5结果表明，在对抗单对通信用户和对抗三对通信用户，本发明方法的干扰总收益曲线其收敛速度均优于传统强化学习方法。且在对抗三对通信用户组网通信时，本发明方法在10000次迭代后最终的协同干扰收益高出传统强化学习方法两个数量级。根据设置的干扰效能函数可知，方法决策波动性越小，干扰收益越高。所以本发明提出的融合有效方差置信上界的强化学习认知通信决策方法学习最佳干扰策略的速度更快，且波动性更小。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种认知通信干扰决策方法，包括：

2.如权利要求1所述的一种认知通信干扰决策方法，其特征在于：步骤1包括：

3.如权利要求2所述的一种认知通信干扰决策方法，其特征在于：步骤2包括：

4.如权利要求3所述的一种认知通信干扰决策方法，其特征在于：步骤3包括：

5.如权利要求4所述的一种认知通信干扰决策方法，其特征在于：通信方采用四种数字调制方式和二十个通信波道进行通信；步骤1-1中确认帧/非确认帧协议信息为单位时间非确认帧数量τ；步骤1-3中即时干扰效能函数为：

e为自然对数，设置常量

所有干扰动作总访问上界值为N₀＝|A(s)|n₀；

其中

为干扰动作的效能方差，P(s,a)为该状态动作对的平均效能；

所述的动作剔除公式为：

置信区间为

其中r_s,a为状态s下选择干扰动作a可获得的即时干扰效能。

6.如权利要求5所述的一种认知通信干扰决策方法，其特征在于：通信方四种调制方式分别为：二进制相移键控调制BPSK、四相移键控调制QPSK、四进制脉冲幅度调制4-PAM、十六进制正交振幅调制16-QAM；二十个通信波道分别为225MHz、230MHz、235MHz、240MHz、245MHz、250MHz、255MHz、260MHz、265MHz、270MHz、275MHz、280MHz、285MHz、290MHz、295MHz、300MHz、305MHz、310MHz、315MHz、320MHz；步骤1-1中τ值为100；步骤2-1中设定决策模型的学习步长α＝0.1、折扣因子γ＝0.9探索因子ρ＝0.9，最大迭代次数T为10000步。