CN112616158A - 一种认知通信干扰决策方法 - Google Patents

一种认知通信干扰决策方法 Download PDF

Info

Publication number
CN112616158A
CN112616158A CN202011462821.9A CN202011462821A CN112616158A CN 112616158 A CN112616158 A CN 112616158A CN 202011462821 A CN202011462821 A CN 202011462821A CN 112616158 A CN112616158 A CN 112616158A
Authority
CN
China
Prior art keywords
interference
action
party
model
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011462821.9A
Other languages
English (en)
Other versions
CN112616158B (zh
Inventor
许华
饶宁
宋佰霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Engineering University of PLA
Original Assignee
Air Force Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Engineering University of PLA filed Critical Air Force Engineering University of PLA
Priority to CN202011462821.9A priority Critical patent/CN112616158B/zh
Publication of CN112616158A publication Critical patent/CN112616158A/zh
Application granted granted Critical
Publication of CN112616158B publication Critical patent/CN112616158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种认知通信干扰决策方法,包括:建立对抗双方模型,构建融合有效方差置信上界的强化学习决策模型,决策干扰参数,输出最佳干扰动作;本发明在传统强化学习方法框架基础上,通过利用高效干扰动作的干扰效能方差设置置信区间,剔除不在置信区间内的干扰动作,对决策空间进行降维搜索,并利用贪婪策略选择最佳决策方案,加快了学习速度并降低了决策波动性。

Description

一种认知通信干扰决策方法
技术领域
本发明属于通信对抗技术领域,具体涉及一种通信干扰决策方法。
背景技术
通信干扰决策是通信对抗中的重要环节,传统通信干扰决策手段主要是基于经验、专家系统等人工决策方法。人工决策不可避免地使得决策方案受决策者自身认知水平和心理状态影响较大,干扰策略缺少一定的实时性与科学性。认知干扰决策技术相对于传统人工决策具有自主决策的能力,而认知决策方法是的通信干扰决策的核心,因此寻找更符合通信对抗条件的决策方法具有重要的意义。
目前通信对抗的决策方法主要采用遗传方法、粒子群方法、蚁群方法、强化学习方法等,这些方法大都需要通信方的先验通信参数,而实际场景中干扰方很难获取有关通信方的先验信息,并且这些决策方法目标函数十分复杂,设置的参数变量较多,对优化函数所需的计算和内存空间要求较高。其中基于强化学习的决策方法虽无需知晓通信方的先验通信参数,但是当环境频谱状态空间维度较高,如当通信方随机使用20个波道进行通信时,传统强化学习决策方法需近9000次迭代才能学习到通信方切换波道的内在规律,并且探索频谱环境的随机性会给决策回合中选择干扰动作带来波动性。当通信方受到干扰后改变通信参数时,利用已有的强化学习方法进行干扰决策,其较大的决策波动性和过慢的学习速率会影响整体的干扰效果。
发明内容
为了克服现有技术的不足,本发明提供一种认知通信干扰决策方法,包括:
步骤1:建立对抗双方模型,即建立干扰方模型、通信方模型并构建即时干扰效能函数:
步骤2:构建融合有效方差置信上界的强化学习决策模型,即在融合有效方差置信上界的强化学习框架中,利用干扰方模型的输入和即时干扰效能函数作为决策模型的输入,决策模型输出的干扰动作作为干扰方模型的输出;
步骤3:决策干扰参数,即利用强化学习决策模型选择干扰参数;
步骤4:输出最佳干扰动作,即当达到设置的迭代次数时,输出强化学习决策模型的干扰动作。
进一步的,步骤1包括:
步骤1-1:建立通信方模型,即设置通信方模型输入为上一时刻调制方式、中心频率构成的通信参数组、上一时刻确认帧/非确认帧协议信息,输出为下一时刻的调制方式、中心频率构成的通信参数组;
步骤1-2:建立干扰方模型,即设置干扰方模型输入为上一时刻干扰动作、上一时刻确认帧/非确认帧协议信息,输出为下一时刻干扰动作,其中干扰动作包含干扰信号调制样式、干扰中心频率;
步骤1-3:构建即时干扰效能函数,即设置该函数输入为通信方模型上一时刻的输入、干扰方模型上一时刻的输入,输出为干扰方干扰动作的即时干扰效能。
进一步的,步骤2包括:
步骤2-1:设定决策模型参数,即设置决策模型的学习步长、折扣因子、探索因子,设置模型最大迭代次数;
步骤2-2:构建干扰动作空间和环境状态空间,即在设定强化学习决策模型参数基础上,构建干扰动作空间,构建环境状态空间,建立状态-干扰动作对的效能矩阵、状态-动作对平均效能矩阵以及状态动作执行次数矩阵,将上述矩阵全部初始化为零矩阵;
步骤2-3:设置干扰动作剔除参数的初始值,即在构建的干扰动作空间、环境状态空间和最大迭代次数基础上,设定动作剔除参数。
进一步的,步骤3包括:
步骤3-1:计算干扰动作的即时干扰效能,即将干扰动作空间和环境状态空间中的元素进行两两组合,逐一输入至强化学习决策模型中,强化学习决策模型根据即时干扰效能函数得到该环境状态下该干扰动作的即时干扰效能;
步骤3-2:输出强化学习决策模型选择的最佳干扰动作,即将各干扰动作的即时干扰效能代入干扰动作贪婪选择公式,贪婪选择当前最优的干扰动作,作为强化学习决策模型的输出;
步骤3-3:进行干扰动作的剔除,即将各干扰动作的干扰效能代入动作剔除公式以建立置信区间,对该环境状态下的干扰动作进行筛选,剔除在置信区间之外的干扰动作,得到新的干扰动作空间;
步骤3-4:更新剔除参数,即当满足剔除条件时,依据迭代公式更新所设定的剔除参数值;
步骤3-5:更新干扰动作的干扰效能,即利用时序差分公式更新干扰动作空间中所有干扰动作的干扰效能。
进一步的,通信方采用四种数字调制方式和二十个通信波道进行通信;步骤1-1中确认帧/非确认帧协议信息为单位时间非确认帧数量τ;步骤1-3中即时干扰效能函数为:
Figure BDA0002833087610000031
其中k为比例常数;τ表示该时隙干扰方侦收到的单位时间非确认帧数量;τ0为预设定门限值100;t1、t2构成的时隙区间[t1,t2](t2>t1),表示通信方在此区间内受到干扰方连续干扰;t3、t4构成的时隙区间[t3,t4](t4>t3),表示通信方在此区间内均正常通信;
Figure BDA0002833087610000032
表示波道碰撞指示函数,ft c表示通信方所选波道的中心频率,ft j表示干扰方所选波道的中心频率;
步骤2-2中干扰动作空间A内的干扰动作a为步骤1-2中的干扰参数组,a∈A;环境状态空间S+内的元素s为步骤1-1中的通信参数组和单位时间内非确认帧数量τ构成的元组,s∈S+;建立状态-干扰动作对的效能矩阵Q(s,a)=0|S|×|A|,其中的元素Q(s,a)表示在环境状态s下干扰动作a的干扰效能大小;建立状态-动作对平均效能矩阵P(s,a)=0|S|×|A|,其中的元素P(s,a)表示在环境状态s下干扰动作a的平均干扰效能;建立状态动作执行次数矩阵Ν(s,a)=0|S|×|A|,其中的元素N(s,a)表示在环境状态s下干扰方选择干扰动作a的累计次数,将上述矩阵全部初始化为零矩阵;
步骤2-3中设置剔除干扰动作剔除参数的初始值为:剔除轮次初始值m=0和第m剔除轮次对应的剔除因子εm=1,剔除轮次上界值
Figure BDA0002833087610000033
e为自然对数,设置常量
Figure BDA0002833087610000034
其中|A(s)|表示环境状态s下的干扰动作空间大小,设置干扰动作探索访问上界值
Figure BDA0002833087610000035
所有干扰动作总访问上界值为N0=|A(s)|n0
步骤3-1中将干扰动作空间A的元素a和环境状态空间S+的元素s进行两两组合得到元组(s,a),逐一输入步骤1-3构建的即时干扰效能函数得到该环境状态s下该干扰动作a的即时干扰效能ra
步骤3-2中将状态s下各干扰动作a的即时干扰效能rs,a依次代入干扰动作贪婪选择公式,贪婪选择当前最优的干扰动作,作为决策模型的输出;干扰动作贪婪选择公式为:
Figure BDA0002833087610000036
其中
Figure BDA0002833087610000037
为干扰动作的效能方差,P(s,a)为该状态动作对的平均效能;
步骤3-3中将各干扰动作的干扰效能Q(s,a)代入动作剔除公式以建立置信区间,对该环境状态下的干扰动作进行筛选,剔除在置信区间之外的干扰动作,得到新的干扰动作空间;
所述的动作剔除公式为:
Figure BDA0002833087610000041
置信区间为
Figure BDA0002833087610000042
若某干扰动作i满足动作剔除公式则从干扰动作空间A中剔除动作i,得到新的干扰动作空间A(s)′,其中N(s,i)与N(s,j)分别表示在状态s干扰动作i和干扰动作j被选择的次数;
步骤3-4中若当前迭代次数t≥Nm且m≤M,如下进行剔除参数的更新,其中Nm表示第m轮的干扰动作总访问次数上界值:
步骤3-5中利用时序差分公式更新干扰动作空间A(s)中所有干扰动作的干扰效能,时序差分公式为
Figure BDA0002833087610000043
其中rs,a为状态s下选择干扰动作a可获得的即时干扰效能。
进一步的,通信方四种调制方式分别为:二进制相移键控调制BPSK、四相移键控调制QPSK、四进制脉冲幅度调制4-PAM、十六进制正交振幅调制16-QAM;二十个通信波道分别为225MHz、230MHz、235MHz、240MHz、245MHz、250MHz、255MHz、260MHz、265MHz、270MHz、275MHz、280MHz、285MHz、290MHz、295MHz、300MHz、305MHz、310MHz、315MHz、320MHz;步骤1-1中τ值为100;步骤2-1中设定决策模型的学习步长α=0.1、折扣因子γ=0.9探索因子ρ=0.9,最大迭代次数T为10000步。
本发明在传统强化学习方法框架基础上,通过利用高效干扰动作的干扰效能方差设置置信区间,剔除不在置信区间内的干扰动作,对决策空间进行降维搜索,并利用贪婪策略选择最佳决策方案,加快了学习速度并降低了决策波动性。
附图说明
图1为本发明方法步骤流程框图;
图2为本发明方法与传统方法在对抗单对通信用户时干扰成功率收敛曲线对比图;
图3为本发明方法与传统方法在对抗三对通信用户时干扰成功率收敛曲线对比图;
图4为本发明方法与传统方法在对抗单对通信用户时干扰总收益收敛曲线对比图;
图5为本发明方法与传统方法在对抗三对通信用户时干扰总收益收敛曲线对比图。
具体实施方式
为使本发明的目的、技术方案以及优势更加明晰,下面结合附图和实施例,对本发明进行进一步详细说明。
本发明的原理是在传统强化学习方法框架基础上,通过利用高效干扰动作的干扰效能方差设置置信区间,剔除不在置信区间内的干扰动作,对决策空间进行降维搜索,并利用贪婪策略选择最佳决策方案,加快了学习速度并降低了决策波动性。
如图1所示,一种认知通信干扰决策方法,包括:
步骤1:建立对抗双方模型,即建立干扰方模型、通信方模型并构建即时干扰效能函数:
步骤1-1:建立通信方模型,即设置通信方模型输入为上一时刻通信参数、上一时刻确认帧/非确认帧协议信息,输出为下一时刻通信参数,其中通信参数包含通信信号调制样式、通信中心频率;
步骤1-2:建立干扰方模型,即设置干扰方模型输入为上一时刻干扰动作、上一时刻确认帧/非确认帧协议信息,输出为下一时刻干扰动作,其中干扰动作包含干扰信号调制样式、干扰中心频率;
步骤1-3:构建即时干扰效能函数,即设置该函数输入为通信方模型上一时刻的输入、干扰方模型上一时刻的输入,输出为干扰方干扰动作的即时干扰效能;
步骤2:构建融合有效方差置信上界的强化学习决策模型,即在融合有效方差置信上界的强化学习框架中,利用干扰方模型的输入和即时干扰效能函数作为决策模型的输入,决策模型输出的干扰动作作为干扰方模型的输出;
步骤2-1:设定决策模型参数,即设置强化学习决策模型的学习步长、折扣因子、探索因子,设置模型最大迭代次数;
步骤2-2:构建干扰动作空间和环境状态空间,即在设定强化学习决策模型参数基础上,构建干扰动作空间,构建环境状态空间,建立状态-干扰动作对的效能矩阵、状态-动作对平均效能矩阵以及状态动作执行次数矩阵,将上述矩阵全部初始化为零矩阵;
步骤2-3:设置干扰动作剔除参数的初始值,即在构建的干扰动作空间、环境状态空间和最大迭代次数基础上,设定动作剔除参数。
步骤3:决策干扰参数,即利用强化学习决策模型选择干扰参数;
步骤3-1:计算干扰动作的即时干扰效能,即将干扰动作空间和环境状态空间中的元素进行两两组合,逐一输入至强化学习决策模型中,强化学习决策模型根据即时干扰效能函数得到该环境状态下该干扰动作的即时干扰效能;
步骤3-2:输出强化学习决策模型选择的最佳干扰动作,即将各干扰动作的即时干扰效能代入干扰动作贪婪选择公式,贪婪选择当前最优的干扰动作,作为强化学习决策模型的输出;
步骤3-3:进行干扰动作的剔除,即将各干扰动作的干扰效能代入动作剔除公式以建立置信区间,对该环境状态下的干扰动作进行筛选,剔除在置信区间之外的干扰动作,得到新的干扰动作空间;
步骤3-4:更新剔除参数,即当满足剔除条件时,依据迭代公式更新所设定的剔除参数值。
步骤3-5:更新干扰动作的干扰效能,即利用时序差分公式更新干扰动作空间中所有干扰动作的干扰效能;
步骤4:输出最佳干扰动作,即当达到设置的迭代次数时,输出强化学习决策模型的干扰动作,此时干扰动作为最佳干扰动作。
在本发明的一个具体实施例中,通信方采用四种数字调制方式和使用二十个不同的通信波道进行通信,四种调制方式分别为:二进制相移键控调制BPSK、四相移键控调制QPSK、四进制脉冲幅度调制4-PAM、十六进制正交振幅调制16-QAM;二十个通信波道的中心频率分别为225MHz、230MHz、235MHz、240MHz、245MHz、250MHz、255MHz、260MHz、265MHz、270MHz、275MHz、280MHz、285MHz、290MHz、295MHz、300MHz、305MHz、310MHz、315MHz、320MHz,通信方受到干扰后可基于干扰方未知的作战计划改变调制方式和中心频率,干扰方则采用本发明方法决策干扰参数实施干扰,干扰参数包括BPSK、QPSK等调制方式和选择225-320MHz频段内的频率作为干扰信号中心频率。本具体实施例仿真环境为64位Win 7操作系统,处理器为Inter Xeon W-2125,显卡为NVIDIA Quadro P4000,通信信号由ROHDE&SCHWARZ SMW矢量信号源产生,程序编译环境为Python 3.7和Matlab 2018a。
使用本发明方法,实现通信干扰决策的具体流程如下:
步骤1:建立对抗双方模型,包含干扰方模型、通信方模型、即时干扰效能函数:
步骤1-1:建立通信方模型,输入为上一时刻调制方式、中心频率构成的通信参数组、上一时刻确认帧/非确认帧协议信息,输出为下一时刻的调制方式、中心频率构成的通信参数组。其中确认帧/非确认帧协议信息为单位时间非确认帧数量τ,若τ大于预设定门限值100,则模型基于作战计划从集合{(BPSK,225MHz),(QPSK,225MHz),(4-PAM,225MHz),(16-QAM,225MHz),(BPSK,230MHz),(QPSK,230MHz),(4-PAM,230MHz),(16-QAM,230MHz),…,(BPSK,320MHz),(QPSK,320MHz),(4-PAM,320MHz),(16-QAM,320MHz),(BPSK,225MHz),(QPSK,225MHz),(4-PAM,225MHz),(16-QAM,225MHz)}中以周期性规律选择一种不同于输入的通信参数组输出;若τ小于或者等于预设定门限值100,输出的通信参数组不变。
步骤1-2:建立干扰方模型,输入为上一时刻干扰动作、上一时刻确认帧/非确认帧协议信息,输出为下一时刻干扰动作,其中干扰动作为调制方式和中心频率构成的干扰参数组,干扰方模型输出的干扰动作由决策模型决定,干扰方模型中设置单个干扰机单机干扰模式与多个干扰机协同干扰模式。
步骤1-3:构建即时干扰效能函数,具体为:
Figure BDA0002833087610000071
其中:k为比例常数;τ表示该时隙干扰方侦收到的单位时间非确认帧数量;τ0为预设定门限值100;t1、t2构成的时隙区间[t1,t2](t2>t1),表示通信方在此区间内受到干扰方连续干扰;t3、t4构成的时隙区间[t3,t4](t4>t3),表示通信方在此区间内均正常通信。
Figure BDA0002833087610000072
表示波道碰撞指示函数,ft c表示通信方所选波道的中心频率,ft j表示干扰方所选波道的中心频率。只有通信方和干扰方在同一波道即
Figure BDA0002833087610000073
时,通信方才可能受到干扰方的干扰。
步骤2:构建融合有效方差置信上界的强化学习决策模型。
步骤2-1:设定决策模型的学习步长α=0.1、折扣因子γ=0.9探索因子ρ=0.9,最大迭代次数T设为10000步;
步骤2-2:在设定模型参数基础上,构建干扰动作空间A,干扰动作空间A内的干扰动作a为步骤1-2中的干扰参数组,a∈A;构建环境状态空间S+,环境状态空间S+内的元素s为步骤1-1中的通信参数组和单位时间内非确认帧数量τ构成的元组,s∈S+;建立状态-干扰动作对的效能矩阵Q(s,a)=0|S|×|A|,其中的元素Q(s,a)表示在环境状态s下干扰动作a的干扰效能大小;建立状态-动作对平均效能矩阵P(s,a)=0|S|×|A|,其中的元素P(s,a)表示在环境状态s下干扰动作a的平均干扰效能;建立状态动作执行次数矩阵Ν(s,a)=0|S|×|A|,其中的元素N(s,a)表示在环境状态s下干扰方选择干扰动作a的累计次数,将上述矩阵全部初始化为零矩阵;
步骤2-3:在构造干扰动作空间、环境状态空间和最大迭代次数基础上,设置剔除干扰动作剔除参数的初始值为:剔除轮次初始值m=0和第m剔除轮次对应的剔除因子εm=1,剔除轮次上界值
Figure BDA0002833087610000074
e为自然对数,设置常量
Figure BDA0002833087610000075
其中|A(s)|表示环境状态s下的干扰动作空间大小,设置干扰动作探索访问上界值
Figure BDA0002833087610000081
所有干扰动作总访问上界值为N0=|A(s)|n0
步骤3:利用决策模型选择干扰参数;
步骤3-1:计算干扰动作的即时干扰效能,即将干扰动作空间A和环境状态空间S+的元素a和s进行两两组合得到元组(s,a),逐一输入步骤1-3构建的即时干扰效能函数得到该环境状态s下该干扰动作a的即时干扰效能ra
即时干扰效能函数,即规定干扰方某时隙干扰成功获得的效能,正相关于到当前时隙为止干扰方连续干扰成功的时隙总数和当前时隙单位时间非确认帧数的乘积;干扰方某时隙干扰失败获得的收益与到当前时隙为止通信方连续非正常通信的时隙数成负相关。此干扰效能函数反应出,连续成功的决策出最佳干扰动作,将获得更高的干扰效能。故可以此效能函数表征决策波动性,波动性越小,干扰效能越高,波动性越大,干扰效能越小。
步骤3-2:输出决策模型选择的最佳干扰动作,即将状态s下各干扰动作a的即时干扰效能rs,a依次代入干扰动作贪婪选择公式,贪婪选择当前最优的干扰动作,作为决策模型的输出。干扰动作贪婪选择公式为:
Figure BDA0002833087610000082
其中
Figure BDA0002833087610000083
为干扰动作的效能方差,P(s,a)为该状态动作对的平均效能,干扰动作效能方差为:
Figure BDA0002833087610000084
平均效能为:
Figure BDA0002833087610000085
步骤3-3:进行干扰动作的剔除,即将各干扰动作的干扰效能Q(s,a)代入动作剔除公式以建立置信区间,对该环境状态下的干扰动作进行筛选,剔除在置信区间之外的干扰动作,得到新的干扰动作空间;
所述的动作剔除公式为:
Figure BDA0002833087610000091
置信区间为
Figure BDA0002833087610000092
若某干扰动作i满足动作剔除公式则从干扰动作空间A中剔除动作i,得到新的干扰动作空间A(s)′,其中N(s,i)与N(s,j)分别表示在状态s干扰动作i和干扰动作j被选择的次数。
步骤3-4:更新剔除参数。
若当前迭代次数t≥Nm且m≤M,如下进行剔除参数的更新,其中Nm表示第m轮的干扰动作总访问次数上界值:
剔除因子:
Figure BDA0002833087610000093
当前轮次所有状态对应的动作集合:
Figure BDA0002833087610000094
动作探索访问上界值:
Figure BDA0002833087610000095
所有动作总访问上界值:Nm+1=t+|A(s)m+1|nm+1
动作剔除轮次:m=m+1。
步骤3-5:更新干扰动作的干扰效能,即利用时序差分公式更新干扰动作空间A(s)中所有干扰动作的干扰效能。
所述的时序差分公式为
Figure BDA0002833087610000096
其中rs,a为状态s下选择干扰动作a可获得的即时干扰效能。
步骤4:输出决策的最佳干扰动作,即当达到设置的最大迭代次数T时,输出决策出的干扰动作,此时干扰动作为最佳干扰动作。
为了评价本发明的有效性,本发明方法与基于传统强化学习方法的通信干扰决策方法进行比较,设置了单个干扰机干扰单对通信用户的单机对抗场景和三个干扰机干扰三对通信用户的协同对抗场景,以在相同迭代次数条件下决策方法的最终干扰成功率、可获得的干扰总收益为评价指标,其中将干扰方获得的干扰总收益定义为所有时隙内各个干扰机获得干扰效能之和即:
Figure BDA0002833087610000097
其中:t为通信时隙,Ri t为第i个干扰机在该时隙的干扰效能。干扰方的最佳干扰策略π*就是在一定时间内最大化干扰总收益Rsum,如下式:
π*=argmaxπEτ~π(τ)[Rsum(τ)]
从即时干扰效能函数可以明确:连续成功的决策出最佳干扰参数,将获得更高的干扰效能。以此效能函数表征决策波动性,波动性越小,干扰效能越高,波动性越大,干扰效能越小。
图2为对抗单对通信用户时本发明方法干扰成功率收敛曲线和传统的强化学习方法的干扰成功率收敛曲线对比,单对通信用户指一对发射-接收机。
图3为对抗三对通信用户时本发明方法干扰成功率收敛曲线和传统的强化学习方法的干扰成功率收敛曲线对比,三对通信用户指三对发射-接收机。
图4为对抗单对通信用户时本发明方法干扰总收益收敛曲线和传统的强化学习方法的干扰总收益收敛曲线对比,单对通信用户指一对发射-接收机。
图5为对抗三对通信用户时本发明方法干扰总收益收敛曲线和传统的强化学习方法的干扰总收益收敛曲线对比,三对通信用户指三对发射-接收机。
图2和图3结果表明,在对抗单对通信用户和对抗三对通信用户,本发明方法的干扰成功率曲线其收敛速度均优于传统强化学习方法。在对抗单对通信用户时,传统强化学习方法需近10000次迭代干扰成功率才能达到80%,而本发明方法只需2600次迭代就可达到80%干扰成功率。且在对抗三对通信用户组网通信时,经过10000次迭代后本发明方法最终的协同干扰成功率达到78%,传统强化学习方法只有51%。
图4和图5结果表明,在对抗单对通信用户和对抗三对通信用户,本发明方法的干扰总收益曲线其收敛速度均优于传统强化学习方法。且在对抗三对通信用户组网通信时,本发明方法在10000次迭代后最终的协同干扰收益高出传统强化学习方法两个数量级。根据设置的干扰效能函数可知,方法决策波动性越小,干扰收益越高。所以本发明提出的融合有效方差置信上界的强化学习认知通信决策方法学习最佳干扰策略的速度更快,且波动性更小。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种认知通信干扰决策方法,包括:
步骤1:建立对抗双方模型,即建立干扰方模型、通信方模型并构建即时干扰效能函数:
步骤2:构建融合有效方差置信上界的强化学习决策模型,即在融合有效方差置信上界的强化学习框架中,利用干扰方模型的输入和即时干扰效能函数作为决策模型的输入,决策模型输出的干扰动作作为干扰方模型的输出;
步骤3:决策干扰参数,即利用强化学习决策模型选择干扰参数;
步骤4:输出最佳干扰动作,即当达到设置的迭代次数时,输出强化学习决策模型的干扰动作。
2.如权利要求1所述的一种认知通信干扰决策方法,其特征在于:步骤1包括:
步骤1-1:建立通信方模型,即设置通信方模型输入为上一时刻调制方式、中心频率构成的通信参数组、上一时刻确认帧/非确认帧协议信息,输出为下一时刻的调制方式、中心频率构成的通信参数组;
步骤1-2:建立干扰方模型,即设置干扰方模型输入为上一时刻干扰动作、上一时刻确认帧/非确认帧协议信息,输出为下一时刻干扰动作,其中干扰动作包含干扰信号调制样式、干扰中心频率;
步骤1-3:构建即时干扰效能函数,即设置该函数输入为通信方模型上一时刻的输入、干扰方模型上一时刻的输入,输出为干扰方干扰动作的即时干扰效能。
3.如权利要求2所述的一种认知通信干扰决策方法,其特征在于:步骤2包括:
步骤2-1:设定决策模型参数,即设置决策模型的学习步长、折扣因子、探索因子,设置模型最大迭代次数;
步骤2-2:构建干扰动作空间和环境状态空间,即在设定强化学习决策模型参数基础上,构建干扰动作空间,构建环境状态空间,建立状态-干扰动作对的效能矩阵、状态-动作对平均效能矩阵以及状态动作执行次数矩阵,将上述矩阵全部初始化为零矩阵;
步骤2-3:设置干扰动作剔除参数的初始值,即在构建的干扰动作空间、环境状态空间和最大迭代次数基础上,设定动作剔除参数。
4.如权利要求3所述的一种认知通信干扰决策方法,其特征在于:步骤3包括:
步骤3-1:计算干扰动作的即时干扰效能,即将干扰动作空间和环境状态空间中的元素进行两两组合,逐一输入至强化学习决策模型中,强化学习决策模型根据即时干扰效能函数得到该环境状态下该干扰动作的即时干扰效能;
步骤3-2:输出强化学习决策模型选择的最佳干扰动作,即将各干扰动作的即时干扰效能代入干扰动作贪婪选择公式,贪婪选择当前最优的干扰动作,作为强化学习决策模型的输出;
步骤3-3:进行干扰动作的剔除,即将各干扰动作的干扰效能代入动作剔除公式以建立置信区间,对该环境状态下的干扰动作进行筛选,剔除在置信区间之外的干扰动作,得到新的干扰动作空间;
步骤3-4:更新剔除参数,即当满足剔除条件时,依据迭代公式更新所设定的剔除参数值;
步骤3-5:更新干扰动作的干扰效能,即利用时序差分公式更新干扰动作空间中所有干扰动作的干扰效能。
5.如权利要求4所述的一种认知通信干扰决策方法,其特征在于:通信方采用四种数字调制方式和二十个通信波道进行通信;步骤1-1中确认帧/非确认帧协议信息为单位时间非确认帧数量τ;步骤1-3中即时干扰效能函数为:
Figure FDA0002833087600000021
其中k为比例常数;τ表示该时隙干扰方侦收到的单位时间非确认帧数量;τ0为预设定门限值100;t1、t2构成的时隙区间[t1,t2](t2>t1),表示通信方在此区间内受到干扰方连续干扰;t3、t4构成的时隙区间[t3,t4](t4>t3),表示通信方在此区间内均正常通信;
Figure FDA0002833087600000022
表示波道碰撞指示函数,ft c表示通信方所选波道的中心频率,ft j表示干扰方所选波道的中心频率;
步骤2-2中干扰动作空间A内的干扰动作a为步骤1-2中的干扰参数组,a∈A;环境状态空间S+内的元素s为步骤1-1中的通信参数组和单位时间内非确认帧数量τ构成的元组,s∈S+;建立状态-干扰动作对的效能矩阵Q(s,a)=0|S|×|A|,其中的元素Q(s,a)表示在环境状态s下干扰动作a的干扰效能大小;建立状态-动作对平均效能矩阵P(s,a)=0|S|×|A|,其中的元素P(s,a)表示在环境状态s下干扰动作a的平均干扰效能;建立状态动作执行次数矩阵Ν(s,a)=0|S|×|A|,其中的元素N(s,a)表示在环境状态s下干扰方选择干扰动作a的累计次数,将上述矩阵全部初始化为零矩阵;
步骤2-3中设置剔除干扰动作剔除参数的初始值为:剔除轮次初始值m=0和第m剔除轮次对应的剔除因子εm=1,剔除轮次上界值
Figure FDA0002833087600000031
e为自然对数,设置常量
Figure FDA0002833087600000032
其中|A(s)|表示环境状态s下的干扰动作空间大小,设置干扰动作探索访问上界值
Figure FDA0002833087600000033
所有干扰动作总访问上界值为N0=|A(s)|n0
步骤3-1中将干扰动作空间A的元素a和环境状态空间S+的元素s进行两两组合得到元组(s,a),逐一输入步骤1-3构建的即时干扰效能函数得到该环境状态s下该干扰动作a的即时干扰效能ra
步骤3-2中将状态s下各干扰动作a的即时干扰效能rs,a依次代入干扰动作贪婪选择公式,贪婪选择当前最优的干扰动作,作为决策模型的输出;干扰动作贪婪选择公式为:
Figure FDA0002833087600000034
其中
Figure FDA0002833087600000035
为干扰动作的效能方差,P(s,a)为该状态动作对的平均效能;
步骤3-3中将各干扰动作的干扰效能Q(s,a)代入动作剔除公式以建立置信区间,对该环境状态下的干扰动作进行筛选,剔除在置信区间之外的干扰动作,得到新的干扰动作空间;
所述的动作剔除公式为:
Figure FDA0002833087600000036
置信区间为
Figure FDA0002833087600000037
若某干扰动作i满足动作剔除公式则从干扰动作空间A中剔除动作i,得到新的干扰动作空间A(s)′,其中N(s,i)与N(s,j)分别表示在状态s干扰动作i和干扰动作j被选择的次数;
步骤3-4中若当前迭代次数t≥Nm且m≤M,如下进行剔除参数的更新,其中Nm表示第m轮的干扰动作总访问次数上界值:
步骤3-5中利用时序差分公式更新干扰动作空间A(s)中所有干扰动作的干扰效能,时序差分公式为
Figure FDA0002833087600000038
其中rs,a为状态s下选择干扰动作a可获得的即时干扰效能。
6.如权利要求5所述的一种认知通信干扰决策方法,其特征在于:通信方四种调制方式分别为:二进制相移键控调制BPSK、四相移键控调制QPSK、四进制脉冲幅度调制4-PAM、十六进制正交振幅调制16-QAM;二十个通信波道分别为225MHz、230MHz、235MHz、240MHz、245MHz、250MHz、255MHz、260MHz、265MHz、270MHz、275MHz、280MHz、285MHz、290MHz、295MHz、300MHz、305MHz、310MHz、315MHz、320MHz;步骤1-1中τ值为100;步骤2-1中设定决策模型的学习步长α=0.1、折扣因子γ=0.9探索因子ρ=0.9,最大迭代次数T为10000步。
CN202011462821.9A 2020-12-14 2020-12-14 一种认知通信干扰决策方法 Active CN112616158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011462821.9A CN112616158B (zh) 2020-12-14 2020-12-14 一种认知通信干扰决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011462821.9A CN112616158B (zh) 2020-12-14 2020-12-14 一种认知通信干扰决策方法

Publications (2)

Publication Number Publication Date
CN112616158A true CN112616158A (zh) 2021-04-06
CN112616158B CN112616158B (zh) 2023-09-05

Family

ID=75233587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011462821.9A Active CN112616158B (zh) 2020-12-14 2020-12-14 一种认知通信干扰决策方法

Country Status (1)

Country Link
CN (1) CN112616158B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001608A (zh) * 2022-04-11 2022-09-02 中国人民解放军63892部队 一种基于通用软件无线电平台架构的认知干扰系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013104120A1 (zh) * 2012-01-11 2013-07-18 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
US20180114164A1 (en) * 2016-10-20 2018-04-26 Loven Systems, LLC Method and system for reflective learning
WO2019007388A1 (en) * 2017-07-06 2019-01-10 Huawei Technologies Co., Ltd. SYSTEM AND METHOD FOR DEEP LEARNING AND WIRELESS NETWORK OPTIMIZATION USING DEEP LEARNING
KR20190069332A (ko) * 2017-12-11 2019-06-19 한국전자통신연구원 딥러닝을 이용한 빔포빙 방법
US20200015101A1 (en) * 2017-02-16 2020-01-09 Alcatel-Lucent Ireland Ltd. Methods And Systems For Network Self-Optimization Using Deep Learning
WO2020116958A1 (ko) * 2018-12-05 2020-06-11 엘지전자 주식회사 무선 통신 시스템에서 폴라 코딩에 기초하여 데이터를 송신하는 방법 및 장치
CN111314015A (zh) * 2020-01-07 2020-06-19 中国人民解放军国防科技大学 一种基于强化学习的脉冲干扰决策方法
CN111865474A (zh) * 2020-07-15 2020-10-30 中国人民解放军国防科技大学 基于边缘计算的无线通信抗干扰决策方法及系统
CN111917508A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
CN111970072A (zh) * 2020-07-01 2020-11-20 中国人民解放军陆军工程大学 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013104120A1 (zh) * 2012-01-11 2013-07-18 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
US20180114164A1 (en) * 2016-10-20 2018-04-26 Loven Systems, LLC Method and system for reflective learning
US20200015101A1 (en) * 2017-02-16 2020-01-09 Alcatel-Lucent Ireland Ltd. Methods And Systems For Network Self-Optimization Using Deep Learning
WO2019007388A1 (en) * 2017-07-06 2019-01-10 Huawei Technologies Co., Ltd. SYSTEM AND METHOD FOR DEEP LEARNING AND WIRELESS NETWORK OPTIMIZATION USING DEEP LEARNING
KR20190069332A (ko) * 2017-12-11 2019-06-19 한국전자통신연구원 딥러닝을 이용한 빔포빙 방법
WO2020116958A1 (ko) * 2018-12-05 2020-06-11 엘지전자 주식회사 무선 통신 시스템에서 폴라 코딩에 기초하여 데이터를 송신하는 방법 및 장치
CN111314015A (zh) * 2020-01-07 2020-06-19 中国人民解放军国防科技大学 一种基于强化学习的脉冲干扰决策方法
CN111970072A (zh) * 2020-07-01 2020-11-20 中国人民解放军陆军工程大学 基于深度强化学习的宽带抗干扰系统及抗干扰方法
CN111865474A (zh) * 2020-07-15 2020-10-30 中国人民解放军国防科技大学 基于边缘计算的无线通信抗干扰决策方法及系统
CN111917508A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型及动态空间谱抗干扰方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JEN-FENG HUANG ET AL.: "Anti-Jamming Rendezvous Scheme for Cognitive Radio Networks", 《IEEE TRANSACTIONS ON MOBILE COMPUTING 》 *
SUBHOJYOTI MUKHERJEE ET AL.: "Efficient-UCBV: An Almost Optimal Algorithm using Variance Estimates", 《PROCEEDINGS OF 32ND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENT》》 *
SUBHOJYOTI MUKHERJEE: "Finite-time Analysis of Frequentist Strategies for Multi-armed Bandits", 《MS THESIS》 *
YANGYANG LI: "On the Performance of Deep Reinforcement Learning-Based Anti-Jamming Method Confronting Intelligent Jammer", 《APPLIED SCIENCES》 *
杨鸿杰: "基于强化学习的智能通信干扰决策技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
程玉虎 等: "基于自组织模糊RBF网络的连续空间Q学习", 《信息与控制》 *
颛孙少帅 等: "采用双层强化学习的干扰决策算法", 《西安交通大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001608A (zh) * 2022-04-11 2022-09-02 中国人民解放军63892部队 一种基于通用软件无线电平台架构的认知干扰系统

Also Published As

Publication number Publication date
CN112616158B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US11611457B2 (en) Device and method for reliable classification of wireless signals
CN113406579B (zh) 一种基于深度强化学习的伪装干扰波形生成方法
CN105281847B (zh) 基于模型参数辨识的欺骗干扰识别方法
CN108075975A (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
CN112616158A (zh) 一种认知通信干扰决策方法
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
Han et al. Joint resource allocation in underwater acoustic communication networks: A game-based hierarchical adversarial multiplayer multiarmed bandit algorithm
CN113423110A (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN112672426A (zh) 一种基于在线学习的抗干扰频点分配方法
Wang et al. Adversarial reinforcement learning in dynamic channel access and power control
CN108809881B (zh) 一种基于改进的exp3算法水下自适应ofdm通信方法
Wilhelmi et al. Federated spatial reuse optimization in next-generation Decentralized IEEE 802.11 WLANs
CN116866895A (zh) 一种基于神经虚拟自博弈的智能对抗方法
CN109787996B (zh) 雾计算中一种基于dql算法的伪装攻击检测方法
Zhou et al. FedAegis: Edge-based Byzantine-robust federated learning for heterogeneous data
de Sousa et al. An FPGA-based SOM circuit architecture for online learning of 64-QAM data streams
CN113747447B (zh) 基于先验知识的双动作强化学习频谱接入方法和系统
CN116011555A (zh) 度量复杂任务决策情景下强化学习策略间差异度的方法
Parvin et al. Blind equalization based on normalized error in wireless sensor networks
CN115085856A (zh) 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统
Yin et al. UAV Communication Against Intelligent Jamming: A Stackelberg Game Approach With Federated Reinforcement Learning
Wang et al. Deep reinforcement learning for joint sensor scheduling and power allocation under DoS attack
CN109831264B (zh) 基于最近邻居回归的时序水声信道质量预测方法和系统
Xu et al. Optimal transmission strategy for multiple Markovian fading channels: Existence, structure, and approximation
CN117750525B (zh) 一种基于强化学习的频域抗干扰方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant