CN114423046A

CN114423046A - 一种协同通信干扰决策方法

Info

Publication number: CN114423046A
Application number: CN202111461271.3A
Authority: CN
Inventors: 许华; 宋佰霖; 齐子森; 饶宁; 彭翔
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-29

Abstract

本公开实施例是关于一种协同通信干扰决策方法，该方法包括：建立协同决策模型，提供决策环境；基于深度强化学习，在Actor‑Critic算法架构下提出一种融合优势函数的干扰决策算法，根据干扰决策算法输出最优的干扰方案。通过上述协同干扰决策方法，根据构建的协同决策模型，实现根据干扰决策算法输出最优的干扰方案，本公开实施例给出的干扰方案能够实现干扰资源的最优利用，提高决策效率。

Description

一种协同通信干扰决策方法

技术领域

本发明涉及控制技术领域，尤其涉及一种协同通信干扰决策方法。

背景技术

在通信对抗领域，体系对抗、协同干扰已成为主要作战运用方式，如何调配干扰资源、在最大程度上提高资源利用率是当前亟须解决的重要难题，给指挥决策带来巨大挑战。一些基于博弈论、随机理论等方法的认知无线电干扰决策研究取得一定进展，这些研究通过设置干扰双方对抗场景，推导博弈收益函数，计算干扰样式、功率等干扰参数来得到最优干扰策略。此类方法虽能输出较好结果，但适用场景较为简单，无法满足当前多维协同的战场环境，与实际作战使用仍有较大差距。

相关技术中，基于人工智能技术的认知电子战相关研究近年来取得较大突破，智能干扰决策是其中关键一环，一般采用基于深度强化学习技术实现智能决策。深度强化学习是一种通过智能体与环境交互、神经网络拟合输出动作方案、环境反馈引导网络训练更新、使评价收益值最大的一种机器学习方法，能够在无先验信息或先验信息较少的情况下通过交互学习给出较优的决策结果，广泛应用于战场资源优化、指挥协同控制等军事智能领域。在通信干扰决策方面，一些方法建立多臂选择机制模型，建立误码率曲线字典，通过字典采样并经过算法计算，干扰机可以构造出与实际曲线相似的误码率曲线，在三次交互作用下学习最优干扰策略；还有一些方法应用多臂选择机制模型，通过决策干扰信号样式、数据包发送指令以及功率等级等物理层参数，得到最高效功率分配的干扰方案；此外，为解决强化学习算法在干扰决策中收敛速度慢的问题，有的方法通过等效参数建模，降维干扰参数选择搜索空间，加入以往的干扰经验信息，在缩短系统学习时间的同时输出最佳干扰策略；基于整体对抗思想提出BHJM算法，能够在干扰资源不足的条件下优先干扰威胁等级较高的跳频通信目标，并输出资源利用率最高的干扰方案。然而以上研究都是针对某种信号体制或单个干扰站给出优化后的干扰方案，无法解决协同干扰决策及资源分配问题。

因此，有必要提供一种新的技术方案改善上述方案中存在的一个或者多个问题。

需要注意的是，本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本公开的目的在于提供一种协同通信干扰决策方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开实施例提供的一种协同通信干扰决策方法，该方法包括：

建立协同决策模型，提供决策环境；

基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案。

本公开实施例中，定义所述协同决策模型所需的基本元素为：状态空间和动作空间；其中，状态空间表示某个目标跳频信号未被干扰的频点数量为h，定义状态空间S＝[h₁,h₂,...,h_n]，即表示所有目标跳频信号未被干扰的频点数；动作空间定义决策网络输出干扰动作为A，表示干扰站的部署阵地及干扰方向角对应的干扰动作编码，为降低算法的决策维度，在0°～180°范围内每a°可选择一个角度作为干扰方向角。

本公开实施例中，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：

通过策略执行网络感知环境状态，获取t时刻各待干扰目标信号的频点数信息S_t，通过所述策略执行网络的拟合运算输出t时刻各干扰站的干扰动作A_t。

本公开实施例中，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据干扰决策算法输出最优的干扰方案，包括：

价值评估网络根据获取的t时刻和t+1时刻所述各待干扰目标信号的频点数信息S_t和S_t+1，分别输出t时刻所述干扰动作A_t的状态价值V(S_t)和 t+1时刻所述干扰动作A_t+1的状态价值V(S_t+1)，来估计当前所述策略执行网络的策略的优劣。

基于全局思想设置奖励函数，通过在所述奖励函数中引入专家激励，针对各干扰站执行所述干扰动作后引发的状态改变给出评价，即计算输出引入所述专家激励后的奖励值r。

本公开实施例中，所述在奖励函数中引入专家激励，包括：

在基础奖励值r_base上加入一个额外的专家激励值r_exp，得到引入所述专家激励后的所述奖励值r，所述专家激励值r_exp为后续决策形成专家式引导，并对当前决策形成内部激励；

其中：专家激励值r_exp定义为：

r_exp＝N_cha×(N_jam+1) (1)

引入专家激励后的奖励值r定义为：

r＝r_base+r_exp (2)

式中：N_cha表示已被干扰的目标数量，N_jam表示当前干扰站成功干扰的目标数量。

引入优势函数，比较动作价值与状态价值的优劣；所述，优势函数的公式为：

A(S_t,A_t)＝Q(S_t,A_t)＝r+V(S_t+1)-V(S_t) (3)

其中，Q(S_t,A_t)表示动作价值，所述优势函数A(S_t,A_t)表示表示t时刻执行干扰动作A_t后，动作价值Q(S_t,A_t)相比于状态价值V(S_t)的优势程度。

本公开实施例中，通过训练优化模块分别对所述策略执行网络参数和所述价值评估网络参数进行训练优化；其中，所述训练优化模块包括所述价值评估网络的损失函数和所述策略执行网络的所述损失函数，所述价值评估网络的损失函数和所述策略执行网络的损失函数的公式分别为；

L(θ_V)＝A(S_t,A_t；θ_V)²＝[r+γV(S_t+1；θ_V)-V(S_t；θ_V)]² (4)

R(θ)＝A(S_t,A_t；θ_V)logp_θ(A_t|S_t)＝[r+γV(S_t+1；θ_V)-V(S_t；θ_V)]logp_θ(A_t|S_t) (5)

其中，L(θ_V)表示价值评估网络的损失函数，R(θ)表示策略执行网络的损失函数，θ表示策略执行网络参数，θ_v表示价值评价网络参数，γ表示衰减因子，p_θ表示策略执行网络的策略概率。

本公开实施例中，根据所述价值评估网络输出的A(S_t,A_t；θ_V)优化策略执行网络参数，使所述策略执行网络决策出更优的干扰动作。

本公开实施例中，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案的步骤之后，还包括：根据干信比计算干扰效果，根据所述干信比与目标压制系数的大小，确定是否干扰有效，所述干信比的公式为：

其中，P_J为干扰机的发射功率，P_S为信号发射机的发射功率；H_J为干扰机发射天线与信号接收天线增益之积，H_S为信号发射机天线增益与接收天线增益之积；L_J和L_S分别为干扰信号和通信信号传输的空间损耗，

表示干扰站干扰带宽能够对准待干扰目标信号频点的部分，

表示有效干扰的功率大小；

表示干扰频段与待干扰目标信号频点在频率域是否对准的指示值，当频率为f的干扰谱对准频率为f_S的跳频频点，则指示值

为1，反之为0。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明的一种实施例中，通过上述协同干扰决策方法，根据构建的协同决策模型，为干扰决策方法提供决策环境，基于深度强化学习，在 Actor-Critic算法架构下提出的融合优势函数的干扰决策算法，实现根据干扰决策算法输出最优的干扰方案，本公开实施例给出的干扰方案能够实现干扰资源的最优利用，提高决策效率。

附图说明

图1示意性示出本公开示例性实施例中协同通信干扰决策方法的流程图；

图2示意性示出本公开示例性实施例中干扰站及待干扰目标的位置示意图；

图3示意性示出本公开示例性实施例中不同算法下的干扰成功率对比示意图；

图4示意性示出本公开示例性实施例中不同算法下的平均奖励值对比示意图；

图5示意性示出本公开示例性实施例中不同算法下的干扰站数量对比示意图；

图6示意性示出本公开示例性实施例中不同算法下的最优干扰方案对比示意图；

图7示意性示出本公开示例性实施例中有专家激励和无专家激励时的干扰成功率对比示意图；

图8示意性示出本公开示例性实施例中有专家激励和无专家激励时的干扰站数量对比示意图；

图9示意性示出本公开示例性实施例中无专家激励时的奖励值对比示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本示例实施方式中首先提供了一种协同通信干扰决策方法。参考图1 中所示，该方法可以包括：

步骤S101：建立协同决策模型，提供决策环境；

步骤S102：基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案。

通过上述协同干扰决策方法，根据构建的协同决策模型，为干扰决策方法提供决策环境，基于深度强化学习，在Actor-Critic算法架构下提出的融合优势函数的干扰决策算法，实现根据干扰决策算法输出最优的干扰方案，本公开实施例给出的干扰方案能够实现干扰资源的最优利用，提高决策效率。

下面，将参考图1对本示例实施方式的上述方法的各个步骤进行更详细的说明。

在步骤S101中，建立协同决策模型，提供决策环境；

具体的，建立的协同决策模型为“整体优化、逐站决策”的协同决策模型，该协同决策模型将每个干扰站都作为独立的智能体，通过同一决策网络分步、顺次决策干扰动作，该干扰动作包括干扰站的部署阵地及干扰方向角；当某个智能体决策完毕后，执行其干扰动作，并将因执行干扰动作而改变的目标信息输入下一个智能体；采用集中式训练的方法从整体优化干扰方案，当所有智能体决策完毕后，训练更新决策网络的权值参数，直至收敛。

在步骤S102中，基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案。

具体的，干扰决策算法包括策略执行网络、价值评估网络、奖励评估模块和训练优化模块。其中协同决策算法又可写成Advantage Function based Jamming CollaborativeDecision-making algorithm，简写AFCJD。

在一个实施例中，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据干扰决策算法输出最优的干扰方案，包括：

具体的，策略执行网络可用来感知环境状态，即获取t时刻各待干扰目标信号的频点数信息S_t，干扰动作A_t包括部署阵地和干扰方向角。

在一个实施例中，定义所述协同决策模型所需的基本元素为：状态空间和动作空间；其中，状态空间表示假设某个目标跳频信号未被干扰的频点数量为h，定义状态空间S＝[h₁,h₂,...,h_n]，即表示所有目标跳频信号未被干扰的频点数；动作空间表示定义决策网络输出干扰动作为A，表示干扰站的部署阵地及干扰方向角对应的干扰动作编码，为降低算法的决策维度，在0°～180°范围内每a°可选择一个角度作为干扰方向角。

具体的，如表1所示。为降低算法的决策维度，在0°～180°范围内每15°可选择一个角度作为干扰方向角，可选角度共有11个。

表1干扰动作编码表

部署阵地D和干扰方向角L可用下式表示：

D＝[A/11]+1 (8)

L＝(A％11+1)×15 (9)

具体的，价值评估网络获取t时刻待各待干扰目标信号的频点数信息 S_t，输出t时刻的干扰动作A_t的状态价值V(S_t)，和t+1时刻的干扰动作A_t+1的状态价值V(S_t+1)，根据干扰动作的状态价值来估计当前策略执行网络的策略的优劣。

在一个实施例中，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：

基于全局思想设置奖励函数，通过在所述奖励函数中引入专家激励，针对各干扰站执行所述干扰动作A_t后引发的状态改变给出评价，即计算输出引入所述专家激励后的奖励值r。

具体的，奖励函数可用于表示整体干扰方案的优劣程度。当所有跳频信号全部被干扰时，基础奖励值r_base为80；当干扰波束内无任何目标时，基础奖励值r_base为-15；否则基础奖励值r_base为0，基础奖励值r_base可如下表示：

在一个实施例中，所述在奖励函数中引入专家激励，包括：

其中：专家激励值r_exp定义为：

r_exp＝N_cha×(N_jam+1) (1)

引入专家激励后的奖励值r定义为：

r＝r_base+r_exp (2)

具体的，在深度强化学习问题中，一般只根据是否完成回合任务或回输赢来判定奖励值，但这样会产生稀疏奖励问题，导致决策算法难以收敛。本实施例通过将专家激励嵌入奖励函数，在基础奖励值r_base上加入一个额外的专家激励值r_exp，使得专家激励值r_exp能够不断引导智能体朝着奖励值r累积值最大的方向更新策略；将基础奖励值r_base与专家激励值r_exp数值相加，即为嵌入专家激励后的奖励值r。专家激励值r_exp为后续决策形成专家式引导，并对当前决策形成内部激励，如公式(1)所示，N_cha值不同，得到的专家激励值r_exp也不同，已被干扰的目标数量N_cha越大，表明其越接近干扰全部目标，专家激励值r_exp越大，获得的奖励值r也越大。由于获得更大奖励值r是智能体的学习目标，所以当越接近干扰全部目标时，专家激励值r_exp的激励作用越强，从而形成对智能体决策的专家引导。

A(S_t,A_t)＝Q(S_t,A_t)＝r+V(S_t+1)-V(S_t) (3)

其中，Q(S_t,A_t)表示动作价值，所述优势函数A(S_t,A_t)表示表示t时刻执行干扰动作A_t后，动作价值Q(S_t,A_t)相比于状态价值V(S_t)的优势程度，具体的，所述优势函数A(S_t,A_t)表示表示t时刻执行干扰动作A_t后，动作价值 Q(S_t,A_t)相比于状态价值V(S_t)的优势程度，V(S_t)同时表示了平均动作A的动作价值，若A(S_t,A_t)大于零，则说明干扰动作A_t比平均动作A好，如果优势函数小于零，则说明干扰动作A_t还不如平均动作A好。

在一个实施例中，通过训练优化模块分别对所述策略执行网络参数和所述价值评估网络参数进行训练优化，其中，所述训练优化模块包括价值评估网络的损失函数和策略执行网络的损失函数，所述价值评估网络的损失函数和策略执行网络的损失函数的公式分别为；

L(θ_V)＝A(S_t,A_t；θ_V)²＝[r+γV(S_t+1；θ_V)-V(S_t；θ_V)]² (4)

具体的，价值评估网络的损失函数，通过不断训练提高网络对价值评估网络的精准程度，给策略执行网络更精确的训练目标。其中，策略执行网络参数和价值评估网络参数即权值参数。

其中，在一个实施例中，AFCJD算法的整体流程如表2所示：

表2 AFCJD算法

在一个实施例中，根据所述价值评估网络输出的A(S_t,A_t；θ_V)优化策略执行网络参数，使策略执行网络决策出更优的干扰动作。

具体的，策略执行网络决策出更优的干扰动作，即为输出的干扰方案。算法中策略执行网络和价值评估网络中的隐藏层均使用全连接神经网络，策略执行网络的输出层使用Softmax函数以及价值评估网络输出层无激活函数外，其余激活函数均为ReLu函数。

在一个实施例中，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案的步骤之后，还包括：根据干信比计算干扰效果，根据所述干信比与目标压制系数的大小，确定是否干扰有效，所述干信比的公式为：

表示干扰站干扰带宽能够对准待干扰目标信号频点的部分，

表示有效干扰的功率大小；

为1，反之为0。

具体的，根据干信比计算输出的干扰方案的干扰效果，当干信比大于目标压制系数时，则干扰有效，反之，则干扰无效。

在体系电子战中，干扰资源的不同调配会对整个体系的干扰效果产生不同影响，例如部署在不同位置的干扰站针对同一目标的干扰可获得不同干扰效果，或当某一干扰站能同时干扰多个目标时，干扰不同目标也会对其余资源的任务分配产生影响，所以协同干扰的难点就在于如何将多个站的干扰资源合理调配，使其发挥最大干扰效能。当干扰站对准多个目标时，实际中通常按照目标的威胁等级来分配干扰任务，为简化场景，以站与目标间距离远近来目标的评判威胁等级，距离越近威胁越大，距离越远威胁越小，即在对准多个目标的情况下，干扰站优先干扰距离最近的目标。本实施例从干扰站的部署位置及干扰目标入手，预先设置可选阵地，通过改变各干扰站的干扰方向角实现对目标的选择，每个干扰站的部署位置及干扰方向角可称为其干扰方案，利用算法的训练优化输出资源利用率最高的干扰方案。

下面结合具体仿真实例，进一步阐述本实施例。

为评估AFCJD算法的性能，将其与DQL算法、DDNN算法进行对比。DQL算法、DDNN算法在用于抗干扰通信场景中，可将其类比转化为协同干扰决策算法应用在本实施例中。同时，通过对比AFCJD算法与无专家激励奖励机制算法的决策效果，来评估专家激励奖励机制对于算法决策性能提升的优势作用。

(1)场景及参数设置

根据通信侦察及各类情报，获取当前空域内20个待干扰目标，用坐标形式粗略表示其空域位置；共使用6个跳频波道，跳频点数分别为30、 65、130、65、30、130，具体参数情况如下表3所示。根据长期情报或侦察情报，干扰方已知每个通信目标的信号发射功率为200W。

表3侦察目标信息

现预设6个阵地，其坐标为[100,336]、[40,182]、[65,219]、[30,565]、 [70,425]、[100,456]，共有30个干扰站可供使用，每个干扰站的最大干扰功率为50kW，干扰站及待干扰目标的位置分布如图2所示。

AFCJD算法的参数设置如下表4所示，共设置30000个仿真回合，为使此算法更好收敛，将学习率设置成梯次变化的形式，表中J_S为每300回合的干扰成功率。当J_S大于0.8时，降低神经网络的训练频率，每10步训练1次Actor网络，每50步训练1次Critic网络，降低算法收敛到局部最优的概率。

表4算法参数设置

(2)干扰资源利用对比分析

若某一回合决策出的干扰方案可将全部目标信号干扰，则认为该方案干扰有效。用每300回合的平均方案有效率来表示干扰成功率，当干扰成功率达到100％时认为算法收敛至最优，训练结束。首先对比3种算法的干扰成功率，为提高算法的探索利用效率，可将DQL算法和DDNN算法的可用干扰站数量提升至35个。

从图3中可以看出，本文提出的AFCJD算法收敛最快，在14000回合左右平均成功率可达100％，而DDNN算法和DQL算法只能在30000 回合左右收敛至接近100％的干扰成功率。从干扰成功率的对比可以得出，本实施例提出的AFCJD算法收敛最快，能够在最少的仿真回合内给出可用的干扰方案。

取3种算法每300回合的平均奖励值进行对比，如图4所示，可以看出本实施例提出的AFCJD算法从开始训练起奖励值即较大，在不断训练过程中逐渐增大至算法收敛停止训练，训练趋势与干扰成功率的趋势相似。而其他2种算法训练初期的平均奖励值较低，前1000个回合的均小于0，说明在训练初期算法的性能较差，无法输出有效方案；与干扰成功率的训练趋势相似，随着训练深入，其他2种算法的平均奖励值不断增大，决策能力逐渐增强，直至算法收敛。从平均奖励值的对比可以看出，本文 AFCJD算法的决策能力提升较快，决策效率较高，较DDNN算法和DQL 算法提高50％左右。

此处加入基于规则的决策算法进行对比，该算法不依靠任何智能计算方法，按照干扰动作编号顺次给干扰站分配干扰动作。若该动作经过计算满足式(7)的条件，则动作有效并执行；否则顺次选择下一动作，直至出现有效动作。当全部目标可被干扰时，各站干扰动作的组合即为干扰方案。

计算每300回合内所有有效干扰方案所需干扰站数量的平均值，对比不同算法给出方案所需干扰站的数量，从图5中可以看出，基于规则的决策算法给出的干扰方案大约需要28个干扰站能够将所有20个目标全部压制；而DDNN算法和DQL算法收敛后需要大约26个干扰站可将20个目标全部压制，本实施例提出的AFCJD算法收敛后只需要大约25个干扰站即可压制全部目标。可以看出，使用智能算法后可以得到节约干扰资源的干扰方案，且本实施例AFCJD算法决策速度更快，决策效率远高于其他2 种算法。

随着训练进行，干扰方案也会不断优化，但干扰站数量的平均值无法体现最优干扰方案的资源利用情况，图6反映了4种算法决策出的最优方案所需干扰站数量的对比情况。其中，AFCJD算法最少只需要24个干扰站即可压制全部目标，相比于DDNN算法和DQL算法能够提高8％的资源利用率。相比于基于规则的决策算法，AFCJD算法能够提高15％的资源利用率，由于基于规则的算法无智能计算环节，所以AFCJD算法的优势更为明显，这也说明基于智能算法的协同干扰决策方法能够达到一般算法所达不到的决策效果。

综上所述，本文提出的AFCJD算法相比于DDNN算法和DQL算法更快收敛到最优干扰方案，决策效率提高50％以上；且最优方案的资源利用率更高，能够节约8％的干扰资源，所以AFCJD算法对于协同干扰决策的效果更好。

此外，本实施例提出的AFCJD算法是一种on-policy算法，能够直接利用决策网络的输出动作及环境的反馈奖励训练网络；DDNN算法和DQL 算法属于DQN一类的off-policy算法，需要将每一次决策的状态、动作等参数作为样本存入经验池，再从经验池采样训练决策网络，off-policy一类算法的采样效率直接决定了算法的有效性及训练效率。通过上述对比还可以推断出，AFCJD这种on-policy算法在干扰决策背景下相比off-policy一类算法具有更高的决策效率。

(3)嵌入式专家激励奖励机制对决策结果的影响分析

嵌入式专家激励奖励机制本质上也是一种奖励工程，这种内部激励能够突破算法本身的训练边界，给智能体更多探索环境信息的空间，提高算法的决策效率。本实施例通过对比AFCJD算法与无专家激励奖励机制算法的决策效果，来说明专家激励奖励机制对于增强算法决策性能的优势作用。无专家激励奖励机制算法时，当所有跳频信号全部被干扰时，奖励值 r为80；当干扰波束内无任何目标时，r为-15；否则r为0。

从图7和图8中可以看出，在前6000个回合两种算法的训练趋势相同，无论是平均干扰成功率还是平均干扰站数量均在不断收敛且效果相当，6000回合以后AFCJD算法继续收敛直至平均干扰成功率达到100％。无专家激励奖励机制的算法在6000回合以后收敛速度下降，在18000回合成功率达到90％并在较大范围内震动，无继续收敛趋势。图9所示为无专家激励奖励机制算法的奖励值变化情况，可以更清晰地看出算法的训练趋势，在18000回合后算法由于探索能力相对较弱无法再决策出奖励值更高的结果，并且出现了一小段过拟合现象。

综上所述，相比于无专家激励奖励机制的算法，AFCJD算法具有更强的探索能力，能够输出更优的决策结果，训练收敛较快且更稳定。同时可以得出，嵌入式专家激励奖励机制能够提高算法的探索能力，提高算法的决策能力并提高算法的决策效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

Claims

1.一种协同通信干扰决策方法，其特征在于，该方法包括：

建立协同决策模型，提供决策环境；

2.根据权要求1所述协同通信干扰决策方法，其特征在于，定义所述协同决策模型所需的基本元素为：状态空间和动作空间；其中，状态空间表示某个目标跳频信号未被干扰的频点数量为h，定义状态空间S＝[h₁,h₂,...,h_n]，即表示所有目标跳频信号未被干扰的频点数；动作空间定义决策网络输出干扰动作为A，表示干扰站的部署阵地及干扰方向角对应的干扰动作编码，为降低算法的决策维度，在0°～180°范围内每a°可选择一个角度作为干扰方向角。

3.根据权利要求1所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：

4.根据权利要求3所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据干扰决策算法输出最优的干扰方案，包括：

价值评估网络根据获取的t时刻和t+1时刻所述各待干扰目标信号的频点数信息S_t和S_t+1，分别输出t时刻所述干扰动作A_t的状态价值V(S_t)和t+1时刻所述干扰动作A_t+1的状态价值V(S_t+1)，来估计当前所述策略执行网络的策略的优劣。

5.根据权利要求4所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：

6.根据权利要求5所述协同通信干扰决策方法，其特征在于，所述在奖励函数中引入专家激励，包括：

其中：专家激励值r_exp定义为：

r_exp＝N_cha×(N_jam+1) (1)

引入专家激励后的奖励值r定义为：

r＝r_base+r_exp (2)

7.根据权利要求5所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案，包括：

A(S_t,A_t)＝Q(S_t,A_t)＝r+V(S_t+1)-V(S_t) (3)

8.根据权利要求7所述协同通信干扰决策方法，其特征在于，通过训练优化模块分别对所述策略执行网络参数和所述价值评估网络参数进行训练优化；其中，所述训练优化模块包括所述价值评估网络的损失函数和所述策略执行网络的所述损失函数，所述价值评估网络的损失函数和所述策略执行网络的损失函数的公式分别为；

L(θ_V)＝A(S_t,A_t；θ_V)²＝[r+γV(S_t+1；θ_V)-V(S_t；θ_V)]² (4)

9.根据权利要求8所述协同通信干扰决策方法，其特征在于，根据所述价值评估网络输出的A(S_t,A_t；θ_V)优化策略执行网络参数，使所述策略执行网络决策出更优的干扰动作。

10.根据权利要求1所述协同通信干扰决策方法，其特征在于，所述基于深度强化学习，在Actor-Critic算法架构下提出一种融合优势函数的干扰决策算法，根据所述干扰决策算法输出最优的干扰方案的步骤之后，还包括：根据干信比计算干扰效果，根据所述干信比与目标压制系数的大小，确定是否干扰有效，所述干信比的公式为：

表示干扰站干扰带宽能够对准待干扰目标信号频点的部分，

表示有效干扰的功率大小；

为1，反之为0，