CN109975800B

CN109975800B - 组网雷达资源管控方法及装置、计算机可读存储介质

Info

Publication number: CN109975800B
Application number: CN201910256656.2A
Authority: CN
Inventors: 杨祖强; 刘硕; 刘光宏; 张德
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2020-12-29
Anticipated expiration: 2039-04-01
Also published as: CN109975800A

Abstract

本发明公开了一种组网雷达资源管控方法、装置及存储介质。包括：S110、根据战场威胁态势信息，构建目标威胁状态矩阵；S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略，并初始化规划时刻；S130、构造回报函数；S140、在预设的t时刻，根据混合策略选取动作并执行；S150、在预设的t+1时刻，更新组网雷达目标跟踪动作空间值函数矩阵；S160、更新混合策略以及平均策略；S170、判断是否满足预设停止条件，若是，则完成组网雷达资源管控，若否，则继续执行步骤S140。降低了资源管控问题规模，各雷达节点可分布、自主地进行资源管控决策，提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。

Description

组网雷达资源管控方法及装置、计算机可读存储介质

技术领域

本发明涉及控制与信息技术领域，特别涉及一种组网雷达资源管控方法、一种组网雷达资源管控装置以及一种计算机可读存储介质。

背景技术

当代信息化、智能化战争对雷达装备目标探测的可靠性和精度要求日益提高，但系统设计复杂、研制周期冗长、研制成本高昂、设备升级困难等因素给单雷达装备性能的大幅提升带来了困难，采用多雷达组网已成为雷达探测技术发展的新趋势。

组网雷达是将不同波段、体制和工作模式的雷达通过网络进行互联，通过协同管理与控制中心或各雷达节点自主决策，对网络中各节点雷达资源的优化配置，从而使组网雷达系统协作完成对多目标的跟踪、搜索等任务。组网雷达系统具备可交互、自组织、自适应等特性，可看作多智能体系统。

资源管控问题是组网雷达系统性能提升的核心问题，是一种多对多的优化问题，依据管控目标函数，通过对网络内各雷达单元的跟踪序列、工作模式等资源对多项任务的调配，实现组网雷达系统的跟踪或探测性能最优。如在组网雷达协同多目标跟踪任务中，组网雷达系统应合理管控各雷达单元所跟踪的空中目标，使得对所有来袭目标进行全覆盖，同时达到最优的跟踪精度。资源的最优管控，对建设具有更强适应性、更好可靠性、更高的体系协同跟踪、搜索、抗干扰能力，具有重大意义，也已成为当前雷达技术的重要研究方向之一。

网络化雷达的资源管理，也即多智能体系统的资源管理，较好的一种方法是专利文献《基于多智能体进化算法的资源受限项目调度方法》(中国专利申请号201210454380.7，公开号CN 103020730 A)提出的基于多智能体进化算法的资源调度方法。该方法将多智能体系统与进化计算相结合，用于求解资源受限项目的调度问题，是一种有效的求解资源受限项目调度问题的方法。

现有技术一所提出的方法仅根据多智能体系统的任务需求进行分布式优化，而优化性能依赖于算法参数的选取，对不同资源管理任务无法自适应，资源调度系统的能力无法在任务的执行过程中演进和提升，在灵活性、自主性、智能性方面有所欠缺。

在多智能体的资源管理方面，另一种相关方法是专利文献《基于多智能体强化学习的大规模服务组合优化方法》(中国专利申请号201310161238.8，公开号CN 103248693A)提出的基于强化学习中Q学习算法的自适应服务组合优化方法。该方法将强化学习与智能体概念相结合，定义强化学习的状态集为服务的前置后置条件，动作集为Web服务本身，采用Q学习方法选择当前状态下的最优动作，并可通过不断训练至Q值收敛，获得最优策略。

现有技术二所提出的方法在多智能体协同中仍采用单体Q学习算法，而Q学习面向马尔可夫决策过程(Markov Decision Process，MDP)，其中假设状态的转移概率函数与时间无关。而多智能体系统中，智能体必须与其他智能体交互，违背了MDP的基本静态假设，使得Q学习的应用变得较为困难，学习效果也不甚理想。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种组网雷达资源管控方法、一种组网雷达资源管控装置以及一种计算机可读存储介质。

为了实现上述目的，本发明的第一方面，提供了一种组网雷达资源管控方法，包括：

S110、根据战场威胁态势信息，构建目标威胁状态矩阵；

S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略，并初始化规划时刻；

S130、构造回报函数；

S140、在预设的t时刻，根据所述混合策略选取动作并执行；

S150、在预设的t+1时刻，更新所述组网雷达目标跟踪动作空间值函数矩阵；

S160、更新所述混合策略以及所述平均策略；

S170、判断是否满足预设停止条件，若是，则完成组网雷达资源管控，若否，则继续执行步骤S140。

可选地，所述根据战场威胁态势信息，构建目标威胁状态矩阵的步骤具体包括：

根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息，形成所述战场威胁态势信息，构建所述目标威胁状态矩阵；其中，

各所述来袭目标的静态属性集合＝{目标类型，机动能力，武器信息{类型，数量}，载荷信息{类型，数量}}；

各所述来袭目标的动态属性集合＝{目标位置，运动速度，航向}；

各所述来袭目标的威胁程度集合＝{攻击意图，毁伤能力，紧迫程度}。

可选地，所述根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息，形成所述战场威胁态势信息，构建所述目标威胁状态矩阵的步骤具体包括：

对来袭目标j的静态属性、动态属性、威胁程度三个集合中共w类属性的量化信息进行威胁估计，得到威胁估计向量X_j＝[x_ij]w，i为属性类别；

采用MAX-MIN方法对来袭目标j的各类属性进行归一化，得到威胁估计规范化向量

则n个来袭目标构成的目标威胁状态矩阵

可选地，所述分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略，并初始化规划时刻的步骤具体包括：

假设来袭目标i的第j类属性的权重为ω_ij；

对向量

中的各元素加权求和得到来袭目标i的综合威胁程度

构建雷达节点l的目标威胁状态集合S_l＝{s_l1,s_l2,...,s_ln}并初始化；

构建雷达节点l的动作空间A_l＝{a_l1,a_l2,...,a_lg}并初始化；

初始化组网雷达目标跟踪动作空间值函数矩阵Q＝[0]n×g；

随机初始化状态-动作混合策略π＝[π_ij]n×g；

初始化平均策略矩阵

可选地，所述回报函数为：

其中，

为组网雷达第j个目标的跟踪精度，

为雷达节点l的任务执行能量消耗，

为任务执行过程中雷达节点i与雷达节点j之间的网络通信消耗。

可选地，所述在预设的t时刻，根据所述混合策略选取动作并执行的步骤具体包括：

对每个组网雷达l∈{1,2,...,m}，在状态

下根据混合策略中不同动作对应的策略值

选取动作

并执行。

可选地，所述在预设的t+1时刻，更新所述组网雷达目标跟踪动作空间值函数矩阵的步骤具体包括：

在所述t+1时刻，威胁状态转移至

获得任务执行效益回报R＝J；

根据下式对组网雷达目标跟踪动作空间值函数矩阵Q进行更新，其中i＝1,2,...n，j＝1,2,...g：

其中，α>0为学习率，γ∈[0,1]为折扣系数。

可选地，所述更新所述混合策略以及所述平均策略的步骤具体包括：

将混合策略π_ij与平均策略

进行比较，并根据下式标准进行输赢判断并选用相应的学习增量：

其中，δlose>δwin；

根据下式对混合策略矩阵π进行更新，其中，i＝1,2,...n，j＝1,2,...g：

根据下式对平均策略

进行更新：

其中，C(s_i)为状态si出现的次数。

本发明的第二方面，提供了一种组网雷达资源管控装置，所述组网雷达资源管控装置适用于前文记载的所述的组网雷达资源管控方法，所述组网雷达资源管控装置包括：

构建模块，用于根据战场威胁态势信息，构建目标威胁状态矩阵；

初始化模块，用于分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略，并初始化规划时刻；

构造模块，用于构造回报函数；

执行模块，用于在第一预设时刻或在接收到继续执行信号时，根据所述混合策略选取动作并执行；

更新模块，用于在第二预设时刻，更新所述组网雷达目标跟踪动作空间值函数矩阵；

所述更新模块，还用于更新所述混合策略以及所述平均策略；

判断模块，用于判断是否满足预设停止条件，若是，则发出组网雷达资源管控结束信号，若否，则向所述执行模块发送继续执行信号。

本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时实现如前文记载的所述的组网雷达资源管控方法。

本发明的组网雷达资源管控方法及装置、计算机可读存储介质，将组网雷达系统等效为多智能体系统，运用多智能体强化学习算法，降低了资源管控问题规模，各雷达节点可分布、自主地进行资源管控决策，而不需要集中式的协同管理与控制中心参与，提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。通过多智能体强化学习算法，组网雷达系统的性能在训练和任务执行中演进提升，最终收敛于系统对任务的最优资源配置响应。在实际任务执行中，各组网雷达节点直接依据学习积累的知识进行决策，无需进行复杂优化运算，从而自主、高效、优化地配置组网雷达资源。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1为本发明第一实施例中组网雷达资源管控方法的工艺流程图；

图2为本发明第二实施例中组网雷达资源管控装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明的主要目的在于提供一种基于多智能体强化学习的组网雷达资源管控方法。该方法考虑到多智能体系统之间的交互和联系，基于多智能体强化学习理论，将适用于多智能系统的强化学习算法，应用于组网雷达资源管控领域，如Win or Learn Fast–Policy Hill Climbing(WoLF-PHC)算法，当然，也可以采用minmax-Q学习算法、Nash-Q算法、friend-or-foe算法、Correlated-Q学习算法等其他多智能体学习算法及其改进算法替代。下文将对本发明进行具体说明。

设本发明面向的组网雷达系统中有m个雷达节点，当前雷达节点l感知到或收到其他雷达节点发来的来袭目标数量为n，对目标跟踪涉及p类资源，雷达节点所拥有的资源向量P_l＝[P_li]_1×p；对第j个目标执行跟踪任务对p种资源的需求分别为W_j＝[W_j1,W_j2,...,W_jp]。各雷达节点通过多智能体强化学习算法，进行资源调配的最优决策a_l＝[a_l-ij]_p×n，其中，a_l为第l个雷达节点的决策矩阵，a_l-ij表示第l个雷达节点将自身的第i类资源分配给第j个目标。

组网网雷达资源管控问题可描述为：

该优化问题的目标J为组网雷达对n个来袭目标跟踪的效益函数，通过m个雷达节点的分布式决策a₁,...,a_m，使得各类资源的调配不超出资源总量，满足任务的资源需求，以及其他和具体任务相关的等式约束(h(a₁,...,a_m,W₁,...,W_n)＝0)和不等式约束(h(a₁,...,a_m,W₁,...,W_n)≤0)。

如图1所示，本发明的第一方面，涉及一种组网雷达资源管控方法S100，包括：

S110、根据战场威胁态势信息，构建目标威胁状态矩阵。

具体地，在本步骤中，根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息，形成所述战场威胁态势信息，构建所述目标威胁状态矩阵。其中，各所述来袭目标的静态属性集合＝{目标类型，机动能力，武器信息{类型，数量}，载荷信息{类型，数量}}；各所述来袭目标的动态属性集合＝{目标位置，运动速度，航向}；各所述来袭目标的威胁程度集合＝{攻击意图，毁伤能力，紧迫程度}。

更具体地，对来袭目标j的静态属性、动态属性、威胁程度三个集合中共w类属性的量化信息进行威胁估计，得到威胁估计向量X_j＝[x_ij]w，i为属性类别；

则n个来袭目标构成的目标威胁状态矩阵

S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略，并初始化规划时刻。

具体地，在本步骤中，假设来袭目标i的第j类属性的权重为ω_ij；

对向量

中的各元素加权求和得到来袭目标i的综合威胁程度

构建雷达节点l的动作空间A_l＝{a_l1,a_l2,...,a_lg}并初始化；

初始化组网雷达目标跟踪动作空间值函数矩阵Q＝[0]n×g；

随机初始化状态-动作混合策略π＝[π_ij]n×g；

初始化平均策略矩阵

S130、构造回报函数。

具体地，在本步骤中，所述回报函数为：

其中，

为组网雷达第j个目标的跟踪精度，

为雷达节点l的任务执行能量消耗，

S140、在预设的t时刻，根据所述混合策略选取动作并执行。

具体地，在本步骤中，对每个组网雷达l∈{1,2,...,m}，在状态

下根据混合策略中不同动作对应的策略值

选取动作

并执行。

S150、在预设的t+1时刻，更新所述组网雷达目标跟踪动作空间值函数矩阵。

具体地，在本步骤中，在所述t+1时刻，威胁状态转移至

获得任务执行效益回报R＝J；

其中，α>0为学习率，γ∈[0,1]为折扣系数。

S160、更新所述混合策略以及所述平均策略。

具体地，在本步骤中，将混合策略π_ij与平均策略

其中，δlose>δwin；

根据下式对平均策略

进行更新：

其中，C(s_i)为状态si出现的次数。

本发明实例考虑组网雷达系统之间的交互和联系，基于多智能体强化学习理论，将多智能体强化学习算法应用于组网雷达资源管控，可带来如下有益效果：

(1)将组网雷达系统等效为多智能体系统，运用多智能体强化学习算法，降低了资源管控问题规模，各雷达节点可分布、自主地进行资源管控决策，而不需要集中式的协同管理与控制中心参与，提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。

(2)通过多智能体强化学习算法，组网雷达系统的性能在训练和任务执行中演进提升，最终收敛于系统对任务的最优资源配置响应。

(3)在实际任务执行中，各组网雷达节点直接依据学习积累的知识进行决策，无需进行复杂优化运算，从而自主、高效、优化地配置组网雷达资源。

本发明的第二方面，如图2所示，提供了一种组网雷达资源管控装置100，所述组网雷达资源管控装置100适用于前文记载的所述的组网雷达资源管控方法S100，具体可以参考前文相关记载，在此不作赘述，所述组网雷达资源管控装置100包括：

构建模块110，用于根据战场威胁态势信息，构建目标威胁状态矩阵；

初始化模块120，用于分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略，并初始化规划时刻；

构造模块130，用于构造回报函数；

执行模块140，用于在第一预设时刻或在接收到继续执行信号时，根据所述混合策略选取动作并执行；

更新模块150，用于在第二预设时刻，更新所述组网雷达目标跟踪动作空间值函数矩阵；

所述更新模块150，还用于更新所述混合策略以及所述平均策略；

判断模块160，用于判断是否满足预设停止条件，若是，则发出组网雷达资源管控结束信号，若否，则向所述执行模块140发送继续执行信号。

本实施例的组网雷达资源管控装置100，将组网雷达系统等效为多智能体系统，运用多智能体强化学习算法，降低了资源管控问题规模，各雷达节点可分布、自主地进行资源管控决策，而不需要集中式的协同管理与控制中心参与，提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。通过多智能体强化学习算法，组网雷达系统的性能在训练和任务执行中演进提升，最终收敛于系统对任务的最优资源配置响应。在实际任务执行中，各组网雷达节点直接依据学习积累的知识进行决策，无需进行复杂优化运算，从而自主、高效、优化地配置组网雷达资源。

本发明的第三方面，提供了一种计算机可读存储介质(图中并未示出)，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时实现如前文记载的所述的组网雷达资源管控方法，具体可以参考前文相关记载，在此不作赘述。

本实施例的计算机可读存储介质，其所存储的计算机程序在被处理器执行时，可以实现前文记载的组网雷达资源管控方法，这样，可以将组网雷达系统等效为多智能体系统，运用多智能体强化学习算法，降低了资源管控问题规模，各雷达节点可分布、自主地进行资源管控决策，而不需要集中式的协同管理与控制中心参与，提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。通过多智能体强化学习算法，组网雷达系统的性能在训练和任务执行中演进提升，最终收敛于系统对任务的最优资源配置响应。在实际任务执行中，各组网雷达节点直接依据学习积累的知识进行决策，无需进行复杂优化运算，从而自主、高效、优化地配置组网雷达资源。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。