CN109975800B - 组网雷达资源管控方法及装置、计算机可读存储介质 - Google Patents

组网雷达资源管控方法及装置、计算机可读存储介质 Download PDF

Info

Publication number
CN109975800B
CN109975800B CN201910256656.2A CN201910256656A CN109975800B CN 109975800 B CN109975800 B CN 109975800B CN 201910256656 A CN201910256656 A CN 201910256656A CN 109975800 B CN109975800 B CN 109975800B
Authority
CN
China
Prior art keywords
radar
target
strategy
threat
networking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910256656.2A
Other languages
English (en)
Other versions
CN109975800A (zh
Inventor
杨祖强
刘硕
刘光宏
张德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201910256656.2A priority Critical patent/CN109975800B/zh
Publication of CN109975800A publication Critical patent/CN109975800A/zh
Application granted granted Critical
Publication of CN109975800B publication Critical patent/CN109975800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources

Abstract

本发明公开了一种组网雷达资源管控方法、装置及存储介质。包括:S110、根据战场威胁态势信息,构建目标威胁状态矩阵;S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻;S130、构造回报函数;S140、在预设的t时刻,根据混合策略选取动作并执行;S150、在预设的t+1时刻,更新组网雷达目标跟踪动作空间值函数矩阵;S160、更新混合策略以及平均策略;S170、判断是否满足预设停止条件,若是,则完成组网雷达资源管控,若否,则继续执行步骤S140。降低了资源管控问题规模,各雷达节点可分布、自主地进行资源管控决策,提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。

Description

组网雷达资源管控方法及装置、计算机可读存储介质
技术领域
本发明涉及控制与信息技术领域,特别涉及一种组网雷达资源管控方法、一种组网雷达资源管控装置以及一种计算机可读存储介质。
背景技术
当代信息化、智能化战争对雷达装备目标探测的可靠性和精度要求日益提高,但系统设计复杂、研制周期冗长、研制成本高昂、设备升级困难等因素给单雷达装备性能的大幅提升带来了困难,采用多雷达组网已成为雷达探测技术发展的新趋势。
组网雷达是将不同波段、体制和工作模式的雷达通过网络进行互联,通过协同管理与控制中心或各雷达节点自主决策,对网络中各节点雷达资源的优化配置,从而使组网雷达系统协作完成对多目标的跟踪、搜索等任务。组网雷达系统具备可交互、自组织、自适应等特性,可看作多智能体系统。
资源管控问题是组网雷达系统性能提升的核心问题,是一种多对多的优化问题,依据管控目标函数,通过对网络内各雷达单元的跟踪序列、工作模式等资源对多项任务的调配,实现组网雷达系统的跟踪或探测性能最优。如在组网雷达协同多目标跟踪任务中,组网雷达系统应合理管控各雷达单元所跟踪的空中目标,使得对所有来袭目标进行全覆盖,同时达到最优的跟踪精度。资源的最优管控,对建设具有更强适应性、更好可靠性、更高的体系协同跟踪、搜索、抗干扰能力,具有重大意义,也已成为当前雷达技术的重要研究方向之一。
网络化雷达的资源管理,也即多智能体系统的资源管理,较好的一种方法是专利文献《基于多智能体进化算法的资源受限项目调度方法》(中国专利申请号201210454380.7,公开号CN 103020730 A)提出的基于多智能体进化算法的资源调度方法。该方法将多智能体系统与进化计算相结合,用于求解资源受限项目的调度问题,是一种有效的求解资源受限项目调度问题的方法。
现有技术一所提出的方法仅根据多智能体系统的任务需求进行分布式优化,而优化性能依赖于算法参数的选取,对不同资源管理任务无法自适应,资源调度系统的能力无法在任务的执行过程中演进和提升,在灵活性、自主性、智能性方面有所欠缺。
在多智能体的资源管理方面,另一种相关方法是专利文献《基于多智能体强化学习的大规模服务组合优化方法》(中国专利申请号201310161238.8,公开号CN 103248693A)提出的基于强化学习中Q学习算法的自适应服务组合优化方法。该方法将强化学习与智能体概念相结合,定义强化学习的状态集为服务的前置后置条件,动作集为Web服务本身,采用Q学习方法选择当前状态下的最优动作,并可通过不断训练至Q值收敛,获得最优策略。
现有技术二所提出的方法在多智能体协同中仍采用单体Q学习算法,而Q学习面向马尔可夫决策过程(Markov Decision Process,MDP),其中假设状态的转移概率函数与时间无关。而多智能体系统中,智能体必须与其他智能体交互,违背了MDP的基本静态假设,使得Q学习的应用变得较为困难,学习效果也不甚理想。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种组网雷达资源管控方法、一种组网雷达资源管控装置以及一种计算机可读存储介质。
为了实现上述目的,本发明的第一方面,提供了一种组网雷达资源管控方法,包括:
S110、根据战场威胁态势信息,构建目标威胁状态矩阵;
S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻;
S130、构造回报函数;
S140、在预设的t时刻,根据所述混合策略选取动作并执行;
S150、在预设的t+1时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵;
S160、更新所述混合策略以及所述平均策略;
S170、判断是否满足预设停止条件,若是,则完成组网雷达资源管控,若否,则继续执行步骤S140。
可选地,所述根据战场威胁态势信息,构建目标威胁状态矩阵的步骤具体包括:
根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息,形成所述战场威胁态势信息,构建所述目标威胁状态矩阵;其中,
各所述来袭目标的静态属性集合={目标类型,机动能力,武器信息{类型,数量},载荷信息{类型,数量}};
各所述来袭目标的动态属性集合={目标位置,运动速度,航向};
各所述来袭目标的威胁程度集合={攻击意图,毁伤能力,紧迫程度}。
可选地,所述根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息,形成所述战场威胁态势信息,构建所述目标威胁状态矩阵的步骤具体包括:
对来袭目标j的静态属性、动态属性、威胁程度三个集合中共w类属性的量化信息进行威胁估计,得到威胁估计向量Xj=[xij]w,i为属性类别;
采用MAX-MIN方法对来袭目标j的各类属性进行归一化,得到威胁估计规范化向量
Figure GDA0002772300900000031
则n个来袭目标构成的目标威胁状态矩阵
Figure GDA0002772300900000032
可选地,所述分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻的步骤具体包括:
假设来袭目标i的第j类属性的权重为ωij
对向量
Figure GDA0002772300900000033
中的各元素加权求和得到来袭目标i的综合威胁程度
Figure GDA0002772300900000034
构建雷达节点l的目标威胁状态集合Sl={sl1,sl2,...,sln}并初始化;
构建雷达节点l的动作空间Al={al1,al2,...,alg}并初始化;
初始化组网雷达目标跟踪动作空间值函数矩阵Q=[0]n×g;
随机初始化状态-动作混合策略π=[πij]n×g;
初始化平均策略矩阵
Figure GDA0002772300900000041
可选地,所述回报函数为:
Figure GDA0002772300900000042
其中,
Figure GDA0002772300900000043
为组网雷达第j个目标的跟踪精度,
Figure GDA0002772300900000044
为雷达节点l的任务执行能量消耗,
Figure GDA0002772300900000045
为任务执行过程中雷达节点i与雷达节点j之间的网络通信消耗。
可选地,所述在预设的t时刻,根据所述混合策略选取动作并执行的步骤具体包括:
对每个组网雷达l∈{1,2,...,m},在状态
Figure GDA0002772300900000046
下根据混合策略中不同动作对应的策略值
Figure GDA0002772300900000047
选取动作
Figure GDA0002772300900000048
并执行。
可选地,所述在预设的t+1时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵的步骤具体包括:
在所述t+1时刻,威胁状态转移至
Figure GDA0002772300900000049
获得任务执行效益回报R=J;
根据下式对组网雷达目标跟踪动作空间值函数矩阵Q进行更新,其中i=1,2,...n,j=1,2,...g:
Figure GDA00027723009000000410
其中,α>0为学习率,γ∈[0,1]为折扣系数。
可选地,所述更新所述混合策略以及所述平均策略的步骤具体包括:
将混合策略πij与平均策略
Figure GDA00027723009000000411
进行比较,并根据下式标准进行输赢判断并选用相应的学习增量:
Figure GDA00027723009000000412
其中,δlose>δwin;
根据下式对混合策略矩阵π进行更新,其中,i=1,2,...n,j=1,2,...g:
Figure GDA0002772300900000051
根据下式对平均策略
Figure GDA0002772300900000052
进行更新:
Figure GDA0002772300900000053
其中,C(si)为状态si出现的次数。
本发明的第二方面,提供了一种组网雷达资源管控装置,所述组网雷达资源管控装置适用于前文记载的所述的组网雷达资源管控方法,所述组网雷达资源管控装置包括:
构建模块,用于根据战场威胁态势信息,构建目标威胁状态矩阵;
初始化模块,用于分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻;
构造模块,用于构造回报函数;
执行模块,用于在第一预设时刻或在接收到继续执行信号时,根据所述混合策略选取动作并执行;
更新模块,用于在第二预设时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵;
所述更新模块,还用于更新所述混合策略以及所述平均策略;
判断模块,用于判断是否满足预设停止条件,若是,则发出组网雷达资源管控结束信号,若否,则向所述执行模块发送继续执行信号。
本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被处理器执行时实现如前文记载的所述的组网雷达资源管控方法。
本发明的组网雷达资源管控方法及装置、计算机可读存储介质,将组网雷达系统等效为多智能体系统,运用多智能体强化学习算法,降低了资源管控问题规模,各雷达节点可分布、自主地进行资源管控决策,而不需要集中式的协同管理与控制中心参与,提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。通过多智能体强化学习算法,组网雷达系统的性能在训练和任务执行中演进提升,最终收敛于系统对任务的最优资源配置响应。在实际任务执行中,各组网雷达节点直接依据学习积累的知识进行决策,无需进行复杂优化运算,从而自主、高效、优化地配置组网雷达资源。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1为本发明第一实施例中组网雷达资源管控方法的工艺流程图;
图2为本发明第二实施例中组网雷达资源管控装置的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明的主要目的在于提供一种基于多智能体强化学习的组网雷达资源管控方法。该方法考虑到多智能体系统之间的交互和联系,基于多智能体强化学习理论,将适用于多智能系统的强化学习算法,应用于组网雷达资源管控领域,如Win or Learn Fast–Policy Hill Climbing(WoLF-PHC)算法,当然,也可以采用minmax-Q学习算法、Nash-Q算法、friend-or-foe算法、Correlated-Q学习算法等其他多智能体学习算法及其改进算法替代。下文将对本发明进行具体说明。
设本发明面向的组网雷达系统中有m个雷达节点,当前雷达节点l感知到或收到其他雷达节点发来的来袭目标数量为n,对目标跟踪涉及p类资源,雷达节点所拥有的资源向量Pl=[Pli]1×p;对第j个目标执行跟踪任务对p种资源的需求分别为Wj=[Wj1,Wj2,...,Wjp]。各雷达节点通过多智能体强化学习算法,进行资源调配的最优决策al=[al-ij]p×n,其中,al为第l个雷达节点的决策矩阵,al-ij表示第l个雷达节点将自身的第i类资源分配给第j个目标。
组网网雷达资源管控问题可描述为:
Figure GDA0002772300900000071
Figure GDA0002772300900000072
该优化问题的目标J为组网雷达对n个来袭目标跟踪的效益函数,通过m个雷达节点的分布式决策a1,...,am,使得各类资源的调配不超出资源总量,满足任务的资源需求,以及其他和具体任务相关的等式约束(h(a1,...,am,W1,...,Wn)=0)和不等式约束(h(a1,...,am,W1,...,Wn)≤0)。
如图1所示,本发明的第一方面,涉及一种组网雷达资源管控方法S100,包括:
S110、根据战场威胁态势信息,构建目标威胁状态矩阵。
具体地,在本步骤中,根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息,形成所述战场威胁态势信息,构建所述目标威胁状态矩阵。其中,各所述来袭目标的静态属性集合={目标类型,机动能力,武器信息{类型,数量},载荷信息{类型,数量}};各所述来袭目标的动态属性集合={目标位置,运动速度,航向};各所述来袭目标的威胁程度集合={攻击意图,毁伤能力,紧迫程度}。
更具体地,对来袭目标j的静态属性、动态属性、威胁程度三个集合中共w类属性的量化信息进行威胁估计,得到威胁估计向量Xj=[xij]w,i为属性类别;
采用MAX-MIN方法对来袭目标j的各类属性进行归一化,得到威胁估计规范化向量
Figure GDA0002772300900000081
则n个来袭目标构成的目标威胁状态矩阵
Figure GDA0002772300900000082
S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻。
具体地,在本步骤中,假设来袭目标i的第j类属性的权重为ωij
对向量
Figure GDA0002772300900000083
中的各元素加权求和得到来袭目标i的综合威胁程度
Figure GDA0002772300900000084
构建雷达节点l的目标威胁状态集合Sl={sl1,sl2,...,sln}并初始化;
构建雷达节点l的动作空间Al={al1,al2,...,alg}并初始化;
初始化组网雷达目标跟踪动作空间值函数矩阵Q=[0]n×g;
随机初始化状态-动作混合策略π=[πij]n×g;
初始化平均策略矩阵
Figure GDA0002772300900000085
S130、构造回报函数。
具体地,在本步骤中,所述回报函数为:
Figure GDA0002772300900000086
其中,
Figure GDA0002772300900000087
为组网雷达第j个目标的跟踪精度,
Figure GDA0002772300900000088
为雷达节点l的任务执行能量消耗,
Figure GDA0002772300900000089
为任务执行过程中雷达节点i与雷达节点j之间的网络通信消耗。
S140、在预设的t时刻,根据所述混合策略选取动作并执行。
具体地,在本步骤中,对每个组网雷达l∈{1,2,...,m},在状态
Figure GDA00027723009000000810
下根据混合策略中不同动作对应的策略值
Figure GDA00027723009000000811
选取动作
Figure GDA00027723009000000812
并执行。
S150、在预设的t+1时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵。
具体地,在本步骤中,在所述t+1时刻,威胁状态转移至
Figure GDA00027723009000000813
获得任务执行效益回报R=J;
根据下式对组网雷达目标跟踪动作空间值函数矩阵Q进行更新,其中i=1,2,...n,j=1,2,...g:
Figure GDA0002772300900000091
其中,α>0为学习率,γ∈[0,1]为折扣系数。
S160、更新所述混合策略以及所述平均策略。
具体地,在本步骤中,将混合策略πij与平均策略
Figure GDA0002772300900000092
进行比较,并根据下式标准进行输赢判断并选用相应的学习增量:
Figure GDA0002772300900000093
其中,δlose>δwin;
根据下式对混合策略矩阵π进行更新,其中,i=1,2,...n,j=1,2,...g:
Figure GDA0002772300900000094
根据下式对平均策略
Figure GDA0002772300900000095
进行更新:
Figure GDA0002772300900000096
其中,C(si)为状态si出现的次数。
S170、判断是否满足预设停止条件,若是,则完成组网雷达资源管控,若否,则继续执行步骤S140。
本发明实例考虑组网雷达系统之间的交互和联系,基于多智能体强化学习理论,将多智能体强化学习算法应用于组网雷达资源管控,可带来如下有益效果:
(1)将组网雷达系统等效为多智能体系统,运用多智能体强化学习算法,降低了资源管控问题规模,各雷达节点可分布、自主地进行资源管控决策,而不需要集中式的协同管理与控制中心参与,提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。
(2)通过多智能体强化学习算法,组网雷达系统的性能在训练和任务执行中演进提升,最终收敛于系统对任务的最优资源配置响应。
(3)在实际任务执行中,各组网雷达节点直接依据学习积累的知识进行决策,无需进行复杂优化运算,从而自主、高效、优化地配置组网雷达资源。
本发明的第二方面,如图2所示,提供了一种组网雷达资源管控装置100,所述组网雷达资源管控装置100适用于前文记载的所述的组网雷达资源管控方法S100,具体可以参考前文相关记载,在此不作赘述,所述组网雷达资源管控装置100包括:
构建模块110,用于根据战场威胁态势信息,构建目标威胁状态矩阵;
初始化模块120,用于分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻;
构造模块130,用于构造回报函数;
执行模块140,用于在第一预设时刻或在接收到继续执行信号时,根据所述混合策略选取动作并执行;
更新模块150,用于在第二预设时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵;
所述更新模块150,还用于更新所述混合策略以及所述平均策略;
判断模块160,用于判断是否满足预设停止条件,若是,则发出组网雷达资源管控结束信号,若否,则向所述执行模块140发送继续执行信号。
本实施例的组网雷达资源管控装置100,将组网雷达系统等效为多智能体系统,运用多智能体强化学习算法,降低了资源管控问题规模,各雷达节点可分布、自主地进行资源管控决策,而不需要集中式的协同管理与控制中心参与,提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。通过多智能体强化学习算法,组网雷达系统的性能在训练和任务执行中演进提升,最终收敛于系统对任务的最优资源配置响应。在实际任务执行中,各组网雷达节点直接依据学习积累的知识进行决策,无需进行复杂优化运算,从而自主、高效、优化地配置组网雷达资源。
本发明的第三方面,提供了一种计算机可读存储介质(图中并未示出),所述计算机可读存储介质存储有计算机程序,所述计算机程序在被处理器执行时实现如前文记载的所述的组网雷达资源管控方法,具体可以参考前文相关记载,在此不作赘述。
本实施例的计算机可读存储介质,其所存储的计算机程序在被处理器执行时,可以实现前文记载的组网雷达资源管控方法,这样,可以将组网雷达系统等效为多智能体系统,运用多智能体强化学习算法,降低了资源管控问题规模,各雷达节点可分布、自主地进行资源管控决策,而不需要集中式的协同管理与控制中心参与,提升了组网雷达系统的自主性、决策的鲁棒性和系统的可靠性。通过多智能体强化学习算法,组网雷达系统的性能在训练和任务执行中演进提升,最终收敛于系统对任务的最优资源配置响应。在实际任务执行中,各组网雷达节点直接依据学习积累的知识进行决策,无需进行复杂优化运算,从而自主、高效、优化地配置组网雷达资源。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (9)

1.一种组网雷达资源管控方法,其特征在于,包括:
S110、根据战场威胁态势信息,构建目标威胁状态矩阵;
S120、分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻;
S130、构造回报函数;
S140、在预设的t时刻,根据所述混合策略选取动作并执行;
S150、在预设的t+1时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵;
S160、更新所述混合策略以及所述平均策略;
S170、判断是否满足预设停止条件,若是,则完成组网雷达资源管控,若否,则继续执行步骤S140;
所述根据战场威胁态势信息,构建目标威胁状态矩阵的步骤具体包括:
根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息,形成所述战场威胁态势信息,构建所述目标威胁状态矩阵;其中,
各所述来袭目标的静态属性集合={目标类型,机动能力,武器信息{类型,数量},载荷信息{类型,数量}};
各所述来袭目标的动态属性集合={目标位置,运动速度,航向};
各所述来袭目标的威胁程度集合={攻击意图,毁伤能力,紧迫程度}。
2.根据权利要求1所述的方法,其特征在于,所述根据n个来袭目标的静态属性、动态属性、威胁程度的量化信息,形成所述战场威胁态势信息,构建所述目标威胁状态矩阵的步骤具体包括:
对来袭目标j的静态属性、动态属性、威胁程度三个集合中共w类属性的量化信息进行威胁估计,得到威胁估计向量Xj=[xij]w,i为属性类别;
采用MAX-MIN方法对来袭目标j的各类属性进行归一化,得到威胁估计规范化向量
Figure FDA0002772300890000021
则n个来袭目标构成的目标威胁状态矩阵
Figure FDA0002772300890000022
3.根据权利要求2所述的方法,其特征在于,所述分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻的步骤具体包括:
假设来袭目标i的第j类属性的权重为ωij
对向量
Figure FDA0002772300890000023
中的各元素加权求和得到来袭目标i的综合威胁程度
Figure FDA0002772300890000024
构建雷达节点l的目标威胁状态集合Sl={sl1,sl2,...,sln}并初始化;
构建雷达节点l的动作空间Al={al1,al2,...,alg}并初始化;
初始化组网雷达目标跟踪动作空间值函数矩阵Q=[0]n×g;
随机初始化状态-动作混合策略π=[πij]n×g;
初始化平均策略矩阵
Figure FDA0002772300890000025
4.根据权利要求3所述的方法,其特征在于,所述回报函数为:
Figure FDA0002772300890000026
其中,
Figure FDA0002772300890000027
为组网雷达对第j个目标的跟踪精度,
Figure FDA0002772300890000028
为雷达节点l的任务执行能量消耗,
Figure FDA0002772300890000029
为任务执行过程中雷达节点i与雷达节点j之间的网络通信消耗。
5.根据权利要求4所述的方法,其特征在于,所述在预设的t时刻,根据所述混合策略选取动作并执行的步骤具体包括:
对每个组网雷达l∈{1,2,...,m},在状态
Figure FDA00027723008900000210
下根据混合策略中不同动作对应的策略值
Figure FDA00027723008900000211
选取动作
Figure FDA00027723008900000212
并执行。
6.根据权利要求5所述的方法,其特征在于,所述在预设的t+1时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵的步骤具体包括:
在所述t+1时刻,威胁状态转移至
Figure FDA0002772300890000031
获得任务执行效益回报R=J;
根据下式对组网雷达目标跟踪动作空间值函数矩阵Q进行更新,其中i=1,2,...n,j=1,2,...g:
Figure FDA0002772300890000032
其中,α>0为学习率,γ∈[0,1]为折扣系数。
7.根据权利要求6所述的方法,其特征在于,所述更新所述混合策略以及所述平均策略的步骤具体包括:
将混合策略πij与平均策略
Figure FDA0002772300890000033
进行比较,并根据下式标准进行输赢判断并选用相应的学习增量:
Figure FDA0002772300890000034
其中,δlose>δwin;
根据下式对混合策略矩阵π进行更新,其中,i=1,2,...n,j=1,2,...g:
Figure FDA0002772300890000035
根据下式对平均策略
Figure FDA0002772300890000036
进行更新:
Figure FDA0002772300890000037
其中,C(si)为状态si出现的次数。
8.一种组网雷达资源管控装置,所述组网雷达资源管控装置适用于权利要求1至7中任意一项所述的组网雷达资源管控方法,其特征在于,所述组网雷达资源管控装置包括:
构建模块,用于根据战场威胁态势信息,构建目标威胁状态矩阵;
初始化模块,用于分别初始化雷达节点状态空间、雷达节点动作空间、组网雷达目标跟踪动作空间值函数矩阵、混合策略和平均策略,并初始化规划时刻;
构造模块,用于构造回报函数;
执行模块,用于在第一预设时刻或在接收到继续执行信号时,根据所述混合策略选取动作并执行;
更新模块,用于在第二预设时刻,更新所述组网雷达目标跟踪动作空间值函数矩阵;
所述更新模块,还用于更新所述混合策略以及所述平均策略;
判断模块,用于判断是否满足预设停止条件,若是,则发出组网雷达资源管控结束信号,若否,则向所述执行模块发送继续执行信号。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至7中任意一项所述的组网雷达资源管控方法。
CN201910256656.2A 2019-04-01 2019-04-01 组网雷达资源管控方法及装置、计算机可读存储介质 Active CN109975800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910256656.2A CN109975800B (zh) 2019-04-01 2019-04-01 组网雷达资源管控方法及装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910256656.2A CN109975800B (zh) 2019-04-01 2019-04-01 组网雷达资源管控方法及装置、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109975800A CN109975800A (zh) 2019-07-05
CN109975800B true CN109975800B (zh) 2020-12-29

Family

ID=67082131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910256656.2A Active CN109975800B (zh) 2019-04-01 2019-04-01 组网雷达资源管控方法及装置、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109975800B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114488131B (zh) * 2022-01-27 2023-08-04 中国人民解放军空军预警学院雷达士官学校 一种多任务有序性牵引策略的雷达编队协同探测方法
CN114912245B (zh) * 2022-03-23 2023-03-24 南京雷电信息技术有限公司 一种针对任务关联协同的组网雷达任务调度方法
CN115616504B (zh) * 2022-12-19 2023-04-25 湖南力研光电科技有限公司 一种自适应雷达信号干扰方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086359A3 (de) * 2000-05-05 2002-06-06 Siemens Ag Fuzzy-steuerung mit reinforcement-lernverfahren
CN106483852A (zh) * 2016-12-30 2017-03-08 北京天恒长鹰科技股份有限公司 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法
CN107220540A (zh) * 2017-04-19 2017-09-29 南京邮电大学 基于强化学习的入侵检测方法
CN108021451A (zh) * 2017-12-07 2018-05-11 上海交通大学 一种雾计算环境下的自适应容器迁移方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109116349A (zh) * 2018-07-26 2019-01-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 多传感器协同跟踪联合优化决策方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086359A3 (de) * 2000-05-05 2002-06-06 Siemens Ag Fuzzy-steuerung mit reinforcement-lernverfahren
CN106483852A (zh) * 2016-12-30 2017-03-08 北京天恒长鹰科技股份有限公司 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法
CN107220540A (zh) * 2017-04-19 2017-09-29 南京邮电大学 基于强化学习的入侵检测方法
CN108021451A (zh) * 2017-12-07 2018-05-11 上海交通大学 一种雾计算环境下的自适应容器迁移方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109116349A (zh) * 2018-07-26 2019-01-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 多传感器协同跟踪联合优化决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多Agent系统中合作与协调机制的研究;肖正;《中国博士学位论文全文数据库信息科技辑》;20091215(第12期);第55-59页、第86页 *

Also Published As

Publication number Publication date
CN109975800A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109975800B (zh) 组网雷达资源管控方法及装置、计算机可读存储介质
Fu et al. Swarm UAVs task and resource dynamic assignment algorithm based on task sequence mechanism
CN111211831A (zh) 一种多波束低轨卫星智能动态信道资源分配方法
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
CN113312172B (zh) 基于适变网络的多无人机集群动态任务调度模型
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
Liu et al. Radar network time scheduling for multi-target ISAR task with game theory and multiagent reinforcement learning
CN112804103A (zh) 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
Yan et al. A task offloading algorithm with cloud edge jointly load balance optimization based on deep reinforcement learning for unmanned surface vehicles
CN117412267B (zh) 一种无人机集群组网的通信方法
Huang et al. 6G-empowered offloading for realtime applications in multi-access edge computing
CN109886574B (zh) 一种基于改进阈值法的多机器人任务分配方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
CN114968402A (zh) 边缘计算任务处理方法、装置及电子设备
CN115334165A (zh) 一种基于深度强化学习的水下多无人平台调度方法及系统
CN113691334A (zh) 一种基于次用户群体协作的认知无线电动态功率分配方法
Xiao et al. Learning task allocation for multiple flows in multi-agent systems
CN110658833A (zh) 一种水下环境中多auv实时营救任务分配算法
Li et al. Federated Multi-Agent Actor-Critic Learning Task Offloading in Intelligent Logistics
CN114740872B (zh) 一种基于拓扑和联盟的uuv集群搜索攻击决策方法
Li et al. AttentionFunc: Balancing FaaS compute across edge-cloud continuum with reinforcement learning
Wu et al. Energy-efficient strategies for multi-agent continuous cooperative patrolling problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant