CN118071119A - 一种异构传感器混合协同调度决策方法 - Google Patents

一种异构传感器混合协同调度决策方法 Download PDF

Info

Publication number
CN118071119A
CN118071119A CN202410466435.9A CN202410466435A CN118071119A CN 118071119 A CN118071119 A CN 118071119A CN 202410466435 A CN202410466435 A CN 202410466435A CN 118071119 A CN118071119 A CN 118071119A
Authority
CN
China
Prior art keywords
intelligent
sensor
scheduling
algorithm
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410466435.9A
Other languages
English (en)
Inventor
胡超
丛迅超
郑博元
黄德青
张坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202410466435.9A priority Critical patent/CN118071119A/zh
Publication of CN118071119A publication Critical patent/CN118071119A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明涉及多智能体强化学习领域,公开了一种异构传感器混合协同调度决策方法,其包括:构建异构传感器智能协同调度算法;启动仿真推演平台,设置仿真推演场景;仿真推演平台根据调度控制指令和已设置的仿真推演场景,模拟产生综合电磁环境数据,并将综合电磁环境数据发送给智能协同决策系统;智能协同决策系统解析电磁环境数据,生成状态空间数据;异构传感器智能协同调度算法输出当前异构传感器的最优调度控制策略;仿真推演平台解析调度控制策略,重新解算输出新电磁环境数据,再次发给智能协同决策系统;开展异构传感器智能协同调度算法与仿真推演平台的交互式训练。本发明能够对目标信号协同侦测,持续定位跟踪。

Description

一种异构传感器混合协同调度决策方法
技术领域
本发明涉及多智能体强化学习技术领域,特别是一种异构传感器混合协同调度决策方法。
背景技术
复杂电磁环境下,多传感器协同探测目标信号对掌握电磁环境信息、捕获目标辐射源信号,协同探测定位目标平台具有重要价值和意义。在强电磁环境下,目标辐射源很容易隐蔽,大大降低了发现目标的概率,而实时对抗的首要前提是能够发现和定位目标。近年来,以深度强化学习、对多智能体强化学习为代表的人工智能技术快速发展,使得系统对电磁环境、我方能力知识、目标行为、信号特征参数等进行快速学习积累,自动分析提取任务元素,智能决策分析形成多传感器之间的协同调度监测方案。
传统的电磁信号监测技术在面对强电磁环境干扰的情况下,由于信息的可变性大、时效性强,对环境中的信号监测,如对机场附近的黑飞无人机测控信号监测及定位需要大量的人工干预,因此协同传感器监测调度中以人为主的方式难以满足需要。
发明内容
鉴于此,本发明提供一种异构传感器混合协同调度决策方法,可以在复杂电磁环境下对目标辐射源协同侦测,持续定位跟踪,接力跟踪监视。
本发明公开了一种异构传感器混合协同调度决策方法,其包括:
步骤1:构建异构传感器智能协同调度算法,所述异构传感器智能协同调度算法包括算法架构、奖励函数、状态空间、动作空间以及交互逻辑;
步骤2:启动仿真推演平台,设置仿真推演场景,并与智能协同决策系统建立通信;
步骤3:智能协同决策系统发送初始调度控制指令到仿真推演平台,仿真推演平台根据调度控制指令和已设置的仿真推演场景,模拟产生综合电磁环境数据,并将综合电磁环境数据按照接口协议发送给智能协同决策系统;
步骤4:智能协同决策系统解析电磁环境数据,生成状态空间数据并输入到系统中的异构传感器智能协同调度算法;
步骤5:异构传感器智能协同调度算法输出当前异构传感器的最优调度控制策略;
步骤6:智能协同决策系统将生成的调度控制策略按照接口协议发送给仿真推演平台;仿真推演平台解析调度控制策略,更改仿真环境下的传感器工作模式、参数和状态,并重新解算输出新电磁环境数据,再次发给智能协同决策系统;
步骤7:重复步骤3~6,开展异构传感器智能协同调度算法与仿真推演平台的交互式训练,算法收敛后,输出训练好的协同决策智能体模型,并将其部署在实装系统中,以用于对异构传感器的智能化协同控制,实现对目标平台的协同发现、定位监测和持续跟踪。
进一步地,在步骤1中,采用深度强化学习算法中的多智能体近端优化策略算法,作为异构传感器智能协同调度算法的主要算法架构,将异构传感器建模为多智能体系统,每种传感器作为一种智能体,每个传感器作为一个智能体;多智能体近端优化策略算法预测的是一个状态下多智能体系统中的每个智能体采取的最优调度控制策略,设定多智能体策略集合为:
其中,为n个智能体的策略,/>为n个智能体的策略集合;
多个智能体形成协同联合系统,则联合策略为:
其中,为动作价值函数,为状态价值函数;/>为t时刻的状态,/>为t时刻的动作,/>为t时刻的折扣回报,/>为动作价值函数,/>为在当前环境状态/>下,采取动作/>后遵循策略/>能够获得的期望回报;/>为状态价值函数,/>为从环境状态/>开始,按照策略/>能够获得的期望累计回报,/>为在环境状态/>采取动作/>的最优策略,/>为在当前环境状态/>下采取动作/>后遵循策略/>能够获得的期望回报,为执行所有动作/>产生的回报累积和。
进一步地,所述多智能体近端优化策略算法的优势估计函数为:
其中,为t时刻的状态和动作对应的优势函数,/>为策略/>对应的当前环境状态/>的价值;
将求最大化转化为最大预期折扣回报:
其中,为最大预期折扣回报,/>为全局初始状态/>的随机分布的期望,为全局初始状态/>的随机分布,/>为策略/>对应的初始状态/>的价值;
多智能体近端优化策略算法训练的目的转化为寻找一个最优联合策略,使得:
其中,为关于策略/>的最大值函数;
多智能体近端优化策略算法的输出是每个智能体每个时刻动作的类别分布,最终的动作输出由类别分布随机采样得到;
异构传感器智能协同调度算法的特征提取网络采用的是多个一维卷积网络层,将提取的特征分别输入到多智能体近端优化策略算法中的Actor网络和Critic网络,且Actor网络和Critic网络采用相同网络结构的多层次感知机MLP。
进一步地,在所述步骤1中,异构传感器智能协同调度算法的状态空间构建为:
状态空间包括监测到的目标平台信息、侦测结果数据、传感器状态信息;监测目标平台信息包括目标平台的类型、轨迹点;侦测结果数据包括每个传感器观测到的信号结果数据;传感器状态信息包括当前传感器的工作模式和工作参数;
异构传感器智能协同调度算法的动作空间构建为:
共设计3种动作,皆为离散动作,动作类型包括工作模式、工作参数以及是否参与协同定位;
其中,工作模式动作共2维,0代表宽扫模式,1代表控守模式;工作参数动作共H维,选值范围是[0,H-1],代表选择该范围内索引对应的频点进行控守;是否参与协同定位动作共2维,0代表不参与协同定位,1代表参与协同定位;
异构传感器智能协同调度算法的奖励函数构建为:
传感器控守到一个目标信号则+0.1,选择控守信号但未成功侦测到则-0.1,参与协同定位且定位到目标信号则+0.4,参与协同定位未定位目标信号-0.1。
进一步地,所述步骤2包括:
步骤2.1:启动仿真推演平台,设置仿真推演场景,设置仿真推演场景包括设置参与调度的异构传感器种类、部署位置、数量以及探测范围能力参数,设置背景干扰杂波的参数,目标平台的轨迹、行为和搭载的辐射源种类;
步骤2.2:仿真推演平台与智能协同决策系统建立通信,仿真推演平台给智能协同决策系统发送准备指令,智能协同决策系统反馈开始指令,开始仿真推演。
进一步地,所述步骤3具体包括:
步骤3.1:智能协同决策系统发送异构传感器的初始调度控制指令到仿真推演平台,初始调度控制指令为宽带扫描指令,初始调度控制指令用于设置传感器扫描的起始频率和终止频率;
步骤3.2:仿真推演平台根据初始调度控制指令和已设置的仿真推演场景,模拟产生宽带扫描后得到的综合电磁环境数据(宽扫得到的信号侦测结果),并将综合电磁环境数据按照接口协议发送给智能协同决策系统。
进一步地,所述步骤4具体包括:
步骤4.1:智能协同决策系统解析电磁环境数据,产生状态空间数据,状态空间数据包括异构传感器的侦测结果、工作状态信息和目标平台信息;侦测结果包括信号频率、带宽、幅度值、方位值、调制样式和信号类型,工作状态信息包括当前工作模式和工作参数,目标平台信息包括目标类型和轨迹点(经纬度);
步骤4.2:将状态空间数据输入到异构传感器智能协同调度算法。
进一步地,所述步骤5具体包括:
智能协同调度算法对动作空间中设计的每一个动作进行概率采样,将动作转化输出为当前时刻每个传感器的调度控制指令;调度控制指令包括当前传感器的工作模式、工作参数和是否参与协同定位。
进一步地,所述步骤6具体包括:
步骤6.1:智能协同决策系统将智能协同调度算法产生的调度控制指令按照接口协议的发送给仿真推演平台;
步骤6.2:仿真推演平台基于调度控制指令更新仿真环境下被调度传感器的动作模式和工作状态,并通过协同决策智能体模型计算更新输出新的电磁环境数据,再将电磁环境数据反馈给智能协同决策系统,从而构建形成交互式仿真推演逻辑。
进一步地,在步骤7中,异构传感器智能协同调度算法输出动作,并根据奖励函数计算得到回报/>,开始进入下一个状态空间数据/>,将/>四元组存入经验回放池,之后从经验回放池随机采样进行参数更新,构建形成异构传感器智能协同调度算法的训练逻辑;/>表示当前的状态空间数据;
重复步骤3~6,算法收敛后得到训练好的协同决策智能体模型,部署训练好的协同决策智能体于实装系统中,开展对异构传感器的智能化协同控制,实现对目标平台的协同发现、定位监测和持续跟踪。
由于采用了上述技术方案,本发明具有如下的优点:
1.本发明采用多智能体深度强化学习的方法来自动分析提取任务元素,智能决策分析形成多传感器之间的协同调度方案,使得决策的速度更快,决策的准确性更高,同时大大减少了人员的利用率;
2.本发明针对异构传感器进行同质化建模,从形式上跨越了异构多智能体协同的技术障碍,提供了新的研究思路;
3.本发明根据专家规则先验知识来具体构建多传感器协同调度的场景模型,更加符合工程实际的标准,提高了策略的合理性和实用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种异构传感器混合协同调度决策方法的流程示意图;
图2为本发明实施例的一种异构传感器混合协同调度决策方法的软件交互逻辑图;
图3为本发明实施例的异构电磁环境监测传感器智能体的状态空间示意图;
图4为本发明实施例的Actor网络架构设计示意图;
图5为本发明实施例的Critic网络架构设计示意图。
具体实施方式
结合附图和实施例对本发明作进一步说明,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
参见图1和图2,本发明提供了一种异构传感器混合协同调度决策方法的实施例,其包括:
步骤1:构建异构传感器智能协同调度算法,异构传感器智能协同调度算法包括算法架构、奖励函数、状态空间、动作空间以及交互逻辑;
步骤2:启动仿真推演平台,设置仿真推演场景,并与智能协同决策系统建立通信;
步骤3:智能协同决策系统发送初始调度控制指令到仿真推演平台,仿真推演平台根据调度控制指令和已设置的仿真推演场景,模拟产生综合电磁环境数据,并将综合电磁环境数据按照接口协议发送给智能协同决策系统;
步骤4:智能协同决策系统解析电磁环境数据,生成状态空间数据并输入到系统中的异构传感器智能协同调度算法;
步骤5:异构传感器智能协同调度算法输出当前异构传感器的最优调度控制策略;
步骤6:智能协同决策系统将生成的调度控制策略按照接口协议发送给仿真推演平台;仿真推演平台解析调度控制策略,更改仿真环境下的传感器工作模式、参数和状态,并重新解算输出新电磁环境数据,再次发给智能协同决策系统;
步骤7:重复步骤3~6,开展异构传感器智能协同调度算法与仿真推演平台的交互式训练,算法收敛后,输出训练好的协同决策智能体模型,并将其部署在实装系统中,以用于对异构传感器的智能化协同控制,实现对目标平台的协同发现、定位监测和持续跟踪。
本实施例中,在步骤1中,采用深度强化学习算法中的多智能体近端优化策略算法(简称MAPPO算法),作为异构传感器智能协同调度算法的主要算法架构,将异构传感器建模为多智能体系统,每种传感器作为一种智能体,每个传感器作为一个智能体;多智能体近端优化策略算法预测的是一个状态下多智能体系统中的每个智能体采取的最优调度控制策略,设定多智能体策略集合为:
其中,为n个智能体的策略,/>为n个智能体的策略集合;
多个智能体形成协同联合系统,则联合策略为:
其中,为动作价值函数,为状态价值函数;/>为t时刻的状态,/>为t时刻的动作,/>为t时刻的折扣回报,/>为动作价值函数,/>为在当前环境状态/>下,采取动作/>后遵循策略/>能够获得的期望回报;/>为状态价值函数,/>为从环境状态/>开始,按照策略/>能够获得的期望累计回报,/>为在环境状态/>采取动作/>的最优策略,/>为在当前环境状态/>下采取动作/>后遵循策略/>能够获得的期望回报,为执行所有动作/>产生的回报累积和。
本实施例中,多智能体近端优化策略算法的优势估计函数为:
其中,为t时刻的状态和动作对应的优势函数,/>为策略/>对应的当前环境状态/>的价值;
将求最大化转化为最大预期折扣回报:
其中,为最大预期折扣回报,/>为全局初始状态/>的随机分布的期望,为全局初始状态/>的随机分布,/>为策略/>对应的初始状态/>的价值;
多智能体近端优化策略算法训练的目的转化为寻找一个最优联合策略,使得:
其中,为关于策略/>的最大值函数;
多智能体近端优化策略算法的输出是每个智能体每个时刻动作的类别分布,最终的动作输出由类别分布随机采样得到;
异构传感器智能协同调度算法的特征提取网络采用的是多个一维卷积网络层,将提取的特征分别输入到多智能体近端优化策略算法中的Actor网络和Critic网络,且Actor网络和Critic网络采用相同网络结构的多层次感知机MLP。
需要补充的是,为了展示本发明的异构传感器智能化协同,如图3所示。本实施例中的传感器类型不同,将其进行同质化建模,具体的描述如下:
同一种类型的传感器建设为一种智能体,每个传感器作为一个独立智能体,有自己独特的观测空间和自己独特的动作空间,假定单帧时刻单个传感器采集到最大信号数量为3,每个信号参数中选择频率、幅度、带宽、方位、调制样式权重值作为特征参数,同时拼接工作状态信息和目标平台信息构成传感器的局部观测空间,将所有传感器的局部观测空间进行拼接构成全局观测空间。
如图4所示,actor网络主要产生各个传感器的侦察动作,如工作模式或控守频点/频段,输入为所有传感器的拼接形成的侦测结果,输出为离散动作,代表智能体决策输出的任务类型和控守频点/频段。如图5所示,critic网络此时这里的critic学习的是一个中心价值函数,critic能够观测到的是全局信息,包括其他智能体的信息和环境信息,输入为所有传感器的拼接形成的侦测结果,输出为估计价值,采用双向循环神经网络减少网络参数,加快训练过程。
本实施例中,在步骤1中,异构传感器智能协同调度算法的状态空间构建为:
状态空间包括监测到的目标平台信息、侦测结果数据、传感器状态信息。监测目标平台信息包括目标平台的类型、轨迹点(经纬度);侦测结果数据包括每个传感器观测到的信号结果数据(信号频率、带宽、幅度、方位、调制样式、信号类型等);传感器状态信息包括当前传感器的工作模式(宽扫或控守)和工作参数(宽扫的起始频率或者控守的频点);
异构传感器智能协同调度算法的动作空间构建为:
可以设计3种动作,皆为离散动作,动作类型包括工作模式、工作参数以及是否参与协同定位;
其中,工作模式动作可以共2维,0代表宽扫模式,1代表控守模式;工作参数动作共H维,选值范围是[0,H-1],代表选择该范围内索引对应的频点进行控守;是否参与协同定位动作可以共2维,0代表不参与协同定位,1代表参与协同定位;
异构传感器智能协同调度算法的奖励函数构建为:
传感器控守到一个目标信号则+0.1,选择控守信号但未成功侦测到则-0.1,参与协同定位且定位到目标信号则+0.4,参与协同定位未定位目标信号-0.1。
本实施例中,步骤2包括:
步骤2.1:启动仿真推演平台,设置仿真推演场景,包括设置参与调度的异构传感器种类、部署位置、数量以及探测范围能力参数等,设置背景干扰杂波的参数(频率、带宽、方位等),目标平台的轨迹、行为和搭载的辐射源种类;
步骤2.2:仿真推演平台与智能协同决策系统建立TCP通信,仿真推演平台给智能协同决策系统发送准备指令,智能协同决策系统反馈开始指令,开始仿真推演。
本实施例中,步骤3具体包括:
步骤3.1:智能协同决策系统发送异构传感器的初始调度控制指令到仿真推演平台,初始调度控制指令为宽带扫描指令,初始调度控制指令用于设置传感器扫描的起始频率和终止频率;
步骤3.2:仿真推演平台根据初始调度控制指令和已设置的仿真推演场景,模拟产生宽带扫描后得到的综合电磁环境数据(宽扫得到的信号侦测结果),并将综合电磁环境数据按照接口协议发送给智能协同决策系统。
本实施例中,步骤4具体包括:
步骤4.1:智能协同决策系统解析电磁环境数据,产生状态空间数据,状态空间数据包括异构传感器的侦测结果、工作状态信息和目标平台信息;侦测结果包括信号频率、带宽、幅度值、方位值、调制样式和信号类型,工作状态信息包括当前工作模式(宽扫或控守)和工作参数,目标平台信息包括目标类型和轨迹点(经纬度);
步骤4.2:将状态空间数据输入到异构传感器智能协同调度算法。
本实施例中,步骤5具体包括:
智能协同调度算法对动作空间中设计的每一个动作进行概率采样,将动作转化输出为当前时刻每个传感器的调度控制指令;调度控制指令包括当前传感器的工作模式、工作参数和是否参与协同定位。
本实施例中,步骤6具体包括:
步骤6.1:智能协同决策系统将智能协同调度算法产生的调度控制指令按照接口协议的发送给仿真推演平台;
步骤6.2:仿真推演平台基于调度控制指令更新仿真环境下被调度传感器的动作模式和工作状态,并通过协同决策智能体模型计算更新输出新的电磁环境数据,再将电磁环境数据反馈给智能协同决策系统,从而构建形成交互式仿真推演逻辑。
本实施例中,在步骤7中,异构传感器智能协同调度算法输出动作,并根据奖励函数计算得到回报/>,开始进入下一个状态空间数据/>,将/>四元组存入经验回放池,之后从经验回放池随机采样进行参数更新,构建形成异构传感器智能协同调度算法的训练逻辑;/>表示当前的状态空间数据;
重复步骤3~6,算法收敛后得到训练好的协同决策智能体模型,部署训练好的协同决策智能体于实装系统中,开展对异构传感器的智能化协同控制,实现对目标平台的协同发现、定位监测和持续跟踪。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种异构传感器混合协同调度决策方法,其特征在于,包括:
步骤1:构建异构传感器智能协同调度算法,所述异构传感器智能协同调度算法包括算法架构、奖励函数、状态空间、动作空间以及交互逻辑;
步骤2:启动仿真推演平台,设置仿真推演场景,并与智能协同决策系统建立通信;
步骤3:智能协同决策系统发送初始调度控制指令到仿真推演平台,仿真推演平台根据调度控制指令和已设置的仿真推演场景,模拟产生综合电磁环境数据,并将综合电磁环境数据按照接口协议发送给智能协同决策系统;
步骤4:智能协同决策系统解析电磁环境数据,生成状态空间数据并输入到系统中的异构传感器智能协同调度算法;
步骤5:异构传感器智能协同调度算法输出当前异构传感器的最优调度控制策略;
步骤6:智能协同决策系统将生成的调度控制策略按照接口协议发送给仿真推演平台;仿真推演平台解析调度控制策略,更改仿真环境下的传感器工作模式、参数和状态,并重新解算输出新电磁环境数据,再次发给智能协同决策系统;
步骤7:重复步骤3~6,开展异构传感器智能协同调度算法与仿真推演平台的交互式训练,算法收敛后,输出训练好的协同决策智能体模型,并将其部署在实装系统中,以用于对异构传感器的智能化协同控制,实现对目标平台的协同发现、定位监测和持续跟踪。
2.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,在步骤1中,采用深度强化学习算法中的多智能体近端优化策略算法,作为异构传感器智能协同调度算法的主要算法架构,将异构传感器建模为多智能体系统,每种传感器作为一种智能体,每个传感器作为一个智能体;多智能体近端优化策略算法预测的是一个状态下多智能体系统中的每个智能体采取的最优调度控制策略,设定多智能体策略集合为:
其中,为n个智能体的策略,/>为n个智能体的策略集合;
多个智能体形成协同联合系统,则联合策略为:
其中,为动作价值函数,/>为状态价值函数;/>为t时刻的状态,/>为t时刻的动作,/>为t时刻的折扣回报,/>为动作价值函数,/>为在当前环境状态/>下,采取动作/>后遵循策略/>能够获得的期望回报;/>为状态价值函数,/>为从环境状态/>开始,按照策略/>能够获得的期望累计回报,/>为在环境状态/>采取动作/>的最优策略,/>为在当前环境状态/>下采取动作/>后遵循策略/>能够获得的期望回报,/>为执行所有动作/>产生的回报累积和。
3.根据权利要求2所述的一种异构传感器混合协同调度决策方法,其特征在于,所述多智能体近端优化策略算法的优势估计函数为:
其中,为t时刻的状态和动作对应的优势函数,/>为策略/>对应的当前环境状态/>的价值;
将求最大化转化为最大预期折扣回报:
其中,为最大预期折扣回报,/>为全局初始状态/>的随机分布的期望,为全局初始状态/>的随机分布,/>为策略/>对应的初始状态/>的价值;
多智能体近端优化策略算法训练的目的转化为寻找一个最优联合策略,使得:
其中,为关于策略/>的最大值函数;
多智能体近端优化策略算法的输出是每个智能体每个时刻动作的类别分布,最终的动作输出由类别分布随机采样得到;
异构传感器智能协同调度算法的特征提取网络采用的是多个一维卷积网络层,将提取的特征分别输入到多智能体近端优化策略算法中的Actor网络和Critic网络,且Actor网络和Critic网络采用相同网络结构的多层次感知机MLP。
4.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,在所述步骤1中,异构传感器智能协同调度算法的状态空间构建为:
状态空间包括监测到的目标平台信息、侦测结果数据、传感器状态信息;监测目标平台信息包括目标平台的类型、轨迹点;侦测结果数据包括每个传感器观测到的信号结果数据;传感器状态信息包括当前传感器的工作模式和工作参数;
异构传感器智能协同调度算法的动作空间包括动作和动作类型;动作类型包括工作模式、工作参数以及是否参与协同定位;
异构传感器智能协同调度算法的奖励函数构建为:
传感器控守到一个目标信号则奖励一个设定值,选择控守信号但未成功侦测到则扣除一个设定值,参与协同定位且定位到目标信号则奖励另外一个设定值,参与协同定位未定位目标信号则扣除一个设定值。
5.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,所述步骤2包括:
步骤2.1:启动仿真推演平台,设置仿真推演场景,设置仿真推演场景包括设置参与调度的异构传感器种类、部署位置、数量以及探测范围能力参数,设置背景干扰杂波的参数,目标平台的轨迹、行为和搭载的辐射源种类;
步骤2.2:仿真推演平台与智能协同决策系统建立通信,仿真推演平台给智能协同决策系统发送准备指令,智能协同决策系统反馈开始指令,开始仿真推演。
6.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,所述步骤3具体包括:
步骤3.1:智能协同决策系统发送异构传感器的初始调度控制指令到仿真推演平台,初始调度控制指令为宽带扫描指令,初始调度控制指令用于设置传感器扫描的起始频率和终止频率;
步骤3.2:仿真推演平台根据初始调度控制指令和已设置的仿真推演场景,模拟产生宽带扫描后得到的综合电磁环境数据,并将综合电磁环境数据按照接口协议发送给智能协同决策系统。
7.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,所述步骤4具体包括:
步骤4.1:智能协同决策系统解析电磁环境数据,产生状态空间数据,状态空间数据包括异构传感器的侦测结果、工作状态信息和目标平台信息;侦测结果包括信号频率、带宽、幅度值、方位值、调制样式和信号类型,工作状态信息包括当前工作模式和工作参数,目标平台信息包括目标类型和轨迹点;
步骤4.2:将状态空间数据输入到异构传感器智能协同调度算法。
8.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,所述步骤5具体包括:
智能协同调度算法对动作空间中设计的每一个动作进行概率采样,将动作转化输出为当前时刻每个传感器的调度控制指令;调度控制指令包括当前传感器的工作模式、工作参数和是否参与协同定位。
9.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,所述步骤6具体包括:
步骤6.1:智能协同决策系统将智能协同调度算法产生的调度控制指令按照接口协议的发送给仿真推演平台;
步骤6.2:仿真推演平台基于调度控制指令更新仿真环境下被调度传感器的动作模式和工作状态,计算更新输出新的电磁环境数据,再将电磁环境数据反馈给智能协同决策系统,从而构建形成交互式仿真推演逻辑。
10.根据权利要求1所述的一种异构传感器混合协同调度决策方法,其特征在于,在步骤7中,异构传感器智能协同调度算法输出动作,并根据奖励函数计算得到回报/>,开始进入下一个状态空间数据/>,将/>四元组存入经验回放池,之后从经验回放池随机采样进行参数更新,构建形成异构传感器智能协同调度算法的训练逻辑;/>表示当前的状态空间数据;
重复步骤3~6,算法收敛后得到训练好的协同决策智能体模型,部署训练好的协同决策智能体于实装系统中,开展对异构传感器的智能化协同控制,实现对目标平台的协同发现、定位监测和持续跟踪。
CN202410466435.9A 2024-04-18 2024-04-18 一种异构传感器混合协同调度决策方法 Pending CN118071119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410466435.9A CN118071119A (zh) 2024-04-18 2024-04-18 一种异构传感器混合协同调度决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410466435.9A CN118071119A (zh) 2024-04-18 2024-04-18 一种异构传感器混合协同调度决策方法

Publications (1)

Publication Number Publication Date
CN118071119A true CN118071119A (zh) 2024-05-24

Family

ID=91097582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410466435.9A Pending CN118071119A (zh) 2024-04-18 2024-04-18 一种异构传感器混合协同调度决策方法

Country Status (1)

Country Link
CN (1) CN118071119A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
WO2020024172A1 (zh) * 2018-08-01 2020-02-06 东莞理工学院 多状态连续动作空间的合作式方法及系统
CN112295229A (zh) * 2020-10-28 2021-02-02 中国电子科技集团公司第二十八研究所 一种智能博弈对抗平台
DE102019128655A1 (de) * 2019-10-23 2021-04-29 Technische Universität Ilmenau Verfahren zur Bereitstellung einer rechnergestützten Steuerung für ein technisches System
CN112766813A (zh) * 2021-02-05 2021-05-07 中国人民解放军国防科技大学 一种空天协同观测复杂任务调度方法及系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113255890A (zh) * 2021-05-27 2021-08-13 中国人民解放军军事科学院评估论证研究中心 一种基于ppo算法的强化学习智能体训练方法
WO2022094746A1 (zh) * 2020-11-03 2022-05-12 北京洛必德科技有限公司 一种多机器人多任务协同工作方法与服务器
CN115796042A (zh) * 2022-12-07 2023-03-14 中国电子科技集团公司第十研究所 一种面向电子侦察的智能博弈对抗推演系统及方法
CN115983373A (zh) * 2022-12-06 2023-04-18 云南电网有限责任公司昆明供电局 一种基于图卷积神经网络的近端策略优化方法
CN116165886A (zh) * 2022-12-19 2023-05-26 中国电子科技集团公司第十研究所 多传感器智能协同控制方法、装置、设备及介质
CN116974721A (zh) * 2023-07-14 2023-10-31 广东工业大学 一种工业软件组件分布式协同的工作流调度方法
WO2023213403A1 (en) * 2022-05-05 2023-11-09 Huawei Technologies Co., Ltd. Centralised and decentralised multi-agent systems

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
WO2020024172A1 (zh) * 2018-08-01 2020-02-06 东莞理工学院 多状态连续动作空间的合作式方法及系统
DE102019128655A1 (de) * 2019-10-23 2021-04-29 Technische Universität Ilmenau Verfahren zur Bereitstellung einer rechnergestützten Steuerung für ein technisches System
CN112295229A (zh) * 2020-10-28 2021-02-02 中国电子科技集团公司第二十八研究所 一种智能博弈对抗平台
WO2022094746A1 (zh) * 2020-11-03 2022-05-12 北京洛必德科技有限公司 一种多机器人多任务协同工作方法与服务器
CN112766813A (zh) * 2021-02-05 2021-05-07 中国人民解放军国防科技大学 一种空天协同观测复杂任务调度方法及系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113255890A (zh) * 2021-05-27 2021-08-13 中国人民解放军军事科学院评估论证研究中心 一种基于ppo算法的强化学习智能体训练方法
WO2023213403A1 (en) * 2022-05-05 2023-11-09 Huawei Technologies Co., Ltd. Centralised and decentralised multi-agent systems
CN115983373A (zh) * 2022-12-06 2023-04-18 云南电网有限责任公司昆明供电局 一种基于图卷积神经网络的近端策略优化方法
CN115796042A (zh) * 2022-12-07 2023-03-14 中国电子科技集团公司第十研究所 一种面向电子侦察的智能博弈对抗推演系统及方法
CN116165886A (zh) * 2022-12-19 2023-05-26 中国电子科技集团公司第十研究所 多传感器智能协同控制方法、装置、设备及介质
CN116974721A (zh) * 2023-07-14 2023-10-31 广东工业大学 一种工业软件组件分布式协同的工作流调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丛迅超;: "基于深度学习的数据级多源融合定位增强算法", 电子质量, no. 04, 20 April 2020 (2020-04-20) *
崔文华;李东;唐宇波;柳少军;: "基于深度强化学习的兵棋推演决策方法框架", 国防科技, no. 02, 20 April 2020 (2020-04-20) *
马璐;刘成菊;林立民;徐斌辰;陈启军;: "基于AM-RPPO的双足机器人适应性行走控制算法", 机器人, no. 06, pages 37 - 47 *

Similar Documents

Publication Publication Date Title
CN111612126B (zh) 强化学习的方法和装置
CN109992000B (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
Yue et al. Review and empirical analysis of sparrow search algorithm
CN112131786B (zh) 基于多智能体强化学习的目标探测与分配方法及装置
Russell et al. Q-decomposition for reinforcement learning agents
US7844556B2 (en) Mobile brain-based device having a simulated nervous system based on the hippocampus
CN106959700B (zh) 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法
Ouyang et al. Initial development of the hybrid aerial underwater robotic system (HAUCS): Internet of Things (IoT) for aquaculture farms
Venturini et al. Distributed reinforcement learning for flexible and efficient UAV swarm control
CN111338375B (zh) 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN112698646A (zh) 一种基于强化学习的航行器路径规划方法
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN117890860A (zh) 一种基于数字孪生和深度强化学习的集群协同电子干扰方法
Zheng et al. Robustness of the planning algorithm for ocean observation tasks
Huang et al. Multi-uav collision avoidance using multi-agent reinforcement learning with counterfactual credit assignment
CN117930863A (zh) 一种基于数字孪生和深度强化学习的集群协同目标搜索方法
CN116757249A (zh) 一种基于分布式强化学习的无人机集群策略意图识别方法
CN118071119A (zh) 一种异构传感器混合协同调度决策方法
Yu et al. Real-time holding control for transfer synchronization via robust multiagent reinforcement learning
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Yang Reinforcement learning for multi-robot system: A review
CN117350326B (zh) 层次协同学习的多机围捕方法、装置、电子设备及介质
Li et al. Intelligent Early Warning Method Based on Drone Inspection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination