CN116541797A

CN116541797A - 一种基于强化学习和效能评估的多资源任务规划方法及系统

Info

Publication number: CN116541797A
Application number: CN202310344511.4A
Authority: CN
Inventors: 于谦; 陈恩博; 陈乾友; 唐洪奎
Original assignee: Sichuan Jiuzhou Electric Group Co Ltd
Current assignee: Sichuan Jiuzhou Electric Group Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-08-04

Abstract

本发明公开了一种基于强化学习和效能评估的多资源任务规划方法及系统，基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略；通过网络接入不同手段任务资源数据，将数据通过中间件进行汇总分析，形成多手段任务资源库；本发明根据现有任务资源占用情况，依据目标行为威胁分析解算，形成异构任务资源协同行为策略，支持多种任务资源共同协作完成同一目标任务。

Description

一种基于强化学习和效能评估的多资源任务规划方法及系统

技术领域

本发明涉及任务规划技术领域，具体涉及一种基于强化学习和效能评估的多资源任务规划方法及系统。

背景技术

在实际使用中根据信号类型大致有可见光、光谱、微波、红外、电磁感应等不同种类的任务资源，它们在不同的平台上(天基海基陆基)，具备不同的功能和使用范围，执行有针对性的任务。由于手段不同，资源设备使用方法和设备管理系统存在一定的差异性，想要将它们数据连在一起，综合使用多种手段资源的进行协同任务的时候，就需要按照一些规则或者算法进行适当、合理的规划调度，从而使整个多手段系统获取目标信息的能力更高效和准确。

随着现在人工智能、大数据分析预测、知识图谱(专家系统)决策、数据链、信息栅格、分布式技术、多代理技术等计算机科学技术的发展和进步，许多组织开始研究神经网络、专家系统、多代理技术等技术，并基于这些技术着手建立多任务资源资源管理和任务规划系统。有基于退火算法管理资源期望约束条件的最大检测概率管理法，使用动态规划法极大的提高对目标的监控几率，但是对多目标检测效率较差；基于多智能体理论的动态联盟方法，将多目标按照优先级进行管理，任务资源按照联盟、竞争的管理办法进行组织，能够对资源更好的更加科学的分配，这些方法有一定的科学理论基础，但对于目标建模、威胁建模有极大的要求，并且对很多实时因素不能即时响应，用于训练的目标数据也大多数都是仿真建模出的，实用性相对欠缺。

发明内容

本发明所要解决的技术问题是：现有的任务资源资源管理和任务规划系统适用范围单一，对很多实时因素不能即时响应，实用性相对欠缺；本发明目的在于提供一种基于强化学习和效能评估的多资源任务规划方法及系统，在人工智能、大数据分析基础上，根据现有任务资源设备对目标任务进行数字化建模仿真，已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略；在协同规划策略执行过程中基于可用性、可信性、性能指标、效能指标、贡献度、活跃度等指标进行反馈评估，不停调整任务资源指令和调度不同资源，在保证完成任务的基础上，完善协同作战策略和效能评估指标库；从而使多手段任务资源系统能够在任务时尽可能达到目标最适配的方案，更加科学合理高效的使用任务资源。

本发明通过下述技术方案实现：

本方案提供一种基于强化学习和效能评估的多资源任务规划方法，包括步骤：

步骤一：获取目标任务并进行数字化建模仿真；

步骤二：基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略；

步骤三：按照协同规划策略执行目标任务：在执行目标任务的过程中，基于目标实时行为、任务结果反馈和实时资源效能评估结果进行实时资源调度；同时强化学习目标实时行为以优化目标行为威胁库，强化学习任务结果反馈以优化协同规划策略，强化学习实时资源效能评估以优化资源效能评估指标库。

本方案工作原理：

单独手段的任务资源很难完成复合型目标的探测任务，往往需要多种手段的任务资源相互协作才能针对复合型目标进行监控，这对信息共享程度的需求很大；本方案基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略；通过网络接入不同手段任务资源数据，将数据通过中间件进行汇总分析，形成多手段任务资源库。根据现有任务资源占用情况，依据目标行为威胁分析解算，形成异构任务资源协同行为策略，支持多种任务资源共同协作完成同一目标任务。

进一步优化方案为，所述目标行为威胁库，用于描述目标进入区域后进行的任务、行为、及其威胁程度；

所述任务资源库，用于描述任务资源具备的功能指标、硬件设备能力指标、物理参数以及与目标匹配的手段指标；

所述协同策略库，用于描述在不同的目标距离、不同的目标载荷、不同的目标行为、不同的威胁等级时，任务资源的使用设置指令、功率设置指令和周期设置指令；

所述资源效能评估指标库，用于描述任务资源对目标或载荷的性能指标和效能指标，以及描述任务资源在协同过程中贡献度指标、活跃度指标、可用度指标和可信度指标。

进一步优化方案为，步骤二包括以下子步骤：

S21，基于任务资源库进行关联分析：通过对任务资源库中多源任务资源的可用度、可信度、贡献度和活跃度的反馈进行融合分析生成最优匹配策略，并建立目标资源行动最优策略图谱；

S22，以目标资源行动最优策略图谱为蓝本，对协同策略进行解算，计算出目标任务所需要的资源以及该资源在任务中需要执行的指令。

并根据指令反馈结果优化协同规划策略，重复目标行为建模过程，拓宽目标模型库，以满足后续任务规划时能够更加准确、高效的进行资源解算、协同策略的选择。

进一步优化方案为，实时资源效能评估的方法包括：

T1，建立资源效能评估指标因素集合；

T2，将资源效能评估指标因素分为性能指标、效能指标和硬件参数；将性能指标中的信息采集、信息识别和信息融合作为反馈因素；将效能指标中的可用性、可信性、活跃度、参与度作为计算因素；

T3，根据资源效能评估指标因素集合建立目标适配度、载荷适配度和协同贡献度评价集合；

T4，根据模糊综合评判算法计算评价矩阵，并结合效能评估权重因子，得出综合评价得分。

进一步优化方案为，每个任务资源配置有一个任务执行代理，任务执行代理按照任务时间和目标探测信息，将协同规划策略转换为任务资源的控制指令，下发到各任务资源进行执行；同时任务执行代理还采集任务资源的探测信息和任务资源的状态信息。由于规划过程涉及多种多个任务资源的协同工作，系统任务资源需根据时间或目标信息，实时做出调整，如一个节点同时协调各手段任务资源的工作，系统计算量将极为繁重，同时降低系统的稳定性。因此通过分布式代理的架构，为每个任务资源创建一个任务执行代理。

本方案还提供一种基于强化学习和效能评估的多资源任务规划系统，用于实现上述方案的基于强化学习和效能评估的多资源任务规划方法，包括：

采集模块，用于获取目标任务并进行数字化建模仿真；

解算模块，用于基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略；

执行模块，用于按照协同规划策略执行目标任务：在执行目标任务的过程中，基于目标实时行为、任务结果反馈和实时资源效能评估结果进行实时资源调度；同时强化学习目标实时行为以优化目标行为威胁库，强化学习任务结果反馈以优化协同规划策略，强化学习实时资源效能评估以优化资源效能评估指标库。

进一步优化方案为，多资源任务规划系统包括：

数据管理子系统，用于管理任务规划所用到的目标行为威胁数据、任务资源数据、目标协同策略数据、协同策略数据、资源效能评估指标数据；给任务过程中资源快速解算、目标行为预测、目标威胁分析、协同策略解算、效能评估提供数据基础。

任务规划与执行子系统，基于目标任务信息进行任务资源快速规划，根据任务执行的状态及反馈的情报，控制任务开始、任务暂停、任务结束及任务重规划；支持人在回路的任务资源任务控制，支持目标数据仿真模拟，支持传感器数据仿真模拟。

任务资源协同系统，根据任务结果评估目标，构建任务结果评估的指标体系，根据任务数据和任务结果评估的指标体系计算任务评估结果，并以图、表的形式进行评估结果的可视化展示；

服务与反馈子系统，根据目标行为与威胁为资源选择提供资源解算服务；为任务执行流程提供协同策略解算服务；为任务过程控制、任务资源任务控制提供指令分发控制服务；为任务资源目标适配提供强化学习服务；为协同策略提供反馈进化服务。

数据通信服务子系统，将任务规划指令下发给具体的任务资源进行执行，接收任务资源的数据；作为与外部系统的接口与外部系统进行通信。担任本系统与外部系统的接口服务，接收外部情报数据，发送本系统数据到外部系统。

进一步优化方案为，所述数据通信服务子系统包括多个通信接口，兼容不同接口数据的输入输出，在执行目标任务过程中，可保障多任务资源的并行接入，并行执行协同策略解算出的指令。

进一步优化方案为，数据通信服务子系统提供统一的时钟服务。

进一步优化方案为，基于“集中化管理，分布式执行”的思想，进行系统设计，在有效分配的异构多手段任务的同时，降低多任务资源管理的复杂度，并具有较好满足系统扩展性。根据系统的需求分析和设计约束，将多资源任务规划系统的体系构架系统逻辑上划分为用户层，应用功能层，服务层，接口层；

用户层，用于作为用户与多资源任务规划系统的交互手段，建立数据编辑席位，任务规划席位，任务评估席位，并完成各席位的业务工作；

应用层，用于集中的处理目标任务执行过程中涉及的数据和业务；接收用户层的业务工作指令，转换成系统服务的指令，发送到服务层进行执行；还用于接收服务层推送的数据，将态势数据可视化展示；

服务层，用于提供资源解算服务，协同策略资源分配任务分解，强化学习服务，效能评估等服务，以及数据的订阅与分发服务；

接口层，用于建立多资源任务规划系统与任务资源硬件设备之间的连接，驱动任务资源硬件设备执行指令，采集任务资源硬件设备的状态信息与探测结果，对探测结果进行融合，并反馈给服务层与应用层。

多资源任务规划系统满足任务资源探测、数据采集、数据融合定位的快速规划和执行，确保任务规划的目标匹配性和任务执行的高效性,有效的支撑任务目标的航迹的识别和生成；多资源任务规划系统支持不断的通过任务规划过程、任务执行过程、模拟仿真任务中的反馈进行强化(深度)学习，强化不同任务资源与目标及目标载荷之间的适配度，以满足不同任务目标、不同目标行为、不同威胁等级的目标进行任务资源的高效解算。

本系统通过强化学习方法，根据目标库预测目标行为及威胁，计算多手段任务资源具体参数、调配资源、并下发对应指令，任务资源执行该指令并针对该指令进行有效性反馈，根据反馈结果进行资源-目标效能评估，进行目标个体适应度评价、目标个体贡献度评价，用最优选取法针对目标个体对资源占用、资源参数进行实时调整，并形成针对某型目标的高效行为策略；能够在某型目标进行不同任务时建立任务，预测目标任务、行为，如果当前协同规划策略不能满足任务，重新选择协同策略并重新解算新的资源以及指令，并通过对任务资源实时反馈进行效能评估，根据评估结果对协同策略进行多样化调整，生成新的高效协同规划策略，重复目标建模、协同策略建模过程，拓宽目标、协同策略模型库，完成目标、协作策略的强化。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明提供的一种基于强化学习和效能评估的多资源任务规划方法，基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略；通过网络接入不同手段任务资源数据，将数据通过中间件进行汇总分析，形成多手段任务资源库。根据现有任务资源占用情况，依据目标行为威胁分析解算，形成异构任务资源协同行为策略，支持多种任务资源共同协作完成同一目标任务。

本发明提供的一种基于强化学习和效能评估的多资源任务规划系统，基于强化学习(任务资源-目标-效能评估反馈建模)、大数据分析(目标行为威胁建模分析)技术，将算法中的关键节点与实际使用中的输入输出进行建模融合，并根据算法训练结果得出更加科学的结果和服务，还在任务中实时根据探测反馈进行效能评估，优化数据库和协同规划策略，给面向多目标的多资源协作管理体系的建设提供思路和研究方向。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为基于强化学习和效能评估的多资源任务规划原理示意图；

图2为基于强化学习和效能评估的多资源任务规划系统结构示意图；

图3为基于强化学习和效能评估的多资源任务规划系统逻辑架构示意图；

图4为基于强化学习和效能评估的多资源任务规划系统工作原理图A；

图5为基于强化学习和效能评估的多资源任务规划系统系统工作原理图B；

图6为基于强化学习和效能评估的多资源任务规划流程示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1和图6所示，本实施例提供一种基于强化学习和效能评估的多资源任务规划方法，包括步骤：

步骤一：获取目标任务并进行数字化建模仿真；

所述目标行为威胁库，用于描述目标进入区域后进行的任务、行为、及其威胁程度；

步骤二包括以下子步骤：

并根据指令反馈结果优化协同策略，重复目标行为建模过程，拓宽目标模型库，以满足后续任务规划时能够更加准确、高效的进行资源解算、协同策略的选择。

根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法，其特征在于，实时资源效能评估的方法包括：

T1，建立资源效能评估指标因素集合；

实施例2

本实施例提供一种基于强化学习和效能评估的多资源任务规划系统，用于实现上一实施例的的基于强化学习和效能评估的多资源任务规划方法，包括：

采集模块，用于获取目标任务并进行数字化建模仿真；

如图2所示，多资源任务规划系统包括：

所述数据通信服务子系统包括多个通信接口，兼容不同接口数据的输入输出，在执行目标任务过程中，可保障多任务资源的并行接入，并行执行协同策略解算出的指令。

数据通信服务子系统提供统一的时钟服务。为保证整所有任务资源的时间同步，通信服务提供统一的时钟服务。在与任务资源的通信上，任务资源通信服务并不是直接与任务资源对接，而是通过一个个的任务资源代理对接，任务资源代理根据任务资源的接口参数定制，可将任务资源数据转换后发布到系统中；也可将用户的指令转换成任务资源的控制命令发送到任务资源。所有的任务资源代理在任务资源服务的调度下，并行协同工作，提高了系统的执行效率，同时在需要扩展新的任务资源时增加新的代理节点即可，满足了系统的可扩展性。

如图3所示,所述多资源任务规划系统的体系构架包括：

如图4和图5所示，每个任务资源配置有一个任务执行代理，任务执行代理按照任务时间和目标探测信息，将协同规划策略转换为任务资源的控制指令，下发到各任务资源进行执行；同时任务执行代理还采集任务资源的探测信息和任务资源的状态信息。依据目标行为威胁建模、任务资源能力模型、协同策略建模进行目标威胁评估、目标意图预测、目标行动方向预测与评估，通过资源解算服务和协同策略解算服务，为任务规划计算出参与任务的任务资源及参数指令发送到订阅分发服务，分发到各个任务资源执行，进行目标探测、态势感知；资源代理接收到任务，根据协同规划策略解算，以时间或探测结果为驱动，实时控制任务资源执行任务，并采集任务资源状态、资源探测融合结果发送到任务前端，为任务资源效能评估提供数据基础；同时依据探测信息、态势信息、任务资源指令反馈信息进行协同策略解算，计算出实时任务资源调度、参数指令以匹配当前的态势，跟踪探测目标，以达到目标航迹的探测与生成的最终目标。

系统基于强化学习的方法，使用实时目标任务、目标仿真数据、目标真实航迹记录回放等目标数据进行驱动训练，以目标探测结果为内部强化信号，对效能评估使用时序差分预测方法TD算法进行学习，并针对协同指令解算进行遗传操作，使用内部强化信号(探测结果建模)作为协同指令的适应度函数，解算出任务资源针对目标、探测结果需要做出的行为反应即任务资源具体指令(动作强化信号)，再通过代理服务下发到任务资源，并获取任务资源对此次行为的反馈(外部强化信号)，能够有效的进行单手段任务资源针对性训练，还能有效的检测各种手段任务资源对于某型目标及对应载荷的适配度，以及训练出各手段任务资源对应该目标及载荷的效能评估指标，推算出各任务资源对该目标的适配度，并建立任务资源协同策略模型，给任务规划资源解、任务过程控制算提科学供依据和服务。

本多资源任务规划系统是一套完整的数字化建模、策略分析、任务规划、任务资源指控、指令反馈、评估进化系统，前期构建目标数字化数据库、目标行为数据库、威胁分析数据库、任务资源能力数据库、协同策略数据库、效能评估指标数据库，在后续的任务规划中，通过多目标优先级评估(威胁度)合理进行任务分解，然后通过目标行为预测进行科学合理的任务资源匹配规划，并且能够在任务中基于目标实时行为或者资源探测结果反馈、实时资源效能评估结果进行实时资源调度，根据协同策略解算任务传感器指令，在保证完成任务的基础上，完善各个数据库。从而使多手段系统能够在下次任务规划时达到全局最优解，更加科学合理的使用任务资源，更加高效准确的进行多目标协同探测任务。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习和效能评估的多资源任务规划方法，其特征在于，包括步骤：

步骤一：获取目标任务并进行数字化建模仿真；

2.根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法，其特征在于，

3.根据权利要求2所述的一种基于强化学习和效能评估的多资源任务规划方法，其特征在于，步骤二包括以下子步骤：

4.根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法，其特征在于，实时资源效能评估的方法包括：

T1，建立资源效能评估指标因素集合；

5.根据权利要求2所述的一种基于强化学习和效能评估的多资源任务规划方法，其特征在于，每个任务资源配置有一个任务执行代理，任务执行代理按照任务时间和目标探测信息，将协同规划策略转换为任务资源的控制指令，下发到各任务资源进行执行；同时任务执行代理还采集任务资源的探测信息和任务资源的状态信息。

6.一种基于强化学习和效能评估的多资源任务规划系统，其特征在于，用于实现权利要求1-5任意一项所述的基于强化学习和效能评估的多资源任务规划方法，包括：

采集模块，用于获取目标任务并进行数字化建模仿真；

7.根据权利要求6所述的一种基于强化学习和效能评估的多资源任务规划系统，其特征在于，包括：

数据管理子系统，用于管理任务规划所用到的目标行为威胁数据、任务资源数据、目标协同策略数据、协同策略数据、资源效能评估指标数据；

任务规划与执行子系统，基于目标任务信息进行任务资源快速规划，根据任务执行的状态及反馈的情报，控制任务开始、任务暂停、任务结束及任务重规划；

服务与反馈子系统，根据目标行为与威胁为资源选择提供资源解算服务；为任务执行流程提供协同策略解算服务；

数据通信服务子系统，将任务规划指令下发给具体的任务资源进行执行，接收任务资源的数据；作为与外部系统的接口与外部系统进行通信。

8.根据权利要求7所述的一种基于强化学习和效能评估的多资源任务规划系统，其特征在于，所述数据通信服务子系统包括多个通信接口，兼容不同接口数据的输入输出，在执行目标任务过程中，可保障多任务资源的并行接入。

9.根据权利要求8所述的一种基于强化学习和效能评估的多资源任务规划系统，其特征在于，数据通信服务子系统提供统一的时钟服务。

10.根据权利要求6所述的一种基于强化学习和效能评估的多资源任务规划系统，其特征在于，所述多资源任务规划系统的体系构架包括：

服务层，用于提供资源解算服务，协同策略解算，资源分配任务分解，强化学习服务，效能评估等服务，以及数据的订阅与分发服务；