CN114510012A

CN114510012A - 一种基于元动作序列强化学习的无人集群演进系统及方法

Info

Publication number: CN114510012A
Application number: CN202210142965.9A
Authority: CN
Inventors: 柴兴华; 耿虎军; 张小龙; 陈彦桥; 牛韶源; 李晨阳; 高峰; 关俊志; 王雅涵; 彭会湘; 陈勇; 宗茂
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-17

Abstract

本发明公开了一种基于元动作序列强化学习的无人集群演进系统及方法，属于无人集群自主任务协同领域。本发明首先将无人集群面临的诸多任务分解为基础的元动作，通过估值网络构建环境信息与元动作序列间的映射关系，将任务效能评价指标作为强化学习的奖赏函数，通过众多场景自适应强化学习，实现无人集群任务能力的演进。该系统具有较强泛化能力，在应对复杂动态场景时具有较高鲁棒性。

Description

一种基于元动作序列强化学习的无人集群演进系统及方法

技术领域

本发明属于无人集群自主任务协同领域，特别是指一种基于元动作序列强化学习的无人集群演进系统及方法。

背景技术

当前，无人化作业需求在各领域均急剧上升，传统单一平台的无人自主系统模式由于抗风险能力低、任务类型单一的缺点逐步限制其在更多场景发挥应有作用，寻求新的技术突破口是保持无人化优势的必由之路。其中，利用已有的无人单元构建“无人集群”，由能力有限的不同单元合力完成复杂任务，实现低开支、低风险、高效率的任务目标，可代表未来无人系统领域的发展趋势。无人集群系统由一定数量的单功能或多功能无人系统共同组成，在交感网络的支撑下，节点之间进行信息交互及反馈、激励与相应等交感行为。无人集群系统整体具有能力涌现的特点，可实现单个平台行为的自主决策、平台间的行为协同，最终产生任务能力涌现。无人集群系统不是多个无人系统的简单编队，其任务能力也不是诸多平台单一能力的叠加，而是由多无人平台通过科学的方法聚集、调度、编排后，经过集群自组织机制与行为调控机制的有机耦合，产生了新的能力或原有能力发生了质的变化。

在多样化环境中，无人集群任务要素相互关联、制约和影响，使得无人集群协同决策变得十分困难，涉及主要问题主要体现在：

1）模型难以建立：无人集群由许多各具特点、不同类型和不同用途的无人机构成，任务过程不仅取决于自身能力，还受自然环境和目标状态的制约，这导致无人集群协同建模难度急剧增加；

2）问题求解困难：集群协同决策问题属于多参数、多约束的非确定多项式求解问题，在多输入条件下容易导致组合爆炸，需要研究高效的降维方法及优化策略；

3）任务耦合度高：集群中的任务通常相互关联、彼此制约，即存在复杂的约束关系及不同的任务需求，如时间、空间、载荷匹配关系和任务优先级等要求，多任务耦合极大增加了自协同的难度；

4）进化能力弱：无人机集群多是在高动态、强对抗环境下执行任务，对象的时间、空间、状态均是事先未知的，需要无人集群系统不断学习新环境下的决策能力，没有进化能力不足以支撑多变环境下的决策正确性。

伴随人工智能技术及无人系统技术在世界范围内的传播与扩散，强化学习已在许多领域展现了巨大的应用潜力，多智能体以“试错”方式进行学习，通过与环境进行交互获得的奖赏指导动作，促使智能体获得最大的奖励。相较传统决策方法，强化学习系统需主要依靠自身的经历进行学习，由环境提供的强化信号对产生动作的好坏作出评价，通过有限次地执行能够获得最大奖励的动作，来确定最佳模型，可以促进无人集群向可进化智能体系转变，提升无人集群系统的场景适应性。

发明内容

为了克服当前无人集群决策模型构建困难、环境适应性差、不具备进化能力等问题，本发明提供了一种基于元动作序列强化学习的无人集群演进系统及方法，本发明具有较强泛化能力，在应对复杂动态场景时具有较高鲁棒性。

为了实现上述目的，本发明采用的技术方案为：

一种基于元动作序列强化学习的无人集群演进系统，包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块；

无人集群仿真环境用于提供多类无人系统，包括无人机、无人车、无人船模型，能够导入多类3D环境模型，并提供无人系统驱动及环境信息读取接口，支持无人集群协同飞行、无人集群任务规划、深度强化学习等智能算法的仿真及推演；

集群策略模型库由集群元动作序列组成，元动作包含了每个无人系统可能存在的所有状态，以及可以执行的所有动作；所述集群策略模型库为基于分层状态机实现的无人系统状态与个体动作的映射集合；

效能评估模块用于对策略模型库中的集群策略进行评估，判断策略的起始、结束时间以及结束时的集群作战效能值，根据初始的集群作战效能值和结束时集群作战效能值，对增减值进行量化评估计算，获得策略评估结果；

态势感知模块用于感知当前的敌、我态势及地理环境信息，为后续集群策略学习演进模块及集群决策模块提供输入数据，感知数据包括敌我位置数据、运动方向数据、速度数据、典型环境要素位置，敌我位置数据由经度、纬度、高度组成；

集群策略演进模块根据无人集群仿真环境的仿真数据以及策略评估结果，通过自学习算法形成新的集群策略，提供策略库的备选策略，形成对策略样本库的补充策略，实现无人集群任务策略演进；

集群决策模块用于将实时感知的态势数据与决策库中的决策初始状态条件进行匹配度评估计算，如果匹配成功，则获得无人集群策略库中的各无人机执行序列，进行后续控制；如果匹配不成功，则转入在线自学习计算以获得策略，各无人系统执行在线学习的策略作为后续控制序列。

一种基于元动作序列强化学习的无人集群演进方法，包括以下步骤：

步骤1，通过无人集群仿真环境为整个系统提供无人机、无人车、无人船模型，并提供无人系统驱动及环境信息读取接口，整个系统的输入数据及输出数据均在该环境下产生；

步骤2，通过态势感知模块在无人集群仿真环境下进行态势感知，获取当前的敌、我态势及地理环境信息，包括敌我位置数据、运动方向数据、速度数据、建筑物位置、地形起伏数据；

步骤3，通过集群决策模块接收来自态势感知模块的态势数据，并与集群策略模型库中的集群状态进行匹配度计算，如果匹配成功，则按集群策略模型库中的无人集群个体的元动作序列输入无人集群仿真环境的无人系统驱动接口；如果匹配不成功，则触发集群策略演进模块进入在线学习过程；

步骤4，通过群策略演进模块进行自学习演进，对无人集群当前状态信息通过无人集群仿真环境进行备选策略推演，通过多智能体自学习算法生成新的集群策略，并将该策略输出到效能评估模块；自学习过程采用多智能体深度强化学习算法，将任务效能评估结果作为强化学习的奖赏激励，通过无人集群仿真环境提供的多类场景对深度神经网络进行集中式训练、分散式执行实现；

步骤5，通过效能评估模块采用效能评估算法计算备选策略的效能值，如果效能值达到设定阈值，则输出新的集群策略加入集群策略模型库，并更新集群策略模型库；如果效能值小于设定阈值，则继续通过无人集群仿真环境进行备选策略推演，重复自学习过程，直至产生效能值达标的集群策略，则当前集群状态信息与当前集群策略的映射关系被拟合到深度神经网络；效能评估算法根据专家知识，构建指标体系及效能影响权重，通过指标体系参数及权重的综合加权定量计算效能值；

步骤6，通过集群决策模块对匹配成功的无人集群状态，执行决策并进行集群状态更新，无人集群仿真环境中的无人系统模型按接收的集群策略完成模型控制，驱动整个无人集群进入下一状态，迭代进行态势感知，直至任务结束。

本发明的有益效果在于：

1、本发明将无人集群面临的诸多任务分解为基础的元动作，通过估值网络构建环境信息与元动作序列间的映射关系，将任务效能评价指标作为强化学习的奖赏函数，通过众多场景自适应强化学习，实现无人集群任务能力的演进。该系统具有较强泛化能力，在应对复杂动态场景时具有较高鲁棒性。

2、本发明通过神经网络构建集群状态信息与元动作序列间的映射关系，将任务效能评价结果作为强化学习的奖赏激励，通过多想定的自适应强化学习，实现无人集群任务能力的演进，能够促进无人集群任务能力从优化向进化的转变，可对无人集群战斗力带来系统性提升。

3、本发明能够将复杂的无人集群决策能力演进过程建模为元动作序列的强化自学习过程，可克服当前无人集群决策模型构建困难、环境适应性差、不具备进化能力等问题。

附图说明

图1是本发明实施例系统的架构图。

图2是本发明实施例中无人集群效能评估指标构建图。

图3是本发明实施例中无人集群策略演进示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

一种基于元动作序列强化学习的无人集群演进系统，包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块六个主要组成部分，各部分功能描述如下：

无人集群仿真环境：提供多类无人系统如无人机、无人车、无人船模型，可导入多类3D环境模型，并提供无人系统驱动及环境信息读取接口，支持无人集群协同飞行、无人集群任务规划、深度强化学习等智能算法的仿真及推演。

集群策略模型库：集群策略模型由集群元动作序列组成，元动作包含了每个无人系统可能存在的所有状态，以及可以执行的所有动作。基于分层状态机思想，构建无人系统状态与个体动作的映射集合，形成策略模型库。

效能评估模块：通过任务效能评价模型对策略模型库中的集群策略进行评估，判断策略的起始、结束时间以及结束时的集群作战效能值；获取集群初始作战效能值和结束时集群作战效能值，对增减值进行量化评估计算，获得策略评估结果。

态势感知模块：基于无人集群仿真环境，感知当前的敌、我态势及地理环境信息获取，为后续集群策略学习演进模块及集群决策模块提供输入数据，感知数据主要包括敌、我位置数据（由经度、纬度、高度等组成）、运动方向数据、速度数据、典型环境要素位置等。

集群策略演进模块：通过采集的仿真数据以及策略评估结果，从样本数据中元动作序列过程考察集群效能值的变化程度，通过自学习算法形成新的集群策略，提供策略库的备选策略，形成对策略样本库的补充策略，实现无人集群任务策略演进。

集群决策模块：将实时感知的态势数据与决策库中的决策初始状态条件进行匹配度评估计算，如果匹配成功，获得无人集群策略库中的各无人机执行序列进行后续控制；如果匹配不成功，转入在线自学习计算获得策略，各无人系统执行在线学习的策略后续控制序列。

（1）无人集群仿真环境为整个系统提供无人机、无人车、无人船模型，可导入多类3D环境模型，并提供无人系统驱动及环境信息读取接口，整个系统的输入数据及输出数据均在该环境下产生。

（2）态势感知模块在无人集群仿真环境下进行态势感知，获取当前的敌、我态势及地理环境信息，主要包括敌、我位置数据（由经度、纬度、高度组成）、运动方向数据、速度数据、建筑物位置、地形起伏数据等。

（3）集群决策模块接收来自态势感知模块的态势数据，并与集群策略模型库中的集群状态进行匹配度计算，如果匹配成功（匹配度大于等于设定阈值），则按集群策略模型库中的无人集群个体的元动作序列输入无人集群仿真环境的无人系统驱动接口；如果匹配不成功（匹配度小于设定阈值），则触发集群策略演进模块进入在线学习过程。

（4）群策略演进模块进行自学习演进，对无人集群当前状态信息通过无人集群仿真环境进行备选策略推演，通过多智能体自学习算法生成新的集群策略，并将该策略输出到效能评估模块。

（5）效能评估模块采用效能评估算法计算备选策略的效能值，如果效能值大于等于设定阈值，则输出新的集群策略加入集群策略模型库，并更新策略模型库；如果效能值小于设定阈值，则继续通过无人集群仿真环境进行备选策略推演，重复自学习过程，直至产生最佳集群策略。

（6）集群决策模块对于匹配成功的无人集群状态，执行决策并进行集群状态更新，无人集群仿真环境中的无人系统模型按接收的集群策略完成模型控制，驱动整个无人集群进入下一状态，迭代进行态势感知，直至任务结束。

以下为一个更具体的例子：

一种基于元动作序列强化学习的无人集群演进系统，包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块六个组成部分，如图1所示，系统各部分的实现方式如下：

1、无人集群仿真环境：提供多类无人系统如无人机、无人车、无人船模型，可导入多类3D环境模型，并提供无人系统驱动及环境信息读取接口，支持无人集群协同飞行、无人集群任务规划、深度强化学习等智能算法的仿真及推演。

本实施例基于ROS+Gazebo的无人集群仿真环境，其中ROS（Robot OperatingSystem）为机器人操作系统，是编写机器人软件程序的一种具有高度灵活性中间件，可提供一些硬件抽象、底层设备控制、常用功能实现、进程间消息以及数据包管理等标准操作系统服务，通过发布订阅机制实现不同节点的信息交互。Gazebo为ROS自带的三维多机器人动力学仿真环境，它能够模拟复杂的无人机、无人车模型以及现实环境模型。主要功能包括：1）构建无人平台运动仿真模型；2）构建现实世界各种场景的仿真模型；3）构建多类传感器仿真模型；4）为无人平台模型添加现实世界的物理性质。

2、集群策略模型库：集群策略模型由集群元动作序列组成，元动作包含了每个无人系统可能存在的所有状态，以及可以执行的所有动作。基于分层状态机思想，构建无人系统状态与个体动作的映射集合，形成策略模型库。

2.1 元动作建模采用分层状态机实现：构建动作与无人集群个体状态的映射，其主要设计思想如下：无人集群个体可在任何给定的时刻执行某些特定的动作请求，但是无人集群个体通常不能从任意一个状态跳转到另一个任意状态，让无人集群个体实现正确跳转状态的选项被称为状态转移，而将状态的集合、状态转移的集合以及用于记录正确状态的变量整合起来定义为一个状态机。

2.2 通过配置文件构建动作状态机：通过给每一个无人集群个体配置Moves属性来赋予其动作系统，而在动作系统中通过配置States属性来构建动作状态机。Moves属性的配置只与无人机运动能力有关。States属性可构建有向图，有向图的每个顶点为一个动作片段，有向图的每条边都有对应的权值，可根据权值来计算一条最短路径，加入到当前的动作队列中，不同的动作动作队列共同组成无人集群策略模型库。

3、效能评估模块：通过任务效能评价模型对策略模型库中的集群策略进行评估，判断策略的起始、结束时间以及结束时的集群作战效能值；获取集群初始作战效能值和结束时集群作战效能值，对增减值进行量化评估计算，获得策略评估结果。

3.1 任务效能指标构建：对任务效能的评估可从任务性能评估、生存性能评估、稳定性能评估3个方面进行。任务性能是指无人机执行环境侦察、监视等任务的能力，无人机需要在侦察到目标后立即做出判断，对其进行识别、跟踪或决策；生存性能表示在复杂的地理与气象条件下，保持无人机安全飞行能力，该指标是其执行各类任务的基本前提；稳定性能指无人机在复杂多样环境中执行各类任务时需要较高稳定性，使无人机受到扰动后迅速回复到原平衡状态的性能，三类评价指标细化如图2所示。

3.2 任务效能评价：本实施例采用结构方程模型多元统计分析方法，从任务性能评估、生存性能评估、稳定性能评估３个方面指标出发，构建不同对象、不同任务的科学合理的作战效能评估模型，针对不同评价对象（旋翼无人机、固定翼无人机、仿生鸟等），构建统一标准的面向对象设计规范、遵从开放式体系架构的不同任务模型（如侦察、支援、打击等），明确不同对象的评价参数种类、个数和和设置范围等，构建任务效率、任务效果、任务代价与任务能力和任务贡献度之间的定量关系模型。

4、态势感知模块：基于无人集群仿真环境，感知当前的敌、我态势及地理环境信息获取，为后续集群策略学习演进模块及集群决策模块提供输入数据，感知数据主要包括敌、我位置数据（由经度、纬度、高度等组成）、运动方向数据、速度数据、典型环境要素位置等。

态势感知模块基于无人集群仿真环境模拟无人机搭载的感知载荷，配合地图模实现无人机对环境态势的主动感知，模型参数包括探测范围、探测高度、探测角度等，本实施例以执行目标搜索任务的无人集群携带视觉载荷为例，可以时刻探测任务区域，且每架无人机在可独立获得其自身传感器当前探测范围内的态势信息。

5、集群决策模块：将实时感知的态势数据与决策库中的决策初始状态条件进行匹配度评估计算，如果匹配成功，获得无人集群策略模型库中的各无人平台执行序列，进行后续控制；如果匹配不成功，转入在线自学习计算获得策略，各无人系统执行在线学习的策略作为后续控制序列。

6、集群策略演进模块：通过采集的仿真数据以及策略评估结果，从样本数据中元动作序列过程考察集群效能值的变化程度，通过自学习算法形成新的集群策略，提供策略库的备选策略，形成对策略样本库的补充策略，实现无人集群任务策略演进。

6.1 获得集群策略样本库数据：通过无人集群仿真环境采集的仿真样本数据，包括敌、我位置数据（由经度、纬度、高度等信息组成）、载荷数据、运动方向数据、速度数据、建筑物位置数据、剩余油量数据等，可通过不同约束条件（按集群效能值为初始值的20%作为打击任务的结束条件，初始值的 20%到 0 作为侦察任务的结束条件，以在固定区域和固定时间段内我方集群效能值大于敌方集群效能值作为支援任务成功的约束条件）得到不同无人集群策略的样本库。

6.2 获得策略评估结果：通过任务效能（重点考察无人机的生存能力、任务能力、稳定能力三项效能指标）对无人集群策略样本库中的策略进行评估，判断策略（涵盖支援、侦察、打击等任务）的起始、结束时间，结束时的集群任务效能值；获取集群初始任务效能值和结束时集群任务效能值，对增减值进行量化评估计算；相同条件下多个集群策略的效能值进行量化评估计算，获得策略评估结果，形成策略评估序列；提取效能最佳策略形成的不同无人集群策略库，包含策略约束条件和集群中每个无人机的实施步骤。

6.3 多智能体自学习：如图3所示，采用多智能体深度强化学习算法实现自学习过程，多智能体深度强化学习通过集中式训练、分布式执行实现集群策略演进目标。允许策略使用额外的信息来简化训练，在估值网络（Q网络）中增加关于其他智能体策略的额外共享信息，可以提高决策的生成效率。每个回合中，为每个智能体随机选择一个特定的子策略执行，并为智能体的每个子策略建立一个重播缓冲区，将作战任务分配为多个子任务同时进行，这样有利于每个智能体形成新的集群策略。

6.4无人集群任务推演：对集群策略演进模块最新生成的集群策略再次在仿真系统中进行推演，采用同样的集群策略效能评估算法实现新集群策略的效能评估，计算新集群策略的效能值，实现对集群策略样本库的策略更新。结束集群策略自学习演进过程。

总之，本发明首先将无人集群面临的诸多任务分解为基础的元动作，通过估值网络构建环境信息与元动作序列间的映射关系，将任务效能评价指标作为强化学习的奖赏函数，通过众多场景自适应强化学习，实现无人集群任务能力的演进。该系统具有较强泛化能力，在应对复杂动态场景时具有较高鲁棒性。

Claims

1.一种基于元动作序列强化学习的无人集群演进系统，其特征在于，包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块；

2.一种基于元动作序列强化学习的无人集群演进方法，其特征在于，包括以下步骤：