CN113110582B

CN113110582B - 无人机集群智能系统控制方法

Info

Publication number: CN113110582B
Application number: CN202110438880.0A
Authority: CN
Inventors: 王一皓; 江玲
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2023-06-02
Anticipated expiration: 2041-04-22
Also published as: CN113110582A

Abstract

本发明提供一种无人机集群智能系统控制方法，包括以下步骤：获取多智能体体系结构，所述多智能体体系结构中每个智能体均设有对应的目标、感知方法、动作集；所述多智能体体系结构中每个智能体与环境交互，进行集群智能体学习；所述多智能体体系结构中每个智能体通过动作协调完成系统目标。该方法能够实现无人机自主集群以低成本、高分散的组织形式满足功能需求。

Description

无人机集群智能系统控制方法

技术领域

本发明涉及通信技术领域，特别涉及一种无人机集群智能系统控制方法。

背景技术

现今无人机技术正大力发展，单架无人机系统集成度越来越高，功能也愈发强大，然而对单架无人机而言，由于燃料、重量等限制，无法形成持续工作，也无法对任务区域进行大范围覆盖。基于此，提出无人机集群技术，无人机应以集群方式协同工作。

无人机自主集群系统具有“平台简单、高度协调、完全自主、群体智能”等特点，其势必将引发新一代行业工作模式的颠覆性变革，不仅在渗透侦察、诱骗干扰、察打一体、协同攻击等国防科技领域大显身手，而且也将在智能交通、地质勘测、灾害监测、农业植保、物流运输等国民经济发展中有着广阔的发展前景。而如何建立无人机集群这一整体动态特性和物理约束的模型，如何面向更加复杂的任务环境将人工智能与无人机集群自主控制紧密结合，如何将有人与无人机、无人车、无人船等跨域融合，实现全自主群集系统广泛应用，还需要进一步研究和深入探索。

发明内容

有鉴于此，本发明的目的之一在于提供涉一种无人机集群智能系统控制方法，该方法能提升无人机集群智能系统信息共享、抗故障与自愈能力。

为实现上述目的，本发明的技术方案为：

一种无人机集群智能系统控制方法，包括以下步骤：

获取多智能体体系结构，所述多智能体体系结构中每个智能体均设有对应的目标、感知方法、动作集；

所述多智能体体系结构中每个智能体与环境交互，进行集群智能体学习；

所述多智能体体系结构中每个智能体通过动作协调完成系统目标。

进一步地，所述多智能体体系结构中每个智能体与环境交互具体包括：

S11：各智能体对环境进行观测，获取观测数据；

S12：根据观测数据做动作；

S13：改变环境状态，获取奖励；

S14：重复步骤S11-S13。

进一步地，所述进行集群智能体学习的步骤具体包括：

S21：初始化多智能体体系结构中的网络参数，并求得目标任务最优解网络参数；

S22：利用价值分解，智能体将行动价值分解为子任务；

S23：所有子任务通过纳什均衡，获得子任务团队目标；

S24：子任务通过以下模型学习，获取最大化的子任务团队目标：

其中，Q为目标函数，a_i为第i个智能体的动作信号，

为除i之外的其他智能体的动作信号，E_P为环境影响函数，S_t、S_t+1为马尔科夫决策过程，a_j为第j个智能体的动作信号，r为反馈给智能体一个回报信号，j、i为不同的智能体，分别采用的下标，t为状态时刻，θ为初始化的网络参数；

S25：更新网络参数，最大化的子任务获取所有子任务最大团队奖励，其他子任务重复步骤S22-S25；

S26：重复步骤S21-S25进行网络迭代，直到多智能体体系结构收敛到最优状态。

进一步地，所述步骤S22中通过以下方式分解为子任务：

其中，k为分解的第k个子任务，

为参数为θ的目标函数，K为总共分解为的K个子任务，ValueDecompose为整体价值分解函数。

进一步地，所步骤S23通过以下方式得到子任务团队目标：

For k＝1,...K do

其中，

为第n个智能体的对应的第k个动作，g_nk第n个智能体的第k个子任务，Nash为纳什均衡函数。进一步地，所步骤S25通过以下方式更新网络参数：

其中，θ^*为最优解网络参数，k为分解的第k个子任务，

为参数为θ的目标函数。

本发明的有益效果在于：提供一种无人机集群智能系统控制方法，以无人机为载体，主要研究目的为包含多个智能体的复杂系统构建问题，以及个体独立行为的相互协调机制，能异构群体协作学习，促生分层、分组等结构，能将大规模的复杂抽象团队任务有效的进行智能分析和分解，个体自动组队实现；还能实现无人机自主集群以低成本、高分散的组织形式满足功能需求，以去中心化自组网提升系统高效信息共享、抗故障与自愈能力，以功能分布化提高体系生存率和效率交换比。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的多智能体体系结构图；

图2是本发明实施例提供的多智能体与环境交互过程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

本实施例中提供一种无人机集群智能系统控制方法，该方法以无人机为载体，主要研究目的为包含多个智能体的复杂系统构建问题，以及个体独立行为的相互协调机制。主要包括如下几方面内容：

自治性：智能体根据外界得变化，而自动地对自己的行为和状态进行调整；

主动性：能对外界刺激输入作出响应的能力；

社会性：智能个体具有与其它智能体或人进行合作的能力，不同的智能体可根据各自意图与其它智能个体进行交互，以实现共同目标的目的；

进化性：单个智能体能积累或者学习经验和知识，并修改自己的行为以适应新的环境刺激。

具体地，该方法包括步骤：

S1：获取多智能体体系结构；

本步骤中的多智能体体系结构可参考图1，包括智能体(A1、A2、A3、A4……)、环境；智能体之间可以互相通信，集群智能体直接还能进行写作与协调；多智能体体系结构中每个智能体又有自己的目标、感知方法、动作集等；

S2：多智能体体系结构中每个智能体与环境交互，进行集群智能体学习；

本步骤中，多智能体与环境交互：获取观测、做出动作、改变环境状态、获取奖励；继续观测重复上述过程，其具体过程可参考图2，让智能体学习，进行互相配合；

在一具体实施例中，集群智能体学习的过程为：假设有多个智能体{g₁,...g_n}，其对应的马尔科夫决策过程{S₁,...S_T}，初始化网络参数θ；对目标任务(指多智能体协作完成某一件具体的任务(通常用函数描述)最优解(目标任务函数求得全局函数极值的参数点认为是最优解)的网络参数θ^*，当θ^*无法收敛时，循环进行如下步骤：

S21：利用价值分解，智能体将行动价值分解为子任务；其具体方式为：

其中，k为分解的第k个子任务，

为参数为θ的目标函数，K为总共分解的K个子任务，ValueDecompose为整体价值分解函数。

S22：对于每一个子任务，求解子任务纳什均衡，获得子任务团队目标；

本实施例中，其具体方式为：

For k＝1,...K do

其中，

为第n个智能体的对应的第k个动作，g_nk为第n个智能体的第k个子任务，Nash为纳什均衡函数。

S23：子任务开始学习，目标是最大化子任务1的团队目标；并更新子任务参数：

其中，Q为目标函数，a_i为第i个智能体的动作信号，a_j为第j个智能体的动作信号，

为除i之外的其他智能体的动作信号，E_P为环境影响函数，S_t、S_t+1为马尔科夫决策过程，r为反馈给智能体一个回报信号，j、i为不同的智能体，分别采用的下标，t为状态时刻，θ为初始化的网络参数，本实施例中的最大化目标即为目标函数的全局极值；

更新网络参数：

其中，θ^*为最优解网络参数，k为分解的第k个子任务，

为参数为θ的目标函数。

S24：选择动作，本步骤中，由于不同的智能体采取的动作会根据任务、时刻的不同而改变，因此需要在具体的场景环境下明确不同的动作；本实施例中通过以下方法来选择动作：

其中，

为第i个智能体选择动作，argmax为参数最大化。

S25：更新网络参数，最大化的子任务1获取所有子任务最大团队奖励，其他子任务重复步骤S21-S25；

本步骤中，更新Q^θ(S_t,a_i)，

其中

为第n个智能体选择动作。

S3：多智能体体系结构中每个智能体通过动作协调完成系统目标。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。