CN113110582B - 无人机集群智能系统控制方法 - Google Patents

无人机集群智能系统控制方法 Download PDF

Info

Publication number
CN113110582B
CN113110582B CN202110438880.0A CN202110438880A CN113110582B CN 113110582 B CN113110582 B CN 113110582B CN 202110438880 A CN202110438880 A CN 202110438880A CN 113110582 B CN113110582 B CN 113110582B
Authority
CN
China
Prior art keywords
agent
subtasks
action
subtask
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110438880.0A
Other languages
English (en)
Other versions
CN113110582A (zh
Inventor
王一皓
江玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing Institute of Green and Intelligent Technology of CAS
Priority to CN202110438880.0A priority Critical patent/CN113110582B/zh
Publication of CN113110582A publication Critical patent/CN113110582A/zh
Application granted granted Critical
Publication of CN113110582B publication Critical patent/CN113110582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种无人机集群智能系统控制方法,包括以下步骤:获取多智能体体系结构,所述多智能体体系结构中每个智能体均设有对应的目标、感知方法、动作集;所述多智能体体系结构中每个智能体与环境交互,进行集群智能体学习;所述多智能体体系结构中每个智能体通过动作协调完成系统目标。该方法能够实现无人机自主集群以低成本、高分散的组织形式满足功能需求。

Description

无人机集群智能系统控制方法
技术领域
本发明涉及通信技术领域,特别涉及一种无人机集群智能系统控制方法。
背景技术
现今无人机技术正大力发展,单架无人机系统集成度越来越高,功能也愈发强大,然而对单架无人机而言,由于燃料、重量等限制,无法形成持续工作,也无法对任务区域进行大范围覆盖。基于此,提出无人机集群技术,无人机应以集群方式协同工作。
无人机自主集群系统具有“平台简单、高度协调、完全自主、群体智能”等特点,其势必将引发新一代行业工作模式的颠覆性变革,不仅在渗透侦察、诱骗干扰、察打一体、协同攻击等国防科技领域大显身手,而且也将在智能交通、地质勘测、灾害监测、农业植保、物流运输等国民经济发展中有着广阔的发展前景。而如何建立无人机集群这一整体动态特性和物理约束的模型,如何面向更加复杂的任务环境将人工智能与无人机集群自主控制紧密结合,如何将有人与无人机、无人车、无人船等跨域融合,实现全自主群集系统广泛应用,还需要进一步研究和深入探索。
发明内容
有鉴于此,本发明的目的之一在于提供涉一种无人机集群智能系统控制方法,该方法能提升无人机集群智能系统信息共享、抗故障与自愈能力。
为实现上述目的,本发明的技术方案为:
一种无人机集群智能系统控制方法,包括以下步骤:
获取多智能体体系结构,所述多智能体体系结构中每个智能体均设有对应的目标、感知方法、动作集;
所述多智能体体系结构中每个智能体与环境交互,进行集群智能体学习;
所述多智能体体系结构中每个智能体通过动作协调完成系统目标。
进一步地,所述多智能体体系结构中每个智能体与环境交互具体包括:
S11:各智能体对环境进行观测,获取观测数据;
S12:根据观测数据做动作;
S13:改变环境状态,获取奖励;
S14:重复步骤S11-S13。
进一步地,所述进行集群智能体学习的步骤具体包括:
S21:初始化多智能体体系结构中的网络参数,并求得目标任务最优解网络参数;
S22:利用价值分解,智能体将行动价值分解为子任务;
S23:所有子任务通过纳什均衡,获得子任务团队目标;
S24:子任务通过以下模型学习,获取最大化的子任务团队目标:
Figure BDA0003033009640000031
其中,Q为目标函数,ai为第i个智能体的动作信号,
Figure BDA0003033009640000032
为除i之外的其他智能体的动作信号,EP为环境影响函数,St、St+1为马尔科夫决策过程,aj为第j个智能体的动作信号,r为反馈给智能体一个回报信号,j、i为不同的智能体,分别采用的下标,t为状态时刻,θ为初始化的网络参数;
S25:更新网络参数,最大化的子任务获取所有子任务最大团队奖励,其他子任务重复步骤S22-S25;
S26:重复步骤S21-S25进行网络迭代,直到多智能体体系结构收敛到最优状态。
进一步地,所述步骤S22中通过以下方式分解为子任务:
Figure BDA0003033009640000033
其中,k为分解的第k个子任务,
Figure BDA0003033009640000034
为参数为θ的目标函数,K为总共分解为的K个子任务,ValueDecompose为整体价值分解函数。
进一步地,所步骤S23通过以下方式得到子任务团队目标:
For k=1,...K do
Figure BDA0003033009640000035
其中,
Figure BDA0003033009640000036
为第n个智能体的对应的第k个动作,gnk第n个智能体的第k个子任务,Nash为纳什均衡函数。进一步地,所步骤S25通过以下方式更新网络参数:
Figure BDA0003033009640000037
其中,θ*为最优解网络参数,k为分解的第k个子任务,
Figure BDA0003033009640000038
为参数为θ的目标函数。
本发明的有益效果在于:提供一种无人机集群智能系统控制方法,以无人机为载体,主要研究目的为包含多个智能体的复杂系统构建问题,以及个体独立行为的相互协调机制,能异构群体协作学习,促生分层、分组等结构,能将大规模的复杂抽象团队任务有效的进行智能分析和分解,个体自动组队实现;还能实现无人机自主集群以低成本、高分散的组织形式满足功能需求,以去中心化自组网提升系统高效信息共享、抗故障与自愈能力,以功能分布化提高体系生存率和效率交换比。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的多智能体体系结构图;
图2是本发明实施例提供的多智能体与环境交互过程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
本实施例中提供一种无人机集群智能系统控制方法,该方法以无人机为载体,主要研究目的为包含多个智能体的复杂系统构建问题,以及个体独立行为的相互协调机制。主要包括如下几方面内容:
自治性:智能体根据外界得变化,而自动地对自己的行为和状态进行调整;
主动性:能对外界刺激输入作出响应的能力;
社会性:智能个体具有与其它智能体或人进行合作的能力,不同的智能体可根据各自意图与其它智能个体进行交互,以实现共同目标的目的;
进化性:单个智能体能积累或者学习经验和知识,并修改自己的行为以适应新的环境刺激。
具体地,该方法包括步骤:
S1:获取多智能体体系结构;
本步骤中的多智能体体系结构可参考图1,包括智能体(A1、A2、A3、A4……)、环境;智能体之间可以互相通信,集群智能体直接还能进行写作与协调;多智能体体系结构中每个智能体又有自己的目标、感知方法、动作集等;
S2:多智能体体系结构中每个智能体与环境交互,进行集群智能体学习;
本步骤中,多智能体与环境交互:获取观测、做出动作、改变环境状态、获取奖励;继续观测重复上述过程,其具体过程可参考图2,让智能体学习,进行互相配合;
在一具体实施例中,集群智能体学习的过程为:假设有多个智能体{g1,...gn},其对应的马尔科夫决策过程{S1,...ST},初始化网络参数θ;对目标任务(指多智能体协作完成某一件具体的任务(通常用函数描述)最优解(目标任务函数求得全局函数极值的参数点认为是最优解)的网络参数θ*,当θ*无法收敛时,循环进行如下步骤:
S21:利用价值分解,智能体将行动价值分解为子任务;其具体方式为:
Figure BDA0003033009640000061
其中,k为分解的第k个子任务,
Figure BDA0003033009640000062
为参数为θ的目标函数,K为总共分解的K个子任务,ValueDecompose为整体价值分解函数。
S22:对于每一个子任务,求解子任务纳什均衡,获得子任务团队目标;
本实施例中,其具体方式为:
For k=1,...K do
Figure BDA0003033009640000063
其中,
Figure BDA0003033009640000064
为第n个智能体的对应的第k个动作,gnk为第n个智能体的第k个子任务,Nash为纳什均衡函数。
S23:子任务开始学习,目标是最大化子任务1的团队目标;并更新子任务参数:
Figure BDA0003033009640000071
其中,Q为目标函数,ai为第i个智能体的动作信号,aj为第j个智能体的动作信号,
Figure BDA0003033009640000072
为除i之外的其他智能体的动作信号,EP为环境影响函数,St、St+1为马尔科夫决策过程,r为反馈给智能体一个回报信号,j、i为不同的智能体,分别采用的下标,t为状态时刻,θ为初始化的网络参数,本实施例中的最大化目标即为目标函数的全局极值;
更新网络参数:
Figure BDA0003033009640000073
其中,θ*为最优解网络参数,k为分解的第k个子任务,
Figure BDA0003033009640000074
为参数为θ的目标函数。
S24:选择动作,本步骤中,由于不同的智能体采取的动作会根据任务、时刻的不同而改变,因此需要在具体的场景环境下明确不同的动作;本实施例中通过以下方法来选择动作:
Figure BDA0003033009640000075
其中,
Figure BDA0003033009640000076
为第i个智能体选择动作,argmax为参数最大化。
S25:更新网络参数,最大化的子任务1获取所有子任务最大团队奖励,其他子任务重复步骤S21-S25;
本步骤中,更新Qθ(St,ai),
Figure BDA0003033009640000077
其中
Figure BDA0003033009640000078
为第n个智能体选择动作。
S26:重复步骤S21-S25进行网络迭代,直到多智能体体系结构收敛到最优状态。
S3:多智能体体系结构中每个智能体通过动作协调完成系统目标。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (5)

1.一种无人机集群智能系统控制方法,其特征在于,包括以下步骤:
获取多智能体体系结构,所述多智能体体系结构中每个智能体均设有对应的目标、感知方法、动作集;
所述多智能体体系结构中每个智能体与环境交互,进行集群智能体学习;
所述多智能体体系结构中每个智能体通过动作协调完成系统目标;
S21:初始化多智能体体系结构中的网络参数,并求得目标任务最优解网络参数;
S22:利用价值分解,智能体将行动价值分解为子任务;
S23:所有子任务通过纳什均衡,获得子任务团队目标;
S24:子任务通过以下模型学习,获取最大化的子任务团队目标:
Figure FDA0003993432220000011
其中,Q为目标函数,ai为第i个智能体的动作信号,aj为第j个智能体的动作信号,
Figure FDA0003993432220000012
为除i之外的其他智能体的动作信号,EP为环境影响函数,St、St+1为马尔科夫决策过程,r为反馈给智能体一个回报信号,t为状态时刻,θ为初始化的网络参数;
S25:更新网络参数,最大化的子任务获取所有子任务最大团队奖励,其他子任务重复步骤S22-S25;
S26:重复步骤S21-S25进行网络迭代,直到多智能体体系结构收敛到最优状态。
2.根据权利要求1所述的方法,其特征在于,所述多智能体体系结构中每个智能体与环境交互具体包括:
S11:各智能体对环境进行观测,获取观测数据;
S12:根据观测数据做动作;
S13:改变环境状态,获取奖励;
S14:重复步骤S11-S13。
3.根据权利要求1所述的方法,其特征在于,所述步骤S22中通过以下方式分解为子任务:
Figure FDA0003993432220000021
其中,k为分解的第k个子任务,
Figure FDA0003993432220000022
为参数为θ的目标函数,K为总共分解的K个子任务,ValueDecompose为整体价值分解函数。
4.根据权利要求1所述的方法,其特征在于,所步骤S23通过以下方式得到子任务团队目标:
Fork=1,...K do
Figure FDA0003993432220000023
其中,
Figure FDA0003993432220000024
为第n个智能体的对应的第k个动作,gnk为第n个智能体的第k个子任务,Nash为纳什均衡函数。
5.根据权利要求1所述的方法,其特征在于,所步骤S25通过以下方式更新网络参数:
Figure FDA0003993432220000025
其中,θ*为最优解网络参数,k为分解的第k个子任务,
Figure FDA0003993432220000026
为参数为θ的目标函数。
CN202110438880.0A 2021-04-22 2021-04-22 无人机集群智能系统控制方法 Active CN113110582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110438880.0A CN113110582B (zh) 2021-04-22 2021-04-22 无人机集群智能系统控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110438880.0A CN113110582B (zh) 2021-04-22 2021-04-22 无人机集群智能系统控制方法

Publications (2)

Publication Number Publication Date
CN113110582A CN113110582A (zh) 2021-07-13
CN113110582B true CN113110582B (zh) 2023-06-02

Family

ID=76719549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110438880.0A Active CN113110582B (zh) 2021-04-22 2021-04-22 无人机集群智能系统控制方法

Country Status (1)

Country Link
CN (1) CN113110582B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
WO2019234702A2 (en) * 2018-06-08 2019-12-12 Tata Consultancy Services Limited Actor model based architecture for multi robot systems and optimized task scheduling method thereof
CN111159832A (zh) * 2018-10-19 2020-05-15 百度在线网络技术(北京)有限公司 交通信息流的构建方法和装置
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统
CN112068549A (zh) * 2020-08-07 2020-12-11 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112596395A (zh) * 2020-12-24 2021-04-02 中国科学院重庆绿色智能技术研究院 一种多重信息约束下的多智能体一致性协同控制方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
WO2019234702A2 (en) * 2018-06-08 2019-12-12 Tata Consultancy Services Limited Actor model based architecture for multi robot systems and optimized task scheduling method thereof
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN111159832A (zh) * 2018-10-19 2020-05-15 百度在线网络技术(北京)有限公司 交通信息流的构建方法和装置
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统
CN112068549A (zh) * 2020-08-07 2020-12-11 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN112596395A (zh) * 2020-12-24 2021-04-02 中国科学院重庆绿色智能技术研究院 一种多重信息约束下的多智能体一致性协同控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多智能体合作环境下的分布式强化学习;傅波等;《华中科技大学学报(自然科学版)》;20140110;第41卷(第S1期);第363-366页 *

Also Published As

Publication number Publication date
CN113110582A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Nayyar et al. Introduction to swarm intelligence
Kumar et al. Segregation of heterogeneous units in a swarm of robotic agents
Shi et al. An integrated algorithm based on artificial bee colony and particle swarm optimization
CN109669475A (zh) 基于人工蜂群算法的多无人机三维编队重构方法
CN110286694B (zh) 一种多领导者的无人机编队协同控制方法
CN114020042A (zh) 一种异构无人集群编队合围跟踪控制方法及系统
Diaconescu et al. Multi-scale feedbacks for large-scale coordination in self-systems
CN113592162B (zh) 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN113985915B (zh) 一种高阶群系统多领导者分簇编队跟踪控制方法
CN113110582B (zh) 无人机集群智能系统控制方法
CN113311867B (zh) 一种多无人机协同多目标追踪的运动控制方法
Kravchuk et al. Formation of a wireless communication system based on a swarm of unmanned aerial vehicles
Shintani et al. A serialization algorithm for mobile robots using mobile agents with distributed ant colony clustering
Moussaoui et al. Optimal number ofsites in multi-site fisheries with fish stock dependent migrations
Wu et al. Multi-agent collaborative learning with relational graph reasoning in adversarial environments
CN117750509A (zh) 一种多无人机网络下基于深度强化学习的时隙分配方法
CN115390583B (zh) 无人机集群鲁棒分布式固定时间二部包含控制方法
CN112363392A (zh) 一类模型未知的多智能体分群一致性控制方法
Siedler Dynamic collaborative multi-agent reinforcement learning communication for autonomous drone reforestation
Cappello et al. Distributed control of multi-agent systems via linear quadratic differential games with partial information
Yang et al. Flocking shape analysis of multi-agent systems
Zhao et al. Navigation and navigation algorithms
Liu et al. UAV 3D path planning based on improved grey wolf optimization algorithm
Liu et al. Research on prediction about fruit tree diseases and insect pests based on neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant