CN115840892B - 一种复杂环境下多智能体层次化自主决策方法及系统 - Google Patents

一种复杂环境下多智能体层次化自主决策方法及系统 Download PDF

Info

Publication number
CN115840892B
CN115840892B CN202211581414.9A CN202211581414A CN115840892B CN 115840892 B CN115840892 B CN 115840892B CN 202211581414 A CN202211581414 A CN 202211581414A CN 115840892 B CN115840892 B CN 115840892B
Authority
CN
China
Prior art keywords
decision
group
behavior
intelligent
intelligent group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211581414.9A
Other languages
English (en)
Other versions
CN115840892A (zh
Inventor
杨雪榕
云朝明
童鹏飞
李嘉轩
王龙飞
柳祥林
袁冉慧
伍佩怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202211581414.9A priority Critical patent/CN115840892B/zh
Publication of CN115840892A publication Critical patent/CN115840892A/zh
Application granted granted Critical
Publication of CN115840892B publication Critical patent/CN115840892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种复杂环境下多智能体层次化自主决策方法及系统,该方法包括:获取预设的初始决策控制模型与预设的决策控制训练集;通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集;根据决策行为输出集,通过Agent建模方法,构建最终决策控制模型;根据所述最终决策控制模型,对所述智能群体的群体交互进行决策控制。通过使用本发明,能够在底层行为模拟基础上加入交互协同行为,实现有目标的整体行为涌现从而形成群体智能控制决策,进而实现自组网的弹性、鲁棒和高动态拓扑适应性。本发明作为一种复杂环境下多智能体层次化自主决策方法及系统,可广泛应用于智能集群控制技术领域。

Description

一种复杂环境下多智能体层次化自主决策方法及系统
技术领域
本发明涉及智能集群控制技术领域,尤其涉及一种复杂环境下多智能体层次化自主决策方法及系统。
背景技术
随着智能化、自主化水平不断提高,无人、有人和人机集群能够在复杂环境下实现协同完成复杂任务,通过各平台之间的优势互补,分工协作,充分发挥各自平台能力,形成“1+1>2”的效果,复杂环境下无人、有人、人机协同集群是一个典型的复杂系统,其自组网控制、分布式协同定位、导航和时间同步,无人、有人和人机集群协同控制在军民应用领域都有重要应用前景,必须采用基于个体自主决策,采用分布式协同决策的方式,来实现自组织网络的整体涌现,从而实现自组网的弹性、鲁棒和高动态拓扑适应性;
现有常见的研究思路是采用复杂系统研究方法,将群体内单个个体看作一个智能体,研究个体的行为决策机制,从而通过个体决策和群体交互,整体上表现出生物群体的行为涌现,复杂环境下无人、有人、人机协同集群是一个典型的复杂系统,其自组网控制、分布式协同定位、导航和时间同步,必须采用基于个体自主决策,采用分布式协同决策的方式,来实现自组织网络的整体涌现,从而实现自组网的弹性、鲁棒和高动态拓扑适应性,但是在现阶段的智能群体控制技术难以实现找到全局最优控制,即群体控制的目标是在当前状态下,个体根据自身状态、所处环境和友邻状态,采用一个最为合理的决策来执行行动,如何在底层行为模拟基础上,加入交互协同行为,实现有目标的整体行为涌现,且由于涌现机制严重依赖个体行为规则,而单纯依赖底层个体行为的修正,会因为个体数量的增大,增加交互成本,导致有目标的整体行为涌现无法实现,因此群体智能控制决策,成为现阶段群体智能控制研究的难题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种复杂环境下多智能体层次化自主决策方法及系统,能够在底层行为模拟基础上加入交互协同行为,实现有目标的整体行为涌现从而形成群体智能控制决策,进而实现自组网的弹性、鲁棒和高动态拓扑适应性。
本发明所采用的第一技术方案是:一种复杂环境下多智能体层次化自主决策方法,包括以下步骤:
获取预设的初始决策控制模型与预设的决策控制训练集,所述预设的初始决策控制模型其具体包括自主性决策层、社会性决策层和使命决策层;
通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集;
根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型;
根据所述最终决策控制模型,通过Agent建模方法对所述智能群体的群体交互进行决策控制。
进一步,所述预设的初始决策控制模型其具体包括自主性决策层、社会性决策层和使命决策层,其中:
所述自主性决策层,对智能群体的个体行为进行决策以获得职能群体的个体利益最大化值;
所述社会性决策层,根据智能群体的群体交互行为规则进行决策以获得智能群体的协同行为方案及个体协同行为执行序列;
所述使命决策层,根据智能群体的群体交互使命任务进行决策以获得智能群体的仿生生物类型和对应的个体行为。
进一步,所述预设的决策控制训练集其具体包括智能群体的个体行为的奖励、智能群体的各类型仿生生物行为规则、智能群体的使命意图、通信拓扑结构和仿生生物行为特征。
进一步,所述通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集这一步骤,其具体包括:
将预设的决策控制训练集输入至预设的初始决策控制模型;
基于自主性决策层,通过智能学习个体自主性决策方法对输入的智能群体的个体行为的奖励进行决策,得到第一输出决策;
基于社会性决策层,通过仿生群体社会性决策方法对输入的智能群体的各类型仿生生物行为规则进行决策,得到第二输出决策;
基于使命决策层,通过分布式自主规划使命任务决策方法对输入的智能群体的使命意图、通信拓扑结构和仿生生物行为特征进行决策,得到第三输出决策;
将第一输出决策、第二输出决策与第三输出决策进行融合修正,得到决策行为输出集。
进一步,所述基于自主性决策层,通过智能学习个体自主性决策方法对输入的智能群体的个体行为的奖励进行决策,得到第一输出决策这一步骤,其具体包括:
将智能群体的个体行为的奖励输入至自主性决策层;
确定环境因素,所述环境因素为智能群体个体通过感知器感知自身的环境因素,并通过共享模式与智能群体的进行环境信息交互;
基于环境因素,通过强化学习方法对智能群体的个体进行感知处理,获取智能群体个体的动态环境;
确定约束条件与目标条件,所述约束条件为智能群体的个体安全,所述目标条件为智能群体的个体利益最大化;
基于智能群体个体的动态环境、约束条件与目标条件,通过模糊决策理论对智能群体的个体行为进行决策推理,得到第一输出决策。
进一步,所述基于社会性决策层,通过仿生群体社会性决策方法对输入的智能群体的各类型仿生生物行为规则进行决策,得到第二输出决策这一步骤,其具体包括:
将智能群体的各类型仿生生物行为规则输入至社会性决策层;
确定行为决策问题,所述行为决策问题为智能群体的个体信息交互身份、状态、协同能力及需求;
基于行为决策问题,通过神经网络算法对智能群体的各类型仿生生物行为规则进行群体决策处理,得到第二输出决策。
进一步,所述基于使命决策层,通过分布式自主规划使命任务决策方法对输入的智能群体的使命意图、通信拓扑结构和仿生生物行为特征进行决策,得到第三输出决策这一步骤,其具体包括:
将智能群体的使命意图、通信拓扑结构和仿生生物行为特征输入至使命决策层;
确定任务约束条件,所述任务约束条件为载荷资源约束、耦合时序约束、任务耦合关系约束及执行窗口约束;
基于任务约束条件,通过使命任务动态分配方法对输入的智能群体的使命意图、通信拓扑结构和仿生生物行为特征进行分配处理,得到分配结果;
根据分配结果对智能群体状态与个体状态进行自主决策设计,得到设计结果;
根据设计结果,建立对应的规则、权重系数与指标体系并进行评判,得到第三输出决策。
进一步,所述根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型这一步骤,其具体包括:
对第一输出决策、第二输出决策与第三输出决策向对应的行为集进行映射处理,得到对应的行为决策;
通过神经网络分类器对行为决策进行多决策切换处理,得到智能群体个体对应的执行行为;
结合智能群体个体对应的执行行为与自组网共享的集群态势信息并进行预测,得到预测智能群体行为;
对预测智能群体行为进行一致性修正处理,得到决策行为输出集;
根据决策行为输出集执行具体的决策动作,并构建最终决策控制模型。
本发明所采用的第二技术方案是:一种复杂环境下多智能体层次化自主决策系统,包括:
获取模块,用于获取预设的初始决策控制模型与预设的决策控制训练集;
训练模块,用于通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集;
构建模块,用于根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型;
决策模块,用于根据所述最终决策控制模型,通过Agent建模方法对所述智能群体的群体交互进行决策控制。
本发明方法及系统的有益效果是:本发明通过预设的决策控制训练集对预设的初始决策控制模型进行训练,在底层行为模拟基础上通过基于智能学习个体自主性的决策训练,充分考虑决策快速性需求,以个体安全为约束,实现个体自身利益最大化,基于仿生的群体社会性决策训练,针对智能集群系统协同行为决策问题,实现智能集群协同行为方案的自主智能决策,基于分布式自主规划的使命任务决策训练,能够明确自主决策智能集群系统应当采用何种仿生生物集群协同行为集去实现使命任务,最后通过对三种训练决策结果进行一致性检测修正,使得智能群体的群体交互行为趋于一致性,从而实现自组网的弹性、鲁棒和高动态拓扑适应性。
附图说明
图1是本发明一种复杂环境下多智能体层次化自主决策方法的步骤流程图;
图2是本发明一种复杂环境下多智能体层次化自主决策系统的结构框图;
图3是本发明具体实施例中智能学习个体自主性决策方法的步骤流程图;
图4是本发明具体实施例中仿生群体社会性决策方法的步骤流程图;
图5是本发明具体实施例中分布式自主规划使命任务决策方法的步骤流程图;
图6是本发明具体实施例中多决策融合方法的步骤流程示意图;
图7是本发明构建的最终决策控制模型的结构示意图;
图8是Agent建模方法及个体单元Agent的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本方案所述决策控制模型包括使命决策学习模型、社会性决策学习模型和自主性决策学习模型;获取预设的初始决策控制训练集;利用所述的初始决策控制训练集,训练使命决策学习模型、社会性决策学习模型和自主性决策学习模型,得到决策行为输出集;利用所述决策行为输出集,训练获得最终三层决策模型;根据所述最终三层决策模型,对所述复杂系统智能集群的协同行为进行决策控制。
参照图1,本发明提供了一种复杂环境下多智能体层次化自主决策方法,该方法包括以下步骤:
S1、确定智能群体并执行复杂任务所需要的能力;
具体地,一个多平台系统要形成群体智能以执行复杂任务,需要同时使命任务的分解和执行能力、多个体间协同和共享能力、个体的自主安全与生存能力。
S2、根据智能群体所需要的能力,划分决策的层次和对应层次的内容;
具体地,智能群体根据所需要的三种能力,将决策对应分为三个层次分别为自主性决策、社会性决策和使命决策三种层次;
不同层次的决策内容为:
个体能力,依靠自主性决策,通过个体的感知,利用强化学习得到非线性控制网络和基于经验知识的推理,来形成确保自身生存安全的基础性行为,这种行为控制决策属于短周期快速决策,具有较大的动态性和即时性,对最终的任务执行起基础保障作用;
协同能力,依靠社会性决策,通过多个个体间的信息共享和交互来形成决策依据,决策方法一般可以通过设计规则来实现,规则可以通过战术设计和计算实验方法进行总结,协同行为决策属于中周期决策,需要通过多个个体多个具体行为的配合形成具体协同过程,具有一定的持续性,是形成群体智能的基础;
任务能力,依靠输入性决策,通过统一指令下达或者提前规划给出,它代表的多无人平台群体实现特定功能的能力,使命任务决策可以通过多目标任务规划方式,求得较优的整体性能,并以分布式执行策略进行多个个体的分工,任务决策具有客观性和可衡量性,具体使命可通过建立目标空间来描述最优,任务决策属于长周期决策,贯穿整个群体协同任务始终,是多无人平台系统完成任务使命的保障。
S3、针对不同决策层次,根据该层决策需求和决策目标确定决策方法;
具体地,获取预设的决策控制模型,所述决策控制模型包括使命决策学习模型、社会性决策学习模型和自主性决策学习模型;
所述使命决策学习模型根据初始决策控制训练集以及群体状态约束和任务约束,以多目标任务规划方法训练使命决策学习模型,建立相应的规则、权重系数以及指标体系模型,获得最终使命任务自主决策模型,根据使命任务自主决策模型,获得仿生生物类型和个体的行为;
所述社会性决策学习模型包括神经网络模型,利用使命任务自主决策模型决策获得初始决策控制训练集的行为规则,以环境态势、协同需求和协同和身份及状态作为输入,训练得到社会性自主决策模型,利用该模型得到协同行为方案及个体协同行为执行序列;
所述自主性决策学习模型,利用强化学习的方法和初始决策控制训练集,以个体生存安全及自身利益最大化为优化目标,训练得到个体行为自主智能决策模型,利用该模型得到个体执行行为;
进一步利用所述的初始决策控制训练集,训练使命决策学习模型、社会性决策学习模型和自主性决策学习模型,得到决策行为输出集,具体为根据三层决策模型,分为使命决策控制训练集,社会性决策控制训练集和自主决策控制训练集;
所述使命决策控制训练集包括使命意图、通信拓扑结构和仿生生物行为特征;
所述社会性决策控制训练集包括各类型仿生生物行为规则;
所述自主决策控制训练集包括不同行为的奖励;所述决策行为输出集是个体使命任务行为,局部协同行为和自主行为的集合。
S31、基于智能学习个体自主性决策方法;
具体地,参照图3,针对智能体集群中单一个体的自主快速决策问题,以个体生存安全及自身利益最大化为决策目标,结合个体所处战场环境因素,借鉴生物集群信息共享模式,融合强化学习理论,个体快速感知技术,实现面向个体的动态环境模型快速构建;基于动态环境模型包络,基于模糊决策理论,研发面向个体的知识推理技术,以实现个体的自主智能快速决策,应对智能体对陌生环境感知的快速性需求,考虑复杂的环境因素,借鉴生物集群的信息共享原理,充分考虑决策快速性需求,以个体安全为约束,以自身利益最大化为优化目标,作为个体行为自主智能决策的基本方案,即基于智能群体个体的动态环境、约束条件与目标条件,可以得到一系列个体行为的行为决策域,利用模糊决策理论,通过预设个体行为的多个评价指标,对每个决策域中的行为按给出的评价指标进行模糊综合评价,将得到的模糊评语进行量化,计算各行为的优先度,根据优先度大小,选择出最优行为,得到第一输出决策。
S32、基于仿生群体社会性决策方法;
具体地,参照图4,针对智能集群系统协同行为决策问题,借鉴生物集群信息共享模式,实现多个体间的信息共享和交互获取个体身份、状态及协同能力和需求,以仿生生物行为规则集作为协同行为的设计原则,结合集群所处环境的态势状况,利用神经网络算法技术,构建智能集群群体社会性决策方法,实现智能集群协同行为方案的自主智能决策,即基于群体行为决策问题,将协同需求、环境态势、仿生行为规则集以及自我状态的感知作为输入,使用神经网络算法,通过构建三层神经网络和预设激励函数,通过训练,调节隐含层和输出层的权重和偏置,得到激励函数得分最高的协同行为作为智能群体协同行为方案,得到第二输出决策。
S33、基于分布式自主规划使命任务决策方法;
具体地,参照图5,作为智能集群系统行为决策的顶层设计,首先将使命任务作为总输入,以使命意图、周围环境动态变化、通信拓扑结构和仿生生物的行为特征等作为输入规则集,在任务载荷资源约束、耦合时序约束、任务耦合关系约束及执行窗口约束条件下,开展使命任务动态分配方法研究,以提高对动态任务场景的适用性,在完成任务动态分配后,以集群态势感知获得的群体状态和个体状态作为输入,建立智能集群的自主决策模型,开展在线自主决策器设计,实现决策器的训练和策略提升等功能,最后,对智能集群的自主决策器输出结果进行评估与分析,建立相应的规则、权重系数以及指标体系模型,通过综合评判策略,依据当前的使命任务,自主决策智能集群系统应当采用何种仿生生物集群协同行为集去实现使命任务,即根据设计结果,将仿生生物对应的规则、使命意图和预设的评价指标体系按照多目标任务规划方法进行计算,建立权重系数,得到智能群体全局最优行为,得到第三输出决策。
S4、对同一时刻不同层次的多种决策指令进行融合,输出决策指令;
具体地,参照图6,智能集群中的单个智能体,通过任务需求输入、自组织网络态势输入和环境感知,相应的得出个体对于任务、协同、自身的三层次行为决策,在各个需求和决策下,这些决策很有可能层次不一、相互矛盾,智能个体很难综合给出解决不同层次问题的决策指令,通过决策输出集的分解与匹配实现不同层次决策向基本行为集的映射,最终得出所有层次决策所需输出的决策行为输出集,在众多需要输出的决策基础上,利用神经网络分类器进行多决策切换,从而得到当前个体应该执行的具体行为,最后再根据自组网共享的集群态势信息和自身行为,其中所述自组网共享的集群态势信息来源于智能群体局部之间会相互进行感知的信息以及个体状态信息的交换,预测群体行为,进行一致性检测,从而实现整体行为的一致性修正,确保整体趋于一致性,即利用所述决策行为输出集,训练获得最终三层决策模型,该方法包括局部神经网络模型,根据所述决策行为输出集,利用神经网络分类器进行多决策切换,训练得到最终个体具体执行行为。
S5、基于智能群体三层决策方法和Agent建模方法,构建最终决策控制模型。
具体地,参照图7,利用信息知识层外挂的Agent模型及其建模方法对多Agent进行建模,所述Agent建模方法具体为把对环境的感知和通信数据以及输入指令作为感知输入信息,利用构建的三层自主决策方法作为反应逻辑,根据感知信息和反应逻辑决定对外部环境采取的动作,通过行为执行器完成所需要的动作,构建如图8所示的个体单元Agent,这些个体单元Agent根据所述最终决策控制模型,进行相互协同配合,每个Agent模型都使用三层决策机制,并拥有人机接口以及信息通信数据接口,人机接口接受外部指挥控制人员的配置和输入,通信数据接口建立不同Agent之间的信息共享和交互并接受指挥控制站系统发出的指挥控制指令。
参照图2,一种复杂环境下多智能体层次化自主决策系统,包括:
获取模块,用于获取预设的初始决策控制模型与预设的决策控制训练集;
训练模块,用于通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集;
构建模块,用于根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型;
决策模块,用于根据所述最终决策控制模型,通过Agent建模方法对所述智能群体的群体交互进行决策控制。
本发明的具体工程领域的应用为,在多无人机协同侦察场景,使命任务是实现对某一区域的侦察,需要对各无人机进行线路规划,实现对侦察区域较好的侦察效果;因此,根据使命任务,无人机集群需要做出全局的规划,使无人机集群在使命意图和自身状态等的约束下做出较优效果的使命决策,获得整体无人机集群的侦察方式和侦察路径;在局部侦察的过程中,可能出现无人机故障、损坏或者发现高价值目标信息等情况,需要对局部区域内的无人机群体进行交互,通过无人机群体信息交会以及状态和仿生行为规则约束,做出局部无人机群体的协同配合方式,改变局部无人机群体的侦察路径;个体无人机在侦查过程中,可能遇到障碍或者重点目标时,需要根据具体情况做出自主性判断是否需要规避或者抵近侦察等行为;
在整体上,无人机集群需要按照全局规划的路径侦察;在局部上,无人机群体需要实现相互协同侦察;在个体上,无人机个体需要保证自身安全;由于在三个层面上可能存在行为上的冲突,因此,需要三层自主决策方法,实现对整个无人机集群的控制,使侦察任务能够顺利、高效完成。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种复杂环境下多智能体层次化自主决策方法,其特征在于,在多无人机协同侦察场景中,对各无人机进行线路规划,包括以下步骤:
获取预设的初始决策控制模型与预设的决策控制训练集,所述预设的初始决策控制模型其具体包括自主性决策层、社会性决策层和使命决策层;
通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集;
根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型;
根据所述最终决策控制模型,通过Agent建模方法对智能群体的群体交互进行决策控制;
所述通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集这一步骤,其具体包括:
将预设的决策控制训练集输入至预设的初始决策控制模型;
基于自主性决策层,通过智能学习个体自主性决策方法对输入的智能群体的个体行为的奖励进行决策,得到第一输出决策;
基于社会性决策层,通过仿生群体社会性决策方法对输入的智能群体的各类型仿生生物行为规则进行决策,得到第二输出决策;
基于使命决策层,通过分布式自主规划使命任务决策方法对输入的智能群体的使命意图、通信拓扑结构和仿生生物行为特征进行决策,得到第三输出决策;
将第一输出决策、第二输出决策与第三输出决策进行融合修正,得到决策行为输出集。
2.根据权利要求1所述一种复杂环境下多智能体层次化自主决策方法,其特征在于,所述预设的初始决策控制模型包括:
自主性决策层,对智能群体的个体行为进行决策以获得职能群体的个体利益最大化值;
社会性决策层,根据智能群体的群体交互行为规则进行决策以获得智能群体的协同行为方案及个体协同行为执行序列;
使命决策层,根据智能群体的群体交互使命任务进行决策以获得智能群体的仿生生物类型和对应的个体行为。
3.根据权利要求2所述一种复杂环境下多智能体层次化自主决策方法,其特征在于,所述预设的决策控制训练集其具体包括智能群体的个体行为的奖励、智能群体的各类型仿生生物行为规则、智能群体的使命意图、通信拓扑结构和仿生生物行为特征。
4.根据权利要求1所述一种复杂环境下多智能体层次化自主决策方法,其特征在于,所述基于自主性决策层,通过智能学习个体自主性决策方法对输入的智能群体的个体行为的奖励进行决策,得到第一输出决策这一步骤,其具体包括:
将智能群体的个体行为的奖励输入至自主性决策层;
确定环境因素,所述环境因素为智能群体个体通过感知器感知自身的环境因素,并通过共享模式与智能群体的进行环境信息交互;
基于环境因素,通过强化学习方法对智能群体的个体进行感知处理,获取智能群体个体的动态环境;
确定约束条件与目标条件,所述约束条件为智能群体的个体安全,所述目标条件为智能群体的个体利益最大化;
基于智能群体个体的动态环境、约束条件与目标条件,通过模糊决策理论对智能群体的个体行为进行决策推理,得到第一输出决策。
5.根据权利要求1所述一种复杂环境下多智能体层次化自主决策方法,其特征在于,所述基于社会性决策层,通过仿生群体社会性决策方法对输入的智能群体的各类型仿生生物行为规则进行决策,得到第二输出决策这一步骤,其具体包括:
将智能群体的各类型仿生生物行为规则输入至社会性决策层;
确定行为决策问题,所述行为决策问题为智能群体的个体信息交互身份、状态、协同能力及需求;
基于行为决策问题,通过神经网络算法对智能群体的各类型仿生生物行为规则进行群体决策处理,得到第二输出决策。
6.根据权利要求1所述一种复杂环境下多智能体层次化自主决策方法,其特征在于,所述基于使命决策层,通过分布式自主规划使命任务决策方法对输入的智能群体的使命意图、通信拓扑结构和仿生生物行为特征进行决策,得到第三输出决策这一步骤,其具体包括:
将智能群体的使命意图、通信拓扑结构和仿生生物行为特征输入至使命决策层;
确定任务约束条件,所述任务约束条件为载荷资源约束、耦合时序约束、任务耦合关系约束及执行窗口约束;
基于任务约束条件,通过使命任务动态分配方法对输入的智能群体的使命意图、通信拓扑结构和仿生生物行为特征进行分配处理,得到分配结果;
根据分配结果对智能群体状态与个体状态进行自主决策设计,得到设计结果;
根据设计结果,建立对应的规则、权重系数与指标体系并进行评判,得到第三输出决策。
7.根据权利要求6所述一种复杂环境下多智能体层次化自主决策方法,其特征在于,所述根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型这一步骤,其具体包括:
对第一输出决策、第二输出决策与第三输出决策向对应的行为集进行映射处理,得到对应的行为决策;
通过神经网络分类器对行为决策进行多决策切换处理,得到智能群体个体对应的执行行为;
结合智能群体个体对应的执行行为与自组网共享的集群态势信息并进行预测,得到预测智能群体行为;
对预测智能群体行为进行一致性修正处理,得到决策行为输出集;
根据决策行为输出集执行具体的决策动作,并构建最终决策控制模型。
8.一种复杂环境下多智能体层次化自主决策系统,其特征在于,用于执行如权利要求1所述的复杂环境下多智能体层次化自主决策方法,包括以下模块:
获取模块,用于获取预设的初始决策控制模型与预设的决策控制训练集;
训练模块,用于通过所述预设的决策控制训练集对预设的初始决策控制模型进行训练,得到决策行为输出集;
构建模块,用于根据决策行为输出集,通过神经网络分类器进行多决策切换、融合与执行,构建最终决策控制模型;
决策模块,用于根据所述最终决策控制模型,通过Agent建模方法对智能群体的群体交互进行决策控制。
CN202211581414.9A 2022-12-09 2022-12-09 一种复杂环境下多智能体层次化自主决策方法及系统 Active CN115840892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211581414.9A CN115840892B (zh) 2022-12-09 2022-12-09 一种复杂环境下多智能体层次化自主决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211581414.9A CN115840892B (zh) 2022-12-09 2022-12-09 一种复杂环境下多智能体层次化自主决策方法及系统

Publications (2)

Publication Number Publication Date
CN115840892A CN115840892A (zh) 2023-03-24
CN115840892B true CN115840892B (zh) 2024-04-19

Family

ID=85578386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211581414.9A Active CN115840892B (zh) 2022-12-09 2022-12-09 一种复杂环境下多智能体层次化自主决策方法及系统

Country Status (1)

Country Link
CN (1) CN115840892B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371812A (zh) * 2023-10-12 2024-01-09 中山大学 一种飞行器群协同决策生成方法、系统和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726903A (zh) * 2018-12-19 2019-05-07 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
CN112990485A (zh) * 2021-04-21 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的知识策略选择方法与装置
CN113037857A (zh) * 2021-03-23 2021-06-25 中国科学院自动化研究所 面向云环境的多机器人协同感知服务系统、方法及设备
CN114091610A (zh) * 2021-11-25 2022-02-25 中国联合网络通信集团有限公司 智能决策方法及装置
CN114298244A (zh) * 2021-12-31 2022-04-08 中山大学 一种智能体群体交互的决策控制方法、装置及系统
CN114330651A (zh) * 2021-12-14 2022-04-12 中国运载火箭技术研究院 面向多要素联合指控的分层多智能体增强学习方法
CN114492735A (zh) * 2021-12-30 2022-05-13 北京理工大学 一种无人机集群过程行为建模与协同优化方法及系统
CN115291625A (zh) * 2022-07-15 2022-11-04 同济大学 基于多智能体分层强化学习的多无人机空战决策方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726903A (zh) * 2018-12-19 2019-05-07 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
CN113037857A (zh) * 2021-03-23 2021-06-25 中国科学院自动化研究所 面向云环境的多机器人协同感知服务系统、方法及设备
CN112990485A (zh) * 2021-04-21 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的知识策略选择方法与装置
CN114091610A (zh) * 2021-11-25 2022-02-25 中国联合网络通信集团有限公司 智能决策方法及装置
CN114330651A (zh) * 2021-12-14 2022-04-12 中国运载火箭技术研究院 面向多要素联合指控的分层多智能体增强学习方法
CN114492735A (zh) * 2021-12-30 2022-05-13 北京理工大学 一种无人机集群过程行为建模与协同优化方法及系统
CN114298244A (zh) * 2021-12-31 2022-04-08 中山大学 一种智能体群体交互的决策控制方法、装置及系统
CN115291625A (zh) * 2022-07-15 2022-11-04 同济大学 基于多智能体分层强化学习的多无人机空战决策方法

Also Published As

Publication number Publication date
CN115840892A (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Abdoos et al. Holonic multi-agent system for traffic signals control
CN102215260B (zh) 一种具有连通性保持的多智能体系统协同控制方法
Yan et al. Task allocation and route planning of multiple UAVs in a marine environment based on an improved particle swarm optimization algorithm
CN106096911B (zh) 一种基于角色的有人/无人协同指挥控制系统及其方法
CN115840892B (zh) 一种复杂环境下多智能体层次化自主决策方法及系统
CN113743479B (zh) 端-边-云车路协同融合感知架构及其构建方法
CN110288160A (zh) 一种基于平行仿真的态势动态预测方法
CN112801539A (zh) 无人机集群任务的柔变网络架构动态调度模型
Huang et al. A novel hybrid discrete grey wolf optimizer algorithm for multi-UAV path planning
Tan et al. Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map
Hua et al. Research on many-to-many target assignment for unmanned aerial vehicle swarm in three-dimensional scenarios
Shen et al. An AI‐based virtual simulation experimental teaching system in space engineering education
Zhao et al. A multi-robot cooperative exploration algorithm considering working efficiency and working load
CN117454926A (zh) 仿生行为范式驱动的无人集群系统演化与反馈进化方法
Zhang et al. An improved particle swarm optimization based on age factor for multi-AUV cooperative planning
Panov Simultaneous learning and planning in a hierarchical control system for a cognitive agent
CN100578538C (zh) 基于层次图组织与变换的虚拟环境群体对象行为演化方法
Chen et al. Survey of multi-agent strategy based on reinforcement learning
Dagli et al. Understanding behavior of system of systems through computational intelligence techniques
CN115187056A (zh) 一种考虑公平性原则的多智能体协同资源分配方法
Yu et al. A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment
Rathore et al. Intelligent decision making in autonomous vehicles using cognition aided reinforcement learning
Wang et al. A method of UAV formation transformation based on reinforcement learning multi-agent
Chen et al. Semantic Interaction Strategy of Multiagent System in Large-Scale Intelligent Sensor Network Environment
CN113836781B (zh) 面向个性化定制模式的大规模机器人群智协同决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yang Xuerong

Inventor after: Yun Chaoming

Inventor after: Tong Pengfei

Inventor after: Li Jiaxuan

Inventor after: Wang Longfei

Inventor after: Liu Xianglin

Inventor after: Yuan Ranhui

Inventor after: Wu Peiyi

Inventor before: Yang Xuerong

Inventor before: Yun Chaoming

Inventor before: Tong Pengfei

Inventor before: Li Jiaxuan

Inventor before: Wang Longfei

Inventor before: Liu Xianglin

Inventor before: Yuan Ranhui

Inventor before: Wu Peiyi

GR01 Patent grant
GR01 Patent grant