CN116340737A - 基于多智能体强化学习的异构集群零通信目标分配方法 - Google Patents

基于多智能体强化学习的异构集群零通信目标分配方法 Download PDF

Info

Publication number
CN116340737A
CN116340737A CN202310215078.4A CN202310215078A CN116340737A CN 116340737 A CN116340737 A CN 116340737A CN 202310215078 A CN202310215078 A CN 202310215078A CN 116340737 A CN116340737 A CN 116340737A
Authority
CN
China
Prior art keywords
red
rewards
cluster
reinforcement learning
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310215078.4A
Other languages
English (en)
Inventor
李博遥
唐平
路鹰
王振亚
阎岩
范佳宣
任金磊
张佳
鹿明
谢海东
陈远清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aerospace Science And Technology Innovation Research Institute
Original Assignee
China Aerospace Science And Technology Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aerospace Science And Technology Innovation Research Institute filed Critical China Aerospace Science And Technology Innovation Research Institute
Priority to CN202310215078.4A priority Critical patent/CN116340737A/zh
Publication of CN116340737A publication Critical patent/CN116340737A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多智能体强化学习的异构集群零通信目标分配方法,包括步骤如下:针对红蓝方对抗场景,考虑红方单元能力约束,采用聚类算法预先生成红方各集群编队的编队待分配目标;建立多智能体强化学习模型,实现面向异构集群的智能协同决策建模;以团队全局任务奖励为基准,利用红方单元机动、毁伤能力等先验知识构建的各单元具体动作预测奖励作为反馈信息,构建奖励函数;构建多种训练场景想定,利用奖励函数通过海量模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练。本发明解决了现有技术中存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。

Description

基于多智能体强化学习的异构集群零通信目标分配方法
技术领域
本发明属于人工智能技术群体协同领域,特别涉及一种基于多智能体强化学习的异构集群零通信目标分配方法。
背景技术
如何利用人工智能技术使机器达到优秀指挥员的认知与决策水平,是智能化指挥控制研究面临的重大理论与技术难题,是一项现实而紧迫的任务,一旦突破将起着不可估量的作用。
多智能体深度强化学习是将多智能体的协作能力与强化学习的决策能力相结合以解决集群多单元的协同决策问题,是机器学习领域的一个新兴的研究热点和应用方向,其涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。国外相关研究机构对多智能体深度强化学习已开展了一些前期基础技术研究,国内对该项技术尤其是其在军事指挥领域中的应用相关研究工作目前还刚刚开始。
当前智能决策算法大多采用基于优化和基于先验知识的方法,针对通信受限条件下红蓝方对抗场景的多单元动态优化问题,存在协同决策任务难度高、效率低、环境适应性差等问题。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提出一种基于多智能体强化学习的异构集群零通信目标分配方法,解决了现有技术中存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。
本发明的技术解决方案是:一种基于多智能体强化学习的异构集群零通信目标分配方法,包括:
搭建红蓝方对抗场景,根据红方单元能力约束,预先生成红方各集群编队的编队待分配目标;
建立多智能体强化学习模型,进行面向异构集群的智能协同决策建模;
以团队全局任务奖励为基准,利用红方先验知识构建的各单元具体动作预测奖励作为反馈信息,构建奖励函数;
构建多种训练场景想定,利用奖励函数通过模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练,将多智能体强化学习模型参数加载至红方集群各单元,执行集群协同目标分配任务。
进一步的,采用聚类算法预先生成红方各集群编队的待分配目标,包括:
搭建红蓝方对抗场景,随机选择蓝方分布区域内k个位置作为初始聚类中心,以红方编队内异构单元最大机动能力作为阈值,将蓝方所有目标划分为k个子集,各子集内样本作为红方k个集群编队的编队待分配目标,k为正整数。
进一步的,所述建立多智能体强化学习模型,包括:
将集群目标分配单次决策问题转换为多单元的时序决策问题,建立任务决策点之间的时间序列相关性;
对红蓝方对抗场景中的任务特性和决策点进行分析,确定协同任务决策点的状态空间;
根据协同任务决策点,对红方集群建立多智能体强化学习模型,每个单元建模为一个智能体网络,进行面向红蓝方对抗推演场景的时序任务决策。
进一步的,所述将集群目标分配单次决策问题转换为多单元时序决策问题,包括:
将多个单元对多个目标的单次同步分配问题转换为每个时间步仅执行集群内一个智能体目标分配的时序决策问题,决策序列步长即为红方集群内的智能体数量,将问题设置为马尔科夫过程。
进一步的,所述构建奖励函数,包括:
根据任务决策序列的终止时刻态势信息,计算全局任务奖励Rtask
根据集群各智能体的分配动作,根据红方先验知识,包括红方单元机动、毁伤能力,预测红方每个单元的动作奖励Ri;i表示红方单元的序号,i=1,2,3,……
根据全局任务奖励Rtask和每个智能体的预测动作奖励Ri,计算红蓝方博弈对抗场景中红方集群各智能体的协同任务决策反馈信息Ragenti
进一步的,所述全局任务奖励Rtask包括两类:
目标覆盖奖励,指红方集群各智能体分配结果覆盖蓝方所有目标;
非必要重复分配奖励,指终止时刻蓝方所有目标的毁伤效果均达到任务要求;
目标覆盖奖励和非必要重复分配奖励均为double值,数值分布区间不同。
进一步的,所述红方每个单元的预测动作奖励Ri包括三类:
毁伤奖励,根据红方单元初始目标航路点和分配的蓝方目标位置,估算得到红方智能体对蓝方目标的毁伤值,为正奖励;
可达性奖励,指红方智能体与分配的蓝方目标距离超出其最大机动能力约束,为负奖励;
重复分配奖励,指蓝方目标被红方集群过度毁伤,为负奖励;
毁伤奖励、可达性奖励和重复分配奖励均为double值,数值分布区间不同。
进一步的,所述红蓝方博弈对抗场景中红方集群各智能体的协同任务决策反馈信息Ragenti的计算公式为:
Figure SMS_1
其中,η表示团队全局任务奖励的重要程度,η=0表示各单元只考虑自身动作带来的收益,η=1表示只考虑团队整体收益。
进一步的,所述利用奖励函数通过模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型的训练,包括:
以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库;
每隔设定的训练周期,随机选择一组参数配置蓝方想定;
在每个回合迭代训练中,从经验池内优先选择采样概率高的样本数据,对多智能体强化学习模型进行训练。
进一步的,所述样本数据的采样概率计算公式为:
Figure SMS_2
其中,pj=|δj|+ε表示第j个样本的优先级,δj表示第j个样本的时序差分误差,ε表示随机噪声,防止采样概率为0,α用于调节优先程度,P(j)为第j个样本数据的采样概率;pk表示第k个样本的优先级,j=1,2,3,...,m,k=1,2,3,...,m,m为样本总数。
与现有技术相比,本发明具有如下有益效果:
(1)本发明将集群目标分配单次决策问题转换为满足马尔科夫过程的多单元的时序决策问题,为多智能体强化学习方法解决零通信分布式目标分配问题提供先决条件;
(2)本发明利用聚类算法预先对红方各集群编队进行目标分配,可有效降低具有较大搜索空间的多单元多目标分配场景下的负样本数量,实现多智能体强化学习智能模型的快速优化收敛;
(3)本发明利用红方单元机动、毁伤能力等先验知识构建集群各智能体具体动作奖励,实时计算协同决策模型各智能体的动作反馈,解决多智能体强化学习中的信度分配难题,提升智能模型的训练效率;
(4)本发明以蓝方目标数量、部署阵型、毁伤能力等为因子构建场景想定库,采用海量模拟推演完成红方多智能体强化学习模型的训练,通过增加目标分配任务难度及多样性,可有效提升协同决策模型的场景泛化能力。
附图说明
图1为本发明方法流程图;
图2为本发明的基于聚类的编队目标分配示意图;
图3为本发明的模型结构图。
具体实施方式
本发明提出一种基于多智能体强化学习的异构集群零通信目标分配方法,如图1所示,步骤包括:
第一步,针对红蓝方对抗场景,考虑红方单元能力约束,采用聚类算法预先生成红方各集群编队的编队待分配目标。
确定红方各集群编队待分配目标的方法为:
搭建红蓝方对抗场景,随机选择蓝方分布区域内k个位置作为初始聚类中心,以红方编队内异构单元最大机动能力作为阈值,将蓝方所有目标划分为k个子集,各子集内样本即为红方k个集群编队的编队待分配目标,如图2所示,k为正整数。
第二步,建立多智能体强化学习模型,实现面向异构集群的智能协同决策建模。
多智能体强化学习模型的构建过程如下:
(2.1)将集群目标分配单次决策问题转换为多单元的时序决策问题,建立任务决策点之间的时间序列相关性;
转换为多单元时序决策问题的具体方法为:
将多个单元对多个目标的单次同步分配问题转换为每个时间步仅执行集群内一个智能体目标分配的时序决策问题,决策序列步长即为红方集群内的智能体数量,将问题设置为马尔科夫过程。
(2.2)对红蓝方对抗场景中的任务特性和决策点进行分析,确定协同任务决策点的状态空间;
(2.3)针对协同任务决策点,对红方集群建立多智能体强化学习模型,每个单元建模为一个智能体网络,实现面向红蓝方对抗推演场景的时序任务决策。
第三步,以团队全局任务奖励为基准,利用红方单元机动、毁伤能力等先验知识构建的各单元具体动作预测奖励作为反馈信息,构建奖励函数。
构建奖励函数的方法为:
(3.1)根据任务决策序列的终止时刻态势信息,计算全局任务奖励Rtask
全局任务奖励Rtask包括两类,分别为:
目标覆盖奖励,指红方集群各智能体分配结果覆盖蓝方所有目标;
非必要重复分配奖励,指终止时刻蓝方所有目标的毁伤效果均达到任务要求;
目标覆盖奖励和非必要重复分配奖励均为double值,数值分布区间不同。
(3.2)根据集群各智能体的分配动作,基于红方单元机动、毁伤能力等先验知识预测每个单元的动作奖励Ri;i表示红方单元的序号,i=1,2,3,……
红方每个单元的预测动作奖励Ri包括三类,分别为:
毁伤奖励,根据红方单元初始目标航路点和分配的蓝方目标位置,估算得到红方智能体对蓝方目标的毁伤值,为正奖励;
可达性奖励,指红方智能体与分配的蓝方目标距离超出其最大机动能力约束,为负奖励;
重复分配奖励,指蓝方目标被红方集群过度毁伤,为负奖励;
毁伤奖励、可达性奖励和重复分配奖励均为double值,数值分布区间不同。
(3.3)根据全局任务奖励Rtask和每个智能体的预测动作奖励Ri,计算红蓝方对抗场景中红方各单元的协同任务决策反馈信息
Figure SMS_3
Figure SMS_4
的计算公式为:
Figure SMS_5
其中,η表示团队全局任务奖励的重要程度,η=0表示各单元只考虑自身动作带来的收益,η=1表示只考虑团队整体收益。
第四步,构建多种训练场景想定,利用奖励函数通过海量模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练,将多智能体强化学习模型参数加载至红方集群各单元,执行集群协同目标分配任务。
多智能体强化学习模型的训练过程如下:
(4.1)以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库;
(4.2)每隔设定的训练周期,随机选择一组参数配置蓝方想定;
(4.3)在每个回合迭代训练中,从经验池内优先选择采样概率高的样本数据,对多智能体强化学习模型进行训练。
训练样本采样概率的计算公式为:
Figure SMS_6
令pj=|δj|+ε表示第j个样本的优先级,δj表示第j个样本的时序差分误差(td-error),ε表示随机噪声,防止采样概率为0,α用于调节优先程度(α=0时表示均匀采样),P(j)为第j个样本数据的采样概率;pk表示第k个样本的优先级,j=1,2,3,...,m,k=1,2,3,...,m,m为样本总数。
本发明场景是一个单次决策问题,为了解决零通信交互下的任务协同性,本发明将问题转换为满足马尔科夫过程的多单元的时序决策问题,运用多智能体强化学习,先对每个集群单元进行强化学习建模,再进行集中式训练。
多智能体强化学习模型的算法框架如图3所示。该模型以DQN算法模型为基础构建,可以解决离散动作空间上的序列决策问题。模型包括评估值函数网络Q和目标值函数网络
Figure SMS_7
两个网络的结构和初始参数完全相同,其中评估网络的参数随训练过程实时更新,目标网络的参数在步长C内保持不变,每经过C步长后将评估网络的参数复制给目标网络。评估值函数网络拟合智能体的动作值函数Q(s,a),表示当前时刻状态s下采取动作a的价值;目标值函数网络拟合智能体的动作值函数/>
Figure SMS_8
表示下一时刻状态s′下采取动作a′的价值。
同时本发明采用基于优先级的训练样本采样机制提高智能模型训练效率,并结合团队全局任务奖励和各单元具体动作预测奖励构建反馈值,提高多智能体强化学习模型的收敛速度和协同效果。
多智能体强化学习模型的智能体状态输入包括同编队内红方单元编号、编队初始目标航路点、编队待分配目标位置及生命值,动作输出为各目标的分配动作值函数,决策步数即为红方集群内同一类型的单元数量。本场景中希望能够在有限时间的前提下,通过神经网络训练建立状态到动作的映射关系,利用多智能体强化学习方法在线快速生成目标分配方案。
多智能体强化学习模型训练算法的具体步骤如下:
1)初始化各评估值函数网络
Figure SMS_9
和目标值函数网络/>
Figure SMS_10
以及经验池Bi,目标网络是评估网络的复制,/>
Figure SMS_11
为评估网络权重参数,/>
Figure SMS_12
为目标网络权重参数;i=1,2,3,……
2)选取各智能体当前状态的动作:以ε概率随机选择分配动作,以1-ε概率选择动作值函数最大的动作,即
Figure SMS_13
ε用于控制智能体的探索能力;
3)执行动作获得各智能体对应的奖励值,并且将状态-动作转换数据(St,At,Rt,St+1)存入经验池;
St表示t时刻的状态,At表示t时刻的动作,Rt表示t时刻智能体的反馈,St+1表示t+1时刻的状态。
4)当经验池的样本量达到一定数量后,利用优先级采样机制(基于td-error的采样概率选取样本),用于模型训练。各智能体评估值函数网络的损失函数L计算公式如下:
Figure SMS_14
E[]表示期望函数;
Figure SMS_15
表示第i个智能体第t时刻的奖励值;γ表示衰减因子,0≤γ≤1。
本发明在模型训练样本采样过程中,对经验池内存储的样本数据进行优先级排序,以增加有价值样本被采样的概率,提高训练效率。利用td-error作为样本重要性的衡量指标,其值越高表明评估网络的动作价值估计值与动作价值目标值的差距越大,训练样本越有价值。
本发明场景存在回报稀疏、回报滞后、各智能体贡献度难以分配等问题,导致多智能体强化学习模型训练较难收敛,按照本发明的方法,利用红方单元机动、毁伤能力等先验知识,根据红方单元初始目标航路点和分配的蓝方目标位置,估算得到红方各智能体动作的预测奖励,将其与全局任务奖励结合用于模型训练。
红蓝方对抗场景中智能策略模型的训练与场景泛化能力提升需要数据驱动,本发明通过模拟对抗推演过程,快速获取训练样本提高策略模型学习效率,完成红方多智能体强化学习模型的决策能力进化。训练方法的具体步骤如下:
1)模型训练开始前,以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库;
2)每隔一定训练周期,从场景想定库中随机选择一组参数配置蓝方想定;
3)在仿真平台中通过红蓝双方对抗推演生成训练数据,用于模型迭代训练;
4)循环重复步骤2)至4),实现对抗场景下的智能模型进化训练。
在红蓝方对抗推演仿真平台中,以零通信条件下红方集群毁伤蓝方全部目标的协同目标分配能力为基础,对本发明方法进行验证,试验流程如下:
1)设定合适的红蓝方对抗场景;
2)通过模拟对抗,实现多智能体强化学习模型的训练,并验证红方异构集群协同目标分配模型对典型场景的适应性,若模型训练未收敛,则调整参数并重新训练,直至模型收敛进入下一步骤;
3)在随机场景想定下,对本发明方法进行验证试验;
4)在与步骤3)同样的典型场景下,红方各单元采用单智能体强化学习模型,待模型训练收敛后,对模型进行验证试验;
5)在与步骤3)同样的典型场景下,取消聚类算法,直接利用多智能体强化学习模型对蓝方所有目标进行分配,开展该模型的训练及验证试验;
6)将步骤3)、步骤4)和步骤5)的试验结果进行统计对比分析,发现本发明能够很好地解决传统优化方法存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。
本发明针对零通信条件下红方集群任务规划要求,利用多智能体强化学习模型,对红蓝方对抗推演场景中,红方集群的协同目标分配序列进行决策;将目标分配单次决策问题转换为满足马尔科夫过程的多单元时序决策问题,为多智能体强化学习方法解决零通信分布式目标分配问题提供先决条件;利用聚类算法预先生成红方各集群编队待分配目标,降低动作搜索空间,实现智能模型快速收敛;利用先验知识构建集群各智能体动作预测奖励,结合团队全局任务奖励作为评价参数,以该参数作为反馈可以有效提升智能模型的训练效率;以蓝方目标数量、部署阵型、毁伤能力等为因子构建场景想定库,通过海量对抗推演提升协同决策模型的场景泛化能力;在红蓝方博弈对抗推演仿真平台中,以零通信条件下红方集群毁伤蓝方全部目标的协同目标分配能力为基础验证了本发明的有效性。本发明解决了现有技术中存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。
本发明说明书中未作详细描述的内容属于本领域技术人员的公知技术。

Claims (10)

1.一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于,包括:
搭建红蓝方对抗场景,根据红方单元能力约束,预先生成红方各集群编队的编队待分配目标;
建立多智能体强化学习模型,进行面向异构集群的智能协同决策建模;
以团队全局任务奖励为基准,利用红方先验知识构建的各单元具体动作预测奖励作为反馈信息,构建奖励函数;
构建多种训练场景想定,利用奖励函数通过模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练,将多智能体强化学习模型参数加载至红方集群各单元,执行集群协同目标分配任务。
2.根据权利要求1所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:采用聚类算法预先生成红方各集群编队的待分配目标,包括:
搭建红蓝方对抗场景,随机选择蓝方分布区域内k个位置作为初始聚类中心,以红方编队内异构单元最大机动能力作为阈值,将蓝方所有目标划分为k个子集,各子集内样本作为红方k个集群编队的编队待分配目标,k为正整数。
3.根据权利要求1所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述建立多智能体强化学习模型,包括:
将集群目标分配单次决策问题转换为多单元的时序决策问题,建立任务决策点之间的时间序列相关性;
对红蓝方对抗场景中的任务特性和决策点进行分析,确定协同任务决策点的状态空间;
根据协同任务决策点,对红方集群建立多智能体强化学习模型,每个单元建模为一个智能体网络,进行面向红蓝方对抗推演场景的时序任务决策。
4.根据权利要求3所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述将集群目标分配单次决策问题转换为多单元时序决策问题,包括:
将多个单元对多个目标的单次同步分配问题转换为每个时间步仅执行集群内一个智能体目标分配的时序决策问题,决策序列步长即为红方集群内的智能体数量,将问题设置为马尔科夫过程。
5.根据权利要求1所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述构建奖励函数,包括:
根据任务决策序列的终止时刻态势信息,计算全局任务奖励Rtask
根据集群各智能体的分配动作,根据红方先验知识,包括红方单元机动、毁伤能力,预测红方每个单元的动作奖励Ri;i表示红方单元的序号,i=1,2,3,……
根据全局任务奖励Rtask和每个智能体的预测动作奖励Ri,计算红蓝方博弈对抗场景中红方集群各智能体的协同任务决策反馈信息
Figure FDA0004114626600000021
6.根据权利要求5所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述全局任务奖励Rtask包括两类:
目标覆盖奖励,指红方集群各智能体分配结果覆盖蓝方所有目标;
非必要重复分配奖励,指终止时刻蓝方所有目标的毁伤效果均达到任务要求;
目标覆盖奖励和非必要重复分配奖励均为double值,数值分布区间不同。
7.根据权利要求5所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述红方每个单元的预测动作奖励Ri包括三类:
毁伤奖励,根据红方单元初始目标航路点和分配的蓝方目标位置,估算得到红方智能体对蓝方目标的毁伤值,为正奖励;
可达性奖励,指红方智能体与分配的蓝方目标距离超出其最大机动能力约束,为负奖励;
重复分配奖励,指蓝方目标被红方集群过度毁伤,为负奖励;
毁伤奖励、可达性奖励和重复分配奖励均为double值,数值分布区间不同。
8.根据权利要求5所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述红蓝方博弈对抗场景中红方集群各智能体的协同任务决策反馈信息
Figure FDA0004114626600000031
的计算公式为:
Figure FDA0004114626600000032
其中,η表示团队全局任务奖励的重要程度,η=0表示各单元只考虑自身动作带来的收益,η=1表示只考虑团队整体收益。
9.根据权利要求1所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述利用奖励函数通过模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型的训练,包括:
以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库;
每隔设定的训练周期,随机选择一组参数配置蓝方想定;
在每个回合迭代训练中,从经验池内优先选择采样概率高的样本数据,对多智能体强化学习模型进行训练。
10.根据权利要求9所述的一种基于多智能体强化学习的异构集群零通信目标分配方法,其特征在于:所述样本数据的采样概率计算公式为:
Figure FDA0004114626600000041
其中,pj=|δj|+ε表示第j个样本的优先级,δj表示第j个样本的时序差分误差,ε表示随机噪声,防止采样概率为0,α用于调节优先程度,P(j)为第j个样本数据的采样概率;pk表示第k个样本的优先级,j=1,2,3,...,m,k=1,2,3,...,m,m为样本总数。
CN202310215078.4A 2023-03-01 2023-03-01 基于多智能体强化学习的异构集群零通信目标分配方法 Pending CN116340737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310215078.4A CN116340737A (zh) 2023-03-01 2023-03-01 基于多智能体强化学习的异构集群零通信目标分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310215078.4A CN116340737A (zh) 2023-03-01 2023-03-01 基于多智能体强化学习的异构集群零通信目标分配方法

Publications (1)

Publication Number Publication Date
CN116340737A true CN116340737A (zh) 2023-06-27

Family

ID=86892264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310215078.4A Pending CN116340737A (zh) 2023-03-01 2023-03-01 基于多智能体强化学习的异构集群零通信目标分配方法

Country Status (1)

Country Link
CN (1) CN116340737A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934058A (zh) * 2023-09-18 2023-10-24 西南交通大学 一种基于多智能体强化学习的产品服务决策方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934058A (zh) * 2023-09-18 2023-10-24 西南交通大学 一种基于多智能体强化学习的产品服务决策方法
CN116934058B (zh) * 2023-09-18 2023-12-26 西南交通大学 一种基于多智能体强化学习的产品服务决策方法

Similar Documents

Publication Publication Date Title
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN110109358B (zh) 一种基于反馈的混合多智能体协同控制方法
Li et al. Adaptive learning: A new decentralized reinforcement learning approach for cooperative multiagent systems
CN111538950A (zh) 一种多无人平台干扰资源分配方法
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN106022471A (zh) 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法
CN111160511A (zh) 一种共识主动学习的群体智能方法
Tan et al. Multi-type task allocation for multiple heterogeneous unmanned surface vehicles (USVs) based on the self-organizing map
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
CN113378466A (zh) 一种基于dqn的雷达对抗智能决策方法
CN111832911A (zh) 一种基于神经网络算法的水下作战效能评估方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
Na et al. A novel heuristic artificial neural network model for urban computing
CN113902087A (zh) 一种多Agent深度强化学习算法
CN116432514A (zh) 无人机攻防博弈的拦截意图识别策略仿真系统及方法
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
CN116048071A (zh) 基于粒子群和差分进化算法的移动机器人路径规划方法
Cheng et al. Network traffic prediction algorithm research based on PSO-BP neural network
CN114298244A (zh) 一种智能体群体交互的决策控制方法、装置及系统
CN109658742B (zh) 基于前序飞行信息的密集飞行自主冲突解脱方法
CN113759929A (zh) 基于强化学习和模型预测控制的多智能体路径规划方法
Ding et al. An improved pigeon-inspired optimisation for continuous function optimisation problems
Tang et al. Dynamic scheduling for multi-level air defense with contingency situations based on Human-Intelligence collaboration
CN116755046B (zh) 一种不完美专家策略的多功能雷达干扰决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination