CN116340737A

CN116340737A - 基于多智能体强化学习的异构集群零通信目标分配方法

Info

Publication number: CN116340737A
Application number: CN202310215078.4A
Authority: CN
Inventors: 李博遥; 唐平; 路鹰; 王振亚; 阎岩; 范佳宣; 任金磊; 张佳; 鹿明; 谢海东; 陈远清
Original assignee: China Aerospace Science And Technology Innovation Research Institute
Current assignee: China Aerospace Science And Technology Innovation Research Institute
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-27

Abstract

本发明提供一种基于多智能体强化学习的异构集群零通信目标分配方法，包括步骤如下：针对红蓝方对抗场景，考虑红方单元能力约束，采用聚类算法预先生成红方各集群编队的编队待分配目标；建立多智能体强化学习模型，实现面向异构集群的智能协同决策建模；以团队全局任务奖励为基准，利用红方单元机动、毁伤能力等先验知识构建的各单元具体动作预测奖励作为反馈信息，构建奖励函数；构建多种训练场景想定，利用奖励函数通过海量模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练。本发明解决了现有技术中存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。

Description

基于多智能体强化学习的异构集群零通信目标分配方法

技术领域

本发明属于人工智能技术群体协同领域，特别涉及一种基于多智能体强化学习的异构集群零通信目标分配方法。

背景技术

如何利用人工智能技术使机器达到优秀指挥员的认知与决策水平，是智能化指挥控制研究面临的重大理论与技术难题，是一项现实而紧迫的任务，一旦突破将起着不可估量的作用。

多智能体深度强化学习是将多智能体的协作能力与强化学习的决策能力相结合以解决集群多单元的协同决策问题，是机器学习领域的一个新兴的研究热点和应用方向，其涵盖众多算法、规则、框架，并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域，具有极高的研究价值和意义。国外相关研究机构对多智能体深度强化学习已开展了一些前期基础技术研究，国内对该项技术尤其是其在军事指挥领域中的应用相关研究工作目前还刚刚开始。

当前智能决策算法大多采用基于优化和基于先验知识的方法，针对通信受限条件下红蓝方对抗场景的多单元动态优化问题，存在协同决策任务难度高、效率低、环境适应性差等问题。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提出一种基于多智能体强化学习的异构集群零通信目标分配方法，解决了现有技术中存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。

本发明的技术解决方案是：一种基于多智能体强化学习的异构集群零通信目标分配方法，包括：

搭建红蓝方对抗场景，根据红方单元能力约束，预先生成红方各集群编队的编队待分配目标；

建立多智能体强化学习模型，进行面向异构集群的智能协同决策建模；

以团队全局任务奖励为基准，利用红方先验知识构建的各单元具体动作预测奖励作为反馈信息，构建奖励函数；

构建多种训练场景想定，利用奖励函数通过模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练，将多智能体强化学习模型参数加载至红方集群各单元，执行集群协同目标分配任务。

进一步的，采用聚类算法预先生成红方各集群编队的待分配目标，包括：

搭建红蓝方对抗场景，随机选择蓝方分布区域内k个位置作为初始聚类中心，以红方编队内异构单元最大机动能力作为阈值，将蓝方所有目标划分为k个子集，各子集内样本作为红方k个集群编队的编队待分配目标，k为正整数。

进一步的，所述建立多智能体强化学习模型，包括：

将集群目标分配单次决策问题转换为多单元的时序决策问题，建立任务决策点之间的时间序列相关性；

对红蓝方对抗场景中的任务特性和决策点进行分析，确定协同任务决策点的状态空间；

根据协同任务决策点，对红方集群建立多智能体强化学习模型，每个单元建模为一个智能体网络，进行面向红蓝方对抗推演场景的时序任务决策。

进一步的，所述将集群目标分配单次决策问题转换为多单元时序决策问题，包括：

将多个单元对多个目标的单次同步分配问题转换为每个时间步仅执行集群内一个智能体目标分配的时序决策问题，决策序列步长即为红方集群内的智能体数量，将问题设置为马尔科夫过程。

进一步的，所述构建奖励函数，包括：

根据任务决策序列的终止时刻态势信息，计算全局任务奖励R_task；

根据集群各智能体的分配动作，根据红方先验知识，包括红方单元机动、毁伤能力，预测红方每个单元的动作奖励R_i；i表示红方单元的序号，i＝1,2,3,……

根据全局任务奖励R_task和每个智能体的预测动作奖励R_i，计算红蓝方博弈对抗场景中红方集群各智能体的协同任务决策反馈信息R_agenti。

进一步的，所述全局任务奖励R_task包括两类：

目标覆盖奖励，指红方集群各智能体分配结果覆盖蓝方所有目标；

非必要重复分配奖励，指终止时刻蓝方所有目标的毁伤效果均达到任务要求；

目标覆盖奖励和非必要重复分配奖励均为double值，数值分布区间不同。

进一步的，所述红方每个单元的预测动作奖励R_i包括三类：

毁伤奖励，根据红方单元初始目标航路点和分配的蓝方目标位置，估算得到红方智能体对蓝方目标的毁伤值，为正奖励；

可达性奖励，指红方智能体与分配的蓝方目标距离超出其最大机动能力约束，为负奖励；

重复分配奖励，指蓝方目标被红方集群过度毁伤，为负奖励；

毁伤奖励、可达性奖励和重复分配奖励均为double值，数值分布区间不同。

进一步的，所述红蓝方博弈对抗场景中红方集群各智能体的协同任务决策反馈信息R_agenti的计算公式为：

其中，η表示团队全局任务奖励的重要程度，η＝0表示各单元只考虑自身动作带来的收益，η＝1表示只考虑团队整体收益。

进一步的，所述利用奖励函数通过模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型的训练，包括：

以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库；

每隔设定的训练周期，随机选择一组参数配置蓝方想定；

在每个回合迭代训练中，从经验池内优先选择采样概率高的样本数据，对多智能体强化学习模型进行训练。

进一步的，所述样本数据的采样概率计算公式为：

其中，p_j＝|δ_j|+ε表示第j个样本的优先级，δ_j表示第j个样本的时序差分误差，ε表示随机噪声，防止采样概率为0，α用于调节优先程度，P(j)为第j个样本数据的采样概率；p_k表示第k个样本的优先级，j＝1,2,3,...,m，k＝1,2,3,...,m，m为样本总数。

与现有技术相比，本发明具有如下有益效果：

(1)本发明将集群目标分配单次决策问题转换为满足马尔科夫过程的多单元的时序决策问题，为多智能体强化学习方法解决零通信分布式目标分配问题提供先决条件；

(2)本发明利用聚类算法预先对红方各集群编队进行目标分配，可有效降低具有较大搜索空间的多单元多目标分配场景下的负样本数量，实现多智能体强化学习智能模型的快速优化收敛；

(3)本发明利用红方单元机动、毁伤能力等先验知识构建集群各智能体具体动作奖励，实时计算协同决策模型各智能体的动作反馈，解决多智能体强化学习中的信度分配难题，提升智能模型的训练效率；

(4)本发明以蓝方目标数量、部署阵型、毁伤能力等为因子构建场景想定库，采用海量模拟推演完成红方多智能体强化学习模型的训练，通过增加目标分配任务难度及多样性，可有效提升协同决策模型的场景泛化能力。

附图说明

图1为本发明方法流程图；

图2为本发明的基于聚类的编队目标分配示意图；

图3为本发明的模型结构图。

具体实施方式

本发明提出一种基于多智能体强化学习的异构集群零通信目标分配方法，如图1所示，步骤包括：

第一步，针对红蓝方对抗场景，考虑红方单元能力约束，采用聚类算法预先生成红方各集群编队的编队待分配目标。

确定红方各集群编队待分配目标的方法为：

搭建红蓝方对抗场景，随机选择蓝方分布区域内k个位置作为初始聚类中心，以红方编队内异构单元最大机动能力作为阈值，将蓝方所有目标划分为k个子集，各子集内样本即为红方k个集群编队的编队待分配目标，如图2所示，k为正整数。

第二步，建立多智能体强化学习模型，实现面向异构集群的智能协同决策建模。

多智能体强化学习模型的构建过程如下：

(2.1)将集群目标分配单次决策问题转换为多单元的时序决策问题，建立任务决策点之间的时间序列相关性；

转换为多单元时序决策问题的具体方法为：

(2.2)对红蓝方对抗场景中的任务特性和决策点进行分析，确定协同任务决策点的状态空间；

(2.3)针对协同任务决策点，对红方集群建立多智能体强化学习模型，每个单元建模为一个智能体网络，实现面向红蓝方对抗推演场景的时序任务决策。

第三步，以团队全局任务奖励为基准，利用红方单元机动、毁伤能力等先验知识构建的各单元具体动作预测奖励作为反馈信息，构建奖励函数。

构建奖励函数的方法为：

(3.1)根据任务决策序列的终止时刻态势信息，计算全局任务奖励R_task；

全局任务奖励R_task包括两类，分别为：

(3.2)根据集群各智能体的分配动作，基于红方单元机动、毁伤能力等先验知识预测每个单元的动作奖励R_i；i表示红方单元的序号，i＝1,2,3,……

红方每个单元的预测动作奖励R_i包括三类，分别为：

(3.3)根据全局任务奖励R_task和每个智能体的预测动作奖励R_i，计算红蓝方对抗场景中红方各单元的协同任务决策反馈信息

的计算公式为：

第四步，构建多种训练场景想定，利用奖励函数通过海量模拟推演和基于优先级的训练样本采样机制对多智能体强化学习模型进行训练，将多智能体强化学习模型参数加载至红方集群各单元，执行集群协同目标分配任务。

多智能体强化学习模型的训练过程如下：

(4.1)以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库；

(4.2)每隔设定的训练周期，随机选择一组参数配置蓝方想定；

(4.3)在每个回合迭代训练中，从经验池内优先选择采样概率高的样本数据，对多智能体强化学习模型进行训练。

训练样本采样概率的计算公式为：

令p_j＝|δ_j|+ε表示第j个样本的优先级，δ_j表示第j个样本的时序差分误差(td-error)，ε表示随机噪声，防止采样概率为0，α用于调节优先程度(α＝0时表示均匀采样)，P(j)为第j个样本数据的采样概率；p_k表示第k个样本的优先级，j＝1,2,3,...,m，k＝1,2,3,...,m，m为样本总数。

本发明场景是一个单次决策问题，为了解决零通信交互下的任务协同性，本发明将问题转换为满足马尔科夫过程的多单元的时序决策问题，运用多智能体强化学习，先对每个集群单元进行强化学习建模，再进行集中式训练。

多智能体强化学习模型的算法框架如图3所示。该模型以DQN算法模型为基础构建，可以解决离散动作空间上的序列决策问题。模型包括评估值函数网络Q和目标值函数网络

两个网络的结构和初始参数完全相同，其中评估网络的参数随训练过程实时更新，目标网络的参数在步长C内保持不变，每经过C步长后将评估网络的参数复制给目标网络。评估值函数网络拟合智能体的动作值函数Q(s,a)，表示当前时刻状态s下采取动作a的价值；目标值函数网络拟合智能体的动作值函数/>

表示下一时刻状态s′下采取动作a′的价值。

同时本发明采用基于优先级的训练样本采样机制提高智能模型训练效率，并结合团队全局任务奖励和各单元具体动作预测奖励构建反馈值，提高多智能体强化学习模型的收敛速度和协同效果。

多智能体强化学习模型的智能体状态输入包括同编队内红方单元编号、编队初始目标航路点、编队待分配目标位置及生命值，动作输出为各目标的分配动作值函数，决策步数即为红方集群内同一类型的单元数量。本场景中希望能够在有限时间的前提下，通过神经网络训练建立状态到动作的映射关系，利用多智能体强化学习方法在线快速生成目标分配方案。

多智能体强化学习模型训练算法的具体步骤如下：

1)初始化各评估值函数网络

和目标值函数网络/>

以及经验池B_i，目标网络是评估网络的复制，/>

为评估网络权重参数，/>

为目标网络权重参数；i＝1，2，3，……

2)选取各智能体当前状态的动作：以ε概率随机选择分配动作，以1-ε概率选择动作值函数最大的动作，即

ε用于控制智能体的探索能力；

3)执行动作获得各智能体对应的奖励值，并且将状态-动作转换数据(S_t,A_t,R_t,S_t+1)存入经验池；

S_t表示t时刻的状态，A_t表示t时刻的动作，R_t表示t时刻智能体的反馈，S_t+1表示t+1时刻的状态。

4)当经验池的样本量达到一定数量后，利用优先级采样机制(基于td-error的采样概率选取样本)，用于模型训练。各智能体评估值函数网络的损失函数L计算公式如下：

E[]表示期望函数；

表示第i个智能体第t时刻的奖励值；γ表示衰减因子，0≤γ≤1。

本发明在模型训练样本采样过程中，对经验池内存储的样本数据进行优先级排序，以增加有价值样本被采样的概率，提高训练效率。利用td-error作为样本重要性的衡量指标，其值越高表明评估网络的动作价值估计值与动作价值目标值的差距越大，训练样本越有价值。

本发明场景存在回报稀疏、回报滞后、各智能体贡献度难以分配等问题，导致多智能体强化学习模型训练较难收敛，按照本发明的方法，利用红方单元机动、毁伤能力等先验知识，根据红方单元初始目标航路点和分配的蓝方目标位置，估算得到红方各智能体动作的预测奖励，将其与全局任务奖励结合用于模型训练。

红蓝方对抗场景中智能策略模型的训练与场景泛化能力提升需要数据驱动，本发明通过模拟对抗推演过程，快速获取训练样本提高策略模型学习效率，完成红方多智能体强化学习模型的决策能力进化。训练方法的具体步骤如下：

1)模型训练开始前，以蓝方目标数量、部署阵型、毁伤能力为因子构建场景想定库；

2)每隔一定训练周期，从场景想定库中随机选择一组参数配置蓝方想定；

3)在仿真平台中通过红蓝双方对抗推演生成训练数据，用于模型迭代训练；

4)循环重复步骤2)至4)，实现对抗场景下的智能模型进化训练。

在红蓝方对抗推演仿真平台中，以零通信条件下红方集群毁伤蓝方全部目标的协同目标分配能力为基础，对本发明方法进行验证，试验流程如下：

1)设定合适的红蓝方对抗场景；

2)通过模拟对抗，实现多智能体强化学习模型的训练，并验证红方异构集群协同目标分配模型对典型场景的适应性，若模型训练未收敛，则调整参数并重新训练，直至模型收敛进入下一步骤；

3)在随机场景想定下，对本发明方法进行验证试验；

4)在与步骤3)同样的典型场景下，红方各单元采用单智能体强化学习模型，待模型训练收敛后，对模型进行验证试验；

5)在与步骤3)同样的典型场景下，取消聚类算法，直接利用多智能体强化学习模型对蓝方所有目标进行分配，开展该模型的训练及验证试验；

6)将步骤3)、步骤4)和步骤5)的试验结果进行统计对比分析，发现本发明能够很好地解决传统优化方法存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。

本发明针对零通信条件下红方集群任务规划要求，利用多智能体强化学习模型，对红蓝方对抗推演场景中，红方集群的协同目标分配序列进行决策；将目标分配单次决策问题转换为满足马尔科夫过程的多单元时序决策问题，为多智能体强化学习方法解决零通信分布式目标分配问题提供先决条件；利用聚类算法预先生成红方各集群编队待分配目标，降低动作搜索空间，实现智能模型快速收敛；利用先验知识构建集群各智能体动作预测奖励，结合团队全局任务奖励作为评价参数，以该参数作为反馈可以有效提升智能模型的训练效率；以蓝方目标数量、部署阵型、毁伤能力等为因子构建场景想定库，通过海量对抗推演提升协同决策模型的场景泛化能力；在红蓝方博弈对抗推演仿真平台中，以零通信条件下红方集群毁伤蓝方全部目标的协同目标分配能力为基础验证了本发明的有效性。本发明解决了现有技术中存在的通信受限环境下异构集群在线协同决策任务难度高、场景适应性差的问题。

本发明说明书中未作详细描述的内容属于本领域技术人员的公知技术。