CN115480585A

CN115480585A - 一种搭载强化学习智能体的无人设备集群协同探索方法

Info

Publication number: CN115480585A
Application number: CN202211047986.9A
Authority: CN
Inventors: 罗光春; 陈爱国; 付波; 孙国林; 杜凯; 张晨曦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-16

Abstract

本发明属于无人设备自动化控制领域，具体提供一种搭载强化学习智能体的无人设备集群协同探索方法，能够有效增强无人集群对未知环境协同探索能力；本发明采用堆栈式自编码器将相似状态编码为相似特征向量，使得智能体能够更清晰的识别相似的环境状态；采用自监督分类器为智能体与所访问的环境状态计算匹配评分，判断该智能体是否应当访问这一状态，引导智能体访问状态的分化，促使不同智能体探索不同的区域，增强多智能体系统对环境的总体探索能力，实现多智能体系统的协同探索，进而加强无人设备集群中不同设备的协同性，提升不同设备间的有效配合，提升集群综合决策能力。

Description

一种搭载强化学习智能体的无人设备集群协同探索方法

技术领域

本发明属于无人设备自动化控制领域，涉及算法智能决策，具体提供一种搭载强化学习智能体的无人设备集群协同探索方法。

背景技术

强化学习是智能决策领域的常用方法，尤其是深度强化学习结合了强化学习的决策优势与深度学习的感知优势，极大的推进了现代人工智能的发展，被誉为最可能实现通用人工智能的方法。强化学习智能体也比传统智能体具有更加强大的能力，尤其是具有较强的学习性和环境适应性，能够自主探索各类未知环境，对无人设备在野外、远海、太空等完全未知环境中的智能决策、自主运行有关键性作用。具体而言，搭载强化学习智能体的无人设备较传统无人设备有更强的决策能力，搭载强化学习智能体的无人设备集群则可以被认为是多智能体强化学习系统。

然而，强化学习算法要求环境提供的任务奖励不能过于稀疏，否则仍然需要人工制定奖励目标来引导智能体探索未知环境和决策最优策略。传统的强化学习智能体在未知环境中的探索上采取暴力穷举的方式，若环境任务奖励过于稀疏，智能体则需要花费大量的算力在探索奖励上，甚至可能完全无法正确的探索到任何奖励，而人工奖励塑形往往又需要较高的开销。这一问题使得强化学习智能体的训练需要耗费高昂的成本，该成本甚至无法被强化学习智能体的决策优势性所带来的收益补偿，这导致了强化学习算法在实际工业生产中难以落地。

现阶段的强化学习探索主要分为内在动机构建和先验知识引入两种方式，前者主要通过算法构建出除环境任务目标以外的其他奖励逻辑，如好奇心机制鼓励智能体探索从未访问过的环境区域；事后经验回放有效利用失败的探索，增强智能体的可探索范围，但单智能体领域的探索策略对多智能体系统仅部分有效，无法完全解决多智能体的协同探索问题；后者则是使智能体直接学习人类专家已制定完成的策略，此类方法需要专家对未知环境直接进行研究判断，无法充分发挥强化学习的决策优势。

发明内容

本发明的目的在于针对上述现有技术存在的缺陷，提供一种搭载强化学习智能体的无人设备集群协同探索方法，能够有效增强无人集群对未知环境协同探索能力；本发明旨在训练不同智能体之间的独立性，鼓励不同智能体探索不同环境区域，加速多智能体系统的社会分工分化，极大的缩短总体探索时间，节省多智能体强化学习训练中探索阶段的算力开销，进而反映到无人设备集群上，可以提升集群间不同设备的有效配合，提升集群综合决策能力。

为达到上述目的，本发明采用的技术方案是：

一种搭载强化学习智能体的无人设备集群协同探索方法，将无人集群视为一个多智能体系统，将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统，包括以下步骤：

S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码，获得每个智能体的智能体特征向量；

S2、多智能体系统与环境交互，每个智能体从环境中获取下一个观测态和任务奖励；

S3、构建堆栈式自编码器，并根据环境中已探知状态对其进行无监督训练，得到自编码器模型；

S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态进行编码，获得每个智能体的状态特征向量；

S5、采用分类器对当前时间步多智能体系统中每个智能体的智能体特征向量和状态特征向量计算匹配评分；

S6、根据匹配评分，对当前时间步多智能体系统中的每个智能体计算匹配评分奖励；

S7、根据匹配评分奖励、任务奖励，对当前时间步多智能体系统中的每个智能体计算总奖励；

S8、根据智能体当前观测态、动作、下一个观测态与总奖励，训练多智能体强化学习算法，更新强化学习智能体策略模型。

进一步的，步骤S1中，所述特征向量编码的过程为：

S11、马尔可夫决策决策过程中的全体动作空间{A_i}_i∈I可以被划分为互相独立的n份：{z₁，z₂，...，z_n}，采用n维向量编码智能体类型，若智能体i的可执行动作空间A_i和划分空间z_i重合，则将z_i所对应的向量位记为1，其余向量位记为0，获得智能体i的智能体类型特性向量；

S12、对每个类型的智能体，通过独热编码方式编码智能体序号，获得智能体i的智能体序号特征向量；

S13、将智能体类型特征向量和智能体序号特性向量级联，获得智能体i的智能体特征向量。

进一步的，步骤S2中，在每个时间步中，多智能体系统中的每个智能体依次与环境交互：智能体i根据当前观测态o_i与强化学习策略模型π_i决策出动作a_i，环境在智能体i的当前状态s_i执行动作a_i，将智能体i转移到状态s_i′，并将任务奖励

和下一个观测态o_i′反馈给智能体i。

进一步的，步骤S3中，具体为：S31、在每个时间步中，收集多智能体系统中各个智能体访问状态的观测态，存入大小为buffsize的观测态缓存区B_s；

S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder；

S33、在强化学习的每个epsiode结束时，从观测态缓存区B_s中采样抽取数据，采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练，得到收敛的自编码器模型。

进一步的，步骤S4中，具体为：将智能体i从环境获取的下一个观测态输入至自编码器模型中，由自编码器模型的编码模块计算得到智能体i的状态特征向量。

进一步的，步骤S5中，具体为：

S51、将智能体i的智能体特征向量与状态特征向量输入分类器，由分类器输出匹配评分；

S52、构建临时标签：<feature_i,code_i；1>和

其中，

表示除智能体i以外的其他智能体的特征向量，-为反事实标注，1表示智能体特征向量feature_i和状态特征向量code_i的事实组合是正样本，0表示除智能体i外的其他智能体特征向量

和状态特征向量code_i的反事实组合是负样本；通过临时标签更新分类器Classifier的网络参数。

进一步的，步骤S6中，具体为：计算智能体i应获取的状态匹配奖励

其中，β为奖励权重，r^b为基础奖励，score为匹配评分；

并将状态匹配奖励

反馈给智能体i。

进一步的，步骤S7中，具体为：

S71、将智能体i的状态匹配奖励与其他内在奖励采用好奇心机制或事后经验重放计算得到智能体i的总内在奖励

S72、将智能体i的总内在奖励

与任务奖励相加得到总奖励r_i，并将总奖励r_i反馈给智能体i。

基于上述技术方案，本发明的有益效果在于：

1、采用堆栈式自编码器将相似状态编码为相似特征向量，使得智能体能够更清晰的识别相似的环境状态，能够从环境中获取更多信息，进而在实际上加强了无人设备集群的综合信息获取能力；

2、使用自监督分类器classifier为智能体与所访问的环境状态计算匹配评分，判断该智能体是否应当访问这一状态，随着强化学习训练的episode增加，引导智能体访问状态的分化，促使不同智能体探索不同的区域，增强多智能体系统对环境的总体探索能力，实现多智能体系统的协同探索，进而加强无人设备集群中不同设备的协同性，提升不同设备间的有效配合，提升集群综合决策能力。

附图说明

图1为本发明中基于强化学习的智能体协同探索方法的流程示意图。

图2为本发明中多智能体系统与环境交互过程示意图。

图3为本发明中自编码器模型的结构示意图。

图4为本发明中自监督分类器classifier网络模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施例和附图，对本发明作进一步地详细描述。

本实施例旨在提出一种搭载强化学习智能体的无人设备集群协同探索方法，该方法通过构建状态匹配奖励，给智能体提供新的内在动机，加速多智能体之间的环境社会分工分化，提高多智能体系统的综合探索效率，进而解决搭载强化学习智能体的无人设备集群对未知环境自主学习困难的问题；具体流程如图1所示，包括以下步骤：

S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码，获得每个智能体的智能体特征向量；所述特征向量编码的过程为：

S11、马尔可夫决策决策过程中的全体动作空间{A_i}_i∈I可以被划分为互相独立的n份：{z₁,z₂,…,z_n}，采用n维向量编码智能体类型，若智能体i的可执行动作空间A_i和划分空间z_i重合，则将z_i所对应的向量位记为1，其余向量位记为0，获得智能体i的智能体类型特性向量

I表示智能体集合；

S12、对每个类型的智能体，通过独热编码方式编码智能体序号(若智能体序号过大、则采用分段独热编码方式)，获得智能体i的智能体序号特征向量

S13、将智能体类型特征向量和智能体序号特性向量级联，获得智能体i的智能体特征向量feature_i；

所述多智能体系统与环境交互的过程如图2所示，其中，在每个时间步中，多智能体系统中的每个智能体依次与环境交互：智能体i根据当前观测态o_i与强化学习策略模型π_i决策出动作a_i，环境在智能体i的当前状态s_i执行动作a_i，将智能体i转移到状态s_i′，并将任务奖励

和下一个观测态o_i′反馈给智能体i；

所述堆栈式自编码器模型如图3所示，分为编码器和解码器，其中编码器包括输入层与隐藏层，解码器包括隐藏层与输出层，编码器与解码器共享隐藏层网络参数，以加快训练，其计算式为：

h_w，b(x)＝x

decoder(enCoder(k))＝x

其中，h_w,b(.)表示自编码器，x表示智能体观测态向量，encoder、decoder分别为编码器和解码器，loss为损失函数，y_i和

分别表示真实值和网络预测值；

具体为：S31、在每个时间步中，收集多智能体系统中各个智能体访问状态的观测态(观测态o_i′)，存入大小为buffsize的观测态缓存区B_s；

S33、在强化学习的每个epsiode结束时，从观测态缓存区B_s中采样抽取数据，采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练，得到收敛的自编码器模型；

S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态(观测态o_i′)进行编码，获得每个智能体的状态特征向量；

具体为：将智能体i从环境获取的下一个观测态o_i′输入至自编码器模型中，由自编码器模型的编码模块encoder计算得到智能体i的状态特征向量code_i；

S5、采用分类器对当前时间步多智能体系统中每对智能体特征向量和状态特征向量计算匹配评分；

所述分类器Classifier的网络模型如图4所示，包括输入层、隐藏层与输出层，评分计算式为：

score＝sigmoid(W₄(W₃(W₁cfeature_i)+W₂(code_i)))

其中，W₁、W₂分别为智能体特征向量、状态特征向量在输入层的网络参数，W₃为隐藏层网络参数，W₄、sigmoid分别为输出层网络参数和激活函数；

在训练阶段，分类器Classifier通过智能体特征向量feature_i和状态特征向量code_i，采用sigmoid激活函数计算出匹配评分，同时通过智能体特征向量feature_i和状态特征向量code_i产生自监督学习标签，并采取最小化交叉熵损失函数的方式，自监督的更新网络参数；

在执行阶段，具体为：

S51、将智能体i的智能体特征向量feature_i与状态特征向量code_i输入分类器Classifier，由分类器Classifier输出智能体特征向量feature_i和状态特征向量code_i的匹配评分score；

S52、构建临时标签：<feature_i,code_i；1>和

其中，

和状态特征向量code_i的反事实组合是负样本；通过临时标签更新分类器Classifier的网络参数；

S6、对当前时间步多智能体系统中的每个智能体计算匹配评分奖励；

具体为：计算智能体i应获取的状态匹配奖励

其中，β为奖励权重，r^b为基础奖励；

并将状态匹配奖励

反馈给智能体i；

S7、对当前时间步多智能体系统中的每个智能体计算总奖励；

具体为：

S71、将智能体i的状态匹配奖励

与其他内在奖励采用好奇心机制或事后经验重放计算得到智能体i的总内在奖励

S72、将智能体i的总内在奖励

与任务奖励

相加得到总奖励r_i：

将总奖励r_i反馈给智能体i；

S8、根据智能体当前观测态、动作、下一个观测态与总奖励，择机训练多智能体强化学习算法，更新强化学习智能体策略模型；具体的，若存在经验回放区，智能体将观测态、动作下一个观测态与总奖励存入经验回放区，待模型更新阶段从回放区采样进行训练；若采用在线学习的方式进行更新，则智能体之间利用这条经验更新策略模型，并将该经验抛弃。

上述强化学习智能体分为训练阶段和执行阶段，在训练阶段时，S1为初始化阶段实施，S2、S4-S8随着时间步推进迭代实施，S3在每个episode结束阶段实施；在执行阶段时，智能体特征向量编码方式已确立，自编码器Coder、分类器Classifier已训练完成，S2、S4-S7随着时间步推进迭代实施。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种搭载强化学习智能体的无人设备集群协同探索方法，将无人集群视为一个多智能体系统，将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统，包括以下步骤：

2.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法，其特征在于，步骤S1中，所述特征向量编码的过程为：

S11、马尔可夫决策决策过程中的全体动作空间{A_i}_i∈I可以被划分为互相独立的n份：{z₁,z₂,…,z_n}，采用n维向量编码智能体类型，若智能体i的可执行动作空间A_i和划分空间z_i重合，则将z_i所对应的向量位记为1，其余向量位记为0，获得智能体i的智能体类型特性向量；

3.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法，其特征在于，步骤S2中，在每个时间步中，多智能体系统中的每个智能体依次与环境交互：智能体i根据当前观测态o_i与强化学习策略模型π_i决策出动作a_i，环境在智能体i的当前状态s_i执行动作a_i，将智能体i转移到状态s_i′，并将任务奖励