CN117540788A

CN117540788A - 以控制为中心的自监督学习的双阶段通用智能体训练方法

Info

Publication number: CN117540788A
Application number: CN202410029633.9A
Authority: CN
Inventors: 巴钟杰; 魏耀; 陈烨灵; 黄鹏; 程鹏; 王庆龙; 秦湛; 任奎
Original assignee: Zhejiang University ZJU; Jiaxing Research Institute of Zhejiang University
Current assignee: Zhejiang University ZJU; Jiaxing Research Institute of Zhejiang University
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-09

Abstract

本发明公开了一种以控制为中心的自监督学习的双阶段通用智能体训练方法，属于人工智能感知决策技术领域，包括以下步骤：步骤1、设计多模态的决策基础模型，包括编码器和控制解码器；步骤2、收集跨领域跨模态跨具身的多任务数据集；步骤3、使用以控制为中心的自监督损失函数通过自监督学习训练多模态的决策基础模型；步骤4、通过多模态指令对齐的模仿学习来训练多模态的决策基础模型；步骤5、将训练完成的多模态的决策基础模型部署到平台中进行测试使用。本发明提供了一种以控制为中心的自监督学习的双阶段通用智能体训练方法，具有卓越的适应性，能够适应跨领域、跨场景和跨具身的广泛决策任务。

Description

以控制为中心的自监督学习的双阶段通用智能体训练方法

技术领域

本发明属于人工智能感知决策技术领域，尤其是涉及一种以控制为中心的自监督学习的双阶段通用智能体训练方法。

背景技术

目前，大量研究已经证明使用深度强化学习模型对单一任务进行优化可以取得优秀的结果，但是这些模型并没有在不同类别任务之间迁移的能力，特定模型只能在特定任务中使用。即使在强化学习中从少量数据中学习策略非常重要，但是当任务变得复杂，每项任务都需要人工提供的大规模数据集和长时间的训练，此时强化学习的优势就难以实现。这是由于直接与环境交互风险高，且学习效率较低。因此，通过预训练一个通用智能体适用于多种环境和多种任务，可以显著提升模型学习效率并降低构建此类数据集和模型的负担。Scott Reed等提出了一种训练通用智能体的方法。这种方法通过使用模仿学习收集的不同任务的大规模数据集来预训练Transformer模型，使其能在多个领域的任务上展现出较好的能力，（Reed S, Zolna K, Parisotto E, et al. A generalist agent[J]. arXivpreprint arXiv:2205.06175, 2022）。这个工作进一步表明了构建使用模型预训练构建通用智能体的可能性。Sun等提出了一个预训练方案，通过使用一系列控制中心的目标函数来构建一个智能体，（Sun Y, Ma S, Madaan R, et al. SMART: Self-supervised Multi-task pretrAining with contRol Transformers[J]. arXiv preprint arXiv:2301.09816, 2023）。这个预训练的模型允许使用现有的强化学习或模仿学习技术，根据下游任务设计来微调模型。

上述的各种方法虽然都是使用预训练方法来提升智能体的通用性，但都不够实际。仅使用模仿学习在大量数据集上进行训练，需要大量的训练成本，并且在大部分任务上都无法取得更好的性能；使用微调技术对预训练模型进行优化更为可取，但是该方法需要针对每一种下游任务都进行微调，且对于其他未经过微调的任务，不具备通用性。

发明内容

本发明的目的是提供一种以控制为中心的自监督学习的双阶段通用智能体训练方法，解决上述技术存在的现有的预训练方法难以以实际情况为主、训练成本大、通用性差的问题。

为实现上述目的，本发明提供一种以控制为中心的自监督学习的双阶段通用智能体训练方法，包括以下步骤：

步骤1、设计多模态的决策基础模型，包括编码器和控制解码器，所述编码器处理多模态的输入，所述控制解码器进行基于多模态编码的预测；

步骤2、收集跨领域跨模态跨具身的多任务数据集，通过最短路径算法和专家算法收集Habitat和Meta-World仿真平台的轨迹数据，每个轨迹数据的序列表示为，其中/>代表每个序列的多模态指令，代表序列中第/>个状态和动作；

步骤3、使用以控制为中心的自监督损失函数通过自监督学习训练多模态的决策基础模型；

步骤4、通过多模态指令对齐的模仿学习来训练多模态的决策基础模型；

步骤5、将训练完成的多模态的决策基础模型部署到平台中进行测试使用。

优选的，所述编码器包括状态编码器、提示编码器和动作编码器，所述状态编码器通过视觉变换器ViT对原始图像状态进行编码，通过编码学习器TokenLearner压缩编码信息；所述提示编码器为CLIP模型，完成不同模态信息到统一空间的编码转换；所述动作编码器将不同数据集中的多样化动作空间统一编码，完成一致的动作表示。

优选的，所述控制解码器包括自注意力模块和跨注意力模块，所述自注意力模块专注于利用所述状态编码器和所述动作编码器提供的状态和动作序列编码，在序列的上下文中进行准确的预测；所述跨注意力模块专注于结合所述提示编码器的输出和状态和动作序列编码，完成不同编码之间的有效融合。

优选的，步骤3中使用以控制为中心的损失函数通过自监督学习训练多模态的决策基础模型的具体过程如下：

S301、从数据集中的序列中截取上下文长度为/>的子序列/>，每个训练批次表示为/>；

S302、将训练序列中的状态/>和动作/>分别输入给状态编码器和动作编码器，状态编码器分为两部分，视觉编码器模块ViT和编码学习器TokenLearner，视觉编码器模块对图片内容进行编码，然后使用编码学习器压缩编码信息，动作编码器为线性编码器；

S303、将S302获得的状态和动作编码输入给控制解码器模块，控制解码器模块为多层自注意力模块组成，根据给定的掩码进行预测，获得预测编码序列；

S304、将S303中控制解码器模块输出的预测的状态和动作编码序列与真实的动作和状态对比，使用以控制为中心的自监督损失函数，计算损失；

S305、利用梯度下降更新多模态的决策基础模型的所有参数。

优选的，所述自监督损失函数的具体计算表达式如下：

；

其中，表示前向动力预测损失，具体表达式如下：

；

式中，是根据变量类型选择的损失函数，对于状态隐空间向量和连续动作，使用均方误差，而对于离散动作，使用交叉熵损失，/>表示决策模型网络的参数，/>表示可学习的前向预测网络的参数，/>表示使用动量ViT模型中学到的状态嵌入来编码下一个观测值，上划线表示梯度停止，/>表示t时刻到t+i时刻的所有状态o或动作a；

表示逆向动力预测损失，具体表达式如下：

；

式中，表示可学习的逆向预测网络的参数；

表示随机掩码后验控制预测损失，具体表达式如下：

；

式中，表示可学习的随机掩码预测网络的参数，/>表示随机屏蔽/>个动作和/>个状态，模型根据剩余的序列预测被屏蔽的动作，/>是随着训练轮次变化而变化的超参数。

优选的，步骤4中通过多模态指令对齐的模仿学习来训练多模态的决策基础模型的具体过程如下：

S401、从序列中截取上下文长度为/>的子序列，每个训练批次表示为/>；

S402、将训练序列中的状态/>和动作/>分别输入给状态编码器和动作编码器，并将多模态指令输入给提示编码器，提示编码器以CLIP编码器构成，文本指令使用文本编码器进行编码，图像指令使用图像编码器进行编码；

S403、将多层跨注意力模块添加至控制解码器模块中的自注意力模块之间，并选择性冻结部分自注意力模块和全部编码器参数；

S404、将S402获得的状态和动作编码输入给控制解码器模块，控制解码器模块根据自回归掩码进行预测，获得预测的动作编码；

S405、将S404中控制解码器模块输出的预测的动作编码与真实的动作和状态进行对比，使用改进的模仿学习损失，计算损失，具体公式如下：

；

其中表示提示编码器，/>表示可学习的整体策略，/>的输入是由解码器生成的编码表示；

S406、利用梯度下降更新多模态的决策基础模型的所有参数。

因此，本发明采用上述一种以控制为中心的自监督学习的双阶段通用智能体训练方法，结合了以控制为中心的自监督学习和高效的参数微调，构建了一个强大通用的智能体模型。且本发明训练的网络模型具有卓越的适应性，能够适应跨领域、跨场景和跨具身的广泛决策任务。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明以控制为中心的自监督学习训练多模态的决策基础模型图；

图2是本发明多模态指令对齐的模仿学习训练多模态的决策基础模型图；

图3是本发明通用智能体与其他基准在 Habitat 和 Meta-World 数据集上的对比图；其中，（a）表示使用专家评分Expert Score在Meta-World数据集上的对比图；（b）表示使用成功率Success Rate在Meta-World数据集上的对比图；（c）表示使用成功率SuccessRate在Habitat数据集上的对比图；（d）表示使用SPL在Habitat数据集上的对比图；

图4是本发明通用智能体与其他基准在域外任务上少样本学习的对比图。

具体实施方式

以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图2，一种以控制为中心的自监督学习的双阶段通用智能体训练方法，包括以下步骤：

步骤1、设计多模态的决策基础模型，包括编码器和控制解码器，编码器处理多模态的输入，控制解码器进行基于多模态编码的预测，编码器包括状态编码器、提示编码器和动作编码器，状态编码器通过视觉变换器ViT对原始图像状态进行编码，通过编码学习器TokenLearner压缩编码信息，提高训练和推理速度；提示编码器为CLIP模型，完成不同模态信息到统一空间的编码转换；动作编码器将不同数据集中的多样化动作空间统一编码，完成一致的动作表示。控制解码器包括自注意力模块和跨注意力模块，自注意力模块专注于利用状态编码器和动作编码器提供的状态和动作序列编码，在序列的上下文中进行准确的预测；跨注意力模块专注于结合提示编码器的输出和状态和动作序列编码，完成不同编码之间的有效融合；

步骤3、使用以控制为中心的自监督损失函数通过自监督学习训练多模态的决策基础模型，在通用智能体训练中引入以控制为中心的自监督学习训练，该阶段的目的是让多模态的决策基础模型学习通用的控制知识，包括控制动作及其动作之间的因果关系，以及连续观察或动作序列之间的长期和短期相关性，从而提高模型泛化能力，具体过程如下：

S305、利用梯度下降更新多模态的决策基础模型的所有参数。

其中，自监督损失函数的具体计算表达式如下：

；

其中，表示前向动力预测损失，旨在训练模型根据当前状态和动作之间的交互来预测下一个状态。对于控制决策序列中每一个状态-行动对/>，该损失的目标是预测下一时刻的状态/>。为了增强训练稳定性，并解决在预测期间无法获得真实的状态表示的问题，具体表达式如下：

；

表示逆向动力预测损失，主要目的是训练模型基于当前状态及其随后的状态来预测相应的动作，对于每个连续的状态对/>，该损失的目的是预测当前时刻的动作/>，具体表达式如下：

；

式中，表示可学习的逆向预测网络的参数；

表示随机掩码后验控制预测损失，主要目标是通过随机掩码技术来训练模型，使其能够在序列中恢复被遮蔽的动作。这种做法旨在帮助模型学习长期的控制决策任务，尤其是在依赖长期规划时。具体方法是，给定一个控制序列, 随机地连续掩盖状态和动作对，然后模型需要根据剩余的、不完整的序列来恢复这些被遮蔽的动作，具体表达式如下：

；

式中，表示可学习的随机掩码预测网络的参数，/>表示随机屏蔽/>个动作和/>个状态，模型根据剩余的序列预测被屏蔽的动作，/>是随着训练轮次变化而变化的超参数。前向动力预测损失和逆向动力预测损失的设计，旨在促使模型关注于状态与动作序列间的局部转换关系，减少数据分布的漂移并加强模型对短期状态动作转换关系的学习，另一方面，随机掩码后验控制预测损失则着重于提升模型在长期规划方面的学习能力，这在处理大规模任务时尤为重要，有助于有效地提取控制信息，并避免因状态间路径不同而产生的模糊性。通过联合训练，短期动态转换和长期规划依赖可以相互补充。

步骤4、通过多模态指令对齐的模仿学习来训练多模态的决策基础模型，使用改进的模仿学习损失来训练该模型，为了使模型学习到的决策过程与新任务的指令目标保持一致，并将不同模态信息编码为同一空间信息，使用CLIP作为提示编码器，并且将每一个提示编码使用跨注意力模块与状态和动作序列编码信息融合，并使用改进的模仿学习损失进行训练，以此达到多模态指令对齐的目的。由于在训练中可以选择性训练跨注意力模块和自注意力模块，可以大幅度减少训练开销，在训练少量参数的情况下进行快速微调，具体过程如下：

；

S406、利用梯度下降更新多模态的决策基础模型的所有参数；

另外，本发明设计了大规模的评估实验来验证以控制为中心的自监督学习的双阶段算法的有效性。对本发明提出的方法（DualMind）和其他基准模型(Jointly、IL-only、SMART-only和GATO)在两个数据集（Meta-World和Habitat）的大量任务上进行了全面评估，分别对每个任务进行了 10 次尝试并计算平均的成功率（Success Rate）和专家评分（Expert Score）或以路径长度加权的成功率（SPL )，总体结果如图3所示，（a）展示了不同方法在45 个 Meta-World 任务的上专家评分（Expert Score）的表现，本发明提出的方法明显优于其他三个基准（Jointly、IL-only和SMART-only），对于训练数据和模型参数大于本方法的基准GATO，在专家分数大于80%的任务数量也超过了GATO。（b）展示了不同方法在45 个 Meta-World 任务的上成功率（Success Rate）的表现，（c）和（d）展示了不同方法在12个 Habitat任务的上成功率（Success Rate)和以路径长度加权的成功率（SPL )的表现，结果表明，本发明方法在 Habitat和 Meta-World上的性能分别超过现有的基准 50% 和70%，仅仅靠模仿学习（IL-only）或自监督学习（SMART-only）是不足以提供一个强大的通用智能体的。本发明方法的实验结果强调了分训练阶段结合以控制中心的自监督训练和多模态指令对齐的模仿学习的重要性，简单的结合两者训练损失（Jointly）并不能充分发挥两者长处；另外，本发明还测试了本发明方法在不同数量、不同域外任务上进行少样本微调的性能效果，分别对10种域外任务进行了10、100、1000个少样本的微调迭代，如图4所示，实验结果表明，本发明方法在不同的少量微调设置中都表现出优越的性能，证明了本发明提出的双阶段训练方法即使在面对分布外任务和少样本数据的情况下也能保持通用决策模型的泛化能力的有效性。

因此，本发明采用上述一种以控制为中心的自监督学习的双阶段通用智能体训练方法，实现了高效、通用、可迁移的以控制为中心的双阶段通用智能体训练方法。高效主要体现在可以通过在训练少量参数的情况下进行快速微调；通用主要体现在模型能够在使用一组权重前提下面对不同的控制任务，做出高效通用的控制决策；可迁移主要体现在模型设计拥有良好的可迁移性，可以兼容各种不同的任务。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于：所述编码器包括状态编码器、提示编码器和动作编码器，所述状态编码器通过视觉变换器ViT对原始图像状态进行编码，通过编码学习器TokenLearner压缩编码信息；所述提示编码器为CLIP模型，完成不同模态信息到统一空间的编码转换；所述动作编码器将不同数据集中的多样化动作空间统一编码，完成一致的动作表示。

3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于：所述控制解码器包括自注意力模块和跨注意力模块，所述自注意力模块专注于利用所述状态编码器和所述动作编码器提供的状态和动作序列编码，在序列的上下文中进行准确的预测；所述跨注意力模块专注于结合所述提示编码器的输出和状态和动作序列编码，完成不同编码之间的有效融合。

4.根据权利要求3所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于，步骤3中使用以控制为中心的损失函数通过自监督学习训练多模态的决策基础模型的具体过程如下：

S301、从数据集中的序列中截取上下文长度为/>的子序列，每个训练批次表示为/>；

S305、利用梯度下降更新多模态的决策基础模型的所有参数。

5.根据权利要求4所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于，所述自监督损失函数的具体计算表达式如下：

；

其中，表示前向动力预测损失，具体表达式如下：

；

表示逆向动力预测损失，具体表达式如下：

；

式中，表示可学习的逆向预测网络的参数；

表示随机掩码后验控制预测损失，具体表达式如下：

；

6.根据权利要求5所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于，步骤4中通过多模态指令对齐的模仿学习来训练多模态的决策基础模型的具体过程如下：

；

S406、利用梯度下降更新多模态的决策基础模型的所有参数。