CN116187174A

CN116187174A - 基于因果奖励的多任务自监督强化学习

Info

Publication number: CN116187174A
Application number: CN202310048598.0A
Authority: CN
Inventors: 许铮铧; 周杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-05-30

Abstract

本发明提出一种智能体自监督强化学习状态空间探索及多任务目标迁移方法。首先，本发明将状态表征多等分后将相邻时间步状态转移定义为一个二分因果图，并通过多头自注意力矩阵的约束以保证了因果图的一致性，在此基础上，基于因果互信息所反映出的模型预测的不确定性能通过以更大的奖励的形式反馈给探索智能体进行更多样化的样本的探索。在估计因果互信息时，通过混合高斯模型对历史状态分布进行建模，其能够很好的解决任意划分状态条件概率分布的估计和采样问题，同时将期望最大化算法在图形处理单元上进行实现以更快的并行处理大量的数据。最后，本发明通过训练两个相对独立的智能体，使得他们之间能有相互合作的增益同时，使得模型有更低的耦合度，其极大的有助于模型的训练调试和有意义的模块有效性分析。

Description

基于因果奖励的多任务自监督强化学习

技术领域

本发明涉及智能体自监督强化学习状态空间探索及多任务目标迁移方法。

背景技术

强化学习的目标是训练智能体在不确定的环境中完成任务。智能体或称智能代理是感知其环境、自主采取行动以实现目标并可以通过学习或使用知识来提高其性能的任何事物。在每个时间间隔，代理从环境接收观察和奖励，并向环境发送动作。奖励是衡量前一个动作在完成任务目标方面的成功程度。

虽然传统的强化学习在单个任务上取得了成功，但当智能体的环境发生变化时，或需要完成新任务时，其经常不能达到训练环境下的表现，在这种情况下就需要在每个遇到的新的任务时进行重现的训练，其通常是费时费力的。具体地，当在训练过程中将机械手臂环境中的物体放置在特定位置后，并不能保证智能体能正确将物体放置在新给定的位置，这个问题在环境中存在多个物体且多个物体间有相互作用的情况下会更加显著。

一般的强化学习方法的一个限制是智能体只能使用从环境中获得的外部奖励进行学习。自监督的强化学习试图通过为智能体配备许多内部驱动或内在奖励信号来解决这一缺点，提高了样本采样效率，为智能体快速下游迁移提供了解决方案，而提高自监督强化学习性能的关键挑战是状态空间的探索。以前的方法通过重新访问以前看到的罕见目标，或从生成模型中采样目标来探索。或者基于最大熵策略，使智能体能够通过最大化信息理论目标来发展各种技能，使得智能体尽可能均匀的探索状态空间，而无需任何外部奖励，使得智能体在奖励稀疏的环境中进行高效学习。同时，得益于探索所的状态的多样性，使得智能体学习到的技能更易于迁移到新的的目标任务上。

学习达到许多不同目标的问题通常通过学习单一目标条件策略的无模型方法来解决，但是，通过单一的或稀疏的奖励使得学习到的策略缺乏对其他目标任务的泛化能力。最近的工作将这些方法与生成训练目标的各种方法相结合。这些方法可以在模拟机器人领域取得显着的性能，但是，它们专注于智能体可以直接感知低维环境状态的设置。一些工作试图通过使用对比或重建的表征学习将这些无模型方法扩展到视觉目标。然而，这些方法难以进行有意义的探索，因为没有明确的奖励信号可用于指导智能体解决任务。另一些工作试图通过生成类似于已经看到的目标来进行探索，但不能探索到真正新颖的状态。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，通过无监督的目标条件强化学习范式使得智能体在完全没有监督的情况下学习环境中的许多不同技能，然后通过用户指定的目标图像解决任务，而无需进一步训练。

为实现上述目的，本发明采用的技术方案如下：

1.建模问题为部分可观马尔科夫决策过程，其中智能体接受图像为观测变量，智能体动作为可作用于环境的干预变量，状态空间为高维表征。智能代理包含两个组件：策略和学习算法。该策略是从当前环境观察到要采取的行动的概率分布的映射。在代理中，策略由深度神经网络实现。学习算法根据动作、观察和奖励不断更新策略参数。学习算法的目标是找到一个最优策略，使任务期间获得的预期累积长期奖励最大化。探索智能体的奖励为基于因果推断的条件熵增，其中因为因果互信息的估计需要对状态的任意二划分的条件分布进行建模。如图1，本方法将状态表征进行了多等分以便通过借助因果推断方法对强化学习状态空间进行探索。同时，本方法也可视为借助强化学习对以下因果互信息进行最大化的过程，在此本文使用了因果互信息估计。其通过最大化动作和一部分状态，他们与下一状态的条件因果互信息在实现最大化智能体对于外部环境的干预的同时，还使得智能体探索低概率密度的区域，如下所示：

其中A为智能体的动作，S为当前状态，S′为下一状态，其可以写作条件互信息I([A，S_i]；S_j′|S)I([A，S_i]；S_j′|S)，其中s的下标i和j对应对应多等分的状态的表征中的每个等分。因果互信息作为强化学习的积累奖励，因果互信息的最大化能够使得智能体获取环境转移中的因果关系，从而使得智能体学习的过程更有效率的同时，其学到的技能更具有泛化性。其中对于状态表征的划分和由相邻时间步定义的二分因果图1所示。

利用深度网络学习状态转移模型，其建模了不同相邻时间步状态表征的非线性映射。其中在本方法中将第零步状态表征设置为全零的张量，同时第零步智能体不进行动作因此将动作表征也定义为全零的张量，本方法状态转移模型建模为一个循环神经网络，其主体结构采用了多头自注意力机制实现。

通过对多头自注意力矩阵进行约束以保证的多头自注意力机制对于因果图表示的一致性。以下第一行为经过软最大化后的多头自注意力矩阵，第二行为对多头自注意力矩阵取平均后处以温度参数，第三行为多头自注意力和平均自注意力矩阵相乘再乘上对状态表征的划分数m。

Atten_htm＝SoftMax(Q_htd，K_hmd)

其中，Q_htd和K_hmd为多头自注意力机制的查询(query)和键(key)，下标中的h对应多头自注意力的每个头(head)，H为多头自注意力总的头数，d为向量维度，t和m对应多等分的状态的表征。同时为了保证训练的稳定性，本方法采用了门循环单元(GRU)取代对多头自注意力机制的的残差结构。在决定在前时间步的因果图连接时，本方法通过对平均自注意力矩阵作布尔运算，当其中元素为每行最大k个值时设置为1否则设置为0，或者通过一个阈值的选取作二值化操作如下所示：

/>

其中，通过第一行得到的阈值，从第二行中能得到因果图中第t个当前状态表征与第m个下一状态表征的连接与否。

2.在本方法中运用和了混合高斯模型首先对状态划分的联合分布进行建模，因为其对于任意的条件分布混合高斯模型可以提供解析式以进行概率估计和采样。其如图2所示。在训练的过程中通过只训练新探索的状态并将其与历史状态的混合高斯模型进行比较融合的出新的更新后的混合高模型以消除因每次有新加入数据而不得不重新对混合高斯模型进行训练的必要性。

3.交替地将探索智能体和任务实现智能体部署到环境中进行新状态的探索或任务实现的尝试。其中探索智能体和任务实现智能体通过在状态转移模型中进行想象的一系列动作来发现遥远的目标，以找到具有高预期信息增益的新状态。之后，探索智能体和任务实现智能体执行那些想象环境中的动作以发现新的态，这些动作可能会将代理引导到超出历史状态分布边界数步的状态，因为否则模型不会有很高的不确定性或信息增益。最后，因为任务实现智能体是基于状态条件的多目标实现智能体，这些发现的状态被用作任务实现智能体的不同目标。在这个无监督的训练阶段之后，任务实现智能体在部署时无需任何额外的学习即可解决指定为目标图像的任务。

与现有技术相比，本发明的有益效果是：

1.提出了将状态表征多等分后将相邻时间步状态转移定义为一个二分因果图，在此基础上通过借助因果推断方法对强化学习状态空间进行探索，其同时能兼容之前的状态熵最大化和动作熵最大化的无监督强化学习探索方法。同时基于因果互信息所反映出的模型预测的不确定性能通过以更大的奖励的形式反馈给探索智能体进行更多样化的样本的探索。多头自注意力矩阵的约束以保证了多头自注意力机制对于因果图表示的一致性，相比学习严格的图连接矩阵，本方法在不损失模型表达能力和训练稳定性的基础上，同时能实现对状态转移中的因果关系进行挖掘。

2.通过混合高斯模型对历史状态分布进行建模，其能够很好的解决任意划分状态条件概率分布的估计和采样问题，同时将期望最大化算法在图形处理单元上进行实现以更快的并行处理大量的数据，并将其与历史状态的混合高斯模型进行比较融合得出新的更新后的混合高斯模型，其进一步提升了运算效率。

3.通过训练两个相对独立的智能同时使得他们之间能有相互合作的增益，本方案使得模型有更低的耦合度，其极大的有助于模型的训练调试和有意义的模块有效性分析。

附图说明

图1是本方法将强化学习中相邻时间步状态进行多等分并建模为二分因果图的示意图。

图2是用混合高斯模型对两个状态的联合分布和条件分布示意图。

图3为在RoboYoga Walker环境中的实验结果图。

图4为在RoboYoga Quadruped环境中的实验结果图。

图5为在RoboBin环境中的实验结果图。

图6为在RoboKitchen环境中的实验结果图。

具体实施方式

下面结合实施例及附图进一步详细描述本发明的技术方案。本发明为一种智能体(如机械手臂)的多任务自监督强化学习方法，算法步骤如下：

初始步骤：算法的模型部分包括循环神经网络，策略网络，价值网络，由图像映射到潜在空间和由潜在空间映射到图像的卷积神经网络，用于历史状态分布估计的混合高斯模型。在初始阶段，随机初始化循环神经网络，策略网络，价值网络，卷积神经网络的权重和混合高斯模型的均值和方差。通过将此随机初始化的强化学习算法部署在环境中通过控制机械手臂进行随机探索获得初始的经验数据。随机探索指智能体通过感知其环境、随机的采取行动，并在每个时间间隔从环境接收观测(图像)和奖励(标量数值)，并向中介器(机械手臂)发送动作(关节角度，速度等)。重复这一过程到一定的时间步长所收集到的每个时间步上的观测、奖励和所采取的动作构成智能体的经验数据，其也称为一幕经验数据。此后将经验数据存储进入磁盘以便此后智能体对历史访问状态转移经验数据的再利用。

此后循环执行以下步骤一至步骤五至算法收敛:

步骤一：随机读取历史访问多幕的经验数据，将经由卷积神经网络提取的观测图像的表征和执行的行动的序列输入到循环神经网络中，多幕数据并行依次从第一个时间步开始进入基于自注意力和门控单元构建的循环神经网络，网络在每个时间步的输入为前一时间步状态，动作和经由卷积神经网络提取的观测图像的表征，重建输出当前时间步观测图像；其中重建损失函数为输入的观测图像的高斯似然估计。利用状态进行因果互信息估计，即为奖励。

步骤二：利用步骤一获取得到的经验数据，以访问多幕的经验数据为初始观测图像，以在步骤一训练获得的状态转移模型(循环神经网络)基础上进行任务实现智能体的训练。首先随机将历史访问多幕的经验数据的观测图像的表征设置为智能体的预期达到目标，使得智能体在状态转移模型基础上进行任务的实现。智能体通过策略函数选择动作，并通过状态转移模型的预测得到下一个时间步的新的状态，将此新的状态中所包含的图像观测信息与包含目标条件图像的信息的表征进行相似度比较，得到当前时间步的智能体的奖励值(相似度)。同时，为了使得智能体有长期规划的能力，通过时序差分训练价值函数。

步骤三：将步骤一获取得到的由经验数据经由循环神经网络得到的状态，通过期望最大化算法进行混合高斯分布的分布拟合，之后将其与历史状态的混合高斯芬分布进行比较融合的得出的更新后的混合高斯分布(用于因果互信息估计)。同时，为了获得更好的分布拟合性能，本方法将此过程方法在图形处理单元上进行实现以更快的并行处理(图形处理单元的多个处理核心并行处理)大量的数据。

步骤四：利用步骤一获取得到的经验数据，以访问多幕的经验数据为初始观测图像，以在步骤一训练获得的状态转移模型(循环神经网络)基础上进行探索智能体的训练。智能体通过策略函数选择动作，并通过状态转移模型的预测得到下一个时间步的新的状态，而新的状态的奖励值定义为上一状态和当前状态的因果互信息，其中在决定在前时间步的因果图连接时，本方法通过对平均自注意力矩阵作布尔运算，当其中元素通过一个阈值的选取作二值化操作，由此得到的因果图连接矩阵用于在估计当前步因果互信息时所需的对状态的二划分，此后通过采样由步骤三的到的状态分布得到因果互信息的估计最后，与步骤二一样，为了使得智能体有长期规划的能力，通过时序差分训练价值函数。

步骤五：将探索智能体和任务实现智能体依次部署到环境中，通过使用步骤二和步骤四的到的探索智能体和任务实现智能的策略函数，与环境进行交互得到新的经验数据，并将此经验数据存储进入磁盘以便此后智能体对历史访问状态转移经验数据的再利用。

在测试阶段，通过将智能体部署到不同的环境中并分别完成不同的指定为目标的图像任务的平均成功率来评价其表现。如图3到图6，其中每幅图中前两行分别为测试时目标图像和实际达到的图像，第三行为测试的成功率。

Claims

1.建模问题为部分可观马尔科夫决策过程，其中智能体接受图像为观测变量，智能体动作为可作用于环境的干预变量，状态空间为高维表征，智能体包含两个组件：策略和学习算法；该策略是从当前环境观察到要采取的行动的概率分布的映射；在智能体中，策略由深度神经网络实现；学习算法根据动作、观察和奖励不断更新策略参数；学习算法的目标是找到一个最优策略，使任务期间获得的预期累积长期奖励最大化。

2.探索智能体的奖励为基于因果推断的条件熵增，其中因为因果互信息的估计需要对状态的任意二划分的条件分布进行建模；如图1，本方法将状态表征进行了多等分以便通过借助因果推断方法对强化学习状态空间进行探索，其通过最大化动作和一部分状态，他们与下一状态的条件因果互信息在实现最大化智能体对于外部环境的干预的同时，还使得智能体探索低概率密度的区域，如下所示：

其中A为智能体的动作，S为当前状态，S′为下一状态，其可以写作条件互信息I([A，S_i]；S′_j|S)I([A，S_i]；S′_j|S)，其中S的下标i和j对应对应多等分的状态的表征中的每个等分，其中对于状态表征的划分和由相邻时间步定义的二分因果图1所示。

3.利用深度网络学习状态转移模型，其建模了相邻时间步状态表征的非线性映射，其中在本方法中将第零步状态表征设置为全零的张量，同时第零步智能体不进行动作因此将动作表征也定义为全零的张量，本方法状态转移模型建模为一个循环神经网络，其主体结构采用了多头自注意力机制实现；通过对多头自注意力矩阵进行约束以保证的多头自注意力机制对于因果图表示的一致性，以下第一行为经过软最大化后的多头自注意力矩阵，第二行为对多头自注意力矩阵取平均后处以温度参数，第三行为多头自注意力和平均自注意力矩阵相乘再乘上对状态表征的划分数m。

Atten_htm＝SoftMax(Q_htd，K_hmd)

4.其中，Q_htdQ_htd和K_hmdK_hmd为多头自注意力机制的查询(query)和键(key)，下标中的h对应多头自注意力的每个头(head)，H为多头自注意力总的头数，d为向量维度，t和m对应多等分的状态的表征；同时为了保证训练的稳定性，本方法采用了门循环单元(GRU)取代对多头自注意力机制的的残差结构；在决定在前时间步的因果图连接时，本方法通过对平均自注意力矩阵作布尔运算，当其中元素为每行最大k个值时设置为1否则设置为0，或者通过一个阈值的选取作二值化操作如下所示：

5.在本方法中运用和了混合高斯模型首先对状态划分的联合分布进行建模，因为其对于任意的条件分布混合高斯模型可以提供解析式以进行概率估计和采样；其如图2所示，在训练的过程中通过只训练新探索的状态并将其与历史状态的混合高斯模型进行比较融合的出新的更新后的混合高模型以消除因每次有新加入数据而不得不重新对混合高斯模型进行训练的必要性。

6.交替地训练探索智能体和任务实现智能体，并将探索智能体和任务实现智能体分别部署到环境中进行新状态的探索或任务实现的尝试；

初始步骤：在初始阶段，随机初始化循环神经网络，策略网络，价值网络的权重和混合高斯模型的均值和方差；通过将此随机初始化的强化学习算法部署在环境中通过控制机械手臂进行随机探索获得初始的经验数据；随机探索指智能体通过感知其环境、随机的采取行动，并在每个时间间隔从环境接收观测(图像)和奖励(标量数值)，并向中介器(机械手臂)发送动作(关节角度，速度等)；重复这一过程到一定的时间步长所收集到的每个时间步上的观测、奖励和所采取的动作构成智能体的经验数据，其也称为一幕经验数据；此后将经验数据存储进入磁盘以便此后智能体对历史访问状态转移经验数据的再利用；此后循环执行以下步骤一至步骤五至算法收敛:

步骤一:随机读取历史访问多幕的经验数据，将经由卷积神经网络提取的观测图像的表征和执行的行动的序列输入到循环神经网络中，多幕数据并行依次从第一个时间步开始进入基于自注意力和门控单元构建的循环神经网络，网络在每个时间步的输入为前一时间步状态，动作和经由卷积神经网络提取的观测图像的表征，重建输出当前时间步观测图像；其中重建损失函数为输入的观测图像的高斯似然估计；利用状态进行因果互信息估计，即为奖励；

步骤二：利用步骤一获取得到的经验数据，以访问多幕的经验数据为初始观测1像，以在步骤一训练获得的状态转移模型(循环神经网络)基础上进行任务实现智能体的训练；首先随机将历史访问多幕的经验数据的观测图像的表征设置为智能体的预期达到目标，使得智能体在状态转移模型基础上进行任务的实现；智能体通过策略函数选择动作，并通过状态转移模型的预测得到下一个时间步的新的状态，将此新的状态中所包含的图像观测信息与包含目标条件图像的信息的表征进行相似度比较，得到当前时间步的智能体的奖励值(相似度)；同时，为了使得智能体有长期规划的能力，通过时序差分训练价值函数；

步骤三：将步骤一获取得到的由经验数据经由循环神经网络得到的状态，通过期望最大化算法进行混合高斯分布的分布拟合，之后将其与历史状态的混合高斯芬分布进行比较融合的得出的更新后的混合高斯分布(用于因果互信息估计)；在训练的过程中通过只训练新探索的状态并将其与历史状态的混合高斯模型进行比较融合的出新的更新后的混合高模型以消除因每次有新加入数据而不得不重新对混合高斯模型进行训练的必要性；同时，为了获得更好的分布拟合性能，本方法将此过程方法在图形处理单元上进行实现以更快的并行处理(图形处理单元的多个处理核心并行处理)大量的数据；

步骤四：利用步骤一获取得到的经验数据，以访问多幕的经验数据为初始观测图像，以在步骤一训练获得的状态转移模型(循环神经网络)基础上进行探索智能体的训练；探索智能体的奖励为基于因果推断的条件熵增，其中因为因果互信息的估计需要对状态的任意二划分的条件分布进行建模；如图1所示，本方法将状态表征进行了多等分以便通过借助因果推断方法对强化学习状态空间进行探索；同时，本方法也可视为借助强化学习对以下因果互信息进行最大化的过程，在此本文使用了因果互信息估计；其通过最大化动作和一部分状态，他们与下一状态的条件因果互信息在实现最大化智能体对于外部环境的干预的同时，还使得智能体探索低概率密度的区域；探索智能体通过策略函数选择动作，并通过状态转移模型的预测得到下一个时间步的新的状态，而新的状态的奖励值定义为上一状态和当前状态的因果互信息，由此得到的因果图连接矩阵用于在估计当前步因果互信息时所需的对状态的二划分，此后通过采样由步骤三的到的状态分布得到因果互信息的估计最后，与步骤二一样，为了使得智能体有长期规划的能力，通过时序差分训练价值函数；

步骤五：将探索智能体和任务实现智能体依次部署到环境中，通过使用步骤二和步骤四的到的探索智能体和任务实现智能的策略函数，与环境进行交互得到新的经验数据，并将此经验数据存储进入磁盘以便此后智能体对历史访问状态转移经验数据的再利用；其中探索智能体和任务实现智能体通过在状态转移模型中进行想象的一系列动作来发现遥远的目标，以找到具有高预期信息增益的新状态；之后，探索智能体和任务实现智能体执行那些想象环境中的动作以发现新的态，这些动作可能会将代理引导到超出历史状态分布边界数步的状态，因为否则模型不会有很高的不确定性或信息增益；最后，因为任务实现智能体是基于状态条件的多目标实现智能体，这些发现的状态被用作任务实现智能体的不同目标；

测试阶段，通过将智能体部署到不同的环境中并分别完成不同的指定为目标的图像任务的平均成功率来评价其表现；如图3图6其中每幅图中前两行分别为测试时目标图像和实际达到的图像，第三行为测试的成功率。