CN113419424B

CN113419424B - 减少过估计的模型化强化学习机器人控制方法及系统

Info

Publication number: CN113419424B
Application number: CN202110757340.9A
Authority: CN
Inventors: 李秀; 贾若楠
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-08-18
Anticipated expiration: 2041-07-05
Also published as: CN113419424A

Abstract

本发明涉及一种减少过估计的模型化强化学习机器人控制方法及系统，其包括：初始化环境和各网络参数；利用与真实环境的交互数据训练环境模型；利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；根据环境模型，采用Actor‑Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值根据权重λ进行调节；重复执行，直至收敛。本发明能解决策略退化的问题，缓解值函数的过估计问题。本发明可以广泛在机器人控制领域中应用。

Description

减少过估计的模型化强化学习机器人控制方法及系统

技术领域

本发明涉及一种机器人控制领域，特别是关于一种减少过估计的模型化强化学习机器人控制方法及系统。

背景技术

深度强化学习具有一定的自主学习能力，无需给定先验知识，只需与环境进行不断交互，最终通过训练找到适合当前状态的最优策略，进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法，强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境，不断试错，通常需要大量训练样本及训练时间，才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模，得到环境模型后，此类方法无需与真实环境交互，可直接利用学得的环境模型生成所需训练样本进行策略学习，从而在一定程度上缓解样本利用率低及学习效率低的问题。另外，如果所学得的环境模型足够精确，智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而，学得的环境模型与真实环境间往往存在模型误差，难以保证算法的最优解渐近收敛。

另外，强化学习中基于值函数估计的算法往往会由于大规模的动作值过估计而出现不稳定和效果不佳等现象的存在，而导致过估计的主要原因来自于最大化值函数max逼近，该过程目标是为了最大的累计期望奖励，而在这个过程中产生了正向偏差。

在值函数强化学习的机器人控制领域，现有相关技术中的基于多重目标神经网络的强化学习值函数更新方法中，提出基于多重目标神经网络的强化学习值函数更新方法，使得减少值函数估计过程中的过估计误差，从而得到最终策略。但是该现有技术存在以下缺陷：(1)使用无模型的强化学习方法，使得算法采样效率偏低。(2)采用基于值函数的强化学习方法，会存在策略退化问题，即值函数估计准确，但通过值函数得到的策略仍然不是最优。(3)使用多重目标神经网络估计值函数的方式，造成值函数的计算较为复杂，对计算资源消耗较大。

发明内容

针对上述问题，本发明的目的是提供一种减少过估计的模型化强化学习机器人控制方法及系统，其能解决策略退化的问题，缓解值函数的过估计问题。

为实现上述目的，本发明采取以下技术方案：一种减少过估计的模型化强化学习机器人控制方法，其包括：步骤1、初始化环境和各网络参数；步骤2、利用与真实环境的交互数据训练环境模型；步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；步骤4、根据环境模型，采用Actor-Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值根据权重λ进行调节；步骤5、重复执行步骤2至步骤4，直至收敛。

进一步，所述步骤1中，初始化构建策略网络π_φ，Q函数网络{Q_ψ1，Q_ψ2}，Q-target函数网络及环境模型/>以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ。

进一步，所述步骤2中，环境模型的训练方法包括以下步骤：

步骤21、利用策略π_φ与真实环境交互，将交互数据存放在真实环境的数据存放器D_env；

步骤22、通过极大似然的损失函数训练环境预测模型。

进一步，所述步骤22中，根据环境模型训练损失函数L_ML得到N个环境模型的更新方式为：

式中，θ_i表示第i个环境模型的网络参数，ω_L表示更新步长的调节因子，表示对L_ML的θ求梯度。

进一步，所述整体的环境模型训练损失函数L_ML为：

式中，T表示矩阵的转置操作，μ_θ表示参数为θ的均值向量，s_n表示第n个模型所处的状态信息，a_n表示第n个模型所处的动作信息，det表示计算矩阵的行列式。

进一步，所述步骤4中，训练方法包括以下步骤：

步骤41、Critic部分对状态动作进行评估，Actor部分即为选择动作的策略；

步骤42、更新Q函数网络和策略网络的参数，并每隔预先设定时间更新Q-target函数网络参数。

进一步，所述步骤42中，更新方法为：

其中，ψ_i表示第i个Q网络参数，表示第i个Q-target函数网络参数，φ表示策略网络参数，/>表示对J_Q的参数ψ求梯度，/>表示对J_π的参数φ求梯度，ω,ω_π和ω_Q分别相应的更新步长。

进一步，所述步骤5中，收敛条件为：与环境交互的次数大于预先设定的数值。

一种减少过估计的模型化强化学习机器人控制系统，其特包括：初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块；所述初始化模块，用于初始化环境和各网络参数；所述环境模型训练模块，利用与真实环境的交互数据训练环境模型；所述数据交互模块，利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；所述策略训练模块，根据环境模型，采用Actor-Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值根据权重λ进行调节；所述收敛模块，重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块，直至收敛。

进一步，所述策略训练模块中，训练方法包括以下步骤：

本发明由于采取以上技术方案，其具有以下优点：

1、本发明采用基于模型的强化学习方法，对动态环境进行建模，提高算法的采样效率。

2、本发明采用Actor-Critic的策略优化方法，降低策略梯度的方差，解决策略退化的问题，提高算法的稳定性。

3、本发明对值函数估计采用一种带有方差惩罚项约束的悲观估计，缓解值函数的过估计问题。

附图说明

图1是本发明控制方法的整体流程示意图；

图2是本发明的Humanoid-v2的任务环境示意图；

图3是不同算法在Humanoid任务上的实验结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明中采用的强化学习通常使用马尔可夫决策过程(Markov DecisionProcess，简称MDP)来描述，可以由一个五元组构成(S,A,P,R,γ)。其中，S表示状态空间，A表示动作空间，R表示奖励函数，P表示状态转移概率矩阵，γ表示折扣因子。智能体每个时刻观测到状态s_t，根据当前状态由策略π产生一个动作a_t，通过与真实环境交互后得到下一个状态s_t+1，并反馈奖励信号r_t，强化学习的目标是最大化累积折扣奖励回报的期望

而基于模型的强化学习则使用p_θ(s′|s,a)表示环境模型，此处构建一个高斯分布p_θ(s_t+1|s_t,a_t)＝N(μ_θ(s_t,a_t),Σ_θ(s_t,a_t))，高斯分布的网络参数为θ；α表示调节因子，r表示奖励值，s表示状态信息，a表示动作信息。

在本发明的第一实施方式中，如图1所示，提供一种减少过估计的模型化强化学习机器人控制方法，其包括以下步骤：

步骤1、初始化环境和各网络参数；

其中，包括初始化构建策略网络π_φ，Q函数网络{Q_ψ1，Q_ψ2}，Q-target函数网络及环境模型/>以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ，N表示环境模型的数量。

步骤2、利用与真实环境的交互数据训练环境模型；

具体包括以下步骤：

步骤22、通过极大似然的损失函数训练环境预测模型

整体的环境模型训练损失函数L_ML为：

根据环境模型训练损失函数L_ML得到N个环境模型的更新方式为：

式中，ω_L表示更新步长的调节因子，表示对L_ML的θ求梯度，θ_i表示第i个环境模型的网络参数。

步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中。

步骤4、根据环境模型，采用Actor-Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值可以根据权重λ进行调节；

具体训练方法包括以下步骤：

步骤41、Critic部分对状态动作进行评估，Actor部分即为选择动作的策略。Critic的损失函数J_Q(ψ_i)为：

其中，Var表示方差；

Actor部分的损失函数J_π(φ)为：

其中，d^π表示在策略π下状态的平稳分布。

步骤42、更新Q函数网络和策略网络的参数，并每隔预先设定时间更新Q-target函数网络参数；

具体更新方式为：

步骤5、重复执行步骤2至步骤4，直至收敛；

收敛条件为：与环境交互的次数大于预先设定的数值；在本实施例中，预先设定的数值优选为200k，其中，k表示千的单位。

步骤6、加载最终训练得到的策略模型，在仿真环境和相应的实际环境中进行测试。

在本发明的第二实施方式中，提供一种减少过估计的模型化强化学习机器人控制系统，其包括初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块；

初始化模块，用于初始化环境和各网络参数；

环境模型训练模块，利用与真实环境的交互数据训练环境模型；

数据交互模块，利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；

策略训练模块，根据环境模型，采用Actor-Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值根据权重λ进行调节；

收敛模块，重复执行环境模型训练模块、数据交互模块和策略训练模块，直至收敛。

上述实施例中，在策略训练模块中，训练方法包括以下步骤：

实施例：

为了体现本发明的有效性，采用MuJoCo仿真环境Humanoid任务进行测试。该任务的目的是控制二维的Humanoid“人”形机器人向前跑，使其在环境中跑得越快越好，如图2所示是该任务的具体场景。对于该仿真环境中要控制的智能体而言，输入状态是376维连续量，输出动作是连续的17维变量，全身一共17个关节，每个关节的运动范围为[-0.4,0.4]。实验时，本发明的超参数设置如表1所示。

表1本发明的超参数设置

超参数设置	值
		训练总轮数	200
一轮中与环境交互的次数	1000
		每次交互中模型产生的轨迹数	400
集成模型的个数	7
		每次交互中策略更新的频率	20
模型产生轨迹的长度	1→16
		Q网络个数	2
Q-target目标网络个数	2

在Humanoid任务上，对比三种现有的基础方法(MBPO,STEVE,SAC)，RAMB代表我们的方法，结果如图3所示。其中SAC是无模型的方法，RAMB,MBPO和STEVE都是模型化的方法。

为了降低随机性造成的实验影响，每种方法至少测试4次，并将4次结果的平均值用实线表示，4次结果的标准差用阴影部分表示。另外，横轴表示与环境交互的次数，所有算法均交互200k次，纵轴表示每次交互测试得到的累积奖励回报。虚线表示SAC交互2000k(即2M)，所得到的实验结果。

由此可知，本发明的方法在训练速度和最终表现上都是最优的，极大地提升了算法的数据利用效率和渐进性能。另外，本发明的方法已经接近SAC无模型的方法10倍交互次数的渐进性能。

本发明采用基于模型的强化学习方法，提高了算法的数据利用效率；并在模型化方法中提出一种减少过估计的方法，通过调整权重λ能够改善过估计的程度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种减少过估计的模型化强化学习机器人控制方法，其特征在于，包括：

步骤1、初始化环境和各网络参数；

步骤2、利用与真实环境的交互数据训练环境模型；

步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；

步骤4、根据环境模型，采用Actor-Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值根据权重λ进行调节；

步骤5、重复执行步骤2至步骤4，直至收敛；

所述步骤4中，训练方法包括以下步骤：

步骤41、Critic部分对状态动作进行评估，Actor部分为选择动作的策略；

Critic的损失函数J_Q(ψ_i)为：

其中，Var表示方差；智能体每个时刻观测到状态为s_t，根据当前状态由策略π产生一个动作a_t；

Actor部分的损失函数J_π(φ)为：

其中，d^π表示在策略π下状态的平稳分布；

更新方法为：

2.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤1中，初始化构建策略网络π_φ，Q函数网络{Q_ψ1，Q_ψ2}，Q-target函数网络及环境模型/>以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ。

3.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤2中，环境模型的训练方法包括以下步骤：

步骤22、通过极大似然的损失函数训练环境预测模型。

4.如权利要求3所述强化学习机器人控制方法，其特征在于，所述步骤22中，根据环境模型训练损失函数L_ML得到N个环境模型的更新方式为：

5.如权利要求4所述强化学习机器人控制方法，其特征在于，所述环境模型训练损失函数L_ML为：

6.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤5中，收敛条件为：与环境交互的次数大于预先设定的数值。

7.一种减少过估计的模型化强化学习机器人控制系统，其特征在于，包括：初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块；

所述初始化模块，用于初始化环境和各网络参数；

所述环境模型训练模块，利用与真实环境的交互数据训练环境模型；

所述数据交互模块，利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；

所述策略训练模块，根据环境模型，采用Actor-Critic方法进行策略训练，其中Critic评估方法采用带有方差惩罚项的评估方式，估计值根据权重λ进行调节；

所述收敛模块，重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块，直至收敛；

所述策略训练模块中，训练方法包括以下步骤：

Critic的损失函数J_Q(ψ_i)为：

Actor部分的损失函数J_π(φ)为：

其中，d^π表示在策略π下状态的平稳分布；

更新方法为：