CN113485107B

CN113485107B - 基于一致性约束建模的强化学习机器人控制方法及系统

Info

Publication number: CN113485107B
Application number: CN202110768179.5A
Authority: CN
Inventors: 李秀; 贾若楠
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-08-22
Anticipated expiration: 2041-07-05
Also published as: CN113485107A

Abstract

本发明涉及一种基于一致性约束建模的强化学习机器人控制方法及系统，其包括：初始化环境和各网络参数；利用与真实环境的交互数据训练环境模型；利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；根据环境模型，采用Soft Actor‑Critic方法进行策略训练；重复执行直至收敛。本发明能减少对建模的误差，增加环境建模的准确性和鲁棒性，提高稳定性。本发明可以广泛在机器人控制领域中应用。

Description

基于一致性约束建模的强化学习机器人控制方法及系统

技术领域

本发明涉及一种机器人控制领域，特别是关于一种基于一致性约束建模的强化学习机器人控制方法及系统。

背景技术

近年来，深度学习在图像处理、语音合成、自然语言处理等领域取得一系列重大突破。深度强化学习是将深度学习的智能感知能力与强化学习的决策能力相结合，直接通过对高维感知输入的学习最终实现智能体的自主行为控制，描述的是智能体为实现任务而连续作出决策控制的过程。同时，强化学习已经在游戏对抗、机器人控制等领域取得了突破性进展。

深度强化学习具有一定的自主学习能力，无需给定先验知识，只需与环境进行不断交互，最终通过训练找到适合当前状态的最优策略，进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法，强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境，不断试错，通常需要大量训练样本及训练时间，才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模，得到环境模型后，此类方法无需与真实环境交互，可直接利用学得的环境模型生成所需训练样本进行策略学习，从而在一定程度上缓解样本利用率低及学习效率低的问题。另外，如果所学得的环境模型足够精确，智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而，学得的环境模型与真实环境间往往存在模型误差，难以保证算法的最优解渐近收敛。

在模型化强化学习的机器人控制领域，相关现有技术中的基于模型相关强化学习的仿人机器人步态控制方法，其使用强化学习来对仿人机器人行走过程中的步态进行控制，从而使仿人机器人的行走控制能通过与环境交互来进行自主调节，使仿人机器人在前后方向上保持稳定。但是该技术存在以下缺陷：(1)现有技术根据当前状态和值函数，使用梯度下降法求解出最优的控制动作，会存在策略退化问题，即值函数估计准确，但通过值函数得到的策略仍然不是最优。(2)现有技术采用单一的高斯模型，对环境建模能力弱，存在较大建模误差。(3)现有技术采用原始的Dyna-Q强化学习方法，算法的渐进性能低，且数据利用效率低。

发明内容

针对上述问题，本发明的目的是提供一种基于一致性约束建模的强化学习机器人控制方法及系统，其能减少对建模的误差，增加环境建模的准确性和鲁棒性，提高稳定性。

为实现上述目的，本发明采取以下技术方案：一种基于一致性约束建模的强化学习机器人控制方法，其包括：步骤1、初始化环境和各网络参数；步骤2、利用与真实环境的交互数据训练环境模型；步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；步骤4、根据环境模型，采用Soft Actor-Critic方法进行策略训练；步骤5、重复执行步骤2至步骤4，直至收敛。

进一步，所述步骤1中，初始化构建策略网络π_φ，Q函数网络Q_ψ，Q-target函数网络及环境模型/>以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ。

进一步，所述步骤2中，环境模型的训练方法包括以下步骤：

步骤21、利用策略π_φ与真实环境交互，将交互数据存放在真实环境的数据存放器D_env；

步骤22、从真实环境的数据存放器D_env中自助采样N批数据{D₁,D₂,…,D_N}，并在N批数据中随机采样一批数据{D_s}；

步骤23、根据步骤22中的自助采样数据和随机采样数据，通过极大似然和一致性约束训练环境模型。

进一步，所述步骤23中，在N批数据{D₁,D₂,…,D_N}上通过极大似然方法分布训练N个环境模型同时，将随机采样数据{D_s}复制N份，通过一致性约束训练N个环境模型。

进一步，所述N个环境模型的更新方式为：

式中，ω_L表示更新步长的调节因子，表示对L_total的θ求梯度，L_total为整体的环境模型训练损失函数。

进一步，所述整体的环境模型训练损失函数的获取方法为：

步骤231、获取极大似然的损失函数L_ML；

步骤232、获取一致性约束的损失函数L_KL采用KL距离作为度量；

步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数L_total为：

L_total＝L_ML+λ*L_KL；

式中，λ表示权重。

进一步，所述步骤4中，训练方法包括以下步骤：

步骤41、Critic部分对状态动作进行评估，Actor部分即为选择动作的策略；

步骤42、更新Q函数网络和策略网络的参数，并每隔预先设定时间更新Q-target函数网络参数。

进一步，所述步骤42中，更新方法为：

其中，表示Q-target函数网络参数，φ表示策略网络参数，ψ表示Q网络参数，/>表示对J_Q的参数ψ求梯度，/>表示对J_π的参数φ求梯度，ω,ω_π和ω_Q分别相应的更新步长。

进一步，所述步骤5中，收敛条件为：与环境交互的次数大于预先设定的数值。

一种基于一致性约束建模的强化学习机器人控制系统，其包括：初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块；所述初始化模块，用于初始化环境和各网络参数；所述环境模型训练模块，利用与真实环境的交互数据训练环境模型；所述数据交互模块，利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；所述策略训练模块，根据环境模型，采用Soft Actor-Critic方法进行策略训练；所述收敛模块，重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块，直至收敛。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明基于Actor-Critic的策略优化方法，降低策略梯度的方差，解决了策略退化的问题，提高稳定性。

2、本发明对环境模型采用集成模型和一致性约束，减少对建模的误差，增加环境建模的准确性和鲁棒性。

3、本发明采用改进Dyna-Q的强化学习方法，提高了控制方法的渐进性能和数据利用效率。

附图说明

图1是本发明的控制方法整体流程示意图；

图2是本发明的HalfCheetah-v2的任务环境示意图；

图3是不同算法在HalfCheetah任务上的实验结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明中采用的强化学习通常使用马尔可夫决策过程(Markov DecisionProcess，简称MDP)来描述，可以由一个五元组构成(S,A,P,R,γ)。其中，S表示状态空间，A表示动作空间，R表示奖励函数，P表示状态转移概率矩阵，γ表示折扣因子。智能体每个时刻观测到状态s_t，根据当前状态由策略π产生一个动作a_t，通过与真实环境交互后得到下一个状态s_t+1，并反馈奖励信号r_t，强化学习的目标是最大化累积折扣奖励回报的期望

本发明中采用Soft Actor-Critic作为策略优化方法，其优化目标 H表示策略的熵函数。

而基于模型的强化学习则使用p_θ(s′|s，a)表示环境模型，此处构建一个高斯分布p_θ(s_t+1|s_t,a_t)＝N(μ_θ(s_t，a_t)，Σ_θ(s_t，a_t))，高斯分布的网络参数为θ；α表示调节因子，r表示奖励值，s表示状态信息，a表示动作信息。

在本发明的第一实施方式中，如图1所示，提供一种基于一致性约束建模的强化学习机器人控制方法，其包括以下步骤：

步骤1、初始化环境和各网络参数；

其中，包括初始化构建策略网络π_φ，Q函数网络Q_ψ，Q-target函数网络及环境模型/>N表示环境模型的数量；以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ。

步骤2、利用与真实环境的交互数据训练环境模型；

具体包括以下步骤：

步骤22、从真实环境的数据存放器D_env中bootstrapped自助采样N批数据{D₁，D₂，…，D_N}，并在N批数据中随机采样一批数据{D_s}；

步骤23、根据步骤22中的自助采样数据和随机采样数据，通过极大似然和一致性约束训练环境模型；

具体为：在N批数据{D₁，D₂，…,D_N}上通过极大似然方法分布训练N个环境模型同时，将随机采样数据{D_s}复制N份，通过一致性约束训练N个环境模型。

其中，N个环境模型的更新方式为：

整体的环境模型训练损失函数的获取方法为：

步骤231、获取极大似然的损失函数L_ML为：

式中，T表示矩阵的转置操作，μ_θ表示参数为θ的均值向量，s_n表示第n个模型所处的状态信息，a_n表示第n个模型所处的动作信息，det表示计算矩阵的行列式。

步骤232、获取一致性约束的损失函数L_KL采用KL距离作为度量：

式中，D_KL表示计算和/>两个分布之间的KL距离。

L_total＝L_ML+λ*L_KL；

式中，λ表示权重。

步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中。

步骤4、根据环境模型，采用Soft Actor-Critic方法进行策略训练。

具体训练方法包括以下步骤：

步骤41、Critic部分对状态动作进行评估，Actor部分即为选择动作的策略。Critic的损失函数J_Q(ψ)为：

其中，

Actor部分的损失函数J_π(φ)为：

J_π(φ)＝E[(D_KL(π_φ(·|s_t)||exp(Q_ψ(s_t,·)-logZ(s_t)))]

其中，Z函数为配分函数，对Q值进行归一化分布。

步骤42、更新Q函数网络和策略网络的参数，并每隔预先设定时间更新Q-target函数网络参数；

具体更新方法为：

其中，表示Q-target函数网络参数，φ表示策略网络参数，ψ表示Q网络参数，/>表示对J_Q的参数ψ求梯度，/>表示对J_π的参数φ求梯度，ω,ω_π和ω_Q分别为相应的更新步长。

步骤5、重复执行步骤2至步骤4，直至收敛；

收敛条件为：与环境交互的次数大于预先设定的数值；在本实施例中，预先设定的数值优选为200k，其中，k表示千的单位。

步骤6、加载最终训练得到的策略模型，在仿真环境和相应的实际环境中进行测试。

在本发明的第二实施方式中，提供一种基于一致性约束建模的强化学习机器人控制系统，其包括初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块；

初始化模块，用于初始化环境和各网络参数；

环境模型训练模块，利用与真实环境的交互数据训练环境模型；

数据交互模块，利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；

策略训练模块，根据环境模型，采用Soft Actor-Critic方法进行策略训练；

收敛模块，重复执行环境模型训练模块、数据交互模块和策略训练模块，直至收敛。

实施例：

为了体现本发明的有效性，采用MuJoCo仿真环境HalfCheetah任务进行测试。该任务的目的是控制二维的HalfCheetah“半猎豹”形机器人向前跑，使其可以又快又好地学会奔跑，如图2所示是该任务的具体场景。对于该仿真环境中要控制的智能体而言，输入状态是17维连续量，输出动作是连续的6维变量，分别是一只脚需要控制三个关节一共6个关节，每个关节的运动范围为[-1,1]。实验时，本发明的超参数设置如表1所示。

表1本发明的超参数设置

超参数设置	值
		训练总轮数	200
一轮中与环境交互的次数	1000
		每次交互中模型产生的轨迹数	400
集成模型的个数	7
		每次交互中策略更新的频率	40
模型产生轨迹的长度	1

在HalfCheetah任务上，对比四种现有的基础方法(MBPO,STEVE,PETS,SAC)，EMC-AC代表本发明的方法，结果如图3所示。其中SAC是无模型的方法，EMC-AC,MBPO,STEVE和PETS都是模型化的方法。

为了降低随机性造成的实验影响，每种方法至少测试4次，并将4次结果的平均值用实线表示，4次结果的标准差用阴影部分表示。另外，横轴表示与环境交互的次数，所有算法均交互200k次，纵轴表示每次交互测试得到的累积奖励回报。虚线表示SAC交互2000k(即2M)，所得到的实验结果。

由此可知，本发明的方法在训练速度和最终表现上都是最优的，极大地提升了算法的数据利用效率和渐进性能。本发明的方法已经超过SAC无模型的方法10倍交互次数的渐进性能。本发明采用多模型对环境建模，减少单一环境建模带来的模型误差；并结合一致性正则化对多模型进行约束，通过调整权重λ有效提高控制方法的稳定性和性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于一致性约束建模的强化学习机器人控制方法，其特征在于，包括：

步骤1、初始化环境和各网络参数；

步骤2、利用与真实环境的交互数据训练环境模型；

步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；

步骤4、根据环境模型，采用Soft Actor-Critic方法进行策略训练；

步骤5、重复执行步骤2至步骤4，直至收敛；

所述步骤4中，训练方法包括以下步骤：

步骤41、Critic部分对状态动作进行评估，Actor部分为选择动作的策略；

Critic的损失函数J_Q(ψ)为：

其中，α表示调节因子，r表示奖励值，s表示状态信息，a表示动作信息，γ表示折扣因子，H表示策略的熵函数；

Actor部分的损失函数J_π(φ)为：

J_π(φ)＝E[(D_KL(π_φ(·|s_t)||exp(Q_ψ(s_t，·)-log Z(s_t)))]

其中，Z函数为配分函数，对Q值进行归一化分布；D_KL表示计算和/>两个分布之间的KL距离；

步骤42、更新Q函数网络Q_ψ和策略网络π_φ的参数，并每隔预先设定时间更新Q-target函数网络参数；

更新方法为：

其中，表示Q-target函数网络参数，φ表示策略网络参数，ψ表示Q网络参数，/>表示对J_Q的参数ψ求梯度，/>表示对J_π的参数φ求梯度，ω,ω_π和ω_Q分别相应的更新步长，D_model为预测环境模型的数据存放器。

2.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤1中，初始化构建策略网络π_φ，Q函数网络Q_ψ，Q-target函数网络及环境模型/>以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ。

3.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤2中，环境模型的训练方法包括以下步骤：

4.如权利要求3所述强化学习机器人控制方法，其特征在于，所述步骤23中，在N批数据{D₁,D₂,…,D_N}上通过极大似然方法分布训练N个环境模型同时，将随机采样数据{D_s}复制N份，通过一致性约束训练N个环境模型。

5.如权利要求4所述强化学习机器人控制方法，其特征在于，所述N个环境模型的更新方式为：

6.如权利要求5所述强化学习机器人控制方法，其特征在于，所述整体的环境模型训练损失函数的获取方法为：

步骤231、获取极大似然的损失函数L_ML；

L_total＝L_ML+λ*L_KL；

式中，λ表示权重。

7.如权利要求1所述强化学习机器人控制方法，其特征在于，所述步骤5中，收敛条件为：与环境交互的次数大于预先设定的数值。

8.一种基于一致性约束建模的强化学习机器人控制系统，其特征在于，包括：初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块；

所述初始化模块，用于初始化环境和各网络参数；

所述环境模型训练模块，利用与真实环境的交互数据训练环境模型；

所述数据交互模块，利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；

所述策略训练模块，根据环境模型，采用Soft Actor-Critic方法进行策略训练；

所述收敛模块，重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块，直至收敛；

所述策略训练模块中，训练方法包括以下步骤：

Critic的损失函数J_Q(ψ)为：

Actor部分的损失函数J_π(φ)为：

J_π(φ)＝E[(D_KL(π_φ(·|s_t)||exp(Q_ψ(s_t，·)-log Z(s_t)))]

更新方法为：