CN107020636A

CN107020636A - 一种基于策略梯度的机器人学习控制方法

Info

Publication number: CN107020636A
Application number: CN201710321632.1A
Authority: CN
Inventors: 李军; 沈广田; 陈剑斌; 高杨建; 许阳
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2017-08-08

Abstract

本发明公开了一种适合机器人学习控制的策略梯度方法，涉及到机器人学习控制技术，包括数据采集模块，获取机器人运行过程中的信息数据；价值函数近似模块，以观测的状态信息和从环境获得的及时奖励为输入，获取价值函数的近似估计模型；策略梯度优化模块，将机器人学习控制策略参数化，通过对参数进行调整，优化，使机器人达到理想的运行状态。动作执行模块，将控制器输出的动作映射为机器人实际执行的动作命令。本发明提出的方法可用于不同类型机器人，尤其是多自由度机器人，具备学习复杂动作、求解随机性策略的能力，从而提高了机器人的智能性，降低了学习过程中的危险性，缩短了机器人学习时间，简化了控制器设计难度。

Description

一种基于策略梯度的机器人学习控制方法

技术领域

本发明涉及机器人学习控制技术，特别涉及一种可以将控制策略参数化的机器人学习控制方法。

背景技术

机器人学习控制领域已经有一些技术方法，其中最常用是基于价值函数近似的方法。为了获得状态-动作对的价值，通常使用TD(时序差分)学习算法和Q-学习算法。然而这些方法对于离散的状态—动作空间比较有效，当解决连续状态—动作问题时，就会出现很多问题。在连续空间中，为了实现对价值函数的可靠估计，往往需要在相应空间中采集大量数据，这在实际复杂的机器人系统中是很难实现的。并且随着机器人自由度不断增加又会出现“维数灾难”的问题。

此外，基于价值函数近似的方法还面临着其他问题：1、这种方法常用于对确定性策略的求解，对于随机性策略的处理存在很大困难，但是最佳策略往往是随机的；2、在一个动作的估计价值中一个随机的小的变化将会导致这个动作可能不会被执行，这种不连续的变化已经被确认为保证算法收敛的关键障碍；3、该方法无法保证在机器人学习过程中向机器人发送的指令均是安全可靠的。因此，该方法大多先是在仿真环境中搜索策略，无法直接应用在实际的物理环境中。

因此急需一种可用于不同类型的机器人，尤其是多自由度机器人，具备学习复杂动作、求解随机性策略的能力，从而提高机器人的智能性，降低学习过程中的危险性，缩短机器人学习时间，简化控制器设计难度的机器人学习控制方法。

发明内容

有鉴于此，为了解决上述问题，本发明提出了一种可用于不同类型的机器人，尤其是多自由度机器人，具备学习复杂动作、求解随机性策略的能力，从而提高机器人的智能性，降低学习过程中的危险性，缩短机器人学习时间，简化控制器设计难度的机器人学习控制方法。

本发明的目的就是提出一种基于策略梯度的机器人学习控制方法，主要是通过以下技术方案来实现的：

本发明提出的一种基于策略梯度的机器人学习控制方法，包括以下步骤：

S1：输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据；

S2：根据机器人获取的状态信息数据以及环境感知信息数据，计算及时奖励以及价值函数的近似估计模型；

S3：根据获得的累积奖励以及价值函数近似估计模型，对机器人学习控制器的策略参数进行调整，优化，使机器人达到理想的运行状态；

S4：输出机器人实际执行的动作命令。

进一步，所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据，环境感知数据为可表达环境动态模型的传感数据。

进一步，所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定。

进一步，所述步骤S2的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中，采用梯度下降法调整权重向量，同时采用Q-学习算法估计状态-动作对的价值。

进一步，所述步骤S3中利用策略梯度方法，根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整，优化，使机器人达到理想的运行状态；

本发明的特点在于：采用策略梯度方法可以处理连续性场景，求解随机性策略。将控制策略参数化，可以缩减参数个数，处理多自由机器人学习问题。策略梯度采用概率化输出，克服了传统基于价值函数近似导致的不收敛问题。本文提出的基于策略梯度的激励学习方法可用于不同类型机器人，处理多自由度机器人学习复杂动作的问题、从而提高了机器人的学习能力和智能性，降低了学习过程中的危险性，缩短了机器人学习时间，简化了控制器设计难度。

附图说明

为了使本发明的目的，技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明提供的基于策略梯度的机器人学习控制方法的结构框图。

图2为本发明提供的基于策略梯度的机器人学习控制方法的原理图。

具体实施方式

以下将结合附图，对本发明所述的方法做进一步的详细说明。图1为本发明提供的基于策略梯度的机器人学习控制方法的结构框图；图2为本发明提供的基于策略梯度的机器人学习控制方法的原理图，如图所示：本发明提供的基于策略梯度的机器人学习控制方法，包括以下步骤：

S4：输出机器人实际执行的动作命令。

作为上述实施例的进一步改进，所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据，环境感知数据为可表达环境动态模型的传感数据。

作为上述实施例的进一步改进，所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定；

作为上述实施例的进一步改进，所述步骤S2的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中，采用梯度下降法调整权重向量，同时采用Q-学习算法估计状态-动作对的价值；

作为上述实施例的进一步改进，所述步骤S3中利用策略梯度方法，根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整，优化，使机器人达到理想的运行状态；

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型内。

Claims

1.基于策略梯度的机器人学习控制方法，其特征在于：包括以下步骤：

S4：输出机器人实际执行的动作命令。

2.根据专利要求1所述的基于策略梯度的机器人学习控制方法，其特征在于：所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据，环境感知数据为可表达环境动态模型的传感数据。

3.根据专利要求1所述的基于策略梯度的机器人学习控制方法，其特征在于：所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定。

4.根据专利要求1所述的基于策略梯度的机器人学习控制方法，其特征在于：所述步骤S2中的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中，采用梯度下降法调整权重向量，同时采用Q-学习算法估计状态-动作对的价值。

5.根据专利要求1所述的基于策略梯度的机器人学习控制方法，其特征在于：所述步骤S3中利用策略梯度方法，根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整，优化，使机器人达到理想的运行状态。