CN107020636A - 一种基于策略梯度的机器人学习控制方法 - Google Patents
一种基于策略梯度的机器人学习控制方法 Download PDFInfo
- Publication number
- CN107020636A CN107020636A CN201710321632.1A CN201710321632A CN107020636A CN 107020636 A CN107020636 A CN 107020636A CN 201710321632 A CN201710321632 A CN 201710321632A CN 107020636 A CN107020636 A CN 107020636A
- Authority
- CN
- China
- Prior art keywords
- robot
- gradient
- policy
- learning
- information data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种适合机器人学习控制的策略梯度方法,涉及到机器人学习控制技术,包括数据采集模块,获取机器人运行过程中的信息数据;价值函数近似模块,以观测的状态信息和从环境获得的及时奖励为输入,获取价值函数的近似估计模型;策略梯度优化模块,将机器人学习控制策略参数化,通过对参数进行调整,优化,使机器人达到理想的运行状态。动作执行模块,将控制器输出的动作映射为机器人实际执行的动作命令。本发明提出的方法可用于不同类型机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高了机器人的智能性,降低了学习过程中的危险性,缩短了机器人学习时间,简化了控制器设计难度。
Description
技术领域
本发明涉及机器人学习控制技术,特别涉及一种可以将控制策略参数化的机器人学习控制方法。
背景技术
机器人学习控制领域已经有一些技术方法,其中最常用是基于价值函数近似的方法。为了获得状态-动作对的价值,通常使用TD(时序差分)学习算法和Q-学习算法。然而这些方法对于离散的状态—动作空间比较有效,当解决连续状态—动作问题时,就会出现很多问题。在连续空间中,为了实现对价值函数的可靠估计,往往需要在相应空间中采集大量数据,这在实际复杂的机器人系统中是很难实现的。并且随着机器人自由度不断增加又会出现“维数灾难”的问题。
此外,基于价值函数近似的方法还面临着其他问题:1、这种方法常用于对确定性策略的求解,对于随机性策略的处理存在很大困难,但是最佳策略往往是随机的;2、在一个动作的估计价值中一个随机的小的变化将会导致这个动作可能不会被执行,这种不连续的变化已经被确认为保证算法收敛的关键障碍;3、该方法无法保证在机器人学习过程中向机器人发送的指令均是安全可靠的。因此,该方法大多先是在仿真环境中搜索策略,无法直接应用在实际的物理环境中。
因此急需一种可用于不同类型的机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高机器人的智能性,降低学习过程中的危险性,缩短机器人学习时间,简化控制器设计难度的机器人学习控制方法。
发明内容
有鉴于此,为了解决上述问题,本发明提出了一种可用于不同类型的机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高机器人的智能性,降低学习过程中的危险性,缩短机器人学习时间,简化控制器设计难度的机器人学习控制方法。
本发明的目的就是提出一种基于策略梯度的机器人学习控制方法,主要是通过以下技术方案来实现的:
本发明提出的一种基于策略梯度的机器人学习控制方法,包括以下步骤:
S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;
S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;
S3:根据获得的累积奖励以及价值函数近似估计模型,对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
S4:输出机器人实际执行的动作命令。
进一步,所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据,环境感知数据为可表达环境动态模型的传感数据。
进一步,所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定。
进一步,所述步骤S2的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中,采用梯度下降法调整权重向量,同时采用Q-学习算法估计状态-动作对的价值。
进一步,所述步骤S3中利用策略梯度方法,根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
本发明的特点在于:采用策略梯度方法可以处理连续性场景,求解随机性策略。将控制策略参数化,可以缩减参数个数,处理多自由机器人学习问题。策略梯度采用概率化输出,克服了传统基于价值函数近似导致的不收敛问题。本文提出的基于策略梯度的激励学习方法可用于不同类型机器人,处理多自由度机器人学习复杂动作的问题、从而提高了机器人的学习能力和智能性,降低了学习过程中的危险性,缩短了机器人学习时间,简化了控制器设计难度。
附图说明
为了使本发明的目的,技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明提供的基于策略梯度的机器人学习控制方法的结构框图。
图2为本发明提供的基于策略梯度的机器人学习控制方法的原理图。
具体实施方式
以下将结合附图,对本发明所述的方法做进一步的详细说明。图1为本发明提供的基于策略梯度的机器人学习控制方法的结构框图;图2为本发明提供的基于策略梯度的机器人学习控制方法的原理图,如图所示:本发明提供的基于策略梯度的机器人学习控制方法,包括以下步骤:
S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;
S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;
S3:根据获得的累积奖励以及价值函数近似估计模型,对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
S4:输出机器人实际执行的动作命令。
作为上述实施例的进一步改进,所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据,环境感知数据为可表达环境动态模型的传感数据。
作为上述实施例的进一步改进,所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定;
作为上述实施例的进一步改进,所述步骤S2的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中,采用梯度下降法调整权重向量,同时采用Q-学习算法估计状态-动作对的价值;
作为上述实施例的进一步改进,所述步骤S3中利用策略梯度方法,根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型内。
Claims (5)
1.基于策略梯度的机器人学习控制方法,其特征在于:包括以下步骤:
S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;
S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;
S3:根据获得的累积奖励以及价值函数近似估计模型,对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
S4:输出机器人实际执行的动作命令。
2.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据,环境感知数据为可表达环境动态模型的传感数据。
3.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定。
4.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S2中的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中,采用梯度下降法调整权重向量,同时采用Q-学习算法估计状态-动作对的价值。
5.根据专利要求1所述的基于策略梯度的机器人学习控制方法,其特征在于:所述步骤S3中利用策略梯度方法,根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710321632.1A CN107020636A (zh) | 2017-05-09 | 2017-05-09 | 一种基于策略梯度的机器人学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710321632.1A CN107020636A (zh) | 2017-05-09 | 2017-05-09 | 一种基于策略梯度的机器人学习控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107020636A true CN107020636A (zh) | 2017-08-08 |
Family
ID=59529211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710321632.1A Pending CN107020636A (zh) | 2017-05-09 | 2017-05-09 | 一种基于策略梯度的机器人学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107020636A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762249A (zh) * | 2018-04-26 | 2018-11-06 | 常熟理工学院 | 基于近似模型多步优化的清洁机器人最优路径规划方法 |
CN109164821A (zh) * | 2018-09-26 | 2019-01-08 | 中科物栖(北京)科技有限责任公司 | 一种无人机姿态训练方法及装置 |
CN109523029A (zh) * | 2018-09-28 | 2019-03-26 | 清华大学深圳研究生院 | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 |
CN110799308A (zh) * | 2017-09-22 | 2020-02-14 | 谷歌有限责任公司 | 利用耐噪声结构化探索确定对于机器人的控制策略 |
CN112469539A (zh) * | 2018-08-10 | 2021-03-09 | 川崎重工业株式会社 | 机器人系统 |
CN112894809A (zh) * | 2021-01-18 | 2021-06-04 | 华中科技大学 | 一种基于强化学习的阻抗控制器设计方法和系统 |
CN113211441A (zh) * | 2020-11-30 | 2021-08-06 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN113677485A (zh) * | 2019-01-23 | 2021-11-19 | 谷歌有限责任公司 | 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应 |
CN113711139A (zh) * | 2019-04-12 | 2021-11-26 | 罗伯特·博世有限公司 | 用于操控技术装置的方法和设备 |
-
2017
- 2017-05-09 CN CN201710321632.1A patent/CN107020636A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110799308B (zh) * | 2017-09-22 | 2022-09-27 | 谷歌有限责任公司 | 利用耐噪声结构化探索确定对于机器人的控制策略 |
CN110799308A (zh) * | 2017-09-22 | 2020-02-14 | 谷歌有限责任公司 | 利用耐噪声结构化探索确定对于机器人的控制策略 |
US11697205B2 (en) | 2017-09-22 | 2023-07-11 | Google Llc | Determining control policies for robots with noise-tolerant structured exploration |
CN108762249A (zh) * | 2018-04-26 | 2018-11-06 | 常熟理工学院 | 基于近似模型多步优化的清洁机器人最优路径规划方法 |
CN112469539A (zh) * | 2018-08-10 | 2021-03-09 | 川崎重工业株式会社 | 机器人系统 |
CN112469539B (zh) * | 2018-08-10 | 2024-02-13 | 川崎重工业株式会社 | 机器人系统 |
CN109164821A (zh) * | 2018-09-26 | 2019-01-08 | 中科物栖(北京)科技有限责任公司 | 一种无人机姿态训练方法及装置 |
CN109164821B (zh) * | 2018-09-26 | 2019-05-07 | 中科物栖(北京)科技有限责任公司 | 一种无人机姿态训练方法及装置 |
CN109523029A (zh) * | 2018-09-28 | 2019-03-26 | 清华大学深圳研究生院 | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 |
CN109523029B (zh) * | 2018-09-28 | 2020-11-03 | 清华大学深圳研究生院 | 自适应双自驱动深度确定性策略梯度强化学习方法 |
CN113677485A (zh) * | 2019-01-23 | 2021-11-19 | 谷歌有限责任公司 | 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应 |
CN113711139A (zh) * | 2019-04-12 | 2021-11-26 | 罗伯特·博世有限公司 | 用于操控技术装置的方法和设备 |
CN113211441A (zh) * | 2020-11-30 | 2021-08-06 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN113211441B (zh) * | 2020-11-30 | 2022-09-09 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN112894809B (zh) * | 2021-01-18 | 2022-08-02 | 华中科技大学 | 一种基于强化学习的阻抗控制器设计方法和系统 |
CN112894809A (zh) * | 2021-01-18 | 2021-06-04 | 华中科技大学 | 一种基于强化学习的阻抗控制器设计方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107020636A (zh) | 一种基于策略梯度的机器人学习控制方法 | |
US10369694B2 (en) | Predictive robotic controller apparatus and methods | |
US10155310B2 (en) | Adaptive predictor apparatus and methods | |
US20170001309A1 (en) | Robotic training apparatus and methods | |
CN102825603B (zh) | 网络遥操作机器人系统及时延克服方法 | |
US20190184556A1 (en) | Apparatus and methods for online training of robots | |
US10105841B1 (en) | Apparatus and methods for programming and training of robotic devices | |
US9597797B2 (en) | Apparatus and methods for haptic training of robots | |
US20150032258A1 (en) | Apparatus and methods for controlling of robotic devices | |
Huq et al. | Mobile robot navigation using motor schema and fuzzy context dependent behavior modulation | |
US20190047143A1 (en) | Control device and learning device | |
US11559886B2 (en) | Robot and operation method thereof | |
CN114952821A (zh) | 机器人运动控制方法、机器人及系统 | |
CN117270393B (zh) | 智能机器人集群协同控制系统 | |
Huifeng et al. | Swinging-up and stabilization of the inverted pendulum by energy well and SDRE control | |
Zhang et al. | Autonomous robot navigation with self-learning for collision avoidance with randomly moving obstacles | |
Tamiz et al. | A novel attention control modeling method for sensor selection based on fuzzy neural network learning | |
Hirkoawa et al. | Coaching robots: online behavior learning from human subjective feedback | |
Kwon et al. | Multi Behavior Learning of Lamp Robot based on Q-learning | |
CN110842925A (zh) | 一种协作化机器人的力矩前馈补偿方法 | |
El-Fakdi et al. | Two steps natural actor critic learning for underwater cable tracking | |
WO2023037443A1 (ja) | ロボット制御装置、学習装置および推論装置 | |
Luna-Gallegos et al. | A proposed software architecture for controlling a service robot | |
KR20230163116A (ko) | 다중 로봇을 위한 심층 강화 학습 방법 및 장치 | |
Phiri et al. | Enhanced robot learning using fuzzy q-learning & context-aware middleware |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170808 |