CN113386133A - 一种强化学习机器人控制方法 - Google Patents
一种强化学习机器人控制方法 Download PDFInfo
- Publication number
- CN113386133A CN113386133A CN202110646067.2A CN202110646067A CN113386133A CN 113386133 A CN113386133 A CN 113386133A CN 202110646067 A CN202110646067 A CN 202110646067A CN 113386133 A CN113386133 A CN 113386133A
- Authority
- CN
- China
- Prior art keywords
- control model
- training
- robot
- model
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/1605—Simulation of manipulator lay-out, design, modelling of manipulator
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种强化学习机器人控制方法,包括以下步骤:构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。本发明基于实际硬件情况和真实数据构建控制模型,能有效提升仿真阶段的控制模型训练效率,并且便于智能机器人的产品化,大幅提升机器人的智能化的通用性。
Description
技术领域
本发明涉及一种强化学习机器人控制方法。
背景技术
如公开号为CN112684794 A的发明专利公开了一种基于元强化学习的足式机器人运动控制方法、装置及介质,其提供了利用强化学习算法构建控制模型,并在仿真环境中进行模型训练,从而对机器人进行控制的方法。
又如公开号为CN112643668 A的发明专利公开了一种适用于密集环境下的机械臂推抓协同,其提供了在仿真环境中利用深度强化学习算法构建控制模型并训练,实现对机器人的控制。
但是包括上述技术方案在内的现有技术,都没有关注机器人在工业场景中实际使用的特殊性:机器人在实际使用中的场景并非固定不变的,而算法模型要适配具体场景,对于深度学习算法构建的控制模型而言,更换场景无异于的将整体推翻重来,因此将控制模型完全依靠仿真环境来进行训练,当使用机器人的目标场景更换时,则需要在仿真环境中重新初始化控制模型并训练,因此训练效率低,极不利于甚至无法使智能机器人产品化,且控制模型不具有通用性。
发明内容
为解决上述技术问题,本发明提供了一种强化学习机器人控制方法,该强化学习机器人控制方法能有效提升仿真阶段的控制模型训练效率,并且便于智能机器人的产品化,大幅提升机器人的智能化的通用性。
本发明通过以下技术方案得以实现。
本发明提供的一种强化学习机器人控制方法,包括以下步骤:
构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;
训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;
定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;
投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。
所述数据输入接口接入传感器和/或外部系统。
所述投入使用步骤中,如需更换目标场景,则返回至定向训练步骤,并将投入使用的定向控制模型作为初等控制模型进行训练。
所述训练初等模型步骤中,采用监督学习的方式对初始控制模型进行训练。
所述初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。
所述初始控制模型为神经网络架构。
所述仿真环境采用Gazebo或VREP平台。
所述真实数据以控制周期分组,利用至少500组真实数据对初始控制模型进行训练。
所述投入使用步骤中,如需更换硬件,则返回至构建初始模型步骤。
本发明的有益效果在于:基于实际硬件情况和真实数据构建控制模型,能有效提升仿真阶段的控制模型训练效率,并且便于智能机器人的产品化,大幅提升机器人的智能化的通用性。
附图说明
图1是本发明的数据流转示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
实施例1
如图1所示的一种强化学习机器人控制方法,包括以下步骤:
构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;
训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;
定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;
投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。
由此,在机器人的控制模型投入使用前,先用真实数据进行初始化训练,达到对控制模型参数进行适应性修正的效果,由此在仿真阶段即可大幅降低计算量,同时在很大程度上避免控制模型在仿真训练中出现局部最优解导致训练失败的情况。
实施例2
在实施例1的基础上,数据输入接口接入传感器和/或外部系统。
常规的,传感器包括压力传感器、角度传感器、光学传感器等,从传感器获取输入数据是现有技术的常规操作,故不再赘述。同理,外部系统一般是由外部控制芯片控制的子系统,如电机驱动模组等,可以通过SPI、I2C等通信方式与核心控制模块中的控制模型进行通信,典型如核心控制模块基于ROS,有一微控制器连接控制四路电机构成运动子系统。
实施例3
在实施例1的基础上,投入使用步骤中,如需更换目标场景,则返回至定向训练步骤,并将投入使用的定向控制模型作为初等控制模型进行训练。
一般而言,工业机器人包括结构和电子元器件在内的硬件部分不会改变,但使用场景常因用户的需求变更而改变,采用上述方案,即可在更换场景的时候快速将机器人投入新场景使用,大幅减少重新初始化模型后在仿真环境中训练的时间。
实施例4
在实施例1的基础上,训练初等模型步骤中,采用监督学习的方式对初始控制模型进行训练。
机器人的控制量和反馈量之间有时间上的迟延,因此在强化学习实时更新的过程中,需要缓存较多中间数据等待更新,而采用监督学习的方式则可以大幅减少训练过程中的内存占用,训练过程中不需要缓存过多中间数据,由此也可以提升训练速度。
实施例5
在实施例1的基础上,初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。
由此,最终投入使用在生产环境中的定向控制模型,其模型结构完全对应机器人的硬件组成(即数据输入接口和控制输出接口),虽然耦合度较高,但对应的稳定性也高。
实施例6
在实施例1的基础上,初始控制模型为神经网络架构。
实施例7
在实施例1的基础上,仿真环境采用Gazebo或VREP平台。由此可以大幅降低开发难度、提升开发速度。
实施例8
在实施例1的基础上,真实数据以控制周期分组,利用至少500组真实数据对初始控制模型进行训练。
实施例9
在实施例1的基础上,投入使用步骤中,如需更换硬件,则返回至构建初始模型步骤。更换硬件则意味着控制模型的输入输出发生变化,此时定向控制模型已然不适配,因此应重新根据输入输出情况构建初始控制模型。
Claims (9)
1.一种强化学习机器人控制方法,其特征在于:包括以下步骤:构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。
2.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述数据输入接口接入传感器和/或外部系统。
3.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述投入使用步骤中,如需更换目标场景,则返回至定向训练步骤,并将投入使用的定向控制模型作为初等控制模型进行训练。
4.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述训练初等模型步骤中,采用监督学习的方式对初始控制模型进行训练。
5.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。
6.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述初始控制模型为神经网络架构。
7.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述仿真环境采用Gazebo或VREP平台。
8.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述真实数据以控制周期分组,利用至少500组真实数据对初始控制模型进行训练。
9.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述投入使用步骤中,如需更换硬件,则返回至构建初始模型步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646067.2A CN113386133A (zh) | 2021-06-10 | 2021-06-10 | 一种强化学习机器人控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646067.2A CN113386133A (zh) | 2021-06-10 | 2021-06-10 | 一种强化学习机器人控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113386133A true CN113386133A (zh) | 2021-09-14 |
Family
ID=77620154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110646067.2A Pending CN113386133A (zh) | 2021-06-10 | 2021-06-10 | 一种强化学习机器人控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113386133A (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092254A (zh) * | 2017-04-27 | 2017-08-25 | 北京航空航天大学 | 一种基于深度增强学习的家用扫地机器人的设计方法 |
CN109483526A (zh) * | 2017-09-13 | 2019-03-19 | 北京猎户星空科技有限公司 | 虚拟环境和真实环境下机械臂的控制方法和系统 |
CN109760050A (zh) * | 2019-01-12 | 2019-05-17 | 鲁班嫡系机器人(深圳)有限公司 | 机器人行为训练方法、装置、系统、存储介质及设备 |
CN110717600A (zh) * | 2019-09-30 | 2020-01-21 | 京东城市(北京)数字科技有限公司 | 样本池构建方法和装置、以及算法训练方法和装置 |
CN110766169A (zh) * | 2019-10-31 | 2020-02-07 | 深圳前海微众银行股份有限公司 | 强化学习的迁移训练优化方法、装置、终端及存储介质 |
CN110837697A (zh) * | 2019-10-25 | 2020-02-25 | 华南理工大学 | 一种智能车的智能交通仿真系统及其仿真方法 |
CN111152227A (zh) * | 2020-01-19 | 2020-05-15 | 聊城鑫泰机床有限公司 | 一种基于引导式dqn控制的机械臂控制方法 |
CN111421538A (zh) * | 2020-03-31 | 2020-07-17 | 西安交通大学 | 一种基于优先级经验回放的深度强化学习机器人控制方法 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111523495A (zh) * | 2020-04-27 | 2020-08-11 | 天津中科智能识别产业技术研究院有限公司 | 基于深度强化学习的监控场景中的端到端主动式人体跟踪方法 |
CN111558937A (zh) * | 2020-04-07 | 2020-08-21 | 向仲宇 | 基于深度学习的机器人运动控制方法 |
US20200279149A1 (en) * | 2019-02-28 | 2020-09-03 | Aidentify Co., Ltd. | Method for reinforcement learning using virtual environment generated by deep learning |
CN112231489A (zh) * | 2020-10-19 | 2021-01-15 | 中国科学技术大学 | 防疫机器人知识学习与迁移方法和系统 |
CN112363402A (zh) * | 2020-12-21 | 2021-02-12 | 杭州未名信科科技有限公司 | 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质 |
CN112382165A (zh) * | 2020-11-19 | 2021-02-19 | 北京罗克维尔斯科技有限公司 | 驾驶策略生成方法、装置、介质、设备及仿真系统 |
CN112488320A (zh) * | 2020-09-25 | 2021-03-12 | 中国人民解放军军事科学院国防科技创新研究院 | 一种针对复杂条件下多智能体的训练方法及系统 |
CN112596515A (zh) * | 2020-11-25 | 2021-04-02 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
CN112766499A (zh) * | 2021-02-02 | 2021-05-07 | 电子科技大学 | 一种通过强化学习技术实现无人机自主飞行的方法 |
-
2021
- 2021-06-10 CN CN202110646067.2A patent/CN113386133A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092254A (zh) * | 2017-04-27 | 2017-08-25 | 北京航空航天大学 | 一种基于深度增强学习的家用扫地机器人的设计方法 |
CN109483526A (zh) * | 2017-09-13 | 2019-03-19 | 北京猎户星空科技有限公司 | 虚拟环境和真实环境下机械臂的控制方法和系统 |
CN109760050A (zh) * | 2019-01-12 | 2019-05-17 | 鲁班嫡系机器人(深圳)有限公司 | 机器人行为训练方法、装置、系统、存储介质及设备 |
US20200279149A1 (en) * | 2019-02-28 | 2020-09-03 | Aidentify Co., Ltd. | Method for reinforcement learning using virtual environment generated by deep learning |
CN110717600A (zh) * | 2019-09-30 | 2020-01-21 | 京东城市(北京)数字科技有限公司 | 样本池构建方法和装置、以及算法训练方法和装置 |
CN110837697A (zh) * | 2019-10-25 | 2020-02-25 | 华南理工大学 | 一种智能车的智能交通仿真系统及其仿真方法 |
CN110766169A (zh) * | 2019-10-31 | 2020-02-07 | 深圳前海微众银行股份有限公司 | 强化学习的迁移训练优化方法、装置、终端及存储介质 |
CN111152227A (zh) * | 2020-01-19 | 2020-05-15 | 聊城鑫泰机床有限公司 | 一种基于引导式dqn控制的机械臂控制方法 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111421538A (zh) * | 2020-03-31 | 2020-07-17 | 西安交通大学 | 一种基于优先级经验回放的深度强化学习机器人控制方法 |
CN111558937A (zh) * | 2020-04-07 | 2020-08-21 | 向仲宇 | 基于深度学习的机器人运动控制方法 |
CN111523495A (zh) * | 2020-04-27 | 2020-08-11 | 天津中科智能识别产业技术研究院有限公司 | 基于深度强化学习的监控场景中的端到端主动式人体跟踪方法 |
CN112488320A (zh) * | 2020-09-25 | 2021-03-12 | 中国人民解放军军事科学院国防科技创新研究院 | 一种针对复杂条件下多智能体的训练方法及系统 |
CN112231489A (zh) * | 2020-10-19 | 2021-01-15 | 中国科学技术大学 | 防疫机器人知识学习与迁移方法和系统 |
CN112382165A (zh) * | 2020-11-19 | 2021-02-19 | 北京罗克维尔斯科技有限公司 | 驾驶策略生成方法、装置、介质、设备及仿真系统 |
CN112596515A (zh) * | 2020-11-25 | 2021-04-02 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
CN112363402A (zh) * | 2020-12-21 | 2021-02-12 | 杭州未名信科科技有限公司 | 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质 |
CN112766499A (zh) * | 2021-02-02 | 2021-05-07 | 电子科技大学 | 一种通过强化学习技术实现无人机自主飞行的方法 |
Non-Patent Citations (2)
Title |
---|
张淼: "一种基于策略梯度强化学习的列车智能控制方法", 《铁道学报》 * |
高令平: "基于深度强化学习的智能体环境感知与控制决策", 《中国优秀博硕士论文集》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108445748B (zh) | 一种基于事件触发机制的自适应航天器姿态跟踪控制方法 | |
CN110238839A (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN115446867B (zh) | 一种基于数字孪生技术的工业机械臂控制方法及系统 | |
CN112338912A (zh) | 一种柔性单链机械臂的有限时间稳定控制方法及系统 | |
CN107450572A (zh) | 基于滑模控制的水下机器人姿态调节控制系统及处理方法 | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
CN113070878A (zh) | 基于脉冲神经网络的机器人控制方法、机器人及存储介质 | |
CN110039537B (zh) | 一种基于神经网络的在线自学习多关节运动规划方法 | |
CN113386133A (zh) | 一种强化学习机器人控制方法 | |
CN107511830B (zh) | 一种五自由度混联机器人控制器参数自适应调整实现方法 | |
CN113985870B (zh) | 一种基于元强化学习的路径规划方法 | |
CN115758922A (zh) | 一种用于风环境测试场营造的风场数字孪生体系统 | |
CN114740735A (zh) | 单关节机器人的变长度反馈辅助pd型迭代学习控制方法 | |
CN114347020A (zh) | 一种运动控制方法、运动控制装置及机器人 | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 | |
CN103558762A (zh) | 基于图形化组态技术的免疫遗传pid控制器的实现方法 | |
CN112862106B (zh) | 一种基于自适应编解码迭代学习控制信息传输系统和方法 | |
CN117539153B (zh) | 基于确定学习的上肢康复机器人自适应控制方法及系统 | |
CN116619389B (zh) | 一种小型仿生鼠四足机器人的步态控制方法 | |
CN117807410B (zh) | 转钢辊道设定速度的确定方法及装置、存储介质、终端 | |
CN117666360B (zh) | 高阶多自主体集群系统分布式最优一致性控制方法及系统 | |
CN113787514B (zh) | 机械臂动态避碰规划方法 | |
CN117930634B (zh) | 一种高速数控角钢生产线冲压气缸控制优化方法 | |
CN116094053B (zh) | 一种构网型电源多机并联控制方法 | |
CN116442231A (zh) | 机器人轨迹优化方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210914 |