CN113386133A

CN113386133A - 一种强化学习机器人控制方法

Info

Publication number: CN113386133A
Application number: CN202110646067.2A
Authority: CN
Inventors: 刘俊杰; 张琦; 王祖盛
Original assignee: Guizhou Chadao Technology Co ltd
Current assignee: Guizhou Chadao Technology Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-14

Abstract

本发明提供了一种强化学习机器人控制方法，包括以下步骤：构建初始模型：根据机器人上数据输入接口和控制输出接口，以强化学习算法建立初始控制模型；训练初等模型：用手动控制的方式，在任一真实场景中控制机器人获取真实数据，利用真实数据对初始控制模型进行训练得到初等控制模型；定向训练：在目标场景的仿真环境中，对初等控制模型进行训练，得到定向控制模型；投入使用：用定向控制模型控制机器人，在目标场景中控制并实时更新定向控制模型。本发明基于实际硬件情况和真实数据构建控制模型，能有效提升仿真阶段的控制模型训练效率，并且便于智能机器人的产品化，大幅提升机器人的智能化的通用性。

Description

一种强化学习机器人控制方法

技术领域

本发明涉及一种强化学习机器人控制方法。

背景技术

如公开号为CN112684794 A的发明专利公开了一种基于元强化学习的足式机器人运动控制方法、装置及介质，其提供了利用强化学习算法构建控制模型，并在仿真环境中进行模型训练，从而对机器人进行控制的方法。

又如公开号为CN112643668 A的发明专利公开了一种适用于密集环境下的机械臂推抓协同，其提供了在仿真环境中利用深度强化学习算法构建控制模型并训练，实现对机器人的控制。

但是包括上述技术方案在内的现有技术，都没有关注机器人在工业场景中实际使用的特殊性：机器人在实际使用中的场景并非固定不变的，而算法模型要适配具体场景，对于深度学习算法构建的控制模型而言，更换场景无异于的将整体推翻重来，因此将控制模型完全依靠仿真环境来进行训练，当使用机器人的目标场景更换时，则需要在仿真环境中重新初始化控制模型并训练，因此训练效率低，极不利于甚至无法使智能机器人产品化，且控制模型不具有通用性。

发明内容

为解决上述技术问题，本发明提供了一种强化学习机器人控制方法，该强化学习机器人控制方法能有效提升仿真阶段的控制模型训练效率，并且便于智能机器人的产品化，大幅提升机器人的智能化的通用性。

本发明通过以下技术方案得以实现。

本发明提供的一种强化学习机器人控制方法，包括以下步骤：

构建初始模型：根据机器人上数据输入接口和控制输出接口，以强化学习算法建立初始控制模型；

训练初等模型：用手动控制的方式，在任一真实场景中控制机器人获取真实数据，利用真实数据对初始控制模型进行训练得到初等控制模型；

定向训练：在目标场景的仿真环境中，对初等控制模型进行训练，得到定向控制模型；

投入使用：用定向控制模型控制机器人，在目标场景中控制并实时更新定向控制模型。

所述数据输入接口接入传感器和/或外部系统。

所述投入使用步骤中，如需更换目标场景，则返回至定向训练步骤，并将投入使用的定向控制模型作为初等控制模型进行训练。

所述训练初等模型步骤中，采用监督学习的方式对初始控制模型进行训练。

所述初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。

所述初始控制模型为神经网络架构。

所述仿真环境采用Gazebo或VREP平台。

所述真实数据以控制周期分组，利用至少500组真实数据对初始控制模型进行训练。

所述投入使用步骤中，如需更换硬件，则返回至构建初始模型步骤。

本发明的有益效果在于：基于实际硬件情况和真实数据构建控制模型，能有效提升仿真阶段的控制模型训练效率，并且便于智能机器人的产品化，大幅提升机器人的智能化的通用性。

附图说明

图1是本发明的数据流转示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

实施例1

如图1所示的一种强化学习机器人控制方法，包括以下步骤：

由此，在机器人的控制模型投入使用前，先用真实数据进行初始化训练，达到对控制模型参数进行适应性修正的效果，由此在仿真阶段即可大幅降低计算量，同时在很大程度上避免控制模型在仿真训练中出现局部最优解导致训练失败的情况。

实施例2

在实施例1的基础上，数据输入接口接入传感器和/或外部系统。

常规的，传感器包括压力传感器、角度传感器、光学传感器等，从传感器获取输入数据是现有技术的常规操作，故不再赘述。同理，外部系统一般是由外部控制芯片控制的子系统，如电机驱动模组等，可以通过SPI、I2C等通信方式与核心控制模块中的控制模型进行通信，典型如核心控制模块基于ROS，有一微控制器连接控制四路电机构成运动子系统。

实施例3

在实施例1的基础上，投入使用步骤中，如需更换目标场景，则返回至定向训练步骤，并将投入使用的定向控制模型作为初等控制模型进行训练。

一般而言，工业机器人包括结构和电子元器件在内的硬件部分不会改变，但使用场景常因用户的需求变更而改变，采用上述方案，即可在更换场景的时候快速将机器人投入新场景使用，大幅减少重新初始化模型后在仿真环境中训练的时间。

实施例4

在实施例1的基础上，训练初等模型步骤中，采用监督学习的方式对初始控制模型进行训练。

机器人的控制量和反馈量之间有时间上的迟延，因此在强化学习实时更新的过程中，需要缓存较多中间数据等待更新，而采用监督学习的方式则可以大幅减少训练过程中的内存占用，训练过程中不需要缓存过多中间数据，由此也可以提升训练速度。

实施例5

在实施例1的基础上，初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。

由此，最终投入使用在生产环境中的定向控制模型，其模型结构完全对应机器人的硬件组成(即数据输入接口和控制输出接口)，虽然耦合度较高，但对应的稳定性也高。

实施例6

在实施例1的基础上，初始控制模型为神经网络架构。

实施例7

在实施例1的基础上，仿真环境采用Gazebo或VREP平台。由此可以大幅降低开发难度、提升开发速度。

实施例8

在实施例1的基础上，真实数据以控制周期分组，利用至少500组真实数据对初始控制模型进行训练。

实施例9

在实施例1的基础上，投入使用步骤中，如需更换硬件，则返回至构建初始模型步骤。更换硬件则意味着控制模型的输入输出发生变化，此时定向控制模型已然不适配，因此应重新根据输入输出情况构建初始控制模型。

Claims

1.一种强化学习机器人控制方法，其特征在于：包括以下步骤：构建初始模型：根据机器人上数据输入接口和控制输出接口，以强化学习算法建立初始控制模型；训练初等模型：用手动控制的方式，在任一真实场景中控制机器人获取真实数据，利用真实数据对初始控制模型进行训练得到初等控制模型；定向训练：在目标场景的仿真环境中，对初等控制模型进行训练，得到定向控制模型；投入使用：用定向控制模型控制机器人，在目标场景中控制并实时更新定向控制模型。

2.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述数据输入接口接入传感器和/或外部系统。

3.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述投入使用步骤中，如需更换目标场景，则返回至定向训练步骤，并将投入使用的定向控制模型作为初等控制模型进行训练。

4.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述训练初等模型步骤中，采用监督学习的方式对初始控制模型进行训练。

5.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。

6.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述初始控制模型为神经网络架构。

7.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述仿真环境采用Gazebo或VREP平台。

8.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述真实数据以控制周期分组，利用至少500组真实数据对初始控制模型进行训练。

9.如权利要求1所述的强化学习机器人控制方法，其特征在于：所述投入使用步骤中，如需更换硬件，则返回至构建初始模型步骤。