CN110722556A

CN110722556A - 一种基于强化学习的可移动机械臂控制系统及方法

Info

Publication number: CN110722556A
Application number: CN201910986744.8A
Authority: CN
Inventors: 郎世珍
Original assignee: SUZHOU HENGHUI TECHNOLOGY Co Ltd
Current assignee: SUZHOU HENGHUI TECHNOLOGY Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-01-24

Abstract

本发明公开了一种基于强化学习的可移动机械臂控制系统，包括可移动载体上的位置传感器、摄像头、机械臂系统中的微处理器以及与微处理器相连接的电源模块、无线通信模块、远程PC端、驱动器以及与驱动器相连接的机械臂；供电模块采用太阳能电池板和蓄电池同时供电的供电方式；微处理器内包含强化学习算法，强化学习算法在机械臂与环境交互过程中实现控制器优化。本发明基于强化学习的可移动机械臂控制系统，可同时实现机械臂对特定目标的抓取和给定环境下的控制器优化任务，具有通用性强、续航时间长、准确性高的特点。

Description

一种基于强化学习的可移动机械臂控制系统及方法

技术领域

本发明涉及机械臂应用技术领域，具体涉及一种基于强化学习的可移动机械臂控制系统及方法。

背景技术

机械臂是机械人技术领域中得到最广泛实际应用的自动化机械装置，在工业制造、医学治疗、娱乐服务、军事、半导体制造以及太空探索等领域都能见到它的身影。然而，机械臂是一个复杂系统, 存在着参数摄动、外界干扰及未建模动态等不确定性。不确定性又可分为结构不确定性和非结构不确定性两种类型, 非结构不确定性主要是由于测量噪声、外界干扰及计算中的采样时滞和舍入误差等非被控对象自身因素所引起的不确定性；结构不确定性则和建模模型本身有关, 可分为参数不确定性和未建模动态。模型不确定性给机械臂轨迹跟踪的实现带来影响, 同时部分控制算法受限于一定的不确定性。目前应用于机械臂控制系统的设计方法主要包括PID控制、自适应控制和鲁棒控制等, 然而由于它们自身所存在的缺陷, 促使其与神经网络、模糊控制等算法相结合, 一些新的控制方法也在涌现。

发明内容

为了改善机械臂系统存在的参数摄动、外界干扰及未建模动态等问题，实现给定环境下的目标抓取任务，本发明提供一种基于强化学习的可移动机械臂控制系统，包括远程PC端、无线通信模块和移动载体；所述移动载体设有位置传感器、摄像头和机械臂系统；所述机械臂系统包括双目相机、微处理器、驱动器和机械臂；所述微处理器内置强化学习算法模块；

所述位置传感器用于确定目标大致位置，并将采集到的目标位置信息通过无线通信模块传送到远程PC端；所述摄像头用于采集机械臂抓取目标过程中的视频信息，并将采集到的视频信息通过无线通信模块传送到远程PC端进行分析处理；

所述双目相机用于精确确定目标位置信息，并将其发送到微处理器；所述微处理器利用驱动器控制机械臂实现目标的抓取；所述处理器内的强化学习算法模块对机械臂与环境交互的过程进行学习以提高强化信号；

所述远程PC端用于对位置传感器和摄像头采集的信息进行处理，并将分析处理后的传感器信息和摄像头信息分别传送到移动载体和机械臂系统的控制器中，以实现对移动载体和微处理器的远程控制；

所述无线通信模块用于实现远程PC端与传感器、摄像头和移动载体、微处理器间的通信。

优选的，所述移动载体上还设有电源模块。

优选的，所述供电模块包括太阳能电池板、蓄电池和稳压模块；所述太阳能电池板用以将太阳能转化为电能并将其存储在蓄电池中；所述蓄电池用于存储太阳能电池板产生的电能并与稳压模块相连接；所述稳压模块用于稳定蓄电池电压为位置传感器、微处理器和无线通信模块供电。

本发明还提供一种基于强化学习的可移动机械臂控制方法，其采用上述的控制系统，所述控制方法的具体步骤如下：

S01：位置传感器根据任务要求对实际目标进行检测，并通过无线通信模块将采集到的位置信息发送到移动载体；

S02：移动载体根据接收到的目标位置信息进行路径规划，并按照规划路径驶向目标；

S03：移动载体到达目标附近后，由双目相机对目标位置进行精确定位，并将目标的精确位置信息发送到微处理器中；

S04：微处理器根据目标的精确信息命令驱动器驱动机械臂对目标进行抓取；

S05：摄像头拍摄目标抓取过程中的视频，并将视频信息通过无线通信模块发送到远程PC端；

S06：远程PC端对视频信息进行解析，确定实际目标位置和机械臂抓取位置的差值，并将分析处理过的数据发送到机械臂系统的微处理器中；

S07：微处理器中的强化学习算法模块，其工作过程为：首先由辅助网络对环境进行建模，再由评估网络根据当前的状态和模拟环境预测外部强化信号，并使用时序差分预测方法对评估网络进行学习，而对行动网络进行遗传操作，使用内部强化信号作为行动网络的适应度函数，得到当前由行动网络施加到环境上的动作强化信号；

S08：驱动器利用所得强化信号驱动机械臂进行目标抓取；

S09：重复S05- S08的过程，直到强化学习算法得到最大强化信号；

S10：由此实现在给定环境下可移动机械臂的目标抓取任务。

本发明的优点和有益效果在于：

1）本发明能改善机械臂系统存在的参数摄动、外界干扰及未建模动态等问题，实现给定环境下的目标抓取任务。本发明利用可移动机械臂的形式实现对目标的检测和抓取工作，不仅能对给定环境下的指定目标进行抓取，同时能够实现远程控制并能在不断学习中进行优化。本发明控制系统具有位置精度高、灵活性好、通用性强、续航时间长等特点。

2）本发明可同时实现机械臂对特定目标的抓取和给定环境下的控制器优化任务。与传统的PID控制、自适应控制和鲁棒控制等控制方法相比，本发明能够更好的处理参数摄动、外界干扰及未建模动态等不确定性的影响。此外，本发明的可移动式机械臂使其可处理范围更广，通用性更强，同时具有更好的灵活性；远程PC端的设立更提高了对突发事件的处理能力，同时采用无线模块进行通信不存在不限问题更适合实际应用场景。

3）本发明能够根据检测到的环境信息与任务处理结果动态地调整参数以达到强化信号最大，能以较高的灵活性、准确性和较低的成本实现目标的检测与抓取。

附图说明

图1为控制系统的组成图；

图2为控制系统的模块图；

图3为强化学习网络模型的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图和图2所示，本发明提供一种基于强化学习的可移动机械臂控制系统，包括远程PC端、无线通信模块和移动载体；所述移动载体设有位置传感器、摄像头、机械臂系统和电源模块；所述机械臂系统包括双目相机、微处理器、驱动器和机械臂；所述微处理器内置强化学习算法模块；

所述无线通信模块用于实现远程PC端与传感器、摄像头和移动载体、微处理器间的通信；

所述供电模块包括太阳能电池板、蓄电池和稳压模块；所述太阳能电池板用以将太阳能转化为电能并将其存储在蓄电池中；所述蓄电池用于存储太阳能电池板产生的电能并与稳压模块相连接；所述稳压模块用于稳定蓄电池电压为位置传感器、微处理器和无线通信模块供电。

S07：微处理器中的强化学习算法模块，其强化学习网络模型如图3所示，其工作过程为：首先由辅助网络对环境进行建模，再由评估网络根据当前的状态和模拟环境预测外部强化信号，并使用时序差分预测方法对评估网络进行学习，而对行动网络进行遗传操作，使用内部强化信号作为行动网络的适应度函数，得到当前由行动网络施加到环境上的动作强化信号；

S08：驱动器利用所得强化信号驱动机械臂进行目标抓取；

S10：由此实现在给定环境下可移动机械臂的目标抓取任务。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于强化学习的可移动机械臂控制系统，其特征在于，包括远程PC端、无线通信模块和移动载体；所述移动载体设有位置传感器、摄像头和机械臂系统；所述机械臂系统包括双目相机、微处理器、驱动器和机械臂；所述微处理器内置强化学习算法模块；

2.根据权利要求1所述的基于强化学习的可移动机械臂控制系统，其特征在于，所述移动载体上还设有电源模块。

3.根据权利要求2所述的基于强化学习的可移动机械臂控制系统，其特征在于，所述供电模块包括太阳能电池板、蓄电池和稳压模块；所述太阳能电池板用以将太阳能转化为电能并将其存储在蓄电池中；所述蓄电池用于存储太阳能电池板产生的电能并与稳压模块相连接；所述稳压模块用于稳定蓄电池电压为位置传感器、微处理器和无线通信模块供电。

4.一种基于强化学习的可移动机械臂控制方法，其采用权利要求1、2或3所述的控制系统，其特征在于，所述控制方法的具体步骤如下：

S08：驱动器利用所得强化信号驱动机械臂进行目标抓取；

S10：由此实现在给定环境下可移动机械臂的目标抓取任务。