CN110722556A - 一种基于强化学习的可移动机械臂控制系统及方法 - Google Patents
一种基于强化学习的可移动机械臂控制系统及方法 Download PDFInfo
- Publication number
- CN110722556A CN110722556A CN201910986744.8A CN201910986744A CN110722556A CN 110722556 A CN110722556 A CN 110722556A CN 201910986744 A CN201910986744 A CN 201910986744A CN 110722556 A CN110722556 A CN 110722556A
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- target
- microprocessor
- reinforcement learning
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于强化学习的可移动机械臂控制系统,包括可移动载体上的位置传感器、摄像头、机械臂系统中的微处理器以及与微处理器相连接的电源模块、无线通信模块、远程PC端、驱动器以及与驱动器相连接的机械臂;供电模块采用太阳能电池板和蓄电池同时供电的供电方式;微处理器内包含强化学习算法,强化学习算法在机械臂与环境交互过程中实现控制器优化。本发明基于强化学习的可移动机械臂控制系统,可同时实现机械臂对特定目标的抓取和给定环境下的控制器优化任务,具有通用性强、续航时间长、准确性高的特点。
Description
技术领域
本发明涉及机械臂应用技术领域,具体涉及一种基于强化学习的可移动机械臂控制系统及方法。
背景技术
机械臂是机械人技术领域中得到最广泛实际应用的自动化机械装置,在工业制造、医学治疗、娱乐服务、军事、半导体制造以及太空探索等领域都能见到它的身影。然而,机械臂是一个复杂系统, 存在着参数摄动、外界干扰及未建模动态等不确定性。不确定性又可分为结构不确定性和非结构不确定性两种类型, 非结构不确定性主要是由于测量噪声、外界干扰及计算中的采样时滞和舍入误差等非被控对象自身因素所引起的不确定性;结构不确定性则和建模模型本身有关, 可分为参数不确定性和未建模动态。模型不确定性给机械臂轨迹跟踪的实现带来影响, 同时部分控制算法受限于一定的不确定性。目前应用于机械臂控制系统的设计方法主要包括PID控制、自适应控制和鲁棒控制等, 然而由于它们自身所存在的缺陷, 促使其与神经网络、模糊控制等算法相结合, 一些新的控制方法也在涌现。
发明内容
为了改善机械臂系统存在的参数摄动、外界干扰及未建模动态等问题,实现给定环境下的目标抓取任务,本发明提供一种基于强化学习的可移动机械臂控制系统,包括远程PC端、无线通信模块和移动载体;所述移动载体设有位置传感器、摄像头和机械臂系统;所述机械臂系统包括双目相机、微处理器、驱动器和机械臂;所述微处理器内置强化学习算法模块;
所述位置传感器用于确定目标大致位置,并将采集到的目标位置信息通过无线通信模块传送到远程PC端;所述摄像头用于采集机械臂抓取目标过程中的视频信息,并将采集到的视频信息通过无线通信模块传送到远程PC端进行分析处理;
所述双目相机用于精确确定目标位置信息,并将其发送到微处理器;所述微处理器利用驱动器控制机械臂实现目标的抓取;所述处理器内的强化学习算法模块对机械臂与环境交互的过程进行学习以提高强化信号;
所述远程PC端用于对位置传感器和摄像头采集的信息进行处理,并将分析处理后的传感器信息和摄像头信息分别传送到移动载体和机械臂系统的控制器中,以实现对移动载体和微处理器的远程控制;
所述无线通信模块用于实现远程PC端与传感器、摄像头和移动载体、微处理器间的通信。
优选的,所述移动载体上还设有电源模块。
优选的,所述供电模块包括太阳能电池板、蓄电池和稳压模块;所述太阳能电池板用以将太阳能转化为电能并将其存储在蓄电池中;所述蓄电池用于存储太阳能电池板产生的电能并与稳压模块相连接;所述稳压模块用于稳定蓄电池电压为位置传感器、微处理器和无线通信模块供电。
本发明还提供一种基于强化学习的可移动机械臂控制方法,其采用上述的控制系统,所述控制方法的具体步骤如下:
S01:位置传感器根据任务要求对实际目标进行检测,并通过无线通信模块将采集到的位置信息发送到移动载体;
S02:移动载体根据接收到的目标位置信息进行路径规划,并按照规划路径驶向目标;
S03:移动载体到达目标附近后,由双目相机对目标位置进行精确定位,并将目标的精确位置信息发送到微处理器中;
S04:微处理器根据目标的精确信息命令驱动器驱动机械臂对目标进行抓取;
S05:摄像头拍摄目标抓取过程中的视频,并将视频信息通过无线通信模块发送到远程PC端;
S06:远程PC端对视频信息进行解析,确定实际目标位置和机械臂抓取位置的差值,并将分析处理过的数据发送到机械臂系统的微处理器中;
S07:微处理器中的强化学习算法模块,其工作过程为:首先由辅助网络对环境进行建模,再由评估网络根据当前的状态和模拟环境预测外部强化信号,并使用时序差分预测方法对评估网络进行学习,而对行动网络进行遗传操作,使用内部强化信号作为行动网络的适应度函数,得到当前由行动网络施加到环境上的动作强化信号;
S08:驱动器利用所得强化信号驱动机械臂进行目标抓取;
S09:重复S05- S08的过程,直到强化学习算法得到最大强化信号;
S10:由此实现在给定环境下可移动机械臂的目标抓取任务。
本发明的优点和有益效果在于:
1)本发明能改善机械臂系统存在的参数摄动、外界干扰及未建模动态等问题,实现给定环境下的目标抓取任务。本发明利用可移动机械臂的形式实现对目标的检测和抓取工作,不仅能对给定环境下的指定目标进行抓取,同时能够实现远程控制并能在不断学习中进行优化。本发明控制系统具有位置精度高、灵活性好、通用性强、续航时间长等特点。
2)本发明可同时实现机械臂对特定目标的抓取和给定环境下的控制器优化任务。与传统的PID控制、自适应控制和鲁棒控制等控制方法相比,本发明能够更好的处理参数摄动、外界干扰及未建模动态等不确定性的影响。此外,本发明的可移动式机械臂使其可处理范围更广,通用性更强,同时具有更好的灵活性;远程PC端的设立更提高了对突发事件的处理能力,同时采用无线模块进行通信不存在不限问题更适合实际应用场景。
3)本发明能够根据检测到的环境信息与任务处理结果动态地调整参数以达到强化信号最大,能以较高的灵活性、准确性和较低的成本实现目标的检测与抓取。
附图说明
图1为控制系统的组成图;
图2为控制系统的模块图;
图3为强化学习网络模型的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图和图2所示,本发明提供一种基于强化学习的可移动机械臂控制系统,包括远程PC端、无线通信模块和移动载体;所述移动载体设有位置传感器、摄像头、机械臂系统和电源模块;所述机械臂系统包括双目相机、微处理器、驱动器和机械臂;所述微处理器内置强化学习算法模块;
所述位置传感器用于确定目标大致位置,并将采集到的目标位置信息通过无线通信模块传送到远程PC端;所述摄像头用于采集机械臂抓取目标过程中的视频信息,并将采集到的视频信息通过无线通信模块传送到远程PC端进行分析处理;
所述双目相机用于精确确定目标位置信息,并将其发送到微处理器;所述微处理器利用驱动器控制机械臂实现目标的抓取;所述处理器内的强化学习算法模块对机械臂与环境交互的过程进行学习以提高强化信号;
所述远程PC端用于对位置传感器和摄像头采集的信息进行处理,并将分析处理后的传感器信息和摄像头信息分别传送到移动载体和机械臂系统的控制器中,以实现对移动载体和微处理器的远程控制;
所述无线通信模块用于实现远程PC端与传感器、摄像头和移动载体、微处理器间的通信;
所述供电模块包括太阳能电池板、蓄电池和稳压模块;所述太阳能电池板用以将太阳能转化为电能并将其存储在蓄电池中;所述蓄电池用于存储太阳能电池板产生的电能并与稳压模块相连接;所述稳压模块用于稳定蓄电池电压为位置传感器、微处理器和无线通信模块供电。
本发明还提供一种基于强化学习的可移动机械臂控制方法,其采用上述的控制系统,所述控制方法的具体步骤如下:
S01:位置传感器根据任务要求对实际目标进行检测,并通过无线通信模块将采集到的位置信息发送到移动载体;
S02:移动载体根据接收到的目标位置信息进行路径规划,并按照规划路径驶向目标;
S03:移动载体到达目标附近后,由双目相机对目标位置进行精确定位,并将目标的精确位置信息发送到微处理器中;
S04:微处理器根据目标的精确信息命令驱动器驱动机械臂对目标进行抓取;
S05:摄像头拍摄目标抓取过程中的视频,并将视频信息通过无线通信模块发送到远程PC端;
S06:远程PC端对视频信息进行解析,确定实际目标位置和机械臂抓取位置的差值,并将分析处理过的数据发送到机械臂系统的微处理器中;
S07:微处理器中的强化学习算法模块,其强化学习网络模型如图3所示,其工作过程为:首先由辅助网络对环境进行建模,再由评估网络根据当前的状态和模拟环境预测外部强化信号,并使用时序差分预测方法对评估网络进行学习,而对行动网络进行遗传操作,使用内部强化信号作为行动网络的适应度函数,得到当前由行动网络施加到环境上的动作强化信号;
S08:驱动器利用所得强化信号驱动机械臂进行目标抓取;
S09:重复S05- S08的过程,直到强化学习算法得到最大强化信号;
S10:由此实现在给定环境下可移动机械臂的目标抓取任务。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于强化学习的可移动机械臂控制系统,其特征在于,包括远程PC端、无线通信模块和移动载体;所述移动载体设有位置传感器、摄像头和机械臂系统;所述机械臂系统包括双目相机、微处理器、驱动器和机械臂;所述微处理器内置强化学习算法模块;
所述位置传感器用于确定目标大致位置,并将采集到的目标位置信息通过无线通信模块传送到远程PC端;所述摄像头用于采集机械臂抓取目标过程中的视频信息,并将采集到的视频信息通过无线通信模块传送到远程PC端进行分析处理;
所述双目相机用于精确确定目标位置信息,并将其发送到微处理器;所述微处理器利用驱动器控制机械臂实现目标的抓取;所述处理器内的强化学习算法模块对机械臂与环境交互的过程进行学习以提高强化信号;
所述远程PC端用于对位置传感器和摄像头采集的信息进行处理,并将分析处理后的传感器信息和摄像头信息分别传送到移动载体和机械臂系统的控制器中,以实现对移动载体和微处理器的远程控制;
所述无线通信模块用于实现远程PC端与传感器、摄像头和移动载体、微处理器间的通信。
2.根据权利要求1所述的基于强化学习的可移动机械臂控制系统,其特征在于,所述移动载体上还设有电源模块。
3.根据权利要求2所述的基于强化学习的可移动机械臂控制系统,其特征在于,所述供电模块包括太阳能电池板、蓄电池和稳压模块;所述太阳能电池板用以将太阳能转化为电能并将其存储在蓄电池中;所述蓄电池用于存储太阳能电池板产生的电能并与稳压模块相连接;所述稳压模块用于稳定蓄电池电压为位置传感器、微处理器和无线通信模块供电。
4.一种基于强化学习的可移动机械臂控制方法,其采用权利要求1、2或3所述的控制系统,其特征在于,所述控制方法的具体步骤如下:
S01:位置传感器根据任务要求对实际目标进行检测,并通过无线通信模块将采集到的位置信息发送到移动载体;
S02:移动载体根据接收到的目标位置信息进行路径规划,并按照规划路径驶向目标;
S03:移动载体到达目标附近后,由双目相机对目标位置进行精确定位,并将目标的精确位置信息发送到微处理器中;
S04:微处理器根据目标的精确信息命令驱动器驱动机械臂对目标进行抓取;
S05:摄像头拍摄目标抓取过程中的视频,并将视频信息通过无线通信模块发送到远程PC端;
S06:远程PC端对视频信息进行解析,确定实际目标位置和机械臂抓取位置的差值,并将分析处理过的数据发送到机械臂系统的微处理器中;
S07:微处理器中的强化学习算法模块,其工作过程为:首先由辅助网络对环境进行建模,再由评估网络根据当前的状态和模拟环境预测外部强化信号,并使用时序差分预测方法对评估网络进行学习,而对行动网络进行遗传操作,使用内部强化信号作为行动网络的适应度函数,得到当前由行动网络施加到环境上的动作强化信号;
S08:驱动器利用所得强化信号驱动机械臂进行目标抓取;
S09:重复S05- S08的过程,直到强化学习算法得到最大强化信号;
S10:由此实现在给定环境下可移动机械臂的目标抓取任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910986744.8A CN110722556A (zh) | 2019-10-17 | 2019-10-17 | 一种基于强化学习的可移动机械臂控制系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910986744.8A CN110722556A (zh) | 2019-10-17 | 2019-10-17 | 一种基于强化学习的可移动机械臂控制系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110722556A true CN110722556A (zh) | 2020-01-24 |
Family
ID=69221479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910986744.8A Pending CN110722556A (zh) | 2019-10-17 | 2019-10-17 | 一种基于强化学习的可移动机械臂控制系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110722556A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111469131A (zh) * | 2020-05-10 | 2020-07-31 | 上海大学 | 一种装配机械臂的无人艇水面垃圾清理控制系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902271A (zh) * | 2012-10-23 | 2013-01-30 | 上海大学 | 基于双目视觉的机器人目标识别与抓取系统及方法 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN108972494A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种仿人机械手抓取控制系统及其数据处理方法 |
CN109060023A (zh) * | 2018-08-08 | 2018-12-21 | 宇星科技发展(深圳)有限公司 | 一种微型环境监测的数据质控方法及系统 |
CN109702741A (zh) * | 2018-12-26 | 2019-05-03 | 中国科学院电子学研究所 | 基于自监督学习神经网络的机械臂视觉抓取系统及方法 |
US20190137954A1 (en) * | 2017-11-09 | 2019-05-09 | International Business Machines Corporation | Decomposed perturbation approach using memory based learning for compliant assembly tasks |
CN110139552A (zh) * | 2016-11-08 | 2019-08-16 | 道格图斯科技有限公司 | 机器人水果采摘系统 |
US20190275671A1 (en) * | 2019-05-28 | 2019-09-12 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
-
2019
- 2019-10-17 CN CN201910986744.8A patent/CN110722556A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902271A (zh) * | 2012-10-23 | 2013-01-30 | 上海大学 | 基于双目视觉的机器人目标识别与抓取系统及方法 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN110139552A (zh) * | 2016-11-08 | 2019-08-16 | 道格图斯科技有限公司 | 机器人水果采摘系统 |
US20190137954A1 (en) * | 2017-11-09 | 2019-05-09 | International Business Machines Corporation | Decomposed perturbation approach using memory based learning for compliant assembly tasks |
CN108972494A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种仿人机械手抓取控制系统及其数据处理方法 |
CN109060023A (zh) * | 2018-08-08 | 2018-12-21 | 宇星科技发展(深圳)有限公司 | 一种微型环境监测的数据质控方法及系统 |
CN109702741A (zh) * | 2018-12-26 | 2019-05-03 | 中国科学院电子学研究所 | 基于自监督学习神经网络的机械臂视觉抓取系统及方法 |
US20190275671A1 (en) * | 2019-05-28 | 2019-09-12 | Intel Corporation | Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111469131A (zh) * | 2020-05-10 | 2020-07-31 | 上海大学 | 一种装配机械臂的无人艇水面垃圾清理控制系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11465279B2 (en) | Robot base position planning | |
US9701014B2 (en) | Robot control device for preventing misjudgment by collision judging part | |
US20140277731A1 (en) | Robot picking system, control device, and method of manufacturing a workpiece | |
WO2012153629A1 (ja) | 運動予測制御装置と方法 | |
CN114770461B (zh) | 一种基于单目视觉的移动机器人及其自动抓取方法 | |
Landi et al. | Prediction of human arm target for robot reaching movements | |
US11175672B2 (en) | Autonomous moving system, autonomous moving body, charging dock, control method, and program | |
CN115502979A (zh) | 一种机械臂力矩主动柔顺精确控制方法及系统 | |
CN117282580A (zh) | 一种用于喷涂流水线的智能机械手及控制方法 | |
Cortes et al. | Autonomous positioning of a mobile robot for wireless charging using computer vision and misalignment-sensing coils | |
CN110722556A (zh) | 一种基于强化学习的可移动机械臂控制系统及方法 | |
CN116214522B (zh) | 基于意图识别的机械臂控制方法、系统及相关设备 | |
JP2012236254A (ja) | 移動体把持装置と方法 | |
CN116922395A (zh) | 一种移动复合机器人的一体化控制方法 | |
CN111045428A (zh) | 避障方法、移动机器人及计算机可读存储介质 | |
CN111263685B (zh) | 机器人方法和系统 | |
CN114800505A (zh) | 一种机器人作业控制方法及装置 | |
CN116736748A (zh) | 构建机器人的控制器的方法和机器人 | |
CN114128461A (zh) | 穴盘育苗移栽机器人的控制方法及穴盘育苗移栽机器人 | |
Pangaribowo et al. | A Crane Robot of Three Axes Dimensional Using Trajectory Planning Method | |
CN113352314A (zh) | 基于闭环反馈的机器人运动控制系统及方法 | |
CN112340435B (zh) | 一种物流搬运机器人的抓取感知及控制方法 | |
CN215618100U (zh) | 机器人 | |
Fang et al. | Research into an intelligent logistics handling robot based on front-end machine vision | |
Torrez et al. | Integration of force-torque information into reinforcement learning for accurate position estimation using the TD3 algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200124 |