CN115781685A - 一种基于强化学习的高精度机械臂控制方法及系统 - Google Patents

一种基于强化学习的高精度机械臂控制方法及系统 Download PDF

Info

Publication number
CN115781685A
CN115781685A CN202211673410.3A CN202211673410A CN115781685A CN 115781685 A CN115781685 A CN 115781685A CN 202211673410 A CN202211673410 A CN 202211673410A CN 115781685 A CN115781685 A CN 115781685A
Authority
CN
China
Prior art keywords
bionic
mechanical arm
digital
grabbing
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211673410.3A
Other languages
English (en)
Other versions
CN115781685B (zh
Inventor
孟伟
李一亮
温震霆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211673410.3A priority Critical patent/CN115781685B/zh
Publication of CN115781685A publication Critical patent/CN115781685A/zh
Application granted granted Critical
Publication of CN115781685B publication Critical patent/CN115781685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明公开了一种基于强化学习的高精度机械臂控制方法及系统,涉及智能控制技术领域。方法包括:根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练,当数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,并根据仿生网络参数配置现实环境的真实机械臂。进一步,对真实机械臂进行实物抓取测试,当真实机械臂的抓取精度满足真实预设阈值时,基于仿生网络参数输出控制模型,利用控制模型控制真实机械臂执行抓取任务,提高了机械臂在执行抓取任务时的作业路径规划效率及规划精度。

Description

一种基于强化学习的高精度机械臂控制方法及系统
技术领域
本发明涉及智能控制技术领域,尤其涉及一种基于强化学习的高精度机械臂控制方法及系统。
背景技术
随着自动化技术的快速发展,智能工厂应运而生,机械臂是智能工厂的重要组成部分,通过控制器调整机械臂的移动轨迹,躲避障碍物,完成指定任务实现工业生产。随着工业生产精度要求不断提高,传统的反馈式机械臂控制模式已经无法满足工业发展需求,实现机械臂智能化控制成为研究热点。
现有技术通常采用正逆运动学计算方法输出完成任务时机械臂的无碰撞的关节路径点,实现机械臂的移动轨迹规划,但上述方法难以实现高维空间规划,且计算量较大;也有基于采样方法实现机械臂的移动轨迹规划,利用较小的计算量实现高维空间规划,但上述方法需要进行频繁采样,作业路径的规划效率及规划精度较低。
发明内容
本发明提供了一种基于强化学习的高精度机械臂控制方法及系统,用于解决现有技术在进行机械臂作业路径规划时,规划效率及规划精度低的技术问题。
本发明提供了一种基于强化学习的高精度机械臂控制方法,包括:
S1、根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;其中,所述数字孪生仿生空间包括数字仿生机械臂;
S2、基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,当所述数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,执行步骤S3;
S3、根据所述仿生网络参数配置所述现实环境的真实机械臂,对所述真实机械臂进行实物抓取测试,判断所述真实机械臂的抓取精度是否满足真实预设阈值,若否,返回步骤S2,若是,执行步骤S4;
S4、基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
优选地,所述环境信息包括双目相机参数及位姿信息、障碍物参数及位姿信息和目标物体参数及位姿信息;
所述机械臂关节位姿信息包括机械臂本体参数及位姿信息和机械臂关节节点位姿信息。
优选地,所述数字孪生仿生空间还包括:数字仿生双目相机、数字仿生障碍物及数字仿生目标物体。
优选地,步骤S2中,所述基于强化学习算法对所述数字仿生机械臂进行物体抓取训练具体包括:
S21、对所述强化学习算法进行初始化,得到强化学习模型;
S22、获取数字仿生机械臂关节位姿信息,并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息;
S23、根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型,输出抓取路径信息,并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练;
S24、判断训练次数是否满足第一预设阈值,若否,返回步骤S23;若是,执行步骤S25;
S25、判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值,若否,复位所述强化学习模型的网络参数,返回步骤S21;若是,获取当前所述数字孪生仿生空间的仿生网络参数,结束训练。
优选的,步骤S21具体包括:
根据预先获得的状态信息及状态转移概率初始化所述强化学习算法的网络参数,并设置所述强化学习算法的奖励函数,得到强化学习模型。
优选地,在步骤S24中,在所述返回步骤S23之前还包括:
基于当前状态信息、当前状态转移概率和奖励函数值,更新所述根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型。
优选的,在步骤S4之后还包括,基于预设时间间隔,对所述高精度机械臂进行实物抓取测试,当所述高精度机械臂的抓取误差不满足预设误差阈值时,返回步骤S1。
一种基于强化学习的高精度机械臂控制系统,包括:
仿生空间构建模块,用于根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;其中,所述数字孪生仿生空间包括数字仿生机械臂;
仿生训练模块,用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,当所述数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,跳转至测试模块;
测试模块,根据所述仿生网络参数配置所述现实环境的真实机械臂,对所述真实机械臂进行实物抓取测试,判断所述真实机械臂的抓取精度是否满足真实预设阈值,若否,跳转至所述仿生训练模块,若是,跳转至执行模块;
执行模块,用于基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
优选地,所述机械臂控制系统还包括仿生训练子模块,所述仿生训练子模块用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,具体包括:
初始化模块,用于对所述强化学习算法进行初始化,得到强化学习模型;
数据获取模块,用于获取数字仿生机械臂关节位姿信息,并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息;
抓取训练模块,用于根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型,输出抓取路径信息,并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练;
第一判断模块,用于判断训练次数是否满足第一预设阈值,若否,跳转至所述抓取训练模块;若是,跳转至第二判断模块;
第二判断模块,用于判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值,若否,复位所述强化学习模型的网络参数,跳转至所述初始化模块;若是,获取当前所述数字孪生仿生空间的仿生网络参数,结束训练。
优选地,所述机械臂控制系统还包括监督模块,所述监督模块用于基于预设时间间隔,对所述真实机械臂进行实物抓取测试,当所述真实机械臂的抓取误差不满足预设误差阈值时,跳转至所述仿生空间构建模块。
从以上技术方案可以看出,本发明具有以下优点:
本申请提供了一种基于强化学习的高精度机械臂控制方法,包括:根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练,当数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,并根据仿生网络参数配置现实环境的真实机械臂。进一步,对真实机械臂进行实物抓取测试,判断真实机械臂的抓取精度是否满足真实预设阈值,若否,返回前述对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练步骤,若是,基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
本申请提供的高精度机械臂控制方法,通过构建与现实环境一致的数字孪生仿生空间,基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练,不断调整数字孪生仿生空间的网络参数,获得抓取精度满足仿生预设阈值的数字仿生机械臂对应的数字孪生仿生空间的仿生网络参数,并将仿生网络参数反馈至现实环境,配置现实环境的真实机械臂,根据真实机械臂的抓取效果,调整仿生网络参数,获取抓取精度满足真实预设阈值的(高精度)真实机械臂的控制模型,并利用控制模型控制(高精度)真实机械臂执行抓取任务,有效提高了机械臂在执行抓取任务时的作业路径划效率及规划精度,同时提高了机械臂的作业效率及作业精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个流程示意图;
图2为本申请提供的一种基于强化学习的高精度机械臂控制系统的一个结构示意图。
具体实施方式
本发明实施例提供了一种基于强化学习的高精度机械臂控制方法及系统,解决了现有技术在进行机械臂作业路径规划时,规划效率及规划精度低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本申请的实施例1提供了一种基于强化学习的高精度机械臂控制方法,请参阅图1,在实施例1中,方法包括:
S1、根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;其中,所述数字孪生仿生空间包括数字仿生机械臂。
现实环境包括:机械臂,双目相机,障碍物,目标物体等。
现实环境的环境信息包括双目相机参数及位姿信息、障碍物参数及位姿信息和目标物体参数及位姿信息。机械臂关节位姿信息包括机械臂本体参数及位姿信息和机械臂关节节点位姿信息。
数字孪生仿生空间包括:数字仿生机械臂,数字仿生双目相机,数字仿生障碍物及数字仿生目标物体等。
需要说明的是,数字孪生是指综合运用多种技术,实现物理空间与数字空间的实时双向同步映射及虚实交互。因此,步骤S1中,数字孪生仿生空间也包含环境信息和数字仿生机械臂关节位姿信息,且数字孪生仿生空间中的环境信息和数字仿生机械臂关节位姿信息与现实环境完全一致。
S2、基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,当所述数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,执行步骤S3;
上述强化学习算法采用近端策略优化算法,利用强化学习算法在数字孪生仿生空间中训练数字仿生机械臂躲避障碍物并抓取目标物体,经过训练后,选取满足抓取精度的控制模型应用到真实机械臂上,也即,根据仿生网络参数配置现实环境的真实机械臂。
其中,所述仿生网络参数包括数字仿生机械臂的关节位置,各个关节的旋转速度及旋转顺序,每个关节移动的目标位置,数字仿生机械臂的抓夹移动的目标位置,数字仿生障碍物的位置及速度,数字仿生目标物体的位置等。数字仿生机械臂关节速度可以通过关节位置的微分得到;数字仿生机械臂的抓夹的位置通过数字仿生双目深度相机得到。
可以理解的是,根据上述仿生网络参数构建的控制模型,可以控制仿生机械臂躲避障碍物并抓取目标物体。将上述仿生网络参数移植至现实环境构建的控制模型,同样也可以控制真实机械臂执行抓取任务。
S3、根据所述仿生网络参数配置所述现实环境的真实机械臂,对所述真实机械臂进行实物抓取测试,判断所述真实机械臂的抓取精度是否满足真实预设阈值,若否,返回步骤S2,若是,执行步骤S4。
可以理解的是,虽然数字孪生仿生空间中的环境信息和数字仿生机械臂关节位姿信息与现实环境完全一致,但是数字仿生机械臂是在理想环境下执行抓取任务,得到的是理想执行结果,当利用仿生网络参数得到的控制模型控制现实环境的真实机械臂执行抓取任务时,执行结果不可避免地会与理想执行结果产生偏差。
为提高机械臂规在执行抓取任务时的作业精度,步骤S3进一步对真实机械臂在现实环境中进行实物抓取的抓取精度进行测试,只有当真实机械臂在现实环境中进行实物抓取的抓取精度满足真实预设阈值时,才会执行步骤S4,利用仿生网络参数确定固定的控制模型,控制机械臂进行抓取作业。
S4、基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
实施例1提供的一种基于强化学习的高精度机械臂控制方法,通过构建与现实环境一致的数字孪生仿生空间,基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练,不断调整数字孪生仿生空间的网络参数,获得抓取精度满足仿生预设阈值的数字仿生机械臂对应的数字孪生仿生空间的仿生网络参数,并将仿生网络参数反馈至现实环境,配置现实环境的真实机械臂,无需对现实环境进行频繁采样,将计算过程转移至数字孪生仿生空间,孪生空间负责输出优化后的控制模型即可,有效提高机械臂在执行抓取任务时的作业路径划效率。
进一步,为提高机械臂规在现实环境中执行抓取任务时的作业精度,实施例1还根据真实机械臂的抓取效果,调整仿生网络参数,获取抓取精度满足真实预设阈值的高精度机械臂的控制模型,然后利用控制模型控制高精度机械臂执行抓取任务,有效提高了机械臂规在执行抓取任务时的作业路径规划精度。利用上述实施例1提供的高精度机械臂控制方法,实现机械臂的高效率高精度作业。
以上为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个实施例,以下为本申请提供的一种基于强化学习的高精度机械臂控制方法的另一个实施例。
实施例2,步骤S2中,基于强化学习算法对数字仿生机械臂进行物体抓取训练具体可通过下述步骤执行:
S21、对所述强化学习算法进行初始化,得到强化学习模型。
步骤S21中,根据预先获得的状态信息及状态转移概率初始化所述强化学习算法的网络参数,并设置所述强化学习算法的奖励函数,得到强化学习模型。
其中,强化学习算法是近端策略优化算法,强化学习算法中的Actor执行网络和Critic评价网络均以CNN卷积神经网络为基础网络结构。
S22、获取数字仿生机械臂关节位姿信息,并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息。
具体地,以数字仿生机械臂基座为坐标原点建立世界坐标系,确定数字仿生双目相机参数及位姿信息,利用数字仿生双目相机获取数字仿生障碍物的深度信息及数字仿生目标物体的深度信息,结合数字仿生双目相机参数及位姿信息确定数字仿生障碍物及数字仿生目标物体在以数字仿生机械臂基座为坐标原点建立世界坐标系中的位姿信息。
S23、根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型,输出抓取路径信息,并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练。
根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息计算奖励函数的函数值,奖励函数由两部分组成:数字仿生机械臂的抓夹和数字仿生目标物体的距离、数字仿生机械臂与数字仿生障碍物的距离,即:
γ=c1RT+c2R0
其中,γ表示奖励函数的函数值,RT表示数字仿生机械臂的抓夹和数字仿生目标物体的距离,R0表示数字仿生机械臂与数字仿生障碍物的距离,c1表示第一权重参数,c2表示第二权重参数。
其中,RT表示数字仿生机械臂的抓夹和数字仿生目标物体的距离,由Huber-Loss函数计算得到:
Figure BDA0004017101450000081
其中,d表示数字仿生机械臂的抓夹和数字仿生目标物体的欧式距离,δ表示Huber-Loss函数的平滑性超参数。
R0表示数字仿生机械臂与数字仿生障碍物的距离,函数如下:
Figure BDA0004017101450000082
其中,R0表示数字仿生机械臂与数字仿生障碍物的距离,介于0到1之间,d0是由vrep软件计算的数字仿生机械臂与数字仿生障碍物的最小距离,dref为常数,p表示衰减指数。
当在容许误差0.2rad的范围内完成了抓取任务时,会获得额外正奖励,当物体从手中掉落时,会获得额外负奖励。正奖励会鼓励继续执行前一动作,负奖励会降低前一动作的执行概率,通过设置奖励,引导数字仿生机械臂逐步地缩短与数字仿生目标物体的距离,远离数字仿生障碍物。
S24、判断训练次数是否满足第一预设阈值,若否,返回步骤S23;若是,执行步骤S25。
步骤S24中,一个训练回合结束的标志,可以是完成了预置数量的目标抓取任务,或者在10秒内未完成当前抓取任务,或是抓取过程中,目标物体掉落。均返回步骤S23重新进行训练。只有当训练回合满足预设次数时,才执行步骤S25。
需要注意的是,在一个训练回合没有结束之前,返回步骤S23之前还包括:
基于当前状态信息、当前状态转移概率和奖励函数值,更新所述根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型。
可以理解的是,根据训练时的抓取效果,调整相应参数,使数字仿生机械臂实现持续学习,从而能够不断更新控制模型,不断提高数字仿生目标物体的抓取成功率以及抓取精度。
S25、判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值,若否,复位所述强化学习模型的网络参数,返回步骤S21;若是,获取当前所述数字孪生仿生空间的仿生网络参数,结束训练。
其中,所述仿生网络参数包括数字仿生机械臂的关节位置,各个关节的旋转速度及旋转顺序,每个关节移动的目标位置,数字仿生机械臂的抓夹移动的目标位置,数字仿生障碍物的位置及速度,数字仿生目标物体的位置等。数字仿生机械臂关节速度可以通过关节位置的微分得到;数字仿生机械臂的抓夹的位置通过数字仿生双目深度相机得到。
虚拟仿真环境不断循环仿真训练机械臂抓取,直至机械臂抓取目标物体成功率以及精度达到一定要求后,训练结束,此时,基于当前数字孪生仿生空间的仿生网络参数构建的控制模型,可以控制数字仿生机械臂在满足仿生预设阈值的情况下执行抓取任务。
通过构建与现实环境一致的数字孪生仿生空间,基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练,不断调整数字孪生仿生空间的网络参数,获得抓取精度满足仿生预设阈值的数字仿生机械臂对应的数字孪生仿生空间的仿生网络参数,并将仿生网络参数反馈至现实环境,配置现实环境的真实机械臂,无需对现实环境进行频繁采样,将计算过程转移至数字孪生仿生空间,孪生空间负责输出优化后的控制模型即可,有效提高机械臂在执行抓取任务时的作业路径划效率。
以上为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个实施例,以下为本申请提供的一种基于强化学习的高精度机械臂控制方法的另一个实施例。
实施例3,在前述实施例1或2的基础上,在步骤S4之后还包括,基于预设时间间隔,对所述真实机械臂进行实物抓取测试,当所述真实机械臂的抓取误差不满足预设误差阈值时,返回步骤S1。
可以理解的是,在步骤S4中,真实机械臂在现实环境中执行若干次抓取任务后,物理参数可能发生变化,基于步骤S3得到的控制模型可能无法得到的是理想执行结果,因此,在步骤S4之后,实施例3进一步对真实机械臂的进行抓取监督,及时调整控制真实机械臂执行抓取任务的控制模型,保证抓取精度。
以上为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个实施例,以下为本申请提供的一种基于强化学习的高精度机械臂控制系统的另一个实施例。
实施例4提供了一种基于强化学习的高精度机械臂控制系统,请参阅图2,在实施例4中,系统包括:
仿生空间构建模块1,用于根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;其中,所述数字孪生仿生空间包括数字仿生机械臂;
仿生训练模块2,用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,当所述数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,跳转至测试模块;
测试模块3,根据所述仿生网络参数配置所述现实环境的真实机械臂,对所述真实机械臂进行实物抓取测试,判断所述真实机械臂的抓取精度是否满足真实预设阈值,若否,跳转至所述仿生训练模块,若是,跳转至执行模块;
执行模块4,用于基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
在一个优选的实施例中,机械臂控制系统还包括仿生训练子模块,所述仿生训练子模块用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,具体包括:
初始化模块,用于对所述强化学习算法进行初始化,得到强化学习模型;
数据获取模块,用于获取数字仿生机械臂关节位姿信息,并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息;
抓取训练模块,用于根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型,输出抓取路径信息,并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练;
第一判断模块,用于判断训练次数是否满足第一预设阈值,若否,跳转至所述抓取训练模块;若是,跳转至第二判断模块;
第二判断模块,用于判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值,若否,复位所述强化学习模型的网络参数,跳转至所述初始化模块;若是,获取当前所述数字孪生仿生空间的仿生网络参数,结束训练。
在另一个优选的实施例中,机械臂控制系统还包括监督模块,所述监督模块用于基于预设时间间隔,对所述高精度机械臂进行实物抓取测试,当所述高精度机械臂的抓取误差不满足预设误差阈值时,跳转至所述仿生空间构建模块。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于强化学习的高精度机械臂控制方法,其特征在于,包括:
S1、根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;其中,所述数字孪生仿生空间包括数字仿生机械臂;
S2、基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,当所述数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,执行步骤S3;
S3、根据所述仿生网络参数配置所述现实环境的真实机械臂,对所述真实机械臂进行实物抓取测试,判断所述真实机械臂的抓取精度是否满足真实预设阈值,若否,返回步骤S2,若是,执行步骤S4;
S4、基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
2.根据权利要求1所述的高精度机械臂控制方法,其特征在于,
所述环境信息包括双目相机参数及位姿信息、障碍物参数及位姿信息和目标物体参数及位姿信息;
所述机械臂关节位姿信息包括机械臂本体参数及位姿信息和机械臂关节节点位姿信息。
3.根据权利要求1所述的高精度机械臂控制方法,其特征在于,所述数字孪生仿生空间还包括:数字仿生双目相机、数字仿生障碍物及数字仿生目标物体。
4.根据权利要求1所述的高精度机械臂控制方法,其特征在于,步骤S2中,所述基于强化学习算法对所述数字仿生机械臂进行物体抓取训练具体包括:
S21、对所述强化学习算法进行初始化,得到强化学习模型;
S22、获取数字仿生机械臂关节位姿信息,并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息;
S23、根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型,输出抓取路径信息,并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练;
S24、判断训练次数是否满足第一预设阈值,若否,返回步骤S23;若是,执行步骤S25;
S25、判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值,若否,复位所述强化学习模型的网络参数,返回步骤S21;若是,获取当前所述数字孪生仿生空间的仿生网络参数,结束训练。
5.根据权利要求4所述的高精度机械臂控制方法,其特征在于,步骤S21具体包括:
根据预先获得的状态信息及状态转移概率初始化所述强化学习算法的网络参数,并设置所述强化学习算法的奖励函数,得到强化学习模型。
6.根据权利要求4所述的高精度机械臂控制方法,其特征在于,在步骤S24中,在所述返回步骤S23之前还包括:
基于当前状态信息、当前状态转移概率和奖励函数值,更新所述根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型。
7.根据权利要求1所述的高精度机械臂控制方法,其特征在于,在步骤S4之后还包括,基于预设时间间隔,对所述真实机械臂进行实物抓取测试,当所述真实机械臂的抓取误差不满足预设误差阈值时,返回步骤S1。
8.一种基于强化学习的高精度机械臂控制系统,其特征在于,包括:
仿生空间构建模块,用于根据现实环境的环境信息及机械臂关节位姿信息,构建数字孪生仿生空间;其中,所述数字孪生仿生空间包括数字仿生机械臂;
仿生训练模块,用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,当所述数字仿生机械臂的抓取精度满足仿生预设阈值时,获取所述数字孪生仿生空间的仿生网络参数,跳转至测试模块;
测试模块,根据所述仿生网络参数配置所述现实环境的真实机械臂,对所述真实机械臂进行实物抓取测试,判断所述真实机械臂的抓取精度是否满足真实预设阈值,若否,跳转至所述仿生训练模块,若是,跳转至执行模块;
执行模块,用于基于所述仿生网络参数输出控制模型,利用所述控制模型控制所述真实机械臂执行抓取任务。
9.根据权利要求8所述的高精度机械臂控制系统,其特征在于,所述机械臂控制系统还包括仿生训练子模块,所述仿生训练子模块用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练,具体包括:
初始化模块,用于对所述强化学习算法进行初始化,得到强化学习模型;
数据获取模块,用于获取数字仿生机械臂关节位姿信息,并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息;
抓取训练模块,用于根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型,输出抓取路径信息,并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练;
第一判断模块,用于判断训练次数是否满足第一预设阈值,若否,跳转至所述抓取训练模块;若是,跳转至第二判断模块;
第二判断模块,用于判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值,若否,复位所述强化学习模型的网络参数,跳转至所述初始化模块;若是,获取当前所述数字孪生仿生空间的仿生网络参数,结束训练。
10.根据权利要求8所述的高精度机械臂控制系统,其特征在于,所述机械臂控制系统还包括监督模块,所述监督模块用于基于预设时间间隔,对所述真实机械臂进行实物抓取测试,当所述真实机械臂的抓取误差不满足预设误差阈值时,跳转至所述仿生空间构建模块。
CN202211673410.3A 2022-12-26 2022-12-26 一种基于强化学习的高精度机械臂控制方法及系统 Active CN115781685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211673410.3A CN115781685B (zh) 2022-12-26 2022-12-26 一种基于强化学习的高精度机械臂控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211673410.3A CN115781685B (zh) 2022-12-26 2022-12-26 一种基于强化学习的高精度机械臂控制方法及系统

Publications (2)

Publication Number Publication Date
CN115781685A true CN115781685A (zh) 2023-03-14
CN115781685B CN115781685B (zh) 2023-07-07

Family

ID=85426717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211673410.3A Active CN115781685B (zh) 2022-12-26 2022-12-26 一种基于强化学习的高精度机械臂控制方法及系统

Country Status (1)

Country Link
CN (1) CN115781685B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116449851A (zh) * 2023-06-12 2023-07-18 泰坦(天津)能源技术有限公司 一种钻工机器人的智能避障控制方法及系统
CN117182930A (zh) * 2023-11-07 2023-12-08 山东捷瑞数字科技股份有限公司 基于数字孪生的四轴机械臂绑定方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210299860A1 (en) * 2019-10-15 2021-09-30 Hefei University Of Technology Method and system for robot action imitation learning in three-dimensional space
CN114888801A (zh) * 2022-05-16 2022-08-12 南京邮电大学 一种基于离线策略强化学习的机械臂控制方法及系统
CN114942633A (zh) * 2022-04-28 2022-08-26 华南农业大学 基于数字孪生和强化学习的多智能体协同避碰采摘方法
CN114952828A (zh) * 2022-05-09 2022-08-30 华中科技大学 一种基于深度强化学习的机械臂运动规划方法和系统
CN115446867A (zh) * 2022-09-30 2022-12-09 山东大学 一种基于数字孪生技术的工业机械臂控制方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210299860A1 (en) * 2019-10-15 2021-09-30 Hefei University Of Technology Method and system for robot action imitation learning in three-dimensional space
CN114942633A (zh) * 2022-04-28 2022-08-26 华南农业大学 基于数字孪生和强化学习的多智能体协同避碰采摘方法
CN114952828A (zh) * 2022-05-09 2022-08-30 华中科技大学 一种基于深度强化学习的机械臂运动规划方法和系统
CN114888801A (zh) * 2022-05-16 2022-08-12 南京邮电大学 一种基于离线策略强化学习的机械臂控制方法及系统
CN115446867A (zh) * 2022-09-30 2022-12-09 山东大学 一种基于数字孪生技术的工业机械臂控制方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116449851A (zh) * 2023-06-12 2023-07-18 泰坦(天津)能源技术有限公司 一种钻工机器人的智能避障控制方法及系统
CN116449851B (zh) * 2023-06-12 2023-09-08 泰坦(天津)能源技术有限公司 一种钻工机器人的智能避障控制方法及系统
CN117182930A (zh) * 2023-11-07 2023-12-08 山东捷瑞数字科技股份有限公司 基于数字孪生的四轴机械臂绑定方法、系统、设备及介质
CN117182930B (zh) * 2023-11-07 2024-02-13 山东捷瑞数字科技股份有限公司 基于数字孪生的四轴机械臂绑定方法、系统、设备及介质

Also Published As

Publication number Publication date
CN115781685B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN115781685A (zh) 一种基于强化学习的高精度机械臂控制方法及系统
CN109960880B (zh) 一种基于机器学习的工业机器人避障路径规划方法
CN109240091B (zh) 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
Calinon et al. Learning collaborative manipulation tasks by demonstration using a haptic interface
CN111872934B (zh) 一种基于隐半马尔可夫模型的机械臂控制方法及系统
Lee et al. Incremental motion primitive learning by physical coaching using impedance control
CN113510709B (zh) 基于深度强化学习的工业机器人位姿精度在线补偿方法
CN110154024B (zh) 一种基于长短期记忆神经网络增量模型的装配控制方法
CN115464659B (zh) 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN112631128A (zh) 一种多模异构信息融合的机器人装配技能学习方法及系统
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
Zhang et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments
CN113232019A (zh) 机械臂控制方法、装置、电子设备及存储介质
CN114789454B (zh) 基于lstm和逆运动学的机器人数字孪生轨迹补全方法
Jauhri et al. Interactive imitation learning in state-space
CN115256401A (zh) 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法
Droniou et al. Autonomous online learning of velocity kinematics on the icub: A comparative study
CN113910218A (zh) 基于运动学与深度神经网络融合的机器人标定方法和装置
Gäbert et al. Generation of human-like arm motions using sampling-based motion planning
CN116834014A (zh) 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统
CN116533249A (zh) 基于深度强化学习的机械臂控制方法
CN114779661B (zh) 基于多分类生成对抗模仿学习算法的化学合成机器人系统
CN115446867A (zh) 一种基于数字孪生技术的工业机械臂控制方法及系统
CN113967909B (zh) 基于方向奖励的机械臂智能控制方法
CN114310954A (zh) 一种护理机器人自适应升降控制方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant