CN115781685A

CN115781685A - 一种基于强化学习的高精度机械臂控制方法及系统

Info

Publication number: CN115781685A
Application number: CN202211673410.3A
Authority: CN
Inventors: 孟伟; 李一亮; 温震霆
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-14
Anticipated expiration: 2042-12-26
Also published as: CN115781685B

Abstract

本发明公开了一种基于强化学习的高精度机械臂控制方法及系统，涉及智能控制技术领域。方法包括：根据现实环境的环境信息及机械臂关节位姿信息，构建数字孪生仿生空间；基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练，当数字仿生机械臂的抓取精度满足仿生预设阈值时，获取所述数字孪生仿生空间的仿生网络参数，并根据仿生网络参数配置现实环境的真实机械臂。进一步，对真实机械臂进行实物抓取测试，当真实机械臂的抓取精度满足真实预设阈值时，基于仿生网络参数输出控制模型，利用控制模型控制真实机械臂执行抓取任务，提高了机械臂在执行抓取任务时的作业路径规划效率及规划精度。

Description

一种基于强化学习的高精度机械臂控制方法及系统

技术领域

本发明涉及智能控制技术领域，尤其涉及一种基于强化学习的高精度机械臂控制方法及系统。

背景技术

随着自动化技术的快速发展，智能工厂应运而生，机械臂是智能工厂的重要组成部分，通过控制器调整机械臂的移动轨迹，躲避障碍物，完成指定任务实现工业生产。随着工业生产精度要求不断提高，传统的反馈式机械臂控制模式已经无法满足工业发展需求，实现机械臂智能化控制成为研究热点。

现有技术通常采用正逆运动学计算方法输出完成任务时机械臂的无碰撞的关节路径点，实现机械臂的移动轨迹规划，但上述方法难以实现高维空间规划，且计算量较大；也有基于采样方法实现机械臂的移动轨迹规划，利用较小的计算量实现高维空间规划，但上述方法需要进行频繁采样，作业路径的规划效率及规划精度较低。

发明内容

本发明提供了一种基于强化学习的高精度机械臂控制方法及系统，用于解决现有技术在进行机械臂作业路径规划时，规划效率及规划精度低的技术问题。

本发明提供了一种基于强化学习的高精度机械臂控制方法，包括：

S1、根据现实环境的环境信息及机械臂关节位姿信息，构建数字孪生仿生空间；其中，所述数字孪生仿生空间包括数字仿生机械臂；

S2、基于强化学习算法对所述数字仿生机械臂进行物体抓取训练，当所述数字仿生机械臂的抓取精度满足仿生预设阈值时，获取所述数字孪生仿生空间的仿生网络参数，执行步骤S3；

S3、根据所述仿生网络参数配置所述现实环境的真实机械臂，对所述真实机械臂进行实物抓取测试，判断所述真实机械臂的抓取精度是否满足真实预设阈值，若否，返回步骤S2，若是，执行步骤S4；

S4、基于所述仿生网络参数输出控制模型，利用所述控制模型控制所述真实机械臂执行抓取任务。

优选地，所述环境信息包括双目相机参数及位姿信息、障碍物参数及位姿信息和目标物体参数及位姿信息；

所述机械臂关节位姿信息包括机械臂本体参数及位姿信息和机械臂关节节点位姿信息。

优选地，所述数字孪生仿生空间还包括：数字仿生双目相机、数字仿生障碍物及数字仿生目标物体。

优选地，步骤S2中，所述基于强化学习算法对所述数字仿生机械臂进行物体抓取训练具体包括：

S21、对所述强化学习算法进行初始化，得到强化学习模型；

S22、获取数字仿生机械臂关节位姿信息，并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息；

S23、根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型，输出抓取路径信息，并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练；

S24、判断训练次数是否满足第一预设阈值，若否，返回步骤S23；若是，执行步骤S25；

S25、判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值，若否，复位所述强化学习模型的网络参数，返回步骤S21；若是，获取当前所述数字孪生仿生空间的仿生网络参数，结束训练。

优选的，步骤S21具体包括：

根据预先获得的状态信息及状态转移概率初始化所述强化学习算法的网络参数，并设置所述强化学习算法的奖励函数，得到强化学习模型。

优选地，在步骤S24中，在所述返回步骤S23之前还包括：

基于当前状态信息、当前状态转移概率和奖励函数值，更新所述根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型。

优选的，在步骤S4之后还包括，基于预设时间间隔，对所述高精度机械臂进行实物抓取测试，当所述高精度机械臂的抓取误差不满足预设误差阈值时，返回步骤S1。

一种基于强化学习的高精度机械臂控制系统，包括：

仿生空间构建模块，用于根据现实环境的环境信息及机械臂关节位姿信息，构建数字孪生仿生空间；其中，所述数字孪生仿生空间包括数字仿生机械臂；

仿生训练模块，用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练，当所述数字仿生机械臂的抓取精度满足仿生预设阈值时，获取所述数字孪生仿生空间的仿生网络参数，跳转至测试模块；

测试模块，根据所述仿生网络参数配置所述现实环境的真实机械臂，对所述真实机械臂进行实物抓取测试，判断所述真实机械臂的抓取精度是否满足真实预设阈值，若否，跳转至所述仿生训练模块，若是，跳转至执行模块；

执行模块，用于基于所述仿生网络参数输出控制模型，利用所述控制模型控制所述真实机械臂执行抓取任务。

优选地，所述机械臂控制系统还包括仿生训练子模块，所述仿生训练子模块用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练，具体包括：

初始化模块，用于对所述强化学习算法进行初始化，得到强化学习模型；

数据获取模块，用于获取数字仿生机械臂关节位姿信息，并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息；

抓取训练模块，用于根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型，输出抓取路径信息，并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练；

第一判断模块，用于判断训练次数是否满足第一预设阈值，若否，跳转至所述抓取训练模块；若是，跳转至第二判断模块；

第二判断模块，用于判断所述数字仿生机械臂的抓取精度是否满足仿生预设阈值，若否，复位所述强化学习模型的网络参数，跳转至所述初始化模块；若是，获取当前所述数字孪生仿生空间的仿生网络参数，结束训练。

优选地，所述机械臂控制系统还包括监督模块，所述监督模块用于基于预设时间间隔，对所述真实机械臂进行实物抓取测试，当所述真实机械臂的抓取误差不满足预设误差阈值时，跳转至所述仿生空间构建模块。

从以上技术方案可以看出，本发明具有以下优点：

本申请提供了一种基于强化学习的高精度机械臂控制方法，包括：根据现实环境的环境信息及机械臂关节位姿信息，构建数字孪生仿生空间；基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练，当数字仿生机械臂的抓取精度满足仿生预设阈值时，获取所述数字孪生仿生空间的仿生网络参数，并根据仿生网络参数配置现实环境的真实机械臂。进一步，对真实机械臂进行实物抓取测试，判断真实机械臂的抓取精度是否满足真实预设阈值，若否，返回前述对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练步骤，若是，基于所述仿生网络参数输出控制模型，利用所述控制模型控制所述真实机械臂执行抓取任务。

本申请提供的高精度机械臂控制方法，通过构建与现实环境一致的数字孪生仿生空间，基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练，不断调整数字孪生仿生空间的网络参数，获得抓取精度满足仿生预设阈值的数字仿生机械臂对应的数字孪生仿生空间的仿生网络参数，并将仿生网络参数反馈至现实环境，配置现实环境的真实机械臂，根据真实机械臂的抓取效果，调整仿生网络参数，获取抓取精度满足真实预设阈值的(高精度)真实机械臂的控制模型，并利用控制模型控制(高精度)真实机械臂执行抓取任务，有效提高了机械臂在执行抓取任务时的作业路径划效率及规划精度，同时提高了机械臂的作业效率及作业精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个流程示意图；

图2为本申请提供的一种基于强化学习的高精度机械臂控制系统的一个结构示意图。

具体实施方式

本发明实施例提供了一种基于强化学习的高精度机械臂控制方法及系统，解决了现有技术在进行机械臂作业路径规划时，规划效率及规划精度低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本申请的实施例1提供了一种基于强化学习的高精度机械臂控制方法，请参阅图1，在实施例1中，方法包括：

S1、根据现实环境的环境信息及机械臂关节位姿信息，构建数字孪生仿生空间；其中，所述数字孪生仿生空间包括数字仿生机械臂。

现实环境包括：机械臂，双目相机，障碍物，目标物体等。

现实环境的环境信息包括双目相机参数及位姿信息、障碍物参数及位姿信息和目标物体参数及位姿信息。机械臂关节位姿信息包括机械臂本体参数及位姿信息和机械臂关节节点位姿信息。

数字孪生仿生空间包括：数字仿生机械臂，数字仿生双目相机，数字仿生障碍物及数字仿生目标物体等。

需要说明的是，数字孪生是指综合运用多种技术，实现物理空间与数字空间的实时双向同步映射及虚实交互。因此，步骤S1中，数字孪生仿生空间也包含环境信息和数字仿生机械臂关节位姿信息，且数字孪生仿生空间中的环境信息和数字仿生机械臂关节位姿信息与现实环境完全一致。

上述强化学习算法采用近端策略优化算法，利用强化学习算法在数字孪生仿生空间中训练数字仿生机械臂躲避障碍物并抓取目标物体，经过训练后，选取满足抓取精度的控制模型应用到真实机械臂上，也即，根据仿生网络参数配置现实环境的真实机械臂。

其中，所述仿生网络参数包括数字仿生机械臂的关节位置，各个关节的旋转速度及旋转顺序，每个关节移动的目标位置，数字仿生机械臂的抓夹移动的目标位置，数字仿生障碍物的位置及速度，数字仿生目标物体的位置等。数字仿生机械臂关节速度可以通过关节位置的微分得到；数字仿生机械臂的抓夹的位置通过数字仿生双目深度相机得到。

可以理解的是，根据上述仿生网络参数构建的控制模型，可以控制仿生机械臂躲避障碍物并抓取目标物体。将上述仿生网络参数移植至现实环境构建的控制模型，同样也可以控制真实机械臂执行抓取任务。

S3、根据所述仿生网络参数配置所述现实环境的真实机械臂，对所述真实机械臂进行实物抓取测试，判断所述真实机械臂的抓取精度是否满足真实预设阈值，若否，返回步骤S2，若是，执行步骤S4。

可以理解的是，虽然数字孪生仿生空间中的环境信息和数字仿生机械臂关节位姿信息与现实环境完全一致，但是数字仿生机械臂是在理想环境下执行抓取任务，得到的是理想执行结果，当利用仿生网络参数得到的控制模型控制现实环境的真实机械臂执行抓取任务时，执行结果不可避免地会与理想执行结果产生偏差。

为提高机械臂规在执行抓取任务时的作业精度，步骤S3进一步对真实机械臂在现实环境中进行实物抓取的抓取精度进行测试，只有当真实机械臂在现实环境中进行实物抓取的抓取精度满足真实预设阈值时，才会执行步骤S4，利用仿生网络参数确定固定的控制模型，控制机械臂进行抓取作业。

实施例1提供的一种基于强化学习的高精度机械臂控制方法，通过构建与现实环境一致的数字孪生仿生空间，基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练，不断调整数字孪生仿生空间的网络参数，获得抓取精度满足仿生预设阈值的数字仿生机械臂对应的数字孪生仿生空间的仿生网络参数，并将仿生网络参数反馈至现实环境，配置现实环境的真实机械臂，无需对现实环境进行频繁采样，将计算过程转移至数字孪生仿生空间，孪生空间负责输出优化后的控制模型即可，有效提高机械臂在执行抓取任务时的作业路径划效率。

进一步，为提高机械臂规在现实环境中执行抓取任务时的作业精度，实施例1还根据真实机械臂的抓取效果，调整仿生网络参数，获取抓取精度满足真实预设阈值的高精度机械臂的控制模型，然后利用控制模型控制高精度机械臂执行抓取任务，有效提高了机械臂规在执行抓取任务时的作业路径规划精度。利用上述实施例1提供的高精度机械臂控制方法，实现机械臂的高效率高精度作业。

以上为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个实施例，以下为本申请提供的一种基于强化学习的高精度机械臂控制方法的另一个实施例。

实施例2，步骤S2中，基于强化学习算法对数字仿生机械臂进行物体抓取训练具体可通过下述步骤执行：

S21、对所述强化学习算法进行初始化，得到强化学习模型。

步骤S21中，根据预先获得的状态信息及状态转移概率初始化所述强化学习算法的网络参数，并设置所述强化学习算法的奖励函数，得到强化学习模型。

其中，强化学习算法是近端策略优化算法，强化学习算法中的Actor执行网络和Critic评价网络均以CNN卷积神经网络为基础网络结构。

S22、获取数字仿生机械臂关节位姿信息，并基于所述数字仿生双目相机获取数字仿生障碍物位姿信息及数字仿生目标物体位姿信息。

具体地，以数字仿生机械臂基座为坐标原点建立世界坐标系，确定数字仿生双目相机参数及位姿信息，利用数字仿生双目相机获取数字仿生障碍物的深度信息及数字仿生目标物体的深度信息，结合数字仿生双目相机参数及位姿信息确定数字仿生障碍物及数字仿生目标物体在以数字仿生机械臂基座为坐标原点建立世界坐标系中的位姿信息。

S23、根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息和所述强化学习模型，输出抓取路径信息，并基于所述抓取路径信息对所述数字仿生机械臂进行物体抓取训练。

根据所述数字仿生机械臂关节位姿信息、所述数字仿生障碍物位姿信息及数字仿生目标物体位姿信息计算奖励函数的函数值，奖励函数由两部分组成：数字仿生机械臂的抓夹和数字仿生目标物体的距离、数字仿生机械臂与数字仿生障碍物的距离，即：

γ＝c₁R_T+c₂R₀

其中,γ表示奖励函数的函数值，R_T表示数字仿生机械臂的抓夹和数字仿生目标物体的距离，R₀表示数字仿生机械臂与数字仿生障碍物的距离，c₁表示第一权重参数，c₂表示第二权重参数。

其中，R_T表示数字仿生机械臂的抓夹和数字仿生目标物体的距离，由Huber-Loss函数计算得到：

其中，d表示数字仿生机械臂的抓夹和数字仿生目标物体的欧式距离，δ表示Huber-Loss函数的平滑性超参数。

R₀表示数字仿生机械臂与数字仿生障碍物的距离，函数如下：

其中，R₀表示数字仿生机械臂与数字仿生障碍物的距离，介于0到1之间，d₀是由vrep软件计算的数字仿生机械臂与数字仿生障碍物的最小距离，d_ref为常数，p表示衰减指数。

当在容许误差0.2rad的范围内完成了抓取任务时，会获得额外正奖励，当物体从手中掉落时，会获得额外负奖励。正奖励会鼓励继续执行前一动作，负奖励会降低前一动作的执行概率，通过设置奖励，引导数字仿生机械臂逐步地缩短与数字仿生目标物体的距离，远离数字仿生障碍物。

S24、判断训练次数是否满足第一预设阈值，若否，返回步骤S23；若是，执行步骤S25。

步骤S24中，一个训练回合结束的标志，可以是完成了预置数量的目标抓取任务，或者在10秒内未完成当前抓取任务，或是抓取过程中，目标物体掉落。均返回步骤S23重新进行训练。只有当训练回合满足预设次数时，才执行步骤S25。

需要注意的是，在一个训练回合没有结束之前，返回步骤S23之前还包括：

可以理解的是，根据训练时的抓取效果，调整相应参数，使数字仿生机械臂实现持续学习，从而能够不断更新控制模型，不断提高数字仿生目标物体的抓取成功率以及抓取精度。

虚拟仿真环境不断循环仿真训练机械臂抓取，直至机械臂抓取目标物体成功率以及精度达到一定要求后，训练结束，此时，基于当前数字孪生仿生空间的仿生网络参数构建的控制模型，可以控制数字仿生机械臂在满足仿生预设阈值的情况下执行抓取任务。

通过构建与现实环境一致的数字孪生仿生空间，基于强化学习算法对数字孪生仿生空间的数字仿生机械臂进行物体抓取训练，不断调整数字孪生仿生空间的网络参数，获得抓取精度满足仿生预设阈值的数字仿生机械臂对应的数字孪生仿生空间的仿生网络参数，并将仿生网络参数反馈至现实环境，配置现实环境的真实机械臂，无需对现实环境进行频繁采样，将计算过程转移至数字孪生仿生空间，孪生空间负责输出优化后的控制模型即可，有效提高机械臂在执行抓取任务时的作业路径划效率。

实施例3，在前述实施例1或2的基础上，在步骤S4之后还包括，基于预设时间间隔，对所述真实机械臂进行实物抓取测试，当所述真实机械臂的抓取误差不满足预设误差阈值时，返回步骤S1。

可以理解的是，在步骤S4中，真实机械臂在现实环境中执行若干次抓取任务后，物理参数可能发生变化，基于步骤S3得到的控制模型可能无法得到的是理想执行结果，因此，在步骤S4之后，实施例3进一步对真实机械臂的进行抓取监督，及时调整控制真实机械臂执行抓取任务的控制模型，保证抓取精度。

以上为本申请提供的一种基于强化学习的高精度机械臂控制方法的一个实施例，以下为本申请提供的一种基于强化学习的高精度机械臂控制系统的另一个实施例。

实施例4提供了一种基于强化学习的高精度机械臂控制系统，请参阅图2，在实施例4中，系统包括：

仿生空间构建模块1，用于根据现实环境的环境信息及机械臂关节位姿信息，构建数字孪生仿生空间；其中，所述数字孪生仿生空间包括数字仿生机械臂；

仿生训练模块2，用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练，当所述数字仿生机械臂的抓取精度满足仿生预设阈值时，获取所述数字孪生仿生空间的仿生网络参数，跳转至测试模块；

测试模块3，根据所述仿生网络参数配置所述现实环境的真实机械臂，对所述真实机械臂进行实物抓取测试，判断所述真实机械臂的抓取精度是否满足真实预设阈值，若否，跳转至所述仿生训练模块，若是，跳转至执行模块；

执行模块4，用于基于所述仿生网络参数输出控制模型，利用所述控制模型控制所述真实机械臂执行抓取任务。

在一个优选的实施例中，机械臂控制系统还包括仿生训练子模块，所述仿生训练子模块用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练，具体包括：

在另一个优选的实施例中，机械臂控制系统还包括监督模块，所述监督模块用于基于预设时间间隔，对所述高精度机械臂进行实物抓取测试，当所述高精度机械臂的抓取误差不满足预设误差阈值时，跳转至所述仿生空间构建模块。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的高精度机械臂控制方法，其特征在于，包括：

2.根据权利要求1所述的高精度机械臂控制方法，其特征在于，

所述环境信息包括双目相机参数及位姿信息、障碍物参数及位姿信息和目标物体参数及位姿信息；

3.根据权利要求1所述的高精度机械臂控制方法，其特征在于，所述数字孪生仿生空间还包括：数字仿生双目相机、数字仿生障碍物及数字仿生目标物体。

4.根据权利要求1所述的高精度机械臂控制方法，其特征在于，步骤S2中，所述基于强化学习算法对所述数字仿生机械臂进行物体抓取训练具体包括：

S21、对所述强化学习算法进行初始化，得到强化学习模型；

5.根据权利要求4所述的高精度机械臂控制方法，其特征在于，步骤S21具体包括：

6.根据权利要求4所述的高精度机械臂控制方法，其特征在于，在步骤S24中，在所述返回步骤S23之前还包括：

7.根据权利要求1所述的高精度机械臂控制方法，其特征在于，在步骤S4之后还包括，基于预设时间间隔，对所述真实机械臂进行实物抓取测试，当所述真实机械臂的抓取误差不满足预设误差阈值时，返回步骤S1。

8.一种基于强化学习的高精度机械臂控制系统，其特征在于，包括：

9.根据权利要求8所述的高精度机械臂控制系统，其特征在于，所述机械臂控制系统还包括仿生训练子模块，所述仿生训练子模块用于基于强化学习算法对所述数字仿生机械臂进行物体抓取训练，具体包括：

10.根据权利要求8所述的高精度机械臂控制系统，其特征在于，所述机械臂控制系统还包括监督模块，所述监督模块用于基于预设时间间隔，对所述真实机械臂进行实物抓取测试，当所述真实机械臂的抓取误差不满足预设误差阈值时，跳转至所述仿生空间构建模块。