CN112965372B

CN112965372B - 基于强化学习的微零件精密装配方法、装置和系统

Info

Publication number: CN112965372B
Application number: CN202110137780.4A
Authority: CN
Inventors: 李迎; 徐德
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2022-04-01
Anticipated expiration: 2041-02-01
Also published as: CN112965372A

Abstract

本发明属于控制技术，具体涉及了一种基于强化学习的微零件精密装配方法、装置和系统，旨在解决现有装配技术效率低适用性差的问题。本发明包括：实时获取微零件的图像和力传感器信息，先通过微零件的图像进行位姿对准，再基于力传感器信息通过基于强化学习的装配模型完成装配。所述基于强化学习的装配模型，通过构建力的雅可比矩阵获取专家动作并通过强化学习框架获取改进动作，将专家动作和改进动作相加获得最终动作，基于最终动作通过本发明特有的回合‑单步动态探索策略完成装配并获取基于强化学习的装配模型，本发明提高了操作的便捷度，还提高了模型的训练效率和精密装配效率同时提高了微零件精确装配方法的适用性。

Description

基于强化学习的微零件精密装配方法、装置和系统

技术领域

本发明属于控制技术领域，具体涉及了一种基于强化学习的微零件精密装配方法、装置和系统。

背景技术

近年来，微操作和微装配获得了更加广泛的关注，并广泛应用于机器人、生物医学和芯片制造等方面。在微装配中，通常需要将两个或者多个球装配到一起，如何高效地完成微零件的精密装配存在挑战。

在精密装配领域，存在一些精密装配方法。有的采用了基于力反馈的方式，通过不断调整零件的相对位置，完成装配(可参见文献：S.Liu,D.Xu,D.P.Zhang and Z.T.Zhang,“High precision automatic assembly based on microscopic vision and forceinformation”,IEEE Transactions on Automation Science and Engineering,vol.13,no.1,pp.382-393,2016.)。但其调整策略是预先设定的，效率较低。有的通过对零件接触状态建模的方式，实现两个柔性零件装配(可参见文献：D.P.Xing,Y.Lv,S.Liu,D.Xu andF.F.Liu,“Efficient insertion of multiple objects parallel connected bypassive compliant mechanisms in precision assembly”,IEEE Transactions onIndustrial Informatics,vol.15,no.9,pp.4878-4887,2019.)。但是，零件间的接触状态通常难以精确建模，因此这种方法的适用性不高。

发明内容

为了解决现有技术中的上述问题，即现有的精密零件装配方法需要预先设定调整策略，并且难以精确地对零件的接触状态精确建模导致的现有技术装配效率不高并且适用性较差的问题，本发明提供了一种基于强化学习的微零件精密装配方法，包括：

步骤S100，实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息；

步骤S200，基于第一微零件的显微视觉图像、第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

步骤S300，基于所述力传感器信息，通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配；

在一些优选的实施方式中，所述基于强化学习的装配模型，其获得方法为：

步骤A100，实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息；

步骤A200基于第一微零件的显微视觉图像和第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

步骤A300，基于所述力传感器信息，通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵；

步骤A400，基于所述力的雅可比矩阵获取专家动作a_e；

步骤A500，通过强化学习框架，获取改进动作a_r；

步骤A600，将所述专家动作a_e和改进动作a_r相加获得最终动作a_t；

步骤A700，基于所述最终动作a_t，通过回合-单步动态探索策略，将位姿对准后的第一微零件和第二微零件进行装配，得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。

在一些优选的实施方式中，所述强化学习框架包括评估网络和动作网络；

所述评估网络，通过最大化目标函数J(θ^μ)更新评估网络的网络参数θ^μ训练强化学习框架：

J(θ^μ)＝E[Q(s_i，μ(s_i|θ^μ))]

其中，J(θ^μ)表示目标函数，E表示数学期望，Q表示动作值，s_i＝[f_x，f_y，f_z，p_z]^T表示第i个样本的状态，其中f_x，f_y，f_z表示沿着X_f，Y_f，Z_f轴方向的接触力，p_z表示当前沿着Z_W轴方向的插入深度；

所述动作网络，通过最小化损失函数L更新动作网络的网络参数θ^Q训练强化学习框架：

其中，n表示回合中的步数，s_i表示第i个样本的状态，y_i表示动作值Q的目标值，a_i＝[d_x，d_y，d_z]^T表示装配动作，其中d_x，d_y，d_z表示分别沿着X_W、Y_W和Z_W轴方向的调整运动量。

在一些优选的实施方式中，步骤A700包括：

步骤A710，向所述最终动作a_t添加高斯噪声，生成带噪声的动作a_f：

a_f＝a_t+N(0，σ_aI)

其中，σ_a为标准差，N表示高斯噪声，I表示单位矩阵；

步骤A720，基于所述带噪声的动作a_f，通过重复进行回合-单步的动态探索策略，获得训练好的强化学习框架；

所述回合-单步的动态探索包括回合探索和单步探索；

所述回合探索，在每回合完成后更新标准差σ_a的数值，其方法为：

其中，n_s为回合中的步数；σ_t1和σ_t2表示预设的阈值且σ_t1＞σ_t2，R_Mi表示奖励函数；

所述单步探索，在回合中每一步动作后更新标准差σ_a的数值，其方法为：

根据所述安全-效率奖励函数更新标准差σ_a：

σ_a←σ_a-σ_btanh(R_M-R_e)

其中，σ_b为预设的常数，且σ_a被限制在预设的范围[σ_min，σ_max]内；

构建安全-效率奖励函数R_Mi，包括安全奖励R_1i和效率奖励R_2i；

其中，f_T为最大径向接触力，D_T为允许的最大插入步长，f_ri是执行第i次动作后的径向接触力，d_zi为第i次动作后沿Z_W轴方向的调整运动量，R_1i表示第i次动作后的安全奖励，R_2i表示第i次动作后的效率奖励，R_1(i-1)为第i-1次动作的安全奖励；

步骤A730，基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配，并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。

在一些优选的实施方式中，所述专家动作a_e为：

a_e＝[d_ex，d_ey，d_ez]

其中，d_ex表示沿着XW轴的调整运动量，d_ey表示沿着Y_W轴的调整运动量，d_ez表示沿着Z_W轴的插入步长；

所述d_ex和d_ey为：

其中，J_F∈R^2×2是力的雅可比矩阵，β∈(0，1)，f_x和f_y表示接触力。

在一些具体的实施方式中，步骤A730所述将位姿对准后的第一微零件和第二微零件进行装配，还包括，建立仿真环境与实际精密装配装置之间的联系，在仿真环境中进行基于强化学习的装配模型的训练，使仿真环境中的受力状态与实际环境一致，具体方法为：

计算所述力的雅可比矩阵J_F的逆矩阵J_X，表示受力与相对运动之间的关系，用于设置仿真环境的受力状态。

仿真环境参数根据上述方法设置好之后，在仿真环境中进行训练。

通过将仿真环境的受力状态设置为与实际环境一致，通过本发明提出的方法获得的基于强化学习的装配模型可以无障碍地直接运用于实际环境中的微零件精密装配任务。

本发明的另一方面，提出了一种基于强化学习的微零件精密装配装置，包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在调整平台上的第一微零件、设置在操作手上的第二微零件、控制线和计算机；

所述显微视觉系统，包括3路显微相机，光轴方向近似正交，用于采集第一微零件和第二微零件的图像，实施位姿对准；

所述调整平台，设置于显微视觉系统可观测范围内，具有3个旋转自由度和1个平移自由度，用于设置第一微零件；还用于设置力传感器，所述力传感器用于提供第一微零件和第二微零件的接触力信息；

所述操作手，设置于显微视觉系统可观测范围内，具有3个平移自由度，用于设置第二微零件；

所述计算机，通过视觉连接线与显微视觉系统连接；还通过控制连接线与调整平台和操作手连接；用于接收所述显微视觉系统采集的显微视觉图像，还用于接收所述力传感器采集到的接触力信息，并控制实现第一微零件和第二微零件的位姿对准和精密装配。

本发明的第三方面，提出了一种基于强化学习的微零件精密装配系统，包括：信息采集模块、微零件位姿对准模块和微零件装配模块；

所述信息采集模块，配置为实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息；

所述微零件位姿对准模块，配置为基于第一微零件的显微视觉图像、第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

所述微零件装配模块，基于力传感器信息，通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配；

本发明的第四方面，提出了一种设备，包括：至少一个处理器；以及以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于强化学习的微零件精密装配方法。

本发明的第五方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于强化学习的微零件精密装配方法。

本发明的有益效果：

(1)本发明基于强化学习的微零件精密装配方法，通过基于回合-单步的动态探索策略训练强化学习模型，建立起仿真环境与实际精密装配装置的联系，提高了模型的训练效率和精密装配效率，具有广泛的应用前景。

(2)本发明通过在仿真环境中将受力状态设置为与实际环境一致，本发明在虚拟环境中通过回合-单步探索策略获得的基于强化学习的装配模型可以直接无障碍地运用到各种实际环境中，具有更好的适用性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明实施例的基于强化学习的微零件精密装配方法的流程示意图；

图2是本发明实施例的基于强化学习的微零件精密装配方法的原理示意图；

图3是本发明第二实施例的基于强化学习的微零件精密装配装置的示意图；

图4是本发明实施例装配过程中沿着X_f轴和沿着Y_f轴接触力的变化过程示意图；

图5是本发明实施例装配过程中沿着Z_f轴的接触力的变化过程示意图；

图6是本发明实施例装配过程中调整运动量的变化过程示意图；

图7是本发明实施例装配过程中整体的运动轨迹示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请提高了模型的训练效率和精密装配效率，具有广泛的应用前景。

本发明提供一种基于强化学习的微零件精密装配方法；

本发明的一种基于强化学习的微零件精密装配方法，包括：

步骤S200，基于第一微零件的显微视觉图像和第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

步骤S300，基于所述力传感器信息，通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配。

为了更清晰地对本发明基于强化学习的微零件精密装配方法进行说明，下面结合图1和图2对本发明实施例中各步骤展开详述。

本发明第一实施例的基于强化学习的微零件精密装配方法，包括步骤S100-步骤S300，各步骤详细描述如下：

步骤S300基于力传感器信息，通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配；

在本实施例中，所述基于强化学习的装配模型，其获得方法包括步骤A100-步骤A700：

步骤A100，获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息；

步骤A200，基于第一微零件的显微视觉图像和第二微零件的显微视觉图像完成第一微零件和第二微零件位姿对准；

步骤A400，基于所述力的雅可比矩阵获取专家动作a_e；

在本实施例中，所述专家动作a_e为：

a_e＝[d_ex，d_ey，d_ez]

其中，d_ex表示沿着X_W轴的调整运动量，d_ey表示沿着Y_W轴的调整运动量，d_ez表示沿着Z_W轴的插入步长；

所述d_ex和d_ey为：

步骤A500，通过强化学习框架，获取改进动作a_r；

在本实施例中，强化学习框架包括评估网络和动作网络；

所述评估网络，通过在仿真环境中最大化目标函数J(θ^μ)更新评估网络的网络参数θ^μ训练强化学习框架：

J(θ^μ)＝E[Q(s_i，μ(s_i|θ^μ))]

其中，J(θ^μ)表示目标函数，E表示数学期望，Q表示动作值，s_i＝[f_x，f_y，f_z，p_z]^T表示第i个样本的状态，其中f_x，f_y，f_z表示沿着X_f，Y_f，Z_f轴方向的接触力，p_z表示当前沿着Z_W轴方向的插入深度；在本实施例中，力传感器坐标系[X_f，Y_f，Z_f]与世界坐标系[X_W，Y_W，Z_W]为两个不同的坐标系，力传感器坐标系表示力传感器的受力，世界坐标系表示操作手的运动；

所述动作网络，通过在仿真环境中最小化损失函数L更新动作网络的网络参数θ^Q训练强化学习框架：

步骤A700，基于所述最终动作a_t，通过回合-单步动态探索策略探索状态空间，将位姿对准后的第一微零件和第二微零件进行装配，得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。

在本实施例中，步骤A700包括：

a_f＝a_t+N(0，σ_aI)

其中，σ_a为标准差，N表示高斯噪声，I表示单位矩阵；标准差σ_a决定探索的强度。

步骤A720，基于所述带噪声的动作a_f，通过重复进行回合-单步的动态探索，获得训练好的强化学习框架；

所述回合-单步的动态探索包括回合探索和单步探索；

其中，n_s为回合中的步数；σ_t1和σ_t2表示预设的阈值且σ_t1＞σ_t2，每回合完成后，更新σ_a的数值，R_Mi表示奖励函数；

根据安全-效率奖励函数更新标准差σ_a：

σ_a←σ_a-σ_btanh(R_M-R_e)

所述安全-效率奖励函数R_Mi，包含安全奖励R_1i和效率奖励R_2i；

在本实施例中，步骤A730中，所述将位姿对准后的第一微零件和第二微零件进行装配，还包括，建立仿真环境与实际精密装配装置之间的联系，在仿真环境中进行基于强化学习的装配模型的训练，使仿真环境中的受力状态与实际环境一致，具体方法为：

利用基于显微视觉系统的方法，如文献：S.Liu，D.Xu，D.P.Zhang and Z.T.Zhang，“High precision automatic assembly based on microscopic vision and forceinformation”，IEEE Transactions on Automation Science and Engineering，vol.13，no.1，pp.382-393，2016.的方法将微零件进行位姿对准，然后利用在仿真环境中训练好的模型，完成在实际精密装配系统中的装配任务，装配过程的接触力变化如图4和图5所示，运动量变化如图6所示，运动轨迹如图7所示。

本发明第二实施例的基于强化学习的微零件精密装配装置，用于实现上述步骤S100-步骤S300的装配方法，如图3所示，包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在调整平台上的第一微零件、设置在操作手上的第二微零件、控制线和计算机；

所述的显微视觉系统由2台GC2450相机和1台PointGray相机组成；计算机采用Intel Core2 DUO处理器；所述的第二微零件是双轴零件，每个轴直径1mm，长度5mm；所述的第一微零件是带有多孔的面包电路板。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明的第三实施例，提供一种基于强化学习的微零件精密装配系统，包括：信息采集模块、微零件位姿对准模块和微零件装配模块；

所述微零件位姿对准模块，配置为基于第一微零件的显微视觉图像和第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

所述微零件装配模块，基于力传感信息，通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配；

需要说明的是，上述实施例提供的基于强化学习的微零件精密装配系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第四实施例的一种设备，包括：至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于强化学习的微零件精密装配方法。

本发明第五实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于强化学习的微零件精密装配方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于强化学习的微零件精密装配方法，应用于微零件精密装配装置，所述装置包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在力传感器上的第一微零件、设置在操作手上的第二微零件、控制线和计算机，其特征在于，所述方法包括：

所述基于强化学习的装配模型，其获得方法为：

步骤A100，实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息，

步骤A200，基于第一微零件的显微视觉图像和第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

步骤A400，基于所述力的雅可比矩阵获取专家动作a_e；

所述专家动作a_e为：

a_e＝[d_ex，d_ey，d_ez]

所述d_ex和d_ey为：

其中，J_F∈R^2×2是力的雅可比矩阵，β∈(0，1)，f_x和f_y表示沿着X_W轴和沿着Y_W轴接触力；

步骤A500，通过强化学习框架，获取改进动作a_r；

所述强化学习框架包括评估网络和动作网络；

J(θ^μ)＝E[Q(s_i，μ(s_i|θ^μ))]

其中，n表示回合中的步数，s_i表示第i个样本的状态，y_i表示动作值Q的目标值，a_i＝[d_x，d_y，d_z]^T表示装配动作，其中d_x，d_y，d_z表示分别沿着X_W、Y_W和Z_W轴方向的调整运动量；

步骤A700，基于所述最终动作a_t，通过回合-单步动态探索策略，将位姿对准后的第一微零件和第二微零件进行装配，得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件；

步骤A700包括：

a_f＝a_t+N(0，σ_aI)

其中，σ_a为标准差，N表示高斯噪声，I表示单位矩阵；

所述回合-单步的动态探索包括回合探索和单步探索；

根据安全-效率奖励函数更新标准差σ_a：

σ_a←σ_a-σ_btanh(R_M-R_e)

所述安全-效率奖励函数R_Mi，包括安全奖励R_1i和效率奖励R_2i；

2.根据权利要求1所述的基于强化学习的微零件精密装配方法，其特征在于，步骤A730中，将位姿对准后的第一微零件和第二微零件进行装配，还包括，建立仿真环境与实际精密装配装置之间的联系，在仿真环境中进行基于强化学习的装配模型的训练，使仿真环境中的受力状态与实际环境一致，具体方法为：

3.一种基于强化学习的微零件精密装配装置，其特征在于，用于实现如权利要求1或2任一项所述装配方法；

所述装配设备包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在调整平台上的第一微零件、设置在操作手上的第二微零件、控制线和计算机；

4.一种基于强化学习的微零件精密装配系统，应用于微零件精密装配装置，所述装置包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在力传感器上的第一微零件、设置在操作手上的第二微零件、控制线和计算机，其特征在于，所述系统包括：信息采集模块、微零件位姿对准模块和微零件装配模块；

所述微零件位姿对准模块，配置为基于第一微零件的显微视觉图像、第二微零件的显微视觉图像完成第一微零件和第二微零件位姿对准；

所述基于强化学习的装配模型，其获得方法为：

步骤A400，基于所述力的雅可比矩阵获取专家动作a_e；

所述专家动作a_e为：

a_e＝[d_ex，d_ey，d_ez]

所述d_ex和d_ey为：