CN115338610A

CN115338610A - 双轴孔装配方法、装置、电子设备和存储介质

Info

Publication number: CN115338610A
Application number: CN202210788092.9A
Authority: CN
Inventors: 严少华; 徐德; 陶显
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-11-15
Anticipated expiration: 2042-07-04
Also published as: CN115338610B

Abstract

本发明提供一种双轴孔装配方法、装置、电子设备和存储介质，涉及自动化装配技术领域，所述方法包括：获取力传感器状态和状态目标值；基于力传感器状态，确定演示学习动作量和力反馈控制动作量；将力传感器状态和状态目标值输入至预先训练至收敛状态的装配学习模型，输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数；基于动作比例系数、网络动作量、演示学习动作量和力反馈控制动作量，确定实际动作量，并基于实际动作量进行双轴孔装配，迭代进行双轴孔装配，且在实际动作量沿z轴方向的平移量之和不小于目标深度的情况下停止装配。本发明可实现双轴孔装配效率的大幅度提升，且同时具备较高稳定性和适应能力。

Description

双轴孔装配方法、装置、电子设备和存储介质

技术领域

本发明涉及自动化装配技术领域，尤其涉及一种双轴孔装配方法、装置、电子设备和存储介质。

背景技术

随着智能制造技术的快速发展，工业机器人被越来越多的应用在工业的各种装配领域中，其中，对工业机器人自动且高精度完成最基础的双轴孔装配任务的需求越来越多。

现有技术中，工业机器人自动完成双轴孔装配任务的方法多采用以下两种：

(1)、力反馈控制算法，可设计已知模型的控制策略，具有较高的稳定性，但其对装配环境的适应性较差；

(2)、演示学习算法，可以对人工示教数据进行学习，对装配环境的不确定性具有较强的适应能力，但其稳定性较差。

发明内容

本发明提供一种双轴孔装配方法、装置、电子设备和存储介质，用以解决现有技术中适应性和稳定性无法兼具的缺陷，实现双轴孔装配效率的大幅度提升，且同时具备较高稳定性和适应能力。

本发明提供一种双轴孔装配方法，包括：

获取力传感器状态和状态目标值，所述状态目标值用于表征最优受力状态和目标深度；

基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量；

将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型，输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数，其中，所述动作价值函数用于表征力传感器状态下动作选取的优劣程度，所述动作比例系数用于表征所述力反馈控制动作量在实际控制过程中的比例系数；

基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量，确定实际动作量，并基于所述实际动作量进行双轴孔装配，迭代进行双轴孔装配，且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。

根据本发明提供的双轴孔装配方法，所述收敛状态的装配学习模型是基于以下步骤训练得到的，包括：

将所述力传感器状态和所述状态目标值输入至初始装配学习模型的当前动作选取网络，输出当前时刻的所述网络动作量和动作比例系数；

基于所述网络动作量，确定所述当前动作选取网络的梯度变化量和奖励函数，并更新所述当前动作选取网络的参数；

将所述力传感器状态和所述网络动作量输入至初始装配学习模型的当前动作评价网络，输出当前时刻所述网络动作量的动作价值函数；

基于所述动作价值函数，确定所述当前动作评价网络的损失函数，并基于所述损失函数更新所述当前动作评价网络的参数。

根据本发明提供的双轴孔装配方法，所述基于所述网络动作量，确定所述当前动作选取网络的梯度变化量和奖励函数，并更新所述当前动作选取网络的参数，包括：

基于所述网络动作量，利用链式法则确定所述梯度变化量；

基于所述力传感器状态和状态目标值，确定所述奖励函数；

基于所述梯度变化量和所述奖励函数，更新所述当前动作选取网络的参数，在所述梯度变化量减小到使所述奖励函数收敛的情况下，结束所述当前动作选取网络的更新。

根据本发明提供的双轴孔装配方法，所述基于所述动作价值函数，确定所述当前动作评价网络的损失函数，并基于所述损失函数更新所述当前动作评价网络的参数，包括：

将所述当前动作选取网络的参数复制至所述装配学习模型的目标动作选取网络，将所述当前动作评价网络的参数复制至所述装配学习模型的目标动作评价网络，确定所述动作价值函数的价值目标值；

基于所述动作价值函数和所述价值目标值，确定所述当前动作评价网络的损失函数；

对所述损失函数求梯度下降，并更新所述当前动作评价网络的参数，在所述损失函数小于阈值的情况下，结束所述当前动作评价网络的更新。

根据本发明提供的双轴孔装配方法，所述基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量，包括：

基于高斯混合模型，确定所述力传感器状态下的演示学习动作量，其中，所述演示学习动作量用于表征力传感器状态下的动作量概率分布，所述高斯混合模型是基于示教过程中力传感器状态和动作量构建的；

基于力反馈控制模型，确定所述力传感器状态下的力反馈控制动作量，其中，所述力反馈控制模型是基于轴孔内部结构构建的。

根据本发明提供的双轴孔装配方法，所述力传感器状态包括位姿和受力信息。

本发明还提供一种双轴孔装配装置，包括：

获取模块，用于获取力传感器状态和状态目标值，所述状态目标值用于表征最优受力状态和目标深度；

第一确定模块，用于基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量；

输出模块，用于将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型，输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数，其中，所述动作价值函数用于表征力传感器状态下动作选取的优劣程度，所述动作比例系数用于表征所述演示学习动作量在实际控制过程中的比例系数；

第二确定模块，用于基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量，确定实际动作量，并基于所述实际动作量进行双轴孔装配，迭代进行双轴孔装配，且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述双轴孔装配方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述双轴孔装配方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述双轴孔装配方法。

本发明提供的双轴孔装配方法、装置、电子设备和存储介质，通过将力传感器状态和状态目标值同时输入预先训练至收敛状态的装配学习模型，解决装配学习模型中奖励函数的设计难题，以状态目标值为装配目标，提高双轴孔装配效率；此外，基于装配学习模型收敛状态下的动作量和动作比例系数，结合演示学习动作量和力反馈控制动作量，确定用于装配的实际动作量，进一步增加轴孔装配的效率与安全性，同时具备较高稳定性和适应能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的双轴孔装配方法的流程示意图之一；

图2是本发明提供的双轴孔装配方法的流程示意图之二；

图3是现有技术的奖励函数示意图；

图4是本发明提供的双轴孔装配方法的奖励函数示意图；

图5是本发明提供的双轴孔装配装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对上述问题，本发明实施例提供一种双轴孔装配方法，图1是本发明提供的双轴孔装配方法的流程示意图之一，如图1所示，该方法包括：

步骤110、获取力传感器状态和状态目标值，所述状态目标值用于表征最优受力状态和目标深度；

步骤120、基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量；

步骤130、将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型，输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数，其中，所述动作价值函数用于表征力传感器状态下动作选取的优劣程度，所述动作比例系数用于表征所述力反馈控制动作量在实际控制过程中的比例系数；

步骤140、基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量，确定实际动作量，并基于所述实际动作量进行双轴孔装配，迭代进行双轴孔装配，且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。

具体地，由于现有双轴孔装配方法无法同时兼具稳定性和适应性的问题，本发明实施例中，获取力传感器状态，并确定力传感器状态的状态目标值，将力传感器状态和状态目标值同时输入预先训练至收敛状态的装配学习模型，得到当前时刻的网络动作量、动作比例系数和动作价值函数，动作价值函数用于评价当前时刻的网络动作量的优劣，且基于动作价值函数更新装配学习模型的参数，同时，结合力传感器状态确定的演示学习动作量、力反馈控制动作量、动作比例系数和当前时刻的网络动作量，确定实际动作量，并根据实际动作量进行双轴孔装配，迭代执行上述步骤，直至实际动作量沿z轴方向的平移量之和不小于目标深度的情况下停止装配，即，通过与实际环境进行交互，高效完成双轴孔装配。

可选地，所述力传感器状态包括位姿和受力信息。

具体地，对于双轴孔装配过程，力传感器状态为位姿和手里信息的有限集合，并由安装在轴上的力传感器获取数据，力传感器状态s_t具体可以为：s_t＝[F_x,F_y,F_z,M_x,M_y,M_z]，其中，F_x、F_y和F_z分别表示力传感器测量得到的沿x轴、y轴和z轴的受力信息，M_x、M_y和M_z分别表示沿x轴、y轴和z轴的力矩。

可选地，状态目标值为力传感器状态的目标值，状态目标值表示轴孔装配过程中最优受力状态和目标深度，代表了装配学习模型的训练目标和装配目标，即，在装配学习模型训练过程中，当装配学习模型处于收敛状态下时，力传感器状态无限逼近于状态目标值；在装配过程中，当实际动作量沿z轴方向的平移量之和不小于状态目标值中的目标深度时，表明装配到位，可停止装配。状态目标值可以表示为由最优受力状态和目标深度组成的键值对。

可选地，为了增加轴孔装配的效率和安全性，基于动作比例系数、网络动作量、演示学习动作量和力反馈控制动作量，确定实际动作量，实际动作量如式(1)所示，式(1)为：

其中，β_t表示力反馈控制动作量在实际控制过程中的比例系数，(1-β_t)表示演示学习动作量在实际控制过程中的比例系数，

表示当前时刻下的力反馈控制动作量，

表示当前时刻下的演示学习动作量，

表示当前时刻下的网络动作量，且

内部元素的值的限定范围均为：[-1，1]，

表示哈达玛积，使得矩阵对应位置元素相乘。

可选地，网络动作量可以为位置与姿态的控制量结合，网络动作量具体可以为：a_t＝[Δ_x,Δ_y,Δ_z,α_x,α_y,α_z]，其中，Δ_x、Δ_y和Δ_z分别表示沿x轴、y轴、z轴的平移量系数，α_x、α_y和α_z分别表示绕x轴、y轴、z轴的旋转量系数。

可选地，装配学习模型包括当前动作选取网络、当前动作评价网络、目标动作选取网络和目标动作评价网络。当前动作选取网络用于选取当前状态下的网络动作量，当前动作评价网络用于确定动作价值函数，对选取的网络动作量的价值进行评价，目标动作选取网络用于选取下一状态的新的网络动作量，目标动作评价网络用于确定动作价值函数的目标值，基于动作价值函数和目标值构建损失函数，对当前动作评价网络的参数进行更新。上述装配学习模型可以为Actor-Critic结构。

可选地，在执行步骤130之前，需对构建的初始装配学习模型进行训练至收敛状态，图2是本发明提供的双轴孔装配方法的流程示意图之二，如图2所示，所述收敛状态的装配学习模型是基于以下步骤训练得到的，包括：

具体地，确定当前动作选取网络的输入和输出，构建梯度变化量和奖励函数，对当前动作选取网络进行参数更新；确定当前动作评价网络的输入和输出，构建损失函数，对当前动作评价网络进行参数更新，在少量样本情况下，通过与装配环境的交互，完成对初始装配学习模型的训练过程。

在初始装配学习模型训练之前，网络动作量的初始值为：

在初始时刻，通过式(1)计算实际动作量时，当β₀＝0时，表示以演示学习动作量作为初始策略进行训练；当β₀＝1时，表示以力反馈控制动作量作为初始策略进行训练。

可选地，所述基于所述网络动作量，确定所述当前动作选取网络的梯度变化量和奖励函数，并更新所述当前动作选取网络的参数，包括：

基于所述网络动作量，利用链式法则确定所述梯度变化量；

基于所述力传感器状态和状态目标值，确定所述奖励函数；

具体地，当前动作选取网络输出当前时刻的网络动作量，即输出动作策略π(s_t,a_t,g|θ^π)，其中，θ^π表示当前动作选取网络的参数，s_t表示力传感器状态，a_t表示当前时刻t下的网络动作量，g表示状态目标值。利用链式法则确定梯度变化量，利用梯度下降法，使得梯度变化量逐渐减小，在计算得到的梯度变化量使得奖励函数收敛时，当前动作选取网络训练完成，即停止当前动作选取网络参数的更新。此外，基于力传感器状态和状态目标值构建奖励函数，并采用后经验池回放算法，每个回合先保存力传感器状态、网络动作量和奖励函数值，后进行采样学习，以每个回合达到的最终状态作为状态目标值进行保存，由此提高模型学习效率和轴孔装配效率。

可选地，利用链式法则依次对a_t和θ^π求导后，得到梯度变化量，梯度变化量如式(2)所示，式(2)为：

其中，Q^π(s_t,π(s_t,a_t)∣θ^Q)表示当前动作策略π(s_t,a_t∣θ^π)下的动作价值函数。

可选地，奖励函数可以为力传感器状态和状态目标值的欧式距离，奖励函数如式(3)所示，式(3)为：

r_t(s_t,g)＝-||s_t-g||²

可选地，如图2所示，所述基于所述动作价值函数，确定所述当前动作评价网络的损失函数，并基于所述损失函数更新所述当前动作评价网络的参数，包括：

具体地，力传感器状态和网络动作量输入当前动作评价网络，输出动作价值函数，同时，网络动作量作用于装配对象，与环境进行交互，获取力传感器新状态和新状态目标值，将当前动作选取网络的参数复制至动作选取目标，同时将当前动作评价网络的参数复制至动作评价目标，将力传感器新状态和新状态目标值输入目标动作选取网络，输出新网络动作量和新动作比例系数后，将力传感器新状态和新网络动作量输入目标动作评价网络，确定价值目标值，基于动作价值函数和价值目标值，确定损失函数，之后利用梯度下降法，求取最小损失函数值，并不断更新当前动作评价网络的参数，在取得最小损失函数值时，使得当前动作评价网络收敛，即停止对当前动作评价网络的更新。

可选地，动作价值函数具体如式(4)所示，式(4)为：

Q^π(s,a)＝E{r_t+γr_t+1+γ²r_t+2+…|s_t＝s,a_t＝a,π}

其中，r_t表示t时刻的奖励，π表示动作策略，γ表示折损系数，用于表示后续力传感器状态的奖励对当前力传感器状态的影响，且0≤γ≤1。

可选地，损失函数具体如式(5)所示，式(5)为：

L(θ^Q)＝E_π[(Q^π(s_t,a_t,g∣θ^Q)-y_t)²]

其中，Q^π(s_t,a_t,g∣θ^Q)表示当前时刻下的动作价值函数，θ^Q表示当前动作评价网络的参数，y_t表示价值目标函数，且y_t具体为：

y_t＝r_t(s_t,g)+γQ^π(s_t+1,π(s_t+1)∣θ^Q)，r_t(s_t,g)表示奖励函数。

在完成当前动作选取网络和当前动作评价网络同时收敛后，即装配学习模型处于收敛状态，训练完成，可采用训练至收敛状态的装配学习模型进行装配，其中，装配过程即通过与环境不断交互来进行装配，使初始状态逐渐向状态目标值逼近，装配过程可以视为马尔可夫决策过程(Markov Decision Process,MDP)，表示为一个五元组[S，A，P，R，γ]，其中，S为力传感器状态的有限集合，集合中某个状态表示为s∈S；A为网络动作量的有限集合，集合中某个动作表示为a_t∈A，A为力传感器状态s下可执行的动作量集合；P为状态转移方程，P(s_t+1∣s_t,a_t)表示在力传感器状态s_t执行动作量a_t后将以P(s_t+1∣s_t,a_t)的概率跳转到力传感器状态s_t+1；R为奖励函数；γ为折损系数，且0≤γ≤1。

可选地，图3是现有技术的奖励函数示意图，图4是本发明提供的双轴孔装配方法的奖励函数示意图，如图3至图4所示，本发明实施例中采用经典深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)作为对照，如图3所示，DDPG算法在训练回合数量为200个左右时达到收敛，本发明实施例提供的双轴孔装配方法在训练回合数量为100个左右时达到收敛，大幅度提高学习效率。

可选地，所述基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量，包括：

具体地，确定演示学习动作量和力反馈控制动作量，并结合网络动作量和动作比例系数，进一步确定实际动作量，以完成装配，且使装配学习模型同时具备稳定性和对装配环境不确定性的适应能力。

可选地，利用示教过程中的力传感器状态和动作量，建立高斯混合模型(GaussianMixed Model,GMM)，基于高斯混合模型进行高斯混合回归(Gaussian Mixed Regression，GMR)，计算演示学习动作量，用于表示多维受力信息输入下的动作量概率分布，演示学习动作量

如式(6)所示，式(6)为：

其中，

为演示学习算法所得概率模型。

可选地，力反馈控制算法为根据轴孔模型内部结构设计的控制算法，通过力反馈控制算法计算力反馈控制动作量，力反馈控制动作量如式(7)所示，式(7)为：

其中，e_t＝(s_t-s_ref)，K_p表示比例控制系数矩阵，且

K_d表示微分控制系数矩阵，且

表示六维实数，s_t表示当前力传感器状态[F_tx,F_ty,F_tz,M_tx,M_ty,M_tz]，s_ref表示期望力传感器状态[F_rx,F_ry,F_rz,M_rx,M_ry,M_rz]。

本发明提供的双轴孔装配方法，通过将力传感器状态和状态目标值同时输入预先训练至收敛状态的装配学习模型，解决装配学习模型中奖励函数的设计难题，以状态目标值为装配目标，提高双轴孔装配效率；此外，基于装配学习模型收敛状态下的动作量和动作比例系数，结合演示学习动作量和力反馈控制动作量，确定用于装配的实际动作量，进一步增加轴孔装配的效率与安全性，同时具备较高稳定性和适应能力。

下面对本发明提供的双轴孔装配装置进行描述，下文描述的双轴孔装配装置与上文描述的双轴孔装配方法可相互对应参照。

本发明实施例还提供一种双轴孔装配装置，图5是本发明提供的双轴孔装配装置的结构示意图，如图5所示，该双轴孔装配装置200，包括：获取模块201、第一确定模块202、输出模块203和第二确定模块204，其中：

获取模块201，用于获取力传感器状态和状态目标值，所述状态目标值用于表征最优受力状态和目标深度；

第一确定模块202，用于基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量；

输出模块203，用于将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型，输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数，其中，所述动作价值函数用于表征力传感器状态下动作选取的优劣程度，所述动作比例系数用于表征所述演示学习动作量在实际控制过程中的比例系数；

第二确定模块204，用于基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量，确定实际动作量，并基于所述实际动作量进行双轴孔装配，迭代进行双轴孔装配，且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。

本发明提供的双轴孔装配装置，通过将力传感器状态和状态目标值同时输入预先训练至收敛状态的装配学习模型，解决装配学习模型中奖励函数的设计难题，以状态目标值为装配目标，提高双轴孔装配效率；此外，基于装配学习模型收敛状态下的动作量和动作比例系数，结合演示学习动作量和力反馈控制动作量，确定用于装配的实际动作量，进一步增加轴孔装配的效率与安全性，同时具备较高稳定性和适应能力。

可选地，获取模块201，具体用于：

所述力传感器状态包括位姿和受力信息。

可选地，第一确定模块202，具体用于：

所述收敛状态的装配学习模型是基于以下步骤训练得到的，包括：

可选地，输出模块203，具体用于：

所述将所述力传感器状态和所述状态目标值输入至装配学习模型，输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数，包括：

将所述力传感器状态和所述状态目标值输入至所述装配学习模型的当前动作选取网络，输出当前时刻的所述网络动作量和动作比例系数；

将所述力传感器状态和所述网络动作量输入至所述装配学习模型的当前动作评价网络，输出当前时刻所述网络动作量的动作价值函数；

可选地，输出模块203，具体用于：

所述基于所述网络动作量，确定所述当前动作选取网络的梯度变化量和奖励函数，并更新所述当前动作选取网络的参数，包括：

基于所述网络动作量，利用链式法则确定所述梯度变化量；

基于所述力传感器状态和状态目标值，确定所述奖励函数；

可选地，输出模块203，具体用于：

所述基于所述动作价值函数，确定所述当前动作评价网络的损失函数，并基于所述损失函数更新所述当前动作评价网络的参数，包括：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备300可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行双轴孔装配方法，该方法包括：

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的双轴孔装配方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的双轴孔装配方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种双轴孔装配方法，其特征在于，包括：

2.根据权利要求1所述的双轴孔装配方法，其特征在于，所述收敛状态的装配学习模型是基于以下步骤训练得到的：

将所述力传感器状态和所述网络动作量输入至所述初始装配学习模型的当前动作评价网络，输出当前时刻所述网络动作量的动作价值函数；

3.根据权利要求2所述的双轴孔装配方法，其特征在于，所述基于所述网络动作量，确定所述当前动作选取网络的梯度变化量和奖励函数，并更新所述当前动作选取网络的参数，包括：

基于所述网络动作量，利用链式法则确定所述梯度变化量；

基于所述力传感器状态和状态目标值，确定所述奖励函数；

4.根据权利要求2所述的双轴孔装配方法，其特征在于，所述基于所述动作价值函数，确定所述当前动作评价网络的损失函数，并基于所述损失函数更新所述当前动作评价网络的参数，包括：

5.根据权利要求1所述的双轴孔装配方法，其特征在于，所述基于所述力传感器状态，确定演示学习动作量和力反馈控制动作量，包括：

6.根据权利要求1至5任一项所述的双轴孔装配方法，其特征在于，所述力传感器状态包括位姿和受力信息。

7.一种双轴孔装配装置，其特征在于，包括：

第二确定模块，用于基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量，确定实际动作量，并基于所述实际动作量进行双轴孔装配，迭代进行双轴孔装配，在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述双轴孔装配方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述双轴孔装配方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述双轴孔装配方法。