CN116797625A

CN116797625A - 一种单目三维工件位姿估计方法

Info

Publication number: CN116797625A
Application number: CN202310890726.6A
Authority: CN
Inventors: 王振宇; 叶中英; 陈�胜; 李金锞; 杨奇; 陆佳东; 谷帅
Original assignee: Wuxi Imv Co ltd
Current assignee: Wuxi Imv Co ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-09-22
Anticipated expiration: 2043-07-20
Also published as: CN116797625B

Abstract

本发明公开了一种单目三维工件位姿估计方法，所述方法包括：通过游戏引擎搭建工件位姿估计数据集，模拟实际应用中的各种环境条件，包括不同的背景、光照和视角；应用数据增强技术，包括添加噪声、改变光照条件、应用随机的几何变换，提升数据的多样性和模型的鲁棒性；搭建三维目标位姿估计网络，包括三维重建模块，三维目标检测模块，以及位姿估计模块，完成从单目图像的三维重建，到三维场景中工件的检测，再到检测出的工件的位姿估计；将生成和增强后的图像及深度图数据输入到三维目标位姿估计网络中进行训练。本发明能够仅利用单目相机实现可靠精准的工件三维位姿识别。

Description

一种单目三维工件位姿估计方法

技术领域

本发明涉及深度学习和三维计算机视觉领域，尤其涉及一种单目三维工件位姿估计方法。

背景技术

三维工件位姿估计是指通过对三维点云或二维图像进行处理，以获得工件在三维空间中的位置和姿态的任务。其输入可以是三维点云或二维图像，输出包括工件的位置和姿态信息。该任务通常用于工业自动化领域中的物体检测、跟踪和定位等任务，如机器人操作、自动化装配和品质检测等。三维工件位姿估计的准确性对于保障生产线的稳定性和效率至关重要，因此该任务在工业自动化领域中具有广泛的应用前景。

单目场景下的三维工件位姿估计具有硬件成本低、适用范围广、算法可扩展性强和便于集成和部署等优点。这使得单目相机系统成为了许多工业自动化和智能交通等领域的首选方案。然而，在单目场景下，三维工件位姿估计存在着困难之处。首先，在单目图像中缺乏深度信息，需要通过其他手段获取深度信息，例如使用结构光或者多视角图像。其次，单目相机只能提供单一视角的图像，需要处理物体在不同视角下的变化。此外，光照和阴影、物体形状和纹理等因素也会影响位姿估计的准确性，需要使用深度学习或者其他算法来处理这些问题。以此如何克服上述难点，实现高精度的可靠的单目场景下的三维工件位姿具有很大的研究价值和产业价值。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种单目工件三维位姿估计方法。所述方法相比之前的单件三维位姿估计方法，能够有效应对单目图像中缺乏深度信息、单目相机只能提供单一视角的图像等难点。

本发明的目的是通过如下技术方案实现的，一种单目工件三维位姿估计方法，所述方法包括：

步骤1，通过游戏引擎搭建工件位姿估计数据集，模拟实际应用中的各种环境条件，包括不同的背景、光照和视角；

步骤2，应用数据增强技术，包括添加噪声、改变光照条件、应用随机的几何变换，提升数据的多样性和模型的鲁棒性；

步骤3，搭建三维目标位姿估计网络，包括三维重建模块，三维目标检测模块，以及位姿估计模块，完成从单目图像的三维重建，到三维场景中工件的检测，再到检测出的工件的位姿估计；

步骤4，将生成和增强后的图像及深度图数据输入到三维目标位姿估计网络中进行训练。

所述的通过游戏引擎搭建工件位姿估计数据集，包括步骤101至103：

步骤101，创建虚拟环境和工件模型；使用Blender创建需要的3D模型，包括工件模型和环境模型，将创建的模型导入Unity环境，在Unity中配置相机并设置位置、旋转、视场、焦距参数，配置光照并设置光源的类型、颜色、强度参数；

步骤102，工件位姿生成和标注；在虚拟环境中，控制工件的位姿，并且获取工件的位姿，将位置和旋转转换为一个七元数(x,y,z,w,q_x,q_y,q_z)，其中(x,y,z)是位置，(w,q_x,q_y,q_z)是四元数表示的旋转，将这个七元数保存为位姿标签；

步骤103，图像渲染和深度图获取；在Unity中，为每个相机渲染出图像和深度图，并保存在硬盘上。

所述的数据增强技术，单独或组合使用步骤104至107：

步骤104，添加噪声；设位姿P由一个平移向量t和一个旋转矩阵R组成，即P＝[R|t]，表达式为：

P′＝[R′|t′]

其中和/>是均值为0，方差分别为/>和/>的高斯分布。σ_t和σ_R是噪声的强度，根据实际需要进行调整。*是矩阵乘法，exp是矩阵指数函数，用于将旋转向量转换为旋转矩阵，P是增强后的位姿；

步骤105，随机旋转：给定一个角度范围θ，生成一个θ范围内的随机旋转角α，并将其应用到原始的旋转矩阵上，表达式为：

α＝U(-θ,θ)

R′＝R*rot(α)

P′＝[R′|t]

其中U(-θ,θ)是在[-θ,θ]之间均匀分布的随机数，rot(α)是旋转矩阵，用于表示角度为α的旋转，P是增强后的位姿；

步骤106，随机平移；给定一个平移范围d，生成一个d范围内的随机平移向量Δt，并将其应用到原始的平移向量上，表达式为：

Δt＝U(-d,d)

t′＝t+Δt

P′＝[R|t′]

其中U(-d,d)是在[-d,d]之间均匀分布的随机向量，t是增强后的平移向量，P是增强后的位姿。

步骤107，改变光照条件；设光源L由一个位置向量l和一个颜色向量c组成，即L＝[l|c]，改变光照条件表达式为：

l′＝l+U(-δ_l,δ_l)

c′＝c*U(1-δ_c,1+δ_c)

L′＝[l′|c′]

其中U(-δ_l,δ_l)是在[-δ_l,δ_l]之间均匀分布的随机向量，U(1-δ_c,1+δ_c)是在[1-δ_c,1+δ_c]范围内的均匀分布，δ_l和δ_c是位置和颜色的变化范围，根据实际需要进行调整。l和c是增强后的位置和颜色向量，L是增强后的光源。

所述的三维重建模块，包括步骤108至111：

步骤108，编码；编码器部分由多个卷积层和最大池化层组成。对于输入的2D图像I，通过卷积层和激活函数进行特征提取，然后通过最大池化层进行下采样，这个过程可以表示为：

P_i＝MaxPool(F_i)

其中，Conv表示卷积操作，MaxPool表示最大池化操作，表示第i个卷积层的参数，F_i表示第i个卷积层的输出特征图，P_i表示第i个池化层的输出；

步骤109，解码，解码器部分由多个上采样层和卷积层组成。对于编码器的输出P，首先通过上采样层进行上采样，然后通过卷积层和激活函数进行特征提取。这个过程可以表示为：

U_i＝UpSample(P_i)

F′_i＝Conv(U_i；θ′_convi)

其中，UpSample表示上采样操作，θ′_convi表示第i个卷积层的参数，U_i表示第i个上采样层的输出，F′_i表示第i个卷积层的输出特征图。

步骤110，残差连接，在解码器部分，加入残差连接。这些连接将编码器的特征图F_i直接传递到解码器的对应层，然后将这些特征图与解码器的特征图F′_i进行拼接，这个过程可以表示为：

C_i＝Concat(F_i,F′_i)

其中，Concat表示拼接操作，C_i表示拼接后的特征图；

步骤111，输出层，通过一个最后的卷积层将解码器的输出转化为深度图D：

D＝Conv(C_n；θ_d)

其中，θ_d表示最后一个卷积层的参数。

所述的三维目标检测模块，包括步骤112至115：

步骤112，三维映射；对于深度图中的每个像素点(u,v)，其对应的3D点(X,Y,Z)可以通过以下公式计算：

Z＝D(u,v)

X＝(u-c_x)*Z/f

Y＝(v-c_y)*Z/f

其中，

(u,v)是像素点的坐标。

D(u,v)是深度图在(u,v)处的像素值，表示深度。

(c_x,c_y)是相机的光心，通常是图像的中心点。

f是相机的焦距。

(X,Y,Z)是3D点的坐标。

步骤113，构建图结构；3D点云中的每个点视为一个节点；每个节点的特征由对应的RGB值和3D坐标组成。这个过程可以表示为：

V_i＝Node(P_i)

其中，Node表示将3D点转化为节点的操作，P_i表示3D点云中的第i个点，V_i表示第i个节点；

根据点之间的三维距离来确定边的存在。具体来说，为每个节点定义一个邻域，如果两个节点的距离小于某个阈值，那么就在这两个节点之间添加一条边。这个过程可以表示为：

E_ij＝Edge(V_i,V_j)

if||P_i-P_j||<t

其中，Edge表示添加边的操作，||P_i-P_j||表示第i个点和第j个点的三维距离，t表示阈值，E_ij表示在第i个节点和第j个节点之间的边；

最后，将所有的节点和边组合起来，定义图结构；这个过程可以表示为：

G＝Graph(V,E)

其中，Graph表示定义图的操作，V表示所有的节点，E表示所有的边，G表示图。

步骤114，图注意力网络；使用图注意力网络在图结构中进行信息聚合，具体表达式为：

a_ij＝softmax9σ(W_f[V_i；V_j]+b_f))

F_i＝σ(W[V_i；N_i]+b)

a_ij表示第i个节点和第j个节点之间的注意力权重，

f是一个可学习的函数，用于计算两个节点之间的相似度，

softmax是一个归一化函数，用于将相似度转化为权重，

N_i表示第i个节点的邻居特征的聚合，

N(i)表示第i个节点的邻居节点的集合，

V_j表示第j个节点的特征，

∑表示对所有邻居节点进行求和；

步骤115，对图节点进行聚类，先构建相似度矩阵表示节点之间的相似性,设图G的节点集为N＝1,2,...,n，节点i和节点j的相似度为s_ij，构建一个n×n的相似度矩阵S＝[s_ij]，其中s_ij通过以下公式计算：

s_ij＝exp(-||h_i-h_j||²/(2σ²))

其中，h_i和h_j是节点i和j的特征，||·||表示欧氏距离，σ是一个超参数。

然后计算拉普拉斯矩阵，设图G的度矩阵为D＝diag(d₁,d₂,...,d_n)，其中d_i是节点i的度，拉普拉斯矩阵L可以通过以下公式计算：

L＝D-S

接下来计算拉普拉斯矩阵的特征向量,设拉普拉斯矩阵L的第k小的特征值对应的特征向量为v_k，将v₁,v₂,...,v_k拼接起来，得到一个n×k的矩阵V；

最后，使用K-means聚类算法对矩阵V的每一行，即每个节点，进行聚类，输出聚类结果即为三维目标。

所述的位姿估计模块，设目标工件的点云M为源点云,三维检测模块输出的点云P为目标点云，该模块包括步骤116至121：

步骤116，初始化；首先初始化旋转R和平移T，设置R为单位矩阵，T为零向量；

步骤117，计算源点云P和目标点云M的中心点，分别表示为p_c和m_c，公式如下：

p_c＝1/N*∑p_i

m_c＝1/N*∑m_i

其中，N表示点云中点的数量；

步骤118，计算去中心化的点云P′和M′，公式如下：

P′＝P-p_c

M′＝M-m_c

步骤119，计算点云P'和M'的协方差矩阵C，公式如下：

C＝1/N*P′^T*M′

步骤120，使用标准的数值线性代数库，对协方差矩阵C进行奇异值分解，得到左奇异矩阵U、右奇异矩阵V和奇异值矩阵S，根据左奇异矩阵U和右奇异矩阵V，可以计算出旋转矩阵R和平移向量T，使得源点云P′能够最好地匹配目标点云M′，公式如下：

R＝V*U^T

T＝m_c-R*p_c

步骤121，更新源点云；使用计算出的旋转R和平移T来更新源点云P；设更新后的源点云为P′，公式如下：

P′＝R*P+T

最后，重复步骤117-121，直到达到最大迭代次数，或者旋转和平移的变化小于设定阈值。

所述的将生成和增强后的图像及深度图数据输入到三维目标位姿估计网络中进行训练，包括步骤122至125：

步骤122，对三维重建模块计算损失函数，公式如下：

L_con＝αL_rec+βL_sm

其中，L_rec表示重建误差损失，L_sm表示平滑性损失。α和β是两个超参数，用于平衡两个损失函数的权重；

重建误差损失可以通过计算深度图D与真实深度图D_gt之间的均方误差(MSE)来计算：

其中，N是深度图像素的数量，D_i和D_gt,i分别表示深度图和真实深度图在像素位置i处的值；

平滑性损失可以通过计算深度图D中相邻像素之间的差异的平方和来计算：

其中，N是深度图像素的数量，D_i和D_i+1分别表示深度图在相邻像素位置i和i+1处的值，总损失函数L的目标是最小化重建误差和平滑性损失之和，以促进精确的三维重建，并确保深度图的平滑性质；

步骤123，对三维目标检测模块计算损失函数，对设聚类结果为C＝C₁,C₂,...,C_k，其中C_i表示第i个类别，S＝[S_ij]为相似度矩阵，n为节点数，p_i为属于C_i的节点所占比例，即p_i＝|C_i|/n，则以信息熵作为损失函数中的一项，计算公式为：

同时，为了保证聚类结果的有效性和准确性，加入惩罚项，即最小化类别内部的方差以及最大化类别间的距离，以进一步优化聚类结果：

其中，Var(C)表示聚类结果中类别内部的方差，D_min(C)表示聚类结果中最近邻类别之间的距离，α和β为超参数，用于平衡聚类结果的稳定性和有效性；

步骤124，计算多任务联合损失，公式如下：

L＝L_con+γL_det

其中，L_con和L_det分别是三维重建模块和三维目标检测模块的损失函数，γ是一个超参数，用于平衡两个任务的权重；

步骤125，使用Adam优化器对多任务联合损失进行优化，Adam优化器公式如下：

m_t＝β₁m_t-1+(1-β₁)g_t

其中，g_t是梯度，θ_t是参数，α是学习率，β₁和β₂是衰减率，m_t和v_t是一阶和二阶矩估计量，∈是一个小常数，用于防止分母为零。使用Adam优化器可以有效地优化联合损失函数，并加快模型的收敛。

附图说明

图1示出了本发明实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例中，假设我们正在运行一个自动化汽车装配流水线。我们会使用单目相机对流水线的工件进行三维位姿估计，并使用机械臂对齐进行拾取和安装。

由此，一种单目工件三维位姿估计方法，所述方法包括：

所述的数据增强技术，单独或组合使用步骤104至107：

P′＝[R′|t′]

α＝U(-θ,θ)

R′＝R*rot(α)

P′＝[R′|t]

Δt＝U(-d,d)

t′＝t+Δt

P′＝[R|t′]

步骤107，改变光照条件；设我们的光源L由一个位置向量l和一个颜色向量c组成，即L＝[l|c]，改变光照条件表达式为：

l′＝l+U(-δ_l,δ_l)

c′＝c*U(1-v_c,1+δ_c)

L′＝[l′|c′]

所述的三维重建模块，包括步骤108至111：

P_i＝MaxPool(F_i)

步骤109，解码，解码器部分由多个上采样层和卷积层组成。对于编码器的输出P，我们首先通过上采样层进行上采样，然后通过卷积层和激活函数进行特征提取。这个过程可以表示为：

U_i＝UpSample(P_i)

其中，UpSample表示上采样操作，表示第i个卷积层的参数，U_i表示第i个上采样层的输出，F′_i表示第i个卷积层的输出特征图。

步骤110，残差连接，在解码器部分，我们还会加入残差连接。这些连接将编码器的特征图F_i直接传递到解码器的对应层，然后将这些特征图与解码器的特征图F′_i进行拼接，这个过程可以表示为：

C_i＝Concat(F_i,F′_i)

其中，Concat表示拼接操作，C_i表示拼接后的特征图；

D＝Conv(C_n；θ_d)

其中，θ_d表示最后一个卷积层的参数。

所述的三维目标检测模块，包括步骤112至115：

Z＝D(u,v)

X＝(u-c_x)*Z/f

Y＝(v-c_y)*Z/f

其中，

(u,v)是像素点的坐标。

D(u,v)是深度图在(u,v)处的像素值，表示深度。

(c_x,c_y)是相机的光心，通常是图像的中心点。

f是相机的焦距。

(X,Y,Z)是3D点的坐标。

V_i＝Node(P_i)

根据点之间的三维距离来确定边的存在。具体来说，我们可以为每个节点定义一个邻域，如果两个节点的距离小于某个阈值，那么就在这两个节点之间添加一条边。这个过程可以表示为：

E_ij＝Edge(V_i,V_j)

if||P_i-P_j||<t

最后，我们将所有的节点和边组合起来，定义图结构；这个过程可以表示为：

G＝Graph(V,E)

a_ij＝softmax(σ(W_f[V_i；V_j]+b_f))

F_i＝σ(W[V_i；N_i]+b)

a_ij表示第i个节点和第j个节点之间的注意力权重，

f是一个可学习的函数，用于计算两个节点之间的相似度，

softmax是一个归一化函数，用于将相似度转化为权重，

N_i表示第i个节点的邻居特征的聚合，

N(i)表示第i个节点的邻居节点的集合，

V_j表示第j个节点的特征，

∑表示对所有邻居节点进行求和；

s_ij＝exp(-||h_i-h_j||²/(2σ²))

L＝D-S

接下来计算拉普拉斯矩阵的特征向量,设拉普拉斯矩阵L的第k小的特征值对应的特征向量为c_k，将v₁,v₂,...,v_k拼接起来，得到一个n×k的矩阵V；

p_c＝1/N*∑p_i

m_c＝1/N*∑m_i

其中，N表示点云中点的数量；

步骤118，计算去中心化的点云P′和M′，公式如下：

P′＝P-p_c

M′＝M-m_c

步骤119，计算点云P'和M'的协方差矩阵C，公式如下：

C＝1/N*P′^T*M′

步骤120，使用标准的数值线性代数库，对协方差矩阵C进行奇异值分解，得到左奇异矩阵U、右奇异矩阵V和奇异值矩阵S，根据左奇异矩阵U和右奇异矩阵V，计算出旋转矩阵R和平移向量T，使得源点云P′能够最好地匹配目标点云M′，公式如下：

R＝V*U^T

T＝m_c-R*p_c

P′＝R*P+T

步骤122，对三维重建模块计算损失函数，公式如下：

L_con＝αL_rec+βL_sm

重建误差损失通过计算深度图D与真实深度图D_gt之间的均方误差(MSE)来计算：

步骤124，计算多任务联合损失，公式如下：

L＝L_con+γL_det

m_t＝β₁m_t-1+(1-β₁)g_t

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种单目工件三维位姿估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的通过游戏引擎搭建工件位姿估计数据集，包括以下步骤：

步骤102，工件位姿生成和标注；在虚拟环境中，控制工件的位姿，并且获取工件的位姿，将位置和旋转转换为一个七元数(x，y，z，w，q_x，q_y，q_z)，其中(x，y，z)是位置，这三个值构成了一个三维矢量，表示从参考点到工件的位移，(w，q_x，q_y，q_z)是四元数表示的旋转，w是实部，(q_x，q_y，q_z)构成了虚部，旋转轴由(q_x，q_y，q_z)确定，旋转角由w确定，将这个七元数保存为位姿标签；

3.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的数据增强技术，单独或组合使用以下步骤：

P′＝[R′|t′]

其中R′和t′表示增强后的旋转矩阵和平移向量，P′表示增强后的位姿，和是均值为0，方差分别为/>和/>的高斯分布；σ_t和σ_R是噪声的强度，根据实际需要进行调整，*是矩阵乘法，exp是矩阵指数函数，用于将旋转向量转换为旋转矩阵；

α＝U(-θ，θ)

R′＝R*rot(α)

P′＝[R′|t]

其中R′表示增强后的旋转矩阵，P′表示增强后的位姿，U(-θ，θ)是在[-θ，θ]之间均匀分布的随机数，rot(α)是旋转矩阵，用于表示角度为α的旋转；

Δt＝U(-d，d)

t′＝t+Δt

P′＝[R|t′]

其中U(-d，d)是在[-d，d]之间均匀分布的随机向量，t′是增强后的平移向量，P′是增强后的位姿；

l′＝l+U(-δ_l，δ_l)

c′＝c*U(1-δ_c，1+δ_c)

L′＝[l′|c′]

其中U(-δ_l，δ_l)是在[-δ_l，δ_l]之间均匀分布的随机向量，U(1-δ_c，1+δ_c)是在[1-δ_c，1+δ_c]范围内的均匀分布，δ_l和δ_c是位置和颜色的变化范围，根据实际需要进行调整，l′和c′是增强后的位置和颜色向量，L′是增强后的光源。

4.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的三维重建模块，包括以下步骤：

步骤108，编码；编码器部分由多个卷积层和最大池化层组成；对于输入的2D图像I，通过卷积层和激活函数进行特征提取，然后通过最大池化层进行下采样，这个过程表示为：

Pi＝MaxPool(F_i)

其中，Conv表示卷积操作，MaxPool表示最大池化操作，表示第i个卷积层的参数，F_i表示第i个卷积层的输出特征图，Pi表示第i个池化层的输出；

步骤1()9，解码，解码器部分由多个上采样层和卷积层组成；对于编码器的输出P，首先通过上采样层进行上采样，然后通过卷积层和激活函数进行特征提取；这个过程表示为：

U_i＝UpSample(P_i)

其中，UpSample表示上采样操作，表示第i个卷积层的参数，U_i表示第i个上采样层的输出，F′_i表示第i个卷积层的输出特征图；

步骤110，残差连接，在解码器部分，加入残差连接；这些连接将编码器的特征图F_i直接传递到解码器的对应层，然后将这些特征图与解码器的特征图F′_i进行拼接，这个过程表示为：

C_i＝Concat(F_i，F′_i)

其中，Concat表示拼接操作，C_i表示拼接后的特征图；

步骤111，输出层，通过一个最后的卷积层将解码器的输出C_n转化为深度图D：

D＝Conv(C_n；θ_d)

其中，θ_d表示最后一个卷积层的参数。

5.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的三维目标检测模块，包括以下步骤：

步骤112，三维映射；对于深度图中的每个像素点(u，v)，其对应的3D点(X，Y，Z)通过以下公式计算：

Z＝D(u，v)

X＝(u-c_x)*Z/f

Y＝(v-c_y)*Z/f

其中，

(u，v)是像素点的坐标；

D(u，v)是深度图在(u，v)处的像素值，表示深度；

(c_x，c_y)是相机的光心，是图像的中心点；

f是相机的焦距；

(X，Y，Z)是3D点的坐标；

步骤113，构建图结构；3D点云中的每个点视为一个节点；每个节点的特征由对应的RGB值和3D坐标组成；这个过程表示为：

V_i＝Node(P_i)

根据点之间的三维距离来确定边的存在；具体来说，为每个节点定义一个邻域，如果两个节点的距离小于某个阈值，那么就在这两个节点之间添加一条边；这个过程表示为：

E_ij＝Edge(V_i，V_j)

if||P_i-P_j||<t

最后，将所有的节点和边组合起来，定义图结构；这个过程表示为：

G＝Graph(V，E)

其中，Graph表示定义图的操作，V表示所有的节点，E表示所有的边，G表示图；

a_ij＝softmax(W_f[V_i；V_j]+b_f)

F_i＝σ(W[V_i；N_i]+b)

a_ij表示第i个节点和第j个节点之间的注意力权重，

f是一个可学习的函数，用于计算两个节点之间的相似度，W_f和b_f是可优化的模型参数

softmax是一个归一化函数，用于将相似度转化为权重，

N_i表示第i个节点的邻居特征的聚合，

N(i)表示第i个节点的邻居节点的集合，

V_j表示第j个节点的特征，

∑表示对所有邻居节点进行求和；

步骤115，对图节点进行聚类，先构建相似度矩阵表示节点之间的相似性，设图G的节点集为N＝1，2，...，n，节点i和节点j的相似度为s_ij，构建一个n×n的相似度矩阵S＝[s_ij]，其中s_ij通过以下公式计算：

s_ij＝exp(-||h_i-h_j||²/(2σ²))

其中，h_i和h_j是节点i和j的特征，||·||表示欧氏距离，σ是一个超参数；

然后计算拉普拉斯矩阵，图G的度矩阵为D＝diag(d₁，d₂，...，d_n)，其中d_i是节点i的度，拉普拉斯矩阵L通过以下公式计算：

L＝D-S

接下来计算拉普拉斯矩阵的特征向量，拉普拉斯矩阵L的第k小的特征值对应的特征向量为v_k，将v₁，v₂，...，v_k拼接起来，得到一个n×k的矩阵V；

6.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的位姿估计模块，设目标工件的点云M为源点云，三维检测模块输出的点云P为目标点云，位姿估计包括以下步骤：

p_c＝1/N*∑p_i

m_c＝1/N*∑m_i

其中，N表示点云中点的数量，p_i表示点云p第i个点的坐标，m_i表示点云m第i个点的坐标；

步骤118，计算去中心化的点云P′和M′，公式如下：

P′＝P-p_c

M′＝M-m_c

其中，P′和M′表示去中心化的原点云和目标点云；

步骤119，计算点云P’和M′的协方差矩阵C，公式如下：

C＝1/N*P′^T*M′

步骤120，使用标准的数值线性代数库，对协方差矩阵V进行奇异值分解，得到左奇异矩阵U、右奇异矩阵V和奇异值矩阵S，根据左奇异矩阵U和右奇异矩阵V，计算出旋转矩阵R和平移向量T，使得源点云P′能够进一步匹配目标点云M′，公式如下：

R＝V*U^T

T＝m_c-R*p_c

P′＝R*P+T

7.根据权利要求1所述的一种单目工件三维位姿估计方法，其特征在于，所述的将生成和增强后的图像及深度图数据输入到三维目标位姿估计网络中进行训练，包括以下步骤：

步骤122，对三维重建模块计算损失函数，公式如下：

L_con＝αL_rec+βL_sm

其中，L_rec表示重建误差损失，L_sm表示平滑性损失；α和β是两个超参数，用于平衡两个损失函数的权重；

其中，N是深度图像素的数量，D_i和D_gt，i分别表示深度图和真实深度图在像素位置i处的值；

平滑性损失通过计算深度图D中相邻像素之间的差异的平方和来计算：

步骤123，对三维目标检测模块计算损失函数，对设聚类结果为C＝C₁，C₂，...，C_k，其中C_i表示第i个类别，S＝[s_ij]为相似度矩阵，n为节点数，p_i为属于C_i的节点所占比例，即p_i＝|C_i|/n，则以信息熵作为损失函数中的一项，计算公式为：

步骤124，计算多任务联合损失，公式如下：

L＝L_con+γL_det

m_t＝β₁m_t-1+(1-β₁)g_t

其中，g_t是梯度，θ_t是参数，α是学习率，β₁和β₂是衰减率，m_t和v_t是一阶和二阶矩估计量，∈是一个小常数，用于防止分母为零，使用Adam优化器有效地优化联合损失函数，并加快模型的收敛。