CN117953059A

CN117953059A - 一种基于rgb-d图像的方形吊装物姿态估计方法

Info

Publication number: CN117953059A
Application number: CN202410131194.2A
Authority: CN
Inventors: 陈姚节; 邓成宇; 丁冬; 白伊嘉; 王晓; 刘建设; 龙飞
Original assignee: Wuhan Research Institute Of Marine Electric Propulsion No 712 Research Institute Of China Shipbuilding Corp; Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan Research Institute Of Marine Electric Propulsion No 712 Research Institute Of China Shipbuilding Corp; Wuhan University of Science and Engineering WUSE
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-30

Abstract

本发明提供一种基于RGB‑D图像的方形吊装物姿态估计方法，涉及计算机视觉和三维图像处理技术领域，将的值映射到特定的结构特征类别；结合激光雷达或超声波传感器数据与RGB‑D图像，生成综合环境感知值数学模型，辨别综合环境感知值F（x,y,z）所在取值区间，并以此判断传感器数据质量以及数据融合程度的功能；判断M（t）值，以此判断3D模型与实际物体形状接近程度；通过RGB‑D图像获取对应的环境特征数据、物体标注数据、操作数据、历史数据和模拟数据、反馈和校正数据、物体物理属性数据，建立物体姿态的数学模型，指导吊装机械或操作员调整吊装物的位置。

Description

一种基于RGB-D图像的方形吊装物姿态估计方法

技术领域

本发明涉及计算机视觉和三维图像处理技术领域，具体为一种基于RGB-D图像的方形吊装物姿态估计方法。

背景技术

六维刚体位姿估计是计算机视觉领域的核心任务之一，它旨在准确地确定刚体物体在三维空间中的位置和姿态。刚体是指在其运动或变形过程中不会发生形状的变化或内部关节的运动，该任务通常包括物体的定位和物体的姿态估计两个主要子任务，同时需要确定物体的类别和精确的位置信息；刚体6D位姿估计任务涵盖了目标的定位、姿态估计和物体的类别识别等多个关键步骤，基于单一的RGB信息或深度信息进行的姿态估计通常是不准确的，使用RGB-D的方法同时利用了RGB信息和深度信息，能够达到更高的精度，最直接的方法是首先从RGB图像中估计目标物体的位姿，然后通过ICP或MCN算法进一步精化带有深度数据的变换点云，然而，这些方法耗时较长，无法实现端到端的优化，考虑到方形物体的特殊性质，三条边相互垂直，且长方体垂直边的方向与长方体的方向向量方向相同，可以进行改进；

如公告号为CN114863573B的中国专利，其公开了一种基于单目RGB-D图像的类别级6D姿态估计方法，本方法引入RGB-D图像特征融合机制，通过自注意力机制融合RGB-D图像中目标实例的像素颜色特征和点云几何特征，获取目标实例更好的特征表达；并且引入类别形状隐式编码先验来克服同一类别下不同实例物体之间的形状差异，本方法首先对单幅RGB-D图片进行目标检测与实例分割，结合深度信息计算出目标实例采样点的三维坐标；根据目标实例的类别输入对应的类别形状编码先验，基于一种多分支的网络结构，分别预测目标实例的点云模型和采样点的对应关系矩阵，进而运算出采样点对应的三维点云坐标；最后解算出目标物体的6D姿态。

存在的不足之处有：在应用于海上方形集装箱波浪补偿等任务时，存在以下问题：

1、使用深度相机采集方形吊装物的RGB-D图像后进行图像分割处理并生成点云数据后，在估计点云中各点的法线时，获取的中心点法线不具有助于识别点云的结构特征功能；

2、不具有融合激光雷达或超声波传感器数据与RGB-D图像，提供更全面的环境感知，并以此判断传感器数据质量以及数据融合程度的功能；

3、公告号为CN114863573B专利中，调整物体3D模型依赖预定义形状编码，不能够判断3D模型与实际物体形状接近程度；

4、不能够通过分析RGB-D图像数据，确定吊装物的当前姿态属于哪个区间，从而估计其精确的值，并基于/>值所在划分区间，指导吊装机械或操作员调整吊装物的位置；

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种基于RGB-D图像的方形吊装物姿态估计方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于RGB-D图像的方形吊装物姿态估计方法，具体步骤包括：

S1、使用深度相机采集方形吊装物不同时刻的RGB-D图像数据，所述RGB-D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息图；

S2、使用图像分割算法对RGB图像数据中方形吊装物进行图像分割，分割出方形吊装物掩膜的像素，并根据像素点的深度信息确定通过方形吊装物掩膜中各个像素的深度信息，并依据方形吊装物的掩膜和掩膜内各个像素的深度信息通过相机内参矩阵转化为三维的点云信息；

S3、估计点云中各点的法线，确定当前时刻关键帧i与相邻前一时刻关键帧i-1，并处理得到第i与i-1个关键帧中长方体三个面的法向量，对掩膜中的所有点法线向量进行平均化处理得到中心点，并以此识别点云的结构特征；

S4、使用由第i个和第i-1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T；

S5、通过激光雷达或超声波传感器采集关于环境中方形吊装物体的位置、形状物理属性的信息，结合激光雷达或超声波传感器数据与RGB-D图像，生成综合环境感知值数学模型，并以此判断传感器数据质量以及数据融合程度；根据实时RGB-D数据动态生成并调整物体3D模型，以判断3D模型与实际物体形状接近程度；

S6、引入强化学习技术，增强模型在复杂环境中的学习和适应能力，实现通过分析RGB-D图像数据，确定吊装物的当前姿态属于预先划分的哪个区间，从而估计其精确的值，并基于/>值所在划分区间，指导吊装机械或操作员调整吊装物的位置；

S7、设定深度信息图上的预设坐标为（u，v），使用透视投影和仿射变换计算像素坐标系与世界坐标系；

S8、对得到的法线的单位法向量进行聚类，将球面的点的三维坐标转化为使用极角和方向角表示的球面坐标，分别对聚类出的不同类的数据进行二维核密度估计找到密度最大的区域，确定每个面朝向的法向量，应用旋转矩阵和旋转向量之间的转换公式计算旋转和平移矩阵，得到三维姿态变换矩阵。

与现有技术相比，本发明的有益效果是：

1、将中心点的值映射到特定的结构特征类别，在估计点云中各点的法线时，获取的中心点法线具有助于识别点云的结构特征功能；

2、结合激光雷达或超声波传感器数据与RGB-D图像，生成综合环境感知值数学模型，生成在坐标（x,y,z）的综合环境感知值F(x,y,z)，辨别综合环境感知值F（x,y,z）所在取值区间，并以此判断传感器数据质量以及数据融合程度的功能；

3、设M表示3D模型，t为时间变量，考虑物理约束和几何规则/>，判断M（t）值在设立取值范围0至1内的情况，以此判断3D模型与实际物体形状接近程度；

4、通过RGB-D图像获取对应的环境特征数据、物体标注数据、操作数据、历史数据和模拟数据、反馈和校正数据、物体物理属性数据，建立物体姿态的数学模型，以此确定吊装物的当前姿态属于哪个区间，从而估计其精确的/>值，并基于/>值所在划分区间，指导吊装机械或操作员调整吊装物的位置。

附图说明

图1为本发明整体方法流程示意图；

图2为本发明的S2步骤示意图；

图3为将掩膜对应部分的深度图像转化为点云示意图；

图4为单位法向量进行kmeans聚类后进行可视化示意图；

图5为聚类中心点示意图；

图6为将球坐标转化回三维向量后进行可视化处理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”“下”“左”“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

请参阅图1至图6，本发明提供一种技术方案：

实施例一：

一种基于RGB-D图像的方形吊装物姿态估计方法，包括以下具体步骤：

实施例二：

在实施例一的基础上进一步说明，所述使用深度相机采集方形吊装物不同时刻的RGB-D图像数据，所述RGB-D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息具体逻辑包括，

图像预处理：将输入的RGB-D图像调整至网络要求的分辨率；

应用SAM算法：将RGB-D图像输入到SAM模型；

模型通过多层卷积神经网络提取特征；

运用深度学习技术进行语义分割，识别方形物体；

生成掩膜：从分割结果中提取方形物体区域，生成掩膜，掩膜具体为遮挡或突出显示图像中特定区域的二进制图像。

实施例三：

在实施例二的基础上进一步说明，所述将分割得到的掩膜对应的深度图部分的像素，通过相机内参矩阵转化为点云具体逻辑包括，

输入：掩膜和深度图；

处理：使用掩膜从深度图中提取目标物体的深度信息；

通过深度相机厂家提供的API导出相机的内参矩阵：

；

其中是主点在图像平面上的x坐标，主点是图像平面上的光学轴与图像中心的交点，/>与/>是相机的焦距分别在水平方向和竖直方向上的缩放因子；

将这些像素点通过相机内参矩阵转换为三维空间中的点云，对每个像素点(p=(x,y))应用转换公式：

；

其中：P是点云中的三维坐标（X,Y,Z），点云中的每个点表示为，且/>；

是相机内参矩阵的逆；

D（p）是像素点p的深度值；

是齐次坐标下的像素位置（x,y,1）。

实施例四：

在实施例三的基础上进一步说明，所述估计点云中各点的法线，确定当前时刻关键帧i与相邻前一时刻关键帧i-1，并处理得到第i个关键帧中长方体三个面的法向量，对掩膜中的所有点进行平均化处理得到中心点具体逻辑包括，

三个面的当前时刻关键帧i法向量表示为：；其中j依次表示当前关键帧中相邻三个面，

在关键帧i和关键帧i-1之间进行特征匹配，具体采用如下方式：

采用SIFT代表的（尺度不变特征变换）：SIFT是一种基于局部特征的算法，对图像中的关键点提取具有尺度不变性的描述子，特征点的描述子是由关键点周围区域的梯度信息构建的，在两个图像中提取的SIFT特征点的描述子可以通过比较它们之间的距离来进行匹配。

输入：三维点云，

处理：对每个点云数据点采用K近邻KNN算法找到临近点集；

对每个点的邻域点集进行协方差矩阵计算，然后进行特征值分解；

特征值最小对应的特征向量作为该点的法线方向；

输出：每个点的法线估计；

法线估计公式：

对于点云中的每个点，首先找到其K近邻点集/>；

对每个点及其近邻点集，构建协方差矩阵/>：

；

其中，是近邻点集的均值；

对协方差矩阵进行特征值分解，找到对应于最小特征值的特征向量/>作为点/>的法线方向；

对所有点的法线向量进行平均化处理以得到中心点的法线，且/>与/>表示相邻i与i-1关键帧的中心点法线值；

；

综合以上步骤，我们得到以下公式：

；

其中，表示协方差矩阵/>最小特征值对应的特征向量；

字符解释：

：点云中的一个数据点；

N：点云中点的总数；

K：每个点的K近邻点数；

：点/>的第j个近邻点；

：点/>的近邻点集的均值；

：点/>及其近邻点集构成的协方差矩阵；

：协方差矩阵/>最小特征值对应的特征向量，代表点/>的法线方向；

：所有点的法线向量平均化处理后得到的对应第i个关键帧的中心点法线；

值域解释：

的值域通常为单位向量，代表点云的平均法线方向，这个方向有助于识别点云的整体方向性和结构特征；

具体的，

引入一个额外的分类函数F()，这个函数将/>的值映射到特定的结构特征类别；

；

其中，表示/>的模长，if表示并列关系的“如果”；

类别说明：

类别A：对应于较低的模长范围，代表点云具有较弱的方向性或不规则的结构，这意味着点云是非常分散的或者形状复杂；

类别B：中等模长范围，指点云具有中等程度的方向性和一定的结构特征，这通常表示点云形状较为规则，但仍含有一定的复杂性；

类别C：高模长范围，表示点云具有强烈的方向性和明确的结构特征，这意味着点云呈现出清晰的线性或规则的几何形状。

实施例五：

在实施例四的基础上进一步说明，所述使用由第i个和第i-1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T包括以下内容，

输入：法线估计和物体中心点；

处理：使用法线估计确定物体的朝向；

通过比较关键帧中的法线方向，计算物体的旋转；

计算旋转矩阵R和平移向量T使得物体从一个关键帧姿态变换到另一个公式：

；

其中（,/>)是两关键帧的点云；

输出：旋转矩阵R和平移向量T。

实施例六：

在实施例五的基础上进一步说明，所述结合激光雷达或超声波传感器数据与RGB-D图像，提供更全面的环境感知，并以此判断传感器数据质量以及数据融合程度的功能具体逻辑包括，

激光雷达或超声波传感器数据采集关于环境中方形吊装物体的位置、形状物理属性的信息，具体的，激光雷达通过测量其发射的激光与对象的交互来工作，当激光脉冲与物体表面碰撞时，它们会被反射回传感器，传感器根据反射回来的光脉冲的时间差计算出物体的位置和距离；

数据采集：分别采集激光雷达数据和RGB-D图像数据；

时间同步：确保激光雷达数据和RGB-D图像数据时间上的一致性，并对数据进行时间标记；

空间校准：对激光雷达和RGB-D相机进行空间校准，确定它们之间的相对位置和姿态；

数据预处理：激光雷达数据：进行噪声过滤和地面点移除；

RGB-D图像数据：进行深度图像和彩色图像的配准；

数据融合：结合激光雷达或超声波传感器数据与RGB-D图像，生成综合环境感知值数学模型公式，

；

数学公式解释：

F(x,y,z）代表在点云坐标（x,y,z）的综合环境感知值；

是一个积分表达式，用于融合激光雷达数据；L(x,y,z）代表激光雷达在点（（x,y,z））的强度值，/>是一个衰减函数，表示信号与距离的关系，其中d（x,y,z,S）代表点（x,y,z）与传感器S之间的距离，/>是衰减系数；提供了一种考虑信号衰减的方法来估计特定点的环境属性；

是一个求和表达式，用于融合RGB-D图像数据，/>代表在点（x,y,z）的RGB-D图像中的反射率，/>是一个复杂信息处理函数，处理图像/>并结合先验知识P；

N是RGB-D图像的数量，是用于平衡不同模态数据贡献的常数；

值域解释：

F(x,y,z）的值域取决于融合后的数据值，这个值越高，表示在该点的环境感知越准确，反之则感知能力较低；

F(x,y,z）的理论值域是非负的，在0到1之间，具体取决于传感器数据和图像处理函数的性质进行适应性调整。

环境感知分级设定

低感知区域：当时，该区域的环境感知能力较低，这是由于传感器数据质量不高或者多模态数据之间融合不充分；

中等感知区域：当时，环境感知能力为中等，此时的数据融合提供了一定程度的环境信息，但缺乏一些细节；

高感知区域：当时，表示高度的环境感知能力，在这个级别，多模态数据融合效果良好，能提供比较全面的环境信息；

极高感知区域：当时，代表极高的环境感知能力，这说明所有传感器数据都被高效地融合，提供了极为准确和详细的环境感知；

这样的分级能够根据融合模型F（x,y,z）的输出，对环境感知能力进行直观的划分，每个级别都是根据模型的输出结果来确定的，这样可以确保每个级别的划分都是基于实际数据和模型的计算结果，这种分级方法可以有效地帮助理解和应用多模态数据融合模型在实际场景中的效果；

首先对激光雷达数据（L(x,y,z)）进行采集，该数据代表了在特定点的激光强度值。接着，测量并计算了信号衰减函数，以确定传感器数据随距离的衰减情况，此外，还收集了RGB-D图像中的反射率/>，并通过复杂信息处理函数/>对这些图像进行处理，以提取相关环境信息。

为了确保实验的准确性和可靠性，每个场景都进行了多次测试。每次测试都记录了各个参数的数据，并计算了综合环境感知值（F(x,y,z)），这个值是通过所设计的数学公式计算得出的，旨在综合反映出激光雷达数据和RGB-D图像数据的融合效果；

下表展示了四次不同测试的数据，包括激光雷达强度值、信号衰减、RGB-D反射率、图像处理函数的结果以及最终的环境感知值；

；

表一

从表中可以看出，当激光雷达强度和RGB-D图像的数据质量较高时，例如在Test4中，环境感知值达到了0.85，属于极高感知区域。这表明在传感器数据质量好，且多模态数据融合效果佳的情况下，所提出的公式能够提供非常精确的环境感知；

相比之下，在现有的技术中，通常只依赖单一模式的数据，例如仅使用激光雷达或RGB-D图像，这限制了环境感知的准确度，例如，单独使用激光雷达可能无法有效处理复杂的光照和反射情况，而仅依赖RGB-D图像则可能在低光照环境下表现不佳。

实施例七：

在实施例六的基础上进一步说明，所述根据实时RGB-D数据动态生成或调整物体3D模型，以判断3D模型与实际物体形状接近程度具体逻辑包括，

实时数据获取：连续获取RGB-D图像数据；

设（R,G,B）分别表示RGB-D数据中的红色、绿色、蓝色通道，D表示深度数据，设M表示3D模型，t为时间变量，考虑物理约束和几何规则/>，设计以下公式：

；

其中，为三维重构函数，用于处理RGB-D数据并生成初步的3D模型；/>为物理约束函数，/>为几何规则函数；

函数定义：

：这是一个基于RGB-D数据的三维重构函数，它能够处理输入的RGB-D数据并生成三维模型，具体实现涉及复杂的图像处理和计算机视觉技术；

；

其中，转换 RGB-D 数据为点云，/>则利用这些点云来建立三维模型；

：物理约束函数，考虑了物体在特定时间点的物理特性，如重力、质量、弹性；

；

其中，，/>，/>代表了不同的物理因素；

：几何规则函数，确保模型的几何形状符合特定的规则和约束；

；

其中，，/>代表了不同的几何规则；

值域和含义：

公式的值域将取决于M（t）的实际计算结果，M（t）的值域取决于RGB-D数据的变化和物理、几何约束的应用，具体含义如下：

较低的M（t）值：表示3D模型与实际物体形状相差较大，或者物理和几何约束没有得到很好的满足；

较高的M（t）值：表示3D模型与实际物体形状非常接近，物理和几何约束得到了良好的满足，且M（t）值的取值范围设立在0至1范围内；

依据M（t）取值范围，形状辨别结果如下：

当M(t)=1：表示3D模型与实际物体形状完全一致；

当0<M(t)<1：数值越接近1，表示3D模型与实际物体形状越接近；数值越低，表示二者相差越大；

当M(t)=0：表示3D模型与实际物体形状完全不相符。

实施例八：

在实施例七的基础上进一步说明，所述引入强化学习技术，增强模型在复杂环境中的学习和适应能力，实现通过分析RGB-D图像数据，确定吊装物的当前姿态属于预先划分的哪个区间，从而估计其精确的值，并基于/>值所在划分区间，指导吊装机械或操作员调整吊装物的位置具体逻辑包括，

RGB-D图像数据：这是基本且关键的数据类型，RGB-D图像包括颜色信息RGB和深度信息D(p)，可以从不同角度和不同光照条件下捕捉吊装物体的图像；这些图像提供了关于物体形状、大小、姿态和相对于摄像机的位置的重要信息；

环境特征数据：除了吊装物体本身的图像数据，环境特征也很重要，如光照条件、背景噪声、附近的物体，这些环境因素会影响吊装物的识别和姿态估计；

物体标注数据：这包括对RGB-D图像中吊装物体的准确标注，如物体的边界框、中心点、姿态角度，这些数据对于训练机器学习模型以准确识别和估计物体姿态至关重要；

操作数据：当涉及到自动化吊装，吊装操作的数据，如吊钩位置、速度、吊装路径需要代入考虑，这些数据有助于模型学习如何在不同情况下进行有效的吊装操作；

历史数据和模拟数据：历史的吊装操作记录，包括成功和失败的案例，以及通过模拟生成的数据，可以用来训练和验证模型的鲁棒性和适应能力；

反馈和校正数据：操作过程中的反馈数据，如物体在吊装过程中的实际移动轨迹与预期的偏差，可用于进一步优化算法；

物体物理属性数据：吊装物体的质量、材质、表面纹理信息，这些会影响吊装过程和姿态估计的准确性；

定义以下变量：

(R,G,B)：分别代表RGB-D图像中的红色、绿色、蓝色强度值；

(D)：代表深度信息；

(E)：表示环境特征数据，如光照和背景噪声；

(L)：代表物体标注数据，如边界框的位置和大小；

(O)：表示操作数据，如吊钩的位置和速度；

(H)：代表历史和模拟数据；

(F)：表示反馈和校正数据；

(P)：代表物体的物理属性数据，如质量和材质；

：代表物体的姿态；

公式如下：

；

其中，F是一个复杂信息过滤函数，定义为：

；/>

这里，是一个归一化函数，用于整合不同类型的数据，/>是权重系数，用于调整不同数据类型的影响力，n是数据点的总数；

公式中的字符解释如下：（R,G,B,D）分别是图像数据的红色、绿色、蓝色和深度信息；（E,L,O,H,P）分别代表环境特征、物体标注、操作数据、历史和模拟数据、反馈和校正数据以及物体的物理属性；是物体的姿态；F是信息过滤函数；

这个公式的值域取决于各项数据的范围和函数的设计，的值域对应于物体可能的姿态范围，这个机器学习模型的目的是通过分析摄像机捕捉到的图像数据，来估计方形吊装物的姿态，模型会输出一个角度值/>，代表方形物体相对于一个固定参考点，如摄像机或吊装机的旋转角度；

的值域：

将的值域限制在/>到/>；

这个范围允许模型覆盖方形吊装物的所有可能旋转姿态；

姿态情况的分类：

将的值域分为几个区间，每个区间代表一个特定的姿态类别；

例如：到/>：物体的一个角朝向摄像机；

到/>：物体的一个边平行于摄像机；

到/>：物体的另一个角朝向摄像机；

到/>：物体的另一个边平行于摄像机；

对本实施例进行实验分析：

在实验开始前，收集了大量的环境特征数据、物体标注数据、操作数据、历史数据和模拟数据以及物体物理属性数据，这些数据将作为模型的输入，用于训练和验证，同时，准备了一系列的RGB-D图像，这些图像在不同的光照条件和背景下捕捉了吊装物的各种姿态；

实验中，首先对每个吊装物进行了详细的标注，确定了其边界框、中心点、姿态角度等参数，然后，将这些标注数据与环境特征、操作数据等其他信息一起输入到模型中，模型使用上述提供的公式进行计算，估算出吊装物的姿态角度；

为了评估模型的性能，每次实验都记录了吊装物的实际姿态和模型估计的姿态，并计算了两者之间的差异，此外，也记录了吊装操作的各项数据，如吊钩位置、速度和路径，以及实际吊装过程中的反馈和校正数据；

表格如下所示：

；

表二

所设计的增强模型在不同的环境条件和吊装物材质下均能有效地估计吊装物的姿态，表现出较现有技术更优的精确度和适应性，从表中可以看出，模型估计的姿态与实际姿态之间的差异较小，平均误差在2到5度之间，这一结果说明模型能够准确地捕捉到吊装物的旋转角度，并有效地指导吊装操作；

相比现有技术，该模型的主要优势在于能够综合利用多种数据类型（如环境特征、物体标注、操作数据等）进行精确的姿态估计。此外，通过反馈和校正数据的使用，模型可以不断地进行自我优化，提高在不同条件下的适应性和精确度。这在复杂的实际应用场景中，如变化的光照条件和复杂的背景噪声中，尤为重要；

模型输出：

模型通过分析图像数据，确定吊装物的当前姿态属于哪个区间，从而估计其精确的值；

这个估计值将用于指导吊装机械或操作员调整吊装物的位置，以确保安全和效率。

模型训练和优化：

训练数据将包括各种不同姿态的方形吊装物的图像，以及对应的值；

通过对模型进行训练和优化，它将能够更准确地识别和估计不同姿态的吊装物。

实施例九：

在实施例八的基础上进一步说明，所述对于深度图上的坐标，使用透视投影和仿射变换计算像素坐标系与世界坐标系具体逻辑包括，

转化公式为：

；

其中是深度图像上的像素坐标，Z是从深度图像中获取的深度值，/>是点云中的三维坐标，经过变换可得到如下公式：/>

。

实施例十：

在实施例九的基础上进一步说明，所述应用旋转矩阵和旋转向量之间的转换公式计算旋转和平移矩阵，得到三维姿态变换矩阵，具体逻辑包括，

转换公式选择Rodrigues'rotationformula，其在三维空间中表示旋转的数学公式；

将所有单位法向量进行kmeans聚类后进行可视化；

进一步将视角以球壳内为基准，得到聚类中心点；

基于得到的中心点的法线，将球面的点的三维坐标转化为使用极角和方向角表示的球面坐标，分别对聚类出的不同类的数据进行二维核密度估计找到密度最大的点，即为该面朝向的向量/>，将得到的三组密度最大点球坐标转化回三维向量后进行可视化处理；

通过叉乘得到旋转轴为如下：

；

通过点乘计算旋转角度，由于与/>均为相邻单位化的向量，可得：

；

使用反余弦函数即可得到，最后通过Rodrigues'rotationformula，即：

；；

其中是单位矩阵，/>是反对称矩阵：

；

由下公式得到平移矩阵:

；

最终得到以下三维姿态变化矩阵：

；

给定一个欧拉角的表示方式和三个角度：用、/>、/>表示，通过以下步骤计算欧拉角对应的旋转矩阵H结果值：

旋转矩阵绕Z轴的旋转：/>

；

旋转矩阵绕Y轴的旋转：

；

旋转矩阵绕X轴的旋转：

；

将这些旋转矩阵相乘得到总的旋转矩阵：

；

这涉及矩阵的乘法，对于中的元素/>，可以通过矩阵乘法计算得到；

；

这个过程会给出一个3x3的旋转矩阵，描述了欧拉角/>、/>、/>所表示的旋转。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

公式中的δ、ε、ϵ和σ等的具体取值一般由本领域技术人员根据实际情况来确定，本申请该公式本质为加权求和进行综合分析，由本领域技术人员采集多组样本数据并对每一组样本数据设定对应的预设比例系数；将设定的预设比例系数和采集的样本数据代入公式，任意四个公式构成四元一次方程组，将计算得到的系数进行筛选并取均值，得到δ、ε、ϵ和σ等的取值；

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够、电子硬件，或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方法来执行，取决于技术方案的特定应用和设计约束条件。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于，具体步骤包括：

S5、通过激光雷达或超声波传感器采集关于环境中方形吊装物体的位置、形状物理属性的信息，并结合激光雷达或超声波传感器数据与RGB-D图像，生成综合环境感知值数学模型，并以此判断传感器数据质量以及数据融合程度；根据实时RGB-D数据动态生成并调整物体3D模型，以判断3D模型与实际物体形状接近程度；

2.根据权利要求1所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述使用深度相机采集方形吊装物不同时刻的RGB-D图像数据，所述RGB-D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息，具体包括以下内容，

将输入的RGB-D图像调整至网络要求的分辨率，并将RGB-D图像输入到SAM算法模型中；

SAM算法模型通过多层卷积神经网络提取特征，再运用深度学习技术进行语义分割，识别方形物体；从分割结果中提取方形物体区域，生成掩膜，掩膜具体为遮挡或突出显示图像中特定区域的二进制图像。

3.根据权利要求2所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：使用图像分割算法对RGB图像数据中方形吊装物进行图像分割，分割出方形吊装物掩膜的像素，并根据像素点的深度信息确定通过方形吊装物掩膜中各个像素的深度信息，并依据方形吊装物的掩膜和掩膜内各个像素的深度信息通过相机内参矩阵转化为三维的点云信息具体逻辑包括，

使用掩膜从深度图中提取目标物体的深度信息；通过深度相机厂家提供的API导出相机的内参矩阵：

；

将掩膜内各个像素通过相机内参矩阵转换为三维空间中的点云，对每个像素点应用转换公式：

；

其中：P是点云中的三维坐标（X,Y,Z），点云中的每个点表示为，且/>，N表示点云总数；

是相机内参矩阵的逆；

D（p）是像素点p的深度值；

是齐次坐标下的像素位置（x,y,1）。

4.根据权利要求3所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述估计点云中各点的法线，确定当前时刻关键帧i与相邻前一时刻关键帧i-1，并处理得到第i与i-1个关键帧中长方体三个面的法向量，对掩膜中的所有点法线向量进行平均化处理得到中心点，并以此识别点云的结构特征具体逻辑包括，

三个面的法向量表示为：，其中j依次表示当前关键帧中相邻三个面，

获取三维点云数据后对每个点云数据点采用K近邻KNN算法找到临近点集；对每个点的邻域点集进行协方差矩阵计算，然后进行特征值分解；特征值最小对应的特征向量作为该点的法线方向；生成每个点的法线估计；

法线估计公式：

对于点云中的每个点，首先找到其K近邻点集/>；

对每个点及其近邻点集，构建协方差矩阵/>：

；

其中，是近邻点集的均值；

；

综合以上步骤，我们得到以下公式：

；

其中，表示协方差矩阵/>最小特征值对应的特征向量；

字符解释：

：点云中的一个数据点；

N：点云中点的总数；

K：每个点的K近邻点数；

：点/>的第j个近邻点；

：点/>的近邻点集的均值；

：点/>及其近邻点集构成的协方差矩阵；

值域解释：

具体的，

；

其中，表示/>的模长，if表示并列关系的“如果”；

类别说明：

5.根据权利要求4所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述使用由第i个和第i-1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T包括以下内容，

获取法线估计和物体中心点；并使用法线估计确定物体的朝向；通过比较关键帧中的法线方向，计算物体的旋转；

；

其中（,/>)是两关键帧的点云；

输出：旋转矩阵R和平移向量T。

6.根据权利要求5所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述结合激光雷达或超声波传感器数据与RGB-D图像，提供更全面的环境感知，并以此判断传感器数据质量以及数据融合程度的功能具体逻辑包括，

分别采集激光雷达数据和RGB-D图像数据；确保激光雷达数据和RGB-D图像数据时间上的一致性，并对数据进行时间标记；

数据预处理：对激光雷达数据进行噪声过滤和地面点移除；并对RGB-D图像数据进行深度图像和彩色图像的配准；

；

数学公式解释：

F(x,y,z）代表在点云坐标（x,y,z）的综合环境感知值；

是一个积分表达式，用于融合激光雷达数据；L(x,y,z）代表激光雷达在点（（x,y,z））的强度值，/>是一个衰减函数，表示信号与距离的关系，其中d（x,y,z,S）代表点（x,y,z）与传感器S之间的距离，/>是衰减系数；

N是RGB-D图像的数量，是用于平衡不同模态数据贡献的常数；

值域解释：

7.根据权利要求6所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述根据实时RGB-D数据动态生成或调整物体3D模型，以判断3D模型与实际物体形状接近程度具体逻辑包括，

实时数据获取：连续获取RGB-D图像数据；

；

函数定义：

：为基于RGB-D数据的三维重构函数，它能够处理输入的RGB-D数据并生成三维模型，具体实现涉及复杂的图像处理和计算机视觉技术；

；

其中，，/>，/>代表了不同的物理因素；

；

其中，，/> 代表了不同的几何规则；

值域和含义：

较高的M（t）值：表示3D模型与实际物体形状非常接近，物理和几何约束得到了良好的满足，且M（t）值的取值范围设立在0至1范围内。

8.根据权利要求7所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述引入强化学习技术，增强模型在复杂环境中的学习和适应能力，实现通过分析RGB-D图像数据，确定吊装物的当前姿态属于预先划分的哪个区间，从而估计其精确的值，并基于/>值所在划分区间，指导吊装机械或操作员调整吊装物的位置具体逻辑包括，

环境特征数据：包括光照条件、背景噪声、附近的物体；

物体标注数据：对RGB-D图像中吊装物体的准确标注，包括物体的边界框、中心点、姿态角度；

操作数据：当涉及到自动化吊装，吊装操作的数据，包括吊钩位置、速度、吊装路径需要代入考虑；

历史数据和模拟数据：历史的吊装操作记录，包括成功和失败的案例，以及通过模拟生成的数据；

反馈和校正数据：操作过程中的反馈数据，包括物体在吊装过程中的实际移动轨迹与预期的偏差，可用于进一步优化算法；

物体物理属性数据：吊装物体的质量、材质、表面纹理信息；

定义以下变量：

(R,G,B)：分别代表RGB-D图像中的红色、绿色、蓝色强度值；

D：代表深度信息；

E：表示环境特征数据，包括光照和背景噪声；

L：代表物体标注数据，包括边界框的位置和大小；

O：表示操作数据，包括吊钩的位置和速度；

H：代表历史和模拟数据；

F：表示反馈和校正数据；

P：代表物体的物理属性数据，包括质量和材质；

：代表物体的姿态；

公式如下：

；

其中，F是一个复杂信息过滤函数，定义为：

；

公式中的字符解释如下：（R,G,B,D）分别是RGB-D图像数据的红色、绿色、蓝色和深度信息；（E,L,O,H,P）分别代表环境特征、物体标注、操作数据、历史和模拟数据、反馈和校正数据以及物体的物理属性；是物体的姿态；F是信息过滤函数；

的值域：

将的值域限制在/>到/>；

这个范围允许模型覆盖方形吊装物的所有可能旋转姿态；

姿态情况的分类：

模型输出：

9.根据权利要求8所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述设计深度信息图上的坐标（u，v），使用透视投影和仿射变换计算像素坐标系与世界坐标系具体逻辑包括，

转化公式为：

；

其中（u，v）是深度图像上的像素坐标，Z是从深度图像中获取的深度值，(X,Y,Z）是点云中的三维坐标，经过变换可得到如下公式：

。

10.根据权利要求9所述的一种基于RGB-D图像的方形吊装物姿态估计方法，其特征在于：所述应用旋转矩阵和旋转向量之间的转换公式计算旋转和平移矩阵，得到三维姿态变换矩阵，具体逻辑包括，

将所有单位法向量进行kmeans聚类后进行可视化；

进一步将视角以球壳内为基准，得到聚类中心点；

通过叉乘得到旋转轴为如下：

；

其中E是单位矩阵，K是反对称矩阵：

；

由下公式得到平移矩阵T:

；

最终得到以下三维姿态变化矩阵：

。