CN117689990B - 一种基于6d姿态估计的三支流双向融合网络方法 - Google Patents
一种基于6d姿态估计的三支流双向融合网络方法 Download PDFInfo
- Publication number
- CN117689990B CN117689990B CN202410148631.1A CN202410148631A CN117689990B CN 117689990 B CN117689990 B CN 117689990B CN 202410148631 A CN202410148631 A CN 202410148631A CN 117689990 B CN117689990 B CN 117689990B
- Authority
- CN
- China
- Prior art keywords
- rgb
- fusion
- gesture
- network
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000013519 translation Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000005520 cutting process Methods 0.000 claims abstract description 4
- 238000005457 optimization Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于6D姿态估计的三支流双向融合网络方法,属于图像处理领域,包括:对RGB图像进行语义分割,从RGB图像进行输入,裁剪需要预测的目标对象,获取目标对象的彩色图像和深度图像,并将深度图像转换为点云;对S1中的彩色图像和深度图像进行特征提取和融合,构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合;将S2中提取的特征输入到姿态估计网络,估计每个中心点的特征的3D平移姿态和3D旋转姿态,并输出最高置信度的姿态。本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法,不仅可以保留原始RGB和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小RGB和深度图像之间的特征差异。
Description
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种基于6D姿态估计的三支流双向融合网络方法。
背景技术
物体的姿态估计是许多计算机视觉应用的核心任务,如机器人自动化操作、增强现实和自动驾驶。它已经成为许多研究机构的热门研究课题。物体姿态估计的主要目的是计算目标物体在相机坐标系中的旋转矩阵和平移矢量。早期的方法仅使用RGB图像进行物体姿态估计。这限制了这些方法在具有遮挡、照明差、背景对比度低和无纹理对象的场景中的性能。最近,廉价RGBD相机的出现促使一些研究人员使用RGBD图像来准确估计无纹理物体的姿态。然而,这些方法不仅参数多、实时性低,而且没有充分利用深度信息,导致这些方法在遮挡和照明差条件下的性能较差。因此,充分利用颜色和深度信息进行姿态估计是当前研究工作的核心问题。
传统的姿态估计方法通常分为两类:基于对应关系的方法和基于模板的方法;基于对应关系的方法首先从RGB图像中提取2D关键点,然后建立2D-3D关键点之间的对应关系,最后通过PnP算法估计物体姿态。然而,对于缺乏纹理的对象,不能准确地提取2D关键点。因此,这些方法在缺乏纹理的物体上表现不佳。基于模板的方法比较真实图像和模板图像的梯度信息,可以找到与真实图像最相似的模板图像,将与模板图像相对应的6D姿势作为当前目标对象的6D姿态。这类方法主要针对缺乏纹理的物体的姿态估计,弥补了基于对应关系的方法的不足。然而,在遮挡的情况下,这些方法会显著降低模板匹配的性能。
随着深度学习技术的快速发展。卷积神经网络(CNN)广泛用于图像处理任务,如对象检测和图像分类。因此,它也促使一些研究人员使用CNN来解决物体6D姿态估计问题。基于CNN的方法主要分为两类。其中一类使用CNN检测RGB图像中的2D关键点,解决了传统方法不适用于无纹理对象的关键点检测问题。然而,在遮挡的情况下,它不能准确地估计对象姿态。另一类方法是直接使用RGB图像来回归物体的6D姿态,如PoseNet、PoseCNN和SSD-6D。这些方法估计的物体姿态通常是不准确的,并且稍后需要耗时的迭代算法(如ICP)来进行姿态优化。以上三种类型的方法只是使用RGB图像来估计对象姿态。它们不使用深度信息或将颜色和深度信息组合用于位置估计。关于遮挡问题,Fractal Markers通过检测关键点来估计遮挡下的标记姿势,Body PointNet直接处理点云数据来估计衣服下的3D体型和姿势。这些方法可以更好地解决遮挡条件下的姿态估计问题。最近,Densefusion首次结合颜色和深度信息来估计物体6D姿态,在遮挡和低照度下具有更好的性能。它分别通过CNN和PointNet提取RGB和点云特征。然后对图像特征和点云特征进行像素级融合,对目标姿态进行回归。然而,该方法使用单独的网络来分别提取RGB和点云信息。在特征提取过程中,CNN网络单独很难从RGB图像中提取相似对象的独特特征,同样点云网络也是如此,并没有完全利用这两种特征潜在的有用信息。
发明内容
本发明的目的是提供一种基于6D姿态估计的三支流双向融合网络方法,不仅可以保留原始RGB和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小RGB和深度图像之间的特征差异。
为实现上述目的,本发明提供了一种基于6D姿态估计的三支流双向融合网络方法,包括以下步骤:
S1、对RGB图像进行语义分割,从RGB图像进行输入,裁剪需要预测的目标对象,获取目标对象的彩色图像和深度图像,并将深度图像转换为点云;
S2、对S1中的彩色图像和深度图像进行特征提取和融合,构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合;
S3、将S2中提取的特征输入到姿态估计网络,估计每个中心点的特征的3D平移姿态和3D旋转姿态,并输出最高置信度的姿态。
优选的,所述步骤S2中基于通道注意力模块构建两种类型特征处理模块,分别为RGB-D融合模块和上下文聚合模块。
优选的,所述RGB-D融合模块,包括两个通道注意力模块,分别来处理RGB分支和深度分支的特征信息,设RGB图像输入特征图为和深度图像输入特征图为,RGB-D融合模块的操作描述为:
;
其中,表示RGB-D融合模块,/>表示对于RGB和深度分支每一层的输出;/>表示输入特征映射元素属于实数域,C表示通道数,H表示特征图的高度,W表示特征图的宽度,对于RGB分支和深度分支的每一层,输出来细化编码器中该层的原始输出;
;
;
融合结果减少到原来的一半。
优选的,所述上下文聚合模块包括两个具有不同池化方法的通道注意力模块,分别是具有全局平均池化层的通道注意力模块和具有最大池化层的通道注意力模块。
优选的,所述步骤S3通过步骤S2的特征提取和特征融合,得到一组中心点的特征,将中心点的特征输入到姿态估计网络进行估计,并对每个中心点通过回归网络进行回归旋转、平移和置信度。
优选的,所述回归网络由三个相同的小网络组成,每个小网络由四层一维卷积组成,为每个中心点设置网络损耗函数,对于非对称对象的网络损耗函数:
;
对于对称对象网络损耗函数:
;
其中表示采样点的数量,/>表示第/>个采样点,/>表示对象的真实姿态,/>表示通过第/>个中心点特征回归的姿态。
优选的,使用迭代姿态优化网络,根据姿态估计网络的输出,对点云进行逆变换,将变换后的点云和原始颜色特征作为输入,在获得迭代姿态优化网络输出的残差姿态后,再次对输入点云进行逆变换,并将获得的点云用作下一次迭代的输入,经过几次迭代后,将预测的残差姿态与原始姿态连接,获得最终的姿态估计结果。
因此,本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法,构建具有三个并行的分支的架构,并提出两个互补的注意力模块,分别从RGB、深度和融合图提取不同的特征信息,经过融合模块后的融合特征不仅会被传播到RGB和深度分支的下一阶段,而且也会作为新的一个分支进行特征输出。进一步引入双向多步传播策略,不仅可以保留原始RGB和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小RGB和深度图像之间的特征差异。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的整体网络结构;
图2是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的通道注意力模块结构图;
图3是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的两种类型的特征处理模块,其中(a)是RGB-D融合模块的结构图,(b)是上下文聚合模块的结构图;
图4是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的迭代姿态优化网络图;
图5是本发明一种基于6D姿态估计的三支流双向融合网络方法实施例的姿态迭代网络示意图。
具体实施方式
实施例
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明公开了一种基于6D姿态估计的三支流双向融合网络方法,包括以下内容:
S1、对RGB图像进行语义分割,从RGB图像进行输入,裁剪需要预测的目标对象,获取目标对象的彩色图像和深度图像,并将深度图像转换为点云。
分割图像中感兴趣的对象,从RGB图像作为输入,裁剪想要预测的目标对象,然后生成仅包含目标对象的彩色图像和深度图像。如今,语义分割研究发展逐渐成熟,语义分割框架一般由编码器和解码器组成,彩色图像进入编解码器后生成N+1通道的语义分割图,每个通道都是二进制掩码,其中语义像素描绘了N个可能的已知类中的每个类的对象。因此,直接使用了现成的语义分割Segnet网络架构。
S2、对S1中的彩色图像和深度图像进行特征提取和融合,构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合。
为了能够更好的充分融合RGB图像和深度图像的特征,提出了一个双向特征融合网络来解决这个问题,如图2和图3所示。具体来说,提出了构建具有三个并行的分支的架构,这种结构不仅可以保留原始RGB和深度分支的特征,还可以充分利用融合分支的特征。然而,由于RGB图像主要是颜色和纹理,可以突出对象视觉轮廓边界,深度图像主要是空间三维消息,可以突出几何边界,因此不适合简单地直接合并RGB和深度特征数据。通道注意力机制可以聚合全局信息以捕获更重要的信息,为此,基于通道注意力模块构建两种类型特征处理模块,分别为RGB-D融合模块和上下文聚合模块。
通道注意力模块,该模块可以显式地对待特征的通道之间的相互依赖进行建模,以提高网络产生的表示的质量,并使网络使用全局信息来选择性地强调信息性特征和抑制不太有用的特征。如图2所示,假设输入特征映射,首先应用全局平均化,输出/>公式(1)如下:
(1)
其中表示与第c个通道相关联的输出,/>表示输入特征映射元素属于实数域,C表示通道数,H表示特征图的高度,W表示特征图的宽度。该操作可以使网络收集全局信息。接下来,以下操作可以表示为:
(2)
其中,表示按通道相乘,/>是Sigmod函数,/>表示最终输出结果,/>是由变换运算生成的最终注意力向量结果,表示如下:
(3)
这里,和/>是两个不同的1×1卷积层,可以捕获通道之间的相关性。通过第一次卷积,可以得到一个中间注意张量/>,Z表示每个通道相关的特征的输出,Z中的每个元素可以被看作是对应通道的全局表示,可以用于计算通道权重,以便在后续的加权和操作中调整每个通道的重要性。注意,r是用于控制块大小的缩减率,r对模型的效果有重要影响。将r设置为8,并将讨论不同归约率对性能的影响。然后通过第二次卷积,可以得到最终的注意力张量g。
RGB-D融合模块:RGB和深度图像中所包含的类别对象的信息在室内场景的不同区域中不同,换句话说,RGB和深度图像具有不同的特征分布。然而,通道注意力机制可以使网络更多地关注目标对象特征丰富的区域,并过滤掉一些不需要的特征。因此,设计了一组RGB-D融合模块,如图3中(a)所示。具体来说,嵌入了两个通道注意力模块,以便分别来处理RGB和深度分支的特征信息。假设RGB输入特征图为和深度图像输入特征图为/>,融合模块的操作可以描述为:
(4)
其中,表示RGB-D融合模块,/>表示对于RGB和深度分支每一层的输出。对于RGB和深度分支的每一层,输出来细化编码器中该层的原始输出。
(5)
(6)
这种操作就是所说的双向多步传播(BMP)策略,精细化的结果将传播到编码器中的下一层,以便对颜色特征和几何特征信息进行更准确和高效的编码。在这里,选择将融合结果减少到原来的一半,而不是直接添加元素,这可以降低模型的复杂性,也可以使融合结果更加精细。
上下文聚合模块:当编码器的输出被发送到解码器时,特征信息经常会出现丢失的情况。为了保留更多的特征信息,嵌入了一个上下文聚合模块,如图3中(b)所示。对于这个模块,仍然使用通道注意力模块来构建,但是与前面融合模块结构不太一样,添加两个具有不同池化方法的通道注意力模块。对于两个注意力模块,一个是全局平均池化层,另一个最大池化层。平均池化主要作用倾向于平滑整个通道的特征;然而最大池化更倾向于聚焦在通道中最显著的特征,在特征整合部分,这种设置可以平衡对整体信息和局部显著特征的关注,从而增强网络对重要特征的关注,允许网络聚合更多的信息特征。
将输出与原始输入特征信息连接起来,最后通过1x1卷积层校准通道。这种信息处理方法提高了特征信息的准确性,补充了类别对象因遮挡以及纹理不足丢失的特征信息和重要特征。最后,输出的三种不同特征将整合被输入到下一个阶段。
S3、将S2中提取的特征输入到姿态估计网络,估计每个中心点的特征的3D平移姿态和3D旋转姿态,并输出最高置信度的姿态。
通过上一阶段特征提取和特征融合,得到一组中心点的特征。然后,将这组中心点的特征输入到姿态估计网络进行姿态估计,并且还对每个中心点进行回归旋转、平移和置信度。回归网络由三个相同的小网络组成,每个小网络由四层一维卷积组成。为每个中心点设置网络损耗函数。对于非对称对象的网络损耗函数:
(7)
对于对称对象网络损耗函数:
(8)
表示采样点的数量,/>表示第/>个采样点,/>表示对象的真实姿态,/>表示通过第/>个中心点特征回归的姿态。
姿态优化过程中常用的ICP优化方法耗时且不能满足实时性要求。因此,使用了一种基于CNN的优化方法,可以快速稳定地优化姿态。迭代姿态优化网络在结构上类似于姿态估计网络。它将融合后的特征通过最大池化层,形成全局特征用于姿态估计,迭代姿态优化网络每次输出一个残差姿态。迭代姿态优化网络过程如图4所示。根据姿态估计网络的输出,对点云进行逆变换。然后将变换后的点云和原始颜色特征作为输入。在获得迭代网络输出的残差姿态后,再次对输入点云进行逆变换,并将获得的点云用作下一次迭代的输入。经过几次迭代后,将预测的残差姿态与原始姿态连接,以获得最终的姿态估计结果。
姿态优化的原理如图5所示,物体在相机坐标系中的真实姿态为,预测姿态为/>,并且姿态间差异被设置为/>。经过n次迭代估计网络的最终预测姿态:
(9)
其中表示物体对象真实的姿态,/>表示是姿态估计网络输出的初始姿态,/>到/>表示是迭代网络输出的残差姿态。假设初始物体坐标系和相机坐标系重合,物体的真实姿态为/>,则/>;其中,/>和/>分别表示点云在相机坐标系和物体坐标系的坐标。根据姿态估计网络输出的初始姿态/>,对点云进行逆变换来获得:
(10)
通过逆变换得到的点云作为迭代网络的输入,此时网络预测残差姿态/>。然后,再次将对点云/>进行逆变换得到:
(11)
使用逆变换点云作为迭代网络的输入,该网络预测残差姿态/>。经过多次迭代后得到:
(12)
经过n次迭代网络迭代后,物体姿态估计网络输出的最终姿态为;在点云的变换过程中,由于点云与颜色特征之间的像素对应关系保持不变,所以每次使用相同的颜色特征与变换后的点云进行特征融合。
因此,本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法,不仅可以保留原始RGB和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小RGB和深度图像之间的特征差异。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (4)
1.一种基于6D姿态估计的三支流双向融合网络方法,其特征在于,包括以下步骤:
S1、对RGB图像进行语义分割,从RGB图像进行输入,裁剪需要预测的目标对象,获取目标对象的彩色图像和深度图像,并将深度图像转换为点云;
S2、对S1中的彩色图像和深度图像进行特征提取和融合,构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合;融合分支的融合模块之间层层连接,经过融合模块后的融合特征不仅会被传播到RGB分支和深度分支的下一阶段,而且也会作为新的一个分支进行特征输出;
基于通道注意力模块构建两种类型特征处理模块,分别为RGB-D融合模块和上下文聚合模块,输出的三种不同特征将整合被输入到下一个阶段;
所述RGB-D融合模块,包括两个通道注意力模块,分别来处理RGB分支和深度分支的特征信息,设RGB图像输入特征图为和深度图像输入特征图为/>,RGB-D融合模块的操作描述为:
;
其中,表示RGB-D融合模块,/>表示对于RGB和深度分支每一层的输出;/>表示输入特征映射元素属于实数域,C表示通道数,H表示特征图的高度,W表示特征图的宽度,对于RGB分支和深度分支的每一层,使用输出来细化编码器中该层的原始输出;
;
;
融合结果减少到原来的一半;
所述上下文聚合模块包括两个具有不同池化方法的通道注意力模块,分别是具有全局平均池化层的通道注意力模块和具有最大池化层的通道注意力模块;
S3、将S2中提取的特征输入到姿态估计网络,估计每个中心点的特征的3D平移姿态和3D旋转姿态,并输出最高置信度的姿态。
2.根据权利要求1所述的一种基于6D姿态估计的三支流双向融合网络方法,其特征在于:所述步骤S3通过步骤S2的特征提取和特征融合,得到一组中心点的特征,将中心点的特征输入到姿态估计网络进行估计,并对每个中心点通过回归网络进行回归旋转、平移和置信度。
3.根据权利要求2所述的一种基于6D姿态估计的三支流双向融合网络方法,其特征在于,所述回归网络由三个相同的小网络组成,每个小网络由四层一维卷积组成,为每个中心点设置网络损耗函数,对于中心点为非对称对象的网络损耗函数:
;
对于中心点为对称对象的网络损耗函数:
;
其中表示采样点的数量,/>表示第/>个采样点,/>表示对象的真实姿态,/>表示通过第/>个中心点特征回归的姿态。
4.根据权利要求2所述的一种基于6D姿态估计的三支流双向融合网络方法,其特征在于:根据姿态估计网络的输出,使用迭代姿态优化网络,对点云进行逆变换,将变换后的点云和原始颜色特征作为输入,在获得迭代姿态优化网络输出的残差姿态后,再次对输入点云进行逆变换,并将获得的点云用作下一次迭代的输入,经过几次迭代后,将预测的残差姿态与原始姿态连接,获得最终的姿态估计结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410148631.1A CN117689990B (zh) | 2024-02-02 | 2024-02-02 | 一种基于6d姿态估计的三支流双向融合网络方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410148631.1A CN117689990B (zh) | 2024-02-02 | 2024-02-02 | 一种基于6d姿态估计的三支流双向融合网络方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117689990A CN117689990A (zh) | 2024-03-12 |
CN117689990B true CN117689990B (zh) | 2024-05-31 |
Family
ID=90132363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410148631.1A Active CN117689990B (zh) | 2024-02-02 | 2024-02-02 | 一种基于6d姿态估计的三支流双向融合网络方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117689990B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270249A (zh) * | 2020-10-26 | 2021-01-26 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN114663514A (zh) * | 2022-05-25 | 2022-06-24 | 浙江大学计算机创新技术研究院 | 一种基于多模态稠密融合网络的物体6d姿态估计方法 |
CN114742888A (zh) * | 2022-03-12 | 2022-07-12 | 北京工业大学 | 一种基于深度学习的6d姿态估计方法 |
CN114863573A (zh) * | 2022-07-08 | 2022-08-05 | 东南大学 | 一种基于单目rgb-d图像的类别级6d姿态估计方法 |
CN116597006A (zh) * | 2023-05-22 | 2023-08-15 | 河北工业大学 | 基于多尺度特征融合的6d位姿估计方法 |
CN117218343A (zh) * | 2023-09-11 | 2023-12-12 | 电子科技大学 | 一种基于深度学习的语义部件姿态估计方法 |
CN117315025A (zh) * | 2023-09-28 | 2023-12-29 | 湖南工程学院 | 一种基于神经网络的机械臂6d位姿抓取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215080B (zh) * | 2018-09-25 | 2020-08-11 | 清华大学 | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 |
CN113012122B (zh) * | 2021-03-11 | 2022-07-29 | 复旦大学 | 一种类别级6d位姿与尺寸估计方法及装置 |
-
2024
- 2024-02-02 CN CN202410148631.1A patent/CN117689990B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270249A (zh) * | 2020-10-26 | 2021-01-26 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN114742888A (zh) * | 2022-03-12 | 2022-07-12 | 北京工业大学 | 一种基于深度学习的6d姿态估计方法 |
CN114663514A (zh) * | 2022-05-25 | 2022-06-24 | 浙江大学计算机创新技术研究院 | 一种基于多模态稠密融合网络的物体6d姿态估计方法 |
CN114863573A (zh) * | 2022-07-08 | 2022-08-05 | 东南大学 | 一种基于单目rgb-d图像的类别级6d姿态估计方法 |
CN116597006A (zh) * | 2023-05-22 | 2023-08-15 | 河北工业大学 | 基于多尺度特征融合的6d位姿估计方法 |
CN117218343A (zh) * | 2023-09-11 | 2023-12-12 | 电子科技大学 | 一种基于深度学习的语义部件姿态估计方法 |
CN117315025A (zh) * | 2023-09-28 | 2023-12-29 | 湖南工程学院 | 一种基于神经网络的机械臂6d位姿抓取方法 |
Non-Patent Citations (3)
Title |
---|
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation;Xiaokang Chen 等;arXiv;20200717;全文 * |
FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation;Yisheng He 等;IEEE;20211102;全文 * |
基于伪孪生神经网络的低纹理工业零件6D位姿估计;王神龙 等;电子学报;20230131;第51卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117689990A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN107578436B (zh) | 一种基于全卷积神经网络fcn的单目图像深度估计方法 | |
CN109598268B (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN111899301A (zh) | 一种基于深度学习的工件6d位姿估计方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
Tian et al. | Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint | |
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
Chen et al. | Fixing defect of photometric loss for self-supervised monocular depth estimation | |
CN111861880B (zh) | 基于区域信息增强与块自注意力的图像超分与融合方法 | |
CN112651423A (zh) | 一种智能视觉系统 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN113449735B (zh) | 一种超像素分割的语义分割方法及装置 | |
CN112598735B (zh) | 一种融合三维模型信息的单张图像物体位姿估计方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN113283525A (zh) | 一种基于深度学习的图像匹配方法 | |
CN110706269A (zh) | 一种基于双目视觉slam的动态场景密集建模方法 | |
Khan et al. | Lrdnet: lightweight lidar aided cascaded feature pools for free road space detection | |
Shi et al. | Self-supervised learning of depth and ego-motion with differentiable bundle adjustment | |
CN118071932A (zh) | 一种三维静态场景图像重建方法及系统 | |
Hou et al. | Joint learning of image deblurring and depth estimation through adversarial multi-task network | |
CN114067273A (zh) | 一种夜间机场航站楼热成像显著人体分割检测方法 | |
CN114155406A (zh) | 一种基于区域级特征融合的位姿估计方法 | |
CN102724530B (zh) | 基于反馈控制的平面视频立体化方法 | |
CN117689990B (zh) | 一种基于6d姿态估计的三支流双向融合网络方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |