CN113223181A - 一种弱纹理物体位姿估计方法 - Google Patents

一种弱纹理物体位姿估计方法 Download PDF

Info

Publication number
CN113223181A
CN113223181A CN202110615380.XA CN202110615380A CN113223181A CN 113223181 A CN113223181 A CN 113223181A CN 202110615380 A CN202110615380 A CN 202110615380A CN 113223181 A CN113223181 A CN 113223181A
Authority
CN
China
Prior art keywords
feature map
embedded
pixel
characteristic diagram
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110615380.XA
Other languages
English (en)
Other versions
CN113223181B (zh
Inventor
王涛
黄榕彬
李耀
程良伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110615380.XA priority Critical patent/CN113223181B/zh
Publication of CN113223181A publication Critical patent/CN113223181A/zh
Application granted granted Critical
Publication of CN113223181B publication Critical patent/CN113223181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种弱纹理物体位姿估计方法,包括:通过彩色图像获取物体的彩色嵌入特征图;通过深度图像获取物体的几何嵌入特征图;利用自注意力机制模块从彩色嵌入特征图和几何嵌入特征图中提取位置依赖特征图;并利用通道注意力机制模块获取彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图的权重向量;将三个特征图的权重向量分别与对应的特征图相乘;再将三个特征图逐像素融合,然后逐像素预测位姿和置信度,选择置信度最高的预测结果作为最终预测结果。本申请通过获取像素间的位置关系,丰富每个像素特征的信息,并自适应调整不同特征的权重,提高每个像素的识别精度。

Description

一种弱纹理物体位姿估计方法
技术领域
本申请涉及位姿估计技术领域,尤其涉及一种弱纹理物体位姿估计方法。
背景技术
目标物体的6D位姿估计,就是指恢复相机坐标系下目标物体的6D位姿,即目标物体的3D位置和3D姿态。物体的6D位姿估计目前主要针对由于复杂场景中的遮挡情况、目标对象的弱纹理、弱对比度、对称性导致的估计精度不足的问题。目前主要有基于RGB的方法和基于RGBD的方法。基于RGBD的物体6D位姿估计的一个关键问题是如何更好的利用RGB和深度信息的互补性质,进一步提高识别精度。
现有方法中,PointFusion对RGB信息和深度信息是进行全局融合,忽略了局部特征;DenseFusion对RGB信息和深度信息是进行逐像素融合,主要关注物体的局部特征,但仅通过多层感知机获取像素的全局信息,而忽略了像素之间的位置关系。
PointFusion采用直接融合RGB特征和深度特征,获得全局特征图,进而基于全局特征回归得到物体的位姿。由于是基于全局特征回归得到位姿,当物体存在遮挡时,被遮挡部分将直接影响识别精度。DenseFusion采用逐像素密集融合的方法,通过每个融合的像素特征分别回归得到位姿,再通过投票得到置信度最高的位姿。然而DenseFusion主要关注的是局部特征,和通过多层感知机获取的全局特征,但没有利用到像素之间的位置关系。
发明内容
本申请实施例提供了一种弱纹理物体位姿估计方法,通过逐像素融合物体像素之间的位置关系,进一步丰富每个像素特征的信息,同时考虑每个像素中不同特征对于识别任务的贡献,进而提高每个像素的识别精度。
有鉴于此,本申请第一方面提供了一种物体姿态估计的方法,所述方法包括:
对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸;
根据所述掩摸获取物体对应的图像块和深度信息,并通过相机的内参数矩阵,将所述深度信息转换为点云数据;
提取所述图像块的特征信息,得到物体的彩色嵌入特征图;
提取所述点云数据的特征信息,得到物体的几何嵌入特征图;
将所述彩色嵌入特征图与所述几何嵌入特征图进行通道叠加,得到第一叠加特征图;
将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图,所述自注意力机制模块用于获取像素间的位置关系;
将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加,得到第二叠加特征图;
将所述第二叠加特征图输入通道注意力机制模块,得到三个特征图的权重向量,所述通道注意力机制模块用于获取通道的全局特征,并学习通道之间的非线性关系;
将三个特征图的权重向量分别与对应的所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图相乘;
将与权重相乘后的所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图进行逐像素融合,得到融合特征图;
将所述融合特征图输入位姿预测器中,得到每个像素预测的位姿和置信度,选择所述置信度最高的像素预测结果作为最终预测的结果。
可选的,所述将彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸,包括:
采用Mask RCNN对深度图像进行实例分割,获取深度图像中每个物体的类别和掩摸。
可选的,所述将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图,包括:
将所述第一叠加特征图[C,H,W]分别通过3个1x1的卷积层θ,φ,g,得到特征图Fθ,Fφ,Fg,大小均为[C/2,H,W];
将特征图Fθ,Fφ,Fg分别重构成大小为[HW,C/2],[C/2,HW],[HW,C/2]的特征图;
将重构后的特征图Fθ和Fφ进行矩阵相乘,再进行Softmax操作,得到大小为[HW,HW]的特征图;
将特征图[HW,HW]与重构后的特征图Fg进行矩阵相乘,并将矩阵相乘后的结果重构成大小为[C/2,H,W]的特征图;
将重构后的大小为[C/2,H,W]的特征图通过1x1的卷积层得到大小为[C,H,W]的特征图;
将大小为[C,H,W]的特征图与所述第一叠加特征图进行逐像素相加得到所述位置依赖特征图,大小为[C,H,W]。
可选的,所述自注意力机制模块用于获取像素间的位置关系,具体公式为:
Figure BDA0003097205040000031
式中,x为输入,y为输出;i,j为像素的位置索引;C(x)为归一化因子;函数f用于计算位置i和j之间的相似性,从而获取像素之间的依赖关系。
可选的,在所述将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加,得到第二叠加特征图,之前还包括:
将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图调整为通道数相同的特征图,通道数取三个特征图通道数的中位数。
从以上技术方案可以看出,本申请具有以下优点:
本申请中,提供了一种弱纹理物体位姿估计方法,包括:对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸;根据掩摸获取物体对应的图像块和深度信息,并通过相机的内参数矩阵,将深度信息转换为点云数据;提取图像块的特征信息,得到物体的彩色嵌入特征图;提取点云数据的特征信息,得到物体的几何嵌入特征图;将彩色嵌入特征图与几何嵌入特征图进行通道叠加,得到第一叠加特征图;将第一叠加特征图输入自注意力机制模块得到位置依赖特征图,自注意力机制模块用于获取像素间的位置关系;将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加,得到第二叠加特征图;将第二叠加特征图输入通道注意力机制模块,得到三个特征图的权重向量,通道注意力机制模块用于获取通道的全局特征,并学习通道之间的非线性关系;将三个特征图的权重向量分别与对应的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图相乘;将与权重相乘后的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图进行逐像素融合,得到融合特征图;将融合特征图输入位姿预测器中,得到每个像素预测的位姿和置信度,选择置信度最高的像素预测结果作为最终预测的结果。
本申请提出了一种弱纹理物体位姿估计方法,通过自注意力机制获取像素间的位置关系,得到位置依赖特征图,以丰富每个像素的特征信息;通过通道注意力机制获取不同通道的权重,以衡量不同特征图的贡献。将三个特征图以不同的权重进行逐像素融合,进而利用每个像素预测目标对象的位姿,以提高位姿估计的精度。
附图说明
图1为本申请一种弱纹理物体位姿估计方法的一个实施例的方法流程图;
图2为本申请一种弱纹理物体位姿估计方法的另一个实施例的方法流程图;
图3为本申请实施例中自注意力机制模块的示意图;
图4为本申请实施例中将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加的示意图;
图5为本申请实施例中通道注意力机制模块的示意图;
图6为本申请实施例中位姿预测器的网络结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一种弱纹理物体位姿估计方法的一个实施例的方法流程图,如图1所示,图1中包括:
101、对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸;
需要说明的是,本申请可以采用Mask RCNN对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸。实例分割是指机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记,从而可以获取彩色图像中的各物体的类别以及掩摸。
102、根据掩摸获取物体对应的图像块和深度信息,并通过相机的内参,将深度信息转换为点云数据;
需要说明的是,根据掩摸可以从彩色图像中获取物体掩摸部分的图像块,从深度图像中可以获取物体的深度信息,结合深度相机的内参数矩阵,可以将深度信息转换成点云图。
103、提取图像块的特征信息,得到物体的彩色嵌入特征图;
需要说明的是,可以将图像块输入到编码器-解码器结构(Encoder-Decoder)的PPM模块(Pyramid Pooling Module)中,通过PPM模块将彩色图像映射到嵌入空间,即将高维的图像数据映射到低维空间中,以方便处理和计算,得到彩色嵌入特征图。
104、提取点云数据的特征信息,得到物体的几何嵌入特征图;
需要说明的是,可以将点云数据输入至PointNet中,利用PointNet的网络结构将点云数据映射到低维的嵌入空间中,以方便处理和计算,以获取物体的几何嵌入特征图。
105、将彩色嵌入特征图与几何嵌入特征图进行通道叠加,得到第一叠加特征图;
需要说明的是,可以将彩色嵌入特征图与所述几何嵌入特征图进行通道叠加,得到第一叠加特征图;例如,当得到的彩色嵌入特征图的大小为[C1,H,W],几何嵌入特征图的大小为[C2,H,W],则通道叠加后得到的第一叠加特征图的大小为:[C1+C2,H,W]。
106、将第一叠加特征图输入自注意力机制模块得到位置依赖特征图,自注意力机制模块用于获取像素间的位置关系;
需要说明的是,自注意力机制模块是将输入的特征图假设为[C,H,W],分别通过三个1x1的卷积层θ,φ,g,得到三个大小均为[C/2,H,W]特征图Fθ,Fφ,Fg;然后分别重构成大小为[HW,C/2]、[C/2,HW]、[HW,C/2]的特征图,将重构后的特征图Fθ,Fφ进行矩阵相乘,然后进行Softmax操作,得到大小为[HW,HW]的特征图;再将大小为[HW,HW]的特征图与重构后的特征图Fg进行矩阵相乘,并将结果重构成[C/2,H,W],然后通过1x1的卷积层得到大小为[C,H,W]的特征图;最后将得到的大小为[C,H,W]特征图与原始输入的第一叠加特征图进行逐像素相加,得到位置依赖特征图,大小为[C,H,W],具体的,自注意力机制模块的示意图可以参考如图3所示。
上述自注意力机制模块的处理过程是计算每个像素与其他像素的相似性,建立每个像素与其他像素的依赖关系,即:
Figure BDA0003097205040000061
其中,x为输入,y为输出;i,j为像素的位置索引,函数f用于计算位置i和j之间的相似性,从而获取像素之间的依赖关系,C为归一化因子,定义为:
Figure BDA0003097205040000062
相似性函数f在此采用嵌入空间下的高斯函数,定义如下:
Figure BDA0003097205040000063
其中,θ(xi)=Wθxi,φ(xj)=Wφxj,具体可以实现为1x1卷积。
根据:
Figure BDA0003097205040000064
即相当于在j维度求Softmax。
因此,可以通过将求解过程转换成矩阵相乘再求Softmax的方式来捕获位置依赖特征图,具体如图3所示。
Figure BDA0003097205040000065
107、将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加,得到第二叠加特征图;
需要说明的是,可以将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图按通道进行叠加,得到第二叠加特征图。具体的可以参考图4,例如,当彩色嵌入特征图为[C1,H,W],几何嵌入特征图为[C2,H,W],位置依赖特征图为[C3,H,W]时,首先将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图分别通过1x1卷积得到三个大小均为[C,H,W]的特征图F’rgb,F’geo,F’atten,然后将卷积得到的三个特征图按通道叠加,获得通道数为3C的特征图,即特征图的大小为[3C,H,W]。
108、将第二叠加特征图输入通道注意力机制模块,得到三个特征图的权重向量,通道注意力机制模块用于获取通道的全局特征,并学习通道之间的非线性关系;
需要说明的是,可以将第二叠加特征图输入通道注意力机制模块,通过挤压操作获取通道的全局特征,再对全局特征进行提取操作,学习通道之间的非线性关系,进而获取第二叠加特征图所有通道的权重,假设步骤107得到的第二叠加特征图的大小为[3C,H,W],那么通过通道注意力机制模块获取的权重数量是3C,每个通道对应一个权重。然后根据步骤107中三个特征图叠加的顺序,将权重分为三个权重向量wrgb,wgeo,watten,分别对应三个特征图的权重。其中,通道注意力机制模块用于获取通道的全局特征,并学习通道之间的非线性关系,在此利用通道注意力机制获取不同特征图的权重,以衡量三种特征图对于位姿估计任务的贡献。由于不同特征图对于网络的识别有不同的贡献,因此,可以通过通道注意力机制模块有选择性的强调三个特征图中有用的特征,抑制无用的特征,以提高网络的精度,具体的通道注意力机制模块处理过程的示意图可以参考图5,图中将输入的特征图通过平均池化进行压缩操作,以获取全局上下文信息,进而通过全连接层捕获通道之间的非线性关系,从而获取通道的权重。
109、将三个通道的权重向量分别与对应的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图相乘;
需要说明的是,可以将求得的三个权重向量wrgb,wgeo,watten分别与步骤107中经过卷积处理得到的彩色嵌入特征图F’rgb、几何嵌入特征图F’geo和位置依赖特征图F’atten相乘,即wrgbF’rgb,wgeoF’geo,wattenF’atten
110、将与权重相乘后的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图进行逐像素融合,得到融合特征图;
需要说明的是,可以将与权重相乘后的彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图进行逐像素融合,得到融合特征图,具体的融合方法是按通道进行叠加。例如,假设经过步骤107中的卷积处理得到的彩色嵌入特征图F’rgb、几何嵌入特征图F’geo和位置依赖特征图F’atten的大小均为[C,H,W],则融合特征图的大小为:[3C,H,W]。
111、将融合特征图输入位姿预测器中,得到每个像素预测的位姿和置信度,选择置信度最高的像素预测结果作为最终预测的结果。
需要说明的是,将融合特征图输入位姿预测器中,通过位姿预测器可以得到融合特征图中每个像素预测的位姿和置信度,可以选择置信度最高的像素预测结果作为最终预测的结果。具体的,位姿预测器可以是四层的卷积神经网络,其结构示意图可参考图6。
本申请提出了一种弱纹理物体的位姿估计方法,通过自注意力机制获取像素间的位置关系,得到位置依赖特征图,以丰富每个像素的特征信息;通过通道注意力机制获取不同特征图的权重向量,以衡量不同特征图的贡献。将三个特征图以不同的权重进行逐像素融合,进而利用每个像素预测目标对象的位姿,以提高位姿估计的精度。
本申请还提供了一种弱纹理物体位姿估计方法的另一个实施例的方法流程图,如图2所示,图2中在实施例1中的步骤107之前还包括:
207、将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图调整为通道数相同的特征图,通道数取三个特征图通道数的中位数。
需要说明的是,本申请中为了方便计算,可以将彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图调整为通道数相同的特征图,然后将三个特征图按通道进行叠加,例如,若得到的三个彩色嵌入特征图、几何嵌入特征图以及位置依赖特征图,大小均为[C,H,W],叠加后的特征图大小为[3C,H,W]。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (5)

1.一种弱纹理物体位姿估计方法,其特征在于,包括:
对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸;
根据所述掩摸获取物体对应的图像块和深度信息,并通过相机的内参数矩阵,将所述深度信息转换为点云数据;
提取所述图像块的特征信息,得到物体的彩色嵌入特征图;
提取所述点云数据的特征信息,得到物体的几何嵌入特征图;
将所述彩色嵌入特征图与所述几何嵌入特征图进行通道叠加,得到第一叠加特征图;
将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图,所述自注意力机制模块用于获取像素间的位置关系;
将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加,得到第二叠加特征图;
将所述第二叠加特征图输入通道注意力机制模块,得到三个特征图的权重向量,所述通道注意力机制模块用于获取通道的全局特征,并学习通道之间的非线性关系;
将三个特征图的权重向量分别与对应的所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图相乘;
将与权重相乘后的所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图进行逐像素融合,得到融合特征图;
将所述融合特征图输入位姿预测器中,得到每个像素预测的位姿和置信度,选择所述置信度最高的像素预测结果作为最终预测的结果。
2.根据权利要求1所述的弱纹理物体位姿估计方法,其特征在于,所述对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸,包括:
采用Mask RCNN对彩色图像进行实例分割,获取彩色图像中每个物体的类别和掩摸。
3.根据权利要求1所述的弱纹理物体位姿估计方法,其特征在于,所述将所述第一叠加特征图输入自注意力机制模块得到位置依赖特征图,包括:
将所述第一叠加特征图[C,H,W]分别通过3个1x1的卷积层θ,φ,g,得到特征图Fθ,Fφ,Fg,大小均为[C/2,H,W];
将特征图Fθ,Fφ,Fg分别重构成大小为[HW,C/2],[C/2,HW],[HW,C/2]的特征图;
将重构后的特征图Fθ和Fφ进行矩阵相乘,再进行Softmax操作,得到大小为[HW,HW]的特征图;
将特征图[HW,HW]与重构后的特征图Fg进行矩阵相乘,并将矩阵相乘后的结果重构成大小为[C/2,H,W]的特征图;
将重构后的大小为[C/2,H,W]的特征图通过1x1的卷积层得到大小为[C,H,W]的特征图;
将大小为[C,H,W]的特征图与所述第一叠加特征图进行逐像素相加得到所述位置依赖特征图,大小为[C,H,W]。
4.根据权利要求1所述的弱纹理物体位姿估计方法,其特征在于,所述自注意力机制模块用于获取像素间的位置关系,具体公式为:
Figure FDA0003097205030000021
式中,x为输入,y为输出;i,j为像素的位置索引;C(x)为归一化因子;函数f用于计算位置i和j之间的相似性,从而获取像素之间的依赖关系。
5.根据权利要求1所述的弱纹理物体位姿估计方法,其特征在于,在所述将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图按通道进行叠加,得到第二叠加特征图,之前还包括:
将所述彩色嵌入特征图、所述几何嵌入特征图以及所述位置依赖特征图调整为通道数相同的特征图,通道数取三个特征图通道数的中位数。
CN202110615380.XA 2021-06-02 2021-06-02 一种弱纹理物体位姿估计方法 Active CN113223181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110615380.XA CN113223181B (zh) 2021-06-02 2021-06-02 一种弱纹理物体位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110615380.XA CN113223181B (zh) 2021-06-02 2021-06-02 一种弱纹理物体位姿估计方法

Publications (2)

Publication Number Publication Date
CN113223181A true CN113223181A (zh) 2021-08-06
CN113223181B CN113223181B (zh) 2022-12-23

Family

ID=77082421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110615380.XA Active CN113223181B (zh) 2021-06-02 2021-06-02 一种弱纹理物体位姿估计方法

Country Status (1)

Country Link
CN (1) CN113223181B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820792A (zh) * 2022-04-29 2022-07-29 西安理工大学 一种基于混合注意力的相机定位方法
CN117408304A (zh) * 2023-12-14 2024-01-16 江苏未来网络集团有限公司 6d姿态预测神经网络模型及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753903A (zh) * 2019-02-27 2019-05-14 北航(四川)西部国际创新港科技有限公司 一种基于深度学习的无人机检测方法
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111274999A (zh) * 2020-02-17 2020-06-12 北京迈格威科技有限公司 数据处理、图像处理方法、装置及电子设备
CN111652081A (zh) * 2020-05-13 2020-09-11 电子科技大学 一种基于光流特征融合的视频语义分割方法
US20200294266A1 (en) * 2019-03-12 2020-09-17 Volvo Car Corporation Tool and method for annotating a human pose in 3d point cloud data
US20200357143A1 (en) * 2019-05-09 2020-11-12 Sri International Semantically-aware image-based visual localization
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法
CN112580782A (zh) * 2020-12-14 2021-03-30 华东理工大学 基于通道增强的双注意力生成对抗网络及图像生成方法
CN112651423A (zh) * 2020-11-30 2021-04-13 深圳先进技术研究院 一种智能视觉系统
CN112819876A (zh) * 2021-02-13 2021-05-18 西北工业大学 一种基于深度学习的单目视觉深度估计方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753903A (zh) * 2019-02-27 2019-05-14 北航(四川)西部国际创新港科技有限公司 一种基于深度学习的无人机检测方法
US20200294266A1 (en) * 2019-03-12 2020-09-17 Volvo Car Corporation Tool and method for annotating a human pose in 3d point cloud data
US20200357143A1 (en) * 2019-05-09 2020-11-12 Sri International Semantically-aware image-based visual localization
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111274999A (zh) * 2020-02-17 2020-06-12 北京迈格威科技有限公司 数据处理、图像处理方法、装置及电子设备
CN111652081A (zh) * 2020-05-13 2020-09-11 电子科技大学 一种基于光流特征融合的视频语义分割方法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法
CN112651423A (zh) * 2020-11-30 2021-04-13 深圳先进技术研究院 一种智能视觉系统
CN112580782A (zh) * 2020-12-14 2021-03-30 华东理工大学 基于通道增强的双注意力生成对抗网络及图像生成方法
CN112819876A (zh) * 2021-02-13 2021-05-18 西北工业大学 一种基于深度学习的单目视觉深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DU G ET AL: "Vision-based robotic grasping from object localization, object pose estimation to grasp estimation for parallel grippers: a review", 《ARTIFICIAL INTELLIGENCE REVIEW》 *
MYOUNGHA SONG ET AL: "PAM:Point-wise Attention Module for 6D Object Pose Estimation", 《ARXIV:2008.05242V1》 *
黄榕彬: "基于位置依赖的密集融合的6D 位姿估计方法", 《现代信息科技》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820792A (zh) * 2022-04-29 2022-07-29 西安理工大学 一种基于混合注意力的相机定位方法
CN117408304A (zh) * 2023-12-14 2024-01-16 江苏未来网络集团有限公司 6d姿态预测神经网络模型及方法
CN117408304B (zh) * 2023-12-14 2024-02-27 江苏未来网络集团有限公司 6d姿态预测神经网络模型系统及方法

Also Published As

Publication number Publication date
CN113223181B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
Fan et al. Learning collision-free space detection from stereo images: Homography matrix brings better data augmentation
Chang et al. A forgery detection algorithm for exemplar-based inpainting images using multi-region relation
CN113223181B (zh) 一种弱纹理物体位姿估计方法
Jahanshahi et al. Parametric performance evaluation of wavelet-based corrosion detection algorithms for condition assessment of civil infrastructure systems
CN109523506B (zh) 基于视觉显著图像特征增强的全参考立体图像质量客观评价方法
CN108765479A (zh) 利用深度学习对视频序列中单目视图深度估计优化方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN102903071B (zh) 水印添加方法及系统、水印识别方法及系统
Chen et al. SNIS: A signal noise separation-based network for post-processed image forgery detection
US11615612B2 (en) Systems and methods for image feature extraction
CN112785480B (zh) 基于频域变换和残差反馈模块的图像拼接篡改检测方法
CN112070733A (zh) 基于弱监督模式的缺陷粗定位方法和装置
CN104408728A (zh) 一种基于噪声估计的伪造图像检测方法
Sharma et al. Comprehensive analyses of image forgery detection methods from traditional to deep learning approaches: an evaluation
Zhang et al. Improved Fully Convolutional Network for Digital Image Region Forgery Detection.
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
Hou et al. Detection of hue modification using photo response nonuniformity
CN103544703A (zh) 数字图像拼接检测方法
Tsai et al. Using decision fusion of feature selection in digital forensics for camera source model identification
CN110570402A (zh) 基于边界感知神经网络的双目显著物体检测方法
CN114972378A (zh) 一种基于掩码注意力机制的脑肿瘤mri图像分割方法
Mazumdar et al. Two-stream encoder–decoder network for localizing image forgeries
CN111814543B (zh) 深度视频对象修复篡改检测方法
CN115063813A (zh) 针对文字失真的对齐模型的训练方法及训练装置
Neenu et al. Image forgery detection based on illumination inconsistencies & intrinsic resampling properties

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant