CN113269830B - 基于几何约束协同注意力网络的6d位姿估计方法和装置 - Google Patents

基于几何约束协同注意力网络的6d位姿估计方法和装置 Download PDF

Info

Publication number
CN113269830B
CN113269830B CN202110535277.4A CN202110535277A CN113269830B CN 113269830 B CN113269830 B CN 113269830B CN 202110535277 A CN202110535277 A CN 202110535277A CN 113269830 B CN113269830 B CN 113269830B
Authority
CN
China
Prior art keywords
point
features
scene
sampling
geometric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110535277.4A
Other languages
English (en)
Other versions
CN113269830A (zh
Inventor
文永明
方译权
成慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110535277.4A priority Critical patent/CN113269830B/zh
Publication of CN113269830A publication Critical patent/CN113269830A/zh
Application granted granted Critical
Publication of CN113269830B publication Critical patent/CN113269830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于几何约束协同注意力网络的6D位姿估计方法和装置,方法包括:从场景图像中提取第一图像块和第二图像块;从第一图像块中提取第一稠密特征,以及从第二图像块中提取第二稠密特征;对第一稠密特征进行采样处理得到第一采样特征,并对第二稠密特征进行采样处理得到第二采样特征;将第一采样特征和第二采样特征进行连接,得到场景全局特征;确定模型几何特征;根据场景全局特征和模型几何特征,确定协同注意力响应图;根据协同注意力响应图确定总体多模态特征;将总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿。本发明能够提高位姿估计的性能,可广泛应用于机器人视觉技术领域。

Description

基于几何约束协同注意力网络的6D位姿估计方法和装置
技术领域
本发明涉及机器人视觉技术领域,尤其是基于几何约束协同注意力网络的6D位姿估计方法和装置。
背景技术
在位姿估计的过程中,经典方法对从RGB-D数据中提取的手工特征进行相应的分组和假设验证,这些特征很容易受到遮挡和照明变化的影响。随着深度学习的最新发展,许多新方法使用神经网络对RGB-D数据中的特征进行编码,并直接对姿势进行分类或回归。
注意机制广泛用于视觉问题解答,检测,语义分割,实例抓取等。注意机制有很多变体,其中协同注意力机制非常流行。协同注意机制使网络可以专注于多个输入中最相关的区域,并且共同注意图可以描述多个输入之间的关系。
目前基于RGBD的物体位姿估计方法的达到了较好的性能,但是大多数这些方法仅使用场景的RGB-D图像,并且通过相应的真实的姿态隐式告知网络中物体模型的3D形状应该是什么。即上述技术没有显式地使用物体模型先验中的重要信息,这些物体模型先验信息通常可用于位姿估计的基准数据集,并且很容易在工业界里通过3D扫描仪快速获得。而需要说明的是,6D是指三维旋转和三维平移。
发明内容
有鉴于此,本发明实施例提供基于几何约束协同注意力网络的6D位姿估计方法和装置,以提高位姿估计的性能。
本发明的一方面提供了一种基于几何约束协同注意力网络的6D位姿估计方法,包括:
从场景图像中提取第一图像块和第二图像块;
从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;
对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;
将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;
确定模型几何特征;
根据场景几何特征和所述模型几何特征,确定协同注意力响应图;
根据所述协同注意力响应图确定总体多模态特征;
将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿。
可选地,所述从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征,包括:
通过卷积神经网络从所述第一图像块中提取第一稠密特征;
通过三维点云网络从所述第二图像块中提取第二稠密特征。
可选地,所述将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征,包括:
对所述第一图像块和所述第二图像块进行裁剪处理,得到裁剪后的图像块;
确定所述第一采样特征和所述第二采样特征进行连接后得到的连接结果;
根据多层感知器和最大池化函数,对所述连接结果进行处理,得到所述裁剪后的图像块的场景全局特征。
可选地,所述确定模型几何特征,包括:
采用最远点采样算法进行特征采样,得到模型几何特征;
根据所述模型几何特征,通过多层感知器和最大池化函数,生成模型全局特征。
可选地,所述方法还包括构建所述协同注意力响应图的几何约束条件的步骤,该步骤包括:
通过真实姿态将场景点云中的点转换为对象模型的点云所在的标准姿态中;
计算转换后的点与对象模型中所有点之间的距离;
计算转换后的点的法线与对象模型中的点的法线之间的角度;
根据所述距离和角度,计算权重;
根据所述权重计算几何约束的损失;
根据所述几何约束的损失进行引导,训练协同注意力模块。
可选地,所述根据场景几何特征和所述模型几何特征,确定协同注意力响应图,包括:
在每个位置计算场景几何特征和模型几何特征之间的点积;
根据所述点积,将softmax函数应用于相关图的每一列中,计算得到协同注意力响应图。
可选地,所述将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿,包括:
根据真实位姿与预测位姿转换在同一模型上的最近对应点的距离,确定6D位姿估计损失;
根据自监督置信度和所述6D位姿估计损失,计算总损失函数;
根据所述总损失函数,训练得到位姿估计网络;
根据所述位姿估计网络,预测得到对象的6D位姿。
本发明实施例的另一方面提供了一种基于几何约束协同注意力网络的6D位姿估计装置,包括:
第一模块,用于从场景图像中提取第一图像块和第二图像块;
第二模块,用于从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;
第三模块,用于对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;
第四模块,用于将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;
第五模块,用于确定模型几何特征;
第六模块,用于根据场景几何特征和所述模型几何特征,确定协同注意力响应图;
第七模块,用于根据所述协同注意力响应图确定总体多模态特征;
第八模块,用于将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例从场景图像中提取第一图像块和第二图像块;从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;确定模型几何特征;根据场景几何特征和所述模型几何特征,确定协同注意力响应图;根据所述协同注意力响应图确定总体多模态特征;将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿。本发明能够提高位姿估计的性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的整体步骤示意
图2为本发明实施例提供的几何约束损失的计算过程示意图;
图3为本发明实施例提供的几何约束的一个实例的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例提供了一种基于几何约束协同注意力网络的6D位姿估计方法,包括:
从场景图像中提取第一图像块和第二图像块;
从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;
对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;
将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;
确定模型几何特征;
根据场景几何特征和所述模型几何特征,确定协同注意力响应图;
根据所述协同注意力响应图确定总体多模态特征;
将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿。
可选地,所述从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征,包括:
通过卷积神经网络从所述第一图像块中提取第一稠密特征;
通过三维点云网络从所述第二图像块中提取第二稠密特征。
可选地,所述将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征,包括:
对所述第一图像块和所述第二图像块进行裁剪处理,得到裁剪后的图像块;
确定所述第一采样特征和所述第二采样特征进行连接后得到的连接结果;
根据多层感知器和最大池化函数,对所述连接结果进行处理,得到所述裁剪后的图像块的场景全局特征。
可选地,所述确定模型几何特征,包括:
采用最远点采样算法进行特征采样,得到模型几何特征;
根据所述模型几何特征,通过多层感知器和最大池化函数,生成模型全局特征。
可选地,所述方法还包括构建所述协同注意力响应图的几何约束条件的步骤,该步骤包括:
通过真实姿态将场景点云中的点转换为对象模型的点云所在的标准姿态中;
计算转换后的点与对象模型中所有点之间的距离;
计算转换后的点的法线与对象模型中的点的法线之间的角度;
根据所述距离和角度,计算权重;
根据所述权重计算几何约束的损失;
根据所述几何约束的损失进行引导,训练协同注意力模块。
可选地,所述根据场景几何特征和所述模型几何特征,确定协同注意力响应图,包括:
在每个位置计算场景几何特征和模型几何特征之间的点积;
根据所述点积,将softmax函数应用于相关图的每一列中,计算得到协同注意力响应图。
可选地,所述将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿,包括:
根据真实位姿与预测位姿转换在同一模型上的最近对应点的距离,确定6D位姿估计损失;
根据自监督置信度和所述6D位姿估计损失,计算总损失函数;
根据所述总损失函数,训练得到位姿估计网络;
根据所述位姿估计网络,预测得到对象的6D位姿。
本发明实施例还提供了一种基于几何约束协同注意力网络的6D位姿估计装置,包括:
第一模块,用于从场景图像中提取第一图像块和第二图像块;
第二模块,用于从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;
第三模块,用于对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;
第四模块,用于将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;
第五模块,用于确定模型几何特征;
第六模块,用于根据场景几何特征和所述模型几何特征,确定协同注意力响应图;
第七模块,用于根据所述协同注意力响应图确定总体多模态特征;
第八模块,用于将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面结合说明书附图,对本申请的具体实现方法进行详细描述:
如图1所示,图1是本发明的整体框架结构,本发明提供了基于几何约束的协同注意力机制的6D位姿估计方法,其中6D指的是六自由度包括三维的旋转和三维的平移。
1)特征提取:
要从场景图像中定位目标对象,使用语义分割模型从场景图像RGB-D(其中,RGB-D可从深度相机获取而来)中提取一对仅包含对象的图像块Irgb和Id。然后,本发明使用CNNφs(·)和PointNetψs(·)分别从Irgb场景中提取稠密的第一稠密特征,并从使用相机内参与Id生成的点云中提取稠密的第二稠密特征。为了保持不同场景和对象的一致性,本发明随机采样用于下游模块的N个特征对,这些采样后的特征对被表示为ψs(Id)和φs(Irgb)。为了获得场景全局特征,本发明将场景颜色和几何特征连接起来,并使用多层感知器(MLP,一种人工神经网络,能够提取相关的特征)和最大池化函数来生成裁剪后的RGB-D图像块的场景全局特征,并重复N次以获取ζ(ψs(Id),φs(Irgb))。同样,本发明使用PointNetψm(·)从模型点云Pm中提取特征,并使用最远点采样算法分别对N个特征进行采样,以获得模型几何特征ψm(Pm)。为了获得模型的全局特征描述符(需要说明的是,模型的全局特征描述符,与场景全局特征描述符的区别在于提取到的特征的数据源不同,场景全局特征描述符来自于场景信息,模型的全局特征描述符来自于模型信息),本发明还使用MLP和最大池化函数来生成对象模型先验的模型全局特征,表示为Fm
2)协同注意力:
首先,使用点向特征提取模块中的场景几何特征ψs(Id)和对象模型几何特征ψm(Pm),本发明在每个对应位置计算两个几何特征之间的点积,以获得相关图E如下:
E=ψm(Pm)·ψs(Id)T
接着,将softmax应用于相关图的每一列,获得协同注意力响应图A(需要说明的是,本发明的协同注意力响应图用于描述场景几何特征与模型几何特征的相似性):
Figure GDA0003974541030000071
其中,A中的每一列都可以视为概率密度,而Aij衡量第i个场景几何特征与第j个模型几何特征之间的相似度。
为了提供清晰的信息来指导共同注意模块的训练,本发明引入了明确的几何约束条件来指示协同注意图应满足的几何约束,图2展示了几何约束是怎样被引入的,具体地:
第一步:本发明通过真实姿态将场景点云中的点转换为模型点云所在的标准姿态中。
第二步:计算转换后的点
Figure GDA0003974541030000072
与模型中所有点之间的距离d。计算变换后的点的法线与对象模型中的点的法线之间的角度θ,如图3所示。
具体计算公式为:
Figure GDA0003974541030000073
Figure GDA0003974541030000074
其中,
Figure GDA0003974541030000075
为场景点云中的第i点,
Figure GDA0003974541030000076
为模型点云中的第j点,
Figure GDA0003974541030000077
为第i点的法向量
Figure GDA0003974541030000078
的向量模,而
Figure GDA0003974541030000079
为第j点的法向量
Figure GDA00039745410300000710
的向量模。
第三步:计算权重w,将本发明设计的函数f(·)应用到d和θ,计算公式如下:
Figure GDA00039745410300000711
其中α和β为实验调整的正参数。
最后,几何约束的损失
Figure GDA00039745410300000712
计算如下:
Figure GDA00039745410300000713
通过几何约束的损失
Figure GDA00039745410300000714
进行引导,训练协同注意力模块。多模态拼接方式是,先将上述提到的特征ψs(Id)、φs(Irgb)和ζ(ψs(Id),φs(Irgb))进行拼接得到场景多模态特征Fs,再将Fs、A以及Fm进行拼接得到总体多模态特征F。
3)六自由度位姿估计:
再将总体多模态特征F投入使用位姿估计网络中预测物体的6D位姿。
6D位姿估计损失是真实位姿与预测位姿转换的同一模型上的最近对应点的距离:
Figure GDA0003974541030000081
其中,xj表示从物体的物体模型中随机采样的N个点的第j个点,p=[R*,t*]代表地面真实位姿,pi=[Ri,ti]代表从第i个点生成的预测位姿。而对于对称物体,6D位姿估计损失损失函数为:
Figure GDA0003974541030000082
为了能选择出最佳的预测位姿,网络除了输出估计的位姿之外,对于每一个像素点,还添加了自监督置信度c。将
Figure GDA0003974541030000083
乘以相应的置信度ci并求和,数学表达式为:
Figure GDA0003974541030000084
最终,总损失函数为:
Figure GDA0003974541030000085
其中,λ1和λ2是网络训练的超参数。
综上所述,相较于现有技术,本发明提出一种有效的方法来明确介绍对象的先验知识(即对象模型点云)以估计6D对象姿势。并且提出了一种新颖的方法来事先提取场景中的点与对象模型之间的对应关系,它提供了清晰的信息来指导共同注意模块的训练。可以有效地消除在网络之前直接引入物体模型的副作用,从而取得显着的改进。
相较于现有技术,本发明在位姿估计任务中使用协同注意力机制显式的引入了物理几何约束信息。本发明还利用几何约束信息,开发了一种新的几何约束损失来指导网络训练,保持了物体模型点云和场景点云之间的显式约束。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.基于几何约束协同注意力网络的6D位姿估计方法,其特征在于,包括:
从场景图像中提取第一图像块和第二图像块;
从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;
对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;
将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;
确定模型几何特征;
根据场景几何特征和所述模型几何特征,确定协同注意力响应图;
根据所述协同注意力响应图确定总体多模态特征;
将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿;
所述将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征,包括:
对所述第一图像块和所述第二图像块进行裁剪处理,得到裁剪后的图像块;
确定所述第一采样特征和所述第二采样特征进行连接后得到的连接结果;
根据多层感知器和最大池化函数,对所述连接结果进行处理,得到所述裁剪后的图像块的场景全局特征;
所述确定模型几何特征,包括:
采用最远点采样算法进行特征采样,得到模型几何特征;
根据所述模型几何特征,通过多层感知器和最大池化函数,生成模型全局特征;
所述方法还包括构建所述协同注意力响应图的几何约束条件的步骤,该步骤包括:
通过真实姿态将场景点云中的点转换为对象模型的点云所在的标准姿态中;
计算转换后的点与对象模型中所有点之间的距离为:
Figure FDA0003974541020000011
计算转换后的点的法线与对象模型中的点的法线之间的角度为:
Figure FDA0003974541020000012
根据所述距离和角度,计算权重为:
Figure FDA0003974541020000013
根据所述权重计算几何约束的损失为:
Figure FDA0003974541020000021
根据所述几何约束的损失进行引导,训练协同注意力模块;
其中,
Figure FDA0003974541020000022
为转换后的场景点云中的第i点,
Figure FDA0003974541020000023
为对象模型点云中的第j点,di,j为转换后的场景点云中的第i点与对象模型点云中的第j点之间的距离,
Figure FDA0003974541020000024
为转换后的场景点云中的第i点的法向量,
Figure FDA0003974541020000025
代表法向量
Figure FDA0003974541020000026
的向量模,
Figure FDA0003974541020000027
为对象模型点云中的第j点的法向量,
Figure FDA0003974541020000028
为法向量
Figure FDA0003974541020000029
的向量模,θi,j为转换后的场景点云中的第i点的法线与对象模型点云中的第j点的法线之间的角度,wi,j为转换后的场景点云中的第i点与对象模型点云中的第j点之间的权重,α和β为实验调整的正参数,
Figure FDA00039745410200000210
为几何约束的损失,Ai,j为转换后的场景点云中的第i点所对应的场景几何特征与对象模型点云中的第j点所对应的模型几何特征之间的相似度,N为随机采样的点数量。
2.根据权利要求1所述的基于几何约束协同注意力网络的6D位姿估计方法,其特征在于,所述从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征,包括:
通过卷积神经网络从所述第一图像块中提取第一稠密特征;
通过三维点云网络从所述第二图像块中提取第二稠密特征。
3.根据权利要求1所述的基于几何约束协同注意力网络的6D位姿估计方法,其特征在于,所述根据场景几何特征和所述模型几何特征,确定协同注意力响应图,包括:
在每个位置计算场景几何特征和模型几何特征之间的点积;
根据所述点积,将softmax函数应用于相关图的每一列中,计算得到协同注意力响应图。
4.根据权利要求1所述的基于几何约束协同注意力网络的6D位姿估计方法,其特征在于,所述将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿,包括:
根据真实位姿与预测位姿转换在同一模型上的最近对应点的距离,确定6D位姿估计损失;
根据自监督置信度和所述6D位姿估计损失,计算总损失函数;
根据所述总损失函数,训练得到位姿估计网络;
根据所述位姿估计网络,预测得到对象的6D位姿。
5.基于几何约束协同注意力网络的6D位姿估计装置,其特征在于,包括:
第一模块,用于从场景图像中提取第一图像块和第二图像块;
第二模块,用于从所述第一图像块中提取第一稠密特征,以及从所述第二图像块中提取第二稠密特征;
第三模块,用于对所述第一稠密特征进行采样处理得到第一采样特征,并对所述第二稠密特征进行采样处理得到第二采样特征;
第四模块,用于将所述第一采样特征和所述第二采样特征进行连接,得到场景全局特征;
第五模块,用于确定模型几何特征;
第六模块,用于根据场景几何特征和所述模型几何特征,确定协同注意力响应图;
第七模块,用于根据所述协同注意力响应图确定总体多模态特征;
第八模块,用于将所述总体多模态特征输入位姿估计网络中,预测得到对象的6D位姿;
所述第四模块的运行过程包括:
对所述第一图像块和所述第二图像块进行裁剪处理,得到裁剪后的图像块;
确定所述第一采样特征和所述第二采样特征进行连接后得到的连接结果;
根据多层感知器和最大池化函数,对所述连接结果进行处理,得到所述裁剪后的图像块的场景全局特征;
所述第五模块的运行过程包括:
采用最远点采样算法进行特征采样,得到模型几何特征;
根据所述模型几何特征,通过多层感知器和最大池化函数,生成模型全局特征;
所述装置还用于构建所述协同注意力响应图的几何约束条件,具体的运行过程为:
通过真实姿态将场景点云中的点转换为对象模型的点云所在的标准姿态中;
计算转换后的点与对象模型中所有点之间的距离为:
Figure FDA0003974541020000031
计算转换后的点的法线与对象模型中的点的法线之间的角度为:
Figure FDA0003974541020000032
根据所述距离和角度,计算权重为:
Figure FDA0003974541020000041
根据所述权重计算几何约束的损失为:
Figure FDA0003974541020000042
根据所述几何约束的损失进行引导,训练协同注意力模块;
其中,
Figure FDA0003974541020000043
为转换后的场景点云中的第i点,
Figure FDA0003974541020000044
为对象模型点云中的第j点,di,j为转换后的场景点云中的第i点与对象模型点云中的第j点之间的距离,
Figure FDA0003974541020000045
为转换后的场景点云中的第i点的法向量,
Figure FDA0003974541020000046
代表法向量
Figure FDA0003974541020000047
的向量模,
Figure FDA0003974541020000048
为对象模型点云中的第j点的法向量,
Figure FDA0003974541020000049
为法向量
Figure FDA00039745410200000410
的向量模,θi,j为转换后的场景点云中的第i点的法线与对象模型点云中的第j点的法线之间的角度,wi,j为转换后的场景点云中的第i点与对象模型点云中的第j点之间的权重,α和β为实验调整的正参数,
Figure FDA00039745410200000411
为几何约束的损失,Ai,j为转换后的场景点云中的第i点所对应的场景几何特征与对象模型点云中的第j点所对应的模型几何特征之间的相似度,N为随机采样的点数量。
6.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-4中任一项所述的方法。
CN202110535277.4A 2021-05-17 2021-05-17 基于几何约束协同注意力网络的6d位姿估计方法和装置 Active CN113269830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110535277.4A CN113269830B (zh) 2021-05-17 2021-05-17 基于几何约束协同注意力网络的6d位姿估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110535277.4A CN113269830B (zh) 2021-05-17 2021-05-17 基于几何约束协同注意力网络的6d位姿估计方法和装置

Publications (2)

Publication Number Publication Date
CN113269830A CN113269830A (zh) 2021-08-17
CN113269830B true CN113269830B (zh) 2023-04-07

Family

ID=77231243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110535277.4A Active CN113269830B (zh) 2021-05-17 2021-05-17 基于几何约束协同注意力网络的6d位姿估计方法和装置

Country Status (1)

Country Link
CN (1) CN113269830B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170304B (zh) * 2021-11-04 2023-01-03 西安理工大学 一种基于多头自注意力和置换注意力的相机定位方法
CN114663514B (zh) * 2022-05-25 2022-08-23 浙江大学计算机创新技术研究院 一种基于多模态稠密融合网络的物体6d姿态估计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885659B2 (en) * 2018-01-15 2021-01-05 Samsung Electronics Co., Ltd. Object pose estimating method and apparatus
CN111489394B (zh) * 2020-03-16 2023-04-21 华南理工大学 物体姿态估计模型训练方法、系统、装置及介质
CN112435325B (zh) * 2020-09-29 2022-06-07 北京航空航天大学 基于vi-slam和深度估计网络的无人机场景稠密重建方法
CN112562001B (zh) * 2020-12-28 2023-07-21 中山大学 一种物体6d位姿估计方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113269830A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
Islam et al. Simultaneous enhancement and super-resolution of underwater imagery for improved visual perception
US11900628B2 (en) Stereo matching method and apparatus, image processing apparatus, and training method therefor
Zhang et al. Densely connected pyramid dehazing network
Prokudin et al. Deep directional statistics: Pose estimation with uncertainty quantification
CN111652928B (zh) 三维点云中物体抓取位姿检测方法
US20230154170A1 (en) Method and apparatus with multi-modal feature fusion
CN113269830B (zh) 基于几何约束协同注意力网络的6d位姿估计方法和装置
US20170124433A1 (en) Unsupervised matching in fine-grained datasets for single-view object reconstruction
CN112991413A (zh) 自监督深度估测方法和系统
US20230080133A1 (en) 6d pose and shape estimation method
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN112562001B (zh) 一种物体6d位姿估计方法、装置、设备及介质
CN115861601B (zh) 一种多传感器融合感知方法及装置
WO2022170562A1 (zh) 一种消化内镜导航方法和系统
Keipour et al. Deformable one-dimensional object detection for routing and manipulation
O'Byrne et al. A stereo‐matching technique for recovering 3D information from underwater inspection imagery
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
CN114821404A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN114783022B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN116152334A (zh) 图像处理方法及相关设备
CN115082498A (zh) 一种机器人抓取位姿估计方法、装置、设备及存储介质
CN114926591A (zh) 多分支深度学习的3d人脸重建模型训练方法、系统及介质
Zhaole et al. A robust deformable linear object perception pipeline in 3d: From segmentation to reconstruction
CN114119999B (zh) 基于深度学习的迭代6d位姿估计方法及装置
Yuan et al. SHREC 2020 track: 6D object pose estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant