CN113780240B - 基于神经网络及旋转特征增强的物体位姿估计方法 - Google Patents

基于神经网络及旋转特征增强的物体位姿估计方法 Download PDF

Info

Publication number
CN113780240B
CN113780240B CN202111149036.2A CN202111149036A CN113780240B CN 113780240 B CN113780240 B CN 113780240B CN 202111149036 A CN202111149036 A CN 202111149036A CN 113780240 B CN113780240 B CN 113780240B
Authority
CN
China
Prior art keywords
rotation
feature
module
target
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111149036.2A
Other languages
English (en)
Other versions
CN113780240A (zh
Inventor
林巍峣
桑晗博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111149036.2A priority Critical patent/CN113780240B/zh
Publication of CN113780240A publication Critical patent/CN113780240A/zh
Application granted granted Critical
Publication of CN113780240B publication Critical patent/CN113780240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于神经网络及旋转特征增强的物体位姿估计方法,构建物体在不同旋转位姿下的先验旋转特征库,针对单目相机采集到的二维视觉图像,通过目标检测得到图像的物体类别、分割区域以及目标的视觉特征;将目标物体的位姿估计解耦为位移参数估计和旋转参数估计,根据图像的物体类别和分割区域,将目标的视觉特征通过位移参数估计后与先验旋转特征库进行匹配实现粗估计,再用目标的视觉特征与对应的先验旋转特征共同估计旋转残差项,实现精细定位。本发明充分利用物体天然蕴含的不同旋转姿态下的特征构建先验旋转特征库,根据输入图像中提取到的视觉特征在特征库中筛选出合适的对应的旋转特征,从粗到细的增强旋转参数估计的鲁棒性、准确性。

Description

基于神经网络及旋转特征增强的物体位姿估计方法
技术领域
本发明涉及的是一种图像识别领域的技术,具体是一种基于神经网络及旋转特征增强的物体位姿估计方法。
背景技术
现有的基于深度学习的单目相机位姿估计法大都关注于网络结构的设计,例如将位移参数和旋转参数解耦、并设计两个网络模块分别估计这两组参数,以更有效的利用提取到的特征,从而提升系统性能。但是由于从单目视觉图像估计物体位姿是病态问题,本身具有较大的模糊性,这些方法忽略了物体本身包含的先验信息、如三维几何特征,仅仅依靠对网络结构的更新升级对于效果的提升及系统的稳定性改进都有一定的局限性。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于神经网络及旋转特征增强的物体位姿估计方法,充分利用物体天然蕴含的不同旋转姿态下的特征构建先验旋转特征库,根据输入图像中提取到的视觉特征在特征库中筛选出合适的对应的旋转特征,从粗到细的增强旋转参数估计的鲁棒性、准确性。
本发明是通过以下技术方案实现的:
本发明涉及一种基于神经网络及旋转特征增强的物体位姿估计方法,构建物体在不同旋转位姿下的先验旋转特征库,针对单目相机采集到的二维视觉图像,通过目标检测得到图像的物体类别、分割区域以及目标的视觉特征;将目标物体的位姿估计解耦为位移参数估计和旋转参数估计,根据图像的物体类别和分割区域,将目标的视觉特征通过位移参数估计后与先验旋转特征库进行匹配实现粗估计,再用目标的视觉特征与对应的先验旋转特征共同估计旋转残差项,实现精细定位。
所述的先验旋转特征库中包含物体的旋转特征,其具体通过将已知物体的三维点云模型,经预设角度进行旋转后输入旋转特征提取网络得到。
所述的位移参数估计是指:对图像中分割出的目标区域内每个像素估计两组参数:指向目标二维中心的单位向量和像素的深度;随后用霍夫投票的方式选取置信度最高的像素作为目标的二维中心点,结合其深度变换到相机坐标系下的三维中心点坐标,作为位移参数。
所述的旋转参数估计是指:利用从图像中提取到的目标类别信息以及二维特征,与预先构建的先验旋转特征库中对应物体的旋转特征进行匹配,引入自注意力模块计算图像特征与旋转特征的匹配程度,从而选出最相关的旋转特征并记录其旋转参数作为基准。
技术效果
本发明通过自注意力旋转特征增强模块经预训练后对预定义旋转姿态下的物体提取旋转增强特征并以此构建先验旋转特征库,为系统中旋转参数的估计引入先验的空间特征以及位姿粗定位,再结合视觉特征从粗到细的强化旋转参数的估计准确度,使得系统能够充分利用物体自身包含的先验空间几何特性。
附图说明
图1为本发明流程图;
图2为旋转特征提取模块流程图。
具体实施方式
如图1所示,为本实施例涉及的一种基于神经网络及旋转特征增强的物体位姿估计系统,包括:特征提取模块、目标分割模块、位移参数估计模块、旋转参数估计模块、自注意力旋转特征增强模块和旋转特征提取模块,其中:特征提取模块从输入的图像中提取视觉特征,目标分割模块与特征提取模块相连并依据提取到的特征分割出目标所在区域,位移参数估计模块和旋转参数估计模块分别与目标分割模块相连并估计出目标的位姿参数,自注意力旋转特征增强模块与旋转参数估计模块相连并为其提供点云的先验旋转特征库,旋转特征提取模块与自注意力旋转特征增强模块相连作为提取点云旋转特征的模型。
如图1所示,为本实施例涉及一种基于神经网络及旋转特征增强的物体位姿估计方法,包含以下步骤:
步骤1)对物体的旋转位姿进行稀疏采样,通过预训练好的旋转特征提取模块提取采样位姿下物体的旋转特征,从而构建先验旋转特征库。
如图2所示,所述的旋转特征提取模块以三维物体点云作为输入,通过多层全连接网络提取点云中每个点的特征,再用一个最大池化操作将每个点的特征聚合为空间全局特征,最后根据全局特征重构点云的旋转参数θ∈R4;一方面,最大池化操作使得输出结果对点云具有置换不变性,即结果与点云内部点的排列顺序无关,另一方面,所述模块不使用常规的输入变换模块/特征变换模块T-Net对点云进行位姿对齐,使得该模块对输入点云的旋转变换敏感,从而能够提取到物体的旋转特征。
所述的预训练是指:对物体的原始点云随机进行5000次旋转操作作为训练样本输入旋转特征提取模块进行旋转参数重构,实现预训练。
所述的稀疏采样是指:对物体的三维点云模型Xi,绕欧拉角规定的三个旋转轴均匀旋转8×8×8次得到Xij,即共取83个旋转采样点。
所述的构建先验旋转特征库是指,将稀疏采样的不同旋转位姿下的点云Xij输入预训练好的旋转特征提取模块,获得物体的全局特征作为旋转特征Rij;将提取出的所有物体的旋转特征存入先验旋转特征库中,并记录每个特征对应的基准旋转参数θj,其中:i为物体序号,1≤j≤83
步骤2)对于输入的视觉图像,通过特征提取模块提取图像特征,该特征输入目标分割模块对图像进行检测和分割,得到图像中所包含物体的分割区域M以及目标视觉特征Fij
步骤3)将由图像中提取的目标视觉特征输入位移参数估计模块,得到属于目标分割区域内每个像素的深度以及指向二维中心点的方向向量(x,y)→(nx,ny,Z),计算分割区域内各个像素p∈M被其它像素的方向向量指向的次数,依据指向次数对中心点的分布进行投票,得票最多的像素作为二维中心点(x,y),结合其深度可依据相机投影公式计算出二维中心点对应在三维空间中的物体中心点坐标(X,Y,Z),即位移参数t,其中:(nx,ny)为指向中心点的方向,Z为像素的深度,(X,Y,Z)为相机坐标系下物体中心点的坐标,(x,y)为物体中心点投影在二维平面的二维中心点坐标,fx、fy为焦距,(px,py)为屏幕主点坐标。
步骤4)将目标的视觉特征通过全连接操作平展为dk维,利用自注意力机制将视觉特征Fij与先验旋转特征库中属于当前类别物体的每个旋转特征Rij进行匹配,选取出当前视觉特征的最佳先验旋转特征匹配R*|Fij,其中:表示只选取属于当前类别的旋转特征进行匹配运算,/>为尺度因子且与参与运算的特征维度相同。
所述的自注意力机制是指:计算视觉特征Fij和先验旋转特征库中的各个旋转特征Rij的相关性分数选取分数最高的旋转特征作为当前视觉特征的最佳匹配,其中:/>表示只选取属于当前类别的旋转特征进行匹配运算,/>为尺度因子且与参与运算的特征维度相同。
本实施例中取dk=1024。
步骤5)将最佳匹配的先验旋转特征R*|Fij在先验旋转特征库中对应的旋转参数作为粗估计θcoarse,对应关系为82个稀疏采样位姿。
步骤6)结合目标的视觉特征Fij与最佳匹配到的先验旋转特征R*|Fij两者的信息共同估计旋转残差项θresidual;最终的旋转参数估计结果为θfine=θcoarseresidual,完成由粗到细的精细定位。
步骤7)步骤3求得的位移参数t和步骤6求得的旋转参数θfine即为系统的位姿估计 采用SLoss对整个系统进行监督训练。
所述的SLoss为,其中:/>为系统估计的位姿参数,θ为真实位姿参数标注,x∈O表示物体点云模型包含的所有点,m为点云中点的个数,R(θ)表示由位姿参数表征的变换矩阵。
经过在Pytorch的环境具体实验:在YCB-Video数据集上进行训练和测试,以200次训练迭代,其中前80次迭代学习率取10-3,后120次迭代学习率取10-4,步骤4中尺度因子,即特征维数取1024,步骤1中稀疏采样数取83为参数运行上述方法,测试指标ADD-S为由SLoss计算的ROC曲线面积,能够得到的实验数据如表1所示:与基准系统PoseCNN相比提升了0.8,表明旋转特征以及由粗到细的估计方法对位姿参数的估计有增强作用。
表1实验结果
PoseCNN 本实施例
YCB-Video(ADD-S) 75.9 76.7(+0.8)
综上,与现有技术相比,本发明通过先验旋转特征库的构建引入物体先在包含的不同旋转位姿下的几何信息,一定程度上强化了系统对位姿参数、尤其是旋转参数估计的准确度和稳定性,并以此旋转参数的粗估计实现从粗到细的参数定位,从而提高位姿估计的准确度和稳定性。本发明在YCB-Video数据集下的ADD-S指标达到了76.7,相比于基准系统PoseCNN有0.8的准确度提升。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种基于神经网络及旋转特征增强的物体位姿估计方法,其特征在于,构建物体在不同旋转位姿下的先验特征库,针对单目相机采集到的二维视觉图像,通过目标检测得到图像的物体类别、分割区域以及目标的视觉特征;将目标物体的位姿估计解耦为位移参数估计和旋转参数估计,根据图像的物体类别和分割区域,将目标的视觉特征通过位移参数估计后与先验特征库进行匹配实现粗估计,再将目标的视觉特征与对应的旋转特征共同估计旋转残差项,实现精细定位;
所述的物体位姿估计方法具体包含以下步骤:
步骤1)对物体的旋转位姿进行稀疏采样,通过预训练好的旋转特征提取模块提取采样位姿下物体的旋转特征,从而构建先验旋转特征库;
步骤2)对于输入的视觉图像,通过特征提取模块提取图像特征,该特征输入目标分割模块对图像进行检测和分割,得到图像中所包含物体的分割区域M以及目标视觉特征Fij
步骤3)将由图像中提取的目标视觉特征输入位移参数估计模块,得到属于目标分割区域内每个像素的深度以及指向二维中心点的方向向量(x,y)→(nx,ny,Z),计算分割区域内各个像素p∈M被其它像素的方向向量指向的次数,依据指向次数对中心点的分布进行投票,得票最多的像素作为二维中心点(x,y),结合其深度可依据相机投影公式计算出二维中心点对应在三维空间中的物体中心点坐标(X,Y,Z),即位移参数t,其中:(nx,ny)为指向中心点的方向,Z为像素的深度,(X,Y,Z)为相机坐标系下物体中心点的坐标,(x,y)为物体中心点投影在二维平面的二维中心点坐标,fx、fy为焦距,(px,py)为屏幕主点坐标;
步骤4)将目标的视觉特征通过全连接操作平展为dk维,利用自注意力机制将视觉特征Fij与先验旋转特征库中属于当前类别物体的每个旋转特征Rij进行匹配,选取出当前视觉特征的最佳先验旋转特征匹配R*|Fij,其中:II(Rij∈ci)表示只选取属于当前类别的旋转特征进行匹配运算,为尺度因子且与参与运算的特征维度相同;
步骤5)将最佳匹配的先验旋转特征R*|Fij在先验旋转特征库中对应的旋转参数作为粗估计θcoarse,对应关系为83个稀疏采样位姿;
步骤6)结合目标的视觉特征Fij与最佳匹配到的先验旋转特征R*|Fij两者的信息共同估计旋转残差项θresidual;最终的旋转参数估计结果为θfine=θcoarseresidual,完成由粗到细的精细定位;
步骤7)步骤3求得的位移参数t和步骤6求得的旋转参数θfine即为系统的位姿估计 采用SLoss对整个系统进行监督训练;
所述的自注意力机制是指:计算视觉特征Fij和先验旋转特征库中的各个旋转特征Rij的相关性分数选取分数最高的旋转特征作为当前视觉特征的最佳匹配,其中:II(Rij∈ci)表示只选取属于当前类别的旋转特征进行匹配运算,/>为尺度因子且与参与运算的特征维度相同;
所述的SLoss为,其中:/>为系统估计的位姿参数,θ为真实位姿参数标注,x∈O表示物体点云模型包含的所有点,m为点云中点的个数,R(θ)表示由位姿参数表征的变换矩阵。
2.根据权利要求1所述的基于神经网络及旋转特征增强的物体位姿估计方法,其特征是,所述的先验特征库中包含物体旋转特征,其具体通过将已知物体的三维点云模型,经预设角度进行旋转后输入旋转位姿估计网络并提取得到。
3.根据权利要求1所述的基于神经网络及旋转特征增强的物体位姿估计方法,其特征是,所述的位移参数估计是指:对图像中分割出的目标区域内每个像素估计两组参数:指向目标二维中心的单位向量和像素的深度;随后用霍夫投票的方式选取置信度最高的像素作为目标的二维中心点,结合其深度变换到相机坐标系下的三维中心点坐标,作为位移参数。
4.根据权利要求1所述的基于神经网络及旋转特征增强的物体位姿估计方法,其特征是,所述的旋转参数估计是指:利用从图像中提取到的目标类别信息以及二维特征,与预先构建的旋转特征库中对应物体的旋转特征进行匹配,引入自注意力模块计算图像特征与旋转特征的匹配程度,从而选出最相关的旋转特征并记录其旋转参数作为基准。
5.根据权利要求1所述的基于神经网络及旋转特征增强的物体位姿估计方法,其特征是,所述的预训练是指:对物体的原始点云随机进行5000次旋转操作作为训练样本输入旋转特征提取模块进行旋转参数重构,实现预训练。
6.根据权利要求1所述的基于神经网络及旋转特征增强的物体位姿估计方法,其特征是,所述的稀疏采样是指:对物体的三维点云模型Xi,绕欧拉角规定的三个旋转轴均匀旋转8×8×8次得到Xij,即共取83个旋转采样点。
7.根据权利要求1所述的基于神经网络及旋转特征增强的物体位姿估计方法,其特征是,所述的构建先验旋转特征库是指,将稀疏采样的不同旋转位姿下的点云Xij输入预训练好的旋转特征提取模块,获得物体旋转特征Rij;将提取出的所有物体的旋转特征存入先验旋转特征库中,并记录每个特征对应的基准旋转参数θj,其中:i为物体序号,1≤j≤83
8.一种实现权利要求1-7中任一所述方法的系统,其特征在于,包括:特征提取模块、目标分割模块、位移参数估计模块、旋转参数估计模块、自注意力旋转特征增强模块和旋转特征提取模块,其中:特征提取模块从输入的图像中提取视觉特征,目标分割模块与特征提取模块相连并依据提取到的特征分割出目标所在区域,位移参数估计模块和旋转参数估计模块分别与目标分割模块相连并估计出目标的位姿参数,自注意力旋转特征增强模块与旋转参数估计模块相连并为其提供点云的先验旋转特征库,旋转特征提取模块与自注意力旋转特征增强模块相连作为提取点云旋转特征的模型。
CN202111149036.2A 2021-09-29 2021-09-29 基于神经网络及旋转特征增强的物体位姿估计方法 Active CN113780240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111149036.2A CN113780240B (zh) 2021-09-29 2021-09-29 基于神经网络及旋转特征增强的物体位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111149036.2A CN113780240B (zh) 2021-09-29 2021-09-29 基于神经网络及旋转特征增强的物体位姿估计方法

Publications (2)

Publication Number Publication Date
CN113780240A CN113780240A (zh) 2021-12-10
CN113780240B true CN113780240B (zh) 2023-12-26

Family

ID=78854340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111149036.2A Active CN113780240B (zh) 2021-09-29 2021-09-29 基于神经网络及旋转特征增强的物体位姿估计方法

Country Status (1)

Country Link
CN (1) CN113780240B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115700B (zh) * 2022-05-17 2023-04-11 清华大学 物体的姿态估计方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065546A (zh) * 2021-02-25 2021-07-02 湖南大学 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN113284184A (zh) * 2021-05-24 2021-08-20 湖南大学 面向机器人rgbd视觉感知的6d位姿估计方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065546A (zh) * 2021-02-25 2021-07-02 湖南大学 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN113284184A (zh) * 2021-05-24 2021-08-20 湖南大学 面向机器人rgbd视觉感知的6d位姿估计方法及系统

Also Published As

Publication number Publication date
CN113780240A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
Laskar et al. Camera relocalization by computing pairwise relative poses using convolutional neural network
CN108427924B (zh) 一种基于旋转敏感特征的文本回归检测方法
Zhu et al. Correspondence-free point cloud registration with so (3)-equivariant implicit shape representations
CN110232387B (zh) 一种基于kaze-hog算法的异源图像匹配方法
US20220414821A1 (en) Systems and methods for point cloud registration
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN113160287B (zh) 一种基于特征融合的复杂构件点云拼接方法及系统
CN113516693B (zh) 一种快速通用的图像配准方法
CN113780240B (zh) 基于神经网络及旋转特征增强的物体位姿估计方法
CN113963117A (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN113012208A (zh) 多视角遥感图像配准方法及系统
Wang et al. Revisiting monocular satellite pose estimation with transformer
Arvanitis et al. Broad-to-narrow registration and identification of 3D objects in partially scanned and cluttered point clouds
Hutchcroft et al. CoVisPose: Co-visibility pose transformer for wide-baseline relative pose estimation in 360∘ indoor panoramas
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Zheng et al. Instance-Aware Spatial-Frequency Feature Fusion Detector for Oriented Object Detection in Remote Sensing Images
CN114998630B (zh) 一种从粗到精的地对空图像配准方法
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
Zhang et al. A comparative study for non-rigid image registration and rigid image registration
CN115311653A (zh) 一种3d目标检测方法、装置、终端和存储介质
CN115588033A (zh) 基于结构提取的合成孔径雷达与光学图像配准系统及方法
Kelenyi et al. SAM-Net: Self-Attention based Feature Matching with Spatial Transformers and Knowledge Distillation
Hou et al. Navigation landmark recognition and matching algorithm based on the improved SURF
CN109102516A (zh) 一种鲁棒的弯管中心线提取方法
Wang et al. SO-PERM: Pose Estimation and Robust Measurement for Small Objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant