CN113674324A - 基于元学习的类级别6d位姿追踪方法、系统及装置 - Google Patents

基于元学习的类级别6d位姿追踪方法、系统及装置 Download PDF

Info

Publication number
CN113674324A
CN113674324A CN202110993103.2A CN202110993103A CN113674324A CN 113674324 A CN113674324 A CN 113674324A CN 202110993103 A CN202110993103 A CN 202110993103A CN 113674324 A CN113674324 A CN 113674324A
Authority
CN
China
Prior art keywords
pose
learning
model
pose estimation
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110993103.2A
Other languages
English (en)
Inventor
李辉勇
豆渊博
牛建伟
李青锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weishi Intelligent Iot Innovation Center Co ltd
Original Assignee
Changzhou Weishi Intelligent Iot Innovation Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Weishi Intelligent Iot Innovation Center Co ltd filed Critical Changzhou Weishi Intelligent Iot Innovation Center Co ltd
Priority to CN202110993103.2A priority Critical patent/CN113674324A/zh
Publication of CN113674324A publication Critical patent/CN113674324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于位姿追踪技术领域,具体涉及一种基于元学习的类级别6D位姿追踪方法、系统及装置,其中基于元学习的类级别6D位姿追踪方法包括:构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;构建刚体6D位姿估计网络模型;构建Offline学习策略,初始化6D位姿估计网络模型;以及构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务,实现了利用元学习的方法,使得网络模型通过学习获得追踪特定类别的物体不同实例对象的位姿的经验,当模型追踪特定类别的物体的新的实例对象的位姿时,能够以该实例对象的初始位姿为监督,利用梯度下降算法对模型参数进行一次或者几次梯度更新,就能使模型有效地追踪该实例对象的位姿。

Description

基于元学习的类级别6D位姿追踪方法、系统及装置
技术领域
本发明属于位姿追踪技术领域,具体涉及一种基于元学习的类级别6D位姿追踪方法、系统及装置。
背景技术
刚体的6D位姿追踪是指根据相机获取的输入数据估计相机坐标系下物体的6D位姿,即3D位置和3D姿态,并当物体位姿发生变化时能够实时估计出变化后物体的位姿。刚体的6D位姿追踪主要应用于机器人操纵领域和增强现实领域等。在机器人操纵领域,主流的方法是估计相机坐标系下已知物体的6D位姿,进而获得机械臂操纵物体时机械臂末端的位姿,机械臂可根据末端位姿执行相应的操纵任务。在增强现实领域,可以在物体上叠加虚拟元素,随着物体的移动而保持和物体的相对位姿不变。
现有的刚体6D位姿追踪方法可以分为基于对应点的方法、基于模板的方法和基于投票的方法。基于对应点的方法寻找2D-3D或3D-3D特征点的对应关系,根据已知位姿的数据和特征点的对应关系计算要估计的数据的位姿;基于模板的方法通过寻找当前输入数据和已知位姿的模板之间的对应,将对应的模板的位姿看为输入数据的位姿;基于投票的方法通过每个像素点或者3D点间接投票得到关键点或者直接投票得到6D位姿。
现有的基于传统视觉的6D位姿追踪方法容易受到光照变化的影响,并且当物体的部分被遮挡或者物体缺失纹理信息时会失效。
基于深度学习的方法能够解决上述问题,但是现有的基于学习的刚体6D位姿追踪方法在估计每个实例对象的位姿前都需要标注大量的训练数据对模型进行训练,当要估计新的实例对象的位姿时,需要采集大量的该实例对象的位姿数据,对模型重新进行训练,该过程需要耗费大量的物力财力。
因此,基于上述技术问题需要设计一种新的基于元学习的类级别6D位姿追踪方法、系统及装置。
发明内容
本发明的目的是提供一种基于元学习的类级别6D位姿追踪方法、系统及装置。
为了解决上述技术问题,本发明提供了一种基于元学习的类级别6D位姿追踪方法,包括:
构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;
构建刚体6D位姿估计网络模型;
构建Offline学习策略,初始化6D位姿估计网络模型;以及
构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务。
进一步,所述构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标的方法包括:
将预设类别的物体的不同实例对象的位姿估计看作不同的任务
Figure 100002_DEST_PATH_IMAGE002
,所有的任务服从分布
Figure 100002_DEST_PATH_IMAGE004
,每个任务以数据集D表示,数据集包括该实例对象在相机坐标系中不同视角下的RGBD图像x和图像中该示例对象的6D位姿y
最佳元学习模型参数为:
Figure 100002_DEST_PATH_IMAGE006
其中,
Figure 100002_DEST_PATH_IMAGE008
为学习的6D位姿估计网络模型的初始化参数;
Figure 100002_DEST_PATH_IMAGE010
为学习的6D位姿估计网络模型的学习率;L为位姿估计的损失函数;
Figure 100002_DEST_PATH_IMAGE012
为随机初始化的参数;
Figure 100002_DEST_PATH_IMAGE014
为随机初始化的学习率;E为数学期望。
进一步,所述构建刚体6D位姿估计网络模型的方法包括:
根据RGB图像和点云数据进行刚体的6D位姿追踪;
根据深度图像结合预设的相机内参获取当前输入数据的点云数据;
6D位姿估计网络模型的输入包括要估计位姿的物体的RGB图像和当前视角物体的点云数据;
根据异构网络分别提取输入数据的RGB特征和点云特征,并对RGB特征和点云特征进行逐点融合获取每个稠密像素点的RGB特征和点云特征相融合的特征,对每个稠密像素点的融合特征进行最大池化操作获取输入数据的全局特征,再进行回归获取物体的3D旋转向量、3D平移向量;
RGB图像的特征尺寸为[W,H,32],通过两个卷积层卷积后得到的特征尺寸为[W,H,128];
点云进行特征提取后得到的特征尺寸为[N,128],N为点云中点的个数;
RGB图像特征和点云特征进行特征融合后获取物体的全局特征尺寸为1024*1,在姿态回归和位置回归网络中,分别通过3个卷积层回归得出4*1的旋转向量和3*1的平移向量;
旋转的损失函数为:
Figure 100002_DEST_PATH_IMAGE016
平移的损失函数:
Figure 100002_DEST_PATH_IMAGE018
其中,
Figure 100002_DEST_PATH_IMAGE020
为位姿的标签,
Figure 100002_DEST_PATH_IMAGE022
为网络预测的6D位姿;trace为矩阵的迹,
Figure 100002_DEST_PATH_IMAGE024
为输入网络模型的点云的平均值;
则,6D位姿估计模型的损失函数为:
Figure 100002_DEST_PATH_IMAGE026
其中
Figure 100002_DEST_PATH_IMAGE028
为预设参数。
进一步,所述构建Offline学习策略,初始化6D位姿估计网络模型的方法包括:
在训练集上通过InnerLoopOuterLoop两个步骤学习模型的初始化参数和学习率;
学习目标包括模型的初始化参数
Figure 100002_DEST_PATH_IMAGE030
InnerLoop阶段的学习率α
根据学习任务τ i ,从该任务对应的数据集D i 中获取训练样例构成支持集
Figure 100002_DEST_PATH_IMAGE032
和目标集
Figure 100002_DEST_PATH_IMAGE034
Innerloop阶段,利用梯度下降算法对模型参数进行K次梯度更新;
Figure 100002_DEST_PATH_IMAGE036
Figure 100002_DEST_PATH_IMAGE038
其中,G为6D位姿估计网络模型;
Figure 100002_DEST_PATH_IMAGE040
为网络预测出的位姿;L为损失函数
InnerLoop阶段每次梯度更新后获取更新后的网络参数在目标集
Figure 100002_DEST_PATH_IMAGE042
上的损失对OuterLoop阶段网络参数的梯度更新:
Figure 100002_DEST_PATH_IMAGE044
重复执行InnerLoop阶段bz次,获取OuterLoop阶段用于更新模型参数的所有梯度;
OuterLoop阶段利用InnerLoop阶段学习得到的梯度对模型参数进行更新,获取下一次用于Offline学习的模型初始化参数
Figure 100002_DEST_PATH_IMAGE046
和学习率α
Figure 100002_DEST_PATH_IMAGE048
Figure 100002_DEST_PATH_IMAGE050
其中,β θ β α 分别为OuterLoop阶段参数θ 0α的学习率;
Figure 100002_DEST_PATH_IMAGE052
InnerLoop阶段计算出的目标集上第k个梯度的权重;获取目标集上所有K个梯度的权重;
重复执行InnerLoopOuterLoop过程直到模型收敛,最终获取模型参数
Figure 100002_DEST_PATH_IMAGE054
InnerLoop阶段用于对参数进行梯度更新的学习率α *
进一步,所述构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务的方法包括:
根据模型的初始参数θ *和学习率α *以刚体的初始位姿信息作为监督利用梯度下降算法对模型参数进行K次梯度更新,得到该刚体的模型参数
Figure 100002_DEST_PATH_IMAGE056
当相机连续采集数据时,基于更新后的参数
Figure 100002_DEST_PATH_IMAGE058
,网络模型实时地估计物体的6D位姿。
第二方面,本发明还提供一种基于元学习的类级别6D位姿追踪系统,包括:
学习目标模块,构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;
模型构建模块,构建刚体6D位姿估计网络模型;
初始化模块,构建Offline学习策略,初始化6D位姿估计网络模型;以及
追踪任务模块,构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务。
第三方面,本发明还提供一种基于元学习的类级别6D位姿追踪装置,包括:
控制模块,以及由该控制模块控制的机械臂、深度相机和机械爪;
所述深度相机适于拍摄图像;
所述控制模块适于根据深度相机和机械臂和机械爪的相对位姿,以获取机械臂操作图像中物体时的机械臂末端的6D位姿,以及
所述控制模块适于根据图像控制所述机械臂带动所述机械爪抓取物体。
本发明的有益效果是,本发明通过构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;构建刚体6D位姿估计网络模型;构建Offline学习策略,初始化6D位姿估计网络模型;以及构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务,实现了利用元学习的方法,使得网络模型通过学习获得追踪特定类别的物体不同实例对象的位姿的经验,当模型追踪特定类别的物体的新的实例对象的位姿时,能够以该实例对象的初始位姿为监督,利用梯度下降算法对模型参数进行一次或者几次梯度更新,就能使模型有效地追踪该实例对象的位姿。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所涉及的基于元学习的类级别6D位姿追踪方法的流程图;
图2是本发明所涉及的6D位姿估计网络模型构建流程图;
图3是本发明所涉及的6D位姿估计网络模型初始化流程图;
图4是本发明所涉及的基于元学习的类级别6D位姿追踪系统的原理框图;
图5是本发明所涉及的基于元学习的类级别6D位姿追踪装置的原理框图;
图6是本发明所涉及的基于元学习的类级别6D位姿追踪装置的原理示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1是本发明所涉及的基于元学习的类级别6D位姿追踪方法的流程图。
如图1所示,本实施例1提供了一种基于元学习的类级别6D位姿追踪方法,包括:构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;
构建刚体6D位姿估计网络模型;构建Offline学习策略(离线学习策略),初始化6D位姿估计网络模型;以及构建Online学习策略(在线学习策略),将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务,实现了利用元学习的方法,使得网络模型通过学习获得追踪特定类别的物体不同实例对象的位姿的经验,当模型追踪特定类别的物体的新的实例对象的位姿时,能够以该实例对象的初始位姿为监督,利用梯度下降算法对模型参数进行一次或者几次梯度更新,就能使模型有效地追踪该实例对象的位姿。
在本实施例中,将物体按照不同的种类进行类别划分,比如划分为笔记本、摄像机、碗等,每个类别包含不同的实例物体,这些实例物体在尺寸、纹理和形状等方面存在部分差异,比如不同品牌的笔记本尺寸和纹理不同等。所谓类级别位姿追踪是指网络模型(6D位姿估计网络模型)通过在特定类别的不同实例物体上学习6D位姿追踪任务后,能够有效追踪训练集中不包含的该类别的新的实例对象的位姿。基于元学习,使得网络模型通过学习特定类别的不同实例物体的6D位姿追踪任务,学得特定类别的物体的6D位姿追踪的经验,当模型追踪该类别物体的新的实例对象的位姿时,能以初始位姿为监督,对网络参数进行微调,就能有效地追踪该实例物体的6D位姿。
在本实施例中,所述构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标的方法包括:基于MAML算法对6D位姿估计网络模型进行训练。MAML算法是利用元学习的方式学习模型的初始化参数,相比于随机的初始化参数,模型(6D位姿估计网络模型)通过学习得到的初始化参数在估计特定类别的物体的新实例对象的6D位姿时能够根据少量样本进行几次梯度更新就获得有效的预测结果。由于MAML算法在网络层较深的模型上学习效果并不理想,本实施例在利用MAML算法学习模型参数的同时,也学习了每个参数在梯度更新时的学习率α,该学习率决定了每个参数更新时的方向,和每次迭代更新时的步长;
将预设类别(特定类别)的物体的不同实例对象的位姿估计看作不同的任务
Figure DEST_PATH_IMAGE060
,所有的任务服从分布
Figure DEST_PATH_IMAGE062
,每个任务以数据集D表示,数据集包括RGBD图像x和图像中刚体的6D位姿y;根据元学习方法让模型(6D位姿估计网络模型)在不同的任务上进行学习,获得学习经验,使得模型面临特定类别的物体的新的实例对象时,能够通过已标注的少量数据利用梯度下降算法对模型进行几次梯度更新,就能有效估计该实例对象在不同视角下的6D位姿;
最佳元学习模型参数为:
Figure DEST_PATH_IMAGE064
其中,
Figure DEST_PATH_IMAGE066
为学习的6D位姿估计网络模型的初始化参数;
Figure DEST_PATH_IMAGE068
为学习的6D位姿估计网络模型的初始化学习率;L为位姿估计的损失函数;
Figure DEST_PATH_IMAGE070
为随机初始化的参数;
Figure DEST_PATH_IMAGE072
为随机初始化的学习率;E为数学期望;将特定类的不同实例的6D位姿估计看作不同的任务,并通过在不同的任务上学习,网络模型可以获得学习经验,在估计特定类的新的实例对象的位姿时通过少量样本进行几次梯度更新,模型就能有效估计该实例对像不同视角的位姿。
图2是本发明所涉及的6D位姿估计网络模型构建流程图。
如图2所示,在本实施例中,所述构建刚体6D位姿估计网络模型的方法包括:根据RGB图像和点云数据进行刚体的6D位姿追踪;利用深度相机等作为传感器,获得输入数据后,根据深度图像结合预设的相机内参获取当前输入数据的点云数据;[u,v]为深度图像中的像素坐标,z c 为深度值,将世界坐标系与相机坐标系重合,将深度图像转换为点云:
Figure DEST_PATH_IMAGE074
其中,
Figure DEST_PATH_IMAGE076
为图像中光心的像素坐标;f为相机焦距;
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE080
表示图像中每一行、每一列像素代表世界坐标系中的距离;
深度图像中的图像点像素坐标
Figure DEST_PATH_IMAGE082
到世界坐标系中坐标点
Figure DEST_PATH_IMAGE084
的变换为:
Figure DEST_PATH_IMAGE086
6D位姿估计网络模型的输入包括要估计位姿的物体的RGB图像和当前视角物体的点云数据;根据异构网络分别提取输入数据的RGB特征和点云特征,并利用DenseFusion网络对RGB特征和点云特征进行逐点融合获取每个稠密像素点的RGB特征和点云特征相融合的特征,对每个稠密像素点的融合特征进行最大池化操作获取输入数据的全局特征,再利用不同的回归网络回归获取物体的3D旋转向量、3D平移向量;对于RGB特征提取模块,本实施例使用PSPNet网络(其他基于梯度下降算法进行学习的RGB特征提取模型也可实现)提取RGB图像特征,对于点云特征提取模块本实施例使用PointNet网络(其他基于梯度下降算法进行学习的点云特征提取模型也可实现);RGB图像通过PSPNet模块得到的特征尺寸为[W,H,32],再通过两个卷积层卷积后得到的特征尺寸为[W,H,128];点云模型在通过PointNet进行特征提取后得到的特征尺寸为[N,128],N为点云中点的个数;将RGB图像特征和点云特征经过DenseFusion模块进行特征融合后获取物体的全局特征尺寸为1024*1,在姿态回归和位置回归网络中,分别通过3个卷积层回归得出4*1的旋转向量和3*1的平移向量;
位姿估计的目标是最小化网络预测的物体位姿和物体在相机坐标系下的真实位姿之间的差异,本实例中旋转的损失函数为:
Figure DEST_PATH_IMAGE016A
平移的损失函数:
Figure DEST_PATH_IMAGE018A
其中,
Figure DEST_PATH_IMAGE088
为位姿的标签,
Figure DEST_PATH_IMAGE090
为网络预测的6D位姿;trace为矩阵的迹,
Figure DEST_PATH_IMAGE092
为输入网络模型的点云的平均值;
综上所述,6D位姿估计模型的损失函数为:
Figure DEST_PATH_IMAGE026A
其中
Figure 941484DEST_PATH_IMAGE028
为预设参数。
图3是本发明所涉及的6D位姿估计网络模型初始化流程图。
如图3所示,在本实施例中,所述构建Offline学习策略,初始化6D位姿估计网络模型的方法包括:在训练集上通过InnerLoop(内层循环)和OuterLoop(外层循环)两个步骤学习模型的初始化参数和学习率;Offline学习策略是指模型在训练集上训练的策略;本实施例提出的方法中训练集中的数据包含物体的RGB图像和深度图像,标签包括物体的在相机坐标系中的旋转矩阵和平移向量,数据集中每个类别包含多个实例对象,每个对象包含多个不同视角下采集到的数据。
Offline学习阶段包含InnerLoopOuterLoop两个步骤;在Offline学习阶段学习目标包括模型的初始化参数
Figure DEST_PATH_IMAGE094
InnerLoop阶段的学习率α
InnerLoop阶段:根据学习任务τ i ,从该任务对应的数据集D i 中获取训练样例构成支持集
Figure DEST_PATH_IMAGE096
和目标集
Figure DEST_PATH_IMAGE098
利用梯度下降算法对模型参数进行K次梯度更新;
Figure DEST_PATH_IMAGE100
式(6);
Figure 791497DEST_PATH_IMAGE038
式(7);
其中,G为6D位姿估计网络模型;
Figure DEST_PATH_IMAGE102
为网络预测出的位姿;L为损失函数(目标函数L);本实施例在上述更新过程中每步只更新模型参数
Figure DEST_PATH_IMAGE104
,学习率α保持不变;
根据MAML算法,对网络参数进行K次梯度更新后,计算更新后的参数在目标集上的损失值用于OuterLoop阶段模型参数的梯度更新,但是这种做法容易导致梯度消失,本实施例在InnerLoop阶段每次梯度更新后获取更新后的网络参数在目标集
Figure DEST_PATH_IMAGE106
上的损失对OuterLoop阶段网络参数的梯度更新:
Figure 661364DEST_PATH_IMAGE044
式(8);
重复式(6)至式(8)描述的过程bz次,获取OuterLoop阶段用于更新模型参数的所有梯度;
OuterLoop阶段:在OuterLoop阶段利用InnerLoop阶段学习得到的梯度对模型参数进行更新,获取下一次用于Offline学习的模型初始化参数
Figure DEST_PATH_IMAGE108
和学习率α
Figure 379659DEST_PATH_IMAGE048
Figure 18582DEST_PATH_IMAGE050
其中,β θ β α 分别为OuterLoop阶段参数θ 0α的学习率;
Figure DEST_PATH_IMAGE110
InnerLoop阶段计算出的目标集上第k个梯度的权重;获取目标集上所有K个梯度的权重;通过设定不同的权重,可以使模型学习时注意力集中到K次更新后的模型参数上,同时又能有效避免MAML算法引起的梯度消失问题;
重复执行InnerLoopOuterLoop过程直到模型收敛,最终获取模型参数
Figure DEST_PATH_IMAGE112
InnerLoop阶段用于对参数进行梯度更新的学习率α *;将6D位姿估计网络模型的学习划分为InnerLoop阶段和OuterLoop阶段,通过在不同的任务学习,学得6D位姿估计网络模型的初始化参数和用于InnerLoop阶段对参数进行梯度更新的学习率
在本实施例中,所述构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务的方法包括:构建Online学习策略,以初始位姿为监督信息,对模型参数进行微调,将6D位姿估计网络模型用于刚体的6D位姿追踪任务;6D位姿估计网络模型通过在训练集上学习得到了模型的初始化参数和学习率;在进行新的实例对象的位姿追踪任务时通过Online学习策略,能使模型快速泛化到新实例对象的位姿估计任务上;对刚体进行6D位姿追踪时,刚体的初始位姿是已知的;根据模型的初始参数θ *和学习率α *以刚体的初始位姿信息作为监督利用梯度下降算法对模型参数进行K次梯度更新,得到该刚体的模型参数
Figure DEST_PATH_IMAGE114
,该过程可以看作模型对于特定类别的新的实例对象的自适应过程;当相机连续采集数据时,基于更新后的参数
Figure DEST_PATH_IMAGE116
,网络模型实时地估计物体的6D位姿,也即有效地追踪该实例的位姿信息;将刚体的6D位姿估计网络模型应用于位姿追踪任务中,当网络模型追踪特定类的新的实例对象时,能够以初始位姿为监督,根据Offline阶段学习的学习率对Offline阶段学习的模型初始化参数进行几步梯度更新,使得模型有效追踪后续帧中该实例的位姿。
实施例2
图4是本发明所涉及的基于元学习的类级别6D位姿追踪系统的原理框图。
如图4所示,在实施例1的基础上,本实施例2还提供一种基于元学习的类级别6D位姿追踪系统,包括:学习目标模块,构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;模型构建模块,构建刚体6D位姿估计网络模型;初始化模块,构建Offline学习策略,初始化6D位姿估计网络模型;以及追踪任务模块,构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务。
在本实施例中,各模块的具体工作方法在实施例1中已经详细描述,在本实施例中不再赘述。
实施例3
图5是本发明所涉及的基于元学习的类级别6D位姿追踪装置的原理框图;
图6是本发明所涉及的基于元学习的类级别6D位姿追踪装置的原理示意图。
如图5和图6所示,在实施例1的基础上,本实施例3还提供一种基于元学习的类级别6D位姿追踪装置,包括:控制模块,以及由该控制模块控制的机械臂、深度相机和机械爪;所述深度相机适于拍摄图像;所述控制模块适于根据深度相机和机械臂和机械爪的相对位姿,以获取机械臂操作图像中物体时的机械臂末端的6D位姿,以及所述控制模块适于根据图像控制所述机械臂带动所述机械爪抓取物体。
在本实施例中,所述控制模块适于采用实施例1中基于元学习的类级别6D位姿追踪方法控制机械臂带动机械爪抓取物体。
综上所述,本发明通过构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;构建刚体6D位姿估计网络模型;构建Offline学习策略,初始化6D位姿估计网络模型;以及构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务,实现了利用元学习的方法,使得网络模型通过学习获得追踪特定类别的物体不同实例对象的位姿的经验,当模型追踪特定类别的物体的新的实例对象的位姿时,能够以该实例对象的初始位姿为监督,利用梯度下降算法对模型参数进行一次或者几次梯度更新,就能使模型有效地追踪该实例对象的位姿。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROMRead-OnlyMemory)、随机存取存储器(RAMRandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (7)

1.一种基于元学习的类级别6D位姿追踪方法,其特征在于,包括:
构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;
构建刚体6D位姿估计网络模型;
构建Offline学习策略,初始化6D位姿估计网络模型;以及
构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务。
2.如权利要求1所述的基于元学习的类级别6D位姿追踪方法,其特征在于,
所述构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标的方法包括:
将预设类别的物体的不同实例对象的位姿估计看作不同的任务
Figure DEST_PATH_IMAGE002
,所有的任务服从分布
Figure DEST_PATH_IMAGE004
,每个任务以数据集D表示,数据集包括该实例对象在相机坐标系中不同视角下的RGBD图像x和图像中该实例对象的6D位姿y
最佳元学习模型参数为:
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE008
为学习的6D位姿估计网络模型的初始化参数;
Figure DEST_PATH_IMAGE010
为学习的6D位姿估计网络模型的学习率;L为位姿估计的损失函数;
Figure DEST_PATH_IMAGE012
为随机初始化的参数;
Figure DEST_PATH_IMAGE014
为随机初始化的学习率;E为数学期望。
3.如权利要求2所述的基于元学习的类级别6D位姿追踪方法,其特征在于,
所述构建刚体6D位姿估计网络模型的方法包括:
根据RGB图像和点云数据进行刚体的6D位姿追踪;
根据深度图像结合预设的相机内参获取当前输入数据的点云数据;
6D位姿估计网络模型的输入包括要估计位姿的物体的RGB图像和当前视角物体的点云数据;
根据异构网络分别提取输入数据的RGB特征和点云特征,并对RGB特征和点云特征进行逐点融合获取每个稠密像素点的RGB特征和点云特征相融合的特征,对每个稠密像素点的融合特征进行最大池化操作获取输入数据的全局特征,再进行回归获取物体的3D旋转向量、3D平移向量;
RGB图像的特征尺寸为[W,H,32],通过两个卷积层卷积后得到的特征尺寸为[W,H,128];
点云进行特征提取后得到的特征尺寸为[N,128],N为点云中点的个数;
RGB图像特征和点云特征进行特征融合后获取物体的全局特征尺寸为1024*1,在姿态回归和位置回归网络中,分别通过3个卷积层回归得出4*1的旋转向量和3*1的平移向量;
旋转的损失函数为:
Figure DEST_PATH_IMAGE016
平移的损失函数:
Figure DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE020
为位姿的标签,
Figure DEST_PATH_IMAGE022
为网络预测的6D位姿;trace为矩阵的迹,
Figure DEST_PATH_IMAGE024
为输入网络模型的N个点云的坐标平均值;
则,6D位姿估计模型的损失函数为:
Figure DEST_PATH_IMAGE026
其中
Figure DEST_PATH_IMAGE028
为预设参数。
4.如权利要求3所述的基于元学习的类级别6D位姿追踪方法,其特征在于,
所述构建Offline学习策略,初始化6D位姿估计网络模型的方法包括:
在训练集上通过InnerLoopOuterLoop两个步骤学习模型的初始化参数和学习率;
学习目标包括模型的初始化参数
Figure DEST_PATH_IMAGE030
InnerLoop阶段的学习率α
根据学习任务τ i ,从该任务对应的数据集D i 中获取训练样例构成支持集
Figure DEST_PATH_IMAGE032
和目标集
Figure DEST_PATH_IMAGE034
InnerLoop阶段,利用梯度下降算法对模型参数进行K次梯度更新;
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
其中,G为6D位姿估计网络模型;
Figure DEST_PATH_IMAGE040
为网络预测出的位姿;L为损失函数
InnerLoop阶段每次梯度更新后获取更新后的网络参数在目标集
Figure DEST_PATH_IMAGE042
上的损失对OuterLoop阶段网络参数的梯度更新:
Figure DEST_PATH_IMAGE044
重复执行InnerLoop阶段bz次,获取OuterLoop阶段用于更新模型参数的所有梯度;
OuterLoop阶段利用InnerLoop阶段学习得到的梯度对模型参数进行更新,获取下一次用于Offline学习的模型初始化参数
Figure DEST_PATH_IMAGE046
和学习率α
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
其中,β θ β α 分别为OuterLoop阶段参数θ 0α的学习率;
Figure DEST_PATH_IMAGE052
InnerLoop阶段计算出的目标集上第k个梯度的权重;获取目标集上所有K个梯度的权重;
重复执行InnerLoopOuterLoop过程直到模型收敛,最终获取模型参数
Figure DEST_PATH_IMAGE054
InnerLoop阶段用于对参数进行梯度更新的学习率α *
5.如权利要求4所述的基于元学习的类级别6D位姿追踪方法,其特征在于,
所述构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务的方法包括:
根据模型的初始参数θ *和学习率α *以刚体的初始位姿信息作为监督利用梯度下降算法对模型参数进行K次梯度更新,得到该刚体的模型参数
Figure DEST_PATH_IMAGE056
当相机连续采集数据时,基于更新后的参数
Figure DEST_PATH_IMAGE058
,网络模型实时地估计物体的6D位姿。
6.一种基于元学习的类级别6D位姿追踪系统,其特征在于,包括:
学习目标模块,构建刚体6D位姿估计任务并构建类级别刚体6D位姿估计的学习目标;
模型构建模块,构建刚体6D位姿估计网络模型;
初始化模块,构建Offline学习策略,初始化6D位姿估计网络模型;以及
追踪任务模块,构建Online学习策略,将初始化的6D位姿估计网络模型用于刚体6D位姿追踪任务。
7.一种基于元学习的类级别6D位姿追踪装置,其特征在于,包括:
控制模块,以及由该控制模块控制的机械臂、深度相机和机械爪;
所述深度相机适于拍摄图像;
所述控制模块适于根据深度相机和机械臂和机械爪的相对位姿,以获取机械臂操作图像中物体时的机械臂末端的6D位姿,以及
所述控制模块适于根据图像控制所述机械臂带动所述机械爪抓取物体。
CN202110993103.2A 2021-08-27 2021-08-27 基于元学习的类级别6d位姿追踪方法、系统及装置 Pending CN113674324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110993103.2A CN113674324A (zh) 2021-08-27 2021-08-27 基于元学习的类级别6d位姿追踪方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110993103.2A CN113674324A (zh) 2021-08-27 2021-08-27 基于元学习的类级别6d位姿追踪方法、系统及装置

Publications (1)

Publication Number Publication Date
CN113674324A true CN113674324A (zh) 2021-11-19

Family

ID=78546742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110993103.2A Pending CN113674324A (zh) 2021-08-27 2021-08-27 基于元学习的类级别6d位姿追踪方法、系统及装置

Country Status (1)

Country Link
CN (1) CN113674324A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110553650A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于小样本学习的移动机器人重定位方法
CN110942512A (zh) * 2019-11-27 2020-03-31 大连理工大学 基于元学习的室内场景重建方法
CN111085997A (zh) * 2019-12-17 2020-05-01 清华大学深圳国际研究生院 基于点云获取和处理的抓取训练方法及系统
CN111890357A (zh) * 2020-07-01 2020-11-06 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN112639502A (zh) * 2018-09-07 2021-04-09 华为技术有限公司 机器人位姿估计
CN112684794A (zh) * 2020-12-07 2021-04-20 杭州未名信科科技有限公司 基于元强化学习的足式机器人运动控制方法、装置及介质
US20210205988A1 (en) * 2018-09-21 2021-07-08 Imperial College Innovations Limited Task embedding for device control
CN113221647A (zh) * 2021-04-08 2021-08-06 湖南大学 一种融合点云局部特征的6d位姿估计方法
CN113240736A (zh) * 2021-02-23 2021-08-10 广东工业大学 基于yolo6d改进网络的位姿估计方法及装置
CN113284184A (zh) * 2021-05-24 2021-08-20 湖南大学 面向机器人rgbd视觉感知的6d位姿估计方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112639502A (zh) * 2018-09-07 2021-04-09 华为技术有限公司 机器人位姿估计
US20210205988A1 (en) * 2018-09-21 2021-07-08 Imperial College Innovations Limited Task embedding for device control
CN110553650A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于小样本学习的移动机器人重定位方法
CN110942512A (zh) * 2019-11-27 2020-03-31 大连理工大学 基于元学习的室内场景重建方法
CN111085997A (zh) * 2019-12-17 2020-05-01 清华大学深圳国际研究生院 基于点云获取和处理的抓取训练方法及系统
CN111890357A (zh) * 2020-07-01 2020-11-06 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN112684794A (zh) * 2020-12-07 2021-04-20 杭州未名信科科技有限公司 基于元强化学习的足式机器人运动控制方法、装置及介质
CN113240736A (zh) * 2021-02-23 2021-08-10 广东工业大学 基于yolo6d改进网络的位姿估计方法及装置
CN113221647A (zh) * 2021-04-08 2021-08-06 湖南大学 一种融合点云局部特征的6d位姿估计方法
CN113284184A (zh) * 2021-05-24 2021-08-20 湖南大学 面向机器人rgbd视觉感知的6d位姿估计方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
THANH-TOAN DO ETAL.: "Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image", 《ARXIV:1802.10367V1》, 28 February 2018 (2018-02-28), pages 1 - 9 *
TIANHE YU ETAL.: "One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning", 《ARXIV:1802.01557V1》, 5 February 2018 (2018-02-05), pages 1 - 12 *
李少飞等: "基于深度学习的物体点云六维位姿估计方法", 《计算机工程》, vol. 47, no. 8, 23 August 2021 (2021-08-23), pages 216 - 223 *
陈昱: "基于元学习的机器人智能抓取方法研究", 《中国优秀硕士论文全文数据库(信息科技辑)》, no. 03, 15 March 2021 (2021-03-15), pages 140 - 249 *

Similar Documents

Publication Publication Date Title
CN112258618B (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
Concha et al. Visual-inertial direct SLAM
CN109102525B (zh) 一种基于自适应位姿估计的移动机器人跟随控制方法
JP6976350B2 (ja) 静的物体及び動的物体を含むシーンの位置特定及びマッピングに関するイメージングシステム
US9299161B2 (en) Method and device for head tracking and computer-readable recording medium
US9111172B2 (en) Information processing device, information processing method, and program
JP2022519194A (ja) 奥行き推定
JP2020126617A (ja) フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
Lambert et al. Deep forward and inverse perceptual models for tracking and prediction
CN112132862B (zh) 一种基于无人机的自适应尺度估计目标跟踪算法
JP2021065955A (ja) ロボット制御システム及びその制御方法及びプログラム
CN114387513A (zh) 机器人抓取方法、装置、电子设备及存储介质
CN113160278A (zh) 一种场景流估计、场景流估计模型的训练方法和装置
Inoue et al. Transfer learning from synthetic to real images using variational autoencoders for robotic applications
Shi et al. Self-supervised learning of depth and ego-motion with differentiable bundle adjustment
Shi et al. Real-Time Multi-Modal Active Vision for Object Detection on UAVs Equipped With Limited Field of View LiDAR and Camera
CN113886510A (zh) 一种终端交互方法、装置、设备及存储介质
Dang et al. Perfc: An efficient 2d and 3d perception software-hardware framework for mobile cobot
CN112991400A (zh) 一种无人艇的多传感器辅助定位方法
Yubo et al. Survey of UAV autonomous landing based on vision processing
US10977810B2 (en) Camera motion estimation
CN113674324A (zh) 基于元学习的类级别6d位姿追踪方法、系统及装置
CN108469729B (zh) 一种基于rgb-d信息的人体目标识别与跟随方法
Livne et al. Walking on thin air: Environment-free physics-based markerless motion capture
CN112348843A (zh) 调整深度图像预测模型的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination