CN111489394A - 物体姿态估计模型训练方法、系统、装置及介质 - Google Patents

物体姿态估计模型训练方法、系统、装置及介质 Download PDF

Info

Publication number
CN111489394A
CN111489394A CN202010179938.XA CN202010179938A CN111489394A CN 111489394 A CN111489394 A CN 111489394A CN 202010179938 A CN202010179938 A CN 202010179938A CN 111489394 A CN111489394 A CN 111489394A
Authority
CN
China
Prior art keywords
attitude estimation
loss value
pixel
module
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010179938.XA
Other languages
English (en)
Other versions
CN111489394B (zh
Inventor
许泽林
陈轲
张键驰
贾奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cross Dimension Shenzhen Intelligent Digital Technology Co ltd
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010179938.XA priority Critical patent/CN111489394B/zh
Publication of CN111489394A publication Critical patent/CN111489394A/zh
Application granted granted Critical
Publication of CN111489394B publication Critical patent/CN111489394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种物体姿态估计模型的训练方法、系统、装置及介质。该方法通过获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;分别确定分割过程中的第一损失值、映射过程中的第二损失值和姿态估计过程中的第三损失值,基于上述多个损失值对模型的参数进行训练更新。通过使用本申请中的训练方法,能够更好地兼顾姿态估计的全局信息,加快模型训练的速度;还能够使得训练的姿态估计模型具有更强的判别能力,对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。本申请可广泛应用于人工智能技术领域内。

Description

物体姿态估计模型训练方法、系统、装置及介质
技术领域
本申请涉及人工智能技术领域,尤其是一种物体姿态估计模型训练方法、系统、装置及介质。
背景技术
姿态估计问题就是确定某一三维目标物体的空间方位指向问题。在空间中,物体具有六个自由度,即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度,要完全确定物体的位置,就需要得到这六个自由度,所以该技术一般也称为六自由度(6D)姿态估计。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。
近年来,随着人工智能技术的发展,基于人工神经网络进行姿态估计的方法取得了很大的进展。其中包括对输入图像直接进行6D姿态回归的,但是它主要依赖于模板匹配技术,对杂乱的环境和外观变化比较敏感;还有部分技术融合了输入图像的图像纹理特征和几何特征,进行了像素级的姿态估计,相对前述的方法在面对物体遮挡的情况下效果稍好。但是目前的姿态估计方式,模型中的人工神经网络复杂,训练时间较长,而且在物体遮挡严重的情况下想利用物体可视部分的像素级特征来推断物体整体的姿态比较困难,估计的效果欠佳。目前,现有技术中还缺少一种良好的姿态估计技术方案,以用于解决以上问题。
发明内容
本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种物体姿态估计模型的训练方法,通过该方法训练的姿态估计模型的估计精度更高,且训练费时更短。
本申请实施例的另一个目的在于提供一种物体姿态估计模型的训练系统。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
第一方面,本申请实施例提供了一种物体姿态估计模型的训练方法,包括以下步骤:
获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;
根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。
另外,根据本申请上述实施例的物体姿态估计模型的训练方法,还可以具有以下附加的技术特征:
进一步地,在本申请的一个实施例中,所述分割提取模块包括卷积神经网络;
所述通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值步骤,包括:
通过所述卷积神经网络对所述RGB图像进行分割,得到物体的掩膜;
根据所述掩膜和物体真实掩膜,确定第一损失值。
进一步地,在本申请的一个实施例中,所述分割提取模块还包括点云神经网络;
所述提取所述掩膜覆盖区域的像素级特征步骤,包括:
通过所述卷积神经网络提取所述RGB图像中所述掩膜覆盖区域的像素的颜色特征;
通过所述点云神经网络提取所述深度图像中与掩膜覆盖区域对应位置的像素的几何特征;
将对应位置的像素的所述颜色特征和所述几何特征进行融合处理,得到所述像素的像素级特征。
进一步地,在本申请的一个实施例中,所述稠密对应映射模块包括多层感知机;所述多层感知机用于将所述像素级特征映射到物体坐标系,得到所述像素级特征对应的三维坐标。
进一步地,在本申请的一个实施例中,所述基于映射后的像素级特征得到像素对特征步骤,包括:
将所述像素级特征分为两个子集,两个所述子集互斥;
从两个所述子集中选择像素级特征进行配对,并通过低秩双线性池化得到像素对特征。进一步地,在本申请的一个实施例中,所述姿态估计输出模块包括第一神经网络和级联的多个相同的第二神经网络;
所述通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果步骤,包括:
根据所述像素对特征,通过第一神经网络对所述物体进行姿态估计,得到初始姿态估计结果;
将所述掩膜覆盖区域的像素的颜色特征和所述初始姿态估计结果输入到级联的各个第二神经网络,得到姿态估计的各个改进结果;
根据所述初始姿态估计结果和各个所述改进结果,得到所述姿态估计结果。
进一步地,在本申请的一个实施例中,所述确定姿态估计过程中的第三损失值步骤,包括:
根据所述初始姿态估计结果和物体的真实姿态,确定第四损失值;
根据所述改进结果和物体的真实姿态,确定第五损失值;
以所述第四损失值和第五损失值之和作为姿态估计过程中的所述第三损失值。
第二方面,本申请实施例提出了一种物体姿态估计模型的训练系统,包括:
获取模块,用于获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;
分割模块,用于根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
映射模块,用于通过稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
估计模块,用于将根据所述像素对特征,通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
训练模块,用于根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。
第三方面,本申请实施例提供了一种物体姿态估计模型的训练装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的物体姿态估计模型的训练方法。
第四方面,本申请实施例还提供了一种介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现上述的物体姿态估计模型的训练方法。
本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
本申请实施例采用端到端的方式,在分割提取模块、稠密对应映射模块和姿态估计输出模块分别提供了监督信号,以使模型在优化的过程中能更好地兼顾全局信息,加快训练的速度;还能够使得训练的姿态估计模型具有更强的判别能力,通过该模型对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为根据本申请实施例提供的一种物体姿态估计模型的训练方法的流程示意图;
图2为根据本申请实施例提供的一种物体姿态估计模型的结构示意图;
图3为根据本申请实施例提供的一种物体姿态估计模型的训练系统的结构示意图;
图4为根据本申请实施例提供的一种物体姿态估计模型的训练装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
下面参照附图详细描述根据本申请实施例提出的物体姿态估计模型的训练方法和系统,首先将参照附图描述根据本申请实施例提出的物体姿态估计模型的训练方法。
参照图1,本申请实施例中提供的物体姿态估计模型的训练方法,主要包括以下步骤:
S1、获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;
本申请实施例中,首先获取到含待估计物体的RGB图像和深度图像,具体地,可以从图像获取装置如摄像机中获取,也可以从计算机的图像数据库导入。其中,待估计物体指的是本次训练中需要进行姿态估计的物体,而获取到的图像中还包括其他的背景元素。RGB图像中的R、G、B即是代表红、绿、蓝三个通道的颜色,是一种常用的颜色编码方式;深度图像指的是包含与视点的场景对象表面距离有关的信息的图像或图像通道,其类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离,深度图像也可称为深度图(DepthMap)。需要说明的是,本申请实施例中的上述RGB图像和深度图像是重叠配准的,也即两个图像中相同位置的像素点均是一一对应的关系。
S2、根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
参照图2,图中所示的是本申请实施例中提供的物体姿态估计模型的结构示意图,所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;其中,所述分割提取模块包括卷积神经网络和点云神经网络,所述卷积神经网络用于对所述RGB图像进行分割,得到物体的掩膜,并根据所述掩膜和物体真实掩膜,确定分割过程中的第一损失值。具体地,这一步骤如下:
通过卷积神经网络对输入的RGB图像进行编码得到每个像素的颜色特征,然后通过后续的卷积层处理将每个像素的颜色特征映射为其所属物体的类别标签。类别标签相同的像素共同构成该物体的掩膜。通过卷积神经网络输出的每个像素的类别标签和RGB图像中各个像素所属物体类别的真实标签可确定分割过程中的第一损失值,这里采用的损失函数种类按照现有常用的方式选取,例如可以采用交叉熵损失函数。
在得到物体掩膜后,本申请实施例通过卷积神经网络提取所述RGB图像中掩膜覆盖区域像素的颜色特征,并通过所述点云神经网络提取所述深度图像中掩膜覆盖区域像素的几何特征,并将掩膜覆盖区域对应位置的像素的颜色特征和几何特征进行融合处理,得到该像素的像素级特征。这里的对应位置的像素,指的是配准后两个图像中的同一位置的像素。需要说明的是,本步骤中,所述卷积神经网络可以采用常用的任一种神经网络架构;所述点云神经网络一般采用PointNet网络。
S3、通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
本步骤中,为了能在姿态估计过程中植入物体的三维信息,令每个像素级特征通过多层感知机映射到它在物体坐标系下对应的三维坐标。这种从特征空间到三维空间的映射关系能够对像素级特征的学习起到正则化的作用,一般称之为稠密对应映射(DCM)。通过每个像素级特征在回归物体坐标系中对应点时所产生的误差,确定出映射过程中的第二损失值。
接着,通过上述的像素级特征得到像素对特征:将经过稠密对应映射处理、正则化后的像素级特征分成两个互斥子集,从这两个互斥子集中分别随机挑选像素级特征进行两两配对,并将配对后的像素级特征送入到低秩双线性池化层得到像素对特征。所述低秩双线性池化层的处理逻辑如下:
Figure BDA0002412147820000061
式中,a、b表示一对像素级特征;f(a,b)表示处理a、b得到的像素对特征;P、U、V表示用于双线性池化f(a,b)=aTWb中系数矩阵W的低秩矩阵;σ表示非线性激活函数;
Figure BDA0002412147820000062
表示哈达马乘积。
通过低秩双线性池化层处理后,得到的像素对特征相比于像素级特征能够整合更加丰富的几何信息,使得训练的姿态估计模型具有更强的判别能力,通过该模型对物体进行姿态估计时,在物体被严重遮挡的情况下也能够得到鲁棒的效果。
S4、根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
本申请实施例中,所述姿态估计输出模块包括第一神经网络和级联的多个相同的第二神经网络;其中,第一神经网络用于对所述物体进行姿态估计,得到初始姿态估计结果;第二神经网络用于通过所述初始姿态估计结果和所述掩膜覆盖区域的像素的颜色特征,得到姿态估计的改进结果。以得到初始姿态估计结果的过程为例进行说明:第一神经网络进行姿态估计时,令每个像素对特征回归其所属物体的目标姿态(即真实姿态)及其估计姿态的置信度,估计姿态与目标姿态之间的误差越小的置信度越高,误差越大的置信度越低。在得到像素对特征的多个估计姿态及分别对应的置信度后,取置信度前10%的估计姿态作加权平均得到该物体的初始姿态估计结果。
通过将初始姿态估计结果和所有级联得到的姿态估计的改进结果相乘,就能够得到最终的姿态估计结果,最终的姿态结果相比于初始姿态估计结果具有更小的误差,估计效果更为优越。而且通过级联多个相同的第二神经网络,对初始姿态估计结果进行改进,相对于现有技术中采用一个第二神经网络循环迭代改进的方式效果更好,原因在于:物体姿态在高维空间中是连续的,初始姿态估计结果改进的任务可以视为从初始姿态估计结果出发并通过多次残差估计以到达目标姿态的过程。所以将多个相同的姿态估计改进网络(即第二神经网络)级联并采用联合训练的方式能够更好的引入这种“由粗糙到精确逐步改进”的先验信息以指导网络更好的学习。
本步骤中,所述第三损失值包括两个部分,第一部分为初始姿态估计结果和物体的真实姿态间的误差,记为第四损失值。第四损失值的确定方式为:通过每个像素对特征回归目标姿态时所产生的误差,确定出第四损失值。第二部分为各个第二神经网络在回归与目标姿态之间的相对变换时产生的误差之和,记为第五损失值。
S5、根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。
本步骤中,以第一损失值、第二损失值与第三损失值之和作为模型训练的目标函数,基于上述确定的损失值,通过梯度下降算法可从姿态估计模型的输出端反向传播回去,以指导各个模型中的神经网络进行参数更新,从整体上快速逼近最优解。相对于现有的通过最终输出姿态估计结果的误差情况来确定损失值,更新模型参数的方式,本申请实施例中的方法采用端到端的方式,在分割提取模块、稠密对应映射模块和姿态估计输出模块分别提供了监督信号,以使模型在优化的过程中能更好地兼顾全局信息,加快训练的速度。
其次,参照附图描述根据本申请实施例提出的物体姿态估计模型的训练系统。
图3是本申请一个实施例的物体姿态估计模型的训练系统结构示意图。
所述系统具体包括:
获取模块101,用于获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;
分割模块102,用于根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
映射模块103,用于通过稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
估计模块104,用于将根据所述像素对特征,通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
训练模块105,用于根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图4,本申请实施例提供了一种物体姿态估计模型的训练装置,包括:
至少一个处理器201;
至少一个存储器202,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器201执行时,使得所述至少一个处理器201实现所述的物体姿态估计模型的训练方法。
同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种存储介质,其中存储有处理器201可执行的指令,所述处理器201可执行的指令在由处理器201执行时用于执行所述的物体姿态估计模型的训练方法。
同理,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的物体销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件物体的形式体现出来,该计算机软件物体存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于所述实施例,熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种物体姿态估计模型的训练方法,其特征在于,包括以下步骤:
获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;
根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
通过所述稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
根据所述像素对特征,通过所述姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。
2.根据权利要求1所述的方法,其特征在于:所述分割提取模块包括卷积神经网络;
所述通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值步骤,包括:
通过所述卷积神经网络对所述RGB图像进行分割,得到物体的掩膜;
根据所述掩膜和物体真实掩膜,确定第一损失值。
3.根据权利要求2所述的方法,其特征在于:所述分割提取模块还包括点云神经网络;
所述提取所述掩膜覆盖区域的像素级特征步骤,包括:
通过所述卷积神经网络提取所述RGB图像中所述掩膜覆盖区域的像素的颜色特征;
通过所述点云神经网络提取所述深度图像中与掩膜覆盖区域对应位置的像素的几何特征;
将对应位置的像素的所述颜色特征和所述几何特征进行融合处理,得到所述像素的像素级特征。
4.根据权利要求1所述的方法,其特征在于:所述稠密对应映射模块包括多层感知机;所述多层感知机用于将所述像素级特征映射到物体坐标系,得到所述像素级特征对应的三维坐标。
5.根据权利要求1所述的方法,其特征在于,所述基于映射后的像素级特征得到像素对特征步骤,包括:
将所述像素级特征分为两个子集,两个所述子集互斥;
从两个所述子集中选择像素级特征进行配对,并通过低秩双线性池化得到像素对特征。
6.根据权利要求1所述的方法,其特征在于,所述姿态估计输出模块包括第一神经网络和级联的多个相同的第二神经网络;
所述通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果步骤,包括:
根据所述像素对特征,通过第一神经网络对所述物体进行姿态估计,得到初始姿态估计结果;
将所述掩膜覆盖区域的像素的颜色特征和所述初始姿态估计结果输入到级联的各个第二神经网络,得到姿态估计的各个改进结果;
根据所述初始姿态估计结果和各个所述改进结果,得到所述姿态估计结果。
7.根据权利要求6所述的方法,其特征在于,所述确定姿态估计过程中的第三损失值步骤,包括:
根据所述初始姿态估计结果和物体的真实姿态,确定第四损失值;
根据所述改进结果和物体的真实姿态,确定第五损失值;
以所述第四损失值和第五损失值之和作为姿态估计过程中的所述第三损失值。
8.一种物体姿态估计模型的训练系统,其特征在于,包括:
获取模块,用于获取含待估计物体的RGB图像和深度图像,输入所述姿态估计模型;所述姿态估计模型包括分割提取模块、稠密对应映射模块和姿态估计输出模块;
分割模块,用于根据所述RGB图像和所述深度图像,通过所述分割提取模块分割得到物体的掩膜,确定分割过程中的第一损失值,并提取所述掩膜覆盖区域的像素级特征;
映射模块,用于通过稠密对应映射模块将所述像素级特征映射到物体坐标系,确定映射过程中的第二损失值,并基于映射后的像素级特征得到像素对特征;
估计模块,用于将根据所述像素对特征,通过姿态估计输出模块对所述物体进行姿态估计,得到姿态估计结果,确定姿态估计过程中的第三损失值;
训练模块,用于根据所述第一损失值、第二损失值和第三损失值,对所述姿态估计模型的参数进行训练更新。
9.一种物体姿态估计模型的训练装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7中任一项所述的方法。
CN202010179938.XA 2020-03-16 2020-03-16 物体姿态估计模型训练方法、系统、装置及介质 Active CN111489394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010179938.XA CN111489394B (zh) 2020-03-16 2020-03-16 物体姿态估计模型训练方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010179938.XA CN111489394B (zh) 2020-03-16 2020-03-16 物体姿态估计模型训练方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN111489394A true CN111489394A (zh) 2020-08-04
CN111489394B CN111489394B (zh) 2023-04-21

Family

ID=71791807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010179938.XA Active CN111489394B (zh) 2020-03-16 2020-03-16 物体姿态估计模型训练方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN111489394B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233181A (zh) * 2020-10-29 2021-01-15 深圳市广宁股份有限公司 6d位姿识别的方法、装置及计算机存储介质
CN112446919A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 物体位姿估计方法、装置、电子设备及计算机存储介质
CN112529073A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 模型训练方法、姿态估计方法、装置及电子设备
CN112528858A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 人体姿态估计模型的训练方法、装置、设备、介质及产品
CN113269830A (zh) * 2021-05-17 2021-08-17 中山大学 基于几何约束协同注意力网络的6d位姿估计方法和装置
CN113792607A (zh) * 2021-08-19 2021-12-14 辽宁科技大学 基于Transformer的神经网络手语分类识别方法
CN114821125A (zh) * 2022-04-08 2022-07-29 华南理工大学 一种物体六自由度姿态估计方法、系统、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN109816725A (zh) * 2019-01-17 2019-05-28 哈工大机器人(合肥)国际创新研究院 一种基于深度学习的单目相机物体位姿估计方法及装置
CN110008915A (zh) * 2019-04-11 2019-07-12 电子科技大学 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
CN110047101A (zh) * 2018-01-15 2019-07-23 北京三星通信技术研究有限公司 物体姿态估计方法、获得稠密深度图像的方法、相应装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047101A (zh) * 2018-01-15 2019-07-23 北京三星通信技术研究有限公司 物体姿态估计方法、获得稠密深度图像的方法、相应装置
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN109816725A (zh) * 2019-01-17 2019-05-28 哈工大机器人(合肥)国际创新研究院 一种基于深度学习的单目相机物体位姿估计方法及装置
CN110008915A (zh) * 2019-04-11 2019-07-12 电子科技大学 基于掩码-rcnn进行稠密人体姿态估计的系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233181A (zh) * 2020-10-29 2021-01-15 深圳市广宁股份有限公司 6d位姿识别的方法、装置及计算机存储介质
CN112446919A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 物体位姿估计方法、装置、电子设备及计算机存储介质
CN112446919B (zh) * 2020-12-01 2024-05-28 平安科技(深圳)有限公司 物体位姿估计方法、装置、电子设备及计算机存储介质
CN112529073A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 模型训练方法、姿态估计方法、装置及电子设备
CN112528858A (zh) * 2020-12-10 2021-03-19 北京百度网讯科技有限公司 人体姿态估计模型的训练方法、装置、设备、介质及产品
CN113269830A (zh) * 2021-05-17 2021-08-17 中山大学 基于几何约束协同注意力网络的6d位姿估计方法和装置
CN113792607A (zh) * 2021-08-19 2021-12-14 辽宁科技大学 基于Transformer的神经网络手语分类识别方法
CN113792607B (zh) * 2021-08-19 2024-01-05 辽宁科技大学 基于Transformer的神经网络手语分类识别方法
CN114821125A (zh) * 2022-04-08 2022-07-29 华南理工大学 一种物体六自由度姿态估计方法、系统、装置及介质
CN114821125B (zh) * 2022-04-08 2024-05-14 跨维(深圳)智能数字科技有限公司 一种物体六自由度姿态估计方法、系统、装置及介质

Also Published As

Publication number Publication date
CN111489394B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN111489394B (zh) 物体姿态估计模型训练方法、系统、装置及介质
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
Mueggler et al. Continuous-time trajectory estimation for event-based vision sensors
CN110084243B (zh) 一种基于二维码和单目相机的档案识别与定位方法
CN111709980A (zh) 基于深度学习的多尺度图像配准方法和装置
CN109410316B (zh) 物体的三维重建的方法、跟踪方法、相关装置及存储介质
CN110378250B (zh) 用于场景认知的神经网络的训练方法、装置及终端设备
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
Fácil et al. Single-view and multi-view depth fusion
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
Charco et al. Deep learning based camera pose estimation in multi-view environment
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN115063447A (zh) 一种基于视频序列的目标动物运动追踪方法及相关设备
CN116012515A (zh) 一种神经辐射场网络训练方法以及相关设备
WO2018219227A1 (zh) 结构光解码的方法和设备
Wang et al. Dynamic SFM: detecting scene changes from image pairs
CN115631210A (zh) 一种边缘检测方法及装置
Zhang et al. DuGAN: An effective framework for underwater image enhancement
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN111531546B (zh) 一种机器人位姿估计方法、装置、设备及存储介质
CN111127632B (zh) 人体建模模型获取方法、装置、电子设备及存储介质
CN110717384B (zh) 一种视频交互式行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240304

Address after: 510641 Industrial Building, Wushan South China University of Technology, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou South China University of Technology Asset Management Co.,Ltd.

Country or region after: China

Address before: 510641 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240409

Address after: 518057, Building 4, 512, Software Industry Base, No. 19, 17, and 18 Haitian Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Cross dimension (Shenzhen) Intelligent Digital Technology Co.,Ltd.

Country or region after: China

Address before: 510641 Industrial Building, Wushan South China University of Technology, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou South China University of Technology Asset Management Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right