CN113362388A - 一种用于目标定位和姿态估计的深度学习模型 - Google Patents

一种用于目标定位和姿态估计的深度学习模型 Download PDF

Info

Publication number
CN113362388A
CN113362388A CN202110618048.9A CN202110618048A CN113362388A CN 113362388 A CN113362388 A CN 113362388A CN 202110618048 A CN202110618048 A CN 202110618048A CN 113362388 A CN113362388 A CN 113362388A
Authority
CN
China
Prior art keywords
target
output
deep learning
learning model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110618048.9A
Other languages
English (en)
Inventor
林广栋
王强
黄光红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Core Century Technology Co ltd
Original Assignee
Anhui Core Century Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Core Century Technology Co ltd filed Critical Anhui Core Century Technology Co ltd
Priority to CN202110618048.9A priority Critical patent/CN113362388A/zh
Publication of CN113362388A publication Critical patent/CN113362388A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种深度学习模型,输入二维图像,输出二维图像中目标物体的类别及其在该图像中的最小包围矩形,以及该目标在世界坐标系下的位置与姿态,对推进计算机视觉在机器人、自动驾驶等领域应用具有重要意义;与此同时,还提供了一种用于上述深度学习模型的训练样本生成方法,样本生成效率高,可以给该深度学习模型的训练提供充足的训练样本。

Description

一种用于目标定位和姿态估计的深度学习模型
技术领域
本发明涉及深度学习技术领域,尤其是一种用于目标定位和姿态估计的深度学习模型。
背景技术
目标检测是计算机视觉领域中的经典问题,它将图像分割与目标识别两个任务合二为一个,直接从图像中识别出目标的位置和种类。目前,深度学习技术已经成为实现目标检测任务的主流方法。基于深度学习模型的目标检测算法在精度上已经远远超越了传统的计算机视觉算法。常用于目标检测的深度学习模型包括Fast RCNN、Faster RCNN、SSD、Yolo等。
然而,目前的深度学习模型仅能计算目标在二维图像中的位置,不能给出目标在世界坐标系下的位置以及绕X、Y、Z轴的旋转角度(即姿态),而目标在世界坐标系下的位置和姿态,对机器人、自动驾驶等领域具有重要意义,也是计算机视觉的最终目标之一。目前,通过二维图像得到目标在世界坐标系下的位置,传统计算机视觉领域一般采用特征点匹配的方法,该方法的基础是物体成像公式
Figure BDA0003098487280000011
其中x、y为空间中某点在相机拍摄形成的二维图像中的坐标,u、v、w为该点在三维空间世界坐标系中的坐标,
Figure BDA0003098487280000012
代表相机的内参矩阵,
Figure BDA0003098487280000013
代表由世界坐标系变换至相机坐标系需要进行的旋转和平移变换,
Figure BDA0003098487280000014
代表由世界坐标系中的坐标变换至图像坐标系中所需要进行的变换,称为单应变换矩阵。
传统计算机视觉方法通过提取出图像的SIFT或SURF等特征点,与目标在特定已知位置下的图像进行特征点匹配,再利用RANSAC方法进行筛选,得到符合某单应变换矩阵的匹配内点,再利用这些内点估计得到目标图像相对于已知位置的图像的单应变换矩阵。传统方法缺点在于不是端到端的方法,需要进行大量数学计算和调整参数。当目标在图像中比较小时,从整个图像中提取的特征点会掩盖目标的特征点信息,导致匹配失败。
针对常规深度学习模型和传统计算机视觉方法在识别目标在世界坐标系下的位置和姿态方面的不足,行业内诸多研究人员进行了探索。
PoseNet是剑桥大学Alex Kendall等人提出的深度学习模型,可以从二维图像中得到相机的位置和姿态,但不能得到二维图像中目标物体在世界坐标系下的位置和姿态信息。
美国学者Arun CS Kumar等人提出DepthNet,该深度学习模型可以从双目摄像头输入的两张输入图像中得到图像中每个像素对应的深度信息,即相对于相机的距离信息。显然,该模型给出一些关于图像的三维空间信息,但并不能识别图像中的目标,并给出该目标在世界坐标系下的位置和姿态信息。
德国学者Philipp Fischer等人提出FlowNet,该深度学习模型以视频中的连续两张图像作为输入,可以给出图像中每个像素的光流信息,即对每个像素的运动方向与速度进行预测。显然,该模型也不能给出目标在世界坐标系下的位置和姿态信息。
国家知识产权局于2019年7年5年公开的发明专利申请CN109977945A——《基于深度学习的定位方法和系统》提出的深度学习模型可以给出物体在二维图像中的位置,以及在二维图像中包围目标的最小矩阵和最小旋转包围矩形信息,仍然不是在世界坐标系下的位置和姿态信息。
国家知识产权局于2018年12月28日公开的发明专利申请CN109101966A——《基于深度学习的工件识别定位和姿态估计系统和方法》提出的深度学习模型可以给出目标在二维图像中的中心位置、宽、高,以及绕三维空间坐标系统X、Y、Z轴旋转的角度信息,但并未给出目标在世界坐标系下的位置信息。
国家知识产权局于2019年12月17日公开的发明专利申请CN110580723A——《一种利用深度学习和计算机视觉进行精准定位的方法》提出利用常规的用于目标检测的深度学习模型来识别目标在二维图像中的位置,然后把这部分图像截取出来,采取传统计算机视觉方法估计出目标的空间位置。此方法中的深度学习模型仅仅用来识别目标在二维图像中的位置,仍然要采用传统计算机视觉方法来估计出目标的空间位置。
国家知识产权局于2019年2月16日授权公告的发明专利CN106023211B——《基于深度学习的机器人图像定位方法及系统》提出利用深度学习模型提取二维图像的特征信息,再基于这些特征信息进行匹配,通过传统计算机视觉方法得到机器人的运动轨迹。此方法也不能由深度学习模型得到目标在世界坐标系下的位置和姿态信息。
国家知识产权局于2020年7月14日公开的发明专利申请CN111415384A——《一种基于深度学习的工业图像组件精准定位系统》提出利用深度学习模型得到二维图像中工业组件的角点位置信息,再基于这些角点位置信息,得到工件的位置。此方法也不能由深度学习模型得到目标在世界坐标系下的位置和姿态信息。
发明内容
针对现有技术中缺少能够直接从二维图像中识别出目标在世界坐标系下的位置和姿态信息的深度学习模型,本发明提出一种用于目标定位和姿态估计的深度学习模型。
一种用于目标定位和姿态估计的深度学习模型,向该深度学习模型输入二维图像,输出二维图像中目标物体的类别及其在该图像中的最小包围矩形,以及该目标物体在世界坐标系下的位置与姿态;
该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成;特征提取模块提取图像信息形成特征图金字塔;空间定位模块为每层特征图中的每个点生成一个虚拟锚框,并根据训练数据中目标物体在二维图像中的中心位置以及与锚框的重叠程度,选择重叠度高的锚框输出进行训练;
空间定位模块为每层特征图中的每个点形成多个输出作为训练目标,其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息,目标物体在世界坐标系下的位置信息与姿态信息,以及目标物体的类别概率信息。该深度学习模型在训练完成后方可执行目标定位和姿态估计任务。执行目标定位和姿态估计任务时,选择每层特征图的每个位置的输出中属于任一类别概率超过预设阈值的输出,进行非极大值抑制后,作为整个模型的最终输出,该输出代表模型从输入的二维图像中识别出的目标物体信息。
进一步的,最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值;目标的位置信息为中心在特征图该点代表的锚框内的目标在世界坐标系中的X、Y、Z轴坐标,目标的姿态信息为中心在特征图该点代表的锚框内的目标相对于世界坐标系X、Y、Z轴的旋转角度;目标的类别概率信息为经过softmax函数输出的目标物体为某个类别的概率。
进一步的,每层特征提取模块由多个特征提取单元构成。
进一步的,空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成,每个运算单元通过神经网络对每层特征图进行运算,得到与该层特征图维度相同的多通道输出,包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出(记目标物体分为N类)。
进一步的,对该深度学习模型进行训练时,该深度学习模型的总误差L=λRLRPLPCLCBLB,其中LR为旋转角度误差,LP为空间位置误差,LC为分类误差,LB为最小包围矩阵误差,λR、λP、λC、λB分别为旋转角度误差、空间位置误差、分类误差、最小包围矩阵误差在总误差中的占比,均为该深度学习模型的超参数。
进一步的,该深度学习模型执行目标识别与定位功能时,针对目标的每个类别,若某层的某位置的输出概率大于预设阈值,则认为目标属于该类别;当针对一个类别,存在多个位置的输出概率大于预设阈值时,则对多个位置的输出进行非极大值抑制。
进一步的,针对一个类别的多个位置的输出进行非极大值抑制包括以下步骤:
步骤A1,选择所有输出概率大于预设阈值的位置作为候选目标输出;
步骤A2,选取候选目标输出中属于该类别概率最大的输出,将其作为最终输出之一,同时从候选目标输出中予以删除;
步骤A3,计算候选目标输出中其他目标输出的最小包围矩形与概率最大的目标输出的最小包围矩形的IOU,并删除IOU大于预设阈值的候选目标输出;
步骤A4,若还存在其他目标输出,则返回步骤A2,否则,结束非极大值抑制算法。
本发明还保护一种用于上述深度学习模型的训练样本获取方法,包括以下步骤:
步骤B1,获取目标的三维矢量图,包括物体的大小、形状及各个面的纹理图像;
步骤B2,利用计算机仿真软件将目标以随机姿态放入背景图像的随机位置;
步骤B3,根据物体成像公式,通过计算机图形学算法计算得到该目标的虚拟图像及其在虚拟图像中的最小包围矩形;
步骤B4,对虚拟图像进行图像处理,以得到更多的虚拟图像,图像处理操作包括但不限于模糊、锐化、加入噪声;
步骤B5,已知的目标的类别、在世界坐标系中的位置和姿态信息,目标在该虚拟图像中的最小包围矩形,以及对应的虚拟图像即构成该深度学习模型的一个训练样本。
本发明提供了一种深度学习模型,输入二维图像,就能识别出二维图像中的目标类别及其在该图像中的最小包围矩形,以及该目标在世界坐标系下的位置与姿态,对推进计算机视觉在机器人、自动驾驶等领域应用具有重要意义;与此同时,还提供了一种用于上述深度学习模型的训练样本生成方法,样本生成效率高,可以给模型训练提供充足的训练样本。
附图说明
图1为多层特征提取模块结构示意图;
图2为每层特征图维度缩小2倍时的特征图变化示意图;
图3为包含2个连续特征提取单元的特征提取模块示意图;
图4为增加直连操作的特征提取模块示意图;
图5为2*2大小的特征图在原始图像中代表的锚框示意图;
图6为4*4大小的特征图在原始图像中代表的锚框示意图;
图7为空间定位模块模型示意图;
图8为空间定位模块针对特征图中的每个点的输出示意图;
图9为物体的中心在多个不同特征层的不同锚框中的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
一种用于目标定位和姿态估计的深度学习模型,向该深度学习模型输入二维图像,输出二维图像中的目标类别及其在该图像中的最小包围矩形,以及该目标在世界坐标系下的位置与姿态。简而言之,该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成。
特征提取模块提取图像信息形成特征图,除最后一层特征提取模块之外的每层特征提取模块,在完成图像特征提取后,通过池化层降低特征图的维度,再由下一层特征提取模块进行更低维度的图像特征提取,进而形成特征图金字塔。
以图1所示的6层特征提取模块为例,大小为1024*1024的原始图像输入第1层特征提取模块,得到第1层特征图(1024*1024);通过池化层1将特征图降维至256*256,再通过第2层特征提取模块得到第2层特征图(256*256);通过池化层2将特征图降维至64*64,再通过第3层特征提取模块得到第3层特征图(64*64);通过池化层3将特征图降维至16*16,再通过第4层特征提取模块得到第4层特征图(16*16);通过池化层4将特征图降维至4*4,再通过第5层特征提取模块得到第5层特征图(4*4);通过池化层5将特征图降维至1*1,再通过第6层特征提取模块得到第6层特征图(1*1)。
图1以特征图维度每层缩小4倍为例,若特征图维度每层缩小2倍,即1024→512→256→128→64→32→16→8→4→2→1,即经过11层特征提取模块,得到1*1大小的特征图。图2为此种情形下的特征图变化示意图。从中可以看出,随着特征图的维度随着层数的增加而降低,其通道数逐渐增加。特征图的维度越小,代表图像中越大目标的特征,同时,因为目标的抽象特征种类很多,一般其通道数越大;特征图的维度越大,代表图像中越小目标的特征,其可能包含的物体数量越多,同时,由于物体的低层特征种类相对较少,一般其通道数越少。
特征提取模块可以基于现有技术以任意方式实现,其本质在于提取图像中包含的信息。一般,低层的特征提取模块提供图像的底层信息,如边缘、明暗、纹理等等;而高层特征提取模块再组合底层特征提取模块的信息,提取更抽象的信息,如图像中的物体类别等等。在本实施例中,每层特征提取模块由多个特征提取单元构成,每个特征提取单元由卷积层(Conv2D)、批量归一化层(BatchNormalization)、线性整流层(Relu)构成。图3所示为包含2个连续特征提取单元的特征提取模块示意图。
将基于一层特征提取模块进行的特征操作称之为一个阶段。每个阶段,随着操作向后进行,每个操作的输出代表图像更为抽象的信息,而前面操作的输出代表图像较为具体的信息。例如,第一次卷积操作之后,特征图代表图像中边缘的强度,经过多次卷积、批量归一化、线性整流操作之后,特征图则代表图像中某种角点的强度。为了把图像的抽象特征与具体特征相融合,本实施例选择在每个阶段中增加直连操作。直连操作直接将某个操作的输出通过逐元素相加与后面若干个操作之后的输出相连,或把某个操作的输出直接拼接到后面若干个操作之后的输出中,作为后面若干个操作的输入的一个通道,如图4所示。
每层特征图在输出给下一层特征提取模块的同时,还输出至空间定位模块。特征图中的每个点通过空间定位模块形成多个输出,其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息,目标物体在世界坐标系下的位置信息与姿态信息,以及目标物体的类别概率信息。
空间定位模块通过锚框矩形在原始图像中定位每层特征图中每个点的位置,并基于每层特征图,得到与该层特征图维度相同的多通道输出。
首先,空间定位模块为每层特征图定义了锚框矩形的概念,将特征图放大至原始图像大小后,特征图上每个点在原始图像中的位置和大小即为锚框矩形的位置和大小。
例如,设原始图像大小N*M,则2*2大小的特征图放大到原始图像大小后,每个特征点均放大为高为N/2、宽为M/2的矩形,且4个特征点放大之后形成矩形分别对应原始图像的左上区域、右上区域、左下区域、右下区域。以图像左上角为坐标原点,横向为X轴,纵向为Y轴建立平面坐标系,X轴向右增长,Y轴向下增长,则每个特征点的锚框矩形的中心点坐标分别为(M/4,N/4)、(M*3/4,N/4)、(M/4,N*3/4)、(M*3/4,N*3/4),锚框矩形的高均为N/2,宽均为M/2。图5、图6分别展示了2*2大小的特征图和4*4大小的特征图在原始图像中代表的锚框。
空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成,这些运算单位分别输出目标物体的最小包围矩形信息、空间位置信息、旋转角度信息、分类概率信息,如图7所示。每个运算单元通过神经网络对每层特征图进行运算,得到与该层特征图维度相同的多通道输出,包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出(记目标物体分为N类),如图8所示。运算单元的神经网络也是通过对特征图反复交替使用卷积操作、批量归一化操作和线性整流操作,最终得到与该层特征图维度相同的多通道输出。由于最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元的输出可能有负数,在这些运算单元靠近输出的最后一层不再使用线性整流操作,而是采用卷积操作,参照图7。在分类概率运算单元的最后一层通过softmax算子对卷积层的输出进行归一化,以输出总和为1的各类别的分类概率。图7中仅示出一轮卷积操作、批量归一化操作和线性整流操作。
最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量dx、dy和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值dw、dh;目标的位置信息为中心在特征图该点代表的锚框内的目标的X、Y、Z轴坐标Px、Py、Pz,目标的姿态信息为中心在特征图该点代表的锚框内的目标相对于X、Y、Z轴的旋转角度Rx、Ry、Rz;目标的类别概率信息为经过softmax函数输出的目标物体为各个类别的概率。
当对该深度学习模型进行训练时,总误差L=λRLRPLPCLCBLB,其中LR为旋转角度误差,LP为空间位置误差,LC为分类误差;LB为最小包围矩阵误差,λR、λP、λC、λB分别为旋转角度误差、空间位置误差、分类误差、最小包围矩阵误差在总误差中的占比。
旋转角度误差函数
Figure BDA0003098487280000081
其中Rx、Ry、Rz分别为深度学习模型预测的目标相对于X、Y、Z轴的旋转角度,
Figure BDA0003098487280000082
分别为目标真实绕X、Y、Z轴的旋转角度。深度学习模型会产生金字塔结构的特征图输出,L为特征金字塔的层数,Nl为特征金字塔第l层特征图的行数,Ml为特征金字塔第l层特征图的列数,Ilij表征特征金字塔第l层特征图的第i行第j列的位置有无目标(若有目标,Ilij为1;若无目标,Ilij为0)。深度学习模型为特征金字塔的每一层的每一特征位置输出3个旋转角度信息,上述误差仅仅测量包含目标位置处的旋转角度误差。
空间位置误差
Figure BDA0003098487280000083
其中Px、Py、Pz分别为深度学习模型预测的目标在X、Y、Z轴的坐标;
Figure BDA0003098487280000084
分别为目标的X、Y、Z轴的坐标。深度学习模型为特征金字塔的每一层的每一特征位置输出X、Y、Z轴的坐标信息,上述误差仅仅测量包含目标位置处的空间位置误差。
分类误差
Figure BDA0003098487280000085
其中N为目标的类别数目。深度学习模型在特征金字塔的每一层的每一特征位置都针对分类产生一个softmax型输出。所谓softmax型输出即输出N个实数,每个输出代表目标属于某个类型的概率,所有N个输出之和为1。pc为深度学习模型针对分类任务的第c个输出的值,代表模型计算出的中心点在该锚框中的目标属于第c类的概率,
Figure BDA0003098487280000086
为目标属于第c个类型的真实概率。显然,对于特定的目标,
Figure BDA0003098487280000087
要么为0,要么为1,且所有类型中只有1个为1,即N个
Figure BDA0003098487280000088
中只能有1个为1,其余都是0。
最小包围矩形误差
Figure BDA0003098487280000089
其中dx、dy分别为深度学习模型预测的目标最小包围矩形的中心相对于锚框中心位置在图像上偏移,dw、dh分别为深度学习模型预测的目标最小包围矩形的宽、高相对于锚框矩形宽、高的比例,
Figure BDA0003098487280000091
分别为真实的目标最小包围矩形的中心相对于锚框中心位置在图像上偏移,
Figure BDA0003098487280000092
分别为真实的目标最小包围矩形的宽、高相对于锚框矩形宽、高的比例。
以上四种误差的计算公式中都包含一个重要的参数Ilij,Ilij表征特征金字塔第l层特征图的第i行第j列的位置有无目标。参照图9所示,一个目标物体的中心可能处于特征金字塔不同特征层不同位置所代表的锚框中,该图中的目标物体是一个立方体,该立方体的中心既位于锚框1中,也位于锚框2、3中。本模型规定选择与目标物体的最小包围矩形的IOU最大的锚框作为包含目标物体的锚框。因此,对于一个目标物体,所有特征层的所有位置的锚框只能有一处的Ilij为1。对于图9中的物体,仅有锚框3所代表的Ilij为1,其余锚框所代表的Ilij均为0。若图像中仅包含一个目标物体,则只有一个锚框代表的误差为非0,其余锚框输出的误差为0,不参与误差反传的计算。显然,大多数情况下,图像中的目标物体的数量是较少的,因此,对于一个训练样本,只有少数锚框代表的误差为非0,参与误差反传的计算。
当该深度学习模型执行目标识别与定位任务时,针对目标的每个类别,若某层的某位置的输出概率大于预设阈值,则认为目标属于该类别;当针对一个类别,存在多个位置的输出概率大于预设阈值时,则对多个位置的输出进行非极大值抑制,具体包括以下步骤:
步骤A1,选择所有输出概率大于预设阈值的位置作为候选目标输出;
步骤A2,选取候选目标输出中属于该类别概率最大的输出,将其作为最终输出之一,同时从候选目标输出中予以删除;
步骤A3,计算候选目标输出中其他目标输出的最小包围矩形与概率最大的目标输出的最小包围矩形的IOU,并删除IOU大于预设阈值的候选目标输出;
步骤A4,若还存在其他目标输出,则返回步骤A2,否则,结束非极大值抑制算法。
最终,模型输出二维图像中的目标类别及其在该图像中的最小包围矩形,以及该目标在世界坐标系下的位置与姿态。
实施例2
目前,用于类似深度学习模型训练样本的传统获取方法是按照已知位置和已知姿态摆放好目标物体,然后拍摄目标物体照片,人工标注图像中目标物体的最小包围矩形,最后将目标物体的空间位置、旋转角度、人工标注的最小包围矩形、物体分类以及图像一起作为训练样本加入训练样本集中。该方法的优点是数据最为真实,缺点是获取样本的速度慢。由于本发明提出的深度学习模型包含信息量大,需要大量不同位置、不同姿态的物体照片作为训练样本。若使用该方法获取训练样本,将会耗费大量时间。
因此,本发明还提供一种基于上述深度学习模型的训练样本获取方法,包括以下步骤:
步骤B1,获取目标的三维矢量图,包括物体的大小、形状及各个面的纹理图像;
步骤B2,利用计算机仿真软件将目标以随机姿态放入背景图像的随机位置;
步骤B3,根据物体成像公式,通过计算机图形学算法计算得到该目标的虚拟图像及其在虚拟图像中的最小包围矩形;
步骤B4,对虚拟图像进行图像处理,以得到更多的虚拟图像,图像处理操作包括但不限于模糊、锐化、加入噪声;
步骤B5,已知的目标的类别、在世界坐标系中的位置和姿态信息、目标在该虚拟图像中的最小包围矩形,以及对应的虚拟图像即构成该深度学习模型的一个训练样本。
通过上述方法,只需要有物体矢量图,就可以快速获得大量包含位置、姿态信息的训练样本,解决了本发明提出的深度学习模型,训练样本难以快速获得的不足。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

Claims (8)

1.一种用于目标定位和姿态估计的深度学习模型,其特征在于,向该深度学习模型输入二维图像,输出二维图像中目标物体的类别及其在该图像中的最小包围矩形,以及该目标物体在世界坐标系下的位置与姿态;
该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成;特征提取模块提取图像信息形成特征图金字塔;空间定位模块为每层特征图中的每个点生成一个虚拟锚框,并输出该虚拟锚框中目标物体在二维图像中的最小包围矩形信息,该目标物体在世界坐标系下的位置信息与姿态信息,以及该目标物体的类别概率信息。对该深度学习模型进行训练时,根据训练数据中目标物体在二维图像中的中心位置以及与锚框的重叠程度,选择重叠度高的锚框输出进行训练。
该深度学习模型执行目标定位和姿态估计任务时,空间定位模块为每层特征图中的每个点形成多个输出,其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息,该目标物体在世界坐标系下的位置信息与姿态信息,以及该目标物体的类别概率信息。选择所有特征图的所有位置的类别输出中属于任一类别概率超过预设阈值的输出,进行非极大值抑制后,作为整个模型的最终输出,该输出代表模型从输入的二维图像中识别出的目标物体信息。
2.根据权利要求1所述的用于目标定位和姿态估计的深度学习模型,其特征在于,最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值;
目标的位置信息为目标物体在世界坐标系下的X、Y、Z轴坐标,目标的姿态信息为目标物体相于世界坐标系X、Y、Z轴的旋转角度;目标的类别概率信息为经过softmax函数输出的目标为某个类别的概率。
3.根据权利要求2所述的用于目标定位和姿态估计的深度学习模型,其特征在于,每层特征提取模块由多个特征提取单元构成。
4.根据权利要求1-3任意一项所述的用于目标定位和姿态估计的深度学习模型,其特征在于,空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成,每个运算单元通过神经网络对每层特征图进行运算,得到与该层特征图维度相同的多通道输出,包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出。
5.根据权利要求4所述的用于目标定位和姿态估计的深度学习模型,其特征在于,当对该深度学习模型进行训练时,该深度学习模型的总误差L=λRLRPLPCLCBLB,其中LR为旋转角度误差,LP为空间位置误差,LC为分类误差,LB为最小包围矩阵误差,λR、λP、λC、λB分别为旋转角度误差、空间位置误差、分类误差、最小包围矩阵误差在总误差中的占比,均为该深度学习模型的超参数。
6.根据权利要求1所述的用于目标定位和姿态估计的深度学习模型,其特征在于,当执行目标定位和姿态估计任务时,针对目标的每个类别,若某层的某位置的输出概率大于预设阈值,则认为目标属于该类别;当针对一个类别,存在多个位置的输出概率大于预设阈值时,则对多个位置的输出进行非极大值抑制,得到该模型最终的输出。
7.根据权利要求6所述的用于目标定位和姿态估计的深度学习模型,其特征在于,针对一个类别的多个位置的输出进行非极大值抑制包括以下步骤:
步骤A1,选择所有输出概率大于预设阈值的位置作为候选目标输出;
步骤A2,选取候选目标输出中属于该类别概率最大的输出,将其作为最终输出之一,同时从候选目标输出中予以删除;
步骤A3,计算候选目标输出中其他目标输出的最小包围矩形与概率最大的目标输出的最小包围矩形的IOU,并删除IOU大于预设阈值的候选目标输出;
步骤A4,若还存在其他目标输出,则返回步骤A2,否则,结束非极大值抑制算法。
8.一种用于权利要求1所述的深度学习模型的训练样本获取方法,其特征在于,包括以下步骤:
步骤B1,获取目标的三维矢量图,包括物体的大小、形状及各个面的纹理图像;
步骤B2,利用计算机仿真软件将目标以随机姿态放入背景图像的随机位置;
步骤B3,根据物体成像公式,通过计算机图形学算法计算得到该目标的虚拟图像及其在虚拟图像中的最小包围矩形;
步骤B4,对虚拟图像进行图像处理,以得到更多的虚拟图像,图像处理操作包括但不限于模糊、锐化、加入噪声;
步骤B5,已知的目标的类别、在世界坐标系中的位置和姿态信息、目标在该虚拟图像中的最小包围矩形,以及对应的虚拟图像即构成该深度学习模型的一个训练样本。
CN202110618048.9A 2021-06-03 2021-06-03 一种用于目标定位和姿态估计的深度学习模型 Pending CN113362388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618048.9A CN113362388A (zh) 2021-06-03 2021-06-03 一种用于目标定位和姿态估计的深度学习模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618048.9A CN113362388A (zh) 2021-06-03 2021-06-03 一种用于目标定位和姿态估计的深度学习模型

Publications (1)

Publication Number Publication Date
CN113362388A true CN113362388A (zh) 2021-09-07

Family

ID=77531564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618048.9A Pending CN113362388A (zh) 2021-06-03 2021-06-03 一种用于目标定位和姿态估计的深度学习模型

Country Status (1)

Country Link
CN (1) CN113362388A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150974A1 (en) * 2015-06-12 2018-05-31 Sony Corporation Image processing apparatus, method, and program
CN109540126A (zh) * 2018-12-03 2019-03-29 哈尔滨工业大学 一种基于光流法的惯性视觉组合导航方法
CN110136202A (zh) * 2019-05-21 2019-08-16 杭州电子科技大学 一种基于ssd与双摄像头的多目标识别与定位方法
US20200094406A1 (en) * 2017-05-31 2020-03-26 Preferred Networks, Inc. Learning device, learning method, learning model, detection device and grasping system
CN112639846A (zh) * 2021-02-07 2021-04-09 华为技术有限公司 一种训练深度学习模型的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150974A1 (en) * 2015-06-12 2018-05-31 Sony Corporation Image processing apparatus, method, and program
US20200094406A1 (en) * 2017-05-31 2020-03-26 Preferred Networks, Inc. Learning device, learning method, learning model, detection device and grasping system
CN109540126A (zh) * 2018-12-03 2019-03-29 哈尔滨工业大学 一种基于光流法的惯性视觉组合导航方法
CN110136202A (zh) * 2019-05-21 2019-08-16 杭州电子科技大学 一种基于ssd与双摄像头的多目标识别与定位方法
CN112639846A (zh) * 2021-02-07 2021-04-09 华为技术有限公司 一种训练深度学习模型的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报, no. 04 *

Similar Documents

Publication Publication Date Title
Christiansen et al. Unsuperpoint: End-to-end unsupervised interest point detector and descriptor
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
CN112258618B (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
CN109740665B (zh) 基于专家知识约束的遮挡图像船只目标检测方法及系统
Ammar Abbas et al. A geometric approach to obtain a bird's eye view from an image
CN112270249A (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
CN111862201B (zh) 一种基于深度学习的空间非合作目标相对位姿估计方法
CN107230203B (zh) 基于人眼视觉注意机制的铸件缺陷识别方法
CN110930347A (zh) 卷积神经网络的训练方法、焊点缺陷的检测方法及装置
CN111310631B (zh) 一种旋翼作业飞行机器人目标跟踪方法及系统
CN113221647B (zh) 一种融合点云局部特征的6d位姿估计方法
US20230080133A1 (en) 6d pose and shape estimation method
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
Petit et al. A robust model-based tracker combining geometrical and color edge information
JP2021163503A (ja) 2次元カメラによる3次元の姿勢推定
CN111768415A (zh) 一种无量化池化的图像实例分割方法
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
CN112184765A (zh) 一种基于视觉的水下航行器自主跟踪方法
Li et al. Vision-based target detection and positioning approach for underwater robots
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
JP2021176078A (ja) 深層学習及びベクトル場推定による特徴検出
Yao et al. An accurate box localization method based on rotated-RPN with weighted edge attention for bin picking
CN116921932A (zh) 焊接轨迹识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination