CN111179312B

CN111179312B - 基于3d点云和2d彩色图像相结合的高精度目标跟踪方法

Info

Publication number: CN111179312B
Application number: CN201911349222.3A
Authority: CN
Inventors: 张弥; 曹景博; 张建华; 彭尚棚
Original assignee: Beijing Sineva Technology Co ltd
Current assignee: Beijing Sineva Technology Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-07-21
Anticipated expiration: 2039-12-24
Also published as: CN111179312A

Abstract

本发明公开了一种基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，通过获取机器人前方的2D彩色图像和3D空间中的深度信息，可以识别2D彩色图像内的感兴趣的目标。通过采用稀疏表示实现2D彩色图像中的目标追踪，并且由于目标最终映射到3D空间中，从而还可以精确计算目标在三维空间中的轨迹，进而实现3D点云中的目标追踪。以及由于将目标模板图像划分为多个局部的方式，可以改善目标在2D图像中被局部遮挡和相似背景干扰的问题，从而可以提高目标跟踪方法的精度。

Description

基于3D点云和2D彩色图像相结合的高精度目标跟踪方法

技术领域

本发明涉及机器人技术领域，特别涉及基于3D点云和2D彩色图像相结合的高精度目标跟踪方法。

背景技术

机器人技术飞速发展，使得机器人在实际问题中得到了越来越广泛的应用。目前，机器人可以在有障碍物的环境中面向目标进行自主运动，从而完成一定作业功能，并已在跟踪工厂环境下人员、移动货架、AGV(Automated Guided Vehicle，自动导引运输车)等环境中得到广泛的应用。

发明内容

本发明实施例提供的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，用以对目标的具体位置进行跟踪。

本发明实施例提供了一种基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，包括：

获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息；其中，t为整数且t>1；

识别所述2D彩色图像内的初始物体；

采用目标框在预先确定的目标位置处周围选取多个候选图像；其中，所述目标位置处为所述第t帧中的2D彩色图像内与第t-1帧的2D彩色图像内目标追踪的具体位置的相同位置处；

将所述候选图像中的每一个划分为M个第一局部区域，以及将预先确定的所述目标对应的目标模板图像划分为M个第二局部区域；其中，M为正整数；

根据每一个所述候选图像对应的M个第一局部区域、所述目标模板图像对应的M个第二局部区域、以及M个权重，采用稀疏表示确定每一个所述候选图像对应的系数向量；其中，相同位置处的第一局部区域和第二局部区域对应同一个权重，不同权重对应的局部区域不同；

根据确定出的每一个所述候选图像对应的系数向量，确定所述目标在所述第t帧内的预测状态；

根据第t帧中所述目标在2D彩色图像内的检测状态，并将所述第t帧的所述检测状态与所述预测状态进行关联匹配与融合，确定所述目标在所述第t帧内的当前状态；

将确定出的所述目标在所述第t帧内的当前状态和所述目标对应的深度信息，映射到所述3D空间中，确定所述目标在所述3D空间中的具体位置信息。

可选地，在本发明实施例中，在所述获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息之前，还包括：

获取第1帧中所述机器人前方的2D彩色图像和3D空间中的深度信息；

识别所述第1帧中的所述2D彩色图像内的初始物体；

将所述第1帧中识别出的所述2D彩色图像内的初始物体中的至少一个进行标记，以作为目标。

可选地，在本发明实施例中，所述目标跟踪方法还包括：

在连续的至少两帧识别出的初始物体中不具有标记的目标时，移除对所述目标的标记。

可选地，在本发明实施例中，确定所述M个权重中的第m个权重的方法，包括：

采用所述目标框，将第t-1帧中所述目标的当前状态在2D彩色图像中选取出来，作为基准图像；

将所述基准图像划分为M个基准局部区域；

将第m个基准局部区域中所述目标的像素点的总数与所述基准图像中目标的所有像素点的总数的比值，确定为第m个权重；m为整数，且1≤m≤M。

可选地，在本发明实施例中，第1帧中的目标对应的目标模板图像为所述目标在所述第1帧的2D彩色图像内采用目标框标示出的图像；

第t帧中的目标对应的目标模板图像为第t-1帧中的目标模板图像与所述第t-1帧中所述目标在所述2D彩色图像内采用目标框标示出的图像融合后确定的图像。

可选地，在本发明实施例中，所述识别所述2D彩色图像内的初始物体，具体包括：

采用预先训练好的Mask R-CNN算法识别所述2D彩色图像内的初始物体。

可选地，在本发明实施例中，采用RGB-D相机获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息。

可选地，在本发明实施例中，采用双目3D摄像头获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息。

可选地，在本发明实施例中，采用预先训练好的Mask R-CNN算法，确定第t帧中所述目标在2D彩色图像内的检测状态。

本发明有益效果如下：

本发明实施例提供的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，通过获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息，可以得到2D彩色图像和深度信息。通过识别2D彩色图像内的初始物体，可以确定2D彩色图像中具有哪种物体。之后，采用目标框在预先确定的目标位置处周围选取多个候选图像。将候选图像中的每一个划分为M个第一局部区域，以及将预先确定的目标对应的目标模板图像划分为M个第二局部区域。以及根据每一个候选图像对应的M个第一局部区域、目标模板图像对应的M个第二局部区域、以及M个权重，采用稀疏表示确定每一个候选图像对应的系数向量。之后根据确定出的每一个候选图像对应的系数向量，确定目标在第t帧内的预测状态。以及根据第t帧中目标在2D彩色图像内的检测状态，并将第t帧的检测状态与预测状态进行关联匹配与融合，确定目标在第t帧内的当前状态，并将确定出的目标在第t帧内的当前状态和目标对应的深度信息，映射到3D空间中，确定目标在3D空间中的具体位置信息。这样可以通过将候选图像和目标模板图像整个图像划分为多个局部的方式，采用稀疏表示将2D彩色图像和3D点云进行结合，以实现目标追踪。并且由于目标最终映射到3D空间中，从而还可以精确计算目标在三维空间中的轨迹。以及，由于将候选图像和目标模板图像整个图像划分为多个局部的方式，可以改善目标被局部遮挡和相似背景干扰的问题，从而可以提高目标跟踪方法的精度。

附图说明

图1为本发明实施例提供的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法的流程图；

图2为本发明实施例提供的第1帧中的目标对应的目标模板图像的示意图；

图3为本发明实施例提供的候选图像对应的示意图；

图4为本发明实施例提供的目标模板图像对应的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

需要注意的是，附图中各图形的尺寸和形状不反映真实比例，目的只是示意说明本发明内容。并且自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

一般，机器人可以利用成像系统、激光测距仪、声纳等识别场景信息和目标状态，并利用目标追踪算法保持对目标进行稳定追踪。并且还可以执行下述操作：可以依据感知到的信息进行避障、目标跟踪、沿指定路径行进等；可以根据场景信息的变化自动调整行为模式；可以根据任务需求进行移动等；使用者可采用命令行或操作界面的方式驱动机器人执行指定任务，以及可以通过图像、语音、文本等方式获得机器人反馈的任务执行情况。

视觉信息作为人类感知外界信息的主要依据，在各类信息的占比可达80％。因此对于执行运动目标追踪的机器人而言，往往以图像序列作为检测、识别、跟踪目标的信息源，并以图像作为主要的人机交互方式来反馈目标信息，以帮助机器人更好地观察被跟踪目标，感知当前环境状态，以实现路径规划、自主避障以及到达指定区域。目标与机器人之间的距离是机器人进行决策判断的依据之一，若能直接由彩色图像得到距离信息，而不借助于诸如激光测距仪、声纳等设备，将大大降低机器人的系统复杂度和成本。

通常机器人在随动跟踪过程中，与目标之间的距离难免会发生变化。机器人在跟踪目标的过程中需要与目标保持合适的距离。若距离太近，当目标突然减速时机器人可能会因为制动不及时与目标发生碰撞，距离过近也不利于及时通过图像反馈获取目标的整体状况和周边环境的信息。若距离过远，则机器人可能会因为目标突然加速或转向而跟丢目标。因此，如何使机器人的跟踪精度提高，是本领域技术人员亟待解决的技术问题。

本发明实施例提供的一种基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，如图1所示，可以包括如下步骤：

S10、获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息；其中，t为整数且t>1；

S20、识别2D彩色图像内的初始物体；

S30、采用目标框在预先确定的目标位置处周围选取多个候选图像；其中，目标位置处为第t帧中的2D彩色图像内与第t-1帧的2D彩色图像内目标追踪的具体位置的相同位置处；

S40、将候选图像中的每一个划分为M个第一局部区域，以及将预先确定的目标对应的目标模板图像划分为M个第二局部区域；其中，M为正整数；

S50、根据每一个候选图像对应的M个第一局部区域、目标模板图像对应的M个第二局部区域、以及M个权重，采用稀疏表示确定每一个候选图像对应的系数向量；其中，相同位置处的第一局部区域和第二局部区域对应同一个权重，不同权重对应的局部区域不同；

S60、根据确定出的每一个候选图像对应的系数向量，确定目标在第t帧内的预测状态；

S70、根据第t帧中目标在2D彩色图像内的检测状态，并将第t帧的检测状态与预测状态进行关联匹配与融合，确定目标在第t帧内的当前状态；

S80、将确定出的目标在第t帧内的当前状态和目标对应的深度信息，映射到3D空间中，确定目标在3D空间中的具体位置信息。

本发明实施例提供的上述基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，通过获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息，可以得到2D彩色图像和深度信息。通过识别2D彩色图像内的初始物体，可以确定2D彩色图像中具有哪种物体。之后，采用目标框在预先确定的目标位置处周围选取多个候选图像。将候选图像中的每一个划分为M个第一局部区域，以及将预先确定的目标对应的目标模板图像划分为M个第二局部区域。以及根据每一个候选图像对应的M个第一局部区域、目标模板图像对应的M个第二局部区域、以及M个权重，采用稀疏表示确定每一个候选图像对应的系数向量。之后根据确定出的每一个候选图像对应的系数向量，确定目标在第t帧内的预测状态。以及根据第t帧中目标在2D彩色图像内的检测状态，并将第t帧的检测状态与预测状态进行关联匹配与融合，确定目标在第t帧内的当前状态，并将确定出的目标在第t帧内的当前状态和目标对应的深度信息，映射到3D空间中，确定目标在3D空间中的具体位置信息。这样可以通过将候选图像和目标模板图像整个图像划分为多个局部的方式，采用稀疏表示将2D彩色图像和3D点云进行结合，以实现目标追踪。并且由于目标最终映射到3D空间中，从而还可以精确计算目标在三维空间中的轨迹。以及，由于将候选图像和目标模板图像整个图像划分为多个局部的方式，可以改善目标被局部遮挡和相似背景干扰的问题，从而可以提高目标跟踪方法的精度。

需要说明的是，本发明实施例通过获取机器人前方的2D彩色图像和3D空间中的深度信息，可以得到2D彩色图像内被标记的目标。通过采用稀疏表示实现2D彩色图像中的目标追踪，并且由于目标最终映射到3D空间中，从而还可以精确计算目标在三维空间中的轨迹，进而实现3D点云中的目标追踪。以及由于将目标模板图像划分为多个局部的方式，可以改善目标在2D图像中被局部遮挡和相似背景干扰的问题，从而可以提高目标跟踪方法的精度。

在具体实施时，在本发明实施例中，本发明实施例中的机器人可以为扫地机器人、操作机器人等。

需要说明的是，本发明实施例提供的高精度目标跟踪方法中所说的高精度，可以为机器人领域中定义的精度范围。当然，在具体实施时，也可以将本发明实施例提供的高精度目标跟踪方法直接写作目标跟踪方法，在此不作赘述。

需要说明的是，目标位置处，例如可以采用下述方法确定。第t-1帧中目标追踪的结构中，目标对应的目标框的中心位置在2D彩色图像的位置坐标为(200，300)，那么在第t帧中，目标位置处为在2D彩色图像的位置坐标为(200,300)处。

在具体实施时，在本发明实施例中，可以采用RGB-D相机或双目3D摄像头中的至少一种获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息。

需要说明的是，可以利用RGB-D相机进行对图像进行采集。示例性地，RGB-D相机可以包括两类摄像头，一类是RGB摄像头，RGB摄像头可以用于拍摄RGB彩色图像，另一类是深度摄像头，深度摄像头用于拍摄的深度图像，深度图像保存了机器人前方的深度信息。并且，第t帧拍摄到的RGB彩色图像和深度图像的像素点是一一对应的。也就是说RGB彩色图像保存的是3D点云的颜色信息，深度图像保存的是3D点云的深度信息。例如，在采用RGB-D相机获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息时，可以采用RGB-D相机中的RGB摄像头，拍摄机器人前方的RGB彩色图像(即2D彩色图像)，可以采用RGB-D相机中的深度摄像头，拍摄机器人前方的深度图像。当然，RGB-D相机的结构和工作原理可以与现有技术中的基本相同，并且对于RGB-D相机的其它必不可少的组成部分均为本领域的普通技术人员应理解具有的，在此不做赘述，也不应作为对本发明的限制。

需要说明的是，也可以利用双目3D摄像头获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息。当然，双目3D摄像头的结构和工作原理可以与现有技术中的基本相同，并且对于双目3D摄像头的其它必不可少的组成部分均为本领域的普通技术人员应理解具有的，在此不做赘述，也不应作为对本发明的限制。

一般可以将机器人应用于工厂环境中，工厂环境中通常具有操作人员、移动货架、AGV等物体。在具体实施时，步骤S10中获取到的2D彩色图像中可以具有操作人员、移动货架、AGV等至少一种物体。在本发明实施例中，步骤S20中识别出2D彩色图像内的初始物体可以具有操作人员、移动货架、AGV等至少一种物体。当然，初始物体还可以包括工厂环境下的其它物体，这可以根据实际应用环境来设计确定，在此不作限定。

Mask R-CNN可实现像素级别的图像实例分割(Instance Segmentation)，并且Mask R-CNN将物体检测和目标分割同时并行处理，可以取得较好实例分割效果。在具体实施时，在本发明实施例中，步骤S20、识别2D彩色图像内的初始物体，具体可以包括：采用预先训练好的Mask R-CNN算法识别2D彩色图像内的初始物体。例如，2D彩色图像内具有操作人员、移动货架、AGV，则可以通过预先训练好的Mask R-CNN算法识别到2D彩色图像内具有操作人员、移动货架、AGV。

需要说明的是，可以采用图像样本对本发明实施例中采用的Mask R-CNN算法进行训练，以将训练后的Mask R-CNN算法应用到本发明实施例中的高精度目标跟踪方法中。示例性地，图像样本可以为具有工厂环境下的操作人员、移动货架、AGV等物体的图像。当然，图像样本还可以包括工厂环境下的其它物体，这可以根据实际应用环境来设计确定，在此不作限定。

需要说明的是，在将机器人应用到其他应用环境中时，例如家庭中，还可以将图像样本选择为具有家庭环境的图片。这样可以将机器人应用到家庭中。

在具体实施时，可以采用预先训练好的Mask R-CNN算法，确定第t帧中目标在2D彩色图像内的检测状态。采用预先训练好的Mask R-CNN算法确定第t帧中目标的检测状态的过程，可以与相关技术中的基本相同，在此不作赘述。

在具体实施时，机器人刚开机工作时，会获取第一帧图像，即获取第一幅2D彩色图像。在本发明实施例中，在步骤S10、获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息之前，还可以包括如下步骤：

获取第1帧中机器人前方的2D彩色图像和3D空间中的深度信息；

识别第1帧中的2D彩色图像内的初始物体；其中，采用预先训练好的Mask R-CNN算法识别2D彩色图像内的初始物体；

将第1帧中识别出的2D彩色图像内的初始物体中的至少一个进行标记，以作为目标。这样可以使机器人确定要跟踪的目标。

示例性地，以识别出的第一帧获得的2D彩色图像内的初始物体具有操作人员、移动货架、AGV为例进行说明，则可以将操作人员、移动货架、AGV中的至少一个进行标记。例如，可以仅将操作人员进行标记，以对操作人员进行跟踪。也可以仅将移动货架进行标记，以对移动货架进行跟踪。也可以仅将AGV进行标记，以对AGV进行跟踪。当然，还可以将操作人员、移动货架、AGV都进行标记，以对操作人员、移动货架、AGV均进行跟踪。

需要说明的是，若2D彩色图像内具有多个目标，则一个目标对应一个标记，不同目标对应的标记不同。例如，以将操作人员、移动货架、AGV进行标记为例，若2D彩色图像内具有3个操作人员、4个移动货架、6个AGV，那么每一个操作人员一一对应一个标记(例如，操作人员A1对应标记VA1，操作人员A2对应标记VA2，操作人员A3对应标记VA3)，每一个移动货架一一对应一个标记(例如，移动货架B1对应标记VB1，移动货架B2对应标记VB2，)移动货架B3对应标记VB3，移动货架B4对应标记VB4)，每一个AGV一一对应一个标记(AGV C1对应标记VC1，AGV C2对应标记VC2，AGV C3对应标记VC3，AGV C4对应标记VC4，AGV C5对应标记VC5，AGV C6对应标记VC6)。当然，在实际应用中，其标记的方式可以根据实际应用环境来设计确定，在此不作限定。

在具体实施时，在本发明实施例中，初始物体在第N帧中第一次被标记时，被标记的物体在第N帧中的跟踪过程与上述第1帧的过程基本相同，在此不作赘述。

在具体实施时，在本发明实施例中，目标框的形状可以为矩形(例如正方形、长方形)。当然，不同的应用环境的需要不同，因此可以根据实际应用环境来设计确定，在此不作限定。

在具体实施时，在本发明实施例中，第1帧中的目标对应的目标模板图像为目标在第1帧的2D彩色图像内采用目标框标示出的图像。示例性地，采用预先训练好的Mask R-CNN算法将目标在第1帧的2D彩色图像内采用目标框标示出的图像。例如，在第一帧中，识别2D彩色图像内的初始物体，之后，确定2D彩色图像内的初始物体中标记的目标，之后采用预先训练好的Mask R-CNN算法在进行识别的2D彩色图像中采用目标框将目标标示出。例如图2所示，目标框L0将以操作人员作为的目标标示出来。这样可以将目标L0标示出的图像作为第1帧中的目标对应的目标模板图像。

在具体实施时，在本发明实施例中，在t>1时，第t帧中的目标对应的目标模板图像为第t-1帧中的目标模板图像与第t-1帧中目标在2D彩色图像内采用目标框标示出的图像融合后确定的图像。例如，第2帧中的目标对应的目标模板图像为第1帧中的目标模板图像与第1帧中目标在2D彩色图像内采用目标框标示出的图像融合后确定的图像。第3帧中的目标对应的目标模板图像为第2帧中的目标模板图像与第2帧中目标在2D彩色图像内采用目标框标示出的图像融合后确定的图像。第4帧中的目标对应的目标模板图像为第3帧中的目标模板图像与第3帧中目标在2D彩色图像内采用目标框标示出的图像融合后确定的图像。其余同理，在此不作赘述。

需要说明的是，第1帧中的目标模板图像与第1帧中目标在2D彩色图像内采用目标框标示出的图像融合后确定的图像可以是相同的。

在具体实施时，可以对新进入机器人视野的物体进行重新标记，以对重新标记的物体进行跟踪。其中，可以使重新标记的目标与之前标记的目标是同一目标，这样可以继续对同一目标进行跟踪。当然，也可以使重新标记的目标与之前标记的目标不是同一目标，这样可以使对新目标进行跟踪。

在机器人进行跟踪的过程中，可能会出现之前标记的目标离开了机器人的前方区域，从而使得机器人不能再对标记的目标进行跟踪。在具体实施时，在本发明实施例中，目标跟踪方法还可以包括：在连续的至少两帧识别出的初始物体中不具有标记的目标时，移除对目标的标记。这样可以将一段时间内不出现的目标的标记进行移除，也就是说，将长时间未匹配上的目标的标记进行移除。示例性地，以标记的目标为操作人员为例，操作人员可能会从工厂的第一个厂房移动到其它厂房，若机器人放置在第一个厂房中，那么机器人将不能再对操作人员进行跟踪。这样通过移除对操作人员的标记，从而可以避免再次对操作人员进行计算，进而可以降低计算量，降低功耗。

在具体实施时，在本发明实施例中，确定M个权重中的第m个权重的方法，可以包括如下步骤：

采用目标框，将第t-1帧中目标的当前状态在2D彩色图像中选取出来，作为基准图像；其中，第t-1帧中目标的当前状态为第t-1帧中经过步骤S70后得到的目标在2D彩色图像内的当前状态；

将基准图像划分为M个基准局部区域；

将第m个基准局部区域中目标的像素点的总数PXW_m与基准图像中目标的所有像素点的总数PXZ的比值，确定为第m个权重ω_m，也就是说，可以使ω_m＝PXW_m/PXZ。其中，m为整数，且1≤m≤M。其中，可以采用预先训练好的Mask R-CNN算法确定第m个基准局部区域中目标的像素点的总数PXW_m，以及目标的所有像素点的总数PXZ。

示例性地，基准图像可以是采用预先训练好的Mask R-CNN算法得到的。

例如，图3示出了一个2D黑白图像(2D黑白图像是由2D彩色图像转换而成)，2D黑白图像为第t-1帧中经过步骤S70后得到的目标在2D彩色图像内的当前状态。其中，以目标为操作人员为例，通过预先训练好的Mask R-CNN算法，采用目标框K0在操作人员所在的区域进行选取，以将目标框K0中的图像作为基准图像。采用虚线将目标框K0对应的基准图像划分为9(即M＝9)个基准局部区域Q1～Q9，则局部区域Q1～Q9一一对应一个ω₁～ω₉。其中，基准局部区域Q1～Q9中目标的像素点的总数为PXW₁～PXW₉，则ω₁＝PXW₁/PXZ，ω₂＝PXW₂/PXZ，ω₃＝PXW₃/PXZ，ω₄＝PXW₄/PXZ，ω₅＝PXW₅/PXZ，ω₆＝PXW₆/PXZ，ω₇＝PXW₇/PXZ，ω₈＝PXW₈/PXZ，ω₉＝PXW₉/PXZ。

在具体实施时，在本发明实施例中，可以根据每一个候选图像对应的M个第一局部区域、目标模板图像对应的M个第二局部区域、以及M个权重，采用稀疏表示确定每一个候选图像对应的系数向量。并且，需要说明的是，采用稀疏表示确定每一个候选图像对应的过程可以与现有技术中的基本相同，为本领域的普通技术人员应理解具有的，在此不做赘述，也不应作为对本发明的限制。

在具体实施时，在本发明实施例中，可以采用现有技术中的一些算法，根据第t-1帧中目标在2D彩色图像内的当前状态，并将当前状态与预测状态进行关联匹配与融合，确定目标在2D彩色图像内的当前状态。

在具体实施时，在本发明实施例中，可以采用现有技术中的一些算法，将确定出的目标在2D彩色图像内的当前状态和目标对应的深度信息，映射到3D空间中，确定目标在3D空间中的具体位置信息，从而实现对目标的跟踪。

在具体实施时，在本发明实施例中，可以根据确定出的目标在3D空间中的具体位置，输出对应目标的3D语义点云，从而可以跟踪目标在世界坐标系中的运动，以计算其运动轨迹，实现机器人自主避障。

在具体实施时，在本发明实施例中，可以根据确定出的目标在3D空间中的具体位置，以使机器人对视野区域内的物体的数量进行估计，并且还可以在目标跟踪时避免重复识别，从而精确统计移动目标的数量。

在具体实施时，在本发明实施例中，在机器人巡视工厂时，可以对目标进行识别跟踪的基础上分析和判断目标的行为，并给出相关的语义描述，从而能对异常情况作出及时处理。

下面通过具体实施例，对本发明实施例提供的上述基于3D点云和2D彩色图像相结合的高精度目标跟踪方法进行说明。其中，以操作人员为标记的目标，M＝9为例。

具体地，本发明实施例提供的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，可以包括如下步骤：

(1)机器人刚开机工作，在机器人巡视工厂时，采用RGB-D摄像头，获取第1帧中机器人前方的2D彩色图像和3D空间中的深度信息；

(2)采用预先训练好的Mask R-CNN算法识别第1帧中的2D彩色图像内的初始物体，可以识别到2D彩色图像内具有操作人员、移动货架、AGV。

(3)将第1帧中识别出的2D彩色图像内的操作人员、移动货架、AGV分别进行标记，以作为跟踪的目标，以使机器人确定要跟踪的目标。

(4)采用RGB-D摄像头，获取第2帧中机器人前方的2D彩色图像和3D空间中的深度信息。

(5)采用预先训练好的Mask R-CNN算法识别第2帧中的2D彩色图像内的初始物体，可以识别到2D彩色图像内具有操作人员、移动货架、AGV。

(6)直接采用目标框在预先确定的目标位置处周围选取多个候选图像；其中，预先确定的目标位置处为第1帧中的2D彩色图像内目标追踪的具体位置的相同位置处。例如，第1帧中目标对应的目标框中心位置坐标为(200，300)，那么在t第2帧中，在2D彩色图像的坐标(200，300)周围选取多个候选图像。结合图4所示，采用目标框K1和K2选取了2个候选图像。当然，在实际应用中可以选取更多的候选图像，本发明仅是采用2个候选图像进行解释说明。

(7)将每一个候选图像中的每一个划分为9个第一局部区域，以及将预先确定的目标对应的目标模板图像划分为9个第二局部区域。结合图3与图4所示，将候选图像中的每一个划分为9个第一局部区域。以目标框K1和K2选取的候选图像为例，虚线所示，目标框K1选取的候选图像划分为9个第一局部区域P1-1～P9-1。目标框K2选取的候选图像划分为9个第一局部区域P1-2～P9-2。目标模板图像划分为9个第二局部区域Q1～Q9。需要说明的是。图4仅示意出了第一局部区域P1-1～P9-1。

其中，第一局部区域P1-1、P1-2和第二局部区域Q1为同一位置处的局部区域，也就是说，第一局部区域P1-1、P1-2和第二局部区域Q1对应着同一个权重ω₁。第一局部区域P2-1、P2-2和第二局部区域Q2为同一位置处的局部区域，也就是说，第一局部区域P2-1、P2-2和第二局部区域Q2对应着同一个权重ω₂。第一局部区域P3和第二局部区域Q3为同一位置处的局部区域，也就是说，第一局部区域P3-1、P3-2和第二局部区域Q3对应着同一个权重ω₃。第一局部区域P4-1、P4-2和第二局部区域Q4为同一位置处的局部区域，也就是说，第一局部区域P4-1、P4-2和第二局部区域Q4对应着同一个权重ω₄。第一局部区域P5-1、P5-2和第二局部区域Q5为同一位置处的局部区域，也就是说，第一局部区域P5-1、P5-2和第二局部区域Q5对应着同一个权重ω₅。第一局部区域P6-1、P6-2和第二局部区域Q6为同一位置处的局部区域，也就是说，第一局部区域P6-1、P6-2和第二局部区域Q6对应着同一个权重ω₆。第一局部区域P7-1、P7-2和第二局部区域Q7为同一位置处的局部区域，也就是说，第一局部区域P7-1、P7-2和第二局部区域Q7对应着同一个权重ω₇。第一局部区域P8-1、P8-2和第二局部区域Q8为同一位置处的局部区域，也就是说，第一局部区域P8-1、P8-2和第二局部区域Q8对应着同一个权重ω₈。第一局部区域P9-1、P9-2和第二局部区域Q9为同一位置处的局部区域，也就是说，第一局部区域P9-1、P9-2和第二局部区域Q9对应着同一个权重ω₉。

(8)根据目标框K1选取的候选图像对应的9个第一局部区域P1-1～P9-1、目标框K2选取的候选图像对应的9个第一局部区域P1-2～P9-2、目标模板图像对应的9个第二局部区域Q1～Q9、以及9个权重ω₁～ω₉，采用稀疏表示确定目标框K1选取的候选图像对应的系数向量α1，以及确定目标框K2选取的候选图像对应的系数向量α2。

其中，将第一局部区域P1-1～P9-1设置成列向量y_1-1～y_9-1，，将第一局部区域P1-2～P9-2设置成列向量y_1-2～y_9-2，，将第二局部区域Q1～Q9设置为列向量y₁～y₉。则可以有：y_1-1*α1+y_1-2*α2，y_2-1*α1+y_2-2*α2，y_3-1*α1+y_3-2*α2，y_4-1*α1+y_4-2*α2，y_5-1*α1+y_5-2*α2，y_6-1*α1+y_6-2*α2，y_7-1*α1+y_7-2*α2，y_8-1*α1+y_8-2*α2，y_9-1*α1+y_9-2*α2。

之后，确定y_1-1*α1+y_1-2*α2与y₁的相似度z1，确定y_2-1*α1+y_2-2*α2与y₂的相似度z2，确定y_3-1*α1+y_3-2*α2与y₃的相似度z3，确定y_4-1*α1+y_4-2*α2与y₄的相似度z4，确定y_5-1*α1+y_5-2*α2与y₅的相似度z5，确定y_6-1*α1+y_6-2*α2与y₆的相似度z6，确定y_7-1*α1+y_7-2*α2与y₇的相似度z7，确定y_8-1*α1+y_8-2*α2与y₈的相似度z8，确定y_9-1*α1+y_9-2*α2与y₉的相似度z9。

之后，得到：Z0＝ω₁*z1+ω₂*z2+ω₃*z3+ω₄*z4+ω₅*z5+ω₆*z6+ω₇*z7+ω₈*z8+ω₉*z9。通过确定Z0的最大值，从而可以确定出系数向量α1和系数向量α2。

(9)根据确定出的每一个候选图像对应的系数向量α1和α2，确定目标在第2帧内的预测状态。

其中，预测状态可以包括目标的目标图像、目标框位置、以及其他的方面。

(10)采用预先训练好的Mask R-CNN算法，确定第2帧中目标在2D彩色图像内的检测状态，并将第2帧中目标的检测状态和第2帧内的预测状态，进行关联匹配与融合，确定目标在第2帧内的当前状态。

(11)将确定出的目标在第t帧内的当前状态和目标对应的深度信息，映射到3D空间中，确定目标在3D空间中的具体位置信息。

(12)将第t帧识别出的初始物体中的至少一个重新标记，以作为目标，并采用目标框在重新标记的目标所在的区域周围选取多个候选图像。其中，部分的具体过程可以参考步骤(7)～(11)的工作过程，在此不作赘述。并且，在连续的至少两帧识别出的初始物体中不具有标记的目标时，移除对目标的标记。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，包括：

获取第t帧中机器人前方的2D彩色图像和3D空间中的深度信息；其中，t为整数且t>1；

识别所述2D彩色图像内的初始物体；

2.如权利要求1所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，在所述获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息之前，还包括：

识别所述第1帧中的所述2D彩色图像内的初始物体；

3.如权利要求2所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，所述目标跟踪方法还包括：

4.如权利要求1-3任一项所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，确定所述M个权重中的第m个权重的方法，包括：

将所述基准图像划分为M个基准局部区域；

5.如权利要求1-3任一项所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，第1帧中的目标对应的目标模板图像为所述目标在所述第1帧的2D彩色图像内采用目标框标示出的图像；

6.如权利要求1-3任一项所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，所述识别所述2D彩色图像内的初始物体，具体包括：

7.如权利要求1-3任一项所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，采用RGB-D相机获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息。

8.如权利要求1-3任一项所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，采用双目3D摄像头中的至少一种获取第t帧中所述机器人前方的2D彩色图像和3D空间中的深度信息。

9.如权利要求1-3任一项所述的基于3D点云和2D彩色图像相结合的高精度目标跟踪方法，其特征在于，采用预先训练好的Mask R-CNN算法，确定第t帧中所述目标在2D彩色图像内的检测状态。