CN113689365A

CN113689365A - 一种基于Azure Kinect的目标跟踪定位方法

Info

Publication number: CN113689365A
Application number: CN202110970228.3A
Authority: CN
Inventors: 瞿畅; 张啸天; 张文波
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-23
Anticipated expiration: 2041-08-23
Also published as: CN113689365B

Abstract

本发明公开了一种基于Azure Kinect的目标跟踪定位方法，包括以下步骤：步骤1：通过Azure Kinect提取目标物三维点云数据；步骤2：将目标物点云映射至彩色图；步骤3：建立融合深度信息的目标物“颜色‑形状”模型；步骤4：实时采集彩色图像和深度图像；步骤5：运用深度方差对目标物和相似颜色背景进行连通域分割；步骤6：通过目标物形状偏差率、直方图巴氏距离完成目标识别；步骤7：若目标识别成功，计算目标物质心P0，以目标物质心区域的深度均值完成目标定位；步骤8：输出目标物坐标，更新目标颜色直方图、长宽值和深度值；步骤9：若目标识别失败，重复步骤4至步骤8。本发明能够克服基于颜色特征的目标跟踪方法易受相似颜色背景干扰的问题。

Description

一种基于Azure Kinect的目标跟踪定位方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于Azure Kinect的目标跟踪定位方法。

背景技术

Kinect是微软推出的3D体感摄像机，具有彩色相机和深度传感器，由于Kinect可获取物体的深度信息，其在目标跟踪领域也表现出了独特的优势。Azure Kinect面向开发者提供了深度、视觉、声音和方向四大类传感器SDK，包括100万像素TOF深度摄像头、1200万像素RGB高清摄像头，7麦克风圆形阵列和惯性测量单元IMU，并提供了多种控制访问模式和自定义安装方式，可以为Azure Kinect设备配置和硬件传感流提供跨平台的底层访问。

深度摄像头在控制访问时可以选择宽或窄两种FOV视野，所以在实际空间内获取的数据将会更为精准。利用深度摄像头进行房间环境识别的时候，TOF的技术能够近乎实时的捕捉到周围环境信息。基于扫描到的深度数据，可以将捕捉到的人或物的画面以深度摄像画面和三维点云效果来表现。

Azure Kinect搭载了100万像素深度摄像头和1200万像素高清摄像头，可以对物体，场景和动作进行识别。当结合本地计算和Azure认知服务后，就能够对人脸进行准确识别；同时借助身体跟踪和动作识别的SDK，能对关键人物进行快速定位辨别，此外Azure认知服务还能准确识别目标人物的情绪变化。

Azure Kinect中的视觉功能不但可以追踪物体和人物，凭借Azure认知服务图像识别功能，通过OCR可以将文本和手写体内容进行准确识别。让设备和应用“看”懂这个世界。

Azure Kinect中声音功能内的圆形麦克风阵列及传感器可以实时收集外界的声音，并通过Azure认知服务的的语音识别功能实时处理翻译成文字。与Azure结合，根据声音的关键特征，能够较为准确识别说话人的身份信息，加上Azure Kinect的方向传感器，进而可以锁定说话人的位置。

目前采用Kinect的目标跟踪方法大多基于颜色特征，这种跟踪方法需要预先标记跟踪目标，操作不便，当目标物和背景颜色相似时，易受相似颜色干扰，跟踪效果不理想。

发明内容

本发明的目的在于提供一种基于Azure Kinect的目标跟踪定位方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于Azure Kinect的目标跟踪定位方法，包括以下步骤：

步骤1：将待跟踪目标放置于Azure Kinect视场范围内的固定平面上，通过AzureKinect提取目标物的三维点云数据；

步骤2：读取Azure Kinect内、外参，将目标物点云映射至彩色图，并分割出来；

步骤3：在HSV颜色空间建立融合深度信息的目标物“颜色-形状”模型；

步骤4：由Azure Kinect实时采集彩色图像和深度图像，对当前帧的图像分别进行深度过滤和颜色过滤；

步骤5：运用深度方差对目标物和相似颜色背景进行连通域分割，获得潜在目标；

步骤6：通过目标物形状偏差率、直方图巴氏距离完成目标识别；

步骤7：若目标识别成功，计算目标物质心P0，以目标物质心区域的深度均值完成目标定位；

步骤8：输出目标物坐标，更新目标颜色直方图、长宽值和深度值，进行下一帧循环；

步骤9：若目标识别失败，重复步骤4至步骤8。

优选的，在步骤1中，对待跟踪目标的处理包括以下步骤：

步骤1.1：利用直通滤波法PTF对目标物的初始点云进行预处理，通过测量桌面到相机的距离，在Azure Kinect深度传感器坐标系下分别设置X、Y、Z三个方向的阈值区间[x1，x2]、[y1，y2]、[z1，z2]，确定桌面及桌面上的目标物在初始点云中的三维空间包围盒，剔除阈值区间外的无效点云，保留桌面及桌面内物体点云；

步骤1.2：采用随机采样一致算法RANSAC识别点云中的平面特征，分离出工作平面，再对桌面上的点云进行欧式聚类，去除内点数量少于阈值的聚类，最终提取目标物点云。

优选的，在步骤2中，将目标物点云映射至彩色图的步骤包括以下：

步骤2.1：在Azure Kinect深度传感器坐标系下将目标物点云中的三维点P_ir＝[X_ir Y_ir Z_ir]^T转换到深度图中的对应点Q_ir＝[u v 1]^T,转换公式如下：

其中，

为深度传感器内参；

步骤2.2：将深度传感器坐标系下的三维点Q_ir转换为彩色相机坐标系下的三维点P_rgb＝[X_rgb Y_rgb Z_rgb]^T，最后转换为彩色图对应点Q_rgb＝[m n 1]^T，完成目标物点云到彩色图的映射，转换公式如下：

其中，R为3×3的旋转矩阵，T为3×1的平移矩阵，

为彩色相机内参。

优选的，步骤3中，在HSV颜色空间建立融合深度信息的目标物“颜色-形状”模型包括以下步骤：

步骤3.1：将目标区域图像由RGB颜色空间转化到HSV颜色空间，通过二分法对转换到HSV颜色空间的图像进行两次迭代，过滤映射偏差点；

步骤3.2：分别计算偏差点过滤完成后的目标图像的H、S、V三通道均值，并以H、S、V三通道均值为中值，设置合适大小的区间作为颜色阈值区间，将色调H分为8份，饱和度S分为2份，亮度V分为1份，根据色彩不同范围进行量化，生成20柄一维直方图，建立目标物颜色直方图模型；

步骤3.3：记录偏差点过滤完成后的目标图像的深度值和长、宽值，作为目标初始形状模型。

优选的，步骤3.1中，在HSV颜色空间确定颜色阈值区间的具体步骤如下：

Step1：将目标物彩色图转换至HSV颜色空间下，并提取其H通道下的灰度图像；

Step2：遍历图像中的非0像素点，记录图像中最大灰度值H_max，最小灰度值H_min，并计算其中值H_m；

Step3：设置区间[H_min，H_m]和[H_m，H_max]，遍历图像并分别统计区间中点的个数；

Step4：将比重较小区间内的点过滤，去除灰度值大于目标物和灰度值小于目标物的点；

Step5：重复Step2、Step3，去除灰度值大于目标物和灰度值小于目标物的点。

优选的，在步骤4中，对图像进行深度过滤的步骤包括以下：

根据跟踪过程中实时获得的目标物深度值，通过点云映射公式，计算彩色图像任意一点的深度值，由下式对图像进行深度过滤：

其中，f(i，j)为彩色图像，d为上一帧目标物深度值，D_r(i,j)为彩色图对应点深度，D_L为预设深度阈值；

对图像进行颜色过滤的步骤包括以下：

将彩色图像由RGB颜色空间转到HSV颜色空间，并根据颜色模型由颜色阈值区间对图像进行识别，提取与目标物颜色相似的对象，符合阈值区间的像素为255，其余则为0。

优选的，在步骤5中，运用深度方差对目标物和相似颜色背景进行连通域分割，获得潜在目标的步骤包括以下：

步骤5.1：通过深度方差分割二值图像连通域，通过深度模板与轮廓图像进行卷积运算，将模板在图像中逐像素点移动，遍历图像中每一个连通域，计算深度模板中心像素所在位置的方差值，计算公式如下：

其中，D_v(i,j)表示模板中心方差值，D(u，v)表示模板内各像素点的深度值，D(i,j)表示模板中心像素点的深度值；

步骤5.2：深度方差阈值过滤，完成对所有轮廓的遍历后，轮廓内深度方差较大的像素点可以认为是目标物、干扰物以及背景交界处的点，而方差较小的点则是每个物体内部的点，通过设置合适的阈值，完成连通域分割，分割完成后每一连通域都为潜在目标，具体如下：

其中，D_T为深度方差阈值。

优选的，在步骤6中，对目标物形状偏差率、直方图巴氏距离完成目标识别的步骤包括以下：

步骤6.1：计算潜在目标与形状模型的相似程度，作为目标形状相似度δ₁，形状相似度δ₁用当前帧检测到的潜在目标的长、宽值(L_d、W_d)与目标物前三帧平均长宽值(L_M、W_M)的偏差率描述，偏差率越接近于0，目标形状相似程度越高，计算公式如下：

其中，(L_M、W_M)为模板长、宽值，(L_d、W_d)为潜在目标轮廓长、宽值；

步骤6.2：计算颜色直方图巴氏距离，作为目标颜色相似度δ₂，颜色相似度δ₂用组数为i的潜在目标直方图Q_M与目标颜色直方图Q_T的巴氏距离来描述，巴氏距离越接近于1，直方图相似程度越高，计算公式如下：

其中，Q_M为潜在目标直方图，Q_T为目标颜色直方图，i为颜色直方图的组数；

步骤6.3：选择合适的阈值δ_TH与δ_TC，当δ₁<δ_TH时，计算该区域的颜色相似度δ₂，当δ₂>δ_TC时则判断为目标识别成功。

优选的，在步骤7中，为了防止目标质心点和反光点重合而无深度数据，质心深度均值的计算选取以质心D_S(i,j)为中心的9×9像素区域进行，统计该区域深度非0点的个数，如果存在0值则将质心上移9个像素，直到不存在0值，目标物深度值D_K计算公式具体如下：

其中，m、n分别是像素点在RGB图像中对应的横坐标和纵坐标。

优选的，在步骤8中，实时跟踪过程中，目标不断运动，其深度也在不断变化，根据目标物在图像中的大小和深度呈反比的关系，以检测到的目标物前三帧平均深度值D_M和平均长、宽值(L_M、W_M)，计算出当前帧下，深度值为D_t的跟踪目标的长、宽值(L_t、W_t)，更新初始形状模型，如下式所示：

与现有技术相比，本发明的有益效果是：

本发明针对基于颜色特征的目标跟踪方法易受相似颜色背景干扰的问题，提出了一种基于Azure Kinect的目标跟踪定位方法，根据目标物三维点云数据，利用点云分割、坐标映射提取目标物；在HSV颜色空间建立融合深度信息的目标物“颜色-形状”模型，运用深度方差对目标物和相似颜色背景进行连通域分割，获得潜在目标；通过目标物形状偏差率、直方图巴氏距离及目标物质心区域的深度均值完成目标跟踪定位。该方法能够自动提取目标特征，无需事先标记；同时，方法融合了图像深度信息，能够克服基于颜色特征的目标跟踪方法易受相似颜色背景干扰的问题，通过深度方差对目标进行实时跟踪定位，鲁棒性好，抗干扰能力强，可广泛应用于机器视觉、机器人目标跟踪等领域。

附图说明

图1为基于Azure Kinect的目标跟踪定位方法流程图；

图2为目标模型建立流程；

图3为目标识别定位流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1、图2和图3，本发明提供一种技术方案：一种基于Azure Kinect的目标跟踪定位方法，包括以下步骤：

步骤9：若目标识别失败，重复步骤4至步骤8。

其中，一种基于Azure Kinect的目标跟踪定位方法具体如下：

1、将待跟踪目标放置于Azure Kinect视场范围内的固定平面上，通过AzureKinect提取目标物三维点云数据。

首先利用直通滤波法(PTF)对初始点云进行预处理，通过测量桌面到相机的距离，在Azure Kinect深度传感器坐标系下分别设置X、Y、Z三个方向的阈值区间[x1，x2]、[y1，y2]、[z1，z2]，确定桌面及桌面上的目标物在初始点云中的三维空间包围盒，剔除阈值区间外的无效点云，保留桌面及桌面内物体点云。

随后采用随机采样一致算法(RANSAC)识别点云中的平面特征，分离出工作平面，再对桌面上的点云进行欧式聚类，去除内点数量少于阈值的聚类，最终提取目标物点云。

2、读取Azure Kinect内、外参，将目标物点云映射至彩色图，并分割出来。

为了能够基于彩色和深度图像对目标物进行跟踪，需要将目标物点云映射到二维图像上，便于进一步地提取目标特征。

通过读取Azure Kinect内、外参，可以对点云、深度图和彩色图中的任意点进行转换。

在Azure Kinect深度传感器坐标系下将目标物点云中的三维点P_ir＝[X_ir Y_ir Z_ir]^T转换到深度图中的对应点Q_ir＝[u v 1]^T,转换公式如下：

其中，

为深度传感器内参。

其次，将深度传感器坐标系下的三维点Q_ir转换为彩色相机坐标系下的三维点P_rgb＝[X_rgb Y_rgb Z_rgb]^T，最后转换为彩色图对应点Q_rgb＝[m n 1]^T，完成目标物点云到彩色图的映射，转换公式如下：

其中，R为3×3的旋转矩阵，T为3×1的平移矩阵，

为彩色相机内参。

点云映射区域即为目标物在二维图像中的位置，将该区域从未处理过的二维图像中分分割出来，并在后续的步骤中建立目标跟踪模型。

3、在HSV颜色空间建立融合深度信息的目标物“颜色-形状”模型。

HSV颜色空间通过色度(H)、饱和度(S)、亮度(V)来描述图像中像素的颜色特性，当物体颜色受到亮度变化等因素影响而改变时，S和V会产生波动，而H分量的变化很小，因此在HSV颜色空间下计算目标物颜色阈值区间和颜色直方图，可以准确地提取目标的颜色信息。

(1)首先将目标区域图像由RGB颜色空间转化到HSV颜色空间，通过二分法对转换到HSV颜色空间的图像进行两次迭代，过滤映射偏差点，对由点云分割出的目标物进一步的过滤，消除点云映射过程中的偏差，可以更准确；

在HSV颜色空间确定颜色阈值区间，具体步骤如下：

(2)分别计算偏差点过滤完成后的目标图像的H、S、V三通道均值，并以这三个值为中值，设置合适大小的区间作为颜色阈值区间。将色调H分为8份，饱和度S分为2份，亮度V分为1份，根据色彩不同范围进行量化，生成20柄一维直方图，建立目标物颜色直方图模型。

(3)记录偏差点过滤完成后的目标图像的深度值和长、宽值，作为目标初始形状模型。

4、由Azure Kinect实时采集彩色图像和深度图像，对当前帧的图像分别进行深度和颜色过滤。

为获取潜在目标轮廓，首先对图像进行深度过滤，一方面可以排除大部分背景区域，另一方面可以降低后续计算复杂程度。Azure Kinect对运动目标进行实时跟踪过程中，由于每两帧之间时间间隔很短，目标物在相邻帧之间运动变化缓慢，其深度不会发生剧烈变化，可以认为下一帧中深度值远大于当前帧目标物深度的像素区域都为干扰背景。

(1)根据跟踪过程中实时获得的目标物深度值，通过点云映射公式，计算彩色图像任意一点的深度值，由下式对图像进行深度过滤：

其中，f(i，j)为彩色图像，d为上一帧目标物深度值，D_r(i,j)为彩色图对应点深度，D_L为预设深度阈值。

(2)将彩色图像由RGB颜色空间转到HSV颜色空间，并根据颜色模型由颜色阈值区间对图像进行识别，提取与目标物颜色相似的对象，符合阈值区间的像素为255，其余则为0。

5、运用深度方差对目标物和相似颜色背景进行连通域分割，获得潜在目标，具体如下：

(1)通过深度方差分割二值图像连通域，通过深度模板与轮廓图像进行卷积运算，将模板在图像中逐像素点移动，遍历图像中每一个连通域，计算深度模板中心像素所在位置的方差值，计算公式如下：

其中，D_v(i,j)表示模板中心方差值，D(u，v)表示模板内各像素点的深度值，D(i,j)表示模板中心像素点的深度值。

(2)深度方差阈值过滤，完成对所有轮廓的遍历后，轮廓内深度方差较大的像素点可以认为是目标物、干扰物以及背景交界处的点，而方差较小的点则是每个物体内部的点，通过设置合适的阈值，完成连通域分割，分割完成后每一连通域都为潜在目标，具体如下：

其中，D_T为深度方差阈值。

6、通过目标物形状偏差率、直方图巴氏距离完成目标识别。

连通域分割完成后，每个连通域即为潜在跟踪目标，将颜色直方图与上述形状模型结合，过滤形状偏差过大的潜在目标后，进行直方图相似度匹配，完成目标识别、定位。

(1)计算潜在目标与形状模型的相似程度，作为目标形状相似度δ₁，形状相似度δ₁用当前帧检测到的潜在目标的长、宽值(L_d、W_d)与目标物前三帧平均长宽值(L_M、W_M)的偏差率描述，偏差率越接近于0，目标形状相似程度越高，计算公式如下：

其中，(L_M、W_M)为模板长、宽值，(L_d、W_d)为潜在目标轮廓长、宽值。

(2)计算颜色直方图巴氏距离，作为目标颜色相似度δ₂，颜色相似度δ₂用组数为i的潜在目标直方图Q_M与目标颜色直方图Q_T的巴氏距离来描述，巴氏距离越接近于1，直方图相似程度越高，计算公式如下：

其中，Q_M为潜在目标直方图，Q_T为目标颜色直方图，i为颜色直方图的组数。

(3)选择合适的阈值δ_TH与δ_TC，当δ₁<δ_TH时，计算该区域的颜色相似度δ₂，当δ₂>δ_TC时则判断为目标识别成功。

7、若目标识别成功，计算目标物质心P0，以目标物质心区域的深度均值完成目标定位。

为了防止目标质心点和反光点重合而无深度数据，质心深度均值的计算选取以质心D_S(i,j)为中心的9×9像素区域进行，统计该区域深度非0点的个数，如果存在0值则将质心上移9个像素，直到不存在0值，目标物深度值D_K计算公式具体如下：

8、输出目标物坐标，更新目标颜色直方图、长宽值和深度值，进行下一帧循环。

在实时跟踪过程中，目标不断运动，其深度也在不断变化，根据目标物在图像中的大小和深度呈反比的关系，以检测到的目标物前三帧平均深度值D_M和平均长、宽值(L_M、W_M)，计算出当前帧下，深度值为D_t的跟踪目标的长、宽值(L_t、W_t)，更新初始形状模型，如下式所示：

使用方法

一种基于Azure Kinect的目标跟踪定位方法，包括以下步骤：

步骤9：若目标识别失败，重复步骤4至步骤8。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于Azure Kinect的目标跟踪定位方法，其特征在于，包括以下步骤：

步骤9：若目标识别失败，重复步骤4至步骤8。

2.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤1中，对待跟踪目标的处理包括以下步骤：

3.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤2中，将目标物点云映射至彩色图的步骤包括以下：

步骤2.1：在Azure Kinect深度传感器坐标系下将目标物点云中的三维点P_ir＝[X_ir Y_irZ_ir]^T转换到深度图中的对应点Q_ir＝[u v 1]^T,转换公式如下：

其中，

为深度传感器内参；

其中，R为3×3的旋转矩阵，T为3×1的平移矩阵，

为彩色相机内参。

4.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，步骤3中，在HSV颜色空间建立融合深度信息的目标物“颜色-形状”模型包括以下步骤：

5.根据权利要求4所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，步骤3.1中，在HSV颜色空间确定颜色阈值区间的具体步骤如下：

6.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤4中，对图像进行深度过滤的步骤包括以下：

对图像进行颜色过滤的步骤包括以下：

7.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤5中，运用深度方差对目标物和相似颜色背景进行连通域分割，获得潜在目标的步骤包括以下：

其中，D_T为深度方差阈值。

8.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤6中，对目标物形状偏差率、直方图巴氏距离完成目标识别的步骤包括以下：

9.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤7中，为了防止目标质心点和反光点重合而无深度数据，质心深度均值的计算选取以质心D_S(i,j)为中心的9×9像素区域进行，统计该区域深度非0点的个数，如果存在0值则将质心上移9个像素，直到不存在0值，目标物深度值D_K计算公式具体如下：

10.根据权利要求1所述的一种基于Azure Kinect的目标跟踪定位方法，其特征在于，在步骤8中，实时跟踪过程中，目标不断运动，其深度也在不断变化，根据目标物在图像中的大小和深度呈反比的关系，以检测到的目标物前三帧平均深度值D_M和平均长、宽值(L_M、W_M)，计算出当前帧下，深度值为D_t的跟踪目标的长、宽值(L_t、W_t)，更新初始形状模型，如下式所示：