CN113223056A

CN113223056A - 一种基于多Kinect V2的无标记运动追踪系统

Info

Publication number: CN113223056A
Application number: CN202110608853.3A
Authority: CN
Inventors: 姚寿文; 孔若思; 栗丽辉; 常富祥; 兰泽令
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-06
Anticipated expiration: 2041-06-01
Also published as: CN113223056B; US11430266B1

Abstract

本发明公开一种基于多Kinect V2的无标记运动追踪系统，包括若干个Kinect V2来获取深度数据以及骨骼数据；分析模块用于分析单Kinect V2采集数据的特点及传动装置装配的需求；客户端用于接收Kinect V2采集的数据，并对数据进行处理，处理的过程为：基于单Kinect V2采集数据的特点，构建客户端—服务器模型，用于从不同方向来追踪人体；输出模块用于输出Kinect V2的布局方式及追踪结果。本发明根据单Kinect V2采集数据的特点及传动装置装配的需求，使正对Kinect V2之间的互干扰最小，从不同方向来追踪人体，保证处于自遮挡状态的骨骼在其他角度有传感器对其稳定追踪。

Description

一种基于多Kinect V2的无标记运动追踪系统

技术领域

本发明涉及虚拟现实技术领域，具体涉及一种基于多Kinect V2的无标记运动追踪系统。

背景技术

人体运动捕捉作为一种非常自然地人机交互方法，在计算机领域和工业领域都发挥着重要的作用。在虚拟环境中捕捉人体运动的方法主要包括电磁位置追踪器、超声波位置追踪器、惯性位置追踪器和光学位置追踪器等几大类，其中主流的人体追踪设备主要为惯性系统和光学运动捕捉系统。无标记的光学追踪设备主要是基于计算机视觉来实现的，代表的设备为Kinect传感器。2010年微软Kinect V1的发布具有重要的里程碑意义，使得一种低成本的传感器首次能够提供快速、高质量的密集深度图像，用户不需穿戴特殊衣服或者反光材料就可以利用视觉算法实现骨骼追踪。Kinect可以通过深度传感器获取的原始数据来实现运动识别，用于包括游戏在内的各种人类交互应用中，在方便、低成本的情况下实现低精度的骨骼追踪，在手势识别、动作识别、虚拟装配训练、医疗康复训练等方面已经被广泛的商业化。

Kinect V1 SDK获取骨骼三维数据的原理是使用经过训练的决策森林将深度图像的每个像素分类为关节的一部分，然而在缺乏高精度深度信息的情况下，保证足够的追踪精度对无标记运动捕捉是一个挑战，导致无标记运动捕捉无法直接应用于工业领域。2014年Kinect V2成功发布，尽管与Kinect V1相比，Kinect V2提供了更好的跟踪效果，在图像获取的分辨率、深度数据获取的精度、追踪范围、追踪骨骼的数量、面部表情检测等都有较大的改善，但是使用单个Kinect V2进行运动追踪还是存在很大的问题。

对单Kinect在运动捕捉中存在的局限，国内外的研究大多集中在如何解决遮挡的问题，插值法广泛应用于估计缺失的数据，但是由于它需要知道缺失前、后的数据，因此不能满足实时性要求。虽然有一些解决方案通过改进单视图系统提取的骨架来提高追踪精度，但是如自遮挡、无法区分正反面等问题无法解决。对于Kinect这种较低成本的相机，目前公认较好的解决方案是在一个工作空间内引入多个Kinect传感器从不同角度对追踪对象进行重叠测量，以保证处于自遮挡状态的骨骼在其他角度有传感器对其稳定追踪，并将来自不同传感器的测量结果进行组合，实现与单个传感器相比更精确、稳健的骨骼跟踪。

为了解决单Kinect视野范围狭窄、自遮挡严重和无法区分人体正面，从而导致采集到的骨骼数据精度对于工业级应用严重不足，这将影响人机协作体验，无法对产品的人机功效进行合理评价等问题。现有研究采用了多个Kinect传感器在空间上进行信息互补来解决问题。但是传统的Kinect布置是基于两个或多个Kinect，它们可以连接到一台计算机上，从而一定程度上降低对设备数量的要求。这不仅加重了一台计算机的运算负担，从而影响系统的实时性，而且一台计算机只能处理一台Kinect的数据。因此如何对多台Kinect传感器进行合理布置，目前还没有一个较好的解决办法。

发明内容

针对现有技术的不足，为了弥补单Kinect V2捕捉人体的种种缺陷，本发明的目的在于提供一种基于Kinect V2的高精度无标记全身运动系统，在场景中引入了多台KinectV2传感器，对传感器进行合理布置，以稳定追踪面积、活动面积、装配空间覆盖率为指标设计多种方案来对Kinect V2传感器的数量、高度与方位进行优化，以满足综合传动装置虚拟装配的需求，为人体骨架精确建模打下基础。

一种基于多Kinec V2的无标记运动追踪系统，包括：若干个Kinect V2,用于获取深度数据以及骨骼数据；

分析模块，用于分析单Kinect V2采集数据的特点及传动装置装配的需求，所述特点包括Kinect V2的舒适区域工作范围及物理限制情况；

客户端，用于接收Kinect V2采集到的数据，并对所述数据进行处理，所述处理的过程为：基于所述单Kinect V2采集数据的特点，构建客户端—服务器模型，用于从不同方向来追踪人体，保证处于自遮挡状态的骨骼在其他角度有传感器对其稳定追踪；

输出模块，用于输出Kinect V2的布局方式及追踪结果。

优选地，基于传动装置装配的需求，构建Kinect V2的布局，影响所述布局的要素包括稳定追踪面积、活动面积装配空间覆盖率，基于所述稳定追踪面积、所述活动面积、所述装配空间覆盖率判断设计方法的合理性。

优选地，设计装配工作空间的大小，将所述装配工作空间的中心与N-Kinect V2系统的中心重合；

针对所述N-Kinect V2的系统，定义舒适性追踪的Kinect V2数量大于N/2的区域为稳定追踪区域，计算得到所述稳定追踪面积；

针对所述N-Kinect V2系统，基于Kinect V2的锥形追踪范围，定义所述活动面积为以Kinect V2为顶点连接起来的多边形围成的面积；

定义所述稳定追踪面积位于所述装配工作空间的部分与所述装配工作空间的面积的比值为装配空间覆盖率。

优选地，在直径为N米的圆上来均布若干台Kinect V2，将每个Kinect V2放置在离地面1m-1.5m的高度，以实现稳固的姿态和灵活的设置，用来捕捉整个人体；

每台Kinect V2通过USB接口连接到客户端，客户端通过微软提供的开源工具包采集骨骼数据并将其转换为全局坐标，最终通过USB数据传输到客户端电脑上。

优选地，每台Kinect V2均以30帧每秒的速度采集数据，帧与帧之间不会有大的时间抖动，即使不实现时间同步也能够实现较为精确的多源骨架信息整合。

优选地，所述Kinect V2根据深度图像中的距离信息分隔采集到的像素点，确定目标的基本区域，并通过图像处理技术确定人体边缘区域，利用训练过的随机森林模型对确定的人体边缘区域进行肢体分隔，最后对分隔后的人体部位进行多角度分析进而识别出人体关节点。

优选地，所述客户端包括数据采集与预处理模块，用于接收Kinect V2传感器采集到的骨骼数据信息，并进行处理；

数据可视化模块包括第一可视化模块、第二可视化模块、第三可视化模块，分别用于显示预处理之后的采集到骨骼数据信息、客户端工作状态信息、骨骼绘制区域。

数据可视化模块还包括追踪模块，用于判断骨骼数据是否追踪成功，若追踪成功则在所述第一可视化模块、所述第二可视化模块、所述第三可视化模块显示骨骼数据信息，若追踪失败，则将当前帧数据丢失，不进行数据融合。

数据通讯模块用于Kinect V2传感器与客户端之间建立通讯，便于实时采集身体的骨骼信息。

优选地，所述客户端将所述Kinect V2传感器采集到的骨骼三维数据转换数据格式，以网络交换机把客户端和服务器端同时连入一个局域网内，并将数据传输到主服务器端，主服务器对来自多客户端的骨骼信息应用的数据融合算法进行整合，形成一个稳健的骨架模型，并用Unity3D引擎进行可视化。

本技术方案所达到的有益效果在于：本发明根据单Kinect V2采集数据的特点及传动装置装配的需求，使正对Kinect V2之间的互干扰最小，同时能够从不同方向来追踪人体，保证处于自遮挡状态的骨骼在其他角度有传感器对其稳定追踪。

附图说明

图1为本发明的流程示意图；

图2为本发明的四种布置方案稳定追踪区域示意图；

图3为本发明方案4可活动区域与装配空间覆盖率示意图；

图4为本发明通过Kinect V2获取的关节示意图；

图5为本发明客户端工作流程图；

图6为本发明客户端采集界面示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，构建基于多Kinect V2的无标记运动追踪系统。考虑到综合传动装置的体积以及用户的活动范围，系统的布局研究主要需要考虑工作空间形状、Kinect V2的数量、Kinect V2分布情况等因素。本发明以稳定追踪面积、活动面积、装配空间覆盖率最大，正对Kinect V2之间的互干扰最小为指标对系统进行布置，目标是最大化完全跟踪关节，最小化系统成本，尽可能覆盖工作空间。

由于Kinect V2传感器只能单方向的在一个锥形区域内发射红外光，对区域内物体进行扫描，因此有很多深度相机共有的问题——追踪物体的自遮挡。针对某综合传动装置三轴在装配过程中的典型装配姿态分析，搬运换挡离合器等姿势，身体会在装配空间内移动，同时部分肢体会对其他肢体造成自遮挡，被遮挡的骨骼节点数据无法被追踪，最终造成采集的数据严重缺乏可信度，因此采用多个Kinect V2传感器从不同方向来追踪人体，保证处于自遮挡状态的骨骼在其他角度有传感器对其稳定追踪。

传感器结构布局设计主要受工作空间形状、传感器数量、传感器位置和工作空间覆盖率的影响，本发明目标是通过最大化跟踪关节数量，最小化传感器互干扰，来实现工作空间的最佳覆盖率。

考虑到综合传动装置装配的需求，装配工作空间的大小定为3m×2.5m×2.7m，装配工作空间的中心与N-Kinect V2(N表示Kinect V2数目)系统的中心重合，考虑到KinectV2的舒适性跟踪区域为1.2m～3.5m，因此设计四种布置方案，分别为在直径为4m的圆上均布4-Kinect V2(方案1)或6-Kinect V2(方案2)，在直径为5m的圆上均布4-Kinect V2(方案3)或6-Kinect V2(方案4)。

对于方案的选择提出了以下三个度量值：

1.稳定追踪面积：针对N-Kinect V2的系统，可以定义舒适性追踪的Kinect V2数量大于N/2的区域为稳定追踪区域，也就是说4-Kinect V2系统的稳定追踪区域最少要有3-Kinect V2对区域内稳定追踪，6-Kinect V2系统的稳定追踪区域最少要有4-Kinect V2对区域内进行稳定追踪，4种方案稳定追踪面积如图2所示。

2.活动面积：针对N-Kinect V2系统，需要在系统周围围上警戒线来保护系统，同时考虑到Kinect V2的锥形追踪范围，定义活动面积为以Kinect V2为顶点连接起来的多边形围成的面积，分别为正四边形和正六边形，图3(a)中灰色区域即为方案4用户可活动面积。

3.装配空间覆盖率：针对提出的大小为3m×2.5m×2.7m的装配空间，定义稳定追踪面积位于装配空间的部分与装配空间面积的比值为装配空间覆盖率，方案4装配空间覆盖率示意图如图3(b)所示。

表1显示了上述度量值在4个方案中的参数变化情况，通过分析，发现，方案2、3、4的装配空间覆盖率明显大于方案1，但是方案2、3、4彼此之间的稳定追踪面积和装配空间覆盖率差距并不大。由于分布半径的问题，方案3、4的活动面积要明显大于方案1、2的活动面积，因此舍弃方案1与方案2，方案3与方案4还需要进一步的取舍。

表1

使用多个基于TOF或结构光深度传感器照亮场景时，一旦传感器的锥体跟踪范围重叠，就会发生传感器的互干扰，因为任何一个摄像机都可以接收到其他摄像机发出的红外光，从而错误的估计距离。很多研究者提出了一系列方法来消除干涉，但是由于KinectV2基于TOF方法调制的红外光产生的干扰噪声可以忽略不计，尤其是应用于骨骼追踪的时候，没有实施特殊的对抗干扰措施。因此，必须选择合适的Kinect V2数量以及布置方式使覆盖率范围最大化，而相邻两个Kinect V2之间的干扰最小化。方案4相对于方案3，KinectV2的轴线与装配工作单元的最近对角线产生了小角度偏移，减少了两台方向完全相反的Kinect V2之间的互干扰，同时稳定追踪范围内处于稳定追踪的最少Kinect V2数量也较大，因此确定系统的布置方案为方案4。

本实施例中的无标记运动追踪系统：由6个Kinect V2传感器、6台客户端电脑和1个主服务器组成，每个传感器都插入一个独立的固态硬盘微型计算机，固态硬盘比传统机械硬盘有更高的写入速度，在直径为5m的圆上来均布6台Kinect V2，用三脚架将每个传感器放置在离地面1.2m的高度，以实现稳固的姿态和灵活的设置，用来捕捉整个人体。

Kinect SDK软件无法处理来自多个Kinect V2的数据，因此每台传感器通过USB3.0接口连接到客户端，客户端通过微软提供的开源工具包采集骨骼数据并将其转换为全局坐标，最终通过USB数据传输到客户端电脑上。

多源数据融合的前提是需要构建客户端和服务器端稳定的数据传输，常见的通信协议有TCP协议和UDP协议。TCP协议是一种面向连接的、端对端的可靠传输协议，在数据传输前会有三次握手来建立连接，数据传输过程中会有阻塞的可能，数据传输完成后还会断开连接来节约资源。UDP协议是一种无状态的不可靠的传输协议，它的优点就是传输速度快，但是不能保证数据安全到达，如果网络质量不好就会出现丢包现象。通俗的说TCP协议是事先为所发送的数据开辟出一道连接好的通道然后再进行数据传输，保证了数据的正确性与顺序，而UDP协议只是尽最大能力去传输数据，不保证数据传输的可靠性。TCP协议只支持点到点的传输，UDP协议支持一对一、一对多、多对一和多对多的传输。考虑到系统拥有大量的客户端，对响应速度要求很高且不允许数据阻塞，对数据的安全性要求不高，因此客户端与服务器端的数据传输采用UDP协议。

每个客户端和服务器均拥有自己的IP和端口号，客户端通过对服务器端指定的IP与端口号定向发送UDP数据包，而服务器端接受到数据时也需要知道UDP数据包的来源IP与端口号，才能对接受到的数据进行合理的解析。该系统中将客户端的Kinect V2传感器采集到的骨骼三维数据转换为OSC(open sound control)数据格式，以网络交换机把客户端和服务器端同时连入一个局域网内，并通过OSC协议将数据传输到主服务器端(OSC协议是基于UDP协议封装局域网数据传输协议)，主服务器对来自多客户端的骨骼信息应用提出的数据融合算法进行整合，形成一个稳健的骨架模型，并用Unity3D引擎进行可视化以及随后的分析。来自每台客户端的骨骼数据并没有做时间同步，主要原因是每台传感器均以30帧每秒的速度采集数据，采集数据的速率极高，帧与帧之间不会有大的时间抖动，即使不实现时间同步也可以实现较为精确的多源骨架信息整合。

该系统可以从六个不同角度来捕捉用户的运动，扩大追踪范围的同时，尽可能的减少互干扰的影响，将每个骨架的坐标转化为一个共同的世界坐标系，通过数据融合算法来更准确的估计目标运动。

工作过程如下：获取单Kinect V2的骨骼数据：使用Kinect V2传感器，所述KinectV2传感器由RGB传感器和深度传感器(红外(IR)摄像头和红外(IR)发射器组成)，RGB传感器用于彩色数据采集，深度传感器用于深度数据采集，具体过程为：Kinect V2传感器根据深度图像中的距离信息分隔采集到的像素点，确定目标的大致区域，并通过图像处理技术确定人体边缘区域，然后Kinect V2传感器利用训练过的随机森林模型对确定的人体边缘区域进行肢体分隔，最后对分隔后的人体部位进行多角度分析进而识别出人体关节点。因此Kinect V2传感器内有三个坐标系，分别为彩色坐标系、传感器空间坐标系和深度空间坐标系，Kinect V2的开发工具包可以对人体的彩色信息、深度信息和骨骼三维信息进行采集，以每秒30帧的速率在传感器空间坐标系中获取人体25个骨骼数据，图4以“火柴人”的形式展示了Kinect V2传感器提供的骨骼关节。

Kinect V2 SDK根据传感器采集到的RGB图像数据、深度数据、音频数据信息，提供了丰富的应用程序接口用于软件的二次开发，方便开发者与传感器进行通讯，可以分别用于人脸识别、手势识别、人体建模、语音识别等，本系统主要利用了全身骨骼追踪API，主要包括骨骼节点的位置数据、旋转数据、追踪状态以及用户的追踪状态，其中骨骼节点的位置信息由传感器坐标系下的X、Y、Z坐标表示，不同于彩色图像坐标，该坐标系是三维的，以米为单位，Z轴表示红外摄像头光轴，与图像平面垂直。

客户端的数据预处理与可视化：客户端软件功能主要包括三大模块，分别为数据采集与预处理模块、数据可视化模块和数据通讯模块。工作流程如图5所示。

如图6所示，程序对可视化模块、Kinect V2传感器和网络模块进行初始化：

左侧部分为当前客户端Kinect V2采集到骨骼数据的信息，包括骨骼的名称，骨骼的追踪状态，骨骼的三维位置数据；

上半部分为客户端的工作状态信息，包括客户端程序运行的时间，客户端程序的刷新频率，即将连接到的服务的IP以及端口号，开关“BodyIsTracked”表示当前客户端是否追踪到人体；

下侧两个按钮分别控制Kinect V2与客户端电脑的通讯、客户端电脑与服务器端的通讯，右下角表示Kinect V2的开关状态；

中间偏右部分为骨骼图绘制区域。

当Kinect V2与客户端电脑之间建立通讯，客户端开始实时采集身体的骨骼信息；当UDP通讯在工作状态时，客户端与服务器端建立通讯。当身体被追踪到时，为了使采集的骨骼数据更加稳定，对采集到的骨骼数据进行双指数滤波处理，处理后的骨骼三维信息与追踪状态实时刷新并在客户端界面做可视化展示，如图6所示，然后把数据发送至服务器端。

稳定追踪骨骼点采用圆球绘制，稳定追踪骨骼采用粗线绘制。

骨骼数据追踪状态为“Inferred”的骨骼点采用浅灰色圆球绘制，如用户的“AnkleLeft”和“FootLeft”关节。同时骨骼信息以浅黑色字体醒目显示，骨骼左脚两端骨骼置信度均为“Inferred”则该骨骼不进行绘制，左侧小腿两端骨骼一端为“Tracked”一端为“Inferred”则用较细的灰色线绘制骨骼。

当客户端追踪人体失败时，取消并将该消息告知服务器端，服务器端处理该客户端当前帧数据不对数据融合做出任何贡献。

Claims

1.一种基于多Kinect V2的无标记运动追踪系统，其特征在于，包括：若干个KinectV2,用于获取深度数据以及骨骼数据；

输出模块，用于输出Kinect V2的布局方式及追踪结果。

2.根据权利要求1所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，

基于所述传动装置装配的需求，构建Kinect V2的布局，影响所述布局的要素包括稳定追踪面积、活动面积、装配空间覆盖率，基于所述稳定追踪面积、所述活动面积、所述装配空间覆盖率判断设计方法的合理性。

3.根据权利要求2所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，

设计装配工作空间的大小，将所述装配工作空间的中心与N-Kinect V2系统的中心重合；

4.根据权利要求3所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，

在直径为N米的圆上来均布若干台Kinect V2，将每个Kinect V2放置在离地面1m-1.5m的高度，以实现稳固的姿态和灵活的设置，用来捕捉整个人体；

每台Kinect V2通过USB接口连接到客户端，所述客户端通过微软提供的开源工具包采集骨骼数据并将其转换为全局坐标，最终通过USB数据传输到客户端电脑上。

5.根据权利要求1所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，每台Kinect V2均以30帧每秒的速度采集数据，即使不实现时间同步也能够实现较为精确的多源骨架信息整合。

6.根据权利要求1所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，所述Kinect V2根据深度图像中的距离信息分隔采集到的像素点，确定目标的基本区域，并通过图像处理技术确定人体边缘区域，利用训练过的随机森林模型对确定的人体边缘区域进行肢体分隔，最后对分隔后的人体部位进行多角度分析进而识别出人体关节点。

7.根据权利要求4所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，所述客户端包括数据采集与预处理模块，用于接收Kinect V2传感器采集到的骨骼数据信息，并进行处理；

数据可视化模块包括第一可视化模块、第二可视化模块、第三可视化模块，分别用于显示预处理之后的采集到骨骼数据信息、客户端工作状态信息、骨骼绘制区域，

8.根据权利要求7所述的基于多Kinect V2的无标记运动追踪系统，其特征在于，所述客户端将所述Kinect V2传感器采集到的骨骼三维数据转换数据格式，以网络交换机把客户端和服务器端同时连入一个局域网内，并将数据传输到主服务器端，主服务器对来自多客户端的骨骼信息应用提出的数据融合算法进行整合，形成一个稳健的骨架模型，并用Unity3D引擎进行可视化。