CN107908288A

CN107908288A - 一种面向人机交互的快速人体动作识别方法

Info

Publication number: CN107908288A
Application number: CN201711242911.5A
Authority: CN
Inventors: 桑海峰; 田秋洋
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-04-13

Abstract

一种面向人机交互的快速人体动作识别方法,（1）骨骼点坐标信息的采集。（2）关键点的选取。（3）动作特征的提取。（4）动作识别。（5）机器人;本发明提供一种面向人机交互的快速人体动作识别方法，整个系统由终端计算机、Kinect人体动作输入设备、蓝牙通信模块和机器人组成。首先利用Kinect对人体进行捕捉，从20个关节点中提取能代表全身动作的有效节点，计算成动作特征形成动作模板并保存为TXT文本。在识别阶段，待测试动作序列与标准模板通过快速动态时间规整(Fast Dynamic Time Warping,F‑DTW)算法进行快速匹配，并给出识别结果。根据动作识别的结果，机器人会做出不同的响应。本发明的快速算法大大提高了动作识别速度，优化了对机器人的快速控制。

Description

一种面向人机交互的快速人体动作识别方法

技术领域

本发明属于计算机虚拟现实，人机交互领域，具体涉及一种面向人机交互的快速人体动作识别方法，利用人体动作控制机器人，实现人机交互。

背景技术

随着机器人控制技术的发展，人与机器人之间的交互变得愈加普遍，人机交互技术也在迅猛发展起来，而利用人体动作来控制机器人成为当前人机交互领域研究的热点。

传统的手势动作识别为接触式识别，穿戴数据手套，或者在身体上安装陀螺仪等传感器用来感知动作，从而达到动作识别的目的。这种方法准确率高，但是需要在动作执行者身上穿戴传感器，给动作的执行带来了诸多不便，而且可穿戴式传感器造价也很高。取代传统的接触式动作识别，以机器视觉为主的非接触式识别成为主流。普通相机往往受环境影响(背景、光照、遮挡等)较严重，这样动作识别需在较为理想的环境下进行，鲁棒性不强。

Kinect体感摄像头的出现，给动作识别带来了新的契机，Kinect能对空间三维场景进行捕捉，形成深度图像，不受自然光线和环境背景的干扰。Kinect最大的贡献就是骨骼跟踪技术，形成30fps的骨骼数据流，利用骨骼数据流就可以实现人体动作的识别，但是随着动作种类的增加，动作识别的时效性以及能否快速实时控制机器人是一个值得考虑的关键问题，因此有必要研究一种快速的人体动作识别方法。

发明内容

发明目的：本发明提供一种面向人机交互的快速人体动作识别方法，其目的是解决基于视频的动作识别速度慢的问题。

技术方案：本发明是通过以下技术方案实现的：

一种面向人机交互的快速人体动作识别方法，包括以下顺序步骤：

(1)骨骼点坐标信息的采集

利用Kinect的骨骼跟踪技术，对人体20个关节点的空间三维坐标进行跟踪采集。

(2)关键点的选取

面向人机交互的人体动作大多数可以用肢体动作进行描述，实际应用中并不需要20个关节点全部参与。人在做动作的时候主要是肢体动作，四肢关节点坐标变化很大，对动作的描述贡献成程度大。相对而言，头部和肩部以及躯干部位等关节点的位置比较稳定，变化不大，对动作的贡献度很微弱。例如做右手挥动和右腿右摆动作，动作示意图如图1所示。右手，右脚关节以及其它所有关节点的Y坐标平均变化趋势如图2所示。从图2可以看出，右手，右脚节点坐标波动很大，其它节点坐标变化相对平缓。肘部关节、手腕关节、手部关节可以描述上肢动作，膝关节、踝关节、脚部关节可以描述下肢动作。考虑到腕关节与手关节之间，踝关节与脚关节之间距离很近，二者之间舍弃一点不影响动作的描述，而且还降低了计算量，有利于动作的快速识别。根据关节点对动作描述贡献度原则，提取左右肘、左右手、左右膝关节、左右脚关节这8个节点作为肢体动作描述的关键点。

(3)动作特征的提取

Kinect骨骼数据流会提供人体全身20个关节点的三维坐标，人处在Kinect有效视场中这些关节点的三维坐标也会随着人的运动而时刻改变，不同动作的坐标数据是不一样的，因此坐标数据可以用来描述动作。但是这些原生的坐标数据不能直接用做描述动作的模型，必须转化成特征。

关节点数据转化为动作特征时，要考虑到特征的差异性，即每一个特征只能唯一描述一种动作。测试者每次站在Kinect前方的位置并没有要求，具有随机性，因此特征要满足位置的不变性。利用人体动作来控制机器人实现人机交互对动作执行者的身高、体型尺寸并没有限制，因此特征还要满足测试者体型大小的不变性。本发明提出了一种向量坐标集合的动作描述特征，选取脊柱节点作为向量的共同起始点，8个关键点为特征向量的终点，8个特征向量的三维坐标在时间轴上的排列用来描述动作。

(4)动作识别

动作识别和人脸识别、指纹识别、虹膜识别等都属于生物特征识别，模式识别领域范畴。模式识别与机器学习手段是离不开的，本发明动作识别方法为快速动态时间规整(Fast Dynamic Time Warping,F-DTW)的模板匹配方法，大大提高了识别速度，解决了利用动作控制机器人的时延问题。

(5)机器人

机器人的上肢使用数字舵机进行驱动，数字舵机通过级联的方式进行连接，每个舵机都有自己专属ID，全部舵机通过串行总线与机器人的主控器进行连接，机器人的行走部位为轮式结构，通过直流电机配有驱动器进行驱动。上位机与机器人的控制指令通过蓝牙传输。

首先，Kinect传感器正确与电脑连接，测试者站在Kinect前距离Kinect摄像头1-2m左右，通过Kinect for windows SDK获取人体骨骼20个节点的空间三维坐标；选取左右手、左右肘部、左右脚以及左右膝关节8个关节点作为动作描述的关键点，这8个点要描述成空间向量，选取脊柱节点作为8个特征向量的共同起始点，选取向量作为动作描述的特征，消除人处在Kinect前方不同位置带来的影响，每个向量都有(x，y，z)三维坐标，因此一帧骨骼数流包含8个向量共24维向量坐标，如公式(1)所示：

F＝{X₁,Y₁,Z₁,X₂,Y₂,Z₂,…,X₈,Y₈,Z₈} (1)

其中F为一帧骨骼数据流的向量坐标集合；为了消除不同人体型的差异，坐标向量要按照体型比例进行归一化，如公式(2)所示：

式中，F'为归一化后的特征向量集合，d为脊柱节点到臀部中央节点的归一化欧式距离；Kinect一秒能提供30帧骨骼数据流，这样一个连贯动作就能描述为若干帧向量集合的组合，如公式(3)所示：

M＝{F₁',F₂',F₃',F_i',…,F_λ'} (3)

式中，F'_i为第i帧骨骼数据的向量坐标集合，λ为一个动作包含的骨骼帧数，一个动作M的维数为24*λ。

“(2)”步骤中通过分析各个关节点对动作描述的贡献程度，从中选取左手、右手、左肘关节、右肘关节、左脚、右脚、左膝关节、右膝关节这8个关节点作为特征向量的终点，位置相对稳定的脊柱节点作为8个特征向量的共同起始点，由于向量具有平移不变性，能消除人处在Kinect视场中不同位置对动作识别带来的影响；对特征向量按照人体比例进行归一化处理，消除不同人体型身高不同带来的影响；标准动作模板只需保存为TXT文本，方便后续识别。

在步骤“(3)”中，待测试序列和模板序列进行模板匹配，本发明的匹配算法为F-DTW算法；DTW算法通过计算两序列的DTW距离来判断两序列的相似度，距离越小，则两序列相似度越高；但是随着动作种类数量的增加，待测试序列和模板序列逐一匹配会大大增加计算量，导致识别速度下降；实际应用中，先计算两动作序列的加速函数数值，小于相似度阈值则继续计算DTW距离，否则终止计算，加速函数如下式所示：

其中Acc为两动作序列的加速函数值，X₁和Y₁分别为两序列的首节点，X_n和Y_m分别两序列的尾节点，max(X_i)和max(Y_j)分别为两序列的最大值节点，min(X_i)和min(Y_j)分别为两序列的最小值节点。

全局相似度阈值τ如下式所示：

τ＝max(ε₁,ε₂,…,ε_i,…,ε_ω)

式中：τ为全局相似度阈值，ε_i为第i种类别动作的相似度阈值，在实际测试时候，对每次成功匹配的规整距离的均值作为该种动作的相似度阈值，ω为要识别的动作类别总数。

步骤“(4)”中，将动作识别结果进行编码，机器人的主控器接收到动作指令后，做出响应，实现通过动作来控制机器人前进或后退的人机交互。

优点效果：

本发明提供一种面向人机交互的快速人体动作识别方法，整个系统由终端计算机、Kinect人体动作输入设备、蓝牙通信模块和机器人组成。首先利用Kinect对人体进行捕捉，从20个关节点中提取能代表全身动作的有效节点，计算成动作特征形成动作模板并保存为TXT文本。在识别阶段，待测试动作序列与标准模板通过快速动态时间规整(FastDynamic Time Warping,F-DTW)算法进行快速匹配，并给出识别结果。根据动作识别的结果，机器人会做出不同的响应。本发明的快速算法大大提高了动作识别速度，优化了对机器人的快速控制。

附图说明

图1为右手，右腿动作示意图；

图2为关节点Y坐标变化示意图；

图3为特征向量示意图；

图4为系统整体流程图；

图5为系统上位机界面图；

图6为识别率验证图；

图7为平均识别时间证验图；

图8为本发明的流程图。

具体实施方式

本发明提供一种面向人机交互的快速人体动作识别方法，从而实现对机器人的快速控制，下面对本发明做进一步说明：

一种面向人机交互的快速人体动作识别方法，其特征在于：所述方法具体步骤如下：

(1)动作描述特征点的获取：利用Kinect的骨骼跟踪技术获取人体全身20个关节点的空间三维坐标，提出用于动作识别的8个关键特征点的选取原则；

(2)动作的描述：用向量集合来描述特征，使描述不同动作的特征具有很大的差异性，并且特征要消除位置差异和体型差异的影响；

(3)动作识别：动作识别方法为模板匹配方法，并且不受动作执行快慢的影响；待测试序列和模板中每一个序列匹配时，先要经过加速函数的筛选，若能通过筛选，则两序列进行匹配计算，给出识别结果，否则终止计算；

(4)对识别结果进行编码区分，然后通过蓝牙通信方式将控制指令传给机器人，机器人按照人的意愿完成一件事情，实现人机交互。

“(1)”步骤中所述获取的20个骨骼关节点具体为：头部、左肩、双肩中央、右肩、左肘关节、右肘关节、左腕关节、右腕关节、左手、右手、脊柱关节、臀部中央、左臀部、右臀部、左膝盖、右膝盖、左踝关节、右踝关节、左脚、右脚；用于人机交互的动作主要是肢体动作，四肢关节点坐标变化很大，对动作的描述贡献程度大；相对而言，头部和肩部以及躯干部位等关节点的位置比较稳定，变化不大，对动作的贡献度很微弱；肘部关节、手腕关节、手部关节能描述上肢动作，膝关节、踝关节、脚部关节能描述下肢动作；考虑到腕关节与手关节之间，踝关节与脚关节之间距离很近，二者之间舍弃一点不影响动作的描述，而且还降低了计算量，有利于动作的快速识别；根据关节点对动作描述贡献度原则，提取左右肘、左右手、左右膝关节、左右脚关节这8个节点作为肢体动作描述的关键点。

首先，Kinect传感器正确与电脑连接，测试者站在Kinect前距离Kinect摄像头1-2m左右，通过Kinect for windows SDK获取人体骨骼20个节点的空间三维坐标。为了描述上下肢体动作，选取左右手、左右肘部、左右脚以及左右膝关节8个关节点作为动作描述的关键点，这8个点要描述成空间向量，因此选取脊柱节点作为8个特征向量的共同起始点，特征向量示意图如图3所示。选取向量作为动作描述的特征，可以消除人处在Kinect前方不同位置带来的影响，因为在做同一个动作时，不同位置的坐标点是时刻变化的，但是向量具有平移的坐标不变性，即使人的位置改变，但是描述动作的向量特征并不改变。每个向量都有(x，y，z)三维坐标，因此一帧骨骼数流包含8个向量共24维向量坐标，如公式(1)所示：

F＝{X₁,Y₁,Z₁,X₂,Y₂,Z₂,…,X₈,Y₈,Z₈} (1)

其中F为一帧骨骼数据流的向量坐标集合。为了消除不同人体型的差异，坐标向量要按照体型比例进行归一化，如公式(2)所示：

式中，F'为归一化后的特征向量集合，d为脊柱节点到臀部中央节点的归一化欧式距离。Kinect一秒可以提供30帧骨骼数据流，这样一个连贯动作就可以描述为若干帧向量集合的组合，如公式(3)所示：

M＝{F₁',F₂',F₃',F_i',…,F_λ'} (3)

每个动作都有自己唯一的向量坐标集合进行描述，我们把自定义的几种动作建立模板库以文件的方式保存到本地计算机磁盘，以便实现测试和识别。在动作识别阶段，本次发明一种F-DTW方法，是一种快速模板匹配方法。待测试动作序列和模板序列逐一计算DTW距离，距离越小则相似度越高。但是在计算DTW距离之前，先通过加速函数来计算两序列函数值，此加速函数的计算值一定是小于两序列DTW距离的，而且加速函数的计算复杂度要远小于DTW距离的计算复杂度。这样，若两序列的加速函数值大于相似度阈值，则其DTW距离也必定大于此相似度阈值，此模板序列必然不是待识别的动作，就没必要计算实际DTW距离，只需通过加速函数的提前筛选就可以过滤掉不相关模板序列的匹配计算，大大提高了识别速度，满足实时控制机器人的要求。加速函数公式如式(4)所示：

式中：Acc为两动作序列的加速函数值，X₁和Y₁分别为两序列的首节点，X_n和Y_m分别两序列的尾节点，max(X_i)和max(Y_j)分别为两序列的最大值节点，min(X_i)和min(Y_j)分别为两序列的最小值节点。全局相似度阈值τ如式(5)所示。优点在于，动作种类增加的时候，减少计算量，提高识别速度。

τ＝max(ε₁,ε₂,…,ε_i,…,ε_ω) (5)

动作识别成功以后，上位机会通过蓝牙发送相应的控制指令给机器人，机器人的蓝牙收到指令后传给主控器，主控器按照指令来完成对应的功能，系统整体流程图如图4所示。

下面结合系统的上位机界面，对右手右摆动作控制机器人前进做进一步详细说明，上位机界面如图5所示。

(1)首先，人站在Kinect摄像头前方1-2m距离左右，保证画面中出现骨骼图像和彩色图像。

(2)动作模板的录制。点击动作捕捉按钮，选择需要录制的动作名称，例如右手右摆，开始做该动作，完成后，该动作的特征向量集合会自动保存到缓冲区，选择下一个动作以同样的方法进行录制。全部动作录制完成后，点击保存到模板按钮，缓冲区的特征数据就会以文本的形式保存到本地计算机硬盘中，到此，动作模板库已经形成，可以关闭此程序。

(3)再次运行此程序，点击加载动作模板按钮，加载刚刚录制好的动作模板库，界面会提示模板已加载。成功加载模板后，选择与机器人通信的串口号，通信波特率，测试者就可以做手势动作，例如做右手右摆动作，识别成功后界面会给出识别结果，并向机器人发送控制指令“a”，机器人收到指令“a”后，主控器控制机器人前进的程序执行，实现了利用右手右摆动作来控制机器人前进的人机交互功能。再比如：将挥手动作编码为“a”，踢腿动作编码为“b”，作为机器人的控制指令，通过蓝牙方式传给机器人的主控器。例如收到指令“a”机器人前进，收到指令“b”机器人后退。

实施例：

本发明采用微软3D景深摄像头Kinect作为动作采集设备，摄像头对环境光线无要求，完全黑暗也可以。采集动作时，Kinect放置距离地面1m高度，被采集者面向Kinect站立，身体与镜头平面保持平行，距离摄像头1-2m左右，与摄像头之间无障碍物遮挡。根据实验要求，选择实验室5人进行动作录制和测试，建立如下三种动作模板库：

(1)自定义20种动作，选择其中1人，对这20种动作录制一遍，保存动作模板。

(2)自定义20种动作，选择5人，每人对20种动作各录制10遍，50个模板取平均值保存为一个模板。

(3)以第二种模板的录制方法，分别自定义5，10,15,…,40,45,50种动作，分别保存，共10个模板。

A验证识别率实验

本发明用三个对比实验来验证识别率，每种实验对动作执行者速度没有要求，使用本发明中的F-DTW算法进行识别。第一个实验中，取第一种模板，测试者为动作的录制者，每个动作做100次，共进行2000次测试。实验二中，取第一种模板，其它4人(不包括录制者)进行测试，每种动作每人做25次，共进行2000次测试。实验三中，取第二种模板，5人进行测试，每人每个动作测试20次，共进行2000次测试。统计三种实验结果平均识别率，如图6所示。从实验结果可以看出整体识别率较高，在对测试者做动作的快慢没有限制条件下，平均识别率都在90％以上。与实验一相比，实验二识别率略有下降趋势，主要原因是测试者的动作不可能完全模拟录制者录制的动作，单一模板条件下测试，鲁棒性不强。由于实验二中对测试者的身高体型没有限制，测试者只需在Kinect有效视场范围内即可，结果显示整体识别率为95.65％，验证了特征提取的有效性。实验三的平均识别率为97.42％，与实验二相比，识别率大大提高，说明大量的动作数据训练的模板要比单一数据模板包含的信息量高，代表性更强。

B验证识别时间实验

本发明采用对比实验的方法验证识别时间，使用的模板为第三种模板。在5人中选择1人作为动作测试者，选择第三种模板库，对其中的10个具有不同动作种类数的模板，每种动作使用DTW,HMM和本次发明的F-DTW算法各进行100次测试，测试过程中测试者可以适当歇息。每次测试在识别成功的基础上，记录识别时间，最后统计系统在不同动作种类数，三种算法总的平均识别时间，如图7所示。从图中可以看出，在动作种类数小于10时，由于数据量小，三种算法的平均时间差别不是很明显。在动作种类数超过10，模板库的数据量会变得很庞大。由于HMM是基于概率统计的识别方法，需要大量的数据进行统计计算，计算复杂度高，识别时间呈现上升趋势。DTW算法需要待测试动作和模板库进行逐一匹配计算相似度距离，随着动作种类数的增加，识别时间也呈上升趋势，不能达到实时性，难以满足人机交互的要求。而F-DTW算法由于提前过滤掉大多非目标样本，对非目标样本终止计算相似度，大大减少了计算量，识别时间几乎不受动作种类数的影响，能实时给出识别结果，快速控制机器人。

结论：本发明设计一种快速人体动作识别方法来进行人机交互，通过Kinect深度传感器快速识别人体动作从而实现人与机器人的交互，为虚拟现实，人机交互领域的深入研究提供技术支撑。

Claims

1.一种面向人机交互的快速人体动作识别方法，其特征在于：所述方法具体步骤如下：

2.根据权利要求1所述的一种面向人机交互的快速人体动作识别方法，其特征在于：“(1)”步骤中所述获取的20个骨骼关节点具体为：头部、左肩、双肩中央、右肩、左肘关节、右肘关节、左腕关节、右腕关节、左手、右手、脊柱关节、臀部中央、左臀部、右臀部、左膝盖、右膝盖、左踝关节、右踝关节、左脚、右脚；用于人机交互的动作主要是肢体动作，四肢关节点坐标变化很大，对动作的描述贡献程度大；相对而言，头部和肩部以及躯干部位关节点的位置比较稳定，变化不大，对动作的贡献度很微弱；肘部关节、手腕关节、手部关节能描述上肢动作，膝关节、踝关节、脚部关节能描述下肢动作；根据关节点对动作描述贡献度原则，提取左右肘、左右手、左右膝关节、左右脚关节这8个节点作为肢体动作描述的关键点。

3.根据权利要求2所述的一种面向人机交互的快速人体动作识别方法，其特征在于：首先，Kinect传感器正确与电脑连接，测试者站在Kinect前距离Kinect摄像头1-2m左右，通过Kinect for windows SDK获取人体骨骼20个节点的空间三维坐标；选取左右手、左右肘部、左右脚以及左右膝关节8个关节点作为动作描述的关键点，这8个点要描述成空间向量，选取脊柱节点作为8个特征向量的共同起始点，选取向量作为动作描述的特征，消除人处在Kinect前方不同位置带来的影响，每个向量都有(x，y，z)三维坐标，因此一帧骨骼数流包含8个向量共24维向量坐标，如公式(1)所示：

F＝{X₁,Y₁,Z₁,X₂,Y₂,Z₂,…,X₈,Y₈,Z₈} (1)

<mrow> <msup> <mi>F</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mi>F</mi> <mi>d</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

M＝{F₁',F₂',F₃',F_i',…,F_λ'} (3)

4.根据权利要求1所述的一种面向人机交互的快速人体动作识别方法，其特征在于：“(2)”步骤中通过分析各个关节点对动作描述的贡献程度，从中选取左手、右手、左肘关节、右肘关节、左脚、右脚、左膝关节、右膝关节这8个关节点作为特征向量的终点，位置相对稳定的脊柱节点作为8个特征向量的共同起始点，由于向量具有平移不变性，能消除人处在Kinect视场中不同位置对动作识别带来的影响；对特征向量按照人体比例进行归一化处理，消除不同人体型身高不同带来的影响；标准动作模板只需保存为TXT文本，方便后续识别。

5.根据权利要求1所述的一种面向人机交互的快速人体动作识别方法，其特征在于：在步骤“(3)”中，待测试序列和模板序列进行模板匹配，本发明的匹配算法为F-DTW算法；DTW算法通过计算两序列的DTW距离来判断两序列的相似度，距离越小，则两序列相似度越高；但是随着动作种类数量的增加，待测试序列和模板序列逐一匹配会大大增加计算量，导致识别速度下降；实际应用中，先计算两动作序列的加速函数数值，小于相似度阈值则继续计算DTW距离，否则终止计算，加速函数如下式所示：

6.根据权利要求5所述的一种面向人机交互的快速人体动作识别方法，其特征在于：全局相似度阈值τ如下式所示：

τ＝max(ε₁,ε₂,…,ε_i,…,ε_ω)

7.根据权利要求1所述的一种面向人机交互的快速人体动作识别方法，其特征在于，步骤“(4)”中，将动作识别结果进行编码，机器人的主控器接收到动作指令后，做出响应，实现通过动作来控制机器人前进或后退的人机交互。