CN106682594A

CN106682594A - 基于动态网格编码的姿势和动作识别方法

Info

Publication number: CN106682594A
Application number: CN201611146311.4A
Authority: CN
Inventors: 张凤军; 李耀宗; 田丰; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-17

Abstract

本发明提供一种基于动态网格编码的姿势和动作识别方法，其步骤包括：1)定义各人体姿势或者动作模板；2)利用kinect识别各模板所示人体的多个关节点，并对姿势或者动作模板进行编码；其中对姿势进行编码将得到一个字符串，对动作进行编码将得到一个字符串序列；3)对待识别姿势或者动作进行编码；4)根据姿势或者动作模板编码和待识别姿势或者待识别动作编码识别待识别姿势或者待识别动作。本发明通过采用字符串编码的方法利用Kinect完成姿势和动作的识别，不仅不需要训练过程，而且具有较好的可移植性和识别率，可以大大降低相关产品的开发难度，缩短开发周期。

Description

基于动态网格编码的姿势和动作识别方法

技术领域

本发明涉及人机交互领域，尤其涉及一种基于动态网格编码的姿势和动作识别方法。

背景技术

近年来，随着计算机软硬件技术的发展，传统的基于鼠标键盘的人机交互技术已经远远不能满足人们的需求。随着大屏幕的普及和应用场景的多元化，人们开始呼唤更自然的人机交互方式，将人与人的交互方式引入到人机交互中，这其中的关键就包括了一系列对姿势和动作进行识别的技术。

现有的姿势和动作识别技术，大体上可以分为两类，第一类是基于机器学习方法的识别技术，第二类是采用启发式方法的识别技术。采用机器学习方法，虽然有较高的识别率，但是一般需要较长的训练过程，一旦姿势或者动作集合发生改变，就要重新进行训练，不够灵活方便，而且这类程序往往都很复杂，并不适合初级的开发者；而采用启发式的识别方法，虽然不需要训练过程，但是识别率普遍不高，应用场景单一，可移植性不强。

发明内容

本发明的目的是提供一种基于动态网格编码的姿势和动作识别方法，该识别方法不仅不需要训练过程，而且产生的数据量小，含义直观，且有较高的识别率，更加便于网络传输和应用到移动端或嵌入式系统中。

为达到上述目的，本发明所采用的技术方案具体描述如下：

一种基于动态网格编码的姿势和动作识别方法，其步骤包括：

1)定义各人体姿势或者动作模板；

2)识别各模板所示人体的多个关节点，对各姿势或者动作模板进行编码；

3)对待识别姿势或者动作进行编码；

4)根据姿势或者动作模板编码和待识别姿势或者待识别动作编码识别待识别姿势或者待识别动作。

进一步地，步骤2)中所述关节点不少于20个关节点。

进一步地，步骤2)中对姿势进行编码将得到一个字符串，对动作进行编码将得到一个字符串序列。

更进一步地，步骤2)中所述对姿势或者动作模板集合进行编码的方法包括以下步骤：

2-1)选取脊椎点作为原点，对20个关节点建立三维坐标；

2-2)将关节点位置信息映射到标准人体比例模型上，即对坐标进行比例变换；

2-3)将关节点坐标进行降维处理，去掉深度信息；

2-4)以臀部中央点为原点建立二维直角坐标系，将各关节点的坐标进行平移，得到所有关节点在二维坐标下的新坐标；

2-5)以臀部中央点为基准点，建立网格，对人体20个关节点所在的网格进行编码并按固定顺序串联成字符串。

更进一步地，步骤2-2)中所述对坐标进行比例变换的方法包括以下步骤：

2-2-1)计算肩膀中央点与脊椎点的距离，并作为变换的基准距离；

2-2-2)变换臀部中央点坐标，使得臀部中央点与脊椎点的距离和肩膀中央点与脊椎点的距离之比符合标准的人体比例；其中在移动臀部中央点坐标后，与臀部中央点直接或者间接相连的还未进行比例变换的点(包括左臀、右臀、左膝盖、右膝盖、左脚踝、右脚踝、左脚掌、右脚掌)随臀部中央点平移；

2-2-3)按照步骤2-2-2)所述方法，完成剩余坐标点变换。

更进一步地，步骤2-5)中所述建立网格并对人体20个关节点所在的网格进行编码的方法包括以下步骤：

2-5-1)以臀部中央点为基准点建立一个64*64的网格，其中网格分布左右对称，臀部中央点上方42行，下方22行，且网格的总长度为身高的1.5倍；

2-5-2)将网格按照从左到右，从上到下的顺序依次编码为64个字符；

2-5-3)将人体20个关节点所在的网格进行编码并按固定顺序串联成字符串。

进一步地，步骤4)中所述姿势识别方法包括以下步骤：

4-1)根据待识别姿势集合的特点，定义不同关节点对应的计算权重；

4-2)根据待识别姿势集合的特点和对精度的要求，设定相似度阈值θ；

4-3)利用相似度计算方法依次计算所有模板与待识别姿势的相似度，相似度最大的即可作为识别结果，当该最大相似度大于预先设定的阈值θ，则成功识别出该姿势。

更进一步地，步骤4-1)中用户可根据自己定义的姿势集合，来确定每个关节点应该采取的权重。

进一步地，步骤4)中所述动作识别方法包括以下步骤：

4-a)根据待识别动作集合的特点，定义不同关节点对应的计算权重；

4-b)根据待识别动作集合的特点和对精度的要求，设定相似度阈值λ；

4-c)利用动态时间规整算法依次计算所有模板与待识别动作的相似度，相似度最大的即可作为识别结果，当该最大相似度大于预先设定的阈值λ，则成功识别出该动作。

进一步地，利用kinect识别各模板所示人体的多个关节点。

本发明的有益效果在于：本发明提供一种基于动态网格编码的姿势和动作识别方法，通过采用字符串编码的方法利用Kinect完成姿势和动作的识别，不仅不需要训练过程，开发人员可以随意定义自己所需要的姿势和动作集合，而且具有较好的可移植性和识别率，可以大大降低相关产品的开发难度，缩短开发周期。

附图说明

图1为本发明方法的流程示意图。

图2为人体20个关节点示意图。

图3为人体标准比例模型图。

图4为本发明方法坐标映射过程示意图。

图5为本发明方法编码示意图。

图6为本发明一实施例的利用动态时间规整算法得到的最佳匹配路径示意图。

图7为本发明一实施例定义的姿势集合示意图。

图8为本发明一实施例定义的右手动作集合示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种基于动态网格编码的姿势和动作识别方法，其流程示意图如图1所示，该方法步骤包括：

1)定义各人体姿势或者动作模板；

2)利用kinect识别各模板所示人体的多个关节点，对各姿势或者动作模板集合进行编码；其中对姿势进行编码将得到一个字符串，对动作进行编码将得到一个字符串序列；

3)对待识别姿势或者动作进行编码；

下面以姿势识别过程为例，来具体说明基于动态网格的姿势识别方法。首先需要对人体姿势进行编码。其编码过程如下：

1、获取人体多个关节点的位置信息，在本实施例中使用20个关节点，其具体关节点位置请参考图2。本发明方法也可以采取比20个更多的关节点，但是最好不要少于20。本实施例中使用20个关节点是因为这20个关节点可以很好的描述人体姿势而且kinect1.0可以识别到这20个关节点。

本发明在研究过程中，采用微软的Kinect体感设备。Kinect是目前常用的体感设备之一，它搭载的红外线发射器和红外线摄影机可以感知深度信息。利用深度信息，Kinect可以准确识别人体的20个骨骼关节点。具体识别关节点的过程在这里不再描述。

2、对识别到的关节点信息进行编码。

在识别到关节点后，需要对关节点的位置信息进行编码。虽然在现实生活中，人与人在外貌、声音、体型等方面都存在较大的差异，但是人体的骨骼构成基本是一致的。为了消除由于个体身体比例不同产生的差异，保证编码的通用性，在识别到人体骨骼信息后，还要将其位置信息映射到标准的人体比例模型中，然后再进行编码，其人体标准比例模型如图3所示。

具体的映射过程(即对坐标进行比例变换)请参考图4：

1)选取脊椎点作为原点，建立三维空间坐标，将Kinect识别到的20个关节点坐标平移变换到新的坐标系上。在这里选取脊椎点为原点，可以保证坐标变换次数最少(5次)。

2)完成初次坐标变换。

计算肩膀中央点与脊椎点的距离d_{shoulderCenter-spine}作为变换的基准距离。变换臀部中央点坐标，使得臀部中央点与脊椎点间距离和肩膀中央点与脊椎点的距离之比符合标准的人体比例注意，在移动臀部中央点坐标后，与臀部中央点直接或者间接相连的点，也应该以相同的方式移动。

3)完成剩余4次坐标变换。

在第一次坐标变换中，以脊椎中央点为基准点，以肩膀中央点与脊椎点之间的距离作为基准距离，平移了臀部中央点和与其直接或间接相连的其他点。第二次坐标变换的原理与第一次相同，还是以肩膀中央点与脊椎点之间的距离作为基准距离，只是这次的基准点变为肩膀中央点和臀部中央点。同理，第三次的基准点为第二次移动的五个点(即头点、左肩膀点、左臀点、右臀点、右肩膀点)，第四次的基准点为第三次移动的四个点(即左手肘点、左膝盖点、右膝盖点、右手肘点)，第五次的基准点为第四次移动的四个点(即左手腕点、左脚踝点、右脚踝点)。

至此，映射过程结束，已经将不同的人体骨架映射到定义的标准人体比例模型上，下一步就是对20个关节点进行字符串编码。其具体编码过程如下：

1)坐标降维。

在研究过程中发现，将关节点的三维空间坐标转换到二维平面后，同样可以根据二维平面坐标确定人体姿势，且大大简化了编码和识别过程，所以可以对坐标进行降维。这里的降维是指直接去掉z方向的深度信息。

2)坐标平移变换。

以臀部中央点为原点，建立二维直角坐标系，将20个关节点的坐标进行平移，得到所有关节点在二维坐标下的新坐标。在映射过程中，选择以脊椎点为原点是为了保证坐标变换的次数最少，而在编码过程中，选择以臀部中央点为原点，是因为臀部中央点位于人体两块髋骨之间，在人体运动过程中，稳定性最好。

3)姿势编码。

这是非常关键的一步，也是算法的核心。请参考图5，以臀部中央点为基准点，建立一个64*64的网格，网格分布左右对称，臀部中央点上方42行，下方22行，网格的总长度为身高的1.5倍，这样可以保证任何姿势下20个关节点都落在网格内。建立好网格后，我们从左上角开始将网格按照从左到右，从上到下的顺序依次编码为0…9A…Za…z！？(共64个字符)。最后将人体20关节点所在的网格编码按固定顺序串联成字符串即可。关节点顺序依次为：头、肩膀中央、左肩膀、右肩膀、左手肘、右手肘、左手腕、右手腕、左手掌、右手掌、脊椎、臀部中央、左臀、右臀、左膝盖、右膝盖、左脚踝、右脚踝、左脚掌、右脚掌。

例如，假如头处于第5行第7列，那么字符串编码的前两位即为46(从0开始编码)。经过编码得到一个40位的字符串。这个字符串每两位一组，可以视为一个XY坐标，描述了其某个关节点的位置。

有了统一的编码规则后，就可以先用模型生成待识别姿势的字符串编码，然后在Kinect应用中，通过时时采集的数据对姿势进行编码，再与模板进行匹配，从而识别出最相近的姿势。

字符串可以存储在程序的字符串变量、各种类型文件和数据库中，便于应用到各种各样的系统并进行网络传输，且非常的方便。完成字符串的编码后，进行姿势识别的过程，实际上就是一个求解字符串相似度的过程。本发明方法通过字符串所代表的实际含义来进行相似度(similarity)求解。

原始的计算公式如下：

其中：M代表某个模板字符串，N代表通过关节点，实时计算得到的字符串。下标i表示字符串第i个位置的字符对应的数值。根据上面的编码，字符0到9对应数字0到9，字符A到Z对应数字10到35，字符a到z对应数字36到61，字符！代表数字62，字符？代表数字63。

这个公式就是求解对应关节点映射到二维平面且规划化后的欧氏距离，然后对所有20个关节点之间的距离求和，得到两个字符串间的距离。距离越大，相似度越小。所有字符串间相似度定义为：

但是在进行姿势识别的过程中，每个关节点参与计算的权重应该是不一样的，因为只有用户自己知道自己定义的姿势重点关注的是哪些关节点，所以用户可以根据自己设计的姿势集合，来确定每个关节点应该采取的权重。例如，如果用户只关注上半身姿势，那么可以将上半身关节点权重设为1，下半身设为0，这样人的下半身动作就不影响姿势识别；如果用户关注全身的姿势，但是重点关注上半身姿势，可以将上半身关节点权重设为1，下半身关节点权重设为0.5。

加入权重后，距离计算公式为：

其中，w_i即为第i点所对应的权重。

利用相似度计算方法依次计算所有模板与待识别姿势的相似度，相似度最大的即可作为识别结果，当该最大相似度大于预先设定的阈值θ，则成功识别出该姿势。其中，阈值θ根据动作集合的复杂度和精度要求来设定，最终确定具体数值需要在确定姿势集合后，根据实验结果确定。一般的原则是姿势越多，对精度要求越高，阈值越大。

以上就是姿势识别的全过程，动作识别与姿势识别十分类似，可以视作一系列姿势的识别，所以可以用一个字符串序列来定义一个动作。动作识别与姿势识别的主要区别如下：首先，姿势识别可能是对全身多个关节点的相对位置进行判断，而动作识别重点往往是对某个或者某几个关节点在某个时间段内的相对位置进行判断。例如标准的立正姿势，就需要判断全身20个关节点的相对位置，而定义右手的挥手动作，就仅仅需要判断右手掌，右手腕和右手肘三个关节点在固定时间内的相对位置。这样在进行动作匹配时，无关的关节点权重可以设置为0，相关的关节点位置可以按重要程度进行设置。

在动作识别中，还有一个重要的问题是如何定义动作的开始点和结束点。在这里可以采用以下两种方式：一是定义的动作都从某个固定姿势开始到某个固定姿势结束，这种方式适合一些固定的场合，例如交通警察指挥交通过程中，所有的标准动作都是以立正为开始和结束点。但是这种方式不够灵活，有一定的局限性。另一种方式是采用握拳的方式定义动作开始和结束。每当要通过做特定的动作进行交互时，可以先握紧拳头，做完动作后再松开拳头，这种方式比较灵活，可以应用到各种各样的动作，但是这种方式又显得不够自然。本发明中主要采用的是第二种方式进行测试。

既然已经能够确定动作的开始和结束点，那么每当完成一个动作，就会得到一个字符串序列，动作识别的过程实际上就是这个字符串序列之间进行相似度计算的过程。不同的人做同一个动作甚至一个人连续几次做同一个动作，都不会在完全相同的时间内完成，但是硬件设备的采样率一般是固定的，这就会造成多次重复同一个动作得到的字符串序列长度是不一样的，为了消除字符串序列长度对匹配的影响，这里采用了动态时间规整算法(Dynamic Time Warping)进行匹配。

动态时间规整算法一般用于语音信号的处理。因为不同的人有不同的发音习惯，这就造成了不同的人发出相同的语句，虽然整体波形比较相似，但是时间长度和局部波峰的相对位置都存在较大差异，为了消除这种差异，一般采用DTW算法求出两段波形的最小距离(或最大相似度)。这个过程与本发明的动作识别过程极为相似，所以本发明同样可以采用DTW算法进行字符串序列相似度匹配。

采用DTW算法进行字符串序列匹配的过程如下：

假设有两个字符串序列分别为M和N，它们的长度分别为m和n。当m＝n时，直接计算两个序列对应点的距离，然后求和就可以了。但是，当m≠n时，为了对齐这两个序列，需要构造一个m×n的矩阵网格，矩阵元素(i，j)表示M_i和N_j两个点的距离。这里每两个点之间的距离与姿势识别中字符串间的距离定义相同。每一个矩阵元素表示点和的对齐。算法可以归结为寻找一条通过此网格中若干网格点的路径，路径通过的网格点即为两个序列进行计算的对齐的点。最终需要找到一条路径W＝w₁，w₂...w_k，其中w_i表示第i步到达的点。具体过程请参考图6。

在寻找路径的过程中，需要遵循以下规则：

1)边界条件：w₁＝(1，1)和w_k＝(m，n)。因为每一个动作无论快慢，最终的开始点和结束点应该是相同的。

2)连续性：如果w_k-1＝(a′，b′)，那么对于路径的下一个点w_k＝(a，b)需要满足(a-a′)≤1和(b-b′)≤1。也就是不可能跨过某个点去匹配，只能和自己相邻的点匹配。

3)单调性：如果w_k-1＝(a′，b′)，那么对于路径的下一个点w_k＝(a，b)需要满足(a-a′)≥0和(b-b′)≥0。

结合连续性和单调性约束，每一个网格点的路径就只有三个方向。例如如果路径已经通过了网格点(i，j)，那么下一个通过的网格点只可能是下列三种情况之一：(i+1，j)，(i，j+1)或者(i+1，j+1)。

满足上面这些约束条件的路径可以有很多个，但需要求得使下面的规整代价最小的路径：

分母中的k主要是用来对不同的长度的规整路径做补偿。这样采用动态规划的方法就可以很容易的求得最优路径。两个字符串序列间距离越小，相似度越高。所以，字符串序列间相似度定义为：

利用动态时间规整算法依次计算所有模板与待识别动作的相似度，相似度最大的即可作为识别结果，当该最大相似度大于预先设定的阈值λ，则成功识别出该动作。其中，阈值λ根据动作集合的复杂度和精度要求来设定，最终确定具体数值需要在确定动作集合后，根据实验结果确定。一般的原则是动作越多，对精度要求越高，阈值越大。

为了使本技术领域的人员更好的理解本发明，以下结合两个简单的实例详细描述姿势识别和动作识别的过程，但实例不构成对本发明的限制。以下简单实例，每个姿势或动作都只定义了一个模板，如果每个姿势有多个模板，可以采用KNN算法得到最终结果。

一、姿势识别

在利用Kinect进行姿势识别前，首先需要定义待识别的姿势集合。在这里定义了六种姿势，如图7所示，从左到右分别为：立正，举右手，直举双手，举左手，半举双手，斜举双手。

在定义好姿势后，需要对姿势进行字符串编码。利用上面提到的方法，分别对这6种姿势进行编码，得到数据如下：

姿势	字符串编码
		立正	VWJVWOROaORXaXRdadRiaiVWVVWdSdZdSmZmSxZxSzZz
举右手	VWJVWOROaORXcFRdeARie5VWVVWdSdZdSmZmSxZxSzZz
		直举双手	VWJVWOROaOOGcFMAeAM6e5VWVVWdSdZdSmZmSxZxSzZz
举左手	VWJVWOROaOOGcXMAddM6dhVWVVWdSdZdSmZmSxZxSzZz
		半举双手	VWJVWOROaOIOjPIKkJHGkFVWVVWdSdZdSmZmSxZxSzZz
斜举双手	VWJVWOROaOMHgIICkDF9n9VWVVWdSdZdSmZmSxZxSzZz

得到待识别姿势的字符串编码后，就可以利用Kinect，识别这些姿势。具体过程如下：

1、在Kinect工程中，导入字符串模板到配置文件中，记录为E1至E6。

2、识别时，对关节点位置信息进行处理(包括坐标映射、降维、坐标变换、编码)，得到字符串S。

3、用得到的字符串S与预先导入的六个字符串E1至E6进行相似度计算，相似度计算方法如上文所述，计算过程中，每个点的权重均设为1。

4、如果计算得到的最大相似度大于设定的阈值，则判定姿势识别成功，并在屏幕上打印出识别到的姿势，否则姿势识别失败。在不同的场景中，应该设定不同的阈值，这里设为θ＝0.05可以取得较好的识别效果。

二、动作识别

首先同样需要定义待识别的动作集合，如图6所示，为了示例简单易懂，在这里只关注右手掌的运动轨迹。

最终得到右手掌运动轨迹的字符串编码序列为(因为只关注右手掌的动作，这里只给出了右手掌的字符串编码序列)：

得到字符串编码序列后，就可以利用Kinect开始识别这些动作。具体过程如下：

1、在Kinect工程中，导入字符串序列模板到配置文件中，记录为E1到E9。

2、识别时，从握拳视为动作开始，到松手视为动作结束，记录整个过程中产生的字符串序列，并将字符串序列存储在一个字符串数组中，记为S。

3、用得到的字符串数组S与预先导入的模板E1至E9进行相似度计算，相似度计算方法如上文所述。

4、如果计算得到的最大相似度大于设定的阈值，则判定动作识别成功，并在屏幕上打印出识别到的动作，否则动作识别失败。本实施例中设定的阈值为λ＝0.2。可以取得较好的识别效果。

以上就是本发明方法利用Kinect进行姿势识别和动作识别的全过程。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于动态网格编码的姿势和动作识别方法，其步骤包括：

1)定义各人体姿势或者动作模板；

3)对待识别姿势或者动作进行编码；

2.如权利要求1所述的方法，其特征在于，步骤2)中所述关节点不少于20个关节点。

3.如权利要求1所述的方法，其特征在于，步骤2)中对姿势进行编码将得到一个字符串，对动作进行编码将得到一个字符串序列。

4.如权利要求2所述的方法，其特征在于，步骤2)中所述对姿势或者动作模板集合进行编码的方法包括以下步骤：

2-1)选取脊椎点作为原点，对20个关节点建立三维坐标；

2-3)将关节点坐标进行降维处理，去掉深度信息；

5.如权利要求4所述的方法，其特征在于，步骤2-2)中所述对坐标进行比例变换的方法包括以下步骤：

2-2-2)变换臀部中央点坐标，使得臀部中央点与脊椎点的距离和肩膀中央点与脊椎点的距离之比符合标准的人体比例；其中在移动臀部中央点坐标后，与臀部中央点直接或者间接相连的还未进行比例变换的点随臀部中央点平移；

2-2-3)按照步骤2-2-2)所述方法，完成剩余坐标点变换。

6.如权利要求4所述的方法，其特征在于，步骤2-5)中所述建立网格并对人体20个关节点所在的网格进行编码的方法包括以下步骤：

7.如权利要求1所述的方法，其特征在于，步骤4)中所述姿势识别方法包括以下步骤：

8.如权利要求7所述的方法，其特征在于，步骤4-1)中用户可根据自己定义的姿势集合，来确定每个关节点应该采取的权重。

9.如权利要求1所述的方法，其特征在于，步骤4)中所述动作识别方法包括以下步骤：

10.如权利要求1所述的方法，其特征在于，利用kinect识别各模板所示人体的多个关节点。