CN103345627A

CN103345627A - 动作识别方法和装置

Info

Publication number: CN103345627A
Application number: CN201310312228XA
Authority: CN
Inventors: 刘云浩; 苗欣; 刘克彬; 王思伦; 杨磊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2013-10-09
Anticipated expiration: 2033-07-23
Also published as: CN103345627B

Abstract

本发明提供了一种动作识别方法和动作识别装置，所述动作识别方法包括:步骤S1:采集动作数据，针对所述动作数据计算拟合数据，所述拟合数据用于表征在所述动作数据的采集时刻所述动作的能量变化的大小;步骤S2:将预定数量的所述拟合数据按时间顺序读入滑动窗口，所述滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取所述动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;步骤S3:对所述有效动作数据进行识别，判断动作类型。本发明能够精确地将有效动作数据分割出来，提高了动作识别结果的准确率:且动作识别完全在智能手机上实现，使用方便。

Description

动作识别方法和装置

技术领域

本发明涉及模式识别领域，具体涉及一种动作识别方法和装置。

背景技术

当前，人机交互的方式发生着重大的变革，从传统的按键式交互，到了今天从所周知的触屏交互，这种变化产生的原因主要是基于鼠标、键盘的传统人机交互设备的不便性日益凸显，如何使人与机器之间的交互能够自然的模拟人与人之间的交流变得越来越重要。人体动作识别技术无需借助任何计算机系统的传统的输入设备就能够识别用户意图，为用户提供了全新的操作体验。

在人体动作动作识别的研究中主要有两个方向：基于计算机视觉的人体动作识别和基于可穿戴的传感器的人体动作识别。基于计算机视觉的方法面临着一个难以克服的难题:遮挡，用户必须被严格地限定在与摄像设备之间没有遮挡的范围内。而可穿戴传感器却完全不受此限制，因此基于可穿戴的动作识别引起了学者们的研究兴趣，目前已经有很多基于手势交互的产品，比如Xbox的Kinect、任天堂的Wii等等。此外，由于智能手机的普及率越来越高，且当今的智能手机中已嵌入各种传感器，如加速传感器，陀螺仪等等，将人体动作识别技术运用到智能手机中，不但增强了智能手机的智能化程度，还丰富和便利了用户的生活。Taiwoo Park等在2011年举办的会议“The 9th ACMConference on Embedded Networked SensorSystems”上发表的文章"E-Gesture:A Collaborative Architecture for Energy-efficient GestureRecognition with Hand-worn Sensor and Mobile Devices"讲述了基于智能手机的手势动作的识别系统E-Gesture，其利用携带式传感器和智能手机相结合来进行手势动作识别，基本步骤如下:首先使用者携带传感器，开始手势动作;然后对收集的数据进行分割，一共进行两次分割，一次是基于加速传感器的分割，另一次是基于陀螺仪传感器的分割;分割后，进行部分噪声过滤，并将分割后的手势动作片段从传感器端发送到手机端;手机端进行手势动作识别。

然而，E-Gesture采用阈值分割法对手势动作进行分割，其对于噪声的过滤性不强，分割结果容易受到采集手势动作数据时引入的噪声的干扰，分割不精确导致降低了手势动作识别结果的正确率;E-Gesture使用隐马尔科夫模型进行建模，而隐马尔科夫模型需要大量的训练数据才能训练出很好的模型，在训练样本比较少的情况下达不到很好的效果;此外，E-Gesture利用外部传感器，结合手机完成手势动作识别，可扩展性不强。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题在于提供一种动作识别方法和装置，以克服在对动作分割时容易受到噪声干扰的问题。

(二)技术方案

作为本发明的一个方面，提供了一种动作识别方法，包括:

步骤S1：采集动作数据，针对所述动作数据计算拟合数据，所述拟合数据用于表征所述动作的能量变化的大小;步骤S2:将预定数量的所述拟合数据按时间顺序读入滑动窗口，所述滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取所述动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;步骤S3:对所述有效动作数据进行识别，判断动作类型。

进一步地，所述步骤S1还包括:将所述拟合数据与预设的第一阈值进行比较，当所述拟合数据大于所述第一阈值时，判定所述动作处于开始状态，开始记录所述动作数据;当所述拟合数据小于所述第一阈值时，判定所述动作处于静止状态，如果静止时间大于预定时长，则停止记录所述动作数据。

进一步地，其中确定所述动作启动点包括:当滑动窗口内的拟合数据的中位数开始大于预设的第二阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作启动点;或者当滑动窗口内的拟合数据的中位数开始大于预设的第三阈值且开始大于或等于前一中位数的2倍时，确定此时的中位数所对应的动作数据的采集时间为所述动作启动点;其中所述第二阈值大于所述第三阈值。

进一步地，其中确定所述动作停止点包括:当滑动窗口内的拟合数据的中位数开始小于所述第三阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作停止点;或者当滑动窗口内的拟合数据的中位数开始小于所述第二阈值且开始小于或等于前一中位数的0.5倍时，确定此时的中位数所对应的动作数据的采集时间为动作停止点。

进一步地，所述步骤S3包括:基于所述有效动作数据，计算所述动作与样本库中存储的原型动作的动态时间规整距离，将使得所述动作与样本库中存储的原型动作的所述动态时间规整距离最小的原型动作判定为所述动作的类型。

进一步地，所述步骤S3包括:基于所述有效动作数据中的三轴线性加速度数据和三轴旋转加速度数据计算所述动作与所述样本库中存储的原型动作的第一动态时间规整距离;基于所述有效动作数据中的三轴线性加速度数据计算所述动作与所述样本库中所存储的原型动作的第二动态时间规整距离;基于所述有效动作数据中的三轴旋转加速度数据计算所述动作与所述样本库中存储的原型动作的第三动态时间规整距离;根据所述第一动态时间规整距离、所述第二动态时间规整距离和所述第三动态时间规整距离确定与所述动作最接近的原型动作，将所述最接近的原型动作判定为所述动作的类型。

进一步地，所述步骤S3包括:当所述样本库中的原型动作的数量达到预定数量时利用隐马尔科夫模型对所述动作进行识别。

进一步地，还包括:基于所述有效动作数据，计算所述动作与样本库中存储的原型动作的动态时间规整距离，如果所述动作与所述样本库中存储的原型动作的所述动态时间规整距离的最小值小于预设距离，则将所述动作存入所述样本库。

作为本发明的另一方面，还提供了一种动作识别装置，包括:采集单元，采集动作数据;拟合数据计算单元，针对所述动作数据计算拟合数据，所述拟合数据用于表征所述动作的能量变化的大小;有效动作数据提取单元，将预定数量的所述拟合数据按时间顺序读入滑动窗口，所述滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取所述动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;识别单元，对所述有效动作数据进行识别，判断动作类型。

进一步地，所述动作识别装置为智能手机。

(三)有益效果

本发明提供的动作识别方法和动作识别装置，将预定数量的拟合数据按时间顺序读入滑动窗口，滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取动作启动点和动作停止点之间的所有动作数据作为有效动作数据。即使采集数据的过程中引入了少量噪声点，也很难影响到滑动窗口中拟合数据的中位数的值，能够有效避免在对动作数据分割时噪声的影响，使得能够精确地将有效动作数据分割出来。由此可见，这种分割方法有效过滤了数据采集时的噪声，提高了动作识别结果的准确率。

附图说明

图1是本发明实施例的动作识别方法的流程图;

图2是本发明实施例的动作识别方法的步骤S1的流程图;

图3是本发明实施例的动作识别方法的步骤S3的流程图；

图4是本发明实施例的动作识别装置的结构示意图；

图5是本发明实施例的动作识别装置的识别单元的结构示意图；

图6是本发明另一实施例的动作识别装置的识别单元的结构示意图;

图7是现有动态时间规整算法中通过最优路径寻找最优距离的示意图;以及

图8是现有动态时间规整算法中计算最优距离的方法的流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

图1是本发明实施例的动作识别方法的流程图。如图1所示，本实施例的一种动作识别方法，包括:

步骤S1：采集动作数据，针对动作数据计算拟合数据，拟合数据用于表征所述动作的能量变化的大小;

步骤S2:将预定数量的拟合数据按时间顺序读入滑动窗口，滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;以及

步骤S3:对有效动作数据进行识别。

由于即使采集数据的过程中引入了少量噪声点，也很难影响到滑动窗口中拟合数据的中位数的值，能够有效避免在对动作数据分割时噪声的影响，使得能够精确地将有效动作数据分割出来。由此可见，这种分割方法有效过滤了数据采集时的噪声，提高了动作识别结果的准确率。

具体而言，动作数据可以是线性加速度数据、或者是旋转加速度数据，也可以是线性加速度数据和旋转加速度数据，优选地，本实施例中，采集动作的三轴线性加速度数据和三轴旋转加速度数据。拟合数据HF的计算可利用公式:

HF = \sqrt{accel_x^{2} + accel_y^{2} + accel_z^{2}} - G,

其中accel_x、accel_y、acccl_z分别是x、y、z轴上的线性加速度，G是重力加速度。还可以利用公式:

HF = \sqrt{gtyo_x^{2} + gryo_y^{2} + gryo_z^{2}}

计算拟合数据，其中gryo_x、gryo_y、gryo_z分别是x、y、z轴上的旋转加速度。此外，还可以有其他计算拟合数据的方法和变形，比如在仅对二维空间内的动作进行识别的情况下，仅使用双轴加速度数据计算拟合数据。由于拟合数据表征了动作的能量变化的大小，因此其可以用于判断是否有动作的发生。

在下文中，将会参照图2和3，对本发明实施例的动作识别方法的各个步骤进行具体描述。

参考图2，步骤S1可用如下方式实现:步骤S101：采集动作数据，针对动作数据计算拟合数据;步骤S102:将拟合数据与预设的第一阈值进行比较，当拟合数据大于第一阈值时，判定动作处于开始状态，开始记录动作数据;步骤S103:当拟合数据小于第一阈值时，判定动作处于静止状态;步骤S104:如果静止时间大于预定时长，则停止记录动作数据。预定时长可根据经验而设定，例如200ms。由此，通过这种对动作的开始和静止进行初步判断的方式，可以避免一直采集动作数据而引起的不必要的功耗。此外，还可以设定，当仅利用动作的线性加速度数据计算拟合数据时，在通过拟合数据判断动作处于开始状态后，开始记录动作的线性加速度数据计算拟合数据，此时，也开始采集并记录动作的旋转加速度数据，在这种方式下，只有在确定动作处于开始状态时，才开始对旋转加速度数据进行采集和记录，因此可以降低采集动作数据的设备的功耗。

对于步骤S2，设定滑动窗口的长度为N个数据单元，滑动窗口随时间推移每次向前滑动m个数据单元，优选地m<N，使得滑动窗口每次只更新部分拟合数据，每个拟合数据至少使用了两次，增加了对动作启动点和动作停止点进行判断的精细度，更优选地，m=N/2,可在判断的精细度和系统开销之间达到较好的平衡。

确定动作启动点包括:当滑动窗口内的拟合数据的中位数开始大于预设的第二阈值时，确定此时的中位数所对应的动作数据的采集时间为动作启动点;或者当滑动窗口内的拟合数据的中位数开始大于预设的第三阈值且开始大于或等于前一中位数的2倍时，确定此时的中位数所对应的动作数据的采集时间为动作启动点;其中第二阈值大于所述第三阈值。

确定动作停止点包括:当滑动窗口内的拟合数据的中位数开始小于第三阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作停止点;或者当滑动窗口内的拟合数据的中位数开始小于第二阈值且开始小于或等于前一中位数的0.5倍时，确定此时的中位数所对应的动作数据的采集时间为动作停止点。

上述确定动作启动点的判断方式和确定动作停止点的判断方式可任意结合。

其中，第二阈值的取值范固为0.9～1.1，第三阈值的取值范围为0.5～0.7;优选地，第二阈值取1，第三阈值取0.6，经实验表明，取得了比较好的分割效果。

如上所述，对动作启动点和动作停止点的判断不仅仅依赖于固定的阈值，还利用了当前中位数与前一中位数之间的关系来判断动作启动点和动作停止点，从而对动作启动点和动作停止点的判断更精确，增强了动作分割的精度。

参见图3，步骤S3包括以下步骤:

步骤S301:对有效动作数据做量化处理，在减少时间序列的长度同时将数据转换成离散型数据，而不是原来的浮点数，从而减少了浮点运算引起的系统开销，加快运算速度。可以使用现有技术，如LBGVector Quantization方法进行数据量化处理，初始化一个codebook，然后将时间序列的值匹配到codebook上。值得说明的是，步骤S301并不是必须的，只是一种优选的实施方式。如果不进行步骤S301，则可以直接进行以下对数据进行标准化处理的步骤。

步骤S302:对量化后的数据进行标准化处理，标准化的方法可以是但不限定于如下方式:查找数据的最大值max与最小值min，将(数据-最小值min)/(最大值max-最小值min)作为标准化之后的数据，从而将标准化之后的数据的值归整到0~1之间。

步骤5303，对标准化之后的数据提取特征向量，特征向量的示例形式如下，

FV (t_{i}) = {s (t_{i}), s (t_{i}) - s (t_{i - 1}), Σ_{t_{1}}^{t_{N}} s (t), \sqrt{\frac{1}{N} Σ_{t_{1}}^{t_{N}}} s {(t)}^{2}, \frac{1}{N - 2} Σ_{t_{1}}^{t_{N - 2}} | S_{(t_{i + 2})} - S_{(t_{i})} |} &ForAll; t &Element; [t_{1}, t_{N}]

根据上式，特征向量FV(t_i)一共五个向量组成，由标准化之后的数据本身构成的原始时间序列向量s(t_i);对原始时间序列向量s（t_i)求导产生的向量;对原始时间序列求积分产生的向量;然后是求时间序列的平方均值产生的向量;以及对时间序列进行隔项相减后取绝对值的平均值产生的向量。当然，也可以仅选择上述五个向量中的三个或四个向量或者选取其他可以表达时间序列特征的量作为特征向量，实际应用中可根据系统资源的富余程度选择特征向量的具体形式。

步骤S304，将特征向量输入到分类算法中，输出动作识别结果。步骤S304可以有如下几种实现方式:

方式一、基于有效动作数据，将该有效动作数据的特征向量输入到动态时间规整(DynamicTimeWarping，DTW)分类算法中，计算动作与样本库中存储的原型动作的动态时间规整距离，将使得该动作与样本库中存储的原型动作的动态时间规整距离最小的原型动作判定为该动作的类型。

由于DTW算法不存在“冷启动”的问题，在训练数据较少，即使样本库中仅存储了两到三个个原型动作，也可以获得较好的识别效果。

方式二、基于有效动作数据中的三轴线性加速度数据和三轴旋转加速度数据，将对这些动作数据所提取的特征向量输入到动态时间规整(DynamicTimeWarping，DTW)分类算法中，计算动作与样本库中存储的原型动作的第一动态时间规整距离;基于有效动作数据中的三轴线性加速度数据，将所得到的关于三轴线性加速度数据的特征向量输入到动态时间规整(DynamicTimeWarping，DTW)分类算法中，计算动作与样本库中所存储的原型动作的第二动态时间规整距离;基于有效动作数据中的三轴旋转加速度数据，计算动作与样本库中存储的原型动作的第三动态时间规整距离;根据第一动态时间规整距离、第二动态时间规整距离和第三动态时间规整距离确定与该动作最接近的原型动作，将此原型动作判定为该动作的类型。

对于不同的动作，其线性加速度和旋转加速度的权重不同，且无法事先判断一个动作的哪个加速度的权重较大一些，利用方式二可以进一步提高动作识别的精度。以待测动作为A，样本库中的原型动作为B和C，判断A是原型动作B还是原型动作C为例说明上述判定过程。首先计算A和B的第一、第二、第三DTW距离Dist1_AB、Dist2_AB和Dist3_AB，然后计算A和C的第一、第二、第三DTW距离Dist1_AC、Dist2_AC和Dist3_AC，分别比较Dist1_AB和Dist1_AC、Dist2_AB和Dist2_AC、Dist3_AB和Dist3_AC的大小。下面说明一种示例的判断方式，如设置一个计数器count，当，AB的某一DTW距离小于AC的相应DTW距离，那么count便加1，反之减1，若count大于0时，则说明A和B更接近，所以动作A被识别为原型动作B，反之A被识别为为原型动作C。当样本库中的原型动作有多个时，动作A与每一个原型动作分别计算上述三种DTW距离，通过类似的方法，判断出动作A与哪一个原型动作更接近，从而将与A最接近的原型动作作为识别结果。此外，为了避免没有意义的动作的干扰，我们给动作A和与其最接近的原型动作的第一DTW距离设置一个限制值MAX_ERROE，如果第一DTW距离超过了这个值，那么就判断这个手势动作是没有意义的，是一个垃圾动作。

方式三、当所述样本库中的原型动作的数量达到预定数量时，利用隐马尔科夫模型对所述动作进行识别。

如果样本库中有大量的训练数据，例如100个以上的原型动作，优选地，使用HMM(隐马尔科夫)算法对动作进行识别，其算法的鲁棒性更高、并进一步提高识别的精度。

在本实施例中，还包括:基于有效动作数据，计算该动作与样本库中存储的原型动作的DTW距离，如果该动作与该样本库中存储的原型动作的DTW距离的最小值小于预设距离，则将该动作存入所述样本库。这一步骤使得样本库中的原型动作的数量可以不断扩充，并且当样本库中的原型动作扩充到一定数量后，可以基于样本库训练HMM模型，并使用HMM算法对待测动作进行识别，从而进一步提高动作识别结果的准确率。

图4是本发明实施例的动作识别装置的示意图。该动作识别装置包括:采集单元，采集动作数据;拟合数据计算单元，针对每个动作数据计算拟合数据，该拟合数据用于表征动作的能量变化的大小;有效动作数据提取单元，将预定数量的拟合数据按时间顺序读入滑动窗口，该滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取动作启动点和动作停止点之间的所有动作数据作为有效动作数据;识别单元，对有效动作数据进行识别，判断动作类型。

本实施例中，采集单元包括:第一判定单元，将拟合数据与预设的第一阈值进行比较，当拟合数据大于第一阈值时，判定动作处于开始状态，开始记录动作数据;第二判定单元，当拟合数据小于第一阈值时，判定动作处于静止状态;如果静止时间大于预定时长，则停止记录动作数据。

有效动作数据提取单元包括:动作启动点确定单元和动作停止点确定单元。动作启动点确定单元用于当滑动窗口内的拟合数据的中位数开始大于预设的第二阈值时，确定此时的中位数所对应的动作数据的采集时间为动作启动点;或者当滑动窗口内的拟合数据的中位数开始大于预设的第三阈值且开始大于或等于前一中位数的2倍时，确定此时的中位数所对应的动作数据的采集时间为动作启动点;其中第二阈值大于第三阈值。有效动作数据提取单元用于当滑动窗口内的拟合数据的中位数开始小于所述第三阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作停止点;或者当滑动窗口内的拟合数据的中位数开始小于所述第二阈值且开始小于或等于前一中位数的0.5倍时，确定此时的中位数所对应的动作数据的采集时间为动作停止点。

在下文中，参照图5和图6，对本发明实施例的动作识别装置的识别单元进行具体描述。

参考图5，识别单元包括:动态时间规整距离计算单元，基于有效动作数据，计算该动作与样本库中存储的原型动作的动态时间规整距离;以及判定单元，将动态时间规整距离计算单元所得到的最小动态时间规整距离所对应的原型动作判定为该动作的类型。

参考图6，在本发明另一实施例中，识别单元包括:第一动态时间规整距离计算单元，基于有效动作数据中的三轴线性加速度数据和三轴旋转加速度数据计算该动作与样本库中存储的原型动作的第一动态时间规整距离;第二动态时间规整距离计算单元，基于有效动作数据中的三轴线性加速度数据计算该动作与样本库中所存储的原型动作的第二动态时间规整距离;第三动态时间规整距离计算单元，基于有效动作数据中的三轴旋转加速度数据计算该动作与样本库中存储的原型动作的第三动态时间规整距离;以及判定单元，根据第一动态时间规整距离、第二动态时间规整距离和第三动态时间规整距离确定与该动作最接近的原型动作，将最接近的原型动作判定为该动作的类型。

在本发明的再一实施例中，还包括样本扩充单元，基于有效动作数据，计算该动作与样本库中存储的原型动作的DTW距离，如果该动作与该样本库中存储的原型动作的DTW距离的最小值小于预设距离，则将该动作存入所述样本库;

识别单元包括隐马尔科夫模型识别单元，当样本库中的原型动作的数量达到预定数量时，利用隐马尔科夫模型对动作进行识别。

本发明的优选实施例还提供了一种动作识别装置。该动作识别装置为智能手机。由于现在智能手机的普及率很高，大多数嵌入了各种传感器，如加速度传感器，陀螺仪等，因此，相对于Xbox的Kinect、任天堂的Wii以及E-Gesture等，利用智能手机进行动作识别不需要外接传感器和无需花费额外的金钱购买特定的动作识别设备，实用性很强。在本实施例的动作识别装置中，优选地，采集单元包括:加速度传感器，采集动作的三轴线性加速度数据;陀螺仪，采集动作的三轴旋转加速度数据。根据动作的三轴线性加速度数据和三轴旋转加速度数据进行动作识别，能够全面反映动作的特性，使得动作识别的精度更高。

下面说明一种优选的用于本发明实施例的样本库的建立方法。利用公式:

HF = \sqrt{accel_x^{2} + accel_y^{2} + accel_z^{2}} - G

计算拟合数据HF，其中G为重力加速度。由于拟合数据表征了动作的能量变化的大小，因此其可以用于判断是否有动作的发生，可根据经验设定某一阈值，当拟合数据大于这一阈值时，判定动作处于开始状态，开始采集三轴旋转加速度数据，同时继续采集三轴线性加速度数据;当拟合数据小于这一阈值时，判定动作处于静止状态，如果静止时间大于预定时长，例如200ms，则停止采集三轴线性加速度数据和三轴旋转加速度数据。设定滑动窗口的长度为N个数据单元，滑动窗口随时间推移每次向前滑动m个数据单元，优选地m<N，使得滑动窗口每次只更新部分拟合数据，每个拟合数据至少使用了两次，增加了对动作启动点和动作停止点进行判断的精细度，更优选地，m=N/2，可在判断的精细度和系统开销之间达到较好的平衡。

当滑动窗口内的拟合数据的中位数开始大于预设的第一阈值时，确定此时的中位数所对应的动作数据的采集时间为动作启动点;或者当滑动窗口内的拟合数据的中位数开始大于预设的第二阈值且开始大于或等于前一中位数的2倍时，确定此时的中位数所对应的动作数据的采集时间为动作启动点;其中第一阈值大于所述第二阈值。

当滑动窗口内的拟合数据的中位数开始小于第二阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作停止点;或者当滑动窗口内的拟合数据的中位数开始小于第一阈值且开始小于或等于前一中位数的0.5倍时，确定此时的中位数所对应的动作数据的采集时间为动作停止点。

提取动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;将有效动作数据的时间序列的长度和预先设定的MIN_GESTURE_SIZE比较，对于大于MIN_GESTURE_SIZE的有效动作数据，经过量化、标准化处理后，提取特征向量并保存到样本库中。

值得说明的是，上述样本库的建立方法仅仅是一种优选的实施方式，本发明的动作识别方法和装置中使用的样本库并不限定于上述样本库的建立方法。可以使用任何已知的技术手段建立样本库并应用在本发明的动作识别方法和装置中。

为使本领域技术人员更好地实施本发明，简要叙述现有技术中的DTW算法的基本原理。假设需要两个时间序列T=(t₁，t₂，…t_n)和S=(s₁，s₂，…s_m)之间的DTW距离，首先寻找一条路径P=p₁，…p_s，…，p_k，p_s=(i_s，j_s)，i_s是S上的点，j_s是T上面的点，这条路径叫做T和S上的点的映射路径，当它使得时间序列T和时间序列S的距离最小时，该路径被称为最优路径。对于最优路径上的点，有如下几点限定条件:1.要保持单调性:i_s-1≤i_s，j_s-1≤j_s;2.要保持连续性:i_s-i_s-1≤1，j_s-j_s-1≤1;3.要有边界定义:p₁=(1，1)，p_k=(n，m)。根据最优路径来计算这两个时间序列的最短距离，首先我们先从点(1，1)到点(i，j)的最优距离算起，点(1，1)到点(i，j)的最优距离等于(1,1)到点(i-1，j)、点(i,j-1)、点(i-1，j-1)的最优距离的最小值加上(i,j)的距离，图7显示了通过最优路径寻找最优距离的过程。图8示出了计算点(1，1)到点(i，j)的最优距离的流程图。通过上述方法，可以计算出点(1，1)到点(n，m)的最优距离，即得到时间序列T和S的DTW距离。

综上所述，本发明实施例的有益效果为:

1、根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，即使采集数据的过程中引入了少量噪声点，也很难影响到滑动窗口中拟合数据的中位数的值，能够有效避免在对动作数据分割时噪声的影响，使得能够精确地将有效动作数据分割出来，提高了动作识别结果的准确率。

2、对动作启动点和动作停止点的判断不仅仅依赖于固定的阈值，还利用了当前中位数与前一中位数之间的关系来判断动作启动点和动作停止点，从而对动作启动点和动作停止点的判断更精确，增强了动作分割的精度。

3、由于DTW算法不存在冷启动的问题，在样本库中的原型动作较少时使用DTW算法取得获得较好的识别效果。

4、通过对样本库中的原型动作进行不断扩充，在样本库中的原型动作达到一定数量后，可训练出比较成熟的HMM模型，利用HMM算法进一步提高识别的准确率。

5、利用动作的线性加速度数据计算拟合数据，通过拟合数据判断动作处于开始状态后，才开始采集动作的旋转加速度数据，这种方式降低了采集动作数据的设备的功耗。

6、对有效动作数据做量化处理，减少时间序列的长度同时将数据转换成离散型数据，而不是原来的浮点数，从而减少了浮点运算引起的系统开销，加快运算速度。

7、对于不同的动作，其线性加速度和旋转加速度的权重不同，且无法事先判断一个动作的哪个加速度的权重较大一些，对现有的DTW算法进行改进以提高动作识别的精度。

8、如果待测动作与该样本库中存储的原型动作的DTW距离的最小值小于预设距离，则将该动作存入所述样本库。这一步骤使得样本库中的原型动作的数量可以不断扩充，并且当样本库中的原型动作扩充到一定数量后，可以基于样本库训练HMM模型，并使用HMM算法对待测动作进行识别，从而进一步提高动作识别结果的准确率。9、本发明实施例实现了使用智能手机作为动作识别装置，无需额外购买专业设备或外接传感器，且使用方便。

本领域技术人员应当理解，以上所述本发明的具体实施方式仅是举例说明，本发明的保护范固是由所附权利要求书限定的。本领域技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更或修改均落入本发明的保护范围。

Claims

1.一种动作识别方法，包括:

步骤S1：采集动作数据，针对所述动作数据计算拟合数据，所述拟合数据用于表征在所述动作数据的采集时刻所述动作的能量变化的大小;

步骤S2:将预定数量的所述拟合数据按时间顺序读入滑动窗口，所述滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取所述动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;

步骤S3:对所述有效动作数据进行识别，判断动作类型。

2.如权利要求1所述的方法，其特征在于，所述步骤S1还包括:将所述拟合数据与预设的第一阈值进行比较，

当所述拟合数据大于所述第一阈值时，判定所述动作处于开始状态，开始记录所述动作数据;当所述拟合数据小于所述第一阈值时，判定所述动作处于静止状态，如果静止时间大于预定时长，则停止记录所述动作数据。

3.如权利要求1所述的方法，其中确定所述动作启动点包括:

当滑动窗口内的拟合数据的中位数开始大于预设的第二阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作启动点;或者

当滑动窗口内的拟合数据的中位数开始大于预设的第三阈值且开始大于或等于前一中位数的2倍时，确定此时的中位数所对应的动作数据的采集时间为所述动作启动点;

其中所述第二阈值大于所述第三阈值。

4.如权利要求3所述的方法，其中确定所述动作停止点包括:

当滑动窗口内的拟合数据的中位数开始小于所述第三阈值时，确定此时的中位数所对应的动作数据的采集时间为所述动作停止点;或者

当滑动窗口内的拟合数据的中位数开始小于所述第二阈值且开始小于或等于前一中位数的0.5倍时，确定此时的中位数所对应的动作数据的采集时间为动作停止点。

5.如权利要求1所述的方法，其特征在于，所述步骤S3包括:

基于所述有效动作数据，计算所述动作与样本库中存储的原型动作的动态时间规整距离，将使得所述动作与样本库中存储的原型动作的所述动态时间规整距离最小的原型动作判定为所述动作的类型。

6.如权利要求1所述的方法，其特征在于，所述步骤53包括:

基于所述有效动作数据中的三轴线性加速度数据和三轴旋转加速度数据计算所述动作与所述样本库中存储的原型动作的第一动态时间规整距离;

基于所述有效动作数据中的三轴线性加速度数据计算所述动作与所述样本库中所存储的原型动作的第二动态时间规整距离;

基于所述有效动作数据中的三轴旋转加速度数据计算所述动作与所述样本库中存储的原型动作的第三动态时间规整距离;

根据所述第一动态时间规整距离、所述第二动态时间规整距离和所述第三动态时间规整距离确定与所述动作最接近的原型动作，将所述最接近的原型动作判定为所述动作的类型。

7.如权利要求1所述的方法，其特征在于，所述步骤S3包括:

当所述样本库中的原型动作的数量达到预定数量时，利用隐马尔科夫模型对所述动作进行识别。

8.如权利要求1-7中的任一项所述的方法，其特征在于，还包括:

基于所述有效动作数据，计算所述动作与样本库中存储的原型动作的动态时间规整距离，如果所述动作与所述样本库中存储的原型动作的所述动态时间规整距离的最小值小于预设距离，则将所述动作存入所述样本库。

9.一种动作识别装置，包括:

采集单元，采集动作数据;

拟合数据计算单元，针对所述动作数据计算拟合数据，所述拟合数据用于表征在所述动作数据的采集时刻所述动作的能量变化的大小·

有效动作数据提取单元，将预定数量的所述拟合数据按时间顺序读入滑动窗口，所述滑动窗口随时间推移向前滑动以获得更新的拟合数据，根据滑动窗口内的拟合数据的中位数来确定动作启动点和动作停止点，提取所述动作启动点和所述动作停止点之间的所有所述动作数据作为有效动作数据;

识别单元，对所述有效动作数据进行识别，判断动作类型。

10.如权利要求9所述的装置，其特征在于:所述动作识别装置为智能手机。