CN107688790A

CN107688790A - 人体行为识别方法、装置、存储介质及电子设备

Info

Publication number: CN107688790A
Application number: CN201710780729.9A
Authority: CN
Inventors: 栾欣泽; 王晓婷; 何光宇; 孟健
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2018-02-13
Anticipated expiration: 2037-09-01
Also published as: CN107688790B

Abstract

本公开涉及一种人体行为识别方法、装置、存储介质及电子设备，该方法包括：获取通过感测装置采集的反映当前人体行为的行为数据，而后通过对行为数据进行特征提取生成行为数据的特征图，然后获取特征图的视觉词袋模型，再利用预先训练好的分类器，以及特征图的视觉词袋模型确定当前人体行为的类别。能够解决现有技术不能充分的表述人体行为动作的特征导致的识别准确度低的问题，能够提高人体异常行为识别的准确度。

Description

人体行为识别方法、装置、存储介质及电子设备

技术领域

本公开涉及行为人体异常行为状态识别技术领域，尤其涉及一种人体行为识别方法、装置、存储介质及电子设备。

背景技术

由于当前我国逐渐进入老龄化社会，而且老龄化问题将在未来几年越来越突出。独居老人，空巢老人现象将持续成高态势增加。老年人发生跌倒等意外事件，这是对老年人的身体健康造成了严重且难以估量的影响。当我们面对老年人非常容易跌倒的这个现状的时候，除了我们需要加强在家人对老年人进行照顾之外，在老年人出现跌倒情况时，第一时间送往医院是第一要务，这样可以在很大程度上降低伤害。因此，针对此问题，越来越多的机构和研究人员投入到老人异常行为检测的研究中。独居，空巢高龄老人的监护和陪伴已然成为当今亟待解决的问题。

目前，识别人体异常行为技术主要有基于视频图像的识别和基于传感器识别等。基于视频图像的识别又由于其成本高，安装摄像头需要固定地点，灵活性差，导致识别异常动作的范围受到限制。而对于惯性传感器来说，体积小，便于携带，实时性高，成为近年来的研究热点。其中，基于惯性传感器(多指陀螺仪和加速度计)的人体异常行为状态识别的方法通常是利用惯性传感器采集各种动作的数据，并提取数据特征，然后根据数据特征进行人体行为的识别。

在行为识别领域，通过总结和归纳近年相关研究提取的数据特征可以发现，目前应用最为广泛的特征主要包括时域特征，频域特征及时频特征。其中，时域特征通常用于描述信号的统计方面的特性，但对于弯腰，摔倒，趔趄，躺下，坐下，走路这几种动作识别的不是很理想。频域特征也是相对较多的一类特征，但是频域特征同样存在上述几类动作识别不理想的问题。而时频特征主要是基于小波分析获取的特征，信号在经过小波分解后，除了能够获取频域特征外，还能够得到更多的时域信息，但由于其需要更长的计算时间，以及采样时间，很大程度上的影响了实时性。

因此，目前大多数基于上述三种特征提取方法，在人体行为识别领域都不能充分的表述人体行为动作的特征，准确度较低。

发明内容

本公开的目的是提供一种人体行为识别方法、装置、存储介质及电子设备，用于解决现有技术不能充分的表述人体行为动作的特征导致的对于人体异常行为识别准确度低的问题。

为了实现上述目的，本公开的第一方面，提供一种人体行为识别方法，所述方法包括：

获取通过感测装置采集的反映当前人体行为的行为数据；

通过对所述行为数据进行特征提取生成所述行为数据的特征图；

获取所述特征图的视觉词袋模型；

利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别。

可选地，所述通过对所述行为数据进行特征提取生成所述行为数据的特征图，包括：

通过对所述行为数据分别进行时域和频域的特征提取得到所述行为数据的时域特征数据和频域特征数据；

获取对所述行为数据进行幅值计算得到所述行为数据的幅值；

生成包含所述行为数据、所述时域特征数据、所述频域特征数据以及所述幅值的图像，作为所述行为数据的特征图。

可选地，所述获取所述特征图的视觉词袋模型，包括：

通过提取所述特征图的中的特征点获取所述特征图的特征向量，所述特征向量是由提取出的所述特征点的集合构成的向量；

根据所述特征向量获取所述特征图的视觉词袋模型；

根据所述视觉词袋模型获取所述特征图的视觉特征直方图。

可选地，所述利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别，包括：

利用预先训练好的分类器对所述视觉特征直方图进行分类；

将得到的所述视觉特征直方图的分类结果作为所述当前人体行为的类别。

可选地，所述感测装置包括惯性传感器，所述获取通过感测装置采集的反映当前人体行为的行为数据，包括：

通过所述惯性传感器基于滑动窗技术采集的反映当前人体行为的原始数据，所述原始数据包括多个三轴特征向量，每个所述三轴特征向量中包含在一个滑动窗口中采集的三轴数据；

对所述原始数据进行滤波处理和校验处理，将处理后的数据作为所述行为数据。

可选地，在所述获取通过感测装置采集的反映当前人体行为的行为数据之前，所述方法还包括：

获取通过感测装置采集的反映N类人体行为的N组行为数据；

通过对所述N组行为数据中的每组行为数据进行特征提取生成所述每组行为数据对应的特征图集合，得到所述N类人体行为对应的N个样本特征图集合；

获取每个样本特征图集合的视觉词袋模型；

根据每个样本特征图集合的视觉词袋模型进行分类训练，得到所述分类器。

本公开的第二方面，提供一种人体行为识别装置，所述装置包括：

数据获取模块，用于获取通过感测装置采集的反映当前人体行为的行为数据；

特征图生成模块，用于通过对所述行为数据进行特征提取生成所述行为数据的特征图；

词袋模型获取模块，用于获取所述特征图的视觉词袋模型；

分类模块，用于利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别。

可选地，所述特征图生成模块，包括：

特征提取子模块，用于通过对所述行为数据分别进行时域和频域的特征提取得到所述行为数据的时域特征数据和频域特征数据；

幅值计算子模块，用于获取对所述行为数据进行幅值计算得到所述行为数据的幅值；

图像生成子模块，用于生成包含所述行为数据、所述时域特征数据、所述频域特征数据以及所述幅值的图像，作为所述行为数据的特征图。

可选地，所述词袋模型获取模块，包括：

特征点提取子模块，用于通过提取所述特征图的中的特征点获取所述特征图的特征向量，所述特征向量是由提取出的所述特征点的集合构成的向量；

模型获取子模块，用于根据所述特征向量获取所述特征图的视觉词袋模型；

直方图获取子模块，用于根据所述视觉词袋模型获取所述特征图的视觉特征直方图。

可选地，所述分类模块，用于：

利用预先训练好的分类器对所述视觉特征直方图进行分类；

可选地，所述感测装置包括惯性传感器，所述数据获取模块，包括：

采集子模块，用于通过所述惯性传感器基于滑动窗技术采集的反映当前人体行为的原始数据，所述原始数据包括多个三轴特征向量，每个所述三轴特征向量中包含在一个滑动窗口中采集的三轴数据；

滤波检验子模块，用于对所述原始数据进行滤波处理和校验处理，将处理后的数据作为所述行为数据。

可选地，所述装置还包括：训练模块；

所述数据获取模块，还用于在所述获取通过感测装置采集的反映当前人体行为的行为数据之前，获取通过感测装置采集的反映N类人体行为的N组行为数据；

所述特征图生成模块，还用于通过对所述N组行为数据中的每组行为数据进行特征提取生成所述每组行为数据对应的特征图集合，得到所述N类人体行为对应的N个样本特征图集合；

所述词袋模型获取模块，还用于获取每个样本特征图集合的视觉词袋模型；

所述训练模块，用于根据每个样本特征图集合的视觉词袋模型进行分类训练，得到所述分类器。

本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述方法的步骤。

本公开的第四方面，提供一种电子设备，包括：

第三方面所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的计算机程序。

上述技术方案首先通过获取通过感测装置采集的反映当前人体行为的行为数据，而后通过对所述行为数据进行特征提取生成所述行为数据的特征图，然后获取所述特征图的视觉词袋模型，再利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别，能够解决现有技术不能充分的表述人体行为动作的特征导致的识别准确度低的问题，能够提高人体异常行为识别的准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种人体行为识别方法的流程示意图；

图2是根据一示例性实施例示出的一种数据采集方法的流程示意图；

图3是根据图1所示实施例示出的另一种数据采集方法的流程示意图；

图4a是根据图1所示实施例示出的一种特征图生成方法的流程示意图；

图4b是根据图1所示实施例示出的一种特征图的示意图；

图5是根据图1所示实施例示出的一种词袋模型获取方法的流程示意图；

图6是根据本公开一示例性实施例示出的一种人体行为识别装置的框图；

图7是根据图6所示实施例示出的一种特征图生成模块的框图；

图8是根据图6所示实施例示出的一种词袋模型获取模块的框图；

图9是根据图6所示实施例示出的一种数据获取模块的框图；

图10是根据本公开一示例性实施例示出的另一种人体行为识别装置的框图；

图11是根据一示例性实施例示出的一种电子设备的框图；

图12是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开一示例性实施例示出的一种人体行为识别方法的流程示意图，如图1所示，该人体行为识别方法包括：

步骤101，获取通过感测装置采集的反映当前人体行为的行为数据。

示例的，该感测装置可以是惯性传感器，例如加速度传感器或速度传感器等，可以采集三轴方向上的数据(即X轴方向的数据，Y轴方向的数据和Z轴方向的数据，可以简称为三轴数据)。通过该惯性传感器采集的数据为原始数据，还需要对该原始数据进行一些处理，比如校验或者滤波等处理以去除噪声或者干扰等不必要的信号，然后可以将处理好的数据作为该行为数据进行步骤102。

步骤102，通过对该行为数据进行特征提取生成该行为数据的特征图。

示例的，对该行为数据进行特征提取可以包括对行为数据进行时域的特征提取(例如可以包括但不限于：均值，方差，标准差，偏度，峰度等)，频域的特征提取(例如可以包括但不限于：快速傅里叶变换(FFT)等)，以及对该行为数据进行幅值计算。

而后，可以根据上述进行时域、频域的特征提取得到的特征数据，上述幅值计算得到的幅值以及该行为数据自身来绘制特征图。

步骤103，获取所述特征图的视觉词袋模型。

词袋(Bag of Words，简称BOW)模型是信息检索领域常用的文档表示方法，词袋模型假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干词汇的集合，文档中每个单词的出现都是独立的，不依赖于其他单词是否出现。也就是说，文档中任意一个位置出现的任何单词，都不受文档语意影响而独立选择。

例如，对于文档1“Frank and Bob like to play basketball，Jim likes too”和文档2“Frank also likes to play football games.”，忽略单词顺序和语法、句法可以将上述文档进行拆分，可以构建一个词典，共包含10个不同的单词：{1.“Frank”，2.“like”，3.“to”，4.“play”，5.“basketball”，6.“also”，7.“football”，8.“games”，9.“Jim”，10.“too”}，然后根据该词典中单词的索引号，可以将两个文档表示为10维向量的形式，如：文档1＝[1，2，1，1，1，0，0，0，1，1]，文档2＝[1，1，1，1，0，1，1，1，0，0]，其中10维每个向量中的10个元素分别对应于词典中的10个单词，10个元素的值分别表示该单词在文档中出现的次数，从而就得到了这两个文档的词袋模型。其中，需要说明的是，上述文档1和文档2仅为示例性的，对于内容较多的文档，在建立上述词典的过程中，可以并不是将所有词汇都用与构建词典，而是先利用自然语言处理技术识别相似的单词，并将相似的单词用一个单词来表示，例如“walk，walks，walking”都用walk表示。可选的，上述的10维向量也可以用直方图来表示。

本公开中由于是对特征图进行处理，因此，本公开各个实施例中所涉及的词袋模型为视觉词袋模型。视觉词袋模型的原理与上述的基于文本的词袋模型的原理相同，可以将图像看作文档，将图像中的视觉特征看作视觉单词，从而建立视觉单词的词典。即可以理解的是，其主要思想是提取训练图中所有的对象(图片，视频等多媒体对象)的视觉特征，统计这些视觉特征的出现频率，去除冗余特征组成的词袋模型，由于视觉特征并不是完全相同，不能使用自然语言处理中的相关统计方法，因此可以通过聚类算法把相近的视觉特征聚类，从而挖掘出视觉特征大量的核心特征，并利用这些聚类结果生成视觉词袋模型。

步骤104，利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别。

示例的，关于分类器的获取，首先可以通过采集各种人体行为数据，然后通过与上述步骤101-103相同的方法获取分别对应各种人体行为的特征图，其中，为了分类的准确性，在采集数据时，针对每种人体行为，可以进行多次采集，这样对于每种人体行为可以得到多个特征图，然后将每种人体行为的特征图作为样本特征图进行训练，在完成训练后即可得到该分类器。其中，该训练过程可以基于支持向量机(Support Vector Machine，简称：SVM)，或者，或者可选的，也可以采用神经网络、K均值聚类、Bays决策等算法，采用哪种方式可以根据实际需要来选择，本实施例中不做限定。

综上，上述技术方案首先通过获取通过感测装置采集的反映当前人体行为的行为数据，而后通过对所述行为数据进行特征提取生成所述行为数据的特征图，然后获取所述特征图的视觉词袋模型，再利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别，能够解决现有技术不能充分的表述人体行为动作的特征导致的识别准确度低的问题，能够提高人体异常行为识别的准确度。

图2是根据一示例性实施例示出的一种数据采集方法的流程示意图，如图2所示，在步骤101所示之前，该方法还可以包括：

步骤105，获取通过感测装置采集的反映N类人体行为的N组行为数据。

其中，该N组行为数据中的，每一组行为数据对应该N类人体行为中的一类人体行为，由于对每类人体行为可以进行一次或多次(采集的次数越多，对于一类人体行为用于训练的数据样本就越多，训练后得到的分类器的准确率越高)的数据采集，因此与每类人体行为对应的一组行为数据总可以包含一个或多个行为数据。其中，步骤105中的感测装置也可以为惯性传感器，通过该惯性传感器采集该N组行为数据的方法与上述步骤101中所述的通过惯性传感器采集行为数据的方法相同，不再赘述。

步骤106，通过对该N组行为数据中的每组行为数据进行特征提取生成每组行为数据对应的特征图集合，得到该N类人体行为对应的N个样本特征图集合。

其中，如步骤105所述，每组行为数据中可能包含一个或多个行为数据，因此对应生成的是包括一个或多个特征图的特征图集合。对于每个行为数据，获取其对应的特征图的方法与步骤102所述的生成特征图的方法相同，不再赘述。在得到每组行为数据对应的特征图集合后，将该特征图集合作为该N类人体行为对应的N个样本特征图集合，进行步骤107。

步骤107，获取每个样本特征图集合的视觉词袋模型。

其中，对于任意一类人体行为对应的样本特征图集合，获取其视觉词袋模型的方式与步骤103所示的方法相同，可以将样本特征图集合中的每个样本特征图进行视觉特征的划分、聚类，并利用这些聚类结果生成视觉词袋模型，从而就得到了对应每类人体行为的视觉词袋模型。

步骤108，根据每个样本特征图集合的视觉词袋模型进行分类训练，得到该分类器。

如步骤104所述，可以根据每个样本特征图集合进行训练，从而获的能够识别上述的N类人体行为的分类器，其中，该训练过程可以基于上述的SVM，或者可选的，也可以神经网络、K均值聚类、Bays决策等算法，采用哪种方式可以根据实际需要来选择，本实施例中不做限定。

示例性的，上述的N类人体行为，可以包括用户需要识别的各种人体行为，例如可以包括：走路、摔倒和趔趄，其中摔倒和趔趄属于用户想要识别出的人体异常行为。按照上述的方法，可以分别针对走路、摔倒和趔趄这三类人体行为进行数据采集，得到分别对应走路、摔倒和趔趄的三组行为数据，并进行后续的步骤106至108，从而训练好的分类器就能够识别出走路、摔倒和趔趄这三种人体行为对应的行为数据。因此在完成分类器的训练后，在接收到输入的待识别的行为数据后，对该行为数据执行上述的步骤101至104即可识别出该待识别的行为数据对应的人体行为是走路、摔倒或趔趄。

图3是根据图1所示实施例示出的另一种数据采集方法的流程示意图，如图3所示，步骤101中所述的获取通过感测装置采集的反映当前人体行为的行为数据的步骤，可以包括：

步骤1011，通过惯性传感器基于滑动窗技术采集的反映当前人体行为的原始数据，该原始数据包括多个三轴特征向量，每个三轴特征向量中包含在一个滑动窗口中采集的三轴数据。

步骤1012，对该原始数据进行滤波处理和校验处理，将处理后的数据作为该行为数据。

示例的，本公开中可以基于滑动窗技术进行数据采集，例如将惯性传感器的采样频率设置为10Hz，滑动窗口的大小设置为5s，这样在一个窗口时间中采集的次数是50次。采集的原始数据可以包括X轴数据，记为a_x，Y轴数据，记为a_y，以及Z轴数据，记为a_z，因此每次采集的数据可记表示为向量A_i＝[a_x，a_y，a_z]，从而上述的一个窗口时间中采集的原始数据可以表示为向量A＝[A₁，A₂，A₃，…，A₅₀]。

在将上述采集到的原始数据换为上述的向量形式后，可以将该向量进行滤波、校验处理以去数据中除噪声或者干扰等不必要的信号，处理后的数据可以作为实际想要的行为数据，并进行步骤102。示例的，滤波可以采用巴特沃斯滤波器来进行。

图4a是根据图1所示实施例示出的一种特征图生成方法的流程示意图，如图4a所示，步骤102中所述的通过对该行为数据进行特征提取生成该行为数据的特征图的步骤，可以包括：

步骤1021，通过对该行为数据分别进行时域和频域的特征提取得到该行为数据的时域特征数据和频域特征数据。

示例的，对行为数据进行时域的特征提取，包括但不限于获取行为数据的均值，方差，标准差，偏度，峰度等。对行为数据进行频域的特征提取包括但不限于对该行为数据进行快速傅里叶变换(FFT)等。

步骤1022，获取对该行为数据进行幅值计算得到该行为数据的幅值。

步骤1023，生成包含该行为数据、该时域特征数据、该频域特征数据以及该幅值的图像，作为该行为数据的特征图。

示例的，可以将该行为数据、该时域特征数据、该频域特征数据以及该幅值一起绘制在同一副图像中，即可得到该特征图，示例性的，如图4b所示，为一种特征图的示意图。

图5是根据图1所示实施例示出的一种词袋模型获取方法的流程示意图，如图5所示，步骤103中所述的获取所述特征图的视觉词袋模型的步骤，可以包括：

步骤1031，通过提取该特征图的中的特征点获取该特征图的特征向量，该特征向量是由提取出的该特征点的集合构成的向量。

步骤1032，根据该特征向量获取该特征图的视觉词袋模型。

步骤1033，根据该视觉词袋模型获取该特征图的视觉特征直方图。

示例的，对进行特征图进行特征点的提取可以通过以下方式：首先，对该特征图进行划分(可以是刚性分割，也可以是采用尺度不变特征变换(Scale-Invariant FeatureTransform，SIFT)的方式)，以该SIFT方式为例，对特征图进行划分得到多个patch(块)，patch即可看作是上述的特征点，这样，该特征图就可以由多个特征点表示(一幅图像可能会有成百上千个特征点)。然后对每个特征点提取SIFT特征，从而使每个特征点可以用一个特征向量来表示，其中每个特征点可以用一个128维的描述子向量表示。

假设在上述步骤中共提取出n个特征点，然后就可以通过上述获取的n个特征点来建立该特征图的从而建立视觉单词的词典，与步骤103所述的原理相同，由于特征点数量较多，在建立视觉单词的词典时，不会将所有的特征点都用于视觉单词的词典，因此需要将相似的特征点归为一类用一个特征点表示。其实现过程可以通过聚类算法实现，例如K-means算法，其实现过程可以为：首先，利用K-Means算法对提取到的n个特征点进行聚类，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把n个特征点分为K个簇，每个簇内具有较高的相似度，而簇间相似度较低。聚类中心有K个，在词袋模型中聚类中心我们可以称之为的“基础视觉单词”，这K个基础视觉单词即组成了上述的视觉单词的词典，然后将视觉单词的词典中的基础视觉单词加上索引号就得到了视觉单词序列。然后，计算特征图的每个特征点到这K个基础视觉单词的距离，并将其映射到距离最近的基础视觉单词中(即将该基础视觉单词的对应的词频+1)。这样，该特征图就变成了一个与视觉单词序列相对应的词频向量，例如K＝100时，就将该特征图表示成了一个100维的词频向量，该词频向量即为上述的该特征图的特征向量。

然后，获取能够描述该特征向量的直方图，即可得到该视觉特征直方图。

相应的，步骤104中所述的利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别的步骤，可以包括：

首先，利用预先训练好的分类器对该视觉特征直方图进行分类。

其次，将得到的该视觉特征直方图的分类结果作为该当前人体行为的类别。

示例的，可以利用SVM算法对该视觉特征直方图进行训练并分类，输入分类结果，该分类结果就可以指示当前人体行为是属于上述的N类人体行为中的哪一个。

需要说明的是，步骤107所述获取每个样本特征图集合的视觉词袋模型，也是采用与上述步骤1031-1033相同的方法实现的。例如，假设对于每个样本特征图集合，包括M个特征图，还是以该SIFT方式为例，则首先对这M个特征图进行划分得到多个特征点，这样，该M个特征图就可以由多个特征点表示。然后对每个特征点提取SIFT特征，从而使每个特征点可以用一个特征向量来表示，其中每个特征点可以用一个128维的描述子向量表示。

假设在上述M个特征图中共提取出m个特征点，然后就可以通过上述获取的m个特征点来建立该特征图的从而建立M个特征图的视觉单词的词典。上述的方法相同，利用K-Means算法对提取到的m个特征点进行聚类，从而可以得到该M个特征图的词频向量，从而根据该词频向量可以得到该M个特征图的视觉特征直方图，也就是该样本特征图集合的视觉特征直方图。

对应的，步骤108所述的根据每个样本特征图集合的视觉词袋模型进行分类训练，得到该分类器，就可以为：根据每类人体行为对应的样本特征图集合的视觉特征直方图进行分类训练，完成训练后即可得到该分类器。

示例性的，在实验中，通过6名使用者使用惯性传感器分别采集3中人体行为的数据，即走路，摔倒和趔趄的行为数据并通过上述的方法进行识别，得出的实验结果可以如表1所示：

表1

其中，mix2表示走路，mix6表示摔倒，mix9表示趔趄，丛表1中可以看出，利用上述方法进行的上述实验的结果中，对于走路、摔倒、趔趄的识别率分别为0.87，1.00和0.96(识别率满分为1.00，即100％识别正确)。走路和摔倒之间误识别的几率为0.13，走路和趔趄之间误识别的几率为0.04。由此可见，能够明显的提高对于上述几种人体行为识别的准确度。

综上，上述技术方案首先通过获取通过感测装置采集的反映当前人体行为的行为数据，而后通过对该行为数据进行特征提取生成该行为数据的特征图，然后获取该特征图的视觉词袋模型，再利用预先训练好的分类器，以及该特征图的视觉词袋模型确定当前人体行为的类别。本公开所提供的技术方案中，无论是对用于训练分类器的样本行为数据还是待识别的行为数据，都采用了特征图的方式来描述行为数据，相比现有技术中采用频域特征、时域特征或时频特征能够更好的表达人体行为，并且无论是用于训练分类器的样本行为数据还是待识别数据都采用视觉词袋模型来表述其特征图，能够改善人体行为检测结果的鲁棒性和准确度。因此，能够解决现有技术不能充分的表述人体行为动作的特征导致的识别准确度低的问题，提高人体异常行为识别的准确度。

图6是根据本公开一示例性实施例示出的一种人体行为识别装置的框图，如图6所示，该装置包括：

数据获取模块601，用于获取通过感测装置采集的反映当前人体行为的行为数据；

特征图生成模块602，用于通过对该行为数据进行特征提取生成该行为数据的特征图；

词袋模型获取模块603，用于获取该特征图的视觉词袋模型；

分类模块604，用于利用预先训练好的分类器，以及该特征图的视觉词袋模型确定当前人体行为的类别。

可选的，图7是根据图6所示实施例示出的一种特征图生成模块的框图，如图7所示，该特征图生成模块602包括：

特征提取子模块6021，用于通过对该行为数据分别进行时域和频域的特征提取得到该行为数据的时域特征数据和频域特征数据；

幅值计算子模块6022，用于获取对该行为数据进行幅值计算得到该行为数据的幅值；

图像生成子模块6023，用于生成包含该行为数据、该时域特征数据、该频域特征数据以及该幅值的图像，作为该行为数据的特征图。

可选的，图8是根据图6所示实施例示出的一种词袋模型获取模块的框图，如图8所示，该词袋模型获取模块603，包括：

特征点提取子模块6031，用于通过提取该特征图的中的特征点获取该特征图的特征向量，该特征向量是由提取出的该特征点的集合构成的向量；

模型获取子模块6032，用于根据该特征向量获取该特征图的视觉词袋模型；

直方图获取子模块6033，用于根据该视觉词袋模型获取该特征图的视觉特征直方图。

可选的，该分类模块，用于：

利用预先训练好的分类器对该视觉特征直方图进行分类；

将得到的该视觉特征直方图的分类结果作为当前人体行为的类别。

可选的，该感测装置包括惯性传感器，图9是根据图6所示实施例示出的一种数据获取模块的框图，如图9所示，该数据获取模块601，包括：

采集子模块6011，用于通过惯性传感器基于滑动窗技术采集的反映当前人体行为的原始数据，该原始数据包括多个三轴特征向量，每个三轴特征向量中包含在一个滑动窗口中采集的三轴数据；

滤波检验子模块6012，用于对该原始数据进行滤波处理和校验处理，将处理后的数据作为该行为数据。

可选的，图10是根据本公开一示例性实施例示出的另一种人体行为识别装置的框图，该装置还包括：训练模块605；

数据获取模块601，还用于在获取通过感测装置采集的反映当前人体行为的行为数据之前，获取通过感测装置采集的反映N类人体行为的N组行为数据；

特征图生成模块602，还用于通过对该N组行为数据中的每组行为数据进行特征提取生成每组行为数据对应的特征图集合，得到该N类人体行为对应的N个样本特征图集合；

词袋模型获取模块603，还用于获取每个样本特征图集合的视觉词袋模型；

训练模块605，用于根据每个样本特征图集合的视觉词袋模型进行分类训练，得到该分类器。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种电子设备1100的框图。如图11所示，该电子设备1100可以包括：处理器1101，存储器1102，多媒体组件1103，输入/输出(I/O)接口1104，以及通信组件1105。

其中，处理器1101用于控制该电子设备1100的整体操作，以完成上述的人体行为识别方法中的全部或部分步骤。存储器1102用于存储各种类型的数据以支持在该电子设备1100的操作，这些数据例如可以包括用于在该电子设备1100上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1102或通过通信组件1105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1104为处理器1101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1105用于该电子设备1100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件1105可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的人体行为识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器1102，上述程序指令可由电子设备1100的处理器1101执行以完成上述的人体行为识别方法。

图12是根据一示例性实施例示出的另一种电子设备1200的框图。例如，电子设备1200可以被提供为一服务器。参照图12，电子设备1200包括处理器1222，其数量可以为一个或多个，以及存储器1232，用于存储可由处理器1222执行的计算机程序。存储器1232中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1222可以被配置为执行该计算机程序，以执行上述的人体行为识别方法。

另外，电子设备1200还可以包括电源组件1226和通信组件1250，该电源组件1226可以被配置为执行电子设备1200的电源管理，该通信组件1250可以被配置为实现电子设备1200的通信，例如，有线或无线通信。此外，该电子设备1200还可以包括输入/输出(I/O)接口1258。电子设备1200可以操作基于存储在存储器1232的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器1232，上述程序指令可由电子设备1200的处理器1222执行以完成上述的人体行为识别方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种人体行为识别方法，其特征在于，所述方法包括：

获取通过感测装置采集的反映当前人体行为的行为数据；

获取所述特征图的视觉词袋模型；

2.根据权利要求1所述的方法，其特征在于，所述通过对所述行为数据进行特征提取生成所述行为数据的特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述特征图的视觉词袋模型，包括：

根据所述特征向量获取所述特征图的视觉词袋模型；

根据所述视觉词袋模型获取所述特征图的视觉特征直方图。

4.根据权利要求3所述的方法，其特征在于，所述利用预先训练好的分类器，以及所述特征图的视觉词袋模型确定所述当前人体行为的类别，包括：

利用预先训练好的分类器对所述视觉特征直方图进行分类；

5.根据权利要求1所述的方法，其特征在于，所述感测装置包括惯性传感器，所述获取通过感测装置采集的反映当前人体行为的行为数据，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述获取通过感测装置采集的反映当前人体行为的行为数据之前，所述方法还包括：

获取通过感测装置采集的反映N类人体行为的N组行为数据；

获取每个样本特征图集合的视觉词袋模型；

7.一种人体行为识别装置，其特征在于，所述装置包括：

词袋模型获取模块，用于获取所述特征图的视觉词袋模型；

8.根据权利要求7所述的装置，其特征在于，所述特征图生成模块，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

权利要求9中所述的计算机可读存储介质；以及