CN105844204A

CN105844204A - 人体行为识别方法和装置

Info

Publication number: CN105844204A
Application number: CN201510017736.4A
Authority: CN
Inventors: 许宽宏; 陆亚; 张红卫; 胡芝兰; 金沅俊; 韩宰俊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2015-01-14
Filing date: 2015-01-14
Publication date: 2016-08-10
Anticipated expiration: 2035-01-14
Also published as: KR20160087740A; KR102185979B1; CN105844204B

Abstract

本申请公开了人体行为识别方法和装置。所述人体行为识别方法的一具体实施方式包括：提取视频图像的运动轨迹特征；通过多种编码方式对所述运动轨迹特征进行编码；对编码后的运动轨迹特征进行识别，确定人体行为类别。该实施方式利用经多种方式编码的运动轨迹特征来识别人体行为，提高了人体行为的识别精度。

Description

人体行为识别方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及视频处理技术领域，尤其涉及人体行为识别方法和装置。

背景技术

随着自媒体和移动互联网的不断发展，视频数据已经成为人们记录和共享各类事件的主流数据载体。为了实现对视频数据的智能管理，需要对视频数据进行自动识别。在现有技术中，在对视频数据中的行为进行识别时，可以将视频视为一个三维的立方体，并从该立方体中自动学习和描述行为特征。但是，这种方法学习到的行为特征中常常包含有场景信息，因此识别精度较低。

发明内容

本申请提供了一种人体行为识别方法和装置。

第一方面，本申请提供了一种人体行为识别方法，该方法包括：提取视频图像的运动轨迹特征；通过多种编码方式对所述运动轨迹特征进行编码；对编码后的运动轨迹特征进行识别，确定人体行为类别。

在某些实施方式中，所述通过多种编码方式对所述运动轨迹特征进行编码包括：通过预先训练的降维模型对所述运动轨迹特征进行降维处理；通过多种编码方式分别对降维后的运动轨迹特征进行编码。

在某些实施方式中，所述通过多种编码方式分别对降维后的运动轨迹特征进行编码包括：通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化；将归一化后的多个运动轨迹特征进行合并和归一化，得到编码后的运动轨迹特征。

在某些实施方式中，所述通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化包括：通过预先训练的高斯混合模型，对降维后的运动轨迹特征进行费希尔向量编码并归一化；通过训练后的K均值模型，对降维后的运动轨迹特征进行局部特征聚合描述符编码并归一化。

在某些实施方式中，所述归一化包括L₂范数归一化和内部归一化中的至少一种。

在某些实施方式中，所述对编码后的运动轨迹特征进行识别，确定人体行为类别包括：

通过预先训练的分类模型对编码后的运动轨迹特征进行识别，确定人体行为类别。

在某些实施方式中，所述通过预先训练的分类模型对编码后的运动轨迹特征进行识别，确定人体行为类别包括：对编码后的运动轨迹特征的独立成分进行随机采样；通过预先训练的分类模型对采样后的独立成分进行识别；根据识别结果确定人体行为类别。

在某些实施方式中，所述通过预先训练的分类模型对采样后的独立成分进行识别包括：将采样后的独立成分输入预先训练的分类模型的线性分类节点；根据所述分类模型的叶节点的投票结果确定识别结果。

在某些实施方式中，所述分类模型为判别式随机树模型。

在某些实施方式中，所述运动轨迹特征包括运动轨迹和轨迹描述子，所述提取视频图像的运动轨迹特征包括：将视频图像中的每一帧图像进行金字塔变换，得到不同尺寸下的多个图像；分别对各个尺寸下的所有图像进行运动点追踪，得到不同尺寸下的绝对运动轨迹；将所述绝对运动轨迹均映射回所述视频图像的原尺寸，得到所述运动轨迹；根据所述运动轨迹获取所述轨迹描述子。

在某些实施方式中，所述提取视频图像的运动轨迹特征还包括：去除所述运动轨迹中由图像传感器运动引起的轨迹。

在某些实施方式中，所述轨迹描述子包括以下至少一项：方向梯度直方图特征、光流场方向直方图特征和运动边界直方图特征。

在某些实施方式中，所述方法还包括：提取训练样本库中所有视频图像的运动轨迹特征；对每个样本视频的运动轨迹特征进行非均匀采样；使用采样后的运动轨迹特征训练降维模型，得到所述预先训练的降维模型。

在某些实施方式中，所述方法还包括：通过预先训练的降维模型，将所述采样后的运动轨迹特征进行降维处理；使用经降维的采样后的运动轨迹特征分别训练多个编码模型，得到所述预先训练的多个编码模型。

在某些实施方式中，所述方法还包括：通过预先训练的降维模型，将所述训练样本库中每个视频图像的运动轨迹特征进行降维处理；通过预先训练的多个编码模型，对降维后的每个视频图像的运动轨迹特征进行编码；使用编码后的每个视频图像的运动轨迹特征训练分类模型，得到所述预先训练的分类模型。

第二方面，本申请提供了一种人体行为识别装置，该装置包括：轨迹提取模块，用于提取视频图像的运动轨迹特征；轨迹编码模块，用于通过多种编码方式对所述运动轨迹特征进行编码；行为识别模块，用于对编码后的运动轨迹特征进行识别，确定人体行为类别。

在某些实施方式中，所述轨迹编码模块包括：降维子模块，用于通过预先训练的降维模型对所述运动轨迹特征进行降维处理；编码子模块，用于通过多种编码方式分别对降维后的运动轨迹特征进行编码。

在某些实施方式中，所述编码子模块包括：编码单元，用于通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化；合并单元，用于将归一化后的多个运动轨迹特征进行合并，并归一化后得到编码后的运动轨迹特征。

在某些实施方式中，所述编码单元包括：第一编码子单元，用于通过预先训练的高斯混合模型，对降维后的运动轨迹特征进行费希尔向量编码并归一化；第二编码子单元，用于通过训练后的K均值模型，对降维后的运动轨迹特征进行局部特征聚合描述符编码并归一化。

在某些实施方式中，所述行为识别模块具体用于通过预先训练的分类模型对编码后的运动轨迹特征进行识别，确定人体行为类别。

在某些实施方式中，所述行为识别模块包括：成分采样子模块，用于对编码后的运动轨迹特征的独立成分进行随机采样；成分识别子模块，用于通过预先训练的分类模型对采样后的独立成分进行识别；行为确定子模块，用于根据识别结果确定人体行为类别。

在某些实施方式中，所述成分识别子模块包括：成分输入单元，用于将采样后的独立成分输入预先训练的分类模型的线性分类节点；结果确定单元，用于根据所述分类模型的叶节点的投票结果确定识别结果。

在某些实施方式中，所述分类模型为判别式随机树模型。

在某些实施方式中，所述运动轨迹特征包括运动轨迹和轨迹描述子，所述轨迹提取模块包括：图像变换子模块，用于将视频图像中的每一帧图像进行金字塔变换，得到不同尺寸下的多个图像；轨迹追踪子模块，用于分别对各个尺寸下的所有图像进行运动点追踪，得到不同尺寸下的绝对运动轨迹；轨迹获取子模块，用于将所述绝对运动轨迹均映射回所述视频图像的原尺寸，得到所述运动轨迹；轨迹描述子模块，用于根据所述运动轨迹获取所述轨迹描述子。

在某些实施方式中，所述轨迹提取模块还包括：轨迹去除模块，用于去除所述运动轨迹中由图像传感器运动引起的轨迹。

在某些实施方式中，所述装置还包括：轨迹提取模块，用于提取训练样本库中所有视频图像的运动轨迹特征；轨迹采样模块，用于对每个样本视频的运动轨迹特征进行非均匀采样；降维训练模块，用于使用采样后的运动轨迹特征训练降维模型，得到所述预先训练的降维模型。

在某些实施方式中，所述装置还包括：第一降维模块，用于通过预先训练的降维模型，将所述采样后的运动轨迹特征进行降维处理；编码训练模块，用于使用经降维的采样后的运动轨迹特征分别训练多个编码模型，得到所述预先训练的多个编码模型。

在某些实施方式中，所述装置还包括：第二降维模块，用于通过预先训练的降维模型，将所述训练样本库中每个视频图像的运动轨迹特征进行降维处理；轨迹编码模块，用于通过预先训练的多个编码模型，对降维后的每个视频图像的运动轨迹特征进行编码；分类训练模块，用于使用编码后的每个视频图像的运动轨迹特征训练分类模型，得到所述预先训练的分类模型。

本申请提供的人体行为识别方法和装置，可以首先从视频图像中提取运动轨迹特征，然后使用多种编码方式对运动轨迹特征进行编码，最后对编码后的运动轨迹特征进行识别，从而确定人体行为类别。由于特征编码是以某种固定的规则对大量特征的空间和时间等分布情况进行描述，因此单一的编码方式只能描述特征在某一纬度和阶数的分布情况。而本申请通过采用多种特征编码方式对视频中的运动轨迹特征进行联合编码，可以更有效地描述运动轨迹特征的整体分布情况，从而提高了人体行为的识别精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请人体行为识别方法的一个实施例的流程图；

图2是本申请提取视频图像的运动轨迹特征的一个实施例的流程图；

图3是本申请通过多种编码方式对运动轨迹特征进行编码的一个实施例的流程图；

图4是本申请通过预先训练的分类模型对编码后的运动轨迹特征进行识别的一个实施例的流程图；

图5是本申请分别对降维模型、多个编码模型以及分类模型进行训练的一个实施例的流程图；

图6是本申请人体行为识别装置的一个实施例的结构示意图；

图7是本申请轨迹编码模块的一个实施例的结构示意图；

图8是本申请行为识别模块的一个实施例的结构示意图；

图9是本申请轨迹提取模块的一个实施例的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了人体行为识别方法的一个实施例的流程100。该人体行为识别方法包括以下步骤：

如图1所示，在步骤101中，提取视频图像的运动轨迹特征。

在本实施例中，可以首先获取需要进行行为识别的视频图像，然后再提取该视频图像中的由于人运动所产生的运动轨迹特征。具体地，可以对视频图像中的每一帧图像上人的运动点进行分析，然后综合各帧图像上的运动点位置变化，就可以获得整个视频图像的运动轨迹特征。

在本实施例的一个可选实现方式中，运动轨迹特征包括运动轨迹和轨迹描述子。在本实施例中，运动轨迹可以通过一个轨迹函数表示，例如，可以表示为当前帧的轨迹坐标与上一帧的轨迹坐标间的函数关系式。轨迹描述子用于进一步对运动轨迹进行描述，使得运动轨迹特征更加完整准确。

在本实施例的一个可选实现方式中，轨迹描述子可以包括方向梯度直方图特征、光流场方向直方图特征和运动边界直方图特征中的至少一个。在本实施例中，方向梯度直方图(Histogram of OrientedGradient,HOG)、光流场方向直方图(Histograms of Optical Flow,HOF)和运动边界直方图Motion Boundary Histogram,MBH)特征是在计算机视觉和图像处理中用来进行物体检测的特征描述子，它们通过计算和统计图像局部区域的直方图来构成人体特征，可以分别代表人体的外形信息、运动信息和加速运动信息，能够很好地描述人体的运动轨迹。

继而，在步骤102中，通过多种编码方式对运动轨迹特征进行编码。

在本实施例中，当在上述步骤101中提取到视频图像的轨迹特征之后，就可以进一步对获取到的运动轨迹特征进行编码处理。具体地，在对运动轨迹特征进行编码时，可以使用多种编码方式分别对运动轨迹特征进行编码，也就是可以使用两种或两种以上的编码方式分别对运动轨迹特征进行编码，然后将各编码方式得到的编码结果进行合并，就得到了编码后的运动轨迹特征。需要说明的是，本申请对具体的编码方式不做限制，其可以由用户根据实际使用需求进行选择，例如，可以选取现有技术中的特征词袋(Bag of Features，BOF)编码方式进行编码。

最后，在步骤103中，对编码后的运动轨迹特征进行识别，确定人体行为类别。

在本实施例中，当在上述步骤102中获得编码后的运动轨迹特征之后，可以进一步对编码后的运动轨迹特征进行数据分析和识别。由于不同种类的人体行为会产生各自特有的运动轨迹，因此通过对编码后的运动轨迹特征进行分析，就可以得到其对应的人体行为类别。

可选地，对编码后的运动轨迹特征进行识别，确定人体行为类别包括：通过预先训练的分类模型对编码后的运动轨迹特征进行识别，确定人体行为类别。具体地，当获得编码后的运动轨迹特征之后，就可以将其输入预先训练好的分类模型进行类别识别。由于分类模型已经经过预先训练，因此可以对输入的编码后的轨迹特征自动进行分析识别，从而确定该轨迹特征所对应的人体行为类别，最终实现了对视频数据中的人体行为的自动识别。

本申请的上述实施例提供的人体行为识别方法，可以首先从视频图像中提取运动轨迹特征，然后使用多种编码方式对运动轨迹特征进行编码，最后对编码后的运动轨迹特征进行识别，从而确定人体行为类别。由于特征编码是以某种固定的规则对大量特征的空间和时间等分布情况进行描述，因此单一的编码方式只能描述特征在某一纬度和阶数的分布情况。而本申请通过采用多种特征编码方式对视频中的运动轨迹特征进行联合编码，可以更有效地描述运动轨迹特征的整体分布情况，从而提高了人体行为的识别精度。

进一步参考图2，其示出了提取视频图像的运动轨迹特征的一个实施例的流程200。

如图2所示，在步骤201中，将视频图像中的每一帧图像进行金字塔变换，得到不同尺寸下的多个图像。

在本实施例中，可以将视频图像中的每一帧图像进行金字塔变换，例如拉普拉斯金字塔变换。这样，就可以将视频图像从原尺寸变换到不同的尺度空间，每一帧图像就可以得到在不同尺寸下的多个图像。

接着，在步骤202中，分别对各个尺寸下的所有图像进行运动点追踪，得到不同尺寸下的绝对运动轨迹。

在本实施例中，当在上述步骤201中得到在不同尺寸下的多个图像之后，可以首先在每一个尺寸下进行密集采样，从而保证所有尺寸和空间位置中的运动点被均等覆盖。然后对采样后的、同一尺寸下的所有图像的运动点进行追踪，从而得到不同尺寸的视频图像中的绝对运动轨迹。具体地，可以使用特定的目标函数追踪运动点，提取绝对运动轨迹。例如，追踪的目标函数可以如下式所示：

P_{t + 1} = (x_{t + 1}, y_{t + 1}) = (x_{t}, y_{t}) + (M * ω) |_{(\overset{&OverBar;}{x_{t}}, \overset{&OverBar;}{y_{t}})}

其中，(x_t，y_t)代表当前帧的轨迹坐标；P_t+1＝(x_t+1，y_t+1)代表当前帧的下一帧的轨迹坐标；M是中值滤波器的核函数；ω为光流场；代表轨迹坐标的平均值。并且，上述各符号指的都是在同一尺寸下的不同物理量。这样，就可以得到每一帧图像中的运动点坐标，然后将连续帧中的运动点连接起来就可以得到绝对运动轨迹。

继而，在步骤203中，将绝对运动轨迹均映射回视频图像的原尺寸，得到运动轨迹。

在本实施例中，当从上述步骤202中得到不同尺寸下的绝对运行轨迹之后，可以进一步将这些绝对轨迹映射回视频图像的原尺寸。在映射时，可以考虑当前尺寸与原尺寸的比例关系进行映射。当将变换后的所有尺度空间中的绝对运动轨迹都映射回原尺寸后，就得到了在原尺寸下的视频图像的运动轨迹。

最后，在步骤204中，根据运动轨迹获取轨迹描述子。

在本实施例中，当从上述步骤203中获得视频图像中的运动轨迹后，还可以进一步在轨迹周围的局部区域内提取轨迹描述子。轨迹描述子可以包括HOG特征、HOF特征和MBH特征。具体地，HOG特征基于梯度幅值的方向权重投影生成的直方图提取人体外形信息；HOF特征利用光流描述像素的运动特点，提取人体局部的运动信息；MBH特征通过分别计算光流的水平分量和垂直分量的导数得到，是像素之间相对运动的描述。因为MBH是光流的梯度，它可以去除那些匀速的运动(如匀速相机运动),而保留光流场的变化情况(如人体的边界运动),在一定程度上去除了均匀运动对人体运动的干扰，是对HOG特征和HOF特征的补充。

在本实施例的一个可选实现方式中，提取视频图像的运动轨迹特征还包括：去除运动轨迹中由图像传感器运动引起的轨迹。在本实施例中，图像传感器的运动会引起视频图像的整体运动，因此还可以去除由图像传感器运动引起的轨迹，以提高人体行为的识别率。具体地，可以采用随机抽样一致(Random Sample Consensus，RANSAC)算法去除图像传感器(例如，摄像机)的运动。

从图2中可以看出，本实施例进一步详细描述了如何提取视频图像的运动轨迹特征的示例性实现方式。本实施例通过图像变化法提取视频图像中的运动轨迹特征，得到的特征准确度高、噪声小，有利于提高人体行为的识别精度。

进一步参考图3，其示出了通过多种编码方式对运动轨迹特征进行编码的一个实施例的流程300。

如图3所示，在步骤301中，通过预先训练的降维模型对运动轨迹特征进行降维处理。

在本实施例中，在从视频图像中提取到运动轨迹特征之后，可以首先对运动轨迹特征进行降维处理。由于视频图像中的运动轨迹通常比较复杂，因此提取出的运动轨迹特征通常是维度较高的向量数据。因此在进行编码前，可以首先通过预先训练的降维模型对特征向量进行降维处理，以降低后续编码过程的计算量。可选地，运动轨迹特征可以包括运动轨迹和轨迹描述子。因此，在对特征向量进行降维时，可以通过预先训练的降维模型分别对运动轨迹、HOG特征、HOF特征以及MBH特征进行降维处理。

在本实施例的一个可选实现方式中，降维模型为主成分分析模型。主成分分析(Principal components analysis，PCA)是一种分析、简化数据集的技术。主成分分析过程通常保留低阶主成分，忽略高阶主成分做，由于低阶成分往往能够保留住数据的最重要方面，因此可以实现减少数据集的维数，同时保持数据集中的对方差贡献最大的特征的目的。在本实施例中，利用预先训练的PCA模型对运动轨迹特征进行降维后，在降低特征数据维度的同时，保留了绝大多数的有效特征信息。

在步骤302中，通过多种编码方式分别对降维后的运动轨迹特征进行编码。

在本实施例中，具体在使用某一种编码方式对降维后的运动轨迹特征进行编码时，可以使用该编码方式同时对降维后的运动轨迹、HOG特征、HOF特征以及MBH特征进行编码，编码后上述各特征就可以组成一个经过编码的运动轨迹特征。这样，多种编码方式编码后可以得到多个经过编码的运动轨迹特征，然后将这些经过编码的运动轨迹特征合并为一个运动轨迹特征，即得到编码后的运动轨迹特征。

在本实施例的一个可选实现方式中，通过多种编码方式分别对降维后的运动轨迹特征进行编码包括：通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化；将归一化后的多个运动轨迹特征进行合并和归一化，得到编码后的运动轨迹特征。在本实施例中，在对降维后的运动轨迹特征进行编码时，可以通过预先训练的多个编码模型分别对降维后的运动轨迹特征，包括降维后的运动轨迹、HOG特征、HOF特征以及MBH特征进行编码，并对编码后得到的向量进行归一化处理，得到归一化后的多个运动轨迹特征。然后将归一化后的多个运动轨迹特征进行合并，具体地，可以将归一化后的多个运动轨迹特征向量串起来，然后再次对合并后的向量进行归一化处理，从而得到编码后的运动轨迹特征

在本实施例的一个可选实现方式中，上述归一化包括L₂范数归一化和内部归一化中的至少一种。在本实施例中，在进行归一化时，可以进行L₂范数归一化或内部归一化，也可以将L₂范数归一化和内部归一化进行组合，例如，先进行L₂范数归一化，然后再进行内部归一化。其中，L₂范数归一化计算方法如下式所示：

||x_k11||²+||x_k12||²+...+||x_k1n||²+...+||x_km1||²+||x_km2||²+...+||x_kmn||²＝1

其中，x_kmn表示向量的第m个子成分的n个值。

内部归一化(intra_normalization)的的计算方法如下式所示：

\{\begin{matrix} {| | x_{k 11} | |}^{2} + {| | x_{k 12} | |}^{2} + . . . + {| | x_{k 1 n} | |}^{2} = 1 \\ {| | x_{k 21} | |}^{2} + {| | x_{k 22} | |}^{2} + . . . + {| | x_{k 2 n} | |}^{2} = 1 \\ . . . . . . . \\ {| | x_{km 1} | |}^{2} + {| | x_{km 2} | |}^{2} + . . . + {| | x_{kmn} | |}^{2} = 1 \end{matrix}

其中，x_kmn表示向量的第m个子成分的n个值，上述公式的含义为对向量的每个子成分做L₂范数归一化。

在本实施例的一个可选实现方式中，通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化包括：通过预先训练的高斯混合模型，对降维后的运动轨迹特征进行费希尔向量编码并归一化；通过训练后的K均值模型，对降维后的运动轨迹特征进行局部特征聚合描述符编码并归一化。在本实施例中，可以使用预先训练的高斯混合模型(Gaussian mixture model，GMM)对降维后的运动轨迹特征，包括降维后的运动轨迹、HOG特征、HOF特征以及MBH特征进行编码费希尔向量编码(Fisher Vector，FV)并归一化。可选地，在归一化时，可以先进行一次L₂范数归一化，然后进行一次内部归一化，最后再进行一次L₂范数归一化，从而得到一个归一化后的运动轨迹特征。在本实施例中，还可以使用预先训练的K均值(K-means)模型，对降维后的运动轨迹特征，包括降维后的运动轨迹、HOG特征、HOF特征以及MBH特征进行局部特征聚合描述符(Vector of LocalAggregated Descriptor，VLAD)编码并归一化。可选地，在归一化时，可以先进行一次内部归一化，然后再进行一次L₂范数归一化，从而得到另一个归一化后的运动轨迹特征。接着还可以将上述两个归一化后的运动轨迹特征进行合并，也就是将归一化后的两个向量串起来再进行一次L₂范数归一化，从而得到编码后的运动轨迹特征。通过对经过编码的特征进行归一化，可以有效避免某些编码的强分量对分类结果的影响，进一步提高人体行为识别的准确率。

从图3中可以看出，本实施例进一步详细描述了如何通过多种编码方式对运动轨迹特征进行编码的示例性实现方式。本实施例首先对运动轨迹特征进行降维，然后再通过多种编码方式分别进行编码，进一步减少了编码时的运算量，从而可以提高人体行为的识别效率。

进一步参考图4，其示出了通过预先训练的分类模型对编码后的运动轨迹特征进行识别的一个实施例的流程400。

如图4所示，在步骤401中，对编码后的运动轨迹特征的独立成分进行随机采样。

在本实施例中，编码后的运动轨迹特征是一个具有多个独立成分的向量数据。在进行特征识别时，可以首先对运动轨迹特征的独立成分进行随机采样，从而随机地得到一个或多个独立成分。具体采样的数目可以由用户根据实际情况自行设定，本申请对此不作限定。

接着，在步骤402中，通过预先训练的分类模型对采样后的独立成分进行识别。

在本实施例中，当在上述步骤401中通过随机采样，得到运动轨迹特征的一个或多个独立成分后，就可以将这些独立成分输入预先训练的分类模型。由于分类模型已经经过训练，因此可以对每个独立成分进行识别。

在本实施例的一个可选实现方式中，分类模型为判别式随机树模型。判别式随机树(Discriminative Random Tree，DRT)模型具有一定数量的独立的决策树，每个树由线性分类节点和叶节点组成。线性分类节点可以由一个强分类器构成，例如，支持向量机SVM(SupportVector Machine)可以作为线性分类节点。

在本实施例的一个可选实现方式中，通过预先训练的分类模型对采样后的独立成分进行识别包括：将采样后的独立成分输入预先训练的分类模型的线性分类节点；根据分类模型的叶节点的投票结果确定识别结果。在本实施例中，可以首先将采样后的独立成分输入预先训练的分类模型中。具体地，可以将独立成分输入模型的线性分类节点中。当分类模型为DRT模型时，可以将独立成分输入到DRT中每个独立决策树的线性分类节点。然后分类模型会对每个独立成分进行逐层识别，最终得到各独立成分所对应的叶节点识别结果。然后对各个叶节点识别结果进行投票统计，并根据统计结果得到分类模型的识别结果。具体地，由于每个叶节点识别结果都各自对应一个分类类型，而分类类型的数量是有限的，因此，如果有多个叶节点识别结果都对应同一个分类模型，则可以认为这多个叶节点都为同一个分类模型进行了投票。通过统计每个叶节点识别结果所对应的分类类型，就可以得到所有叶节点识别结果对各个分类类型的投票数。进一步地，可以将得票数最多的分类类型作为分类模型的识别结果。

最后，在步骤403中，根据识别结果确定人体行为类别。

在本实施例中，当在上述步骤402中通过预先训练的分类模型对采样后的独立成分进行识别后，可以得到分类模型的识别结果。由于分类模型在预先训练时，已经确定了数个人体行为类别。因此，其对编码后的运动轨迹特征进行识别后得到的结果，就是运动轨迹特征代表的人体行为类别。

从图4中可以看出，本实施例进一步详细描述了如何通过预先训练的分类模型对编码后的运动轨迹特征进行识别的示例性实现方式。本实施例首先对编码后的运动轨迹特征的独立成分进行随机采样，然后根据分类模型对独立成分的识别结果确定人体行为类别，在保证识别率的同时，减小了模型所占用的空间。

在本实施例的一个可选实现方式中，上述人体行为识别方法还包括：分别对降维模型、多个编码模型以及分类模型进行训练，得到预先训练的降维模型、多个编码模型以及分类模型。在本实施例中，在对需要进行人体行为识别的视频图像进行识别之前，需要预先对识别过程中需要用到的降维模型、多个编码模型以及分类模型进行训练，以得到预先训练的降维模型、多个编码模型以及分类模型。

进一步参考图5，其示出了分别对降维模型、多个编码模型以及分类模型进行训练的一个实施例的流程500。

如图5所示，在步骤501中，提取训练样本库中所有视频图像的运动轨迹特征。

在本实施例中，可以首先选取一个进行训练的样本库，该样本库中可以包含有大量的视频数据，并且视频数据中可以包含有各种各样的人体行为，例如，国际公开数据库UCF101。然后将该训练样本库中所有视频图像的运动轨迹特征都提取出来，具体的提取方法可以参照图2中的步骤，在此不再赘述。

在步骤502中，对每个样本视频的运动轨迹特征进行非均匀采样。

在本实施例中，在得到了训练样本库中所有视频图像的运动轨迹特征之后，可以进一步对对每个样本视频的运动轨迹特征进行非均匀采样。具体地，可以利用下面的公式进行非均匀采样：

N_i＝N_all*N_{tr_i}/N_{tr_all}

其中，N_i表示第i个样本的采样轨迹数，N_all表示预设的总采样轨迹数，N_{tr_i}表示第i个样本的轨迹数，N_{tr_all}表示所有样本的轨迹数。该公式表示第i个样本的采样轨迹数正比于它的轨迹数目在整个样本空间内所有轨迹数中所占的比例。

在步骤503中，使用采样后的运动轨迹特征训练降维模型，得到预先训练的降维模型。

在本实施例中，可以使用步骤502中得到的采样后的运动轨迹特征训练降维模型，也就是利用一个已有的降维模型对采样后的运动轨迹特征进行学习，从而得到预先训练的降维模型。可选地，降维模型可以是PCA模型。

进一步地，在训练完降维模型后，可以利用训练后的降维模型对编码模型进行训练。

继续参考图5，在步骤504中，通过预先训练的降维模型，将采样后的运动轨迹特征进行降维处理。

在本实施例中，在得到预先训练的降维模型之后，可以进一步利用该训练定型后的降维模型对在步骤502中得到采样后的运动轨迹特征进行降维处理。

在步骤505中，使用经降维的采样后的运动轨迹特征分别训练多个编码模型，得到预先训练的多个编码模型。

在本实施例中，在对采样后的运动轨迹特征进行降维后，这些运动轨迹特征已经满足进行编码的要求。因此，可以进一步对多个编码模型分别进行训练，也就是利用多个已有的编码模型对经降维的采样后的运动轨迹特征进行学习，以得到预先训练的多个编码模型。可选地，编码模型可以是GMM或K均值模型。

进一步地，在训练完降维模型和多个编码模型之后，还可以利用训练后的降维模型和多个编码模型对分类模型进行训练。

继续参考图5，在步骤506中，通过预先训练的降维模型，将训练样本库中每个视频图像的运动轨迹特征进行降维处理。

在本实施例中，可以通过在步骤503中得到的预先训练的降维模型，对步骤501中提取的训练样本库中每个视频图像的运动轨迹特征进行降维处理。

在步骤507中，通过预先训练的多个编码模型。对降维后的每个视频图像的运动轨迹特征进行编码。

在本实施例中，当对每个视频图像的运动轨迹特征进行了降维处理之后，可以进一步使用在步骤505中得到的预先训练的多个编码模型，对降维后的每个视频图像的运动轨迹特征进行编码。具体编码方法可以参考图3中的步骤，在此不再赘述。

在步骤508中，使用编码后的每个视频图像的运动轨迹特征训练分类模型，得到预先训练的分类模型。

在本实施例中，在对每个视频图像的运动轨迹特征进行编码后，可以将编码后的特征输入分类模型进行模型训练。分类模型通过对输入的特征进行学习，可以得到训练后的分类模型。可选地，分类模型可以是DRT模型。

从图5中可以看出，本实施例进一步详细描述了如何对降维模型、多个编码模型以及分类模型进行训练的示例性实现方式。本实施例使用非均匀采样后的运动轨迹特征训练降维模型和多个编码模型，在确保了采样特征的有效性的同时，显著降低了模型训练时的数据运算量。同时使用训练样本库中每个视频图像的运动轨迹特征训练分类模型，确保了预先训练的分类模型的识别精度。

进一步参考图6，其示出了人体行为识别装置的一个实施例的结构示意图。

如图6所示，本实施例的人体行为识别装置包括：轨迹提取模块610、轨迹编码模块620和行为识别模块630。

轨迹提取模块610，用于提取视频图像的运动轨迹特征。

轨迹编码模块620，用于通过多种编码方式对轨迹提取模块610提取的运动轨迹特征进行编码。

行为识别模块630，用于对轨迹编码模块620编码后的运动轨迹特征进行识别，确定人体行为类别。

进一步地，如图7所示，轨迹编码模块620包括：降维子模块621和编码子模块622。

降维子模块621，用于通过预先训练的降维模型对运动轨迹特征进行降维处理。

编码子模块622，用于通过多种编码方式分别对降维子模块621降维后的运动轨迹特征进行编码。

在本实施例的一个可选实现方式中，编码子模块621包括：编码单元和合并单元。

编码单元(图中未示出)，用于通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化。

合并单元(图中未示出)，用于将归一化后的多个运动轨迹特征进行合并和归一化，得到编码后的运动轨迹特征。

在本实施例的一个可选实现方式中，编码单元包括：第一编码子单元和第二编码子单元。

第一编码子单元(图中未示出)，用于通过预先训练的高斯混合模型，对降维后的运动轨迹特征进行费希尔向量编码并归一化。

第二编码子单元(图中未示出)，用于通过训练后的K均值模型，对降维后的运动轨迹特征进行局部特征聚合描述符编码并归一化。

在本实施例的一个可选实现方式中，上述归一化包括L₂范数归一化和内部归一化中的至少一种。

在本实施例的一个可选实现方式中，降维模型为主成分分析模型

本实施例的一个可选实现方式中，行为识别模块630具体用于通过预先训练的分类模型对轨迹编码模块620编码后的运动轨迹特征进行识别，确定人体行为类别。

进一步地，如图8所示，行为识别模块630包括：成分采样子模块631和成分识别子模块632。

成分采样子模块631，用于对编码后的运动轨迹特征的独立成分进行随机采样。

成分识别子模块632，用于通过预先训练的分类模型对成分采样子模块631采样后的独立成分进行识别。

行为确定子模块633，用于根据成分识别子模块632的识别结果确定人体行为类别。

在本实施例的一个可选实现方式中，成分识别子模块包括：成分输入单元和结果确定单元。

成分输入单元(图中未示出)，用于将采样后的独立成分输入预先训练的分类模型的线性分类节点。

结果确定单元(图中未示出)，用于根据分类模型的叶节点的投票结果确定识别结果。

在本实施例的一个可选实现方式中，分类模型为判别式随机树模型。

进一步地，如图9所示，运动轨迹特征包括运动轨迹和轨迹描述子，轨迹提取模块610包括：图像变换子模块611、轨迹追踪子模块612、轨迹获取子模块613和轨迹描述子模块614。

图像变换子模块611，用于将视频图像中的每一帧图像进行金字塔变换，得到不同尺寸下的多个图像。

轨迹追踪子模块612，用于分别对各个尺寸下的所有图像进行运动点追踪，得到不同尺寸下的绝对运动轨迹。

轨迹获取子模块613，用于将轨迹追踪子模块612得到的绝对运动轨迹均映射回视频图像的原尺寸，得到运动轨迹。

轨迹描述子模块614，用于根据轨迹获取子模块613得到的运动轨迹获取轨迹描述子。

在本实施例的一个可选实现方式中，轨迹提取模块610还包括：

轨迹去除模块(图中未示出)，用于去除运动轨迹中由图像传感器运动引起的轨迹。

在本实施例的一个可选实现方式中，轨迹描述子包括以下至少一项：方向梯度直方图特征、光流场方向直方图特征和运动边界直方图特征。

在本实施例的一个可选实现方式中，本申请的人体行为识别装置还包括：轨迹提取模块、轨迹采样模块和降维训练模块。

轨迹提取模块(图中未示出)，用于提取训练样本库中所有视频图像的运动轨迹特征。

轨迹采样模块(图中未示出)，用于对轨迹提取模块提取的每个样本视频的运动轨迹特征进行非均匀采样。

降维训练模块(图中未示出)，用于使用轨迹采样模块采样后的运动轨迹特征训练降维模型，得到预先训练的降维模型。

在本实施例的一个可选实现方式中，本申请的人体行为识别装置还包括：第一降维模块和编码训练模块。

第一降维模块(图中未示出)，用于通过预先训练的降维模型，将采样后的运动轨迹特征进行降维处理。

编码训练模块(图中未示出)，用于使用经第一降维模块降维的采样后的运动轨迹特征分别训练多个编码模型，得到预先训练的多个编码模型。

在本实施例的一个可选实现方式中，本申请的人体行为识别装置还包括：第二降维模块、轨迹编码模块和分类训练模块。

第二降维模块(图中未示出)，用于通过预先训练的降维模型，将训练样本库中每个视频图像的运动轨迹特征进行降维处理；

轨迹编码模块(图中未示出)，用于通过预先训练的多个编码模型，对第二降维模块降维后的每个视频图像的运动轨迹特征进行编码；

分类训练模块(图中未示出)，用于使用轨迹编码模块编码后的每个视频图像的运动轨迹特征训练分类模型，得到预先训练的分类模型。

应当理解，图6-9中记载的诸单元或模块与参考图1-5描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于图6-9中的装置及其中包含的单元或模块，在此不再赘述。

本申请提供的人体行为识别装置，轨迹提取模块可以首先从视频图像中提取运动轨迹特征，然后轨迹编码模块使用多种编码方式对运动轨迹特征进行编码，最后行为识别模块对编码后的运动轨迹特征进行识别，从而确定人体行为类别。通过采用多种特征编码方式对视频中的运动轨迹特征进行联合编码，可以得到更有效的编码结果，从而提高了人体行为的识别精度。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括轨迹提取模块、轨迹编码模块和行为识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，轨迹提取模块还可以被描述为“用于提取视频图像的运动轨迹特征的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的人体行为识别方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人体行为识别方法，其特征在于，所述方法包括：

提取视频图像的运动轨迹特征；

通过多种编码方式对所述运动轨迹特征进行编码；

对编码后的运动轨迹特征进行识别，确定人体行为类别。

2.根据权利要求1所述的方法，其特征在于，所述通过多种编码方式对所述运动轨迹特征进行编码包括：

通过预先训练的降维模型对所述运动轨迹特征进行降维处理；

通过多种编码方式分别对降维后的运动轨迹特征进行编码。

3.根据权利要求2所述的方法，其特征在于，所述通过多种编码方式分别对降维后的运动轨迹特征进行编码包括：

通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化；

将归一化后的多个运动轨迹特征进行合并和归一化，得到编码后的运动轨迹特征。

4.根据权利要求3所述的方法，其特征在于，所述通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化包括：

通过预先训练的高斯混合模型，对降维后的运动轨迹特征进行费希尔向量编码并归一化；

通过训练后的K均值模型，对降维后的运动轨迹特征进行局部特征聚合描述符编码并归一化。

5.根据权利要求3或4所述的方法，其特征在于，所述归一化包括L₂范数归一化和内部归一化中的至少一种。

6.根据权利要求5所述的方法，其特征在于，所述对编码后的运动轨迹特征进行识别，确定人体行为类别包括：

7.根据权利要求6所述的方法，其特征在于，所述通过预先训练的分类模型对编码后的运动轨迹特征进行识别，确定人体行为类别包括：

对编码后的运动轨迹特征的独立成分进行随机采样；

通过预先训练的分类模型对采样后的独立成分进行识别；

根据识别结果确定人体行为类别。

8.根据权利要求7所述的方法，其特征在于，所述通过预先训练的分类模型对采样后的独立成分进行识别包括：

将采样后的独立成分输入预先训练的分类模型的线性分类节点；

根据所述分类模型的叶节点的投票结果确定识别结果。

9.根据权利要求7或8所述的方法，其特征在于，所述分类模型为判别式随机树模型。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述运动轨迹特征包括运动轨迹和轨迹描述子，所述提取视频图像的运动轨迹特征包括：

将视频图像中的每一帧图像进行金字塔变换，得到不同尺寸下的多个图像；

分别对各个尺寸下的所有图像进行运动点追踪，得到不同尺寸下的绝对运动轨迹；

将所述绝对运动轨迹均映射回所述视频图像的原尺寸，得到所述运动轨迹；

根据所述运动轨迹获取所述轨迹描述子。

11.根据权利要求10所述的方法，其特征在于，所述提取视频图像的运动轨迹特征还包括：

去除所述运动轨迹中由图像传感器运动引起的轨迹。

12.根据权利要求10或11所述的方法，其特征在于，所述轨迹描述子包括以下至少一项：方向梯度直方图特征、光流场方向直方图特征和运动边界直方图特征。

13.根据权利要求6所述的方法，其特征在于，所述方法还包括：

提取训练样本库中所有视频图像的运动轨迹特征；

对每个样本视频的运动轨迹特征进行非均匀采样；

使用采样后的运动轨迹特征训练降维模型，得到所述预先训练的降维模型。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

通过预先训练的降维模型，将所述采样后的运动轨迹特征进行降维处理；

使用经降维的采样后的运动轨迹特征分别训练多个编码模型，得到所述预先训练的多个编码模型。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

通过预先训练的降维模型，将所述训练样本库中每个视频图像的运动轨迹特征进行降维处理；

通过预先训练的多个编码模型，对降维后的每个视频图像的运动轨迹特征进行编码；

使用编码后的每个视频图像的运动轨迹特征训练分类模型，得到所述预先训练的分类模型。

16.一种人体行为识别装置，其特征在于，所述装置包括：

轨迹提取模块，用于提取视频图像的运动轨迹特征；

轨迹编码模块，用于通过多种编码方式对所述运动轨迹特征进行编码；

行为识别模块，用于对编码后的运动轨迹特征进行识别，确定人体行为类别。

17.根据权利要求16所述的装置，其特征在于，所述轨迹编码模块包括：

降维子模块，用于通过预先训练的降维模型对所述运动轨迹特征进行降维处理；

编码子模块，用于通过多种编码方式分别对降维后的运动轨迹特征进行编码。

18.根据权利要求17所述的装置，其特征在于，所述编码子模块包括：

编码单元，用于通过预先训练的多个编码模型分别对降维后的运动轨迹特征进行编码并归一化；

合并单元，用于将归一化后的多个运动轨迹特征进行合并和归一化，得到编码后的运动轨迹特征。

19.根据权利要求16至18任一项所述的装置，其特征在于，所述运动轨迹特征包括运动轨迹和轨迹描述子，所述轨迹提取模块包括：

图像变换子模块，用于将视频图像中的每一帧图像进行金字塔变换，得到不同尺寸下的多个图像；

轨迹追踪子模块，用于分别对各个尺寸下的所有图像进行运动点追踪，得到不同尺寸下的绝对运动轨迹；

轨迹获取子模块，用于将所述绝对运动轨迹均映射回所述视频图像的原尺寸，得到所述运动轨迹；

轨迹描述子模块，用于根据所述运动轨迹获取所述轨迹描述子。

20.根据权利要求17所述的装置，其特征在于，所述装置还包括：

轨迹提取模块，用于提取训练样本库中所有视频图像的运动轨迹特征；

轨迹采样模块，用于对每个样本视频的运动轨迹特征进行非均匀采样；

降维训练模块，用于使用采样后的运动轨迹特征训练降维模型，得到所述预先训练的降维模型。

21.根据权利要求20所述的装置，其特征在于，所述装置还包括：

第一降维模块，用于通过预先训练的降维模型，将所述采样后的运动轨迹特征进行降维处理；

编码训练模块，用于使用经降维的采样后的运动轨迹特征分别训练多个编码模型，得到所述预先训练的多个编码模型。