CN104794446B

CN104794446B - 基于合成描述子的人体动作识别方法及系统

Info

Publication number: CN104794446B
Application number: CN201510195277.9A
Authority: CN
Inventors: 谌先敢; 刘海华; 高智勇; 刘李漫
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2017-12-12
Anticipated expiration: 2035-04-22
Also published as: CN104794446A

Abstract

本发明公开了一种基于合成描述子的人体动作识别方法及系统，涉及计算机视觉和视频监控领域。本发明首次提出“合成描述子”这个概念，提取视频中位于不同时间点上的信息，合成到一帧图像上，得到合成描述子。合成描述子有三种：图像合成描述子、累积梯度合成描述子、光流合成描述子。提取视频的三种合成描述子后，分别计算这三种合成描述子的局部特征和全局特征。在人体动作识别的过程中，使用这三种合成描述子的局部特征和全局特征来表征人体的动作。与现有技术运算量较大且不包含全局信息相比，本发明不仅能从视频中提取三种合成描述子的局部特征和全局特征，而且运算量较小，能够快速识别人体动作。

Description

基于合成描述子的人体动作识别方法及系统

技术领域

本发明涉及计算机视觉和视频监控领域，具体是涉及一种基于合成描述子的人体动作识别方法及系统。

背景技术

基于视频的人体动作识别是一个非常重要的问题，可应用于视频监控、视频检索和人机交互。人体动作识别是指用计算机从视频中区分出人体动作的类别。

基于视频的人体动作识别可以分为两个部分：动作的表示和动作的分类。动作的表示是指从包含人体动作的视频中提取合适的特征数据来描述人体的动作。动作的分类，是指从训练数据学习得到分类模型，将测试集中表示这些人体动作的特征数据进行分类。

目前的动作识别方法有全局方法和局部方法。全局方法，首先需要定位人体，然后将感兴趣区域编码为一个整体，形成特征描述子。全局表示法中一般通过背景相减方法或者人体检测器来定位人体。由于提取方法一般都是不完善的，因此侧影会包含一些噪声，并且对视角变化敏感。全局方法有全局性，该特性使其对类内变化和变形敏感。局部方法被描述为局部小块的一个集合，首先探测时空兴趣点或者得到密集采样点，然后在点的周围计算局部小块，合并成为一个描述子。局部方法对视角、噪声和部分遮挡具有某种程度的不变性，并不严格需要背景相减或人体检测。然而，他们依靠足够相关兴趣点的提取或者需要得到密集采样点，有时需要预处理。

目前最佳的动作识别方法是一种局部方法，称为结合密集轨迹的运动边界描述子，该方法提取密集轨迹，并计算运动边界描述子。但是该方法需要计算视频中全部帧的光流，运算量较大，而且该方法只包含局部信息，不包含全局信息。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于合成描述子的人体动作识别方法及系统，从视频中提取三种合成描述子的局部特征和全局特征，运算量较小，能够快速识别人体动作。

本发明提供一种基于合成描述子的人体动作识别方法，包括以下步骤：

A、提取所有视频的三种合成描述子：视频分为训练视频和待识别视频，对于每一个视频，提取该视频中位于不同时间点上的信息，组合成一幅图像，得到该视频的合成描述子；合成描述子有三种：图像合成描述子、累积梯度合成描述子、光流合成描述子；在人体动作的识别过程中，使用这三种合成描述子的局部特征和全局特征来表征人体的动作，这三种合成描述子的局部特征和全局特征互为补充；

B、计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数；

C、计算待识别视频的三种合成描述子的全局特征的SVM分数；

D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数，再根据综合分数得到待识别视频中人体动作的识别结果。

在上述技术方案的基础上，步骤A中提取视频的图像合成描述子的过程为：对视频进行时间采样，得到16帧不同的图像；再将这16帧不同的图像依次排列成4行4列，组合成一帧图像，得到该视频的图像合成描述子。

在上述技术方案的基础上，步骤A中提取视频的累积梯度合成描述子的过程为：对视频进行时间采样，得到16个不同的图像序列片段，这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点，每个图像序列片段由视频中相邻的8帧图像组成；对于每个图像序列片段，计算该图像序列片段中每一帧图像的梯度，累积到一帧中，得到累积梯度图像；有16个图像序列片段，共得到16帧累积梯度图像；将16帧累积梯度图像，依次排列成4行4列，组合成一帧图像，得到该视频的累积梯度合成描述子。

在上述技术方案的基础上，所述累积梯度图像的计算过程如下：

步骤101、图像序列片段中包括若干帧图像，图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x,y,t)，x为点(x,y)的横坐标，y为点(x,y)的纵坐标，t为时间，累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等；初始化累积梯度图像H(x,y,t)，将累积梯度图像H(x,y,t)的全部像素置为0，此时时间t为0；将图像序列片段中的第一帧作为当前帧I(x,y)；

步骤102、计算当前帧I(x,y)的梯度图像幅值G(x,y)；t-1时刻的累积梯度图像为H(x,y,t-1)，将G(x,y)与H(x,y,t-1)在每一个像素点上进行比较，取灰度值较大的像素点的灰度值作为H(x,y,t)的新值；在点(x,y)处，t时刻的累积梯度图像H(x,y,t)＝max[H(x,y,t-1)，G(x,y)]；

步骤103、将下一帧作为当前帧，返回步骤102，直到图像序列片段的最后一帧。

在上述技术方案的基础上，步骤A中提取视频的光流合成描述子的过程为：

对视频进行时间采样，得到16对相邻的图像序列对，共计32帧图像，计算这16对图像序列对的光流图像，得到16帧光流图像X分量和16帧光流图像Y分量；

将16帧光流图像X分量依次排列成4行4列，组合成一帧图像，得到光流X分量合成描述子；

将16帧光流图像Y分量依次排列成4行4列，组合成一帧图像，得到光流Y分量合成描述子；

光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子。

在上述技术方案的基础上，步骤B中，计算待识别视频的三种合成描述子的局部特征的SVM分数均包括训练和识别两个过程，训练过程为：对已经标记好动作类别的训练视频提取三种合成描述子的局部特征，对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码，用编码结果训练SVM模型；识别过程为：对待识别视频提取三种合成描述子的局部特征，对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码，将编码结果输入训练得到的SVM模型，得到待识别视频的三种合成描述子的局部特征的SVM分数。

在上述技术方案的基础上，步骤B具体包括以下步骤：

步骤201、采集多个训练视频，在已经提取这些训练视频的三种合成描述子的基础上，对训练视频的三种合成描述子进行密集采样，采样块上的方向梯度直方图HOG特征是局部特征，在采样块上计算三种合成描述子的HOG特征，从而得到训练视频的三种合成描述子的HOG特征集合；

步骤202、采用本领域技术人员公知的K均值算法，对训练视频的三种合成描述子的HOG特征集合进行聚类，生成多个聚类中心，以聚类中心为视觉单词，组成视觉词典；

步骤203、用视觉词典对训练视频的三种合成描述子的HOG特征集合进行特征编码，得到编码结果向量，作为训练视频的三种合成描述子局部特征的最终表达；

步骤204、将所有训练视频的三种合成描述子局部特征的最终表达送入SVM分类器进行训练，生成局部特征的SVM模型；

步骤205、按照步骤201对待识别视频进行处理，得到待识别视频的三种合成描述子的HOG特征集合；

步骤206、采用步骤202得到的视觉词典，对待识别视频的三种合成描述子的HOG特征集合进行特征编码，作为待识别视频的三种合成描述子局部特征的最终表达；

步骤207、将待识别视频的三种合成描述子局部特征的最终表达送入步骤204生成的局部特征的SVM模型进行测试，采用一对多的方法，实现多类分类，得到待识别视频的三种合成描述子的局部特征的SVM分数。

在上述技术方案的基础上，步骤C中，计算待识别视频的三种合成描述子的全局特征的SVM分数均包括训练和识别两个过程，训练过程为：对已经标记好动作类别的训练视频提取三种合成描述子的全局特征，用训练视频的三种合成描述子的全局特征训练SVM模型；识别过程为：对待识别视频提取三种合成描述子的全局特征，将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型，得到待识别视频的三种合成描述子的全局特征的SVM分数。

在上述技术方案的基础上，步骤C具体包括以下步骤：

步骤301、塔式方向梯度直方图PHOG特征是全局特征，采集多个训练视频，在已经提取这些训练视频的三种合成描述子的基础上，计算每个训练视频的三种合成描述子的PHOG特征，作为该训练视频的三种合成描述子全局特征的最终表达；

步骤302、将所有训练视频的三种合成描述子全局特征的最终表达送入SVM分类器进行训练，生成全局特征的SVM模型；

步骤303、按照步骤301对待识别视频进行处理，得到待识别视频的三种合成描述子的PHOG特征集合，作为待识别视频的三种合成描述子全局特征的最终表达；

步骤304、将步骤303得到的待识别视频的三种合成描述子全局特征的最终表达送入步骤302生成的全局特征的SVM模型进行测试，采用一对多的方法，实现多类分类，得到待识别视频的三种合成描述子的全局特征的SVM分数。

本发明还提供用于实现上述方法的基于合成描述子的人体动作识别系统，包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元，其中：

所述合成描述子提取单元用于：提取所有视频的三种合成描述子；视频分为训练视频和待识别视频，对于每一个视频，提取该视频中位于不同时间点上的信息，组合成一幅图像，得到该视频的合成描述子；合成描述子有三种：图像合成描述子、累积梯度合成描述子、光流合成描述子；在人体动作的识别过程中，使用这三种合成描述子的局部特征和全局特征来表征人体的动作，这三种合成描述子的局部特征和全局特征互为补充；

所述第一计算单元用于：计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数；

所述第二计算单元用于：计算待识别视频的三种合成描述子的全局特征的SVM分数；

所述人体动作识别单元用于：根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数，再根据综合分数得到待识别视频中人体动作的识别结果。

与现有技术相比，本发明的优点如下：

本发明首次提出“合成描述子”这个概念，提取视频中位于不同时间点上的信息，合成到一帧图像上，得到合成描述子。合成描述子有三种：图像合成描述子、累积梯度合成描述子、光流合成描述子。提取视频的三种合成描述子后，分别计算这三种合成描述子的局部特征和全局特征。在人体动作识别的过程中，使用这三种合成描述子的局部特征和全局特征来表征人体的动作，这三种合成描述子的局部特征和全局特征互为补充，也可作为其他特征的有力补充。与现有技术运算量较大且不包含全局信息相比，本发明不仅能够从视频中提取三种合成描述子的局部特征和全局特征，而且运算量较小，能够快速识别人体动作。

附图说明

图1是本发明实施例中基于合成描述子的人体动作识别方法的流程图。

图2是本发明实施例中提取视频的图像合成描述子的流程图。

图3是本发明实施例中提取视频的累积梯度合成描述子的流程图。

图4是本发明实施例中提取视频的光流合成描述子的流程图。

图5是本发明实施例中计算三种合成描述子的局部特征的SVM分数的流程图。

图6是本发明实施例中计算三种合成描述子的全局特征的SVM分数的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

参见图1所示，本发明实施例提供一种基于合成描述子的人体动作识别方法，包括以下步骤：

A、提取所有视频的三种合成描述子：视频分为训练视频和待识别视频，对于每一个视频，提取该视频中位于不同时间点上的信息，组合成一幅图像，得到该视频的合成描述子；合成描述子有三种：图像合成描述子、累积梯度合成描述子、光流合成描述子；在人体动作的识别过程中，使用这三种合成描述子的局部特征和全局特征来表征人体的动作，这三种合成描述子的局部特征和全局特征互为补充，也可作为其他特征的有力补充；

B、计算待识别视频的三种合成描述子的局部特征的SVM(Support VectorMachine，支持向量机)分数；

C、计算待识别视频的三种合成描述子的全局特征的SVM分数；

参见图2所示，步骤A中提取视频的图像合成描述子的过程为：对视频进行时间采样，得到16帧不同的图像；再将这16帧不同的图像依次排列成4行4列，组合成一帧图像，得到该视频的图像合成描述子。

参见图3所示，步骤A中提取视频的累积梯度合成描述子的过程为：对视频进行时间采样，得到16个不同的图像序列片段，这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点，每个图像序列片段由视频中相邻的8帧图像组成；对于每个图像序列片段，计算该图像序列片段中每一帧图像的梯度，累积到一帧中，得到累积梯度图像；有16个图像序列片段，共得到16帧累积梯度图像；将16帧累积梯度图像，依次排列成4行4列，组合成一帧图像，得到该视频的累积梯度合成描述子。

累积梯度图像的计算过程如下：

参见图4所示，步骤A中提取视频的光流合成描述子的过程为：

步骤B中，计算待识别视频的三种合成描述子(图像合成描述子、累积梯度合成描述子、光流合成描述子)的局部特征的SVM分数均包括训练和识别两个过程，训练过程为：对已经标记好动作类别的训练视频提取三种合成描述子的局部特征，对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码，用编码结果训练SVM模型；识别过程为：对待识别视频提取三种合成描述子的局部特征，对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码，将编码结果输入训练得到的SVM模型，得到待识别视频的三种合成描述子的局部特征的SVM分数。

参见图5所示，步骤B具体包括以下步骤：

步骤201、采集多个训练视频，在已经提取这些训练视频的三种合成描述子(图像合成描述子、累积梯度合成描述子、光流合成描述子)的基础上，对训练视频的三种合成描述子进行密集采样，采样块上的HOG(Histogram of Oriented Gradients，方向梯度直方图)特征是局部特征，在采样块上计算三种合成描述子的HOG特征，从而得到训练视频的三种合成描述子的HOG特征集合；

步骤202、采用本领域技术人员公知的K均值(K-means)算法，对训练视频的三种合成描述子的HOG特征集合进行聚类，生成多个聚类中心，以聚类中心为视觉单词，组成视觉词典；

步骤207、将待识别视频的三种合成描述子局部特征的最终表达送入步骤204生成的局部特征的SVM模型进行测试，采用一对多(one-vs.-all)的方法，实现多类分类(Multi-class Classification)，得到待识别视频的三种合成描述子的局部特征的SVM分数。

步骤C中，计算待识别视频的三种合成描述子(图像合成描述子、累积梯度合成描述子、光流合成描述子)的全局特征的SVM分数均包括训练和识别两个过程，训练过程为：对已经标记好动作类别的训练视频提取三种合成描述子的全局特征，用训练视频的三种合成描述子的全局特征训练SVM模型；识别过程为：对待识别视频提取三种合成描述子的全局特征，将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型，得到待识别视频的三种合成描述子的全局特征的SVM分数。

参见图6所示，步骤C具体包括以下步骤：

步骤301、PHOG(Pyramid Histogram of Oriented Gradients，塔式方向梯度直方图)特征是全局特征，采集多个训练视频，在已经提取这些训练视频的三种合成描述子的基础上，计算每个训练视频的三种合成描述子的PHOG特征，作为该训练视频的三种合成描述子全局特征的最终表达；

步骤D具体包括以下步骤：

根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数；SVM分数最大的类别作为所选类别；不同特征的SVM分数以不同的权重结合在一起，形成一个综合分数，该权重的具体数值在实验中确定；根据综合分数得到待识别视频中人体动作的识别结果时，一般以综合分数最大的类别作为动作识别的最终结果。

本发明实施例还提供一种用于实现上述方法的基于合成描述子的人体动作识别系统，包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元。

合成描述子提取单元用于：提取所有视频的三种合成描述子；视频分为训练视频和待识别视频，对于每一个视频，提取该视频中位于不同时间点上的信息，组合成一幅图像，得到该视频的合成描述子；合成描述子有三种：图像合成描述子、累积梯度合成描述子、光流合成描述子；在人体动作的识别过程中，使用这三种合成描述子的局部特征和全局特征来表征人体的动作，这三种合成描述子的局部特征和全局特征互为补充，也可作为其他特征的有力补充；

第一计算单元用于：计算待识别视频的三种合成描述子的局部特征的SVM(Support Vector Machine，支持向量机)分数；

第二计算单元用于：计算待识别视频的三种合成描述子的全局特征的SVM分数；

人体动作识别单元用于：根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数，再根据综合分数得到待识别视频中人体动作的识别结果。

本领域的技术人员可以对本发明实施例进行各种修改和变型，倘若这些修改和变型在本发明权利要求及其等同技术的范围之内，则这些修改和变型也在本发明的保护范围之内。

说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims

1.一种基于合成描述子的人体动作识别方法，其特征在于，包括以下步骤：

C、计算待识别视频的三种合成描述子的全局特征的SVM分数；

D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数，再根据综合分数得到待识别视频中人体动作的识别结果；

步骤A中提取视频的图像合成描述子的过程为：对视频进行时间采样，得到16帧不同的图像；再将这16帧不同的图像依次排列成4行4列，组合成一帧图像，得到该视频的图像合成描述子；

步骤A中提取视频的累积梯度合成描述子的过程为：对视频进行时间采样，得到16个不同的图像序列片段，这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点，每个图像序列片段由视频中相邻的8帧图像组成；对于每个图像序列片段，计算该图像序列片段中每一帧图像的梯度，累积到一帧中，得到累积梯度图像；有16个图像序列片段，共得到16帧累积梯度图像；将16帧累积梯度图像，依次排列成4行4列，组合成一帧图像，得到该视频的累积梯度合成描述子；

所述累积梯度图像的计算过程如下：

步骤103、将下一帧作为当前帧，返回步骤102，直到图像序列片段的最后一帧；

步骤A中提取视频的光流合成描述子的过程为：

2.如权利要求1所述的基于合成描述子的人体动作识别方法，其特征在于：步骤B中，计算待识别视频的三种合成描述子的局部特征的SVM分数均包括训练和识别两个过程，训练过程为：对已经标记好动作类别的训练视频提取三种合成描述子的局部特征，对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码，用编码结果训练SVM模型；识别过程为：对待识别视频提取三种合成描述子的局部特征，对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码，将编码结果输入训练得到的SVM模型，得到待识别视频的三种合成描述子的局部特征的SVM分数。

3.如权利要求2所述的基于合成描述子的人体动作识别方法，其特征在于，步骤B具体包括以下步骤：

4.如权利要求1所述的基于合成描述子的人体动作识别方法，其特征在于：步骤C中，计算待识别视频的三种合成描述子的全局特征的SVM分数均包括训练和识别两个过程，训练过程为：对已经标记好动作类别的训练视频提取三种合成描述子的全局特征，用训练视频的三种合成描述子的全局特征训练SVM模型；识别过程为：对待识别视频提取三种合成描述子的全局特征，将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型，得到待识别视频的三种合成描述子的全局特征的SVM分数。

5.如权利要求4所述的基于合成描述子的人体动作识别方法，其特征在于，步骤C具体包括以下步骤：

6.用于实现权利要求1至5中任一项所述方法的基于合成描述子的人体动作识别系统，其特征在于：包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元，其中：

提取视频的图像合成描述子的过程为：对视频进行时间采样，得到16帧不同的图像；再将这16帧不同的图像依次排列成4行4列，组合成一帧图像，得到该视频的图像合成描述子；

提取视频的累积梯度合成描述子的过程为：对视频进行时间采样，得到16个不同的图像序列片段，这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点，每个图像序列片段由视频中相邻的8帧图像组成；对于每个图像序列片段，计算该图像序列片段中每一帧图像的梯度，累积到一帧中，得到累积梯度图像；有16个图像序列片段，共得到16帧累积梯度图像；将16帧累积梯度图像，依次排列成4行4列，组合成一帧图像，得到该视频的累积梯度合成描述子；

所述累积梯度图像的计算过程如下：

提取视频的光流合成描述子的过程为：

光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子；