CN104794446B - 基于合成描述子的人体动作识别方法及系统 - Google Patents

基于合成描述子的人体动作识别方法及系统 Download PDF

Info

Publication number
CN104794446B
CN104794446B CN201510195277.9A CN201510195277A CN104794446B CN 104794446 B CN104794446 B CN 104794446B CN 201510195277 A CN201510195277 A CN 201510195277A CN 104794446 B CN104794446 B CN 104794446B
Authority
CN
China
Prior art keywords
video
synthesis
kinds
image
synthesis description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510195277.9A
Other languages
English (en)
Other versions
CN104794446A (zh
Inventor
谌先敢
刘海华
高智勇
刘李漫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201510195277.9A priority Critical patent/CN104794446B/zh
Publication of CN104794446A publication Critical patent/CN104794446A/zh
Application granted granted Critical
Publication of CN104794446B publication Critical patent/CN104794446B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于合成描述子的人体动作识别方法及系统,涉及计算机视觉和视频监控领域。本发明首次提出“合成描述子”这个概念,提取视频中位于不同时间点上的信息,合成到一帧图像上,得到合成描述子。合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子。提取视频的三种合成描述子后,分别计算这三种合成描述子的局部特征和全局特征。在人体动作识别的过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作。与现有技术运算量较大且不包含全局信息相比,本发明不仅能从视频中提取三种合成描述子的局部特征和全局特征,而且运算量较小,能够快速识别人体动作。

Description

基于合成描述子的人体动作识别方法及系统
技术领域
本发明涉及计算机视觉和视频监控领域,具体是涉及一种基于合成描述子的人体动作识别方法及系统。
背景技术
基于视频的人体动作识别是一个非常重要的问题,可应用于视频监控、视频检索和人机交互。人体动作识别是指用计算机从视频中区分出人体动作的类别。
基于视频的人体动作识别可以分为两个部分:动作的表示和动作的分类。动作的表示是指从包含人体动作的视频中提取合适的特征数据来描述人体的动作。动作的分类,是指从训练数据学习得到分类模型,将测试集中表示这些人体动作的特征数据进行分类。
目前的动作识别方法有全局方法和局部方法。全局方法,首先需要定位人体,然后将感兴趣区域编码为一个整体,形成特征描述子。全局表示法中一般通过背景相减方法或者人体检测器来定位人体。由于提取方法一般都是不完善的,因此侧影会包含一些噪声,并且对视角变化敏感。全局方法有全局性,该特性使其对类内变化和变形敏感。局部方法被描述为局部小块的一个集合,首先探测时空兴趣点或者得到密集采样点,然后在点的周围计算局部小块,合并成为一个描述子。局部方法对视角、噪声和部分遮挡具有某种程度的不变性,并不严格需要背景相减或人体检测。然而,他们依靠足够相关兴趣点的提取或者需要得到密集采样点,有时需要预处理。
目前最佳的动作识别方法是一种局部方法,称为结合密集轨迹的运动边界描述子,该方法提取密集轨迹,并计算运动边界描述子。但是该方法需要计算视频中全部帧的光流,运算量较大,而且该方法只包含局部信息,不包含全局信息。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于合成描述子的人体动作识别方法及系统,从视频中提取三种合成描述子的局部特征和全局特征,运算量较小,能够快速识别人体动作。
本发明提供一种基于合成描述子的人体动作识别方法,包括以下步骤:
A、提取所有视频的三种合成描述子:视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充;
B、计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数;
C、计算待识别视频的三种合成描述子的全局特征的SVM分数;
D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
在上述技术方案的基础上,步骤A中提取视频的图像合成描述子的过程为:对视频进行时间采样,得到16帧不同的图像;再将这16帧不同的图像依次排列成4行4列,组合成一帧图像,得到该视频的图像合成描述子。
在上述技术方案的基础上,步骤A中提取视频的累积梯度合成描述子的过程为:对视频进行时间采样,得到16个不同的图像序列片段,这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点,每个图像序列片段由视频中相邻的8帧图像组成;对于每个图像序列片段,计算该图像序列片段中每一帧图像的梯度,累积到一帧中,得到累积梯度图像;有16个图像序列片段,共得到16帧累积梯度图像;将16帧累积梯度图像,依次排列成4行4列,组合成一帧图像,得到该视频的累积梯度合成描述子。
在上述技术方案的基础上,所述累积梯度图像的计算过程如下:
步骤101、图像序列片段中包括若干帧图像,图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x,y,t),x为点(x,y)的横坐标,y为点(x,y)的纵坐标,t为时间,累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等;初始化累积梯度图像H(x,y,t),将累积梯度图像H(x,y,t)的全部像素置为0,此时时间t为0;将图像序列片段中的第一帧作为当前帧I(x,y);
步骤102、计算当前帧I(x,y)的梯度图像幅值G(x,y);t-1时刻的累积梯度图像为H(x,y,t-1),将G(x,y)与H(x,y,t-1)在每一个像素点上进行比较,取灰度值较大的像素点的灰度值作为H(x,y,t)的新值;在点(x,y)处,t时刻的累积梯度图像H(x,y,t)=max[H(x,y,t-1),G(x,y)];
步骤103、将下一帧作为当前帧,返回步骤102,直到图像序列片段的最后一帧。
在上述技术方案的基础上,步骤A中提取视频的光流合成描述子的过程为:
对视频进行时间采样,得到16对相邻的图像序列对,共计32帧图像,计算这16对图像序列对的光流图像,得到16帧光流图像X分量和16帧光流图像Y分量;
将16帧光流图像X分量依次排列成4行4列,组合成一帧图像,得到光流X分量合成描述子;
将16帧光流图像Y分量依次排列成4行4列,组合成一帧图像,得到光流Y分量合成描述子;
光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子。
在上述技术方案的基础上,步骤B中,计算待识别视频的三种合成描述子的局部特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的局部特征,对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码,用编码结果训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的局部特征,对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码,将编码结果输入训练得到的SVM模型,得到待识别视频的三种合成描述子的局部特征的SVM分数。
在上述技术方案的基础上,步骤B具体包括以下步骤:
步骤201、采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,对训练视频的三种合成描述子进行密集采样,采样块上的方向梯度直方图HOG特征是局部特征,在采样块上计算三种合成描述子的HOG特征,从而得到训练视频的三种合成描述子的HOG特征集合;
步骤202、采用本领域技术人员公知的K均值算法,对训练视频的三种合成描述子的HOG特征集合进行聚类,生成多个聚类中心,以聚类中心为视觉单词,组成视觉词典;
步骤203、用视觉词典对训练视频的三种合成描述子的HOG特征集合进行特征编码,得到编码结果向量,作为训练视频的三种合成描述子局部特征的最终表达;
步骤204、将所有训练视频的三种合成描述子局部特征的最终表达送入SVM分类器进行训练,生成局部特征的SVM模型;
步骤205、按照步骤201对待识别视频进行处理,得到待识别视频的三种合成描述子的HOG特征集合;
步骤206、采用步骤202得到的视觉词典,对待识别视频的三种合成描述子的HOG特征集合进行特征编码,作为待识别视频的三种合成描述子局部特征的最终表达;
步骤207、将待识别视频的三种合成描述子局部特征的最终表达送入步骤204生成的局部特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的三种合成描述子的局部特征的SVM分数。
在上述技术方案的基础上,步骤C中,计算待识别视频的三种合成描述子的全局特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的全局特征,用训练视频的三种合成描述子的全局特征训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的全局特征,将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型,得到待识别视频的三种合成描述子的全局特征的SVM分数。
在上述技术方案的基础上,步骤C具体包括以下步骤:
步骤301、塔式方向梯度直方图PHOG特征是全局特征,采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,计算每个训练视频的三种合成描述子的PHOG特征,作为该训练视频的三种合成描述子全局特征的最终表达;
步骤302、将所有训练视频的三种合成描述子全局特征的最终表达送入SVM分类器进行训练,生成全局特征的SVM模型;
步骤303、按照步骤301对待识别视频进行处理,得到待识别视频的三种合成描述子的PHOG特征集合,作为待识别视频的三种合成描述子全局特征的最终表达;
步骤304、将步骤303得到的待识别视频的三种合成描述子全局特征的最终表达送入步骤302生成的全局特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的三种合成描述子的全局特征的SVM分数。
本发明还提供用于实现上述方法的基于合成描述子的人体动作识别系统,包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元,其中:
所述合成描述子提取单元用于:提取所有视频的三种合成描述子;视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充;
所述第一计算单元用于:计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数;
所述第二计算单元用于:计算待识别视频的三种合成描述子的全局特征的SVM分数;
所述人体动作识别单元用于:根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
与现有技术相比,本发明的优点如下:
本发明首次提出“合成描述子”这个概念,提取视频中位于不同时间点上的信息,合成到一帧图像上,得到合成描述子。合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子。提取视频的三种合成描述子后,分别计算这三种合成描述子的局部特征和全局特征。在人体动作识别的过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充,也可作为其他特征的有力补充。与现有技术运算量较大且不包含全局信息相比,本发明不仅能够从视频中提取三种合成描述子的局部特征和全局特征,而且运算量较小,能够快速识别人体动作。
附图说明
图1是本发明实施例中基于合成描述子的人体动作识别方法的流程图。
图2是本发明实施例中提取视频的图像合成描述子的流程图。
图3是本发明实施例中提取视频的累积梯度合成描述子的流程图。
图4是本发明实施例中提取视频的光流合成描述子的流程图。
图5是本发明实施例中计算三种合成描述子的局部特征的SVM分数的流程图。
图6是本发明实施例中计算三种合成描述子的全局特征的SVM分数的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种基于合成描述子的人体动作识别方法,包括以下步骤:
A、提取所有视频的三种合成描述子:视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充,也可作为其他特征的有力补充;
B、计算待识别视频的三种合成描述子的局部特征的SVM(Support VectorMachine,支持向量机)分数;
C、计算待识别视频的三种合成描述子的全局特征的SVM分数;
D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
参见图2所示,步骤A中提取视频的图像合成描述子的过程为:对视频进行时间采样,得到16帧不同的图像;再将这16帧不同的图像依次排列成4行4列,组合成一帧图像,得到该视频的图像合成描述子。
参见图3所示,步骤A中提取视频的累积梯度合成描述子的过程为:对视频进行时间采样,得到16个不同的图像序列片段,这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点,每个图像序列片段由视频中相邻的8帧图像组成;对于每个图像序列片段,计算该图像序列片段中每一帧图像的梯度,累积到一帧中,得到累积梯度图像;有16个图像序列片段,共得到16帧累积梯度图像;将16帧累积梯度图像,依次排列成4行4列,组合成一帧图像,得到该视频的累积梯度合成描述子。
累积梯度图像的计算过程如下:
步骤101、图像序列片段中包括若干帧图像,图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x,y,t),x为点(x,y)的横坐标,y为点(x,y)的纵坐标,t为时间,累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等;初始化累积梯度图像H(x,y,t),将累积梯度图像H(x,y,t)的全部像素置为0,此时时间t为0;将图像序列片段中的第一帧作为当前帧I(x,y);
步骤102、计算当前帧I(x,y)的梯度图像幅值G(x,y);t-1时刻的累积梯度图像为H(x,y,t-1),将G(x,y)与H(x,y,t-1)在每一个像素点上进行比较,取灰度值较大的像素点的灰度值作为H(x,y,t)的新值;在点(x,y)处,t时刻的累积梯度图像H(x,y,t)=max[H(x,y,t-1),G(x,y)];
步骤103、将下一帧作为当前帧,返回步骤102,直到图像序列片段的最后一帧。
参见图4所示,步骤A中提取视频的光流合成描述子的过程为:
对视频进行时间采样,得到16对相邻的图像序列对,共计32帧图像,计算这16对图像序列对的光流图像,得到16帧光流图像X分量和16帧光流图像Y分量;
将16帧光流图像X分量依次排列成4行4列,组合成一帧图像,得到光流X分量合成描述子;
将16帧光流图像Y分量依次排列成4行4列,组合成一帧图像,得到光流Y分量合成描述子;
光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子。
步骤B中,计算待识别视频的三种合成描述子(图像合成描述子、累积梯度合成描述子、光流合成描述子)的局部特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的局部特征,对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码,用编码结果训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的局部特征,对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码,将编码结果输入训练得到的SVM模型,得到待识别视频的三种合成描述子的局部特征的SVM分数。
参见图5所示,步骤B具体包括以下步骤:
步骤201、采集多个训练视频,在已经提取这些训练视频的三种合成描述子(图像合成描述子、累积梯度合成描述子、光流合成描述子)的基础上,对训练视频的三种合成描述子进行密集采样,采样块上的HOG(Histogram of Oriented Gradients,方向梯度直方图)特征是局部特征,在采样块上计算三种合成描述子的HOG特征,从而得到训练视频的三种合成描述子的HOG特征集合;
步骤202、采用本领域技术人员公知的K均值(K-means)算法,对训练视频的三种合成描述子的HOG特征集合进行聚类,生成多个聚类中心,以聚类中心为视觉单词,组成视觉词典;
步骤203、用视觉词典对训练视频的三种合成描述子的HOG特征集合进行特征编码,得到编码结果向量,作为训练视频的三种合成描述子局部特征的最终表达;
步骤204、将所有训练视频的三种合成描述子局部特征的最终表达送入SVM分类器进行训练,生成局部特征的SVM模型;
步骤205、按照步骤201对待识别视频进行处理,得到待识别视频的三种合成描述子的HOG特征集合;
步骤206、采用步骤202得到的视觉词典,对待识别视频的三种合成描述子的HOG特征集合进行特征编码,作为待识别视频的三种合成描述子局部特征的最终表达;
步骤207、将待识别视频的三种合成描述子局部特征的最终表达送入步骤204生成的局部特征的SVM模型进行测试,采用一对多(one-vs.-all)的方法,实现多类分类(Multi-class Classification),得到待识别视频的三种合成描述子的局部特征的SVM分数。
步骤C中,计算待识别视频的三种合成描述子(图像合成描述子、累积梯度合成描述子、光流合成描述子)的全局特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的全局特征,用训练视频的三种合成描述子的全局特征训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的全局特征,将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型,得到待识别视频的三种合成描述子的全局特征的SVM分数。
参见图6所示,步骤C具体包括以下步骤:
步骤301、PHOG(Pyramid Histogram of Oriented Gradients,塔式方向梯度直方图)特征是全局特征,采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,计算每个训练视频的三种合成描述子的PHOG特征,作为该训练视频的三种合成描述子全局特征的最终表达;
步骤302、将所有训练视频的三种合成描述子全局特征的最终表达送入SVM分类器进行训练,生成全局特征的SVM模型;
步骤303、按照步骤301对待识别视频进行处理,得到待识别视频的三种合成描述子的PHOG特征集合,作为待识别视频的三种合成描述子全局特征的最终表达;
步骤304、将步骤303得到的待识别视频的三种合成描述子全局特征的最终表达送入步骤302生成的全局特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的三种合成描述子的全局特征的SVM分数。
步骤D具体包括以下步骤:
根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数;SVM分数最大的类别作为所选类别;不同特征的SVM分数以不同的权重结合在一起,形成一个综合分数,该权重的具体数值在实验中确定;根据综合分数得到待识别视频中人体动作的识别结果时,一般以综合分数最大的类别作为动作识别的最终结果。
本发明实施例还提供一种用于实现上述方法的基于合成描述子的人体动作识别系统,包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元。
合成描述子提取单元用于:提取所有视频的三种合成描述子;视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充,也可作为其他特征的有力补充;
第一计算单元用于:计算待识别视频的三种合成描述子的局部特征的SVM(Support Vector Machine,支持向量机)分数;
第二计算单元用于:计算待识别视频的三种合成描述子的全局特征的SVM分数;
人体动作识别单元用于:根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims (6)

1.一种基于合成描述子的人体动作识别方法,其特征在于,包括以下步骤:
A、提取所有视频的三种合成描述子:视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充;
B、计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数;
C、计算待识别视频的三种合成描述子的全局特征的SVM分数;
D、根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果;
步骤A中提取视频的图像合成描述子的过程为:对视频进行时间采样,得到16帧不同的图像;再将这16帧不同的图像依次排列成4行4列,组合成一帧图像,得到该视频的图像合成描述子;
步骤A中提取视频的累积梯度合成描述子的过程为:对视频进行时间采样,得到16个不同的图像序列片段,这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点,每个图像序列片段由视频中相邻的8帧图像组成;对于每个图像序列片段,计算该图像序列片段中每一帧图像的梯度,累积到一帧中,得到累积梯度图像;有16个图像序列片段,共得到16帧累积梯度图像;将16帧累积梯度图像,依次排列成4行4列,组合成一帧图像,得到该视频的累积梯度合成描述子;
所述累积梯度图像的计算过程如下:
步骤101、图像序列片段中包括若干帧图像,图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x,y,t),x为点(x,y)的横坐标,y为点(x,y)的纵坐标,t为时间,累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等;初始化累积梯度图像H(x,y,t),将累积梯度图像H(x,y,t)的全部像素置为0,此时时间t为0;将图像序列片段中的第一帧作为当前帧I(x,y);
步骤102、计算当前帧I(x,y)的梯度图像幅值G(x,y);t-1时刻的累积梯度图像为H(x,y,t-1),将G(x,y)与H(x,y,t-1)在每一个像素点上进行比较,取灰度值较大的像素点的灰度值作为H(x,y,t)的新值;在点(x,y)处,t时刻的累积梯度图像H(x,y,t)=max[H(x,y,t-1),G(x,y)];
步骤103、将下一帧作为当前帧,返回步骤102,直到图像序列片段的最后一帧;
步骤A中提取视频的光流合成描述子的过程为:
对视频进行时间采样,得到16对相邻的图像序列对,共计32帧图像,计算这16对图像序列对的光流图像,得到16帧光流图像X分量和16帧光流图像Y分量;
将16帧光流图像X分量依次排列成4行4列,组合成一帧图像,得到光流X分量合成描述子;
将16帧光流图像Y分量依次排列成4行4列,组合成一帧图像,得到光流Y分量合成描述子;
光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子。
2.如权利要求1所述的基于合成描述子的人体动作识别方法,其特征在于:步骤B中,计算待识别视频的三种合成描述子的局部特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的局部特征,对训练视频的三种合成描述子的局部特征在视觉词典上进行特征编码,用编码结果训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的局部特征,对待识别视频的三种合成描述子的局部特征在视觉词典上进行特征编码,将编码结果输入训练得到的SVM模型,得到待识别视频的三种合成描述子的局部特征的SVM分数。
3.如权利要求2所述的基于合成描述子的人体动作识别方法,其特征在于,步骤B具体包括以下步骤:
步骤201、采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,对训练视频的三种合成描述子进行密集采样,采样块上的方向梯度直方图HOG特征是局部特征,在采样块上计算三种合成描述子的HOG特征,从而得到训练视频的三种合成描述子的HOG特征集合;
步骤202、采用本领域技术人员公知的K均值算法,对训练视频的三种合成描述子的HOG特征集合进行聚类,生成多个聚类中心,以聚类中心为视觉单词,组成视觉词典;
步骤203、用视觉词典对训练视频的三种合成描述子的HOG特征集合进行特征编码,得到编码结果向量,作为训练视频的三种合成描述子局部特征的最终表达;
步骤204、将所有训练视频的三种合成描述子局部特征的最终表达送入SVM分类器进行训练,生成局部特征的SVM模型;
步骤205、按照步骤201对待识别视频进行处理,得到待识别视频的三种合成描述子的HOG特征集合;
步骤206、采用步骤202得到的视觉词典,对待识别视频的三种合成描述子的HOG特征集合进行特征编码,作为待识别视频的三种合成描述子局部特征的最终表达;
步骤207、将待识别视频的三种合成描述子局部特征的最终表达送入步骤204生成的局部特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的三种合成描述子的局部特征的SVM分数。
4.如权利要求1所述的基于合成描述子的人体动作识别方法,其特征在于:步骤C中,计算待识别视频的三种合成描述子的全局特征的SVM分数均包括训练和识别两个过程,训练过程为:对已经标记好动作类别的训练视频提取三种合成描述子的全局特征,用训练视频的三种合成描述子的全局特征训练SVM模型;识别过程为:对待识别视频提取三种合成描述子的全局特征,将待识别视频的三种合成描述子的全局特征输入到训练得到的SVM模型,得到待识别视频的三种合成描述子的全局特征的SVM分数。
5.如权利要求4所述的基于合成描述子的人体动作识别方法,其特征在于,步骤C具体包括以下步骤:
步骤301、塔式方向梯度直方图PHOG特征是全局特征,采集多个训练视频,在已经提取这些训练视频的三种合成描述子的基础上,计算每个训练视频的三种合成描述子的PHOG特征,作为该训练视频的三种合成描述子全局特征的最终表达;
步骤302、将所有训练视频的三种合成描述子全局特征的最终表达送入SVM分类器进行训练,生成全局特征的SVM模型;
步骤303、按照步骤301对待识别视频进行处理,得到待识别视频的三种合成描述子的PHOG特征集合,作为待识别视频的三种合成描述子全局特征的最终表达;
步骤304、将步骤303得到的待识别视频的三种合成描述子全局特征的最终表达送入步骤302生成的全局特征的SVM模型进行测试,采用一对多的方法,实现多类分类,得到待识别视频的三种合成描述子的全局特征的SVM分数。
6.用于实现权利要求1至5中任一项所述方法的基于合成描述子的人体动作识别系统,其特征在于:包括合成描述子提取单元、第一计算单元、第二计算单元和人体动作识别单元,其中:
所述合成描述子提取单元用于:提取所有视频的三种合成描述子;视频分为训练视频和待识别视频,对于每一个视频,提取该视频中位于不同时间点上的信息,组合成一幅图像,得到该视频的合成描述子;合成描述子有三种:图像合成描述子、累积梯度合成描述子、光流合成描述子;在人体动作的识别过程中,使用这三种合成描述子的局部特征和全局特征来表征人体的动作,这三种合成描述子的局部特征和全局特征互为补充;
提取视频的图像合成描述子的过程为:对视频进行时间采样,得到16帧不同的图像;再将这16帧不同的图像依次排列成4行4列,组合成一帧图像,得到该视频的图像合成描述子;
提取视频的累积梯度合成描述子的过程为:对视频进行时间采样,得到16个不同的图像序列片段,这16个图像序列片段中心位置的图像位于视频的16个等间隔的时间节点,每个图像序列片段由视频中相邻的8帧图像组成;对于每个图像序列片段,计算该图像序列片段中每一帧图像的梯度,累积到一帧中,得到累积梯度图像;有16个图像序列片段,共得到16帧累积梯度图像;将16帧累积梯度图像,依次排列成4行4列,组合成一帧图像,得到该视频的累积梯度合成描述子;
所述累积梯度图像的计算过程如下:
步骤101、图像序列片段中包括若干帧图像,图像序列片段中所有图像的梯度图都累积到一帧图像上得到的累积梯度图像为H(x,y,t),x为点(x,y)的横坐标,y为点(x,y)的纵坐标,t为时间,累积梯度图像H(x,y,t)的尺寸与图像序列片段中原始图像的大小相等;初始化累积梯度图像H(x,y,t),将累积梯度图像H(x,y,t)的全部像素置为0,此时时间t为0;将图像序列片段中的第一帧作为当前帧I(x,y);
步骤102、计算当前帧I(x,y)的梯度图像幅值G(x,y);t-1时刻的累积梯度图像为H(x,y,t-1),将G(x,y)与H(x,y,t-1)在每一个像素点上进行比较,取灰度值较大的像素点的灰度值作为H(x,y,t)的新值;在点(x,y)处,t时刻的累积梯度图像H(x,y,t)=max[H(x,y,t-1),G(x,y)];
步骤103、将下一帧作为当前帧,返回步骤102,直到图像序列片段的最后一帧;
提取视频的光流合成描述子的过程为:
对视频进行时间采样,得到16对相邻的图像序列对,共计32帧图像,计算这16对图像序列对的光流图像,得到16帧光流图像X分量和16帧光流图像Y分量;
将16帧光流图像X分量依次排列成4行4列,组合成一帧图像,得到光流X分量合成描述子;
将16帧光流图像Y分量依次排列成4行4列,组合成一帧图像,得到光流Y分量合成描述子;
光流X分量合成描述子和光流Y分量合成描述子共同构成该视频的光流合成描述子;
所述第一计算单元用于:计算待识别视频的三种合成描述子的局部特征的支持向量机SVM分数;
所述第二计算单元用于:计算待识别视频的三种合成描述子的全局特征的SVM分数;
所述人体动作识别单元用于:根据待识别视频的三种合成描述子的局部特征的SVM分数、全局特征的SVM分数得到综合分数,再根据综合分数得到待识别视频中人体动作的识别结果。
CN201510195277.9A 2015-04-22 2015-04-22 基于合成描述子的人体动作识别方法及系统 Expired - Fee Related CN104794446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510195277.9A CN104794446B (zh) 2015-04-22 2015-04-22 基于合成描述子的人体动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510195277.9A CN104794446B (zh) 2015-04-22 2015-04-22 基于合成描述子的人体动作识别方法及系统

Publications (2)

Publication Number Publication Date
CN104794446A CN104794446A (zh) 2015-07-22
CN104794446B true CN104794446B (zh) 2017-12-12

Family

ID=53559234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510195277.9A Expired - Fee Related CN104794446B (zh) 2015-04-22 2015-04-22 基于合成描述子的人体动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN104794446B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956517B (zh) * 2016-04-20 2019-08-02 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于密集轨迹的动作识别方法
JP6769859B2 (ja) * 2016-12-19 2020-10-14 株式会社日立エルジーデータストレージ 画像処理装置及び画像処理方法
CN107169415B (zh) * 2017-04-13 2019-10-11 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN108764045B (zh) * 2018-04-26 2019-11-26 平安科技(深圳)有限公司 牲畜识别方法、装置及存储介质
CN111753590B (zh) * 2019-03-28 2023-10-17 杭州海康威视数字技术股份有限公司 一种行为识别方法、装置及电子设备
CN113011381B (zh) * 2021-04-09 2022-09-02 中国科学技术大学 基于骨骼关节数据的双人动作识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894276A (zh) * 2010-06-01 2010-11-24 中国科学院计算技术研究所 人体动作识别的训练方法和识别方法
US8472699B2 (en) * 2006-11-22 2013-06-25 Board Of Trustees Of The Leland Stanford Junior University Arrangement and method for three-dimensional depth image construction
CN104091169A (zh) * 2013-12-12 2014-10-08 华南理工大学 基于多特征融合的行为识别方法
CN104268586A (zh) * 2014-10-17 2015-01-07 北京邮电大学 一种多视角动作识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8929600B2 (en) * 2012-12-19 2015-01-06 Microsoft Corporation Action recognition based on depth maps

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8472699B2 (en) * 2006-11-22 2013-06-25 Board Of Trustees Of The Leland Stanford Junior University Arrangement and method for three-dimensional depth image construction
CN101894276A (zh) * 2010-06-01 2010-11-24 中国科学院计算技术研究所 人体动作识别的训练方法和识别方法
CN104091169A (zh) * 2013-12-12 2014-10-08 华南理工大学 基于多特征融合的行为识别方法
CN104268586A (zh) * 2014-10-17 2015-01-07 北京邮电大学 一种多视角动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于视频的人体动作识别方法研究";刘吉庆;《中国优秀硕士学位论文全文数据库-信息科技辑》;20131115(第11期);论文第8-32页 *
Human action recongnition using lantent-dynamic condition random fields;Guangfeng Lin,Yindi Fan, Erhu Zhang;《Artificail Intelligence and Computational Intelligence,2009.AICI"09》;20100112;论文第147页-151页 *

Also Published As

Publication number Publication date
CN104794446A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN104794446B (zh) 基于合成描述子的人体动作识别方法及系统
CN110235138B (zh) 用于外观搜索的系统和方法
CN105809144B (zh) 一种采用动作切分的手势识别系统和方法
Wang et al. Dense trajectories and motion boundary descriptors for action recognition
Vázquez-Enríquez et al. Isolated sign language recognition with multi-scale spatial-temporal graph convolutional networks
CN104933414B (zh) 一种基于wld-top的活体人脸检测方法
JP5675229B2 (ja) 画像処理装置及び画像処理方法
CN104599287B (zh) 对象跟踪方法和装置、对象识别方法和装置
CN106325485B (zh) 一种手势检测识别方法及系统
CN111191667B (zh) 基于多尺度生成对抗网络的人群计数方法
KR20170006355A (ko) 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치
CN105930790B (zh) 基于核稀疏编码的人体行为识别方法
CN110738154A (zh) 一种基于人体姿态估计的行人摔倒检测方法
CN108280421B (zh) 基于多特征深度运动图的人体行为识别方法
CN108600865A (zh) 一种基于超像素分割的视频摘要生成方法
Huong et al. Static hand gesture recognition for vietnamese sign language (VSL) using principle components analysis
JP2012088881A (ja) 人物動作検出装置およびそのプログラム
Aliyu et al. Arabie sign language recognition using the Microsoft Kinect
CN110232331B (zh) 一种在线人脸聚类的方法及系统
CN112990122B (zh) 一种基于视频基础单元分析的复杂行为识别方法
Rahmani et al. Action classification with locality-constrained linear coding
WO2013075295A1 (zh) 低分辨率视频的服装识别方法及系统
CN112257513B (zh) 一种手语视频翻译模型的训练方法、翻译方法及系统
CN109902550A (zh) 行人属性的识别方法和装置
KR20190018274A (ko) 이미지에 포함된 특징 포인트의 시간 또는 공간의 움직임에 기초하여 이미지에 존재하는 피사체를 인식하는 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171212

Termination date: 20200422

CF01 Termination of patent right due to non-payment of annual fee