CN108256435B - 基于部件因果关系的视频行为识别方法 - Google Patents

基于部件因果关系的视频行为识别方法 Download PDF

Info

Publication number
CN108256435B
CN108256435B CN201711415788.2A CN201711415788A CN108256435B CN 108256435 B CN108256435 B CN 108256435B CN 201711415788 A CN201711415788 A CN 201711415788A CN 108256435 B CN108256435 B CN 108256435B
Authority
CN
China
Prior art keywords
causality
track
behavior
component
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711415788.2A
Other languages
English (en)
Other versions
CN108256435A (zh
Inventor
同鸣
闫娜
陈逸然
田伟娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201711415788.2A priority Critical patent/CN108256435B/zh
Publication of CN108256435A publication Critical patent/CN108256435A/zh
Application granted granted Critical
Publication of CN108256435B publication Critical patent/CN108256435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于部件因果关系的视频行为识别方法,主要解决现有方法忽略了行为部件间的因果关系,而导致行为识别准确率低的问题。其实现步骤是:1)提取视频的稠密轨迹,获取轨迹点的3D坐标和轨迹底层特征;2)利用轨迹点的3D坐标进行轨迹聚类,以获取行为部件;3)计算部件间因果关系比率,训练成对部件对应的分类器并获取判分,以构建部件间因果关系描述子,并作为中层语义表示;4)对中层语义表示进行PCA降维,并利用SVM分类器进行行为识别。本发明能够获取更丰富的中层语义表示,进一步提高了行为识别的准确率,可用于人机交互。

Description

基于部件因果关系的视频行为识别方法
技术领域
本发明属于视频处理技术领域,特别涉及一种视频行为识别方法,可用于人机交互。
背景技术
视频人体行为识别是计算机视觉研究领域的关键问题,随着社会媒体共享的快速发展,人们需要及时处理大量的多媒体数据,尤其是包含人体行为的视频数据,人体行为识别作为视频分析和理解的关键技术,重要的学术价值、广泛的应用前景以及潜在的商业价值和社会价值,使其成为计算机视觉研究的研究热点。早期的行为识别方法通常只专注于底层特征的优化设计,虽取得了一定成就,但通常只表示了行为视频的底层视觉信息,表达能力非常有限,而中层特征涵盖了丰富的语义信息,越来越受到研究者的重视和青睐。目前比较主流的中层语义的提取方法主要包括以下两种,一种是基于深度学习的中层语义挖掘,另一种是基于部件的中层语义挖掘。基于深度学习的中层语义挖掘虽能挖掘到更抽象的特征信息,但需要较大的计算消耗。然而,以上两种方法构建的中层语义,虽然对底层特征进行了较好的提炼和总结,但并没有进一步挖掘中层语义间存在的较为复杂的交互关系,如因果关系等,而这种关系能够增强中层语义的表现力,进一步提高行为识别的准确率。
目前已提出的基于部件的中层语义表示方法主要有以下两种:
(1)J.Zhu,B.Wang,X.Yang,W.Zhang,Z.Tu等人于2013年在IEEE InternationalConference on Computer Vision提出了“利用actons进行行为识别的方法”,这种方法将池化思想引入中层语义中,通过对轨迹描述子的局部软量化编码特征进行池化,获取中层语义actons,实现了有效的行为识别,然而,该方法忽略了actons之间的因果相互关系,使中层语义的表达能力和识别效果受到限制。
(2)Lan T,Zhu Y,Roshan Zamir等人于2015年在Proceedings of the IEEEInternational Conference on Computer Vision提出了“一种利用中层行为元素进行行为识别的方法”,这种方法在轨迹特征的基础上,分别在时间和空间上对行为进行精细分割,使用线性SVM对谱聚类后获得的聚类簇进行判别式约束,筛选出差异性较大的聚类簇作为中层行为元素。该方法虽然考虑了中层行为元素之间的层次关系,但未准确描述各个中层行为元素之间存在的因果关系,阻碍了行为识别结果的进一步提高。
发明内容
本发明目的在于针对上述已有方法的不足,提出一种基于部件因果关系的视频行为识别方法,通过挖掘部件之间的因果关系,增强中层语义表示对行为的描述能力,进一步提高视频行为识别的准确率。
为实现上述目的,本发明包括:
(1)对所有行为视频提取稠密轨迹,获取所有轨迹点的3D坐标,并构建方向梯度直方图HOG和光流方向直方图HOF,将HOG和HOF进行串接后作为轨迹的底层特征;
(2)利用轨迹点的3D坐标,对轨迹进行k-means聚类,以获取行为部件;
(3)将行为视频V所属行为类别中的任意两个不同的行为部件表示为Xu和Xv,构成成对的部件表示(Xu,Xv),利用Xu和Xv对应轨迹的底层特征,来训练(Xu,Xv)对应的部件分类器获取行为视频V在下的判分score(V,(Xu,Xv)),其中,u,v∈[1,b]且u≠v,b为行为视频V所属行为类别中的部件个数;
(4)利用格兰杰因果关系方法,计算两个部件的因果关系比率,其中包括Xu对Xv的因果关系比率CRu,v,以及Xv对Xu的因果关系比率CRv,u,并计算视频V在成对部件(Xu,Xv)下,Xu对Xv的因果关系强度以及Xv对Xu的因果关系强度
(5)将视频V在其所属类别中,所有成对部件下的因果关系强度进行串接,得到视频V的部件间因果关系描述子MFeat_cas(V),并将其作为中层语义表示;
(6)将获取的中层语义表示进行PCA降维,获取降维后的中层语义表示;
(7)将所有行为视频分为训练集和测试集,利用训练集对应降维后的中层语义表示,训练中层语义的SVM分类器,将测试集对应降维后的中层语义表示,输入到训练好的SVM分类器中进行测试,获取行为识别的结果。
本发明与现有技术相比具有以下优点:
本发明通过获取行为部件,将身体各个部位的运动分离出来,不仅对各个部件的运动分别进行了描述,而且考虑了各个部件之间存在的因果关系,能够获取更加丰富的语义信息,提高了对视频行为的描述能力,进一步提高了行为识别的准确率。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图,对本发明的实施进一步详细描述。
参照图1,本发明的基于部件因果关系的行为识别方法,步骤如下:
步骤1,对所有行为视频提取稠密轨迹,并获取所有轨迹点的3D坐标和轨迹的底层特征。
本步骤使用Wang H等人于2013年在Proceedings of the IEEE InternationalConference on Computer Vision上发表的Action recognition with improvedtrajectories一文中的方法来提取稠密轨迹,其步骤如下:
(1.1)对视频进行稠密采样获取特征点,对特征点进行跟踪,得到长度为L=15的稠密轨迹,获取所有轨迹点的3D坐标;
(1.2)以轨迹为中心,在轨迹周围提取N×N像素的子空间区域,得到随轨迹弯曲的轨迹立方体,N=32;
(1.3)在得到的轨迹立方体中,分别提取方向梯度直方图HOG和光流方向直方图HOF特征,将这两个特征进行串接后作为轨迹的底层特征。
步骤2,分别对每类视频的轨迹进行k-means聚类,以获取行为部件。
在聚类过程中,为了保证轨迹之间的空间位置相近,采用空间距离进行相似性度量,具体步骤如下:
(2.1)对于每类视频中的任意两条轨迹Tf和Tm,其时域重叠区间为o(Tf,Tm),轨迹Tf与Tm间的空间距离为dfm计算如下:
其中,其中Tf表示第f条轨迹,Tm表示第m条轨迹,分别表示轨迹Tf和Tm在第t帧上的轨迹点坐标,avg(·)表示求取平均值,||·||2表示求取欧氏距离,f,m∈[1,B]且f≠m,B为轨迹的数目;
(2.2)利用轨迹间的空间距离,对每类视频的轨迹进行k-means聚类,获取k个聚类簇,也就是k个行为部件。
步骤3,训练成对部件(Xu,Xv)对应的分类器获取视频V在下的判分score(V,(Xu,Xv))。
将视频V所属类别中的任意两个行为部件表示为Xu和Xv,构成的成对部件表示为(Xu,Xv),利用Xu和Xv所对应的轨迹底层特征,训练成对部件(Xu,Xv)对应的分类器并获取视频V在下的判分score(V,(Xu,Xv)),代表部件Xu和Xv同时在视频V中发生的概率,其中,u,v∈[1,b]且u≠v,b为视频V所属类别中的部件个数。
步骤4,利用格兰杰因果关系方法,计算部件Xu对Xv的因果关系比率CRu,v,以及Xv对Xu的因果关系比率CRv,u,并计算视频V在成对部件(Xu,Xv)下Xu对Xv的因果关系强度以及Xv对Xu的因果关系强度
在一个运动周期内,运动主体的各运动部件之间通常具有丰富的因果关系,可通过部件间因果关系强度来描述,捕捉这种关系能够更好地描述视频行为,具体步骤如下:
(4.1)根据格兰杰因果关系方法,将两个信号分别表示为pt和qt,对pt进行预测有以下两种方式,一种方式是,只利用pt过去的样本来预测pt,表示如下:
另一种方式是,利用pt和qt过去的样本共同预测pt,表示如下:
其中,B表示只利用pt过去的样本来预测pt时,pt过去的样本对应的预测系数矩阵;
E表示利用pt和qt过去的样本共同预测pt时,pt过去样本对应的预测系数矩阵;
R表示利用pt和qt过去的样本共同预测pt时,qt过去样本对应的预测系数矩阵;
ε1表示只利用pt过去的样本来预测pt产生的预测误差,其方差为Σ1
ε2表示利用pt和qt过去的样本共同预测pt产生的预测误差,其方差为Σ2
表示pt延时了h的m阶信号,表示qt延时了h的m阶信号,即:
其中,m=3,h=3;
(4.2)利用ε1的方差Σ1和ε2的方差Σ2,来计算qt对pt的因果关系比率CRq,p=trace(∑1)/trace(∑2),trace(·)表示矩阵求迹;
(4.3)分别对部件Xu和Xv内的轨迹求平均,得到平均轨迹视为两个信号,利用(4.1)~(4.2)中的方法,分别计算的因果关系比率以及的因果关系比率
(4.4)利用以下公式,分别计算部件Xu对Xv的因果关系比率CRu,v,以及Xv对Xu的因果关系比率CRv,u
其中,Nu表示部件Xu中轨迹的数目,Nv表示部件Xv中轨迹的数目;
(4.5)利用以下公式,分别计算视频V在成对部件(Xu,Xv)下,Xu对Xv的因果关系强度以及Xv对Xu的因果关系强度
步骤5,将视频V在其所属类别中所有成对部件下的因果关系强度进行串接,得到视频V的部件间因果关系描述子MFeat_cas(V),并将其作为中层语义表示。
步骤6,将获取的中层语义表示进行PCA降维,获取降维后的中层语义表示。
常见的降维方法有PCA、ICA、LDA,LLE和KDA等,本实例选用PCA进行降维。
步骤7,利用所有视频降维后的中层语义表示,获取行为识别的结果。
(7.1)将所有的视频分为训练集和测试集,利用训练集对应降维后的中层语义表示,来训练中层语义的SVM分类器,在训练过程中学习SVM分类器的参数,得到训练好的SVM分类器;
(7.2)将测试集对应降维后中层语义表示,输入到训练好的SVM分类器中进行测试,获取行为识别的结果。
本发明的效果可通过以下实验结果进一步说明;
用本发明在标准人体行为数据库KTH和UCF-Sports上进行行为识别实验,能够分别得到95.65%和95.33%的识别正确率,实验结果证明了本发明的有效性。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都有可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是,这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (3)

1.一种基于部件因果关系的视频行为识别方法,包括如下步骤:
(1)对所有行为视频提取稠密轨迹,获取所有轨迹点的3D坐标,并构建方向梯度直方图HOG和光流方向直方图HOF,将HOG和HOF进行串接后作为轨迹的底层特征;
(2)利用轨迹点的3D坐标,对轨迹进行k-means聚类,以获取行为部件;
(3)将行为视频V所属行为类别中的任意两个不同的行为部件表示为Xu和Xv,构成成对的部件表示(Xu,Xv),利用Xu和Xv对应轨迹的底层特征,来训练(Xu,Xv)对应的部件分类器获取行为视频V在下的判分score(V,(Xu,Xv)),其中,u,v∈[1,b]且u≠v,u表示行为部件Xu的索引,v表示行为部件Xv的索引,b为行为视频V所属行为类别中的部件个数;
(4)利用格兰杰因果关系方法,计算两个部件的因果关系比率,其中包括Xu对Xv的因果关系比率CRu,v,以及Xv对Xu的因果关系比率CRv,u,并计算视频V在成对部件(Xu,Xv)下,Xu对Xv的因果关系强度以及Xv对Xu的因果关系强度
(5)将视频V在其所属类别中,所有成对部件下的因果关系强度进行串接,得到视频V的部件间因果关系描述子MFeat_cas(V),并将其作为中层语义表示;
(6)将获取的中层语义表示进行PCA降维,获取降维后的中层语义表示;
(7)将所有行为视频分为训练集和测试集,利用训练集对应降维后的中层语义表示,训练中层语义的SVM分类器,将测试集对应降维后的中层语义表示,输入到训练好的SVM分类器中进行测试,获取行为识别的结果。
2.根据权利要求1所述的方法,其中所述步骤(2),按如下步骤进行:
(2a)对于每类视频中的任意两条轨迹Tf和Tm,其时域重叠区间为o(Tf,Tm),计算这两条轨迹Tf和Tm的空间距离为dfm
其中,Tf表示第f条轨迹,Tm表示第m条轨迹,分别表示轨迹Tf和Tm在第t帧上的坐标,avg(·)表示求取平均值,||·||2表示求取欧氏距离,f,m∈[1,B]且f≠m,B为轨迹的数目;
(2b)利用轨迹间的空间距离,对每类视频的轨迹进行k-means聚类,获取k个聚类簇,也就是k个行为部件。
3.根据权利要求1所述的方法,其中步骤(4)中利用格兰杰因果关系方法,计算两个部件的因果关系比率,按如下步骤进行:
(4a)根据格兰杰因果关系法,用pt和qt分别表示两个不同的信号;
(4b)pt的两种预测表示形式为:
只利用pt过去的样本,来预测pt的形式:
利用pt和qt两种过去的样本,共同预测pt的形式:
其中,B表示只利用pt过去的样本来预测pt时,pt过去的样本对应的预测系数矩阵;
E表示利用pt和qt过去的样本共同预测pt时,pt过去样本对应的预测系数矩阵;
R表示利用pt和qt过去的样本共同预测pt时,qt过去样本对应的预测系数矩阵;
ε1表示只利用pt过去的样本来预测pt产生的预测误差,其方差为Σ1
ε2表示利用pt和qt过去的样本共同预测pt产生的预测误差,其方差为Σ2
表示pt延时了h的m阶信号;
表示qt延时了h的m阶信号;
(4c)利用ε1的方差Σ1和ε2的方差Σ2,计算qt对pt的因果关系比率:CRq,p=trace(∑1)/trace(∑2),trace(·)表示矩阵求迹;
(4d)分别对两个不同部件Xu和Xv内的轨迹求平均,得到平均轨迹视为两个信号,利用(4a)~(4c)中的方法,分别计算的因果关系比率的因果关系比率
(4e)进一步分别计算Xu对Xv的因果关系比率CRu,v和Xv对Xu的因果关系比率CRv,u
其中,Nu和Nv分别表示部件Xu和Xv中轨迹的数目。
CN201711415788.2A 2017-12-25 2017-12-25 基于部件因果关系的视频行为识别方法 Active CN108256435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711415788.2A CN108256435B (zh) 2017-12-25 2017-12-25 基于部件因果关系的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711415788.2A CN108256435B (zh) 2017-12-25 2017-12-25 基于部件因果关系的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN108256435A CN108256435A (zh) 2018-07-06
CN108256435B true CN108256435B (zh) 2019-10-11

Family

ID=62723535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711415788.2A Active CN108256435B (zh) 2017-12-25 2017-12-25 基于部件因果关系的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN108256435B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160290A (zh) * 2015-07-03 2015-12-16 东南大学 一种基于改进型稠密轨迹的移动边界采样的行为识别方法
CN106529465A (zh) * 2016-11-07 2017-03-22 燕山大学 一种基于动量动力学模型的行人间因果关系识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990093A (zh) * 2009-08-06 2011-03-23 索尼株式会社 检测视频中的重放片段的方法和设备
US20160132728A1 (en) * 2014-11-12 2016-05-12 Nec Laboratories America, Inc. Near Online Multi-Target Tracking with Aggregated Local Flow Descriptor (ALFD)
CN107194322B (zh) * 2017-04-28 2019-08-06 南京邮电大学 一种视频监控场景中的行为分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160290A (zh) * 2015-07-03 2015-12-16 东南大学 一种基于改进型稠密轨迹的移动边界采样的行为识别方法
CN106529465A (zh) * 2016-11-07 2017-03-22 燕山大学 一种基于动量动力学模型的行人间因果关系识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Compact discriminant hierarchical clustering approach for action recognition;MingTong等;《SpringerLink》;20170418;全文 *
Action recognition new framework with robust 3D-TCCHOGAC and 3D-HOOFGAC;MingTong等;《SpringerLink》;20160127;全文 *
基于分层特征的群体行为识别;谭程午;《信息通信》;20170228(第2期);全文 *
基于动量动力学模型的行人间因果关系判别;吴格非等;《中国优秀硕士学位论文全文数据库(电子期刊)》;20161215;全文 *
基于因果复杂网络分析的小规模人群行为识别;刘春霞;《中国优秀硕士学位论文全文数据库(电子期刊)》;20140215;全文 *

Also Published As

Publication number Publication date
CN108256435A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
Rao et al. Selfie video based continuous Indian sign language recognition system
Wang et al. Hierarchical attention network for action recognition in videos
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
Amor et al. Action recognition using rate-invariant analysis of skeletal shape trajectories
Pantic et al. Dynamics of facial expression: recognition of facial actions and their temporal segments from face profile image sequences
Agrawal et al. A survey on manual and non-manual sign language recognition for isolated and continuous sign
Rao et al. Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera.
Ji et al. Learning contrastive feature distribution model for interaction recognition
CN108416288A (zh) 基于全局与局部网络融合的第一视角交互动作识别方法
Kobayashi et al. Three-way auto-correlation approach to motion recognition
CN111738218B (zh) 人体异常行为识别系统及方法
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN103902989A (zh) 基于非负矩阵分解的人体动作视频识别方法
CN103577804B (zh) 基于sift流和隐条件随机场的人群异常行为识别方法
Sheng et al. Siamese networks for weakly supervised human activity recognition
CN103336835A (zh) 基于权值color-sift特征字典的图像检索方法
Elakkiya et al. Enhanced dynamic programming approach for subunit modelling to handle segmentation and recognition ambiguities in sign language
Zhang et al. A Gaussian mixture based hidden Markov model for motion recognition with 3D vision device
CN109934852B (zh) 一种基于对象属性关系图的视频描述方法
Al-Obodi et al. A Saudi Sign Language recognition system based on convolutional neural networks
El‐Henawy et al. Action recognition using fast HOG3D of integral videos and Smith–Waterman partial matching
Pang et al. Analysis of computer vision applied in martial arts
Guo et al. Small aerial target detection using trajectory hypothesis and verification
CN108256435B (zh) 基于部件因果关系的视频行为识别方法
CN111666881A (zh) 一种大熊猫踱步、吃竹子、发情行为跟踪分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared