CN107316005B - 基于稠密轨迹核协方差描述子的行为识别方法 - Google Patents
基于稠密轨迹核协方差描述子的行为识别方法 Download PDFInfo
- Publication number
- CN107316005B CN107316005B CN201710418650.1A CN201710418650A CN107316005B CN 107316005 B CN107316005 B CN 107316005B CN 201710418650 A CN201710418650 A CN 201710418650A CN 107316005 B CN107316005 B CN 107316005B
- Authority
- CN
- China
- Prior art keywords
- matrix
- track
- kernel
- sub
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Abstract
本发明公开了一种基于稠密轨迹核协方差描述子的行为识别方法,主要解决现有技术未能考虑不同特征之间的非线性相关性,导致行为识别准确率低的问题。实现步骤是:1)提取稠密轨迹,对轨迹立方体中的每个像素点提取特征获取底层特征矩阵;2)计算底层特征矩阵的核协方差矩阵,并将其映射到欧式空间获取向量化的特征表示;3)利用轨迹立方体中所有的特征表示构建基于稠密轨迹的核协方差矩阵描述子;4)对核协方差矩阵描述子用BOW模型进行编码获取码字直方图,利用训练集的码字直方图训练SVM,将测试集的码字直方图在训练好的SVM中进行测试,获取行为识别结果。本发明进一步提高了对行为的描述能力,可用于视频监控等复杂环境中。
Description
技术领域
本发明属于视频处理技术领域,特别涉及一种行为识别方法,可用于视频监控复杂环境中对视频行为的描述。
背景技术
视频行为识别在人机交互、虚拟现实、视频监控以及视频检索和分析等领域的广泛应用,引起了越来越多研究者的兴趣,具有重要的学术研究价值和很强的实用价值。在行为识别领域,视角变化,复杂背景等因素的存在增加了行为识别的难度,在这种情况下,由于人工局部特征对视频噪声,光照变化和复杂背景等影响具有鲁棒性,已经成为一个重要的研究方向。目前最流行的人工局部特征是基于稠密轨迹提取的梯度方向直方图HOG,光流方向直方图HOF和运动边界直方图MBH描述子,在各种具有挑战的数据库中能够获得较好的性能。然而,它们忽略了特征之间的联合统计特性,这对行为识别是非常重要的,另外,虽然协方差矩阵能够获取特征之间的相关性,但在复杂环境中,特征之间存在着较为复杂的关系,而协方差仅只能度量特征之间的线性关系,对行为主体的描述能力有限。
目前已提出的获取特征之间相关性的方法有:
(1)Bilinski P,Bremond F.Video covariance matrix logarithm for humanaction recognition in videos[C]//IJCAI 2015-24th International JointConference on Artificial Intelligence(IJCAI).2015,这种方法在稠密轨迹的基础上,提出视频协方差矩阵对数(VCML)描述子,模拟不同底层静态特征之间线性关系。该方法虽然考虑到了不同特征之间的关系,但只考虑了静态特征,并未考虑行为主体的动态特征,导致行为识别的准确率低。
(2)Yi Y,Wang H.Motion keypoint trajectory and covariance descriptorfor human action recognition[J].The Visual Computer,2017:1-13,这种方法在运动关键点轨迹的基础上构建了一个基于轨迹的协方差描述子,可以表示不同运动变量之间的线性关系,然而,该方法忽略了特征之间的非线性关系,无法在具有复杂环境的行为识别中获取特征之间存在的复杂关系。
发明内容
本发明目的是针对上述已有技术的不足,提出一种基于稠密轨迹核协方差描述子的行为识别方法,通过获取不同特征之间的非线性联合统计特性,增强对视频行为的描述能力,进一步提高行为识别的准确率。
实现本发明的技术关键是对底层特征矩阵求取核协方差矩阵,有效模拟各个特征之间的非线性关系,以构造基于稠密轨迹的核协方差矩阵描述子KCMDT,实现步骤包括如下:
(1)对视频序列提取长度为L的稠密轨迹,在每一帧中以每一个运动轨迹点为中心选取W×H大小的图像块,得到大小为W×H×L的随轨迹弯曲的轨迹立方体;
(2)对轨迹立方体中的每一个像素点,提取静态和动态特征,获取维数为d的底层特征向量;
(3)将轨迹立方体中视频帧t对应的空间区域表示为Rt,利用Rt中每个像素的底层特征向量,构建底层特征矩阵其中,F(s,t)表示Rt中第s个像素的底层特征向量,s∈[1,n],n表示Rt中像素点的个数;
(4)利用对Rt构建的底层特征矩阵Mt计算核矩阵K[Mt,h],其中,h表示特征空间的正交基;
(5)利用核矩阵K[Mt,h]求取核协方差矩阵Ct *,并将Ct *投影到欧式空间,获取Rt的向量化特征表示Qt;
(6)将轨迹立方体分为轨迹子块,利用每个子块中所有Qt的平均矢量作为子块的描述子,将所有子块的描述子进行串接,获取基于稠密轨迹的核协方差矩阵描述子KCMDT;
(7)将所有视频的核协方差矩阵描述子KCMDT分为训练集VFtr和测试集VFte,采用BOW方法进行编码,得到训练集的码字直方图VHtr和测试集的码字直方图VHte;
(8)利用训练集的码字直方图VHtr训练SVM分类模型,将测试集的码字直方图VHte输入到训练好的SVM分类模型中进行测试,获取行为识别结果。
本发明与现有技术相比具有以下优点:
本发明由于通过计算静态和动态底层特征之间的核协方差矩阵,构造了KCMDT描述子,因而能够获取底层特征之间的非线性相关性,从而进一步提高了对复杂环境中视频行为的描述能力,最终,提高了行为识别的准确率。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图对本发明的实施作进一步详细描述。
参照图1,本发明的基于稠密轨迹核协方差描述子的行为识别步骤如下:
步骤1,对视频序列提取稠密轨迹,获取随轨迹弯曲的轨迹立方体。
(1.1)对视频序列进行稠密采样,以获取特征点;
(1.2)对获取的特征点在随后的视频帧中进行跟踪,获取长度为L=15的稠密轨迹;
(1.3)在每条轨迹中,以轨迹上的每个轨迹点为中心选取W×H大小的图像块,得到大小为W×H×L的随轨迹弯曲的轨迹立方体,W=32,H=32;
本实例使用Wang H等人于2011年在Computer Vision and Pattern Recognition上发表的Action recognition by dense trajectories一文中的方法来提取稠密轨迹。
步骤2,对轨迹立方体中的每一个像素点获取维数为d的底层特征向量。
由于单独的静态特征或者动态特征无法对行为进行完整和全面的描述,因此,需要将静态和动态特征进行结合以获取底层特征向量,具体步骤如下:
(2.1)对轨迹立方体中的每个点,获取其空间位置信息,RGB颜色信息,并利用一维Sobel算子[-1,0,1]计算像素点I在x和y方向的梯度Ix和Iy:
由于空间梯度能够描述行为的外观信息,故可将每个像素点的空间位置信息、RGB颜色信息和Ix、Iy梯度作为底层静态特征;
(2.3)结合底层静态和动态特征,将轨迹立方体中的每个像素点用d=13维的底层特征向量F来表示:
其中,X和Y表示空间位置;R,G,B分别表示红,绿,蓝三个通道的颜色信息;Ix和Iy为x和y方向的梯度,和arctan(Iy/Ix)分别表示梯度的幅值和方向角;vx和vy为x和y方向的光流,和arctan(vy/vx)分别表示光流的幅值和方向角。
步骤3,将轨迹立方体中视频帧t对应的空间区域表示为Rt,对Rt中每个像素利用步骤2中的方法获取底层特征向量,构建底层特征矩阵:
其中,F(s,t)表示Rt中第s个像素的底层特征向量,n表示Rt中像素点的个数,n=W×H,d为底层特征的维数。
步骤4,利用底层特征矩阵计算核矩阵K[Mt,h]。
在提取底层静态和动态特征后,虽然对行为的描述更加准确,但是没有考虑特征之间存在的非线性关系,对底层特征矩阵求取核协方差矩阵能够对特征之间的非线性关系进行描述,而求取核协方差矩阵需要首先计算核矩阵,具体步骤如下:
(4.1)通过如下公式计算核矩阵中第o行s列的元素值Kos[Mt,h]:
Kos[Mt,h]=k(F(s,t),ho),
其中,h为特征空间的正交基,ho为正交基中第o个向量,o∈[1,d],k(F(s,t),ho)为核函数,该核函数可采用多项式核函数、高斯核函数、拉普拉斯核函数和幂指数核函数中的任意一种,本实例选取高斯核函数,但不限于此核函数;
(4.2)将d行n列中共d×n个元素值全部计算出来,构成核矩阵K[Mt,h]。
步骤5,利用核矩阵求取核协方差矩阵Ct *,并将Ct *投影到欧式空间,获取Rt的向量化特征表示Qt。
对于协方差矩阵,通常有两种经典的距离度量方式:affine-invariant黎曼度量方式和Log-Euclidean黎曼度量方式,这两种度量方式有着相似的性能表现,但是Log-Euclidean度量方式比affine-invariant度量方式更加简单并且有效,因此,本实例选取Log-Euclidean度量方式将核协方差矩阵投影到欧式空间,以方便进一步对基于核协方差矩阵的描述子进行编码,步骤如下:
(5.1)利用以下公式求取核协方差矩阵Ct *:
Ct *=K[Mt,h]*P*(K[Mt,h])T,
其中,(·)T表示转置,P为一个n×n的对称矩阵,P中第i行第j列的元素Pij通过如下公式计算:
其中,i∈[1,n],j∈[1,n],*表示矩阵相乘;
(5.2)对核协方差矩阵Ct *进行奇异值分解,获取左奇异矩阵U,右奇异矩阵V和由奇异值构成的对角矩阵Σ=diag(λ1,λ2,...,λg,...,λd),其中,λg是Ct *的第g个奇异值,g∈[1,d],diag(·)表示构成对角矩阵,利用以下公式计算矩阵对数
步骤6,获取轨迹子块,利用每个子块中所有的Qt计算轨迹子块的描述子,将所有轨迹子块的描述子进行串接获取基于稠密轨迹的核协方差矩阵描述子KCMDT。
(6.1)轨迹立方体的大小为W×H×L,将其进行均分,获取m个大小为W×H×l的轨迹子块,为了使每个子块均有一个紧凑的表示,将子块中所有Qt的平均矢量作为子块的描述子:
其中,l为轨迹子块的帧长度,l=5,m=L/l;
(6.2)将m个轨迹子块的描述子串接,得到基于稠密轨迹的核协方差矩阵描述子KCMDT,用向量DKCMDT来表示:
步骤7,利用BOW模型对基于稠密轨迹的核协方差矩阵描述子KCMDT进行编码,获取码字直方图。
将所有视频的核协方差矩阵描述子KCMDT分为训练集VFtr和测试集VFte,采用K-means聚类算法对训练集VFtr进行聚类,得到包含K个码字的码书,K=1000,将训练集VFtr和测试集VFte分别映射到码书中,得到训练集的码字直方图VHtr和测试集的码字直方图VHte。
步骤8,利用训练集的码字直方图VHtr训练线性SVM分类模型,将测试集的码字直方图VHte输入到训练好的线性SVM分类模型中进行测试,获取行为识别结果。
本发明的效果可通过以下实验结果进一步说明;
用本发明对较为复杂的标准人体行为数据库UCF-Sports进行行为识别实验,得到94.67%的识别正确率,实验结果证明了本发明的有效性。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都有可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是,这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (4)
1.一种基于稠密轨迹核协方差描述子的行为识别方法,包括:
(1)对视频序列提取长度为L的稠密轨迹,在每一帧中以每一个运动轨迹点为中心选取W×H大小的图像块,得到大小为W×H×L的随轨迹弯曲的轨迹立方体;
(2)对轨迹立方体中的每一个像素点,提取静态和动态特征,获取维数为d的底层特征向量;
(3)将轨迹立方体中视频帧t对应的空间区域表示为Rt,利用Rt中每个像素的底层特征向量,构建底层特征矩阵其中,F(s,t)表示Rt中第s个像素的底层特征向量,s∈[1,n],n表示Rt中像素点的个数;
(4)利用对Rt构建的底层特征矩阵Mt计算核矩阵K[Mt,h],按如下步骤进行:
(4a)计算核矩阵中第o行s列的元素值Kos[Mt,h]:
Kos[Mt,h]=k(F(s,t),ho)
其中,h表示特征空间的正交基,ho为正交基中第o个向量,o∈[1,d],k(F(s,t),ho)为高斯核函数;
(4b)将d行n列中共d×n个元素值全部计算出来,构成核矩阵K[Mt,h];
(5)利用核矩阵K[Mt,h]求取核协方差矩阵Ct *,并将Ct *投影到欧式空间,获取Rt的向量化特征表示Qt;
(6)将轨迹立方体分为轨迹子块,利用每个子块中所有Qt的平均矢量作为子块的描述子,将所有子块的描述子进行串接,获取基于稠密轨迹的核协方差矩阵描述子KCMDT;
(7)将所有视频的核协方差矩阵描述子KCMDT分为训练集VFtr和测试集VFte,采用BOW方法进行编码,得到训练集的码字直方图VHtr和测试集的码字直方图VHte;
(8)利用训练集的码字直方图VHtr训练SVM分类模型,将测试集的码字直方图VHte输入到训练好的SVM分类模型中进行测试,获取行为识别结果。
2.根据权利要求1所述的方法,其中步骤(2)中对轨迹立方体中的每一个像素点,提取静态和动态特征,获取维数为d的底层特征向量,按如下步骤进行:
(2a)对轨迹立方体中的每个像素点,获取其空间位置信息和RGB颜色信息,并利用一维Sobel算子[-1,0,1]计算像素点I在x和y方向的梯度Ix和Iy:
(2b)将每个像素点的空间位置信息,RGB颜色信息和梯度Ix和Iy作为底层静态特征;
(2d)将轨迹立方体中每个像素点获取的底层静态特征和底层动态特征进行结合,得到d维的底层特征向量F:
3.根据权利要求1所述的方法,其中步骤(5)中利用核矩阵K[Mt,h]求取核协方差矩阵Ct *,并将Ct *投影到欧式空间,获取Rt的向量化特征表示Qt,按如下步骤进行:
(5a)利用以下公式求取核协方差矩阵Ct *:
Ct *=K[Mt,h]*P*(K[Mt,h])T,
其中,K[Mt,h]为d×n的核矩阵,(·)T表示转置,P为一个n×n的对称矩阵,P中第i行第j列的元素Pij计算式如下:
其中,i∈[1,n],j∈[1,n],*表示矩阵相乘;
(5b)对核协方差矩阵Ct *进行奇异值分解,获取左奇异矩阵U,右奇异矩阵V和由奇异值构成的对角矩阵Σ=diag(λ1,λ2,...,λg,...,λd),其中,λg是Ct *的第g个奇异值,g∈[1,d],diag(·)表示构成对角矩阵,利用以下公式计算矩阵对数
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710418650.1A CN107316005B (zh) | 2017-06-06 | 2017-06-06 | 基于稠密轨迹核协方差描述子的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710418650.1A CN107316005B (zh) | 2017-06-06 | 2017-06-06 | 基于稠密轨迹核协方差描述子的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107316005A CN107316005A (zh) | 2017-11-03 |
CN107316005B true CN107316005B (zh) | 2020-04-14 |
Family
ID=60182271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710418650.1A Active CN107316005B (zh) | 2017-06-06 | 2017-06-06 | 基于稠密轨迹核协方差描述子的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107316005B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280465A (zh) * | 2017-12-25 | 2018-07-13 | 西安电子科技大学 | 基于层次聚类的判别性部件挖掘行为识别方法 |
CN108399435B (zh) * | 2018-03-21 | 2020-09-25 | 南京邮电大学 | 一种基于动静特征的视频分类方法 |
CN109711244A (zh) * | 2018-11-05 | 2019-05-03 | 天津大学 | 一种基于协方差描述符的人类行为识别方法 |
CN110074779A (zh) * | 2019-04-17 | 2019-08-02 | 中科创达(重庆)汽车科技有限公司 | 一种脑电信号识别方法及装置 |
CN110443288B (zh) * | 2019-07-19 | 2021-09-28 | 浙江大学城市学院 | 一种基于排序学习的轨迹相似性计算方法 |
CN111786951B (zh) * | 2020-05-28 | 2022-08-26 | 东方红卫星移动通信有限公司 | 流量数据特征提取方法、恶意流量识别方法及网络系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761737A (zh) * | 2014-01-22 | 2014-04-30 | 北京工业大学 | 基于稠密光流的机器人运动估计方法 |
CN103902966A (zh) * | 2012-12-28 | 2014-07-02 | 北京大学 | 基于序列时空立方体特征的视频交互事件分析方法及装置 |
CN106778854A (zh) * | 2016-12-07 | 2017-05-31 | 西安电子科技大学 | 基于轨迹和卷积神经网络特征提取的行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10055674B2 (en) * | 2015-03-20 | 2018-08-21 | Texas Instruments Incorporated | Confidence estimation for optical flow |
-
2017
- 2017-06-06 CN CN201710418650.1A patent/CN107316005B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902966A (zh) * | 2012-12-28 | 2014-07-02 | 北京大学 | 基于序列时空立方体特征的视频交互事件分析方法及装置 |
CN103761737A (zh) * | 2014-01-22 | 2014-04-30 | 北京工业大学 | 基于稠密光流的机器人运动估计方法 |
CN106778854A (zh) * | 2016-12-07 | 2017-05-31 | 西安电子科技大学 | 基于轨迹和卷积神经网络特征提取的行为识别方法 |
Non-Patent Citations (2)
Title |
---|
Action recognition new framework with robust 3D-TCCHOGAC and 3D-HOOFGAC;Ming Tong.etc;《Multimed Tools Appl》;20160127;第3011-3030页 * |
一种3DHOGTCC和3DHOOFG的行为识别新框架;同鸣等;《计算机研究与发展》;20151231;第2802-2812页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107316005A (zh) | 2017-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316005B (zh) | 基于稠密轨迹核协方差描述子的行为识别方法 | |
Zhang et al. | Robust structural sparse tracking | |
Chen et al. | Unconstrained face verification using deep cnn features | |
Zhang et al. | Chinese sign language recognition with adaptive HMM | |
Bilinski et al. | Human violence recognition and detection in surveillance videos | |
Wang et al. | Dense trajectories and motion boundary descriptors for action recognition | |
Zhu et al. | Sparse coding on local spatial-temporal volumes for human action recognition | |
Cao et al. | Action recognition with joints-pooled 3d deep convolutional descriptors. | |
Tabia et al. | Compact vectors of locally aggregated tensors for 3D shape retrieval | |
CN107194366B (zh) | 基于稠密轨迹协方差描述子的行为识别方法 | |
Li et al. | Local log-euclidean covariance matrix (l 2 ecm) for image representation and its applications | |
Narayan et al. | A cause and effect analysis of motion trajectories for modeling actions | |
CN108509925B (zh) | 一种基于视觉词袋模型的行人重识别方法 | |
CN107862680B (zh) | 一种基于相关滤波器的目标跟踪优化方法 | |
Gao et al. | Human action recognition via multi-modality information | |
Hsu et al. | Online view-invariant human action recognition using rgb-d spatio-temporal matrix | |
Gupta et al. | Exploring person context and local scene context for object detection | |
CN105868711B (zh) | 一种基于稀疏低秩的人体行为识别方法 | |
Li et al. | Codemaps-segment, classify and search objects locally | |
Vainstein et al. | Modeling video activity with dynamic phrases and its application to action recognition in tennis videos | |
El‐Henawy et al. | Action recognition using fast HOG3D of integral videos and Smith–Waterman partial matching | |
Umakanthan et al. | Spatio temporal feature evaluation for action recognition | |
Riemenschneider et al. | Bag of Optical Flow Volumes for Image Sequence Recognition. | |
Shehata et al. | Does my gait look nice? human perception-based gait relative attribute estimation using dense trajectory analysis | |
CN111414958A (zh) | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |