CN107122780B - 基于时空特征点的互信息与时空分布熵的行为识别方法 - Google Patents

基于时空特征点的互信息与时空分布熵的行为识别方法 Download PDF

Info

Publication number
CN107122780B
CN107122780B CN201710116534.4A CN201710116534A CN107122780B CN 107122780 B CN107122780 B CN 107122780B CN 201710116534 A CN201710116534 A CN 201710116534A CN 107122780 B CN107122780 B CN 107122780B
Authority
CN
China
Prior art keywords
space
time
feature points
spatio
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710116534.4A
Other languages
English (en)
Other versions
CN107122780A (zh
Inventor
王传旭
杨建滨
刘继超
胡国锋
孙海峰
崔雪红
李辉
刘云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Litong Information Technology Co ltd
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN201710116534.4A priority Critical patent/CN107122780B/zh
Publication of CN107122780A publication Critical patent/CN107122780A/zh
Application granted granted Critical
Publication of CN107122780B publication Critical patent/CN107122780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于时空特征点的互信息与时空分布熵的行为识别方法,其包括以下步骤:提取视频流时空中有效的时空特征点并构建描述符;对所有STIPs描述符进行聚类,将每个聚类中心作为视觉词典中的一个视觉单词;对得到视觉词典中的视觉单词两两之间的时空关系进行描述生成视觉词典共生矩阵;对每个视觉单词内的时空特征点的时空分布进行描述生成环形特征点直方图与时空分布熵;融合视觉单词、时空特征点共生矩阵、环形时空特征点直方图与时空分布熵三种信息作为一个视频序列的描述符,利用支持向量机SVM进行行为分类识别。该方案克服传统BOVW忽略了特征点之间的时空信息的缺点,兼顾了STIPs的全局时空信息与局部空间分布。

Description

基于时空特征点的互信息与时空分布熵的行为识别方法
技术领域
本发明计算机视觉技术领域,特别是指一种基于时空特征点的互信息与时空分布熵的行为识别方法。
背景技术
行为识别最常用的方法就是从视频中提取能够有效描述人体运动的底层特征,以及从底层特征中学习不同的行为模式对人体行为进行分类识别,然而人体行为复杂多样并且缺少明确的分类模式,目前还没有一种通用的描述模型,传统的研究都是基于时空特征点的BOVW(Bag of visual words)模型,即对视频序列中提取的时空特征点进行量化处理,统计BOVW直方图作为视频的描述符进行行为识别,该方法的缺点是忽略了时空特征点的时空分布信息,而事实证明了时空特征点的空间分布对行为识别起着至关重要的作用。
为了描述时空特征点的时空分布信息,有人提出了时空金字塔模型,即对视频序列进行分块处理,统计每一个视频块的BOVW直方图,然后把所有的 BOVW直方图进行级联,作为该视频序列中的描述符。该方法的缺点很明显,这样大大增加了描述符的维度,降低了分类的精度与实时性的要求。后来一些学者一些时空特征点空间分布的建模方法,如时空上下文、3D R变换、费舍尔向量等,但这些方法过于复杂,并没有得到广泛的应用。因此,能够更好地提取视频低层特征进行建模用于行为识别一直是研究的难点。
发明内容
为了解决以上现有技术存在的缺陷,本发明提出一种基于时空特征点的互信息与时空分布熵的行为识别方法,在BOVW(Bag of visual words)和 STIPs(Spatio-TemporalInterest Points)的基础上,提出基于三维视觉单词共生矩阵的特征点互信息与基于环形时空特征点直方图的时空分布熵对时空特征点的共生关系与空间结构进行建模,克服传统BOVW忽略了特征点之间的空间信息的缺点,与其他时空特征建模算法相比,该方法兼顾了STIPs的全局时空信息与局部空间分布。
本发明的技术方案是这样实现的:
一种基于时空特征点的互信息与时空分布熵的行为识别方法,其包括以下步骤:
S1)提取视频流时空中有效的时空特征点STIPs(STIPs:Spatial TemporalInteresting Points)并构建描述符;
S2)对提取的所有STIPs描述符进行聚类,将每个聚类中心作为视觉词典中的一个视觉单词,进而生成BOVW;
S3)对步骤S2)得到视觉词典中的视觉单词两两之间的时空关系进行描述生成视觉词典共生矩阵,进而得到不同单词间的时空特征点互信息;
S4)对每个视觉单词的STIPs的时空分布进行描述生成环形时空特征点直方图,进而得到时空特征点的时空分布熵;
S5)融合BOVW直方图、时空特征点互信息、时空分布熵三种信息作为一个视频序列的描述符,利用支持向量机SVM(Support Vector Machine)进行行为分类识别。
上述技术方案中,步骤S1)具体包括以下步骤:
S11)计算视频流时空中每个像素点的二维空间高斯和一维时间Gabor小波函数相应值来确定时空特征点,具体如下:
若某点响应函数值为局部极大值且大于某一阈值,则认为该极值点为时空特征点STIPs,所采用的响应函数为R=(S*g*hev)2+(S*g*hod)2
其中,S为视频序列,g(x,y,σ)为二维空间高斯平滑滤波器,hev和hod为一维Gabor时域滤波器,定义分别为:
Figure RE-GDA0003901850190000021
Figure RE-GDA0003901850190000022
σ和τ分别为空域和时域尺度,ω=4/τ,*为卷积运算符;
S12)构建时空特征点描述符:将步骤S11)提取的时空特征点结合特征点周围的时空信息进行描述,构建出时空特征点描述符。
上述技术方案中,步骤S12)优选采用HOG3D梯度直方图方法构建描述符。
上述技术方案中,为克服背景光照变化等因素并保证特征点数量,步骤S11) 中通常将阈值设定为大于2e-4。
上述技术方案中,步骤S2)采用K-means均值聚类方法对所有提取的STIPs 的描述符进行聚类。
上述技术方案中,步骤S3)具体包括以下步骤:
S31)设视频序列S中的时空特征点集合V通过BOVW模型W量化为n 类,分别为w1,w2...,wn,这里
Figure RE-GDA0003901850190000031
对于S中的任意两个时空特征点 pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词;否则,表示两种不同的单词;且(xi,yi,ti)表示时空特征点pi的三维时空坐标;
S32)定义时空特征点共生矩阵(STIPsCM:Spatial Temporal InterestingPoints Co-occurrence Matrix)为:
任意两个不同的单词wi,wj
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)};
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
Figure RE-GDA0003901850190000032
S33)计算指定单词wi的出现为其它单词的时空特征点出现提供的信息量,即:
Figure RE-GDA0003901850190000033
Figure RE-GDA0003901850190000034
Figure RE-GDA0003901850190000035
即为特征点共生矩阵中对应元素的归一化;
S34)统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,得到wi与所有其它单词特征点的平均互信息,即:
Figure RE-GDA0003901850190000041
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征。
上述技术方案中,步骤S4)具体包括以下步骤:
S41)设视频序列S中的时空特征点集合V经过BOVW模型W量化为n 种,分别为w1,w2...,wn,这里
Figure RE-GDA0003901850190000042
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),xi,yi和ti定义为:
Figure RE-GDA0003901850190000043
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
Figure RE-GDA0003901850190000044
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形,由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,作为Ai的一个分割;
设|Aij|表示环形区间j内隶属单词wi的特征点个数,由(|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|) 构成视频序列S单词为wi的时空特征点的环形直方图;
S42)采用特征点的时空分布熵来描述特征点的空间分布特征,时空特征点的时空分布熵的定义为:
Figure RE-GDA0003901850190000045
与现有技术相比较,本发明的技术方案有以下不同:
1、提出三维时空特征点共生矩阵算法,将三维时空特征点信息转换为二维矩阵来表示。
2、采用平均互信息算法刻画不同单词内的特征点之间的相互依赖关系,同时避免了PCA或者2DPCA降维丧失描述符稀疏性的问题。
3、本文提出环形时空特征点直方图与时空分布熵的概念来描述一个单词内时空特征点的全局时空分布。
针对BOVW与时空金字塔模型在行为识别问题中的局限性,本发明提出了一种基于时空特征点的互信息与时空分布熵的行为识别方法。时空特征点互信息刻画了时空特征点较小邻域内局部特征的相关信息,时空分布熵描述了时空特征点全局的分布信息,增强了时空特征点的行为鉴别能力。同时,由于归一化后的环形特征点直方图满足平移、旋转和尺度不变性,因此特征点的时空分布熵也满足平移、旋转和尺度不变性,克服了时空金字塔法对角度与平移的变化比较敏感,鲁棒性差的缺点,且算法简洁。实验结果表明,本文提出的时空特征描述算法在行为识别准确率上优于基于时空金字塔模型的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一段视频序列建模的流程示意图;
图2为借助位置算子计算共生矩阵的示意图;
图3为两个单词间的时空特征点共生矩阵示意图;
图4为参数r对描述符性能的影响;
图5为参数N对描述符性能的影响;
图6为十种描述符在KTH数据集的识别精度比较;
图7为十种描述符在UCF数据集的识别精度比较。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于时空特征点的互信息与时空分布熵的行为识别方法,其包括以下步骤:
S1)提取视频流时空中有效的时空特征点STIPs并构建描述符;
S2)对提取的所有STIPs描述符进行聚类,将每个聚类中心作为视觉词典中的一个视觉单词,进而生成BOVW;
S3)对步骤S2)得到视觉词典中的视觉单词两两之间的时空关系进行描述生成视觉词典共生矩阵,进而得到不同单词间的时空特征点互信息;
S4)对每个视觉单词的STIPs的时空分布进行描述生成环形时空特征点直方图,进而得到时空特征点的时空分布熵;
S5) 融合 BOVW 直方图、时空特征点互信息、时空分布熵三种信息作为一个视频序列的描述符 ,利用支持向量机SVM(Support Vector Machine)进行行为分类识别。
上述技术方案中,步骤S1)具体包括以下步骤:
S11)计算视频流时空中每个像素点的二维空间高斯和一维时间Gabor小波函数相应值来确定时空特征点,具体如下:
若某点响应函数值为局部极大值且大于某一阈值,则认为该极值点为时空特征点STIPs,所采用的响应函数为R=(S*g*hev)2+(S*g*hod)2
其中,S为视频序列,g(x,y,σ)为二维空间高斯平滑滤波器,hev和hod为一维Gabor时域滤波器,定义分别为:
Figure RE-GDA0003901850190000061
Figure RE-GDA0003901850190000062
σ和τ分别为空域和时域尺度,ω=4/τ,*为卷积运算符;
S12)构建时空特征点描述符:将步骤S11)提取的时空特征点结合特征点周围的时空信息进行描述,构建出时空特征点描述符。
上述技术方案中,步骤S12)优选采用HOG3D梯度直方图方法构建描述符。
上述技术方案中,为克服背景光照变化等因素并保证特征点数量,步骤S11) 中通常将阈值设定为大于2e-4。
上述技术方案中,步骤S2)采用K-means均值聚类方法对所有提取的STIPs 的描述符进行聚类。
上述技术方案中,步骤S3)具体包括以下步骤:
S31)设视频序列S中的时空特征点集合V通过BOVW模型W量化为n 类,分别为w1,w2...,wn,这里
Figure RE-GDA0003901850190000071
对于s中的任意两个时空特征点 pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词;否则,表示两种不同的单词;且(xi,yi,ti)表示时空特征点pi的三维时空坐标;
S32)定义时空特征点共生矩阵(STIPsCM:Spatial Temporal InterestingPoints Co-occurrence Matrix)为:
任意两个不同的单词wi,wj
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)};
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
Figure RE-GDA0003901850190000072
S33)计算指定单词wi的出现为其它单词的时空特征点出现提供的信息量,即:
Figure RE-GDA0003901850190000073
Figure RE-GDA0003901850190000081
Figure RE-GDA0003901850190000082
即为特征点共生矩阵中对应元素的归一化;
S34)统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,得到wi与所有其它单词特征点的平均互信息,即:
Figure RE-GDA0003901850190000083
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征。
上述技术方案中,步骤S4)具体包括以下步骤:
S41)设视频序列S中的时空特征点集合V经过BOVW模型W量化为n 种,分别为w1,w2...,wn,这里
Figure RE-GDA0003901850190000084
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),xi,yi和ti定义为:
Figure RE-GDA0003901850190000085
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
Figure RE-GDA0003901850190000086
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形;由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,作为Ai的一个分割;
设|Aij|表示环形区间j内隶属单词wi的特征点个数,由(|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|) 构成视频序列S单词为wi的时空特征点的环形直方图;
S42)采用特征点的时空分布熵来描述特征点的空间分布特征,时空特征点的时空分布熵的定义为:
Figure RE-GDA0003901850190000091
为了更好地介绍本发明的技术方案,以下通过对本案涉及到的有关技术做详细介绍,并逐步解释本案方法中的视觉词典共生矩阵、时空特征点互信息、环形特征点直方图与时空分布熵概念。
在图像纹理的统计描述中,为利用空间信息可借助位置算子以计算共生矩阵。
设W为一个位置算子,A是一个k×k矩阵,其中每一个元素aij为具有灰度值gj的点相对于由W确定的具有灰度值gj的点出现的次数。
如图2所示的借助位置算子计算共生矩阵的例子中:(a)为有三个灰度级的图像(g1=0,g2=1,g3=2),定义W为“向下一个元素和向右一个元素”的位置关系,得到的矩阵如(b)所示。
如果设满足W的像素对的总个数为N,则将A的每一个元素都除以N就可以得到满足W关系的像素对出现概率的估计,并得到响应的共生矩阵。
Yi Yang等将灰度共生矩阵扩展到图像中的特征点中,给定一个图像包含n 个视觉单词wi W在像素位置(Xi,Yi)和位置算子W,定义的视觉词袋共生矩阵(vwcm)为:
VWCMp(u,v)=||(ci,cj)|(ci=u)∧(cj=v)∧(W)||;
其中,
Figure RE-GDA0003901850190000092
在空间共生矩阵的启发下,本发明扩展了图像中的二维特征点共生矩阵的概念,并将其应用到行为识别任务中。
时空特征点共生矩阵主要获取不同视觉单词之间的特征点时空相关性信息。
设视频序列S中的时空特征点集合V通过BOVW模型W量化为n类,分别为w1,w2...,wn,这里
Figure DA00039018501932234282
对于s中的任意两个时空特征点 pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词,否则,表示两种不同的单词;另外,(xi,yi,ti)表示时空特征点pi的三维时空坐标,定义时空特征点共生矩阵为:
任意两个不同的单词wi,wj
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)};
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
Figure RE-GDA0003901850190000102
在给定距离r内,获得的不同时空特征点的共生矩阵为一个n×n的矩阵,表示如图3所示。
其中第i行的数据CM(wi,w1),CM(wi,w2),...CM(wi,wn)表示的是以单词wi内的每个时空特征点pm为球心,r为半径的区域内,统计各种词袋的特征点分别出现在这些球内区域的频数之和,对每一行进行归一化处理,得到各种特征点对出现的频率。
虽然时空特征点共生矩阵可以表示特征点之间的时空分布情况,但是共生矩阵维数达到了n×n,一方面计算量巨大,另一方面也占用存储空间。因此在时空特征点共生矩阵的基础上,本发明提出时空特征点互信息的概念,不仅将特征矢量维数减少到n,而且保持了不同特征点之间的时空信息。
互信息概念最早出现于信息论,表示一个事件Y的发生为另一个事件X发生提供的信息量,定义为:
Figure RE-GDA0003901850190000103
时空特征点共生矩阵表示的是每一个特征点对之间的时空分布情况,共生矩阵中每一行元素代表某单词内所有特征点与其他各单词特征点配对出现的频率。本发明定义时空特征点互信息的概念为:指定单词的特征点的出现为其它单词的时空特征点出现提供的信息量,即:
Figure RE-GDA0003901850190000111
Figure RE-GDA0003901850190000112
Figure RE-GDA0003901850190000113
即为特征点共生矩阵中对应元素的归一化。本发明统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,则得到了wi与所有其它单词特征点的平均互信息,即:
Figure RE-GDA0003901850190000114
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征。以图3所示的n×n时空特征点共生矩阵为例,通过上述变换后,每一个时空特征点共生矩阵都可以提取出一条n维的特征点互信息特征矢量。
在环形颜色直方图与空间分布熵的启发下,本发明提出环形时空特征点直方图与时空分布熵的概念来描述某一词袋内部所含时空特征点的时空分布。
同样设视频序列S中的时空特征点集合V经过BOVW模型W量化为n种,分别为w1,w2...,wn,这里
Figure RE-GDA0003901850190000115
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),则xi,yi和ti定义为
Figure RE-GDA0003901850190000116
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
Figure RE-GDA0003901850190000121
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形。那么由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,本发明称Ai1,Ai2,Ai3,Ai4.....AiN为的Ai一个分割。设|Aij|表示环形区间j内隶属单词wi的特征点个数,则 (|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|)就构成视频序列S单词为wi的时空特征点的环形直方图。由于质心Oi具有平移和旋转不变性,所以求取的环形直方图同样具有平移和旋转不变性。
通过上述处理,V中的每一种特征点均有一个环形的直方图。若直接采用环形直方图,由于每一种特征点均对应一个环形直方图,因此这将大大增加存储这些特征所需的空间。为此,我们采用熵的特性,提出采用特征点的时空分布熵来描述特征点的空间分布特征。时空特征点的时空分布熵的定义为:
Figure RE-GDA0003901850190000122
时空分布熵反映了时空特征点在V中平均分散程度,特征点时空分布熵越大,表明该特征点在V中的分布越分散,否则,该特征点在V空间中的分布越集中。因此,采用时空分布熵可有效地表征特征点的时空分布特征,特征的维数也将大大降低。同时,由于归一化后的环形特征点直方图满足平移、旋转和尺度不变性,因此特征点的时空分布熵也满足平移、旋转和尺度不变性。
本发明的识别方法可采用KTH与UCF sports行为数据集进行测试与验证,统一采用留一验证法(LOOCV)。该算法的主要参数包括时域尺度τ、空间尺度σ、BOVW的个数n、环形直方图的维数N以及位置算子的尺度r。
1、在KTH数据集上的实验结果
KTH数据集是行为识别领域识别最为广泛的行为数据集,由6种行为组成。每种视频数据采集自25个人在4种不同场景下的行为。根据前人的工作以及先验知识,设空间尺度σ=1.5,时域尺度τ=1.5,BOVW的个数为500。首先,测试参数r、N对描述符性能的影响。由图3和图4可知,当参数r、N达到一定的水平时,时空特征点互信息与时空分布熵描述符模型性能达到饱和。
然后,分别测试BOVW、时空特征点互信息(STPsCM)、时空分布熵(STE) 三种描述符以及BOVW与STPsCM、STE组合在KTH与UCF sports数据集的识别精度。
为了验证特征融合的有效性,三种描述符分别与自身进行级联,形式如 (BOVW+BOVW)、(STPsCM+STPsCM)、(STE+STE),由图6表格可知这三种描述符的识别精度并没有明显提高,证明了时空特征点互信息、时空分布熵描述符与BOVW描述符具有互补性,显著提高了识别精度。
三种描述符融合形成的描述符的识别精度最达到96.17%。由于jog和run 两种行为本身具有较大的相似性,容易产生一定的混淆,识别精度相对较低,其他4种行为基本可以能够准确识别。
2、在UCF数据集上的实验结果
UCF数据集包括150个视频序列,由10种行为组成。该数据集取景广泛,已被广泛用于许多研究,如:动作识别、动作定位与显着性检测。在UCF sports 数据库上采用与KTH数据集相同的实验方法。根据前人的工作以及先验知识,设空间尺度σ=2,时域尺度τ=2.5,BOVW的个数为800。实验结果如图7表格所示,最高识别精度为87.33%。
由于时空分布熵刻画了时空特征点的整体空间分布,对存在多个行为的视频序列,时空分布熵的识别精度反而有所下降,在UCF sports数据集的识别精度仅有72%。而特征点互信息描述的是特征点的局部空间信息,在单人与多人的视频序列中都有较高识别精度。
与现有技术相比较,本发明的技术方案有以下不同:
1、提出三维时空特征点共生矩阵算法,将三维时空特征点信息转换为二维矩阵来表示。
2、采用平均互信息算法刻画不同单词间的特征点之间的相互依赖关系,同时比避免了PCA或者2DPCA降维丧失描述符稀疏性的问题。
3、本发明提出环形时空特征点直方图与时空分布熵的概念来描述一个单词内部的时空特征点的全局时空分布。
针对BOVW与时空金字塔模型在行为识别问题中的局限性,本发明提出了一种基于时空特征点的互信息与时空分布熵的行为识别方法。时空特征点互信息刻画了时空特征点较小邻域内局部特征的相关信息,时空分布熵描述了时空特征点全局的分布信息,增强了时空特征点的行为鉴别能力。同时,由于归一化后的环形特征点直方图满足平移、旋转和尺度不变性,因此特征点的时空分布熵也满足平移、旋转和尺度不变性,克服了时空金字塔法对角度与平移的变化比较敏感,鲁棒性差的缺点,且算法简洁。实验结果表明,本文提出的时空特征描述算法在行为识别准确率上优于基于时空金字塔模型的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于时空特征点的互信息与时空分布熵的行为识别方法,其特征在于,包括以下步骤:
S1)提取视频流时空中有效的时空特征点STIPs并构建描述符;
S2)对提取的所有STIPs描述符进行聚类,将每个聚类中心作为视觉词典中的一个视觉单词,进而生成BOVW;
S3)对步骤S2)得到视觉词典中的视觉单词两两之间的时空关系进行描述生成视觉词典共生矩阵,进而得到不同单词间的时空特征点互信息;
S31)设视频序列S中的时空特征点集合V通过BOVW模型W量化为n类,分别为w1,w2...,wn,这里
Figure FDA0003901850180000011
对于S中的任意两个时空特征点pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词;否则,表示两种不同的单词;且(xi,yi,ti)表示时空特征点pi的三维时空坐标;
S32)定义时空特征点共生矩阵为:
任意两个不同的单词wi,wj
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)}
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
Figure FDA0003901850180000012
S33)计算指定单词wi的出现为其它单词的时空特征点出现提供的信息量,即:
Figure FDA0003901850180000013
Figure FDA0003901850180000014
Figure FDA0003901850180000015
即为特征点共生矩阵中对应元素的归一化;
S34)统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,得到wi与所有其它单词特征点的平均互信息,即:
Figure FDA0003901850180000021
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征;
S4)对每个视觉单词的STIPs的时空分布进行描述生成环形时空特征点直方图,进而得到时空特征点的时空分布熵;
S41)设视频序列S中的时空特征点集合V经过BOVW模型W量化为n种,分别为w1,w2...,wn,这里
Figure FDA0003901850180000022
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),xi,yi和ti定义为:
Figure FDA0003901850180000023
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
Figure FDA0003901850180000024
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形;由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,作为Ai的一个分割;
设|Aij|表示环形区间j内隶属单词wi的特征点个数,由(|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|)构成视频序列S单词为wi的时空特征点的环形直方图;
S42)采用特征点的时空分布熵来描述特征点的空间分布特征,时空特征点的时空分布熵定义为:
Figure FDA0003901850180000025
S5)融合BOVW直方图、时空特征点互信息、时空分布熵三种信息作为一个视频序列的描述符,利用支持向量机SVM进行行为分类识别。
2.根据权利要求1所述的基于时空特征点的互信息与时空分布熵的行为识别方法,其特征在于,步骤S1)具体包括以下步骤:
S11)计算视频流时空中每个像素点的二维空间高斯和一维时间Gabor小波函数相应值来确定时空特征点,具体如下:
若某点响应函数值为局部极大值且大于某一阈值,则认为该极值点为时空特征点STIPs,所采用的响应函数为R=(S*g*hev)2+(S*g*hod)2
其中,S为视频序列,g(x,y,σ)为二维空间高斯平滑滤波器,hev和hod为一维Gabor时域滤波器,定义分别为:
Figure FDA0003901850180000031
Figure FDA0003901850180000032
σ和τ分别为空域和时域尺度,ω=4/τ,*为卷积运算符;
S12)构建时空特征点描述符:将步骤S11)提取的时空特征点结合特征点周围的时空信息进行描述,构建出时空特征点描述符。
3.根据权利要求2所述的基于时空特征点的互信息与时空分布熵的行为识别方法,其特征在于:
步骤S11)中将阈值设定为大于2e-4。
4.根据权利要求2所述的基于时空特征点的互信息与时空分布熵的行为识别方法,其特征在于:
步骤S12)采用HOG3D梯度直方图方法构建描述符。
5.根据权利要求1所述的基于时空特征点的互信息与时空分布熵的行为识别方法,其特征在于:
步骤S2)采用K-means均值聚类方法对所有提取的STIPs的描述符进行聚类。
CN201710116534.4A 2017-02-28 2017-02-28 基于时空特征点的互信息与时空分布熵的行为识别方法 Active CN107122780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710116534.4A CN107122780B (zh) 2017-02-28 2017-02-28 基于时空特征点的互信息与时空分布熵的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710116534.4A CN107122780B (zh) 2017-02-28 2017-02-28 基于时空特征点的互信息与时空分布熵的行为识别方法

Publications (2)

Publication Number Publication Date
CN107122780A CN107122780A (zh) 2017-09-01
CN107122780B true CN107122780B (zh) 2022-12-20

Family

ID=59717430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710116534.4A Active CN107122780B (zh) 2017-02-28 2017-02-28 基于时空特征点的互信息与时空分布熵的行为识别方法

Country Status (1)

Country Link
CN (1) CN107122780B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256529A (zh) * 2017-11-29 2018-07-06 深圳慎始科技有限公司 基于点云投影轮廓签名和分布矩阵的全局点云描述方法
CN108805902A (zh) * 2018-05-17 2018-11-13 重庆邮电大学 一种自适应尺度的时空上下文目标跟踪方法
CN110110651B (zh) * 2019-04-29 2023-06-13 齐鲁工业大学 基于时空重要性和3d cnn的视频中行为识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542295A (zh) * 2012-01-08 2012-07-04 西北工业大学 一种采用图像分类技术从遥感图像中进行滑坡检测的方法
WO2014146463A1 (zh) * 2013-03-19 2014-09-25 中国科学院自动化研究所 一种基于隐结构推理的行为识别方法
CN105894517A (zh) * 2016-04-22 2016-08-24 北京理工大学 基于特征学习的ct图像肝脏分割方法及系统
CN106022251A (zh) * 2016-05-17 2016-10-12 沈阳航空航天大学 基于视觉共生矩阵序列的异常双人交互行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379085B2 (en) * 2009-08-18 2013-02-19 Behavioral Recognition Systems, Inc. Intra-trajectory anomaly detection using adaptive voting experts in a video surveillance system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542295A (zh) * 2012-01-08 2012-07-04 西北工业大学 一种采用图像分类技术从遥感图像中进行滑坡检测的方法
WO2014146463A1 (zh) * 2013-03-19 2014-09-25 中国科学院自动化研究所 一种基于隐结构推理的行为识别方法
CN105894517A (zh) * 2016-04-22 2016-08-24 北京理工大学 基于特征学习的ct图像肝脏分割方法及系统
CN106022251A (zh) * 2016-05-17 2016-10-12 沈阳航空航天大学 基于视觉共生矩阵序列的异常双人交互行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于时空特征点的群体异常行为检测算法;王传旭等;《数据采集与处理》;20120715;第27卷(第04期);全文 *
显著兴趣点颜色及空间分布熵的图像检索方法;曾智勇等;《红外技术》;20070320(第03期);全文 *

Also Published As

Publication number Publication date
CN107122780A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
Ramanathan et al. Human action recognition with video data: research and evaluation challenges
Hong et al. Multimodal deep autoencoder for human pose recovery
Zou et al. Generic object detection with dense neural patterns and regionlets
CN110659665B (zh) 一种异维特征的模型构建方法及图像识别方法、装置
Gu et al. Multiple stream deep learning model for human action recognition
Liu et al. Adaptive cascade regression model for robust face alignment
CN107122780B (zh) 基于时空特征点的互信息与时空分布熵的行为识别方法
Chong et al. Modeling representation of videos for anomaly detection using deep learning: A review
Chan et al. A 3-D-point-cloud system for human-pose estimation
Linda et al. Color-mapped contour gait image for cross-view gait recognition using deep convolutional neural network
Liu et al. Gait recognition using deep learning
CN112668550A (zh) 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法
CN105844204B (zh) 人体行为识别方法和装置
Das et al. A fusion of appearance based CNNs and temporal evolution of skeleton with LSTM for daily living action recognition
Wang et al. Hand motion and posture recognition in a network of calibrated cameras
Chen et al. Cholesky decomposition-based metric learning for video-based human action recognition
Wang et al. GA-STIP: Action recognition in multi-channel videos with geometric algebra based spatio-temporal interest points
Soltani et al. Euclidean distance versus Manhattan distance for skin detection using the SFA database
CN109685146A (zh) 一种基于双卷积和主题模型的场景识别方法
Wang et al. Human interaction recognition based on sparse representation of feature covariance matrices
Alghyaline et al. Video action classification using symmelets and deep learning
Ben Jemaa et al. Sfax-Miracl hand database for contactless hand biometrics applications
Zhao Sports motion feature extraction and recognition based on a modified histogram of oriented gradients with speeded up robust features
Farouk Principal component pyramids using image blurring for nonlinearity reduction in hand shape recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240314

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen Litong Information Technology Co.,Ltd.

Country or region after: China

Address before: 266000 Laoshan campus, Songling Road, Laoshan District, Qingdao, Shandong, China, 99

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right