发明内容
为了解决以上现有技术存在的缺陷,本发明提出一种基于时空特征点的互信息与时空分布熵的行为识别方法,在BOVW(Bag of visual words)和STIPs(Spatio-TemporalInterest Points)的基础上,提出基于三维视觉单词共生矩阵的特征点互信息与基于环形时空特征点直方图的时空分布熵对时空特征点的共生关系与空间结构进行建模,克服传统BOVW忽略了特征点之间的空间信息的 缺点,与其他时空特征建模算法相比,该方法兼顾了STIPs的全局时空信息与局部空间分布。
本发明的技术方案是这样实现的:
一种基于时空特征点的互信息与时空分布熵的行为识别方法,其包括以下步骤:
S1)提取视频流时空中有效的时空特征点STIPs(Spatial Temporal InterestingPoints)并构建描述符;
S2)对提取的所有STIPs描述符进行聚类,将每个聚类中心作为视觉词典中的一个视觉单词,进而生成BOVW;
S3)对步骤S2)得到视觉词典中的视觉单词两两之间的时空关系进行描述生成视觉词典共生矩阵,进而得到不同单词间的时空特征点互信息;
S4)对每个视觉单词的STIPs的时空分布进行描述生成环形时空特征点直方图,进而得到时空特征点的时空分布熵;
S5)融合视觉单词、时空特征点共生矩阵、环形时空特征点直方图与时空分布熵三种信息作为一个视频序列的描述符,利用支持向量机SVM(Support Vector Machine)进行行为分类识别。
上述技术方案中,步骤S1)采用Dollar检测方法提取有效的时空特征点STIPs。
上述技术方案中,步骤S1)具体包括以下步骤:
S11)计算视频流时空中每个像素点的二维空间高斯和一维时间Gabor小波函数相应值来确定时空特征点,具体如下:
若某点响应函数值为局部极大值且大于某一阈值,则认为该极值点为时空特征点STIPs,所采用的响应函数为R=(S*g*hev)2+(S*g*hod)2;
其中,S为视频序列,g(x,y,e)为二维空间高斯平滑滤波器,hev和hod为一维Gabor时域滤波器,定义分别为:
σ和τ分别为空域和时域尺度,ω=4/τ,*为卷积运算符;
S12)构建时空特征点描述符:将步骤S11)提取的时空特征点结合特征点周围的时空信息进行描述,构建出时空特征点描述符。
上述技术方案中,步骤S12)优选采用HOG3D梯度直方图方法构建描述符。
上述技术方案中,为克服背景光照变化等因素并保证特征点数量,步骤S11)中通常将阈值设定为大于2e-4。
上述技术方案中,步骤S2)采用K-means均值聚类方法对所有提取的STIPs的描述符进行聚类。
上述技术方案中,步骤S3)具体包括以下步骤:
S31)设视频序列S中的时空特征点集合V通过BOVW模型W量化为n类,分别为w1,w2...,wn,这里对于S中的任意两个时空特征点pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词;否则,表示两种不同的单词;且(xi,yi,ti)表示时空特征点pi的三维时空坐标;
S32)定义时空特征点共生矩阵(STIPsCM:Spatial Temporal InterestingPoints Co-occurrence Matrix)为:
任意两个不同的单词wi,wj,
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)}|;
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
S33)计算指定单词wi的出现为其它单词的时空特征点出现提供的信息量,即:
即为特征点共生矩阵中对应元素的归一化;
S34)统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,得到wi与所有其它单词特征点的平均互信息,即:
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征。
上述技术方案中,步骤S4)具体包括以下步骤:
S41)设视频序列S中的时空特征点集合V经过BOVW模型W量化为n种,分别为w1,w2...,wn,这里
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),xi,yi和ti定义为:
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形,由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,作为Ai的一个分割;
设|Aij|表示环形区间j内隶属单词wi的特征点个数,由(|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|)构成视频序列S单词为wi的时空特征点的环形直方图;
S42)采用特征点的时空分布熵来描述特征点的空间分布特征,时空特征点的时空分布熵的定义为:
与现有技术相比较,本发明的技术方案有以下不同:
1、提出三维时空特征点共生矩阵算法,将三维时空特征点信息转换为二维矩阵来表示。
2、采用平均互信息算法刻画不同单词内的特征点之间的相互依赖关系,同时避免了PCA或者2DPCA降维丧失描述符稀疏性的问题。
3、本文提出环形时空特征点直方图与时空分布熵的概念来描述一个单词内时空特征点的全局时空分布。
针对BOVW与时空金字塔模型在行为识别问题中的局限性,本发明提出了一种基于时空特征点的互信息与时空分布熵的行为识别方法。时空特征点互信息刻画了时空特征点较小邻域内局部特征的相关信息,时空分布熵描述了时空特征点全局的分布信息,增强了时空特征点的行为鉴别能力。同时,由于归一化后的环形特征点直方图满足平移、旋转和尺度不变性,因此特征点的时空分布熵也满足平移、旋转和尺度不变性,克服了时空金字塔法对角度与平移的变化比较敏感,鲁棒性差的缺点,且算法简洁。实验结果表明,本文提出的时空特征描述算法在行为识别准确率上优于基于时空金字塔模型的方法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于时空特征点的互信息与时空分布熵的行为识别方法,其包括以下步骤:
S1)提取视频流时空中有效的时空特征点STIPs并构建描述符;
S2)对提取的所有STIPs描述符进行聚类,将每个聚类中心作为视觉词典中的一个视觉单词,进而生成BOVW;
S3)对步骤S2)得到视觉词典中的视觉单词两两之间的时空关系进行描述生成视觉词典共生矩阵,进而得到不同单词间的时空特征点互信息;
S4)对每个视觉单词的STIPs的时空分布进行描述生成环形时空特征点直方图,进而得到时空特征点的时空分布熵;
S5)融合视觉单词、时空特征点共生矩阵、环形时空特征点直方图与时空分布熵三种信息作为一个视频序列的描述符,利用支持向量机SVM进行行为分类识别。
上述技术方案中,步骤S1)采用Dollar检测方法提取有效的时空特征点STIPs。
上述技术方案中,步骤S1)具体包括以下步骤:
S11)计算视频流时空中每个像素点的二维空间高斯和一维时间Gabor小波函数相应值来确定时空特征点,具体如下:
若某点响应函数值为局部极大值且大于某一阈值,则认为该极值点为时空特征点STIPs,所采用的响应函数为R=(S*g*hev)2+(S*g*hod)2;
其中,S为视频序列,g(x,y,e)为二维空间高斯平滑滤波器,hev和hod为一维Gabor时域滤波器,定义分别为:
σ和τ分别为空域和时域尺度,ω=4/τ,*为卷积运算符;
S12)构建时空特征点描述符:将步骤S11)提取的时空特征点结合特征点周围的时空信息进行描述,构建出时空特征点描述符。
上述技术方案中,步骤S12)优选采用HOG3D梯度直方图方法构建描述符。
上述技术方案中,为克服背景光照变化等因素并保证特征点数量,步骤S11)中通常将阈值设定为大于2e-4。
上述技术方案中,步骤S2)采用K-means均值聚类方法对所有提取的STIPs的描述符进行聚类。
上述技术方案中,步骤S3)具体包括以下步骤:
S31)设视频序列S中的时空特征点集合V通过BOVW模型W量化为n类,分别为w1,w2...,wn,这里对于s中的任意两个时空特征点pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词;否则,表示两种不同的单词;且(xi,yi,ti)表示时空特征点pi的三维时空坐标;
S32)定义时空特征点共生矩阵(STIPsCM:Spatial Temporal InterestingPoints Co-occurrence Matrix)为:
任意两个不同的单词wi,wj,
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)}|;
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
S33)计算指定单词wi的出现为其它单词的时空特征点出现提供的信息量,即:
即为特征点共生矩阵中对应元素的归一化;
S34)统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,得到wi与所有其它单词特征点的平均互信息,即:
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征。
上述技术方案中,步骤S4)具体包括以下步骤:
S41)设视频序列S中的时空特征点集合V经过BOVW模型W量化为n种,分别为w1,w2...,wn,这里
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),xi,yi和ti定义为:
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形;由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,作为Ai的一个分割;
设|Aij|表示环形区间j内隶属单词wi的特征点个数,由(|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|)构成视频序列S单词为wi的时空特征点的环形直方图;
S42)采用特征点的时空分布熵来描述特征点的空间分布特征,时空特征点的时空分布熵的定义为:
为了更好地介绍本发明的技术方案,以下通过对本案涉及到的有关技术做详细介绍,并逐步解释本案方法中的视觉词典共生矩阵、时空特征点互信息、环形特征点直方图与时空分布熵概念。
在图像纹理的统计描述中,为利用空间信息可借助位置算子以计算共生矩阵。
设W为一个位置算子,A是一个k×k矩阵,其中每一个元素aij为具有灰度值gj的点相对于由W确定的具有灰度值gj的点出现的次数。
如图2所示的借助位置算子计算共生矩阵的例子中:(a)为有三个灰度级的图像(g1=0,g2=1,g3=2),定义W为“向下一个元素和向右一个元素”的位置关系,得到的矩阵如(b)所示。
如果设满足W的像素对的总个数为N,则将A的每一个元素都除以N就可以得到满足W关系的像素对出现概率的估计,并得到响应的共生矩阵。
Yi Yang等将灰度共生矩阵扩展到图像中的特征点中,给定一个图像包含n个视觉单词wi∈W在像素位置(Xi,Yi)和位置算子W,定义的视觉词袋共生矩阵(vwcm)为:
VWCMp(u,v)=||(ci,cj)|(ci=u)∧(cj=v)∧(W)||;
其中,
在空间共生矩阵的启发下,本发明扩展了图像中的二维特征点共生矩阵的概念,并将其应用到行为识别任务中。
时空特征点共生矩阵主要获取不同视觉单词之间的特征点时空相关性信息。
设视频序列S中的时空特征点集合V通过BOVW模型W量化为n类,分别为w1,w2...,wn,这里对于s中的任意两个时空特征点pi(xi,yi,ti)∈wI,pj(xj,yj,tj)∈wJ,若I=J,则wI,wJ表示同一个单词,否则,表示两种不同的单词;另外,(xi,yi,ti)表示时空特征点pi的三维时空坐标,定义时空特征点共生矩阵为:
任意两个不同的单词wi,wj,
CM(wi,wj)=#{[pi,pj]∈V|(pi=wi)∧(pj=wj)∧(G)}|;
其中,#代表在指定半径r内特征点对的数量,位置算子G定义为:
在给定距离r内,获得的不同时空特征点的共生矩阵为一个n×n的矩阵,表示如图3所示。
其中第i行的数据CM(wi,w1),CM(wi,w2),...CM(wi,wn)表示的是以单词wi内的每个时空特征点pm为球心,r为半径的区域内,统计各种词袋的特征点分别出现在这些球内区域的频数之和,对每一行进行归一化处理,得到各种特征点对出现的频率。
虽然时空特征点共生矩阵可以表示特征点之间的时空分布情况,但是共生矩阵维数达到了n×n,一方面计算量巨大,另一方面也占用存储空间。因此在时空特征点共生矩阵的基础上,本发明提出时空特征点互信息的概念,不仅将特征矢量维数减少到n,而且保持了不同特征点之间的时空信息。
互信息概念最早出现于信息论,表示一个事件Y的发生为另一个事件X发生提供的信息量,定义为:
时空特征点共生矩阵表示的是每一个特征点对之间的时空分布情况,共生矩阵中每一行元素代表某单词内所有特征点与其他各单词特征点配对出现的频率。本发明定义时空特征点互信息的概念为:指定单词的特征点的出现为其它单词的时空特征点出现提供的信息量,即:
即为特征点共生矩阵中对应元素的归一化。本发明统计指定单词wi的出现为其周围其它单词特征点出现提供的信息量的平均值,则得到了wi与所有其它单词特征点的平均互信息,即:
其中,p(wj)表示的是时空特征点经量化后的归一化的BOVW直方图特征。以图3所示的n×n时空特征点共生矩阵为例,通过上述变换后,每一个时空特征点共生矩阵都可以提取出一条n维的特征点互信息特征矢量。
在环形颜色直方图与空间分布熵的启发下,本发明提出环形时空特征点直方图与时空分布熵的概念来描述某一词袋内部所含时空特征点的时空分布。
同样设视频序列S中的时空特征点集合V经过BOVW模型W量化为n种,分别为w1,w2...,wn,这里
Ai代表序列S中单词wi内的时空特征点集合,|Ai|表示Ai集合中时空特征点的数目,Oi为Ai中所有时空特征点三维时空位置坐标的质心(xi,yi,ti),则xi,yi和ti定义为
设Ri表示Ai中的特征点与其质心的最大距离,其定义为
把Ri分为N等分,然后以质心为球心,以Ri/N为半径差画球面可得到N个球形。那么由内至外把Ai分为Ai1,Ai2,Ai3,Ai4.....AiN球体,本发明称Ai1,Ai2,Ai3,Ai4.....AiN为的Ai一个分割。设|Aij|表示环形区间j内隶属单词wi的特征点个数,则(|Ai1|,|Ai2|,|Ai3|,|Ai4|,...|AiN|)就构成视频序列S单词为wi的时空特征点的环形直方图。由于质心Oi具有平移和旋转不变性,所以求取的环形直方图同样具有平移和旋转不变性。
通过上述处理,V中的每一种特征点均有一个环形的直方图。若直接采用环形直方图,由于每一种特征点均对应一个环形直方图,因此这将大大增加存储这些特征所需的空间。为此,我们采用熵的特性,提出采用特征点的时空分布熵来描述特征点的空间分布特征。时空特征点的时空分布熵的定义为:
时空分布熵反映了时空特征点在V中平均分散程度,特征点时空分布熵越大,表明该特征点在V中的分布越分散,否则,该特征点在V空间中的分布越集中。因此,采用时空分布熵可有效地表征特征点的时空分布特征,特征的维数也将大大降低。同时,由于归一化后的环形特征点直方图满足平移、旋转和尺度不变性,因此特征点的时空分布熵也满足平移、旋转和尺度不变性。
本发明的识别方法可采用KTH与UCF sports行为数据集进行测试与验证,统一采用留一验证法(LOOCV)。该算法的主要参数包括时域尺度τ、空间尺度σ、BOVW的个数n、环形直方图的维数N以及位置算子的尺度r。
1、在KTH数据集上的实验结果
KTH数据集是行为识别领域识别最为广泛的行为数据集,由6种行为组成。每种视频数据采集自25个人在4种不同场景下的行为。根据前人的工作以及先验知识,设空间尺度σ=1.5,时域尺度τ=1.5,BOVW的个数为500。首先,测试参数r、N对描述符性能的影响。由图3和图4可知,当参数r、N达到一定的水平时,时空特征点互信息与时空分布熵描述符模型性能达到饱和。
然后,分别测试BOVW、时空特征点互信息(STPsCM)、时空分布熵(STE)三种描述符以及BOVW与STPsCM、STE组合在KTH与UCF sports数据集的识别精度。
为了验证特征融合的有效性,三种描述符分别与自身进行级联,形式如(BOVW+BOVW)、(STPsCM+STPsCM)、(STE+STE),由图6表格可知这三种描述符的识别精度并没有明显提高,证明了时空特征点互信息、时空分布熵描述符与BOVW描述符具有互补性,显著提高了识别精度。
三种描述符融合形成的描述符的识别精度最达到96.17%。由于jog和run两种行为本身具有较大的相似性,容易产生一定的混淆,识别精度相对较低,其他4种行为基本可以能够准确识别。
2、在UCF数据集上的实验结果
UCF数据集包括150个视频序列,由10种行为组成。该数据集取景广泛,已被广泛用于许多研究,如:动作识别、动作定位与显着性检测。在UCF sports数据库上采用与KTH数据集相同的实验方法。根据前人的工作以及先验知识,设空间尺度σ=2,时域尺度τ=2.5,BOVW的个数为800。实验结果如图7表格所示,最高识别精度为87.33%。
由于时空分布熵刻画了时空特征点的整体空间分布,对存在多个行为的视频序列,时空分布熵的识别精度反而有所下降,在UCF sports数据集的识别精度仅有72%。而特征点互信息描述的是特征点的局部空间信息,在单人与多人的视频序列中都有较高识别精度。
与现有技术相比较,本发明的技术方案有以下不同:
1、提出三维时空特征点共生矩阵算法,将三维时空特征点信息转换为二维矩阵来表示。
2、采用平均互信息算法刻画不同单词间的特征点之间的相互依赖关系,同时比避免了PCA或者2DPCA降维丧失描述符稀疏性的问题。
3、本发明提出环形时空特征点直方图与时空分布熵的概念来描述一个单词内部的时空特征点的全局时空分布。
针对BOVW与时空金字塔模型在行为识别问题中的局限性,本发明提出了一种基于时空特征点的互信息与时空分布熵的行为识别方法。时空特征点互信息刻画了时空特征点较小邻域内局部特征的相关信息,时空分布熵描述了时空特征点全局的分布信息,增强了时空特征点的行为鉴别能力。同时,由于归一化后的环形特征点直方图满足平移、旋转和尺度不变性,因此特征点的时空分布熵也满足平移、旋转和尺度不变性,克服了时空金字塔法对角度与平移的变化比较敏感,鲁棒性差的缺点,且算法简洁。实验结果表明,本文提出的时空特征描述算法在行为识别准确率上优于基于时空金字塔模型的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。