CN105631462A

CN105631462A - 结合置信度和贡献度的基于时空上下文的行为识别方法

Info

Publication number: CN105631462A
Application number: CN201410589024.5A
Authority: CN
Inventors: 苗振江; 许万茹; 张强; 刘汝杰
Original assignee: Beijing Jiaotong University; Fujitsu Ltd
Current assignee: Beijing Jiaotong University; Fujitsu Ltd
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2016-06-01

Abstract

本发明是结合置信度和贡献度的基于时空上下文的行为识别方法。弥补了经典的局部特征+词袋模型进行人体行为识别时的不足。本发明不仅描述了局部特征在空间域和时间域上的上下文交互信息，而且还考虑了特征与行为之间的关联关系。本发明包括：从关联规则中挖掘单词的置信度；从线性SVM中学习单词的贡献度；联合置信度和贡献度计算单词与对应行为的关联权值；根据时空交互关系和自身关联权值，计算上下文关联系数；累积与邻域内所有点的关联系数得到局部上下文描述子；利用上下文描述子累积直方图，生成特征序列用于行为分类。本发明采用机器学习及数据挖掘相关技术，旨在使人体行为识别算法更具判别性和鲁棒性。

Description

结合置信度和贡献度的基于时空上下文的行为识别方法

技术领域

本发明涉及基于内容的视频分析，智能监控与人体行为识别领域，尤其涉及结合置信度和贡献度的基于时空上下文的行为识别方法。

背景技术

基于视觉的人体行为分析有着广阔的应用前景，因为人体所获得的八成以上的信息都是视觉信息，面对如此庞大的信息量，人工处理显然是不切实际的，因此急需研究开发能替代人力的计算机相关方面的能力。人体行为识别在视频监控，基于内容的检索以及人机交互方面具有广泛的应用价值，已经成为计算机视觉的热门研究领域。行为分析有两大关键问题：行为描述和行为识别，其中行为描述是通过提取有判别力的，鲁棒的特征来表达行为；行为识别则是选取与之相应的分类模型，利用所提取的特征对行为进行分类识别。

目前行为识别最常用的特征有静态特征(例如形状和轮廓)和动态特征(例如光流和局部时空特征)。近些年，局部时空特征+词袋模型(BOW)因其出色的识别能力和较低的复杂度，成为行为识别领域广泛应用的方法。词袋模型利用一系列无序且相互独立的时空单词对人体行为进行建模，在构建直方图时只保留每个单词在词典中的类别标号。虽然，该模型对视角和尺度变化不敏感并且不需要对人体进行跟踪，但是它有自身的局限性。如此建模方法，不仅损失了兴趣点的时空分布信息与上下文交互信息，而且每个单词都被认为对行为具有相同的贡献程度。

发明内容

本发明的目的是克服传统的局部特征+词袋模型用于行为识别时的局限性，从而提出结合置信度和贡献度的基于时空上下文的行为识别方法。

本发明有如下的创新点：

①将时空上下文作为一种补充信息，用来描述3D局部特征点之间的相互关系，并且设计了一种简单但不失判别力的局部上下文描述子。

②从关联规则中计算置信度，挖掘单词与行为之间的统计关系；从线性支持向量机SVM中计算贡献度，学习单词与行为之间的因果关系。

③基于置信度和贡献度，为每个单词计算其对应不同行为的关联权值，该权值在分类过程中，使模型更具判别性和鲁棒性。

本发明包括如下步骤：

步骤1：为每个视频序列，提取时空兴趣点STIP，这些点是在时间域和空间域中变化剧烈的角点；

步骤2：利用梯度方向直方图HOG和光流方向直方图HOF，对每个兴趣点进行描述，生成特征向量；

步骤3：利用K均值聚类，对提取的所有兴趣点进行聚类，形成码本；

步骤4：为每个兴趣点分配单词标号，计算兴趣点与码本中各单词的距离，选取最近单词的标号作为该点的类别标号，这样每个兴趣点就可以表示为一个四元组{x,y,t,c},其中x,y,t是该兴趣点在时空域中的位置，c是该点的单词类别标号；

步骤5：利用数据挖掘相关技术，挖掘各单词与各行为之间的统计关系，得到各单词对应各行为的置信度；

步骤5-1：挖掘样本集中的频繁项集，得到每个单词的支持度，当支持度大于阈值，进行步骤5-2，否则将该单词的置信度置0，跳转进行步骤6，此步骤的目的在于保证挖掘到的关联规则在样本集中频繁出现，去除噪声影响；

步骤5-2：挖掘样本集中的关联规则，得到每个单词的置信度，当置信度大于阈值，即表示为一个关联规则，此关联规则的置信度即为该单词对应该行为的置信度，否则将该单词的置信度置0，此步骤的意义在于保证挖掘到的关联规则在该行为中频繁出现，保证其判别性；

步骤6：利用机器学习技术，学习各单词与各行为之间的因果关系，得到各单词所对应的贡献度，利用传统的BOW模型为每类行为训练一个线性SVM，从SVM的判别函数中计算得到各单词的贡献度；

步骤7：利用一个指数函数联合置信度和贡献度，经归一化后得到各单词对应各行为的关联权值；

步骤8：一个兴趣点不是孤立存在的，它是受其上下文相互影响的，在一个时空邻域内计算两个兴趣点的相互影响关系，得到上下文的关联系数，这个关联系数有两部分的意义：若此点即为此邻域的中心点，则关联系数即为此兴趣点的关联权值，否则定义为两点间的距离函数与这两个单词对儿的置信度的乘积；

步骤9：累积兴趣点与其邻域内所有点的关联系数作为该点的局部上下文描述子，此描述子不仅描述了该兴趣点的自身属性，还对其时空上下文信息进行了表示；

步骤10：在整个视频序列里进行直方图统计，累积的值不再是BOW模型中的频次，而是每个兴趣点的上下文描述子，所得的直方图即为视频样本的特征序列；

步骤11：利用提取的特征序列，使用K近邻方法对行为进行匹配分类。

附图说明

图1为本发明方法的流程图；

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

本发明所涉及到的时空兴趣点，HOG\HOF描述子，BOW模型，K-Means聚类，K近邻分类等均是成熟技术，都有公开文献发表，本发明中不再赘述。

参考图1，在步骤S₅从关联规则中挖掘各单词的置信度中，为了得到特征内部潜在的关联关系，利用统计方法挖掘各单词与各行为之间的关联规则。一个关联规则表示这样一种模式当X发生时，Y也会同时发生。如果X为单词集合，Y为行为集合，则此关联规则即可描述单词与行为间的关联关系。关联规则的置信度和支持度定义如下：

Confidence (X &DoubleRightArrow; Y) = support (XY) / support (X) = P (X \cup Y) / P (X) =

P (Y | X) - - - (1)

支持度是为了寻找频繁项集，从而保证挖掘到的单词在样本集中频繁出现，去除噪声影响。频繁项集的搜索可以利用数据挖掘中的相关技术得到。置信度是为了评估关联规则，保证挖掘到的单词在该行为中频繁出现，保证其判别性。置信度定义为支持度的一个条件概率，它表示单词与行为间的正相关关系。只有当支持度和置信度都大于阈值时，该单词的置信度才为关联规则中的置信度，否则将其置0.

当X集合中包含多个单词，则此关联规则不仅能描述单词与行为间的关系，还能反映一些特征间的上下文交互信息。特别的，当X中包含两个单词时，即为单词对儿的置信度，表示当两个单词联合出现时，行为出现的概率。单词对儿的置信度在步骤S₂计算上下文关联系数时会被用到，其计算公式如下：

Conf (X_{i}, X_{j} &DoubleRightArrow; Y) = P (X_{i} \cup X_{j} \cup Y) / P (X_{i} \cup X_{j}) = P (Y | X_{i}, X_{j}) - - - (2)

在步骤S₄从SVM中学习贡献度中，利用传统的BOW模型为每个视频序列生成一个直方图作为输入特征，为每类行为训练一个线性SVM。当训练某一种行为时，该行为的样本即为正样本，其他的都为负样本。线性SVM的判别函数如下：

f(x)＝Σ_iw_i＜H(x),H_i(y)＞+b(3)

在上述公式中，H(x)是测试样本的直方图，H(y)是一系列支持向量，w是其权值，b是偏置。从公式中可以看出SVM的响应函数是测试样本和支持向量乘积的加权和。因为本发明中使用的是线性SVM，因此可以将直方图中的每个单词拆开并且改变两个求和号的顺序，这样可以将此响应函数改写如下：

f (x) = Σ_{j}^{K} (Σ_{i} w_{i} H_{i} (y_{j})) * H (x_{j}) + b - - - (4)

f (x) = Σ_{j}^{K} a_{j} * H (x_{j}) + b = Σ_{i}^{N} a_{j} + b - - - (5)

在上述公式中，N是该视频序列中兴趣点的个数，K是词典中单词的个数，H(x_j)表示直方图中第j个单词所对应的值。定义a_j＝∑w_i*H_i(y_j)(j＝[1,K])为1到K个单词对该行为的贡献度。从公式中可以看出，此时SVM的判别函数为N个局部特征贡献度的累加。这样每个局部特征都对应一个特定的值，该值能准确反映出此特征对最终分类的贡献程度。

在步骤S3计算关联权值中，本发明利用一个指数函数将步骤S₅中得到的置信度和步骤S₄中得到的贡献度联合起来，经归一化后生成各单词对应各行为的关联权值，计算公式如下：

W (C_{i}) = \frac{\exp (\frac{{ax}^{2} + (1 - a) y^{2}}{c^{2}})}{{ΣΣ}_{x, y} \exp (\frac{{ax}^{2} + (1 - a) y^{2}}{c^{2}})} - - - (6)

在上述公式中，W(C_i)表示第i个单词的关联权值；x和y分别表示该单词的置信度和贡献度；a是影响因子，用来平衡两者的重要程度；c为尺度因子，决定关联权值对最终直方图统计的影响程度；分母作为归一化项，要求所得的权值在[0,1]之间且和为1.此关联权值不仅表示了单词与行为间的统计关系，还包含两者间的因果关系，增强单词判别性同时还具有一定的去噪功能。

一个局部特征点不是孤立存在的，它是受周围其他兴趣点相互影响的。在步骤S2计算上下文关联系数中，本发明运用时空邻域内一系列同时发生的局部特征对儿来描述3D兴趣点的上下文信息。给定一个局部兴趣点及其邻域，定义其上下文关联系数为：

Con (X_{i}, X_{k}) = \{\begin{matrix} W (C_{i}) & if (i = k) \\ conf (X_{i}, X_{k}) * d (X_{i}, X_{k}) & else \end{matrix} - - - (7)

上式由两部分组成：若与之交互的邻域中的点就是此兴趣点本身，则关联系数即为此兴趣点的关联权值，否则定义为两点间的距离函数与这两个单词对儿的置信度的乘积。

在步骤S6中，本发明设计了一种简单而有效的上下文描述子，作为最终改进的BOW中直方图的累加系数。累积兴趣点与其邻域内所有点的关联系数作为该点的局部上下文描述子，其计算公式如下：

Con (X_{i}) = Σ_{X_{k} &Element; Ω_{X_{i}}} Con (X_{i}, X_{k}) - - - (8)

因为关联系数包含两部分的内容，所以本发明中的上下文描述子不仅描述了该兴趣点自身的属性，还对其时空上下文关系进行了表示。

实验结果

采用留一交叉验证法对Weizman人体行为数据库中的10种行为进行测试实验；对KTH行为数据库，采用和其他文献相同的实验方法，16个人的样本用于训练，其他9个人作为测试样本，进行交叉验证。对比经典的局部特征+BOW模型80％左右的识别率，经本发明改进后的算法准确率在Weizman上达到了98.89％，在KTH上达到了94.67％。显而易见，本发明的识别效果好得多。

应当理解的是，本领域技术人员可以根据上述的说明加以改进或者变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.结合置信度和贡献度的基于时空上下文的行为识别方法，其特征在于，包括如下步骤:

步骤1：提取时空兴趣点；

步骤2：用HOG\HOF描述兴趣点；

步骤3：聚类形成码本；

步骤4：为每个兴趣点分配单词标号；

步骤5：统计每个单词的置信度；

步骤6：学习每个单词的贡献度；

步骤7：计算每个单词的关联权值；

步骤8：计算上下文关联系数；

步骤9：得到每个兴趣点的局部上下文描述子；

步骤10：利用上下文描述子累积直方图，生成特征序列；

步骤11：进行KNN最近邻分类。

2.根据权利要求1所述的行为识别方法，其特征在于：在步骤5统计置信度时，利用数据挖掘技术，挖掘各单词与各行为之间的统计关系，所述的步骤5包括，

步骤5-1：挖掘样本集中的频繁项集，得到每个单词的支持度，当支持度大于阈值，进行步骤5-2，否则将该单词的置信度置0，跳转进行步骤6；

步骤5-2：挖掘样本集中的关联规则，得到每个单词的置信度，当置信度大于阈值，即表示为一个关联规则，此关联规则的置信度即为该单词对应该行为的置信度，否则将该单词的置信度置0。

3.根据权利要求1所述的行为识别方法，其特征在于：在步骤6学习贡献度时，利用机器学习技术，学习各单词与各行为之间的因果关系，得到各单词所对应的贡献度，利用传统的BOW模型为每类行为训练一个线性SVM，从SVM的判别函数中计算得到各单词的贡献度。

4.根据权利要求1所述的行为识别方法，其特征在于：在步骤7计算关联权值时，利用一个指数函数联合置信度和贡献度，经归一化后得到各单词对应各行为的关联权值。

5.根据权利要求1所述的行为识别方法，其特征在于：在步骤8计算上下文关联系数时，在一个时空邻域内计算两个兴趣点的相互影响关系，得到上下文的关联系数，若此点即为此邻域的中心点，则关联系数即为此兴趣点的关联权值，否则定义为两点间的距离函数与这两个单词对儿的置信度的乘积。

6.根据权利要求1所述的行为识别方法，其特征在于：在步骤9计算局部上下文描述子时，累积兴趣点与其邻域内所有点的关联系数作为该点的局部上下文描述子，此描述子不仅描述了该兴趣点的自身属性，还对其时空上下文信息进行了表示。

7.根据权利要求1所述的行为识别方法，其特征在于：在步骤10利用上下文描述子累积直方图时，在整个视频序列里进行直方图统计，累积的值不再是BOW模型中的频次，而是每个兴趣点的上下文描述子，所得的直方图即为视频样本的特征序列。