CN104268592A

CN104268592A - 基于协同表示和判别准则的多视角联合动作词典学习方法

Info

Publication number: CN104268592A
Application number: CN201410484437.7A
Authority: CN
Inventors: 高赞; 张桦; 宋健明; 薛彦兵; 徐光平
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2015-01-07

Abstract

本发明公开了一种基于协同表示和判别准则的多视角联合动作词典学习方法，实现对多视角场景内在关系的挖掘。具体包含以下步骤：（1）视频预处理，（2）时空特征提取，（3）基于图模型的多视角特征融合，（4）基于“词袋”方法的特征归一化，（5）基于协同表示和判别准则的多视角联合动作词典学习，（6）基于多视角联合动作词典和稀疏表示的动作识别。本发明的优点是通过基于协同表示和判别准则的多视角联合动作词典学习，充分挖掘多视角场景中人体动作特征的内在关联特性，从而为实现多视角人体动作的高效识别提供帮助。

Description

基于协同表示和判别准则的多视角联合动作词典学习方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于协同表示和判别准则的多视角联合动作词典学习方法，用于挖掘多视角监控场景中人体动作特征内在的关联性，在人体动作识别领域，验证了多视角联合动作词典学习方法的有效性。

背景技术

基于视觉的人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研究热点，并因其在智能监控、便捷的人机交互、数字娱乐等领域的潜在应用受到学术界和工业界的密切关注。早期的人体动作识别大多是在可人为控制的特定实验环境下进行，即通过固定或控制光照、视角、距离和被关注对象位置等外因来简化问题，从而提高动作识别的准确率。但是，随着应用的不断推广，在可控环境下的现有研究成果往往无法适应于实际的多样化需求。当前的真实应用系统往往存在严重的遮挡、视角变化和被关注对象位置变化等多种外因带来的影响，常常通过多摄像头监控系统的搭建来采集多视角信息，从而为准确的人体动作识别提供帮助。因此，挖掘人体动作的视觉特性，融合多视角信息，研究多视角下的人体动作识别方法成为当前研究热点。

在计算机视觉和模式识别相关研究领域中，多视角人体动作分析一直是最活跃的研究领域之一。由于三维空间往往较二维图像包含更多的视觉信息，因此早期研究多是通过多视角采集的视差图像进行三维空间的重建，并在三维空间进行人体动作识别。由于三维重建计算复杂度高，并且理想的三维重建本身存在很强的挑战性，因此，近些年通过二维视觉信息的表征和复杂人体动作模型的构建成为该领域主流方法。但是由于目标差异较大，同时，即使相同目标的动作也存在差异，这给人体动作识别带来了很大困难。

发明内容

本发明的目的是针对多视角动作识别中，常用方法无法充分地挖掘多视角场景下的人体动作的内在关联性，因此，本发明提供了一种高效的基于协同表示和判别准则的多视角联合动作词典学习方法，用于充分地挖掘多视角场景下人体动作的内在关联，并在人体动作识别中进行了验证。

本发明提供的基于协同表示和判别准则的多视角联合动作词典学习方法，用于挖掘多视角监控场景中人体动作特征内在的关联性，从而为高效的人体动作识别提供帮助。该方法具体包含以下步骤：

第1、视频预处理

第1.1、根据真实标注信息，对所有多视角视频进行分割，保证每个分割后的视频中仅包含一个动作，并且将多个视角下的视频和动作进行对齐；

第1.2、针对多视角视频中的所有图像序列，通过中值滤波进行噪声过滤；

第2、时空兴趣点提取

针对不同视角和不同动作的视频，采用MoSIFT分别提取时空兴趣点，并保存对应的结果；

第3、基于概率图模型的多视角时空兴趣点融合

针对不同视角下相同动作的时空兴趣点的提取结果，使用概率图模型的方法对多视角特征进行融合，挖掘多视角特征的内在一致性；具体步骤包括：

第3.1、分别基于MoSIFT算法提取相邻视角下相同动作的时空兴趣点；

第3.2、针对相邻视角，以每个时空兴趣点为节点，并以两个视角下时空兴趣点的余弦相似性为边，构建图模型；

第3.3、针对某个视角下每个点，根据其与另一个视角下点的相似性和预先设定的阈值，找出最为相似的几个点，从而以这几个点的中心为替代点，其它点将被剔除；

第4、基于“词袋”的特征归一化

针对第2步提取的时空兴趣点以及第3步处理后的时空兴趣点，采用“词袋”方法对这些时空兴趣点进行归一化，并保存对应的结果，作为对应动作的最后特征；

第5、基于协同表示和判别准则的多视角联合动作词典学习

在第4步归一化特征的基础上，根据协同表示和判别准则制定相应的正则项，构建多视角联合动作词典，并对其进行学习，完成相应词典的构建；具体步骤包括：

第5.1、在所有视角提取特征的基础上，为了挖掘多视角内在的关联特性，制定多视角联合保真项、基于图模型的融合保真项、组稀疏正则项和具有结构化的判别正则项；

第5.2、在3.1的基础上，构建基于协同表示和判别准则的多视角联合动作词典学习模型，用于学习对应的词典；

第5.3、针对该模型的联合非凸性，无法直接求解，但是当其中某个变量固定时，该模型又变为凸函数，因此，通过坐标下降法对该目标函数进行求解迭代，获得对应的多视角动作联合词典；

第6、基于多视角联合动作词典和稀疏表示的动作识别

为了验证多视角动作联合词典构建方法的有效性，在多视角人体动作识别中进行了验证，实现目标动作的识别。

本发明的优点和有益效果；

1）充分分析多视角场景中人体动作特征的内在关联特性，设计通过概率图模型的方法，剔除多余的冗余点，保留其一致性，2）根据分析结果，设计协同表示和判别准则正则项，构建多视角联合动作词典目标函数，充分挖掘它们内在的关联特征。

附图说明

图1为本发明的流程图。

图2为多摄像头布局的示意图。

图3为具体过滤前后的图像对比，A为过滤前的图像，B为噪声过滤后的图像。

图4为不同动作下提取的时空兴趣点示意图，其中(a)拳击、(b)鼓掌、(c)双手挥动、(d)慢跑、(e)正常跑步、(f)走路、(g)弯腰、(h)捡东西、(i)投掷、(j)原地起跳。

图5为基于概率图模型的多视角特征融合。

图6为基于“词袋”方法对时空兴趣点的投影和归一化流程。

图7为待表征样本的重建系数的前后分布情况，说明模型构建的合理性。

图8为本发明在多视角动作数据集上评估性能以及与其它算法的比较，其中 C1+C2+C3表示不同视角下的样本直接叠加，增加训练样本，C1_C2_C3表示不同视角下的样本特征直接连接，构建高维特征，而C1/C2/C3表示本发明采用的词典学习算法。

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1

如图1所示，为本发明的一种基于协同表示和判别准则的多视角联合动作词典学习方法的操作流程图，图2为多摄像头布局的示意图，该方法的操作步骤包括：

步骤10视频预处理

首先，根据真实标注信息，对所有多视角视频进行分割，保证每个分割后的视频中仅包含一个动作，并且将多个视角下的视频和动作进行对齐；其次，针对多视角视频中的所有图像序列，通过中值滤波器对图象进行噪声过滤，其具体为：首先，针对图像中的每个像素，获取其周围5*5模板内的所有像素，并对这些像素进行排序，取排序后的中间值代替这个像素值；然后，依次遍历图像中的所有像素，过滤前后的图像对比如图3所示；

步骤20时空兴趣点特征提取

针对不同视角和不同动作的视频，采用MoSIFT分别提取时空兴趣点，并保存对应的结果；提取时空兴趣点特征，具体包括以下步骤：

（1）首先通过不同尺度的高斯函数对原始图像进行滤波，并计算相邻尺度的滤波图像的差，然后，对原始图像进行下采样，同样进行高斯滤波，从而构成金字塔图像；

（2）在金字塔图像上，寻找空间极值点，同时，过滤不稳定的极值点；

（3）进一步地，计算每个极值点的光流，判断光流大小，从而决定空间极值点是否为时空兴趣点；

（4）针对所有时空兴趣点，分别计算对应HOG和HOF特征，从而形成最终的特征描述。

图4 给出了检测出的时空兴趣点特征，其具体方法参考：Ming-yu Chen and Alex Hauptmann, MoSIFT: Recognizing Human Actions in Surveillance Videos，CMU-CS-09-161.。

步骤30 基于概率图模型的多视角特征的融合

首先，根据步骤20，提取相邻视角下相同动作的时空兴趣点；

其次，为了挖掘多视角特征的内在一致性，并剔除冗余点，为这些点构建图模型，即以这些时空兴趣点为节点，并以时空兴趣点的余弦相似性为边，构建图模型；

然后，针对某个视角下每个点，根据其与另一个视角下点的相似性和预先设定的经验阈值（实验中阈值采用0.75），找出最为相似的几个点，从而以这几个点的中心为替代点，其它点将被剔除。这样，不仅能够最大限度的保留和融合这些点，并剔除了很多干扰点。

其连接示意图如图5所示，具体概率图模型构建方法参考：张宏毅，王立威，陈瑜希，概率图模型研究进展综述，软件学报，2013,24(11):2476-2497。

步骤40 基于“词袋”的特征归一化

在步骤20中已经为每个视角下动作都提取了时空兴趣点，同时，步骤30中也已经对这些点进行了融合和剔除。在步骤20的基础上，采用K-Means方法，为所有视角构建码字大小为1000的共有码书，然后，针对融合前的每个视角下的时空兴趣点和融合后的所有点，采用“词袋”方法，分别将这些时空兴趣点特征投影到共有码书上，并采用各个视角下各自动作的兴趣点数目进行归一化，实现对其动作的描述。其过程如图6所示，具体方法见Jun Yang, Yu-Gang Jiang, Alexander G. Hauptmann etc, Evaluating bag-of-visual-words representations in scene classification[C], International Multimedia Conference, MM'07, 2007, 197-206.

步骤50基于协同表示和判别准则的多视角联合动作词典学习

多视角方法虽然可能解决视频监控中由于遮挡、光照、视角变化等因素带来的难题，然而如何有效的对多视角特征进行融合直接影响到该方法的成败。因此，为了解决该问题，拟通过基于协同表示和判别准则的制定，挖掘多视角场景中人体动作特征的内在关联特性，实现高效的多视角人体动作识别。其具体定义为：

其中，表示多视角环境中摄像头的总数，表示动作识别中动作类别总数，表示词典,并且，表示第个视角场景下动作对应基的集合，而表示经过概率图模型进行多视角融合后的所对应基的集合。同理，对于表示特征，并且表示第个视角场景下动作对应特征集合，而表示经过概率图模型进行多视角融合后的所对应基的集合。表示稀疏表示系数集合，且，其中表示对应第个动作的重建系数，表示在第个视角场景下第个动作的重建系数的平均值，这样做的目的是在词典学习中为了使重建系数具有更好的判别性，且表示对应的样本总数，而表示在第个视角场景下所有动作的重建系数的平均值。，和是标量常数，用于控制其对应项的贡献程度，表示矩阵的秩，而,和分别表示1，2和F范数。

传统的词典学习（目标函数）中，有时不需要训练，直接采用训练样本作为基，而更多则采用最小二乘和1-范数正则项来构建目标函数，从而学习词典。虽然采用这些方法获得的词典也能够对样本进行重建，但是重建系数的稀疏性，结构性和判别性有待提高，且当基的类内距离相对较大而类间距离相对较小的时候，基于该方法的目标分解结果并不稳定。因此，针对多视角动作识别问题，提出了基于协同表示和判别准则的多视角联合动作词典目标函数，该目标函数具体包括以下几个部分：

l 多视角联合保真项 -：在传统的动作识别中，通常使用一个摄像头，然而，在实际情况中，常常发生遮挡，视角变化和光线变化等，造成重建误差增大，并导致动作识别的失败。而多视角场景中通过多个不同视角的摄像头能够较好的解决这些问题，而解决该问题的关键是如何挖掘多视角的内在关联。在多视角联合保真项中，所有视角共用码书，同时，所有视角的重建系数也保持一致，这样根据最小二乘准则，对待测样本进行最大程度的重建，充分挖掘它们内在的关联。

l 基于图模型的融合保真项 - , 虽然多视角联合保真项最大程度的挖掘了多视角场景的内在关联，但是它们忽略了内在一致性，然而，相邻视角下存在一定的内在一致性。通过概率图模型，挖掘它们的内在一致性，并剔除冗余信息，最后，以概率图模型处理后的信息对样本进行重建，并同样保留与多视角联合保真项中相同的重建系数。

l 组稀疏正则项- :单独利用保真项进行目标重建往往缺少对重建系数稀疏性，以及对稀疏系数分组特性的约束，因此引入组稀疏正则项来实现对重建系数稀疏性约束。其中1范数约束重建系数的稀疏性，而2范数则约束重建系数的组特性，从而使得重建系数不仅稀疏，而且尽可能的由相同类进行重建。

l 具有结构化的判别正则项 - ：在限定重建系数稀疏性的同时，通常还希望对同类基赋予较接近的权重，来增强类内的一致性和类间的差异性。利用基潜在的类别特性构建结构化正则项，既希望仅利用目标所属类别的基进行重建时，其重建误差最小，又希望利用其它基进行重建的贡献最小，所以结构化正则项可以表示为。而判别性正则项：通常希望重建系数中对应待重建目标所属类别的基具有非零系数，那么具有非零系数的基的类别即可以被用作分类准则。因此，在稀疏化和结构化约束的基础上，通过判别性正则项的引入显性增强重建系数的判别性，然而，该判别正则项的非凸性，因此，添加了范数，使得他们整体具有凸性。

在构建完目标函数后，需要求解该目标函数，训练得到对应的多视角联合词典，虽然该目标函数对不是联合凸函数，但是当或中某个变量固定时，该目标函数变为凸函数，因此，通过坐标下降法对该目标函数进行求解迭代，从而获得对应的多视角联合动作词典。具体方法见：Jenatton, R., Obozinski, G., Bach, F.: Structured sparse principal component analysis. In: AISTATS, pp. 366–373 (2010)。

步骤60基于多视角联合动作词典和稀疏表示的动作识别

为了验证多视角动作联合词典学习的有效性，在获得多视角联合动作词典的基础上，利用该联合词典构建样本空间，并对待测样本，利用联合词典对其进行重建，求出重建系数，具体定义为：

其中表示视角下对应的样本特征，表示经过图模型融合后的特征，表示学习的词典，表示对应重建系数，其他参数含义与公式（1）中参数含义一样。同样，该目标函数对是凸的，同样基于坐标下降法对其进行求解，获得对应的重建系数。

在重建系数的基础上，将重建系数和词典，根据动作类别进行分类，仅保留某个动作的词典和重建系数，并对样本进行重建，计算每个动作的重建误差。当重建误差最小时，对应的动作类别即为待测样本的类别，具体定义为：

(3)

其中为动作类别，表示视角下的待测样本特征，表示对应动作的最优化重建系数，表示对应动作的多视角联合词典，具体方法可以参考：J. Wright, A. Yang, A. Ganesh, S. Sastry, and Y. Ma. Robust face recognition via sparse representation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2009.。

通过对(1)式的最优求解，不仅能够在多视角联合空间中自动地寻找最优的基，从而有利于解决由于视角变化、遮挡、距离远近和关注目标本身位置变化等因素带来的干扰，充分挖掘多视角场景中的内在关联。而通过(2)和(3)式的求解，求出对应的重建稀疏系数，并对其进行识别。

其中图7标识了模型在采用或不采用多视角联合词典的条件下，其重建系数的变化情况，从图7可以看出，当采用多视角联合词典时，其系数具有更好的区分性，能够更好的识别动作类别。同时，通过在多个数据集上实验表明，基于协同表示和判别准则的多视角联合动作词典学习方法是有效的，能够充分的挖掘多视角中的内在关联。

最后，在多视角动作数据集上对以上词典学习算法进行了评估，并和现有算法进行了比较，其具体结果如图8所示。

具体过程为：

1）首先，采用步骤10中的方法对三个视角，白天和黑夜，18个人，10个动作，每人每个动作做4次，总共4320个视频序列进行预处理；

2）其次，采用步骤20中的方法对每个视频序列提取时空兴趣点，并保存，其中每个视频提取了100-500不等的时空兴趣点；

3）再次，针对每个人每个动作的三视角视频中提取的时空兴趣点，采用步骤30中采用的方法进行融合，其中，其阈值根据经验值设定为0.75；

4）再次，在步骤20的基础上，每个视频任意选取10%的时空兴趣点，用于构建多视角共同码书，码书大小为1000。在训练码书时，先任意选取1000个点作为初始点，然后，以这些初始点为中心，采用K-means方法对初始点进行更新，并重新以更新后的初始点位中心点，然后，反复更新中心点，直到中心点无变化为止；这最后的中心点即为最后的多视角共同码书，每个中心点即为多视角联合码字。

5）再次，针对每个视频提取的时空兴趣点，分别计算每个点与共同码书中每个码字的距离，并找出距离小时对应的码字，并对该点采用码字的标号进行标记，最后分别统计每个码字出现的频率，并以此对该视频进行表示；

6）再次，在步骤40的基础上，将数据集划分为训练集，验证集和测试集，同时，采用训练集和验证级，针对步骤50中模型，采用坐标下降法学习多视角联合词典，其中，，和的取值范围为 [1, 0.5, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005, 0.0001]；

7）再次，在学习的多视角词典上，针对每个测试集中的每个样本，依次采用多视角联合词典对其重建，具体重建函数如步骤50所示，求解出该重建函数对应的重建系数，并分别计算使用各类的重建系数进行重建时，对应的重建误差，根据重建误差最小原则，判断该测试样本的类别。依次对每个样本进行测试，统计对应的测试准确率。其具体结果见图8。

从该图可以看出，本发明提出的基于协同表示和判别准则的多视角联合动作词典学习方法具有很好的有效性。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于协同表示和判别准则的多视角联合动作词典学习方法，用于挖掘多视角视频监控中目标动作的内在关联，以实现对多视角场景的动作识别，其特征在于该方法具体包含以下步骤：

第1、视频预处理

第2、时空兴趣点提取

第3、基于概率图模型的多视角时空兴趣点融合

针对不同视角下相同动作的时空兴趣点的提取结果，使用概率图模型的方法对多视角特征进行融合，挖掘多视角特征的内在一致性；

第4、基于“词袋”的特征归一化

第5、基于协同表示和判别准则的多视角联合动作词典学习

在第4步归一化特征的基础上，根据协同表示和判别准则制定相应的正则项，构建多视角联合动作词典，并对其进行学习，完成相应词典的构建；

第6、基于多视角联合动作词典和稀疏表示的动作识别

2.根据权利要求1所述的方法，其特征在于第3步所述基于概率图模型的多视角时空兴趣点融合步骤包括：

第3.2、针对相邻视角，以每个时空兴趣点为节点，并以两个视角下时空兴趣点的相似性为边，构建图模型；

第3.3、针对某个视角下每个点，根据其与另一个视角下点的相似性和预先设定的阈值，找出最为相似的几个点，从而以这几个点的中心为替代点，其它点将被剔除。

3. 根据权利要求1所述的方法，其特征在于第5步所述基于协同表示和判别准则的多视角联合动作词典学习，其步骤包括：

第5.3、针对该模型的联合非凸性，无法直接求解，但是当其中某个变量固定时，该模型又变为凸函数，因此，通过坐标下降法对该目标函数进行求解迭代，获得对应的多视角动作联合词典。