CN108573241B

CN108573241B - 一种基于融合特征的视频行为识别方法

Info

Publication number: CN108573241B
Application number: CN201810382014.2A
Authority: CN
Inventors: 罗会兰; 王婵娟; 王吉源
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2022-07-15
Anticipated expiration: 2038-04-25
Also published as: CN108573241A

Abstract

本发明公开了一种新的基于融合特征的视频行为识别方法。针对单一特征描述符在描述视频空间信息的不足，提出将位置信息映射到描述符中进行融合编码。即在特征提取阶段分别提取视频的描述符特征和位置信息，生成相对应的视觉词典和位置词典，然后将位置信息映射到描述符中进行编码。在编码阶段为了克服传统VLAD方法只考虑特征与其最接近聚类中心的不足，提出在其基础之上另外计算每个聚类中心与其最相似特征的差值，并将两者结合起来作为特征的编码向量，获取更全面的视频表示。在两个大型数据库UCF101及HMDB51数据库上的实验比较结果表明，本发明提出的方法比传统VLAD方法具有较大的性能提升。

Description

一种基于融合特征的视频行为识别方法

技术领域

本发明属于计算机视觉，行为识别技术领域，具体涉及基于手动提取特征的行为识别方法。

背景技术

视频中的行为识别作为计算机视觉的分支，应用领域非常广泛，比如智能监控、人机交互、基于内容的视频搜索等。现实环境录制的视频往往存在背景杂乱、相机抖动、尺度及视角变化等多种问题。且相同动作类之间可能存在差异、不同动作类之间又具有相似性。比如不同人走路的步子大小存在差异，蹲下和坐下这两个不同动作又有较大相似性。这些问题使得行为识别一直是计算机视觉领域一个非常具有挑战性的难题。

当前行为识别研究领域大体可以分为两类：基于深度学习的方法和基于传统的方法。深度学习中用于行为识别的主流方法是卷积神经网络CNN(Convolutional NeuralNetworks)及其衍生方法。CNN最先应用于图像识别领域并取得较大成功。但视频和图像不同，图像是静止的，视频是动态的。因此Annane等人提出构建双流CNN网络用于行为识别，将视频看做一段图像序列，空间流计算图像帧的CNN特征，时间流计算若干图像帧间的光流CNN特征，最后再将两者进行融合。这种方法虽然将立体的视频识别问题转化为了平面的图像识别问题，但却丢失了动作的时间关联信息。为了弥补双流架构在时间信息上的丢失，Wang L等人提出了三流CNN架构。该架构在二流架构的基础之上将时间流进一步细分，分为局部时间流和全局时间流。动作图像特征和光流特征分别作为空间流和局部时间流的输入，通过学习运动叠差图像MSDI(Motion Stacked Difference Image)的CNN特征作为全局时间流的输入。在UCF101及HMDB51数据库上的实验表明，基于三流CNN架构的识别准确度比两流CNN方法分别高了1.7％和1.9％。还有一些研究者对CNN特征提取对象做了改进，比如Gkioxtari等人提出不对整个图像帧学习特征，而是在图像帧上先选择一个包含人体的包围盒作为主区域，然后根据主区域定义若干个次区域，利用最大值函数计算次区域包含的信息量并将其得分给主区域。然后利用RCNN(Region-based Convolutional Net-workmethod)对主区域和次区域进行训练学习得到视频的特征表示。该方法在数据库PASAL VOCAction dataset上获得了90.2％的平均准确度均值，超出同期其他方法。Cheron等人提出P-CNN(Pose based CNN)，该方法是先对输入的视频进行姿势估计，然后对身体不同部分提取CNN特征，再将各个部分的特征融合起来，该方法在数据库JHMDB和MPII Cookingdataset上均领先同期方法。

传统的方法就是对视频特征进行手动提取，然后再训练模型进行预测分类。相较于深度学习的端到端的方法，传统方法由于所提取特征可能并不能完全满足后续的分类任务要求，所以目前在性能上无法与端到端的方法相比。但手动提取的特征针对性更强，且在训练速度和对训练数据量的要求上都比基于深度模型的方法有优势。更何况经过多年的研究，许多优秀的特征提取和描述方法被开发出来并获得较好的识别效果。

Perronnin等提出利用费舍尔核函数对视觉单词进行编码得到均值和协方差，并将其进行串联用以表示图像，从而实现图像分类功能。该方法统计了1阶和2阶信息，因此识别准确度较高。但也因为需要计算的信息比较高阶，因此计算也较慢，常常需要配合降维处理。Jegou等人提出的VLAD(Vector of Aggragate Locally Descriptor)编码方法和费舍尔编码类似，不过只保留了1阶信息，因此较大减少了计算量，且识别准确度不逊色于费舍尔编码。Mironicai等人提出了一种基于VLAD编码的快速行为分类方法，该方法对每一帧图像的特征进行编码而不是对视频的局部时空特征进行编码，并且在词典生成时用随机森林法替代K均值，这种方法计算代价小，但相应的在识别准确度上也有损失。

发明内容

本发明通过补充提取特定的信息，改善特征编码能力，提高视频表征的效果，从而提高后续的行为识别准确度。

本发明通过以下技术方案实现的。

本发明所述的一种基于融合特征的视频行为识别方法，包括以下步骤：

步骤1：输入训练视频集并进行采样，得到兴趣点；

步骤2：对兴趣点进行特征提取，得到视觉特征和位置特征(x,y,t)；

步骤3：对位置特征进行规范化处理，使得输入的任意视频的位置特征均在统一范围内。

步骤4：利用k均值分别对兴趣点的视觉特征和位置特征进行聚类，得到相应的视觉词典和位置词典；

步骤5：将视觉特征根据对应的视觉词典进行改进的聚合局部描述符编码得到视觉向量；

步骤6：为每个兴趣点分配一个残差特征和一个组特征，然后对这两个特征依据位置词典的划分方式进行聚类、编码得到相应的残差向量和组特征向量。

步骤7：将第6步得到的残差向量和组特征向量进行串联得到位置向量。

步骤8：将第5步的视觉向量和第7步的位置向量进行串联得到视频的全局表示向量。

步骤9：对第8步得到的全局表示向量进行归一化处理并将其与自身串联得到视频的规范后的视频表示向量。

步骤10：将第9步得到的视频表示向量用于线性SVM，训练并得到分类器。

更进一步地，本发明第5步所述的改进的聚合局部描述符编码的策略是在传统的聚合局部描述符编码的基础之上对编码系数求均值，并强化聚类中心的表达作用。即在该策略中，视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值加上该视觉单词与其最相似的视觉特征的差值。

更进一步地，本发明第6步所述的编码考虑到残差特征传递的是兴趣点的视觉特征与其所属聚类中心的差值，以及组特征传递的是兴趣点基于视觉特征相似性的分类信息，存在多个兴趣点的组特征相同的情况，所以编码时采取简化的改进聚合描述符编码策略，即每个视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值。

更进一步地，本发明第9步所述的归一化处理采用如下四种方式中的一种：

(1)方式1：对特征集、词典、单个样本特征及编码向量均做L2正则和PowerNormalization处理。

(2)方式2：对词典、单个样本特征及编码向量做L2正则和Power Normalization处理。

(3)方式3：只对编码向量做L2正则和Power Normalization处理。

(4)方式4：只对编码向量做L2正则。

更进一步地，本发明第1步所述的兴趣点的提取和描述方法为STIP，STIP方法是稀疏采样，本发明第2步所述的视觉特征包括STIP方法提取到的兴趣点特征HOG和HOF。

更进一步地，本发明第1步所述的兴趣点的提取和描述方法为IDT，IDT方法是稠密采样，本发明第2步所述的视觉特征包括IDT方法提取到的兴趣点特征HOG、HOF和MBH。

更进一步地，本发明第6步所述的残差特征定义为该兴趣点的视觉特征和其所属聚类中心的残差。

更进一步地，本发明第6步所述的组特征定义为该兴趣点在生成视觉词典时所属的聚类中心类别。

与现有的技术相比，本发明所述的行为识别方法采取了多种特征融合的视频表征方式，在视频的特征表达层面引入了位置信息，并在编码环节对原有的VLAD编码技术做了改进，强化了聚类中心的作用。能够保证视频的有效特征得到充分表达，通过在两个大型公开数据库UCF101和HMDB51上的实验结果对比，本发明提供的方法在识别准确度上有较大提升。

附图说明

图1为本发明Matlab仿真实验中用到的UCF101数据库部分示意图

图2为本发明Matlab仿真试验中用到的HMDB51数据库部分示意图

图3为本发明对视频依据Harris角点检测器提取到的兴趣点示意图

图4为本发明构建视频特征级表示流程示意图

图5为本发明构建视频向量级表示流程示意图

图6为本发明视频识别流程

图7为不同视觉及位置词典大小下识别准确度的变化

图8为不同归一化方式下识别准确度的变化

图9为向量串联前后准确度的变化

具体实施方式

下面结合实施实例和附图对本发明作进一步说明。

在UCF101数据库上分三次对数据库进行识别，取每次的识别准确度的均值作为本算法的识别准确度。其中第一次是取101个类中每个动作类的第8-25组为训练组，第1-7组为测试组；第二次是取101个类中每个动作类的1-7组和15-25组为训练组，8-14组为测试组；第三次是取101个类中每个动作类的1-14组合和22-25组为训练组，15-21组为测试组。选取了两种常用特征时空兴趣点特征和改进稠密轨迹特征作为视频的特征表示。基于改进稠密轨迹特征的位置词典和视觉词典大小设置为1000，位置词典大小设置为50；基于时空兴趣点特征的视觉词典大小设置为8000，位置词典大小为400。编码方式都采用了本文所提出的改进VLAD编码方法，在编码后对表示向量进行了L2归一化和Power Normalization，其中Power Normalization的规范参数设置为0.5；并将归一化后的向量与其自身串联作为视频的向量表示。先对训练视频依据角点探测器提取兴趣点，然后提取兴趣点的特征信息，包括方向梯度直方图HOG和光流方向信息直方图HOF以及位置信息p(x,y,t)，其中x、y、t分别表示兴趣点在横轴、纵轴及时间轴上的值。

为了将任意视频的位置信息局限在统一区间范围内，便于后续处理计算，对位置信息作如下规范处理。即x、y、t分别除以视频的高、宽和帧数。这种规范化操作能保证对于输入的任意大小的视频，其位置信息都能规范在统一区间。

假设在一段视频中提取到n个兴趣点，那么这段视频的视觉特征可以表示为χ＝{x₁,...,x_n}，相应的位置特征可以表示为P＝{p₁,...,p_n}其中x_j和p_j分别表示第j个兴趣点的视觉特征和位置特征。附图5示例了本发明中视频表示向量的构造过程。

由附图5可知，先对视觉特征构造视觉向量，用k均值聚类对视觉特征进行聚类，生成视觉词典。假设聚类得到的视觉词典VD₁大小为k₁，则表示为

其中C_i表示视觉词典中第i个聚类中心。

则第i个聚类中心的编码向量表示为：

其中x_j表示聚类中心C_i所包含的第j个视觉特征，N_i表示聚类中心C_i所包含的视觉特征个数，x_t表示聚类中心所包含的视觉特征中与其最相似的视觉特征。综上所述，当视觉字典大小为时k₁，视频的视觉编码向量可以表示为：

由上文可知，兴趣点的位置特征和视觉特征一一对应，即每个兴趣点j都对应一个视觉特征x_j和一个位置特征p_j。为了将位置信息映射到视觉特征空间中，为每个兴趣点分配一个残差特征，兴趣点的残差特征值为视觉向量计算时该兴趣点的视觉特征与其所属聚类中心的残差。也就是说我们把上一步中第j个兴趣点与其所属聚类中心的残差赋值给r_j，作为第j个兴趣点的残差表示。假设对位置特征进行聚类得到一个大小为k₂的位置词典LD₂，p_j是LD₂中第i个聚类中心L_i所包含的第j个位置特征，则将对应的r_j分配给第i个残差聚类中心，依照这种划分策略，就将所有兴趣点的残差特征聚类得到了k₂个聚类中心。因为残差特征传递的是兴趣点的视觉特征与其所属聚类中心的差值，所以不再强化聚类中心的作用，则基于位置特征聚类策略的第i个聚类中心的残差向量可以编码表示为：

其中R_i表示依据位置特征聚类得到的对应的第i个残差聚类中心，N_i表示第i个聚类中心R_i所包含的残差数，r_j表示聚类中心R_i包含的第j个残差。则视频基于位置特征划分的残差向量表示为：

为了保留上一步计算视觉向量时的聚类信息，为视频所提取的n个兴趣点分配一个组特征。也就是假设第j个兴趣点在计算视觉向量时属于第i个聚类中心，那么给第j个兴趣点分配一个g_j表示第j个兴趣点的组类特征。g_j定义为一个k₁维的向量g_j＝[01000...000]，其中1位元素为1，用以区分所属组别，其余元素均为0。因为组特征传递的是兴趣点基于视觉特征相似性的分类信息，存在多个兴趣点的组特征相同的情况，所以编码时也不额外增加聚类中心与其最相似特征的计算。即第i个聚类中心G_i的编码向量表示为：

其中G_i表示依据位置特征聚类策略得到的对应的第i个组特征聚类中心，N_i表示第i个聚类中心G_i所包含的组特征数，g_j表示聚类中心G_i包含的第j个组特征。将组特征向量和残差特征向量串联起来，即为位置向量。则视频基于位置特征划分的组特征向量表示为：

位置向量表示为：

VLAD_l＝[VLAD_r,VLAD_g]

将编码得到的视觉向量和位置向量串联得到视频动作的表征向量IVLAD，全称为Improved Vector of Locally Aggregated Descriptors，然后再将其与自身串联升维后得到本发明最终的表征向量如下所示：

IVLAD＝[[VLAD_v,VLAD_l],[VLAD_v,VLAD_l]]

接着还需对表征向量进行归一化，本发明采取L2正则和Power Normalization的组合方式对向量进行归一化。即先对IVLAD进行L2归一化，再对归一化后的向量采用PowerNormalization策略二次归一化，并将二次归一化的向量与其自身叠加串联作为视频的最终表示向量，以期通过提升表示向量维度达到增强向量表示能力的效果。然后将最终表示向量输入到线性SVM中进行分类预测。本发明验证分析了不同归一化策略组合对识别性能的影响。

实验结果表明，本发明优选的具体实施例利用不同特征形成的聚合视频表示向量可以发现不同的视频信息，当组合这些不同信息时，可以得到显著的性能提升。本发明所述方法基于时空兴趣点特征在UCF101数据集上的识别准确度为87.18％，基于改进稠密轨迹特征在UCF101数据集上的识别准确度为90.60％。分别比基于融合向量的超级稀疏编码方法高了11.22％和8.29％，比深度网络中经典的双流方法高了2.6％。

Claims

1.一种基于融合特征的视频行为识别方法，包括以下步骤：

步骤1：输入训练视频集并进行采样，得到兴趣点；

步骤3：对位置特征进行规范化处理，使得输入的任意视频的位置特征均在统一范围内；

步骤6：为每个兴趣点分配一个残差特征和一个组特征，然后对这两个特征依据位置词典的划分方式进行聚类、编码得到相应的残差向量和组特征向量；

步骤7：将第5步得到的残差向量和组特征向量进行串联得到位置向量；

步骤8：将第5步的视觉向量和第7步的位置向量进行串联得到视频的全局表示向量；

步骤9：对第7步得到的全局表示向量进行归一化处理并将其与自身串联得到视频的规范后的视频表示向量；

2.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤5所述的改进的聚合局部描述符编码的策略是在传统的聚合局部描述符编码的基础之上对编码系数求均值，并强化聚类中心的表达作用；即在该策略中，视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值加上该视觉单词与其最相似的视觉特征的差值。

3.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤6所述的编码考虑到残差特征传递的是兴趣点的视觉特征与其所属聚类中心的差值，以及组特征传递的是兴趣点基于视觉特征相似性的分类信息，存在多个兴趣点的组特征相同的情况，所以编码时采取简化的改进聚合描述符编码策略，即每个视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值。

4.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤9所述的归一化处理采用如下四种方式中的一种：

(1)方式1：对特征集、词典、单个样本特征及编码向量均做L2正则和PowerNormalization处理；

(2)方式2：对词典、单个样本特征及编码向量做L2正则和Power Normalization处理；

(3)方式3：只对编码向量做L2正则和Power Normalization处理；

(4)方式4：只对编码向量做L2正则。

5.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤1所述的兴趣点的提取和描述方法为STIP，STIP方法是稀疏采样，步骤2所述的视觉特征包括STIP方法提取到的兴趣点特征HOG和HOF。

6.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤1所述的兴趣点的提取和描述方法为IDT，IDT方法是稠密采样，步骤2所述的视觉特征包括IDT方法提取到的兴趣点特征HOG、HOF和MBH。

7.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤6所述的残差特征定义为该兴趣点的视觉特征和其所属聚类中心的残差。

8.如权利要求1所述的一种基于融合特征的视频行为识别方法，其特征在于：步骤6所述的组特征定义为该兴趣点在生成视觉词典时所属的聚类中心类别。