CN108256434B

CN108256434B - 基于混淆矩阵的高层语义视频行为识别方法

Info

Publication number: CN108256434B
Application number: CN201711415758.1A
Authority: CN
Inventors: 同鸣; 郭志强; 陈逸然; 田伟娟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2021-09-28
Anticipated expiration: 2037-12-25
Also published as: CN108256434A

Abstract

本发明公开了基于混淆矩阵的高层语义行为视频识别方法，主要解决现有技术因混淆造成识别率低的问题。其实现步骤是：1)提取行为视频的稠密轨迹，获取轨迹的底层特征；2)利用底层特征进行行为识别，获取混淆矩阵；3)针对混淆矩阵，定义能区分混淆行为的高层语义列表；4)将高层语义列表和行为视频数据相关联，为每一种高层语义训练对应的判别式分类器，并将行为视频在所有判别式分类器下的判分值串接，得到高层语义特征向量；5)获取底层特征在线性SVM分类器下的隶属度，联合隶属度和高层语义特征向量，训练LSVM分类器进行行为识别。本发明能有针对性地纠正混淆行为，提高了行为识别的准确率，可用于视频监控。

Description

基于混淆矩阵的高层语义视频行为识别方法

技术领域

本发明属于视频图像处理技术领域，特别涉及一种视频行为识别方法，可用于视频监控。

背景技术

近年来，行为识别与视频分类日益重要的学术价值、经济效益和社会价值引起了众多学者的普遍关注，成为计算机视觉领域具有挑战性的研究课题，人体行为识别在智能视频监控、视频内容检索、新型人机交互、虚拟现实、视频编码与传输、游戏控制等多方面具有广阔的应用前景。随着视频行为识别领域研究工作的不断深入，研究者发现，底层特征对于复杂的视频行为描述能力非常有限，研究热点逐步从新底层特征的设计和提取，转移到高层语义的定义和分类模型的构建等。为此，众多学者致力于挖掘底层新特征，并在此基础上构建高层语义，取得了不菲的研究成果。

目前已提出的高层语义构建方法主要有：

(1)A.Farhadi,I.Endres,D.Hoiem,and D.Forsyth.Describing objects bytheir attributes.In CVPR,2009。该文章开创性的将识别任务由命名转向了描述，即将对象命名转变为描述对象的属性或性质，并将属性应用于对象的检测和分类，获得了较好的识别结果，但该方法未考虑对象的属性和行为类别间的一致性关系，使得对象的属性缺乏较好的判别能力，降低了行为识别的准确率。

(2)J.Liu,B.Kuipers,and S.Savarese.Recognizing human actions byattributes.In CVPR,2011。该文章将高级语义概念引用到行为识别领域，以满足复杂的行为视频表示，同时还考虑了属性和视频中行为类别间的相关性。然而，该高层语义仅考虑了名词属性和形容词属性，描述能力仍然不足。

(3)Yao B,Jiang X,Khosla A,et al.Human action recognition by learningbases of action attributes andparts.In ICCV,2011:1331-1338。该文章不仅将与行为相关的动词属性用于人体行为识别，还联合了与行为密切相关的对象和姿势部件，加入了更丰富的语义信息，获得了较高的行为识别准确率。然而对象和姿势的学习，需要额外学习对象检测器和姿势检测器，而对象检测器需要在精确检测对象的基础上实现，应用于复杂的人体行为比较困难。

发明内容

本发明目的是针对上述已有技术的不足，提出基于混淆矩阵下高层语义的视频行为识别方法，以充分利用完备的人类高级知识，有针对性地纠正视频行为混淆，提高视频行为识别的准确率。

为实现上述目的，本发明的技术方案包括如下：

(1)对所有行为视频提取稠密轨迹，采用轨迹的方向梯度直方图HOG和光流方向直方图HOF对轨迹进行描述，并对该HOG和HOF分别采用主成分分析PCA降维，得到行为视频的两个底层特征F_HOG和F_HOF；

(2)对两个底层特征F_HOG和F_HOF分别进行K-means聚类，再采用词袋模型BoW分别编码，串接得到行为视频的底层特征向量M，将M作为线性SVM分类器的训练样本，训练得到所有行为的SVM分类器集合SVM_Low_Set；

(3)采用步骤(2)训练得到的分类器集合SVM_Low_Set，对行为视频进行分类，获取分类后的混淆矩阵H；

(4)针对混淆矩阵H，人工定义能够区分混淆行为的高层语义，获取所有行为类别的高层语义集合G_set；

(5)将高层语义集合G_set与行为类别相关联，获取完整的高层语义列表L；

(6)将高层语义列表L和行为视频训练集Train_Set相关联，获取所有高层语义的判别式分类器集合SVM_Dis_Set；

(7)将行为视频测试集Test_Set中的每一个行为视频V_n，依次输入到SVM_Dis_Set中，将所有判别式分类器的判分输出结果串接，得到行为视频V_n的高层语义特征向量G_Feat(V_n)；

(8)将行为视频训练集Train_Set与测试集Test_Set进行交换，重复步骤(6)和步骤(7)，得到所有行为视频的高层语义特征向量G_Feat；

(9)利用行为视频分类器集合SVM_Low_Set，获取各行为视频类别在其隶属类别分类器下的隶属度Sco，并与行为视频的高层语义特征向量G_Feat共同训练隐变量支持向量机LSVM分类器，测试时，将测试样本的隶属度和高层语义特征向量输入到训练好的LSVM中，获取视频行为分类结果。

本发明与现有技术相比具有以下优点：

1)本发明针对混淆矩阵，人工定义高层语义，能够有针对性地纠正混淆行为。

2)本发明将底层特征的隶属度和高层语义特征向量作为隐变量，能够描述语义特征与行为类别的相关性，最终提高了视频行为识别的准确率。。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图，对本发明的实施做进一步详细描述。

参照图1，本发明基于混淆矩阵的高层语义视频行为识别方法，实现步骤如下：

步骤1，提取稠密轨迹，得到行为视频的底层特征。

对行为视频帧中的像素点进行稠密采样，并根据稠密光流进行特征点跟踪，提取稠密轨迹，用来表示行为的运动；

对稠密轨迹采用轨迹的方向梯度直方图HOG和光流方向直方图HOF进行描述，并对该HOG和HOF分别采用主成分分析PCA降维，得到行为视频的两个底层特征F_HOG和F_HOF。

步骤2，获取所有行为类的SVM分类器集合SVM_Low_Set。

(2.1)设定聚类中心个数为N，分别对底层特征F_HOG和F_HOF进行K-means聚类，并用N个聚类中心构建码书；

(2.2)利用步骤(2.1)构建的码书，分别对F_HOG和F_HOF进行量化编码，统计量化编码后的码字直方图，作为该行为视频的两个底层特征描述子；

(2.3)将两个底层特征描述子进行串接，作为该行为视频的底层特征向量M，使用线性SVM分类器进行训练，得到所有行为类别的SVM分类器集合SVM_Low_Set。

步骤3，获取混淆矩阵H。

采用步骤2训练得到的分类器集合SVM_Low_Set，对行为视频进行分类，获取分类后的混淆矩阵H；

步骤4，根据混淆矩阵H，针对错分的行为类别，获取所有行为类别的高层语义集合G_set。

(4.1)利用步骤(3)得到的混淆矩阵H，选择H中非对角线上的非零元素，将其作为行为视频中的混淆行为；

(4.2对混淆行为进行有针对性地纠正，列举混淆行为的所有属性，从该属性中选择能够区分混淆行为的属性，作为混淆行为视频的高层语义；

(4.3)对不同混淆行为执行步骤(4.2)的过程，得到所有行为类别的高层语义集合G_set。

步骤5，将高层语义集合G_set与行为类别相关联，获取完整的高层语义列表L。

(5.1)通过二进制方法获取各高层语义在所有行为类别下的二进制值：

若某类行为视频中包含某一个高层语义，则将该类行为视频的标签设置为1，并将该类行为视频作为正样本；

否则，将该类行为视频的标签设置为0，并将该类行为视频作为负样本；

(5.2)统计所有行为类别对应的二进制标签值，得到行为视频数据集完整的高层语义列表L。

步骤6，将高层语义列表L和行为视频训练集Train_Set相关联，获取所有高层语义的判别式分类器集合SVM_Dis_Set。

(6.1)将行为视频数据集中的行为视频划分为训练集Train_Set和测试集Test_Set；

(6.2)利用步骤5获得的高层语义列表L，对于每一种高层语义，利用训练集Train_Set中的行为视频，对线性SVM判别式分类器进行训练；

(6.3)针对所有的高层语义，逐一对线性SVM判别式分类器进行训练，获取所有高层语义对应的判别式分类器集合SVM_Dis_Set。

步骤7，将测试集Test_Set中的每一个行为视频V_n，依次输入到判别式分类器集合SVM_Dis_Set中，将所有判别式分类器的判分输出结果进行串接，得到行为视频V_n的高层语义特征向量G_Feat(V_n)。

步骤8，获取所有行为视频的高层语义特征向量G_Feat。

(8.1)将行为视频训练集Train_Set与行为视频测试集Test_Set进行交换，得到新的行为视频训练集Train_Set′和行为视频测试集Test_Set′；

(8.2)将高层语义列表L和Train_Set′相关联，获取所有高层语义的新判别式分类器集合SVM_Dis_Set′；

(8.3)将Test_Set′中的每一个行为视频V′_n，依次输入到判别式分类器集合SVM_Dis_Set′中，将所有判别式分类器的判分输出结果进行串接，得到行为视频V′_n的高层语义特征向量G′_Feat(V′_n)；

(8.4)通过步骤7和步骤(8.3)得到所有行为视频的高层语义特征向量G_Feat。

步骤9，利用步骤2训练好的所有行为类的SVM分类器集合SVM_Low_Set，将所有行为视频分别输入到该SVM_Low_Set中，获取其底层特征在隶属类别分类器下的隶属度Sco。

步骤10，联合隶属度Sco和高层语义特征向量G_Feat，训练隐变量支持向量机LSVM分类器，进行行为识别。

(10.1)将隶属度Sco和高层语义特征向量G_Feat作为行为视频的隐变量；

(10.2)根据两个隐变量Sco和G_Feat，构建LSVM分类器的目标函数如下：

其中，F_w(V_n,k)表示任意行为视频V_n的底层特征和高层语义在类别k的权系数向量下的判分，k＝1,2,…,L，L表示所有行为类别的总数，W₁表示隶属度的权系数，W₂表示高层语义向量的权系数向量，Sco(V_n,k)表示行为视频V_n的底层特征在类别k下的隶属度，G_Feat(V_n)表示行为视频V_n的高层语义向量；

(10.3)利用如下权系数向量目标函数，学习第k类行为视频

的权系数向量W_k：

其中，

表示第k类行为训练集中的视频

的二进制标签，C为惩罚系数，

为标准的铰链损失函数，目标函数采用坐标下降法得到权系数向量W_k；

(10.4)将行为视频测试样本的隶属度和高层语义特征向量，输入到训练好的LSVM分类器中，获取行为视频类别。

为验证本发明的有效性，在标准的人体行为数据库KTH和UCF-Sports上，利用本发明进行人体行为识别；

识别结果为：在数据库KTH上的识别率为98.33％，在数据库UCF-Sports上的识别率为97.33％。

以上描述仅是发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明的内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。