CN105893936A

CN105893936A - 一种基于hoirm和局部特征融合的行为识别方法

Info

Publication number: CN105893936A
Application number: CN201610184680.6A
Authority: CN
Inventors: 宦若虹; 郭峰; 王楚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2016-08-24
Anticipated expiration: 2036-03-28
Also published as: CN105893936B

Abstract

一种基于HOIRM和局部特征融合的行为识别方法，包括：视频的时空兴趣点检测；对所有时空兴趣点使用3D HOG和3D HOF描述子进行描述得到联合的特征向量；根据每一帧的时空兴趣点分布情况提取兴趣点区域ROI；根据ROI提取视频的兴趣点区域运动方向直方图特征HOIRM；对三种特征采用累加直方图的方法进行多特征融合；对所有的特征向量进行K‑Means聚类生成视觉词典，并用视觉词典重新描述特征向量；用视觉词典描述测试视频的特征向量；用支持向量机对前两步得到的特征进行学习和分类，得到测试视频的行为类别。本发明提高了局部特征在复杂场景下对摄像机的视角变化、距离变化的鲁棒性，有利于提高真实环境下行为识别的正确率。

Description

一种基于HOIRM和局部特征融合的行为识别方法

技术领域

本发明涉及图像处理、视频处理、模式识别等领域，尤其涉及基于视频的人体行为识别领域。

背景技术

根据对行为特征描述的不同，基于视频的人体行为识别方法大体上可分为两大类：基于全局特征的方法和基于局部时空兴趣点的方法。基于局部时空兴趣点的方法因其对各种干扰都具有较好的鲁棒性而成为目前主流的方法，这种方法通过检测像素值在时空邻域有显著变化的兴趣点并从中提取底层特征来进行行为描述，无需对图像进行前背景分割和目标跟踪。但纯粹的局部特征之间非常离散，完全忽视了人体的全局特性，因此在某些人体轮廓形状单一的视频数据库下测试，其识别率还略低于基于全局特征的方法。也有将全局特征与局部特征直接融合，在某些测试数据库上识别率有了一定的提高，但是两种不同类别的特征融合本身就比较困难，且全局特征的提取十分繁琐，离不开目标检测和跟踪，从某种意义上又回到了基于全局特征的方法。

发明内容

为了克服现有特征提取方法的人体行为识别率不高的不足，本发明提出一种基于HOIRM和局部特征融合的行为识别方法，该方法提取的特征可看成是介于局部特征和全局特征之间的一种中层特征，这种中层特征既具有局部特征的优点又加入了全局特征的特性，同时避免了提取全局特征所需的繁琐步骤，进一步提高了局部特征在复杂场景下对摄像机的视角变化、距离变化的鲁棒性，有利于提高真实环境下行为识别的正确率。

本发明解决其技术问题所采用的技术方案是：

一种基于HOIRM和局部特征融合的行为识别方法，包括以下步骤：

步骤1，对所有视频进行时空兴趣点检测；

步骤2，使用3D HOG和3D HOF描述子对检测到的所有时空兴趣点进行特征向量描述；

步骤3，根据每一帧的时空兴趣点分布情况提取兴趣点区域ROI；

步骤4，根据ROI提取视频的兴趣点区域运动方向直方图特征HOIRM；

步骤5，兴趣点区域的HOIRM特征与步骤2中由3D HOG和3D HOF描述兴趣点获得的特征向量进行特征融合；

步骤6，对训练视频多特征融合后的特征向量构建词袋模型，即对训练视频所有的特征向量进行K-Means聚类生成视觉词典，并用视觉词典重新描述特征向量；

步骤7，用步骤6构建的视觉词典描述测试视频的特征向量；

步骤8，用步骤6得到的特征向量训练支持向量机分类器，用已训练的支持向量机分类器对步骤7得到的测试视频特征向量分类，得到测试视频行为类别。

进一步，所述步骤1中，采用Bregonzio兴趣点检测算法对视频进行兴趣点检测，得到时空兴趣点集，根据获取的每一个时空兴趣点(x,y,t)确定其所在的帧以及在整段视频序列中的空间位置，其中x,y表示兴趣点在每一帧上的坐标位置，t表示当前所在帧的时间。

再进一步，所述步骤2中，使用3D HOG和3D HOF描述子进行联合描述的过程为：以每一个时空兴趣点(x,y,t)为中心，构建空间立方体Patch，简称P，其中大小为(H,W,T)，H、W、T分别表示立方体的高、宽、长，分别用3D HOG和3D HOF特征描述子进行描述，得到时空特征向量L，以空间立方体P的8个顶点为中心，分别构建跟P相同大小的空间立方体P₁，P₂，…，P₈，同样，分别采用3D HOG和3D HOF特征描述子进行描述，得到时空特征向量L₁，L₂，…，L₈，将得到的时空特征向量L跟L₁，L₂，…，L₈拼接在一起，得到9个空间立方体的3D HOG和3D HOF特征，作为兴趣点(x,y,t)的时空描述子；

更进一步，所述步骤3中，提取视频的兴趣点区域的过程为：计算每一帧所有兴趣点空间的质心位置其中横纵坐标的计算方式分别为x_i和y_i分别表示当前帧第i个兴趣点空间位置的横、纵坐标，n表示当前帧的兴趣点数，计算所有兴趣点到质心的距离d_i，选出最大距离d_max，d_max＝max{d₁,d₂,......,d_n}，定义一个以质心为圆心，最大距离d_max为半径的圆，以质心为中心，圆的直径为边长，得到一个正方形，即圆的外切矩形，该矩形即为所在帧的兴趣点区域。

所述步骤4中，HOIRM特征提取过程为：选择兴趣点区域的质心作为代表点统一描述兴趣点区域的运动情况，由几何关系可得，在任意时刻t，ROI质心的方向角为：其中和表示当前帧的质心坐标，和表示前一帧的质心坐标，将方向角量化至K个区间，本发明取K＝9，每个区间大小为20°，9个区间分别为：0°～20°，20°～40°，…，140°～160°，160°～180°，分别统计落入每个区间中的方向个数，形成兴趣点区域运动方向直方图，在直方图中以百分比的形式表示，计算其中表示在方向角区间θ_i内对应的视频帧数，NUM(frames)表示该视频总帧数，即表示HOIRM在该方向角区间内对应的视频帧数占该视频总帧数的比例。

所述步骤5中，基于时空兴趣点区域的运动方向特征HOIRM与3D HOG、3D HOF描述的特征向量的融合过程为：采用累加直方图对每一帧图像的特征进行融合，所用公式为其中，ch(i)表示累加直方图的第i个区间，h(i)表示特征直方图的第i个区间，n表示帧的数目，最后得到的特征向量可以表示为F＝{ch_3DHOG,ch_3DHOF,ch_HOIRM}，其中，ch_3DHOG,ch_3DHOF和ch_HOIRM分别代表3D HOG、3D HOF和HOIRM特征的累加直方图。

所述步骤6中，构建词袋模型的过程为：首先指定视觉词典容量的大小为K，K的值为接下去使用的K-Means聚类算法的聚类中心数目，为了构建一个具有K个单词的视觉词典，将所有训练视频的特征向量组合在一起，构建一个特征向量矩阵并进行K-Means聚类获得K个聚类中心，即K个关键特征，为每个训练视频分配一个K维的向量，且初始化为0，这个向量的每一维对应着视觉词典中的每个单词，计算每个训练视频对应的特征向量距离K个关键特征的距离，假定与第i个关键特征的距离最近，则在对应初始化为0的K维向量的第i个位置加1，这样就得到一个K维的特征向量，并用该特征向量表征输入视频的特征，将所有通过词典重新描述过的视频对应的特征向量进行标记，在每一类别的最后一维后面添加一维用于标记该视频的类别，为接下去的模型训练做准备。

本发明的有益效果主要表现在：提出的HOIRM特征是一种介于全局特征和局部特征的中层特征，这种中层特征既具有局部特征的优点又加入了全局特征的特性，同时避免了提取全局特征所需的繁琐步骤，进一步提高了局部特征在复杂场景下对摄像机的视角变化、距离变化的鲁棒性，有利于提高真实环境下行为识别的正确率。

附图说明

图1为本发明的基于HOIRM和局部特征融合的行为识别方法的流程图。

图2为3D HOG和3D HOF联合描述示意图。

图3为时空兴趣点区域ROI确定示意图。

图4为挥手动作的HOIRM特征示意图，其中，图(a)、(b)、(c)所示为挥手动作按时间先后排序的其中三帧图像的兴趣点区域ROI检测图；(d)所示为挥手动作的其中4帧图像按时间先后次序叠加在一起后的效果。

图5为挥手动作的HOIRM直方图表示示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参照图1～图5，一种基于HOIRM和局部特征融合的行为识别方法，包括以下步骤：

步骤1，对所有视频进行时空兴趣点检测；

步骤7，用步骤6构建的视觉词典描述测试视频的特征向量；

本实施例采用两种数据集进行测试，一种是目前公认的经典的行为识别算法测试数据集KTH，该视频存在光照变化、尺度变化、噪声影响、摄像头抖动等情况；另一种是UCF数据集，该数据库的运动背景都是自然场景，非常贴近生活。本实施例对所有视频进行了实验，并使用基于K-Means的词袋模型构建视觉词典。依次取视觉词典容量大小为300，400，500，800，1000，1500。对行为数据库采用leave-one-out的交叉验证方法，即对每个动作类，随机取其中的80％个视频当作训练集，剩余的20％作为测试集。

具体的实施流程包括8个步骤，如图1所示，具体为：

(1)视频的时空兴趣点检测

这里需要对所有的视频进行兴趣点检测，检测算法采用Bregonzio兴趣点检测算法，得到训练视频和测试视频的时空兴趣点集，根据获取的每一个时空兴趣点(x,y,t)确定其所在的帧以及在整段视频序列中的空间位置，其中x,y表示兴趣点在每一帧上的坐标位置，t表示当前所在帧的时间。

考虑到对于不同的视频，检测到的时空兴趣点数目会存在差异，因此，本文在对所有的视频提取时空兴趣点并分别统计数目之后，选取数目最少的兴趣点，假设数目为N。而对于数目超过N的时空兴趣点对应的视频，则删除视频中后续检测出的时空兴趣点。这么做并不会影响最终的特征提取效果，因为一般情况下训练视频总是包含重复的动作，因此从一段视频中检测得到的时空兴趣点集本身就包含许多重复的点。经过这种方式的统一处理，后续的特征描述以及多特征融合都可以保证得到同样维度的特征向量。

(2)时空兴趣点描述

对检测得到的所有时空兴趣点使用3D HOG和3D HOF描述子进行描述得到联合的特征向量，联合描述的方法如图2所示，最终分别得到训练视频和测试视频的基于时空兴趣点的局部特征集合。具体方法如下：

第1步：以每一个时空兴趣点(x,y,t)为中心，构建空间立方体Patch，简称P，其大小为(H,W,T)，H、W、T分别表示立方体的高、宽、长，并分别采用3D HOG、3D HOF特征描述子进行描述，得到时空特征向量L；

第2步：以空间立方体P的8个顶点为中心，分别构建跟P相同大小的空间立方体P₁，P₂，…，P₈；同样，分别采用3D HOG、3D HOF特征描述子进行描述，得到时空特征向量L₁，L₂，…，L₈；

第3步：将得到的时空特征向量L跟L₁，L₂，…，L₈拼接在一起，得到9个空间立方体的3D HOG、3D HOF特征，作为兴趣点(x,y,t)的时空描述子；

第4步：确定联合描述子的维度。通常一个Patch包含18个胞体积，胞体积对应二维HOG和二维HOF中细胞单元的概念。对于HOG和HOF中每个细胞单元的描述，分别选取长度为4个区间和5个区间的直方图。所以对应的3D HOG特征维度为18×4＝72维，3D HOF特征维度为18×5＝90维，单个Patch的联合描述子的维度为72+90＝162维，特征向量L的维度为162×9＝1458维。

(3)兴趣点区域ROI提取

该步骤可以跟步骤(2)同时进行，对象同样是步骤(1)中得到的所有时空兴趣点。该步骤需要对所有时空兴趣点按时间点分类，即以帧为单位，根据每一帧上的时空兴趣点分布情况确定时空兴趣点区域ROI，时空兴趣点区域确定的方法如图3所示，提取算法的具体步骤如下：

第1步：检测Bregonzio时空兴趣点，得到兴趣点在每一帧图像上的坐标位置，如图3圆点所示；

第2步：计算每一帧所有兴趣点空间的质心位置其中x_i和y_i分别表示当前帧第i个兴趣点空间位置的横、纵坐标，n表示当前帧的兴趣点数；

第3步：计算所有兴趣点到质心的距离d_i，选出最大距离d_max，d_max×max{d₁,d₂,......,d_n}；

第4步：定义一个以质心为圆心，最大距离d_max为半径的圆；

第5步：以质心为中心，圆的直径为边长，得到一个正方形，即圆的外切矩形，该矩形即为所在帧的兴趣点区域ROI。

图4(a)、(b)、(c)所示为挥手动作按时间先后排序的其中三帧图像的兴趣点区域ROI检测图，其中矩形框表示ROI的大小，白色点表示时空兴趣点的分布，矩形框的中心点为得到的质心，可以看出不同帧的时空兴趣点分布状况不同，ROI区域的大小也不同。图4(d)所示为挥手动作的其中4帧图像按时间先后次序叠加在一起后的效果，可以看出，兴趣点区域的质心运动方向可以代表整个兴趣点区域的运动方向。为了便于描述，我们将这种兴趣点区域的运动方向特征称作HOIRM(Histogram of Oriented Interest Region Motion)特征。

(4)HOIRM特征提取

HOIRM特征代表了兴趣点区域总体的运动趋势，为了更精确地描述视频中各个时刻每一帧的运动方向，我们选择ROI的质心作为代表点统一描述ROI的运动情况。由几何关系可得，在任意时刻t，ROI质心的方向角为：

θ ({\overset{&OverBar;}{x}}_{i}, {\overset{&OverBar;}{y}}_{i}, t) = \arctan \frac{{\overset{&OverBar;}{y}}_{i} - \bar{y_{(i - 1)}}}{{\overset{&OverBar;}{x}}_{i} - {\overset{&OverBar;}{x}}_{(i - 1)}} - - - (1)

其中和表示当前帧的质心坐标，和表示前一帧的质心坐标，为了后续进行特征融合时更加方便，按照梯度方向直方图(HOG)的方法，将方向角量化为K个区间，本发明取K＝9，每个区间大小为20°，9个区间分别为：0°～20°，20°～40°，…，140°～160°，160°～180°。根据式(1)分别统计落入每个区间中的方向个数，形成兴趣点区域运动方向直方图，即HOIRM。图5为挥手动作按式(2)计算所得的HOIRM，横坐标表示方向角的各个区间，纵坐标表示HOIRM在该方向角区间内对应的视频帧数占该视频总帧数的比例。

H O I R M % = \frac{N U M (θ ({\overset{&OverBar;}{x}}_{i}, {\overset{&OverBar;}{y}}_{i}, t) &Element; θ_{i})}{N U M (f r a m e s)} - - - (2)

式(2)中θ_i表示第i个方向角区间，表示在方向角区间θ_i内对应的视频帧数，NUM(frames)表示该视频总帧数，由于每一帧视频包含9维的特征向量，每一段视频的HOIRM特征向量维数为9×NUM(frames)。

结合图4(d)，可以看出，对于挥手动作的视频，绝大部分帧的兴趣点区域运动的方向角都小于20°，只有当手势从向上转到向下或向下转到向上这两种方向变化明显的情况下方向角的大小才接近180°。

(5)多特征融合

在步骤(2)中已经得到了视频中所有兴趣点的3D HOG和3D HOF联合特征向量表示，接下去将以上特征和步骤(4)获得的兴趣点区域运动方向特征HOIRM融合在一起。

由于3D HOG、3D HOF和HOIRM特征都以直方图的形式表示，因此这里用累加直方图对每一帧图像的特征进行融合，如公式(3)所示：

c h (i) = Σ_{i = 1}^{n} h (i) - - - (3)

其中，ch(i)表示累加直方图的第i个区间，h(i)表示特征直方图的第i个区间，n表示帧的数目。

前面提取的3D HOG、3D HOF和HOIRM特征都可以通过公式(3)来进行计算，然后串联成为一个特征向量。经过计算，最后得到的特征向量可以表示如下：

F＝{ch_3DHOG,ch_3DHOF,ch_HOIRM} (4)

其中，ch_3DHOG,ch_3DHOF和ch_HOIRM分别代表3D HOG、3D HOF和HOIRM特征的累加直方图。

(6)训练视频构建词袋模型

构建词袋模型的关键步骤是对所有的特征向量进行聚类生成视觉词典。这里使用K-Means聚类算法构建视觉词典。再用聚类生成的视觉词典以直方图的形式重新表征训练视频的所有特征向量。

构建一个具有K个单词的视觉词典，即获得K个K-Means聚类中心，在进行训练步骤之前，构建词袋模型需要完成以下几步：

第1步，将所有训练视频的特征向量组合在一起，这里假定选取的训练视频总共有NUM个，由之前的步骤可知，每段训练视频包含N个时空兴趣点，每个时空兴趣点的特征向量维数为1458，每一段视频的HOIRM特征向量维数为9×NUM(frames)，因此特征融合后所有的特征向量维数为1458N+9NUM(frames)。将所有训练视频的特征向量组合在一起后可以构建一个NUM×[1458N+9×NUM(frames)]的特征向量矩阵，并进行K-Means聚类获得K个聚类中心，即K个关键特征；

第2步，为每个视频分配一个K维的向量，且初始化为0，其中这个向量的每一维对应着视觉词典中的每个单词；

第3步，计算每个训练视频对应的特征向量距离K个关键特征的距离，假定与第i个关键特征的距离最近，则在对应初始化为0的K维向量的第i个位置加1，这样就得到一个K维的特征向量；

第4步，用第3步得到的K维特征向量重新表征输入视频的特征；

第5步，将所有通过词典重新描述过的视频对应的特征向量进行标记，在每一类别的最后一维后面添加一维用于标记该视频的类别，为接下去的模型训练做准备。

(7)词袋模型描述测试视频

由于在特征提取阶段，训练视频和测试视频使用相同的特征检测子和描述子，因此生成的特征向量维数也相同，所以测试视频的特征向量可以使用训练视频构建的词典来表示，这也是词袋模型的关键步骤。具体方法是使用步骤(6)第3步得到的K维特征向量表示测试视频的特征，即用训练阶段聚类生成的词典重新描述测试视频的特征向量。

(8)支持向量机学习和测试

这里支持向量机(SVM)学习的特征是用词袋模型重新描述过后的各类特征。具体方法是将步骤(6)第5步得到的带有类别标记的特征向量输入SVM中进行训练得到训练模型。

同样，测试视频的特征也是用词袋模型重新描述过后的各类特征。用已训练的SVM分类器对步骤(7)得到的测试视频特征向量分类得到行为类别。

不同词典容量下KTH动作数据集的行为识别率如表1所示。不同词典容量下UCF动作数据集的行为识别率如表2所示。两种动作数据集的最佳行为识别率结果如表3所示。

表1

词典容量

300

400

500

800

1000

1500

跳水

95.80％

96.50％

100.00％

98.00％

96.50％

高尔夫球

84.80％

85.50％

86.80％

87.60％

86.80％

85.50％

踢球

87.80％

88.00％

89.80％

91.50％

90.00％

88.00％

举重

70.20％

71.80％

74.50％

75.80％

72.10％

71.80％

骑马

65.20％

67.60％

69.50％

70.80％

70.60％

67.60％

跑步

70.00％

74.20％

76.10％

78.80％

75.20％

74.20％

滑冰

83.20％

85.00％

86.80％

88.50％

86.40％

85.00％

双杠体操

90.00％

91.50％

92.10％

93.50％

90.50％

91.50％

单杠体操

94.80％

95.20％

98.00％

100.00％

98.80％

95.20％

走路

84.30％

86.50％

90.00％

91.30％

88.80％

86.50％

平均识别率

82.61％

84.18％

86.36％

87.78％

85.72％

84.18％

表2

动作数据集	KTH	UCF
			最佳识别率	94.33％	87.78％

表3

本发明的基于HOIRM和局部特征融合的行为识别方法，在复杂场景下对摄像机的视角变化、距离变化具有较强的鲁棒性，有利于提高真实环境下行为识别的正确率。

显而易见，在不偏离本发明的真实精神和范围的前提下，在此描述的本发明可以有许多变化。因此，所有对于本领域技术人员来说显而易见的改变，都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims

1.一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述行为识别方法包括以下步骤：

步骤1，对所有视频进行时空兴趣点检测；

步骤7，用步骤6构建的视觉词典描述测试视频的特征向量；

2.如权利要求1所述的一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述步骤1中，采用Bregonzio兴趣点检测算法对视频进行兴趣点检测，得到时空兴趣点集，根据获取的每一个时空兴趣点(x,y,t)确定其所在的帧以及在整段视频序列中的空间位置，其中x,y表示兴趣点在每一帧上的坐标位置，t表示当前所在帧的时间。

3.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述步骤2中，使用3D HOG和3D HOF描述子进行联合描述的过程为：以每一个时空兴趣点(x,y,t)为中心，构建空间立方体Patch，简称P，其中大小为(H,W,T)，H、W、T分别表示立方体的高、宽、长，分别用3D HOG和3D HOF特征描述子进行描述，得到时空特征向量L，以空间立方体P的8个顶点为中心，分别构建跟P相同大小的空间立方体P₁，P₂，…，P₈，同样，分别采用3D HOG和3D HOF特征描述子进行描述，得到时空特征向量L₁，L₂，…，L₈，将得到的时空特征向量L跟L₁，L₂，…，L₈拼接在一起，得到9个空间立方体的3D HOG和3D HOF特征，作为兴趣点(x,y,t)的时空描述子。

4.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述步骤3中，提取视频的兴趣点区域的过程为：计算每一帧所有兴趣点空间的质心位置其中横纵坐标的计算方式分别为x_i和y_i分别表示当前帧第i个兴趣点空间位置的横、纵坐标，n表示当前帧的兴趣点数，计算所有兴趣点到质心的距离d_i，选出最大距离d_max，d_max＝max{d₁,d₂,......,d_n}，定义一个以质心为圆心，最大距离d_max为半径的圆，以质心为中心，圆的直径为边长，得到一个正方形，即圆的外切矩形，该矩形即为所在帧的兴趣点区域。

5.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述步骤4中，HOIRM特征提取过程为：选择兴趣点区域的质心作为代表点统一描述兴趣点区域的运动情况，由几何关系可得，在任意时刻t，ROI质心的方向角为：其中和表示当前帧的质心坐标，和表示前一帧的质心坐标，将方向角量化至K个区间，本发明取K＝9，每个区间大小为20°，9个区间分别为：0°～20°，20°～40°，…，140°～160°，160°～180°，分别统计落入每个区间中的方向个数，形成兴趣点区域运动方向直方图，在直方图中以百分比的形式表示，计算其中表示在方向角区间θ_i内对应的视频帧数，NUM(frames)表示该视频总帧数，即表示HOIRM在该方向角区间内对应的视频帧数占该视频总帧数的比例。

6.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述步骤5中，基于时空兴趣点区域的运动方向特征HOIRM与3D HOG、3D HOF描述的特征向量的融合过程为：采用累加直方图对每一帧图像的特征进行融合，所用公式为其中，ch(i)表示累加直方图的第i个区间，h(i)表示特征直方图的第i个区间，n表示帧的数目，最后得到的特征向量可以表示为F＝{ch_3DHOG,ch_3DHOF,ch_HOIRM}，其中，ch_3DHOG,ch_3DHOF和ch_HOIRM分别代表3D HOG、3D HOF和HOIRM特征的累加直方图。

7.如权利要求1或2所述的一种基于HOIRM和局部特征融合的行为识别方法，其特征在于：所述步骤6中，构建词袋模型的过程为：首先指定视觉词典容量的大小为K，K的值为接下去使用的K-Means聚类算法的聚类中心数目，为了构建一个具有K个单词的视觉词典，将所有训练视频的特征向量组合在一起，构建一个特征向量矩阵并进行K-Means聚类获得K个聚类中心，即K个关键特征，为每个训练视频分配一个K维的向量，且初始化为0，这个向量的每一维对应着视觉词典中的每个单词，计算每个训练视频对应的特征向量距离K个关键特征的距离，假定与第i个关键特征的距离最近，则在对应初始化为0的K维向量的第i个位置加1，这样就得到一个K维的特征向量，并用该特征向量表征输入视频的特征，将所有通过词典重新描述过的视频对应的特征向量进行标记，在每一类别的最后一维后面添加一维用于标记该视频的类别，为接下去的模型训练做准备。