CN107133569A

CN107133569A - 基于泛化多标记学习的监控视频多粒度标注方法

Info

Publication number: CN107133569A
Application number: CN201710219411.3A
Authority: CN
Inventors: 卫志华; 张鹏宇; 赵锐
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2017-09-05
Anticipated expiration: 2037-04-06
Also published as: CN107133569B

Abstract

本发明公开一种基于泛化多标记学习的监控视频多粒度标注方法，以公安视频监控内容分析为背景，从视频特征多层次获取和多粒度表示的理论和方法开展研究工作。首先，基于多标记学习理论和深度学习理论，分析和提取视频中各对象不同层次的特征，构建泛化的多标记分类算法；其次，基于粒计算理论和自然语言理解技术，表征出视频信息的多粒度表示模型。本发明是对监控视频内容分析领域进行深入系统的研究，通过深度学习理论构造泛化多标记学习算法，能够为多层次视频信息提取提供有效理论和方法；通过模拟人类认识和描述图像方法，建立多粒度视频表示理论和方法，为视频内容分析提供新思路。为未来推动视频监控智能化发展奠定理论和应用基础。

Description

基于泛化多标记学习的监控视频多粒度标注方法

技术领域

本发明属于计算机视觉领域，具体地说，涉及基于泛化多标记学习的监控视频多粒度标注方法。

背景技术

随着视频监控技术的日益成熟和监控设备的不断普及，视频监控应用越来越广泛，监控视频数据量呈现出爆炸式的增长，已经成为大数据时代的重要数据对象。例如，遍布上海市的百万级监控探头每分钟产生TB级的视频数据，为实时掌握社会动态和保障公共安全提供了宝贵的视频资源。然而，由于视频数据本身的非结构化特性，使得其处理和分析相对困难。目前对视频数据的应用仍然主要以人工分析为主，辅以简单的智能化分析手段，存在“视频在、找不到”，“找得到、找太久”，“有服务、不可靠”等海量视频应用的瓶颈。同时，目前的视频监控系统还存在传输压力大、描述方法不统一等问题。这些问题严重制约了视频监控技术进一步发展和应用。因此，面对海量的监控视频大数据，如何实现高效的视频内容表示是视频监控应用亟待解决的关键问题。

将视频信息转化为表征其内容的文本信息是解决上述问题的一个有效途径。基于该类方法进行视频表示的研究大多基于两类方法：1)视频内容标注：基于机器学习算法为视频中对象自动添加类别标记，用类别标记表示视频内容；2)视频内容理解：基于计算机视觉和自然语言理解技术，通过提取视频中对象的局部特征，形成对视频内容的自然语言描述。视频内容标注对视频的描述单一化，缺乏对对象特征和对象间关联性的描述；视频内容理解虽然可能包含更多的信息，但由于现实场景复杂多变，难以统一定义，目前只能在特定场景下取得一定的效果，还无法服务于实际应用。

因此，这些问题的存在导致监控视频的智能化应用还处于较低的水平。针对现有视频内容表示方法中标注单一化，各部件空间关系难以准确定义和描述等问题，我们需要一种能够对复杂场景中多种对象同时标注，且能进一步标注对象自身部件特征的结构化视频表示方法，即泛化多标记视频内容标注方法。

发明内容

本发明的目的在于公开一种基于泛化多标记学习的监控视频多粒度标注方法，针对当前视频监控中存在的问题和困难，围绕视频特征多层次获取和多粒度表示的理论和方法展开研究工作。本发明的研究成果将丰富和拓展机器学习理论和方法，同时也为未来推动视频监控智能化发展奠定理论和应用基础。

本发明公开了一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，以公安视频监控内容分析为背景，从视频特征多层次获取和多粒度表示的理论和方法开展研究工作。首先，基于多标记学习理论和深度学习理论，分析和提取视频中各对象不同层次的特征，构建泛化的多标记分类算法，识别出监控视频的多个多种不同类别的目标；其次，基于粒计算理论和自然语言理解技术，探索视频信息的多粒度表示模型，从不同粒度不同层次不同方面对目标进行描述，最后生成文本信息。

本发明公开了一种泛化多标记学习方法，其特征在于，可以对同一样本中多个对象同时学习标记并标记其部件信息。其中“泛化”体现在从多个层次将对象的部件信息和多层次特征附加在类别标记上，从而输出以类别标记为核心的一组词汇来描述视频。

本发明公开了一种基于词簇的视频内容多粒度表示算法，其特征在于，这是一种多粒度监控视频表示模型，将不同层次的特征对应到不同的粒层，设计不同粒层之间的信息转换与合并机制。在泛化多标记分类算法已获得的词汇基础上建立一种多粒度的词汇结构表示模型—词簇，其中包含了针对视频中某个部件的一组词汇以及词汇间的关系，这种关系能反映出视频中各要素的联系，这种结构化的表示形式不追求形成优美的自然语言语句，但可以从多个粒度上反映视频内容。

本发明公开了一种基于泛化多标记学习的监控视频多粒度标注方法，包括以下步骤：

1)对采集的监控视频进行关键帧的提取；

2)使用深度学习方法对图像进行训练，构造分类器；

3)使用步骤2)所述分类器对视频第一帧图像进行多标记学习，检测并标定出图像中的目标；

4)根据步骤3)中标定的目标，对后续的视频图像同时使用目标跟踪算法和目标检测算法。目标检测算法用于标定目标位置和目标类别信息，目标跟踪算法用于得到目标的运动信息轨迹信息。检测算法和跟踪算法结合使用，提升算法整体的鲁棒性；

5)对步骤4)中识别的目标进行HOG特征提取，获得图像的边缘轮廓特征；

6)对步骤4)中识别的目标进行LBP特征提取，获得图像的LBP特征谱统计直方图；

7)对步骤4)中识别的目标进行HSV颜色提取，获得图像颜色直方图；

8)对步骤5)、步骤6)和步骤7)中获取的信息进行整合，对识别目标使用基于词簇的多粒度表示算法，从不同粒度不用方面对目标进行表示及描述；

9)对步骤4)中提取的目标轨迹信息使用轨迹分析方法进行分析，得到目标的运动特征和运动状态信息；

10)对步骤8)和步骤9)得到的目标信息进行整合，使用自然语言处理的方法生成视频内容分析的语句。

有益效果

1)本发明针对现有视频内容表示方法标注单一化，各部件空间关系难以准确定义和描述等问题，提出泛化多标记学习，对同一样本中多个对象同时学习标记并标记其部件信息。深度学习从人类感知世界的机理出发，通过无监督学习方式从数据中学习到层次化的特征，并在海量样本上加以训练，往往能够获取对象的多层次语义特征，基于深度学习理论构造的泛化多标记学习算法，能够为多层次视频信息提供有效的理论和方法。

2)本发明在目标识别方面除了使用深度学习理论构造分类器，还使用目标跟踪算法来强化检测效果并得到目标的运动轨迹信息。首先，单一的检测算法或单一的跟踪算法在目标识别上都有其优势及不足，使用检测加跟踪并行的方法，可以增强算法的鲁棒性，减少误报率和漏检率。同时，跟踪算法的使用可以获得目标的轨迹信息，结合目标轨迹算法的使用，可以分析并获取目标的运动信息，为视频内容分析奠定基础。

3)本发明使用粒计算的思想对监控视频中的目标进行描述。粒计算是计算智能研究领域中通过模拟人类思维以解决海量复杂问题的一种新的计算范式。人类以不同的粒度和抽象度来看待世界，在不同粒度上概念化世界并在不同粒度上相互转化是人类智能与适应能力的表现。粒计算理论提供了信息在不同粒层之间的转换理论和方法，为视频表示模型提供了对象与对象、对象与部件间进行转化和相似度度量的基础。因此，模拟人类认识和描述图像的方法，建立多粒度视频表示理论和方法，应能为视频内容表示提供新的思路。使用基于词簇的视频内容多粒度表示方法，可以使算法对监控视频中的目标物体描述更加全面具体，结合自然语言处理技术，形成描述性更加完备的文本信息。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1发明框架图

图2深度学习理论和多标记学习理论示意图

图3目标检测与跟踪算法流程图

图4基于词簇的目标多粒度表示示意图

图5轨迹表示与运动描述图

图6综合示意图

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

1)在本实施例中，所述视频来源于上海市某路口的交通监控视频，视频的分辨率为2448*2048p，监控视频中包含多种多样的车辆以及行人，场景比较复杂。在本实施例中，算法描述的目标为视频中的行人和车辆。

2)在本实施例中，如图2所示，使用基于注意力机制的快速卷积神经网络(FastRCNN)对图像进行目标检测与识别。卷积神经网络(CNN)直接从原始像素出发，特别适合于二维视觉图像。深度卷积神经网通过共享权值和网络结构重组将特征学习融入到多层神经网络中，有效地避免人工特征提取方法的缺陷。CNN对于识别位移、缩放及其他形式扭曲不变性的二维图形有较好的效果，同时可以从训练数据中隐式学习到物体的拓扑结构。

将视频中的关键帧作为Fast RCNN的输入。首先用selective search在输入图片中提取约2k个object proposal(这里称为RoI)。然后缩放图片的尺度得到图片金字塔。对于每个尺度的每个RoI，求取映射关系，在之后的卷积层中裁剪(crop)出对应的patch。并用一个单层的SPP layer(这里称为Rol pooling layer)来统一到一样的尺度。接着经过两个全连接得到RoI特征向量，并将此特征共享到两个新的全连接层，连接上两个优化目标。第一个优化目标是分类，使用softmax，第二个优化目标是bbox regression，使用了一个smooth的L1-loss。

其中，RoI pooling layer的作用主要有两个，一个是将图像中的RoI定位到特征图中对应patch，另一个是用一个单层的SPP layer将这个特征图patch下采样为大小固定的特征再传入全连接层。

经过Fast RCNN，我们实现目标的检测与识别。

3)在本实施例中，使用步骤2)中得到的分类器，对视频帧中的目标进行检测，在训练过程中，设定的输出类别为三类，分别为行人，车辆和环境(环境为除人和车辆之外物体的统称)。在本实施例中，如图2所示，使用分类器对视频中的目标进行检测，深色(红色)框标出的目标为车辆，浅色(绿色)框标出的目标为行人，无标记的部分为环境。

4)在本实施例中，对于步骤3)中标定的目标，对后续帧使用检测加跟踪算法，流程如图3所示。使用检测算法找出当前帧中的目标位置，记为D；再根据上一帧中目标的位置使用跟踪算法，得到目标在当前帧中的位置，记为T；目标上一帧的位置记为P。根据连续性假设，检测和跟踪算法得到的目标边界框应该与上一帧中目标出现的位置距离不会太大，并且跟踪算法得到的结果应该和检测算法得到的结果之间的距离也应该小于某个阈值，因此可以得到：

||T-P||<λ₁ (1)

||D-P||<λ₂ (2)

||T-D||<λ₃ (3)

如果式(1)、式(2)满足条件，式(3)也满足条件，我们认为检测算法和跟踪算法都成功识别目标，直接将结果作为下一帧的输入；如果式(1)满足条件，式(2)不满足条件，那么我们认为检测算法得到了一个错误的结果，将跟踪算法的结果作为下一帧的输入位置，并把跟踪算法的结果返回给分类器，作为正例，把检测算法得到的结果返回给分类器，作为负例，更新分类器；如果式(1)不满足条件，式(2)满足条件，那么我们认为跟踪算法跟踪失败，我们将使用检测算法的结果作为下一帧的输入位置；如果式(1)和式(2)都不满足条件，式(3)也不满足条件，那么我们认为算法失败，重新初始化；如果式(1)和式(2)都不满足条件，式(3)满足条件，我们将检测和跟踪算法得到的结果作为下一帧的输入，观察下一帧的结果，如果满足条件，那么算法继续执行下去；如果不满足条件，检测跟踪失败，重新初始化。

5)对步骤4)中识别的目标进行HOG特征的提取，获得图像的边缘轮廓特征，具体步骤如下：首先归一化所述原始图像以消除光照的影响，在本实施例中归一化采用Gamma压缩处理，Gamma压缩能有效降低图像局部阴影和光照变化将原始图像分割为若干个小块，每块由2*2个细胞单元组成，其中每一个细胞单元又由8*8个像素点所组成，这些块是互有重叠的即每一个单元可能在构成特征向量时多次被使用，且每次的数值均不同；然后计算所述原始图像中像素点水平方向和垂直方向梯度，得到像素点梯度幅值和梯度方向，本实施例中将梯度方向平均划分成9个直方图通道，其中每一个通道代表一个方向区间，而每个方向区间占40度(360/9＝40)，根据梯度幅度赋予每个方向不同权重，即可得到每一个单元的直方图特征以及每一块的直方图特征；最后将每一块的直方图特征联立起来就得到整个图像的HOG特征。

6)对步骤4)中识别的目标进行LBP特征提取，获得图像LBP特征谱统计直方图，具体步骤如下：首先将所述原始图像划分成10*10的细胞单元；然后对于细胞单元中中的每个像素，计算该像素点半径R之内N个像素点的LBP值；为了保证LBP算子的旋转不变性，在本实施例中，将所得到N个像素点循环左移N-1次，取其中最小的值作为LBP算子；其次计算每个细胞单元的直方图，即每个十进制LBP值出现的频率，并对其进行归一化处理；最后将每个细胞单元的直方图级联成整张图像的LBP纹理特征向量。

7)对步骤4)中识别的目标进行颜色特征提取，获得图像HSV颜色直方图，首先进行颜色量化，将颜色空间划分成若干个小的颜色空间，每个小区间成为直方图的一个bin，然后通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。

8)在本实例中，对目标使用基于词簇的多粒度表示算法对目标进行描述，如图4所示，具体步骤如下：首先对步骤5)和步骤6)的信息进行整合，在得到的目标的HOG特征和LBP特征之后，使用构造好的HOG特征分类器和LBP特征分类器分别对目标进行分类，得到两个分类结果。在本实例中，使用集成学习的思想对分类结果进行判定，得到目标的细粒度的种类信息，集成学习的使用保证得到的目标信息更加准确。再将步骤7)中得到的HSV颜色转化为颜色向量，使用分类器对其进行分类，得到目标细粒度的的颜色信息。在得到目标的粗粒度和细粒度信息之后，就能够定义这些信息之间的量化信息，使之能够用来计算图像视频片段之间的相似度，还可以用于后续视频检索与分析等应用。

对监控视频场景中动态变化的人和物定义表示模式，例如：输入视频关键帧集合X＝{x₁,x₂,...x_p}，对应标记集合L＝{l₁,l₂,...l_q}，其对应的标记集合为Y_i，设Y_i对应一个对象集合O＝{O_I,O₂,...O_n}，对于任意对象O_i，存在一个细粒度特征集合m表示特征维数。

对于任意两个对象O_i和O_j，如果存在Y_i＝Y_j，则其特征维数相等且各维特征意义相同，可以定义对象O_i和O_j的相似度S(O_i,O_j)，如式(4)所示。

其中∑为特征向量的协方差矩阵，表示特征间的相关性，该矩阵需要根据实际应用背景在大量真实数据上训练得到，采用最优化方法训练该参数。

对于任意两个对象O_i和O_j，如果存在Y_i≠Y_j，则需定义对象O_i和O_j的关联度C(O_i,O_j)。在这种情况下，两对象不属于同一类别，因此无法定义其相似度，而它们的关联度事实上就是标记依赖性，需要通过在大量训练集上训练得到。构造如公式(5)所示的目标函数，通过最优化算法求得使多标记分类错误率最小的依赖关系H_R。

其中，p表示训练集中包含的样本数，R表示约束关系H_R中的参数簇，H_R(Y,Ω)表示在标记关系约束下得到的分类结果，Δ表示两个标记集合之间的求异运算。依赖关系Ω对分类器的约束参数拟采用深度学习算法训练得到。

基于S(O_i,O_j)和C(O_i,O_j)可以分别从粗粒度和细粒度上定义两幅图像间的相似度。粗粒度上的图像相似度仅考虑两幅图中所有对象之间的关联度(即标记相同的对象关联度设为1)。细粒度上的相似度则需要综合考虑图像间的关联度和相似度，并训练两者所占的权重。

9)对步骤4)中使用的跟踪算法得到的目标轨迹进行分析，如图5所示。常用的轨迹分析方法有基于原始轨迹信息分析、基于空间域变换的轨迹分析和基于概率模型的轨迹分析等。在本实施例中，由于是在监控视频下对目标轨迹进行分析，因此采用的是基于原始轨迹信息分析算法。为了更加全面地描述轨迹信息，我们使用轨迹路径，目标速度曲线，目标本身大小等信息作为特征对轨迹进行分析，最终得到目标的运动、行为信息。

10)使用自然语言处理的方法对上述步骤得到的信息进行整合，在本实施例中采用的是基于模板匹配的方法。首先，根据步骤4)中识别目标的不同的信息，定义不同的模板；其次，根据粗粒度类别信息模板的不同，将各个步骤根据分类器得到的细粒度的信息整合进模板中，最后生成该监控视频的文本描述信息。

本实施例的综合示意图如图6所示。

上述说明展示并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

创新点

创新之一：泛化多标记学习理论

传统的监督学习仅能为对象提供一个或多个标记作为描述信息，不能全面反映对象本身的多层次特征。本发明突破传统监督学习模式，通过深度学习实现标记泛化，建立了视频中对象标注和对象各部件多层次特征提取一体化的学习方法。该思路同样可以运用于其他机器学习算法，是对机器学习理论的扩展。

创新之二：基于词簇的多粒度视频表示模型

已有的视频描述方法只能反映视频中单一粒度上的信息，而形成类似于人类的自然语言描述尚且存在许多困难。本发明采用的词簇是一种类似于人类思维方式，能反映词汇间结构模式的多粒度视频表示方式，以文本词汇间的结构来对应图像/视频各部件之间的结构，从而实现视频内容深度解析。该模型的提出为视频描述提供了可行的解决方案，同时扩展了自然语言理解理论。

创新之三：检测与跟踪并行的目标识别算法

大部分的目标识别算法大多只使用单一的检测算法或跟踪算法进行目标识别，这样的算法大多都存在鲁棒性不足的问题。单一的检测算法容易出现误判和漏检的问题，单一的跟踪算法在出现目标遮挡，视频断帧问题时会出现跟踪失败。本发明采用检测加跟踪并行使用的方法，通过与前一帧识别的目标进行比较，判断检测和跟踪结果的准确性，根据不同条件使用检测结果修正跟踪结果或者跟踪结果修正检测结果，达到一个互补的效果，弥补单一检测或跟踪算法鲁棒性不足的问题，使得整个算法的目标识别能力更好，算法鲁棒性更高。

Claims

1.一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，首先，基于多标记学习理论和深度学习理论，提取出视频中不同对象不同层次的特征，构建泛化的多标记分类算法；其次，基于粒计算理论和自然语言理解技术，表征出视频信息的多粒度表示模型。

2.如权利要求1所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，通过自然语言处理的方法，得到视频内容的文本描述信息。

3.如权利要求1或者2所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，具体包括以下步骤：

1)对采集的监控视频进行关键帧的提取；

2)使用深度学习方法对图像进行训练，构造分类器；

4)根据步骤3)中标定的目标，对后续的视频图像同时使用目标跟踪算法和目标检测算法；所述目标检测算法用于标定目标位置和目标类别信息，所述目标跟踪算法用于得到目标的运动信息和轨迹信息；

5)对步骤4)中识别出的目标进行HOG特征提取，获得图像的边缘轮廓特征；

6)对步骤4)中识别出的目标进行LBP特征提取，获得图像的LBP特征统计直方图；

7)对步骤4)中识别出的目标进行HSV颜色提取，获得图像颜色直方图；

8)对步骤5)、步骤6)和步骤7)中获取的信息进行整合，对识别目标使用基于词簇的多粒度表示算法，从不同粒度不同方面对目标进行表示及描述；

10)对步骤8)和步骤9)得到的目标信息进行整合，使用自然语言处理技术生成视频内容描述的语句。

4.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，所述步骤(2)中得到的分类器，对视频帧中的目标进行检测，在训练过程中，设定的输出类别为三类，分别为行人，车辆和环境(环境为除人和车辆之外物体的统称)。

5.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，所述步骤(4)，使用基于注意力机制的快速卷积神经网络(Fast RCNN)对图像进行目标检测与识别；

将视频中的关键帧作为Fast RCNN的输入:

首先，用selective search在输入图片中提取约2k个object proposal(这里称为RoI)；然后，缩放图片的尺度得到图片金字塔；对于每个尺度的每个RoI，求取映射关系，在之后的卷积层中裁剪(crop)出对应的patch；并用一个单层的SPP layer(这里称为Rolpooling layer)来统一到一样的尺度。接着，经过两个全连接得到RoI特征向量，并将此特征共享到两个新的全连接层，连接上两个优化目标；第一个优化目标是分类，使用softmax，第二个优化目标是bbox regression，使用了一个smooth的L1-loss。所述RoI poolinglayer将图像中的RoI定位到特征图中对应patch，同时，用一个单层的SPP layer将这个特征图patch下采样为大小固定的特征再传入全连接层。

6.如权利要求5所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，使用检测算法找出当前帧中的目标位置，记为D；再根据上一帧中目标的位置使用跟踪算法，得到目标在当前帧中的位置，记为T；目标上一帧的位置记为P。根据连续性假设，检测和跟踪算法得到的目标边界框应该与上一帧中目标出现的位置距离不会太大，并且跟踪算法得到的结果应该和检测算法得到的结果之间的距离也应该小于某个阈值，因此可以得到：

||T-P||<λ₁ (1)

||D-P||<λ₂ (2)

||T-D||<λ₃ (3)

如果式(1)、式(2)满足条件，式(3)也满足条件，为检测算法和跟踪算法都成功识别目标，直接将结果作为下一帧的输入；如果式(1)满足条件，式(2)不满足条件，那么为检测算法得到了一个错误的结果，将跟踪算法的结果作为下一帧的输入位置，并把跟踪算法的结果返回给分类器，作为正例，把检测算法得到的结果返回给分类器，作为负例，更新分类器；如果式(1)不满足条件，式(2)满足条件，那么为跟踪算法跟踪失败，将使用检测算法的结果作为下一帧的输入位置；如果式(1)和式(2)都不满足条件，式(3)也不满足条件，那么为算法失败，重新初始化；如果式(1)和式(2)都不满足条件，式(3)满足条件，将检测和跟踪算法得到的结果作为下一帧的输入，观察下一帧的结果，如果满足条件，那么算法继续执行下去；如果不满足条件，检测跟踪失败，重新初始化。

7.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，对步骤5)中识别的目标进行HOG特征的提取，获得图像的边缘轮廓特征，具体步骤如下：

首先归一化所述原始图像以消除光照的影响，归一化采用Gamma压缩处理，Gamma压缩能有效降低图像局部阴影和光照变化将原始图像分割为若干个小块，每块由2*2个细胞单元组成，其中每一个细胞单元又由8*8个像素点所组成，这些块是互有重叠的即每一个单元可能在构成特征向量时多次被使用，且每次的数值均不同；然后计算所述原始图像中像素点水平方向和垂直方向梯度，得到像素点梯度幅值和梯度方向，将梯度方向平均划分成9个直方图通道，其中每一个通道代表一个方向区间，而每个方向区间占40度(360/9＝40)，根据梯度幅度赋予每个方向不同权重，即可得到每一个单元的直方图特征以及每一块的直方图特征；最后将每一块的直方图特征联立起来就得到整个图像的HOG特征。

8.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，对步骤6)中识别的目标进行LBP特征提取，获得图像LBP特征谱统计直方图，具体步骤如下：

首先将所述原始图像划分成10*10的细胞单元；然后对于细胞单元中中的每个像素，计算该像素点半径R之内N个像素点的LBP值；为了保证LBP算子的旋转不变性，将所得到N个像素点循环左移N-1次，取其中最小的值作为LBP算子；其次计算每个细胞单元的直方图，即每个十进制LBP值出现的频率，并对其进行归一化处理；最后将每个细胞单元的直方图级联成整张图像的LBP纹理特征向量。

9.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，对步骤7)中识别的目标进行颜色特征提取，获得图像HSV颜色直方图，具体是：

首先进行颜色量化，将颜色空间划分成若干个小的颜色空间，每个小区间成为直方图的一个bin，然后通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。

10.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，对步骤8)对目标使用基于词簇的多粒度表示算法对目标进行描述，具体步骤如下：

首先对步骤5)和步骤6)的信息进行整合，在得到的目标的HOG特征和LBP特征之后，使用构造好的HOG特征分类器和LBP特征分类器分别对目标进行分类，得到两个分类结果。使用集成学习的思想对分类结果进行判定，得到目标的细粒度的种类信息，集成学习的使用保证得到的目标信息更加准确。再将步骤7)中得到的HSV颜色转化为颜色向量，使用分类器对其进行分类，得到目标细粒度的的颜色信息。在得到目标的粗粒度和细粒度信息之后，就能够定义这些信息之间的量化信息，使之能够用来计算图像视频片段之间的相似度。