CN101359368B

CN101359368B - 一种视频图像聚类方法及系统

Info

Publication number: CN101359368B
Application number: CN2008101984411A
Authority: CN
Inventors: 左坤隆; 王蕴红
Original assignee: Huawei Technologies Co Ltd; Beihang University
Current assignee: Huawei Technologies Co Ltd; Beihang University
Priority date: 2008-09-09
Filing date: 2008-09-09
Publication date: 2010-08-25
Anticipated expiration: 2028-09-09
Also published as: CN101359368A

Abstract

本发明公开了一种视频图像聚类方法，包括：获取视频帧中的多个视频图像；比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合。实施本发明实施例，可以实现对监控视频中的视频图像进行快速索引。

Description

一种视频图像聚类方法及系统

技术领域

本发明涉及一种图像处理技术领域，尤其涉及一种视频图像聚类方法及系统。

背景技术

随着社会的发展和科技的进步，人民对安全的需求也越来越高。特别是近二十年来，安全威胁事件频频发生：2001年美国911事件，2004年俄罗斯恐怖爆炸和劫持事件，2004年西班牙铁路爆炸案，2005年英国连环爆炸案等。这些事件的发生使得各国政府高度重视跨地区、跨国家的社会安全预防和反恐工作。对于我国，虽未发生过大规模的社会安全事件，但同样面临着恐怖活动的威胁。且随着社会流动的增大，各种犯罪活动的潜在可能性激增，这将是人民生命财产安全和道德建设的重大隐患。

视频监控技术的发展为解决社会安全问题带来了契机。视频监控利用图像和摄像头记录场景数据，以便于在线监控，并为事后事件处理提供了凭证。随着监控设备成本的下降，装备视频监控系统已经成为了预防犯罪和保障生命财产安全的重要手段，因而在金融机构、政府部门、重要交通、边检防卫和门禁小区中得到了广泛应用。

面向监控视频的人脸图像聚类标记是监控视频智能索引技术的重要内容。视频中的人脸图像聚类技术的主要目的是统计视频包含的活动人员目标，以聚类的形式将活动目标及其相关样本进行标记并提交给用户。用户通过查看人脸图像标记，可以了解视频中包含了哪些主要目标，分析每个目标的活动轨迹以判断其行为意图，为在一定时间跨度和空间跨度内分析嫌疑目标行为提供证据。研究基于视频图像内容的智能索引，可以为视频信息的汇总与快速索引提供工具。

现有技术提出了一种在美国国家标准与技术研究院(National Institute ofStandards and Technology，NIST)提供的(TREC Video Retrieval Evaluation TextRetrieval Conference，TRECVID)新闻视频中进行人脸图像聚类标记的方法。这种方法集成文字和人脸图像信息用于人脸图像索引。本发明的发明人在对现有技术的研究和实践过程中，发现目前监控视频中包含的文字信息和语音信息与图像信息的关联程度小，不适用于通过监控视频中包含的集成文字和人脸图像信息进行人脸图像索引。

发明内容

本发明实施例所要解决的技术问题在于，提供一种视频图像聚类方法及系统。用于实现对监控视频中的视频图像进行快速索引。

为了解决上述技术问题，本发明实施例提供了一种视频图像聚类方法，包括：

获取视频帧中的多个视频图像；

比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；

从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合。

相应地，本发明实施例还提供了一种视频聚类系统，包括：

获取单元，获取视频帧中的多个视频图像；

视频图像子聚类生成单元，用于比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；

提取单元，用于从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合。

实施本发明实施例，通过获取视频帧中的多个视频图像；比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合；根据所述视频图像子聚类典型样本集合生成视频索引。可以实现对监控视频中的视频图像进行快速索引。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的视频图像聚类方法流程示意图；

图2是本发明实施例生成子聚类流程示意图；

图3是本发明实施例提取典型样本流程示意图；

图4是本发明实施例视频图像示意图；

图5是本发明实施例视频图像层次结构图；

图6是本发明实施例的视频图像聚类系统的组成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明实施例中的人脸图像相似度第一是指人脸图像相似度最大。本发明实施例提供了一种视频图像聚类方法，包括：获取视频帧中的多个视频图像；比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频典型样本，形成典型样本集合；根据所述视频图像子聚类典型样本集合生成视频索引。所述视频图像可以为：人脸图像，或者动物脸图像，或者动物的某个部位的图像，或者物体图像等等。

本发明实施例还提供了相应的视频聚类系统。下面分别进行详细描述。

参考图1，是本发明实施例的视频图像聚类方法流程示意图，包括：

101、获取视频帧中的视频图像；

102、比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；

此处，所述比较所述获取到的视频帧中的视频图像的相似度包括：采用尺度不变特征变换的距离度量器，检测所述获取到的视频帧中的视频图像的相似度。对于监控视频，尽管视频图像模式存在诸多变化且受外界因素的干扰，但相邻两帧视频图像在外表上应该比较相似。然而，由于视频图像检测的误差，相邻两帧视频图像的定位并不一致，除了姿态相似外，可能还存在尺度和位移上的偏差。因此，采用对偏差鲁棒的视频图像相似度度量器尤为重要。本发明实施例利用基于尺度不变特征变换(Scale Invariant Feature Transform，SIFT)的最近邻匹配点的距离度量器比较相邻帧的相似度。这种方法可在一定程度上容忍视频图像定位偏差，且能快速比较视频图像相似度。给定相邻视频图像A和B，其对应的基于SIFT的关键点特征描述为{(pos_i，rot_i，scl_i，vct_i)，i∈A}和{(pos_j，rot_j，scl_j，vct_j)，j∈B}。其中，pos表示位置，rot表示旋转度，scl表示尺度，vct表示特征向量。对于视频图像A和B的关键点i和j，其相似度定义为：

s_{ij} = \exp (- \frac{1}{σ^{2}} | {pos}_{i} - {pos}_{j} |) \cdot | | {vct}_{i}, {vct}_{j} | |

其中‖vcti，vctj‖表示的是向量内积，s_ij是相似度分数，相似度分数越大，表明两个特征点之间越相似。在i与j(j∈B)的所有相似度分数中，假设S_i1和S_i2是前两位相似度值最大的分数。定义ratio＝S_i1/S_i2，如果ratio大于阈值T，则特征点i和视频图像B的某特征点相匹配。在所有的匹配特征对中，获取A视频图像与B视频图像中所有特征点相似度值的比值ratio的最小值和最大值，第一阈值、第二阈值、第三阈值的取值范围在ratio的最小值和最大值之间，搜索相似度分数最大的S_i1，定义为S_max，用于图像A与B的相似度度量。另外，视频视频中目标位置的连续性也是重要的先验信息(即预先知道的信息)，可用来辅助分析视频图像的相似度：

S (A, B) = \{\begin{matrix} \exp (- \frac{1}{σ^{2}} | S_{t} - S_{t - 1} |) \cdot s_{\max}, ratio > T \\ η, ratio \leq T \end{matrix}

式中S(A，B)是考虑了视频图像状态连续性的相似度，S_t为状态变量，包括视频图像位置和尺度信息。由于相邻视频图像存在图像表像的连续性，故需待解决的主要问题是视频图像位移偏差和尺度偏差带来的匹配困难，本发明实施例采用的基于SIFT的第一近邻匹配点的距离度量器能满足监控视频相邻视频图像的相似度分析要求。

103、从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合。

可以进一步包括：

104、根据所述视频图像子聚类典型样本集合生成视频索引。

参考图2，是本发明实施例生成子聚类流程示意图；包括：

201、获取视频帧；

202、检测所述获取到的视频帧是否为首帧，如果检测结果为是，则执行步骤203；否则执行步骤204；

203、将所述获取到的视频帧中的视频图像生成视频图像子聚类；

204、将所述获取到的视频帧中的视频图像与所述已有的视频图像子聚类中的视频图像进行相似度比较，获取第一相似度值，然后，执行步骤205；

205、检测所述第一相似度值是否大于预设的第一阈值，如果是，则执行步骤206；如果否，则执行步骤207；

206、将所述获取到的视频帧中的视频图像放入与所述已有的视频图像子聚类中相似度第一的视频图像子聚类中；

207、基于所述获取到的视频帧中的视频图像，形成新的视频图像子聚类；

208、检测获取到的帧是否为最后一帧(或者检测是否存在下一个视频帧)；如果检测结果为是，则结束；否则执行步骤209；

209、获取下一视频帧，执行步骤202或步骤204。

参考图3，是本发明实施例提取典型样本流程示意图，包括：

301、将子聚类中的第一张视频图像放入视频图像子聚类典型样本中；

此处，所述第一张视频图像可以为所述子聚类中的任意一张视频图像。

302、获取所述子聚类中的一张视频图像，将所述获取到的视频图像与所述视频图像子聚类典型样本中的所述第一张视频图像，进行相似度比较，获取第二相似度值；

303、检测所述第二相似度值是否大于预设的第二阈值，如果否，则执行步骤304，如果是，则执行步骤305；

304、将当前检测的视频图像放入所述第一张视频图像所在的视频图像子聚类典型样本中，然后执行步骤305；

305、检测所述子聚类中是否存在视频图像，如果检测结果为是，则执行步骤302，否则，执行步骤306；

306、检测是否存在另一个子聚类，如果检测结果为是，则执行步骤301，否则，则结束。

本发明实施例根据所述视频图像子聚类典型样本集合生成视频索引具体包括：比较所述视频图像子聚类典型样本集合之间的相似度，获取第三相似度值；任意两个子聚类典型样本集合C_i和C_j的相似度定义为：

Similarity(C_i，C_j)＝max{s_max(u_i，u_j)}

s_max参照基于相邻人脸相似度度量的子聚类描述中的定义，u_i和u_j分别是子聚类C_i和C_j的典型样本。用于检测所述第三相似值，当检测到所述第三相似度值大于预设的第三阈值时，将第三相似度值大于预设的第三阈值的人类子聚类典型样本，进行合并，生成视频图像子聚类典型样本集合。为表述方便，可以采用构建视频图像子聚类典型样本之间的相似度矩阵，进行合并视频图像子聚类典型样本，首先计算视频图像子聚类典型样本之间的第三相似度值，从而构建所有视频图像子聚类典型样本之间的相似度矩阵(矩阵中各个元素是自然排序的)，对矩阵中第三相似度值大于预设的第三阈值的视频图像子聚类典型样本进行合并，形成新的视频图像子聚类典型样本，比较新的视频图像子聚类典型样本与矩阵中其他视频图像子聚类典型样本之间的第三相似度，获取新的视频图像子聚类典型样本与矩阵中其他视频图像子聚类典型样本之间的第三相似度值，然后将新的视频图像子聚类典型样本与矩阵中其他视频图像子聚类典型样本之间的第三相似度值与预设的第三阈值进行比较，当新的视频图像子聚类典型样本与矩阵中其他视频图像子聚类典型样本之间的第三相似度值大于预设的第三阈值时，将新的视频图像子聚类典型样本与矩阵中第三相似度值大于预设的第三阈值的视频图像子聚类典型样本进行合并，从而产生新的相似度矩阵，重复第三相似度值比较，直至相似度矩阵不再发生变化为止。从而根据所述视频图像子聚类典型样本集合生成视频索引。

下面将给出一个具体的例子对上述方法进行详细说明，以人脸图像为例。

通过对门禁出入口进行录像，得到一段监控场景下交谈的视频，长约5分钟，共包含2个目标，2552帧图像。参考图4，是本发明实施例视频图像示意图；如图4所示，监控视频中的人脸图像质量低，目标存在大量的姿态和表情变化，且存在遮挡等不利因素。采用了人脸图像检测方法对视频人脸图像进行检测，共获得2686张人脸图像。给出预设的第一阈值δ₁＝0.8，第二阈值δ₂＝0.9，第三阈值δ₃＝0.92。δ₁考虑了人脸图像在图像中的坐标位置加权信息，其取值比δ₂小。另一方面，δ₂取较大的值可以获得较多的典型样本，有利于计算子聚类之间的相似度。δ₃取较大的值可以保证子聚类之间的严格匹配。

视频经过基于相邻人脸图像相似度度量的人脸图像子聚类步骤后，生成了包含A目标(图4右目标)的7个人脸图像子聚类和包含B目标(图4左目标)的14个人脸图像子聚类。B目标包含人脸图像子聚类数目更多的原因在于B目标存在快速的姿态变化，造成人脸图像表像的非连续性。对于每个人脸图像子聚类提取典型人脸图像样本，A目标7个人脸图像子聚类的典型样本数量分别为1，12，5，9，2，1和12个，B目标10个人脸图像子聚类的典型样本数量分别为1，28，10，13，6，1，9，2，10，3，10，6，4和3个。

在人脸图像子聚类典型样本的合并过程中，仅经过两层递归聚类后，就收敛为3组。A目标的第1个子聚类单独作为1组，第2～7个子聚类在严格的阈值条件下合并为第2组，B目标的10个子聚类全部合并为第3组，结果如图5所示，图5是本发明实施例视频人脸图像层次结构图；图5中第1列显示了人脸图像子聚类典型样本合并的结果，并分别用每个组的代表样本表示，作为提交给用户的视频索引；第2列显示了每个组包括的典型样本，分属合并前不同的人脸图像子聚类的典型样本；第3列列出了每个典型样本所概括的视频图像。通过以上层次结构图，可以直观地对视频中包含的人脸图像进行索引，以了解特定目标的活动轨迹。基于本发明实施例提出的子聚类生成、典型样本生成、子聚类的典型样本合并的方法思路，视频标记的错误率为0，即每个组所包含的人脸图像均对应于正确的视频标记。在图5中A目标被分成两组。如果放宽阈值约束，可以进一步将第1组和第2组层次合并得到完美的视频聚类结果。这里必须强调阈值δ₃的重要性。δ₃如果过小，将引起错误的人脸图像子聚类典型样本之间的融合。对于视频索引任务，并不要求视频的索引数正好等于视频所包含的目标数量，但要严格保证每个视频标记包含的错误样本数限定在一定范围内。

实施本发明方法实施例，通过获取视频帧中的多个视频图像；比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合。根据所述视频图像子聚类典型样本集合生成视频索引；可以实现对监控视频中的视频图像进行快速索引。

下面对与上述实施例相应的视频聚类系统进行详细说明

参考图6，是本发明实施例的视频图像聚类系统的组成示意图，该系统包括：

获取单元601，获取视频帧中的多个视频图像；

视频图像子聚类生成单元602，用于比较所述获取到的多个视频帧中的视频图像的相似度，将第一相似度值小于或等于第一阈值的视频图像，分为不同的视频图像子聚类；

视频图像子聚类生成单元602包括：

帧获取单元，用于获取视频帧；

首帧检测单元，用于检测所述获取到的视频帧是否为首帧，如果检测结果为是，则由视频图像子聚类生成执行单元执行；否则由第一相似度值获取单元执行；

视频图像子聚类生成执行单元，用于将所述获取到的视频帧中的视频图像生成视频图像子聚类；

第一相似度值获取单元，用于将所述获取到的视频帧中的视频图像与所述已有的视频图像子聚类中的视频图像进行相似度比较，获取第一相似度值，然后，由第一检测单元执行；

第一检测单元，用于检测所述第一相似度值是否大于预设的第一阈值，如果是，则由第一放入单元执行；如果否，则由第二放入单元执行；

第一放入单元，用于将所述获取到的视频帧中的视频图像放入与所述已有的视频图像子聚类中相似度第一的视频图像子聚类中；

第二放入单元，用于基于所述获取到的视频帧中的视频图像，形成新的视频图像子聚类；

第二检测单元，用于检测获取到的帧是否为最后一帧，如果检测结果为是，则结束；否则由下一帧获取单元执行；

下一帧获取单元，用于获取下一视频帧，然后由首帧检测单元执行。

视频图像子聚类生成单元602也可以包括：

帧获取单元，用于获取视频帧；

下一帧获取单元，用于获取下一视频帧，然后由第一相似度获取单元执行。

提取单元603，用于从所述视频图像子聚类中，提取与第一张视频图像的第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，形成视频图像典型样本集合。所述提取单元603包括：

第一张视频图像放入单元，用于将子聚类中的第一张视频图像放入视频图像子聚类典型样本中；

第二相似度值获取单元，用于获取所述子聚类中的一张视频图像，将所述获取到的视频图像与所述视频图像子聚类典型样本中的所述第一张视频图像，进行相似度比较，获取第二相似度值；

第三检测单元，用于检测所述第二相似度值是否大于预设的第二阈值，如果否，则由当前检测视频图像放入单元执行，如果是，则由第四检测单元执行；

当前检测视频图像放入单元，用于将当前检测的视频图像作为视频图像典型样本，放入所述第一张视频图像所在的视频图像子聚类典型样本中，然后由第四检测单元执行；

第四检测单元，用于检测所述子聚类中是否存在视频图像，如果检测结果为是，则由第二相似度值获取单元执行，否则，由第五检测单元执行；

第五检测单元，用于检测是否存在另一个子聚类，如果检测结果为是，则由第一张视频图像放入单元执行，否则，则结束。

视频索引生成单元604，用于根据所述视频图像子聚类典型样本集合生成视频索引。

下面的包含视频聚类系统的通信设备进行说明。

一种通信设备，包括视频聚类系统，所述视频聚类系统包括：

获取单元，获取视频帧中的多个视频图像；

视频索引生成单元，用于根据所述视频图像子聚类典型样本集合生成视频索引。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频图像聚类方法，其特征在于，包括：

A、获取视频帧中的多个视频图像；

B、比较获取到的视频图像与所述视频帧的首帧中的视频图像的相似度，获取第一相似度值，将第一相似度值小于或等于第一阈值的视频图像，形成第一视频图像子聚类，将第一相似度值大于第一阈值的视频图像，形成第二视频图像子聚类；

C、对所述第一视频图像子聚类和所述第二视频图像子聚类中每一个视频图像子聚类执行如下操作：提取视频图像子聚类中任意一张视频图像作为第一张视频图像放入视频图像典型样本集合中，从该视频图像子聚类中提取其他视频图像，比较所述其他视频图像与第一张视频图像的相似度，获取第二相似度值，将第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，放入所述视频图像典型样本集合。

2.如权利要求1所述的方法，其特征在于，根据所述视频图像典型样本集合生成视频索引。

3.如权利要求2所述的方法，其特征在于，比较所述获取到的视频图像的相似度包括：

采用尺度不变特征变换的距离度量器，检测所述获取到的视频图像的相似度。

4.如权利要求3所述的方法，其特征在于，所述视频图像可以为人脸图像，或者动物脸图像、或者除动物脸之外的动物其他部位的图像、物体图像。

5.如权利要求4所述的方法，其特征在于，步骤B具体包括：

201、获取视频帧；

203、将所述获取到的视频帧中的视频图像生成第二视频图像子聚类；

204、将所述获取到的视频帧中的视频图像与所述第二视频图像子聚类中的视频图像进行相似度比较，获取第一相似度值，然后，执行步骤205；

206、将所述获取到的视频帧中的视频图像放入所述第二视频图像子聚类中；

207、基于所述获取到的视频帧中的视频图像，形成第一视频图像子聚类；

208、检测获取到的帧是否为最后一帧，如果检测结果为是，则结束；否则执行步骤209；

209、获取下一视频帧，执行步骤204。

6.如权利要求5所述的方法，其特征在于，步骤C具体包括：

301、将所述第一视频图像子聚类或所述第二视频图像子聚类中的第一张视频图像放入视频图像典型样本集合中；

302、获取所述第一张视频图像所来自的视频图像子聚类中的一张视频图像，将所述获取到的视频图像与所述第一张视频图像，进行相似度比较，获取第二相似度值；

304、将当前检测的视频图像放入所述第一张视频图像所在的视频图像典型样本集合中，然后执行步骤305；

305、检测所述第一张视频图像所来自的视频图像子聚类中是否存在视频图像，如果检测结果为是，则执行步骤302，否则，执行步骤306；

306、检测是否存在另一个视频图像子聚类，如果检测结果为是，则执行步骤301，否则，则结束。

7.一种视频图像聚类系统，其特征在于，包括：

获取单元，获取视频帧中的多个视频图像；

视频图像子聚类生成单元，用于比较获取到的视频图像与所述视频帧的首帧中的视频图像的相似度，获取第一相似度值，将第一相似度值小于或等于第一阈值的视频图像，形成第一视频图像子聚类，将第一相似度值大于第一阈值的视频图像，形成第二视频图像子聚类；

提取单元，用于对所述第一视频图像子聚类和所述第二视频图像子聚类中每一个视频图像子聚类执行如下操作：提取该视频图像子聚类中任意一张视频图像作为第一张视频图像放入视频图像典型样本集合中，从该视频图像子聚类中提取其他视频图像，比较所述其他视频图像与第一张视频图像的相似度，获取第二相似度值，将第二相似度值小于或等于第二阈值的视频图像作为视频图像典型样本，放入所述视频图像典型样本集合。

8.如权利要求7所述的系统，其特征在于，还包括：

视频索引生成单元，用于根据所述视频图像典型样本集合生成视频索引。

9.如权利要求8所述的系统，其特征在于，所述视频图像子聚类生成单元包括：

帧获取单元，用于获取视频帧；

视频图像子聚类生成执行单元，用于将所述获取到的视频帧中的视频图像生成第二视频图像子聚类；

第一相似度值获取单元，用于将所述获取到的视频帧中的视频图像与所述第二视频图像子聚类中的视频图像进行相似度比较，获取第一相似度值，然后，由第一检测单元执行；

第一放入单元，用于将所述获取到的视频帧中的视频图像放入所述第二视频图像子聚类中；

第二放入单元，用于基于所述获取到的视频帧中的视频图像，形成第一视频图像子聚类；

下一帧获取单元，用于获取下一视频帧，然后由第一相似度值获取单元执行。

10.如权利要求9所述的系统，其特征在于，所述提取单元包括：

第一张视频图像放入单元，用于将所述第一视频图像子聚类或所述第二视频图像子聚类中的第一张视频图像放入视频图像典型样本集合中；

第二相似度值获取单元，用于获取所述第一张视频图像所来自的视频图像子聚类中的一张视频图像，将所述获取到的视频图像与所述第一张视频图像，进行相似度比较，获取第二相似度值；

当前检测视频图像放入单元，用于将当前检测的视频图像作为视频图像典型样本，放入所述第一张视频图像所在的视频图像典型样本集合中，然后由第四检测单元执行；

第四检测单元，用于检测所述第一张视频图像所来自的视频图像子聚类中是否存在视频图像，如果检测结果为是，则由第二相似度值获取单元执行，否则，由第五检测单元执行；

第五检测单元，用于检测是否存在另一个视频图像子聚类，如果检测结果为是，则由第一张视频图像放入单元执行，否则，则结束。

11.一种通信设备，包括视频聚类系统，所述视频聚类系统包括：

获取单元，获取视频帧中的多个视频图像；

12.如权利要求11所述的通信设备，其特征在于，所述视频聚类系统还包括：