CN103530652A

CN103530652A - 一种基于人脸聚类的视频编目方法、检索方法及其系统

Info

Publication number: CN103530652A
Application number: CN201310504743.8A
Authority: CN
Inventors: 段胜业; 唐小军; 孙剑
Original assignee: China Television Information Technology (beijing) Co Ltd
Current assignee: China Television Information Technology (beijing) Co Ltd
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2014-01-22
Anticipated expiration: 2033-10-23
Also published as: CN103530652B

Abstract

本发明提供一种基于人脸聚类的视频编目方法、检索方法及其系统，方法包括以下步骤：对视频文件进行镜头切分；对视频镜头进行人脸检测，得到人脸图片及相关信息；对检测出的人脸图片进行去重；对去重后的人脸图片进行人脸特征提取，将提取到的人脸特征存入人脸特征库；根据人脸特征，对人脸图片进行特征聚类；对人脸类别库中存储的各个人脸类别进行人工标注；根据人工标注后的人脸类别和类别中人脸的相关信息，自动生成人脸元数据，将所述人脸元数据增加到原始编目文件中，得到最终的视频编目文件。具有以下优点：对视频文件进行自动编目，准确高效，大大节省人力；不需要预制人脸样本库；提供基于人名和图片的视频检索功能，具有检索方便、高效的优点。

Description

一种基于人脸聚类的视频编目方法、检索方法及其系统

技术领域

本发明属于视频编目技术领域，具体涉及一种基于人脸聚类的视频编目方法、检索方法及其系统。

背景技术

视频编目是指对视频文件进行整理和提炼的过程，将其中有价值的画面和资料整理成为独立的文件，便于检索和再利用。

现有的视频编目方法主要为基于人脸识别的视频编目方法，例如，申请号为201110453762.3的专利申请公开了一种基于人脸识别技术的自动编目方法，具体包括：接收人脸素材库；接收多媒体文件；根据所述视频文件获取关键帧记录及与之对应的关键帧数据画面；根据所述关键帧数据画面获取关键帧人脸画面；根据所述关键帧人脸画面查询所述人脸素材库人脸画面信息，获取匹配人脸素材文本信息；根据所述关键帧记录对所述音频文件进行语言识别获取关键帧编目文本；根据所述关键帧记录在所述关键帧编目文本中合并所述人脸素材文本信息，获取编目文件。该专利申请解决了无法通过视频文件进行编目文件生成及编辑的问题，提高了编目文件生成及处理的精度与灵活性，节约了系统成本，减少了错误率，并且具有更广泛的实用性。

但是，在实现本发明的过程中，发明人发现，上述专利申请至少具有以下不足：

(1)需要提前建立人脸样本库：该方法需要提前建立并维护一个关键人物样本库，在人物样本库中预制感兴趣人物的人脸样本，利用该人脸样本库对视频进行编目；(2)只支持利用关键人物进行编目：该方法只能识别样本库中的关键人物，导致其他大部分人物信息丢失，编目信息缺乏完整性；(3)可能存在滞后性：如果调整人脸样本库，那么已存在的编目信息不会自动更新，会出现滞后性。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于人脸聚类的视频编目方法、检索方法及其系统，解决了无法通过视频文件自动生成完整的人脸元数据和无法利用人物姓名或者图片自动检索视频的问题。

本发明采用的技术方案如下：

本发明提供一种基于人脸聚类的视频编目方法，包括以下步骤：

S1，接收待编目的视频文件，对所述视频文件进行镜头切分，得到视频镜头序列；

S2，对视频镜头序列中的每个视频镜头进行人脸检测，获得每个镜头中出现的各个人物的人脸图片及其相关信息；

S3，对检测出的人脸图片进行去重，去除同一个镜头中同一个人重复的人脸图片；

S4，对去重后的人脸图片进行人脸特征提取，将提取到的人脸特征存入人脸特征库；

S5，根据人脸特征库中存储的人脸特征，对通过S3得到的各张人脸图片进行特征聚类，将同一个人不同镜头或视频片段中得到的人脸图片聚合在同一个人脸类别中，不同人的人脸图片被分配到不同的人脸类别中，将各个人物的人脸类别存储到人脸类别库中；

S6，对人脸类别库中存储的各个人脸类别进行人工标注；

S7，根据人工标注后的人脸类别和类别中人脸的相关信息，自动生成人脸元数据，将所述人脸元数据增加到原始编目文件中，得到最终的视频编目文件。

优选的，S1中，所述镜头切分包括针对镜头突变的镜头切分、针对镜头渐变的镜头切分。

优选的，S2中，所述对视频镜头序列中的每个视频镜头进行人脸检测包括以下步骤：

以Td为时间间隔从每个视频镜头抽取若干个视频关键帧；

对每个视频关键帧进行人脸检测，检测得到所述视频关键帧中包含的所有人脸图像，每一个人脸图像均生成一张人脸图片；另外，还生成检测得到的人脸图像的相关信息，所述相关信息包括对应的镜头编号、人物在视频中出现的时间、人脸在视频画面中的位置、人脸图像的大小。

优选的，S3中，所述对检测出的人脸图片进行去重包括执行以下步骤：

S3.1，建立临时存储空间，即人脸堆栈；对于一个视频镜头，初始化人脸堆栈的人脸数Nface为0，初始化视频关键帧的帧序号n为1；

S3.2，读取视频关键帧V(n)，判断Nface是否等于0，如果等于，则从视频关键帧V(n)中提取所有人脸图片、以及各张人脸图片在视频关键帧V(n)中的位置坐标，设提取到m个人脸图片；然后将所有人脸图片和位置坐标存储到人脸堆栈中，并更新Nface为m；其中，m≥1；

如果Nface大于0，设Nface＝w，则在视频关键帧V(n)中对人脸堆栈中的w个人脸进行跟踪，即：对于人脸堆栈中的人脸F(k)，k∈{1，2，...，w}，读取其位置坐标，如果在V(n)的相应位置处检测出了人脸F^*，则认为该人脸F(k)在V(n)中持续存在，用人脸F^*替换堆栈中的人脸F(k)，删除V(n)中的人脸F^*；反之，如果对于堆栈中的人脸F(k)，在V(n)的相应位置处没有检测出人脸，则认为该人脸F(k)在V(n)中已消失，则认为人脸F(k)为视频关键帧V(n)中所提取到的人脸图片，输出人脸F(k)，将人脸F(k)从堆栈中删除，并将Nface减1；

S3.3，视频关键帧V(n)中未在人脸堆栈中出现的人脸为新出现的人脸，将新出现的人脸及位置坐标添加到人脸堆栈中，并相应增加Nface值；

S3.4，检查是否到达视频镜头的最后1个视频关键帧，如果是最后1个视频关键帧，则输出人脸堆栈中存储的人脸图片，结束操作步骤；反之，则令n增加1，转到S3.2。

优选的，S4中，所述对去重后的人脸图片进行人脸特征提取，将提取到的人脸特征存入人脸特征库包括以下步骤：

对人脸图片进行旋转和缩放，生成固定尺寸的规范化图片；

对规范化人脸图片进行人脸特征提取；

将提取到的人脸特征存入人脸特征库。

优选的，S5中，所述根据人脸特征库中存储的人脸特征，对通过S3得到的各张人脸图片进行特征聚类包括以下步骤：

S5.1，建立人脸类别库，初始化人脸类别数Nclass为0，人脸类别库为空；

S5.2，读取一个新的人脸图片的人脸特征T(n)，如果人脸类别数Nclass大于0，设人脸类别数Nclass值为b，查询全部的人脸类别Class(k)，k∈{1，2，...，b}，计算T(n)与Class(k)之间的相似度S(n，k)；选择与T(n)相似度最大的人脸类别Class(k₀)，对应的相似度记为S(n，k₀)；

S5.3，如果S(n，k₀)大于或等于阈值Th，则认为人脸特征T(n)属于人脸类别Class(k₀)，将T(n)及对应的人脸图片和相关信息添加到Class(k₀)中，转到S5.4；

反之，如果S(n，k₀)小于阈值Th，则认为人脸特征T(n)不属于已有的人脸类别，创建一个新的类别Class(Nclass+1)，将T(n)及对应的人脸图片和相关信息添加到Class(Nclass+1)中，最后将该类别加入人脸类别库，并将Nclass增加1；

S5.4，判断是否还有未处理的人脸图片，如果有，则转到S5.2，否则结束操作步骤。

优选的，S5.2中，所述计算人脸特征T(n)与人脸类别Class(k)之间的相似度具体包括以下步骤：

遍历Class(k)中的N(k)个人脸特征TC(k，m)，m∈{1，2，...，N(k)}，分别计算人脸特征T(n)与人脸特征TC(k，m)之间的相似度S_T(k，m)；

选择使得S_T(k，m)达到最大的人脸特征TC(k，m₀)，将对应的相似度S_T(k，m₀)作为T(n)与Class(k)之间的相似度。

优选的，S6中，所述对人脸类别库中存储的各个人脸类别进行人工标注包括以下步骤：

通过人工识别该人脸类别中的人脸所对应的人物，并标注其姓名；

检查该人脸类别中的人脸图片，如果发现有错误识别的人脸图片，则将其从该人脸类别中删除；

检查是否有同一个人的人脸图像被误拆分成多个人脸类别，如果有误拆分，则将误拆分的人脸类别合并成一个完整的人脸类别。

优选的，S7具体包括以下步骤：

利用标注后的人脸类别和类别中人脸的相关信息，自动生成人脸元数据，所述人脸元数据包括人物姓名、对应的镜头编号、人物在视频中出现的起止时间、人脸在视频画面中的位置、人脸图像的大小；

将该人脸元数据作为镜头层编目的扩展元数据，增加到原始编目文件中，得到最终的视频编目文件。

本发明还提供一种视频检索的方法，包括以下步骤：

接收待检索人物的姓名信息或者人脸图片；

如果接收到的为姓名信息，则遍历所有视频编目文件，通过查询编目文件中镜头层的扩展元数据，得到包含该人物的视频信息和人物出现的精确时间；

如果接收到的为人脸图片，则：首先对输入的人脸图片进行人脸检测，进而进行人脸规范化，得到标准人脸图片；然后提取该标准人脸图片的人脸特征F；遍历所有人脸类别，分别计算人脸特征F与人脸类别Class(k)，k∈{1，2，...，Nclass}中代表特征TK(k)的相似度S_T(k)，选择使得S_T(k)达到最大的人脸类别Class(k₁)；记S_T(k)取得的最大值为S_max；如果S_max大于等于检索阈值T_s，则获取该类别中所有人脸信息；最后输出对应的视频信息和人物出现的精确时间；如果S_max小于检索阈值T_s，则输出为空。

本发明还提供一种基于人脸聚类的视频编目系统，包括以下模块：

人脸采集模块，用于从输入的视频文件中提取出有效的人脸图片，参与后续模块的分析和处理；其中，所述人脸采集模块包括：

镜头切分子模块，用于接收待编目的视频文件，对视频文件进行镜头切分，得到视频镜头序列；

人脸检测子模块，用于对视频镜头序列中的每个视频镜头进行人脸检测，获得每个镜头中出现的各个人物的人脸图片及其相关信息；

人脸去重子模块，用于对检测出的人脸图片进行去重，去除同一个镜头中同一个人重复的人脸图片；

特征提取模块，用于对采集到的人脸图片进行人脸特征的提取，并将提取到的人脸特征存入人脸特征库；

特征聚类模块，用于根据人脸特征库中存储的人脸特征，对通过S3得到的各张人脸图片进行特征聚类，将同一个人不同镜头或视频片段中得到的人脸图片聚合在同一个人脸类别中，不同人的人脸图片被分配到不同的人脸类别中，将各个人物的人脸类别存储到人脸类别库中；

类别标注模块，用于对人脸类别库中存储的各个人脸类别进行人工标注；

自动编目模块，用于根据人工标注后的人脸类别和类别中人脸的相关信息，自动生成人脸元数据，将所述人脸元数据增加到原始编目文件中，得到最终的视频编目文件。

本发明还提供一种视频检索的系统，包括：上述的基于人脸聚类的视频编目系统、姓名检索模块和人脸图片检索模块；

其中，所述姓名检索模块用于：接收待检索人物的姓名信息；遍历所有视频编目文件，通过查询编目文件中镜头层的扩展元数据，得到包含该人物的视频信息和人物出现的精确时间；

所述人脸图片检索模块用于：首先对输入的人脸图片进行人脸检测，进而进行人脸规范化，得到标准人脸图片；然后提取该标准人脸图片的人脸特征F；遍历所有人脸类别，分别计算人脸特征F与人脸类别Class(k)，k∈{1，2，...，Nclass}中代表特征TK(k)的相似度S_T(k)，选择使得S_T(k)达到最大的人脸类别Class(k₁)；记S_T(k)取得的最大值为S_max；如果S_max大于等于检索阈值T_s，则获取该类别中所有人脸信息；最后输出对应的视频信息和人物出现的精确时间；如果S_max小于检索阈值T_s，则输出为空。

本发明的有益效果如下：

(1)对视频文件进行自动编目，准确高效，大大节省人力；

(2)不需要预制人脸样本库，可将视频中出现的所有人物参与编目而非仅限于人脸样本库中的人物；

(3)提供基于人名和图片的视频检索功能，输入一个人的姓名或者照片，即可快速检索出包含该人的所有视频，并精确定位其出现的时间点；具有检索方便、高效的优点。

附图说明

图1为本发明提供的基于人脸聚类的视频编目方法和检索方法的示意图；

图2为本发明提供的基于人脸聚类的视频编目方法的流程示意图。

具体实施方式

以下结合附图对本发明进行详细说明：

(一)视频编目方法

如图1-2所示，本发明提供一种基于人脸聚类的视频编目方法，包括以下步骤：

本步骤中，镜头切分包括针对镜头突变的镜头切分、针对镜头渐变的镜头切分。

此步骤具体包括：

以Td为时间间隔从每个视频镜头抽取若干个视频关键帧；其中，视频关键帧提取原则为：既能反映视频内容，又保证数量上尽量精简。

对每个视频关键帧进行人脸检测，人脸检测是指：在视频关键帧中检测人脸图像，得到人脸图像所在的矩形区域，并标注人脸图像矩形区域的位置坐标，所述位置坐标包括矩形区域的左上角坐标和右下角坐标；另外还生成检测得到的人脸图像的相关信息，所述相关信息包括对应的镜头编号、人物在视频中出现的时间、人脸在视频画面中的位置、人脸图像的大小。本实例中，人脸检测采用Haar特征加Adaboost分类器的方法。

例如：对于一个视频关键帧，一共涉及到3个人物，则本步骤中需要生成3张人脸图片。

S3，对检测出的人脸图片进行去重，去除同一个镜头中同一个人重复的人脸图片，确保同一个镜头中每人仅有一幅人脸图片；

此步骤具体包括：

例如：对于一个视频镜头，假设共提取三个视频关键帧，分别为V(1)、V(2)、和V(3)；初始化后，人脸堆栈中人脸数Nface＝0；

首先读取V(1)，由于此时Nface＝0，所以，从V(1)中设共提取3张人脸图片，然后将这3张人脸图片及对应的坐置坐标存储到堆栈中，并更新Nface＝3；其中，将3张人脸图片分别记为F(1)、F(2)和F(3)；将3张人脸图片在V(1)中的坐置坐标分别记为位置坐标a、位置坐标c和位置坐标c；

然后继续读取V(2)，由于此时Nface不等于0，因此，从堆栈中首先读取F(1)以及位置坐标a，在V(2)的位置坐标a附近检测是否存在人脸F^*，如果存在，则认为同一人脸在V(1)和V(2)中持续存在，但是，由于同一人脸在V(2)中的位置有可能与其在V(1)中的位置稍有变化，为减少人物检测误差，此时，重新获取同一人脸在V(2)中的位置坐标，记为位置坐标a’，则用V(2)中检测到的人脸F^*替换堆栈中的人脸F(1)，同时，用位置坐标a’替换位置坐标a；

反之，如果在V(2)的位置坐标a附近没有检测到人脸，则认为人脸F(1)在V(2)中已消失，则认为F(1)即为该视频镜头所提取到的同一人的最终一张人脸图片，则输出F(1)，并将F(1)从堆栈中删除，并将Nface减1。重复上述过程，依次再从堆栈中读取F(2)以及位置坐标b，F(3)以及位置坐标c，其处理方法与F(1)相同，在此不再赘述。

通过上述方法，可以保证同一镜头中同一个人只存储一张人脸图片。

此步骤具体包括：

对人脸图片进行旋转和缩放，生成固定尺寸的规范化图片；

对规范化人脸图片进行人脸特征提取，，所述人脸特征提取是从规范化后的人脸图片中提取人脸特征，人脸特征有多种，包括局部二值模式(LBP)、Gabor小波特征和局部Gabor特征等，本实例使用基于局部Gabor变换直方图序列特征(HSLGBP)；

将提取到的人脸特征存入人脸特征库。

S5，根据人脸特征对人脸图像进行聚类；

此步骤具体包括：根据人脸特征库中存储的人脸特征，对通过S3得到的各张人脸图片进行特征聚类，将同一个人不同镜头或视频片段中得到的人脸图片聚合在同一个人脸类别中，不同人的人脸图片被分配到不同的人脸类别中，将各个人物的人脸类别存储到人脸类别库中；

本步骤中，计算人脸特征T(n)与人脸类别Class(k)之间的相似度具体包括以下步骤：

S6，对人脸类别库中存储的各个人脸类别进行人工标注；

此步骤具体包括：为每个人脸类别标注上人物姓名并检查聚类结果；

S7，根据人工标注后的人脸类别和类别中人脸的相关信息，自动生成人脸元数据，将所述人脸元数据增加到原始编目文件中，得到最终的视频编目文件。此步骤具体包括：利用标注后的人脸类别和类别中人脸的相关信息，自动生成人脸元数据，所述人脸元数据包括人物姓名、对应的镜头编号、人物在视频中出现的起止时间、人脸在视频画面中的位置、人脸图像的大小；将该人脸元数据作为镜头层编目的扩展元数据，增加到原始编目文件中，得到最终的视频编目文件。

(二)视频检索方法

通过上述基于人脸聚类的视频编目方法，得到视频编目文件，本发明还提供一种对得到的视频编目文件进行视频检索的方法，包括以下步骤：

接收待检索人物的姓名信息或者人脸图片；

(三)视频编目系统

(四)视频检索系统

综上所述，本发明所公开的基于人脸聚类的视频编目方法、检索方法及其系统，可以用于对视频进行自动编目并在大量视频中检索感兴趣的视频，具有以下优点：

(1)对视频文件进行自动编目，准确高效，大大节省人力；

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于人脸聚类的视频编目方法，其特征在于，包括以下步骤：

S6，对人脸类别库中存储的各个人脸类别进行人工标注；

2.根据权利要求1所述的基于人脸聚类的视频编目方法，其特征在于，S1中，所述镜头切分包括针对镜头突变的镜头切分、针对镜头渐变的镜头切分。

3.根据权利要求1所述的基于人脸聚类的视频编目方法，其特征在于，S2中，所述对视频镜头序列中的每个视频镜头进行人脸检测包括以下步骤：

以Td为时间间隔从每个视频镜头抽取若干个视频关键帧；

4.根据权利要求3所述的基于人脸聚类的视频编目方法，其特征在于，S3中，所述对检测出的人脸图片进行去重包括执行以下步骤：

5.根据权利要求1所述的基于人脸聚类的视频编目方法，其特征在于，S4中，所述对去重后的人脸图片进行人脸特征提取，将提取到的人脸特征存入人脸特征库包括以下步骤：

对人脸图片进行旋转和缩放，生成固定尺寸的规范化图片；

对规范化人脸图片进行人脸特征提取；

将提取到的人脸特征存入人脸特征库。

6.根据权利要求1所述的基于人脸聚类的视频编目方法，其特征在于，S5中，所述根据人脸特征库中存储的人脸特征，对通过S3得到的各张人脸图片进行特征聚类包括以下步骤：

7.根据权利要求6所述的基于人脸聚类的视频编目方法，其特征在于，S5.2中，所述计算人脸特征T(n)与人脸类别Class(k)之间的相似度具体包括以下步骤：

8.根据权利要求1所述的基于人脸聚类的视频编目方法，其特征在于，S6中，所述对人脸类别库中存储的各个人脸类别进行人工标注包括以下步骤：

9.根据权利要求1所述的基于人脸聚类的视频编目方法，其特征在于，S7具体包括以下步骤：

10.一种对权利要求1得到的视频编目文件进行视频检索的方法，其特征在于，包括以下步骤：

接收待检索人物的姓名信息或者人脸图片；

11.一种基于人脸聚类的视频编目系统，其特征在于，包括以下模块：

12.一种视频检索的系统，其特征在于，包括：权利要求11所述的基于人脸聚类的视频编目系统、姓名检索模块和人脸图片检索模块；