CN105631408A

CN105631408A - 基于视频的面孔相册处理方法和装置

Info

Publication number: CN105631408A
Application number: CN201510964290.6A
Authority: CN
Inventors: 张涛; 龙飞; 张胜凯
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-06-01
Anticipated expiration: 2035-12-21
Also published as: CN105631408B

Abstract

本公开是关于基于视频的面孔相册处理方法，包括：接收视频数据；将视频数据拆分成各幅帧图像；对各幅帧图像进行人脸图像标定，获取视频数据中所出现的各面孔分别对应的人脸图像；对各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析；根据聚类分析结果，将各面孔分别对应的人脸图像划分入对应的面孔相册分组中。本公开实现将视频中的人脸图像添加到对应的面孔相册分组中，提高了用户的使用体验。

Description

基于视频的面孔相册处理方法和装置

技术领域

本公开涉及图像处理领域，尤其涉及基于视频的面孔相册处理方法和装置。

背景技术

面孔相册是手机、平板电脑等移动终端设备新推出的一项功能，主要是负责整理用户手机、平板电脑等移动终端设备的照片，然后以人为单位一个个的进行分组，即同一个人的所有照片被自动划分到面孔相册中对应的组内。

相关技术在实现面孔相册自动分组功能时，主要是应用人脸识别算法，将待识别的照片首先进行人脸检测，提取人脸特征，然后和面孔相册中的训练好的人脸特征模型进行相似度计算，如果相似度大于预设的相似度阈值，则将包含该人脸的照片划分到面孔相册中对应的组内。

公开内容

为克服相关技术中存在的问题，本公开提供一种基于视频的面孔相册处理方法和装置。

根据本公开实施例的第一方面，提供一种基于视频的面孔相册处理方法，包括：

接收视频数据；

将所述视频数据拆分成各幅帧图像；

对所述各幅帧图像进行人脸图像标定，获取所述视频数据中所出现的各面孔分别对应的人脸图像；

对所述各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析；

根据聚类分析结果，将所述各面孔分别对应的人脸图像划分入对应的面孔相册分组中。

该方案可以包括以下有益效果：在对接收到的视频数据进行帧图像的拆分后，对拆分后的各幅帧图像进行人脸图像标定处理，以获得视频数据中所出现的各面孔分别对应的人脸图像，即对各幅帧图像进行基于面孔的标定，且获得每个面孔在对应帧图像中的人脸图像。进而，基于对各面孔对应的人脸图像与每个面孔相册分组的聚类分析处理，将各面孔对应的人脸图像划分入对应的面孔相册分组中，从而实现将视频中的人脸图像添加到对应面孔相册分组中，提高了用户的使用体验。

结合第一方面，在第一方面的第一种可能的实现方式中，所述对所述各幅帧图像进行人脸图像标定，得到所述视频数据中所出现的各面孔分别对应的人脸图像，包括：

每隔m帧对第n+1帧图像中的人脸进行人脸检测，并且对第n+2帧至第n+m帧图像进行人脸跟踪，得到所述视频数据中所出现的各面孔分别对应的人脸图像；

其中，n为大于或者等于0的整数，m为正整数。

该方案可以包括以下有益效果：为了加快人脸标定的处理速度，通过每间隔m帧做一次全局检测，其他帧采用跟踪技术，即每隔m帧对第n+1帧图像中的人脸进行人脸特征检测，对第n+2～第n+m帧进行人脸跟踪，从而得到视频数据中各面孔分别对应的人脸图像，从而在提高用户体验的同时，兼顾计算代价，加快了处理速度。

结合第一方面，在第一方面的第二种可能的实现方式中，所述方法还包括：

对所述各面孔分别对应的人脸图像进行筛选处理，得到所述各面孔分别对应的人脸图像中满足质量要求的人脸图像。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述对所述各面孔分别对应的人脸图像进行筛选处理，得到所述各面孔分别对应的人脸图像中满足质量要求的人脸图像，包括：

确定所述各面孔分别对应的人脸图像的评价值，所述评价值包括清晰度、面积、姿态偏移量中的至少一种；

对所述各面孔分别对应的人脸图像进行筛选，得到所述评价值满足预设评价阈值的人脸图像。

该方案可以包括以下有益效果：为了保证聚类分析结果的准确性，对各面孔分别对应的人脸图像进行基于图像质量的筛选处理，得到各面孔对应的满足质量要求的人脸图像，从而通过对各面孔对应的人脸图像中满足质量要求的人脸图像进行与各面孔相册分组的聚类分析处理，提高了聚类分析结果准确性。

结合第一方面，在第一方面的第四种可能的实现方式中，所述对所述各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析，包括：

采用对卷积神经网络进行人脸分类识别训练获得的人脸特征提取模型，对所述各面孔分别对应的人脸图像进行人脸特征提取；

将提取到的所述人脸特征分别与各面孔相册分组对应的人脸特征进行相似度度量。

该方案可以包括以下有益效果：通过采用基于对卷积神经网络进行人脸分类识别训练获得的人脸特征提取模型进行各面孔分别对应的人脸图像的人脸特征提取和面孔相册分组对应的人脸特征的提取，由于基于深度学习的卷积神经网络能够获取到更加丰富的特征信息，从而保证了相似性聚类分析结果的准确性。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述根据聚类分析结果，将所述各面孔分别对应的人脸图像划分入对应的面孔相册分组中，包括：

根据所述聚类分析结果，确定各面孔分别对应的人脸图像是否存在对应的面孔相册分组；

若存在对应的面孔相册分组，且所述各面孔分别对应的人脸图像中预设数量的人脸图像均聚类到同一目标面孔相册分组，则将所述各面孔对应的人脸图像划分入对应的所述目标面孔相册分组中。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中所述方法还包括：

若不存在对应的面孔相册分组，则新建面孔相册分组，并将所述各面孔分别对应的人脸图像划分入所述新建的面孔相册分组中。

该方案可以包括以下有益效果：为了兼顾聚类分析处理效率以及聚类分析结果的准确性，针对每个面孔对应的各人脸图像来说，只要该各人脸图像中超过一定数量的人脸图像都聚类到同一个目标面孔相册分组中，则可以将该面孔对应的全部人脸图像都划分到该目标面孔相册分组中。而在某个面孔对应的各人脸图像都没有聚类到对应的面孔相册分组中时，通过新建面孔相册分组的方式，增加该面孔对应的面孔相册分组，提高用户体验。

根据本公开实施例的第二方面，提供一种基于视频的面孔相册处理装置，包括：

接收模块，被配置为接收视频数据；

拆分模块，被配置为将所述接收模块接收的所述视频数据拆分成各幅帧图像；

标定获取模块，被配置为对所述拆分模块拆分的所述各幅帧图像进行人脸图像标定，获取所述视频数据中所出现的各面孔分别对应的人脸图像；

聚类分析模块，被配置为对所述标定获取模块获得的所述各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析；

划分模块，被配置为根据所述聚类分析模块的聚类分析结果，将所述各面孔分别对应的人脸图像划分入对应的面孔相册分组中。

结合第二方面，在第二方面的第一种可能的实现方式中，所述标定获取模块被配置为：每隔m帧对第n+1帧图像中的人脸进行人脸检测，并且对第n+2帧至第n+m帧图像进行人脸跟踪，得到所述视频数据中所出现的各面孔分别对应的人脸图像；

其中，n为大于或者等于0的整数，m为正整数。

结合第二方面，在第二方面的第二种可能的实现方式中，所述装置还包括：

筛选模块，被配置为对所述标定获取模块获得的所述各面孔分别对应的人脸图像进行筛选处理，得到所述各面孔分别对应的人脸图像中满足质量要求的人脸图像。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述筛选模块包括：

第一确定子模块，被配置为确定所述标定获取模块获得的所述各面孔分别对应的人脸图像的评价值，所述评价值包括清晰度、面积、姿态偏移量中的至少一种；

筛选子模块，被配置为对所述标定获取模块获得的所述各面孔分别对应的人脸图像进行筛选，得到所述第一确定子模块确定的所述评价值满足预设评价阈值的人脸图像。

结合第二方面，在第二方面的第四种可能的实现方式中，所述聚类分析模块包括：

特征提取子模块，被配置为采用对卷积神经网络进行人脸分类识别训练获得的人脸特征提取模型，对所述各面孔分别对应的人脸图像进行人脸特征提取；

相似性处理子模块，被配置为将提取到的所述人脸特征分别与各面孔相册分组对应的人脸特征进行相似度度量。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述划分模块包括：

第二确定子模块，被配置为根据所述聚类分析结果，确定各面孔分别对应的人脸图像是否存在对应的面孔相册分组；

第一划分子模块，被配置为在所述第二确定子模块确定存在对应的面孔相册分组，且所述各面孔分别对应的人脸图像中预设数量的人脸图像均聚类到同一目标面孔相册分组时，将所述各面孔对应的人脸图像划分入对应的所述目标面孔相册分组中。

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述划分模块还包括：

第二划分子模块，被配置为所述第二确定子模块确定不存在对应的面孔相册分组时，新建面孔相册分组，并将所述各面孔分别对应的人脸图像划分入所述新建的面孔相册分组中。

根据本公开实施例的第三方面，提供一种基于视频的面孔相册处理装置，包括：

存储器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收视频数据；

将所述视频数据拆分成各幅帧图像；

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例一的流程图；

图2是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例二的流程图

图3为深度卷积神经网络Alex网络图；

图4是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例三的流程图；

图5是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例四的流程图；

图6是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例一的框图；

图7是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例二的框图；

图8是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例三的框图；

图9是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例四的框图；

图10是根据一示例性实施例示出的一种基于视频的面孔相册处理装置的框图；

图11是根据一示例性实施例示出的另一种基于视频的面孔相册处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例一的流程图，如图1所示，本实施例涉及的基于视频的面孔相册处理方法用于终端设备中，该终端设备例如可以是手机、PDA(PersonalDigitalAssistant，个人数字助理，简称：PDA)等，也可以是具有照相摄像功能的其他设备。该基于视频的面孔相册处理方法包括以下步骤。

在步骤101中，接收视频数据。

在步骤102中，将视频数据拆分成各幅帧图像。

在步骤103中，对各幅帧图像中的人脸图像进行标定，获取视频数据中所出现的各面孔分别对应的人脸图像。

在步骤104中，对各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析。

在步骤105中，根据聚类分析结果，将各面孔分别对应的人脸图像划分入对应的面孔相册分组中。

本公开实施例中，终端设备接收视频数据，并对该视频数据进行解码，将其拆分为一帧帧的图像，然后对拆分后的各帧图像中的面孔进行人脸图像标定，标定采用对各帧图像中的人脸进行人脸检测和跟踪相融合的技术，得到视频数据中所出现的各面孔在各帧图像中分别对应的人脸图像，其中，人脸检测可以采用现有的成熟的adaboost算法，人脸跟踪可以采用成熟的粒子滤波或者camshift算法。

进而，针对每个面孔对应的各人脸图像，进行与各面孔相册分组的聚类分析。具体方法如下：

为了保证聚类分析结果的准确性，可选的，可以首先对获得的每个面孔对应的各人脸图像进行一定的预处理，包括：采用比如sdm算法对每个人脸图像进行器官点定位，将人脸图像进行尺寸等归一化处理。进而，将归一化的各人脸图像与各面孔相册分组进行聚类分析处理。具体地，该聚类分析处理主要是进行各人脸图像的人脸特征与各面孔相册分组对应的人脸特征的相似性度量处理。

在进行聚类分析处理的过程中，主要用到人脸特征提取模型，该人脸特征提取模型是基于深度学习的卷积神经网络获得的。将每个面孔对应的各人脸图像分别输入到该人脸特征提取模型，则该人脸特征提取模型即会输出对应的人脸特征，表现为人脸特征向量。从而，将输出的该人脸特征和各面孔相册分组对应的人脸特征进行相似度计算，从而根据相似度计算结果将各面孔分别对应的人脸图像都划分到对应的面孔相册分组中。具体地聚类分析处理过程将在后续实施例中详细说明。

本实施例中，在对接收到的视频数据进行帧图像的拆分后，对拆分后的各幅帧图像进行人脸图像标定处理，以获得视频数据中所出现的各面孔分别对应的人脸图像，即对各幅帧图像进行基于面孔的标定，且获得每个面孔在对应帧图像中的人脸图像。进而，基于对各面孔对应的人脸图像与每个面孔相册分组的聚类分析处理，将各面孔对应的人脸图像划分入对应的面孔相册分组中，从而实现将视频中的人脸图像添加到对应面孔相册分组中，提高了用户的使用体验。

图2是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例二的流程图，如图2所示，上述步骤104中涉及的聚类分析处理过程，具体包括如下步骤：

在步骤201中，采用预先训练好的人脸特征提取模型，对各面孔分别对应的人脸图像进行人脸特征提取。

在步骤202中，将提取到的人脸特征分别与各面孔相册分组对应的人脸特征进行相似度度量。

前述实施例已经提到，在针对每个面孔对应的各人脸图像，进行与各面孔相册分组的聚类分析处理过程中，首先要采用人脸特征提取模型提取每个面孔对应的各人脸图像的人脸特征，进而，将每个人脸图像对应的人脸特征与各面孔相册分组对应的人脸特征进行相似性度量，该相似性度量可以是距离度量方式，该距离度量方式可以是余弦距离、欧式距离等距离。

面孔相册分组的创建过程不在本实施例中赘述，但是，面孔相册分组中各照片在向面孔相册分组的聚类处理过程中，也采用了上述人脸特征提取模型。由于每个面孔相册分组中包括的照片数量可能是多个，那么面孔相册分组对应的人脸特征可以是其中包含的各照片对应的人脸特征的平均计算处理结果，也可以是其中任一个照片的人脸特征，不做具体限制。

下面对人脸特征模型的训练获取过程进行说明。该人脸特征提取模型是对基于深度学习的卷积神经网络进行人脸分类识别训练获得的。

其中，Alex网络为卷积神经网络(ConvolutionalNeuralNetworks，简称CNN)的一种，是目前比较通用的物体识别的深度卷积神经网络图，图3为深度卷积神经网络Alex网络图；如图3所示。卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

在本实施例中，对人脸特征提取模型训练的具体过程如下：准备大量的训练样本人脸图像，并对他们进行类别的标定。例如张三，李四王五，等等，一共标定大量不同用户的人脸图像，每个用户的人脸图像数量为多个。为了保证模型的训练效果，可以对每个样本人脸图像，以双眼的中心为标准，进行尺度归一化，得到比如224*224的人脸图像。然后将归一化后的样本人脸图像和对应的类别标号输入到卷积神经网络中，对卷积神经网络中的各层隐层节点间的特征系数或者说卷积核进行分类训练，在卷积神经网络的分类输出层输出相应的识别结果，即输出类别标号。通过大量样本人脸图像的训练，可以得到快速收敛的、稳定的各卷积核。而本实施例中的人脸特征提取模型即是却掉卷积神经网络的最后一层即分类输出层之后的模型，用于提取输入的人脸图像的人脸特征，如图3所示，可以输出2048*2＝4096维人脸特征。

本实施例中，通过采用基于对卷积神经网络进行人脸分类识别训练获得的人脸特征提取模型进行各面孔分别对应的人脸图像的人脸特征提取和面孔相册分组对应的人脸特征的提取，由于基于深度学习的卷积神经网络能够获取到更加丰富的特征信息，从而保证了相似性聚类分析结果的准确性。

进一步地，在图1或图2所示实施例的基础上，对步骤103中的人脸图像标定过程作详细说明，该步骤103具体包括：

每隔m帧对第n+1帧图像中的人脸进行人脸检测，并且对第n+2帧至第n+m帧图像进行人脸跟踪，得到所述视频数据中所出现的各面孔分别对应的人脸图像。

其中，n为大于或者等于0的整数，m为正整数。

具体的，为了加快人脸标定处理速度，在处理视频数据时，做一些人脸检测、跟踪的处理策略，即利用人脸检测和人脸跟踪相结合的技术，每间隔m帧做一次全局检测，其他图像帧采用跟踪，比如m为5，n为0时，从第1帧开始，对第1帧图像中的人脸进行人脸检测，然后对第2～5帧进行人脸跟踪算法，可以得到视频数据中所出现的各面孔分别对应的人脸图像。

下面将采用上述策略和采用传统照片处理技术方案的时间开销做进行对比：假设人脸检测耗时100ms，跟踪耗时100ms，如果按照传统的照片处理技术方案，一段100帧的视频，人脸检测耗时就是100*100ms。但是采用上述策略，只需要耗时20*100+80*10＝2800ms，时间开销缩减到1/3。因为拍摄视频，即使漏过4帧，一般就只有0.2s，所以不会影响结果。对于人脸检测跟踪得到的结果，进行记录索引，比如跟踪目标即面孔1，记为ID1，并将人脸图像区域截取下来。如果其中某个人的跟踪时间出现太短，可以略去，在索引记录中删除。然后对剩下的符合条件的所有索引记录，记录下来：ID1，ID2，.....，ID20等等。

因此，本实施例中，通过每间隔m帧做一次全局检测，其他图像帧采用跟踪技术，即每隔m帧对第n+1帧图像中的人脸进行人脸特征检测，对第n+2帧至第n+m帧进行人脸跟踪，从而更加快速地得到视频数据中各面孔分别对应的人脸图像，从而在提高用户体验的同时，兼顾计算代价，加快了处理速度。

图4是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例三的流程图，如图4所示，本实施例的基于视频的面孔相册处理方法包括以下步骤：

在步骤301中，接收视频数据。

在步骤302中，将视频数据拆分成各幅帧图像。

在步骤303中，对各幅帧图像进行人脸图像标定，获取视频数据中所出现的各面孔分别对应的人脸图像。

在步骤304中，对各面孔分别对应的人脸图像进行筛选处理，得到各面孔分别对应的人脸图像中满足质量要求的人脸图像。

在步骤305中，对各面孔分别对应的人脸图像中满足质量要求的人脸图像进行与各面孔相册分组的聚类分析。

在步骤306中，根据聚类分析结果，将各面孔分别对应的人脸图像划分入对应的面孔相册分组中。

与上述实施例不同的是，本实施例增加步骤304中，即在进行人脸图像聚类分析之前，对每个面孔对应的各人脸图像进行筛选，从而得到每个面孔对应的各人脸图像中满足质量要求的人脸图像，然后对满足质量要求的人脸图像进行人脸图像聚类分析。

具体的，在上述人脸检测、跟踪得到的结果中，对各面孔对应的人脸图像进行筛选处理，可以在每个ID的所有人脸图像中挑选最清晰，人脸框较大、以及姿态为正面的几张人脸图像作为该ID的代表，例如经过上述筛选后最后选择的代表人脸图像数目为10张。然后对选择的代表人脸图像进行聚类分析。

具体来说，对各面孔分别对应的人脸图像进行筛选处理，得到各面孔分别对应的人脸图像中满足质量要求的人脸图像，包括：

确定各面孔分别对应的人脸图像的评价值，所述评价值包括清晰度、面积、姿态偏移量中的至少一种。

对各面孔分别对应的人脸图像进行筛选，得到评价值满足预设评价阈值的人脸图像。

具体地，对每个面孔对应的各人脸图像的评价，评价算法包括：质量最清晰的算法，姿态算法，人脸框的大小中的一种或多种，并得到对应的评价值，该评价值对应上述各算法分别为：清晰度、面积、姿态偏移量。其中：

质量最清晰的算法具体为：计算人脸图像的梯度幅值，然后排序，幅值越大，排序越靠前。

姿态算法：预先利用SVM算法，采用大量正面人脸图像样本和侧面人脸图像样本，训练一个正面人脸图像分类器。利用该分类器，对同一面孔ID的所有人脸图像进行判定，然后按照得分进行排序，越高排序越靠前

人脸框的大小：直接利用人脸框的面积来排序，面积越大排序越靠前。

最后确定选取规则：从每个面孔对应的各人脸图像中筛选得到评价值满足预设评价阈值的人脸图像。可选的，该选取规则可以为：假设某一ID的人脸图像为100张，那么上述各算法的第一名得分100分，最后一名得分0分，这样各算法完成得分之后，综合选取总分最高的前10张人脸图像作为该ID的代表人脸图像，在此选取的评价阈值为10。

本实施例中，为了保证聚类分析结果的准确性，对各面孔分别对应的人脸图像进行基于图像质量的筛选处理，得到各面孔对应的满足质量要求的人脸图像，从而通过对各面孔对应的人脸图像中满足质量要求的人脸图像进行与各面孔相册分组的聚类分析处理，提高了聚类分析结果准确性。

图5是根据一示例性实施例示出的一种基于视频的面孔相册处理方法实施例四的流程图，如图5所示，在上一实施例的基础上，步骤305具体可以包括如下步骤。

在步骤401中，根据聚类分析结果，确定各面孔分别对应的人脸图像是否存在对应的面孔相册分组。

在步骤402中，在存在对应的面孔相册分组，且各面孔分别对应的人脸图像中预设数量的人脸图像均聚类到同一目标面孔相册分组时，将各面孔对应的人脸图像划分入对应的目标面孔相册分组中。

在步骤403中，在不存在对应的面孔相册分组时，新建面孔相册分组，并将各面孔分别对应的人脸图像划分入新建的面孔相册分组中。

在针对每个面孔对应的人脸图像，尤其是每个面孔对应的满足质量要求的人脸图像，进行与各面孔相册分组的聚类分析之后，可以获得各人脸图像的聚类分析结果。该结果一般是聚类到某个面孔相册分组或者没有聚类到任何一个面孔相册分组。

针对任一个面孔来说，如果其对应的各人脸图像都没有聚类到任一个面孔相册分组中，则说明不存在与该面孔对应的面孔相册分组，新建一个面孔相册分组，将该面孔对应的所有人脸图像划分到该新建面孔相册分组中。

相反的，如果对应该面孔来说，其对应的各人脸图像可以聚类到至少一个面孔相册分组中时，为了保证聚类结果的准确性，将大于一定数量的人脸图像所聚类到的面孔相册分组确定为目标面孔相册分组，从而将该面孔对应的所有人脸图像划分到给目标面孔相册分组中。举例来说，某个面孔对应有10张人脸图像，其中6张都聚类到面孔相册分组A中，则确定该面孔相册分组A为目标面孔相册分组，将这10张人脸图像都划分到该面孔相册分组A中。

本实施例中，为了兼顾聚类分析处理效率以及聚类分析结果的准确性，针对每个面孔对应的各人脸图像来说，只要该各人脸图像中超过一定数量的人脸图像都聚类到同一个目标面孔相册分组中，则可以将该面孔对应的全部人脸图像都划分到该目标面孔相册分组中。而在某个面孔对应的各人脸图像都没有聚类到对应的面孔相册分组中时，通过新建面孔相册分组的方式，增加该面孔对应的面孔相册分组，提高用户体验。

以上描述了基于视频的面孔相册处理方法的实现过程，该过程可以由基于视频的面孔相册处理装置来实现，以下将对基于视频的面孔相册处理装置的内部功能和结构进行说明。

图6是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例一的框图，如图6所示，该基于视频的面孔相册处理装置包括：接收模块11、拆分模块12、标定获取模块13、聚类分析模块14和划分模块15。

接收模块11，被配置为接收视频数据。

拆分模块12，被配置为将所述接收模块11接收的所述视频数据拆分成各幅帧图像。

标定获取模块13，被配置为对所述拆分模块12拆分的所述各幅帧图像进行人脸图像标定，获取所述视频数据中所出现的各面孔分别对应的人脸图像。

聚类分析模块14，被配置为对所述标定获取模块13获得的所述各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析。

划分模块15，被配置为根据所述聚类分析模块14的聚类分析结果，将所述各面孔分别对应的人脸图像划分入对应的面孔相册分组中。

本公开实施例中，接收模块11接收视频数据，触发拆分模块12对该视频数据进行解码，将其拆分为一帧帧的图像，然后标定获取模块13对拆分后的各帧图像中的面孔进行人脸图像标定，标定采用对各帧图像中的人脸进行人脸检测和跟踪相融合的技术，得到视频数据中所出现的各面孔在各帧图像中分别对应的人脸图像，其中，人脸检测可以采用现有的成熟的adaboost算法，人脸跟踪可以采用成熟的粒子滤波或者camshift算法。

进而，聚类分析模块14针对每个面孔对应的各人脸图像，进行与各面孔相册分组的聚类分析。具体方法如下：

图7是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例二的框图，如图7所示，在图6所示实施例的基础上，所述聚类分析模块14包括：特征提取子模块141、相似性处理子模块142。

特征提取子模块141，被配置为采用对卷积神经网络进行人脸分类识别训练获得的人脸特征提取模型，对所述各面孔分别对应的人脸图像进行人脸特征提取。

相似性处理子模块142，被配置为将提取到的所述人脸特征分别与各面孔相册分组对应的人脸特征进行相似度度量。

在针对每个面孔对应的各人脸图像，进行与各面孔相册分组的聚类分析处理过程中，首先，特征提取子模块141要采用人脸特征提取模型提取每个面孔对应的各人脸图像的人脸特征，进而，相似性处理子模块142将每个人脸图像对应的人脸特征与各面孔相册分组对应的人脸特征进行相似性度量，该相似性度量可以是距离度量方式，该距离度量方式可以是余弦距离、欧式距离等距离。

其中，Alex网络为卷积神经网络(ConvolutionalNeuralNetworks，简称CNN)的一种，是目前比较通用的物体识别的深度卷积神经网络图，图2为深度卷积神经网络Alex网络图；如图2所示。卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

图8是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例三的框图，如图8所示，在以上实施例的基础上，所述标定获取模块13被配置为：每隔m帧对第n+1帧图像中的人脸进行人脸检测，并且对第n+2帧至第n+m帧图像进行人脸跟踪，得到所述视频数据中所出现的各面孔分别对应的人脸图像。其中，n为大于或者等于0的整数，m为正整数。

具体的，为了加快人脸标定处理速度，在处理视频数据时，做一些人脸检测、跟踪的处理策略，即标定获取模块13利用人脸检测和人脸跟踪相结合的技术，每间隔m帧做一次全局检测，其他图像帧采用跟踪，比如m为5，n为0时，从第1帧开始，对第1帧图像中的人脸进行人脸检测，然后对第2～5帧进行人脸跟踪算法，可以得到视频数据中所出现的各面孔分别对应的人脸图像。

进一步，所述装置还包括：筛选模块21。

筛选模块21，被配置为对所述各面孔对应的人脸图像进行筛选处理，得到所述各面孔对应的人脸图像中满足质量要求的人脸图像。

具体地，所述筛选模块21包括：第一确定子模块211、筛选子模块212。

第一确定子模块211，被配置为确定所述标定获取模块13获得的所述各面孔分别对应的人脸图像的评价值，所述评价值包括清晰度、面积、姿态偏移量中的至少一种。

筛选子模块212，被配置为对所述标定获取模块13获得的所述各面孔分别对应的人脸图像进行筛选，得到所述第一确定子模块211确定的所述评价值满足预设评价阈值的人脸图像。

与上述实施例不同的是，本实施例中，在进行人脸图像聚类分析之前，通过筛选模块21对每个面孔对应的各人脸图像进行筛选，从而得到每个面孔对应的各人脸图像中满足质量要求的人脸图像，然后对满足质量要求的人脸图像进行人脸图像聚类分析。

第一确定子模块211确定各面孔分别对应的人脸图像的评价值，所述评价值包括清晰度、面积、姿态偏移量中的至少一种。

筛选子模块212对各面孔分别对应的人脸图像进行筛选，得到评价值满足预设评价阈值的人脸图像。

图9是根据一示例性实施例示出的一种基于视频的面孔相册处理装置实施例四的框图，如图9所示，在图7所示实施例的基础上，所述划分模块15包括：第二确定子模块151、第一划分子模块152、第二划分子模块153。

第二确定子模块151，被配置为根据所述聚类分析结果，确定各面孔分别对应的人脸图像是否存在对应的面孔相册分组。

第一划分子模块152，被配置为在所述第二确定子模块确定存在对应的面孔相册分组，且所述各面孔分别对应的人脸图像中预设数量的人脸图像均聚类到同一目标面孔相册分组时，将所述各面孔对应的人脸图像划分入对应的所述目标面孔相册分组中。

第二划分子模块153，被配置为所述第二确定子模块确定不存在对应的面孔相册分组时，新建面孔相册分组，并将所述各面孔分别对应的人脸图像划分入所述新建的面孔相册分组中。

针对任一个面孔来说，如果其对应的各人脸图像都没有聚类到任一个面孔相册分组中，则说明不存在与该面孔对应的面孔相册分组，第二划分子模块153新建一个面孔相册分组，将该面孔对应的所有人脸图像划分到该新建面孔相册分组中。

相反的，如果对应该面孔来说，其对应的各人脸图像可以聚类到至少一个面孔相册分组中时，为了保证聚类结果的准确性，第一划分子模块152将大于一定数量的人脸图像所聚类到的面孔相册分组确定为目标面孔相册分组，从而将该面孔对应的所有人脸图像划分到给目标面孔相册分组中。举例来说，某个面孔对应有10张人脸图像，其中6张都聚类到面孔相册分组A中，则确定该面孔相册分组A为目标面孔相册分组，将这10张人脸图像都划分到该面孔相册分组A中。

以上描述了基于视频的面孔相册处理装置的内部功能和结构，如图10所示，图10是根据一示例性实施例示出的一种基于视频的面孔相册处理装置的框图；该基于视频的面孔相册处理装置可实现为：

存储器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收视频数据；

将所述视频数据拆分成各幅帧图像；

图11是根据一示例性实施例示出的另一种基于视频的面孔相册处理装置的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图11，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行一种基于视频的面孔相册处理方法，所述方法包括：

接收视频数据；

将所述视频数据拆分成各幅帧图像；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于视频的面孔相册处理方法，其特征在于，包括：

接收视频数据；

将所述视频数据拆分成各幅帧图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述各幅帧图像进行人脸图像标定，得到所述视频数据中所出现的各面孔分别对应的人脸图像，包括：

其中，n为大于或者等于0的整数，m为正整数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述各面孔分别对应的人脸图像进行筛选处理，得到所述各面孔分别对应的人脸图像中满足质量要求的人脸图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述各面孔分别对应的人脸图像进行与各面孔相册分组的聚类分析，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据聚类分析结果，将所述各面孔分别对应的人脸图像划分入对应的面孔相册分组中，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种基于视频的面孔相册处理装置，其特征在于，包括：

接收模块，被配置为接收视频数据；

9.根据权利要求8所述的装置，其特征在于，所述标定获取模块被配置为：每隔m帧对第n+1帧图像中的人脸进行人脸检测，并且对第n+2帧至第n+m帧图像进行人脸跟踪，得到所述视频数据中所出现的各面孔分别对应的人脸图像；

其中，n为大于或者等于0的整数，m为正整数。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述筛选模块包括：

12.根据权利要求8所述的装置，其特征在于，所述聚类分析模块包括：

13.根据权利要求12所述的装置，其特征在于，所述划分模块包括：

14.根据权利要求13所述的装置，其特征在于，所述划分模块还包括：

15.一种基于视频的面孔相册处理装置，其特征在于，包括：

存储器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收视频数据；

将所述视频数据拆分成各幅帧图像；