CN111625670A

CN111625670A - 一种图片分组方法及设备

Info

Publication number: CN111625670A
Application number: CN201910147299.6A
Authority: CN
Inventors: 蒋东生; 李洪敏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-04
Also published as: WO2020173379A1

Abstract

本申请实施例提供一种图片分组方法及设备，涉及电子技术领域，能够根据电子设备获取的参考图像集中不同形态的人脸图像，对电子设备中的人脸图片进行聚类，提高聚类精度。具体方案为：电子设备获取至少一个视频；从至少一个视频中提取多个人脸图像帧；根据多个人脸图像帧，对电子设备获取的至少一张人脸图片进行聚类处理；根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。本申请实施例用于人脸图片分组。

Description

一种图片分组方法及设备

技术领域

本申请实施例涉及电子技术领域，尤其涉及一种图片分组方法及设备。

背景技术

随着终端技术的不断发展，用户通过手机等终端设备拍摄的图片越来越多，一些用户的手机中甚至存储有几千张图片。用户从大量的图片中手动查找目标图片，以及对大量的图片进行分类管理，往往需要花费很多的时间和精力。

随着人脸特征提取技术的进步，利用人脸信息将不同的人脸图片进行聚类，提供了一种有效的图片聚类方法，能够方便用户在手机上管理和查找人脸图片。

当前聚类方法主要通过人脸检测算法检测图片中的人脸和特征点(例如眼角、鼻尖、嘴角等关键点)，提取人脸特征，利用人脸特征进行图片聚类。该方法对正面人脸图片的聚类精度较高，对其他角度拍摄的人脸图片的聚类精度较低。

发明内容

本申请实施例提供一种图片分组方法及设备，能够根据电子设备获取的参考图像集中不同形态的人脸图像，对电子设备存储的人脸图片进行聚类，提高聚类精度。

为达到上述目的，本申请实施例采用如下技术方案：

一方面，本申请的实施例提供了一种图片分组方法，可以应用于电子设备，电子设备获取了至少一张人脸图片，该方法包括：电子设备获取至少一个视频。而后，电子设备从至少一个视频中提取多个人脸图像帧。电子设备根据多个人脸图像帧，对至少一张人脸图片进行聚类处理。之后，电子设备根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

这样，电子设备可以以至少一个视频中的多个人脸图像帧为先验信息，根据至少一个视频中的多个人脸图像帧对人脸图片进行聚类，从而将人脸图片根据不同的用户进行分组，使得同一用户的人脸图片聚类为同一个分组，提高人脸图片聚类和分组的准确性。

在一种可能的设计中，电子设备根据多个人脸图像帧，对至少一张人脸图片进行聚类处理，包括：电子设备将多个人脸图像帧划分为至少一个类别，每个类别分别对应于一个用户不同形态的多个人脸图像帧。电子设备根据多个人脸图像帧的类别划分结果，对至少一张人脸图片进行聚类处理。

这样，电子设备可以根据类别划分结果，将人脸图片与已划分的类别归为一组，或者将人脸图片重新分为一组。当每个类别中分别包括同一用户不同形态的人脸图像时，电子设备可以根据不同用户不同形态的人脸图像，对不同人脸角度、表情等不同形态的人脸图片进行准确分组，提高聚类和分组的准确性，降低聚类的分散度。

在另一种可能的设计中，电子设备将多个人脸图像帧划分为至少一个类别，包括：电子设备分别将每个视频中的人脸图像帧划分为至少一个类别。若至少一个类别中第一类别中的第一人脸图像帧的人脸特征，与第二类别中的第二人脸图像帧的人脸特征之间的相似度大于或者等于预设值，则电子设备将第一类别和第二类别合并为同一个类别。

也就是说，电子设备可以先将同一个视频中的人脸图像帧划分类别，而后再将不同视频中相似度较大的人脸图像帧所在的类别合并，即将不同视频中同一用户的人脸图像帧合并为同一个类别。

在另一种可能的设计中，电子设备分别将每个视频中的人脸图像帧划分为至少一个类别，包括：电子设备通过人脸跟踪算法，分别将每个视频中，具有时间连续性的同一用户的多个人脸图像帧划分为同一个类别。

其中，具有时间连续性的同一用户的人脸图像帧，可以是相邻的图像帧。例如，电子设备通过人脸跟踪算法跟踪到的同一视频中的人脸图像具有时间连续性，满足must-link约束，是同一个用户的人脸，因而可以归为同一个类别。

在另一种可能的设计中，每个分组还包括以下任意一项或任意多项的组合：用户的人脸图像帧所在的视频，用户的人脸图像帧所在的视频分段，或用户的至少一个人脸图像帧。

这样，电子设备不仅可以对人脸图片进行分组，还可以对视频、视频分段和人脸图像帧等进行分组，并且联合管理人脸图片和视频、视频分段以及人脸图像帧，提高用户查找效率和管理体验。

在另一种可能的设计中，每个分组包括的一个用户的至少一张人脸图片为单人照或合影。

在另一种可能的设计中，电子设备获取至少一个视频，包括：电子设备从电子设备的存储区获取至少一个视频。

其中，该至少一个视频可以是电子设备之前拍摄、下载、拷贝或通过其他方式获取到的视频。

在另一种可能的设计中，电子设备获取至少一个视频，包括：电子设备提示用户拍摄包括人脸图像帧的视频。电子设备在检测到用户指示拍摄视频的操作后，录制并生成至少一个视频。

在该方案中，电子设备可以实时录制一个视频，以便用于人脸图片分组。

在另一种可能的设计中，该方法还包括：电子设备获取至少一个图像组，每个图像组中包括同一用户不同形态的多个图像帧。至少一个图像组包括以下任意一项或任意多项的组合：动图，预先拍摄的包括同一用户不同形态的人脸的图像组，在拍摄预览时实时采集的多帧图像形成的图像组，或在连拍时拍摄到的多帧图像形成的图像组。电子设备从至少一个视频中提取多个人脸图像帧，包括：电子设备从至少一个视频以及至少一个图像组中，提取多个人脸图像帧。

这样，电子设备不仅可以根据视频，还可以根据动图等多种包括用户不同形态的人脸图像帧的图像组，对人脸图片进行分类。

在另一种可能的设计中，电子设备在检测到用户用于查看图像分类的操作后，或者在检测到用户指示开启人脸分类的功能后，根据多个人脸图像帧，对至少一张人脸图片进行聚类处理；并根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

这样，电子设备可以响应于用户的指示，再显示人脸图片的分组结果。

在另一种可能的设计中，电子设备在打开相册后，自动根据多个人脸图像帧，对至少一张人脸图片进行聚类处理；并根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

在该方案中，在打开相册后，电子设备可以自动进行聚类和显示分组的处理。

在另一种可能的设计中，电子设备在充电过程中，电量高于预设电量值的情况下，自动根据多个人脸图像帧，对至少一张人脸图片进行聚类处理；在打开相册后，根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

在该方案中，电子设备分别可以在不同时机自动进行聚类和显示分组的处理。

在另一种可能的设计中，电子设备在显示至少一个分组时，还可以提示用户该分组是根据视频中的人脸图像帧，对人脸图片进行分组得到的。

这样，可以便于用户获知电子设备当前是根据视频进行人脸图片分组的。

另一方面，本申请实施例提供了一种图片分组方法，应用于电子设备，电子设备上保存有至少一个视频和至少一张人脸图片，该方法包括：电子设备在检测到用户用于查看图像分类的操作后，显示至少一个分组。其中，每个分组分别包括一个用户的至少一张人脸图片，以及以下任意一项或任意多项的组合：用户的人脸图像帧所在的视频，用户的人脸图像帧所在的视频分段，或用户的至少一个人脸图像帧。

另一方面，本申请实施例提供了一种图片分组方法，应用于电子设备，电子设备上保存有至少一张人脸图片，该方法包括：电子设备获取至少一个参考图像集，参考图像集包括具有时间连续性的一系列的人脸图像帧。而后，电子设备根据人脸图像帧，对至少一张人脸图片进行聚类处理。之后，电子设备可以根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

在一种可能的设计中，该参考图像集可以是视频中的人脸图像帧；动图中的人脸图像帧；或者在拍摄预览状态实时采集的具有时间连续性的多帧图像的集合，在抓拍模式采集到的具有时间连续性的多帧图像的集合，电子设备在连拍时拍摄到的具有时间连续性的多帧图像的集合；或者用户预设的包括同一用户的不同形态的人脸的图像组等。

另一方面，本申请实施例提供了一种图片分组方法，应用于电子设备，电子设备上保存有至少一张图片，该方法包括：电子设备获取至少一个视频，视频包括图像帧；根据图像帧，对至少一张图片进行聚类处理；根据聚类处理结果，显示至少一个分组，每个分组分别包括一个实体的至少一张图片。例如，该实体可以包括人脸、狗、猫、房子等。

另一方面，本申请实施例提供了一种图片分组装置，该装置包含在电子设备中，该装置具有实现上述方面及可能的实现方式中任一方法中电子设备行为的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如，获取模块或单元、提取模块或单元、聚类模块或单元以及显示模块或单元等。

又一方面，本申请实施例提供了一种电子设备，包括至少一个处理器和至少一个存储器。该至少一个存储器与至少一个处理器耦合，至少一个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当至少一个处理器执行计算机指令时，使得电子设备执行上述方面任一项可能的实现中的图片分组方法。

另一方面，本申请实施例提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述方面任一项可能的实现中的图片分组方法。

又一方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方面任一项可能的实现中的图片分组方法。

附图说明

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一组界面示意图；

图3为本申请实施例提供的一种界面示意图；

图4为本申请实施例提供的另一种界面示意图；

图5为本申请实施例提供的另一种界面示意图；

图6为本申请实施例提供的另一种界面示意图；

图7A为本申请实施例提供的另一种界面示意图；

图7B为本申请实施例提供的一个视频及视频中的人脸图像帧的示意图；

图8A为本申请实施例提供的一种分类效果示意图；

图8B为本申请实施例提供的另一种分类效果示意图；

图9A为本申请实施例提供的另一种界面示意图；

图9B为本申请实施例提供的另一种界面示意图；

图9C为本申请实施例提供的另一种界面示意图；

图10为本申请实施例提供的另一组界面示意图；

图11为本申请实施例提供的另一组界面示意图；

图12为本申请实施例提供的另一组界面示意图；

图13为本申请实施例提供的另一组界面示意图；

图14为本申请实施例提供的另一组界面示意图；

图15为本申请实施例提供的另一种界面示意图；

图16为本申请实施例提供的另一组界面示意图；

图17为本申请实施例提供的一个图像组中的人脸图像帧的示意图；

图18为本申请实施例提供的另一组界面示意图；

图19A为本申请实施例提供的另一种界面示意图；

图19B为本申请实施例提供的另一种界面示意图；

图20为本申请实施例提供的另一个图像组中的人脸图像帧的示意图；

图21为本申请实施例提供的另一种界面示意图；

图22为本申请实施例提供的另一组界面示意图；

图23为本申请实施例提供的一种图片分组方法流程图；

图24为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/ 或B，可以表示：A，B，以及AB这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

本申请实施例提供一种图片分组方法，可以应用于电子设备。电子设备可以根据参考图像集对电子设备上存储的人脸图片(即包含人脸图像的图片)进行聚类。参考图像集中包括具有时间连续性的多张不同形态的人脸图像。其中，这里的形态可以包括人脸的角度(例如侧脸、仰脸或俯脸等)，人脸的表情(例如大笑、大哭或搞怪表情等)，是否留胡子，是否戴墨镜，脸部是否被帽子遮挡，脸部是否被头发遮挡等。与参考图像集中的视频或图像组不同，电子设备上存储的人脸图片是指独立存在的一张一张的静态图片。

其中，参考图像集可以包括电子设备获取的视频中具有时间连续性的一系列图像帧的集合。例如，该视频可以是电子设备的摄像头拍摄的视频，电子设备从应用程序(application， App)(例如抖音、快手、美拍、YOYO炫舞等)获取的视频，电子设备从其他设备获取到的视频，或者视频通话过程中保存的视频等。

参考图像集还可以包括电子设备获取的动图(Gif)，动图中包括具有时间连续性的多帧图像。

此外，参考图像集还可以包括电子设备获取的具有时间连续性的一系列图像组成的图像组。例如，该图像组可以是电子设备在拍摄预览状态实时采集的具有时间连续性的多帧图像的集合。再例如，该图像组可以是电子设备在抓拍模式采集到的具有时间连续性的多帧图像的集合(电子设备或用户可以指定其中一张图像为抓拍获得的图像)。又例如，该图像组可以是电子设备在连拍时拍摄到的具有时间连续性的多帧图像的集合。再例如，该图像组可以是用户预设的包括同一用户的不同形态的人脸的图像组(例如预先拍摄的同一用户的正面人脸图像、侧面人脸图像、大笑的人脸图像等组成的图像组)等中的一种或多种。

由于参考图像集中通常包括同一用户的多种不同形态的人脸图像，因而电子设备可以将参考图像集中的人脸图像作为先验信息，根据参考图像集中不同形态的人脸图像，对电子设备上存储的图片进行聚类处理，使得不同形态的人脸图片也能够准确聚类，提高人脸图片的聚类精度。

其中，该电子设备可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图1示出了电子设备100的一种结构示意图。电子设备100可以包括处理器 110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器 180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110 中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface， MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头 193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。

在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。I2S接口和PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。

在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface， DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100 的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S 接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块 141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。

在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access， CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址 (time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)， BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的， AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备 100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体 (complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组 (moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

在本申请实施例中，NPU或其他处理器可以用于对电子设备100存储的视频中的人脸图像进行人脸检测、人脸跟踪、人脸特征提取和图像聚类等操作；对电子设备100存储的图片中的人脸图像进行人脸检测、人脸特征提取等操作，并根据图片的人脸特征以及视频中人脸图像的聚类结果，对电子设备100存储的图片进行聚类。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备 100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。

此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110 中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备 100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm 的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。

在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100 抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C 测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D 检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100 使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器 180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J 检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备 100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142 的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。

在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同，也可以不同。SIM 卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备 100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100 分离。

以下主要以电子设备100为手机为例，对本申请实施例提供的图片分组方法进行阐述。

上述视频或图像组等参考图像集记录的通常是时间上连续的、动态变化的过程，因而参考图像集中往往可以包括同一用户在动态变化过程中的一系列的、不同形态的人脸图像。因此，手机可以首先对每个参考图像集中的人脸图像进行跟踪，获取每个参考图像集中同一用户的，具有时间连续性的，不同角度、不同表情、不同装饰、不同发型等不同形态的人脸图像，并将每个参考图像集中的这些人脸图像自动聚为一类，得到参考图像集聚类结果；而后，根据人脸图片中的人脸特征与参考图像集聚类结果中人脸图像的人脸特征的相似度，对人脸图片进行聚类，从而可以使得不同形态的人脸图片也能正确聚类，提高人脸图片的聚类精度。

在本申请的一个实施例中，手机若获取到参考图像集，则可以自动进行参考图像集聚类处理和人脸图片聚类处理。

在本申请的另一个实施例中，手机若获取到参考图像集，则可以自动进行参考图像集聚类处理；在检测到用户指示人像分类的操作或用户指示打开人像分类功能后，再根据参考图像集聚类结果对手机上存储的人脸图片进行聚类。

示例性的，当手机检测到用户点击图2中的(a)所示的相册图标201后，手机打开相册，显示如图2中的(b)所示的界面。手机在检测到用户点击图2中的(b)所示的控件202的操作后，显示如图2中的(c)所示的人像分类控件203；手机检测到用户点击控件203的操作后，确定检测到用户指示人像分类的操作，或用户指示开启人像分类功能。或者，手机打开相册后显示如图2中的(d)所示的界面，手机在检测到用户点击图2中的(d)所示的发现控件204后，可以显示如图2中的(e)所示的人像分类控件205、详情控件206等。手机在检测到用户点击控件206的操作后，显示如图2中的(f)所示的人像分类的功能说明207，以便用户了解该功能的具体内容。手机在检测到用户点击控件205的操作后，可以确定检测到用户指示人像分类的操作，或用户指示开启人像分类功能。

在本申请的又一个实施例中，手机若获取到参考图像集，且检测到用户指示人像分类的操作或用户指示打开人像分类功能，则进行参考图像集聚类和人脸图片聚类。

在本申请的另一个实施例中，用户还可以选择是否根据参考图像集对人脸图片进行人像分类。

示例性的，手机在检测到用户点击图2中的(b)所示的控件202后，可以显示如图3所示的界面。若手机检测到用户点击控件302，则表明用户选择根据参考图像集对人脸图片进行人像分类；若手机检测到用户点击控件301，则表明用户选择不根据参考图像集，直接根据人脸图片进行人像分类。再示例性的，用户可以通过语音或预设手机指示手机根据参考图像集对人脸图片进行分类。

此外，用户还可以设置参考图像集的内容。比如，参见图4，手机可以设置参考图像集包括手机获取的视频等内容。

在本申请的又一实施例中，在手机首次或每次打开相册，或手机检测到用户指示人像分类的操作后，手机还可以提示用户是否根据参考图像集对人脸图片进行聚类。示例性的，在手机检测到用户点击控件203或控件205后，参见图5，手机可以通过提示框501来提示用户。

在本申请的另一个实施例中，在手机打开相册，或者检测到用户选择根据参考图像集对人脸图片进行聚类后，若手机未获取到参考图像集，则可以提示用户添加一个或多个参考图像集，该参考图像集包括人脸图片对应的用户的人脸图像，以便手机可以根据参考图像集更为精确地对人脸图片进行聚类。

例如，参见图6，手机可以通过提示框601提示用户拍摄(或下载、拷贝)一段关于人脸图片中的目标用户的视频。再例如，手机可以提示用户让目标用户玩一会YOYO炫舞等可以采集到目标用户的人脸图像的游戏，手机可以在游戏过程中录制一段关于目标用户的视频。又例如，手机可以提示用户添加一个图像组，该图像组可以是用户从人脸图片中选择的同一用户的不同形态的多张人脸图片。而后，手机可以根据获取的视频或图像组等参考图像集对目标用户的人脸图片进行聚类。

以下以参考图像集为视频为例，对手机进行参考图像集聚类处理，以及根据参考图像集聚类结果对人脸图片进行聚类为例进行说明。

手机上可以存储有大量的人脸图片和视频。该人脸图片可以是用户通过手机的摄像头拍摄的，或者通过网络或App下载的，或者通过截屏获取的，或者从其他设备拷贝的，或者通过其他方式获取的。该视频可以是用户通过手机的摄像头拍摄的视频，或者通过网络或App 下载的视频，或者视频通话过程中保存的视频，或者从其他设备拷贝的视频，或者通过其他方式获取的视频。该视频和人脸图片上可以包括用户或其他用户(比如亲人、朋友、明星等) 的人脸图像。

视频记录的是连续的、动态变化的过程，因而视频中往往可以包括同一用户在动态变化过程中的多种形态的人脸图像。手机可以首先对视频中的人脸图像进行跟踪，获取视频中同一用户的，具有时间连续性的，不同角度、不同表情、不同装饰、不同发型等不同形态的人脸图像，并将这些人脸图像自动聚为一类，从而得到视频聚类结果；而后将视频聚类结果作为先验信息，根据人脸图片中的人脸特征与视频聚类结果中人脸图像的人脸特征的相似度，对人脸图片进行聚类，从而可以使得不同形态的人脸图片也能正确聚类，提高人脸图片的聚类精度。

举例来说，参见图7A，手机上存储有视频1和大量的人脸图片，例如该人脸图片包括人脸图片1、人脸图片2、人脸图片3和人脸图片4。

在视频1中，参见图7B，手机在时刻1检测到人脸1，该人脸1为正面人脸A上的人脸，并在时间段1内持续跟踪该人脸1；手机在时刻2检测到人脸2，该人脸2为微笑的人脸D 上的人脸，并在时间段2内持续跟踪该人脸2；手机在时刻3检测到人脸3，该人脸3为仰脸 G上的人脸，并在时间段3内持续跟踪该人脸3。手机在时间段1内跟踪到的人脸图像包括正面人脸A、侧面人脸B和戴墨镜的人脸C等；手机在时间段2内跟踪到的人脸图像包括微笑的人脸D、闭眼睛的人脸E和搞怪表情的人脸F等；手机在时间段3内跟踪到的人脸图像包括仰脸G和俯脸H。

其中，人脸检测方法可以有多种。例如，肤色模型法，依据面貌肤色在色彩空间中分布相对集中的规律来检测人脸。再例如，参考模板法，预设一个或数个标准人脸的模板，然后计算测试采集的样图与标准模板之间的匹配程度，并通过阈值来判断是否存在人脸。又例如，特征子脸法、人脸规则法、样品学习法等。

人脸跟踪方法也可以有多种。例如，基于模型的跟踪方法，常见的跟踪模型可以有肤色模型、椭圆模型、纹理模型及双眼模板等。再例如，基于运动信息的跟踪方法，主要利用图像连续帧间目标运动的连续性规律，进行人脸区域的预测以达到快速跟踪的目的。通常采用运动分割、光流、立体视觉等方法，常利用时空梯度，卡尔曼滤波器进行跟踪。又例如，基于人脸局部特征的跟踪方法，以及基于神经网络的跟踪方法等。

由于手机跟踪到的人脸图像满足时间连续性，满足必须链接(must-link)约束，是同一个用户的人脸，因而手机可以将时间段1内的正面人脸A、侧面人脸B和戴墨镜的人脸C自动聚为一类，例如聚类为类别1；将时间段2内的微笑的人脸D、闭眼睛的人脸E和搞怪表情的人脸F自动聚为一类，例如聚类为类别2；将时间段3内的仰视的人脸G和俯视的人脸 H自动聚为一类，例如聚类为类别3。其中，这里的类别也可以称为聚类中心。

可以理解的是，对于手机上存储的视频1以外的其他视频，手机也可以采用人脸检测和人脸跟踪的方法对视频中的人脸图像进行聚类处理。

在对每组跟踪结果中的人脸图像进行聚类处理后，在一种方案中，手机还可以对不同跟踪结果中的人脸图像进行聚类处理。具体的，手机可以提取不同跟踪结果中的人脸图像的人脸特征(在提取人脸图像的人脸特征之前，手机还可以对人脸图像进行人脸转正(即将其他角度的人脸图像转换成正面人脸的图像)等处理)，若某一类别中的某张人脸图像与另一类别中的某张人脸图像的相似度较高，可以聚为一类，则这两个类别中的所有人脸图像均可以聚为一类。比如，手机确定类别1中的正面人脸A与类别3中的仰脸G的相似度较高，可以聚为一类，则类别1和类别3中的正面人脸A、侧面人脸B、戴墨镜的人脸C、仰脸G和俯脸 H可以聚为一类。

其中，将不同人脸图像聚为一类的人脸聚类方法可以有多种，例如基于层次的聚类方法，基于划分的聚类方法，基于密度的聚类方法，基于网格的聚类方法，基于模型的聚类方法、基于距离的聚类方法以及基于互连性的聚类方法等。具体的，可以有K-Means算法、DBSCAN 算法、BIRCH算法和MeanShift算法等。例如，在一种聚类方法中，手机可以提取不同人脸图像的人脸特征，根据不同人脸特征的相似度进行聚类。其中，人脸特征提取可以理解为将人脸图像映射为n(n为正整数)维向量的过程，该n维向量具有表征该人脸图像的能力。不同人脸图像的人脸特征之间的相似度越高，则不同人脸图像越能聚为一类。

其中，衡量相似度的方法可以有多种。比如，人脸特征为多维向量，相似度可以为不同人脸的人脸特征对应的多维向量之间的距离。例如，该距离可以是欧式距离，马氏距离、曼哈顿距离等。再比如，相似度可以为不同人脸的人脸特征之间的余弦相似性、相关系数、信息熵等。

比如，人脸特征为多维向量，若手机提取的类别1中的正面人脸A的人脸特征1为[0.88,0.64,0.58,0.11,…,0.04,0.23]；手机提取的类别3中的仰脸G的人脸特征2为[0.68,0.74,0.88,0.81,…,0.14,0.53]；人脸特征1与人脸特征2之间的相似度通过两者分别对应的多维向量之间的余弦相似性来衡量。该余弦相似性为0.96，根据该余弦相似性确定人脸特征1和人脸特征2之间的相似度为96％；聚类对应的相似度阈值为80％；则相似度96％大于相似度阈值80％，因而类别1中的正面人脸A与类别3中的仰脸G可以聚为一类，类别1和类别3中的所有人脸图像可以聚为一类。

再示例性的，人脸特征为多维向量，各人脸图像与人脸特征的对应关系可以参见表1。

表1

若人脸特征之间的相似度通过欧式距离来衡量，聚类的距离阈值为5，表1所示的类别1 中的正面人脸A的人脸特征A和类别3中的仰脸G的人脸特征G之间的欧式距离小于距离阈值5，因而类别1中的正面人脸A与类别3中的仰脸G可以聚为一类，类别1和类别3中的所有人脸图像可以聚为一类。

在视频聚类完成后，手机可以根据视频聚类结果，例如类别1、类别2和类别3等类别以及提取的各类别中的人脸图像的人脸特征，采用增量聚类算法或其他聚类方法，对人脸图片1、人脸图片2、人脸图片3和人脸图片4进行聚类，从而将视频中的人脸图像和人脸图片进行融合，将人脸图片聚类到先前的视频聚类结果中。比如，若手机中存储的某张人脸图片的人脸特征，与某个类别(例如类别1)中的某张人脸图像的人脸特征的相似度较大(例如大于或者等于预设值1)，则可以将该人脸图片聚类到该人脸图像所在的类别中。其中，当采用增量聚类算法时，可以将人脸图片以增量的方式实现视频聚类结果的扩展。若手机中存储的某张人脸图片的人脸特征与视频聚类结果的各类别中人脸图像的人脸特征的相似度都较小 (例如小于预设值1)，则将该人脸图片归为一个新的类别。

示例性的，人脸图片与人脸特征的对应关系可以参见上述表1。在一个举例中，若人脸特征之间的相似度通过欧式距离来衡量，聚类的距离阈值为5，人脸图片1的人脸特征a与正面人脸A的人脸特征A之间的欧式距离小于距离阈值5，则人脸图片1可以聚类为正面人脸A所在的类别1；人脸图片2的人脸特征b与侧面人脸B的人脸特征B之间的欧式距离小于距离阈值5，则人脸图片2可以聚类为侧面人脸B所在的类别1；人脸图片3的人脸特征c 与微笑的人脸D的人脸特征D之间的欧式距离小于距离阈值5，则人脸图片3可以聚类为微笑的人脸D所在的类别2；人脸图片4的人脸特征d与仰脸G的人脸特征G之间的欧式距离小于距离阈值5，则人脸图片4可以聚类为仰脸G所在的类别3。

在另一个举例中，若人脸特征之间的相似度通过与参考特征之间的欧式距离来衡量，类别1对应的人脸特征与参考特征之间的欧式距离的范围为0-50；类别3对应的人脸特征的聚类范围为100-150。若类别1与类别3聚类为同一类别4，则类别4对应的人脸特征与参考特征之间的欧式距离的范围为[0,50]∪[100,150]。人脸图片1、人脸图片2和人脸图片4的人脸特征均在[0,50]∪[100,150]的范围内，因而人脸图片1、人脸图片2和人脸图片4均可以聚类到类别4中，从而聚为同一个类别。示例性的，聚类效果示意图可以参见图8A。

在又一个举例中，手机可以分别提取表1中所列出的所有人脸图像和人脸图片的人脸特征，而后根据人脸特征的相似度进行聚类。

通过以上描述可知，在对视频中的人脸进行跟踪并自动聚类后，手机可以将同一用户的多种不同形态的人脸图像聚为同一个类别，从而可以使得与该类别中不同形态的人脸图像相似的人脸图片也聚类到该类别，因而与现有技术相比可以降低聚类的分散度，提高人脸聚类的精度，方便用户的管理，提高用户的使用体验。

若手机存储的人脸图片1、人脸图片2、人脸图片3和人脸图片4的人脸特征仍如表1所示，人脸特征之间的相似度通过欧式距离来衡量，聚类的距离阈值为5，则在不考虑视频聚类的结果，直接对人脸图片1、人脸图片2、人脸图片3和人脸图片4进行聚类的情况下，由于每两个人脸图片的人脸特征之间的欧式距离均大于距离阈值5，因而任意两张均不能聚为一类，从而导致每张人脸图片分别为一个类别，示例性的，聚类效果示意图可以参见图8B。与图8A相比，图8B所示的人脸聚类的分散度较大，聚类精度较低，使得聚类结果出现误报 (false positive)或漏报(false negative)等问题。

此外，在本申请的实施例中，在视频聚类完成后，手机还可以根据视频聚类结果，对视频中的人脸进行身份标记。

以上主要以参考图像集为视频为例进行说明的，当参考图像集为上文提到的图像组(例如动图形成的图像组，拍摄预览时获取的多帧图像对应的图像组等)，或者当参考图像集包括视频和上述图像组时，手机仍可以采用与视频处理过程类似的方式进行聚类处理，此处不予赘述。

需要说明的是，若参考图像集为用户预设的图像组，则图像组中的图像通常是用户主动设置的同一用户的不同形态的人脸图像，因而手机也可以不需要进行人脸检测和跟踪，直接将该图像组中的人脸图像自动聚为一类。

此外，在根据参考图像集聚类结果对人脸图片1、人脸图片2、人脸图片3和人脸图片4 进行聚类后，若后续手机上新增加了用户1或用户2的人脸图片，则与人脸图片1、人脸图片2、人脸图片3和人脸图片4类似，手机还可以根据参考图像集聚类结果对新增加的人脸图片进行聚类。在一种具体实现中，手机可以通过增量聚类的方式，将新增加的人脸图片扩展到先前的聚类结果中。

在根据参考图像集聚类结果对人脸图片1、人脸图片2、人脸图片3和人脸图片4进行聚类后，若后续手机获取到了新的参考图像集(例如视频2)，则在一种方案中，手机根据之前的参考图像集以及新的参考图像集进行人脸检测、跟踪和聚类，并根据视频聚类结果对人脸图片1、人脸图片2、人脸图片3和人脸图片4进行聚类处理；在另一种方案中，手机暂不重新对人脸图片1、人脸图片2、人脸图片3和人脸图片4进行聚类处理，在检测到用户指示人像分类的操作后再重新聚类。

在另一实施例中，不论手机是否获取到新的参考图像集，手机周期性地对当前获取到的参考图像集进行人脸检测、跟踪和聚类，并根据参考图像集聚类结果对当前存储的人脸图片进行聚类。

在另一实施例中，手机在检测到用户指示人像分类的操作后，根据当前获取到的参考图像集进行人脸检测、跟踪和聚类，并根据参考图像集聚类结果对当前存储的人脸图片进行聚类。

另一实施例中，由于人脸聚类的资源消耗较大，因而手机可以在预设时间段内(例如夜间00:00-6:00)，或者在空闲状态(例如手机未执行其他业务时)，或者在手机进行充电且电量大于或者等于预设值2时，根据当前获取到的参考图像集进行人脸检测、跟踪和聚类，并根据参考图像集聚类结果对当前存储的人脸图片进行聚类。

在聚类完成后，手机可以显示聚类结果。比如，手机可以通过分组(例如可以是文件夹) 的形式进行显示。以下仍以参考图像集为视频1，类别1和类别3聚类为类别4，手机上存储的人脸图片包括人脸图片1、人脸图片2、人脸图片3和人脸图片4为例进行说明。

在本申请的一个实施例中，在视频聚类完成后，手机可以显示视频聚类结果。例如，参见图9A所示的视频人像分类界面(即视频聚类结果界面)，手机可以显示类别4对应的分组 1和类别2对应的分组2。

在一种方案中，每个聚类类别对应的分组中可以包括该类别的人脸图像所在的视频。例如，类别4对应的分组1和类别2对应的分组2中都包括视频1。在一种实现中，参见图9A，该分组中视频的缩略图所显示的封面图像，可以是该视频中属于该类别的一张人脸图像。尤其地，该封面图像可以是一张较为正面的人脸图像，或者用户指定的图像。

对于视频来说，手机可以将视频放入视频中的人脸图像所属的所有类别所对应的分组中；或者，当视频中某个类别的人脸图像出现的时长大于或者等于预设时长时，手机才将该视频放入该类别对应的分组中；或者，当视频中某个类别的人脸图像的帧数大于或者等于预设值 3时，手机才将该视频放入该类别对应的分组中；或者，当视频中出现某个类别的正面人脸图像时，手机才将该视频放入该类别对应的分组中。

在另一种方案中，每个聚类类别对应的分组中可以包括该类别的人脸图像所在的视频中，出现该类别的人脸图像的视频分段。

例如，类别4对应的分组1可以为图9B中的分组1A，分组1A中可以包括视频1中的时间段1对应的视频分段1和时间段3对应的视频分段3；此外，类别2对应的分组2可以为分组2A，分组2A中可以包括视频1中的时间段2对应的视频分段2。

在又一种方案中，每个聚类类别对应的分组中可以包括该类别的人脸图像所在的视频中，该类别的人脸图像帧。

例如，类别4对应的分组1可以为图9C中的分组1B，分组1B中可以包括正面人脸A、侧面人脸B、戴墨镜的人脸C、仰脸G和俯脸H。类别2对应的分组2可以为分组2B，分组 2B中可以包括微笑的人脸D、闭眼睛的人脸E和搞怪表情的人脸F。在一种实现中，同一类别对应的分组中可以包括多个子分组，同一视频中属于该类别的人脸图像帧属于同一个子分组。

在另一种方案中，每个聚类类别对应的分组中可以包括该类别的人脸图像所在的视频中，出现该类别的人脸图像的视频分段，以及该类别的人脸图像帧。

在该实施例中，手机可以显示视频聚类的结果，方便用户根据视频图像对视频进行归类管理，提高用户查找和管理视频的效率，提高用户使用体验。

在本申请的另一个实施例中，在视频聚类完成后，手机可以不显示聚类结果；在人脸图片聚类完成后，再显示聚类结果。

在一种方案中，在人脸图片聚类完成后，手机可以显示人脸图片聚类结果。每个聚类类别对应的分组中包括该类别的人脸图片。

例如，参见图10中的(a)-(c)，手机可以显示类别4对应的分组3和类别2对应的分组4，分组3中包括人脸图片1、人脸图片2和人脸图片4，分组4中包括人脸图片3。

在另一种方案中，在人脸图片聚类完成后，手机可以显示视频聚类结果和人脸图片聚类结果。其中，视频聚类结果和人脸图片聚类结果可以分别显示在不同的分组中，也可以结合显示在同一个分组中。

当视频聚类结果和人脸图片聚类结果可以分别显示在不同的分组中时，视频聚类结果可以显示在分组5中，人脸图片聚类结果可以显示在分组6中。其中，关于分组5中的内容可以为以上描述的(例如图9A-图9C所示的)视频聚类结果；分组6中的内容可以为以上描述的(例如图10中的(a)-(c)所示的)人脸图片聚类结果。

当视频聚类结果和人脸图片聚类结果结合显示在同一分组中时，每个聚类类别对应的分组中既可以包括以上描述的人脸图片聚类结果，还可以包括以上描述的视频聚类结果。

例如，参见图11中的(a)，类别4对应分组7，类别2对应分组8。在一种方案中，每个聚类类别对应的分组中，可以包括该类别的人脸图片以及该类别的人脸图像所在的视频。示例性的，参见图11中的(b)，类别4对应的分组7为分组7A，分组7A中包括人脸图片1、人脸图片2、人脸图片4以及视频1；参见图11中的(c)，类别2对应的分组8为分组8A，分组8A中包括人脸图片3以及视频1。

需要说明的是，分组的封面图像可以是该类别中的人脸图片也可以是视频中该类别的人脸图像。分组7中视频1的封面图像和分组8中视频1的封面图像可以相同，也可以不同。优选地，视频1的封面图像可以为所在分组对应的类别中包括的人脸图像。

在一种实现中，同一类别对应的分组中，该类别人脸图片可以属于一个子分组，该类别的人脸图像所在的视频可以属于另一个子分组。示例性的，参见图12中的(a)，类别4对应的分组7为分组7B，分组7B中包括人脸图片对应的子分组7-1和视频对应的子分组7-2。参见图12中的(b)，子分组7-1中包括人脸图片1、人脸图片2和人脸图片4；参见图12中的 (c)，子分组7-2中包括视频1。

在另一种方案中，每个聚类类别对应的分组中，可以包括该类别的人脸图片，以及该类别的人脸图像所在的视频中，出现该类别的人脸图像的视频分段。示例性的，作为图11中的 (b)和(c)的一种替换方案，参见图13中的(a)和(b)，类别4对应的分组7为分组7C，分组7C中包括人脸图片1、人脸图片2、人脸图片4以及视频分段1和视频分段3；类别2 对应的分组8为分组8C，分组8C中包括人脸图片3以及视频分段2。在一种实现中，同一类别对应的分组中，该类别的人脸图片可以属于一个子分组，视频分段可以属于另一个子分组。

在又一种方案中，每个聚类类别对应的分组中，可以包括该类别的人脸图片，以及该类别的人脸图像所在的视频中截取或选择的图像帧。示例性性，作为图11中的(b)和(c)的一种替换方案，参见图14中的(a)和(b)，类别4对应的分组7为分组7D，分组7D中包括人脸图片1、人脸图片2、人脸图片4以及视频1中的人脸图像A、B、C、G、H；类别2 对应的分组8为分组8D，分组8D中包括人脸图片3以及视频1中的人脸图像D、E、F。在一种实现中，该类别的人脸图片可以属于一个子分组；该类别的人脸图像所在的视频中，该类别的人脸图像帧可以属于另一个子分组。

在另一种方案中，每个聚类类别对应的分组中可以包括该类别的人脸图片。还可以包括该类别的人脸图像所在的视频；该类别的人脸图像所在的视频中，出现该类别的人脸图像的视频分段，以及截取或选择的图像帧中的一种或多种。在一种实现中，该类别的人脸图片和该类别的人脸图像帧可以属于一个子分组；该类别对应的视频或视频分段可以属于另一个子分组。

在另一种实现中，该类别的人脸图片可以属于一个子分组，该类别的人脸图像帧和视频或视频分段可以属于另一个子分组。在又一种实现中，该类别的人脸图片，该类别的人脸图像帧，视频，以及视频分段分别属于不同的子分组。

在其他方案中，在人脸图片聚类完成后，手机可以显示人脸图片聚类结果，并根据用户的指示确定是否显示视频聚类结果。

需要说明的是，在本申请的实施例中，分组的名称可以是用户手动输入的名称；也可以是手机自身通过学习获得的名称。例如，手机可以根据图片或视频中用户间的动作、亲密关系等确定图片中的用户身份，比如父亲、母亲、妻子(或丈夫)、儿子、女儿等，并将用户身份设置为分组的名称。

此外，在该实施例中，手机在首次或每次显示人脸图片聚类结果时，还可以提示用户人脸图片聚类结果是根据视频等参考图像集对人脸图片进行分类得到的。示例性的，在显示类别4对应的分组7和类别2对应的分组8时，参见图15，手机可以通过显示信息1501来对用户进行提示，以便用户获知手机所具有的人像分类功能。

在该实施例中，手机可以根据综合管理和显示人脸图片和视频的聚类结果，提高用户查找和管理人脸图片和视频的效率，提高用户使用体验。

在本申请的另一个实施例中，在人脸图片聚类完成后，若用户发现某张人脸图片聚类结果出错，则用户可以主动添加一个该人脸图片中用户对应的参考图像集，例如，若人脸图片 5的聚类结果出错，则参见图16中的(a)，用户可以单击控件1601，或者用户可以在选择人脸图片5后单击控件1601；而后，用户可以点击图16中的(b)所示的控件1602，从而添加一个参考图像集；或者，用户可以通过语音、预设手势等方式添加一个参考图像集。

其中，该参考图像集可以是用户实时拍摄的一段视频或一组图像，也可以是用户通过手机获取的一组图像，该组图像中包括出错的人脸图片对应的用户的不同形态的人脸。示例性的，该参考图像集可以是图17中的(a)-(h)所示的图像组。在参考图像集添加完成后，手机可以结合用户添加的参考图像集，重新对聚类出错的人脸图片进行聚类；或者重新对手机上存储的所有人脸图片进行聚类。

需要说明的是，以上实施例描述的聚类方法是根据人脸特征的相似度对不同用户的人脸图片进行分类的，因而不同聚类类别对应的分组，也可以理解为不同用户对应的分组。

在本申请的一些实施例中，手机上显示的不同聚类类别对应的分组，即不同用户对应的分组，可以对应不同的优先级。优先级高的分组对应的用户可能是用户更关心的用户。

其中，在一种技术方案中，用户越为关心的用户，用户在手机上保存的该用户的人脸图片和视频通常也越多，因而手机可以确定所保存的人脸图片和视频中出现的频率最高的用户为用户最为关心的用户，这些用户对应的分组的优先级也最高。

在另一种技术方案中，手机可以确定与手机用户的亲密度高的用户对应的分组的优先级更高。例如，手机可以根据不同用户与用户之间动作的亲密性、不同用户的表情、不同用户在视频和人脸图片中出现的频率，不同用户在视频和人脸图片中的位置等因素，通过情感分析算法确定不同用户与用户的亲密度，从而确定与用户亲密度更高的用户是用户更为关心的用户，这些用户所对应的分组的优先级也更高。

在又一种技术方案中，由于用户的亲人通常与用户的面部信息更为相似，亲人通常是用户更为关心的用户，用户更想优先显示亲人对应的分组，因而手机可以确定与手机用户的面部信息更为接近的用户对应的分组的优先级更高。

在一些实施例中，优先级高的分组可以优先显示。在一种技术方案中，手机可以将优先级高的分组显示在人像分类界面的顶部，优先级低的分组需要用户通过上滑或者切换页面等方式查看。在另一种技术方案中，手机可以仅在人像分类界面上显示优先级最高的前N(为正整数)个分组，对于用户不太关心的其他用户对应的分组可以不进行显示。

在另一些实施例中，若手机上保存的某个用户的人脸图片和视频的数量超过预设值4(例如可以为5)，则可以该用户是用户较为关心的用户，手机可以在人像分类界面上显示该用户对应的分组。

在本申请的一些实施例中，人脸图片中的某一个用户与另一个用户的合影，可以在该某一个用户所对应的分组中，同时还可以在另一个用户所在的分组中。

示例性的，参见图18中的(a)，人脸图片6为用户1和用户2的合影；参见图18中的(b)，人脸图片6既在用户1对应的分组中，又在用户2对应的分组中。

在本申请的另一些实施例中，参见图19A，不同用户对应的分组中仅包括该用户的单人照，多个用户的合影额外进行显示。

在本申请的另一些实施例中，参见图19B，不同用户对应的分组中仅包括该用户的单人照，多个用户的合影在另一个分组中。

此外，在人脸图片聚类完成后，手机还可以根据聚类结果，对图片中的人脸进行身份标记。

在本申请的其他实施例中，在人脸图片聚类完成后，手机还可以对聚类结果进行个性化显示。例如，对于分组中的图片，当手机检测到用户指示色彩保留的操作后，手机可以将该分组的图片中，用户指示的区域或者预设的区域保留为彩色图像，图片上的其他区域变为灰色图像。

示例性的，预设的区域为用户所在的区域，手机可以保留用户所在区域内的图像的颜色，其他区域内的图像为灰度图像。再例如，例如，对于某个目标用户对应的分组中的图片，当手机检测到用户指示保留用户的操作后，目标用户所在区域的图像画面保留，其他区域的图像画面消失，即其他区域的图像可以为空白、黑色、灰色或其他预设的颜色。

在本申请的其他实施例中，在人脸图片聚类完成后，手机还可以生成主角故事。该主角故事可以包括一系列的某一用户的多张图像。主角故事中的图像是同一类别的图像，具体可以是参考图像集中的图像(例如可以包括视频中的视频分段或视频中的人脸图像帧)，也可以是人脸图片中的图像。

也就是说，手机不仅可以从图片中提取人脸图片进行主角故事编辑，还可以结合视频等参考图像集中的人脸图像进行主角故事编辑，从而可以使得主角图像的来源更广，使得主角故事更加生动有趣和丰富多彩。

需要说明的是，以上是以视频为参考图像集为例进行说明的，当参考图像集为其他参考图像集(例如图20中的(a)-(f)所示的手机连拍到的图像组)时，仍可以根据其他参考图像集，采用以上实施例中描述的方式对人脸图片进行聚类，此处不予赘述。

以上是以人脸为分类对象为例进行说明的，当分类对象为其他对象时，仍可以采用本申请实施例提供的聚类方法对手机上的图片进行聚类。并且，用户还可以设置手机可以进行聚类的分类对象。

例如，分类对象为动物的脸(比如狗的脸、猫的脸)、物体(比如房子、汽车、手机、水杯等)、logo标识等。举例来说，分类对象为房子，手机也可以通过上述实施例描述的方式先将手机获取到的包括的不同角度、不同方位、不同位置、不同亮度、不同场景下的房子的参考图像集进行聚类(例如进行跟踪和自动聚类处理)，而后根据该参考图像集聚类结果再对手机存储的房子的图片进行聚类，以使得不同样子的房子的图片的聚类精度较高，方便用户对房子的图片的查找和管理。

当分类对象还包括人脸以外的多种其他分类对象时，手机在显示的聚类结果可以包括人脸图片分组以及其他分类对象的分组；也可以说，手机可以按照不同的实体进行聚类和分组。

举例来说，当分类对象包括人脸、狗和房子时，参见图21，手机可以在聚类结果中显示不同用户(例如用户1和用户2)的人脸分别对应的分组，不同狗(例如狗1)分别对应的分组，以及不同房子(例如房子1)分别对应的分组。

在另一个举例中，当分类对象包括人脸和房子时，聚类结果中可以包括人脸对应的分组 9，狗对应的分组10，以及房子对应的分组11。其中，分组9中可以包括不同用户(例如用户1和用户2)分别对应的子分组，分组10中可以包括不同的狗分别对应的子分组，分组11 中可以包括不同房子分别对应的子分组。并且，子分组中可以包括图片聚类结果，或者包括图片聚类结果以及参考图像集聚类结果，这里不再详细说明。

在另一种方案中，用户还可以选择当前需要显示的分类对象的分类结果。示例性的，参见图22中的(a)，手机检测到用户点击图22中的(a)所示的控件2201后，可以显示图22中的(b)所示的界面；手机检测到用户点击图22中的(b)所示的控件2202后，可以显示图22中的(c)所示的界面；而后，当用户选择人像分类时，手机仅显示人脸；当用户选择狗的分类时，手机仅显示狗；当用户选择房子的分类时，手机仅显示房子；当用户选择其他分类对象时，进行其他分类对象的聚类结果。需要说明的是，用户选择当前需要显示的分类对象的聚类结果的方式还可以有多种，并不限于图22所举的示例。

结合上述实施例及相应的附图，本申请另一实施例提供了一种图片分组方法，该方法可以在具有图1所示的硬件结构的电子设备中实现。电子设备上保存有至少一张人脸图片。如图23所示，该方法可以包括：

2301、电子设备获取至少一个视频。

其中，电子设备获取的至少一个视频中可以包括多个人脸图像帧，每个视频中也可以包括多个人脸图像帧。电子设备上保存的至少一张人脸图片为用户之前拍摄的，或者电子设备通过下载、拷贝等方式获取的静态图片。

示例性的，该至少一张人脸图片可以为图8A所示的人脸图片1-人脸图片4。

电子设备获取至少一个视频的方式可以有多种。例如，电子设备的存储区存储有至少一个视频，电子设备从存储区获取至少一个视频。其中，存储区存储的视频可以是用户之前拍摄的，电子设备下载的，或者电子设备在应用程序运行过程中获得的。

再例如，参见图6，电子设备可以提示用户拍摄包括人脸图像帧的视频，在检测到用户指示拍摄视频的操作后，录制并生成至少一个视频。

再例如，电子设备提示用户下载至少一个视频，在用户指示下载后获取到所下载的视频。

示例性的，电子设备获取的至少一个视频可以包括图7B所示的视频1。

2302、电子设备从至少一个视频中提取多个人脸图像帧。

在获取到至少一个视频后，电子设备可以从至少一个视频中提取多个人脸图像帧，以便后续可以根据提取的人脸图像帧对人脸图片进行分组。示例性的，当电子设备获取的视频包括图7B所示的视频1时，电子设备从视频1中提取的人脸图像帧可以为图7B中的人脸图像帧A-人脸图像帧H。

在其他实施例中，电子设备也可以从至少一个视频中提取一个人脸图像帧，以便后续可以根据提取的该人脸图像帧对人脸图片进行分组。

2303、电子设备根据多个人脸图像帧，对至少一张人脸图片进行聚类处理。

示例性的，电子设备可以根据提取的人脸图像帧A-人脸图像帧H，对人脸图片1-人脸图片4进行聚类处理。

其中，聚类处理的算法可以有多种，具体可以参见以上实施例中的相关描述以及现有聚类算法的相关技术。

2304、电子设备根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

在该步骤中，聚类处理得到的每一个分组分别可以包括一个用户的至少一张人脸图片，即一个分组可以包括同一个用户的至少一张人脸图片，同一个用户的至少一张人脸图片可以在同一个分组中。

也就是说，电子设备可以将至少一个视频中的多个人脸图像帧作为先验信息，根据至少一个视频中的多个人脸图像帧对人脸图片进行聚类，从而将人脸图片根据不同的用户进行分组，使得同一用户的人脸图片聚类为同一个分组，提高人脸图片分组的准确性。

其中，一个分组中包括的至少一张人脸图片，可以是电子设备确定的同一个用户的人脸图片。电子设备可以根据人脸图片上人脸特征之间的相似度计算，确定相似度大于或者等于第一预设值的不同人脸图片为同一个用户的人脸图片。

示例性的，电子设备根据人脸图像帧A-人脸图像帧H对人脸图片1-人脸图片4进行聚类处理后，得到的分组可以参见图10中的(b)所示的分组3和图10中的(c)所示的分组4。分组3中包括用户1的人脸图片，分组4中包括用户2的人脸图片。

在一种技术方案中，每个分组还包括以下任意一项或任意多项的组合：用户的人脸图像帧所在的视频，用户的人脸图像帧所在的视频分段，或用户的至少一个人脸图像帧。也就是说，电子设备可以根据不同用户对人脸图片、视频、视频分段和人脸图像帧进行分组，统一或联合管理用户的视频和图片，方便用户查找和管理，提高用户使用体验。

示例性的，参见图11中的(b)，用户1对应的分组7A中包括用户的人脸图片以及用户 1的人脸图像帧所在的视频1。

再示例性的，参见图13中的(a)，用户1对应的分组7C中包括用户的人脸图片以及用户的人脸图像帧所在的视频分段。

再示例性的，参见图13中的(a)，用户1对应的分组7D中包括用户的人脸图片以及用户的多个人脸图像帧。

在一种技术方案中，每个分组包括的一个用户的至少一张人脸图片为单人照或合影。

示例性的，图10中的(b)分组3中包括用户1的单人照，图10中的(c)所示的分组 4中包括用户2的单人照。图18中的(a)所示的分组9中包括用户1的单人照和合影，图 18中的(b)所示的分组10中包括用户2的单人照和合影。

如图23所示，上述步骤2303具体可以包括：

2303A、电子设备将多个人脸图像帧划分为至少一个类别，每个类别分别对应于一个用户不同形态的多个人脸图像帧。

示例性的，参见图8A，电子设备可以将人脸图像帧A-C划分为类别1，类别1中包括用户1不同形态的多个人脸图像帧；将人脸图像帧D-F划分为类别2，类别2中包括用户2不同形态的多个人脸图帧；将人脸图像帧G-H划分为类别3，类别3中包括用户1不同形态的多个人脸图像帧。

2303B、电子设备根据多个人脸图像帧的类别划分结果，对至少一张人脸图片进行聚类处理。

示例性的，电子设备可以根据图8A所示的类别1，类别2和类别3，对人脸图片1-4进行聚类处理。电子设备可以根据类别划分结果，将人脸图片与已划分的类别归为一组，或者将人脸图片划分至一个新的分组。

其中，视频中的人脸图像帧通常是动态变化的人脸图像帧，可以包括不同形态的人脸图像。当至少一个视频中的多个人脸图像帧划分的每个类别中，分别包括同一用户不同形态的人脸图像时，电子设备可以根据不同类别中不同用户不同形态的人脸图像，对不同人脸角度、表情等不同形态的人脸图片进行准确分组，提高分组的准确性。

上述步骤2303A具体可以包括：电子设备分别将每个视频中的人脸图像帧划分为至少一个类别。

其中，同一视频中的相邻图像帧具有时间连续性，视频中具有时间连续性的同一用户的多个人脸图像帧可以归为一个类别。而在视频中，具有时间连续性的同一用户的人脸图像帧通常可以是相邻的人脸图像帧。

例如，电子设备通过人脸跟踪算法跟踪到的同一视频中的人脸图像具有时间连续性，满足must-link约束，是同一个用户的人脸，可以归为同一个类别。因而，电子设备可以通过人脸跟踪算法，分别将每个视频中具有时间连续性的同一用户的多个人脸图像帧划分为同一个类别。这样，同一视频中多个用户的人脸图像帧就可以对应多个类别。

示例性的，电子设备对视频1中的人脸图像帧划分类别后的结果，可以为图8A所示的类别1、类别2和类别3。

上述步骤2303A具体还可以包括：若至少一个类别中第一类别中的第一人脸图像帧的人脸特征，与第二类别中的第二人脸图像帧的人脸特征之间的相似度大于或者等于第二预设值，则电子设备可以将第一类别和第二类别合并为同一个类别。

其中，由于人脸特征之间的相似度大于或者等于第二预设值的两个人脸图像帧，一般为同一用户的人脸图像帧，这两个人脸图像帧分别所在的类别也与同一用户对应，因而电子设备可以将这两个人脸图像帧分别所在的类别合并为同一类别。

这样，电子设备可以先将同一个视频中的人脸图像帧划分类别，而后再将不同视频中相似度较大的人脸图像帧所在的类别合并，即将不同视频中同一用户的人脸图像帧合并为同一个类别。

示例性的，若类别1中的第一人脸图像帧与类别3中的第二人脸图像帧的人脸特征之间的相似度大于或者等于第二预设值，则电子设备将类别1和类别3合并为类别4。

在后续的步骤2303B中，电子设备可以根据类别2和类别4，对电子设备保存的(获取的)至少一张人脸图片进行聚类处理。

此外，参见图23，该方法还可以包括：

2305、电子设备获取至少一个图像组，每个图像组中包括同一用户不同形态的多个图像帧。

其中，该至少一个图像组包括以下任意一项或任意多项的组合：动图，预先拍摄的包括同一用户不同形态的人脸的图像组，在拍摄预览时实时采集的多帧图像形成的图像组，或在连拍时拍摄到的多帧图像形成的图像组。

在步骤2305的基础上，上述步骤2302具体可以包括：电子设备从至少一个视频以及至少一个图像组中，提取多个人脸图像帧。

其中，步骤2305中的图像组以及步骤2301中的视频，可以为本申请上述实施例描述的参考图像集。也就是说，电子设备可以从一个或多个参考图像集中获取同一用户不同姿态的多个人脸图像帧，以便于电子设备根据同一用户不同姿态的多个人脸图像帧对人脸图片进行精确分组，降低聚类的分散度。

可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图24示出了上述实施例中涉及的电子设备2400的一种可能的组成示意图，如图24所示，该电子设备2400可以包括：获取单元 2401、提取单元2402、聚类单元2403和显示单元2404等。

其中，获取单元2401可以用于支持电子设备2400执行上述步骤2301，和/或用于本文所描述的技术的其他过程。

提取单元2401可以用于支持电子设备2400执行上述步骤2302等，和/或用于本文所描述的技术的其他过程。

聚类单元2403可以用于支持电子设备2400执行上述步骤2303、步骤2303A、步骤2303B 等，和/或用于本文所描述的技术的其他过程。

显示单元2404可以用于支持电子设备2400执行上述步骤2304等，和/或用于本文所描述的技术的其他过程。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本申请实施例提供的电子设备，用于执行上述图片的分组方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备可以包括处理模块和存储模块。其中，处理模块可以用于对电子设备的动作进行控制管理，例如，可以用于支持电子设备执行上述获取单元2401、提取单元2402、聚类单元2403和显示单元2404执行的步骤。

存储模块可以用于支持电子设备存储人脸图片和视频、动图等参考图像集，以及存储程序代码和数据等。

另外，电子设备还可以包括通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、wifi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本申请实施例所涉及的电子设备可以为具有图1所示结构的电子设备。具体的，图1所示的内部存储器121可以存储有计算机程序指令，当指令被处理器110执行时，使得电子设备可以执行：获取至少一个视频；从至少一个视频中提取多个人脸图像帧；根据多个人脸图像帧，对至少一张人脸图片进行聚类处理；根据聚类处理结果，显示至少一个分组，每个分组分别包括一个用户的至少一张人脸图片。

具体的，当指令被处理器110执行时，使得电子设备具体可以执行：将多个人脸图像帧划分为至少一个类别，每个类别分别对应于一个用户不同形态的多个人脸图像帧；并根据多个人脸图像帧的类别划分结果，对至少一张人脸图片进行聚类处理等上述方法实施例中的步骤。

本申请实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的图片分组方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的图片分组方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的图片分组方法。

其中，本申请实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图片分组方法，应用于电子设备，所述电子设备上保存有至少一张人脸图片，其特征在于，所述方法包括：

获取至少一个视频；

从所述至少一个视频中提取多个人脸图像帧；

根据所述多个人脸图像帧，对所述至少一张人脸图片进行聚类处理；

根据所述聚类处理结果，显示至少一个分组，每个所述分组分别包括一个用户的至少一张人脸图片。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个人脸图像帧，对所述至少一张人脸图片进行聚类处理，包括：

将所述多个人脸图像帧划分为至少一个类别，每个所述类别分别对应于一个用户不同形态的多个人脸图像帧；

根据所述多个人脸图像帧的类别划分结果，对所述至少一张人脸图片进行聚类处理。

3.根据权利要求2所述的方法，其特征在于，所述将所述多个人脸图像帧划分为至少一个类别，包括：

分别将每个所述视频中的人脸图像帧划分为至少一个类别；

若所述至少一个类别中第一类别中的第一人脸图像帧的人脸特征，与第二类别中的第二人脸图像帧的人脸特征之间的相似度大于或者等于预设值，则将所述第一类别和所述第二类别合并为同一个类别。

4.根据权利要求3所述的方法，其特征在于，所述分别将每个所述视频中的人脸图像帧划分为至少一个类别，包括：

通过人脸跟踪算法，分别将每个所述视频中，具有时间连续性的同一用户的多个人脸图像帧划分为同一个类别。

5.根据权利要求1-4任一项所述的方法，其特征在于，每个所述分组还包括以下任意一项或任意多项的组合：所述用户的人脸图像帧所在的视频，所述用户的人脸图像帧所在的视频分段，或所述用户的至少一个人脸图像帧。

6.根据权利要求1-5任一项所述的方法，其特征在于，每个所述分组包括的一个用户的至少一张人脸图片为单人照或合影。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取至少一个视频，包括：

从所述电子设备的存储区获取所述至少一个视频。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述获取至少一个视频，包括：

提示用户拍摄包括人脸图像帧的视频；

在检测到用户指示拍摄视频的操作后，录制并生成至少一个视频。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

获取至少一个图像组，每个所述图像组中包括同一用户不同形态的多个图像帧；所述至少一个图像组包括以下任意一项或任意多项的组合：动图，预先拍摄的包括同一用户不同形态的人脸的图像组，在拍摄预览时实时采集的多帧图像形成的图像组，或在连拍时拍摄到的多帧图像形成的图像组；

所述从所述至少一个视频中提取多个人脸图像帧，包括：

从所述至少一个视频以及所述至少一个图像组中，提取所述多个人脸图像帧。

10.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；至少一个存储器；其中，所述至少一个存储器中存储有计算机程序指令，当所述指令被所述至少一个处理器执行时，使得所述电子设备执行以下步骤：

获取至少一个视频；

从所述至少一个视频中提取多个人脸图像帧；

11.根据权利要求10所述的电子设备，其特征在于，所述根据所述多个人脸图像帧，对所述至少一张人脸图片进行聚类处理，具体包括：

12.根据权利要求11所述的电子设备，其特征在于，所述将所述多个人脸图像帧划分为至少一个类别，具体包括：

分别将每个所述视频中的人脸图像帧划分为至少一个类别；

13.根据权利要求12所述的电子设备，其特征在于，所述分别将每个所述视频中的人脸图像帧划分为至少一个类别，具体包括：

14.根据权利要求10-13任一项所述的电子设备，其特征在于，每个所述分组还包括以下任意一项或任意多项的组合：所述用户的人脸图像帧所在的视频，所述用户的人脸图像帧所在的视频分段，或所述用户的至少一个人脸图像帧。

15.根据权利要求10-14任一项所述的电子设备，其特征在于，每个所述分组包括的一个用户的至少一张人脸图片为单人照或合影。

16.根据权利要求10-15任一项所述的电子设备，其特征在于，所述获取至少一个视频，具体包括：

从所述至少一个存储器获取所述至少一个视频。

17.根据权利要求10-15任一项所述的电子设备，其特征在于，所述获取至少一个视频，具体包括：

提示用户拍摄包括人脸图像帧的视频；

18.根据权利要求10-17任一项所述的电子设备，其特征在于，当所述指令被所述至少一个处理器执行时，还使得所述电子设备执行以下步骤：

所述从所述至少一个视频中提取多个人脸图像帧，具体包括：

19.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，所述电子设备执行如权利要求1-9中任一项所述的图片分组方法。

20.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，所述计算机执行如权利要求1-9中任一项所述的图片分组方法。