CN111177086A

CN111177086A - 文件聚类方法及装置、存储介质和电子设备

Info

Publication number: CN111177086A
Application number: CN201911382475.0A
Authority: CN
Inventors: 彭冬炜
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Also published as: WO2021129444A1

Abstract

本公开提供了一种文件聚类方法、文件聚类装置、计算机可读存储介质和电子设备，涉及终端技术领域。该文件聚类方法包括：获取至少一个图片文件和至少一个视频文件；提取每个图片文件的人脸特征；提取每个视频文件的人脸特征；根据每个图片文件的人脸特征和每个视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。本公开可以实现图片文件与视频文件的混合聚类。

Description

文件聚类方法及装置、存储介质和电子设备

技术领域

本公开涉及终端技术领域，具体而言，涉及一种文件聚类方法、文件聚类装置、计算机可读存储介质和电子设备。

背景技术

随着终端技术的发展，终端上可以处理和存储大量的图片和视频，这些图片和视频主要是利用终端上的摄像模组对场景进行拍摄而得到，其中，拍摄对象为人的情况占绝大多数。

在实际存储时，通常仅针对类型(图片或视频)、拍摄时间进行存储。存储方式单一，不便于用户快速找到属于同一对象的拍摄结果。

发明内容

本公开提供一种文件聚类方法、文件聚类装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服不能快速帮助用户查找到属于同一拍摄对象的所有拍摄结果的问题。

根据本公开的第一方面，提供了一种文件聚类方法，包括：获取至少一个图片文件和至少一个视频文件；提取每个图片文件的人脸特征；提取每个视频文件的人脸特征；根据每个图片文件的人脸特征和每个视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。

根据本公开的第二方面，提供了一种文件聚类装置，包括：文件获取模块，用于获取至少一个图片文件和至少一个视频文件；第一特征提取模块，用于提取每个图片文件的人脸特征；第二特征提取模块，用于提取每个视频文件的人脸特征；文件聚类模块，用于根据每个图片文件的人脸特征和每个视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的文件聚类方法。

根据本公开的第四方面，提供了一种电子设备，包括处理器；存储器，用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得所述处理器实现上述的文件聚类方法。

在本公开的一些实施例所提供的技术方案中，获取至少一个图片文件和至少一个视频文件，提取每个图片文件的人脸特征，并提取每个视频文件的人脸特征，利用图片文件的人脸特征和视频文件的人脸特征，对图片文件和视频文件进行聚类。相比于一些技术中仅能聚类图片的方案，本公开示例性实施方式可以实现图片和视频的混合聚类效果，将图片和视频按拍摄对象进行分类，有助于用户快速确定出包含同一拍摄对象的图片和视频，进行查看、分享、删除等操作。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的文件聚类方法或文件聚类装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示意性示出了根据本公开的示例性实施方式的文件聚类方法的流程图；

图4示意性示出了根据本公开的示例性实施方式的提取视频文件的人脸特征的流程图；

图5示意性示出了根据本公开的示例性实施方式的文件聚类的整个过程的流程图；

图6示意性示出了根据本公开的示例性实施方式的文件聚类装置的方框图；

图7示意性示出了根据本公开的另一示例性实施方式的文件聚类装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”、“第二”仅是为了区分的目的，不应作为本公开内容的限制。

图1示出了可以应用本公开实施例的文件聚类方法或文件聚类装置的示例性系统架构的示意图。

如图1所示，系统架构1000可以包括终端设备1001、1002、1003中的一种或多种，网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器1005可以是多个服务器组成的服务器集群等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互，以接收或发送消息等。终端设备1001、1002、1003可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

在以终端设备1001、1002、1003执行下述文件聚类方法的实施例中，终端设备1001、1002、1003可以通过网络1004从服务器1005获取至少一个图片文件和至少一个视频文件，在这种情况下，服务器1005可以例如为云相册之类的云端平台。或者，终端设备1001、1002、1003可以通过其配备的摄像模组拍摄图片和视频，并从中获取至少一个图片文件和至少一个视频文件。又或者，终端设备1001、1002、1003获取到的图片文件和视频文件中一部分来自于由自身摄像模组拍摄而确定的，另一部分来自服务器1005。本公开对图片文件和视频文件的来源不做限制。

需要说明的是，本公开示例性实施方式所述的图片文件和视频文件均包含有人脸图像，也就是说，本公开主要针对的是基于人脸的图片及视频聚类。然而，应当理解的是，还可以将本公开方案应用于对其他拍摄对象的聚类，这些其他拍摄对象可以例如包括动物、车辆、建筑物等等，本公开对此不做限制。

接下来，针对获取到的图片文件和视频文件，终端设备1001、1002、1003可以分别提取人脸特征，并利用提取到的人脸特征对获取到的图片文件和视频文件进行聚类。使得针对同一拍摄对象的图片文件和视频文件能够被分配同一聚类ID，方便用户进行查看。

在以服务器1005执行下述文件聚类方法的实施例中，服务器1005可以获取由终端设备1001、1002、1003的摄像模组拍摄的图片文件和视频文件，分别提取它们的人脸特征，并根据图片文件和视频文件的人脸特征对获取到的图片文件和视频文件进行聚类。

下面将以终端设备1001、1002、1003执行本公开方案为例进行说明，在这种情况下，本公开示例性实施方式的文件聚类装置可以被配置在终端设备1001、1002、1003中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图，该电子设备对应于上面例如手机的终端设备。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的文件聚类方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804、磁传感器2805、加速度传感器2806、距离传感器2807、接近光传感器2808、指纹传感器2809、温度传感器2810、触摸传感器2811、环境光传感器2812及骨传导传感器2813等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

USB接口230是符合USB标准规范的接口，具体可以是MiniUSB接口，MicroUSB接口，USBTypeC接口等。USB接口230可以用于连接充电器为电子设备200充电，也可以用于电子设备200与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

电子设备200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块260可以提供应用在电子设备200上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)、全球导航卫星系统(Global Navigation Satellite System，GNSS)、调频(Frequency Modulation，FM)、近距离无线通信技术(Near Field Communication，NFC)、红外技术(Infrared，IR)等无线通信的解决方案。

电子设备200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

电子设备200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器271，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备200可以通过扬声器271收听音乐，或收听免提通话。受话器272，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时，可以通过将受话器272靠近人耳接听语音。麦克风273，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风273发声，将声音信号输入到麦克风273。电子设备200可以设置至少一个麦克风273。耳机接口274用于连接有线耳机。

针对电子设备200包括的传感器，深度传感器2801用于获取景物的深度信息。压力传感器2802用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器2803可以用于确定电子设备200的运动姿态。气压传感器2804用于测量气压。磁传感器2805包括霍尔传感器。电子设备200可以利用磁传感器2805检测翻盖皮套的开合。加速度传感器2806可检测电子设备200在各个方向上(一般为三轴)加速度的大小。距离传感器2807用于测量距离。接近光传感器2808可以包括例如发光二极管(LED)和光检测器，例如光电二极管。指纹传感器2809用于采集指纹。温度传感器2810用于检测温度。触摸传感器2811可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏290提供与触摸操作相关的视觉输出。环境光传感器2812用于感知环境光亮度。骨传导传感器2813可以获取振动信号。

按键294包括开机键，音量键等。按键294可以是机械按键。也可以是触摸式按键。马达293可以产生振动提示。马达293可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。电子设备200通过SIM卡和网络交互，实现通话以及数据通信等功能。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

图3示意性示出了本公开的示例性实施方式的文件聚类方法的流程图。参考图3，所述文件聚类方法可以包括以下步骤：

S32.获取至少一个图片文件和至少一个视频文件。

在本公开的示例性实施方式中，对于获取到的文件，终端设备可以判别该文件的数据格式，以确定该文件是图片文件，还是视频文件。

针对图片文件，终端设备可以采用人脸检测算法确定该图片文件是否包含人脸，如果包含人脸，则将该文件确定为本公开待进行聚类的图片文件，如果不包含人脸，则可以将该图片文件丢弃，其中，丢弃意指不将该图片文件作为本公开待进行聚类的图片文件。

针对视频文件，终端设备可以采用基于视频的人脸检测算法确定该视频文件是否包含人脸，类似地，如果包含人脸，则将该视频文件确定为本公开待进行聚类的视频文件，如果不包含人脸，则可以将该视频文件丢弃，其中，丢弃意指不将该视频文件作为本公开待进行聚类的视频文件。

也就是说，在包含图片和视频的实际场景中，终端设备首先可以获取候选图片集合和候选视频集合，该候选图片集合中包括至少一个候选图片，该候选视频集合中包括至少一个候选视频。接下来，一方面，对候选图片集合中每个候选图片进行人脸检测，将包含人脸的候选图片确定为上述图片文件，用于执行下述方法过程；另一方面，对候选视频集合中每个候选视频进行人脸检测，将包含人脸的候选视频确定为上述视频文件，用于执行下述方法过程。

根据本公开的一些实施例，终端设备可以直接获取包含人脸图像的至少一个图片文件和包含人脸图像的至少一个视频文件。对于具体确定图片文件和视频文件是否包含人脸图像的过程，可以由在执行本公开方案之前的前端模块执行，本公开对该前端模块除确定是否包含人脸图像外的功能不做限制。

S34.提取每个图片文件的人脸特征。

针对步骤S32中获取到的每一个图片文件，均执行下述过程：

首先，可以提取图片文件包含的所有人脸的人脸特征。具体的，本公开一些实施例可以通过卷积神经网络来提取图片文件包含的所有人脸的人脸特征。本公开对卷积神经网络的模型结构及训练过程均不做限制。另外，除卷积神经网络外，还可以采用基于几何特征的方法、基于模板匹配的方式、基于小波理论的方法、基于隐马尔可夫模型的方法、基于支持向量机的方法等来实现人脸特征的提取，本公开对此不做特殊限制。

接下来，确定至少一个目标对象，并从所有人脸的人脸特征中提取与所述至少一个目标对象相关的人脸特征，作为该图片文件的人脸特征。

其中，以拍摄的场景为例，目标对象可以是拍摄场景下确定出的对象，又可称为目标拍摄对象。另外，在图片文件并非对应拍摄场景的情况下，例如，从互联网上下载的或其他用户传送的图片文件，目标对象可以是由用户指定的对象，本公开对此不做限制。

针对拍摄场景下从多个拍摄对象中确定目标拍摄对象的过程，在一个实施例中，可以获取用户相机预览时点击拍摄对象的选择操作来确定出目标拍摄对象，也就是说，在预览图片时，用户在屏幕上的点击位置所对应的对象为目标拍摄对象。在另一个实施例中，用户可以自行设定目标拍摄对象的确定标准，来确定出目标拍摄对象，这些确定标准例如可以包括但不限于：在历史图片中重复出现次数超过预定次数、身高低于120cm的儿童、戴帽子的拍摄对象，等等。

应当注意的是，根据本公开的另一些实施例，通过人脸特征提取过程，可以从图片文件中截取仅包含目标对象的子图片，作为之后分析、聚类、展示的图片，并保存于相册中。容易看出，子图片中不包含非目标对象的人脸图像。

在步骤S32中获取的多个图片文件中存在不包含人脸的图片文件的情况下，通过步骤S34提取人脸特征的过程，还可以将这种不包含人脸的图片文件剔除。

S36.提取每个视频文件的人脸特征。

参考图4中的步骤S402至步骤S406对本领域技术人员提取视频文件的人脸特征的过程进行说明。

在步骤S402中，从视频文件中提取至少一个关键帧图像。

根据本公开的一些实施例，首先，终端设备可以对视频文件的每个视频帧图像进行图像质量评价，得到质量评分。具体的，可以基于饱和度、曝光量等因素来确定质量评分。另外，还可以基于人类视觉系统(Human Visual System，HVS)来对各视频帧图像进行图像质量评价。

接下来，终端设备可以获取质量阈值，并将每个视频帧图像的质量评分与该质量阈值进行比较，并将质量评分大于质量阈值的视频帧图像确定为关键帧图像。其中，质量阈值可以预先提前设定，本公开对其数值不做限制。例如，在以图像质量评分范围为0至10的实例中，质量阈值可以设置为7.5。另外，可以结合终端设备的处理能力来确定质量阈值，例如，终端设备的处理能力越高，质量阈值可以设置偏低，以获取到多个关键帧图像。

根据本公开的另一些实施例，针对视频文件，可以以预定时间间隔抽取视频帧图像，作为关键帧图像，例如，该预定时间间隔可以例如为3秒等。

根据本公开的又一些实施例，终端设备可以通过分析手段从视频文件中仅提取一个视频帧图像，作为关键帧图像，来代表整个视频文件。

在步骤S404中，提取每个关键帧图像的人脸特征。

与上述确定图片文件的人脸特征类似，首先，可以提取关键帧图像包含的所有人脸的人脸特征，具体的，也可以采用卷积神经网络来提取关键帧图像包含的所有人脸的人脸特征，并且此处所采用的卷积神经网络可以与上述确定图片文件的人脸特征的卷积神经网络相同。接下来，确定至少一个目标对象，从所有人脸的人脸特征中提取与至少一个目标对象相关的人脸特征，作为关键帧图像的人脸特征。

在步骤S406中，根据每个关键帧图像的人脸特征，确定视频文件的人脸特征。

根据本公开的一些实施例，可以将每个关键帧图像的人脸特征作为视频文件的人脸特征。也就是说，在仅提取一个关键帧图像的实例中，将该关键帧图像中所有的人脸特征作为视频文件的人脸特征；在提取两个以上关键帧图像的实例中，将每个关键帧图像的所有人脸特征作为视频文件的人脸特征。另外，这里对人脸特征对应的对象类别的数量不做限制，也就是说，对关键帧图像中包含不同人脸的数量不做限制。

根据本公开的另一些实施例，视频文件中提取的关键帧图像的数量为至少两个，在这种情况下，首先，可以根据各关键帧图像在视频文件中的时间点对各关键帧图像进行排序，也就是说，可以按视频文件播放时各关键帧图像出现的先后顺序进行排序，以得到图像序列；接下来，可以确定图像序列中各相邻关键帧图像之间的相关性，并从这些关键帧图像中剔除相关性小于相关性阈值所对应的关键帧图像，得到关键帧图像集合；然后，可以根据关键帧图像集合中每个关键帧图像的人脸特征，确定视频文件的人脸特征。在一个实施例中，可以将该关键帧图像集合中每个关键帧图像的人脸特征作为视频文件的人脸特征。

具体的，关键帧图像之间的相关性可以基于图像质量、目标对象相似性确定出。图像质量越高、目标对象相似性越高，则认为相关性越高。例如，存在关键帧图像序列A、B、C、D、E，其中，图像B较模糊，图像E中目标对象与其他图像中目标对象的相似度较小，则可以将图像B和图像E从该序列中剔除。需要说明的是，还可以结合图像质量与相似性，并利用二者加权的方式，确定出相关性。

另外，在另一个实施例中，针对利用关键帧图像集合中关键帧图像的人脸特征确定视频文件的人脸特征的过程，具体的，首先，对关键帧图像集合中每个关键帧图像的人脸特征进行聚类，得到至少一个对象类别的人脸特征集合，其中，不同人脸对应不同对象类别。接下来，确定每个对象类别的人脸特征集合中各人脸特征的评分，针对每个对象类别，筛选出评分最高的人脸特征，作为与每个对象类别分别对应的人脸特征，并将该人脸特征确定为视频文件的人脸特征。

针对人脸进行打分的过程，可以基于上述卷积神经网络的特征评分结果来确定出，另外，还可以自行构建人脸评分模型，以对不同的人脸特征进行评分，本公开对此不做限制。

例如，视频文件剔除相关性弱的图像后剩下10个关键帧图像，每个关键帧图像有a、b、c三个对象，根据对象不同进行聚类，可以分成三类。随后，可以通过分析确定出人脸评分，并确定每个簇中评分最高的人脸特征，作为视频文件的人脸特征。

根据本公开的又一些实施例，在确定出每个关键帧图像的人脸特征后，对这些人脸特征进行聚类，以区分不同拍摄对象。然后，针对每一个拍摄对象，从聚类的结果中确定出人脸评分最高的人脸特征，作为视频文件的人脸特征。

可以理解的是，在步骤S32中获取的多个视频文件中存在不包含人脸的视频文件的情况下，通过步骤S36提取人脸特征的过程，还可以将这种不包含人脸的视频文件剔除。

此外，本公开示例性实施方式的步骤S34和步骤S36的顺序可以互换。

S38.根据每个图片文件的人脸特征和每个视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。

在本公开的示例性实施方式中，按照拍摄对象的不同，利用步骤S34和步骤S36确定出的人脸特征，可以对步骤S32中获取的至少一个图片文件和至少一个视频文件进行聚类。具体的，可以采用例如K-means(K-means clustering algorithm，K均值聚类算法)等机器学习算法实现聚类过程，本公开对此不做限制。

进行聚类后，不同的簇对应不同的拍摄对象。也就是说，图片文件与视频文件按聚类ID进行了划分，拍摄对象与聚类ID一一对应。

此外，针对一目标对象，提取图片文件中仅包含目标对象的子图片，为该子图片和对应包含目标对象的视频文件分配同一聚类ID。或者，提取视频文件中包含目标对象的视频段，并为该视频段和上述子图片分配同一聚类ID。

本公开还提供了一种对聚类的结果进行编辑的方案。

首先，终端设备可以将聚类的结果进行展示，具体的，可以分模块展示在相册中；接下来，终端设备可以响应用户针对聚类的结果的编辑操作，对聚类的结果进行编辑，并保存编辑后的结果。其中，编辑操作可以包括但不限于：修改相册名称、删除一个或多个图片文件、删除一个或多个视频文件、添加批注、改变尺寸等。

另外，还可以将编辑后的聚类结果上传至云端，以便进行备份。

下面将参考图5对本公开示例性实施方式的文件聚类的整个过程进行说明。

在步骤S512中，终端设备可以获取至少一个图片文件；在步骤S514中，终端设备可以提取每个图片文件的人脸特征；在步骤S516中，终端设备对人脸特征进行特征过滤，以去除图像中用户不感兴趣的人脸信息。

在步骤S522中，终端设备可以获取至少一个视频文件；在步骤S524中，终端设备可以提取每个视频文件的关键帧图像；在步骤S526中，终端设备从关键帧图像中提取人脸特征；在步骤S528中，终端设备可以进行特征去噪，也就是说，去除关键帧图像中用户不感兴趣的人脸信息以及相关性较差的关键帧图像，另外，进行个体聚类，也就是说，针对不同的拍摄对象进行聚类，以确定出每一个拍摄对象质量较好的人脸特征，作为视频文件的人脸特征。

在步骤S530中，利用人脸特征，对图片文件与视频文件进行聚类，针对同一对象分配同一聚类ID。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种文件聚类装置。

图6示意性示出了本公开的示例性实施方式的文件聚类装置的方框图。参考图6，根据本公开的示例性实施方式的文件聚类装置6可以包括文件获取模块61、第一特征提取模块63、第二特征提取模块65和文件聚类模块67。

具体的，文件获取模块61可以用于获取至少一个图片文件和至少一个视频文件；第一特征提取模块63可以用于提取每个图片文件的人脸特征；第二特征提取模块65可以用于提取每个视频文件的人脸特征；文件聚类模块67可以用于根据每个图片文件的人脸特征和每个视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。

基于本公开示例性实施方式的文件聚类装置，可以实现图片和视频的混合聚类效果，将图片和视频按拍摄对象进行分类，有助于用户快速确定出包含同一拍摄对象的图片和视频，进行查看、分享、删除等操作。

根据本公开的示例性实施例，第一特征提取模块63可以被配置为执行：提取图片文件包含的所有人脸的人脸特征；确定至少一个目标对象，从所有人脸的人脸特征中提取与所述至少一个目标对象相关的人脸特征，作为图片文件的人脸特征。

根据本公开的示例性实施例，第二特征提取模块65可以被配置为执行：从视频文件中提取至少一个关键帧图像；提取每个关键帧图像的人脸特征；根据每个关键帧图像的人脸特征，确定视频文件的人脸特征。

根据本公开的示例性实施例，第二特征提取模块65从视频文件中提取至少一个关键帧图像的过程可以被配置为执行：对视频文件的每个视频帧图像进行图像质量评价，得到质量评分；获取质量阈值，将每个视频帧图像的质量评分与质量阈值进行比较；将质量评分大于质量阈值的视频帧图像确定为关键帧图像。

根据本公开的示例性实施例，第二特征提取模块65提取每个关键帧图像的人脸特征的过程可以被配置为执行：提取关键帧图像包含的所有人脸的人脸特征；确定至少一个目标对象，从所有人脸的人脸特征中提取与所述至少一个目标对象相关的人脸特征，作为关键帧图像的人脸特征。

根据本公开的示例性实施例，视频文件中关键帧图像的数量为两个以上，在这种情况下，第二特征提取模块65根据每个关键帧图像的人脸特征确定视频文件的人脸特征的过程可以被配置为执行：根据各关键帧图像在视频文件中的时间点对各关键帧图像进行排序，得到图像序列；确定图像序列中各相邻关键帧图像之间的相关性；从两个以上关键帧图像中剔除相关性小于相关性阈值所对应的关键帧图像，得到关键帧图像集合；根据关键帧图像集合中每个关键帧图像的人脸特征，确定视频文件的人脸特征。

根据本公开的示例性实施例，第二特征提取模块65利用关键帧图像集合中关键帧图像的人脸特征确定视频文件的人脸特征的过程可以被配置为执行：对关键帧图像集合中每个关键帧图像的人脸特征进行聚类，得到至少一个对象类别的人脸特征集合；确定每个对象类别的人脸特征集合中各人脸特征的评分；筛选出评分最高的人脸特征，作为与对象类别对应的人脸特征，并将对象类别对应的人脸特征确定为视频文件的人脸特征。

根据本公开的示例性实施例，文件获取模块61可以被配置为执行：获取候选图片集合和候选视频集合；对候选图片集合中每个候选图片进行人脸检测，并将包含人脸的候选图片确定为图片文件；对候选视频集合中每个候选视频进行人脸检测，并将包含人脸的候选视频确定为视频文件。

根据本公开的示例性实施例，参考图7，相比于文件聚类装置6，文件聚类装置7还可以包括结果编辑模块71。

具体的，结果编辑模块71可以被配置为执行：将聚类的结果进行展示；其中，聚类的结果中每个簇对应不同人脸对象类别；响应针对聚类的结果的编辑操作，对聚类的结果进行编辑并保存。

由于本公开实施方式的文件聚类装置的各个功能模块与上述方法实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种文件聚类方法，其特征在于，包括：

获取至少一个图片文件和至少一个视频文件；

提取每个所述图片文件的人脸特征；

提取每个所述视频文件的人脸特征；

根据每个所述图片文件的人脸特征和每个所述视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。

2.根据权利要求1所述的文件聚类方法，其特征在于，提取每个所述图片文件的人脸特征包括：

提取所述图片文件包含的所有人脸的人脸特征；

确定至少一个目标对象，从所述所有人脸的人脸特征中提取与所述至少一个目标对象相关的人脸特征，作为所述图片文件的人脸特征。

3.根据权利要求1所述的文件聚类方法，其特征在于，提取每个所述视频文件的人脸特征包括：

从所述视频文件中提取至少一个关键帧图像；

提取每个所述关键帧图像的人脸特征；

根据每个所述关键帧图像的人脸特征，确定所述视频文件的人脸特征。

4.根据权利要求3所述的文件聚类方法，其特征在于，从所述视频文件中提取至少一个关键帧图像包括：

对所述视频文件的每个视频帧图像进行图像质量评价，得到质量评分；

获取质量阈值，将每个所述视频帧图像的质量评分与所述质量阈值进行比较；

将质量评分大于所述质量阈值的视频帧图像确定为所述关键帧图像。

5.根据权利要求3所述的文件聚类方法，其特征在于，提取每个所述关键帧图像的人脸特征包括：

提取所述关键帧图像包含的所有人脸的人脸特征；

确定至少一个目标对象，从所述所有人脸的人脸特征中提取与所述至少一个目标对象相关的人脸特征，作为所述关键帧图像的人脸特征。

6.根据权利要求5所述的文件聚类方法，其特征在于，从所述视频文件中提取两个以上关键帧图像；其中，根据每个所述关键帧图像的人脸特征，确定所述视频文件的人脸特征，包括：

根据各所述关键帧图像在所述视频文件中的时间点对各所述关键帧图像进行排序，得到图像序列；

确定所述图像序列中各相邻关键帧图像之间的相关性；

从所述两个以上关键帧图像中剔除相关性小于相关性阈值所对应的关键帧图像，得到关键帧图像集合；

根据所述关键帧图像集合中每个关键帧图像的人脸特征，确定所述视频文件的人脸特征。

7.根据权利要求6所述的文件聚类方法，其特征在于，根据所述关键帧图像集合中每个关键帧图像的人脸特征，确定所述视频文件的人脸特征，包括：

对所述关键帧图像集合中每个关键帧图像的人脸特征进行聚类，得到至少一个对象类别的人脸特征集合；

确定每个所述对象类别的人脸特征集合中各人脸特征的评分；

筛选出评分最高的人脸特征，作为与所述对象类别对应的人脸特征；

将所述对象类别对应的人脸特征确定为所述视频文件的人脸特征。

8.根据权利要求1所述的文件聚类方法，其特征在于，所述文件聚类方法还包括：

获取候选图片集合和候选视频集合；

对所述候选图片集合中每个候选图片进行人脸检测，并将包含人脸的候选图片确定为所述图片文件；

对所述候选视频集合中每个候选视频进行人脸检测，并将包含人脸的候选视频确定为所述视频文件。

9.根据权利要求1至8中任一项所述的文件聚类方法，其特征在于，在对所述至少一个图片文件和所述至少一个视频文件进行聚类后，所述文件聚类方法还包括：

将聚类的结果进行展示；其中，聚类的结果中每个簇对应不同人脸对象类别；

响应针对所述聚类的结果的编辑操作，对所述聚类的结果进行编辑并保存。

10.一种文件聚类装置，其特征在于，包括：

文件获取模块，用于获取至少一个图片文件和至少一个视频文件；

第一特征提取模块，用于提取每个所述图片文件的人脸特征；

第二特征提取模块，用于提取每个所述视频文件的人脸特征；

文件聚类模块，用于根据每个所述图片文件的人脸特征和每个所述视频文件的人脸特征，对所述至少一个图片文件和所述至少一个视频文件进行聚类。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的文件聚类方法。

12.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至9中任一项所述的文件聚类方法。