CN108229674B

CN108229674B - 聚类用神经网络的训练方法和装置、聚类方法和装置

Info

Publication number: CN108229674B
Application number: CN201710094195.4A
Authority: CN
Inventors: 何悦; 李�诚; 曹凯迪
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2021-03-02
Anticipated expiration: 2037-02-21
Also published as: CN108229674A

Abstract

本发明实施例公开了一种聚类用神经网络的训练方法和装置、聚类方法和装置，其中，聚类方法包括：分别提取各照片的综合特征，该综合特征包括人脸特征；分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组。本发明实施例降低了聚类算法的复杂度，提升了聚类性能。

Description

聚类用神经网络的训练方法和装置、聚类方法和装置

技术领域

本发明涉及计算机视觉技术，尤其是一种聚类用神经网络的训练方法和装置、聚类方法和装置。

背景技术

当前的智能相册能够基于人脸识别技术对相册中的照片进行自动标记与聚类。由于存在巨大的应用前景，人脸聚类问题在计算机视觉领域一直是一个研究热点。通过人脸聚类，不仅可以让用户根据照片中的人脸整理并标记相册，还可以迅速快捷地提取大量相关照片的信息，甚至通过照片之间的关系分析社交属性。

目前进行人脸聚类使用的传统人脸聚类算法通常是单纯数据驱动的、且是非监督的，它们主要关注寻找一个表现良好的距离度量标准或寻找更有效的人脸特征。例如，Rank-Order distance算法就是利用两张人脸的邻近图片来度量两张人脸的相关性；Jointmanifold distance算法是利用两个子空间的转换难度度量两个子空间相关性；Deeprepresentation算法可以提取更加准确的特征，以此大幅改善聚类性能。除了基于图片的聚类算法，还有基于视频信息的聚类算法，主要利用了一些额外的视频信息来确定视频之间的相关程度。

发明内容

本发明实施例提供一种用于训练聚类用神经网络的技术方案。

根据本发明实施例的一个方面，提供的一种聚类用神经网络的训练方法，包括：

分别提取各照片的综合特征；所述综合特征包括人脸特征，所述各照片标注有类别信息；

分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；

基于所述各照片标注的类别信息和所述聚类结果，对所述聚类用神经网络进行训练。

根据本发明实施例的另一个方面，提供的一种聚类方法，包括：

分别提取各照片的综合特征；所述综合特征包括人脸特征；

分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组。

根据本发明实施例的又一个方面，提供的一种聚类用神经网络的训练装置，包括：

特征提取模块，用于分别提取各照片的综合特征，所述综合特征包括人脸特征；所述各照片预先标注有类别信息；

获取模块，用于分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量；

聚类用神经网络，用于分别对满足合并条件边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，获得聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；

训练模块，用于基于所述各照片标注的类别信息和所述聚类结果，对所述聚类用神经网络进行训练。

根据本发明实施例的再一个方面，提供的一种聚类装置，包括：

特征提取模块，用于分别提取各照片的综合特征；所述综合特征包括人脸特征；

获取模块，用于分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；

聚类用神经网络，用于分别对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，获得聚类结果；

输出模块，用于输出所述聚类结果。

根据本发明实施例的再一个方面，提供的一种电子设备，包括本发明上述任一实施例提供的聚类用神经网络的训练装置或者聚类装置。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：

分别提取各照片的综合特征的指令；所述综合特征包括人脸特征所述各照片标注有类别信息；

分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果的指令；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；

基于所述各照片标注的类别信息和所述聚类结果，对所述聚类用神经网络进行训练的指令。

分别提取各照片的综合特征的指令；所述综合特征包括人脸特征；

分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果的指令；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组。

根据本发明实施例的再一个方面，提供一种计算机设备，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本发明上述任一实施例的聚类用神经网络的训练方法或聚类方法对应的操作。

基于本发明上述实施例提供的聚类用神经网络的训练方法和装置、电子设备，对聚类用神经网络进行训练时，分别基于各照片的综合特征来获取任意两个群组之间的边特征向量，并基于聚类用神经网络分别对满足合并条件的各边特征向量对相应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，然后基于各照片标注的类别信息和合并处理得到的聚类结果，对聚类用神经网络进行训练。

基于本发明上述实施例提供的聚类方法和装置、电子设备，分别基于各照片的综合特征来获取任意两个群组之间的边特征向量，并基于聚类用神经网络分别对满足合并条件的各边特征向量对相应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。

由于本发明实施例对聚类用神经网络进行训练时、以及利用训练好的聚类用神经网络进行聚类时，每次只针对两个群组考虑是否进行合并，相对于传统人脸聚类算法同时对所有N个群组整体进行判断、判断空间复杂度高达O(N^2)，将判断空间从O(N^2)减少到二值空间，降低了聚类算法的复杂度，提升了聚类性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明聚类用神经网络的训练方法一个实施例的流程图。

图2为本发明聚类用神经网络的训练方法另一个实施例的流程图。

图3为本发明聚类用神经网络的训练方法一个应用实施例的流程图。

图4为本发明聚类用神经网络的训练装置一个实施例的结构示意图。

图5为本发明聚类用神经网络的训练装置另一个实施例的结构示意图。

图6为本发明聚类方法一个实施例的流程图。

图7为本发明聚类方法另一个实施例的流程图。

图8为本发明聚类方法一个应用实施例的流程图。

图9为本发明聚类装置一个实施例的结构示意图。

图10为本发明聚类装置另一个实施例的结构示意图。

图11为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统、服务器、终端设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统、服务器、终端设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中，发明人通过研究发现，现有的传统人脸聚类算法中：

K-means算法是输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准的k个聚类。因此，K-means算法需要指定聚类个数，如果目标类个数设置的比较好，那么聚类结果也会不错，但由于在真实相册中目标类个数不确定，所以K-means算法在实际应用场景中不实用；

凝聚层次聚类算法不需要指定聚类个数，但其只利用人脸特征，如果图像质量不好或者全是侧脸的话，人脸特征会非常相似，该凝聚层次聚类算法会将这些图像聚集到一起，同时会把正常的人脸也聚类到错误的类中。因此，凝聚层次聚类算法对相关度阈值比较敏感，而且合并指标比较单一，导致对噪音的鲁棒性不强；

AP(吸引子传播)算法不需要指定聚类个数，也不需要相关度阈值，但AP算法的参数控制信息的传播强度，只能间接调整聚类结果个数和停止条件，聚类停止条件不好控制，非常不直观，同时其倾向于聚成许多小类，噪音对于聚类结果影响较大。

本发明人在从互联网上收集到的大量真实用户相册上应用上述传统人脸聚类算法进行人脸聚类时，发现其至少存在以下问题：

1，传统人脸聚类算法对所有N个群组整体进行判断、聚类，判断空间复杂度高达O(N^2)，聚类算法的复杂度高，聚类性能低下；

2，通过深度学习从图片中得到的特征在面对侧脸和误检时的表现依然很糟糕。从照片中得到人脸特征至少需要如下四个步骤：人脸检测、人脸姿态矫正、人脸关键点定位、人脸特征提取。用户输入的是一张照片，我们先要从照片中检测到人脸，但由于光照、人物姿态、遮挡物、图像采集质量等问题，检测模块在漏掉许多人脸的同时会给出一些非人脸，那些非人脸被称为误检。误检的图像经过特征提取步骤后得到的特征是随机分布在特征空间中的，很难过滤。除了误检，真实的人脸图像质量也有好有坏，十分模糊的人脸特征趋向于特征空间中同一位置，侧脸的特征在特征空间中的位置也相距较近，这就导致了不同人由于一些质量较差的图像被聚类到一起。经过大量实验，我们发现上述现象是普遍存在的；

3，目前依然没有有效的机制去消除在相册占比很高的非目标人脸，如路人人脸等。经过统计，我们发现真实用户相册中相册主人和相关人员人脸的占比在40％～70％左右，剩下的都是路人及侧脸。由于连拍原因，用户提供的照片中经常会出现路人被连续拍入多张照片中，这会导致路人被聚成一个小类，如果聚类结果中返回大量这样的类，在用户看来肯定是难以接受的，因此处理这个问题是非常有必要的；

4，如何在两个自然环境下的人脸集合上定义一个足够鲁棒的相似度度量依旧是一个开放问题。由于聚类结果是一个集合的集合，现在并没有很好度量方案来度量聚类结果的好坏，需要提出一种可以根据真实标签和聚类结果度量聚类算法好坏的标准。

图1为本发明聚类用神经网络的训练方法一个实施例的流程图。如图1所示，该实施例聚类用神经网络的训练方法包括：

102，分别提取各照片的综合特征。

其中，综合特征包括人脸特征。各照片预先标注有类别信息，基于各照片标注的类别信息，可以获知各照片的正确分类结果，或者，也可以预先设置各照片的正确分类结果。

具体地，各照片具体可以是单独分布的照片，也可以是一个或多个相册中的照片，此时的相册作为模拟训练相册。模拟训练相册包括多个相册时，则在本发明各训练方法实施例中，可以依次选取一个相册或者多个相册中的部分相册作为当前相册，执行本发明训练方法实施例的流程，也可以同时针对全部的多个相册，执行本发明训练方法实施例的流程，基于全部模拟训练相册训练聚类用神经网络。

具体地，可以通过对各照片进行如下操作提取人脸特征：人脸检测、人脸姿态矫正、人脸关键点定位、人脸特征提取。

104，分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并通过聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。

其中，每个群组包括至少一张照片。初始状态下，各照片分别为一个群组。

其中，边属于图论(Graph Theory)中的术语，每两张图或两个群组之间形成一个边，N张图或群组可以有N(N-1)/2个边，在图论里可以把这个建模成一张完全图。边可以以特征向量的形式来表示这两张图或两个群组之间的相似度、照片质量和照片整体一致性，该边的特征向量在本发明实施例中称为边特征向量。边特征向量包括两张图或两个群组之间的相似度、照片质量和照片整体一致性时，两张图或两个群组之间的相似度、照片质量和照片整体一致性具体可以按照预先设置的格式形成一个边特征向量。

106，基于各照片标注的类别信息和上述聚类结果，对聚类用神经网络进行训练。

基于本发明上述实施例提供的聚类用神经网络的训练方法，对聚类用神经网络进行训练时，分别基于各照片的综合特征来获取任意两个群组之间的边特征向量，包括对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项，并基于聚类用神经网络分别对满足合并条件的各边特征向量对相应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，然后基于各照片标注的类别信息和合并处理得到的聚类结果，对聚类用神经网络进行训练。由于每次只针对两个群组考虑是否进行合并，相对于传统人脸聚类算法同时对所有N个群组整体进行判断、判断空间复杂度高达O(N^2)，将判断空间从O(N^2)减少到二值空间，降低了聚类算法的复杂度，提升了聚类性能。

另外，在本发明聚类用神经网络的训练方法另一个实施例中，通过图1中操作102提取的各照片的综合特征还可以包括辅助特征，该辅助特征例如可以包括但不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息(EXIF)等。其中，拍摄信息例如可以包括但不限于以下任意一种或多种：拍摄地理位置、拍摄时间、拍摄设备等。

具体地，可以通过对各照片进行如下操作提取服饰特征：服饰检测、服饰关键点定位、服饰特征提取；相应地，也可以通过对各照片进行如下操作提取场景特征：场景检测、场景特征提取。在各照片拍摄时，可以通过拍摄设备记录各照片的拍摄信息，直接进行读取便可获得各照片的拍摄信息。

本发明实施例中，各照片的综合特征也可以以特征向量表示，为与边特征向量相区分，此处将表示照片的综合特征的特征向量称为综合特征向量。综合特征向量的格式可以预先设置，例如，在一个具体示例中，综合特征向量的格式为：人脸特征，衣服特征，场景特征，拍摄地理位置，拍摄时间，拍摄设备。拍摄信息包括拍摄地理位置时，可以将该拍摄地理位置的经纬度坐标归一化后记录到综合特征向量中的相应位置；拍摄信息包括拍摄时间时，可以将该拍摄时间按照预设方式映射为一组数字记录到综合特征向量中的相应位置；拍摄信息包括拍摄设备时，可以将该拍摄设备的名称、型号等按照预设格式记录到综合特征向量中的相应位置。

在本发明上述训练方法实施例中，基于各照片的综合特征，包括人脸特征和服饰特征、场景特征、拍摄信息等辅助特征，来获取任意两个群组之间的边特征向量，考虑是否对两个群组的照片进行合并，由于对照片进行聚类时还同时利用了照片的辅助特征而非单独的人脸特征，相对于只基于人脸关键点的相似度进行聚类的传统聚类算法，提高了聚类结果的准确性，面对侧脸和误检时的表现效果较好。

在本发明聚类用神经网络的训练方法又一个实施例中，边特征向量具体可以包括该边特征向量对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项。

基于该实施例，边特征向量包括两个群组的相似度、照片质量和照片整体一致性时，同时基于两个群组的相似度、照片质量和照片整体一致性而非只基于照片之间的相似度，来考虑是否对两个群组的照片进行合并，可以避免由于照片中存在侧脸、人脸图像质量较差导致不同人由于一些质量较差的图像被聚类到一起，也避免了由于光照、人物姿态、遮挡物、图像采集质量等问题导致的误检问题，提高了聚类用神经网络对聚类结果的准确性，相对于现有传统人脸聚类算法在面对侧脸和误检时具有较好的表现性能。

在本发明各实施例的一个具体示例中，当边特征向量包括对应的两个群组的相似度时，具体可以通过如下方式获取边特征向量对应的两个群组的相似度：

从边特征向量对应的两个群组中的第一群组选取与第二群组的余弦距离最近的k张照片，分别计算第二群组中各照片与k张照片中每张照片的余弦距离，获取第二群组中各照片与k张照片中每张照片的余弦距离的中位数作为k张照片中每张照片的相似度；以及从第二群组选取与第一群组的余弦距离最近的j张照片，分别计算第一群组中各照片与j张照片中每张照片的余弦距离，获取第一群组中各照片与j张照片中每张照片的余弦距离的中位数作为j张照片中每张照片的相似度。具体来说，可以从当前边对应的两个群组中的第一群组选取与第二群组的余弦距离最近的k张照片，分别以k张照片中的各照片作为当前照片，计算第二群组中各照片与当前照片的余弦距离，获取第二群组中各照片与当前照片的余弦距离的中位数作为当前照片的相似度；以及从第二群组选取与第一群组的余弦距离最近的j张照片，分别以j张照片中的各照片作为当前照片，计算第一群组中各照片与当前照片的余弦距离，获取第一群组中各照片与当前照片的余弦距离的中位数作为当前照片的相似度；其中，k、j分别为大于或等于1的整数；

以k张照片和j张照片的相似度组成的向量作为边特征向量对应的两个群组的相似度。

例如，边特征向量对应的两个群组中，第一群组a中的一张照片与第二群组b中各照片的相似度的计算公式为：

其中，d()为距离函数，本发明实施例中具体采用的余弦距离。

表示第一群组a中与第二群组b余弦距离最近的k张照片中的第i张照片，C^b表示第二群组b，median()表示中位数。

表示第一群组a中的一张照片i与第二群组b的相似度。在本实施例中，计算两个群组中照片的余弦距离包括分别从群组a和b中取与另一群组b和a的余弦距离最近的k+j张照片，基于k张照片中的每张照片计算

基于j张照片中的每张照片计算

其中,

之后再计算所有

和

的中位值，即可得到第一群组a和第二群组b的相似度。

其中，中位数又称中值(Median)，表示一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

在本发明各实施例的另一个具体示例中，当边特征向量包括对应的两个群组的照片质量时，具体可以通过如下方式获取边特征向量对应的两个群组的照片质量：

分别基于k张照片和j张照片中各照片的曝光分数和倾斜分数获取各照片的置信概率；

以k张照片和j张照片的置信概率组成的向量作为当前边对应的两个群组的照片质量。

其中，置信概率的取值范围可以为[0,1]，置信概率的数值越大，表示照片质量越好。其中的曝光分数和倾斜分数可以用于反应照片的光照、人物姿态、遮挡物、图像采集质量等问题，例如，倾斜分数可基于照片中的脸部转角、人物姿态确定，照片中的人脸为侧脸时，其脸部转角很大，倾斜分数会很低；曝光分数可基于照片的光照、是否存在遮挡物、图像采集质量确定。

照片中存在侧脸和误检时，置信概率的数值会显著低于正常人脸，聚类用神经网络模型会不考虑将对该照片进行合并，可以被放入一个内部的噪音类中，不作为聚类结果显示给用户。

本发明实施例应用于人脸聚类时，照片质量指的是人脸的置信概率，可以通过人脸质量分类器得到。

在本发明各实施例的又一个具体示例中，当边特征向量包括对应的两个群组的照片整体一致性时，具体可以通过如下方式，获取边特征向量对应的两个群组的照片整体一致性：

分别计算各边特征向量对应的两个群组中各群组内部所有照片中任意两张照片之间的余弦距离，以各群组内部所有两张照片之间的余弦距离的中位数组成的向量作为两个群组的照片整体一致性。

例如，两个群组的照片整体一致性的计算公式为：

其中，Consistency(C)为边特征向量对应的两个群组中第一群组a的照片整体一致性；median表示中位数；d()为距离函数，本发明实施例中采用余弦距离；

表示第一群组a中的第i张照片，

表示第一群组a中的第j张照片，并且i≠j。

在上述图1所示实施例的操作104中，对满足合并条件的边特征向量对应的两个群组进行合并处理的操作，具体可以包括：

聚类用神经网络基于各边特征向量判断其对应的两个群组是否满足合并条件。例如，在一个具体示例中，可以在一条边特征向量对应的两个群组的相似度大于预设相似度阈值、且这两个群组的照片质量均大于预设照片质量阈值、且这两个群组的照片整体一致性大于预设一致性阈值时，认为这两个群组满足合并条件；否则，便认为这两个群组不满足合并条件；

分别对满足合并条件的两个群组进行合并。

否则，对于不满足合并条件的两个群组则不进行合并。

示例性地，具体可以基于各凝聚聚类算法，例如层次聚类、rank-order算法、GDL算法等，依次选取相似度最大的边特征向量，判断其对应的两个群组是否满足合并条件。

另外，在本发明上述各实施例的一个具体示例中，操作104具体可以通过如下方式实现：

分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量；

通过聚类用神经网络，按照相似度由大到小的顺序，对获取到的所有边特征向量进行排序，生成边表，该边表中包括各边特征向量及其对应的两个群组；

选取边表中排序最靠前的一条边特征向量作为当前边特征向量；

判断当前边特征向量对应的两个群组是否满足合并条件；

若当前边特征向量不满足合并条件，得到聚类结果；

若当前边特征向量对应的两个群组满足合并条件，对当前边特征向量对应的两个群组进行合并；

识别边表中是否存在下一条边特征向量；

若边表中存在下一条边特征向量，选取下一条边特征向量作为当前边特征向量，然后重新开始执行上述判断当前边特征向量对应的两个群组是否满足合并条件的操作；

否则，若边表中不存在下一条边特征向量，识别当前状态下的群组数量是否大于1；

若当前状态下的群组数量大于1，则还需进一步判断当前状态下是否还有满足合并条件的群组，因此重新开始执行上述分别根据各照片的综合特征，获取当前状态下任意两个群组之间边特征向量的操作；

否则，若当前状态下的群组数量不大于1，即：当前状态下只剩一个群组，得到聚类结果。

或者，在本发明上述各实施例的另一个具体示例中，操作104具体也可以通过如下方式实现：

从获取到的所有边特征向量中选取两个群组的相似度大于预设相似度阈值的边特征向量组成边队列，该边队列中包括各边特征向量及其对应的两个群组；

分别以边队列中的各边特征向量作为当前边特征向量，基于当前边特征向量对当前边特征向量对应的两个群组进行合并处理；

识别当前状态下的群组数量是否大于1；

若当前状态下的群组数量大于1，则还需进一步判断当前状态下是否还有满足合并条件的群组，因此重新开始执行上述分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量的操作；

进一步地，在上述实施例中，判断一条边特向量对应的两个群组是否满足合并条件之后，还可以根据该边特征向量对应的两个群组中各照片标注的类别信息对应的正确合并处理决策，识别对该边特征向量对应的两个群组是否满足合并条件的判断是否正确；在对该边特征向量对应的两个群组是否满足合并条件的判断错误时，将该边特征向量和对应的正确合并处理决策加入训练数据集中，以便后续利用该训练数据集对聚类用神经网络进行训练。

图2为本发明聚类用神经网络的训练方法另一个实施例的流程图。如图2所示，该实施例聚类用神经网络的训练方法包括：

202，分别提取当前相册中各照片的综合特征。

其中，综合特征包括人脸特征和辅助特征，辅助特征例如可以包括但不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息等。各照片预先标注有类别信息，基于各照片标注的类别信息，可以获知各照片的正确分类结果，或者，也可以预先设置各照片的正确分类结果。

具体地，当前相册作为模拟训练相册，具体可以是一个或多个。模拟训练相册包括多个相册时，则在本发明各训练方法实施例中，可以依次选取一个相册或者多个相册中的部分相册作为当前相册，执行本发明训练方法实施例的流程，也可以同时针对全部的多个相册，执行本发明训练方法实施例的流程，基于全部模拟训练相册训练聚类用神经网络。

204，分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并通过聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。

其中，每个群组包括至少一张照片。初始状态下，各照片分别为一个群组。边特征向量包括该边特征向量对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项。

206，获取上述聚类结果的回报函数值。

其中，回报函数值由短期回报函数值和/或长期回报函数值获得。

短期回报函数值用于表示对所有边特征向量对应的两个群组是否满足合并条件的判断正确的程度，长期回报函数值用于表示聚类结果与正确分类结果之间的差异，其中的正确分类结果由各照片标注的类别信息确定、或预先设置。

208，根据聚类结果的回报函数值，利用训练数据集对聚类用神经网络进行训练，直至满足预设条件。

在其中一个具体示例中，操作208中具体可以通过如下方式获取聚类结果的回报函数值：

分别根据对各边特征向量对应的两个群组是否满足合并条件的判断是否正确，获取各判断的短期回报函数值；以及基于上述聚类结果与正确分类结果之间的差异，获取上述聚类结果的长期回报函数值；

根据各判断的短期回报函数值、聚类结果的长期回报函数值、以及上述短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得上述聚类结果的回报函数值。

例如，具体可以通过如下公式计算聚类结果的回报函数值：R-R{_short}+βR{_long}

其中，R为回报函数值；β为预设配比系数，用于调整短期回报函数值和长期回报函数值的比例；R_{long}为长期回报函数值；R_{short}为短期回报函数值、实际应用中预设配比系数β可以根据短期回报值和长期回报值的作用大小进行设定，通常情况下短期回报函数值的作用大于长期回报值，因此预设配比系数β的取值可以设置为0.1～0.5之间的一个数值。本发明人经过实验发现，预设配比系数β的取值为0.1时，训练得到的聚类用神经网络的表现性能较好。在本示例中，通过回报函数值表示出聚类结果与正确分类结果的差异，因此，可以基于回报函数值对聚类用神经网络进行训练。

进一步地，具体可以通过如下方式获取各判断的短期回报函数值：

分别由各边特征向量对应的两个群组是否满足合并条件的判断与表示该判断是否正确的监督值之间的乘积，获得该判断的短期回报函数值；其中的监督值包括判断正确监督值和判断错误监督值。

例如，短期回报函数值的计算公式可以表示为：

R_{shortt}＝y(a)(w^Tφ(s)+b)

其中，β_{short}为短期回报函数值，(w^Tφ(s)+b)为是否满足合并条件的判断；y(a)为监督值；具体的，y(a)＝1表示判断正确监督值，γ(a)＝-1表示判断错误监督值；φ(s)为边特征向量，w为聚类用神经网络的权重矩阵，b为聚类用神经网络的偏移量，(w，b)为聚类用神经网络的参数。具体应用中，可以设置所有噪声类照片与其他非噪声类照片之间的监督值均为-1，即：所有噪声类照片均不应与其他非噪声类照片合并，这样就避免了将噪声类照片，例如路人人脸等非目标人脸等，被聚成一个小类。

本发明实施例在聚类用神经网络的训练过程中，可以根据相册中各照片标注的类别信息获知对两个群组的合并判断是否正确，获取用于表示对所有边特征向量对应的两个群组是否满足合并条件的判断正确的程度的短期回报函数值，参与聚类用神经网络的训练，在聚类用神经网络的训练过程中使用了监督学习方法，相比于其它无监督学习的算法，可以自适应地学习聚类用神经网络的参数值，使得训练好的聚类用神经网络的参数值对于人的依赖比较低，而且对参数阈值的鲁棒性更强，可以提升面对侧脸和误检时的表现效果。

另外，具体可以通过如下方式获取长期回报函数值：

获取从上述聚类结果到正确分类结果需要进行的操作及其操作量；

根据上述需要进行的操作及其操作量获取长期回报函数值。

其中的操作可以包括向一个群组添加照片的添加操作、从一个群组移除照片的移除操作和/或不同群组之间的合并操作。在具体计算长期回报函数值时，可以对不同操作设定不同权重值。通过大量试验，本发明人发现，移除操作时间成本是添加操作的6倍，合并操作和添加操作时间成本相似。由此，在一个具体示例中，设定[添加,移除,合并]的权重值分别是[1,6,1]，此时，如果从聚类结果到正确分类结果需要进行的操作及其操作量分别为：10次删除，20次添加，10次合并，那么长期回报函数值＝20+10*6+10＝90，长期回报函数值越小，表示聚类结果越接近正确分类结果，说明聚类用神经网络的聚类效果越好。

短期回报函数值反映了在当前分割下被推荐的两个群组应该被合并的程度。而长期回报函数值则更注重此次合并对结果的长远影响。本发明实施例在长期回报函数中引入了“操作数”这一标准，用来衡量从当前状态到正确分类结果的目标分割状态需要的最少操作量。长期回报函数为聚类用神经网络提供了一个全局意识，在合并过程中更加关注当前边特征向量的合并带来的后续影响，在判断是否合并时更加谨慎。例如，除了高置信度和低置信度的群组，中间会存在大量的难以界定的群组对出现，此时就需要判断合并当前群组对后续带来的风险如何，根据风险与回报函数值来决定是否合并这两个群组。本发明实施例中，利用长期回报函数来度量聚类结果好坏，长期回报函数值越大，聚类结果越不好，聚类算法的性能越低下。本发明实施例提供了一种用于客观度量聚类结果好坏的度量方案。

本发明实施例构建了一个崭新的人脸聚类用神经网络，该聚类用神经网络可以基于已知结果的模拟相册中学习聚类策略，经模仿生成相册再通过逆向增强学习得到该聚类策略。本发明实施例通过短期回报函数值和/或长期回报函数来决定聚类用神经网络的回报函数值。短期回报函数值可以依据是否对两个群组进行合并的判断的表现给出，可以基于模仿学习的框架，通过逆向增强学习的方法来确定每一步判断的回报；长期回报函数值则根据当前相册的聚类结果(即：相册内照片的分割状态)到目标分割状态(即：正确分类结果)的表现给出。本发明实施例对的回报函数设计有效地解决了噪音及误检对聚类用神经网络的影响，并且经验证在开放真实相册中表现良好。

另外，在本发明上述各训练方法实施例的又一个具体示例中，上述操作208具体可以包括：

判断聚类结果的回报函数值与预设阈值之间的差值是否满足预设条件；

若不满足预设条件，聚类用神经网络学习训练数据集，以对聚类用神经网络的参数值进行调整，然后重新开始执行如上述操作104或204中对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果的操作。

另外，还可以以聚类用神经网络的训练次数作为预设条件，在聚类用神经网络的训练次数达到预设次数时，满足预设条件，聚类用神经网络训练完成；否则，若聚类用神经网络的训练次数未达到预设次数，继续对聚类用神经网络进行迭代训练。

进一步地，在本发明聚类用神经网络的训练方法又一个实施例中，还可以包括：

若一个相册中对两个群组是否满足合并条件的判断错误的次数达到预设错误次数值，则重新对该相册进行训练，即：聚类用神经网络学习训练数据集，对该聚类用神经网络的参数值进行调整，然后重新执行上述各实施例操作104或204中通过聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果的操作。

图3为本发明聚类用神经网络的训练方法一个应用实施例的流程图。该实施例中，以多个模拟训练相册、每个模拟训练相册分别包括多张照片、依次选取一个模拟训练相册参与训练为例，对本发明各实施例的训练方法进行进一步说明，而非对本发明实施例的限制。本发明技术人员基于本发明实施例的记载，可以知悉一次选取多个或全部模拟训练相册参与训练的实现方式。各模拟训练相册中的照片预先标注有类别信息，各模拟训练相册设置有正确分类结果，初始状态下，每张照片分别为一个群组，即：每张照片各自属于一个分类。如图3所示，该实施例的聚类用神经网络的训练方法的应用实施例包括：

302，按预设顺序选取一个模拟训练相册作为当前相册。

304，分别提取当前相册中各照片的综合特征。

其中，综合特征包括人脸特征和辅助特征，辅助特征例如可以包括但不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息等。

306，分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量。

其中，边特征向量包括该边特征向量对应的两个群组的相似度、照片质量和照片整体一致性。

308，通过聚类用神经网络，按照相似度由大到小的顺序，对所有边特征向量进行排序，生成边表，该边表中包括各边特征向量及其对应的两个群组。

假设当前相册中包含P张人脸，则人脸之间存在P*(P-1)/2条边特征向量，利用各照片中的人脸特征和辅助特征，可以将每条边特征向量的相似度标记为一个分数，分数的取值区间为[0,1]，将这些边特征向量按照分数的取值进行排序，得到一个相似度从大到小排列的一个边表。

310，选取边表中排序最靠前的一条边特征向量作为当前边特征向量。

选取当前边特征向量后，可以将该当前边特征向量从边表中删除，以便于下次可以方便的选取边表中排序最靠前的一条边特征向量作为当前边特征向量。

312，判断当前边特征向量对应的两个群组是否满足合并条件。

示例性地，可以利用随机森林或线性模型判断当前边特征向量对应的两个群组是否满足合并条件。

若当前边特征向量对应的两个群组满足合并条件，执行操作314。否则，若当前边特征向量对应的两个群组不满足合并条件，不对当前边特征向量对应的两个群组进行合并，执行操作320。

314，对当前边特征向量对应的两个群组进行合并。

316，根据当前边特征向量对应的两个群组中各照片标注的类别信息，识别对当前边特征向量对应的两个群组是否满足合并条件的判断是否正确，获取各判断的短期回报函数值。

以及若对当前边特征向量对应的两个群组是否满足合并条件的判断正确，执行操作320。否则，若对当前边特征向量对应的两个群组是否满足合并条件的判断错误，执行操作318。

318，将当前边特征向量和由当前边特征向量对应的两个群组中各照片标注的类别信息确定的正确合并处理决策加入训练数据集中。

320，识别边表中是否存在下一条边特征向量。

若边表中存在下一条边特征向量，执行操作322。

322，选取下一条边特征向量作为当前边特征向量，然后执行操作312。

否则，若边表中不存在下一条边特征向量，执行操作324。

324，识别当前状态下的群组数量是否大于1。

若当前状态下的群组数量大于1，则还需进一步判断当前状态下是否还有满足合并条件的群组，因此执行上述操作306。

否则，若当前状态下的群组数量不大于1，即：当前状态下只剩一个群组，得到聚类结果，执行操作326。

326，基于上述聚类结果与正确分类结果之间的差异，获取上述聚类结果的长期回报函数值。

328，根据各判断的短期回报函数值、聚类结果的长期回报函数值、以及上述短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得上述聚类结果的回报函数值。

330，根据聚类结果的回报函数值，利用当前模拟相册训练过程中获得的训练数据集对聚类用神经网络进行训练，直至满足预设条件。

332，识别是否存在下一个模拟训练相册。

若存在下一个模拟训练相册，执行操作334。否则，若不存在下一个模拟训练相册，所有模拟训练相册均参与了聚类用神经网络的训练，执行操作336。

334，选取下一个模拟训练相册作为当前相册，执行操作304。

336，聚类用神经网络训练完成，输出聚类用神经网络的参数及其参数值。

图4为本发明聚类用神经网络的训练装置一个实施例的结构示意图。该实施例的训练装置可以用于实现本发明上述任一实施例聚类用神经网络的训练方法。如图4所示，该实施例聚类用神经网络的训练装置包括：特征提取模块402，获取模块404，聚类用神经网络406和训练模块408。其中：

特征提取模块402，用于分别提取各照片的综合特征。

其中，各照片预先标注有类别信息，基于各照片标注的类别信息，可以获知各照片的正确分类结果，或者，也可以预先设置各照片的正确分类结果。具体地，各照片具体可以是单独分布的照片，也可以是一个或多个相册中的照片，此时的相册作为模拟训练相册。综合特征包括人脸特征。

获取模块404，用于分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量。

聚类用神经网络406，用于对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。其中，每个群组包括至少一张照片。初始状态下，各照片分别为一个群组。

示例性地，聚类用神经网络406基于当前边的特征向量对边对应的两个群组进行合并处理时，具体可用于基于各边特征向量判断其对应的两个群组是否满足合并条件；以及分别对满足合并条件的两个群组进行合并。

训练模块408，用于基于各照片标注的类别信息和上述聚类结果，对聚类用神经网络进行训练。

基于本发明上述实施例提供的聚类用神经网络的训练装置，每次只针对两个群组考虑是否进行合并，相对于传统人脸聚类算法同时对所有N个群组整体进行判断、判断空间复杂度高达O(N^2)，将判断空间从O(N^2)减少到二值空间，降低了聚类算法的复杂度，提升了聚类性能。

在图4所示训练装置实施例中，综合特征还可以包括辅助特征，该辅助特征例如可以包括但不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息(EXIF)等。其中，拍摄信息例如可以包括但不限于以下任意一种或多种：拍摄地理位置、拍摄时间、拍摄设备等。基于各照片的综合特征，包括人脸特征和服饰特征、场景特征、拍摄信息等辅助特征，来获取任意两个群组之间的边特征向量，包括边对应的两个群组的相似度、两个群组的照片质量和两个群组中照片的整体一致性，来考虑是否对两个群组的照片进行合并，由于对照片进行聚类时还同时利用了照片的辅助特征而非单独的人脸特征，相对于只基于人脸关键点的相似度进行聚类的传统聚类算法，提高了聚类结果的准确性，面对侧脸和误检时的表现效果较好。

另外，边特征向量具体可以包括该边特征向量对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项。基于两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项，而非只基于照片之间的相似度，来考虑是否对两个群组的照片进行合并，可以避免由于照片中存在侧脸、人脸图像质量较差导致不同人由于一些质量较差的图像被聚类到一起，也避免了由于光照、人物姿态、遮挡物、图像采集质量等问题导致的误检问题，提高了聚类用神经网络对聚类结果的准确性，相对于现有传统人脸聚类算法在面对侧脸和误检时具有较好的表现性能。

图5为本发明聚类用神经网络的训练装置另一个实施例的结构示意图。如图5所示，与图4所示实施例的训练装置相比，该实施例聚类用神经网络的训练装置中，训练模块具体包括获取模块502和训练模块504。其中：

获取子模块502，用于获取聚类结果的回报函数值，该回报函数值由短期回报函数值和/或长期回报函数值获得。其中，短期回报函数值用于表示对所有边对应的两个群组是否满足合并条件的判断正确的程度，长期回报函数值用于表示上述聚类结果与正确分类结果之间的差异，该正确分类结果由各照片标注的类别信息确定。

训练子模块504，用于根据聚类结果的回报函数值，利用训练数据集对聚类用神经网络进行训练。其中的训练数据集包括对是否满足合并条件判断错误的两个群组之间的边的特征向量和对应的正确合并处理决策。

在其中一个具体示例中，获取子模块502具体可用于：

分别根据对各边特征向量对应的两个群组是否满足合并条件的判断是否正确，获取各判断的短期回报函数值；以及基于聚类结果与正确分类结果之间的差异，获取聚类结果的长期回报函数值；以及

根据短期回报函数值、长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得聚类结果的回报函数值。

由于图4～图5所示任一实施例的训练装置均可用于实现本发明上述任一实施例聚类用神经网络的训练方法，因此对训练装置实施例中各构成模块、模块的实现方案与上述聚类用神经网络的训练方法实施例的相应部分一致，具体可参考上述各聚类用神经网络的训练方法实施例的对应部分，此处不再详述。

图6为本发明聚类方法一个实施例的流程图。如图6所示，该实施例的聚类方法包括：

602，分别提取各照片的综合特征。

其中，综合特征包括人脸特征。

具体地，各照片具体可以是单独分布的照片，也可以是一个或多个相册中的照片。

604，分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并通过聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。

基于本发明上述实施例提供的聚类方法，分别基于各照片的综合特征来获取任意两个群组之间的边特征向量，包括对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项，并基于聚类用神经网络分别对满足合并条件的各边特征向量对相应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。由于每次只针对两个群组考虑是否进行合并，相对于传统人脸聚类算法同时对所有N个群组整体进行判断、判断空间复杂度高达O(N^2)，将判断空间从O(N^2)减少到二值空间，降低了聚类算法的复杂度，提升了聚类性能。

另外，在本发明聚类方法的另一个实施例中，通过图6中操作6102提取的各照片的综合特征还可以包括辅助特征，该辅助特征例如可以包括但不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息等。其中，拍摄信息例如可以包括但不限于以下任意一种或多种：拍摄地理位置、拍摄时间、拍摄设备等。

本发明聚类方法实施例中，基于各照片的综合特征，包括人脸特征和服饰特征、场景特征、拍摄信息等辅助特征，来获取任意两个群组之间的边特征向量，包括边对应的两个群组的相似度、两个群组的照片质量和两个群组中照片的整体一致性，来考虑是否对两个群组的照片进行合并，由于对照片进行聚类时还同时利用了照片的辅助特征而非单独的人脸特征，相对于只基于人脸关键点的相似度进行聚类的传统聚类算法，提高了聚类结果的准确性，面对侧脸和误检时的表现效果较好，例如，现有的人脸聚类算法对于图片中小孩、侧脸、图片质量较差的照片中的目标区分度不是很大，本发明实施例基于照片的综合特征进行聚类，有效改善了照片中的目标区分度。

其中，各照片的综合特征也可以以特征向量表示，为与边特征向量相区分，此处将表示照片的综合特征的特征向量称为综合特征向量。综合特征向量的格式可以预先设置，例如，在一个具体示例中，综合特征向量的格式为：人脸特征，衣服特征，场景特征，拍摄地理位置，拍摄时间，拍摄设备。拍摄信息包括拍摄地理位置时，可以将该拍摄地理位置的经纬度坐标归一化后记录到综合特征向量中的相应位置；拍摄信息包括拍摄时间时，可以将该拍摄时间按照预设方式映射为一组数字记录到综合特征向量中的相应位置；拍摄信息包括拍摄设备时，可以将该拍摄设备的名称、型号等按照预设格式记录到综合特征向量中的相应位置。

另外，在本发明聚类方法的又一个实施例中，边特征向量具体可以包括该边特征向量对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项。

在该实施例中，基于两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项，而非只基于照片之间的相似度，来考虑是否对两个群组的照片进行合并，可以避免由于照片中存在侧脸、人脸图像质量较差导致不同人由于一些质量较差的图像被聚类到一起，也避免了由于光照、人物姿态、遮挡物、图像采集质量等问题导致的误检问题，提高了聚类用神经网络对聚类结果的准确性，相对于现有传统人脸聚类算法在面对侧脸和误检时具有较好的表现性能。

在本发明各聚类方法实施例的一个具体示例中，当边特征向量包括对应的两个群组的相似度时，具体可以通过如下方式获取边特征向量对应的两个群组的相似度：

基于j张照片中的每张照片计算

其中,

之后再计算所有

和

的中位值，即可得到第一群组a和第二群组b的相似度。

在本发明各聚类方法实施例的另一个具体示例中，当边特征向量包括对应的两个群组的照片质量时，具体可以通过如下方式获取边特征向量对应的两个群组的照片质量：

照片中存在侧脸和误检时，置信概率的数值会显著低于正常人脸，聚类用神经网络模型会不考虑将对该照片进行合并，可以被放入一个内部的噪音类中，使得噪音类照片不作为聚类结果显示给用户。

本发明实施例应用于人脸聚类时，照片质量指的是人脸的置信概率，可以通过人脸质量分类模块得到。

在本发明各聚类方法实施例的又一个具体示例中，当边特征向量包括对应的两个群组的照片整体一致性时，具体可以通过如下方式，获取边特征向量对应的两个群组的照片整体一致性：

例如，两个群组的照片整体一致性的计算公式为：

表示第一群组a中的第i张照片，

表示第一群组a中的第j张照片，并且i≠j。

图7为本发明聚类方法另一个实施例的流程图。如图7所示，该实施例的聚类方法包括：

702，分别提取当前相册中各照片的综合特征。

其中，综合特征包括人脸特征和辅助特征，辅助特征例如可以包括但不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息等。该拍摄信息例如可以包括但不限于以下任意一种或多种：拍摄地理位置、拍摄时间、拍摄设备等。具当前相册可以是一个，也可以是多个。

704，分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量。

706，通过聚类用神经网络，从获取到的所有边特征向量中，依次选取一条边特征向量作为当前边特征向量，基于当前边特征向量判断当前边特征向量对应的两个群组是否满足合并条件。

若当前边特征向量对应的两个群组满足合并条件，执行操作708。否则，若当前边特征向量对应的两个群组不满足合并条件，执行操作710。

具体地，在边特征向量对应的两个群组满足以下条件时，认为这两个群组满足合并条件：

该边特征向量对应的两个群组的相似度大于预设相似度阈值、且这两个群组的照片质量均大于预设照片质量阈值、且这两个群组的照片整体一致性大于预设一致性阈值。

708，对当前边特征向量对应的两个群组进行合并。

710，识别获取到的所有边特征向量中，是否还有未被选取的边特征向量。

若获取到的所有边特征向量中，还有未被选取的边特征向量，返回执行操作706，以便依次选取下一条边特征向量作为当前边特征向量，基于当前边特征向量判断当前边特征向量对应的两个群组是否满足合并条件。否则，若所有边特征向量均被选取过，认为当前相册中所有满足合并条件的群组均被合并，得到聚类结果，执行712。

712，输出聚类结果。

在本发明聚类方法的又一个实施例中，在上述图7所示实施例的操作704之后，还可以按照相似度由大到小的顺序，对所有边特征向量进行排序，生成边表，该边表中包括各边特征向量及其对应的两个群组。则相应地，该实施例中，操作706～710具体可以通过如下方式实现：

判断当前边特征向量对应的两个群组是否满足合并条件；

若当前边特征向量不满足合并条件，得到聚类结果；

识别边表中是否存在下一条边特征向量；

若边表中存在下一条边特征向量，选取下一条边特征向量作为当前边特征向量，然后重新开始执行上述操作706中判断当前边特征向量对应的两个群组是否满足合并条件的操作；

若当前状态下的群组数量大于1，则还需进一步判断当前状态下是否还有满足合并条件的群组，因此重新开始执行上述操作704；

或者，在本发明聚类方法的再一个实施例中，操作706～710具体也可以通过如下方式实现：

识别当前状态下的群组数量是否大于1；

在本发明上述各训练方法实施例或者聚类方法实施例中，各照片的每次合并操作分别对应一个状态(States)，可以记录各照片当前的分割状态(即：聚类结果)和群组选取历史记录。在每个状态选取一对群组(Ca,Cb)，如果根据判断结果对这一对群组(Ca,Cb)进行合并，则分割状态变化，转移到下一状态。如果根据判断结果不对这一对群组(Ca,Cb)进行合并，分割状态不变，但是选取的一对群组(Ca,Cb)也记录到群组选取历史记录中，以免相同群组再次被选取。

进一步地，再参见图7，在本发明聚类方法的又一个实施例中，得到聚类结果之后，还可以包括：

711，从聚类结果中过滤掉噪声类照片。

其中，噪声类照片例如可以包括但不限于以下任意一种或多种：照片质量低于预设阈值的照片，一个群组中仅包括的一张照片，多个相册的聚类结果中仅有一个群组包括的、拍摄信息相同、且数量小于预设数值的多张照片。

则相应地，操作712中输出过滤掉噪声类照片后的聚类结果。

其中，如果照片的图像质量不好或者全是侧脸的话，人脸特征会非常相似，传统算法会将这些图像聚集到一起，同时会将正常的人脸也聚类到该错误的分类中，本发明实施例通过照片质量低于预设阈值的照片进行过滤，便可避免面对侧脸时的错误聚类或者误检。真实用户相册中相册主人和相关人员人脸的占比在40％～70％左右，剩下的都是路人及侧脸，如果聚类结果中某个群组中仅包括一张照片，则该照片可能是非目标人脸；另外，由于连拍原因，用户提供的照片中经常会出现路人被连续拍入多张照片中，此时，包括这些非目标人脸的照片的拍摄信息相同、且此类照片的数量通常不多，本发明实施例通过过滤一个群组中仅包括的一张照片，以及多个相册的聚类结果中仅有一个群组包括的、拍摄信息相同、且数量小于预设数值的多张照片，便可以过滤掉此类非目标人脸的聚类结果，使其不呈现给用户，改善了用户感受。

图8为本发明聚类方法一个应用实施例的流程图。如图8所示，该实施例的聚类方法的应用实施例包括：

802，分别提取待聚类相册中各照片的综合特征。

804，分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量。

806，通过聚类用神经网络，按照相似度由大到小的顺序，对所有边特征向量进行排序，生成边表，该边表中包括各边特征向量及其对应的两个群组。

808，选取边表中排序最靠前的一条边特征向量作为当前边特征向量。

810，判断当前边特征向量对应的两个群组是否满足合并条件。

若当前边特征向量对应的两个群组满足合并条件，执行操作812。否则，若当前边特征向量对应的两个群组不满足合并条件，不对对当前边特征向量对应的两个群组进行合并，执行操作814。

812，对当前边特征向量对应的两个群组进行合并。

814，识别边表中是否存在下一条边特征向量。

若边表中存在下一条边特征向量，选取下一条边特征向量作为当前边特征向量，然后重新开始执行操作810。否则，若边表中不存在下一条边特征向量，执行操作816。

816，识别当前状态下的群组数量是否大于1。

若当前状态下的群组数量大于1，则还需进一步判断当前状态下是否还有满足合并条件的群组，因此执行上述操作804。否则，若当前状态下的群组数量不大于1，即：当前状态下只剩一个群组，得到聚类结果，执行操作818。

818，输出聚类结果。

图9为本发明聚类装置一个实施例的结构示意图。该实施例的聚类装置可以用于实现本发明上述任一实施例聚类方法。如图9所示，该实施例聚类装置包括：特征提取模块902，获取模块904，聚类用神经网络906和输出模块908。其中：

特征提取模块902，用于分别提取各照片的综合特征。其中的综合特征包括人脸特征。

获取模块904，用于分别根据各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量。其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组。

聚类用神经网络906，用于分别对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足合并条件的群组均被合并，获得聚类结果。

示例性地，聚类用神经网络906基于当前边特征向量对满足合并条件的边特征向量对应的两个群组进行合并处理时，具体用于：分别基于各边特征向量判断各边特征向量对应的两个群组是否满足合并条件；以及分别对满足合并条件的边特征向量对应的两个群组进行合并。

输出模块908，用于输出聚类结果。

基于本发明上述实施例提供的聚类装置，每次只针对两个群组考虑是否进行合并，相对于传统人脸聚类算法同时对所有N个群组整体进行判断、判断空间复杂度高达O(N^2)，将判断空间从O(N^2)减少到二值空间，降低了聚类算法的复杂度，提升了聚类性能。

在本发明聚类装置的另一个实施例中，特征提取模块902提取的综合特征还可以包括辅助特征，钙辅助特征例如可以包括惨不限于以下任意一种或多种：服饰特征、场景特征、拍摄信息。

该实施例中，基于两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项，而非只基于照片之间的相似度，来考虑是否对两个群组的照片进行合并，可以避免由于照片中存在侧脸、人脸图像质量较差导致不同人由于一些质量较差的图像被聚类到一起，也避免了由于光照、人物姿态、遮挡物、图像采集质量等问题导致的误检问题，提高了聚类用神经网络对聚类结果的准确性，相对于现有传统人脸聚类算法在面对侧脸和误检时具有较好的表现性能。

在本发明聚类装置的又一个实施例中，边特征向量具体可以包括对应的两个群组的相似度、照片质量和照片整体一致性中的任意一项或多项。

图10为本发明聚类装置另一个实施例的结构示意图。如图10所示，与图9所示的实施例相比，该实施例的聚类装置还可以包括：

过滤模块910，用于获取聚类用神经网络获得的聚类结果中的噪声类照片，并从聚类结果中过滤掉噪声类照片。

相应地，该实施例中，输出模块908，具体用于输出过滤掉噪声类照片后的聚类结果。

本发明实施例还提供了一种电子设备，电子设备，该电子设备具体可以包括本发明上述任一实施例的聚类用神经网络的训练装置或者聚类装置。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图11所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1101，和/或一个或多个图像处理器(GPU)1113等，处理器可以根据存储在只读存储器(ROM)1102中的可执行指令或者从存储部分1108加载到随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。通信部1112可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器1102和/或随机访问存储器630中通信以执行可执行指令，通过总线1104与通信部1112相连、并经通信部1112与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，例如，分别提取各照片的综合特征；所述综合特征包括人脸特征所述各照片标注有类别信息；分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；基于所述各照片标注的类别信息和所述聚类结果，对所述聚类用神经网络进行训练。或如，分别提取各照片的综合特征；所述综合特征包括人脸特征；分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组。

此外，在RAM 1103中，还可存储有装置操作所需的各种程序和数据。CPU1101、ROM1102以及RAM1103通过总线1104彼此相连。在有RAM1103的情况下，ROM1102为可选模块。RAM1103存储可执行指令，或在运行时向ROM1102中写入可执行指令，可执行指令使处理器1101执行上述通信方法对应的操作。输入/输出(I/O)接口1105也连接至总线1104。通信部1112可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1111也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1111上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

需要说明的，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，例如，分别提取各照片的综合特征；所述综合特征包括人脸特征的指令所述各照片标注有类别信息；分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果的指令；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；基于所述各照片标注的类别信息和所述聚类结果，对所述聚类用神经网络进行训练的指令。或如，分别提取各照片的综合特征的指令；所述综合特征包括人脸特征；分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果的指令；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

如今是信息时代，用户通常在手机终端或者云端或多或少地会存储一些自己拍摄的照片。以往照片分类主要有这几种模式：时间戳分类、地理位置分类、相机信息分类等，或者用户自己为每张照片命名，通过名称检索。这些或多或少有些不便，尤其是当用户想得到出现某一个或某几个人的照片时，按照传统方法检索时十分不方便。基于本发明实施例，可以通过提取照片的人脸特征或进一步的辅助特征，经过精确的聚类过程，使每个人的脸被分到一类，再让用户标记此类名称，便可以通过相应人名或图片检索，甚至可以检索同时出现多个人的照片。

基于本发明实施例的聚类用神经网络，用户只需要将照片输入到聚类用神经网络中，聚类用神经网络会自动收集图片特征、拍摄信息等，根据用户需求智能输出聚类结果。

另外，本发明实施例还可以应用到场景聚类中，根据图片中不同的场景对图片进行分类。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种聚类用神经网络的训练方法，其特征在于，包括：

分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；所述边特征向量包括：对应的两个群组的相似度、照片质量和照片整体一致性；其中，获取两个群组的照片整体一致性，包括：分别计算两个群组中各群组内部所有照片中任意两张照片之间的余弦距离，以各群组内部所有两张照片之间的余弦距离的中位数组成的向量作为两个群组的照片整体一致性；

2.根据权利要求1所述的方法，其特征在于，所述综合特征包括人脸特征和辅助特征，所述辅助特征包括以下任意一种或多种：服饰特征、场景特征、拍摄信息。

3.根据权利要求1所述的方法，其特征在于，获取两个群组的相似度，包括：

从两个群组中的第一群组选取与第二群组的余弦距离最近的k张照片，分别计算第二群组中各照片与所述k张照片中每张照片的余弦距离，获取第二群组中各照片与所述k张照片中每张照片的余弦距离的中位数作为所述k张照片中每张照片的相似度；以及从所述第二群组选取与第一群组的余弦距离最近的j张照片，分别计算第一群组中各照片与所述j张照片中每张照片的余弦距离，获取第一群组中各照片与所述j张照片中每张照片的余弦距离的中位数作为所述j张照片中每张照片的相似度；其中，k、j分别为大于或等于1的整数；

以所述k张照片和所述j张照片的相似度组成的向量作为边特征向量对应的两个群组的相似度。

4.根据权利要求3所述的方法，其特征在于，获取两个群组的照片质量，包括：

分别基于所述k张照片和所述j张照片中各照片的曝光分数和倾斜分数获取各照片的置信概率；

以所述k张照片和所述j张照片的置信概率组成的向量作为当前边对应的两个群组的照片质量。

5.根据权利要求1所述的方法，其特征在于，所述对满足合并条件的边特征向量对应的两个群组进行合并处理，包括：所述聚类用神经网络分别基于各边特征向量判断各边特征向量对应的两个群组是否满足合并条件；

分别对满足合并条件的边特征向量对应的两个群组进行合并。

6.根据权利要求5所述的方法，其特征在于，所述边特征向量对应的两个群组满足合并条件，包括：

所述边特征向量对应的两个群组的相似度大于预设相似度阈值、两个群组的照片质量均大于预设照片质量阈值、以及两个群组的照片整体一致性大于预设整体一致性阈值。

7.根据权利要求1至6任意一项所述的方法，其特征在于，获取当前状态下任意两个群组之间的边特征向量之后，还包括：

按照相似度由大到小的顺序对所有边特征向量进行排序，生成边表，所述边表中包括各边特征向量及其对应的两个群组；

所述对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果，包括：

选取所述边表中排序最靠前的一条边特征向量作为当前边特征向量；

判断当前边特征向量对应的两个群组是否满足合并条件；

若当前边特征向量对应的两个群组不满足合并条件，得到聚类结果；

识别所述边表中是否存在下一条边特征向量；

若所述边表中存在下一条边特征向量，选取下一条边特征向量作为当前边特征向量，执行所述判断当前边特征向量对应的两个群组是否满足合并条件的操作；

否则，若所述边表中不存在下一条边特征向量，识别当前状态下的群组数量是否大于1；

若当前状态下的群组数量大于1，执行所述分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量的操作；

否则，若当前状态下的群组数量不大于1，得到聚类结果。

8.根据权利要求1至6任意一项所述的方法，其特征在于，所述对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果，包括：

从所有边特征向量中选取两个群组的相似度大于预设相似度阈值的边特征向量组成边队列；

分别对边队列中满足合并条件的各边特征向量对应的两个群组进行合并处理；

识别当前状态下的群组数量是否大于1；

否则，若当前状态下的群组数量不大于1，得到聚类结果。

9.根据权利要求5所述的方法，其特征在于，判断各边特征向量对应的两个群组是否满足合并条件之后，还包括：

分别根据各边特征向量对应的两个群组中各照片标注的类别信息对应的正确合并处理决策，识别对各边特征向量对应的两个群组是否满足合并条件的判断是否正确；

将是否满足合并条件的判断错误的边特征向量和对应的正确合并处理决策加入训练数据集中。

10.根据权利要求9所述的方法，其特征在于，所述基于各照片标注的类别信息和所述聚类结果，对所述聚类用神经网络进行训练，包括：

获取所述聚类结果的回报函数值，所述回报函数值由短期回报函数值和/或长期回报函数值获得；所述短期回报函数值用于表示对所有边特征向量对应的两个群组是否满足合并条件的判断正确的程度，所述长期回报函数值用于表示所述聚类结果与正确分类结果之间的差异，所述正确分类结果由各照片标注的类别信息确定；

根据所述聚类结果的回报函数值，利用所述训练数据集对所述聚类用神经网络进行训练。

11.根据权利要求10所述的方法，其特征在于，获取所述聚类结果的回报函数值，包括：

分别根据对各边特征向量对应的两个群组是否满足合并条件的判断是否正确，获取各判断的短期回报函数值；以及基于所述聚类结果与所述正确分类结果之间的差异，获取所述聚类结果的长期回报函数值；

根据所述短期回报函数值、所述长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得所述聚类结果的回报函数值。

12.根据权利要求11所述的方法，其特征在于，分别根据对各边特征向量对应的两个群组是否满足合并条件的判断是否正确，获取各判断的短期回报函数值，包括：

分别由各边对应的两个群组是否满足合并条件的判断与表示该判断是否正确的监督值之间的乘积，获得该判断的短期回报函数值；其中，所述监督值包括判断正确监督值和判断错误监督值。

13.根据权利要求10所述的方法，其特征在于，获取长期回报函数值，包括：

获取从所述聚类结果到正确分类结果需要进行的操作及其操作量；所述操作包括照片的添加操作、移除操作和/或不同类照片所属群组的合并操作；

根据所述需要进行的操作及其操作量获取长期回报函数值。

14.根据权利要求10所述的方法，其特征在于，根据所述聚类结果的回报函数值，利用所述训练数据集对所述聚类用神经网络进行训练，包括：

判断所述聚类结果的回报函数值与预设阈值之间的差值是否满足预设条件；

若不满足所述预设条件，所述聚类用神经网络学习所述训练数据集，以对所述聚类用神经网络的参数值进行调整，然后执行所述基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理的操作；所述聚类用神经网络的参数包括权重矩阵和偏移量。

15.根据权利要求14所述的方法，其特征在于，还包括：

响应于一个相册中对两个群组是否满足合并条件的判断错误的次数达到预设错误次数值，所述聚类用神经网络学习所述一个相册对应的训练数据集，以对所述聚类用神经网络的参数值进行调整，然后针对所述一个相册，执行所述基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理的操作。

16.一种聚类方法，其特征在于，包括：

分别提取各照片的综合特征；所述综合特征包括人脸特征；

分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量，并基于聚类用神经网络，对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；所述边特征向量包括：对应的两个群组的相似度、照片质量和照片整体一致性；

其中，所述获取两个群组的照片整体一致性，包括：

分别计算两个群组中各群组内部所有照片中任意两张照片之间的余弦距离，以各群组内部所有两张照片之间的余弦距离的中位数组成的向量作为两个群组的照片整体一致性。

17.根据权利要求16所述的方法，其特征在于，所述综合特征包括人脸特征和辅助特征，所述辅助特征包括以下任意一种或多种：服饰特征、场景特征、拍摄信息。

18.根据权利要求16所述的方法，其特征在于，获取两个群组的相似度，包括：

19.根据权利要求18所述的方法，其特征在于，获取两个群组的照片质量，包括：

20.根据权利要求16至19任意一项所述的方法，其特征在于，所述对满足合并条件的边特征向量对应的两个群组进行合并处理，包括：

所述聚类用神经网络分别基于各边特征向量判断各边特征向量对应的两个群组是否满足合并条件；

21.根据权利要求20所述的方法，其特征在于，所述边特征向量对应的两个群组满足合并条件，包括：

22.根据权利要求16至19任意一项所述的方法，其特征在于，获取当前状态下任意两个群组之间的边特征向量之后，还包括：

判断当前边特征向量对应的两个群组是否满足合并条件；

识别所述边表中是否存在下一条边特征向量；

若所述边表中存在下一条边特征向量，选取下一条边特征向量作为当前边特征向量，执行所述选取所述边表中排序最靠前的一条边特征向量作为当前边特征向量的操作；

否则，若当前状态下的群组数量不大于1，得到聚类结果。

23.根据权利要求16至19任意一项所述的方法，其特征在于，所述对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，得到聚类结果，包括：

识别当前状态下的群组数量是否大于1；

否则，若当前状态下的群组数量不大于1，得到聚类结果。

24.根据权利要求16至19任意一项所述的方法，其特征在于，所述得到聚类结果之后，还包括：

从所述聚类结果中过滤掉噪声类照片；其中，所述噪声类照片包括以下任意一种或多种：照片质量低于预设阈值的照片，一个群组中仅包括的一张照片，多个相册的聚类结果中仅有一个群组包括的、拍摄信息相同、且数量小于预设数值的多张照片；

输出过滤掉噪声类照片后的聚类结果。

25.一种聚类用神经网络的训练装置，其特征在于，包括：

获取模块，用于分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量；所述边特征向量包括：对应的两个群组的相似度、照片质量和照片整体一致性；所述获取模块获取两个群组的照片整体一致性时，具体用于分别计算两个群组中各群组内部所有照片中任意两张照片之间的余弦距离，以各群组内部所有两张照片之间的余弦距离的中位数组成的向量作为两个群组的照片整体一致性；

聚类用神经网络，用于分别对满足合并条件的边特征向量对应的两个群组进行合并处理，直至所有满足所述合并条件的群组均被合并，获得聚类结果；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；

26.根据权利要求25所述的装置，其特征在于，所述综合特征包括人脸特征和辅助特征，所述辅助特征包括以下任意一种或多种：服饰特征、场景特征、拍摄信息。

27.根据权利要求25或26所述的装置，其特征在于，所述聚类用神经网络对满足合并条件的边特征向量对应的两个群组进行合并处理时，具体用于：

分别基于各边特征向量判断各边特征向量对应的两个群组是否满足合并条件；以及分别对满足所述合并条件的边特征向量对应的两个群组进行合并。

28.根据权利要求27所述的装置，其特征在于，所述训练模块包括：

获取子模块，用于获取所述聚类结果的回报函数值，所述回报函数值由短期回报函数值和/或长期回报函数值获得；所述短期回报函数值用于表示对所有边对应的两个群组是否满足合并条件的判断正确的程度，所述长期回报函数值用于表示所述聚类结果与正确分类结果之间的差异，所述正确分类结果由各照片标注的类别信息确定；

训练子模块，用于根据所述聚类结果的回报函数值，利用训练数据集对所述聚类用神经网络进行训练；所述训练数据集包括对是否满足合并条件判断错误的两个群组之间的边特征向量和对应的正确合并处理决策。

29.根据权利要求28所述的装置，其特征在于，所述获取模块，具体用于：

分别根据对各边特征向量对应的两个群组是否满足合并条件的判断是否正确，获取各判断的短期回报函数值；以及基于所述聚类结果与所述正确分类结果之间的差异，获取所述聚类结果的长期回报函数值；以及

30.一种聚类装置，其特征在于，包括：

获取模块，用于分别根据所述各照片的综合特征，获取当前状态下任意两个群组之间的边特征向量；其中，每个群组包括至少一张照片，初始状态下各照片分别为一个群组；所述边特征向量包括：对应的两个群组的相似度、照片质量和照片整体一致性；所述获取模块获取两个群组的照片整体一致性时，具体用于分别计算两个群组中各群组内部所有照片中任意两张照片之间的余弦距离，以各群组内部所有两张照片之间的余弦距离的中位数组成的向量作为两个群组的照片整体一致性；

输出模块，用于输出所述聚类结果。

31.根据权利要求30所述的装置，其特征在于，所述综合特征包括人脸特征和辅助特征，所述辅助特征包括以下任意一种或多种：服饰特征、场景特征、拍摄信息。

32.根据权利要求30所述的装置，其特征在于，所述聚类用神经网络对满足合并条件的边特征向量对应的两个群组进行合并处理时，具体用于：

分别基于各边特征向量判断各边特征向量对应的两个群组是否满足合并条件；以及

33.根据权利要求30至32任意一项所述的装置，其特征在于，还包括：

过滤模块，用于获取所述聚类结果中的噪声类照片，并从所述聚类结果中过滤掉噪声类照片；其中，所述噪声类照片包括以下任意一种或多种：照片质量低于预设阈值的照片，一个群组中仅包括的一张照片，多个相册的聚类结果中仅有一个群组包括的、拍摄信息相同、且数量小于预设数值的多张照片；

所述输出模块，具体用于输出过滤掉噪声类照片后的聚类结果。

34.一种电子设备，其特征在于，包括权利要求25至29任意一项所述的聚类用神经网络的训练装置或者权利要求30至33任意一项所述的聚类装置。