CN108228684B

CN108228684B - 聚类模型的训练方法、装置、电子设备和计算机存储介质

Info

Publication number: CN108228684B
Application number: CN201710384721.0A
Authority: CN
Inventors: 曹凯迪; 何悦; 李�诚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2020-11-27
Anticipated expiration: 2037-05-26
Also published as: CN108228684A

Abstract

本发明实施例公开了一种聚类模型的训练方法、装置、电子设备和计算机存储介质，其中方法包括：通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到所述新增照片的聚类结果，所述新增照片携带有类别标记；基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；根据所述聚类结果的回报函数值，对所述聚类模型进行训练。本发明实施例通过训练得到的聚类模型对新增照片和已有分类结果的初始状态相册中照片进行聚类，获得的聚类结果更接近人工分类结果，训练得到的聚类模型的聚类准确率更高。

Description

聚类模型的训练方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及计算机视觉技术，尤其是一种聚类模型的训练方法、装置、电子设备和计算机存储介质。

背景技术

当前的智能相册能够基于人脸识别技术对相册中的照片进行自动的标记与聚类。

但对于已完成聚类的智能相册，在实际应用中，用户会不断的增加新的照片，在将新增照片加入到已完成聚类的智能相册中的过程中，需要通过增量式聚类对新增照片与已聚类照片重新进行聚类。目前，一般将全部照片(包括新增照片和已聚类照片)重新进行聚类，以实现增量式聚类。然而，这样会丢失对前次聚类结果进行的修正信息，并且频繁重新进行聚类会造成资源浪费。

发明内容

本发明实施例提供一种用于训练聚类模型的技术方案。

根据本发明实施例的一个方面，提供的一种聚类模型的训练方法，包括：

通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到所述新增照片的聚类结果，所述新增照片携带有类别标记；

基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；

根据所述聚类结果的回报函数值，对所述聚类模型进行训练。

根据本发明实施例的另一个方面，提供的一种聚类模型的训练装置，包括：

聚类单元，用于通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到所述新增照片的聚类结果，所述新增照片携带有类别标记；

回报单元，用于基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；

训练单元，用于根据所述聚类结果的回报函数值，对所述聚类模型进行训练。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的聚类模型的训练装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述聚类模型的训练方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述聚类模型的训练方法的操作。

基于本发明上述实施例提供的聚类模型的训练方法、装置、电子设备和存储介质，通过聚类模型及已聚类照片对新增照片进行聚类，获得聚类结果，实现了对新增照片的聚类；基于聚类结果和类别标记计算聚类结果的回报函数值，得到的回报函数值能实现对聚类模型的训练，并使训练模型达到的聚类效果更接近人工分类结果；根据回报函数值对所述聚类模型进行训练，能够得到针对增量式聚类的聚类模型，该聚类模型针对增量式聚类的聚类准确率高。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明聚类模型的训练方法一个实施例的流程图。

图2为本发明聚类模型的训练方法另一个实施例的流程图。

图3为本发明聚类模型的训练方法又一个实施例的流程图。

图4为本发明聚类模型的训练方法还一个实施例的流程图。

图5为本发明聚类模型的训练装置一个实施例的结构示意图。

图6为本发明聚类模型的训练装置另一个实施例的结构示意图。

图7为本发明聚类模型的训练装置另一个实施例的结构示意图。

图8为本发明聚类模型的训练装置还一个实施例的结构示意图。

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、胖客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本发明聚类模型的训练方法一个实施例的流程图。如图1所示，该实施例方法包括：

103，通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到新增照片的聚类结果。

其中，新增照片携带有类别标记，对于训练过程中选择的新增照片和已聚类照片都是经过预先标注的，通过聚类模型获得的聚类结果通常包括：将已有标注的新增照片与已聚类照片合并，或部分合并，或基于新增照片重新聚合出一个类。

104，基于新增照片的聚类结果及类别标记，计算聚类结果的回报函数值。

其中，回报函数值由短期回报函数值和长期回报函数值获得；短期回报函数值用于表示在聚类处理过程中两类照片的合并操作是否正确，长期回报函数值用于表示聚类结果与人工分类结果之间的差异。将103得到的聚类结果与人工分类结果进行比较，此时存在两种情况，一种情况是，回报函数值在预设范围内，说明当前聚类模型性能比较好，不需要进一步训练；另一种情况是，回报函数值不在预设范围内，说明当前聚类模型性能较差，需要执行105对该聚类模型进行训练。

105，根据聚类结果的回报函数值，对聚类模型进行训练。

本实施例中训练得到的聚类算法，对新增照片和已聚类照片进行聚类处理，相对于将全部照片结合在一起重新执行一次聚类，本实施例所训练的聚类算法不会丢失用户对第一次聚类错误结果的修正信息，也不会产生大量的计算资源的浪费。

基于本发明上述实施例提供的聚类模型的训练方法，通过聚类模型及已聚类照片对新增照片进行聚类，获得聚类结果，实现了对新增照片的聚类；基于聚类结果和类别标记计算聚类结果的回报函数值，得到的回报函数值能实现对聚类模型的训练，并使训练模型达到的聚类效果更接近人工分类结果；根据回报函数值对所述聚类模型进行训练，能够得到针对增量式聚类的聚类模型，该聚类模型针对增量式聚类的聚类准确率高。

在本发明上述实施例的一个具体示例中，回报函数值由短期回报函数值和长期回报函数值获得；短期回报函数值用于表征在聚类处理过程中两类照片的合并操作是否正确，长期回报函数值用于表征聚类结果与人工分类结果之间的差异。

在本实施例中通过回报函数值来衡量一个聚类模型的聚类效果，当然，还可以采用现有技术中已知的其他指标来衡量聚类模型的聚类效果。

在本发明上述实施例的一个具体示例中，步骤103中所指聚类结果包括：将新增照片聚类到已聚类照片中的任意一个类别中；或将新增照片聚类到一个新增类别中。

本实施例实现了现有技术中的增量聚类方法无法实现的效果，针对新增照片，本实施例可以将其聚类到原有类别中，也可以将其聚类到一个新增类别中，使新增照片的聚类类别更准确，更符合增量式聚类的需求。

图2为本发明聚类模型的训练方法另一个实施例的流程图。如图2所示，该实施例方法在上述实施例的基础上，还包括：

201，按照第一预设策略从样本相册中抽取部分照片，作为已聚类照片；其中，样本相册中的照片均标注有类别信息。

其中，样本相册包括一个或多个相册，每个相册包括多张照片，样本相册中的各照片被预先标注类别信息。

202，按照第二预设策略，从样本相册中除部分照片之外的其他照片中，抽取至少一个照片作为新增照片。

本实施例中，通过获取被预先标注类别的照片作为已聚类照片和新增照片，可以直接获得对人工分类结果，以便将人工分类结果与聚类模型得到的聚类结果进行比较，进而获得聚类结果的回报函数值；其中，样本相册在聚类成一个或多个相册时，所基于的检测方法也有可能存在误检，保留误检结果，误检结果的标注类别为噪声类，在训练时误检结果不应该被聚类，保留误检结果，在训练聚类模型时，可以使聚类结果的性能大幅度提升。

在本发明上述实施例的一个具体示例中，201中按照第一预设策略从样本相册中抽取部分照片，作为已聚类照片，包括：

分别针对样本相册中的每个相册，按照预设概率进行抽样将抽样结果的总和作为所述已聚类照片；

此时预设概率可以为10％～80％，或其他预设概率，通过概率抽样可以使提取的图片具有更大的随机性，保证训练过程更接近真实情况。

或者，

基于样本相册中各照片对应的类别信息，按照长尾分布规则对样本相册中的照片进行抽样，将抽样结果作为所述已聚类照片；其中，该一部分照片中，各类别照片的数量比例呈长尾分布规则分布。长尾分布是重尾分布的一个子类型。而重尾分布(Heavy-taileddistribution)是一种概率分布模型，它的尾部比指数分布还要厚。在许多情况下，右边尾部的部分比较受到重视，但左边尾部比较厚，或是两边尾部都比较厚的状况，也被认为是一种重尾分布。在本实施例中基于长尾分布规则进行抽样时，首先获取到照片对应的类别信息，按照类别信息给定的不同分类对应的比例对不同分类的照片进行采样；而长尾分布就可以体现不同分类对应的比例。按照真实类别中会出现的长尾分别进行采样，例如：噪音图片在比例10％～30％内均匀采样，一个相册主用户在比例20％～50％，其余头像占比应相对较小，本示例中，通过概率抽取构成初始状态相册的照片，可以保证初始状态相册中的照片具有最大的随机性，更能模拟真实情况，以保证训练的到的聚类模型的聚类结果更接近人工分类结果。

图3为本发明聚类模型的训练方法又一个实施例的流程图。如图3所示，在上述各实施例的基础上，103具体可以包括：

31，分别针对新增照片中的两张照片之间的边，和新增照片与已聚类照片的两类照片中的两张照片之间的边，计算各边的距离。

计算两张照片之间距离时，先分别将两张图片抽象为向量，对两个向量计算距离，即得到两张图的距离，对两个向量计算距离可以采用计算余弦距离，也可以通过采用计算其他距离。

32，按照距离由小到大的顺序对所有边进行排序，生成边表。

其中，边表中包括各边及其对应的两张照片或两类照片、以及边的距离。对边按照距离由小到大进行排序获得的边表，在判断过程中按序判断边表中的边，即实现模仿人类习惯的从距离较近的边开始处理。

33，通过聚类模型判断边表中排序最靠前的边对应的两张照片或两类照片是否应该合并，如果是，执行34；否则，获得聚类结果，执行104。

34，对排序最靠前的边对应的两张照片或两类照片进行合并，执行33。

通过本实施例的判断将新增照片与初始状态相册中的照片进行聚类，得到的结果包括新增照片全部合并到初始状态相册中；新增照片部分合并到初始状态相册中，剩余的照片作为噪声照片存在；或新增照片单独聚类出一个新类，包括或不包括噪声照片；还有可能是所有新增照片都作为噪声照片，无法聚类。

对每两张图两两算一个距离，n张图可以有n(n-1)/2个距离，然后在图论里可以把这个建模成一张完全图，边属于图论中的术语，每两张图之间的边的长度可以看成计算出来的距离。图论(Graph Theory)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。

在本发明上述实施例的一个具体示例中，按照距离由小到大的顺序对所有边进行排序，生成边表之后，还可以包括：

将边表中，将对应的一张照片属于已聚类照片的边的排序，调整至对应的两张照片均属于已聚类照片的边之前，并对对应的一张照片属于已聚类照片的各边按照距离由小到大的顺序排序。

将一张图片与一个已聚合好的类别进行合并，与将两张图片进行合并相比较；前者判断是否合并时能够获得更多的信息，因而更容易做出正确的操作。因此，仅仅将可能相连的边按距离由小到大的顺序进行判断并不能实现最佳的聚类效果，在本示例中一张照片属于已聚类照片的边的排序调整到对应的两张照片均属于已聚类照片的边前面，以保证先处理前面的边；通过改变边表中边的顺序，使聚类模型可以先解决简单的问题，以保证聚类结果的准确率更高。比如新加入的一张图片是原有某个类别的年龄跨度较大的照片，通过本实施例能够在边表中将其对应的边的顺序提前，通过聚类模型被正确聚类，实现了现有技术中重新做聚类的方法无法实现的技术效果。

在本发明上述实施例的一个具体示例中，基于新增照片的人工分类结果与聚类结果，计算聚类结果的回报函数值，包括：

比较新增照片的人工分类结果与聚类结果，分别获取对各边的操作对应的短期回报函数值、以及长期回报函数值；

根据短期回报函数值、长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得该聚类结果的回报函数值。

在具体示例中，回报函数的计算公式为：R＝R_{short}+βR_{long}

其中，β为预设配比系数，用于调整短期回报值和长期回报值的比例；R_{long}为长期回报函数值；R_{short}为短期回报函数值；R为回报函数值；预设配比系数是根据短期回报值和长期回报值的作用大小进行设定的，通常情况下短期回报值的作用大于长期回报值，因此预设配比系数的取值可以设置为0.1～0.5之间，而经过实验发现预设配比系数取值为0.1时，训练的聚类模型较好。在本示例中，通过回报函数值表示出聚类结果与人工分类结果的差异，因此，后续步骤中通过回报函数值对聚类模型进行训练。

在本发明上述实施例的一个具体示例中，获取对边的操作对应的短期回报函数值，包括：

基于聚类模型，将两张照片或两类照片是否应该合并的判断结果与相应对错监督值之间的乘积，作为对该边的操作对应的短期回报函数值；其中，对错监督值包括正确的监督值和错误监督值。

在具体示例中，短期回报函数值的计算公式为：

R_{short}＝y(a)(w^Tφ(s)+b)

其中，R_{short}为短期回报值，(w^Tφ(s)+b)为预测结果；y(a)为对错监督值；具体的，y(a)＝1当代表正确监督值，y(a)＝-1当代表错误监督值，所有噪声类照片与其他类照片之间的对错监督值均为-1。

在本发明上述实施例的一个具体示例中，判断边表中排序最靠前的边对应的两张照片或两类照片是否应该合并，包括：

分别获取最靠前的边对应的两张照片的两类照片、或最靠前的边对应的两类照片的相似度、两类照片中各类照片的照片质量、各类照片的整体一致性；

生成两类照片的相似度、两类照片中各类照片的照片质量、各类照片的整体一致性对应的特征向量；

根据特征向量、聚类模型的权重矩阵的值和偏移量的值，确定边表中排序最靠前的边对应的两张照片或两类照片是否应该合并；其中，聚类模型的参数包括权重矩阵和偏移量。

具体的，(w^Tφ(s)+b)为预测结果，在预测结果中：w为权重矩阵，φ(s)为特征向量，b为偏移量，其中权重矩阵和偏移量可以通过增强学习训练获得，而通过增强学习训练获得权重矩阵和偏移量的过程等价于在高纬特征空间中确定一个SVM有效分类曲面；SVM(Support Vector Machine)支持向量机是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。

而其中特征向量是由两类照片的相似度、两类照片中各类照片的照片质量和各类照片的整体一致性构成的一维向量；因此，两张照片或两类照片是否合并是由两类照片的相似度、两类照片中各类照片的照片质量和各类照片的整体一致性共同决定的。

在本发明上述实施例的一个具体示例中，获取两类照片的相似度，包括：

基于从第一类中获取的与第二类距离最近的至少一张照片，分别计算至少一张照片与第二类中所有照片的至少一个第一距离；

基于从第二类中获取的与第一类距离最近的至少一张照片，分别计算至少一张照片与第一类中所有照片的至少一个第二距离；

基于所有第一距离和所有第二距离的中位值得到两类照片的相似度。

具体的，一类照片中的一张与另一类照片的相似度的计算公式为：

其中，d()为距离函数，我们采用的是余弦距离。

表示a类中的第i张照片，其中所有第i张照片是与b类距离最近的至少一张照片，C^b表示b类，median表示中位数。

表示类中一张照片与b类的相似度。在本实施例中，计算两类照片的距离包括分别从a和b两类中取与另一类距离最近的K张照片，基于a类中的每张照片计算

基于b类中的每张照片计算

其中,

再计算所有

和

的中位值，即可得到a类与b类的相似度。

在本发明上述实施例的一个具体示例中，获取各类照片的照片质量，包括：

分别从各类中获取与其他类距离最近的至少一张照片，分别检测所述从各类中获取的至少一张照片的置信概率，并作为所述各类的照片质量。

各类照片的照片质量指的是从两个类内分别选取的与另一类距离最近的至少一张照片的质量。而对于照片质量通过检测可得到一个置信概率，将置信概率作为该照片的质量即可，或通过数据训练的方式获得照片的质量。如果将本发明应用到人脸识别的相册中，类别质量指的是从两个类内分别选取的与另一类距离最近的至少一张照片中的人脸的质量。人脸的置信概率可以通过人脸检测器得到。置信概率的定义为：按测量不确定度的定义，合理赋予被测量之值的分散区间是包括全部被测量的测量结果的，即测量结果100％存在于这一区间。这一分散区间的半宽一般用a表示。但是如只要求某个区间只包含其95％的赋予被测量之值，这个区间就称为概率p＝95％的置信区间，其半宽就是扩展不确定度U95，如要求99％的概率，则为U99。相应的概率称为置信概率，通常置信概率的取值范围为[0,1]，数值越大其对应的照片质量越好。

在本发明上述实施例的一个具体示例中，获取各类照片的整体一致性，包括：

分别计算各类内部所有照片两两之间的距离的中位数，获得对应各类照片的整体一致性。

各类照片的整体一致性的具体公式为：

其中，Consistency(C)为a类照片的整体一致性，median表示中位数，d()为距离函数，

表示a类中的第i张照片，

表示a类中的第j张照片，并且i≠j。

在本发明中，中位数又称中值(Median)，统计学中的专有名词，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

在本发明上述各实施例的一个具体示例中，获取长期回报函数值，包括：

获取新增照片从聚类结果到人工分类结果需要进行的操作及其操作量；根据需要进行的操作及其操作量获取长期回报函数值。

其中，操作包括照片的添加操作、移除操作和/或不同类照片所属群组的合并操作；在具体计算长期回报函数值时，需要对不同操作设定不同权重值，在本示例中可以设定[添加,移除,合并]的权重分别是[1,6,1]，在此时，如果从聚类结果到人工分类结果需要进行的操作及其操作量分别为：10次删除，20次添加，10次合并，那么长期回报函数值＝20+10*6+10＝90，长期回报函数值越小反应了聚类结果越接近人工分类结果，就说明聚类模型的聚类效果越好。

本发明聚类模型的训练方法的又一个实施例中，在上述实施例的基础上，照片上标注的类别包括噪声类；

该实施例方法还可以包括：

从多次聚类的聚类结果中提取包括噪声类照片，并对提取的噪声类照片单独进行聚类，得到至少一个新类。

每次聚类都会产生一些噪声类照片，在一次聚类过程中，噪声比的提升往往会导致性能的下降，但是因为有些应该被聚类出来的相片可能是分多次进入相册(例如每次一张)；此时如果采用现有技术中常用的对新增加的照片和所有已聚类照片全部结合在一起重新执行一次聚类的话，由于新照片的添加比较频繁，将会产生大量的计算资源的浪费。

但是，对于噪声照片，如果采用现有技术中的另一种常用的聚类方法：搜索策略的话，其聚类过程是将新增加的每张照片加入其最可能属于的那个类，同时设置一个属于噪音类的阈值，将照片差异小于阈值的照片加入可能属于的类中，而大于等于阈值的照片归类为噪音照片；此时容易将路人等噪音图片加入到某个聚出来的类中，并且，如果不小心加入相册的噪音照片，没有被及时剔除，将会导致算法估计来自其他类的图片与当前类的距离变近，导致以正反馈的形式降低智能相册的聚类性能。

该实施例对应了当新增照片中出现用户的新朋友的情况，对于刚开始出现的少量的无法进行聚类的新朋友的照片，由于与已有类别的标签无法匹配，此时将新朋友照片归类为噪声照片，而在后续过程中，用户会不断添加新朋友的照片，当新朋友的照片数量达到一定程度时，对噪声图片进行聚类，将得到对应新朋友照片的新类。

新增照片中出现新朋友时，还存在一种情况，即在新增照片中存在多张新朋友的照片，此时基于聚类模型聚类过程中，基于新增照片单独聚类得到一个新类。

基于以上两种处理用户新朋友的方式，解决了现有技术中无法正确处理新朋友的问题。

图4为本发明聚类模型的训练方法还一个实施例的流程图。如图4所示，该实施例方法包括：

406，判断聚类结果的回报函数值是否小于或等于预设阈值，和/或聚类模型的训练次数是否达到预设次数；如果聚类结果的回报函数值小于或等于预设阈值，和/或聚类模型的训练次数达到预设次数时，结束训练；否则，执行407。

407，根据聚类结果的回报函数值与预设阈值之间的差值对聚类模型的参数值进行调整；执行103。

本实施例方法，在没有显著增加计算复杂度的情况下，通过对聚类模型的训练调整，使训练得到的聚类模型能够模仿人类的聚类习惯，能够提供更高的聚类准确率和召回率，同时克服了传统聚类方法在增量式聚类过程中性能下降的问题。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本发明聚类模型的训练装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括：

聚类单元510，用于通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到新增照片的聚类结果，其中，新增照片携带有类别标记。

回报单元520，用于基于新增照片的聚类结果及类别标记，计算聚类结果的回报函数值。

其中，回报函数值由短期回报函数值和长期回报函数值获得；短期回报函数值用于表示在聚类处理过程中两类照片的合并操作是否正确，长期回报函数值用于表示聚类结果与所述人工分类结果之间的差异。

训练单元530，用于根据聚类结果的回报函数值，对聚类模型进行训练。

基于本发明上述实施例提供的聚类模型的训练装置，通过聚类模型及已聚类照片对新增照片进行聚类，获得聚类结果，实现了对新增照片的聚类；基于聚类结果和类别标记计算聚类结果的回报函数值，得到的回报函数值能实现对聚类模型的训练，并使训练模型达到的聚类效果更接近人工分类结果；根据回报函数值对所述聚类模型进行训练，能够得到针对增量式聚类的聚类模型，该聚类模型针对增量式聚类的聚类准确率高。

在本发明上述实施例的一个具体示例中，聚类结果包括：将新增照片聚类到已聚类照片中的任意一个类别中；或将新增照片聚类到一个新增类别中。

图6为本发明聚类模型的训练装置另一个实施例的结构示意图。如图6所示，该实施例装置，在上述实施例的基础上，还包括：

第一策略单元640，用于按照第一预设策略从样本相册中抽取部分照片，作为已聚类照片；其中，样本相册中的照片均标注有类别信息；其中，样本相册包括一个或多个相册，每个相册包括多张照片，样本相册中的各照片被预先标注类别信息。

第二策略单元650，用于按照第二预设策略，从样本相册中除部分照片之外的其他照片中，抽取至少一个照片作为新增照片。

在本发明上述实施例的一个具体示例中，第一策略单元640具体用于分别针对样本相册中的每个相册，按照预设概率进行抽样，将抽样结果的总和作为所述已聚类照片；或者

基于样本相册中各照片对应的类别信息，按照长尾分布规则对所述样本相册中的照片进行抽样，将抽样结果作为所述已聚类照片。

其中，一部分照片中，各类别照片的数量比例呈长尾分布规则分布。

图7为本发明聚类模型的训练装置另一个实施例的结构示意图。如图7所示，该实施例装置，在上述实施例的基础上，聚类单元510包括：

距离计算模块711，用于分别针对新增照片中的两张照片之间的边，和新增照片与已聚类照片的两类照片中的两张照片之间的边，计算各边的距离；

排序模块712，用于按照距离由小到大的顺序对所有边进行排序，生成边表，边表中包括各边及其对应的两张照片或两类照片、以及边的距离；

合并判断模块713，用于通过聚类模型判断边表中排序最靠前的边对应的两张照片或两类照片是否应该合并；若判断排序最靠前的边对应的两张照片或两类照片应该合并，对排序最靠前的边对应的两张照片或两类照片进行合并，并判断合并之后排序最靠前的边对应的两张照片或两类照片是否应该合并，直至判断结果为排序最靠前的边对应的两张照片或两类照片不应该合并为止。

在本发明上述实施例的一个具体示例中，聚类单元510还包括：

序列调整模块714，用于将边表中，将对应的一张照片属于已聚类照片的边的排序，调整至对应的两张照片均属于已聚类照片的边之前，并对对应的一张照片属于已聚类照片的各边按照距离由小到大的顺序排序。

在本发明上述实施例的一个具体示例中，回报单元520包括：

函数值获取模块，用于比较新增照片的人工分类结果与聚类结果，分别获取对各边的操作对应的短期回报函数值、以及长期回报函数值；

函数值计算模块，用于根据短期回报函数值、长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得聚类结果的回报函数值。

在本发明上述实施例的一个具体示例中，函数值获取模块，具体用于基于聚类模型，将两张照片或两类照片是否应该合并的判断结果与相应对错监督值之间的乘积，作为对该边的操作对应的短期回报函数值。

其中，对错监督值包括正确监督值和错误监督值。

在本发明上述实施例的一个具体示例中，合并判断模块713包括：

参数获取模块，用于分别获取最靠前的边对应的两张照片的两类照片、或最靠前的边对应的两类照片的相似度、两类照片中各类照片的照片质量、各类照片的整体一致性；

特征向量模块，用于生成两类照片的相似度、两类照片中各类照片的照片质量、各类照片的整体一致性对应的特征向量；

判断模块，用于根据特征向量、聚类模型的权重矩阵的值和偏移量的值，确定边表中排序最靠前的边对应的两张照片或两类照片是否应该合并。

其中，聚类模型的参数包括权重矩阵和偏移量。

在本发明上述实施例的一个具体示例中，参数获取模块具体用于：

基于从第一类中获取的与第二类距离最近的至少一张照片，分别计算所述至少一张照片与第二类中所有照片的至少一个第一距离；

分别从各类中获取与其他类距离最近的至少一张照片，分别检测从各类中获取的至少一张照片的置信概率，并作为各类的照片质量。

在本发明上述各实施例的一个具体示例中，函数值获取模块，具体用于获取新增照片从聚类结果到人工分类结果需要进行的操作及其操作量；并根据需要进行的操作及其操作量获取长期回报函数值。

其中，操作包括照片的添加操作、移除操作和/或不同类照片所属群组的合并操作。

本发明聚类模型的训练装置的又一个实施例中，在上述实施例的基础上，照片上标注的类别包括噪声类；

本实施例装置还可以包括：

噪声聚类单元，用于从多次聚类的聚类结果中提取噪声类照片，并对提取的噪声类照片单独进行聚类，得到至少一个新类。

图8为本发明聚类模型的训练装置还一个实施例的结构示意图。在上述各实施例的基础上，如图8所示，该实施例装置中，训练单元530包括：

条件判断模块831，用于判断聚类结果的回报函数值是否小于或等于预设阈值，和/或聚类模型的训练次数是否达到预设次数。

结束模块832，用于在聚类结果的回报函数值小于或等于预设阈值，和/或聚类模型的训练次数达到预设次数时，结束训练。

调整模块833，用于在聚类结果的回报函数值大于预设阈值，并且聚类模型的训练次数小于预设次数时，根据聚类结果的回报函数值与预设阈值之间的差值对聚类模型的参数值进行调整，然后执行通过聚类模型对新增照片和已有分类结果的初始状态相册中照片进行聚类处理的操作，以实现对聚类模型的迭代训练。

本实施例在没有显著增加计算复杂度的情况下，通过对聚类模型的训练调整，使训练得到的聚类模型能够模仿人类的聚类习惯，能够提供更高的聚类准确率和召回率，同时克服了传统聚类方法在增量式聚类过程中性能下降的问题。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述实施例任意一项聚类模型的训练装置。

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明上述实施例任意一项聚类模型的训练方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被执行时执行本发明上述实施例任意一项聚类模型的训练方法的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图9，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备900的结构示意图：如图9所示，计算机系统900包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。通信部912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器902和/或随机访问存储器930中通信以执行可执行指令，通过总线904与通信部912相连、并经通信部912与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到所述新增照片的聚类结果，所述新增照片携带有类别标记；基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；根据所述聚类结果的回报函数值，对所述聚类模型进行训练。

此外，在RAM 903中，还可存储有装置操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使处理器901执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至总线904。通信部912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到所述新增照片的聚类结果，所述新增照片携带有类别标记；基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；根据所述聚类结果的回报函数值，对所述聚类模型进行训练。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种聚类模型的训练方法，其特征在于，包括：

基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；其中，所述回报函数值由短期回报函数值和长期回报函数值获得；所述短期回报函数值用于表征在聚类处理过程中两类照片的合并操作是否正确，所述长期回报函数值用于表征所述聚类结果与人工分类结果之间的差异；

2.根据权利要求1所述的方法，其特征在于，还包括：

从样本相册中抽取部分照片，作为所述已聚类照片；其中，所述样本相册中的照片均标注有类别信息；

从所述样本相册中除所述部分照片之外的其他照片中，抽取至少一个照片作为所述新增照片。

3.根据权利要求2所述的方法，其特征在于，所述从样本相册中抽取部分照片，作为所述已聚类照片，包括：

分别针对所述样本相册中的每个相册，按照预设概率进行抽样，将抽样结果的总和作为所述已聚类照片；或者

基于所述样本相册中各照片对应的类别信息，按照长尾分布规则对所述样本相册中的照片进行抽样，将抽样结果作为所述已聚类照片。

4.根据权利要求1所述的方法，其特征在于，所述得到所述新增照片的聚类结果，包括：

将所述新增照片聚类到已聚类照片中的任意一个类别中；或，

将所述新增照片聚类到一个新增类别中。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述通过聚类模型及已聚类照片，对新增照片进行聚类处理，得到所述新增照片的聚类结果，包括：

分别针对所述新增照片中的两张照片之间的边，和所述新增照片与所述已聚类照片的两类照片中的两张照片之间的边，计算各边的距离；

按照距离由小到大的顺序对计算得到的所述边进行排序，生成边表，所述边表中包括各边及其对应的两张照片或两类照片、以及边的距离；

通过聚类模型判断所述边表中排序最靠前的边对应的两张照片或两类照片是否应该合并；

若判断排序最靠前的边对应的两张照片或两类照片应该合并，对所述排序最靠前的边对应的两张照片或两类照片进行合并，并判断合并之后排序最靠前的边对应的两张照片或两类照片是否应该合并，直至判断结果为排序最靠前的边对应的两张照片或两类照片不应该合并为止。

6.根据权利要求5所述的方法，其特征在于，所述按照距离由小到大的顺序对计算得到的所述边进行排序，生成边表之后，还包括：

将边表中，将对应的一张照片属于所述已聚类照片的边的排序，调整至对应的两张照片均属于所述已聚类照片的边之前，并对对应的一张照片属于所述已聚类照片的各边按照距离由小到大的顺序排序。

7.根据权利要求6所述的方法，其特征在于，基于所述新增照片的所述聚类结果，计算所述聚类结果的回报函数值，包括：

比较所述新增照片的人工分类结果与所述聚类结果，分别获取对各边的操作对应的短期回报函数值、以及长期回报函数值；

根据所述短期回报函数值、所述长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得所述聚类结果的回报函数值。

8.根据权利要求7所述的方法，其特征在于，获取对边的操作对应的短期回报函数值，包括：

基于所述聚类模型，将两张照片或两类照片是否应该合并的判断结果与相应对错监督值之间的乘积，作为对该边的操作对应的短期回报函数值；其中，所述对错监督值包括正确监督值及错误监督值。

9.根据权利要求7所述的方法，其特征在于，判断所述边表中排序最靠前的边对应的两张照片或两类照片是否应该合并，包括：

分别获取最靠前的边对应的两张照片所属的两类照片、或最靠前的边对应的两类照片的相似度、两类照片中各类照片的照片质量、各类照片的整体一致性；

生成两类照片的相似度、两类照片中各类照片的照片质量和各类照片的整体一致性对应的特征向量；

根据所述特征向量、所述聚类模型的权重矩阵的值和偏移量的值，确定所述边表中排序最靠前的边对应的两张照片或两类照片是否应该合并；其中，所述聚类模型的参数包括所述权重矩阵和偏移量。

10.根据权利要求9所述的方法，其特征在于，获取两类照片的相似度，包括：

基于所有所述第一距离和所有所述第二距离的中位值得到两类照片的相似度。

11.根据权利要求9所述的方法，其特征在于，获取各类照片的照片质量，包括：

12.根据权利要求9所述的方法，其特征在于，获取各类照片的整体一致性，包括：

13.根据权利要求7所述的方法，其特征在于，获取长期回报函数值，包括：

获取所述新增照片从聚类结果到人工分类结果需要进行的操作及其操作量；所述操作包括照片的添加操作、移除操作和/或不同类照片所属群组的合并操作；

根据所述需要进行的操作及其操作量获取长期回报函数值。

14.根据权利要求2所述的方法，其特征在于，所述照片上标注的类别包括噪声类；

所述方法还包括：

从多次聚类的聚类结果中提取噪声类照片，对各噪声类照片进行聚类，得到至少一个新类。

15.根据权利要求1至4任意一项所述的方法，其特征在于，根据所述聚类结果的回报函数值对所述聚类模型进行训练，包括：

判断所述聚类结果的回报函数值是否小于或等于预设阈值，和/或所述聚类模型的训练次数是否达到预设次数；

当所述聚类结果的回报函数值小于或等于预设阈值，和/或所述聚类模型的训练次数达到预设次数时，结束训练；

当所述聚类结果的回报函数值大于预设阈值，并且所述聚类模型的训练次数未达到预设次数时，根据所述聚类结果的回报函数值与预设阈值之间的差值对所述聚类模型的参数值进行调整，然后执行所述通过聚类模型对新增照片和已聚类照片进行聚类处理的操作，以实现对所述聚类模型的迭代训练。

16.一种聚类模型的训练装置，其特征在于，包括：

回报单元，用于基于所述新增照片的所述聚类结果及所述类别标记，计算所述聚类结果的回报函数值；其中，所述回报函数值由短期回报函数值和长期回报函数值获得；所述短期回报函数值用于表征在聚类处理过程中两类照片的合并操作是否正确，所述长期回报函数值用于表征所述聚类结果与人工分类结果之间的差异；

17.根据权利要求16所述的装置，其特征在于，还包括：

第一策略单元，用于从样本相册中抽取一部分照片，作为所述已聚类照片；其中，所述样本相册中的照片均标注有类别信息；

第二策略单元，用于从所述样本相册中除所述部分照片之外的其他照片中，抽取至少一个照片作为所述新增照片。

18.根据权利要求17所述的装置，其特征在于，所述第一策略单元具体用于分别针对所述样本相册中的每个相册，按照预设概率进行抽样，将抽样结果的总和作为所述已聚类照片；或者

19.根据权利要求16所述的装置，其特征在于，所述聚类单元，具体用于将所述新增照片聚类到已聚类照片中的任意一个类别中；或，将所述新增照片聚类到一个新增类别中。

20.根据权利要求16至19任意一项所述的装置，其特征在于，所述聚类单元，包括：

距离计算模块，用于分别针对所述新增照片中的两张照片之间的边，和所述新增照片与所述已聚类照片的两类照片中的两张照片之间的边，计算各边的距离；

排序模块，用于按照距离由小到大的顺序对计算得到的所述边进行排序，生成边表，所述边表中包括各边及其对应的两张照片或两类照片、以及边的距离；

合并判断模块，用于通过聚类模型判断所述边表中排序最靠前的边对应的两张照片或两类照片是否应该合并；若判断排序最靠前的边对应的两张照片或两类照片应该合并，对所述排序最靠前的边对应的两张照片或两类照片进行合并，并判断合并之后排序最靠前的边对应的两张照片或两类照片是否应该合并，直至判断结果为排序最靠前的边对应的两张照片或两类照片不应该合并为止。

21.根据权利要求20所述的装置，其特征在于，所述聚类单元还包括：

序列调整模块，用于将边表中，将对应的一张照片属于所述已聚类照片的边的排序，调整至对应的两张照片均属于所述已聚类照片的边之前，并对对应的一张照片属于所述已聚类照片的各边按照距离由小到大的顺序排序。

22.根据权利要求21所述的装置，其特征在于，所述回报单元包括：

函数值获取模块，用于比较所述新增照片的人工分类结果与所述聚类结果，分别获取对各边的操作对应的短期回报函数值、以及长期回报函数值；

函数值计算模块，用于根据所述短期回报函数值、所述长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算，获得所述聚类结果的回报函数值。

23.根据权利要求22所述的装置，其特征在于，所述函数值获取模块，具体用于基于所述聚类模型，将两张照片或两类照片是否应该合并的判断结果与相应对错监督值之间的乘积，作为对该边的操作对应的短期回报函数值；其中，所述对错监督值包括正确监督值及错误监督值。

24.根据权利要求22所述的装置，其特征在于，所述合并判断模块包括：

参数获取模块，用于分别获取最靠前的边对应的两张照片所属的两类照片、或最靠前的边对应的两类照片的相似度、两类照片中各类照片的照片质量、各类照片的整体一致性；

特征向量模块，用于生成两类照片的相似度、两类照片中各类照片的照片质量和各类照片的整体一致性对应的特征向量；

判断模块，用于根据所述特征向量、所述聚类模型的权重矩阵的值和偏移量的值，确定所述边表中排序最靠前的边对应的两张照片或两类照片是否应该合并；其中，所述聚类模型的参数包括所述权重矩阵和偏移量。

25.根据权利要求24所述的装置，其特征在于，所述参数获取模块具体用于：

26.根据权利要求24所述的装置，其特征在于，所述参数获取模块具体用于：

27.根据权利要求24所述的装置，其特征在于，所述参数获取模块具体用于：

28.根据权利要求22所述的装置，其特征在于，所述函数值获取模块，具体用于获取所述新增照片从聚类结果到人工分类结果需要进行的操作及其操作量；并根据所述需要进行的操作及其操作量获取长期回报函数值；所述操作包括照片的添加操作、移除操作和/或不同类照片所属群组的合并操作。

29.根据权利要求17所述的装置，其特征在于，所述照片上标注的类别包括噪声类；

所述装置还包括：

噪声聚类单元，用于从多次聚类的聚类结果中提取噪声类照片，对各噪声类照片进行聚类，得到至少一个新类。

30.根据权利要求16至19任意一项所述的装置，其特征在于，所述训练单元包括：

条件判断模块，用于判断所述聚类结果的回报函数值是否小于或等于预设阈值，和/或所述聚类模型的训练次数是否达到预设次数；

结束模块，用于当所述聚类结果的回报函数值小于或等于预设阈值，和/或所述聚类模型的训练次数达到预设次数，结束训练；

调整模块，用于当所述聚类结果的回报函数值大于预设阈值，并且所述聚类模型的训练次数未达到预设次数时，根据所述聚类结果的回报函数值与预设阈值之间的差值对所述聚类模型的参数值进行调整，然后执行所述通过聚类模型对新增照片和已有分类结果的初始状态相册中照片进行聚类处理的操作，以实现对所述聚类模型的迭代训练。

31.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求16至30任意一项所述的聚类模型的训练装置。

32.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至15任意一项所述聚类模型的训练方法的操作。

33.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至15任意一项所述聚类模型的训练方法的操作。