CN114022696A

CN114022696A - 基于连接对的聚类算法性能分析方法、装置、介质

Info

Publication number: CN114022696A
Application number: CN202111301799.4A
Authority: CN
Inventors: 魏超; 钟敏; 毕永辉; 林淑强; 刘襄雄; 古松景
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08

Abstract

本发明提出了一种基于连接对的聚类算法性能分析方法、装置及存储介质，该方法包括：初始步骤，使用所述聚类算法对样本集进行聚类得出初始聚类簇，对所述聚类算法进行优化后对样本集进行聚类得出优化聚类簇；抽样步骤，对满足归档的初始聚类簇和优化聚类簇分别进行笛卡尔积运算得到连接对，利用差集运算和特定规则抽样得到初始抽样集合和优化抽样集合；分析步骤，基于所述初始抽样集合和优化抽样集合分析优化后的聚类算法性能是否提升。本发明利用笛卡尔积运算得到连接对，并使用特定规则抽样获取可控数量的分析集，该方法结合了聚类内部的连接对信息和人工抽样知识，能够在无标签情况下对聚类算法优化后的性能提升进行快速评估。

Description

基于连接对的聚类算法性能分析方法、装置、介质

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于连接对的聚类算法性能分析方法、装置、介质。

背景技术

现有技术中，评价聚类算法性能的指标通常有内部指标和外部指标两种。内部指标利用数据集的属性特征来评价聚类算法的优劣，不依赖于准确的聚类标签，这类指标例如有CH指标、轮廓系数、DB指数等；而外部指标度量的是预测聚类标签与真实聚类标签之间的一致性，这类指标例如有兰德系数，互信息，Bcubed指标等。

通常会利用实际应用场景中的数据对聚类算法进行迭代优化，由于实际场景中的数据往往缺少真实聚类标签，此时无法利用上述外部指标验证聚类优化的有效性；而上述的内部指标对聚类结果的评价存在不直观或是评价结果与人工判定结果相矛盾的问题，这是因为内部指标只对聚类结果的数据分布特征进行了度量，并没有利用到真实标签知识，因此，如何在无标签情况下快速评价聚类算法在迭代优化前后的优劣是摆在工程技术人员的一个难题。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种基于连接对的聚类算法性能分析方法，该方法包括：

初始步骤，使用所述聚类算法对样本集进行聚类得出初始聚类簇，对所述聚类算法进行优化后对样本集进行聚类得出优化聚类簇；

抽样步骤，对满足归档的初始聚类簇和优化聚类簇分别进行笛卡尔积运算得到连接对，利用差集运算和特定规则抽样得到初始抽样集合和优化抽样集合；

分析步骤，基于所述初始抽样集合和优化抽样集合分析优化后的聚类算法性能是否提升。

更进一步地，所述样本集可以是图像样本集以及字符文本样本集等，所述聚类算法可以是有监督聚类算法以及无监督聚类算法等。

更进一步地，对初始聚类簇和优化聚类簇进行处理的操作为：设初始聚类簇为R1，优化聚类簇为R2，另聚类簇内样本数>＝2的为已归档簇，其余为未归档簇。

更进一步地，进行笛卡尔积运算后分别进行抽样处理得到初始抽样集合和优化抽样集合的操作为：对于R1中的所有归档簇，计算其中的所有笛卡尔积样本对集合A，对于R2中的所有归档簇，计算其中的所有笛卡尔积样本对集合B；计算A和B的差集A-B，所述差集A-B表示原先相连，优化后不再相连的笛卡尔积样本对的集合；计算B和A的差集B-A，所述差集B-A表示原先不相连，优化后相连的笛卡尔积样本对的集合；在差集A-B和差集B-A中，分别计算与其它样本相连的前top-K个的样本中的抽样集合得到初始抽样集合和S1优化抽样集合S2，其中，所述抽样采用的方式为[0，top-K]之间的均匀抽样。

更进一步地，所述分析步骤的操作为：将初始抽样集合和S1优化抽样集合S2中样本的聚类情况分为三种：原先被归档但现在不被归档的样本总数M；原先被归档但现在也被归档的样本总数L；原先不被归档但现在被归档的样本总数N；根据初始抽样集合和S1优化抽样集合S2中样本对应的优化前和优化后聚类结果，统计三种情况下合理聚类的数量分别为m、l、n，判断(m+l+n)/(M+L+N)>0.5是否成立，如果是，则优化后的聚类算法性能有提升；如果否，则优化后的聚类算法性能无提升。

本发明还提出了一种基于连接对的聚类算法性能分析装置，该装置包括：

初始单元，使用所述聚类算法对样本集进行聚类得出初始聚类簇，对所述聚类算法进行优化后对样本集进行聚类得出优化聚类簇；

抽样单元，对满足归档的初始聚类簇和优化聚类簇分别进行笛卡尔积运算得到连接对，利用差集运算和特定规则抽样得到初始抽样集合和优化抽样集合；

分析单元，基于所述初始抽样集合和优化抽样集合分析优化后的聚类算法性能是否提升。

更进一步地，所述分析单元的操作为：将初始抽样集合和S1优化抽样集合S2中样本的聚类情况分为三种：原先被归档但现在不被归档的样本总数M；原先被归档但现在也被归档的样本总数L；原先不被归档但现在被归档的样本总数N；根据初始抽样集合和S1优化抽样集合S2中样本对应的优化前和优化后聚类结果，统计三种情况下合理聚类的数量分别为m、l、n，判断(m+l+n)/(M+L+N)>0.5是否成立，如果是，则优化后的聚类算法性能有提升；如果否，则优化后的聚类算法性能无提升。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种基于连接对的聚类算法性能分析方法、装置及存储介质，该方法包括：初始步骤，使用所述聚类算法对样本集进行聚类得出初始聚类簇，对所述聚类算法进行优化后对样本集进行聚类得出优化聚类簇；抽样步骤，对满足归档的初始聚类簇和优化聚类簇分别进行笛卡尔积运算得到连接对，利用差集运算和特定规则抽样得到初始抽样集合和优化抽样集合；分析步骤，基于所述初始抽样集合和优化抽样集合分析优化后的聚类算法性能是否提升。本发明利用笛卡尔积运算得到连接对，并使用特定规则抽样获取可控数量的分析集，该方法结合了聚类内部的连接对信息和人工抽样知识，能够在无标签情况下对聚类算法优化后的性能提升进行快速评估；创造性提出了基于笛卡尔积样本对的集合计算差集A-B和差集B-A，并分别计算与其它样本相连的前top-K个的样本中的抽样集合得到初始抽样集合和S1优化抽样集合S2，从而确定聚类算法评估的基准；通过人工识别三种情况下合理聚类的数量分别为m、l、n，即基于性能提升的方向统计三种情况下聚类的准确数量，将其与三种情况的总数量相比较，进而确定优化前后的聚类算法性能是否有提升，该方法仅利用部分有效样本即可对聚类算法性能进行准确的评估。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于连接对的聚类算法性能分析方法的流程图。

图2是根据本发明的实施例的一种基于连接对的聚类算法性能分析装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于连接对的聚类算法性能分析方法，该方法包括：

初始步骤S101，使用所述聚类算法对样本集进行聚类得出初始聚类簇，对所述聚类算法进行优化后对样本集进行聚类得出优化聚类簇；

抽样步骤S102，对满足归档的初始聚类簇和优化聚类簇分别进行笛卡尔积运算得到连接对，利用差集运算和特定规则抽样得到初始抽样集合和优化抽样集合；

分析步骤S103，基于所述初始抽样集合和优化抽样集合分析优化后的聚类算法性能是否提升。

本发明中对聚类算法进行优化可以是对聚类算法进行参数的调整，比如，聚类算法的迭代计算，下一代算法可以认为是当前算法的优化，虽然称为优化，但优化后的性能并不一定比优化前的性能高，所以需要进行优化前后的性能判断。本发明利用笛卡尔积运算得到连接对，并使用特定规则抽样获取可控数量的分析集，该方法结合了聚类内部的连接对信息和人工抽样知识，能够在无标签情况下对聚类算法优化后的性能提升进行快速评估，这是本发明的一个重要发明点。

在一个实施例中，所述样本集为人脸图像样本集，聚类方式算法使用人脸识别算法提取特征+无监督聚类算法进行聚类，应用于比如行人跟踪过程中，将相同的人脸图像聚为一类，用于标记人的轨迹，当然，本发明的方法还可以应用于其他聚类场景和算法的评估，如，文本聚类等等。

在一个实施例中，对初始聚类簇和优化聚类簇进行处理的操作为：设初始聚类簇为R1，优化聚类簇为R2，另聚类簇内样本数>＝2的为已归档簇，其余为未归档簇。即在实际计算中，如果一个簇内仅有一个样本，说明该样本为孤立样本，对其评价的意义不大，该类样本不参与计算，从而，降低计算量，并提高聚类算法评估的准确性，这是本发明的另一个重要发明点。

在一个实施例中，进行笛卡尔积运算后分别进行抽样处理得到初始抽样集合和优化抽样集合的操作为：对于R1中的所有归档簇，计算其中的所有笛卡尔积样本对集合A，对于R2中的所有归档簇，计算其中的所有笛卡尔积样本对集合B；计算A和B的差集A-B，所述差集A-B表示原先相连，优化后不再相连的笛卡尔积样本对的集合；计算B和A的差集B-A，所述差集B-A表示原先不相连，优化后相连的笛卡尔积样本对的集合；在差集A-B和差集B-A中，分别计算与其它样本相连的前top-K个的样本中的抽样集合得到初始抽样集合和S1优化抽样集合S2，其中，所述抽样采用的方式为[0，top-K]之间的均匀抽样。在实际计算中，K的大小及抽样的步长可以根据数据量的大小设定，本发明中，创造性提出了基于笛卡尔积样本对的集合计算差集A-B和差集B-A，并分别计算与其它样本相连的前top-K个的样本中的抽样集合得到初始抽样集合和S1优化抽样集合S2，从而确定聚类算法评估的基准，这是本发明的重要发明点之另一。

在一个实施例中，所述分析步骤S103的操作为：将初始抽样集合和S1优化抽样集合S2中样本的聚类情况分为三种：原先被归档但现在不被归档的样本总数M；原先被归档但现在也被归档的样本总数L；原先不被归档但现在被归档的样本总数N；根据初始抽样集合和S1优化抽样集合S2中样本对应的优化前和优化后聚类结果，统计三种情况下合理聚类的数量分别为m、l、n，判断(m+l+n)/(M+L+N)>0.5是否成立，如果是，则优化后的聚类算法性能有提升；如果否，则优化后的聚类算法性能无提升。

本发明中，通过人工识别三种情况下合理聚类的数量分别为m、l、n，即基于性能提升的方向统计三种情况下聚类的准确数量，将其与三种情况的总数量相比较，进而确定优化前后的聚类算法性能是否有提升，该方法仅利用部分有效样本即可对聚类算法性能进行准确的评估，这是本发明的重要发明点之另一。

图2示出了本发明的一种基于连接对的聚类算法性能分析装置，该装置包括：

初始单元201，使用所述聚类算法对样本集进行聚类得出初始聚类簇，对所述聚类算法进行优化后对样本集进行聚类得出优化聚类簇；

抽样单元202，对满足归档的初始聚类簇和优化聚类簇分别进行笛卡尔积运算得到连接对，利用差集运算和特定规则抽样得到初始抽样集合和优化抽样集合；

分析单元203，基于所述初始抽样集合和优化抽样集合分析优化后的聚类算法性能是否提升。

本发明中对聚类算法进行优化可以是对聚类算法进行参数的调整，比如，聚类算法的迭代计算，下一代算法可以认为是当前算法的优化，虽然称为优化，但优化后的性能并不一定比优化前的性能高，所以需要进行优化前后的性能判断，本发明利用笛卡尔积运算得到连接对，并使用特定规则抽样获取可控数量的分析集，该方法结合了聚类内部的连接对信息和人工抽样知识，能够在无标签情况下对聚类算法优化后的性能提升进行快速评估，这是本发明的一个重要发明点。

在一个实施例中，所述分析单元203的操作为：将初始抽样集合和S1优化抽样集合S2中样本的聚类情况分为三种：原先被归档但现在不被归档的样本总数M；原先被归档但现在也被归档的样本总数L；原先不被归档但现在被归档的样本总数N；根据初始抽样集合和S1优化抽样集合S2中样本对应的优化前和优化后聚类结果，统计三种情况下合理聚类的数量分别为m、l、n，判断(m+l+n)/(M+L+N)>0.5是否成立，如果是，则优化后的聚类算法性能有提升；如果否，则优化后的聚类算法性能无提升。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于连接对的聚类算法性能分析方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述样本集为图像样本集或字符文本样本集，所述聚类算法为有监督聚类算法或无监督聚类算法。

3.根据权利要求2所述的方法，其特征在于，对初始聚类簇和优化聚类簇进行处理的操作为：设初始聚类簇为R1，优化聚类簇为R2，另聚类簇内样本数>＝2的为已归档簇，其余为未归档簇。

4.根据权利要求3所述的方法，其特征在于，进行笛卡尔积运算后分别进行抽样处理得到初始抽样集合和优化抽样集合的操作为：对于R1中的所有归档簇，计算其中的所有笛卡尔积样本对集合A，对于R2中的所有归档簇，计算其中的所有笛卡尔积样本对集合B；计算A和B的差集A-B，所述差集A-B表示原先相连，优化后不再相连的笛卡尔积样本对的集合；计算B和A的差集B-A，所述差集B-A表示原先不相连，优化后相连的笛卡尔积样本对的集合；在差集A-B和差集B-A中，分别计算与其它样本相连的前top-K个的样本中的抽样集合得到初始抽样集合和S1优化抽样集合S2，其中，所述抽样采用的方式为[0，top-K]之间的均匀抽样。

5.根据权利要求4所述的方法，其特征在于，所述分析步骤的操作为：将初始抽样集合和S1优化抽样集合S2中样本的聚类情况分为三种：原先被归档但现在不被归档的样本总数M；原先被归档但现在也被归档的样本总数L；原先不被归档但现在被归档的样本总数N；根据初始抽样集合和S1优化抽样集合S2中样本对应的优化前和优化后聚类结果，统计三种情况下合理聚类的数量分别为m、l、n，判断(m+l+n)/(M+L+N)>0.5是否成立，如果是，则优化后的聚类算法性能有提升；如果否，则优化后的聚类算法性能无提升。

6.一种基于连接对的聚类算法性能分析装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，对初始聚类簇和优化聚类簇进行处理的操作为：设初始聚类簇为R1，优化聚类簇为R2，另聚类簇内样本数>＝2的为已归档簇，其余为未归档簇。

8.根据权利要求7所述的装置，其特征在于，进行笛卡尔积运算后分别进行抽样处理得到初始抽样集合和优化抽样集合的操作为：对于R1中的所有归档簇，计算其中的所有笛卡尔积样本对集合A，对于R2中的所有归档簇，计算其中的所有笛卡尔积样本对集合B；计算A和B的差集A-B，所述差集A-B表示原先相连，优化后不再相连的笛卡尔积样本对的集合；计算B和A的差集B-A，所述差集B-A表示原先不相连，优化后相连的笛卡尔积样本对的集合；在差集A-B和差集B-A中，分别计算与其它样本相连的前top-K个的样本中的抽样集合得到初始抽样集合和S1优化抽样集合S2，其中，所述抽样采用的方式为[0，top-K]之间的均匀抽样。

9.根据权利要求8所述的装置，其特征在于，所述分析单元的操作为：将初始抽样集合和S1优化抽样集合S2中样本的聚类情况分为三种：原先被归档但现在不被归档的样本总数M；原先被归档但现在也被归档的样本总数L；原先不被归档但现在被归档的样本总数N；根据初始抽样集合和S1优化抽样集合S2中样本对应的优化前和优化后聚类结果，统计三种情况下合理聚类的数量分别为m、l、n，判断(m+l+n)/(M+L+N)>0.5是否成立，如果是，则优化后的聚类算法性能有提升；如果否，则优化后的聚类算法性能无提升。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，当所述计算机程序被处理器执行时以实现权利要求1-5任一项的方法。