CN114048318A

CN114048318A - 基于密度半径的聚类方法、系统、设备及存储介质

Info

Publication number: CN114048318A
Application number: CN202111430655.9A
Authority: CN
Inventors: 阮智昊; 江炼鑫; 莫洋
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-02-15

Abstract

本发明涉及人工智能，提供了一种基于密度半径的聚类方法、系统、设备及存储介质，该方法包括：获取样本数据集、第一聚类数量数据和簇集合，样本数据集包括多个聚类数据；计算任意两个聚类数据之间的距离，得到多个邻接距离数据；根据第一排序信息和第一聚类数量数据，对邻接距离数据计算得到密度半径数据；根据密度半径数据和邻接距离数据，以各个聚类数据为中心进行聚类处理，得到多个聚类簇；当聚类簇满足预设去重加入条件，将聚类簇加入簇集合；当簇集合满足预设聚类终止条件，输出簇集合。本发明能对不同形状分布的聚类数据自动计算得出密度半径，实现聚类数据在聚类簇中的多映射性，改善聚类效果。

Description

基于密度半径的聚类方法、系统、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于密度半径的聚类方法、系统、设备及存储介质。

背景技术

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上手机数据来分类，在自然语言处理(NaturalLanguage Processing，NLP)领域的无监督任务中，有着广泛的应用。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。相关技术中的聚类方法需要手动输入设定参数，且对设定参数敏感，因此在针对不同分布形状的数据时难以确定设定参数，导致聚类效果不佳。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于密度半径的聚类方法、系统、设备及存储介质，能够自动设定参数，提高针对不同分布形状的数据的聚类效果。

第一方面，本发明实施例提供了一种基于密度半径的聚类方法，该方法包括：

获取样本数据集、第一聚类数量数据和簇集合，所述样本数据集包括多个聚类数据；

计算任意两个所述聚类数据之间的距离，得到多个邻接距离数据；

根据第一排序信息和所述第一聚类数量数据，对所述邻接距离数据计算得到密度半径数据，其中，所述第一排序信息为基于所述邻接距离数据对所述聚类数据进行排序得到；

根据所述密度半径数据和所述邻接距离数据，以各个所述聚类数据为中心进行聚类处理，得到多个聚类簇；

当所述聚类簇满足预设去重加入条件，将所述聚类簇加入所述簇集合；

当所述簇集合满足预设聚类终止条件，输出所述簇集合。

根据本发明的一些实施例，所述计算任意两个所述聚类数据之间的距离，得到多个邻接距离数据，包括：

根据词频-逆文本频率TFIDF对各个所述聚类数据进行加权处理，得到权重值；

将所述聚类数据和所述权重值导入相似哈希神经网络模型，得到转化数据；

根据汉明距离，针对任意一个所述转化数据与各个剩余所述转化数据之间的距离进行计算处理，得到多个邻接距离数据。

通过TFIDF对聚类数据进行评估在样本数据集中的重要程度，从而得到聚类数据对应的权重值。将聚类数据和对应的权重值导入相似哈希神经网络模型，输出得到转化数据。计算转化数据与其他转化数据之间的汉明距离，得到邻接距离数据，能够提高邻接距离数据的准确性。

根据本发明的一些实施例，所述第一聚类数量数据由以下步骤获得：

根据预设类别数据和所述聚类数据，得到第二聚类数量数据；

根据所述第一排序信息和所述第二聚类数量数据，对所述邻接距离数据进行计算，得到多个第一密度半径数据；

根据第二排序信息和预设排序阈值，对所述第一密度半径数据进行计算，得到密度半径阈值，所述第二排序信息为基于所述第一密度半径数据对所述聚类数据进行排序得到；

根据所述邻接距离数据和所述密度半径阈值，得到第一聚类数量数据。

通过预设类别数据、聚类数据和邻接距离数据进行计算处理，得到第一聚类数量数据，无需手动输入设定参数，能够根据不同形状分布的聚类数据进行聚类，提高聚类效果。

根据本发明的一些实施例，所述根据所述邻接距离数据和所述密度半径阈值，得到第一聚类数量数据，包括：

根据所述邻接距离数据和所述密度半径阈值，得到第三聚类数量数据，所述第三聚类数量数据包括多个，所述第三聚类数量数据与所述聚类数据一一对应；

根据第三排序信息和预设数量条件，对所述第三聚类数量数据进行处理，得到第一聚类数量数据，所述第三排序信息通过对所述第三聚类数量数据进行排序得到。

对邻接距离数据和密度半径阈值进行比较，得到第三聚类数量数据。对第三聚类数量数据进行排序以及利用预设数量条件进行计算处理，得到第一聚类数量数据，能够提高第一聚类数量数据的准确性，提高聚类效果。

根据本发明的一些实施例，所述根据所述密度半径数据和所述邻接距离数据，以各个所述聚类数据为中心进行聚类处理，得到多个聚类簇，包括：

根据第四排序信息，依次以各个所述聚类数据为中心，对待聚数据进行聚类处理，得到多个聚类簇；其中，所述第四排序信息为基于所述密度半径数据对所述聚类数据进行排序得到；所述待聚数据为小于所述密度半径数据的所述邻接距离数据对应的剩余所述聚类数据。

基于密度半径数据对聚类数据进行排序，依次以各个聚类数据为中心进行聚类，得到多个聚类簇，从而一个聚类数据能够存在于多个聚类簇中，实现聚类数据在聚类簇中的多映射性。

根据本发明的一些实施例，所述当所述聚类簇满足预设去重加入条件，将所述聚类簇加入所述簇集合，包括：

获取聚类中心候选集，其中，所述聚类中心候选集包括所有所述聚类数据，所述聚类中心候选集中的所述聚类数据基于所述密度半径数据排列；

根据所述聚类中心候选集，依次对所述簇集合和所述聚类簇进行基于距离的相似度计算方法处理，得到相似度数据；

当所述相似度数据小于预设去重阈值，将所述聚类簇加入所述簇集合。

通过聚类中心候选集中的聚类数据的排序，依次对相应的聚类簇与簇集合进行相似度计算，进行去重加入判断，使得排名优先的聚类数据对应的聚类簇能够优先进入聚类簇中，改善聚类效果。

根据本发明的一些实施例，所述基于距离的相似度计算方法包括如下类型中的至少一种：

欧式距离计算方法；

余弦距离计算方法；

汉明距离计算方法；

杰卡德距离计算方法。

通过使用或结合欧式距离、余弦距离、汉明距离和杰卡德距离计算两个聚类簇之间的相似度，能够提高相似度数据的准确性，从而改善聚类效果。

根据本发明的一些实施例，所述预设聚类终止条件包括：

所述簇集合中的聚类簇数量等于预设簇数量；

或者，

所述簇集合中的聚类半径数据大于预设半径阈值，所述聚类半径数据为所述簇集合中的所述聚类数据对应的所述密度半径数据。

当簇集合中的聚类簇数量或者聚类半径数据达到预设阈值，则认为满足聚类终止条件，输出聚类簇作为聚类结果，避免超出设置需求，影响聚类效果。

根据本发明的一些实施例，所述方法还包括：

获取待标注数据，所述待标注数据来自于所述簇集合中的所述聚类簇；

对所述待标注数据进行类别标注处理，得到标签数据；

根据所述标签数据，对所述聚类簇进行聚合，得到聚类集合。

通过抽取簇集合中的聚类数据进行类别标注，得到标签数据。根据各个聚类簇中的标签数据对聚类簇进行聚合，得到聚类集合，提高聚类效果。

第二方面，本发明实施例提供基于密度半径的聚类系统，包括：

样本获取模块，用于获取样本数据集、第一聚类数量数据和簇集合，所述样本数据集包括多个聚类数据；

邻接距离计算模块，用于计算任意两个所述聚类数据之间的距离，得到多个邻接距离数据；

密度半径计算模块，用于根据第一排序信息和所述第一聚类数量数据，对所述邻接距离数据计算得到密度半径数据，其中，所述第一排序信息为基于所述邻接距离数据对所述聚类数据进行排序得到；

聚类分析模块，用于根据所述密度半径数据和所述邻接距离数据，以各个所述聚类数据为中心进行聚类处理，得到多个聚类簇；

去重判断模块，用于当所述聚类簇满足预设去重加入条件，将所述聚类簇加入所述簇集合；

聚类终止模块，用于当所述簇集合满足预设聚类终止条件，输出所述簇集合。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面的基于密度半径的聚类方法。

第四方面，本发明实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如上述第一方面的基于密度半径的聚类方法。

根据本发明提供的实施例的基于密度半径的聚类方法，至少具有如下有益效果：对所有的聚类数据计算任意两个聚类数据之间的距离，得到多个邻接距离数据。由于邻接距离数据与聚类数据相对应，因此能够基于邻接距离数据对聚类数据进行排序得到第一排序信息，根据排序信息依次对邻接距离数据进行计算，直至满足第一聚类数量数据，得到密度半径数据，从而能够实现自动计算得出数据样本的密度半径，无需手动输入参数。以各个聚类数据为中心，通过对密度半径数据和邻接距离数据进行比较，将满足比较结果的聚类数据进行聚类，得到多个聚类簇，从而一个聚类数据能够存在于多个聚类簇中，实现聚类数据在聚类簇中的多映射性。当聚类簇满足预设去重加入条件，则认为簇集合中没有相似的聚类簇，可以将该聚类簇加入簇集合中，直至簇集合满足预设聚类终止条件，输出簇集合作为聚类结果。因此，基于密度半径的聚类方法能够实现根据不同形状分布的聚类数据，自动计算得出密度半径，无需手动输入，实现了聚类数据在聚类簇中的多映射性，提高了聚类效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的基于密度半径的聚类方法的流程图；

图2是图1中步骤S200的具体实现过程示意图；

图3是本发明实施例提供的第一聚类数量数据形成的具体流程示意图；

图4是图3中步骤S140的具体实现过程示意图；

图5是本发明另一个实施例提供的基于密度半径的聚类方法的流程图；

图6是图1中步骤S500的具体实现过程示意图；

图7是图1中步骤S600之后的具体实现过程示意图；

图8是本发明实施例提供的一种基于密度半径的聚类系统的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在模块示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于模块中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明涉及人工智能，提供了一种基于密度半径的聚类方法，获取样本数据集、第一聚类数量数据和簇集合，样本数据集包括多个聚类数据；计算任意两个聚类数据之间的距离，得到多个邻接距离数据；根据第一排序信息和第一聚类数量数据，对邻接距离数据计算得到密度半径数据，其中，第一排序信息为基于邻接距离数据对聚类数据进行排序得到；根据密度半径数据和邻接距离数据，以各个聚类数据为中心进行聚类处理，得到多个聚类簇；当聚类簇满足预设去重加入条件，将聚类簇加入簇集合；当簇集合满足预设聚类终止条件，输出簇集合。因此，基于密度半径的聚类方法能够实现根据不同形状分布的聚类数据，自动计算得出密度半径，无需手动输入，实现了聚类数据在聚类簇中的多映射性，提高了聚类效果。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是，人工智能技术还包括按照某个特定标准，如距离准则，把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离，即聚类。

聚类分析是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的，通常，模式是一个度量的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

聚类的应用范围广泛，例如在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上以作进一步的分析；并且，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

参照图1，图1示出了本发明实施例提供的基于密度半径的聚类方法的流程图，该基于密度半径的聚类方法包括但不限于有以下步骤：

步骤S100，获取样本数据集、第一聚类数量数据和簇集合，样本数据集包括多个聚类数据；

步骤S200，计算任意两个聚类数据之间的距离，得到多个邻接距离数据；

步骤S300，根据第一排序信息和第一聚类数量数据，对邻接距离数据计算得到密度半径数据，其中，第一排序信息为基于邻接距离数据对聚类数据进行排序得到；

步骤S400，根据密度半径数据和邻接距离数据，以各个聚类数据为中心进行聚类处理，得到多个聚类簇；

步骤S500，当聚类簇满足预设去重加入条件，将聚类簇加入簇集合；

步骤S600，当簇集合满足预设聚类终止条件，输出簇集合。

可以理解的是，获取样本数据集，其中样本数据集包含有多个聚类数据。样本数据集可以是多篇文章，而聚类数据则相应为各篇文章的文字内容，通过文章的文字内容对多篇文章进行聚类。计算任意两个聚类数据之间的距离，得到多个邻接距离数据，即选取一个聚类数据作为目标数据，计算目标数据与剩余的聚类数据之间的距离，得到关于目标数据的多个邻接距离数据，直至得到关于所有聚类数据的邻接距离数据。例如，聚类数据具有10个，则每个聚类数据与其邻接的数据为9个，因此，每个聚类数据都有9个与其相对应的邻接距离数据。另外，还可以根据邻接距离数据和聚类数据构建得出相应的矩阵，例如聚类数据具有10个，则构建得出10阶矩阵，从而有利于进行后续的聚类处理，提高处理效率。

由于邻接距离数据与聚类数据相对应，邻接距离数据能够表示两个聚类数据之间的距离，即两个聚类数据之间的相似程度。根据邻接距离数据对聚类数据进行升序排序得到第一排序信息，因此，可以选取一个聚类数据作为目标数据，根据目标数据与其他聚类数据之间的距离大小进行升序排序，得到第一排序信息，即根据邻接距离数据的数值大小进行升序排序，若聚类数据与目标数据相似度越高，所对应的排名越高，则与目标数据处于同一个聚类簇的几率越高。选取相似度越高的聚类数据进行密度半径计算，得到的密度半径数据的准确性越高。因此，获取第一聚类数量数据，第一聚类数量数据用于确定选取聚类数据的数量，根据第一排序信息，即根据邻接距离数据的数值由小至大排列，依次选取邻接距离数据，直至选取的邻接距离数据的数量达到第一聚类数量数据的数量。从而，根据选取得到的邻接距离数据进行计算，得到密度半径数据。因此，实现了根据聚类数据自动计算得出密度半径数据，无需客户提前手动选取出密度半径，能够针对不同形状分布的聚类数据选取出合适的密度半径，从而改善聚类效果。

以各个聚类数据为中心，以其对应的密度半径数据为聚类界限，根据邻接距离数据对剩余的聚类数据进行判断，将处于聚类界限内的聚类数据进行聚合，从而得到多个聚类簇，即每个聚类数据都具有一个以其本身为中心的聚类簇，聚类簇的数量与聚类数据的数量相同，从而一个聚类数据可以存在于多个聚类簇中，使得聚类数据在聚类簇中具有多映射性，能够适用于多种情况。

由于每个聚类数据能够存在于多个聚类簇中，会存在重复聚类，导致有多个聚类簇相似或相同的情况出现，影响聚类效果。因此，需要获取簇集合，对聚类簇进行去重判断，即对该聚类簇与簇集合中的聚类簇进行相似度比较。当聚类簇满足预设去重加入条件，则认为簇集合中没有与当前聚类簇相似或相同的聚类簇，可以将聚类簇加入簇集合中。当簇集合满足预设终止条件，则认为完成对聚类数据的聚类处理，将簇集合作为聚类结果进行输出。因此，能够实现自动计算得出密度半径，无需手动输入，避免预先设定的密度半径无法匹配聚类数据，从而能够适用于聚类数据不规则分布的情况，同时实现聚类数据在聚类簇中的多映射性，改善了聚类效果。

参照图2，图1所示实施例中的步骤S200包括但不限于有以下步骤：

步骤S210，根据词频-逆文本频率TFIDF对各个聚类数据进行加权处理，得到权重值；

步骤S220，将聚类数据和权重值导入相似哈希神经网络模型，得到转化数据；

步骤S230，根据汉明距离，针对任意一个转化数据与各个剩余转化数据之间的距离进行计算处理，得到多个邻接距离数据。

可以理解的是，词频-逆文本频率(Term Frequency–Inverse DocumentFrequency，TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术。例如，聚类数据可以为文本数据，为了对文本数据进行聚类，则需要对文本数据进行主题挖掘。因此，需要对文本数据进行分词，如果某个词或短语在一篇文章即聚类数据中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来对聚类数据分类。词频TF表示词条在第一文档中出现的频率。如果包含第一词条的文档越少，则逆文本频率IDF越大，则说明第一词条具有良好的类别区分能力。因此，利用TFIDF对各个聚类数据进行加权处理，得到相应的权重值。将聚类数据和相应的权重值作为相似哈希神经网络模型的输入，利用相似哈希神经网络模型进行计算处理，得到转化数据，即每个聚类数据的哈希码，从而能够有助于利用汉明距离计算两个聚类数据之间的距离。通过计算任意两个哈希码之间的汉明距离，得到相应聚类数据的邻接距离数据。

参照图3，图3示出了第一聚类数量数据可以由以下步骤获得：

步骤S110，根据预设类别数据和聚类数据，得到第二聚类数量数据；

步骤S120，根据第一排序信息和第二聚类数量数据，对邻接距离数据进行计算，得到多个第一密度半径数据；

步骤S130，根据第二排序信息和预设排序阈值，对第一密度半径数据进行计算，得到密度半径阈值，第二排序信息为基于第一密度半径数据对聚类数据进行排序得到；

步骤S140，根据邻接距离数据和密度半径阈值，得到第一聚类数量数据。

可以理解的是，根据预设类别数据将各个聚类数据分成多个类别，从而得到第二聚类数量数据，预设类别数据可以是所需求的聚类数据的类别数量，而第二聚类数量数据可以为每个类别平均的聚类数据数量，例如，根据预设类别数据能够将所有聚类数据分成5个类别，而聚类数据有10个，因此，每个类别平均有2个聚类数据。根据第二聚类数量数据进行计算各个聚类簇的密度半径数据，使得每个聚类簇均能够具有两个聚类数据，从而使得聚类簇达到5个，与预设类别数据所对应的类别数量相匹配，满足需求。因此，根据第一排序信息，依次选取相应的邻接距离数据，直至邻接距离数据的数量达到第二聚类数量数据所对应的数量。对选取得到的所有邻接距离数据进行计算平均值，得到第一密度半径数据。对各个聚类数据分别计算第一密度半径数据，得到多个第一密度半径数据，并基于第一密度半径数据对聚类数据进行降序排序，得到第二排序信息。由于密度半径越小，聚类簇中所包含的聚类数据可能越少，难以体现多个聚类数据的相似性。而密度半径越大，聚类簇中所包含的聚类数据可能越多，则难以体现多个聚类数据的相异性。因此，通过预设排序阈值确定合适的密度半径范围，改善聚类效果。根据第二排序信息和预设排序阈值，选取与预设排序阈值相对应的第一密度半径数据进行计算，得到密度半径阈值。例如，聚类数据具有10个，基于第二排序信息，对聚类数据进行编排序号。而预设排序阈值为0.8，则选取序号为8号的聚类数据对应的第一密度半径阈值作为密度半径阈值。对密度半径阈值和相应的邻接距离数据进行比较，对小于密度半径阈值的邻接距离数据的数量进行记录，得到第一聚类数量数据。例如，选取序号为8号的聚类数据对应的第一密度半径阈值作为密度半径阈值，同时选取序号为8号的聚类数据对应的邻接距离数据进行比较，将邻接距离数据中小于密度半径阈值的数据进行选取，得到小于密度半径的邻接距离数据的个数，即第一聚类数量数据，从而能够根据聚类数据选取合适的聚类数量，确定合适的密度半径范围，适用于聚类数据不规则分布的情况，体现同一聚类簇中的聚类数据的相似性，同时体现不同聚类簇中的聚类数据的相异性，改善聚类效果。

参照图4，图3所示实施例中的步骤S140包括但不限于有以下步骤：

步骤S141，根据邻接距离数据和密度半径阈值，得到第三聚类数量数据，第三聚类数量数据包括多个，第三聚类数量数据与聚类数据一一对应；

步骤S142，根据第三排序信息和预设数量条件，对第三聚类数量数据进行处理，得到第一聚类数量数据，第三排序信息通过对第三聚类数量数据进行排序得到。

可以理解的是，取一个聚类数据对应的全部邻接距离数据分别与密度半径阈值进行比较，记录小于密度半径阈值的邻接距离数据的数量，得到该聚类数据对应的第三聚类数量数据。对所有聚类数据的邻接距离数据进行比较，得到多个第三聚类数量数据，其中，第三聚类数量数据与聚类数据一一对应。根据第三聚类数量数据的数值大小进行排序，得到第三排序信息。根据第三排序信息，选取满足预设数量条件的第三聚类数量数据作为第一聚类数量数据。例如，第三聚类数量数据根据数值大小降序排列，预设数量条件为50％，即从第三排序信息中选取排名为第50％的第三聚类数量数据，以其作为第一聚类数量数据。因此，根据聚类数据以及其邻接距离数据，选取出合适的第一聚类数量数据，从而能够适用于聚类数据不规则分布的情况，自动计算设定参数，无需手动输入，改善聚类效果。

参照图5，图5示出了本发明另一个实施例提供的基于密度半径的聚类方法的流程图，图1所示实施例中的步骤S400包括但不限于有以下步骤：

步骤S410，根据第四排序信息，依次以各个聚类数据为中心，对待聚数据进行聚类处理，得到多个聚类簇；其中，第四排序信息为基于密度半径数据对聚类数据进行排序得到；待聚数据为小于密度半径数据的邻接距离数据对应的剩余聚类数据。

可以理解的是，基于密度半径数据，对聚类数据进行排序，得到第四排序信息，其中，可以根据密度半径数据的数值大小进行升序排序，即密度半径越小的聚类数据，其所形成的聚类簇加入簇集合的可能性越高。根据第四排序信息，依次以各个聚类数据为中心，对待聚数据进行聚类处理，其中，待聚数据是作为聚类中心的聚类数据对应的密度半径内的聚类数据。例如，选取第一样本数据为聚类中心，位于第一样本数据的密度半径范围内的聚类数据有第二样本数据和第三样本数据，从而以第一样本数据为聚类中心，对第二样本数据和第三样本数据进行聚类，形成第一聚类簇。依次以各个聚类数据为中心进行聚类，形成聚类簇，因此，一个聚类数据可以存在于多个聚类簇之中，实现聚类数据在聚类簇中具有多映射性。因此，能够根据不同聚类数据对应的密度半径进行聚类，达到针对不规则分布的聚类数据选取出合适的密度半径，改善聚类效果。

参照图6，图1所示实施例中的步骤S500包括但不限于有以下步骤：

步骤S510，获取聚类中心候选集，其中，聚类中心候选集包括所有聚类数据，聚类中心候选集中的聚类数据基于密度半径数据排列；

步骤S520，根据聚类中心候选集，依次对簇集合和聚类簇进行基于距离的相似度计算方法处理，得到相似度数据；

步骤S530，当相似度数据小于预设去重阈值，将聚类簇加入簇集合。

可以理解的是，由于一个聚类数据可以存在于多个聚类簇之中，因此，会出现多个聚类簇相似或相同的情况，影响聚类效果。对聚类簇和簇集合进行去重判断，判断当前聚类簇和已加入簇集合中的聚类簇是否相似或相同，若当前聚类簇与簇集合中的聚类簇不相似，则将聚类簇加入簇集合。可以对当前聚类簇和簇集合中的聚类簇进行基于距离的相似度计算方法进行判断处理，得到相似度数据，从而根据当前聚类簇与簇集合中的各个聚类簇之间的距离，判断是否相似。当相似度数据小于预设去重阈值，则认为当前聚类簇与簇集合中的各个聚类簇之间的距离较大，当前聚类簇与簇集合中的各个聚类簇的相似度低，因此，将聚类簇加入簇集合。

可以理解的是，聚类中心候选集包括所有的聚类数据，即所有的聚类数据都是聚类簇的中心，且聚类中心候选集中的聚类数据的排列顺序是根据对应的密度半径数据得到，即根据密度半径数据的数值大小进行升序排序，得到聚类中心候选集中的聚类数据的排列顺序。由于密度半径越小的聚类簇，聚类簇所包含的聚类数据的数量可能越少，聚类的精确度越高。因此，依次遍历排序后的聚类数据，对以其为中心的聚类簇与簇集合中的聚类簇进行相似度比较，其中，聚类簇之间的相似度可以通过基于距离的相似度计算方法进行处理，计算两两聚类簇之间的距离作为相似度数据。

可以理解的是，基于距离的相似度计算方法可以包括欧式距离计算方法、余弦距离计算方法、汉明距离计算方法和杰卡德距离计算方法。其中，可以采用一种计算方法或结合多种计算方法进行计算。例如，计算第一聚类簇与第二聚类簇之间的相似度，可以分别选取两个聚类簇的聚类中心的文本，提取出关键词，对应记为集合Α和集合Β。利用杰卡德距离计算方法计算集合Α和集合Β之间的相似度，通过计算集合Α和集合Β交集的大小与集合Α和集合Β并集的大小的比值，得到相似度，杰卡德距离计算方法具体公式如下：

其中，当集合A与集合B均为空集，J(A,B)定义为1。

例如，当J(A,B)的值小于0.3，则可以认为两个聚类簇不相似。另外，还可以使用汉明距离计算方法再次进行相似度判断。若通过汉明距离计算方法判断出该聚类簇与簇集合中所有的聚类簇都不相似，则可以将该聚类簇加入簇集合中。若通过汉明距离计算方法判断出该聚类簇与簇集合中某个聚类簇相似，则认为存在重复聚类簇，不将该聚类簇加入簇集合中。因此，可以通过多种相似度计算方法进行计算两个聚类簇之间的相似度，提高相似度计算的准确性，避免当前聚类簇为重复簇而加入簇集合中，改善聚类效果。

可以理解的是，当有聚类簇加入簇集合，则对簇集合进行终止判断，判断簇集合是否满足预设聚类终止条件。而当簇集合满足预设聚类终止条件，则将簇集合作为聚类结果进行输出。其中，预设聚类终止条件包括簇集合中的聚类簇数量等于预设簇数量，或者簇集合中的聚类半径数据大于预设半径阈值，聚类半径数据为簇集合中的聚类数据对应的密度半径数据。即当簇集合中的聚类簇数量等于预设簇数量，则认为簇集合满足预设聚类终止条件，将簇集合作为聚类结果进行输出。而当簇集合中的聚类数据对应的密度半径数据大于预设半径阈值，则认为簇集合满足预设聚类终止条件，将簇集合作为聚类结果进行输出。例如，预设簇数量设置为5个聚类簇，则当当前聚类簇加入簇集合，簇集合中具有5个聚类簇，则认为簇集合满足预设聚类终止条件，则将簇集合中的5个聚类簇作为聚类结果进行输出。又如，预设半径阈值为30，则当当前聚类簇的密度半径为35，且该聚类簇加入簇集合，则认为簇集合满足预设聚类终止条件，将已加入簇集合中的聚类簇进行输出，其中，簇集合包含有该密度半径为35的聚类簇。因此，通过设置预设聚类终止条件，能够避免过度聚类，满足使用需求。

参照图7，图7示出了基于密度半径的聚类方法包括但不限于有以下步骤：

步骤S700，获取待标注数据，待标注数据来自于簇集合中的聚类簇；

步骤S800，对待标注数据进行类别标注处理，得到标签数据；

步骤S900，根据标签数据，对聚类簇进行聚合，得到聚类集合。

可以理解的是，在聚类簇满足预设聚类终止条件，并将簇集合进行输出的情况下，从簇集合中的聚类簇抽取聚类数据作为待标注数据。其中，可以根据预设的抽取比例，如簇集合中的聚类数据的总数量的5％。对抽取得到的待标注数据进行类别标注处理，即对待标注数据标记上类别标签，得到带有类别标签的标签数据。类别标签能够用于区分标签数据所属类别。通过标签数据的类别标签能够确定相同类别的聚类簇，对聚类簇进行聚合，形成同一个类别的聚类集合。例如，输出的簇集合中有10个聚类簇，根据簇集合中的聚类数据的总数量的5％进行抽取待标注数据，并进行类别标注。标注出的类别标签共有5个类别。当某个聚类簇中具有超过半数的标签数据的类别标签被标注为第一类别，则将该聚类簇添加到第一类别聚类集合。因此，能够自动对聚类簇进行类别聚合，改善聚类效果。

参照图8，图8示出了本发明实施例提供的基于密度半径的聚类系统800的结构示意图。

样本获取模块810，用于获取样本数据集、第一聚类数量数据和簇集合，样本数据集包括多个聚类数据。

邻接距离计算模块820，用于计算任意两个聚类数据之间的距离，得到多个邻接距离数据。

密度半径计算模块830，用于根据第一排序信息和第一聚类数量数据，对邻接距离数据计算得到密度半径数据，其中，第一排序信息为基于邻接距离数据对聚类数据进行排序得到。

聚类分析模块840，用于根据密度半径数据和邻接距离数据，以各个聚类数据为中心进行聚类处理，得到多个聚类簇。

去重判断模块850，用于当聚类簇满足预设去重加入条件，将聚类簇加入簇集合。

聚类终止模块860，用于当簇集合满足预设聚类终止条件，输出簇集合。

另外，邻接距离计算模块820包括：

权重值计算模块821，用于根据词频-逆文本频率TFIDF对各个聚类数据进行加权处理，得到权重值。

转化数据计算模块822，用于将聚类数据和权重值导入相似哈希神经网络模型，得到转化数据。

距离数据计算模块823，用于根据汉明距离，针对任意一个转化数据与各个剩余转化数据之间的距离进行计算处理，得到多个邻接距离数据。

另外，基于密度半径的聚类系统800还包括聚类数量计算模块870，该聚类数量计算模块870包括：

第二聚类数量计算模块871，用于根据预设类别数据和聚类数据，得到第二聚类数量数据。

第一密度半径计算模块872，用于根据第一排序信息和第二聚类数量数据，对邻接距离数据进行计算，得到多个第一密度半径数据。

密度半径阈值计算模块873，用于根据第二排序信息和预设排序阈值，对第一密度半径数据进行计算，得到密度半径阈值，第二排序信息为基于第一密度半径数据对聚类数据进行排序得到。

第一聚类数量计算模块874，用于根据邻接距离数据和密度半径阈值，得到第一聚类数量数据。

另外，第一聚类数量计算模块874包括：

第三聚类数量计算模块875，用于根据邻接距离数据和密度半径阈值，得到第三聚类数量数据，第三聚类数量数据包括多个，第三聚类数量数据与聚类数据一一对应。

聚类数量综合计算模块876，用于根据第三排序信息和预设数量条件，对所第三聚类数量数据进行处理，得到第一聚类数量数据，第三排序信息通过对第三聚类数量数据进行排序得到。

另外，聚类分析模块840还用于根据第四排序信息，依次以各个聚类数据为中心，对待聚数据进行聚类处理，得到多个聚类簇。其中，第四排序信息为基于密度半径数据对聚类数据进行排序得到。待聚数据为小于密度半径数据的邻接距离数据对应的剩余聚类数据。

另外，去重判断模块850包括：

中心候选集模块851，用于获取聚类中心候选集，其中，聚类中心候选集包括所有聚类数据，聚类中心候选集中的聚类数据基于密度半径数据排列。

距离相似度计算模块852，用于根据聚类中心候选集，依次对簇集合和聚类簇进行基于距离的相似度计算方法处理，得到相似度数据。

簇集合加入模块853，用于当相似度数据小于预设去重阈值，将聚类簇加入簇集合。

参照图9，图9示出了本发明实施例提供的电子设备900。该电子设备900包括存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序，处理器920执行计算机程序时实现如上述实施例中的基于密度半径的聚类方法。

存储器910作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明上述实施例中的基于密度半径的聚类方法。处理器920通过运行存储在存储器910中的非暂态软件程序以及指令，从而实现上述本发明上述实施例中的基于密度半径的聚类方法。

存储器910可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述实施例中的基于密度半径的聚类方法所需的数据等。此外，存储器910可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。需要说明的是，存储器910可选包括相对于处理器920远程设置的存储器，这些远程存储器可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例中的基于密度半径的聚类方法所需的非暂态软件程序以及指令存储在存储器中，当被一个或者多个处理器执行时，执行上述实施例中的基于密度半径的聚类方法，例如，执行以上描述的图1中的方法步骤S100至步骤S600、图2中的方法步骤S210至步骤S230、图3中的方法步骤S110至步骤S140、图4中的方法步骤S141至步骤S142、图5中的方法步骤S410、图6中的方法步骤S510至步骤S530、图7中的方法步骤S700至步骤S900。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上述实施例中的基于密度半径的聚类方法，例如，执行以上描述的图1中的方法步骤S100至步骤S600、图2中的方法步骤S210至步骤S230、图3中的方法步骤S110至步骤S140、图4中的方法步骤S141至步骤S142、图5中的方法步骤S410、图6中的方法步骤S510至步骤S530、图7中的方法步骤S700至步骤S900。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于密度半径的聚类方法，所述方法包括：

当所述簇集合满足预设聚类终止条件，输出所述簇集合。

2.根据权利要求1所述的基于密度半径的聚类方法，其特征在于，所述计算任意两个所述聚类数据之间的距离，得到多个邻接距离数据，包括：

3.根据权利要求1所述的基于密度半径的聚类方法，其特征在于，所述第一聚类数量数据由以下步骤获得：

4.根据权利要求3所述的基于密度半径的聚类方法，其特征在于，所述根据所述邻接距离数据和所述密度半径阈值，得到第一聚类数量数据，包括：

5.根据权利要求1所述的基于密度半径的聚类方法，其特征在于，所述根据所述密度半径数据和所述邻接距离数据，以各个所述聚类数据为中心进行聚类处理，得到多个聚类簇，包括：

6.根据权利要求1所述的基于密度半径的聚类方法，其特征在于，所述当所述聚类簇满足预设去重加入条件，将所述聚类簇加入所述簇集合，包括：

7.根据权利要求1所述的基于密度半径的聚类方法，其特征在于，所述预设聚类终止条件包括：

所述簇集合中的聚类簇数量等于预设簇数量；

或者，

8.一种基于密度半径的聚类系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于密度半径的聚类方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任意一项所述的基于密度半径的聚类方法。