CN110796164A - 数据聚类的簇数确定方法、系统、电子设备及存储介质 - Google Patents

数据聚类的簇数确定方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN110796164A
CN110796164A CN201910895293.7A CN201910895293A CN110796164A CN 110796164 A CN110796164 A CN 110796164A CN 201910895293 A CN201910895293 A CN 201910895293A CN 110796164 A CN110796164 A CN 110796164A
Authority
CN
China
Prior art keywords
clustering
sample set
cluster
sub
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910895293.7A
Other languages
English (en)
Inventor
吕高帆
马彦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haiyi Tongzhan Information Technology Co Ltd
Original Assignee
Beijing Haiyi Tongzhan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haiyi Tongzhan Information Technology Co Ltd filed Critical Beijing Haiyi Tongzhan Information Technology Co Ltd
Priority to CN201910895293.7A priority Critical patent/CN110796164A/zh
Publication of CN110796164A publication Critical patent/CN110796164A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据聚类的簇数确定方法、系统、电子设备及存储介质。确定方法包括:获取聚类样本集以预设簇数进行聚类时的聚类参数;基于所述聚类参数确定所述预设簇数中的目标簇数,将目标簇数作为所述聚类样本集的聚类簇数。本发明实施例通过对聚类样本集进行划分得到第一子样本集,将第一子样本集的聚类结果检测得到聚类参数,通过每个预设簇数对应的聚类参数确定目标簇数,目标簇数对应的聚类参数表示的聚类质量高于其他预设簇数对应的聚类参数表示的聚类质量,将目标簇数作为聚类簇数对聚类样本集进行聚类,可以保证聚类样本集得到最好的聚类效果。

Description

数据聚类的簇数确定方法、系统、电子设备及存储介质
技术领域
本发明涉及数据聚类技术领域,尤其涉及一种数据聚类的簇数确定方法、系统、电子设备及存储介质。
背景技术
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。
在大部分网站和客户端中经常需要对未来一段时间内的访客量进行预测,以确保服务器的良好运行,而访客量的预测通常会利用数据聚类的方式得到,比如,获取当前一段时间内的访客量变化的各项参数,将其与历史数据中的各个时间段的访客量变化的参数进行聚类,通过聚类,从历史数据中得到与当前一段时间内的访客量变化的各个项参数相类似的数据,并以此得到未来一段时间内的预测访客量。但是,在实现访客量预测的过程中,发明人发现,目前比较简单流行的聚类方法,例如,经验值法,通过假设对于n个点的样本集,根据样本集中样本的数量设定相应的数值,这种方式所能得到的簇数只是一个假设的值,以该簇数进行对样本进行聚类,并不能保证最终的聚类效果,而聚类效果越差,预测得到的访客量就越容易出现偏差,最终出现预测访客量较大,用户对服务器的负载进行扩展后,真实的访客量反而较低,导致较大经济损失的情况,或者,预测访客量较小,而真实的访客量大大超出了服务器的承受范围,不仅会出现客户体验不好导致客户流失的情况,还有可能出现服务器负载过高而损坏的情况。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种数据聚类的簇数确定方法、系统、电子设备及存储介质。
第一方面,本发明实施例提供了一种数据聚类的簇数确定方法,所述方法包括:
获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集是对所述聚类样本集中的样本进行划分得到;
基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
基于上述技术方案,本发明实施例还可以做出如下改进。
结合第一方面,在第一方面的第一种实施例中,所述聚类参数是对第一子样本集的聚类结果检测得到的,包括:
通过所述预设簇数对所述第一子样本集进行多次聚类,并得到所述第一子样本集每次进行聚类的第一聚类质量;其中,每次进行聚类的第一子样本集为对所述聚类样本集随机划分得到;
根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,作为所述聚类参数。
结合第一方面的第一种实施例,在第一方面的第二种实施例中,所述通过所述预设簇数对所述第一子样本集进行多次聚类,并得到所述第一子样本集每次进行聚类的第一聚类质量,包括:
重复执行如下步骤预设次数:
将所述聚类样本集随机划分为一组所述第一子样本集和至少一组所述第二子样本集;
对所述第一子样本集按所述预设簇数进行聚类;
根据按所述预设簇数对所述第一子样本集进行聚类得到的聚类结果,计算得到所述第一子样本集进行聚类的第一聚类质量。
结合第一方面的第二种实施例,在第一方面的第三种实施例中,通过如下计算公式计算得到所述聚类质量:
Figure BDA0002209988820000031
其中,S(x)为所述第一聚类质量;b(x)为所述第一子样本集中任意元素x至与x所处簇相异的簇中其他元素的平均距离;a(x)为所述第一子样本集中任意元素x至与x所处簇中其他元素的平均距离;max(a(x),b(x))为所述a(x)和b(x)中的相较大值。
结合第一方面的第一种实施例,在第一方面的第四种实施例中,所述根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,包括:
将所有所述第一聚类质量按从小到大的顺序进行排列;
获取排列后的所述第一聚类质量中的第一四分位数和第三四分位数;
计算所述第一四分位数和第三四分位数的平均值,作为所述第二聚类质量。
结合第一方面,在第一方面的第五种实施例中,所述聚类样本集以预设簇数进行聚类的聚类方法包括:k均值聚类算法。
结合第一方面或第一方面的第一、第二、第三、第四或第五种实施例,在第一方面的第六种实施例中,所述聚类样本集每次随机划分为一组所述第一子样本集和至少一组所述第二子样本集。
第二方面,本发明实施例提供了一种数据聚类的簇数确定系统,所述系统包括:
第一处理单元,用于获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的、并用于指示所述第二子样本集按照所述预设簇数进行聚类的聚类质量;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集和所述第二子样本集是对所述聚类样本集中的样本进行划分得到;
第二处理单元,用于基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面中任一实施例所述的数据聚类的簇数确定方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一实施例所述的数据聚类的簇数确定方法。
本发明的上述技术方案与现有技术相比具有如下优点:本发明实施例通过对聚类样本集进行划分得到第一子样本集,将第一子样本集的聚类结果检测得到聚类参数,通过每个预设簇数对应的聚类参数确定目标簇数,目标簇数对应的聚类参数表示的聚类质量高于其他预设簇数对应的聚类参数表示的聚类质量,将目标簇数作为聚类簇数对聚类样本集进行聚类,可以保证聚类样本集得到最好的聚类效果。
附图说明
图1是本发明实施例提供的一种数据聚类的簇数确定方法流程示意图;
图2是本发明另一实施例提供的一种数据聚类的簇数确定方法流程示意图;
图3是本发明又一实施例提供的一种数据聚类的簇数确定方法流程示意图其一;
图4是本发明又一实施例提供的一种数据聚类的簇数确定方法流程示意图其二;
图5是本发明又一实施例提供的一种数据聚类的簇数确定系统结构示意图;
图6是本发明又一实施例提供的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种数据聚类的簇数确定方法。参照图1,所述方法包括如下步骤:
S11、获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的、并用于指示所述第二子样本集按照所述预设簇数进行聚类的聚类质量;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集是对所述聚类样本集中的样本进行划分得到。
在本方案中,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
在本实施例中,通过对聚类样本集进行随机划分得到第一子样本集和第二子样本集,并对第一子样本集的聚类结果进行检测得到聚类参数,比如,可以通过对第一子样本集进行聚类后得到的各个簇之间的分离度和/或各个簇内部的离散程度来评价聚类结果的聚类质量,由于第一子样本集和第二子样本集是随机得到的,针对第一子样本集的聚类结果得到的聚类参数不仅可以用于指示聚类样本集进行聚类的聚类质量,该聚类参数还可以用于指示第二子样本集按照预设簇数进行聚类的聚类质量。
绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果,而聚类质量就是用以评价通过聚类算法对数据进行聚类后的聚类结果的聚合度。
在本实施例中,可以通过K-均值聚类算法、K-中心算法、Clarans聚类算法等算法对第一子样本集进行聚类得到相应的聚类结果,另外还有比如k-prototypes算法、FocusedCLARAN算法、PCM算法等,本步骤中不再赘述,本发明实施例对此不做特别限定。
在本实施例中,对聚类样本集进行划分得到的子样本集可以包括一个第一子样本集和至少一个第二子样本集,只需确保子样本集是随机划分得到的,且子样本集中保留数量足够的样本,就可以确保最终得到的聚类参数可以用以指示第二子样本集的聚类质量。
S12、基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
在本实施例中,基于聚类参数在各个预设簇数中确定目标簇数,即,针对每个预设簇数,分别得到相应的聚类参数,按聚类参数从所有预设簇数中确定最适合该聚类样本集的目标簇数,保证目标簇数对应的聚类参数所表示的聚类质量高于其他每个预设次数对应的聚类参数所表示的聚类质量,将该目标簇数作为聚类样本集的聚类簇数,保证聚类样本集的聚类质量。
如图2所示,在一个具体的实施例中,所述聚类参数是对第一子样本集的聚类结果检测得到的,包括如下步骤:
S21、通过所述预设簇数对所述第一子样本集进行多次聚类,并得到所述第一子样本集每次进行聚类的第一聚类质量;其中,每次进行聚类的第一子样本集为对所述聚类样本集随机划分得到。
在本实施例中,通过预设簇数对第一子样本集进行多次聚类,每次进行聚类的第一子样本集均是对聚类样本集进行随机划分得到,即,将聚类样本集随机划分为一个第一子样本集和至少一个第二子样本集后,按预设簇数对第一子样本集进行聚类,并得到第一子样本集进行聚类的聚类质量,作为该第一聚类质量,其中第一用以区分该聚类质量与其他聚类质量,并无其他实际含义。
S22、根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,作为所述聚类参数。
在本实施例中,根据每次按照预设簇数对聚类样本集的第一子样本集进行聚类得到的各个第一聚类质量,得到第二聚类质量,作为聚类参数;其中,可以通过将各个第一聚类质量进行平均计算得到第二聚类质量。
如图3所示,S21步骤中,通过预设簇数对第一子样本集进行多次聚类,并得到第一子样本集每次进行聚类的第一聚类质量,包括如下步骤:
重复执行如下步骤预设次数:
S31、将所述聚类样本集随机划分为一组所述第一子样本集和至少一组所述第二子样本集。
在本实施例中,将聚类样本集随机划分为一组第一子样本集和至少一组第二子样本集,通过将聚类样本集进行划分得到子样本集,而子样本集中的样本数量会低于聚类样本集中的样本数量,在聚类样本集中的样本数量较多时,通过子样本集代替聚类样本集进行聚类,可以有效的提高聚类效率,同时,由于子样本集是由聚类样本集随机划分得到,子样本集可以大概率地继承聚类样本集的样本分布情况,以子样本集进行聚类的聚类质量可以从侧面说明聚类样本集进行聚类的聚类质量。
S32、对所述第一子样本集按所述预设簇数进行聚类。
在本实施例中,在本实施例中,可以通过K-均值聚类算法、K-中心算法、Clarans聚类算法等算法对第一子样本集进行聚类得到相应的聚类结果,另外还有比如k-prototypes算法、Focused CLARAN算法、PCM算法等,本步骤中不再赘述,本发明实施例对此不做特别限定。
S33、根据按所述预设簇数对所述第一子样本集进行聚类得到的聚类结果,计算得到所述第一子样本集进行聚类的第一聚类质量。
在本实施例中,由于对第一子样本集进行聚类,并得到相应的聚类质量是重复进行,通过重复对聚类样本集进行划分,并得到相应的第一聚类质量,随着次数的增加,最终,重复得到的第一聚类质量会呈现正态分布的情况,所以,可以根据正态分布的情况,得到最能说明聚类样本集进行聚类的聚类质量的第一聚类质量。通过重复进行的对第一样本集进行聚类,并得到相应的第一聚类质量,可以避免随机划分得到的第一子样本集有可能出现无法体验聚类样本集中样本分布的情况。
其中,执行上述步骤的次数可以由用户进行设定,或者,可以是得到第一聚类质量呈现正态分布最少所需的数据点个数,将该数据点个数作为执行上述步骤的次数,具体的,由于第一子样本集是由聚类样本集随机划分得到,所以,第一聚类质量和得到相同聚类质量的第一子样本集的数量呈正态分布,即,第一聚类质量出现的次数最多的点为该正态分布曲线的期望值,而该正态分布曲线的方差可以通过各个数据点的情况计算得到,比如,通过不断的执行上述步骤,由于数据量越来越大,正态分布曲线的方差会趋近于实际值,当方差值的波动性小于预设值时,就可以停止执行上述步骤,得到正态分布曲线的方差,通过正态分布曲线的分布和方差得到完整的正态分布曲线。
在本实施例中,根据聚类结果得到第一子样本集进行聚类的第一聚类质量,可以通过如下计算公式计算得到:
Figure BDA0002209988820000091
其中,S(x)为所述第一聚类质量;b(x)为所述第一子样本集中任意元素x至与x所处簇相异的簇中其他元素的平均距离;a(x)为所述第一子样本集中任意元素x至与x所处簇中其他元素的平均距离;max(a(x),b(x))为所述a(x)和b(x)中的相较大值。
基于上述公式中的参数可以得知,S(x)的波动区间是-1至1,由于b(x)代表各个聚合簇之间的稀疏水平,且值越大越好,a(x)代表聚类簇内各元素的紧凑程度,且值越小效果越突出,所以S(x)越大聚类效果越突出,即聚类质量越好。
如图4所示,步骤S22中,根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,可以包括如下步骤:
S41、将所有所述第一聚类质量按从小到大的顺序进行排列。
S42、获取排列后的所述第一聚类质量中的第一四分位数和第三四分位数。
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。
S43、计算所述第一四分位数和第三四分位数的平均值,作为所述第二聚类质量。
在本实施例中,得到当前区间的四分位数作为当前预设簇数的第二聚类质量,第二聚类质量的选取过程不仅避免了平均数无法表达个体差异的问题,而且通过四分位均值的计算更体现了第二聚类质量的整体性和代表性。
如图5所示,本发明实施例提供了一种数据聚类的簇数确定系统。所述系统包括:第一处理单元和第二处理单元。
在本实施例中,第一处理单元,用于获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的、并用于指示所述第二子样本集按照所述预设簇数进行聚类的聚类质量;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集和所述第二子样本集是对所述聚类样本集中的样本进行划分得到。
在本实施例中,第二处理单元,用于基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
在本实施例中,第一处理单元,具体用于通过所述预设簇数对所述第一子样本集进行多次聚类,并得到所述第一子样本集每次进行聚类的第一聚类质量;其中,每次进行聚类的第一子样本集为对所述聚类样本集随机划分得到;根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,作为所述聚类参数。
在本实施例中,第一处理单元,具体用于重复执行如下步骤预设次数:将所述聚类样本集随机划分为一组所述第一子样本集和至少一组所述第二子样本集;对所述第一子样本集按所述预设簇数进行聚类;根据按所述预设簇数对所述第一子样本集进行聚类得到的聚类结果,计算得到所述第一子样本集进行聚类的第一聚类质量。
在本实施例中,第一处理单元,具体用于通过如下计算公式计算得到所述聚类质量:
Figure BDA0002209988820000111
其中,S(x)为所述第一聚类质量;b(x)为所述第一子样本集中任意元素x至与x所处簇相异的簇中其他元素的平均距离;a(x)为所述第一子样本集中任意元素x至与x所处簇中其他元素的平均距离;max(a(x),b(x))为所述a(x)和b(x)中的相较大值。
在本实施例中,第一处理单元,具体用于将所有所述第一聚类质量按从小到大的顺序进行排列;获取排列后的所述第一聚类质量中的第一四分位数和第三四分位数;计算所述第一四分位数和第三四分位数的平均值,作为所述第二聚类质量。
所述聚类样本集以预设簇数进行聚类的聚类方法包括:k均值聚类算法。
所述聚类样本集每次随机划分为一组所述第一子样本集和至少一组所述第二子样本集。
如图6所示,本发明实施例提供了一种电子设备。包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下步骤:
获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的、并用于指示所述第二子样本集按照所述预设簇数进行聚类的聚类质量;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集和所述第二子样本集是对所述聚类样本集中的样本进行划分得到;
基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器1130(RandomAccessMemory,简称RAM),也可以包括非易失性存储器1130(non-volatilememory),例如至少一个磁盘存储器1130。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器1110,包括中央处理器1110(CentralProcessingUnit,简称CPU)、网络处理器1110(NetworkProcessor,简称NP)等;还可以是数字信号处理器1110(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一实施例所述的数据聚类的簇数确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据聚类的簇数确定方法,其特征在于,所述方法包括:
获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集是对所述聚类样本集中的样本进行划分得到;
基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
2.根据权利要求1所述的方法,其特征在于,所述聚类参数是对第一子样本集的聚类结果检测得到的,包括:
通过所述预设簇数对所述第一子样本集进行多次聚类,并得到所述第一子样本集每次进行聚类的第一聚类质量;其中,每次进行聚类的第一子样本集为对所述聚类样本集随机划分得到;
根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,作为所述聚类参数。
3.根据权利要求2所述的方法,其特征在于,所述通过所述预设簇数对所述第一子样本集进行多次聚类,并得到所述第一子样本集每次进行聚类的第一聚类质量,包括:
重复执行如下步骤预设次数:
将所述聚类样本集随机划分为一组所述第一子样本集和至少一组所述第二子样本集;
对所述第一子样本集按所述预设簇数进行聚类;
根据按所述预设簇数对所述第一子样本集进行聚类得到的聚类结果,计算得到所述第一子样本集进行聚类的第一聚类质量。
4.根据权利要求3所述的方法,其特征在于,通过如下计算公式计算得到所述聚类质量:
其中,S(x)为所述第一聚类质量;b(x)为所述第一子样本集中任意元素x至与x所处簇相异的簇中其他元素的平均距离;a(x)为所述第一子样本集中任意元素x至与x所处簇中其他元素的平均距离;max(a(x),b(x))为所述a(x)和b(x)中的相较大值。
5.根据权利要求2所述的方法,其特征在于,所述根据所有所述第一聚类质量,得到所述聚类样本集在所述预设簇数下进行聚类的第二聚类质量,包括:
将所有所述第一聚类质量按从小到大的顺序进行排列;
获取排列后的所述第一聚类质量中的第一四分位数和第三四分位数;
计算所述第一四分位数和第三四分位数的平均值,作为所述第二聚类质量。
6.根据权利要求1所述的方法,其特征在于,所述聚类样本集以预设簇数进行聚类的聚类方法包括:k均值聚类算法。
7.根据权利要求1~6中任一所述的方法,其特征在于,所述聚类样本集每次随机划分为一组所述第一子样本集和至少一组所述第二子样本集。
8.一种数据聚类的簇数确定系统,其特征在于,所述系统包括:
第一处理单元,用于获取聚类样本集以预设簇数进行聚类时的聚类参数;所述聚类参数是对第一子样本集的聚类结果检测得到的、并用于指示所述第二子样本集按照所述预设簇数进行聚类的聚类质量;其中,所述聚类结果是按照所述预设簇数对所述第一子样本集进行聚类得到的;所述第一子样本集和所述第二子样本集是对所述聚类样本集中的样本进行划分得到;
第二处理单元,用于基于所述聚类参数确定所述预设簇数中的目标簇数,其中,所述目标簇数作为所述聚类样本集的聚类簇数,所述目标簇数对应的聚类参数所表示的聚类质量不低于任一所述预设簇数对应的所述聚类参数所表示的聚类质量;所述预设簇数设置有至少两个。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7中任一所述的数据聚类的簇数确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一所述的数据聚类的簇数确定方法。
CN201910895293.7A 2019-09-20 2019-09-20 数据聚类的簇数确定方法、系统、电子设备及存储介质 Pending CN110796164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910895293.7A CN110796164A (zh) 2019-09-20 2019-09-20 数据聚类的簇数确定方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910895293.7A CN110796164A (zh) 2019-09-20 2019-09-20 数据聚类的簇数确定方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110796164A true CN110796164A (zh) 2020-02-14

Family

ID=69438738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910895293.7A Pending CN110796164A (zh) 2019-09-20 2019-09-20 数据聚类的簇数确定方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110796164A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950632A (zh) * 2020-08-12 2020-11-17 贝壳技术有限公司 用于实现聚类的方法、装置、介质以及电子设备
WO2023016087A1 (zh) * 2021-08-09 2023-02-16 腾讯科技(深圳)有限公司 图像聚类方法、装置、计算机设备及存储介质
CN115982633A (zh) * 2023-03-21 2023-04-18 北京百度网讯科技有限公司 目标对象分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3126829A4 (en) * 2014-03-31 2017-10-25 Ingrain, Inc. Representative elementary volume determination via clustering-based statistics
CN107358268A (zh) * 2017-07-20 2017-11-17 北京京东尚科信息技术有限公司 用于数据聚类分组的方法、装置、电子设备及可读介质
CN108874959A (zh) * 2018-06-06 2018-11-23 电子科技大学 一种基于大数据技术的用户动态兴趣模型建立方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3126829A4 (en) * 2014-03-31 2017-10-25 Ingrain, Inc. Representative elementary volume determination via clustering-based statistics
CN107358268A (zh) * 2017-07-20 2017-11-17 北京京东尚科信息技术有限公司 用于数据聚类分组的方法、装置、电子设备及可读介质
CN108874959A (zh) * 2018-06-06 2018-11-23 电子科技大学 一种基于大数据技术的用户动态兴趣模型建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈黎飞等: ""基于层次划分的最佳聚类数确定方法"", 《软件学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950632A (zh) * 2020-08-12 2020-11-17 贝壳技术有限公司 用于实现聚类的方法、装置、介质以及电子设备
WO2023016087A1 (zh) * 2021-08-09 2023-02-16 腾讯科技(深圳)有限公司 图像聚类方法、装置、计算机设备及存储介质
CN115982633A (zh) * 2023-03-21 2023-04-18 北京百度网讯科技有限公司 目标对象分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109961086B (zh) 基于聚类和sse的异常点比例优化方法及装置
CN112149757B (zh) 一种异常检测方法、装置、电子设备及存储介质
CN110909205B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN110796164A (zh) 数据聚类的簇数确定方法、系统、电子设备及存储介质
JP2020522077A (ja) 画像特徴の取得
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
CN112329847A (zh) 一种异常检测方法、装置、电子设备及存储介质
CN110245687B (zh) 用户分类方法以及装置
WO2020056968A1 (zh) 数据降噪方法、装置、计算机设备和存储介质
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN112114986A (zh) 数据异常识别方法、装置、服务器和存储介质
CN110717806B (zh) 产品信息推送方法、装置、设备及存储介质
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
CN113705981A (zh) 一种基于大数据的异常监测的方法及装置
JP6815296B2 (ja) ニューラルネットワーク評価装置、ニューラルネットワーク評価方法、およびプログラム
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN114817425A (zh) 一种冷热数据分类的方法、装置、设备及可读存储介质
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
CN111858245A (zh) 一种异常数据的分析方法、装置、电子设备及存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN115757900A (zh) 应用人工智能模型的用户需求分析方法及系统
CN115484044A (zh) 一种数据状态的监控方法及系统
US11676050B2 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214