CN108509967A - 一种聚类分析方法及装置、服务器 - Google Patents

一种聚类分析方法及装置、服务器 Download PDF

Info

Publication number
CN108509967A
CN108509967A CN201710228448.2A CN201710228448A CN108509967A CN 108509967 A CN108509967 A CN 108509967A CN 201710228448 A CN201710228448 A CN 201710228448A CN 108509967 A CN108509967 A CN 108509967A
Authority
CN
China
Prior art keywords
histogram
distance matrix
matrix
data set
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710228448.2A
Other languages
English (en)
Inventor
程圣军
熊安斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN108509967A publication Critical patent/CN108509967A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种聚类分析方法及装置、服务器:获取待分析的数据集的距离矩阵,距离矩阵用于表征数据集中的任意两个数据之间的距离值。构建距离矩阵的直方图,并将直方图拟合为n个概率分布函数的加权和。在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。因为直方图反映的是矩阵中的元素值的统计特征,而距离矩阵包括的元素值是数据在空间中两两之间的距离值,所以,距离矩阵的直方图反映的是数据在空间中的分布情况,将这种分布情况拟合为概率分布函数,并通过概率分布函数的分离程度,确定空间中的数据是否可聚,与现有的可聚性分析方法相比,以数据在空间中的分布情况考虑数据集是否可聚,具有更高的准确性。

Description

一种聚类分析方法及装置、服务器
本申请要求于2017年02月28日提交中国专利局、申请号为201710114107.2、发明名称为“一种聚类分析方法及装置、服务器”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及电子信息领域,尤其涉及一种聚类分析方法及装置、服务器。
背景技术
聚类分析也称群分析或点群分析,聚类分析是将个体或对象分类,使得同一类中的对象之间的相似性比与其它类的对象的相似性更强。其目的在于使类间对象的同质性最大化,类与类间对象的异质性最大化。简单说来,聚类分析就是把相似的研究对象归为一类,以方便研究。
可聚性分析是聚类分析的一部分,是对数据可否被有意义地聚在一起的分析。现有的可聚性分析方法包括基于聚类中心扰动的可聚性分析方法(Center perturbationclusterability)、基于最小样本对距离比率的可聚性分析方法(Worst pair ratioclusterability)、基于区分性的可聚性分析方法(Separabilityclusterability)以及基于方差比率的可聚性分析方法(Variance ratio clusterability)等。
现有的这些可聚性分析方法的关注点在于聚类中心的分布情况,例如聚类中心的扰动、以及类间距离和类内距离之间的比例等。这使得对高维空间的样本,可聚性分析的结果并不准确。
发明内容
本申请提供了一种聚类分析方法及装置、服务器,目的在于解决如何提高可聚性分析的准确性的问题。
本申请的第一方面提供了一种聚类分析方法,包括以下步骤:获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值。构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数。在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。因为直方图反映的是矩阵中的元素值的统计特征,而距离矩阵用于表征的元素值是数据在空间中两两之间的距离值,所以,距离矩阵的直方图反映的是数据集在空间中的分布情况,将这种分布情况拟合为n个概率分布函数的加权和,并通过n个概率分布函数的分离程度,确定空间中的数据是否可聚,与现有的可聚性分析方法相比,以数据在空间中的分布情况考虑数据集是否可聚,具有更高的准确性。
本申请的第二方面提供了一种聚类分析服务器,包括通信组件和处理器。通信组件用于获取待分析的数据集。处理器用于获取所述数据集的距离矩阵,所述距离矩阵用于表征所述数据中的任意两个数据之间的距离值,构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数,在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。所述聚类分析服务器以数据在空间中的分布情况考虑数据集是否可聚,具有更高的准确性。
本申请的第三方面提供了一种聚类分析装置,包括:距离矩阵获取模块、直方图构建模块、拟合模块和可聚性确定模块。其中,距离矩阵获取模块用于获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值。直方图构建模块用于构建所述距离矩阵的直方图。拟合模块用于将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数。可聚性确定模块用于在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。
在一个实现方式中,所述将所述直方图拟合为n个概率分布函数的加权和包括:将所述直方图拟合为n阶混合正态分布函数。因为自然界及工程技术中大量的随机现象都服从或近似服从正态分布,所以,将距离矩阵的直方图拟合为正态分布函数,可以进一步提高可聚性分析的准确性。
在一个实现方式中,n等于2。所述n个概率分布函数的分离程度的计算方法包括:依据2阶混合模型中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。进一步的,计算所述两个正态分布函数的Ashman's D分数。均值和方差为正态分布函数最常用且容易获得的参数,所以,利用均值和方差,进一步的,利用Ashman's D分数计算两个正态分布函数的分离程度,具有易于实现的优点。
在一个实现方式中,所述依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。在正态分布函数为两个的情况下,将阈值设置为2,有利于提高可聚性分析的准确性。
在一个实现方式中,在所述确定所述数据集可聚之后,还包括:将所述距离矩阵转换为二值矩阵,并将所述二值矩阵作为邻接矩阵,构建连通图,确定所述连通图中连通子图的数量为所述数据可形成的聚类的数量。通过这种方式获得聚类的数量,可以实现自动聚类,而无需人工尝试聚类个数,能够提高聚类分析的效率。
在一个实现方式中,所述将所述距离矩阵转换为二值矩阵包括:使用大津阈值算法,将所述距离矩阵转换为二值矩阵。大津阈值算法使用的阈值得到的分类间的类间方差最大,更为贴合聚类的特点,所以,相比于其它的二值化算法,更适用于可聚性分析过程。
在一个实现方式中,所述构建所述距离矩阵的直方图包括:确定所述距离矩阵中元素的最大值和最小值的差值。获取预先设定的所述直方图的分组数目或者依据所述距离矩阵中的元素的个数的平方根确定所述直方图的分组数目。计算所述差值与所述分组数目的比值,所述比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围。生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。
在一个实现方式中,在获取所述连通图中连通子图的数量之后,还包括:对所述数据集进行聚类。
在一个实现方式中,在确定n等于1的情况下,确定所述数据集不可聚,而无需再计算概率分布函数的分离程度,是一种快速确定数据集不可聚的方法。
附图说明
图1为大数据分析的基本架构图;
图2为运营商应用大数据分析得到用户群分类的场景示意图;
图3为本申请实施例公开的一种聚类分析服务器的结构示意图;
图4为本申请实施例公开的一种聚类分析方法的流程图;
图5为本申请实施例公开的聚类分析过程中构建的距离矩阵的直方图;
图6为本申请实施例公开的距离矩阵拟合为高斯正态分布函数的示意图;
图7为本申请实施例公开的距离矩阵的二值矩阵对应的连通图;
图8为本申请实施例公开的一种聚类分析装置的结构示意图。
具体实施方式
图1为大数据分析的基本架构,包括数据获取模块和数据挖掘分析平台,其中,数据获取模块用于数据的获取和预处理,并将处理后的数据发给数据挖掘分析平台。聚类分析模块为数据挖掘分析平台上的一个功能模块,包括可聚性分析子模块和聚类子模块,可聚性分析子模块用于对接收到的数据进行可聚性分析,得到可聚性分析结果(如数据集可聚类,以及聚类的数量),聚类子模块在可聚性分析结果表示数据可聚的情况下,得到数据集的聚类结果。
图1所示的大数据分析的架构可用于各种场景,例如,图2为运营商应用大数据分析得到用户群分类的场景:其中,数据获取模块将电信用户的各种基础数据表单(例如用户的流量数据表单、用户的基本信息表单和用户的通话时长表单)中的用户行为数据进行汇总以及预处理,得到用户行为特征数据。数据挖掘与分析平台上的聚类分析模块接收用户行为特征数据,可聚性分析子模块分析用户行为特征数据是否具有可聚性,如果是,聚类子模块得到用户群的聚类结果。聚类分析模块将用户群的聚类结果发给营销平台,营销平台依据用户群的聚类结果,针对不同的用户群,制定不同的流量营销策略。
本申请对图1或图2所示的聚类分析模块的功能进行改进。图3为本申请实施例提出的一种聚类分析服务器,可以作为图1或图2所示的聚类分析模块,包括:通信组件和处理器。其中,通信组件用于接收数据集以及发送可聚性分析结果,处理器用于对接收到的数据聚进行可聚性分析。可选的,图3所示的聚类分析服务器还可以包括存储器。通信组件、处理器和存储器通过总线通信。
其中,通信组件可以包括发送器和接收器。具体的,通信组件的具体形式可以为集成了发送功能电路和接收功能电路的射频(Radio Frequency,RF)电路。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路还可以通过无线通信与网络和其它设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System ofMobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
下面对图3所示的聚类分析服务器(即图1中的聚类分析模块)中的处理器进行可聚性分析的功能进行详细的说明。
图4为本申请实施例公开的一种可聚性分析方法,包括以下步骤:
S401:对接收到的数据集,计算两两数据之间的距离值,以得到距离矩阵,距离矩阵中的元素为数据ai和数据aj之间的距离dij,i,j=0,1,2,…,N,i≠j,N为大于1的整数。i=j时,距离为0。
例如,空间中的10个二维数据为:
可以使用现有的距离计算方式,例如欧氏距离算法d=sqrt((x1-x2)2+(y1-y2)2),得到P中的任意两个数据之间的距离值,以a0和a1为例,两者间的欧氏距离值为sqrt((2.22-0.80)2+(1.92-2.83)2)=1.68656。
由P得到的距离矩阵如表1,表1中的每个元素的值为P中的两个数据之间的欧氏距离值:
表1
S402:构建距离矩阵的直方图。
构建直方图的具体步骤包括:
1、确定距离矩阵中元素的最大值和最小值。接上例,距离矩阵中的元素的最大值为9.59426,元素的最小值为0。
2、确定直方图分组的数目(即直方图中柱体的个数)。一般情况下,分组的数目通过距离矩阵中元素的个数确定,例如,分组的数目等于距离矩阵中元素的个数的平方根。分组的数目也可以人为给定,本例中,给定的分组数为20。
3、设定组距(柱体的宽度)。宽度可由(1中确定的最大值-1中确定的最小值)除以分组数得到,柱体的宽度表示所述距离矩阵中的元素值的范围。接上例,宽度=(9.59426-0)/20=0.479713。
4、作直方图,如图5所示,直方图中,柱体的宽度为0.479713,柱体的高度(纵轴表示)等于距离矩阵中落在每个柱体所占的区间(横轴表示)的元素的个数。例如,图5中,第一个柱体的高度为2表示:表1所示的距离矩阵中,落在第一个柱体所占的横轴区间的元素的个数为2。
上述步骤仅为构建直方图的一种示例,除此以外,直方图的柱体宽度可以不相同,直方图也可以采用非离散即连续的形式等,总之,本实施例不对直方图的具体形态做限定,其它形态的直方图的构建方法可以参见现有技术,这里不再赘述。
S403:将距离矩阵的直方图拟合为n个概率分布函数的加权和。
通常,概率分布函数包括二项分布函数、泊松分布函数、均匀分布函数、指数分布函数和正态分布函数。可以将距离矩阵的直方图拟合为上述任意一种分布函数。
可选的,因为自然界及工程技术中大量的随机现象都服从或近似服从正态分布,所以,本实施例中,将距离矩阵的直方图拟合为正态分布函数,以提高可聚性分析的准确性。
将距离矩阵的直方图拟合为n个正态分布函数的加权和的具体方式为:使用2阶混合正态模型(即包括两个正态分布)对直方图进行拟合,即:计算图5所示的直方图中距离分布的均值μ01和方差μ0=1.41,μ1=8.06,σ0=0.77,σ1=0.86(离散函数的均值和方差的计算方法可以参见现有技术,这里不再赘述),并带入正态分布密度函数得到图6所示的2阶正态分布函数,图6中的两个高斯正态分布函数的均值和方差为μ0=1.41,μ1=8.06,σ0=0.77,σ1=0.86。
需要说明的是,2阶仅为本实施例的举例,也可以采用m阶模型,拟合得到m阶混合正态分布函数,m为大于2的整数。也就是说,可以将直方图拟合得到m阶正态混合分布函数,m为等于或大于2的整数。
S404:在确定n大于或等于2的情况下,计算n个概率分布函数的分离程度,依据分离程度,确定数据集是否可聚。在确定n等于1的情况下,确定数据不可聚。
以图6所示的2阶混合正态分布函数为例,本实施例依据高斯混合模型中两个高斯正态分布函数的均值和方差,计算两个正态分布函数的分离程度,进一步的,使用Ashman'sD分数表示两个高斯正态分布的分离程度。Ashman's D分数的计算公式为:将μ0=1.41,μ1=8.06,σ0=0.77,σ1=0.86带入上述计算公式,得到Ashman's D分数为8.18。
因为图6中为2阶混合正态分布函数,通俗地讲,图6中包括两个正态分布函数,由反映数据在空间中的分布情况的直方图拟合得到,所以,如果这两个函数可以分离,则说明分布在空间中的数据是分离的,也就是可以分类的。所以,本实施例中,设定阈值为2,因为Ashman's D分数为8.18,且8.18>2,所以,确定数据可聚。
需要说明的是,如果S403中得到的是n阶概率分布函数,则可以使用其它方式计算这n阶概率分布函数的分离程度,而不限于Ashman's D分数。阈值依据n设定,例如,阈值可以设定为n。
从上述步骤可以看出,本实施例中,将数据的距离矩阵表示为直方图,并将直方图拟合为概率分布函数,再依据概率分布函数的分离程度判断数据是否可聚。与现有的可聚性分析方法相比,因为直方图直接反应数据间的距离分布情况,并且从概率分布的角度评判距离的分布情况,所以,具有更高的准确性。
S401-S404为聚类分析中的可聚性分析的过程,由图1或图2所示的可聚性分析子模块执行。
进一步的,本实施例中,图1或图2所示的可聚性分析子模块还可以在分析出数据可聚后,确定数据可形成的分类的个数,即聚类的个数。具体包括以下步骤:
S405:将距离矩阵转换为二值矩阵。
二值矩阵为元素值为0或1的矩阵,可以使用现有的阈值分割方法将距离矩阵转换为二值矩阵。
例如,本实施例中采用大津阈值Otsu’s算法将表1所示的距离矩阵转换为二值矩阵,具体的,Otsu’s算法的主要原理为:将(X-Y)*i/Z,i=1……Z,依次作为阈值,对于每一个阈值:将距离矩阵中大于该阈值的元素的值设置为1,小于或等于该阈值的元素的值设置为0,以得到二值矩阵,二值矩阵中元素1称为第一类元素,元素0称为第二类元素。再计算第一类元素和第二类元素的类间方差其中,μ为二值矩阵中的所有元素的均值,μ0为第一类元素的均值,μ1为第二类元素的均值,ω1为第一类元素的数量/二值矩阵的元素总数量,ω2为第二类元素的数量/二值矩阵的元素总数量,ω12=1。X为距离矩阵中元素的最大值,Y为距离矩阵中元素的最小值,Z为自然数,可以人为设定。
将最大的类间方差对应的阈值作为最终阈值,以表1为例,最终阈值C=4073,将表1所示的距离矩阵中大于该最终阈值的元素的值设置为1,将表1所示的距离矩阵中小于或等于该最终阈值的元素的值设置为0。转换得到的二值矩阵如表2所示。
表2
a0 a1 a2 a3 a4 a5 a6 a7 a8 a9
a0 0 1 1 1 1 0 0 0 0 0
a1 1 0 1 1 1 0 0 0 0 0
a2 1 1 0 1 1 0 0 0 0 0
a3 1 1 1 0 1 0 0 0 0 0
a4 1 1 1 1 0 0 0 0 0 0
a5 0 0 0 0 0 0 1 1 1 1
a6 0 0 0 0 0 1 0 1 1 1
a7 0 0 0 0 0 1 1 0 1 1
a8 0 0 0 0 0 1 1 1 0 1
a9 0 0 0 0 0 1 1 1 1 0
S406:将二值矩阵作为连通图的邻接矩阵,构建连通图。
邻接矩阵为存放连通图中的顶点间关系的矩阵。以表2为例,a0……a9为图中的顶点,元素1表示两个顶点相连通,元素0表示两个顶点不连通。表2所示的邻接矩阵构建出的连通图如图7所示,其中,横轴表示a0……a9的第一维数值,纵轴表示a0……a9的第二维数值(具体数值参见上述P所示),表2所示的顶点间的连通关系反应在图7上,可以看出a0、a1、a2、a3和a4连通,a5、a6、a7、a8和a9连通。需要说明的是,“连通”包括直接相连和通过其它顶点相连,通常,连通图中给出的是通过上述两种情况得到的各个连通子图的并集,也就是说,虽然a0、a1、a2、a3和a4彼此连通,但是图7中,仅画出这5个点连通的连通子图,即可表达出这5个点之间的连通性。
S407:将连通图中连通子图的数量作为聚类的个数。
图7中,包括两个连通子图,所以,聚类的个数为2。
也就是说,图1或图2中的可聚性分析模块可以向聚类分析模块输出数据可聚的结果,以及聚类的个数。可聚性模块使用聚类的个数进行聚类分析,得到聚类结果。
与传统的人工试错得到的聚类个数的方式相比,本实施例中所述的可聚性分析方法给出确定的聚类个数,所以能够提高后续聚类分析的效率。
图8为本申请实施例公开的一种聚类分析装置,包括:距离矩阵获取模块、直方图构建模块、拟合模块和可聚性确定模块,可选的,还包括聚类数量确定模块和聚类模块。
其中,距离矩阵获取模块用于获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值。直方图构建模块用于构建所述距离矩阵的直方图。拟合模块用于将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数。可聚性确定模块用于在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚,可选的,在n等于1的情况下,确定数据集不可聚。聚类数量确定模块用于在所述可聚性确定模块确定所述数据集可聚之后,将所述距离矩阵转换为二值矩阵,并将所述二值矩阵作为邻接矩阵,构建连通图,所述连通图中连通子图的数量为所述数据可形成的聚类的数量。聚类模块用于在所述聚类数量确定模块获取所述连通图中连通子图的数量之后,对所述数据集进行聚类。
各个模块的功能的具体实现方式可以参见上述方法,这里不再赘述。
图8所示的聚类分析装置可以为图1或图2中所示的聚类分析模块,具有较高的可聚性分析准确性,进一步的,可以自动获取聚类的个数,提高聚类分析的效率。

Claims (27)

1.一种聚类分析方法,其特征在于,包括:
获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;
构建所述距离矩阵的直方图;
将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数;
在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。
2.根据权利要求1所述的方法,其特征在于,所述将所述直方图拟合为n个概率分布函数的加权和,包括:
将所述直方图拟合为n阶混合正态分布函数。
3.根据权利要求2所述的方法,其特征在于,n等于2;
所述n个概率分布函数的分离程度的计算方法包括:
依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。
4.根据权利要求3所述的方法,其特征在于,所述依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度包括:
计算所述两个正态分布函数的Ashman's D分数。
5.根据权利要求3所述的方法,其特征在于,所述依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:
如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述确定所述数据集可聚之后,还包括:
将所述距离矩阵转换为二值矩阵;
将所述二值矩阵作为邻接矩阵,构建连通图,确定所述连通图中连通子图的数量为所述数据集可形成的聚类的数量。
7.根据权利要求6所述的所述,其特征在于,所述将所述距离矩阵转换为二值矩阵包括:
根据大津阈值算法,将所述距离矩阵转换为二值矩阵。
8.根据权利要求1所述的所述,其特征在于,所述构建所述距离矩阵的直方图包括:
确定所述距离矩阵中元素的最大值和最小值的差值;
获取预先设定的所述直方图的分组数目或者根据所述距离矩阵中的元素的个数确定所述直方图的分组数目;
确定所述差值与所述分组数目的比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围;
生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。
9.根据权利要求1所述的方法,其特征在于,在获取所述连通图中连通子图的数量为所述数据集可形成的聚类的数量之后,还包括:
根据所述可形成聚类的数量和预设的聚类算法,对所述数据集进行聚类。
10.一种聚类分析服务器,其特征在于,包括:
通信组件,用于获取待分析的数据集;
处理器,用于获取所述数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数,在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。
11.根据权利要求10所述的服务器,其特征在于,所述处理器用于将所述直方图拟合为n个概率分布函数的加权和,包括:
所述处理器具体用于,将所述直方图拟合为n阶混合正态分布函数。
12.根据权利要求11所述的服务器,其特征在于,n等于2;
所述处理器还用于:依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。
13.根据权利要求12所述的服务器,其特征在于,所述处理器用于依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算两个正态分布函数的分离程度包括:
所述处理器具体用于,计算所述两个正态分布函数的Ashman's D分数。
14.根据权利要求12所述的服务器,其特征在于,所述处理器用于依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:
所述处理器具体用于,如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。
15.根据权利要求10至14任一项所述的服务器,其特征在于,所述处理器还用于:
在所述确定所述数据集可聚之后,将所述距离矩阵转换为二值矩阵;
将所述二值矩阵作为邻接矩阵,构建连通图,所述连通图中连通子图的数量为所述数据可形成的聚类的数量。
16.根据权利要求15所述的服务器,其特征在于,所述处理器用于将所述距离矩阵转换为二值矩阵包括:
所述处理器具体用于,使用大津阈值算法,将所述距离矩阵转换为二值矩阵。
17.根据权利要求10所述的服务器,其特征在于,所述处理器用于构建所述距离矩阵的直方图包括:
所述处理器具体用于,确定所述距离矩阵中元素的最大值和最小值的差值;
获取预先设定的所述直方图的分组数目或者根据所述距离矩阵中的元素的个数确定所述直方图的分组数目;确定所述差值与所述分组数目的比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围;生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。
18.根据权利要求15-17任一所述的服务器,其特征在于,所述处理器还用于:
在获取所述连通图中连通子图的数量为所述数据集可形成的聚类的数量之后,根据所述可形成聚类的数量和预设的聚类算法,对所述数据集进行聚类。
19.一种聚类分析装置,其特征在于,包括:
距离矩阵获取模块,用于获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;
直方图构建模块,用于构建所述距离矩阵的直方图;
拟合模块,用于将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数;
可聚性确定模块,用于在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。
20.根据权利要求19所述的装置,其特征在于,所述拟合模块用于将所述直方图拟合为n个概率分布函数的加权和包括:
所述拟合模块具体用于,将所述直方图拟合为n阶混合正态分布函数。
21.根据权利要求20所述的装置,其特征在于,n等于2;
所述拟合模块还用于:依据2阶混合正态分布中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。
22.根据权利要求21所述的装置,其特征在于,所述拟合模块用于依据2阶混合模型中的两个正态分布函数的均值和方差,计算两个正态分布函数的分离程度包括:
所述拟合模块具体用于,计算所述两个正态分布函数的Ashman's D分数。
23.根据权利要求20所述的装置,其特征在于,所述可聚性确定模块用于依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:
所述可聚性确定模块具体用于,如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。
24.根据权利要求19至23任一项所述的装置,其特征在于,还包括:
聚类数量确定模块,用于在所述可聚性确定模块确定所述数据集可聚之后,将所述距离矩阵转换为二值矩阵,并将所述二值矩阵作为邻接矩阵,构建连通图,确定所述连通图中连通子图的数量为所述数据可形成的聚类的数量。
25.根据权利要求24所述的装置,其特征在于,所述聚类数量确定模块用于将所述距离矩阵转换为二值矩阵包括:
所述聚类数量确定模块具体用于,使用大津阈值算法,将所述距离矩阵转换为二值矩阵。
26.根据权利要求19所述的装置,其特征在于,所述直方图构建模块用于构建所述距离矩阵的直方图包括:
所述直方图构建模块具体用于,确定所述距离矩阵中元素的最大值和最小值的差值;
获取预先设定的所述直方图的分组数目或者依据所述距离矩阵中的元素的个数的平方根确定所述直方图的分组数目;计算所述差值与所述分组数目的比值,所述比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围;生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。
27.根据权利要求24所述的装置,其特征在于,还包括:
聚类模块,用于在所述聚类数量确定模块获取所述连通图中连通子图的数量之后,对所述数据集进行聚类。
CN201710228448.2A 2017-02-28 2017-04-10 一种聚类分析方法及装置、服务器 Pending CN108509967A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710114107 2017-02-28
CN2017101141072 2017-02-28

Publications (1)

Publication Number Publication Date
CN108509967A true CN108509967A (zh) 2018-09-07

Family

ID=63373325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710228448.2A Pending CN108509967A (zh) 2017-02-28 2017-04-10 一种聚类分析方法及装置、服务器

Country Status (1)

Country Link
CN (1) CN108509967A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114526722A (zh) * 2021-12-31 2022-05-24 易图通科技(北京)有限公司 地图对齐处理方法、装置及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114526722A (zh) * 2021-12-31 2022-05-24 易图通科技(北京)有限公司 地图对齐处理方法、装置及可读存储介质
CN114526722B (zh) * 2021-12-31 2024-05-24 易图通科技(北京)有限公司 地图对齐处理方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN109992633B (zh) 基于用户位置的地理围栏确定方法、装置、电子设备
CN111867049B (zh) 定位方法、装置及存储介质
CN107703480B (zh) 基于机器学习的混合核函数室内定位方法
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN109685092B (zh) 基于大数据的聚类方法、设备、存储介质及装置
CN112469060B (zh) 一种天线参数确定方法及装置
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
CN111158828A (zh) 应用程序app的用户界面确定方法及装置、存储介质
CN113886587A (zh) 一种基于深度学习的数据分类方法以及图谱的建立方法
CN110929218A (zh) 一种差异最小化随机分组方法及系统
CN114430530B (zh) 空间划分方法、装置、设备、介质和程序产品
CN109246728B (zh) 一种覆盖异常小区识别方法和装置
CN117221078A (zh) 关联规则确定方法、装置及存储介质
CN106162529B (zh) 室内定位方法与装置
CN107480426A (zh) 自迭代病历档案聚类分析系统
CN108680897B (zh) 一种室内定位方法、装置、电子设备及存储介质
CN110557829A (zh) 一种融合指纹库的定位方法及定位装置
CN116798592B (zh) 设施布设位置的确定方法、装置、设备及存储介质
CN108509967A (zh) 一种聚类分析方法及装置、服务器
CN117170979B (zh) 一种大规模设备的能耗数据处理方法、系统、设备及介质
CN110288025A (zh) 基于信息几何与谱聚类的频谱感知方法、装置及设备
CN111726861B (zh) 异构设备室内定位方法、装置、系统和存储介质
CN105574363A (zh) 一种基于svm-rfe和重叠度的特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180907

RJ01 Rejection of invention patent application after publication