CN109034238A

CN109034238A - 一种基于信息熵的聚类划分方法

Info

Publication number: CN109034238A
Application number: CN201810810537.2A
Authority: CN
Inventors: 杜航原; 白亮; 王文剑
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-18

Abstract

本发明涉及数据挖掘领域，特别涉及一种基于信息熵的聚类划分方法。一种基于信息熵的聚类划分方法，将聚类划分视为在符号空间中对数据集的一种表示形式，将数据表示中的不确定性表达为信息熵，通过迭代计算获得对数据集的聚类划分，每一次迭代过程中，首先计算每个聚类划分在特征空间中的一致性，进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性，并对一致性最低的两个簇进行合并，通过反复迭代直到满足停止条件，最终进行聚类划分结果的输出。

Description

一种基于信息熵的聚类划分方法

技术领域

本发明涉及数据挖掘领域，特别涉及一种基于信息熵的聚类划分方法。

背景技术

聚类分析是在没有任何可供学习的样本情况下，将对象集自动划分的一种分析方法，其核心是将对象组织成一个个的簇，以使得同一簇内的对象相似，而不同簇间的对象不相似。聚类分析在许多领域中有着重要的作用，例如人工智能，生物学，数据压缩，数据挖掘，图像处理，机器学习，营销，医药，模式识别，心理学和推荐系统等。聚类划分算法一般都需要采用相似性度量和聚类准则，而这当中潜含着对数据中包含的类结构的某种假设，当这些假设与样本数据不相符时，它可能产生错误或没有意义的结果。所以面对诸多的聚类算法，聚类分析者不但要完全理解特定的技术，而且也要了解数据获取过程的细节和一些领域知识以便做出适当的选择。然而，聚类作为一种非监督学习方法，由于对先验信息的缺失，导致对聚类划分结果的质量和有效性无法做出客观评价，使算法的可用性大打折扣。为此，应当为聚类过程设置一个有效性目标，在这一目标下获得数据集的最优聚类划分结果。

公开号为CN106294394A的专利《数据聚类方法和数据聚类系统》公开了一种数据聚类方法和一种数据聚类系统，其中，所述方法包括：接收创建命令，创建反馈词集合；根据所述反馈词集合对当前数据进行聚类，以将所述当前数据聚类成多个当前类别，并将所述多个当前类别呈现给用户；接收所述用户对所述多个当前类别的第一反馈，以对所述反馈词集合进行更新。通过本发明的技术方案，通过用户的反馈对反馈词集合进行更新，从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的，进而提高了数据聚类的准确率和效率。公开号为CN106991430A的专利《一种基于临近点法的聚类个数自动确定谱聚类方法》，包括以下步骤：1)对数据集的所有维进行了归一化处理；2)通过临近点法计算出区间稀疏距离矩阵以及定义为临近点距离均值的局部尺度参数，得到整体稀疏相似度矩阵；3)调用CCFD方法确定数据点的局部密度和具有更高局部密度的其他点的最小距离，得到在置信区间外的拟合产生的奇异点个数；4)依据公式计算出度矩阵D和拉普拉斯矩阵L，并对L进行特征分解取出特征向量组；5)输出聚类结果；6)选取最高Fitness函数值所对应的最优临近点个数的聚类结果进行输出。本发明能够根据数据分布估计每个数据点的局部尺度参数，自动确定聚类中心的个数，并且实现了临近点个数的参数自适应。公开号为CN106776751A的专利《一种数据的聚类方法和聚类装置》，用于解决现有聚类过程中受初始条件影响聚类效果差的技术问题。数据的聚类方法，包括：获取待处理数据，所述待处理数据包括测试数据和非测试数据；对测试数据进行第一分类处理，得到第一分类结果；采用初始预设值对测试数据进行第二分类处理，得到第二分类结果；比较所述第二分类结果和所述第一分类结果，当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时，将所述初始预设值作为目标预设值；当小于阈值时，不断调整所述初始预设值，直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值；采用目标预设值对非测试数据进行第二分类处理。

一般情况下，对于数据集的记录和描述是在特征空间中利用特征向量实现的，而聚类划分结果可以视为在符号空间中利用聚类符号向量对数据集的描述，那么一个高质量的聚类划分结果应当在特征空间和符号空间中获得较高的对数据描述的一致性。为此，本发明提出一种基于信息熵的聚类划分方法，利用信息熵表达数据描述中的不确定性，进而分别计算聚类划分在特征空间和符号空间中对数据描述的一致性，在迭代计算框架下实现数据集的聚类划分，使聚类划分结果更具准确性和鲁棒性。

发明内容

本发明要解决的技术问题是：设计一种聚类划分方法，实现对数据集有效可靠的划分，使聚类结果能同时在特征空间和符号中间中获得较高的一致性。本发明将聚类划分视为在符号空间中对数据集的一种表示形式，将数据表示中的不确定性表达为信息熵，通过迭代计算获得对数据集的聚类划分，每一次迭代过程中，首先计算每个聚类划分在特征空间中的一致性，进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性，并对一致性最低的两个簇进行合并，通过反复迭代直到满足停止条件，最终进行聚类划分结果的输出。

本发明所采用的技术方案是：一种基于信息熵的聚类划分方法，对于样本数量为N的数据集x_i表示X中的第i个样本数据，利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇，K为聚类划分结果中簇的数量；每个样本数据中包含M个特征向量，M个特征向量构成的特征向量集合记为其中f_j表示第j个特征向量，x_i(F)表示样本数据x_i在特征向量集合F上的取值，x_i(f_j)表示样本数据x_i在第j个特征向量上的取值；将聚类划分视为对数据的一种符号表示，在迭代计算框架下每次迭代产生一组聚类划分，第m次迭代产生的聚类划分记作其中表示C^(m)中的第sm个簇，S_m表示C^(m)中的簇数量；第1～m次迭代产生的一系列聚类符号向量构成了集合表示第t次迭代形成的聚类划分对应的聚类符号向量，其中S_t表示第t次迭代形成的聚类划分中的簇数量，l_t,st表示第t个聚类符号向量l_t的第st个取值，即C^(t)中的第st个簇的标签，x_i(L^(m))表示样本数据x_i在聚类符号向量集合L^(m)中的取值，即x_i(L^(m))样本数据x_i在第1～m次迭代产生的一系列聚类划分中对应的全部簇标签，x_i(l_t)表示样本数据x_i在第t个聚类符号向量上的取值，即x_i(l_t)表示样本数据x_i在第t个聚类划分中对应的簇标签，通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行

S10、为便于计算，利用高斯核函数κ对样本空间中的特征向量集合F进行映射，得到新的集合FF，FF中的特征向量服从高斯分布；

S20、初始化聚类划分C⁽¹⁾，在这一聚类划分中每个样本被作为一个簇，即其中表示初始聚类划分中的第n个簇；

S30、每一次迭代形成一个聚类划分，第m次迭代时产生的聚类划分记为C^(m)，利用信息熵作为不确定性度量，计算当前聚类划分在特征空间中的一致性：计算特征向量集合FF关于数据集X的条件信息熵，用于表示特征向量集合对数据集描述的不确定性，并分别计算FF关于每个聚类划分的条件信息熵，用于表示特征向量集合对当前聚类划分描述的不确定性，将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性；

S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重；

S50、在第m次迭代时产生的聚类划分C^(m)中任选2个簇分别记为和利用信息熵作为不确定性度量，计算两个簇构成的集合在符号空间中的一致性：对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L^(m)关于数据集X的条件信息熵，用于表示聚类符号向量集合对数据集描述的不确定性，并分别计算L^(m)关于任意两个簇构成集合的条件信息熵，用于表示聚类符号向量集合对两个簇构成集合描述的不确定性，将聚类符号向量集合L^(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性；

S60、按照步骤S50所述方法，遍历第m次迭代时产生的C^(m)中所有两个簇构成的集合，计算该合集在符号空间中的一致性，并选出一致性最小的合集对应的两个簇，将这两个簇进行合并，生成新的聚类划分记作C^(m+1)，并令m＝m+1，如满足迭代停止条件则进入步骤S70，否则跳转至步骤S30进行下一次迭代；

S70、则对聚类划分结果进行输出。

所述步骤S10中高斯核函数κ如式(1)所示：

其中，x_i和x_j表示数据集X中的任意两个样本点，参数γ的取值设为||x_i(F)-x_j(F)||²的标准差。

所述步骤S30详细为：

S31、利用式(2)计算特征向量集合FF关于数据集X的条件信息熵，用于描述数据集X在特征向量集合FF上的一致性：

其中，H(FF|X)为特征向量集合FF关于数据集X的条件信息熵，表示数据集X在FF中的方差，由式(3)进行计算：

其中，μ_X为数据集X在FF中的期望，满足式(4)：

其中，x_a、x_b和x_c表示数据集X中x_i以外的样本。

S32、在第m次迭代时，计算样本特征集合FF关于聚类划分C^(m)的条件信息熵，用于描述C^(m)在样本特征集合FF上的一致性，其中FF关于C^(m)的条件信息熵可由式(5)计算：

其中，H(FF|C^(m))为特征向量集合FF关于第m次迭代时产生的聚类划分C^(m)的条件信息熵，表示C^(m)中数据的方差，由式(6)进行计算：

其中，x_e为C^(m)中的任一数据，为C^(m)中数据的期望，满足式(7)：

S33、计算第m次迭代时产生的聚类划分C^(m)在特征空间中的一致性度量，如式(8)所示：

I(FF|C^(m))＝H(FF|X)-H(FF|C^(m)) (8)

其中，I(FF|C^(m))表示C^(m)在特征空间中的一致性度量。

所述步骤S40中依据每次迭代中聚类划分在特征空间中的一致性计算第m次迭代时产生的聚类划分的质量权重的方法如式(9)所示：

其中，ω^(m)表示聚类划分C^(m)的质量权重，C^(t)表示第t次迭代产生的聚类划分。

所述步骤S50详细步骤为：

S51、计算聚类符号向量集合L^(m)中每一个聚类符号向量关于数据集X的条件信息熵，用于描述数据集X在每个聚类符号向量上的一致性，L^(m)中第t个聚类符号向量l_t关于数据集X的条件信息熵由式(10)计算：

其中，H(l_t|X)为聚类符号向量l_t关于数据集X的条件信息熵，P(l_t,st|X)表示聚类符号向量l_t的第st个取值关于数据集X的条件概率，可由式(11)计算：

S52、计算聚类符号向量集合L^(m)关于数据集X的条件信息熵，用于描述数据集X在L^(m)上的一致性，如式(12)所示：

其中，H(L^(m)|X)表示聚类符号向量集合L^(m)关于数据集X的条件信息熵，ω^(t)表示第t个聚类划分C^(t)的质量权重。

S53、在聚类划分C^(m)中任选两个簇和计算聚类符号向量集合L^(m)中每一个聚类符号向量关于集合的条件信息熵，用于描述两个簇的合集在每个聚类特征上的一致性，L^(m)中第t个聚类符号向量l_t关于的条件信息熵由式(13)计算：

其中，为聚类符号向量l_t关于的条件信息熵，表示聚类符号向量l_t的第st个取值关于集合的条件概率，可由式(14)计算：

S54、计算聚类符号向量集合L^(m)关于集合的条件信息熵，用于描述在L^(m)上的一致性，如式(15)所示：

其中，表示聚类符号向量集合L^(m)关于簇合集的条件信息熵。

S55、计算集合在符号空间中的一致性，如式(16)所示：

其中，表示在符号空间中的一致性。

本发明针对数据挖掘领域中的聚类划分问题，提出了一种基于信息熵的聚类划分方法，将聚类划分视为在符号空间中对数据集的一种表示形式，利用信息熵表达数据表示中的不确定性，每一次迭代过程中，首先计算每个聚类划分在特种空间中的一致性，进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性，并在对一致性最低的两个簇进行合并，通过反复迭代直到满足停止条件，最终进行聚类划分结果的输出。本发明的主要参数包括：特征向量集合、聚类符号向量集合、特征向量集合关于数据集的条件信息熵、特征向量集合关于每个聚类划分的条件信息熵、每个聚类划分在特征空间中的一致性、聚类划分的质量权重、聚类符号向量集合关于数据集的条件信息熵、聚类符号向量集合关于聚类划分中任意两个簇构成集合的条件信息熵、两个簇构成的集合在符号空间中的一致性、聚类划分结果中的簇数量。其中，特征向量集合为特征空间中对数据集进行描述的特征向量构成的集合；聚类符号向量集合为符号空间中的一系列聚类符号对数据集进行描述的向量构成的集合；特征向量集合关于数据集的条件信息熵用于表示特征空间中利用特征向量对数据集进行描述的不确定性；特征向量集合关于每个聚类划分的条件信息熵用于表示特征空间中利用聚类符号向量对数据集表示的不确定性；聚类划分在特征向量集合上的一致性度量用于表示在特征空间中利用该聚类划分对数据集进行描述相比特征向量对数据集进行描述不确定性的降低量；聚类划分的质量权重用于表达每一次迭代产生的聚类划分的可靠性；聚类符号向量集合关于数据集的条件信息熵用于表示符号空间中利用特征向量对数据集进行描述的不确定性；聚类符号向量集合关于聚类划分中任意两个簇构成集合的条件信息熵用于表示聚类符号向量集合对两个簇构成集合描述的不确定性；两个簇构成的集合在符号空间中的一致性用于表示利用聚类符号向量集合对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量；聚类划分结果中的簇数量用于作为判定迭代停止的条件。

本发明的有益效果在于：将数据集及其聚类划分分别视为在特征空间和符号空间对数据集本身进行的描述，利用信息熵对数据描述的不确定性进行度量，在迭代计算框架下对数据集进行数据描述一致性最高的聚类划分，确保最终获得的聚类划分结果具有更高的质量和可靠性。

附图说明

图1为本发明所述基于信息熵的聚类划分方法的计算机实现系统结构图；

图2为本发明所述基于信息熵的聚类划分方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细说明。

本发明所述的基于信息熵的聚类划分方法通过计算机程序实施，图1所示是计算机实现的系统结构图。下面将按照流程详述本发明提出的技术方案的具体实施方式，流程如图2所示。

1.一种基于信息熵的聚类划分方法，其特征在于：对于样本数量为N的数据集x_i表示X中的第i个样本数据，利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇，K为聚类划分结果中簇的数量；每个样本数据中包含M个特征向量，M个特征向量构成的特征向量集合记为其中f_j表示第j个特征向量，x_i(F)表示样本数据x_i在特征向量集合F上的取值，x_i(f_j)表示样本数据x_i在第j个特征向量上的取值；将聚类划分视为对数据的一种符号表示，在迭代计算框架下每次迭代产生一组聚类划分，第m次迭代产生的聚类划分记作其中表示C^(m)中的第sm个簇，S_m表示C^(m)中的簇数量；第1～m次迭代产生的一系列聚类符号向量构成了集合表示第t次迭代形成的聚类划分对应的聚类符号向量，其中S_t表示第t次迭代形成的聚类划分中的簇数量，l_t,st表示第t个聚类符号向量l_t的第st个取值，即C^(t)中的第st个簇的标签，x_i(L^(m))表示样本数据x_i在聚类符号向量集合L^(m)中的取值，即x_i(L^(m))样本数据x_i在第1～m次迭代产生的一系列聚类划分中对应的全部簇标签，x_i(l_t)表示样本数据x_i在第t个聚类符号向量上的取值，即x_i(l_t)表示样本数据x_i在第t个聚类划分中对应的簇标签，通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行

高斯核函数κ如式(1)所示：

详细为：

其中，μ_X为数据集X在FF中的期望，满足式(4)：

其中，x_a、x_b和x_c表示数据集X中x_i以外的样本。

I(FF|C^(m))＝H(FF|X)-H(FF|C^(m)) (8)

其中，I(FF|C^(m))表示C^(m)在特征空间中的一致性度量。

依据每次迭代中聚类划分在特征空间中的一致性计算第m次迭代时产生的聚类划分的质量权重的方法如式(9)所示：

详细步骤为：

S55、计算集合在符号空间中的一致性，如式(16)所示：

其中，表示在符号空间中的一致性。

S60、按照步骤S50所述方法，遍历第m次迭代时产生的C^(m)中所有两个簇构成的集合，计算该合集在符号空间中的一致性，并选出一致性最小的合集对应的两个簇，将这两个簇进行合并，生成新的聚类划分记作C^(m+1)，并令m＝m+1，当聚类划分中的簇数量等于K进入步骤S70，否则跳转至步骤S30进行下一次迭代；

S70、则对聚类划分结果进行输出。

Claims

S70、则对聚类划分结果进行输出。

2.根据权利要求1所述一种基于信息熵的聚类划分方法，其特征在于：所述步骤S10中高斯核函数κ如式(1)所示：

3.根据权利要求1所述一种基于信息熵的聚类划分方法，其特征在于：所述步骤S30详细为：

其中，μ_X为数据集X在FF中的期望，满足式(4)：

其中，x_a、x_b和x_c表示数据集X中x_i以外的样本。

I(FF|C^(m))＝H(FF|X)-H(FF|C^(m)) (8)

其中，I(FF|C^(m))表示C^(m)在特征空间中的一致性度量。

4.根据权利要求1所述一种基于信息熵的聚类划分方法，其特征在于：所述步骤S40中依据每次迭代中聚类划分在特征空间中的一致性计算第m次迭代时产生的聚类划分的质量权重的方法如式(9)所示：

5.根据权利要求1所述一种基于信息熵的聚类划分方法，其特征在于：所述步骤S50详细步骤为：

S55、计算集合在符号空间中的一致性，如式(16)所示：

其中，表示在符号空间中的一致性。