CN109034238A - 一种基于信息熵的聚类划分方法 - Google Patents

一种基于信息熵的聚类划分方法 Download PDF

Info

Publication number
CN109034238A
CN109034238A CN201810810537.2A CN201810810537A CN109034238A CN 109034238 A CN109034238 A CN 109034238A CN 201810810537 A CN201810810537 A CN 201810810537A CN 109034238 A CN109034238 A CN 109034238A
Authority
CN
China
Prior art keywords
clustering
cluster
data
indicate
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810810537.2A
Other languages
English (en)
Inventor
杜航原
白亮
王文剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201810810537.2A priority Critical patent/CN109034238A/zh
Publication of CN109034238A publication Critical patent/CN109034238A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。一种基于信息熵的聚类划分方法,将聚类划分视为在符号空间中对数据集的一种表示形式,将数据表示中的不确定性表达为信息熵,通过迭代计算获得对数据集的聚类划分,每一次迭代过程中,首先计算每个聚类划分在特征空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。

Description

一种基于信息熵的聚类划分方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。
背景技术
聚类分析是在没有任何可供学习的样本情况下,将对象集自动划分的一种分析方法,其核心是将对象组织成一个个的簇,以使得同一簇内的对象相似,而不同簇间的对象不相似。聚类分析在许多领域中有着重要的作用,例如人工智能,生物学,数据压缩,数据挖掘,图像处理,机器学习,营销,医药,模式识别,心理学和推荐系统等。聚类划分算法一般都需要采用相似性度量和聚类准则,而这当中潜含着对数据中包含的类结构的某种假设,当这些假设与样本数据不相符时,它可能产生错误或没有意义的结果。所以面对诸多的聚类算法,聚类分析者不但要完全理解特定的技术,而且也要了解数据获取过程的细节和一些领域知识以便做出适当的选择。然而,聚类作为一种非监督学习方法,由于对先验信息的缺失,导致对聚类划分结果的质量和有效性无法做出客观评价,使算法的可用性大打折扣。为此,应当为聚类过程设置一个有效性目标,在这一目标下获得数据集的最优聚类划分结果。
公开号为CN106294394A的专利《数据聚类方法和数据聚类系统》公开了一种数据聚类方法和一种数据聚类系统,其中,所述方法包括:接收创建命令,创建反馈词集合;根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。通过本发明的技术方案,通过用户的反馈对反馈词集合进行更新,从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的,进而提高了数据聚类的准确率和效率。公开号为CN106991430A的专利《一种基于临近点法的聚类个数自动确定谱聚类方法》,包括以下步骤:1)对数据集的所有维进行了归一化处理;2)通过临近点法计算出区间稀疏距离矩阵以及定义为临近点距离均值的局部尺度参数,得到整体稀疏相似度矩阵;3)调用CCFD方法确定数据点的局部密度和具有更高局部密度的其他点的最小距离,得到在置信区间外的拟合产生的奇异点个数;4)依据公式计算出度矩阵D和拉普拉斯矩阵L,并对L进行特征分解取出特征向量组;5)输出聚类结果;6)选取最高Fitness函数值所对应的最优临近点个数的聚类结果进行输出。本发明能够根据数据分布估计每个数据点的局部尺度参数,自动确定聚类中心的个数,并且实现了临近点个数的参数自适应。公开号为CN106776751A的专利《一种数据的聚类方法和聚类装置》,用于解决现有聚类过程中受初始条件影响聚类效果差的技术问题。数据的聚类方法,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。
一般情况下,对于数据集的记录和描述是在特征空间中利用特征向量实现的,而聚类划分结果可以视为在符号空间中利用聚类符号向量对数据集的描述,那么一个高质量的聚类划分结果应当在特征空间和符号空间中获得较高的对数据描述的一致性。为此,本发明提出一种基于信息熵的聚类划分方法,利用信息熵表达数据描述中的不确定性,进而分别计算聚类划分在特征空间和符号空间中对数据描述的一致性,在迭代计算框架下实现数据集的聚类划分,使聚类划分结果更具准确性和鲁棒性。
发明内容
本发明要解决的技术问题是:设计一种聚类划分方法,实现对数据集有效可靠的划分,使聚类结果能同时在特征空间和符号中间中获得较高的一致性。本发明将聚类划分视为在符号空间中对数据集的一种表示形式,将数据表示中的不确定性表达为信息熵,通过迭代计算获得对数据集的聚类划分,每一次迭代过程中,首先计算每个聚类划分在特征空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。
本发明所采用的技术方案是:一种基于信息熵的聚类划分方法,对于样本数量为N的数据集xi表示X中的第i个样本数据,利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇,K为聚类划分结果中簇的数量;每个样本数据中包含M个特征向量,M个特征向量构成的特征向量集合记为其中fj表示第j个特征向量,xi(F)表示样本数据xi在特征向量集合F上的取值,xi(fj)表示样本数据xi在第j个特征向量上的取值;将聚类划分视为对数据的一种符号表示,在迭代计算框架下每次迭代产生一组聚类划分,第m次迭代产生的聚类划分记作其中表示C(m)中的第sm个簇,Sm表示C(m)中的簇数量;第1~m次迭代产生的一系列聚类符号向量构成了集合 表示第t次迭代形成的聚类划分对应的聚类符号向量,其中St表示第t次迭代形成的聚类划分中的簇数量,lt,st表示第t个聚类符号向量lt的第st个取值,即C(t)中的第st个簇的标签,xi(L(m))表示样本数据xi在聚类符号向量集合L(m)中的取值,即xi(L(m))样本数据xi在第1~m次迭代产生的一系列聚类划分中对应的全部簇标签,xi(lt)表示样本数据xi在第t个聚类符号向量上的取值,即xi(lt)表示样本数据xi在第t个聚类划分中对应的簇标签,通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行
S10、为便于计算,利用高斯核函数κ对样本空间中的特征向量集合F进行映射,得到新的集合FF,FF中的特征向量服从高斯分布;
S20、初始化聚类划分C(1),在这一聚类划分中每个样本被作为一个簇,即其中表示初始聚类划分中的第n个簇;
S30、每一次迭代形成一个聚类划分,第m次迭代时产生的聚类划分记为C(m),利用信息熵作为不确定性度量,计算当前聚类划分在特征空间中的一致性:计算特征向量集合FF关于数据集X的条件信息熵,用于表示特征向量集合对数据集描述的不确定性,并分别计算FF关于每个聚类划分的条件信息熵,用于表示特征向量集合对当前聚类划分描述的不确定性,将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性;
S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重;
S50、在第m次迭代时产生的聚类划分C(m)中任选2个簇分别记为利用信息熵作为不确定性度量,计算两个簇构成的集合在符号空间中的一致性:对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于表示聚类符号向量集合对数据集描述的不确定性,并分别计算L(m)关于任意两个簇构成集合的条件信息熵,用于表示聚类符号向量集合对两个簇构成集合描述的不确定性,将聚类符号向量集合L(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性;
S60、按照步骤S50所述方法,遍历第m次迭代时产生的C(m)中所有两个簇构成的集合,计算该合集在符号空间中的一致性,并选出一致性最小的合集对应的两个簇,将这两个簇进行合并,生成新的聚类划分记作C(m+1),并令m=m+1,如满足迭代停止条件则进入步骤S70,否则跳转至步骤S30进行下一次迭代;
S70、则对聚类划分结果进行输出。
所述步骤S10中高斯核函数κ如式(1)所示:
其中,xi和xj表示数据集X中的任意两个样本点,参数γ的取值设为||xi(F)-xj(F)||2的标准差。
所述步骤S30详细为:
S31、利用式(2)计算特征向量集合FF关于数据集X的条件信息熵,用于描述数据集X在特征向量集合FF上的一致性:
其中,H(FF|X)为特征向量集合FF关于数据集X的条件信息熵,表示数据集X在FF中的方差,由式(3)进行计算:
其中,μX为数据集X在FF中的期望,满足式(4):
其中,xa、xb和xc表示数据集X中xi以外的样本。
S32、在第m次迭代时,计算样本特征集合FF关于聚类划分C(m)的条件信息熵,用于描述C(m)在样本特征集合FF上的一致性,其中FF关于C(m)的条件信息熵可由式(5)计算:
其中,H(FF|C(m))为特征向量集合FF关于第m次迭代时产生的聚类划分C(m)的条件信息熵,表示C(m)中数据的方差,由式(6)进行计算:
其中,xe为C(m)中的任一数据,为C(m)中数据的期望,满足式(7):
S33、计算第m次迭代时产生的聚类划分C(m)在特征空间中的一致性度量,如式(8)所示:
I(FF|C(m))=H(FF|X)-H(FF|C(m)) (8)
其中,I(FF|C(m))表示C(m)在特征空间中的一致性度量。
所述步骤S40中依据每次迭代中聚类划分在特征空间中的一致性计算第m次迭代时产生的聚类划分的质量权重的方法如式(9)所示:
其中,ω(m)表示聚类划分C(m)的质量权重,C(t)表示第t次迭代产生的聚类划分。
所述步骤S50详细步骤为:
S51、计算聚类符号向量集合L(m)中每一个聚类符号向量关于数据集X的条件信息熵,用于描述数据集X在每个聚类符号向量上的一致性,L(m)中第t个聚类符号向量lt关于数据集X的条件信息熵由式(10)计算:
其中,H(lt|X)为聚类符号向量lt关于数据集X的条件信息熵,P(lt,st|X)表示聚类符号向量lt的第st个取值关于数据集X的条件概率,可由式(11)计算:
S52、计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于描述数据集X在L(m)上的一致性,如式(12)所示:
其中,H(L(m)|X)表示聚类符号向量集合L(m)关于数据集X的条件信息熵,ω(t)表示第t个聚类划分C(t)的质量权重。
S53、在聚类划分C(m)中任选两个簇计算聚类符号向量集合L(m)中每一个聚类符号向量关于集合的条件信息熵,用于描述两个簇的合集在每个聚类特征上的一致性,L(m)中第t个聚类符号向量lt关于的条件信息熵由式(13)计算:
其中,为聚类符号向量lt关于的条件信息熵,表示聚类符号向量lt的第st个取值关于集合的条件概率,可由式(14)计算:
S54、计算聚类符号向量集合L(m)关于集合的条件信息熵,用于描述在L(m)上的一致性,如式(15)所示:
其中,表示聚类符号向量集合L(m)关于簇合集的条件信息熵。
S55、计算集合在符号空间中的一致性,如式(16)所示:
其中,表示在符号空间中的一致性。
本发明针对数据挖掘领域中的聚类划分问题,提出了一种基于信息熵的聚类划分方法,将聚类划分视为在符号空间中对数据集的一种表示形式,利用信息熵表达数据表示中的不确定性,每一次迭代过程中,首先计算每个聚类划分在特种空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并在对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。本发明的主要参数包括:特征向量集合、聚类符号向量集合、特征向量集合关于数据集的条件信息熵、特征向量集合关于每个聚类划分的条件信息熵、每个聚类划分在特征空间中的一致性、聚类划分的质量权重、聚类符号向量集合关于数据集的条件信息熵、聚类符号向量集合关于聚类划分中任意两个簇构成集合的条件信息熵、两个簇构成的集合在符号空间中的一致性、聚类划分结果中的簇数量。其中,特征向量集合为特征空间中对数据集进行描述的特征向量构成的集合;聚类符号向量集合为符号空间中的一系列聚类符号对数据集进行描述的向量构成的集合;特征向量集合关于数据集的条件信息熵用于表示特征空间中利用特征向量对数据集进行描述的不确定性;特征向量集合关于每个聚类划分的条件信息熵用于表示特征空间中利用聚类符号向量对数据集表示的不确定性;聚类划分在特征向量集合上的一致性度量用于表示在特征空间中利用该聚类划分对数据集进行描述相比特征向量对数据集进行描述不确定性的降低量;聚类划分的质量权重用于表达每一次迭代产生的聚类划分的可靠性;聚类符号向量集合关于数据集的条件信息熵用于表示符号空间中利用特征向量对数据集进行描述的不确定性;聚类符号向量集合关于聚类划分中任意两个簇构成集合的条件信息熵用于表示聚类符号向量集合对两个簇构成集合描述的不确定性;两个簇构成的集合在符号空间中的一致性用于表示利用聚类符号向量集合对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量;聚类划分结果中的簇数量用于作为判定迭代停止的条件。
本发明的有益效果在于:将数据集及其聚类划分分别视为在特征空间和符号空间对数据集本身进行的描述,利用信息熵对数据描述的不确定性进行度量,在迭代计算框架下对数据集进行数据描述一致性最高的聚类划分,确保最终获得的聚类划分结果具有更高的质量和可靠性。
附图说明
图1为本发明所述基于信息熵的聚类划分方法的计算机实现系统结构图;
图2为本发明所述基于信息熵的聚类划分方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
本发明所述的基于信息熵的聚类划分方法通过计算机程序实施,图1所示是计算机实现的系统结构图。下面将按照流程详述本发明提出的技术方案的具体实施方式,流程如图2所示。
1.一种基于信息熵的聚类划分方法,其特征在于:对于样本数量为N的数据集xi表示X中的第i个样本数据,利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇,K为聚类划分结果中簇的数量;每个样本数据中包含M个特征向量,M个特征向量构成的特征向量集合记为其中fj表示第j个特征向量,xi(F)表示样本数据xi在特征向量集合F上的取值,xi(fj)表示样本数据xi在第j个特征向量上的取值;将聚类划分视为对数据的一种符号表示,在迭代计算框架下每次迭代产生一组聚类划分,第m次迭代产生的聚类划分记作其中表示C(m)中的第sm个簇,Sm表示C(m)中的簇数量;第1~m次迭代产生的一系列聚类符号向量构成了集合 表示第t次迭代形成的聚类划分对应的聚类符号向量,其中St表示第t次迭代形成的聚类划分中的簇数量,lt,st表示第t个聚类符号向量lt的第st个取值,即C(t)中的第st个簇的标签,xi(L(m))表示样本数据xi在聚类符号向量集合L(m)中的取值,即xi(L(m))样本数据xi在第1~m次迭代产生的一系列聚类划分中对应的全部簇标签,xi(lt)表示样本数据xi在第t个聚类符号向量上的取值,即xi(lt)表示样本数据xi在第t个聚类划分中对应的簇标签,通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行
S10、为便于计算,利用高斯核函数κ对样本空间中的特征向量集合F进行映射,得到新的集合FF,FF中的特征向量服从高斯分布;
高斯核函数κ如式(1)所示:
其中,xi和xj表示数据集X中的任意两个样本点,参数γ的取值设为||xi(F)-xj(F)||2的标准差。
S20、初始化聚类划分C(1),在这一聚类划分中每个样本被作为一个簇,即其中表示初始聚类划分中的第n个簇;
S30、每一次迭代形成一个聚类划分,第m次迭代时产生的聚类划分记为C(m),利用信息熵作为不确定性度量,计算当前聚类划分在特征空间中的一致性:计算特征向量集合FF关于数据集X的条件信息熵,用于表示特征向量集合对数据集描述的不确定性,并分别计算FF关于每个聚类划分的条件信息熵,用于表示特征向量集合对当前聚类划分描述的不确定性,将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性;
详细为:
S31、利用式(2)计算特征向量集合FF关于数据集X的条件信息熵,用于描述数据集X在特征向量集合FF上的一致性:
其中,H(FF|X)为特征向量集合FF关于数据集X的条件信息熵,表示数据集X在FF中的方差,由式(3)进行计算:
其中,μX为数据集X在FF中的期望,满足式(4):
其中,xa、xb和xc表示数据集X中xi以外的样本。
S32、在第m次迭代时,计算样本特征集合FF关于聚类划分C(m)的条件信息熵,用于描述C(m)在样本特征集合FF上的一致性,其中FF关于C(m)的条件信息熵可由式(5)计算:
其中,H(FF|C(m))为特征向量集合FF关于第m次迭代时产生的聚类划分C(m)的条件信息熵,表示C(m)中数据的方差,由式(6)进行计算:
其中,xe为C(m)中的任一数据,为C(m)中数据的期望,满足式(7):
S33、计算第m次迭代时产生的聚类划分C(m)在特征空间中的一致性度量,如式(8)所示:
I(FF|C(m))=H(FF|X)-H(FF|C(m)) (8)
其中,I(FF|C(m))表示C(m)在特征空间中的一致性度量。
S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重;
依据每次迭代中聚类划分在特征空间中的一致性计算第m次迭代时产生的聚类划分的质量权重的方法如式(9)所示:
其中,ω(m)表示聚类划分C(m)的质量权重,C(t)表示第t次迭代产生的聚类划分。
S50、在第m次迭代时产生的聚类划分C(m)中任选2个簇分别记为利用信息熵作为不确定性度量,计算两个簇构成的集合在符号空间中的一致性:对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于表示聚类符号向量集合对数据集描述的不确定性,并分别计算L(m)关于任意两个簇构成集合的条件信息熵,用于表示聚类符号向量集合对两个簇构成集合描述的不确定性,将聚类符号向量集合L(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性;
详细步骤为:
S51、计算聚类符号向量集合L(m)中每一个聚类符号向量关于数据集X的条件信息熵,用于描述数据集X在每个聚类符号向量上的一致性,L(m)中第t个聚类符号向量lt关于数据集X的条件信息熵由式(10)计算:
其中,H(lt|X)为聚类符号向量lt关于数据集X的条件信息熵,P(lt,st|X)表示聚类符号向量lt的第st个取值关于数据集X的条件概率,可由式(11)计算:
S52、计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于描述数据集X在L(m)上的一致性,如式(12)所示:
其中,H(L(m)|X)表示聚类符号向量集合L(m)关于数据集X的条件信息熵,ω(t)表示第t个聚类划分C(t)的质量权重。
S53、在聚类划分C(m)中任选两个簇计算聚类符号向量集合L(m)中每一个聚类符号向量关于集合的条件信息熵,用于描述两个簇的合集在每个聚类特征上的一致性,L(m)中第t个聚类符号向量lt关于的条件信息熵由式(13)计算:
其中,为聚类符号向量lt关于的条件信息熵,表示聚类符号向量lt的第st个取值关于集合的条件概率,可由式(14)计算:
S54、计算聚类符号向量集合L(m)关于集合的条件信息熵,用于描述在L(m)上的一致性,如式(15)所示:
其中,表示聚类符号向量集合L(m)关于簇合集的条件信息熵。
S55、计算集合在符号空间中的一致性,如式(16)所示:
其中,表示在符号空间中的一致性。
S60、按照步骤S50所述方法,遍历第m次迭代时产生的C(m)中所有两个簇构成的集合,计算该合集在符号空间中的一致性,并选出一致性最小的合集对应的两个簇,将这两个簇进行合并,生成新的聚类划分记作C(m+1),并令m=m+1,当聚类划分中的簇数量等于K进入步骤S70,否则跳转至步骤S30进行下一次迭代;
S70、则对聚类划分结果进行输出。

Claims (5)

1.一种基于信息熵的聚类划分方法,其特征在于:对于样本数量为N的数据集xi表示X中的第i个样本数据,利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇,K为聚类划分结果中簇的数量;每个样本数据中包含M个特征向量,M个特征向量构成的特征向量集合记为其中fj表示第j个特征向量,xi(F)表示样本数据xi在特征向量集合F上的取值,xi(fj)表示样本数据xi在第j个特征向量上的取值;将聚类划分视为对数据的一种符号表示,在迭代计算框架下每次迭代产生一组聚类划分,第m次迭代产生的聚类划分记作其中表示C(m)中的第sm个簇,Sm表示C(m)中的簇数量;第1~m次迭代产生的一系列聚类符号向量构成了集合 表示第t次迭代形成的聚类划分对应的聚类符号向量,其中St表示第t次迭代形成的聚类划分中的簇数量,lt,st表示第t个聚类符号向量lt的第st个取值,即C(t)中的第st个簇的标签,xi(L(m))表示样本数据xi在聚类符号向量集合L(m)中的取值,即xi(L(m))样本数据xi在第1~m次迭代产生的一系列聚类划分中对应的全部簇标签,xi(lt)表示样本数据xi在第t个聚类符号向量上的取值,即xi(lt)表示样本数据xi在第t个聚类划分中对应的簇标签,通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行
S10、为便于计算,利用高斯核函数κ对样本空间中的特征向量集合F进行映射,得到新的集合FF,FF中的特征向量服从高斯分布;
S20、初始化聚类划分C(1),在这一聚类划分中每个样本被作为一个簇,即其中表示初始聚类划分中的第n个簇;
S30、每一次迭代形成一个聚类划分,第m次迭代时产生的聚类划分记为C(m),利用信息熵作为不确定性度量,计算当前聚类划分在特征空间中的一致性:计算特征向量集合FF关于数据集X的条件信息熵,用于表示特征向量集合对数据集描述的不确定性,并分别计算FF关于每个聚类划分的条件信息熵,用于表示特征向量集合对当前聚类划分描述的不确定性,将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性;
S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重;
S50、在第m次迭代时产生的聚类划分C(m)中任选2个簇分别记为利用信息熵作为不确定性度量,计算两个簇构成的集合在符号空间中的一致性:对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于表示聚类符号向量集合对数据集描述的不确定性,并分别计算L(m)关于任意两个簇构成集合的条件信息熵,用于表示聚类符号向量集合对两个簇构成集合描述的不确定性,将聚类符号向量集合L(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性;
S60、按照步骤S50所述方法,遍历第m次迭代时产生的C(m)中所有两个簇构成的集合,计算该合集在符号空间中的一致性,并选出一致性最小的合集对应的两个簇,将这两个簇进行合并,生成新的聚类划分记作C(m+1),并令m=m+1,当聚类划分中的簇数量等于K进入步骤S70,否则跳转至步骤S30进行下一次迭代;
S70、则对聚类划分结果进行输出。
2.根据权利要求1所述一种基于信息熵的聚类划分方法,其特征在于:所述步骤S10中高斯核函数κ如式(1)所示:
其中,xi和xj表示数据集X中的任意两个样本点,参数γ的取值设为||xi(F)-xj(F)||2的标准差。
3.根据权利要求1所述一种基于信息熵的聚类划分方法,其特征在于:所述步骤S30详细为:
S31、利用式(2)计算特征向量集合FF关于数据集X的条件信息熵,用于描述数据集X在特征向量集合FF上的一致性:
其中,H(FF|X)为特征向量集合FF关于数据集X的条件信息熵,表示数据集X在FF中的方差,由式(3)进行计算:
其中,μX为数据集X在FF中的期望,满足式(4):
其中,xa、xb和xc表示数据集X中xi以外的样本。
S32、在第m次迭代时,计算样本特征集合FF关于聚类划分C(m)的条件信息熵,用于描述C(m)在样本特征集合FF上的一致性,其中FF关于C(m)的条件信息熵可由式(5)计算:
其中,H(FF|C(m))为特征向量集合FF关于第m次迭代时产生的聚类划分C(m)的条件信息熵,表示C(m)中数据的方差,由式(6)进行计算:
其中,xe为C(m)中的任一数据,为C(m)中数据的期望,满足式(7):
S33、计算第m次迭代时产生的聚类划分C(m)在特征空间中的一致性度量,如式(8)所示:
I(FF|C(m))=H(FF|X)-H(FF|C(m)) (8)
其中,I(FF|C(m))表示C(m)在特征空间中的一致性度量。
4.根据权利要求1所述一种基于信息熵的聚类划分方法,其特征在于:所述步骤S40中依据每次迭代中聚类划分在特征空间中的一致性计算第m次迭代时产生的聚类划分的质量权重的方法如式(9)所示:
其中,ω(m)表示聚类划分C(m)的质量权重,C(t)表示第t次迭代产生的聚类划分。
5.根据权利要求1所述一种基于信息熵的聚类划分方法,其特征在于:所述步骤S50详细步骤为:
S51、计算聚类符号向量集合L(m)中每一个聚类符号向量关于数据集X的条件信息熵,用于描述数据集X在每个聚类符号向量上的一致性,L(m)中第t个聚类符号向量lt关于数据集X的条件信息熵由式(10)计算:
其中,H(lt|X)为聚类符号向量lt关于数据集X的条件信息熵,P(lt,st|X)表示聚类符号向量lt的第st个取值关于数据集X的条件概率,可由式(11)计算:
S52、计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于描述数据集X在L(m)上的一致性,如式(12)所示:
其中,H(L(m)|X)表示聚类符号向量集合L(m)关于数据集X的条件信息熵,ω(t)表示第t个聚类划分C(t)的质量权重。
S53、在聚类划分C(m)中任选两个簇计算聚类符号向量集合L(m)中每一个聚类符号向量关于集合的条件信息熵,用于描述两个簇的合集在每个聚类特征上的一致性,L(m)中第t个聚类符号向量lt关于的条件信息熵由式(13)计算:
其中,为聚类符号向量lt关于的条件信息熵,表示聚类符号向量lt的第st个取值关于集合的条件概率,可由式(14)计算:
S54、计算聚类符号向量集合L(m)关于集合的条件信息熵,用于描述在L(m)上的一致性,如式(15)所示:
其中,表示聚类符号向量集合L(m)关于簇合集的条件信息熵。
S55、计算集合在符号空间中的一致性,如式(16)所示:
其中,表示在符号空间中的一致性。
CN201810810537.2A 2018-07-23 2018-07-23 一种基于信息熵的聚类划分方法 Pending CN109034238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810810537.2A CN109034238A (zh) 2018-07-23 2018-07-23 一种基于信息熵的聚类划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810810537.2A CN109034238A (zh) 2018-07-23 2018-07-23 一种基于信息熵的聚类划分方法

Publications (1)

Publication Number Publication Date
CN109034238A true CN109034238A (zh) 2018-12-18

Family

ID=64645121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810810537.2A Pending CN109034238A (zh) 2018-07-23 2018-07-23 一种基于信息熵的聚类划分方法

Country Status (1)

Country Link
CN (1) CN109034238A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460943A (zh) * 2020-03-24 2020-07-28 山西大学 一种遥感影像地物分类方法及系统
CN113435501A (zh) * 2021-06-25 2021-09-24 深圳大学 基于聚类的度量空间数据划分与性能衡量方法及相关组件
US11372895B2 (en) * 2019-04-01 2022-06-28 International Business Machines Corporation Sketching using a hybrid quantum-classical system
CN117688412A (zh) * 2024-02-02 2024-03-12 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11372895B2 (en) * 2019-04-01 2022-06-28 International Business Machines Corporation Sketching using a hybrid quantum-classical system
CN111460943A (zh) * 2020-03-24 2020-07-28 山西大学 一种遥感影像地物分类方法及系统
CN113435501A (zh) * 2021-06-25 2021-09-24 深圳大学 基于聚类的度量空间数据划分与性能衡量方法及相关组件
CN113435501B (zh) * 2021-06-25 2023-07-07 深圳大学 基于聚类的度量空间数据划分与性能衡量方法及相关组件
CN117688412A (zh) * 2024-02-02 2024-03-12 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统
CN117688412B (zh) * 2024-02-02 2024-05-07 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN109034238A (zh) 一种基于信息熵的聚类划分方法
Zhang et al. Unsupervised difference representation learning for detecting multiple types of changes in multitemporal remote sensing images
US7558425B1 (en) Finding structures in multi-dimensional spaces using image-guided clustering
CN109961089A (zh) 基于度量学习和元学习的小样本和零样本图像分类方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
JP2006252559A (ja) 画像において対象物の位置を特定する方法および対象物の画像を相異なる画像カテゴリに分類する方法
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
US10986400B2 (en) Compact video representation for video event retrieval and recognition
CN109165540A (zh) 一种基于先验候选框选择策略的行人搜索方法和装置
CN110807086B (zh) 文本数据标注方法及装置、存储介质、电子设备
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
Yang et al. A feature-metric-based affinity propagation technique for feature selection in hyperspectral image classification
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
CN108664986B (zh) 基于lp范数正则化的多任务学习图像分类方法及系统
CN106650810B (zh) 基于光谱属性信息和空间信息的水库水体分类方法及装置
Wen et al. Comparision of four machine learning techniques for the prediction of prostate cancer survivability
Rajaniemi et al. Classifying gamma-ray bursts using self-organizing maps
CN110188763A (zh) 一种基于改进图模型的图像显著性检测方法
Kiranyaz et al. Collective network of binary classifier framework for polarimetric SAR image classification: An evolutionary approach
CN105160598B (zh) 一种基于改进em算法的电网业务分类方法
CN115292532B (zh) 基于伪标签一致性学习的遥感图像域适应检索方法
Nan et al. Fast margin-based cost-sensitive classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication