CN109685158B - 一种基于强项集的聚类结果语义特征提取与可视化方法 - Google Patents

一种基于强项集的聚类结果语义特征提取与可视化方法 Download PDF

Info

Publication number
CN109685158B
CN109685158B CN201910014287.6A CN201910014287A CN109685158B CN 109685158 B CN109685158 B CN 109685158B CN 201910014287 A CN201910014287 A CN 201910014287A CN 109685158 B CN109685158 B CN 109685158B
Authority
CN
China
Prior art keywords
cluster
clustering result
item set
strong
cvg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910014287.6A
Other languages
English (en)
Other versions
CN109685158A (zh
Inventor
张明卫
何秀秀
肖云龙
季子其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910014287.6A priority Critical patent/CN109685158B/zh
Publication of CN109685158A publication Critical patent/CN109685158A/zh
Application granted granted Critical
Publication of CN109685158B publication Critical patent/CN109685158B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机信息处理技术领域的,提出了一种基于强项集的聚类结果语义特征提取与可视化方法。本方法首先通过分析构建了基于强项集簇语义特征模型,能够直观、有效地描述每个簇的特征,提高聚类结果集的可解释性;然后提出了基于强项集的簇语义特征抽取算法CLCE,该算法具有较高的性能,可以有效地提取面向强类集的簇语义特征;最后给出了簇语义特征可视化的方法,进一步帮助领域专家理解聚类结果集中的每个簇,促进挖掘出的相关知识模型的应用。

Description

一种基于强项集的聚类结果语义特征提取与可视化方法
技术领域
本发明属于计算机信息处理技术领域的,提出了一种基于强项集的聚类结果语义特征提取与可视化方法。
背景技术
聚类是数据分析领域被广泛使用的技术之一,其是一种在没有预先指定类别的前提下,用“物以类聚”的思想来分析数据的常用方法。然而聚类所产生的结果——聚类结果集的可解释性是聚类分析方法在应用层面上取得成功的关键。因而对于很多聚类应用而言,聚类结果的解释与可视化要比聚类本身更为重要。虽然现有的聚类模型有很多,也在基础聚类算法、半监督聚类、时间序列聚类、图或网络聚类、商业分析等许多方面出现许多新的聚类研究成果,但缺乏对聚类知识描述和聚类结果解释的研究。
目前,已有一些用于聚类结果解释与可视化相关的专利,专利201010194391.7提出的对聚类分析结果进行可视化的方法,实现了数据信息对象的聚类结果、聚类类别之间的结构关系及其关联、数据信息对象间的语义相似程度可视化表达,但并不能反映聚类结果集中各个簇的语义特征;专利201610341872.3提出的一种基于Radviz的模糊聚类结果可视化方法,主要基于Radviz以多维矩阵的形式实现了隶属度的分布、聚类簇的大小、聚类簇之间的关系等的可视化,缺乏聚类语义信息中的可视化;专利201810255690.3提出的一种基于簇语义特征分析的反馈式聚类方法,该方法主要采用K-means聚类方法,未针对任意聚类方法设计聚类结果解释与可视化技术。以上专利由于缺少针对通用聚类方法的聚类结果语义特征信息的建模与分析,所以不能有效的描述聚类结果集中各个簇的语义信息和增强聚类结果集的可解释性,增加了对聚类结果集认识和理解的困难。
发明内容
为了增强聚类结果集的可解释性,本发明从统计学角度,设计了一种基于强项集的聚类结果语义特征提取与可视化方法。本发明提出了一种基于强项集的聚类结果语义特征提取与可视化方法,能够直观、有效地描述聚类结果集中的各个簇,增强聚类结果集的可解释性,有助于领域专家对聚类结果集中各个簇的直观认识和理解,促进挖掘出的相关知识模型的应用;所给出的基于强项集的聚类结果语义特征抽取算法CLCE有着较高的执行性能,能够有效地抽取各个簇基于强项集的簇语义特征信息。
本发明所建立的簇语义特征模型能够直观、有效地描述聚类结果集中各个簇的语义特征,所给出了基于强项集的簇语义特征抽取算法有着较高的执行性能。总体,本发明针对广泛存在的聚类结果集,提出了一种基于强项集的聚类结果语义特征提取与可视化方法。包括以下步骤:
步骤1,基于强项集的簇语义特征建模;
定义覆盖度:cvg(I,q)=P(I∪q)/P(q)=|I∪q|/|q| (1)
其中,D为聚类结果集,I为一个项集,q是聚类结果中的一个簇,P(I∪q)和P(q)分别为I∪q和q在D中出现的概率,而|I∪q|和|q|分别为I∪q和q在D中出现的次数。由定义可知,cvg(I,q)∈[0,1],描述了项集I在簇为q样本中的覆盖程度。给定最小覆盖度阈值min_cvg,如果cvg(I,q)≥min_cvg,则称项集I为簇q的频繁项集。
定义特异度:
Figure BDA0001938494490000021
其中,D为聚类结果集,I为一个项集,q是聚类结果中的一个簇,
Figure BDA0001938494490000022
为项集I在非q簇中的覆盖度。由定义可知,excl(I,q)∈[0,1],描述了项集I对簇q的特属程度。给定最小特异度阈值min_excl,如果excl(I,q)≥min_excl,则称项集I为簇q的特异项集。
定义主项集:给定一聚类结果集D和其中的一个簇q,如果项集I在D中即是簇q的频繁项集,又是q的特异项集,则称项集I为簇q的主项集。
从直观上理解,一个簇的主项集就是在该簇中频繁出现、而在其它簇中较少出现的项集。根据聚类结果集D的数据分布情况和阈值设定的大小,一个簇q可能有零到多个项集。
定义强项集:给定一聚类结果集D和其中的一个簇q,如果项集I是簇q的一个主项集,且满足条件
Figure BDA0001938494490000023
则称主项集I为簇q的一个强项集。
条件
Figure BDA0001938494490000024
表示:主项集I'是I的真子集,且I'对簇q的特异度要大于等于主项集I对簇q的特异度。显然,在该条件下,主项集I'完全可以代替I,更有效地代表簇q的特征。此时,称主项集I'强于主项集I,而I弱于I'。
定义簇语义特征:给定一聚类结果集D和其中的一个簇q,LC={I1,I2,...In}是簇q的强项集的全集,则称LC为聚类结果集D中簇q的簇语义特征。
本发明所建立的簇语义特征以强项集为单位,通过给出在该簇中频繁出现、而在其它簇中较少出现的强项集,来直观地描述一个簇区别于其它簇的特征,便于领域专家对聚类结果集中各个簇的理解。同时也可以较容易地建立簇语义特征模型。
步骤2,获取聚类结果集D;
步骤3,对聚类结果集D实现基于强项集的聚类结果语义特征提取,具体步骤如下:
在步骤1所建立的基于强项集的簇语义特征模型基础上,需设计具体的簇语义特征抽取算法。算法的运算过程主要包含两步:其一是将聚类结果集D中的连续属性进行离散化;其二是在离散化的数据集上完成针对各个簇的簇语义特征抽取。算法的性能主要由第二步决定。
步骤3.1,若聚类结果集D中是存在连续属性,则执行下一步,否则执行步骤3.3;
步骤3.2,采用基于基尼系数的连续属性离散化,将聚类结果集D中的各连续属性进行概念划分,以形成有序的概念值;
对连续属性进行离散化的方法有许多,本发明采用基于基尼系数的离散化方法,其使用数据分布反映出的信息量特征,可尽可能地将区间边界定义在准确的位置上,有助于提高区间划分的准确性。
步骤3.2.1,根据实际情况设置连续属性离散化区间个数为N;
步骤3.2.2,选取聚类结果集中未被处理的连续属性A;
步骤3.2.3,假设A的每个值v是一个潜在的区间边界;
步骤3.2.4,计算每个潜在的区间边界点的基尼系数,其中基尼系数的度量如下:
Figure BDA0001938494490000031
其中,D1和D2分别对应于D中满足A<v和A≥v的样本。对于给定数据集,它的基尼系数根据数据集中样本的簇分布来计算。例如,给定k个簇,S的基尼系数为:
Figure BDA0001938494490000032
其中,Pq是簇q在D中的概率,等于D中簇q的样本数除以D的样本总数。
步骤3.2.5,挑选出使划分得到的基尼系数最小的区间边界点;
步骤3.2.6,若划分出来的区间个数满足阈值N,则执行步骤3.2.8,否则执行下一步。
步骤3.2.7,计算划分后的每一个区间的基尼系数,挑选出其中基尼系数最小的区间,执行步骤3.2.3;
步骤3.2.8,将得到的连续属性A的离散化区间与聚类结果集D中对应的连续属性A的连续数据进行替换。
步骤3.3,对离散化处理后的聚类结果集D采用基于强项集的簇语义特征抽取算法CLCE进行簇语义特征抽取,具体步骤如下:
步骤3.3.1,用户给定最小覆盖度min_cvg和最小特异度min_excl的阈值;
步骤3.3.2、基于簇号属性C,将聚类结果集D划分为k个不相交的子数据集
Figure BDA0001938494490000041
其中Dq为簇q所对应的子数据集;
步骤3.3.3,扫描各个簇所对应的子数据集Dq,统计Dq中各项出现的频率,并计算它们在Dq中的覆盖度;对各频繁项按覆盖度降序排序,结果为频繁项表Lq
步骤3.3.4,对各个簇所对应的子数据集Dq,创建其所对应的加强FP-tree Tq,然后执行:a)创建Tq的根节点,以“root”标记;b)扫描Dq一次,将Dq中的每个元组tuple如下处理:选择tuple中的频繁项,并按Lq中的次序排序。将排序后的tuple中的频繁项表插入到树Tq中;
步骤3.3.5,针对各个簇q,基于第3.3.3步得到的频繁项表Lq和第3.3.4步得到的FP-tree Tq,挖掘产生满足最小覆盖度和最小特异度阈值的簇语义特征,即以Lq自底向上的次序在Tq中产生互不重叠的强项集;
步骤4、对聚类结果集D实现基于强项集的聚类结果语义特征的可视化。其中,为了将聚类结果集中各个簇基于强项集的簇语义特征更直观、有效地展现出来,我们定义了“推进度”的概念:
Figure BDA0001938494490000042
其中,D为聚类结果集,I为一个项集,q是聚类结果中的一个簇,由式(5)可知,项集I对簇q的推进度实际上是在I发生下q也发生的条件概率,可由项集I对簇q的覆盖度和特异度计算得出。
之所以在实现基于强项集的聚类结果语义特征的可视化中定义新的“推进度”,是因为对于领域专家而言,“推进度”的概念和意义更容易理解。但在定义“簇语义特征”时,却不能采用“推进度”代替“特异度”来定义簇的强项集,是因为“特异度”描述了一个强项集对给定簇的特属程度,能够刻画一个簇区别与其它簇的特征,但“推进度”却不能。比如给定聚类结果集D中的一个簇q以及q的一个强项集I,假设推进度adv(I,q)取值较高为0.9,但如果q本身发生的概率也为0.9,则显然I并非特属于q,实际上I在簇q以及整个数据集D中的分布密度相等。
实现基于强项集的聚类结果语义特征的可视化具体步骤如下:
步骤4.1、步骤3至步骤3.3.5已经完成了聚类结果集中各个簇面向强项集的簇语义特征的抽取,假设结果为
Figure BDA0001938494490000051
步骤4.2、用户选定要进行簇语义特征知识展现的簇q,做如下处理:
步骤4.2.1,用户设定用于簇q语义特征展示的覆盖度阈值show_cvg和特异度阈值show_excl,且需满足条件:show_cvg∈[min_cvg,1]∧show_excl∈[min_excl,1];
步骤4.2.2,在LCq中过滤出满足条件:(cvg≥show_cvg)∧(excl≥show_excl)的强项集,选定以表格或图表的方式将簇q的簇语义特征展现出来;
步骤4.2.3,重复步骤4.2.1和4.2.2,直到用户满意为止;
步骤4.3,重复进行第4.2步,直到把用户感兴趣的所有簇的簇语义特征展现出来为止。
本发明的有益效果为:
本发明一种基于强项集的聚类结果语义特征提取和可视化方法。首先,通过分析构建了基于强项集簇语义特征模型,能够直观有效地描述每个簇的特征,提高聚类结果集的可解释性;然后提出了基于强项集的簇语义特征抽取算法CLCE,该算法具有较高的性能,可以有效地提取面向强类集的簇语义特征;最后给出了簇语义特征可视化的方法,进一步帮助领域专家理解聚类结果集中的每个簇。
附图说明
图1是本发明一种基于强项集的聚类结果语义特征提取与可视化方法流程图。
图2是本发明基于基尼系数的离散化方法流程图。
图3是本发明基于强项集的簇语义特征抽取算法CLCE流程图
图4是本发明的簇“Benign”的语义特征可视化效果图。
图5是本发明的簇“Malignant”的语义特征可视化效果图。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
本发明实例以UCI中的Breast-Cancer-Wisconsin数据集作为研究对象,该数据集总共有699个实例;10个属性(样品编号、凝块厚度、细胞大小均匀性、细胞形状均匀度、边缘粘附力、单个上皮细胞大小、裸核、.平淡染色质、正常核仁、有丝分裂,其取值都是1-10的整数);簇标号为Class(其取值是2(“benign(良性)”)和4(“malignant(恶性)”))。
一种基于强项集的聚类结果语义特征提取和可视化方法,方法的流程图如图1所示,包括以下步骤:
步骤1、基于强项集的簇语义特征建模;
本发明实施例中,将Breast-Cancer-Wisconsin数据集作为研究对象,完成对覆盖度、特异度、主项集、强项集、簇语义特征的定义,实现基于强项集的簇语义特征建模;
步骤2、获取聚类结果集D;
从UCI数据集中下载Breast-Cancer-Wisconsin数据集;
步骤3、对聚类结果集D实现基于强项集的聚类结果语义特征提取,具体步骤如下:
在基于强项集的簇语义特征建模基础上,对数据集Breast-Cancer-Wisconsin实现基于强项集的聚类结果语义特征提取,具体步骤如下:
步骤3.1、若聚类结果集D中是存在连续属性,则执行下一步,否则执行步骤3.3;
判断出数据集Breast-Cancer-Wisconsin中没有连续属性,则执行步骤3.3;
步骤3.2、采用基于基尼系数的连续属性离散化,将聚类结果集D中的各连续属性进行概念划分,以形成有序的概念值。方法的流程图如图2所示,具体步骤如下:
步骤3.2.1、根据实际情况设置连续属性离散化区间个数为N;
步骤3.2.2、对聚类结果集中的每一个连续属性A做以下操作:
步骤3.2.3、假设A的每个值v可以认为是一个潜在的区间边界;
步骤3.2.4、计算每个潜在的区间边界点的基尼系数,其中基尼系数的度量如下:
Figure BDA0001938494490000071
其中,D1和D2分别对应于D中满足A<v和A≥v的样本。对于给定数据集,它的基尼系数根据数据集中样本的簇分布来计算。例如,给定k个簇,S的基尼系数为:
Figure BDA0001938494490000072
其中,Pq是簇q在D中的概率,等于D中簇q的样本数除以D的样本总数。
步骤3.2.5、挑选出使划分得到的基尼系数最小的区间边界点;
步骤3.2.6、若划分出来的区间个数满足阈值N,则执行步骤4,否则执行下一步。
步骤3.2.7、计算划分后的每一个区间的基尼系数,挑选出其中基尼系数最小的区间,执行步骤2.2.3;
步骤3.2.8、将得到的连续属性A的离散化区间与聚类结果集D中对应的连续属性A的连续数据进行替换;
步骤3.3、对聚类结果集D采用基于强项集的簇语义特征抽取算法CLCE进行簇语义特征抽取,CLCE算法的流程图如图3所示,具体步骤如下:
在基于强项集的簇语义特征建模基础上,对数据集Breast-Cancer-Wisconsin采用基于强项集的簇语义特征抽取算法CLCE,进行簇语义特征抽取,具体步骤如下:
步骤3.3.1、用户给定最小覆盖度min_cvg和最小特异度min_excl的阈值;
设定最小覆盖度min_cvg和最小特异度min_excl的阈值:min_cvg=0.25、min_excl=0.8;其中,最小覆盖度min_cvg和最小特异度min_excl的阈值不能太小也不能太大,因为“太小”会使抽取的簇语义特征中存在大量冗余特征,“太大”会使抽取的簇语义特征丢失一些重要的特征;
步骤3.3.2、基于簇属性C,将聚类结果集D划分为k个不相交的子数据集
Figure BDA0001938494490000081
其中Dq为簇q所对应的子数据集;
基于簇属性Class,将数据集Breast-Cancer-Wisconsin划分为2个不相交的子数据集,其中簇“benign”的子数据集共有458条数据,簇“malignant”的子数据集共有241条数据。
步骤3.3.3、扫描各个簇所对应的子数据集Dq,统计Dq中各项出现的频率,并计算它们在Dq中的覆盖度。对各频繁项按覆盖度降序排序,结果为频繁项表Lq
扫描簇是“benign”的子数据集和簇是“malignant”的子数据集,统计出各个簇子数据集中满足min_cvg的频繁一项集,并按照覆盖度对各频繁项降序排序,构成各个簇子数据集的频繁项表Lq;
步骤3.3.4、对各个簇所对应的子数据集Dq,创建其所对应的加强FP-tree Tq,然后执行:a)创建Tq的根节点,以“root”标记;b)扫描Dq一次,将Dq中的每个元组tuple如下处理:选择tuple中的频繁项,并按Lq中的次序排序。将排序后的tuple中的频繁项表插入到树Tq中;
扫描簇是“benign”的子数据集和簇是“malignant”的子数据集,按照FP-tree的构建思路,去除元组中不满足min_cvg的项集,将各簇子数据集中满足min_cvg的数据压缩成树结构,构建其所对应的加强FP-tree Tq
步骤3.3.5、针对各个簇q,基于第3.3.3步得到的频繁项表Lq和第3.3.4步得到的FP-tree Tq,挖掘产生满足最小覆盖度和最小特异度阈值的簇语义特征,即以Lq自底向上的次序在Tq中产生互不重叠的强项集;
基于簇是“benign”和簇是“malignant”在第3.3.3步得到的频繁项表Lq和第3.3.4步得到的FP-tree Tq,采用FP-Growth的思路,自底向上扫描各个簇的频繁项表,挖掘出满足最小覆盖度和最小特异度阈值的各个簇语义特征,完成对数据集Breast-Cancer-Wisconsin基于强项集的聚类结果语义特征提取。
步骤4、对聚类结果集D实现基于强项集的聚类结果语义特征的可视化,具体步骤如下:
基于强项集的簇语义特征建模,在对数据集Breast-Cancer-Wisconsin采用基于强项集的簇语义特征抽取算法CLCE完成簇语义特征抽取的基础上,对数据集实现基于强项集的聚类结果语义特征的可视化,具体步骤如下:
步骤4.1、步骤3至步骤3.3.5已经完成了聚类结果集中各个簇面向强项集的簇语义特征的抽取,假设结果为
Figure BDA0001938494490000091
步骤3至步骤3.3.5完成了对数据集Breast-Cancer-Wisconsin基于强项集的聚类结果语义特征提取,找到了聚类结果集中簇“Benign”和簇“Malignant”的簇语义特征LCq,接下来通过条件筛选对各个簇的语义特征进行可视化:
步骤4.2、用户选定要进行簇语义特征知识展现的簇q,做如下处理:
首先,用户选定要进行簇语义特征展示的簇是“Benign”
步骤4.2.1、用户设定用于簇q语义特征展示的覆盖度阈值show_cvg和特异度阈值show_excl,且需满足条件:show_cvg∈[min_cvg,1]∧show_excl∈[min_excl,1];
然后,设定用于簇“Benign”语义知识展示的覆盖度阈值show_cvg=0.25和特异度阈值show_excl=0.8;
步骤4.2.2、在LCq中过滤出满足条件:(cvg≥show_cvg)∧(excl≥show_excl)的强项集,选定以表格或图表的方式将簇q的簇语义特征展现出来;
从簇“Benign”的语义特征中过滤出的强项集个数接近200,较难找出该簇的代表性特征。
步骤4.2.3、重复步骤4.2.1和4.2.2,直到用户满意为止;
由于设定展示的覆盖度阈值show_cvg=0.25和特异度阈值show_excl=0.8不合理,因而更改展示阈值,设定show_cvg=0.6和show_excl=0.99,重复步骤4.2.1和4.2.2,发现其3个代表性的强项集,选用图表的形式展示簇“Benign”的语义特征,如图4所示。
在图4中,强项集{<A2,1>,<A4,1>,<A5,2>}中的A2、A4和A5分别代表数据集“breast-cancer-wisconsin”的三个属性“细胞大小的均匀性”,“边缘粘附力”和“单个上皮细胞大小”,其取值分别为1、1和2。该项集在簇“Benign”中出现的概率(即覆盖度)为0.617,特属于“Benign”簇的程度(即特异度)为0.993,在该项集出现时,簇“Benign”发生的概率(即推进度)为0.996。图4中其它2个强项集的含义同上。
步骤4.3、重复进行第4.2步,直到把用户感兴趣的所有簇的簇语义特征展现出来为止。
重复进行第4.2步,用户重新选定该数据集的簇“Malignant”进行簇语义特征知识展示。依然设定阈值show_cvg=0.6和show_excl=0.99,发现该簇没有满足阈值的强项集。因而重新设计阈值show_cvg=0.25和show_excl=0.8,发现该簇的簇语义特征,选用图表的形式展示簇“Malignant”的语义特征,如图5所示。
在图5中,{<A1,10>}是簇“Malignant”在设定阈值min_cvg=0.25和min_excl=0.8时簇特征中的5个强项集之一。其中,A1代表属性“凝块厚度”,其取值为10,该强项集在簇“Malignant”中出现的概率(即覆盖度)为0.289,特属于该簇的程度(即特异度)为1,该强项集出现时,簇“Malignant”发生的概率(即推进度)为1。图5中其它4个强项集的含义同上。

Claims (5)

1.一种基于强项集的聚类结果语义特征提取与可视化方法,其特征在于,包括如下步骤:
步骤1、基于强项集的簇语义特征建模;
定义覆盖度:cvg(I,q)=P(I∪q)/P(q)=|I∪q|/|q| (1)
其中,D为聚类结果集,I为一个项集,q是聚类结果中的一个簇,P(I∪q)和P(q)分别为I∪q和q在D中出现的概率;|I∪q|和|q|分别为I∪q和q在D中出现的次数;
定义特异度:
Figure FDA0002578959900000011
其中,D为聚类结果集,I为一个项集,q是聚类结果中的一个簇,
Figure FDA0002578959900000012
为项集I在非q簇中的覆盖度;
定义主项集:给定一聚类结果集D和其中的一个簇q,如果项集在D中即是簇q的频繁项集,又是q的特异项集,则称项集I为簇q的主项集;
定义强项集:给定一聚类结果集D和其中的一个簇q,如果项集I是簇q的一个主项集,且满足条件
Figure FDA0002578959900000013
则称主项集I为簇q的一个强项集;
定义簇语义特征:给定一聚类结果集D和其中的一个簇q,LC={I1,I2,...In}是簇q的强项集的全集,则称LC为聚类结果集D中簇q的簇语义特征;
步骤2、获取聚类结果集D;
步骤3、对聚类结果集D实现基于强项集的聚类结果语义特征提取;
步骤3.1、若聚类结果集D中存在连续属性,则执行下一步,否则执行步骤3.3
步骤3.2、采用基于基尼系数的连续属性离散化方法,将聚类结果集D中的各连续属性进行概念划分,以形成有序的概念值;
步骤3.3、对聚类结果集D采用基于强项集的簇语义特征抽取算法CLCE进行簇语义特征抽取;
步骤4、对聚类结果集D实现基于强项集的聚类结果语义特征的可视化。
2.根据权利要求1所述的方法,其特征还在于,步骤3.2包括具体步骤为:
步骤3.2.1,根据实际情况设置连续属性离散化区间个数为N;
步骤3.2.2,选取聚类结果集中未被处理的连续属性A;
步骤3.2.3,设A的每个值v为是一个潜在的区间边界;
步骤3.2.4,计算每个潜在的区间边界点的基尼系数,其中基尼系数的度量如下:
Figure FDA0002578959900000014
其中,D1和D2分别对应于D中满足A<v和A≥v的样本;对于给定数据集,它的基尼系数根据数据集中样本的簇分布计算;
步骤3.2.5,挑选出使划分得到的基尼系数最小的区间边界点;
步骤3.2.6,若划分出来的区间个数满足阈值N,则执行步骤3.2.8,否则执行下一步;
步骤3.2.7,计算划分后的每一个区间的基尼系数,挑选出其中基尼系数最小的区间,执行步骤3.2.3;
步骤3.2.8,将得到的连续属性A的离散化区间与聚类结果集D中对应的连续属性A的连续数据进行替换。
3.根据权利要求1或2所述的方法,其特征还在于,步骤3.3包括具体步骤为:
步骤3.3.1,用户给定最小覆盖度min_cvg和最小特异度min_excl的阈值;
步骤3.3.2,基于簇号属性C,将聚类结果集D划分为k个不相交的子数据集
Figure FDA0002578959900000021
其中Dq为簇q所对应的子数据集;
步骤3.3.3,扫描各个簇所对应的子数据集Dq,统计Dq中各项出现的频率,并计算它们在Dq中的覆盖度;对各频繁项按覆盖度降序排序,结果为频繁项表Lq
步骤3.3.4,对各簇所对应的子数据集Dq,创建其所对应的加强FP-tree Tq,然后执行:a)创建Tq的根节点,以“root”标记;b)扫描Dq一次,将Dq中的每个元组tuple如下处理:选择tuple中的频繁项,并按Lq中的次序排序;将排序后的tuple中的频繁项表插入到树Tq中;
步骤3.3.5,针对各个簇q,基于第3.3.3步得到的频繁项表Lq和第3.3.4步得到的FP-treeTq,挖掘产生满足最小覆盖度和最小特异度阈值的簇语义特征,即以Lq自底向上的次序在Tq中产生互不重叠的强项集。
4.根据权利要求1或2所述的方法,其特征还在于,步骤4包括具体步骤为:
步骤4.1,步骤3已经完成了聚类结果集中各个簇面向强项集的簇语义特征的抽取,定义结果为
Figure FDA0002578959900000022
步骤4.2,用户选定要进行簇语义特征知识展现的簇q,做如下处理:
步骤4.2.1,用户设定用于簇q语义特征展示的覆盖度阈值show_cvg和特异度阈值show_excl,且需满足条件:show_cvg∈[min_cvg,1]∧show_excl∈[min_excl,1];
步骤4.2.2,在LCq中过滤出满足条件:(cvg≥show_cvg)∧(excl≥show_excl)的强项集,选定以表格或图表的方式将簇q的簇语义特征展现出来;
步骤4.2.3,重复步骤4.2.1和4.2.2,直到用户满意为止;
步骤4.3,重复进行第4.2步,直到把用户感兴趣的所有簇的簇语义特征展现出来为止。
5.根据权利要求3所述的方法,其特征还在于,步骤4包括具体步骤为:
步骤4.1,步骤3已经完成了聚类结果集中各个簇面向强项集的簇语义特征的抽取,定义结果为
Figure FDA0002578959900000031
步骤4.2,用户选定要进行簇语义特征知识展现的簇q,做如下处理:
步骤4.2.1,用户设定用于簇q语义特征展示的覆盖度阈值show_cvg和特异度阈值show_excl,且需满足条件:show_cvg∈[min_cvg,1]∧show_excl∈[min_excl,1];
步骤4.2.2,在LCq中过滤出满足条件:(cvg≥show_cvg)∧(excl≥show_excl)的强项集,选定以表格或图表的方式将簇q的簇语义特征展现出来;
步骤4.2.3,重复步骤4.2.1和4.2.2,直到用户满意为止;
步骤4.3,重复进行第4.2步,直到把用户感兴趣的所有簇的簇语义特征展现出来为止。
CN201910014287.6A 2019-01-08 2019-01-08 一种基于强项集的聚类结果语义特征提取与可视化方法 Expired - Fee Related CN109685158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910014287.6A CN109685158B (zh) 2019-01-08 2019-01-08 一种基于强项集的聚类结果语义特征提取与可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910014287.6A CN109685158B (zh) 2019-01-08 2019-01-08 一种基于强项集的聚类结果语义特征提取与可视化方法

Publications (2)

Publication Number Publication Date
CN109685158A CN109685158A (zh) 2019-04-26
CN109685158B true CN109685158B (zh) 2020-10-16

Family

ID=66192666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910014287.6A Expired - Fee Related CN109685158B (zh) 2019-01-08 2019-01-08 一种基于强项集的聚类结果语义特征提取与可视化方法

Country Status (1)

Country Link
CN (1) CN109685158B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
CN103473369A (zh) * 2013-09-27 2013-12-25 清华大学 基于语义的信息采集方法及系统
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
US9262834B2 (en) * 2012-07-30 2016-02-16 General Electric Company Systems and methods for performing segmentation and visualization of images
CN106055580A (zh) * 2016-05-23 2016-10-26 中南大学 一种基于Radviz的模糊聚类结果可视化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820716B (zh) * 2015-05-21 2017-11-28 中国人民解放军海军工程大学 基于数据挖掘的装备可靠性评估方法
CN107577785B (zh) * 2017-09-15 2020-02-07 南京大学 一种适用于法律识别的层次多标签分类方法
CN107908734A (zh) * 2017-11-14 2018-04-13 成都才智圣有科技有限责任公司 一种可视化的并行数据挖掘系统
CN108763361A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于主题模型的多标签分类框架方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
US9262834B2 (en) * 2012-07-30 2016-02-16 General Electric Company Systems and methods for performing segmentation and visualization of images
CN103473369A (zh) * 2013-09-27 2013-12-25 清华大学 基于语义的信息采集方法及系统
CN103593400A (zh) * 2013-12-13 2014-02-19 陕西省气象局 一种基于改进Apriori算法的雷电活动数据统计方法
CN106055580A (zh) * 2016-05-23 2016-10-26 中南大学 一种基于Radviz的模糊聚类结果可视化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Improved Association Rule Algorithm Based on Itemset Matrix and Cluster Matrix;PENG Jian等;《The 7th International Conference on Computer Science & Education (ICCSE 2012)》;20120717;第1-4页 *
决策树算法原理(下);刘建平Pinard;《http://www.cnblogs.com/pinard/p/6053344.html》;20161111;第834-837页 *
基于最大频繁项集的搜索引擎查询结果聚类方法;苏冲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315(第3期);第I138-2790页 *

Also Published As

Publication number Publication date
CN109685158A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
Liu et al. VDBSCAN: varied density based spatial clustering of applications with noise
Popat et al. Review and comparative study of clustering techniques
CN110674841B (zh) 一种基于聚类算法的测井曲线识别方法
CN106844416B (zh) 一种子话题挖掘方法
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
CN108763496A (zh) 一种基于网格和密度的动静态数据融合客户分类算法
CN111382276A (zh) 一种事件发展脉络图生成方法
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
CN108427753A (zh) 一种新的数据挖掘方法
CN112905380A (zh) 一种基于自动化监控日志的系统异常检测方法
CN114154484B (zh) 基于混合深度语义挖掘的施工专业术语库智能构建方法
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN108170799A (zh) 一种海量数据的频繁序列挖掘方法
CN103946840A (zh) 非监督检测及在文本数据中字簇集的分类
Cai et al. An iterative step-function estimator for graphons
CN109685158B (zh) 一种基于强项集的聚类结果语义特征提取与可视化方法
CN103870489A (zh) 基于搜索日志的中文人名自扩展识别方法
Tsai et al. GF-DBSCAN; a new efficient and effective data clustering technique for large databases
Kadhim et al. Combined chi-square with k-means for document clustering
Jiang et al. Towards interactive exploration of gene expression patterns
Zhou et al. A review of a text classification technique: K-Nearest Neighbor
CN105373521B (zh) 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法
CN111163053B (zh) 一种恶意url检测方法及系统
CN114266914A (zh) 一种异常行为检测方法及装置
CN109493249B (zh) 一种用电数据在多时间尺度上的分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201016

CF01 Termination of patent right due to non-payment of annual fee