CN109685158B

CN109685158B - 一种基于强项集的聚类结果语义特征提取与可视化方法

Info

Publication number: CN109685158B
Application number: CN201910014287.6A
Authority: CN
Inventors: 张明卫; 何秀秀; 肖云龙; 季子其
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-10-16
Anticipated expiration: 2039-01-08
Also published as: CN109685158A

Abstract

本发明属于计算机信息处理技术领域的，提出了一种基于强项集的聚类结果语义特征提取与可视化方法。本方法首先通过分析构建了基于强项集簇语义特征模型，能够直观、有效地描述每个簇的特征，提高聚类结果集的可解释性；然后提出了基于强项集的簇语义特征抽取算法CLCE，该算法具有较高的性能，可以有效地提取面向强类集的簇语义特征；最后给出了簇语义特征可视化的方法，进一步帮助领域专家理解聚类结果集中的每个簇，促进挖掘出的相关知识模型的应用。

Description

一种基于强项集的聚类结果语义特征提取与可视化方法

技术领域

本发明属于计算机信息处理技术领域的，提出了一种基于强项集的聚类结果语义特征提取与可视化方法。

背景技术

聚类是数据分析领域被广泛使用的技术之一，其是一种在没有预先指定类别的前提下，用“物以类聚”的思想来分析数据的常用方法。然而聚类所产生的结果——聚类结果集的可解释性是聚类分析方法在应用层面上取得成功的关键。因而对于很多聚类应用而言，聚类结果的解释与可视化要比聚类本身更为重要。虽然现有的聚类模型有很多，也在基础聚类算法、半监督聚类、时间序列聚类、图或网络聚类、商业分析等许多方面出现许多新的聚类研究成果，但缺乏对聚类知识描述和聚类结果解释的研究。

目前，已有一些用于聚类结果解释与可视化相关的专利，专利201010194391.7提出的对聚类分析结果进行可视化的方法，实现了数据信息对象的聚类结果、聚类类别之间的结构关系及其关联、数据信息对象间的语义相似程度可视化表达，但并不能反映聚类结果集中各个簇的语义特征；专利201610341872.3提出的一种基于Radviz的模糊聚类结果可视化方法，主要基于Radviz以多维矩阵的形式实现了隶属度的分布、聚类簇的大小、聚类簇之间的关系等的可视化，缺乏聚类语义信息中的可视化；专利201810255690.3提出的一种基于簇语义特征分析的反馈式聚类方法，该方法主要采用K-means聚类方法，未针对任意聚类方法设计聚类结果解释与可视化技术。以上专利由于缺少针对通用聚类方法的聚类结果语义特征信息的建模与分析，所以不能有效的描述聚类结果集中各个簇的语义信息和增强聚类结果集的可解释性，增加了对聚类结果集认识和理解的困难。

发明内容

为了增强聚类结果集的可解释性，本发明从统计学角度，设计了一种基于强项集的聚类结果语义特征提取与可视化方法。本发明提出了一种基于强项集的聚类结果语义特征提取与可视化方法，能够直观、有效地描述聚类结果集中的各个簇，增强聚类结果集的可解释性，有助于领域专家对聚类结果集中各个簇的直观认识和理解，促进挖掘出的相关知识模型的应用；所给出的基于强项集的聚类结果语义特征抽取算法CLCE有着较高的执行性能，能够有效地抽取各个簇基于强项集的簇语义特征信息。

本发明所建立的簇语义特征模型能够直观、有效地描述聚类结果集中各个簇的语义特征，所给出了基于强项集的簇语义特征抽取算法有着较高的执行性能。总体，本发明针对广泛存在的聚类结果集，提出了一种基于强项集的聚类结果语义特征提取与可视化方法。包括以下步骤：

步骤1，基于强项集的簇语义特征建模；

定义覆盖度：cvg(I,q)＝P(I∪q)/P(q)＝|I∪q|/|q| (1)

其中，D为聚类结果集，I为一个项集，q是聚类结果中的一个簇，P(I∪q)和P(q)分别为I∪q和q在D中出现的概率，而|I∪q|和|q|分别为I∪q和q在D中出现的次数。由定义可知，cvg(I,q)∈[0,1]，描述了项集I在簇为q样本中的覆盖程度。给定最小覆盖度阈值min_cvg，如果cvg(I,q)≥min_cvg，则称项集I为簇q的频繁项集。

定义特异度：

其中，D为聚类结果集，I为一个项集，q是聚类结果中的一个簇，

为项集I在非q簇中的覆盖度。由定义可知，excl(I,q)∈[0,1]，描述了项集I对簇q的特属程度。给定最小特异度阈值min_excl，如果excl(I,q)≥min_excl，则称项集I为簇q的特异项集。

定义主项集：给定一聚类结果集D和其中的一个簇q，如果项集I在D中即是簇q的频繁项集，又是q的特异项集，则称项集I为簇q的主项集。

从直观上理解，一个簇的主项集就是在该簇中频繁出现、而在其它簇中较少出现的项集。根据聚类结果集D的数据分布情况和阈值设定的大小，一个簇q可能有零到多个项集。

定义强项集：给定一聚类结果集D和其中的一个簇q，如果项集I是簇q的一个主项集，且满足条件

则称主项集I为簇q的一个强项集。

条件

表示：主项集I'是I的真子集，且I'对簇q的特异度要大于等于主项集I对簇q的特异度。显然，在该条件下，主项集I'完全可以代替I，更有效地代表簇q的特征。此时，称主项集I'强于主项集I，而I弱于I'。

定义簇语义特征：给定一聚类结果集D和其中的一个簇q，LC＝{I₁,I₂,...I_n}是簇q的强项集的全集，则称LC为聚类结果集D中簇q的簇语义特征。

本发明所建立的簇语义特征以强项集为单位，通过给出在该簇中频繁出现、而在其它簇中较少出现的强项集，来直观地描述一个簇区别于其它簇的特征，便于领域专家对聚类结果集中各个簇的理解。同时也可以较容易地建立簇语义特征模型。

步骤2，获取聚类结果集D；

步骤3，对聚类结果集D实现基于强项集的聚类结果语义特征提取，具体步骤如下：

在步骤1所建立的基于强项集的簇语义特征模型基础上，需设计具体的簇语义特征抽取算法。算法的运算过程主要包含两步：其一是将聚类结果集D中的连续属性进行离散化；其二是在离散化的数据集上完成针对各个簇的簇语义特征抽取。算法的性能主要由第二步决定。

步骤3.1，若聚类结果集D中是存在连续属性，则执行下一步，否则执行步骤3.3；

步骤3.2，采用基于基尼系数的连续属性离散化，将聚类结果集D中的各连续属性进行概念划分，以形成有序的概念值；

对连续属性进行离散化的方法有许多，本发明采用基于基尼系数的离散化方法，其使用数据分布反映出的信息量特征，可尽可能地将区间边界定义在准确的位置上，有助于提高区间划分的准确性。

步骤3.2.1，根据实际情况设置连续属性离散化区间个数为N；

步骤3.2.2，选取聚类结果集中未被处理的连续属性A；

步骤3.2.3，假设A的每个值v是一个潜在的区间边界；

步骤3.2.4，计算每个潜在的区间边界点的基尼系数，其中基尼系数的度量如下：

其中，D₁和D₂分别对应于D中满足A<v和A≥v的样本。对于给定数据集，它的基尼系数根据数据集中样本的簇分布来计算。例如，给定k个簇，S的基尼系数为：

其中，P_q是簇q在D中的概率，等于D中簇q的样本数除以D的样本总数。

步骤3.2.5，挑选出使划分得到的基尼系数最小的区间边界点；

步骤3.2.6，若划分出来的区间个数满足阈值N,则执行步骤3.2.8，否则执行下一步。

步骤3.2.7，计算划分后的每一个区间的基尼系数，挑选出其中基尼系数最小的区间，执行步骤3.2.3；

步骤3.2.8，将得到的连续属性A的离散化区间与聚类结果集D中对应的连续属性A的连续数据进行替换。

步骤3.3，对离散化处理后的聚类结果集D采用基于强项集的簇语义特征抽取算法CLCE进行簇语义特征抽取，具体步骤如下：

步骤3.3.1，用户给定最小覆盖度min_cvg和最小特异度min_excl的阈值；

步骤3.3.2、基于簇号属性C，将聚类结果集D划分为k个不相交的子数据集

其中D_q为簇q所对应的子数据集；

步骤3.3.3，扫描各个簇所对应的子数据集D_q，统计D_q中各项出现的频率，并计算它们在D_q中的覆盖度；对各频繁项按覆盖度降序排序，结果为频繁项表L_q；

步骤3.3.4，对各个簇所对应的子数据集D_q，创建其所对应的加强FP-tree T_q，然后执行：a)创建T_q的根节点，以“root”标记；b)扫描D_q一次，将D_q中的每个元组tuple如下处理：选择tuple中的频繁项，并按Lq中的次序排序。将排序后的tuple中的频繁项表插入到树T_q中；

步骤3.3.5，针对各个簇q，基于第3.3.3步得到的频繁项表L_q和第3.3.4步得到的FP-tree T_q，挖掘产生满足最小覆盖度和最小特异度阈值的簇语义特征，即以L_q自底向上的次序在T_q中产生互不重叠的强项集；

步骤4、对聚类结果集D实现基于强项集的聚类结果语义特征的可视化。其中，为了将聚类结果集中各个簇基于强项集的簇语义特征更直观、有效地展现出来，我们定义了“推进度”的概念：

其中，D为聚类结果集，I为一个项集，q是聚类结果中的一个簇，由式(5)可知，项集I对簇q的推进度实际上是在I发生下q也发生的条件概率，可由项集I对簇q的覆盖度和特异度计算得出。

之所以在实现基于强项集的聚类结果语义特征的可视化中定义新的“推进度”，是因为对于领域专家而言，“推进度”的概念和意义更容易理解。但在定义“簇语义特征”时，却不能采用“推进度”代替“特异度”来定义簇的强项集，是因为“特异度”描述了一个强项集对给定簇的特属程度，能够刻画一个簇区别与其它簇的特征，但“推进度”却不能。比如给定聚类结果集D中的一个簇q以及q的一个强项集I，假设推进度adv(I,q)取值较高为0.9，但如果q本身发生的概率也为0.9，则显然I并非特属于q，实际上I在簇q以及整个数据集D中的分布密度相等。

实现基于强项集的聚类结果语义特征的可视化具体步骤如下：

步骤4.1、步骤3至步骤3.3.5已经完成了聚类结果集中各个簇面向强项集的簇语义特征的抽取，假设结果为

步骤4.2、用户选定要进行簇语义特征知识展现的簇q，做如下处理：

步骤4.2.1，用户设定用于簇q语义特征展示的覆盖度阈值show_cvg和特异度阈值show_excl，且需满足条件：show_cvg∈[min_cvg,1]∧show_excl∈[min_excl,1]；

步骤4.2.2，在LCq中过滤出满足条件：(cvg≥show_cvg)∧(excl≥show_excl)的强项集，选定以表格或图表的方式将簇q的簇语义特征展现出来；

步骤4.2.3，重复步骤4.2.1和4.2.2，直到用户满意为止；

步骤4.3，重复进行第4.2步，直到把用户感兴趣的所有簇的簇语义特征展现出来为止。

本发明的有益效果为：

本发明一种基于强项集的聚类结果语义特征提取和可视化方法。首先，通过分析构建了基于强项集簇语义特征模型，能够直观有效地描述每个簇的特征，提高聚类结果集的可解释性；然后提出了基于强项集的簇语义特征抽取算法CLCE，该算法具有较高的性能，可以有效地提取面向强类集的簇语义特征；最后给出了簇语义特征可视化的方法，进一步帮助领域专家理解聚类结果集中的每个簇。

附图说明

图1是本发明一种基于强项集的聚类结果语义特征提取与可视化方法流程图。

图2是本发明基于基尼系数的离散化方法流程图。

图3是本发明基于强项集的簇语义特征抽取算法CLCE流程图

图4是本发明的簇“Benign”的语义特征可视化效果图。

图5是本发明的簇“Malignant”的语义特征可视化效果图。

具体实施方式

下面结合附图对本发明一种实施例做进一步说明。

本发明实例以UCI中的Breast-Cancer-Wisconsin数据集作为研究对象，该数据集总共有699个实例；10个属性(样品编号、凝块厚度、细胞大小均匀性、细胞形状均匀度、边缘粘附力、单个上皮细胞大小、裸核、.平淡染色质、正常核仁、有丝分裂，其取值都是1-10的整数)；簇标号为Class(其取值是2(“benign(良性)”)和4(“malignant(恶性)”))。

一种基于强项集的聚类结果语义特征提取和可视化方法，方法的流程图如图1所示，包括以下步骤：

步骤1、基于强项集的簇语义特征建模；

本发明实施例中，将Breast-Cancer-Wisconsin数据集作为研究对象，完成对覆盖度、特异度、主项集、强项集、簇语义特征的定义，实现基于强项集的簇语义特征建模；

步骤2、获取聚类结果集D；

从UCI数据集中下载Breast-Cancer-Wisconsin数据集；

步骤3、对聚类结果集D实现基于强项集的聚类结果语义特征提取，具体步骤如下：

在基于强项集的簇语义特征建模基础上，对数据集Breast-Cancer-Wisconsin实现基于强项集的聚类结果语义特征提取，具体步骤如下：

步骤3.1、若聚类结果集D中是存在连续属性，则执行下一步，否则执行步骤3.3；

判断出数据集Breast-Cancer-Wisconsin中没有连续属性，则执行步骤3.3；

步骤3.2、采用基于基尼系数的连续属性离散化，将聚类结果集D中的各连续属性进行概念划分，以形成有序的概念值。方法的流程图如图2所示，具体步骤如下：

步骤3.2.1、根据实际情况设置连续属性离散化区间个数为N；

步骤3.2.2、对聚类结果集中的每一个连续属性A做以下操作：

步骤3.2.3、假设A的每个值v可以认为是一个潜在的区间边界；

步骤3.2.4、计算每个潜在的区间边界点的基尼系数，其中基尼系数的度量如下：

步骤3.2.5、挑选出使划分得到的基尼系数最小的区间边界点；

步骤3.2.6、若划分出来的区间个数满足阈值N,则执行步骤4，否则执行下一步。

步骤3.2.7、计算划分后的每一个区间的基尼系数，挑选出其中基尼系数最小的区间，执行步骤2.2.3；

步骤3.2.8、将得到的连续属性A的离散化区间与聚类结果集D中对应的连续属性A的连续数据进行替换；

步骤3.3、对聚类结果集D采用基于强项集的簇语义特征抽取算法CLCE进行簇语义特征抽取，CLCE算法的流程图如图3所示，具体步骤如下：

在基于强项集的簇语义特征建模基础上，对数据集Breast-Cancer-Wisconsin采用基于强项集的簇语义特征抽取算法CLCE，进行簇语义特征抽取，具体步骤如下：

步骤3.3.1、用户给定最小覆盖度min_cvg和最小特异度min_excl的阈值；

设定最小覆盖度min_cvg和最小特异度min_excl的阈值：min_cvg＝0.25、min_excl＝0.8；其中，最小覆盖度min_cvg和最小特异度min_excl的阈值不能太小也不能太大，因为“太小”会使抽取的簇语义特征中存在大量冗余特征，“太大”会使抽取的簇语义特征丢失一些重要的特征；

步骤3.3.2、基于簇属性C，将聚类结果集D划分为k个不相交的子数据集

其中D_q为簇q所对应的子数据集；

基于簇属性Class，将数据集Breast-Cancer-Wisconsin划分为2个不相交的子数据集，其中簇“benign”的子数据集共有458条数据，簇“malignant”的子数据集共有241条数据。

步骤3.3.3、扫描各个簇所对应的子数据集D_q，统计D_q中各项出现的频率，并计算它们在D_q中的覆盖度。对各频繁项按覆盖度降序排序，结果为频繁项表L_q；

扫描簇是“benign”的子数据集和簇是“malignant”的子数据集，统计出各个簇子数据集中满足min_cvg的频繁一项集，并按照覆盖度对各频繁项降序排序，构成各个簇子数据集的频繁项表Lq；

步骤3.3.4、对各个簇所对应的子数据集D_q，创建其所对应的加强FP-tree T_q，然后执行：a)创建T_q的根节点，以“root”标记；b)扫描D_q一次，将D_q中的每个元组tuple如下处理：选择tuple中的频繁项，并按L_q中的次序排序。将排序后的tuple中的频繁项表插入到树T_q中；

扫描簇是“benign”的子数据集和簇是“malignant”的子数据集，按照FP-tree的构建思路，去除元组中不满足min_cvg的项集，将各簇子数据集中满足min_cvg的数据压缩成树结构，构建其所对应的加强FP-tree T_q；

步骤3.3.5、针对各个簇q，基于第3.3.3步得到的频繁项表L_q和第3.3.4步得到的FP-tree T_q，挖掘产生满足最小覆盖度和最小特异度阈值的簇语义特征，即以L_q自底向上的次序在T_q中产生互不重叠的强项集；

基于簇是“benign”和簇是“malignant”在第3.3.3步得到的频繁项表L_q和第3.3.4步得到的FP-tree T_q，采用FP-Growth的思路，自底向上扫描各个簇的频繁项表，挖掘出满足最小覆盖度和最小特异度阈值的各个簇语义特征，完成对数据集Breast-Cancer-Wisconsin基于强项集的聚类结果语义特征提取。

步骤4、对聚类结果集D实现基于强项集的聚类结果语义特征的可视化，具体步骤如下：

基于强项集的簇语义特征建模，在对数据集Breast-Cancer-Wisconsin采用基于强项集的簇语义特征抽取算法CLCE完成簇语义特征抽取的基础上，对数据集实现基于强项集的聚类结果语义特征的可视化，具体步骤如下：

步骤3至步骤3.3.5完成了对数据集Breast-Cancer-Wisconsin基于强项集的聚类结果语义特征提取，找到了聚类结果集中簇“Benign”和簇“Malignant”的簇语义特征LCq，接下来通过条件筛选对各个簇的语义特征进行可视化：

首先，用户选定要进行簇语义特征展示的簇是“Benign”

步骤4.2.1、用户设定用于簇q语义特征展示的覆盖度阈值show_cvg和特异度阈值show_excl，且需满足条件：show_cvg∈[min_cvg,1]∧show_excl∈[min_excl,1]；

然后，设定用于簇“Benign”语义知识展示的覆盖度阈值show_cvg＝0.25和特异度阈值show_excl＝0.8；

步骤4.2.2、在LCq中过滤出满足条件：(cvg≥show_cvg)∧(excl≥show_excl)的强项集，选定以表格或图表的方式将簇q的簇语义特征展现出来；

从簇“Benign”的语义特征中过滤出的强项集个数接近200，较难找出该簇的代表性特征。

步骤4.2.3、重复步骤4.2.1和4.2.2，直到用户满意为止；

由于设定展示的覆盖度阈值show_cvg＝0.25和特异度阈值show_excl＝0.8不合理，因而更改展示阈值，设定show_cvg＝0.6和show_excl＝0.99，重复步骤4.2.1和4.2.2，发现其3个代表性的强项集，选用图表的形式展示簇“Benign”的语义特征，如图4所示。

在图4中，强项集{<A2,1>,<A4,1>,<A5,2>}中的A2、A4和A5分别代表数据集“breast-cancer-wisconsin”的三个属性“细胞大小的均匀性”，“边缘粘附力”和“单个上皮细胞大小”，其取值分别为1、1和2。该项集在簇“Benign”中出现的概率(即覆盖度)为0.617，特属于“Benign”簇的程度(即特异度)为0.993，在该项集出现时，簇“Benign”发生的概率(即推进度)为0.996。图4中其它2个强项集的含义同上。

步骤4.3、重复进行第4.2步，直到把用户感兴趣的所有簇的簇语义特征展现出来为止。

重复进行第4.2步，用户重新选定该数据集的簇“Malignant”进行簇语义特征知识展示。依然设定阈值show_cvg＝0.6和show_excl＝0.99，发现该簇没有满足阈值的强项集。因而重新设计阈值show_cvg＝0.25和show_excl＝0.8，发现该簇的簇语义特征，选用图表的形式展示簇“Malignant”的语义特征，如图5所示。

在图5中，{<A1,10>}是簇“Malignant”在设定阈值min_cvg＝0.25和min_excl＝0.8时簇特征中的5个强项集之一。其中，A1代表属性“凝块厚度”，其取值为10，该强项集在簇“Malignant”中出现的概率(即覆盖度)为0.289，特属于该簇的程度(即特异度)为1，该强项集出现时，簇“Malignant”发生的概率(即推进度)为1。图5中其它4个强项集的含义同上。

Claims

1.一种基于强项集的聚类结果语义特征提取与可视化方法，其特征在于，包括如下步骤：

步骤1、基于强项集的簇语义特征建模；

定义覆盖度：cvg(I,q)＝P(I∪q)/P(q)＝|I∪q|/|q| (1)

其中，D为聚类结果集，I为一个项集，q是聚类结果中的一个簇，P(I∪q)和P(q)分别为I∪q和q在D中出现的概率；|I∪q|和|q|分别为I∪q和q在D中出现的次数；

定义特异度：

为项集I在非q簇中的覆盖度；

定义主项集：给定一聚类结果集D和其中的一个簇q，如果项集在D中即是簇q的频繁项集，又是q的特异项集，则称项集I为簇q的主项集；

则称主项集I为簇q的一个强项集；

定义簇语义特征：给定一聚类结果集D和其中的一个簇q，LC＝{I₁,I₂,...I_n}是簇q的强项集的全集，则称LC为聚类结果集D中簇q的簇语义特征；

步骤2、获取聚类结果集D；

步骤3、对聚类结果集D实现基于强项集的聚类结果语义特征提取；

步骤3.1、若聚类结果集D中存在连续属性，则执行下一步，否则执行步骤3.3

步骤3.2、采用基于基尼系数的连续属性离散化方法，将聚类结果集D中的各连续属性进行概念划分，以形成有序的概念值；

步骤3.3、对聚类结果集D采用基于强项集的簇语义特征抽取算法CLCE进行簇语义特征抽取；

步骤4、对聚类结果集D实现基于强项集的聚类结果语义特征的可视化。

2.根据权利要求1所述的方法，其特征还在于，步骤3.2包括具体步骤为：

步骤3.2.1，根据实际情况设置连续属性离散化区间个数为N；

步骤3.2.2，选取聚类结果集中未被处理的连续属性A；

步骤3.2.3，设A的每个值v为是一个潜在的区间边界；

其中，D₁和D₂分别对应于D中满足A<v和A≥v的样本；对于给定数据集，它的基尼系数根据数据集中样本的簇分布计算；

步骤3.2.6，若划分出来的区间个数满足阈值N,则执行步骤3.2.8，否则执行下一步；

3.根据权利要求1或2所述的方法，其特征还在于，步骤3.3包括具体步骤为：

步骤3.3.2，基于簇号属性C，将聚类结果集D划分为k个不相交的子数据集

其中D_q为簇q所对应的子数据集；

步骤3.3.4，对各簇所对应的子数据集D_q，创建其所对应的加强FP-tree T_q，然后执行：a)创建T_q的根节点，以“root”标记；b)扫描D_q一次，将D_q中的每个元组tuple如下处理：选择tuple中的频繁项，并按L_q中的次序排序；将排序后的tuple中的频繁项表插入到树T_q中；

步骤3.3.5，针对各个簇q，基于第3.3.3步得到的频繁项表L_q和第3.3.4步得到的FP-treeT_q，挖掘产生满足最小覆盖度和最小特异度阈值的簇语义特征，即以L_q自底向上的次序在T_q中产生互不重叠的强项集。

4.根据权利要求1或2所述的方法，其特征还在于，步骤4包括具体步骤为：

步骤4.1，步骤3已经完成了聚类结果集中各个簇面向强项集的簇语义特征的抽取，定义结果为

步骤4.2，用户选定要进行簇语义特征知识展现的簇q，做如下处理：

步骤4.2.2，在LC_q中过滤出满足条件：(cvg≥show_cvg)∧(excl≥show_excl)的强项集，选定以表格或图表的方式将簇q的簇语义特征展现出来；

步骤4.2.3，重复步骤4.2.1和4.2.2，直到用户满意为止；

5.根据权利要求3所述的方法，其特征还在于，步骤4包括具体步骤为：

步骤4.2.3，重复步骤4.2.1和4.2.2，直到用户满意为止；