CN107451183A

CN107451183A - 基于文本聚类思想的知识地图构建方法

Info

Publication number: CN107451183A
Application number: CN201710462260.4A
Authority: CN
Inventors: 田蕾; 吴霞; 贺博; 宋翠松; 刘睿
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2017-12-08
Anticipated expiration: 2037-06-19
Also published as: CN107451183B

Abstract

本发明涉及一种基于文本聚类思想的知识地图构建方法，其主要技术特点是：根据知识点标题之间的相似性，对知识点进行聚类，将相似度大于一定阈值的知识点聚成一个群体，形成领域知识点并将其作为展示的点；初始布局计算；采用力导引算法进行领域知识点布局；采用连通图动态分裂聚类方法，将相似度较大的知识点聚成一个个群体，并以多边形区域进行标识。本发明设计合理，具有快速准确、形象直观等特点，实现对零散知识点的分群展示功能，可以直观的展示知识点之间的关联关系，使得人们可以对现有知识点有一个直观的了解。

Description

基于文本聚类思想的知识地图构建方法

技术领域

本发明属于数据挖掘技术领域，尤其是一种基于文本聚类思想的知识地图构建方法。

背景技术

随着计算机技术的飞速发展，特别是Internet技术的不断应用，人们利用网络信息技术产生和搜集数据的能力有了大幅度的提高，数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战，数据挖掘(Data Mining)技术应运而生，使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而，由于数据的爆炸性增长，如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息是目前迫切需要解决的问题。

发明内容

本发明的目地在于克服现有技术的不足，提出一种设计合理、快速准确且可视性强的基于文本聚类思想的知识地图构建方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于文本聚类思想的知识地图构建方法，包括以下步骤：

步骤1：根据知识点标题之间的相似性，对知识点进行聚类，将相似度大于一定阈值的知识点聚成一个群体，形成领域知识点并将其作为展示的点；

步骤2：初始布局计算：根据聚类结果中各领域知识点之间的相似度，计算领域之间的相似度，确定各领域所在的初始位置；

步骤3：采用力导引算法进行领域知识点布局；

步骤4采用连通图动态分裂聚类方法，将相似度较大的知识点聚成一个个群体，并以多边形区域进行标识。

所述步骤1对知识点进行聚类的方法包括以下步骤：

⑴特征选择：对知识点进行分词，将去停用词之后的所有词语作为特征词；

⑵相似度计算：采用向量之间的夹角余弦来表示；

⑶计算聚类：

①将第一个知识点作为第一个聚类中心；

②计算第二个知识点与现有聚类中心的相似度，如果最大相似度小于阈值，此知识点作为新的聚类中心，否则，转步骤③；

③将知识点归到最相似的聚类中，并更新质心；

④转步骤②，依次计算其他知识点所属的聚类，直到所有知识点计算完成。

所述阈值为0.8。

所述步骤2的具体实现方法包括以下步骤：

⑴计算任两个领域的相似度；

⑵选取与其他所有领域的相似度之和最大的领域作为中心领域；

⑶为每个领域寻找最相似的两个领域，相似度之和最大的作为外围第一个领域；

⑷与其相似度最大的二个领域分别位于其左右两侧，作为第二、第三领域；

⑸分别为第二、第二领域寻找最相似的领域，位于其旁边；

⑹依次为后续添加的领域寻找最相似领域位于其旁边，直到所有领域均找到位置。

所述步骤3的具体实现方法包括以下步骤：

⑴分布初始节点位置；

⑵计算每次迭代区域内两两节点间的斥力所产生的单位位移；

⑶计算每次迭代每条边的引力对两端节点所产生的单位位移；

⑷累加经过步骤⑵、⑶计算得到的所有节点的单位位移；

⑸迭代n次，直至达到理想效果。

所述步骤4的具体实现方法包括以下步骤：

⑴根据坐标点的位置关系形成连通图；

⑵将形成的多个连通图进行逐一分裂，形成小的群体；分裂依据是：当边的承受系数大于一定阈值时，进行分裂；所述承受系数计算公式如下：

t＝min{W1,W2}/n

式中，W1、W2分别是连通图被分割成两部分后每部分数据点的数目，n为这两部分之间的连接边数。

本发明的优点和积极效果是：

本发明采用聚类思想对知识点根据其相似性进行聚类，形成领域知识点；根据各领域的知识点之间的相似性，计算各领域的初始布局位置，相似度越大的两个领域离的越近；采用连通图动态分裂聚类思想，将相似度较大的知识点聚成一个个群体，并以多边形区域进行标识，实现对知识点进行可视化的展示功能。具有设计合理、快速准确且形象直观等特点。

附图说明

图1为本发明的算法流程图；

图2为各领域初始布局计算流程图；

图3为本发明实施例构建的知识地图示意图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

本发明基于文本聚类思想和网络可视化技术实现的：

文本聚类作为处理和组织大量文本数据的关键技术，能够在很大程度上解决信息爆炸和信息杂乱所带来的的问题。文本聚类依据著名的聚类假设，同类文档的相似度较大，不同类文档的相似度较小。文本聚类的目标是将文本集合分成多个簇，使得在同一个簇中的文本内容具有较高的相似度，而不同簇中的文本内容差别较大。通过对知识点根据其内容那个相似性进行聚类，将相同内容的知识点聚成一个群体，形成领域知识点，通过减少知识点的数量，一方面，利于用户对错综复杂的知识点有一个整体的了解，另一方面，也更便于进行可视化展示。

网络可视化作为一类重要的信息可视化技术，充分利用人类视觉感知系统，将网络数据以图形化方式展示出来，快速直观地解释及概览网络结构数据，一方面可以辅助用户认识网络的内部结构，另一方面有助于挖掘隐藏在网络内部的有价值信息。力导引布局方法能够产生相当优美的网络布局，并充分展现网络的整体结构及其特征，所以被应用于大量的网络可视化系统。采用力导引算法对知识点进行布局，可以直观的展示知识点之间的关联关系。

下面以某个研究院为例对本发明的设计原理进行说明：

该研究院有ICT服务业、无线与移动、互联网、信息网络、ICT制造业、两化融合、网络与信息安全以及法律与监管8大领域的研究报告，每个领域包括多个报告文档，每个文档中涉及到多个知识点，总的知识点个数有上万之多。通常的可视化方式是无法展示如此多的信息的。由于对同一领域的研究一般会涉及到多篇文档，故会出现多个研究内容那个相似的知识点，通过对这些知识点根据其相似性进行聚类，减少知识点的个数，再根据各领域之间的知识点的相似性确定初始布局，从而直观的展示各领域的知识点，方便研究者对各领域的研究报告有一个全面的了解。

根据知识点标题之间的相似性，对知识点进行聚类，将相似度大于阈值(0.8)的知识点聚成一个群体，形成领域知识点，作为展示的点；再计算聚类之后的群体之间的相似度，对于相似度大于指定阈值(0.6)的两个群体，认为它们之间存在相关度，进行连线。以可视化的方式展示领域知识点以及它们之间的关系，对于联系比较紧密的知识点，认为它们属于一个群体，并以多边形区域进行标识。

如图1所示，本发明包括以下按步骤：

步骤1、根据知识点标题之间的相似性，对知识点进行聚类，将相似度大于阈值(0.8)的知识点聚成一个群体，形成领域知识点并作为展示的点。

在本步骤中，对知识点进行聚类的方法如下：

(1)特征选择。由于知识点内容较短，对知识点进行分词，将去停用词之后的所有词语作为特征词。

(2)相似度计算。文本相似度可以用向量之间的夹角余弦来表示，余弦计算得到的值恰好是介于0到1的数。

(3)计算聚类：

①第一个知识点，作为第一个聚类中心；

②计算第二个知识点与现有聚类中心的相似度，如果最大相似度小于阈值，此知识点作为新的聚类中心，否则，转③；

③将知识点归到最相似的聚类中，并更新质心；

④转②，依次计算其他知识点所属的聚类，直到所有知识点计算完成。

步骤2、初始布局计算。根据聚类结果中各领域知识点之间的相似度，计算领域之间的相似度，相似度越大的两个领域离的越近，初步确定各领域所在的初始位置。

本步骤的具体处理过程，如图2所示，包括以下步骤：

(1)计算任两个领域的相似度；

(2)选取与其他所有领域的相似度之和最大的领域作为中心领域；

(3)为每个领域寻找最相似的两个领域，相似度之和最大的作为外围第一个领域；

(4)与其相似度最大的二个领域分别位于其左右两侧，作为第二、第三领域；

(5)分别为第二、第二领域寻找最相似的领域，位于其旁边；

(6)依次为后续添加的领域寻找最相似领域位于其旁边，直到所有领域均找到位置。

步骤3、采用力导引算法实现领域知识点布局坐标。

在本步骤中，采用力导引算法计算知识点布局坐标如下：

(1)分布初始节点位置；

(2)计算每次迭代区域内两两节点间的斥力所产生的单位位移(一般为正值)；

(3)计算每次迭代每条边的引力对两端节点所产生的单位位移(一般为负值)；

(4)累加经过步骤(2)、(3)计算得到的所有节点的单位位移；

(5)迭代n次，直至达到理想效果。

步骤4、在力导引算法计算每个知识点的布局坐标之后，采用连通图动态分裂聚类思想，将相似度较大的知识点聚成一个个群体，并以多边形区域进行标识。具体方法如下：

(1)根据坐标点的位置关系形成连通图；

(2)将形成的多个连通图进行逐一分裂，形成小的群体。分裂依据是，当边的承受系数大于一定阈值时，进行分裂。承受系数计算公式如下

t＝min{W1,W2}/n

式中:W1、W2分别是连通图被分割成两部分后每部分数据点的数目，n为这两部分之间的连接边数。

按照上述方法构成的展示结果如图3所示，从图中可以看出：

(1)知识地图最大蓝点的知识点是与“安全防护系统数据挖掘和安全态势展示平台核心技术介绍”关联度大于0.8的一类知识点，此类知识点包含的知识点个数为20。

(2)知识地图总共包括8大领域，相关度大于0.6的两类知识点之前存在连线，相关度越大，知识点就会离的越近，由于各领域的知识点相互间关联度比较大，所以同一领域的知识点会形成一个紧密的区域。对于不同领域，相关度较大的知识点，会在中间区域交叉展示。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于文本聚类思想的知识地图构建方法，其特征在于包括以下步骤：

步骤1、根据知识点标题之间的相似性，对知识点进行聚类，将相似度大于一定阈值的知识点聚成一个群体，形成领域知识点并将其作为展示的点；

步骤2、初始布局计算：根据聚类结果中各领域知识点之间的相似度，计算领域之间的相似度，确定各领域所在的初始位置；

步骤3、采用力导引算法进行领域知识点布局；

步骤4、采用连通图动态分裂聚类方法，将相似度较大的知识点聚成一个个群体，并以多边形区域进行标识。

2.根据权利要求1所述的基于文本聚类思想的知识地图构建方法，其特征在于：所述步骤1对知识点进行聚类的方法包括以下步骤：

⑵相似度计算：采用向量之间的夹角余弦来表示；

⑶计算聚类：

①将第一个知识点作为第一个聚类中心；

③将知识点归到最相似的聚类中，并更新质心；

3.根据权利要求1或2所述的基于文本聚类思想的知识地图构建方法，其特征在于：所述阈值为0.8。

4.根据权利要求1所述的基于文本聚类思想的知识地图构建方法，其特征在于：所述步骤2的具体实现方法包括以下步骤：

⑴计算任两个领域的相似度；

⑸分别为第二、第二领域寻找最相似的领域，位于其旁边；

5.根据权利要求1所述的基于文本聚类思想的知识地图构建方法，其特征在于：所述步骤3的具体实现方法包括以下步骤：

⑴分布初始节点位置；

⑷累加经过步骤⑵、⑶计算得到的所有节点的单位位移；

⑸迭代n次，直至达到理想效果。

6.根据权利要求1所述的基于文本聚类思想的知识地图构建方法，其特征在于：所述步骤4的具体实现方法包括以下步骤：

⑴根据坐标点的位置关系形成连通图；

t＝min{W1,W2}/n