CN107451183B - 基于文本聚类思想的知识地图构建方法 - Google Patents

基于文本聚类思想的知识地图构建方法 Download PDF

Info

Publication number
CN107451183B
CN107451183B CN201710462260.4A CN201710462260A CN107451183B CN 107451183 B CN107451183 B CN 107451183B CN 201710462260 A CN201710462260 A CN 201710462260A CN 107451183 B CN107451183 B CN 107451183B
Authority
CN
China
Prior art keywords
knowledge point
similarity
knowledge
field
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710462260.4A
Other languages
English (en)
Other versions
CN107451183A (zh
Inventor
田蕾
吴霞
贺博
宋翠松
刘睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN201710462260.4A priority Critical patent/CN107451183B/zh
Publication of CN107451183A publication Critical patent/CN107451183A/zh
Application granted granted Critical
Publication of CN107451183B publication Critical patent/CN107451183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本聚类思想的知识地图构建方法,其主要技术特点是:根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于一定阈值的知识点聚成一个群体,形成领域知识点并将其作为展示的点;初始布局计算;采用力导引算法进行领域知识点布局;采用连通图动态分裂聚类方法,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。本发明设计合理,具有快速准确、形象直观等特点,实现对零散知识点的分群展示功能,可以直观的展示知识点之间的关联关系,使得人们可以对现有知识点有一个直观的了解。

Description

基于文本聚类思想的知识地图构建方法
技术领域
本发明属于数据挖掘技术领域,尤其是一种基于文本聚类思想的知识地图构建方法。
背景技术
随着计算机技术的飞速发展,特别是Internet技术的不断应用,人们利用网络信息技术产生和搜集数据的能力有了大幅度的提高,数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战,数据挖掘(Data Mining)技术应运而生,使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而,由于数据的爆炸性增长,如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息是目前迫切需要解决的问题。
发明内容
本发明的目地在于克服现有技术的不足,提出一种设计合理、快速准确且可视性强的基于文本聚类思想的知识地图构建方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于文本聚类思想的知识地图构建方法,包括以下步骤:
步骤1:根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于一定阈值的知识点聚成一个群体,形成领域知识点并将其作为展示的点;
步骤2:初始布局计算:根据聚类结果中各领域知识点之间的相似度,计算领域之间的相似度,确定各领域所在的初始位置;
步骤3:采用力导引算法进行领域知识点布局;
步骤4采用连通图动态分裂聚类方法,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。
所述步骤1对知识点进行聚类的方法包括以下步骤:
⑴特征选择:对知识点进行分词,将去停用词之后的所有词语作为特征词;
⑵相似度计算:采用向量之间的夹角余弦来表示;
⑶计算聚类:
①将第一个知识点作为第一个聚类中心;
②计算第二个知识点与现有聚类中心的相似度,如果最大相似度小于阈值,此知识点作为新的聚类中心,否则,转步骤③;
③将知识点归到最相似的聚类中,并更新质心;
④转步骤②,依次计算其他知识点所属的聚类,直到所有知识点计算完成。
所述阈值为0.8。
所述步骤2的具体实现方法包括以下步骤:
⑴计算任两个领域的相似度;
⑵选取与其他所有领域的相似度之和最大的领域作为中心领域;
⑶为每个领域寻找最相似的两个领域,相似度之和最大的作为外围第一个领域;
⑷与其相似度最大的二个领域分别位于其左右两侧,作为第二、第三领域;
⑸分别为第二、第二领域寻找最相似的领域,位于其旁边;
⑹依次为后续添加的领域寻找最相似领域位于其旁边,直到所有领域均找到位置。
所述步骤3的具体实现方法包括以下步骤:
⑴分布初始节点位置;
⑵计算每次迭代区域内两两节点间的斥力所产生的单位位移;
⑶计算每次迭代每条边的引力对两端节点所产生的单位位移;
⑷累加经过步骤⑵、⑶计算得到的所有节点的单位位移;
⑸迭代n次,直至达到理想效果。
所述步骤4的具体实现方法包括以下步骤:
⑴根据坐标点的位置关系形成连通图;
⑵将形成的多个连通图进行逐一分裂,形成小的群体;分裂依据是:当边的承受系数大于一定阈值时,进行分裂;所述承受系数计算公式如下:
t=min{W1,W2}/n
式中,W1、W2分别是连通图被分割成两部分后每部分数据点的数目,n为这两部分之间的连接边数。
本发明的优点和积极效果是:
本发明采用聚类思想对知识点根据其相似性进行聚类,形成领域知识点;根据各领域的知识点之间的相似性,计算各领域的初始布局位置,相似度越大的两个领域离的越近;采用连通图动态分裂聚类思想,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识,实现对知识点进行可视化的展示功能。具有设计合理、快速准确且形象直观等特点。
附图说明
图1为本发明的算法流程图;
图2为各领域初始布局计算流程图;
图3为本发明实施例构建的知识地图示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
本发明基于文本聚类思想和网络可视化技术实现的:
文本聚类作为处理和组织大量文本数据的关键技术,能够在很大程度上解决信息爆炸和信息杂乱所带来的的问题。文本聚类依据著名的聚类假设,同类文档的相似度较大,不同类文档的相似度较小。文本聚类的目标是将文本集合分成多个簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。通过对知识点根据其内容那个相似性进行聚类,将相同内容的知识点聚成一个群体,形成领域知识点,通过减少知识点的数量,一方面,利于用户对错综复杂的知识点有一个整体的了解,另一方面,也更便于进行可视化展示。
网络可视化作为一类重要的信息可视化技术,充分利用人类视觉感知系统,将网络数据以图形化方式展示出来,快速直观地解释及概览网络结构数据,一方面可以辅助用户认识网络的内部结构,另一方面有助于挖掘隐藏在网络内部的有价值信息。力导引布局方法能够产生相当优美的网络布局,并充分展现网络的整体结构及其特征,所以被应用于大量的网络可视化系统。采用力导引算法对知识点进行布局,可以直观的展示知识点之间的关联关系。
下面以某个研究院为例对本发明的设计原理进行说明:
该研究院有ICT服务业、无线与移动、互联网、信息网络、ICT制造业、两化融合、网络与信息安全以及法律与监管8大领域的研究报告,每个领域包括多个报告文档,每个文档中涉及到多个知识点,总的知识点个数有上万之多。通常的可视化方式是无法展示如此多的信息的。由于对同一领域的研究一般会涉及到多篇文档,故会出现多个研究内容那个相似的知识点,通过对这些知识点根据其相似性进行聚类,减少知识点的个数,再根据各领域之间的知识点的相似性确定初始布局,从而直观的展示各领域的知识点,方便研究者对各领域的研究报告有一个全面的了解。
根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于阈值(0.8)的知识点聚成一个群体,形成领域知识点,作为展示的点;再计算聚类之后的群体之间的相似度,对于相似度大于指定阈值(0.6)的两个群体,认为它们之间存在相关度,进行连线。以可视化的方式展示领域知识点以及它们之间的关系,对于联系比较紧密的知识点,认为它们属于一个群体,并以多边形区域进行标识。
如图1所示,本发明包括以下按步骤:
步骤1、根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于阈值(0.8)的知识点聚成一个群体,形成领域知识点并作为展示的点。
在本步骤中,对知识点进行聚类的方法如下:
(1)特征选择。由于知识点内容较短,对知识点进行分词,将去停用词之后的所有词语作为特征词。
(2)相似度计算。文本相似度可以用向量之间的夹角余弦来表示,余弦计算得到的值恰好是介于0到1的数。
(3)计算聚类:
①第一个知识点,作为第一个聚类中心;
②计算第二个知识点与现有聚类中心的相似度,如果最大相似度小于阈值,此知识点作为新的聚类中心,否则,转③;
③将知识点归到最相似的聚类中,并更新质心;
④转②,依次计算其他知识点所属的聚类,直到所有知识点计算完成。
步骤2、初始布局计算。根据聚类结果中各领域知识点之间的相似度,计算领域之间的相似度,相似度越大的两个领域离的越近,初步确定各领域所在的初始位置。
本步骤的具体处理过程,如图2所示,包括以下步骤:
(1)计算任两个领域的相似度;
(2)选取与其他所有领域的相似度之和最大的领域作为中心领域;
(3)为每个领域寻找最相似的两个领域,相似度之和最大的作为外围第一个领域;
(4)与其相似度最大的二个领域分别位于其左右两侧,作为第二、第三领域;
(5)分别为第二、第二领域寻找最相似的领域,位于其旁边;
(6)依次为后续添加的领域寻找最相似领域位于其旁边,直到所有领域均找到位置。
步骤3、采用力导引算法实现领域知识点布局坐标。
在本步骤中,采用力导引算法计算知识点布局坐标如下:
(1)分布初始节点位置;
(2)计算每次迭代区域内两两节点间的斥力所产生的单位位移(一般为正值);
(3)计算每次迭代每条边的引力对两端节点所产生的单位位移(一般为负值);
(4)累加经过步骤(2)、(3)计算得到的所有节点的单位位移;
(5)迭代n次,直至达到理想效果。
步骤4、在力导引算法计算每个知识点的布局坐标之后,采用连通图动态分裂聚类思想,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。具体方法如下:
(1)根据坐标点的位置关系形成连通图;
(2)将形成的多个连通图进行逐一分裂,形成小的群体。分裂依据是,当边的承受系数大于一定阈值时,进行分裂。承受系数计算公式如下
t=min{W1,W2}/n
式中:W1、W2分别是连通图被分割成两部分后每部分数据点的数目,n为这两部分之间的连接边数。
按照上述方法构成的展示结果如图3所示,从图中可以看出:
(1)知识地图最大蓝点的知识点是与“安全防护系统数据挖掘和安全态势展示平台核心技术介绍”关联度大于0.8的一类知识点,此类知识点包含的知识点个数为20。
(2)知识地图总共包括8大领域,相关度大于0.6的两类知识点之前存在连线,相关度越大,知识点就会离的越近,由于各领域的知识点相互间关联度比较大,所以同一领域的知识点会形成一个紧密的区域。对于不同领域,相关度较大的知识点,会在中间区域交叉展示。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (4)

1.一种基于文本聚类思想的知识地图构建方法,其特征在于包括以下步骤:
步骤1、根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于一定阈值的知识点聚成一个群体,形成领域知识点并将其作为展示的点;
步骤2、初始布局计算:根据聚类结果中各领域知识点之间的相似度,计算领域之间的相似度,确定各领域所在的初始位置;
步骤3、采用力导引算法进行领域知识点布局;
步骤4、采用连通图动态分裂聚类方法,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识;
所述步骤1对知识点进行聚类的方法包括以下步骤:
⑴特征选择:对知识点进行分词,将去停用词之后的所有词语作为特征词;
⑵相似度计算:采用向量之间的夹角余弦来表示;
⑶计算聚类:
①将第一个知识点作为第一个聚类中心;
②计算第二个知识点与现有聚类中心的相似度,如果最大相似度小于阈值,此知识点作为新的聚类中心,否则,转步骤③;
③将知识点归到最相似的聚类中,并更新质心;
④转步骤②,依次计算其他知识点所属的聚类,直到所有知识点计算完成;
所述步骤2的具体实现方法包括以下步骤:
⑴计算任两个领域的相似度;
⑵选取与其他所有领域的相似度之和最大的领域作为中心领域;
⑶为每个领域寻找最相似的两个领域,相似度之和最大的作为外围第一个领域;
⑷与其相似度最大的二个领域分别位于其左右两侧,作为第二、第三领域;
⑸分别为第二、第二领域寻找最相似的领域,位于其旁边;
⑹依次为后续添加的领域寻找最相似领域位于其旁边,直到所有领域均找到位置。
2.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述阈值为0.8。
3.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述步骤3的具体实现方法包括以下步骤:
⑴分布初始节点位置;
⑵计算每次迭代区域内两两节点间的斥力所产生的单位位移;
⑶计算每次迭代每条边的引力对两端节点所产生的单位位移;
⑷累加经过步骤⑵、⑶计算得到的所有节点的单位位移;
⑸迭代n次,直至达到理想效果。
4.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述步骤4的具体实现方法包括以下步骤:
⑴根据坐标点的位置关系形成连通图;
⑵将形成的多个连通图进行逐一分裂,形成小的群体;分裂依据是:当边的承受系数大于一定阈值时,进行分裂;所述承受系数计算公式如下:
t=min{W1,W2}/n
式中,W1、W2分别是连通图被分割成两部分后每部分数据点的数目,n为这两部分之间的连接边数。
CN201710462260.4A 2017-06-19 2017-06-19 基于文本聚类思想的知识地图构建方法 Active CN107451183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710462260.4A CN107451183B (zh) 2017-06-19 2017-06-19 基于文本聚类思想的知识地图构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710462260.4A CN107451183B (zh) 2017-06-19 2017-06-19 基于文本聚类思想的知识地图构建方法

Publications (2)

Publication Number Publication Date
CN107451183A CN107451183A (zh) 2017-12-08
CN107451183B true CN107451183B (zh) 2019-11-22

Family

ID=60486377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710462260.4A Active CN107451183B (zh) 2017-06-19 2017-06-19 基于文本聚类思想的知识地图构建方法

Country Status (1)

Country Link
CN (1) CN107451183B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052672B (zh) * 2017-12-29 2021-10-26 北京师范大学 利用群体学习行为促进结构化知识图谱构建系统及方法
CN110119812A (zh) * 2018-02-07 2019-08-13 刘劲彤 一种知识库及其展示方法、查询方法
CN110209809B (zh) * 2018-08-27 2023-10-24 腾讯科技(深圳)有限公司 文本聚类方法和装置、存储介质及电子装置
CN109242027A (zh) * 2018-09-17 2019-01-18 南京中物联科技有限公司 一种可交互的大数据并行k-means聚类方法
CN110532388B (zh) * 2019-08-15 2022-07-01 企查查科技有限公司 文本聚类的方法、设备和存储介质
CN112541048B (zh) * 2020-12-17 2022-04-19 武汉中海庭数据技术有限公司 一种高精度地图停止线融合方法、系统、服务器及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7139764B2 (en) * 2003-06-25 2006-11-21 Lee Shih-Jong J Dynamic learning and knowledge representation for data mining
CN103390058B (zh) * 2013-07-29 2016-04-27 北京理工大学 基于知识地图的领域知识浏览方法
CN103744846B (zh) * 2013-08-13 2016-12-28 北京航空航天大学 一种多维度动态局部知识地图及其构建方法
CN106844652A (zh) * 2017-01-20 2017-06-13 上海大学 一种基于知识地图的产品知识导航方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Using Semantic Relatedness Measures with Dynamic Self-Organizing Maps for Improved Text Clustering;Nilupulee Nathawitharana 等;《2016 International Joint Conference on Neural Networks》;20160729;2662-2671 *

Also Published As

Publication number Publication date
CN107451183A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107451183B (zh) 基于文本聚类思想的知识地图构建方法
CN105989594B (zh) 一种图像区域检测方法及装置
CN109815788A (zh) 一种图片聚类方法、装置、存储介质及终端设备
CN103902988B (zh) 一种基于Modular积图与最大团的草图形状匹配方法
CN104200240B (zh) 一种基于内容自适应哈希编码的草图检索方法
CN103700088B (zh) 一种基于可变形图结构表示的图像集无监督共分割方法
Jiang et al. GDPC: Gravitation-based density peaks clustering algorithm
CN103440683B (zh) 一种基于三维散乱稠密点云的三角网格重构方法
CN108594816A (zh) 一种通过改进orb-slam算法实现定位与构图的方法和系统
CN103678671A (zh) 一种社交网络中的动态社区检测方法
CN101859320A (zh) 一种基于多特征签名的海量图像检索方法
JP2010262646A (ja) 動的グラフ用アニメーション・プランニング方法及び装置
CN105160700B (zh) 一种用于三维模型重建的截面曲线重构方法
Sun et al. Hyperlayer bilinear pooling with application to fine-grained categorization and image retrieval
CN105139031A (zh) 一种基于子空间聚类的数据处理方法
CN106649663A (zh) 一种基于紧凑视频表征的视频拷贝检测方法
Moore et al. Analyzing collaboration networks using simplicial complexes: A case study
WO2019233089A1 (zh) 一种互联网测试床拓扑结构大比例规模缩减方法及装置
CN106055580A (zh) 一种基于Radviz的模糊聚类结果可视化方法
CN104731811B (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN109271441A (zh) 一种高维数据可视化聚类分析方法及系统
CN113628329B (zh) 一种零样本草图三维点云检索方法
CN101833670B (zh) 一种基于侧抑制和混沌量子微粒群优化的图像匹配方法
Zhang et al. Enhanced semantic similarity learning framework for image-text matching
Toeda et al. On edge bundling and node layout for mutually connected directed graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant