CN107451183A - 基于文本聚类思想的知识地图构建方法 - Google Patents
基于文本聚类思想的知识地图构建方法 Download PDFInfo
- Publication number
- CN107451183A CN107451183A CN201710462260.4A CN201710462260A CN107451183A CN 107451183 A CN107451183 A CN 107451183A CN 201710462260 A CN201710462260 A CN 201710462260A CN 107451183 A CN107451183 A CN 107451183A
- Authority
- CN
- China
- Prior art keywords
- knowledge point
- knowledge
- similarity
- field
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本聚类思想的知识地图构建方法,其主要技术特点是:根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于一定阈值的知识点聚成一个群体,形成领域知识点并将其作为展示的点;初始布局计算;采用力导引算法进行领域知识点布局;采用连通图动态分裂聚类方法,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。本发明设计合理,具有快速准确、形象直观等特点,实现对零散知识点的分群展示功能,可以直观的展示知识点之间的关联关系,使得人们可以对现有知识点有一个直观的了解。
Description
技术领域
本发明属于数据挖掘技术领域,尤其是一种基于文本聚类思想的知识地图构建方法。
背景技术
随着计算机技术的飞速发展,特别是Internet技术的不断应用,人们利用网络信息技术产生和搜集数据的能力有了大幅度的提高,数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战,数据挖掘(Data Mining)技术应运而生,使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而,由于数据的爆炸性增长,如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息是目前迫切需要解决的问题。
发明内容
本发明的目地在于克服现有技术的不足,提出一种设计合理、快速准确且可视性强的基于文本聚类思想的知识地图构建方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于文本聚类思想的知识地图构建方法,包括以下步骤:
步骤1:根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于一定阈值的知识点聚成一个群体,形成领域知识点并将其作为展示的点;
步骤2:初始布局计算:根据聚类结果中各领域知识点之间的相似度,计算领域之间的相似度,确定各领域所在的初始位置;
步骤3:采用力导引算法进行领域知识点布局;
步骤4采用连通图动态分裂聚类方法,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。
所述步骤1对知识点进行聚类的方法包括以下步骤:
⑴特征选择:对知识点进行分词,将去停用词之后的所有词语作为特征词;
⑵相似度计算:采用向量之间的夹角余弦来表示;
⑶计算聚类:
①将第一个知识点作为第一个聚类中心;
②计算第二个知识点与现有聚类中心的相似度,如果最大相似度小于阈值,此知识点作为新的聚类中心,否则,转步骤③;
③将知识点归到最相似的聚类中,并更新质心;
④转步骤②,依次计算其他知识点所属的聚类,直到所有知识点计算完成。
所述阈值为0.8。
所述步骤2的具体实现方法包括以下步骤:
⑴计算任两个领域的相似度;
⑵选取与其他所有领域的相似度之和最大的领域作为中心领域;
⑶为每个领域寻找最相似的两个领域,相似度之和最大的作为外围第一个领域;
⑷与其相似度最大的二个领域分别位于其左右两侧,作为第二、第三领域;
⑸分别为第二、第二领域寻找最相似的领域,位于其旁边;
⑹依次为后续添加的领域寻找最相似领域位于其旁边,直到所有领域均找到位置。
所述步骤3的具体实现方法包括以下步骤:
⑴分布初始节点位置;
⑵计算每次迭代区域内两两节点间的斥力所产生的单位位移;
⑶计算每次迭代每条边的引力对两端节点所产生的单位位移;
⑷累加经过步骤⑵、⑶计算得到的所有节点的单位位移;
⑸迭代n次,直至达到理想效果。
所述步骤4的具体实现方法包括以下步骤:
⑴根据坐标点的位置关系形成连通图;
⑵将形成的多个连通图进行逐一分裂,形成小的群体;分裂依据是:当边的承受系数大于一定阈值时,进行分裂;所述承受系数计算公式如下:
t=min{W1,W2}/n
式中,W1、W2分别是连通图被分割成两部分后每部分数据点的数目,n为这两部分之间的连接边数。
本发明的优点和积极效果是:
本发明采用聚类思想对知识点根据其相似性进行聚类,形成领域知识点;根据各领域的知识点之间的相似性,计算各领域的初始布局位置,相似度越大的两个领域离的越近;采用连通图动态分裂聚类思想,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识,实现对知识点进行可视化的展示功能。具有设计合理、快速准确且形象直观等特点。
附图说明
图1为本发明的算法流程图;
图2为各领域初始布局计算流程图;
图3为本发明实施例构建的知识地图示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
本发明基于文本聚类思想和网络可视化技术实现的:
文本聚类作为处理和组织大量文本数据的关键技术,能够在很大程度上解决信息爆炸和信息杂乱所带来的的问题。文本聚类依据著名的聚类假设,同类文档的相似度较大,不同类文档的相似度较小。文本聚类的目标是将文本集合分成多个簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。通过对知识点根据其内容那个相似性进行聚类,将相同内容的知识点聚成一个群体,形成领域知识点,通过减少知识点的数量,一方面,利于用户对错综复杂的知识点有一个整体的了解,另一方面,也更便于进行可视化展示。
网络可视化作为一类重要的信息可视化技术,充分利用人类视觉感知系统,将网络数据以图形化方式展示出来,快速直观地解释及概览网络结构数据,一方面可以辅助用户认识网络的内部结构,另一方面有助于挖掘隐藏在网络内部的有价值信息。力导引布局方法能够产生相当优美的网络布局,并充分展现网络的整体结构及其特征,所以被应用于大量的网络可视化系统。采用力导引算法对知识点进行布局,可以直观的展示知识点之间的关联关系。
下面以某个研究院为例对本发明的设计原理进行说明:
该研究院有ICT服务业、无线与移动、互联网、信息网络、ICT制造业、两化融合、网络与信息安全以及法律与监管8大领域的研究报告,每个领域包括多个报告文档,每个文档中涉及到多个知识点,总的知识点个数有上万之多。通常的可视化方式是无法展示如此多的信息的。由于对同一领域的研究一般会涉及到多篇文档,故会出现多个研究内容那个相似的知识点,通过对这些知识点根据其相似性进行聚类,减少知识点的个数,再根据各领域之间的知识点的相似性确定初始布局,从而直观的展示各领域的知识点,方便研究者对各领域的研究报告有一个全面的了解。
根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于阈值(0.8)的知识点聚成一个群体,形成领域知识点,作为展示的点;再计算聚类之后的群体之间的相似度,对于相似度大于指定阈值(0.6)的两个群体,认为它们之间存在相关度,进行连线。以可视化的方式展示领域知识点以及它们之间的关系,对于联系比较紧密的知识点,认为它们属于一个群体,并以多边形区域进行标识。
如图1所示,本发明包括以下按步骤:
步骤1、根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于阈值(0.8)的知识点聚成一个群体,形成领域知识点并作为展示的点。
在本步骤中,对知识点进行聚类的方法如下:
(1)特征选择。由于知识点内容较短,对知识点进行分词,将去停用词之后的所有词语作为特征词。
(2)相似度计算。文本相似度可以用向量之间的夹角余弦来表示,余弦计算得到的值恰好是介于0到1的数。
(3)计算聚类:
①第一个知识点,作为第一个聚类中心;
②计算第二个知识点与现有聚类中心的相似度,如果最大相似度小于阈值,此知识点作为新的聚类中心,否则,转③;
③将知识点归到最相似的聚类中,并更新质心;
④转②,依次计算其他知识点所属的聚类,直到所有知识点计算完成。
步骤2、初始布局计算。根据聚类结果中各领域知识点之间的相似度,计算领域之间的相似度,相似度越大的两个领域离的越近,初步确定各领域所在的初始位置。
本步骤的具体处理过程,如图2所示,包括以下步骤:
(1)计算任两个领域的相似度;
(2)选取与其他所有领域的相似度之和最大的领域作为中心领域;
(3)为每个领域寻找最相似的两个领域,相似度之和最大的作为外围第一个领域;
(4)与其相似度最大的二个领域分别位于其左右两侧,作为第二、第三领域;
(5)分别为第二、第二领域寻找最相似的领域,位于其旁边;
(6)依次为后续添加的领域寻找最相似领域位于其旁边,直到所有领域均找到位置。
步骤3、采用力导引算法实现领域知识点布局坐标。
在本步骤中,采用力导引算法计算知识点布局坐标如下:
(1)分布初始节点位置;
(2)计算每次迭代区域内两两节点间的斥力所产生的单位位移(一般为正值);
(3)计算每次迭代每条边的引力对两端节点所产生的单位位移(一般为负值);
(4)累加经过步骤(2)、(3)计算得到的所有节点的单位位移;
(5)迭代n次,直至达到理想效果。
步骤4、在力导引算法计算每个知识点的布局坐标之后,采用连通图动态分裂聚类思想,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。具体方法如下:
(1)根据坐标点的位置关系形成连通图;
(2)将形成的多个连通图进行逐一分裂,形成小的群体。分裂依据是,当边的承受系数大于一定阈值时,进行分裂。承受系数计算公式如下
t=min{W1,W2}/n
式中:W1、W2分别是连通图被分割成两部分后每部分数据点的数目,n为这两部分之间的连接边数。
按照上述方法构成的展示结果如图3所示,从图中可以看出:
(1)知识地图最大蓝点的知识点是与“安全防护系统数据挖掘和安全态势展示平台核心技术介绍”关联度大于0.8的一类知识点,此类知识点包含的知识点个数为20。
(2)知识地图总共包括8大领域,相关度大于0.6的两类知识点之前存在连线,相关度越大,知识点就会离的越近,由于各领域的知识点相互间关联度比较大,所以同一领域的知识点会形成一个紧密的区域。对于不同领域,相关度较大的知识点,会在中间区域交叉展示。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (6)
1.一种基于文本聚类思想的知识地图构建方法,其特征在于包括以下步骤:
步骤1、根据知识点标题之间的相似性,对知识点进行聚类,将相似度大于一定阈值的知识点聚成一个群体,形成领域知识点并将其作为展示的点;
步骤2、初始布局计算:根据聚类结果中各领域知识点之间的相似度,计算领域之间的相似度,确定各领域所在的初始位置;
步骤3、采用力导引算法进行领域知识点布局;
步骤4、采用连通图动态分裂聚类方法,将相似度较大的知识点聚成一个个群体,并以多边形区域进行标识。
2.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述步骤1对知识点进行聚类的方法包括以下步骤:
⑴特征选择:对知识点进行分词,将去停用词之后的所有词语作为特征词;
⑵相似度计算:采用向量之间的夹角余弦来表示;
⑶计算聚类:
①将第一个知识点作为第一个聚类中心;
②计算第二个知识点与现有聚类中心的相似度,如果最大相似度小于阈值,此知识点作为新的聚类中心,否则,转步骤③;
③将知识点归到最相似的聚类中,并更新质心;
④转步骤②,依次计算其他知识点所属的聚类,直到所有知识点计算完成。
3.根据权利要求1或2所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述阈值为0.8。
4.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:
⑴计算任两个领域的相似度;
⑵选取与其他所有领域的相似度之和最大的领域作为中心领域;
⑶为每个领域寻找最相似的两个领域,相似度之和最大的作为外围第一个领域;
⑷与其相似度最大的二个领域分别位于其左右两侧,作为第二、第三领域;
⑸分别为第二、第二领域寻找最相似的领域,位于其旁边;
⑹依次为后续添加的领域寻找最相似领域位于其旁边,直到所有领域均找到位置。
5.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述步骤3的具体实现方法包括以下步骤:
⑴分布初始节点位置;
⑵计算每次迭代区域内两两节点间的斥力所产生的单位位移;
⑶计算每次迭代每条边的引力对两端节点所产生的单位位移;
⑷累加经过步骤⑵、⑶计算得到的所有节点的单位位移;
⑸迭代n次,直至达到理想效果。
6.根据权利要求1所述的基于文本聚类思想的知识地图构建方法,其特征在于:所述步骤4的具体实现方法包括以下步骤:
⑴根据坐标点的位置关系形成连通图;
⑵将形成的多个连通图进行逐一分裂,形成小的群体;分裂依据是:当边的承受系数大于一定阈值时,进行分裂;所述承受系数计算公式如下:
t=min{W1,W2}/n
式中,W1、W2分别是连通图被分割成两部分后每部分数据点的数目,n为这两部分之间的连接边数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710462260.4A CN107451183B (zh) | 2017-06-19 | 2017-06-19 | 基于文本聚类思想的知识地图构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710462260.4A CN107451183B (zh) | 2017-06-19 | 2017-06-19 | 基于文本聚类思想的知识地图构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451183A true CN107451183A (zh) | 2017-12-08 |
CN107451183B CN107451183B (zh) | 2019-11-22 |
Family
ID=60486377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710462260.4A Active CN107451183B (zh) | 2017-06-19 | 2017-06-19 | 基于文本聚类思想的知识地图构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451183B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052672A (zh) * | 2017-12-29 | 2018-05-18 | 北京师范大学 | 利用群体学习行为促进结构化知识图谱构建系统及方法 |
CN109242027A (zh) * | 2018-09-17 | 2019-01-18 | 南京中物联科技有限公司 | 一种可交互的大数据并行k-means聚类方法 |
CN110119812A (zh) * | 2018-02-07 | 2019-08-13 | 刘劲彤 | 一种知识库及其展示方法、查询方法 |
CN110209809A (zh) * | 2018-08-27 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本聚类方法和装置、存储介质及电子装置 |
CN110532388A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本聚类的方法、设备和存储介质 |
CN112541048A (zh) * | 2020-12-17 | 2021-03-23 | 武汉中海庭数据技术有限公司 | 一种高精度地图停止线融合方法、系统、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060288031A1 (en) * | 2003-06-25 | 2006-12-21 | Lee Shih-Jong J | Dynamic learning and knowledge representation for data mining |
CN103390058A (zh) * | 2013-07-29 | 2013-11-13 | 北京理工大学 | 基于知识地图的领域知识浏览方法 |
CN103744846A (zh) * | 2013-08-13 | 2014-04-23 | 北京航空航天大学 | 一种多维度动态局部知识地图及其构建方法 |
CN106844652A (zh) * | 2017-01-20 | 2017-06-13 | 上海大学 | 一种基于知识地图的产品知识导航方法 |
-
2017
- 2017-06-19 CN CN201710462260.4A patent/CN107451183B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060288031A1 (en) * | 2003-06-25 | 2006-12-21 | Lee Shih-Jong J | Dynamic learning and knowledge representation for data mining |
CN103390058A (zh) * | 2013-07-29 | 2013-11-13 | 北京理工大学 | 基于知识地图的领域知识浏览方法 |
CN103744846A (zh) * | 2013-08-13 | 2014-04-23 | 北京航空航天大学 | 一种多维度动态局部知识地图及其构建方法 |
CN106844652A (zh) * | 2017-01-20 | 2017-06-13 | 上海大学 | 一种基于知识地图的产品知识导航方法 |
Non-Patent Citations (3)
Title |
---|
NILUPULEE NATHAWITHARANA 等: "Using Semantic Relatedness Measures with Dynamic Self-Organizing Maps for Improved Text Clustering", 《2016 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
秦长江: "基于科学计量学共现分析法的中国农史学科知识图谱构建研究", 《中国博士学位论文全文数据库农业科技辑》 * |
邓健爽 等: "基于连通图动态分裂的聚类算法", 《华南理工大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052672A (zh) * | 2017-12-29 | 2018-05-18 | 北京师范大学 | 利用群体学习行为促进结构化知识图谱构建系统及方法 |
CN110119812A (zh) * | 2018-02-07 | 2019-08-13 | 刘劲彤 | 一种知识库及其展示方法、查询方法 |
CN110209809A (zh) * | 2018-08-27 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本聚类方法和装置、存储介质及电子装置 |
CN109242027A (zh) * | 2018-09-17 | 2019-01-18 | 南京中物联科技有限公司 | 一种可交互的大数据并行k-means聚类方法 |
CN110532388A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本聚类的方法、设备和存储介质 |
WO2021027086A1 (zh) * | 2019-08-15 | 2021-02-18 | 苏州朗动网络科技有限公司 | 文本聚类的方法、设备和存储介质 |
CN110532388B (zh) * | 2019-08-15 | 2022-07-01 | 企查查科技有限公司 | 文本聚类的方法、设备和存储介质 |
CN112541048A (zh) * | 2020-12-17 | 2021-03-23 | 武汉中海庭数据技术有限公司 | 一种高精度地图停止线融合方法、系统、服务器及存储介质 |
CN112541048B (zh) * | 2020-12-17 | 2022-04-19 | 武汉中海庭数据技术有限公司 | 一种高精度地图停止线融合方法、系统、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107451183B (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451183B (zh) | 基于文本聚类思想的知识地图构建方法 | |
Wang et al. | Big data service architecture: a survey | |
CN103902988B (zh) | 一种基于Modular积图与最大团的草图形状匹配方法 | |
Xin et al. | Arch: Adaptive recurrent-convolutional hybrid networks for long-term action recognition | |
CN101859320B (zh) | 一种基于多特征签名的海量图像检索方法 | |
CN103605765B (zh) | 一种基于聚类紧凑特征的海量图像检索系统 | |
CN110532436A (zh) | 基于社区结构的跨社交网络用户身份识别方法 | |
Jiang et al. | GDPC: Gravitation-based density peaks clustering algorithm | |
Wang et al. | Clustering of interval-valued time series of unequal length based on improved dynamic time warping | |
CN107729993A (zh) | 利用训练样本及折中度量的3d卷积神经网络构建方法 | |
CN104915351A (zh) | 图片排序方法及终端 | |
Sun et al. | Hyperlayer bilinear pooling with application to fine-grained categorization and image retrieval | |
CN108959379A (zh) | 一种基于视觉显著区域和手绘草图的服装图像检索方法 | |
CN109408655A (zh) | 结合带孔卷积与多尺度感知网络的手绘草图检索方法 | |
Xiao et al. | Sketch-based human motion retrieval via selected 2D geometric posture descriptor | |
CN101320461A (zh) | 基于电阻网络和稀疏数据预测的协同过滤方法 | |
Jiang et al. | Abnormal behavior detection using streak flow acceleration | |
CN108090117B (zh) | 一种图像检索方法及装置,电子设备 | |
CN107194492A (zh) | 一种基于位置社交网络的商家推荐的优化方法 | |
CN111612046A (zh) | 特征金字塔图卷积神经网络及其在3d点云分类中的应用 | |
Xu et al. | Improving constrained clustering via swarm intelligence | |
CN104573726B (zh) | 基于四等分及各成分重构误差最优组合的人脸图像识别方法 | |
CN108304866A (zh) | 一种多视图特征判别方法 | |
CN105631462A (zh) | 结合置信度和贡献度的基于时空上下文的行为识别方法 | |
Birch et al. | The maximum number of 3-and 4-cliques within a planar maximally filtered graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |