CN107766412A

CN107766412A - 一种建立主题地图的方法、系统和装置

Info

Publication number: CN107766412A
Application number: CN201710792106.3A
Authority: CN
Inventors: 聂瑞华; 李卓越; 赵淦森; 王欣明; 席云; 杨晋吉
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2018-03-06

Abstract

本发明公开了一种建立主题地图的方法、系统和装置，本发明的方法包括以下步骤：根据文档集中的文档，得到文档‑词项矩阵；使用主题生成模型对得到的文档‑词项矩阵进行降维，得到文档主题集；对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系；计算主题地图中主题之间的相关性和主题地图中文档之间的相似性，得到主题地图的主题间关系和文档间关系；根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。本发明建立主题地图的效率高，得到的主题地图图形化合理。便于用户快速获取有用的信息。本发明可以广泛应用于数据挖掘领域。

Description

一种建立主题地图的方法、系统和装置

技术领域

本发明涉及数据挖掘领域，尤其是一种建立主题地图的方法、系统和装置。

背景技术

名词解释：

主题地图：是一种语义网络的知识表示模式，它的组成元素通常包括topic、association和occurrence，这种主题地图的组织形式简称TAO型。

topic：主题是一个概念的机器可处理的表示。主题用于表示电子资源(诸如文档，网页，Web服务)和非电子资源(诸如人或地方)。主题同样可以用来表示没有形式的事物，例如公司，事件和抽象概念，如“养老金”或“保险”。

association：关联是表示主题图中主题之间的关系的一般形式。一个关联可以被认为是主题的一个n元关系聚合。也就是说，关联是没有隐含方向或顺序的主题分组，并且对可以被分在一组的主题数量没有限制。

occurrence：代表一个topic与其对应的信息资源之间的关系。

relevancy：代表信息资源与信息资源之间的关系。

LDA：Latent Dirichlet Allocation是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

SVM：Support Vector Machine支持向量机。

Fruchterman-Reingold算法：是一种网络布局算法。

tf-idf算法：是一种用于信息检索与数据挖掘的常用加权算法。

度中心性：Degree Centrality是在网络分析中刻画节点中心性(Centrality)的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。

余弦相似度：又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。

降维：在机器学习领域中的降维就是指采用映射的方法，将原高维度空间中的数据点映射到低纬度的空间中。

停用词：在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。

重要文档节点：指在网络中与其他文档存在较多联系的文档节点，若删除该文档节点，文档节点所在的网络效率会下降。

随着互联网的发展，用户接触到的信息远超出自己的处理能力，为了解决该问题，主要的办法是减少搜索策略中的信息过载或者减少浏览策略的信息过载。而目前大量研究将重点放在减少搜索策略中的信息过载上，而浏览策略的信息过载却没有引起足够的重视。但是浏览策略面临的信息过载更为严重，因为搜索策略可以根据关键字自动过滤掉不相干的内容，极大的减少了信息量，但浏览策略却不能。一般而言，对于新用户或者对某领域不了解的用户而言，由于缺乏关键词汇来展示兴趣点，所以只能采用浏览策略，但在浏览过程中很容易在大量信息中迷失，无法准确找到相关信息，并且浪费时间和精力。同时，无论是搜索策略还是浏览策略，都不能体现知识间的相关关系。即用户只能看到描述某一知识的某个文档，却无法知道其他知识与该文档中的知识之间以及其他文档与该文档的相互关系。用户对某领域的认识只能依靠自身知识体系的建立，无法对该领域所含的知识进行整体把握。

如何使用知识组织手段对用户的浏览策略进行优化，以便用户从大量的信息和知识中快速获取有价值的内容，揭示知识间的深层次关系，成为了国内外的研究热门。建立主题地图是一个有效的办法，目前有部分学者提出了一些建立主题地图的方法，这些方法以句子作为层次建立主题地图，但是在海量的数据背景下，以句子为层次建立的主题地图过于庞大，建造的效率低；同时，大多数的主题地图采用TAO型结构进行图形化表示，而TAO型结构的图形化表示缺乏文档与文档之间的关系，导致难以从主题地图中看出文档与文档之间的关系，这样的图形化并不合理。

发明内容

为解决上述技术问题，本发明的第一目的在于：提供一种效率高和图形化合理的主题地图的建立方法。

本发明的第二目的在于：提供一种效率高和图形化合理的主题地图的建立系统。

本发明的第三目的在于：提供一种效率高和图形化合理的主题地图的建立装置。

本发明所采用的第一种技术方案是：

一种建立主题地图的方法，包括以下步骤：

根据文档集中的文档，得到文档-词项矩阵；

使用主题生成模型对得到的文档-词项矩阵进行降维，得到文档主题集；

对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系；

计算主题地图中主题之间的相关性和主题地图中文档之间的相似性，得到主题地图的主题间关系和文档间关系；

根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。

进一步，所述主题地图中主题之间的相关性的计算采用相关性函数Sim(t_i,t_j)来计算，Sim(t_i,t_j)表达式为：

其中，σ和μ为常数；

D_i为主题为i的所有文档的集合，D_j为主题为j的所有文档的集合；

D_iξ为D_i集合的第ξ个文档，D_jζ为D_j集合的第ζ个文档；

为在文档主题集Θ中D_iξ对应的主题词的权重，为在文档主题集Θ中D_jζ对应的主题词的权重；

为主题i主题词的权重和，为主题j的主题词的权重和；

Sim_d(d_i,d_j)表示主题t_i的文档d_i与主题t_j的文档d_j的相似度；

M表示主题i中的文档和主题j中的文档相似性大于阀值的个数；

n_i表示主题t_i所有文档的个数，n_j表示主题t_j的所有文档的个数；

表示主题t_i和t_j间语义相似度。

进一步，所述主题地图中文档之间的相似性的计算采用余弦相似度算法来计算。

进一步，还包括对主题地图中重要文档节点进行标注的步骤。

进一步，所述对主题地图中重要文档节点进行标注的步骤为：采用度中心性对主题地图中的重要文档节点进行标注。

进一步，所述根据文档集中的文档，得到文档-词项矩阵的步骤包括：

对文档集中的每个文档进行分词，并去掉停用词，以为每个文档生成一个词项表；

将得到的词项表添加到词典中；

去除词典中出现频率低于最低设定值和高于最高设定值的词项；

计算每个文档中词项的重要程度值，得到重要程度值表；

对得到的重要程度值表和词典进行矩阵化，得到文档-词项矩阵。

进一步，所述使用主题生成模型对得到的文档-词项矩阵进行降维，得到文档主题集的步骤具体为：使用LDA主题生成模型对得到的文档-词项矩阵进行降维。

进一步，所述对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系的步骤包括：

生成一个和文档主题集长度相同的随机数组，所述随机数组内元素的取值范围为(0,1)；

将随机数组内的元素与文档主题集中的文档一一对应，并且遍历随机数组，以将随机数组内元素对应的文档加入训练集或测试集：若随机数组内的元素大于0.5，则将该元素对应的文档加入训练集，反之，则将该元素对应的文档加入测试集；

用训练集对SVM分类器进行训练；

用训练后的SVM分类器对测试集的文档分类，得到主题地图的主题和主题与文档间关系。

本发明所采用的第二种技术方案是：

一种建立主题地图的系统，包括：

文档-词项矩阵生成模块，用于根据文档集中的文档，得到文档-词项矩阵；

文档主题集生成模块，用于使用主题生成模型对得到的文档-词项矩阵进行降维，得到文档主题集；

分类模块，用于对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系；

计算模块，用于计算主题地图中主题之间的相关性和主题地图中文档之间的相似性，得到主题地图的主题间关系和文档间关系；

主题地图生成模块，用于根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。

本发明所采用的第三种技术方案是：

一种建立主题地图的装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，以用于：

根据文档集中的文档，得到文档-词项矩阵；

本发明方法的有益效果是：以文档为层次建立主题地图，规模小，建造效率高；在主题地图中，增加了文档间关系，配合主题、主题与文档间关系和主题间关系形成了图形化合理的主题地图，便于用户快速获取有用的信息。

本发明系统的有益效果是：包括文档-词项矩阵生成模块、文档主题集生成模块、分类模块、计算模块和主题地图生成模块，通过文档-词项矩阵生成模块、文档主题集生成模块、分类模块、计算模块和主题地图生成模块以文档为层次建立主题地图，规模小，建造效率高；在主题地图中，增加了文档间关系，配合主题、主题与文档间关系和主题间关系形成了图形化合理的主题地图，便于用户快速获取有用的信息。

本发明装置的有益效果是：包括存储器和处理器，处理器执行的程序以文档为层次建立主题地图，规模小，建造效率高；在主题地图中，增加了文档间关系，配合主题、主题与文档间关系和主题间关系形成了图形化合理的主题地图，便于用户快速获取有用的信息。

附图说明

图1是本发明一种建立主题地图的方法流程图；

图2是本发明实施例1的主题地图的建立方法流程图；

图3是本发明一种主题地图的示意图；

图4是本发明实施例2的主题地图分类结果图。

具体实施方式

参照图1，一种建立主题地图的方法，包括以下步骤：

根据文档集中的文档，得到文档-词项矩阵；

进一步作为优选的实施方式，所述主题地图中主题之间的相关性的计算采用相关性函数

Sim(t_i,t_j)来计算，Sim(t_i,t_j)表达式为：

其中，σ和μ为常数；

D_iξ为D_i集合的第ξ个文档，D_jζ为D_j集合的第ζ个文档；

为主题i主题词的权重和，为主题j的主题词的权重和；

表示主题t_i和t_j间语义相似度。

进一步作为优选的实施方式，所述主题地图中文档之间的相似性的计算采用余弦相似度算法来计算。

进一步作为优选的实施方式，还包括对主题地图中重要文档节点进行标注的步骤。

进一步作为优选的实施方式，所述对主题地图中重要文档节点进行标注的步骤为：采用度中心性对主题地图中的重要文档节点进行标注。

进一步作为优选的实施方式，所述根据文档集中的文档，得到文档-词项矩阵的步骤包括：

将得到的词项表添加到词典中；

计算每个文档中词项的重要程度值，得到重要程度值表；

进一步作为优选的实施方式，所述使用主题生成模型对得到的文档-词项矩阵进行降维，得到文档主题集的步骤具体为：使用LDA主题生成模型对得到的文档-词项矩阵进行降维。

进一步作为优选的实施方式，所述对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系的步骤包括：

用训练集对SVM分类器进行训练；

一种建立主题地图的系统，包括：

一种建立主题地图的装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，以用于：

根据文档集中的文档，得到文档-词项矩阵；

实施例1

参照图2，本实施例的主题地图的建立方法主要包括以下步骤：

A、对文档集中的文档进行形式化表示，得到文档-词项矩阵；

B、使用LDA主题生成模型对得到的文档-词项矩阵进行降维，得到文档主题集；

C、使用SVM分类器对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系；

D、计算主题地图中主题之间的相关性和主题地图中文档之间的相关性，得到主题地图的主题间关系和文档间关系；

E、根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成图形化合理的主题地图。

F、采用度中心性对主题地图中重要文档节点进行标注，所述重要文档节点是指在主题提图中的重要文档节点，若删除该节点，会使主题地图的网络效率下降。

最终生成的主题地图可参考图3，其中，T1、T2、T3和T4代表不同的topic，即主题，association表示主题间关系，occurrence表示主题与文档间关系，relevancy代表文档间关系，文档是主题地图中资源的一种。

所述步骤A包括：

A1、对文档集中的每个文档用jieba分词算法进行分词，并去掉停用词，为每个文档生成一个词项表wordlist；

A2、将得到的每个文档的词项表添加到词典dict中；

A3、去掉词典dict中出现频率低于最低设定值和高于最高设定值的词项；

A4、采用tf-idf算法计算每个文档中词项的重要程度值，得到重要程度值表file_tfidf；

A5、将重要程度值表file_tfidf和词典进行矩阵化，得到文档-词项矩阵。

所述步骤C包括：

C1、生成一个和文档主题集长度相同的随机数组rarray，rarray内元素的取值范围为(0,1)，并且将数组rarray内的元素与文档主题集中的文档一一对应，遍历数组rarray，若数组rarray内的元素大于0.5，则将该元素对应的文档加入训练集，反之，加入测试集；

C2、初始化SVM分类器，并用训练集对SVM分类器进行训练；

C3、用训练后的SVM分类器对测试集的文档分类，得到主题地图的主题和主题与文档间

的关系。

所述步骤D包括：

D1、采用Topsim算法计算主题地图中主题之间的相关性，得到主题间关系；

D2、采用余弦相似度算法计算主题地图文档之间的相似性，得到文档间关系。

所述Topsim算法如下：

设主题t_i与主题t_j不相同，此时Topsim算法的相关性函数Sim(t_i,t_j)的表达式为：

Sim(t_i,t_j)＝σ×Sim_t(t_i,t_j)+μ×Sim_r(r_i,r_j)

在该公式中σ和μ为常数，Sim(t_i,t_j)表示主题t_i与主题t_j的相关性，Sim_t(t_i,t_j)表示主题间语义的相似度，采用余弦相似度算法计算，Sim_r(r_i,r_j)表示主题间与文档相关的相似度计算。Sim_t(t_i,r_j)的表达式为：

其中，D_i为主题为i的所有文档的集合，D_j为主题为j的所有文档的集合；

D_iξ为D_i集合的第ξ个文档，D_jζ为D_j集合的第ζ个文档；

为主题i主题词的权重和，为主题j的主题词的权重和。

Sim_r(r_i,r_j)的表达式为：

其中，Sim_d(d_i,d_j)表示主题t_i的文档d_i与主题t_j的文档d_j的相似度；

n_i表示主题t_i所有文档的个数，n_j表示主题t_j的所有文档的个数。

最后将Sim_r(r_i,r_j)和Sim_t(t_i,r_j)的表达式代入相关性函数Sim(t_i,t_j)得到最终的表达式：

通过相关性函数Sim(t_i,t_j)可以计算主题之间的相关性。

实施例2

本实施例以建立博客数据的主题地图为例对本发明进行进一步的说明。

用实施例1的方法建立博客数据的主题地图，得到的主题地图可参考图4，其中，主题地图中各节点的呈现与节点间的连线长度由Fruchterman-Reingold算法(一种网络布局算法)计算得出。主题地图的上半部分为主题层(topic level)，表示主题间的相关关系；下半部分为资源层(resource level)，表示资源之间的相互关系。不同颜色代表不同主题，主题层和资源层中相同主题的颜色相对应，表示主题地图中的occurrence关系，文档节点之间的连线代表主题地图中的relevancy，即两文档之间存在较高的相似度，主题节点的连线代表主题地图中的association，即主题间存在较高的相关性。从图4可以看出，所有文档被划分为七个主题，同一领域中文档间的相似度较高，而不同领域之间只有少数文档存在关联。本发明的方法通过对所有文档进行分析并建立主题地图，最终将文档分为Hadoop(对应黄色)、Mybatis(对应浅蓝色)、Hbase(对应深蓝色)、Mysql(对应橙色)、Linux(对应粉色)、Docker(对应红色)和Mongodb(对应绿色)，并通过主题相关性算法Topsim计算主题间的相关关系，方便用户对各主题之间的关系有整体的把握；采用颜色标记的方式展示文档主题，方便用户了解文档的分类；文档间的连线表示文档间的相关性，方便用户了解文档的相关性，并根据该相关性寻找浏览路径。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种建立主题地图的方法，其特征在于，包括以下步骤：

根据文档集中的文档，得到文档-词项矩阵；

2.根据权利要求1所述的一种建立主题地图的方法，其特征在于：所述主题地图中主题之间的相关性的计算采用相关性函数Sim(t_i,t_j)来计算，Sim(t_i,t_j)表达式为：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>&sigma;</mi> <mo>&times;</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>&xi;</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </munderover> <msub> <mi>&Theta;</mi> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mi>&xi;</mi> </mrow> </msub> </msub> <mo>,</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>&zeta;</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>j</mi> </msub> </munderover> <msub> <mi>&Theta;</mi> <msub> <mi>D</mi> <mrow> <mi>j</mi> <mi>&zeta;</mi> </mrow> </msub> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&mu;</mi> <mo>&times;</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <msub> <mi>Sim</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>n</mi> <mi>j</mi> </msub> <mo>+</mo> <mi>M</mi> </mrow> </mfrac> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

其中，σ和μ为常数；

D_iξ为D_i集合的第ξ个文档，D_jζ为D_j集合的第ζ个文档；

为主题i主题词的权重和，为主题j的主题词的权重和；

表示主题t_i和t_j间语义相似度。

3.根据权利要求2所述的一种建立主题地图的方法，其特征在于：所述主题地图中文档之间的相似性的计算采用余弦相似度算法来计算。

4.根据权利要求1所述的一种建立主题地图的方法，其特征在于：还包括对主题地图中重要文档节点进行标注的步骤。

5.根据权利要求4所述的一种建立主题地图的方法，其特征在于：所述对主题地图中重要文档节点进行标注的步骤为：采用度中心性对主题地图中的重要文档节点进行标注。

6.根据权利要求1所述的一种建立主题地图的方法，其特征在于：所述根据文档集中的文档，得到文档-词项矩阵的步骤包括：

将得到的词项表添加到词典中；

计算每个文档中词项的重要程度值，得到重要程度值表；

7.根据权利要求1所述的一种建立主题地图的方法，其特征在于：所述使用主题生成模型对得到的文档-词项矩阵进行降维，得到文档主题集的步骤具体为：使用LDA主题生成模型对得到的文档-词项矩阵进行降维。

8.根据权利要求1-7任一项所述的一种建立主题地图的方法，其特征在于：所述对文档主题集中的文档进行分类，得到主题地图的主题和主题与文档间关系的步骤包括：

用训练集对SVM分类器进行训练；

9.一种建立主题地图的系统，其特征在于，包括：

10.一种建立主题地图的装置，其特征在于，包括：

存储器，用于存放程序；

处理器，用于执行所述程序，以用于：

根据文档集中的文档，得到文档-词项矩阵；