CN104778204A

CN104778204A - 基于两层聚类的多文档主题发现方法

Info

Publication number: CN104778204A
Application number: CN201510093441.5A
Authority: CN
Inventors: 陈健; 袁慎溪
Original assignee: South China University of Technology SCUT; Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Current assignee: South China University of Technology SCUT; Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2015-07-15
Anticipated expiration: 2035-03-02
Also published as: CN104778204B

Abstract

本发明公开了一种基于两层聚类的多文档主题发现方法，包括下述步骤：S1、将多个文档作为输入，对每个文档进行预处理，包括对文档进行分句，对句子进行分词，获取多文档集合中的名词集合、动词集合，并对其中的多义词进行词义消歧处理；S2、对步骤S1输出的名词集合、动词集合，根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析，抽取出语义概念，并依此对句子建立向量空间模型；S3、使用改进的k中心点算法对句子进行聚类分析，得到主题。本发明提炼出词语间的内在语义联系，解决建立句子特征向量时各个特征项之间“非正交”的情况。

Description

基于两层聚类的多文档主题发现方法

技术领域

本发明涉及两层聚类的研究领域，特别涉及一种基于两层聚类的多文档主题发现方法。

背景技术

在多文档的主题发现的句子表示方面，一般技术主要使用句子分词，使用基于分词结果的词频向量或TF-IDF向量等方式来表示句子。通常情况下，词语在语义空间中的分布不是均匀的，这样，传统向量空间模型中特征分量间“斜交”会给句子聚类带来负面的影响。而在基于密度的句子聚类算法中，一般半径参数需要提前指定，这也给多文档的主题发现带来了不便。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于两层聚类的多文档主题发现方法。

为了达到上述目的，本发明采用以下技术方案：

一种基于两层聚类的多文档主题发现方法，包括下述步骤：

S1、将多个文档作为输入，对每个文档进行预处理，包括对文档进行分句，对句子进行分词，获取多文档集合中的名词集合、动词集合，并对其中的多义词进行词义消歧处理；

S2、对步骤S1输出的名词集合、动词集合，根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析，抽取出语义概念，并依此对句子建立向量空间模型；

S3、使用改进的k中心点算法对句子进行聚类分析，得到主题。

优选的，步骤S1中，词义消歧处理的具体方法为：

对于分词后的结果，首先标注其词性，只关注名词集合和动词集合，对于其中的多义词w，首先使用语义词典获取它的各个词义，然后分别计算每个词义与其前后各k个相同词性的词的词义相似度的和。

优选的，词义相似度的计算方法为：

S11、对于中文语料的词义相似度，利用知网词典中用于描述一个概念特征结构的前三个部分来定义两个词语w₁和w₂之间的相似度，即定义：1)基于第一基本义原描述的相似度定义为Sim₁(w₁，w₂)；2)基于其他基本义原描述的相似度定义为Sim₂(w₁,w₂)；3)基于关系义原描述的相似度定义为Sim₃(w₁,w₂)，最后对上述3项相似度加权求和，从而得到两个词w₁和w₂基于词义间的整体相似度如下式：

Sim (w_{1}, w_{2}) = Π_{i = 1}^{3} α_{i} (Π_{j = 1}^{i} {Sim}_{j} (w_{1}, w_{2}))

其中，α_i为调节参数，且α₁+α₂+α₃＝1。

为了表示在上下文中距离更近的词对该多义词词义起到更大的影响作用，在此处引入距离衰竭函数，假设多义词w与某同性词语w’间隔n个单词，则相似度为

Sim (w, w^{'}) = \frac{1}{n^{2}} Σ_{i = 1}^{4} α_{i} (Π_{j = 1}^{i} {Sim}_{j} (w_{1}, w_{2})) .

优选的，步骤S2中，采用改进的OPTICS算法对词语进行聚类分析具体为：

S21、按上述步骤对数据集中的名词集合、动词集合分别进行词义消歧后，使用OPTICS算法分别对名词集合、动词集合进行聚类分析，具体为：

S21、遍历词语集合，如果在半径参数ε范围内的相似词语大于另一参数minPts，则定义该词语为核心词语；

S212、如是核心词语，则存储其语义概念半径参数ε范围内的所有词语，表示为同一个语义概念。

S22、对名词集合、动词集合分别进行聚类分析后，该方法把聚类结果中的一个簇对象定义为一个语义概念，表示为Concept＝(POS,w₁,w₂,…,w_n)，其中POS表示该语义概念的词性，{w₁,w₂,…,w_n}表示该语义概念包含的词语集合。

优选的，步骤S2中，对句子进行建立向量空间模型的具体方法为：

词语聚类分析后，把语义概念Concept作为特征项，使用词频作为特征项的权重，从而对每个句子建立特征向量，称为语义概念向量；假设词语聚类分析后的语义概念有n个，则句子Sent_j的语义概念向量表示为其中，i_ij＝TF_ij，指的是语义概念Concept_i在句子Sent_j中出现的次数，也就是词频。

优选的，步骤S3中，采用了改进的k中心点算法对句子进行聚类分析，具体为：

S31、随机选取k个句子为中心点，代表了k个簇；

S32、为k个中心点句子寻找与其最近的k个邻居放入对应的簇中；

S33、计算k个簇的半径，所述半径为每两个句子的距离和的平均，并计算所有簇的平均半径记为r；

S34、若某个句子Sent_i的半径r内有另一个句子Sent_j，则称这两个句子直接密度可达，对应的句子则表达同样的主题，继续这个过程直至没有句子加入到簇中，则识别为一个主题，表示为：Topic_i＝{Sent₁,Sent₂,…,Sent_n}。

优选的，步骤S33中，句子Sent_i到Sent_j之间的距离使用其语义概念向量间的修正余弦相似度来衡量，计算方法如下：

其中：n表示词语聚类分析后的语义概念个数，ω_ki表示Sent_i中第k个语义概念出现的次数，ω_kj表示Sent_j中第k个语义概念出现的次数，表示第k个语义概念在所有句子中出现的平均次数。

本发明与现有技术相比，具有如下优点和有益效果：

1)本发明提炼出词语间的内在语义联系，解决建立句子特征向量时各个特征项之间“非正交”的情况。

2)本发明通过找出部分能代表多文档集合主题的名词、动词，上升为语义概念，作为句子特征向量的特征项，同时剔除一些与主题关系不大的词语，有利于减少特征向量空间维度，提高运算速度。

3)本发明采用对词语、句子分别进行聚类的方法来挖掘句之间内在联系，提高基于语义的主题发现的精度。

4)本发明采用改进的OPTICS算法对词语进行聚类分析，有助于挖掘出各种形状的词语聚集区域，同时又能把一些被看作噪声的词语剔除出去

5)本发明采用改进的k中心点算法对句子进行聚类分析，主要优势在于使用自动聚类簇的平均半径来确定句子间的紧密程度，并采用语义概念向量间的修正余弦相似度来衡量句子之间的距离，能够凸显基于语义概念的主题内容相似性，同时也能处理句子语义概念向量分布不均匀的问题。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于两层聚类的多文档主题发现方法，包括下述步骤：

S1、将多个文档作为输入，对每个文档进行预处理，包括对文档进行分句，对句子进行分词，获取多文档集合中的名词集合、动词集合，并对其中的多义词进行词义消歧处理；其中词义消歧处理的具体方法为：

上述词义相似度的计算方法为：

S11、对于中文语料的词义相似度，利用知网词典中用于描述一个概念特征结构的前三个部分来定义两个词语w₁和w₂之间的相似度，即定义：1)基于第一基本义原描述的相似度定义为Sim₁(w₁,w₂)；2)基于其他基本义原描述的相似度定义为Sim₂(w₁,w₂)；3)基于关系义原描述的相似度定义为Sim₃(w₁,w₂)，最后对上述3项相似度加权求和，从而得到两个词w₁和w₂基于词义间的整体相似度如下式：

Sim (w_{1}, w_{2}) = Π_{i = 1}^{3} α_{i} (Π_{j = 1}^{i} {Sim}_{j} (w_{1}, w_{2}))

其中，α_i为调节参数，且α₁+α₂+α₃＝1。

Sim (w, w^{'}) = \frac{1}{n^{2}} Σ_{i = 1}^{4} α_{i} (Π_{j = 1}^{i} {Sim}_{j} (w_{1}, w_{2})) .

S2、对步骤S1输出的名词集合、动词集合，根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析，抽取出语义概念，并依此对句子建立向量空间模型。

本实施例中，采用改进的OPTICS算法对词语进行聚类分析具体为：

进一步的，上述对句子进行建立向量空间模型的具体方法为：

词语聚类分析后，把语义概念Concept作为特征项，使用词频作为特征项的权重，从而对每个句子建立特征向量，称为语义概念向量；假设词语聚类分析后的语义概念有n个，则句子Sent_j的语义概念向量表示为其中，ω_ij＝TF_ij，指的是语义概念Concept_i在句子Sent_j中出现的次数，也就是词频。

采用了改进的k中心点算法对句子进行聚类分析，具体为：

S31、随机选取k个句子为中心点，代表了k个簇；

步骤S33中，句子Sent_i到Sent_j之间的距离使用其语义概念向量间的修正余弦相似度来衡量，计算方法如下：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于两层聚类的多文档主题发现方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于两层聚类的多文档主题发现方法，其特征在于，步骤S1中，词义消歧处理的具体方法为：

3.根据权利要求2所述的基于两层聚类的多文档主题发现方法，其特征在于，词义相似度的计算方法为：

Sim (w_{1}, w_{2}) = Σ_{i = 1}^{3} α_{i} (Π_{j = 1}^{i} {Sim}_{j} (w_{1}, w_{2}))

其中，α_i为调节参数，且α₁+α₂+α₃＝1。

Sim (w, w^{'}) = \frac{1}{n^{2}} Σ_{i = 1}^{4} α_{i} (Π_{j = 1}^{i} {Sim}_{j} (w_{1}, w_{2})) .

4.根据权利要1所述的基于两层聚类的多文档主题发现方法，其特征在于，步骤S2中，采用改进的OPTICS算法对词语进行聚类分析具体为：

5.根据权利要求1所述的基于两层聚类的多文档主题发现方法，其特征在于，步骤S2中，对句子进行建立向量空间模型的具体方法为：

6.根据权利要求1所述的基于两层聚类的多文档主题发现方法，其特征在于，步骤S3中，采用了改进的k中心点算法对句子进行聚类分析，具体为：

S31、随机选取k个句子为中心点，代表了k个簇；

7.根据权利要求6所述的基于两层聚类的多文档主题发现方法，其特征还在于，步骤S33中，句子Sent_i到Sent_j之间的距离使用其语义概念向量间的修正余弦相似度来衡量，计算方法如下：

Sim (\overset{&RightArrow;}{{Sent}_{i}}, \overset{&RightArrow;}{{Sent}_{j}}) = \frac{Σ_{k = 1}^{n} (ω_{ki} - \overset{&OverBar;}{ω_{k}}) * (ω_{kj} - \overset{&OverBar;}{ω_{k}})}{\sqrt{Σ_{k = 1}^{n} {(ω_{ki} - \overset{&OverBar;}{ω_{k}})}^{2}} * \sqrt{Σ_{k = 1}^{n} {(ω_{kj} - \overset{&OverBar;}{ω_{k}})}^{2}}}