CN101436201A

CN101436201A - 一种变粒度文本聚类的特征量化方法

Info

Publication number: CN101436201A
Application number: CNA2008102095250A
Authority: CN
Inventors: 刘远超; 刘铭; 王晓龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2009-05-20

Abstract

本发明提供了一种变粒度文本聚类的特征量化方法，它通过下述步骤实现：1)文档关键词的概念扩展，利用知网，将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合；2)特征表示和相似度计算：词与词之间的相似度可以理解为其公共特征的重合度有多大。文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用，达到变粒度聚类的效果。本发明克服了已有的文档聚类系统由于特征量化不当导致的变粒度聚类时聚类效果较差的弊端。

Description

一种变粒度文本聚类的特征量化方法

(一)技术领域

本发明涉及一种变粒度文本聚类的特征量化技术。

(二)背景技术

近年来，可以很容易地从各种渠道获得数目惊人的文本文档。因此人们对发展能够帮助用户有效地导航、组织和总结这些文本信息技术的兴趣越来越强。高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇，使人们可以从宏观的角度来观察数据。这种技术能够提供导航和浏览机制，从而极大地改善检索性能。

面向互联网应用的文本聚类已经成为正在崛起并迅速被市场所认可的技术。例如，由美国CMU大学3名计算机科学家于2000年创立的聚类检索公司VIVISIMO中采用的文本聚类核心技术(http://vivisimo.com/)已经转让给包括波音公司、Airbus、USA.gov、Procter and Gamble等数百家用户，其中多数为全球财富五百强企业。美国著名企业家布莱德·格林斯潘投资创办的聚类检索系统BBMAO(http://www.bbmao.com)也有着独特的技术特色，目前正在迅速占领市场，并刚刚于2006年在中国登陆。再例如，YAHOO中国公司等门户网站每天都要获得大量的新闻和知识文档，需要上站。但这些信息的自动组织成为难题，以往一般是需要人力完成。

所谓文本聚类中的粒度，是指聚类处理生成的每个文档簇内部的文档之间的相似度情况，如果要求内部相似度必须较大，则一般会导致生成的文档簇的数目较多，且每个文档簇内部的文档数较少；如果要求内部相似度较小，则一般会导致生成的文档簇的数目较少，且每个文档簇内部的文档数较多。前者相当于在较小粒度下观察数据，后者相当于在较大粒度下观察数据。在文档数目较多的情况下，用户更喜欢从较宏观(大粒度)的角度观察数据，此时聚类处理的价值更加明显和突出。

很多文本聚类方法目前普遍采用的词频VSM建模方法在较大粒度聚类情况下，由于对语言现象不够敏感，难以捕捉到文档之间的共性特征，将导致聚类结果出现较多失误。因为在大粒度情况下，用户期望从更宏观的角度观察数据，此时原本彼此具有较少显式共性特征但语义关系密切的文档需要被划分到同一文档簇中，因此对语义的分析和共性知识的挖掘就显得非常必要。而在较小粒度的聚类情况下，由于分了较多的类，为了快速导航和浏览这些信息，也有必要考虑类间的关系，并尽可能将关系密切的类放在一起。

(三)发明内容

本发明的目的在于提供一种能够克服现有技术由于特征量化不当导致不同粒度下，特别是较大粒度下文本聚类效果较差弊端的变粒度文本聚类的特征量化技术。

本发明通过下述步骤实现：1)文档关键词的概念扩展。利用知网，将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合。例如，如果文档中出现“花卉”、“兰花”、“杜鹃”、“茶花”、“玫瑰”、“水仙”、“菊花”、“喇叭花”、“夹竹桃”、“灯芯草”之一，则由于其都可以视为一种花卉，因此可以映射为“花卉”一词；2).特征表示和相似度计算：词与词之间的相似度可以理解为其公共特征的重合度有多大。文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用，达到变粒度聚类的效果。

本发明还有这样一些技术特征：

1、所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度，定义文档d₁和d₂的综合相似度sim(d₁，d₂)为

sim(d₁，d₂)＝γ*sim₁(d₁，d₂)+(1-γ)sim₂(d₁，d₂)；

2、所述的每个神经元在两种不同特征空间上的向量构造与标准SOM方法完全相同，即都初始化为随机小数构成的向量，在模型训练过程中网络结构的动态更新时，网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值，模型训练结束后，每个神经元对应两个向量，一个为这个神经元节点所映射的全部文档词频向量的均值；另外一个是这个神经元节点所映射的全部特征扩展向量的均值；

3、所述的文档语义特征扩展的具体措施可以为：

1)找到文中重要的内容词，找到每个重要内容词所映射的上位概念，将其上位概念词放到概念向量中；

2)将每个重要内容词的领域相关词，将领域相关的代表词放到概念向量中；

4、所述的词一级的语义扩展主要利用词的相似性和相关性，将具有同义或者近义关系的词扩展为一个公共词，而具有较强相关性的词则扩展为能覆盖其公共特征的词。

本发明的技术特点有：一、利用知识词典，给出上位概念词扩展和相关词扩展技术；二、基于步骤一的词扩展方法，从文档中抽取出若干关键词进行语义扩展并据此构造扩展特征空间；三、在聚类中融入扩展特征相似度，以提高聚类系统的语义敏感能力，较好的应对由于语言表达复杂多样性所带来的不利影响，满足在不同粒度下观察文本信息的要求；四、给出了特征量化技术与具体聚类算法相结合的具体措施。

本发明的方法采用了语义扩展技术，其基本原理是对文档中提取的若干关键词(小于10个)进行上位概念扩展或者相关性映射，由于相同文档或者不同文档中的不同词映射的上位概念词可能会相同，且相关性映射存在对称关系，因此扩展特征空间的维数远小于传统特征空间，使得本发明方法不但可以较好的取得变粒度聚类的实际效果，且其对聚类效率影响也被降低到最低点。

本发明的方法克服了传统文本聚类方法采用VSM(vector space model，向量空间模型)方法由于量化过于粗糙导致变粒度文本聚类效果较差的问题。一个明显的进步是在较大粒度聚类情况下，聚类F值较同类方法有明显提高。

聚类F值的计算方法：用聚类F值对文档聚类的综合质量进行评价。对于聚类生成的某一个聚类类别r和原来的预定类别s，召回率recall和精确率precision的定义分别为：

recall(r，s)＝n(r，s)/n_s (1)

precision(r，s)＝n(r，s)/n_r (2)

其中n(r，s)是聚类后的类别r和预定义类别s中的公共文档个数。n_r是聚类类别r中的文档个数，n_s是预定义类别s中的文档个数。定义F(r，s)为

F(r，s)＝(2*recall(r，s)*precision(r，s))/((precison(r，s)+recall(r，s)) (3)

则聚类结果的总体评价函数为

F = \underset{i}{Σ} \frac{n_{i}}{n} \max {F (i, j)} - - - (4)

这里，n是聚类的输入文档个数。而n_i表示预定义类别i中的文档个数。

(四)附图说明

图1是文档关键词集合的概念扩展原理示意图；

图2是词与词之间的相似关系示意图；

图3是文档与文档之间的相似关系示意图。

(五)具体实施方式

下面结合图1至图3和具体实施例对本发明作进一步的说明：

本实施例的方法通过下述步骤实现：

一、文档关键词的概念扩展(如图1所示)。利用知网，将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合。例如，如果文档中出现“花卉”、“兰花”、“杜鹃”、“茶花”、“玫瑰”、“水仙”、“菊花”、“喇叭花”、“夹竹桃”、“灯芯草”之一，则由于其都可以视为一种花卉，因此可以映射为“花卉”一词；

虽然从表面上看，词语的语义扩展将词从一个元素个数较多的集合映射到另一个元素个数较少的集合，会丢失一些词的个性特征信息，但通过扩展，抓住了词与词之间的相近或相关等特征，从而反映了一些共性的特征，这与文本聚类技术的目标是一致的。

知网可以在处理概念的相关性问题上为文本聚类提供更加丰富的资源支持，因此可以与词林的作用互相补充。按照相关程度的大小，知网提供了最多三层的相关概念场方案：对于知网中收录的词，在指定相关概念场层级数后，可以得到在该层级下与该词条相关的所有词语。其中第一层下的词语相关程度较强，而其他二层下的关联关系则较弱，因此考虑到文本聚类的实际应用需要，选择知网中词条到第一层相关词的映射关系作为特征扩展的另外一个知识源。在知网的相关概念场方案中，相关词在多数情况下存在对偶关系，即在层级确定情况下对于该集合中的任意一个概念词，获取的相关词集合一般仍为此集合。如果同一文档中存在多个彼此比较相关的词，则其映射的相关词集合的代表词也相同，因此可以选择满足映射关系的相关词集合中的第一个词作为概念相关的代表词。

通过这种处理，每个文档除了目前普遍被采用的用于体现文档间公共词条关系的单纯词频向量外，本发明增加了一个用于捕捉文档间语义联系的特征扩展向量。因此文本聚类所对应的聚类特征空间也增加了一个特征扩展空间。

二.特征表示和相似度计算：词与词之间的相似度可以理解为其公共特征的重合度有多大。结合图2，图2为词与词之间的相似度可以简单理解为特征的重合度。两个词之间的特征重合度越大，其相似度越大。推而广之，文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。

通过引入基于特征扩展的概念空间，可以使文档之间的共性信息得以在文本聚类中得以体现，有助于克服目前普遍采用的单纯将词频信息作为文本主要特征的做法的不足。此外，这二种不同的聚类特征空间在文本聚类中的作用也是可以互相补充的。

为了与传统的文档相似度计算方法兼容，通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度。例如，可以定义文档d₁和d₂的综合相似度sim(d₁，d₂)为

sim(d₁，d₂)＝γ*sim₁(d₁，d₂)+(1-γ)sim₂(d₁，d₂) (5)

其中，sim₁(d₁，d₂)和sim₂(d₁，d₂)可以通过余弦公式或者其他相似度计算方法获得，此外也可以用于计算文档与文档簇之间的相似度。公式右边第一项为采用传统词频向量空间计算得到的相似度，第二项为在特征扩展空间计算得到的相似度。γ的主要作用是调节sim₁(d₁，d₂)和sim₂(d₁，d₂)的权重，即调节语义知识的影响程度和聚类处理的粒度。当γ＝0时，只将在特征扩展空间上的相似度作为聚类的距离测度，相当于在较大的粒度和在较宏观的层面观察文档集合；当γ＝1时，公式(1)蜕变为只将基于词频的文档相似度作为聚类的距离测度，此时系统蜕化为原来的传统模式，因此特征扩展的模式与其它模式是兼容的。

结合图3，文档与文档之间的相似度可以理解为特征的重合度。特征的重合度越大，其相似度越大。图中文档D1和D4虽然没有发生表面上的部分重合，但却可能通过语义公共特征的挖掘拉近彼此的距离，此外，在聚类过程中，某些文档如D1、D2、D3会由于距离某个节点较近而被聚在一起，并使节点反映出这些文档的部分特征，从而会拉近另外一些文档如D4与该节点的距离，并最终使D1、D2、D3和D4被映射到同一节点上。其它文档如D5和D6由于与前几个文档没有公共特征或者较少公共特征，与D1、D2、D3和D4的距离不会被拉近，因此最终仍然保持分离状态。

三.本发明中涉及的变粒度文本聚类特征量化技术与具体聚类算法的结合使用方法：

以与SOM模型(Self organizing maps，动态自组织映射模型)相结合为例，介绍本发明中涉及的变粒度文本聚类特征量化技术与具体聚类算法的结合使用方法。SOM与众所周知的k-means方法具有某种共同之处，经过充分训练，SOM的输出层的节点成为对特定模式类敏感的神经细胞，对应的向量则成为各个输入模式类的中心向量，因此可以起到聚类作用。

在特征扩展模式下，网络结构中的文档和神经元都可以表示成两个空间上的向量。其中文档在两个空间(词频空间和扩展特征空间)上的向量构造方法和相似度计算方法可以如前文所示。每个神经元在两种不同特征空间上的向量构造可以与标准SOM方法完全相同，即都初始化为随机小数构成的向量。在模型训练过程中网络结构的动态更新时，网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值。模型训练结束后，每个神经元对应两个向量，一个为这个神经元节点所映射的全部文档词频向量的均值；另外一个是这个神经元节点所映射的全部特征扩展向量的均值。两者反映了该神经元节点所映射的全部文档的共性信息。

从具体结合方案来看，特征扩展思想与聚类系统具有较强的独立性，因此本发明中涉及的变粒度文本聚类特征量化技术实际上可以非常容易的应用到其他聚类系统中。

本发明的应用过程是：用户输入检索词给搜索引擎，搜索引擎通过检索将找到的结果返回，这些返回的文档将作为本发明聚类方法的输入，使得返回的结果被分类处理，通过调节参数，可以调节聚类处理的粒度，进而方便用户从不同的角度进行观察和检索所需文档，改善了可视化效果，从而提高检索效率。

Claims

1、一种变粒度文本聚类的特征量化方法，其特征在于它通过下述步骤实现：1)文档关键词的概念扩展，利用知网，将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合；2)特征表示和相似度计算：词与词之间的相似度为其公共特征的重合度有多大，文本聚类应用中文档之间以及文档簇之间的相似度大小也可以通过考察文档之间公共特征的多少来判定；3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用，达到变粒度聚类的效果。

2、根据权利要求1所述的一种变粒度文本聚类的特征量化方法，其特征在于所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度，定义文档d₁和d₂的综合相似度sim(d₁，d₂)为

sim(d₁，d₂)＝γ*sfm₁(d₁，d₂)+(1-γ)sim₂(d₁，d₂)。

3、根据权利要求1所述的一种变粒度文本聚类的特征量化方法，其特征在于所述的每个神经元在两种不同特征空间上的向量构造与标准SOM方法完全相同，即都初始化为随机小数构成的向量，在模型训练过程中网络结构的动态更新时，网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值，模型训练结束后，每个神经元对应两个向量，一个为这个神经元节点所映射的全部文档词频向量的均值；另外一个是这个神经元节点所映射的全部特征扩展向量的均值。

4、根据权利要求1所述的一种变粒度文本聚类的特征量化方法，其特征在于所述的文档语义特征扩展的具体措施可以为：

2)将每个重要内容词的领域相关词，将领域相关的代表词放到概念向量中。

5、根据权利要求1所述的一种变粒度文本聚类的特征量化方法，其特征在于所述的词一级的语义扩展主要利用词的语义关系，将具有较强相关性的词则扩展为能覆盖其公共特征的词。