CN102915341A

CN102915341A - 基于动态话题模型的动态文本聚类装置及其方法

Info

Publication number: CN102915341A
Application number: CN2012103540093A
Authority: CN
Inventors: 李德聪; 杨青
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2013-02-06

Abstract

本发明公开了一种基于动态话题模型的动态文本聚类装置及其方法，该装置包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块，其中：新闻采集模块，用于采集互联网上的新闻数据；新闻初始特征提取模块，用于对所采集的新闻数据进行初始特征提取；动态特征变换模块，用于对提取的初始特征做动态特征变换；以及动态聚类模块，用于对新闻数据集，基于变换后的特征做动态聚类。采用本发明，能够解决动态文本数据集的有效聚类问题，以实现动态话题模型和动态聚类算法的结合，解决传统基于term的文本特征所固有的一词多义、一义多词、数据稀疏、特征维数灾难等问题。

Description

基于动态话题模型的动态文本聚类装置及其方法

技术领域

本发明涉及机器学习和模式识别技术，尤其涉及一种基于动态话题模型的动态文本聚类装置及其方法。

背景技术

随着信息技术的爆炸式发展，计算机要处理的文本在快速增长。文本聚类是一种常见的文本处理方式，它把从某一角度来讲比较相似的文本聚拢在一起，即可能作为一种直接输出的信息，也可能作为对文本的进一步处理的基础，具有重要意义。

文本大多是用自然语言形式描述的，要进行聚类，必须对其抽取特征，转化成量化的描述。然而，常规的特征抽取方法很难避免数据稀疏、特征维度过高、一词多义、一义多词等问题，给后续的聚类带来很大不利影响。为此，一些学者提出了若干特征变换（降维）方法，如潜语义分析（LSA）、概率潜语义分析（PLSA）、潜狄利克雷分配（LDA）等，在很大程度上解决了此类问题。遗憾的是，这些方法只能一次性处理一批文本，在互联网环境下，数据往往是动态的，即随着时间推移，有新的数据陆续到来，就有数据不断的被淘汰，给特征变换方法的应用造成极大困难。同时，由于处理动态数据的聚类算法和常规（一次性处理静态数据）的聚类算法有不同特性，对动态数据做特征变换后，还要满足后续处理动态数据的聚类算法的要求，难度进一步增大。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于动态话题模型的动态文本聚类装置及其方法，解决动态文本数据集的有效聚类问题，以实现动态话题模型和动态聚类算法的结合，解决传统基于term的文本特征所固有的一词多义、一义多词、数据稀疏、特征维数灾难等问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于动态话题模型的动态文本聚类装置，包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块，其中：

新闻采集模块，用于采集互联网上的新闻数据；

新闻初始特征提取模块，用于对所采集的新闻数据进行初始特征提取；

动态特征变换模块，用于对提取的初始特征做动态特征变换；以及

动态聚类模块，用于对新闻数据集，基于变换后的特征做动态聚类。

其中：所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式。

所述的其他数据形式包括视频、图片和结构化信息。

一种基于动态话题模型的动态文本聚类方法，包括如下步骤：

A、采集互联网上新闻数据的步骤；

B、对预设周期内的增量新闻数据做初始特征提取的步骤；

C、对本周期内增量新闻数据用动态话题模型作特征变换的步骤；

D、对本周期内经特征变换的新闻数据和已有聚类结果进行动态聚类的步骤。

其中：步骤A中所述从互联网采集到的新闻数据为文本、超文本或其他数据形式，包括微博、视频图片或其他结构化信息。

步骤B所述对预设周期内的增量新闻数据作初始特征提取，具体为：

对新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并的步骤，将处理的结果以词或短语为单位，称为token，对每个token，依据其频率、分布、在文中的位置、词性和专名类型的信息，确定其权重，然后再将各token及其分值构造成一个基于向量空间模型的初始特征向量。

步骤C所述对本周期内增量新闻数据用动态话题模型作特征变换，采用增量式概率潜语义分析IPLSA模型进行特征变换，通过该模型将每个新闻数据表示成一组隐变量组成的特征向量，具体为：

C1、在聚类结果即簇的集合中，找出长时间无变化的簇，在IPLSA话题模型中，清除该簇包含的新闻数据，修改其相应的参数；

C2、对本周期新增的新闻及新出现的token，使用EM算法将其切拌进模型中，更新新增新闻的参数；

C3、使用EM算法更新整个模型的参数；

C4、直接取新模型中各新增的新闻对应的参数，组成的向量即为变换后的特征向量。

步骤D对本周期内经特征变换的新闻数据和已有聚类结果即簇执行动态聚类，具体为：

D1、去除长时间没有变化的聚类结果即簇；

D2、对本周期内新增的各条新闻数据的变换后的特征向量进行非加权组中心UPGMC聚类，所述的聚类结果中的每个集合即簇均拥有一个中心向量，并根据所述中心向量计算两个簇的中心向量的余弦相似度；

D3、对上述产生的每一个簇，找出现有簇的集合中与该簇的相似度最大的簇；其相似度的计算方法仍采用余弦相似度；若该相似度大于预定阀值，就将对应的两个簇合并；否则，将该簇加入现有簇的集合；

D4、对现有的簇再进行一次UPGMC聚类，该过程同样采用余弦相似度计算簇的相似度。

本发明所提供的基于动态话题模型的动态文本聚类装置及其方法，具有以下优点：

本发明实现了动态话题模型和动态聚类算法的结合。通过采用增量式概率潜语义分析（IPLSA，Incremental Probabilistic Latent Semantic Analysis）技术，解决动态数据的特征变换问题，并将其与一种基于层次聚类算法的动态聚类算法相结合，对文本数据进行动态聚类时，基于该动态话题模型—IPLSA模型对初始特征向量做变换，有效缓解了传统的基于term的特征所造成的一词多义、一义多词、数据稀疏、维数灾难等问题，提高了聚类效果。同时，还有效降低了常规PLSA算法的巨大开销。并且，对增量文本变换产生的特征向量和对既有文本变换产生的特征向量保持在同一空间内，可以直接进行比较，从而保证了增量聚类过程中新旧数据的可比较性。

附图说明

图1为本发明实施例的基于动态话题模型的动态文本聚类装置的组成示意图；

图2为本发明基于动态话题模型的动态文本聚类方法的总体流程示意图；

图3为图2所示的特征变换流程示意图；

图4为图2所示的动态聚类流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的装置及其方法作进一步详细的说明。

图1为本发明实施例的基于动态话题模型的动态文本聚类装置的组成示意图，如图1所示，该装置主要包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块；其中：

所述新闻采集模块，用于采集互联网上的新闻数据。

新闻初始特征提取模块，用于对所采集的新闻数据进行初始特征提取。

动态特征变换模块（reduce），用于对提取的初始特征做动态特征变换。

其中，所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式，所述的其他数据形式还包括视频、图片和结构化信息等。

所述的基于动态话题模型的动态文本聚类装置，其新闻并不限于新闻文本，甚至不局限于文本这一数据形式。对于其他形式的数据，如微博、视频、图片、结构化信息等，只要待处理的数据被抽象为特征向量，并采用了与本发明类似的方法进行动态特征变换和动态聚类，均应包括在本发明技术的涵盖范围内。

上述的装置经实际实验表明，可以有效解决新闻类文本的动态聚类问题。

图2为本发明基于动态话题模型的动态文本聚类方法的总体流程示意图，如图2所示，包括如下主要步骤：

步骤S1：采集互联网上的新闻数据。

步骤S2：对本周期内增量新闻做初始特征提取。具体包括：对本周期新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并等步骤，处理的结果以词或短语为单位，统称为token，对每个token，依据其频率、分布、在文中的位置、词性、专名类型等信息，确定其权重。再把各token及其分值构造成一个基于向量空间模型的初始特征向量。

步骤S3：对本周期内增量新闻用动态话题模型做特征变换，对本周期内增量新闻用增量话题模型作特征变换，本发明实施例中采用增量式概率潜语义分析（IPLSA，Incremental Probabilistic Latent Semantic Analysis）模型进行特征变换，该模型可以把每个新闻表示成一组隐变量组成的特征向量。如图3所示，该过程具体包括：

步骤S31：在聚类结果（即簇）集合中，找出长时间没有变化的簇，在IPLSA特征变换模型中，清除这些簇所包含的新闻数据，修改其相应的参数。

步骤S32：对于本周期新增的新闻及新出现的token（以初始特征向量表示），使用EM算法将其切拌（fold in）进特征变换模型中，更新新增新闻的参数。

步骤S33：使用EM算法更新整个特征变换模型的参数。

步骤S34：直接取新模型中各新增的新闻对应的参数，组成的向量即为变换后的特征向量。

步骤S4：对本周期内经特征变换的新闻数据和已有聚类结果（即簇）进行动态聚类，如图4所示，该过程包括：

步骤S41：去除长时间没有变化的聚类结果（称为簇）。

步骤S42：对本周期内新增的各条新闻的（变换后的）特征向量进行UPGMC聚类，在该算法中，聚类结果中的每个集合（称为簇）都拥有一个中心向量。并依据中心向量计算相似度。这里，其相似度的计算方法为采用两个簇的中心向量的余弦相似度。

步骤S43：对步骤S42中产生的每一个簇，找出现有簇集合中与该簇的相似度最大的簇。相似度的计算方法为仍余弦相似度。如果该相似度大于预定阀值，就对应的两个簇合并。否则，该簇被加入现有簇集合。

步骤S44：对现有簇再进行一次UPGMC聚类，该过程同样采用余弦相似度计算簇的相似度。

本发明通过上述基于动态话题模型的动态文本聚类装置及其方法，用以处理网络新闻数据，由于网络新闻不断产生，不可能一次性完成聚类，因此本发明需要周期性地执行上述步骤S1～步骤S4。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于动态话题模型的动态文本聚类装置，其特征在于，包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块，其中：

新闻采集模块，用于采集互联网上的新闻数据；

2. 根据权利要求1所述的基于动态话题模型的动态文本聚类装置，其特征在于，所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式。

3.根据权利要求2所述的基于动态话题模型的动态文本聚类装置，其特征在于，所述的其他数据形式包括视频、图片和结构化信息。

4.一种基于动态话题模型的动态文本聚类方法，其特征在于，包括如下步骤：

A、采集互联网上新闻数据的步骤；

B、对预设周期内的增量新闻数据做初始特征提取的步骤；

5.根据权利要求4所述的基于动态话题模型的动态文本聚类方法，其特征在于，步骤A中所述从互联网采集到的新闻数据为文本、超文本或其他数据形式，包括微博、视频图片或其他结构化信息。

6.根据权利要求4所述的基于动态话题模型的动态文本聚类方法，其特征在于，步骤B所述对预设周期内的增量新闻数据作初始特征提取，具体为：

7.根据权利要求4所述的基于动态话题模型的动态文本聚类方法，其特征在于，步骤C所述对本周期内增量新闻数据用动态话题模型作特征变换，采用增量式概率潜语义分析IPLSA模型进行特征变换，通过该模型将每个新闻数据表示成一组隐变量组成的特征向量，具体为：

C3、使用EM算法更新整个模型的参数；

8.根据权利要求4所述的基于动态话题模型的动态文本聚类方法，其特征在于，步骤D对本周期内经特征变换的新闻数据和已有聚类结果即簇执行动态聚类，具体为：

D1、去除长时间没有变化的聚类结果即簇；