CN102915341A - 基于动态话题模型的动态文本聚类装置及其方法 - Google Patents

基于动态话题模型的动态文本聚类装置及其方法 Download PDF

Info

Publication number
CN102915341A
CN102915341A CN2012103540093A CN201210354009A CN102915341A CN 102915341 A CN102915341 A CN 102915341A CN 2012103540093 A CN2012103540093 A CN 2012103540093A CN 201210354009 A CN201210354009 A CN 201210354009A CN 102915341 A CN102915341 A CN 102915341A
Authority
CN
China
Prior art keywords
dynamic
news
bunch
data
topic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103540093A
Other languages
English (en)
Inventor
李德聪
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PEOPLE SEARCH NETWORK AG
Original Assignee
PEOPLE SEARCH NETWORK AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE SEARCH NETWORK AG filed Critical PEOPLE SEARCH NETWORK AG
Priority to CN2012103540093A priority Critical patent/CN102915341A/zh
Publication of CN102915341A publication Critical patent/CN102915341A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于动态话题模型的动态文本聚类装置及其方法,该装置包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块,其中:新闻采集模块,用于采集互联网上的新闻数据;新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取;动态特征变换模块,用于对提取的初始特征做动态特征变换;以及动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。采用本发明,能够解决动态文本数据集的有效聚类问题,以实现动态话题模型和动态聚类算法的结合,解决传统基于term的文本特征所固有的一词多义、一义多词、数据稀疏、特征维数灾难等问题。

Description

基于动态话题模型的动态文本聚类装置及其方法
技术领域
 本发明涉及机器学习和模式识别技术,尤其涉及一种基于动态话题模型的动态文本聚类装置及其方法。
背景技术
 随着信息技术的爆炸式发展,计算机要处理的文本在快速增长。文本聚类是一种常见的文本处理方式,它把从某一角度来讲比较相似的文本聚拢在一起,即可能作为一种直接输出的信息,也可能作为对文本的进一步处理的基础,具有重要意义。
文本大多是用自然语言形式描述的,要进行聚类,必须对其抽取特征,转化成量化的描述。然而,常规的特征抽取方法很难避免数据稀疏、特征维度过高、一词多义、一义多词等问题,给后续的聚类带来很大不利影响。为此,一些学者提出了若干特征变换(降维)方法,如潜语义分析(LSA)、概率潜语义分析(PLSA)、潜狄利克雷分配(LDA)等,在很大程度上解决了此类问题。遗憾的是,这些方法只能一次性处理一批文本,在互联网环境下,数据往往是动态的,即随着时间推移,有新的数据陆续到来,就有数据不断的被淘汰,给特征变换方法的应用造成极大困难。同时,由于处理动态数据的聚类算法和常规(一次性处理静态数据)的聚类算法有不同特性,对动态数据做特征变换后,还要满足后续处理动态数据的聚类算法的要求,难度进一步增大。
发明内容
 有鉴于此,本发明的主要目的在于提供一种基于动态话题模型的动态文本聚类装置及其方法,解决动态文本数据集的有效聚类问题,以实现动态话题模型和动态聚类算法的结合,解决传统基于term的文本特征所固有的一词多义、一义多词、数据稀疏、特征维数灾难等问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于动态话题模型的动态文本聚类装置,包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块,其中:
新闻采集模块,用于采集互联网上的新闻数据;
新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取;
动态特征变换模块,用于对提取的初始特征做动态特征变换;以及
动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。
其中:所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式。
所述的其他数据形式包括视频、图片和结构化信息。
一种基于动态话题模型的动态文本聚类方法,包括如下步骤:
A、采集互联网上新闻数据的步骤;
B、对预设周期内的增量新闻数据做初始特征提取的步骤;
C、对本周期内增量新闻数据用动态话题模型作特征变换的步骤;
D、对本周期内经特征变换的新闻数据和已有聚类结果进行动态聚类的步骤。
其中:步骤A中所述从互联网采集到的新闻数据为文本、超文本或其他数据形式,包括微博、视频图片或其他结构化信息。
步骤B所述对预设周期内的增量新闻数据作初始特征提取,具体为:
对新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并的步骤,将处理的结果以词或短语为单位,称为token,对每个token,依据其频率、分布、在文中的位置、词性和专名类型的信息,确定其权重,然后再将各token及其分值构造成一个基于向量空间模型的初始特征向量。
步骤C所述对本周期内增量新闻数据用动态话题模型作特征变换,采用增量式概率潜语义分析IPLSA模型进行特征变换,通过该模型将每个新闻数据表示成一组隐变量组成的特征向量,具体为:
C1、在聚类结果即簇的集合中,找出长时间无变化的簇,在IPLSA话题模型中,清除该簇包含的新闻数据,修改其相应的参数;
C2、对本周期新增的新闻及新出现的token,使用EM算法将其切拌进模型中,更新新增新闻的参数;
C3、使用EM算法更新整个模型的参数;
C4、直接取新模型中各新增的新闻对应的参数,组成的向量即为变换后的特征向量。
步骤D对本周期内经特征变换的新闻数据和已有聚类结果即簇执行动态聚类,具体为:
D1、去除长时间没有变化的聚类结果即簇;
D2、对本周期内新增的各条新闻数据的变换后的特征向量进行非加权组中心UPGMC聚类,所述的聚类结果中的每个集合即簇均拥有一个中心向量,并根据所述中心向量计算两个簇的中心向量的余弦相似度; 
D3、对上述产生的每一个簇,找出现有簇的集合中与该簇的相似度最大的簇;其相似度的计算方法仍采用余弦相似度;若该相似度大于预定阀值,就将对应的两个簇合并;否则,将该簇加入现有簇的集合;
D4、对现有的簇再进行一次UPGMC聚类,该过程同样采用余弦相似度计算簇的相似度。
本发明所提供的基于动态话题模型的动态文本聚类装置及其方法,具有以下优点:
本发明实现了动态话题模型和动态聚类算法的结合。通过采用增量式概率潜语义分析(IPLSA,Incremental Probabilistic Latent Semantic Analysis)技术,解决动态数据的特征变换问题,并将其与一种基于层次聚类算法的动态聚类算法相结合,对文本数据进行动态聚类时,基于该动态话题模型—IPLSA模型对初始特征向量做变换,有效缓解了传统的基于term的特征所造成的一词多义、一义多词、数据稀疏、维数灾难等问题,提高了聚类效果。同时,还有效降低了常规PLSA算法的巨大开销。并且,对增量文本变换产生的特征向量和对既有文本变换产生的特征向量保持在同一空间内,可以直接进行比较,从而保证了增量聚类过程中新旧数据的可比较性。
附图说明
图1为本发明实施例的基于动态话题模型的动态文本聚类装置的组成示意图;
图2为本发明基于动态话题模型的动态文本聚类方法的总体流程示意图;
图3为图2所示的特征变换流程示意图;
图4为图2所示的动态聚类流程示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的装置及其方法作进一步详细的说明。
图1为本发明实施例的基于动态话题模型的动态文本聚类装置的组成示意图,如图1所示,该装置主要包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块;其中:
所述新闻采集模块,用于采集互联网上的新闻数据。
新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取。
动态特征变换模块(reduce),用于对提取的初始特征做动态特征变换。
动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。
其中,所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式,所述的其他数据形式还包括视频、图片和结构化信息等。
所述的基于动态话题模型的动态文本聚类装置,其新闻并不限于新闻文本,甚至不局限于文本这一数据形式。对于其他形式的数据,如微博、视频、图片、结构化信息等,只要待处理的数据被抽象为特征向量,并采用了与本发明类似的方法进行动态特征变换和动态聚类,均应包括在本发明技术的涵盖范围内。
上述的装置经实际实验表明,可以有效解决新闻类文本的动态聚类问题。
图2为本发明基于动态话题模型的动态文本聚类方法的总体流程示意图,如图2所示,包括如下主要步骤:
步骤S1:采集互联网上的新闻数据。
步骤S2:对本周期内增量新闻做初始特征提取。具体包括:对本周期新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并等步骤,处理的结果以词或短语为单位,统称为token,对每个token,依据其频率、分布、在文中的位置、词性、专名类型等信息,确定其权重。再把各token及其分值构造成一个基于向量空间模型的初始特征向量。
步骤S3:对本周期内增量新闻用动态话题模型做特征变换,对本周期内增量新闻用增量话题模型作特征变换,本发明实施例中采用增量式概率潜语义分析(IPLSA,Incremental Probabilistic Latent Semantic Analysis)模型进行特征变换,该模型可以把每个新闻表示成一组隐变量组成的特征向量。如图3所示,该过程具体包括:
步骤S31:在聚类结果(即簇)集合中,找出长时间没有变化的簇,在IPLSA特征变换模型中,清除这些簇所包含的新闻数据,修改其相应的参数。
步骤S32:对于本周期新增的新闻及新出现的token(以初始特征向量表示),使用EM算法将其切拌(fold in)进特征变换模型中,更新新增新闻的参数。
步骤S33:使用EM算法更新整个特征变换模型的参数。
步骤S34:直接取新模型中各新增的新闻对应的参数,组成的向量即为变换后的特征向量。
步骤S4:对本周期内经特征变换的新闻数据和已有聚类结果(即簇)进行动态聚类,如图4所示,该过程包括:
步骤S41:去除长时间没有变化的聚类结果(称为簇)。
步骤S42:对本周期内新增的各条新闻的(变换后的)特征向量进行UPGMC聚类,在该算法中,聚类结果中的每个集合(称为簇)都拥有一个中心向量。并依据中心向量计算相似度。这里,其相似度的计算方法为采用两个簇的中心向量的余弦相似度。
步骤S43:对步骤S42中产生的每一个簇,找出现有簇集合中与该簇的相似度最大的簇。相似度的计算方法为仍余弦相似度。如果该相似度大于预定阀值,就对应的两个簇合并。否则,该簇被加入现有簇集合。
步骤S44:对现有簇再进行一次UPGMC聚类,该过程同样采用余弦相似度计算簇的相似度。
本发明通过上述基于动态话题模型的动态文本聚类装置及其方法,用以处理网络新闻数据,由于网络新闻不断产生,不可能一次性完成聚类,因此本发明需要周期性地执行上述步骤S1~步骤S4。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种基于动态话题模型的动态文本聚类装置,其特征在于,包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块,其中:
新闻采集模块,用于采集互联网上的新闻数据;
新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取;
动态特征变换模块,用于对提取的初始特征做动态特征变换;以及
动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。
2. 根据权利要求1所述的基于动态话题模型的动态文本聚类装置,其特征在于,所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式。
3.根据权利要求2所述的基于动态话题模型的动态文本聚类装置,其特征在于,所述的其他数据形式包括视频、图片和结构化信息。
4.一种基于动态话题模型的动态文本聚类方法,其特征在于,包括如下步骤:
A、采集互联网上新闻数据的步骤;
B、对预设周期内的增量新闻数据做初始特征提取的步骤;
C、对本周期内增量新闻数据用动态话题模型作特征变换的步骤;
D、对本周期内经特征变换的新闻数据和已有聚类结果进行动态聚类的步骤。
5.根据权利要求4所述的基于动态话题模型的动态文本聚类方法,其特征在于,步骤A中所述从互联网采集到的新闻数据为文本、超文本或其他数据形式,包括微博、视频图片或其他结构化信息。
6.根据权利要求4所述的基于动态话题模型的动态文本聚类方法,其特征在于,步骤B所述对预设周期内的增量新闻数据作初始特征提取,具体为:
对新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并的步骤,将处理的结果以词或短语为单位,称为token,对每个token,依据其频率、分布、在文中的位置、词性和专名类型的信息,确定其权重,然后再将各token及其分值构造成一个基于向量空间模型的初始特征向量。
7.根据权利要求4所述的基于动态话题模型的动态文本聚类方法,其特征在于,步骤C所述对本周期内增量新闻数据用动态话题模型作特征变换,采用增量式概率潜语义分析IPLSA模型进行特征变换,通过该模型将每个新闻数据表示成一组隐变量组成的特征向量,具体为:
C1、在聚类结果即簇的集合中,找出长时间无变化的簇,在IPLSA话题模型中,清除该簇包含的新闻数据,修改其相应的参数;
C2、对本周期新增的新闻及新出现的token,使用EM算法将其切拌进模型中,更新新增新闻的参数;
C3、使用EM算法更新整个模型的参数;
C4、直接取新模型中各新增的新闻对应的参数,组成的向量即为变换后的特征向量。
8.根据权利要求4所述的基于动态话题模型的动态文本聚类方法,其特征在于,步骤D对本周期内经特征变换的新闻数据和已有聚类结果即簇执行动态聚类,具体为:
D1、去除长时间没有变化的聚类结果即簇;
D2、对本周期内新增的各条新闻数据的变换后的特征向量进行非加权组中心UPGMC聚类,所述的聚类结果中的每个集合即簇均拥有一个中心向量,并根据所述中心向量计算两个簇的中心向量的余弦相似度; 
D3、对上述产生的每一个簇,找出现有簇的集合中与该簇的相似度最大的簇;其相似度的计算方法仍采用余弦相似度;若该相似度大于预定阀值,就将对应的两个簇合并;否则,将该簇加入现有簇的集合;
D4、对现有的簇再进行一次UPGMC聚类,该过程同样采用余弦相似度计算簇的相似度。
CN2012103540093A 2012-09-21 2012-09-21 基于动态话题模型的动态文本聚类装置及其方法 Pending CN102915341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103540093A CN102915341A (zh) 2012-09-21 2012-09-21 基于动态话题模型的动态文本聚类装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103540093A CN102915341A (zh) 2012-09-21 2012-09-21 基于动态话题模型的动态文本聚类装置及其方法

Publications (1)

Publication Number Publication Date
CN102915341A true CN102915341A (zh) 2013-02-06

Family

ID=47613708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103540093A Pending CN102915341A (zh) 2012-09-21 2012-09-21 基于动态话题模型的动态文本聚类装置及其方法

Country Status (1)

Country Link
CN (1) CN102915341A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361507A (zh) * 2014-11-20 2015-02-18 携程计算机技术(上海)有限公司 商品推荐方法及系统
CN106874292A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 话题处理方法及装置
CN115344693A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
US20110099205A1 (en) * 2008-06-20 2011-04-28 Technion Research & Development Foundation Ltd. Incremental clustering of indexed xml data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099205A1 (en) * 2008-06-20 2011-04-28 Technion Research & Development Foundation Ltd. Incremental clustering of indexed xml data
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MAXIMILIAN VIERMETZ ET AL.: "Tracking Topic Evolution in News Environments", 《10TH IEEE CONFERENCE ON E-COMMERCE TECHNOLOGY》 *
张鑫: "层次聚类算法的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
殷风景等: "一种面向网络话题发现的增量文本聚类算法", 《计算机应用研究》 *
马慧芳等: "融合链接文本的增量联合主题模型", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361507A (zh) * 2014-11-20 2015-02-18 携程计算机技术(上海)有限公司 商品推荐方法及系统
CN106874292A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 话题处理方法及装置
CN106874292B (zh) * 2015-12-11 2020-05-05 北京国双科技有限公司 话题处理方法及装置
CN115344693A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法
CN115344693B (zh) * 2022-07-11 2023-05-12 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法

Similar Documents

Publication Publication Date Title
Li et al. Filtering out the noise in short text topic modeling
US10824816B2 (en) Semantic parsing method and apparatus
CN102073729B (zh) 一种关系化知识共享平台及其实现方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN105335349A (zh) 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN105701223A (zh) 基于Spark Streaming的财经信息情感趋势分析方法
CN106682123A (zh) 一种获取热点事件的方法及装置
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
Fu et al. Improving distributed word representation and topic model by word-topic mixture model
CN102682074A (zh) 一种基于流形学习的产品隐式属性识别方法
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN102915341A (zh) 基于动态话题模型的动态文本聚类装置及其方法
Alnajran et al. A heuristic based pre-processing methodology for short text similarity measures in microblogs
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
CN104331396A (zh) 一种智能识别广告的方法
Asubiaro Entropy-based generic stopwords list for Yoruba texts
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130206