CN103970865A - 基于种子词的微博文本层次主题发现方法及系统 - Google Patents

基于种子词的微博文本层次主题发现方法及系统 Download PDF

Info

Publication number
CN103970865A
CN103970865A CN201410193725.7A CN201410193725A CN103970865A CN 103970865 A CN103970865 A CN 103970865A CN 201410193725 A CN201410193725 A CN 201410193725A CN 103970865 A CN103970865 A CN 103970865A
Authority
CN
China
Prior art keywords
level
microblogging text
seed word
noun
priori
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410193725.7A
Other languages
English (en)
Other versions
CN103970865B (zh
Inventor
徐华
王玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410193725.7A priority Critical patent/CN103970865B/zh
Publication of CN103970865A publication Critical patent/CN103970865A/zh
Application granted granted Critical
Publication of CN103970865B publication Critical patent/CN103970865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于种子词的微博文本层次主题发现方法,包括以下步骤:从互联网上获取数据信息,其中,数据信息包括微博文本;对微博文本进行分析以获取种子词簇,并将种子词簇作为先验知识;对微博文本进行层次主题聚类以生成层次主题模型;以及将先验知识集成至层次主题模型中以对微博文本层次主题进行发现。本发明实施例的方法能够快速的从海量的微博文本中挖掘文本的层次主题及话题分布,并且便于发布话题之间的层次粒度关系。本发明还提供了一种基于种子词的微博文本层次主题发现系统。

Description

基于种子词的微博文本层次主题发现方法及系统
技术领域
本发明涉及计算机应用技术与互联网技术领域,特别涉及一种基于种子词的微博文本层次主题发现方法及系统。
背景技术
随着互联网的不断普及和web2.0的飞速发展,互联网所传达的公众对于社会事件,热点人物以及电商产品的评论信息受到了各方的特别关注。基于信息传播的特点,互联网具有多模态信息的交互性,能够快速有效地传播网民观点,从而形成一定的社会舆情导向,因而它在信息的传播速度、信息的实效性、社会影响力以及舆论导向等方面与传统媒体相比有很大的优越性。用户现在也不仅仅是充当一个简单的信息浏览者的角色,更多的时候,用户也是一个信息的发布者。例如论坛、博客、评论网站、邮件、微博等都给Web2.0时代的用户提供了一个发布信息,表达自己观点场所。于是,互联网上开始产生了大量的含有主观色彩的信息,尤其是微博的出现,使得大量用户习惯在微博上发布自己的观点,这点观点可以是用户针对某个社会事件所持有的看法,也可以是讨论某些和兴趣相关的话题,还有可能是一些毫无意义的内容。随着用户的增长和发布的微博的数量的增加,媒体、厂商和政府都逐渐开始重视起用户在微博中发表的观点和看法。比如,厂商可以通过微博了解用户对产品的各方面评论,政府和媒体可以了解用户对于某些事件的看法。然后,随着微博文本数量的增加,使得人工去收集并分析整理相关的微博变得极度困难,费时费力,且效率低下。
发明内容
本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于种子词的微博文本层次主题发现方法,该方法能够快速的从海量的微博文本中挖掘文本的层次主题及话题分布,并且便于发布话题之间的层次粒度关系。
本发明的另一个目的在于提供一种基于种子词的微博文本层次主题发现系统。
为了实现上述目的,本发明第一方面的实施例提出了一种基于种子词的微博文本层次主题发现方法,包括以下步骤:从互联网上获取数据信息,其中,所述数据信息包括微博文本;对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;对所述微博文本进行层次主题聚类以生成层次主题模型;以及将所述先验知识集成至所述层次主题模型中以对所述微博文本层次主题进行发现。
根据本发明实施例的基于种子词的微博文本层次主题发现方法,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以对微博文本层次主题进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快速、自动地得到当前微博文本的话题分布,省时省力。另外,该方法通过建立当前微博文本的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度下微博用户所关注的不同的话题,因此,该方法便于发布话题之间的层次粒度关系。
另外,根据本发明上述实施例的基于种子词的微博文本层次主题发现方法还可以具有如下附加的技术特征:
在一些示例中,通过网络爬虫从互联网获取数据信息。
在一些示例中,所述对所述微博文本进行分析以获取种子词簇,进一步包括:按照预定规则从所述微博文本中抽取名词或名词短语;通过定义规则对所述名词或名次短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词;根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
在一些示例中,所述将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
在一些示例中,所述层次主题模型为变参的模型。
本发明第二方面的实施例提供了一种基于种子词的微博文本层次主题发现系统,包括:用户界面模块,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览所需的微博文本层次主题分析结果;数据库接口模块,所述数据库接口模块用于为所述发现系统提供数据库读写接口;功能模块,所述功能模块包括:数据信息获取子模块,所述数据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本;先验知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;主题模型子模块,所述主题模型子模块用于对所述微博文本进行层次主题聚类以生成层次主题模型;集成子模块,所述集成子模块用于将所述先验知识集成至所述层次主题模型中以对所述微博文本的层次主题进行发现。
根据本发明实施例的基于种子词的微博文本层次主题发现系统,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以对微博文本层次主题进行发现。因此,该系统无需对当前的微博文本进行人工分析,即可快速、自动地得到当前微博文本的话题分布,省时省力。另外,该系统通过建立当前微博文本的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度下微博用户所关注的不同的话题,因此,该系统便于发布话题之间的层次粒度关系。
另外,根据本发明上述实施例的基于种子词的微博文本层次主题发现系统还可以具有如下附加的技术特征:
在一些示例中,所述数据信息获取子模块通过网络爬虫从互联网获取数据信息。
在一些示例中,所述先验知识获取模块用于按照预定规则从所述微博文本中抽取名词或名词短语,并通过定义规则对所述名词或名次短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词,并根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
在一些示例中,所述集成子模块将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
在一些示例中,所述层次主题模型为变参的模型。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的流程图;
图2是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的原理示意图;
图3是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的基于先验的层次主题模型结构示意图;以及
图4是根据本发明一个实施例的基于种子词的微博文本层次主题发现系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
以下结合附图描述根据本发明实施例的基于种子词的微博文本层次主题发现方法及系统。
图1是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的流程图。如图1所示,根据本发明一个实施例的基于种子词的微博文本层次主题发现方法,包括以下步骤:
步骤S101,从互联网上获取数据信息,其中,数据信息包括微博文本。具体而言,在本发明的一个实施例中,通过网络爬虫从互联网上获取数据信息。作为一个具体的示例,结合图2所示,主要是从互联网上获取大量全面的针对不同事件,特定用户群体等发布的微博文本,以便进行主题挖掘与分析。数据信息主要是基于新浪微博的API通过网络爬虫从新浪微博上爬取,并保存到相应数据库。抓取的数据信息包括微博本文、发布者信息等。另外,网络爬虫会定期抓取新的数据信息以保证数据的完整性与实时性。从而,通过这个步骤可以形成主题挖掘的数据集,能用来进行下一步的分析。
步骤S102,对微博文本进行分析以获取种子词簇,并将种子词簇作为先验知识。其中,在本发明的一个实施例中,该步骤进一步包括:按照预定规则从微博文本中抽取名词或名词短语,通过定义规则对该名词或名词短语进行剪枝去噪处理以得到与微博文本相关的名词或名词短语,并将与微博文本相关的名词或名词短语作为种子词,进一步根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将该种子词簇作为先验知识。其中,在上述示例中,预定规则例如为从微博文本中提取频繁出现的名词或名词短语。定义规则即定义一些合适的短语规则,例如包括:形容词+名词、名词+名词、代词/动词/形容词/名词+“的”+名词、名词+“的”+动词等形式。
作为一个具体示例,本发明的实施例可以提取一些种子词簇,作为合适的先验知识,以便集成到现有的层次主题模型中。首先需要抽取当前微博文本中经常被提及的一些概念,例如:在雅安地震的事件中,部分微博文本可能是提及雅安地震,而其他一部分微博文本可能提及余震相关,还有某些微博文本可能提及救援等相关的。而为了提取微博用户经常提及到的词语,可以提取频繁出现的名词或者名词短语,然后进行处理,从而得到当前微博文本中用户主要主题提及的词语,再通过定义规则进行剪枝去除噪声,从而提取出频繁被描述的和当前微博相关的一些事件等特征作为种子词。在此基础上,对提取出的种子词根据相似的程度进行合并,合并某些高度相关的种子词(例如:“救援”,“帐篷”等都是相近的概念),就可以得到相似的种子词簇,并将该种子词簇作为先验知识。
更为详细地,在一些示例中,主要基于概念提取进行相关种子词的抽取。而针对中文文本的一些特殊性,本发明的实施例主要通过关联规则挖掘的方法提取出微博文本中频繁出现的名词或名词短语,再通过定义规则进行剪枝去除噪声,从而提取出频繁被描述的对象特征。由于本发明实施例主要希望提取一些种子词的热点概念都是名词或者名词性短语为主,同时这类名词性短语具有规律性特征。根据这些特征,可定义所提取的名词性短语的语法形式(例如为:形容词+名词、名词+名词、代词/动词/形容词/名词+“的”+名词、名词+“的”+动词等形式),也即定义规则。进一步地,根据这些语法形式识别和划分成名词性短语,进而提取。经过对上述名词性短语的提取,得到热点概念集合最原始的候选集合。再通过频繁项集提取从热点概念集合最原始的候选集合中提取用户最为关注、评论最多的名词或者名词短语,作为热点概念候选集。通过频繁项提取,虽然获取了用户提及最为频繁的名词或名词短语,但这些频繁项不一定是相关的概念。其中存在那些在任何领域都被高频率提到的常用词语(commonwords),而这些词语都是与文本主题无意义的频繁项,应该剔除。因此再对非评论对象属性、特征或者相关概念的频繁项进行剪枝,通过分别对频繁项集中的单字单词、多字单词(至少含有两个汉字的中文单词)和名词性短语进行剪枝,就能得到概念集合。
进一步地,经过概念提取后,从原始文本信息中获取了最为相关的热点概念。为了让这些概念作为种子词更好的指导聚类,则基于相关度,诸如Overlap,PMI等,针对提取的词,提取合适的must-links,cannot-links,再基于提取的must-links,cannot-links进行聚类,合并等操作,即可得到种子词簇。
步骤S103,对微博文本进行层次主题聚类以生成层次主题模型。其中,在本发明的一个实施例中,层次主题模型为变参的模型。
具体而言,主题模型是当前比较常用的一个文本挖掘的模型,可以独立处理很多文本挖掘的问题,也可以从本文中提取合适的先验知识,以配合其他的模型。在社交网络中,主题模型经常应用于微博的文本挖掘中,对微博的文本的主题进行挖掘。然而,传统的主题模型是一个无监督学习算法,需要用户自己输入合适的主题数目,同时,它假设主题之间是相互独立的,因此,也很难对主题之间的关系进行进一步的分析。而根据约束聚类的思想,已经存在的先验知识可以更好的提升聚类算法的效果,因此,将主题模型从一个无监督的模型转换成一个基于约束的先验知识的半监督模型(即层次主题模型)是一个非常合适的方式。
步骤S104,将先验知识集成至层次主题模型中以对微博文本层次主题进行发现。
具体而言,在本发明的一个实施例中,在提取了合适的种子词簇作为先验知识后,需要根据之前的新的过程集成对应的种子词簇,因此,需要将先验知识集成至对应层次主题模型的采样中,具体采样可通过公式如下实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
在上式中,若当期的路径节点包含当前的文档所对应的种子词,则δ(wd,cd)为1,否则δ(wd,cd)为0。而当前的硬约束可以进一步的通过引入松弛变量η'被放缩成软约束。当η'为1时为硬约束,η'为0时则为无约束状态,η'在0至1之间时为软约束。
综上,在本发明的一些示例中,使用基于先验知识的层次主题模型进行微博的层次主题挖掘。相比于传统的主题模型,基于先验的主题模型有着如下的优势:(1)通过集成自动挖掘的先验知识,从而提取聚类效果。(2)层次主题模型为变参的模型,不需要输入主题的数目即可自动挖掘合适的主题数。(3)可以很好的发现主题之间的层次关系。(4)从应用层面上来说,不需要进行诸如停用词,常用词(common words)过滤等预处理。
具体而言,传统的层次主题模型是基于嵌套的中国餐馆过程(nested Chinese RestaurantProcess),为了使其更好的集成已有的先验知识,本发明的实施例对嵌套的中国餐馆过程进行了延伸:
假设某个城市,有无限个餐馆,每个餐馆里面有着无限张的桌子。与此同时,有N个顾客按照标记{1,…,N}进入这个城市。假定该城市有一个餐馆被默认为是“根”(节点)餐馆,每个顾客都会从根餐馆进入,然后选择一张桌子,该桌子对应着城市里的下一个餐馆。这个过程迭代进行多次。现假定当前根餐馆的一部分桌子有一些“特色菜”,同时一部分顾客手中有一份想吃的“特色菜菜单”,当这一部分顾客进入根餐馆的时候,他们会根据一定的概率选择包含有他们“菜单”中的“特色菜”的桌子;而另一部分顾客,则会用中国餐馆过程(CRP)去选择一张桌子。
作为一个具体的例子,图3为一个三层的基于种子词簇的层次主题模型。如图3所示,黑体、下划线的部分为预先提取的种子词簇。第二个黑色的节点为预定义的节点,也即对应的种子词簇的先验知识。除此之外,由于层次主题模型是一个变参的模型,因此,还可以发现非先验的主题,从图3中可看到,会有一些非先验的主题也可以被挖掘。
根据本发明实施例的基于种子词的微博文本层次主题发现方法,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以对微博文本层次主题进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快速、自动地得到当前微博文本的话题分布,省时省力。另外,该方法通过建立当前微博文本的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度下微博用户所关注的不同的话题,因此,该方法便于发布话题之间的层次粒度关系。
本发明还提供了一种基于种子词的微博文本层次主题发现系统。图4为根据本发明一个实施例的基于种子词的微博文本层次主题发现系统的结构示意图。如图4所示,根据本发明一个实施例的基于种子词的微博文本层次主题发现系统400,包括:用户界面模块410、数据库接口模块420和功能模块430。
具体而言,用户界面模块410用于为用户提供一个图像化的用户操作界面,以方便用户浏览其所需的微博文本层次主题分析结果,例如用户感兴趣的人群或者对应的一些热门事件的层次主题分析结果。
数据库接口模块420用于为发现系统400提供数据库读写接口,以方便系统中各个不同的功能模块进行数据的I/O操作。
功能模块430包括:数据信息获取子模块4301、先验知识获取子模块4302、主题模型子模块4303和集成子模块4304。
其中,数据信息获取子模块4301用于从互联网上获取数据信息,其中,数据信息包括微博文本。具体而言,在本发明的一个实施例中,通过网络爬虫从互联网上获取数据信息。作为一个具体的示例,结合图2所示,主要是从互联网上获取大量全面的针对不同事件,特定用户群体等发布的微博文本,以便进行主题挖掘与分析。数据信息主要是基于新浪微博的API通过网络爬虫从新浪微博上爬取,并保存到相应数据库。抓取的数据信息包括微博本文、发布者信息等。另外,网络爬虫会定期抓取新的数据信息以保证数据的完整性与实时性。从而,通过这个步骤可以形成主题挖掘的数据集,能用来进行下一步的分析。
先验知识获取子模块4302用于对微博文本进行分析以获取种子词簇,并将该种子词簇作为先验知识。更为具体地,在本发明的一个实施例中,先验知识获取子模块4302按照预定规则从微博文本中抽取名词或名词短语,并通过定义规则对该名词或名词短语进行剪枝去噪处理以得到与微博文本相关的名词或名词短语,并将与微博文本相关的名词或名词短语作为种子词,进一步根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将该种子词簇作为先验知识。其中,在上述示例中,预定规则例如为从微博文本中提取频繁出现的名词或名词短语。定义规则即定义一些合适的短语规则,例如包括:形容词+名词、名词+名词、代词/动词/形容词/名词+“的”+名词、名词+“的”+动词等形式。
作为一个具体示例,先验知识获取子模块4302可以提取一些种子词簇,作为合适的先验知识,以便集成到现有的层次主题模型中。首先需要抽取当前微博文本中经常被提及的一些概念,例如:在雅安地震的事件中,部分微博文本可能是提及雅安地震,而其他一部分微博文本可能提及余震相关,还有某些微博文本可能提及救援等相关的。而为了提取微博用户经常提及到的词语,可以提取频繁出现的名词或者名词短语,然后进行处理,从而得到当前微博文本中用户主要主题提及的词语,再通过定义规则进行剪枝去除噪声,从而提取出频繁被描述的和当前微博相关的一些事件等特征作为种子词。在此基础上,对提取出的种子词根据相似的程度进行合并,合并某些高度相关的种子词(例如:“救援”,“帐篷”等都是相近的概念),就可以得到相似的种子词簇,并将该种子词簇作为先验知识。
更为详细地,在一些示例中,先验知识获取子模块4302主要基于概念提取进行相关种子词的抽取。而针对中文文本的一些特殊性,先验知识获取子模块4302主要通过关联规则挖掘的方法提取出微博文本中频繁出现的名词或名词短语,再通过定义规则进行剪枝去除噪声,从而提取出频繁被描述的对象特征。由于本发明实施例主要希望提取一些种子词的热点概念都是名词或者名词性短语为主,同时这类名词性短语具有规律性特征。根据这些特征,可定义所提取的名词性短语的语法形式(例如为:形容词+名词、名词+名词、代词/动词/形容词/名词+“的”+名词、名词+“的”+动词等形式),也即定义规则。进一步地,根据这些语法形式识别和划分成名词性短语,进而提取。经过对上述名词性短语的提取,得到热点概念集合最原始的候选集合。再通过频繁项集提取从热点概念集合最原始的候选集合中提取用户最为关注、评论最多的名词或者名词短语,作为热点概念候选集。通过频繁项提取,虽然获取了用户提及最为频繁的名词或名词短语,但这些频繁项不一定是相关的概念。其中存在那些在任何领域都被高频率提到的常用词语(commonwords),而这些词语都是与文本主题无意义的频繁项,应该剔除。因此再对非评论对象属性、特征或者相关概念的频繁项进行剪枝,通过分别对频繁项集中的单字单词、多字单词(至少含有两个汉字的中文单词)和名词性短语进行剪枝,就能得到概念集合。
进一步地,经过概念提取后,从原始文本信息中获取了最为相关的热点概念。为了让这些概念作为种子词更好的指导聚类,则基于相关度,诸如Overlap,PMI等,针对提取的词,提取合适的must-links,cannot-links,再基于提取的must-links,cannot-links进行聚类,合并等操作,即可得到种子词簇。
主题模型子模块4303用于对微博文本进行层次主题聚类以生成层次主题模型。其中,在本发明的一个实施例中,层次主题模型为变参的模型。
具体而言,主题模型是当前比较常用的一个文本挖掘的模型,可以独立处理很多文本挖掘的问题,也可以从本文中提取合适的先验知识,以配合其他的模型。在社交网络中,主题模型经常应用于微博的文本挖掘中,对微博的文本的主题进行挖掘。然而,传统的主题模型是一个无监督学习算法,需要用户自己输入合适的主题数目,同时,它假设主题之间是相互独立的,因此,也很难对主题之间的关系进行进一步的分析。而根据约束聚类的思想,已经存在的先验知识可以更好的提升聚类算法的效果,因此,将主题模型从一个无监督的模型转换成一个基于约束的先验知识的半监督模型(即层次主题模型)是一个非常合适的方式。
集成子模块4304用于将先验知识集成至层次主题模型中以对微博文本层次主题进行发现。
具体而言,在本发明的一个实施例中,在提取了合适的种子词簇作为先验知识后,需要根据之前的新的过程集成对应的种子词簇,因此,集成子模块4304将先验知识集成至对应层次主题模型的采样中,具体采样可通过公式如下实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
在上式中,若当期的路径节点包含当前的文档所对应的种子词,则δ(wd,cd)为1,否则δ(wd,cd)为0。而当前的硬约束可以进一步的通过引入松弛变量η'被放缩成软约束。当η'为1时为硬约束,η'为0时则为无约束状态,η'在0至1之间时为软约束。
综上,在本发明的一些示例中,使用基于先验知识的层次主题模型进行微博的层次主题挖掘。相比于传统的主题模型,基于先验的主题模型有着如下的优势:(1)通过集成自动挖掘的先验知识,从而提取聚类效果。(2)层次主题模型为变参的模型,不需要输入主题的数目即可自动挖掘合适的主题数。(3)可以很好的发现主题之间的层次关系。(4)从应用层面上来说,不需要进行诸如停用词,常用词(common words)过滤等预处理。
具体而言,传统的层次主题模型是基于嵌套的中国餐馆过程(nested Chinese RestaurantProcess),为了使其更好的集成已有的先验知识,本发明的实施例对嵌套的中国餐馆过程进行了延伸:
假设某个城市,有无限个餐馆,每个餐馆里面有着无限张的桌子。与此同时,有N个顾客按照标记{1,…,N}进入这个城市。假定该城市有一个餐馆被默认为是“根”(节点)餐馆,每个顾客都会从根餐馆进入,然后选择一张桌子,该桌子对应着城市里的下一个餐馆。这个过程迭代进行多次。现假定当前根餐馆的一部分桌子有一些“特色菜”,同时一部分顾客手中有一份想吃的“特色菜菜单”,当这一部分顾客进入根餐馆的时候,他们会根据一定的概率选择包含有他们“菜单”中的“特色菜”的桌子;而另一部分顾客,则会用中国餐馆过程(CRP)去选择一张桌子。
另外,作为具体的示例,该发现系统400的上述用户界面模块410、数据库接口模块420和功能模块430均在Windows下用Python、java等语言开发实现。进一步地,基于上述开发平台,该发现系统400的部署运行需要如下几个层级运行环境的支撑。首先在操作系统层,发现系统400需要在Windows XP或其兼容的操作系统平台之上运行,同时还需要程序运行支撑环境,也就是java和Python运行支撑环境。当具备了上述支撑环境时,该发现系统400即可正常运行。而用户只需要通过网页浏览器访问系统就能浏览自己感兴趣的人群或者对应的一些热门事件的层次主题分析结果,或者自己感兴趣的产品的评论分析结果。
根据本发明实施例的基于种子词的微博文本层次主题发现系统,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以对微博文本层次主题进行发现。因此,该系统无需对当前的微博文本进行人工分析,即可快速、自动地得到当前微博文本的话题分布,省时省力。另外,该系统通过建立当前微博文本的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度下微博用户所关注的不同的话题,因此,该系统便于发布话题之间的层次粒度关系。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于种子词的微博文本层次主题发现方法,其特征在于,包括以下步骤:
从互联网上获取数据信息,其中,所述数据信息包括微博文本;
对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;
对所述微博文本进行层次主题聚类以生成层次主题模型;以及
将所述先验知识集成至所述层次主题模型中以对所述微博文本层次主题进行发现。
2.根据权利要求1所述的基于种子词的微博文本层次主题发现方法,其特征在于,通过网络爬虫从互联网获取数据信息。
3.根据权利要求1所述的基于种子词的微博文本层次主题发现方法,其特征在于,所述对所述微博文本进行分析以获取种子词簇,进一步包括:
按照预定规则从所述微博文本中抽取名词或名词短语;
通过定义规则对所述名词或名词短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词;
根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
4.根据权利要求1所述的基于种子词的微博文本层次主题发现方法,其特征在于,所述将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
5.根据权利要求1-4任一项所述的基于种子词的微博文本层次主题发现方法,其特征在于,所述层次主题模型为变参的模型。
6.一种基于种子词的微博文本层次主题发现系统,其特征在于,包括:
用户界面模块,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览所需的微博文本层次主题分析结果;
数据库接口模块,所述数据库接口模块用于为所述发现系统提供数据库读写接口;
功能模块,所述功能模块包括:
数据信息获取子模块,所述数据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本;
先验知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;
主题模型子模块,所述主题模型子模块用于对所述微博文本进行层次主题聚类以生成层次主题模型;
集成子模块,所述集成子模块用于将所述先验知识集成至所述层次主题模型中以对所述微博文本的层次主题进行发现。
7.根据权利要求6所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述数据信息获取子模块通过网络爬虫从互联网获取数据信息。
8.根据权利要求6所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述先验知识获取模块用于按照预定规则从所述微博文本中抽取名词或名词短语,并通过定义规则对所述名词或名次短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词,并根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
9.根据权利要求6所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述集成子模块将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
10.根据权利要求6-9任一项所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述层次主题模型为变参的模型。
CN201410193725.7A 2014-05-08 2014-05-08 基于种子词的微博文本层次主题发现方法及系统 Active CN103970865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410193725.7A CN103970865B (zh) 2014-05-08 2014-05-08 基于种子词的微博文本层次主题发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410193725.7A CN103970865B (zh) 2014-05-08 2014-05-08 基于种子词的微博文本层次主题发现方法及系统

Publications (2)

Publication Number Publication Date
CN103970865A true CN103970865A (zh) 2014-08-06
CN103970865B CN103970865B (zh) 2017-04-19

Family

ID=51240362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410193725.7A Active CN103970865B (zh) 2014-05-08 2014-05-08 基于种子词的微博文本层次主题发现方法及系统

Country Status (1)

Country Link
CN (1) CN103970865B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN105893611A (zh) * 2016-04-27 2016-08-24 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN108536868A (zh) * 2018-04-24 2018-09-14 北京慧闻科技发展有限公司 社交网络上短文本数据的数据处理方法及应用
WO2021070005A1 (en) * 2019-10-08 2021-04-15 International Business Machines Corporation Rare topic detection using hierarchical clustering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004731A1 (en) * 2000-05-24 2006-01-05 Seibel John C Text mining system for web-based business intelligence
CN102073646A (zh) * 2009-11-23 2011-05-25 北京科技大学 一种面向博客群的主题倾向性处理方法及系统
CN102332031A (zh) * 2011-10-18 2012-01-25 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004731A1 (en) * 2000-05-24 2006-01-05 Seibel John C Text mining system for web-based business intelligence
CN102073646A (zh) * 2009-11-23 2011-05-25 北京科技大学 一种面向博客群的主题倾向性处理方法及系统
CN102332031A (zh) * 2011-10-18 2012-01-25 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID ANDRZEJEWSKI: "Incorporating Domain Knowledge into Topic Modeling via Dirichlet Forest Priors", 《PROCEEDINGS OF THE 26TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN104536979B (zh) * 2014-12-05 2018-05-01 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN105893611A (zh) * 2016-04-27 2016-08-24 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN105893611B (zh) * 2016-04-27 2020-04-07 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN108536868A (zh) * 2018-04-24 2018-09-14 北京慧闻科技发展有限公司 社交网络上短文本数据的数据处理方法及应用
CN108536868B (zh) * 2018-04-24 2022-04-15 北京慧闻科技(集团)有限公司 社交网络上短文本数据的数据处理方法及装置
WO2021070005A1 (en) * 2019-10-08 2021-04-15 International Business Machines Corporation Rare topic detection using hierarchical clustering
GB2604276A (en) * 2019-10-08 2022-08-31 Ibm Rare topic detection using hierarchical clustering

Also Published As

Publication number Publication date
CN103970865B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
Li et al. Filtering out the noise in short text topic modeling
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
Jung Online named entity recognition method for microtexts in social networking services: A case study of twitter
US20160092551A1 (en) Method and system for creating filters for social data topic creation
Lloret et al. A novel concept-level approach for ultra-concise opinion summarization
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
CN102779114A (zh) 利用自动规则生成的非结构化数据支持
Liu et al. Semantic social media analysis of Chinese tourists in Switzerland
Ballatore et al. Extracting place emotions from travel blogs
CN103927299A (zh) 输入法中候选语句的提供方法、输入内容推荐方法和装置
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN103970866A (zh) 基于微博文本的微博用户兴趣发现方法及系统
Rohani et al. Topic modeling for social media content: A practical approach
Kochtchi et al. Networks of Names: Visual Exploration and Semi‐Automatic Tagging of Social Networks from Newspaper Articles
Sam et al. Ontology-based sentiment analysis model of customer reviews for electronic products
CN104504024A (zh) 基于微博内容的关键词挖掘方法及系统
Narr et al. Extracting semantic annotations from twitter
CN105404693A (zh) 一种基于需求语义的服务聚类方法
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
CN103970865A (zh) 基于种子词的微博文本层次主题发现方法及系统
CN107577713B (zh) 基于电力词典的文本处理方法
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
Schatten et al. An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research
Rusli et al. Understanding Malaysian English (Manglish) jargon in social media
Pandey et al. Sentiment analysis using lexicon based approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant