CN107239509A

CN107239509A - 面向短文本的单主题挖掘方法及系统

Info

Publication number: CN107239509A
Application number: CN201710339996.2A
Authority: CN
Inventors: 徐华; 李佳; 孙晓民; 邓俊辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2017-10-10

Abstract

本发明公开了一种面向短文本的单主题挖掘方法及系统，其中，方法包括：采集多条短文本；对多条短文本的每条短文本进行预处理；对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题；获每条短文本潜在的单个主题。该挖掘方法可以能对短文本进行主题自动建模，并且限制每条短文本只有一个主题，从而获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

Description

面向短文本的单主题挖掘方法及系统

技术领域

本发明涉及计算机应用及社交网络技术领域，特别涉及一种面向短文本的单主题挖掘方法及系统。

背景技术

随着微博平台的蓬勃发展，越来越多的人开始关注一种新的信息承载方式：短文本。字如其意，短文本最大的特点就是文本长度很短，通常只有100个字。短文本的形式多种多样：微博内容、搜索引擎的query、即时通讯软件的聊天内容、BBS论坛的回帖。

短文本的第二个特点就是口语化严重，拼写随意。不同于传统诸如博客、新闻报道等网络长文本，短文本往往是个人用户表达情感，描述生活状态的信息载体，它们往往很随意，其中经常包含错别字、网络用语、文字加拼音的表示方式，甚至语法都不正确。

短文本的第三个特点是数量巨大，以微博平台为例，截止2016年12月，微博月活跃人数已达到3.13亿，较2015年同期相比增长34％，使得这么多的用户带来了海量的微博数据。

短文本的第四个特点是实时性要求高，由于短文本数量巨大且不断被产生，所以必须要进行实时处理，导致传统的有监督方法效果不如无监督方法。

因此，短文本的主题获取较为困难，且准确性较低，有待改进。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种面向短文本的单主题挖掘方法，该方法可以获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

本发明的另一个目的在于提出一种面向短文本的单主题挖掘系统。

为达到上述目的，本发明一方面实施例提出了一种面向短文本的单主题挖掘方法，包括以下步骤：采集多条短文本；对所述多条短文本的每条短文本进行预处理；对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题；获所述每条短文本潜在的单个主题。

本发明实施例的面向短文本的单主题挖掘方法，可以对各种形式的短文本进行自动预处理，自动主题建模，实现挖掘潜在主题的目的，不但可以能对短文本进行主题自动建模，并且限制每条短文本只有一个主题，从而获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

另外，根据本发明上述实施例的面向短文本的单主题挖掘方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述对每条短文本采用单主题的双词对主题算法进行主题自动建模，进一步包括：利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构；利用双词对主题模型从建模双词的产生来学习主题。

进一步地，在本发明的一个实施例中，双词为在同一个上下文中共现的无序词对。

进一步地，在本发明的一个实施例中，所述对多条短文本的每条短文本进行预处理包括：抽取文本内容，并且清除所述文本内容中杂乱信息；对清理后的所述文本内容进行分词处理，以计算每个词语的词频；去掉词频低于预设值的词语。

进一步地，在本发明的一个实施例中，还包括：在自动建模之后，获取主题下的TopK个关键词；对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。

为达到上述目的，本发明另一方面实施例提出了一种面向短文本的单主题挖掘系统，包括：数据采集模块，用于采集多条短文本；数据处理模块，用于对所述多条短文本的每条短文本进行预处理；主题建模模块，用于对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题；获取模块，用于获所述每条短文本潜在的单个主题。

本发明实施例的面向短文本的单主题挖掘系统，可以对各种形式的短文本进行自动预处理，自动主题建模，实现挖掘潜在主题的目的，不但可以能对短文本进行主题自动建模，并且限制每条短文本只有一个主题，从而获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

另外，根据本发明上述实施例的面向短文本的单主题挖掘系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述主题建模模块还用于：利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构；利用双词对主题模型从建模双词的产生来学习主题。

进一步地，在本发明的一个实施例中，所述数据处理模块包括：抽取单元，用于抽取文本内容，并且清除所述文本内容中杂乱信息；分词单元，用于对清理后的所述文本内容进行分词处理，以计算每个词语的词频；筛选单元，用于去掉词频低于预设值的词语。

进一步地，在本发明的一个实施例中，还包括：主题可视化模块，用于在自动建模之后，获取主题下的Top K个关键词，并且对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的面向短文本的单主题挖掘方法的流程图；

图2为根据本发明一个实施例的面向短文本的单主题挖掘方法的流程图；

图3为根据本发明一个实施例的LDA的数学描述语言的示意图；

图4为根据本发明一个实施例的LDA的数学描述语言的概率图模型示意图；

图5为根据本发明一个实施例的BTM的产生式过程描述的示意图；

图6为根据本发明一个实施例的BTM的产生式过程描述的概率图模型示意图；

图7为根据本发明实施例的面向短文本的单主题挖掘系统的结构示意图；

图8为根据本发明一个实施例的面向短文本的单主题挖掘系统的工作流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘方法及系统，首先将参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘方法。

图1是本发明一个实施例的面向短文本的单主题挖掘方法的流程图。

如图1所示，该面向短文本的单主题挖掘方法包括以下步骤：

在步骤S101中，采集多条短文本。

举例而言，如图2所示，本发明实施例可以利用爬虫技术获取微博平台如新浪微博上的微博内容，如利用Python语言撰写爬虫程序，对门户网站的新闻进行爬取并储存到后台MongoDB数据库中。

在步骤S102中，对多条短文本的每条短文本进行预处理。

进一步地，在本发明的一个实施例中，对多条短文本的每条短文本进行预处理包括：抽取文本内容，并且清除文本内容中杂乱信息；对清理后的文本内容进行分词处理，以计算每个词语的词频；去掉词频低于预设值的词语。

可以理解的是，对获取的微博文本内容进行数据预处理：首先抽取文本内容，由于爬虫获取的是原始数据，其中含有大量对文本摘要无关的杂乱信息，比如html标签、URL、图片等，将这些无关内容清楚；然后对清理后的文本内容做中文分词处理；进一步对分词后的词语计算词频，将大量的低词频词语去掉。

在步骤S103中，对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题。

可以理解的是，本发明实施例提出了新的面向短文本的单主题双词对主题模型算法，不但能对短文本进行主题自动建模，并且限制每条短文本只有一个主题。

其中，在本发明的一个实施例中，对每条短文本采用单主题的双词对主题算法进行主题自动建模，进一步包括：利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构；利用双词对主题模型从建模双词的产生来学习主题。

具体地，LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)是目前最常用的文本主题模型，LDA是一个概率语言模型，应用到文本建模领域，就是对文本进行隐性语义分析，目的是要以无监督学习方法从文本中发现隐含的语义维度-主题。隐性语义分析实质是要利用文本中词项的共现特征来发现文本的主题结构，这种方法不需要任何关于文本的先验知识。文本的语义表示可以对“一词多义”和“一义多词”的语言现象进行建模。

LDA假设这样一个文本产生过程：如果要写d篇文档，其中涉及K个主题，每个主题下的单词分布为一个从参数为β的狄利克雷先验分布中采样出来的多项式分布。对于每一篇文档，首先从一个泊松分布中采样一个数值作为文档长度，再从一个参数为α的狄利克雷先验分布中采样出一个多项式分布作为该文档里面出现每个主题下词的概率；假设现在要写某篇文档的第n个词，首先从该文档中出现每个主题的多项式分布中采样出一个主题，然后再从这个主题对应的词的多项式分布中采样出一个词作为第n个词。不断重复这个随机过程，直到d篇文档写完。LDA的数学描述语言如图3所示，其转化成概率图模型如图4所示，图中K为主题个数，D为文档总数，β是每个主题下词的多项式分布的狄利克雷先验参数，α是每篇文档下主题的多项式分布的狄利克雷先验参数。

其中，LDA中的变量z、θ、φ都是未知的隐含变量，也是需要根据文档集合中的词来学习估计的，至于如何学习就是概率图模型中的推断问题，LDA模型推断一般使用吉布斯采样。

短文本由于数据稀疏性问题导致使用传统的主题模型并不能学习到很好的主题。因此提出了一系列针对短文本领域的主题模型，BTM(Biterm Topic Model，双词对主题模型)的特点是通过建模双词的产生来学习主题。这里的“双词”指的是一个在同一个上下文中共现的无序词对。假设一个双词中的两个词来源于同一个主题，而这个主题则是来源于整个语料文本上的一个主体分布。

其中，BTM通过建模文档集合中每个双词的产生过程来学习主题。其关键思想是两个词对共现次数越多，它们越可能属于同一个主题。BTM的产生式过程描述如图5所示，其转化成概率图模型如图6所示，

在步骤S104中，获每条短文本潜在的单个主题。

即言，对短文本进行自动建模，获取短文本潜在的单个主题。

具体地，采用单主题的双词对主题模型算法，在吉布斯采样时，强制限定每条微博只有一个主题，也就是只在一个主题下进行采样，从而主题模型对微博内容进行自动建模，得到主题下的Top K个关键词。

进一步地，在本发明的一个实施例中，还包括：在自动建模之后，获取主题下的TopK个关键词；对获取的单个主题和主题下的Top K个关键词进行可视化展示。

也就是说，利用得到的每个主题和主题的Top K个关键词，对它们进行可视化展示。

在本发明的实施例中，主要目的是对短文本进行自动主题建模，挖掘短文本的潜在主题，从而可以对各种形式的短文本进行自动预处理，自动主题建模，实现挖掘潜在主题的目的。

根据本发明实施例提出的面向短文本的单主题挖掘方法，可以对各种形式的短文本进行自动预处理，自动主题建模，实现挖掘潜在主题的目的，不但可以能对短文本进行主题自动建模，并且限制每条短文本只有一个主题，从而获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

其次参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘系统。

图7是本发明一个实施例的面向短文本的单主题挖掘系统的结构示意图。

如图7所示，该面向短文本的单主题挖掘系统10包括：数据采集模块100、数据处理模块200、主题建模模块300和获取模块400。

其中，数据采集模块100用于采集多条短文本。数据处理模块200用于对多条短文本的每条短文本进行预处理。主题建模模块300用于对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题。获取模块400用于获每条短文本潜在的单个主题。本发明实施例的系统10可以能对短文本进行主题自动建模，并且限制每条短文本只有一个主题，从而获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

进一步地，在本发明的一个实施例中，主题建模模块300还用于：利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构；利用双词对主题模型从建模双词的产生来学习主题。

进一步地，在本发明的一个实施例中，数据处理模块200包括：抽取单元、分词单元和筛选单元。

其中，抽取单元用于抽取文本内容，并且清除文本内容中杂乱信息。分词单元，用于对清理后的文本内容进行分词处理，以计算每个词语的词频。筛选单元，用于去掉词频低于预设值的词语。

进一步地，在本发明的一个实施例中，如图8所示，本发明实施例的系统10还包括：主题可视化模块500。其中，主题可视化模块500用于在自动建模之后，获取主题下的TopK个关键词，并且对获取的单个主题和主题下的Top K个关键词进行可视化展示。

具体而言，本发明实施例的系统10对短文本进行自动主题建模，挖掘每条短文本的单个潜在主题，包含两个阶段：首先是系统10的自动预处理阶段，对获取的微博文本内容进行预处理包括去除html标签、URL、图片等无关信息，然后进行中文分词处理，并且计算词频，对处于停用词表和低词频的词语剔除；系统10实时对新微博数据进行主题建模，得到每条微博的潜在主题和该主题下的Top k个关键词。

可以理解的是，如图8所示，整个系统10自顶向下可以分成三大主要层次，顶层是主题和关键词展示模块，即主题可视化模块500；中间是主题建模模块300；底层是数据获取和预处理模块，即数据采集模块100、数据处理模块200和获取模块400。

其中，主题可视化模块500主要是给用户提供一个图形化的友好的用户操作界面，以方便浏览各个主题。主题建模模块300主要是利用单主题双词对主题模型对短文本进行建模。底层功能模块(数据采集模块100、数据处理模块200和获取模块400)主要是数据获取、储存和预处理。

需要注意的是，本发明实施例的系统10的实施采用了如下相关技术：爬虫技术、文本数据清洗技术、主题模型建话题推荐技术等核心技术。这些算法和图形用户界面等功能模块分别用Python和Java语言开发实现，并且支持基于Linux内核的操作系统部署。

基于上述开发平台，整个自动评估系统的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层，预测系统可以在基于Linux内核的平台之上运行；同时还需要程序运行支撑环境，也就是Python2.7和JRE1.6运行支撑环境，数据库使用MongoDB。只有具备了上述支撑环境，评估系统才能正常地运行。

需要说明的是，前述对面向短文本的单主题挖掘方法实施例的解释说明也适用于该实施例的面向短文本的单主题挖掘系统，此处不再赘述。

根据本发明实施例提出的面向短文本的单主题挖掘系统，可以对各种形式的短文本进行自动预处理，自动主题建模，实现挖掘潜在主题的目的，不但可以能对短文本进行主题自动建模，并且限制每条短文本只有一个主题，从而获取短文本潜在的单个主题，提高挖掘主题效率，并且提高挖掘的准确性，提升用户体验。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向短文本的单主题挖掘方法，其特征在于，包括以下步骤：

采集多条短文本；

对所述多条短文本的每条短文本进行预处理；

对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题；以及

获所述每条短文本潜在的单个主题。

2.根据权利要求1所述的面向短文本的单主题挖掘方法，其特征在于，所述对每条短文本采用单主题的双词对主题算法进行主题自动建模，进一步包括：

利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构；

利用双词对主题模型从建模双词的产生来学习主题。

3.根据权利要求2所述的面向短文本的单主题挖掘方法，其特征在于，双词为在同一个上下文中共现的无序词对。

4.根据权利要求1所述的面向短文本的单主题挖掘方法，其特征在于，所述对多条短文本的每条短文本进行预处理包括：

抽取文本内容，并且清除所述文本内容中杂乱信息；

对清理后的所述文本内容进行分词处理，以计算每个词语的词频；

去掉词频低于预设值的词语。

5.根据权利要求1-4任一项所述的面向短文本的单主题挖掘方法，其特征在于，还包括：

在自动建模之后，获取主题下的Top K个关键词；

对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。

6.一种面向短文本的单主题挖掘系统，其特征在于，包括：

数据采集模块，用于采集多条短文本；

数据处理模块，用于对所述多条短文本的每条短文本进行预处理；

主题建模模块，用于对每条短文本采用单主题的双词对主题算法进行主题自动建模，并且在吉布斯采样时，限定为单主题；以及

获取模块，用于获所述每条短文本潜在的单个主题。

7.根据权利要求6所述的面向短文本的单主题挖掘系统，其特征在于，所述主题建模模块还用于：

利用双词对主题模型从建模双词的产生来学习主题。

8.根据权利要求7所述的面向短文本的单主题挖掘系统，其特征在于，双词为在同一个上下文中共现的无序词对。

9.根据权利要求6所述的面向短文本的单主题挖掘系统，其特征在于，所述数据处理模块包括：

抽取单元，用于抽取文本内容，并且清除所述文本内容中杂乱信息；

分词单元，用于对清理后的所述文本内容进行分词处理，以计算每个词语的词频；

筛选单元，用于去掉词频低于预设值的词语。

10.根据权利要求6-9任一项所述的面向短文本的单主题挖掘系统，其特征在于，还包括：

主题可视化模块，用于在自动建模之后，获取主题下的Top K个关键词，并且对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。