CN107239509A - 面向短文本的单主题挖掘方法及系统 - Google Patents
面向短文本的单主题挖掘方法及系统 Download PDFInfo
- Publication number
- CN107239509A CN107239509A CN201710339996.2A CN201710339996A CN107239509A CN 107239509 A CN107239509 A CN 107239509A CN 201710339996 A CN201710339996 A CN 201710339996A CN 107239509 A CN107239509 A CN 107239509A
- Authority
- CN
- China
- Prior art keywords
- text
- theme
- topic
- short text
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009193 crawling Effects 0.000 title claims description 12
- 238000012545 processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000012800 visualization Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 44
- 238000007781 pre-processing Methods 0.000 abstract description 11
- 238000005070 sampling Methods 0.000 abstract description 7
- 238000009826 distribution Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向短文本的单主题挖掘方法及系统,其中,方法包括:采集多条短文本;对多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获每条短文本潜在的单个主题。该挖掘方法可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
Description
技术领域
本发明涉及计算机应用及社交网络技术领域,特别涉及一种面向短文本的单主题挖掘方法及系统。
背景技术
随着微博平台的蓬勃发展,越来越多的人开始关注一种新的信息承载方式:短文本。字如其意,短文本最大的特点就是文本长度很短,通常只有100个字。短文本的形式多种多样:微博内容、搜索引擎的query、即时通讯软件的聊天内容、BBS论坛的回帖。
短文本的第二个特点就是口语化严重,拼写随意。不同于传统诸如博客、新闻报道等网络长文本,短文本往往是个人用户表达情感,描述生活状态的信息载体,它们往往很随意,其中经常包含错别字、网络用语、文字加拼音的表示方式,甚至语法都不正确。
短文本的第三个特点是数量巨大,以微博平台为例,截止2016年12月,微博月活跃人数已达到3.13亿,较2015年同期相比增长34%,使得这么多的用户带来了海量的微博数据。
短文本的第四个特点是实时性要求高,由于短文本数量巨大且不断被产生,所以必须要进行实时处理,导致传统的有监督方法效果不如无监督方法。
因此,短文本的主题获取较为困难,且准确性较低,有待改进。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种面向短文本的单主题挖掘方法,该方法可以获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
本发明的另一个目的在于提出一种面向短文本的单主题挖掘系统。
为达到上述目的,本发明一方面实施例提出了一种面向短文本的单主题挖掘方法,包括以下步骤:采集多条短文本;对所述多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获所述每条短文本潜在的单个主题。
本发明实施例的面向短文本的单主题挖掘方法,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
另外,根据本发明上述实施例的面向短文本的单主题挖掘方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
进一步地,在本发明的一个实施例中,所述对多条短文本的每条短文本进行预处理包括:抽取文本内容,并且清除所述文本内容中杂乱信息;对清理后的所述文本内容进行分词处理,以计算每个词语的词频;去掉词频低于预设值的词语。
进一步地,在本发明的一个实施例中,还包括:在自动建模之后,获取主题下的TopK个关键词;对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
为达到上述目的,本发明另一方面实施例提出了一种面向短文本的单主题挖掘系统,包括:数据采集模块,用于采集多条短文本;数据处理模块,用于对所述多条短文本的每条短文本进行预处理;主题建模模块,用于对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获取模块,用于获所述每条短文本潜在的单个主题。
本发明实施例的面向短文本的单主题挖掘系统,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
另外,根据本发明上述实施例的面向短文本的单主题挖掘系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述主题建模模块还用于:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
进一步地,在本发明的一个实施例中,所述数据处理模块包括:抽取单元,用于抽取文本内容,并且清除所述文本内容中杂乱信息;分词单元,用于对清理后的所述文本内容进行分词处理,以计算每个词语的词频;筛选单元,用于去掉词频低于预设值的词语。
进一步地,在本发明的一个实施例中,还包括:主题可视化模块,用于在自动建模之后,获取主题下的Top K个关键词,并且对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的面向短文本的单主题挖掘方法的流程图;
图2为根据本发明一个实施例的面向短文本的单主题挖掘方法的流程图;
图3为根据本发明一个实施例的LDA的数学描述语言的示意图;
图4为根据本发明一个实施例的LDA的数学描述语言的概率图模型示意图;
图5为根据本发明一个实施例的BTM的产生式过程描述的示意图;
图6为根据本发明一个实施例的BTM的产生式过程描述的概率图模型示意图;
图7为根据本发明实施例的面向短文本的单主题挖掘系统的结构示意图;
图8为根据本发明一个实施例的面向短文本的单主题挖掘系统的工作流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘方法及系统,首先将参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘方法。
图1是本发明一个实施例的面向短文本的单主题挖掘方法的流程图。
如图1所示,该面向短文本的单主题挖掘方法包括以下步骤:
在步骤S101中,采集多条短文本。
举例而言,如图2所示,本发明实施例可以利用爬虫技术获取微博平台如新浪微博上的微博内容,如利用Python语言撰写爬虫程序,对门户网站的新闻进行爬取并储存到后台MongoDB数据库中。
在步骤S102中,对多条短文本的每条短文本进行预处理。
进一步地,在本发明的一个实施例中,对多条短文本的每条短文本进行预处理包括:抽取文本内容,并且清除文本内容中杂乱信息;对清理后的文本内容进行分词处理,以计算每个词语的词频;去掉词频低于预设值的词语。
可以理解的是,对获取的微博文本内容进行数据预处理:首先抽取文本内容,由于爬虫获取的是原始数据,其中含有大量对文本摘要无关的杂乱信息,比如html标签、URL、图片等,将这些无关内容清楚;然后对清理后的文本内容做中文分词处理;进一步对分词后的词语计算词频,将大量的低词频词语去掉。
在步骤S103中,对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题。
可以理解的是,本发明实施例提出了新的面向短文本的单主题双词对主题模型算法,不但能对短文本进行主题自动建模,并且限制每条短文本只有一个主题。
其中,在本发明的一个实施例中,对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
具体地,LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)是目前最常用的文本主题模型,LDA是一个概率语言模型,应用到文本建模领域,就是对文本进行隐性语义分析,目的是要以无监督学习方法从文本中发现隐含的语义维度-主题。隐性语义分析实质是要利用文本中词项的共现特征来发现文本的主题结构,这种方法不需要任何关于文本的先验知识。文本的语义表示可以对“一词多义”和“一义多词”的语言现象进行建模。
LDA假设这样一个文本产生过程:如果要写d篇文档,其中涉及K个主题,每个主题下的单词分布为一个从参数为β的狄利克雷先验分布中采样出来的多项式分布。对于每一篇文档,首先从一个泊松分布中采样一个数值作为文档长度,再从一个参数为α的狄利克雷先验分布中采样出一个多项式分布作为该文档里面出现每个主题下词的概率;假设现在要写某篇文档的第n个词,首先从该文档中出现每个主题的多项式分布中采样出一个主题,然后再从这个主题对应的词的多项式分布中采样出一个词作为第n个词。不断重复这个随机过程,直到d篇文档写完。LDA的数学描述语言如图3所示,其转化成概率图模型如图4所示,图中K为主题个数,D为文档总数,β是每个主题下词的多项式分布的狄利克雷先验参数,α是每篇文档下主题的多项式分布的狄利克雷先验参数。
其中,LDA中的变量z、θ、φ都是未知的隐含变量,也是需要根据文档集合中的词来学习估计的,至于如何学习就是概率图模型中的推断问题,LDA模型推断一般使用吉布斯采样。
短文本由于数据稀疏性问题导致使用传统的主题模型并不能学习到很好的主题。因此提出了一系列针对短文本领域的主题模型,BTM(Biterm Topic Model,双词对主题模型)的特点是通过建模双词的产生来学习主题。这里的“双词”指的是一个在同一个上下文中共现的无序词对。假设一个双词中的两个词来源于同一个主题,而这个主题则是来源于整个语料文本上的一个主体分布。
其中,BTM通过建模文档集合中每个双词的产生过程来学习主题。其关键思想是两个词对共现次数越多,它们越可能属于同一个主题。BTM的产生式过程描述如图5所示,其转化成概率图模型如图6所示,
在步骤S104中,获每条短文本潜在的单个主题。
即言,对短文本进行自动建模,获取短文本潜在的单个主题。
具体地,采用单主题的双词对主题模型算法,在吉布斯采样时,强制限定每条微博只有一个主题,也就是只在一个主题下进行采样,从而主题模型对微博内容进行自动建模,得到主题下的Top K个关键词。
进一步地,在本发明的一个实施例中,还包括:在自动建模之后,获取主题下的TopK个关键词;对获取的单个主题和主题下的Top K个关键词进行可视化展示。
也就是说,利用得到的每个主题和主题的Top K个关键词,对它们进行可视化展示。
在本发明的实施例中,主要目的是对短文本进行自动主题建模,挖掘短文本的潜在主题,从而可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的。
根据本发明实施例提出的面向短文本的单主题挖掘方法,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
其次参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘系统。
图7是本发明一个实施例的面向短文本的单主题挖掘系统的结构示意图。
如图7所示,该面向短文本的单主题挖掘系统10包括:数据采集模块100、数据处理模块200、主题建模模块300和获取模块400。
其中,数据采集模块100用于采集多条短文本。数据处理模块200用于对多条短文本的每条短文本进行预处理。主题建模模块300用于对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题。获取模块400用于获每条短文本潜在的单个主题。本发明实施例的系统10可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
进一步地,在本发明的一个实施例中,主题建模模块300还用于:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
进一步地,在本发明的一个实施例中,数据处理模块200包括:抽取单元、分词单元和筛选单元。
其中,抽取单元用于抽取文本内容,并且清除文本内容中杂乱信息。分词单元,用于对清理后的文本内容进行分词处理,以计算每个词语的词频。筛选单元,用于去掉词频低于预设值的词语。
进一步地,在本发明的一个实施例中,如图8所示,本发明实施例的系统10还包括:主题可视化模块500。其中,主题可视化模块500用于在自动建模之后,获取主题下的TopK个关键词,并且对获取的单个主题和主题下的Top K个关键词进行可视化展示。
具体而言,本发明实施例的系统10对短文本进行自动主题建模,挖掘每条短文本的单个潜在主题,包含两个阶段:首先是系统10的自动预处理阶段,对获取的微博文本内容进行预处理包括去除html标签、URL、图片等无关信息,然后进行中文分词处理,并且计算词频,对处于停用词表和低词频的词语剔除;系统10实时对新微博数据进行主题建模,得到每条微博的潜在主题和该主题下的Top k个关键词。
可以理解的是,如图8所示,整个系统10自顶向下可以分成三大主要层次,顶层是主题和关键词展示模块,即主题可视化模块500;中间是主题建模模块300;底层是数据获取和预处理模块,即数据采集模块100、数据处理模块200和获取模块400。
其中,主题可视化模块500主要是给用户提供一个图形化的友好的用户操作界面,以方便浏览各个主题。主题建模模块300主要是利用单主题双词对主题模型对短文本进行建模。底层功能模块(数据采集模块100、数据处理模块200和获取模块400)主要是数据获取、储存和预处理。
需要注意的是,本发明实施例的系统10的实施采用了如下相关技术:爬虫技术、文本数据清洗技术、主题模型建话题推荐技术等核心技术。这些算法和图形用户界面等功能模块分别用Python和Java语言开发实现,并且支持基于Linux内核的操作系统部署。
基于上述开发平台,整个自动评估系统的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层,预测系统可以在基于Linux内核的平台之上运行;同时还需要程序运行支撑环境,也就是Python2.7和JRE1.6运行支撑环境,数据库使用MongoDB。只有具备了上述支撑环境,评估系统才能正常地运行。
需要说明的是,前述对面向短文本的单主题挖掘方法实施例的解释说明也适用于该实施例的面向短文本的单主题挖掘系统,此处不再赘述。
根据本发明实施例提出的面向短文本的单主题挖掘系统,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种面向短文本的单主题挖掘方法,其特征在于,包括以下步骤:
采集多条短文本;
对所述多条短文本的每条短文本进行预处理;
对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;以及
获所述每条短文本潜在的单个主题。
2.根据权利要求1所述的面向短文本的单主题挖掘方法,其特征在于,所述对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:
利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;
利用双词对主题模型从建模双词的产生来学习主题。
3.根据权利要求2所述的面向短文本的单主题挖掘方法,其特征在于,双词为在同一个上下文中共现的无序词对。
4.根据权利要求1所述的面向短文本的单主题挖掘方法,其特征在于,所述对多条短文本的每条短文本进行预处理包括:
抽取文本内容,并且清除所述文本内容中杂乱信息;
对清理后的所述文本内容进行分词处理,以计算每个词语的词频;
去掉词频低于预设值的词语。
5.根据权利要求1-4任一项所述的面向短文本的单主题挖掘方法,其特征在于,还包括:
在自动建模之后,获取主题下的Top K个关键词;
对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
6.一种面向短文本的单主题挖掘系统,其特征在于,包括:
数据采集模块,用于采集多条短文本;
数据处理模块,用于对所述多条短文本的每条短文本进行预处理;
主题建模模块,用于对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;以及
获取模块,用于获所述每条短文本潜在的单个主题。
7.根据权利要求6所述的面向短文本的单主题挖掘系统,其特征在于,所述主题建模模块还用于:
利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;
利用双词对主题模型从建模双词的产生来学习主题。
8.根据权利要求7所述的面向短文本的单主题挖掘系统,其特征在于,双词为在同一个上下文中共现的无序词对。
9.根据权利要求6所述的面向短文本的单主题挖掘系统,其特征在于,所述数据处理模块包括:
抽取单元,用于抽取文本内容,并且清除所述文本内容中杂乱信息;
分词单元,用于对清理后的所述文本内容进行分词处理,以计算每个词语的词频;
筛选单元,用于去掉词频低于预设值的词语。
10.根据权利要求6-9任一项所述的面向短文本的单主题挖掘系统,其特征在于,还包括:
主题可视化模块,用于在自动建模之后,获取主题下的Top K个关键词,并且对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710339996.2A CN107239509A (zh) | 2017-05-15 | 2017-05-15 | 面向短文本的单主题挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710339996.2A CN107239509A (zh) | 2017-05-15 | 2017-05-15 | 面向短文本的单主题挖掘方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107239509A true CN107239509A (zh) | 2017-10-10 |
Family
ID=59985058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710339996.2A Pending CN107239509A (zh) | 2017-05-15 | 2017-05-15 | 面向短文本的单主题挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239509A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN109299280A (zh) * | 2018-12-12 | 2019-02-01 | 河北工程大学 | 短文本聚类分析方法、装置和终端设备 |
CN110941721A (zh) * | 2019-09-28 | 2020-03-31 | 国家计算机网络与信息安全管理中心 | 基于变分自编码主题模型的短文本主题挖掘方法及系统 |
CN111241846A (zh) * | 2020-01-15 | 2020-06-05 | 沈阳工业大学 | 一种主题挖掘模型中主题维度自适应确定方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
-
2017
- 2017-05-15 CN CN201710339996.2A patent/CN107239509A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
Non-Patent Citations (4)
Title |
---|
宋蕾 等: "基于LDA主题建模的微博舆情分析系统研究", 《网络安全技术与应用》 * |
李卫疆 等: "基于BTM和K-means的微博话题检测", 《计算机科学》 * |
王亚民 等: "基于BTM的微博舆情热点发现", 《情报杂志》 * |
王文帅 等: "一种面向大规模微博数据的话题挖掘方法", 《计算机工程与应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取系统及方法 |
CN109299280A (zh) * | 2018-12-12 | 2019-02-01 | 河北工程大学 | 短文本聚类分析方法、装置和终端设备 |
CN110941721A (zh) * | 2019-09-28 | 2020-03-31 | 国家计算机网络与信息安全管理中心 | 基于变分自编码主题模型的短文本主题挖掘方法及系统 |
CN110941721B (zh) * | 2019-09-28 | 2022-09-20 | 国家计算机网络与信息安全管理中心 | 基于变分自编码主题模型的短文本主题挖掘方法及系统 |
CN111241846A (zh) * | 2020-01-15 | 2020-06-05 | 沈阳工业大学 | 一种主题挖掘模型中主题维度自适应确定方法 |
CN111241846B (zh) * | 2020-01-15 | 2023-05-26 | 沈阳工业大学 | 一种主题挖掘模型中主题维度自适应确定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977311B2 (en) | Dynamically modifying elements of user interface based on knowledge graph | |
US10303771B1 (en) | Utilizing machine learning models to identify insights in a document | |
US20220138404A1 (en) | Browsing images via mined hyperlinked text snippets | |
Li et al. | Filtering out the noise in short text topic modeling | |
US12332954B2 (en) | Systems and methods for intelligent content filtering and persistence | |
Rousseau et al. | Main core retention on graph-of-words for single-document keyword extraction | |
CN111538931B (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
US9652472B2 (en) | Service requirement analysis system, method and non-transitory computer readable storage medium | |
CN109948121A (zh) | 文章相似度挖掘方法、系统、设备及存储介质 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN107239509A (zh) | 面向短文本的单主题挖掘方法及系统 | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和系统 | |
CN113139599B (zh) | 一种融合词向量扩充和主题模型的服务分布式聚类方法 | |
Aziz et al. | Social network analytics: natural disaster analysis through twitter | |
Riadsolh et al. | Cloud-Based Sentiment Analysis for Measuring Customer Satisfaction in the Moroccan Banking Sector Using Na? ve Bayes and Stanford NLP | |
Yang et al. | Public cultural knowledge graph platform | |
Mashayekhi et al. | Microblog topic detection using evolutionary clustering and social network information | |
CN111538898A (zh) | 基于组合特征提取的Web服务包推荐方法及系统 | |
Singh et al. | User specific context construction for personalized multimedia retrieval | |
Tohalino et al. | Using citation networks to evaluate the impact of text length on the identification of relevant concepts | |
Yuan et al. | OPO: Online public opinion analysis system over text streams | |
CN102890715A (zh) | 一种特定领域信息自动化组织的装置及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171010 |
|
RJ01 | Rejection of invention patent application after publication |