CN107239509A - 面向短文本的单主题挖掘方法及系统 - Google Patents

面向短文本的单主题挖掘方法及系统 Download PDF

Info

Publication number
CN107239509A
CN107239509A CN201710339996.2A CN201710339996A CN107239509A CN 107239509 A CN107239509 A CN 107239509A CN 201710339996 A CN201710339996 A CN 201710339996A CN 107239509 A CN107239509 A CN 107239509A
Authority
CN
China
Prior art keywords
theme
short text
text
word
double words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710339996.2A
Other languages
English (en)
Inventor
徐华
李佳
孙晓民
邓俊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710339996.2A priority Critical patent/CN107239509A/zh
Publication of CN107239509A publication Critical patent/CN107239509A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向短文本的单主题挖掘方法及系统,其中,方法包括:采集多条短文本;对多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获每条短文本潜在的单个主题。该挖掘方法可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。

Description

面向短文本的单主题挖掘方法及系统
技术领域
本发明涉及计算机应用及社交网络技术领域,特别涉及一种面向短文本的单主题挖掘方法及系统。
背景技术
随着微博平台的蓬勃发展,越来越多的人开始关注一种新的信息承载方式:短文本。字如其意,短文本最大的特点就是文本长度很短,通常只有100个字。短文本的形式多种多样:微博内容、搜索引擎的query、即时通讯软件的聊天内容、BBS论坛的回帖。
短文本的第二个特点就是口语化严重,拼写随意。不同于传统诸如博客、新闻报道等网络长文本,短文本往往是个人用户表达情感,描述生活状态的信息载体,它们往往很随意,其中经常包含错别字、网络用语、文字加拼音的表示方式,甚至语法都不正确。
短文本的第三个特点是数量巨大,以微博平台为例,截止2016年12月,微博月活跃人数已达到3.13亿,较2015年同期相比增长34%,使得这么多的用户带来了海量的微博数据。
短文本的第四个特点是实时性要求高,由于短文本数量巨大且不断被产生,所以必须要进行实时处理,导致传统的有监督方法效果不如无监督方法。
因此,短文本的主题获取较为困难,且准确性较低,有待改进。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种面向短文本的单主题挖掘方法,该方法可以获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
本发明的另一个目的在于提出一种面向短文本的单主题挖掘系统。
为达到上述目的,本发明一方面实施例提出了一种面向短文本的单主题挖掘方法,包括以下步骤:采集多条短文本;对所述多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获所述每条短文本潜在的单个主题。
本发明实施例的面向短文本的单主题挖掘方法,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
另外,根据本发明上述实施例的面向短文本的单主题挖掘方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
进一步地,在本发明的一个实施例中,所述对多条短文本的每条短文本进行预处理包括:抽取文本内容,并且清除所述文本内容中杂乱信息;对清理后的所述文本内容进行分词处理,以计算每个词语的词频;去掉词频低于预设值的词语。
进一步地,在本发明的一个实施例中,还包括:在自动建模之后,获取主题下的TopK个关键词;对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
为达到上述目的,本发明另一方面实施例提出了一种面向短文本的单主题挖掘系统,包括:数据采集模块,用于采集多条短文本;数据处理模块,用于对所述多条短文本的每条短文本进行预处理;主题建模模块,用于对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获取模块,用于获所述每条短文本潜在的单个主题。
本发明实施例的面向短文本的单主题挖掘系统,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
另外,根据本发明上述实施例的面向短文本的单主题挖掘系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述主题建模模块还用于:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
进一步地,在本发明的一个实施例中,所述数据处理模块包括:抽取单元,用于抽取文本内容,并且清除所述文本内容中杂乱信息;分词单元,用于对清理后的所述文本内容进行分词处理,以计算每个词语的词频;筛选单元,用于去掉词频低于预设值的词语。
进一步地,在本发明的一个实施例中,还包括:主题可视化模块,用于在自动建模之后,获取主题下的Top K个关键词,并且对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的面向短文本的单主题挖掘方法的流程图;
图2为根据本发明一个实施例的面向短文本的单主题挖掘方法的流程图;
图3为根据本发明一个实施例的LDA的数学描述语言的示意图;
图4为根据本发明一个实施例的LDA的数学描述语言的概率图模型示意图;
图5为根据本发明一个实施例的BTM的产生式过程描述的示意图;
图6为根据本发明一个实施例的BTM的产生式过程描述的概率图模型示意图;
图7为根据本发明实施例的面向短文本的单主题挖掘系统的结构示意图;
图8为根据本发明一个实施例的面向短文本的单主题挖掘系统的工作流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘方法及系统,首先将参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘方法。
图1是本发明一个实施例的面向短文本的单主题挖掘方法的流程图。
如图1所示,该面向短文本的单主题挖掘方法包括以下步骤:
在步骤S101中,采集多条短文本。
举例而言,如图2所示,本发明实施例可以利用爬虫技术获取微博平台如新浪微博上的微博内容,如利用Python语言撰写爬虫程序,对门户网站的新闻进行爬取并储存到后台MongoDB数据库中。
在步骤S102中,对多条短文本的每条短文本进行预处理。
进一步地,在本发明的一个实施例中,对多条短文本的每条短文本进行预处理包括:抽取文本内容,并且清除文本内容中杂乱信息;对清理后的文本内容进行分词处理,以计算每个词语的词频;去掉词频低于预设值的词语。
可以理解的是,对获取的微博文本内容进行数据预处理:首先抽取文本内容,由于爬虫获取的是原始数据,其中含有大量对文本摘要无关的杂乱信息,比如html标签、URL、图片等,将这些无关内容清楚;然后对清理后的文本内容做中文分词处理;进一步对分词后的词语计算词频,将大量的低词频词语去掉。
在步骤S103中,对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题。
可以理解的是,本发明实施例提出了新的面向短文本的单主题双词对主题模型算法,不但能对短文本进行主题自动建模,并且限制每条短文本只有一个主题。
其中,在本发明的一个实施例中,对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
具体地,LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)是目前最常用的文本主题模型,LDA是一个概率语言模型,应用到文本建模领域,就是对文本进行隐性语义分析,目的是要以无监督学习方法从文本中发现隐含的语义维度-主题。隐性语义分析实质是要利用文本中词项的共现特征来发现文本的主题结构,这种方法不需要任何关于文本的先验知识。文本的语义表示可以对“一词多义”和“一义多词”的语言现象进行建模。
LDA假设这样一个文本产生过程:如果要写d篇文档,其中涉及K个主题,每个主题下的单词分布为一个从参数为β的狄利克雷先验分布中采样出来的多项式分布。对于每一篇文档,首先从一个泊松分布中采样一个数值作为文档长度,再从一个参数为α的狄利克雷先验分布中采样出一个多项式分布作为该文档里面出现每个主题下词的概率;假设现在要写某篇文档的第n个词,首先从该文档中出现每个主题的多项式分布中采样出一个主题,然后再从这个主题对应的词的多项式分布中采样出一个词作为第n个词。不断重复这个随机过程,直到d篇文档写完。LDA的数学描述语言如图3所示,其转化成概率图模型如图4所示,图中K为主题个数,D为文档总数,β是每个主题下词的多项式分布的狄利克雷先验参数,α是每篇文档下主题的多项式分布的狄利克雷先验参数。
其中,LDA中的变量z、θ、φ都是未知的隐含变量,也是需要根据文档集合中的词来学习估计的,至于如何学习就是概率图模型中的推断问题,LDA模型推断一般使用吉布斯采样。
短文本由于数据稀疏性问题导致使用传统的主题模型并不能学习到很好的主题。因此提出了一系列针对短文本领域的主题模型,BTM(Biterm Topic Model,双词对主题模型)的特点是通过建模双词的产生来学习主题。这里的“双词”指的是一个在同一个上下文中共现的无序词对。假设一个双词中的两个词来源于同一个主题,而这个主题则是来源于整个语料文本上的一个主体分布。
其中,BTM通过建模文档集合中每个双词的产生过程来学习主题。其关键思想是两个词对共现次数越多,它们越可能属于同一个主题。BTM的产生式过程描述如图5所示,其转化成概率图模型如图6所示,
在步骤S104中,获每条短文本潜在的单个主题。
即言,对短文本进行自动建模,获取短文本潜在的单个主题。
具体地,采用单主题的双词对主题模型算法,在吉布斯采样时,强制限定每条微博只有一个主题,也就是只在一个主题下进行采样,从而主题模型对微博内容进行自动建模,得到主题下的Top K个关键词。
进一步地,在本发明的一个实施例中,还包括:在自动建模之后,获取主题下的TopK个关键词;对获取的单个主题和主题下的Top K个关键词进行可视化展示。
也就是说,利用得到的每个主题和主题的Top K个关键词,对它们进行可视化展示。
在本发明的实施例中,主要目的是对短文本进行自动主题建模,挖掘短文本的潜在主题,从而可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的。
根据本发明实施例提出的面向短文本的单主题挖掘方法,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
其次参照附图描述根据本发明实施例提出的面向短文本的单主题挖掘系统。
图7是本发明一个实施例的面向短文本的单主题挖掘系统的结构示意图。
如图7所示,该面向短文本的单主题挖掘系统10包括:数据采集模块100、数据处理模块200、主题建模模块300和获取模块400。
其中,数据采集模块100用于采集多条短文本。数据处理模块200用于对多条短文本的每条短文本进行预处理。主题建模模块300用于对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题。获取模块400用于获每条短文本潜在的单个主题。本发明实施例的系统10可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
进一步地,在本发明的一个实施例中,主题建模模块300还用于:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。
进一步地,在本发明的一个实施例中,双词为在同一个上下文中共现的无序词对。
进一步地,在本发明的一个实施例中,数据处理模块200包括:抽取单元、分词单元和筛选单元。
其中,抽取单元用于抽取文本内容,并且清除文本内容中杂乱信息。分词单元,用于对清理后的文本内容进行分词处理,以计算每个词语的词频。筛选单元,用于去掉词频低于预设值的词语。
进一步地,在本发明的一个实施例中,如图8所示,本发明实施例的系统10还包括:主题可视化模块500。其中,主题可视化模块500用于在自动建模之后,获取主题下的TopK个关键词,并且对获取的单个主题和主题下的Top K个关键词进行可视化展示。
具体而言,本发明实施例的系统10对短文本进行自动主题建模,挖掘每条短文本的单个潜在主题,包含两个阶段:首先是系统10的自动预处理阶段,对获取的微博文本内容进行预处理包括去除html标签、URL、图片等无关信息,然后进行中文分词处理,并且计算词频,对处于停用词表和低词频的词语剔除;系统10实时对新微博数据进行主题建模,得到每条微博的潜在主题和该主题下的Top k个关键词。
可以理解的是,如图8所示,整个系统10自顶向下可以分成三大主要层次,顶层是主题和关键词展示模块,即主题可视化模块500;中间是主题建模模块300;底层是数据获取和预处理模块,即数据采集模块100、数据处理模块200和获取模块400。
其中,主题可视化模块500主要是给用户提供一个图形化的友好的用户操作界面,以方便浏览各个主题。主题建模模块300主要是利用单主题双词对主题模型对短文本进行建模。底层功能模块(数据采集模块100、数据处理模块200和获取模块400)主要是数据获取、储存和预处理。
需要注意的是,本发明实施例的系统10的实施采用了如下相关技术:爬虫技术、文本数据清洗技术、主题模型建话题推荐技术等核心技术。这些算法和图形用户界面等功能模块分别用Python和Java语言开发实现,并且支持基于Linux内核的操作系统部署。
基于上述开发平台,整个自动评估系统的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层,预测系统可以在基于Linux内核的平台之上运行;同时还需要程序运行支撑环境,也就是Python2.7和JRE1.6运行支撑环境,数据库使用MongoDB。只有具备了上述支撑环境,评估系统才能正常地运行。
需要说明的是,前述对面向短文本的单主题挖掘方法实施例的解释说明也适用于该实施例的面向短文本的单主题挖掘系统,此处不再赘述。
根据本发明实施例提出的面向短文本的单主题挖掘系统,可以对各种形式的短文本进行自动预处理,自动主题建模,实现挖掘潜在主题的目的,不但可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种面向短文本的单主题挖掘方法,其特征在于,包括以下步骤:
采集多条短文本;
对所述多条短文本的每条短文本进行预处理;
对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;以及
获所述每条短文本潜在的单个主题。
2.根据权利要求1所述的面向短文本的单主题挖掘方法,其特征在于,所述对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:
利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;
利用双词对主题模型从建模双词的产生来学习主题。
3.根据权利要求2所述的面向短文本的单主题挖掘方法,其特征在于,双词为在同一个上下文中共现的无序词对。
4.根据权利要求1所述的面向短文本的单主题挖掘方法,其特征在于,所述对多条短文本的每条短文本进行预处理包括:
抽取文本内容,并且清除所述文本内容中杂乱信息;
对清理后的所述文本内容进行分词处理,以计算每个词语的词频;
去掉词频低于预设值的词语。
5.根据权利要求1-4任一项所述的面向短文本的单主题挖掘方法,其特征在于,还包括:
在自动建模之后,获取主题下的Top K个关键词;
对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
6.一种面向短文本的单主题挖掘系统,其特征在于,包括:
数据采集模块,用于采集多条短文本;
数据处理模块,用于对所述多条短文本的每条短文本进行预处理;
主题建模模块,用于对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;以及
获取模块,用于获所述每条短文本潜在的单个主题。
7.根据权利要求6所述的面向短文本的单主题挖掘系统,其特征在于,所述主题建模模块还用于:
利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;
利用双词对主题模型从建模双词的产生来学习主题。
8.根据权利要求7所述的面向短文本的单主题挖掘系统,其特征在于,双词为在同一个上下文中共现的无序词对。
9.根据权利要求6所述的面向短文本的单主题挖掘系统,其特征在于,所述数据处理模块包括:
抽取单元,用于抽取文本内容,并且清除所述文本内容中杂乱信息;
分词单元,用于对清理后的所述文本内容进行分词处理,以计算每个词语的词频;
筛选单元,用于去掉词频低于预设值的词语。
10.根据权利要求6-9任一项所述的面向短文本的单主题挖掘系统,其特征在于,还包括:
主题可视化模块,用于在自动建模之后,获取主题下的Top K个关键词,并且对获取的所述单个主题和所述主题下的Top K个关键词进行可视化展示。
CN201710339996.2A 2017-05-15 2017-05-15 面向短文本的单主题挖掘方法及系统 Pending CN107239509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710339996.2A CN107239509A (zh) 2017-05-15 2017-05-15 面向短文本的单主题挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710339996.2A CN107239509A (zh) 2017-05-15 2017-05-15 面向短文本的单主题挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN107239509A true CN107239509A (zh) 2017-10-10

Family

ID=59985058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710339996.2A Pending CN107239509A (zh) 2017-05-15 2017-05-15 面向短文本的单主题挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN107239509A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及系统
CN111241846A (zh) * 2020-01-15 2020-06-05 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
宋蕾 等: "基于LDA主题建模的微博舆情分析系统研究", 《网络安全技术与应用》 *
李卫疆 等: "基于BTM和K-means的微博话题检测", 《计算机科学》 *
王亚民 等: "基于BTM的微博舆情热点发现", 《情报杂志》 *
王文帅 等: "一种面向大规模微博数据的话题挖掘方法", 《计算机工程与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN109299280A (zh) * 2018-12-12 2019-02-01 河北工程大学 短文本聚类分析方法、装置和终端设备
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及系统
CN110941721B (zh) * 2019-09-28 2022-09-20 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及系统
CN111241846A (zh) * 2020-01-15 2020-06-05 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法
CN111241846B (zh) * 2020-01-15 2023-05-26 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法

Similar Documents

Publication Publication Date Title
US10303771B1 (en) Utilizing machine learning models to identify insights in a document
Mei et al. A probabilistic approach to spatiotemporal theme pattern mining on weblogs
CN107578292B (zh) 一种用户画像构建系统
Bourequat et al. Sentiment analysis approach for analyzing iPhone release using support vector machine
CN112395539B (zh) 一种基于自然语言处理的舆情风险监测方法及系统
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
Ansari Cost-based text understanding to improve maintenance knowledge intelligence in manufacturing enterprises
CN104991956A (zh) 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN103425799A (zh) 基于主题的个性化研究方向推荐系统和推荐方法
CN107239509A (zh) 面向短文本的单主题挖掘方法及系统
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN106202574A (zh) 面向微博平台话题推荐的评估方法及装置
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
Mehndiratta et al. Identification of sarcasm using word embeddings and hyperparameters tuning
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
Abid et al. Spam SMS filtering based on text features and supervised machine learning techniques
Balli et al. Sentimental analysis of Twitter users from Turkish content with natural language processing
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
Schatten et al. An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research
Aziz et al. Social network analytics: natural disaster analysis through twitter
CN107391674B (zh) 一种新类挖掘方法及装置
CN106372147B (zh) 基于文本网络的异构主题网络构建和可视化方法
Yin et al. Research of integrated algorithm establishment of a spam detection system
Liu et al. Oasis: online analytic system for incivility detection and sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171010