CN105447179B - 基于微博社交网络的话题自动推荐方法及其系统 - Google Patents
基于微博社交网络的话题自动推荐方法及其系统 Download PDFInfo
- Publication number
- CN105447179B CN105447179B CN201510924866.6A CN201510924866A CN105447179B CN 105447179 B CN105447179 B CN 105447179B CN 201510924866 A CN201510924866 A CN 201510924866A CN 105447179 B CN105447179 B CN 105447179B
- Authority
- CN
- China
- Prior art keywords
- user
- content
- microblogging
- double
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000009826 distribution Methods 0.000 claims abstract description 24
- 230000007812 deficiency Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000008929 regeneration Effects 0.000 claims description 9
- 238000011069 regeneration method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 239000004744 fabric Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于微博社交网络的话题自动推荐方法及其系统,方法包括:对每条微博内容进行预处理;使用增量双词主题模型对预处理后的文字内容进行主题预测,得到每条微博对应的主题;根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;根据隐含狄利克雷分布模型挖掘用户的兴趣分布;从新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布,并删除发布最早的微博内容;根据用户的兴趣分布向用户推荐相应内容。本发明具有如下优点:对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理,也能在很多自然语言处理应用场景下提高现有系统的准确性。
Description
技术领域
本发明涉及计算机应用技术与社交网络领域,具体涉及一种基于微博社交网络的话题自动推荐方法及其系统。
背景技术
近年来,微博平台的兴起极大激发了人们发布与分享信息的兴趣,越来越多的网民加入到这些社交网站成为其内容贡献者。用户除了分享信息外,更注重人与人之间的交流,因此其内容都比较随意和口语化,而且简短。比如新浪微博限制其每条消息长度不能超过140个字。
在当今互联网,短文本的流行有着必然性,即它能很好的适应信息产生与传播速度不断增长的要求。从用户角度考虑,发布一篇长文本文档需要耗费较长的时间和精力编写。而短文本信息则风格随意,编写简单,发布起来没有任何门槛。其次,从信息接受者角度考虑,短文本对信息的表达更加简约紧凑、来源更丰富,使得用户可以利用碎片化时间更快更多的获取信息。
互联网特别是基于微博的社交网络平台上的海量文本数据是一座有待开采的金矿,其中蕴含着丰富的有价值信息。这些信息对很多应用多有重要意义。然而如何从这些短文本中挖掘有价值的信息却并不简单。这些短文本内容很稀疏,导致上下文相关信息严重不足,并且通常包含很多新生词汇、无关信息,给文本语义分析带来了很大困难。
在Web2.0时代前,短文本在互联网上并非主流,与其相关的语义处理分析研究并不多见。一个相关的研究方向是信息检索领域的对查血理解和处理。通常查询长度在5个词以内,查询也是一种典型的短文本。早期的信息检索主要基于向量空间模型或者统计语言模型来计算查询文本和文档直接的相似度。这种简单的处理方式只能搜索到那些至少包含一个查询词的文档,无法检索那些从语义上更加相关而词汇不匹配的文档。
近年来,伴随着短文本在互联网应用中的增多,短文本挖掘相关研究也逐渐受到重视,研究者们尝试了多种方法来改进短文本语义分析与处理。而其中针对短文本主题模型的研究更是受到广泛关注。在这些工作中,为了克服短文本内容稀疏问题作出了很多尝试。例如,很多人将多条微博聚合,形成一篇长文档,再利用经典的话题模型对其进行语义分析。这种聚合方式,实际上可以看成是利用内部数据来扩充原来的短文本文档。但是很多应用场合需要对单条微博内容进行语义分析,这就使得我们不能采用聚合方式的语义分析主题模型,因此,针对短文本的主题模型研究一直是一个重要课题。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种基于微博社交网络的话题自动推荐方法。
本发明的第二个目的在于提出一种基于微博社交网络的话题自动推荐系统。
为了实现上述目的,本发明的实施例公开了一种基于微博社交网络的话题自动推荐方法,包括以下步骤:S1:对用户的每条微博内容进行预处理,预处理后文字内容至少包括两个词;S2:使用增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;S3:根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;S4:根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布;S5:从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及S6:根据所述用户的兴趣分布向所述用户推荐相应内容。。
根据本发明实施例的基于微博社交网络的话题自动推荐方法,对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理,也能在自然语言处理很多应用场景下提高现有系统的准确性。
另外,根据本发明上述实施例的基于微博社交网络的话题自动推荐方法,还可以具有如下附加的技术特征:
进一步地,所述关键词包括文字内容、微博序列和微博发布时间。
进一步地,所述步骤S2进一步包括:S201:从进行预数理后的文字内容中选取多个双词,并根据所述增量双词主题模型对多个所述双词采用对应的主题;S202:对于每个双词,从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
为了实现上述目的,本发明的实施例公开了一种基于微博社交网络的话题自动推荐系统,包括:数据预处理模块,用于对用户的每条微博内容进行预处理,预处理后的文字内容至少包括两个关键词;主题预测模块,用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;主题建模模块,用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;兴趣分布挖掘模块,用于根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布,还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及话题推荐展示模块,用于根据所述用户的兴趣分布推荐预设数量的话题。
根据本发明实施例的基于微博社交网络的话题自动推荐系统,对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理,也能在自然语言处理很多应用场景下提高现有系统的准确性。
另外,根据本发明上述实施例的基于微博社交网络的话题自动推荐系统,还可以具有如下附加的技术特征:
进一步地,所述数据预处理模块包括:数据清洗模块,用于对所述用户微博中获取的数据进行数据清洗,并将清洗后的关键词放入词袋模型;时间获取模块,用于获取用户发布微博的时间信息;关联微博文档建立模块,用于取每个用户固定数量的最新发布的微博构成;以及双词抽取模块,用于将微博按照发布时间整理成序列化数据,从中抽取最近发布的预设数量个双词。
进一步地,所述主题建模模块包括:双词选取模块,用于从进行预数理后的文字内容中选取多个双词;增量双词主题模型,用于对多个所述双词采用对应的主题;信息抽取模块,用于从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于微博社交网络的话题自动推荐方法的流程图;
图2是本发明一个实施例的基于微博社交网络的话题自动推荐系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本发明实施例的基于微博社交网络的话题自动推荐方法。
图1是本发明一个实施例的基于微博社交网络的话题自动推荐方法的流程图。
请参考图1,本发明实施例的基于微博社交网络的话题自动推荐方法,包括以下步骤:
S1:对用户的每条微博内容进行预处理,预处理后文字内容至少包括两个词。
具体地,去除微博文本中的杂乱信息比如@信息、URL信息、图片信息等,然后对中文微博内容进行分词处理,考虑到增量双词主题模型要求每条微博至少含有两个词,进一步将只含有一个词的微博去掉。本发明的数据主要是微博社交网络的流文本数据有用的信息包括:微博内容、微博序列、微博发送时间。
S2:使用增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题。在本发明的一个实施例中,步骤S2进一步包括:
S201:从进行预数理后的文字内容中选取多个双词,并根据所述增量双词主题模型对多个所述双词采用对应的主题。
具体地,增量双词主题模型(Incremental Biterm Topic Model,IBTM)是双词主题模型在流数据上的扩展,利用了增量吉布斯算法。具体地说,IBTM每接收一个新的双词会做两步操作来更新模型。和传统的吉布斯采样算法一样,会对双词b采样一个主题。
S202:对于每个双词,从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
具体地,随机地从之前的双词中抽取一小部分,构成一个再生双词序列R。对于该序列中的每个双词b,从条件概率P(z|所有双词)中重新采样它的主题z,以修正之前由于数据不足导致的采样偏差。
在IBTM中如何产生再生双词序列R是一个重要问题。首先,到底选择多少个双词来重采样对IBTM算法的效果和性能有直接影响。R的双词越多,则采样越充分,从而对后验概率估计也就更准确,但另一方面,R的双词个数越多,每次处理一个新双词的计算量也会相应的增加。双词数目非常多的情况下,计算时间的增加异常显著。通过不断地实验,我们最终采用一个固定大小的滑动窗口内的均匀分布来采样R中的元素。假设窗口大小为L,我们会存储最近的L个双词作为候选序列,由于滑动窗口大小固定,我们只需要存储前L个双词,通常L远小于总的双词数,可以有效控制系统的内存消耗。
S3:根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型。
S4:根据隐含狄利克雷分布模型挖掘所述用户的兴趣分布。
具体地,根据步骤S3和S4可以挖掘用户的兴趣分布,但这种方法无法挖掘出动态兴趣。
S5:从用户新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布,并删除发布时间最早的微博内容。
具体地,本发明的实施例使用了在线计算的方法,即每当用户发送新的微博内容,首先利用已训练出的隐含狄利克雷分布预测主题分布,注这里的主题代指用户兴趣,然后将新微博内容加入用户文档,从中随机抽取一定数量的微博内容重新进行主题预测,最后,将用户文档中发布时间最早的微博从用户文档中去掉。
S6:根据用户的兴趣分布向用户推荐相应内容。
具体地,从用户的最大概率兴趣对应的词分布中选择TOP 10个词作为话题推荐给用户;如果微博的K个主题概率不平均分布,表明当前这条微博有很强的主题暗示性,我们会从其最大主题对应的词分布中选择TOP 10个词作为话题推荐给用户。
以下结合附图描述根据本发明实施例的基于微博社交网络的话题自动推荐方法。
图2是本发明一个实施例的基于微博社交网络的话题自动推荐方法的结构示意图。请参考图2,本发明实施例的基于微博社交网络的话题自动推荐系统200,包括数据预处理模块210、主题预测模块220、主题建模模块230、兴趣分布挖掘模块240和话题推荐展示模块250。
数据预处理模块210用于对用户的每条微博内容进行预处理,预处理后的文字内容至少包括两个关键词。
在本发明的一个实施例中,数据预处理模块210包括:数据清洗模块,用于对用户微博中获取的数据进行数据清洗,并将清洗后的关键词放入词袋模型。时间获取模块用于获取用户发布微博的时间信息。关联微博文档建立模块用于取每个用户固定数量的最新发布的微博构成。双词抽取模块用于将微博按照发布时间整理成序列化数据,从中抽取最近发布的预设数量个双词。
具体地,数据预处理模块210去除微博文本中的杂乱信息比如@信息、URL信息、图片信息等,然后对中文微博内容进行分词处理,考虑到增量双词主题模型要求每条微博至少含有两个词,进一步将只含有一个词的微博去掉。本发明的数据主要是微博社交网络的流文本数据有用的信息包括:微博内容、微博序列、微博发送时间。
主题预测模块220用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题。
在本发明的一个实施例中,主题建模模块220包括双词选取模块,用于从进行预数理后的文字内容中选取多个双词。增量双词主题模型,用于对多个所述双词采用对应的主题。信息抽取模块,用于从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
具体地,增量双词主题模型(Incremental Biterm Topic Model,IBTM)是双词主题模型在流数据上的扩展,利用了增量吉布斯算法。具体地说,IBTM每接收一个新的双词会做两步操作来更新模型。和传统的吉布斯采样算法一样,会对双词b采样一个主题。随机地从之前的双词中抽取一小部分,构成一个再生双词序列R。对于该序列中的每个双词b,从条件概率P(z|所有双词)中重新采样它的主题z,以修正之前由于数据不足导致的采样偏差。
在IBTM中如何产生再生双词序列R是一个重要问题。首先,到底选择多少个双词来重采样对IBTM算法的效果和性能有直接影响。R的双词越多,则采样越充分,从而对后验概率估计也就更准确,但另一方面,R的双词个数越多,每次处理一个新双词的计算量也会相应的增加。双词数目非常多的情况下,计算时间的增加异常显著。通过不断地实验,我们最终采用一个固定大小的滑动窗口内的均匀分布来采样R中的元素。假设窗口大小为L,我们会存储最近的L个双词作为候选序列,由于滑动窗口大小固定,我们只需要存储前L个双词,通常L远小于总的双词数,可以有效控制系统的内存消耗。
主题建模模块230用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型。
兴趣分布挖掘模块240用于根据隐含狄利克雷分布模型挖掘用户的兴趣分布,还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布,并删除发布时间最早的微博内容。
具体地,对每个用户的微博内容进行聚合,得到每个用户的微博文档,使用隐含狄利克雷分布来挖掘用户的兴趣分布,但这种方法无法挖掘出动态兴趣。在此基础上引入了在线计算方法,即每当用户发送新的微博内容,首先利用已训练出的隐含狄利克雷分布预测主题分布,注这里的主题代指用户兴趣,然后将新微博内容加入用户文档,从中随机抽取一定数量的微博内容重新进行主题预测,最后,将用户文档中发布时间最早的微博从用户文档中去掉。
话题推荐展示模块250用于根据用户的兴趣分布推荐预设数量的话题。
具体地,从用户的最大概率兴趣对应的词分布中选择TOP 10个词作为话题推荐给用户;如果微博的K个主题概率不平均分布,表明当前这条微博有很强的主题暗示性,我们会从其最大主题对应的词分布中选择TOP 10个词作为话题推荐给用户。
另外,本发明实施例的基于微博社交网络的话题自动推荐方法及其系统的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
Claims (5)
1.一种基于微博社交网络的话题自动推荐方法,其特征在于,包括以下步骤:
S1:对用户的每条微博内容进行预处理,预处理后文字内容至少包括两个词;
S2:使用增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;
S3:根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;
S4:根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布;
S5:从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及
S6:根据所述用户重新挖掘的兴趣分布向所述用户推荐相应内容。
2.根据权利要求1所述的基于微博社交网络的话题自动推荐方法,其特征在于,所述步骤S2进一步包括:
S201:从进行预处理后的文字内容中选取多个双词,并根据所述增量双词主题模型对多个所述双词采用对应的主题;
S202:对于每个双词,从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
3.一种基于微博社交网络的话题自动推荐系统,其特征在于,包括:
数据预处理模块,用于对用户的每条微博内容进行预处理,预处理后的文字内容至少包括两个关键词;
主题预测模块,用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;
主题建模模块,用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;
兴趣分布挖掘模块,用于根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布,还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及
话题推荐展示模块,用于根据所述用户重新挖掘的兴趣分布推荐预设数量的话题。
4.根据权利要求3所述的基于微博社交网络的话题自动推荐系统,其特征在于,所述数据预处理模块包括:
数据清洗模块,用于对所述用户微博中获取的数据进行数据清洗,并将清洗后的关键词放入词袋模型;
时间获取模块,用于获取用户发布微博的时间信息;
关联微博文档建立模块,用于获取每个用户固定数量的最新发布的微博构成关联微博文档;以及
双词抽取模块,用于按照微博发布时间将所述关联微博文档整理成序列化数据,从中抽取最近发布的预设数量个双词。
5.根据权利要求4所述的基于微博社交网络的话题自动推荐系统,其特征在于,所述主题建模模块包括:
双词选取模块,用于从进行预处理后的文字内容中选取多个双词;
增量双词主题模型,用于对多个所述双词采用对应的主题;
信息抽取模块,用于从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510924866.6A CN105447179B (zh) | 2015-12-14 | 2015-12-14 | 基于微博社交网络的话题自动推荐方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510924866.6A CN105447179B (zh) | 2015-12-14 | 2015-12-14 | 基于微博社交网络的话题自动推荐方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105447179A CN105447179A (zh) | 2016-03-30 |
CN105447179B true CN105447179B (zh) | 2019-02-05 |
Family
ID=55557355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510924866.6A Active CN105447179B (zh) | 2015-12-14 | 2015-12-14 | 基于微博社交网络的话题自动推荐方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105447179B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975497A (zh) * | 2016-04-27 | 2016-09-28 | 清华大学 | 微博话题自动推荐方法及装置 |
CN106055661B (zh) * | 2016-06-02 | 2017-11-17 | 福州大学 | 基于多Markov链模型的多兴趣资源推荐方法 |
CN106776579B (zh) * | 2017-01-19 | 2019-05-31 | 清华大学 | Biterm主题模型的采样加速方法 |
CN107463645A (zh) * | 2017-07-21 | 2017-12-12 | 雷锤智能科技南京有限公司 | 基于用户属性评分导向的个性化推荐系统及其推荐方法 |
CN107704503A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
CN107864192B (zh) * | 2017-10-25 | 2019-12-31 | Oppo广东移动通信有限公司 | 信息推送方法、装置、服务器以及可读存储介质 |
CN108536868B (zh) * | 2018-04-24 | 2022-04-15 | 北京慧闻科技(集团)有限公司 | 社交网络上短文本数据的数据处理方法及装置 |
CN108717445A (zh) * | 2018-05-17 | 2018-10-30 | 南京大学 | 一种基于历史数据的在线社交平台用户兴趣推荐方法 |
CN109190017B (zh) * | 2018-08-02 | 2020-11-10 | 腾讯科技(北京)有限公司 | 热点信息的确定方法、装置、服务器及存储介质 |
CN110162691B (zh) * | 2018-11-15 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 在线内容服务中的话题推荐、运营方法、装置和机器设备 |
CN110134788B (zh) * | 2019-05-16 | 2021-05-11 | 杭州师范大学 | 一种基于文本挖掘的微博发布优化方法及系统 |
CN110990592B (zh) * | 2019-11-07 | 2023-06-23 | 北京科技大学 | 一种微博突发话题在线检测方法及检测装置 |
CN111611380B (zh) * | 2020-05-19 | 2021-10-15 | 北京邮电大学 | 语义搜索方法、系统及计算机可读存储介质 |
CN111737590B (zh) * | 2020-05-22 | 2023-09-12 | 国家计算机网络与信息安全管理中心 | 社交关系挖掘方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793478A (zh) * | 2014-01-14 | 2014-05-14 | 四川大学 | 基于主题遗传的在线主题建模方法 |
CN103970863A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 |
KR101575683B1 (ko) * | 2014-12-23 | 2015-12-09 | 고려대학교 산학협력단 | 시간 흐름에 따른 문맥 기반 트렌드 분석 방법 |
CN105138665A (zh) * | 2015-09-02 | 2015-12-09 | 东南大学 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
-
2015
- 2015-12-14 CN CN201510924866.6A patent/CN105447179B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793478A (zh) * | 2014-01-14 | 2014-05-14 | 四川大学 | 基于主题遗传的在线主题建模方法 |
CN103970863A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 |
KR101575683B1 (ko) * | 2014-12-23 | 2015-12-09 | 고려대학교 산학협력단 | 시간 흐름에 따른 문맥 기반 트렌드 분석 방법 |
CN105138665A (zh) * | 2015-09-02 | 2015-12-09 | 东南大学 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
Non-Patent Citations (5)
Title |
---|
BTM: Topic Modeling over Short Texts;Xueqi Cheng et al;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20141231;第26卷(第12期);第2928-2941页 * |
Online Inference of Topics with Latent Dirichlet Allocation;Kevin R. Canini et al;《Proceedings of the 12th International Conference on Artificial Intelligence and Statistics (AISTATS)2009》;20091231;第65-72页 * |
TOMOHA: TOpic MOdel-based HAshtag Recommendation on Twitter;Jieying She et al;《WWW’14 Companion》;20140407;第371-372页 * |
一种基于LDA的在线主题演化挖掘模型;崔凯 等;《计算机科学》;20101130;第37卷(第11期);第156-159、193页 * |
基于动态LDA主题模型的内容主题挖掘与演化;胡吉明 等;《图书情报工作》;20140131;第58卷(第2期);第138-142页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105447179A (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105447179B (zh) | 基于微博社交网络的话题自动推荐方法及其系统 | |
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN105389349B (zh) | 词典更新方法及装置 | |
CN105095433B (zh) | 实体推荐方法及装置 | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
US11487946B2 (en) | Content editing using content modeling and semantic relevancy scoring | |
CN100483408C (zh) | 在多个文档之间建立链接结构的方法和装置 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN105187242B (zh) | 一种基于变长序列模式挖掘的用户异常行为检测方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN103390051A (zh) | 一种基于微博数据的话题发现与追踪方法 | |
US20160125028A1 (en) | Systems and methods for query rewriting | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
CN105787121B (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN103593371A (zh) | 推荐搜索关键词的方法和装置 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
Yao et al. | Provenance-based indexing support in micro-blog platforms | |
CN105389329A (zh) | 一种基于群体评论的开源软件推荐方法 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN103020212A (zh) | 一种基于用户查询日志实时发现热点视频的方法和装置 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN106445989A (zh) | 基于查询点击图的检索推荐模型优化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |