CN105447179B

CN105447179B - 基于微博社交网络的话题自动推荐方法及其系统

Info

Publication number: CN105447179B
Application number: CN201510924866.6A
Authority: CN
Inventors: 徐华; 李佳
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2019-02-05
Anticipated expiration: 2035-12-14
Also published as: CN105447179A

Abstract

本发明公开了一种基于微博社交网络的话题自动推荐方法及其系统，方法包括：对每条微博内容进行预处理；使用增量双词主题模型对预处理后的文字内容进行主题预测，得到每条微博对应的主题；根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型；根据隐含狄利克雷分布模型挖掘用户的兴趣分布；从新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布，并删除发布最早的微博内容；根据用户的兴趣分布向用户推荐相应内容。本发明具有如下优点：对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理，也能在很多自然语言处理应用场景下提高现有系统的准确性。

Description

基于微博社交网络的话题自动推荐方法及其系统

技术领域

本发明涉及计算机应用技术与社交网络领域，具体涉及一种基于微博社交网络的话题自动推荐方法及其系统。

背景技术

近年来，微博平台的兴起极大激发了人们发布与分享信息的兴趣，越来越多的网民加入到这些社交网站成为其内容贡献者。用户除了分享信息外，更注重人与人之间的交流，因此其内容都比较随意和口语化，而且简短。比如新浪微博限制其每条消息长度不能超过140个字。

在当今互联网，短文本的流行有着必然性，即它能很好的适应信息产生与传播速度不断增长的要求。从用户角度考虑，发布一篇长文本文档需要耗费较长的时间和精力编写。而短文本信息则风格随意，编写简单，发布起来没有任何门槛。其次，从信息接受者角度考虑，短文本对信息的表达更加简约紧凑、来源更丰富，使得用户可以利用碎片化时间更快更多的获取信息。

互联网特别是基于微博的社交网络平台上的海量文本数据是一座有待开采的金矿，其中蕴含着丰富的有价值信息。这些信息对很多应用多有重要意义。然而如何从这些短文本中挖掘有价值的信息却并不简单。这些短文本内容很稀疏，导致上下文相关信息严重不足，并且通常包含很多新生词汇、无关信息，给文本语义分析带来了很大困难。

在Web2.0时代前，短文本在互联网上并非主流，与其相关的语义处理分析研究并不多见。一个相关的研究方向是信息检索领域的对查血理解和处理。通常查询长度在5个词以内，查询也是一种典型的短文本。早期的信息检索主要基于向量空间模型或者统计语言模型来计算查询文本和文档直接的相似度。这种简单的处理方式只能搜索到那些至少包含一个查询词的文档，无法检索那些从语义上更加相关而词汇不匹配的文档。

近年来，伴随着短文本在互联网应用中的增多，短文本挖掘相关研究也逐渐受到重视，研究者们尝试了多种方法来改进短文本语义分析与处理。而其中针对短文本主题模型的研究更是受到广泛关注。在这些工作中，为了克服短文本内容稀疏问题作出了很多尝试。例如，很多人将多条微博聚合，形成一篇长文档，再利用经典的话题模型对其进行语义分析。这种聚合方式，实际上可以看成是利用内部数据来扩充原来的短文本文档。但是很多应用场合需要对单条微博内容进行语义分析，这就使得我们不能采用聚合方式的语义分析主题模型，因此，针对短文本的主题模型研究一直是一个重要课题。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种基于微博社交网络的话题自动推荐方法。

本发明的第二个目的在于提出一种基于微博社交网络的话题自动推荐系统。

为了实现上述目的，本发明的实施例公开了一种基于微博社交网络的话题自动推荐方法，包括以下步骤：S1：对用户的每条微博内容进行预处理，预处理后文字内容至少包括两个词；S2：使用增量双词主题模型对所述预处理后的文字内容进行主题预测，得到每条微博对应的主题；S3：根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型；S4：根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布；S5：从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布，并删除发布时间最早的微博内容；以及S6：根据所述用户的兴趣分布向所述用户推荐相应内容。。

根据本发明实施例的基于微博社交网络的话题自动推荐方法，对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理，也能在自然语言处理很多应用场景下提高现有系统的准确性。

另外，根据本发明上述实施例的基于微博社交网络的话题自动推荐方法，还可以具有如下附加的技术特征：

进一步地，所述关键词包括文字内容、微博序列和微博发布时间。

进一步地，所述步骤S2进一步包括：S201：从进行预数理后的文字内容中选取多个双词，并根据所述增量双词主题模型对多个所述双词采用对应的主题；S202：对于每个双词，从所述双词中抽取部分信息构成再生双词序列，其中，所述再生双词序列包括多个双词，所述再生双词序列中的每个双词，根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。

为了实现上述目的，本发明的实施例公开了一种基于微博社交网络的话题自动推荐系统，包括：数据预处理模块，用于对用户的每条微博内容进行预处理，预处理后的文字内容至少包括两个关键词；主题预测模块，用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测，得到每条微博对应的主题；主题建模模块，用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型；兴趣分布挖掘模块，用于根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布，还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布，并删除发布时间最早的微博内容；以及话题推荐展示模块，用于根据所述用户的兴趣分布推荐预设数量的话题。

根据本发明实施例的基于微博社交网络的话题自动推荐系统，对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理，也能在自然语言处理很多应用场景下提高现有系统的准确性。

另外，根据本发明上述实施例的基于微博社交网络的话题自动推荐系统，还可以具有如下附加的技术特征：

进一步地，所述数据预处理模块包括：数据清洗模块，用于对所述用户微博中获取的数据进行数据清洗，并将清洗后的关键词放入词袋模型；时间获取模块，用于获取用户发布微博的时间信息；关联微博文档建立模块，用于取每个用户固定数量的最新发布的微博构成；以及双词抽取模块，用于将微博按照发布时间整理成序列化数据，从中抽取最近发布的预设数量个双词。

进一步地，所述主题建模模块包括：双词选取模块，用于从进行预数理后的文字内容中选取多个双词；增量双词主题模型，用于对多个所述双词采用对应的主题；信息抽取模块，用于从所述双词中抽取部分信息构成再生双词序列，其中，所述再生双词序列包括多个双词，所述再生双词序列中的每个双词，根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于微博社交网络的话题自动推荐方法的流程图；

图2是本发明一个实施例的基于微博社交网络的话题自动推荐系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述根据本发明实施例的基于微博社交网络的话题自动推荐方法。

图1是本发明一个实施例的基于微博社交网络的话题自动推荐方法的流程图。

请参考图1，本发明实施例的基于微博社交网络的话题自动推荐方法，包括以下步骤：

S1：对用户的每条微博内容进行预处理，预处理后文字内容至少包括两个词。

具体地，去除微博文本中的杂乱信息比如@信息、URL信息、图片信息等，然后对中文微博内容进行分词处理，考虑到增量双词主题模型要求每条微博至少含有两个词，进一步将只含有一个词的微博去掉。本发明的数据主要是微博社交网络的流文本数据有用的信息包括：微博内容、微博序列、微博发送时间。

S2：使用增量双词主题模型对所述预处理后的文字内容进行主题预测，得到每条微博对应的主题。在本发明的一个实施例中，步骤S2进一步包括：

S201：从进行预数理后的文字内容中选取多个双词，并根据所述增量双词主题模型对多个所述双词采用对应的主题。

具体地，增量双词主题模型(Incremental Biterm Topic Model,IBTM)是双词主题模型在流数据上的扩展，利用了增量吉布斯算法。具体地说，IBTM每接收一个新的双词会做两步操作来更新模型。和传统的吉布斯采样算法一样，会对双词b采样一个主题。

S202：对于每个双词，从所述双词中抽取部分信息构成再生双词序列，其中，所述再生双词序列包括多个双词，所述再生双词序列中的每个双词，根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。

具体地，随机地从之前的双词中抽取一小部分，构成一个再生双词序列R。对于该序列中的每个双词b，从条件概率P(z|所有双词)中重新采样它的主题z，以修正之前由于数据不足导致的采样偏差。

在IBTM中如何产生再生双词序列R是一个重要问题。首先，到底选择多少个双词来重采样对IBTM算法的效果和性能有直接影响。R的双词越多，则采样越充分，从而对后验概率估计也就更准确，但另一方面，R的双词个数越多，每次处理一个新双词的计算量也会相应的增加。双词数目非常多的情况下，计算时间的增加异常显著。通过不断地实验，我们最终采用一个固定大小的滑动窗口内的均匀分布来采样R中的元素。假设窗口大小为L，我们会存储最近的L个双词作为候选序列，由于滑动窗口大小固定，我们只需要存储前L个双词，通常L远小于总的双词数，可以有效控制系统的内存消耗。

S3：根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型。

S4：根据隐含狄利克雷分布模型挖掘所述用户的兴趣分布。

具体地，根据步骤S3和S4可以挖掘用户的兴趣分布，但这种方法无法挖掘出动态兴趣。

S5：从用户新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布，并删除发布时间最早的微博内容。

具体地，本发明的实施例使用了在线计算的方法，即每当用户发送新的微博内容，首先利用已训练出的隐含狄利克雷分布预测主题分布，注这里的主题代指用户兴趣，然后将新微博内容加入用户文档，从中随机抽取一定数量的微博内容重新进行主题预测，最后，将用户文档中发布时间最早的微博从用户文档中去掉。

S6：根据用户的兴趣分布向用户推荐相应内容。

具体地，从用户的最大概率兴趣对应的词分布中选择TOP 10个词作为话题推荐给用户；如果微博的K个主题概率不平均分布，表明当前这条微博有很强的主题暗示性，我们会从其最大主题对应的词分布中选择TOP 10个词作为话题推荐给用户。

图2是本发明一个实施例的基于微博社交网络的话题自动推荐方法的结构示意图。请参考图2，本发明实施例的基于微博社交网络的话题自动推荐系统200，包括数据预处理模块210、主题预测模块220、主题建模模块230、兴趣分布挖掘模块240和话题推荐展示模块250。

数据预处理模块210用于对用户的每条微博内容进行预处理，预处理后的文字内容至少包括两个关键词。

在本发明的一个实施例中，数据预处理模块210包括：数据清洗模块，用于对用户微博中获取的数据进行数据清洗，并将清洗后的关键词放入词袋模型。时间获取模块用于获取用户发布微博的时间信息。关联微博文档建立模块用于取每个用户固定数量的最新发布的微博构成。双词抽取模块用于将微博按照发布时间整理成序列化数据，从中抽取最近发布的预设数量个双词。

具体地，数据预处理模块210去除微博文本中的杂乱信息比如@信息、URL信息、图片信息等，然后对中文微博内容进行分词处理，考虑到增量双词主题模型要求每条微博至少含有两个词，进一步将只含有一个词的微博去掉。本发明的数据主要是微博社交网络的流文本数据有用的信息包括：微博内容、微博序列、微博发送时间。

主题预测模块220用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测，得到每条微博对应的主题。

在本发明的一个实施例中，主题建模模块220包括双词选取模块，用于从进行预数理后的文字内容中选取多个双词。增量双词主题模型，用于对多个所述双词采用对应的主题。信息抽取模块，用于从所述双词中抽取部分信息构成再生双词序列，其中，所述再生双词序列包括多个双词，所述再生双词序列中的每个双词，根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。

具体地，增量双词主题模型(Incremental Biterm Topic Model,IBTM)是双词主题模型在流数据上的扩展，利用了增量吉布斯算法。具体地说，IBTM每接收一个新的双词会做两步操作来更新模型。和传统的吉布斯采样算法一样，会对双词b采样一个主题。随机地从之前的双词中抽取一小部分，构成一个再生双词序列R。对于该序列中的每个双词b，从条件概率P(z|所有双词)中重新采样它的主题z，以修正之前由于数据不足导致的采样偏差。

主题建模模块230用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型。

兴趣分布挖掘模块240用于根据隐含狄利克雷分布模型挖掘用户的兴趣分布，还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布，并删除发布时间最早的微博内容。

具体地，对每个用户的微博内容进行聚合，得到每个用户的微博文档，使用隐含狄利克雷分布来挖掘用户的兴趣分布，但这种方法无法挖掘出动态兴趣。在此基础上引入了在线计算方法，即每当用户发送新的微博内容，首先利用已训练出的隐含狄利克雷分布预测主题分布，注这里的主题代指用户兴趣，然后将新微博内容加入用户文档，从中随机抽取一定数量的微博内容重新进行主题预测，最后，将用户文档中发布时间最早的微博从用户文档中去掉。

话题推荐展示模块250用于根据用户的兴趣分布推荐预设数量的话题。

另外，本发明实施例的基于微博社交网络的话题自动推荐方法及其系统的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种基于微博社交网络的话题自动推荐方法，其特征在于，包括以下步骤：

S1：对用户的每条微博内容进行预处理，预处理后文字内容至少包括两个词；

S2：使用增量双词主题模型对所述预处理后的文字内容进行主题预测，得到每条微博对应的主题；

S3：根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型；

S4：根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布；

S5：从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布，并删除发布时间最早的微博内容；以及

S6：根据所述用户重新挖掘的兴趣分布向所述用户推荐相应内容。

2.根据权利要求1所述的基于微博社交网络的话题自动推荐方法，其特征在于，所述步骤S2进一步包括：

S201：从进行预处理后的文字内容中选取多个双词，并根据所述增量双词主题模型对多个所述双词采用对应的主题；

3.一种基于微博社交网络的话题自动推荐系统，其特征在于，包括：

数据预处理模块，用于对用户的每条微博内容进行预处理，预处理后的文字内容至少包括两个关键词；

主题预测模块，用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测，得到每条微博对应的主题；

主题建模模块，用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型；

兴趣分布挖掘模块，用于根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布，还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布，并删除发布时间最早的微博内容；以及

话题推荐展示模块，用于根据所述用户重新挖掘的兴趣分布推荐预设数量的话题。

4.根据权利要求3所述的基于微博社交网络的话题自动推荐系统，其特征在于，所述数据预处理模块包括：

数据清洗模块，用于对所述用户微博中获取的数据进行数据清洗，并将清洗后的关键词放入词袋模型；

时间获取模块，用于获取用户发布微博的时间信息；

关联微博文档建立模块，用于获取每个用户固定数量的最新发布的微博构成关联微博文档；以及

双词抽取模块，用于按照微博发布时间将所述关联微博文档整理成序列化数据，从中抽取最近发布的预设数量个双词。

5.根据权利要求4所述的基于微博社交网络的话题自动推荐系统，其特征在于，所述主题建模模块包括：

双词选取模块，用于从进行预处理后的文字内容中选取多个双词；

增量双词主题模型，用于对多个所述双词采用对应的主题；

信息抽取模块，用于从所述双词中抽取部分信息构成再生双词序列，其中，所述再生双词序列包括多个双词，所述再生双词序列中的每个双词，根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。