CN107766576A

CN107766576A - 一种微博用户兴趣特征的提取方法

Info

Publication number: CN107766576A
Application number: CN201711126633.7A
Authority: CN
Inventors: 马帅; 朱金海; 张晖; 刘骁; 张振宇; 胡春明
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-03-06

Abstract

本发明提出了一种微博用户兴趣特征的提取方法，其将微博映射到其对应的兴趣类别的步骤为：步骤1，将用户的每条微博进行分词；步骤2，通过计算分词结果与每个主题词库重合词的个数，选取个数高于阈值ε个数的主题为该微博的候选主题；步骤3，如果步骤2中没有获取具体的主题，则分别通过Twitter‑LDA和TF‑IDF获取两个带权关键词集合，通过word2vec获取两个关键词集合与每个细胞词库的相似度，选取相似性最高的m个类别作为该微博的候选主题；步骤4，得到用户所有微博的主题类别得到用户的主题分布作为用户兴趣特征的表达。

Description

一种微博用户兴趣特征的提取方法

技术领域

本发明涉及提取方法，尤其涉及一种微博用户兴趣特征的提取方法。

背景技术

在微博、twitter等社交媒体普及的同时，基于微博、twitter等各种应用也应允而生，其中，针对博主兴趣的分析推荐技术获得了很多的关注，其中关于微博的个性化推荐的学术研究也开始出现，例如基于地理位置信息的好友推荐、基于相同Tag信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等，然而这些个性化分析技术通常只考虑了博主的某部分相对片面的信息，却忽略了一个重要的目的，推荐的账号或话题是否能被博主接受，是其想要的、真正感兴趣的。传统的基于协同过滤的个性化推荐算法，根据博主之间的近似程度来选择推荐物品，这种方式虽然能够较好地完成各种推荐，然而这种忽略个体间差异性寻求共性的推荐方法，只能覆盖部分博主或博主的部分兴趣，不能完整的刻画博主的兴趣，如一些商业化的应用案例中，推荐系统只能向同类的账户推送相同的产品。这种只需考虑博主对商品的潜在购买欲或对一部电影期望观看指数的推荐算法，并不适合所有的系统，在微博中尤为如此。微博中信息繁杂，每个博主的兴趣爱好广泛，博主兴趣获取很复杂。如能通过有效方法智能提取用户兴趣特征，用于微博的个性化服务中，将会减少用户检索的时间，提高网络利用的效率。

现有技术中的对兴趣的提取方法主要有以下几种：(1)基于文本关键词提取的方法，分析了微博用户的文本信息，通过TF-IDF提取用户关键词，同时，也通过机器翻译的方法来提取关键词，可以通过两种关键词提取的方法来获取用户兴趣关键词，并将用户兴趣进行了可视化的分析和展示；(2)基于主题模型的分析方法，采用生成模型，引入一个潜在变量来指示是否有推文与其作者的兴趣相关，通过分析用户的兴趣主题分布来得到用户兴趣特征；(3)基于辅助知识库的提取方法，采用了基于知识库的方法来分析用户兴趣，首先对用户的微博文本内容分析，提取出文本中的实体信息，然后结合知识库来分析得到的实体，得到表达用户兴趣的类别树，最后用类别树来表达用户兴趣特征；(4)基于用户关注好友的分析方法，对用户在微博文本中提及的名人进行了提取，并分析名人的职业等关键信息得到用户的兴趣，或者分析微博用户关注的专家，由于不同的专家可以代表一些不同的主题内容，可以通过分析用户关注的专家信息得到用户兴趣。

现有技术中的用户兴趣特征提取的有许多不足之处：例如基于关键词提取的方法得到是带权重的关键词集合，用户的兴趣表达是以词的形式展现，粒度较小；而采用用户主题模型的方法得到的用户兴趣为隐式特征，用户的主题分布难以直观的表达以及可视化；采用知识库等分析方法，则需要全面完整的知识库来分析用户微博中的信息，目前已有公共知识库尚不多，难以有效地进行分析。

发明内容

为了更好地解决上述问题，本发明提出了一种微博用户兴趣的推荐方法，其将微博映射到其对应的兴趣类别的步骤为：步骤1，将用户的每条微博进行分词；步骤2，通过计算分词结果与每个主题词库重合词的个数，选取个数高于阈值ε个数的主题为该微博的候选主题，ε默认取3；步骤3，如果步骤2中没有获取具体的主题，则分别通过Twitter-LDA和TF-IDF获取两个带权关键词集合，通过word2vec获取所述两个关键词集合与每个细胞词库的相似度，所述Twitter-LDA得到的带权关键词集合为W_TL,所述TF-IDF得到的带权关键词集合为W_TI，将所述W_TL与所述W_TI分别与每个词库类别通过word2vec计算相似性得到Sim_TL和Sim_TI，则该微博与对应词库的相似性为：Sim＝α×Sim_TI+(1-α)×Sim_TL，所述α为权重系数，选取相似性最高的m个类别作为该微博的候选主题，所述m默认为3；步骤4，得到用户所有微博的主题类别后，进而就得到了用户在512个主题上的分布，作为用户兴趣特征的表达。

本发明能够挖掘微博用户的兴趣特征，其分析结果粒度适中，方法可行性高，并且结果易于可视化分析，在微博的个性化服务中，将会极大地减少用户检索的时间，提高网络利用的效率。

附图说明

图1为本发明的Twitter-LDA的概率图模型；

图2为本发明将微博映射到其对应的兴趣类别的步骤。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的一种微博用户兴趣特征的提取方法，采用了一个包含512个兴趣类别的细胞词库来分析用户兴趣。每一类别下包含表达该类别兴趣的一些细胞词。通过分析用户的每条微博，将其映射为其中一个或多个类别，从而可以得到一个512维的向量来表达用户兴趣，每一维表示用户对该维兴趣类别的喜欢程度。

本发明提出的一种微博用户兴趣特征的提取方法，通过计算该微博分词后结果与各个细胞词库的重合词的个数，取个数高于某个阈值ε的维度类别为该微博标记。由于可能会出现重合词不存在的情况，因此本发明采用将Twitter-LDA与TF-IDF相结合的方法来进行类别标记，具体地，跟每个词库的相似性通过word2vec来分析。

由于微博中的文本长度受限总字数不能太长，因此标准的LDA模型不适合处理分析微博这种短文本数据。现有技术汇中通过将用户的所有微博整合为一篇文档来处理，解决微博短文本的问题，这被看做是一种用户主题模型。然而这样做忽略掉了单个微博的因素。本发明采用的Twitter-LDA主题模型，在所述模型中，用户的一条微博属于一个主题，而且用户微博中的词不限制只来自于主题中的词，还包括与主题无关的背景词。

如图1所示为本发明的Twitter-LDA的概率图模型，在微博中有K个主题，K为正整数，每个主题表达为主题词的分布。每个用户有自己的主题兴趣表示为在K个主题上的分布。根据用户的主题兴趣用户的每条微博被赋予一个主题k。微博中的每个词语或者来自背景词分布θ_B或者来自主题词分布θ_k。该词是一个背景词还是一个主题词取决于隐变量y，y＝0时，该词从背景词分布θ_B中产生，y＝1时，该词从主题词分布θ_k中产生。y的取值由分布π决定，也就是背景词与主题词的比例由π决定。通过将吉布斯采样的方法，得到Twitter-LDA的模型参数，进而可以得到用户每条微博的主题，进而得到该主题下词语的概率分布，取权重最高的一个作为微博的关键词。

在一条给定的微博中，词频(term frequency，tf)指某一个给定的词语在该微博文本中的出现频率，该数字是对词数(term count)的归一化，以防止偏向长文本；而逆向文件频率(inverse document frequency，idf)是一个词语普遍重要性的度量，某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。TF-IDF获得微博文本的词语权重信息的方法为，对于在某一段文本d_j里的词语t_i来说，其tf值可以表示为：，其中分子n_i,j是该词在文件d_j中的出现次数，分母部分则是在文件d_j中所有字词的出现次数之和；逆向文件频率可以表示为式：，其中|D|表示语料库中的文件总数。通过两者乘积，得到微博文本的词语权重信息tfidf_i,j＝tf_i,j×idf_i，所述i是第i篇文档也就是微博，j是第j个词语，i，j为正整数。

本发明提出的一种微博用户兴趣的推荐方法中，如图2所示为其将微博映射到其对应的兴趣类别的步骤：

步骤1，读取用户的微博，将用户的每条微博进行分词；

步骤2，通过计算分词结果与每个主题词库重合词的个数，选取个数高于阈值ε个数的主题为该微博的候选主题，ε为正整数，ε默认取3；

步骤3，如果步骤2不能得到具体的主题，则分别通过Twitter-LDA和TF-IDF来得到两个带权关键词集合。通过word2vec获取两个关键词集合与每个细胞词库的相似度。假设Twitter-LDA得到的带权关键词集合为W_TL,TF-IDF得到的带权关键词集合为W_TI。将W_TL与W_TI分别与每个词库类别通过word2vec计算相似性得到Sim_TL和Sim_TI，则该微博与对应词库的相似性计算结果为:Sim＝α×Sim_TI+(1-α)Sim_TL，所述α为权重系数，选取相似性最高的m个类别作为该微博的候选主题，m为正整数，m默认取3；

步骤4，得到用户所有微博的主题类别后，进而就得到了用户在512个主题上的分布，作为用户兴趣特征的表达。

本发明提出的一种微博用户兴趣特征的提取方法，其基于细胞词库的兴趣提取方法通过细胞词库得到用户对不同主题的喜欢程度，解决了基于关键词提取的方法兴趣表达以词的形式展现，粒度较小的问题；其次，将用户兴趣以不同类别下的概率来表达，便于以词云来展示，解决了主题模型的方法得到的用户兴趣难以直观的表达以及可视化的问题；同时，该方法不需要知识库等辅助,简单方便。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种微博用户兴趣特征的提取方法，其将微博映射到用户对应的兴趣类别的步骤为：步骤1，读取用户的微博，将用户的每条微博进行分词；步骤2，读取512个兴趣类别的细胞词库，通过计算分词结果与所述词库重合词的个数，选取个数高于阈值ε的主题为该微博的候选主题，ε默认取3；步骤3，如果步骤2中没有获取具体的主题，则分别通过Twitter-LDA和TF-IDF获取两个带权关键词集合，通过word2vec获取所述两个关键词集合与每个细胞词库的相似度，所述Twitter-LDA得到的带权关键词集合为W_TL,所述TF-IDF得到的带权关键词集合为W_TI，将所述W_TL与所述W_TI分别与每个词库类别通过word2vec得到相应的相似性Sim_TL和Sim_TI，则该微博与对应词库的相似性为：Sim＝α×Sim_TI+(1-α)×Sim_TL，所述α为权重系数，选取相似性最高的m个类别作为该微博的候选主题，所述m默认为3；步骤4，得到用户所有微博的主题类别后，进而就得到了用户在512个主题上的分布，作为用户兴趣特征的表达。

2.根据专利要求1所述的方法，其特征在于，需要通过Twitter-LDA得到微博的带权重关键词集合。Twitter-LDA的概率图模型中，微博中的每个主题表达为主题词的分布，用户的每条微博基于用户的主题兴趣被赋予一个主题k，所述用户的主题兴趣表示为在微博中所有主题上的分布，然后基于背景词分布θ_B或者主题词分布θ_k产生微博中的每个词语，然后通过将吉布斯采样的方法得到Twitter-LDA的模型参数，进而可以得到用户每条微博的主题，以及在该主题下词语的概率分布，最后选取权重最高的30个作为微博的关键词。

3.根据权利要求2所述的方法，其特征在于，所述微博中的每个词语产生于背景词分布θ_B或者来自主题词分布θ_k取决于隐变量y，当隐变量y＝0时，所述词语从背景词分布θ_B中产生；当隐变量y＝1时，所述词语从主题词分布θ_k中产生，所述隐变量y的取值由分布π决定。

4.根据权利要求1所述的方法，其特征在于，利用所述TF-IDF获得微博文本的词语权重信息的步骤为，首先对于在某一段微博d_j里的词语t_i，所述i是第i篇文档也就是微博，j是第j个词语，i，j为正整数，通过获取词频tf值，其中分子n_i,j是该词在微博d_j中的出现次数，而分母部分则表示为在微博d_j中所有字词的出现次数之和；然后通过公式获取逆向文件频率idf，其中分子|D|表示语料库中的文件总数；通过两者乘积，得到微博文本的词语权重信息tfidf_i,_j＝tf_i,_j×idf_i。