CN105740366A

CN105740366A - 微博用户兴趣推理方法及装置

Info

Publication number: CN105740366A
Application number: CN201610053718.6A
Authority: CN
Inventors: 王岢; 徐晓飞; 叶允明; 李小宜; 刘广建
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-07-06

Abstract

本发明提出了一种建立微博用户兴趣推理模型的方法，包括兴趣标签的模型计算、微博文本内容提取兴趣模型和博主社交关系提取博主兴趣点模型，通过模型融合策略将三个模型融合在一起，即成为最终的微博用户兴趣推理模型。本发明的方法将个人信息、微博内容和社交关系相结合，针对微博内容稀疏性问题，采用将同一个博主的所有微博进行混合的USER策略，利用LDA发掘微博隐主题，基于博主关注形成的网络提出了社会化标签传播算法，计算各种兴趣标签对博主的影响力。本发明的方法具备很好的识别能力和信息过滤能力，在推荐之前过滤掉虚假的消息，识别出虚假博主，这样即可提高了推荐系统推荐的质量和准确率，也给博主带来更好的体验。

Description

微博用户兴趣推理方法及装置

技术领域

本发明属于互联网通信技术领域，具体涉及一种建立微博用户兴趣推理模型的方法及装置。

背景技术

在微博普及的同时，基于微博的各种应用也应允而生，其中，针对博主的个性化推荐技术获得了很多的关注，其中关于微博的个性化推荐的学术研究也开始出现，例如基于地理位置信息的好友推荐、基于相同Tag信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等，然而这些个性化推荐技术通常只考虑了博主的某部分相对片面的信息，却忽略了一个重要的目的，推荐的账号或话题是否能被博主接受，是其想要的、真正感兴趣的。传统的基于协同过滤的个性化推荐算法，根据博主之间的近似程度来选择推荐物品，这种方式虽然能够较好地完成各种推荐，然而这种忽略个体间差异性寻求共性的推荐方法，只能覆盖部分博主或博主的部分兴趣，不能完整的刻画博主的兴趣，如一些商业化的应用案例中，推荐系统只能向同类的账户推送相同的产品。这种只需考虑博主对商品的潜在购买欲或对一部电影期望观看指数的推荐算法，并不适合所有的系统，在微博中尤为如此。微博中信息繁杂，博主的兴趣爱好广泛，博主的相似性计算起来很复杂，且相似性如何衡量也是一个待探究问题。如能将博主兴趣点概括成一个兴趣模型，通过衡量模型间的相似程度来寻找有相同爱好的博主，并用于微博的个性化服务中，预计将是一个有效的思路。

而其中的一个核心问题是如何对博主的兴趣进行建模,建模后的模型精确度对今后的推荐有很大影响。如何提高模型的精确性，全面详尽的展示博主兴趣点所在，是具有直接研究价值的。

另外，微博中的个性化服务面临着微博高速发展所带来的其它挑战。博主增长迅速，总体拥有海量的数据，各式各样的信息参差不齐，许多虚假信息、虚假账号混杂其中，若推荐系统不加区分的进行信息推荐，势必会影响正常博主的使用，带来不好的博主体验。显然，推荐系统必须要具备很好的识别能力和信息过滤能力，在推荐之前过滤掉虚假的消息，识别出虚假博主，这样即可提高了推荐系统推荐的质量和准确率，也给博主带来更好的体验，因此，如何能准确地识别出虚假博主，也具有实际的研究意义。

发明内容

本发明具体通过如下技术方案实现：

一种建立微博用户兴趣推理模型的方法，包括：(1)用户个人标签的获取与计算，(2)用户微博内容的兴趣关键词提取，(3)提取基于社会化网络的兴趣标签，最后对上述三个方面的兴趣特征进行融合，建立用户的兴趣模型：

M＝αM_tags+βM_content+γM_relation

其中0≤α，β，γ≤1，且α+β+γ＝1，M_tags是博主的标签通过计算得到的博主兴趣点模型，M_content是博主微博的内容提取出来的兴趣关键词，M_relation是基于博主的关注列表提取的博主兴趣点模型；M_tags的模型计算主要是提取当前博主的Tags标签，并利用标签自带的权重值进行归一化处理；M_content的提取关键词的计算包括：微博文本的预处理，分词、同义词计算进行话题分类，微博内容聚类扩展，关键词提取以及权重计算；M_relation采用标签传播算法计算，所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息。

附图说明

图1是本发明的微博用户兴趣模型构建框架图；

图2是微博文本预处理流程图；

图3是博主兴趣点标签传播示意图；

图4是Ebbinghaus遗忘曲线图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

在微博中，博主发布或者评论的微博可以体现个人兴趣爱好，博主发表一些原创新的微博用于记录个人的喜好，博主处于获取某种信息的目的去关注一个账号，博主贴标签也是根据个人的喜好给自己标注，所有这些博主的行为都能体现博主的兴趣所在。因此，博主的标签信息，博主关注以及博主发表、转发、评论的微博都能体现博主兴趣点。

但微博文本字数很短，每条微博文本字数都少于140个字，另外有的博主发表或者转发的微博并不多，微博中的内容涉及的信息太多太杂，有很多日常口语；博主标签虽然能够反映博主兴趣点，但博主可以自己贴一些可能自己随意贴一些和自己兴趣无关的标签，或者根本没有贴标签；博主关注博主要么是这两个博主在现实社会中存在着某种关系而将社会关系网络化，要么是想从被关注者那里获得有用的信息，但也不能排除一些博主可能为了刷粉丝数量去随机关注一些博主希望得到回粉。上述这三种情况可能会对博主兴趣点建模造成一定的影响，为了消除或降低这三种情况出现时对模型精度的影响，需要采用一种加权融合的信息整合建模策略。

因此，本发明的微博用户兴趣推理模型建模总体上分为三个部分，如附图1所示，即兴趣标签的模型计算、微博文本内容提取兴趣模型和博主社交关系提取博主兴趣点模型，先分别计算每个模型，然后通过模型融合策略将三个模型融合在一起，即成为最终的微博用户兴趣推理模型。

Keywords和WeightedKeywords表示法是用一组词语来描述博主兴趣点，具体形式为：

M＝{体育,游戏,音乐,电影}orM＝{旅游:0.34,电影:0.35,娱乐:0.15,美食:0.16}。

对于博主兴趣点表示，WeightedKeywords表示方法更适合本发明，所以模型采用加权关键词进行表示。

首先是博主个人标签的获取与计算，其次是博主微博内容的兴趣关键词提取，然后提取基于社会化网络的兴趣标签，最后对三个方面的兴趣特征进行融合，建立博主的兴趣模型，其计算如下：

M＝αM_tags+βM_content+γM_relation(1)

其中0≤α，β，γ≤1，且α+β+γ＝1，M_tags是博主的标签通过计算得到的博主兴趣点模型，M_content则是博主微博的内容提取出来的兴趣关键词，M_relation是基于博主的关注列表提取的博主兴趣点模型。M_tags的模型计算比较简单，主要是提取当前博主的Tags标签，并利用标签自带的权重值进行归一化处理。

式(1)中α，β，γ为三个模型的融合参数，融合的策略采用的是基于三个模型之间的强弱关系计算得到。在一个博主的相关信息中，博主标签存在不规范，添加时太过于随意，标签的内容太过于生僻，字数太长或太短，标签信息缺失等，会造成M_tags兴趣建模不准确或者错误；在基于微博内容的主题关键词挖掘中，微博文本中存在大量的符号和链接，微博的大部分内容是日常生活中的琐事记录，提取的内容中含有大量的微博活动信息等；基于微博关注关系的博主兴趣点建模中，博主关注了大量低质量的账号，博主自己影响力比较大很少关注其他的账户；上述这些问题都会导致建立的博主兴趣点模型不准确，兴趣模型偏移等问题，而采用一种加权融合的模型自适应策略是一种合适的选择。

在融合策略中，α，β，γ能够根据不同博主信息的特征自适应调整参数值，使建立的模型能够更加准确。在自适应融合算法中，根据三个部分之间模型的相似度进行衡量，模型的相似度通过计算主题或者标签中词与词之间的相似度得到。根据博主的粉丝数/关注数比率判断博主的影响力，根据发布微博数和注册时间衡量博主的活跃度，若博主的影响力大，则适当提高α，β的值，降低γ的值，因为此类博主对自己具有清晰的定位，往往充当消息的传播者；若博主自身影响力较小，且微博内容大多都是转发、评论等，则适当提高γ的值，降低α，β的值。个人标签、微博内容和关注兴趣模型这三者之间，若不存在相似性，则适当增加γ的值，降低α，β的值，若其中两者之间有相似性，则提高两个模型对应的参数值，降低另外一个参数值。

关于M_content的提取关键词的计算过程如下：

微博文本短小，且文本内容杂乱无章，利用微博文本构建兴趣模型需要对特征的选择很准确。在VSM中，文档是被描述的对象，文档的特征也是通过一系列的关键词及权重构成。但是研究博主兴趣点时，单个文档中包含了该博主所发表的所有微博内容，所以将每条微博存放成一行，一行作为一个文档。

文本的预处理流程如附图2所示，考虑到有些博主微博数目过少带来的关键词提取误差较大的问题，需要对这些博主的微博内容进行扩充。扩充的方式有两种：一是对该博主的微博进行分类聚类处理，从微博平台收集具有相同话题或相似话题的微博归为博主的微博数据文本数据集中；二是利用WBUserRank算法寻找与当前博主关系最为密切的那些博主的部分微博混合集作为当前博主的微博文本集。此外，由于单条微博作为一篇文档的MSG策略不利于主题模型的训练，为了减少这些不利因素，选择将同一个博主的所有微博进行混合的USER策略。

对融合后的主题模型的关键词提取，采用同义词词林、HowNet等计算主题内关键词的相似性，选取权重较大的有代表性的词作为关键词。

特征项提取利用评价函数对所有特征项单独进行评分，之后将特征项依次按数值从高到底排列，将得分高的k个特征选作特征项，文本处理中常用DF(特征项)作为评估函数，其定义为：

选择时，对于每个词的DF值，如果其值小于某个阈值则从候选词集合中去掉该词，若大于某个阈值则也从集合中删除。

ICTCLAS系统是一套中文分词系统，它可以对中文文本进行分词、对词性进行标注、命名实体识别，目前2014版本加入了微博分词、新词的发现和关键词的提取。关键词提取采用信息熵自动计算关键词，包括新词与已知词，利用这个工具可以实现微博文本关键特征项的提取，并且会对提取的关键词进行权重计算。

上述两种特征项的提取中并没有考虑博主的重要度或者微博的影响力，默认所有的文本重要性相同、所有的发布者影响力相同，这和现实中微博有所差别，在新浪微博中，一个大V博主发表的微博被评论或转发的次数能达到上万次，这是普通人所得不到的，一个拥有几百万粉丝的知名人士发表的微博的影响人数一定比普通博主的微博影响更多的人，所以在特征项提取时，需要考虑特征项权重问题。

在选择特征项时，应将微博文本的权重TW和微博的发布者的影响力UNI计算在内。文本权值TW的定义是：

博主权重UW定义为：

UW＝1+logUNI(4)

其中UNI为计算的博主节点重要度：

U N I (A) = (1 - d) + d {\frac{U N I (A_{1})}{C (A_{1})} + \frac{U N I (A_{2})}{C (A_{2})} + ... + \frac{U N I (A_{n})}{C (A_{n})}} - - - (5)

其中，,A₂,……,A_n为博主A的粉丝，C(A₁),C(A₂),……,C(A_n)为分别为博主A₁,A₂,……,A_n的关注数，d表示阻尼系数，值介于0和1之间，减少其他博主对当前博主A的博主等级贡献。

将博主之间的关系划分为四类，这里只考虑有关注行为的博主之间的关系，因为只有有关系的博主之间才有研究的必要性，博主之间有交流表明博主之间的兴趣可能相似，两个博主之间关注与被关注的重要度评价如下表所示：

表1博主关注划分

表示A与B相互关注，A→B表示A单向关注B，AB表示A评论(转发)B的微博，BA表示B评论(转发)A的微博，A-B表示A、B之间没有评论转发。按关注博主影响自身兴趣的强弱将关注博主分为五个等级，M4表示最强，M0表示最弱，其强弱关系依次为M4＞M3＞M2＞M1＞M0。

传统的PageRank算法通过链向目标页面的那些页面的PR值来计算目标页面的PR值，这里，WBUserRank算法将博主看成网页，博主之间的关注关系看成网页之间的链接关系，WBUserRank的计算如下：

W B U R (A) = d \times (Σ_{i = 1}^{n} \frac{W B U R (A_{i}) \times U N I (A_{i}) \times f (A, A_{i})}{N}) + \frac{1 - d}{N} - - - (6)

其中，f(A，A_i)是博主A与A_i之间的相对重要度评价函数，其取值为M4～M0，UR(A_i)表示博主A_i自身的重要度。

在文档集合中统计关键词W_i出现的次数k_i，则该词的评分为：

Mark(W_i)＝k_i×UW×TW(7)

取∝≤Mark(W_i)≤β的部分的特征是正确的，∝表示特征划分的阈值下界。

TF-IDF(TermFrequency-InverseDocumentFrequency)是一种衡量字词对于一篇文档的重要程度，是一种常用的文本挖掘技术。TF-IDF的主要思想是：若一个词语在某篇文章中出现的次数较高，而在其他文本中出现较少，则此词语能够很好的区分不同类目，适用于拿来分类。TF-IDF实际上是：TF*IDF，TF词频，IDF逆向文件频率。TF表示词条在文档d中出现的频率，IDF是度量一个词语重要性的指标。

一个词语W在博主微博中出现次数过多，则博主对该词有很大的兴趣，这样的词语应该具有较高的权重；另外，如果词语W在文档集中出现的频率越低，那么词语W就越有区分度。

对某一个文本中的词语ti来说，其重要性可用TF表示成

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}} - - - (8)

上式中n_i，j表示t_i在文档d_j中出现次数，分母为文档d_j中全部词语出现次数之和。

对一个指定的词或短语，其idf的计算，可用总文档个数除以含有该词语的文档个数，再对商取对数得到：

{idf}_{i} = l o g \frac{| D |}{| {j : t_{i} &Element; d_{j}} |} - - - (9)

其中|D|为文档库中文件总数，|{j：t_i∈d_j}|为包含词语t_i的文件数目。

最终文档j的特征项i的权值为

tfidf_i,j＝tf_i,j×idf_i(10)

这样某个指定文档内的高频词汇，和该词在全部文档集合中的低文件频率，乘积得到高值的权重TF-IDF，过滤常用的词语，而保留重要的词语。

对兴趣模型来说，计算博主的特征项权重向量是由必要的，其计算如下：

若博主j一共发表m条内容，统计n_i,j，其定义为特征项i出现的次数

n_{i, j} = Σ_{l = 1}^{m} {TW}_{l, i} - - - (11)

上式中TW_l，i为第1条微博的文本权值，将结果代入式(8)中，可得到博主j的特征项i的重要性tf_i，j为：

{tf}_{i, j} = \frac{Σ_{l} {TW}_{l}}{Σ_{k} Σ_{l} {TW}_{l, k}} - - - (12)

式(9)中|D|为语料库中的博主总数，|{j：t_i∈d_j}|为包含特征项i的博主数目，同时考虑博主权重后，idf_i可表示为：

{idf}_{i} = l o g \frac{| D |}{1 + Σ_{j} | {j : t_{i} &Element; d_{j}} | \times U W} - - - (13)

可得到最终博主j的特征项i权重W_i,j计算公式：

W_{i, j} = \frac{Σ_{l} {TW}_{l}}{Σ_{k} Σ_{l} {TW}_{l, k}} \times l o g \frac{| D |}{1 + Σ_{j} | {j : t_{i} &Element; d_{j}} | \times U W} - - - (14)

目前，针对微博的研究有基于博主行为特征和影响因子的研究、基于博主关系的研究、基于微博内容的研究和基于微博消息传播的研究四个方面。社区发现算法、意见领袖发现算法等都对博主关系进行研究提出解决问题的思路，并取得了一定的研究成果。基于博主关系，并在此基础上利用关注-粉丝形成的社会化网络，并基于被关注者的社会化标签结合标签传播算法构建博主的兴趣模型，这是社会化标签网络博主兴趣点建模的主要研究内容。

标签传播算法(LPA)是利用已标注好的节点标签信息去评测尚未标记节点的标签信息，依据LPA算法，每个已标记的节点标注信息按相似度传递给临近节点，对一次传递，每个节点用临近节点的标注信息来修改自己，若两个节点间相似度大，邻节点对被传播节点标记的影响权重就越大，相似节点的标签就更接近，其标注信息就越等够得到传递。标签传播时，保证已标注数值的标记信息不做修改，使自己如一源点将标签传给还未被标记的节点。最终，当迭代终止时，相似节点具有相似的的概率分布，可归为相同类别，进而完成标签传播过程。

在博主关系中，若博主A关注博主B，应用LPA思想，则B可看成是已标记节点；A关注博主B，说明博主A对博主B感兴趣，即博主B的兴趣成份中存在A感兴趣的，和A相关的。利用LPA将B的兴趣成份作为标签传播给A，可以粗略的估计出A的兴趣所在。若A关注的博主很多，那么利用LPA，将每个被关注博主的兴趣标签统统都传播给A，则可以准确计算出博主的兴趣标签模型。在LPA中，根据两个节点之间的相似度来计算传播标签的权重，节点之间越趋于相似，则相邻节点对其标注权重越大，但是在微博系统中，计算两个博主之间的相似度是不可能的或者是很费力的一件事，因为不同博主之间没有一个衡量相似性的标准或方法，在加上微博里边包含的内容过于繁杂，利用哪些信息计算相似度需要进行大量的调查论证，所以，标签传播权重的衡量得换一种思路。微博中博主A关注博主B，其目的是为了获取博主B传播的信息，从而从中获取自己感兴趣的内容。博主A通过评论、转发、赞等形式展示出对博主B的微博内容感兴趣，进一步，相对于一般被关注博主来讲，博主A更可能会对其关注的博主中相比较更为感兴趣的那些博主的微博进行转发、评论等，所以博主A对其关注的那些博主中会有一个关注强弱的区分度，这个区分度对于标签的相似度来说，就是一个很好的衡量标准，所以LPA中，标签传播算法中的传播权重就可以通过博主对其关注的群体中关系的强弱进行表示。

另外，不同于LPA算法的是，被关注的博主中其自身的重要度也是基于社会化标签网络博主兴趣点建模要考虑的因素，因为在博主群体中，一些粉丝较多的账户，如大V等，更倾向于传播信息，相对于普通博主来说，他们对微博使用者具有更大的影响力和信息传播能力，所以在兴趣标签的传播中应具有更高的传播权重，所以，综合考虑，在计算标签传播权重时，应把关系强弱和节点本身的重要性都考虑在内。

通过上述分析，基于LPA的社会化标签网络的博主兴趣点建模算法其模型如附图3所示。

被关注者模型可以定义为M＝(L₁，L₂，…，L_n)，其中n为博主兴趣点标签的个数，L＝(l_name，weight)，l_name为标签的名称，weight为标签在该被关注的博主兴趣点标签中所占的权重。则博主A经过标签传播算法可以表示成：

M_{A} = Σ_{i = 1}^{n} \frac{M_{A i} \times W B U R (A_{i}) \times U N I (A_{i})}{n} - - - (15)

其中M_A表示待标注的博主A的兴趣标签模型符号表示，表示博主A的关注列表中第i个被关注的博主的兴趣模型，WBUR(A_i)是利用式(6)计算得到，表示A_i在节点排名算法中的重要性，UNI(A_i)表示博主节点自身的重要度，在计算的过程中要保证迭代的过程收敛，可以限定一个节点便利的层数，保证不至于扩大。

模型的更新策略

心理学中将人的记忆划分为长期记忆和短期记忆，短期记忆是由于人脑内存的东西由于摄取的信息过多而导致脑容量不足，大脑选择性清除一些信息；长期记忆，记忆信息因场所或环境改变而没有得到使用时，一些内容会慢慢被忘掉。随着博主关注的账号越来越多，其能浏览的订阅微博内容也愈来愈多，而其浏览的微博也趋向于那些最近关注的微博账户所发布的，或者是其特别关注、好友圈的账号发布的微博。微博内容发布频繁且条目多，一般博主间隔几个小时在登微博就会有上百甚至上千的推送微博，博主很难快速看完所有的内容，一般都是挑选一些最近比较感兴趣的微博账号或者固定的账号发布的微博内容，那些在之前很长一段时间内关注的账号推送的内容就会被无视掉，过段时间博主就会忘掉自己所关注的账号，会选择新的账号去关注，这称为兴趣漂移。

博主兴趣点漂移的识别是博主兴趣点模型构建与迭代的一个必不可少的步骤，若博主兴趣点产生漂移，当前得到的博主兴趣点描述跟博主兴趣点模型所展示的不相吻合，这对后面基于博主兴趣点模型展开的推荐会产生影响。根据Ebbinghaus曲线，可以发现记忆的遗忘有章可循，而记忆的衰减也是有规律的，一般情况下，这种规律可以用递减函数表示。

由于人对事物的遗忘是逐渐的，所以，兴趣漂移可用遗忘函数计算。兴趣衰减函数表示成w＝f(t)，其线性函数为：

w_{i} = - \frac{2 k}{n - 1} (i - 1) + 1 + k - - - (16)

参数n为特征序列长度，i∈{1，…，n}，由近期挑选的特征项到第一次选择的特征项的顺序，k∈{1，…，n}，表示遗忘的快慢。对特征项j,使用已有序列中该特征项出现的情况计算得到博主对其感兴趣的程度，可用下式来计算。

c_{j} = Σ_{i = 1}^{n} w_{i} a_{i}^{j} - - - (17)

其中i是特征项个数，n表示行为个数，w_i表示通过计算得到的权重。确定考虑概念间的相关性，令表示一次观测对特征项的影响程度。

在博主兴趣点模型表示中，我们选择用加权关键词来表示博主兴趣点，并介绍了通过博主社交关系信息来构建博主模型。通过关注的博主u_i＝{(c₁，v_1i)，(c₂，v_2i)，…，(c_n，v_ni)}组成的分类器，得到博主兴趣点集合C＝{c₁，c₂，…，c_n}，其中c_i＝{(u_k，v_ki)，(u_l,v_li)，…，(u_n，v_ni)}，则博主对兴趣类c_i的兴趣度为：

w_{i} = \frac{{Σv}_{k i}}{N} - - - (17)

其中v_ki为博主关注的特殊博主k代表兴趣类c_i的置信度，N是关注的总个数。最中得出博主长期兴趣向量IML＝{(c₁，w₁)，(c₂，w₂)，…，(c_n，w_n)}。

博主的短期兴趣产生可能是一个瞬间的，而转发和评论一个博主的微博也具有瞬间的状态，通过评论和转发建立短期兴趣模型具有可行性。博主短期兴趣在产生时兴趣度为1，然后兴趣度随时间衰减，衰减的规律符合Ebbinghaus曲线，如附图4所示。

从图中可看出Ebbinghaus遗忘曲线类似于幂函数，则短期兴趣遗忘也类似于幂函数的形式，这不同于长期兴趣采用线性遗忘函数，其形式如下：

T＝e^-λt(18)

其中，λ为短期兴趣衰减速率的参数，取λ＝1将所有博主对不同短期兴趣类兴趣衰减程度相同。博主对他所关注的博主j的短期兴趣度可表示为：

u (j) = Σ_{k = 0}^{n} T (t_{k}) - - - (19)

其中，n为博主与博主j互动(转发、评论)的总次数，t_k为第k次互动距现在的时间，时间度量采用天数计算。

综上所示，本发明所提出的微博用户兴趣推理方法将个人信息、微博内容和社交关系相结合，针对微博内容稀疏性问题，采用将同一个博主的所有微博进行混合的USER策略，利用LDA发掘微博隐主题，利用同义词词林、HowNet等计算主题模型间的相似性，根据tf-idf计算主题关键词的重要度，基于博主关注形成的网络提出了社会化标签传播算法，计算各种兴趣标签对博主的影响力。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种建立微博用户兴趣推理模型的方法，其特征在于：所述方法包括(1)用户个人标签的获取与计算，(2)用户微博内容的兴趣关键词提取，(3)提取基于社会化网络的兴趣标签，最后对上述三个方面的兴趣特征进行融合，建立用户的兴趣模型：

M＝αM_tags+βM_content+γM_relation

其中0≤α，β，γ≤1，且α+β+γ＝1，M_tags是博主的标签通过计算得到的博主兴趣点模型，M_content是博主微博的内容提取出来的兴趣关键词，M_relation是基于博主的关注列表提取的博主兴趣点模型；M_tags的模型计算主要是提取当前博主的Tags标签，并利用标签自带的权重值进行归一化处理；M_content的提取关键词的计算包括：微博文本的预处理，分词、同义词计算进行话题分类，微博内容扩充，关键词提取以及权重计算；M_relation采用标签传播算法计算，所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息。

2.根据权利要求1所述的方法，其特征在于：所述微博内容扩充分为两种方式：一是对该用户的微博进行分类聚类处理，从微博平台收集具有相同话题或相似话题的微博归为博主的微博数据文本数据集中；二是利用WBUserRank算法寻找与当前博主关系最为密切的那些博主的部分微博混合集作为当前博主的微博文本集。

3.根据权利要求1所述的方法，其特征在于：对融合后的主题模型的关键词提取，采用计算主题内关键词的相似性的方法，选取权重较大的有代表性的词作为关键词。

4.根据权利要求1所述的方法，其特征在于：博主A经过标签传播算法可以表示成：

M_{A} = Σ_{i = 1}^{n} \frac{M_{A i} \times W B U R (A_{i}) \times U N I (A_{i})}{n}

其中M_A表示待标注的博主A的兴趣标签模型符号表示，表示博主A的关注列表中第i个被关注的博主的兴趣模型，WBUR(A_i)表示A_i在节点排名算法中的重要性，UNI(A_i)表示博主节点自身的重要度。

5.根据权利要求1所述的方法，其特征在于：根据博主的粉丝数/关注数比率判断博主的影响力，根据发布微博数和注册时间衡量博主的活跃度，若博主的影响力大，则适当提高α，β的值，降低γ的值；若博主自身影响力较小，且微博内容大多都是转发、评论等，则适当提高γ的值，降低α，β的值；个人标签、微博内容和关注兴趣模型这三者之间，若不存在相似性，则适当增加γ的值，降低α，β的值，若其中两者之间有相似性，则提高两个模型对应的参数值，降低另外一个参数值。

6.根据权利要求1所述的方法，其特征在于：所述模型采用加权关键词进行表示。

7.一种建立微博用户兴趣推理模型的装置，其特征在于：所述装置包括：用于用户个人标签的获取与计算的模块，提取当前博主的Tags标签，并利用标签自带的权重值进行归一化处理；

用于用户微博内容的兴趣关键词提取的模块，对微博文本的预处理，分词、同义词计算进行话题分类，微博内容聚类扩展，关键词提取以及权重计算；

用于提取基于社会化网络的兴趣标签的模块，采用标签传播算法计算，所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息；

用于进行兴趣特征融合的模块，建立用户的兴趣模型：

M＝αM_tags+βM_content+γM_relation

其中0≤α，β，γ≤1，且α+β+γ＝1，M_tags是博主的标签通过计算得到的博主兴趣点模型，M_content是博主微博的内容提取出来的兴趣关键词，M_relation是基于博主的关注列表提取的博主兴趣点模型。