CN104572797A

CN104572797A - 基于主题模型的个性化服务推荐系统和方法

Info

Publication number: CN104572797A
Application number: CN201410199198.0A
Authority: CN
Inventors: 郑海涛; 古宁; 李琪; 赵从志
Original assignee: SHENZHEN GIISO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN GIISO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-05-12
Filing date: 2014-05-12
Publication date: 2015-04-29

Abstract

本发明提供一种基于主题模型的个性化服务推荐系统，包括：社交数据获取模块、主题模型构建和分析模块、用户兴趣建模模块、服务推荐模块、用户交互模块和系统管理控制模块。本发明系统利用社交网络平台获取数据，通过主题模型对用户的兴趣进行挖掘和建模，从语义上对用户兴趣进行挖掘，解决了传统基于向量空间模型的兴趣模型维度高，数据稀疏等问题，同时考虑了用户的长期兴趣和短期兴趣，能更加真实的反应用户兴趣，为用户提供准确的针对用户兴趣的服务推荐。

Description

基于主题模型的个性化服务推荐系统和方法

技术领域

本发明涉及计算机技术应用领域，具体的涉及一种基于主题模型的个性化服务推荐系统和方法。

背景技术

随着信息技术特别是网络技术的发展，信息系统的规模越来越大，信息数量也越来越多，获取信息的工具和方式也越来越丰富，通过网络为用户提供越来越多信息和服务的同时，信息系统的结构和内容也日益复杂。在海量信息中，很难准确描述出需要的信息特征，用户常常会面对大量的信息而束手无策，迷失在大量的信息空间中；同时，各信息系统提供的检索方式，常常不能满足用户描述检索条件的需求。因此，为用户及时、准确地提供当前所需要的信息内容也变得更加困难。在此背景下，个性化推荐服务(PRS，Personalized RecommenderServices)技术应运而生，并迅速得到发展。应用该技术，能够通过与用户交互过程中获取的信息推测用户的兴趣偏好，并能根据用户的兴趣偏好推荐符合用户兴趣偏好的信息。

现有的个性化推荐系统技术归纳起来主要分为两类，即基于内容过滤的推荐方式、协同过滤推荐方式。基于内容过滤的推荐是通过用户个人背景资料信息和商品或服务内容的特性消息相匹配，通过分析商品内容的结构来推测用户个性偏好，从而产生推荐结果，但如何得到用户的背景资料，分析出偏好是其难点。协同过滤推荐方式是研究最为深入且应用最为广泛的方式，这种推荐方式是通过分析用户或者项目之间兴趣偏好的相似性来提供推荐服务。本发明提供的系统，作为上述两种推荐方式的结合，能有效利用前述推荐方式的优点，能尽量弥补前二者的缺点。

现有已公开的技术中，华为技术有限公司提出的“推荐系统及方法”将基于用户的推荐和基于项目的推荐结合起来，得到基于用户的项目候选集和基于项目的项目候选集，然后提取其交集作为推荐候选集，并且通过基于项目和用户的综合评分预测，得到推荐项目的评分预测。

中国科学技术大学提出的“基于属性描述的个性化影片推荐系统及方法”和盛乐信息技术(上海)有限公司提出的“个性化视频推荐系统及方法”，都是基于视频的推荐，根据视频的属性建立用户兴趣模型，通过该模型进行推荐，以提高推荐的准确度和适应性。

北京邮电大学提出的“面向领域的个性化智能推荐系统及实现方法”综合使用了协同过滤推理，领域相关上下文推理，本体推理三种推理方法，并通过推荐学习使其具有主动学习能力，即具有智能推荐服务功能，能够根据用户对推荐服务的反映进行自我调整，以改善整体推荐服务质量和提高用户忠诚度。

上述的技术中存在以下问题：第一、基于协同过滤的方法，都需要用户评分表，存在“冷启动”的问题，即由于已知信息的不足导致推荐结果开始是不准确的，随着用户评价信息的增多，推荐结果才能逐步得到改善。此外还存在随着系统规模的增大、出现数据稀疏性缺陷，导致推荐服务质量降低的问题。同时，如果从来没有用户对某一商品加以评价，则这个商品就不可能被推荐。第二、基于内容过滤的方法，对推荐物的描述能力有限，往往需要用户提供用户数据信息，而忽略了利用用户的社交网络工具作为挖掘用户兴趣的来源，无法为客户发现新的感兴趣的资源。第三、对用户兴趣进行挖掘时，传统的向量空间模型或语言模型只是单纯地考虑文档在词空间上的相似度，从没有从语义上进行了兴趣挖掘，更准确。第四、上述已公开的技术中进行个性化的相关推荐时，往往重视相似度而忽略了内容的新颖度，提供用户新的信息，而且很少考虑用户交互反馈对推荐内容准确度的影响。

本发明旨在设计一种基于主题模型的个性化服务推荐系统和方法，利用社交网络平台获取数据，通过主题模型对用户的兴趣进行挖掘和建模，从语义上对用户兴趣进行挖掘，解决了传统基于向量空间模型的兴趣模型维度高，数据稀疏等问题，同时考虑了用户的长期兴趣和短期兴趣，能更加真实的反应用户兴趣，为用户提供准确的针对用户兴趣的服务推荐。

发明内容

本发明提出了一种基于主题模型的个性化服务推荐系统，包括：

社交数据获取模块，用于获取用户的社交网络数据；

主题模型构建和分析模块，用来构建主题模型；

用户兴趣建模模块，用来对获取的所述社交网络数据使用构建好的所述主体模型进行处理和分析，建立用户兴趣标签云图；

服务推荐模块，用来对服务信息通过构建好的所述主题模型进行分析，建立服务信息主题分布，并通过计算所述服务信息主题分布和所述用户兴趣标签云图的相似度为用户提供不同方式的推荐服务；

用户交互模块，用来向用户提供推荐服务结果展示并提供交互反馈；

系统管理控制模块，用来处理和控制系统各部位工作。

本发明所述社交数据获取模块包括：

用户个人社交网络信息子模块，通过社交网络获取用户个人数据，包括性别、年龄、兴趣爱好、所在地、所发布信息、所转发信息、关注好友列表；

用户好友社交网络信息子模块，过社交网络获取用户好友的数据，包括好友的性别、年龄、兴趣爱好、所在地、所发布信息、所转发信息、关注好友列表；

本地最新网络信息子模块，获取本地最新的社交网络信息和新闻信息。

本发明所述用户兴趣建模模块包括：

噪声过滤子模块，用于对所述社交网络数据进行过滤，去除与用户兴趣不相关的社交网络数据；

用户兴趣构建子模块，用来对过滤后的所述社交网络数据使用构建好的所述主体模型，得到用户兴趣主题概率分布；

兴趣标签云图构建子模块，用来对所述用户兴趣主题概率分布表示，构建出用户兴趣标签云图。

本发明所述服务推荐模块包括：

服务信息获取子模块，用于获取商品信息或服务信息；

服务信息构建子模块，用来对所述商品信息或服务信息使用建立好的所述主题模型进行分析，建立服务信息主题分布；

推荐子模块，用来计算所述服务信息主题分布和所述用户兴趣标签云图的相似度并为用户提供不同方式的推荐服务；

兴趣标签云图更新子模块，用来根据用户反馈信息重新构建用户兴趣云图标签。

本发明所述用户兴趣构建子模块包括建立用户的长期兴趣和短期兴趣。

本发明所述推荐子模块进一步包括基于内容推荐模块和协同过滤推荐模块。

本发明所述主题模型使用维基百科对所述社交网络数据和所述服务信息进行语义扩充，在维基百科数据上进行主题分析。

本发明还提供一种基于主题模型的个性化服务方法，包括如下步骤：

获取用户社交网络数据，包括用户个人社交网络信息、用户好友社交网络信息和本地最新网络信息；

构建文档到主题服从狄利克雷(Dirichlet)分布，主题到词服从多项式分布的主题模型；

对获取的所述社交网络数据进行过滤，去除与用户兴趣不相关的社交网络数据，对过滤后的所述社交网络数据使用构建好的所述主体模型，得到用户兴趣主题概率分布，并构建用户兴趣标签云图；

获取服务信息，对服务信息通过建立好的所述主题模型进行分析，建立服务信息主题分布；

计算所述服务信息主题分布和所述用户兴趣标签云图的相似度并为用户提供不同方式的推荐服务；

推荐服务结果展示，提供交互反馈并根据用户反馈结果对用户的兴趣进行重新建模，更新用户兴趣标签云图。

本发明所述推荐服务包括基于内容的推荐方式和协同过滤推荐方式。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是本发明提供的系统组成示意图。

图2是本发明提供的社交数据获取模块组成示意图。

图3是本发明提供的用户兴趣建模模块组成示意图。

图4是本发明提供的服务推荐模块组成示意图。

图5是本发明基于主题模型计算文档之间关联度的流程图。

图6是本发明情景感知用户兴趣建模模型图

图7是本发明提供的系统实施例的流程图。

具体实施例

下面结合附图和具体实施例对本发明作进一步的详细说明，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参阅图1，图1是本发明提供的基于主题模型的个性化服务推荐系统组成示意图，包括：社交数据获取模块1、主题模型构建和分析模块2、用户兴趣建模模块3、服务推荐模块4、用户交互模块5和系统管理控制模块6。

参阅图2，社交数据获取模块1，包括用户个人社交网络信息子模块101、用户好友社交网络信息子模块102、本地最新网络信息子模块103。优先的，我们选用新浪微博、腾讯微博、微信这些社交网络平台，获取用户个人数据，包括性别、年龄、兴趣爱好、所在地、所发布微博微信内容、所转发信息、关注好友列表。

用户好友社交网络信息子模块102，提取用户好友社交网络信息是基于如下考虑：其一，有些用户在社交网络中的活动并不明显，所发布的社交网络内容往往不多，导致个人数据很少不易于分析，比如微博，用户“看微博”的多于“发微博”的；其二，在社交网络中，用户最感兴趣的往往是自己最关注好友的信息。通过社交网络获取用户好友的数据，包括好友的性别、年龄、兴趣爱好、所在地、所发布微博微信内容、所转发信息、关注好友列表。

本地最新网络信息子模块103，用户的短期兴趣往往受到本地流行的新闻趋势和网络信息的影响，所以也要获取本地最新的社交网络信息和新闻信息。

主题模型构建和分析模块2用来构建主题模型。主题模型是一种统计模型，主要被用来识别大规模文档及语库中潜在的主题信息，常用于机器学习和自然语言处理中，在一些相关的文档中发现抽象的主题，而不像传统的向量空间模型或语言模型那样，只是单纯地考虑文档在词空间上的相似度。主题模型基于如下思想：每一篇文档都是由若干主题混合生成，并且表示为主题所构成的一个概率多项分布，其中每个主题又都是一个基于文本单词项的概率多项分布。

由于有些微博、微信很短，因此如果直接在微博数据上使用等主题模型进行分析，势必会由于数据过于稀疏影响模型的精度。可以使用外部知识，比如维基百科，对微博数据进行语义扩充，在维基百科数据上进行主题分析，然后把得到的主题模型，再用于分析用户的社交网络数据。同时，这样做也可以用一个统一的主题模型进行用户兴趣分析和服务信息分析，用户兴趣主题分布与服务信息主题分布来自同一个主题模型，可以很方便地进行相似度的计算。

主题模型LDA(Latent Dirichlet Allocation)采用Dirichlet分布作为概率主题模型中多项式的先验分布，主题模型的生成过程描述如下：

a)产生该篇文档词的个数N，N～Poisson(ε)；

b)通过狄利克雷先验(Dirichlet Prior)产生该文档的主题分布θ_d；

c)对于组成该文档的N个词中的每个词w_n，选择一个主题z_n～Multinomial(θ_d)，从主题z_n中选择一个词。

参阅图3，用户兴趣建模模块3包括噪声过滤子模块301、用户兴趣构建子模块302、兴趣标签云图构建子模块303。

噪声过滤子模块301，用于对所述社交网络数据进行过滤，去除那些与用户兴趣不相关的社交网络数据。以微博为例，微博信息包含很多的无用信息(如图片、表情符等)，并且夹杂着大量的网络用语、缩略简称等，因此需要对微博信息进行如下预处理：分词，去除其中的语气词和停用词；接着对微博进行语义丰富；如果微博过短，就丢弃该微博信息。

此外，很多用户经常发布一些与用户兴趣不相关的微博数据，如聊天、评论等，这些噪音数据影响了分析结果的准确度。因此，在使用微博数据分析用户兴趣之前，先对微博数据进行过滤，去除那些与用户兴趣不相关的微博。本实施例中使用经典的文本分类方法—朴素贝叶斯分类器对相关微博进行分类，判断每条微博是否是与用户的兴趣有关，从而除去噪声微博。

用户兴趣构建子模块302，用来对过滤后的所述社交网络数据使用构建好的所述主体模型，得到用户兴趣主题概率分布。用户的兴趣可以分为长期兴趣(即真实兴趣)和短期兴趣(即被新闻流行趋势影响的大众兴趣)。用户的长期兴趣由用户的个体特征决定，是长期保持不变的。用户的短期兴趣经常被当地的新闻趋势所影响，并且是随着时间变化。

将过滤后社交网络数据内容看作一个文档，在其上使用建立好的主题模型，得到用户兴趣主题概率分布，以及每个主题在词空间上的概率分布。假设用户的兴趣可以分为K个分类或者主题，那么一个用户u的兴趣I_interest(u)可以表示为：

I_interest(u)＝{P_u(k)|k∈K}

其中P(k)表示用户对主题k感兴趣的程度。如果用户发布的属于主题k的内容越多，P(k)的值越大。引入其好友(Friends)的兴趣来扩展用户的潜在兴趣F_interest(u)，表示为：

F_interest(u)＝{P_f(k)|k∈K}

上述两方面的线性组合可以表示用户的长期(Long-Term)兴趣LT_interest(u)，表示为：

LT_interest(u)＝α*I_interest(u)+β*F_interest(u)

其中的α，β为组合参数，满足α+β＝1。直观上讲，α应当是略大于β的，具体的数值确定可以通过实验来推算。

此外，还有用户的短期兴趣，用户的短期兴趣往往是被当地的新闻和社交信息趋势影响，本实施例中我们提取本地最新的社交信息内容，作为一个文档，在其上使用主题模型，这样可以得到用户短期兴趣ST_interest(l)，表示为：

ST_interest(l)＝{P_l(k)|k∈K}

最后，用户的长期兴趣和短期兴趣通过线性组合，来表示用户的全部兴趣W_interest(u):

W_interest(u)＝θ*LT_interest(u)+μ*ST_interest(l)(1)

其中的θ，μ为组合参数，满足θ+μ＝1。

兴趣标签云图构建子模块303，用来对所述用户兴趣主题概率分布表示，取出现概率最大的前几个词作为用户兴趣，构建出用户兴趣标签云图(Tag cloud)：首先进行标签(Tag)的生成和收集，标签(Tag)的生成由用户手工输入或者系统自动生成，标签(Tag)的收集则依据tag cloud生成系统的参数；其次对标签(Tag)的统计排序，即依据tag cloud生成系统的参数，对标签(Tag)做统计排序；最后依据tag cloud生成系统的参数，生成标签云图。

参阅图4，服务推荐模块4包括服务信息获取子模块401、服务信息构建子模块402、推荐子模块403和兴趣标签云图更新子模块404。

服务信息获取子模块401，用于获取商品信息或服务信息。通过获取商品的文字描述信息或者直接通过网络爬虫直接从网络上获取用户所需的文字信息。

服务信息构建子模块402，用来对所述商品信息或服务信息使用建立好的所述主题模型进行分析，建立服务信息主题分布。

推荐子模块403，用来计算所述服务信息主题分布和所述用户兴趣标签云图的相似度并为用户提供不同方式的推荐服务。为用户推荐服务时有基于内容推荐和协同过滤推荐。

A)基于内容推荐。基于内容推荐应用在系统启动之初，没有用户的阅读历史和评分表，用来解决协同过滤推荐方法中存在的“冷启动”问题。基于内容的推荐应用在针对用户兴趣的内容推荐和针已读文章的内容推荐这两个阶段或者场景中。

针对用户兴趣的内容推荐。这种方式的推荐用在系统启动之处，用户没有任何浏览历史，无法进行关联推荐的时候。在针对用户兴趣的内容推荐上，可以针对用户的全部兴趣主题分布进行推荐，使用已经建立的用户兴趣的模型W_interest(u)，然后对已经获取的每一个服务信息文档通过建立好的主题模型进行分析，得到该文档的主题分布，即，document(i)＝(p_i1,p_i2,p_i3……p_it)

然后计算用户兴趣主题分布和文档主题分布的相似度，采用最简单直接的余弦距离相似度计算，计算公示如下：

similarity (W_{interest} (u), document (i)) = \frac{W_{interest} (u) * document (i)}{| | W_{interest} (u) | | * | | document (i) | |} - - - (2)

计算信息源中每篇文档的主题与用户的兴趣主题匹配度最高的前N篇文档，并在前端展示给用户的相关服务推荐。

进一步，由于我们提供了标签云图供用户交互使用，用户可能对标签中的一个或者多个标签更感兴趣，我们还提供一种针对特定兴趣标签的推荐方式。在该推荐方式下，用户选择了兴趣云图标签中的一个或者几个表明用户此时对这几个标签更感兴趣，希望系统能推荐更多的关于该主题的服务给用户。这时我们需要对用户兴趣模型中对被用户选中的主题的增加权重。

针对已读文章的内容推荐。该推荐方式下和前者有不同在于，该推荐方式不能推荐用户相似度最高的文章，而应该考虑相似度和内容新颖度的权衡，需要考虑以下指标：相关性和新颖性、连接清晰度、过渡平滑性。相关性和新颖性是两个对立面，相关性越高，新颖性越低，反之新颖性越高，相关度越低，余弦相似度模型在一定程度上可以有效的解决新颖性和冗余度问题；连接清晰度可以表示两篇文章在话题上的相似程度；过渡平滑性指用户从一个文档转到查看另一个文档兴趣转移难易程度。直观上讲，假如两个文档除过公共部分的，剩余的内容能够被放到同一个文档，则兴趣转移是容易的。

具体操作附图5，定义目前正在阅读文档为种子文档s(seeds)，候选文档为d(candidate)，这样两个文档相交的内容为s∩d，种子文档中剩余部分为s-d，候选文档中剩余部分为d-s。

首先，去除冗余文档。使用余弦相似度去掉那些在内容上相似度超过系统设定的阈值的候选文档。其次，计算连接清晰度，我们之前已经为每一个文档使用生成的主题模型计算出了其主题分布，通过计算Kullback-Leibler差异值(KL-Divergence)来衡量，即

clarity (s, d) = \underset{i}{Σ} p_{i}^{s} * \log \frac{p_{i}^{s}}{p_{i}^{d}}

最后是计算过渡平滑度。还是利用已经建好的主题模型下，找到两个文档的共有主题分布，定义为：

则种子文档中剩余部分主题分布有：

document(s-d)＝document(s)-document(s∩d)；

类似的候选文档中剩余部分的主题分布有：

document(d-s)＝document(d)-document(s∩d)；

然后比较两个文档中剩余部分的相似度，还是采用余弦相似度的计算办法即可得到。

B)协同过滤推荐。协同过滤推荐方式存在着冷启动的问题，需要依赖用户的历史行为才能预测用户的兴趣。随着用户行为数据的增多，协同过滤可以提供比较准确的结果。

在协同过滤推荐中存在着基于用户的协同过滤推荐和基于项目的协同过滤推荐。本实施例中，我们选择使用基于用户的协同过滤推荐，基于用户的协同过滤算法是根据邻居用户的偏好信息产生对目标用户的推荐，采用统计计算方式搜索目标用户的相似用户，并根据相似用户对项目的打分来预测目标用户对指定项目的评分，最后选择相似度较高的前若干个相似用户的评分作为推荐结果，并反馈给用户。

其核心在于主要是计算用户之间的相似度，我们提出的计算用户相似度的方法以下几方面：

a)用户个人信息之间相似度的矩阵，记为infoSim_u*u；

b)从语义上分析用户相似度，根据使用的主题模型计算出的用户兴趣的主题分布，得到用户兴趣主题分布的相似度矩阵，记为interestSim_u*u；

c)通过系统的评分，根据评分表计算出的用户相似度矩阵为scoreSim_u*u。

上述三个矩阵都是u*u的矩阵，其中第i行和第j列，表示用户i对用户j在该矩阵涉及的出发角度上的相似性，而且在计算相似度的时候都采用余弦距离相似度计算，最后两个用户相似性矩阵计算公式为：

userSim_u*u＝ω₁infoSim_u*u+ω₂interestSim_u*u+ω₃scoreSim_u*u

其中ω₁，ω₂，ω₃为计算相似度考虑的权重参数，满足ω₁+ω₂+ω₃＝1，一般情况下我们认为用户兴趣的主题分布更能真实的刻画和描述用户的兴趣，优先的，推荐参数为ω₁＝0.2，ω₂＝0.5，ω₃＝0.3。当然可以根据用户评分反馈来调整参数。得到用户之间相似度计算以后，取与目标用户最相似的好友中的前N位，然后将其评分项目中得分最高m项的，而且尚未向用户推荐过的项目，向用户进行推荐。

兴趣标签云图更新子模块404，用来根据用户反馈信息重新构建用户兴趣云图标签。由于用户兴趣和关注点也是随时间变化的，用户使用记录的增多，用户的浏览历史的上下文情况，也应该被考虑到用户兴趣建模的内容里面。针对这一情况，我们提出针对用户浏览历史的情境感知(context-aware)的用户兴趣建模，这种方法其实质是对LDA主题模型的一种扩展，该模型下，每一个用户被表示为话题的多项式分布，而每一个话题则是在已阅读或者浏览的文档(items)和情景特征(features)的集合上的分布，模型见附图6，其中，各个随机变量的含义如下：θ_i表示为用户i的主题分布，Z_ij表示为第j个文档在第i个用户概况(user profile)里的主题，S_ij表示为用户概况i中第j个文档，t_ijk表示为在第i个用户概况里的第j个项目中的第k个情景特征，μ_k表示为主题k在浏览文档(items)集合上的分布，表示为主题k在情景特征(features)集合上的分布。

与LDA主题模型类似，假定θ是一个k维的带参数α狄利克雷随机变量，其中k是主题的数据。变量μ是一个K*U的随机矩阵，其中K是主题的数目，而U是已阅读文档的数目。该矩阵的每一行都可以通过带参数β的可交狄利克雷分布独立得到，表示主题在已读文档集合上的分布。类似的，是一个K*X的随机矩阵，其中X表示为情景特征向量空间的大小，该矩阵的每一行都可以通过带参数γ的可交狄利克雷分布独立得到，表示主题在情景特征空间上的分布。

其中一个带有W特征的文档s的生成过程如下：首先选择一个随机值z，然后根据μ_Z对该文档进行采样，然后根据对特征进行采样，在该方式下，每一个文档和特征都是通过同一个主题生成，避免了特征向量维度太高，数据稀疏的问题。这样用户兴趣表示的建模过程如下：

通过狄利克雷先验(Dirichlet Prior)产生该文档的一个主题分布θ_p，θ_p～Dir(α)；

对每一个主题，选择其在文档集合上分布μ_k，μ_k～Dir(β)；

对每一个主题，选择其在特征空间上的分布，

在用户i已阅读的M个文档，对其中每一个，选择一个Z_i，Z_i～Multinomial(θ_p)；选择一个s_i，；对于W个情景特征中与S_i关联的每一个特征t_j，选择一个t_j，

在该模型下，对于给定的μ和，话题分布θ，话题Z，特征T和文档S的联合分布可以通过如下公式计算出来：

其中N表示用户数目，M为文档数目，W为特征数目，θ_p表示用户对某个话题的感兴趣程度。

更新了用户的兴趣分布以后，就可以使用上述的方法重新构建用户兴趣云图标签，更新该云图标签，便于更准确的推荐。

用户交互模块5用来向用户提供推荐服务结果展示并提供交互反馈，通常以列表形式将推荐服务结果展示或者其他方式展示给用户，同时用户对于推荐项目有反馈行为，系统需要捕捉用户的反馈。这些反馈同时也是协同过滤推荐的用户评分表，也可以用来对我们建立的用户兴趣云图标签进行更新。方法如下：

定义F＝{(u_i,d_j,f_ij)}为一个反馈，其中u_i表示用户，d_j表示文档，而f_ij是聚合用户u_i对文档d_j的各种反馈。捕捉的反馈有如下3种：点击进入查看该文档(f1)；对该文档进行了评分(f2)；对该文档进行了类似收藏或分享或推荐给其他用户(f3)。

聚合反馈的算法如下：定义b为本系统对文档的默认评分基准，只有用户评分大于b的时候，才被认为是一个正反馈。f1_ij表示用户u_i对文档d_j的点击与否的反馈评分。f2_ij表示用户u_i对文档d_j的推荐评分。f3_ij表示用户u_i对文档d_j的推荐的肯定与否的反馈评分。取m表示系统评分的最大的分，比如5分为满分(此时b一般取2，因为更多意味着正反馈)，r表示用户给出的推荐评分。

最后的聚合函数为

在该函数下，没有反馈时f1＝0，f2＝0，f3＝0；最后F＝0；

推荐满意度不高时，比如用户甚至没有点击该文档，则按系统假设，给出了最低评分1分，有f1＝0，f2＝(1-2)*(5/(5-2))＝-5/3，f3＝0；取相同权值，则F＝-9/5，得到了负反馈。

对一篇满意度极高的文档，用户查看后，评分为5分，并推荐给了其他用户或者自己收藏，则f1＝5，f2＝(5-2)*(5/(5-2))＝-5，f3＝5，有F＝5，得到了最大正反馈。

用户的反馈除了可以构建系统的评分表以外，还可以用来对用户的兴趣进行重新建模，更新用户兴趣标签云图，以提供更准确的推荐。

系统管理控制模块6用来处理和控制系统各部位工作。

图7为本发明系统实施例的流程图，包括如下步骤：

步骤S701，通过社交网络获取用户社交网络数据，包括用户个人社交网络信息、用户好友社交网络信息和本地最新网络信息；

步骤S702，构建文档到主题服从狄利克雷(Dirichlet)分布，主题到词服从多项式分布的主题模型；

步骤S703，对获取的所述社交网络数据进行预处理并进行噪声过滤，对过滤后的所述社交网络数据使用构建好的所述主体模型，使用维基百科对所述社交网络数据进行语义扩充，在维基百科数据上进行主题分析，得到用户兴趣主题概率分布，构建用户兴趣标签云图；

步骤S704，获取服务信息并对服务信息进行预处理，对预处理后的服务信息通过建立好的所述主题模型进行分析，使用维基百科对所述服务信息进行语义扩充，在维基百科数据上进行主题分析，建立服务信息主题分布模型；

步骤S705，计算所述服务信息主题分布模型和所述用户兴趣标签云图的相似度为用户提供不同方式的推荐服务；

步骤S706，推荐服务结果展示并提供交互反馈，根据用户反馈结果对用户的兴趣进行重新建模，更新用户兴趣标签云图。

本发明提供的基于主题模型的个性化服务推荐系统和方法，与现有的推荐系统和方法相比，主要有以下优点：

(1)利用社交网络获取的数据对用户兴趣进行挖掘和学习，提出了基于主题模型的用户兴趣建模方式，从语义上对用户兴趣进行挖掘，解决了基于向量空间模型(Vector Space Model)的兴趣模型维度高、数据稀疏等问题。

(2)对用户兴趣建模的时候综合考虑了用户的长期兴趣和短期兴趣，能更加真实的反应用户兴趣。

(3)针对建立的用户兴趣模型，进行基于内容和协同过滤的个性化推荐，克服了传统的个性化推荐系统存在的“冷启动”的问题。同时，提出了针已读文章的内容推荐的推荐方法，该方法考虑了待推荐文档和已读文档之间的相关性、新颖性和过渡平滑性等指标，向用户提供新内容的推荐。

(4)提出了捕捉用户反馈，得到用户评分的交互反馈方法，更新用户兴趣标签云图，为用户提供更准确的服务推荐。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种基于主题模型的个性化服务推荐系统，其特征在于，包括：

社交数据获取模块，用于获取用户的社交网络数据；

主题模型构建和分析模块，用来构建主题模型；

系统管理控制模块，用来处理和控制系统各部位工作。

2.如权利要求1所述的基于主题模型的个性化服务推荐系统，其特征在于，所述社交数据获取模块包括：

3.如权利要求1所述的基于主题模型的个性化服务推荐系统，其特征在于，所述用户兴趣建模模块包括：

4.如权利要求1所述的基于主题模型的个性化服务推荐系统，其特征在于，所述服务推荐模块包括：

服务信息获取子模块，用于获取商品信息或服务信息；

5.如权利要求3所述的基于主题模型的个性化服务推荐系统，其特征在于，所述用户兴趣构建子模块包括建立用户的长期兴趣和短期兴趣。

6.如权利要求4所述的基于主题模型的个性化服务推荐系统，其特征在于，所述推荐子模块进一步包括基于内容推荐模块和协同过滤推荐模块。

7.如权利要求1或4所述的基于主题模型的个性化服务推荐系统，其特征在于，所述主题模型使用维基百科对所述社交网络数据和所述服务信息进行语义扩充，在维基百科数据上进行主题分析。

8.一种基于主题模型的个性化服务推荐方法，其特征在于，包括如下步骤：

9.如权利要求8所述的基于主题模型的个性化服务推荐方法，其特征在于，所述推荐服务包括基于内容的推荐方式和协同过滤推荐方式。

10.如权利要求8所述的基于主题模型的个性化服务推荐方法，其特征在于，所述主题模型使用维基百科对所述社交网络数据和所述服务信息进行语义扩充，在维基百科数据上进行主题分析。