CN103455613A

CN103455613A - 基于MapReduce模型的兴趣感知服务推荐方法

Info

Publication number: CN103455613A
Application number: CN201310405629XA
Authority: CN
Inventors: 窦万春; 孟顺梅
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2013-12-18
Anticipated expiration: 2033-09-06
Also published as: CN103455613B

Abstract

本发明公开了基于MapReduce模型的兴趣感知服务推荐方法，包括以下步骤：步骤1：历史用户评论获取数据集；步骤2：根据本发明提供相应的关键词列表和领域词库提取目标用户和历史用户的兴趣，目标用户表示当前需要被推荐的用户；步骤3：对每个候选Web服务，计算目标用户与该候选Web服务的历史用户的相似度，为目标用户寻找相似的用户；步骤4：计算出目标用户和历史用户的相似度后，根据一种加权平均方法为目标用户预测出对于候选Web服务的个性化的评分，为目标用户提供一个个性化的服务排名列表，根据个性化的排名列表为用户推荐；步骤5：将步骤2至步骤4以Map-Reduce编程框架实现，分为四个阶段并行处理。

Description

基于MapReduce模型的兴趣感知服务推荐方法

技术领域

本发明涉及计算机数据处理领域，特别是一种适用于服务推荐的一种基于Map-Reduce模型的兴趣感知服务推荐方法。

背景技术

Internet的迅猛发展将人类带入了信息社会和网络经济时代，对企业发展和个人生活都产生了深刻的影响。在电子商务的虚拟环境下，商家所提供的商品种类和数量非常多，用户不可能通过一个小小的计算机屏幕一眼就知道所有的商品，用户也不可能像在物理环境下那样检查挑选商品。因此，需要商家提供一些智能化的选购指导，根据用户的兴趣爱好推荐用户可能感兴趣或是满意的商品，使用户能够很方便地得到自己所需要得到的商品。在这种背景下，推荐系统（Recommender Systems）应运而生。它是根据用户的特征，比如兴趣爱好，推荐满足用户要求的对象，也称个性化推荐系统（Personalized Recommender Systems）。实际中应用最多的，是在网上购物（尤其是B2C类型）环境下的、以商品为推荐对象的个性化推荐系统，它为用户推荐符合兴趣爱好的商品，如书籍，音像等。

大多数的推荐系统都是基于不同的评分策略为用户推荐最合适的候选Web服务。现存的服务推荐系统主要包括三种：基于内容的推荐系统；协同过滤推荐系统；混合型的推荐系统。基于内容的推荐系统主要是根据用户过去的选择为用户进行推荐。协同过滤的推荐系统是根据与目标用户兴趣相似的历史用户为其进行推荐。混合型的推荐系统则是将以上两种方法结合起来。

为了获得高效的推荐，为了获得有效的服务组合，工业界和学术界从不同的角度对服务推荐系统进行了大量研究。例如，G.Adomavicius等在“Toward the NextGeneration of Recommender Systems:A Survey of the Stateof-the-Art and PossibleExtensions”中对现存的推荐系统进行了概述，阐述了现存推荐系统的不足以及可能的解决途径使推荐系统能在更广泛的领域使用。在“Accuracy Improvements forMulti-criteria Recommender Systems”中D.Jannach等提出一个多维的服务推荐方法，该方法将用户根据用户偏好所制定的“兴趣格”进行聚类为用户进行推荐。随着Web2.0的成功，网上的信息量越来越大，给现存的推荐系统带来了挑战。随着各种云计算平台及软件的发展，如Apache Hadoop,Mapreduce,以及Mahout等等，这些平台可以提高推荐系统在大数据环境下的效率及可扩展性。

发明内容

本发明旨在克服现有技术中存在的不足，提供一种基于Map-Reduce模型的兴趣感知服务推荐方法，为用户提供个性化的服务推荐，并且提高了推荐系统的可扩展性。

本发明公开了一种基于MapReduce模型的兴趣感知服务推荐方法，包括以下步骤：

步骤1：获取数据集，从目标网站获取服务的历史用户的评论及评分，进行预处理，将获取的评论片段中的html标签和停止词除去以避免影响下面关键词提取的质量。

步骤2：本发明为用户提供了相应的服务领域的关键词列表，目标用户通过从关键词候选列表中选择关键词表示目标用户的兴趣，形成目标用户兴趣的关键词集合；根据关键词候选列表，如果历史用户对候选Web服务的评论中出现关键词列表中的词，则将关键词提取出来表示历史用户的兴趣，形成历史用户兴趣的关键词集合；

关键词候选列表示一组同时用来表示用户兴趣和服务质量属性的词，具体描述为K={k₁,k₂,...,k_i...,k_n}，k_i表示第i个关键词，n表示关键词的个数，n取值自然数，i取1～n中任意自然数。

目标用户通过从关键词候选列表中选择关键词来表示他的兴趣。此外，目标用户需要选择他所选关键词的重要程度，关键词重要程度的指标如表1所示，其中“1”表示一般，“3”表示重要，“5”表示非常重要。

表1.关键词重要程度指标

重要度	1	3	5
				量度	一般	重要	非常重要

目标用户兴趣的关键词集合表示为UK={uk₁,uk₂,...uk_d...,uk_l}，其中uk_d表示目标用户从关键词列表中选出来的第d个关键词，l是选出来的关键词的总数。

历史用户的兴趣则根据关键词列表从他们对候选Web服务的评论中提取出来，如果历史用户对候选Web服务的评论中出现关键词列表中的词则将关键词提取出来转化为关键词集合表示历史用户的兴趣。要将候选Web服务的每个历史用户的评论转化为关键词集合作为历史用户的兴趣。历史用户的评论对应的关键词集合可以表示为RK={rk₁,rk₂,...,rk_v,...,rk_h}，其中rk_v表示从评论中提取出来的第v个关键词，h是提取出来关键词的总数。本发明中，一个评论就等价于它对应的关键词集合。

步骤3：根据一种基于余弦相似度方法计算目标用户和候选Web服务历史用户的相似度，为目标用户找出兴趣相似的历史用户。

在余弦相似度计算方法中，将目标用户兴趣的关键词集合UK转化为n维的权重向量

将历史用户兴趣的关键词集合RK转化为n维的权重向量n是关键词列表中关键词的个数，

是的第i维，表示关键词列表中关键词k_i在

中的权重，

是

的第i维，表示关键词列表中关键词k_i在

中的权重。

采用层次分析处理AHP模型计算目标用户兴趣关键词集合中包含的关键词的权重，采用TF-IDF方法计算历史用户兴趣关键词集合中包含的关键词的权重，如果关键词集合中不包含关键词列表中的关键词k_i,,则该关键词的权重为0。

本发明采用层次分析处理（Analytic hierarchy process,AHP）模型来计算目标用户的兴趣关键词集合中关键词的权重。

如果目标用户兴趣关键词集合中不包含关键词列表中的关键词k_i,,则

如果目标用户兴趣关键词集合中包含关键词列表中的关键词k_i，则采用层次分析处理AHP模型计算,计算过程如下：

首先要创建关于目标用户兴趣的关键词集合中的任意两个关键词的相对重要性的成对比较矩阵A_m=(a_ij)_m，两个关键词的相对重要性是目标用户选择的关键词重要程度的比值，该矩阵需满足以下述三个条件：

1)a_ij=1,i=j=1,2,3,...,m，

2)a_ij=1/a_ji,i,j=1,2,3,...,m and i≠j，

3)a_ij=a_ik/a_kj,i,j,k=1,2,3,...,m and i≠j，

其中，a_ij表示两个关键词的相对重要程度，m是目标用户兴趣关键词集合中关键词的个数，i，j，k表示关键词的标号；

检查成对比较矩阵的一致性后，通过以下公式计算目标用户兴趣关键词的权重

w_{UK}^{i} = \frac{1}{m} Σ_{j = 1}^{m} \frac{a_{ij}}{Σ_{k = 1}^{m} a_{kj}},

如果候选Web服务的历史用户兴趣关键词集合中不包含关键词列表中的关键词k_i，,则

w_{RK}^{i} = 0;

历史用户兴趣关键词集合中关键词的权重则是通过TF-IDF（the termfrequency/inverse document frequency）方法确定的。TF-IDF是信息检索中确定关键词权重的最著名的方法之一。

如果候选Web服务的历史用户兴趣关键词集合中不包含关键词列表中的关键词ki,,则

w_{RK}^{i} = 0 .

如果历史用户兴趣关键词集合中包含关键词列表中的关键词k_i，则采用TF-IDF方法计算；采用TF-IDF方法计算候选Web服务的每个历史用户兴趣关键词的权重向量时，对该历史用户所有评论中的每个评论，根据关键词候选列表，如果该评论中出现关键词列表中的词，则将关键词提取出来，形成历史用户评论关键词集合RK’，R'={RK'₁,RK'₂,...,RK'_i,....,RK'_g}，R'表示该历史用户的所有评论关键词集合的集合，g表示该历史用户所有评论的总个数；历史用户所有评论包括对候选Web服务做出的评论以及对不在候选Web服务中的服务做出的评论。

TF是指评论关键词集合中关键词的词频，可由以下计算可得：

TF = \frac{N_{k_{i}}}{Σ N_{k_{i}}},

其中

表示关键词k_i在同一历史用户的所有评论的关键词集合中出现的次数。

IDF是指逆向文件频率，定义如下：

IDF = \log \frac{| R^{'} |}{| r^{'} : k_{i} &Element; r^{'} |}

其中|R’|是指同一历史用户的所有评论个数，|r':rk_i∈r'|是指评论关键词集合中出现关键词k_i的评论的个数。则关键词k_i的TF-IDF权重可以定义如下公式：

w_{RK}^{i} = TF \times IDF = \frac{N_{k_{i}}}{Σ N_{k_{i}}} \times \log \frac{| R^{'} |}{| r^{'} : k_{i} &Element; r^{'} |},

TF指历史用户兴趣的关键词集合中关键词的词频，即关键词在评论中出现的频率，IDF是指词的逆向文件频率，一个词的IDF由总评论数目除以包含该词的评论的数目，再将得到的商取对数得到，表示关键词k_i在历史用户的所有评论的关键词集合中出现的次数；|R’|指历史用户的所有评论个数，|r':k_i∈r'|是指历史用户兴趣的关键词集合中出现关键词k_i的评论r'的个数。

基于余弦方法的相似度的计算如下所示：

sim (UK, RK) = \cos (UK, RK) = \frac{{\overset{&RightArrow;}{W}}_{uk} \cdot {\overset{&RightArrow;}{W}}_{RK}}{{| | {\overset{&RightArrow;}{W}}_{uk} | |}_{2} \times {| | {\overset{&RightArrow;}{W}}_{RK} | |}_{2}} = \frac{Σ_{i = 1}^{n} w_{UK}^{i} \times w_{RK}^{i}}{\sqrt{Σ_{i = 1}^{n} {(w_{UK}^{i})}^{2}} \sqrt{Σ_{i = 1}^{n} {(w_{RK}^{i})}^{2}}}

其中和

分别表示目标用户兴趣关键词集合UK的权重向量和历史用户兴趣的关键词集合RK的权重向量，

和

分别表示

和

的第i维，分别表示关键词列表中的关键词k_i在

和

中的权重。

步骤4：计算出目标用户和历史用户的相似度之后，可以为目标用户预测出对于候选Web服务的个性化的评分。本发明中，利用一种加权平均方法为目标用户计算每个候选Web服务个性化的评分pr，公式如下所示：

pr = \overset{&OverBar;}{r} + k \underset{{RK}_{j} &Element; \hat{R}}{Σ} sim (UK, {RK}_{j}) \times (r_{j} - \overset{&OverBar;}{r}),

其中sim(UK,RK_j)是指目标用户兴趣关键词集合UK的权重向量和历史用户兴趣的关键词集合RK_j的相似度，乘数k是一个归一化因子，

表示过滤后的历史用户的兴趣关键词集合的集合，r_j是步骤1中历史用户兴趣的关键词集合RK_j对应的评分，表示该服务所有评分的算数平均值，集合

的过滤方法为将与目标用户兴趣关键词集合并集为空集的历史用户的关键词集合过滤掉。

重复以上步骤可以为目标用户计算出所有候选Web服务的个性化评分。可以为目标用户提供一个个性化的服务排名列表，评分最高的将被推荐给目标用户，当然也可以为其推荐前K个评分最高的候选Web服务。

步骤5：可将步骤2至步骤4以Map-Reduce编程框架实现，分为四个阶段并行处理，实现过程如附图2所示。

一：将步骤2中所有候选Web服务的评论转化为历史用户兴趣关键词集合的过程并行处理，同时将步骤4中计算每个候选Web服务评分的算数平均值

的过程在这一步中并行处理；

Map-I：将有相同s值的<u,s,r_us,R_us>以<u,r_us,R_us>的形式Map到相同的节点中去。

Reduce-I：将<u,r_us,R_us>作为输入，对每个Map-I的输入<u,r_us,R_us>输出

输出

O_{1} = {< u, s, r_{us}, {RK}_{us}, {\overset{&OverBar;}{r}}_{s}}, s &Element; [1, N]

将用于第三阶段的相似度的计算。

其中I₁={<u,s,r_us,R_us>},s∈[1,N]是Map-I的输入，r_us是历史用户u对候选Web服务s的评分，R_us是历史用户u对候选Web服务s的评论，N是候选Web服务的个数，Reduce-I的输出中的RK_us是评论R_us对应的关键词集合。

二：将步骤3中候选Web服务的历史用户的所有评论分别转化为评论关键词集合的过程并行处理，并将利用TF-IDF方法计算候选Web服务的历史用户兴趣关键词集合的权重向量的过程并行处理；

Map-II：将有相同u值的元组<u,R'_ut>以<R'_ut>Map到同一个节点中。

Reduce-II：将<R'_ut>作为输入，输出

其中I₂={<u,R'_ut>}是Map-II的输入，R'_ut是历史用户u的一个评论，

表示历史用户u兴趣关键词集合的权重向量。输出元组将用于Reduce-III中的相似度计算。

三：将步骤3中计算目标用户和每个历史用户间的相似度的过程并行处理；

Map-III：将有相同s值的元组

以

的形式Map到同一节点中去。

Reduce-III：将

和

作为输入，输出

Similarity = {< u, s, r_{us}, {sim}_{us}, {\overset{&OverBar;}{r}}_{s} >, s &Element; [1, N] .

其中是目标用户兴趣的关键词集合的权重向量，sim_us表示目标用户和历史用户u在候选Web服务s上的相似度。

四：将步骤4中为目标用户计算对每个候选Web服务的个性化评分的过程并行处理，最后根据个性化的排名列表为目标用户推荐评分最高的服务。

Map-IV：将有相同s值的

元组以

的形式Map到相同的节点中去。

Reduce-IV：将

作为输入，输出Ranking-list={<pr_s,s>},s∈[1,N]。

其中pr_s表示为目标用户预测出的对候选Web服务s的个性化评分，同时经过Reduce-IV过程后这些元组是按服务的编号s排序的，这正是目标用户所需的候选Web服务的个性化排名列表，根据个性化的排名列表为用户推荐评分最高的服务。

本发明根据提供的关键词列表提取用户的兴趣；然后对每个候选Web服务，计算目标用户与该候选Web服务的历史用户的相似度，为目标用户寻找相似的用户；最后根据一种加权平均方法为目标用户预测出对于每个候选Web服务的个性化的评分，为目标用户提供一个个性化的服务排名列表，评分最高的候选Web服务将被推荐给目标用户。如果数据量较大，可将该方法以Map-Reduce模型作为编程框架并行处理，来提高该推荐方法的扩展性和效率。

与现有技术相比，本发明的效果体现在：

1）历史用户的兴趣是从其对候选Web服务的评论中提取得到更加真实可靠，目标用户可以根据关键词列表选择自己的兴趣，是推荐系统更加个性化。

2）将该推荐方法以Map-Reduce模型作为编程框架，分为四个阶段并行处理，提高了服务推荐方法的可扩展性和效率。

附图说明

图1本发明流程图。

图2为本发明基于Map-Reduce的实现流程图。

具体实施方式：

本发明提出了一种基于Map-Reduce模型的兴趣感知服务推荐方法，包括以下步骤：步骤1：获取数据集，从相应的服务领域网站获取服务的历史用户的评论及评分；步骤2：提取用户兴趣，本发明提供了相应的服务领域关键词候选列表，目标用户通过从关键词候选列表中选择关键词来表示他的兴趣，历史用户的兴趣根据关键词候选列表从他们对候选Web服务的评论中提取得到；步骤3：对每个候选Web服务，计算目标用户与该候选Web服务的历史用户的相似度，为目标用户寻找相似的用户；步骤4：根据一种加权平均方法为目标用户预测出对候选Web服务的个性化的评分，为目标用户提供一个个性化的候选Web服务排名列表，评分最高的候选Web服务将被推荐给目标用户；步骤5：将步骤2至步骤4以Map-Reduce编程框架实现，分为四个阶段并行处理。

本发明为用户提供了相应的服务领域关键词列表，目标用户通过从关键词候选列表中选择关键词来表示他的兴趣。历史用户的兴趣根据关键词候选列表从他们对服务的评论中提取出来。

根据一种基于余弦相似度的方法计算目标用户和候选Web服务历史用户的相似度，为目标用户找出兴趣相似的历史用户。

在余弦相似度计算方法中，将目标用户兴趣的关键词集合和历史用户兴趣的关键词集合分别转化为n维的权重向量

和

n是关键词列表中关键词的个数，

是

的第i维，表示关键词列表中关键词ki在中的权重，

是

的第i维，表示关键词列表中关键词k_i在中的权重；

采用层次分析处理AHP模型计算目标用户兴趣的关键词集合中包含的关键词的权重，采用TF-IDF方法计算历史用户兴趣的关键词集合中包含的关键词的权重，如果关键词集合中不包含关键词列表中的关键词k_i,,则该关键词的权重为0；

基于余弦方法的相似度的计算如下所示

sim (UK, RK) = \cos (UK, RK) = \frac{{\overset{&RightArrow;}{W}}_{uk} \cdot {\overset{&RightArrow;}{W}}_{RK}}{{| | {\overset{&RightArrow;}{W}}_{uk} | |}_{2} \times {| | {\overset{&RightArrow;}{W}}_{RK} | |}_{2}} = \frac{Σ_{i = 1}^{m} w_{UK}^{i} \times w_{RK}^{i}}{\sqrt{Σ_{i = 1}^{n} {(w_{UK}^{i})}^{2}} \sqrt{Σ_{i = 1}^{n} {(w_{RK}^{i})}^{2}}}

其中和

和

分别表示和

的第i维，分别表示关键词列表中的关键词k_i在

和

中的权重。

计算出目标用户和候选Web服务的历史用户的相似度之后，可为目标用户预测出每个候选Web服务的个性化评分。本发明利用一种加权平均方法为目标用户计算每个候选Web服务个性化的评分pr，公式如下所示：

pr = \overset{&OverBar;}{r} + k \underset{{RK}_{j} &Element; \hat{R}}{Σ} sim (UK, {RK}_{j}) \times (r_{j} - \overset{&OverBar;}{r})

其中sim(UK,RK_j)是指目标用户兴趣关键词集合UK的权重向量和某个评论关键词集合RK_j的相似度，乘数k是一个归一化因子，

表示经过简单过滤后剩下的评论，r_j是评论RK_j对应的评分，r表示该服务所有评分的算数平均值。

为目标用户计算出每个候选Web服务的个性化评分后，则可为目标用户提供一个个性化的服务排名列表，评分最高的将被推荐给目标用户，当然也可以为其推荐前K个评分最高的候选Web服务。

在本发明中为了提高该推荐方法的扩展性和效率，将该方法以Map-Reduce作为编程框架，分为四个阶段并行处理。

实施例1

本实施例假设以宾馆预订为例，选择了香港九龙的三个酒店：香港W酒店，香港朗廷酒店以及香港九龙海逸君绰酒店，将在这三个酒店中分别为Alice和Tom挑选最适合他们的酒店。本实施例从www.tripadvisor.com这个著名的旅游网站获得这三个酒店的历史用户的评论，为了方便，每个酒店分别挑选了30个历史用户的评论，为了计算历史用户的兴趣关键词的权重，也需要收集历史用户对其他酒店的评论，这也可以从www.tripadvisor.com获得。

表2中给出了一个简单的宾馆预订系统中的关键词候选列表。

表2.宾馆预订系统关键词候选列表样例

No.	关键词	No.	关键词	No.	关键词
						1	Service	2	Room	3	Shopping
4	Cleanliness	5	Food	6	Value
						7	Transportation	8	Family;Friends	9	Location
10	View	11	Quite	12	Fitness
						13	Airport;Train	14	Wi-Fi	15	Environment
16	Bar	17	Beach

首先Alice和Tom分别从宾馆预订系统关键词候选列表选出关键词代表他们的兴趣。Alice和Tom兴趣关键词集合分别是{Service(5),Shopping(5),Location(3),Airport;Train(3)}和{Service(3),Food(3),Value(5),View(3)}，其中括号里的数字代表兴趣的重要程度。为了简便，本实施例中利用表2中的编号来代表兴趣，所以Alice和Tom的兴趣关键词集合分别为UK_A={1,3,9,13}和UK_T={1,5,6,10}。

根据宾馆预订系统的关键词列表，分别将这三个酒店的30个历史用户评论转化为对应的关键词集合代表历史用户的兴趣，如果评论中出现关键词列表中的词则将关键词提取出来，如表3所示，其中集合内的数字为提取的历史用户的兴趣关键词对应的编号，集合后小括号中的数字表示历史用户对该酒店的评分。

表3.三个酒店的30个历史用户评论对应关键词集合

(a)香港W酒店30个历史用户评论对应关键词集合

No.1～6	No.7～12	No.13～18	No.19～24	No.24～30
					{1,3,5,9,13}(5)	{1,2,9,10,13}(5)	{2,3,9}(5)	{3,10,12,13}(5)	{5,16}(4)
{1,2,3,10,13(4)	{1,2,3,9,13}(4)	{1,2,3,5,12,13}(5)	{1,5,9,12,13}(5)	{5,6,10}(4)
					{2,6,10}(4)	{1,2,9}(5)	{1,2,3,5,9}(4)	{1,5,6,12}(4)	{1,2,9,13}(5)
{1,2,5,10}(5)	{2,5,12}(4)	{1,5,6}(4)	{3,5,12,13}(5)	{1,2,3,10,13}(5)
					{1,2,9,13}(5)	{1,2,6,13}(5)	{1,2,5,9,12}(5)	{1,9,13}(5)	{2,5,9,10}(4)
{2,6,9,12}(4)	{5,6,9}(4)	{2,5,15}(5)	{1,2,3,5,13}(4)	{1,2,5,9}(5)

(b)香港朗廷酒店30个历史用户评论对应关键词集合

No.1～6	No.7～12	No.13～18	No.19～24	No.24～30
					{1,2,5,9,14}(5)	{1,2,3,5,9,12}(5)	{2,5,6,8,11}(3)	{1,2,5,6,9,14}(5)	{1,2,3,6,9,12}(4)

{2,3,4,5,6,9}(5)	{1,2,5,6}(5)	{2,5,6,9}(4)	{1,2,9,10,12}(5)	{1,5,6,11}(4)
					{1,3,6,8,9}(4)	{2,3,9}(5)	{1,2,3,10,13}(5)	{1,2,3,5,9,13}(5)	{1,2,3,11,12}(5)
{1,2,5,9,14}(5)	{1,2,5,6,9}(4)	{1,3,5,12,14}(5)	{1,2,4,8,9}(5)	{1,3,9,13}(5)
					{1,2,5,9,15}(5)	{1,2,6,9,14}(4)	{1,3,5,9,12}(5)	{1,5,6,9}(4)	{2,6,9}(5)
{1,2,8,9,12}(5)	{1,2,6,9,12}(4)	{1,2,3,5,8}(5)	{1,2,9,13}(5)	{1,2,3,5,9}(5)

(c)香港九龙海逸君绰酒店30个历史用户评论对应关键词集合

No.1～6	No.7～12	No.13～18	No.19～24	No.24～30
					{1,2,5,6,10}(5)	{1,2,9,10,12}(5)	{1,2,5,10,14}(5)	{1,2,6,10}(5)	{2,5,9,10}(4)
{1,3,8,9,10}(4)	{1,2,5,8}(3)	{2,5,6,8,12}(5)	{1,2,5,10}(5)	{1,2,5,10,14}(4)
					{1,2,9,11,12}(4)	{1,2,5,6,10}(5)	{1,2,3,9,13}(4)	{1,2,11,13}(3)	{1,6,10,12}(5)
{1,2,5,10}(5)	{1,2,10}(5)	{1,2,6,10,12}(5)	{2,6,10,11}(4)	{1,2,6,8,12}(5)
					{1,2,4,6,12}(5)	{1,2,5,9,10}(4)	{1,2,9,12}(4)	{1,2,5,10,12}(5)	{1,5,6,10}(5)
{1,2,3,5,7}(5)	{1,3,5,10,14}(4)	{1,2,5,8,10}(5)	{1,2,9,10,11}(4)	{1,2,5,6,10}(5)

Alice和Tomd兴趣的权重向量可由AHP方法算得分别为

{\overset{&RightArrow;}{W}}_{{UK}_{A}} = [0.3125,0,0.3125,

0,0,0,0,0,0.1875,0,0,0,0,0.1875,0,0,0,0],

{\overset{&RightArrow;}{W}}_{{UK}_{T}} = [0.2143,0,0,0,0.2143,0.3571,0,

0,0,0.2143,0,0,0,0,0,0,0,0] .

需将历史用户的对其他酒店的评论根据关键词候选列表转化为相应的关键词集合，然后利用TF-IDF方法来计算出历史用户兴趣的关键词权重(数目较多，此处不详细列出)。

然后对Alice和Tom分别利用基于余弦的方法计算他们与历史用户的兴趣相似度，最后分别算出他们对三个酒店的个性化评分，如表4所示。

表4.Alice和Tom对三个酒店的个性化评分

从表4中可以看出，如果按平均分最好的是香港朗廷酒店。实际上按照本发明方法，对Alice而言最合适的酒店是香港朗廷酒店，而对于Tom而言最合适的是香港九龙海逸君绰酒店。

此实施例数据量较小，如果数据量大则可用Map-Reduce模型实现，分四个阶段并行处理，来提高效率，过程如下：

一：将所有候选酒店的评论转化为历史用户兴趣关键词集合的过程并行处理，同时将计算每个候选酒店评分的算数平均值

的过程在这一步中并行处理；

二：将候选酒店的历史用户的所有评论分别转化为相应的关键词集合的过程并行处理，并将利用TF-IDF方法计算候选酒店的历史用户兴趣关键词集合的权重向量的过程并行处理；

三：将计算Alice，Tom和候选酒店的历史用户间的相似度的过程并行处理；

四：将为Alice,Tom计算对每个候选酒店的个性化评分的过程并行处理，最后根据个性化的排名列表分别为Alice，Tom推荐评分最高的服务。

本发明提供了一种基于Map-Reduce模型的兴趣感知服务推荐方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.基于MapReduce模型的兴趣感知服务推荐方法，其特征在于：包括以下步骤：

步骤1：获取数据集，从目标网站获取服务的历史用户的评论及评分；

步骤2：设定关键词列表，目标用户通过从关键词候选列表中选择关键词表示目标用户的兴趣，形成目标用户兴趣的关键词集合UK；根据关键词候选列表，如果历史用户对候选Web服务的评论中出现关键词列表中的词，则将关键词提取出来表示历史用户的兴趣，形成历史用户兴趣的关键词集合RK；目标用户为当前需要被推荐的用户；

步骤3：对每个候选Web服务，采用一种基于余弦相似度方法计算目标用户与该候选Web服务的历史用户的相似度，为目标用户寻找相似度最高的历史用户；

步骤4：采用加权平均方法为目标用户计算出对于每个候选Web服务的个性化的评分，为目标用户提供一个个性化的服务排名列表，根据个性化的排名列表为目标用户推荐评分最高的服务。

2.根据权利要求1所述的基于MapReduce模型的兴趣感知服务推荐方法，其特征在于，步骤2中，关键词列表表示一组同时用来表示用户兴趣和服务质量属性的词，具体描述为K={k₁,k₂,...k_i...,k_n}，k_i表示第i个关键词，n表示关键词的个数，n取值自然数，i取1～n中任意自然数。

3.根据权利要求2所述的基于MapReduce模型的兴趣感知服务推荐方法，其特征在于，步骤2中，目标用户需选择其所选关键词的重要程度，程度为一般数值为1，程度为重要数值为3，程度为非常重要数值为5。

4.根据权利要求3所述的基于MapReduce模型的兴趣感知服务推荐方法，其特征在于，步骤3中，将目标用户兴趣的关键词集合UK转化为n维的权重向量

将历史用户兴趣的关键词集合RK转化为n维的权重向量

{\overset{&RightArrow;}{W}}_{RK} = [w_{RK}^{1}, w_{RK}^{2}, . . ., w_{RK}^{i}, . . ., w_{RK}^{n}],

n是关键词列表中关键词的个数，

是

的第i维，表示关键词列表中关键词k_i在

中的权重，

是的第i维，表示关键词列表中关键词k_i在

中的权重；

采用层次分析处理AHP模型计算目标用户兴趣的关键词集合中关键词的权重，采用TF-IDF方法计算历史用户兴趣的关键词集合中关键词的权重，如果关键词列表中的关键词k_i不在关键词集合中，则该关键词k_i的权重为0；

基于余弦方法的相似度的计算如下所示：

sim (UK, RK) = \cos (UK, RK) = \frac{{\overset{&RightArrow;}{W}}_{uk} \cdot {\overset{&RightArrow;}{W}}_{RK}}{{| | {\overset{&RightArrow;}{W}}_{uk} | |}_{2} \times {| | {\overset{&RightArrow;}{W}}_{RK} | |}_{2}} = \frac{Σ_{i = 1}^{m} w_{UK}^{i} \times w_{RK}^{i}}{\sqrt{Σ_{i = 1}^{n} {(w_{UK}^{i})}^{2}} \sqrt{Σ_{i = 1}^{n} {(w_{RK}^{i})}^{2}}} .

5.根据权利要求4所述的基于MapReduce模型的兴趣感知服务推荐方法，其特征在于，采用层次分析处理AHP模型计算目标用户兴趣的关键词集合的权重向量包括如下步骤：

如果关键词列表中的关键词k_i,不在目标用户兴趣关键词集合中,则

如果关键词列表中的关键词k_i在目标用户兴趣关键词集合中，则采用层次分析处理AHP模型计算；

创建关于目标用户兴趣的关键词集合中的任意两个关键词的相对重要性的成对比较矩阵A_m=(a_ij)_m，两个关键词的相对重要性是目标用户选择的关键词重要程度的比值，该矩阵需满足以下述三个条件：

1)a_ij=1,i=j=1,2,3,...,m，

2)a_ij=1/a_ji,i,j=1,2,3,...,m andi≠j，

3)a_ij=a_ik/a_kj,i,j,k=1,2,3,...,m andi≠j，

通过以下公式计算目标用户兴趣关键词k_i的权重

w_{UK}^{i} = \frac{1}{m} Σ_{j = 1}^{m} \frac{a_{ij}}{Σ_{k = 1}^{m} a_{kj}};

如果候选Web服务的历史用户兴趣关键词集合中不包含关键词列表中的关键词k_i，，则

w_{RK}^{i} = 0;

如果关键词列表中的关键词k_i在历史用户兴趣关键词集合中，则采用TF-IDF方法计算；采用TF-IDF方法计算候选Web服务的每个历史用户兴趣关键词的权重向量时，对该历史用户所有评论中的每个评论，根据关键词候选列表，如果该评论中出现关键词列表中的词，则将关键词提取出来，形成历史用户评论关键词集合RK’，R'={RK'₁,RK'₂,...,RK'_i,....,RK'_g}，R'表示该历史用户的所有评论关键词集合的集合，g表示该历史用户所有评论的总个数；历史用户所有评论包括对候选Web服务做出的评论以及对不在候选Web服务中的服务做出的评论；

采用TF-IDF方法计算候选Web服务的历史用户兴趣关键词k_i的权重

的公式为：

w_{RK}^{i} = TF \times IDF = \frac{N_{k_{i}}}{Σ N_{k_{i}}} \times \log \frac{| R^{'} |}{| r^{'} : k_{i} &Element; r^{'} |},

TF指历史用户兴趣的关键词集合中关键词的词频，即关键词在评论中出现的频率，IDF是指词的逆向文件频率，一个词的IDF由总评论数目除以包含该词的评论的数目，再将得到的商取对数得到，

表示关键词k_i在历史用户的所有评论的关键词集合中出现的次数；|R’|指历史用户的所有评论个数，|r':k_i∈r'|是指历史用户兴趣的关键词集合中出现关键词k_i的评论r'的个数。

6.根据权利要求5所述的基于MapReduce模型的兴趣感知服务推荐方法，其特征在于，步骤4中采用加权平均方法为目标用户计算每个候选Web服务个性化的评分pr，公式如下：

pr = \overset{&OverBar;}{r} + k \underset{{RK}_{j} &Element; \hat{R}}{Σ} sim (UK, {RK}_{j}) \times (r_{j} - \overset{&OverBar;}{r}),

表示过滤后的历史用户的兴趣关键词集合的集合，r_j是步骤1中历史用户兴趣的关键词集合RK_j对应的评分，

表示该服务所有评分的算数平均值，集合

7.根据权利要求6所述的基于MapReduce模型的兴趣感知服务推荐方法，其特征在于，步骤4后包括步骤5：将步骤2至步骤4以Map-Reduce编程框架实现，分为四个阶段并行处理，具体为：

的过程在这一步中并行处理；

二：将步骤3中候选Web服务的历史用户的所有评论分别转化为评论关键词集合RK’的过程并行处理，并将利用TF-IDF方法计算候选Web服务的历史用户兴趣关键词集合的权重向量的过程并行处理；

三：将步骤3中计算目标用户和候选Web服务的历史用户间的相似度的过程并行处理；