CN103473128A

CN103473128A - 一种用于mashup应用推荐的协同过滤方法

Info

Publication number: CN103473128A
Application number: CN2013104147937A
Authority: CN
Inventors: 窦万春; 胡蓉
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2013-12-25

Abstract

本发明公开了一种用于mashup应用推荐的协同过滤方法，包括以下步骤：步骤1，计算mashup应用之间的内容相似度；步骤2，传递内容相似度；步骤3，聚类mashup应用；步骤4，计算属于同一个聚类的mashup应用之间的评分相似度；步骤5，选择邻居；步骤6，推荐mashup应用。本发明优势包括：聚类中的mashup应用数目远小于推荐系统中所有mashup应用的数目，推荐系统响应速度较快；同一聚类中的用户评分相对更集中，密度较大，稀疏度较小，mashup应用的评分相似度计算更准确；同一聚类中mashup应用更相关，评分推测更准确；离线完成聚类过程，保证了推荐系统的及时更新。

Description

一种用于mashup应用推荐的协同过滤方法

技术领域

本发明涉及计算机软件技术领域，特别是一种用于mashup应用的推荐的协同过滤方法。

背景技术

自20世纪80年代开始，全球产业结构呈现出“工业型经济”向“服务型经济”转型的总趋势。根据世界银行的统计，现代服务业的总产出占世界总产出的60％以上，而发达国家则超过70％。现代服务业的竞争正成为世界经济发展的焦点。服务计算提供灵活的计算架构支持现代服务业，逐渐成为极富前途的研究领域。

随着服务计算和Web2.0技术的发展，一种新型的网络应用mashup应用在因特网上逐渐兴起。互联网实验室的《2006-2007互联网前沿发展大趋势》中指出：“Mashup应用将成为未来内容创新性组合的全新方式。而Mashup应用程序就是使用这种模式搭建而成的全新的创新服务，使用到外部的多个数据源的内容和服务，把松散的资源、要素、服务和功能集成在网络环境中，并且新的服务的价值大于所使用服务组合的简单叠加，它带给用户集成体验；分散在各地的页面被以一种新奇的重用模式合并、表达出来。Mashup应用体现了面向服务的框架(Service Oriented Architecture，SOA)的理念，是一种基于网络的、可复用的、轻量级的内容集成。近年来，mashup应用已经成为web应用领域的热门词汇，许多公司和机构提供了多种多样的mashup应用解决方案或将已有的整合方案重新标记为mashup应用工具。目前，已推出的mashup应用开发工具主要有Yahoo!Pipes、Microsoft’s PopFly、Google Mashup Editor、IBM Damia以及

Mash Maker等。这些工具使得用户更加容易、方便地糅合web应用，加速了mashup应用的开发进程，导致mashup应用的数目日益增加。来自programmableweb网站的数据显示，截至2013年9月5日，全球在该网站上注册的API数目达到9902个，基于API开发的mashup应用达到7172个。典型的mashup应用包括地图mashup应用，图片和视频mashup应用，搜索和购物mashup应用等。这些mashup应用及其生成的数据具有数据量大、处理速度快、数据类型多等大数据特征。为了从大数据中发现知识并加以利用，指导人们的决策，必须对这些数据进行深入的分析，而不是仅仅生成简单的报表。

面对大量类似功能的mashup应用，大部分用户缺乏足够的经验或能力选择合适的mashup应用，因此，为用户推荐适合个性需求的mashup应用，成为当前急需解决的问题。推荐系统是解决信息过载问题的有效手段之一，而协同过滤是推荐系统中最常用的方法。协同过滤分析用户兴趣，在用户群中找到指定用户的相似(兴趣)用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。然而，随着mashup应用及其产生的数据量越来越大，mashup应用的协同过滤技术面临诸多挑战：(1)mashup应用数量巨大，但推荐系统需极可能快地作出响应；(2)尽管mashup应用增长迅速，但表达用户对mashup应用的兴趣的信息非常稀疏，使得用户或mashup应用之间相似度的计算可能不准确；(3)mashup应用的种类越来越多，从用户对各种其他类别中的mashup应用的评价推测其对于给定mashup应用的评价很可能并不准确；(4)新的用户和新的mashup应用不断加入推荐系统，推荐算法应该快速、准确地更新。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术中响应时间长，推荐质量不高的缺陷，提供一种用于mashup应用推荐的协同过滤方法。

为了解决上述技术问题，本发明公开了一种用于mashup应用推荐的协同过滤方法，包括以下步骤：

步骤1，计算mashup应用之间的内容相似度：提取所有mashup应用的应用程序接口(Application Programming Interface，API)和标签信息，基于杰卡德相似系数(Jaccard Similarity Coefficient，JSC)，得到任意两个mashup应用之间的API相似度和标签相似度，加权合成mashup应用之间的内容相似度；

步骤2，传递内容相似度：建立一个无向加权图，图中一个结点对应一个mashup应用并以相应的mashup应用为标记，若两个mashup应用之间内容相似度不为0，则在以这两个mashup应用为标记的结点之间加上一条边，而这两个mashup应用之间的内容相似度则作为边的权值，然后根据相似度传递规则匹配情况，计算两个不直接相连但有路径相通的mashup应用之间被传递的内容相似度；

步骤3，聚类mashup应用：采用凝聚型层次聚类方法，首先将每个mashup应用看作一个聚类，迭代地将相似度最高的mashup应用聚为一类，直至所有mashup应用聚为一类；

步骤4，计算mashup应用之间的评分相似度：在两个mashup应用都属于同一个聚类的前提下，使用皮尔逊相关系数(Pearson Correlation Coefficient，PCC)方法计算mashup应用之间的评分相似度；

步骤5，选择mashup应用的邻居：设定一个相似阈值，若某个mashup应用与目标mashup应用的评分相似度超过相似阈值，则将其加入目标mashup应用的邻居集合；

步骤6，推荐mashup应用：根据目标mashup应用的邻居评分计算目标mashup应用的预测评分值，若该值超过预设的推荐阈值，则将目标mashup应用推荐给用户，否则不推荐。

本发明中，需要指出，内容相似度传递仅在没有直接边相连的两个mashup应用之间进行。传递路径长度阈值L为大于1的整数，值越大，越多mashup应用可建立内容相似关系，但被传递的内容相似度越小，当L超过4时，大多数被传递的内容相似度接近于0，因此，权衡关系的传递和相似度的大小，本发明中，L取值为4。

本发明中，需要指出，在使用基于项目的皮尔逊相关系数方法计算目标mashup应用和其他mashup应用的评分相似度时，仅当其他mashup应用也属于目标聚类时才进行评分相似度计算。

本发明中，需要指出，在选择目标mashup应用的邻居时，设置的相似阈值越大，得到的邻居与目标mashup应用越相似，但同时也减少了目标mashup应用的邻居数目甚至使邻居数为0，因此可通过实验调节进行权衡。

本发明中，需要指出，在进行mashup应用推荐时，由用户或系统预先设定一个推荐阈值，推荐阈值越大，为用户推荐的mashup应用越有价值，但如果推荐阈值大于评分制中值，将只有很少的mashup应用能够得到推荐，这也不利于推荐系统的应用，因此，本发明中，设置推荐阈值为评分制中值，(例如用户采用5分制评分，则2.5被设为推荐阈值)，若目标mashup应用的预测评分值超过推荐阈值，则将之推荐给活动用户，否则不推荐。

与现有的推荐方法相比，本发明提出的方法，其优势包括：(1)聚类中的mashup应用数目远小于推荐系统中所有mashup应用的数目，因此，推荐系统响应速度较快；(2)同一聚类中的用户评分相对更集中，密度较大，稀疏度较小，mashup应用的评分相似度计算更准确；(3)一个聚类中的mashup应用的种类较少，用户对这些mashup应用的评分与同属于一个聚类中的给定mashup应用的评分相关，评分推测更准确；(4)离线完成聚类过程，保证了推荐系统的及时更新。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和／或其他方面的优点将会变得更加清楚。

图1是本发明一种用于mashup应用推荐的协同过滤方法的流程图。

图2是本发明实施例中基于传递规则的相似度传递的示意图。

图3是本发明实施例中凝聚型层次聚类结果示意图。

具体实施方式

本发明公开了一种用于mashup应用推荐的协同过滤方法，包括以下步骤：

步骤1，计算mashup应用之间的内容相似度：提取目标网站上所有mashup应用的API接口和标签信息，计算任意两个mashup应用之间的API相似度和标签相似度，加权合成mashup应用之间的内容相似度；

步骤3，聚类mashup应用：采用凝聚型层次聚类方法，将每个mashup应用看作一个聚类，迭代地将相似度最高的mashup应用聚为一类，直至所有mashup应用聚为一类；

步骤4，计算mashup应用之间的评分相似度：在两个mashup应用都属于同一个聚类的情况下，计算mashup应用之间的评分相似度；

步骤5，选择邻居mashup应用：设定一个相似阈值，若一个mashup应用与目标mashup应用的评分相似度超过相似阈值，则将其加入目标mashup应用的邻居集合；

步骤6，推荐mashup应用：根据目标mashup应用的邻居集合内的mashup应用评分计算目标mashup应用的预测评分值，根据用户对mashup应用的评分范围设定推荐阈值，若目标mashup应用的预测评分值大于等于推荐阈值，则将之推荐给用户，否则不推荐。

步骤1中，采用杰卡德相似系数计算第i个mashup应用m_i和第j个mashup应用m_j的API相似度S_A(m_i，m_j)，计算公式为：

S_{A} (m_{i}, m_{j}) = \frac{| A_{i} \cap A_{j} |}{| A_{i} \cup A_{j} |},

其中，A_i为被第i个mashup应用m_i所使用的API集合，A_j是被第j个mashup应用m_j所使用的API集合。

步骤1中，采用杰卡德相似系数计算第i个mashup应用m_i和第j个mashup应用m_j的标签相似度S_T(m_i，m_j)，计算公式为：

S_{T} (m_{i}, m_{j}) = \frac{| T_{i} \cap T_{j} |}{| T_{i} \cup T_{j} |},

其中，T_i是标注第i个mashup应用m_i的标签集合，T_j是标注第j个mashup应用m_j的标签集合。

步骤1中，加权合成第i个mashup应用m_i和第j个mashup应用m_j之间的内容相似度S_C(m_i，m_j)，计算公式为：

S_C(m_i，m_j)=α×S_T(m_i，m_j)+(1-α)×S_A(m_i，m_j)，

其中，α是标签相似度权值，取值范围为0～1，(1-α)是API相似度权值。

步骤2中根据相似度传递规则匹配情况，计算两个不直接相连但有路径相通的mashup应用之间被传递的内容相似度，包括以下三种情况：

情况1：如果以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

两个之间仅有一条路径相通，将该路径定义为结点序列集合

节点

和

都是结点至结点路径上的节点，如果该路径长度小于预设的传递路径长度阈值L(L＞1)，则通过该路径所传递第p个mashup应用m_p和第q个mashup应用m_q之间的内容相似度S_P(m_p，m_q)为：

S_P(m_p，m_q)=MIN{S_C(m_p，m_p+1)，...，S_C(m_p+i，m_p+i+1)，...，S_C(m_q-1，m_q)}×β，

其中，S_C(m_p，m_p+1)是路径上直接相连的两个结点的标记m_p和m_p+1之间的内容相似度，S_C(m_p+i，m_p+i+1)是路径上直接相连的两个结点的标记m_p+i和m_p+i+1之间的内容相似度，S_C(m_q-1，m_q)是路径上直接相连的两个结点的标记m_q-1和m_q之间的内容相似度，MIN是取最小值函数，β是路径长度衰减因子，β其计算方法为：

β = \frac{L - l^{1} (v_{m_{p}}, v_{m_{q}}) + 1}{L},

其中，

是以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

之间的路径长度；

情况2：如果以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

之间有一条以上的路径相通，且每条路径长度都小于预设的传递路径长度阈值L，则其传递相似度S_P(m_p，m_q)为：

S_{P} (m_{p}, m_{q}) = \frac{Σ_{i = 1}^{n} S_{P}^{i} (m_{p}, m_{q})}{n},

其中，

是通过第i条路径所传递的第p个mashup应用m_p和第q和mashup应用m_q之间的内容相似度，n表示路径条数；

情况3：如果以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

之间的任一条路径长度都大于预设的传递路径长度阈值L，则通过这些路径传递的第p个mashup应用m_p和第q个mashup应用m_q之间的内容相似度S_P(m_p，m_q)=0。

步骤4中，定义当前需要判断是否向活动用户推荐的一个mashup应用为目标mashup应用m_t，而目标mashup应用m_t所在的聚类则定义为目标聚类C_t，然后采用基于项目的皮尔逊相关系数公式计算目标mashup应用m_t和目标聚类C_t中的第j个mashup应用m_j之间的评分相似度i_sim(m_t，m_j)：

i_sim (m_{t}, m_{j}) = \frac{Σ_{u_{i} &Element; U_{t} \cap U_{j}} (r_{u_{i}, m_{t}} - {\overset{&OverBar;}{r}}_{m_{t}}) (r_{u_{i}, m_{j}} - {\overset{&OverBar;}{r}}_{m_{j}})}{\sqrt{Σ_{u_{i} &Element; U_{t} \cap U_{j}} {(r_{u_{i}, m_{t}} - {\overset{&OverBar;}{r}}_{m_{t}})}^{2}} \sqrt{Σ_{u_{i} &Element; U_{t} \cap U_{j}} {(r_{u_{i}, m_{j}} - {\overset{&OverBar;}{r}}_{m_{j}})}^{2}}},

其中，U_t是评分过目标mashup应用m_t的用户集合，U_j是评分过第j个mashup应用m_j的用户集合，u_i∈U_t∩U_j表示第i个用户u_i是既评分过mashup应用m_t又评分过第j个mashup应用m_j的用户之一，

是第i个用户u_i对目标mashup应用m_t的评分，

是第i个用户u_i对第j个mashup应用m_j的评分，是目标mashup应用m_t得到的评分的平均值，

是第j个mashup应用m_j得到的评分的平均值；

约束条件为：

m_t∈C_t∧m_j∈C_t，

表明目标mashup应用m_t和第j个mashup应用m_j同时属于目标聚类C_t。

步骤5中，使用以下约束条件选择目标mashup应用m_t的邻居，并加入目标mashup应用m_t的邻居集合N(m_t)：

N(m_t)={m_j|i_sim(m_t，m_j)＞γ，m_t≠m_j}，

其中，i_sim(m_t，m_j)是目标mashup应用m_t和第j个mashup应用m_j之间的评分相似度，γ是预设的相似阈值，0≤γ≤1。

步骤6中，对于活动用户u_a而言使用以下公式计算目标mashup应用m_t的预测评分值

P_{i} (r_{u_{a}, m_{t}}) = {\overset{&OverBar;}{m}}_{t} + \frac{Σ_{m_{j} &Element; N (m_{t})} (r_{u_{a}, m_{j}} - {\overset{&OverBar;}{m}}_{j}) \times i_sim (m_{t}, m_{j})}{Σ_{m_{j} &Element; N (m_{t})} | i_sim (m_{t}, m_{j}) |},

其中，

是目标mashup应用m_t的平均评分，N(m_t)是目标mashup应用m_t的邻居集合，

是活动用户u_a对第j个mashup应用m_j的评分，i_sim(m_t，m_j)是目标mashup应用m_t和第j个mashup应用m_j之间的评分相似度。

实施例1

本实施例的技术构思在于提供一种快速的mashup应用推荐方案，该方案通过mashup应用之间所共同使用的应用程序接口(Application Programming Interface，API)和被mashup应用创建者所共同标注的标签信息衡量mashup应用之间的内容相似度，并基于mashup应用之间的内容相似度对mashup应用进行层次聚类，大大缩减了需要参与协同推荐的mashup应用数目，限制了mashup应用的相似邻居的范围，使mashup应用推荐系统在适应大数据环境下的实时计算的同时，保证了推荐的准确性。

本发明一个实施例提供的实现mashup应用推荐的方法，参见图1，包括：

步骤2，传递内容相似度：设每个mashup应用为一个结点，mashup应用之间的相似关系为结点之间的边，mashup应用之间的内容相似度为边的权值，所有mashup应用形成一个无向加权图，根据相似度传递规则匹配情况，采用不同的公式计算两个不直接相连但有路径相通的mashup应用之间被传递的内容相似度；

步骤5，选择邻居：设定一个相似阈值，若某个mashup应用与目标mashup应用的评分相似度超过相似阈值，则将其加入目标mashup应用的邻居集合；

实施例2

本实施例的基本内容来自从programmableweb网站(http：／／www.programmableweb.com／)爬取的mashup应用及其描述信息。

本实施例包括以下六个步骤：

(1)计算mashup应用之间的内容相似度

从programmableweb网站(http：／／www.programmableweb.com)收集了6,226个mashup应用及每个mashup应用所使用的API和被标注的标签信息。

表1

表1中列举了七个mashup应用，分别使用了若干API，并标注了若干标签。根据任两个mashup应用之间共同使用的API和共同被标注的标签，可以计算出他们之间的内容相似度。如第1个mashup应用m₁和第2个mashup应用m₂两个的API相似度为：

而第1个mashup应用m₁和第2个mashup应用m₂的标签相似度为：

标签相似度权值α为0.5，加权相加得到第1个mashup应用m₁和第2个mashup应用m₂之间的内容相似度：

S_{C} (m_{1}, m_{2}) = α \times S_{T} (m_{1}, m_{2}) +

(1 - α) \times S_{A} (m_{1}, m_{2}) = 0.5 \times 1 + 0.5 \times \frac{1}{7} = 0.57 .

类似地计算其余mashup应用之间的内容相似度，得到的结果如表2所示：

表2

(2)传递内容相似度

建立一个无向加权图，图中一个结点对应一个mashup应用并以相应的mashup应用为标记，若两个mashup应用之间内容相似度不为0，则在以这两个mashup应用为标记的结点之间加上一条边，而这两个mashup应用之间的内容相似度则作为边的权值。根据表2建立的无向加权图如图2所示。根据图2，按照相似度传递规则，使用相似度传递公式计算没有直接边相连的mashup应用之间的内容相似度。设置传递路径长度阈值L为4，则两个没有直接相连的mashup应用之间传递的内容相似度计算如下：

-从以第1个mashup应用m₁为标记的结点

到以第4个mashup应用m₄为标记的结点

之间仅有一条路径

且路径长度l符合传递规则1，因此第1个mashup应用m₁和第4个mashup应用m₄之间通过从结点到结点

的路径传递的内容相似度为0.053，计算公式为：S_P(m₁,m₄)=MIN{S_C(m₁,m₃),S_C(m₃,m₄)}×β,其中

类似地计算其余只有一条路径相连的结点标记之间的内容相似度，得到：S_P(m₂，m₃)=0.053，S_P(m₂，m₄)=0.036，S_P(m₂，m₅)=0.018，S_P(m₂，m₆)=0.018。

-从以第1个mashup应用m₁为标记的结点

到以第5个mashup应用m₅为标记的结点

之间有两条长度小于L的路径和

第1条路径长度

l^{1} = (V_{m_{1}}, V_{m_{5}}) = 3,

第2条路径长度

符合传递规则2，因此第1个mashup应用m₁和第5个mashup应用m₅之间通过从结点

到结点

的路径传递的内容相似度为0.027，计算方法为：

S_{P} (m_{1}, m_{5}) = \frac{S_{P}^{1} (m_{1}, m_{5}) + S_{P}^{2} (m_{1}, m_{5})}{2},

其中，

S_{P}^{1} (m_{1}, m_{5}) = MIN {S_{C} (m_{1}, m_{3}), S_{C} (m_{3}, m_{4}), S_{C} (m_{4}, m_{5})} \times β,

β = \frac{L - l^{1} (V_{m_{1}}, V_{m_{5}}) + 1}{L} = \frac{2}{4},

S_{P}^{2} (m_{1}, m_{5}) = MIN {S_{C} (m_{1}, m_{3}), S_{C} (m_{3}, m_{4}), S_{C} (m_{4}, m_{6}), S_{C} (m_{6}, m_{5})} \times β,

β = \frac{L - l^{2} (V_{m_{1}}, V_{m_{5}}) + 1}{L} = \frac{1}{4} .

类似地计算其余有两条或两条以上路径相连的结点标记之间的内容相似度，得到：S_P(m₁，m₆)=0.027，S_P(m₁，m₇)=0.018，S_P(m₃，m₅)=0.162，S_P(m₃，m₆)=0.143，S_P(m₃，m₇)=0.056，S_P(m₄，m₇)=0.090。

-从以第2个mashup应用m₂为标记的结点

到以第7个mashup应用m₇为标记的结点

有三条路径

和

这三条路径的长度分别为

l^{1} (V_{m_{2}}, V_{m_{7}}) = 5, l^{2} (V_{m_{2}}, V_{m_{7}}) = 5, l^{3} (V_{m_{2}}, V_{m_{7}}) = 6,

都大于传递路径长度阈值L，符合传递规则3，因此S_P(m₂，m₇)=0。

将实施例中的7个mashup应用之间的内容相似度及其传递的内容相似度都用s(m_i，m_j)表示，其值如表3所示。

表3

(3)聚类mashup应用

使用凝聚型层次聚类方法，将相似度高的mashup应用聚为一类。如表1中的7个mashup应用，经过层次聚类后，第1个mashup应用m₁和第2个mashup应用m₂聚为一类，而第3个mashup应用m₃，第4个mashup应用m₄，第5个mashup应用m₅，第6个mashup应用m₆，第7个mashup应用m₇聚为一类。聚类结果如图3所示。

(4)计算mashup应用之间的评分相似度

表4是部分4个用户(u₁，u₂，u₃，u₄，)对7个mashup应用(m₁，m₂，m₃，m₄，m₅，m₆，m₇)的评分，评分值从1～5，值越大表示用户越满意，而0分表示用户没有评价过该mashup应用。从表1中可以看出，第3个用户u₃没有评价过第5个mashup应用m₅，因此，在本实施例中，我们选择第3个用户u₃为活动用户，选择第5个mashup应用m₅为目标mashup应用，通过计算第5个mashup应用m₅对于活动用户u₃的预测评分值来判断该mashup应用是否值得推荐给活动用户u₃。

表4中的7个mashup应用分别属于2个聚类(C₁和C₂)，因为目标mashup应用m₅属于聚类C₂，则目标聚类为C₂。使用基于项目的皮尔逊相关系数方法计算目标聚类中的mashup应用之间的评分相似度，得到的结果如表5所示。

表4

表5

(5)选择邻居

若定义相似阈值γ＝0.4，则目标mashup应用m₅的邻居为第3个mashup应用m₃，第4个mashup应用m₄，和第7个mashup应用m₇，即目标mashup应用m₅的邻居集合N(m₅)＝{m₃，m₄，m₇}。

(6)推荐mashup应用

计算对于活动用户u₃的目标mashup应用m₅的预测评分值：

P_{i} (r_{u_{3}, m_{5}}) = {\overset{&OverBar;}{m}}_{5} + \frac{Σ_{m_{j} &Element; N (m_{5})} (r_{u_{3}, m_{j}} - {\overset{&OverBar;}{m}}_{j}) \times i_sim (m_{5}, m_{j})}{Σ_{m_{j} &Element; N (m_{t})} | i_sim (m_{5}, m_{j}) |} = 2.63 .

设推荐阈值为5分评分制的中值2.5，则预测评分为2.63的目标mashup应用m₅可以被推荐给活动用户u₃。

此外，为验证本发明的实施效果，可设第3个用户u₃已评价过的第3个mashup应用m₃为目标mashup应用，计算其预测评分值，然后与真实用户评分值进行比较，预测评分值越接近真实评分值，表明方法越有效。表6是目标聚类C₂中其他mashup应用与第3个mashup应用m₃的评分相似度。

表6

同样定义相似阈值γ＝0.4，则第3个mashup应用m₃的邻居为第4个mashup应用m₄，第5个mashup应用m₅，和第7个mashup应用m₇，即第3个mashup应用m₃的邻居集合N(m₃)＝{m₄，m₅，m₇}。根据这些邻居的评分计算第3个mashup应用m₃对于活动用户u₃的预测评分值：

P_{i} (r_{u_{3}, m_{3}}) = {\overset{&OverBar;}{m}}_{3} + \frac{Σ_{m_{j} &Element; N (m_{3})} (r_{u_{3}, m_{j}} - {\overset{&OverBar;}{m}}_{j}) \times i_{sim (m_{5, m_{j}})}}{Σ_{m_{j} &Element; N (m_{t})} | i_{sim (m_{5}, m_{j})} |} = 1.72

活动用户u₃对于第3个mashup应用m₃的真实评分值为2(见表4)，预测评分值1.72相当接近真实评分值2，因此在本实施例中，本发明所述方法的实施效果较好。实际上，经过大规模实验，得到预测评分值与真实评分值的平均绝对误差(Mean Absolute Error，MEA)小于0.7，较之于传统的基于项目的协同过滤方法，MEA更小，但计算时间大大缩短。

Claims

1.一种用于mashup应用推荐的协同过滤方法，其特征在于，包括以下步骤：

步骤2，传递内容相似度：建立一个无向加权图，图中一个结点对应一个mashup应用并以相应的mashup应用为标记，若两个mashup应用之间内容相似度不为0，则在以这两个mashup应用为标记的结点之间加上一条边，而这两个mashup应用之间的内容相似度则作为该边的权值，然后根据相似度传递规则匹配情况，计算两个不直接相连但有路径相通的mashup应用之间被传递的内容相似度；

2.根据权利要求1所述的方法，其特征在于，步骤1中，采用杰卡德相似系数计算第i个mashup应用m_i和第j个mashup应用m_j的API相似度S_A(m_i，m_j)，计算公式为：

S_{A} (m_{i}, m_{j}) = \frac{| A_{i} \cap A_{j} |}{| A_{i} \cup A_{j} |},

3.根据权利要求2所述的方法，其特征在于，步骤1中，采用杰卡德相似系数计算mashup应用m_i和mashup应用m_j的标签相似度S_T(m_i，m_j)，计算公式为：

S_{T} (m_{i}, m_{j}) = \frac{| T_{i} \cap T_{j} |}{| T_{i} \cup T_{j} |},

其中，T_i是标注mashup应用m_i的标签集合，T_j是标注mashup应用m_j的标签集合。

4.根据权利要求3所述的方法，其特征在于，步骤1中，加权合成mashup应用m_i和mashup应用m_j之间的内容相似度S_C(m_i，m_j)，计算公式为：

S_C(m_i，m_j)＝α×S_T(m_i，m_j)+(1-α)×S_A(m_i，m_j)，

5.根据权利要求1所述的方法，其特征在于，步骤2中根据相似度传递规则匹配情况，计算两个不直接相连但有路径相通的mashup应用之间被传递的内容相似度，包括以下三种情况：

情况1：如果以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

两个之间仅有一条路径相通，将该路径定义为结点序列集合

节点

和

都是结点

至结点

路径上的节点，如果该路径长度小于预设的传递路径长度阈值L(L＞1)，则通过该路径所传递的第p个mashup应用m_p和第q个mashup应用m_q之间的内容相似度S_P(m_p，m_q)为：

S_P(m_p，m_q)＝MIN{S_C(m_p，m_p+1)，...，S_C(m_p+i，m_p+i+1)，...，S_C(m_q-1，m_q)}×β，

其中，S_C(m_p，m_p+1)是路径上直接相连的两个结点的标记m_p和m_p+1之间的内容相似度，S_C(m_p+i，m_p+i+1)是路径上直接相连的两个结点的标记m_p+i和m_p+i+1之间的内容相似度，S_C(m_q-1，m_q)是路径上直接相连的两个结点的标记m_q-1和m_q之间的内容相似度，MIN是取最小值函数，β是路径长度衰减因子，β的计算方法为：

β = \frac{L - l^{1} (V_{m_{p}}, V_{m_{q}}) + 1}{L},

其中，

是以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

之间的路径长度；

情况2：如果以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点

之间有n条路径相通(n＞1)，且每条路径长度都小于预设的传递路径长度阈值L，则其传递相似度S_P(m_p，m_q)为：

S_{P} (m_{p}, m_{q}) = \frac{Σ_{i = 1}^{n} S_{P}^{i} (m_{p}, m_{q})}{n},

其中，

情况3：如果以第p个mashup应用m_p为标记的结点

和以第q个mashup应用m_q为标记的结点之间的任一条路径长度都大于预设的传递路径长度阈值L，则通过这些路径传递的第p个mashup应用m_p和第q个mashup应用m_q之间的内容相似度S_P(m_p，m_q)＝0。

6.根据权利要求1所述的方法，其特征在于，步骤4中，定义当前需要判断是否向活动用户推荐的一个mashup应用为目标mashup应用m_t，而目标mashup应用m_t所在的聚类则定义为目标聚类C_t，然后采用基于项目的皮尔逊相关系数公式计算目标mashup应用m_t和目标聚类C_t中的第j个mashup应用m_j之间的评分相似度i_sim(m_t，m_j)：

i_sim (m_{t}, m_{j}) = \frac{Σ u_{i} &Element; U_{t} \cap U_{j} (r_{u_{i}, m_{t}} - {\overset{&OverBar;}{r}}_{m_{t}}) (r_{u_{i}, m_{j}} - {\overset{&OverBar;}{r}}_{m_{j}})}{\sqrt{Σ u_{i} &Element; U_{t} \cap U_{j} {(r_{u_{i}, m_{t}} - {\overset{&OverBar;}{r}}_{m_{t}})}^{2}} \sqrt{Σ u_{i} &Element; U_{t} \cap U_{j} {(r_{u_{i}, m_{j}} - {\overset{&OverBar;}{r}}_{m_{j}})}^{2}}},

其中，U_t是评分过目标mashup应用m_t的用户集合，U_j是评分过第j个mashup应用m_j的用户集合，

是用户u_i对目标mashup应用m_t的评分，

是用户u_i对第j个mashup应用m_j的评分，是目标mashup应用m_t得到的评分的平均值，是第j个mashup应用m_j得到的评分的平均值；

约束条件为：

m_t∈C_t∧m_j∈C_t，

7.根据权利要求6所述的方法，其特征在于，步骤5中，使用以下约束条件选择目标mashup应用m_t的邻居，并加入目标mashup应用m_t的邻居集合N(m_t)：

N(m_t)＝{m_j|i_sim(m_t，m_j)＞γ，m_t≠m_j}，

8.根据权利要求6所述的方法，其特征在于，步骤6中，对于活动用户u_a而言使用以下公式计算目标mashup应用m_t的预测评分值

P_{i} (r_{u_{a}, m_{t}}) = {\overset{&OverBar;}{m}}_{t} + \frac{Σ m_{j} &Element; N (m_{t}) (r_{u_{a}, m_{j}} - {\overset{&OverBar;}{m}}_{j}) \times i_sim (m_{t}, m_{j})}{Σ m_{j} &Element; N (m_{t}) | i_sim (m_{t}, m_{j}) |},

其中，