CN107480250A - 一种基于Spark平台Web服务个性化推荐方法及系统 - Google Patents

一种基于Spark平台Web服务个性化推荐方法及系统 Download PDF

Info

Publication number
CN107480250A
CN107480250A CN201710687556.6A CN201710687556A CN107480250A CN 107480250 A CN107480250 A CN 107480250A CN 201710687556 A CN201710687556 A CN 201710687556A CN 107480250 A CN107480250 A CN 107480250A
Authority
CN
China
Prior art keywords
user
web service
clustering
similar
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710687556.6A
Other languages
English (en)
Other versions
CN107480250B (zh
Inventor
张以文
周媛媛
吴金涛
李炜
王福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Pattern Recognition Information Technology Co ltd
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201710687556.6A priority Critical patent/CN107480250B/zh
Publication of CN107480250A publication Critical patent/CN107480250A/zh
Application granted granted Critical
Publication of CN107480250B publication Critical patent/CN107480250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0263Targeted advertisements based upon Internet or website rating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于Spark平台Web服务个性化推荐方法及系统,包括:提取用户在电商应用或信息平台的行为数据,对收集的行为数据进行评估分析;利用基于商空间粒度分析的覆盖聚类算法对收集的行为数据进行聚类处理得出聚类结果,根据上述聚类结果构建用户关联矩阵Mu和服务关联矩阵Ms,再通过对上述构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果,并根据相似邻居结果的聚类信息对用户的评价值QoS进行预测和混合处理得出推荐算法;在Spark平台下对该推荐算法进行并行化计算,对计算结果进行存储。该方法有效提高了Web服务推荐的准确性和效率,同时缓解了推荐过程中可能存在的数据稀疏性以及扩展性问题。

Description

一种基于Spark平台Web服务个性化推荐方法及系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于Spark平台Web服务个性化推荐方法及系统。
背景技术
随着大数据时代的到来,网络中的Web服务呈指数式增长,随之带来了信息过载的问题。推荐系统是解决新信息过载的最有效方法之一。大数据推荐系统已逐渐成为研究热点。推荐系统帮助用户从庞大的Web服务中找到自己满意的Web服务是非常困难且耗时的。利用个性化推荐技术从大规模数据中提取用户满意的信息十分必要。然而在当今大数据的实际生活中,由于数据量和规模过于庞大,导致计算过程异常耗时和困难,很难达到满足用户渴望的高效率和满意的推荐结果。而云计算技术的出现为我们提供了很好的方法,基于Spark平台Web服务个性化推荐系统能够高效地用户提供优质的服务。
发明内容
本发明所要解决的技术问题在于提供了一种能够达到满足用户渴望的高效率和满意的推荐结果的基于Spark平台Web服务个性化推荐方法及系统。
本发明是通过以下技术方案解决上述技术问题的:一种基于Spark平台Web服务个性化推荐方法,包括下述步骤:S1、提取用户在电商应用或信息平台的行为数据,对收集的用户对Web服务的历史行为信息进行评估分析;
S2、用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
S3、根据上述步骤S2中的聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
S4、通过对上述步骤S3中构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
S5、根据上述步骤S4中目标用户和目标Web服务的相似邻居结果的聚类信息分别对用户的评价值QoS进行预测;
S6、混合处理步骤S5中的预测结果得出推荐方案,完成整个推荐算法;
S7、在Spark平台下对该推荐算法进行并行化计算,并对计算结果进行存储,提高推荐系统的性能。
作为优化的技术方案,所述步骤S2中,采用基于用户(user)和Web服务(service)二重混合的混合推荐算法对收集的用户对Web服务的历史行为信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
S06、将离步骤S05中球形覆盖的圆心最远的点作为新的圆心,并根据上述新的圆心重复步骤S02、S03、S04、S05,直到所有的样本全部覆盖结束;
S07、将离步骤S05中球形覆盖的圆心最近的点最为新的圆心,计算出步骤S05中球形覆盖的圆心与新的圆心的距离,将离的最近的两个球形覆盖合并为一个新的球形覆盖,并更新其他覆盖与新覆盖的最短距离,如此重复,确定最后的聚类数;
S08、计算出所有覆盖聚类结果中球形覆盖与球形覆盖两两之间的相似度;
S09、比较S08步骤中计算得出的所有相似度值,得到最大相似度阈值;
S10、如果最大相似度阈值大于经过实验获得的相似度阈值,则覆盖聚类结束,确定最后的聚类数,否则,将相似度最大的两个球形覆盖合并,重复步骤S08、S09,更新其他球形覆盖与获得的新的球形覆盖之间的相似度值,直到覆盖聚类结束。
作为优化的技术方案,步骤S3,具体包括:
在对用户进行聚类后,根据每一个Web服务下用户的聚类情况,计算出两两用户被分为一类的次数,用Cluster-Numu1,u2表示用户u1和用户u2被分为一类的次数;在对Web服务进行聚类后,根据每一个用户下Web服务的聚类情况,计算出两两Web服务被分为一类的次数,用Cluster-Nums1,s2表示Web服务s1和Web服务s2被分为一类的次数;所有用户和Web服务的分为一类的次数Cluster-Num构成了分别构成了用户关联矩阵Mu和Web服务关联矩阵Ms。
作为优化的技术方案,步骤S4,具体包括:
根据关联矩阵得出目标用户相似邻居Similar-Neighbors(user)的过程具体包括:对目标用户与邻居用户的被分为一类的次数Cluster-Num进行降序操作,取前ku个Cluster-Num值最大的邻居用户作为目标用户的相似邻居Similar-Neighbors(user);得出目标Web服务相似邻居Similar-Neighbors(service)的过程具体包括:对目标Web服务与邻居Web服务的被分为一类的次数Cluster-Num进行降序操作,取前ks个Cluster-Num值最大的邻居Web服务作为目标Web服务的相似邻居Similar-Neighbors(service);其中,ku和ks均为预设值。
作为优化的技术方案,步骤S5,具体包括:
根据得出的相似邻居结果的覆盖信息进行用户对未调用过的Web服务的评价值QoS预测,过程具体包括为:
根据得出的目标用户相似邻居Similar-Neighbors(user)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ku表示目标用户的相似邻居的数目,au(t)表示用户u的相似邻居中第au(t)个用户,表示u的相似用户au(t)对Web服务s的评价值QoS,表示用户u与其相似邻居au(t)被分为一类的次数,Nu表示用户u与其相似邻居中的所有用户被分为一类的次数总和;
根据得出的目标Web服务相似邻居Similar-Neighbors(service)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ks表示目标Web服务的相似邻居的数目,as(t)表示Web服务s的相似邻居中第as(t)个用户,表示被用户u调用的Web服务的相似用户as(t)并给出的评价值QoS,表示Web服务s与其相似邻居as(t)被分为一类的次数,Ns表示Web服务s与其相似邻居中的所有用户被分为一类的次数总和。
作为优化的技术方案,步骤S6,具体包括:
依据qu,s(u)以及qu,s(s)得出的基于用户与基于Web服务聚类的评价值QoS预测,利用混合因子λ将基于用户聚类的推荐算法的评价值QoS预测和基于Web服务聚类的推荐算法的评价值QoS预测相混合,得出下述公式:
qu,s=λqus(u)+(1-λ)qus(s);
将得出的qu,s进行降序排列,取出前N位的Web服务作为推荐方案;其中,所述N为预设值。
作为优化的技术方案,步骤S7,具体包括:
在Spark平台下对推荐算法进行并行化计算时,对用户聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个Web服务中用户对上述Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个Web服务中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算所有每一个Web服务中属于由上述圆心和半径所构成的球形覆盖内的所有数据点。
在Spark平台下对推荐算法进行并行化计算时,对Web服务聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个用户对调用过的Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个用户中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个用户中属于由上述圆心和半径所构成的球形覆盖内的所有数据点。
本发明还公开一种基于Spark平台Web服务个性化推荐系统,包括:
用户历史行为信息收集模块,提取用户在电商应用或信息平台的行为数据,对收集的行为数据进行评估分析;
聚类模块,利用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
构建关联矩阵模块,根据上述聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
相似邻居结果计算模块,通过对上述构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
评价值QoS预测模块,根据上述相似用户和相似Web服务的相似邻居结果的聚类信息分别对用户的评价值QoS进行预测;
混合处理和推荐模块,对用户的评价值QoS的预测值进行混合处理得出推荐方案,完成整个推荐算法;
Spark平台推荐算法并行化处理模块,在Spark平台下对推荐算法进行并行化计算,并对上述计算结果进行存储。
优化的,聚类模块采用基于用户和Web服务的二重聚类混合的混合推荐算法对收集的用户对Web服务的历史行为信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
S06、将离步骤S05中球形覆盖的圆心最远的点作为新的圆心,并根据上述新的圆心重复步骤S02、S03、S04、S05,直到所有的样本全部覆盖结束;
S07、将离步骤S05中球形覆盖的圆心最近的点最为新的圆心,计算出步骤S05中球形覆盖的圆心与新的圆心的距离,将离的最近的两个球形覆盖合并为一个新的球形覆盖,并更新其他覆盖与新覆盖的最短距离,如此重复,确定最后的聚类数;
S08、计算出所有覆盖聚类结果中球形覆盖与球形覆盖两两之间的相似度;
S09、比较S08步骤中计算得出的所有相似度值,得到最大相似度阈值;
S10、如果最大相似度阈值大于经过实验获得的相似度阈值,则覆盖聚类结束,确定最后的聚类数,否则,将相似度最大的两个球形覆盖合并,重复步骤S08、S09,更新其他球形覆盖与获得的新的球形覆盖之间的相似度值,直到覆盖聚类结束。
优化的,构建关联矩阵模块中,在对用户进行聚类后,根据每一个Web服务下用户的聚类情况,计算出两两用户被分为一类的次数,用Cluster-Numu1,u2表示用户u1和用户u2被分为一类的次数;在对Web服务进行聚类后,根据每一个用户下Web服务的聚类情况,计算出两两Web服务被分为一类的次数,用Cluster-Nums1,s2表示Web服务s1和Web服务s2被分为一类的次数;
相似邻居结果计算模块得出目标用户相似邻居Similar-Neighbors(user)的过程具体包括:对目标用户与邻居用户的被分为一类的次数Cluster-Num进行降序操作,取前ku个Cluster-Num值最大的邻居用户作为目标用户的相似邻居Similar-Neighbors(user);得出目标Web服务相似邻居Similar-Neighbors(service)的过程具体包括:对目标Web服务与邻居Web服务的被分为一类的次数Cluster-Num进行降序操作,取前ks个Cluster-Num值最大的邻居Web服务作为目标Web服务的相似邻居Similar-Neighbors(service);其中,ku和ks均为预设值;
评价值QoS预测模块用于根据关联矩阵计算模块得出的相似邻居结果对用户对未调用过的Web服务的评价值QoS进行预测,对用户的评价值QoS预测具体包括:
根据得出的目标用户相似邻居Similar-Neighbors(user)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ku表示目标用户的相似邻居的数目,au(t)表示用户u的相似邻居中第au(t)个用户,表示u的相似用户au(t)对Web服务s的评价值QoS,表示用户u与其相似邻居au(t)被分为一类的次数,Nu表示用户u与其相似邻居中的所有用户被分为一类的次数总和;
根据得出的目标Web服务相似邻居Similar-Neighbors(service)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ks表示目标Web服务的相似邻居的数目,as(t)表示Web服务s的相似邻居中第as(t)个用户,表示被用户u调用的Web服务的相似用户as(t)并给出的评价值QoS,表示Web服务s与其相似邻居as(t)被分为一类的次数,Ns表示Web服务s与其相似邻居中的所有用户被分为一类的次数总和;
混合处理和推荐模块,依据qu,s(u)以及qu,s(s)得出的基于用户与基于Web服务二重聚类的评价值QoS预测,利用混合因子λ将基于用户聚类的推荐算法的评价值QoS预测和基于Web服务聚类的推荐算法的评价值QoS预测相混合,得出下述公式:
qu,s=λqus(u)+(1-λ)qus(s);
将预测和混合模块得出的qu,s进行降序排列,取出前N位的Web服务作为推荐方案;其中,所述N为预设值;
所述Spark平台推荐算法并行化处理模块在Spark平台下对推荐算法进行并行化计算时,对用户聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个Web服务中用户对上述Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个Web服务中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个Web服务中属于由上述圆心和半径所构成的球形覆盖内的所有样本点;
所述Spark平台推荐算法并行化处理模块在Spark平台下对推荐算法进行并行化计算时,对Web服务聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个用户对调用过的Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个用户中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个用户中属于由上述圆心和半径所构成的球形覆盖内的所有样本点。
本发明相比现有技术具有以下优点:本发明提取用户在电商应用或信息平台的行为数据,对收集的行为数据进行评估分析;该推荐方法对用户的偏好进行分析,具体为基于用户和基于Web服务的二重聚类混合的混合推荐算法,分别对用户和Web服务进行聚类,找到目标用户和目标Web服务的相似邻居,改善了预测的精度,提高了推荐的结果的准确性,且该推荐算法采用基于商空间粒度分析的覆盖聚类算法,将相似的数据聚合在一起,在覆盖后不断更新重心、不断调整已完成的覆盖,解决了初始值选择和聚类速度的问题,避免了对海量数据进行复杂的迭代操作;而且该推荐方法在Spark平台下实现地,解决了大数据情况下的计算耗时和困难的问题,通过对大数据进行并行化计算和处理,并将计算结果进行存储,在用户登录是直接将上述结果推荐给目标用户,不仅节约了计算的耗时和困难的问题,而且保证了对数据计算和处理的有效性,高效地为用户提供优质的推荐算法。
附图说明
图1为本发明提出的一种基于Spark平台Web服务个性化推荐方法中基于用户和Web服务的二重聚类混合的混合推荐算法的流程图;
图2为本发明提出的一种基于Spark平台Web服务个性化推荐方法中基于用户聚类的示例图;
图3为本发明提出的一种基于Spark平台Web服务个性化推荐方法中基于Web用户聚类的示例图;
图4为本发明提出的一种基于Spark平台Web服务个性化推荐方法中构建用户关联矩阵的示例图;
图5为本发明提出的一种基于Spark平台Web服务个性化推荐方法中构建Web服务关联矩阵的示例图;
图6为本发明提出的一种基于Spark平台Web服务个性化推荐方法中聚类算法并行实现的示例图;
图7为本发明提出的一种基于Spark平台Web服务个性化推荐方法的步骤示意图;
图8为本发明提出的一种基于Spark平台Web服务个性化推荐系统的模块图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
参照图1-图7,本发明提出的一种基于Spark平台Web服务个性化推荐方法,包括下述步骤:
S1、提取用户在电商应用或信息平台的行为数据,对收集的用户对Web服务的历史行为信息进行评估分析;
S2、用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
S3、根据上述步骤S2中的聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
S4、通过对上述步骤S3中构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
S5、根据上述步骤S4中目标用户和目标Web服务的相似邻居结果的聚类信息分别对用户的评价值QoS进行预测;
S6、混合处理步骤S5中的预测结果得出推荐方案,完成整个推荐算法;
S7、在Spark平台下对该推荐算法进行并行化计算,并对计算结果进行存储,提高推荐系统的性能。
所述步骤S2中,采用基于用户(user)和Web服务(service)二重混合的混合推荐算法对收集的用户对Web服务的历史行为信息信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
S06、将离步骤S05中球形覆盖的圆心最远的点作为新的圆心,并根据上述新的圆心重复步骤S02、S03、S04、S05,直到所有的样本全部覆盖结束;
S07、将离步骤S05中球形覆盖的圆心最近的点最为新的圆心,计算出步骤S05中球形覆盖的圆心与新的圆心的距离,将离的最近的两个球形覆盖合并为一个新的球形覆盖,并更新其他覆盖与新覆盖的最短距离,如此重复,确定最后的聚类数;
S08、计算出所有覆盖聚类结果中球形覆盖与球形覆盖两两之间的相似度;
S09、比较S08步骤中计算得出的所有相似度值,得到最大相似度阈值;
S10、如果最大相似度阈值大于经过实验获得的相似度阈值,则覆盖聚类结束,确定最后的聚类数,否则,将相似度最大的两个球形覆盖合并,重复步骤S08、S09,更新其他球形覆盖与获得的新的球形覆盖之间的相似度值,直到覆盖聚类结束。
所述推荐算法采用基于用户和Web服务的二重聚类混合的混合推荐算法;
基于用户的聚类。对于每一个Web服务,根据用户user对该service的评价值QoS进行聚类,将每一个service中用户给出的评价值QoS相似的user聚为一类。如图2所示,共有4个service,例如在s1中,根据所有user对s1的评价值QoS,对这些user进行基于商空间粒度分析的覆盖聚类操作,将评价值QoS相似user聚为一类,得到{u1,u6,u8,u9},{u2,u4}和{u3,u5,u7}。
基于Web服务的聚类。对于每一个user,根据用户user对已经调用过且有过评价值QoS的service进行聚类,将这些user给出评价值QoS相似的service聚为一类。如图3所示,共有9个user,例如在u4中,根据当前用户对service的评价值QoS,对这些service进行基于商空间粒度分析的覆盖聚类操作,将user给出评价值QoS相似的service聚为一类,得到{s1,s2,s4}和{s3}。
基于用户和Web服务的二重聚类混合的混合推荐算法的流程结构具有以下优点:
(1)这种结构设计的算法同时考虑了用户和Web服务两方面的信息,而且该推荐算法还加入用户和Web服务的聚类信息进行评价值QoS预测,可以有效地缓解推荐系统中常见的数据稀疏性问题。
(2)分别对用户和Web服务进行基于商空间粒度分析的覆盖聚类,构建了用户关联矩阵Mu和服务关联矩阵Ms,可以更深层次地挖掘用户和服务之间的关系,能够更好的找到目标用户和目标Web服务的相似邻居,改善预测的精度,提高推荐结果的准确性。
(3)对用户和Web服务进行聚类的算法是基于商空间粒度分析的覆盖聚类算法,该算法采用覆盖的理念将比较集中的数据点聚合在一起,在覆盖后不断更新中心,不断调整完成的覆盖,不需要对大量数据进行复杂的迭代操作,解决了初始值选择和聚类速度等问题。该算法还引入了粒度的概念,选择不同的粒度计算时,可以直观的从不同角度理解样本类内和类间的物理意义,对问题有实际的指导意义。
(4)基于用户聚类的推荐算法更侧重用户个人偏好,单个用户的多样性比较好;基于Web服务聚类的推荐算法考虑了其他用户的偏好,系统的多样性较好。因此两者结合进行推荐,考虑的范围更广,推荐结果更加准确。
(5)该推荐算法是基于Spark实现,解决了大数据环境中数据的可扩展性问题。
优选地,所述步骤S3中,在对用户进行聚类后,根据每一个Web服务下用户的聚类情况,计算出两两用户被分为一类的次数,用Cluster-Numu1,u2表示用户u1和用户u2被分为一类的次数,如图4所示;在对Web服务进行聚类后,根据每一个用户下Web服务的聚类情况,计算出两两Web服务被分为一类的次数,用Cluster-Nums1,s2表示Web服务s1和Web服务s2被分为一类的次数,如图5所示。
优选地,所述步骤S4中,根据关联矩阵得出目标用户相似邻居Similar-Neighbors(user)的过程具体包括:对目标用户与邻居用户的被分为一类的次数Cluster-Num进行降序操作,取前ku个Cluster-Num值最大的邻居用户作为目标用户的相似邻居Similar-Neighbors(user);得出目标Web服务相似邻居Similar-Neighbors(service)的过程具体包括:对目标Web服务与邻居Web服务的被分为一类的次数Cluster-Num进行降序操作,取前ks个Cluster-Num值最大的邻居Web服务作为目标Web服务的相似邻居Similar-Neighbors(service);其中,ku和ks均为预设值。ku和ks是通过实验取值的,进行一系类不同ku和ks值的实验,通过实验结果,即预测精度来取值,选择预测精度最高的ku和ks值。
优选地,步骤S5中,根据得出的相似邻居结果对用户的评价值QoS预测具体包括:
根据得出的目标用户相似邻居Similar-Neighbors(user)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ku表示目标用户的相似邻居的数目,au(t)表示用户u的相似邻居中第au(t)个用户,表示u的相似用户au(t)对Web服务s的评价值QoS,表示用户u与其相似邻居au(t)被分为一类的次数,Nu表示用户u与其相似邻居中的所有用户被分为一类的次数总和;
根据得出的目标Web服务相似邻居Similar-Neighbors(service)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ks表示目标Web服务的相似邻居的数目,as(t)表示Web服务s的相似邻居中第as(t)个用户,表示被用户u调用的Web服务的相似用户as(t)并给出的评价值QoS,表示Web服务s与其相似邻居as(t)被分为一类的次数,Ns表示Web服务s与其相似邻居中的所有用户被分为一类的次数总和。
步骤S6,具体包括:依据qu,s(u)以及qu,s(s)得出的基于用户与基于Web服务二重聚类的评价值QoS预测,利用混合因子λ将基于用户聚类的推荐算法的评价值QoS预测和基于Web服务聚类的推荐算法的评价值QoS预测相混合,得出下述公式:
qu,s=λqus(u)+(1-λ)qus(s);
将得出的qu,s进行降序排列,取出前N位的Web服务作为推荐方案;其中,所述N为预设值。N值根据用户需求取值,用户想要获得N个服务,就取N,如果用户没有说明,就是根据经验取值。
步骤S7,具体包括:
在Spark平台下对推荐算法进行并行化计算时,对用户聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个Web服务中用户对上述Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个Web服务中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算所有每一个Web服务中属于由上述圆心和半径所构成的球形覆盖内的所有样本点。
在Spark平台下对推荐算法进行并行化计算时,对Web服务聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个用户对调用过的Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个用户中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个用户中属于由上述圆心和半径所构成的球形覆盖内的所有样本点。
本实施方式的个性化推荐算法的实现过程中,spark需要一个分布式文件系统做数据源,因此需要将数据存储在HDFS中,然后将数据转换为RDD(弹性分布式数据集)形式进行并行操作。RDD是Spark的一个主要的抽象,RDD提供了一种高度受限的共享内存模型,因此工程师可以将RDD缓存在多个机器的内存中,实现高效率的并行计算。
基于用户聚类的并行实现,对用户user聚类使用的是基于商空间粒度分析的覆盖聚类算法,如图6所示,主要包括多个phase,每个phase都是获得一个球形覆盖的阶段,每个phase主要包括3个并行操作:GetCenter、GetRadius和GetCovering。
GetCenter:计算每一个service中user评价值QoS的重心,并以离该重心最近的数据点作为覆盖的圆心。GetCenter的并行化主要是从HDFS中读入数据,数据格式为<user,service,QoS>,然后转化为相应的RDD结构,通过reduce操作获得重心,然后通过map操作将RDD转换为与重心计算过距离的新的RDD,最后再通过reduce操作得到距离重心最近的点最为覆盖的圆心center。
GetRadius:计算每一个service中尚未聚类的点与圆心center的距离,然后得出所有距离的平均距离avg-D,并以该avg-D作为覆盖半径r。GetRadius并行化主要是通过map操作并行计算所有未聚类点到圆心center的距离,获得一个新的RDD,然后在对这个新的RDD进行reduce操作即并行计算上述所有距离的平均距离avg-D,即获得覆盖的半径r。
GetCovering:计算每一个service中属于圆心center和半径r覆盖内的所有数据点。GetCovering并行化主要是通过filter操作并行计算出距离圆心center小于半径r的RDD数据,即距离圆心center小于半径r的数据属于这个球形覆盖,获得这个球形覆盖。
基于Web服务聚类的并行实现类似于基于用户聚类的并行实现。
参照图8,本发明提出一种基于Spark平台Web服务个性化推荐系统,包括:
用户历史行为信息收集模块,提取用户在电商应用或信息平台的行为数据,对收集的行为数据进行评估分析;
聚类模块,利用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
构建关联矩阵模块,根据上述聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
相似邻居结果计算模块,通过对上述构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
评价值QoS预测模块,根据上述相似用户和相似Web服务相似邻居结果的聚类信息对用户的评价值QoS进行预测;
混合处理和推荐模块,对用户的评价值QoS的预测值进行混合处理得出推荐方案,完成整个推荐算法;
Spark平台推荐算法并行化处理模块,在Spark平台下对推荐算法进行并行化计算,并对上述计算结果进行存储。
优选地,聚类模块采用基于用户和Web服务的二重聚类混合的混合推荐算法对收集的用户对Web服务的历史行为信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
S06、将离步骤S05中球形覆盖的圆心最远的点作为新的圆心,并根据上述新的圆心重复步骤S02、S03、S04、S05,直到所有的样本全部覆盖结束;
S07、将离步骤S05中球形覆盖的圆心最近的点最为新的圆心,计算出步骤S05中球形覆盖的圆心与新的圆心的距离,将离的最近的两个球形覆盖合并为一个新的球形覆盖,并更新其他覆盖与新覆盖的最短距离,如此重复,确定最后的聚类数;
S08、计算出所有覆盖聚类结果中球形覆盖与球形覆盖两两之间的相似度;
S09、比较S08步骤中计算得出的所有相似度值,得到最大相似度阈值;
S10、如果最大相似度阈值大于经过实验获得的相似度阈值,则覆盖聚类结束,确定最后的聚类数,否则,将相似度最大的两个球形覆盖合并,重复步骤S08、S09,更新其他球形覆盖与获得的新的球形覆盖之间的相似度值,直到覆盖聚类结束。
构建关联矩阵模块中,在对用户进行聚类后,根据每一个Web服务下用户的聚类情况,计算出两两用户被分为一类的次数,用Cluster-Numu1,u2表示用户u1和用户u2被分为一类的次数;在对Web服务进行聚类后,根据每一个用户下Web服务的聚类情况,计算出两两Web服务被分为一类的次数,用Cluster-Nums1,s2表示Web服务s1和Web服务s2被分为一类的次数;
相似邻居结果计算模块用于对关联矩阵构建模块的关联矩阵进行目标Web服务相似邻居分析得出目标用户相似邻居Similar-Neighbors(user)、目标Web服务的相似邻居Similar-Neighbors(service);
相似邻居结果计算模块得出目标用户相似邻居Similar-Neighbors(user)的过程具体包括:对目标用户与邻居用户的被分为一类的次数Cluster-Num进行降序操作,取前ku个Cluster-Num值最大的邻居用户作为目标用户的相似邻居Similar-Neighbors(user);得出目标Web服务相似邻居Similar-Neighbors(service)的过程具体包括:对目标Web服务与邻居Web服务的被分为一类的次数Cluster-Num进行降序操作,取前ks个Cluster-Num值最大的邻居Web服务作为目标Web服务的相似邻居Similar-Neighbors(service);其中,ku和ks均为预设值;
评价值QoS预测模块用于根据关联矩阵计算模块得出的相似邻居结果对用户对未调用过的Web服务的评价值QoS进行预测,对用户的评价值QoS预测具体包括:
根据得出的目标用户相似邻居Similar-Neighbors(user)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ku表示目标用户的相似邻居的数目,au(t)表示用户u的相似邻居中第au(t)个用户,表示u的相似用户au(t)对Web服务s的评价值QoS,表示用户u与其相似邻居au(t)被分为一类的次数,Nu表示用户u与其相似邻居中的所有用户被分为一类的次数总和;
根据得出的目标Web服务相似邻居Similar-Neighbors(service)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
其中,ks表示目标Web服务的相似邻居的数目,as(t)表示Web服务s的相似邻居中第as(t)个用户,表示被用户u调用的Web服务的相似用户as(t)并给出的评价值QoS,表示Web服务s与其相似邻居as(t)被分为一类的次数,Ns表示Web服务s与其相似邻居中的所有用户被分为一类的次数总和。
混合处理和推荐模块,依据qu,s(u)以及qu,s(s)得出的基于用户与基于Web服务二重聚类的评价值QoS预测,利用混合因子λ将基于用户聚类的推荐算法的评价值QoS预测和基于Web服务聚类的推荐算法的评价值QoS预测相混合,得出下述公式:
qu,s=λqus(u)+(1-λ)qus(s);
将预测和混合模块得出的qu,s进行降序排列,取出前N位的Web服务作为推荐方案;其中,所述N为预设值。
所述Spark平台推荐算法并行化处理模块在Spark平台下对推荐算法进行并行化计算时,对用户聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个Web服务中用户对上述Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个Web服务中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个Web服务中属于由上述圆心和半径所构成的球形覆盖内的所有样本点;
所述Spark平台推荐算法并行化处理模块在Spark平台下对推荐算法进行并行化计算时,对Web服务聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个用户对调用过的Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个用户中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个用户中属于由上述圆心和半径所构成的球形覆盖内的所有样本点。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于Spark平台Web服务个性化推荐方法,其特征在于,包括下述步骤:S1、提取用户在电商应用或信息平台的行为数据,对收集的用户对Web服务的历史行为信息进行评估分析;
S2、用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
S3、根据上述步骤S2中的聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
S4、通过对上述步骤S3中构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
S5、根据上述步骤S4中目标用户和目标Web服务的相似邻居结果的聚类信息分别对用户的评价值QoS进行预测;
S6、混合处理步骤S5中的预测结果得出推荐方案,完成整个推荐算法;
S7、在Spark平台下对该推荐算法进行并行化计算,并对计算结果进行存储,提高推荐系统的性能。
2.根据权利要求1所述的基于Spark平台Web服务个性化推荐方法,其特征在于,所述步骤S2中,采用基于用户(user)和Web服务(service)二重混合的混合推荐算法对收集的用户对Web服务的历史行为信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
S06、将离步骤S05中球形覆盖的圆心最远的点作为新的圆心,并根据上述新的圆心重复步骤S02、S03、S04、S05,直到所有的样本全部覆盖结束;
S07、将离步骤S05中球形覆盖的圆心最近的点最为新的圆心,计算出步骤S05中球形覆盖的圆心与新的圆心的距离,将离的最近的两个球形覆盖合并为一个新的球形覆盖,并更新其他覆盖与新覆盖的最短距离,如此重复,确定最后的聚类数;
S08、计算出所有覆盖聚类结果中球形覆盖与球形覆盖两两之间的相似度;
S09、比较S08步骤中计算得出的所有相似度值,得到最大相似度阈值;
S10、如果最大相似度阈值大于经过实验获得的相似度阈值,则覆盖聚类结束,确定最后的聚类数,否则,将相似度最大的两个球形覆盖合并,重复步骤S08、S09,更新其他球形覆盖与获得的新的球形覆盖之间的相似度值,直到覆盖聚类结束。
3.根据权利要求1所述的基于Spark平台Web服务个性化推荐方法,其特征在于,步骤S3,具体包括:
在对用户进行聚类后,根据每一个Web服务下用户的聚类情况,计算出两两用户被分为一类的次数,用Cluster-Numu1,u2表示用户u1和用户u2被分为一类的次数;在对Web服务进行聚类后,根据每一个用户下Web服务的聚类情况,计算出两两Web服务被分为一类的次数,用Cluster-Nums1,s2表示Web服务s1和Web服务s2被分为一类的次数;所有用户和Web服务的分为一类的次数Cluster-Num构成了分别构成了用户关联矩阵Mu和Web服务关联矩阵Ms。
4.根据权利要求1所述的基于Spark平台Web服务个性化推荐方法,其特征在于,步骤S4,具体包括:
根据关联矩阵得出目标用户相似邻居Similar-Neighbors(user)的过程具体包括:对目标用户与邻居用户的被分为一类的次数Cluster-Num进行降序操作,取前ku个Cluster-Num值最大的邻居用户作为目标用户的相似邻居Similar-Neighbors(user);得出目标Web服务相似邻居Similar-Neighbors(service)的过程具体包括:对目标Web服务与邻居Web服务的被分为一类的次数Cluster-Num进行降序操作,取前ks个Cluster-Num值最大的邻居Web服务作为目标Web服务的相似邻居Similar-Neighbors(service);其中,ku和ks均为预设值。
5.根据权利要求1所述的基于Spark平台Web服务个性化推荐方法,其特征在于,步骤S5,具体包括:
根据得出的相似邻居结果的覆盖信息进行用户对未调用过的Web服务的评价值QoS预测,过程具体包括为:
根据得出的目标用户相似邻居Similar-Neighbors(user)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
<mrow> <msub> <mi>q</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mi>u</mi> </msub> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <msub> <mi>a</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>n</mi> <mrow> <msub> <mi>a</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>N</mi> <mi>u</mi> </msub> </mfrac> <mo>;</mo> </mrow>
其中,ku表示目标用户的相似邻居的数目,au(t)表示用户u的相似邻居中第au(t)个用户,表示u的相似用户au(t)对Web服务s的评价值QoS,表示用户u与其相似邻居au(t)被分为一类的次数,Nu表示用户u与其相似邻居中的所有用户被分为一类的次数总和;
根据得出的目标Web服务相似邻居Similar-Neighbors(service)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
<mrow> <msub> <mi>q</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mi>s</mi> </msub> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <msub> <mi>a</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>n</mi> <mrow> <msub> <mi>a</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>N</mi> <mi>s</mi> </msub> </mfrac> <mo>;</mo> </mrow>
其中,ks表示目标Web服务的相似邻居的数目,as(t)表示Web服务s的相似邻居中第as(t)个用户,表示被用户u调用的Web服务的相似用户as(t)并给出的评价值QoS,表示Web服务s与其相似邻居as(t)被分为一类的次数,Ns表示Web服务s与其相似邻居中的所有用户被分为一类的次数总和。
6.根据权利要求1所述的基于Spark平台Web服务个性化推荐方法,其特征在于,步骤S6,具体包括:
依据qu,s(u)以及qu,s(s)得出的基于用户与基于Web服务聚类的评价值QoS预测,利用混合因子λ将基于用户聚类的推荐算法的评价值QoS预测和基于Web服务聚类的推荐算法的评价值QoS预测相混合,得出下述公式:
qu,s=λqus(u)+(1-λ)qus(s);
将得出的qu,s进行降序排列,取出前N位的Web服务作为推荐方案;其中,所述N为预设值。
7.根据权利要求1所述的基于Spark平台Web服务个性化推荐方法,其特征在于,步骤S7,具体包括:
在Spark平台下对推荐算法进行并行化计算时,对用户聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个Web服务中用户对上述Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个Web服务中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算所有每一个Web服务中属于由上述圆心和半径所构成的球形覆盖内的所有数据点。
在Spark平台下对推荐算法进行并行化计算时,对Web服务聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个用户对调用过的Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个用户中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个用户中属于由上述圆心和半径所构成的球形覆盖内的所有数据点。
8.一种基于Spark平台Web服务个性化推荐系统,其特征在于,包括:
用户历史行为信息收集模块,提取用户在电商应用或信息平台的行为数据,对收集的行为数据进行评估分析;
聚类模块,利用基于商空间粒度分析的覆盖聚类算法对收集的用户对Web服务的历史行为信息进行聚类处理得出聚类结果;
构建关联矩阵模块,根据上述聚类结果构建用户关联矩阵Mu和Web服务关联矩阵Ms;
相似邻居结果计算模块,通过对上述构建的关联矩阵进行目标用户和目标Web服务的相似邻居分析,得出目标用户和目标Web服务的相似邻居结果;
评价值QoS预测模块,根据上述相似用户和相似Web服务的相似邻居结果的聚类信息分别对用户的评价值QoS进行预测;
混合处理和推荐模块,对用户的评价值QoS的预测值进行混合处理得出推荐方案,完成整个推荐算法;
Spark平台推荐算法并行化处理模块,在Spark平台下对推荐算法进行并行化计算,并对上述计算结果进行存储。
9.根据权利要求8所述的基于Spark平台Web服务个性化推荐系统,其特征在于,聚类模块采用基于用户和Web服务的二重聚类混合的混合推荐算法对收集的用户对Web服务的历史行为信息进行聚类,上述进行聚类的过程采用基于商空间粒度分析的覆盖聚类算法,所述基于商空间粒度分析的覆盖聚类算法具体包括如下步骤:
S01、计算出所有未学习过的样本点的重心,并以离该重心最近的样本点作为覆盖的圆心;
S02、计算出所有还未聚类的样本点与圆心的距离;
S03、计算出步骤S02中所有距离的平均距离,以上述平均距离为半径;
S04、并根据上述半径计算出球形覆盖;
S05、计算当前球形覆盖的重心;当样本点的个数大于预设值是,执行步骤S06,当样本点的个数不大于预设值是,执行步骤S07;
S06、将离步骤S05中球形覆盖的圆心最远的点作为新的圆心,并根据上述新的圆心重复步骤S02、S03、S04、S05,直到所有的样本全部覆盖结束;
S07、将离步骤S05中球形覆盖的圆心最近的点最为新的圆心,计算出步骤S05中球形覆盖的圆心与新的圆心的距离,将离的最近的两个球形覆盖合并为一个新的球形覆盖,并更新其他覆盖与新覆盖的最短距离,如此重复,确定最后的聚类数;
S08、计算出所有覆盖聚类结果中球形覆盖与球形覆盖两两之间的相似度;
S09、比较S08步骤中计算得出的所有相似度值,得到最大相似度阈值;
S10、如果最大相似度阈值大于经过实验获得的相似度阈值,则覆盖聚类结束,确定最后的聚类数,否则,将相似度最大的两个球形覆盖合并,重复步骤S08、S09,更新其他球形覆盖与获得的新的球形覆盖之间的相似度值,直到覆盖聚类结束。
10.根据权利要求8所述的基于Spark平台Web服务个性化推荐系统,其特征在于,构建关联矩阵模块中,在对用户进行聚类后,根据每一个Web服务下用户的聚类情况,计算出两两用户被分为一类的次数,用Cluster-Numu1,u2表示用户u1和用户u2被分为一类的次数;在对Web服务进行聚类后,根据每一个用户下Web服务的聚类情况,计算出两两Web服务被分为一类的次数,用Cluster-Nums1,s2表示Web服务s1和Web服务s2被分为一类的次数;
相似邻居结果计算模块得出目标用户相似邻居Similar-Neighbors(user)的过程具体包括:对目标用户与邻居用户的被分为一类的次数Cluster-Num进行降序操作,取前ku个Cluster-Num值最大的邻居用户作为目标用户的相似邻居Similar-Neighbors(user);得出目标Web服务相似邻居Similar-Neighbors(service)的过程具体包括:对目标Web服务与邻居Web服务的被分为一类的次数Cluster-Num进行降序操作,取前ks个Cluster-Num值最大的邻居Web服务作为目标Web服务的相似邻居Similar-Neighbors(service);其中,ku和ks均为预设值;
评价值QoS预测模块用于根据关联矩阵计算模块得出的相似邻居结果对用户对未调用过的Web服务的评价值QoS进行预测,对用户的评价值QoS预测具体包括:
根据得出的目标用户相似邻居Similar-Neighbors(user)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
<mrow> <msub> <mi>q</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mi>u</mi> </msub> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <msub> <mi>a</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>n</mi> <mrow> <msub> <mi>a</mi> <mi>u</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>N</mi> <mi>u</mi> </msub> </mfrac> <mo>;</mo> </mrow>
其中,ku表示目标用户的相似邻居的数目,au(t)表示用户u的相似邻居中第au(t)个用户,表示u的相似用户au(t)对Web服务s的评价值QoS,表示用户u与其相似邻居au(t)被分为一类的次数,Nu表示用户u与其相似邻居中的所有用户被分为一类的次数总和;
根据得出的目标Web服务相似邻居Similar-Neighbors(service)的覆盖信息,以及下述公式预测用户u对Web服务s的评价值QoS;
<mrow> <msub> <mi>q</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>k</mi> <mi>s</mi> </msub> </msubsup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <msub> <mi>a</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>n</mi> <mrow> <msub> <mi>a</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>N</mi> <mi>s</mi> </msub> </mfrac> <mo>;</mo> </mrow>
其中,ks表示目标Web服务的相似邻居的数目,as(t)表示Web服务s的相似邻居中第as(t)个用户,表示被用户u调用的Web服务的相似用户as(t)并给出的评价值QoS,表示Web服务s与其相似邻居as(t)被分为一类的次数,Ns表示Web服务s与其相似邻居中的所有用户被分为一类的次数总和;
混合处理和推荐模块,依据qu,s(u)以及qu,s(s)得出的基于用户与基于Web服务二重聚类的评价值QoS预测,利用混合因子λ将基于用户聚类的推荐算法的评价值QoS预测和基于Web服务聚类的推荐算法的评价值QoS预测相混合,得出下述公式:
qu,s=λqus(u)+(1-λ)qus(s);
将预测和混合模块得出的qu,s进行降序排列,取出前N位的Web服务作为推荐方案;其中,所述N为预设值;
所述Spark平台推荐算法并行化处理模块在Spark平台下对推荐算法进行并行化计算时,对用户聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个Web服务中用户对上述Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个Web服务中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个Web服务中属于由上述圆心和半径所构成的球形覆盖内的所有样本点;
所述Spark平台推荐算法并行化处理模块在Spark平台下对推荐算法进行并行化计算时,对Web服务聚类具体采用基于商空间粒度分析的覆盖聚类算法,上述基于商空间粒度分析的覆盖聚类算法具体包括GetCenter、GetRadius、GetCovering;GetCenter用于计算每个用户对调用过的Web服务的评价值QoS的重心,并以离该重心最近的数据点作为球形覆盖的圆心;GetRadius用于计算每一个用户中尚未聚类的数据点与圆心之间的距离,且计算出上述所有距离的平均距离,并将上述的平均距离作为球形覆盖的半径;GetCovering用于计算每一个用户中属于由上述圆心和半径所构成的球形覆盖内的所有样本点。
CN201710687556.6A 2017-08-11 2017-08-11 一种基于Spark平台Web服务个性化推荐方法及系统 Active CN107480250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710687556.6A CN107480250B (zh) 2017-08-11 2017-08-11 一种基于Spark平台Web服务个性化推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710687556.6A CN107480250B (zh) 2017-08-11 2017-08-11 一种基于Spark平台Web服务个性化推荐方法及系统

Publications (2)

Publication Number Publication Date
CN107480250A true CN107480250A (zh) 2017-12-15
CN107480250B CN107480250B (zh) 2018-09-21

Family

ID=60600117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710687556.6A Active CN107480250B (zh) 2017-08-11 2017-08-11 一种基于Spark平台Web服务个性化推荐方法及系统

Country Status (1)

Country Link
CN (1) CN107480250B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189747A (zh) * 2018-08-07 2019-01-11 浙江工业大学 基于Spark大数据平台的电瓶车用户行为习惯分析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521283A (zh) * 2011-11-28 2012-06-27 浙江大学 一种基于贝叶斯原理的服务组合推荐方法及系统
CN103139310A (zh) * 2013-03-06 2013-06-05 杭州电子科技大学 一种基于混合协同过滤的Web服务QoS预测方法
US20150282119A1 (en) * 2012-10-09 2015-10-01 Telefonaktiebolaget L M Ericsson (Publ) Methods, a Broadcast Management Unit and a User Equipment For Handling Digital Content in a Cellular Communications Network
CN105430099A (zh) * 2015-12-22 2016-03-23 湖南科技大学 一种基于位置聚类的协同式Web服务性能预测方法
CN105808685A (zh) * 2016-03-02 2016-07-27 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
US20160277532A1 (en) * 2015-03-20 2016-09-22 Electronics And Telecommunications Research Institute Method and system for selecting things based on quality of service in web of things
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN106503140A (zh) * 2016-10-20 2017-03-15 安徽大学 一种基于Hadoop云平台Web资源个性化推荐系统及方法
CN106815325A (zh) * 2016-12-28 2017-06-09 中山大学深圳研究院 一种基于Spark平台的个性化推荐系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521283A (zh) * 2011-11-28 2012-06-27 浙江大学 一种基于贝叶斯原理的服务组合推荐方法及系统
US20150282119A1 (en) * 2012-10-09 2015-10-01 Telefonaktiebolaget L M Ericsson (Publ) Methods, a Broadcast Management Unit and a User Equipment For Handling Digital Content in a Cellular Communications Network
CN103139310A (zh) * 2013-03-06 2013-06-05 杭州电子科技大学 一种基于混合协同过滤的Web服务QoS预测方法
US20160277532A1 (en) * 2015-03-20 2016-09-22 Electronics And Telecommunications Research Institute Method and system for selecting things based on quality of service in web of things
CN105430099A (zh) * 2015-12-22 2016-03-23 湖南科技大学 一种基于位置聚类的协同式Web服务性能预测方法
CN105808685A (zh) * 2016-03-02 2016-07-27 腾讯科技(深圳)有限公司 推广信息的推送方法及装置
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN106503140A (zh) * 2016-10-20 2017-03-15 安徽大学 一种基于Hadoop云平台Web资源个性化推荐系统及方法
CN106815325A (zh) * 2016-12-28 2017-06-09 中山大学深圳研究院 一种基于Spark平台的个性化推荐系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王振军,等: "基于spark的矩阵分解与最近邻融合的推荐算法", 《计算机系统应用》 *
申利民,等: "考虑相似比率的web服务Qos协同预测", 《计算机集成制造系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189747A (zh) * 2018-08-07 2019-01-11 浙江工业大学 基于Spark大数据平台的电瓶车用户行为习惯分析方法
CN109189747B (zh) * 2018-08-07 2022-03-15 浙江工业大学 基于Spark大数据平台的电瓶车用户行为习惯分析方法

Also Published As

Publication number Publication date
CN107480250B (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN111258767B (zh) 复杂系统仿真应用的云计算资源智能分配方法与装置
Li et al. An ant colony optimization based dimension reduction method for high-dimensional datasets
Djouadi et al. A fast algorithm for the nearest-neighbor classifier
Peng et al. Identification of protein complexes using weighted pagerank-nibble algorithm and core-attachment structure
Babichev et al. An evaluation of the objective clustering inductive technology effectiveness implemented using density-based and agglomerative hierarchical clustering algorithms
Chen et al. Gaussian process-based decentralized data fusion and active sensing for mobility-on-demand system
von Lücken et al. An overview on evolutionary algorithms for many‐objective optimization problems
Zhu et al. Single-cell clustering based on shared nearest neighbor and graph partitioning
CN111400555A (zh) 图数据查询任务处理方法、装置、计算机设备和存储介质
CN110580506A (zh) 基于密度的聚类计算方法、装置、设备和存储介质
Chen et al. Clustering in big data
CN107480250A (zh) 一种基于Spark平台Web服务个性化推荐方法及系统
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
Vega-Pons et al. Weighted cluster ensemble using a kernel consensus function
Tu et al. A binary matrix factorization algorithm for protein complex prediction
CN112882805A (zh) 一种任务资源约束的利润优化调度方法
Mishra et al. Biclustering of gene expression microarray data using dynamic deme parallelized genetic algorithm (DdPGA)
CN110309424A (zh) 一种基于粗糙聚类的社会化推荐方法
Park et al. REPrune: Channel Pruning via Kernel Representative Selection
Steponavičė et al. Dynamic algorithm selection for pareto optimal set approximation
Bouchachia et al. A hybrid ensemble approach for the Steiner tree problem in large graphs: A geographical application
Giang et al. Stratifying cancer patients based on multiple kernel learning and dimensionality reduction
CN116679981B (zh) 一种基于迁移学习的软件系统配置调优方法及装置
CN112990291A (zh) 一种基于数据挖掘技术的用户行为分析系统及方法
Pan et al. DPSPC: A Density Peak-Based Statistical Parallel Clustering Algorithm for Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220706

Address after: 230031 room 416, 4 / F, office building of Sino German youth entrepreneurship incubation center, Hefei University, No. 99 Jinxiu Avenue, Hefei Economic and Technological Development Zone, Anhui Province

Patentee after: Anhui pattern recognition information technology Co.,Ltd.

Address before: 230000 No.3 Feixi Road, Shushan District, Hefei City, Anhui Province

Patentee before: ANHUI University

TR01 Transfer of patent right