CN104572880B

CN104572880B - 基于用户的协同过滤的并行实现方法及系统

Info

Publication number: CN104572880B
Application number: CN201410808451.8A
Authority: CN
Inventors: 宋晨; 罗熙; 杨婧; 徐震; 王远
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2018-03-02
Anticipated expiration: 2034-12-22
Also published as: CN104572880A

Abstract

本发明涉及一种基于用户的协同过滤的并行实现方法及系统。首先将待处理数据按照固定分块大小存放在分布式文件系统中；接着进行数据规范化处理、用户相似度计算以及推荐物品计算，其中数据规范化处理将数据整理成可并行处理的形式，用户相似度计算以及推荐物品计算均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作，接着将处理结果以主键、值对的方式发送给中心节点，由中心节点按照主键计算出每个主键需要归并的节点，最后进行跨存储节点的数据归并操作，从而得到用户的最终推荐结果。本发明充分利用了分布式文件系统分块存储文件的特性，通过并行运算减少了循环遍历所需要的开销，能够满足面向海量用户进行协同推荐的要求。

Description

基于用户的协同过滤的并行实现方法及系统

技术领域

本发明涉及计算机领域。具体来说，涉及到基于用户的协同过滤的并行实现方法及系统。

背景技术

协同过滤是构建推荐系统常用的一种方法，与传统的基于内容过滤直接分析内容进行推荐的系统不同，协同过滤将所有用户对于某一信息的评价综合在一起，基于推荐目标在用户群中查找与其相似的用户，最终形成系统对该指定用户对此信息的喜好程度预测。协同过滤目前在商业应用中使用广泛，亚马逊、CDNow、MovieFinder等系统均采用了该方法来提应用的服务质量。

协同过滤分为两种类型：基于物品的协同过滤和基于用户的协同过滤。基于物品的协同过滤通过用户对不同物品的评分来评测物品之间的相似性，基于物品之间的相似性做出推荐；基于用户的协同过滤通过不同用户对物品的评分来评测用户之间的相似性，基于用户之间的相似性做出推荐。目前与协同过滤相关的专利分为两种类型：第一，应用传统基于物品的协同过滤方法或者基于用户的协同过滤方法进行推荐系统的构建；第二，为解决大量物品或者大量用户所带来的计算效率问题对基于物品的协同过滤方法或者基于用户的协同过滤方法做出改进。如专利申请号为200810216517.9的发明专利申请，该系统直接使用基于用户的协同过滤方法进行项目推荐系统的构建。如专利申请号为200910080946.2的发明专利申请，该系统使用基于用户的协同过滤算法以及关联规则算法完成商品推荐系统的实现。如专利申请号为201210568662.4的发明专利申请，提出了一种改进的基于物品的协同过滤方法，其主要思想是通过hadoop并行计算过程将物品进行聚类，以减少物品的类别，从而提高推荐效率。如专利申请号为200310109063.2的发明专利申请，提出了一种处理超大规模用户的协同过滤推荐方法，该方法将分布式哈希表路由算法引入协同过滤系统中，解决了集中式协同过滤系统的扩展问题，并提高了推荐质量。

随着物品数量以及用户数量的不断增加，目前协同过滤算法主要面临效率问题，由于现有推荐系统中物品数量相对固定，大多数应用网站倾向于使用基于物品的协同过滤方法来规避这一问题，但是该方法只能反映物品之间的关系，未考虑用户之间的相似性，因此该方法对于面向特定用户群体的应用存在很强的局限性。已有专利也考虑了使用分布式哈希表路由算法改进基于用户的协同过滤的效率，该方法要求每个客户端运行一个代理程序，并且用户只保留自身对于项目的评分结果，其优势在于客户端只取与自身评价项目集合有交集信息，从而减少了该用户自身的计算量，但是该方法只是用减少计算对象规避了计算量的问题，并没有从根本上解决该问题，而且该方法需要确保所有客户端代理均在线并且可连通才能够得到准确的推荐结果。

综上分析可知，需要一种新的思路从根本上解决面向海量用户的协同过滤算法存在的效率问题。

发明内容

有鉴于此，本发明提出了一种基于用户的协同过滤的并行实现方法及系统，该方案不需要运行客户端代理，能够对所有用户产生的结果进行并行分析，有效地提高了算法效率。

本发明的目的之一是提出一种基于用户的协同过滤的并行实现方法，其步骤包括：

1)采用分布式文件系统分块保存待进行计算的数据文件；

2)分布式文件系统中的每个文件服务器对存储于其上的数据进行三个步骤的操作，分别为数据规范化处理、用户相似度计算以及推荐物品计算，其中：

所述数据规范化处理将数据整理成可并行处理的形式；

所述用户相似度计算以及所述推荐物品计算，均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作，接着将处理结果的键值对发送给中心节点，由中心节点按照主键计算出每个主键需要归并的节点，最后进行跨存储节点的数据归并操作，从而得到用户的最终推荐结果。

进一步地，所述数据规范化处理，是按照用户、物品、评分三元组的方式将数据进行整理。

进一步地，所述用户相似度计算首先进行物品评分数据计算，然后以物品评分数据作为衡量用户之间相似程度的指标，通过距离计算方法得到用户相似矩阵。

进一步地，所述物品评分数据计算的步骤为：

a)读取本地存储文件块的用户、物品、评分三元组数据；

b)启动本地归并过程，提取物品编号作为主键，用户与评分作为值，将本地存储中具有相同物品主键的数据按照物品，用户、评分序列对的格式进行归并；

c)归并结果发送给中心节点，中心节点依据主键分配跨存储归并节点；

d)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作，并输出最终结果，该结果以物品为主键，用户、评分序列对为值，并以不重复的命名方式保存在分布式文件系统指定的目录下，作为物品评分数据。

进一步地，所述用户相似度矩阵计算的步骤为：

a)读取本地存储的物品评分数据；

b)以用户对为主键，用户对物品的评分对为值进行数据的重新整理，计算用户之间评分的距离，输出主键为用户对，值为两两用户对于相同物品的评分距离；

c)启动本地归并过程，将相同用户对的数据进行合并，得到两个用户所有相同物品评分的距离值，归并结果的主键为待推荐用户，值为被推荐用户和其与待推荐用户之间的评分距离；

d)归并结果发送给中心节点，中心节点依据主键分配跨存储归并节点；

e)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作，并输出最终结果，该结果以待推荐用户为主键，被推荐用户和其与带推荐用户之间的评分距离为值，并以不重复的命名方式保存在分布式文件系统指定的目录下，作为用户相似度矩阵数据。

进一步地，所述推荐物品计算的步骤为：

a)读取本地节点中的物品评分数据和用户相似度矩阵数据，对物品评分数据进行整理，以用户对作为主键，物品与用户对物品的评分作为值；对用户相似度矩阵进行数据整理，以用户对作为主键，用户距离以及距离总和作为值，将两类数据输入至中心节点；

b)中心节点依据主键分配相关数据需要进行归并操作的节点；

c)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作，查找待推荐用户未选择但是被推荐用户选择的物品以及评分，并计算待推荐用户针对该物品的推荐值，计算完成后以待推荐用户为主键，物品和物品推荐值作为值发送给中心节点；

d)中心节点依据主键分配相关数据需要进行归并操作的节点；

e)同一主键的数据被发送到相同节点的相同运算过程中进行跨存储节点的归并操作，对待推荐用户的所有推荐物品按照推荐值进行排序，选取推荐值最高的物品作为推荐结果。

本发明的另一目的是提出一种采用上述方法的基于用户的协同过滤的并行实现系统，采用分布式文件系统分块保存待进行计算的数据文件，整个系统包括数据规范化处理模块、用户相似度矩阵计算模块以及推荐物品计算模块；

所述数据规范化处理模块，用于将数据进行整理，形成可被并行计算方法所接受的输入格式，即整理为用户、物品、评分三元组；

所述用户相似度矩阵计算模块，首先进行物品评分数据计算，然后以用户对物品的评分作为衡量用户之间相似程度的指标，通过距离计算方法得到用户相似度矩阵；

所述推荐物品计算模块，读取物品评分数据与用户相似度矩阵数据，得到两两用户之间的物品评分值和距离值，首先以用户对为主键对结果按照公式进行合并，得到用户对于某个用户所推荐的物品，接着再进行以用户为主键的归并过程，最终得到应当向目标用户推荐的物品。

进一步地，所述用户相似度矩阵计算模块包括两个部分，其一，数据整理单元，以物品为主键，将所有用户针对该物品的评分组织在一个结构中，并将该结构保存在分布式文件系统中，记为物品评分数据；其二，矩阵计算单元，以用户对物品的评分作为衡量用户之间相似程度的指标，通过距离计算方法得到用户相似矩阵。

进一步地，所述矩阵计算单元包括，同一存储节点用户相似度矩阵计算与合并子模块以及跨存储节点用户相似度矩阵合并子模块：

所述同一存储节点用户相似度矩阵计算与合并子模块，其读取存储在本节点中的物品评分数据，提取所有对该物品评分的两两用户之间的距离值，并在该节点将数据整理为以用户为主键，以与该用户拥有相同物品的用户之间距离为值的输出，完成同一存储节点用户相似度的计算；

所述跨存储节点用户相似度矩阵合并子模块，其以用户作为主键，将同一存储节点用户相似度矩阵计算与合并子模块的输出进行整理，得到与用户相似度最高的若干用户以及距离，将该结构保存在分布式文件系统中，记为用户相似度矩阵。

进一步地，所述数据规范化处理模块、用户相似度矩阵计算模块以及推荐物品计算模块的处理过程均包含同一存储节点数据处理过程和跨存储节点数据处理过程：

所述同一存储节点数据处理过程按照本存储节点中文件大小进行处理进程数量的设置，通过调整参数使每一个存储文件块都有一个进程对其进行处理，以提高处理的并行程度；

所述跨存储节点数据处理过程依据本地存储节点数据处理所产生的主键数量进行不同节点中进程数量以及进程中线程数量的设置，将不同存储节点中具有相同主键的数据通过网络传输到相同的存储节点中进行结果归并，最终输出全部数据的处理结果。

本发明中将基于用户的协同过滤并行化实现，利用分布式文件系统分块保存数据，针对每个数据分块启动一个计算过程进行运算，同时通过将中间结果组织成主键、值的方式进行传输，能够确保跨存储节点的数据归并过程正确完成。本发明充分利用了分布式文件系统分块存储文件的特性，能够将计算每一个用户待推荐物品的数据最终整理到一个计算过程中进行运算，通过并行运算减少了循环遍历所需要的开销，同时不需要占用客户端资源，克服了由于用户数量巨大所造成的算法无法使用的问题，较好的解决了面向海量用户的协同过滤算法存在的效率问题，能够支持面向海量用户进行协同推荐的要求。

附图说明

图1为本发明实施例中分布式文件系统及数据流处理示意图。

图2为本发明实施例中用户相似度计算模块的流程示意图。

图3为本发明实施例中物品评分数据计算方法的流程示意图。

图4为本发明实施例中用户相似度矩阵计算方法的流程示意图。

图5为本发明实施例中推荐物品计算方法的流程示意图。

具体实施方式

下面结合实施例和附图，对本发明做进一步详细描述。

如图1所示，本发明方案中使用分布式文件系统，数据按照分块大小保存在各个文件服务器中，文件系统记录每个块在分布式文件系统中的位置信息；每个文件服务器对于数据进行的执行流程包括数据规范化处理、用户相似度计算以及推荐物品计算。整个分布式文件系统中需要选取一个节点作为中心节点，该节点接收来自不同节点的主键值，依据主键值确定归并数据发送的节点，并在该节点中启动运算过程来接收发送的数据。

在进行数据规范化处理时，分布式文件系统中所保存的用户评分数据文件块的格式为<user,item,pref>，其中user为用户代号，item为项目的代号，pref为该用户对该项目的评分结果。

如图2所示，本发明方案中的用户相似度计算模块流程分为物品评分数据计算和用户相似度矩阵计算两个步骤。

如图3所示，物品评分数据计算方法的具体流程如下：

1)在每个文件存储节点中启动预定数量的线程读取并处理数据，读取单位为行，读取格式为用户、物品、评分三元组，即<user,item,pref>；

2)进行数据整理，以物品item为主键，其他元素作为值，处理后输出的数据格式为(<item>,<user,pref>)二元组形式；

3)查找同一存储节点中item相同的数据进行合并，形成数据格式如下(<item>,(<user_i,pref_i>,i＝1,2…n))，其中n为对该项目进行评分的用户的数量，将该数据以文件的形式保存在分布式文件系统指定的目录中，记为物品评分数据。例如：item目录，文件名称为“节点名称_物品_时间戳”，以保证每个节点中相同item的数据不会互相覆盖，物品编号为1的物品评分数据，评分用户为u1，u3，u5，u6记录为：1,u1:4,u2:0,u3:1,u4:0,u5:1,u6:3，其中u1的评分为4分，u3的评分为1分，u5评分为1分，u6评分为3分。

如图4所示，本发明方案中的用户相似度矩阵计算方法的具体流程如下：

1)每个节点从其存储的数据文件中读取物品评分数据；

2)对节点中的数据进行整理操作，即以用户两两作为主键，以用户评分作为值将数据整理为(<user_i,user_j>,<pre_i,pref_j>)的格式，对每个数据对计算距离，例如类欧氏距离为dis_ij＝(prefi-prefj)²，得到(<user_i,user_j>,dis_ij)；

3)存储节点中的数据进行本地归并过程，将主键相同的数据进行归并，即得到(<user_i,user_j>,dis_ijk)，对该数据进行处理最终向中心节点输出数据为(user_i,(<user₁,dis_i11,dis_i12,...,dis_i1k>,<user₂,dis_i21,dis_i22,...,dis_i2l>,...,<user_j,dis_ij1,dis_ij2,dis_ijp>,distol_itoj))；

4)中心节点接收数据，按照主键值为其分配执行归并操作的节点，并在该节点中启动归并运算过程，分配节点的方式可以使用哈希函数等进行计算；

5)每个存储节点的将需要归并的数据发送给归并节点，归并节点收到数据后，为不同的<user_i>启动不同的线程进行处理，最终输出格式如下(user_i,(<topu₁,topudis_i1>,<topu₁,topudis_i1>......<topu_m,topudis_im>,distotal)),i＝1,2...n，m表示与用户i最相似的m个用户，topudis表示两个相似用户之间的距离，distotal表示所有topudis的和，将该数据结果按照距离大小对进行排序最终以文件的形式保存在分布式文件系统指定的目录中，例如，user目录，文件名称“节点名称_用户名_时间戳”，以保证每个节点中相同的user的数据不会互相覆盖。

如图5所示，本发明方案中的推荐物品计算方法的具体流程如下：

1)存储节点读取物品评分数据和用户相似度数据分别进行如下操作：

a)整理物品评分数据，以用户对为主键进行数据输出，即输出为(<user_i,user_j>,<item_k,pref_i,pref_j>)；

b)整理用户相似度数据，以用户对为主键进行数据输出，即输出为(<user_i,user_j>,<dis_ij,distol_itoj>)；

2)中心节点接收数据，按照主键值为其分配执行归并操作的节点，并在该节点中启动归并运算过程，分配节点的方式可以使用哈希函数等进行计算；

3)每个节点接到数据之后，选取待推荐用户i的评分为0，但被推荐用户j评分不为0的物品，即，针对user_i查询其item的pref_i为0，但是user_j所选item的pref_j不为0的项进行运算，运算公式为：

R_ijk＝pref_j*topudis_ij/distotal

其中k为user_j推荐给user_i的第k个项目编号，计算完成后输出(user_i,<item_k,R_ijk>)。

5)每个节点接到数据之后，每个处理过程根据<user_i>计算数据归并处理的节点，并将需要归并的数据发送给该节点，归并节点收到数据后针对user_i的每个输出对R_ijk进行排序，选取前p个结果进行反馈输出。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于用户的协同过滤的并行实现方法，其特征在于，包括如下步骤：

1)采用分布式文件系统分块保存待进行计算的数据文件；

2)分布式文件系统中的每个文件服务器对存储于其上的数据进行数据规范化处理、用户相似度计算以及推荐物品计算，其中：

所述数据规范化处理将数据整理成可并行处理的形式；

所述用户相似度计算以及所述推荐物品计算，均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作，接着将处理结果的键值对发送给中心节点，由中心节点按照主键计算出每个主键需要归并的节点，最后进行跨存储节点的数据归并操作，从而得到用户的最终推荐结果；

所述用户相似度计算首先进行物品评分数据计算，然后以物品评分数据作为衡量用户之间相似程度的指标，通过距离计算方法得到用户相似矩阵；

所述物品评分数据计算的步骤为：

a)读取本地存储文件块的用户、物品、评分三元组数据；

2.如权利要求1所述的方法，其特征在于：所述数据规范化处理，是按照用户、物品、评分三元组的方式将数据进行整理。

3.如权利要求1所述的方法，其特征在于，所述用户相似度矩阵计算的步骤为：

a)读取本地存储的物品评分数据；

4.如权利要求3所述的方法，其特征在于，所述推荐物品计算的步骤为：

5.一种采用权利要求1所述方法的基于用户的协同过滤的并行实现系统，其特征在于，采用分布式文件系统分块保存待进行计算的数据文件，系统模块包括数据规范化处理模块、用户相似度矩阵计算模块以及推荐物品计算模块；

所述数据规范化处理模块用于将数据整理成可并行处理的形式；

所述用户相似度矩阵计算模块首先进行物品评分数据计算，然后以用户对物品的评分作为衡量用户之间相似程度的指标，通过距离计算方法得到用户相似度矩阵；

6.如权利要求5所述的系统，其特征在于，所述用户相似度矩阵计算模块包括：

数据整理单元，以物品为主键，将所有用户针对该物品的评分组织在一个结构中，并将该结构保存在分布式文件系统中，记为物品评分数据；

矩阵计算单元，以用户对物品的评分作为衡量用户之间相似程度的指标，通过距离计算方法得到用户相似矩阵。

7.如权利要求6所述的系统，其特征在于，所述矩阵计算单元包括：

同一存储节点用户相似度矩阵计算与合并子模块，其读取存储在本节点中的物品评分数据，提取所有对该物品评分的两两用户之间的距离值，并在该节点将数据整理为以用户为主键，以与该用户拥有相同物品的用户之间距离为值的输出，完成同一存储节点用户相似度的计算；

跨存储节点用户相似度矩阵合并子模块，其以用户作为主键，将同一存储节点用户相似度矩阵计算与合并子模块的输出进行整理，得到与用户相似度最高的若干用户以及距离，将该结构保存在分布式文件系统中，记为用户相似度矩阵。

8.如权利要求5所述的系统，其特征在于，所述数据规范化处理模块、用户相似度矩阵计算模块以及推荐物品计算模块的处理过程均包括同一存储节点数据处理过程和跨存储节点数据处理过程；