CN110175287A

CN110175287A - 一种基于Flink的矩阵分解隐式反馈推荐方法和系统

Info

Publication number: CN110175287A
Application number: CN201910426635.0A
Authority: CN
Inventors: 李肯立; 陈炼; 刘楚波; 阳王东; 肖国庆; 陈岑; 朱宁波; 吴帆; 李克勤
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-27
Anticipated expiration: 2039-05-22
Also published as: CN110175287B

Abstract

本发明公开了一种基于Flink的矩阵分解隐式反馈推荐方法，提出了一种基于用户活跃度与项目流行度的矩阵分解隐式反馈推荐模型，并采用一种基于单个元素坐标下降的学习方法来进行模型的训练，相对于目前流行的分配缺失值统一权重的矩阵分解隐式反馈推荐方法(WMF)而言，不仅提高了方法的预测准确率，同时降低了方法执行的时间复杂度。另外为了解决大数据环境下离线批处理过程时模型训练效率低和实时流处理场景下模型不能在线更新导致推荐精度下降的问题，本发明采用一种分块的矩阵划分策略，并采用一种路由表的策略来缓存需要通过网络传输的数据信息，使得方法能够高效并行化实现的同时，产生较小的通信开销，且该并行方法具备良好的扩展性。

Description

一种基于Flink的矩阵分解隐式反馈推荐方法和系统

技术领域

本发明属于推荐系统与分布式计算的交叉技术领域，更具体地，涉及一种基于Flink的矩阵分解隐式反馈推荐方法和系统。

背景技术

推荐系统向用户提供他们感兴趣事物的个性化推荐，提供用户想要搜寻的信息。但是随着信息技术的快速发展，数据的规模剧增，工业隐式反馈推荐数据的规模已经达到百亿级别，且不断地有大量新数据产生，这对隐式推荐算法的准确率、模型训练复杂度以及模型实时更新能力都提出了巨大的挑战。随着云计算的发展，云计算平台提供了强大的并行计算能力，但是并不是所有的隐式反馈推荐算法都能够高效在云平台上并行实施，因此如何利用现有云平台下的计算资源来设计一种准确、高效以及能够在线进行模型更新的并行隐式反馈推荐算法具有很大的应用价值。

现有云平台下的并行隐式反馈推荐算法，通常采用一种分配缺失数据一致权重的矩阵分解模型，通过将用户对项目稀疏评分矩阵映射到低维的用户和项目潜在因子空间，然后内积用户和项目的潜在因子特征向量来预测未知评分信息，并采用一种分块的矩阵划分策略来在云平台上并行化实施，该策略通过将原始评分矩阵、用户特征向量矩阵和项目特征向量矩阵分块并分配到云平台中不同机器中去来实现并行计算。

然而，上述现有的并行隐式反馈推荐算法存在一些不能忽略的技术问题：

1、该方法是将所有缺失数据都当作负反馈数据，并给所有缺失数据分配统一的权重，这种做法不能有效反应负反馈数据的真实情况，从而影响推荐精度；

2、该方法通常采用交替最小二乘法(Alternating Least Square，简称ALS)实现学习过程，其时间复杂度较高，模型并行训练的效率较低；

3、该方法无法实现模型的在线更新，从而导致实时推荐的精度下降。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于Flink的矩阵分解隐式反馈推荐方法，其目的在于，解决现有大数据平台上并行隐式反馈推荐方法中存在的推荐精度低、模型训练时间长、且无法实现模型的在线实时更新的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于Flink的矩阵分解隐式反馈推荐方法，包括以下步骤：

(1)使用Flink数据源接口获取用户历史隐式反馈数据，并对该历史隐式反馈数据进行预处理，以得到处理后的历史隐式反馈数据；

(2)根据步骤(1)处理后的历史隐式反馈数据构建矩阵分解模型，利用构建的矩阵分解模型对历史隐式反馈数据进行处理，以生成训练好的用户特征向量矩阵Dataset_umf、项目特征向量矩阵Dataset_imf、以及用户的离线推荐列表；

(3)使用Flink实时数据源接口从用户获取实时隐式反馈数据，并对该实时隐式反馈数据进行预处理，以得到处理后的实时隐式反馈数据，并利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新，并利用更新后的模型生成用户的实时推荐列表。

优选地，步骤(1)中对历史隐式反馈数据进行预处理具体为，先使用Flink平台中的Reduce算子计算历史隐式反馈数据中的用户数量M和项目数量N，利用Flink平台中的map算子处理M*N大小的用户-项目矩阵中存在交互信息的位置，将存在交互信息的位置设置为1，并生成初始用户-项目交互数据集Dataset₀，该数据集采用三元组形式(用户id，项目id，1)表示用户-项目矩阵中用户和项目之间的交互信息。

优选地，步骤(2)中根据步骤(1)处理后的历史隐式反馈数据构建矩阵分解模型的过程包括以下步骤：

(2-1)构建目标函数：

其中R表示用户与项目交互信息矩阵，R∈(M×N)，R_ui表示用户u与项目i交互信息，u∈[1，M]，i∈[1，N]，表示R_ui的预测值，P_u表示第u个用户的特征向量，Q_i表示第i个项目的特征向量，W_ui代表R_ui的权重，λ表示正则化系数，w₀表示交互信息矩阵R中缺失数据的权重系数，d_u代表用户u的活跃度，c_i代表项目i的流行度，

(2-2)利用Flink平台的map算子，并根据步骤(1)中生成初始用户-项目交互数据集Dataset₀中的用户id对交互信息矩阵R进行分块，从而得到用户分块集合Dataset_u，用户分块集合Dataset_u中元素的分块id计算公式为：用户分块id＝用户id％用户分块数量，其中用户分块数量等于启动Flink平台时设定的并行度；

(2-3)利用Flink平台的Groupby算子，并根据步骤(2-2)中得到的分块集合Dataset_u聚合每个分块中的用户id，得到每个分块中用户id集合Dataset_ub；

(2-4)利用Flink平台的Cogroup算子，对步骤(2-2)得到的分块集合Dataset_u和步骤(2-3)得到的用户集合Dataset_ub进行合并处理，以得到用户的出块信息集合Dataset_uo；

(2-5)利用Flink平台的Groupreduce算子，对步骤(2-2)得到的分块集合Dataset_u进行分组处理，以得到每个分块对应的项目集合Dataset_ipb；

(2-6)利用Flink平台的Sortgroup算子，对步骤(2-5)得到的项目集合Dataset_ipb进行处理，以得到用户的入块信息Dataset_ui；

(2-7)利用Flink平台的map算子，并根据步骤(1)中生成初始用户-项目交互数据集Dataset₀中的项目id对交互信息矩阵R进行分块，从而得到分块集合Dataset_i，分块集合Dataset_i中元素的计算公式为：项目分块id＝项目id％项目分块数量，其中项目分块数量等于运行Flink平台集群的CPU核数；

(2-8)利用Flink平台的Groupby算子，并根据步骤(2-7)中得到的分块集合Dataset_i聚合每个分块中的项目id，得到每个分块中项目id集合Dataset_ib；

(2-9)利用Flink平台的Cogroup算子，对步骤(2-7)得到的分块集合Dataset_i和步骤(2-8)得到的项目集合Dataset_ib进行合并处理，以得到项目的出块信息集合Dataset_io；

(2-10)利用Flink平台的Groupreduce算子，对步骤(2-7)得到的分块集合Dataset_i进行分组处理，以得到每个分块对应的用户集合Dataset_upb；

(2-11)利用Flink平台的Sortgroup算子，对步骤(2-10)得到的项目集合Dataset_upb进行处理，以得到项目的入块信息Dataset_ii；

(2-12)利用Flink平台的map算子对用户的出块信息Dataset_uo进行处理，以得到用户特征向量矩阵集合Dataset_um，并对项目的出块信息Dataset_io进行处理，以得到项目特征向量矩阵集合Dataset_im；

(2-13)利用Flink平台的Map算子对项目特征向量矩阵Dataset_im处理，以初始化大小k*k用户缓存矩阵DataSet_Hq1和DataSet_Hq2，并利用Flink平台的Broadcast算子将项目缓存矩阵DataSet_Hq1和DataSet_Hq2设为广播变量，该map算子处理过程中需要根据以下公式计算缓存矩阵H^q1和H^q2：

(2-14)利用Flink平台的Map算子对用户特征向量矩阵Dataset_um处理，以初始化大小k*k项目缓存矩阵DataSet_Hp1和DataSet_Hp2，并利用Flink平台的Broadcast算子将项目缓存矩阵DataSet_Hp1和DataSet_Hp2设为广播变量，在该处理过程中需要根据以下公式计算缓存矩阵H^p1和H^p2：

(2-15)利用Flink平台的Iterate迭代算子对用户特征向量矩阵集合Dataset_um和项目特征向量矩阵集合Dataset_im进行交替更新，以得到训练好的用户特征向量矩阵集合Dataset_umf和项目特征向量矩阵集合Dataset_imf；

(2-16)利用Flink平台的Join算子对步骤(2-15)训练好的用户特征向量矩阵Dataset_umf和项目特征向量矩阵Dataset_imf进行合并操作，以生成用户的离线推荐列表；

优选地，步骤(2-1)中，d_u与c_i的计算公式如下所示：

其中h_u＝|R_u|/|R|，|R_u|表示第u个用户的历史交互数据个数，|R|表示总的历史交互数据个数，则h_u表示第u个用户的交互数据占总的历史交互数据的比例，f_i＝|R_i|/|R|，|R_i|表示第i个项目的历史交互数据个数，f_i表示第i个项目的交互数据占总的历史交互数据的比例，α表示用户活跃度的影响程度，β表示项目流行度的影响程度。

优选地，用户的出块信息用于缓存每个用户块中有哪些用户特征向量需要发送到对应项目块中用于计算，避免同一个用户块中的特征向量多次发送至相同的项目块，用户出块信息集合Dataset_uo中每个用户块出块信息使用一个位图数组来保存，其中每个位图的位数等于项目块个数，用于表示一个用户的特征向量需要发往哪些项目块，用户的入块信息用于缓存每一个用户块中用户对应的评分信息以及相应的项目id，用于判断同一个用户块中的多个用户是否对传入的项目特征向量存在评分信息，项目的出块信息用于缓存每个项目块中有哪些项目特征向量需要发送到对应用户块中用于计算，避免同一个项目块中的特征向量多次发送至相同的用户块；项目出块信息集合Dataset_io中每个项目块出块信息使用一个位图数组来保存，其中每个位图的位数等于用户块个数，用于表示一个项目特征向量需要发往哪些用户块；项目的入块信息用于缓存每一个项目块中项目对应的评分信息以及相应的用户id，用于判断同一个项目块中的多个项目是否对传入的用户特征向量存在评分信息。

优选地，步骤(2-16)具体是将训练好的用户特征向量矩阵Dataset_umf中每个用户的用户特征向量与项目特征向量矩阵Dataset_imf中的所有项目特征向量进行内积操作，以得到与用户-项目矩阵中缺失数据对应的每个用户的预测值集合，将该预测值集合中的元素进行排序，获取前n个值对应的项目作为该用户的推荐项目，并根据所有用户的推荐项目生成用户的离线推荐列表，其中n可根据待推荐项目的数量自行设定。

优选地，步骤(2-15)包括以下子步骤：

(2-15-1)利用Flink平台的Join算子对项目的出块信息Dataset_io、以及项目特征向量矩阵Dataset_im进行合并处理，以得到用于计算用户特征向量矩阵Dataset_um的项目特征向量信息集合Dataset_ifv；

(2-15-2)利用Flink平台的Cogroup算子对用户的入块信息Dataset_ui、以及步骤(2-15-1)得到的项目特征向量信息Dataset_ifv进行合并处理，在该合并处理过程中需要根据以下公式更新用户特征向量矩阵Dataset_um：

其中P_uf表示用户特征向量矩阵Dataset_um中第u个用户对应第f个元素，H^q1和H^q2都是k*k的缓存矩阵，且矩阵的下标ff和kf分别表示矩阵中第f行第f列、以及第k行第f列的元素。

(2-15-3)利用Flink平台的Map算子对用户特征向量矩阵Dataset_um处理，以更新缓存矩阵H^p1和H^p2，在该处理过程中需要根据以下公式计算缓存矩阵H^p1和H^p2：

(2-15-4)利用Flink平台的Join算子对用户的出块信息Dataset_uo、以及用户特征向量矩阵Dataset_um进行合并处理，以得到用于计算项目特征向量矩阵Dataset_im的用户特征向量信息Dataset_ufv；

(2-15-5)利用Flink平台的Cogroup算子对项目的入块信息Dataset_ii、以及步骤(2-15-4)得到的用户特征向量信息Dataset_ufv进行合并处理，在该合并处理过程中需要根据以下公式更新项目特征向量矩阵Dataset_im：

其中Q_if表示用户特征向量矩阵Dataset_im中第i个用户对应第f个元素。

(2-15-6)利用Flink平台的Map算子对项目特征向量矩阵Dataset_im处理，以更新用户缓存矩阵H^q1和H^q2，在该处理过程中需要根据以下公式计算缓存矩阵H^q1和H^q2：

优选地，步骤(3)中，对实时隐式反馈数据进行预处理是使用Flink窗口机制控制实时隐式反馈数据的规模，具体是设置滚动窗口的窗口大小，再将用户-项目矩阵中不存在交互信息的相应位置设置为1，并将预处理后形成的实时隐式反馈数据形成实时数据集DataStream₀；步骤(3)

中，利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵

Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新包括以下子步骤：

(3-1)利用Flink平台的Map算子DataStream₀进行处理，以得到更新之后用户特征向量矩阵Dataset_urf和项目特征向量矩阵Dataset_irf；

(3-2)利用Flink平台的Join算子对步骤(3-1)中得到用户特征向量矩阵Dataset_urf和项目特征向量矩阵Dataset_irf进行合并操作，以生成用户的在线推荐列表。

优选地，步骤(3-1)包括如下子步骤：

(3-1-1)利用Flink平台的Map算子对项目特征向量矩阵Dataset_im处理，以更新用户缓存矩阵H^q1和H^q2，在该处理过程中需要根据以下公式计算缓存矩阵H^q1和H^q2：

(3-1-2)利用Flink平台的Cogroup算子对用户的入块信息Dataset_ui、以及步骤(2-15)中最后得到的离线项目特征向量信息Dataset_imf进行合并处理，得到实时更新之后的用户特征向量Dataset_urf，在该合并处理过程中需要根据以下公式更新步骤(3)得到DataStream₀中实时数据对应的用户特征向量：

(3-1-3)利用Flink平台的Map算子对用户特征向量矩阵Dataset_um处理，以更新缓存矩阵H^p1和H^p2，在该处理过程中需要根据以下公式计算缓存矩阵H^p1和H^p2：

(3-1-4)利用Flink平台的Cogroup算子对项目的入块信息Dataset_ii、以及步骤(2-15)中最后得到的离线用户特征向量信息Dataset_umf进行合并处理，得到实时更新之后的项目特征向量Dataset_irf，在该合并处理过程中需要根据以下公式更新步骤(3)得到DataStream₀中实时数据对应的项目特征向量：

按照本发明的另一方面，提供了一种基于Flink的矩阵分解隐式反馈推荐系统，包括：

第一模块，用于使用Flink数据源接口获取用户历史隐式反馈数据，并对该历史隐式反馈数据进行预处理，以得到处理后的历史隐式反馈数据；

第二模块，用于根据第一模块处理后的历史隐式反馈数据构建矩阵分解模型，利用构建的矩阵分解模型对历史隐式反馈数据进行处理，以生成训练好的用户特征向量矩阵Dataset_umf、项目特征向量矩阵Dataset_imf、以及用户的离线推荐列表；

第三模块，用于使用Flink实时数据源接口从用户获取实时隐式反馈数据，并对该实时隐式反馈数据进行预处理，以得到处理后的实时隐式反馈数据，并利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新，并利用更新后的模型生成用户的实时推荐列表。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明能够解决现有方法中不能有效反应负反馈数据的真实情况，从而导致推荐精度低的技术问题：由于本发明采用了步骤(2-1)中将隐式反馈推荐算法目标函数中加入了用户活跃度和项目流行度，这种做法将根据用户活跃度和项目流行度分配每个缺失数据不一样的权重，因此模型能够有效地获取负反馈信息，从而提高了推荐精度。

2、本发明能够解决现有方法中存在的时间复杂度较高且并行训练效率较低的技术问题：由于本发明采用了步骤(2-2)到(2-12)，模型训练过程中采用一种基于单个元素坐标下降的方法(EALS)来进行模型的更新，因此能够有效降低模型的时间复杂度；同时，并行计算过程中缓存了用户特征向量和项目特征向量的出入块信息来减少在Flink平台上面并行训练时产生的通信开销，因此有效地提升了并行训练效率。

3、本发明能够解决现有方法中由于无法实现模型的在线更新，从而导致实时推荐的精度下降技术问题：由于本发明采用了步骤(3-1)到(3-2)，利用实时隐式反馈数据来进行模型的实时更新，从而提高模型的实时推荐精度。

4、本发明提出的方法能够同时应用于大规模隐式反馈数据的离线推荐场景和在线推荐场景，且本方法提出的模型不仅局限于应用在Flink平台上面，同时也可以在其他大数据平台上面高效地实施(例如Spark平台)。

附图说明

图1是本发明基于Flink的矩阵分解隐式反馈推荐方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于Flink的矩阵分解隐式反馈推荐方法，包括以下步骤：

具体而言，使用Flink数据源接口获取用户的历史隐式反馈数据是指从其它数据库或者文件系统中获取用户的历史隐式反馈数据，这些数据库或者文件系统可以是例如亚马逊的简单存储服务(Simple Storage Service，简称S3)、Hadoop分布式文件系统(Hadoopdistributed file system，简称HDFS)等。

隐式反馈数据是指不具体表明用户偏好的数据，例如用户的商品浏览数据。

对历史隐式反馈数据进行预处理具体是指先使用Flink平台中的Reduce算子计算历史隐式反馈数据中的用户数量M和项目(Item)数量N，利用Flink平台中的map算子处理M*N大小的用户-项目矩阵中存在交互信息的位置，将存在交互信息的位置设置为1，并生成初始用户-项目交互数据集Dataset₀，该数据集采用三元组形式(用户id，项目id，1)表示用户-项目矩阵中用户和项目之间的交互信息。

例如，如果历史隐式反馈数据中，第1个用户和第1个项目存在交互，则用户-项目矩阵中第一行第一列的元素为1，在初始用户-项目交互数据集Dataset₀中，该交互信息的表示方式为(用户1，项目1，1)。

本步骤中，根据步骤(1)处理后的历史隐式反馈数据构建矩阵分解模型的过程包括以下步骤：

(2-1)构建目标函数：

其中R表示用户与项目交互信息矩阵，R∈(M×N)，R_ui表示用户u与项目i交互信息，u∈[1，M]，i∈[1，N]，表示R_ui的预测值，P_u表示第u个用户的特征向量，Q_i表示第i个项目的特征向量，W_ui代表R_ui的权重，λ表示正则化系数，w₀表示交互信息矩阵R中缺失数据的权重系数，d_u代表用户u的活跃度，c_i代表项目i的流行度，d_u与c_i计算公式如下所示：

用户的出块信息用于缓存每个用户块中有哪些用户特征向量需要发送到对应项目块中用于计算，避免同一个用户块中的特征向量多次发送至相同的项目块，其中用户出块信息集合Dataset_uo中每个用户块出块信息使用一个位图(bitmap)数组来保存，其中每个位图的位数等于项目块个数，来表示一个用户需要发往哪些项目块，例如用户u需要发送到项目块h中，则将bitmap_u的第h位置为1。

用户的入块信息用于缓存每一个用户块中用户对应的评分信息以及相应的项目id，用于判断同一个用户块中的多个用户是否对传入的项目特征向量存在评分信息。

具体而言，项目分块数量等于启动Flink平台时设定的并行度。

项目的出块信息用于缓存每个项目块中有哪些项目特征向量需要发送到对应用户块中用于计算，避免同一个项目块中的特征向量多次发送至相同的用户块，其中项目出块信息集合Dataset_uo中每个项目块出块信息使用一个位图(bitmap)数组来保存，其中每个位图的位数等于用户块个数，来表示一个项目需要发往哪些用户块，例如项目i需要发送到用户块h中，则将bitmap_i的第h位置为1。

项目的入块信息缓存每一个项目块中项目对应的评分信息以及相应的用户id，用于判断同一个项目块中的多个项目是否对传入的用户特征向量存在评分信息。

(2-12)利用Flink平台的map算子对用户的出块信息Dataset_uo进行处理，以得到用户特征向量矩阵集合Dataset_um，并对项目的出块信息Dataset_io进行处理，以得到项目特征向量矩阵集合Dataset_im。

本步骤包括以下子步骤：

具体而言，本步骤中是将训练好的用户特征向量矩阵Dataset_umf中每个用户的用户特征向量与项目特征向量矩阵Dataset_imf中的所有项目特征向量进行内积操作，以得到与用户-项目矩阵中缺失数据(即矩阵中不存在用户与项目交互信息的位置)对应的每个用户的预测值集合，将该预测值集合中的元素进行排序，获取前n个值对应的项目作为该用户的推荐项目，并根据所有用户的推荐项目生成用户的离线推荐列表，其中n可根据待推荐项目的数量自行设定。

(3)使用Flink实时数据源接口(例如Apache Kafka)从用户获取实时隐式反馈数据，并对该实时隐式反馈数据进行预处理，以得到处理后的实时隐式反馈数据，并利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新，并利用更新后的模型生成用户的实时推荐列表。

本步骤中，对实时隐式反馈数据进行预处理是使用Flink窗口机制控制实时隐式反馈数据的规模，具体是设置滚动窗口(Tumbling window)的窗口大小(即每次数据处理的大小)，并将用户-项目矩阵中不存在交互信息的相应位置设置为1，并将预处理后形成的实时隐式反馈数据形成实时数据集DataStream₀。

本步骤中利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新包括以下子步骤：

本步骤中，该处理过程需要对DataStream₀中每个交互数据执行以下步骤：

(3-2)利用Flink平台的Join算子对步骤(3-1)中得到用户特征向量矩阵Dataset_urf和项目特征向量矩阵Dataset_irf进行合并操作，以生成用户的在线推荐列表；

具体而言，本步骤中是将训练好的用户特征向量矩阵Dataset_urf中每个用户的用户特征向量与项目特征向量矩阵Dataset_irf中的所有项目特征向量进行内积操作，以得到与用户-项目矩阵中缺失数据(即矩阵中不存在用户与项目交互信息的位置)对应的、每个用户的预测值集合，将该预测值集合中的元素进行排序，获取前n个值对应的项目作为该用户的推荐项目，并根据所有用户的推荐项目生成用户的离线推荐列表，其中n可根据待推荐项目的数量自行设定。

总而言之，本发明的是在大数据场景下，提出了基于流式计算框架Flink的在线增量矩阵分解推荐方法，通过与传统的大数据平台上基于矩阵分解的隐式反馈推荐算法相比较，本发明的优点如下：

1)提出了一种基于用户活跃度与项目流行度的权重矩阵分解隐式反馈推荐方法，并采用一种基于单个元素坐标下降的优化方法，相对于目前流行的分配缺失值统一权重的矩阵分解隐式反馈推荐算法Flink-WMF而言，不仅提高了算法的预测准确率，并且降低了算法执行的时间复杂度，同时能够高效地进行模型的在线更新；

2)针对大数据场景，本发明实现了一种基于Flink高效的权重矩阵分解隐式反馈推荐方法，该方法采用一种路由表的策略，能够有效减少模型离线训练过程中通信开销，提高模型的训练效率，且具备良好的扩展性，相对于现有大数据平台上基于矩阵分解隐式反馈推荐算法，有效地降低了模型的训练时间，提高了模型的预测精度，与此同时利，用Flink的流处理特性，能够高效地进行模型地实时在线更新，解决了传统大数据平台上基于矩阵分解隐式反馈推荐算法不能进行模型在线更新的问题，进而提高了实时推荐场景下模型的推荐精度。

综上所述，本发明针对现有的大数据平台Flink提出了一种权重矩阵分解隐式反馈推荐方法，相对于传统基于矩阵分解的隐式推荐算法，能有效减少模型训练时间，减少对分布式集群资源的使用且具备更高的准确率，与此同时，能够有效利用Flink的实时处理能力，针对实时推荐场景进行模型的增量更新，进一步提高模型的预测精度。

仿真结果和性能比较

本发明选择yelp挑战数据集，其中包含160万用户对项目的评分信息，由于数据的稀疏性太大，为了更好地评估算法的性能，本发明中过滤掉了评分信息少于10条的用户项，最终得到731671条评分数据，对应用户数为25815，项目数为25677，离线测试过程本发明采用留一法，首先将评分按照每个用户产生项目交互的时间排序，取每个用户最后一条评论数据作为测试数据，将本发明的方法与现有Flink平台上并行的基于矩阵分解隐式反馈推荐算法Flink-ALS，进行了推荐性能的比较，本发明采用隐式反馈推荐中常用的交互指标命中率(Hit rate，简称HR)和归一化折损累积增益(Normalized Discounted cumulativegain，简称NDCG)作为评价指标。

实验中，本发明的方法和现有方法的基础参数设定：推荐过程中使用的Top-n推荐中n值为100，矩阵分解之后用户和项目特征向量长度k设定为128，算法迭代次数设定为100，正则化系数λ设定为0.01，特别的对于本发明的方法，超参数的设置为w₀设置为256，β设定为0.1，α设定为0.6，具体试验结果参见表1。

为了验证本发明在Flink平台上的推荐精度和效率，实验在Flink的独立(Standalone)集群模式下进行，集群由三台机器组成，每台机器上面运行一个Flink任务管理(TaskManger)任务，每个TaskManger占用8个CPU核心，因此，我们将用户特征举证和项目特征矩阵的分块数均设置为24。算法推荐精度的比较如表1所示。性能测试实验中我们将特征向量长度k分别设置为为32、64和128，分别测试在Flink平台上本发明和Flink-ALS的运行时间，得到表2的实验结果。

表1

表2

通过以上表1和表2的实验结果，可以看出：在推荐精度方面，表1中本发明的HR跟NDCG值均高于Flink-WMF，因此本发明相对原有大数据平台的并行隐式反馈方法有着更高的推荐精度；在模型训练效率方面，本发明在与Flink-WMF占用相同集群资源的情况下，采用不同特征向量长度时,模型训练时间均要短于Flink-WMF的模型训练时间，因此本发明相对原有大数据平台的并行隐式反馈方法有着更高的模型训练效率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Flink的矩阵分解隐式反馈推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的矩阵分解隐式反馈推荐方法，其特征在于，步骤(1)中对历史隐式反馈数据进行预处理具体为，先使用Flink平台中的Reduce算子计算历史隐式反馈数据中的用户数量M和项目数量N，利用Flink平台中的map算子处理M*N大小的用户-项目矩阵中存在交互信息的位置，将存在交互信息的位置设置为1，并生成初始用户-项目交互数据集Dataset₀，该数据集采用三元组形式(用户id，项目id，1)表示用户-项目矩阵中用户和项目之间的交互信息。

3.根据权利要求2所述的矩阵分解隐式反馈推荐方法，其特征在于，步骤(2)中根据步骤(1)处理后的历史隐式反馈数据构建矩阵分解模型的过程包括以下步骤：

(2-1)构建目标函数：

其中R表示用户与项目交互信息矩阵，R∈(M×N)，R_ui表示用户u与项目i交互信息，u∈[1，M]，i∈[1，N]，表示R_ui的预测值，P_u表示第u个用户的特征向量，Q_i表示第i个项目的特征向量，W_ui代表R_ui的权重，λ表示正则化系数，w₀表示交互信息矩阵R中缺失数据的权重系数，d_u代表用户u的活跃度，c_i代表项目i的流行度；

4.根据权利要求3所述的矩阵分解隐式反馈推荐方法，其特征在于，步骤(2-1)中，d_u与c_i的计算公式如下所示：

5.根据权利要求3所述的矩阵分解隐式反馈推荐方法，其特征在于，

用户的出块信息用于缓存每个用户块中有哪些用户特征向量需要发送到对应项目块中用于计算，避免同一个用户块中的特征向量多次发送至相同的项目块；

用户出块信息集合Dataset_uo中每个用户块出块信息使用一个位图数组来保存，其中每个位图的位数等于项目块个数，用于表示一个用户的特征向量需要发往哪些项目块；

项目的出块信息用于缓存每个项目块中有哪些项目特征向量需要发送到对应用户块中用于计算，避免同一个项目块中的特征向量多次发送至相同的用户块；

项目出块信息集合Dataset_io中每个项目块出块信息使用一个位图数组来保存，其中每个位图的位数等于用户块个数，用于表示一个项目特征向量需要发往哪些用户块；

项目的入块信息用于缓存每一个项目块中项目对应的评分信息以及相应的用户id，用于判断同一个项目块中的多个项目是否对传入的用户特征向量存在评分信息。

6.根据权利要求5所述的矩阵分解隐式反馈推荐方法，其特征在于，步骤(2-16)具体是将训练好的用户特征向量矩阵Dataset_umf中每个用户的用户特征向量与项目特征向量矩阵Dataset_imf中的所有项目特征向量进行内积操作，以得到与用户-项目矩阵中缺失数据对应的每个用户的预测值集合，将该预测值集合中的元素进行排序，获取前n个值对应的项目作为该用户的推荐项目，并根据所有用户的推荐项目生成用户的离线推荐列表，其中n可根据待推荐项目的数量自行设定。

7.根据权利要求6所述的矩阵分解隐式反馈推荐方法，其特征在于，步骤(2-15)包括以下子步骤：

8.根据权利要求1所述的矩阵分解隐式反馈推荐方法，其特征在于，

步骤(3)中，对实时隐式反馈数据进行预处理是使用Flink窗口机制控制实时隐式反馈数据的规模，具体是设置滚动窗口的窗口大小，再将用户-项目矩阵中不存在交互信息的相应位置设置为1，并将预处理后形成的实时隐式反馈数据形成实时数据集DataStream₀；

步骤(3)中，利用处理后的实时隐式反馈数据、训练好的用户特征向量矩阵Dataset_umf、以及项目特征向量矩阵Dataset_imf对矩阵分解模型进行实时更新包括以下子步骤：

9.根据权利要求8所述的矩阵分解隐式反馈推荐方法，其特征在于，步骤(3-1)包括如下子步骤：

10.一种基于Flink的矩阵分解隐式反馈推荐系统，其特征在于，包括：