CN108197285A

CN108197285A - 一种数据推荐方法以及装置

Info

Publication number: CN108197285A
Application number: CN201810036690.4A
Authority: CN
Inventors: 史燕飞; 程星
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-06-22

Abstract

本发明实施例公开了一种数据推荐方法以及装置，其中方法包括：获取所有用户簇和所有项目簇；在目标用户所属的用户簇中获取与目标用户对应的邻居用户；将目标用户所评价过的项目和邻居用户所评价过的项目均确定为目标项目，并在目标项目所属的项目簇中获取与目标项目对应的邻居项目；在目标项目和目标项目对应的邻居项目中去除目标用户所评价过的项目，得到待推荐项目集，分别计算目标用户与待推荐项目集中每个项目之间的预测评分，并根据预测评分在待推荐项目集中选择与目标用户对应的推荐项目。采用本发明，可降低系统功耗，并提高推荐的准确性。

Description

一种数据推荐方法以及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种数据推荐方法以及装置。

背景技术

随着互联网技术的飞速发展，网络平台上的数据量以指数级迅猛增长，信息技术深刻地影响和改变着人类生活。由于互联网中有着巨量、繁杂的信息海洋，所以如何在信息海洋中为海量用户推荐个性化的信息服务，则显得尤为重要。

在目前的信息推荐方法中，通常会根据用户对项目(如电影、歌曲、文章等互联网信息)的评分，在海量用户中为待推荐用户查找与其相似的用户，再在这些相似的用户所评价过的项目中为待推荐用户选择推荐项目。由于要在海量用户中查找与待推荐用户相似的用户，所以会因查找的范围过大而带来庞大的计算量，导致系统功耗大大增加；而且将这些相似的用户所评价过的项目作为推荐候选集，会因用户所评价过的项目的数量过少而导致推荐候选集中的项目数量过少，进而影响推荐的准确性。

发明内容

本发明实施例提供一种数据推荐方法以及装置，可降低系统功耗，并提高推荐的准确性。

本发明一方面提供了一种数据推荐方法，包括：

获取所有用户簇和所有项目簇；所述用户簇是通过对原始用户集合中每个用户对应的用户特征向量进行聚类得到，所述项目簇是通过对原始项目集合中每个项目对应的项目特征向量进行聚类得到；

根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户；

将所述目标用户所评价过的项目和所述邻居用户所评价过的项目均确定为目标项目，并根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目；

在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目。

其中，还包括：

根据所述目标用户所评价过的项目，建立所述目标用户对应的评分对角矩阵；所述评分对角矩阵包括所述目标用户所评价过的每个项目的评分数据；

将时间衰减函数分别与所述评分对角矩阵中每个项目的评分数据进行相乘，得到评分衰减对角矩阵；所述时间衰减函数包括与待相乘的项目相关联的衰减时间参数，所述衰减时间参数是所述目标用户对应的选定推荐时间戳与所述目标用户对待相乘的项目的评分时间戳之间的差值；

在所述原始项目集合对应的项目属性矩阵中，获取所述目标用户所评价过的项目对应的目标项目属性矩阵，并根据所述目标项目属性矩阵和所述评分衰减对角矩阵，生成用户特征矩阵，并将所述用户特征矩阵转换为所述目标用户对应的用户特征向量。

其中，还包括：

在所述原始项目集合对应的项目属性矩阵中提取与所述目标项目相关联的元素，并将所述目标项目相关联的元素组合为所述目标项目对应的项目特征向量。

其中，还包括：

设置多个第一聚类中心向量，分别计算所述原始用户集合中每个用户对应的用户特征向量与所述多个第一聚类中心向量之间的第一向量距离；

根据所述第一向量距离，确定各用户特征向量与各第一聚类中心向量之间的映射关系，并将映射有相同第一聚类中心向量的用户特征向量所对应的用户划分至相同的用户簇中；

其中，所述用户簇的数量与所述第一聚类中心向量的数量相同。

其中，还包括：

设置多个第二聚类中心向量，分别计算所述原始项目集合中每个项目对应的项目特征向量与所述多个第二聚类中心向量之间的第二向量距离；

根据所述第二向量距离，确定各项目特征向量与各第二聚类中心向量之间的映射关系，并将映射有相同第二聚类中心向量的项目特征向量所对应的项目划分至相同的项目簇中；

其中，所述项目簇的数量与所述第二聚类中心向量的数量相同。

其中，所述根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户，包括：

将目标用户所属的用户簇中除了所述目标用户以外的用户，确定为待处理用户，并获取所述目标用户与所述待处理用户分别对应的用户特征向量；

获取所述目标用户与所述待处理用户之间的项目属性交集，并根据所述目标用户与所述待处理用户分别对应的用户特征向量中与所述项目属性交集相关联的元素、所述目标用户与所述待处理用户分别对应的用户特征向量中所有元素的平均值，计算所述目标用户与所述待处理用户之间的用户相似度值；所述项目属性交集是指所述目标用户所评价过的项目对应的项目属性与所述待处理用户所评价过的项目对应的项目属性之间的交集；

按照所述用户相似度值从高至低的顺序对所有所述待处理用户进行排序，将排序序号小于第一数量阈值的所述待处理用户确定为满足用户相似度条件的用户，并将满足用户相似度条件的用户确定为所述目标用户对应的邻居用户。

其中，所述根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目，包括：

将所述目标项目所属的项目簇中除了所述目标项目以外的项目，确定为待匹配项目，并获取所述目标项目与所述待匹配项目分别对应的项目特征向量；

获取所述目标项目与所述待匹配项目之间的项目属性并集，并根据所述目标项目与所述待匹配项目分别对应的项目特征向量中与所述项目属性并集相关联的元素，计算所述目标项目与所述待匹配项目之间的项目相似度值；所述项目属性并集是指所述目标项目对应的项目属性与所述待匹配项目对应的项目属性之间的并集；

按照所述项目相似度值从高至低的顺序对所有所述待匹配项目进行排序，将排序序号小于第二数量阈值的所述待匹配项目确定为满足项目相似度条件的项目，并将满足项目相似度条件的项目确定为所述目标项目对应的邻居项目。

其中，所述分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目，包括：

将所述待推荐项目集中的每个项目均确定为待推荐项目；

计算所述目标用户与每个所述待推荐项目之间的预测评分；

按照所述预测评分从高至低的顺序对所有所述待推荐项目进行排序，将排序序号小于第三数量阈值的所述待推荐项目确定为所述目标用户对应的推荐项目。

其中，所述计算所述目标用户与每个所述待推荐项目之间的预测评分，包括：

若所述待推荐项目为具有评分的项目，则根据所述目标用户分别与每个所述邻居用户之间的用户相似度值、所述目标用户和每个所述邻居用户分别对应的用户评分均值、每个所述邻居用户分别对所述待推荐项目的评分，计算所述目标用户与所述待推荐项目之间的预测评分；所述用户评分均值是指一个用户对所评价过的项目的评分的平均值；

若所述待推荐项目为未具有评分的项目，则根据所述待推荐项目对应的每个邻居项目分别与所述待推荐项目之间的项目相似度值、所述待推荐项目对应的每个邻居项目分别对应的项目评分均值、所述目标用户对应的用户评分均值、所有所述项目评分均值的平均值，计算所述目标用户与所述待推荐项目之间的预测评分；所述项目评分均值是指一个项目所具有的所有评分的平均值。

本发明另一方面提供了一种数据推荐装置，包括：

簇获取模块，用于获取所有用户簇和所有项目簇；所述用户簇是通过对原始用户集合中每个用户对应的用户特征向量进行聚类得到，所述项目簇是通过对原始项目集合中每个项目对应的项目特征向量进行聚类得到；

用户获取模块，用于根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户；

项目获取模块，用于将所述目标用户所评价过的项目和所述邻居用户所评价过的项目均确定为目标项目，并根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目；

推荐计算模块，用于在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目。

其中，还包括：

矩阵计算模块，用于根据所述目标用户所评价过的项目，建立所述目标用户对应的评分对角矩阵；所述评分对角矩阵包括所述目标用户所评价过的每个项目的评分数据；

所述矩阵计算模块，还用于将时间衰减函数分别与所述评分对角矩阵中每个项目的评分数据进行相乘，得到评分衰减对角矩阵；所述时间衰减函数包括与待相乘的项目相关联的衰减时间参数，所述衰减时间参数是所述目标用户对应的选定推荐时间戳与所述目标用户对待相乘的项目的评分时间戳之间的差值；

用户向量生成模块，用于在所述原始项目集合对应的项目属性矩阵中，获取所述目标用户所评价过的项目对应的目标项目属性矩阵，并根据所述目标项目属性矩阵和所述评分衰减对角矩阵，生成用户特征矩阵，并将所述用户特征矩阵转换为所述目标用户对应的用户特征向量。

其中，还包括：

项目向量生成模块，用于在所述原始项目集合对应的项目属性矩阵中提取与所述目标项目相关联的元素，并将所述目标项目相关联的元素组合为所述目标项目对应的项目特征向量。

其中，还包括：

第一聚类模块，用于设置多个第一聚类中心向量，分别计算所述原始用户集合中每个用户对应的用户特征向量与所述多个第一聚类中心向量之间的第一向量距离；

所述第一聚类模块，还用于根据所述第一向量距离，确定各用户特征向量与各第一聚类中心向量之间的映射关系，并将映射有相同第一聚类中心向量的用户特征向量所对应的用户划分至相同的用户簇中；

其中，还包括：

第二聚类模块，用于设置多个第二聚类中心向量，分别计算所述原始项目集合中每个项目对应的项目特征向量与所述多个第二聚类中心向量之间的第二向量距离；

所述第二聚类模块，还用于根据所述第二向量距离，确定各项目特征向量与各第二聚类中心向量之间的映射关系，并将映射有相同第二聚类中心向量的项目特征向量所对应的项目划分至相同的项目簇中；

其中，所述用户获取模块包括：

用户确定单元，用于将目标用户所属的用户簇中除了所述目标用户以外的用户，确定为待处理用户，并获取所述目标用户与所述待处理用户分别对应的用户特征向量；

用户计算单元，用于获取所述目标用户与所述待处理用户之间的项目属性交集，并根据所述目标用户与所述待处理用户分别对应的用户特征向量中与所述项目属性交集相关联的元素、所述目标用户与所述待处理用户分别对应的用户特征向量中所有元素的平均值，计算所述目标用户与所述待处理用户之间的用户相似度值；所述项目属性交集是指所述目标用户所评价过的项目对应的项目属性与所述待处理用户所评价过的项目对应的项目属性之间的交集；

所述用户确定单元，还用于按照所述用户相似度值从高至低的顺序对所有所述待处理用户进行排序，将排序序号小于第一数量阈值的所述待处理用户确定为满足用户相似度条件的用户，并将满足用户相似度条件的用户确定为所述目标用户对应的邻居用户。

其中，所述项目获取模块包括：

第一项目确定单元，用于将所述目标项目所属的项目簇中除了所述目标项目以外的项目，确定为待匹配项目，并获取所述目标项目与所述待匹配项目分别对应的项目特征向量；

项目计算单元，用于获取所述目标项目与所述待匹配项目之间的项目属性并集，并根据所述目标项目与所述待匹配项目分别对应的项目特征向量中与所述项目属性并集相关联的元素，计算所述目标项目与所述待匹配项目之间的项目相似度值；所述项目属性并集是指所述目标项目对应的项目属性与所述待匹配项目对应的项目属性之间的并集；

所述第一项目确定单元，还用于按照所述项目相似度值从高至低的顺序对所有所述待匹配项目进行排序，将排序序号小于第二数量阈值的所述待匹配项目确定为满足项目相似度条件的项目，并将满足项目相似度条件的项目确定为所述目标项目对应的邻居项目。

其中，所述推荐计算模块包括：

第二项目确定单元，用于在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，并将所述待推荐项目集中的每个项目均确定为待推荐项目；

评分计算单元，用于计算所述目标用户与每个所述待推荐项目之间的预测评分；

所述第二项目确定单元，还用于按照所述预测评分从高至低的顺序对所有所述待推荐项目进行排序，将排序序号小于第三数量阈值的所述待推荐项目确定为所述目标用户对应的推荐项目。

其中，所述评分计算单元包括：

第一计算子单元，用于若所述待推荐项目为具有评分的项目，则根据所述目标用户分别与每个所述邻居用户之间的用户相似度值、所述目标用户和每个所述邻居用户分别对应的用户评分均值、每个所述邻居用户分别对所述待推荐项目的评分，计算所述目标用户与所述待推荐项目之间的预测评分；所述用户评分均值是指一个用户对所评价过的项目的评分的平均值；

第二计算子单元，用于若所述待推荐项目为未具有评分的项目，则根据所述待推荐项目对应的每个邻居项目分别与所述待推荐项目之间的项目相似度值、所述待推荐项目对应的每个邻居项目分别对应的项目评分均值、所述目标用户对应的用户评分均值、所有所述项目评分均值的平均值，计算所述目标用户与所述待推荐项目之间的预测评分；所述项目评分均值是指一个项目所具有的所有评分的平均值。

本发明另一方面提供了一种数据推荐装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。。

本发明另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例根据目标用户对应的用户特征向量，在目标用户所属的用户簇中获取与目标用户之间的相似度满足用户相似度条件的用户，作为目标用户对应的邻居用户，这些邻居用户即为与目标用户相似的用户，由于是在目标用户所在的用户簇中查找邻居用户，因此，大大缩小了查找范围，从而减少了计算量，进而可以降低系统功耗。本发明实施例再将目标用户所评价过的项目和邻居用户所评价过的项目均确定为目标项目，并根据目标项目对应的项目特征向量，在目标项目所属的项目簇中获取与目标项目之间的相似度满足项目相似度条件的项目，作为目标项目对应的邻居项目，并在目标项目和目标项目对应的邻居项目中去除目标用户所评价过的项目，得到待推荐项目集，分别计算目标用户与待推荐项目集中每个项目之间的预测评分，并根据预测评分在待推荐项目集中选择与目标用户对应的推荐项目。由此可见，待推荐项目集不仅可以包括邻居用户所评价过的项目，还可以包括目标项目对应的邻居项目，因此，尽管在用户所评价过的项目的数量过少的情况下，也可以通过目标项目对应的邻居项目扩充待推荐项目集中的项目数量，进而可以提高推荐的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种网络架构的示意图；

图1b是本发明实施例提供的一种数据推荐方法的场景示意图；

图2是本发明实施例提供的一种数据推荐方法的流程示意图；

图3是本发明实施例提供的另一种数据推荐方法的流程示意图；

图4a是本发明实施例提供的一种选择邻居用户的场景示意图；

图4b是本发明实施例提供的一种选择邻居项目的场景示意图；

图4c是本发明实施例提供的一种选择推荐项目的场景示意图；

图5是本发明实施例提供的一种数据推荐装置的结构示意图；

图6是本发明实施例提供的另一种数据推荐装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1a，是本发明实施例提供的一种网络架构的示意图。如图1a所示，该网络架构可以包括服务器100和多个用户终端(图1a具体以用户终端200a、用户终端200b、用户终端200c为例，本发明实施例不对用户终端的数量进行限定)，服务器100可以分别与每个用户终端进行网络连接，每个用户终端均可以对项目进行评分，并将评分结果发送至服务器100，服务器100可以根据所有用户终端的评分结果以及所有项目的项目属性，为不同的用户终端推送不同的推荐项目；项目可以理解为电影、游戏、文章、歌曲等多媒体数据，以某一项目为“电影A”为例，该项目对应的项目属性可以包括“电影A”的电影画风、上映年份、所属地域、主题等属性。

进一步的，再请参见图1b，是本发明实施例提供的一种数据推荐方法的场景示意图。如图1b所示，具体以图1a中的服务器100和用户终端200a为例，为具体的推荐处理过程进行说明。如图1b所示，服务器100可以基于已有的所有用户对项目的评分和所有项目对应的项目属性，生成每个用户对应的用户特征向量，并生成每个项目对应的项目特征向量。服务器100再对所有用户特征向量进行聚类，以将用户划分到不同的用户簇中，并对所有项目特征向量进行聚类，以将项目划分到不同的项目簇中，由于聚类过程的计算量比较大，为了保证推荐的实时性，可以对聚类进行离线处理，以保存所有用户簇和所有项目簇，在要对某用户进行项目推荐时，直接提取已保存的所有用户簇和所有项目簇。在图1b中，服务器100在对用户终端200a对应的用户u₁进行项目推荐前，先获取已保存的所有用户簇和所有项目簇，在所有用户簇中找出用户u₁所在的用户簇a1，并计算用户u₁与用户簇a1中的其他用户之间的用户相似度值，并根据用户相似度值在用户簇a1中筛选出用户u₁对应的多个邻居用户，形成邻居用户集合。服务器100再将每个邻居用户和用户u₁所评价过的项目确定为目标项目，并在所有项目簇中查找每个目标项目所在的项目簇，如图1b所示，所找出的项目簇可以包括项目簇b1、项目簇b2等项目簇。以其中一个属于项目簇b1的目标项目为例，服务器100可以计算该目标项目与项目簇b1中的其他项目之间的项目相似度值，并根据项目相似度值在项目簇b1中筛选出与该目标项目对应的多个邻居项目，基于同样的方式可以选择出其他目标项目对应的邻居项目，将所有目标项目、所有目标项目分别对应的邻居项目添加到邻居项目集合，将邻居项目集合中的用户u₁所评价过的项目删除，形成待推荐项目集。服务器100再计算用户u₁与待推荐项目集中的每个项目之间的预测评分，并根据预测评分在待推荐项目集中选择出若干推荐项目，并将所选择出的推荐项目发送至用户终端200a，以完成对用户u₁的项目推荐。待推荐项目集不仅可以包括邻居用户所评价过的项目，还可以包括目标项目对应的邻居项目，因此，尽管在用户所评价过的项目的数量过少的情况下，也可以通过目标项目对应的邻居项目扩充待推荐项目集中的项目数量，进而可以提高推荐的准确性。而且通过聚类技术，分别对用户和项目进行聚类，可以减小邻居用户和邻居项目的查询范围，以减少计算量。

其中，在以下图2至6对应的实施例中，将对生成用户特征向量和项目特征向量的具体过程、聚类的具体过程、计算用户相似度值和项目相似度值的具体过程、计算预测评分的具体过程进行详细说明。

请参见图2，是本发明实施例提供的一种数据推荐方法的流程示意图，所述方法可以包括：

S201，获取所有用户簇和所有项目簇；所述用户簇是通过对原始用户集合中每个用户对应的用户特征向量进行聚类得到，所述项目簇是通过对原始项目集合中每个项目对应的项目特征向量进行聚类得到；

具体的，服务器可以存储有原始项目集合和原始用户集合，原始项目集合中的所有项目可以包括由服务器和/或CP(Content Provider，内容提供商)所提供的多媒体数据，例如，电影、游戏、文章、歌曲等多媒体数据。原始用户集合中的所有用户可以包括对原始项目集合中的至少一个项目进行过评分的用户，例如，若某个用户对原始项目集合中的某一部电影进行评分(如10分制，该用户打了9分)，则服务器可以将该用户添加到原始用户集合中，并保存该评分结果(即该用户对该电影所评的9分)。

服务器可以根据原始项目集合中的每个项目对应的项目属性、原始用户集合中每个用户对项目的评分、用户评分对用户兴趣特征贡献度随时间衰减的特性，生成原始用户集合中每个用户对应的用户特征向量。服务器还可以根据原始项目集合中的每个项目对应的项目属性，生成原始项目集合中的每个项目对应的项目特征向量。由于用户特征向量不仅包含用户对项目的评分这一维度，且用户特征向量还可以包括用户评分对用户兴趣特征贡献度随时间衰减的特性以及用户所评价过的项目对应的项目属性这两大维度，从而可以多维度的刻画用户的特征，即用户特征向量可以更加准确的体现用户的特征，以提高后续的推荐精度。

服务器在生成原始用户集合中每个用户对应的用户特征向量后，可以基于kmeans聚类算法对原始用户集合中的所有用户进行聚类，该聚类过程可以为：设置多个第一聚类中心向量，分别计算原始用户集合中每个用户对应的用户特征向量与多个第一聚类中心向量之间的第一向量距离，并根据第一向量距离，确定各用户特征向量与各第一聚类中心向量之间的映射关系，并将映射有相同第一聚类中心向量的用户特征向量所对应的用户划分至相同的用户簇中，其中，用户簇的数量与第一聚类中心向量的数量相同。其中，一个用户簇可以代表某一类兴趣相似的用户。例如，第一步，从n个用户特征向量中任意选择k个用户特征向量作为初始的聚类中心向量(可以将该聚类中心向量称之为第一聚类中心向量)；第二步，对于所剩下的(n-k)个用户特征向量，则计算剩下的(n-k)个用户特征向量与k个初始的聚类中心向量之间的向量距离(即相似度)，对于一个用户特征向量，可以将该用户特征向量分配给最小的向量距离所对应的聚类中心向量所代表的圈子，因此，可以将剩下的(n-k)个用户特征向量分别分配到不同的圈子；第三步，再根据每个圈子中的用户特征向量更新每个圈子的聚类中心向量(如可以将圈子中所有用户特征向量的均值作为更新后的聚类中心向量)；不断重复第二步和第三步的过程，直到标准测度函数开始收敛为止，即完成了对n个用户特征向量的聚类。

服务器生成原始项目集合中每个项目对应的项目特征向量后，也可以基于kmeans聚类算法对原始项目集合中的所有项目进行聚类，该聚类过程可以为：设置多个第二聚类中心向量，分别计算原始项目集合中每个项目对应的项目特征向量与多个第二聚类中心向量之间的第二向量距离，并根据第二向量距离，确定各项目特征向量与各第二聚类中心向量之间的映射关系，并将映射有相同第二聚类中心向量的项目特征向量所对应的项目划分至相同的项目簇中；其中，项目簇的数量与第二聚类中心向量的数量相同。其中，一个项目簇可以代表某一类属性相似的项目。例如，第一步，从n个项目特征向量中任意选择k个项目特征向量作为初始的聚类中心向量(可以将该聚类中心向量称之为第二聚类中心向量)；第二步，对于所剩下的(n-k)个项目特征向量，则计算剩下的(n-k)个项目特征向量与k个初始的聚类中心向量之间的向量距离(即相似度)，对于一个项目特征向量，可以将该项目特征向量分配给最小的向量距离所对应的聚类中心向量所代表的圈子，因此，可以将剩下的(n-k)个项目特征向量分别分配到不同的圈子；第三步，再根据每个圈子中的项目特征向量更新每个圈子的聚类中心向量(如可以将圈子中所有项目特征向量的均值作为更新后的聚类中心向量)；不断重复步和第三步的过程，直到标准测度函数开始收敛为止，即完成了对n个项目特征向量的聚类。

kmeans聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其中，在使用kmeans聚类算法之前，还需要确定k的值，即聚类中心向量的数量，具体可以通过预设的预测模型从所有用户特征向量(或所有项目特征向量)中推断簇的数量，即推断出k的值，所述预设的预测模型可以为DPMM(Dirichlet Process Mixture Model，狄利克雷过程混合模型)。

可选的，服务器还可以基于DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，具有噪声的基于密度的聚类方法)等聚类算法对用户特征向量和项目特征向量进行聚类，本发明实施例不对聚类算法进行限定。由于聚类过程的计算量较大，所以无需每次对用户进行推荐时都进行聚类，即可以预先进行离线聚类，以保存聚类得到的所有用户簇和所有项目簇，以便于后续可以直接提取所保存的用户簇和项目簇以进行实时推荐(由于在推荐处理过程中无需进行聚类计算，所以可以缩短处理时长，以满足推荐的实时性)。可选的，为了保持用户评分对用户兴趣特征贡献度随时间衰减的特性，并为了将新用户添加到对应的用户簇，并将新项目添加到对应的项目簇，可以定时或定量(定量是指新增的用户数量达到数量阈值或新增的项目数量达到数量阈值时触发更新操作)的更新用户特征向量和项目特征向量，并对更新后的用户特征向量和项目特征向量进行重新聚类，以更新用户簇和项目簇，以保证后续的推荐的准确性。

S202，根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户；

具体的，若当前要对目标用户进行项目推荐，则可以获取目标用户对应的用户特征向量，目标用户对应的用户特征向量可以是在当前重新计算得到的，或者也可以是指上述S201中在聚类过程中所生成的目标用户对应的用户特征向量。

服务器还可以从所有用户簇中查找目标用户所属的用户簇，并将目标用户所属的用户簇中除了目标用户以外的用户，确定为待处理用户。服务器可以分别计算目标用户与每个待处理用户之间的用户相似度值，并根据用户相似度值从所有待处理用户中选择若干与目标用户最为相似的待处理用户，并作为目标用户对应的邻居用户，即目标用户与每个邻居用户之间的用户兴趣十分接近。

以某个待处理用户为例，计算目标用户与该待处理用户之间的用户相似度值的具体过程可以为：获取目标用户与该待处理用户之间的项目属性交集，并根据目标用户与该待处理用户分别对应的用户特征向量中与项目属性交集相关联的元素、目标用户与该待处理用户分别对应的用户特征向量中所有元素的平均值，计算目标用户与该待处理用户之间的用户相似度值。其中，项目属性交集是指目标用户所评价过的项目对应的项目属性与该待处理用户所评价过的项目对应的项目属性之间的交集，即项目属性交集包含目标用户所评价过的项目和该待处理用户所评价过的项目中共同具备的项目属性。

基于上述的计算用户相似度值的方法，可以计算出目标用户所属的用户簇中的每个待处理用户分别与目标用户之间的用户相似度值，再按照用户相似度值从高至低的顺序对所有待处理用户进行排序，将排序序号小于第一数量阈值的待处理用户确定为满足用户相似度条件的用户，并将满足用户相似度条件的用户确定为目标用户对应的邻居用户。其中，排序序号越小的待处理用户，所对应的用户相似度值越大，例如，按照用户相似度值从高到低的顺序对5个待处理用户进行排序，其排序顺序为u₁、u₃、u₅、u₂、u₄，则u₁对应的排列序号为1，u₃对应的排列序号为2，u₅对应的排列序号为3，u₂对应的排列序号为4，u₄对应的排列序号为5，若第一数量阈值为4，则确定排序序号为1至3的3名待处理用户(即u₁、u₃、u₅)为满足用户相似度条件的用户，进而可以将u₁、u₃、u₅确定为目标用户对应的邻居用户，即将用户相似度值排在前3高的待处理用户确定为目标用户对应的邻居用户。

S203，将所述目标用户所评价过的项目和所述邻居用户所评价过的项目均确定为目标项目，并根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目；

具体的，服务器可以将目标用户所评价过的所有项目、目标用户对应的邻居用户所评价过的所有项目均确定为目标项目，并将所有目标项目添加到项目集I_u，并假设项目集I_u中的任意一个目标项目为i_k，获取一个目标项目i_k对应的邻居项目的具体过程可以为：将目标项目i_k所属的项目簇中除了i_k以外的项目，均确定为待匹配项目，将任意一个待匹配项目设为i_j，获取i_k与i_j之间的项目属性并集，并根据i_k与i_j分别对应的项目特征向量中与所述项目属性并集相关联的元素，计算所述目标项目与所述待匹配项目之间的项目相似度值；所述项目属性并集是指i_k对应的项目属性与i_j对应的项目属性之间的并集；基于同样的方法计算得到i_k与其他每个待匹配项目之间的项目相似度值，再按照项目相似度值从高至低的顺序对所有待匹配项目进行排序，将排序序号小于第二数量阈值的待匹配项目确定为满足项目相似度条件的项目，并将满足项目相似度条件的项目确定为i_k对应的邻居项目。其中，排序序号越小的待匹配项目，所对应的项目相似度值越大，例如，按照项目相似度值从高到低的顺序对5个待匹配项目进行排序，其排序顺序为i₁、i₃、i₅、i₂、i₄，则i₁对应的排列序号为1，i₃对应的排列序号为2，i₅对应的排列序号为3，i₂对应的排列序号为4，i₄对应的排列序号为5，若第二数量阈值为4，则确定排序序号为1至3的3个待匹配项目(即i₁、i₃、i₅)为满足项目相似度条件的项目，进而可以将i₁、i₃、i₅确定为目标项目i_k对应的邻居项目，即将项目相似度值排在前3高的待匹配项目确定为目标项目i_k对应的邻居项目。基于上述的邻居项目获取方法，可以获取其他目标项目对应的邻居项目。

S204，在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目；

具体的，在获取到每个目标项目分别对应的邻居项目后，可以将所有目标项目和每个目标项目分别对应的邻居项目均添加至待推荐项目集，再去除待推荐项目集中已被目标用户评价过的项目，再将待推荐项目集中剩余的每个项目均确定为待推荐项目，计算目标用户与每个待推荐项目之间的预测评分，并按照预测评分从高至低的顺序对所有待推荐项目进行排序，将排序序号小于第三数量阈值的待推荐项目确定为目标用户对应的推荐项目。其中，排序序号越小的待推荐项目，所对应的预测评分越高，例如，按照预测评分从高到低的顺序对5个待推荐项目进行排序，其排序顺序为i₁、i₃、i₅、i₂、i₄，则i₁对应的排列序号为1，i₃对应的排列序号为2，i₅对应的排列序号为3，i₂对应的排列序号为4，i₄对应的排列序号为5，若第三数量阈值为4，则确定排序序号为1至3的3个待推荐项目(即i₁、i₃、i₅)为目标用户对应的推荐项目，即将预测评分排在前3高的待推荐项目确定为目标用户对应的推荐项目。服务器再将目标用户对应的推荐项目推送到目标用户对应的客户端，由于在推荐处理过程中考虑到了用户对项目的评分、用户评分对用户兴趣特征贡献度随时间衰减的特性、项目本身的项目属性，所以最终所选择出的推荐项目将会与用户所期望的项目十分相似，即提高了推荐的准确性。

请参见图3，是本发明实施例提供的另一种数据推荐方法的流程示意图，所述方法可以包括：

S301，获取所有用户簇和所有项目簇；

具体的，服务器可以存储有原始项目集合和原始用户集合，原始项目集合中的所有项目可以包括由服务器和/或CP所提供的多媒体数据，例如，电影、游戏、文章、歌曲等多媒体数据。原始用户集合中的所有用户可以包括对原始项目集合中的至少一个项目进行过评分的用户，例如，若某个用户对原始项目集合中的某一部电影进行评分(如10分制，该用户打了9分)，则服务器可以将该用户添加到原始用户集合中，并保存该评分结果(即该用户对该电影所评的9分)。

其中，原始用户集合可以为U＝{u₁、u₂、…、u_m}，m为原始用户集合中的用户数量；原始项目集合可以为I＝{i₁、i₂、…、i_y}，y为原始项目集合中的项目数量；原始项目集合中的所有项目所对应的项目属性的集合可以用项目属性集合A表示，A＝{a₁、a₂、…、a_r}，r为项目属性的数量，项目属性也可以理解为项目标签，例如，a₁为喜剧标签，a₂为潮流标签等等。其中，原始项目集合中的所有项目对应的项目属性可以用项目属性矩阵A_y×r进行表征，即项目属性矩阵可以为：其中，A_y×r中的任意一个元素A_kj(y≥k≥1，r≥j≥1)若为1，则表示项目i_k包含项目属性a_j；A_kj若为0，则表示项目i_k不包含项目属性a_j。其中，原始用户集合中的所有用户对项目的评分可以以用户评分矩阵R_m×y进行表征，即用户评分矩阵可以为:其中，R_m×y中的任意一个元素R_kj(m≥k≥1，y≥j≥1)可以表示为用户u_k对项目i_j的评分。因此，假设用户u_k所评价过的项目有s个，那么可以从A_y×r中获取这s个项目对应的目标项目属性矩阵(A_k)_s×r，且且可以从R_m×y中获取用户u_k对这s个项目的评分，并根据用户u_k对这s个项目的评分建立用户u_k对应的评分对角矩阵(Λ_k)_s×s＝iag(R_k1,_k2,…,_ks)，且R_ks即表示为用户u_k对i_s的评分。

服务器还可以预先提供一个时间衰减函数f(t)，将f(t)添加到用户u_k对应的评分对角矩阵(Λ_k)_s×s，得到用户u_k对应的评分衰减对角矩阵(Φ_k)_s×s，(Φ_k)_s×s可以体现出用户评分对用户兴趣特征贡献度随时间衰减的特性，其中，f(t)＝^-λt(t≥0)，(Φ_k)_s×s＝iag(f(t₁)R_k1,f(t₂)R_k2,…,f(t_s)R_ks)，其中，(Φ_k)_s×s中的t₁可以表示为当前时间戳(当前时间戳可以是指当前生成用户簇的时间戳，或当前要对用户u_k进行推荐的时间戳)与用户u_k对项目i₁的评分时间戳之间的差值，t₂可以表示为当前时间戳与用户u_k对项目i₂的评分时间戳之间的差值，以此类推，t_s可以表示为当前时间戳与用户u_k对项目i_s的评分时间戳之间的差值。服务器再根据用户u_k对应的评分衰减对角矩阵(Φ_k)_s×s和用户u_k对应的目标项目属性矩阵(A_k)_s×r，生成用户u_k对应的用户特征矩阵(Ψ_k)_s×r，且(Ψ_k)_s×r＝(Φ_k)_s×s·(A_k)_s×r，再将u_k对应的用户特征矩阵(Ψ_k)_s×r转换为用户u_k对应的用户特征向量(Γ_k)_1×r，且(Γ_k)_1×r＝1/s[1,1,…,1]_1×s·(Ψ_k)_s×r，基于同样的方法，可以计算出原始用户集合中每个用户对应的用户特征向量，由于用户特征向量不仅包含用户对项目的评分这一维度，且用户特征向量还可以包括用户评分对用户兴趣特征贡献度随时间衰减的特性以及用户所评价过的项目对应的项目属性这两大维度，从而可以多维度的刻画用户的特征，即用户特征向量可以更加准确的体现用户的特征，以提高后续的推荐精度。

针对原始项目集合中的任意一个项目i_j，服务器可以从项目属性矩阵A_y×r中提取与项目i_j相关联的元素，并将这些元素组合为项目i_j对应的项目特征向量Θ_j＝A_j1,A_j2,…,A_jr]，其中，项目特征向量Θ_j中的任意一个元素A_jk(r≥k≥1)若为1，则表示项目i_j包含项目属性a_k；元素A_jk若为0，则表示项目i_j不包含项目属性a_k。基于同样的方法，可以得到原始项目集合中每个项目对应的项目特征向量。

服务器再通过对每个用户对应的用户特征向量进行聚类，可以将原始用户集合中的用户划分到不同的用户簇中；服务器还可以通过对每个项目对应的项目特征向量进行聚类，可以将原始项目集合中的项目划分到不同的项目簇中。其中，通过聚类生成用户簇和项目簇的具体过程可以参见上述图2对应实施例中的S201，这里不再进行赘述。

S302，将目标用户所属的用户簇中除了所述目标用户以外的用户，确定为待处理用户，并获取所述目标用户与所述待处理用户分别对应的用户特征向量；

具体的，若服务器此时要为目标用户选择推荐项目，则服务器可以将目标用户所属的用户簇中除了目标用户以外的用户，确定为待处理用户，并获取目标用户与待处理用户分别对应的用户特征向量。其中，服务器可以从S301中用于进行聚类的所有用户特征向量中，选择出目标用户与待处理用户分别对应的用户特征向量。或者，服务器也可以在当前重新生成目标用户与待处理用户分别对应的用户特征向量。以重新生成目标用户对应的用户特征向量为例，服务器可以根据所述目标用户所评价过的项目，建立所述目标用户对应的评分对角矩阵；所述评分对角矩阵包括目标用户所评价过的每个项目的评分数据，并将时间衰减函数分别与评分对角矩阵中每个项目的评分数据进行相乘，得到评分衰减对角矩阵；时间衰减函数包括与待相乘的项目相关联的衰减时间参数，衰减时间参数是目标用户对应的选定推荐时间戳与目标用户对待相乘的项目的评分时间戳之间的差值，并在原始项目集合对应的项目属性矩阵中，获取目标用户所评价过的项目对应的目标项目属性矩阵，并根据目标项目属性矩阵和评分衰减对角矩阵，生成用户特征矩阵，并将用户特征矩阵转换为目标用户对应的用户特征向量。若目标用户为u_k，则对应的用户特征向量(Γ_k)_1×r即为上述S301中的(Γ_k)_1×r＝1/s[1,1,…,1]_1×s·(Ψ_k)_s×r；(Ψ_k)_s×r即为目标用户对应的用户特征矩阵，且(Ψ_k)_s×r＝(Φ_k)_s×s·(A_k)_s×r，(Φ_k)_s×s即为目标用户对应的评分衰减对角矩阵，(A_k)_s×r即为目标用户所评价过的项目对应的目标项目属性矩阵，其中，(Φ_k)_s×s是由目标用户对应的评分对角矩阵(Λ_k)_s×s＝iag(R_k1,R_k2,…,R_ks)和时间衰减函数f(t)计算得到的，即(Φ_k)_s×s＝diag(f(t₁)R_k1,f(t₂)R_k2,…,f(t_s)R_ks)，若用户特征向量(Γ_k)_1×r是当前时刻生成的，则(Φ_k)_s×s中的t_s可以表示为当前时刻与目标用户对项目i_s的评分时间戳之间的差值。基于同样的方式，可以在当前时刻重新生成待处理用户分别对应的用户特征向量。

S303，获取所述目标用户与所述待处理用户之间的项目属性交集，并根据所述目标用户与所述待处理用户分别对应的用户特征向量中与所述项目属性交集相关联的元素、所述目标用户与所述待处理用户分别对应的用户特征向量中所有元素的平均值，计算所述目标用户与所述待处理用户之间的用户相似度值；

具体的，服务器还可以从所有用户簇中查找目标用户所属的用户簇，并将目标用户所属的用户簇中除了目标用户以外的用户，确定为待处理用户。服务器可以分别计算目标用户与每个待处理用户之间的用户相似度值，并根据用户相似度值从所有待处理用户中选择若干与目标用户最为相似的待处理用户，并作为目标用户对应的邻居用户，即目标用户与每个邻居用户之间的用户兴趣十分接近。

以某个待处理用户为例，计算目标用户与该待处理用户之间的用户相似度值的具体过程可以为：获取目标用户与该待处理用户之间的项目属性交集，并根据目标用户与该待处理用户分别对应的用户特征向量中与项目属性交集相关联的元素、目标用户与该待处理用户分别对应的用户特征向量中所有元素的平均值，计算目标用户与该待处理用户之间的用户相似度值。其中，项目属性交集是指目标用户所评价过的项目对应的项目属性与该待处理用户所评价过的项目对应的项目属性之间的交集，即项目属性交集包含目标用户所评价过的项目和该待处理用户所评价过的项目中共同具备的项目属性。其中，计算用户相似度值的公式可以具体为：其中，sim_u(k,j)即为目标用户u_k与该待处理用户u_j之间的用户相似度值，H_kj表示目标用户u_k和该待处理用户u_j之间的项目属性交集，a_v是指H_kj中的一个项目属性，D_kv是指目标用户u_k对应的用户特征向量中与项目属性a_v相关联的元素，D_jv是指该待处理用户u_j对应的用户特征向量中与项目属性a_v相关联的元素，是指目标用户u_k对应的用户特征向量中的所有元素的平均值，是指该待处理用户u_j对应的用户特征向量中的所有元素的平均值，例如，目标用户u_k对应的用户特征向量为(a，b，c，d，e)，则由于是基于用户特征向量计算用户相似度值，所以可以通过用户特征向量所包含的用户对项目的评分、用户评分对用户兴趣特征贡献度随时间衰减的特性、用户所评价过的项目对应的项目属性这三大维度，以提高用户相似度值的准确性，而且在评分数据比较稀疏的情况下，也可以通过用户所评价过的项目对应的项目属性这一维度来提高用户相似度值的准确性。基于上述的计算用户相似度值的公式，可以计算出目标用户所属的用户簇中的每个待处理用户分别与目标用户之间的用户相似度值。

S304，按照所述用户相似度值从高至低的顺序对所有所述待处理用户进行排序，将排序序号小于第一数量阈值的所述待处理用户确定为满足用户相似度条件的用户，并将满足用户相似度条件的用户确定为所述目标用户对应的邻居用户；

具体的，服务器在计算出目标用户所属的用户簇中的每个待处理用户分别与目标用户之间的用户相似度值后，可以按照用户相似度值从高至低的顺序对所有待处理用户进行排序，将排序序号小于第一数量阈值的待处理用户确定为满足用户相似度条件的用户，并将满足用户相似度条件的用户确定为目标用户对应的邻居用户。其中，排序序号越小的待处理用户，所对应的用户相似度值越大。

进一步的，请一并参见图4a，是本发明实施例提供的一种选择邻居用户的场景示意图。如图4a所示，目标用户为用户u_k，用户u_k在用户簇a1中，用户簇a1包括：用户u_k、用户u₁、用户u₂、用户u₃、用户u₄、用户u₅(用户u₁、用户u₂、用户u₃、用户u₄、用户u₅均属于待处理用户)；计算用户u_k和用户u₁之间的用户相似度值、用户u_k和用户u₂之间的用户相似度值、用户u_k和用户u₃之间的用户相似度值、用户u_k和用户u₄之间的用户相似度值、用户u_k和用户u₅之间的用户相似度值，按照用户相似度值从高到低的顺序对5个待处理用户进行排序，其排序顺序为用户u₁、用户u₃、用户u₅、用户u₂、用户u₄，则用户u₁对应的排列序号为1，用户u₃对应的排列序号为2，用户u₅对应的排列序号为3，用户u₂对应的排列序号为4，用户u₄对应的排列序号为5，若第一数量阈值为4，则确定排序序号为1至3的3名待处理用户(即用户u₁、用户u₃、用户u₅)为满足用户相似度条件的用户，进而可以将用户u₁、用户u₃、用户u₅确定为用户u_k对应的邻居用户，即将用户相似度值排在前3高的待处理用户确定为目标用户对应的邻居用户。

S305，将所述目标项目所属的项目簇中除了所述目标项目以外的项目，确定为待匹配项目，并获取所述目标项目与所述待匹配项目分别对应的项目特征向量；

具体的，服务器可以将目标用户所评价过的所有项目、目标用户对应的邻居用户所评价过的所有项目均确定为目标项目，并将所有目标项目添加到项目集I_u，并假设项目集I_u中的任意一个目标项目为i_k，并将目标项目i_k所属的项目簇中除了i_k以外的项目，均确定为待匹配项目，服务器还可以从上述S301中用于进行聚类的所有项目特征向量中，获取所述目标项目i_k与所述待匹配项目分别对应的项目特征向量。其中，生成目标项目i_k对应的项目特征向量的过程可以为：在所述原始项目集合对应的项目属性矩阵中提取与所述目标项目相关联的元素，并将所述目标项目相关联的元素组合为所述目标项目对应的项目特征向量，具体可以参见上述S301中生成项目特征向量的过程。

S306，获取所述目标项目与所述待匹配项目之间的项目属性并集，并根据所述目标项目与所述待匹配项目分别对应的项目特征向量中与所述项目属性并集相关联的元素，计算所述目标项目与所述待匹配项目之间的项目相似度值；

具体的，计算一个目标项目i_k与任意一个待匹配项目i_j之间的项目相似度值的过程可以为：获取i_k与i_j之间的项目属性并集，并根据i_k与i_j分别对应的项目特征向量中与所述项目属性并集相关联的元素，计算所述目标项目与所述待匹配项目之间的项目相似度值；所述项目属性并集是指i_k对应的项目属性与i_j对应的项目属性之间的并集。其中，计算i_k与i_j之间的项目相似度值的公式可以为：其中，sim_i(k,j)是指i_k与i_j之间的项目相似度值，S_kj是指i_k与i_j之间的项目属性并集(即i_k对应的项目属性与i_j对应的项目属性之间的并集)，例如，i_k所具有的项目属性包括a、b、c，i_j所具有的项目属性包括b、c、g，则i_k与i_j之间的项目属性并集包含a、b、c、g；S_k是指i_k所具有的项目属性的集合，S_j是指i_j所具有的项目属性的集合，a_v是指某一个项目属性，a_v∈S_kj即指S_kj中的某一个项目属性，a_v∈S_k即指S_k中的某一个项目属性，a_v∈S_j即指S_j中的某一个项目属性；A_kv是指i_k是否包含项目属性a_v，若A_kv为1，则i_k包含项目属性a_v，若A_kv为0，则i_k不包含项目属性a_v；A_jv是指i_j是否包含项目属性a_v，若A_jv为1，则i_j包含项目属性a_v，若A_jv为0，则i_j不包含项目属性a_v。基于上述的计算项目相似度值的公式，可以计算出目标项目i_k所属的项目簇中的每个待匹配项目分别与目标项目i_k之间的项目相似度值。

S307，按照所述项目相似度值从高至低的顺序对所有所述待匹配项目进行排序，将排序序号小于第二数量阈值的所述待匹配项目确定为满足项目相似度条件的项目，并将满足项目相似度条件的项目确定为所述目标项目对应的邻居项目；

具体的，服务器在计算出每个待匹配项目分别与目标项目i_k之间的项目相似度值后，可以按照项目相似度值从高至低的顺序对所有待匹配项目进行排序，将排序序号小于第二数量阈值的待匹配项目确定为满足项目相似度条件的项目，并将满足项目相似度条件的项目确定为目标项目i_k对应的邻居项目。其中，排序序号越小的待匹配项目，所对应的项目相似度值越大。

进一步的，请一并参见图4b，是本发明实施例提供的一种选择邻居项目的场景示意图。如图4b所示，目标项目为项目i_k，项目i_k在项目簇b1中，项目簇b1包括：项目i_k、项目i₁、项目i₂、项目i₃、项目i₄、项目i₅(项目i₁、项目i₂、项目i₃、项目i₄、项目i₅均属于待匹配项目)；计算项目i_k和项目i₁之间的项目相似度值、项目i_k和项目i₂之间的项目相似度值、项目i_k和项目i₃之间的项目相似度值、项目i_k和项目i₄之间的项目相似度值、项目i_k和项目i₅之间的项目相似度值，按照项目相似度值从高到低的顺序对5个待处理项目进行排序，其排序顺序为项目i₁、项目i₃、项目i₅、项目i₂、项目i₄，则项目i₁对应的排列序号为1，项目i₃对应的排列序号为2，项目i₅对应的排列序号为3，项目i₂对应的排列序号为4，项目i₄对应的排列序号为5，若第一数量阈值为4，则确定排序序号为1至3的3名待处理项目(即项目i₁、项目i₃、项目i₅)为满足项目相似度条件的项目，进而可以将项目i₁、项目i₃、项目i₅确定为项目i_k对应的邻居项目，即将项目相似度值排在前3高的待处理项目确定为目标项目对应的邻居项目。基于上述的邻居项目获取方法，可以获取其他目标项目对应的邻居项目。

S308，在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，并将所述待推荐项目集中的每个项目均确定为待推荐项目；

具体的，在获取到每个目标项目分别对应的邻居项目后，可以将所有目标项目和每个目标项目分别对应的邻居项目均添加至待推荐项目集，再去除待推荐项目集中已被目标用户u_k评价过的项目，再将待推荐项目集中剩余的每个项目均确定为待推荐项目。

S309，计算目标用户与每个待推荐项目之间的预测评分；

具体的，若某一个待推荐项目为具有评分的项目(即有至少一个用户对该待推荐项目进行过评分)，则服务器可以根据目标用户u_k分别与每个邻居用户之间的用户相似度值、目标用户u_k和每个邻居用户分别对应的用户评分均值、每个邻居用户分别对该待推荐项目的评分，计算目标用户u_k与该待推荐项目之间的预测评分；用户评分均值是指一个用户对所评价过的项目的评分的平均值。其中，目标用户u_k对应的用户评分均值是指目标用户u_k对所评价过的项目的评分的平均值，例如，目标用户u_k对项目i₁的评分为8，对项目i₃的评分为9，对项目i₄的评分为10，则目标用户u_k对应的用户评分均值为(8+9+10)/3＝9。其中，某个邻居用户对应的用户评分均值是指该邻居用户对所评价过的项目的评分的平均值。假设具有评分的待推荐项目为i_s，则计算目标用户u_k与待推荐项目i_s之间的预测评分的公式为：其中，P(u_k,i_s)表示目标用户u_k与待推荐项目i_s之间的预测评分，W_k是指目标用户u_k对应的所有邻居用户的集合，j∈W_k是指W_k集合中的任意一个邻居用户u_j，sim_u(k,j)是指目标用户u_k与邻居用户u_j之间的用户相似度值，是指目标用户u_k对应的用户评分均值，是指邻居用户u_j对应的用户评分均值，R_js是指邻居用户u_j对待推荐项目i_s的评分。在该计算预测评分的公式中不仅考虑了邻居用户对待推荐项目i_s的影响，同时还通过目标用户u_k与每个邻居用户之间的用户相似度值，控制每个邻居用户对待推荐项目i_s的影响权重，从而可以提高预测评分的准确性；而且由于用户相似度值是与用户对项目的评分、用户评分对用户兴趣特征贡献度随时间衰减的特性、用户所评价过的项目对应的项目属性这三大维度相关联，所以基于用户相似度值所计算出的预测评分可以具有更高的准确性。

若某一个待推荐项目为未具有评分的项目(即没有用户对该待推荐项目进行过评分，如该待推荐项目可能是新项目)，则服务器可以根据该待推荐项目对应的每个邻居项目分别与该待推荐项目之间的项目相似度值、该待推荐项目对应的每个邻居项目分别对应的项目评分均值、目标用户u_k对应的用户评分均值、所有项目评分均值的平均值，计算目标用户u_k与该待推荐项目之间的预测评分；项目评分均值是指一个项目所具有的所有评分的平均值。其中，目标用户u_k对应的用户评分均值是指目标用户u_k对所评价过的项目的评分的平均值。该待推荐项目对应的某个邻居项目对应的项目评分均值，可以是指该邻居项目所具有的所有评分的平均值，例如，该邻居项目被3名用户评过分(每个用户对该邻居项目只进行一次评分)，即该邻居项目具有3个评分，分别为8分、9分、10分，则该邻居项目对应的项目评分均值为(8+9+10)/3＝9。所有项目评分均值的平均值可以是指：该待推荐项目对应的每个邻居项目分别对应的项目评分均值的平均值；例如，该待推荐项目对应有9个邻居项目，即有9个项目评分均值，求这9个项目评分均值的平均值(即所有项目评分均值的平均值)。假设未具有评分的待推荐项目为i_k，则计算目标用户u_k与待推荐项目i_k之间的预测评分的公式可以为：其中，P(u_k,i_k)是指目标用户u_k与待推荐项目i_k之间的预测评分，是指目标用户u_k对应的用户评分均值，Corr_k是指待推荐项目i_k对应的邻居项目的集合，i_v∈Corr_k是指Corr_k集合中的任意一个邻居项目i_v，sim_i(k,v)是指待推荐项目i_k与邻居项目i_v之间的项目相似度值，是指邻居项目i_v对应的项目评分均值，是指Corr_k中的所有邻居项目对应的项目评分均值的平均值。针对因新项目或用户评分数据过于稀疏而导致项目不具有评分的情况，依然可以通过P(u_k,i_k)计算出这些不具有评分的项目对应的预测评分，在计算预测评分的过程中不仅考虑到邻居项目对不具有评分的项目的影响，还考虑到与邻居项目之间的项目相似度值对不具有评分的项目的影响权重，从而可以提高所计算出的预测评分的准确性。

因此，可以将所有待推荐项目分为两类，一类为具有评分的项目，另一类为不具有评分的项目，进而可以根据两类项目分别对应的预测评分计算公式，计算出每个待推荐项目分别对应的预测评分。

S310，按照所述预测评分从高至低的顺序对所有所述待推荐项目进行排序，将排序序号小于第三数量阈值的所述待推荐项目确定为所述目标用户对应的推荐项目；

具体的，在计算出每个待推荐项目分别对应的预测评分后，可以按照预测评分从高至低的顺序对所有待推荐项目进行排序，将排序序号小于第三数量阈值的待推荐项目确定为目标用户对应的推荐项目。其中，排序序号越小的待推荐项目，所对应的预测评分越高。

进一步的，请一并参见图4c，是本发明实施例提供的一种选择推荐项目的场景示意图。如图4c所示，假设目标用户为用户u_k，待推荐项目集包括5个待推荐项目，分别为项目i₁、项目i₂、项目i₃、项目i₄、项目i₅，则可以计算用户u_k和项目i₁之间的预测评分、用户u_k和项目i₂之间的预测评分、用户u_k和项目i₃之间的预测评分、用户u_k和项目i₄之间的预测评分、用户u_k和项目i₅之间的预测评分，按照预测评分从高到低的顺序对5个待推荐项目进行排序，其排序顺序为项目i₁、项目i₃、项目i₅、项目i₂、项目i₄，则项目i₁对应的排列序号为1，项目i₃对应的排列序号为2，项目i₅对应的排列序号为3，项目i₂对应的排列序号为4，项目i₄对应的排列序号为5，若第一数量阈值为4，则确定排序序号为1至3的3名待推荐项目(即项目i₁、项目i₃、项目i₅)为推荐项目，即将预测评分排在前3高的待推荐项目确定为目标用户对应的推荐项目。

服务器再将目标用户对应的推荐项目推送到目标用户对应的客户端，由于在推荐处理过程中考虑到了用户对项目的评分、用户评分对用户兴趣特征贡献度随时间衰减的特性、项目本身的项目属性，所以最终所选择出的推荐项目将会与用户所期望的项目十分相似，即提高了推荐的准确性。而且在新项目或用户评分数据过于稀疏而导致项目不具有评分的情况，可以通过项目属性提高用户特征向量刻画用户画像的准确性，也可以通过项目属性和邻居项目的概念准确计算出不具有评分的项目对应的预测评分。本发明所提供的推荐方法可以很好的应用到新闻及电影等内容的个性化推荐上，为用户提供更好的使用体验。

本发明实施例为更好的反映用户兴趣变化，引入了时间衰减函数对用户评分进行处理；而且通过组合使用用户评分时间衰减结果和项目属性表征用户特征向量，可以缓解数据稀疏的问题并可多维度刻画用户的特征；而且通过聚类技术，分别对用户和项目进行聚类，可以减小邻居用户和邻居项目的查询范围，并通过项目属性和邻居项目的概念可以解决如何计算新项目对应的预测评分的问题；而且在聚类基础上寻找邻居用户和邻居项目，也扩充了待推荐项目集，即待推荐项目集不仅可以包括邻居用户所评价过的项目，还可以包括目标项目对应的邻居项目，因此，尽管在用户所评价过的项目的数量过少的情况下，也可以通过目标项目对应的邻居项目扩充待推荐项目集中的项目数量，从而可以提高算法精度。由于在整个推荐处理过程中考虑到了用户对项目的评分、用户评分对用户兴趣特征贡献度随时间衰减的特性、项目本身的项目属性，所以最终所选择出的推荐项目将会与用户所期望的项目十分相似，即提高了推荐的准确性。

请参见图5，是本发明实施例提供的一种数据推荐装置的结构示意图。如图5所示的数据推荐装置1可以包括：簇获取模块10、用户获取模块20、项目获取模块30、推荐计算模块40、矩阵计算模块50、用户向量生成模块60、项目向量生成模块70、第一聚类模块80、第二聚类模块90；

簇获取模块10，用于获取所有用户簇和所有项目簇；所述用户簇是通过对原始用户集合中每个用户对应的用户特征向量进行聚类得到，所述项目簇是通过对原始项目集合中每个项目对应的项目特征向量进行聚类得到；

用户获取模块20，用于根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户；

项目获取模块30，用于将所述目标用户所评价过的项目和所述邻居用户所评价过的项目均确定为目标项目，并根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目；

推荐计算模块40，用于在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目。

其中，簇获取模块10、用户获取模块20、项目获取模块30、推荐计算模块40的具体实现方式可以参见上述图2对应实施例中的S201-S204，这里不再进行赘述。

其中，矩阵计算模块50，用于根据所述目标用户所评价过的项目，建立所述目标用户对应的评分对角矩阵；所述评分对角矩阵包括所述目标用户所评价过的每个项目的评分数据；

所述矩阵计算模块50，还用于将时间衰减函数分别与所述评分对角矩阵中每个项目的评分数据进行相乘，得到评分衰减对角矩阵；所述时间衰减函数包括与待相乘的项目相关联的衰减时间参数，所述衰减时间参数是所述目标用户对应的选定推荐时间戳与所述目标用户对待相乘的项目的评分时间戳之间的差值；

用户向量生成模块60，用于在所述原始项目集合对应的项目属性矩阵中，获取所述目标用户所评价过的项目对应的目标项目属性矩阵，并根据所述目标项目属性矩阵和所述评分衰减对角矩阵，生成用户特征矩阵，并将所述用户特征矩阵转换为所述目标用户对应的用户特征向量；

其中，矩阵计算模块50、用户向量生成模块60的具体实现方式可以参见上述图3对应实施例中的S301-S302，这里不再进行赘述。

项目向量生成模块70，用于在所述原始项目集合对应的项目属性矩阵中提取与所述目标项目相关联的元素，并将所述目标项目相关联的元素组合为所述目标项目对应的项目特征向量；

其中，项目向量生成模块70的具体实现方式可以参见上述图3对应实施例中的S301和S305，这里不再进行赘述。

其中，第一聚类模块80，用于设置多个第一聚类中心向量，分别计算所述原始用户集合中每个用户对应的用户特征向量与所述多个第一聚类中心向量之间的第一向量距离；

所述第一聚类模块80，还用于根据所述第一向量距离，确定各用户特征向量与各第一聚类中心向量之间的映射关系，并将映射有相同第一聚类中心向量的用户特征向量所对应的用户划分至相同的用户簇中；

其中，所述用户簇的数量与所述第一聚类中心向量的数量相同；

第二聚类模块90，用于设置多个第二聚类中心向量，分别计算所述原始项目集合中每个项目对应的项目特征向量与所述多个第二聚类中心向量之间的第二向量距离；

所述第二聚类模块90，还用于根据所述第二向量距离，确定各项目特征向量与各第二聚类中心向量之间的映射关系，并将映射有相同第二聚类中心向量的项目特征向量所对应的项目划分至相同的项目簇中；

其中，第一聚类模块80和第二聚类模块90的具体实现方式可以参见上述图2对应实施例中的S201，这里不再进行赘述。

进一步的，如图5所示，上述的用户获取模块20可以包括：用户确定单元201、用户计算单元202；

用户确定单元201，用于将目标用户所属的用户簇中除了所述目标用户以外的用户，确定为待处理用户，并获取所述目标用户与所述待处理用户分别对应的用户特征向量；

用户计算单元202，用于获取所述目标用户与所述待处理用户之间的项目属性交集，并根据所述目标用户与所述待处理用户分别对应的用户特征向量中与所述项目属性交集相关联的元素、所述目标用户与所述待处理用户分别对应的用户特征向量中所有元素的平均值，计算所述目标用户与所述待处理用户之间的用户相似度值；所述项目属性交集是指所述目标用户所评价过的项目对应的项目属性与所述待处理用户所评价过的项目对应的项目属性之间的交集；

所述用户确定单元201，还用于按照所述用户相似度值从高至低的顺序对所有所述待处理用户进行排序，将排序序号小于第一数量阈值的所述待处理用户确定为满足用户相似度条件的用户，并将满足用户相似度条件的用户确定为所述目标用户对应的邻居用户。

其中，用户确定单元201、用户计算单元202的具体实现方式可以参见上述图3对应实施例中的S302-S304，这里不再进行赘述。

进一步的，如图5所示，上述的项目获取模块30可以包括：第一项目确定单元301、项目计算单元302；

第一项目确定单元301，用于将所述目标项目所属的项目簇中除了所述目标项目以外的项目，确定为待匹配项目，并获取所述目标项目与所述待匹配项目分别对应的项目特征向量；

项目计算单元302，用于获取所述目标项目与所述待匹配项目之间的项目属性并集，并根据所述目标项目与所述待匹配项目分别对应的项目特征向量中与所述项目属性并集相关联的元素，计算所述目标项目与所述待匹配项目之间的项目相似度值；所述项目属性并集是指所述目标项目对应的项目属性与所述待匹配项目对应的项目属性之间的并集；

所述第一项目确定单元301，还用于按照所述项目相似度值从高至低的顺序对所有所述待匹配项目进行排序，将排序序号小于第二数量阈值的所述待匹配项目确定为满足项目相似度条件的项目，并将满足项目相似度条件的项目确定为所述目标项目对应的邻居项目。

其中，第一项目确定单元301、项目计算单元302的具体实现方式可以参见上述图3对应实施例中的S305-S307，这里不再进行赘述。

进一步的，如图5所示，上述的推荐计算模块40可以包括：第二项目确定单元401、评分计算单元402；

第二项目确定单元401，用于在所述目标项目和所述目标项目对应的邻居项目中去除所述目标用户所评价过的项目，得到待推荐项目集，并将所述待推荐项目集中的每个项目均确定为待推荐项目；

评分计算单元402，用于计算所述目标用户与每个所述待推荐项目之间的预测评分；

所述第二项目确定单元401，还用于按照所述预测评分从高至低的顺序对所有所述待推荐项目进行排序，将排序序号小于第三数量阈值的所述待推荐项目确定为所述目标用户对应的推荐项目。

其中，第二项目确定单元401的具体实现方式可以参见上述图3对应实施例中的S308和S310，这里不再进行赘述。

如图5所示，评分计算单元402可以包括：第一计算子单元4021、第二计算子单元4022；

第一计算子单元4021，用于若所述待推荐项目为具有评分的项目，则根据所述目标用户分别与每个所述邻居用户之间的用户相似度值、所述目标用户和每个所述邻居用户分别对应的用户评分均值、每个所述邻居用户分别对所述待推荐项目的评分，计算所述目标用户与所述待推荐项目之间的预测评分；所述用户评分均值是指一个用户对所评价过的项目的评分的平均值；

第二计算子单元4022，用于若所述待推荐项目为未具有评分的项目，则根据所述待推荐项目对应的每个邻居项目分别与所述待推荐项目之间的项目相似度值、所述待推荐项目对应的每个邻居项目分别对应的项目评分均值、所述目标用户对应的用户评分均值、所有所述项目评分均值的平均值，计算所述目标用户与所述待推荐项目之间的预测评分；所述项目评分均值是指一个项目所具有的所有评分的平均值。

其中，第一计算子单元4021、第二计算子单元4022的具体实现方式可以参见上述图3对应实施例中的S309，这里不再进行赘述。

请参见图6，是本发明实施例提供的另一种数据推荐装置的结构示意图。如图6所示，所述数据推荐装置1000可以应用于上述图1a和图1b中的服务器100。所述数据推荐装置1000可以包括：处理器1001和存储器1005，此外，所述数据推荐装置1000还可以包括：网络接口1004，用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图6所示的数据推荐装置1000中，网络接口1004可以与多个用户终端进行通信，以收集用户终端发送的评分结果，并可向用户终端发送推荐项目；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，处理器1001还可以执行以下步骤：

在一个实施例中，处理器1001在执行根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户时，具体执行以下步骤：

在一个实施例中，处理器1001在执行根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目时，具体执行以下步骤：

在一个实施例中，处理器1001在执行分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目时，具体执行以下步骤：

将所述待推荐项目集中的每个项目均确定为待推荐项目；

计算所述目标用户与每个所述待推荐项目之间的预测评分；

在一个实施例中，处理器1001在执行计算所述目标用户与每个所述待推荐项目之间的预测评分时，具体执行以下步骤：

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的数据推荐装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2至图3所对应实施例中对所述数据推荐方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据推荐方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，还包括：

4.如权利要求1所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，还包括：

6.如权利要求1所述的方法，其特征在于，所述根据目标用户对应的用户特征向量，在所述目标用户所属的用户簇中获取与所述目标用户之间的相似度满足用户相似度条件的用户，作为所述目标用户对应的邻居用户，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述目标项目对应的项目特征向量，在所述目标项目所属的项目簇中获取与所述目标项目之间的相似度满足项目相似度条件的项目，作为所述目标项目对应的邻居项目，包括：

8.如权利要求1所述的方法，其特征在于，所述分别计算所述目标用户与所述待推荐项目集中每个项目之间的预测评分，并根据所述预测评分在所述待推荐项目集中选择与所述目标用户对应的推荐项目，包括：

将所述待推荐项目集中的每个项目均确定为待推荐项目；

计算所述目标用户与每个所述待推荐项目之间的预测评分；

9.如权利要求8所述的方法，其特征在于，所述计算所述目标用户与每个所述待推荐项目之间的预测评分，包括：

10.一种数据推荐装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，还包括：

12.如权利要求10所述的装置，其特征在于，还包括：

13.一种数据推荐装置，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-9任一项所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-9任一项所述的方法。