CN104079960B

CN104079960B - 文件推荐方法和装置

Info

Publication number: CN104079960B
Application number: CN201310653411.6A
Authority: CN
Inventors: 尹程果
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2015-10-07
Anticipated expiration: 2033-12-05
Also published as: WO2015081915A1; CN104079960A; US20160286277A1; US9930419B2

Abstract

本发明公开了一种文件推荐方法和装置，属于网络技术领域。所述方法包括：根据历史播放记录所包含的用户标识与文件标识，以用户标识作为第一维度，以文件标识作为第二维度，构造二维矩阵；根据用户标识与文件标识之间的对应关系，向所述二维矩阵的元素位置填充元素，并进行矩阵分解，得到指定矩阵；基于按照所述第一维度划分得到的特征向量，对所述每个用户标识进行聚类处理，得到至少一个用户群；基于所述至少一个用户群，进行文件推荐。本发明通过根据历史播放记录包括的用户标识与文件标识之间的对应关系得到用户群，将喜好类似的用户标识划分至同一用户群，能够基于当前用户标识所属的指定用户群进行推荐，提高了推荐效率和推荐成功率。

Description

文件推荐方法和装置

技术领域

本发明涉及网络技术领域，特别涉及一种文件推荐方法和装置。

背景技术

在日常的线上活动中，用户时时刻刻都在面对着各种各样的信息，但却很难从中筛选出自己真正感兴趣的信息。为了便于用户的筛选，服务器可以根据用户的浏览记录、兴趣爱好等，为用户推荐其可能感兴趣的信息。

以视频为例，终端在播放视频时，将其他用户在观看该当前播放视频时点击最多的视频推荐给当前用户，即通过将其他用户的喜好类比当前用户的喜好，为当前用户推荐视频。

但这种方式并未考虑到当前用户与其他用户的喜好不同的情况，在当前用户与其他用户的喜好不同时，推荐成功率很低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种文件推荐方法和装置。所述技术方案如下：

第一方面，提供了一种文件推荐方法，所述方法包括：

根据历史播放记录所包含的用户标识与文件标识，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵；

根据所述历史播放记录中用户标识与文件标识之间的对应关系，向所述二维矩阵中与所述对应关系相应的元素位置填充元素；

对填充后的二维矩阵进行矩阵分解，得到指定矩阵；

按照所述第一维度对所述指定矩阵进行划分，得到每个用户标识对应的特征向量；

基于所述每个用户标识对应的特征向量，对所述每个用户标识进行聚类处理，得到至少一个用户群，每个用户群包括至少一个用户标识；

基于所述至少一个用户群，进行文件推荐。

第二方面，提供了一种文件推荐装置，所述装置包括：

矩阵构造模块，用于根据历史播放记录所包含的用户标识与文件标识，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵；

填充模块，用于根据所述历史播放记录中用户标识与文件标识之间的对应关系，向所述二维矩阵中与所述对应关系相应的元素位置填充元素；

矩阵分解模块，用于对填充后的二维矩阵进行矩阵分解，得到指定矩阵；

向量划分模块，用于按照所述第一维度对所述指定矩阵进行划分，得到每个用户标识对应的特征向量；

聚类模块，用于基于所述每个用户标识对应的特征向量，对所述每个用户标识进行聚类处理，得到至少一个用户群，每个用户群包括至少一个用户标识；

推荐模块，用于基于所述至少一个用户群，进行文件推荐。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法和装置，通过根据历史播放记录包括的用户标识与文件标识之间的对应关系得到用户群，能够将喜好类似的用户标识划分至同一用户群，使得在为当前用户标识推荐文件时，能够基于该当前用户标识所属的用户群进行推荐，而无需基于所有的用户标识进行推荐，考虑到了当前用户标识与其他用户标识的喜好，提高了推荐效率和推荐成功率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文件推荐方法的流程图；

图2是本发明实施例提供的一种文件推荐方法的流程图；

图3是本发明实施例提供的一种文件推荐装置结构示意图；

图4是本发明实施例提供的一种服务器结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种文件推荐方法的流程图。该发明实施例的执行主体为服务器，参见图1，所述方法包括：

101、根据历史播放记录所包含的用户标识与文件标识，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵。

102、根据该历史播放记录中用户标识与文件标识之间的对应关系，向该二维矩阵中与该对应关系相应的元素位置填充元素。

103、对填充后的二维矩阵进行矩阵分解，得到指定矩阵。

104、按照该第一维度对该指定矩阵进行划分，得到每个用户标识对应的特征向量。

105、基于该每个用户标识对应的特征向量，对该每个用户标识进行聚类处理，得到至少一个用户群，每个用户群包括至少一个用户标识。

106、基于该至少一个用户群，进行文件推荐。

本发明实施例提供的方法，通过根据历史播放记录包括的用户标识与文件标识之间的对应关系得到用户群，能够将喜好类似的用户标识划分至同一用户群，使得在为当前用户标识推荐文件时，能够基于该当前用户标识所属的用户群进行推荐，而无需基于所有的用户标识进行推荐，考虑到了当前用户标识与其他用户标识的喜好，提高了推荐效率和推荐成功率。

可选地，基于该至少一个用户群，进行文件推荐包括：

接收打开文件的指令，该打开文件的指令携带当前用户标识和当前文件标识；

根据每个用户群包括的用户标识，确定该当前用户标识所属的指定用户群，该每个用户群根据历史播放记录包括的用户标识与文件标识之间的对应关系得到；

根据该用户标识与文件标识之间的对应关系以及该指定用户群，确定待推荐的文件标识；

推荐确定的文件标识所指示的文件。

可选地，根据历史播放记录所包含的用户标识与文件标识，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵包括：

对于该历史播放记录中的每个用户标识，获取该用户标识对应的文件标识的数目；

当该用户标识对应的文件标识的数目超过预设数目时，将该用户标识获取为样本用户标识；

根据该历史播放记录所包含的样本用户标识与文件标识，以样本用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵。

可选地，根据该历史播放记录中用户标识与文件标识之间的对应关系，向该二维矩阵中与该对应关系相应的元素位置填充元素包括：

对于一个样本用户标识和一个文件标识，当该历史播放记录中保存有该样本用户标识与该文件标识之间的对应关系时，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，向该二维矩阵中，与该样本用户标识和该文件标识相应的元素位置填充第一预设阈值；

当向该历史播放记录中保存的所有样本用户标识和文件标识相应的元素位置均填充完成时，随机从该二维矩阵剩余的元素位置中选取与已填充第一预设阈值的元素位置相等数目的元素位置，向选取的元素位置填充第二预设阈值。

可选地，对填充后的二维矩阵进行矩阵分解，得到指定矩阵包括：

将已填充第一预设阈值的元素位置的权重确定为第一权重，将已填充该第二预设阈值的元素位置的权重确定为第二权重；

根据该第一权重和该第二权重，采用随机梯度下降算法SGD，对该二维矩阵进行奇异值分解SVD，得到U矩阵；

将该U矩阵作为该指定矩阵。

可选地，根据该第一权重和该第二权重，采用随机梯度下降算法SGD，对该二维矩阵进行奇异值分解SVD，得到U矩阵之后，该方法还包括：

根据预设保留维数，对该U矩阵的第二维度进行降维，将降维后的U矩阵作为该指定矩阵。

可选地，根据该用户标识与文件标识之间的对应关系以及该指定用户群，确定待推荐的文件标识包括：

根据该用户标识与文件标识之间的对应关系，确定每个文件标识在该指定用户群中所对应的用户标识的数目；

按照该确定的数目从大到小的顺序，确定预设数目的文件标识。

根据该指定用户群中的每个用户标识的特征向量，计算该指定用户群中除该当前用户标识之外的每个用户标识与该当前用户标识的相似度；

确定与该当前用户标识相似度最高的用户标识；

根据该用户标识与文件标识之间的对应关系，确定该相似度最高的用户标识所对应的文件标识。

可选地，该第一预设阈值为1，该第二预设阈值为0，且该第一权重大于该第二权重。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种文件推荐方法的流程图。该发明实施例的执行主体为服务器，参见图2，所述方法包括：

201、对于历史播放记录中的每个用户标识，该服务器获取该用户标识对应的文件标识的数目，该历史播放记录包括用户标识与文件标识之间的对应关系。

本发明实施例应用于该服务器基于根据该历史播放记录对用户标识进行分群后得到的用户群推荐文件的场景下。其中，该服务器可以为与该当前文件标识关联的服务器，或者为与该当前文件标识关联的服务器中的功能模块，本发明实施例对此不做限定。

在本发明实施例中，该服务器记录每个用户标识打开的文件，一旦某一用户标识打开了某一文件时，该服务器在该历史播放记录中建立该用户标识与所打开的文件标识之间的对应关系。进一步地，该历史播放记录可以为该服务器保存的预设时长内的历史播放记录，也即是，当该历史播放记录中任一条对应关系保留的时长已超过该预设时长时，将该保留的时长已超过该预设时长的对应关系删除。其中，该文件可以为服务器所提供的视频文件、音频文件或者文本文件等，如视频网站服务器提供的网络视频文件、音频网站提供的音频文件或文档共享服务器所提供的网络文档等，本发明实施例对此不做限定。

其中，该用户标识可以为用户账号或者终端标识等，该文件标识可以为文件名称或者文件编号等，该文件标识所指示的文件可以为视频文件、音频文件、文本文件等多种类型的文件，相应的，该历史播放记录可以包括用户标识与多种类型的文件标识之间的对应关系，本发明实施例对此均不做限定。

在本发明实施例中，对于服务器上可以提供多种类型的文件的情况下，该服务器还可以对不同类型的文件维护对应的历史播放记录，如记录用户标识与视频文件标识之间的对应关系、另外记录用户标识与音频文件标识之间的对应关系等等。对于某一指定类型来说，该服务器根据该指定类型对应的历史播放记录，对用户标识进行分群，得到多个用户群，则在当前用户标识打开了该指定类型的文件时，该服务器即可基于该多个用户群推荐指定类型的文件。其中，该多个用户群是根据指定类型的文件的历史播放记录划分得到的，与根据所有类型的文件的历史播放记录划分的用户群相比，该指定类型对应的多个用户群更能体现用户对指定类型的文件的喜好，在推荐指定类型的文件时能够进一步提高推荐成功率。

在本发明实施例中，对于该历史播放记录包括的一个用户标识来说，如果该用户标识打开过的文件标识数目很小，则该用户标识与文件标识之间的对应关系并不能准确地体现该用户的喜好，该用户标识会对划分用户群的准确性造成影响。为了保证分群的准确性，该服务器可以根据用户标识对应的文件标识的数目选取样本用户标识，根据选取的样本用户标识进行分群，则该服务器先获取该历史播放记录中每个用户标识对应的文件标识的数目。

202、当该用户标识对应的文件标识的数目超过预设数目时，该服务器将该用户标识获取为样本用户标识。

具体地，该服务器在获取到该历史播放记录中每个用户标识对应的文件标识的数目时，判断每个用户标识对应的文件标识的数目是否超过预设数目，当任一用户标识对应的文件标识的数目超过该预设数目时，将该对应的文件标识的数目超过该预设数目的用户标识作为样本用户标识。当任一用户标识对应的文件标识的数目小于或等于该预设数目时，该服务器可以丢弃该用户标识，或者暂时忽略该用户标识，等待该用户标识对应的文件数目超过该预设数目时，再将该用户标识作为样本用户标识。

其中，该用户标识对应的文件标识的数目即是指该用户标识打开过的文件的数目，当该数目超过该预设数目时，可以认为该用户标识与文件标识之间的对应关系能够体现该用户的喜好，可以用于进行分群。

例如，该历史播放记录中，用户标识A对应的文件标识数目为3，用户标识B对应的文件标识数目为25，假设该预设数目为10，则该服务器将用户标识B作为样本用户标识，而不考虑用户标识A。

在本发明实施例中，该预设数目可以由技术人员预先设定，或者由该服务器根据该历史播放记录中每个用户标识对应的文件标识的数目确定，本发明实施例对此不做限定。

需要说明的是，该步骤201和步骤202为可选步骤，该服务器还可以将该历史播放记录包括的所有用户标识均作为样本标识，直接执行后续步骤203，本发明实施例对此不做限定。

203、对于一个样本用户标识和一个文件标识，当该历史播放记录中保存有该样本用户标识与该文件标识之间的对应关系时，该服务器以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵，向该二维矩阵中，与该样本用户标识和该文件标识相应的元素位置填充第一预设阈值。

具体地，该待生成的二维矩阵以用户标识为第一维度，以文件标识为第二维度，且该二维矩阵中的各个元素根据该用户标识与文件标识之间的对应关系确定。对于该历史播放记录中的一个样本用户标识和一个文件标识来说，当该历史播放记录中保存有该样本用户标识与该文件标识之间的对应关系时，表明该用户标识曾打开过该文件标识所指示的文件，则向该二维矩阵中，与该用户标识和该文件标识相应的元素位置填充第一预设阈值；当该历史播放记录中未保存该样本用户标识与该文件标识之间的对应关系时，表明该用户标识未打开过该文件标识所指示的文件，则暂时不向与该用户标识和该文件标识相应的元素位置填充元素。

可选地，该第一维度为行、该第二维度为列，即该二维矩阵以用户标识为行、以文件标识为列；或者该第一维度为列、该第二维度为行，即该二维矩阵以用户标识为列、以文件标识为行。本发明实施例对该第一维度和该第二维度不做限定。

进一步可选地，该第一预设阈值为1。

例如，该历史播放记录中用户标识与文件标识之间的对应关系如表1所示，“√”表示用户标识与文件标识建立有对应关系。

表1

	文件标识1	文件标识2	文件标识3
				样本用户标识A	√
样本用户标识B		√	√
				样本用户标识C	√

以该第一维度为行、该第二维度为列，该第一预设阈值为1为例，样本用户标识A、样本用户标识B和样本用户标识C分别对应该二维矩阵的第一行、第二行和第三行，文件标识1、文件标识2和文件标识3分别对应该二维矩阵的第一列、第二列和第三列，则填充该第一预设阈值后的该二维矩阵为：

[\begin{matrix} 1, X, X \\ X, 1,1 \\ 1, X, X \end{matrix}]

（其中，X表示未填充元素的元素位置）。

204、当向该历史播放记录中保存的所有样本用户标识和文件标识相应的元素位置均填充完成时，该服务器随机从该二维矩阵剩余的元素位置中选取与已填充第一预设阈值的元素位置相等数目的元素位置，将选取的元素位置填充第二预设阈值。

具体地，该服务器向该历史播放记录中保存的所有样本用户标识和文件标识对应的元素位置均填充完成时，获取填充该第一预设阈值的元素位置的数目，并从该二维矩阵剩余的、未填充元素的元素位置中，随机选取与已填充该第一预设阈值的元素位置相等数目的元素位置，向选取的元素位置填充第二预设阈值。

可选地，该第二预设阈值为0。

基于步骤203中的举例，并假设该第二预设阈值为0，则填充该第一预设阈值和该第二预设阈值后的该二维矩阵可以为：

[\begin{matrix} 1,0, X \\ 0,1,1 \\ 1,0,0 \end{matrix}] .

205、该服务器将已填充第一预设阈值的元素位置的权重确定为第一权重，将已填充该第二预设阈值的元素位置的权重确定为第二权重。

在本发明实施例中，可以认为该用户标识打开过的文件为该用户喜欢的文件，而该用户标识未打开过的文件可能为该用户喜欢的文件，也可能为该用户不喜欢的文件。则该服务器可以为该二维矩阵中的元素位置分配权重，以便后续能够考虑到该第一权重和该第二权重的影响，按照该二维矩阵中的元素位置的权重进行机器学习。优选地，该第一权重大于该第二权重。如，该第一权重为0.7，该第二权重为0.3。

206、该服务器根据该第一权重和该第二权重，采用SGD（Stochastic GradientDescent，随机梯度下降）算法，对该二维矩阵进行SVD（Sigular ValueDecomposition，奇异值分解），得到U矩阵。

其中，该进行SVD的过程为：A=USV^T，A为该二维矩阵，U和V为正交矩阵，S为对角矩阵。

在本发明实施例中，该二维矩阵中可能包括多个未填充元素的元素位置，即该二维矩阵为稀疏矩阵，则在对该二维矩阵进行SVD分解时，可以采用SGD算法进行机器学习，通过对该二维矩阵中缺失的元素进行预测，得到该U矩阵。

需要说明的是，该步骤206为可选步骤，该服务器还可以采用其他的算法对该第二矩阵进行矩阵分解以及机器学习，本发明实施例对此不做限定。

207、该服务器将该U矩阵作为该指定矩阵。

在本发明实施例中，该服务器将该U矩阵作为该指定矩阵，以便后续根据该指定矩阵划分用户群。

在本发明实施例提供的另一实施例中，该步骤207可以由以下步骤代替：该服务器根据预设保留维数，对该U矩阵的第二维度进行降维，将降维后的U矩阵作为该指定矩阵。

其中，该服务器可以设定预设保留维数K，根据预设保留维数K对该U矩阵的第二维度进行降维，得到该指定矩阵，使得该指定矩阵的第二维度的维数降为K。该预设保留维数K可以由技术人员预先设定，或者由该服务器根据对不同的预设保留维数进行多次实验得到的预测精度确定，本发明实施例对此不做限定。

本发明实施例通过对该U矩阵进行降维，能够有效地对样本数据进行泛化，并降低计算量，同时防止了过拟合现象。

如该第二维度为列且该预设保留维数K=8时，该服务器保留该U矩阵的前8列，将其他列删除，将保留的矩阵作为该指定矩阵。

208、该服务器按照该第一维度对该指定矩阵进行划分，得到每个样本用户标识对应的特征向量。

在本发明实施例中，该指定矩阵的第一维度表示样本用户标识，该服务器按照该第一维度对该指定矩阵进行划分，得到多个向量，将得到的每个向量作为每个样本用户标识对应的特征向量。

如，该第一维度为行时，该服务器对该指定矩阵的每一行进行划分，得到该指定矩阵的多个行向量，将该指定矩阵的每个行向量作为每个样本用户标识对应的特征向量。

基于步骤203的举例，假设该指定矩阵为

[\begin{matrix} - 0.4472, - 0.5373, - 0.0064 \\ - 0.3586,0.2461,0.8622 \\ - 0.2925, - 0.4033, - 0.2275 \end{matrix}],

则样本用户标识A对应的特征向量为[-0.4472，-0.5373，-0.0064]，样本用户标识B对应的特征向量为[-0.3586，0.2461，0.8622]，样本用户标识C对应的特征向量为[-0.2925，-0.4033，-0.2275]。

209、该服务器基于该每个样本用户标识对应的特征向量，对该每个样本用户标识进行聚类处理，得到至少一个用户群，每个用户群包括至少一个样本用户标识。

具体地，该服务器采用聚类算法，对该每个样本用户标识对应的特征向量进行聚类计算，得到至少一个用户群，每个用户群包括至少一个样本用户标识。

在本发明实施例中，该聚类算法可以为划分法、层次法等，本发明实施例对此不做限定。

进一步地，该服务器可以预先设定聚类个数C，并根据该聚类个数对该每个样本用户标识进行聚类处理，得到C个用户群。其中，该聚类个数C可以由该服务器根据分群精度的需求或者样本用户标识的个数确定，本发明实施例对此不做限定。

需要说明的是，本发明实施例以该步骤210在步骤209之后执行为例进行说明，事实上，该步骤201-209可以实时执行或者周期性执行，该步骤210与该步骤201-209之间没有必然的时序关系，该服务器在接收到打开文件的指令时，只需根据当前得到的多个用户群进行推荐即可。

以实时执行该步骤201-209为例，每当任一用户标识打开了任一文件时，该服务器更新该历史播放记录，并重新执行该步骤201-209，对用户标识进行分群，得到更新后的多个用户群。该服务器在接收到打开文件的指令时，根据当前的多个用户群进行推荐。

210、该服务器接收打开文件的指令，该打开文件的指令携带当前用户标识和当前文件标识。

在本发明实施例中，该服务器接收到该打开文件的指令时，基于该当前用户标识，打开该当前文件标识所指示的文件，此时，该服务器可以根据该当前用户标识和该当前文件标识进行推荐。

211、该服务器根据每个用户群包括的用户标识，确定该当前用户标识所属的指定用户群。

在本发明实施例中，该服务器已将多个用户标识划分至多个用户群，每个用户群包括至少一个用户标识，且可以认为在同一用户群中的用户标识喜好类似，则该服务器在推荐文件时，可以根据与当前用户标识喜好类似的用户标识对应的文件标识进行推荐，而无需根据所有的用户标识对应的文件标识进行推荐。

具体地，该服务器根据每个用户群包括的用户标识，确定该当前用户标识所属的用户群，将该当前用户标识所属的用户群作为指定用户群，以便基于该指定用户群进行推荐。

212、该服务器根据该历史播放记录，确定每个文件标识在该指定用户群中所对应的用户标识的数目。

在本发明实施例中，对于该历史播放记录包括的一个文件标识来说，该文件标识可能对应有该指定用户群包括的用户标识，也可能对应有该指定用户群未包括的用户标识，则该服务器计算该文件标识在该指定用户群中所对应的用户标识的数目，该数目表明该指定用户群中，曾打开过该文件标识所指示文件的用户标识的数目。

213、该服务器按照该确定的数目从大到小的顺序，确定预设数目的文件标识。

其中，该预设数目可以由该服务器预先设定，或者由该服务器根据当前显示界面中的推荐区域能显示的文件数目确定，本发明实施例对此不做限定。

具体地，该服务器按照该确定的数目从大到小的顺序，对每个文件标识进行排序，确定排在前预设数目位的文件标识。

本发明实施例中，在该指定用户群中，当打开过某一文件的用户标识越多时，可以认为该文件越有可能是当前用户感兴趣的文件，则该服务器应当推荐该文件。因此，该服务器通过确定排在前预设数目位的文件标识进行推荐，能够提高推荐成功率。

需要说明的是，该步骤212和步骤213为可选步骤，该服务器还可以采用其他的方式，确定待推荐的文件标识，本发明实施例对此不做限定。

在本发明实施例提供的另一实施例中，该步骤212和步骤213可以由以下步骤代替：

（1）该服务器根据该指定用户群中每个用户标识的特征向量，计算该指定用户群中除该当前用户标识之外的每个用户标识与该当前用户标识的相似度。

其中，该服务器可以计算该每个用户标识与该当前用户标识的特征向量之间的余弦夹角或者Pearson（皮尔逊）相关系数等，以表示该当前用户标识之外的每个用户标识与该当前用户标识的相似度。本发明实施例对计算该相似度的具体方式不做限定。

（2）该服务器确定与该当前用户标识相似度最高的用户标识。

其中，该服务器可以将特征向量与该当前用户标识的特征向量之间的余弦夹角最大的用户标识确定为与该当前用户标识相似度最高的用户标识，或者将特征向量与该当前用户标识的特征向量之间的Pearson相关系数的绝对值最大的用户标识确定为与该当前用户标识相似度最高的用户标识。

在本发明实施例中，与该当前用户标识相似度最高的用户标识可以认为是与该当前用户标识喜好最为类似的用户标识，该服务器可以根据该相似度最高的用户标识所对应的文件标识进行推荐。

（3）该服务器根据该用户标识与文件标识之间的对应关系，确定该相似度最高的用户标识所对应的文件标识，执行步骤214。

具体地，该服务器根据该用户标识与文件标识之间的对应关系，确定该相似度最高的用户标识所对应的每个文件标识以及该当前用户标识对应的每个文件标识，并进行比较，确定该相似度最高的用户标识对应的、而该当前用户标识未对应的文件标识。

例如，在该指定用户群中，用户标识B与当前用户标识A的相似度最高，该服务器根据该用户标识与文件标识之间的对应关系，确定用户标识B打开过文件标识1，而当前用户标识A并未打开过文件标识1，则推荐该文件标识1指示的文件。

在本发明实施例提供的又一实施例中，该历史播放记录包括用户标识与第一文件标识和第二文件标识之间的对应关系，该第二文件标识为该用户标识在打开该第一文件标识后打开的文件标识，则该步骤212和步骤213还可以由以下步骤代替：该服务器根据该用户标识与第一文件标识和第二文件标识之间的对应关系，确定该指定用户群中每个用户标识与该当前文件标识所对应的第二文件标识，计算得到的每个第二文件标识的数目，按照该得到的数目从大到小的顺序，确定预设数目的第二文件标识。

通过根据用户标识与第一文件标识和第二文件标识之间的对应关系，确定该指定用户群中每个用户标识在打开该当前文件标识后所打开的第二文件标识，当在打开该当前文件标识后打开某一第二文件标识所指示的文件越多时，可以认为该文件与该当前文件标识的相关度越高，也越有可能是当前用户感兴趣的文件，则推荐该文件。

可选地，该服务器采用AR（Association Rules，关联规则挖掘策略）算法或者CF（Collaborative Filtering，协同过滤策略）算法，确定待推荐的文件标识，以推荐该待推荐的文件标识所指示的文件。

214、该服务器推荐该确定的文件标识所指示的文件。

在本发明实施例中，该服务器推荐该确定的文件标识所指示的文件时，可以在当前打开的文件的显示界面上提供该确定的文件标识的链接地址，该链接地址用于跳转至该确定的文件标识所指示的文件。另外，该服务器还可以显示该确定的文件标识所指示的文件生成的缩略图，或者显示发布者、发布时间等相关信息等，本发明实施例对此不做限定。

进一步地，对于多个该确定的文件标识来说，可以按照每个文件标识在该指定用户群中所对应的用户标识的数目依次进行推荐，还可以按照文件的发布时间依次进行推荐，本发明实施例对此均不做限定。

本发明实施例提供的方法，通过根据历史播放记录包括的用户标识与文件标识之间的对应关系得到用户群，能够将喜好类似的用户标识划分至同一用户群，使得在为当前用户标识推荐文件时，能够基于该当前用户标识所属的用户群进行推荐，而无需基于所有的用户标识进行推荐，考虑到了当前用户标识与其他用户标识的喜好，提高了推荐效率和推荐成功率。进一步地，该服务器按照用户标识对应的文件标识的数目，筛选出样本用户标识，并为该二维矩阵填充的第一预设阈值和第二预设阈值分配权重，提高了划分用户群的准确性。且通过对该U矩阵进行降维，能够有效地对样本数据进行泛化，并降低计算量，防止了过拟合现象。

图3是本发明实施例提供的一种文件推荐装置结构示意图，参见图3，该装置包括：矩阵构造模块301、填充模块302、矩阵分解模块303、向量划分模块304、聚类模块305、推荐模块306，

其中，矩阵构造模块301用于根据历史播放记录所包含的用户标识与文件标识，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵；填充模块302与矩阵构造模块301连接，用于根据该历史播放记录中用户标识与文件标识之间的对应关系，向该二维矩阵中与该对应关系相应的元素位置填充元素；矩阵分解模块303与填充模块302连接，用于对填充后的二维矩阵进行矩阵分解，得到指定矩阵；向量划分模块304与矩阵分解模块303连接，用于按照该第一维度对该指定矩阵进行划分，得到每个用户标识对应的特征向量；聚类模块305与向量划分模块304连接，用于基于该每个用户标识对应的特征向量，对该每个用户标识进行聚类处理，得到至少一个用户群，每个用户群包括至少一个用户标识；推荐模块306与聚类模块305连接，用于基于该至少一个用户群，进行文件推荐。

可选地，该推荐模块306包括：

指令接收单元，用于接收打开文件的指令，该打开文件的指令携带当前用户标识和当前文件标识；

指定群确定单元，用于根据每个用户群包括的用户标识，确定该当前用户标识所属的指定用户群，该每个用户群根据历史播放记录包括的用户标识与文件标识之间的对应关系得到；

文件标识确定单元，用于根据该用户标识与文件标识之间的对应关系以及该指定用户群，确定待推荐的文件标识；

推荐单元，用于推荐确定的文件标识所指示的文件。

可选地，该矩阵构造模块301包括：

数目获取单元，用于对于该历史播放记录中的每个用户标识，获取该用户标识对应的文件标识的数目；

样本获取单元，用于当该用户标识对应的文件标识的数目超过预设数目时，将该用户标识获取为样本用户标识；

矩阵构造单元，用于根据该历史播放记录所包含的样本用户标识与文件标识，以样本用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵。

可选地，该填充模块302包括：

第一填充单元，用于对于一个样本用户标识和一个文件标识，当该历史播放记录中保存有该样本用户标识与该文件标识之间的对应关系时，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，向该二维矩阵中，与该样本用户标识和该文件标识相应的元素位置填充第一预设阈值；

第二填充单元，用于当向该历史播放记录中保存的所有样本用户标识和文件标识相应的元素位置均填充完成时，随机从该二维矩阵剩余的元素位置中选取与已填充第一预设阈值的元素位置相等数目的元素位置，向选取的元素位置填充第二预设阈值。

可选地，该矩阵分解模块303包括：

权重确定单元，用于将已填充第一预设阈值的元素位置的权重确定为第一权重，将已填充该第二预设阈值的元素位置的权重确定为第二权重；

分解单元，用于根据该第一权重和该第二权重，采用随机梯度下降算法SGD，对该二维矩阵进行奇异值分解SVD，得到U矩阵；

指定矩阵单元，用于将该U矩阵作为该指定矩阵。

可选地，该装置还包括：

降维模块，用于根据预设保留维数，对该U矩阵的第二维度进行降维，将降维后的U矩阵作为该指定矩阵。

可选地，该文件标识确定单元包括：

用户数目确定子单元，用于根据该用户标识与文件标识之间的对应关系，确定每个文件标识在该指定用户群中所对应的用户标识的数目；

第一标识确定子单元，用于按照该确定的数目从大到小的顺序，确定预设数目的文件标识。

可选地，该文件标识确定单元包括：

相似度计算子单元，用于根据该指定用户群中每个用户标识的特征向量，计算该指定用户群中除该当前用户标识之外的每个用户标识与该当前用户标识的相似度；

用户标识确定子单元，用于确定与该当前用户标识相似度最高的用户标识；

第二标识确定子单元，用于根据该用户标识与文件标识之间的对应关系，确定该相似度最高的用户标识所对应的文件标识。

本发明实施例提供的装置，通过根据历史播放记录包括的用户标识与文件标识之间的对应关系得到用户群，能够将喜好类似的用户标识划分至同一用户群，使得在为当前用户标识推荐文件时，能够基于该当前用户标识所属的用户群进行推荐，而无需基于所有的用户标识进行推荐，考虑到了当前用户标识与其他用户标识的喜好，提高了推荐效率和推荐成功率。

需要说明的是：上述实施例提供的文件推荐装置在推荐文件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文件推荐装置与文件推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种服务器结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）422（例如，一个或一个以上处理器）和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430（例如一个或一个以上海量存储设备）。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中所述的由服务器所执行的步骤可以基于该图4所示的服务器结构。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文件推荐方法，其特征在于，所述方法包括：

对于所述历史播放记录中的一个样本用户标识和一个文件标识，当所述历史播放记录中保存有所述样本用户标识与所述文件标识之间的对应关系时，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，向所述二维矩阵中，与所述样本用户标识和所述文件标识相应的元素位置填充第一预设阈值；

当向所述历史播放记录中保存的所有样本用户标识和文件标识相应的元素位置均填充完成时，随机从所述二维矩阵剩余的元素位置中选取与已填充第一预设阈值的元素位置相等数目的元素位置，向选取的元素位置填充第二预设阈值；

对填充后的二维矩阵进行矩阵分解，得到指定矩阵；

基于所述至少一个用户群，进行文件推荐。

2.根据权利要求1所述的方法，其特征在于，基于所述至少一个用户群，进行文件推荐包括：

接收打开文件的指令，所述打开文件的指令携带当前用户标识和当前文件标识；

根据每个用户群包括的用户标识，确定所述当前用户标识所属的指定用户群，所述每个用户群根据历史播放记录包括的用户标识与文件标识之间的对应关系得到；

根据所述用户标识与文件标识之间的对应关系以及所述指定用户群，确定待推荐的文件标识；

推荐确定的文件标识所指示的文件。

3.根据权利要求1所述的方法，其特征在于，根据历史播放记录所包含的用户标识与文件标识，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵包括：

对于所述历史播放记录中的每个用户标识，获取所述用户标识对应的文件标识的数目；

当所述用户标识对应的文件标识的数目超过预设数目时，将所述用户标识获取为样本用户标识；

根据所述历史播放记录所包含的样本用户标识与文件标识，以样本用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵。

4.根据权利要求1所述的方法，其特征在于，对填充后的二维矩阵进行矩阵分解，得到指定矩阵包括：

将已填充第一预设阈值的元素位置的权重确定为第一权重，将已填充所述第二预设阈值的元素位置的权重确定为第二权重；

根据所述第一权重和所述第二权重，采用随机梯度下降算法SGD，对所述二维矩阵进行奇异值分解SVD，得到U矩阵；

将所述U矩阵作为所述指定矩阵。

5.根据权利要求4所述的方法，其特征在于，根据所述第一权重和所述第二权重，采用随机梯度下降算法SGD，对所述二维矩阵进行奇异值分解SVD，得到U矩阵之后，所述方法还包括：

根据预设保留维数，对所述U矩阵的第二维度进行降维，将降维后的U矩阵作为所述指定矩阵。

6.根据权利要求2所述的方法，其特征在于，根据所述用户标识与文件标识之间的对应关系以及所述指定用户群，确定待推荐的文件标识包括：

根据所述用户标识与文件标识之间的对应关系，确定每个文件标识在该指定用户群中所对应的用户标识的数目；

按照所述确定的数目从大到小的顺序，确定预设数目的文件标识。

7.根据权利要求2所述的方法，其特征在于，根据所述用户标识与文件标识之间的对应关系以及所述指定用户群，确定待推荐的文件标识包括：

根据所述指定用户群中每个用户标识的特征向量，计算所述指定用户群中除所述当前用户标识之外的每个用户标识与所述当前用户标识的相似度；

确定与所述当前用户标识相似度最高的用户标识；

根据所述用户标识与文件标识之间的对应关系，确定所述相似度最高的用户标识所对应的文件标识。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述第一预设阈值为1，所述第二预设阈值为0，且所述第一权重大于所述第二权重。

9.一种文件推荐装置，其特征在于，所述装置包括：

推荐模块，用于基于所述至少一个用户群，进行文件推荐；

所述填充模块包括：

第一填充单元，用于对于一个样本用户标识和一个文件标识，当所述历史播放记录中保存有所述样本用户标识与所述文件标识之间的对应关系时，以用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，向所述二维矩阵中，与所述样本用户标识和所述文件标识相应的元素位置填充第一预设阈值；

第二填充单元，用于当向所述历史播放记录中保存的所有样本用户标识和文件标识相应的元素位置均填充完成时，随机从所述二维矩阵剩余的元素位置中选取与已填充第一预设阈值的元素位置相等数目的元素位置，向选取的元素位置填充第二预设阈值。

10.根据权利要求9所述的装置，其特征在于，所述推荐模块包括：

指令接收单元，用于接收打开文件的指令，所述打开文件的指令携带当前用户标识和当前文件标识；

指定群确定单元，用于根据每个用户群包括的用户标识，确定所述当前用户标识所属的指定用户群，所述每个用户群根据历史播放记录包括的用户标识与文件标识之间的对应关系得到；

文件标识确定单元，用于根据所述用户标识与文件标识之间的对应关系以及所述指定用户群，确定待推荐的文件标识；

推荐单元，用于推荐确定的文件标识所指示的文件。

11.根据权利要求9所述的装置，其特征在于，所述矩阵构造模块包括：

数目获取单元，用于对于所述历史播放记录中的每个用户标识，获取所述用户标识对应的文件标识的数目；

样本获取单元，用于当所述用户标识对应的文件标识的数目超过预设数目时，将所述用户标识获取为样本用户标识；

矩阵构造单元，用于根据所述历史播放记录所包含的样本用户标识与文件标识，以样本用户标识作为矩阵的第一维度，以文件标识作为矩阵的第二维度，构造二维矩阵。

12.根据权利要求9所述的装置，其特征在于，所述矩阵分解模块包括：

权重确定单元，用于将已填充第一预设阈值的元素位置的权重确定为第一权重，将已填充所述第二预设阈值的元素位置的权重确定为第二权重；

分解单元，用于根据所述第一权重和所述第二权重，采用随机梯度下降算法SGD，对所述二维矩阵进行奇异值分解SVD，得到U矩阵；

指定矩阵单元，用于将所述U矩阵作为所述指定矩阵。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

降维模块，用于根据预设保留维数，对所述U矩阵的第二维度进行降维，将降维后的U矩阵作为所述指定矩阵。

14.根据权利要求10所述的装置，其特征在于，所述文件标识确定单元包括：

用户数目确定子单元，用于根据所述用户标识与文件标识之间的对应关系，确定每个文件标识在该指定用户群中所对应的用户标识的数目；

第一标识确定子单元，用于按照所述确定的数目从大到小的顺序，确定预设数目的文件标识。

15.根据权利要求10所述的装置，其特征在于，所述文件标识确定单元包括：

相似度计算子单元，用于根据所述指定用户群中每个用户标识的特征向量，计算所述指定用户群中除所述当前用户标识之外的每个用户标识与所述当前用户标识的相似度；

用户标识确定子单元，用于确定与所述当前用户标识相似度最高的用户标识；

第二标识确定子单元，用于根据所述用户标识与文件标识之间的对应关系，确定所述相似度最高的用户标识所对应的文件标识。

16.根据权利要求9-15任一项所述的装置，其特征在于，所述第一预设阈值为1，所述第二预设阈值为0，且所述第一权重大于所述第二权重。