CN101661483A

CN101661483A - 一种推荐系统及推荐方法

Info

Publication number: CN101661483A
Application number: CN200810212684A
Authority: CN
Inventors: 鲁耀杰; 李刚; 尹悦燕; 史达飞; 李燕
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-08-29
Filing date: 2008-08-29
Publication date: 2010-03-03
Anticipated expiration: 2028-08-29
Also published as: CN101661483B

Abstract

本发明公开了一种推荐系统及推荐方法，该推荐方法包括：保存从源历史数据集中选择的部分源历史数据组成的样本历史数据集；建立样本历史数据集中的样本历史数据与源历史数据集中的源历史数据之间的链接，每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值；基于用户当前输入的查询信息，从样本历史数据集中选择至少一个样本历史数据组成第一推荐结果，第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值；根据第一权值和第二权值从源历史数据中选择至少一个源历史数据组成第二推荐结果。本发明在不显著增加计算成本的情况下，基于全部的历史信息进行推荐，推荐结果完整。

Description

一种推荐系统及推荐方法

技术领域

本发明涉及信息检索技术领域，特别是一种推荐系统及推荐方法。

背景技术

推荐搜索所应用的信息一般为用户的历史信息，随着时间的推移，历史数据会越来越大。

现有技术的推荐搜索方法在计算的时候仅使用历史数据库中的部分数据进行推荐搜索，虽然其能够降低计算复杂度，但由于其用于推荐搜索的数据仅仅只是原始数据的一部分，因此其推荐搜索的输出结果不可避免的具有不完全的缺点。

发明内容

本发明的目的是提供一种推荐系统及推荐方法，基于全部的历史信息进行推荐，而计算成本不高。

为了实现上述目的，本发明实施例提供了一种推荐方法，包括：

步骤A，保存由源历史数据组成的源历史数据集；

步骤B，从由源历史数据组成的源历史数据集中选择部分源历史数据作为样本历史数据；

步骤C，保存由所述样本历史数据组成的样本历史数据集；

步骤D，建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接，每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值；

步骤E，基于用户当前输入的查询信息，从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果，所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值；

步骤F，根据所述第一权值和第二权值从源历史数据中选择至少一个源历史数据组成第二推荐结果。

上述的方法，其中，所述步骤A具体为：

步骤A1，将所述源历史数据组织成基于用户查询数据结构的记录，每条所述记录包括一次查询以及用户查询后的操作历史；

步骤A2，保存组织得到的所述记录。

上述的方法，其中，每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息；

所述步骤D中建立所述样本历史数据集中的每一个记录与所述源历史数据集中的每一个记录之间的链接，每个链接的第一权值为根据对应的两个记录的主数据信息计算得到的权值。

上述的方法，其中，所述主数据信息为查询信息时，所述链接的权值X(q_i，q_j)如下：

X_{1} (q_{i}, q_{j}) = \underset{w_{s} &Element; q_{i} \cap q_{j}}{Σ} X_{w_{s}} / Max (\underset{w_{s} &Element; q_{i}}{Σ} X_{w_{s}}, \underset{w_{s} &Element; q_{j}}{Σ} X_{w_{s}})

其中，q_i为样本历史数据集中一条纪录的查询信息，q_j为所述源历史数据集中的一条记录的查询信息，X_w表示词组w_s的权值。

X₂(q_i，q_j)＝|topK(q_i)∩topK(q_j)|/|topK(q_i)∪topK(q_j)|

其中，q_i为样本历史数据集中一条纪录的查询信息，q_j为所述源历史数据集中的一条记录的查询信息，topK(q_i)表示用q_i从数据库检索得到的前K篇文档，|·|表示取模，其计算结果为文档数目。

X₃(q_i，q_j)＝|visdocs(q_i)∩visdocs(q_j)|/|visdocs(q_i)∪visdocs(q_j)|

其中，q_i为样本历史数据集中一条纪录的查询信息，q_j为所述源历史数据集中的一条记录的查询信息，visdocs(q_i)表示用q_i从数据库检索得到的文档中用户访问的文档，而|·|表示取模，其计算结果为文档数目。

上述的方法，其中，所述步骤B具体包括：

步骤B1，计算保存的每条所述记录的得分；

步骤B2，利用每条记录的得分从以记录方式保存的源历史数据中选择部分记录作为样本历史数据。

上述的方法，其中，每条记录的得分为：

\frac{α Ψ_{Query} + β Ψ_{User} + γ Ψ_{Visit} + δ Ψ_{Time}}{α + β + γ + δ}

其中：

Ψ_Query＝ε/C

Ψ_User＝ζ*D

Ψ_{Visit} = \{\begin{matrix} A / η & A \leq η \\ 1 & A &GreaterEqual; η \end{matrix}

Ψ_{Time} = \{\begin{matrix} θ / B & B < θ \\ 1 & B &GreaterEqual; θ \end{matrix}

其中，α、β、γ、δ、ε、ζ、η、θ均为预先设置的参数，A为当前记录的查询信息下用户访问的文档的数目，B为当前记录的查询信息的执行时间到当前时间的时间差，C表示与当前记录的查询信息相似的查询信息的数目，D表示用户的活跃程度，即用户单位时间内平均查询数量。

上述的方法，其中，所述步骤F具体包括：

步骤F1，从所述第一推荐结果中选择一条推荐记录；

步骤F2，获取源历史数据集中每个历史记录相对于该推荐记录的得分，所述历史记录的得分为两个权值的乘积，其中一个权值为所述推荐记录在所述第一推荐结果中的第二权值，另外一个权值为所述推荐记录与所述历史记录的链接的第一权值；

步骤F3，根据计算得到的源历史数据集中每个历史记录相对于该推荐记录的得分，从所述源历史数据中选择至少一个记录组成所述第二推荐结果。

为了实现上述目的，本发明实施例还提供了一种推荐系统，包括：

第一保存模块，用于保存由源历史数据组成的源历史数据集；

数据选择模块，用于从所述源历史数据集中选择部分源历史数据作为样本历史数据；

第二保存模块，用于保存由所述样本历史数据组成的样本历史数据集；

链接建立模块，用于建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接，每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值；

第一推荐模块，用于基于用户当前输入的查询信息，从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果，所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值；

第二推荐模块，用于根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果，所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。

上述的推荐系统，其中，所述第一保存模块具体包括：

组织单元，用于将所述源历史数据组织成基于用户查询数据结构的记录，每条所述记录包括一次查询以及用户查询后的操作历史；

第一保存单元，用于保存组织得到的所述记录。

上述的推荐系统，其中，

每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息；

所述链接建立模块具体用于建立所述样本历史数据集中的每一个记录与所述源历史数据集中的每一个记录之间的链接，每个链接的第一权值为根据对应的两个记录的主数据信息计算得到的权值。

上述的推荐系统，其中，所述数据选择模块具体包括：

计算单元，用于计算所述第一保存单元中的每条记录的得分；

选择单元，用于利用每个记录的得分从所述第一保存单元中以记录方式保存的源历史数据中选择部分源历史数据作为样本历史数据。

本发明实施例具有以下的有益效果：

本发明实施例的方法和系统在部分源历史数据的基础上得到一初始推荐结果，进而利用该部分源历史数据和所有源历史数据之间的链接来丰富该初始推荐结果，所以本发明实施例的方法和系统得到的推荐结果是基于所有的源历史数据得到，避免了现有技术中的推荐结果不完全的缺点；

本发明实施例的方法和系统中，需要利用该部分源历史数据和所有源历史数据之间的链接来丰富该初始推荐结果，然而，由于该部分源历史数据和所有源历史数据之间的链接可以预先计算得到，所以在实际的推荐查询过程中，并不会显著增加推荐过程的计算量。

附图说明

图1为本发明实施例的推荐系统的结构示意图；

图2为本发明实施例的推荐方法的流程示意图。

具体实施方式

本发明实施例的推荐系统及推荐方法中，首先基于从源历史数据中选择一部分历史数据作为样本历史数据，并在新搜索开始时，基于样本历史数据进行推荐，输出一第一推荐结果，然而根据样本历史数据和源历史数据之间的关系，丰富第一推荐结果。

本发明实施例的推荐系统如图1所示，包括：

第二推荐模块，用于根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果；

所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。

本发明实施例的推荐方法如图2所示，包括：

步骤21，从由源历史数据组成的源历史数据集中选择部分源历史数据作为样本历史数据；

步骤22，保存由所述样本历史数据组成的样本历史数据集；

步骤23，建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接，每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值；

步骤24，基于用户当前输入的查询信息，从所述样本历史数据集中选择至少一个样本历史数据，组成第一推荐结果，所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值；

步骤25，根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果后输出，所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。

下面对本发明实施例的方法和系统进行进一步的详细说明。

一般来说，源历史数据中包括很多数据信息，如：用户信息、查询信息、用户访问文档信息、用户查看文档的时间信息和用户鼠标轨迹信息等，在本发明的具体实施例中，为了后续步骤的实现更加简单，首先将这些信息进行组织，以一定的结构进行保存。

在本发明的具体实施例中，第一保存模块具体包括：

组织单元，用于将所述源历史数据集中的源历史数据组织成基于用户查询数据结构的记录，每条所述记录包括一次查询以及用户查询后的操作历史；

第一保存单元，用于保存所述记录。

所谓基于用户查询的数据结构，就是一次查询以及用户查询后的操作历史作为一个数据单位，详细如下所述。

为方便说明，以源历史数据中的数据信息包括用户信息、查询信息和用户访问文档信息为例说明该基于用户查询的数据结构。

首先从历史数据的数据信息中选择其中一个数据信息作为主数据信息，其他信息作为从数据信息；如选择用户信息作为主数据信息时，则查询信息和用户访问文档信息为从数据信息，而选择查询信息作为主数据信息时，则用户信息和用户访问文档信息为从数据信息；

对每个主数据信息执行如下操作：获取与这个主数据信息相应的所有从数据信息，并对应保存主数据信息和从数据信息，举例说明如下：

如选择查询信息作为主数据信息时，首先选择一个查询信息；然后对于该查询信息，获取该查询信息相应的用户信息，同时获取该查询信息对应的用户访问文档信息，最后将该查询信息、该查询信息相应的用户信息和该查询信息对应的用户访问文档信息作为一条记录保存。

在完成上述的操作后，就需要从基于用户查询的数据结构保存的源历史数据中选择出样本历史数据。

本发明实施例的系统和方法，首先需要从源历史数据集中选择部分源历史数据作为样本历史数据，样本历史数据的选择是实现本发明实施例的方法和系统的基础，同时，选择出来的样本历史数据也会对本发明实施例的系统和方法的性能产生较大的影响，下面对如何选择样本历史数据进行详细说明。

下面以主数据信息为查询信息(Query)，而从数据信息为用户信息(User)、用户访问文档信息(Visit)和用户查看文档的时间信息(Time)为例来详细说明本发明实施例如何选择样本历史数据，其包括如下步骤：

首先，根据如下公式计算每条记录的得分Score：

Score = \frac{α Ψ_{Query} + β Ψ_{User} + γ Ψ_{Visit} + δ Ψ_{Time}}{α + β + γ + δ}

其中：

Ψ_Query＝ε/C

Ψ_User＝ζ*D

Ψ_{Visit} = \{\begin{matrix} A / η & A \leq η \\ 1 & A &GreaterEqual; η \end{matrix}

Ψ_{Time} = \{\begin{matrix} θ / B & B < θ \\ 1 & B &GreaterEqual; θ \end{matrix}

其中，α、β、γ、δ、ε、ζ、η、θ均为预先设置的参数，而A、B、C和D的意义如下所述：

A表示该查询信息下用户访问的文档的数目；

B表示该查询信息执行时间到当前时间的时间差；

C表示所有记录中与该条记录的查询信息相似的查询信息的数目；

D表示用户的活跃程度，即用户单位时间内平均查询数量。

利用上述的公式计算得到每条记录的得分后，即可利用该得分从第一保存模块以记录方式保存的源历史数据中选择部分源历史数据作为样本历史数据，其中该步骤中可以利用经典赌盘选择算法从源历史数据中选择部分源历史数据作为样本历史数据。

当然，在本发明的具体实施例中，从源历史数据中选择部分源历史数据作为样本历史数据还可以采用其他的算法，如：

随机选取，从源历史数据中随机抽取预定数目的数据；

按时间选取，从源历史数据中按生成时间抽取预定数目的数据，如抽取某一个时间段的数据，每间隔预定时间段抽取数据；

等间隔过滤选取等，从源历史数据中每间隔一定数目的源历史数据抽取一个或多个。

在上述的具体实施例中，是以主数据信息为查询信息进行的说明，但该主数据信息也可以是用户信息、查询信息、用户访问文档信息、用户查看文档的时间信息或用户鼠标轨迹信息等数据信息，其具体实现方式与主数据信息为查询信息时的实现方式基本相同，在此不再赘述。

当然，也可以先使用主数据信息为查询信息进行一次选择，然后对选择得到的数据利用其他数据信息作为主数据信息进行二次选择，然后得到最终的样本历史数据，该二次选择可以是一次或多次。

通过上述的处理流程，已经得到了样本历史数据组成的样本历史数据集，需要基于该样本历史数据集进行第一次推荐处理，其基于用户当前输入的查询信息，从所述样本历史数据集中选择至少一个样本历史数据(以基于用户查询的数据结构保存时，为至少一条纪录)，组成第一推荐结果，所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值；这些推荐算法有：

协同过滤推荐算法(如周军锋汤显郭景峰一种优化的协同过滤推荐算法.计算机研究与发展2004年41卷10期)

带回溯的随机游走推荐算法(如Hanghang Tong，Christos Faloutsos，Jia-YuPan.Fast RandomWalk with Restart and Its Applications.)

基于关联规则的推荐算法(如蔡淑琴，林森，梁凯.An Algorithm forKnowledge Recommendation Based on Association Rules.武汉理工大学学报(信息与管理工程版)2007年03期)

上述仅仅是举例说明可以应用的推荐算法，但本发明实施例不局限于上述的推荐算法。

通过上述的处理，已经得到了样本历史数据组成的样本历史数据集，也得到了一个初步的推荐结果，但该推荐结果仅仅只是基于样本历史数据集的推荐结果，而该样本历史数据集的数据仅仅是源历史数据集中的数据的一部分，所以粗推荐结果同样具有信息的损失，推荐结果不准确。

因此，本发明的具体实施例需要对该粗推荐结果进行丰富，使之更加准确。在本发明的具体实施例中，通过建立样本历史数据集的样本历史数据与源历史数据集中的源历史数据之间的链接，并确定权值，然后在基于该得到的权值进行丰富，下面对其进行详细说明。

在上面已经描述了，在第一保存模块和第二保存模块中的源历史数据和样本历史数据都是以基于用户查询的数据结构保存的，也就是历史数据中的每一条记录都已经包括了主数据信息和其它信息之间的链接，因此，在本发明的具体实施例中只需要建立样本历史数据的每一条记录的主数据信息与所述源历史数据集中的每一条记录的主数据信息的链接，并确定权值即可，建立了主数据信息之间的链接，就隐式建立了其他数据信息之间的链接。

下面以主数据信息为查询信息为例进行详细说明。

样本历史数据的查询信息q_i与所述源历史数据集中的一条记录的查询信息q_j的链接的链接权值X(q_i，q_j)如下所示：

X_{1} (q_{i}, q_{j}) = \underset{w_{s} &Element; q_{i} \cap q_{j}}{Σ} X_{w_{s}} / Max (\underset{w_{s} &Element; q_{i}}{Σ} X_{w_{s}}, \underset{w_{s} &Element; q_{j}}{Σ} X_{w_{s}})

其中，举例说明如下，假设q_i包括A、B和C三个词组，而q_j包括A、B和D三个词组，则q_i和q_j的交集为词组A和B。

表示利用类似于QTF.IDF(查询词词频与方向文档频率)算法的权重计算算法测量得到的词组w_s的权值。

根据上述的算法即完成了建立样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接，并确定权值。

上述描述了一种建立样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接，并确定权值的方法，但本发明实施例的方法也可以采用其它的方式建立链接，如下所示的客观反馈算法并确定链接的链接权值，如下所示。

X₂(q_i，q_j)＝|topK(q_i)∩topK(q_j)|/|topK(q_i)∪topK(q_j)|

其中，topK(q_i)表示用q_i从数据库检索得到的前K篇文档，而|·|表示取模，其计算结果为文档数目，举例说明如下。

假设用q_i从某一数据库检索得到的与q_i相关的文档为3篇，分别为A1、B1和C1，而用q_j从某一数据库检索得到的与q_j相关的文档为3篇，分别为A1、C1和D1，则topK(q_i)∩topK(q_j)为A1，而topK(q_i)∪topK(q_j)为A1、B1、C1和D1，则链接的权值为1/4。

本发明实施例的方法还可以采用下述的方式建立链接，并利用主观反馈算法确定链接的链接权值，如下所示。

X₃(q_i，q_j)＝|visdocs(q_i)∩visdocs(q_j)|/|visdocs(q_i)∪visdocs(q_j)|

其中，visdocs(q_i)表示用q_i从数据库检索得到的文档中用户访问的文档，而|·|表示取模，其计算结果为文档数目，举例说明如下。

假设用q_i从某一数据库检索得到的与q_i相关的文档为3篇，分别为A2、B2和C2，而用户访问过A2和B2，而用q_j从某一数据库检索得到的与q_j相关的文档为3篇，分别为A2、C2和D2，而用户访问过A2和C2，则visdocs(q_i)∩visdocs(q_j)为A2，而visdocs(q_i)∪visdocs(q_j)为A2、B2和C2，则链接的权值为1/3。

当然，还可以综合采用多种方式来计算链接权值，如下：

X₄(q_i，q_j)＝αX₁(q_i，q_j)+βX₂(q_i，q_j)+(1-α-β)X₃(q_i，q_j)

其中，α和β可根据需要预先设置。

在建立上述的链接和链接的权值后，第二推荐模块根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果，所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据，上述步骤的具体处理中，对于第一推荐结果中的每个记录执行如下流程：

从所述第一推荐结果中选择一条推荐记录；

获取源历史数据集中每个历史记录相对于该推荐记录的得分，所述历史记录的得分为两个权值的乘积，其中一个权值为所述推荐记录在所述第一推荐结果中的第二权值，另外一个权值为所述推荐记录与所述历史记录的链接的第一权值；

根据计算得到的源历史数据集中每个历史记录相对于该推荐记录的得分，利用选择算法从与所述第一推荐结果中样本历史数据具有链接的源历史数据中选择一定数量的数据进行推荐。

在本发明的具体实施例中，该选择算法可以为经典赌盘选择算法，或者根据推荐得分选取较大的得分的一定数量数据等，但不限于上述举例的算法。

在上述的描述中，是以主数据信息为查询信息为例进行详细说明，但应当了解的是，上述的方法同样适用于主数据信息为用户信息、用户访问文档信息、用户查看文档的时间信息或用户鼠标轨迹信息等数据信息的情况，其差别仅在于计算权值的处理对象的差别，在此不再详细说明。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种推荐方法，其特征在于，包括：

步骤A，保存由源历史数据组成的源历史数据集；

步骤C，保存由所述样本历史数据组成的样本历史数据集；

2.根据权利要求1所述的方法，其特征在于，所述步骤A具体为：

步骤A2，保存组织得到的所述记录。

3.根据权利要求2所述的方法，其特征在于，每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息；

4.根据权利要求3所述的方法，其特征在于，所述主数据信息为查询信息时，所述链接的权值X(q_i，q_j)如下：

X_{1} (q_{i}, q_{j}) = \underset{w_{s} &Element; q_{i} \cap q_{j}}{Σ} X_{w_{s}} / Max (\underset{w_{s} &Element; q_{i}}{Σ} X_{w_{s}}, \underset{w_{s} &Element; q_{j}}{Σ} X_{w_{s}})

其中，q_i为样本历史数据集中一条纪录的查询信息，q_j为所述源历史数据集中的一条记录的查询信息，

表示词组w_s的权值。

5.根据权利要求3所述的方法，其特征在于，所述主数据信息为查询信息时，所述链接的权值X(q_i，q_j)如下：

X₂(q_i，q_j)＝|topK(q_i)∩topK(q_j)|/|topK(q_i)∪topK(q_j)|

6.根据权利要求3所述的方法，其特征在于，所述主数据信息为查询信息时，所述链接的权值X(q_i，q_j)如下：

X₃(q_i，q_j)＝|visdocs(q_i)∩visdocs(q_j)|/|visdocs(q_i)∪visdocs(q_j)|

7.根据权利要求2所述的方法，其特征在于，所述步骤B具体包括：

步骤B1，计算保存的每条所述记录的得分；

8.根据权利要求7所述的方法，其特征在于，每条记录的得分为：

\frac{{αΨ}_{Query} + {βΨ}_{User} + {γΨ}_{Visit} + {δΨ}_{Time}}{α + β + γ + δ}

其中：

Ψ_Query＝ε/C

Ψ_User＝ζ*D

Ψ_{Visit} = \{\begin{matrix} A / η & A < η \\ 1 & A &GreaterEqual; η \end{matrix}

Ψ_{Time} = \{\begin{matrix} θ / B & B < θ \\ 1 & B &GreaterEqual; θ \end{matrix}

9.根据权利要求2所述的方法，其特征在于，所述步骤F具体包括：

步骤F1，从所述第一推荐结果中选择一条推荐记录；

10.一种推荐系统，其特征在于，包括：

11.根据权利要求10所述的推荐系统，其特征在于，所述第一保存模块具体包括：

第一保存单元，用于保存组织得到的所述记录。

12.根据权利要求11所述的推荐系统，其特征在于：

13.根据权利要求11所述的推荐系统，其特征在于，所述数据选择模块具体包括：