CN101661483A - 一种推荐系统及推荐方法 - Google Patents

一种推荐系统及推荐方法 Download PDF

Info

Publication number
CN101661483A
CN101661483A CN200810212684A CN200810212684A CN101661483A CN 101661483 A CN101661483 A CN 101661483A CN 200810212684 A CN200810212684 A CN 200810212684A CN 200810212684 A CN200810212684 A CN 200810212684A CN 101661483 A CN101661483 A CN 101661483A
Authority
CN
China
Prior art keywords
historical data
record
source
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810212684A
Other languages
English (en)
Other versions
CN101661483B (zh
Inventor
鲁耀杰
李刚
尹悦燕
史达飞
李燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN200810212684A priority Critical patent/CN101661483B/zh
Publication of CN101661483A publication Critical patent/CN101661483A/zh
Application granted granted Critical
Publication of CN101661483B publication Critical patent/CN101661483B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐系统及推荐方法,该推荐方法包括:保存从源历史数据集中选择的部分源历史数据组成的样本历史数据集;建立样本历史数据集中的样本历史数据与源历史数据集中的源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;基于用户当前输入的查询信息,从样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;根据第一权值和第二权值从源历史数据中选择至少一个源历史数据组成第二推荐结果。本发明在不显著增加计算成本的情况下,基于全部的历史信息进行推荐,推荐结果完整。

Description

一种推荐系统及推荐方法
技术领域
本发明涉及信息检索技术领域,特别是一种推荐系统及推荐方法。
背景技术
推荐搜索所应用的信息一般为用户的历史信息,随着时间的推移,历史数据会越来越大。
现有技术的推荐搜索方法在计算的时候仅使用历史数据库中的部分数据进行推荐搜索,虽然其能够降低计算复杂度,但由于其用于推荐搜索的数据仅仅只是原始数据的一部分,因此其推荐搜索的输出结果不可避免的具有不完全的缺点。
发明内容
本发明的目的是提供一种推荐系统及推荐方法,基于全部的历史信息进行推荐,而计算成本不高。
为了实现上述目的,本发明实施例提供了一种推荐方法,包括:
步骤A,保存由源历史数据组成的源历史数据集;
步骤B,从由源历史数据组成的源历史数据集中选择部分源历史数据作为样本历史数据;
步骤C,保存由所述样本历史数据组成的样本历史数据集;
步骤D,建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;
步骤E,基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;
步骤F,根据所述第一权值和第二权值从源历史数据中选择至少一个源历史数据组成第二推荐结果。
上述的方法,其中,所述步骤A具体为:
步骤A1,将所述源历史数据组织成基于用户查询数据结构的记录,每条所述记录包括一次查询以及用户查询后的操作历史;
步骤A2,保存组织得到的所述记录。
上述的方法,其中,每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息;
所述步骤D中建立所述样本历史数据集中的每一个记录与所述源历史数据集中的每一个记录之间的链接,每个链接的第一权值为根据对应的两个记录的主数据信息计算得到的权值。
上述的方法,其中,所述主数据信息为查询信息时,所述链接的权值X(qi,qj)如下:
X 1 ( q i , q j ) = Σ w s ∈ q i ∩ q j X w s / Max ( Σ w s ∈ q i X w s , Σ w s ∈ q j X w s )
其中,qi为样本历史数据集中一条纪录的查询信息,qj为所述源历史数据集中的一条记录的查询信息,Xw表示词组ws的权值。
上述的方法,其中,所述主数据信息为查询信息时,所述链接的权值X(qi,qj)如下:
X2(qi,qj)=|topK(qi)∩topK(qj)|/|topK(qi)∪topK(qj)|
其中,qi为样本历史数据集中一条纪录的查询信息,qj为所述源历史数据集中的一条记录的查询信息,topK(qi)表示用qi从数据库检索得到的前K篇文档,|·|表示取模,其计算结果为文档数目。
上述的方法,其中,所述主数据信息为查询信息时,所述链接的权值X(qi,qj)如下:
X3(qi,qj)=|visdocs(qi)∩visdocs(qj)|/|visdocs(qi)∪visdocs(qj)|
其中,qi为样本历史数据集中一条纪录的查询信息,qj为所述源历史数据集中的一条记录的查询信息,visdocs(qi)表示用qi从数据库检索得到的文档中用户访问的文档,而|·|表示取模,其计算结果为文档数目。
上述的方法,其中,所述步骤B具体包括:
步骤B1,计算保存的每条所述记录的得分;
步骤B2,利用每条记录的得分从以记录方式保存的源历史数据中选择部分记录作为样本历史数据。
上述的方法,其中,每条记录的得分为:
α Ψ Query + β Ψ User + γ Ψ Visit + δ Ψ Time α + β + γ + δ
其中:
ΨQuery=ε/C
ΨUser=ζ*D
Ψ Visit = A / η A ≤ η 1 A ≥ η
&Psi; Time = &theta; / B B < &theta; 1 B &GreaterEqual; &theta;
其中,α、β、γ、δ、ε、ζ、η、θ均为预先设置的参数,A为当前记录的查询信息下用户访问的文档的数目,B为当前记录的查询信息的执行时间到当前时间的时间差,C表示与当前记录的查询信息相似的查询信息的数目,D表示用户的活跃程度,即用户单位时间内平均查询数量。
上述的方法,其中,所述步骤F具体包括:
步骤F1,从所述第一推荐结果中选择一条推荐记录;
步骤F2,获取源历史数据集中每个历史记录相对于该推荐记录的得分,所述历史记录的得分为两个权值的乘积,其中一个权值为所述推荐记录在所述第一推荐结果中的第二权值,另外一个权值为所述推荐记录与所述历史记录的链接的第一权值;
步骤F3,根据计算得到的源历史数据集中每个历史记录相对于该推荐记录的得分,从所述源历史数据中选择至少一个记录组成所述第二推荐结果。
为了实现上述目的,本发明实施例还提供了一种推荐系统,包括:
第一保存模块,用于保存由源历史数据组成的源历史数据集;
数据选择模块,用于从所述源历史数据集中选择部分源历史数据作为样本历史数据;
第二保存模块,用于保存由所述样本历史数据组成的样本历史数据集;
链接建立模块,用于建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;
第一推荐模块,用于基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;
第二推荐模块,用于根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果,所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。
上述的推荐系统,其中,所述第一保存模块具体包括:
组织单元,用于将所述源历史数据组织成基于用户查询数据结构的记录,每条所述记录包括一次查询以及用户查询后的操作历史;
第一保存单元,用于保存组织得到的所述记录。
上述的推荐系统,其中,
每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息;
所述链接建立模块具体用于建立所述样本历史数据集中的每一个记录与所述源历史数据集中的每一个记录之间的链接,每个链接的第一权值为根据对应的两个记录的主数据信息计算得到的权值。
上述的推荐系统,其中,所述数据选择模块具体包括:
计算单元,用于计算所述第一保存单元中的每条记录的得分;
选择单元,用于利用每个记录的得分从所述第一保存单元中以记录方式保存的源历史数据中选择部分源历史数据作为样本历史数据。
本发明实施例具有以下的有益效果:
本发明实施例的方法和系统在部分源历史数据的基础上得到一初始推荐结果,进而利用该部分源历史数据和所有源历史数据之间的链接来丰富该初始推荐结果,所以本发明实施例的方法和系统得到的推荐结果是基于所有的源历史数据得到,避免了现有技术中的推荐结果不完全的缺点;
本发明实施例的方法和系统中,需要利用该部分源历史数据和所有源历史数据之间的链接来丰富该初始推荐结果,然而,由于该部分源历史数据和所有源历史数据之间的链接可以预先计算得到,所以在实际的推荐查询过程中,并不会显著增加推荐过程的计算量。
附图说明
图1为本发明实施例的推荐系统的结构示意图;
图2为本发明实施例的推荐方法的流程示意图。
具体实施方式
本发明实施例的推荐系统及推荐方法中,首先基于从源历史数据中选择一部分历史数据作为样本历史数据,并在新搜索开始时,基于样本历史数据进行推荐,输出一第一推荐结果,然而根据样本历史数据和源历史数据之间的关系,丰富第一推荐结果。
本发明实施例的推荐系统如图1所示,包括:
第一保存模块,用于保存由源历史数据组成的源历史数据集;
数据选择模块,用于从所述源历史数据集中选择部分源历史数据作为样本历史数据;
第二保存模块,用于保存由所述样本历史数据组成的样本历史数据集;
链接建立模块,用于建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;
第一推荐模块,用于基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;
第二推荐模块,用于根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果;
所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。
本发明实施例的推荐方法如图2所示,包括:
步骤21,从由源历史数据组成的源历史数据集中选择部分源历史数据作为样本历史数据;
步骤22,保存由所述样本历史数据组成的样本历史数据集;
步骤23,建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;
步骤24,基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据,组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;
步骤25,根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果后输出,所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。
下面对本发明实施例的方法和系统进行进一步的详细说明。
一般来说,源历史数据中包括很多数据信息,如:用户信息、查询信息、用户访问文档信息、用户查看文档的时间信息和用户鼠标轨迹信息等,在本发明的具体实施例中,为了后续步骤的实现更加简单,首先将这些信息进行组织,以一定的结构进行保存。
在本发明的具体实施例中,第一保存模块具体包括:
组织单元,用于将所述源历史数据集中的源历史数据组织成基于用户查询数据结构的记录,每条所述记录包括一次查询以及用户查询后的操作历史;
第一保存单元,用于保存所述记录。
所谓基于用户查询的数据结构,就是一次查询以及用户查询后的操作历史作为一个数据单位,详细如下所述。
为方便说明,以源历史数据中的数据信息包括用户信息、查询信息和用户访问文档信息为例说明该基于用户查询的数据结构。
首先从历史数据的数据信息中选择其中一个数据信息作为主数据信息,其他信息作为从数据信息;如选择用户信息作为主数据信息时,则查询信息和用户访问文档信息为从数据信息,而选择查询信息作为主数据信息时,则用户信息和用户访问文档信息为从数据信息;
对每个主数据信息执行如下操作:获取与这个主数据信息相应的所有从数据信息,并对应保存主数据信息和从数据信息,举例说明如下:
如选择查询信息作为主数据信息时,首先选择一个查询信息;然后对于该查询信息,获取该查询信息相应的用户信息,同时获取该查询信息对应的用户访问文档信息,最后将该查询信息、该查询信息相应的用户信息和该查询信息对应的用户访问文档信息作为一条记录保存。
在完成上述的操作后,就需要从基于用户查询的数据结构保存的源历史数据中选择出样本历史数据。
本发明实施例的系统和方法,首先需要从源历史数据集中选择部分源历史数据作为样本历史数据,样本历史数据的选择是实现本发明实施例的方法和系统的基础,同时,选择出来的样本历史数据也会对本发明实施例的系统和方法的性能产生较大的影响,下面对如何选择样本历史数据进行详细说明。
下面以主数据信息为查询信息(Query),而从数据信息为用户信息(User)、用户访问文档信息(Visit)和用户查看文档的时间信息(Time)为例来详细说明本发明实施例如何选择样本历史数据,其包括如下步骤:
首先,根据如下公式计算每条记录的得分Score:
Score = &alpha; &Psi; Query + &beta; &Psi; User + &gamma; &Psi; Visit + &delta; &Psi; Time &alpha; + &beta; + &gamma; + &delta;
其中:
ΨQuery=ε/C
ΨUser=ζ*D
&Psi; Visit = A / &eta; A &le; &eta; 1 A &GreaterEqual; &eta;
&Psi; Time = &theta; / B B < &theta; 1 B &GreaterEqual; &theta;
其中,α、β、γ、δ、ε、ζ、η、θ均为预先设置的参数,而A、B、C和D的意义如下所述:
A表示该查询信息下用户访问的文档的数目;
B表示该查询信息执行时间到当前时间的时间差;
C表示所有记录中与该条记录的查询信息相似的查询信息的数目;
D表示用户的活跃程度,即用户单位时间内平均查询数量。
利用上述的公式计算得到每条记录的得分后,即可利用该得分从第一保存模块以记录方式保存的源历史数据中选择部分源历史数据作为样本历史数据,其中该步骤中可以利用经典赌盘选择算法从源历史数据中选择部分源历史数据作为样本历史数据。
当然,在本发明的具体实施例中,从源历史数据中选择部分源历史数据作为样本历史数据还可以采用其他的算法,如:
随机选取,从源历史数据中随机抽取预定数目的数据;
按时间选取,从源历史数据中按生成时间抽取预定数目的数据,如抽取某一个时间段的数据,每间隔预定时间段抽取数据;
等间隔过滤选取等,从源历史数据中每间隔一定数目的源历史数据抽取一个或多个。
在上述的具体实施例中,是以主数据信息为查询信息进行的说明,但该主数据信息也可以是用户信息、查询信息、用户访问文档信息、用户查看文档的时间信息或用户鼠标轨迹信息等数据信息,其具体实现方式与主数据信息为查询信息时的实现方式基本相同,在此不再赘述。
当然,也可以先使用主数据信息为查询信息进行一次选择,然后对选择得到的数据利用其他数据信息作为主数据信息进行二次选择,然后得到最终的样本历史数据,该二次选择可以是一次或多次。
通过上述的处理流程,已经得到了样本历史数据组成的样本历史数据集,需要基于该样本历史数据集进行第一次推荐处理,其基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据(以基于用户查询的数据结构保存时,为至少一条纪录),组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;这些推荐算法有:
协同过滤推荐算法(如周军锋汤显郭景峰一种优化的协同过滤推荐算法.计算机研究与发展2004年41卷10期)
带回溯的随机游走推荐算法(如Hanghang Tong,Christos Faloutsos,Jia-YuPan.Fast RandomWalk with Restart and Its Applications.)
基于关联规则的推荐算法(如蔡淑琴,林森,梁凯.An Algorithm forKnowledge Recommendation Based on Association Rules.武汉理工大学学报(信息与管理工程版)2007年03期)
上述仅仅是举例说明可以应用的推荐算法,但本发明实施例不局限于上述的推荐算法。
通过上述的处理,已经得到了样本历史数据组成的样本历史数据集,也得到了一个初步的推荐结果,但该推荐结果仅仅只是基于样本历史数据集的推荐结果,而该样本历史数据集的数据仅仅是源历史数据集中的数据的一部分,所以粗推荐结果同样具有信息的损失,推荐结果不准确。
因此,本发明的具体实施例需要对该粗推荐结果进行丰富,使之更加准确。在本发明的具体实施例中,通过建立样本历史数据集的样本历史数据与源历史数据集中的源历史数据之间的链接,并确定权值,然后在基于该得到的权值进行丰富,下面对其进行详细说明。
在上面已经描述了,在第一保存模块和第二保存模块中的源历史数据和样本历史数据都是以基于用户查询的数据结构保存的,也就是历史数据中的每一条记录都已经包括了主数据信息和其它信息之间的链接,因此,在本发明的具体实施例中只需要建立样本历史数据的每一条记录的主数据信息与所述源历史数据集中的每一条记录的主数据信息的链接,并确定权值即可,建立了主数据信息之间的链接,就隐式建立了其他数据信息之间的链接。
下面以主数据信息为查询信息为例进行详细说明。
样本历史数据的查询信息qi与所述源历史数据集中的一条记录的查询信息qj的链接的链接权值X(qi,qj)如下所示:
X 1 ( q i , q j ) = &Sigma; w s &Element; q i &cap; q j X w s / Max ( &Sigma; w s &Element; q i X w s , &Sigma; w s &Element; q j X w s )
其中,举例说明如下,假设qi包括A、B和C三个词组,而qj包括A、B和D三个词组,则qi和qj的交集为词组A和B。
Figure A20081021268400152
表示利用类似于QTF.IDF(查询词词频与方向文档频率)算法的权重计算算法测量得到的词组ws的权值。
根据上述的算法即完成了建立样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,并确定权值。
上述描述了一种建立样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,并确定权值的方法,但本发明实施例的方法也可以采用其它的方式建立链接,如下所示的客观反馈算法并确定链接的链接权值,如下所示。
X2(qi,qj)=|topK(qi)∩topK(qj)|/|topK(qi)∪topK(qj)|
其中,topK(qi)表示用qi从数据库检索得到的前K篇文档,而|·|表示取模,其计算结果为文档数目,举例说明如下。
假设用qi从某一数据库检索得到的与qi相关的文档为3篇,分别为A1、B1和C1,而用qj从某一数据库检索得到的与qj相关的文档为3篇,分别为A1、C1和D1,则topK(qi)∩topK(qj)为A1,而topK(qi)∪topK(qj)为A1、B1、C1和D1,则链接的权值为1/4。
本发明实施例的方法还可以采用下述的方式建立链接,并利用主观反馈算法确定链接的链接权值,如下所示。
X3(qi,qj)=|visdocs(qi)∩visdocs(qj)|/|visdocs(qi)∪visdocs(qj)|
其中,visdocs(qi)表示用qi从数据库检索得到的文档中用户访问的文档,而|·|表示取模,其计算结果为文档数目,举例说明如下。
假设用qi从某一数据库检索得到的与qi相关的文档为3篇,分别为A2、B2和C2,而用户访问过A2和B2,而用qj从某一数据库检索得到的与qj相关的文档为3篇,分别为A2、C2和D2,而用户访问过A2和C2,则visdocs(qi)∩visdocs(qj)为A2,而visdocs(qi)∪visdocs(qj)为A2、B2和C2,则链接的权值为1/3。
当然,还可以综合采用多种方式来计算链接权值,如下:
X4(qi,qj)=αX1(qi,qj)+βX2(qi,qj)+(1-α-β)X3(qi,qj)
其中,α和β可根据需要预先设置。
在建立上述的链接和链接的权值后,第二推荐模块根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果,所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据,上述步骤的具体处理中,对于第一推荐结果中的每个记录执行如下流程:
从所述第一推荐结果中选择一条推荐记录;
获取源历史数据集中每个历史记录相对于该推荐记录的得分,所述历史记录的得分为两个权值的乘积,其中一个权值为所述推荐记录在所述第一推荐结果中的第二权值,另外一个权值为所述推荐记录与所述历史记录的链接的第一权值;
根据计算得到的源历史数据集中每个历史记录相对于该推荐记录的得分,利用选择算法从与所述第一推荐结果中样本历史数据具有链接的源历史数据中选择一定数量的数据进行推荐。
在本发明的具体实施例中,该选择算法可以为经典赌盘选择算法,或者根据推荐得分选取较大的得分的一定数量数据等,但不限于上述举例的算法。
在上述的描述中,是以主数据信息为查询信息为例进行详细说明,但应当了解的是,上述的方法同样适用于主数据信息为用户信息、用户访问文档信息、用户查看文档的时间信息或用户鼠标轨迹信息等数据信息的情况,其差别仅在于计算权值的处理对象的差别,在此不再详细说明。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种推荐方法,其特征在于,包括:
步骤A,保存由源历史数据组成的源历史数据集;
步骤B,从由源历史数据组成的源历史数据集中选择部分源历史数据作为样本历史数据;
步骤C,保存由所述样本历史数据组成的样本历史数据集;
步骤D,建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;
步骤E,基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;
步骤F,根据所述第一权值和第二权值从源历史数据中选择至少一个源历史数据组成第二推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤A具体为:
步骤A1,将所述源历史数据组织成基于用户查询数据结构的记录,每条所述记录包括一次查询以及用户查询后的操作历史;
步骤A2,保存组织得到的所述记录。
3.根据权利要求2所述的方法,其特征在于,每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息;
所述步骤D中建立所述样本历史数据集中的每一个记录与所述源历史数据集中的每一个记录之间的链接,每个链接的第一权值为根据对应的两个记录的主数据信息计算得到的权值。
4.根据权利要求3所述的方法,其特征在于,所述主数据信息为查询信息时,所述链接的权值X(qi,qj)如下:
X 1 ( q i , q j ) = &Sigma; w s &Element; q i &cap; q j X w s / Max ( &Sigma; w s &Element; q i X w s , &Sigma; w s &Element; q j X w s )
其中,qi为样本历史数据集中一条纪录的查询信息,qj为所述源历史数据集中的一条记录的查询信息,
Figure A2008102126840003C1
表示词组ws的权值。
5.根据权利要求3所述的方法,其特征在于,所述主数据信息为查询信息时,所述链接的权值X(qi,qj)如下:
X2(qi,qj)=|topK(qi)∩topK(qj)|/|topK(qi)∪topK(qj)|
其中,qi为样本历史数据集中一条纪录的查询信息,qj为所述源历史数据集中的一条记录的查询信息,topK(qi)表示用qi从数据库检索得到的前K篇文档,|·|表示取模,其计算结果为文档数目。
6.根据权利要求3所述的方法,其特征在于,所述主数据信息为查询信息时,所述链接的权值X(qi,qj)如下:
X3(qi,qj)=|visdocs(qi)∩visdocs(qj)|/|visdocs(qi)∪visdocs(qj)|
其中,qi为样本历史数据集中一条纪录的查询信息,qj为所述源历史数据集中的一条记录的查询信息,visdocs(qi)表示用qi从数据库检索得到的文档中用户访问的文档,而|·|表示取模,其计算结果为文档数目。
7.根据权利要求2所述的方法,其特征在于,所述步骤B具体包括:
步骤B1,计算保存的每条所述记录的得分;
步骤B2,利用每条记录的得分从以记录方式保存的源历史数据中选择部分记录作为样本历史数据。
8.根据权利要求7所述的方法,其特征在于,每条记录的得分为:
&alpha;&Psi; Query + &beta;&Psi; User + &gamma;&Psi; Visit + &delta;&Psi; Time &alpha; + &beta; + &gamma; + &delta;
其中:
ΨQuery=ε/C
ΨUser=ζ*D
&Psi; Visit = A / &eta; A < &eta; 1 A &GreaterEqual; &eta;
&Psi; Time = &theta; / B B < &theta; 1 B &GreaterEqual; &theta;
其中,α、β、γ、δ、ε、ζ、η、θ均为预先设置的参数,A为当前记录的查询信息下用户访问的文档的数目,B为当前记录的查询信息的执行时间到当前时间的时间差,C表示与当前记录的查询信息相似的查询信息的数目,D表示用户的活跃程度,即用户单位时间内平均查询数量。
9.根据权利要求2所述的方法,其特征在于,所述步骤F具体包括:
步骤F1,从所述第一推荐结果中选择一条推荐记录;
步骤F2,获取源历史数据集中每个历史记录相对于该推荐记录的得分,所述历史记录的得分为两个权值的乘积,其中一个权值为所述推荐记录在所述第一推荐结果中的第二权值,另外一个权值为所述推荐记录与所述历史记录的链接的第一权值;
步骤F3,根据计算得到的源历史数据集中每个历史记录相对于该推荐记录的得分,从所述源历史数据中选择至少一个记录组成所述第二推荐结果。
10.一种推荐系统,其特征在于,包括:
第一保存模块,用于保存由源历史数据组成的源历史数据集;
数据选择模块,用于从所述源历史数据集中选择部分源历史数据作为样本历史数据;
第二保存模块,用于保存由所述样本历史数据组成的样本历史数据集;
链接建立模块,用于建立所述样本历史数据集中的每一个样本历史数据与所述源历史数据集中的每一个源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;
第一推荐模块,用于基于用户当前输入的查询信息,从所述样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,所述第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;
第二推荐模块,用于根据所述第一权值和第二权值从所述第一源历史数据中选择至少一个源历史数据组成第二推荐结果,所述第一源历史数据为与所述第一推荐结果中样本历史数据具有链接的源历史数据。
11.根据权利要求10所述的推荐系统,其特征在于,所述第一保存模块具体包括:
组织单元,用于将所述源历史数据组织成基于用户查询数据结构的记录,每条所述记录包括一次查询以及用户查询后的操作历史;
第一保存单元,用于保存组织得到的所述记录。
12.根据权利要求11所述的推荐系统,其特征在于:
每条所述记录包括主数据信息和与所述主数据信息对应的从数据信息;
所述链接建立模块具体用于建立所述样本历史数据集中的每一个记录与所述源历史数据集中的每一个记录之间的链接,每个链接的第一权值为根据对应的两个记录的主数据信息计算得到的权值。
13.根据权利要求11所述的推荐系统,其特征在于,所述数据选择模块具体包括:
计算单元,用于计算所述第一保存单元中的每条记录的得分;
选择单元,用于利用每个记录的得分从所述第一保存单元中以记录方式保存的源历史数据中选择部分源历史数据作为样本历史数据。
CN200810212684A 2008-08-29 2008-08-29 一种推荐系统及推荐方法 Expired - Fee Related CN101661483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810212684A CN101661483B (zh) 2008-08-29 2008-08-29 一种推荐系统及推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810212684A CN101661483B (zh) 2008-08-29 2008-08-29 一种推荐系统及推荐方法

Publications (2)

Publication Number Publication Date
CN101661483A true CN101661483A (zh) 2010-03-03
CN101661483B CN101661483B (zh) 2012-10-03

Family

ID=41789511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810212684A Expired - Fee Related CN101661483B (zh) 2008-08-29 2008-08-29 一种推荐系统及推荐方法

Country Status (1)

Country Link
CN (1) CN101661483B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957834A (zh) * 2010-08-12 2011-01-26 百度在线网络技术(北京)有限公司 一种基于用户特征进行内容推荐的方法与设备
CN102231158A (zh) * 2011-06-17 2011-11-02 中国科学院计算技术研究所 一种数据集推荐方法和系统
CN102243494A (zh) * 2010-05-12 2011-11-16 台湾积体电路制造股份有限公司 异常处理的方法以及用于工艺控制的异常处理方法
CN103136237A (zh) * 2011-11-28 2013-06-05 深圳市腾讯计算机系统有限公司 一种基于多数据源的信息搜索方法和系统
CN103337028A (zh) * 2013-06-21 2013-10-02 中国科学院深圳先进技术研究院 一种推荐方法、装置
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN103577413A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 搜索结果排序方法及系统、搜索结果排序优化方法及系统
CN107918922A (zh) * 2017-11-15 2018-04-17 中国联合网络通信集团有限公司 业务推荐方法及业务推荐装置
CN108985817A (zh) * 2016-12-02 2018-12-11 口碑(上海)信息技术有限公司 关联业务处理方法及装置、店铺推荐方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI499290B (zh) * 2012-11-30 2015-09-01 Ind Tech Res Inst 資訊推薦方法及系統

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7571452B2 (en) * 2001-11-13 2009-08-04 Koninklijke Philips Electronics N.V. Method and apparatus for recommending items of interest to a user based on recommendations for one or more third parties
CN1198224C (zh) * 2003-06-24 2005-04-20 南京大学 一种自适应的因特网目录网页推荐方法
JP4378646B2 (ja) * 2005-09-28 2009-12-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243494B (zh) * 2010-05-12 2017-01-18 台湾积体电路制造股份有限公司 异常处理的方法以及用于工艺控制的异常处理方法
CN102243494A (zh) * 2010-05-12 2011-11-16 台湾积体电路制造股份有限公司 异常处理的方法以及用于工艺控制的异常处理方法
CN101957834A (zh) * 2010-08-12 2011-01-26 百度在线网络技术(北京)有限公司 一种基于用户特征进行内容推荐的方法与设备
CN101957834B (zh) * 2010-08-12 2013-08-07 百度在线网络技术(北京)有限公司 一种基于用户特征进行内容推荐的方法与设备
CN102231158A (zh) * 2011-06-17 2011-11-02 中国科学院计算技术研究所 一种数据集推荐方法和系统
CN103136237A (zh) * 2011-11-28 2013-06-05 深圳市腾讯计算机系统有限公司 一种基于多数据源的信息搜索方法和系统
CN103136237B (zh) * 2011-11-28 2017-11-14 深圳市世纪光速信息技术有限公司 一种基于多数据源的信息搜索方法和系统
CN103577413A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 搜索结果排序方法及系统、搜索结果排序优化方法及系统
CN103577413B (zh) * 2012-07-20 2017-11-17 阿里巴巴集团控股有限公司 搜索结果排序方法及系统、搜索结果排序优化方法及系统
CN103337028A (zh) * 2013-06-21 2013-10-02 中国科学院深圳先进技术研究院 一种推荐方法、装置
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN103455613B (zh) * 2013-09-06 2016-03-16 南京大学 基于MapReduce模型的兴趣感知服务推荐方法
CN108985817A (zh) * 2016-12-02 2018-12-11 口碑(上海)信息技术有限公司 关联业务处理方法及装置、店铺推荐方法及装置
CN108985817B (zh) * 2016-12-02 2021-03-23 口碑(上海)信息技术有限公司 关联业务处理方法及装置、店铺推荐方法及装置
CN107918922A (zh) * 2017-11-15 2018-04-17 中国联合网络通信集团有限公司 业务推荐方法及业务推荐装置

Also Published As

Publication number Publication date
CN101661483B (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN101661483B (zh) 一种推荐系统及推荐方法
CN100470554C (zh) 在大规模社会网络中基于路径评分的个人关系发现方法
CN100573513C (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统
US8285745B2 (en) User query mining for advertising matching
CN103235812B (zh) 查询多意图识别方法和系统
CN103488780B (zh) 应用程序搜索方法和装置
CN104484380A (zh) 个性化搜索方法及装置
Drutsa et al. Future user engagement prediction and its application to improve the sensitivity of online experiments
CN103116588A (zh) 一种个性化推荐方法及系统
CN101206674A (zh) 以商品为媒介的增强型相关搜索系统及其方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN103198136B (zh) 一种基于时序关联的个人电脑文件查询方法
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN102402561A (zh) 一种搜索方法和装置
Monz Minimal span weighting retrieval for question answering
CN103699611A (zh) 一种基于动态摘要技术的微博流信息提取方法
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN109241527A (zh) 一种中文商品虚假评论数据集自动生成方法
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN103095849B (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN102799680B (zh) 一种基于近邻传播的xml文档谱聚类方法
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
Yih Learning term-weighting functions for similarity measures
Djafari Naini et al. Exploiting result diversification methods for feature selection in learning to rank

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121003

Termination date: 20150829

EXPY Termination of patent right or utility model