CN105095279A - 文件推荐方法和装置 - Google Patents

文件推荐方法和装置 Download PDF

Info

Publication number
CN105095279A
CN105095279A CN201410201832.XA CN201410201832A CN105095279A CN 105095279 A CN105095279 A CN 105095279A CN 201410201832 A CN201410201832 A CN 201410201832A CN 105095279 A CN105095279 A CN 105095279A
Authority
CN
China
Prior art keywords
keyword
weight
user
file
transition probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410201832.XA
Other languages
English (en)
Other versions
CN105095279B (zh
Inventor
尹程果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201410201832.XA priority Critical patent/CN105095279B/zh
Publication of CN105095279A publication Critical patent/CN105095279A/zh
Application granted granted Critical
Publication of CN105095279B publication Critical patent/CN105095279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件推荐方法和装置,属于网络技术领域。所述方法包括:对于多个用户中的每个用户,根据所述用户的历史操作记录所包含的多个文件标识以及所述多个文件标识的权重,获取所述多个文件标识所对应的多个关键词以及所述多个关键词的权重;计算每两个关键词之间的转移概率;计算所述多个关键词的目标权重;根据所述当前用户对应的多个关键词以及所述多个关键词的目标权重进行推荐。本发明采用了基于关键词的推荐方式,以文件的关键词对用户的兴趣进行区分,能够实现用户的个性化,提高了推荐成功率。进一步地,文件的关键词并不受文件的发布时间以及用户对文件的评分的影响,提高了推荐新文件的成功率。

Description

文件推荐方法和装置
技术领域
本发明涉及网络技术领域,特别涉及一种文件推荐方法和装置。
背景技术
在日常的线上活动中,用户时时刻刻都在面对着各种各样的信息,但却很难从中筛选出自己真正感兴趣的信息。为了便于用户的筛选,服务器可以为当前用户推荐其可能感兴趣的信息。
以视频为例,服务器可以按照性别、年龄等基本信息,将多个用户划分为多个群组,在为当前用户推荐视频时,先确定当前用户所属的群组,再确定该群组中的用户观看最多的视频,推荐给当前用户。或者,服务器还可以采用协同过滤算法,基于用户对不同视频的评分,计算每两个视频的相似度,使得用户对两个视频的评分越相近时,两个视频的相似度越高,根据每两个视频的相似度,从海量视频中,确定与当前用户观看的视频的相似度最高的视频,推荐给当前用户。
但是,服务器划分群组时所依据的基本信息很难体现用户的兴趣,划分的群组并不能实现个性化,将所属的群组中的用户观看最多的视频推荐给当前用户时,推荐成功率低;而服务器采用协同过滤算法进行推荐时,对于新视频来说,由于用户观看新视频的行为很少,对新视频的评分也很少,在计算新视频与其他视频的相似度时,相似度的准确性差,导致新视频的推荐成功率低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文件推荐方法和装置。所述技术方案如下:
第一方面,提供了一种文件推荐方法,所述方法包括:
对于多个用户中的每个用户,根据所述用户的历史操作记录所包含的多个文件标识以及所述多个文件标识的权重,获取所述多个文件标识所对应的多个关键词以及所述多个关键词的权重;
根据所述多个用户对应的多个关键词以及所述多个关键词的权重,计算每两个关键词之间的转移概率;
根据当前用户对应的多个关键词、所述多个关键词的权重以及每两个关键词之间的转移概率,计算所述多个关键词的目标权重;
根据所述当前用户对应的多个关键词以及所述多个关键词的目标权重进行推荐。
第二方面,提供了一种文件推荐装置,所述装置包括:
获取模块,用于对于多个用户中的每个用户,根据所述用户的历史操作记录所包含的多个文件标识以及所述多个文件标识的权重,获取所述多个文件标识所对应的多个关键词以及所述多个关键词的权重;
转移概率计算模块,用于根据所述多个用户对应的多个关键词以及所述多个关键词的权重,计算每两个关键词之间的转移概率;
目标权重计算模块,用于根据当前用户对应的多个关键词、所述多个关键词的权重以及每两个关键词之间的转移概率,计算所述多个关键词的目标权重;
推荐模块,用于根据所述当前用户对应的多个关键词以及所述多个关键词的目标权重进行推荐。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法和装置,通过根据用户的历史操作记录所包含的多个文件标识和该多个文件标识的权重,计算每两个关键词的转移概率以及多个关键词的目标权重,根据当前用户对应的多个关键词以及该多个关键词的目标权重为当前用户推荐文件,采用了基于关键词的推荐方式,以文件的关键词对用户的兴趣进行区分,能够实现用户的个性化,提高了推荐成功率。进一步地,文件的关键词并不受文件的发布时间以及用户对文件的评分的影响,提高了推荐新文件的成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文件推荐系统结构示意图;
图2是本发明实施例提供的文件推荐系统的组成示意图;
图3是本发明实施例提供的一种文件推荐方法的流程图;
图4是本发明实施例提供的一种文件推荐方法的流程图;
图5是本发明实施例提供的一种文件推荐装置结构示意图;
图6是本发明实施例提供的一种服务器结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的文件推荐系统结构示意图,参见图1,该文件推荐系统包括终端和服务器,该终端与该服务器之间通过网络连接。
其中,该终端用于基于用户标识登录该服务器,基于该用户标识与该服务器进行信息交互。该服务器用于为该终端提供文件,该终端用于显示该文件的名称、缩略图以及该文件的具体内容。该服务器还用于根据该终端打开的文件,生成该用户标识对应的操作记录,该操作记录中包括该终端用户打开的文件标识。
图2是本发明实施例提供的文件推荐系统的组成示意图,参见图2,下面将对该文件推荐系统中的各组成部分进行介绍:
(1)服务器21包括消息收发器211、用户标识数据库212、操作记录数据库213、文件数据库214和推荐模块215。
其中,该消息收发器211用于接收终端22发送的信息,并向该终端22发送信息。该用户标识数据库212用于维护该服务器的注册机制。该操作记录数据库213用于保存每个用户标识对应的历史操作记录。当该服务器21通过该消息收发器211接收到该终端22基于用户标识发送的打开文件的指令时,生成该用户标识对应的操作记录,保存在该操作记录数据库213中。该文件数据库214用于保存文件的文件标识、发布时间、简介以及具体内容等信息。该推荐模块215用于根据该终端22当前打开的文件、该操作记录数据库213中保存的该用户标识对应的历史操作记录以及该文件数据库214中的文件标识,确定待推荐的文件标识,并通过该消息收发器211发送给该终端22。
(2)终端22包括消息收发器221、输入模块222和显示模块223。
其中,该消息收发器221用于接收服务器21发送的信息,并向该服务器21发送信息,该输入模块222用于获取用户输入的文件标识,如文件名称或者文件编号等,还用于检测用户对文件标识的点击操作,该显示模块223用于显示用户输入的文件标识、显示当前打开的文件的具体内容,并显示该服务器21推荐的文件标识或者文件的缩略图等信息。
图3是本发明实施例提供的一种文件推荐方法的流程图,参见图3,该方法包括:
301、对于多个用户中的每个用户,根据该用户的历史操作记录所包含的多个文件标识以及该多个文件标识的权重,获取该多个文件标识所对应的多个关键词以及该多个关键词的权重。
302、根据该多个用户对应的多个关键词以及该多个关键词的权重,计算每两个关键词之间的转移概率。
303、根据当前用户对应的多个关键词、该多个关键词的权重以及每两个关键词之间的转移概率,计算该多个关键词的目标权重。
304、根据该当前用户对应的多个关键词以及该多个关键词的目标权重进行推荐。
本发明实施例提供的方法,通过根据用户的历史操作记录所包含的多个文件标识和该多个文件标识的权重,计算每两个关键词的转移概率以及多个关键词的目标权重,根据当前用户对应的多个关键词以及该多个关键词的目标权重为当前用户推荐文件,采用了基于关键词的推荐方式,以文件的关键词对用户的兴趣进行区分,能够实现用户的个性化,提高了推荐成功率。进一步地,文件的关键词并不受文件的发布时间以及用户对文件的评分的影响,提高了推荐新文件的成功率。
可选地,该根据该多个用户对应的多个关键词以及该多个关键词的权重,计算每两个关键词之间的转移概率包括:
对于该多个用户中的每个用户,将该用户对应的多个关键词组成该用户的关键词向量,并将该多个关键词的权重组成该用户的权重向量;
根据该多个用户的关键词向量,获取包括该第一关键词的关键词向量的数目,作为第一数目,并获取包括该第一关键词和该第二关键词的关键词向量的数目,作为第二数目;
将该第二数目与第一数目的商作为该第一关键词转移至该第二关键词的概率。
可选地,该根据当前用户对应的多个关键词、该多个关键词的权重以及每两个关键词之间的转移概率,计算该多个关键词的目标权重包括:
根据每两个关键词之间的转移概率,获取转移概率矩阵;
根据该当前用户的权重向量和该转移概率矩阵,计算该当前用户的目标权重向量。
可选地,该根据每两个关键词之间的转移概率,获取转移概率矩阵包括:
以第一关键词为第一维度,第二关键词为第二维度,构造第一矩阵;
向该第一矩阵中,与该第一关键词和该第二关键词相应的元素位置填充该概率,得到转移概率矩阵。
可选地,该根据该当前用户的权重向量和该转移概率矩阵,计算该当前用户的目标权重向量包括:
根据该当前用户的权重向量和该转移概率矩阵,应用以下公式计算该当前用户的目标权重向量:
Y=A(t)X;其中,Y为该目标权重向量,A为该转移概率矩阵,t为转移步数,X为该权重向量。
可选地,该根据该当前用户对应的多个关键词以及该多个关键词的目标权重进行推荐包括:
该当前用户的目标权重向量中的每个元素用于表示该多个关键词中与该元素对应的关键词的目标权重,按照关键词的目标权重从大到小的顺序,从该多个关键词中选取预设数目的关键词;
获取该预设数目的关键词对应的多个文件标识;
推荐该多个文件标识所指示的多个文件。
可选地,该获取该预设数目的关键词对应的多个文件标识之后,该方法还包括:
从该预设数目的关键词对应的多个文件标识中,选取预设时长内发布的多个文件标识;
推荐该预设时长内发布的多个文件标识所指示的多个文件。
可选地,该根据该用户的历史操作记录所包含的多个文件标识以及该多个文件标识的权重,获取该多个文件标识所对应的多个关键词以及该多个关键词的权重包括:
根据该用户的历史操作记录所包含的多个文件标识,获取该多个文件标识中的每个文件标识所对应的多个关键词;
根据该每个文件标识所对应的多个关键词,获取每个关键词所对应的多个文件标识;
对于每个关键词,根据该关键词对应的多个文件标识的权重,获取该关键词的权重。
可选地,该根据该关键词对应的多个文件标识的权重,获取该关键词的权重包括:
将该关键词对应的多个文件标识的权重之和作为该关键词的权重。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图4是本发明实施例提供的一种文件推荐方法的流程图,该发明实施例的执行主体为服务器,参见图4,该方法包括:
401、对于每个用户,该服务器根据该用户的历史操作记录所包含的多个文件标识,获取该多个文件标识中的每个文件标识所对应的多个关键词,根据该每个文件标识所对应的多个关键词,获取每个关键词所对应的多个文件标识。
其中,该服务器可以为与当前打开的文件关联的服务器,或者为与当前打开的文件关联的服务器中的功能模块,本发明实施例对此不做限定。进一步地,该文件可以为该服务器所提供的视频文件、音频文件或者文本文件等,如视频网站服务器提供的网络视频文件、音频网站服务器提供的音频文件或文档共享服务器所提供的网络文档,相应的,该文件标识可以为文件名称或者文件编号等,用于确定唯一的文件。当然,该文件标识所指示的文件也可以为视频文件、音频文件、文本文件等多种类型的文件,本发明实施例对此均不做限定。
另外,该服务器可以用户标识表示用户,该用户标识可以为用户账号或者终端标识等。每个用户的历史操作记录中包括该用户曾打开过的文件标识,该服务器记录每个用户打开的文件,一旦某一用户打开了某一文件时,该服务器在该用户的历史操作记录中增加该打开文件的文件标识。进一步地,该历史操作记录可以为该服务器保存的预设时长内的历史操作记录,也即是,当该历史操作记录中任一条文件标识保留的时长已超过该预设时长时,将该保留的时长已超过该预设时长的文件标识删除。
对于服务器上可以提供多种类型的文件的情况下,该服务器还可以对不同类型的文件维护对应的历史操作记录。对于某一指定类型来说,该服务器为每个用户维护该指定类型的历史操作记录,当用户打开了该指定类型的文件时,该服务器根据多个用户的该指定类型的历史操作记录为该用户推荐该指定类型的文件标识,而无需考虑其他类型的文件标识。与根据所有类型的历史操作记录进行推荐相比,根据该指定类型的历史操作记录进行推荐更能体现用户对该指定类型的文件的喜好,能够进一步提高推荐成功率。
在本发明实施例中,对于每个用户来说,该服务器可以获取该用户的历史操作记录所包含的多个文件标识,并获取每个文件标识所对应的多个关键词。每个文件标识对应多个关键词,则相应的,每个关键词也可以对应多个文件标识,当获取到每个文件标识对应的多个关键词时,可以获取每个关键词对应的多个文件标识。可选地,该服务器对该多个文件标识对应的多个关键词进行倒排索引,获取每个关键词对应的多个文件标识。
其中,该多个关键词可以根据该文件的名称、简介或者内容得到,该服务器可以对该文件的名称进行分词,得到该文件标识对应的关键词,或者获取该文件的简介中的关键词,作为该文件标识对应的关键词,或者获取该文件中的出现次数大于预设次数的词语,作为该文件标识对应的关键词。例如,该视频文件为军师题材的视频文件,通过对该视频文件中的台词进行统计,可以得到该视频文件中出现频率最高的关键词为“战机”、“坦克”、“部队”。
参见表1,该用户的历史操作记录包括文件标识“D1”、“D2”、“D3”,每个文件标识对应的关键词如表1所示。则根据每个文件标识对应的多个关键词可以得到每个关键词对应的多个文件标识,如表2所示。
表1
文件标识 D1 D2 D3
关键词 word1、word2 word3、word4 word1、word2、word4、word5
表2
关键词 word1 word2 word3 word4 word5
文件标识 D1、D3 D1、D3 D2、D3 D2、D3 D3
402、对于每个关键词,该服务器根据该关键词对应的多个文件标识的权重,获取该关键词的权重。
在本发明实施例中,该历史操作记录中还包括每个文件标识的权重,文件标识的权重可以由用户对该文件的评分、用户打开该文件的时长或者用户打开该文件的次数确定,本发明实施例对此不做限定。该文件标识的权重可以体现该用户对该文件的喜好程度。
进一步地,对于一个文件来说,在确定该文件标识的权重后,还可以根据用户打开该文件以外的其他文件的情况,对该文件标识的权重进行调整。可选地,每个用户对应的多个文件标识的权重之和为1,当该服务器确定用户打开一个文件时,对多个文件标识的权重进行调整,使得该多个文件标识的权重之和保持不变。例如,该用户的历史操作记录中包括第一文件标识、该第一文件标识的权重、第二文件标识以及该第二文件标识的权重,当该用户再次打开第二文件时,该服务器根据该用户对该第二文件的评分确定用于调整权重的预设阈值,将该第一文件标识的权重减少预设阈值,将该第二文件标识的权重增加该预设阈值。
可选地,该服务器获取该关键词所对应的多个文件标识的权重,将该关键词对应的多个文件标识的权重之和作为该关键词的权重。
参见表2,假设文件标识“D1”的权重为w1,“D2”的权重为w2,“D3”的权重为w3,则每个关键词的权重如表3所示。
表3
关键词 word1 word2 word3 word4 word5
文件标识 D1、D3 D1、D3 D2、D3 D2、D3 D3
关键词的权重 w1+w3 w1+w3 w2+w3 w2+w3 w3
403、该服务器根据该多个用户对应的多个关键词以及该多个关键词的权重,计算每两个关键词之间的转移概率。
其中,以第一关键词和第二关键词为例,该第一关键词与该第二关键词之间的转移概率是指由该第一关键词转移至该第二关键词的概率。
可选地,该步骤403可以包括以下步骤403a至403b:
403a、该服务器将该用户对应的多个关键词组成该用户的关键词向量,并将该多个关键词的权重组成该用户的权重向量。
基于表3的举例,该服务器将该多个关键词组成关键词向量[word1,word2,word3,word4,word5]T,相应的,将该多个关键词的权重组成权重向量[w1+w3,w1+w3,w2+w3,w2+w3,w3]T
403b、该服务器根据该多个用户的关键词向量,获取包括该第一关键词的关键词向量的数目,作为第一数目,并获取包括该第一关键词和该第二关键词的关键词向量的数目,作为第二数目,将该第二数目与第一数目的商作为该第一关键词转移至该第二关键词的概率。
在本发明实施例中,当该服务器获取到多个用户的关键词向量时,可以根据该多个关键词向量,确定包括该第一关键词的关键词向量的数目,作为第一数目,并确定包括该第一关键词向量和该第二关键词向量的数目,作为第二数目,该第一数目可以表示该第一关键词的出现次数,该第二数目可以表示该第一关键词和该第二关键词同时出现的次数,则将该第二数目与该第一数目的商作为该第一关键词转移至该第二关键词的概率。
另外,该服务器还可以根据该多个用户对应的多个关键词以及该多个关键词的权重,采用Aprior算法,对该多个关键词进行关联规则挖掘,获取每两个关键词之间的转移概率。本发明实施例对该服务器获取每两个关键词之间的转移概率的具体过程不做限定。
404、该服务器根据每两个关键词之间的转移概率,获取转移概率矩阵。
具体地,该服务器以第一关键词为第一维度,第二关键词为第二维度,构造第一矩阵,向该第一矩阵中,与该第一关键词和该第二关键词相应的元素位置填充该概率,得到转移概率矩阵。
以aij表示第i个关键词转移至第j个关键词的概率,i=1,2…k,j=1,2…k,k表示关键词的个数,则该服务器构造k×k维的第一矩阵,向该第一矩阵中第i个关键词和第j个关键词相应的元素位置填充aij,得到的该转移概率矩阵为
a 11 a 12 . . . a 1 k a 21 a 22 . . . a 2 k . . . . . . . . . . . . a k 1 a k 2 . . . a kk .
405、该服务器根据该当前用户的权重向量和该转移概率矩阵,计算该当前用户的目标权重向量,该目标权重向量中的每个元素用于表示该多个关键词中与该元素对应的关键词的目标权重。
可选地,该服务器根据该当前用户的权重向量和该转移概率矩阵,应用以下公式,计算该当前用户的目标权重向量:Y=A(t)X;其中,Y为该目标权重向量,A为该转移概率矩阵,t为转移步数,X为该权重向量。
由于很多新文件的权重为0,则该用户的权重向量X中有很多元素为0,而随着t取值的增大,Y=A(t)X,该目标权重向量Y中的元素0会越来越少,该当前用户对关键词的喜好也越来越发散,但t的取值并不能一直增大,当t过大时,该目标权重向量会收敛,将无法体现关键词的个性化。因此,可以通过实际仿真确定t的取值。可选地,t的取值为1,即Y=AX。
该当前用户的权重向量可以体现该当前用户对关键词的喜好,根据该权重向量和该转移概率矩阵得到的目标权重向量可以体现该当前用户对关键词的“转移”喜好,根据该目标权重向量可以预测该当前用户之后希望打开的文件所对应的关键词,则可以根据该目标权重向量为该当前用户推荐文件。
需要说明的是,本发明实施例以该步骤405在该步骤401-404之后执行为例进行说明,而在实际应用过程中,该步骤401-404可以实时执行或者周期性执行,该步骤405与该步骤401-404之间没有必然的时序关系,该服务器在检测到当前用户打开文件的操作或者登录该服务器的操作时,只需根据当前确定的转移概率矩阵进行推荐。
以实时执行该步骤401-404为例,当用户打开了任一文件时,该服务器更新该用户的历史操作记录,并重新执行步骤401-404,获取该转移概率矩阵,以便后续检测到任一用户打开了文件时,根据该转移概率矩阵进行推荐。
406、该服务器根据该当前用户对应的多个关键词以及该多个关键词的目标权重进行推荐。
在本发明实施例中,当该服务器检测到用户打开文件的操作或者登录该服务器的操作时,即可根据该当前用户对应的多个关键词以及该多个关键词的目标权重,为当前用户进行推荐。
可选地,该步骤406包括以下步骤406a至406c:
406a、该服务器按照关键词的目标权重从大到小的顺序,从该多个关键词中选取预设数目的关键词。
在本发明实施例中,该目标权重向量中的每个元素表示该多个关键词中与该元素对应的关键词的目标权重,该服务器根据该目标权重向量,确定该多个关键词的目标权重,并按照关键词的目标权重从大到小的顺序,选取预设数目的关键词,以便获取该预设数目的关键词对应的多个文件标识,推荐给当前用户。其中,该预设数目可以由技术人员预先设定或者根据该历史操作记录中该当前用户每次打开的文件的数目确定,本发明实施例对此不做限定。
406b、该服务器获取该预设数目的关键词对应的多个文件标识。
其中,该当前用户的每个关键词对应的多个文件标识可以由该服务器在执行步骤401时确定。该服务器在获取到该预设数目的关键词时,可以获取该预设数目的关键词中的每个关键词对应的多个文件标识。
可选地,该服务器获取到该多个文件标识时,从该多个文件标识中,选取预设时长内发布的多个文件标识,以便推荐该预设时长内发布的多个文件标识所指示的文件。该服务器在获取到任一文件时,会发布该文件,将该文件提供给用户,在发布该文件时还会记录该文件的发布时间。当该服务器希望为当前用户推荐新文件时,可以根据每个文件的发布时间,从该多个文件标识中选取预设时长内发布的多个文件标识,推荐给当前用户,以便为该当前用户推荐新文件。其中,该预设时长可以由技术人员在开发时设定,本发明实施例对此不做限定。
406c、该服务器推荐该多个文件标识所指示的多个文件。
该服务器在推荐该多个文件标识所指示的多个文件时,可以在当前打开的文件的显示界面上提供该多个文件标识的链接地址,该链接地址用于跳转至对应的文件。另外,该服务器还可以显示该多个文件生成的缩略图,或者显示发布者、发布时间等相关信息等,对于预设时长内发布的文件,该服务器还可以显示更新标识,提示用户该文件为新文件。本发明实施例对该服务器推荐文件的方式不做限定。
本发明实施例提供的方法,通过根据用户的历史操作记录所包含的多个文件标识和该多个文件标识的权重,计算每两个关键词的转移概率以及多个关键词的目标权重,根据当前用户对应的多个关键词以及该多个关键词的目标权重为当前用户推荐文件,采用了基于关键词的推荐方式,以文件的关键词对用户的兴趣进行区分,能够实现用户的个性化,提高了推荐成功率。进一步地,文件的关键词并不受文件的发布时间以及用户对文件的评分的影响,提高了推荐新文件的成功率。
图5是本发明实施例提供的一种文件推荐装置结构示意图,参见图5,该装置包括:
获取模块501,用于对于多个用户中的每个用户,根据该用户的历史操作记录所包含的多个文件标识以及该多个文件标识的权重,获取该多个文件标识所对应的多个关键词以及该多个关键词的权重;
转移概率计算模块502与获取模块501连接,用于根据该多个用户对应的多个关键词以及该多个关键词的权重,计算每两个关键词之间的转移概率;
目标权重计算模块503分别与获取模块501和转移概率计算模块502连接,用于根据当前用户对应的多个关键词、该多个关键词的权重以及每两个关键词之间的转移概率,计算该多个关键词的目标权重;
推荐模块504分别与获取模块501和目标权重计算模块503连接,用于根据该当前用户对应的多个关键词以及该多个关键词的目标权重进行推荐。
本发明实施例提供的装置,通过根据用户的历史操作记录所包含的多个文件标识和该多个文件标识的权重,计算每两个关键词的转移概率以及多个关键词的目标权重,根据当前用户对应的多个关键词以及该多个关键词的目标权重为当前用户推荐文件,采用了基于关键词的推荐方式,以文件的关键词对用户的兴趣进行区分,能够实现用户的个性化,提高了推荐成功率。进一步地,文件的关键词并不受文件的发布时间以及用户对文件的评分的影响,提高了推荐新文件的成功率。
可选地,该转移概率计算模块502包括:
向量组成单元,用于对于该多个用户中的每个用户,将该用户对应的多个关键词组成该用户的关键词向量,并将该多个关键词的权重组成该用户的权重向量;
数目获取单元,用于根据该多个用户的关键词向量,获取包括该第一关键词的关键词向量的数目,作为第一数目,并获取包括该第一关键词和该第二关键词的关键词向量的数目,作为第二数目;
转移概率计算单元,用于将该第二数目与第一数目的商作为该第一关键词转移至该第二关键词的概率。
可选地,该目标权重计算模块503包括:
转移矩阵获取单元,用于根据每两个关键词之间的转移概率,获取转移概率矩阵;
目标权重向量计算单元,用于根据该当前用户的权重向量和该转移概率矩阵,计算该当前用户的目标权重向量。
可选地,该转移矩阵获取单元用于以第一关键词为第一维度,第二关键词为第二维度,构造第一矩阵;向该第一矩阵中,与该第一关键词和该第二关键词相应的元素位置填充该概率,得到转移概率矩阵。
可选地,该目标权重向量计算单元用于根据该当前用户的权重向量和该转移概率矩阵,应用以下公式计算该当前用户的目标权重向量:
Y=A(t)X;其中,Y为该目标权重向量,A为该转移概率矩阵,t为转移步数,X为该权重向量。
可选地,该推荐模块504包括:
关键词选取单元,用于按照关键词的目标权重从大到小的顺序,从该多个关键词中选取预设数目的关键词,该当前用户的目标权重向量中的每个元素用于表示该多个关键词中与该元素对应的关键词的目标权重;
文件标识获取单元,用于获取该预设数目的关键词对应的多个文件标识;
推荐单元,用于推荐该多个文件标识所指示的多个文件。
可选地,该装置还包括:
文件标识选取模块,用于从该预设数目的关键词对应的多个文件标识中,选取预设时长内发布的多个文件标识;
推荐模块,用于推荐该预设时长内发布的多个文件标识所指示的多个文件。
可选地,该获取模块501包括:
关键词获取单元,用于根据该用户的历史操作记录所包含的多个文件标识,获取该多个文件标识中的每个文件标识所对应的多个关键词;
文件标识获取单元,用于根据该每个文件标识所对应的多个关键词,获取每个关键词所对应的多个文件标识;
权重获取单元,用于对于每个关键词,根据该关键词对应的多个文件标识的权重,获取该关键词的权重。
可选地,该权重获取单元用于将该关键词对应的多个文件标识的权重之和作为该关键词的权重。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的文件推荐装置在文件推荐时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文件推荐装置与文件推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中所述的由服务器所执行的步骤可以基于该图6所示的服务器结构。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种文件推荐方法,其特征在于,所述方法包括:
对于多个用户中的每个用户,根据所述用户的历史操作记录所包含的多个文件标识以及所述多个文件标识的权重,获取所述多个文件标识所对应的多个关键词以及所述多个关键词的权重;
根据所述多个用户对应的多个关键词以及所述多个关键词的权重,计算每两个关键词之间的转移概率;
根据当前用户对应的多个关键词、所述多个关键词的权重以及每两个关键词之间的转移概率,计算所述多个关键词的目标权重;
根据所述当前用户对应的多个关键词以及所述多个关键词的目标权重进行推荐。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个用户对应的多个关键词以及所述多个关键词的权重,计算每两个关键词之间的转移概率包括:
对于所述多个用户中的每个用户,将所述用户对应的多个关键词组成所述用户的关键词向量,并将所述多个关键词的权重组成所述用户的权重向量;
根据所述多个用户的关键词向量,获取包括所述第一关键词的关键词向量的数目,作为第一数目,并获取包括所述第一关键词和所述第二关键词的关键词向量的数目,作为第二数目;
将所述第二数目与第一数目的商作为所述第一关键词转移至所述第二关键词的转移概率。
3.根据权利要求2所述的方法,其特征在于,所述根据当前用户对应的多个关键词、所述多个关键词的权重以及每两个关键词之间的转移概率,计算所述多个关键词的目标权重包括:
根据每两个关键词之间的转移概率,获取转移概率矩阵;
根据所述当前用户的权重向量和所述转移概率矩阵,计算所述当前用户的目标权重向量。
4.根据权利要求3所述的方法,其特征在于,所述根据每两个关键词之间的转移概率,获取转移概率矩阵包括:
以第一关键词为第一维度,第二关键词为第二维度,构造第一矩阵;
向所述第一矩阵中,与所述第一关键词和所述第二关键词相应的元素位置填充所述第一关键词转移至所述第二关键词的转移概率,得到转移概率矩阵。
5.根据权利要求3所述的方法,其特征在于,所述根据所述当前用户的权重向量和所述转移概率矩阵,计算所述当前用户的目标权重向量包括:
根据所述当前用户的权重向量和所述转移概率矩阵,应用以下公式计算所述当前用户的目标权重向量:
Y=A(t)X;其中,Y为所述目标权重向量,A为所述转移概率矩阵,t为转移步数,X为所述权重向量。
6.根据权利要求3所述的方法,其特征在于,所述根据所述当前用户对应的多个关键词以及所述多个关键词的目标权重进行推荐包括:
所述当前用户的目标权重向量中的每个元素用于表示所述多个关键词中与所述元素对应的关键词的目标权重,按照关键词的目标权重从大到小的顺序,从所述多个关键词中选取预设数目的关键词;
获取所述预设数目的关键词对应的多个文件标识;
推荐所述多个文件标识所指示的多个文件。
7.根据权利要求6所述的方法,其特征在于,所述获取所述预设数目的关键词对应的多个文件标识之后,所述方法还包括:
从所述预设数目的关键词对应的多个文件标识中,选取预设时长内发布的多个文件标识;
推荐所述预设时长内发布的多个文件标识所指示的多个文件。
8.根据权利要求1所述的方法,其特征在于,所述根据所述用户的历史操作记录所包含的多个文件标识以及所述多个文件标识的权重,获取所述多个文件标识所对应的多个关键词以及所述多个关键词的权重包括:
根据所述用户的历史操作记录所包含的多个文件标识,获取所述多个文件标识中的每个文件标识所对应的多个关键词;
根据所述每个文件标识所对应的多个关键词,获取每个关键词所对应的多个文件标识;
对于每个关键词,根据所述关键词对应的多个文件标识的权重,获取所述关键词的权重。
9.根据权利要求8所述的方法,其特征在于,所述根据所述关键词对应的多个文件标识的权重,获取所述关键词的权重包括:
将所述关键词对应的多个文件标识的权重之和作为所述关键词的权重。
10.一种文件推荐装置,其特征在于,所述装置包括:
获取模块,用于对于多个用户中的每个用户,根据所述用户的历史操作记录所包含的多个文件标识以及所述多个文件标识的权重,获取所述多个文件标识所对应的多个关键词以及所述多个关键词的权重;
转移概率计算模块,用于根据所述多个用户对应的多个关键词以及所述多个关键词的权重,计算每两个关键词之间的转移概率;
目标权重计算模块,用于根据当前用户对应的多个关键词、所述多个关键词的权重以及每两个关键词之间的转移概率,计算所述多个关键词的目标权重;
推荐模块,用于根据所述当前用户对应的多个关键词以及所述多个关键词的目标权重进行推荐。
11.根据权利要求10所述的装置,其特征在于,所述转移概率计算模块包括:
向量组成单元,用于对于所述多个用户中的每个用户,将所述用户对应的多个关键词组成所述用户的关键词向量,并将所述多个关键词的权重组成所述用户的权重向量;
数目获取单元,用于根据所述多个用户的关键词向量,获取包括所述第一关键词的关键词向量的数目,作为第一数目,并获取包括所述第一关键词和所述第二关键词的关键词向量的数目,作为第二数目;
转移概率计算单元,用于将所述第二数目与第一数目的商作为所述第一关键词转移至所述第二关键词的概率。
12.根据权利要求11所述的装置,其特征在于,所述目标权重计算模块包括:
转移矩阵获取单元,用于根据每两个关键词之间的转移概率,获取转移概率矩阵;
目标权重向量计算单元,用于根据所述当前用户的权重向量和所述转移概率矩阵,计算所述当前用户的目标权重向量。
13.根据权利要求12所述的装置,其特征在于,所述转移矩阵获取单元用于以第一关键词为第一维度,第二关键词为第二维度,构造第一矩阵;向所述第一矩阵中,与所述第一关键词和所述第二关键词相应的元素位置填充所述概率,得到转移概率矩阵。
14.根据权利要求12所述的装置,其特征在于,所述目标权重向量计算单元用于根据所述当前用户的权重向量和所述转移概率矩阵,应用以下公式计算所述当前用户的目标权重向量:
Y=A(t)X;其中,Y为所述目标权重向量,A为所述转移概率矩阵,t为转移步数,X为所述权重向量。
15.根据权利要求12所述的装置,其特征在于,所述推荐模块包括:
关键词选取单元,用于按照关键词的目标权重从大到小的顺序,从所述多个关键词中选取预设数目的关键词,所述当前用户的目标权重向量中的每个元素用于表示所述多个关键词中与所述元素对应的关键词的目标权重;
文件标识获取单元,用于获取所述预设数目的关键词对应的多个文件标识;
推荐单元,用于推荐所述多个文件标识所指示的多个文件。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
文件标识选取模块,用于从所述预设数目的关键词对应的多个文件标识中,选取预设时长内发布的多个文件标识;
推荐模块,用于推荐所述预设时长内发布的多个文件标识所指示的多个文件。
17.根据权利要求10所述的装置,其特征在于,所述获取模块包括:
关键词获取单元,用于根据所述用户的历史操作记录所包含的多个文件标识,获取所述多个文件标识中的每个文件标识所对应的多个关键词;
文件标识获取单元,用于根据所述每个文件标识所对应的多个关键词,获取每个关键词所对应的多个文件标识;
权重获取单元,用于对于每个关键词,根据所述关键词对应的多个文件标识的权重,获取所述关键词的权重。
18.根据权利要求17所述的装置,其特征在于,所述权重获取单元用于将所述关键词对应的多个文件标识的权重之和作为所述关键词的权重。
CN201410201832.XA 2014-05-13 2014-05-13 文件推荐方法和装置 Active CN105095279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410201832.XA CN105095279B (zh) 2014-05-13 2014-05-13 文件推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410201832.XA CN105095279B (zh) 2014-05-13 2014-05-13 文件推荐方法和装置

Publications (2)

Publication Number Publication Date
CN105095279A true CN105095279A (zh) 2015-11-25
CN105095279B CN105095279B (zh) 2019-05-03

Family

ID=54575732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410201832.XA Active CN105095279B (zh) 2014-05-13 2014-05-13 文件推荐方法和装置

Country Status (1)

Country Link
CN (1) CN105095279B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279289A (zh) * 2015-12-04 2016-01-27 中国传媒大学 基于指数衰减窗口的个性化音乐推荐排序方法
CN105630946A (zh) * 2015-12-23 2016-06-01 百度在线网络技术(北京)有限公司 一种基于大数据的领域交叉推荐方法及装置
CN105653693A (zh) * 2015-12-30 2016-06-08 东软集团股份有限公司 一种个性化推荐方法及装置
CN105956161A (zh) * 2016-05-17 2016-09-21 北京奇虎科技有限公司 一种信息推荐方法和装置
CN106250499A (zh) * 2016-08-02 2016-12-21 合网络技术(北京)有限公司 一种视频对挖掘方法及装置
CN108121760A (zh) * 2017-11-23 2018-06-05 南京邮电大学 一种面向ogc地理信息服务数据的挖掘分析与推荐方法
CN108255860A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 关键词分析处理方法和装置
CN109977242A (zh) * 2019-03-28 2019-07-05 北京奇艺世纪科技有限公司 一种推荐方法、装置、终端设备及计算机可读存储介质
CN111460294A (zh) * 2020-03-31 2020-07-28 汉海信息技术(上海)有限公司 消息推送方法、装置、计算机设备及存储介质
CN115412759A (zh) * 2022-09-14 2022-11-29 北京字跳网络技术有限公司 信息显示方法、装置、设备、计算机可读存储介质及产品
CN116628201A (zh) * 2023-05-18 2023-08-22 浙江数洋科技有限公司 一种文本资料库的智能化分群和推送方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN101751437A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 基于强化学习的网页页面主动式检索系统
US20110246561A1 (en) * 2010-03-31 2011-10-06 Sony Corporation Server apparatus, client apparatus, content recommendation method, and program
CN102841932A (zh) * 2012-08-06 2012-12-26 河海大学 一种基于内容的音频语义特征相似度比较方法
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN103731738A (zh) * 2014-01-23 2014-04-16 哈尔滨理工大学 基于用户群组行为分析的视频推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN101751437A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 基于强化学习的网页页面主动式检索系统
US20110246561A1 (en) * 2010-03-31 2011-10-06 Sony Corporation Server apparatus, client apparatus, content recommendation method, and program
CN102841932A (zh) * 2012-08-06 2012-12-26 河海大学 一种基于内容的音频语义特征相似度比较方法
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN103731738A (zh) * 2014-01-23 2014-04-16 哈尔滨理工大学 基于用户群组行为分析的视频推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周晓红: "基于内容与链接的页面价值算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279289A (zh) * 2015-12-04 2016-01-27 中国传媒大学 基于指数衰减窗口的个性化音乐推荐排序方法
CN105630946B (zh) * 2015-12-23 2019-03-19 百度在线网络技术(北京)有限公司 一种基于大数据的领域交叉推荐方法及装置
CN105630946A (zh) * 2015-12-23 2016-06-01 百度在线网络技术(北京)有限公司 一种基于大数据的领域交叉推荐方法及装置
CN105653693A (zh) * 2015-12-30 2016-06-08 东软集团股份有限公司 一种个性化推荐方法及装置
CN105956161A (zh) * 2016-05-17 2016-09-21 北京奇虎科技有限公司 一种信息推荐方法和装置
CN105956161B (zh) * 2016-05-17 2019-07-02 北京奇虎科技有限公司 一种信息推荐方法和装置
CN106250499A (zh) * 2016-08-02 2016-12-21 合网络技术(北京)有限公司 一种视频对挖掘方法及装置
CN108255860A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 关键词分析处理方法和装置
CN108255860B (zh) * 2016-12-29 2020-07-31 北京国双科技有限公司 关键词分析处理方法和装置
CN108121760A (zh) * 2017-11-23 2018-06-05 南京邮电大学 一种面向ogc地理信息服务数据的挖掘分析与推荐方法
CN109977242A (zh) * 2019-03-28 2019-07-05 北京奇艺世纪科技有限公司 一种推荐方法、装置、终端设备及计算机可读存储介质
CN111460294A (zh) * 2020-03-31 2020-07-28 汉海信息技术(上海)有限公司 消息推送方法、装置、计算机设备及存储介质
CN111460294B (zh) * 2020-03-31 2023-09-15 汉海信息技术(上海)有限公司 消息推送方法、装置、计算机设备及存储介质
CN115412759A (zh) * 2022-09-14 2022-11-29 北京字跳网络技术有限公司 信息显示方法、装置、设备、计算机可读存储介质及产品
CN116628201A (zh) * 2023-05-18 2023-08-22 浙江数洋科技有限公司 一种文本资料库的智能化分群和推送方法
CN116628201B (zh) * 2023-05-18 2023-10-20 浙江数洋科技有限公司 一种文本资料库的智能化分群和推送方法

Also Published As

Publication number Publication date
CN105095279B (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN105095279A (zh) 文件推荐方法和装置
Mirzasoleiman et al. Deletion-robust submodular maximization: Data summarization with “the right to be forgotten”
US20210150415A1 (en) Feature selection method, device and apparatus for constructing machine learning model
CN107451199B (zh) 问题推荐方法及装置、设备
US10789634B2 (en) Personalized recommendation method and system, and computer-readable record medium
US20200294111A1 (en) Determining target user group
CN105005582B (zh) 多媒体信息的推荐方法及装置
US20140279773A1 (en) Scoring Concept Terms Using a Deep Network
US20210097615A1 (en) Tool for assisting user modification of a dynamic user portfolio
CN104079960B (zh) 文件推荐方法和装置
US20140074831A1 (en) Determination of category information using multiple stages
US20130132851A1 (en) Sentiment estimation of web browsing user
US10019419B2 (en) Method, server, browser, and system for recommending text information
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN104217030A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN103390000B (zh) 一种网页搜索方法及网页搜索系统
CN107480277A (zh) 用于网站日志采集的方法及装置
US20150348059A1 (en) System and method for determining the shopping phase of a shopper
WO2018144048A1 (en) Gain adjustment component for computer network routing infrastructure
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN113869931A (zh) 广告投放策略确定方法、装置、计算机设备和存储介质
CN109819002B (zh) 数据推送方法和装置、存储介质及电子装置
CN103262079B (zh) 检索装置及检索方法
Gisselbrecht et al. Whichstreams: A dynamic approach for focused data capture from large social media
CN104102727A (zh) 查询词的推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant