CN103870454A - 数据推荐方法及系统 - Google Patents

数据推荐方法及系统 Download PDF

Info

Publication number
CN103870454A
CN103870454A CN201210525914.0A CN201210525914A CN103870454A CN 103870454 A CN103870454 A CN 103870454A CN 201210525914 A CN201210525914 A CN 201210525914A CN 103870454 A CN103870454 A CN 103870454A
Authority
CN
China
Prior art keywords
user
data
recommended
recommended data
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210525914.0A
Other languages
English (en)
Inventor
刘作涛
陈运文
纪达麒
辛颖伟
姚璐
王文广
邹溢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengle Information Technolpogy Shanghai Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN201210525914.0A priority Critical patent/CN103870454A/zh
Publication of CN103870454A publication Critical patent/CN103870454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据推荐方法及系统,所述方法包括:收集每个用户对每个被推荐数据的选择记录;根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率;获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度;根据平均受欢迎程度获取每个被推荐数据的推荐得分或根据选择记录、平均点击率和平均受欢迎程度获取每个被推荐数据的推荐得分。本发明能够自动对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户。

Description

数据推荐方法及系统
技术领域
本发明涉及一种数据推荐方法及系统。
背景技术
随着互联网内容的爆炸性增长,尤其是视频网站和社交网站的快速发展,每天有大量的新鲜内容被生产和消费,而且对一个用户来说,从大量无关的数据或内容中发现感兴趣的信息越来越困难。
常用的从大量数据或内容中进行筛选和推荐的做法是,由网站编辑手工标记高质量的或者跟时事热点密切相关的内容,并推送到网站的主页面,或者通知到各个用户。但是这种做法不仅费事费力,而且还有明显的缺点:一方面其更新比较慢且不够及时;另一方面,因为用户的口味各异,手工推荐不能够满足用户的个性化需求。
针对视频网站来说,推荐技术尤为重要。首先,由于国内各大视频网站积累的视频数量通常在几千万的数量级,而且相比新闻通常集中在几个主要的事件上,视频的内容更为发散和丰富,用户短时间内很难找到自己真正感兴趣的视频;其次,用户观看一部视频所花费的时间比较长,加上大多数网站在播放视频之前会播放一段广告,如果推荐的视频不和用户口味,对用户体验是一个很大的伤害。
数据推荐系统如视频推荐系统是指由计算机系统来自动分析和统计过去一段时间内的用户行为记录和视频本身的特征,自动的发掘用户的偏好,并将用户最可能感兴趣的数据如视频推荐给用户观看。不同用户的需求和偏好可能相差很大,比如有的用户更关心娱乐八卦,有的用户更喜欢搞笑视频,有的用户更喜欢电影或电视剧。因此,如何将用户在网站上的交互行为转化为推荐系统能够识别和处理的数据,从大量的数据中识别出用户兴趣,将待推荐的数据如视频与不同的兴趣主题相对应,使数据推荐系统及时地响应用户的请求,并且对不同的用户推荐不同的数据如视频,来迎合用户的情感偏好是目前亟待解决的问题。
发明内容
本发明的目的在于提供一种数据推荐方法及系统,能够自动对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户。
为解决上述问题,本发明提供一种数据推荐方法,包括:
收集每个用户对每个被推荐数据的选择记录;
根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率;
根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度;
判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,
若是,则根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户,其中P为正整数;
若否,则根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数。
进一步的,在上述方法中,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括:
根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度;
根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵;
将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵;
根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度;
根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数。
进一步的,在上述方法中,根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括:
根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数;
根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分,获取推荐得分最高的前Q个候选数据推荐给用户。
进一步的,在上述方法中,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户的步骤包括:
根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数;
根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分,获取推荐得分最高的前P个候选数据推荐给用户。
进一步的,在上述方法中,每个用户对每个被推荐数据的选择记录的分值用score(user,item)表示,其中user代表用户,item代表被推荐数据,包括对每个用户对每个被推荐数据接受记录或拒绝记录,接受记录的分值score(user,item)=1,拒绝记录的分值score(user,item)=0。
进一步的,在上述方法中,每个用户对被推荐数据的平均点击率根据下述公式获取:
Figure BDA00002544039300051
进一步的,在上述方法中,每个被推荐数据对其所有被推荐的用户的平均受欢迎程度根据下述公式获取:
Figure BDA00002544039300052
进一步的,在上述方法中,根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=quality(item)。
进一步的,在上述方法中,根据下述公式获取每个用户对每个被推荐数据的偏好程度:
interest(user,item)=score(user,item)-click(user)-quality(item)。
进一步的,在上述方法中,根据下述公式将所述偏好矩阵分解成第一矩阵和第二矩阵:
M=UTV,其中M代表偏好矩阵,U代表第一矩阵,V代表第二矩阵,T代表矩阵变换,M的维数是m乘n,m为user的数量,n为item的数量,U的维数为k乘m,V的维数为k乘n,其中k为隐藏主题的个数,k小于m并且小于n,m、n、k均为正整数。
进一步的,在上述方法中,根据下述公式每个用户对每个被推荐数据的兴趣程度:
predict ( user , item ) = Σ topic = 1 k U user , topic V item , topic ; 其中topic代表隐藏主题。
进一步的,在上述方法中,根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=predict(user,item)+quality(item)。
根据本发明的另一面,提供一种数据推荐系统,包括:
包括数据收集模块、模型生成模块和结果推荐模块,
数据收集模块,用于收集每个用户对每个被推荐数据的选择记录;
模型生成模块包括:
平均点击率单元,用于根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率;
平均受欢迎程度单元,用于根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度;
判断单元,用于判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,
第一结果单元,用于当每个用户对被推荐数据的选择记录的数量小于一预设的阈值时,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分;
第二结果单元,用于当每个用户对被推荐数据的选择记录的数量大于等于所述预设的阈值时,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分;
结果推荐模块,用于获取推荐得分最高的前P个被推荐数据或获取推荐得分最高的前Q个被推荐数据,并推荐给用户,其中P、Q为正整数。
进一步的,在上述系统中,所述第二结果单元包括:
偏好程度子单元,用于根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度;
偏好矩阵子单元,用于根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵;
分解子单元,用于将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵;
兴趣程度子单元,用于根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度;
结果子单元,用于根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。
进一步的,在上述系统中,所述结果子单元用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数,并根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分;
所述结果推荐模块,用于获取推荐得分最高的前Q个候选数据推荐给用户。
进一步的,在上述系统中,所述第一结果单元用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数,并根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分;
所述结果推荐模块,用于获取推荐得分最高的前P个候选数据推荐给用户。
与现有技术相比,本发明具有如下优点:
1)通过收集每个用户对每个被推荐数据的选择记录,根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率,根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度,能够自动对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户,因此推荐的多样性更好,覆盖率更高;
2)根据下述公式获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度:
不仅考虑了视频被点击次数的多少,也综合分析了点击视频的用户的行为特点,不仅能自动挖掘出数据如视频的流行统计特征,而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理;
3)根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度,根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵,将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵,根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度,根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数,能够挖掘出影响用户偏好的隐藏主题,以及被推荐数据与各个隐藏主题的对应关系,并以此进行个性化数据如视频推荐,推荐过程中综合考虑每个用户的偏好程度,数据与各个隐藏主题的对应关系,以及数据的平均受欢迎程度,具有很好的个性化效果;
4)通过判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,若是,则根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户,其中P为正整数,实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下,仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果,具有很好的鲁棒性。
通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
附图说明
图1是本发明实施例一的数据推荐方法的流程图;
图2是本发明实施例一的推荐结果示意图;
图3是本发明实施例二数据推荐方法的流程图;
图4是本发明实施例三的数据推荐系统的模块示意图;
图5是本发明实施例三的数据推荐系统的架构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种数据推荐方法,包括:
步骤S11,收集每个用户对每个被推荐数据的选择记录。具体的,当用户访问网站的时候,网站会通过不同的途径向用户(user)展示被推荐数据(item),例如搜索页、推荐页、浏览页等,用户可能点击观看,也可能拒绝观看,或者将内容收藏到收藏夹,搜集用户对网站推送内容的选择记录后,可将其转换为可以统一识别的和处理的数据结构。
优选的,每个用户对每个被推荐数据的选择记录的分值用score(user,item)表示,其中user代表用户,item代表被推荐数据,包括对每个用户对每个被推荐数据接受记录或拒绝记录,接受记录的分值score(user,item)=1,拒绝记录的分值score(user,item)=0,具体的,当用户访问网站的时候,可以对网站上展示的被推荐数据选择接受或者拒绝,本步骤中搜集用户对网站推送被推荐数据的选择记录,存储到日志文件之中,可以将新的日志文件进行处理,转换为统一可以识别的数据结构,处理后日志文件中每一条选择记录可以表示为:<user,item,score(user,item)>,其中user和item用一个数字表示,score(user,item)指的是user是否点击此item,点击则score为1,拒绝则为0,处理后的选择记录可保存在文件系统中后续步骤使用。
步骤S12,根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率,具体的,不同用户的行为方式有很大区别,有的用户比较挑剔,只接受很少的被推荐数据如视频;有的用户则比较温和,会点击观看大部分的被推荐数据如视频。
优选的,每个用户对被推荐数据的平均点击率可根据下述公式获取:
如果用户以前从未登陆过,平均点击率取值为0。
步骤S13,根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度,以此作为item的质量得分quality(item),即被推荐数据的流行统计特征,这样可以自动的对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户,因此推荐的多样性更好,覆盖率更高。
优选的,每个被推荐数据对其所有被推荐的用户的平均受欢迎程度可根据下述公式获取:
即计算被推荐数据的平均受欢迎程度时,必须要去除不同用户的平均点击率的影响,如果是被一个平均点击率很高的用户点击,则要减去一些分数,这样不仅考虑了视频被点击次数的多少,也综合分析了点击视频的用户的行为特点,不仅能自动挖掘出数据如视频的流行统计特征,而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理。
步骤S14,判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,若是,则执行步骤S15,若否,则执行步骤S16。
步骤S15,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户,其中P为正整数,这样可以实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下,仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果,具有很好的鲁棒性。
优选的,可根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=quality(item),即如果一个用户是新用户、一被推荐数据是新的或者暂时不能够获得足够的选择记录,则直接根据item的质量得分推荐高质量的item给用户,通过对所有被推荐数据如视频的推荐得分recommend(item)进行排序,选取得分最高前几个被推荐数据推荐给用户。
步骤S16,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数。
优选的,步骤S6可包括:
步骤S161,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度;
优选的,可根据下述公式获取每个用户对每个被推荐数据的偏好程度:
interest(user,item)=score(user,item)-click(user)-quality(item),即从每一个score中扣除user的平均点击率和item的质量得分,即是user对这个item的偏好程度。
步骤S162,根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵,具体的,所有的interest(user,item)可以构成一个用户的偏好矩阵M,这个矩阵是稀疏矩阵,即矩阵中只有一部分的点是有值的,大部分点的值是空着的;
步骤S163,将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵,即对偏好矩阵进行矩阵分解,可以得到隐藏主题,以及user、item与这些隐藏主题的对应关系;
优选的,可根据下述公式将所述偏好矩阵分解成第一矩阵和第二矩阵:
M=UTV,其中M代表偏好矩阵,U代表第一矩阵,V代表第二矩阵,T代表矩阵变换,M的维数是m乘n,m为user的数量,n为item的数量,U的维数为k乘m,V的维数为k乘n,其中k为隐藏主题的个数,k小于m并且小于n,m、n、k均为正整数,具体的,偏好矩阵M分解的目标是通过2个维数更低的矩阵相乘来模拟原来的偏好矩阵M,即M中的值与UTV得到的值尽可能的接近。U中的每一列即为用户特征向量,分别表示了用户对k个隐藏主题的偏好程度;V中每一列即为数据特征向量,分别表示了被推荐数据与k个隐藏主题的关联程度,可以假定,用户对内容感兴趣与否,可以通过被推荐数据与k个主题的关联程度,以及用户对这k个主题的兴趣间接得到。
步骤S164,根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度;
优选的,可根据下述公式每个用户对每个被推荐数据的兴趣程度:
predict ( user , item ) = &Sigma; topic = 1 k U user , topic V item , topic ,其中topic代表隐藏主题。
步骤S165,根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数。
优选的,可根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=predict(user,item)+quality(item),即如果一个用户已经有足够的选择记录,并且一被推荐数据之前被推荐过多次,即user和item在U和V中分别有算好的结果,则每个被推荐数据的推荐得分为用户的偏好程度加上内容的质量得分,则通过其对不同隐藏主题的偏好以及item与隐藏主题的相关程度,筛选最符合用户偏好的前Q个被推荐数据(item)推荐给用户,当所述被推荐数据为视频时,如图2所示是通过本实施例的方法挖掘出来的用户可能感兴趣的视频列表,这样能够挖掘出影响用户偏好的隐藏主题,以及被推荐数据与各个隐藏主题的对应关系,并以此进行个性化数据如视频推荐,推荐过程中综合考虑每个用户的偏好程度,数据与各个隐藏主题的对应关系,以及数据的平均受欢迎程度,具有很好的个性化效果。
本实施例中提出了一种基于流行统计特征和隐藏主题的个性化视频推荐方法,推荐结果综合考虑了用户特征向量、数据特征向量,以及数据的质量得分,不仅保证了推荐结果是高质量的视频,也能够满足用户的个性化需求。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
实施例二
如图3所示,本发明提供另一数据推荐方法,本实施例与实施例的区别在于,根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,然后计算每个候选数据的推荐得分,从而使推荐结果更精确,所述方法包括:
步骤S21,收集每个用户对每个被推荐数据的选择记录。具体的,当用户访问网站的时候,网站会通过不同的途径向用户(user)展示被推荐数据(item),例如搜索页、推荐页、浏览页等,用户可能点击观看,也可能拒绝观看,或者将内容收藏到收藏夹,搜集用户对网站推送内容的选择记录后,可将其转换为可以统一识别的和处理的数据结构。
优选的,每个用户对每个被推荐数据的选择记录的分值用score(user,item)表示,其中user代表用户,item代表被推荐数据,包括对每个用户对每个被推荐数据接受记录或拒绝记录,接受记录的分值score(user,item)=1,拒绝记录的分值score(user,item)=0,具体的,当用户访问网站的时候,可以对网站上展示的被推荐数据选择接受或者拒绝,本步骤中搜集用户对网站推送被推荐数据的选择记录,存储到日志文件之中,可以将新的日志文件进行处理,转换为统一可以识别的数据结构,处理后日志文件中每一条选择记录可以表示为:<user,item,score(user,item)>,其中user和item用一个数字表示,score(user,item)指的是user是否点击此item,点击则score为1,拒绝则为0,处理后的选择记录可保存在文件系统中后续步骤使用。
步骤S22,根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率,具体的,不同用户的行为方式有很大区别,有的用户比较挑剔,只接受很少的被推荐数据如视频;有的用户则比较温和,会点击观看大部分的被推荐数据如视频。
优选的,每个用户对被推荐数据的平均点击率可根据下述公式获取:
Figure BDA00002544039300181
如果用户以前从未登陆过,平均点击率取值为0。
步骤S23,根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度,以此作为item的质量得分quality(item),即被推荐数据的流行统计特征,这样可以自动的对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户,因此推荐的多样性更好,覆盖率更高。
优选的,每个被推荐数据对其所有被推荐的用户的平均受欢迎程度可根据下述公式获取:
Figure BDA00002544039300182
即计算被推荐数据的平均受欢迎程度时,必须要去除不同用户的平均点击率的影响,如果是被一个平均点击率很高的用户点击,则要减去一些分数,这样不仅考虑了视频被点击次数的多少,也综合分析了点击视频的用户的行为特点,不仅能自动挖掘出数据如视频的流行统计特征,而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理。
步骤S24,判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,若是,则执行步骤S251,若否,则执行步骤S26。
步骤S251,根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数,即从筛选出足够高质量item作为推荐的候选;
步骤S252,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分,获取推荐得分最高的前P个候选数据推荐给用户,其中P为正整数,这样可以实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下,仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果,具有很好的鲁棒性。
优选的,可根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=quality(item),即如果一个用户是新用户、一被推荐数据是新的或者暂时不能够获得足够的选择记录,则直接根据item的质量得分推荐高质量的item给用户,通过对所有被推荐数据如视频的推荐得分recommend(item)进行排序,选取得分最高前几个被推荐数据推荐给用户。
步骤S26,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数。
优选的,步骤S26可包括:
步骤S261,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度;
优选的,可根据下述公式获取每个用户对每个被推荐数据的偏好程度:
interest(user,item)=score(user,item)-click(user)-quality(item),即从每一个score中扣除user的平均点击率和item的质量得分,即是user对这个item的偏好程度。
步骤S262,根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵,具体的,所有的interest(user,item)可以构成一个用户的偏好矩阵M,这个矩阵是稀疏矩阵,即矩阵中只有一部分的点是有值的,大部分点的值是空着的;
步骤S263,将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵,即对偏好矩阵进行矩阵分解,可以得到隐藏主题,以及user、item与这些隐藏主题的对应关系;
优选的,可根据下述公式将所述偏好矩阵分解成第一矩阵和第二矩阵:
M=UTV,其中M代表偏好矩阵,U代表第一矩阵,V代表第二矩阵,T代表矩阵变换,M的维数是m乘n,m为user的数量,n为item的数量,U的维数为k乘m,V的维数为k乘n,其中k为隐藏主题的个数,k小于m并且小于n,m、n、k均为正整数,具体的,偏好矩阵M分解的目标是通过2个维数更低的矩阵相乘来模拟原来的偏好矩阵M,即M中的值与UTV得到的值尽可能的接近。U中的每一列即为用户特征向量,分别表示了用户对k个隐藏主题的偏好程度;V中每一列即为数据特征向量,分别表示了被推荐数据与k个隐藏主题的关联程度,可以假定,用户对内容感兴趣与否,可以通过被推荐数据与k个主题的关联程度,以及用户对这k个主题的兴趣间接得到。
步骤S264,根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度;
优选的,可根据下述公式每个用户对每个被推荐数据的兴趣程度:
predict ( user , item ) = &Sigma; topic = 1 k U user , topic V item , topic ,其中topic代表隐藏主题。
步骤S265,根根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数,即从筛选出足够高质量item作为推荐的候选;
步骤S266,根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分,获取推荐得分最高的前Q个候选数据推荐给用户,其中Q为正整数。
优选的,可根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=predict(user,item)+quality(item),即如果一个用户已经有足够的选择记录,并且一被推荐数据之前被推荐过多次,即user和item在U和V中分别有算好的结果,则每个被推荐数据的推荐得分为用户的偏好程度加上内容的质量得分,则通过其对不同隐藏主题的偏好以及item与隐藏主题的相关程度,筛选最符合用户偏好的前Q个被推荐数据(item)推荐给用户,,这样能够挖掘出影响用户偏好的隐藏主题,以及被推荐数据与各个隐藏主题的对应关系,并以此进行个性化数据如视频推荐,推荐过程中综合考虑每个用户的偏好程度,数据与各个隐藏主题的对应关系,以及数据的平均受欢迎程度,具有很好的个性化效果。
本实施例中提出了一种基于流行统计特征和隐藏主题的个性化视频推荐方法,推荐结果综合考虑了用户特征向量、数据特征向量,以及数据的质量得分,而且根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,然后计算每个候选数据的推荐得分,从而使推荐结果更精确,满足用户的个性化需求。
实施例三
如图4和5所示,本发明还提供另一种数据推荐系统,包括数据收集模块1、模型生成模块2和结果推荐模块2。
数据收集模块1用于收集每个用户对每个被推荐数据的选择记录。具体的,当用户访问网站的时候,网站会通过不同的途径向用户(user)展示被推荐数据(item),例如搜索页、推荐页、浏览页等,用户可能点击观看,也可能拒绝观看,或者将内容收藏到收藏夹,搜集用户对网站推送内容的选择记录后,可将其转换为可以统一识别的和处理的数据结构。
优选的,每个用户对每个被推荐数据的选择记录的分值用score(user,item)表示,其中user代表用户,item代表被推荐数据,包括对每个用户对每个被推荐数据接受记录或拒绝记录,接受记录的分值score(user,item)=1,拒绝记录的分值score(user,item)=0,具体的,当用户访问网站的时候,可以对网站上展示的被推荐数据选择接受或者拒绝,本步骤中搜集用户对网站推送被推荐数据的选择记录,存储到日志文件之中,可以将新的日志文件进行处理,转换为统一可以识别的数据结构,处理后日志文件中每一条选择记录可以表示为:<user,item,score(user,item)>,其中user和item用一个数字表示,score(user,item)指的是user是否点击此item,点击则score为1,拒绝则为0,处理后的选择记录可保存在文件系统中后续模型生成模块2使用。
结果推荐模块3用于获取推荐得分最高的前P个被推荐数据或获取推荐得分最高的前Q个被推荐数据,并推荐给用户,其中P、Q为正整数。
模型生成模块2包括平均点击率单元21、平均受欢迎程度单元22、判断单元23、第一结果单元24和第二结果单元25。
平均点击率单元21用于根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率。具体的,不同用户的行为方式有很大区别,有的用户比较挑剔,只接受很少的被推荐数据如视频;有的用户则比较温和,会点击观看大部分的被推荐数据如视频。
优选的,每个用户对被推荐数据的平均点击率可根据下述公式获取:
Figure BDA00002544039300241
,如果用户以前从未登陆过,平均点击率取值为0。
平均受欢迎程度单元22用于根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度,以此作为item的质量得分quality(item),即被推荐数据的流行统计特征,这样可以自动的对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户,因此推荐的多样性更好,覆盖率更高。
优选的,每个被推荐数据对其所有被推荐的用户的平均受欢迎程度可根据下述公式获取:
Figure BDA00002544039300242
即计算被推荐数据的平均受欢迎程度时,必须要去除不同用户的平均点击率的影响,如果是被一个平均点击率很高的用户点击,则要减去一些分数,这样不仅考虑了视频被点击次数的多少,也综合分析了点击视频的用户的行为特点,不仅能自动挖掘出数据如视频的流行统计特征,而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理。
判断单元23用于判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值。
第一结果单元24用于当每个用户对被推荐数据的选择记录的数量小于一预设的阈值时,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。这样可以实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下,仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果,具有很好的鲁棒性。
优选的,可根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=quality(item),即如果一个用户是新用户、一被推荐数据是新的或者暂时不能够获得足够的选择记录,则直接根据item的质量得分推荐高质量的item给用户,通过对所有被推荐数据如视频的推荐得分recommend(item)进行排序,选取得分最高前几个被推荐数据推荐给用户。
优选的,所述第一结果单元24用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数,并根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分;
所述结果推荐模块3用于获取推荐得分最高的前P个候选数据推荐给用户,这样可以保证推荐结果更精确。
第二结果单元25用于当每个用户对被推荐数据的选择记录的数量大于等于所述预设的阈值时,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。
优选的,所述第二结果单元25包括偏好程度子单元251、偏好矩阵子单元252、分解子单元253、兴趣程度子单元254和结果子单元255。
偏好程度子单元251用于根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度。
优选的,可根据下述公式获取每个用户对每个被推荐数据的偏好程度:
interest(user,item)=score(user,item)-click(user)-quality(item),即从每一个score中扣除user的平均点击率和item的质量得分,即是user对这个item的偏好程度。
偏好矩阵子单元252用于根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵。具体的,所有的interest(user,item)可以构成一个用户的偏好矩阵M,这个矩阵是稀疏矩阵,即矩阵中只有一部分的点是有值的,大部分点的值是空着的
分解子单元253用于将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵,即对偏好矩阵进行矩阵分解,可以得到隐藏主题,以及user、item与这些隐藏主题的对应关系。
优选的,可根据下述公式将所述偏好矩阵分解成第一矩阵和第二矩阵:
M=UTV,其中M代表偏好矩阵,U代表第一矩阵,V代表第二矩阵,T代表矩阵变换,M的维数是m乘n,m为user的数量,n为item的数量,U的维数为k乘m,V的维数为k乘n,其中k为隐藏主题的个数,k小于m并且小于n,m、n、k均为正整数,具体的,偏好矩阵M分解的目标是通过2个维数更低的矩阵相乘来模拟原来的偏好矩阵M,即M中的值与UTV得到的值尽可能的接近。U中的每一列即为用户特征向量,分别表示了用户对k个隐藏主题的偏好程度;V中每一列即为数据特征向量,分别表示了被推荐数据与k个隐藏主题的关联程度,可以假定,用户对内容感兴趣与否,可以通过被推荐数据与k个主题的关联程度,以及用户对这k个主题的兴趣间接得到。
兴趣程度子单元254用于根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度。
优选的,可根据下述公式每个用户对每个被推荐数据的兴趣程度:
predict ( user , item ) = &Sigma; topic = 1 k U user , topic V item , topic ,其中topic代表隐藏主题。结果子单元255用于根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。
优选的,可根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=predict(user,item)+quality(item),即如果一个用户已经有足够的选择记录,并且一被推荐数据之前被推荐过多次,即user和item在U和V中分别有算好的结果,则每个被推荐数据的推荐得分为用户的偏好程度加上内容的质量得分,则通过其对不同隐藏主题的偏好以及item与隐藏主题的相关程度,筛选最符合用户偏好的前Q个被推荐数据(item)推荐给用户,当这样能够挖掘出影响用户偏好的隐藏主题,以及被推荐数据与各个隐藏主题的对应关系,并以此进行个性化数据如视频推荐,推荐过程中综合考虑每个用户的偏好程度,数据与各个隐藏主题的对应关系,以及数据的平均受欢迎程度,具有很好的个性化效果。
较佳的,所述结果子单元255用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数,并根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分;
所述结果推荐模块3用于获取推荐得分最高的前Q个候选数据推荐给用户。
本实施例中提出了一种基于流行统计特征和隐藏主题的个性化视频推荐方法,推荐结果综合考虑了用户特征向量、数据特征向量,以及数据的质量得分,而且根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,然后计算每个候选数据的推荐得分,从而使推荐结果更精确,满足用户的个性化需求。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
与现有技术相比,本发明具有如下优点:
1)通过收集每个用户对每个被推荐数据的选择记录,根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率,根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度,能够自动对活跃用户和非活跃用户,以及热点视频和非热点视频做区分性的处理,自动挖掘出数据如视频的流行统计特征,使推荐结果不仅限于最热门的数据如视频,大量的数据如视频都有机会展示给不同的用户,因此推荐的多样性更好,覆盖率更高;
2)根据下述公式获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度:
Figure BDA00002544039300291
不仅考虑了视频被点击次数的多少,也综合分析了点击视频的用户的行为特点,不仅能自动挖掘出数据如视频的流行统计特征,而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理;
3)根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度,根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵,将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵,根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度,根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数,能够挖掘出影响用户偏好的隐藏主题,以及被推荐数据与各个隐藏主题的对应关系,并以此进行个性化数据如视频推荐,推荐过程中综合考虑每个用户的偏好程度,数据与各个隐藏主题的对应关系,以及数据的平均受欢迎程度,具有很好的个性化效果;
4)通过判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,若是,则根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户,其中P为正整数,实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下,仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果,具有很好的鲁棒性。
通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种数据推荐方法,其特征在于,包括:
收集每个用户对每个被推荐数据的选择记录;
根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率;
根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度;
判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,
若是,则根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户,其中P为正整数;
若否,则根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户,其中Q为正整数。
2.如权利要求1所述的数据推荐方法,其特征在于,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括:
根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度;
根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵;
将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵;
根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度;
根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户。
3.如权利要求2所述的数据推荐方法,其特征在于,根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括:
根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数;
根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分,获取推荐得分最高的前Q个候选数据推荐给用户。
4.如权利要求1所述的数据推荐方法,其特征在于,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分,获取推荐得分最高的前P个被推荐数据推荐给用户的步骤包括:
根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据,其中N为正整数;
根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分,获取推荐得分最高的前P个候选数据推荐给用户。
5.如权利要求2至4任一项所述的数据推荐方法,其特征在于,每个用户对每个被推荐数据的选择记录的分值用score(user,item)表示,其中user代表用户,item代表被推荐数据,包括对每个用户对每个被推荐数据接受记录或拒绝记录,接受记录的分值score(user,item)=1,拒绝记录的分值score(user,item)=0。
6.如权利要求5所述的数据推荐方法,其特征在于,每个用户对被推荐数据的平均点击率根据下述公式获取:
Figure FDA00002544039200031
7.如权利要求6所述的数据推荐方法,其特征在于,每个被推荐数据对其所有被推荐的用户的平均受欢迎程度根据下述公式获取:
Figure FDA00002544039200032
8.如权利要求7所述的数据推荐方法,其特征在于,
根据下述公式获取每个被推荐数据的推荐得分:
recommend(item)=quality(item)。
9.如权利要求7所述的数据推荐方法,其特征在于,
根据公式interest(user,item)=score(user,item)-click(user)-quality(item)获取每个用户对每个被推荐数据的偏好程度;
根据公式M=UTV将所述偏好矩阵分解成第一矩阵和第二矩阵,其中M代表偏好矩阵,U代表第一矩阵,V代表第二矩阵,T代表矩阵变换,M的维数是m乘n,m为user的数量,n为item的数量,U的维数为k乘m,V的维数为k乘n,其中k为隐藏主题的个数,k小于m并且小于n,m、n、k均为正整数;
根据公式 predict ( user , item ) = &Sigma; topic = 1 k U user , topic V item , topic 确定每个用户对每个被推荐数据的兴趣程度,其中topic代表隐藏主题;
据公式recommend(item)=predict(user,item)+quality(item)获取每个被推荐数据的推荐得分。
10.一种数据推荐系统,其特征在于,包括数据收集模块、模型生成模块和结果推荐模块,
数据收集模块,用于收集每个用户对每个被推荐数据的选择记录;
模型生成模块包括:
平均点击率单元,用于根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率;
平均受欢迎程度单元,用于根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度;
判断单元,用于判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值,
第一结果单元,用于当每个用户对被推荐数据的选择记录的数量小于一预设的阈值时,根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分;
第二结果单元,用于当每个用户对被推荐数据的选择记录的数量大于等于所述预设的阈值时,根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分;
结果推荐模块,用于获取推荐得分最高的前P个被推荐数据或获取推荐得分最高的前Q个被推荐数据,并推荐给用户,其中P、Q为正整数。
CN201210525914.0A 2012-12-07 2012-12-07 数据推荐方法及系统 Pending CN103870454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210525914.0A CN103870454A (zh) 2012-12-07 2012-12-07 数据推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210525914.0A CN103870454A (zh) 2012-12-07 2012-12-07 数据推荐方法及系统

Publications (1)

Publication Number Publication Date
CN103870454A true CN103870454A (zh) 2014-06-18

Family

ID=50908998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210525914.0A Pending CN103870454A (zh) 2012-12-07 2012-12-07 数据推荐方法及系统

Country Status (1)

Country Link
CN (1) CN103870454A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331454A (zh) * 2014-10-30 2015-02-04 北京思特奇信息技术股份有限公司 一种维系挽留休眠用户的系统及方法
CN104506894A (zh) * 2014-12-22 2015-04-08 合一网络技术(北京)有限公司 多媒体资源评估方法及其装置
CN104731950A (zh) * 2015-03-31 2015-06-24 北京奇艺世纪科技有限公司 一种视频推荐方法和装置
CN105072465A (zh) * 2015-08-27 2015-11-18 北京搜狗科技发展有限公司 一种视频播放控制方法及电子设备
CN105335491A (zh) * 2015-10-20 2016-02-17 杭州东信北邮信息技术有限公司 基于用户点击行为来向用户推荐图书的方法和系统
CN105447087A (zh) * 2015-11-06 2016-03-30 腾讯科技(深圳)有限公司 一种视频推荐方法及装置
CN105468386A (zh) * 2014-08-29 2016-04-06 小米科技有限责任公司 黄页显示方法及装置
CN105843876A (zh) * 2016-03-18 2016-08-10 合网络技术(北京)有限公司 多媒体资源的质量评估方法和装置
CN106446189A (zh) * 2016-09-29 2017-02-22 广州艾媒数聚信息咨询股份有限公司 一种资讯推荐方法及系统
CN106649482A (zh) * 2016-09-30 2017-05-10 网易(杭州)网络有限公司 一种信息推送方法及装置
CN106919692A (zh) * 2017-03-07 2017-07-04 广州优视网络科技有限公司 一种推送消息的方法和装置
CN107368533A (zh) * 2017-06-15 2017-11-21 北京奇艺世纪科技有限公司 一种内容项推荐方法、装置及电子设备
CN107786895A (zh) * 2017-10-18 2018-03-09 北京奇艺世纪科技有限公司 一种播放页视频推荐的质量评估方法及装置
CN105069099B (zh) * 2015-08-06 2018-10-19 北京奇艺世纪科技有限公司 一种信息推荐方法及系统
CN109889864A (zh) * 2019-01-03 2019-06-14 百度在线网络技术(北京)有限公司 视频推送方法、装置、设备及存储介质
CN110147496A (zh) * 2019-05-13 2019-08-20 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN112291625A (zh) * 2020-10-16 2021-01-29 腾讯科技(北京)有限公司 信息质量处理方法、装置、电子设备及存储介质
CN114048389A (zh) * 2022-01-11 2022-02-15 山东捷瑞数字科技股份有限公司 一种面向工程机械行业的内容推荐方法及系统
TWI790592B (zh) * 2020-12-23 2023-01-21 魏士晉 用於識別用戶在預測各種內容項目的流行度的能力的能力識別方法及系統
CN116193206A (zh) * 2023-04-25 2023-05-30 北京小糖科技有限责任公司 优质内容筛选方法、装置、终端设备及存储介质

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468386A (zh) * 2014-08-29 2016-04-06 小米科技有限责任公司 黄页显示方法及装置
CN104331454A (zh) * 2014-10-30 2015-02-04 北京思特奇信息技术股份有限公司 一种维系挽留休眠用户的系统及方法
CN104506894A (zh) * 2014-12-22 2015-04-08 合一网络技术(北京)有限公司 多媒体资源评估方法及其装置
CN104731950A (zh) * 2015-03-31 2015-06-24 北京奇艺世纪科技有限公司 一种视频推荐方法和装置
CN104731950B (zh) * 2015-03-31 2018-09-28 北京奇艺世纪科技有限公司 一种视频推荐方法和装置
CN105069099B (zh) * 2015-08-06 2018-10-19 北京奇艺世纪科技有限公司 一种信息推荐方法及系统
CN105072465A (zh) * 2015-08-27 2015-11-18 北京搜狗科技发展有限公司 一种视频播放控制方法及电子设备
CN105335491B (zh) * 2015-10-20 2018-11-09 杭州东信北邮信息技术有限公司 基于用户点击行为来向用户推荐图书的方法和系统
CN105335491A (zh) * 2015-10-20 2016-02-17 杭州东信北邮信息技术有限公司 基于用户点击行为来向用户推荐图书的方法和系统
CN105447087A (zh) * 2015-11-06 2016-03-30 腾讯科技(深圳)有限公司 一种视频推荐方法及装置
CN105447087B (zh) * 2015-11-06 2021-08-24 腾讯科技(深圳)有限公司 一种视频推荐方法及装置
CN105843876A (zh) * 2016-03-18 2016-08-10 合网络技术(北京)有限公司 多媒体资源的质量评估方法和装置
US10762122B2 (en) 2016-03-18 2020-09-01 Alibaba Group Holding Limited Method and device for assessing quality of multimedia resource
EP3346396A4 (en) * 2016-03-18 2018-09-26 Youku Internet Technology (Beijing) Co., Ltd. Multimedia resource quality assessment method and apparatus
CN106446189A (zh) * 2016-09-29 2017-02-22 广州艾媒数聚信息咨询股份有限公司 一种资讯推荐方法及系统
CN106649482B (zh) * 2016-09-30 2022-05-27 网易(杭州)网络有限公司 一种信息推送方法及装置
CN106649482A (zh) * 2016-09-30 2017-05-10 网易(杭州)网络有限公司 一种信息推送方法及装置
CN106919692B (zh) * 2017-03-07 2021-02-19 阿里巴巴(中国)有限公司 一种推送消息的方法和装置
CN106919692A (zh) * 2017-03-07 2017-07-04 广州优视网络科技有限公司 一种推送消息的方法和装置
CN107368533A (zh) * 2017-06-15 2017-11-21 北京奇艺世纪科技有限公司 一种内容项推荐方法、装置及电子设备
CN107368533B (zh) * 2017-06-15 2020-04-03 北京奇艺世纪科技有限公司 一种内容项推荐方法、装置及电子设备
CN107786895A (zh) * 2017-10-18 2018-03-09 北京奇艺世纪科技有限公司 一种播放页视频推荐的质量评估方法及装置
CN107786895B (zh) * 2017-10-18 2019-09-17 北京奇艺世纪科技有限公司 一种播放页视频推荐的质量评估方法及装置
US11272253B2 (en) 2019-01-03 2022-03-08 Baidu Online Network Technology (Beijing) Co., Ltd. Video pushing method, apparatus, device and storage medium
CN109889864B (zh) * 2019-01-03 2021-08-31 百度在线网络技术(北京)有限公司 视频推送方法、装置、设备及存储介质
CN109889864A (zh) * 2019-01-03 2019-06-14 百度在线网络技术(北京)有限公司 视频推送方法、装置、设备及存储介质
CN110147496A (zh) * 2019-05-13 2019-08-20 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN110147496B (zh) * 2019-05-13 2021-06-25 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN112291625A (zh) * 2020-10-16 2021-01-29 腾讯科技(北京)有限公司 信息质量处理方法、装置、电子设备及存储介质
CN112291625B (zh) * 2020-10-16 2024-03-01 腾讯科技(北京)有限公司 信息质量处理方法、装置、电子设备及存储介质
TWI790592B (zh) * 2020-12-23 2023-01-21 魏士晉 用於識別用戶在預測各種內容項目的流行度的能力的能力識別方法及系統
CN114048389A (zh) * 2022-01-11 2022-02-15 山东捷瑞数字科技股份有限公司 一种面向工程机械行业的内容推荐方法及系统
CN114048389B (zh) * 2022-01-11 2022-04-19 山东捷瑞数字科技股份有限公司 一种面向工程机械行业的内容推荐方法及系统
CN116193206A (zh) * 2023-04-25 2023-05-30 北京小糖科技有限责任公司 优质内容筛选方法、装置、终端设备及存储介质
CN116193206B (zh) * 2023-04-25 2023-08-22 北京小糖科技有限责任公司 优质内容筛选方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN103870454A (zh) 数据推荐方法及系统
Garcin et al. Offline and online evaluation of news recommender systems at swissinfo. ch
US9706008B2 (en) Method and system for efficient matching of user profiles with audience segments
CN104317835B (zh) 视频终端的新用户推荐方法
CN103559206B (zh) 一种信息推荐方法及系统
US20170169349A1 (en) Recommending method and electronic device
CN102880712B (zh) 一种用于对搜索的网络视频进行排序的方法和系统
CN103649981B (zh) 用于输送目标内容的方法和装置
CN102222078B (zh) 实时信息推送方法及设备
CN109189951A (zh) 一种多媒体资源推荐方法、设备及存储介质
CN101482884A (zh) 一种基于用户偏好评分分布的协作推荐系统
CN101271559A (zh) 一种基于用户局部兴趣挖掘的协作推荐系统
CN103473354A (zh) 基于电子商务平台的保险推荐系统框架及保险推荐方法
CN110430477A (zh) 直播内容的推荐方法、装置、计算机设备和存储介质
US20150213136A1 (en) Method and System for Providing a Personalized Search List
CN101764661A (zh) 基于数据融合的视频节目推荐系统
CN105338408B (zh) 基于时间因子的视频推荐方法
CN103186595A (zh) 音视频推荐方法及系统
An et al. Validating social media data for automatic persona generation
CN102456199A (zh) 互联网用户样本集的扩充、属性参数获取方法及装置
CN103688256A (zh) 基于评论信息确定视频质量参数的方法、装置和系统
CN103870452A (zh) 数据推荐方法及系统
Aggrawal et al. Early viewers or followers: a mathematical model for YouTube viewers’ categorization
CN116861063B (zh) 一种发掘社媒热搜商业价值度的方法
CN110489665B (zh) 一种基于情景建模和卷积神经网络的微博个性化推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618