CN103870454A

CN103870454A - 数据推荐方法及系统

Info

Publication number: CN103870454A
Application number: CN201210525914.0A
Authority: CN
Inventors: 刘作涛; 陈运文; 纪达麒; 辛颖伟; 姚璐; 王文广; 邹溢
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shengle Information Technolpogy Shanghai Co Ltd
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2014-06-18

Abstract

本发明涉及一种数据推荐方法及系统，所述方法包括：收集每个用户对每个被推荐数据的选择记录；根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率；获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度；根据平均受欢迎程度获取每个被推荐数据的推荐得分或根据选择记录、平均点击率和平均受欢迎程度获取每个被推荐数据的推荐得分。本发明能够自动对活跃用户和非活跃用户，以及热点视频和非热点视频做区分性的处理，自动挖掘出数据如视频的流行统计特征，使推荐结果不仅限于最热门的数据如视频，大量的数据如视频都有机会展示给不同的用户。

Description

数据推荐方法及系统

技术领域

本发明涉及一种数据推荐方法及系统。

背景技术

随着互联网内容的爆炸性增长，尤其是视频网站和社交网站的快速发展，每天有大量的新鲜内容被生产和消费，而且对一个用户来说，从大量无关的数据或内容中发现感兴趣的信息越来越困难。

常用的从大量数据或内容中进行筛选和推荐的做法是，由网站编辑手工标记高质量的或者跟时事热点密切相关的内容，并推送到网站的主页面，或者通知到各个用户。但是这种做法不仅费事费力，而且还有明显的缺点：一方面其更新比较慢且不够及时；另一方面，因为用户的口味各异，手工推荐不能够满足用户的个性化需求。

针对视频网站来说，推荐技术尤为重要。首先，由于国内各大视频网站积累的视频数量通常在几千万的数量级，而且相比新闻通常集中在几个主要的事件上，视频的内容更为发散和丰富，用户短时间内很难找到自己真正感兴趣的视频；其次，用户观看一部视频所花费的时间比较长，加上大多数网站在播放视频之前会播放一段广告，如果推荐的视频不和用户口味，对用户体验是一个很大的伤害。

数据推荐系统如视频推荐系统是指由计算机系统来自动分析和统计过去一段时间内的用户行为记录和视频本身的特征，自动的发掘用户的偏好，并将用户最可能感兴趣的数据如视频推荐给用户观看。不同用户的需求和偏好可能相差很大，比如有的用户更关心娱乐八卦，有的用户更喜欢搞笑视频，有的用户更喜欢电影或电视剧。因此，如何将用户在网站上的交互行为转化为推荐系统能够识别和处理的数据，从大量的数据中识别出用户兴趣，将待推荐的数据如视频与不同的兴趣主题相对应，使数据推荐系统及时地响应用户的请求，并且对不同的用户推荐不同的数据如视频，来迎合用户的情感偏好是目前亟待解决的问题。

发明内容

本发明的目的在于提供一种数据推荐方法及系统，能够自动对活跃用户和非活跃用户，以及热点视频和非热点视频做区分性的处理，自动挖掘出数据如视频的流行统计特征，使推荐结果不仅限于最热门的数据如视频，大量的数据如视频都有机会展示给不同的用户。

为解决上述问题，本发明提供一种数据推荐方法，包括：

收集每个用户对每个被推荐数据的选择记录；

根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率；

根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度；

判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值，

若是，则根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前P个被推荐数据推荐给用户，其中P为正整数；

若否，则根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户，其中Q为正整数。

进一步的，在上述方法中，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括：

根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度；

根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵；

将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵；

根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度；

根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户，其中Q为正整数。

进一步的，在上述方法中，根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括：

根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数；

根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分，获取推荐得分最高的前Q个候选数据推荐给用户。

进一步的，在上述方法中，根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前P个被推荐数据推荐给用户的步骤包括：

根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分，获取推荐得分最高的前P个候选数据推荐给用户。

进一步的，在上述方法中，每个用户对每个被推荐数据的选择记录的分值用score(user，item)表示，其中user代表用户，item代表被推荐数据，包括对每个用户对每个被推荐数据接受记录或拒绝记录，接受记录的分值score(user，item)=1，拒绝记录的分值score(user，item)=0。

进一步的，在上述方法中，每个用户对被推荐数据的平均点击率根据下述公式获取：

进一步的，在上述方法中，每个被推荐数据对其所有被推荐的用户的平均受欢迎程度根据下述公式获取：

进一步的，在上述方法中，根据下述公式获取每个被推荐数据的推荐得分：

recommend(item)=quality(item)。

进一步的，在上述方法中，根据下述公式获取每个用户对每个被推荐数据的偏好程度：

interest(user，item)=score(user，item)-click(user)-quality(item)。

进一步的，在上述方法中，根据下述公式将所述偏好矩阵分解成第一矩阵和第二矩阵：

M=U^TV，其中M代表偏好矩阵，U代表第一矩阵，V代表第二矩阵，T代表矩阵变换，M的维数是m乘n，m为user的数量，n为item的数量，U的维数为k乘m，V的维数为k乘n，其中k为隐藏主题的个数，k小于m并且小于n，m、n、k均为正整数。

进一步的，在上述方法中，根据下述公式每个用户对每个被推荐数据的兴趣程度：

predict (user, item) = Σ_{topic = 1}^{k} U_{user, topic} V_{item, topic};

其中topic代表隐藏主题。

recommend(item)＝predict(user，item)+quality(item)。

根据本发明的另一面，提供一种数据推荐系统，包括：

包括数据收集模块、模型生成模块和结果推荐模块，

数据收集模块，用于收集每个用户对每个被推荐数据的选择记录；

模型生成模块包括:

平均点击率单元，用于根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率；

平均受欢迎程度单元，用于根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度；

判断单元，用于判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值，

第一结果单元，用于当每个用户对被推荐数据的选择记录的数量小于一预设的阈值时，根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分；

第二结果单元，用于当每个用户对被推荐数据的选择记录的数量大于等于所述预设的阈值时，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分；

结果推荐模块，用于获取推荐得分最高的前P个被推荐数据或获取推荐得分最高的前Q个被推荐数据，并推荐给用户，其中P、Q为正整数。

进一步的，在上述系统中，所述第二结果单元包括：

偏好程度子单元，用于根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度；

偏好矩阵子单元，用于根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵；

分解子单元，用于将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵；

兴趣程度子单元，用于根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度；

结果子单元，用于根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。

进一步的，在上述系统中，所述结果子单元用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数，并根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分；

所述结果推荐模块，用于获取推荐得分最高的前Q个候选数据推荐给用户。

进一步的，在上述系统中，所述第一结果单元用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数，并根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分；

所述结果推荐模块，用于获取推荐得分最高的前P个候选数据推荐给用户。

与现有技术相比，本发明具有如下优点：

1)通过收集每个用户对每个被推荐数据的选择记录，根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率，根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度，能够自动对活跃用户和非活跃用户，以及热点视频和非热点视频做区分性的处理，自动挖掘出数据如视频的流行统计特征，使推荐结果不仅限于最热门的数据如视频，大量的数据如视频都有机会展示给不同的用户，因此推荐的多样性更好，覆盖率更高；

2)根据下述公式获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度：

不仅考虑了视频被点击次数的多少，也综合分析了点击视频的用户的行为特点，不仅能自动挖掘出数据如视频的流行统计特征，而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理；

3)根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度，根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵，将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵，根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度，根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户，其中Q为正整数，能够挖掘出影响用户偏好的隐藏主题，以及被推荐数据与各个隐藏主题的对应关系，并以此进行个性化数据如视频推荐，推荐过程中综合考虑每个用户的偏好程度，数据与各个隐藏主题的对应关系，以及数据的平均受欢迎程度，具有很好的个性化效果；

4)通过判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值，若是，则根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前P个被推荐数据推荐给用户，其中P为正整数，实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下，仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果，具有很好的鲁棒性。

通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

附图说明

图1是本发明实施例一的数据推荐方法的流程图；

图2是本发明实施例一的推荐结果示意图；

图3是本发明实施例二数据推荐方法的流程图；

图4是本发明实施例三的数据推荐系统的模块示意图；

图5是本发明实施例三的数据推荐系统的架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供一种数据推荐方法，包括：

步骤S11，收集每个用户对每个被推荐数据的选择记录。具体的，当用户访问网站的时候，网站会通过不同的途径向用户(user)展示被推荐数据(item)，例如搜索页、推荐页、浏览页等，用户可能点击观看，也可能拒绝观看，或者将内容收藏到收藏夹，搜集用户对网站推送内容的选择记录后，可将其转换为可以统一识别的和处理的数据结构。

优选的，每个用户对每个被推荐数据的选择记录的分值用score(user，item)表示，其中user代表用户，item代表被推荐数据，包括对每个用户对每个被推荐数据接受记录或拒绝记录，接受记录的分值score(user，item)=1，拒绝记录的分值score(user，item)=0，具体的，当用户访问网站的时候，可以对网站上展示的被推荐数据选择接受或者拒绝，本步骤中搜集用户对网站推送被推荐数据的选择记录，存储到日志文件之中，可以将新的日志文件进行处理，转换为统一可以识别的数据结构，处理后日志文件中每一条选择记录可以表示为：<user,item,score(user,item)>，其中user和item用一个数字表示，score(user,item)指的是user是否点击此item，点击则score为1，拒绝则为0，处理后的选择记录可保存在文件系统中后续步骤使用。

步骤S12，根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率，具体的，不同用户的行为方式有很大区别，有的用户比较挑剔，只接受很少的被推荐数据如视频；有的用户则比较温和，会点击观看大部分的被推荐数据如视频。

优选的，每个用户对被推荐数据的平均点击率可根据下述公式获取：

如果用户以前从未登陆过，平均点击率取值为0。

步骤S13，根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度，以此作为item的质量得分quality(item)，即被推荐数据的流行统计特征，这样可以自动的对活跃用户和非活跃用户，以及热点视频和非热点视频做区分性的处理，自动挖掘出数据如视频的流行统计特征，使推荐结果不仅限于最热门的数据如视频，大量的数据如视频都有机会展示给不同的用户，因此推荐的多样性更好，覆盖率更高。

优选的，每个被推荐数据对其所有被推荐的用户的平均受欢迎程度可根据下述公式获取：

即计算被推荐数据的平均受欢迎程度时，必须要去除不同用户的平均点击率的影响，如果是被一个平均点击率很高的用户点击，则要减去一些分数，这样不仅考虑了视频被点击次数的多少，也综合分析了点击视频的用户的行为特点，不仅能自动挖掘出数据如视频的流行统计特征，而且挖掘过程中对不同活跃程度的用户的贡献进行了区分性的处理。

步骤S14，判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值，若是，则执行步骤S15，若否，则执行步骤S16。

步骤S15，根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前P个被推荐数据推荐给用户，其中P为正整数，这样可以实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下，仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果，具有很好的鲁棒性。

优选的，可根据下述公式获取每个被推荐数据的推荐得分：

recommend(item)=quality(item)，即如果一个用户是新用户、一被推荐数据是新的或者暂时不能够获得足够的选择记录，则直接根据item的质量得分推荐高质量的item给用户，通过对所有被推荐数据如视频的推荐得分recommend(item)进行排序，选取得分最高前几个被推荐数据推荐给用户。

步骤S16，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户，其中Q为正整数。

优选的，步骤S6可包括：

步骤S161，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度；

优选的，可根据下述公式获取每个用户对每个被推荐数据的偏好程度：

interest(user，item)=score(user，item)-click(user)-quality(item)，即从每一个score中扣除user的平均点击率和item的质量得分，即是user对这个item的偏好程度。

步骤S162，根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵，具体的，所有的interest(user,item)可以构成一个用户的偏好矩阵M，这个矩阵是稀疏矩阵，即矩阵中只有一部分的点是有值的，大部分点的值是空着的；

步骤S163，将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵，即对偏好矩阵进行矩阵分解，可以得到隐藏主题，以及user、item与这些隐藏主题的对应关系；

优选的，可根据下述公式将所述偏好矩阵分解成第一矩阵和第二矩阵：

M=U^TV，其中M代表偏好矩阵，U代表第一矩阵，V代表第二矩阵，T代表矩阵变换，M的维数是m乘n，m为user的数量，n为item的数量，U的维数为k乘m，V的维数为k乘n，其中k为隐藏主题的个数，k小于m并且小于n，m、n、k均为正整数，具体的，偏好矩阵M分解的目标是通过2个维数更低的矩阵相乘来模拟原来的偏好矩阵M，即M中的值与U^TV得到的值尽可能的接近。U中的每一列即为用户特征向量，分别表示了用户对k个隐藏主题的偏好程度；V中每一列即为数据特征向量，分别表示了被推荐数据与k个隐藏主题的关联程度，可以假定，用户对内容感兴趣与否，可以通过被推荐数据与k个主题的关联程度，以及用户对这k个主题的兴趣间接得到。

步骤S164，根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度；

优选的，可根据下述公式每个用户对每个被推荐数据的兴趣程度：

predict (user, item) = Σ_{topic = 1}^{k} U_{user, topic} V_{item, topic}

，其中topic代表隐藏主题。

步骤S165，根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户，其中Q为正整数。

优选的，可根据下述公式获取每个被推荐数据的推荐得分：

recommend(item)＝predict(user，item)+quality(item)，即如果一个用户已经有足够的选择记录，并且一被推荐数据之前被推荐过多次，即user和item在U和V中分别有算好的结果，则每个被推荐数据的推荐得分为用户的偏好程度加上内容的质量得分，则通过其对不同隐藏主题的偏好以及item与隐藏主题的相关程度，筛选最符合用户偏好的前Q个被推荐数据(item)推荐给用户，当所述被推荐数据为视频时，如图2所示是通过本实施例的方法挖掘出来的用户可能感兴趣的视频列表，这样能够挖掘出影响用户偏好的隐藏主题，以及被推荐数据与各个隐藏主题的对应关系，并以此进行个性化数据如视频推荐，推荐过程中综合考虑每个用户的偏好程度，数据与各个隐藏主题的对应关系，以及数据的平均受欢迎程度，具有很好的个性化效果。

本实施例中提出了一种基于流行统计特征和隐藏主题的个性化视频推荐方法，推荐结果综合考虑了用户特征向量、数据特征向量，以及数据的质量得分，不仅保证了推荐结果是高质量的视频，也能够满足用户的个性化需求。通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

实施例二

如图3所示，本发明提供另一数据推荐方法，本实施例与实施例的区别在于，根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，然后计算每个候选数据的推荐得分，从而使推荐结果更精确，所述方法包括：

步骤S21，收集每个用户对每个被推荐数据的选择记录。具体的，当用户访问网站的时候，网站会通过不同的途径向用户(user)展示被推荐数据(item)，例如搜索页、推荐页、浏览页等，用户可能点击观看，也可能拒绝观看，或者将内容收藏到收藏夹，搜集用户对网站推送内容的选择记录后，可将其转换为可以统一识别的和处理的数据结构。

步骤S22，根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率，具体的，不同用户的行为方式有很大区别，有的用户比较挑剔，只接受很少的被推荐数据如视频；有的用户则比较温和，会点击观看大部分的被推荐数据如视频。

如果用户以前从未登陆过，平均点击率取值为0。

步骤S23，根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度，以此作为item的质量得分quality(item)，即被推荐数据的流行统计特征，这样可以自动的对活跃用户和非活跃用户，以及热点视频和非热点视频做区分性的处理，自动挖掘出数据如视频的流行统计特征，使推荐结果不仅限于最热门的数据如视频，大量的数据如视频都有机会展示给不同的用户，因此推荐的多样性更好，覆盖率更高。

步骤S24，判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值，若是，则执行步骤S251，若否，则执行步骤S26。

步骤S251，根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数，即从筛选出足够高质量item作为推荐的候选；

步骤S252，根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分，获取推荐得分最高的前P个候选数据推荐给用户，其中P为正整数，这样可以实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下，仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果，具有很好的鲁棒性。

优选的，可根据下述公式获取每个被推荐数据的推荐得分：

步骤S26，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户，其中Q为正整数。

优选的，步骤S26可包括：

步骤S261，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度；

步骤S262，根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵，具体的，所有的interest(user,item)可以构成一个用户的偏好矩阵M，这个矩阵是稀疏矩阵，即矩阵中只有一部分的点是有值的，大部分点的值是空着的；

步骤S263，将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵，即对偏好矩阵进行矩阵分解，可以得到隐藏主题，以及user、item与这些隐藏主题的对应关系；

步骤S264，根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度；

predict (user, item) = Σ_{topic = 1}^{k} U_{user, topic} V_{item, topic}

，其中topic代表隐藏主题。

步骤S265，根根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数，即从筛选出足够高质量item作为推荐的候选；

步骤S266，根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分，获取推荐得分最高的前Q个候选数据推荐给用户，其中Q为正整数。

优选的，可根据下述公式获取每个被推荐数据的推荐得分：

recommend(item)＝predict(user，item)+quality(item)，即如果一个用户已经有足够的选择记录，并且一被推荐数据之前被推荐过多次，即user和item在U和V中分别有算好的结果，则每个被推荐数据的推荐得分为用户的偏好程度加上内容的质量得分，则通过其对不同隐藏主题的偏好以及item与隐藏主题的相关程度，筛选最符合用户偏好的前Q个被推荐数据(item)推荐给用户，，这样能够挖掘出影响用户偏好的隐藏主题，以及被推荐数据与各个隐藏主题的对应关系，并以此进行个性化数据如视频推荐，推荐过程中综合考虑每个用户的偏好程度，数据与各个隐藏主题的对应关系，以及数据的平均受欢迎程度，具有很好的个性化效果。

本实施例中提出了一种基于流行统计特征和隐藏主题的个性化视频推荐方法，推荐结果综合考虑了用户特征向量、数据特征向量，以及数据的质量得分，而且根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，然后计算每个候选数据的推荐得分，从而使推荐结果更精确，满足用户的个性化需求。

实施例三

如图4和5所示，本发明还提供另一种数据推荐系统，包括数据收集模块1、模型生成模块2和结果推荐模块2。

数据收集模块1用于收集每个用户对每个被推荐数据的选择记录。具体的，当用户访问网站的时候，网站会通过不同的途径向用户(user)展示被推荐数据(item)，例如搜索页、推荐页、浏览页等，用户可能点击观看，也可能拒绝观看，或者将内容收藏到收藏夹，搜集用户对网站推送内容的选择记录后，可将其转换为可以统一识别的和处理的数据结构。

优选的，每个用户对每个被推荐数据的选择记录的分值用score(user，item)表示，其中user代表用户，item代表被推荐数据，包括对每个用户对每个被推荐数据接受记录或拒绝记录，接受记录的分值score(user，item)=1，拒绝记录的分值score(user，item)=0，具体的，当用户访问网站的时候，可以对网站上展示的被推荐数据选择接受或者拒绝，本步骤中搜集用户对网站推送被推荐数据的选择记录，存储到日志文件之中，可以将新的日志文件进行处理，转换为统一可以识别的数据结构，处理后日志文件中每一条选择记录可以表示为：<user，item,score(user,item)>，其中user和item用一个数字表示，score(user，item)指的是user是否点击此item，点击则score为1，拒绝则为0，处理后的选择记录可保存在文件系统中后续模型生成模块2使用。

结果推荐模块3用于获取推荐得分最高的前P个被推荐数据或获取推荐得分最高的前Q个被推荐数据，并推荐给用户，其中P、Q为正整数。

模型生成模块2包括平均点击率单元21、平均受欢迎程度单元22、判断单元23、第一结果单元24和第二结果单元25。

平均点击率单元21用于根据每个用户对被推荐数据的选择记录获取每个用户对被推荐数据的平均点击率。具体的，不同用户的行为方式有很大区别，有的用户比较挑剔，只接受很少的被推荐数据如视频；有的用户则比较温和，会点击观看大部分的被推荐数据如视频。

，如果用户以前从未登陆过，平均点击率取值为0。

平均受欢迎程度单元22用于根据每个用户对被推荐数据的选择记录和每个用户对被推荐数据的平均点击率获取每个被推荐数据对其所有被推荐的用户的平均受欢迎程度，以此作为item的质量得分quality(item)，即被推荐数据的流行统计特征，这样可以自动的对活跃用户和非活跃用户，以及热点视频和非热点视频做区分性的处理，自动挖掘出数据如视频的流行统计特征，使推荐结果不仅限于最热门的数据如视频，大量的数据如视频都有机会展示给不同的用户，因此推荐的多样性更好，覆盖率更高。

判断单元23用于判断每个用户对被推荐数据的选择记录的数量是否小于一预设的阈值。

第一结果单元24用于当每个用户对被推荐数据的选择记录的数量小于一预设的阈值时，根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。这样可以实现在一个从未有过交互行为的新用户到来或者部分用户行为暂时无法收集的情况下，仍旧可以利用平均受欢迎程度的流行统计特征生成高质量的结果，具有很好的鲁棒性。

优选的，可根据下述公式获取每个被推荐数据的推荐得分：

优选的，所述第一结果单元24用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数，并根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分；

所述结果推荐模块3用于获取推荐得分最高的前P个候选数据推荐给用户，这样可以保证推荐结果更精确。

第二结果单元25用于当每个用户对被推荐数据的选择记录的数量大于等于所述预设的阈值时，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。

优选的，所述第二结果单元25包括偏好程度子单元251、偏好矩阵子单元252、分解子单元253、兴趣程度子单元254和结果子单元255。

偏好程度子单元251用于根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个用户对每个被推荐数据的偏好程度。

偏好矩阵子单元252用于根据每个用户对每个被推荐数据的偏好程度生成所有用户的偏好矩阵。具体的，所有的interest(user,item)可以构成一个用户的偏好矩阵M，这个矩阵是稀疏矩阵，即矩阵中只有一部分的点是有值的，大部分点的值是空着的

分解子单元253用于将所述偏好矩阵分解成代表用户对被推荐数据的隐藏主题的偏好程度的第一矩阵和代表被推荐数据与所述隐藏主题的关联程度的第二矩阵，即对偏好矩阵进行矩阵分解，可以得到隐藏主题，以及user、item与这些隐藏主题的对应关系。

兴趣程度子单元254用于根据所述第一矩阵和第二矩阵获取每个用户对每个被推荐数据的兴趣程度。

predict (user, item) = Σ_{topic = 1}^{k} U_{user, topic} V_{item, topic}

，其中topic代表隐藏主题。结果子单元255用于根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分。

优选的，可根据下述公式获取每个被推荐数据的推荐得分：

recommend(item)＝predict(user，item)+quality(item)，即如果一个用户已经有足够的选择记录，并且一被推荐数据之前被推荐过多次，即user和item在U和V中分别有算好的结果，则每个被推荐数据的推荐得分为用户的偏好程度加上内容的质量得分，则通过其对不同隐藏主题的偏好以及item与隐藏主题的相关程度，筛选最符合用户偏好的前Q个被推荐数据(item)推荐给用户，当这样能够挖掘出影响用户偏好的隐藏主题，以及被推荐数据与各个隐藏主题的对应关系，并以此进行个性化数据如视频推荐，推荐过程中综合考虑每个用户的偏好程度，数据与各个隐藏主题的对应关系，以及数据的平均受欢迎程度，具有很好的个性化效果。

较佳的，所述结果子单元255用于根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，其中N为正整数，并根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个候选数据的推荐得分；

所述结果推荐模块3用于获取推荐得分最高的前Q个候选数据推荐给用户。

本实施例中提出了一种基于流行统计特征和隐藏主题的个性化视频推荐方法，推荐结果综合考虑了用户特征向量、数据特征向量，以及数据的质量得分，而且根据所述每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取前N个候选数据，然后计算每个候选数据的推荐得分，从而使推荐结果更精确，满足用户的个性化需求。通过上述的智能推荐方案，可以大大提高用户快速寻找感兴趣内容的效率，减少用户无效浏览时间，尤其是在移动设备使用网络流量费用比较高的环境中，节省了大量的通信流量，为用户节省流量费用，提高用户的阅读满意度。

与现有技术相比，本发明具有如下优点：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种数据推荐方法，其特征在于，包括：

收集每个用户对每个被推荐数据的选择记录；

2.如权利要求1所述的数据推荐方法，其特征在于，根据每个用户对被推荐数据的选择记录、每个用户对被推荐数据的平均点击率和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括：

根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户。

3.如权利要求2所述的数据推荐方法，其特征在于，根据所述每个用户对每个被推荐数据的兴趣程度和每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前Q个被推荐数据推荐给用户的步骤包括：

4.如权利要求1所述的数据推荐方法，其特征在于，根据每个被推荐数据对其所有被推荐的用户的平均受欢迎程度获取每个被推荐数据的推荐得分，获取推荐得分最高的前P个被推荐数据推荐给用户的步骤包括：

5.如权利要求2至4任一项所述的数据推荐方法，其特征在于，每个用户对每个被推荐数据的选择记录的分值用score(user，item)表示，其中user代表用户，item代表被推荐数据，包括对每个用户对每个被推荐数据接受记录或拒绝记录，接受记录的分值score(user，item)=1，拒绝记录的分值score(user，item)=0。

6.如权利要求5所述的数据推荐方法，其特征在于，每个用户对被推荐数据的平均点击率根据下述公式获取：

7.如权利要求6所述的数据推荐方法，其特征在于，每个被推荐数据对其所有被推荐的用户的平均受欢迎程度根据下述公式获取：

8.如权利要求7所述的数据推荐方法，其特征在于，

根据下述公式获取每个被推荐数据的推荐得分：

recommend(item)=quality(item)。

9.如权利要求7所述的数据推荐方法，其特征在于，

根据公式interest(user，item)=score(user，item)-click(user)-quality(item)获取每个用户对每个被推荐数据的偏好程度;

根据公式M=U^TV将所述偏好矩阵分解成第一矩阵和第二矩阵，其中M代表偏好矩阵，U代表第一矩阵，V代表第二矩阵，T代表矩阵变换，M的维数是m乘n，m为user的数量，n为item的数量，U的维数为k乘m，V的维数为k乘n，其中k为隐藏主题的个数，k小于m并且小于n，m、n、k均为正整数;

根据公式

predict (user, item) = Σ_{topic = 1}^{k} U_{user, topic} V_{item, topic}

确定每个用户对每个被推荐数据的兴趣程度，其中topic代表隐藏主题；

据公式recommend(item)＝predict(user，item)+quality(item)获取每个被推荐数据的推荐得分。

10.一种数据推荐系统，其特征在于，包括数据收集模块、模型生成模块和结果推荐模块，

模型生成模块包括: