发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种基于用户行为,并考虑各个类别、时间等因素的网络视频榜单生成系统及其方法。
为了达到上述目的,本发明提供了一种基于用户行为的网络视频榜单生成系统,该系统包括:用户行为日志搜集模块,搜集某个时间段用户对网络视频行为日志;排名算法模块,用于根据用户行为日志搜集模块的输出以及用户点击反馈模块输出的户反馈调权因子来计算网络视频的最终得分;用户点击反馈模块,用于输出上述用户反馈调权因子给排名算法模块。
进一步,行为日志包括用户的观看、优劣评价、评论、转发、收藏、下载的行为,每天日志中包括cookie、用户id、时间字段。
进一步,根据本发明的网络视频榜单生成系统中的排名算法模块,根据下式
进行处理,其中:
Vscore是网络视频的最终得分;
在 式中,
如果计算每小时排行榜,N代表距离当前最近的N小时,如果计算每天排行榜,则N代表距离当前最近的N天,wi是距离最近N小时或者N天的各自每小时、每天的权重因子;
是某个网络视频的观看次数取对数,其中vv是满足播放完成率条件的某个时间段的播放量;
中,favor是某个时间段的收藏次数、share是某个时间段分享转发次数、download是某个时间段下载次数;
中,review是某个时间段评论的次数、up是某个时间段顶的次数、down是某个时间段踩的次数;
中Vage和Vupdated的单位分别是天和小时,其中,Vage是当前时间与网络视频上传时间的天数差,Vupdated是当前时间与网络视频最后一次被评论、分享、收藏行为时间的小时差;
是用户反馈调权因子,其中,上部分
是某个位置上网络视频的点击占总榜单的点击比例,vpos是网络视频在榜单的排名序号、times
vpos是排名在vpos位置上的网络视频的点击量、Times是排行榜里面网络视频的点击总量;下部分e
-λ*vpos是表示榜单的各个位置的历史点击占比,其为一个位置衰减函数,其中λ是衰减因子。
进一步,该系统还包括:数据预处理模块,对某一时间段,同一cookie重复观看超过M次的数据直接丢弃、评论超过N次的数据丢弃、转发超过P次的数据丢弃;根据用户观看网络视频的完成率过滤不满足条件的用户行为,公式是
其中watch_time为用户观看时长,time_of_video为网络视频时长,如果watch_finished_rate小于
则直接丢弃,这里
暂为0.05。
进一步,该系统进一步包括:网络视频防刷模块,通过判断网络视频观看量、评论量、收藏量、分享转发量、优劣评价数量是否在一定的比例阈值内来抽取不正常的网络视频列表,进而对生成的榜单网络视频进行过滤。
此外,本发明还提供了一种基于用户行为的网络视频榜单生成方法,该方法包括以下步骤:
步骤(1)搜集某个时间段内用户在观看网络视频的时候的行为日志;
步骤(2)点击反馈模块输出用户反馈调权因子给排名算法模块进行处理;
步骤(3)排名算法模块利用用户行为数据以及反馈的调权因子来计算网络视频的最终得分。
进一步,本发明方法中所述步骤(1)中的行为日志包括用户观看网络视频的vv日志、收藏、评论、分享转发、优劣评价行为日志,每天日志中包括cookie、用户id、时间字段。
进一步,本发明中所述步骤(3)中根据下式
来生成网络视频的最终得分;其中:
Vscore是网络视频的最终得分;
在 式中,
N为3,如果计算每小时排行榜,3代表距离当前最近的3小时,如果计算每天排行榜,则3代表距离当前最近的3天,wi是距离最近3小时或者3天的各自每小时、每天的权重因子;
是某个网络视频的观看次数取对数,其中vv是满足播放完成率条件的某个时间段的播放量;
中,favor是某个时间段的收藏次数、share是某个时间段分享转发次数、download是某个时间段下载次数;
中,review是某个时间段评论的次数、up是某个时间段顶的次数、down是某个时间段踩的次数;
中Vage和Vupdated的单位分别是天和小时,其中,Vage是当前时间与网络视频上传时间的天数差,Vupdated是当前时间与网络视频最后一次被评论、分享、收藏行为时间的小时差;
是用户反馈调权因子,其中,上部分
是某个位置上网络视频的点击占总榜单的点击比例,vpos是网络视频在榜单排名的序号、times
vpos是排名在vpos位置上的网络视频的点击量、Times是排行榜里面网络视频的点击总量;下部分e
-λ*vpos是表示榜单的各个位置的历史点击占比,其为一个位置衰减函数,其中λ是衰减因子。
进一步,该方法还包括:通过数据预处理模块对某一时间段,同一cookie重复观看超过M次的数据直接丢弃、评论超过N次的数据丢弃、转发超过P次的数据丢弃;
根据用户观看网络视频的完成率过滤不满足条件的用户行为,公式是
其中watch_time为用户观看时长,time_of_video为网络视频时长,如果watch_finished_rate小于
则直接丢弃,这里
暂为0.05。
进一步,该方法进一步包括:网络视频防刷模块通过判断网络视频观看量、评论量、收藏量、分享转发量、优劣评价数量是否在一定的比例阈值内来抽取不正常的网络视频列表,进而对生成的榜单网络视频进行过滤。
本发明所述的具有以下优点:
1.提供了当前小时、当前天、当前星期等时间段的各个类别的网络视频列表的网络视频榜单。并考虑时间因素,使刚上传的热门网络视频信息都按规则上榜,尤其是资讯类别的网络视频。
2.提供了防刷模块,过滤那些可能是人为刷出来的网络视频进入榜单。
3.提供了网络视频榜单点击反馈因子,对受欢迎的网络视频加权、对不受欢迎的网络视频降权。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是本发明所述系统的结构图。如图1所示,本系统包括以下5个模块:(1)用户行为日志搜集模块。(2)数据预处理模块。(3)排名算法模块。(4)防刷模块。(5)用户点击反馈模块。
本发明可以为各个类别的网络视频列表生成每小时、每天、每周、每月的排行榜,提高用户在线观看网络视频的体验。
(1)用户行为日志搜集模块
搜集某个时间段,用户对网络视频的观看、优劣评价、评论、转发、收藏、下载的行为日志。
(2)数据预处理模块
a)针对观看、评论、转发数据,对某一时间段,同一cookie(Cookie就是服务器暂存放在你的电脑里的资料,以便服务器用来辨认用户的计算机)或同一用户终端节点重复观看超过M次的数据直接丢弃、评论超过N次的数据丢弃、转发超过P次的数据丢弃。M、N、P的大小根据时间段的长短进行相应预设调整。
b)针对网络视频的观看数据:
根据用户观看网络视频的完成率过滤不满足条件的观看行为,公式是
其中watch_time为用户观看时长,time_of_video为网络视频时长,如果watch_finished_rate小于
则直接丢弃,这里
暂为0.05,以下公式出现的vv代表满足播放完成率条件下、某个时间段的播放量。
把观看网络视频的入口分为两种,一种是从搜索点击过来的(包括搜酷,百度等),vv的贡献量为vv_s1,它表示是某个时间段内,从搜索点击引导过来的播放量;另一种是其他来源(包括从普通播放页链接过来等),vv的贡献量为vv_s2,它是某个时间段内,从网络视频网站的播放页、频道页等引导过来的播放量。因此,vv=w1*vv_s1+w2*vv_s2,其中w1为来源s1的权重因子,w2为来源s2的权重因子,这里w1暂定为1.1,w2为0.9。
(3)排名算法模块
其中算法中的各个变量的含义如下:
Vscore是网络视频的最终得分。在下式中,
N暂定为3,可以变更,如果计算每小时排行榜,3代表距离当前最近的3小时,如果计算每天排行榜,则3代表距离当前最近的3天,wi是距离最近3小时或者3天的各自每小时、每天的权重因子。
是某个网络视频的观看次数越大,就代表越受关注,得分就越高!这里使用以10为底的对数,用意是当访问量越来越大的时候,它对得分的影响将不断减小,其中vv是满足播放完成率条件的某个时间段的播放量。
中,favor是某个时间段的收藏次数、share是某个时间段分享转发次数、download是某个时间段下载次数,这几种行为代表用户是喜欢这个网络视频的,这个值越大,得分就成倍的放大。
中,其中review是某个时间段评论的次数、up是某个时间段顶的次数、down是某个时间段踩的次数,这3种数据不能仅仅靠次数说明用户是否喜欢,只能说明用户的参与度,表达了自己对网络视频里面的内容的观点态度。
其中Vage和Vupdated的单位分别是天和小时,其中,Vage是当前时间与网络视频上传时间的天数差,Vupdated是当前时间与网络视频最后一次被评论、分享、收藏等行为时间的小时差。如果一个网络视频存在的时间越久、或者距离网络视频上一次更新的时间越久,Vage和Vupdated的值就越大,就导致分母增大,因此整体得分就会越来越小。
这个是用户反馈调权因子,具体是根据用户榜单点击行为,进一步调整网络视频的得分,其中,上部分
是某个位置上网络视频的点击占总榜单的点击比例,vpos是网络视频在榜单的排名序号、times
vpos是排名在vpos网络视频的点击量、Times是排行榜里面网络视频的点击总量;下部分e
-λ*vpos是表示榜单的各个位置的历史点击占比,为一个位置衰减函数,其中λ是衰减因子。
(4)网络视频防刷模块
网络视频网站的被刷网络视频有这样的一个特点:在网络视频上的各种行为不成比例!比如观看量大或者优劣评价数量大,但是收藏量、分享转发量、评论量、下载量都非常偏小,因为观看网络视频不用用户登陆,而其他几个用户行为要求用户必须登陆,而正常的网络视频,在各种行为上都在一定的比例范围内!也就是符合一定的曲线。本模块抽取出不正常的网络视频列表,进而对生成的榜单网络视频进行过滤。网络视频防刷模块通过进行远程flash调用,查看vv日志,refer上级来源字段是否基本都是为空来抽取不正常的网络视频列表。网络视频防刷模块还可以通过判断网络视频观看量、评论量、收藏量、分享转发量、优劣评价数量是否在一定的比例阈值内来抽取,这是基于被刷的网络视频,一般vv偏高,其他行为几乎没有这一特点。
(5)用户点击反馈模块
点击反馈模块检测用户对榜单里网络视频的点击行为,输出用户反馈调权因
代表用户对榜单的网络视频感兴趣,根据用户的行为进一步调整网络视频的得分,进一步调整排序,初始计算时,该因子为1.0,对不在榜单出现的网络视频也默认为1.0。
本发明还提供了一种基于用户行为的网络视频榜单生成方法,该方法包括以下步骤:
步骤(1)搜集用户在观看网络视频的时候的行为日志,包括用户观看网络视频的vv日志、收藏、评论、分享转发、优劣评价等行为日志,每天日志中包括cookie、用户id、时间等字段,为后面的网络视频榜单排名提供数据支撑。
步骤(2)根据某个时间段的行为日志数据,同一cookie(Cookie就是服务器暂存放在你的电脑里的资料,以便服务器用来辨认用户的计算机)或同一用户终端节点重复观看超过M次的数据直接丢弃、评论超过N次的数据丢弃、转发超过P次的数据丢弃,减少异常数据对榜单的影响;另外针对观看的vv数目,根据入口做一定的调整,从搜索过滤的vv权重高些,而从其他播放页等入口过来的要相对小些,为后面的Vscore计算做好数据准备。
步骤(3)利用我们根据在线网络视频网站现有的用户行为数据,根据下式
来生成网络视频的最终得分,不同数据源对Vscore的贡献是不一样的,比如每小时1w的播放量贡献的分数,相当于每小时80次收藏、分享、下载的总量,也相当于128次的评论、优劣评价的总量。而分母是时间的幂函数,如果当前时间距离网络视频发布时间越久、距离上次网络视频被分享、评论、收藏、下载任一行为的时间越久,则分母越大,这样保证了新网络视频、新更新的网络视频尽可能的排在前面。
步骤(4)是通过网络视频防刷模块防止非正常事件。有的很多网络视频,比如广告类网络视频等存在恶意刷高播放量的情况,这类被刷的网络视频,一般都是通过肉鸡(拥有管理权限的远程计算机,通过是被植入了木马病毒的计算机)控制,网络视频防刷模块通过进行远程flash调用,查看vv日志,refer上级来源字段是否基本都是为空来进行判断。网络视频防刷模块还可以通过判断网络视频观看量、评论量、收藏量、分享转发量、优劣评价数量是否在一定的比例阈值内来处理,这是基于被刷的网络视频,一般vv偏高,其他行为几乎没有这一特点。
步骤(5)通过用户的点击行为,可以进一步调整排名,点击反馈模块输出调整的权重因子给排名算法模块进行处理,当某个位置的网络视频的点击量大于正常情况下该位置的点击占比的话,这个网络视频就会在下次榜单生成上给予奖励,而低于该位置正常点击占比的话,就会的得到一定的惩罚。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的。这些都在本发明的权利要求所限定的保护范围内。