CN110598044B - 一种基于用户点击和转化时长反馈的协同召回方法 - Google Patents
一种基于用户点击和转化时长反馈的协同召回方法 Download PDFInfo
- Publication number
- CN110598044B CN110598044B CN201910707605.7A CN201910707605A CN110598044B CN 110598044 B CN110598044 B CN 110598044B CN 201910707605 A CN201910707605 A CN 201910707605A CN 110598044 B CN110598044 B CN 110598044B
- Authority
- CN
- China
- Prior art keywords
- video
- click
- user
- database
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于用户点击和转化时长反馈的协同召回方法,包括以下步骤为:获取用户的历史行为日志;将历史行为日志过滤后的数据存储在第一数据库中;计算历史行为日志中每个点击视频的历史平均转化时长并存储在第二数据库中;对历史行为日志中的每个点击视频进行区间划分,计算出用户对各时间区间的偏好得分并存储在第三数据库中;召回推荐系统推送的候选视频集,计算出各候选视频的排序得分;按排序得分高低将前N个候选视频推荐给用户。本发明有效地解决了现有视频推荐技术只考虑反馈点击率、没有考虑其他时长因素而导致的系统整体时长短的问题,使最终推荐结果更加准确。
Description
技术领域
本发明涉及视频推荐技术领域,尤其涉及一种基于用户点击和转化时长反馈的协同召回方法。
背景技术
随着互联网的快速发展,人们每天能接触到的信息呈爆炸式增长。为了将正确的信息推送给正确的用户,推荐系统应运而生。目前主流的推荐系统主要有两大模块组成:召回和排序。召回模块主要从用户的历史行为、实时行为等角度利用各种策略和算法(例如,协同过滤)生成候选集,一般这个候选集的数量比较多,由于系统响应的要求,后续的排序模块无法及时处理整个候选集,因此,在生成候选集之后还需要进行一次粗排,过滤掉粗排打分较低的候选项。
对于由协同过滤生成的视频候选集,在粗排阶段可以利用反馈点击率作为排序依据,即将反馈点击率高的候选项排在前面。但是,在实际场景中,反馈点击率高的视频往往存在着视频时长短、标题党等现象,于是粗排结果的前面部分都是时长较短的;同时,用户点击了这些短视频之后,又提升了其反馈点击率,从而导致最终的推荐结果始终集中在这些短视频上,这样对于系统整体的时长优化是非常不利的。
发明内容
有鉴于此,本发明提供了一种基于用户点击和转化时长反馈的协同召回方法,用以解决上述背景技术中存在的问题。
一种基于用户点击和转化时长反馈的协同召回方法,包括以下步骤:
S1,获取用户在设定统计周期的历史行为日志,所述历史行为日志包括用户在设定统计周期内点击过的所有点击视频信息;
S2,对所述历史行为日志进行过滤,并将过滤后得到的数据存储在第一数据库中;
S3,根据所述历史行为日志,计算每个点击视频的历史平均转化时长并将计算得到的数据存储在第二数据库中;
S4,分别对所述历史行为日志中每个点击视频的播放时长进行区间划分,并计算出用户对各时间区间的偏好得分,将计算得到的数据存储在第三数据库中;
S5,召回推荐系统推送的候选视频集,循环遍历候选视频集中每个候选视频信息,根据第一数据库、第二数据库、第三数据库中的数据依次计算出各候选视频的排序得分;
S6,将候选视频集中的视频按排序得分高低进行排序,将前N个候选视频推荐给用户。
优选地,所述步骤S2中对所述历史行为日志进行过滤的具体步骤为:
S21,计算所述历史行为日志中每个点击视频的威尔逊点击率;
S22,根据点击视频的威尔逊点击率、展现数和点击数以及预设的过滤规则对所有的点击视频信息进行过滤;
S23,将过滤后的到的数据以(SOURCE_ID,TARGET_ID,p)的格式存储在第一数据库中。
优选地,所述过滤规则为
将展现数小于5次且威尔逊点击率小于7%的视频过滤掉;
或将点击数小于2次且展现数小于3次的视频过滤掉;
或将点击数大于2次且点击率小于12%的视频过滤掉。
优选地,所述威尔逊点击率的计算公式为:
优选地,第二数据库中的数据以(ID,avg_play_time)的格式进行存储;
第三数据库中的数据以(USER_ID,t,ft)的格式进行存储。
优选地,步骤S5中计算各候选视频的排序得分的具体步骤为:
S51,将当前视频ID作为SOURCE_ID,将候选视频ID作为TARGET_ID,从第一数据库中查找出与当前视频ID和候选视频ID关联的点击率,并将该点击率作为候选视频的点击率;
S52,从第二数据库中查找出与候选视频的ID相同的点击视频,并将该点击视频的历史平均转化时长作为候选视频的播放时长,若没有查找到相应的视频文件,则将候选视频的视频时长作为其播放时长;
S53,将候选视频的播放时长进行区间划分,根据划分得到的时间区间的数量以及用户ID,从第三数据库中查找出与之相关联的偏好得分,并将该偏好得分作为候选视频的偏好得分;若没有查找到相应数据,则令候选视频的偏好得分为0.2;
S54,将候选视频的点击率、播放时长、偏好得分求积,得到其排序得分;
S55,循环遍历候选视频集中的所有候选视频,重复步骤S51-S54,依次求取各候选视频的排序得分。
优选地,所述步骤S4中,对历史行为日志中点击视频的播放时长进行区间划分时,以每60秒为一个区间进行划分。
本发明的有益效果是:
本申请适用于推荐系统及其相关领域,通过将用户点击视频的历史点击率、历史平均转化时长与用户对时长的偏好相结合,有效地解决了现有视频推荐技术只考虑反馈点击率、没有考虑其他时长因素而导致的系统整体时长短的问题,使最终推荐结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的流程图。
图2是对候选视频集进行重新排序的流程图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面通过具体的实施例并结合附图对本申请做进一步的详细描述。
在本申请的描述中,除非另有明确的规定和限定,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本申请的基于用户点击和转化时长反馈的协同召回方法,包括以下步骤:
S1,获取用户在设定统计周期的历史行为日志,所述历史行为日志包括用户在设定统计周期内点击过的所有点击视频信息。
例如,可获取用户在过去一周内的所点击过的视频,以及各点击视频的视频信息,视频信息包括但不限于该视频的ID、点击数、点击率、展现数、被点击播放的用户的数量、每个用户播放该视频的时长等数据。
S2,对所述历史行为日志进行过滤,并将过滤后得到的数据存储在第一数据库中。
具体地,对所述历史行为日志进行过滤的具体步骤为:
S21,计算所述历史行为日志中每个点击视频的威尔逊点击率;
例如,视频A基于内容过滤推荐了视频B,其展现数共100次,点击数为10次,则点击率为10%,威尔逊点击率为5.523%。
S22,根据点击视频的威尔逊点击率、展现数和点击数以及预设的过滤规则对所有的点击视频信息进行过滤;
即将展现数小于5次且威尔逊点击率小于7%的视频过滤掉;
或将点击数小于2次且展现数小于3次的视频过滤掉;
或将点击数大于2次且点击率小于12%的视频过滤掉。
S23,将过滤后的到的数据以(SOURCE_ID,TARGET_ID,p)的格式存储在第一数据库rec_fb_ctr_hash中。
S3,根据所述历史行为日志,计算每个点击视频的历史平均转化时长,并将计算得到的数据以(ID,avg_play_time)的格式存储在第二数据库video_remain_info中;
S4,以每60秒为一个时间区间,分别对所述历史行为日志中每个点击视频的播放时长进行区间划分,并计算出用户对各时间区间的偏好得分,将计算得到的数据以(USER_ID,t,ft)的格式存储在第三数据库user_prefer_time中;
例如历史行为日志中用户曾经点击过5个视频,视频1的播放时长为55s,视频2的播放时长为110s,视频3的播放时长为78s,视频4的播放时长为130s,视频5的播放时长为138s,以60秒为一个时间区间,对这5个视频的播放时长进行区间划分;
则视频1的播放时长划分在第1段时间区间[0,60)内;
视频2的播放时长划分在第2段时间区间[60,120)内;
视频3的播放时长划分在第2段时间区间[60,120)内;
视频4的播放时长划分在第3段时间区间[120,180)内;
视频5的播放时长划分在第3段时间区间[120,180]内;
对上述区间划分的结果进行统计,第1段时间区间[0,60]内的视频个数为1个,第2段时间区间内的视频个数为2个,第3段时间区间内的视频个数为2个,
分别根据偏好得分计算公式,分别计算出用户对第1段时间区间、第2段时间区间的偏好得分ft。
S5,召回推荐系统推送的候选视频集,循环遍历候选视频集中每个候选视频信息,根据第一数据库、第二数据库、第三数据库中的数据依次计算出各候选视频的排序得分。
计算各候选视频的排序得分的具体步骤为:
S51,将当前视频ID作为SOURCE_ID,将候选视频ID作为TARGET_ID,从第一数据库rec_fb_ctr_hash中查找出与当前视频ID和候选视频ID关联的点击率p,并将该点击率作为候选视频的点击率;
S52,从第二数据库video_remain_info中查找出与候选视频的ID相同的点击视频,并将该点击视频的历史平均转化时长avg_play_time作为候选视频的播放时长,若没有查找到相应的视频文件,则将候选视频的视频时长作为其播放时长;
S53,将候选视频的播放时长按60秒一个区间进行区间划分,根据划分得到的时间区间的数量m以及用户ID,从第三数据库user_prefer_time中查找出与之相关联的偏好得分fm,并将该偏好得分作为候选视频的偏好得分;若没有查找到相应数据,则令候选视频的偏好得分为0.2;
例如,若候选视频的播放时长为130s,则可将其播放时长划分成3个时间区间,从第三数据库中查找出与用户ID、第3段时间区间相关联的偏好得分f3.
S54,将候选视频的点击率、播放时长、偏好得分求积,得到其排序得分score,score=p*avg_play_time*fm;
S55,循环遍历候选视频集中的所有候选视频,重复步骤S51-S54,依次求取各候选视频的排序得分。
S6,将候选视频集中的视频按排序得分高低进行排序,将前N个候选视频推荐给用户,N为设定值。
上述步骤S1-S4可离线进行处理,步骤S5-S6可在线进行处理。
本申请适用于推荐系统及其相关领域,通过将用户点击视频的历史点击率、历史平均转化时长与用户对时长的偏好相结合,有效地解决了现有视频推荐技术只考虑反馈点击率、没有考虑其他时长因素而导致的系统整体时长短的问题,使最终推荐结果更加准确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (8)
1.一种基于用户点击和转化时长反馈的协同召回方法,其特征在于,包括以下步骤:
S1,获取用户在设定统计周期的历史行为日志,所述历史行为日志包括用户在设定统计周期内点击过的所有点击视频信息;
S2,对所述历史行为日志进行过滤,并将过滤后得到的数据存储在第一数据库中;
S3,根据所述历史行为日志,计算每个点击视频的历史平均转化时长并将计算得到的数据存储在第二数据库中;
S4,分别对所述历史行为日志中每个点击视频的播放时长进行区间划分,并计算出用户对各时间区间的偏好得分,将计算得到的数据存储在第三数据库中;
S5,召回推荐系统推送的候选视频集,循环遍历候选视频集中每个候选视频信息,根据第一数据库、第二数据库、第三数据库中的数据依次计算出各候选视频的排序得分;
S6,将候选视频集中的视频按排序得分高低进行排序,将前N个候选视频推荐给用户。
2.根据权利要求1所述的基于用户点击和转化时长反馈的协同召回方法,其特征在于,所述步骤S2中对所述历史行为日志进行过滤的具体步骤为:
S21,计算所述历史行为日志中每个点击视频的威尔逊点击率;
S22,根据点击视频的威尔逊点击率、展现数和点击数以及预设的过滤规则对所有的点击视频信息进行过滤;
S23,将过滤后得到的数据以(SOURCE_ID,TARGET_ID,p)的格式存储在第一数据库中。
3.根据权利要求2所述的基于用户点击和转化时长反馈的协同召回方法,其特征在于,所述过滤规则为
将展现数小于5次且威尔逊点击率小于7%的视频过滤掉;
或将点击数小于2次且展现数小于3次的视频过滤掉;
或将点击数大于2次且点击率小于12%的视频过滤掉。
5.根据权利要求2所述的基于用户点击和转化时长反馈的协同召回方法,其特征在于,第二数据库中的数据以(ID,avg_play_time)的格式进行存储;
第三数据库中的数据以(USER_ID,t,ft)的格式进行存储。
7.根据权利要求5所述的基于用户点击和转化时长反馈的协同召回方法,其特征在于,步骤S5中计算各候选视频的排序得分的具体步骤为:
S51,将当前视频ID作为SOURCE_ID,将候选视频ID作为TARGET_ID,从第一数据库中查找出与当前视频ID和候选视频ID关联的点击率,并将该点击率作为候选视频的点击率;
S52,从第二数据库中查找出与候选视频的ID相同的点击视频,并将该点击视频的历史平均转化时长作为候选视频的播放时长,若没有查找到相应的视频文件,则将候选视频的视频时长作为其播放时长;
S53,将候选视频的播放时长进行区间划分,根据划分得到的时间区间的数量以及用户ID,从第三数据库中查找出与之相关联的偏好得分,并将该偏好得分作为候选视频的偏好得分;若没有查找到相应数据,则令候选视频的偏好得分为0.2;
S54,将候选视频的点击率、播放时长、偏好得分求积,得到其排序得分;
S55,循环遍历候选视频集中的所有候选视频,重复步骤S51-S54,依次求取各候选视频的排序得分。
8.根据权利要求1所述的基于用户点击和转化时长反馈的协同召回方法,其特征在于,所述步骤S4中,对历史行为日志中点击视频的播放时长进行区间划分时,以每60秒为一个区间进行划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707605.7A CN110598044B (zh) | 2019-08-01 | 2019-08-01 | 一种基于用户点击和转化时长反馈的协同召回方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707605.7A CN110598044B (zh) | 2019-08-01 | 2019-08-01 | 一种基于用户点击和转化时长反馈的协同召回方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598044A CN110598044A (zh) | 2019-12-20 |
CN110598044B true CN110598044B (zh) | 2022-12-20 |
Family
ID=68853306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910707605.7A Active CN110598044B (zh) | 2019-08-01 | 2019-08-01 | 一种基于用户点击和转化时长反馈的协同召回方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598044B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324813A (zh) * | 2020-02-20 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 推荐方法、装置、设备及计算机可读存储介质 |
CN111400546B (zh) * | 2020-03-18 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种视频召回方法、视频推荐方法及装置 |
CN114466250A (zh) * | 2020-11-09 | 2022-05-10 | 江苏华软智能信息科技有限公司 | 一种视频推荐方法 |
CN113742015B (zh) * | 2021-08-13 | 2024-02-02 | 杭州网易云音乐科技有限公司 | 一种显示方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183897A (zh) * | 2015-09-29 | 2015-12-23 | 北京奇艺世纪科技有限公司 | 一种视频搜索排序的方法和系统 |
WO2017181612A1 (zh) * | 2016-04-18 | 2017-10-26 | 乐视控股(北京)有限公司 | 个性化视频推荐方法及装置 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
CN109947926A (zh) * | 2019-03-26 | 2019-06-28 | 苏州大成有方数据科技有限公司 | 一种人工智能语义降维检索与分析系统 |
-
2019
- 2019-08-01 CN CN201910707605.7A patent/CN110598044B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183897A (zh) * | 2015-09-29 | 2015-12-23 | 北京奇艺世纪科技有限公司 | 一种视频搜索排序的方法和系统 |
WO2017181612A1 (zh) * | 2016-04-18 | 2017-10-26 | 乐视控股(北京)有限公司 | 个性化视频推荐方法及装置 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
CN109947926A (zh) * | 2019-03-26 | 2019-06-28 | 苏州大成有方数据科技有限公司 | 一种人工智能语义降维检索与分析系统 |
Non-Patent Citations (1)
Title |
---|
一种基于ElasticSearch的推荐系统架构;郝胜男等;《电脑知识与技术》;20171225(第36期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110598044A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598044B (zh) | 一种基于用户点击和转化时长反馈的协同召回方法 | |
US10405016B2 (en) | Recommending media items based on take rate signals | |
US8566315B1 (en) | Sequenced video segment mix | |
US9224095B2 (en) | System and methods for generating optimal post times for social networking sites | |
US9934312B2 (en) | Recommendation search method for search engine, device and computer readable storage medium | |
US9088808B1 (en) | User interaction based related videos | |
EP2933770A1 (en) | Method and system for pushing mobile application | |
US20070112719A1 (en) | System and method for dynamically generating and managing an online context-driven interactive social network | |
US20130144891A1 (en) | Server apparatus, information terminal, and program | |
US20170351694A1 (en) | Automated content publication on a social media management platform | |
US10613825B2 (en) | Providing electronic text recommendations to a user based on what is discussed during a meeting | |
CN103365936A (zh) | 视频推荐系统及其方法 | |
CN104899306B (zh) | 信息处理方法、信息显示方法及装置 | |
CN107493467B (zh) | 一种视频质量评估方法及装置 | |
JP2016040660A (ja) | コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム | |
US20140089245A1 (en) | Systems and methods for identifying and notifying users of electronic content based on biometric recognition | |
US11561990B2 (en) | Query implementation using synthetic time series | |
CN111050191B (zh) | 一种视频生成方法、装置、计算机设备和存储介质 | |
US20170286486A1 (en) | High fidelity combination of data | |
US20060174261A1 (en) | Method and system for quantifying viewer awareness of advertising images in a video source | |
CN111125429A (zh) | 一种视频推送方法、装置和计算机可读存储介质 | |
CN110704753A (zh) | 一种基于时间序列性的个性化推荐方法 | |
US20240143475A1 (en) | Systems and methods for detecting, analyzing, and evaluating interaction paths | |
US20060111968A1 (en) | Method and system for valuing advertising content | |
CN114020960A (zh) | 音乐推荐方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |