CN112287167A - 视频推荐召回方法及装置 - Google Patents
视频推荐召回方法及装置 Download PDFInfo
- Publication number
- CN112287167A CN112287167A CN202011179882.4A CN202011179882A CN112287167A CN 112287167 A CN112287167 A CN 112287167A CN 202011179882 A CN202011179882 A CN 202011179882A CN 112287167 A CN112287167 A CN 112287167A
- Authority
- CN
- China
- Prior art keywords
- video
- user
- recall
- candidate set
- videos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000006399 behavior Effects 0.000 claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 238000005192 partition Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 101100059544 Arabidopsis thaliana CDC5 gene Proteins 0.000 description 28
- 101150115300 MAC1 gene Proteins 0.000 description 28
- 101100244969 Arabidopsis thaliana PRL1 gene Proteins 0.000 description 6
- 102100039558 Galectin-3 Human genes 0.000 description 6
- 101100454448 Homo sapiens LGALS3 gene Proteins 0.000 description 6
- 101150051246 MAC2 gene Proteins 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000001816 cooling Methods 0.000 description 5
- 101100064585 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) eaf-1 gene Proteins 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101100289995 Caenorhabditis elegans mac-1 gene Proteins 0.000 description 1
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及视频推荐技术领域,本发明旨在解决现有的视频推荐召回的数据质量不高的问题,提出一种视频推荐召回方法及装置,方案概括为:采集并清洗预设时间段内的用户行为日志;根据用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;构建用户的画像标签,并确定用户的画像标签偏好;根据用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定视频召回初始候选集中各视频的权重;对视频召回历史候选集中视频对应的权重进行衰减处理后,将视频召回初始候选集与视频召回历史候选集合并;根据合并候选集中的视频进行视频推荐。本发明提高了召回数据的质量,适用于电视终端。
Description
技术领域
本发明涉及视频推荐技术领域,具体来说涉及一种视频推荐召回方法及装置。
背景技术
在海量的信息中,为用户找到所需、所想、所爱的优质内容变得异常困难,推荐系统也因此应运而生。推荐系统中的核心是从海量的物品库中挑选合适物品最终推荐展示给用户。常见的推荐系统一般分为两个阶段,即召回阶段和排序阶段。召回阶段主要是从全量的物品库中抽取出用户尽可能感兴趣的小部分候选集,排序阶段则是将召回阶段得到的候选集进行精准排序,将用户最可能喜欢的物品排到前面,然后推荐给用户。对于视频的推荐来说,由于视频库中各种类型的视频数量巨大,因此从中筛选出用户更可能感兴趣的视频来为用户做推荐是一个非常重要的工作。
由于用户的行为是多样化的,传统的视频推荐系统在召回阶段为满足用户的需求,会从不同的角度出发去设计多个召回路,比如通过基于影视相似、基于用户画像以及基于用户关联相似等方面分别为用户生成相应候选集,然后将多路召回候选集融合生成一个初排候选集提供给后续的排序阶段再做处理。采用多路召回策略,召回阶段初排候选集的质量,决定着最终推荐的业务效果。单纯的根据用户近期的行为去做各路召回,忽略了用户兴趣的粘性;事实上用户短期的视频偏好是动态变化的,只根据最近行为视频召回,召回出来的候选视频中可能包含很多并不是用户真正感兴趣的,从而导致最终推荐召回的数据质量不高。
发明内容
本发明旨在解决现有的视频推荐召回的数据质量不高的问题,提出一种视频推荐召回方法及装置。
本发明解决上述技术问题所采用的技术方案是:视频推荐召回方法,包括以下步骤:
步骤1、采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;
步骤2、根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;
步骤3、根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;
步骤4、根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;
步骤5、获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;
步骤6、根据所述合并候选集中的视频进行视频推荐。
进一步的,步骤5中,所述对视频召回历史候选集中视频对应的权重进行衰减处理后得到衰减权重,其衰减计算的公式为:
衰减权重=历史权重*exp(-衰减系数*间隔天数)。
进一步的,步骤5中,所述将视频召回初始候选集与视频召回历史候选集合并具体包括:
对于视频召回初始候选集与视频召回历史候选集中相同的视频,合并后其权重为视频召回初始候选集中该视频对应的权重与视频召回历史候选集中该视频对应的衰减权重之和。
进一步的,步骤2中,所述根据用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重具体包括:
根据用户行为日志数据获取用户唯一标识、用户观看视频的唯一标识,统计用户观看视频标识对应的总时长、总次数、总集数和总天数,保留用户观看视频最后的日期时间信息,生成用户基本行为维度数据统计分区表;
根据所述用户基本行为维度数据统计分区表计算用户对于不同类型视频的不同行为维度的统计学指标,根据所述统计学指标得到视频各个维度下的权重。
进一步的,步骤2中,所述视频各个维度下的权重和为根据预设加权权重值计算得到的视频各个维度下的权重的加权和。
进一步的,步骤4中,所述根据用户的视频偏好和画像标签偏好生成视频召回初始候选集具体包括:
根据用户的视频偏好对应权重和的大小选取对应数量的相似视频,根据选取的相似视频生成视频召回初始候选集;
所述视频召回初始候选集中各视频的权重根据用户的视频偏好以及与对应视频的相似度确定,其计算公式为:
权重=视频偏好*相似度。
进一步的,还包括:
对于新用户或用户行为日志数据较少的用户,可通过热门、高评分或最新上映的视频对视频召回初始候选集进行补充。
进一步的,步骤6中,所述根据合并候选集中的视频进行视频推荐具体包括:
从所述合并候选集中选取权重最大的前M个视频进行视频推荐,所述M为大于1的整数。
进一步的,还包括:
在每次进行视频召回后,统计进行视频召回的视频中被用户后续观看的个数,根据视频召回的视频数量与被用户后续观看的个数计算视频召回率,根据所述视频召回率确定后续进行视频召回的合并候选集的大小。
本发明还提出一种视频推荐召回装置,包括:
采集单元,用于采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;
分析单元,用于根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;
构建单元,用于根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;
生成单元,用于根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;
衰减单元,用于获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;
推荐单元,用于根据所述合并候选集中的视频进行视频推荐。
本发明的有益效果是:本发明所述的视频推荐召回方法及装置,在每一次生成视频召回候选集后,通过对历史候选集中的视频权重进行衰减处理后,将新生成的视频召回候选集与历史候选集进行合并,最后根据合并候选集来进行视频推荐召回,由于用户的行为都是具有粘性的,过去的行为召回的数据保留到当前状态下,有效的保留了用户的兴趣,历史权重衰减更贴合用户兴趣的变化规律,有效的提升了召回数据的质量。
附图说明
图1为本发明实施例所述的视频推荐召回方法的流程示意图;
图2为本发明实施例所述的视频推荐召回装置的结构示意图。
具体实施方式
下面将结合附图对本发明的实施方式进行详细描述。
本发明所述的视频推荐召回方法及装置,其技术构思为:采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;根据所述合并候选集中的视频进行视频推荐。
具体而言,本发明通过分析用户的基本行为,生成用户的历史视频行为记录数据;将视频行为转化成可以量化的视频偏好和画像标签偏好,分析出用户喜好视频的权重与用户的画像标签偏好;根据用户最近的行为视频偏好以及画像标签偏好去召回对应数量的和标签相关联的相似视频,生成新行为的视频召回初始候选集;并将各历史召回候选集中视频的权重做权重衰减再与新行为的视频召回初始候选集合并,得到合并候选集,最后根据所述合并候选集中的视频进行视频推荐。
实施例1
本发明实施例所述的视频推荐召回方法,如图1所示,包括以下步骤:
步骤S1、采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;
具体而言,通过终端上报用户行为数据采集,利用MR程序清洗数据,将基本数据存入hdfs系统,得到用户基本的行为日志数据。
步骤S2、根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;
可以理解,可以根据用户行为日志,通过hive处理获取用户唯一标识、用户观看视频的唯一标识,统计用户观看视频标识对应的总时长、总次数、总集数、总天数,保留用户观看视频最后的日期时间信息,生成用户基本行为维度数据统计分区表。用户在新一天产生了新的行为,则结合过去行为分区数据去更新用户的行为数据表中相应的维度内容,对不存在的视频作新增,对已存在的视频作相应维度更新。用户的行为按视频类型划分保留落在冷却时间阈值之内的K条数据,其中冷却时间阈值可根据整体用户留存率满足需求对应的值得到,K的值可取为冷却时间内总体用户行为视频个数的中位数,也可以简单地根据经验人为给定;不是所有用户在冷却时间内对各种类型的视频都能产生足够多的行为,为能更好的贴合用户行为兴趣的变化,行为数据表中要剔除冷却时间之外的行为数据;对于行为丰富的用户,保留最近K条数据也能够表示最近的兴趣特征,这样处理能有效降低数据存储量。针对不用的视频类型,关注的行为维度略为不同。对于电影类型,观看的时长、频次等最能反映出用户对其偏好程度,我们主要关注用户近期观看具体某个电影的时长和观看频次、天数维度信息,对于电视剧、综艺、动漫等有连续剧集的视频类型,关注的是用户观看的集数总数、次数、天数维度信息。为更细致刻画用户的行为,也可以再结合用户收藏、检索等行为数据增加分析维度。用户的每次浏览点击、观看收藏行为都隐藏了用户对具体某个视频以及某类视频标签的偏好。
根据处理得到的用户基本行为维度数据统计表,可计算整体用户对于不同类型视频的不同行为维度的统计学指标,比如各个维度的分位数、平均值等。我们关注的是各类型视频整体观看天数的分位数、观看次数的分位数,分位值取等差的间距(0.2,0.4,0.6,0.8,1.0)或者其他普通有序的值,如(0.1,0.25,0.45,0.75,1.0);根据整体分位对应值划分多个不相交区间,不同的区间给定相应对应的权重值,分位对应值越大相应的权重也越大;权重值取成分位值,也可以是给定的其他值,但是要保证权重值是介于0和1之间。各种视频类型划分维度分位区间个数由该类型维度分位数具体对应的值以及维度平均值来决定,一般划分区间的中间值要大于等于维度平均值,最大区间值要小于等于1.0分位对应值。比如假设对于电影视频类型,平均观看天数是3,整体观看天数(0.25、0.5、0.75、1.0)分位数对应值为(1、2、3、5),则可划分区间{(0,1]、(1,2],(2,3],[4,+oo)},区间对应权重取成分位值(0.25、0.5、0.75、1.0),次数权重类似的处理即可得到,再利用用户观看的某电影的总时长除以电影本身的时长作为时长权重,对于电视剧等连续剧集的视频,利用观看总集数除以视频更新总集数得到集数权重。通过这样处理,当用户有对不同类型视频新的行为就能得到该用户对最近行为视频各个维度下的权重。
其中,所述视频各个维度下的权重和为根据预设加权权重值计算得到的视频各个维度下的权重的加权和。通过各维度权重加权计算最后生成用户对近期行为视频的偏好,加权权重值可以是人为给定的值;
步骤S3、根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;
具体而言,长期的用户行为数据统计分析,结合视频内容标签,构建出用户的画像标签,利用基于标签的TF_IDF算法对用户身上每一种标签给予相应的权重,挖掘出用户的兴趣标签。用户的兴趣挖掘是数据分析工作中重要的一部分,通过将用户的行为转成可以量化的偏好权重,是弹性召回的关键,用户行为的权重表示越贴切,后续召回的数据越具有代表性。
步骤S4、根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;
本实施例中,可以根据用户的视频偏好对应权重和的大小选取对应数量的相似视频,根据选取的相似视频生成视频召回初始候选集;
所述视频召回初始候选集中各视频的权重根据用户的视频偏好以及与对应视频的相似度确定,其计算公式为:权重=视频偏好*相似度。
例如,可以根据偏好权重划分不相交区间{(0,0.2]、(0.2,0.4]、(0.4,0.6]、(0.6,0.8]、(0.8,1.0]},不同的权重区间对应召回不同的相似相关视频数量,这个对应召回数量最大值是个由相似数据库的相似质量来取得的,例如可取对应召回数量为(2,4,6,8,10)等。用户对于某视频产生的行为越多,对应的权重就越大,即用户更感兴趣的视频,其对应权重就越大,相似列表中的相似视频被召回的数量就应该越多,画像标签的召回也类似地根据标签的权重划分等级,权重越大的标签,召回的相关视频数量就越多,进而实现视频推荐的弹性召回,而不是将所有相似相关的视频都进行召回,从而合理地减少了最初候选集的数据量。
对于新用户或用户行为日志数据较少的用户,可通过热门、高评分或最新上映的视频对视频召回初始候选集进行补充,防止冷启动问题。
召回视频的相似数据是提前根据各种算法计算出来的,比如说是基于物品的协同过滤算法的相似(ItemCF)或者是基于内容的相似(ContentBase)等;标签相关联的视频也是经过高分、热门筛选的视频集合,再对其处理进行标签召回,提高候选召回数据的质量。
步骤S5、获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;
本实施例中,将所述视频召回初始候选集与视频召回历史候选集合并包括:对于视频召回初始候选集与视频召回历史候选集中相同的视频,合并后其权重为视频召回初始候选集中该视频对应的权重与视频召回历史候选集中该视频对应的衰减权重之和。对于视频召回初始候选集与视频召回历史候选集中不相同的视频,则直接加入合并候选集中。
本实施例中,对视频召回历史候选集中视频对应的权重进行衰减处理后得到衰减权重,其衰减计算的公式为:衰减权重=历史权重*exp(-衰减系数*间隔天数)。
其中,衰减系数可以根据实际情况设置。
用户对某视频、视频类型的喜好是一个持续的过程,利用过去行为产生的候选数据作权重衰减再与最新召回数据合并,用户候选集中视频和视频权重会不断更新,满足用户的类型多样化和个性化需求,用户偏好越大的视频权重相对排序位置越靠前,进而提升用户候选集的质量。
步骤S6、根据所述合并候选集中的视频进行视频推荐。
本实施例中,视频推荐包括:从所述合并候选集中选取权重最大的前M个视频进行视频推荐,所述M为大于1的整数。
用户的行为都是具有粘性的,过去的行为召回的数据保留到当前状态下,有效的保留住用户的兴趣,历史权重衰减更贴合用户兴趣的变化规律,经过不断的衰减合并,用户更感兴趣的视频权重会有所提升,不感兴趣的视频会被排序到N值之后而被剔除,这样召回的候选集具有更好的合理性。
随着用户数和视频数的不断增加,召回时会产生更大的数据量,各路的候选集数据量庞大,存储需要很大的空间,数据融合需要耗费很大的系统资源。
为了解决上述问题,本发明实施例所述的视频推荐召回方法,还包括:
在每次进行视频召回后,统计进行视频召回的视频中被用户后续观看的个数,根据视频召回的视频数量与被用户后续观看的个数计算视频召回率,根据所述视频召回率确定后续进行视频召回的合并候选集的大小。
具体而言,利用用户历史候选召回数据,结合用户后续的最近观看行为数据,选出合并候选集排在前N的视频生成Top_N候选数据表,与最新观看行为表通过用户标识和视频标识进行inner join,统计出Top_N合并候选集中存在的视频被用户后续观看的个数M1,假设新观看的视频个数为M2,则该用户的Top_N召回率为M1/M2;然后统计整体用户的Top_N平均召回率,根据不同的N值对应的不用召回率指标大小来决定最终合并候选集的大小。
召回率指标能反映出我们召回候选集的质量,Top_N召回率越高,说明候选集的前N个视频越受大量用户的欢迎。一般情况下,Top_N候选集的N值越大,整体的平均召回率越大,但是不可能为每个用户召回特别多的视频,要不然候选集的生成计算量会特别大,存储用户候选数据集需要的空间就更多;整体平均召回率指标能反应出各路候选集数据的初排质量。根据召回率指标来决定用户召回候选集总的视频个数,能在保证各路召回候选集质量的情况下,大大减小数据存储量,减小做候选数据更新时的系统消耗。
基于上述技术方案,本实施例还提出一种视频推荐召回装置,如图2所示,包括:
采集单元,用于采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;
分析单元,用于根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;
构建单元,用于根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;
生成单元,用于根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;
衰减单元,用于获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;
推荐单元,用于根据所述合并候选集中的视频进行视频推荐。
可以理解,由于本发明实施例所述的视频推荐召回装置是用于实现实施例所述视频推荐召回方法的装置,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的较为简单,相关之处参见方法的部分说明即可。
实施例2
本实施例以电视机终端为例,对本发明的实施方式进行具体说明。
1、首先从电视机终端采集、清洗用户行为日志。
2、分析用户基本行为。
分析计算用户前一天观看具体的视频时长、集数、频次天数,结合历史的行为数据做各个维度的累计,历史行为记录每天都剔除过去三十天之前的记录。
用户观看行为记录如下:
用户 | 视频 | 观看时长 | 观看次(集)数 | 观看天数 | 时间日期 |
MAC1 | Vid_1 | T1 | N1 | D1 | Y |
MAC1 | Vid_2 | T2 | N2 | D2 | Y |
MAC2 | Vid_1 | T3 | N3 | D3 | Y |
MAC2 | Vid_3 | T4 | N4 | D4 | Y |
… | … | … | … | … | … |
其中MACi(i=1,2…)是用户身份的唯一标,Vid_i表示视频唯一标识id,观看时长T精确到秒,Y表示用户最近一次观看的日期。用户的观看记录是历史累计的,但是不是将用户整个生命周期中对某个视频的观看行为做累计,只统计用户对具体视频最近三十天的行为。
3、视频行为转化成偏好权重。
对于不同的观看行为维度,可以给定一个初始权重,也可以通过用户行为与视频基本信息结合来计算,本实施例采用两者的结合。用户对视频偏好计算如下:
用户 | 视频 | 时长权重 | 频次权重 | 天数权重 | 最终偏好 |
MAC1 | Vid_1 | T1/T_v1=R_t1 | R_n1 | R_d1 | R1 |
MAC1 | Vid_2 | T2/T_v2=R_t2 | R_n2 | R_d2 | R2 |
MAC2 | Vid_1 | T3/T_v3=R_t3 | R_n3 | R_d3 | R3 |
MAC2 | Vid_3 | T4/T_v4=R_t4 | R_n4 | R_d4 | R4 |
… | … | … | … | … | … |
其中,T_vi表示视频本身的总时长,时长维度的权重R_ti利用观看时长除以视频本身时长得到;观看频次权重R_ni、天数权重R_di是利用总体用户观看的频次、天数的分位数划分区间,然后给定区间对应的权重值,比如整体用户观看天数的0.1、0.2、0.25、0.5、0.75分位数分别为1、2、4、6、9,则划分区间[1,2)、[2,4)、[4,6)、[6,9)、[9,+oo),区间对应的权重分别为0.2、0.4、0.6、0.8、1.0;当用户最近观看某个视频Vid_i的天数对应的区间则直接给定权重R_di。
用户最终的偏好权重等于各维度的权重平均值或者加权平均值,Ki=1/3(R_ti+R_ni+R_di)或者Ki=R_ti*0.7+R_ni*0.1+R_di*0.2,各维度的加权值可视实际场景自行决定。
4、根据偏好视频权重弹性召回。
根据用户行为得到了用户对具体的某个视频的偏好,利用此偏好大小实现弹性的召回相似视频个数:
用户 | 视频 | 最终偏好 | 召回个数 |
MAC1 | Vid_1 | R1 | K1 |
MAC1 | Vid_2 | R2 | K2 |
MAC2 | Vid_1 | R3 | K3 |
MAC2 | Vid_3 | R4 | K4 |
… | … | … | … |
召回个数Ki是根据最终偏好权重Ri划分区间给定的,类似于频次与天数权重的生成,具体每个用户MACi观看视频Vid_i召回多少个不仅要关注用户的行为,还要注意各种算法计算的相似视频的质量,相似视频排在后面的一般关联性就相对比较小,不应该将所有相似的视频都召回。
相似视频列表如下:
视频 | 相似视频 | 相似度 | 相似排序 |
Vid_1 | Vid_11 | Rate11 | 1 |
Vid_1 | Vid_12 | Rate12 | 2 |
… | … | … | TopK1 |
Vid_2 | Vid_21 | Rate21 | 1 |
Vid_2 | Vid_22 | Rate22 | 2 |
Vid_2 | Vid_23 | Rate23 | 3 |
… | … | … | TopK2 |
Vid_3 | Vid_31 | Rate31 | 1 |
Vid_3 | Vid_32 | Rate32 | 2 |
… | … | … | TopK3 |
不管是协同过滤还是基于内容的相似算法,得到的相似视频Vid_ij相似度Rateij都是在0到1之间的小数,我们利用相似度降序排序,为每个视频的相似视频标号TopKi。
到此就可以为用户弹性召回了。例如为用户MAC1召回候选列表如下:
用户 | 候选视频 | 权重 | 召回排序 | 时间日期 |
MAC1 | Vid_11 | Score11 | 1 | Y1 |
MAC1 | Vid_12 | Score12 | 3 | Y1 |
MAC1 | … | … | Rank | Y1 |
MAC1 | Vid_21 | Score21 | 2 | Y1 |
MAC1 | Vid_22 | Score22 | 5 | Y1 |
MAC1 | Vid_23 | Score23 | 4 | Y1 |
… | … | … | … | Y1 |
其中:权重(Score)=视频偏好(R)*相似度(Rate)。
用户MAC1偏好视频Vid_1,召回个数为K1,候选表中对Vid_1的召回数量(即从相似表中为MAC1选出Vid_1的相似TopK)要小于等于K1,Vid_11的权重Score11=R1*Rate11,同样地,候选表中对Vid_2的召回数量要小于K2,Score21=R2*Rate21;召回排序根据MAC分组利用Score降序排序。通过上面的处理就得到了新的视频召回初始候选集。
5、历史候选列表权重衰减与新的候选列表合并重排。
当用户有了新的观看行为,假设MAC1在时间日期Y2又观看Vid_4,Vid_4的相似列表如下:
视频 | 相似视频 | 相似度 | 相似排序 |
Vid_4 | Vid_41 | Rate41 | 1 |
Vid_4 | Vid_12 | Rate42 | 2 |
Vid_4 | Vid_22 | Rate43 | 3 |
… | … | … | TopK4 |
Vid_4与Vid_1、Vid_2分别有相同的相似视频Vid_12和Vid_22,按照步骤2、3、4的处理方式对Vid_4召回进行处理,得到MAC1在Y2时间状态下的对Vid_4生成的召回候选表:
用户 | 候选视频 | 权重 | 召回排序 | 时间日期 |
MAC1 | Vid_41 | Score41 | 1 | Y2 |
MAC1 | Vid_12 | Score42 | 2 | Y2 |
MAC1 | Vid_22 | Score43 | 3 | Y2 |
… | … | … | Rank | Y2 |
MAC1的历史候选集做权重衰减并与新的候选集合并,相同的召回视频权重进行求和,得到Y2时间下MAC1的最新候选表:
用户 | 候选视频 | 权重 | 召回排序 | 时间日期 |
MAC1 | Vid_11 | Score11* | Y2 | |
MAC1 | Vid_12 | Score12* | Y2 | |
MAC1 | … | … | Rank | Y2 |
MAC1 | Vid_21 | Score21* | Y2 | |
MAC1 | Vid_22 | Score22* | Y2 | |
MAC1 | Vid_23 | Score23* | Y2 | |
MAC1 | Vid_41 | Score41 | Y2 | |
… | … | … | … | Y2 |
假设我们希望权重在30天内从1衰减到0.1,则衰减系数a=0.077,衰减系数可根据凥情况设置;
这时,Score11*=Score11ⅹexp(-0.077ⅹ(Y2-Y1));
而Score12*=Score42+Score12ⅹexp(-0.077*(Y2-Y1)),即:在新的候选列表与历史候选列表中都存在的视频,则利用历史权重衰减与新权重之和作为最新状态的候选权重;新候选列表新增的视频其权重即为其当前权重,只在历史的召回候选集中的视频权重只做衰减,作为最新状态的权重。最后根据最新状态的权重大小,对候选集里的视频进行初步排序,最后根据排序进行视频召回。
6、计算整体候选集召回率指标,通过Top_N平均召回率指标决定用户最终召回的合并候选集的大小。
随着时间推移,用户的数量和视频的数量不断增加,用户候选集里面的候选视频数量也会与来越大,会造成系统负载太大,影响整体处理能力。通过长时间计算召回Top_N平均召回率指标,我们能找到一个合适的N值,最终确定为每个用户召回的视频最大数量。
Claims (10)
1.视频推荐召回方法,其特征在于,包括以下步骤:
步骤1、采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;
步骤2、根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;
步骤3、根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;
步骤4、根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;
步骤5、获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;
步骤6、根据所述合并候选集中的视频进行视频推荐。
2.如权利要求1所述的视频推荐召回方法,其特征在于,步骤5中,所述对视频召回历史候选集中视频对应的权重进行衰减处理后得到衰减权重,其衰减计算的公式为:
衰减权重=历史权重*exp(-衰减系数*间隔天数)。
3.如权利要求2所述的视频推荐召回方法,其特征在于,步骤5中,所述将视频召回初始候选集与视频召回历史候选集合并具体包括:
对于视频召回初始候选集与视频召回历史候选集中相同的视频,合并后其权重为视频召回初始候选集中该视频对应的权重与视频召回历史候选集中该视频对应的衰减权重之和。
4.如权利要求1所述的视频推荐召回方法,其特征在于,步骤2中,所述根据用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重具体包括:
根据用户行为日志数据获取用户唯一标识、用户观看视频的唯一标识,统计用户观看视频标识对应的总时长、总次数、总集数和总天数,保留用户观看视频最后的日期时间信息,生成用户基本行为维度数据统计分区表;
根据所述用户基本行为维度数据统计分区表计算用户对于不同类型视频的不同行为维度的统计学指标,根据所述统计学指标得到视频各个维度下的权重。
5.如权利要求1所述的视频推荐召回方法,其特征在于,步骤2中,所述视频各个维度下的权重和为根据预设加权权重值计算得到的视频各个维度下的权重的加权和。
6.如权利要求1所述的视频推荐召回方法,其特征在于,步骤4中,所述根据用户的视频偏好和画像标签偏好生成视频召回初始候选集具体包括:
根据用户的视频偏好对应权重和的大小选取对应数量的相似视频,根据选取的相似视频生成视频召回初始候选集;
所述视频召回初始候选集中各视频的权重根据用户的视频偏好以及与对应视频的相似度确定,其计算公式为:权重=视频偏好*相似度。
7.如权利要求1所述的视频推荐召回方法,其特征在于,还包括:
对于新用户或用户行为日志数据较少的用户,可通过热门、高评分或最新上映的视频对视频召回初始候选集进行补充。
8.如权利要求1所述的视频推荐召回方法,其特征在于,步骤6中,所述根据合并候选集中的视频进行视频推荐具体包括:
从所述合并候选集中选取权重最大的前M个视频进行视频推荐,所述M为大于1的整数。
9.如权利要求1所述的视频推荐召回方法,其特征在于,还包括:
在每次进行视频召回后,统计进行视频召回的视频中被用户后续观看的个数,根据视频召回的视频数量与被用户后续观看的个数计算视频召回率,根据所述视频召回率确定后续进行视频召回的合并候选集的大小。
10.视频推荐召回装置,其特征在于,包括:
采集单元,用于采集并清洗预设时间段内的用户行为日志,得到用户行为日志数据;
分析单元,用于根据所述用户行为日志数据分析用户的基本行为,得到视频各个维度下的权重,根据视频各个维度下的权重和生成用户的视频偏好;
构建单元,用于根据用户的视频偏好程度以及视频内容标签,构建用户的画像标签,并确定用户的画像标签偏好;
生成单元,用于根据所述用户的视频偏好和画像标签偏好生成视频召回初始候选集,并确定所述视频召回初始候选集中各视频的权重;
衰减单元,用于获取视频召回历史候选集,对所述视频召回历史候选集中视频对应的权重进行衰减处理后,将所述视频召回初始候选集与视频召回历史候选集合并后得到合并候选集;
推荐单元,用于根据所述合并候选集中的视频进行视频推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011179882.4A CN112287167A (zh) | 2020-10-29 | 2020-10-29 | 视频推荐召回方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011179882.4A CN112287167A (zh) | 2020-10-29 | 2020-10-29 | 视频推荐召回方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287167A true CN112287167A (zh) | 2021-01-29 |
Family
ID=74373983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011179882.4A Pending CN112287167A (zh) | 2020-10-29 | 2020-10-29 | 视频推荐召回方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287167A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014938A (zh) * | 2021-02-24 | 2021-06-22 | 北京金和网络股份有限公司 | 多维度视频直播推荐方法及装置 |
CN113297398A (zh) * | 2021-05-24 | 2021-08-24 | 百果园技术(新加坡)有限公司 | 一种用户召回方法、装置、计算机设备和存储介质 |
CN113420018A (zh) * | 2021-06-22 | 2021-09-21 | 平安科技(深圳)有限公司 | 用户行为数据分析方法、装置、设备及存储介质 |
CN113590942A (zh) * | 2021-07-19 | 2021-11-02 | 武汉风行在线技术有限公司 | 一种短视频自动化推荐方法及系统 |
CN114020994A (zh) * | 2021-09-18 | 2022-02-08 | 北京快乐茄信息技术有限公司 | 一种推荐系统召回率确定方法、装置、电子设备及存储介质 |
CN114265953A (zh) * | 2021-12-31 | 2022-04-01 | 上海艾牌科技集团有限公司 | 一种基于标签的短视频推荐方法、系统、设备和介质 |
CN114385925A (zh) * | 2022-01-25 | 2022-04-22 | 达而观信息科技(上海)有限公司 | 一种智能辅助搜索输入的方法 |
CN114915844A (zh) * | 2021-11-08 | 2022-08-16 | 海看网络科技(山东)股份有限公司 | 一种iptv上实现实时智能推荐的方法 |
CN117156184A (zh) * | 2023-08-11 | 2023-12-01 | 魔人传媒(杭州)有限公司 | 智能投放视频播放方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160212494A1 (en) * | 2013-09-06 | 2016-07-21 | Beijing Qihoo Technology Company Limited | Video recommendation method and device |
CN107368584A (zh) * | 2017-07-21 | 2017-11-21 | 山东大学 | 一种个性化视频推荐方法及系统 |
CN107977373A (zh) * | 2016-10-21 | 2018-05-01 | 北京酷我科技有限公司 | 一种歌曲的推荐方法 |
CN109740064A (zh) * | 2019-01-18 | 2019-05-10 | 北京化工大学 | 一种融合矩阵分解和挖掘用户项目信息的cf推荐方法 |
CN110008375A (zh) * | 2019-03-22 | 2019-07-12 | 广州新视展投资咨询有限公司 | 推荐视频召回方法和装置 |
CN110765310A (zh) * | 2019-10-09 | 2020-02-07 | 上海麦克风文化传媒有限公司 | 一种基于参数配置的音频专辑推荐方法及系统 |
CN110781341A (zh) * | 2019-10-09 | 2020-02-11 | 上海麦克风文化传媒有限公司 | 一种融合多策略召回数据集的音频专辑推荐方法及系统 |
-
2020
- 2020-10-29 CN CN202011179882.4A patent/CN112287167A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160212494A1 (en) * | 2013-09-06 | 2016-07-21 | Beijing Qihoo Technology Company Limited | Video recommendation method and device |
CN107977373A (zh) * | 2016-10-21 | 2018-05-01 | 北京酷我科技有限公司 | 一种歌曲的推荐方法 |
CN107368584A (zh) * | 2017-07-21 | 2017-11-21 | 山东大学 | 一种个性化视频推荐方法及系统 |
CN109740064A (zh) * | 2019-01-18 | 2019-05-10 | 北京化工大学 | 一种融合矩阵分解和挖掘用户项目信息的cf推荐方法 |
CN110008375A (zh) * | 2019-03-22 | 2019-07-12 | 广州新视展投资咨询有限公司 | 推荐视频召回方法和装置 |
CN110765310A (zh) * | 2019-10-09 | 2020-02-07 | 上海麦克风文化传媒有限公司 | 一种基于参数配置的音频专辑推荐方法及系统 |
CN110781341A (zh) * | 2019-10-09 | 2020-02-11 | 上海麦克风文化传媒有限公司 | 一种融合多策略召回数据集的音频专辑推荐方法及系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014938A (zh) * | 2021-02-24 | 2021-06-22 | 北京金和网络股份有限公司 | 多维度视频直播推荐方法及装置 |
CN113014938B (zh) * | 2021-02-24 | 2022-06-14 | 北京金和网络股份有限公司 | 多维度视频直播推荐方法及装置 |
CN113297398A (zh) * | 2021-05-24 | 2021-08-24 | 百果园技术(新加坡)有限公司 | 一种用户召回方法、装置、计算机设备和存储介质 |
CN113420018A (zh) * | 2021-06-22 | 2021-09-21 | 平安科技(深圳)有限公司 | 用户行为数据分析方法、装置、设备及存储介质 |
CN113590942A (zh) * | 2021-07-19 | 2021-11-02 | 武汉风行在线技术有限公司 | 一种短视频自动化推荐方法及系统 |
CN114020994A (zh) * | 2021-09-18 | 2022-02-08 | 北京快乐茄信息技术有限公司 | 一种推荐系统召回率确定方法、装置、电子设备及存储介质 |
CN114915844A (zh) * | 2021-11-08 | 2022-08-16 | 海看网络科技(山东)股份有限公司 | 一种iptv上实现实时智能推荐的方法 |
CN114915844B (zh) * | 2021-11-08 | 2023-02-28 | 海看网络科技(山东)股份有限公司 | 一种iptv上实现实时智能推荐的方法及系统 |
CN114265953A (zh) * | 2021-12-31 | 2022-04-01 | 上海艾牌科技集团有限公司 | 一种基于标签的短视频推荐方法、系统、设备和介质 |
CN114385925A (zh) * | 2022-01-25 | 2022-04-22 | 达而观信息科技(上海)有限公司 | 一种智能辅助搜索输入的方法 |
CN117156184A (zh) * | 2023-08-11 | 2023-12-01 | 魔人传媒(杭州)有限公司 | 智能投放视频播放方法、装置、设备及存储介质 |
CN117156184B (zh) * | 2023-08-11 | 2024-05-17 | 魔人传媒(杭州)有限公司 | 智能投放视频播放方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287167A (zh) | 视频推荐召回方法及装置 | |
CN107038213B (zh) | 一种视频推荐的方法及装置 | |
CN110263189B (zh) | 媒体内容的推荐方法、装置、存储介质和计算机设备 | |
KR100839306B1 (ko) | 프로그램 시청 패턴 반영 기법을 이용한 디지털 tv프로그램 추천 시스템 및 방법 | |
US8869205B2 (en) | Method and system for video collection management, invalid video replacement and continuous video replay | |
CN108108491B (zh) | 一种多媒体数据的推荐方法及装置 | |
US20150143394A1 (en) | Content presentation method, content presentation device, and program | |
CN106131601A (zh) | 视频推荐方法及装置 | |
CN104935970A (zh) | 进行电视内容推荐的方法及电视客户端 | |
CN109429103B (zh) | 推荐信息的方法、装置及计算机可读存储介质、终端设备 | |
WO2001047257A1 (en) | Intelligent system and methods of recommending media content items based on user preferences | |
CN109040795B (zh) | 一种视频推荐方法及系统 | |
JP2008542870A (ja) | コンテンツに対するユーザの群の全体の関心を推定するため方法及び装置 | |
CN107608990B (zh) | 一种直播个性化推荐方法 | |
KR101151176B1 (ko) | 메뉴 선호 정보를 이용한 콘텐츠 추천 방법 | |
CN112507163B (zh) | 时长预测模型训练方法、推荐方法、装置、设备及介质 | |
CN103747343A (zh) | 资源分时段推荐的方法和装置 | |
CN110430477A (zh) | 直播内容的推荐方法、装置、计算机设备和存储介质 | |
US20170068900A1 (en) | Network service recommendation method and apparatus | |
CN111400546B (zh) | 一种视频召回方法、视频推荐方法及装置 | |
CN107454442A (zh) | 一种推荐视频的方法和装置 | |
CN114071237A (zh) | 一种基于用户画像的智能电视个性化专题推荐方法 | |
CN106156351A (zh) | 多媒体资源推荐信息生成方法及装置 | |
CN109063080B (zh) | 一种视频推荐方法及装置 | |
CN104965903A (zh) | 一种资源的推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210129 |