CN113158026B - 物品分发方法、电子设备和存储介质 - Google Patents
物品分发方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113158026B CN113158026B CN202110252183.6A CN202110252183A CN113158026B CN 113158026 B CN113158026 B CN 113158026B CN 202110252183 A CN202110252183 A CN 202110252183A CN 113158026 B CN113158026 B CN 113158026B
- Authority
- CN
- China
- Prior art keywords
- articles
- article
- click rate
- newly added
- pool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006399 behavior Effects 0.000 claims abstract description 101
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 244000062793 Sorghum vulgare Species 0.000 description 3
- 235000013405 beer Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 235000019713 millet Nutrition 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种物品分发方法、电子设备和存储介质,其中方法包括:确定新增物品的相似物品,相似物品为与新增物品的物品内容相似的物品;基于相似物品的用户行为表示,确定新增物品的用户行为表示;确定新增物品的相关物品,相关物品为与新增物品的用户行为表示相似的物品;基于相关物品的统计点击率,确定新增物品的预估点击率,基于预估点击率分发新增物品。本发明提供的方法、电子设备和存储介质,应用物品内容相似的相似物品和用户行为表示相似的相关物品,预估新增物品的点击率从而实现分发,流程计算量小,保证了物品分发的时效性。同时,充分考虑了新增物品本身的特性,能够提高新增物品点击率的预测准确性,有助于达到更优的分发效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种物品分发方法、电子设备和存储介质。
背景技术
信息科技的迅猛发展下,推荐系统应运而生,在较短时间内向用户分发符合用户喜好的物品是推荐系统的目标。
目前的物品分发通常通过随机分发策略或者离线计算实现。其中,随机分发策略不考虑到新物品个体之间的差异,进行无差别分发,虽然分发的时效性能够保证,但无法保证分发后用户的点击效果;而通过离线计算方式对物品进行分类后再择优分发,虽然一定程度能保证分发效果,但时效性比较差,新物品上线后需要一定时间后才能得到其分类,且无论采用何种分类方式,都需将新物品划分到有限的类别中,而一个分类的点击率情况无法准确代表一个新物品,因此用分类的点击率情况决定新物品是否分发有失偏颇。
发明内容
本发明提供一种物品分发方法、电子设备和存储介质,用以解决现有的物品分发方法无法在体现物品个体差异的同时保证时效性的问题。
本发明提供一种物品分发方法,包括:
确定新增物品的相似物品,所述相似物品为与所述新增物品的物品内容相似的物品;
基于所述相似物品的用户行为表示,确定所述新增物品的用户行为表示;
确定所述新增物品的相关物品,所述相关物品为与所述新增物品的用户行为表示相似的物品;
基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,基于所述预估点击率分发所述新增物品。
根据本发明提供的一种物品分发方法,所述基于所述预估点击率分发所述新增物品,包括:
基于所述预估点击率,将所述新增物品分发至对应的物品池,所述物品池为高质量物品池、探索物品池或低质量物品池,所述高质量物品池、探索物品池或低质量物品池内物品的统计点击率逐次递减。
根据本发明提供的一种物品分发方法,所述基于所述预估点击率,将所述新增物品分发至对应的物品池,包括:
若所述预估点击率大于当前时段的第一点击率阈值,则将所述新增物品分发至所述高质量物品池;
若所述预估点击率小于所述当前时段的第二点击率阈值,则将所述新增物品分发至所述低质量物品池;
否则,将所述新增物品分发至所述探索物品池下所述新增物品所属物品类型的子池中;
所述第一点击率阈值大于所述第二点击率阈值,所述当前时段的第一点击率阈值和第二点击率阈值是基于上一时段同类物品的统计点击率排序确定的。
根据本发明提供的一种物品分发方法,所述将所述新增物品分发至所述探索物品池下所述新增物品所属物品类型的子池中,包括:
若所述新增物品所属物品类型的子池的已用空间达到当前时段的预设容量,则将所述子池内上一时段的统计点击率最低的物品移入所述低质量物品池,并将所述新增物品分发至所述子池;
所述当前时段的预设容量是基于所述新增物品所属物品类型在上一时段的曝光物品数量,以及上一时段与当前时段的历史平均曝光量确定的。
根据本发明提供的一种物品分发方法,所述高质量物品池、探索物品池和低质量物品池是基于各已有物品的曝光数据和统计点击量确定的。
根据本发明提供的一种物品分发方法,所述确定新增物品的相似物品,包括:
确定所述新增物品与各已有物品的物品内容相似度;
若存在所述物品内容相似度大于第一相似度阈值的已有物品,则将所述新增物品分发至所述低质量物品池;
若不存在所述物品内容相似度大于第二相似度阈值的已有物品,则将所述新增物品分发至所述探索物品池;
否则,将所述物品内容相似度大于所述第二相似度阈值的已有物品作为所述相似物品;
所述第一相似度阈值大于所述第二相似度阈值。
根据本发明提供的一种物品分发方法,所述用户行为表示、统计点击率和所述预估点击率均与用户类型一一对应。
根据本发明提供的一种物品分发方法,所述基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,包括:
基于任一用户类型下的点击率预测模型,以及各相关物品的统计点击率和各相关物品与所述新增物品之间的用户行为相似度,确定所述新增物品在所述任一用户类型下的预估点击率;
所述点击率预测模型是基于所述任一用户类型下各已有物品的统计点击率,以及各已有物品之间的用户行为相似度训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述物品分发方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述物品分发方法的步骤。
本发明提供的物品分发方法、电子设备和存储介质,应用物品内容相似的相似物品和用户行为表示相似的相关物品,预估新增物品的点击率从而实现分发,流程计算量小,保证了物品分发的时效性。同时,相较于现有技术中对新增物品进行分类或者聚类的方式,应用新增物品的相似物品和相关物品进行点击率预测,充分考虑了新增物品本身的特性,能够提高新增物品点击率的预测准确性,有助于达到更优的分发效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的物品分发方法的流程示意图之一;
图2是本发明提供的物品分发方法的流程示意图之二;
图3是本发明提供的物品分发装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的物品分发方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定新增物品的相似物品,相似物品为与新增物品的物品内容相似的物品。
具体地,新增物品是新增的需要进行推荐分发的物品,此处所指的物品可以是音乐、电影、新闻报道等虚拟物品,也可以是上架售卖的实体产品,物品的类型可以根据推荐系统具体应用的场景而定,此处不作具体限定。
物品内容用于反映物品的属性,具体可以是物品的标题、简介、类型等,例如音乐类物品的物品内容可以是歌名、专辑名、歌手名、歌曲类型、发行时间等。
在得到新增物品后,可以计算新增物品的物品内容与各个已有物品的物品内容之间的相似度,从而从物品属性层面上选取新增物品的相似物品。此处,新增物品的相似物品可以是物品内容相似度大于预先设定的内容相似度阈值的已有物品,也可以是在所有已有物品中内容相似度排序前预设数量个的已有物品,本发明实施例对此不作具体限定。
步骤120,基于相似物品的用户行为表示,确定新增物品的用户行为表示。
具体地,步骤110中选取得到的相似物品均为已有物品,可以通过记录已有物品在最近一段时间内的用户行为,得到已有物品的用户行为表示。此处,相似物品的用户行为表示可以反映在最近一段时间内用户针对相似物品所执行的行为,例如用户在最近一段时间内点击该物品的次数。
考虑到属性相似的物品所对应的用户行为具有较高的相似度,可以基于相似物品的用户行为表示,估计新增物品的用户行为表示。此处,新增物品的用户行为表示可以通过各相似物品的用户行为表示的均值得到,也可以将各相似物品与新增物品的物品内容相似度作为权重,对各相似物品的用户行为表示进行加权求和得到,本发明实施例对此不作具体限定。
步骤130,确定新增物品的相关物品,相关物品为与新增物品的用户行为表示相似的物品。
具体地,在得到新增物品的用户行为表示后,可以计算新增物品的用户行为表示与各个已有物品的用户行为表示之间的相似度,从而从用户行为层面上选取新增物品的相关物品。此处,新增物品的相关物品可以是用户行为相似度大于预先设定的用户行为相似度阈值的已有物品,也可以是在所有已有物品中用户行为相似度排序前预设数量个的已有物品,本发明实施例对此不作具体限定。
需要说明的是,新增物品的相似物品和相关物品反映的是两个不同侧面上与新增物品相似的已有物品,其中相似物品侧重于物品属性上的相似性,而相关物品则侧重于用户行为上的相似性,类似于很多用户可能会在购买啤酒的同时购买尿布,因此啤酒和尿布在用户行为上相似性较高,两者为相关物品,而啤酒与尿布反映在物品内容上存在较大的区别,两者不是相似物品。
步骤140,基于相关物品的统计点击率,确定新增物品的预估点击率,基于预估点击率分发新增物品。
具体地,已有物品的统计点击率即最近一段时间内统计所得的该物品的点击率。用户行为上相似度高的相关物品,反映在点击率上也应当具有相类似的规律,因此可以根据相关物品的统计点击率,估计新增用户的点击率,即预估点击率。例如,可以根据相关用户的用户行为表示和统计点击率,分析此类型物品在用户行为表示和点击率之间的映射关系,从而根据新增物品的用户行为表示,估计新增用户的预估点击率。在得到预估点击率后,即可基于预估点击率,实现新增物品分发,此处所指的分发可以是将新增物品分发至预估点击率对应的物品池中,也可以直接确定预估点击率对应的曝光策略等,本发明实施例对此不作具体限定。
本发明实施例提供的方法,应用物品内容相似的相似物品和用户行为表示相似的相关物品,预估新增物品的点击率从而实现分发,流程计算量小,保证了物品分发的时效性。同时,相较于现有技术中对新增物品进行分类或者聚类的方式,应用新增物品的相似物品和相关物品进行点击率预测,充分考虑了新增物品本身的特性,能够提高新增物品点击率的预测准确性,有助于达到更优的分发效果。
基于上述实施例,步骤140中,所述基于预估点击率分发新增物品,包括:
基于预估点击率,将新增物品分发至对应的物品池,物品池为高质量物品池、探索物品池或低质量物品池,高质量物品池、探索物品池或低质量物品池内物品的统计点击率逐次递减。
具体地,物品池可以预先划分为三类,即高质量物品池、探索物品池和低质量物品池,三类物品池用于存储不同统计点击率的物品,且为不同统计点击率的物品提供相应的曝光策略。其中,高质量物品池中存储物品的统计点击率最高,探索物品池中存储物品的统计点击率次之,低质量物品池中存储物品的统计点击率最低,相应地,高质量物品池中存储物品获取的曝光量最高,探索物品池中存储物品获取的曝光量次之,低质量物品池中存储物品获取的曝光量最低。
当需要将新增物品分发到物品池中时,可以将预估点击率与各物品池对应的点击率区间进行比较,从而将新增物品分配至预估点击率所属点击率区间对应的物品池中,从而使得新增物品能够得到与其预估点击率相匹配的曝光策略。
基于上述任一实施例,步骤140中,所述基于预估点击率,将新增物品分发至对应的物品池,包括:
若预估点击率大于当前时段的第一点击率阈值,则将新增物品分发至高质量物品池;
若预估点击率小于当前时段的第二点击率阈值,则将新增物品分发至低质量物品池;
否则,将新增物品分发至探索物品池下新增物品所属物品类型的子池中;
其中,第一点击率阈值大于第二点击率阈值,当前时段的第一点击率阈值和第二点击率阈值是基于上一时段同类物品的统计点击率排序确定的。
具体地,在将新增物品分发到对应的物品池时,需要将新增物品的预估点击率与当前时段的第一点击率阈值和第二点击率阈值进行比较,从而确定新增物品在当前时段对应的物品池。
需要说明的是,各物品池的容量是分时段调整的,因此在不同的时段,第一点击率阈值和第二点击率阈值的取值也会对应调整。考虑到用户行为的变换通常比较缓慢,突发剧变的情况比较少,上一时段的用户行为对于当前时段的用户行为预估存在较大的参考意义,可以在设定当前时段的第一点击率阈值和第二点击率阈值时,依据上一时段已有物品的统计点击率,同时考虑到针对不同类型的物品,其对应的用户行为存在差异,因此在设定当前时段的第一点击率阈值和第二点击率阈值时,着重参考与新增物品属于同一类型物品的统计点击率。
进一步地,可以对上一时段同类物品的统计点击率从高到低进行排序,根据统计点击率排序确定探索物品池当前时段的点击率上限和下限,即第一点击率阈值和第二点击率阈值。例如,假设新增物品为新闻类物品,可以对上一时段t-1时所有新闻类物品的统计点击率进行排序,选择排名第40%的物品的统计点击率作为当前时段t的第一点击率阈值,选择排名第60%的物品的统计点击率作为当前时段t的第二点击率阈值,具体可以表示为如下公式:
式中,和/>分别为当前时段t的第一点击率阈值和第二点击率阈值,/>为上一时段t-1时同类物品中统计点击率排名第40%的物品Item40%的统计点击率,/>为上一时段t-1时同类物品中统计点击率排名第60%的物品Item60%的统计点击率。
在确定当前时段的第一点击率阈值和第二点击率阈值的情况下,即可根据新增物品的预估点击率与第一点击率阈值和第二点击率阈值的大小,将新增物品分配至预估点击率所属点击率区间对应的物品池中。
特别地,探索物品池还根据物品类型划分了多个子池,每个子池用于存储对应物品类型的物品,基于物品类型的子池划分,有助于进一步细化物品的曝光策略,提高不同类型物品的推荐效果。
本发明实施例提供的方法中,各物品池的容量随时段调整,更加贴合实际的用户行为,有助于提高物品分发的准确性和可靠性。
基于上述任一实施例,步骤140中,所述将新增物品分发至探索物品池下新增物品所属物品类型的子池中,包括:
若新增物品所属物品类型的子池的已用空间达到当前时段的预设容量,则将子池内上一时段的统计点击率最低的物品移入低质量物品池,并将所述新增物品分发至子池;
当前时段的预设容量是基于新增物品所属物品类型在上一时段的曝光物品数量,以及上一时段与当前时段的历史平均曝光量确定的。
具体地,在物品分发过程中,可能存在需要分发的探索物品池下所属物品类型的子池已满的情况,即子池的已用空间达到了当前时段的预设容量。此处的预设容量与子池一一对应,且不同时段对应有不同的预设容量值。此种情况下,为了将新增物品置入该子池,需要将该子池内上一时段的统计点击率最低的物品移入低质量物品池,为新增物品的置入预留空间。在完成最低统计点击率对应物品在物品池中的流转后,再将新增物品置入该子池。
需要说明的是,当前时段的预设容量可以是基于新增物品所属物品类型在上一时段的曝光物品数量,以及上一时段与当前时段的历史平均曝光量确定的,此处该物品类型在上一时段的曝光物品数量是指该类物品在上一时段被曝光的总量,历史平均曝光量是指该类物品在历史上对应时段的曝光量的平均值。针对新增物品所属物品类型在上一时段的曝光物品数量,可以取其中一定比例作为该类物品在上一时段置入探索物品池中对应子池的基数,在此基础上,结合上一时段与当前时段的历史平均曝光量,可以得到相较于上一时段,当前时段的曝光变化情况。整合该类物品在上一时段置入探索物品池中对应子池的基数,以及相较于上一时段,当前时段的曝光变化情况,即可以得到当前时段的预设容量,具体可以体现为如下公式:
式中,为当前时段t下物品类型class对应的子池的预设容量,为物品类型class在上一时段t-1的曝光物品数量,20%即预先设定的比例,也可以替换为30%或者其他比例,本发明实施例对此不作具体限定。/>和/> 即物品类型class在当前时段t和上一时段t-1的历史平均曝光量。
基于上述任一实施例,高质量物品池、探索物品池和低质量物品池是基于各已有物品的曝光数据和统计点击量确定的。
具体地,针对已有物品,在将各已有物品进行物品池分发时,可以从各已有物品的曝光数据和统计点击量两方面综合衡量。此处,曝光数据和统计点击率可以限制在最近一个时间段的统计范围内,例如针对当前正在进行的时间段的物品池构建,可以将上一时段作为最近的时间段。
具体在物品池的构建阶段,可以根据各已有物品的曝光数据和统计点击量确定各已有物品对应的物品池,此处的曝光数据是指最近一个时间段的曝光数量,统计点击量则可以延伸为基于统计点击量的排名。例如,可以将曝光数量≥1000次且统计点击率排名前40%的物品分发到高质量物品池,将统计点击率排名后40%的物品和曝光数量<1000次的物品分发到低质量物品池,将其余物品分发到探索物品池。
此外,每次一个时段结束后,高质量物品池、探索物品池和低质量物品池中的已有物品均会进行流转,没有曝光过的已有物品直接流转到低质量物品池,对曝光数量>=1000次的已有物品,统计各已有物品在该时段的统计点击率并根据物品类型分别进行统计点击率排序,将前40%的已有物品进入高质量物品池,中间20%的已有物品进入对应物品类型的探索物品池,后40%的已有物品进入低质量物品池。
在这之后,设置新的时段,即t+1时段进入探索物品池的点击率下限阈值和点击率上限/>
基于上述任一实施例,步骤110包括:
确定新增物品与各已有物品的物品内容相似度;
若存在物品内容相似度大于第一相似度阈值的已有物品,则将新增物品分发至低质量物品池;
若不存在物品内容相似度大于第二相似度阈值的已有物品,则将新增物品分发至探索物品池;
否则,将物品内容相似度大于所述第二相似度阈值的已有物品作为相似物品;
第一相似度阈值大于第二相似度阈值。
具体地,在获取新增物品的相似物品的过程中,首先需要对新增物品与各已有物品的物品内容相似度进行计算。此处,物品内容相似度反映的是新增物品的物品内容与已有物品的物品内容之间的相似程度,物品内容相似度可以通过欧式距离、余弦相似度等常见的相似度算法计算得到,此处不作具体限定。
在得到新增物品与各已有物品的物品内容相似度之后,可以将物品内容相似度与预先设定的第一相似度阈值和第二相似度阈值进行比较,从而确定新增物品的相似物品。此处,第一相似度阈值表示物品重复时物品内容相似度的最小值,第二相似度阈值表示物品属性相似时物品内容相似度的最小值,由于物品重复比物品属性相似所需满足的条件更苛刻,对应第一相似度阈值大于第二相似度阈值。
由此,当物品内容相似度大于第一相似度阈值时,说明新增物品与对应已有物品重复,针对物品重复的情况,无需再考虑新增物品的相似物品,可以直接将新增物品分发至低质量物品池;
当不存在物品内容相似度大于第二相似度阈值的已有物品时,说明未在已有物品中查找到与新增物品相似的物品,已有物品的用户行为对于新增物品而言没有参考价值,新增物品为全新物品,可以直接将新增物品分发至探索物品池;
此外,当确定新增物品既不是重复物品也不是全新物品时,则可以将物品内容相似度大于第二相似度阈值的已有物品作为新增物品的相似物品,以执行后续操作。
基于上述任一实施例,用户行为表示、统计点击率和预估点击率均与用户类型一一对应。
具体地,不同类型的用户针对同一物品的偏好可能存在区别,对应到用户行为上也会有所区分。因此,本发明实施例中,针对任一物品,其用户行为表示和统计点击率均可以根据不同用户类型划分,此处所指的用户类型可以是根据用户画像确定的,也可以是直接根据用户使用的终端类型确定的,本发明实施例对此不作具体限定。例如,可以根据终端的厂商划分用户类型,例如苹果用户、小米用户、三星用户、华为用户等。
在此情况下,针对新增物品进行点击率预估时,考虑到其相关物品针对不同用户类型对应有不同的用户行为表示和统计点击率,可以分用户类型进行点击率预估,由此得到新增物品对应不同用户类型的预估点击率。
同样地,在对新增物品进行分发时,也可以针对不同用户类型的预估点击率,将新增物品分发至对应用户类型下的物品池中。以物品池划分为高质量物品池、探索物品池和低质量物品池的情况为例,高质量物品池和低质量物品池可以是针对各种用户类型通用的,也可以是根据不同的用户类型进一步划分的,例如高质量物品池可以根据用户类型划分为多个独立的池H_Poolut,低质量物品池可以根据用户类型划分为多个独立的池L_Poolut,高质量物品池和低质量物品池的容量均不限定,ut∈[苹果,华为,小米,三星,…,其他]。
探索物品池可以进一步根据不同的用户类型进行划分,即探索物品池的子池可以基于用户类型、物品类型以及时间段三个因素进行划分和构建,探索物品池中不同用户类型的子池相互独立。
例如,探索物品池可以根据用户类型划分为多个独立的池E_Poolut,ut∈[苹果,华为,小米,三星,…,其他]。针对每个E_Poolut,由于物品类型(例如军事、娱乐、新闻等)不是均匀分布的,因此可以在基于用户类型划分的E_Poolut的基础上,进一步根据全量物品的物品类型,划分多个子池class∈[军事,娱乐,新闻,…]。针对每个/>由于每个时段每类物品分发的流量不同,可以分时段设置每个子池的容量/>t∈[0,23],[0,23]是按照每天24小时,每小时作为一个时段划分得到的。此外,还可以分时段设置每类物品进入对应子池的点击率下限/>和点击率上限/>
针对于任一物品类型的物品,当其在任一用户类型下的统计点击率大于对应物品类型的子池的点击率上限时,则进入H_Poolut;当其在任一用户类型下的统计点击率小于对应物品类型的子池的点击率下限/>时,则进入L_Poolut。
基于上述任一实施例,步骤140中,所述基于相关物品的统计点击率,确定新增物品的预估点击率,包括:
基于任一用户类型下的点击率预测模型,以及各相关物品的统计点击率和各相关物品与新增物品之间的用户行为相似度,确定新增物品在该用户类型下的预估点击率;
点击率预测模型是基于该用户类型下各已有物品的统计点击率,以及各已有物品之间的用户行为相似度训练得到的。
具体地,针对于任一用户类型,可以预先基于该用户类型下的各已有物品的用户行为表示,计算各已有物品之间的用户行为相似度,并结合各已有物品的统计点击率,拟合能够反映该用户类型下任一物品的相关物品的统计点击率与该物品的点击率之间的映射关系,作为点击率预测模型。可选地,可以基于各已有物品的用户行为表示和统计点击率,训练线性回归模型作为点击率预测模型,具体可以表示为如下公式:
Put=W1*V1+W2*V2+…+Wm*Vm+b
其中,
式中,Put为预估点击率,W1,W2,…,Wm和b为模型参数,m为任一用户类型下已有物品的数量,Pi为第i个已有物品的统计点击率,为第i个已有物品与待预估点击率的目标物品之间的用户行为相似度,/>表示该用户类型下所有已有物品分别与目标物品之间的用户行为相似度的总和。
在得到新增物品的相关物品后,可以将新增物品作为目标物品,将各相关物品的统计点击率,以及各相关物品与新增物品之间的用户行为相似度输入至点击率预测模型中,从而得到新增物品在该用户类型下的预估点击率。
需要说明的是,由于物品的点击率随着时间推移会不断变化,可以在每个时段通过上一时段内物品的统计点击率对点击率预测模型进行增量训练,从而不断修正W1,W2,…,Wm和b的值,来更好的拟合物品在该时段的实际点击率。
基于上述任一实施例,图2是本发明提供的物品分发方法的流程示意图之二,如图2所示,物品分发具体可以划分为数据预处理和新物品分发两个部分:
其中数据预处理部分包括构建全量物品的物品内容索引、统计全量物品的用户行为数据并编码得到用户行为表示,以及构建用户行为表示搜索引擎等。此处,全量物品即所有的已有物品,具体可以是最近几天的所有已有物品,提取各全量物品的物品内容,并写入物品内容索引ES。针对全量用户对于物品的点击数据,构建用户-物品的行为序列,可以将序列视为句子,将其中包含的物品视为分词,进行向量编码,从而得到全量物品的用户行为表示,此处的向量编码可以通过woed2vec实现。全量物品的用户行为表示可以接入用户行为表示搜索引擎Faiss,供后续实时查询相关物品使用。
上述数据预处理操作可以每隔一段时间执行一次,例如每小时执行一次,以获取上一时段全量物品在不同用户终端类型下的行为数据,计算该时段全量物品的统计点击率,写入数据库redis,供后续实时查询。
新物品分发部分包括如下流程:
当新增物品X上线时,首先将新增物品X写入物品内容索引ES,通过调用物品内容索引实时查询物品内容相似度>第二相似度阈值的相似物品。如果未获取到,则判定为全新物品,直接进入每个用户类型的探索物品池中的对应物品类型子池,快速探索该物品在各用户类型中的受欢迎程度,获取其统计点击率,以便预测后续相似的新增物品的点击率;如果获取到,但存在相似度极高物品,即物品内容相似度>第一相似度阈值,则判定为重复物品,直接进入低质量物品池;如果查找到相似物品,且该相似物品非重复物品,则执行如下步骤:
假设得到m个相似物品X1:Scorex1,X2:Scorex2,…,Xm:Scorexm,则可以通过加权求平均得到新增物品X的用户行为表示:
式中,Vectorx为新增物品X的用户行为表示,xi为第i个相似物品,为xi的用户行为表示,/>为xi与新增物品X的物品内容相似度。
随后,为新增物品X计算预估点击率:
预先基于每个用户类型下所有物品的用户行为表示和统计点击率,训练线性回归模型作为点击率预测模型,在此基础上,从全量物品中获取新增物品X的相关物品,即用户行为相似度最高的前N个全量物品将各相关物品在上一时段的统计点击率和各相关物品与新增物品的用户行为相似度输入到各个用户类型下的点击率预测模型,即可得到新增物品在各个用户类型下的预估点击率/>
如果则新增物品X直接进入对应用户类型的高质量物品池;如果/>则新增物品X直接进入对应用户类型的低质量物品池;否则,新增物品X进入对应用户类型下探索物品池中相同物品类型子池中。
基于上述任一实施例,图3是本发明提供的物品分发装置的结构示意图,如图3所示,该装置包括:
相似物品确定单元310,用于确定新增物品的相似物品,所述相似物品为与所述新增物品的物品内容相似的物品;
用户行为表示单元320,用于基于所述相似物品的用户行为表示,确定所述新增物品的用户行为表示;
相关物品确定单元330,用于确定所述新增物品的相关物品,所述相关物品为与所述新增物品的用户行为表示相似的物品;
分发单元340,用于基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,基于所述预估点击率分发所述新增物品。
本发明实施例提供的装置,应用物品内容相似的相似物品和用户行为表示相似的相关物品,预估新增物品的点击率从而实现分发,流程计算量小,保证了物品分发的时效性。同时,相较于现有技术中对新增物品进行分类或者聚类的方式,应用新增物品的相似物品和相关物品进行点击率预测,充分考虑了新增物品本身的特性,能够提高新增物品点击率的预测准确性,有助于达到更优的分发效果。
基于上述任一实施例,分发单元340用于:
基于所述预估点击率,将所述新增物品分发至对应的物品池,所述物品池为高质量物品池、探索物品池或低质量物品池,所述高质量物品池、探索物品池或低质量物品池内物品的统计点击率逐次递减。
基于上述任一实施例,分发单元340用于:
若所述预估点击率大于当前时段的第一点击率阈值,则将所述新增物品分发至所述高质量物品池;
若所述预估点击率小于所述当前时段的第二点击率阈值,则将所述新增物品分发至所述低质量物品池;
否则,将所述新增物品分发至所述探索物品池下所述新增物品所属物品类型的子池中;
所述第一点击率阈值大于所述第二点击率阈值,所述当前时段的第一点击率阈值和第二点击率阈值是基于上一时段同类物品的统计点击率排序确定的。
基于上述任一实施例,分发单元340用于:
若所述新增物品所属物品类型的子池的已用空间达到当前时段的预设容量,则将所述子池内上一时段的统计点击率最低的物品移入所述低质量物品池,并将所述新增物品分发至所述子池;
所述当前时段的预设容量是基于所述新增物品所属物品类型在上一时段的曝光物品数量,以及上一时段与当前时段的历史平均曝光量确定的。
基于上述任一实施例,所述高质量物品池、探索物品池和低质量物品池是基于各已有物品的曝光数据和统计点击量确定的。
基于上述任一实施例,相似物品确定单元310用于:
确定所述新增物品与各已有物品的物品内容相似度;
若存在所述物品内容相似度大于第一相似度阈值的已有物品,则将所述新增物品分发至所述低质量物品池;
若不存在所述物品内容相似度大于第二相似度阈值的已有物品,则将所述新增物品分发至所述探索物品池;
否则,将所述物品内容相似度大于所述第二相似度阈值的已有物品作为所述相似物品;
所述第一相似度阈值大于所述第二相似度阈值。
基于上述任一实施例,所述用户行为表示、统计点击率和所述预估点击率均与用户类型一一对应。
基于上述任一实施例,分发单元340用于:
基于任一用户类型下的点击率预测模型,以及各相关物品的统计点击率和各相关物品与所述新增物品之间的用户行为相似度,确定所述新增物品在所述任一用户类型下的预估点击率;
所述点击率预测模型是基于所述任一用户类型下各已有物品的统计点击率,以及各已有物品之间的用户行为相似度训练得到的。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行物品分发方法,该方法包括:确定新增物品的相似物品,所述相似物品为与所述新增物品的物品内容相似的物品;基于所述相似物品的用户行为表示,确定所述新增物品的用户行为表示;确定所述新增物品的相关物品,所述相关物品为与所述新增物品的用户行为表示相似的物品;基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,基于所述预估点击率分发所述新增物品。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的物品分发方法,该方法包括:确定新增物品的相似物品,所述相似物品为与所述新增物品的物品内容相似的物品;基于所述相似物品的用户行为表示,确定所述新增物品的用户行为表示;确定所述新增物品的相关物品,所述相关物品为与所述新增物品的用户行为表示相似的物品;基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,基于所述预估点击率分发所述新增物品。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的物品分发方法,该方法包括:确定新增物品的相似物品,所述相似物品为与所述新增物品的物品内容相似的物品;基于所述相似物品的用户行为表示,确定所述新增物品的用户行为表示;确定所述新增物品的相关物品,所述相关物品为与所述新增物品的用户行为表示相似的物品;基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,基于所述预估点击率分发所述新增物品。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选取其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种物品分发方法,其特征在于,包括:
确定新增物品的相似物品,所述相似物品为与所述新增物品的物品内容相似的物品;所述相似物品为已有物品;
基于所述相似物品的用户行为表示,确定所述新增物品的用户行为表示;新增物品的用户行为表示通过各相似物品的用户行为表示的均值得到,或者,通过将各相似物品与新增物品的物品内容相似度作为权重,对各相似物品的用户行为表示进行加权求和得到;
确定所述新增物品的相关物品,所述相关物品为与所述新增物品的用户行为表示相似的物品;新增物品的相关物品是用户行为相似度大于预先设定的用户行为相似度阈值的已有物品,或在所有已有物品中用户行为相似度排序前预设数量个的已有物品;
基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,基于所述预估点击率分发所述新增物品。
2.根据权利要求1所述的物品分发方法,其特征在于,所述基于所述预估点击率分发所述新增物品,包括:
基于所述预估点击率,将所述新增物品分发至对应的物品池,所述物品池为高质量物品池、探索物品池或低质量物品池,所述高质量物品池、探索物品池或低质量物品池内物品的统计点击率逐次递减。
3.根据权利要求2所述的物品分发方法,其特征在于,所述基于所述预估点击率,将所述新增物品分发至对应的物品池,包括:
若所述预估点击率大于当前时段的第一点击率阈值,则将所述新增物品分发至所述高质量物品池;
若所述预估点击率小于所述当前时段的第二点击率阈值,则将所述新增物品分发至所述低质量物品池;
否则,将所述新增物品分发至所述探索物品池下所述新增物品所属物品类型的子池中;
所述第一点击率阈值大于所述第二点击率阈值,所述当前时段的第一点击率阈值和第二点击率阈值是基于上一时段同类物品的统计点击率排序确定的。
4.根据权利要求3所述的物品分发方法,其特征在于,所述将所述新增物品分发至所述探索物品池下所述新增物品所属物品类型的子池中,包括:
若所述新增物品所属物品类型的子池的已用空间达到当前时段的预设容量,则将所述子池内上一时段的统计点击率最低的物品移入所述低质量物品池,并将所述新增物品分发至所述子池;
所述当前时段的预设容量是基于所述新增物品所属物品类型在上一时段的曝光物品数量,以及上一时段与当前时段的历史平均曝光量确定的。
5.根据权利要求2所述的物品分发方法,其特征在于,所述高质量物品池、探索物品池和低质量物品池是基于各已有物品的曝光数据和统计点击量确定的。
6.根据权利要求2所述的物品分发方法,其特征在于,所述确定新增物品的相似物品,包括:
确定所述新增物品与各已有物品的物品内容相似度;
若存在所述物品内容相似度大于第一相似度阈值的已有物品,则将所述新增物品分发至所述低质量物品池;
若不存在所述物品内容相似度大于第二相似度阈值的已有物品,则将所述新增物品分发至所述探索物品池;
否则,将所述物品内容相似度大于所述第二相似度阈值的已有物品作为所述相似物品;
所述第一相似度阈值大于所述第二相似度阈值。
7.根据权利要求1至6中任一项所述的物品分发方法,其特征在于,所述用户行为表示、统计点击率和所述预估点击率均与用户类型一一对应。
8.根据权利要求7所述的物品分发方法,其特征在于,所述基于所述相关物品的统计点击率,确定所述新增物品的预估点击率,包括:
基于任一用户类型下的点击率预测模型,以及各相关物品的统计点击率和各相关物品与所述新增物品之间的用户行为相似度,确定所述新增物品在所述任一用户类型下的预估点击率;
所述点击率预测模型是基于所述任一用户类型下各已有物品的统计点击率,以及各已有物品之间的用户行为相似度训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述物品分发方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述物品分发方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252183.6A CN113158026B (zh) | 2021-03-08 | 2021-03-08 | 物品分发方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110252183.6A CN113158026B (zh) | 2021-03-08 | 2021-03-08 | 物品分发方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158026A CN113158026A (zh) | 2021-07-23 |
CN113158026B true CN113158026B (zh) | 2024-03-15 |
Family
ID=76884549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110252183.6A Active CN113158026B (zh) | 2021-03-08 | 2021-03-08 | 物品分发方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158026B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3070612A1 (en) * | 2016-09-23 | 2018-03-29 | 10353744 Canada Ltd. | Click rate estimation |
CN110298716A (zh) * | 2018-03-22 | 2019-10-01 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN110543598A (zh) * | 2019-09-06 | 2019-12-06 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置及终端 |
CN110929206A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
CN111651704A (zh) * | 2020-04-14 | 2020-09-11 | 北京齐尔布莱特科技有限公司 | 一种内容推荐方法、计算设备以及存储介质 |
-
2021
- 2021-03-08 CN CN202110252183.6A patent/CN113158026B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3070612A1 (en) * | 2016-09-23 | 2018-03-29 | 10353744 Canada Ltd. | Click rate estimation |
CN110298716A (zh) * | 2018-03-22 | 2019-10-01 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN110543598A (zh) * | 2019-09-06 | 2019-12-06 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置及终端 |
CN110929206A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
CN111651704A (zh) * | 2020-04-14 | 2020-09-11 | 北京齐尔布莱特科技有限公司 | 一种内容推荐方法、计算设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113158026A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guan et al. | Matrix factorization with rating completion: An enhanced SVD model for collaborative filtering recommender systems | |
CN111461841B (zh) | 物品推荐方法、装置、服务器及存储介质 | |
CN110457577B (zh) | 数据处理方法、装置、设备和计算机存储介质 | |
CA3132002A1 (en) | Video recommendation method, device, computer apparatus and storage medium | |
CN113158024B (zh) | 一种纠正推荐系统流行度偏差的因果推理方法 | |
CN109409928A (zh) | 一种素材推荐方法、装置、存储介质、终端 | |
WO2020135642A1 (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN112380433A (zh) | 面向冷启动用户的推荐元学习方法 | |
CN110688565A (zh) | 基于多维霍克斯过程和注意力机制的下一个物品推荐方法 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN110838043A (zh) | 商品推荐方法及装置 | |
CN107247728A (zh) | 文本处理方法、装置及计算机存储介质 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN115269973A (zh) | 策略模型的处理方法、装置及计算机可读存储介质 | |
CN118365427A (zh) | 一种基于区块链的数据展示方法 | |
CN104794135B (zh) | 一种对搜索结果进行排序的方法和装置 | |
CN113592589A (zh) | 纺织原料推荐方法、装置及处理器 | |
EP1107157A2 (en) | System and method for performing predictive analysis | |
CN113158026B (zh) | 物品分发方法、电子设备和存储介质 | |
CN115809374A (zh) | 纠正推荐系统主流偏差的方法、系统、设备及存储介质 | |
CN115456656A (zh) | 消费者购买意向预测方法、装置、电子设备及存储介质 | |
CN107423759A (zh) | 低维逐次投影寻踪聚类模型综合评价方法、装置及应用 | |
CN113269610A (zh) | 银行产品的推荐方法、装置及存储介质 | |
CN113762990A (zh) | 商品推荐的方法、装置、计算设备及计算机存储介质 | |
de Sousa Silva et al. | Dynamic clustering personalization for recommending long tail items |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |