CN110880124A - 转化率评估方法及装置 - Google Patents
转化率评估方法及装置 Download PDFInfo
- Publication number
- CN110880124A CN110880124A CN201910936816.8A CN201910936816A CN110880124A CN 110880124 A CN110880124 A CN 110880124A CN 201910936816 A CN201910936816 A CN 201910936816A CN 110880124 A CN110880124 A CN 110880124A
- Authority
- CN
- China
- Prior art keywords
- commodity
- click
- probability
- user
- sharing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 87
- 238000011156 evaluation Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000003860 storage Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000009133 cooperative interaction Effects 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种转化率评估方法及装置,该方法包括:根据商品属性表和用户属性表,获取特征数据;将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,并将获取的特征数据,输入分享Wide&Deep模型,输出用户对商品链接的分享概率;根据点击概率和分享概率,进行打分融合后,获得用户对所述商品的转化概率;其中,点击或分享Wide&Deep模型分别根据已确定点击或分享结果的样本商品属性表及样本用户属性表进行训练后得到。该方法能够准确获得用户对商品的点击概率和分享概率,通过两个精排分数和召回分数进行融合,确定的转化概率更为准确。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种转化率评估方法及装置。
背景技术
随着互联网的迅速发展,人们能够接触到的信息从相对匮乏跨越到了相对过量,如何从海量的信息中获取和用户最相关内容成为了互联网企业满足用户需求的核心问题。通过在网站上线推荐系统能够解决信息过载问题,推荐系统大大提升了这些互联网公司的用户满意度以及服务营收。主流的推荐系统可以分为三类方法:(1)基于内容的推荐;(2)协同过滤;(3)混合方法。在实际网站的线上部署中,推荐系统往往还需要配合客户端日志系统、流式计算引擎系统和分布式计算等部分以满足服务的实时性要求。
转化率预估是工业界研究最为广泛的问题之一,在推荐系统和计算广告等业务中扮演着重要的角色。特别的,点击通过率预估是其中最为重要的问题,点击通过率描述了在曝光的内容中多少比例的内容被用户点击。这一比例直接关系到广告收入,是最重要的线上指标。点击通过率预估的经典方法包括线性回归、梯度提升决策树+线性回归、分解机和深度神经网络等方法。梯度提升决策树+线性回归方法是之后很多点击通过率预估方法的基础,它将特征工程模型化和自动化提升到了前所未有的高度。
目前的转化率评估方法中有,通过用户页面停留时间等隐式反馈得到隐式评分,再结合显式评分构建综合评分矩阵;之后根据用户近期的评分记录和商品类别信息得到用户之间商品类别信息相似度;最后综合用户评分相似度和商品类别相似度,基于协同过滤算法做出推荐。
目前的评估方法,存在以下几点局限:(1)只考虑了一种用户行为(比如点击行为),而实际生产环境中存在多种行为,现有方法无法对多种用户行为建模。(2)现有方法的精准度存在提升的空间。(3)现有方法的系统效率优化程度较低,并行度不足,无法满足线上服务的实时性需求,部署的可行性不高。
发明内容
为了解决上述问题,本发明实施例提供一种转化率评估方法及装置。
第一方面,本发明实施例提供一种转化率评估方法,包括:根据商品属性表和用户属性表,获取特征数据;将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;根据所述点击概率和所述分享概率,进行打分融合后,获得用户对所述商品的转化概率;其中,所述点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,所述分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
进一步地,所述根据商品属性表和用户属性表,获取特征数据之前,还包括:建立所述转化概率关于点击概率和分享概率的单调增函数;通过A/B测试调优,确定所述单调增函数中点击概率和分享概率对应的参数值,获得打分融合模型;相应地,根据所述点击概率和所述分享概率,进行打分融合后,获得用户对所述商品的转化概率,具体为:将所述点击概率和所述分享概率,输入所述打分融合模型,获得用户对所述商品的转化概率。
进一步地,所述获得用户对所述商品的转化概率,具体为获得候选商品集合中所有商品的转化概率,所述获得用户对所述商品的转化概率之后,还包括:根据所述候选商品集合中所有商品的转化概率,对相应用户进行商品推荐。
进一步地,所述特征数据还包括:用户属性表和商品属性表的交叉特征,和/或用户属性表中分布类特征与商品属性中类别相契合的特征。
进一步地,所述根据商品属性表和用户属性表,获取特征数据之前,还包括:将商品列表页进入商品详情页的点击记录作为点击正样本,商品列表页曝光但未点击的记录作为点击负样本,得到多个点击样本;将商品详情页的分享记录作为分享正样本,商品详情页未分享的记录作为分享负样本,得到多个分享样本;将多个点击样本的特征数据,输入所述点击Wide&Deep模型进行训练,并将多个分享样本的特征数据,输入所述分享Wide&Deep模型进行训练。
进一步地,所述点击样本和所述分享样本的特征数据,包括实数特征、类别特征、交叉特征,相应地,将多个点击样本的特征数据,输入所述点击Wide&Deep模型,以及将多个分享样本的特征数据,输入所述分享Wide&Deep模型,包括:若样本的特征数据为实数特征,两个模型的wide端和deep端均采用一维度直接输入模型;若样本的特征数据为类别特征,两个模型的wide端采用哈希分桶后以独热码形式输入,两个模型的deep端采用哈希分桶后嵌入级联;若样本的特征为交叉特征,两个模型均只在wide端采用哈希分桶后以独热码的形式输入。
进一步地,所述预设的点击Wide&Deep模型和所述预设的分享Wide&Deep模型包括离线版本和在线版本,所述在线版本用于线上服务,所述离线版本用于训练更新,所述离线版本和所述在线版本,根据预设时长进行替换。
第二方面,本发明实施例提供一种转化率评估装置,包括:特征提取模块,用于根据商品属性表和用户属性表,获取特征数据;处理模块,用于将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;打分融合模块,用于根据所述点击概率和所述分享概率,进行打分融合后,获得用户对所述商品的转化概率;其中,所述点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,所述分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面转化率评估方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面转化率评估方法的步骤。
本发明实施例提供的转化率评估方法及装置,点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到,从而能够高效、准确并实时的获得用户对商品的点击概率和分享概率。根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率,能够获得两个精排分数,通过两个精排分数和召回分数进行融合,从而确定的用户对商品的转化概率更为准确。另外,分享行为和点击行为能够客观全面的反应用户的潜在转化行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的转化率评估方法流程图;
图2为本发明实施例提供的转化率评估装置结构图;
图3为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的转化率评估方法流程图,如图1所示,本发明实施例提供一种转化率评估方法,可用于推荐系统进行商品的推荐,包括:
101,根据商品属性表和用户属性表,获取特征数据。
在101中,获取的是候选商品集合的每一商品的属性、用户属性所对应的的特征数据。选取数百个候选商品构成候选商品集合C,候选商品集合C的产生可通过推荐系统的多路召回模型获得。商品集合C,除了提供商品ID,还可包括召回模型对于商品的打分。
商品各属性,存储在商品属性表P中,商品属性表P为存储在分布式存储系统中的表,主键为商品ID,根据商品ID能够查询到该商品的各种特征,包括静态特征(类别、品牌和价格等)和动态特征(过去1天的点击率、过去7天的转化率和过去一周的分享率等)。
用户各属性,存储在用户属性表U中,用户属性表U为存储在分布式存储系统中的表,主键为用户ID,根据用户ID可以查询到该用户的各种特征,包括静态特征(手机型号、手机操作系统和城市等)和动态特征(过去7天浏览的商品数、过去7天的订单数和过去1天的分享数等)。
在用户特征方面,用户的性别、年龄、省份、城市、手机型号、手机操作系统、活跃度、分享次数、点击次数和订单数等特征都是推荐系统中常用且对推荐效果影响较大的特征,在训练数据中需要引入这些用户特征。
在商品特征方面,商品的类别、品牌、价格、点击量、分享量、加购量等是较为关键的一些特征,应当作为模型的输入。
同时,对于分享模型,和分享行为相关的特征对于模型的性能影响较为关键,比如商品近期被分享的次数和用户近期的分享次数等;而对于点击模型,和点击行为相关的特征对于模型的性能影响较为关键,比如商品近期的点击率和用户近期的浏览量等。
102,将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率。
在102中,Wide&deep模型是一类用于分类和回归的模型,并应用到了推荐中。Wide&deep模型的核心思想是结合线性模型的记忆能力(memorization)和DNN模型的泛化能力(generalization),在训练过程中同时优化2个模型的参数,从而达到整体模型的预测能力最优。
输入的特征可能出现在左边的wide部分,该部分等价于一个线性回归模型;也可能出现在右边的deep部分,该部分是一个深度神经网络。点击Wide&Deep模型(以下简称点击模型)根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,样本商品属性表及样本用户属性表提取特征数据后,结合确定的点击或没有点击的结果,训练得到预设的点击模型。分享Wide&Deep模型(以下简称分享模型)根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到,样本商品属性表及样本用户属性表提取特征数据后,结合确定的分享或没有分享的结果,训练得到预设的分享模型。
对于待评估的商品属性表和用户属性表,获取特征数据后,分别输入点击模型和分享模型,能够准确的获得用户对该商品的点击概率及分享概率。
103,根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率。
本发明实施例基于两个独立的Wide&Deep模型分别预估点击转化率和分享转化率,最终将预估的两个分数融合为一个联合交互概率作为用户的转化概率,用于网站之后的推荐排序。
在实际推荐系统中,往往将整个流程分为召回和精排两个阶段,召回从海量商品粗略的选出数百个商品,而精排模型将大量的用户和商品特征作为输入,对召回阶段产生的数百商品重新计算交互概率。在生成推荐列表时,往往会综合考虑召回阶段的分数和精排阶段的分数。对于一般的单模型推荐系统,只能获得一个精排模型分数,在实际推荐中会和召回阶段的得分进行融合;而对于本发明的双模型,能够获得两个精排分数,因此会将两个精排分数和召回分数进行融合。
本发明实施例的转化率评估方法,点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到,从而能够高效、准确并实时的获得用户对商品的点击概率和分享概率。根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率,能够获得两个精排分数,通过两个精排分数和召回分数进行融合,从而确定的用户对商品的转化概率更为准确。另外,分享行为和点击行为能够客观全面的反应用户的潜在转化行为。
基于上述实施例的内容,作为一种可选实施例,根据商品属性表和用户属性表,获取特征数据之前,还包括:建立转化概率关于点击概率和分享概率的单调增函数;通过A/B测试调优,确定单调增函数中点击概率和分享概率对应的参数值,获得打分融合模型;相应地,根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率,具体为:将点击概率和分享概率,输入打分融合模型,获得用户对商品的转化概率。
两个模型预估的概率经过打分融合转化为联合交互概率作为模型最终的输出。打分融合可以采用多种方式,并可以通过在线A/B测试进行调优。A/B测试是一种新兴的产品策略优化方法,可以用于增加转化率注册率等产品交互指标。AB测试本质上是个分离式组间实验,以前进行AB测试的技术成本和资源成本相对较高,但现在一系列专业的可视化实验工具的出现,AB测试已越来越成为产品策略优化常用的方法。
以s作为分享模型预估的概率,以c作为点击模型预估的概率,以o作为最终预估的联合交互概率,可以采用的打分融合方式只要保证对于s和c都单调递增即可,下面列举两个,建立转化概率关于点击概率和分享概率的单调增函数如下:
线性求和:o=α·s+β·c;
指数相乘:o=sα·cβ;
其中α和β是需要通过A/B测试调优确定最佳取值的参数,即通过A/B测试调优,确定单调增函数中点击概率和分享概率对应的参数值,获得打分融合模型。
本实施例的转化率评估方法,通过A/B测试调优,确定单调增函数中点击概率和分享概率对应的参数值,获得打分融合模型,能够获得准确地用户对商品的转化概率。
基于上述实施例的内容,作为一种可选实施例,获得用户对商品的转化概率,具体为获得候选商品集合中所有商品的转化概率,获得用户对商品的转化概率之后,还包括:根据候选商品集合中所有商品的转化概率,对相应用户进行商品推荐。
在经过召回、粗排等阶段获得候选商品集合C,之后从线上特征存储中获得商品特征和用户特征,将用户特征和商品特征输入模型获得用户和商品的交互概率,根据概率对商品做排序,再加入打散、去重等逻辑作为最终的推荐结果。
本实施例的转化率评估方法,根据候选商品集合中所有商品的转化概率,对相应用户进行商品推荐,从而实现精准的定向推荐,避免用户接收过多的无用消息。
基于上述实施例的内容,作为一种可选实施例,特征数据包括:用户属性表和商品属性表的交叉特征,和/或用户属性表中分布类特征与商品属性中类别相契合的特征。
在具体实施过程中,除了商品属性的特征以及用户属性的特征数据,实际使用的特征还可包括另外两种特征。一种是用户属性表U中的字段和商品属性表P中的字段的交叉特征,一种是用户属性表中分布类特征与商品属性中类别相契合的特征。对于第一种交叉特征,例如,基于用户属性如性别男、女,商品属性如类别口红、剃须刀,则将男+剃须刀、女+口红作为交叉特征。对于第二类特征,例如,用户购买商品的分布为0~100元占比0.6,100~1000元占比0.3,1000元以上占比0.1,而待评估的商品价格为98元,则用户对该商品的关联性作为特征,可设置为0.6。
多个特征交叉形成的交叉特征往往蕴含更深层次的语义信息,比如用户性别和商品类别的交叉特征、用户城市和商品品牌的交叉特征等,这些交叉特征需要人工精心设计并引入模型的输入。
本实施例的转化率评估方法,特征数据包括用户属性表和商品属性表的交叉特征,和/或用户属性表中分布类特征与商品属性中类别相契合的特征,通过更全面的特征,准确评估用户的转化率。
基于上述实施例的内容,作为一种可选实施例,根据商品属性表和用户属性表,获取特征数据之前,还包括:将商品列表页进入商品详情页的点击记录作为点击正样本,商品列表页曝光但未点击的记录作为点击负样本,得到多个点击样本;将商品详情页的分享记录作为分享正样本,商品详情页未分享的记录作为分享负样本,得到多个分享样本;将多个点击样本的特征数据,输入点击Wide&Deep模型进行训练,并将多个分享样本的特征数据,输入分享Wide&Deep模型进行训练。
点击模型的正样本为全网站商品列表页进入商品详情页的点击记录,负样本为商品列表页曝光未点击的记录;分享模型的正样本为全网站商品详情页的分享记录,负样本为全网站商品详情页未分享的记录。样本构建的上游数据为电商网站的日志表,从表中能够过滤出各种交互记录,一般日志表通过hive数据仓库来管理。构建样本的过程即可通过hiveSQL代码生成用于模型训练的样本表。样本表中至少应当有用户ID,商品ID和正负样本标记这三个字段。不同模型的样本构建如下表1:
表1
在现代网站的推荐系统中往往会用到大量用户、商品以及场景特征,通过特征工程将原始特征转化为线上模型使用的输入,特征规模一般会达到千级别甚至万级别。在本发明中,特征工程是模型训练的重要一步,方法是将样本构建中生成的样本表和用户特征表及商品特征表关联,可再增加额外的上述的交叉特征,最终生成训练数据。
本实施例的转化率评估方法,通过正样本和负样本对点击模型和分享模型进行训练,能够得到准确的评估模型。
基于上述实施例的内容,作为一种可选实施例,点击样本和分享样本的特征数据,包括实数特征、类别特征、交叉特征,相应地,将多个点击样本的特征数据,输入点击Wide&Deep模型,以及将多个分享样本的特征数据,输入分享Wide&Deep模型,包括:若样本的特征数据为实数特征,两个模型的Wide端和Deep端均采用一维度直接输入模型;若样本的特征数据为类别特征,两个模型的Wide端采用哈希分桶后以独热码形式输入,两个模型的Deep端采用哈希分桶后嵌入级联;若样本的特征为交叉特征,两个模型均只在Wide端采用哈希分桶后以独热码的形式输入。
在具体训练实现中,每个特征可以是实数型,也可以是独热编码的分类型,还可以是嵌入类型,一般嵌入类型被放置在deep端部分,而实数型和分类型被放置在wide端,交叉特征一般都是分类型或者嵌入型。在分类型特征数量较大时,可以采用哈希的方式映射到固定数量的类别。如果分类型特征被分配在deep端,不仅需要采用哈希的方式映射到不同的桶,还需要将每一个桶转化为一个嵌入向量进一步降低维度。
模型训练可采用分布式集群训练,将模型的参数拷贝至集群内的所有机器,每个机器分配不同的训练数据。一般采用PS(parameterserver,参数服务器)架构进行分布式训练。训练文件也会存储在分布式文件系统中,如HDFS。
本发明实施例的两个模型分别优化点击行为和分享行为,在实际模型训练的过程中两个模型完全独立,只建模一种用户行为,学习各种特征到用户行为的映射关系。这样设计的原因是点击和分享行为之间的关系近似独立,从特征到行为的映射也应当是独立的。
特征如何在wide端和deep端分配是wide&deep模型成功的关键,相比于原始模型,实际推荐系统使用的特征更为复杂,特征的分配也更为棘手。与将人工设计的交叉特征放置在wide端的设计保持一致,对于其他特征采用了更加精确的设置,将特征的分配方式总结在下表2:
表2
本实施例的转化率评估方法,根据特征数据包括实数特征、类别特征、交叉特征,分别进行相应的特征输入,有效解决了wide端和deep端的特征分配问题,该问题是wide&deep模型成功的关键,从而保证评估结果的准确性。另外,通过对类别特征和交叉特征对应的哈希处理及嵌入级联,能够有效降低数据处理的维度,减少计算复杂度。
基于上述实施例的内容,作为一种可选实施例,预设的点击Wide&Deep模型和预设的分享Wide&Deep模型包括离线版本和在线版本,在线版本用于线上服务,离线版本用于离线训练,离线版本和在线版本,根据预设时长进行替换。
线上的在线推荐结果由线上模型计算出的预估交互概率(转化概率)得出,线上模型需要从线上特征存储模块获取特征进行计算。用户的行为被日志收集系统记录,由日志分别更新特征和生成训练样本,再将训练样本和特征拼接产生训练数据。模型和特征都有离线和在线两个版本,在线版本用于线上服务,离线版本则用于训练更新并定期替换在线版本。
一般模型的训练周期为天级别,即每天训练一次模型并将用于线上服务的模型替换为离线训练过的模型。在一天的数据不足的情况下,可以将过去多天的数据合并作为训练数据。
在离线训练过程中,可以将最近一天作为测试数据,之前数天作为训练数据,在测试数据上计算模型的推荐指标,验证模型的效果。常用的推荐指标包括AUC、HR和F1-score等。
本发明实施例,通过离线版本用于离线训练,离线版本和在线版本,根据预设时长进行替换。能够对模型进行实时更新,有利于保证评估结果的准确性。
离线训练过程中,通过hive数据仓库工具将多个表关联交叉生成训练数据。在线服务时通过hiveSQL关联表的方式将不能满足实时性需求,因此一般将用户特征、商品特征等特征表存储到内存式键值对存储数据库(如Redis数据库),线上收到请求后通过访问内存式键值对存储数据库获取特征并生成模型所需的计算输入。
实际的线上服务包含多个模块,涉及到数据流的各个部分,线上的在线推荐结果由线上模型计算出的预估交互概率得出,线上模型需要从线上特征存储模块获取特征进行计算。用户的行为被日志收集系统记录,由日志分别更新特征和生成训练样本,再将训练样本和特征拼接产生训练数据,模型定期离线训练并定期替换在线模型。
日志收集系统依赖于客户端对于用户行为的记录,一般客户端会对特定行为进行埋点监控,用户出现特定行为,如点击、分享等,就会触发埋点监控,于是客户端就会将这一行为上报。日志收集系统收集客户端上报的行为,生成结构化的数据。
特征更新系统根据日志收集系统生成的结构化的数据,做进一步的统计和计算,转化为用户以及商品的特征,分别存储在离线分布式文件系统和在线内存式键值对存储数据库。
样本生成系统根据日志收集系统生成的结构化的数据,从中过滤出特定的行为,之后做一定的采样,最终将数据存储在离线分布式文件系统里。样本数据包含最基本的实体:用户、商品和行为。
训练数据生成系统则以离线特征和生成的样本为输入,将两个输入拼接为训练可用的训练数据,在生成训练数据的过程中,可能会加入特征之间的交叉操作用以构建高阶特征。
模型训练系统为分布式集群训练,涉及到训练数据的分发、模型更新的同步等关键技术。线上推荐系统向线上模型发出请求,请求中包含当前用户以及上下文信息,模型根据用户从线上特征存储中获取用户特征。
图2为本发明实施例提供的转化率评估装置结构图,如图2所示,该转化率评估装置包括:特征提取模块201、处理模块202和打分融合模块203。其中,特征提取模块201用于根据商品属性表和用户属性表,获取特征数据;处理模块202用于将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;打分融合模块203用于根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率;其中,点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
特征提取模块201获取的是候选商品集合的每一商品的属性、用户属性所对应的的特征数据。选取数百个候选商品构成候选商品集合C,候选商品集合C的产生可通过推荐系统的多路召回模型获得。商品集合C,除了提供商品ID,还可包括召回模型对于商品的打分。
处理模块202中预设点击Wide&Deep模型和分享Wide&Deep模型。点击模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,样本商品属性表及样本用户属性表提取特征数据后,结合确定的点击或没有点击的结果,训练得到预设的点击模型。分享模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到,样本商品属性表及样本用户属性表提取特征数据后,结合确定的分享或没有分享的结果,训练得到预设的分享模型。
对于待评估的商品属性表和用户属性表,获取特征数据后,分别输入处理模块202的点击模型和分享模型,能够准确的获得用户对该商品的点击概率及分享概率。
基于两个独立的Wide&Deep模型分别预估点击转化率和分享转化率,最终打分融合模块203将预估的两个分数融合为一个联合交互概率作为用户的转化概率,用于网站之后的推荐排序。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的转化率评估装置,点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到,从而能够高效、准确并实时的获得用户对商品的点击概率和分享概率。根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率,能够获得两个精排分数,通过两个精排分数和召回分数进行融合,从而确定的用户对商品的转化概率更为准确。另外,分享行为和点击行为能够客观全面的反应用户的潜在转化行为。
图3为本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304,其中,处理器301,通信接口302,存储器303通过总线304完成相互间的通信。通信接口302可以用于电子设备的信息传输。处理器301可以调用存储器303中的逻辑指令,以执行包括如下的方法:根据商品属性表和用户属性表,获取特征数据;将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率;其中,点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:根据商品属性表和用户属性表,获取特征数据;将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;根据点击概率和分享概率,进行打分融合后,获得用户对商品的转化概率;其中,点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种转化率评估方法,其特征在于,包括:
根据商品属性表和用户属性表,获取特征数据;
将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;
根据所述点击概率和所述分享概率,进行打分融合后,获得用户对所述商品的转化概率;
其中,所述点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,所述分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
2.根据权利要求1所述的转化率评估方法,其特征在于,所述根据商品属性表和用户属性表,获取特征数据之前,还包括:
建立所述转化概率关于点击概率和分享概率的单调增函数;
通过A/B测试调优,确定所述单调增函数中点击概率和分享概率对应的参数值,获得打分融合模型;
相应地,根据所述点击概率和所述分享概率,进行打分融合后,获得用户对所述商品的转化概率,具体为:
将所述点击概率和所述分享概率,输入所述打分融合模型,获得用户对所述商品的转化概率。
3.根据权利要求1所述的转化率评估方法,其特征在于,所述获得用户对所述商品的转化概率,具体为获得候选商品集合中所有商品的转化概率,所述获得用户对所述商品的转化概率之后,还包括:
根据所述候选商品集合中所有商品的转化概率,对相应用户进行商品推荐。
4.根据权利要求1所述的转化率评估方法,其特征在于,所述特征数据还包括:
用户属性表和商品属性表的交叉特征,和/或用户属性表中分布类特征与商品属性中类别相契合的特征。
5.根据权利要求1所述的转化率评估方法,其特征在于,所述根据商品属性表和用户属性表,获取特征数据之前,还包括:
将商品列表页进入商品详情页的点击记录作为点击正样本,商品列表页曝光但未点击的记录作为点击负样本,得到多个点击样本;
将商品详情页的分享记录作为分享正样本,商品详情页未分享的记录作为分享负样本,得到多个分享样本;
将多个点击样本的特征数据,输入所述点击Wide&Deep模型进行训练,并将多个分享样本的特征数据,输入所述分享Wide&Deep模型进行训练。
6.根据权利要求5所述的转化率评估方法,其特征在于,所述点击样本和所述分享样本的特征数据,包括实数特征、类别特征、交叉特征,相应地,将多个点击样本的特征数据,输入所述点击Wide&Deep模型,以及将多个分享样本的特征数据,输入所述分享Wide&Deep模型,包括:
若样本的特征数据为实数特征,两个模型的wide端和deep端均采用一维度直接输入模型;
若样本的特征数据为类别特征,两个模型的wide端采用哈希分桶后以独热码形式输入,两个模型的deep端采用哈希分桶后嵌入级联;
若样本的特征为交叉特征,两个模型均只在wide端采用哈希分桶后以独热码的形式输入。
7.根据权利要求1所述的转化率评估方法,其特征在于,所述预设的点击Wide&Deep模型和所述预设的分享Wide&Deep模型包括离线版本和在线版本,所述在线版本用于线上服务,所述离线版本用于离线训练,所述离线版本和所述在线版本,根据预设时长进行替换。
8.一种转化率评估装置,其特征在于,包括:
特征提取模块,用于根据商品属性表和用户属性表,获取特征数据;
处理模块,用于将获取的特征数据,输入到预设的点击Wide&Deep模型,输出用户对商品链接的点击概率,同时,将获取的特征数据,输入到预设的分享Wide&Deep模型,输出用户对商品链接的分享概率;
打分融合模块,用于根据所述点击概率和所述分享概率,进行打分融合后,获得用户对所述商品的转化概率;
其中,所述点击Wide&Deep模型根据已确定点击结果的样本商品属性表及样本用户属性表进行训练后得到,所述分享Wide&Deep模型根据已确定分享结果的样本商品属性表及样本用户属性表进行训练后得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述转化率评估方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述转化率评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936816.8A CN110880124A (zh) | 2019-09-29 | 2019-09-29 | 转化率评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936816.8A CN110880124A (zh) | 2019-09-29 | 2019-09-29 | 转化率评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110880124A true CN110880124A (zh) | 2020-03-13 |
Family
ID=69727992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936816.8A Pending CN110880124A (zh) | 2019-09-29 | 2019-09-29 | 转化率评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110880124A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582991A (zh) * | 2020-05-13 | 2020-08-25 | 中国银行股份有限公司 | 产品信息推荐方法及装置 |
CN112070226A (zh) * | 2020-09-02 | 2020-12-11 | 北京百度网讯科技有限公司 | 在线预测模型的训练方法、装置、设备及存储介质 |
CN112381607A (zh) * | 2020-11-12 | 2021-02-19 | 杭州时趣信息技术有限公司 | 一种网络商品排序方法、装置、设备及介质 |
CN112580902A (zh) * | 2021-02-26 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 对象数据处理方法、装置、计算机设备和存储介质 |
CN113159834A (zh) * | 2021-03-31 | 2021-07-23 | 支付宝(杭州)信息技术有限公司 | 一种商品信息排序方法、装置以及设备 |
US11714816B2 (en) | 2020-08-21 | 2023-08-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information search method and apparatus, device and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416625A (zh) * | 2018-02-28 | 2018-08-17 | 阿里巴巴集团控股有限公司 | 营销产品的推荐方法和装置 |
CN109889891A (zh) * | 2019-03-05 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 获取目标媒体文件的方法、装置及存储介质 |
CN110008399A (zh) * | 2019-01-30 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种推荐模型的训练方法及装置、一种推荐方法及装置 |
CN110110203A (zh) * | 2018-01-11 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 资源信息推送方法及服务器、资源信息展示方法及终端 |
-
2019
- 2019-09-29 CN CN201910936816.8A patent/CN110880124A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110203A (zh) * | 2018-01-11 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 资源信息推送方法及服务器、资源信息展示方法及终端 |
CN108416625A (zh) * | 2018-02-28 | 2018-08-17 | 阿里巴巴集团控股有限公司 | 营销产品的推荐方法和装置 |
CN110008399A (zh) * | 2019-01-30 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种推荐模型的训练方法及装置、一种推荐方法及装置 |
CN109889891A (zh) * | 2019-03-05 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 获取目标媒体文件的方法、装置及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582991A (zh) * | 2020-05-13 | 2020-08-25 | 中国银行股份有限公司 | 产品信息推荐方法及装置 |
CN111582991B (zh) * | 2020-05-13 | 2023-09-01 | 中国银行股份有限公司 | 产品信息推荐方法及装置 |
US11714816B2 (en) | 2020-08-21 | 2023-08-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information search method and apparatus, device and storage medium |
CN112070226A (zh) * | 2020-09-02 | 2020-12-11 | 北京百度网讯科技有限公司 | 在线预测模型的训练方法、装置、设备及存储介质 |
CN112070226B (zh) * | 2020-09-02 | 2023-06-27 | 北京百度网讯科技有限公司 | 在线预测模型的训练方法、装置、设备及存储介质 |
CN112381607A (zh) * | 2020-11-12 | 2021-02-19 | 杭州时趣信息技术有限公司 | 一种网络商品排序方法、装置、设备及介质 |
CN112381607B (zh) * | 2020-11-12 | 2023-11-24 | 杭州时趣信息技术有限公司 | 一种网络商品排序方法、装置、设备及介质 |
CN112580902A (zh) * | 2021-02-26 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 对象数据处理方法、装置、计算机设备和存储介质 |
CN113159834A (zh) * | 2021-03-31 | 2021-07-23 | 支付宝(杭州)信息技术有限公司 | 一种商品信息排序方法、装置以及设备 |
CN113159834B (zh) * | 2021-03-31 | 2022-06-07 | 支付宝(杭州)信息技术有限公司 | 一种商品信息排序方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112785397B (zh) | 一种产品推荐方法、装置及存储介质 | |
CN110020660B (zh) | 使用人工智能(ai)技术的非结构化过程的完整性评估 | |
CN110880124A (zh) | 转化率评估方法及装置 | |
US9965531B2 (en) | Data storage extract, transform and load operations for entity and time-based record generation | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN112231533A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112990486A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN117668205B (zh) | 智慧物流客服处理方法、系统、设备及存储介质 | |
US10936675B2 (en) | Developing an item data model for an item | |
CN116561134B (zh) | 业务规则处理方法、装置、设备及存储介质 | |
Altunan et al. | A data mining approach to predict E-Commerce customer behaviour | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN117094743B (zh) | 一种自动化卷烟零售市场数据统计分析系统及方法 | |
CN117235264A (zh) | 文本处理方法、装置、设备和计算机可读存储介质 | |
CN114741592B (zh) | 一种基于多模型融合的产品推荐方法、设备及介质 | |
EP3493082A1 (en) | A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends | |
US20200342302A1 (en) | Cognitive forecasting | |
Xiahou et al. | Customer profitability analysis of automobile insurance market based on data mining | |
Temitope | A Model of Intelligent Recommender System with Explicit Feedback Mechanism for Performance Improvement | |
Ines et al. | Customer Success Analysis and Modeling in Digital Marketing | |
Fang | Enhanced Customer Analysis Based on Variations of Natural Language Processing Algorithms Implemented on Past E-Commerce Reviews | |
Marques et al. | An exploratory study to evaluate the practical application of PSS methods and tools based on text mining | |
EP4443361A1 (en) | Email management system | |
Kart et al. | Decision support system for a customer relationship management case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200313 |
|
RJ01 | Rejection of invention patent application after publication |