CN105678335A - 预估点击率的方法、装置及计算设备 - Google Patents

预估点击率的方法、装置及计算设备 Download PDF

Info

Publication number
CN105678335A
CN105678335A CN201610012417.9A CN201610012417A CN105678335A CN 105678335 A CN105678335 A CN 105678335A CN 201610012417 A CN201610012417 A CN 201610012417A CN 105678335 A CN105678335 A CN 105678335A
Authority
CN
China
Prior art keywords
characteristic
item
recommendation information
page
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610012417.9A
Other languages
English (en)
Other versions
CN105678335B (zh
Inventor
王亚龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Che Zhi Interconnect (beijing) Technology Co Ltd
Original Assignee
Che Zhi Interconnect (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Che Zhi Interconnect (beijing) Technology Co Ltd filed Critical Che Zhi Interconnect (beijing) Technology Co Ltd
Priority to CN201610012417.9A priority Critical patent/CN105678335B/zh
Publication of CN105678335A publication Critical patent/CN105678335A/zh
Application granted granted Critical
Publication of CN105678335B publication Critical patent/CN105678335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了预估点击率的方法、装置及计算设备。其中预估点击率的方法包括如下步骤。获取推荐模型中多个特征项的参数。其中,多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个。推荐信息适于呈现在页面中。用户特征为用户对推荐信息的兴趣度排序值。在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征。根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。

Description

预估点击率的方法、装置及计算设备
技术领域
本发明涉及互联网领域,尤其涉及对预估点击率的方法、装置及计算设备。
背景技术
随着互联网的快速发展,网站平台(例如汽车之家)可以提供大量的例如资讯、新闻、广告等内容,以满足用户对信息的需求。然而,用户在面对大量信息时,很难从中获取到自己真正感兴趣的那部分。
通常而言,在用户通过搜索引擎或者直接在网站中浏览网页时,网页中可以显示推荐给用户的信息。网站平台可以通过推荐系统选定待推荐的信息。例如,推荐系统可以通过点击率预估的方式,确定被推荐信息被用户点击的概率。在拥有海量用户和硬件资源有限的前提下,目前大部分点击率预估系统需要在线对多个推荐信息的点击率进行预估。通常用户请求数量和推荐信息数据量较大,因此预估点击率的效率有待提高。
发明内容
为此,本发明提供一种新的预估点击率的方案,有效的解决了上面至少一个问题。
根据本发明的一个方面,提供一种预估点击率的方法。该方法包括如下步骤。获取推荐模型中多个特征项的参数。其中,多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个。推荐信息适于呈现在页面中。用户特征为用户对推荐信息的兴趣度排序值。在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征。根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。
可选地,在根据本发明的预估点击率的方法中,推荐信息为汽车信息。用户特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值。推荐信息特征包括该推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项。页面特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。
可选地,在根据本发明的预估点击率的方法中,推荐模型为FactorizationMachines(FM)模型:
y ^ ( x ) = w 0 + Σ i = 1 n w i x i + Σ i = 1 n - 1 Σ j = i + 1 n ( v i T v j ) x i x j Σ i = 1 n - 1 Σ j = i + 1 n ( v i T v j ) x i x j = 1 2 Σ f = 1 k ( ( Σ i = 1 n v i , f x i ) 2 - Σ i = 1 n v i , f 2 x i 2 )
其中,w0为全局偏移参数,wi为特征项的参数,xi为特征项,vi为xi特征项的分解向量参数,k为vi的维度,vi,f为vi中第f个分量值。
可选地,根据本发明的预估点击率的方法,在所述根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估的步骤之前,该方法还包括:如果一个备选的推荐信息对应的特征项为N个,该N个特征项中特征项m的值与其余N-1个特征项中每一个的值相关联,离线计算这N个特征项对应的作为特征项m对应的权重,并省略其余N-1个特征项的参数。
可选地,在根据本发明的预估点击率的方法中,根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估的步骤包括:在线计算所述点击率时,将所述特征项m对应的权重作为所述N个特征项的权重,以省略所述其余N-1个特征项的计算。
根据本发明的又一个方面,提供一种预估点击率的装置,包括第一获取单元和第二获取单元。第一获取单元适于获取推荐模型中多个特征项的参数。其中多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个。推荐信息适于呈现在页面中。用户特征为用户对推荐信息的兴趣度排序值。第二获取单元适于在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征。预估单元适于根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。
根据本发明的又一个方面,提供一种计算设备,包括根据本发明的预估点击率的装置。
根据本发明的预估点击率的技术方案,通过对推荐信息对应的特征项的参数进行线下聚合,可以通过单个特征项的权重来代表多个特征项的权重。这样,在线预估点击率时,本发明的技术方案可以通过单个特征项的权重代表推荐信息对应的多个特征项的权重,从而可以极大节省在线预测点击率的时间。另外,在新增推荐信息对应的特征项时,通过将新增特征项的参数聚合到该推荐信息的权重中,而不需要在线预测时再改动计算策略,从而降低了线上计算的风险和提高了计算效率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的示例性推荐系统100的示意图;
图2示出了根据本发明一些实施例的训练推荐模型的装置200的框图;
图3示出了根据本发明的一些实施例的预估点击率的装置300的框图;以及
图4示出了根据本发明一些实施例的预估点击率的方法400的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的示例性推荐系统100的示意图。在用户浏览网站(例如汽车之家等)的各级页面或者用户通过搜索引擎查询与其输入关键词相关的页面时,推荐系统100适于向用户所浏览的各级页面或者所查询到的页面中添加推荐信息,以便用户查看或者点击。这里,推荐信息例如可以是新闻资讯、广告信息或者用户所要查询信息等内容本身或者网址链接(即推荐信息的具体内容的URL)。另外,页面是指网站的基本元素,例如是包含HTML标签的文本文件,但不限于此。用户可以通过向页面服务器请求页面访问,进而在用户终端(即各种可以浏览网页的计算设备,例如手机、iPad、笔记本电脑等)中显示所请求的页面。需要说明的是,所请求的页面包括对应页面主题的显示内容,即任何用户打开该页面时都会显示的内容。除此之外,所请求的页面通常被配置为包括用于呈现推荐信息的呈现位置(例如页面中的广告位等)。根据本发明的推荐系统100适于在用户对一个页面进行访问请求时,确定这个页面的呈现位置中所要呈现的推荐信息。
如图1所示,推荐系统100包括访问日志存储装置110、页面存储装置120、推荐信息存储装置130、用户信息存储装置140、训练推荐模型的装置150和预估点击率的装置160。
通常而言,访问例如汽车之家等网站的用户数量是十分巨大的。用户每访问一个页面的操作,都可以被用户日志存储装置110记录为一条访问日志。典型地,访问日志存储装置110可以存放亿量级的访问日志。应注意,虽然访问日志存储装置110被简化描述为单个实体,但是访问日志存储装置110的功能可以分散到多个计算设备、计算集群或数据中心中,并且访问日志存储装置110的组件可以驻留在多个地理位置中。
页面存储装置120可以存储例如汽车之家等网站的各级页面内容。应注意,页面存储装置120可以被实现为一个或多个页面服务器,其功能可以布置在多个计算设备、计算集群或数据中心。推荐信息存储装置130可以存储各种适于被推荐到页面中呈现的信息,例如为新闻或广告素材等,但不限于此。用户信息存储装置140可以存放与用户相关的特征信息。例如,用户特征信息包括用户对推荐信息中各种品牌、车系的兴趣度特征值等,但不限于此。训练推荐模型的装置150适于从访问日志存储装置110、页面存储装置120、推荐信息存储装置130和用户信息存储装置140中至少一个装置中获取信息,并生成训练推荐模型的样本。这样,训练推荐模型的装置150可以训练推荐模型的模型参数值。换言之,训练推荐模型的装置150可以根据样本训练处对应该样本的推荐模型实例。进而,预估点击率的装置160基于该模型实例,对用户所要访问的页面上所要呈现的推荐信息进行点击率预测。
图2示出了根据本发明一些实施例的训练推荐模型的装置200的框图。应注意,虽然训练推荐模型的装置200被简化描述为单个实体,但是训练推荐模型的装置200的功能可以分散到多个计算设备、计算集群或数据中心中,并且其组件可以驻留在多个地理位置中。
如图2所示,训练推荐模型的装置200可以包括日志获取单元210、第一特征提取单元220、第二特征提取单元230、样本生成单元240、样本聚合单元250和模型训练单元260。
日志获取单元210可以获取多条(通常为亿量级)访问日志。根据本发明一个实施例,一条访问日志的数据示例如下:
2015-10-1100:35:152.2.0192.168.7.51-192.168.7.54,192.168.7.92:6011
1444488175938_65285jPm/Y0FRKSEhipXpcyF4g==
e26ca91c-6f6c-11e5-b700-38eaa71181fc8
target,,target;match,,admatch;rank,,rank;filter,filter_group,adfilter;fill,,adfill;
3983;511014893
http://120.209.139.7/activity/redirect_wap/index.html?x-error-code=503&x-original-url=http%3A%2F%2F139.chinaso.com%2F%3Fq%3D%2525E7%252594%2525B5%2525E8%2525A7%252586%2525E5%252589%2525A7%2525E6%252596%2525B0%2525E3%252580%25258A%2525E6%2525B0%2525B4%2525E6%2525B5%252592%26category%3Ddownloadable%257cweb%257cbrowseable%26tid%3D2123%2C2124%2C2125%2C2126%26fr%3Dportalcustom2http://m.autohome.com.cn/121100140134710.143.85.172990000999900HUAWEIY325-T00_TD/V1Linux/3.4.5Android/2.3.6Release/03.26.2013Browser/AppleWebKit533.1MobileSafari/533.1;;;;;;;;;;;;;;0;0;;;1000;android320456NULL;;;;;;;;;;;;;;;;;;010;;0;s1489480*240
第一特征提取单元220可以从每条访问日志中提取第一特征和第二特征。第一特征用于标示一条访问日志对应页面所呈现的推荐信息。第一特征可以包括推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个。例如推荐信息为汽车类广告,而第一特征可以包括车型、车系、和品牌等特征项。第二特征用于标识一条访问日志所对应页面的上下文信息,即页面特征。第二特征可以包括页面标示ID、页面主题、页面等级和页面上下文链接中至少一个特征项。需要说明的是,尽管第一特征提取单元220被简化描述为单独实体,但是其功能是可以分布在多个计算设备中。换言之,第一特征提取单元220可以通过分布式计算方式实现。根据本发明一个实施例,第一特征提取单元220基于Hadoop平台上hive,并且通过映射规约(map-reduce)方式进行分布式特征提取。这样,通过分布式计算的方式,根据本发明的第一特征提取单元220可以高效地对海量的访问日志进行特征提取。根据本发明一个实施例,包括第一特征和第二特征的数据格式示例为:
0pvid000134b6-89d0-11e5-94b1-fc5b39fa7d3130:1psid1266:1
creativeform3:1creativeid122032:1groupid90114:1
campaignid46403:1subcategoryidmissing:1
sessionid0003DBC8-2DF7-0F5B-E840-31B5367B9570:1
其中,第一个字段(0)表示点击次数。例如0表示未点击,1表示点击1次。pvid为页面标识。sessionid为用户标识。
第二特征提取单元230可以从例如用户信息存储装置获取用户特征。用户特征例如包括该用户对各种推荐信息的兴趣度特征项。这里所说的各种推荐信息是根据该用户历史浏览记录而确定的。根据本发明一个实施例,一个用户对应的兴趣度特征项的消息数据示例如下:
sessionid0003DBC8-2DF7-0F5B-E840-31B5367B9570:1
wt_spec20739:0.28wt_spec20593:0.27wt_spec18493:0.19
wt_seri2615:1.03wt_seri3204:0.89wt_seri3065:0.69
wt_seri442:0.09wt_seri3858:0.09wt_seri3893:0.09
wt_brand181:2.51wt_brand20:1.23wt_brand76:0.89
wt_brand68:0.50wt_brand62:0.12wt_brand14:0.10
wt_brand1:0.09wt_brand203:0.09wt_price4:2.33
wt_price5:0.69wt_price3:0.28wt_sect2101:4.05
wt_sect2102:0.41wt_sect2108:0.12wt_level17:3.45
wt_level16:1.40wt_level19:0.72
其中,wt_spec20739:0.28为一个兴趣度特征项,wt_spec20739为对应推荐信息的特征编号,0.28为兴趣度量化值。依次类推,每个兴趣度特征项与wt_spec20739的格式类似,这里不再赘述。
随后,第二特征提取单元230对用户的兴趣度特征项进行排序处理。这里,第二特征提取单元230可以根据兴趣度量化值进行排序处理,以获取该用户对各种推荐信息的兴趣度排序值。对于一条访问日志对应的页面所呈现的推荐信息,第二特征提取单元230从经过排序的兴趣度特征项中查询对应该推荐信息的兴趣度排序值作为第三特征。下面进一步举例说明。一个推荐信息对应的用户特征例如为wt_spec25890、wt_seri3632、wt_bran13和wt_level3。这几个用户特征分别对应的兴趣度值为:
0.20、2.0、3.45、24.02
经过查询操作,第二特征提取单元230所查询到对应的兴趣度排序值数据示例为:
sessionid0003DBC8-2DF7-0F5B-E840-31B5367B9570:1
wt_spec25890_3:1wt_seri_rank3632_1:1wt_brand_rank13_1:1
wt_level_rank3_1:1
以wt_spec25890_3:1为例,其中wt_spec25890为用户特征编号,3为排序值。应注意,第二特征提取单元230也可以通过分布式计算实现其功能,本发明对此不做过多限定。
如上所述,对于一条访问日志而言,第一特征提取单元220可以提取这条访问日志对应的第一和第二特征。第二特征提取单元230可以获取到这条访问日志对应的第三特征。需要说明的是,所提取的第三特征是从大量的用户特征中提取出来的主要特征信息。这样,根据本发明获取第三特征的方式可以降低系统资源的消耗,并且减小了冗余信息。
随后,样本生成单元240可以生成这条访问日志对应的一条第一样本数据。这条第一样本数据包括这条访问日志对应页面的点击次数、第一特征、第二特征和第三特征。根据本发明一个实施例,样本生成单元240根据会话标识(sessionid)将第一、第二特征和第三特征进行关联合并,从而生成第一样本数据。执行合并操作的代码示例如下:
hive<<EOF
SELECT
A.id,
B.usr,
FROM
deliver_featureA
LEFTOUTERJOIN
targeting_featureB
ONA.sessionid=B.sessionid
EOF
一条第一样本数据的数据格式示例如下:
0pvid000134b6-89d0-11e5-94b1-fc5b39fa7d3130:1psid1266:1
creativeform3:1creativeid122032:1groupid90114:1
campaignid46403:1subcategoryidmissing:1
sessionid0003DBC8-2DF7-0F5B-E840-31B5367B9570:1
wt_spec25890_3:1wt_seri_rank3632_1:1wt_brand_rank13_1:1
wt_level_rank3_1:1
为了降低所生成的第一样本数据的数据量,样本聚合单元250可以对第一样本数据进行分组。具体而言,样本聚合单元250可以将第一特征、第二特征和第三特征相同的第一样本数据分为一组。如下示例中,三条样本数据处于同一个分组。
第1个:
0psid1266:1creativeform3:1creativeid122032:1
groupid90114:1campaignid46403:1subcategoryidmissing:1
wt_seri_rank3632_1:1wt_brand_rank13_1:1wt_level_rank3_1:1
第2个:
1psid1266:1creativeform3:1creativeid122032:1
groupid90114:1campaignid46403:1subcategoryidmissing:1
wt_seri_rank3632_1:1wt_brand_rank13_1:1wt_level_rank3_1:1
第3个:
0psid1266:1creativeform3:1creativeid122032:1
groupid90114:1campaignid46403:1subcategoryidmissing:1
wt_seri_rank3632_1:1wt_brand_rank13_1:1wt_level_rank3_1:1
样本聚合单元250可以将每个分组中第一样本数据聚合为一条第二样本数据。第二样本数据包括其对应一组第一样本数据的样本总数和点击总次数。前文中3条第一样本数据所生成的第二样本数据格式示例如下:
13psid1266:1creativeform3:1creativeid122032:1
groupid90114:1campaignid46403:1subcategoryidmissing:1
wt_seri_rank3632_1:1wt_brand_rank13_1:1wt_level_rank3_1:1
其中,第1个数值“1”为对这条第二样本数据对应的推荐信息的点击总次数。第2个数值“3”为样本总数。
如上所述,样本聚合单元250通过将第一样本数据进行聚合而生成第二样本数据,可以极大节省样本数据的存储资源。
可选地,样本聚合单元250还可以对第二样本数据的集合进行降采样操作。具体而言,对于负样本(即点击总次数为0的第二样本数据),样本聚合单元250还可以选择对其进行降采样,即减小负样本的数量。根据本发明一个实施例,样本聚合单元250可以根据采样率(例如为1/2,即将负样本减小一半)对负样本进行分组,每组包括预定数量的负样本。然后,样本聚合单元250随机选择每组中一条第二样本数据进行保留,而删除每组中其余的第二样本数据。另外,所保留的这条第二样本数据的样本总数更新为对这组数据中每个第二样本数据的样本总数的累计之和。为了简化描述,下面示例中一个第二样本数据的集合A包括3条数据,尽管第二样本数据的集合通常远超过3条。
0112:134:1564:1332:11:145:123:189:148:1
1144:145:146:1122:1123:133:125:1456:1556:1
0112:134:1573:122:1323:143:1442:1678:1223:1
上述例子中第一列为点击总次数。降采样操作的结果为集合B:
0212:134:1564:1332:11:145:123:189:148:1
1144:145:146:1122:1123:133:125:1456:1556:1
如上所述,集合A中包括2条负样本,且每条负样本的样本总数都是1。样本聚合单元250随机选择一条(例如为集合A中第1条样本数据)进行保留,则所保留的第二样本数据的样本总数更新为2。
根据上述对降采样操作的描述可知,根据本发明的降采样操作,由于对样本总数进行更新,从而使得后续的推荐模型训练中,不需要对训练得到的参数权重进行重校正。换言之,根据推荐模型进行点击率预测时,不需要校正参数权重值。
在第二样本数据的基础上,模型训练单元260可以训练推荐模型。这里推荐模型可以是任何公知的线性或者非线性的推荐模型,本发明对此不做过多限定。在根据本发明一个实施例中,模型训练单元260所采用的推荐模型为FactorizationMachines(FM)模型:
y ^ ( x ) = w 0 + &Sigma; i = 1 n w i x i + &Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j
其中,xi为特征项,w0为全局偏移参数,wi为特征项xi的参数,vi为xi特征项的分解向量参数,n为第一特征、第二特征和第三特征中特征项总数量值,为预测值。
在对FM模型进行训练时,模型训练单元260可以将第二样本数据代入到模型中。为了计算最优解,模型训练单元260通过损失函数和梯度函数,对FM模型进行迭代训练。根据本发明一个实施例,损失函数示例如下:
l o s s = c l k * l n 1 1 + e - y ^ ( x ) + ( p v - c l k ) * l n 1 1 + e y ^ ( x )
其中,clk为每条第二样本数据中点击总次数,pv为每条第二样本数据中样本总数。
推荐模型对应的梯度函数为:
grad=(pred-1.0)*clk+pred*(pv-clk)
其中,pred为根据梯度函数和损失函数对推荐模型进行训练过程中,每次迭代得到的预测值
另外vi为预定维数的分级向量参数,例如为8维。xi特征项相关的参数(wi和vi)经过训练后,所获取的参数数据示例如下:
Creativeid253-0.07757110.0102508-0.209982-0.00045711
0.0928248-0.001875880.0169060.001122860.123197
在该参数数据示例中,Creativeid253为特征项名称标签。wi值为-0.0775711。vi向量值为[0.0102508-0.209982-0.000457110.0928248-0.001875880.0169060.001122860.123197]
如上所述,模型训练单元260通过FM模型训练参数,从而将不同特征项之间的相互影响考虑在内,进而极大提高了FM模型实例的预测准确率。
可选地,在根据本发明一个实施例中,训练推荐模型的装置200还包括增量更新单元(图中未示出)。一般而言,第二样本数据量较大。训练推荐模型的装置200基于第二样本数据的集合对推荐模型进行训练的周期例如为一天。增量更新单元可以获取最新预定时长内新增的访问日志。这里预定时长例如为1小时,但不限于此。增量更新单元可以采用类似生成第二样本数据的方式,生成新增的访问日志对应的样本数据。该样本数据中包括新增的特征项。这样,根据新增的样本数据对推荐模型(FM)进行训练,可以获取到新增特征项对应的参数值(与wi和vi形式相同)。这样,新增的特征项的参数值可以用于最新推荐信息的点击率预测。
图3示出了根据本发明的一些实施例的预估点击率的装置300的框图。装置300适于驻留在计算设备中。这里的计算设备是指单独实体或者分布式式计算环境,本发明对此不做过多限定。
如图3所示,预估点击率的装置300包括第一获取单元310、第二获取单元320、聚合单元330和预估单元340。
第一获取单元310,适于获取推荐模型中多个特征项的参数。多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个。用户特征为用户对推荐信息的兴趣度排序值。例如,特征项Creativeid253对应的参数,请参见上文。根据本发明一个实施例,推荐信息为汽车信息。用户特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值。推荐信息特征包括该推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项。页面特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。另外,推荐模型为:
y ^ ( x ) = w 0 + &Sigma; i = 1 n w i x i + &Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j
第二获取单元320适于在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征。
预估单元340,适于根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。
另外,根据本发明一个实施例,在FM模型中,
&Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j = 1 2 &Sigma; f = 1 k ( ( &Sigma; i = 1 n v i , f x i ) 2 - &Sigma; i = 1 n v i , f 2 x i 2 )
其中,k为vi的维度,vi,f为vi中第f个分量值。
由此可知,特征项之间的交叉项可以转化为和平方减去平方和。
聚合单元330,适于对每个备选的推荐信息对应的特征项在线下进行聚合,以便减少预估单元340在线预测的计算复杂度。例如,一个备选推荐信息对应的特征项包括campaignid(计划id),brandId(品牌),levelId(级别),factoryCode(厂商)。换言之,在确定该推荐信息的ID时,该推荐信息的多个特征项值是确定的。
为了简化描述,这里标记一个备选的推荐信息对应的特征项为N个,该N个特征项中特征项m的值与其余N-1个特征项中每一个的值相关联。
聚合单元330可以离线计算这N个特征项对应的这样,聚合单元330可以将作为特征项m对应的权重,而其余N-1个特征项的参数可省略。例如特征项m为creativeid78724,k值例如为8维。经过聚合操作后,creativeid78724对应的权重数据示例如下:
creativeid78724-0.47269410.277138980.0813014942634
0.0505972390.003443761198020.132281190.00750351782593
0.034041850.001591480221720.222049440.052975592899
0.152429890.0499097560015-0.0837048870.00229813196417
-0.214253090.0171601227926
其中,值为-0.4726941对应的8维数据为[0.277138980.08130149426340.0505972390.003443761198020.132281190.007503517825930.034041850.00159148022172]
对应的8维数据为[0.222049440.0529755928990.152429890.0499097560015-0.0837048870.00229813196417-0.214253090.0171601227926]
在此基础上,预估单元340在计算这个备选的推荐信息的点击率时,将所述特征项m对应的权重作为N个特征项的权重,以省略其余N-1个特征项的计算。换言之,如果没有聚合单元330的离线聚合操作,预估单元340需要在线获取N个特征项中每一个对应的参数(wi,vi)。由于聚合单元330的离线聚合操作,预估单元340只需要通过特征项m,就可以计算出那个特征项对应的计算值,从而可以极大节省在线预测点击率的时间。另外,在新增推荐信息对应的模型参数时,也可以通过聚合单元将新增的参数聚合到该推荐信息的权重中,而不需要在线预测时再改动计算策略,从而降低了线上计算的风险和提高了计算效率。
图4示出了根据本发明一些实施例的预估点击率的方法400的流程图。方法400适于在计算设备中执行。
如图4所示,方法400始于步骤S410。在步骤S410中,获取推荐模型中多个特征项的参数。其中,多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个。推荐信息适于呈现在页面中。用户特征为用户对推荐信息的兴趣度排序值。根据本发明一个实施例,推荐信息为汽车信息。用户特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值。推荐信息特征包括标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项。页面特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。
根据本发明一个实施例,推荐模型为FactorizationMachines(FM)模型:
y ^ ( x ) = w 0 + &Sigma; i = 1 n w i x i + &Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j &Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j = 1 2 &Sigma; f = 1 k ( ( &Sigma; i = 1 n v i , f x i ) 2 - &Sigma; i = 1 n v i , f 2 x i 2 ) .
其中,w0为全局偏移参数,wi为特征项的参数,xi为特征项,vi为xi特征项的分解向量参数,k为vi的维度,vi,f为vi中第f个分量值。
可选地,方法400包括步骤S420。在步骤S420中,对推荐信息对应的特征向进行离线聚合操作。下面举例说明,如果一个备选的推荐信息对应的特征项为N个,该N个特征项中特征项m的值与其余N-1个特征项中每一个的值相关联。在步骤S420中,首先计算这N个特征项对应的然后将作为特征项m对应的权重,而其余N-1个特征项的参数可省略。
随后,方法400执行步骤S430。在步骤S430中,在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征。
随后,方法执行步骤S440。在步骤S440中,根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。例如,在对上文中包括N个特征项的备选推荐信息进行预估时,可以将特征项m对应的权重作为N个特征项的权重。这样,在预估计算中,可以不用获取其余N-1个特征项的参数,从而提高了在线预估的效率。
A10、如A9所述的预估点击率的装置,其中,所述预估单元适于根据下述方式来根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估:在线计算所述点击率时,将所述特征项m对应的权重作为所述N个特征项的权重,以省略所述其余N-1个特征项的计算。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种预估点击率的方法,包括:
获取推荐模型中多个特征项的参数,其中所述多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个,推荐信息适于呈现在页面中,所述用户特征为用户对推荐信息的兴趣度排序值;
在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征;以及
根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。
2.如权利要求1所述的预估点击率的方法,其中,
所述推荐信息为汽车信息,所述用户特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值;
所述推荐信息特征包括该推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项;以及
所述页面特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。
3.如权利要求1或2所述的预估点击率的方法,其中,所述推荐模型为FactorizationMachines(FM)模型:
y ^ ( x ) = w 0 + &Sigma; i = 1 n w i x i + &Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j
&Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j = 1 2 &Sigma; f = 1 k ( ( &Sigma; i = 1 n v i , f x i ) 2 - &Sigma; i = 1 n v i , f 2 x i 2 )
其中,w0为全局偏移参数,wi为特征项的参数,xi为特征项,vi为xi特征项的分解向量参数,k为vi的维度,vi,f为vi中第f个分量值。
4.如权利要求3所述的预估点击率的方法,其中,在所述根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估的步骤之前,该方法还包括:
如果一个备选的推荐信息对应的特征项为N个,该N个特征项中特征项m的值与其余N-1个特征项中每一个的值相关联,
离线计算这N个特征项对应的
作为特征项m对应的权重,并省略其余N-1个特征项的参数。
5.如权利要求4所述的预估点击率的方法,其中,所述根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估的步骤包括:
在线计算所述点击率时,将所述特征项m对应的权重作为所述N个特征项的权重,以省略所述其余N-1个特征项的计算。
6.一种预估点击率的装置,包括:
第一获取单元,适于获取推荐模型中多个特征项的参数,其中所述多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个,推荐信息适于呈现在页面中,所述用户特征为用户对推荐信息的兴趣度排序值;
第二获取单元,适于在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征;以及
预估单元,适于根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。
7.如权利要求6所述的预估点击率的装置,其中,
所述推荐信息为汽车信息,所述用户特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值;
所述推荐信息特征包括该推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项;以及
所述页面特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。
8.如权利要求6或7所述的预估点击率的装置,其中,所述推荐模型为FactorizationMachines(FM)模型:
y ^ ( x ) = w 0 + &Sigma; i = 1 n w i x i + &Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j
&Sigma; i = 1 n - 1 &Sigma; j = i + 1 n ( v i T v j ) x i x j = 1 2 &Sigma; f = 1 k ( ( &Sigma; i = 1 n v i , f x i ) 2 - &Sigma; i = 1 n v i , f 2 x i 2 )
其中,w0为全局偏移参数,wi为特征项的参数,xi为特征项,vi为xi特征项的分解向量参数,k为vi的维度,vi,f为vi中第f个分量值。
9.如权利要求8所述的预估点击率的装置,还包括聚合单元,适于:
如果一个备选的推荐信息对应的特征项为N个,该N个特征项中特征项m的值与其余N-1个特征项中每一个的值相关联,
离线计算这N个特征项对应的
作为特征项m对应的权重,并省略其余N-1个特征项的参数。
10.一种计算设备,包括如权利要求6-9中任一项所述的预估点击率的装置。
CN201610012417.9A 2016-01-08 2016-01-08 预估点击率的方法、装置及计算设备 Active CN105678335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610012417.9A CN105678335B (zh) 2016-01-08 2016-01-08 预估点击率的方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610012417.9A CN105678335B (zh) 2016-01-08 2016-01-08 预估点击率的方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN105678335A true CN105678335A (zh) 2016-06-15
CN105678335B CN105678335B (zh) 2019-07-02

Family

ID=56299655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610012417.9A Active CN105678335B (zh) 2016-01-08 2016-01-08 预估点击率的方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN105678335B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301247A (zh) * 2017-07-14 2017-10-27 广州优视网络科技有限公司 建立点击率预估模型的方法及装置、终端、存储介质
CN107423335A (zh) * 2017-04-27 2017-12-01 电子科技大学 一种针对单类协同过滤问题的负样本选择方法
CN108053267A (zh) * 2017-12-29 2018-05-18 北京奇艺世纪科技有限公司 一种信息请求方法及装置
CN109753601A (zh) * 2018-11-28 2019-05-14 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备
CN110110210A (zh) * 2018-01-22 2019-08-09 腾讯科技(北京)有限公司 推送展示信息的方法和装置
WO2020093781A1 (zh) * 2018-11-06 2020-05-14 北京达佳互联信息技术有限公司 一种多媒体资源预估点击率的确定方法、装置及服务器
CN111381909A (zh) * 2018-12-27 2020-07-07 北京字节跳动网络技术有限公司 一种页面展示方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324645A (zh) * 2012-03-23 2013-09-25 腾讯科技(深圳)有限公司 一种网页推荐方法和装置
US20130339350A1 (en) * 2012-06-18 2013-12-19 Alibaba Group Holding Limited Ranking Search Results Based on Click Through Rates
CN104750713A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
CN105045901A (zh) * 2015-08-05 2015-11-11 百度在线网络技术(北京)有限公司 搜索关键词的推送方法和装置
CN105160548A (zh) * 2015-08-20 2015-12-16 北京奇虎科技有限公司 对广告点击率进行预测的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324645A (zh) * 2012-03-23 2013-09-25 腾讯科技(深圳)有限公司 一种网页推荐方法和装置
US20130339350A1 (en) * 2012-06-18 2013-12-19 Alibaba Group Holding Limited Ranking Search Results Based on Click Through Rates
CN104750713A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
CN105045901A (zh) * 2015-08-05 2015-11-11 百度在线网络技术(北京)有限公司 搜索关键词的推送方法和装置
CN105160548A (zh) * 2015-08-20 2015-12-16 北京奇虎科技有限公司 对广告点击率进行预测的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
向宇川: ""基于因子分解模型的移动上下文推荐系统研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
秦大路: ""基于因式分解机模型的上下文感知推荐系统研究"", 《万方企业服务平台》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423335A (zh) * 2017-04-27 2017-12-01 电子科技大学 一种针对单类协同过滤问题的负样本选择方法
CN107423335B (zh) * 2017-04-27 2020-06-05 电子科技大学 一种针对单类协同过滤问题的负样本选择方法
CN107301247A (zh) * 2017-07-14 2017-10-27 广州优视网络科技有限公司 建立点击率预估模型的方法及装置、终端、存储介质
CN108053267A (zh) * 2017-12-29 2018-05-18 北京奇艺世纪科技有限公司 一种信息请求方法及装置
CN108053267B (zh) * 2017-12-29 2021-12-24 北京奇艺世纪科技有限公司 一种信息请求方法及装置
CN110110210A (zh) * 2018-01-22 2019-08-09 腾讯科技(北京)有限公司 推送展示信息的方法和装置
WO2020093781A1 (zh) * 2018-11-06 2020-05-14 北京达佳互联信息技术有限公司 一种多媒体资源预估点击率的确定方法、装置及服务器
CN109753601A (zh) * 2018-11-28 2019-05-14 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备
CN109753601B (zh) * 2018-11-28 2021-10-22 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备
CN111381909A (zh) * 2018-12-27 2020-07-07 北京字节跳动网络技术有限公司 一种页面展示方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN105678335B (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN105589971B (zh) 训练推荐模型的方法、装置及推荐系统
CN107908740B (zh) 信息输出方法和装置
CN105678335A (zh) 预估点击率的方法、装置及计算设备
Salehi et al. Personalized recommendation of learning material using sequential pattern mining and attribute based collaborative filtering
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
Li et al. Improving one-class collaborative filtering by incorporating rich user information
CN103886487B (zh) 基于分布式的b2b平台的个性化推荐方法与系统
US10417301B2 (en) Analytics based on scalable hierarchical categorization of web content
US8380784B2 (en) Correlated information recommendation
US10269024B2 (en) Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
US9858308B2 (en) Real-time content recommendation system
US10102482B2 (en) Factorized models
CN104268292B (zh) 画像系统的标签词库更新方法
US20110231256A1 (en) Automated building of a model for behavioral targeting
CN109711925A (zh) 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
CN105677780A (zh) 可拓展的用户意图挖掘方法及其系统
CN104090919A (zh) 推荐广告的方法及广告推荐服务器
Kim et al. Recommendation system for sharing economy based on multidimensional trust model
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
US20150278858A1 (en) Method and system for producing segment indexes
Ji et al. A study on recommendation features for an RSS reader
US20220335331A1 (en) Method and system for behavior vectorization of information de-identification
Licai et al. Applying HOSVD to alleviate the sparsity problem in context-aware recommender systems
Agagu et al. Context-aware recommendation methods
Joshi et al. A personalized web based e-learning recommendation system to enhance and user learning experience

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant