CN105701191B - 一种推送信息点击率估计方法和装置 - Google Patents

一种推送信息点击率估计方法和装置 Download PDF

Info

Publication number
CN105701191B
CN105701191B CN201610014017.1A CN201610014017A CN105701191B CN 105701191 B CN105701191 B CN 105701191B CN 201610014017 A CN201610014017 A CN 201610014017A CN 105701191 B CN105701191 B CN 105701191B
Authority
CN
China
Prior art keywords
information
click
user
algorithm model
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610014017.1A
Other languages
English (en)
Other versions
CN105701191A (zh
Inventor
周琦
张小鹏
尹程果
袁林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610014017.1A priority Critical patent/CN105701191B/zh
Publication of CN105701191A publication Critical patent/CN105701191A/zh
Application granted granted Critical
Publication of CN105701191B publication Critical patent/CN105701191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种推送信息点击率估计方法,所述方法包括:获取信息点击行为数据;对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录;对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型;根据经过参数优化得到的所述点击率算法模型,计算目标推送信息相对于目标用户的点击率。本发明实施例还公开了一种推送信息点击率估计装置。采用本发明,可有效解决信息推荐系统的冷启动问题。

Description

一种推送信息点击率估计方法和装置
技术领域
本发明涉及一种互联网技术领域,尤其涉及一种推送信息点击率估计方法和装置。
背景技术
随着互联网的快速发展,信息推荐系统在互联网技术领域得到了广泛的使用,如在电商,视频,文学等互联网服务当中。现有的信息推荐系统,主要考虑用户与用户之间,或推送对象与推送对象之间的相似程度,即给用户推荐与他相似的用户评价高或点击过的推送对象,或推荐用户看过的推送对象的近似对象。在推荐系统的应用中,针对新的用户,或新的推送对象或初始化的推荐系统,由于缺乏用户的历史行为数据,而造成的问题叫做冷启动问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种推送信息点击率估计方法和装置,可有效解决信息推荐系统的冷启动问题。
为了解决上述技术问题,本发明实施例提供了一种推送信息点击率估计方法,所述方法包括:
获取信息点击行为数据,所述信息点击行为数据包括多个用户分别对被推送至该多个用户的推送信息的点击行为记录和不点击行为记录;
根据所述多个用户中各个用户的多维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的多维信息特征,对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录;
对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型;
根据经过参数优化得到的所述点击率算法模型,计算目标推送信息相对于目标用户的点击率。
相应地,本发明实施例还提供了一种推送信息点击率估计装置,所述装置包括:
点击数据获取模块,用于获取信息点击行为数据,所述信息点击行为数据包括多个用户分别对被推送至该多个用户的推送信息的点击行为记录和不点击行为记录;
训练语料获取模块,用于根据所述多个用户中各个用户的多维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的多维信息特征,对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录;
算法模型优化模块,用于对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型;
点击率估计模块,用于根据经过参数优化得到的所述点击率算法模型,计算目标推送信息相对于目标用户的点击率。
本发明实施例通过将已有的信息点击行为数据分解为多个维度的用户特征对多个维度的信息特征之间的点击行为记录,进而基于用户特征与信息特征之间的点击行为作为训练语料进行二分类算法模型优化,能够充分理由已有的点击行为数据,能够实现根据非常少的点击行为记录得到较为准确的点击率估算模型,同时对于新用户或新生成的推送信息,依然可以根据其自身的用户特征或信息特征估算出点击率,可以很好的解决推荐系统冷启动的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种推送信息点击率估计方法的流程示意图;
图2是本发明实施例中对信息点击行为数据进行分解得到训练语料的示意图;
图3是本发明实施例中的一种推送信息点击率估计装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的推送信息点击率估计方法和装置,可以实现在冯若依曼体系的计算机系统之上。例如可以以计算机程序的形式运行,该计算机程序可集成在应用中,也可作为独立的工具类应用运行。该计算机系统可以是个人电脑、平板电脑、笔记本电脑、掌上电脑、智能手机等具有触控功能的终端设备,也可以以互联网后台服务器的形式实施,例如网络搜索服务器。
图1是本发明实施例中的一种推送信息点击率估计方法的流程示意图,如图所示本实施例中的推送信息点击率估计方法可以包括以下流程:
S101,获取信息点击行为数据,所述信息点击行为数据包括多个用户分别对被推送至该多个用户的推送信息的点击行为记录和不点击行为记录。
具体实现中,所述信息点击行为数据,可以为通过指定推送信息集合推送至指定用户集合后,将该用户集合中对该指定推送集合的点击行为汇总得到的,例如指定用户集合包括用户A、用户B、用户C,推送信息集合包括信息a、信息b、信息c以及信息d,那么得到的信息点击行为数据可以包括该用户集合中各个用户在接收到推送信息集合中的信息后,是否点击了各个信息的行为记录,比如将点击描述为1,不点击描述为0,那么用户A的点击行为数据就可以描述为(1,0,1,0)表示其点击了信息a和信息c,未点击信息b和信息d,以此类推。
S102,根据所述多个用户中各个用户的多维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的多维信息特征,对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录。
具体的,例如图2所示的分解过程,所述用户特征可以包括用户的基础属性特征,例如包括年龄、性别、所在地等,还可以包括用户的兴趣特征,如爱好听歌、旅游等,本发明实施例中将所有用户均按照相同的h维用户特征进行描述,若某个用户缺少某项特征信息则可以缺省处理;同理的,本发明实施例将所有推送信息均按照相同的i维信息特征进行描述,例如推送的信息涉及的商品的商品类型或标题分词特征,此外在可选实施例中还可以包括是否商品广告、商品/服务类型等维度的特征。根据所述多个用户中各个用户的h维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的i维信息特征,对所述信息点击行为数据进行分解得到训练语料,即每一条用户对接收到的推送信息的点击与否的记录,均可以分解得到该用户的h个用户特征分别对该推送信息的i个信息特征的点击与否的记录,以便后续作为算法模型的训练语料。在可选实施例中,如图2所示,可以将用户特征集合与商品特征集合之间进行笛卡尔内积,进而根据点击与否的记录对每个内积进行赋值,即可得到代表各个用户特征对各个信息特征的点击与否的训练语料数据。
S103,对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型。
具体实现中,可以根据某个信息特征的全局点击率、某个用户特征的全局点击率以及该信息特征与该用户特征之间的相关度,建立代表该用户特征对该信息特征的点击率的二分类算法模型。其中,所述信息特征与用户特征之间的相关度,可以通过分别获取表示某个信息特征的K维向量和表示某个用户特征的K维向量,进而将表示该信息特征的K维向量和表示该用户特征的K维向量相乘的结果代表该信息特征与该用户特征之间的相关度。所述K维向量,可以通过分别获取为该信息特征与用户特征相对于预设的K维隐藏主题的相关性从而确定,例如系统预设的K维隐藏主题包括“娱乐”、“两性”、“政治”、“时事”,那么表示信息特征的K维向量和表示用户特征的K维向量分别代表某一信息特征与某一用户特征相对于这些隐藏主题的相关度。
在可选实施例中,可以采用以下算法建立所述二分类算法模型包括:逻辑回归分类算法模型、支持向量机算法模型、人工神经网络算法模型或决策树算法模型。以下以逻辑回归分类算法模型为例进行详细说明:
Figure BDA0000902721200000041
其中yn代表某个用户特征对某个信息特征的点击 率,μ为预设的全局点击率,bi代表该信息特征的全局点击率,bu代表该用户特征的全局点击 率,qi代表该信息特征的K维向量,pu代表该用户特征的K维向量,puqi T表示这两个向量相乘 后转置的结果。其中,所述qi和pu分别为该信息特征与用户特征相对于预设的K维隐藏主题 的相关性,显然puqi T的结果数值越大,则表示该信息特征与用户特征之间的相关度也越高。 举例来说,用户特征“男性”和信息特征“搞笑”,对于上述算法模型,bu为“男性”这一用户特 征的全局点击率,相当于所有男性用户在该推荐系统的全局点击率,而bi为“搞笑”这一信 息特征的全局点击率,相当于所有具有“搞笑”这一特征的推送信息在该推荐系统的全局点 击率,而puqi T,可以由系统预设的K维隐藏主题,例如包括“娱乐”、“两性”、“政治”、“时事”, 所述qi和pu分别代表信息特征“搞笑”与用户特征“男性”相对于这些隐藏主题相关度,若同 时与某一个或多个隐藏主题相关度较高,则puqi T的结果数值越高表示该信息特征与用户特 征之间的相关度也越高。
假设存在N条训练语料,那么似然函数就可以写为:
Figure BDA0000902721200000051
最逼近信息点击行为数据的点击率算法模型,可以转换为求上述最大化对数似然函数,即等价于获取最小化负的对数似然函数如下:
Figure BDA0000902721200000052
经过推导,我们可以得到目标函数关于各个参数的偏导数如下:
Figure BDA0000902721200000053
Figure BDA0000902721200000054
Figure BDA0000902721200000055
Figure BDA0000902721200000056
接着可以采用梯度下降法,可以得到:
Figure BDA0000902721200000061
Figure BDA0000902721200000062
Figure BDA0000902721200000063
Figure BDA0000902721200000064
。。。。。。。。。。。。。。。式(1)
其中λ为学习率(可以根据训练料的数据量大小和实际情况来调整),tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0。从而根据上述式(1)的四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型。在可选实施例中还可以针对各个参数设置不同的学习率。
进而在可选实施例中,考虑到上述式(1)进行迭代过程中每次迭代都需要做N次加和,计算量太大,实际中可以利用随机梯度下降法来进行优化,公式如下:
qi=qi-λ(yn-tn)pu
pu=pu-λ(yn-tn)qi
bi=bi-λ(yn-tn)
bu=bu-λ(yn-tn)。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。式(2)
从而根据上述式(2)的四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型。
进而在可选实施例中,为了防止过拟合,我们可以给目标函数加上L2正则项,则修正后的对数似然函数可以表示如下:
Figure BDA0000902721200000065
其中α是正则项惩罚系数,如果想精细化,可以给每一类参数设置不同的惩罚系数。新的目标函数对各个变量求偏导数之后,并且利用随机梯度下降优化策略,可以得到如下迭代算式:
qi=qi-λ(yn-tn)pu-λα1qi
pu=pu-λ(yn-tn)qi-λα2pu
bi=bi-λ(yn-tn)-λα3bi
bu=bu-λ(yn-tn)-λα4bu。。。。。。。。。。。。。。。。。。。。。。。。式(3)
其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0,α1、α2、α3以及α4分别为各项参数的正则项惩罚系数,其可以相等,也可以各自设置不同值。从而根据上述式(3)的四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型。
需要指出的是,上述仅是针对逻辑回归分类算法模型介绍了一种二分类算法模型的优化方式,其中采用了梯度下降法进行优化,在其他可选实施例中可以采用其他优化方式,或采用支持向量机算法模型、人工神经网络算法模型或决策树算法模型等建立算法模型并进行相应的优化,属于本发明相类似的逻辑构思,只是在本说明书中不再一一详细叙述。
S104,根据经过参数优化得到的所述点击率算法模型,计算目标推送信息相对于目标用户的点击率。
经过上述参数优化过程,可以得到最逼近所述信息点击行为数据的点击率算法模型,进而可以将目标推送信息的多维信息特征以及目标用户的多维用户特征带入该点击率算法模型中,从而可以估算出目标推送信息相对于目标用户的点击率。
可选的,本发明实施例的推送信息点击率估计方法进一步还可以包括:
S105,根据估算得到的所述目标推送信息相对于目标用户的点击率,确定是否向所述目标用户推送所述目标推送信息。
例如若估算出目标推送信息相对于目标用户的点击率高于预设阈值(如20%),则可以确定向目标用户推送该目标推送信息,否则可确定不向目标推送该目标推送信息。
本发明实施例通过将已有的信息点击行为数据分解为多个维度的用户特征对多个维度的信息特征之间的点击行为记录,进而基于用户特征与信息特征之间的点击行为作为训练语料进行二分类算法模型优化,能够充分理由已有的点击行为数据,能够实现根据非常少的点击行为记录得到较为准确的点击率估算模型,同时对于新用户或新生成的推送信息,依然可以根据其自身的用户特征或信息特征估算出点击率,可以很好的解决推荐系统冷启动的问题。
图3是本发明实施例中的一种推送信息点击率估计装置,如图所示本发明实施例中的所述装置至少可以包括:
点击数据获取模块310,用于获取信息点击行为数据,所述信息点击行为数据包括多个用户分别对被推送至该多个用户的推送信息的点击行为记录和不点击行为记录。
具体实现中,所述信息点击行为数据,可以为通过指定推送信息集合推送至指定用户集合后,将该用户集合中对该指定推送集合的点击行为汇总得到的,例如指定用户集合包括用户A、用户B、用户C,推送信息集合包括信息a、信息b、信息c以及信息d,那么得到的信息点击行为数据可以包括该用户集合中各个用户在接收到推送信息集合中的信息后,是否点击了各个信息的行为记录,比如将点击描述为1,不点击描述为0,那么用户A的点击行为数据就可以描述为(1,0,1,0)表示其点击了信息a和信息c,未点击信息b和信息d,以此类推。
训练语料获取模块320,用于根据所述多个用户中各个用户的多维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的多维信息特征,对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录。
具体的,例如图2所示的分解过程,所述用户特征可以包括用户的基础属性特征,例如包括年龄、性别、所在地等,还可以包括用户的兴趣特征,如爱好听歌、旅游等,本发明实施例中将所有用户均按照相同的h维用户特征进行描述,若某个用户缺少某项特征信息则可以缺省处理;同理的,本发明实施例将所有推送信息均按照相同的i维信息特征进行描述,例如推送的信息涉及的商品的商品类型或标题分词特征,此外在可选实施例中还可以包括是否商品广告、商品/服务类型等维度的特征。根据所述多个用户中各个用户的h维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的i维信息特征,对所述信息点击行为数据进行分解得到训练语料,即每一条用户对接收到的推送信息的点击与否的记录,均可以分解得到该用户的h个用户特征分别对该推送信息的i个信息特征的点击与否的记录,以便后续作为算法模型的训练语料。在可选实施例中,如图2所示,可以将用户特征集合与商品特征集合之间进行笛卡尔内积,进而根据点击与否的记录对每个内积进行赋值,即可得到代表各个用户特征对各个信息特征的点击与否的训练语料数据。
算法模型优化模块330,用于对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型。
具体实现中,算法模型优化模块330可以根据某个信息特征的全局点击率、某个用户特征的全局点击率以及该信息特征与该用户特征之间的相关度,建立代表该用户特征对该信息特征的点击率的二分类算法模型。其中,所述信息特征与用户特征之间的相关度,算法模型优化模块330可以通过分别获取表示某个信息特征的K维向量和表示某个用户特征的K维向量,进而将表示该信息特征的K维向量和表示该用户特征的K维向量相乘的结果代表该信息特征与该用户特征之间的相关度。所述K维向量,可以通过分别获取为该信息特征与用户特征相对于预设的K维隐藏主题的相关性从而确定,例如系统预设的K维隐藏主题包括“娱乐”、“两性”、“政治”、“时事”,那么表示信息特征的K维向量和表示用户特征的K维向量分别代表某一信息特征与某一用户特征相对于这些隐藏主题的相关度。
在可选实施例中,可以采用以下算法建立所述二分类算法模型包括:逻辑回归分类算法模型、支持向量机算法模型、人工神经网络算法模型或决策树算法模型。
例如对任意某个用户特征对任意某个信息特征的点击率建立逻辑回归分类算法模型如下:
Figure BDA0000902721200000091
其中yn代表某个用户特征对某个信息特征的点击率,μ为预设的全局点击率,bi代表该信息特征的全局点击率,bu代表该用户特征的全局点击率,qi代表该信息特征的K维向量,pu代表该用户特征的K维向量,puqi T表示这两个向量相乘后转置的结果。其中,所述qi和pu分别为该信息特征与用户特征相对于预设的K维隐藏主题的相关性,显然puqi T的结果数值越大,则表示该信息特征与用户特征之间的相关度也越高。
从而假设存在N条训练语料,可以根据下列迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型。
Figure BDA0000902721200000101
Figure BDA0000902721200000102
Figure BDA0000902721200000103
Figure BDA0000902721200000104
。。。。。。。。。。。。。。。式(1)
qi=qi-λ(yn-tn)pu
pu=pu-λ(yn-tn)qi
bi=bi-λ(yn-tn)
bu=bu-λ(yn-tn)。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。式(2)
qi=qi-λ(yn-tn)pu-λα1qi
pu=pu-λ(yn-tn)qi-λα2pu
bi=bi-λ(yn-tn)-λα3bi
bu=bu-λ(yn-tn)-λα4bu。。。。。。。。。。。。。。。。。。。。。。式(3)
其中λ为学习率(可以根据训练料的数据量大小和实际情况来调整),tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0。α1、α2、α3以及α4分别为各项参数的正则项惩罚系数,其可以相等,也可以各自设置不同值。具体推演过程可以参考前文方法实施例中的详细阐述,本实施例中不再赘述。
点击率估计模块340,用于根据经过参数优化得到的所述点击率算法模型,计算目标推送信息相对于目标用户的点击率。
经过算法模型优化模块330,可以得到最逼近所述信息点击行为数据的点击率算法模型,进而可以将目标推送信息的多维信息特征以及目标用户的多维用户特征带入该点击率算法模型中,从而可以估算出目标推送信息相对于目标用户的点击率。
可选的,本发明实施例的推送信息点击率估计装置进一步还可以包括:
信息推送模块350,用于根据估算得到的所述目标推送信息相对于目标用户的点击率,确定是否向所述目标用户推送所述目标推送信息。
例如若估算出目标推送信息相对于目标用户的点击率高于预设阈值(如20%),则信息推送模块350可以确定向目标用户推送该目标推送信息,否则可确定不向目标推送该目标推送信息。
本发明实施例通过将已有的信息点击行为数据分解为多个维度的用户特征对多个维度的信息特征之间的点击行为记录,进而基于用户特征与信息特征之间的点击行为作为训练语料进行二分类算法模型优化,能够充分理由已有的点击行为数据,能够实现根据非常少的点击行为记录得到较为准确的点击率估算模型,同时对于新用户或新生成的推送信息,依然可以根据其自身的用户特征或信息特征估算出点击率,可以很好的解决推荐系统冷启动的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (19)

1.一种推送信息点击率估计方法,其特征在于,所述方法包括:
获取信息点击行为数据,所述信息点击行为数据包括多个用户分别对被推送至该多个用户的推送信息的点击行为记录和不点击行为记录;
根据所述多个用户中各个用户的多维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的多维信息特征,对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录;所述多维用户特征包括用户的基础属性特征以及兴趣特征,所述多维信息特征包括所述推送信息对应的产品类型、标题分词特征以及产品广告特征;
对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型;
将目标推送信息的多维信息特征以及目标用户的多维用户特征,输入至经过参数优化得到的所述点击率算法模型进行识别,得到所述目标推送信息相对于所述目标用户的点击率。
2.如权利要求1所述的推送信息点击率估计方法,其特征在于,所述对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型包括:
根据某个信息特征的全局点击率、某个用户特征的全局点击率以及该信息特征与该用户特征之间的相关度,建立代表该用户特征对该信息特征的点击率的二分类算法模型。
3.如权利要求2所述的推送信息点击率估计方法,其特征在于,所述方法还包括:
分别获取表示某个信息特征的K维向量和表示某个用户特征的K维向量;
将表示该信息特征的K维向量和表示该用户特征的K维向量相乘的结果代表该信息特征与该用户特征之间的相关度。
4.如权利要求1所述的推送信息点击率估计方法,其特征在于,所述二分类算法模型包括:逻辑回归分类算法模型、支持向量机算法模型、人工神经网络算法模型或决策树算法模型。
5.如权利要求4所述的推送信息点击率估计方法,其特征在于,所述逻辑回归分类算法模型为:
Figure FDA0002627591710000021
其中yn代表某个用户特征对某个信息特征的点击率,μ为预设的全局点击率,bi代表该信息特征的全局点击率,bu代表该用户特征的全局点击率,qi代表该信息特征的K维向量,pu代表该用户特征的K维向量,puqi T表示这两个向量相乘后转置的结果。
6.如权利要求5所述的推送信息点击率估计方法,其特征在于,若存在N条训练语料,所述根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型包括:
根据以下四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型:
Figure FDA0002627591710000022
Figure FDA0002627591710000023
Figure FDA0002627591710000024
Figure FDA0002627591710000025
其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0。
7.如权利要求5所述的推送信息点击率估计方法,其特征在于,若存在N条训练语料,所述根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型包括:
根据以下四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型:
qi=qi-λ(yn-tn)pu
pu=pu-λ(yn-tn)qi
bi=bi-λ(yn-tn)
bu=bu-λ(yn-tn),其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0。
8.如权利要求5所述的推送信息点击率估计方法,其特征在于,若存在N条训练语料,所述根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型包括:
根据以下四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型:
qi=qi-λ(yn-tn)pu-λα1qi
pu=pu-λ(yn-tn)qi-λα2pu
bi=bi-λ(yn-tn)-λα3bi
bu=bu-λ(yn-tn)-λα4bu,其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0,α1、α2、α3以及α4分别为各项参数的正则项惩罚系数。
9.如权利要求1-8中任一项所述的推送信息点击率估计方法,其特征在于,所述方法还包括:
根据估算得到的所述目标推送信息相对于目标用户的点击率,确定是否向所述目标用户推送所述目标推送信息。
10.一种推送信息点击率估计装置,其特征在于,所述装置包括:
点击数据获取模块,用于获取信息点击行为数据,所述信息点击行为数据包括多个用户分别对被推送至该多个用户的推送信息的点击行为记录和不点击行为记录;
训练语料获取模块,用于根据所述多个用户中各个用户的多维用户特征,以及所述被推送至该多个用户的推送信息中各个推送信息的多维信息特征,对所述信息点击行为数据进行分解得到训练语料,所述训练语料包括各个用户特征分别对各个信息特征的点击行为记录和不点击行为记录;所述多维用户特征包括用户的基础属性特征以及兴趣特征,所述多维信息特征包括所述推送信息对应的产品类型、标题分词特征以及产品广告特征;
算法模型优化模块,用于对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型,并根据所述训练语料对所述二分类算法模型进行参数优化,得到最逼近所述信息点击行为数据的点击率算法模型;
点击率估计模块,用于将目标推送信息的多维信息特征以及目标用户的多维用户特征,输入至经过参数优化得到的所述点击率算法模型进行识别,得到所述目标推送信息相对于所述目标用户的点击率。
11.如权利要求10所述的推送信息点击率估计装置,其特征在于,所述算法模型优化模块对任意某个用户特征对任意某个信息特征的点击率建立二分类算法模型包括:
所述算法模型优化模块根据某个信息特征的全局点击率、某个用户特征的全局点击率以及该信息特征与该用户特征之间的相关度,建立代表该用户特征对该信息特征的点击率的二分类算法模型。
12.如权利要求11所述的推送信息点击率估计装置,其特征在于,所述算法模型优化模块还用于:
分别获取表示某个信息特征的K维向量和表示某个用户特征的K维向量,将表示该信息特征的K维向量和表示该用户特征的K维向量相乘的结果代表该信息特征与该用户特征之间的相关度。
13.如权利要求10所述的推送信息点击率估计装置,其特征在于,所述二分类算法模型包括:逻辑回归分类算法模型、支持向量机算法模型、人工神经网络算法模型或决策树算法模型。
14.如权利要求13所述的推送信息点击率估计装置,其特征在于,所述逻辑回归分类算法模型为:
Figure FDA0002627591710000051
其中yn代表某个用户特征对某个信息特征的点击率,μ为预设的全局点击率,bi代表该信息特征的全局点击率,bu代表该用户特征的全局点击率,qi代表该信息特征的K维向量,pu代表该用户特征的K维向量,puqi T表示这两个向量相乘后转置的结果。
15.如权利要求14所述的推送信息点击率估计装置,其特征在于,所述算法模型优化模块用于:
假设存在N条训练语料,根据以下四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型:
Figure FDA0002627591710000052
Figure FDA0002627591710000053
Figure FDA0002627591710000054
Figure FDA0002627591710000055
其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0。
16.如权利要求14所述的推送信息点击率估计装置,其特征在于,所述算法模型优化模块用于:
假设存在N条训练语料,根据以下四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型:
qi=qi-λ(yn-tn)pu
pu=pu-λ(yn-tn)qi
bi=bi-λ(yn-tn)
bu=bu-λ(yn-tn),其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0。
17.如权利要求14所述的推送信息点击率估计装置,其特征在于,所述算法模型优化模块用于:
假设存在N条训练语料,根据以下四个迭代算式,通过迭代参数bi、bu、qi以及pu,得到最逼近点击行为数据的逻辑回归分类算法模型:
qi=qi-λ(yn-tn)pu-λα1qi
pu=pu-λ(yn-tn)qi-λα2pu
bi=bi-λ(yn-tn)-λα3bi
bu=bu-λ(yn-tn)-λα4bu,其中λ表示系统学习率,tn表示第n条训练语料点击与否,若点击则tn=1,否则tn=0,α1、α2、α3以及α4分别为各项参数的正则项惩罚系数。
18.如权利要求10-17中任一项所述的推送信息点击率估计装置,其特征在于,还包括:
信息推送模块,用于根据估算得到的所述目标推送信息相对于目标用户的点击率,确定是否向所述目标用户推送所述目标推送信息。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至9中任一项所述方法的步骤。
CN201610014017.1A 2016-01-08 2016-01-08 一种推送信息点击率估计方法和装置 Active CN105701191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610014017.1A CN105701191B (zh) 2016-01-08 2016-01-08 一种推送信息点击率估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610014017.1A CN105701191B (zh) 2016-01-08 2016-01-08 一种推送信息点击率估计方法和装置

Publications (2)

Publication Number Publication Date
CN105701191A CN105701191A (zh) 2016-06-22
CN105701191B true CN105701191B (zh) 2020-12-29

Family

ID=56227092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610014017.1A Active CN105701191B (zh) 2016-01-08 2016-01-08 一种推送信息点击率估计方法和装置

Country Status (1)

Country Link
CN (1) CN105701191B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251174A (zh) * 2016-07-26 2016-12-21 北京小米移动软件有限公司 信息推荐方法及装置
WO2018018522A1 (zh) * 2016-07-28 2018-02-01 孙秋实 一种根据用户反馈停止自动分组的方法以及分组系统
WO2018032192A1 (zh) * 2016-08-14 2018-02-22 阮元 一种根据市场反馈停用目标推送技术的方法及服务器
WO2018032195A1 (zh) * 2016-08-14 2018-02-22 阮元 根据其他用户反馈调整信息提供技术的方法及服务器
WO2018032176A1 (zh) * 2016-08-14 2018-02-22 阮元 一种根据用户使用习惯调整信息推送技术的方法及服务器
WO2018032189A1 (zh) * 2016-08-14 2018-02-22 阮元 根据市场反馈向车载设备推送信息的方法及服务器
WO2018032168A1 (zh) * 2016-08-14 2018-02-22 阮元 一种根据市场反馈推送信息的方法及服务器
WO2018032185A1 (zh) * 2016-08-14 2018-02-22 阮元 停止向车载终端推送信息的方法及服务器
WO2018032194A1 (zh) * 2016-08-14 2018-02-22 阮元 一种调整用户所需信息概率提高技术的方法及服务器
CN106790350B (zh) * 2016-11-11 2020-09-29 北京轻松筹信息技术有限公司 一种信息推送装置、服务器及方法
CN106547922B (zh) * 2016-12-07 2020-08-25 阿里巴巴(中国)有限公司 一种应用程序的排序方法、装置及服务器
CN106649774A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于人工智能的对象推送方法及装置
CN107301247B (zh) * 2017-07-14 2020-12-18 阿里巴巴(中国)有限公司 建立点击率预估模型的方法及装置、终端、存储介质
CN107613022B (zh) * 2017-10-20 2020-10-16 阿里巴巴(中国)有限公司 内容推送方法、装置及计算机设备
CN107766580A (zh) * 2017-11-20 2018-03-06 北京奇虎科技有限公司 消息的推送方法及装置
CN108446382B (zh) * 2018-03-20 2019-10-18 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108875022B (zh) * 2018-06-20 2021-03-02 北京奇艺世纪科技有限公司 一种视频推荐方法及装置
CN109543069B (zh) * 2018-10-31 2021-07-13 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质
CN109670077B (zh) * 2018-11-01 2021-07-13 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质
CN109299327A (zh) * 2018-11-16 2019-02-01 广州市百果园信息技术有限公司 视频推荐方法、装置、设备及存储介质
CN109544241B (zh) * 2018-11-27 2023-09-22 腾讯科技(深圳)有限公司 一种点击率预估模型的构建方法、点击率预估方法和装置
CN110287420B (zh) * 2019-06-28 2020-12-18 深圳前海微众银行股份有限公司 一种信息推荐系统的训练方法及装置
CN112241896A (zh) * 2019-07-18 2021-01-19 百度在线网络技术(北京)有限公司 信息推送方法、装置、设备及计算机可读介质
CN110598845B (zh) * 2019-08-13 2023-04-07 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112583975A (zh) * 2019-09-30 2021-03-30 中兴通讯股份有限公司 一种消息推送方法、装置、电子设备及存储介质
CN112270571B (zh) * 2020-11-03 2023-06-27 中国科学院计算技术研究所 一种用于冷启动广告点击率预估模型的元模型训练方法
CN112860999B (zh) * 2021-02-10 2023-04-18 脸萌有限公司 信息推荐方法、装置、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN103235893A (zh) * 2013-05-06 2013-08-07 重庆大学 一种用户-商品点击率自适应预测装置和预测方法
US8756172B1 (en) * 2011-08-15 2014-06-17 Google Inc. Defining a segment based on interaction proneness
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN104166668A (zh) * 2014-06-09 2014-11-26 南京邮电大学 基于folfm模型的新闻推荐系统及方法
CN105005588A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种训练数据的处理方法及装置
CN105022760A (zh) * 2014-04-30 2015-11-04 深圳市腾讯计算机系统有限公司 一种新闻推荐方法及装置
CN105095625A (zh) * 2014-05-14 2015-11-25 阿里巴巴集团控股有限公司 点击率预估模型建立方法、装置及信息提供方法、系统
CN105160548A (zh) * 2015-08-20 2015-12-16 北京奇虎科技有限公司 对广告点击率进行预测的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392343B2 (en) * 2010-07-21 2013-03-05 Yahoo! Inc. Estimating probabilities of events in sponsored search using adaptive models
US20140164172A1 (en) * 2011-04-19 2014-06-12 Nokia Corporation Method and apparatus for providing feature-based collaborative filtering
US8996530B2 (en) * 2012-04-27 2015-03-31 Yahoo! Inc. User modeling for personalized generalized content recommendations
IL221685A0 (en) * 2012-08-29 2012-12-31 Google Inc Predicting content performance with interest data
CN104536983A (zh) * 2014-12-08 2015-04-22 北京掌阔技术有限公司 一种预测广告点击率的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756172B1 (en) * 2011-08-15 2014-06-17 Google Inc. Defining a segment based on interaction proneness
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN103235893A (zh) * 2013-05-06 2013-08-07 重庆大学 一种用户-商品点击率自适应预测装置和预测方法
CN105022760A (zh) * 2014-04-30 2015-11-04 深圳市腾讯计算机系统有限公司 一种新闻推荐方法及装置
CN105095625A (zh) * 2014-05-14 2015-11-25 阿里巴巴集团控股有限公司 点击率预估模型建立方法、装置及信息提供方法、系统
CN104166668A (zh) * 2014-06-09 2014-11-26 南京邮电大学 基于folfm模型的新闻推荐系统及方法
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN105005588A (zh) * 2015-06-26 2015-10-28 深圳市腾讯计算机系统有限公司 一种训练数据的处理方法及装置
CN105160548A (zh) * 2015-08-20 2015-12-16 北京奇虎科技有限公司 对广告点击率进行预测的方法及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
基于内容广告平台的点击率预估系统的设计与实现;祁全昌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150315(第03期);I138-1314页 *
基于可扩展分解机器的搜索广告点击率预估;祝帅;《中国优秀硕士学位论文全文数据库信息科技辑》;20130715(第07期);I138-1565页 *
基于多类别特征的在线广告点击率预测研究——以腾讯搜搜为例;刘唐;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131115(第11期);I138-999页 *
机器学习和数据挖掘在个性化推荐系统中的应用;项亮;《中国计算机协会通讯》;20150819;第9卷(第3期);8-13页 *
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression);zouxy09;《https://blog.csdn.net/zouxy09/article/details/20319673》;20140302;1-4页 *
正则化(Regularization);snen;《https://www.cnblogs.com/richqian/p/4514528.html》;20150519;全文 *
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent)的公式对比、实现对比;玉心sober;《https://blog.csdn.net/lilyth_lilyth/article/details/8973972》;20130525;全文 *
项亮.机器学习和数据挖掘在个性化推荐系统中的应用.《中国计算机协会通讯》.2015,第9卷(第3期),8-13页. *

Also Published As

Publication number Publication date
CN105701191A (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
CN105701191B (zh) 一种推送信息点击率估计方法和装置
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
CN108648049B (zh) 一种基于用户行为区别建模的序列推荐方法
CN107506480B (zh) 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN107357793B (zh) 信息推荐方法和装置
CN108875776B (zh) 模型训练方法和装置、业务推荐的方法和装置、电子设备
CN109543109B (zh) 一种融合时间窗技术和评分预测模型的推荐算法
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN105550211A (zh) 一种融合社交网络和项目内容的协同推荐系统
CN102902691A (zh) 推荐方法及系统
Kumar et al. Predicting clicks: CTR estimation of advertisements using logistic regression classifier
CN110633421B (zh) 特征提取、推荐以及预测方法、装置、介质和设备
CN110688565B (zh) 基于多维霍克斯过程和注意力机制的下一个物品推荐方法
CN112396492A (zh) 基于图注意力网络和双向长短期记忆网络的会话推荐方法
CN111339435B (zh) 一种基于潜在因子的矩阵分解补全混合推荐方法
CN110019563B (zh) 一种基于多维数据的肖像建模方法和装置
CN107665222B (zh) 关键词的拓展方法和装置
CN114581165A (zh) 一种产品推荐方法、装置、计算机存储介质及系统
CN116843388A (zh) 一种广告投放分析方法及系统
CN112541010A (zh) 一种基于逻辑回归的用户性别预测方法
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、系统及终端
Mazarura Topic modelling for short text
Simchowitz Zero-inflated Poisson factorization for recommendation systems
CN114707063A (zh) 一种商品推荐方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant