CN105205098B - 一种点击到达率ctr的确定方法及装置 - Google Patents
一种点击到达率ctr的确定方法及装置 Download PDFInfo
- Publication number
- CN105205098B CN105205098B CN201510507737.7A CN201510507737A CN105205098B CN 105205098 B CN105205098 B CN 105205098B CN 201510507737 A CN201510507737 A CN 201510507737A CN 105205098 B CN105205098 B CN 105205098B
- Authority
- CN
- China
- Prior art keywords
- sample data
- ctr
- characteristic value
- value sequence
- expression formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
Abstract
本发明实施例公开了一种点击到达率CTR的确定方法及装置,该方法包括在检测到针对应用的显示请求时,确定每个应用的特征值序列,其中,该特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成,分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的CTR计算算法的输出,将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。实施本发明实施例能够快速的确定出应用的CTR且资源消耗小。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种点击到达率CTR的确定方法及装置。
背景技术
在互联网技术领域,互联网产品的推广方可以利用应用墙等推广资源为应用的开发方推广应用,即互联网产品的推广方会根据用户的当前操作场景以及确定出的应用的点击到达率(CTR,Click Through Rate)为用户推荐CTR较高的一个或多个优质应用。可见,快速确定出应用的CTR在应用的推广方面显得尤为重要。
当前,常见的CTR确定方法为基于统计的确定方法,即假设应用在相同操作场景下的CTR相同,从根据历史样本数据统计出应用在不同操作场景下的CTR中查找与当前操作场景相同或相似的操作场景下的CTR,以作为应用在当前操作场景下的CTR。但是,由于操作场景由多个特征维度构成,该基于统计的确定方法依赖于大量的历史样本数据,且在查找与当前操作场景相同或相似的操作场景时需要考虑到多个特征维度,无法快速的确定出应用的CTR且资源消耗大。
发明内容
本发明实施例公开了一种点击到达率CTR的确定方法及装置,能够快速的确定出应用的CTR且资源消耗小。
本发明实施例第一方面公开了一种点击到达率CTR的确定方法,所述方法包括:
在检测到针对应用的显示请求时,确定每个应用的特征值序列,所述特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成;
分别将每个所述特征值序列作为预先设置的CTR计算算法的输入,获取与每个所述特征值序列对应的所述CTR计算算法的输出;
将每个所述特征值序列对应的所述CTR计算算法的输出确定为该特征值序列对应应用的CTR。
在本发明实施例第一方面的第一种可能的实现方式中,所述CTR计算算法为基于逻辑回归模型的算法,且所述基于逻辑回归模型的算法的计算公式为:
其中,所述yCTR为所述计算公式的输出,所述为所述计算公式的输入,所述为预先计算出的所述计算公式的系数。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第二种可能的实现方式中,所述在检测到针对应用的显示请求时,确定每个应用的特征值序列之前,所述方法还包括:
从预先存储的样本数据中读取第一数量的第一样本数据,所述样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识以及用于标识该样本数据是否被点击的点击标识组成;
归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据,所述第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的第一样本数据的展现标识之和以及形成该第二样本数据的第一样本数据的点击标识之和组成;
将每个所述第二样本数据表达成似然表达式,并将所有所述似然表达式相乘以获取乘积似然表达式;
通过牛顿迭代法以及初始迭代参数进行目标次数次的迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值,并将所述未知参数的值确定为所述
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第三种可能的实现方式中,所述在检测到针对应用的显示请求时,确定每个应用的特征值序列之前,所述方法还包括:
从预先存储的样本数据中读取第一数量的第一样本数据,所述第一样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识以及用于标识该样本数据是否被点击的点击标识组成;
归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据,所述第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的第一样本数据的展现标识之和以及形成该第二样本数据的第一样本数据的点击标识之和组成;
将所述第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组;
分别将每个所述样本组包括的每个第二样本数据表达成似然表达式,并将每个所述样本组对应的所有所述似然表达式相乘以获取该样本组的乘积似然表达式;
通过牛顿迭代法以及初始迭代参数进行一次迭代,分别计算出每个所述乘积似然表达式取最大值时该乘积似然表达式中未知参数的第一值,将每个所述第一值的和作为下一次迭代的初始迭代参数,执行所述通过牛顿迭代法以及初始迭代参数进行一次迭代的操作,直至迭代次数到达目标次数;
将在所述目标次数迭代后计算出的每个所述乘积似然表达式中所述未知参数的第二值的和确定为所述
结合本发明实施例第一方面的第三种可能的实现方式,在本发明实施例第一方面的第四种可能的实现方式中,所述归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据之后,所述将所述第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组之前,所述方法还包括:
将所述第二数量的第二样本数据存储在地址连续的内存空间中。
本发明实施例第二方面公开了一种点击到达率CTR的确定装置,所述装置包括第一确定单元、第一获取单元以及第二确定单元,其中:
所述第一确定单元,用于在检测到针对应用的显示请求时,确定每个应用的特征值序列,所述特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成;
所述第一获取单元,用于分别将每个所述特征值序列作为预先设置的CTR计算算法的输入,获取与每个所述特征值序列对应的所述CTR计算算法的输出;
所述第二确定单元,用于将每个所述特征值序列对应的所述CTR计算算法的输出确定为该特征值序列对应应用的CTR。
在本发明实施例第二方面的第一种可能的实现方式中,所述CTR计算算法为基于逻辑回归模型的算法,且所述基于逻辑回归模型的算法的计算公式为:
其中,所述yCTR为所述计算公式的输出,所述为所述计算公式的输入,所述为预先计算出的所述计算公式的系数。
结合本发明实施例第二方面的第一种可能的实现方式,在本发明实施例第二方面的第二种可能的实现方式中,所述装置还包括第一读取单元、第一归并单元、第二获取单元、第一计算单元以及第三确定单元,其中:
所述第一读取单元,用于从预先存储的样本数据中读取第一数量的第一样本数据,所述样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识以及用于标识该样本数据是否被点击的点击标识组成;
所述第一归并单元,用于归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据,所述第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的第一样本数据的展现标识之和以及形成该第二样本数据的第一样本数据的点击标识之和组成;
所述第二获取单元,用于将每个所述第二样本数据表达成似然表达式,并将所有所述似然表达式相乘以获取乘积似然表达式;
所述第一计算单元,用于通过牛顿迭代法以及初始迭代参数进行目标次数次的迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值;
所述第三确定单元,用于将所述未知参数的值确定为所述
结合本发明实施例第二方面的第一种可能的实现方式,在本发明实施例第二方面的第三种可能的实现方式中,所述装置还包括第二读取单元、第二归并单元、均分单元、第三获取单元、第二计算单元以及第四确定单元,其中:
所述第二读取单元,用于从预先存储的样本数据中读取第一数量的第一样本数据,所述第一样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识以及用于标识该样本数据是否被点击的点击标识组成;
所述第二归并单元,用于归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据,所述第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的第一样本数据的展现标识之和以及形成该第二样本数据的第一样本数据的点击标识之和组成;
所述均分单元,用于将所述第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组;
所述第三获取单元,用于分别将每个所述样本组包括的每个第二样本数据表达成似然表达式,并将每个所述样本组对应的所有所述似然表达式相乘以获取该样本组的乘积似然表达式;
所述第二计算单元,用于通过牛顿迭代法以及初始迭代参数进行一次迭代,分别计算出每个所述乘积似然表达式取最大值时该乘积似然表达式中未知参数的第一值,将每个所述第一值的和作为下一次迭代的初始迭代参数,执行所述通过牛顿迭代法以及初始迭代参数进行一次迭代的操作,直至迭代次数到达目标次数;
所述第四确定单元,用于将在所述目标次数迭代后计算出的每个所述乘积似然表达式中所述未知参数的第二值的和确定为所述
结合本发明实施例第二方面的第三种可能的实现方式,在本发明实施例第二方面的第四种可能的实现方式中,所述装置还包括存储单元,其中:
所述存储单元,用于将所述第二数量的第二样本数据存储在地址连续的内存空间中。
本发明实施例中,在检测到针对应用的显示请求时,确定每个应用的特征值序列,其中,该特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成,分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的所述CTR计算算法的输出,将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。实施本发明实施例能够根据确定出的每个应用的特征值序列以及预先设置的CTR计算算法快速的计算出每个应用的CTR,且无需从根据历史样本数据统计出应用在不同操作场景下的CTR中查找与当前操作场景相同或相似的操作场景下的CTR,资源消耗低。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种点击到达率CTR的确定方法的流程示意图;
图2是本发明实施例公开的另一种点击到达率CTR的确定方法的流程示意图;
图3是本发明实施例公开的又一种点击到达率CTR的确定方法的流程示意图;
图4是本发明实施例公开的一种点击到达率CTR的确定装置的结构示意图;
图5是本发明实施例公开的另一种点击到达率CTR的确定装置的结构示意图;
图6是本发明实施例公开的又一种点击到达率CTR的确定装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种点击到达率CTR的确定方法及装置,能够根据确定出的每个应用的特征值序列以及预先设置的CTR计算算法快速的计算出每个应用的CTR,且资源消耗低。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种点击到达率CTR的确定方法的流程示意图。其中,图1所示的方法可以应用于服务器中。如图1所示,该点击到达率CTR的确定方法可以包括以下步骤:
S101、在检测到针对应用的显示请求时,确定每个应用的特征值序列。
本发明实施例中,针对应用的显示请求可以是由用户通过终端设备触发的,也可以是由终端设备主动触发的,且每个应用的特征值序列由用于描述应用信息(如应用的类别以及应用的相关描述信息等)的应用特征值序列、用于描述用户信息(如用户的性别及用户的兴趣等)的用户特征值序列以及用于描述用户行为信息(如时间、地点以及语言等)的流量特征值序列组成,且该特征值序列为由多个0和1作为分量的特征值向量。举例来说,假设应用信息为应用的类别(拍摄应用以及游戏应用)、用户信息为用户的性别(男性以及女性)以及行为信息为地点(上海及北京),则对于一个应用来说,其特征值序列A=[a1,a2,a3,a4,a5,a6],其中,a1及a2用于描述应用的类别,a1=1且a2=0表示应用为拍摄应用,a1=0且a2=1表示应用为游戏应用,a3及a4用于用于描述用户的性别,a3=1且a4=0表示用户性别为男性,a3=0且a4=1表示用户性别为女性,a5及a6用于描述用户的行为地点,a5=1且a6=0表示用户所处的地点为上海,a5=0且a6=1表示用户所处的地点在北京。
S102、分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的CTR计算算法的输出。
本发明实施例中,预先设置的CTR计算算法用于表示应用的特征值序列(输入)与该应用的CTR(输出)之间的关系,即将每个应用的特征值序列分别作为该CTR计算算法的输入,对应的CTR计算算法的输出即为应用的CTR。这样只要预先设置好CTR计算算法,就可以快速的确定出应用的CTR,无需再依赖于大量的历史样本数据,资源消耗低。
可选的,该CTR计算算法为基于逻辑回归模型的算法,且该基于逻辑回归模型的算法的计算公式为:
其中,yCTR为该计算公式的输出(应用的CTR),为该计算公式的输入(应用的特征值序列),为预先计算出的该计算公式的系数。本发明实施例中,只要根据一定的历史样本数据计算出该计算公式中的在后续的CTR确定过程中只要获取到应用的特征值序列均可快速的确定出应用的CTR。
S103、将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。
本发明实施例中,在检测到针对应用的显示请求时,确定每个应用的特征值序列,其中,该特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成,分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的CTR计算算法的输出,将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。实施本发明实施例能够根据确定出的每个应用的特征值序列以及预先设置的CTR计算算法快速的计算出每个应用的CTR,且无需从从根据历史样本数据统计出应用在不同操作场景下的CTR中查找与当前操作场景相同或相似的操作场景下的CTR,资源消耗低。
请参阅图2,图2是本发明实施例公开的另一种点击到达率CTR的确定方法的流程示意图。其中,图2所示的方法应用于服务器中。如图2所示,该点击到达率CTR的确定方法可以包括以下步骤:
S201、从预先存储的样本数据中读取第一数量的第一样本数据。
本发明实施例中,每个样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识pv以及用于标识该样本数据是否被点击的点击标识click组成,且特征值序列由用于描述应用信息(如应用的类别以及应用的相关描述信息等)的应用特征值序列、用于描述用户信息(如用户的性别及用户的兴趣等)的用户特征值序列以及用于描述用户行为信息(如时间、地点以及语言等)的流量特征值序列组成,其中,pv为1且click为0表示该样本数据为展现样本数据,pv为0且click为1表示该样本数据为点击样本数据。
S202、归并上述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据。
本发明实施例中,以特征值序列相同为归并原则,将特征值序列相同的多条第一样本数据归并成一条第二样本数据,即将上述第一数量的第一样本数据归并成第二数量的第二样本数据,且第二数量等于上述第一数量的第一样本数据中特征值序列的不同取值的个数。其中,第二数量的第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的所有第一样本数据的pv之和以及形成该第二样本数据的所有第一样本数据的click之和组成。
S203、将每个第二样本数据表达成似然表达式,并将所有似然表达式相乘以获取乘积似然表达式。
本发明实施例中,每个第二样本数据均可表示为似然表达式,其中,似然表达式为:
其中,且n取大于等于1且小于等于第二数量的所有整数,为第n个第二样本数据的特征值序列,pvn为形成第n个第二样本数据的所有第一样本数据的pv之和,clickn为形成第n个第二样本数据的所有第一样本数据的click之和,则乘积似然表达式为:
S204、通过牛顿迭代法以及初始迭代参数进行目标次数次的迭代,计算出上述乘积似然表达式取最大值时上述乘积似然表达式中未知参数的值,并将该未知参数的值确定为
本发明实施例中,初始迭代参数为预先设置的迭代参数,即通过牛顿迭代法进行一次迭代后计算出上述乘积似然表达式取最大值时上述乘积似然表达式中未知参数的值为将作为下一次迭代时的初始迭代参数得到以此类推,直到迭代次数达到目标次数m之后得到得未知参数的值将确定为其中,目标次数m可以是预先设置好的次数,也可以是根据与的夹角为最小值或根据的模为最小值计算出来的,本发明实施例不作限定。
本发明实施例,具体的,要计算上述乘积似然表达式的最大值,可以先对上述乘积似然表达式取对数,然后再乘以-1得到然后通过牛顿迭代法迭代目标次数m次计算出取最小值时未知参数的值
S205、在检测到针对应用的显示请求时,确定每个应用的特征值序列。
本发明实施例中,针对应用的显示请求可以是由用户通过终端设备触发的,也可以是由终端设备主动触发的,且每个应用的特征值序列由用于描述应用信息(如应用的类别以及应用的相关描述信息等)的应用特征值序列、用于描述用户信息(如用户的性别及用户的兴趣等)的用户特征值序列以及用于描述用户行为信息(如时间、地点以及语言等)的流量特征值序列组成,且该特征值序列为由多个0和1作为分量的特征值向量。
S206、分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的CTR计算算法的输出。
本发明实施例中,该CTR计算算法用于表示应用的特征值序列(输入)与该应用的CTR(输出)之间的关系,即将每个应用的特征值序列分别作为该CTR计算算法的输入,对应的CTR计算算法的输出即为应用的CTR。且该CTR计算算法为基于逻辑回归模型的算法,且该基于逻辑回归模型的算法的计算公式为:
其中,yCTR为该计算公式的输出(应用的CTR),为该计算公式的输入(应用的特征值序列),为上述
S207、将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。
本发明实施例中,在确定出每个应用的CTR之后,可以将CTR排名靠前的应用推荐给用户。
可选的,在执行步骤S202之后以及在执行步骤S203之前,还可以执行以下操作:
将上述第二数量的第二样本数据存储在地址连续的内存空间中。
本发明实施例中,将上述第二数量的第二样本数据存储在地址连续的内存空间中且可以用头尾指针数组标识每一个第二样本数据的开始内存和结束内存,这样能够加速第二样本数据的读取。
可见,实施本发明实施例能够通过一次学习过程获取用于表示应用的特征值序列与该应用的CTR之间关系的计算公式,在后续确定CTR时可以根据确定出的特征值序列以及计算公式快速的计算出应用的CTR,进而能够快速的在推广资源中显示合适的应用,提高了用户的使用体验,且在获取计算公式时对样本数据进行了归并,资源消耗低。
请参阅图3,图3是本发明实施例公开的又一种点击到达率CTR的确定方法的流程示意图。其中,图3所示的方法可以应用于服务器中。如图3所示,该点击到达率CTR的确定方式可以为:
S301、从预先存储的样本数据中读取第一数量的第一样本数据。
本发明实施例中,每个样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识pv以及用于标识该样本数据是否被点击的点击标识click组成,且特征值序列由用于描述应用信息(如应用的类别以及应用的相关描述信息等)的应用特征值序列、用于描述用户信息(如用户的性别及用户的兴趣等)的用户特征值序列以及用于描述用户行为信息(如时间、地点以及语言等)的流量特征值序列组成,其中,pv为1且click为0表示该样本数据为展现样本数据,pv为0且click为1表示该样本数据为点击样本数据。
S302、归并上述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据。
本发明实施例中,以特征值序列相同为归并原则,将特征值序列相同的多条第一样本数据归并成一条第二样本数据,即将上述第一数量的第一样本数据归并成第二数量的第二样本数据,且第二数量等于上述第一数量的第一样本数据中特征值序列的不同取值的个数。其中,第二数量的第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的所有第一样本数据的pv之和以及形成该第二样本数据的所有第一样本数据的click之和组成。
S303、将第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组。
本发明实施例中,第三数量可以小于等于服务器中的CPU核数,这样将第二数量的第二样本数据均分的方式能够同时对每份第三数量的第二样本数据进行相同的处理,加快了处理速度。
S304、分别将每个样本组包括的每个第二样本数据表达成似然表达式,并将每个样本组对应的所有似然表达式相乘以获取该样本组的乘积似然表达式。
S305、通过牛顿迭代法以及初始迭代参数进行一次迭代。
S306、分别计算出每个乘积似然表达式取最大值时该乘积似然表达式中未知参数的第一值,并计算所有第一值的和。
本发明实施例中,对每个乘积似然表达式进行迭代之后得到第二数量个未知参数的值,然后将第二数量个未知参数的值求和,作为下一次迭代时的初始迭代参数。
S307、判断迭代次数是否到达目标次数。
本发明实施例中,当步骤S307的判断结果为是时,执行步骤S309;当步骤S307的判断结果为否时,执行步骤S308。
本发明实施例中,目标次数m可以是预先设置的次数,也可以是根据第m-1次迭代后得到的第二数量个未知参数的值的和与第m次迭代后得到的第二数量个未知参数的值的和的夹角最小或根据的模为最小值计算出来的,本发明实施例不作限定。
S308、将上述所有第一值的和作为下一次迭代的初始迭代参数。
本发明实施例中,执行完毕步骤S308之后执行步骤S305。
S309、将在目标次数迭代后计算出的每个乘积似然表达式中未知参数的第二值的和确定为
S310、在检测到针对应用的显示请求时,确定每个应用的特征值序列。
S311、分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的CTR计算算法的输出。
S312、将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。
可选的,在执行步骤S302之后以及在执行步骤S303之前,还可以执行以下操作:
将上述第二数量的第二样本数据存储在地址连续的内存空间中。
本发明实施例中,将上述第二数量的第二样本数据存储在地址连续的内存空间中且可以用头尾指针数组标识每一个第二样本数据的开始内存和结束内存,这样能够加速第二样本数据的读取。
实施本发明实施例能够快速的确定出应用的CTR且资源消耗小。
请参阅图4,图4是本发明实施例公开的一种点击到达率CTR的确定装置的结构示意图。如图4所示,该装置可以安装在服务器中。如图4所示,该装置可以包括第一确定单元401、第一获取单元402以及第二确定单元403,其中:
第一确定单元401用于在检测到针对应用的显示请求时,确定每个应用的特征值序列。
本发明实施例中,针对应用的显示请求可以是由用户通过终端设备触发的,也可以是由终端设备主动触发的,且每个应用的特征值序列由用于描述应用信息(如应用的类别以及应用的相关描述信息等)的应用特征值序列、用于描述用户信息(如用户的性别及用户的兴趣等)的用户特征值序列以及用于描述用户行为信息(如时间、地点以及语言等)的流量特征值序列组成,且该特征值序列为由多个0和1作为分量的特征值向量。
第一获取单元402用于分别将每个特征值序列作为预先设置的CTR计算算法的输入,获取与每个特征值序列对应的CTR计算算法的输出。
本发明实施例中,预先设置的CTR计算算法用于表示应用的特征值序列(输入)与该应用的CTR(输出)之间的关系,即将每个应用的特征值序列分别作为该CTR计算算法的输入,对应的CTR计算算法的输出即为应用的CTR。这样只要预先设置好CTR计算算法,就可以快速的确定出应用的CTR,无需再依赖于大量的历史样本数据,资源消耗低。
第二确定单元403用于将每个特征值序列对应的CTR计算算法的输出确定为该特征值序列对应应用的CTR。
作为一种可选的实施方式,该CTR计算算法为基于逻辑回归模型的算法,且该基于逻辑回归模型的算法的计算公式为:
其中,yCTR为该计算公式的输出(应用的CTR),为该计算公式的输入(应用的特征值序列),为预先计算出的该计算公式的系数。本发明实施例中,只要根据一定的历史样本数据计算出该计算公式中的在后续的CTR确定过程中只要获取到应用的特征值序列均可快速的确定出应用的CTR。
在上述可选的实施方式中,可选的,在图4所示的装置结构基础上,该装置还可以包括第一读取单元404、第一归并单元405、第二获取单元406、第一计算单元407以及第三确定单元408,此时,该装置的结构可以如图5所示,图5是本发明实施例公开的另一种点击到达率CTR的确定装置的结构示意图。其中:
第一读取单元404用于从预先存储的样本数据中读取第一数量的第一样本数据。
本发明实施例中,每个样本数据由特征值序列、用于标识该样本是否被展现的展现标识pv以及用于标识该样本数据是否被点击的点击标识click组成,且特征值序列由用于描述应用信息(如应用的类别以及应用的相关描述信息等)的应用特征值序列、用于描述用户信息(如用户的性别及用户的兴趣等)的用户特征值序列以及用于描述用户行为信息(如时间、地点以及语言等)的流量特征值序列组成,其中,pv为1且click为0表示该样本数据为展现样本数据,pv为0且click为1表示该样本数据为点击样本数据。
第一归并单元405用于归并上述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据。
本发明实施例中,以特征值序列相同为归并原则,将特征值序列相同的多条第一样本数据归并成一条第二样本数据,即将上述第一数量的第一样本数据归并成第二数量的第二样本数据,且第二数量等于上述第一数量的第一样本数据中特征值序列的不同取值的个数。其中,第二数量的第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的所有第一样本数据的pv之和以及形成该第二样本数据的所有第一样本数据的click之和组成。
第二获取单元406用于将每个第二样本数据表达成似然表达式,并将所有似然表达式相乘以获取乘积似然表达式。
第一计算单元407用于通过牛顿迭代法以及初始迭代参数进行目标次数次的迭代,计算出上述乘积似然表达式取最大值时上述乘积似然表达式中未知参数的值。
第三确定单元408用于将上述未知参数的值确定为上述
在上述可选的实施方式中,可选的,在图4所示的装置结构基础上,该装置还可以包括第二读取单元409、第二归并单元410、存储单元411、均分单元412、第三获取单元413、第二计算单元414以及第四确定单元415,此时,该装置的结构可以如图6所示,图6是本发明实施例公开的又一种点击到达率CTR的确定装置的结构示意图。其中:
第二读取单元409用于从预先存储的样本数据中读取第一数量的第一样本数据。
第二归并单元410用于归并上述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据。
本发明实施例中,以特征值序列相同为归并原则,将特征值序列相同的多条第一样本数据归并成一条第二样本数据,即将上述第一数量的第一样本数据归并成第二数量的第二样本数据,且第二数量等于上述第一数量的第一样本数据中特征值序列的不同取值的个数。其中,第二数量的第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的所有第一样本数据的pv之和以及形成该第二样本数据的所有第一样本数据的click之和组成。
存储单元411用于将上述第二数量的第二样本数据存储在地址连续的内存空间中。
均分单元412用于将第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组。
本发明实施例中,第三数量可以小于等于服务器中的CPU核数,这样将第二数量的第二样本数据均分的方式能够同时对每份第三数量的第二样本数据进行相同的处理,加快了处理速度。
第三获取单元413用于分别将每个样本组包括的每个第二样本数据表达成似然表达式,并将每个样本组对应的所有似然表达式相乘以获取该样本组的乘积似然表达式。
第二计算单元414用于通过牛顿迭代法以及初始迭代参数进行一次迭代,分别计算出每个乘积似然表达式取最大值时该乘积似然表达式中未知参数的第一值,将每个第一值的和作为下一次迭代的初始迭代参数,并执行通过牛顿迭代法以及初始迭代参数进行一次迭代的操作,直至迭代次数到达目标次数。
第四确定单元415用于将在目标次数迭代后计算出的每个乘积似然表达式中未知参数的第二值的和确定为上述
实施本发明实施例能够快速的确定出应用的CTR且资源消耗小。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作以及单元并不一定是本发明所必须的。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。
本发明实施例中所述单元可以通过通用集成电路,例如CPU(Central ProcessingUnit,中央处理器),或通过ASIC(Application Specific Integrated Circuit,专用集成电路)来实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上对本发明实施例所提供的一种点击到达率CTR的确定方法及装置进行了详细介绍,本文中应用了具体实例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种点击到达率CTR的确定方法,其特征在于,所述方法包括:
从预先存储的样本数据中读取第一数量的第一样本数据,所述样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识以及用于标识该样本数据是否被点击的点击标识组成;
归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据,所述第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的第一样本数据的展现标识之和以及形成该第二样本数据的第一样本数据的点击标识之和组成;
将所述第二样本数据表达成似然表达式,并确定所述第二样本数据对应的乘积似然表达式;
通过牛顿迭代法以及初始迭代参数进行迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值,并根据所述未知参数的值确定
在检测到针对应用的显示请求时,确定每个应用的特征值序列,所述特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成;
分别将每个所述特征值序列作为预先设置的CTR计算算法的输入,获取与每个所述特征值序列对应的所述CTR计算算法的输出;
将每个所述特征值序列对应的所述CTR计算算法的输出,确定为该特征值序列对应应用的CTR。
2.根据权利要求1所述的方法,其特征在于,所述CTR计算算法为基于逻辑回归模型的算法,且所述基于逻辑回归模型的算法的计算公式为:
其中,所述yCTR为所述计算公式的输出,所述为所述计算公式的输入,所述为预先计算出的所述计算公式的系数。
3.根据权利要求2所述的方法,其特征在于,所述将所述第二样本数据表达成似然表达式,并确定所述第二样本数据对应的乘积似然表达式包括:
将每个所述第二样本数据表达成似然表达式,并将所有所述似然表达式相乘以获取乘积似然表达式;
所述通过牛顿迭代法以及初始迭代参数进行迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值,并根据所述未知参数的值确定包括:
通过牛顿迭代法以及初始迭代参数进行目标次数次的迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值,并将所述未知参数的值确定为所述
4.根据权利要求2所述的方法,其特征在于,所述将所述第二样本数据表达成似然表达式,并确定所述第二样本数据对应的乘积似然表达式包括:
将所述第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组;
分别将每个所述样本组包括的每个第二样本数据表达成似然表达式,并将每个所述样本组对应的所有所述似然表达式相乘以获取该样本组的乘积似然表达式;
所述通过牛顿迭代法以及初始迭代参数进行迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值,并根据所述未知参数的值确定包括:
通过牛顿迭代法以及初始迭代参数进行一次迭代,分别计算出每个所述乘积似然表达式取最大值时该乘积似然表达式中未知参数的第一值,将每个所述第一值的和作为下一次迭代的初始迭代参数,执行所述通过牛顿迭代法以及初始迭代参数进行一次迭代的操作,直至迭代次数到达目标次数;
将在所述目标次数迭代后计算出的每个所述乘积似然表达式中所述未知参数的第二值的和确定为所述
5.根据权利要求4所述的方法,其特征在于,所述归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据之后,所述将所述第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组之前,所述方法还包括:
将所述第二数量的第二样本数据存储在地址连续的内存空间中。
6.一种点击到达率CTR的确定装置,其特征在于,所述装置包括第一确定单元、第一获取单元、第二确定单元、第一读取单元、第一归并单元、第二获取单元、计算单元以及系数确定单元,其中:
所述第一读取单元,用于从预先存储的样本数据中读取第一数量的第一样本数据,所述样本数据由特征值序列、用于标识该样本数据是否被展现的展现标识以及用于标识该样本数据是否被点击的点击标识组成;
所述第一归并单元,用于归并所述第一数量的第一样本数据中特征值序列相同的第一样本数据,以获取第二数量的第二样本数据,所述第二样本数据由形成该第二样本数据的第一样本数据的特征值序列、形成该第二样本数据的第一样本数据的展现标识之和以及形成该第二样本数据的第一样本数据的点击标识之和组成;
所述第二获取单元,用于将所述第二样本数据表达成似然表达式,并确定所述第二样本数据对应的乘积似然表达式;
所述计算单元,用于通过牛顿迭代法以及初始迭代参数进行迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值;
所述系数确定单元,用于根据所述未知参数的值确定
所述第一确定单元,用于在检测到针对应用的显示请求时,确定每个应用的特征值序列,所述特征值序列由用于描述应用信息的应用特征值序列、用于描述用户信息的用户特征值序列以及流量特征值序列组成;
所述第一获取单元,用于分别将每个所述特征值序列作为预先设置的CTR计算算法的输入,获取与每个所述特征值序列对应的所述CTR计算算法的输出;
所述第二确定单元,用于将每个所述特征值序列对应的所述CTR计算算法的输出确定为该特征值序列对应应用的CTR。
7.根据权利要求6所述的装置,其特征在于,所述CTR计算算法为基于逻辑回归模型的算法,且所述基于逻辑回归模型的算法的计算公式为:
其中,所述yCTR为所述计算公式的输出,所述为所述计算公式的输入,所述为预先计算出的所述计算公式的系数。
8.根据权利要求7所述的装置,其特征在于,所述第二获取单元具体用于:
将每个所述第二样本数据表达成似然表达式,并将所有所述似然表达式相乘以获取乘积似然表达式;
所述计算单元为第一计算单元,所述第一计算单元用于通过牛顿迭代法以及初始迭代参数进行目标次数次的迭代,计算出所述乘积似然表达式取最大值时所述乘积似然表达式中未知参数的值;
所述系数确定单元为第三确定单元,所述第三确定单元用于将所述未知参数的值确定为所述
9.根据权利要求7所述的装置,其特征在于,所述第二获取单元包括均分单元和第三获取单元,其中:
所述均分单元,用于将所述第二数量的第二样本数据均分成每份包括第三数量的第二样本数据的样本组;
所述第三获取单元,用于分别将每个所述样本组包括的每个第二样本数据表达成似然表达式,并将每个所述样本组对应的所有所述似然表达式相乘以获取该样本组的乘积似然表达式;
所述计算单元为第二计算单元,所述第二计算单元用于通过牛顿迭代法以及初始迭代参数进行一次迭代,分别计算出每个所述乘积似然表达式取最大值时该乘积似然表达式中未知参数的第一值,将每个所述第一值的和作为下一次迭代的初始迭代参数,执行所述通过牛顿迭代法以及初始迭代参数进行一次迭代的操作,直至迭代次数到达目标次数;
所述系数确定单元为第四确定单元,所述第四确定单元用于将在所述目标次数迭代后计算出的每个所述乘积似然表达式中所述未知参数的第二值的和确定为所述
10.根据权利要求9所述的装置,其特征在于,所述装置还包括存储单元,其中:
所述存储单元,用于将所述第二数量的第二样本数据存储在地址连续的内存空间中。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510507737.7A CN105205098B (zh) | 2015-08-18 | 2015-08-18 | 一种点击到达率ctr的确定方法及装置 |
PCT/CN2016/094448 WO2017028728A1 (zh) | 2015-08-18 | 2016-08-10 | 点击到达率ctr的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510507737.7A CN105205098B (zh) | 2015-08-18 | 2015-08-18 | 一种点击到达率ctr的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105205098A CN105205098A (zh) | 2015-12-30 |
CN105205098B true CN105205098B (zh) | 2018-11-20 |
Family
ID=54952782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510507737.7A Active CN105205098B (zh) | 2015-08-18 | 2015-08-18 | 一种点击到达率ctr的确定方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105205098B (zh) |
WO (1) | WO2017028728A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205098B (zh) * | 2015-08-18 | 2018-11-20 | 北京金山安全软件有限公司 | 一种点击到达率ctr的确定方法及装置 |
CN114662008B (zh) * | 2022-05-26 | 2022-10-21 | 上海二三四五网络科技有限公司 | 基于点击位置因素改进的ctr热门内容计算方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390032A (zh) * | 2013-07-04 | 2013-11-13 | 上海交通大学 | 基于关系型协同话题回归的推荐系统及方法 |
CN103745225A (zh) * | 2013-12-27 | 2014-04-23 | 北京集奥聚合网络技术有限公司 | 分布式ctr预测模型训练的方法和系统 |
CN103996088A (zh) * | 2014-06-10 | 2014-08-20 | 苏州工业职业技术学院 | 基于多维特征组合逻辑回归的广告点击率预测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119278A1 (en) * | 2009-08-28 | 2011-05-19 | Resonate Networks, Inc. | Method and apparatus for delivering targeted content to website visitors to promote products and brands |
US8392343B2 (en) * | 2010-07-21 | 2013-03-05 | Yahoo! Inc. | Estimating probabilities of events in sponsored search using adaptive models |
CN102346899A (zh) * | 2011-10-08 | 2012-02-08 | 亿赞普(北京)科技有限公司 | 一种基于用户行为的广告点击率预测方法和装置 |
CN103514178A (zh) * | 2012-06-18 | 2014-01-15 | 阿里巴巴集团控股有限公司 | 一种基于点击率的搜索排序方法及装置 |
CN103914468B (zh) * | 2012-12-31 | 2018-01-09 | 阿里巴巴集团控股有限公司 | 一种投放信息搜索的方法和装置 |
CN105205098B (zh) * | 2015-08-18 | 2018-11-20 | 北京金山安全软件有限公司 | 一种点击到达率ctr的确定方法及装置 |
-
2015
- 2015-08-18 CN CN201510507737.7A patent/CN105205098B/zh active Active
-
2016
- 2016-08-10 WO PCT/CN2016/094448 patent/WO2017028728A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390032A (zh) * | 2013-07-04 | 2013-11-13 | 上海交通大学 | 基于关系型协同话题回归的推荐系统及方法 |
CN103745225A (zh) * | 2013-12-27 | 2014-04-23 | 北京集奥聚合网络技术有限公司 | 分布式ctr预测模型训练的方法和系统 |
CN103996088A (zh) * | 2014-06-10 | 2014-08-20 | 苏州工业职业技术学院 | 基于多维特征组合逻辑回归的广告点击率预测方法 |
Non-Patent Citations (2)
Title |
---|
"一种基于逻辑回归模型的搜索广告点击率预估方法的研究";王兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;论文正文第2章、第5章 * |
"基于机器学习的移动应用推荐系统的研究与实现";符永顺;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150115;论文第3章、第4章、第6章 * |
Also Published As
Publication number | Publication date |
---|---|
CN105205098A (zh) | 2015-12-30 |
WO2017028728A1 (zh) | 2017-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102214169B (zh) | 关键词信息与目标信息的提供方法及装置 | |
KR20160033665A (ko) | 추천 결과를 디스플레이하기 위한 방법 및 장치 | |
RU2015143316A (ru) | Способ и система определения оптимального значения параметра аукциона для цифрового объекта | |
CN108491714A (zh) | 验证码的人机识别方法 | |
CN114785696B (zh) | 复杂网络节点的重要度评估方法及装置 | |
CN103593444B (zh) | 网络关键词识别处理方法和装置 | |
CN108446297A (zh) | 一种推荐方法及装置,电子设备 | |
CN112149003B (zh) | 商品社群推荐方法、装置和计算机设备 | |
CN106202224B (zh) | 搜索处理方法及装置 | |
CN103365842B (zh) | 一种页面浏览推荐方法及装置 | |
CN107818474A (zh) | 一种用于动态调整产品价格的方法和装置 | |
CN111461164A (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN105205098B (zh) | 一种点击到达率ctr的确定方法及装置 | |
CN103617146B (zh) | 一种基于硬件资源消耗的机器学习方法及装置 | |
CN107918688A (zh) | 场景模型动态估计方法、数据分析方法及装置、电子设备 | |
CN114092963A (zh) | 关键点检测及模型训练方法、装置、设备和存储介质 | |
CN108399551A (zh) | 一种确定用户标签和推送信息的方法及系统 | |
CN107222410B (zh) | 链接预测的方法、装置、终端及计算机可读存储介质 | |
KR20170032366A (ko) | 지도 중의 후보 주소 정보를 획득하기 위한 방법 및 장치 | |
CN109885745A (zh) | 一种用户画像方法、装置、可读存储介质及终端设备 | |
CN109389215B (zh) | 一种深度学习网络的网络结构确定方法及装置 | |
CN109063120A (zh) | 一种基于聚类的协同过滤推荐方法和装置 | |
CN109376307B (zh) | 文章推荐方法、装置和终端 | |
CN109905880B (zh) | 一种网络划分方法、系统及电子设备和存储介质 | |
CN110472143A (zh) | 一种信息推送方法、装置、可读存储介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |