CN110310161A - 特征聚合的方法及装置 - Google Patents
特征聚合的方法及装置 Download PDFInfo
- Publication number
- CN110310161A CN110310161A CN201910618663.2A CN201910618663A CN110310161A CN 110310161 A CN110310161 A CN 110310161A CN 201910618663 A CN201910618663 A CN 201910618663A CN 110310161 A CN110310161 A CN 110310161A
- Authority
- CN
- China
- Prior art keywords
- ctr
- advertisement
- grid
- characteristic
- summation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种特征聚合的方法及装置,涉及智能广告技术领域,用以解决现有技术中存在的特征样本过少,从而导致预估的准确性较低的问题。本方案为:获取广告的特征信息,特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据广告的PV和CTR确定广告特征点;对二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;根据M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的广告特征点的PV之和,每个特征组的CTR为落入每个网格的广告特征点的CTR之和;其中,M和N是大于或等于2的整数。
Description
技术领域
本发明涉及智能广告技术领域,具体涉及一种特征聚合的方法及装置。
背景技术
需求方平台(英文全称:DemandSidePlatform,简称:DSP)是一个系统,也是一种在线广告平台,汇集了各种广告交易平台(Advertisement Exchange)的库存。
DSP服务于广告主,对接ADX的流量,集合了众多小媒体的流量,这样使得广告的点击率很低,数据比较稀疏,直接采用这些点击率进行预估时,会导致预估的准确率较低。因此,需要先解决特征样本过少的问题。
目前均是通过特征聚合的方式实现降维,从而增加样本数量。现有技术中采用的K-means算法进行特征聚合,聚合的特征组的特征数量无法控制,使得聚合的特征组的特征数量可大可小,这样有些特征组的特征数量仍然较少,从而导致预估的准确性依然很低。
发明内容
本发明的实施例提供一种特征聚合的方法及装置,解决现有技术中存在的特征样本过少,从而导致预估的准确性较低的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明实施例的第一方面,提供一种特征聚合的方法,所述方法包括:获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据所述广告的PV和CTR确定广告特征点;对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;其中,所述M和N是大于或等于2的整数。
在一个实施例中,所述对所述二维坐标系划分形成M*N个网格,包括:按照从小到大的顺序对广告特征点中的PV排序;按照PV将所述二维坐标系中的X轴划分N列,每列的PV的总和相同;按照CTR分别将所述N列中的每列划分为M行,同列的每个格子的PV的总和相同。
在一个实施例中,所述对所述二维坐标系划分形成M*N个网格,包括:按照从小到大的顺序对广告特征点中的CTR排序,按照CTR值将所述二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;按照PV分别将所述M行中的每行划分为N列,同行的每个格子的PV的总和相同。
在一个实施例中,所述方法还包括:根据CTR预估模型的权重验证聚合结果。
在一个实施例中,所述根据CTR预估模型的权重验证聚合结果,包括:当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到所述CTR预估模型的权重和所述聚合结果保持一致。
在一个实施例中,所述M为20,所述N为5。
本发明实施例的第二方面,提供一种广告点击率预估的方法,所述方法包括:通过第一方面所述的方法生成聚合后的特征组;根据所述聚合后的特征组训练点击率预估模型;根据训练后的点击率预估模型预估待投放广告的点击率。
本发明实施例的第三方面,提供一种特征聚合的装置,所述装置包括:获取模块,被配置为用于获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;确定模块,被配置为用于在二维坐标系中根据所述广告的PV和CTR确定广告特征点;划分模块,被配置为用于对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;输出模块,被配置为用于根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;其中,所述M和N是大于或等于2的整数。
在一个实施例中,所述划分模块,被配置为具体用于:按照从小到大的顺序对广告特征点中的PV排序;按照PV将所述二维坐标系中的X轴划分N列,每列的PV的总和相同;按照CTR分别将所述N列中的每列划分为M行,同列的每个格子的PV的总和相同。
在一个实施例中,所述划分模块,被配置为具体用于:按照从小到大的顺序对广告特征点中的CTR排序,按照CTR值将所述二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;按照PV分别将所述M行中的每行划分为N列,同行的每个格子的PV的总和相同。
在一个实施例中,所述装置还包括:验证模块,被配置为用于根据CTR预估模型的打分结果验证聚合结果。
在一个实施例中,所述验证模块被配置为具体用于:当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到所述CTR预估模型的权重和所述聚合结果保持一致。
本发明实施例的第四方面,提供一种广告点击率预估的装置,所述装置包括:生成模块,被配置为用于通过第三方面所述的装置生成聚合后的特征组;训练模块,被配置为用于根据所述聚合后的特征组训练点击率预估模型;预估模块,被配置为用于根据训练后的点击率预估模型预估待投放广告的点击率。
本发明实施例提供的第五方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面或第二方面所述的方法。
本发明实施例的第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面或第二方面所述的方法。
相比于现有技术,本发明实施例提供的特征聚合的方法及装置,通过对二维坐标系划分形成M*N个网格,从而根据该M*N个网格输出聚合后的特征组。由于本案中在进行网格划分时,保证落入每列的PV的总和相同以及落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同以及落入同行的每个网格的PV的总和相同,这样使得每个网格的PV值较为均匀,从而使得最终得到的聚合后的特征组中的样本数量足够,进而使得预估的准确性较高。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解。应当明白的是附图不必按比例绘制。在附图中:
图1为本发明实施例提供的一种特征聚合的方法的流程图;
图2为本发明实施例提供的一种特征聚合时形成的M*N个网格的示意图;
图3为本发明实施例提供的另一种特征聚合时形成的M*N个网格的示意图;
图4为本发明实施例提供的CTR与模型训练出来的权重间的关系图;
图5为本发明实施例提供的一种广告点击率预估的方法的流程示意图;
图6为本发明实施例提供的一种特征聚合的装置的结构示意图;
图7为本发明实施例提供的一种广告点击率预估的装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本文中术语“包括/包含”在本文使用时指特征、要素或组件的存在,但并不排除一个或多个其它特征、要素或组件的存在或附加。
本发明实施例提供的特征聚合的方法,适用于ID类特征,该ID类特征包括但不限于:广告ID或者类目ID等。
本发明的实施例提供了一种特征聚合的方法,包括:获取广告的特征信息,该特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据广告的PV和CTR确定广告特征点;对二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;根据M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的广告特征点的PV之和,每个特征组的CTR为落入每个网格的广告特征点的CTR之和;其中,M和N是大于或等于2的整数。
根据本发明的实施例,相比于现有技术,本发明实施例提供的特征聚合的方法及装置,通过对二维坐标系划分形成M*N个网格,从而根据该M*N个网格输出聚合后的特征组。由于本案中在进行网格划分时,保证落入每列的PV的总和相同以及落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同以及落入同行的每个网格的PV的总和相同,这样使得每个网格的PV值较为均匀,从而使得最终得到的聚合后的特征组中的样本数量足够,进而使得预估的准确性较高。以下将结合附图来详细描述本发明的实施例及其优点。
如图1所示,为本发明实施例提供的一种特征聚合的方法的流程图,该方法包括:
101、获取广告的特征信息。
其中,上述的特征信息包括广告的访问量PV和点击率CTR。
示例性的,上述的点击率(英文全称:Click-Through Rate,简称:CTR)是指媒体网站上某个广告的点击量/展示量,该指标需要经过简单计算才可得到。点击率越高,意味着广告主在相同投入的情况下,收获了更多的用户注意力,所以点击率是广告主和媒体网站常用来衡量广告效果的标准。
示例性的,上述的访问量是指媒体网站上某个广告被访问的次数,通过脚本或者其他方式,网站可以对用户在本站的浏览行为进行记录,比如监控用户的点击行为、鼠标停留区域和停留时间等。如果用户点击的内容是广告,那么这个点击信息就会被后台数据库,因此访问量直接可以通过获取后台的数据来得到。
示例性的,上述的步骤101可以是从存储单元或数据库中直接调用上述的广告的PV和CTR,该广告的PV和CTR预先已经存储至存储单元或数据库中;也可以通过接收其他电子设备发送的原始数据,该原始数据包括访问次数、点击量以及展示量,然后通过在线计算获得上述的CTR,从而通过和外部设备进行数据传输获得上述的PV和CTR。
102、在二维坐标系中根据广告的PV和CTR确定广告特征点。
其中,上述的广告特征点是指根据广告的PV和CTR在二维坐标系中描点得到的。可选的,若以PV为X轴,则CTR为Y轴;反之亦可。
103、对二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同。
优选的,上述的M为20,N为5。
当M为20,N为5时,使得根据该20*5个网格输出的聚合后的特征组中的样本数量足够且合适的,经过实验验证采用20*5个网格输出的特征组的样本所训练出的点击率预估模型效果最好,从而根据该点击率预估模型所训练出的待投放广告的点击率的准确性也是最高的。
优选的,上述的步骤103具体可以通过以下内容实现:
103a1、按照从小到大的顺序对广告特征点中的PV排序,按照PV将二维坐标系中的X轴划分N列,每列的PV的总和相同。
103a2、按照CTR分别将N列中的每列划分为M行,同列的每个格子的PV的总和相同。
例如,如图2所示为本发明实施例提供的一种特征聚合时形成的M*N个网格的示意图。若存在10个广告,对应的每个广告都有一个PV和CTR,该10个广告的PV之和为100。这里以M等于4,N等于5为例进行举例说明。
对于上述的这10个广告的PV和CTR,先将这10个广告按照PV和CTR在二维坐标系中描点,得到10个广告特征点。先按照PV划分为5列,每列的PV等于20,在实际的计算过程中可能存在误差,以实际计算时的PV为准。然后对于这10个特征点按照PV从小到大的顺序进行排序,依次从第一个广告特征点开始相加每个PV,当满足PV>20时,例如PV=27(前3个广告特征点的PV之和),对应的,PV=27时的最后一个PV为X轴的第一个坐标(第3个广告特征点的PV);当满足PV>40时,例如PV=43(第4个广告特征点和第5个广告特征点的PV之和),对应的,PV=43时最后一个PV为X轴的第二个坐标(第5个广告特征点的PV);依次类推,确定出X轴的5个坐标值,即完成X轴5列的划分。
然后,对每列分别进行CTR划分,从第1列开始计算,对于第1列,实际计算时PV=27,划分为4行,然后对于这10个特征点按照PV从小到大的顺序进行排序,依次从第一个广告特征点开始相加每个PV,当满足PV>6.75(27/4)时,例如PV=7(前3个广告特征点的PV之和),对应的,PV=7时的对应的CTR之和为Y轴第1列的第一个坐标(前3个广告特征点的CTR之和);当满足PV>6.75*2时,例如PV=14(第4个广告特征点和第5个广告特征点的PV之和),对应的,PV=14时对应的CTR之和为Y轴第1列的第二个坐标(第4个广告特征点和第5个广告特征点的CTR之和);依次类推求出Y轴第1列的所有坐标值;按照第1列的划分方式依次对其余列进行行划分,并计算每列的Y轴的坐标值,即完成Y轴每列4行的划分。
可选的,上述的步骤103具体可以通过以下内容实现:
103b1、按照从小到大的顺序对广告特征点中的CTR排序,按照CTR值将二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;
103b2、按照PV分别将M行中的每行划分为N列,同行的每个格子的PV的总和相同。
例如,如图3所示为本发明实施例提供的另一种特征聚合时形成的M*N个网格的示意图。若存在10个广告,对应的每个广告都有一个PV和CTR,该10个广告的CTR之和为50。这里以M等于5,N等于4为例进行举例说明。
对于上述的这10个广告的PV和CTR,先将这10个广告按照PV和CTR在二维坐标系中描点,得到10个广告特征点。先按照CTR划分为5行,每行的CTR等于10,在实际的计算过程中可能存在误差,以实际计算时的CTR为准。然后对于这10个特征点按照CTR从小到大的顺序进行排序,依次从第一个广告特征点开始相加每个CTR,当满足CTR>10时,例如CTR=12(前3个广告特征点的CTR之和),对应的,CTR=12时的最后一个CTR为Y轴的第一个坐标(第3个广告特征点的CTR);当满足CTR>20时,例如CTR=23(第4个广告特征点和第5个广告特征点的CTR之和),对应的,CTR=23时最后一个CTR为Y轴的第二个坐标(第5个广告特征点的CTR);依次类推,确定出Y轴的4个坐标值,即完成Y轴5行的划分。
然后,对每行分别进行PV划分,从第1行开始计算,对于第1行,实际计算时CTR=12,划分为4列,然后对于这10个特征点按照CTR从小到大的顺序进行排序,依次从第一个广告特征点开始相加每个CTR,当满足CTR>3(12/4)时,例如CTR=3.2(前3个广告特征点的CTR之和),对应的,CTR=3.2时对应的PV之和为X轴第1行的第一个坐标(前3个广告特征点的PV之和);当满足CTR>3*2时,例如CTR=6.5(第4个广告特征点和第5个广告特征点的CTR之和),对应的,CTR=6.5时对应的PV之和为X轴第1行的第二个坐标(第4个广告特征点和第5个广告特征点的PV之和);依次类推求出X轴第1行的所有坐标值;按照第1行的划分方式依次对其余行进行行划分,并计算每行的X轴的坐标值,即完成X轴每行4列的划分。
通过上述的步骤103a1-103a2或者103b1-103b2这两种方式实现对二维坐标系进行M*N个网格的划分,且在划分时保证落入每列的PV的总和相同以及落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同以及落入同行的每个网格的PV的总和相同,这样使得每个网格的PV值较为均匀,从而使得最终得到的聚合后的特征组中的样本数量足够,进而使得预估的准确性较高。
104、根据M*N个网格输出聚合后的特征组。
其中,每个特征组包括广告特征点的PV和CTR;每个特征组的PV为落入每个网格的广告特征点的PV之和,每个特征组的CTR为落入每个网格的广告特征点的CTR之和。上述的M和N是大于或等于2的整数。
优选的,上述的方法还包括:
104a、根据CTR预估模型的权重验证聚合结果。
示例性的,本发明是实施例中可以通过逻辑回归方法来确定广告的打分结果,从而确定模型训练出来的权重。上述的图2中在进行PV分列后,每一列是使用CTR进行划分的,所以正常情况下,计算出来的模型权重打分也是按照从低到高的趋势,具体可以参照图4所示的CTR与模型训练出来的权重间的关系图。其中,X轴表示同一个PV段,按照CTR从下到上的特征组,Y轴表示模型训练出来的权重。
示例性的,上述的步骤104a具体包括以下内容:
104b、当CTR预估模型的权重和聚合结果不一致时,调整M和N的大小,直到CTR预估模型的权重和聚合结果保持一致。
优选的,当M和N的值越小,聚合结果和打分结果会保持一致。因此,当步骤104b中出现结果不一致时,可以考虑在现有的M和N取值的基础上减小M和N值,来保证聚合结果合理。
现有技术中通过哈希法进行特征聚合,具体为:特征哈希法可以通过hash方法把原来是N维的feature变成一个M维的feature(一般M<<N),但代价是通过哈希转换后学习的模型变得很难检验,我们很难对训练出的模型参数做出合理解释。本发明实施例中可以通过上述的步骤104a-104b的内容,来实现对模型的检验,从而保证本案中的特征聚合的方法的合理性,提高特征聚合的准确性,从而提高预估的准确性。
如图5所示,为本发明实施例提供的一种广告点击率预估的方法的流程示意图,该方法包括:
501、通过上文所描述的方法生成聚合后的特征组。
502、根据聚合后的特征组训练点击率预估模型。
503、根据训练后的点击率预估模型预估待投放广告的点击率。
示例性的,在生成聚合后的特征组后,根据该聚合后的特征组得到正负样本训练集,利用点击率训练方法训练学习,得到CTR的相关参数,进而根据所得到的相关参数得到点击率预估模型。
CTR预估问题是典型的机器学习问题,目标是从历史的用户点击行为中学习到规律,最终实现在合适的时间、合适的页面给合适的人推送合适的广告。常用的算法可以分为线性模型(LR、FTRL)、非线性模型和融合模型(GBDTFM、FFM)。线性模型具有易扩展的特点,可以处理超大规模的数据,本方案采用逻辑回归模型(Logistic Regression Model,LR)去预估广告点击率,这个方案在工业界使用较为广泛,该模型的优势在于简单并且非常适于解决概率预估问题。
逻辑回归(Logistic Regression)是一种用于解决二分类(0or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。该逻辑回归方程为:
其中x表示(a,u,c)组合上的特征矢量,是受众定向的输出及其派生的其他特征;w为个特征的加权系数,也就是此模型需要优化的参数;(2h-1)wTx,这一线性函数的输出经过逻辑S型Sigmoid函数σ(z)={1+e-z}-1映射到(0,1)区间内,其中(2h-1)是为了将{0,1}的点击变换到集合{-1,1}上。从方法上看,LR是利用线性函数来解决非线性目标,也属于广义线性模型。可以推导得到,逻辑回归正是当目标值的分布服从贝努利分布的广义线性模型的一个特例,映射函数为logit(p)=log(p/(1-p))。
优选的,通过上述的逻辑回归方法训练正负样本,从而得到CTR预估模型参数,通过待投放广告的特征数据以及经过训练所得到的CTR预估模型,即可计算得到待投放广告的点击率。
本发明实施例提供的广告点击率预估的方法,通过上文所述的方法生成聚合后的特征组,根据聚合后的特征组训练点击率预估模型,根据训练后的点击率预估模型预估待投放广告的点击率。由于本发明实施例中是通过上述得到的聚合后的特征组来训练点击率预估模型,这样所训练出的点击率预估模型较为准确,从而使得所预估出的待投放广告的点击率的准确性较高。
下面将基于图1对应的特征聚合的方法的实施例中的相关描述对本发明实施例提供的一种特征聚合的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例,这里不再赘述。
如图6所示,为本发明实施例提供的一种特征聚合的装置的结构示意图,该装置600包括:获取模块601、确定模块602、划分模块603以及输出模块604,其中:获取模块601,被配置为用于获取广告的特征信息,特征信息包括广告的访问量PV和点击率CTR;确定模块602,被配置为用于在二维坐标系中根据广告的PV和CTR确定广告特征点;划分模块603,被配置为用于对二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;输出模块604,被配置为用于根据M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的广告特征点的PV之和,每个特征组的CTR为落入每个网格的广告特征点的CTR之和。
其中,M和N是大于或等于2的整数。
优选的,上述的M为20,N为5。当M为20,N为5时,使得根据该20*5个网格输出的聚合后的特征组中的样本数量足够且合适的,经过实验验证采用20*5个网格输出的特征组的样本所训练出的点击率预估模型效果最好,从而根据该点击率预估模型所训练出的待投放广告的点击率的准确性也是最高的。
优选的,上述的划分模块603,被配置为具体用于:按照从小到大的顺序对广告特征点中的PV排序;按照PV将二维坐标系中的X轴划分N列,每列的PV的总和相同;按照CTR分别将N列中的每列划分为M行,同列的每个格子的PV的总和相同。
优选的,上述的划分模块603,被配置为具体还用于:按照从小到大的顺序对广告特征点中的CTR排序,按照CTR值将二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;按照PV分别将M行中的每行划分为N列,同行的每个格子的PV的总和相同。
可选的,上述的装置600还包括:验证模块605,被配置为用于根据CTR预估模型的权重验证聚合结果。
示例性的,上述的验证模块被配置605为具体用于:当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到CTR预估模型的权重和聚合结果保持一致。
根据本发明的实施例,相比于现有技术,本发明实施例提供的特征聚合的装置,通过对二维坐标系划分形成M*N个网格,从而根据该M*N个网格输出聚合后的特征组。由于本案中在进行网格划分时,保证落入每列的PV的总和相同以及落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同以及落入同行的每个网格的PV的总和相同,这样使得每个网格的PV值较为均匀,从而使得最终得到的聚合后的特征组中的样本数量足够,进而使得预估的准确性较高。
下面将基于图5对应的广告点击率预估的方法的实施例中的相关描述对本发明实施例提供的一种广告点击率预估的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例,这里不再赘述。
如图7所示,为本发明实施例提供的一种广告点击率预估的装置,该装置700包括:生成模块701、训练模块702以及预估模块703,其中:生成模块701,被配置为用于通过图6所述的装置生成聚合后的特征组;训练模块702,被配置为用于根据聚合后的特征组训练点击率预估模型;预估模块703,被配置为用于根据训练后的点击率预估模型预估待投放广告的点击率。
本发明实施例提供的广告点击率预估的装置,通过上文所述的方法生成聚合后的特征组,根据聚合后的特征组训练点击率预估模型,根据训练后的点击率预估模型预估待投放广告的点击率。由于本发明实施例中是通过上述得到的聚合后的特征组来训练点击率预估模型,这样所训练出的点击率预估模型较为准确,从而使得所预估出的待投放广告的点击率的准确性较高。
如图8所示,为本发明实施例提供的一种电子设备的结构示意图,电子设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有电子设备800操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本发明实施例提供一种计算机存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如上所述的方法流程。示例性的,计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种特征聚合的方法,其特征在于,所述方法包括:
获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;
在二维坐标系中根据所述广告的PV和CTR确定广告特征点;
对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;以及
根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;
其中,所述M和N是大于或等于2的整数。
2.根据权利要求1所述的方法,其特征在于,所述对所述二维坐标系划分形成M*N个网格,包括:
按照从小到大的顺序对广告特征点中的PV排序;
按照PV将所述二维坐标系中的X轴划分N列,每列的PV的总和相同;以及
按照CTR分别将所述N列中的每列划分为M行,同列的每个格子的PV的总和相同。
3.根据权利要求1所述的方法,其特征在于,所述对所述二维坐标系划分形成M*N个网格,包括:
按照从小到大的顺序对广告特征点中的CTR排序;
按照CTR值将所述二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;以及
按照PV分别将所述M行中的每行划分为N列,同行的每个格子的PV的总和相同。
4.根据权利要求2所述的方法,其特征在于,还包括:
根据CTR预估模型的权重验证聚合结果。
5.根据权利要求4所述的方法,其特征在于,所述根据CTR预估模型的权重验证聚合结果,包括:
当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到所述CTR预估模型的权重和所述聚合结果保持一致。
6.一种广告点击率预估的方法,其特征在于,所述方法包括:
通过权利要求1-5任一项所述的方法生成聚合后的特征组;
根据所述聚合后的特征组训练点击率预估模型;以及
根据训练后的点击率预估模型预估待投放广告的点击率。
7.一种特征聚合的装置,其特征在于,所述装置包括:
获取模块,被配置为用于获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;
确定模块,被配置为用于在二维坐标系中根据所述广告的PV和CTR确定广告特征点;
划分模块,被配置为用于对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;以及
输出模块,被配置为用于根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;
其中,所述M和N是大于或等于2的整数。
8.一种广告点击率预估的装置,其特征在于,所述装置包括:
生成模块,被配置为用于通过权利要求7所述的装置生成聚合后的特征组;
训练模块,被配置为用于根据所述聚合后的特征组训练点击率预估模型;以及
预估模块,被配置为用于根据所述点击率预估模型预估待投放广告的点击率。
9.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910618663.2A CN110310161A (zh) | 2019-07-09 | 2019-07-09 | 特征聚合的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910618663.2A CN110310161A (zh) | 2019-07-09 | 2019-07-09 | 特征聚合的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110310161A true CN110310161A (zh) | 2019-10-08 |
Family
ID=68079830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910618663.2A Pending CN110310161A (zh) | 2019-07-09 | 2019-07-09 | 特征聚合的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110310161A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013027553A1 (ja) * | 2011-08-19 | 2013-02-28 | 国立大学法人京都大学 | 信号分析装置、信号分析方法及びコンピュータプログラム |
CN106658533A (zh) * | 2016-11-14 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种考虑用户分布的空域流量特征提取方法 |
CN108182592A (zh) * | 2017-12-11 | 2018-06-19 | 北京奇虎科技有限公司 | 公交线路多维特征属性挖掘方法、装置及电子设备 |
CN109471101A (zh) * | 2018-10-19 | 2019-03-15 | 湖北航天技术研究院总体设计所 | 一种弹载sar图像校正方法 |
CN109684382A (zh) * | 2018-12-20 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 二维密度聚类方法及装置 |
CN109978606A (zh) * | 2019-03-04 | 2019-07-05 | 北京达佳互联信息技术有限公司 | 广告点击率数据的处理方法、装置和计算机可读存储介质 |
-
2019
- 2019-07-09 CN CN201910618663.2A patent/CN110310161A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013027553A1 (ja) * | 2011-08-19 | 2013-02-28 | 国立大学法人京都大学 | 信号分析装置、信号分析方法及びコンピュータプログラム |
CN106658533A (zh) * | 2016-11-14 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种考虑用户分布的空域流量特征提取方法 |
CN108182592A (zh) * | 2017-12-11 | 2018-06-19 | 北京奇虎科技有限公司 | 公交线路多维特征属性挖掘方法、装置及电子设备 |
CN109471101A (zh) * | 2018-10-19 | 2019-03-15 | 湖北航天技术研究院总体设计所 | 一种弹载sar图像校正方法 |
CN109684382A (zh) * | 2018-12-20 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 二维密度聚类方法及装置 |
CN109978606A (zh) * | 2019-03-04 | 2019-07-05 | 北京达佳互联信息技术有限公司 | 广告点击率数据的处理方法、装置和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
伊雯雯: "基于多维特征组合逻辑回归模型的广告点击率预测", 《通信技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674407B (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN110046698A (zh) | 异质图神经网络生成方法、装置、电子设备及存储介质 | |
CN107818344A (zh) | 用户行为进行分类和预测的方法和系统 | |
CN109711925A (zh) | 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统 | |
CN104424296A (zh) | 查询词分类方法和装置 | |
CN112070577A (zh) | 一种商品推荐方法、系统、设备及介质 | |
CN109087138A (zh) | 数据处理方法及系统、计算机系统和可读存储介质 | |
CN114240555A (zh) | 训练点击率预测模型和预测点击率的方法和装置 | |
CN108228684A (zh) | 聚类模型的训练方法、装置、电子设备和计算机存储介质 | |
CN109191133A (zh) | 支付渠道的选择方法及终端设备 | |
CN108960293A (zh) | 基于fm算法的ctr预估方法及系统 | |
CN112380299A (zh) | 关系网络构建方法、装置及存储介质 | |
CN109376079A (zh) | 接口调用的测试方法及服务器 | |
CN111930957A (zh) | 实体间亲密度的分析方法、装置、电子设备以及存储介质 | |
CN114723535A (zh) | 一种基于供应链与知识图谱的物品推荐方法、设备及介质 | |
CN114511387A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN109344255A (zh) | 标签的填充方法及终端设备 | |
CN110310162B (zh) | 样本生成的方法及装置 | |
CN112925994A (zh) | 基于局部和全局信息融合的群组推荐方法、系统及设备 | |
CN104750877A (zh) | 一种用于云计算资源定价的统计分析方法 | |
Chow et al. | A new feature selection scheme using a data distribution factor for unsupervised nominal data | |
CN109117352A (zh) | 服务器性能预测方法和装置 | |
CN110310161A (zh) | 特征聚合的方法及装置 | |
CN110851708A (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN115631008B (zh) | 商品推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |
|
RJ01 | Rejection of invention patent application after publication |