CN110310162A - 样本生成的方法及装置 - Google Patents
样本生成的方法及装置 Download PDFInfo
- Publication number
- CN110310162A CN110310162A CN201910619034.1A CN201910619034A CN110310162A CN 110310162 A CN110310162 A CN 110310162A CN 201910619034 A CN201910619034 A CN 201910619034A CN 110310162 A CN110310162 A CN 110310162A
- Authority
- CN
- China
- Prior art keywords
- data
- history log
- groups
- conversion
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种样本生成的方法及装置,涉及智能广告技术领域,解决现有技术中在进行广告转化率预估时,出现的正样本数量较少,难以获得良好的训练模型,从而导致预估出的转化率的准确性较低的问题。该方法包括:获取广告展示生成的至少三组历史日志数据,历史日志数据包括曝光数据、点击数据以及转化数据;根据曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;根据每两组历史日志数据间的相对样本关系生成正负样本集。
Description
技术领域
本发明涉及智能广告技术领域,具体涉及一种样本生成的方法及装置。
背景技术
随着互联网的不断发展,人们在浏览相同页面时可以看到不同的广告,实现了广告的个性化展示。
广告平台在投放广告之前,考虑到各方面(包括用户、广告主及广告平台)的受益情况,需要对待投放广告进行排序,对广告进行排序主要依据是广告的预估转化率与广告出价的乘积。因此,广告转化率预估的准确性直接影响到排序结果。
现有的广告平台目前是直接通过impression(展示)到conversion(转化)进行建模,由于广告转化的数量远远小于展示的数量,因此直接通过展示数据进行建模预估广告转化率,会丢失掉大量的信息,无法保证有足够多的正样本,难以获得良好的训练模型,从而导致预估出的转化率的准确性较低,影响广告排序结果。
发明内容
本发明的实施例提供一种样本生成的方法及装置,解决现有技术中在进行广告转化率预估时,出现的正样本数量较少,难以获得良好的训练模型,从而导致预估出的转化率的准确性较低的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明实施例的第一方面提供一种样本生成的方法,所述方法包括:
获取广告展示生成的至少三组历史日志数据,所述历史日志数据包括:曝光数据、点击数据以及转化数据;根据所述曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;根据所述每两组历史日志数据间的相对样本关系生成正负样本集。
在一个实施例中,所述根据所述曝光数据、点击数据以及转化数据确定每两组历史日志数据间的相对样本关系,包括:依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据间的相对样本关系。
在一个实施例中,所述据所述曝光数据、点击数据以及转化数据确定每两组历史日志数据间的相对样本关系,包括:根据每组历史日志数据的特征值来确定每两组历史日志数据间的相对样本关系,所述特征值为每组历史数据中的曝光数据、点击数据以及转化数据之和。
在一个实施例中,所述根据所述曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系,包括:
依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据中各组历史日志数据的虚拟点击值;根据所述各组历史日志数据的虚拟点击值确定每两组历史日志数据间的相对样本关系。
在一个实施例中,根据所述每两组历史日志数据间的相对样本关系生成正负样本集,包括:对所述每两组历史日志数据间的相对样本关系进行聚合得到每组历史日志数据的聚合值,所述聚合值包括曝光数据之和以及虚拟点击值之和;根据所述每组历史日志数据的聚合值生成正负样本集。
本发明实施例的第二方面,提供一种广告转化率预估的方法,所述方法包括;通过第一方面所述的方法生成正负样本集;根据所述正负样本集训练转化率预估模型;根据训练后的转化率预估模型预估待投放广告的转化率。
本发明实施例的第三方面,提供一种样本生成的装置,所述装置包括:获取模块,被配置为用于获取广告展示生成的至少三组历史日志数据,所述历史日志数据包括:曝光数据、点击数据以及转化数据;确定模块,被配置为用于根据所述曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;生成模块,被配置为用于根据所述每两组历史日志数据间的相对样本关系生成正负样本集。
在一个实施例中,所述确定模块被配置为具体用于:依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据间的相对样本关系。
在一个实施例中,所述确定模块被配置为具体用于:根据每组历史日志数据的特征值来确定每两组历史日志数据间的相对样本关系,所述特征值为每组历史数据中的曝光数据、点击数据以及转化数据之和。
在一个实施例中,所述确定模块被配置为具体用于:依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据中各组历史日志数据的虚拟点击值;根据所述各组历史日志数据的虚拟点击值确定每两组历史日志数据间的相对样本关系。
在一个实施例中,所述生成模块被配置为具体用于:对所述每两组历史日志数据间的相对样本关系进行聚合得到每组历史日志数据的聚合值,所述聚合值包括曝光数据之和以及虚拟点击值之和;根据所述每组历史日志数据的聚合值生成正负样本集。
本发明实施例的第四方面,提供一种广告转化率预估的装置,所述装置包括;生成模块,被配置为用于通过第一方面所述的方法生成正负样本集;训练模块,被配置为用于根据所述正负样本集训练转化率预估模型;预估模块,被配置为用于根据训练后的转化率预估模型预估待投放广告的转化率。
本发明实施例的第五方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的方法。
本发明实施例提供的第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面所述的方法。
相比于现有技术,本发明实施例提供的样本生成的方法及装置,能够根据曝光数据、点击数据以及转化数据来分别确定每两组历史日志数据间的相对样本关系,从而根据每两组历史日志数据间的相对样本关系生成正负样本集。由于本案中充分考虑曝光数据、点击数据以及转化数据来确定每两组历史日志数据间的相对样本关系,这样能够使得每组历史日志数据同时确定出一个正样本和一个负样本,使得正负样本数量比较均衡,从而根据该正负样本可以获得良好的训练模型,从而预估出的转化率也较为准确。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解。应当明白的是附图不必按比例绘制。在附图中:
图1为本发明实施例提供的广告展示后曝光数据、点击数据以及转化数据间的关系图;
图2为本发明实施例提供的一种样本生成的方法的流程图;
图3为本发明实施例提供的一种广告转化率预估的方法的流程图;
图4为本发明实施例提供的一种样本生成的装置的结构示意图;
图5为本发明实施例提供的一种广告转化率预估的装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本文中术语“包括/包含”在本文使用时指特征、要素或组件的存在,但并不排除一个或多个其它特征、要素或组件的存在或附加。
本发明的实施例提供了一种任务发布的方法,包括:获取广告展示生成的至少三组历史日志数据,历史日志数据包括:曝光数据、点击数据以及转化数据;根据曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;根据每两组历史日志数据间的相对样本关系生成正负样本集。
根据本发明的实施例,相比于现有技术,本发明能够根据曝光数据、点击数据以及转化数据来分别确定每两组历史日志数据间的相对样本关系,从而根据每两组历史日志数据间的相对样本关系生成正负样本集。由于本案中充分考虑曝光数据、点击数据以及转化数据来确定每两组历史日志数据间的相对样本关系,这样能够使得每组历史日志数据同时确定出一个正样本和一个负样本,使得正负样本数量比较均衡,从而根据该正负样本可以获得良好的训练模型,从而预估出的转化率也较为准确。以下将结合附图来详细描述本发明的实施例及其优点。
如图1所示,为本发明实施例提供的广告展示后曝光数据、点击数据以及转化数据间的关系图。其中:在广告展示后,曝光数据101大于或等于点击数据102,点击数据102大于或等于转化数据103。图1中曝光数据101所形成的空间也被称为推断空间(inferencespace),而点击数据102所形成的空间也被称为训练空间(training space)。一般情况下在进行点击率预估时通常采用点击数据102作为训练样本进行模型训练。
如图2所示,为本发明实施例提供的一种样本生成的方法的流程图。该方法包括:
201、获取广告展示生成的至少三组历史日志数据。
其中,上述的历史日志数据包括:曝光数据、点击数据以及转化数据。
示例性的,步骤201中所获取的历史日志数据是根据用户输入的查询(query)确定的,该查询是用户根据自己的需求进行选择确定的,例如该查询可以是设定时间段内的某种广告类型下的某个广告交易平台对应的广告展示的历史日志数据,其中:这里的时间段、广告类型以及广告交易平台均可以由用户根据自己的实际需求进行选择或设定。
优选的,上述获取的至少三组历史日志数据可以是特征向量形式的历史日志数据,也可以是数组形式的历史日志数据,这里并不进行限定。当上述的三组历史日志数据是三个特征向量或三个数组时,每个特征向量或数组中均包含三个维度的数据,该三个维度分别是曝光数据、点击数据以及转化数据。
202、根据曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系。
示例性的,上述的相对样本关系包括当一组历史日志数据为正样本时,另一组历史日志数据为负样本。例如:三组历史数据分别为A、B以及C,A和B相对而言,当A为正样本时,B为负样本,反之亦成立;A和C相对而言,以及B和C相对而言与A和B类似,这里不再赘述。
优选的,上述的步骤202具体可以包括以下内容:
202a1、依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据间的相对样本关系。
例如,以三个特征向量为例,该三个特征向量分别为特征向量A、特征向量B以及特征向量C,这三个特征向量具体数据如下表1所示。
特征向量 | 曝光数据 | 点击数据 | 转化数据 |
A | 1 | 0 | 0 |
B | 1 | 1 | 0 |
C | 1 | 1 | 1 |
根据上述的表1可以得到:特征向量A和特征向量B的相对样本关系为:A为负样本,B为正样本,判断过程为:依次按照转化数据、点击数据以及曝光数据的顺序,A和B的转化数据相同,A的点击数据小于B的点击数据,所以A为负样本,B为正样本;特征向量A和特征向量C的相对样本关系为:A为负样本,C为正样本;特征向量B和特征向量C的相对样本关系为:B为负样本,C为正样本,这两组特征向量间的相对样本关系的判断过程与上述特征向量A和特征向量B的相对样本关系的判断过程类似,这里不再赘述。
上述的步骤202a1中依次按照转化数据、点击数据以及曝光数据的顺序来确定每两组历史日志数据间的相对样本关系,由于转化数据相对于点击数据,点击数据相对于曝光数据都是非常少的,因此按照转化数据、点击数据以及曝光数据的顺序来确定出的样本关系更为合理,从而根据该样本训练出的模型也较为准确,进而根据该模型预估出的转化率的准确性也较高。
备选地,上述的步骤202的还可以通过以下的内容来实现:
202b1、根据每组历史日志数据的特征值来确定每两组历史日志数据间的相对样本关系,其中:该特征值为每组历史数据中的曝光数据、点击数据以及转化数据之和。
例如,以上述表1所示的三个特征向量为例,特征向量A的特征值为1(1+0+0),特征向量B的特征值为2(1+1+0),特征向量C的特征值为3(1+1+1)。特征向量A和特征向量B的相对样本关系为:由于A的特征值小于B的特征值,A为负样本,B为正样本,特征向量A和特征向量C的相对样本关系为:由于A的特征值小于C的特征值,A为负样本,B为正样本,特征向量B和特征向量C的相对样本关系为:由于B的特征值小于C的特征值,B为负样本,C为正样本。
备选地,上述的步骤202具体还可以包括以下内容:
202c1、依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据中各组历史日志数据的虚拟点击值。
202c2、根据各组历史日志数据的虚拟点击值确定每两组历史日志数据间的相对样本关系。
示例性的,上述的虚拟点击值用于表示每两组历史日志数据间的相对样本关系,该虚拟点击值可以是一个标识,例如0或1,当虚拟点击值为0时,用于表示负样本,当虚拟点击值为1时,用于表示正样本;或者,当虚拟点击值为1,也用于表示负样本,当虚拟点击值为0时,也可以用于表示正样本。这里的标识仅是示例性的,并不进行限定,在实际中还可以按照实际的需要进行设定。
例如,这里以虚拟点击值为0表示负样本,虚拟点击值为1表示正样本进行说明。仍以上述表1所示的三个特征向量为例,特征向量A和特征向量B的虚拟点击值分别为:A的虚拟点击值为0,B的虚拟点击值为1,判断过程为:依次按照转化数据、点击数据以及曝光数据的顺序,A和B的转化数据相同,A的点击数据小于B的点击数据,所以A的虚拟点击值为0,B的虚拟点击值为1;特征向量A和特征向量C的虚拟点击值分别为:A的虚拟点击值为0,C的虚拟点击值为1;特征向量B和特征向量C的虚拟点击值分别为:B的虚拟点击值为0,C的虚拟点击值为1;这两组特征向量间的虚拟点击值的判断过程与上述特征向量A和特征向量B的相对样本关系的判断过程类似,这里不再赘述。
上述的步骤202a1中依次按照转化数据、点击数据以及曝光数据的顺序来确定每两组历史日志数据中各组历史日志数据的虚拟点击值,由于转化数据相对于点击数据,点击数据相对于曝光数据都是非常少的,因此利用点击的这个中间行为所确定的样本数据更加准确,从而根据该样本所训练出的模型也较为准确,进而根据该模型预估出的转化率的准确性也较高。
203、根据每两组历史日志数据间的相对样本关系生成正负样本集。
优选的,上述的步骤203具体可以通过以下内容实现:
203a、对每两组历史日志数据间的相对样本关系进行聚合得到每组历史日志数据的聚合值。
其中,上述的聚合值包括曝光数据之和以及虚拟点击值之和。
203b、根据每组历史日志数据的聚合值生成正负样本集。
例如,以上述表1所示的三个特征向量为例,当虚拟点击值为0时表示为负样本,当虚拟点击至为1时表示为正样本。特征向量X的聚合值为(x1,x2),X包括特征向量A、B以及C,其中,x1为特征向量X的曝光数据之和,x2为特征向量X的虚拟点击值之和。
由上述的表1结合步骤202c1-202c2的内容可知,特征向量A的聚合值为(2,0),特征向量B的聚合值为(2,1),特征向量C的聚合值为(2,2),其中:根据上述的聚合值可以得到特征向量A为2个负样本;特征向量B为1个正样本,1个负样本;特征向量C为2个正样本。这样最终得到的样本集包括3个正样本(1个B、2个C)和3个负样本(2个A、1个B)。
如图3所示,为本发明实施例提供的一种广告转化率预估的方法的流程图。该方法包括:
301、通过上文所描述的方法生成正负样本集。
302、根据正负样本集训练转化率预估模型。
303、根据训练后的转化率预估模型预估待投放广告的转化率。
示例性的,在生成正负样本集后,利用转化率训练方法对正负样本集训练学习,得到CVR(英文:Conversion Rate,中文:转化率)的相关参数,进而根据所得到的相关参数得到转化率预估模型。
优选的,通过逻辑回归方法对上述的正负样本集进行训练学习,得到权重向量W2和偏移量b2,其中,权重W2的元素个数正负样本集的字段个数,权重W2的每个元素分别表示每个字段的权重值,偏移量b2为常数。得到权重向量W2和偏移量b2后,构建转化率预估模型,转化率预估模型为:β=sigmoid(W2 TX'+b2),其中,β表示转化率,X'表示待投放广告的特征数据,也即待投放广告的字段组合。
通过待投放广告的特征数据以及所得到的转化率预估模型,即可计算得到待投放广告在已经被点击的情况下,被转化的概率β,也即点击转化率。
本发明实施例提供的广告转化率预估的方法,通过上文所述的样本生成的方法生成正负样本集,根据该正负样本集训练转化率预估模型,根据训练后的转化率预估模型预估待投放广告的转化率。由于本发明实施例中是通过上述的得到的正负样本集来训练转化率预估模型,这样所训练出的转化率预估模型较为准确,从而使得所预估出的待投放广告的转化率的准确性较高。
下面将基于图2对应的样本生成的方法的实施例中的相关描述对本发明实施例提供的一种样本生成的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例,这里不再赘述。
如图4所示,为本发明实施例提供的一种样本生成的装置的结构示意图。该装置400包括:获取模块401、确定模块402以及生成模块403,其中:获取模块401,被配置为用于获取广告展示生成的至少三组历史日志数据,该历史日志数据包括:曝光数据、点击数据以及转化数据;确定模块402,被配置为用于根据曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;生成模块403,被配置为用于根据每两组历史日志数据间的相对样本关系生成正负样本集。
优选的,确定模块402被配置为具体用于:依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据间的相对样本关系。
可选的,确定模块402被配置为具体还用于:根据每组历史日志数据的特征值来确定每两组历史日志数据间的相对样本关系,特征值为每组历史数据中的曝光数据、点击数据以及转化数据之和。
优选的,确定模块402被配置为具体还用于:依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据中各组历史日志数据的虚拟点击值;根据各组历史日志数据的虚拟点击值确定每两组历史日志数据间的相对样本关系。
优选的,生成模块403被配置为具体用于:对每两组历史日志数据间的相对样本关系进行聚合得到每组历史日志数据的聚合值,聚合值包括曝光数据之和以及虚拟点击值之和;根据每组历史日志数据的聚合值生成正负样本集。
相比于现有技术,本发明实施例提供的样本生成的装置,能够根据曝光数据、点击数据以及转化数据来分别确定每两组历史日志数据间的相对样本关系,从而根据每两组历史日志数据间的相对样本关系生成正负样本集。由于本案中充分考虑曝光数据、点击数据以及转化数据来确定每两组历史日志数据间的相对样本关系,这样能够使得每组历史日志数据同时确定出一个正样本和一个负样本,使得正负样本数量比较均衡,从而根据该正负样本可以获得良好的训练模型,从而预估出的转化率也较为准确。
下面将基于图3对应的广告转化率预估的方法的实施例中的相关描述对本发明实施例提供的一种广告转化率预估的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例,这里不再赘述。
如图5所示,为本发明实施例提供的一种广告转化率预估的装置的结构示意图。该装置500包括:生成模块501、训练模块502以及预估模块503,其中:生成模块501,被配置为用于通过上文所描述的装置生成正负样本集;训练模块502,被配置为用于根据正负样本集训练转化率预估模型;预估模块503,被配置为用于根据训练后的转化率预估模型预估待投放广告的转化率。
本发明实施例提供的广告转化率预估的装置,通过上文所述的样本生成的装置生成正负样本集,根据该正负样本集训练转化率预估模型,根据训练后的转化率预估模型预估待投放广告的转化率。由于本发明实施例中是通过上述的得到的正负样本集来训练转化率预估模型,这样所训练出的转化率预估模型较为准确,从而使得所预估出的待投放广告的转化率的准确性较高。
如图6所示,为本发明实施例提供的一种电子设备的结构示意图,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本发明实施例提供一种计算机存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如上所述的方法流程。示例性的,计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种样本生成的方法,其特征在于,所述方法包括:
获取广告展示生成的至少三组历史日志数据,所述历史日志数据包括:曝光数据、点击数据以及转化数据;
根据所述曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;
根据所述每两组历史日志数据间的相对样本关系生成正负样本集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述曝光数据、点击数据以及转化数据确定每两组历史日志数据间的相对样本关系,包括:
依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据间的相对样本关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述曝光数据、点击数据以及转化数据确定每两组历史日志数据间的相对样本关系,包括:
根据每组历史日志数据的特征值来确定每两组历史日志数据间的相对样本关系,所述特征值为每组历史数据中的曝光数据、点击数据以及转化数据之和。
4.根据权利要求1所述的方法,其特征在于,所述根据所述曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系,包括:
依次按照转化数据、点击数据以及曝光数据的顺序分别确定每两组历史日志数据中各组历史日志数据的虚拟点击值;
根据所述各组历史日志数据的虚拟点击值确定每两组历史日志数据间的相对样本关系。
5.根据权利要求4所述的方法,其特征在于,根据所述每两组历史日志数据间的相对样本关系生成正负样本集,包括:
对所述每两组历史日志数据间的相对样本关系进行聚合得到每组历史日志数据的聚合值,所述聚合值包括曝光数据之和以及虚拟点击值之和;
根据所述每组历史日志数据的聚合值生成正负样本集。
6.一种广告转化率预估的方法,其特征在于,所述方法包括;
通过权利要求1-5任一项所述的方法生成正负样本集;
根据所述正负样本集训练转化率预估模型;
根据训练后的转化率预估模型预估待投放广告的转化率。
7.一种样本生成的装置,其特征在于,所述装置包括:
获取模块,被配置为用于获取广告展示生成的至少三组历史日志数据,所述历史日志数据包括曝光数据、点击数据以及转化数据;
确定模块,被配置为用于根据所述曝光数据、点击数据以及转化数据分别确定每两组历史日志数据间的相对样本关系;
生成模块,被配置为用于根据所述每两组历史日志数据间的相对样本关系生成正负样本集。
8.一种广告转化率预估的装置,其特征在于,所述装置包括;
生成模块,被配置为用于通过权利要求7所述的装置生成正负样本集;
训练模块,被配置为用于根据所述正负样本集训练转化率预估模型;
预估模块,被配置为用于根据训练后的转化率预估模型预估待投放广告的转化率。
9.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910619034.1A CN110310162B (zh) | 2019-07-09 | 2019-07-09 | 样本生成的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910619034.1A CN110310162B (zh) | 2019-07-09 | 2019-07-09 | 样本生成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110310162A true CN110310162A (zh) | 2019-10-08 |
CN110310162B CN110310162B (zh) | 2021-09-17 |
Family
ID=68080831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910619034.1A Active CN110310162B (zh) | 2019-07-09 | 2019-07-09 | 样本生成的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110310162B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782291A (zh) * | 2019-10-29 | 2020-02-11 | 加和(北京)信息科技有限公司 | 广告投放用户确定方法及装置、存储介质及电子装置 |
CN112561575A (zh) * | 2020-12-08 | 2021-03-26 | 上海优扬新媒信息技术有限公司 | 一种ctr预估模型选择方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631707A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 基于决策树的广告点击率预估方法与应用推荐方法及装置 |
CN106296286A (zh) * | 2016-08-09 | 2017-01-04 | 北京奇虎科技有限公司 | 广告点击率的预估方法和预估装置 |
US20170186030A1 (en) * | 2015-04-21 | 2017-06-29 | Tencent Technology (Shenzhen) Company Limited | Advertisement click-through rate correction method and advertisement push server |
CN106909981A (zh) * | 2015-12-23 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 模型训练、样本平衡方法及装置以及个人信用评分系统 |
CN107944589A (zh) * | 2016-10-12 | 2018-04-20 | 北京奇虎科技有限公司 | 广告点击率的预测方法和预测装置 |
CN108230010A (zh) * | 2017-12-12 | 2018-06-29 | 深圳市金立通信设备有限公司 | 一种预估广告转化率的方法及服务器 |
CN109255660A (zh) * | 2018-09-25 | 2019-01-22 | 科达集团股份有限公司技术分公司 | 一种利用高度不均衡数据的广告账户优化方法 |
-
2019
- 2019-07-09 CN CN201910619034.1A patent/CN110310162B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170186030A1 (en) * | 2015-04-21 | 2017-06-29 | Tencent Technology (Shenzhen) Company Limited | Advertisement click-through rate correction method and advertisement push server |
CN105631707A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 基于决策树的广告点击率预估方法与应用推荐方法及装置 |
CN106909981A (zh) * | 2015-12-23 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 模型训练、样本平衡方法及装置以及个人信用评分系统 |
CN106296286A (zh) * | 2016-08-09 | 2017-01-04 | 北京奇虎科技有限公司 | 广告点击率的预估方法和预估装置 |
CN107944589A (zh) * | 2016-10-12 | 2018-04-20 | 北京奇虎科技有限公司 | 广告点击率的预测方法和预测装置 |
CN108230010A (zh) * | 2017-12-12 | 2018-06-29 | 深圳市金立通信设备有限公司 | 一种预估广告转化率的方法及服务器 |
CN109255660A (zh) * | 2018-09-25 | 2019-01-22 | 科达集团股份有限公司技术分公司 | 一种利用高度不均衡数据的广告账户优化方法 |
Non-Patent Citations (2)
Title |
---|
CAO LU,ETC.: "Virtual Sample Generation Approach for Imbalanced Classification", 《2018 9TH INTERNATIONAL SYMPOSIUM ON PARALLEL ARCHITECTURES, ALGORITHMS AND PROGRAMMING (PAAP)》 * |
杜娟等: "不均衡数据集文本分类中少数类样本生成方法研究", 《计算机应用研究》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782291A (zh) * | 2019-10-29 | 2020-02-11 | 加和(北京)信息科技有限公司 | 广告投放用户确定方法及装置、存储介质及电子装置 |
CN112561575A (zh) * | 2020-12-08 | 2021-03-26 | 上海优扬新媒信息技术有限公司 | 一种ctr预估模型选择方法及装置 |
CN112561575B (zh) * | 2020-12-08 | 2023-02-03 | 度小满科技(北京)有限公司 | 一种ctr预估模型选择方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110310162B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103412918B (zh) | 一种基于服务质量和声誉的服务信任度评估方法 | |
Gattoufi et al. | A taxonomy for data envelopment analysis | |
WO2021081962A1 (zh) | 推荐模型的训练方法、推荐方法、装置及计算机可读介质 | |
US10719521B2 (en) | Evaluating models that rely on aggregate historical data | |
CN107851106A (zh) | 用于关系数据库即服务的自动需求驱动的资源缩放 | |
CN103748605A (zh) | 转化类型到转化类型的传送 | |
CN110753920A (zh) | 用于优化和模拟网页排序和流量的系统和方法 | |
CN110020121A (zh) | 基于迁移学习的软件众包项目推荐方法及系统 | |
CN109903086A (zh) | 一种相似人群扩展方法、装置及电子设备 | |
CN103761266A (zh) | 基于多级逻辑回归的点击率预测方法和系统 | |
CN110796513A (zh) | 多任务学习方法、装置、电子设备及存储介质 | |
CN110310162A (zh) | 样本生成的方法及装置 | |
CN110489691A (zh) | 页面组件显示方法及终端设备 | |
CN108960293A (zh) | 基于fm算法的ctr预估方法及系统 | |
Zhang et al. | Advertising impression resource allocation strategy with multi-level budget constraint dqn in real-time bidding | |
CN113742069A (zh) | 基于人工智能的容量预测方法、装置及存储介质 | |
CN111368195B (zh) | 一种模型训练方法、装置、设备及存储介质 | |
De Crombrugghe et al. | Statistical Demand Functions for Food in the USA and the Netherlands | |
CN112989174A (zh) | 信息推荐方法及装置、介质和设备 | |
CN115049429A (zh) | 增益预测方法、装置和计算机设备 | |
CN109117352A (zh) | 服务器性能预测方法和装置 | |
CN112561554B (zh) | 确定待展示的多媒体资源方法、装置、服务器及存储介质 | |
CN109472455B (zh) | 活动评估方法、装置、电子设备及存储介质 | |
US20110208738A1 (en) | Method for Determining an Enhanced Value to Keywords Having Sparse Data | |
Crawford | A conjoint analysis of reference services in academic libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |