CN111144957A - 信息投放方法、装置、服务器及存储介质 - Google Patents
信息投放方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111144957A CN111144957A CN202010265948.5A CN202010265948A CN111144957A CN 111144957 A CN111144957 A CN 111144957A CN 202010265948 A CN202010265948 A CN 202010265948A CN 111144957 A CN111144957 A CN 111144957A
- Authority
- CN
- China
- Prior art keywords
- target
- user
- feature
- value
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
Abstract
本申请公开了一种信息投放方法、装置、服务器及存储介质,属于网络技术领域。本申请通过分析多个用户特征分别对目标指标的影响力,从而准确衡量用户特征对目标指标的影响程度;基于影响程度满足第一目标条件的目标特征来筛选目标用户集合,向目标用户集合发送待投放信息,大大提升待投放信息在被投放用户群体中的正向影响力度,提升投放效果,尤其在投放资源有限时,大大提高了投放过程的实际投放效率。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种信息投放方法、装置、服务器及存储介质。
背景技术
随着网络技术的发展,商家可以在网络平台上投放广告、新闻等信息。例如,在社交平台上投放商品购物广告,以刺激用户消费。由于网络资源有限,在投放之前,通常会筛选网络平台上的部分用户群体进行投放。
相关技术中,信息投放过程通常为,用户依据历史投放经验,筛选出网络平台上比较有投放潜力的用户群体进行投放。以投放购物广告为例,用户根据购物平台上各个用户的特征,例如,最近一次消费时间、消费频次、消费金额等特征,筛选出消费频次高于目标频次、消费金额高于目标金额的潜力用户集合,该目标频次、目标金额的大小通常由用户基于历史投放经验进行估计,服务器向所筛选出的潜力用户集合投放商品购物广告,以提高潜力用户集合的消费频率。
上述信息投放过程实际上是依赖人工经验估计潜力用户集合进行信息投放,极易受到其他因素影响导致人为判断失误,从而估计不准确,影响投放效果,从而导致上述信息投放的实际投放效率较低。
发明内容
本申请实施例提供了一种信息投放方法、装置、服务器及存储介质,能够提高信息投放过程的实际投放效率。所述技术方案如下:
一方面,提供了一种信息投放方法,所述方法包括:
基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对所述目标指标的影响力,所述目标指标用于衡量所述待投放信息的期望投放效果,所述预投放过程是指对样本用户投放所述待投放信息的过程;
基于所述至少两个用户特征对所述目标指标的影响力,从所述至少两个用户特征中筛选出影响力满足第一目标条件的目标特征;
基于所述目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合;
向所述目标用户集合发送所述待投放信息。
另一方面,提供了一种信息投放装置,所述装置包括:
确定模块,用于基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对所述目标指标的影响力,所述目标指标用于衡量所述待投放信息的期望投放效果,所述预投放过程是指对样本用户投放所述待投放信息的过程;
筛选模块,用于基于所述至少两个用户特征对所述目标指标的影响力,从所述至少两个用户特征中筛选出影响力满足第一目标条件的目标特征;
所述筛选模块,还用于基于所述目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合;
投放模块,用于向所述目标用户集合发送所述待投放信息。
在一种可能实现方式中,所述确定模块,还用于选取实验组和对照组,对所述实验组投放所述待投放信息,所述实验组包括至少两个样本用户,所述对照组包括与所述实验组的用户数相同的至少两个对照用户;基于每个样本用户对应的目标指标的数值和每个对照用户对应的目标指标的数值,确定所述实验组中的正样本,所述正样本为对应的目标指标的数值对所述待投放信息进行正反馈的用户;基于对所述正样本的用户特征分析,确定所述至少两个用户特征分别对所述目标指标的影响力。
在一种可能实现方式中,所述确定模块,还用于对于每个用户特征,基于所述用户特征的至少两个特征取值,统计所述正样本中每个特征取值所包括的用户的出现概率;根据所述正样本中每个特征取值所包括的用户的出现概率,确定所述用户特征对所述目标指标的信息熵,所述用户特征对所述目标指标的影响力和所述信息熵负相关。
在一种可能实现方式中,所述确定模块,还用于对于所述至少两个用户特征中的第一特征,确定所述第一特征的至少两个类别取值中每个类别取值所包括的用户数;根据所述正样本的用户数和所述每个类别取值所包括的用户数,确定所述正样本中每个类别取值所包括的用户的出现概率。
在一种可能实现方式中,所述确定模块,还用于对于所述至少两个用户特征中的第二特征,根据所述第二特征的特征取值范围,确定至少两个分割值;分别基于每个分割值,将所述第二特征的特征取值范围划分为两个取值区间;根据所述正样本的用户数和每个取值区间所包括的用户数,确定所述正样本中每个取值区间所包括的用户的出现概率。
在一种可能实现方式中,所述确定模块,还用于对于所述每个分割值,基于所述分割值对应的每个取值区间所包括的用户的出现概率,确定所述第二特征按照所述分割值分割时对所述目标指标的第一信息熵,得到至少两个第一信息熵;将所述至少两个第一信息熵中最小值,确定为所述第二特征对所述目标指标的信息熵。
在一种可能实现方式中,所述确定模块,还用于基于所述每个样本用户对应的目标指标的数值和所述每个对照用户对应的目标指标的数值,确定所述每个样本用户对应的目标指标的数值的变化率和对照变化率,所述对照变化率为所述对照组中与所述样本用户对应的对照用户的变化率;根据所述每个样本用户对应的目标指标的数值的变化率和对照变化率之间的相对大小,将所述实验组中对应相对大小满足第三目标条件的样本用户确定为正样本。
在一种可能实现方式中,所述筛选模块,还用于基于所述至少两个用户特征分别对所述目标指标的影响力,从所述至少两个用户特征中确定出影响力最大的筛选特征;对于所述筛选特征的至少两个特征取值,根据正样本中每个特征取值所包括的用户的出现概率,确定所述至少两个特征取值中出现概率大于第一目标阈值的目标特征取值,所述正样本为对应的目标指标的数值对所述待投放信息进行正反馈的用户;基于对所述正样本中筛选样本用户的用户特征分析,确定至少两个剩余特征分别对所述目标指标的影响力,所述筛选样本用户为所述正样本中筛选特征的特征取值为所述目标特征取值的用户,所述至少两个剩余特征为所述至少两个用户特征中除所述筛选特征以外的用户特征;基于所述至少两个剩余特征,再次执行筛选特征确定过程和筛选特征的目标特征取值的确定过程,直至筛选出第三目标阈值个筛选特征,将所述第三目标阈值个筛选特征作为所述目标特征。
在一种可能实现方式中,所述筛选模块,还用于对于每个目标特征,根据所述目标特征在所述第三目标阈值个两个目标特征中的筛选顺序,确定所述目标特征的特征优先级,所述目标特征的筛选顺序越靠前,所述目标特征的特征优先级越高。
在一种可能实现方式中,所述筛选模块,还用于对于所述第三目标阈值个目标特征中的第一目标特征,从所述至少两个用户中筛选出所述第一目标特征的特征取值为第一目标特征取值的第一目标用户集合;对于所述第三目标阈值个目标特征中的第二目标特征,从上一次筛选的目标用户集合中,筛选出所述第二目标特征的特征取值为第二目标特征取值的第二目标用户集合;
其中,所述第一目标特征是指所述第三目标阈值个目标特征中首次筛选出的目标特征,所述第二目标特征是指所述第三目标阈值个目标特征中除第一目标特征以外的特征。
在一种可能实现方式中,所述筛选模块,还用于基于所述目标特征的至少两个特征取值,从所述至少两个特征取值中筛选出所包括的用户在正样本中出现概率大于第一目标阈值的目标特征取值,所述正样本为对应的目标指标的数值对所述待投放信息进行正反馈的用户;基于所述目标特征的目标特征取值,从所述至少两个用户中筛选出目标特征的特征取值为所述目标特征取值的目标用户集合。
在一种可能实现方式中,所述第一目标条件为用户特征对所述目标指标的信息熵低于第二目标阈值,所述用户特征对所述目标指标的信息熵与所述影响力负相关。
另一方面,提供了一种服务器,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如上述的信息投放方法所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述的信息投放方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少可以包括:
通过分析多个用户特征分别对目标指标的影响力,从而准确衡量用户特征对目标指标的影响程度;基于影响程度满足第一目标条件的目标特征来筛选目标用户集合,向目标用户集合发送待投放信息,大大提升待投放信息在被投放用户群体中的正向影响力度,提升投放效果,尤其在投放资源有限时,大大提高了投放过程的实际投放效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息投放方法的实施环境的示意图;
图2是本申请实施例提供的一种信息投放方法的流程图;
图3是本申请实施例提供的一种信息投放装置的结构示意图;
图4是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的一种信息投放方法的实施环境的示意图,参见图1,该实施环境包括:服务器101和终端102。该终端102上可以安装有目标应用,该服务器101可以为目标应用的后台服务器,该服务器101和该终端102之间可以基于该目标应用进行信息交互。
在一种可能场景中,该服务器101可以预先存储有待投放信息,该服务器101可以基于该目标应用,向终端102发送该待投放信息,以实现向目标应用的用户投放信息。例如,该服务器101可以向终端102发送购物广告、视频流或者新闻等。在一个可能示例中,该服务器101还可以预测用户特征对待投放信息的目标指标的影响力,基于用户特征对目标指标的影响力来投放待投放信息。该目标指标用于衡量该待投放信息的期望投放效果,例如,投放购物广告后用户的购买频次、投放新闻后用户的点击率等。
需要说明的是,该服务器101可以为一台设备,也可以为由多台设备组成的设备集群。该终端102可以为安装该目标应用的任一终端,本申请实施例对此不做具体限定。例如,终端102可以为手机终端、PAD(Portable Android Device,平板电脑)终端或者电脑终端等。该目标应用可以为可以任一可以投放信息的视频应用、社交应用或者电商购物应用等,本申请实施例对此不做具体限定。
图2是本申请实施例提供的一种信息投放方法的流程图。该申请实施例的执行主体为服务器,参见图2,该方法包括以下步骤。
201、服务器确定待投放信息的目标指标。
本申请实施例中,该目标指标用于衡量该待投放信息的期望投放效果。该待投放信息可以为视频、图像、文本、网址链接、音频、动画等任一形式,该待投放信息的信息类别可以包括但不限于:购物广告、短视频、新闻等。
在一种可能示例中,该服务器可以基于待投放信息的信息类别,确定该待投放信息的目标指标。例如,该服务器可以预先存储多个信息类别和每个信息类别的目标指标之间的对应关系。因此,本步骤中,该服务器可以根据当前待投放信息的信息类别,从信息类别和目标指标之间的对应关系中,获取该待投放信息的目标指标。每个信息类别的目标指标可以基于需要进行设置,例如,购物广告的目标指标可以为用户的购买频率,短视频的目标指标可以为浏览时长,新闻的目标指标可以为点击率或阅读时长等。本申请实施例对此不做具体限定。
需要说明的是,由于待投放信息的信息类别、信息表现形式、对应的产品或者业务类型等的丰富多样,通常所期望达到的投放效果也有所差异,该服务器还可以结合待投放信息的信息表现形式、所对应的产品、业务类型等,确定不同的目标指标,上述示例过程仅以信息类别为例进行举例说明。另外,当需要进行信息投放时,用户也可以预先在服务器中配置待投放信息的目标指标。因此,本申请实施例的信息投放过程也可以从步骤202开始执行,也即是,服务器可以基于步骤202-207的执行过程实现信息投放,该服务器无需再通过步骤201来确定目标指标。
202、该服务器选取实验组和对照组,对该实验组投放该待投放信息。
本申请实施例中,该实验组包括至少两个样本用户,该对照组包括与该实验组的用户数相同的至少两个对照用户。该服务器可以选取目标数量的样本用户作为实验组,选取与该目标数量的对照用户作为对照组,向目标数量的样本用户发送该待投放信息。该对照组用户为不进行预投放过程的对照用户,对该实验组起对照的作用。在一个可能示例中,该对照组和实验组的用户特征分布可以相同。例如,该实验组和对照组各自包括40%的购买次数小于5的用户和60%的购买次数不小于5的用户。该实验组和对照组的用户特征的多个特征取值可以均匀分布,例如,对于性别这个特征,该性别特征的特征取值可以为男性,也可以为女性,该实验组和对照组各自包括50%的男性和50%的女性。
本申请实施例中,服务器可以针对目标应用上的多个用户进行投放,则该服务器可以从目标应用上的多个用户中筛选出目标数量的样本用户作为实验组,且根据实验组的用户特征,从目标应用的多个用户在筛选出用户特征与实验组的用户特征相同的对照组。在一个可能示例中,该服务器可以从大量用户群体中随机抽取实验组和对照组。例如,该服务器可以从目标应用的多个用户中,随机抽取目标数量的用户作为实验组,随机抽取目标数量的用户作为对照组,当该目标应用的用户数量和随机抽取的用户数量足够大时,该实验组和对照组的用户特征分布可以相同。该目标数量可以为不小于最低样本阈值的任一数值,例如,最低样本阈值可以为10万,该服务器从1000万用户群体中抽取1%的用户,得到的实验组和对照组的用户数均为10万。
在一个可能示例中,该服务器可以按照一定的投放策略进行投放,该投放策略可以包括不限于投放周期、投放次数等。例如,该服务器可以按照目标周期,在每个目标投放周期内向实验组投放目标投放次数的待投放信息。
203、该服务器基于每个样本用户对应的目标指标的数值和每个对照用户对应的目标指标的数值,确定该实验组中的正样本。
本申请实施例中,该正样本为对应的目标指标的数值对该待投放信息进行正反馈的用户。该正反馈是指相比不进行预投放过程,目标指标的数值受到预投放过程影响而增大。每个样本用户对应的目标指标的数值是指向该样本用户投放待投放信息后,待投放信息的目标指标的数值,例如,向用户A投放某产品的购物广告后,该用户A对该产品的购买频次。正样本中样本用户对应的目标指标的数值大于对应的对照用户所对应的目标指标的数值,该对应对照用户可以为与该样本用户的用户特征项相同或相近的对照用户。该服务器可以根据样本用户对应的目标指标的数值和对照用户对应的目标指标的数值,从实验组中选取目标指标的数值大于对应对照用户的样本用户作为正样本。在一种可能实施方式中,该服务器还可以结合样本用户和对照用户对应的目标指标的数值的相对变化情况,选取正样本。因此,本步骤还可以通过以下步骤2031-2032实现。
2031、服务器基于该每个样本用户对应的目标指标的数值和该每个对照用户对应的目标指标的数值,确定该每个样本用户对应的目标指标的数值的变化率和对照变化率。
该对照变化率为该对照组中与该样本用户对应的对照用户的变化率;该变化率用于指示向样本用户投放待投放信息前后,待投放信息的目标指标的数值变化程度。本申请实施例中,对于每个样本用户,该服务器可以根据向样本用户投放待投放信息之前该样本用户对应的目标指标的第一数值,以及投放之后对应的目标指标的第二数值,确定该样本用户对应的目标指标的数值的变化率。对于每个对照用户,该服务器也可以根据向实验组投放待投放信息之前,该对照用户对应的目标指标的第三数值,以及,向实验组投放待投放信息之后,该对照用户对应的目标指标的第四数值,确定该对照用户对应的变化率。该服务器每个对照用户对应的变化率和每个样本用户对应的变化率,确定每个样本用户对应的对照用户的变化率作为该样本用户的对照变化率。
样本用户对应的对照用户与该样本用户的用户特征相同或相近。在一种可能的实施方式中,该服务器可以根据样本用户的用户特征,从对照组中确定出与该用户特征相同的对照用户,将该对照用户对应的变化率确定为该样本用户的对照变化率。在另一种可能的实施方式中,该服务器可以选取与该样本用户的用户特征相近的对照用户确定对照变化率。例如,该服务器可以预先将实验组和对照组划分为多个用户集合,该服务器可以采用用户集合整体对应的变化率来衡量集合内单个用户对应的变化率。则该服务器确定样本用户对应的对照变化率的过程还可以包括:对于每个样本用户,该服务器根据该样本用户所属的第一用户集合,确定该第一用户集合在对照组所对应的第二用户集合,该服务器将该第二用户集合对应的目标指标的数值的变化率,确定为该样本用户的对照变化率。
在一个可能示例中,每个用户特征有至少两个特征取值,例如,登录天数、性别等。该服务器还可以根据用户特征的至少两个特征取值,分别将该实验组划分为多个第一用户集合,将对照组对应划分为多个第二用户集合,每个第一用户集合对应一个特征取值或特征取值范围相同的第二用户集合。在一个可能示例中,多个用户特征可以包括第一特征和第二特征,该第一特征是指特征取值为类别取值的分类特征;例如,性别特征,类别取值可以包括男性和女性。该第二特征是指特征取值为在一定数值范围内的多个数值的连续型特征。例如,购买次数的特征取值可以为0和最大购买次数之间的任意数值。对于第一特征,该服务器可以获取第一特征的多个类别取值,对于第二特征,该服务器可以将该第二特征的特征取值范围划分为多个取值区间,该服务器将该多个类别取值和多个取值区间进行组合,得到多个组合特征取值,每个组合特征取值包括至少一个第一特征的类别取值和至少一个第二特征的取值区间;该服务器以按照该多个组合特征取值,将实验组划分为多个第一用户集合,将对照组划分为多个第二用户集合。例如,用户特征可以包括性别和购买次数,对照组和实验组中购买次数的数值范围为0到10,则服务器构建出4个组合特征,特征1为:女性和购买次数小于5,特征2为:女性和购买次数大于等于5,特征3为:男性和购买次数小于5,特征4为:男性和购买次数大于等于5;则该服务器按照该4个组合特征,将实验组划分为4个第一用户集合,将对照组划分为4个第二用户集合。
在一个可能示例中,对于每个第二用户集合,该服务器可以获取该第二用户集合所包括的多个对照用户对应的目标指标的数值,根据该多个对照用户对应的目标指标的数值,确定每个对照用户对应的目标指标的数值的变化率,将该多个对照用户所对应的变化率的平均值,作为该第二用户集合对应的变化率。
需要说明的是,该服务器向实验组投放该待投放信息后,该服务器可以获取实验组和对照组的回收数据,该回收数据包括实验组和对照组所对应的目标指标的数值,该服务器从该回收数据中提取每个样本用户对应的目标指标的数值,以及每个对照用户对应的目标指标的数值。在一个可能示例中,该回收数据还可以包括样本用户对应的目标指标的数值、用户特征数据、用户个人信息数据等。该服务器还可以基于该样本数据对实验组进行过滤,删除实验组中的无效用户。例如,该服务器可以删除实验组中最近一次登录时间距当前时间超过一个月的无效用户,或者,删除一天之内购买次数超过100次的恶意刷单用户等,从而对样本数据进行清洗,滤除样本数据中的无效数据,进一步提高确定影响力的准确性。
在一个可能示例中,该服务器也可以从过滤后的回收数据中提取用户特征数据,基于提取的用户特征数据对实验组和对照组进行用户集合的划分。例如,该服务器可以对回收数据执行特征工程的处理流程,基于该特征工程的处理流程进行特征构建,得到多个用户特征的多个特征取值,进而得到多个组合特征,例如,该特征工程的处理流程可以包括但不限于:分箱(Binning)、独热编码(One-Hot Encoding)、特征哈希(Hashing Trick)、嵌套法(Embedding)、取对数(Log Transformation)、特征缩放(Scaling)、标准化(Normalization)、特征交互(Feature Interaction)等。例如,对于连续性特征,例如,登录天数、购买次数等,该服务器则可以采用分箱的处理过程,将连续型特征的特征取值等频分箱成K等分,并基于多个连续型特征的等分结果进行组合特征。
2032、服务器根据该每个样本用户对应的目标指标的数值的变化率和对照变化率之间的相对大小,将该实验组中对应相对大小满足第三目标条件的样本用户确定为正样本。
该服务器可以采用变化率和对照变化率之间的差值、相对增大倍数等形式来表示该变化率和对照变化率之间的相对大小,则该第三目标条件可以包括但不限于:变化率大于对照变化率,变化率与对照变化率之间的差值大于目标差值,或者,变化率相对于对照变化率的相对增大倍数大于第一阈值等。在一种可能的实施方式中,该服务器可以采用相对增大倍数表示该相对大小,则对于每个样本用户,该服务器可以根据该样本用户对应的变化率和对照变化率,根据以下公式一,确定该相对增大倍数:
公式一:P=(Q1—Q2)/ Q2;
Q1用于表示单个样本用户对应的目标指标的数值的变化率,Q2用于表示该样本用户对应的对照变化率,P用于表示相对增大倍数。
需要说明的是,该相对增大倍数的数值大小可以表示该样本用户是否对所投放的待投放信息进行了正反馈。在一个可能示例中,当样本用户的相对增大倍数的数值大于第一阈值时,表示该样本用户对应的目标指标的数值受到待投放信息的影响而相对增大,也即是,该目标指标的数值对待投放信息进行了正反馈,则该样本用户为正样本,当该样本用户的相对增大倍数的数值不大于第一阈值时,表示该样本用户对应的目标指标的数值未受到待投放信息的影响,或者受到待投放信息的影响而相对减小,该目标指标的数值对待投放信息进行了负反馈或者未进行反馈,则该样本用户为负样本。
在一个可能示例中,该第一阈值的大小可以基于需要进行调整,该第一阈值可以表示为敏感系数的形式,该服务器可以采用样本标签的取值来表示该正样本或负样本或无影响样本。例如,该第一阈值可以敏感系数α。当样本用户对应的相对增大倍数P大于或等于α时,该服务器可以确定该样本标签取值为1,代表该样本用户为正样本;当样本用户对应的相对增大倍数P小于或等于-α时,该服务器可以确定该样本标签取值为-1,代表该样本用户为负样本;当样本用户对应的相对增大倍数P大于-α且小于α时,该服务器可以确定该样本标签取值为0,代表该样本用户为无影响样本。该服务器可以对上述三类样本标签简化为二分类问题,例如,当相对增大倍数P大于或等于α,该服务器直接将该样本标签的赋值为1,代表该样本用户为正样本;当相对增大倍数P大于-α且小于α,以及相对增大倍数P小于或等于-α的情况时,将该样本用户作为负样本,该负样本的样本标签可以赋值为0。其中,该敏感系数α的大小可以基于需要进行设置,本申请实施例对此不做具体限定,例如,该敏感系数α可以为0.01、0.05、0.1等。
需要说明的是,步骤202-203通过选取实验组进行预投放,并选组对应的对照组对该预投放过程进行对照实验,减少了实验中的误差,从而提高实验数据的准确性;并且,还可以进一步划分用户集合,采用用户集合整体的目标指标的变化率,来确定正样本,进一步提高所确定出的正样本的准确性,提高了后续投放过程的准确性。
204、该服务器基于对该正样本的用户特征分析,确定该至少两个用户特征分别对该目标指标的影响力。
该影响力用于指示用户特征对目标指标的影响程度,该影响力越大,该用户特征对该目标指标的影响程度也越大,该影响力越小,说明该用户特征对该目标指标的影响程度也越小。对于每个用户特征,该服务器可以根据正样本中不同特征取值所包括的用户数量分布情况,来确定该用户特征对目标指标的影响力。当正样本中该用户特征的不同特征取值所包括的用户数量的分布越趋于均匀时,则该用户特征对目标指标的影响力越小,否则,影响力较大。在一种可能的实施方式中,该服务器还可以结合正样本中不同特征取值所包括的用户的出现概率,采用信息熵的形式来进一步表示该影响力的大小,相应的,本步骤可以通过以下步骤2041-2042实现。
2041、对于每个用户特征,该服务器基于该用户特征的至少两个特征取值,统计该正样本中每个特征取值所包括的用户的出现概率。
对于每个用户特征,该服务器统计正样本中该用户特征的多个特征取值所包括的用户数,根据每个特征取值所包括的用户数和该正样本的用户数,确定每个特征取值所包括的用户的出现概率。
在一种可能的实施方式中,基于用户特征可以分为第一特征和第二特征两种类型,相应的,本步骤可以包括以下两种情况。
第一种情况、对于第一特征,该服务器确定该第一特征的至少两个类别取值中每个类别取值所包括的用户数,根据该正样本的用户数和该每个类别取值所包括的用户数,确定该正样本中每个类别取值所包括的用户的出现概率。
本步骤中,该服务器可以统计正样本中每个类别取值分别所包括的用户数,基于每个类别取值分别所包括的用户数和正样本的用户数,计算正样本中每个类别取值所包括的用户的出现概率。例如,正样本的用户数为10万,其中,正样本中VIP用户数为8万,非VIP用户数为2万,则VIP用户的出现概率为0.8,非VIP用户的出现概率为0.2。
第二种情况、对于第二特征,该服务器根据该第二特征的特征取值范围,确定至少两个分割值,分别基于每个分割值,将该第二特征的特征取值范围划分为两个取值区间,根据该正样本的用户数和每个取值区间所包括的用户数,确定该正样本中每个取值区间所包括的用户的出现概率。
在一个可能示例中,该服务器可以采用逐渐增大分割值的方式,依次变量该特征取值范围中的每个特征取值作为一个分割值进行一次分割。对于每个第二特征,该服务器可以根据该第二特征的特征取值范围,从最小特征取值开始作为分割值进行一次分割,逐渐增大分割值的大小,每次增大分割值,对特征取值范围进行一次分割。每个分割值对应一次特征取值范围的分割过程,对于每个分割值,该服务器基于该分割值对应的两个取值区间,将正样本划分为该两个取值区间对应的两个用户集合,该服务器统计正样本中每个取值区间所包括的用户数,根据正样本用户数和正样本中每个取值区间所包括的用户数,确定每个取值区间所包括的用户的出现概率。例如,登录天数取值范围为0至7,该服务器第一次可以0为分割点,将包括10万用户数的正样本划分为登录天数为0的用户集合A,以及登录天数大于等于1且小于等于7的用户集合B,用户集合A的用户数和用户集合B的用户数分别为3万和7万,则用户集合A的出现概率为0.3,用户集合B的出现概率为0.7;然后该服务器将该分割值增大为1再次按照上述过程进行划分,得到登录天数大于等于1的用户集合C的出现概率为0.4,登录天数大于等于2且小于等于7的用户集合D的出现概率为0.6,以此类推,直至计算出分割值为7时两个划分的用户集合的出现概率。
需要说明的是,对于每次分割过程,上述过程仅以采用一个分割值将特征取值范围分割为两个取值区间的方式为例进行说明,当然,本申请实施例中,每次分割时,该服务器还可以采用两个或两个以上的分割值,将特征取值范围划分为三个或三个以上的取值区间。采用不同的分割方式时,遍历分割值的过程和确定每个取值区间所包括用户的出现概率的原理,与上述过程同理,此处不再赘述。
2042、该服务器根据该正样本中每个特征取值所包括的用户的出现概率,确定该用户特征对该目标指标的信息熵。
该用户特征对该目标指标的影响力和该信息熵负相关。本申请实施例中,该服务器可以采用信息熵来表示用户特征对目标指标的影响力,该信息熵的大小可以用于衡量用户特征之于目标指标而言的混沌程度和可区隔程度,该信息熵的数值越大,混沌程度越大,说明用户特征对目标指标的影响越小;该信息熵的数值越小,混沌程度越小,说明该用户特征对目标指标的影响越大。本步骤中,该服务器可以按照以下公式二,根据每个特征值所包括的用户的出现概率,确定该用户特征对该目标指标的信息熵;
该公式二中,H(x)表示用户特征对目标指标的信息熵,n用于表示该用户特征的n个特征取值。P(xi)表示n个特征取值中第i个特征取值所包括的用户的出现概率。
在一种可能的实施方式中,对于第一特征,该P(xi)表示多个类别取值中第i个类别取值所包括的用户的出现概率。例如,对于是否属于VIP用户这一特征,P(x1)=0.8表示VIP用户的出现概率,P(x2)=0.2表示非VIP用户的出现概率,该服务器可以将P(x1)、P(x2)代入上述公式二,得到是否属于VIP用户这一特征对于目标指标的信息熵。
在一种可能的实施方式中,对于第二特征,该服务器可以基于每次分割计算一次信息熵,结合多次分割的多个信息熵来确定第二特征对目标指标的信息熵。该过程可以包括:对于该每个分割值,该服务器可以基于该分割值对应的每个取值区间所包括的用户的出现概率,确定该第二特征按照该分割值分割时对该目标指标的第一信息熵,得到至少两个第一信息熵;该服务器可以将该至少两个第一信息熵中最小值,确定为该第二特征对该目标指标的信息熵。对于第二特征,上述公式二中P(xi)表示本次分割时一个取值区间所包括的用户的出现概率。该每次分割时信息熵的计算过程与上述第一特征的信息熵计算过程同理,此处不再赘述。
需要说明的是,通过对正样本中不同特征取值所包括的用户的出现概率,确定每个用户特征对目标指标的信息熵,从而准确量化出用户特征对目标指标的影响程度,提高了确定用户特征对目标指标的影响力的准确性,从而提高了后续投放过程的准确性。
需要说明的是,上述步骤202-204实际上是步骤“服务器基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对该目标指标的影响力”的一种具体实现方式,该预投放过程是指对样本用户投放待投放信息的过程。上述过程是通过分别选取实验组和对照组进行实验,将对照组的对照用户作为实验组的对照数据,进而分析用户特征对目标指标的影响力。在另一种可能的实施方式中,该服务器还可以预先存储对照数据,该服务器基于实验组的实验数据和该对照数据,分析用户特征对目标指标的影响力。该对照数据可以包括对照变化率、每个对照变化率所对应的对照用户特征、对照用户的用户信息等。则步骤“服务器基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对目标指标的影响力”可以包括:该服务器选取实验组,对实验组投放待投放信息,该服务器获取实验组的样本用户对应的目标指标的数值,并确定该样本用户对应的目标指标的数值的变化率,以及,该服务器从该服务器的本地存储空间所存储的对照数据中,提取样本用户的对照变化率,根据该样本用户对应的目标指标的数值的变化率和对照变化率,确定每个用户特征对目标指标的信息熵,从而实现用户特征对影响力确定过程。在一个可能示例中,该服务器还可以根据每个样本用户的用户特征,从本地存储空间中获取与该用户特征相同的对照用户特征所对应的对照变化率。
205、该服务器基于该至少两个用户特征对该目标指标的影响力,从至少两个用户特征中筛选出满足第一目标条件的目标特征。
本申请实施例中,该目标特征为该至少两个用户特征中影响力满足第一目标条件的特征。在一个可能示例中,该第一目标条件可以为用户特征对该目标指标的信息熵低于第二目标阈值,或者,该第一目标条件还可以为用户特征对该目标指标的信息熵最小等。例如,该服务器可以根据用户特征对目标指标的信息熵,从至少两个用户特征中筛选出信息熵最低的目标特征,或者,从至少两个用户特征中筛选出信息熵低于第二目标阈值的目标特征。
在另一种可能示例中,该目标特征的数量可以为至少两个,该服务器可以采用决策树的方式分步筛选出第三目标阈值个目标特征。则本步骤可以包括以下步骤2051-2054。
2051、该服务器基于该至少两个用户特征分别对目标指标的影响力,确定出影响力最大的筛选特征。
例如,该服务器可以根据每个用户特征对目标指标的信息熵,筛选出信息熵的数值最大的用户特征作为本次筛选出的筛选特征。
2052、对于该筛选特征的至少两个特征取值,该服务器根据正样本中每个特征取值所包括的用户的出现概率,确定出该至少两个特征取值中出现概率大于第一目标阈值的目标特征取值。
例如,该正样本为对应的目标指标的数值对该待投放信息进行正反馈的用户。该第一目标阈值的大小可以基于需要进行设置,本申请实施例对此不做具体限定。例如,该第一目标阈值可以为0.5、0.52、0.48等。
在一个可能示例中,该服务器还根据该目标特征取值,删除正样本中该筛选特征的特征取值为该目标特征取值的筛选样本用户。
2053、该服务器基于对正样本中筛选样本的用户特征分析,确定至少两个剩余特征分别对目标指标的影响力,该至少两个剩余特征是指该至少两个用户特征中除筛选特征以外的用户特征。
需要说明的是,该服务器确定剩余特征对目标指标的影响力的过程可以包括:对于每个剩余特征,该服务器基于该剩余特征的至少两个特征取值,统计该正样本的筛选样本中,每个特征取值所包括的用户的出现概率,该服务器根据该筛选样本中每个特征取值所包括的用户的出现概率,确定该剩余特征对该目标指标的信息熵。该服务器确定剩余特征对目标指标的影响力的具体实现方式与上述步骤204同理,此处不再赘述。
2054、该服务器基于该至少两个剩余特征,再次执行筛选特征确定过程和筛选特征的目标特征取值的确定过程,直至筛选出第三目标阈值个筛选特征,将该第三目标阈值个筛选特征作为该目标特征。
对于每个剩余特征,该服务器重复执行确定筛选特征和筛选特征的目标特征取值的执行过程,也即是重复执行上述步骤2051-2053,也即是,再次筛选出一个筛选特征以及基于本次筛选出的筛选特征,确定出筛选样本用户;直至筛选出第三目标阈值个筛选特征,该服务器将该第三目标阈值个筛选特征作为目标特征。
需要说明的又一点是,该服务器还可以确定每个目标特征的特征优先级,每个目标特征的特征优先级用于指示该目标特征在多个目标特征中对目标指标的影响程度,特征优先级与对目标指标的影响程度正相关,特征优先级越高,表示该目标特征在多个目标特征中对目标指标的影响程度越高。在一个可能示例中,对于每个目标特征,该服务器可以根据该目标特征在该第三目标阈值个目标特征中的筛选顺序,确定该目标特征的特征优先级;目标特征的筛选顺序越靠前,该目标特征的特征优先级越高;例如,基于上述过程筛选出的第一个目标特征的特征优先级最高,第二个目标特征的特征优先级为仅次于最高优先级,第三个目标特征的特征优先级仅次于第二个目标特征对应的投放的特征优先级,以此类推。
需要说明的是,通过先基于影响力,确定影响力满足第一目标条件的目标特征,可以得到对目标指标有较高影响力的目标特征,提高了确定目标特征的准确性,进而提高了后续投放时的投放效果,进而提高投放效率。并且,还可以通过影响力的大小,分步确定多个目标特征,并进一步得到多个目标特征的特征优先级,从而实现对多个目标特征的进行精细化分层,进一步提高了目标特征筛选的精确度和准确性,大大提升了投放过程的实际效率。
206、该服务器基于该目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合。
在一种可能的实施方式中,该服务器可以结合不同特征取值所包括的用户的出现概率,来筛选符合该第二目标条件的目标用户集合。在一种可能实施方式中,本步骤可以包括:该服务器基于该目标特征的至少两个特征取值,从该至少两个特征取值中筛选出所包括的用户在正样本中出现概率大于第一目标阈值的目标特征取值,该正样本为对应的目标指标的数值对该待投放信息进行正反馈的用户;该服务器基于该目标特征的目标特征取值,从该至少两个用户中筛选出用户的目标特征的取值为该目标特征取值的目标用户集合。
在一种可能的实施方式中,当该目标特征的数目为多个时,该服务器还可以基于该多个目标特征来筛选用户集合,该过程可以包括:对于该多个目标特征中第一目标特征,该服务器从目标应用的多个用户中筛选出第一目标特征的特征取值为第一目标特征取值的第一目标用户集合;对于该多个目标特征中的第二目标特征,该服务器从上一次筛选的目标用户集合中,筛选出第二目标特征的特征取值为第二目标特征取值的第二目标用户集合。该第一目标特征是指多个目标特征中优先级最高的目标特征。第二目标特征是指多个目标特征中除第一目标特征以外的目标特征。例如,正样本中女性出现概率为0.8,男性出现概率为0.2,则先从多个用户中筛出女性群体,下一步再从女性群体中筛出登录次数大于5的用户群体。
在一个可能示例中,该服务器可以结合多个目标特征的特征优先级,对所筛选出的多个目标用户集合进行分层。当该第二目标特征的数量为至少两个时,该服务器按照每个第二目标特征的特征优先级,从特征优先级最高的第二目标特征开始依次进行目标用户集合的筛选。例如,该服务器可以按照特征优先级的等级高低,对该多个目标特征进行降序排列,等级最高的第一目标特征排在首位,等级第二高的目标特征次之,以此类推,等级最低的目标特征排在末位。相应的,该服务器按照目标特征的优先级排序,根据优先级最高的第一目标特征的第一目标特征值,从至少两个用户中筛选出第一目标特征的特征取值为第一目标特征取值的第一目标用户集合;该服务器按照优先级排序中位于第二位的第二目标特征,从第一目标用户集合中筛选出该第二目标特征的特征取值为第二目标特征取值的第二目标用户集合;该服务器按照优先级排序中位于第三位的第二目标特征,从第二目标用户集合中筛选出该第二目标特征的特征取值为第二目标特征取值的第三目标用户集合,以此类推。进一步的,该服务器还可以根据特征优先级,确定所筛选出的目标用户集合的投放优先级。例如,该服务器可以将最后一次筛选的目标用户集合的投放优先级,确定为最高投放优先级,倒数第二次筛选出的目标用户集合的投放优先级次之,以此类推。在一个可能示例中,该服务器还可以对多次筛选出的多个目标用户集合进行去重处理,该去重处理的过程可以包括:该服务器按照该多个目标用户集合的投放优先级的高低,对该多个目标用户集合进行排序,投放优先级等级越高,排序位置越靠前。该服务器按照该多个目标用户集合的优先级排序,从优先级最高的目标用户集合开始执行下述去重处理过程:对于每个目标用户集合,该服务器根据该目标用户集合的投放优先级,确定出投放优先级高于该目标用户集合的第四用户集合,从该目标用户集合中删除四目标用户集合,得到第五目标用户集合;该目标用户集合的投放优先级即为该第五目标用户集合的投放优先级。
例如,特征优先级从高到低的四个目标特征依次为:特征1、特征2、特征3、特征4,依次筛选出符合特征1的用户集合1包括A、B、C、D四个用户;从用户集合1中,筛选出符合特征2的用户集合2包括A、B、C三位用户;从用户集合2中,筛选出符合特征3的用户集合3包括A、C两位用户,以及从用户集合3中筛选出符合特征4的用户集合4包括A用户;则用户集合4的投放优先级最高,也即是,A用户投放优先级最高;然后,对用户集合3去重处理,删除用户集合3中的A用户,则删除A用户后的用户集合3的投放优先级为第二高,也即是,C用户投放优先级为第二高;再对用户集合2进行去重处理,删除用户集合2中的A、C两位用户,也即是,B用户的投放优先级为第三高,最后去重处理后的用户集合1中D用户投放优先级最低。
需要说明的是,通过基于影响力满足一定条件的目标特征来筛选目标用户集合,提高了确定目标用户集合的准确性,使得确定出的用户集合具备对目标指标有较高影响力的用户特征,最大化提升后续投放时的投放效果,进而提高投放效率。并且,还可以通过基于多个目标特征以及目标特征的特征优先级,来分步筛选出多个目标用户集合,使得筛选出的每个用户集合的投放优先级不同,从而实现对多个用户进行精细化分层,进一步提高了目标用户集合筛选的精确度和准确性,杜绝了人工决策的经验主义及人为判断的失误,提升了投放过程的实际效率,带动了产品增长。
207、该服务器向该目标用户集合发送该待投放信息。
本申请实施例中,该服务器可以按照投放指示信息,向目标用户发送该待投放信息。该投放指示信息可以包括但不限于:投放频次、投放信息类型等。例如,投放信息类型可以包括视频、网址链接、图像等。
在一种可能的实施方式中,该服务器还可以基于不同目标用户集合的投放优先级,配置对应的投放指示信息。对于每个目标用户集合,该服务器根据该目标用户集合的投放优先级,获取该投放优先级对应的投放指示信息,按照对应的投放指示信息,向该目标用户集合发送待投放信息。例如,对于不同投放优先级,设置不同的投放频次,投放优先级越高,对应的投放频次也越高,从而对优先级最高的筛选用户集合优先投放,实现投放效果的最大化。
需要说明的是,通过仅针对目标特征取值的用户群体进行信息投放,从而提高了投放后用户对待投放信息的正向反馈,并且,还可以针对不同分层的用户群体配置不同的投放指示信息,使得正向反馈力度不同的用户按照不同的投放策略进行投放,在投放资源有限的前提下,通过精细化的投放过程,使得投放后目标指标能够得到最大提升,从而最大化的优化了投放效果,提高了投放过程的实际投放效率。
本申请实施例提供的方法,通过分析多个用户特征分别对目标指标的影响力,从而准确衡量用户特征对目标指标的影响程度;基于影响程度满足第一目标条件的目标特征来筛选目标用户集合,向目标用户集合发送待投放信息,大大提升待投放信息在被投放用户群体中的正向影响力度,提升投放效果,尤其在投放资源有限时,大大提高了投放过程的实际投放效率。
图3是本申请实施例提供的一种信息投放装置的结构示意图。参见图3,该装置包括:
确定模块301,用于基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对该目标指标的影响力,该目标指标用于衡量该待投放信息的期望投放效果,该预投放过程是指对样本用户投放该待投放信息的过程;
筛选模块302,用于基于该至少两个用户特征对该目标指标的影响力,从该至少两个用户特征中筛选出影响力满足第一目标条件的目标特征;
该筛选模块302,还用于基于该目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合;
投放模块303,用于向该目标用户集合发送该待投放信息。
在一种可能实现方式中,该确定模块301,还用于选取实验组和对照组,对该实验组投放该待投放信息,该实验组包括至少两个样本用户,该对照组包括与该实验组的用户数相同的至少两个对照用户;基于每个样本用户对应的目标指标的数值和每个对照用户对应的目标指标的数值,确定该实验组中的正样本,该正样本为对应的目标指标的数值对该待投放信息进行正反馈的用户;基于对该正样本的用户特征分析,确定该至少两个用户特征分别对该目标指标的影响力。
在一种可能实现方式中,该确定模块301,还用于对于每个用户特征,基于该用户特征的至少两个特征取值,统计该正样本中每个特征取值所包括的用户的出现概率;根据该正样本中每个特征取值所包括的用户的出现概率,确定该用户特征对该目标指标的信息熵,该用户特征对该目标指标的影响力和该信息熵负相关。
在一种可能实现方式中,该确定模块301,还用于对于该至少两个用户特征中的第一特征,确定该第一特征的至少两个类别取值中每个类别取值所包括的用户数;根据该正样本的用户数和该每个类别取值所包括的用户数,确定该正样本中每个类别取值所包括的用户的出现概率。
在一种可能实现方式中,该确定模块301,还用于对于该至少两个用户特征中的第二特征,根据该第二特征的特征取值范围,确定至少两个分割值;分别基于每个分割值,将该第二特征的特征取值范围划分为两个取值区间;根据该正样本的用户数和每个取值区间所包括的用户数,确定该正样本中每个取值区间所包括的用户的出现概率。
在一种可能实现方式中,该确定模块301,还用于对于该每个分割值,基于该分割值对应的每个取值区间所包括的用户的出现概率,确定该第二特征按照该分割值分割时对该目标指标的第一信息熵,得到至少两个第一信息熵;将该至少两个第一信息熵中最小值,确定为该第二特征对该目标指标的信息熵。
在一种可能实现方式中,该确定模块301,还用于基于该每个样本用户对应的目标指标的数值和该每个对照用户对应的目标指标的数值,确定该每个样本用户对应的目标指标的数值的变化率和对照变化率,该对照变化率为该对照组中与该样本用户对应的对照用户的变化率;根据该每个样本用户对应的目标指标的数值的变化率和对照变化率之间的相对大小,将该实验组中对应相对大小满足第三目标条件的样本用户确定为正样本。
在一种可能实现方式中,该筛选模块302,还用于基于该至少两个用户特征分别对该目标指标的影响力,从该至少两个用户特征中确定出影响力最大的筛选特征;对于该筛选特征的至少两个特征取值,根据正样本中每个特征取值所包括的用户的出现概率,确定该至少两个特征取值中出现概率大于第一目标阈值的目标特征取值,该正样本为对应的目标指标的数值对该待投放信息进行正反馈的用户;基于对该正样本中筛选样本用户的用户特征分析,确定至少两个剩余特征分别对该目标指标的影响力,该筛选样本用户为该正样本中筛选特征的特征取值为该目标特征取值的用户,该至少两个剩余特征为该至少两个用户特征中除该筛选特征以外的用户特征;基于该至少两个剩余特征,再次执行筛选特征确定过程和筛选特征的目标特征取值的确定过程,直至筛选出第三目标阈值个筛选特征,将该第三目标阈值个筛选特征作为该目标特征。
在一种可能实现方式中,该筛选模块302,还用于对于每个目标特征,根据该目标特征在该第三目标阈值个目标特征中的筛选顺序,确定该目标特征的特征优先级,该目标特征的筛选顺序越靠前,该目标特征的特征优先级越高。
在一种可能实现方式中,该筛选模块302,还用于对于该第三目标阈值个目标特征中的第一目标特征,从该至少两个用户中筛选出该第一目标特征的特征取值为第一目标特征取值的第一目标用户集合;对于该第三目标阈值个目标特征中的第二目标特征,从上一次筛选的目标用户集合中,筛选出该第二目标特征的特征取值为第二目标特征取值的第二目标用户集合;
其中,该第一目标特征是指该第三目标阈值个目标特征中首次筛选出的目标特征,该第二目标特征是指该第三目标阈值个目标特征中除第一目标特征以外的特征。
在一种可能实现方式中,该筛选模块302,还用于基于该目标特征的至少两个特征取值,从该至少两个特征取值中筛选出所包括的用户在正样本中出现概率大于第一目标阈值的目标特征取值,该正样本为对应的目标指标的数值对该待投放信息进行正反馈的用户;基于该目标特征的目标特征取值,从该至少两个用户中筛选出目标特征的特征取值为该目标特征取值的目标用户集合。
在一种可能实现方式中,该第一目标条件为用户特征对该目标指标的信息熵低于第二目标阈值,该用户特征对该目标指标的信息熵与该影响力负相关。
本申请实施例提供的装置,通过分析多个用户特征分别对目标指标的影响力,从而准确衡量用户特征对目标指标的影响程度;基于影响程度满足第一目标条件的目标特征来筛选目标用户集合,向目标用户集合发送待投放信息,大大提升待投放信息在被投放用户群体中的正向影响力度,提升投放效果,尤其在投放资源有限时,大大提高了投放过程的实际投放效率。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的信息投放装置在投放信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信息投放装置与信息投放方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本申请实施例提供的一种服务器的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)401和一个或一个以上的存储器402,其中,该存储器402中存储有至少一条指令,该至少一条指令由该处理器401加载并执行以实现上述各个方法实施例提供的信息投放方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由服务器中的处理器执行以完成上述实施例中的信息投放方法。例如,该计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(random accessmemory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种信息投放方法,其特征在于,所述方法包括:
基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对所述目标指标的影响力,所述目标指标用于衡量所述待投放信息的期望投放效果,所述预投放过程是指对样本用户投放所述待投放信息的过程;
基于所述至少两个用户特征对所述目标指标的影响力,从所述至少两个用户特征中筛选出影响力满足第一目标条件的目标特征;
基于所述目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合;
向所述目标用户集合发送所述待投放信息。
2.根据权利要求1所述的方法,其特征在于,所述基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对所述目标指标的影响力包括:
选取实验组和对照组,对所述实验组投放所述待投放信息,所述实验组包括至少两个样本用户,所述对照组包括与所述实验组的用户数相同的至少两个对照用户;
基于每个样本用户对应的目标指标的数值和每个对照用户对应的目标指标的数值,确定所述实验组中的正样本,所述正样本为对应的目标指标的数值对所述待投放信息进行正反馈的用户;
基于对所述正样本的用户特征分析,确定所述至少两个用户特征分别对所述目标指标的影响力。
3.根据权利要求2所述的方法,其特征在于,所述基于对所述正样本的用户特征分析,确定所述至少两个用户特征分别对所述目标指标的影响力包括:
对于每个用户特征,基于所述用户特征的至少两个特征取值,统计所述正样本中每个特征取值所包括的用户的出现概率;
根据所述正样本中每个特征取值所包括的用户的出现概率,确定所述用户特征对所述目标指标的信息熵,所述用户特征对所述目标指标的影响力和所述信息熵负相关。
4.根据权利要求3所述的方法,其特征在于,所述对于每个用户特征,基于所述用户特征的至少两个特征取值,统计所述正样本中每个特征取值所包括的用户的出现概率包括:
对于所述至少两个用户特征中的第一特征,确定所述第一特征的至少两个类别取值中每个类别取值所包括的用户数;
根据所述正样本的用户数和所述每个类别取值所包括的用户数,确定所述正样本中每个类别取值所包括的用户的出现概率。
5.根据权利要求3所述的方法,其特征在于,所述对于每个用户特征,基于所述用户特征的至少两个特征取值,统计所述正样本中每个特征取值所包括的用户的出现概率包括:
对于所述至少两个用户特征中的第二特征,根据所述第二特征的特征取值范围,确定至少两个分割值;
分别基于每个分割值,将所述第二特征的特征取值范围划分为两个取值区间;
根据所述正样本的用户数和每个取值区间所包括的用户数,确定所述正样本中每个取值区间所包括的用户的出现概率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述正样本中每个特征取值所包括的用户的出现概率,确定所述用户特征对所述目标指标的信息熵包括:
对于所述每个分割值,基于所述分割值对应的每个取值区间所包括的用户的出现概率,确定所述第二特征按照所述分割值分割时对所述目标指标的第一信息熵,得到至少两个第一信息熵;
将所述至少两个第一信息熵中最小值,确定为所述第二特征对所述目标指标的信息熵。
7.根据权利要求2所述的方法,其特征在于,所述基于每个样本用户对应的目标指标的数值和每个对照用户对应的目标指标的数值,确定所述实验组中的正样本包括:
基于所述每个样本用户对应的目标指标的数值和所述每个对照用户对应的目标指标的数值,确定所述每个样本用户对应的目标指标的数值的变化率和对照变化率,所述对照变化率为所述对照组中与所述样本用户对应的对照用户的变化率;
根据所述每个样本用户对应的目标指标的数值的变化率和对照变化率之间的相对大小,将所述实验组中对应相对大小满足第三目标条件的样本用户确定为正样本。
8.根据权利要求1所述的方法,其特征在于,所述基于所述至少两个用户特征对所述目标指标的影响力,从所述至少两个用户特征中筛选出影响力满足第一目标条件的目标特征包括:
基于所述至少两个用户特征分别对所述目标指标的影响力,从所述至少两个用户特征中确定出影响力最大的筛选特征;
对于所述筛选特征的至少两个特征取值,根据正样本中每个特征取值所包括的用户的出现概率,确定所述至少两个特征取值中出现概率大于第一目标阈值的目标特征取值,所述正样本为对应的目标指标的数值对所述待投放信息进行正反馈的用户;
基于对所述正样本中筛选样本用户的用户特征分析,确定至少两个剩余特征分别对所述目标指标的影响力,所述筛选样本用户为所述正样本中筛选特征的特征取值为所述目标特征取值的用户,所述至少两个剩余特征为所述至少两个用户特征中除所述筛选特征以外的用户特征;
基于所述至少两个剩余特征,再次执行筛选特征确定过程和筛选特征的目标特征取值的确定过程,直至筛选出第三目标阈值个筛选特征,将所述第三目标阈值个筛选特征作为所述目标特征。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
对于每个目标特征,根据所述目标特征在所述第三目标阈值个目标特征中的筛选顺序,确定所述目标特征的特征优先级,所述目标特征的筛选顺序越靠前,所述目标特征的特征优先级越高。
10.根据权利要求8所述的方法,其特征在于,所述基于所述目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合包括:
对于所述第三目标阈值个目标特征中的第一目标特征,从所述至少两个用户中筛选出所述第一目标特征的特征取值为第一目标特征取值的第一目标用户集合;
对于所述第三目标阈值个目标特征中的第二目标特征,从上一次筛选的目标用户集合中,筛选出所述第二目标特征的特征取值为第二目标特征取值的第二目标用户集合;
其中,所述第一目标特征是指所述第三目标阈值个目标特征中首次筛选出的目标特征,所述第二目标特征是指所述第三目标阈值个目标特征中除第一目标特征以外的特征。
11.根据权利要求1所述的方法,其特征在于,所述基于所述目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合包括:
基于所述目标特征的至少两个特征取值,从所述至少两个特征取值中筛选出所包括的用户在正样本中出现概率大于第一目标阈值的目标特征取值,所述正样本为对应的目标指标的数值对所述待投放信息进行正反馈的用户;
基于所述目标特征的目标特征取值,从所述至少两个用户中筛选出目标特征的特征取值为所述目标特征取值的目标用户集合。
12.根据权利要求1所述的方法,其特征在于,所述第一目标条件为用户特征对所述目标指标的信息熵低于第二目标阈值,所述用户特征对所述目标指标的信息熵与所述影响力负相关。
13.一种信息投放装置,其特征在于,所述装置包括:
确定模块,用于基于预投放过程中待投放信息的目标指标的数值,确定至少两个用户特征分别对所述目标指标的影响力,所述目标指标用于衡量所述待投放信息的期望投放效果,所述预投放过程是指对样本用户投放所述待投放信息的过程;
筛选模块,用于基于所述至少两个用户特征对所述目标指标的影响力,从所述至少两个用户特征中筛选出影响力满足第一目标条件的目标特征;
所述筛选模块,还用于基于所述目标特征,从至少两个用户中筛选出目标特征符合第二目标条件的目标用户集合;
投放模块,用于向所述目标用户集合发送所述待投放信息。
14.一种服务器,其特征在于,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的信息投放方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的信息投放方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010265948.5A CN111144957B (zh) | 2020-04-07 | 2020-04-07 | 信息投放方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010265948.5A CN111144957B (zh) | 2020-04-07 | 2020-04-07 | 信息投放方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144957A true CN111144957A (zh) | 2020-05-12 |
CN111144957B CN111144957B (zh) | 2021-03-19 |
Family
ID=70528809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010265948.5A Active CN111144957B (zh) | 2020-04-07 | 2020-04-07 | 信息投放方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144957B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508608A (zh) * | 2020-12-09 | 2021-03-16 | 上海浦东发展银行股份有限公司 | 一种推广活动配置方法、系统、计算机设备及存储介质 |
CN113159815A (zh) * | 2021-01-25 | 2021-07-23 | 腾讯科技(深圳)有限公司 | 一种信息投放策略测试方法、装置、存储介质和电子设备 |
CN113965522A (zh) * | 2021-11-11 | 2022-01-21 | 湖南快乐阳光互动娱乐传媒有限公司 | 行为日志分组方法、装置、存储介质和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177380A (zh) * | 2013-02-26 | 2013-06-26 | 北京集奥聚合科技有限公司 | 结合用户群与预投放的广告投放效果的优化方法和装置 |
CN103685502A (zh) * | 2013-12-09 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 一种消息推送方法、装置及系统 |
CN105046533A (zh) * | 2015-08-07 | 2015-11-11 | 北京品友互动信息技术有限公司 | 一种分析信息投放影响因素的方法和装置 |
US20160014557A1 (en) * | 2012-04-10 | 2016-01-14 | Yellowpages.Com Llc | User description based on a context of travel |
CN108122122A (zh) * | 2016-11-29 | 2018-06-05 | 腾讯科技(深圳)有限公司 | 广告投放方法和系统 |
CN109214421A (zh) * | 2018-07-27 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种模型训练方法、装置、及计算机设备 |
CN109766932A (zh) * | 2018-12-25 | 2019-05-17 | 新华三大数据技术有限公司 | 一种特征筛选方法以及特征筛选装置 |
CN110033156A (zh) * | 2018-12-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种业务活动效果的确定方法及装置 |
CN110443647A (zh) * | 2019-08-01 | 2019-11-12 | 北京字节跳动网络技术有限公司 | 信息投放方法及设备 |
-
2020
- 2020-04-07 CN CN202010265948.5A patent/CN111144957B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160014557A1 (en) * | 2012-04-10 | 2016-01-14 | Yellowpages.Com Llc | User description based on a context of travel |
CN103177380A (zh) * | 2013-02-26 | 2013-06-26 | 北京集奥聚合科技有限公司 | 结合用户群与预投放的广告投放效果的优化方法和装置 |
CN103685502A (zh) * | 2013-12-09 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 一种消息推送方法、装置及系统 |
CN105046533A (zh) * | 2015-08-07 | 2015-11-11 | 北京品友互动信息技术有限公司 | 一种分析信息投放影响因素的方法和装置 |
CN108122122A (zh) * | 2016-11-29 | 2018-06-05 | 腾讯科技(深圳)有限公司 | 广告投放方法和系统 |
CN109214421A (zh) * | 2018-07-27 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种模型训练方法、装置、及计算机设备 |
CN110033156A (zh) * | 2018-12-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种业务活动效果的确定方法及装置 |
CN109766932A (zh) * | 2018-12-25 | 2019-05-17 | 新华三大数据技术有限公司 | 一种特征筛选方法以及特征筛选装置 |
CN110443647A (zh) * | 2019-08-01 | 2019-11-12 | 北京字节跳动网络技术有限公司 | 信息投放方法及设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508608A (zh) * | 2020-12-09 | 2021-03-16 | 上海浦东发展银行股份有限公司 | 一种推广活动配置方法、系统、计算机设备及存储介质 |
CN113159815A (zh) * | 2021-01-25 | 2021-07-23 | 腾讯科技(深圳)有限公司 | 一种信息投放策略测试方法、装置、存储介质和电子设备 |
CN113965522A (zh) * | 2021-11-11 | 2022-01-21 | 湖南快乐阳光互动娱乐传媒有限公司 | 行为日志分组方法、装置、存储介质和设备 |
CN113965522B (zh) * | 2021-11-11 | 2024-04-05 | 湖南快乐阳光互动娱乐传媒有限公司 | 行为日志分组方法、装置、存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111144957B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144957B (zh) | 信息投放方法、装置、服务器及存储介质 | |
CN109408665B (zh) | 一种信息推荐方法及装置、存储介质 | |
CN106156791B (zh) | 业务数据分类方法和装置 | |
CN110909205B (zh) | 一种视频封面确定方法、装置、电子设备及可读存储介质 | |
JP4524709B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
CN111178380B (zh) | 数据分类方法、装置及电子设备 | |
US20160285672A1 (en) | Method and system for processing network media information | |
CN112241494B (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN106326391A (zh) | 多媒体资源推荐方法及装置 | |
CN108665293B (zh) | 特征重要性获取方法及装置 | |
CN109977299B (zh) | 一种融合项目热度和专家系数的推荐算法 | |
CN105677925B (zh) | 数据库用户数据处理方法和装置 | |
CN109978575B (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN114996486A (zh) | 一种数据推荐方法、装置、服务器以及存储介质 | |
CN110598126B (zh) | 基于行为习惯的跨社交网络用户身份识别方法 | |
CN111858245A (zh) | 一种异常数据的分析方法、装置、电子设备及存储介质 | |
KR102183140B1 (ko) | 빅데이터에 기반한 사용자의 재구독 가능성 계산 장치 및 방법 | |
CN113222073A (zh) | 训练迁移学习模型和推荐模型的方法及装置 | |
CN112905879A (zh) | 推荐方法、装置、服务器以及存储介质 | |
CN108804676A (zh) | 一种帖子排序方法、装置、设备及计算机可读存储介质 | |
CN115982634A (zh) | 应用程序分类方法、装置、电子设备及计算机程序产品 | |
CN108985811A (zh) | 用于精准营销的方法、装置及电子设备 | |
CN114021642A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114143571B (zh) | 一种用户处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |