发明内容
本说明书实施例旨在提供一种更有效的向人群投放业务的方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种基于预测模型向人群投放业务的方法,包括:
获取多个第一人群,并获取各个第一人群相应的群特征;
将所述群特征分别输入预测模型,以从所述模型的输出分别获取所述多个第一人群各自的分数,所述分数预测所述第一人群对所述业务的点击率和使用率的加权和;以及
基于所述多个第一人群各自的分数,确定所述业务的投放人群,以投放所述业务。
在一个实施例中,获取多个第一人群包括,获取多个第二人群,计算多个第二人群的两两相似度,以及基于所述相似度对所述多个第二人群进行合并,以获取多个第一人群。
在一个实施例中,所述相似度通过如下公式计算:
其中,X和Y为两个人群各自的群特征,α为特征偏重参数,基于相似度与X、Y的特征列差异的相关性确定,β为时间衰减惩罚参数,基于相似度与时间的相关性确定。
在一个实施例中,所述第一人群或所述第二人群为以下任一种人群:基于用户画像获取的人群、基于关联关系获取的人群、基于定性研究获取的人群。
在一个实施例中,所述群特征基于以下至少一种特征获取:用户属性特征、用户画像特征、用户画像特征的获取时间。
在一个实施例中,基于所述多个第一人群各自的分数,确定所述业务的投放人群,以投放所述业务包括,
在所述多个第一人群中,获取分数高于预定值的多个第一人群作为多个投放人群;
将所述多个投放人群均匀划分为预定数目个组,其中,各个组包括的投放人群之间的两两相似度之和的总和小于预定阈值;以及
分别向所述预定数目个组先后投放所述业务。
在一个实施例中所述预测模型通过以下步骤训练:
获取多个样本,其中,每个样本包括:人群的群特征、人群的标签值,所述标签值指示所述人群对向其投放的所述业务的点击率和使用率的加权和;以及
使用所述多个样本训练回归模型,以获取所述预测模型。
在一个实施例中,所述回归模型为GBRT模型。
在一个实施例中,所述方法还包括,在获取所述预测模型之后,基于所述预测模型,评估所述群特征包括的各个维度对于预测结果的重要性。
本说明书另一方面提供一种基于预测模型向人群投放业务的装置,包括:
获取单元,配置为,获取多个第一人群,并获取各个第一人群相应的群特征;
输入单元,配置为,将所述群特征分别输入预测模型,以从所述模型的输出分别获取所述多个第一人群各自的分数,所述分数预测所述第一人群对所述业务的点击率和使用率的加权和;以及
投放单元,配置为,基于所述多个第一人群各自的分数,确定所述业务的投放人群,以投放所述业务。
在一个实施例中,所述获取单元配置为,获取多个第二人群,计算多个第二人群的两两相似度,以及基于所述相似度对所述多个第二人群进行合并,以获取多个第一人群。
在一个实施例中,所述投放单元包括,
获取子单元,配置为,在所述多个第一人群中,获取分数高于预定值的多个第一人群作为多个投放人群;
分组子单元,配置为,将所述多个投放人群均匀划分为预定数目个组,其中,各个组包括的投放人群之间的两两相似度之和的总和小于预定阈值;以及
投放子单元,配置为,分别向所述预定数目个组先后投放所述业务。
在一个实施例中,所述预测模型通过训练装置训练,所述训练装置包括:
获取单元,配置为,获取多个样本,其中,每个样本包括:人群的群特征、人群的标签值,所述标签值指示所述人群对向其投放的所述业务的点击率和使用率的加权和;以及
训练单元,配置为,使用所述多个样本训练回归模型,以获取所述预测模型。
在一个实施例中,所述装置还包括评估单元,配置为,在获取所述预测模型之后,基于所述预测模型,评估所述群特征包括的各个维度对于预测结果的重要性。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
在根据本说明书实施例的向人群投放业务的方案中,通过训练回归模型用于预测人群的分数,其中,可同时学习多个目标,即,同时优化点击率和使用率等指标,通过使用预测模型对人群进行打分以获取投放人群,从而可以从新增人群自动获取新的营销组合,另外,通过计算人群之间的相似度,确保每个人群之间的充分差异,并在投放时对差异性大的多个人群同时投放,从而保证运营活动覆盖更大的范围,保证营销效果。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出根据本说明书实施例的向人群投放业务的系统100的示意图。如图所示,系统100包括人群获取单元11、预测模型12以及业务投放单元13。其中,人群获取单元11用于获取多个精准人群,每个人群具有相应的群特征。预测模型12用于预测预定人群的分数,该分数与该人群对目标业务的点击率和使用率相关。预测模型12通过使用多个人群样本训练回归模型获取,样本的标签值为该样本对应的人群对该目标业务的点击率和使用率。业务投放单元13用于基于预测模型12对各个精细人群预测的分数,确定将要投放业务的投放人群并进行业务投放。其中,业务投放单元13在对投放人群投放业务之后,可收集投放人群对业务的点击、使用数据,以作为训练样本,用于进一步训练预测模型12。
图2示出根据本说明书实施例的一种基于预测模型向人群投放业务的方法的流程图,包括:
在步骤S202,获取多个第一人群,并获取各个第一人群相应的群特征;
在步骤S204,将所述群特征分别输入预测模型,以从所述模型的输出分别获取所述多个第一人群各自的分数,所述分数预测所述第一人群对所述业务的点击率和使用率的加权和;以及
在步骤S206,基于所述多个第一人群各自的分数,确定所述业务的投放人群,以投放所述业务。
首先,在步骤S202,获取多个第一人群,并获取各个第一人群相应的群特征。
可通过获取潜在用户人群的多个精准细分人群作为所述多个第一人群。可通过多种方式获取细分人群。例如,在全部潜在用户中,首先通过各个用户的与其它业务相关的用户画像进行圈人。该其它业务可以是在该业务之前进行的历史业务,也可以是与该业务同时进行的其它业务,用户在参与了其它业务之后,会具有与该业务相关的用户画像。可将该用户画像相似度大于预定阈值的多个用户划分为一个细分人群。之后,在剩下的潜在用户人群中,可通过另一种方式进行圈人,例如,通过预定关联关系进行圈人。所述关联关系例如为具有相同职业、参加过相同的营销活动、来自同一个朋友圈等等。然后,对于剩下的潜在用户群体,还可以再通过另一种方式进行圈人,例如,通过定性研究确定人群,例如,可通过对特定人群发送调查问卷,确定细分人群等。可以理解,上述几个确定细分人群的方法和操作顺序只是示例性的,在实际中,可根据业务特点自行选择用户获取细分人群的方法和步骤。
在如上所述获取各个细分人群之后,可获取每个细分人群的群特征。群特征基于以下至少一种特征获取:用户属性特征、用户画像特征、用户画像特征的获取时间等等。用户属性特征例如包括用户的年龄、性别、职业、教育程度等等。用户画像特征是基于特定模型获取的用户特征,例如用户的购买力、购买偏好等等。所述用户画像特征一般与特定的业务相关联,即在不同的业务中,针对不同的关注点获取用户的用户画像。例如,对于外卖业务,对应的用户画像特征中可包括用户口味偏好、点单时间偏好等特征。通过在群特征中包括用户画像特征的获取时间,在群特征中加入时间相关性,从而可以对历史重要维度进行浮现,组合,把历史上好的经验代入到近期的处理操作中,比如半年以前显著的维度,以获取更好的模型预测结果。所述群特征例如可以取各个用户的特征的均值、也可以包括各个用户的特征、还可以包括各个用户共同的特征,等等。
在一个实施例中,在获取各个细分群的群特征之后,可通过如下的公式(1)计算两个群的相似度:
其中,X和Y为两个人群各自的群特征,α表示特征偏重参数,基于相似度与X、Y的特征列差异的相关性确定,当α>0.5时,表示相似度的计算中更偏重特征类型是否相同,当α<0.5时,表示相似度的计算中更偏重特征取值是否相同。例如,可取α=0.7,这表示在相似度计算中,群特征中的特征列的差异是更重要的差异。β表示时间衰减惩罚参数,基于相似度与时间的相关性确定。如果特征的获取时间较早,已经部分失真,因此相似度也相应地减少。例如,如果特征的获取时间早于6个月,则将β取为0.8。其中,X*Y表示向量X与Y的点积,||X||和||Y||分别表示向量X和Y的范数。这里虽然以公式(1)为例进行了说明,其中公式(1)为基于余弦相似度进行的改进,所述相似度不限于公式(1)所示的方式。在本说明书实施例中,可类似地,通过在其它相似度(如欧式距离)中引入特征偏重参数和时间衰减惩罚参数,而进行相似度的计算,另外,所述相似度也可以是余弦相似度、欧式距离等。
在获取各个细分群之间的两两相似度之后,可基于所述相似度对多个细分群进行合并,并可将经过合并获取的多个群作为所述多个第一人群。图3示意示出了基于群相似度对细分群进行合并的过程。如图3中所示,例如获取了5个细分群:群1-群5,通过计算群1-群5的两两相似度,可对群1-群5进行合并。具体是,通过确定群1和群2、群2和群3、以及群1和群3之间的相似度都大于预定阈值,将群1、群2和群3合并为群6。基于群4、群5、群6之间的两两相似度,确定其之间的相似度都小于预定阈值,因此不再继续合并,即,最后可获取群4、群5和群6三个群作为所述第一人群。在获取合并的群6之后,可如上所述重新获取群6的群特征。
在步骤S204,将所述群特征分别输入预测模型,以从所述模型的输出分别获取所述多个第一人群各自的分数,所述分数预测所述第一人群对所述业务的点击率和使用率的加权和。
所述预测模型为通过训练回归模型获取的预测模型,其例如为GBRT模型,其具体训练过程将在下文详细描述。在使用该预测模型时,将所述第一人群的群特征输入该预测模型,该模型基于所述群特征输出对应的预测分数,该预测分数与该模型预测的该第一人群对所述业务的点击率和使用率相关,即,所述分数预测所述第一人群对所述业务的点击率和使用率的加权和。预测分数越高,说明该第一人群对特定业务的可能的点击率和使用率越高,因此,可作为该业务的投放人群。通过将各个第一人群分别输入所述预测模型,可分别获取各个第一人群的分数。
在步骤S206,基于所述多个第一人群各自的分数,确定所述业务的投放人群,以投放所述业务。
例如,可选定所述多个第一人群中分数大于预定阈值的多个第一人群作为所述业务的投放人群。在一个实施例中,在选定待投放的多个第一人群之后,可同时对该多个选定的第一人群投放业务。
在一个实施例中,获取所述多个第一人群中分数高于预定值的多个第一人群作为多个投放人群;将所述多个投放人群均匀划分为预定数目个组,其中,各个组包括的投放人群之间的两两相似度之和的总和小于预定阈值;以及分别向所述预定数目个组先后投放所述业务。所述组的个数可根据具体业务的运营时间、投放人群的群数等自行设定。例如,业务的运营时间为15天,投放人群的群数为10群,可将组数设定为5组,每组包括两个投放人群,每组的投放时间(即活动周期)为3天。
例如,在多个第一人群中获取六个投放人群a、b、c、d、e、f,将其均匀划分为两个组有9种划分方式,例如其中包括(abc,def)、(abd,cef)等,其中,(abc,def)中的abc表示一个组,其中包括群a、b和c,def表示另一个组,其中包括群d、e和f。通过计算每种方式下的各个组包括的投放人群之间的两两相似度之和的总和,可确定总和的所有可能的取值,并设定阈值进行对划分方式的选取。例如,在(abc,def)的分组中,该组包括的投放人群之间的两两相似度之和的总和如公式(2)所示:
组相似度总和=(Sab+Sbc+Sac)+(Sde+Sdf+Sef) (2)
其中,Sab表示群a与群b之间的相似度。通过如公式(2)所示计算全部9种划分方式的各自的组相似度总和,可选取总和最低一种划分方式进行划分,并先后对该划分方式下的每个组投放所述业务。例如,(abc,def)划分方式的所述总和最低,可采取该种划分方式对a-f六个投放人群进行分组,进一步,可比较组中两两相似度之和Sab+Sbc+Sac与Sde+Sdf+Sef的大小,并首先对组中相似度之和较小的组投放所述业务,然后再对另一个组投放。在一个实施例中,可基于全部9种划分方式的各自的组相似度总和设定阈值,进行划分方式的选取,例如,可将阈值设置为所述各个总和中的一个值,从而可选取总和低于该阈值的任一种划分方式。
在一个实施例中,可首先基于六个投放人群a、b、c、d、e、f的群特征对其进行聚类,从而基于聚类获取所述总和较大的一种划分方式。例如,通过聚类,abd是一个类,cef是一个类,从而对六个投放人群进行(abd,cef)的划分所获得的投放人群之间的两两相似度之和的总和较大。并基于该较大的总和设置总和的阈值,以基于该阈值选取对投放人群的划分方式,以使得划分的两组的所述总和低于所述阈值。
上述以将六个投放人群划分为两组为例示意说明了根据本说明书实施例的分组方式,在将更多投放人群划分为更多组的情况中,可类似地基于上述方法进行划分。通过如上所述对多个投放人群进行分组,使得每个组中的投放人群之间的总体差异度较大,从而在投放业务时可兼顾不同的需求,获得更好的营销效果。
图4示出根据本说明书实施例的一种训练预测模型的方法的流程图,包括:
在步骤S402,获取多个样本,其中,每个样本包括:人群的群特征、人群的标签值,所述标签值指示所述人群对向其投放的所述业务的点击率和使用率的加权和;以及
在步骤S404,使用所述多个样本训练回归模型,以获取所述预测模型。
首先,在步骤S402,获取多个样本,其中,每个样本包括:人群的群特征、人群的标签值,所述标签值指示所述人群对向其投放的所述业务的点击率和使用率的加权和。
例如,可以通过预先向预定人群投放所述业务,收集该人群对所述业务的点击率和使用率,基于点击率和使用率获取该人群的标签值,从而获取与该人群对应的标定样本。所述人群如上所述为具有相应的群特征的精准人群。所述样本的标签值例如可通过如下公式(3)获取:
y=a*点击率+b*使用率 (3)
其中,a、b为权重参数,其可根据不同业务中对点击率、使用率的偏好设定,例如可以将a、b设定为都等于0.5。
在步骤S404,使用所述多个样本训练回归模型,以获取所述预测模型。
如上文所述,所述回归模型例如为GBDT模型。在GBDT模型的情况中,基于所述多个样本,以使得误差下降最快的方法生成GBDT中的多棵决策树,从而获取预测模型。在所述回归模型为其它回归模型的情况中,可使用本领域技术人员已知的多种模型优化算法基于所述多个样本进行模型优化,例如梯度下降法等,从而获取预测模型。
在一个实施例中,在通过图2所示的方法确定所述业务的多个投放人群、并对该投放人群投放所述业务之后,可记录在投放之后所述各个投放人群对所述业务的点击率和使用率,从而可获取用于训练所述回归模型的新的训练样本,以进一步优化所述回归模型。
在一个实施例中,在获取所述预测模型之后,可基于所述预测模型中包括的GBRT模型的各个参数,评估所述群特征包括的各个维度对于预测结果的重要性。
在一个实施例中,在训练所述GBRT模型的过程中,可通过对于特定特征维度比较误差,对决策树进行自动剪枝。
图5示出根据本说明书实施例的一种基于预测模型向人群投放业务的装置500,包括:
获取单元51,配置为,获取多个第一人群,并获取各个第一人群相应的群特征;
输入单元52,配置为,将所述群特征分别输入预测模型,以从所述模型的输出分别获取所述多个第一人群各自的分数,所述分数预测所述第一人群对所述业务的点击率和使用率的加权和;以及
投放单元53,配置为,基于所述多个第一人群各自的分数,确定所述业务的投放人群,以投放所述业务。
在一个实施例中,所述获取单元51配置为,获取多个第二人群,计算多个第二人群的两两相似度,以及基于所述相似度对所述多个第二人群进行合并,以获取多个第一人群。
在一个实施例中,所述投放单元53包括,
获取子单元531,配置为,在所述多个第一人群中,获取分数高于预定值的多个第一人群作为多个投放人群;
分组子单元532,配置为,将所述多个投放人群均匀划分为预定数目个组,其中,各个组包括的投放人群之间的两两相似度之和的总和小于预定阈值;以及
投放子单元533,配置为,分别向所述预定数目个组先后投放所述业务。
图6示出根据本说明书实施例的训练所述预测模型的训练装置600,所述训练装置包括:
获取单元61,配置为,获取多个样本,其中,每个样本包括:人群的群特征、人群的标签值,所述标签值指示所述人群对向其投放的所述业务的点击率和使用率的加权和;以及
训练单元62,配置为,使用所述多个样本训练回归模型,以获取所述预测模型。
在一个实施例中,所述装置600还包括评估单元63,配置为,在获取所述预测模型之后,基于所述预测模型,评估所述群特征包括的各个维度对于预测结果的重要性。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
在根据本说明书实施例的向人群投放业务的方案中,通过训练回归模型用于预测人群的分数,其中,可同时学习多个目标,即,同时优化点击率和使用率等指标,通过使用预测模型对人群进行打分以获取投放人群,从而可以从新增人群自动获取新的营销组合,另外,通过计算人群之间的相似度,确保每个人群之间的充分差异,并在投放时对差异性大的多个人群同时投放,从而保证运营活动覆盖更大的范围,保证营销效果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。