CN104766221A

CN104766221A - 流量精细化营销参数的选取方法

Info

Publication number: CN104766221A
Application number: CN201510131887.2A
Authority: CN
Inventors: 杨栋; 缪崇大
Original assignee: Huadi Computer Group Co Ltd
Current assignee: Huadi Computer Group Co Ltd
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2015-07-08

Abstract

本发明涉及流量精细化的技术领域，尤其涉及流量精细化营销参数的选取方法。本发明由细分目的选择数据变量后细分用户群，从数据集中抽取各用户群的数据样本集，以各用户群的数据样本集为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数，提高了AdaBoosting模型的分类精度，精确捕捉到用户的消费需求，提高了流量包推广的成功率。

Description

流量精细化营销参数的选取方法

技术领域

本发明涉及流量精细化的技术领域，尤其涉及流量精细化营销参数的选取方法。

背景技术

目前，GX联通在流量包推广过程中使用传统方法对客户进行细分，简单的细分变量如月消费额、月流量消耗、套餐类型已经无法适应互联网时代的流量经营，发现用户潜在的流量需求。这种模糊的细分结果无法及时地捕捉到客户的消费需求，也无法及时地提供相应的服务满足需求，为公司提高收益。同时由于前期模糊的客户定位，企业无法挖掘出真正的潜在客户，所以企业只能凭借经验采用“暴力营销”方式，这方法投入成本高，客户响应率低，甚至还会引起客户的反感，进而引发客户投诉，最终还大大地降低了推广流量包的成功率。

AdaBoosting是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。目前，对AdaBoosting算法的研究以及应用大多集中于分类问题，同时近年也出现了一些在回归问题上的应用。AdaBoosting算法主要解决了：两类问题、多类单标签问题、多类多标签问题、大类单标签问题，回归问题等。该算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据的分类能力。

Adaboosting算法是将很多个分类器的的意见有效的结合起来以达到更好的分类效果。该算法的大致流程为：首先依据分类效果的差异从众多的单特征弱分类器中筛选出分类性能最好的分类器，并赋予相应的权值；然后依据分类的结果对各训练样本的权值进行更新，更新的原则是：误分类样本被赋予更高的权值。最后依照权值大小，将各分类器有效结合起来，并据此对测试样本进行分类。

目前，还没有将Adaboosting算法运用于流量包推广的技术方案。

发明内容

为了解决上述问题，本发明提供流量精细化营销参数的选取方法，能够有效捕捉用户消费需求，实现根据客户潜在需求精准推广流量包。

本发明所要解决的技术问题是针对上述背景技术的不足，提供了流量精细化营销参数的选取方法，解决现有技术中模糊细分客户无法及时捕捉到客户消费需求的技术问题。

本发明为实现上述发明目的采用如下技术方案：

本发明提供了流量精细化营销参数的选取方法，包括如下步骤：

由细分目的选择数据变量后细分用户群；

从数据集中抽取各用户群的数据样本集；

以各用户群的数据样本集为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数。

作为所述流量精细化营销参数的选取方法的进一步优化方案，数据变量包括基本属性变量和行为特征变量。

作为所述流量精细化营销参数的选取方法的进一步优化方案，基本属性变量包括：开户时间、用户类型、基本套餐、套餐类型、终端类型、固定时间区间内的消耗流量、固定时间区间内的费用消耗。

进一步的，所述流量精细化营销参数的选取方法中，行为特征变量包括：流量包订购情况、用户安装app的数量、大流量app安装数、大流量app使用次数、app使用次数、用户闲时登陆的次数、闲时登陆消耗的流量。

进一步的，所述流量精细化营销参数的选取方法中，从数据集中抽取各用户群的数据样本集这一步骤的具体方法为：

预处理各用户群的数据样本集；

格式转换预处理后的各用户群的数据样本集；

对格式化后的数据样本集抽样各用户群的观测样本。

进一步的，所述流量精细化营销参数的选取方法中，预处理各用户群的数据样本集，具体为：删除异常值和极端值，为无序多分类数据变量设置哑变量。

进一步的，所述流量精细化营销参数的选取方法中，从数据集中抽取各用户群的数据样本集这一步骤的具体方法为：由用户群数据样本集生成衍变量。

进一步的，所述流量精细化营销参数的选取方法中，衍变量包括：闲时流量消耗比、均使用流量。

更进一步的，所述流量精细化营销参数的选取方法中，以各用户群的数据样本集为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数这一步骤具体包括以下子步骤：

(1)以各用户群的观测样本为AdaBoosting模型的训练样本，初始化样本权重

(2)开始迭代过程确定影响分类精度的数据变量：

A.归一化权重，

B.计算以各数据变量为特征的弱分类器的加权错误概率，

C.选出最小加权错误概率的弱分类器,

D.调整样本权重后返回A重复迭代过程直至达到最大迭代次数。

(3)将迭代筛选出的多个最小加权错误概率弱分类器组成一个强分类器，所述强分类器对应为流量精细化营销参数的集合。

进一步的，所述流量精细化营销参数的选取方法的子步骤D中，以赋予误分类样本高权值，不改变正确分类样本权值的原则调整样本权重。

由上述本发明的实施例提供的技术方案可以看出，本方案设计的实现云计算资源混合调度的方法和系统具有以下有益效果：考虑用户的行为特征细分目标用户群，以预处理后的用户群样本数据为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数，提高了AdaBoosting模型的分类精度，精确捕捉到用户的消费需求，提高了流量包推广的成功率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为AdaBoosting算法的流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

图1为本发明流量精细化营销参数的选取方法的流程图。如图1所示，本发明涉及的流量精细化营销参数的选取方法，包括如下步骤：

(一)由细分目的选择数据变量后细分用户群

从需求分析的目的(提高客户忠诚度、推送新业务等)以及用户的消费行为的角度出发，选择开户时间、用户类型、基本套餐、套餐类型、终端类型、3个月的消耗流量、3个月的费用消耗作为用户基本属性变量，选择流量包订购情况、用户安装app的数量、大流量app安装数、大流量app使用次数、app使用次数、用户闲时登陆的次数、闲时登陆消耗的流量作为用户行为特征变量。

(二)从数据集中抽取各用户群的数据样本集

预处理各用户群的数据样本集：删除异常值和极端值，如：将月消费额低于0元的用户删除，通过对用户当前费用进行分析，删除该值在最大1％范围内的用户；考虑后面要运用到AdaBoosting模型中，AdaBoosting模型涉及连续变量(如使用流量)和无序多分类变量(如套餐类型)，连续变量可以直接引入模型，无序多分类型并不存在量上的等级差异，若直接处理成数值序列，无法解释其等级差异，因此需要为无序多分类数据变量设置哑变量，如此用一组变量的取值表示一个水平，各个水平之间就不再存在任何数量上的联系；格式转换预处理后的各用户群的数据样本集，如手机操作系统取值归化为Android/Windows/iPhone/other；对格式化后的数据样本集抽样各用户群的观测样本，各观测样本包括：套餐类型、上月套餐流量消耗比、闲时流量等。

或者，根据各用户群的数据样本值生成闲时流量消耗比、均使用流量等变量等衍变量。

(三)以各用户群的数据样本集为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数

以各用户群的观测样本为AdaBoosting模型的训练样本，经过多次迭代确定影响分类精度最强的数据变量，每一次迭代，计算训练样本被分类为各数据变量对应的弱分类器的加权错误概率，选择最小错误概率的弱分类器后重新调整权重。经过多次迭代，AdaBoosting模型筛选出最能影响用户选择流量包的数据变量(一般特征为：当月套餐流量消耗比，当月手机费用，大流量APP登陆次数，套内流量等)，即挖掘出用户潜在的消费需求，以小成本获取流量包的高推广率。

Adaboosting算法如图2所示的流程图，具体包括：

1、给定训练样本(x₁,y₁),(x₂,y₂)....(x_i,y_i)....(x_n,y_n)，i＝1,...,n，其中，y[i]∈{0,1}，代表非订购样本和订购样本，其中，有m个非订购样本，有m-n个订购样本；

2、初始化样本权重：对非订购样本初始化权重为w_1,i＝1/2m，对订购样本初始化权重为w_1,i＝1/2(m-n)；

3、迭代计算每个特征弱分类器的加权错误概率：以变量t记迭代次数，最大迭代次数为T，

A.归一化权重

q_{t, i} = \frac{w_{t, i}}{Σ_{j = 1}^{n} w_{t, j}}, i = 1, . . ., n,

B.计算基于每个特征的弱分类器的加权错误概率

C.选出最小错误概率的弱分类器

D.调整样本权重：对于订购样本调整第t+1次迭代的权重w_t+1,i为w_t+1,i＝w_t,i×β_t，对于非订购样本调整第t+1次迭代的权重w_t+1,i为w_t+1,i＝w_t,i，返回A重复迭代过程直至达到最大迭代次数。

4、将T次迭代筛选出的若干最小错误概率弱分类器组成一个强分类器其中，

α_{i} = \log \frac{1}{β_{i}} .

本发明采用上述技术方案，具有以下有益效果：考虑用户的行为特征细分目标用户群，以预处理后的用户群样本数据为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数，提高了AdaBoosting模型的分类精度，精确捕捉到用户的消费需求，提高了流量包推广的成功率。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.流量精细化营销参数的选取方法，其特征在于，包括如下步骤：

由细分目的选择数据变量后细分用户群；

从数据集中抽取各用户群的数据样本集；

2.根据权利要求1所述的流量精细化营销参数的选取方法，其特征在于，所述数据变量包括基本属性变量和行为特征变量。

3.根据权利要求2所述的流量精细化营销参数的选取方法，其特征在于，所述基本属性变量包括：开户时间、用户类型、基本套餐、套餐类型、终端类型、固定时间区间内的消耗流量、固定时间区间内的费用消耗。

4.根据权利要求2所述的流量精细化营销参数的选取方法，其特征在于，所述行为特征变量包括：流量包订购情况、用户安装app的数量、大流量app安装数、大流量app使用次数、app使用次数、用户闲时登陆的次数、闲时登陆消耗的流量。

5.根据权利要求2或3或4所述的流量精细化营销参数的选取方法，其特征在于，所述从数据集中抽取各用户群的数据样本集这一步骤的具体方法为：

预处理各用户群的数据样本集；

格式转换预处理后的各用户群的数据样本集；

对格式化后的数据样本集抽样各用户群的观测样本。

6.根据权利要求5所述的流量精细化营销参数的选取方法，其特征在于：所述预处理各用户群的数据样本集，具体为：删除异常值和极端值，为无序多分类数据变量设置哑变量。

7.根据权利要求5所述的流量精细化营销参数的选取方法，其特征在于：所述从数据集中抽取各用户群的数据样本集这一步骤的具体方法为：由用户群数据样本集生成衍变量。

8.根据权利要求7所述的流量精细化营销参数的选取方法，其特征在于：所述衍变量包括：闲时流量消耗比、均使用流量。

9.根据权利要求5所述的流量精细化营销参数的选取方法，其特征在于：所述以各用户群的数据样本集为AdaBoosting模型的训练样本确定影响AdaBoosting模型分类精度的参数这一步骤具体包括以下子步骤：

(2)开始迭代过程确定影响分类精度的数据变量：

A.归一化权重，

B.计算以各数据变量为特征的弱分类器的加权错误概率，

C.选出最小加权错误概率的弱分类器,

10.根据权利要求10所述的流量精细化营销参数的选取方法，其特征在于：子步骤D中以赋予误分类样本高权值，不改变正确分类样本权值的原则调整样本权重。