CN108256052B

CN108256052B - 基于tri-training的汽车行业潜在客户识别方法

Info

Publication number: CN108256052B
Application number: CN201810034618.8A
Authority: CN
Inventors: 姚黎明; 李晓非; 张胤
Original assignee: Chengdu Datalk Technology Co ltd
Current assignee: Chengdu Datalk Technology Co ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2023-07-11
Anticipated expiration: 2038-01-15
Also published as: CN108256052A

Abstract

本发明公开了一种基于tri‑training的汽车行业潜在客户识别方法，包括以下步骤：数据预处理，包括异常值处理、缺失值处理、分类属性处理、组合特征生成、特征选择、数据归一化；数据建模，用半监督学习中的Tri‑Training协同训练算法，并选择BP神经网络作为协同训练过程中的基学习器。本发明利用汽车品牌经销商的历史销售数据(带类别标签的客户数据)与采集的潜在客户数据(无标签的客户数据)建立半监督客户识别模型，从而为汽车行业的精准营销提供准确的营销对象，节省人力成本和资金成本。

Description

基于tri-training的汽车行业潜在客户识别方法

技术领域

本发明涉及一种潜在客户识别方法，尤其涉及一种基于tri-training的汽车行业潜在客户识别方法。

背景技术

随着互联网的蓬勃发展与普遍接入，人们在互联网上的行为产生了大量数据，对这些数据的储存、处理、分析等需求带动了数据库、云计算等相关技术的发展，这些数据采集、存储与处理技术的发展又反过来促进了企业对海量数据的分析应用，推动了大数据的发展。当前，越来越多的企业开始重视数据资产的积累、应用和变现。

在汽车行业，各汽车品牌经销商都可以通过手机WAP网站、手机APP、汽车门户电脑网站等数据源获取到近期关注自身品牌或竞争品牌的潜在消费者线索。若汽车品牌经销商能够快速、准确地从这些潜在消费者线索中识别出真正会购买汽车的，或有较大可能性购买汽车的客户，则经销商可以迅速采用更精准的营销方案针对客户进行营销，从而可以在竞争对手之前把握机会，抢占客户，提高销售额。

上述潜在消费者线索通常包括用户浏览过的汽车品牌、汽车型号、在每款汽车页面浏览时长与浏览时间、搜素关键字、价格偏好、用户年龄、居住地等属性。此类数据通常具有数据量大，维数多的特点，且由于用户对自身某些信息的保密性，数据在某些维度上呈现出缺失状态，更重要的一点是这些大量数据是不带有类别标签的，即汽车品牌经销商并不知道这些数据所代表的的用户是否会真正的购买自家汽车。与此同时，汽车品牌经销商在以往的销售中拥有许多同类型的已购买汽车的，即带有类别标签的历史客户数据，通过对两类数据的学习，可以帮助汽车品牌经销商识别每一客户购买汽车的可能性。

在汽车购买客户识别问题当中，传统的解决方法通常有三种：1、汽车经销商指定有经验的销售人员人工观察潜在客户数据并对每一条数据进行打分，分数高低即代表了该客户购买汽车的可能性高低；2、汽车经销商将数据交给第三方数据公司进行客户识别；3、选择常用的有监督模型从已购买汽车的客户数据中学习模型，再对大量无标签的客户数据进行打分。

上述三种传统解决方案均有不足，具体缺陷如下：

方法1：需要指定有经验的销售人员对每一条数据进行打分，而通常潜在客户的数据量是非常大的，且每一天都在产生，人工识别虽然在一定程度上比机器要准确，但是人工识别的速度非常慢，采用模型进行预测可能只需要几分钟，而人工识别可能需要一天甚至几天，因此该方法效率低下，同时也增加了人力成本。

方法2：将潜在客户数据交给第三方数据公司进行识别，由于市场上的第三方数据公司良莠不齐，因此识别结果的准确性难以得到保证，同时这种客户识别是一种长期性的需求，因此从长远看，寻求第三方的资金成本较高，且难以保证第三方能完全遵守数据保密条约，因此存在数据泄露的风险。

方法3：采用常用的有监督模型从已购买汽车的客户数据中学习模型，但在实际中，有标签数据是少量的，这样以少量数据训练得到的模型不能完全抓住数据生成的内在规律，因此模型泛化能力较差，即对于新数据的预测准确性不高，同时也浪费了大量无标签数据中存在的信息。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于tri-training的汽车行业潜在客户识别方法。

本发明通过以下技术方案来实现上述目的：

一种基于tri-training的汽车行业潜在客户识别方法，包括以下步骤：

步骤(1)：数据预处理，包括以下步骤：

步骤(1.1)：异常值处理：针对每一个属性，检查所有数据中是否有异常的属性值，如果有则删除；

步骤(1.2)：缺失值处理：针对分类属性，将缺失值作为一个新类型；针对连续属性，将包含缺失值的某一个属性看做因变量Y，将其他无缺失值的属性看做自变量X，再将Y中无缺失值的样本及其对应的X中样本作为训练集，选择随机森林模型在训练集上进行训练，使用训练好后的模型对Y中的缺失值进行预测，从而对原始数据中的缺失值进行填充；对其余包含缺失值的连续属性做上述处理直至全部缺失值处理完毕；

步骤(1.3)：分类属性处理：采用one-hot编码对分类属性进行编码：若分类属性有m个属性值，则该属性将被编码为m维，每一维的取值均为0和1，若某一数据在该分类属性上取值为i，则编码后m维中的第i维取值为1，其余维取值为0；one-hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效；

步骤(1.4)：组合特征生成：采用GBDT生成组合特征：使用GBDT模型对上述经过处理的数据分类，模型首先产生一棵决策树并计算得到当前模型的损失函数的负梯度，再生成第二棵树用于拟合上述负梯度，第二棵树加入到当前模型中形成新模型，计算新模型的损失函数的负梯度，再生成第三棵树并加入到当前模型中更新模型，如此不断循环更新模型，每棵树的产生都是为了拟合上一轮更新后的模型的损失函数的负梯度；最后，GBDT模型将生成多棵决策树，每个样本在每棵树中都会被分到一个叶子节点中；将每棵树中的叶子节点从左至右排列，每个样本在每棵树中的叶子节点位置即可作为一个组合特征；对于第t棵树，若该树共有j个叶子节点，样本x经过该树后落入第d个(d≤j)叶子节点中，则由第t棵树构造的样本x的组合特征可表示为[f1,f2,…fd,…fj]，其中，fd＝1，表示该样本落入第d个叶子节点，其余值为0；若GBDT共生成了T棵决策树，则得到T个上述组合特征，将这T个组合特征加入到原始数据中，则原始的汽车行业潜在消费者数据增加的特征维度＝

即第t棵树的叶子节点数量；GBDT(Gradient Boosting Decision Tree)又叫MART(MultipleAdditive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案，它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法；

步骤(1.5)：特征选择：采用主成分分析即PCA对数据进行特征选择：将给定的一组变量X1，X2…Xk，通过线性变换，转换为一组不相关的变量Y1，Y2…Yk，在该变换中，保持变量的总方差即X1，X2…Xk的方差之和不变，同时，使Y1具有最大方差，称为第一主成分，Y2具有次最大方差，称为第二主成分，以此类推，选择q<k个主成分，这q个主成分的方差和是总方差的绝大部分，则完成特征选择；PCA(Principal Component Analysis)即主成分分析，是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分；

步骤(1.6)：数据归一化：采用最大-最小归一化方法将每个属性的取值都归一化到[0，1]：最大最小归一化公式：

其中x表示样本在某一属性下的原始值，x’表示归一化后的属性值，x_min、x_max分别表示该属性下所有样本中最小的属性值和最大的属性值；

步骤(2)：数据建模：采用半监督学习中的Tri-Training协同训练算法，并选择BP神经网络作为协同训练过程中的基学习器，具体步骤如下：

步骤(2.1)：将全部样本数据分为有标签样本数据集L和无标签样本数据集U；

步骤(2.2)：对有标签数据集L做三次可放回随机采样，得到三个L的子集L1、L2、L3；

步骤(2.3)：以Tri-Training协同训练算法及批量训练方式使用L1、L2和L3分别训练一个BP神经网络分类器，记为C1、C2、C3；

步骤(2.4)：C1、C2、C3进行在线学习：从数据集U中不放回地取一个样本，分别使用C1、C2、C3对其进行预测，若三个分类器的分类结果一致，则将该样本标上预测类别，放入集合l’中，使用该样本同时更新训练C1、C2、C3；若C1、C2预测类别一致，则将该样本放入集合l3中并用该样本更新训练C3；若C1、C3预测类别一致，则将该样本放入集合l2中并用该样本更新训练C2；若C2、C3预测类别一致，则将该样本放入集合l1中并用该样本更新训练C1，一次更新完毕；

步骤(2.5)：重复步骤(2.4)，即每次都从无标签数据集U中不放回地随机取一个样本，使用上一轮更新后的三个分类器分别预测该样本，若三个BP神经网络分类器的预测类别一致，则将该样本放入集合l中，并用该样本同时更新三个分类器，若只有分类器Ci、Cj的预测类别一致，则将该样本放入集合lk中并用该样本更新分类器Ck，其中，i、j、k∈{1，2，3}，且k≠i≠j；当数据集U中无剩余样本时，第一轮训练结束；计算三个分类器的分类误差率ei＝集合li中样本数量/集合U中样本数量，其中i＝1，2，3；令L＝L∪l’，U＝U-l’，即将第一轮训练中所有三个分类器分类一致的样本加入到有标签数据集L中，同时从无标签数据集U中剔除，三个分类器分类不一致的样本仍旧保留在无标签数据集U中；然后清空集合li及l’，其中i＝1，2，3；

步骤(2.6)：重复步骤(2.2)-步骤(2.5)，直至分类错误率ei达到给定阈值或不再下降，其中i＝1，2，3，或l’中再无新样本进入，此时模型训练完毕；

步骤(2.7)：使用步骤(2.6)中得到的三个BP神经网络分类器对原始无标签数据集U中的全部样本进行预测，取三个分类器的输出概率均值作为每个无标签样本的标签值为1的决策概率，即每个潜在客户真正会购买汽车的概率。

Tri-Training是一种半监督学习算法，在少量标记数据下，通过三个不同的分类器，从未标记样本中采样并标记新的训练数据，作为各分类器训练数据的有效补充。BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。

本发明的有益效果在于：

本发明利用汽车品牌经销商的历史销售数据(带类别标签的客户数据)与采集的潜在客户数据(无标签的客户数据)建立半监督客户识别模型，从而为汽车行业的精准营销提供准确的营销对象，节省人力成本和资金成本；具体优点为：

1、对数据做了预处理，包括异常值处理、缺失值处理、特征工程、数据归一化等，使得数据更利于建模，提高了预测准确性；

2、组合特征生成过程中采用了GBDT算法生成了组合特征用于之后模型的训练，能够提高预测准确性，而现有技术中缺少对组合特征的利用；

3、采用了半监督协同训练算法即Tri-Training协同训练算法，综合利用了有标签数据和无标签数据来进行模式识别工作，为汽车购买的客户识别问题提供了解决思路，信息利用更完全，可提高预测准确性；

4、在利用半监督协同训练算法的同时对其做了适应性修改，对基学习器使用了在线学习的训练方式，训练更快，当有新数据不断加入时可直接进行训练；

5、选择了具有较强学习能力的BP神经网络作为Tri-Training协同训练算法中的基学习器，对基学习器采取了在线学习方式，机器自动学习，从而大大减少了训练时间，可代替大量人工，节约人力成本；

6、该模型长期可用，节省了寻找第三方数据公司的资金成本。

具体实施方式

下面结合实施例对本发明作进一步说明：

实施例：

步骤(1)：数据预处理，包括以下步骤：

步骤(1.3)：分类属性处理：采用one-hot编码对分类属性进行编码：若分类属性有m个属性值，则该属性将被编码为m维，每一维的取值均为0和1，若某一数据在该分类属性上取值为i，则编码后m维中的第i维取值为1，其余维取值为0；

即第t棵树的叶子节点数量；

步骤(1.5)：特征选择：采用主成分分析即PCA对数据进行特征选择：将给定的一组变量X1，X2…Xk，通过线性变换，转换为一组不相关的变量Y1，Y2…Yk，在该变换中，保持变量的总方差即X1，X2…Xk的方差之和不变，同时，使Y1具有最大方差，称为第一主成分，Y2具有次最大方差，称为第二主成分，以此类推，选择q<k个主成分，这q个主成分的方差和是总方差的绝大部分，则完成特征选择；

通过上述方法能够为汽车行业的精准营销提供准确的营销对象，节省人力成本和资金成本。

上述实施例只是本发明的较佳实施例，并不是对本发明技术方案的限制，只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案，均应视为落入本发明专利的权利保护范围内。

Claims

1.一种基于tri-training的汽车行业潜在客户识别方法，其特征在于：包括以下步骤：

步骤(1)：数据预处理，包括以下步骤：

步骤(1.4)：组合特征生成：采用GBDT生成组合特征：使用GBDT模型对上述经过步骤(1.1)、步骤(1.2)和步骤(1.3)处理的数据分类，模型首先产生一棵决策树并计算得到当前模型的损失函数的负梯度，再生成第二棵树用于拟合上述负梯度，第二棵树加入到当前模型中形成新模型，计算新模型的损失函数的负梯度，再生成第三棵树并加入到当前模型中更新模型，如此不断循环更新模型，每棵树的产生都是为了拟合上一轮更新后的模型的损失函数的负梯度；最后，GBDT模型将生成多棵决策树，每个样本在每棵树中都会被分到一个叶子节点中；将每棵树中的叶子节点从左至右排列，每个样本在每棵树中的叶子节点位置即可作为一个组合特征；对于第t棵树，若该树共有j个叶子节点，样本x经过该树后落入第d个(d≤j)叶子节点中，则由第t棵树构造的样本x的组合特征可表示为[f1,f2,…fd,…fj]，其中，fd＝1，表示该样本落入第d个叶子节点，其余值为0；若GBDT共生成了T棵决策树，则得到T个上述组合特征，将这T个组合特征加入到原始数据中，