CN112070519B

CN112070519B - 一种基于数据全局搜索和特征分类的预测方法

Info

Publication number: CN112070519B
Application number: CN201910499912.0A
Authority: CN
Inventors: 库涛; 林乐新; 翟鹏华; 熊艳彬
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2024-03-05
Anticipated expiration: 2039-06-11
Also published as: CN112070519A

Abstract

本发明涉及一种基于数据全局搜索和特征分类的预测方法，将用户群体分为品牌人群和非品牌人群；提取品牌人群的属性特征、偏好特征以及品类特征；提取非品牌人群的属性特征，偏好特征，品类特征，竞品特征和搜索特征；将提取到的特征形成特征集；根据特征集，基于改进的随机森林算法，建立面向O2O的潜在客户识别模型。本发明建立的预测模式和算法具有全局搜索能力强，收敛速度快，识别精度高等优点，并在面向O2O电子商务领域中潜在客户识别与预测中取得了成功应用。

Description

一种基于数据全局搜索和特征分类的预测方法

技术领域

本发明涉及数据挖掘和分类领域，具体地说是一种基于数据全局搜索和特征分类的预测方法。

背景技术

随着当今社会的信息化程度越来越高，电子商务行业蓬勃发展，每天都会有大量的用户在电子商务网站中浏览商品或者进行购物等，因此在电子商务网站中每天都会有大量的用户行为信息被保存下来，这些数据不仅能够反映出用户当前的浏览行为，更重要的是能够反映出每个用户潜在的购买意愿。因此，如果能够从这些数据中准确高效的挖掘出电子商务企业的潜在客户，商家就可以针对这些客户进行个性化的服务，实现精准营销，商家就能够最大程度地将潜在客户转化成实际客户，从而获得更多的利润，最终在竞争激烈的电子商务市场竞争中占据有利地位。O2O营销模式能够充分的利用线上线下的资源，经营方式多样化，用户能够在线上进行咨询或者支付等行为，并在线下进行消费，能够充分满足用户的需求，是一种非常重要且受欢迎的电子商务营销模式。

但是面对如此庞大的O2O市场，不仅用户数量巨大，同时商品和商家数量巨大且种类繁多。因此，对用户来说，他们无法从大量的商品类目中快速的找到自己喜欢的商品或者服务，对商家来说，无法实时准确的找到自己的用户，对他们进行个性化的服务，实现精准营销，提高市场竞争力。

目前的潜在客户识别的方法主要利用分类或者是聚类算法进行建模，以及利用关联规则等算法来提取用户特征，进而根据用户特征准确识别出潜在客户。当前基于文本分类算法或者是聚类算法的潜在客户识别方法在银行、保险以及电子商务等行业中都取得了一定的成功。但是如何结合线上和线下资源，进行面向O2O行业的潜在客户识别的研究目前来说还较少。

本文以O2O用户到店消费为目标，找到指定规模的潜在机会人群或者认知人群，通过营销投放将其转化为品牌兴趣人群和已购人群，从而提升品牌消费者资产。

针对O2O行业潜在客户识别这种复杂的分类问题，如果采用传统的数据挖掘方法解决,则无法在客户的识别精度和效率两个方面同时达到理想的结果。具有全局搜索能力强，收敛速度快，识别精度高等优点。

发明内容

针对现有技术的不足，本发明提供一种基于数据全局搜索和特征分类的预测方法。

本发明为实现上述目的所采用的技术方案是：一种基于分类算法的多方向人群扩散加人群分类优选的面向O2O电子商务领域的潜在客户识别方法。

一种基于数据全局搜索和特征分类的预测方法，包括以下步骤：

步骤1:将用户群体分为品牌人群和非品牌人群；

步骤2:提取品牌人群的属性特征、偏好特征以及品类特征；提取非品牌人群的属性特征，偏好特征，品类特征，竞品特征和搜索特征；将提取到的特征形成特征集；

步骤3:根据特征集，基于改进的随机森林算法，建立面向O2O的潜在客户识别模型。

所述品牌人群为：在一段时间内，只对特定品牌的商品进行浏览或收藏行为，而对其它的品牌商品没有进行过任何操作的用户群体；

所述非品牌人群为：在总的用户群体中除去品牌人群外的用户群体。

所述属性特征为：属性是对象的性质与对象之间关系的统称，属性特征即用户群体自身的特征，例如用户的年龄、性别等。

所述偏好特征为：用户的偏好特征指的是用户在进行商品浏览或者消费时的兴趣与倾向，例如某用户经常浏览与家电有关的商品，而另一个用户经常浏览化妆品。

所述品类特征指的是用户所浏览的所有商品品牌中相关品类的特征。

所述竞品特征指的是以来自竞品的人群为目标，挖掘用户在竞品的状态、退款、退货、评分、评价等特征。

所述搜索特征，在一段时间内，用户搜索并点击了品牌的主营类目，这部分主要特征是品牌与用户搜索词之间的相关性。

所述改进的随机森林算法为：

步骤1:根据Bootstrap方法对特征集划分为若干个不同的特征子集；

步骤2:对每一个特征子集进行训练，得到对应的弱分类器；

步骤3:将所有弱分类器组合生成一个强分类器；

步骤4:对强分类器中对训练结果进行投票，得到面向O2O的潜在客户识别模型。

所述对强分类器中对训练结果进行投票，包括

根据袋外估计误差计算每个弱分类器的权重，并根据权重进行加权投票，即：

其中，w(i)表示第i个弱分类器的权重，T表示算法中弱分类器个数，oob_error_i表示第i个弱分类器的袋外估计误差。

本发明具有以下有益效果及优点：

1.算法实现简单，不过分依赖于参数的选择

2.具有较强的非线性拟合能力，不容易发生过拟合

3.具有较强的全局搜索能力，收敛速度快，识别精度高

附图说明

图1是本发明的方法流程图；

图2是本发明的用户群体特征示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示为本发明的方法流程图。

步骤1:将用户群体分为品牌人群和非品牌人群；

所述改进的随机森林算法为：

步骤2:对每一个特征子集进行训练，得到对应的弱分类器；

步骤3:将所有弱分类器组合生成一个强分类器；

所述对强分类器中对训练结果进行投票，包括

如图2所示为本发明的用户群体特征示意图。

步骤1:将用户群体分为品牌人群和非品牌人群

若用户在某段时间内，只对特定品牌的商品进行了浏览或者收藏等行为，对其它的品牌商品没有进行过任何操作，则将这些用户群体划分为品牌人群；将其余的用户群体划分为非品牌人群。

步骤2：提取品牌人群的属性特征、偏好特征以及品类特征；提取非品牌人群的属性特征、偏好特征、品类特征、竞品特征和搜索特征；将提取到的特征形成特征集。

非品牌人群为：在总的用户群体中除去品牌人群外的用户群体。

属性特征为：属性是对象的性质与对象之间关系的统称，属性特征即用户群体自身的特征，例如用户的年龄、性别等。

偏好特征为：用户的偏好特征指的是用户在进行商品浏览或者消费时的兴趣与倾向，例如某用户经常浏览与家电有关的商品，而另一个用户经常浏览化妆品。

品类特征指的是用户所浏览的所有商品品牌中相关品类的特征。

竞品特征指的是以来自竞品的人群为目标，挖掘用户在竞品的状态、退款、退货、评分、评价等特征。

搜索特征，在一段时间内，用户搜索并点击了品牌的主营类目，这部分主要特征是品牌与用户搜索词之间的相关性。

2.1)兴趣偏好方向

根据基于用户的向量表示，可以直接计算用户与用户直接的相似度，从而得到兴趣偏好最相似的topN个用户。用户表示的方法有多种，本文中将用户向量和商品向量组合，并利用图潜入的方法生成相似用户向量。

2.2)相关品类方向

(1)主营类目分析：根据品牌在线商品数和销售额计算筛选主营类目，并得出主营类目权重。

(2)相关品牌分析：根据品牌-用户关系矩阵，采用Jaccard相似度计算相关品牌及相关分。相似度计算公式如下：

其中，b_i表示第i个商品，U_bi表示第i个商品的商品-用户关系矩阵

2.3)竞品人群方向

(1)竞品分析：当前品牌主营类目中，市场份额top10的其他品牌。

(2)人群流转分析：分析发现品牌新增人群中，有较大比例来自竞品，说明选择该方向进行扩散是可靠的。

2.4)搜索人群方向

(1)搜索关键词：从引导到品牌成交的搜索词中，综合考虑搜索词是否充分竞争以及本品牌在搜索词上是否有优势，实现品牌拉相关的搜索词发现。公式如下，其中E表示关键词引导成交的类目信息熵，V_kword表示关键词引导成交额，V_kword-brand表示关键词引导到品牌的成交额：

kwords＝argtop(E_kword*V_kword-brand/V_kword)

(2)搜索人群扩散：近15天内搜索了kwords并点击了品牌主营类目的用户。

2.5)人群扩散汇总

最终4个方向的品牌扩散人群汇总去重，作为人群优选模型的输入。

步骤3：根据特征集，基于改进的随机森林算法，建立面向O2O的潜在客户识别模型

以品牌目标人群为正样本，从全网其它品牌的人群中随机选负样本，经过数据预处理、归一化、序列化编码后，训练并优化人群优选模型。

3.1)特征工程

(1)数值型特征离散化。年购物天数、近30天订单数等特征进行等距离散，提高模型稳定性和效果。

(2)枚举型特征值筛选。商品型号、收货省份等特征长尾分布非常明显，筛选出与目标品牌相关的特征值。

(3)特征选择。首先使用全部特征进行模型训练，然后根据特征重要性程度筛除部分尾部特征，重新训练模型，通过比较模型的TopNRate指标确定此次特征选择是否更好。

3.2)评价指标

在本文中，非潜在客户的数量远远多于潜在客户的数量，若是将全部的用户都预测成非潜在客户，那么准确率也会很高。因此为了更好的评估模型的预测能力，本文提出了一种TopNRate评价指标。TopNRate指标表示优选的TopN人群中实际潜在客户所占的比例，TopN即为模型预测出的是潜在客户的概率最高的前N个用户，该指标越大说明模型预测效果越好。

3.3)模型构建

WRF：以袋外估计误差作为衡量随机森林中每个弱分类器分类精度的标准，用袋外估计来计算弱分类器的权重，从而用来衡量每个弱分类器的性能。本文中利用袋外估计构建的用来衡量弱分类器精度的权重公式为：

基于袋外估计加权的随机森林算法模型，具有较强的非线性拟合能力，在应用中相比其它算法模型效果更好。因此选择WRF作为最终的算法模型，并对损失函数、树的个数深度、正则系数进行调优。

3.4)模型评估

首先将新样本输入到训练好的模型中，将得到的结果的准确率与训练时得到的结果准确率进行比较，得到一个误差率，误差率是由实际应用确定，若误差率过大，则判断模型是否出现过拟合的现象，对模型中的参数进行重新调整，以及采用正则化减少过拟合，若误差率较小，则证明模型稳健，可以作为最终的识别模型。

使用训练好的人群优选模型，对步骤1中产出的扩散人群进行预测打分，筛除预测分数小于0.5的人群，识别出潜在客户。模型与特征相关对比结果如下表：

品牌	模型	特征数	TopNRate(％)
				品牌A	WRF	69	74.4
品牌A	WRF	50	77.0
				品牌A	WRF	37	77.7
品牌A	LR	69	68.8
				品牌A	LR	50	68.9
品牌A	LR	37	69.1

Claims

1.一种基于数据全局搜索和特征分类的预测方法，其特征在于，包括以下步骤：

步骤1：将用户群体分为品牌人群和非品牌人群；

步骤2：提取品牌人群的属性特征、偏好特征以及品类特征；提取非品牌人群的属性特征，偏好特征，品类特征，竞品特征和搜索特征；将提取到的特征形成特征集；

2.1)兴趣偏好方向

根据基于用户的向量表示，直接计算用户与用户直接的相似度，从而得到兴趣偏好最相似的topN个用户；将用户向量和商品向量组合，并利用图潜入的方法生成相似用户向量；

2.2)相关品类方向

(1)主营类目分析：根据品牌在线商品数和销售额计算筛选主营类目，并得出主营类目权重；

(2)相关品牌分析：根据品牌-用户关系矩阵，采用Jaccard相似度计算相关品牌及相关分，相似度计算公式如下：

其中，b_i表示第i个商品，U_bi表示第i个商品的商品-用户关系矩阵；

2.3)竞品人群方向

(1)竞品分析：当前品牌主营类目中，市场份额top10的其他品牌；

(2)人群流转分析：分析发现品牌新增人群中，有较大比例来自竞品，说明选择该方向进行扩散是可靠的；

2.4)搜索人群方向

(1)搜索关键词：从引导到品牌成交的搜索词中，综合考虑搜索词是否充分竞争以及本品牌在搜索词上是否有优势，实现品牌拉相关的搜索词发现；公式如下，其中E表示关键词引导成交的类目信息熵，V_kword表示关键词引导成交额，V_kword-brand表示关键词引导到品牌的成交额：

kwords＝argtop(E_kword*V_kword-brand/V_kword)

(2)搜索人群扩散：近15天内搜索了kwords并点击了品牌主营类目的用户；

2.5)人群扩散汇总

最终4个方向的品牌扩散人群汇总去重，作为人群优选模型的输入；

步骤3：根据特征集，基于改进的随机森林算法，建立面向O2O的潜在客户识别模型；

以品牌目标人群为正样本，从全网其它品牌的人群中随机选负样本，经过数据预处理、归一化、序列化编码后，训练并优化人群优选模型；

改进的随机森林算法为：

根据Bootstrap方法对特征集划分为若干个不同的特征子集；对每一个特征子集进行训练，得到对应的弱分类器；将所有弱分类器组合生成一个强分类器；对强分类器中对训练结果进行投票，得到面向O2O的潜在客户识别模型；

所述对强分类器中对训练结果进行投票，包括：

2.根据权利要求1所述的基于数据全局搜索和特征分类的预测方法，其特征在于，所述品牌人群为：在一段时间内，只对特定品牌的商品进行浏览或收藏行为，而对其它的品牌商品没有进行过任何操作的用户群体；

3.根据权利要求1所述的基于数据全局搜索和特征分类的预测方法，其特征在于：所述属性特征为用户群体自身的属性特征。

4.根据权利要求1所述的基于数据全局搜索和特征分类的预测方法，其特征在于：所述偏好特征为用户在进行商品浏览或者消费时的兴趣与倾向。

5.根据权利要求1所述的基于数据全局搜索和特征分类的预测方法，其特征在于：所述品类特征指为用户所浏览的所有商品品牌中相关品类的特征。

6.根据权利要求1所述的基于数据全局搜索和特征分类的预测方法，其特征在于：所述竞品特征指为以来自竞品的人群为目标，挖掘用户在竞品的状态、退款、退货、评分和评价特征。

7.根据权利要求1所述的基于数据全局搜索和特征分类的预测方法，其特征在于：所述搜索特征为：在一段时间内，用户搜索并点击品牌的主营类目产生的品牌与用户搜索词之间的相关性。