CN110610373A

CN110610373A - 一种潜在客户挖掘处理方法及装置

Info

Publication number: CN110610373A
Application number: CN201810620932.4A
Authority: CN
Inventors: 宋迎春
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hunan Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hunan Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2019-12-24

Abstract

本发明实施例公开了一种潜在客户挖掘处理方法及装置，方法包括：根据随机森林算法对种子客户的全量/局部特征进行分析，得到所述种子客户的强势特征；根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分；将相似度得分大于阀值的候选客户确定为潜在客户。本发明实施例通过随机森林算法分析得到种子客户的强势特征，并计算每个候选客户的相似度得分，最后根据相似度得分筛选潜在客户，能够采用客观科学的方法快速挖掘潜在客户，同时保障潜在客户挖掘的准确率。

Description

一种潜在客户挖掘处理方法及装置

技术领域

本发明实施例涉及移动通信技术领域，具体涉及一种潜在客户挖掘处理方法及装置。

背景技术

中国移动和包(原名“手机支付”、“手机钱包”)是中国移动面向个人和企业客户提供的一项领先的综合性移动支付业务，由中移电子商务有限公司管理，旨在让客户享受方便快捷、丰富多彩、安全时尚的线上、线下支付体验。湖南公司2017年大力发展和包业务，如何吸引更多的用户进行和包绑卡是和包业务发展的主要问题之一，只有吸引用户进行绑卡才能真正让用户将和包业务“活跃”起来。

现有技术中寻找和包绑卡潜在客户是业务人员和开发人员根据业务经验确定和包绑卡潜在客户的业务口径，通过SQL计算出目标客户，找出的和包绑卡潜在客户的质量直接取决于业务人员或开发人员的专家经验知识与对市场的个人预判能力。

在实现本发明实施例的过程中，发明人发现现有的方法主要是业务人员或开发人员根据业务经验确定和包绑卡潜在客户，存在一定的主观性，缺少客观的潜在客户的挖掘方法。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种潜在客户挖掘处理方法及装置。

第一方面，本发明实施例提出一种潜在客户挖掘处理方法，包括：

根据随机森林算法对种子客户的全量/局部特征进行分析，得到所述种子客户的强势特征；

根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分；

将相似度得分大于阀值的候选客户确定为潜在客户。

可选地，所述根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分，具体包括：

根据所述强势特征中的若干个特征建立各候选客户的决策树，由所有的决策树生成随机森林，其中，所述强势特征中的所有特征均在各决策树中包含；

根据所述随机森林计算每个候选客户的相似度得分。

可选地，所述种子客户为下载和包APP绑卡或在网页直接进行和包绑卡、和包交易两次及以上、剔除员工卡及公免卡、近三月的平均每户每月上网流量DOU大于500M的客户。

可选地，所述候选客户包括：下载和包APP未绑的客户、未下载和包APP也没有绑卡但经常使用支付宝、微信和银行APP的客户、有第三方渠道或自有渠道缴费行为的客户或快速复机客户；所述候选客户不包括：种子客户和员工卡/公免卡客户。

第二方面，本发明实施例还提出一种潜在客户挖掘处理装置，包括：

特征分析模块，用于根据随机森林算法对种子客户的全量/局部特征进行分析，得到所述种子客户的强势特征；

算法处理模块，用于根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分；

客户确定模块，用于将相似度得分大于阀值的候选客户确定为潜在客户。

可选地，所述算法处理模块具体用于根据所述强势特征中的若干个特征建立各候选客户的决策树，由所有的决策树生成随机森林，其中，所述强势特征中的所有特征均在各决策树中包含；根据所述随机森林计算每个候选客户的相似度得分。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过随机森林算法分析得到种子客户的强势特征，并计算每个候选客户的相似度得分，最后根据相似度得分筛选潜在客户，能够采用客观科学的方法快速挖掘潜在客户，同时保障潜在客户挖掘的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种潜在客户挖掘处理方法的流程示意图；

图2为本发明一实施例提供的随机森林算法的流程示意图；

图3为本发明另一实施例提供的一种潜在客户挖掘处理方法的流程示意图；

图4为本发明一实施例提供的一种潜在客户挖掘处理装置的结构示意图；

图5为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种潜在客户挖掘处理方法的流程示意图，包括：

S101、根据随机森林算法对种子客户的全量/局部特征进行分析，得到所述种子客户的强势特征。

其中，所述种子客户为下载和包APP绑卡或在网页直接进行和包绑卡、和包交易两次及以上、剔除员工卡及公免卡、近三月的平均每户每月上网流量DOU(Dataflow ofusage，平均每户每月上网流量)大于500M的客户。

S102、根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分。

所述候选客户包括：下载和包APP未绑的客户、未下载和包APP也没有绑卡但经常使用支付宝、微信和银行APP的客户、有第三方渠道或自有渠道缴费行为的客户或快速复机客户；所述候选客户不包括：种子客户和员工卡/公免卡客户。

S103、将相似度得分大于阀值的候选客户确定为潜在客户。

具体地，本实施例首先采用随机森林算法对种子客户的全量/局部特征进行分析，自动找出种子客户的强势特征；再将种子客户、候选客户、强势特征字段送入到随机森林算法中，对每个候选客户进行相似度打分，并将得分在某个阀值以上的客户定义为潜在客户。

其中，随机森林(RFA)算法是一种比较新的机器学习模型。经典的机器学习模型是神经网络，有半个多世纪的历史了。神经网络预测精确，但是计算量很大。上世纪八十年代分类树的算法出现，通过反复二分数据进行分类或回归，计算量大大降低。2001年有人提出把分类树组合成随机森林，即在变量(列)的使用和数据(行)的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用，随机森林算法被誉为当前最好的算法之一。

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类(对于分类算法)，然后通过判定算法预测这个样本为哪一类。

随机森林算法处理潜客挖掘业务时，在数据集上表现良好，两种随机性的引入，使得随机森林不容易陷入过拟合，同时使得随机森林具有很好的抗噪声能力，有利于处理和包绑卡潜客挖掘业务的超大客户信息数据集；它能够处理很高维度的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化，因此都无需对输入潜客用户数据进行预处理；可以快速得到变量重要性排序(两种：基于OOB误分率的增加量和基于分裂时的GINI下降量)；在训练过程中，能够检测到特征值之间的互相影响；算法并发能力强，能够充分发挥Hadoop并行大数据平台的优势；

本实施例通过随机森林算法分析得到种子客户的强势特征，并计算每个候选客户的相似度得分，最后根据相似度得分筛选潜在客户，能够采用客观科学的方法快速挖掘潜在客户，同时保障潜在客户挖掘的准确率。

进一步地，在上述方法实施例的基础上，S102具体包括：

S1021、根据所述强势特征中的若干个特征建立各候选客户的决策树，由所有的决策树生成随机森林，其中，所述强势特征中的所有特征均在各决策树中包含；

S1022、根据所述随机森林计算每个候选客户的相似度得分。

举例来说，如图2所示，随机森林算法作为一种集成学习根据m个样本训练集构造了m棵决策树，每棵决策树随机从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合。假设每个样本所有特征数目为K，对n个样本选择K中的k个特征，用建立决策树的方式获得最佳分割点，新数据的分类结果按分类树投票多少形成分数而定，再根据数据分类的好坏筛选出具有最好特征值的集合。随机森林实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖于一个独立抽取的样品，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点，然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择哪些有价值的特征值。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类与最有价值的特征值。

决策树构建的关键在于分割点的选取，通过采用贪心算法考虑当前分割点纯度差的大小作为要素进行从大到小优先排序。

对于纯度的量化使用id3算法，以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。

公式1：

公式2：

公式3：gain(A)＝info(D)-info_A(D)

如上公式1是在集合D中信息熵的表示，p_i为第i类别在集合D中出现的概率p_i＝D_i/D。在公式2中假设将训练集合D按照A特征属性进行划分，则表示A对D所划分的期望信息熵，那么在按照A特征属性划分后所得到的信息增益gain(A)就如公式3所表示，所有的特征值都按照信息增益来进行递归排序，从而构建整个决策树，在随机森林体系所构建的决策树中不需要进行减枝，这样对训练数据就会表现很精确，尽管对其他数据没有那么精确会出现过拟合，但对于集成学习来说可以通过多个决策树共同决策来避免单个决策树的过拟合。

具体地，参见图3，本实施例提供的潜在客户挖掘处理方法可以包括以下步骤：

A1、强势特征筛选-样本准备(种子客户准备)

在和包绑卡潜客挖掘装置随机森林模块中，将样本集定义为下载和包APP绑卡或在网页直接进行和包绑卡，和包交易两次及以上、剔除员工卡及公免卡、近三月DOU大于500M的客户(即种子客户)，形成样本集N。

A2、强势特征筛选-特征字段准备

将大数据平台所有字段送入到随机森林模块中(即特征字段准备)，该处笔者为减少算法执行时长，初步剔除了部分与和包绑卡潜客挖掘完全无关的字段，每个样本含K个特征。

A3、强势特征筛选-生成随机森林

从样本集N中采样选出n个样本。

从K特征中随机选择k个特征，对选出的样本利用这些特征建立决策树。

重复以上两步m次，即生成m棵决策树，形成随机森林。

在第1棵决策树中，有n个样本，特征为(K₁、K₂…K_k)。

在第2棵决策树中，有n个样本，特征为(K₂、K₃…K_k+1)。

在第3棵决策树中，有n个样本，特征为(K₃、K₄…K_k+2)。

......

在第m棵决策树中，有n个样本，特征为(K_m、K_m+1…K_k+m-1)。

备注：m棵决策树中，需要将K个特征全部包含进去。

A4、强势特征筛选-投票

将样本数据送入分别送入m棵决策树中，其中：

第1棵决策树投票：

客户号码	特征K<sub>1</sub>	特征K<sub>2</sub>	特征K<sub>3</sub>	......	特征K<sub>k</sub>
						13xxxxxx1	a1<sub>11</sub>	a1<sub>12</sub>	a1<sub>13</sub>	......	a1<sub>1k</sub>
13xxxxxx2	a1<sub>21</sub>	a1<sub>22</sub>	a1<sub>23</sub>	......	a1<sub>2k</sub>
						13xxxxxx3	a1<sub>31</sub>	a1<sub>32</sub>	a1<sub>33</sub>	......	a1<sub>3k</sub>
......	......	......	......	......	......
						13xxxxxxn	a1<sub>n1</sub>	a1<sub>n2</sub>	a1<sub>n3</sub>	......	a1<sub>nk</sub>

第2棵决策树投票：

......

第m棵决策树投票：

客户号码	特征K<sub>1</sub>	特征K<sub>2</sub>	特征K<sub>3</sub>	......	特征K<sub>k</sub>
						13xxxxxx1	am<sub>11</sub>	am<sub>12</sub>	am<sub>13</sub>	......	am<sub>1k</sub>
13xxxxxx2	am<sub>21</sub>	am<sub>22</sub>	am<sub>23</sub>	......	am<sub>2k</sub>
						13xxxxxx3	am<sub>31</sub>	am<sub>32</sub>	am<sub>33</sub>	......	am<sub>3k</sub>
......	......	......	......	......	......
						13xxxxxxn	am<sub>n1</sub>	am<sub>n2</sub>	am<sub>n3</sub>	......	am<sub>nk</sub>

A5、强势特征筛选-强势特征输出

根据每个决策树对分类结果进行评估，筛选出最好的特征类型集合：随机森林算法根据特征字段在表现优秀的决策树中所含有比例进行分类排名，在排名中越靠前的特征表现为越强相关特征。

A6、相似客户群筛选-候选客户准备

相似客户群筛选模块构建包含三个要素：种子客户、特征变量、候选客户，其中种子客户和特征变量继承强势特征筛选模块的种子客户、强势特征字段，在此仅需要准备候选客户，笔者根据用户是否下载和包APP准备了两批候选客户：

下载和包APP未绑卡，有第三方渠道或自有渠道缴费行为的客户(2017年缴费次数大于等于2次)，快速复机客户。

未下载和包APP也没有绑卡，但经常使用支付宝、微信和银行APP的客户(使用次数大于等于20次)、或有第三方渠道或自有渠道缴费行为的客户(2017年缴费次数大于等于2次)，快速复机客户。

需要剔除种子客户、剔除员工卡/公免卡客户。

A7、相似客户群筛选-生成随机森林

仿照第三步将种子客户、强势特征、候选客户生成一个新的随机森林。

A8、相似客户群筛选-投票

仿照第四步对候选客户进行投票。

A9、相似客户群筛选-候选客户相似得分输出

输出算法结果，每个候选客户会有一个相似度得分，得分在[0,1]之间，分数越接近1表示办理和包绑卡的可能性越大。

A10、阀值设定目标客户输出

在第九步中每个候选客户有一个相似度得分，可以设定目标客户阀值，如选取相似度得分在0.9以上的候选客户作为目标客户。

以下将基于随机森林算法的和包绑卡挖掘方法与自行提取进行营销比对测试，得到的测试结果如下：

从上面两组对比营销测试结果中发现，基于随机森林算法的和包绑卡潜客挖掘装置绑卡率明显比自行提取要高。

本实施例提供的潜在客户挖掘处理方法适用范围广，特别适用于潜在客户挖掘类场景，仅需业务人员将种子客户、候选客户、全量特征字段送入到挖掘装置中，模型建设难度大大降低，且可快速实现潜客挖掘，并保障模型准确率。

图4示出了本实施例提供的一种潜在客户挖掘处理装置的结构示意图，所述装置包括：特征分析模块401、算法处理模块402和客户确定模块403，其中：

所述装特征分析模块401用于根据随机森林算法对种子客户的全量/局部特征进行分析，得到所述种子客户的强势特征；

所述装算法处理模块402用于根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分；

所述装客户确定模块403用于将相似度得分大于阀值的候选客户确定为潜在客户。

具体地，所述装特征分析模块401根据随机森林算法对种子客户的全量/局部特征进行分析，得到所述种子客户的强势特征；所述装算法处理模块402根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分；所述装客户确定模块403将相似度得分大于阀值的候选客户确定为潜在客户。

进一步地，在上述装置实施例的基础上，所述算法处理模块具体用于根据所述强势特征中的若干个特征建立各候选客户的决策树，由所有的决策树生成随机森林，其中，所述强势特征中的所有特征均在各决策树中包含；

根据所述随机森林计算每个候选客户的相似度得分。

进一步地，在上述装置实施例的基础上，所述种子客户为下载和包APP绑卡或在网页直接进行和包绑卡、和包交易两次及以上、剔除员工卡及公免卡、近三月的平均每户每月上网流量DOU大于500M的客户。

进一步地，在上述装置实施例的基础上，所述候选客户包括：下载和包APP未绑的客户、未下载和包APP也没有绑卡但经常使用支付宝、微信和银行APP的客户、有第三方渠道或自有渠道缴费行为的客户或快速复机客户；所述候选客户不包括：种子客户和员工卡/公免卡客户。

本实施例所述的潜在客户挖掘处理装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图5，所述电子设备，包括：处理器(processor)501、存储器(memory)502和总线503；

其中，

所述处理器501和存储器502通过所述总线503完成相互间的通信；

所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种潜在客户挖掘处理方法，其特征在于，包括：

将相似度得分大于阀值的候选客户确定为潜在客户。

2.根据权利要求1所述的方法，其特征在于，所述根据所述随机森林算法对所述种子客户、若干个候选客户和所述强势特征进行处理，得到每个候选客户的相似度得分，具体包括：

根据所述随机森林计算每个候选客户的相似度得分。

3.根据权利要求1或2所述的方法，其特征在于，所述种子客户为下载和包APP绑卡或在网页直接进行和包绑卡、和包交易两次及以上、剔除员工卡及公免卡、近三月的平均每户每月上网流量DOU大于500M的客户。

4.根据权利要求1或2所述的方法，其特征在于，所述候选客户包括：下载和包APP未绑的客户、未下载和包APP也没有绑卡但经常使用支付宝、微信和银行APP的客户、有第三方渠道或自有渠道缴费行为的客户或快速复机客户；所述候选客户不包括：种子客户和员工卡/公免卡客户。

5.一种潜在客户挖掘处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述算法处理模块具体用于根据所述强势特征中的若干个特征建立各候选客户的决策树，由所有的决策树生成随机森林，其中，所述强势特征中的所有特征均在各决策树中包含；根据所述随机森林计算每个候选客户的相似度得分。

7.根据权利要求5或6所述的装置，其特征在于，所述种子客户为下载和包APP绑卡或在网页直接进行和包绑卡、和包交易两次及以上、剔除员工卡及公免卡、近三月的平均每户每月上网流量DOU大于500M的客户。

8.根据权利要求5或6所述的装置，其特征在于，所述候选客户包括：下载和包APP未绑的客户、未下载和包APP也没有绑卡但经常使用支付宝、微信和银行APP的客户、有第三方渠道或自有渠道缴费行为的客户或快速复机客户；所述候选客户不包括：种子客户和员工卡/公免卡客户。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至4任一所述的方法。