CN106157083B

CN106157083B - 挖掘潜在客户的方法和装置

Info

Publication number: CN106157083B
Application number: CN201510176915.2A
Authority: CN
Inventors: 兰红云
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2015-04-14
Filing date: 2015-04-14
Publication date: 2020-04-24
Anticipated expiration: 2035-04-14
Also published as: CN106157083A

Abstract

本发明公开了一种挖掘潜在客户的方法和装置，属于网络通信技术领域。所述方法包括：获取并计算样本客户的各个属性标签的集中度，以及所述样本客户的各个属性标签的属性值域的权重；将所述样本客户的各个属性标签按照预设组合标准进行组合，得到并计算多个属性标签组合的集中度；选择并计算所述样本客户的各个挖掘属性标签的属性值域的权重；采用图聚类方法对所述样本客户进行社群划分，得到多个客户社群；按照预设概率公式计算得到的新客户属于每个所述客户社群的概率；当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时，则确定所述新客户是所述商家的潜在客户。本发明可以节约时间。

Description

挖掘潜在客户的方法和装置

技术领域

本发明涉及网络通信技术领域，具体涉及一种挖掘潜在客户的方法和装置。

背景技术

随着网络通信技术的发展，越来越多的商家通过网上商城售卖货品，在商家进行促销的过程中，十分关心的一个问题是：如何根据商家现在已拥有的客户的信息(比如客户的年龄、性别、家庭地址等信息)，挖掘出潜在的客户，实现客户的精准触达。我们的技术就是解决这个问题，根据商家现有会员数据，挖掘出其会员的社群特征，并根据这些特征从淘宝客中筛选出商家的潜在会员。

目前，挖掘潜在客户的方法如下：获得商家的样本客户的各个属性标签；统计样本客户的各个属性标签的分布特征；运用贝叶斯无向图网络，获得样本客户的各个属性标签的联合概率分布函数；运用梯度下降法得到对于样本客户拟合度最好的属性标签的权重，以及属性标签组合的权重；运用属性标签的权重，属性标签组合的权重，计算新客户成为商家的潜在客户的概率；根据新客户成为商家的潜在客户的概率，确定新客户是否是商家的潜在客户。

然而，现有挖掘潜在客户的方法，需要将样本客户的各个属性标签进行组合，需要遍历各种组合情况，计算复杂，浪费时间。

发明内容

为了解决现有技术的问题，本发明提供了一种挖掘潜在客户的方法和装置，不需要将样本客户的各个属性标签进行组合，不需要遍历各种组合情况，计算简单快捷，可以节约时间。

为了解决上述问题，本发明公开了一种挖掘潜在客户的方法，所述方法包括：

获取商家的样本客户的各个属性标签，并计算所述样本客户的各个属性标签的集中度，以及所述样本客户的各个属性标签的属性值域的权重；

将所述样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，计算每个所述属性标签组合的集中度；

根据每个所述属性标签组合的集中度，以及组成每个所述属性标签组合的属性标签的集中度，从多个所述属性标签组合中选择所述样本客户的挖掘属性标签，并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重；

根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类方法对所述样本客户进行社群划分，得到多个客户社群；

获取新客户的各个属性标签，并根据所述新客户的各个属性标签的属性值、每个所述客户社群中的所述样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值，按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率；

当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时，则确定所述新客户是所述商家的潜在客户。

进一步地，所述属性值域的权重包括：属性值的权重或属性值类区间的权重。

进一步地，计算所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重，包括：

判断所述样本客户的各个属性标签的类别；

如果所述样本客户的某属性标签是文本类，则按照预设权重计算公式计算所述样本客户的文本类的某属性标签的各个属性值的权重；

如果所述样本客户的某属性标签的属性值是数字类，则采用动态聚类方法对所述样本客户的数字类的某属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算所述样本客户的数字类的某属性标签的各个属性值类区间的权重。

进一步地，所述预设权重计算公式为：

其中，对于文本类的某属性标签：x_i表示文本类的某属性标签的属性值是x_i，w(x_i)表示文本类的某属性标签的属性值x_i的权重，CRn表示文本类的某属性标签的集中度，c(x_i)表示文本类的某属性标签的属性值x_i的个数，c(X)表示文本类的某属性标签的所有属性值的总个数；对于数字类的某属性标签：x_i表示数字类的某属性标签的属性值类区间是x_i，w(x_i)表示数字类的某属性标签的属性值类区间的权重，CRn表示数字类的某属性标签的集中度，c(x_i)表示数字类的某属性标签的属性值类区间中元素的个数，c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。

进一步地，将所述样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，包括：

将所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重，与预设权重阈值进行比较，得到所述样本客户的属性标签的属性值的权重或属性值类区间的权重小于所述预设权重阈值的多个属性标签；

将所述样本客户的小于所述预设权重阈值的多个属性标签进行二二组合，得到多个所述属性标签组合。

进一步地，计算所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，包括：

判断组成所述样本客户的各个所述挖掘属性标签的二个属性标签的类别；

如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类，则按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重；

如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类，则采用动态聚类方法对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重；

如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是数字类，则采用自组织映射SOM聚类方法对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重。

进一步地，根据每个所述属性标签组合的集中度，以及组成每个所述属性标签组合的属性标签的集中度，确定每个所述属性标签组合是否能够作为所述样本客户的挖掘属性标签，包括：

将每个所述属性标签组合的集中度，分别与组成每个所述属性标签组合的属性标签的集中度进行比较；

如果某个所述属性标签组合的集中度大于组成某个所述属性标签组合的所有属性标签的集中度，则确定某个所述属性标签组合能够作为所述样本客户的所述挖掘属性标签；

如果某个所述属性标签组合的集中度小于等于组成某个所述属性标签组合的任一属性标签的集中度，则确定某个所述属性标签组合不能够作为所述样本客户的所述挖掘属性标签。

进一步地，根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，采用图聚类方法对所述样本客户进行社群划分，得到多个客户社群，包括：

从所有的所述样本客户中随机选择一个所述样本客户，根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，按照预设最大连接权重选择公式，从随机选择的所述样本客户与其他各个所述样本客户之间的连接权重中，选择连接权重最大的一个其他所述样本客户，并将连接权重最大的一个其他所述样本客户与随机选择的所述样本客户组成待定客户社群；

根据预设聚合公式，计算所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应，根据所述待定客户社群之外的其他所述样本客户与待定客户社群的聚合效应，确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群；

从所述客户社群之外的所述样本客户中随机选择一个所述样本客户，然后执行计算随机选择的所述样本客户与其他各个所述样本客户之间的连接权重的步骤。

进一步地，所述预设最大连接权重选择公式如下：

其中，v^*表示与随机选择的所述样本客户v的连接权重最大的一个其他所述样本客户，E_v-connect表示随机选择的所述样本客户v与随机选择的所述样本客户v有共同属性值的任一所述样本客户的连接权重。

进一步地，所述预设聚合公式如下：

其中，当w(S_in)表示随机选择的所述样本客户v与所述待定客户社群中的其他所述样本客户的连接权重、w(S_out)表示随机选择的所述样本客户v与所述待定客户社群之外的其他所述样本客户的连接权重时，Condensity(g_i)表示所述待定客户社群的聚合效应值；当w(S_in)表示随机选择的所述样本客户v与所述客户社群中的其他所述样本客户的连接权重、w(S_out)表示随机选择的所述样本客户v与所述客户社群之外的其他所述样本客户的连接权重时，Condensity(g_i)表示所述客户社群的聚合效应值。

进一步地，根据所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应，确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群，包括：

将所述待定客户社群的聚合效应值与所述客户社群的聚合效应值进行比较；

如果所述客户社群的聚合效应值大于所述待定客户社群的聚合效应值，则确定将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群；

如果所述客户社群的聚合效应值小于等于所述待定客户社群的聚合效应值，则确定不将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群。

进一步地，按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后，还包括：

将所述新客户属于每个所述客户社群的概率进行比较，得到所述新客户属于所述客户社群的最大概率；

确定所述新客户属于最大概率对应的所述客户社群；

更新所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重。

进一步地，所述预设概率公式如下：

其中，Y表示所述新客户的属性标签，y_i表示所述新客户的属性标签的第i个属性值，n表示所述新客户的属性标签有n个属性值，B表示任一所述客户社群。

进一步地，确定所述新客户是所述商家的潜在客户之后，还包括：

获取所述商家的反馈信息；其中，所述反馈信息包括确定的某所述新客户是所述商家的潜在客户不正确、和/或原来的某所述样本客户当前不符合所述商家的客户标准；

根据所述商家的反馈信息，按照预设权重矫正公式对所述样本客户或所述新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，并根据所述商家的反馈信息，对所述客户社群进行矫正。

进一步地，所述预设权重矫正公式如下：

其中，

表示所述样本客户或所述新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重；

表示所述样本客户或所述新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重；

表示所述样本客户或所述新客户的矫正后的属性标签A在矫正前的所述客户社群中的权重。

为了解决上述问题，本发明还公开了一种挖掘潜在客户的装置，所述装置包括：

获取模块，用于获取商家的样本客户的各个属性标签，并计算所述样本客户的各个属性标签的集中度，以及所述样本客户的各个属性标签的属性值域的权重；

组合计算模块，用于将所述样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，计算每个所述属性标签组合的集中度；

确定计算模块，用于根据每个所述属性标签组合的集中度，以及组成每个所述属性标签组合的属性标签的集中度，从多个所述属性标签组合中选择所述样本客户的挖掘属性标签，并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重；

划分模块，用于根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类方法对所述样本客户进行社群划分，得到多个客户社群；

概率计算模块，用于获取新客户的各个属性标签，并根据所述新客户的各个属性标签的属性值、每个所述客户社群中的所述样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值，按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率；

潜在客户确定模块，用于当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时，则确定所述新客户是所述商家的潜在客户。

进一步地，所述获取模块包括：

第一判断单元，用于判断所述样本客户的各个属性标签的类别；

第一计算单元，用于如果所述样本客户的某属性标签是文本类，则按照预设权重计算公式计算所述样本客户的文本类的某属性标签的各个属性值的权重；

第二计算单元，用于如果所述样本客户的某属性标签的属性值是数字类，则采用动态聚类装置对所述样本客户的数字类的某属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算所述样本客户的数字类的某属性标签的各个属性值类区间的权重。

进一步地，所述预设权重计算公式为：

进一步地，所述组合计算模块包括：

第一比较单元，用于将所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重，与预设权重阈值进行比较，得到所述样本客户的属性标签的属性值的权重或属性值类区间的权重小于所述预设权重阈值的多个属性标签；

组合单元，用于将所述样本客户的小于所述预设权重阈值的多个属性标签进行二二组合，得到多个所述属性标签组合。

进一步地，所述确定计算模块还包括：

第二判断单元，用于判断组成所述样本客户的各个所述挖掘属性标签的二个属性标签的类别；

第三计算单元，用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类，则按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重；

第四计算单元，用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类，则采用动态聚类装置对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重；

第五计算单元，用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是数字类，则采用自组织映射SOM聚类装置对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重。

进一步地，所述确定计算模块包括：

第二比较单元，用于将每个所述属性标签组合的集中度，分别与组成每个所述属性标签组合的属性标签的集中度进行比较；

第一确定单元，用于如果某个所述属性标签组合的集中度大于组成某个所述属性标签组合的所有属性标签的集中度，则确定某个所述属性标签组合能够作为所述样本客户的所述挖掘属性标签；

第二确定单元，用于如果某个所述属性标签组合的集中度小于等于组成某个所述属性标签组合的任一属性标签的集中度，则确定某个所述属性标签组合不能够作为所述样本客户的所述挖掘属性标签。

进一步地，所述划分模块包括：

选择单元，用于从所有的所述样本客户中随机选择一个所述样本客户，根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，按照预设最大连接权重选择公式，从随机选择的所述样本客户与其他各个所述样本客户之间的连接权重中，选择连接权重最大的一个其他所述样本客户，并将连接权重最大的一个其他所述样本客户与随机选择的所述样本客户组成待定客户社群；

第三确定单元，用于根据预设聚合公式，计算所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应，根据所述待定客户社群之外的其他所述样本客户与待定客户社群的聚合效应，确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群；

通知单元，用于从所述客户社群之外的所述样本客户中随机选择一个所述样本客户，然后通知所述选择单元执行计算随机选择的所述样本客户与其他各个所述样本客户之间的连接权重的步骤。

进一步地，所述预设最大连接权重选择公式如下：

进一步地，所述预设聚合公式如下：

进一步地，所述第三确定单元包括：

比较子单元，用于将所述待定客户社群的聚合效应值与所述客户社群的聚合效应值进行比较；

第一确定子单元，用于如果所述客户社群的聚合效应值大于所述待定客户社群的聚合效应值，则确定将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群；

第二确定子单元，用于如果所述客户社群的聚合效应值小于等于所述待定客户社群的聚合效应值，则确定不将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群。

进一步地，所述装置还包括：

比较模块，用于按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后，将所述新客户属于每个所述客户社群的概率进行比较，得到所述新客户属于所述客户社群的最大概率；

确定模块，用于确定所述新客户属于最大概率对应的所述客户社群；

更新模块，用于更新所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重。

进一步地，所述预设概率公式如下：

进一步地，所述装置还包括：

反馈模块，用于确定所述新客户是所述商家的潜在客户之后，获取所述商家的反馈信息；其中，所述反馈信息包括确定的某所述新客户是所述商家的潜在客户不正确、和/或原来的某所述样本客户当前不符合所述商家的客户标准；

矫正模块，用于根据所述商家的反馈信息，按照预设权重矫正公式对所述样本客户或所述新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，并根据所述商家的反馈信息，对所述客户社群进行矫正。

进一步地，所述预设权重矫正公式如下：

其中，

与现有技术相比，本发明可以获得包括以下技术效果：

1)根据每个属性标签组合的集中度，以及组成每个属性标签组合的属性标签的集中度，选择样本客户的挖掘属性标签，根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类方法对样本客户进行社群划分，得到多个客户社群，当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时，则确定新客户是商家的潜在客户，不需要将样本客户的各个属性标签进行组合，不需要遍历各种组合情况，计算简单快捷，可以节约时间。

2)按照预设概率公式计算得到新客户属于每个客户社群的概率，通过概率确定新客户是不是商家的潜在客户，而不需要采用梯度下降法求全局最优结果，大大提高了运算速度。

3)预设权重计算公式通过运用属性标签的集中度，能够适应更复杂的数据结构，能够更有效的反应数据的分布规律。

4)根据商家的反馈信息，按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，预设权重矫正公式不仅考虑了属性标签所包含的样本量因素，还针对权重本身进行惩罚或者奖励，这样不仅加快了效果反馈速度，同时还使得权重的变化更加稳健，不会出现异常的增加或者减少，并且会随着样本客户数量的增加，准确度也会越来越高。

当然，实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的第一种挖掘潜在客户的方法流程图；

图2是本发明实施例的属性值类区间对应的波峰示意图；

图3是本发明实施例的对于文本类的属性标签的属性值X和文本类的属性标签的属性值Y的属性标签组合的计算示意图；

图4是本发明实施例的文本类的属性值下的数字类的属性值的分布规律示意图；

图5是本发明实施例的不同数字类的属性值的分布规律示意图；

图6是本发明实施例的第二种挖掘潜在客户的方法流程图；

图7是本发明实施例的第三种挖掘潜在客户的方法流程图；

图8是本发明实施例的第四种挖掘潜在客户的方法流程图；

图9是本发明实施例的采用图聚类方法依次对样本客户进行社群划分，得到多个客户社群的示意图；

图10是本发明实施例的第五种挖掘潜在客户的方法流程图；

图11是本发明实施例的第六种挖掘潜在客户的方法流程图；

图12是本发明实施例的第一种挖掘潜在客户的装置结构示意图；

图13是本发明实施例的第二种挖掘潜在客户的装置结构示意图；

图14是本发明实施例的第三种挖掘潜在客户的装置结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

实施例描述

下面以一实施例对本发明方法的实现作进一步说明。如图1所示，为本发明实施例的一种挖掘潜在客户的方法流程图，该方法包括：

S101：获取商家的样本客户的各个属性标签，并计算样本客户的各个属性标签的集中度，以及样本客户的各个属性标签的属性值域的权重；其中，属性值域的权重包括属性值的权重或属性值类区间的权重。

具体地，可以获取商家的会员信息，将商家的各个会员作为样本客户。

其中，属性标签例如可以是性别、年龄、地域、消费金额等。属性标签的属性值例如：对于性别其属性值是男或女；对于年龄其属性值是18、20、30等；对于地域其属性值是上海、北京等；对于消费金额其属性值是10、、20、100等。

需要说明的是，对于年龄、地域等属性标签，其对应的属性值一般通过文本(如男、女、上海、北京等)来表示，其属性值的个数一般是有限的几个，可以直接求属性值的权重。而对于年龄、消费金额等属性标签，其对应的属性值一般通过数字(如18、20、30等)来表示，其属性值的个数一般可以有很多个，需要通过动态聚类方法将属性值归类为属性值类区间，求属性值类区间的权重，参见图2，将属性值归类为属性值类区间是为了找到如图2所示的波峰，再计算属性值类区间的集中度。

具体地，计算样本客户的各个属性标签的集中度CRn的公式如下：

其中，对于文本类的属性标签：x_i表示属性标签的属性值是x_i，c(x_i)表示属性标签的属性值x_i的个数，c(X)表示属性标签的所有属性值的总个数，n表示选取属性标签的属性值的个数的排名在前n的属性值；对于数字类的属性标签：x_i表示属性标签的属性值类区间是x_i，c(x_i)表示属性标签的属性值类区间x_i中元素的个数，c(X)表示属性标签的所有属性值类区间中元素的总个数，n表示选取属性标签的属性值类区间中元素的个数的排名在前n的属性值。n的取值可以是2、4、5等，可以根据实际应用状况进行选取，本实施例中优选选取n＝4。

S102：将样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，计算每个属性标签组合的集中度。

具体地，可以将属性标签进行两两、三三等进行组合，本实施例中优选进行两两组合，例如：将性别、年龄组合，将年龄、地域组合等。

具体地，将样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，包括：

将样本客户的各个属性标签的属性值的权重或属性值类区间的权重，与预设权重阈值进行比较，得到样本客户的属性标签的属性值的权重或属性值类区间的权重小于预设权重阈值的多个属性标签；

将样本客户的小于预设权重阈值的多个属性标签进行二二组合，得到多个属性标签组合。

具体地，计算每个属性标签组合的集中度，包括：

当组成每个属性标签组合的二个属性标签的类别均是文本类时，分别计算各个文本类的属性标签的属性值的分布，参见图3，对于文本类的属性标签的属性值X和文本类的属性标签的属性值Y的属性标签组合中，当Y取值为D时，分别计算X中的前m个属性值(此处为3，可以分别设为a、b、c)的集中度，分别为0.4、0.3、0.1，从而对应的属性标签组合的集中度为0.4+0.3+0.1＝0.8。

当组成每个属性标签组合的二个属性标签的类别一个是文本类、一个是数字类时，获得各个文本类的属性值下的数字类的属性值的分布规律，如参见图4，在不同的文本类的属性值X的区间，数字类的属性值Y都有不一样的分布规律，从而将X划分成一个个离散的区间，那么Y就会在每个区间内是呈现单一分布的情况，计算各个单一分布的集中度，然后将各个单一分布的集中度相加即得到对应的属性标签组合的集中度。

当组成每个属性标签组合的二个属性标签的类别均是数字类时，识别出不同数字类的属性值的分布规律，如参见图5，3种线型分别代表不同的分布情况，计算各个分布的集中度，然后将各个分布的集中度相加即得到对应的属性标签组合的集中度。

S103：根据每个属性标签组合的集中度，以及组成每个属性标签组合的属性标签的集中度，从多个属性标签组合中选择样本客户的挖掘属性标签，并计算样本客户的各个挖掘属性标签的属性值域的权重。

其中，挖掘属性标签即在对新客户进行判断验证其是否是商家的潜在客户时用于参考使用的属性标签组合。从多个属性标签组合中选择样本客户的挖掘属性标签即从多个属性标签组合中选择能够作为样本客户的挖掘属性标签的属性标签组合。

具体地，根据每个属性标签组合的集中度，以及组成每个属性标签组合的属性标签的集中度，从多个属性标签组合中选择样本客户的挖掘属性标签，包括：

将每个属性标签组合的集中度，分别与组成每个属性标签组合的属性标签的集中度进行比较；

如果某个属性标签组合的集中度大于组成某个属性标签组合的所有属性标签的集中度，则确定某个属性标签组合能够作为样本客户的挖掘属性标签；

如果某个属性标签组合的集中度小于等于组成某个属性标签组合的任一属性标签的集中度，则确定某个属性标签组合不能够作为样本客户的挖掘属性标签。

S104：根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，采用图聚类方法对样本客户进行社群划分，得到多个客户社群。

S105：获取新客户的各个属性标签，并根据新客户的各个属性标签的属性值、每个客户社群中的样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值，按照预设概率公式计算得到新客户属于每个客户社群的概率。

其中，预设概率公式如下：

其中，Y表示新客户的属性标签，y_i表示新客户的属性标签的第i个属性值，m表示新客户的属性标签有m个属性值，B表示任一客户社群。

S106：当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时，则确定新客户是商家的潜在客户。

其中，预设概率阈值可以是0.4、0.6、0.7等，可以根据实际应用状况进行设置，对此不做限定。

在本实施例的一优选实施例中，参见图6，S101中的计算样本客户的各个属性标签的属性值的权重或属性值类区间的权重，包括：

S101a：判断样本客户的各个属性标签的类别，如果样本客户的某属性标签是文本类，则执行S101b；如果样本客户的某属性标签的属性值是数字类，则执行S101c。

其中，文本类也可以称为离散类，数字类也可以称为连续类。

S101b：按照预设权重计算公式计算样本客户的文本类的某属性标签的各个属性值的权重，然后执行S102。

其中，预设权重计算公式w(x_i)为：

对于文本类的某属性标签：x_i表示文本类的某属性标签的属性值是x_i，w(x_i)表示文本类的某属性标签的属性值x_i的权重，CRn表示文本类的某属性标签的集中度，c(x_i)表示文本类的某属性标签的属性值x_i的个数，c(X)表示文本类的某属性标签的属性值x_i的总个数。

S101c：采用动态聚类方法对样本客户的数字类的某属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算样本客户的数字类的某属性标签的各个属性值类区间的权重，然后执行S102。

其中，预设权重计算公式w(x_i)为：

对于数字类的某属性标签：x_i表示数字类的某属性标签的属性值类区间是x_i，w(x_i)表示数字类的某属性标签的属性值类区间的权重，CRn表示数字类的某属性标签的集中度，c(x_i)表示数字类的某属性标签的属性值类区间中元素的个数，c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。

在本实施例的一优选实施例中，参见图7，S103中的计算样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，包括：

S103a：判断组成样本客户的各个挖掘属性标签的二个属性标签的类别，如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是文本类，则执行S103b；如果组成样本客户的某挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类，则执行S103c；如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是数字类，则执行S103d。

S103b：按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值的权重，然后执行104。

其中，预设权重计算公式w(x_i)为：

对于某挖掘属性标签的二个属性标签的类别均是文本类：x_i表示某挖掘属性标签的属性值是x_i，w(x_i)表示某挖掘属性标签的属性值x_i的权重，CRn表示某挖掘属性标签的集中度，c(x_i)表示某挖掘属性标签的属性值x_i的个数，c(X)表示某挖掘属性标签的属性值x_i的总个数。

需要说明的是，由于挖掘属性标签是由二个属性标签组合得到的，所以挖掘属性标签的属性值也是由二个属性标签的属性值组合得到的。

S103c：采用动态聚类方法对样本客户的某挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重，然后执行104。

S103d：采用自组织映射SOM(self-organization map)聚类方法对样本客户的某挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重，然后执行104。

在本实施例的一优选实施例中，参见图8，S104根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，采用图聚类方法对样本客户进行社群划分，得到多个客户社群，包括：

S104a：从所有的样本客户中随机选择一个样本客户，根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，按照预设最大连接权重选择公式，从随机选择的样本客户与其他各个样本客户之间的连接权重中，选择连接权重最大的一个其他样本客户，并将连接权重最大的一个其他样本客户与随机选择的样本客户组成待定客户社群。

其中，预设最大连接权重选择公式如下：

其中，v^*表示与随机选择的样本客户v的连接权重最大的一个其他样本客户，E_v-connect表示随机选择的样本客户v与随机选择的样本客户v有共同属性值的任一样本客户的连接权重。

其中，待定客户社群即该客户社群中包含的样本客户还没有最好定下来，可能还有其他样本客户属于该客户社群，需要遍历其他所有样本客户后再确定。

例如：从所有的样本客户中随机选择一个样本客户v₁，按照预设最大连接权重选择公式，从随机选择的样本客户与其他各个样本客户之间的连接权重中，选择连接权重最大的一个其他样本客户为v₂，v₁和v₂组成第一个客户社群g₁(暂时为待定客户社群)。

S104b：根据预设聚合公式，计算待定客户社群之外的其他样本客户与待定客户社群的聚合效应，根据待定客户社群之外的其他样本客户与待定客户社群的聚合效应，确定是否将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群。

其中，预设聚合公式如下：

其中，当w(S_in)表示随机选择的样本客户v与待定客户社群中的其他样本客户的连接权重、w(S_out)表示随机选择的样本客户v与待定客户社群之外的其他样本客户的连接权重时，Condensity(g_i)表示待定客户社群的聚合效应值；当w(S_in)表示随机选择的样本客户v与客户社群中的其他样本客户的连接权重、w(S_out)表示随机选择的样本客户v与客户社群之外的其他样本客户的连接权重时，Condensity(g_i)表示客户社群的聚合效应值。

相应地，根据待定客户社群之外的其他样本客户与待定客户社群的聚合效应，确定是否将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群，包括：

将待定客户社群的聚合效应值与客户社群的聚合效应值进行比较；

如果客户社群的聚合效应值大于待定客户社群的聚合效应值，则确定将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群；

如果客户社群的聚合效应值小于等于待定客户社群的聚合效应值，则确定不将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群。

例如：假设待定客户社群g₂是将样本客户v₃扩充进入g₁后形成的新的待定客户社群，根据预设聚合公式分别计算得到Condensity(g₂)、Condensity(g₁)，如果Condensity(g₂)大于Condensity(g₁)，则确定能够将样本客户v₃扩充进入g₁，如果Condensity(g₂)小于等于Condensity(g₁)，则确定不能够将样本客户v₃扩充进入g₁。

S104c：判断客户社群之外是否还有样本客户，如果有，则执行S104d；否则，结束。

S104d：从客户社群之外的样本客户中随机选择一个样本客户，然后执行104a中的计算随机选择的样本客户与其他各个样本客户之间的连接权重的步骤。

具体地，参见图9，按照S104a-S104d采用图聚类方法依次对样本客户进行社群划分，得到多个客户社群(例如：第一客户社群、第二客户社群、第三客户社群等)。需要说明的是，得到多个客户社群，并不用分辨这个客户社群到底是属于什么性质的社群(例如是运动客户社群、工作客户社群等)，只需要通过标识区分开每个社群即可。

在本实施例的一优选实施例中，参见图10，按照预设概率公式计算得到新客户属于每个客户社群的概率之后，还包括：

S107：将新客户属于每个客户社群的概率进行比较，得到新客户属于客户社群的最大概率。

其中，预设概率公式如下：

其中，Y表示新客户的属性标签，y_i表示新客户的属性标签的第i个属性值，n表示新客户的属性标签有n个属性值，B表示任一客户社群。

S108：确定新客户属于最大概率对应的客户社群。

具体地，确定新客户属于最大概率对应的客户社群。对于具体类别的划分，采用改进的贝叶斯网络，这里不再限定其为有向无环图，而是对属性标签进行无序排列。

S109：更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重。

具体地，确定新客户属于最大概率对应的客户社群后，将新客户扩充进入最大概率对应的客户社群，样本客户的数量发生了变化，需要更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重。更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重的过程是按照上述权重计算公式重新进行计算。

在本实施例的一优选实施例中，参见图11，确定新客户是商家的潜在客户之后，还包括：

S110：获取商家的反馈信息；其中，反馈信息包括确定的某新客户是商家的潜在客户不正确、和/或原来的某样本客户当前不符合商家的客户标准。

具体地，当确定新客户是商家的潜在客户后，可以将新客户的信息反馈给商家，然后商家判断该新客户是否是其需要的潜在客户，如果不是，则可以反馈确定的某新客户是商家的潜在客户不正确。或者商家也可以根据当前的情况，确定原来的某样本客户当前不符合商家的客户标准，然后反馈原来的某样本客户当前不符合商家的客户标准。

S111：根据商家的反馈信息，按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，并根据商家的反馈信息，对客户社群进行矫正。

其中，预设权重矫正公式如下：

其中，

表示样本客户或新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的客户社群中的权重；

表示样本客户或新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的客户社群中的权重；

表示样本客户或新客户的矫正后的属性标签A在矫正前的客户社群中的权重；

表示矫正后的属性标签A的属性值在矫正前的客户社群中的总个数；

表示矫正前的属性标签A的属性值在矫正后的客户社群中的总个数。

本实施例所述的挖掘潜在客户的方法，根据每个属性标签组合的集中度，以及组成每个属性标签组合的属性标签的集中度，选择样本客户的挖掘属性标签，根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类方法对样本客户进行社群划分，得到多个客户社群，当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时，则确定新客户是商家的潜在客户，不需要将样本客户的各个属性标签进行组合，不需要遍历各种组合情况，计算简单快捷，可以节约时间。按照预设概率公式计算得到新客户属于每个客户社群的概率，通过概率确定新客户是不是商家的潜在客户，而不需要采用梯度下降法求全局最优结果，大大提高了运算速度。预设权重计算公式通过运用属性标签的集中度，能够适应更复杂的数据结构，能够更有效的反应数据的分布规律。根据商家的反馈信息，按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，预设权重矫正公式不仅考虑了属性标签所包含的样本量因素，还针对权重本身进行惩罚或者奖励，这样不仅加快了效果反馈速度，同时还使得权重的变化更加稳健，不会出现异常的增加或者减少，并且会随着样本客户数量的增加，准确度也会越来越高。

如图12所示，是本发明实施例的一种挖掘潜在客户的装置结构图，该装置包括：

获取模块201，用于获取商家的样本客户的各个属性标签，并计算样本客户的各个属性标签的集中度，以及样本客户的各个属性标签的属性值域的权重；

组合计算模块202，用于将样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，计算每个属性标签组合的集中度；

确定计算模块203，用于根据每个属性标签组合的集中度，以及组成每个属性标签组合的属性标签的集中度，从多个属性标签组合中选择样本客户的挖掘属性标签，并计算样本客户的各个挖掘属性标签的属性值域的权重；

划分模块204，用于根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类装置对样本客户进行社群划分，得到多个客户社群；

概率计算模块205，用于获取新客户的各个属性标签，并根据新客户的各个属性标签的属性值、每个客户社群中的样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值，按照预设概率公式计算得到新客户属于每个客户社群的概率；

潜在客户确定模块206，用于当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时，则确定新客户是商家的潜在客户。

进一步地，属性值域的权重包括：属性值的权重或属性值类区间的权重。

进一步地，获取模块201包括：

第一判断单元，用于判断样本客户的各个属性标签的类别；

第一计算单元，用于如果样本客户的某属性标签是文本类，则按照预设权重计算公式计算样本客户的文本类的某属性标签的各个属性值的权重；

第二计算单元，用于如果样本客户的某属性标签的属性值是数字类，则采用动态聚类装置对样本客户的数字类的某属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算样本客户的数字类的某属性标签的各个属性值类区间的权重。

进一步地，预设权重计算公式为：

进一步地，组合计算模块202包括：

第一比较单元，用于将样本客户的各个属性标签的属性值的权重或属性值类区间的权重，与预设权重阈值进行比较，得到样本客户的属性标签的属性值的权重或属性值类区间的权重小于预设权重阈值的多个属性标签；

组合单元，用于将样本客户的小于预设权重阈值的多个属性标签进行二二组合，得到多个属性标签组合。

进一步地，确定计算模块204还包括：

第二判断单元，用于判断组成样本客户的各个挖掘属性标签的二个属性标签的类别；

第三计算单元，用于如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是文本类，则按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值的权重；

第四计算单元，用于如果组成样本客户的某挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类，则采用动态聚类装置对样本客户的某挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重；

第五计算单元，用于如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是数字类，则采用自组织映射SOM聚类装置对样本客户的某挖掘属性标签的各个属性值进行数据区间统计，得到多个属性值类区间，按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重。

进一步地，确定计算模块203包括：

第二比较单元，用于将每个属性标签组合的集中度，分别与组成每个属性标签组合的属性标签的集中度进行比较；

第一确定单元，用于如果某个属性标签组合的集中度大于组成某个属性标签组合的所有属性标签的集中度，则确定某个属性标签组合能够作为样本客户的挖掘属性标签；

第二确定单元，用于如果某个属性标签组合的集中度小于等于组成某个属性标签组合的任一属性标签的集中度，则确定某个属性标签组合不能够作为样本客户的挖掘属性标签。

进一步地，划分模块204包括：

选择单元，用于从所有的样本客户中随机选择一个样本客户，根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重，按照预设最大连接权重选择公式，从随机选择的样本客户与其他各个样本客户之间的连接权重中，选择连接权重最大的一个其他样本客户，并将连接权重最大的一个其他样本客户与随机选择的样本客户组成待定客户社群；

第三确定单元，用于根据预设聚合公式，计算待定客户社群之外的其他样本客户与待定客户社群的聚合效应，根据待定客户社群之外的其他样本客户与待定客户社群的聚合效应，确定是否将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群；

通知单元，用于从客户社群之外的样本客户中随机选择一个样本客户，然后通知选择单元执行计算随机选择的样本客户与其他各个样本客户之间的连接权重的步骤。

进一步地，预设最大连接权重选择公式如下：

进一步地，预设聚合公式如下：

进一步地，第三确定单元包括：

比较子单元，用于将待定客户社群的聚合效应值与客户社群的聚合效应值进行比较；

第一确定子单元，用于如果客户社群的聚合效应值大于待定客户社群的聚合效应值，则确定将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群；

第二确定子单元，用于如果客户社群的聚合效应值小于等于待定客户社群的聚合效应值，则确定不将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群。

进一步地，参见图13，该装置还包括：

比较模块207，用于按照预设概率公式计算得到新客户属于每个客户社群的概率之后，将新客户属于每个客户社群的概率进行比较，得到新客户属于客户社群的最大概率；

确定模块208，用于确定新客户属于最大概率对应的客户社群；

更新模块209，用于更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重。

进一步地，预设概率公式如下：

进一步地，参见图14，该装置还包括：

反馈模块210，用于确定新客户是商家的潜在客户之后，获取商家的反馈信息；其中，反馈信息包括确定的某新客户是商家的潜在客户不正确、和/或原来的某样本客户当前不符合商家的客户标准；

矫正模块211，用于根据商家的反馈信息，按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，并根据商家的反馈信息，对客户社群进行矫正。

进一步地，预设权重矫正公式如下：

其中，

表示样本客户或新客户的矫正后的属性标签A在矫正前的客户社群中的权重。

本实施例所述的挖掘潜在客户的装置，根据每个属性标签组合的集中度，以及组成每个属性标签组合的属性标签的集中度，选择样本客户的挖掘属性标签，根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类方法对样本客户进行社群划分，得到多个客户社群，当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时，则确定新客户是商家的潜在客户，不需要将样本客户的各个属性标签进行组合，不需要遍历各种组合情况，计算简单快捷，可以节约时间。按照预设概率公式计算得到新客户属于每个客户社群的概率，通过概率确定新客户是不是商家的潜在客户，而不需要采用梯度下降法求全局最优结果，大大提高了运算速度。预设权重计算公式通过运用属性标签的集中度，能够适应更复杂的数据结构，能够更有效的反应数据的分布规律。根据商家的反馈信息，按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正，预设权重矫正公式不仅考虑了属性标签所包含的样本量因素，还针对权重本身进行惩罚或者奖励，这样不仅加快了效果反馈速度，同时还使得权重的变化更加稳健，不会出现异常的增加或者减少，并且会随着样本客户数量的增加，准确度也会越来越高。

所述装置与前述的方法流程描述对应，不足之处参考上述方法流程的叙述，不再一一赘述。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种挖掘潜在客户的方法，其特征在于，所述方法包括：

获取商家的样本客户的各个属性标签，并计算所述样本客户的各个属性标签的集中度，以及所述样本客户的各个属性标签的属性值域的权重，其中，所述属性值域的权重包括：属性值的权重或属性值类区间的权重；

根据每个所述属性标签组合的集中度，以及组成每个所述属性标签组合的属性标签的集中度，从多个所述属性标签组合中选择所述样本客户的挖掘属性标签，并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重，其中，所述挖掘属性标签为所述多个属性标签组合中能够作为样本客户的挖掘属性标签的属性标签组合；

2.如权利要求1所述的方法，其特征在于，计算所述样本客户的各个属性标签的属性值域的权重，包括：

判断所述样本客户的各个属性标签的类别；

3.如权利要求2所述的方法，其特征在于，所述预设权重计算公式为：

4.如权利要求1所述的方法，其特征在于，将所述样本客户的各个属性标签按照预设组合标准进行组合，得到多个属性标签组合，包括：

5.如权利要求4所述的方法，其特征在于，计算所述样本客户的各个所述挖掘属性标签的属性值域的权重，包括：

如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类，则按照预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重；

6.如权利要求1所述的方法，其特征在于，根据每个所述属性标签组合的集中度，以及组成每个所述属性标签组合的属性标签的集中度，从多个所述属性标签组合中选择所述样本客户的挖掘属性标签，包括：

7.如权利要求1所述的方法，其特征在于，根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重，采用图聚类方法对所述样本客户进行社群划分，得到多个客户社群，包括：

8.如权利要求7所述的方法，其特征在于，所述预设最大连接权重选择公式如下：

9.如权利要求8所述的方法，其特征在于，所述预设聚合公式如下：

10.如权利要求9所述的方法，其特征在于，根据所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应，确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群，包括：

11.如权利要求1所述的方法，其特征在于，按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后，还包括：

确定所述新客户属于最大概率对应的所述客户社群；

12.如权利要求11所述的方法，其特征在于，所述预设概率公式如下：

13.如权利要求1所述的方法，其特征在于，确定所述新客户是所述商家的潜在客户之后，还包括：

14.如权利要求13所述的方法，其特征在于，所述预设权重矫正公式如下：

其中，

15.一种挖掘潜在客户的装置，其特征在于，所述装置包括：

获取模块，用于获取商家的样本客户的各个属性标签，并计算所述样本客户的各个属性标签的集中度，以及所述样本客户的各个属性标签的属性值域的权重，其中，所述属性值域的权重包括：属性值的权重或属性值类区间的权重；

确定计算模块，用于根据每个所述属性标签组合的集中度，以及组成每个所述属性标签组合的属性标签的集中度，从多个所述属性标签组合中选择所述样本客户的挖掘属性标签，并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重，其中，所述挖掘属性标签为所述多个属性标签组合中能够作为样本客户的挖掘属性标签的属性标签组合；

16.如权利要求15所述的装置，其特征在于，所述获取模块包括：

17.如权利要求16所述的装置，其特征在于，所述预设权重计算公式为：