CN106157083B - 挖掘潜在客户的方法和装置 - Google Patents

挖掘潜在客户的方法和装置 Download PDF

Info

Publication number
CN106157083B
CN106157083B CN201510176915.2A CN201510176915A CN106157083B CN 106157083 B CN106157083 B CN 106157083B CN 201510176915 A CN201510176915 A CN 201510176915A CN 106157083 B CN106157083 B CN 106157083B
Authority
CN
China
Prior art keywords
attribute
client
sample
weight
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510176915.2A
Other languages
English (en)
Other versions
CN106157083A (zh
Inventor
兰红云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510176915.2A priority Critical patent/CN106157083B/zh
Publication of CN106157083A publication Critical patent/CN106157083A/zh
Application granted granted Critical
Publication of CN106157083B publication Critical patent/CN106157083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种挖掘潜在客户的方法和装置,属于网络通信技术领域。所述方法包括:获取并计算样本客户的各个属性标签的集中度,以及所述样本客户的各个属性标签的属性值域的权重;将所述样本客户的各个属性标签按照预设组合标准进行组合,得到并计算多个属性标签组合的集中度;选择并计算所述样本客户的各个挖掘属性标签的属性值域的权重;采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群;按照预设概率公式计算得到的新客户属于每个所述客户社群的概率;当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时,则确定所述新客户是所述商家的潜在客户。本发明可以节约时间。

Description

挖掘潜在客户的方法和装置
技术领域
本发明涉及网络通信技术领域,具体涉及一种挖掘潜在客户的方法和装置。
背景技术
随着网络通信技术的发展,越来越多的商家通过网上商城售卖货品,在商家进行促销的过程中,十分关心的一个问题是:如何根据商家现在已拥有的客户的信息(比如客户的年龄、性别、家庭地址等信息),挖掘出潜在的客户,实现客户的精准触达。我们的技术就是解决这个问题,根据商家现有会员数据,挖掘出其会员的社群特征,并根据这些特征从淘宝客中筛选出商家的潜在会员。
目前,挖掘潜在客户的方法如下:获得商家的样本客户的各个属性标签;统计样本客户的各个属性标签的分布特征;运用贝叶斯无向图网络,获得样本客户的各个属性标签的联合概率分布函数;运用梯度下降法得到对于样本客户拟合度最好的属性标签的权重,以及属性标签组合的权重;运用属性标签的权重,属性标签组合的权重,计算新客户成为商家的潜在客户的概率;根据新客户成为商家的潜在客户的概率,确定新客户是否是商家的潜在客户。
然而,现有挖掘潜在客户的方法,需要将样本客户的各个属性标签进行组合,需要遍历各种组合情况,计算复杂,浪费时间。
发明内容
为了解决现有技术的问题,本发明提供了一种挖掘潜在客户的方法和装置,不需要将样本客户的各个属性标签进行组合,不需要遍历各种组合情况,计算简单快捷,可以节约时间。
为了解决上述问题,本发明公开了一种挖掘潜在客户的方法,所述方法包括:
获取商家的样本客户的各个属性标签,并计算所述样本客户的各个属性标签的集中度,以及所述样本客户的各个属性标签的属性值域的权重;
将所述样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,计算每个所述属性标签组合的集中度;
根据每个所述属性标签组合的集中度,以及组成每个所述属性标签组合的属性标签的集中度,从多个所述属性标签组合中选择所述样本客户的挖掘属性标签,并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重;
根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群;
获取新客户的各个属性标签,并根据所述新客户的各个属性标签的属性值、每个所述客户社群中的所述样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值,按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率;
当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时,则确定所述新客户是所述商家的潜在客户。
进一步地,所述属性值域的权重包括:属性值的权重或属性值类区间的权重。
进一步地,计算所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重,包括:
判断所述样本客户的各个属性标签的类别;
如果所述样本客户的某属性标签是文本类,则按照预设权重计算公式计算所述样本客户的文本类的某属性标签的各个属性值的权重;
如果所述样本客户的某属性标签的属性值是数字类,则采用动态聚类方法对所述样本客户的数字类的某属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算所述样本客户的数字类的某属性标签的各个属性值类区间的权重。
进一步地,所述预设权重计算公式为:
Figure BDA0000698944550000031
其中,对于文本类的某属性标签:xi表示文本类的某属性标签的属性值是xi,w(xi)表示文本类的某属性标签的属性值xi的权重,CRn表示文本类的某属性标签的集中度,c(xi)表示文本类的某属性标签的属性值xi的个数,c(X)表示文本类的某属性标签的所有属性值的总个数;对于数字类的某属性标签:xi表示数字类的某属性标签的属性值类区间是xi,w(xi)表示数字类的某属性标签的属性值类区间的权重,CRn表示数字类的某属性标签的集中度,c(xi)表示数字类的某属性标签的属性值类区间中元素的个数,c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。
进一步地,将所述样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,包括:
将所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重,与预设权重阈值进行比较,得到所述样本客户的属性标签的属性值的权重或属性值类区间的权重小于所述预设权重阈值的多个属性标签;
将所述样本客户的小于所述预设权重阈值的多个属性标签进行二二组合,得到多个所述属性标签组合。
进一步地,计算所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,包括:
判断组成所述样本客户的各个所述挖掘属性标签的二个属性标签的类别;
如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类,则按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重;
如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类,则采用动态聚类方法对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重;
如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是数字类,则采用自组织映射SOM聚类方法对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重。
进一步地,根据每个所述属性标签组合的集中度,以及组成每个所述属性标签组合的属性标签的集中度,确定每个所述属性标签组合是否能够作为所述样本客户的挖掘属性标签,包括:
将每个所述属性标签组合的集中度,分别与组成每个所述属性标签组合的属性标签的集中度进行比较;
如果某个所述属性标签组合的集中度大于组成某个所述属性标签组合的所有属性标签的集中度,则确定某个所述属性标签组合能够作为所述样本客户的所述挖掘属性标签;
如果某个所述属性标签组合的集中度小于等于组成某个所述属性标签组合的任一属性标签的集中度,则确定某个所述属性标签组合不能够作为所述样本客户的所述挖掘属性标签。
进一步地,根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群,包括:
从所有的所述样本客户中随机选择一个所述样本客户,根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,按照预设最大连接权重选择公式,从随机选择的所述样本客户与其他各个所述样本客户之间的连接权重中,选择连接权重最大的一个其他所述样本客户,并将连接权重最大的一个其他所述样本客户与随机选择的所述样本客户组成待定客户社群;
根据预设聚合公式,计算所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应,根据所述待定客户社群之外的其他所述样本客户与待定客户社群的聚合效应,确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
从所述客户社群之外的所述样本客户中随机选择一个所述样本客户,然后执行计算随机选择的所述样本客户与其他各个所述样本客户之间的连接权重的步骤。
进一步地,所述预设最大连接权重选择公式如下:
Figure BDA0000698944550000051
其中,v*表示与随机选择的所述样本客户v的连接权重最大的一个其他所述样本客户,Ev-connect表示随机选择的所述样本客户v与随机选择的所述样本客户v有共同属性值的任一所述样本客户的连接权重。
进一步地,所述预设聚合公式如下:
Figure BDA0000698944550000052
其中,当w(Sin)表示随机选择的所述样本客户v与所述待定客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述待定客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述待定客户社群的聚合效应值;当w(Sin)表示随机选择的所述样本客户v与所述客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述客户社群的聚合效应值。
进一步地,根据所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应,确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群,包括:
将所述待定客户社群的聚合效应值与所述客户社群的聚合效应值进行比较;
如果所述客户社群的聚合效应值大于所述待定客户社群的聚合效应值,则确定将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
如果所述客户社群的聚合效应值小于等于所述待定客户社群的聚合效应值,则确定不将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群。
进一步地,按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后,还包括:
将所述新客户属于每个所述客户社群的概率进行比较,得到所述新客户属于所述客户社群的最大概率;
确定所述新客户属于最大概率对应的所述客户社群;
更新所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重。
进一步地,所述预设概率公式如下:
Figure BDA0000698944550000061
其中,Y表示所述新客户的属性标签,yi表示所述新客户的属性标签的第i个属性值,n表示所述新客户的属性标签有n个属性值,B表示任一所述客户社群。
进一步地,确定所述新客户是所述商家的潜在客户之后,还包括:
获取所述商家的反馈信息;其中,所述反馈信息包括确定的某所述新客户是所述商家的潜在客户不正确、和/或原来的某所述样本客户当前不符合所述商家的客户标准;
根据所述商家的反馈信息,按照预设权重矫正公式对所述样本客户或所述新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,并根据所述商家的反馈信息,对所述客户社群进行矫正。
进一步地,所述预设权重矫正公式如下:
Figure BDA0000698944550000071
其中,
Figure BDA0000698944550000072
表示所述样本客户或所述新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure BDA0000698944550000073
表示所述样本客户或所述新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure BDA0000698944550000074
表示所述样本客户或所述新客户的矫正后的属性标签A在矫正前的所述客户社群中的权重。
为了解决上述问题,本发明还公开了一种挖掘潜在客户的装置,所述装置包括:
获取模块,用于获取商家的样本客户的各个属性标签,并计算所述样本客户的各个属性标签的集中度,以及所述样本客户的各个属性标签的属性值域的权重;
组合计算模块,用于将所述样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,计算每个所述属性标签组合的集中度;
确定计算模块,用于根据每个所述属性标签组合的集中度,以及组成每个所述属性标签组合的属性标签的集中度,从多个所述属性标签组合中选择所述样本客户的挖掘属性标签,并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重;
划分模块,用于根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群;
概率计算模块,用于获取新客户的各个属性标签,并根据所述新客户的各个属性标签的属性值、每个所述客户社群中的所述样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值,按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率;
潜在客户确定模块,用于当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时,则确定所述新客户是所述商家的潜在客户。
进一步地,所述属性值域的权重包括:属性值的权重或属性值类区间的权重。
进一步地,所述获取模块包括:
第一判断单元,用于判断所述样本客户的各个属性标签的类别;
第一计算单元,用于如果所述样本客户的某属性标签是文本类,则按照预设权重计算公式计算所述样本客户的文本类的某属性标签的各个属性值的权重;
第二计算单元,用于如果所述样本客户的某属性标签的属性值是数字类,则采用动态聚类装置对所述样本客户的数字类的某属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算所述样本客户的数字类的某属性标签的各个属性值类区间的权重。
进一步地,所述预设权重计算公式为:
Figure BDA0000698944550000081
其中,对于文本类的某属性标签:xi表示文本类的某属性标签的属性值是xi,w(xi)表示文本类的某属性标签的属性值xi的权重,CRn表示文本类的某属性标签的集中度,c(xi)表示文本类的某属性标签的属性值xi的个数,c(X)表示文本类的某属性标签的所有属性值的总个数;对于数字类的某属性标签:xi表示数字类的某属性标签的属性值类区间是xi,w(xi)表示数字类的某属性标签的属性值类区间的权重,CRn表示数字类的某属性标签的集中度,c(xi)表示数字类的某属性标签的属性值类区间中元素的个数,c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。
进一步地,所述组合计算模块包括:
第一比较单元,用于将所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重,与预设权重阈值进行比较,得到所述样本客户的属性标签的属性值的权重或属性值类区间的权重小于所述预设权重阈值的多个属性标签;
组合单元,用于将所述样本客户的小于所述预设权重阈值的多个属性标签进行二二组合,得到多个所述属性标签组合。
进一步地,所述确定计算模块还包括:
第二判断单元,用于判断组成所述样本客户的各个所述挖掘属性标签的二个属性标签的类别;
第三计算单元,用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类,则按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重;
第四计算单元,用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类,则采用动态聚类装置对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重;
第五计算单元,用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是数字类,则采用自组织映射SOM聚类装置对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重。
进一步地,所述确定计算模块包括:
第二比较单元,用于将每个所述属性标签组合的集中度,分别与组成每个所述属性标签组合的属性标签的集中度进行比较;
第一确定单元,用于如果某个所述属性标签组合的集中度大于组成某个所述属性标签组合的所有属性标签的集中度,则确定某个所述属性标签组合能够作为所述样本客户的所述挖掘属性标签;
第二确定单元,用于如果某个所述属性标签组合的集中度小于等于组成某个所述属性标签组合的任一属性标签的集中度,则确定某个所述属性标签组合不能够作为所述样本客户的所述挖掘属性标签。
进一步地,所述划分模块包括:
选择单元,用于从所有的所述样本客户中随机选择一个所述样本客户,根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,按照预设最大连接权重选择公式,从随机选择的所述样本客户与其他各个所述样本客户之间的连接权重中,选择连接权重最大的一个其他所述样本客户,并将连接权重最大的一个其他所述样本客户与随机选择的所述样本客户组成待定客户社群;
第三确定单元,用于根据预设聚合公式,计算所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应,根据所述待定客户社群之外的其他所述样本客户与待定客户社群的聚合效应,确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
通知单元,用于从所述客户社群之外的所述样本客户中随机选择一个所述样本客户,然后通知所述选择单元执行计算随机选择的所述样本客户与其他各个所述样本客户之间的连接权重的步骤。
进一步地,所述预设最大连接权重选择公式如下:
Figure BDA0000698944550000102
其中,v*表示与随机选择的所述样本客户v的连接权重最大的一个其他所述样本客户,Ev-connect表示随机选择的所述样本客户v与随机选择的所述样本客户v有共同属性值的任一所述样本客户的连接权重。
进一步地,所述预设聚合公式如下:
Figure BDA0000698944550000101
其中,当w(Sin)表示随机选择的所述样本客户v与所述待定客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述待定客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述待定客户社群的聚合效应值;当w(Sin)表示随机选择的所述样本客户v与所述客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述客户社群的聚合效应值。
进一步地,所述第三确定单元包括:
比较子单元,用于将所述待定客户社群的聚合效应值与所述客户社群的聚合效应值进行比较;
第一确定子单元,用于如果所述客户社群的聚合效应值大于所述待定客户社群的聚合效应值,则确定将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
第二确定子单元,用于如果所述客户社群的聚合效应值小于等于所述待定客户社群的聚合效应值,则确定不将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群。
进一步地,所述装置还包括:
比较模块,用于按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后,将所述新客户属于每个所述客户社群的概率进行比较,得到所述新客户属于所述客户社群的最大概率;
确定模块,用于确定所述新客户属于最大概率对应的所述客户社群;
更新模块,用于更新所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重。
进一步地,所述预设概率公式如下:
Figure BDA0000698944550000111
其中,Y表示所述新客户的属性标签,yi表示所述新客户的属性标签的第i个属性值,n表示所述新客户的属性标签有n个属性值,B表示任一所述客户社群。
进一步地,所述装置还包括:
反馈模块,用于确定所述新客户是所述商家的潜在客户之后,获取所述商家的反馈信息;其中,所述反馈信息包括确定的某所述新客户是所述商家的潜在客户不正确、和/或原来的某所述样本客户当前不符合所述商家的客户标准;
矫正模块,用于根据所述商家的反馈信息,按照预设权重矫正公式对所述样本客户或所述新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,并根据所述商家的反馈信息,对所述客户社群进行矫正。
进一步地,所述预设权重矫正公式如下:
Figure BDA0000698944550000121
其中,
Figure BDA0000698944550000122
表示所述样本客户或所述新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure BDA0000698944550000123
表示所述样本客户或所述新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure BDA0000698944550000124
表示所述样本客户或所述新客户的矫正后的属性标签A在矫正前的所述客户社群中的权重。
与现有技术相比,本发明可以获得包括以下技术效果:
1)根据每个属性标签组合的集中度,以及组成每个属性标签组合的属性标签的集中度,选择样本客户的挖掘属性标签,根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对样本客户进行社群划分,得到多个客户社群,当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时,则确定新客户是商家的潜在客户,不需要将样本客户的各个属性标签进行组合,不需要遍历各种组合情况,计算简单快捷,可以节约时间。
2)按照预设概率公式计算得到新客户属于每个客户社群的概率,通过概率确定新客户是不是商家的潜在客户,而不需要采用梯度下降法求全局最优结果,大大提高了运算速度。
3)预设权重计算公式通过运用属性标签的集中度,能够适应更复杂的数据结构,能够更有效的反应数据的分布规律。
4)根据商家的反馈信息,按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,预设权重矫正公式不仅考虑了属性标签所包含的样本量因素,还针对权重本身进行惩罚或者奖励,这样不仅加快了效果反馈速度,同时还使得权重的变化更加稳健,不会出现异常的增加或者减少,并且会随着样本客户数量的增加,准确度也会越来越高。
当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的第一种挖掘潜在客户的方法流程图;
图2是本发明实施例的属性值类区间对应的波峰示意图;
图3是本发明实施例的对于文本类的属性标签的属性值X和文本类的属性标签的属性值Y的属性标签组合的计算示意图;
图4是本发明实施例的文本类的属性值下的数字类的属性值的分布规律示意图;
图5是本发明实施例的不同数字类的属性值的分布规律示意图;
图6是本发明实施例的第二种挖掘潜在客户的方法流程图;
图7是本发明实施例的第三种挖掘潜在客户的方法流程图;
图8是本发明实施例的第四种挖掘潜在客户的方法流程图;
图9是本发明实施例的采用图聚类方法依次对样本客户进行社群划分,得到多个客户社群的示意图;
图10是本发明实施例的第五种挖掘潜在客户的方法流程图;
图11是本发明实施例的第六种挖掘潜在客户的方法流程图;
图12是本发明实施例的第一种挖掘潜在客户的装置结构示意图;
图13是本发明实施例的第二种挖掘潜在客户的装置结构示意图;
图14是本发明实施例的第三种挖掘潜在客户的装置结构示意图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
实施例描述
下面以一实施例对本发明方法的实现作进一步说明。如图1所示,为本发明实施例的一种挖掘潜在客户的方法流程图,该方法包括:
S101:获取商家的样本客户的各个属性标签,并计算样本客户的各个属性标签的集中度,以及样本客户的各个属性标签的属性值域的权重;其中,属性值域的权重包括属性值的权重或属性值类区间的权重。
具体地,可以获取商家的会员信息,将商家的各个会员作为样本客户。
其中,属性标签例如可以是性别、年龄、地域、消费金额等。属性标签的属性值例如:对于性别其属性值是男或女;对于年龄其属性值是18、20、30等;对于地域其属性值是上海、北京等;对于消费金额其属性值是10、、20、100等。
需要说明的是,对于年龄、地域等属性标签,其对应的属性值一般通过文本(如男、女、上海、北京等)来表示,其属性值的个数一般是有限的几个,可以直接求属性值的权重。而对于年龄、消费金额等属性标签,其对应的属性值一般通过数字(如18、20、30等)来表示,其属性值的个数一般可以有很多个,需要通过动态聚类方法将属性值归类为属性值类区间,求属性值类区间的权重,参见图2,将属性值归类为属性值类区间是为了找到如图2所示的波峰,再计算属性值类区间的集中度。
具体地,计算样本客户的各个属性标签的集中度CRn的公式如下:
Figure BDA0000698944550000151
其中,对于文本类的属性标签:xi表示属性标签的属性值是xi,c(xi)表示属性标签的属性值xi的个数,c(X)表示属性标签的所有属性值的总个数,n表示选取属性标签的属性值的个数的排名在前n的属性值;对于数字类的属性标签:xi表示属性标签的属性值类区间是xi,c(xi)表示属性标签的属性值类区间xi中元素的个数,c(X)表示属性标签的所有属性值类区间中元素的总个数,n表示选取属性标签的属性值类区间中元素的个数的排名在前n的属性值。n的取值可以是2、4、5等,可以根据实际应用状况进行选取,本实施例中优选选取n=4。
S102:将样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,计算每个属性标签组合的集中度。
具体地,可以将属性标签进行两两、三三等进行组合,本实施例中优选进行两两组合,例如:将性别、年龄组合,将年龄、地域组合等。
具体地,将样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,包括:
将样本客户的各个属性标签的属性值的权重或属性值类区间的权重,与预设权重阈值进行比较,得到样本客户的属性标签的属性值的权重或属性值类区间的权重小于预设权重阈值的多个属性标签;
将样本客户的小于预设权重阈值的多个属性标签进行二二组合,得到多个属性标签组合。
具体地,计算每个属性标签组合的集中度,包括:
当组成每个属性标签组合的二个属性标签的类别均是文本类时,分别计算各个文本类的属性标签的属性值的分布,参见图3,对于文本类的属性标签的属性值X和文本类的属性标签的属性值Y的属性标签组合中,当Y取值为D时,分别计算X中的前m个属性值(此处为3,可以分别设为a、b、c)的集中度,分别为0.4、0.3、0.1,从而对应的属性标签组合的集中度为0.4+0.3+0.1=0.8。
当组成每个属性标签组合的二个属性标签的类别一个是文本类、一个是数字类时,获得各个文本类的属性值下的数字类的属性值的分布规律,如参见图4,在不同的文本类的属性值X的区间,数字类的属性值Y都有不一样的分布规律,从而将X划分成一个个离散的区间,那么Y就会在每个区间内是呈现单一分布的情况,计算各个单一分布的集中度,然后将各个单一分布的集中度相加即得到对应的属性标签组合的集中度。
当组成每个属性标签组合的二个属性标签的类别均是数字类时,识别出不同数字类的属性值的分布规律,如参见图5,3种线型分别代表不同的分布情况,计算各个分布的集中度,然后将各个分布的集中度相加即得到对应的属性标签组合的集中度。
S103:根据每个属性标签组合的集中度,以及组成每个属性标签组合的属性标签的集中度,从多个属性标签组合中选择样本客户的挖掘属性标签,并计算样本客户的各个挖掘属性标签的属性值域的权重。
其中,挖掘属性标签即在对新客户进行判断验证其是否是商家的潜在客户时用于参考使用的属性标签组合。从多个属性标签组合中选择样本客户的挖掘属性标签即从多个属性标签组合中选择能够作为样本客户的挖掘属性标签的属性标签组合。
具体地,根据每个属性标签组合的集中度,以及组成每个属性标签组合的属性标签的集中度,从多个属性标签组合中选择样本客户的挖掘属性标签,包括:
将每个属性标签组合的集中度,分别与组成每个属性标签组合的属性标签的集中度进行比较;
如果某个属性标签组合的集中度大于组成某个属性标签组合的所有属性标签的集中度,则确定某个属性标签组合能够作为样本客户的挖掘属性标签;
如果某个属性标签组合的集中度小于等于组成某个属性标签组合的任一属性标签的集中度,则确定某个属性标签组合不能够作为样本客户的挖掘属性标签。
S104:根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,采用图聚类方法对样本客户进行社群划分,得到多个客户社群。
S105:获取新客户的各个属性标签,并根据新客户的各个属性标签的属性值、每个客户社群中的样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值,按照预设概率公式计算得到新客户属于每个客户社群的概率。
其中,预设概率公式如下:
Figure BDA0000698944550000181
其中,Y表示新客户的属性标签,yi表示新客户的属性标签的第i个属性值,m表示新客户的属性标签有m个属性值,B表示任一客户社群。
S106:当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时,则确定新客户是商家的潜在客户。
其中,预设概率阈值可以是0.4、0.6、0.7等,可以根据实际应用状况进行设置,对此不做限定。
在本实施例的一优选实施例中,参见图6,S101中的计算样本客户的各个属性标签的属性值的权重或属性值类区间的权重,包括:
S101a:判断样本客户的各个属性标签的类别,如果样本客户的某属性标签是文本类,则执行S101b;如果样本客户的某属性标签的属性值是数字类,则执行S101c。
其中,文本类也可以称为离散类,数字类也可以称为连续类。
S101b:按照预设权重计算公式计算样本客户的文本类的某属性标签的各个属性值的权重,然后执行S102。
其中,预设权重计算公式w(xi)为:
Figure BDA0000698944550000182
对于文本类的某属性标签:xi表示文本类的某属性标签的属性值是xi,w(xi)表示文本类的某属性标签的属性值xi的权重,CRn表示文本类的某属性标签的集中度,c(xi)表示文本类的某属性标签的属性值xi的个数,c(X)表示文本类的某属性标签的属性值xi的总个数。
S101c:采用动态聚类方法对样本客户的数字类的某属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算样本客户的数字类的某属性标签的各个属性值类区间的权重,然后执行S102。
其中,预设权重计算公式w(xi)为:
Figure BDA0000698944550000191
对于数字类的某属性标签:xi表示数字类的某属性标签的属性值类区间是xi,w(xi)表示数字类的某属性标签的属性值类区间的权重,CRn表示数字类的某属性标签的集中度,c(xi)表示数字类的某属性标签的属性值类区间中元素的个数,c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。
在本实施例的一优选实施例中,参见图7,S103中的计算样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,包括:
S103a:判断组成样本客户的各个挖掘属性标签的二个属性标签的类别,如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是文本类,则执行S103b;如果组成样本客户的某挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类,则执行S103c;如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是数字类,则执行S103d。
S103b:按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值的权重,然后执行104。
其中,预设权重计算公式w(xi)为:
Figure BDA0000698944550000192
对于某挖掘属性标签的二个属性标签的类别均是文本类:xi表示某挖掘属性标签的属性值是xi,w(xi)表示某挖掘属性标签的属性值xi的权重,CRn表示某挖掘属性标签的集中度,c(xi)表示某挖掘属性标签的属性值xi的个数,c(X)表示某挖掘属性标签的属性值xi的总个数。
需要说明的是,由于挖掘属性标签是由二个属性标签组合得到的,所以挖掘属性标签的属性值也是由二个属性标签的属性值组合得到的。
S103c:采用动态聚类方法对样本客户的某挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重,然后执行104。
S103d:采用自组织映射SOM(self-organization map)聚类方法对样本客户的某挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重,然后执行104。
在本实施例的一优选实施例中,参见图8,S104根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,采用图聚类方法对样本客户进行社群划分,得到多个客户社群,包括:
S104a:从所有的样本客户中随机选择一个样本客户,根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,按照预设最大连接权重选择公式,从随机选择的样本客户与其他各个样本客户之间的连接权重中,选择连接权重最大的一个其他样本客户,并将连接权重最大的一个其他样本客户与随机选择的样本客户组成待定客户社群。
其中,预设最大连接权重选择公式如下:
Figure BDA0000698944550000201
其中,v*表示与随机选择的样本客户v的连接权重最大的一个其他样本客户,Ev-connect表示随机选择的样本客户v与随机选择的样本客户v有共同属性值的任一样本客户的连接权重。
其中,待定客户社群即该客户社群中包含的样本客户还没有最好定下来,可能还有其他样本客户属于该客户社群,需要遍历其他所有样本客户后再确定。
例如:从所有的样本客户中随机选择一个样本客户v1,按照预设最大连接权重选择公式,从随机选择的样本客户与其他各个样本客户之间的连接权重中,选择连接权重最大的一个其他样本客户为v2,v1和v2组成第一个客户社群g1(暂时为待定客户社群)。
S104b:根据预设聚合公式,计算待定客户社群之外的其他样本客户与待定客户社群的聚合效应,根据待定客户社群之外的其他样本客户与待定客户社群的聚合效应,确定是否将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群。
其中,预设聚合公式如下:
Figure BDA0000698944550000211
其中,当w(Sin)表示随机选择的样本客户v与待定客户社群中的其他样本客户的连接权重、w(Sout)表示随机选择的样本客户v与待定客户社群之外的其他样本客户的连接权重时,Condensity(gi)表示待定客户社群的聚合效应值;当w(Sin)表示随机选择的样本客户v与客户社群中的其他样本客户的连接权重、w(Sout)表示随机选择的样本客户v与客户社群之外的其他样本客户的连接权重时,Condensity(gi)表示客户社群的聚合效应值。
相应地,根据待定客户社群之外的其他样本客户与待定客户社群的聚合效应,确定是否将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群,包括:
将待定客户社群的聚合效应值与客户社群的聚合效应值进行比较;
如果客户社群的聚合效应值大于待定客户社群的聚合效应值,则确定将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群;
如果客户社群的聚合效应值小于等于待定客户社群的聚合效应值,则确定不将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群。
例如:假设待定客户社群g2是将样本客户v3扩充进入g1后形成的新的待定客户社群,根据预设聚合公式分别计算得到Condensity(g2)、Condensity(g1),如果Condensity(g2)大于Condensity(g1),则确定能够将样本客户v3扩充进入g1,如果Condensity(g2)小于等于Condensity(g1),则确定不能够将样本客户v3扩充进入g1
S104c:判断客户社群之外是否还有样本客户,如果有,则执行S104d;否则,结束。
S104d:从客户社群之外的样本客户中随机选择一个样本客户,然后执行104a中的计算随机选择的样本客户与其他各个样本客户之间的连接权重的步骤。
具体地,参见图9,按照S104a-S104d采用图聚类方法依次对样本客户进行社群划分,得到多个客户社群(例如:第一客户社群、第二客户社群、第三客户社群等)。需要说明的是,得到多个客户社群,并不用分辨这个客户社群到底是属于什么性质的社群(例如是运动客户社群、工作客户社群等),只需要通过标识区分开每个社群即可。
在本实施例的一优选实施例中,参见图10,按照预设概率公式计算得到新客户属于每个客户社群的概率之后,还包括:
S107:将新客户属于每个客户社群的概率进行比较,得到新客户属于客户社群的最大概率。
其中,预设概率公式如下:
Figure BDA0000698944550000221
其中,Y表示新客户的属性标签,yi表示新客户的属性标签的第i个属性值,n表示新客户的属性标签有n个属性值,B表示任一客户社群。
S108:确定新客户属于最大概率对应的客户社群。
具体地,确定新客户属于最大概率对应的客户社群。对于具体类别的划分,采用改进的贝叶斯网络,这里不再限定其为有向无环图,而是对属性标签进行无序排列。
S109:更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重。
具体地,确定新客户属于最大概率对应的客户社群后,将新客户扩充进入最大概率对应的客户社群,样本客户的数量发生了变化,需要更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重。更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重的过程是按照上述权重计算公式重新进行计算。
在本实施例的一优选实施例中,参见图11,确定新客户是商家的潜在客户之后,还包括:
S110:获取商家的反馈信息;其中,反馈信息包括确定的某新客户是商家的潜在客户不正确、和/或原来的某样本客户当前不符合商家的客户标准。
具体地,当确定新客户是商家的潜在客户后,可以将新客户的信息反馈给商家,然后商家判断该新客户是否是其需要的潜在客户,如果不是,则可以反馈确定的某新客户是商家的潜在客户不正确。或者商家也可以根据当前的情况,确定原来的某样本客户当前不符合商家的客户标准,然后反馈原来的某样本客户当前不符合商家的客户标准。
S111:根据商家的反馈信息,按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,并根据商家的反馈信息,对客户社群进行矫正。
其中,预设权重矫正公式如下:
Figure BDA0000698944550000231
其中,
Figure BDA0000698944550000232
表示样本客户或新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的客户社群中的权重;
Figure BDA0000698944550000233
表示样本客户或新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的客户社群中的权重;
Figure BDA0000698944550000234
表示样本客户或新客户的矫正后的属性标签A在矫正前的客户社群中的权重;
Figure BDA0000698944550000235
表示矫正后的属性标签A的属性值在矫正前的客户社群中的总个数;
Figure BDA0000698944550000236
表示矫正前的属性标签A的属性值在矫正后的客户社群中的总个数。
本实施例所述的挖掘潜在客户的方法,根据每个属性标签组合的集中度,以及组成每个属性标签组合的属性标签的集中度,选择样本客户的挖掘属性标签,根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对样本客户进行社群划分,得到多个客户社群,当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时,则确定新客户是商家的潜在客户,不需要将样本客户的各个属性标签进行组合,不需要遍历各种组合情况,计算简单快捷,可以节约时间。按照预设概率公式计算得到新客户属于每个客户社群的概率,通过概率确定新客户是不是商家的潜在客户,而不需要采用梯度下降法求全局最优结果,大大提高了运算速度。预设权重计算公式通过运用属性标签的集中度,能够适应更复杂的数据结构,能够更有效的反应数据的分布规律。根据商家的反馈信息,按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,预设权重矫正公式不仅考虑了属性标签所包含的样本量因素,还针对权重本身进行惩罚或者奖励,这样不仅加快了效果反馈速度,同时还使得权重的变化更加稳健,不会出现异常的增加或者减少,并且会随着样本客户数量的增加,准确度也会越来越高。
如图12所示,是本发明实施例的一种挖掘潜在客户的装置结构图,该装置包括:
获取模块201,用于获取商家的样本客户的各个属性标签,并计算样本客户的各个属性标签的集中度,以及样本客户的各个属性标签的属性值域的权重;
组合计算模块202,用于将样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,计算每个属性标签组合的集中度;
确定计算模块203,用于根据每个属性标签组合的集中度,以及组成每个属性标签组合的属性标签的集中度,从多个属性标签组合中选择样本客户的挖掘属性标签,并计算样本客户的各个挖掘属性标签的属性值域的权重;
划分模块204,用于根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类装置对样本客户进行社群划分,得到多个客户社群;
概率计算模块205,用于获取新客户的各个属性标签,并根据新客户的各个属性标签的属性值、每个客户社群中的样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值,按照预设概率公式计算得到新客户属于每个客户社群的概率;
潜在客户确定模块206,用于当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时,则确定新客户是商家的潜在客户。
进一步地,属性值域的权重包括:属性值的权重或属性值类区间的权重。
进一步地,获取模块201包括:
第一判断单元,用于判断样本客户的各个属性标签的类别;
第一计算单元,用于如果样本客户的某属性标签是文本类,则按照预设权重计算公式计算样本客户的文本类的某属性标签的各个属性值的权重;
第二计算单元,用于如果样本客户的某属性标签的属性值是数字类,则采用动态聚类装置对样本客户的数字类的某属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算样本客户的数字类的某属性标签的各个属性值类区间的权重。
进一步地,预设权重计算公式为:
Figure BDA0000698944550000251
其中,对于文本类的某属性标签:xi表示文本类的某属性标签的属性值是xi,w(xi)表示文本类的某属性标签的属性值xi的权重,CRn表示文本类的某属性标签的集中度,c(xi)表示文本类的某属性标签的属性值xi的个数,c(X)表示文本类的某属性标签的所有属性值的总个数;对于数字类的某属性标签:xi表示数字类的某属性标签的属性值类区间是xi,w(xi)表示数字类的某属性标签的属性值类区间的权重,CRn表示数字类的某属性标签的集中度,c(xi)表示数字类的某属性标签的属性值类区间中元素的个数,c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。
进一步地,组合计算模块202包括:
第一比较单元,用于将样本客户的各个属性标签的属性值的权重或属性值类区间的权重,与预设权重阈值进行比较,得到样本客户的属性标签的属性值的权重或属性值类区间的权重小于预设权重阈值的多个属性标签;
组合单元,用于将样本客户的小于预设权重阈值的多个属性标签进行二二组合,得到多个属性标签组合。
进一步地,确定计算模块204还包括:
第二判断单元,用于判断组成样本客户的各个挖掘属性标签的二个属性标签的类别;
第三计算单元,用于如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是文本类,则按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值的权重;
第四计算单元,用于如果组成样本客户的某挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类,则采用动态聚类装置对样本客户的某挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重;
第五计算单元,用于如果组成样本客户的某挖掘属性标签的二个属性标签的类别均是数字类,则采用自组织映射SOM聚类装置对样本客户的某挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算样本客户的某挖掘属性标签的各个属性值类区间的权重。
进一步地,确定计算模块203包括:
第二比较单元,用于将每个属性标签组合的集中度,分别与组成每个属性标签组合的属性标签的集中度进行比较;
第一确定单元,用于如果某个属性标签组合的集中度大于组成某个属性标签组合的所有属性标签的集中度,则确定某个属性标签组合能够作为样本客户的挖掘属性标签;
第二确定单元,用于如果某个属性标签组合的集中度小于等于组成某个属性标签组合的任一属性标签的集中度,则确定某个属性标签组合不能够作为样本客户的挖掘属性标签。
进一步地,划分模块204包括:
选择单元,用于从所有的样本客户中随机选择一个样本客户,根据样本客户的各个属性标签的属性值的权重或属性值类区间的权重、样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,按照预设最大连接权重选择公式,从随机选择的样本客户与其他各个样本客户之间的连接权重中,选择连接权重最大的一个其他样本客户,并将连接权重最大的一个其他样本客户与随机选择的样本客户组成待定客户社群;
第三确定单元,用于根据预设聚合公式,计算待定客户社群之外的其他样本客户与待定客户社群的聚合效应,根据待定客户社群之外的其他样本客户与待定客户社群的聚合效应,确定是否将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群;
通知单元,用于从客户社群之外的样本客户中随机选择一个样本客户,然后通知选择单元执行计算随机选择的样本客户与其他各个样本客户之间的连接权重的步骤。
进一步地,预设最大连接权重选择公式如下:
Figure BDA0000698944550000271
其中,v*表示与随机选择的样本客户v的连接权重最大的一个其他样本客户,Ev-connect表示随机选择的样本客户v与随机选择的样本客户v有共同属性值的任一样本客户的连接权重。
进一步地,预设聚合公式如下:
Figure BDA0000698944550000272
其中,当w(Sin)表示随机选择的样本客户v与待定客户社群中的其他样本客户的连接权重、w(Sout)表示随机选择的样本客户v与待定客户社群之外的其他样本客户的连接权重时,Condensity(gi)表示待定客户社群的聚合效应值;当w(Sin)表示随机选择的样本客户v与客户社群中的其他样本客户的连接权重、w(Sout)表示随机选择的样本客户v与客户社群之外的其他样本客户的连接权重时,Condensity(gi)表示客户社群的聚合效应值。
进一步地,第三确定单元包括:
比较子单元,用于将待定客户社群的聚合效应值与客户社群的聚合效应值进行比较;
第一确定子单元,用于如果客户社群的聚合效应值大于待定客户社群的聚合效应值,则确定将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群;
第二确定子单元,用于如果客户社群的聚合效应值小于等于待定客户社群的聚合效应值,则确定不将待定客户社群之外的其他样本客户添加到待定客户社群组成客户社群。
进一步地,参见图13,该装置还包括:
比较模块207,用于按照预设概率公式计算得到新客户属于每个客户社群的概率之后,将新客户属于每个客户社群的概率进行比较,得到新客户属于客户社群的最大概率;
确定模块208,用于确定新客户属于最大概率对应的客户社群;
更新模块209,用于更新样本客户的各个属性标签的属性值的权重或属性值类区间的权重。
进一步地,预设概率公式如下:
Figure BDA0000698944550000281
其中,Y表示新客户的属性标签,yi表示新客户的属性标签的第i个属性值,n表示新客户的属性标签有n个属性值,B表示任一客户社群。
进一步地,参见图14,该装置还包括:
反馈模块210,用于确定新客户是商家的潜在客户之后,获取商家的反馈信息;其中,反馈信息包括确定的某新客户是商家的潜在客户不正确、和/或原来的某样本客户当前不符合商家的客户标准;
矫正模块211,用于根据商家的反馈信息,按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,并根据商家的反馈信息,对客户社群进行矫正。
进一步地,预设权重矫正公式如下:
Figure BDA0000698944550000291
其中,
Figure BDA0000698944550000292
表示样本客户或新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的客户社群中的权重;
Figure BDA0000698944550000293
表示样本客户或新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的客户社群中的权重;
Figure BDA0000698944550000294
表示样本客户或新客户的矫正后的属性标签A在矫正前的客户社群中的权重。
本实施例所述的挖掘潜在客户的装置,根据每个属性标签组合的集中度,以及组成每个属性标签组合的属性标签的集中度,选择样本客户的挖掘属性标签,根据样本客户的各个属性标签的属性值域的权重、样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对样本客户进行社群划分,得到多个客户社群,当新客户属于每个客户社群的概率中存在一概率大于预设概率阈值时,则确定新客户是商家的潜在客户,不需要将样本客户的各个属性标签进行组合,不需要遍历各种组合情况,计算简单快捷,可以节约时间。按照预设概率公式计算得到新客户属于每个客户社群的概率,通过概率确定新客户是不是商家的潜在客户,而不需要采用梯度下降法求全局最优结果,大大提高了运算速度。预设权重计算公式通过运用属性标签的集中度,能够适应更复杂的数据结构,能够更有效的反应数据的分布规律。根据商家的反馈信息,按照预设权重矫正公式对样本客户或新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,预设权重矫正公式不仅考虑了属性标签所包含的样本量因素,还针对权重本身进行惩罚或者奖励,这样不仅加快了效果反馈速度,同时还使得权重的变化更加稳健,不会出现异常的增加或者减少,并且会随着样本客户数量的增加,准确度也会越来越高。
所述装置与前述的方法流程描述对应,不足之处参考上述方法流程的叙述,不再一一赘述。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (28)

1.一种挖掘潜在客户的方法,其特征在于,所述方法包括:
获取商家的样本客户的各个属性标签,并计算所述样本客户的各个属性标签的集中度,以及所述样本客户的各个属性标签的属性值域的权重,其中,所述属性值域的权重包括:属性值的权重或属性值类区间的权重;
将所述样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,计算每个所述属性标签组合的集中度;
根据每个所述属性标签组合的集中度,以及组成每个所述属性标签组合的属性标签的集中度,从多个所述属性标签组合中选择所述样本客户的挖掘属性标签,并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重,其中,所述挖掘属性标签为所述多个属性标签组合中能够作为样本客户的挖掘属性标签的属性标签组合;
根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群;
获取新客户的各个属性标签,并根据所述新客户的各个属性标签的属性值、每个所述客户社群中的所述样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值,按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率;
当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时,则确定所述新客户是所述商家的潜在客户。
2.如权利要求1所述的方法,其特征在于,计算所述样本客户的各个属性标签的属性值域的权重,包括:
判断所述样本客户的各个属性标签的类别;
如果所述样本客户的某属性标签是文本类,则按照预设权重计算公式计算所述样本客户的文本类的某属性标签的各个属性值的权重;
如果所述样本客户的某属性标签的属性值是数字类,则采用动态聚类方法对所述样本客户的数字类的某属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算所述样本客户的数字类的某属性标签的各个属性值类区间的权重。
3.如权利要求2所述的方法,其特征在于,所述预设权重计算公式为:
Figure FDA0002244225190000021
其中,对于文本类的某属性标签:xi表示文本类的某属性标签的属性值是xi,w(xi)表示文本类的某属性标签的属性值xi的权重,CRn表示文本类的某属性标签的集中度,c(xi)表示文本类的某属性标签的属性值xi的个数,c(X)表示文本类的某属性标签的所有属性值的总个数;对于数字类的某属性标签:xi表示数字类的某属性标签的属性值类区间是xi,w(xi)表示数字类的某属性标签的属性值类区间的权重,CRn表示数字类的某属性标签的集中度,c(xi)表示数字类的某属性标签的属性值类区间中元素的个数,c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。
4.如权利要求1所述的方法,其特征在于,将所述样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,包括:
将所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重,与预设权重阈值进行比较,得到所述样本客户的属性标签的属性值的权重或属性值类区间的权重小于所述预设权重阈值的多个属性标签;
将所述样本客户的小于所述预设权重阈值的多个属性标签进行二二组合,得到多个所述属性标签组合。
5.如权利要求4所述的方法,其特征在于,计算所述样本客户的各个所述挖掘属性标签的属性值域的权重,包括:
判断组成所述样本客户的各个所述挖掘属性标签的二个属性标签的类别;
如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类,则按照预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重;
如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类,则采用动态聚类方法对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重;
如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是数字类,则采用自组织映射SOM聚类方法对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重。
6.如权利要求1所述的方法,其特征在于,根据每个所述属性标签组合的集中度,以及组成每个所述属性标签组合的属性标签的集中度,从多个所述属性标签组合中选择所述样本客户的挖掘属性标签,包括:
将每个所述属性标签组合的集中度,分别与组成每个所述属性标签组合的属性标签的集中度进行比较;
如果某个所述属性标签组合的集中度大于组成某个所述属性标签组合的所有属性标签的集中度,则确定某个所述属性标签组合能够作为所述样本客户的所述挖掘属性标签;
如果某个所述属性标签组合的集中度小于等于组成某个所述属性标签组合的任一属性标签的集中度,则确定某个所述属性标签组合不能够作为所述样本客户的所述挖掘属性标签。
7.如权利要求1所述的方法,其特征在于,根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群,包括:
从所有的所述样本客户中随机选择一个所述样本客户,根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,按照预设最大连接权重选择公式,从随机选择的所述样本客户与其他各个所述样本客户之间的连接权重中,选择连接权重最大的一个其他所述样本客户,并将连接权重最大的一个其他所述样本客户与随机选择的所述样本客户组成待定客户社群;
根据预设聚合公式,计算所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应,根据所述待定客户社群之外的其他所述样本客户与待定客户社群的聚合效应,确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
从所述客户社群之外的所述样本客户中随机选择一个所述样本客户,然后执行计算随机选择的所述样本客户与其他各个所述样本客户之间的连接权重的步骤。
8.如权利要求7所述的方法,其特征在于,所述预设最大连接权重选择公式如下:
Figure FDA0002244225190000041
其中,v*表示与随机选择的所述样本客户v的连接权重最大的一个其他所述样本客户,Ev-connect表示随机选择的所述样本客户v与随机选择的所述样本客户v有共同属性值的任一所述样本客户的连接权重。
9.如权利要求8所述的方法,其特征在于,所述预设聚合公式如下:
Figure FDA0002244225190000042
其中,当w(Sin)表示随机选择的所述样本客户v与所述待定客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述待定客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述待定客户社群的聚合效应值;当w(Sin)表示随机选择的所述样本客户v与所述客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述客户社群的聚合效应值。
10.如权利要求9所述的方法,其特征在于,根据所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应,确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群,包括:
将所述待定客户社群的聚合效应值与所述客户社群的聚合效应值进行比较;
如果所述客户社群的聚合效应值大于所述待定客户社群的聚合效应值,则确定将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
如果所述客户社群的聚合效应值小于等于所述待定客户社群的聚合效应值,则确定不将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群。
11.如权利要求1所述的方法,其特征在于,按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后,还包括:
将所述新客户属于每个所述客户社群的概率进行比较,得到所述新客户属于所述客户社群的最大概率;
确定所述新客户属于最大概率对应的所述客户社群;
更新所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重。
12.如权利要求11所述的方法,其特征在于,所述预设概率公式如下:
Figure FDA0002244225190000051
其中,Y表示所述新客户的属性标签,yi表示所述新客户的属性标签的第i个属性值,n表示所述新客户的属性标签有n个属性值,B表示任一所述客户社群。
13.如权利要求1所述的方法,其特征在于,确定所述新客户是所述商家的潜在客户之后,还包括:
获取所述商家的反馈信息;其中,所述反馈信息包括确定的某所述新客户是所述商家的潜在客户不正确、和/或原来的某所述样本客户当前不符合所述商家的客户标准;
根据所述商家的反馈信息,按照预设权重矫正公式对所述样本客户或所述新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,并根据所述商家的反馈信息,对所述客户社群进行矫正。
14.如权利要求13所述的方法,其特征在于,所述预设权重矫正公式如下:
Figure FDA0002244225190000061
其中,
Figure FDA0002244225190000062
表示所述样本客户或所述新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure FDA0002244225190000063
表示所述样本客户或所述新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure FDA0002244225190000064
表示所述样本客户或所述新客户的矫正后的属性标签A在矫正前的所述客户社群中的权重。
15.一种挖掘潜在客户的装置,其特征在于,所述装置包括:
获取模块,用于获取商家的样本客户的各个属性标签,并计算所述样本客户的各个属性标签的集中度,以及所述样本客户的各个属性标签的属性值域的权重,其中,所述属性值域的权重包括:属性值的权重或属性值类区间的权重;
组合计算模块,用于将所述样本客户的各个属性标签按照预设组合标准进行组合,得到多个属性标签组合,计算每个所述属性标签组合的集中度;
确定计算模块,用于根据每个所述属性标签组合的集中度,以及组成每个所述属性标签组合的属性标签的集中度,从多个所述属性标签组合中选择所述样本客户的挖掘属性标签,并计算所述样本客户的各个所述挖掘属性标签的属性值域的权重,其中,所述挖掘属性标签为所述多个属性标签组合中能够作为样本客户的挖掘属性标签的属性标签组合;
划分模块,用于根据所述样本客户的各个属性标签的属性值域的权重、所述样本客户的各个挖掘属性标签的属性值域的权重,采用图聚类方法对所述样本客户进行社群划分,得到多个客户社群;
概率计算模块,用于获取新客户的各个属性标签,并根据所述新客户的各个属性标签的属性值、每个所述客户社群中的所述样本客户的各个属性标签的属性值、各个挖掘属性标签的属性值,按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率;
潜在客户确定模块,用于当所述新客户属于每个所述客户社群的概率中存在一概率大于预设概率阈值时,则确定所述新客户是所述商家的潜在客户。
16.如权利要求15所述的装置,其特征在于,所述获取模块包括:
第一判断单元,用于判断所述样本客户的各个属性标签的类别;
第一计算单元,用于如果所述样本客户的某属性标签是文本类,则按照预设权重计算公式计算所述样本客户的文本类的某属性标签的各个属性值的权重;
第二计算单元,用于如果所述样本客户的某属性标签的属性值是数字类,则采用动态聚类装置对所述样本客户的数字类的某属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照预设权重计算公式计算所述样本客户的数字类的某属性标签的各个属性值类区间的权重。
17.如权利要求16所述的装置,其特征在于,所述预设权重计算公式为:
Figure FDA0002244225190000071
其中,对于文本类的某属性标签:xi表示文本类的某属性标签的属性值是xi,w(xi)表示文本类的某属性标签的属性值xi的权重,CRn表示文本类的某属性标签的集中度,c(xi)表示文本类的某属性标签的属性值xi的个数,c(X)表示文本类的某属性标签的所有属性值的总个数;对于数字类的某属性标签:xi表示数字类的某属性标签的属性值类区间是xi,w(xi)表示数字类的某属性标签的属性值类区间的权重,CRn表示数字类的某属性标签的集中度,c(xi)表示数字类的某属性标签的属性值类区间中元素的个数,c(X)表示数字类的某属性标签的所有属性值类区间中元素的总个数。
18.如权利要求15所述的装置,其特征在于,所述组合计算模块包括:
第一比较单元,用于将所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重,与预设权重阈值进行比较,得到所述样本客户的属性标签的属性值的权重或属性值类区间的权重小于所述预设权重阈值的多个属性标签;
组合单元,用于将所述样本客户的小于所述预设权重阈值的多个属性标签进行二二组合,得到多个所述属性标签组合。
19.如权利要求18所述的装置,其特征在于,所述确定计算模块还包括:
第二判断单元,用于判断组成所述样本客户的各个所述挖掘属性标签的二个属性标签的类别;
第三计算单元,用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是文本类,则按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值的权重;
第四计算单元,用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别一个是文本类、一个是数字类,则采用动态聚类装置对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重;
第五计算单元,用于如果组成所述样本客户的某所述挖掘属性标签的二个属性标签的类别均是数字类,则采用自组织映射SOM聚类装置对所述样本客户的某所述挖掘属性标签的各个属性值进行数据区间统计,得到多个属性值类区间,按照所述预设权重计算公式计算所述样本客户的某所述挖掘属性标签的各个属性值类区间的权重。
20.如权利要求15所述的装置,其特征在于,所述确定计算模块包括:
第二比较单元,用于将每个所述属性标签组合的集中度,分别与组成每个所述属性标签组合的属性标签的集中度进行比较;
第一确定单元,用于如果某个所述属性标签组合的集中度大于组成某个所述属性标签组合的所有属性标签的集中度,则确定某个所述属性标签组合能够作为所述样本客户的所述挖掘属性标签;
第二确定单元,用于如果某个所述属性标签组合的集中度小于等于组成某个所述属性标签组合的任一属性标签的集中度,则确定某个所述属性标签组合不能够作为所述样本客户的所述挖掘属性标签。
21.如权利要求15所述的装置,其特征在于,所述划分模块包括:
选择单元,用于从所有的所述样本客户中随机选择一个所述样本客户,根据所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重、所述样本客户的各个挖掘属性标签的属性值的权重或属性值类区间的权重,按照预设最大连接权重选择公式,从随机选择的所述样本客户与其他各个所述样本客户之间的连接权重中,选择连接权重最大的一个其他所述样本客户,并将连接权重最大的一个其他所述样本客户与随机选择的所述样本客户组成待定客户社群;
第三确定单元,用于根据预设聚合公式,计算所述待定客户社群之外的其他所述样本客户与所述待定客户社群的聚合效应,根据所述待定客户社群之外的其他所述样本客户与待定客户社群的聚合效应,确定是否将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
通知单元,用于从所述客户社群之外的所述样本客户中随机选择一个所述样本客户,然后通知所述选择单元执行计算随机选择的所述样本客户与其他各个所述样本客户之间的连接权重的步骤。
22.如权利要求21所述的装置,其特征在于,所述预设最大连接权重选择公式如下:
Figure FDA0002244225190000091
其中,v*表示与随机选择的所述样本客户v的连接权重最大的一个其他所述样本客户,Ev-connect表示随机选择的所述样本客户v与随机选择的所述样本客户v有共同属性值的任一所述样本客户的连接权重。
23.如权利要求22所述的装置,其特征在于,所述预设聚合公式如下:
Figure FDA0002244225190000101
其中,当w(Sin)表示随机选择的所述样本客户v与所述待定客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述待定客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述待定客户社群的聚合效应值;当w(Sin)表示随机选择的所述样本客户v与所述客户社群中的其他所述样本客户的连接权重、w(Sout)表示随机选择的所述样本客户v与所述客户社群之外的其他所述样本客户的连接权重时,Condensity(gi)表示所述客户社群的聚合效应值。
24.如权利要求23所述的装置,其特征在于,所述第三确定单元包括:
比较子单元,用于将所述待定客户社群的聚合效应值与所述客户社群的聚合效应值进行比较;
第一确定子单元,用于如果所述客户社群的聚合效应值大于所述待定客户社群的聚合效应值,则确定将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群;
第二确定子单元,用于如果所述客户社群的聚合效应值小于等于所述待定客户社群的聚合效应值,则确定不将所述待定客户社群之外的其他所述样本客户添加到所述待定客户社群组成所述客户社群。
25.如权利要求15所述的装置,其特征在于,所述装置还包括:
比较模块,用于按照预设概率公式计算得到所述新客户属于每个所述客户社群的概率之后,将所述新客户属于每个所述客户社群的概率进行比较,得到所述新客户属于所述客户社群的最大概率;
确定模块,用于确定所述新客户属于最大概率对应的所述客户社群;
更新模块,用于更新所述样本客户的各个属性标签的属性值的权重或属性值类区间的权重。
26.如权利要求25所述的装置,其特征在于,所述预设概率公式如下:
Figure FDA0002244225190000102
其中,Y表示所述新客户的属性标签,yi表示所述新客户的属性标签的第i个属性值,n表示所述新客户的属性标签有n个属性值,B表示任一所述客户社群。
27.如权利要求15所述的装置,其特征在于,所述装置还包括:
反馈模块,用于确定所述新客户是所述商家的潜在客户之后,获取所述商家的反馈信息;其中,所述反馈信息包括确定的某所述新客户是所述商家的潜在客户不正确、和/或原来的某所述样本客户当前不符合所述商家的客户标准;
矫正模块,用于根据所述商家的反馈信息,按照预设权重矫正公式对所述样本客户或所述新客户的各个属性标签的属性值的权重或属性值类区间的权重进行矫正,并根据所述商家的反馈信息,对所述客户社群进行矫正。
28.如权利要求27所述的装置,其特征在于,所述预设权重矫正公式如下:
Figure FDA0002244225190000111
其中,
Figure FDA0002244225190000112
表示所述样本客户或所述新客户的矫正后的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure FDA0002244225190000113
表示所述样本客户或所述新客户的矫正前的属性标签A的属性值或属性值类区间在矫正后的所述客户社群中的权重;
Figure FDA0002244225190000114
表示所述样本客户或所述新客户的矫正后的属性标签A在矫正前的所述客户社群中的权重。
CN201510176915.2A 2015-04-14 2015-04-14 挖掘潜在客户的方法和装置 Active CN106157083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510176915.2A CN106157083B (zh) 2015-04-14 2015-04-14 挖掘潜在客户的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510176915.2A CN106157083B (zh) 2015-04-14 2015-04-14 挖掘潜在客户的方法和装置

Publications (2)

Publication Number Publication Date
CN106157083A CN106157083A (zh) 2016-11-23
CN106157083B true CN106157083B (zh) 2020-04-24

Family

ID=57336333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510176915.2A Active CN106157083B (zh) 2015-04-14 2015-04-14 挖掘潜在客户的方法和装置

Country Status (1)

Country Link
CN (1) CN106157083B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106981194B (zh) * 2017-05-02 2019-06-07 北京大学 一种高速路网关键路段的识别方法
CN109255638B (zh) * 2017-07-13 2022-04-26 北京融和友信科技股份有限公司 一种挖掘潜在客户的数学模型
CN107516237A (zh) * 2017-07-22 2017-12-26 长沙兔子代跑网络科技有限公司 一种根据用户画像挖掘代跑客户的方法及装置
CN107506382A (zh) * 2017-07-22 2017-12-22 长沙兔子代跑网络科技有限公司 一种基于用户画像挖掘代跑客户的方法及装置
CN110322261B (zh) * 2018-03-30 2022-10-28 腾讯科技(深圳)有限公司 监控资源获取的方法、装置和计算机可读存储介质
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置
CN110264274B (zh) * 2019-06-21 2023-12-29 深圳前海微众银行股份有限公司 客群划分方法、模型生成方法、装置、设备及存储介质
CN110851720A (zh) * 2019-11-11 2020-02-28 北京百度网讯科技有限公司 信息推荐方法、装置以及电子设备
CN111027676B (zh) * 2019-11-28 2022-03-18 支付宝(杭州)信息技术有限公司 一种目标用户的选择方法和装置
CN111353103B (zh) * 2020-03-03 2023-11-03 京东科技控股股份有限公司 用于确定用户社群信息的方法和装置
CN111753210B (zh) * 2020-05-27 2021-05-18 浙江口碑网络技术有限公司 资源推送方法、装置、计算机设备及计算机可读存储介质
CN112036960B (zh) * 2020-09-11 2022-08-02 杭州米雅信息科技有限公司 数据获取方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760163A (zh) * 2012-06-12 2012-10-31 奇智软件(北京)有限公司 一种特征信息的个性化推荐方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419779B (zh) * 2012-01-13 2014-06-11 青岛理工大学 一种基于属性排序的商品个性化搜索方法及装置
CN104063518B (zh) * 2014-07-14 2017-06-09 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760163A (zh) * 2012-06-12 2012-10-31 奇智软件(北京)有限公司 一种特征信息的个性化推荐方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯网络的新媒体事件分类模型;孙玲芳等;《计算机与现代化》;20141231;第66-69页 *
推荐系统研究进展;朱扬勇等;《计算机科学与探索》;20150331;第513-516页 *
模糊聚类的分析;王纬等;《计算机工程与科学》;20081231;第75-77页 *
聚类算法研究;孙吉贵等;《软件学报》;20080131;第57-58页 *

Also Published As

Publication number Publication date
CN106157083A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106157083B (zh) 挖掘潜在客户的方法和装置
US11238065B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN108121737B (zh) 一种业务对象属性标识的生成方法、装置和系统
US11836761B2 (en) Heuristic clustering
JP5965911B2 (ja) オンライン取引プラットフォームに基づくデータ処理
WO2018001195A1 (zh) 数据风险控制的方法及装置
CN104281582B (zh) 分页显示控制方法和装置
US20150142521A1 (en) Customer clustering using integer programming
US20210110458A1 (en) Faceted item recommendation system
CN106485566A (zh) 一种信息推荐方法及装置
US20200219022A1 (en) Method and apparatus for determining similarity between user and merchant, and electronic device
CN103425664A (zh) 一种对实体数据单元进行搜索、显示的方法和设备
CN106033455B (zh) 一种处理用户操作信息的方法与设备
CN107092609A (zh) 一种信息推送方法及装置
CN112508638B (zh) 数据处理的方法、装置及计算机设备
US11182436B2 (en) Predicting locations based on transaction records
WO2017118318A1 (zh) 一种数据存储与业务处理的方法及装置
CN106204163B (zh) 一种用户属性特征的确定方法和装置
CN106611339B (zh) 种子用户筛选方法、产品的用户影响力评价方法及装置
US11810001B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN113032514B (zh) 兴趣点数据处理方法及装置
US20220277249A1 (en) Benchmarking based on company vendor data
CN110490694B (zh) 一种信用服务的配置方法、装置及电子设备
US20170004511A1 (en) Identifying Drivers for a Metric-of-Interest
Guo et al. EC‐Structure: Establishing Consumption Structure through Mining E‐Commerce Data to Discover Consumption Upgrade

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1230329

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211108

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Alibaba (China) Network Technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right