CN103714139A

CN103714139A - 一种移动海量客户群识别的并行数据挖掘方法

Info

Publication number: CN103714139A
Application number: CN201310714765.7A
Authority: CN
Inventors: 董敏; 邱荣财; 毕盛; 徐志强; 吴炜; 付越; 储杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2014-04-09
Anticipated expiration: 2033-12-20
Also published as: CN103714139B

Abstract

本发明公开了一种移动海量客户群识别的并行数据挖掘方法，包括建立客户价值模型、建立客户行为模型以及结合所述客户价值模型和客户行为模型对客户进行分类，实现对购买力高、潜在购买欲望高的客户进行指定偏好业务的推广，进而实现准确营销。该方法能够对移动海量客户群进行识别，包括识别客户上网时间偏好，上网地点偏好，喜欢浏览哪些网站，并能够准确判别客户属于社会群体的哪一类。所采用的并行聚类算法和分类算法能够进行快速的进行聚类和分类。该客户识别方法使得企业可以对于不同客户群制定不同策略，为企业利润最大化带来重要的指导作用。

Description

一种移动海量客户群识别的并行数据挖掘方法

技术领域

本发明涉及经济学、计算机科学的技术领域，尤其是指一种移动海量客户群识别的并行数据挖掘方法。

背景技术

随着经济全球化时代的进一步扩大，越来越多的行业产品同质化速度加快，市场竞争日益加剧，企业之间的竞争不仅仅是能源人才技术的竞争，客户资源的竞争也从来没有停止过，任何一家企业都希望本企业的客户是忠诚的，这样就可以给企业带来更高的利润。然而往往事与愿违，许多客户面对众多的商家和产品，往往表现得极不忠诚且客户需求多样化和个性化的特点也日渐明显，因此对于企业来说如何识别客户，从而针对不同的客户开展差异化的营销策略，提高客户管理水平，大大提高企业客户的忠诚度，势必对企业的发展大有益处。

对于如何识别客户群，国内国外的一些研究者都做出了相应的理论研究。基本可以分为两个方面，一是客户价值识别（即识别有价值客户，也称为客户计分；主要采用统计、预测、模型计算等方法计算客户的某些指标，以判断客户的重要性、价值等来识别客户。最常见的是客户生命周期价值模型），二是客户行为分析（根据客户历史行为数据，预测客户的行为类别或客户行为发生的可能性、盈利性等，对客户做一些业务推荐。主要采用数据挖掘的方法）。基于客户统计学特征（年龄，性别，收入，职业，地区等）的客户识别方法已为大家所熟悉，客户统计识别方法虽然简单易行，但缺乏有效性，难以反映客户需求客户价值和客户关系阶段，难以指导企业如何去吸引客户保持客户，难以适应核心客户关系管理的需要；基于客户交易行为的客户识别中的ABC分析法是由意大利经济学家帕累托首创的，该分析方法的核心思想是在决定一个事物的众多因素中分清主次，识别出少数的但对事物起决定作用的关键因素和多数的但对事物影响较少的次要因素，该类方法在实际操作中较易得到实施，而且数据较易获得，但是其缺点是以历史交易为主要依据对客户进行识别的主观性比较强；由于客户和企业的关系是随时间不断地发展变化的，处于不同关系阶段的客户有不同的特征和需求。所以，客户生命周期管理是客户关系管理的重要内容，依据客户生命周期进行客户识别也就成为一种重要的识别方法，但该方法难以识别相同生命周期阶段的客户差异，同是形成期的客户，客户价值存在差异，无法识别且如果平均用力，将难以避开不良客户。通过分析客户行为，可以实现精准营销，故结合客户价值识别和客户行为分析综合对客户进行分群才是最好的方法。

目前，数据挖掘作为一种以数据驱动的深层次数据分析方法已经成功地用于大型数据仓库的知识挖掘，在各行业也得到了广泛的应用，如银行业，医药业，电信业等，随着数据挖掘技术的不断发展和客户识别要求的不断提高，将数据挖掘应用于客户群的识别越来越显示出了其优越性，通过对信息系统数据库中大量历史数据的处理,分析和发现大量数据中所蕴含的规律,挖掘出有价值的数据规则,根据数据的具体特征等做出判断,这种技术排除了人为因素的干扰,所得到的结果客观性强。通过挖掘获取有价值的知识，来帮助做出决策。数据挖掘主要包含三个步骤,即数据预处理，建模以及模型评价。其中运用最多的就是数据挖掘中的K-means聚类算法来对客户进行分类，

随着科学技术的发展，以及数据库计数的成熟和数据应用的普及，个人、企业等单位需要处理的数据量越来越大，如何快速处理这些数据，并得出有用的结果是一个亟待解决的问题。而解决该问题的方法之一就是运用并行化技术，设计出一个高效的数据挖掘类并行算法，将直接影响到结果的满意程度。经过学者们多年的研究，根据不同的计算机结构建立了多个不同的并行计算模型，如PRAM模型、BSP模型、logP模型等。而如今，云计算作为一个新兴的商业计算模型得到了人们广泛关注，而基于云计算的Hadoop并行计算平台，也日渐流行。其主要特点为成本低、扩容能力强、效率高等特点。其主要由Hadoop分布式文件系统（HDFS）和MapReduce计算模型两部分组成，使用Hadoop模型能更方便地编写出高效的并行算法。

发明内容

本发明的目的在于现有技术的不足与缺陷，提供一种移动海量客户群识别的并行数据挖掘方法，对不同客户群进行推荐不同增值服务或定制适合该客户群的业务，为企业利润最大化带来重要的指导作用。

为实现上述目的，本发明所提供的技术方案为：一种移动海量客户群识别的并行数据挖掘方法，包括以下步骤：

1）建立客户价值模型

从企业数据中选取客户数据，对客户进行统计分析，将客户价值分为：基本价值BV、潜在价值PV、传递价值TV，可对客户按等级分类；其中，所述基本价值BV为客户的现有购买，对企业的贡献度；所述潜在价值PV为客户未来能够带来的价值；所述传递价值TV为客户口碑效应带来新客户的价值；

2）建立客户行为模型

对移动海量上网数据进行预处理，包括将时间分为24小时计客户上网流量占比，聚类得到时间偏好向量中心集，分类时利用该向量中心集；对具体上网地点转换为统一地点，计算地点根集合中客户地点驻留值向量，聚类得到客户地点偏好向量中心集，以对客户进行地点偏好分类；计算客户对各业务的兴趣度向量，聚类得到客户地点偏好向量中心集，以对客户进行兴趣爱好分类，对终端设备转换为价格以反映客户消费水平，利用客户产生的时间偏好向量、地点偏好向量、兴趣度向量、消费水平进行聚类，通过问卷调查形式，得到社会群体向量中心集，利用该中心集对客户进行社会群体分类；其中，中心集元素多者采用多叉树形式组织以提高分类速度；

3）结合所述客户价值模型和客户行为模型对客户进行分类，实现对购买力高、潜在购买欲望高的客户进行指定偏好业务的推广，进而实现准确营销；其中，所述客户价值模型的基本价值BV反映了客户对企业的购买力，其潜在价值PV反映了忠诚度，潜在购买欲望，其传递价值TV反映了感染其他客户行为能力信息；所述客户行为模型则反映了客户自身在上网行为上的偏好。

所述基本价值BV由业务占有率加上每月给企业带来的利润率为计算标准，其模型如下：

{BV}_{i} = \frac{N_{i}}{N} + \frac{P_{i}}{\overset{&OverBar;}{P}}, i &Element; [1 . . . M]

其中，BV_i是客户i的基本价值；N_i是客户i订购业务数；N是企业面向全部客户提供的所有业务总数；P_i是客户i平均每月为企业带来的利润；P是客户人均的平均每月带来利润，即对每个客户平均每月为企业带来利润求平均值；M是企业客户总数；

所述潜在价值PV由月平均持有业务数和平均业务接纳率构成，其模型如下：

{PV}_{i} = \frac{Σ_{j = 1}^{t} {SN}_{ij}}{t} + \frac{{SPT}_{i}}{SPT}

其中，PV_i是客户i的潜在价值，t是入网时长，即选用企业的服务开始时刻到现在的月数；SN_ij是客户i在第j个月所保持的企业业务数量；SPT_i是客户i在入网期间所接纳并订购推送业务的业务个数；SPT是企业在客户i入网期间向该客户推送的业务总数；

所述传递价值TV由与该客户通信的那些客户的数量变化率来表示，其模型如下：

{TV}_{i} = Σ_{j = 1}^{t} (x_{ij} - x_{i (j - 1)})

其中，TV_i表示客户i的传递价值，x_ij表示客户i在入网第j个月所通信过的属于本企业的客户的数量。

所述步骤2）包括以下步骤：

2.1）客户上网数据获取

对移动海量上网数据识别客户群，从中抽取相关字段如下：将每条信令中包含客户上线时间、下线时间、上网地点、客户标识、终端品牌、终端型号、网址、下行流量、上行流量提取；

2.2）客户上网数据预处理

2.2.1）将所有数据进行清洗，即去掉一些无效的数据行；

2.2.2）对于步骤2.1）的网址字段，需要转为具体业务名称，如：将网址sina.com.cn转换为“新浪”，这种转换结果称为URL一级内容识别；将网址book.sina.com.cn转换为一级“新浪”，二级“阅读”，类似这种转换过程称为URL二级内容识别；将网址vip.book.sina.com.cn/book/index_181847.html转换为一级“新浪”，二级“阅读”，三级“《像犹太人一样思考》”，类似这种转换过程称为URL三级内容识别，统称为业务识别；其中，

客户上网数据一级内容识别的方法是利用域名查询系统，将域名转换为中文名称，并将这种对应关系建立为一级内容识别规则库；

客户识别的二级内容识别方法为利用爬虫程序从一级内容识别规则库中爬取每个不同一级业务的首页，对首页内容的链接进行程序化分析，即首页分析法，具体为从前至后解析首页源代码中链接和链接文本，并过滤非本业务网址，过滤长网址，等手段对符合子频道链接特征（特征通过对本页所有属于该业务的链接统计分析得到）的取为二级规则。得到二级识别规则合并到一二级识别规则库中；

客户识别的三级内容识别方法为利用爬虫程序从互联网上获取待识别一级内容的三级内容URL中id与三级内容标题名称的对应关系，建立三级内容识别规则库；利用三级内容识别规则库，在线平台将对信令中客户URL数据进行三级内容识别；

上述规则库每个对应行都有一个数字编号，同时每个级的编号都包含上一级的编号，如：一级第一个编号为01，则二级第一个编号为01001，三级第一个编号为01001000000001，这样只需要在识别时用最低级的编号即可反映前面的级编号；

2.2.3）对于步骤2.1）的地点字段，由于各地地点都是不完全相同，故需要将各地地点进行统一化，使得每个客户所在的上网地点都只在限定数量的地点集合中——地点根集合，然后将这些地点数值化，为数据挖掘算法做准备，其方法是建立地点转换库，如：某某中学——学校、某某区小学——学校对应关系，这种建立可以采用包含匹配方式，如地点中包含“中学”，即可转为学校；还可以采用短文本扩展技术，将无任何特征的地点信息通过互联网扩展文本，再利用人工神经网络进行分类到地点根集合中，如地点根集合为{学校，居民区，工业区，街区，风景区，办公楼}，其中若要细分，则办公楼又有子集{政府办公楼，商业办公楼，医院}；实际使用时，参照地点转换库将详细地点映射到集合中某个地点；

2.2.4）对于步骤2.1）的终端品牌和终端型号字段，终端品牌和终端型号在某种程度上反映了客户的消费水平，但必须采用一种方法将其进行数值化才能进行聚类中的相似度计算，采用将终端设备型号数据转换成该设备的价格的方式数值化终端品牌和终端型号，通过客户终端设备的价格，即可在一定程度上代表客户的消费水平；

2.3）客户上网数据聚类分析

2.3.1）根据步骤2.1）的字段：客户标识、上线时间、下线时间、上行流量、下行流量，可以进行客户时间偏好分析，对于每个客户一个月上网数据，统计客户每天24小时的流量情况，即计算上行流量+下行流量；并归一化，即计算出每个小时该客户上网流量占整天上网总流量的比例；一天的数据即为一个24维度的客户时间偏好向量，将该客户时间偏好向量进行聚类运算，得到一级聚类结果；将不同类别进行编号，得到数值化的客户时间偏好指标；

2.3.2）根据步骤2.1）、步骤2.2）的字段：客户标识、上线时间、下线时间、上行流量、下行流量、上网地点，对客户地点偏好进行分析，对每个客户一个月的上网数据进行统计每天所在地点的驻留值，地点驻留值代表客户在该地点上网的偏好程度，由客户在该地点所上网的平均时长比例和平均流量比例决定，即：

{SV}_{i} = \frac{Σ_{j = 1}^{k} {pt}_{ij}}{k} \times λ_{1} + \frac{Σ_{j = 1}^{k} {pf}_{ij}}{k} \times λ_{2}

其中，SV_i是某客户在某段时间在第i个地点的驻留值，st_ij是客户在第j天在第i个地点的上网时长占这天上网总时长的比例，sf_ij是客户在第j天在第i个地点的上网流量占这天上网总流量的比例，k是这个时间段的天数，λ₁是时长的权重，λ₂是流量的权重，λ₁+λ₂=1；

将某客户各个地点的驻留值组成向量SV(SV₁,SV₂...SV_n)，n为地点根集合中地点总数；归一化之后的向量即是该客户的地点偏好向量；将所有客户的地点偏好向量作为客户数据进行聚类，即可得到地点偏好向量中心；后续的分类操作可以使用该向量中心进行分类；

2.3.3）根据步骤2.1）、步骤2.2）的字段：客户标识、业务特征、流量、上线时间、下线时间，可以进行客户浏览内容偏好分析，将一天中每个业务特征的兴趣度进行统计，如财经类、阅读类、音乐类，其兴趣度如下：

{IV}_{i} = \frac{Σ_{j = 1}^{k} {it}_{ij}}{k} \times λ_{1} + \frac{Σ_{j = 1}^{k} {if}_{ij}}{k} \times λ_{2}

其中，IV_i是某客户某月对特定业务i的偏好程度，it_ij是客户在第j天浏览业务i的时长占这天上网总时长的比例，if_ij是客户在第j天浏览业务i的上网流量占这天上网总流量的比例，k是这个月的天数，λ₁是时长的权重，λ₂是流量的权重，λ₁+λ₂=1；

将某客户各个业务特征的兴趣度组成向量IV(IV₁,IV₂...IV_m)，m为业务特征总数；归一化之后的向量即是该客户的业务偏好向量；将所有客户的业务偏好向量作为客户数据进行聚类，即可得到业务偏好向量中心；后续的分类操作可以使用该向量中心进行分类；

2.3.4）根据步骤2.1）、步骤2.2）及上述步骤得出的字段：客户标识、客户时间偏好向量、客户地点偏好向量、客户消费水平指标、客户业务偏好向量，可以进行客户社会群体属性识别，首先进行并行聚类，然后分析聚类结果；利用调查问卷方式获取先验知识，将聚类结果进行群体划分；对于每个得到的簇中心分别赋予相应社会群体类别，如学生、农民、白领；

2.4）并行数据挖掘方式

对移动海量客户群的识别，属于无先验知识的数据，首先需要进行聚类，在聚类时，每个数据记录之间相似度计算是可以并行的，每个数据记录的每一个字段也是可以并行进行数学运算的；对聚类结果进行分析，得到不同的类别；采用并行K-Means聚类算法，利用Hadoop平台，对大数据进行并行计算；处理客户的时间偏好，处理客户的地点信息，处理客户的上网兴趣爱好，处理设备价格，可以并行地进行计算，在得到这四方面的数据之后，进入社会群体划分的聚类阶段；

2.5）客户数据分类

将类别模型数据，即聚类得到的各簇的中心，应用在平台中对移动海量客户群进行识别，属于分类范畴，在这个应用过程中，可以先将类别模型数据进行多叉树组织，再做类别相似度计算，可减少客户数据与模型数据的计算量，实现快速判定分到哪个类。

在步骤1）中，从企业数据中选取的客户数据，包括客户套餐信息、月度消费金额、品牌、订购业务、话务单。

本发明与现有技术相比，具有如下优点与有益效果：

1、所构建的客户价值模型将客户客观地分为基础价值、潜在价值、传递价值，算法独到合理，具有很强的参考价值；

2、所构建的客户行为模型能从信令中精确识别客户浏览的详细三级内容，提出了具体地点转换为统一地点，便于数据挖掘运算；提出了向量相似度方式对时间、地点、兴趣偏好进行判定，方法灵活有效；在实施中充分利用各个数据处理之间独立采用并行聚类方法，对客户数据进行高效的数据挖掘分析；提出了分类时利用多叉树快速定位数据所属的类别（簇中心），提高了分类速度；

3、结合客户价值模型和客户行为模型，企业可以非常方便地对客户精准营销，如对于低基础价值，高潜在价值的客户结合其、时间、地点、兴趣偏好、社会群体等特征进行业务推送会比单独高基础价值，低潜在价值的客户更有效果。

附图说明

图1为移动海量客户群识别的并行数据挖掘方法框架图。

图2为一、二级业务识别实例图。

图3为三级业务识别实例图。

图4为时间偏好簇中心向量分布图。

图5为多叉树用于快速分类示例图。

图6为Hadoop上并行聚类的框架图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所述的移动海量客户群识别的并行数据挖掘方法，其具体情况如下：

1）建立客户价值模型：

1.1）客户数据获取，从企业数据中挑选客户套餐信息、月度消费金额、品牌、订购业务、话务单等客户数据。

1.2）根据步骤1.1）的客户数据，对客户进行统计分析，对客户适用客户价值模型，将客户价值分为：基本价值BV（Basic Value）、潜在价值PV(PotentialValue)、传递价值TV(Transfer Value)。其中，

所述基本价值BV为客户的现有购买，对企业的贡献度，计算方法为结合中国移动现有客户方法对客户分为三个级别：VIP客户（付费享受优质服务，高级套餐，大额度消费群），中级价值客户（中等额度消费群），普通客户（低额度消费群），消费额度根据企业客户情况而定。所述基本价值BV由业务占有率加上每月给企业带来的利润率为计算标准，其模型如下：

{BV}_{i} = \frac{N_{i}}{N} + \frac{P_{i}}{\overset{&OverBar;}{P}}, i &Element; [1 . . . M]

其中，BV_i是客户i的基本价值；N_i是客户i订购业务数；N是企业面向全部客户提供的所有业务总数；P_i是客户i平均每月为企业带来的利润；P是客户人均的平均每月带来利润，即对每个客户平均每月为企业带来利润求平均值；M是企业客户总数。

所述潜在价值为客户未来能够带来的价值（未来保持本级的价值，或未来向上一级客户级别转变的价值，或潜在新业务消费群），所述潜在价值PV由月平均持有业务数和平均业务接纳率构成，其模型如下：

{PV}_{i} = \frac{Σ_{j = 1}^{t} {SN}_{ij}}{t} + \frac{{SPT}_{i}}{SPT}

其中，PV_i是客户i的潜在价值，t是入网时长，即选用企业的服务（简称为入网）开始时刻到现在的月数；SN_ij是客户i在第j个月所保持的企业业务数量；SPT_i是客户i在入网期间所接纳并订购推送业务的业务个数；SPT是企业在客户i入网期间向该客户推送的业务总数。

所述传递价值为客户口碑效应带来新客户的价值，所述传递价值TV由与该客户通信的那些客户的数量变化率来表示，其模型如下：

{TV}_{i} = Σ_{j = 1}^{t} (x_{ij} - x_{i (j - 1)})

其中，TV_i表示客户i的传递价值，x_ij表示客户i在入网第j个月所通信（有过电话、短信等）过的属于本企业的客户的数量。

上述基本价值所得BV作为基本价值指标，按指定阀值μ（按企业需求设定）进行分级，当BV＞μ₁时，认定为高消费客户；当μ₁＞BV＞μ₂时，认定为中等消费水平客户；当BV＜μ₂时认定为低消费水平客户。

上述

为保持本级或可能向其他级客户级别转变的潜在可能性，该值越大表明转向高一级的可能性越高，如果要判断转变速率，就分析该值按时间的走势的曲线斜率即可。

上述

为客户新增业务的可能性，该值越高，说明向该客户推行新业务转化为新利润的成功率越高。

上述TV越高，表示该客户所带来的客户越多，也间接表明了该客户的忠诚度指标非常高。

2）建立客户行为模型：

2.1）客户上网数据获取

对移动海量上网数据识别客户群，从中抽取相关字段如下：将每条信令中包含客户上线时间、下线时间、上网地点、客户标识、终端品牌、终端型号、网址、下行流量、上行流量提取。

2.2）客户上网数据预处理

2.2.1）将所有数据进行清洗，即去掉一些无效的数据行。

客户识别的三级内容识别方法为利用爬虫程序从互联网上获取待识别一级内容的三级内容URL中id与三级内容标题名称的对应关系，建立三级内容识别规则库；利用三级内容识别规则库，在线平台（信令采集时系统）将对信令中客户URL数据进行三级内容识别；

上述规则库每个对应行都有一个数字编号，同时每个级的编号都包含上一级的编号，如：一级第一个编号为01（采用两位数），则二级第一个编号为01001（采用五位数），三级第一个编号为01001000000001（采用十四位数），这样只需要在识别时用最低级的编号即可反映前面的级编号。

2.2.3）对于步骤2.1）的地点字段，由于各地地点都是不完全相同，故需要将各地地点进行统一化，使得每个客户所在的上网地点都只在限定数量的地点集合中——地点根集合，然后将这些地点数值化，为数据挖掘算法做准备，其方法是建立地点转换库，如：某某中学——学校、某某区小学——学校对应关系，这种建立可以采用包含匹配方式，如地点中包含“中学”，即可转为学校；还可以采用短文本扩展技术，将无任何特征的地点信息通过互联网扩展文本，再利用人工神经网络进行分类到地点根集合中，如地点根集合为{学校，居民区，工业区，街区，风景区，办公楼……等}，其中若要细分，则办公楼又有子集{政府办公楼，商业办公楼，医院}等；实际使用时，参照地点转换库将详细地点映射到集合中某个地点；本方法由于集合众多，本说明只列举这些以说明本方法，但不仅限这些列举。

2.2.4）对于步骤2.1）的终端品牌和终端型号字段，终端品牌和终端型号在某种程度上反映了客户的消费水平，但必须采用一种方法将其进行数值化才能进行聚类中的相似度计算，采用将终端设备型号数据转换成该设备的价格的方式数值化终端品牌和终端型号，通过客户终端设备的价格，即可在一定程度上代表客户的消费水平。

2.3）客户上网数据聚类分析

2.3.2）根据步骤2.1）、步骤2.2）的字段：客户标识、上线时间、下线时间、上行流量、下行流量、上网地点，对客户地点偏好进行分析，对每个客户一个月的上网数据进行统计每天所在地点的驻留值(Stay Value)，地点驻留值代表客户在该地点上网的偏好程度，由客户在该地点所上网的平均时长比例和平均流量比例决定，即：

{SV}_{i} = \frac{Σ_{j = 1}^{k} {pt}_{ij}}{k} \times λ_{1} + \frac{Σ_{j = 1}^{k} {pf}_{ij}}{k} \times λ_{2}

其中，SV_i是某客户在某段时间（周、月）在第i个地点的驻留值，st_ij是客户在第j天在第i个地点的上网时长占这天上网总时长的比例，sf_ij是客户在第j天在第i个地点的上网流量占这天上网总流量的比例，k是这个时间段的天数，λ₁是时长的权重，λ₂是流量的权重，λ₁+λ₂=1；

2.3.3）根据步骤2.1）、步骤2.2）的字段：客户标识、业务特征、流量、上线时间、下线时间，可以进行客户浏览内容偏好分析，将一天中每个业务特征(财经类、阅读类、音乐类等业务分类)的兴趣度（Interesting Value对该业务的偏好程度）进行统计，其兴趣度如下：

{IV}_{i} = \frac{Σ_{j = 1}^{k} {it}_{ij}}{k} \times λ_{1} + \frac{Σ_{j = 1}^{k} {if}_{ij}}{k} \times λ_{2}

2.3.4）根据步骤2.1）、步骤2.2）及上述步骤得出的字段：客户标识、客户时间偏好向量、客户地点偏好向量、客户消费水平指标、客户业务偏好向量，可以进行客户社会群体属性识别，首先进行并行聚类，然后分析聚类结果；利用调查问卷等方式获取先验知识，将聚类结果进行群体划分；对于每个得到的簇中心分别赋予“学生、农民、白领……等”社会群体。

2.4）并行数据挖掘方式

对移动海量客户群的识别，属于无先验知识的数据，首先需要进行聚类，在聚类时，每个数据记录之间相似度计算是可以并行的，每个数据记录的每一个字段也是可以并行进行数学运算的；对聚类结果进行分析，得到不同的类别；采用并行K-Means聚类算法，利用Hadoop平台，对大数据进行并行计算；处理客户的时间偏好，处理客户的地点信息，处理客户的上网兴趣爱好，处理设备价格，可以并行地进行计算，在得到这四方面的数据之后，进入社会群体划分的聚类阶段。

2.5）客户数据分类

将类别模型数据，即聚类得到的各簇的中心，应用在平台中对移动海量客户群进行识别，属于分类范畴，在这个应用过程中，为了加快识别速度，可以先将类别模型数据进行多叉树组织，再做类别相似度计算，可减少客户数据与模型数据的计算量，实现快速判定分到哪个类。

下面结合实际数据对本实施例上述移动海量客户群识别的并行数据挖掘方法进行具体说明：

1）客户价值模型：

企业对客户提供了10个业务，客户平均每月为企业带来利润为60元。对于客户1，订购业务数为8个，平均每月为企业带来100元利润。对于客户2，订购业务数为3个，平均每月为企业带来30元利润。那么客户1的基本价值为BV₁=8/10+100/60=2.467；客户1的基本价值为BV₂=3/10+30/60=0.8；那么客户1的基本价值大于客户2，说明客户1购买力比客户2高。

客户1入网时长为3个月，分别保持业务个数为7、8、9，其中基础业务3个，接受推送的业务个数分别为4,1,1个。那么客户1的潜在价值为：

{PV}_{1} = \frac{7 + 8 + 9}{3} + \frac{4 + 1 + 1}{3} = 10

客户2入网时长为3个月，分别保持业务个数为3、4、4，其中基础业务为3,个，接受推送的业务个数分别为0,1,0个。那么客户2的潜在价值为：

{PV}_{2} = \frac{3 + 4 + 4}{3} + \frac{0 + 1 + 0}{3} = 4

那么客户1的潜在价值比客户2高，所以对客户1进行更多的营销可以带来更高的价值。

客户1入网时长为3个月，保持联系的联系人中，每月属于企业客户的分别有10,11,12个。则客户1的传递价值为：TV₁=12-11+11-10=2；

客户2入网时长为3个月，保持联系的联系人中，每月属于企业客户的分别有10,8,9个。则客户2的传递价值为：TV₂=9-8+8-10=-1；

那么客户1的传递价值比客户2的高，故稳住客户1是企业利润增长的重要措施。

客户1总价值为2.467+10+2=14.467；客户2的总价值为0.8+4-1=3.8；从而可以推测客户1是关键客户。

2）客户行为模型：

一、二级业务识别库建立：利用网址或IP查业务特征及利用业务特征查网址或IP等方法，获得该网址或IP所在的业务特征整理得到一级业务特征识别库，通过一级识别库，按首页分析法，得到二级特征存入一二级业务识别库，用于一、二级业务识别。如图2所示，展示了一、二级业务识别库部分实例。

三级业务识别库建立：利用一、二级业务识别库，对其中需要识别三级业务即新闻中某文章，音乐网站中某音乐名称，视频网站中某视频名称等三级名称利用网络爬虫进行爬取，获得该三级名称所在网址id和三级名称的对应关系。

如：vip.book.sina.com.cn/book/index_181847.html所对应的是“《像犹太人一样思考》”这本书，那么只需将“sina.com.cn”、“/book/”、“181847”和“《像犹太人一样思考》”存储起来，“181847”即为书的id，当信令中客户访问这个网站，即可获知客户访问了这本书。实现客户三级内容识别。为客户兴趣爱好识别技术打下基础。如图3所示，展示了三级业务识别库的部分实例。

时间偏好计算，采用统计24小时分时计算某客户一天的流量占比，这样聚类之后，得出12种时间偏好簇向量，如下午18点左右上网业务多的客户，早上10点和下午15点上网业务多的客户等。如图4所示，展示了时间偏好簇向量分布。

地点偏好计算，将所有地点根集合元素作为一个向量，（学校，居民区，办公楼...）=(P000000001,P000000002,...P000000024)，对每个客户进行按时长和流量组合模式（几乎不产生流量的，时长的权重占70%，产生流量比较均匀的，时长的权重占40%）进行统计客户一周均值偏好向量。将客户一周均值偏好向量归一化之后进行聚类，得到所有地点分类准则向量，即标签分类准则向量。在分类时，同样处理好客户一周均值偏好向量，然后与该标签分类准则向量——比如主要在学校周边上网的向量为(70%，0.1%...0.1%..0.1%...)做欧式距离相似度运算。若该客户信令数据与该标签分类准则向量的相似度比与任何其他标签的相似度值大，且分析一周或一个月的数据，这是最多次相似度的标签，那么该客户就可以打上该标签。

如：客户1某天在某某中学累计上网时长占整天40%，在某某路口上网时长占10%，在某小区上网占50%；而各地点流量占比分别为80%、10%、10%；第二天时长占比分别为60%、20%、0，而在某电信大厦20%；流量占比分别为10%、10%、0、80%；首先，将地点转换为学校、街区、居民区、办公楼，根据地点根集合，集合中其他地点的时长和流量都为0；取时长40%的权重，流量60%的权重，第一天在学校的驻留值为SV₁＝0.4×40%+0.8×60%＝0.64,街区SV₂=0.1,居民区SV₃=0.26,SV₄=0;第二天分别为0.3,0,0.14,0.56,那么两天的平均驻留值向量为（0.47,0.05,0.2,0.28）;其他客户数据亦是如此进行计算，将所有客户的数据进行聚类，将得到各个簇的中心驻留值向量，比如有24个簇，那么将这24个簇中心的驻留值向量按4个组成一组成为类多叉树节点，父节点为子节点的平均值。那么该树将有4层，平均查找长度从24降到7。加速了分类的过程。如图5所示，显示了利用多叉树加快相似度比较的分类方法例子。

兴趣偏好计算类似于地点，即将每个兴趣偏好按时长和流量计算其兴趣度。最后形成客户的兴趣度向量，聚类得到各个簇的中心兴趣度向量，用于后续分类。

在消费水平上，客户1手机为5500元，客户2手机为1200元，所有客户计算得出平均手机价格为1500元，那么客户1消费水平为3.6，客户2的消费水平为0.8，可以在一定程度上反映客户1的消费水平比客户2高。

社会群体识别即用时间偏好向量、地点偏好向量、兴趣偏好向量、消费水平进行聚类。如图6所示，显示了Hadoop上并行聚类的框架。

在根据调查问卷得到各个社会群体（学生、白领、民工等）之后，对聚类结果打上标签，得到社会群体的分类。将社会群体识别向量用于新的客户数据即可对该新客户进行分类。

综合客户价值模型和客户行为模型，可以将客户群体分为高价值学生，高价值民工，低价值白领，高价值白领等群体，以实现精准营销。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种移动海量客户群识别的并行数据挖掘方法，其特征在于，包括以下步骤：

1）建立客户价值模型

2）建立客户行为模型

2.根据权利要求1所述的一种移动海量客户群识别的并行数据挖掘方法，其特征在于：

{BV}_{i} = \frac{N_{i}}{N} + \frac{P_{i}}{\overset{&OverBar;}{P}}, i &Element; [1 . . . M]

{PV}_{i} = \frac{Σ_{j = 1}^{t} {SN}_{ij}}{t} + \frac{{SPT}_{i}}{SPT}

{TV}_{i} = Σ_{j = 1}^{t} (x_{ij} - x_{i (j - 1)})

3.根据权利要求1所述的一种移动海量客户群识别的并行数据挖掘方法，其特征在于，所述步骤2）包括以下步骤：

2.1）客户上网数据获取

2.2）客户上网数据预处理

2.2.1）将所有数据进行清洗，即去掉一些无效的数据行；

客户识别的二级内容识别方法为利用爬虫程序从一级内容识别规则库中爬取每个不同一级业务的首页，对首页内容的链接进行程序化分析，即首页分析法，从前至后解析首页源代码中链接和链接文本，并过滤非本业务网址，过滤长网址，对符合子频道链接特征的取为二级规则，得到的二级识别规则合并到一二级识别规则库中；

2.2.3）对于步骤2.1）的地点字段，由于各地地点都是不完全相同，故需要将各地地点进行统一化，使得每个客户所在的上网地点都只在限定数量的地点集合中——地点根集合，然后将这些地点数值化，为数据挖掘算法做准备，其方法是建立地点转换库，如：某某中学——学校、某某区小学——学校对应关系，这种建立可以采用包含匹配方式，如地点中包含中学，即可转为学校；还可以采用短文本扩展技术，将无任何特征的地点信息通过互联网扩展文本，再利用人工神经网络进行分类到地点根集合中，如地点根集合为{学校，居民区，工业区，街区，风景区，办公楼}，其中若要细分，则办公楼又有子集{政府办公楼，商业办公楼，医院}；实际使用时，参照地点转换库将详细地点映射到集合中某个地点；

2.2.4）对于步骤2.1）的终端品牌和终端型号字段，终端品牌和终端型号反映了客户的消费水平，需将其进行数值化才能进行聚类中的相似度计算，采用将终端设备型号数据转换成该设备的价格的方式数值化终端品牌和终端型号，通过客户终端设备的价格，即可在一定程度上代表客户的消费水平；

2.3）客户上网数据聚类分析

{SV}_{i} = \frac{Σ_{j = 1}^{k} {pt}_{ij}}{k} \times λ_{1} + \frac{Σ_{j = 1}^{k} {pf}_{ij}}{k} \times λ_{2}

{IV}_{i} = \frac{Σ_{j = 1}^{k} {it}_{ij}}{k} \times λ_{1} + \frac{Σ_{j = 1}^{k} {if}_{ij}}{k} \times λ_{2}

2.4）并行数据挖掘方式

2.5）客户数据分类

将类别模型数据，即聚类得到的各簇的中心，应用在平台中对移动海量客户群进行识别，在这个应用过程中，可以先将类别模型数据进行多叉树组织，再做类别相似度计算，可减少客户数据与模型数据的计算量，实现快速判定分到哪个类。

4.根据权利要求1所述的一种移动海量客户群识别的并行数据挖掘方法，其特征在于：在步骤1）中，从企业数据中选取的客户数据，包括客户套餐信息、月度消费金额、品牌、订购业务、话务单。