CN101621823A - 一种对移动通信数据业务客户画像的精确构建方法 - Google Patents
一种对移动通信数据业务客户画像的精确构建方法 Download PDFInfo
- Publication number
- CN101621823A CN101621823A CN200810039889A CN200810039889A CN101621823A CN 101621823 A CN101621823 A CN 101621823A CN 200810039889 A CN200810039889 A CN 200810039889A CN 200810039889 A CN200810039889 A CN 200810039889A CN 101621823 A CN101621823 A CN 101621823A
- Authority
- CN
- China
- Prior art keywords
- data
- group
- model
- view
- customers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种对移动通信数据业务客户画像的精确构建方法,包括以下步骤:根据移动数据业务的需求,从数据集市中选择一个分业务视图;从该分业务视图中选择关键字段,进行基于统计学的客户分群;建立数据集市中所有客户的统一视图;基于客户统一视图,采用多种分类算法构建多个分类模型;评估该多个分类模型,从中选择最优分类模型,并发布该最优分类模型。与现有技术相比,通过本发明的方法可以实现客户在特定的数据业务下的精确画像,实现了对客户全面准确的描述。
Description
技术领域
本发明涉及移动通信行业的数据挖掘技术,特别是涉及一种对移动通信数据业务客户画像的精确构建方法。
背景技术
数据挖掘(Data Mining)就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。数据挖掘利用各种分析工具在海量数据中发现模型与数据间的关系,这些模型和关系可以用来做预测。数据挖掘通过预测未来趋势及行为,做出前瞻的,基于知识的决策。
客户画像就是把客户分成一个个群体,在每个群体内部,客户的特征非常相似;而群体与群体之间,客户的特征具有较大差异。只有区分出一个个的客户群,企业才可以对每个客户群进行有效的管理并采取相应的营销手段,我们将用客户画像来替代以往的客户细分这个名词。
在移动通信行业众多的数据业务中进行数据挖掘、建立客户画像,目前尚未提出一种系统化的流程及方法来对移动行业的数据业务进行全面的挖掘和进行客户画像,而此过程当中,如何在建立好的数据集市上进行客户画像,采用什么样的数据挖掘建模方法进行建模,都没有一种标准化的方法以及流程来控制。
目前,移动通信行业新业务的复杂多样化决定了通过一张统一的客户视图不能全面准确的对客户进行描述,需要根据不同的业务类型对客户进行进一步的精确画像。
技术方案
本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一种对移动通信数据业务客户画像的精确构建方法。
本发明的目的可以通过以下技术方案来实现:一种对移动通信数据业务客户画像的精确构建方法,其特征在于,包括以下步骤:
(1).根据移动数据业务的需求,从数据集市中选择一个分业务视图;
(2).从该分业务视图中选择关键字段,进行基于统计学的客户分群;
(3).建立数据集市中所有客户的统一视图;
(4).基于客户统一视图,采用多种分类算法构建多个分类模型;
(5).评估该多个分类模型,从中选择最优分类模型,并发布该最优分类模型。
所述的数据集市包括每个移动数据业务的分业务视图和每个移动数据业务的客户统一视图。
所述的步骤(2)进一步包括:
采用数据挖掘工具审核分业务视图中的各字段,查看其数据的分布和质量;
根据移动数据业务的需求,确定分业务视图的关键字段,并在关键字段的维度上进行统计分析,确定关键字段数据的分布情况;
根据关键字段数据的分布情况,将客户分群。
所述的客户统一视图包括各客户的个人基本信息、各客户的在各数据业务维度上的记录,两者通过客户的手机号码来关联。
所述的步骤(4)进一步包括:
从客户统一视图中采样两类数据,该两类数据为:数据a,属于特定的某项业务的一个群的数据,此部分数据符合该群的统计规则;数据b,此部分数据为不符合数据a的抽取规则的数据;数据a与数据b的比例区间为1∶1-1∶4;
采用多个分类算法对采样的数据进行建模;
为各模型设置最优的参数。
所述的步骤(5)进一步包括:
模型评估,根据各模型产生的评估参数以及正确率来进行模型的评测,选出当前最优的模型;
模型的推广,将模型应用于整个数据集,判断产生的规则集,是否有实际的意义,然后将规则转化成用户群的特征信息添加到各个群的群特描述部分;
模型的前台展现,创建表一和表二,分别用来存放群信息和属于该群的用户信息,表一中存放群号、群的数量和群的特征描述信息,表二中存放归属的群号、手机号及个人用户信息。
与现有技术相比,通过本发明的方法可以实现客户在特定的数据业务下的精确画像,实现了对客户全面准确的描述。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种对移动通信数据业务客户画像的精确构建方法,包括以下步骤:
(1).根据移动数据业务的需求,从数据集市中选择一个分业务视图;
(2).从该分业务视图中选择关键字段,进行基于统计学的客户分群;
(3).建立数据集市中所有客户的统一视图;
(4).基于客户统一视图,采用多种分类算法构建多个分类模型;
(5).评估该多个分类模型,从中选择最优分类模型,并发布该最优分类模型;
所述的数据集市包括每个移动数据业务的分业务视图和每个移动数据业务的客户统一视图;
所述的步骤(2)进一步包括:
采用数据挖掘工具审核分业务视图中的各字段,查看其数据的分布和质量;根据移动数据业务的需求,确定分业务视图的关键字段,并在关键字段的维度上进行统计分析,确定关键字段数据的分布情况;根据关键字段数据的分布情况,将客户分群;
所述的客户统一视图包括各客户的个人基本信息、各客户的在各数据业务维度上的记录,两者通过客户的手机号码来关联;
所述的步骤(4)进一步包括:从客户统一视图中采样两类数据,该两类数据为:数据a,属于特定的某项业务的一个群的数据,此部分数据符合该群的统计规则;数据b,此部分数据为不符合数据a的抽取规则的数据;数据a与数据b的比例区间为1∶1-1∶4;采用多个分类算法对采样的数据进行建模;为各模型设置最优的参数;
所述的步骤(5)进一步包括:模型评估,根据各模型产生的评估参数以及正确率来进行模型的评测,选出当前最优的模型;模型的推广,将模型应用于整个数据集,判断产生的规则集,是否有实际的意义,然后将规则转化成用户群的特征信息添加到各个群的群特描述部分;模型的前台展现,创建表一和表二,分别用来存放群信息和属于该群的用户信息,表一中存放群号、群的数量和群的特征描述信息,表二中存放归属的群号、手机号及个人用户信息。
确定分业务视图字段的需求:数据集市是由若干的分业务视图和客户统一视图构成的,分业务视图是对特定的数据业务的全面属性的展现,分业务视图包括个人基本信息,个人在该业务范围内的行为信息和费用信息;
由于数据源当中的业务数据的种类有很多,要根据数据挖掘的主题来选择所需要的字段;ETL人员要对数据源进行数据预处理并要根据需求建立各分业务视图,采用存储过程来具体实施,并每月自动生成一张当月的分业务视图;
采用数据挖掘工具审核字段信息:此步骤中要采用数据挖掘工具来全面的审核分业务视图当中各个字段的信息,查看其数据的分布,以及数据的质量;
在关键字段维度上进行统计分析:要根据数据挖掘主题来确定各分业务视图中的关键字段,对关键字段进行基于统计学的分析,确定关键字段上数据的分布情况,根据统计结果来在关键字段上进行合理的划分,从而在关键字段维度上将分业务视图进行分群;
按照统计结果在关键维度上进行客户分群:此步骤要实现基于统计结果的分群,在实际的业务视图当中,要根据数据的分布特征来确定分群的规则,将分群的规则整理好,以便自动化处理;
确定要进行抽取的字段:本步骤要确定客户统一视图的字段信息,分业务视图反映了用户在单个数据业务维度上的个人基本信息,行为信息,费用信息,分业务视图可以在单个业务维度上对客户进行分群,以及群信息特征描述等操作。但是,此操作只限定在单个业务维度上,如果我们要进行在所有业务维度上的客户分群,以及客户分群特征描述等操作时,就会遇到困难,所以有必要建立全数据业务维度的客户统一视图;客户统一视图由两大部分组成,第一部分为客户的个人基本信息,第二部分为由所有数据业务组成的客户在各数据业务维度上的记录;
建立客户统一视图:此步骤要建立客户统一视图,本发明采用的策略为以个人信息表为基本表来按照手机号码来和客户业务视图中手机号码来进行连接,另外还要进行空值处理,将空值赋值为零,和对字段进行更名以避免多表中的重名字段。
从客户统一视图中采样:本步骤要从统一客户视图中随机抽取部分样本,此样本包含两类数据,数据a:属于特定的某项业务的一个群的数据,此部分数据符合该群的统计规则。数据b:此部分数据为不符合a数据中抽取规则的数据。数据a与数据b的比例区间为(1∶1-1∶4),具体的比例选择要看模型的评估结果;
采用分类算法对样本建模:采用分类算法对样本数据进行建模,利用分类算法来产生属于某个客户群的特征规则;
模型的参数的设置:根据数据模型来设置参数,分类算法应该进行采用多种分类算法来对样本数据建模,并采用相应的参数,使模型在参数设置方面获得最优,以便下一步的模型的评估之用;
模型评估:本发明采用多种分类算法来进行建模分析,本步骤要对模型产生的评估参数以及正确率来进行模型的评测,本步骤要选出当前最优的模型;
模型的推广:本步骤要在选取的最优模型基础上进行模型的推广,将模型应用于整个数据集,对于模型产生的规则集,业务人员要进行解释,看规则是否有实际的意义,然后将规则转化成用户群的特征信息添加到各个群的群特描述部分;
模型的前台展现:本步骤要实现模型的前台展现,创建两张数据表,表一和表二分别用来存放群信息和属于该群的用户信息。群信息表中存放群号,群的数量,群的特征描述信息。用户信息表中存放归属的群号,手机号及个人用户信息。
在分业务视图基础上,选择每种数据业务的相关的关键字段,进行基于统计学的分群。由于数据业务的各个字段的数据缺失值的情况,以及字段重要性的不同,应该选择性的挑选各个业务有价值的字段进行统计分析,利用统计分析结果进行客户的分群,并同时获得统计分析阶段的群特征。
建立所有数据业务的客户统一视图,此客户统一视图包含了个人用户的基本信息,以及该客户在所有数据业务当中的各种费用信息和行为信息。
基于客户统一视图,利用数据挖掘分类模型获取每个数据业务下,每个分群信息的特征描述信息。此客户统一视图为所有业务加上个人基本信息组成的,这样的目的是利用分类模型将每个业务下的各个分群,与其不符合该分群的信息的其他用户,利用统计分析阶段利用的字段进行分类,从而获得了该分群的群特征。
模型的评估及模型发布,模型的评估包括利用测试数据集来对模型进行评估,比较模型的正确率,从中选取最优的模型。模型的发布包括将按模型导出的规则来将数据集分成其属于的群,然后将分群信息写入前台展示数据库中。
实施例
本实施例以某省移动的Doss运营平台数据挖掘部分为例:
A.基于需求建立移动13个数据业务的数据集市,该数据集市包括13个分业务视图;
B.以MO手机上网分业务视图为例来展开说明,首先对数据进行审核,选取非零值比例较高的上网GPRS流量作为关键字段进行客户的细分,将客户的分为如下几个群:
低流量用户(MO_FLOW_GPRS2<=750的用户,数量为2504921,占总数67.66%)
中低流量用户(750<MO_FLOW_GPRS2<=2750之间的用户,数量为688539,占总数的18.6%)
中高流量用户(2750<MO_FLOW_GPRS2<=4750之间的用户,数量为176969,占总数的4.78%)
高流量用户(MO_FL OW_GPRS2>4750以上的用户,数量为331536,占总数的8.96%)
C.建立客户统一视图,如表1所示为部分客户统一视图的字段信息:
表1
D.采用多种分类算法对采样的数据进行建模,选取最优的C5.0算法来进行模型的应用及前台的展现;
由C5.0对mo手机上网高流量用户群进行建模分析,得到如下的群特征信息:
使用的品牌是动感地带,年龄小于26岁,飞信pc端活跃天数大于等于1的用户,符合此条件的用户数且gprs流量大于4750kb的用户数为735,且置信度为0.617。
Claims (6)
1.一种对移动通信数据业务客户画像的精确构建方法,其特征在于,包括以下步骤:
(1).根据移动数据业务的需求,从数据集市中选择一个分业务视图;
(2).从该分业务视图中选择关键字段,进行基于统计学的客户分群;
(3).建立数据集市中所有客户的统一视图;
(4).基于客户统一视图,采用多种分类算法构建多个分类模型;
(5).评估该多个分类模型,从中选择最优分类模型,并发布该最优分类模型。
2.根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法,其特征在于,所述的数据集市包括每个移动数据业务的分业务视图和每个移动数据业务的客户统一视图。
3.根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法,其特征在于,所述的步骤(2)进一步包括:
采用数据挖掘工具审核分业务视图中的各字段,查看其数据的分布和质量;
根据移动数据业务的需求,确定分业务视图的关键字段,并在关键字段的维度上进行统计分析,确定关键字段数据的分布情况;
根据关键字段数据的分布情况,将客户分群。
4.根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法,其特征在于,所述的客户统一视图包括各客户的个人基本信息、各客户的在各数据业务维度上的记录,两者通过客户的手机号码来关联。
5.根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法,其特征在于,所述的步骤(4)进一步包括:
从客户统一视图中采样两类数据,该两类数据为:数据a,属于特定的某项业务的一个群的数据,此部分数据符合该群的统计规则;数据b,此部分数据为不符合数据a的抽取规则的数据;数据a与数据b的比例区间为1∶1-1∶4;
采用多个分类算法对采样的数据进行建模;
为各模型设置最优的参数。
6.根据权利要求1所述的一种对移动通信数据业务客户画像的精确构建方法,其特征在于,所述的步骤(5)进一步包括:
模型评估,根据各模型产生的评估参数以及正确率来进行模型的评测,选出当前最优的模型;
模型的推广,将模型应用于整个数据集,判断产生的规则集,是否有实际的意义,然后将规则转化成用户群的特征信息添加到各个群的群特描述部分;
模型的前台展现,创建表一和表二,分别用来存放群信息和属于该群的用户信息,表一中存放群号、群的数量和群的特征描述信息,表二中存放归属的群号、手机号及个人用户信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810039889A CN101621823A (zh) | 2008-06-30 | 2008-06-30 | 一种对移动通信数据业务客户画像的精确构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810039889A CN101621823A (zh) | 2008-06-30 | 2008-06-30 | 一种对移动通信数据业务客户画像的精确构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101621823A true CN101621823A (zh) | 2010-01-06 |
Family
ID=41514793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810039889A Pending CN101621823A (zh) | 2008-06-30 | 2008-06-30 | 一种对移动通信数据业务客户画像的精确构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101621823A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840423A (zh) * | 2010-04-12 | 2010-09-22 | 福建工程学院 | 基于成对下单原理与数据挖掘技术的话单准确性稽核系统 |
CN105657003A (zh) * | 2015-12-28 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 一种信息处理方法和服务器 |
CN107038167A (zh) * | 2016-02-03 | 2017-08-11 | 普华诚信信息技术有限公司 | 基于模型评估的大数据挖掘分析系统及其分析方法 |
CN108241892A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 一种数据建模方法和装置 |
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN108572966A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建个人画像的方法及装置 |
CN108898413A (zh) * | 2018-05-14 | 2018-11-27 | 链家网(北京)科技有限公司 | 一种客源管理方法及装置 |
CN109165615A (zh) * | 2018-08-31 | 2019-01-08 | 中国人民解放军军事科学院军事医学研究院 | 一种面向脑电信号的多分类器单路模式下的参数训练算法 |
CN110427418A (zh) * | 2019-07-04 | 2019-11-08 | 深圳供电局有限公司 | 一种基于客户能源价值指标体系的客户分析分群方法 |
CN114638451A (zh) * | 2020-12-16 | 2022-06-17 | 上海画龙信息科技有限公司 | 智能零售辅助决策系统 |
-
2008
- 2008-06-30 CN CN200810039889A patent/CN101621823A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840423A (zh) * | 2010-04-12 | 2010-09-22 | 福建工程学院 | 基于成对下单原理与数据挖掘技术的话单准确性稽核系统 |
CN101840423B (zh) * | 2010-04-12 | 2012-07-04 | 福建工程学院 | 基于成对下单原理与数据挖掘技术的话单准确性稽核方法 |
CN105657003A (zh) * | 2015-12-28 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 一种信息处理方法和服务器 |
CN105657003B (zh) * | 2015-12-28 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种信息处理方法和服务器 |
CN107038167A (zh) * | 2016-02-03 | 2017-08-11 | 普华诚信信息技术有限公司 | 基于模型评估的大数据挖掘分析系统及其分析方法 |
CN108241892A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 一种数据建模方法和装置 |
CN108572966A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建个人画像的方法及装置 |
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN108572967B (zh) * | 2017-03-09 | 2022-03-15 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN108898413A (zh) * | 2018-05-14 | 2018-11-27 | 链家网(北京)科技有限公司 | 一种客源管理方法及装置 |
CN109165615A (zh) * | 2018-08-31 | 2019-01-08 | 中国人民解放军军事科学院军事医学研究院 | 一种面向脑电信号的多分类器单路模式下的参数训练算法 |
CN110427418A (zh) * | 2019-07-04 | 2019-11-08 | 深圳供电局有限公司 | 一种基于客户能源价值指标体系的客户分析分群方法 |
CN114638451A (zh) * | 2020-12-16 | 2022-06-17 | 上海画龙信息科技有限公司 | 智能零售辅助决策系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101621823A (zh) | 一种对移动通信数据业务客户画像的精确构建方法 | |
CN106022708A (zh) | 一种预测员工离职的方法 | |
CN103150696A (zh) | 选择目标增值业务潜在客户的方法及装置 | |
CN109359868A (zh) | 一种电网用户画像的构建方法及系统 | |
CN103325067B (zh) | 基于用电客户细分的服务推送方法和系统 | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN110427418A (zh) | 一种基于客户能源价值指标体系的客户分析分群方法 | |
CN103250376A (zh) | 用于执行与通信网络的节点有关的预测分析的方法和系统 | |
CN113435627A (zh) | 基于工单轨迹信息的电力客户投诉预测方法及装置 | |
CN107977855B (zh) | 一种管理用户信息的方法及装置 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN112153636A (zh) | 一种基于机器学习预测电信业用户携号转出的方法 | |
CN117911085B (zh) | 一种基于企业营销的用户管理系统、方法及终端 | |
Tanuwijaya et al. | Mobile customer behaviour predictive analysis for targeting Netflix potential customer | |
CN117172795A (zh) | 一种智能化的技术服务费的在线咨询系统 | |
CN117056752A (zh) | 一种基于多源数据的工商业企业画像刻画方法 | |
CN115130007B (zh) | 一种基于用户场景定位的品牌推广方法及系统 | |
CN116578904A (zh) | 基于集成机器学习的区块链地址属性分类方法及系统 | |
CN110517132A (zh) | 信用评分方法、系统、终端及计算机可读存储介质 | |
CN113538011B (zh) | 一种电力系统中非在册联系信息与在册用户的关联方法 | |
WO2024001102A1 (zh) | 一种通信行业家庭圈智能识别的方法、装置及设备 | |
CN114331665A (zh) | 用于预定申请人的信用判定模型的训练方法、装置和电子设备 | |
Fongsuwan et al. | Cluster and R&D affecting the competitive advantage of the mould and die sector in the Thai automotive industry | |
CN114385899A (zh) | 一种基于大数据分析的用户群体精准识别系统及方法 | |
CN112950279A (zh) | 基于机器学习的精准营销策略模型构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100106 |