CN103164474A

CN103164474A - 一种对数据业务进行分析的方法

Info

Publication number: CN103164474A
Application number: CN2011104242449A
Authority: CN
Inventors: 李洪平; 王显明; 彭凯; 魏畅; 胡晓蓉; 曾庆红
Original assignee: China Mobile Group Guizhou Co Ltd
Current assignee: China Mobile Group Guizhou Co Ltd
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2013-06-19
Anticipated expiration: 2031-12-15
Also published as: CN103164474B

Abstract

本发明提供了一种对数据业务进行分析的方法，基于用户对数据业务的使用情况，构建关联模型和类型偏好模型，并构造特征匹配模型；然后，利用关联模型和类型偏好模型构建数据业务关系模型，并利用数据业务关系模型和特征匹配模型构建数据业务整合分析模型，最后，通过数据业务整合分析模型对数据业务进行分析，将分析结果用于数据业务推荐。应用本发明能够提高分析结果的准确性，将分析结果用于数据业务推荐时，可以提高数据业务推荐的精确度。

Description

一种对数据业务进行分析的方法

技术领域

本发明涉及数据业务支撑技术领域，特别涉及一种对数据业务进行分析的方法。

背景技术

当前，数据业务推荐主要基于产品出发，通过数据挖掘技术，找寻潜在的目标用户群。此种方式出发，各个模型间是独立的、割裂的，同时因每种产品单独推荐，耗费推荐资源较多，且对用户的打扰较频繁，使得用户感知较弱。

现有主流的用户偏好挖掘方法主要有关联模型、类型偏好模型和特征匹配模型等，而单一来看，各个模型都有适用性方面的局限性。

关联模型对于成熟型业务有较好的预测效果，适用于已经发展成熟，客户群已经体现明显特征的业务之间关联关系的预测，不适用于导入期业务。因为导入期业务用户量较少，与其他业务的关联特征不明显，并且用户可能并非为真正需要或者感兴趣的用户。

类型偏好模型挖掘了业务之间的逻辑关系，实现了定量和定性分析的结合，对于导入期业务的预测效果好于关联模型，但对于成熟型业务，类型偏好模型的预测结果不够精确，模型预测的提升度指标不如关联模型。

特征匹配模型深入挖掘了业务与客户属性、消费和通话行为、新业务行为之间的关系，对于一部分业务可以得到高精度的预测，但对于某些业务的查潜在客户覆盖不足。

发明内容

本发明提供了一种对数据业务进行分析方法，能够提高分析结果的准确性，将分析结果用于数据业务推荐时，可以提高数据业务推荐的精确度。

本发明提供的一种对数据业务进行分析的方法，包括：

基于用户对数据业务的使用情况，构建关联模型和类型偏好模型；

构造特征匹配模型；

利用关联模型和类型偏好模型构建数据业务关系模型；

利用数据业务关系模型与特征匹配模型构建数据业务整合分析模型；

通过数据业务整合分析模型对数据业务进行分析，将分析结果用于数据业务推荐。

较佳地，构建关联模型可以包括：

确定数据业务的订购和活跃的口径；

准备建模数据；

通过关联模型计算各数据业务之间的关联值。

较佳地，构建类型偏好模型可以包括：

通过分析数据业务的内容和目标用户，对数据业务进行分类；

通过识别数据业务之间的关联度，对数据业务进行再分类；

对各数据业务进行评分；

进行评分汇总，得到用户对各个数据业务的偏好得分。

较佳地，对各数据业务进行评分可以包括：

根据业务渗透率不同，制定业务评分规则；根据用户对数据业务使用程度的分布对数据业务划分等级，并评定相应的分数；对同一区间的分数进行归一化处理。

较佳地，进行评分汇总可以包括：

对同一大类下的数据业务按照得分由高到低进行排序；

采取逐级衰减的方式评分；

对同一类型各个数据业务的评分进行汇总，得到用户类型偏好积分。

较佳地，构建特征匹配模型可以包括：

构建数据宽表；

采用相关性分析和主成分分析方法，进行变量筛选；

根据所述数据宽表和变量筛选的结果构建特征匹配模型。

较佳地，所述进行变量筛选可以包括：

字段过滤、相关性分析和建模筛选，其中，相关性分析的方式包括：卡方、方差、相关信息和自相关分析。

较佳地，构建数据业务关系模型可以包括：

选取相关指标，将关联模型所产生的数据业务关联指数和类型偏好模型所产生的类型偏好指数以用户的编号进行合并；

对数据业务关联指数和类型偏好指数进行标准化处理；

对各数据业务进行因子分析，得到关联模型和类型偏好模型的权重，并通过权重计算数据业务关系模型的推荐指数。

较佳地，构建数据业务整合分析模型可以包括：利用数据业务关系模型和特征匹配模型，通过因子分析方法构建数据业务整合分析模型。

在构建模型之前，可以进一步包括：

进行真实用户分析，对跳蚤用户、养卡套利用户和业务非真实用户进行识别和剔除。

由上述技术方案可见，本发明基于关联模型、类型偏好模型和特征匹配模型的整合推荐模型构建机制，综合考虑了业务之间的逻辑关系和数据关联关系，同时深入挖掘了新业务与用户属性、通话和消费行为之间的关系，体系科学完整。

与现有单一模型的应用相比，本发明避免了单一模型应用的局限性，分业务对比单一模型与整合模型的查全率与提升度，发现整合推荐模型在每个业务上面的表现均达到或接近最优水平，预测效果明显：整体查全率为60％，提升度达到2.6倍。

并且使用整合推荐模型，在相同的指标体系下，可以方便地进行业务指数之间的排序，便于后续的用户新业务包匹配和推荐工作的开展；不仅可以实现单一业务推荐用户群的筛选，还可用于多个业务推荐组合包的用户群筛选。提升用户感知的同时，还节约了推荐资源。

此外，通过建立跳蚤用户的定义与识别机制；对养卡套利用户的动机进行分析，归纳出养卡套利用户的表现特征，进而提炼出用户识别规则；同时通过对业务使用规则的梳理，提炼出29项业务非真实用户的识别规则，最大程度上确保了建模数据的准确性、可用性和完整性。

附图说明

图1为本发明数据业务整合分析模型的体系结构示意图；

图2为本发明整合类型偏好模型、关联模型和特征匹配模型的建模流程示意图；

图3为本发明进行建模准备的流程示意图；

图4为本发明一示例中非新增和新增手机邮箱用户在不同置信度下的分布对比图；

图5为本发明一示例中的阈值曲线示意图；

图6为本发明业务分类示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

基于单一模型应用方面的局限性，本发明开创性地提出：整合关联模型和类型偏好模型，采用主成分分析算法构建数据业务关系模型，再将数据业务关系模型与特征匹配模型进行整合，构建得到数据业务整合分析模型，以对单一模型的优劣势进行互补，同时实现数据业务的组合分析。将分析结果用于数据业务推荐时，可以实现数据业务的组合推荐，并提高数据业务推荐的精确度。图1为本发明数据业务整合分析模型的体系结构示意图。

本发明整合类型偏好模型、关联模型和特征匹配模型的建模流程如图2所示。

第1步：进行业务分析和数据准备。

梳理需要推荐的新业务、分析各业务的内容、订购条件等，确定建模的基本目标和算法选择；同时进行数据提取、数据清洗、数据审核、数据集成等。

第2步：进行真实用户分析。

本步骤主要对跳蚤用户、养卡套利用户和业务非真实用户进行识别和剔除，以确保建模数据的准确性、可用性和完整性。具体包括：

1)跳蚤用户的识别与剔除：

跳蚤用户定义：1年内重入网2次或2次以上的用户。

跳蚤用户识别方法：根据用户交往圈、通话行为模式、终端IMEI等进行跳蚤用户的识别与剔除。例如：

基于交往模式，可以根据用户通话对端记录，提取用户的交往圈；

基于活动模式，可以提取用户通话行为模式，包括：通话时段、通话时长、单次平均通话时长等；

基于终端模式，可以提取用户通话终端的IMEI，作为判断用户的重要参考指标；

基于属性模式，可以参考用户入网的身份信息、性别、年龄、地区信息等用户属性信息。

2)养卡套利用户的识别与剔除：

A.养卡套利动机分析：

i.短期套利：获取业务发展酬金。如参加省公司及地州公司的专项业务竞赛或年终评比，为了获得业务发展酬金而养卡；为了获取新业务推广酬金，如：阶段性的数据业务推广活动，不仅酬金激励力度大，同时还会给予业绩优秀的渠道商特别奖励。

ii.被动养卡：为了完成既定或阶段性的销售目标，否则会蒙受基本酬金等短期利益损失，或降级等长期利益损失；处理包销卡，尽量减少损失。

iii.长期套利：提高渠道评级，获取更高级别的星级评定及相应补贴。例如：贵州移动一些优惠和补贴政策只针对高级别的渠道合作商，渠道为了提升级别，有可能采取养卡行动。

B.养卡套利行为特征归纳：

i.产品：渠道养卡一般选择无月租或最低月租的产品，以降低养卡的成本，研究发现神州行新轻松卡产品是渠道养卡的主要产品；

ii.ARPU(每用户平均收入)：渠道养卡号码消费额一般较低，研究发现贵州养卡号码月均消费一般低于5元；

iii.主叫时长：渠道养卡号码主叫时长非常低，研究发现贵州有70％以上无通话行为，有通话行为用户主叫时长主要集中在3分钟以内；

iv.用户状态：研究发现贵州渠道养卡新增号码停机流失高峰出现在入网后的第1-3个月；

v.消费情况：同一个渠道发展的养卡号码中，出现多个号码消费行为一致的情况，如多个号码入网当月和次月消费完全一致；

vi.激活IMEI：养卡号码在激活时，一般用同一个手机激活，因此养卡号码中大量号码的激活IMEI一致。

C.养卡套利用户识别规则：

i.产品种类：无月租的神州行新轻松卡；

ii.在网时长：在网时长不超过3个月；

iii.ARPU：入网当月消费低于5元，入网次月消费低于5元；

iv.MOU(每月每户通话分钟数)：入网当月MOU低于3分钟，入网次月MOU低于3分钟。

3)业务非真实用户的识别与剔除：

分析各种数据业务的订购和使用方式，确定真实业务用户识别规则。本发明共梳理了29种主要数据业务的真实用户的识别规则，如表1所示：

表1

第3步：进行建模准备。

进行数据收集和提取之后，重要的工作是检查数据的可用性和正确性，进行数据的缺失处理、极值处理和错误处理，构建数据挖掘宽表，进行建模准备的流程如图3所示。

第4步：构建数据业务关联模型。

在全业务运营的背景下，需要不断开发出新的数据业务产品，并从客户视角构建业务推荐模型。

以某省份其中14种数据业务为例，分别是短信、彩信、GPRS流量套餐、彩铃、飞信、号簿管家、来电提醒、手机报、手机视频、手机邮箱、手机游戏、手机证券、天气预报、无线音乐俱乐部。

首先，确定这14项业务的订购和活跃的口径，如表2所示：

业务名称	数据库中字段名称	活跃业务口径定义
			彩铃功能	clfunction_activemark_11	订购剔除捆绑
手机报	phonepaper_activemark_11	订购且成功接收
			来电提醒	callremind_activemark_11	订购剔除捆绑
邮箱	mail_activemark_11	活跃
			飞信	feix_activemark_11	活跃
手机视频	phonetv_activemark_11	使用次数＞0
			天气预报	weather_activemark_11	订购
号簿管家	pim_activemark_11	订购
			无线音乐	musicclub_activemark_11	订购且下载过彩铃或全曲
证券	security_activemark_11	活跃
			手机游戏	game_activemark_11	使用次数＞0

表2

然后，构建建模数据准备清单表，如表3所示：

表3

最后，通过关联模型计算业务之间的关联值。

关联规则是交易数据库中不同商品之间的联系，通过这些规则找出客户的购买行为模式。挖掘关联规则就是发现存在于大数据集中的关联性或相关性，一般的关联规则分析都是基于“支持度-置信度”构架的。

支持度定义为事物集中包含X和Y的事务数与所有事务数之比；置信度定义为其包含X和Y的事务数与包含X的事务数之比。该模型中，支持度指订购前项业务的用户在所有用户中的占比，置信度指订购了前项业务的情况下，订购后项业务的概率。

该模型主要使用Apriori算法，Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

具体步骤如下：

1)设定模型的最小支持度S和最小置信度C。

2)Apriori算法使用候选项集。首先产生出候选的项的集合，即候选项集，若候选项集的支持度大于或等于最小支持度，则该候选项集为频繁项集。

3)在执行Apriori算法的过程中，首先从数据库读入所有的事务，每个项都被看作候选1-项集，得出各项的支持度，再使用频繁1-项集集合来产生候选2-项集集合，因为先验原理保证所有非频繁的1-项集的超集都是非频繁的。

4)再扫描数据库，得出候选2-项集集合，再找出频繁2-项集，并利用这些频繁2-项集集合来产生候选3-项集。

5)重复扫描数据库，与最小支持度比较，产生更高层次的频繁项集，再从该集合里产生下一级候选项集，直到不再产生新的候选项集为止。

6)计算所有关联规则的置信度，置信度大于最小置信度C的关联规则为强关联规则。

7)对模型进行评估。较佳地，可以采用次月数据进行检验的方法，即用来建模的用户，经过关联算法的分析后，根据产生的规则集，给用户推荐相关联的数据业务，然后与次月新增订购数据业务的用户进行对比，以检验模型的推荐的准确性。并计算出查全率以及提升度，检验模型的效果。

下面通过一个具体的例子进行举例说明。

假设将支持度设置为0.55％，置信度设置为1％。

模型评估过程将涉及候选用户、筛选用户、新增活跃用户、查全率以及提升度的概念，下面将对它们进行定义：

◆候选用户是指2009年12月某项数据业务的未定购用户；

◆筛选用户是根据模型预测为使用某项数据业务的潜在用户；

◆新增活跃用户是指候选用户在2010年1月新增为某项业务的活跃用户；

◆筛选用户比例是筛选用户/候选用户；

◆查全率为筛选用户中新增活跃用户数/候选用户中的活跃用户数；

◆提升度等于查全率/筛选用户比例。

关联算法模型给用户推荐的指数，只有在超过一定的界限后，推荐给用户成功的几率才会变大，那么1月新增的用户才算做推荐成功的，那么如何找到这个临界值，在这里把这个临界值定义为要找的阈值。以手机邮箱为例，新增占比＝(新增手机邮箱用户在不同置信度下的用户数/新增手机邮箱总数)，非新增占比＝(非新增手机邮箱用户在不同置信度下的用户数/非新增手机邮箱总数)。从图4中可以看到，当大于某个置信度的值后，新增手机邮箱用户在此后的区间中占比都高于非新增的手机邮箱用户在此区间的占比。

将新增占比减去非新增占比，得出图5所示阈值曲线。从图5可以看出曲线在置信度为0.05和0.06之间与坐标轴相交，则该点是由负转正的转折点，即在该点之后同一置信度下新增占比的比例超过非新增占比的比例，因此，可以选取0.06作为手机邮箱的阈值。

采用同样的方法可以得到其他业务的阈值，根据阈值确定候选用户数、筛选用户数，并根据1月份实际的新增情况，算出新增用户数，通过筛选用户数和新增用户数的交集，可以计算出预测准确数，从而筛选用户比例、查全率和提升度也可得出。

第5步：构建类型偏好模型。

类型偏好模型根据用户对于各业务的使用和订购行为，采用分层分级评分的方式，生成用户的业务类型偏好指数，作为业务推送目标用户群选择的依据。通过业务划分、业务评分和评分汇总三大步骤进行建模，各步骤如下：

1)进行业务划分：分析业务内容和业务目标人群，对数据业务进行分类。

A.参考集团公司业务分类惯例，对业务进行分类，共计八类，具体分类如图6所示。

B.通过模型识别业务关联度，进行业务再分类调整，将初始划分的八类业务整合为六大类：音乐类、商务类、信息沟通类、生活服务类、资讯类和娱乐类，各个大类的具体分类如下：

i.音乐类：全曲下载、彩铃订购、彩铃下载、无线音乐俱乐部会员

ii.商务类：139邮箱、Wlan、手机证券、GPRS流量、12580拨打次数、手机地图、114拨打次数、来电提醒、手机报、号簿管家、12580生活播报、移动秘书

iii.信息沟通类：点对点短信、点对点彩信、飞信、梦网短信、梦网彩信、GPRS流量、139邮箱、WLAN

iv.生活服务类：12580拨打次数、手机医疗、12580生活播报、GPRS流量、114拨打次数、139邮箱、天气预报、手机地图、WLAN、手机报

v.娱乐类：手机电视、手机视频、手机游戏、手机阅读、梦网短信、梦网彩信、GPRS流量、WLAN

vi.资讯类：手机报、GPRS流量、12580生活播报、天气预报、12580生活信息查询、114拨打次数、12580拨打次数、WLAN

说明：对于使用业务，根据使用行为评分；对于订购业务，根据活跃行为(订购剔除捆绑)进行评分。

2)进行业务评分：根据用户某类型业务使用业务种类数和使用程度计算用户对该类型的偏好程度。

对业务使用程度进行等级划分：

i.根据业务渗透率不同，制定业务评分规则，如表4所示：

渗透率	起评分
		＜5％	90
[5％，10％)	85
		[10％，20％)	80
[20％，30％)	75
		[30％，40％)	70
[40％，50％)	60
		[50％，60％)	50
[60％，70％)	40
		[70％，80％)	30
[80％，90％)	20
		[90％，100％)	10

表4

表4中，对于活跃次数大于0的评分，先确定99分位值，将大于其的得分均作为100分。

ii.根据客户使用程度的分布划分等级，评定不同的分数，如以下各表所示：

彩铃订购得分

70

俱乐部普通会员得分	90
		俱乐部高级会员得分	95

飞信活跃用户得分

90

邮箱活跃用户得分

90

手机证券活跃用户得分

90

号簿管家活跃用户得分

90

来电提醒活跃用户得分

60

手机电视使用次数打分

90

手机视频使用次数打分

90

手机阅读使用次数打分

90

12580生活播报订购得分

90

手机地图订购得分

90

天气预报订购得分

85

手机医疗订购得分

90

iii.对于同一区间的得分，进行归一化，公式如下：

((当前值-区间内最小值)/(区间内最大值-区间内最小值))*(区间得分最大值-区间得分最小值)+区间得分最小值

以全曲下载15次为例，下载15次的得分为：((15-1)/(16-1))*(95-90)+90，如表5所示：

表5

3)评分汇总：

A.对同一大类下的业务按照得分由高到低进行排序

B.采取逐级衰减的方式评分

C.同一类型各个业务评分汇总得到用户类型偏好积分

H_{i} = Σ_{j = 1}^{n} w_{j} * h_{(i, j)}

w_j＝1/j

其中：

i表示数据业务类型序号，数据业务类型包括：音乐、信息沟通、商务、生活服务、资讯和娱乐；

j表示某业务类型下的各业务的序号，按照得分从高到低进行排序；

H_i表示类型偏好得分；

w_j表示第j个业务的衰减系数；

h_(i，j)表示第i个类型的第j项业务的偏好得分。

第6步：构建特征匹配模型

a)数据准备过程的数据宽表如表6所示：

字段	名称
		brand_id2	品牌
bts_usertype_id	城乡
		SEX_ID	性别
AGE_ID	年龄
		USER_ONLINE_ID	在网时长
CUSTTYPE_ID	客户类形
		VIP_MARK	vip标识
VPMN_MARK	v网标识
		music_club_mark	无限音乐俱乐部标识
gprs_plan_id	gprs套餐代码
		clfunction_activemark_11	彩铃功能11月活跃
cldownload_activemark_11	彩铃下载11月活跃
		phonepaper_activemark_11	手机报11月活跃
callremind_activemark_11	来电提醒11月活跃
		mail_activemark_11	邮箱11月活跃
feix_activemark_11	飞信11月活跃
		weather_activemark_11	天气预报11月活跃
pim_activemark_11	号簿管家11月活跃
		musicclub_activemark_11	无线音乐11月活跃
security_activemark_11	证券11月活跃
		game_activemark_11	手机游戏11月活跃
sms_activemark_11	短信11月活跃
		mms_activemark_11	彩信11月活跃
gprs_activemark_11	GPRS11月活跃
		montordersms_activemark_11	梦网短信11月活跃
montordermms_activemark_11	梦网短信11月活跃
		wlan_activemark_11	wlan11月活跃
call12580_activemark_11	使用1258011月活跃
		call118114_activemark_11	11811411月活跃
mbassist_activemark_11	移动秘书11月活跃

xinxi12580_activemark_11	12580信息11月活跃
		bobao12580_activemark_11	信息播报11月活跃
mobilemap_activemark_11	手机地图21月活跃
		mobilehealth_activemark_11	手机医疗11月活跃
phonetv_activemark_11	手机视频11月活跃
		mobileCMMB_activemark_11	手机电视11月活跃
mobileread_activemark_11	手机阅读11月活跃
		ARPU	消费
CALL_DURATION_M	通话时长
		incall_counts	被叫次数
ffeecall_duration_m	免费通话时长
		bendi_incall_counts	本地通话次数
changtu_incall_counts	长途次数
		manyou_call_counts	漫游次数
gjmy_call_counts	国际漫游次数
		ip_incall_counts	ip次数
incall_12593_counts	12593次数
		sms_p2p_mo	点对点短信次数
mms_p2p_mo	点对点彩信次数
		montorder_sms_counts	梦网短信次数
montorder_mms_counts	梦网彩信次数
		song_download_counts	彩铃下载次数
call12580_counts	12580次数
		call118114_counts	118114次数
bsinquiry_counts	商旅查询次数
		infoinquiry_counts	生活信息查询次数
wlan_call_duration	WLAN使用时长
		cailing_download_counts	彩铃下载次数
mobile_paper_counts	手机报次数
		gprs_flow	gprs使用量
mobile_CMMB_counts	手机电视次数
		mobile_TV_counts	手机视频次数
mobile_game_counts	手机游戏次数
		mobile_read_counts	手机阅读次数
newbs_fee	新业务费
		mbassist_call_duration	移动秘书通话时长

表6

b)变量筛选

相关性分析和主成分分析，其中把变量相关性分析超过0.9的变量，根据业务经验剔出其中一个。示例如表7所示：

表7

c)模型建立

Logistic回归模型是一种非线性概率模型，又称逻辑模型(LogisticRegression)，其基本形式为一种非线性函数——逻辑函数：

P = F (z) = \frac{1}{1 + e^{- z}} = \frac{1}{1 + e^{- (β_{0} + β_{i} X_{j})}}

其中，z＝β₀+β_i，P为采取某选择的概率，为自变量。

当z→+∞时，P→1；

当z→-∞时，P→0；

当z＝0时，P＝0.5。

把左端整体看作一个变量，于是便有线性回归模型：

\log (\frac{P}{1 - P}) = β_{0} + β_{i} X_{i} + U

Logistic回归模型作为一种概率模型，可用于预测某事件发生的概率，主要解决二值变量的预测或分类问题。

逻辑回归建模参数设置：采用多项式的逻辑回归、过程采用进入法、模型效应为主效应。

第7步：关系模型和数据业务整合分析模型的构建

构建关系模型的具体步骤如下：

(1)选取相关指标，即把关联模型中产生的数据业务关联指数和类型偏好模型产生的类型偏好指数，以用户的编号进行合并。

(2)模型构建：首先，进行数据标准化处理，因为关联指数的分布是在0到1之间，而类型偏好指数是评分的形式，为消除无量纲的影响，需要对数据进行标准化处理；其次，对各项业务进行因子分析，得出两个模型的权重，通过权重计算新模型的推荐指数。

因子分析是根据其相关程度将多个实测变量转换成相互之间互不关联或关联性很低的综合指标的统计方法。它主要是解释在总变动中各因素的影响程度和计算在总变动中各因素变动所占的份额(即贡献率)。具体运算步骤如下所示：

第一，确定因子分析的前提条件，即原有变量之间具有较强的相关性，如果原有变量之间不存在较强的相关关系，则无法找出其中的公共因子，然后进行检验。

相关系数矩阵的计算，相关系数的计算方法如下：

γ_{AB} = \frac{Σ (A - \overset{&OverBar;}{A}) (B - \overset{&OverBar;}{B})}{(n - 1) σ_{A} σ_{B}}

计算相关系数矩阵之后，观察相关系数矩阵中的大部分相关系数值是否小于0.3，如小于，则各变量之间大多为弱相关，这就不适合做因子分析。如果一个变量与其他变量间相关度很低，则在下一个分析步骤中可以考虑剔除该变量。

进行统计检验，在因子分析过程中采用巴特利球形检验(Barlett Test ofSphericity)和KMO(Kaiser-Meyer-Olkin)检验来判断变量是否适合做因子分析。

第二，提取因子。本模型主要运用最普遍的“主成分分析法”，即根据特征值来选取公因子。特征值是指每个变量在某一公共因子上的因子负荷的平方总和，又叫特征根。在因子分析的公共因子提取中，特征值最大的公共因子会最先被提取，最后提取特征值最小的公共因子。因子分析的目的就是使因子维度简单化，希望以最小的公共因子能对总变异量作最大的解释，因而提取的因素愈少愈好，而提取因子之累积解释的变异量则愈大愈好。

(3)对数据业务关系模型进行检验。把次月新增用户与模型预测的目标客户进行比对，得到模型的查全率、提升度等指标。

数据业务整合分析模型的构建也是通过因子分析将关系模型的结果与特征匹配模型的结果进行整合。

第8步：模型的评估和优化

本模型用2010年8月数据进行建模，以建模用户在2010年9月的数据进行效果评估，主要采用查全率和提升度两大评估指标。各指标定义如下：

候选用户：2010年8月某项指定业务的未订购用户

筛选用户：根据模型预测为某项指定业务的推荐目标用户

新增活跃用户：候选用户在2010年9月为某项指定业务的活跃用户

查全率：筛选用户中的新增活跃用户数/候选用户中的活跃用户数

提升度：查全率/筛选用户比例

通过上述指标评估，模型总体效果优秀，整体筛选了23.5％的候选用户(按人次计算)，查全率为60.0％，提升倍数为2.6倍。分业务对比各个模型的查全率与提升度，发现整合推荐模型在每个业务上面的表现均达到或接近最优水平，可以选择统一模型作为各业务的输出模型。同时，整合推荐模型还具备下述优点：

1)模型体系科学：统一模型综合考虑了业务之间的逻辑关系和数据关联关系，同时深入挖掘了新业务与客户属性、通话和消费行为之间的关系，体系科学完整。

2)预测效果良好：统一模型整体查全率为60％，提升度达到2.6倍，预测效果明显。

3)应用性强：使用统一模型，在相同的指标体系下，可以方便地进行业务指数之间的排序，便于后续的用户新业务包匹配和推荐工作的开展。

由上述实施例可见，本发明基于整合关联模型、类型偏好模型和特征匹配模型的整合推荐模型构建机制，综合考虑了业务之间的逻辑关系和数据关联关系，同时深入挖掘了新业务与用户属性、通话和消费行为之间的关系，体系科学完整。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种对数据业务进行分析的方法，其特征在于：

构造特征匹配模型；

利用关联模型和类型偏好模型构建数据业务关系模型；

利用数据业务关系模型和特征匹配模型构建数据业务整合分析模型；

2.根据权利要求1所述的方法，其特征在于，构建关联模型包括：

确定数据业务的订购和活跃的口径；

准备建模数据；

通过关联模型计算各数据业务之间的关联值。

3.根据权利要求1所述的方法，其特征在于，构建类型偏好模型包括：

通过识别数据业务之间的关联度，对数据业务进行再分类；

对各数据业务进行评分；

进行评分汇总，得到用户对各个数据业务的偏好得分。

4.根据权利要求3所述的方法，其特征在于，对各数据业务进行评分包括：

5.根据权利要求3所述的方法，其特征在于，进行评分汇总包括：

对同一大类下的数据业务按照得分由高到低进行排序；

采取逐级衰减的方式评分；

6.根据权利要求1所述的方法，其特征在于，构建特征匹配模型包括：

构建数据宽表；

采用相关性分析和主成分分析方法，进行变量筛选；

根据所述数据宽表和变量筛选的结果构建特征匹配模型。

7.根据权利要求6所述的方法，其特征在于，所述进行变量筛选包括：

8.根据权利要求1所述的方法，其特征在于，构建数据业务关系模型包括：

对数据业务关联指数和类型偏好指数进行标准化处理；

9.根据权利要求1所述的方法，其特征在于，构建数据业务整合分析模型包括：

利用数据业务关系模型和特征匹配模型，通过因子分析方法构建数据业务整合分析模型。

10.根据权利要求1至9任一项所述的方法，其特征在于，在构建模型之前，进一步包括：