CN103164474A - 一种对数据业务进行分析的方法 - Google Patents
一种对数据业务进行分析的方法 Download PDFInfo
- Publication number
- CN103164474A CN103164474A CN2011104242449A CN201110424244A CN103164474A CN 103164474 A CN103164474 A CN 103164474A CN 2011104242449 A CN2011104242449 A CN 2011104242449A CN 201110424244 A CN201110424244 A CN 201110424244A CN 103164474 A CN103164474 A CN 103164474A
- Authority
- CN
- China
- Prior art keywords
- model
- data service
- data
- business
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种对数据业务进行分析的方法,基于用户对数据业务的使用情况,构建关联模型和类型偏好模型,并构造特征匹配模型;然后,利用关联模型和类型偏好模型构建数据业务关系模型,并利用数据业务关系模型和特征匹配模型构建数据业务整合分析模型,最后,通过数据业务整合分析模型对数据业务进行分析,将分析结果用于数据业务推荐。应用本发明能够提高分析结果的准确性,将分析结果用于数据业务推荐时,可以提高数据业务推荐的精确度。
Description
技术领域
本发明涉及数据业务支撑技术领域,特别涉及一种对数据业务进行分析的方法。
背景技术
当前,数据业务推荐主要基于产品出发,通过数据挖掘技术,找寻潜在的目标用户群。此种方式出发,各个模型间是独立的、割裂的,同时因每种产品单独推荐,耗费推荐资源较多,且对用户的打扰较频繁,使得用户感知较弱。
现有主流的用户偏好挖掘方法主要有关联模型、类型偏好模型和特征匹配模型等,而单一来看,各个模型都有适用性方面的局限性。
关联模型对于成熟型业务有较好的预测效果,适用于已经发展成熟,客户群已经体现明显特征的业务之间关联关系的预测,不适用于导入期业务。因为导入期业务用户量较少,与其他业务的关联特征不明显,并且用户可能并非为真正需要或者感兴趣的用户。
类型偏好模型挖掘了业务之间的逻辑关系,实现了定量和定性分析的结合,对于导入期业务的预测效果好于关联模型,但对于成熟型业务,类型偏好模型的预测结果不够精确,模型预测的提升度指标不如关联模型。
特征匹配模型深入挖掘了业务与客户属性、消费和通话行为、新业务行为之间的关系,对于一部分业务可以得到高精度的预测,但对于某些业务的查潜在客户覆盖不足。
发明内容
本发明提供了一种对数据业务进行分析方法,能够提高分析结果的准确性,将分析结果用于数据业务推荐时,可以提高数据业务推荐的精确度。
本发明提供的一种对数据业务进行分析的方法,包括:
基于用户对数据业务的使用情况,构建关联模型和类型偏好模型;
构造特征匹配模型;
利用关联模型和类型偏好模型构建数据业务关系模型;
利用数据业务关系模型与特征匹配模型构建数据业务整合分析模型;
通过数据业务整合分析模型对数据业务进行分析,将分析结果用于数据业务推荐。
较佳地,构建关联模型可以包括:
确定数据业务的订购和活跃的口径;
准备建模数据;
通过关联模型计算各数据业务之间的关联值。
较佳地,构建类型偏好模型可以包括:
通过分析数据业务的内容和目标用户,对数据业务进行分类;
通过识别数据业务之间的关联度,对数据业务进行再分类;
对各数据业务进行评分;
进行评分汇总,得到用户对各个数据业务的偏好得分。
较佳地,对各数据业务进行评分可以包括:
根据业务渗透率不同,制定业务评分规则;根据用户对数据业务使用程度的分布对数据业务划分等级,并评定相应的分数;对同一区间的分数进行归一化处理。
较佳地,进行评分汇总可以包括:
对同一大类下的数据业务按照得分由高到低进行排序;
采取逐级衰减的方式评分;
对同一类型各个数据业务的评分进行汇总,得到用户类型偏好积分。
较佳地,构建特征匹配模型可以包括:
构建数据宽表;
采用相关性分析和主成分分析方法,进行变量筛选;
根据所述数据宽表和变量筛选的结果构建特征匹配模型。
较佳地,所述进行变量筛选可以包括:
字段过滤、相关性分析和建模筛选,其中,相关性分析的方式包括:卡方、方差、相关信息和自相关分析。
较佳地,构建数据业务关系模型可以包括:
选取相关指标,将关联模型所产生的数据业务关联指数和类型偏好模型所产生的类型偏好指数以用户的编号进行合并;
对数据业务关联指数和类型偏好指数进行标准化处理;
对各数据业务进行因子分析,得到关联模型和类型偏好模型的权重,并通过权重计算数据业务关系模型的推荐指数。
较佳地,构建数据业务整合分析模型可以包括:利用数据业务关系模型和特征匹配模型,通过因子分析方法构建数据业务整合分析模型。
在构建模型之前,可以进一步包括:
进行真实用户分析,对跳蚤用户、养卡套利用户和业务非真实用户进行识别和剔除。
由上述技术方案可见,本发明基于关联模型、类型偏好模型和特征匹配模型的整合推荐模型构建机制,综合考虑了业务之间的逻辑关系和数据关联关系,同时深入挖掘了新业务与用户属性、通话和消费行为之间的关系,体系科学完整。
与现有单一模型的应用相比,本发明避免了单一模型应用的局限性,分业务对比单一模型与整合模型的查全率与提升度,发现整合推荐模型在每个业务上面的表现均达到或接近最优水平,预测效果明显:整体查全率为60%,提升度达到2.6倍。
并且使用整合推荐模型,在相同的指标体系下,可以方便地进行业务指数之间的排序,便于后续的用户新业务包匹配和推荐工作的开展;不仅可以实现单一业务推荐用户群的筛选,还可用于多个业务推荐组合包的用户群筛选。提升用户感知的同时,还节约了推荐资源。
此外,通过建立跳蚤用户的定义与识别机制;对养卡套利用户的动机进行分析,归纳出养卡套利用户的表现特征,进而提炼出用户识别规则;同时通过对业务使用规则的梳理,提炼出29项业务非真实用户的识别规则,最大程度上确保了建模数据的准确性、可用性和完整性。
附图说明
图1为本发明数据业务整合分析模型的体系结构示意图;
图2为本发明整合类型偏好模型、关联模型和特征匹配模型的建模流程示意图;
图3为本发明进行建模准备的流程示意图;
图4为本发明一示例中非新增和新增手机邮箱用户在不同置信度下的分布对比图;
图5为本发明一示例中的阈值曲线示意图;
图6为本发明业务分类示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。
基于单一模型应用方面的局限性,本发明开创性地提出:整合关联模型和类型偏好模型,采用主成分分析算法构建数据业务关系模型,再将数据业务关系模型与特征匹配模型进行整合,构建得到数据业务整合分析模型,以对单一模型的优劣势进行互补,同时实现数据业务的组合分析。将分析结果用于数据业务推荐时,可以实现数据业务的组合推荐,并提高数据业务推荐的精确度。图1为本发明数据业务整合分析模型的体系结构示意图。
本发明整合类型偏好模型、关联模型和特征匹配模型的建模流程如图2所示。
第1步:进行业务分析和数据准备。
梳理需要推荐的新业务、分析各业务的内容、订购条件等,确定建模的基本目标和算法选择;同时进行数据提取、数据清洗、数据审核、数据集成等。
第2步:进行真实用户分析。
本步骤主要对跳蚤用户、养卡套利用户和业务非真实用户进行识别和剔除,以确保建模数据的准确性、可用性和完整性。具体包括:
1)跳蚤用户的识别与剔除:
跳蚤用户定义:1年内重入网2次或2次以上的用户。
跳蚤用户识别方法:根据用户交往圈、通话行为模式、终端IMEI等进行跳蚤用户的识别与剔除。例如:
基于交往模式,可以根据用户通话对端记录,提取用户的交往圈;
基于活动模式,可以提取用户通话行为模式,包括:通话时段、通话时长、单次平均通话时长等;
基于终端模式,可以提取用户通话终端的IMEI,作为判断用户的重要参考指标;
基于属性模式,可以参考用户入网的身份信息、性别、年龄、地区信息等用户属性信息。
2)养卡套利用户的识别与剔除:
A.养卡套利动机分析:
i.短期套利:获取业务发展酬金。如参加省公司及地州公司的专项业务竞赛或年终评比,为了获得业务发展酬金而养卡;为了获取新业务推广酬金,如:阶段性的数据业务推广活动,不仅酬金激励力度大,同时还会给予业绩优秀的渠道商特别奖励。
ii.被动养卡:为了完成既定或阶段性的销售目标,否则会蒙受基本酬金等短期利益损失,或降级等长期利益损失;处理包销卡,尽量减少损失。
iii.长期套利:提高渠道评级,获取更高级别的星级评定及相应补贴。例如:贵州移动一些优惠和补贴政策只针对高级别的渠道合作商,渠道为了提升级别,有可能采取养卡行动。
B.养卡套利行为特征归纳:
i.产品:渠道养卡一般选择无月租或最低月租的产品,以降低养卡的成本,研究发现神州行新轻松卡产品是渠道养卡的主要产品;
ii.ARPU(每用户平均收入):渠道养卡号码消费额一般较低,研究发现贵州养卡号码月均消费一般低于5元;
iii.主叫时长:渠道养卡号码主叫时长非常低,研究发现贵州有70%以上无通话行为,有通话行为用户主叫时长主要集中在3分钟以内;
iv.用户状态:研究发现贵州渠道养卡新增号码停机流失高峰出现在入网后的第1-3个月;
v.消费情况:同一个渠道发展的养卡号码中,出现多个号码消费行为一致的情况,如多个号码入网当月和次月消费完全一致;
vi.激活IMEI:养卡号码在激活时,一般用同一个手机激活,因此养卡号码中大量号码的激活IMEI一致。
C.养卡套利用户识别规则:
i.产品种类:无月租的神州行新轻松卡;
ii.在网时长:在网时长不超过3个月;
iii.ARPU:入网当月消费低于5元,入网次月消费低于5元;
iv.MOU(每月每户通话分钟数):入网当月MOU低于3分钟,入网次月MOU低于3分钟。
3)业务非真实用户的识别与剔除:
分析各种数据业务的订购和使用方式,确定真实业务用户识别规则。本发明共梳理了29种主要数据业务的真实用户的识别规则,如表1所示:
表1
第3步:进行建模准备。
进行数据收集和提取之后,重要的工作是检查数据的可用性和正确性,进行数据的缺失处理、极值处理和错误处理,构建数据挖掘宽表,进行建模准备的流程如图3所示。
第4步:构建数据业务关联模型。
在全业务运营的背景下,需要不断开发出新的数据业务产品,并从客户视角构建业务推荐模型。
以某省份其中14种数据业务为例,分别是短信、彩信、GPRS流量套餐、彩铃、飞信、号簿管家、来电提醒、手机报、手机视频、手机邮箱、手机游戏、手机证券、天气预报、无线音乐俱乐部。
首先,确定这14项业务的订购和活跃的口径,如表2所示:
业务名称 | 数据库中字段名称 | 活跃业务口径定义 |
彩铃功能 | clfunction_activemark_11 | 订购剔除捆绑 |
手机报 | phonepaper_activemark_11 | 订购且成功接收 |
来电提醒 | callremind_activemark_11 | 订购剔除捆绑 |
邮箱 | mail_activemark_11 | 活跃 |
飞信 | feix_activemark_11 | 活跃 |
手机视频 | phonetv_activemark_11 | 使用次数>0 |
天气预报 | weather_activemark_11 | 订购 |
号簿管家 | pim_activemark_11 | 订购 |
无线音乐 | musicclub_activemark_11 | 订购且下载过彩铃或全曲 |
证券 | security_activemark_11 | 活跃 |
手机游戏 | game_activemark_11 | 使用次数>0 |
表2
然后,构建建模数据准备清单表,如表3所示:
表3
最后,通过关联模型计算业务之间的关联值。
关联规则是交易数据库中不同商品之间的联系,通过这些规则找出客户的购买行为模式。挖掘关联规则就是发现存在于大数据集中的关联性或相关性,一般的关联规则分析都是基于“支持度-置信度”构架的。
支持度定义为事物集中包含X和Y的事务数与所有事务数之比;置信度定义为其包含X和Y的事务数与包含X的事务数之比。该模型中,支持度指订购前项业务的用户在所有用户中的占比,置信度指订购了前项业务的情况下,订购后项业务的概率。
该模型主要使用Apriori算法,Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
具体步骤如下:
1)设定模型的最小支持度S和最小置信度C。
2)Apriori算法使用候选项集。首先产生出候选的项的集合,即候选项集,若候选项集的支持度大于或等于最小支持度,则该候选项集为频繁项集。
3)在执行Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1-项集,得出各项的支持度,再使用频繁1-项集集合来产生候选2-项集集合,因为先验原理保证所有非频繁的1-项集的超集都是非频繁的。
4)再扫描数据库,得出候选2-项集集合,再找出频繁2-项集,并利用这些频繁2-项集集合来产生候选3-项集。
5)重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止。
6)计算所有关联规则的置信度,置信度大于最小置信度C的关联规则为强关联规则。
7)对模型进行评估。较佳地,可以采用次月数据进行检验的方法,即用来建模的用户,经过关联算法的分析后,根据产生的规则集,给用户推荐相关联的数据业务,然后与次月新增订购数据业务的用户进行对比,以检验模型的推荐的准确性。并计算出查全率以及提升度,检验模型的效果。
下面通过一个具体的例子进行举例说明。
假设将支持度设置为0.55%,置信度设置为1%。
模型评估过程将涉及候选用户、筛选用户、新增活跃用户、查全率以及提升度的概念,下面将对它们进行定义:
◆候选用户是指2009年12月某项数据业务的未定购用户;
◆筛选用户是根据模型预测为使用某项数据业务的潜在用户;
◆新增活跃用户是指候选用户在2010年1月新增为某项业务的活跃用户;
◆筛选用户比例是筛选用户/候选用户;
◆查全率为筛选用户中新增活跃用户数/候选用户中的活跃用户数;
◆提升度等于查全率/筛选用户比例。
关联算法模型给用户推荐的指数,只有在超过一定的界限后,推荐给用户成功的几率才会变大,那么1月新增的用户才算做推荐成功的,那么如何找到这个临界值,在这里把这个临界值定义为要找的阈值。以手机邮箱为例,新增占比=(新增手机邮箱用户在不同置信度下的用户数/新增手机邮箱总数),非新增占比=(非新增手机邮箱用户在不同置信度下的用户数/非新增手机邮箱总数)。从图4中可以看到,当大于某个置信度的值后,新增手机邮箱用户在此后的区间中占比都高于非新增的手机邮箱用户在此区间的占比。
将新增占比减去非新增占比,得出图5所示阈值曲线。从图5可以看出曲线在置信度为0.05和0.06之间与坐标轴相交,则该点是由负转正的转折点,即在该点之后同一置信度下新增占比的比例超过非新增占比的比例,因此,可以选取0.06作为手机邮箱的阈值。
采用同样的方法可以得到其他业务的阈值,根据阈值确定候选用户数、筛选用户数,并根据1月份实际的新增情况,算出新增用户数,通过筛选用户数和新增用户数的交集,可以计算出预测准确数,从而筛选用户比例、查全率和提升度也可得出。
第5步:构建类型偏好模型。
类型偏好模型根据用户对于各业务的使用和订购行为,采用分层分级评分的方式,生成用户的业务类型偏好指数,作为业务推送目标用户群选择的依据。通过业务划分、业务评分和评分汇总三大步骤进行建模,各步骤如下:
1)进行业务划分:分析业务内容和业务目标人群,对数据业务进行分类。
A.参考集团公司业务分类惯例,对业务进行分类,共计八类,具体分类如图6所示。
B.通过模型识别业务关联度,进行业务再分类调整,将初始划分的八类业务整合为六大类:音乐类、商务类、信息沟通类、生活服务类、资讯类和娱乐类,各个大类的具体分类如下:
i.音乐类:全曲下载、彩铃订购、彩铃下载、无线音乐俱乐部会员
ii.商务类:139邮箱、Wlan、手机证券、GPRS流量、12580拨打次数、手机地图、114拨打次数、来电提醒、手机报、号簿管家、12580生活播报、移动秘书
iii.信息沟通类:点对点短信、点对点彩信、飞信、梦网短信、梦网彩信、GPRS流量、139邮箱、WLAN
iv.生活服务类:12580拨打次数、手机医疗、12580生活播报、GPRS流量、114拨打次数、139邮箱、天气预报、手机地图、WLAN、手机报
v.娱乐类:手机电视、手机视频、手机游戏、手机阅读、梦网短信、梦网彩信、GPRS流量、WLAN
vi.资讯类:手机报、GPRS流量、12580生活播报、天气预报、12580生活信息查询、114拨打次数、12580拨打次数、WLAN
说明:对于使用业务,根据使用行为评分;对于订购业务,根据活跃行为(订购剔除捆绑)进行评分。
2)进行业务评分:根据用户某类型业务使用业务种类数和使用程度计算用户对该类型的偏好程度。
对业务使用程度进行等级划分:
i.根据业务渗透率不同,制定业务评分规则,如表4所示:
渗透率 | 起评分 |
<5% | 90 |
[5%,10%) | 85 |
[10%,20%) | 80 |
[20%,30%) | 75 |
[30%,40%) | 70 |
[40%,50%) | 60 |
[50%,60%) | 50 |
[60%,70%) | 40 |
[70%,80%) | 30 |
[80%,90%) | 20 |
[90%,100%) | 10 |
表4
表4中,对于活跃次数大于0的评分,先确定99分位值,将大于其的得分均作为100分。
ii.根据客户使用程度的分布划分等级,评定不同的分数,如以下各表所示:
彩铃订购得分 | 70 |
俱乐部普通会员得分 | 90 |
俱乐部高级会员得分 | 95 |
飞信活跃用户得分 | 90 |
邮箱活跃用户得分 | 90 |
手机证券活跃用户得分 | 90 |
号簿管家活跃用户得分 | 90 |
来电提醒活跃用户得分 | 60 |
手机电视使用次数打分 | 90 |
手机视频使用次数打分 | 90 |
手机阅读使用次数打分 | 90 |
12580生活播报订购得分 | 90 |
手机地图订购得分 | 90 |
天气预报订购得分 | 85 |
手机医疗订购得分 | 90 |
iii.对于同一区间的得分,进行归一化,公式如下:
((当前值-区间内最小值)/(区间内最大值-区间内最小值))*(区间得分最大值-区间得分最小值)+区间得分最小值
以全曲下载15次为例,下载15次的得分为:((15-1)/(16-1))*(95-90)+90,如表5所示:
表5
3)评分汇总:
A.对同一大类下的业务按照得分由高到低进行排序
B.采取逐级衰减的方式评分
C.同一类型各个业务评分汇总得到用户类型偏好积分
其中:
i表示数据业务类型序号,数据业务类型包括:音乐、信息沟通、商务、生活服务、资讯和娱乐;
j表示某业务类型下的各业务的序号,按照得分从高到低进行排序;
Hi表示类型偏好得分;
wj表示第j个业务的衰减系数;
h(i,j)表示第i个类型的第j项业务的偏好得分。
第6步:构建特征匹配模型
a)数据准备过程的数据宽表如表6所示:
字段 | 名称 |
brand_id2 | 品牌 |
bts_usertype_id | 城乡 |
SEX_ID | 性别 |
AGE_ID | 年龄 |
USER_ONLINE_ID | 在网时长 |
CUSTTYPE_ID | 客户类形 |
VIP_MARK | vip标识 |
VPMN_MARK | v网标识 |
music_club_mark | 无限音乐俱乐部标识 |
gprs_plan_id | gprs套餐代码 |
clfunction_activemark_11 | 彩铃功能11月活跃 |
cldownload_activemark_11 | 彩铃下载11月活跃 |
phonepaper_activemark_11 | 手机报11月活跃 |
callremind_activemark_11 | 来电提醒11月活跃 |
mail_activemark_11 | 邮箱11月活跃 |
feix_activemark_11 | 飞信11月活跃 |
weather_activemark_11 | 天气预报11月活跃 |
pim_activemark_11 | 号簿管家11月活跃 |
musicclub_activemark_11 | 无线音乐11月活跃 |
security_activemark_11 | 证券11月活跃 |
game_activemark_11 | 手机游戏11月活跃 |
sms_activemark_11 | 短信11月活跃 |
mms_activemark_11 | 彩信11月活跃 |
gprs_activemark_11 | GPRS11月活跃 |
montordersms_activemark_11 | 梦网短信11月活跃 |
montordermms_activemark_11 | 梦网短信11月活跃 |
wlan_activemark_11 | wlan11月活跃 |
call12580_activemark_11 | 使用1258011月活跃 |
call118114_activemark_11 | 11811411月活跃 |
mbassist_activemark_11 | 移动秘书11月活跃 |
xinxi12580_activemark_11 | 12580信息11月活跃 |
bobao12580_activemark_11 | 信息播报11月活跃 |
mobilemap_activemark_11 | 手机地图21月活跃 |
mobilehealth_activemark_11 | 手机医疗11月活跃 |
phonetv_activemark_11 | 手机视频11月活跃 |
mobileCMMB_activemark_11 | 手机电视11月活跃 |
mobileread_activemark_11 | 手机阅读11月活跃 |
ARPU | 消费 |
CALL_DURATION_M | 通话时长 |
incall_counts | 被叫次数 |
ffeecall_duration_m | 免费通话时长 |
bendi_incall_counts | 本地通话次数 |
changtu_incall_counts | 长途次数 |
manyou_call_counts | 漫游次数 |
gjmy_call_counts | 国际漫游次数 |
ip_incall_counts | ip次数 |
incall_12593_counts | 12593次数 |
sms_p2p_mo | 点对点短信次数 |
mms_p2p_mo | 点对点彩信次数 |
montorder_sms_counts | 梦网短信次数 |
montorder_mms_counts | 梦网彩信次数 |
song_download_counts | 彩铃下载次数 |
call12580_counts | 12580次数 |
call118114_counts | 118114次数 |
bsinquiry_counts | 商旅查询次数 |
infoinquiry_counts | 生活信息查询次数 |
wlan_call_duration | WLAN使用时长 |
cailing_download_counts | 彩铃下载次数 |
mobile_paper_counts | 手机报次数 |
gprs_flow | gprs使用量 |
mobile_CMMB_counts | 手机电视次数 |
mobile_TV_counts | 手机视频次数 |
mobile_game_counts | 手机游戏次数 |
mobile_read_counts | 手机阅读次数 |
newbs_fee | 新业务费 |
mbassist_call_duration | 移动秘书通话时长 |
表6
b)变量筛选
相关性分析和主成分分析,其中把变量相关性分析超过0.9的变量,根据业务经验剔出其中一个。示例如表7所示:
表7
c)模型建立
Logistic回归模型是一种非线性概率模型,又称逻辑模型(LogisticRegression),其基本形式为一种非线性函数——逻辑函数:
其中,z=β0+βi,P为采取某选择的概率,为自变量。
当z→+∞时,P→1;
当z→-∞时,P→0;
当z=0时,P=0.5。
把左端整体看作一个变量,于是便有线性回归模型:
Logistic回归模型作为一种概率模型,可用于预测某事件发生的概率,主要解决二值变量的预测或分类问题。
逻辑回归建模参数设置:采用多项式的逻辑回归、过程采用进入法、模型效应为主效应。
第7步:关系模型和数据业务整合分析模型的构建
构建关系模型的具体步骤如下:
(1)选取相关指标,即把关联模型中产生的数据业务关联指数和类型偏好模型产生的类型偏好指数,以用户的编号进行合并。
(2)模型构建:首先,进行数据标准化处理,因为关联指数的分布是在0到1之间,而类型偏好指数是评分的形式,为消除无量纲的影响,需要对数据进行标准化处理;其次,对各项业务进行因子分析,得出两个模型的权重,通过权重计算新模型的推荐指数。
因子分析是根据其相关程度将多个实测变量转换成相互之间互不关联或关联性很低的综合指标的统计方法。它主要是解释在总变动中各因素的影响程度和计算在总变动中各因素变动所占的份额(即贡献率)。具体运算步骤如下所示:
第一,确定因子分析的前提条件,即原有变量之间具有较强的相关性,如果原有变量之间不存在较强的相关关系,则无法找出其中的公共因子,然后进行检验。
相关系数矩阵的计算,相关系数的计算方法如下:
计算相关系数矩阵之后,观察相关系数矩阵中的大部分相关系数值是否小于0.3,如小于,则各变量之间大多为弱相关,这就不适合做因子分析。如果一个变量与其他变量间相关度很低,则在下一个分析步骤中可以考虑剔除该变量。
进行统计检验,在因子分析过程中采用巴特利球形检验(Barlett Test ofSphericity)和KMO(Kaiser-Meyer-Olkin)检验来判断变量是否适合做因子分析。
第二,提取因子。本模型主要运用最普遍的“主成分分析法”,即根据特征值来选取公因子。特征值是指每个变量在某一公共因子上的因子负荷的平方总和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子会最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子维度简单化,希望以最小的公共因子能对总变异量作最大的解释,因而提取的因素愈少愈好,而提取因子之累积解释的变异量则愈大愈好。
(3)对数据业务关系模型进行检验。把次月新增用户与模型预测的目标客户进行比对,得到模型的查全率、提升度等指标。
数据业务整合分析模型的构建也是通过因子分析将关系模型的结果与特征匹配模型的结果进行整合。
第8步:模型的评估和优化
本模型用2010年8月数据进行建模,以建模用户在2010年9月的数据进行效果评估,主要采用查全率和提升度两大评估指标。各指标定义如下:
候选用户:2010年8月某项指定业务的未订购用户
筛选用户:根据模型预测为某项指定业务的推荐目标用户
新增活跃用户:候选用户在2010年9月为某项指定业务的活跃用户
查全率:筛选用户中的新增活跃用户数/候选用户中的活跃用户数
提升度:查全率/筛选用户比例
通过上述指标评估,模型总体效果优秀,整体筛选了23.5%的候选用户(按人次计算),查全率为60.0%,提升倍数为2.6倍。分业务对比各个模型的查全率与提升度,发现整合推荐模型在每个业务上面的表现均达到或接近最优水平,可以选择统一模型作为各业务的输出模型。同时,整合推荐模型还具备下述优点:
1)模型体系科学:统一模型综合考虑了业务之间的逻辑关系和数据关联关系,同时深入挖掘了新业务与客户属性、通话和消费行为之间的关系,体系科学完整。
2)预测效果良好:统一模型整体查全率为60%,提升度达到2.6倍,预测效果明显。
3)应用性强:使用统一模型,在相同的指标体系下,可以方便地进行业务指数之间的排序,便于后续的用户新业务包匹配和推荐工作的开展。
由上述实施例可见,本发明基于整合关联模型、类型偏好模型和特征匹配模型的整合推荐模型构建机制,综合考虑了业务之间的逻辑关系和数据关联关系,同时深入挖掘了新业务与用户属性、通话和消费行为之间的关系,体系科学完整。
与现有单一模型的应用相比,本发明避免了单一模型应用的局限性,分业务对比单一模型与整合模型的查全率与提升度,发现整合推荐模型在每个业务上面的表现均达到或接近最优水平,预测效果明显:整体查全率为60%,提升度达到2.6倍。
并且使用整合推荐模型,在相同的指标体系下,可以方便地进行业务指数之间的排序,便于后续的用户新业务包匹配和推荐工作的开展;不仅可以实现单一业务推荐用户群的筛选,还可用于多个业务推荐组合包的用户群筛选。提升用户感知的同时,还节约了推荐资源。
此外,通过建立跳蚤用户的定义与识别机制;对养卡套利用户的动机进行分析,归纳出养卡套利用户的表现特征,进而提炼出用户识别规则;同时通过对业务使用规则的梳理,提炼出29项业务非真实用户的识别规则,最大程度上确保了建模数据的准确性、可用性和完整性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种对数据业务进行分析的方法,其特征在于:
基于用户对数据业务的使用情况,构建关联模型和类型偏好模型;
构造特征匹配模型;
利用关联模型和类型偏好模型构建数据业务关系模型;
利用数据业务关系模型和特征匹配模型构建数据业务整合分析模型;
通过数据业务整合分析模型对数据业务进行分析,将分析结果用于数据业务推荐。
2.根据权利要求1所述的方法,其特征在于,构建关联模型包括:
确定数据业务的订购和活跃的口径;
准备建模数据;
通过关联模型计算各数据业务之间的关联值。
3.根据权利要求1所述的方法,其特征在于,构建类型偏好模型包括:
通过分析数据业务的内容和目标用户,对数据业务进行分类;
通过识别数据业务之间的关联度,对数据业务进行再分类;
对各数据业务进行评分;
进行评分汇总,得到用户对各个数据业务的偏好得分。
4.根据权利要求3所述的方法,其特征在于,对各数据业务进行评分包括:
根据业务渗透率不同,制定业务评分规则;根据用户对数据业务使用程度的分布对数据业务划分等级,并评定相应的分数;对同一区间的分数进行归一化处理。
5.根据权利要求3所述的方法,其特征在于,进行评分汇总包括:
对同一大类下的数据业务按照得分由高到低进行排序;
采取逐级衰减的方式评分;
对同一类型各个数据业务的评分进行汇总,得到用户类型偏好积分。
6.根据权利要求1所述的方法,其特征在于,构建特征匹配模型包括:
构建数据宽表;
采用相关性分析和主成分分析方法,进行变量筛选;
根据所述数据宽表和变量筛选的结果构建特征匹配模型。
7.根据权利要求6所述的方法,其特征在于,所述进行变量筛选包括:
字段过滤、相关性分析和建模筛选,其中,相关性分析的方式包括:卡方、方差、相关信息和自相关分析。
8.根据权利要求1所述的方法,其特征在于,构建数据业务关系模型包括:
选取相关指标,将关联模型所产生的数据业务关联指数和类型偏好模型所产生的类型偏好指数以用户的编号进行合并;
对数据业务关联指数和类型偏好指数进行标准化处理;
对各数据业务进行因子分析,得到关联模型和类型偏好模型的权重,并通过权重计算数据业务关系模型的推荐指数。
9.根据权利要求1所述的方法,其特征在于,构建数据业务整合分析模型包括:
利用数据业务关系模型和特征匹配模型,通过因子分析方法构建数据业务整合分析模型。
10.根据权利要求1至9任一项所述的方法,其特征在于,在构建模型之前,进一步包括:
进行真实用户分析,对跳蚤用户、养卡套利用户和业务非真实用户进行识别和剔除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110424244.9A CN103164474B (zh) | 2011-12-15 | 2011-12-15 | 一种对数据业务进行分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110424244.9A CN103164474B (zh) | 2011-12-15 | 2011-12-15 | 一种对数据业务进行分析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103164474A true CN103164474A (zh) | 2013-06-19 |
CN103164474B CN103164474B (zh) | 2016-03-30 |
Family
ID=48587568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110424244.9A Active CN103164474B (zh) | 2011-12-15 | 2011-12-15 | 一种对数据业务进行分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103164474B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104423945A (zh) * | 2013-08-30 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105208534A (zh) * | 2014-06-25 | 2015-12-30 | 腾讯科技(深圳)有限公司 | 事件通知方法及系统 |
CN105373940A (zh) * | 2015-11-12 | 2016-03-02 | 江南大学 | 智能商场信息系统 |
CN105657680A (zh) * | 2016-03-30 | 2016-06-08 | 中国联合网络通信集团有限公司 | 周期性流量提醒短信发送过程优化方法和系统 |
CN106372133A (zh) * | 2016-08-19 | 2017-02-01 | 苏州七彩部落网络科技有限公司 | 一种基于大数据的用户行为分析处理方法及系统 |
CN106407210A (zh) * | 2015-07-29 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 一种业务对象的展示方法和装置 |
CN106937291A (zh) * | 2017-04-25 | 2017-07-07 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
CN107809762A (zh) * | 2017-11-01 | 2018-03-16 | 南京欣网互联网络科技有限公司 | 利用大数据与设备指纹的养卡识别的安全风险控制方法 |
CN107820252A (zh) * | 2017-11-15 | 2018-03-20 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
CN107871211A (zh) * | 2017-11-06 | 2018-04-03 | 网易乐得科技有限公司 | 用户成长曲线的生成方法、介质、装置和计算设备 |
CN107909376A (zh) * | 2017-12-05 | 2018-04-13 | 国网山东省电力公司济南供电公司 | 一种电力系统用户满意度反馈系统 |
CN109376180A (zh) * | 2018-09-19 | 2019-02-22 | 蜜小蜂智慧(北京)科技有限公司 | 一种构建变量的方法及装置 |
CN109474923A (zh) * | 2018-11-23 | 2019-03-15 | 中国联合网络通信集团有限公司 | 对象识别方法及装置、存储介质 |
CN109840795A (zh) * | 2017-11-29 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 信息生成方法和装置 |
CN109962795A (zh) * | 2017-12-22 | 2019-07-02 | 中国移动通信集团广东有限公司 | 一种基于多维组合变量的4g用户流失预警方法和系统 |
CN110209746A (zh) * | 2019-05-31 | 2019-09-06 | 北京三快在线科技有限公司 | 一种数据仓库的数据处理方法及装置 |
CN110223167A (zh) * | 2019-06-19 | 2019-09-10 | 中国工商银行股份有限公司 | 生产交易协同监控方法以及生产交易关联监控方法 |
CN110390526A (zh) * | 2018-04-18 | 2019-10-29 | 苏宁易购集团股份有限公司 | 一种网络交易分析方法及系统 |
CN110990698A (zh) * | 2019-11-29 | 2020-04-10 | 珠海大横琴科技发展有限公司 | 一种推荐模型构建方法和装置 |
CN111144430A (zh) * | 2018-11-05 | 2020-05-12 | 中国移动通信集团广东有限公司 | 基于遗传算法的养卡号码识别方法及装置 |
TWI716057B (zh) * | 2018-10-25 | 2021-01-11 | 開曼群島商創新先進技術有限公司 | 服務推薦方法、裝置及設備 |
CN109033352B (zh) * | 2018-07-25 | 2021-02-02 | 中国联合网络通信集团有限公司 | 一种增值业务推荐方法及装置 |
CN113132991A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团贵州有限公司 | 一种养卡识别方法、系统及装置 |
CN113703923A (zh) * | 2021-08-31 | 2021-11-26 | 深信服科技股份有限公司 | 一种业务问题的识别方法、装置、设备和介质 |
CN113761080A (zh) * | 2021-04-01 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 社区划分方法、装置、设备及存储介质 |
CN114268939A (zh) * | 2021-11-12 | 2022-04-01 | 重庆市通信产业服务有限公司中冉信息分公司 | 一种移动通信中异常用户识别的方法及智能设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597889A (zh) * | 2019-10-08 | 2019-12-20 | 四川长虹电器股份有限公司 | 一种基于改进的Apriori算法的机床故障预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110115A (zh) * | 2006-07-20 | 2008-01-23 | 阿里巴巴公司 | 一种在网络中处理商品信息的方法及系统 |
CN101894114A (zh) * | 2009-05-18 | 2010-11-24 | 骅讯电子企业股份有限公司 | 在线信息个性化方法与系统 |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN102075851A (zh) * | 2009-11-20 | 2011-05-25 | 北京邮电大学 | 一种移动网络中用户偏好的获取方法及系统 |
CN102163205A (zh) * | 2010-02-21 | 2011-08-24 | 施章祖 | 一种类似客户群体的自动挖掘系统 |
CN102254265A (zh) * | 2010-05-18 | 2011-11-23 | 北京首家通信技术有限公司 | 一种富媒体互联网广告内容匹配、效果评估方法 |
CN102279894A (zh) * | 2011-09-19 | 2011-12-14 | 嘉兴亿言堂信息科技有限公司 | 基于语义的查找、集成和提供评论信息的方法及搜索系统 |
-
2011
- 2011-12-15 CN CN201110424244.9A patent/CN103164474B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110115A (zh) * | 2006-07-20 | 2008-01-23 | 阿里巴巴公司 | 一种在网络中处理商品信息的方法及系统 |
CN101894114A (zh) * | 2009-05-18 | 2010-11-24 | 骅讯电子企业股份有限公司 | 在线信息个性化方法与系统 |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN102075851A (zh) * | 2009-11-20 | 2011-05-25 | 北京邮电大学 | 一种移动网络中用户偏好的获取方法及系统 |
CN102163205A (zh) * | 2010-02-21 | 2011-08-24 | 施章祖 | 一种类似客户群体的自动挖掘系统 |
CN102254265A (zh) * | 2010-05-18 | 2011-11-23 | 北京首家通信技术有限公司 | 一种富媒体互联网广告内容匹配、效果评估方法 |
CN102279894A (zh) * | 2011-09-19 | 2011-12-14 | 嘉兴亿言堂信息科技有限公司 | 基于语义的查找、集成和提供评论信息的方法及搜索系统 |
Non-Patent Citations (2)
Title |
---|
王平: "《基于用户偏好挖掘和主题搜索的情报推荐系统》", 《CNKI中国优秀硕士学位论文全文数据库》 * |
谢意等: "《基于浏览偏好挖掘的实时商品推荐方法》", 《计算机应用》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104423945B (zh) * | 2013-08-30 | 2018-10-12 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104423945A (zh) * | 2013-08-30 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105208534A (zh) * | 2014-06-25 | 2015-12-30 | 腾讯科技(深圳)有限公司 | 事件通知方法及系统 |
CN106407210A (zh) * | 2015-07-29 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 一种业务对象的展示方法和装置 |
CN106407210B (zh) * | 2015-07-29 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 一种业务对象的展示方法和装置 |
CN105373940A (zh) * | 2015-11-12 | 2016-03-02 | 江南大学 | 智能商场信息系统 |
CN105657680A (zh) * | 2016-03-30 | 2016-06-08 | 中国联合网络通信集团有限公司 | 周期性流量提醒短信发送过程优化方法和系统 |
CN106372133A (zh) * | 2016-08-19 | 2017-02-01 | 苏州七彩部落网络科技有限公司 | 一种基于大数据的用户行为分析处理方法及系统 |
CN106937291A (zh) * | 2017-04-25 | 2017-07-07 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
CN107809762A (zh) * | 2017-11-01 | 2018-03-16 | 南京欣网互联网络科技有限公司 | 利用大数据与设备指纹的养卡识别的安全风险控制方法 |
CN107871211A (zh) * | 2017-11-06 | 2018-04-03 | 网易乐得科技有限公司 | 用户成长曲线的生成方法、介质、装置和计算设备 |
CN107820252A (zh) * | 2017-11-15 | 2018-03-20 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
CN107820252B (zh) * | 2017-11-15 | 2019-06-18 | 中国联合网络通信集团有限公司 | 养卡识别方法及系统 |
CN109840795A (zh) * | 2017-11-29 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 信息生成方法和装置 |
CN107909376A (zh) * | 2017-12-05 | 2018-04-13 | 国网山东省电力公司济南供电公司 | 一种电力系统用户满意度反馈系统 |
CN109962795A (zh) * | 2017-12-22 | 2019-07-02 | 中国移动通信集团广东有限公司 | 一种基于多维组合变量的4g用户流失预警方法和系统 |
CN110390526A (zh) * | 2018-04-18 | 2019-10-29 | 苏宁易购集团股份有限公司 | 一种网络交易分析方法及系统 |
CN109033352B (zh) * | 2018-07-25 | 2021-02-02 | 中国联合网络通信集团有限公司 | 一种增值业务推荐方法及装置 |
CN109376180A (zh) * | 2018-09-19 | 2019-02-22 | 蜜小蜂智慧(北京)科技有限公司 | 一种构建变量的方法及装置 |
TWI716057B (zh) * | 2018-10-25 | 2021-01-11 | 開曼群島商創新先進技術有限公司 | 服務推薦方法、裝置及設備 |
CN111144430B (zh) * | 2018-11-05 | 2023-08-01 | 中国移动通信集团广东有限公司 | 基于遗传算法的养卡号码识别方法及装置 |
CN111144430A (zh) * | 2018-11-05 | 2020-05-12 | 中国移动通信集团广东有限公司 | 基于遗传算法的养卡号码识别方法及装置 |
CN109474923A (zh) * | 2018-11-23 | 2019-03-15 | 中国联合网络通信集团有限公司 | 对象识别方法及装置、存储介质 |
CN109474923B (zh) * | 2018-11-23 | 2022-02-01 | 中国联合网络通信集团有限公司 | 对象识别方法及装置、存储介质 |
CN110209746B (zh) * | 2019-05-31 | 2020-10-02 | 北京三快在线科技有限公司 | 一种数据仓库的数据处理方法及装置 |
CN110209746A (zh) * | 2019-05-31 | 2019-09-06 | 北京三快在线科技有限公司 | 一种数据仓库的数据处理方法及装置 |
CN110223167A (zh) * | 2019-06-19 | 2019-09-10 | 中国工商银行股份有限公司 | 生产交易协同监控方法以及生产交易关联监控方法 |
CN110990698A (zh) * | 2019-11-29 | 2020-04-10 | 珠海大横琴科技发展有限公司 | 一种推荐模型构建方法和装置 |
CN113132991A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团贵州有限公司 | 一种养卡识别方法、系统及装置 |
CN113132991B (zh) * | 2019-12-31 | 2023-04-07 | 中国移动通信集团贵州有限公司 | 一种养卡识别方法、系统及装置 |
CN113761080A (zh) * | 2021-04-01 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 社区划分方法、装置、设备及存储介质 |
CN113703923A (zh) * | 2021-08-31 | 2021-11-26 | 深信服科技股份有限公司 | 一种业务问题的识别方法、装置、设备和介质 |
CN113703923B (zh) * | 2021-08-31 | 2024-05-28 | 深信服科技股份有限公司 | 一种业务问题的识别方法、装置、设备和介质 |
CN114268939A (zh) * | 2021-11-12 | 2022-04-01 | 重庆市通信产业服务有限公司中冉信息分公司 | 一种移动通信中异常用户识别的方法及智能设备 |
CN114268939B (zh) * | 2021-11-12 | 2024-03-08 | 重庆市中冉数字科技有限公司 | 一种移动通信中异常用户识别的方法及智能设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103164474B (zh) | 2016-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103164474B (zh) | 一种对数据业务进行分析的方法 | |
Grasmuck et al. | Between two islands: Dominican international migration | |
Schram | Voter behavior in economics perspective | |
CN108596678A (zh) | 一种航空公司旅客价值计算方法 | |
CN108200082A (zh) | Ota平台的用于识别用户恶意刷单的方法及系统 | |
CN108829839A (zh) | 样本可信度的验证方法、装置、存储介质及处理器 | |
CN107808346A (zh) | 一种潜在目标对象的评估方法及评估装置 | |
Tong et al. | The research of customer loyalty improvement in telecom industry based on NPS data mining | |
CN106777946A (zh) | 基于层级模型的个性化健康服务推荐方法 | |
Åström et al. | Blogging in the shadow of parties: Exploring ideological differences in online campaigning | |
Flinn | Interpreting minimum wage effects on wage distributions: A cautionary tale | |
Dar | Parachuters vs. climbers: Economic consequences of barriers to political entry in a democracy | |
KC et al. | Cost-benefit analysis of a community forest in Nepal | |
Heath | Communal realignment and support for the BJP, 2009–2019 | |
CN101408966A (zh) | 一种通过网络进行品牌评价或问卷调查的方法及系统 | |
Frey et al. | Public choice and happiness | |
US20130244744A1 (en) | Systematic control and processing to monitor and manage contestant entry dispersion of single and multiple session internet contests over the estimations and predictions of future events | |
Anderson et al. | Does survey mode matter? Comparing in-person and phone agricultural surveys in India | |
CN117217634A (zh) | 一种基于复杂网络的企业合作社区发现方法 | |
Sanchis Palacio et al. | Contingency factors on the success of services for social integration and job placement schemes | |
CN108133296B (zh) | 基于活动的社交网络下的一种结合环境数据的活动出席预测方法 | |
CN105405026A (zh) | 一种基于用户行为的定制机确定方法及装置 | |
CN115048472A (zh) | 一种通信行业家庭圈智能识别的方法、装置及设备 | |
Wowczko | A case study of evaluating job readiness with data mining tools and CRISP-DM methodology | |
Szyjewski et al. | Survey as a source of low quality research data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |