CN114004654A - 基于大数据分析的互联网卡用户画像构建方法及系统 - Google Patents
基于大数据分析的互联网卡用户画像构建方法及系统 Download PDFInfo
- Publication number
- CN114004654A CN114004654A CN202111298277.3A CN202111298277A CN114004654A CN 114004654 A CN114004654 A CN 114004654A CN 202111298277 A CN202111298277 A CN 202111298277A CN 114004654 A CN114004654 A CN 114004654A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- internet
- internet card
- daily
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 24
- 238000010276 construction Methods 0.000 title claims description 18
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 82
- 230000002354 daily effect Effects 0.000 claims description 66
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 230000003203 everyday effect Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010835 comparative analysis Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000004141 dimensional analysis Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于大数据分析的互联网卡用户画像构建方法及系统,收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行数据清洗;对清洗完的互联网卡用户的用户属性信息以及用户行为信息进行分析,得到互联网用户的属性特征、上网行为特征以及离网行为特征;在基于属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销。通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销与战略调整以及互联网卡用户价值体系的构建。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
Description
技术领域
本发明涉及互联网卡数据分析技术领域,尤其涉及基于大数据分析的互联网卡用户画像构建方法及系统。
背景技术
随着信息技术和通信网络的迅猛发展,移动流量越来越成为人们日常生活中重要的一部分。随着市场竞争的白热化,国内三大运营商为了抢占市场,推出了一种新型的商业模式,他们相继推出了一种与互联网公司合作的产品套餐,称为互联网卡。互联网卡套餐具有套餐资费低,流量多的特点,并且这种流量大多为定向流量,为某个派系公司的产品所专用。故因此就衍生出来了一种新的用户——互联网卡用户。该用户群体与传统网卡用户群体有着明显的不同,处于快速发展阶段,有着大量的新用户,同时也有很高的用户流失率。现有的工作并没有一种对此类用户可供参考的用户画像方法。
因此,如何构建出准确的互联网卡用户画像已成为本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了基于大数据分析的互联网卡用户画像构建方法及系统,用于解决现有的技术缺失精确的互联网卡用户画像导致无法进行互联网用户的精准营销或流失预测的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种基于大数据分析的互联网卡用户画像构建方法,包括以下步骤:
收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行异常值检测以及数据清洗;
对清洗完的互联网卡用户的用户属性信息进行对比分析、交叉分析,得到互联网用户的属性特征;
对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析,得到不同用户属性的互联网卡用户的上网行为特征;
对不同用户属性的互联网卡用户的用户行为信息进行离网行为分析,得到不同用户属性的互联网卡用户的离网行为特征;
基于所述属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销/互联网卡用户价值体系的构建。
优选的,所述用户属性信息包括:年龄、性别、套餐、套餐金额、账户余额、月消费金额、日消耗的流量数据以及用户开卡以来的在网时长、所使用手机价格;所述用户的属性特征包括:
(1)16-25岁之间的用户可以占比达50%以上,互联网卡用户男女比例约为7:3,互联网卡更受男性欢迎;
(2)不同年龄段的月消费金额在均值和中位值上表现非常接近;
(3)套餐资费低,流量高,定向流量支持的APP的互联网卡使用率高;
(4)互联网卡用户账户余额维持在一个低水平且不同年龄段之间有差距不大;
(5)互联网卡用户的账户余额与其套餐费用均值大致相等;
(6)互联网卡用户的离网率在7%左右,且用户黏性低;
(7)互联网卡用户存在流量消耗高,用户群体使用流量不均匀。
(8)不同价位套餐的选择与手机机型价格有关联。
优选的,所述用户行为数据包括日下行流量和、日上行流量和、日上网时间和、日上网记录条数、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数、日通话所连基站数、日流量使用量、日通话频率、日平均通话时长、月通话频率、月平均通话时长、近3个月单停次数、近3个月双停次数、APP使用时长以及APP使用流量。
优选的,所述上网行为特征包括:
(1)互联网卡用户通话行为频率低,互联网卡用户不将互联网卡作为联系人卡使用。
(2)互联网卡用户手机价格服从于正态分布,主要集中的区间在1000元-2999元之间互联网卡用户手机价格与用户的套餐价格进行关联分析,发现随着手机价格的上升,低价套餐的被选择率仍居首位,但价格比较高的套餐被选择的频率也在升高,呈线性关系。
(3)互联网卡用户除2:00-6:00外,每小时流量处于一个高消耗状态,其中20:00-次日1:00是一个高峰阶段,而传统网卡用户的高峰阶段则是为18:00-22:00。
(4)目前阿里系和腾讯系的产品最受互联网卡用户欢迎,用户使用率达90%以上,百度系APP其次,用户使用率在70%以上,头条系APP用户使用率在50%左右,其中阿里系APP比较受女性用户的喜爱,腾讯系APP一定程度上更受男性用户欢迎;社交APP用户使用率为首位,其次为出行、购物、视频、支付、音乐。
优选的,对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析还包括以下步骤:
(1)从空间角度刻画用户轨迹行为,以用户日通话所连基站数为依据,提取出每日连接的基站信息,刻画用户轨迹,研究其活动范围,对用户的轨迹进行聚类分析,找到所在区域相同的人,打上标签,找到不同区域内用户的特征;
(2)对社交、购物、金融支付、游戏、视频、音乐、出行APP进行以及对应的用户年龄,性别进行交叉分析,得出最受用户欢迎的APP,同时分析每类APP所消耗的流量。
优选的,所述离网行为特征包括活跃熵、行为异常天数、目标编码标签以及用户月停机次数。
优选的,所述活跃熵的计算方法包括:用日上行流量和构建月上行流量序列,用日下行流量和构建月下行流量序列,用日上网时间和构建月上网时间序列,用日上网记录条数构建月上网记录条数序列,对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录条数序列中任一维度的数据,均执行以下步骤:
优选的,所述行为异常天数的计算包括以下步骤:
对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录序列中任一维度的数据,均执行以下步骤:
优选的,将由日使用流量构建的月使用流量序列进行等距分桶,每个桶的宽度相同而每个桶中落入的值的数量不同,统计每个桶中的离网用户数量和总用户数量,这两个数量的比值作为目标编码标签作为特征赋给该桶的每个用户:
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明具有以下有益效果:
1、本发明中的基于大数据分析的互联网卡用户画像构建方法及系统,通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销、战略调整以及互联网卡用户价值体系的构建。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例中的基于大数据分析的互联网卡用户画像构建方法的流程图;
图2 是本发明优选实施例中的使用大数据平台的体系架构。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一:
本实施中公开了一种基于大数据分析的互联网卡用户画像构建方法,包括以下步骤:
收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行异常值检测以及数据清洗;
对清洗完的互联网卡用户的用户属性信息进行对比分析、交叉分析,得到互联网用户的属性特征;
对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析,得到不同用户属性的互联网卡用户的上网行为特征;
对不同用户属性的互联网卡用户的用户行为信息进行离网行为分析,得到不同用户属性的互联网卡用户的离网行为特征;
基于所述属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销/互联网卡用户价值体系的构建。
此外,在本实施例中,还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明中的基于大数据分析的互联网卡用户画像构建方法及系统,通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销、战略调整以及互联网卡用户价值体系的构建。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
实施例二:
实施例二是实施例一的优选实施例,其与实施例一的区别在于对基于大数据分析的互联网卡用户画像构建方法的具体步骤以及构建的用户画像的应用进行了介绍:
在本实施中,对基于大数据分析的互联网卡用户画像构建方法包括数据收集与清洗、用户固有属性分析、用户上网行为分析、用户离网行为分析以及生成用户画像等步骤,其中,数据收集与清洗,利用大数据平台系统将用户的上网日志行为信息和用户属性信息收集保存,构建用户属性标签,利用随机算法均匀的选取数据,并对其进行异常值检测与处理,将其作为后续的训练样本。用户固有属性分析:根据数据库中的用户自带的属性,包括但不限于年龄、性别、套餐、套餐金额、账户余额、当月消费金额等方面的信息,进行对比分析,交叉分析,得出此类用户各个方面的特征,分类并打上标签,存入标签库。用户上网行为分析从时空的角度两方面对用户上网行为特征进行刻画,用户的上网行为特征包括但不限于:通话行为、流量使用行为、APP使用行为等。
在本实施例中,对基于大数据分析的互联网卡用户画像构建方法具体包括以下步骤:
步骤1:数据采集与存储
如图2所示,首先,采用Hadoop技术和Spark SQL技术在大数据平台上对全体用户的用户属性信息以及用户行为信息进行数据采集与存储,再采用随机算法,从采集到的数据中抽选出一批用户作为后续互联网卡用户画像数据,随机算法符合公平性、随机性,所选数据分布符合原始数据分布。对不同维度的数据按照用户ID进行关联,构建宽表,并对每个用户打上标签,用以区别是否为互联网卡用户,是否为互联网卡的离网用户。确保数据中包含所选每个用户三个月的所有上网行为数据,将该宽表固化存入数据库中备后续使用。
在本实施例中,用户属性信息包括:年龄、性别、套餐、套餐金额、账户余额、月消费金额、使用终端的价格、日消耗的流量数据以及用户开卡以来的在网时长;
用户行为信息包括上网行为信息,包括日下行流量和、日上行流量和、日上网时间和、日上网记录条数、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数、日通话所连基站数、日流量使用量、日通话频率、日平均通话时长、月通话频率、月平均通话时长、近3个月单停次数、近3个月双停次数、APP使用时长以及APP使用流量。
步骤2:数据清洗
首先将用户年龄限定在16岁至80岁之间,我们只研究在此年龄段的用户行为,将不符合年龄的用户清洗掉。然后利用异常值检测方法,对所有用户不同维度的信息进行异常值检测,包括年龄、性别、日流量信息、日通话记录信息、账户余额、月消费金额、月流量信息、月停机次数等,将检测到异常的数据用正常数据的平均值来代替。
步骤3:年龄性别分析
研究互联网卡用户的年龄分布,与传统网卡用户的年龄分布进行对比,得出互联网卡用户更加呈现年轻化的特点,并对不同的年龄段进行分箱,以10岁为单位,研究不同年龄段的用户人数占比,发现16-25岁之间的用户可以占比达50%以上。然后分析两种用户的性别分布,互联网卡用户男女比例约为7:3,而传统网卡用户男女比例大致为6:4。互联网卡更受男性欢迎。
步骤4:月消费金额对比分析
首先以全体互联网卡用户的月消费金额和传统网卡的月消费金额进行对比,以均值和中位值作为评价指标,得出互联网卡用户月消费金额远远低于传统网卡用户。然后研究互联网卡用户内部不同年龄段月消费情况,得出不同年龄段的月消费金额在均值和中位值上表现非常接近,而传统网卡用户在不同年龄段上的月消费金额有较大区别,30-45岁之间的用户月消费金额明显比其他年龄段高。
步骤5:套餐选择比对分析
对互联网卡用户的套餐选择进行研究,首先对于全体互联网卡用户,得出全体用户的套餐选择占比,发现该运营商其畅销的三款套餐选择尤为多,三款套餐用户数量占比达95%以上。而这三款套餐具有套餐资费低,流量高,定向流量支持的APP较为热门的特点。
步骤6:账户余额对比分析
对全体用户的账户余额进行研究,互联网卡用户账户余额维持在一个低水平且不同年龄段之间有细微差异,而传统网卡用户账户余额维持在一个较高水平且不同年龄段有较大差异。
步骤7:套餐费用均值与账户余额均值对比分析:
首先计算两种用户不同年龄段的套餐费用均值与账户余额均值,将这两个值进行对比,发现传统网卡用户账户余额均值是套餐费用均值的3倍左右,而互联网卡用户的账户余额与其套餐费用均值大致相等。推测传统网卡用户黏性较高不会轻易换卡,而互联网卡用户黏性较低。
步骤8:在网时长比对分析
研究互联网卡用户和传统网卡用户开卡以来的在网时长分析,互联网卡用户的在网时长远低于传统网卡用户的在网时长,但其中一个原因是互联网卡作为一个新兴的用户群体,本身诞生的时间没有传统网卡时间长。对此,又研究了互联网卡用户和传统网卡用户的离网用户占比,综合三个月的数据发现互联网卡用户的离网率在7%左右,而传统网卡用户的离网率在0.5%以下。可以得出互联网卡用户存在黏性不高的特点。
步骤9:流量使用方面比对分析
针对互联网卡用户的上网行为研究,从流量使用方面分析,统计互联网卡用户每日消耗的流量数据,从最大值、最小值、均值、方差四个维度与传统网卡用户进行对比分析,发现最小值二者差距不大,最大值二者差距较大,互联网卡用户日流量消耗的均值比传统网卡用户高很多,方差也是互联网卡用户大,得出互联网卡用户存在流量消耗高,用户群体使用流量不均匀的特点。
步骤10:使用流量时空分析
从时空的角度刻画互联网卡用户使用流量的特征。首先利用随机算法挑选某一日,计算出当日每小时流量数据使用情况,将一日24小时流量消耗情况以热力图形式呈现出来,取多日数据进行观察分析,得互联网卡用户除2:00-6:00外,每小时流量处于一个高消耗状态,其中20:00-次日1:00是一个高峰阶段,而传统网卡用户的高峰阶段则是为18:00-22:00。其次从空间角度刻画用户轨迹行为,以用户每日所连接的基站为依据,提取出每日连接的基站信息,刻画用户轨迹,研究其活动范围,对用户的轨迹进行聚类分析,找到所在区域相同的人,打上标签,进一步找到不同区域内用户的特征,进行高精度的行为分析和画像分析。
步骤11:互联网卡用户通话行为信息分析
进一步分析互联网卡用户通话行为信息,以日通话频率、日平均通话时长、月通话频率、月平均通话时长为评价指标,发现这四项指标互联网卡用户均远低于传统网卡用户,说明互联网卡用户不将此卡作为联系人卡使用,与步骤8中的结论相符合。
步骤12:手机价格——用户潜在消费能力分析
根据用户的手机价格来进行划分,以1000元为一单位进行分桶打上标签,发现互联网卡用户手机价格服从于正态分布,主要集中的区间在1000元-2999元之间;然后与用户的套餐价格进行关联分析,发现随着手机价格的上升,低价套餐的被选择率仍居首位,但价格比较高的套餐被选择的频率也在升高,呈线性关系。从性别对手机价位的选择来看,二者并无很明显的差异。
步骤13:APP上网行为分析:
针对用户的APP数据,首先对APP进行分类,按目前市场上主流的互联网公司产品分为阿里系APP、腾讯系APP、百度系APP、头条系APP、其他派系APP。首先进行APP流行度分析,得出目前阿里系和腾讯系的产品最受互联网卡用户欢迎,用户使用率达90%以上,百度系APP其次,用户使用率在70%以上,头条系APP用户使用率在50%左右,其中阿里系APP比较受女性用户的喜爱,腾讯系APP一定程度上更受男性用户欢迎。接下来针对APP的功能再次进行分类,主要的类别有社交、购物、金融支付、游戏、视频、音乐、出行、其他等几个大类别,其中社交APP用户使用率为首位,其次为出行、购物、视频、支付、音乐、其他等类别。接下来对上述几种类别APP进行以及对应的用户年龄,性别进行交叉分析,得出最受用户欢迎的APP,同时分析每类APP所消耗的流量,由于APP用途以及自身属性的原因,最受欢迎的APP所消耗的流量却是比较少的。
步骤14:
根据步骤8中所述互联网卡离网率高的特点,分析其离网特征。首先根据步骤1-13所述方法与特征进行分析,找出正常用户和离网用户存在明显区别的特征。然后利用机器学习和数学的知识对数据进行加工、编码,生成新的特征并验证有效。
步骤15:离网特征——活跃熵
3)活跃熵计算
从离网用户和正常用户计算得到的数据对比得出:离网用户具有较小的活跃熵,正常用户的活跃熵比较大。说明正常用户的上网行为较为规律,离网用户呈现不规律的上网行为。
步骤16:离网特征——行为异常天数
步骤17:离网特征——目标编码标签
针对流量的处理方法,将所有用户一个月消耗的流量生成一个序列,同样的根据13中所述的分桶方法进行等距分桶,每个桶的宽度相同而每个桶中落入的值的数量不同,统计每个桶中的离网用户数量和总用户数量,这两个数量的比值作为目标编码标签作为特征赋给该桶的每个用户:
步骤18:离网特征——用户月停机次数
统计每个用户当月、上月的停机次数,将离网互联网卡用户与正常互联网卡用户的停机次数对比可得离网用户在李往前会有更多的停机次数,对此可作为一个特征,将其进行one-hot编码,将编码后数据作为特征标签赋给用户。
步骤19:
根据步骤1-18中生成的用户特征级标签,进行聚合,将标签整合进入数据库,生成互联网卡用户画像。
步骤20:用户画像应用
第一种应用:在得到互联网卡用户的用户画像后,可根据互联网卡用户的用户画像特点来制定套餐推荐给互联网卡用户:
如互联网卡用户偏爱较低资费且、偏爱流量较多的套餐;且互联网卡用户偏爱在夜间至凌晨时间段上网,可适当增加套餐内夜间免费流量的比例;如互联网卡用户对免费通话时长的需求不大,可适当降低免费通话时长增加数据流量。综合以上四点在制定套餐时应具有:低资费、高流量(夜间流量占一定比例)、低通话时长的特点。
第二种应用:从历史数据中获取不同用户不同时期的用户画像数据并对其进行标注,其中,标注类别包括未流失、即将流失以及已流失;使用标注好的用户画像数据训练构建好的神经网络模型,并使用训练好的神经网络模型对互联网卡用户进行预测,得到即将流失的互联网卡用户名单,再比对即将流失的互联网卡用户的实时用户画像数据与同画像属性,且未流失互联网卡用户的其他画像数据的区别,基于所述区别定制或推荐特定化的优惠套餐给即将流失的互联网卡用户,以干预即将流失的互联网卡用户的流失。
第三种应用:根据上述画像特征,结合企业需求,对上述不同的特征分配不同的权重,对用户进行打分,根据分数进行评级分类,充分挖掘各个用户的价值,筛选出优质、高质量用户,以构建用户的价值体系方法。计算公式为:
其中,为分数,为第k个特征,为第k个特征的权重,n为特征总
数。其中,所述权重可通过层次分析法实现或者强相关算法实现,即通过层次分析法分析并
量化不同特征对企业需求目标的影响大小,或者通过强相关算法分析不同特征对企业需求
目标的实现的强相关性来设置权重。
综上所述,本发明中的基于大数据分析的互联网卡用户画像构建方法及系统,通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销与战略调整以及用户价值体系构建的方法。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据分析的互联网卡用户画像构建方法,其特征在于,包括以下步骤:
收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行异常值检测以及数据清洗;
对清洗完的互联网卡用户的用户属性信息进行对比分析、交叉分析,得到互联网用户的属性特征;
对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析,得到不同用户属性的互联网卡用户的上网行为特征;
对不同用户属性的互联网卡用户的用户行为信息进行离网行为分析,得到不同用户属性的互联网卡用户的离网行为特征;
基于所述属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销/互联网卡用户价值体系的构建。
2.根据权利要求2所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述用户属性信息包括:年龄、性别、套餐、套餐金额、账户余额、月消费金额、日消耗的流量数据以及用户开卡以来的在网时长、所使用的手机价格;所述用户的属性特征包括:
(1)16-25岁之间的用户可以占比达50%以上,互联网卡用户男女比例约为7:3,互联网卡更受男性欢迎;
(2)不同年龄段的月消费金额在均值和中位值上表现非常接近;
(3)套餐资费低,流量高,定向流量支持的APP的互联网卡使用率高;
(4)互联网卡用户账户余额维持在一个低水平且不同年龄段之间有差距不大;
(5)互联网卡用户的账户余额与其套餐费用均值大致相等;
(6)互联网卡用户的离网率在7%左右,且用户黏性低;
(7)互联网卡用户存在流量消耗高,用户群体使用流量不均匀;
(8)不同价位套餐的选择与手机机型价格有关联。
3.根据权利要求1所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述用户行为数据包括日下行流量和、日上行流量和、日上网时间和、日上网记录条数、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数、日通话所连基站数、日流量使用量、日通话频率、日平均通话时长、月通话频率、月平均通话时长、近3个月单停次数、近3个月双停次数、APP使用时长以及APP使用流量。
4.根据权利要求2所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述上网行为特征包括:
(1)互联网卡用户通话行为频率低,互联网卡用户不将互联网卡作为联系人卡使用:
(2)互联网卡用户手机价格服从于正态分布,主要集中的区间在1000元-2999元之间互联网卡用户手机价格与用户的套餐价格进行关联分析,发现随着手机价格的上升,低价套餐的被选择率仍居首位,但价格比较高的套餐被选择的频率也在升高,呈线性关系;
(3)互联网卡用户除2:00-6:00外,每小时流量处于一个高消耗状态,其中20:00-次日1:00是一个高峰阶段,而传统网卡用户的高峰阶段则是为18:00-22:00;
(4)目前阿里系和腾讯系的产品最受互联网卡用户欢迎,用户使用率达90%以上,百度系APP其次,用户使用率在70%以上,头条系APP用户使用率在50%左右,其中阿里系APP比较受女性用户的喜爱,腾讯系APP一定程度上更受男性用户欢迎;社交APP用户使用率为首位,其次为出行、购物、视频、支付、音乐。
5.根据权利要求3所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析还包括以下步骤:
(1)从空间角度刻画用户轨迹行为,以用户日通话所连基站数为依据,提取出每日连接的基站信息,刻画用户轨迹,研究其活动范围,对用户的轨迹进行聚类分析,找到所在区域相同的人,打上标签,找到不同区域内用户的特征;
(2)对社交、购物、金融支付、游戏、视频、音乐、出行APP进行以及对应的用户年龄,性别进行交叉分析,得出最受用户欢迎的APP,同时分析每类APP所消耗的流量。
6.根据权利要求5所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述离网行为特征包括活跃熵、行为异常天数、目标编码标签以及用户月停机次数。
7.根据权利要求6所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述活跃熵的计算方法包括:用日上行流量和构建月上行流量序列,用日下行流量和构建月下行流量序列,用日上网时间和构建月上网时间序列,用日上网记录条数构建月上网记录条数序列,对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录条数序列中任一维度的数据,均执行以下步骤:
8.根据权利要求7所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述行为异常天数的计算包括以下步骤:
对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录序列中任一维度的数据,均执行以下步骤:
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111298277.3A CN114004654A (zh) | 2021-11-04 | 2021-11-04 | 基于大数据分析的互联网卡用户画像构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111298277.3A CN114004654A (zh) | 2021-11-04 | 2021-11-04 | 基于大数据分析的互联网卡用户画像构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114004654A true CN114004654A (zh) | 2022-02-01 |
Family
ID=79927624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111298277.3A Pending CN114004654A (zh) | 2021-11-04 | 2021-11-04 | 基于大数据分析的互联网卡用户画像构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004654A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663132A (zh) * | 2022-03-02 | 2022-06-24 | 厦门文杉信息科技有限公司 | 一种基于实时用户画像的智能营销方法及装置 |
CN115604130A (zh) * | 2022-12-01 | 2023-01-13 | 中南大学(Cn) | App流行度预测模型构建方法、预测方法、设备及存储介质 |
CN117858132A (zh) * | 2024-03-07 | 2024-04-09 | 济南光路科技有限公司 | 一种基于云计算设备管理系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615226A (zh) * | 2018-12-12 | 2019-04-12 | 焦点科技股份有限公司 | 一种运营指标异常监测方法 |
CN110134878A (zh) * | 2019-05-16 | 2019-08-16 | 哈尔滨工业大学 | 基于用户偏好与服务变化双向感知的移动服务推荐方法 |
CN112544059A (zh) * | 2018-07-27 | 2021-03-23 | 诺基亚通信公司 | 用于网络流量分析的方法、设备和系统 |
CN112561598A (zh) * | 2020-12-23 | 2021-03-26 | 中国农业银行股份有限公司重庆市分行 | 基于客户画像的客户流失预测及挽回方法和系统 |
CN113391988A (zh) * | 2021-06-29 | 2021-09-14 | 中国工商银行股份有限公司 | 流失用户留存的方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-04 CN CN202111298277.3A patent/CN114004654A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112544059A (zh) * | 2018-07-27 | 2021-03-23 | 诺基亚通信公司 | 用于网络流量分析的方法、设备和系统 |
CN109615226A (zh) * | 2018-12-12 | 2019-04-12 | 焦点科技股份有限公司 | 一种运营指标异常监测方法 |
CN110134878A (zh) * | 2019-05-16 | 2019-08-16 | 哈尔滨工业大学 | 基于用户偏好与服务变化双向感知的移动服务推荐方法 |
CN112561598A (zh) * | 2020-12-23 | 2021-03-26 | 中国农业银行股份有限公司重庆市分行 | 基于客户画像的客户流失预测及挽回方法和系统 |
CN113391988A (zh) * | 2021-06-29 | 2021-09-14 | 中国工商银行股份有限公司 | 流失用户留存的方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
郑正广等: "基于大数据技术的腾讯王卡用户画像构建研究", 《邮电设计技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663132A (zh) * | 2022-03-02 | 2022-06-24 | 厦门文杉信息科技有限公司 | 一种基于实时用户画像的智能营销方法及装置 |
CN115604130A (zh) * | 2022-12-01 | 2023-01-13 | 中南大学(Cn) | App流行度预测模型构建方法、预测方法、设备及存储介质 |
CN115604130B (zh) * | 2022-12-01 | 2023-03-14 | 中南大学 | App流行度预测模型构建方法、预测方法、设备及存储介质 |
CN117858132A (zh) * | 2024-03-07 | 2024-04-09 | 济南光路科技有限公司 | 一种基于云计算设备管理系统及方法 |
CN117858132B (zh) * | 2024-03-07 | 2024-05-24 | 济南光路科技有限公司 | 一种基于云计算设备管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Integrated churn prediction and customer segmentation framework for telco business | |
CN114004654A (zh) | 基于大数据分析的互联网卡用户画像构建方法及系统 | |
Lu et al. | A customer churn prediction model in telecom industry using boosting | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN110119948B (zh) | 基于时变权重动态组合的电力用户信用评价方法及系统 | |
CN109636481A (zh) | 面向家庭用户的用户画像构建方法及装置 | |
CN107146089A (zh) | 一种刷单识别方法及装置,电子设备 | |
CN111178624A (zh) | 一种新产品需求预测的方法 | |
CN110674993A (zh) | 一种用户负荷短期预测方法和装置 | |
CN110880127B (zh) | 消费水平的预测方法、装置、电子设备及存储介质 | |
Yilmaz et al. | Synthetic demand data generation for individual electricity consumers: Generative Adversarial Networks (GANs) | |
CN108629379A (zh) | 一种个人征信评估方法及系统 | |
CN108133390A (zh) | 用于预测用户行为的方法和装置以及计算设备 | |
CN112418485A (zh) | 基于负荷特性和用电行为模式的家庭负荷预测方法及系统 | |
CN106919995A (zh) | 一种判断用户群体流失倾向的方法及装置 | |
AU2014201264A1 (en) | Scenario based customer lifetime value determination | |
CN115375205A (zh) | 一种用水用户画像的确定方法、装置及设备 | |
CN107977855B (zh) | 一种管理用户信息的方法及装置 | |
CN109492863A (zh) | 金融单证的自动生成方法及装置 | |
CN110443265A (zh) | 一种基于社团的行为检测方法和装置 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
Qiuru et al. | Telecom customer segmentation based on cluster analysis | |
DeSarbo et al. | A friction model for describing and forecasting price changes | |
CN117056591A (zh) | 基于动态预测的电力缴费渠道智能推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220201 |
|
RJ01 | Rejection of invention patent application after publication |