CN114004654A - 基于大数据分析的互联网卡用户画像构建方法及系统 - Google Patents

基于大数据分析的互联网卡用户画像构建方法及系统 Download PDF

Info

Publication number
CN114004654A
CN114004654A CN202111298277.3A CN202111298277A CN114004654A CN 114004654 A CN114004654 A CN 114004654A CN 202111298277 A CN202111298277 A CN 202111298277A CN 114004654 A CN114004654 A CN 114004654A
Authority
CN
China
Prior art keywords
user
users
internet
internet card
daily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111298277.3A
Other languages
English (en)
Inventor
吕丰
高世杰
吴帆
任炬
张尧学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202111298277.3A priority Critical patent/CN114004654A/zh
Publication of CN114004654A publication Critical patent/CN114004654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于大数据分析的互联网卡用户画像构建方法及系统,收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行数据清洗;对清洗完的互联网卡用户的用户属性信息以及用户行为信息进行分析,得到互联网用户的属性特征、上网行为特征以及离网行为特征;在基于属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销。通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销与战略调整以及互联网卡用户价值体系的构建。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。

Description

基于大数据分析的互联网卡用户画像构建方法及系统
技术领域
本发明涉及互联网卡数据分析技术领域,尤其涉及基于大数据分析的互联网卡用户画像构建方法及系统。
背景技术
随着信息技术和通信网络的迅猛发展,移动流量越来越成为人们日常生活中重要的一部分。随着市场竞争的白热化,国内三大运营商为了抢占市场,推出了一种新型的商业模式,他们相继推出了一种与互联网公司合作的产品套餐,称为互联网卡。互联网卡套餐具有套餐资费低,流量多的特点,并且这种流量大多为定向流量,为某个派系公司的产品所专用。故因此就衍生出来了一种新的用户——互联网卡用户。该用户群体与传统网卡用户群体有着明显的不同,处于快速发展阶段,有着大量的新用户,同时也有很高的用户流失率。现有的工作并没有一种对此类用户可供参考的用户画像方法。
因此,如何构建出准确的互联网卡用户画像已成为本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了基于大数据分析的互联网卡用户画像构建方法及系统,用于解决现有的技术缺失精确的互联网卡用户画像导致无法进行互联网用户的精准营销或流失预测的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种基于大数据分析的互联网卡用户画像构建方法,包括以下步骤:
收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行异常值检测以及数据清洗;
对清洗完的互联网卡用户的用户属性信息进行对比分析、交叉分析,得到互联网用户的属性特征;
对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析,得到不同用户属性的互联网卡用户的上网行为特征;
对不同用户属性的互联网卡用户的用户行为信息进行离网行为分析,得到不同用户属性的互联网卡用户的离网行为特征;
基于所述属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销/互联网卡用户价值体系的构建。
优选的,所述用户属性信息包括:年龄、性别、套餐、套餐金额、账户余额、月消费金额、日消耗的流量数据以及用户开卡以来的在网时长、所使用手机价格;所述用户的属性特征包括:
(1)16-25岁之间的用户可以占比达50%以上,互联网卡用户男女比例约为7:3,互联网卡更受男性欢迎;
(2)不同年龄段的月消费金额在均值和中位值上表现非常接近;
(3)套餐资费低,流量高,定向流量支持的APP的互联网卡使用率高;
(4)互联网卡用户账户余额维持在一个低水平且不同年龄段之间有差距不大;
(5)互联网卡用户的账户余额与其套餐费用均值大致相等;
(6)互联网卡用户的离网率在7%左右,且用户黏性低;
(7)互联网卡用户存在流量消耗高,用户群体使用流量不均匀。
(8)不同价位套餐的选择与手机机型价格有关联。
优选的,所述用户行为数据包括日下行流量和、日上行流量和、日上网时间和、日上网记录条数、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数、日通话所连基站数、日流量使用量、日通话频率、日平均通话时长、月通话频率、月平均通话时长、近3个月单停次数、近3个月双停次数、APP使用时长以及APP使用流量。
优选的,所述上网行为特征包括:
(1)互联网卡用户通话行为频率低,互联网卡用户不将互联网卡作为联系人卡使用。
(2)互联网卡用户手机价格服从于正态分布,主要集中的区间在1000元-2999元之间互联网卡用户手机价格与用户的套餐价格进行关联分析,发现随着手机价格的上升,低价套餐的被选择率仍居首位,但价格比较高的套餐被选择的频率也在升高,呈线性关系。
(3)互联网卡用户除2:00-6:00外,每小时流量处于一个高消耗状态,其中20:00-次日1:00是一个高峰阶段,而传统网卡用户的高峰阶段则是为18:00-22:00。
(4)目前阿里系和腾讯系的产品最受互联网卡用户欢迎,用户使用率达90%以上,百度系APP其次,用户使用率在70%以上,头条系APP用户使用率在50%左右,其中阿里系APP比较受女性用户的喜爱,腾讯系APP一定程度上更受男性用户欢迎;社交APP用户使用率为首位,其次为出行、购物、视频、支付、音乐。
优选的,对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析还包括以下步骤:
(1)从空间角度刻画用户轨迹行为,以用户日通话所连基站数为依据,提取出每日连接的基站信息,刻画用户轨迹,研究其活动范围,对用户的轨迹进行聚类分析,找到所在区域相同的人,打上标签,找到不同区域内用户的特征;
(2)对社交、购物、金融支付、游戏、视频、音乐、出行APP进行以及对应的用户年龄,性别进行交叉分析,得出最受用户欢迎的APP,同时分析每类APP所消耗的流量。
优选的,所述离网行为特征包括活跃熵、行为异常天数、目标编码标签以及用户月停机次数。
优选的,所述活跃熵的计算方法包括:用日上行流量和构建月上行流量序列,用日下行流量和构建月下行流量序列,用日上网时间和构建月上网时间序列,用日上网记录条数构建月上网记录条数序列,对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录条数序列中任一维度的数据,均执行以下步骤:
将所述维度的数据转换成时序行为序列
Figure 487431DEST_PATH_IMAGE001
=[
Figure 194487DEST_PATH_IMAGE002
,
Figure 453080DEST_PATH_IMAGE003
,…,
Figure 344813DEST_PATH_IMAGE004
,…,
Figure 872877DEST_PATH_IMAGE005
],其中,d表示当 月的天数,
Figure 773837DEST_PATH_IMAGE006
表示第i天用户关于所述维度数据的统计值;
将所述维度数据的时序行为序列
Figure 320225DEST_PATH_IMAGE001
分成k个等宽的桶,并根据以下公式计算出所述 维度数据的活跃熵:
Figure 320542DEST_PATH_IMAGE007
其中,
Figure 460536DEST_PATH_IMAGE008
表示所述维度数据的时序行为序列
Figure 368449DEST_PATH_IMAGE001
的取值落在第i个桶的比例, k表示 桶的个数,
Figure 536388DEST_PATH_IMAGE009
表示所述维度数据的时序行为序列
Figure 35502DEST_PATH_IMAGE001
的长度,
Figure 334896DEST_PATH_IMAGE010
为指示函数,当
Figure 702293DEST_PATH_IMAGE011
Figure 98639DEST_PATH_IMAGE010
= 1,否则
Figure 644021DEST_PATH_IMAGE010
=0。
优选的,所述行为异常天数的计算包括以下步骤:
对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录序列中任一维度的数据,均执行以下步骤:
将所述维度的数据转换成时序行为序列
Figure 758607DEST_PATH_IMAGE012
=[
Figure 897071DEST_PATH_IMAGE002
,
Figure 679083DEST_PATH_IMAGE003
,…,
Figure 395366DEST_PATH_IMAGE004
,…,
Figure 997248DEST_PATH_IMAGE013
],其中,n表示当 月的天数,
Figure 706447DEST_PATH_IMAGE006
表示第i天用户关于所述维度数据的统计值;
计算所述时序行为序列
Figure 77386DEST_PATH_IMAGE012
的一阶前向差分序列
Figure 964570DEST_PATH_IMAGE014
=[
Figure 788170DEST_PATH_IMAGE015
,
Figure 802525DEST_PATH_IMAGE016
,…,
Figure 27970DEST_PATH_IMAGE017
,…,
Figure 86055DEST_PATH_IMAGE018
],其中,
Figure 662530DEST_PATH_IMAGE019
Figure 713532DEST_PATH_IMAGE017
表示所述一阶前向差分序列
Figure 793483DEST_PATH_IMAGE014
第i个差分值;
对于所述一阶前向差分序列
Figure 288050DEST_PATH_IMAGE014
中的任意个差分值
Figure 86241DEST_PATH_IMAGE017
,判断所述
Figure 433609DEST_PATH_IMAGE017
是否大于
Figure 368067DEST_PATH_IMAGE020
+ 1.5IQR或小于
Figure 33535DEST_PATH_IMAGE021
-1.5IQR,若所述
Figure 319023DEST_PATH_IMAGE017
大于
Figure 711827DEST_PATH_IMAGE020
+1.5IQR或小于
Figure 766371DEST_PATH_IMAGE021
-1.5IQR,则判断
Figure 602740DEST_PATH_IMAGE017
对应的天 数存在流量异常,
其中,
Figure 109944DEST_PATH_IMAGE020
为所述一阶前向差分序列
Figure 807904DEST_PATH_IMAGE014
的上四分位数,
Figure 982534DEST_PATH_IMAGE021
为所述一阶前向差分序列
Figure 724225DEST_PATH_IMAGE014
下四分位数,IQR是四分位间距,为
Figure 984305DEST_PATH_IMAGE020
Figure 718911DEST_PATH_IMAGE021
之差。
优选的,将由日使用流量构建的月使用流量序列进行等距分桶,每个桶的宽度相同而每个桶中落入的值的数量不同,统计每个桶中的离网用户数量和总用户数量,这两个数量的比值作为目标编码标签作为特征赋给该桶的每个用户:
Figure 748047DEST_PATH_IMAGE022
其中k代表分桶个数,
Figure 660640DEST_PATH_IMAGE023
为第i个桶中离网用户个数,
Figure 408016DEST_PATH_IMAGE024
为第i个桶中总用户数量,
Figure 444849DEST_PATH_IMAGE025
为第i个桶中用户的目标编码标签值。经后续的实验,桶分的越多,该特征越有效。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明具有以下有益效果:
1、本发明中的基于大数据分析的互联网卡用户画像构建方法及系统,通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销、战略调整以及互联网卡用户价值体系的构建。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例中的基于大数据分析的互联网卡用户画像构建方法的流程图;
图2 是本发明优选实施例中的使用大数据平台的体系架构。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一:
本实施中公开了一种基于大数据分析的互联网卡用户画像构建方法,包括以下步骤:
收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行异常值检测以及数据清洗;
对清洗完的互联网卡用户的用户属性信息进行对比分析、交叉分析,得到互联网用户的属性特征;
对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析,得到不同用户属性的互联网卡用户的上网行为特征;
对不同用户属性的互联网卡用户的用户行为信息进行离网行为分析,得到不同用户属性的互联网卡用户的离网行为特征;
基于所述属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销/互联网卡用户价值体系的构建。
此外,在本实施例中,还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明中的基于大数据分析的互联网卡用户画像构建方法及系统,通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销、战略调整以及互联网卡用户价值体系的构建。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
实施例二:
实施例二是实施例一的优选实施例,其与实施例一的区别在于对基于大数据分析的互联网卡用户画像构建方法的具体步骤以及构建的用户画像的应用进行了介绍:
在本实施中,对基于大数据分析的互联网卡用户画像构建方法包括数据收集与清洗、用户固有属性分析、用户上网行为分析、用户离网行为分析以及生成用户画像等步骤,其中,数据收集与清洗,利用大数据平台系统将用户的上网日志行为信息和用户属性信息收集保存,构建用户属性标签,利用随机算法均匀的选取数据,并对其进行异常值检测与处理,将其作为后续的训练样本。用户固有属性分析:根据数据库中的用户自带的属性,包括但不限于年龄、性别、套餐、套餐金额、账户余额、当月消费金额等方面的信息,进行对比分析,交叉分析,得出此类用户各个方面的特征,分类并打上标签,存入标签库。用户上网行为分析从时空的角度两方面对用户上网行为特征进行刻画,用户的上网行为特征包括但不限于:通话行为、流量使用行为、APP使用行为等。
在本实施例中,对基于大数据分析的互联网卡用户画像构建方法具体包括以下步骤:
步骤1:数据采集与存储
如图2所示,首先,采用Hadoop技术和Spark SQL技术在大数据平台上对全体用户的用户属性信息以及用户行为信息进行数据采集与存储,再采用随机算法,从采集到的数据中抽选出一批用户作为后续互联网卡用户画像数据,随机算法符合公平性、随机性,所选数据分布符合原始数据分布。对不同维度的数据按照用户ID进行关联,构建宽表,并对每个用户打上标签,用以区别是否为互联网卡用户,是否为互联网卡的离网用户。确保数据中包含所选每个用户三个月的所有上网行为数据,将该宽表固化存入数据库中备后续使用。
在本实施例中,用户属性信息包括:年龄、性别、套餐、套餐金额、账户余额、月消费金额、使用终端的价格、日消耗的流量数据以及用户开卡以来的在网时长;
用户行为信息包括上网行为信息,包括日下行流量和、日上行流量和、日上网时间和、日上网记录条数、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数、日通话所连基站数、日流量使用量、日通话频率、日平均通话时长、月通话频率、月平均通话时长、近3个月单停次数、近3个月双停次数、APP使用时长以及APP使用流量。
步骤2:数据清洗
首先将用户年龄限定在16岁至80岁之间,我们只研究在此年龄段的用户行为,将不符合年龄的用户清洗掉。然后利用异常值检测方法,对所有用户不同维度的信息进行异常值检测,包括年龄、性别、日流量信息、日通话记录信息、账户余额、月消费金额、月流量信息、月停机次数等,将检测到异常的数据用正常数据的平均值来代替。
步骤3:年龄性别分析
研究互联网卡用户的年龄分布,与传统网卡用户的年龄分布进行对比,得出互联网卡用户更加呈现年轻化的特点,并对不同的年龄段进行分箱,以10岁为单位,研究不同年龄段的用户人数占比,发现16-25岁之间的用户可以占比达50%以上。然后分析两种用户的性别分布,互联网卡用户男女比例约为7:3,而传统网卡用户男女比例大致为6:4。互联网卡更受男性欢迎。
步骤4:月消费金额对比分析
首先以全体互联网卡用户的月消费金额和传统网卡的月消费金额进行对比,以均值和中位值作为评价指标,得出互联网卡用户月消费金额远远低于传统网卡用户。然后研究互联网卡用户内部不同年龄段月消费情况,得出不同年龄段的月消费金额在均值和中位值上表现非常接近,而传统网卡用户在不同年龄段上的月消费金额有较大区别,30-45岁之间的用户月消费金额明显比其他年龄段高。
步骤5:套餐选择比对分析
对互联网卡用户的套餐选择进行研究,首先对于全体互联网卡用户,得出全体用户的套餐选择占比,发现该运营商其畅销的三款套餐选择尤为多,三款套餐用户数量占比达95%以上。而这三款套餐具有套餐资费低,流量高,定向流量支持的APP较为热门的特点。
步骤6:账户余额对比分析
对全体用户的账户余额进行研究,互联网卡用户账户余额维持在一个低水平且不同年龄段之间有细微差异,而传统网卡用户账户余额维持在一个较高水平且不同年龄段有较大差异。
步骤7:套餐费用均值与账户余额均值对比分析:
首先计算两种用户不同年龄段的套餐费用均值与账户余额均值,将这两个值进行对比,发现传统网卡用户账户余额均值是套餐费用均值的3倍左右,而互联网卡用户的账户余额与其套餐费用均值大致相等。推测传统网卡用户黏性较高不会轻易换卡,而互联网卡用户黏性较低。
步骤8:在网时长比对分析
研究互联网卡用户和传统网卡用户开卡以来的在网时长分析,互联网卡用户的在网时长远低于传统网卡用户的在网时长,但其中一个原因是互联网卡作为一个新兴的用户群体,本身诞生的时间没有传统网卡时间长。对此,又研究了互联网卡用户和传统网卡用户的离网用户占比,综合三个月的数据发现互联网卡用户的离网率在7%左右,而传统网卡用户的离网率在0.5%以下。可以得出互联网卡用户存在黏性不高的特点。
步骤9:流量使用方面比对分析
针对互联网卡用户的上网行为研究,从流量使用方面分析,统计互联网卡用户每日消耗的流量数据,从最大值、最小值、均值、方差四个维度与传统网卡用户进行对比分析,发现最小值二者差距不大,最大值二者差距较大,互联网卡用户日流量消耗的均值比传统网卡用户高很多,方差也是互联网卡用户大,得出互联网卡用户存在流量消耗高,用户群体使用流量不均匀的特点。
步骤10:使用流量时空分析
从时空的角度刻画互联网卡用户使用流量的特征。首先利用随机算法挑选某一日,计算出当日每小时流量数据使用情况,将一日24小时流量消耗情况以热力图形式呈现出来,取多日数据进行观察分析,得互联网卡用户除2:00-6:00外,每小时流量处于一个高消耗状态,其中20:00-次日1:00是一个高峰阶段,而传统网卡用户的高峰阶段则是为18:00-22:00。其次从空间角度刻画用户轨迹行为,以用户每日所连接的基站为依据,提取出每日连接的基站信息,刻画用户轨迹,研究其活动范围,对用户的轨迹进行聚类分析,找到所在区域相同的人,打上标签,进一步找到不同区域内用户的特征,进行高精度的行为分析和画像分析。
步骤11:互联网卡用户通话行为信息分析
进一步分析互联网卡用户通话行为信息,以日通话频率、日平均通话时长、月通话频率、月平均通话时长为评价指标,发现这四项指标互联网卡用户均远低于传统网卡用户,说明互联网卡用户不将此卡作为联系人卡使用,与步骤8中的结论相符合。
步骤12:手机价格——用户潜在消费能力分析
根据用户的手机价格来进行划分,以1000元为一单位进行分桶打上标签,发现互联网卡用户手机价格服从于正态分布,主要集中的区间在1000元-2999元之间;然后与用户的套餐价格进行关联分析,发现随着手机价格的上升,低价套餐的被选择率仍居首位,但价格比较高的套餐被选择的频率也在升高,呈线性关系。从性别对手机价位的选择来看,二者并无很明显的差异。
步骤13:APP上网行为分析:
针对用户的APP数据,首先对APP进行分类,按目前市场上主流的互联网公司产品分为阿里系APP、腾讯系APP、百度系APP、头条系APP、其他派系APP。首先进行APP流行度分析,得出目前阿里系和腾讯系的产品最受互联网卡用户欢迎,用户使用率达90%以上,百度系APP其次,用户使用率在70%以上,头条系APP用户使用率在50%左右,其中阿里系APP比较受女性用户的喜爱,腾讯系APP一定程度上更受男性用户欢迎。接下来针对APP的功能再次进行分类,主要的类别有社交、购物、金融支付、游戏、视频、音乐、出行、其他等几个大类别,其中社交APP用户使用率为首位,其次为出行、购物、视频、支付、音乐、其他等类别。接下来对上述几种类别APP进行以及对应的用户年龄,性别进行交叉分析,得出最受用户欢迎的APP,同时分析每类APP所消耗的流量,由于APP用途以及自身属性的原因,最受欢迎的APP所消耗的流量却是比较少的。
步骤14:
根据步骤8中所述互联网卡离网率高的特点,分析其离网特征。首先根据步骤1-13所述方法与特征进行分析,找出正常用户和离网用户存在明显区别的特征。然后利用机器学习和数学的知识对数据进行加工、编码,生成新的特征并验证有效。
步骤15:离网特征——活跃熵
1)数据统计:根据步骤9.10.11中每日使用的流量数据,通话信息,我们可以得到 每个用户的一个行为序列
Figure 328491DEST_PATH_IMAGE012
,表示为[
Figure 677564DEST_PATH_IMAGE002
,
Figure 646657DEST_PATH_IMAGE003
,…,
Figure 723066DEST_PATH_IMAGE004
,…,
Figure 726794DEST_PATH_IMAGE013
],其中
Figure 981189DEST_PATH_IMAGE006
表示当月的第i天用户所 消耗的流量值。
2)分桶:将用户一个月的行为序列
Figure 437578DEST_PATH_IMAGE012
分为K个等长度的桶,则该序列所含值的范围 就分散在这K个桶中,每个桶的宽度
Figure 819143DEST_PATH_IMAGE026
为:
Figure 677378DEST_PATH_IMAGE027
其中,
Figure 368253DEST_PATH_IMAGE028
Figure 311939DEST_PATH_IMAGE029
分别表示行为序列
Figure 730150DEST_PATH_IMAGE012
中的最大值和最小值,各个桶的取 值范围依次为{(
Figure 442892DEST_PATH_IMAGE029
,
Figure 304668DEST_PATH_IMAGE029
+
Figure 938912DEST_PATH_IMAGE030
),(
Figure 36181DEST_PATH_IMAGE029
+
Figure 29195DEST_PATH_IMAGE030
,
Figure 61873DEST_PATH_IMAGE029
+2
Figure 183412DEST_PATH_IMAGE030
), …… ,(
Figure 818793DEST_PATH_IMAGE029
+ (k-1)
Figure 427498DEST_PATH_IMAGE030
,
Figure 631077DEST_PATH_IMAGE028
)}。
3)活跃熵计算
根据等距分桶的情况,就可以计算出这个概率分布的熵(entropy)。i.e.信息熵
Figure 771071DEST_PATH_IMAGE031
就可以定义为:
Figure 101821DEST_PATH_IMAGE032
其中,
Figure 643661DEST_PATH_IMAGE008
表示行为序列的取值落在第i个桶的比例(概率), k表示桶的个数,
Figure 18141DEST_PATH_IMAGE009
表示行为序列
Figure 645432DEST_PATH_IMAGE012
的长度。
从离网用户和正常用户计算得到的数据对比得出:离网用户具有较小的活跃熵,正常用户的活跃熵比较大。说明正常用户的上网行为较为规律,离网用户呈现不规律的上网行为。
步骤16:离网特征——行为异常天数
将用户的每个上网行为信息处理成序列数据
Figure 747249DEST_PATH_IMAGE012
,对每个用户的每个行为数据,利 用箱型图异常检测算法,检测异常值,异常值的个数作为一个特征。正常用户的异常值个数 明显小于离网用户的异常值个数。
步骤17:离网特征——目标编码标签
针对流量的处理方法,将所有用户一个月消耗的流量生成一个序列,同样的根据13中所述的分桶方法进行等距分桶,每个桶的宽度相同而每个桶中落入的值的数量不同,统计每个桶中的离网用户数量和总用户数量,这两个数量的比值作为目标编码标签作为特征赋给该桶的每个用户:
Figure 409174DEST_PATH_IMAGE022
其中k代表分桶个数,
Figure 954556DEST_PATH_IMAGE023
为第i个桶中离网用户个数,
Figure 69143DEST_PATH_IMAGE024
为第i个桶中总用户数量,
Figure 473186DEST_PATH_IMAGE025
为第i个桶中用户的目标编码标签值。经后续的实验,桶分的越多,该特征越有效。
步骤18:离网特征——用户月停机次数
统计每个用户当月、上月的停机次数,将离网互联网卡用户与正常互联网卡用户的停机次数对比可得离网用户在李往前会有更多的停机次数,对此可作为一个特征,将其进行one-hot编码,将编码后数据作为特征标签赋给用户。
步骤19:
根据步骤1-18中生成的用户特征级标签,进行聚合,将标签整合进入数据库,生成互联网卡用户画像。
步骤20:用户画像应用
第一种应用:在得到互联网卡用户的用户画像后,可根据互联网卡用户的用户画像特点来制定套餐推荐给互联网卡用户:
如互联网卡用户偏爱较低资费且、偏爱流量较多的套餐;且互联网卡用户偏爱在夜间至凌晨时间段上网,可适当增加套餐内夜间免费流量的比例;如互联网卡用户对免费通话时长的需求不大,可适当降低免费通话时长增加数据流量。综合以上四点在制定套餐时应具有:低资费、高流量(夜间流量占一定比例)、低通话时长的特点。
第二种应用:从历史数据中获取不同用户不同时期的用户画像数据并对其进行标注,其中,标注类别包括未流失、即将流失以及已流失;使用标注好的用户画像数据训练构建好的神经网络模型,并使用训练好的神经网络模型对互联网卡用户进行预测,得到即将流失的互联网卡用户名单,再比对即将流失的互联网卡用户的实时用户画像数据与同画像属性,且未流失互联网卡用户的其他画像数据的区别,基于所述区别定制或推荐特定化的优惠套餐给即将流失的互联网卡用户,以干预即将流失的互联网卡用户的流失。
第三种应用:根据上述画像特征,结合企业需求,对上述不同的特征分配不同的权重,对用户进行打分,根据分数进行评级分类,充分挖掘各个用户的价值,筛选出优质、高质量用户,以构建用户的价值体系方法。计算公式为:
Figure 989618DEST_PATH_IMAGE033
其中,
Figure 705901DEST_PATH_IMAGE034
为分数,
Figure 307784DEST_PATH_IMAGE035
为第k个特征,
Figure 16983DEST_PATH_IMAGE036
为第k个特征的权重,n为特征总 数。其中,所述权重可通过层次分析法实现或者强相关算法实现,即通过层次分析法分析并 量化不同特征对企业需求目标的影响大小,或者通过强相关算法分析不同特征对企业需求 目标的实现的强相关性来设置权重。
综上所述,本发明中的基于大数据分析的互联网卡用户画像构建方法及系统,通过对互联网卡用户进行了多维度立体的分析,刻画出了互联网卡用户的基本属性特征以及上网行为特征,可用于指导运营商进行精准营销与战略调整以及用户价值体系构建的方法。同时刻画出了流失用户的离网行为特征,运营商可根据流失特征进行用户流失预测,可利用此特征提高预测精度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据分析的互联网卡用户画像构建方法,其特征在于,包括以下步骤:
收集互联网卡用户的用户属性信息以及用户行为信息,对所述用户属性信息以及用户行为信息进行异常值检测以及数据清洗;
对清洗完的互联网卡用户的用户属性信息进行对比分析、交叉分析,得到互联网用户的属性特征;
对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析,得到不同用户属性的互联网卡用户的上网行为特征;
对不同用户属性的互联网卡用户的用户行为信息进行离网行为分析,得到不同用户属性的互联网卡用户的离网行为特征;
基于所述属性特征、上网行为特征以及离网行为特征构建用户画像,并使用所述用户画像进行用户流失预测/精准营销/互联网卡用户价值体系的构建。
2.根据权利要求2所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述用户属性信息包括:年龄、性别、套餐、套餐金额、账户余额、月消费金额、日消耗的流量数据以及用户开卡以来的在网时长、所使用的手机价格;所述用户的属性特征包括:
(1)16-25岁之间的用户可以占比达50%以上,互联网卡用户男女比例约为7:3,互联网卡更受男性欢迎;
(2)不同年龄段的月消费金额在均值和中位值上表现非常接近;
(3)套餐资费低,流量高,定向流量支持的APP的互联网卡使用率高;
(4)互联网卡用户账户余额维持在一个低水平且不同年龄段之间有差距不大;
(5)互联网卡用户的账户余额与其套餐费用均值大致相等;
(6)互联网卡用户的离网率在7%左右,且用户黏性低;
(7)互联网卡用户存在流量消耗高,用户群体使用流量不均匀;
(8)不同价位套餐的选择与手机机型价格有关联。
3.根据权利要求1所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述用户行为数据包括日下行流量和、日上行流量和、日上网时间和、日上网记录条数、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数、日通话所连基站数、日流量使用量、日通话频率、日平均通话时长、月通话频率、月平均通话时长、近3个月单停次数、近3个月双停次数、APP使用时长以及APP使用流量。
4.根据权利要求2所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述上网行为特征包括:
(1)互联网卡用户通话行为频率低,互联网卡用户不将互联网卡作为联系人卡使用:
(2)互联网卡用户手机价格服从于正态分布,主要集中的区间在1000元-2999元之间互联网卡用户手机价格与用户的套餐价格进行关联分析,发现随着手机价格的上升,低价套餐的被选择率仍居首位,但价格比较高的套餐被选择的频率也在升高,呈线性关系;
(3)互联网卡用户除2:00-6:00外,每小时流量处于一个高消耗状态,其中20:00-次日1:00是一个高峰阶段,而传统网卡用户的高峰阶段则是为18:00-22:00;
(4)目前阿里系和腾讯系的产品最受互联网卡用户欢迎,用户使用率达90%以上,百度系APP其次,用户使用率在70%以上,头条系APP用户使用率在50%左右,其中阿里系APP比较受女性用户的喜爱,腾讯系APP一定程度上更受男性用户欢迎;社交APP用户使用率为首位,其次为出行、购物、视频、支付、音乐。
5.根据权利要求3所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,对不同用户属性的互联网卡用户的用户行为信息进行上网行为分析还包括以下步骤:
(1)从空间角度刻画用户轨迹行为,以用户日通话所连基站数为依据,提取出每日连接的基站信息,刻画用户轨迹,研究其活动范围,对用户的轨迹进行聚类分析,找到所在区域相同的人,打上标签,找到不同区域内用户的特征;
(2)对社交、购物、金融支付、游戏、视频、音乐、出行APP进行以及对应的用户年龄,性别进行交叉分析,得出最受用户欢迎的APP,同时分析每类APP所消耗的流量。
6.根据权利要求5所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述离网行为特征包括活跃熵、行为异常天数、目标编码标签以及用户月停机次数。
7.根据权利要求6所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述活跃熵的计算方法包括:用日上行流量和构建月上行流量序列,用日下行流量和构建月下行流量序列,用日上网时间和构建月上网时间序列,用日上网记录条数构建月上网记录条数序列,对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录条数序列中任一维度的数据,均执行以下步骤:
将所述维度的数据转换成时序行为序列
Figure 501736DEST_PATH_IMAGE001
,其中,d表示当月的 天数,
Figure 825401DEST_PATH_IMAGE002
表示第i天用户关于所述维度数据的统计值;
将所述维度数据的时序行为序列
Figure 136297DEST_PATH_IMAGE003
分成k个等宽的桶,并根据以下公式计算出所述维度 数据的活跃熵:
Figure 420254DEST_PATH_IMAGE004
其中,
Figure 765785DEST_PATH_IMAGE005
表示所述维度数据的时序行为序列
Figure 994772DEST_PATH_IMAGE003
的取值落在第i个桶的比例, k表示桶的 个数,
Figure 792964DEST_PATH_IMAGE006
表示所述维度数据的时序行为序列
Figure 444394DEST_PATH_IMAGE003
的长度,
Figure 519797DEST_PATH_IMAGE007
为指示函数,当
Figure 44319DEST_PATH_IMAGE008
Figure 955906DEST_PATH_IMAGE007
=1,否 则
Figure 224076DEST_PATH_IMAGE007
=0。
8.根据权利要求7所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,所述行为异常天数的计算包括以下步骤:
对于月上行流量序列、月下行流量序列、月上网时间序列以及月上网记录序列中任一维度的数据,均执行以下步骤:
将所述维度的数据转换成时序行为序列
Figure 153986DEST_PATH_IMAGE009
,其中,n表示当月 的天数,
Figure 114989DEST_PATH_IMAGE002
表示第i天用户关于所述维度数据的统计值;
计算所述时序行为序列
Figure 12406DEST_PATH_IMAGE010
的一阶前向差分序列
Figure 818688DEST_PATH_IMAGE011
, 其中,
Figure 868684DEST_PATH_IMAGE012
Figure 735009DEST_PATH_IMAGE013
表示所述一阶前向差分序列
Figure 198351DEST_PATH_IMAGE014
第i个差分值;
对于所述一阶前向差分序列
Figure 222371DEST_PATH_IMAGE014
中的任意个差分值
Figure 126873DEST_PATH_IMAGE013
,判断所述
Figure 632941DEST_PATH_IMAGE013
是否大于
Figure 114738DEST_PATH_IMAGE015
或小于
Figure 653036DEST_PATH_IMAGE016
,若所述
Figure 536678DEST_PATH_IMAGE013
大于
Figure 885751DEST_PATH_IMAGE017
或小于
Figure 854844DEST_PATH_IMAGE018
,则 判断
Figure 432718DEST_PATH_IMAGE013
对应的天数存在流量异常,
其中,
Figure 436446DEST_PATH_IMAGE019
为所述一阶前向差分序列
Figure 956420DEST_PATH_IMAGE014
的上四分位数,
Figure 412809DEST_PATH_IMAGE020
为所述一阶前向差分序列
Figure 89647DEST_PATH_IMAGE014
下 四分位数,IQR是四分位间距,为
Figure 292090DEST_PATH_IMAGE019
Figure 107599DEST_PATH_IMAGE020
之差。
9.根据权利要求8所述的基于大数据分析的互联网卡用户画像构建方法,其特征在于,将由日使用流量构建的月使用流量序列进行等距分桶,每个桶的宽度相同而每个桶中落入的值的数量不同,统计每个桶中的离网用户数量和总用户数量,这两个数量的比值作为目标编码标签作为特征赋给该桶的每个用户:
Figure 674453DEST_PATH_IMAGE021
其中k代表分桶个数,
Figure 233610DEST_PATH_IMAGE022
为第i个桶中离网用户个数,
Figure 821718DEST_PATH_IMAGE023
为第i个桶中总用户数量,
Figure 542549DEST_PATH_IMAGE024
为第 i个桶中用户的目标编码标签值;经后续的实验,桶分的越多,该特征越有效。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
CN202111298277.3A 2021-11-04 2021-11-04 基于大数据分析的互联网卡用户画像构建方法及系统 Pending CN114004654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111298277.3A CN114004654A (zh) 2021-11-04 2021-11-04 基于大数据分析的互联网卡用户画像构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111298277.3A CN114004654A (zh) 2021-11-04 2021-11-04 基于大数据分析的互联网卡用户画像构建方法及系统

Publications (1)

Publication Number Publication Date
CN114004654A true CN114004654A (zh) 2022-02-01

Family

ID=79927624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111298277.3A Pending CN114004654A (zh) 2021-11-04 2021-11-04 基于大数据分析的互联网卡用户画像构建方法及系统

Country Status (1)

Country Link
CN (1) CN114004654A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663132A (zh) * 2022-03-02 2022-06-24 厦门文杉信息科技有限公司 一种基于实时用户画像的智能营销方法及装置
CN115604130A (zh) * 2022-12-01 2023-01-13 中南大学(Cn) App流行度预测模型构建方法、预测方法、设备及存储介质
CN117858132A (zh) * 2024-03-07 2024-04-09 济南光路科技有限公司 一种基于云计算设备管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615226A (zh) * 2018-12-12 2019-04-12 焦点科技股份有限公司 一种运营指标异常监测方法
CN110134878A (zh) * 2019-05-16 2019-08-16 哈尔滨工业大学 基于用户偏好与服务变化双向感知的移动服务推荐方法
CN112544059A (zh) * 2018-07-27 2021-03-23 诺基亚通信公司 用于网络流量分析的方法、设备和系统
CN112561598A (zh) * 2020-12-23 2021-03-26 中国农业银行股份有限公司重庆市分行 基于客户画像的客户流失预测及挽回方法和系统
CN113391988A (zh) * 2021-06-29 2021-09-14 中国工商银行股份有限公司 流失用户留存的方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112544059A (zh) * 2018-07-27 2021-03-23 诺基亚通信公司 用于网络流量分析的方法、设备和系统
CN109615226A (zh) * 2018-12-12 2019-04-12 焦点科技股份有限公司 一种运营指标异常监测方法
CN110134878A (zh) * 2019-05-16 2019-08-16 哈尔滨工业大学 基于用户偏好与服务变化双向感知的移动服务推荐方法
CN112561598A (zh) * 2020-12-23 2021-03-26 中国农业银行股份有限公司重庆市分行 基于客户画像的客户流失预测及挽回方法和系统
CN113391988A (zh) * 2021-06-29 2021-09-14 中国工商银行股份有限公司 流失用户留存的方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑正广等: "基于大数据技术的腾讯王卡用户画像构建研究", 《邮电设计技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663132A (zh) * 2022-03-02 2022-06-24 厦门文杉信息科技有限公司 一种基于实时用户画像的智能营销方法及装置
CN115604130A (zh) * 2022-12-01 2023-01-13 中南大学(Cn) App流行度预测模型构建方法、预测方法、设备及存储介质
CN115604130B (zh) * 2022-12-01 2023-03-14 中南大学 App流行度预测模型构建方法、预测方法、设备及存储介质
CN117858132A (zh) * 2024-03-07 2024-04-09 济南光路科技有限公司 一种基于云计算设备管理系统及方法
CN117858132B (zh) * 2024-03-07 2024-05-24 济南光路科技有限公司 一种基于云计算设备管理系统及方法

Similar Documents

Publication Publication Date Title
Wu et al. Integrated churn prediction and customer segmentation framework for telco business
CN114004654A (zh) 基于大数据分析的互联网卡用户画像构建方法及系统
Lu et al. A customer churn prediction model in telecom industry using boosting
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN110163647B (zh) 一种数据处理方法及装置
CN110119948B (zh) 基于时变权重动态组合的电力用户信用评价方法及系统
CN109636481A (zh) 面向家庭用户的用户画像构建方法及装置
CN107146089A (zh) 一种刷单识别方法及装置,电子设备
CN111178624A (zh) 一种新产品需求预测的方法
CN110674993A (zh) 一种用户负荷短期预测方法和装置
CN110880127B (zh) 消费水平的预测方法、装置、电子设备及存储介质
Yilmaz et al. Synthetic demand data generation for individual electricity consumers: Generative Adversarial Networks (GANs)
CN108629379A (zh) 一种个人征信评估方法及系统
CN108133390A (zh) 用于预测用户行为的方法和装置以及计算设备
CN112418485A (zh) 基于负荷特性和用电行为模式的家庭负荷预测方法及系统
CN106919995A (zh) 一种判断用户群体流失倾向的方法及装置
AU2014201264A1 (en) Scenario based customer lifetime value determination
CN115375205A (zh) 一种用水用户画像的确定方法、装置及设备
CN107977855B (zh) 一种管理用户信息的方法及装置
CN109492863A (zh) 金融单证的自动生成方法及装置
CN110443265A (zh) 一种基于社团的行为检测方法和装置
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
Qiuru et al. Telecom customer segmentation based on cluster analysis
DeSarbo et al. A friction model for describing and forecasting price changes
CN117056591A (zh) 基于动态预测的电力缴费渠道智能推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220201

RJ01 Rejection of invention patent application after publication