CN108269118B - 一种数据分析的方法和装置 - Google Patents
一种数据分析的方法和装置 Download PDFInfo
- Publication number
- CN108269118B CN108269118B CN201710002685.7A CN201710002685A CN108269118B CN 108269118 B CN108269118 B CN 108269118B CN 201710002685 A CN201710002685 A CN 201710002685A CN 108269118 B CN108269118 B CN 108269118B
- Authority
- CN
- China
- Prior art keywords
- consumption
- parameter
- time
- sampling
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000007405 data analysis Methods 0.000 title claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 157
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000013256 coordination polymer Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/47815—Electronic shopping
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据分析的方法和装置,该方法包括:在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算所述时间参数,得到消费意愿参数;提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体,解决由于现有RFM模型对评估用户数据反馈分析结果不精确,导致的分析报告可参考意义价值低的问题,达到提升用户数据分析结果精确率效果。
Description
技术领域
本发明涉及互联网技术应用领域,具体而言,涉及一种数据分析的方法和装置。
背景技术
目前在交互式网络电视(Interactive Personality TV,简称IPTV)领域,用户营销手段偏向传统:运营商在电视上展示可供用户订购的内容后,用户浏览后在机顶盒上发起订购。这种订购方式全凭用户兴趣喜好,运营商完全处于被动,也无法有效识别用户,因此,急需开发一套有效的数学模型来分析用户消费行为。
最近一次消费、消费频率、消费金额(Regency、Frequency、Monetary,简称RFM)模型是一种衡量用户价值和分析消费行为的重要工具和手段,现有技术中用户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:
其中,最近一次消费(Regency):用户最近一次购买时间与分析时间点的间隔天数。最近一次消费的时间间隔是用户关系保持的一个重要指标。用户最近一次消费的时间比较近,可以认为用户再次购买的可能性比较大,即造成“回头客”的概率比较大。因此,越是消费时间越近的用户越优质,对企业提供的相关的服务和促销活动也最有吸引力。
消费频率(Frequency):统计期间内用户购买产品的次数。在统计期间内,消费频率较多,通常代表对产品满意度较高,用户对产品或品牌的忠诚度也比较高。
消费金额(Monetary):统计期间内用户消费的总金额。总金额越大,代表用户为企业创造的价值也越大。
针对以上三个指标,每个指标按照从大到小划分成五等份,结合起来就是125类用户群,对不同的用户群进行数据分析,可以采取不同的营销策略。比如,每项排前20%的用户是优质用户,应该尽力维持好与他们的用户关系。排在中间60%的用户,是我们要尽量争取的用户,应加大对这些用户群的投资力度。
RFM根据用户的历史消费行为,能够较为精确的判断出用户价值和潜在价值,进一步细分成目标用户群,为企业的营销策略和经营决策提供参考依据。
RFM也存在一定的缺陷,首先,125类用户群区分太细,实际应用中难以掌控如此多的用户群并且制定相应的营销策略;其次,不同用户之间的消费间隔与消费频率伴随着消费习惯的不同而不一样,不能对用户之间对最后一次消费指标和消费频率指标进行纵向比较,也无法直接反映出用户的消费趋势,而这个却是用户关系管理中比较重要的指标之一。
针对相关技术中由于现有RFM模型对评估用户数据反馈分析结果不精确,导致的分析报告可参考意义价值低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据分析的方法和装置,以至少解决由于现有RFM模型对评估用户数据反馈分析结果不精确,导致的分析报告可参考意义价值低的问题。
根据本发明的一个实施例,提供了一种数据分析的方法,包括:在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体。
可选的,在通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数之前,该方法还包括:在预设的采样时间中,统计采样时长;在采样时间中,提取距离采样时长的采样截止时间为预设阈值的消费间隔时间;统计在采样时长中的消费总次数和总消费金额。
进一步地,可选的,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数包括:依据采样时长和消费总次数之间的第一数学关系,得到在采样时长中消费平均间隔时间;依据消费平均间隔时间和距离采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到消费意愿参数,其中,第一数学关系包括:AT=T/F;其中,AT为消费平均间隔时间,
其中,I为消费意愿参数,AT为消费平均间隔时间,NT为距离采样时长的采样截止时间为预设阈值的消费间隔时间;预设算法包括:第一数学关系和第二数学关系。
可选的,提取采样区间中的消费数据,得到消费能力参数包括:将消费总次数确定为消费能力参数。
可选的,依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数包括:将消费意愿参数和消费能力参数相乘,得到价值参数。
进一步地,可选的,依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体包括:在采样区间中随机采集k个用户的价值参数,其中,k为整数,且k大于1;提取与k个用户的价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;依据N个用户标本与k个用户的价值参数之间的关系进行分类,得到区间;划分区间,得到区间对应的数据群体。
根据本发明的另一个实施例,提供了一种数据分析的装置,包括:第一计算模块,用于在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;第一提取模块,用于提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;第二计算模块,用于依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;分类模块,用于依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体。
可选的,该装置还包括:第一统计模块,用于在通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数之前,在预设的采样时间中,统计采样时长;第二提取模块,用于在采样时间中,提取距离采样时长的采样截止时间为预设阈值的消费间隔时间;第二统计模块,用于统计在采样时长中的消费总次数和总消费金额。
进一步地,可选的,第一计算模块包括:第一计算单元,用于依据采样时长和消费总次数之间的第一数学关系,得到在采样时长中消费平均间隔时间;第二计算单元,用于依据消费平均间隔时间和距离采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到消费意愿参数,其中,第一数学关系包括:AT=T/F;其中,AT为消费平均间隔时间,T为采样时长,F为消费总次数;第
其中,I为消费意愿参数,AT为消费平均间隔时间,NT为距离采样时长的采样截止时间为预设阈值的消费间隔时间;预设算法包括:第一数学关系和第二数学关系。
可选的,第一提取模块包括:第一提取单元,用于将消费总次数确定为消费能力参数。
可选的,第二计算模块包括:第三计算单元,用于将消费意愿参数和消费能力参数相乘,得到价值参数。
进一步地,可选的,分类模块包括:采集单元,用于在采样区间中随机采集k个用户的价值参数,其中,k为整数,且k大于1;第二提取单元,用于提取与k个用户的价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;第一分类单元,用于依据N个用户标本与k个用户的价值参数之间的关系进行分类,得到区间;第二分类单元,用于划分区间,得到区间对应的数据群体。
根据本发明的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:在通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数之前,该方法还包括:在预设的采样时间中,统计采样时长;在采样时间中,提取距离采样时长的采样截止时间为预设阈值的消费间隔时间;统计在采样时长中的消费总次数和总消费金额。
进一步地,可选地,存储介质还设置为存储用于执行以下步骤的程序代码:通过在预先获取的采样区间中提取时间参数,并依据时间参数进行计算,得到消费意愿参数包括:依据采样时长和消费总次数之间的第一数学关系,得到在采样时长中消费平均间隔时间;依据消费平均间隔时间和距离采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到消费意愿参数,其中,第一数学关系包括:AT=T/F;其中,AT为消费平均间隔时间,T为采样时长,
其中,I为消费意愿参数,AT为消费平均间隔时间,NT为距离采样时长的采样截止时间为预设阈值的消费间隔时间;预设算法包括:第一数学关系和第二数学关系。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:提取采样区间中的消费数据,得到消费能力参数包括:将消费总次数确定为消费能力参数。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数包括:将消费意愿参数和消费能力参数相乘,得到价值参数。
进一步地,可选地,存储介质还设置为存储用于执行以下步骤的程序代码:依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体包括:在采样区间中随机采集k个用户的价值参数,其中,k为整数,且k大于1;提取与k个用户的价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;依据N个用户标本与k个用户的价值参数之间的关系进行分类,得到区间;划分区间,得到区间对应的数据群体。
通过本发明,由于在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体,因此,可以解决由于现有RFM模型对评估用户数据反馈分析结果不精确,导致的分析报告可参考意义价值低的问题,达到提升用户数据分析结果精确率效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据分析的方法的流程图;
图2是IPTV系统架构简图;
图3是固定消费次数(F=2)的用户消费意愿走势图;
图4是固定最近一次消费时间(NT=3天)的用户消费意愿走势图;
图5是使用K-means工具对用户标本数据集进行聚类划分的流程图;
图6是根据本发明实施例的数据分析的装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例涉及的技术名词:
DB:Database,数据库;
CDN:Content Delivery Network,内容分发网络;
STB:Set Top Box,机顶盒;
EPG:Electronic Program Guide,电子节目指南;
IPTV:Internet Protocol Television,网络协议电视。
实施例1
在本实施例中提供了一种数据分析的方法,图1是根据本发明实施例的数据分析的方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;
步骤S104,提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;
步骤S106,依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;
步骤S108,依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体。
具体的,结合步骤S102至步骤S108中可知,本申请实施例提供的数据分析的方法可以适用于网络协议电视(Internet Protocol Television,简称IPTV),该IPTV的系统架构简图如图2所示,图2是IPTV系统架构简图,本申请实施例提供的数据分析的方法描述IPTV用户是在机顶盒(Set Top Box,简称STB)上订购节目内容,系统在业务处理侧CP出用户订购话单,是本申请实施例提供的数据分析的方法的数据来源。通过上述步骤S102至步骤S108,本申请实施例提供的数据分析的方法通过提出在采样区间中,提取时间参数计算每个消费者的消费意愿参数,以及提取每个消费者的消费能力参数,结合消费意愿参数和消费能力参数计算得到每个消费者的价值参数,通过聚类算法依据该价值参数进行分类,得到各个分类对应的消费群体。
本申请实施例提供的数据分析的方法中,由于在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体,因此,可以解决由于现有RFM模型对评估用户数据反馈分析结果不精确,导致的分析报告可参考意义价值低的问题,达到提升用户数据分析结果精确率效果。
可选的,在步骤S102中在通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数之前,本申请实施例提供的数据分析的方法还包括:
步骤S99,在预设的采样时间中,统计采样时长;
步骤S100,在采样时间中,提取距离采样时长的采样截止时间为预设阈值的消费间隔时间;
步骤S101,统计在采样时长中的消费总次数和总消费金额。
进一步地,可选的,步骤S102中通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数包括:
Step1,依据采样时长和消费总次数之间的第一数学关系,得到在采样时长中消费平均间隔时间;
Step2,依据消费平均间隔时间和距离采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到消费意愿参数,其中,第一数学关系包括:
AT=T/F;
其中,AT为消费平均间隔时间,T为采样时长,F为消费总次数;
其中,I为消费意愿参数,AT为消费平均间隔时间,NT为距离采样时长的采样截止时间为预设阈值的消费间隔时间;预设算法包括:第一数学关系和第二数学关系。
可选的,步骤S104中提取采样区间中的消费数据,得到消费能力参数包括:
Step1,将消费总次数确定为消费能力参数。
可选的,步骤S106中依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数包括:
Step1,将消费意愿参数和消费能力参数相乘,得到价值参数。
进一步地,可选的,步骤S108中依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体包括:
Step1,在采样区间中随机采集k个用户的价值参数,其中,k为整数,且k大于1;
Step2,提取与k个用户的价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;
Step3,依据N个用户标本与k个用户的价值参数之间的关系进行分类,得到区间;
Step4,划分区间,得到区间对应的数据群体。
综上,本申请实施例提供的数据分析的方法基于RFM模型提出对IPTV用户的评价指标:
(1)消费意愿(Intention):I=(AT-NT)/AT
其中,AT为用户在统计时间段内消费平均间隔时间,NT为用户距统计时间段截止时间最近一次消费的时间间隔,假设统计时间段总长为T,统计时间内消费总次数为F,则AT=T/F,以上公式可变换为:
消费意愿指标反映的是用户再次消费的意愿指数,是用户对产品的满意度和忠诚度在实际消费行为的体现。特别是在一个连续时间内的观测,意愿指标能够预测用户未来一段时间内的消费趋势。
(2)消费能力(Ability):A
消费能力指标反映的是用户等级以及用户购买力,在IPTV领域,用户消费能力指标体现在统计时间段内用户的购买金额。一般意义上,在相同时间段内,购买金额越高,反应出这个用户的消费能力越强。
综合以上两个要素,用户的价值(V)=消费意愿(I)*消费能力(A),用户的综合价值可以理解成能够为IPTV运营创造多少收益,一方面体现在用户的消费意愿上,即用户有多大意愿购买产品,另一方面也体现在用户的消费能力上。综合以上两个指标,可以反映出RFM模型无法体现的用户消费趋势,基于以上模型,可以采用K-means等工具对用户群进行聚类划分,能够比较精准地划分出各目标用户群,提高IPTV用户营销投放的准确度。
具体的,本申请实施例提供的数据分析的方法具体如下:
1、IPTV用户消费行为数据采集与数据过滤,主要采集与本发明模型相关的数据参数,设定统计时间段:从统计开始时间(如2015-06-01 00:00:00)到统计截止时间(如2015-06-30 23:59:59),其他需要采集的参数如下:
统计时长T=统计截止时间-统计开始时间,精确到秒。
离统计截止时间最近一次消费的时间间隔NT,精确到秒。
统计时间段内消费总次数F,单位为次数。
消费能力A,统计时间段内用户的总消费金额。
2、比较不同用户之间的消费意愿:根据公式I=1-NT*F/T,在相同的统计时间范围内,不同用户的T值相同,因此NT和F这两个参数决定了用户之间的消费意愿的水平高低。
假设存在两个不同用户,他们在统计阶段内消费次数F相同,则最近一次消费时间间隔NT决定了他们之间的消费意愿高低。图3是固定消费次数(F=2)的用户消费意愿走势图,如附图3所示为抽取F=2的用户数据,体现了统计时间段内最近一次消费时间间隔与消费意愿之间的关系,NT越小,消费意愿I越高;反之,则越低。
假设存在两个不同用户,他们在统计阶段内最近一次消费时间间隔NT相同,则统计阶段内的消费次数F决定了他们之间的消费意愿高低。图4是固定最近一次消费时间(NT=3天)的用户消费意愿走势图,如附图4所示为抽取NT=3天的用户数据,体现了统计时间段内消费次数与消费意愿之间的关系,F越小,消费意愿I越高;反之,则越低。
3、使用工具基于以上数据集进行用户价值分析,以下我们以K-means算法为例说明用户群聚类划分的数据分析方法,应该提出的是,用户价值分析方法包括但不局限于K-means一种方法。
图5是使用K-means工具对用户标本数据集进行聚类划分的流程图,如图5所示,使用K-means分析过程如下:
步骤1,制定目标用户群数:K。
步骤2,在数据集中随机地选取K个用户标本,这K个标本代表每一簇用户群的中心点。
步骤3,计算数据集中每一个用户标本与簇中心的距离,计算完成后,把每一个用户标本放入与其距离最小的的簇中。
步骤4,对于划分好的簇,重新计算该簇的平均距离,并以这个平均距离作为该簇的中心点。
步骤5,重复步骤3和步骤4两个过程,直到每个簇都不再发生变化为止。
在迭代过程中,通常采用目标函数F来检验聚类结果的好坏:
其中,F为数据集中所有标本误差的总和,v是数据集中的用户标本,Ci为第i个用户群簇的中心点,d为两点之间的距离。
在发明模型中,v体现为用户价值,值等于AI,两个用户之间的价值距离为:
d(i,j)=|vi-vj|
通过上述聚类过程后,我们便会得到几类具有相似价值的用户群,例如,在制定目标用户群数K=4的模型下,对200万IPTV用户的订购话单数据进行为期1个月的统计分析,可以得到用户的价值数据,再对这些用户的用户价值进行聚类分析,得出以下四种用户客户群:
重要用户(42w):主要体现为高购买意愿高消费能力的用户,是IPTV的黄金用户,这类用户对IPTV的忠诚度高,对节目的认可度高,能够给IPTV运营创造较大的收益。按照“二八”原则,IPTV业务80%的收益来源于此类用户群,维持此类用户的关系,是IPTV保持竞争力的关键。
重要发展用户(104w):这种用户的购买意愿与消费能力随着时间的推移在一个比较低的水平趋于稳定,购买意愿在零线附近起伏,IPTV的营销重心应该多在此类用户群上投入资本,提高其购买意愿,争取发展为重要用户。
流失用户(17w):此类用户的购买意愿呈下降趋势,购买意愿呈负值,并且有进一步扩大倾向。此类用户极可能正在往竞争对手方向发展,或者因为种种原因对产品产生不满,关注此类用户,一方面可以为IPTV业务挽回损失,另一方面也可以了解IPTV产品的缺陷和不足,以及跟竞争对手之间的差距,从而加深对数字电视市场的了解。
不活跃用户(37w):此用户多为尝试性购买用户,在统计阶段只有零星购买行为,在确定该产品或者服务符合自己的预期后,才会继续购买,此类用户隐藏着消费潜力,一定要注意发现并且满足他们的预期,才能进一步刺激他们的消费欲望。
需要说明的是本申请实施例提供的上述示例仅为实现本申请实施例提供的数据分析的方法,以实现本申请实施例提供的数据分析的方法为准,具体不做限定,其中,本申请实施例提出的聚类算法以K-means算法为优选实施例,但不限于该算法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
在本实施例中还提供了一种数据分析的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的数据分析的装置的结构框图,如图6所示,该装置包括:
第一计算模块62,用于在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;
第一提取模块64,用于提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;
第二计算模块66,用于依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;
分类模块68,用于依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体。
本申请实施例提供的数据分析的装置中,由于在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示购买力;依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体,因此,可以解决由于现有RFM模型对评估用户数据反馈分析结果不精确,导致的分析报告可参考意义价值低的问题,达到提升用户数据分析结果精确率效果。
可选的,本申请实施例提供的数据分析的装置还包括:
第一统计模块,用于在通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数之前,在预设的采样时间中,统计采样时长;第二提取模块,用于在采样时间中,提取距离采样时长的采样截止时间为预设阈值的消费间隔时间;第二统计模块,用于统计在采样时长中的消费总次数和总消费金额。
进一步地,可选的,第一计算模块62包括:第一计算单元,用于依据采样时长和消费总次数之间的第一数学关系,得到在采样时长中消费平均间隔时间;第二计算单元,用于依据消费平均间隔时间和距离采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到消费意愿参数,其中,第一数学关系包括:AT=T/F;其中,AT为消费平均间隔时间,T为采样时长,F为消费总次数;第
其中,I为消费意愿参数,AT为消费平均间隔时间,NT为距离采样时长的采样截止时间为预设阈值的消费间隔时间;预设算法包括:第一数学关系和第二数学关系。
可选的,第一提取模块64包括:第一提取单元,用于将消费总次数确定为消费能力参数。
可选的,第二计算模块66包括:第三计算单元,用于将消费意愿参数和消费能力参数相乘,得到价值参数。
进一步地,可选的,分类模块68包括:采集单元,用于在采样区间中随机采集k个用户的价值参数,其中,k为整数,且k大于1;第二提取单元,用于提取与k个用户的价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;第一分类单元,用于依据N个用户标本与k个用户的价值参数之间的关系进行分类,得到区间;第二分类单元,用于划分区间,得到区间对应的数据群体。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数;
S2,提取采样区间中的消费数据,得到消费能力参数,其中,消费能力参数用于指示用户等级和购买力;
S3,依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数;
S4,依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行在通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数之前,该方法还包括:在预设的采样时间中,统计采样时长;在采样时间中,提取距离采样时长的采样截止时间为预设阈值的消费间隔时间;统计在采样时长中的消费总次数和总消费金额。
进一步地,可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行通过在预先获取的采样区间中提取时间参数,并依据预设算法计算时间参数,得到消费意愿参数包括:依据采样时长和消费总次数之间的第一数学关系,得到在采样时长中消费平均间隔时间;依据消费平均间隔时间和距离采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到消费意愿参数,其中,第一数学关系包括:AT=T/F;其中,AT为消费平均间隔时间,T为
其中,I为消费意愿参数,AT为消费平均间隔时间,NT为距离采样时长的采样截止时间为预设阈值的消费间隔时间;预设算法包括:第一数学关系和第二数学关系。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行提取采样区间中的消费数据,得到消费能力参数包括:将消费总次数确定为消费能力参数。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行依据消费意愿参数和消费能力参数之间的数学关系,得到价值参数包括:将消费意愿参数和消费能力参数相乘,得到价值参数。
进一步地,可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行依据预设聚类算法划分每个用户的价值参数所处的区间,得到区间对应的数据群体包括:在采样区间中随机采集k个用户的价值参数,其中,k为整数,且k大于1;提取与k个用户的价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;依据N个用户标本与k个用户的价值参数之间的关系进行分类,得到区间;划分区间,得到区间对应的数据群体。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种数据分析的方法,其特征在于,包括:
通过网络协议电视对应的处理器执行以下步骤:
在交互式网络电视IPTV系统中,获取数据分析模型的待分析指标,其中,所述待分析指标至少包括:目标消费意愿参数对应的第一指标、目标消费能力参数对应的第二指标、目标价值参数对应的第三指标;
在确定所述待分析指标的情况下,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算所述时间参数,得到消费意愿参数;其中,所述采样区间对应的数据为用户在机顶盒上订购节目内容之后所述交互式网络电视IPTV系统在业务处理侧CP出的用户订购话单;
提取所述采样区间中的消费数据,得到消费能力参数,其中,所述消费能力参数用于指示购买力;
依据所述消费意愿参数和所述消费能力参数之间的数学关系,得到价值参数;
根据所述消费意愿参数确定目标第一指标,根据所述消费能力参数确定目标第二指标,根据所述价值参数确定目标第三指标,以确定所述数据分析模型对所述用户订购话单的分析结果;
依据预设聚类算法划分每个用户的所述价值参数所处的区间,得到所述区间对应的数据群体;
其中,所述时间参数包括:采样区间包括的不同统计时间段的统计时长、不同统计时间段中离统计截止时间最近一次消费的时间间隔;所述消费数据包括:不同统计时间段内的消费总次数、不同统计时间段内用户的总消费金额;
其中,所述通过在预先获取的采样区间中提取时间参数,并依据预设算法计算所述时间参数,得到消费意愿参数包括:
依据采样时长和所述消费总次数之间的第一数学关系,得到在所述采样时长中消费平均间隔时间;
依据所述消费平均间隔时间和距离所述采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到所述消费意愿参数,其中,所述第一数学关系包括:
AT=T/F;
其中,AT为所述消费平均间隔时间,T为所述采样时长,F为所述消费总次数;
所述第二数学关系包括:
I=(AT-NT)/AT= =1-NT×F/T;
其中,I为所述消费意愿参数,AT为所述消费平均间隔时间,NT为所述距离所述采样时长的采样截止时间为预设阈值的消费间隔时间;所述预设算法包括:第一数学关系和第二数学关系;
其中,所述提取所述采样区间中的消费数据,得到消费能力参数包括:将所述消费总次数确定为所述消费能力参数;
其中,所述依据所述消费意愿参数和所述消费能力参数之间的数学关系,得到价值参数包括:将所述消费意愿参数和所述消费能力参数相乘,得到所述价值参数。
2.根据权利要求1所述的方法,其特征在于,在所述通过在预先获取的采样区间中提取时间参数,并依据预设算法计算所述时间参数,得到消费意愿参数之前,所述方法还包括:
在预设的采样时间中,统计采样时长;
在所述采样时间中,提取距离所述采样时长的采样截止时间为预设阈值的消费间隔时间;
统计在所述采样时长中的消费总次数和总消费金额。
3.根据权利要求1所述的方法,其特征在于,所述依据预设聚类算法划分每个用户的所述价值参数所处的区间,得到所述区间对应的数据群体包括:
在所述采样区间中随机采集k个用户的所述价值参数,其中,k为整数,且k大于1;
提取与所述k个用户的所述价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;
依据所述N个用户标本与所述k个用户的所述价值参数之间的关系进行分类,得到所述区间;
划分所述区间,得到所述区间对应的数据群体。
4.一种数据分析的装置,其特征在于,应用于网络协议电视对应的处理器,包括:
第一计算模块,用于在交互式网络电视IPTV系统中,通过在预先获取的采样区间中提取时间参数,并依据预设算法计算所述时间参数,得到消费意愿参数;其中,所述采样区间对应的数据为用户在机顶盒上订购节目内容之后所述交互式网络电视IPTV系统在业务处理侧CP出的用户订购话单;
第一提取模块,用于提取所述采样区间中的消费数据,得到消费能力参数,其中,所述消费能力参数用于指示购买力;
第二计算模块,用于依据所述消费意愿参数和所述消费能力参数之间的数学关系,得到价值参数;
分类模块,用于依据预设聚类算法划分每个用户的所述价值参数所处的区间,得到所述区间对应的数据群体;
其中,所述时间参数包括:采样区间包括的不同统计时间段的统计时长、不同统计时间段中离统计截止时间最近一次消费的时间间隔;所述消费数据包括:不同统计时间段内的消费总次数、不同统计时间段内用户的总消费金额;
所述第一计算模块包括:
第一计算单元,用于依据采样时长和所述消费总次数之间的第一数学关系,得到在所述采样时长中消费平均间隔时间;
第二计算单元,用于依据所述消费平均间隔时间和距离所述采样时长的采样截止时间为预设阈值的消费间隔时间之间的第二数学关系,得到所述消费意愿参数,其中,所述第一数学关系包括: AT=T/F;其中,AT为所述消费平均间隔时间,T为所述采样时长,F为所述消费总次数;所述第二数学关系包括: I=(AT-NT)/AT= =1-NT×F/T;其中,I为所述消费意愿参数,AT为所述消费平均间隔时间,NT为所述距离所述采样时长的采样截止时间为预设阈值的消费间隔时间;所述预设算法包括:第一数学关系和第二数学关系;
所述第一提取模块包括:
第一提取单元,用于将所述消费总次数确定为所述消费能力参数;
所述第二计算模块包括:
第三计算单元,用于将所述消费意愿参数和所述消费能力参数相乘,得到所述价值参数。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
第一统计模块,用于在所述通过在预先获取的采样区间中提取时间参数,并依据预设算法计算所述时间参数,得到消费意愿参数之前,在预设的采样时间中,统计采样时长;
第二提取模块,用于在所述采样时间中,提取距离所述采样时长的采样截止时间为预设阈值的消费间隔时间;
第二统计模块,用于统计在所述采样时长中的消费总次数和总消费金额。
6.根据权利要求4所述的装置,其特征在于,所述分类模块包括:
采集单元,用于在所述采样区间中随机采集k个用户的所述价值参数,其中,k为整数,且k大于1;
第二提取单元,用于提取与所述k个用户的所述价值参数距离小于预设阈值的N个用户标本,其中,N为整数,且N大于1;
第一分类单元,用于依据所述N个用户标本与所述k个用户的所述价值参数之间的关系进行分类,得到所述区间;
第二分类单元,用于划分所述区间,得到所述区间对应的数据群体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710002685.7A CN108269118B9 (zh) | 2017-01-03 | 2017-01-03 | 一种数据分析的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710002685.7A CN108269118B9 (zh) | 2017-01-03 | 2017-01-03 | 一种数据分析的方法和装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
CN108269118A CN108269118A (zh) | 2018-07-10 |
CN108269118B true CN108269118B (zh) | 2023-11-17 |
CN108269118B9 CN108269118B9 (zh) | 2024-01-02 |
Family
ID=62770765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710002685.7A Active CN108269118B9 (zh) | 2017-01-03 | 2017-01-03 | 一种数据分析的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108269118B9 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816043B (zh) * | 2019-02-02 | 2021-01-01 | 拉扎斯网络科技(上海)有限公司 | 用户识别模型的确定方法、装置、电子设备及存储介质 |
TW202113721A (zh) * | 2019-09-27 | 2021-04-01 | 治略資訊整合股份有限公司 | 會員回購商品的資訊處理系統與方法 |
CN112288455A (zh) * | 2020-01-09 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 标签生成方法及装置、计算机可读存储介质、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023175A (zh) * | 2015-07-24 | 2015-11-04 | 金鹃传媒科技股份有限公司 | 一种基于消费者行为数据分析和分类技术的在线广告分类推送方法及其系统 |
CN105139225A (zh) * | 2015-08-17 | 2015-12-09 | 北京京东世纪贸易有限公司 | 一种确定用户行为能力等级的方法和装置 |
CN105654311A (zh) * | 2015-12-24 | 2016-06-08 | 北京京东尚科信息技术有限公司 | 提供用户信息的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150332296A1 (en) * | 2014-05-19 | 2015-11-19 | International Business Machines Corporation | Predicting customer value |
-
2017
- 2017-01-03 CN CN201710002685.7A patent/CN108269118B9/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023175A (zh) * | 2015-07-24 | 2015-11-04 | 金鹃传媒科技股份有限公司 | 一种基于消费者行为数据分析和分类技术的在线广告分类推送方法及其系统 |
CN105139225A (zh) * | 2015-08-17 | 2015-12-09 | 北京京东世纪贸易有限公司 | 一种确定用户行为能力等级的方法和装置 |
CN105654311A (zh) * | 2015-12-24 | 2016-06-08 | 北京京东尚科信息技术有限公司 | 提供用户信息的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108269118B9 (zh) | 2024-01-02 |
CN108269118A (zh) | 2018-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033314B (zh) | 广告数据处理方法及装置 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN110222975A (zh) | 一种流失用户分析方法、装置、电子设备及存储介质 | |
CN110147803B (zh) | 用户流失预警处理方法与装置 | |
CN107689008A (zh) | 一种用户投保行为预测的方法及装置 | |
CN107093091B (zh) | 一种数据处理方法和装置 | |
CN108269118B (zh) | 一种数据分析的方法和装置 | |
CN110245687B (zh) | 用户分类方法以及装置 | |
Guney et al. | A combined approach for customer profiling in video on demand services using clustering and association rule mining | |
CN110782291A (zh) | 广告投放用户确定方法及装置、存储介质及电子装置 | |
CN115170294A (zh) | 一种客户分类方法、装置及服务器 | |
CN109754290B (zh) | 一种游戏数据的处理方法和装置 | |
CN104967690A (zh) | 一种信息推送方法及装置 | |
CN107180044A (zh) | 识别互联网用户性别方法和系统 | |
CN116127184A (zh) | 产品的推荐方法及装置、非易失性存储介质、电子设备 | |
CN108171530A (zh) | 一种用于客单价和复购率的提升方法及装置 | |
CN108171570A (zh) | 一种数据筛选方法、装置及终端 | |
CN110413926A (zh) | 一种问卷调查方法及装置 | |
CN106656943B (zh) | 一种网络用户属性的匹配方法及装置 | |
CN116934372A (zh) | 一种门店运营客户数据管理方法和系统 | |
CN109460778B (zh) | 活动评估方法、装置、电子设备及存储介质 | |
CN116610821A (zh) | 一种基于知识图谱的企业风险分析方法、系统和存储介质 | |
CN116542747A (zh) | 产品推荐方法、装置、存储介质及电子设备 | |
Hanner et al. | Counting Customers in Mobile Business–The Case of Free to Play | |
CN114881677A (zh) | 一种用户需求分析方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CI03 | Correction of invention patent | ||
CI03 | Correction of invention patent |
Correction item: Description Correct: Paragraphs 1-148 of the instruction manual submitted on July 12, 2017 False: Paragraphs 1-143 of the instruction manual submitted on the application date Number: 46-02 Page: ?? Volume: 39 |