CN106600042A - 一种手机用户上网时段预测方法 - Google Patents

一种手机用户上网时段预测方法 Download PDF

Info

Publication number
CN106600042A
CN106600042A CN201611103405.3A CN201611103405A CN106600042A CN 106600042 A CN106600042 A CN 106600042A CN 201611103405 A CN201611103405 A CN 201611103405A CN 106600042 A CN106600042 A CN 106600042A
Authority
CN
China
Prior art keywords
user
period
state
net
periods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611103405.3A
Other languages
English (en)
Inventor
方志祥
于冲
张韬
冯明翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201611103405.3A priority Critical patent/CN106600042A/zh
Publication of CN106600042A publication Critical patent/CN106600042A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种手机用户上网时段预测方法,其中周期性计算方法,是将固定时间间隔的用户上网状态的时间序列数据看作离散的信号,利用傅里叶来分析用户上网状态序列的周期性;其中差异性计算方法,是利用手机上网数据,通过探究手机用户群体上网对不同时间段的偏好,对一天24个时段的人数进行层次聚类,得到三个上网时间期,即高频时期、低频时期和过渡时期。其中预测方法,是基于前面的特征提出双向Markov混合模型、Lift‑Markov混合模型两种混合Markov预测模型,从不同角度对用户的上网时段进行预测,并在概率框架下结合起来。本发明数据获取方式简单、成本低,模型结构简单,准确率高。

Description

一种手机用户上网时段预测方法
技术领域
本发明属于手机上网预测技术领域,涉及一种手机上网行为预测方法,具体涉及一种混合Markov预测方法对手机用户上网行为周期性与差异性计算和上网时段预测的方法。
技术背景
目前,在手机上网预测方面的技术相对较少,一种方法是对有线上网时间的分布和偏好进行统计和预测,但是当前社会,手机上网以及成为用户接入网络空间的主要方式之一,而有线上网与手机上网的时间分布以及偏好存在着非常大啊的差异,因而该方法不能完全适用于手机上网的预测。第二种方法是直接对WAP访问和网页访问进行建模预测,但该方法缺少对手机用户上网规律的挖掘与分析,以及用户在网络空间的行为充分挖掘,所以准确率不高。上述两种方法都难以对手机用户上网时段的建模与预测手段。
发明内容
为了解决现有手机用户上网行为难以预测的问题,本发明提出一种混合Markov预测方法对用户上网行为进行预测的方法。
本发明所采用的技术方案是:一种手机用户上网时段预测方法,通过基于周期性和差异性预测手机用户上网时间段;其特征在于:
所述周期性的计算方法,是将固定时间间隔的用户上网状态的时间序列数据看作离散的信号,利用傅里叶来分析用户上网状态序列的周期性;
所述差异性的计算方法,是利用手机上网数据,通过探究手机用户群体上网对不同时间段的偏好,根据对不同时段人数的层次聚类将一天24个时段划分为三个上网时期,即高频时期、低频时期和过渡时期。
作为优选,所述基于手机用户群体上网的周期性和差异性对不同时期内的上网时段进行预测,其具体实现包括以下步骤:
步骤1:利用手机用户上网数据,将固定时间间隔的用户上网状态的时间序列数据看作离散的信号,利用傅里叶来分析用户上网状态序列的周期性;根据对不同时段人数的层次聚类将一天24个时段划分为三个上网时期,得到其差异性
步骤2:利用手机用户上网数据,根据其周期性和差异性计算三个不同时期内相邻两个时间段间,用户在三个时期是上网状态的转移概率矩阵,并根据当前时段上网状态,确定用户的状态分布;
步骤3:利用手机用户上网的计算三个不同时期内相邻两天,同一时间段间,用户在三个时期是上网状态的转移概率矩阵,并根据该时刻前一天上网状态,确定用户的状态分布;
步骤4:对步骤A2和步骤A3的结果进行加权平均,得到用户在目标时间段内上网的概率。
本发明具有如下优点:数据获取方式简单、成本低,模型结构简单,准确率高。
附图说明
附图1为本发明实施例的用户手机上网行为的时间特征存在周期性和差异性示意图。
附图2为本发明实施例中按照历史上网序列以及同一时段前后两天的状态转移对目标时段的上网行为进行预测示意图。
附图3为本发明实施例中LM模型与其他模型在准确率以及性能提升方面的比较图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
在实际生活中,用户使用手机发生上网行为时间特征是具有周期性和差异性的。如附图1(a)所示,同一天不同时段手机用户群体的上网人数存在较大的差异;用户群体的上网时间存在明显的以天为周期的周期性特征,偶有异常;虽然不同日期的同一时段上网人数存在一定的差异,但是每一天整体波动趋势几乎一样,都表现出双波峰的形态,即在12和18时间段出现上网人数高峰。说明用户使用手机发生上网行为是具有周期性的。
如附图1(b)所示,对一天24个时段的上网用户进行层次聚类,结果将24个时间段分为三大类,低频活动期,这一段时间用户大多处于晚上休息的状态手机上网用户较少;高频活动期,该时间段为手机上网用户较多的一类,用户大多处于工作或活动的状态;过渡时期时,也就是说用户群体从低频活动期过渡到高频活动期或由高频活动期过渡到低频活动期。尽管每一类中,各个时段的活跃程度存在一定的差异(比如:在高频活动期内也存在用户数较少的时间段),但是手机用户群体相似的上网时段确实存在。
手机用户上网时段预测的基本思路是:如图2所示,从纵横两个角度挖掘用户上网行为规律,不仅仅考虑了当前t时段的状态对t+1时段的影响,还考虑了用户前一天在t+1时段的状态对当前t+1时段的状态影响。这里假定手机用户每天上网状态的变化过程是一个马尔科夫过程,对于用户Ui,当用户在t时段所处的状态为已知时,过程在时段tn(tn>t)处的状态,只与过程在t时段所处的状态有关,而与过程在t时段之前所处的状态无关。这里根据对时段聚类的结果将一天划分为三个时期,并根据个体用户的周期性从历史数据中得到每个时期t时段到t+1时段状态转移概率矩阵。同时,本发明通过关联规则和马尔科夫链挖掘用户前后两天相同时段上网状态的关联关系或用户同一时段的上网规律。
为了尽可能提升预测的准确性,本发明采用纵横双向Markov混合模型(DM模型),所谓纵横双向是指同时考虑基于用户的历史上网状态序列计算得到用户在低频、高频和过渡时期三个状态转移概率矩阵,以及同一时段前后两天的状态转移概率矩阵,并在概率框架下结合双向的两种预测的状态概率,得到最后的预测状态。
这种预测方法具有以下特点:(1)根据Markov相关理论,考虑手机用户上一时间段的状态对于当前上网行为的影响;(2)根据关联规则,考虑了同一时间段前一天的手机用户上网行为对于当天该时段用户上网行为的影响。
以下通过具体实施例对本发明做进一步的阐述;
(1)以湖北省某城市2015年8月10号到2015年8月29号,共12.3万人的手机4G流量收费数据。数据记录了用户的上网信息,包括该上网的时间,地点(手机基站)流量等。其中,共有46494人的记录通过了以天为周期检验,这里对通过检验的人的记录根据是否有上网状态进行过滤,选取出每天都有手机上网状态记录的用户的共2101人的记录数据作为本发明实验的数据集。将前10天的数据划分为训练集,后10天的数据划分为测试集,每测试一天将一天的测试数据加入到训练数据进行下一天的测试实验。
(2)本实施例采用两种方法对手机用户上网行为周期性与差异性进行预测,具体得到预测结果的过程如下所示:
方法一.双向Markov混合模型
步骤1、构建用户Ui的上网状态序列。按照一定的时间间隔,生成用户每天的上网状态序列,共得到n天的序列,用E来表示他们的集合。
步骤2、计算三个不同时期内t时段到t+1时段用户Ui的三个状态转移概率矩阵Pt,并根据t时段上网状态,确定状态分布St。假设用户的状态集为S={i,j…},同时用户上网状态变化满足式(1),其中xt∈S,(t=1,2,3…)。t时段到t+1时段的状态转移矩阵中的概率通过以下公式(2)和公式(1)计算:
P(Xt+1=xt+1|Xt=xt…X1=x1)=P(Xt+1=xt+1|Xt=xt) (1)
Pt=[Pij],(0≤Pij≤1) (2)
其中根据贝叶斯条件概率公式得到:
其中:Pj:集合E中,t时段所处时期内用户处于状态j的概率。
P(i∩j):集合E中,所处时期内用户t时段所于状态j且t+1时段处于状态i的概率。
步骤3、计算第r天t+1时段到r+1天t+1时段的状态转移矩阵Qt+1并根据预测前一天t+1时段的用户的上网状态确定状态分布Vt+1。Qt+1的状态转移矩阵计算公式如下:
Qt+1=[qij],(0≤qij≤1) (4)
其中根据贝叶斯条件概率公式得到:
其中:qj:集合E中,t+1时段所处时期内用户处于状态j的概率。
q(i∩j):集合E中,第r天t+1时段处于状态j且r+1天t+1时段处于状态i的概率。
步骤4、计算t+1时段的状态分布St+1,并将St+1状态分布中率最大的状态则预测为t+1时段的状态。具体的计算公式如下:
St+1=wSt Pt+(1-w)Vt+1Qt+1,w∈(0,1)
方法二.Lift-Markov混合模型;
步骤1和步骤2与双向Markov混合模型相同
步骤3、基于关联规则挖掘前后两天t+1时段状态的关系并根据前一天t+1时段的用户的上网状态确定状态分布Vt+1。根据以下公式计算关联规则的支持度,置信度和提升度。
其中
第r天t+1时段处于状态j的概率;
第r+1天t+1时段处于状态i的概率;
第r天t+1时段处于状态j且第r+1天t+1时段处于状态i的概率;
由第r天t+1时段处于状态j到第r+1天t+1时段处于状态i的置信度;
由第r天t+1时段处于状态j到第r+1天t+1时段处于状态i相对于一般情况下的概率。
步骤4、计算t+1时段的状态分布St+1,并判断St+1状态分布中那个状态的概率最大则预测为t+1时段的状态。具体的计算公式如下:
其中△s,△c分别指支持度和置信度的阈值。
本实施例的预测结果分析如下:
本发明采用评价指标为预测准确率:
其中,Ci(PR)为模型对用户Ui预测准确的次数,Ci(P)为模型对用户Ui进行预测的次数。
本发明的DM和LM两种模型,与常用的Markov模型和最频繁状态(Most-value)两种模型进行对比,如图3(a),其中LM模型和DM模型取得的预测准确率最高,平均准确率达到79.71%和79.75%,均很接近80%的准确率。
由于本发明中的两种模型的准确率差距较小,这里只选取LM算法相较于Markov模型和Most-value模型的预测准确率提高幅度,如图3(b),在不同时期本发明的LM模型相较于其他的方法提高的预测准确率存在较大的差异。在高频活动时期,LM模型相较其他两种模型分别提高了7.23%和18.72%,说明在用户上网状态复杂多变的情况下,本发明的模型更能把握用户的上网规律,能有效的预测用户的上网时段。在低频活动时期,用户的上网状态变化较少,所有的方法对用户上网时段预测的准确率都较高,所以本发明方法的准确率提高幅度分别达到2.10%和7.87%。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (2)

1.一种手机用户上网时段预测方法,通过基于周期性和差异性预测手机用户上网时间段;其特征在于:
所述周期性的计算方法,是将固定时间间隔的用户上网状态的时间序列数据看作离散的信号,利用傅里叶来分析用户上网状态序列的周期性;
所述差异性的计算方法,是利用手机上网数据,通过探究手机用户群体上网对不同时间段的偏好,根据对不同时段人数的层次聚类将一天24个时段划分为三个上网时期,即高频时期、低频时期和过渡时期。
2.根据权利要求1所述的手机用户上网时段预测方法,其特征在于,所述通过基于周期性和差异性预测手机用户上网时间段,其具体实现包括以下步骤:
步骤1:利用手机用户上网数据,计算三个不同时期内相邻两个时间段间,用户在三个时期是上网状态的转移概率矩阵,并根据当前时段上网状态,确定用户的状态分布
步骤2:利用手机用户上网的计算三个不同时期内相邻两天,同一时间段间,用户在三个时期是上网状态的转移概率矩阵,并根据该时刻前一天上网状态,确定用户的状态分布;
步骤3:对步骤A1和步骤A2的结果进行加权平均,得到用户在目标时间段内上网的概率。
CN201611103405.3A 2016-12-05 2016-12-05 一种手机用户上网时段预测方法 Pending CN106600042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611103405.3A CN106600042A (zh) 2016-12-05 2016-12-05 一种手机用户上网时段预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611103405.3A CN106600042A (zh) 2016-12-05 2016-12-05 一种手机用户上网时段预测方法

Publications (1)

Publication Number Publication Date
CN106600042A true CN106600042A (zh) 2017-04-26

Family

ID=58595755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611103405.3A Pending CN106600042A (zh) 2016-12-05 2016-12-05 一种手机用户上网时段预测方法

Country Status (1)

Country Link
CN (1) CN106600042A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103523A (zh) * 2017-05-18 2017-08-29 深圳众厉电力科技有限公司 一种服务性能好的电子商务系统
CN109299724A (zh) * 2018-07-17 2019-02-01 广东工业大学 基于深度学习的智能家居用户操控习惯挖掘与推荐方法
CN111126103A (zh) * 2018-10-30 2020-05-08 百度在线网络技术(北京)有限公司 用户人生阶段状态的判断方法和装置
CN111192069A (zh) * 2018-11-15 2020-05-22 西安诺瓦星云科技股份有限公司 显示时段评估方法、装置及系统和计算机可读存储介质
CN112291622A (zh) * 2020-10-30 2021-01-29 中国建设银行股份有限公司 用户的喜好上网时间段的确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685072A (zh) * 2013-11-27 2014-03-26 中国电子科技集团公司第三十研究所 一种网络流量快速分配的方法
CN103996084A (zh) * 2014-06-06 2014-08-20 山东大学 基于纵向时刻Markov链模型的风功率概率预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685072A (zh) * 2013-11-27 2014-03-26 中国电子科技集团公司第三十研究所 一种网络流量快速分配的方法
CN103996084A (zh) * 2014-06-06 2014-08-20 山东大学 基于纵向时刻Markov链模型的风功率概率预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
卢扬,赵志丹,蔡世民: ""基于移动终端上网数据的移动模式分析及轨迹预测"", 《复杂系统与复杂性科学》 *
时鸿涛: ""基于正态平稳的马尔可夫周期流量预测算法"", 《青岛农业大学学报(自然科学版)》 *
林惠珍,杨晨晖,李翠华,陈希友: ""基于Markov 链和关联规则的Web 访问预测模型"", 《厦门大学学报(自然科学版)》 *
琚春华,鲍福光,王宗格: ""关联规则的评价方法改进与度量框架研究"", 《情报学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103523A (zh) * 2017-05-18 2017-08-29 深圳众厉电力科技有限公司 一种服务性能好的电子商务系统
CN109299724A (zh) * 2018-07-17 2019-02-01 广东工业大学 基于深度学习的智能家居用户操控习惯挖掘与推荐方法
CN109299724B (zh) * 2018-07-17 2022-01-28 广东工业大学 基于深度学习的智能家居用户操控习惯挖掘与推荐方法
CN111126103A (zh) * 2018-10-30 2020-05-08 百度在线网络技术(北京)有限公司 用户人生阶段状态的判断方法和装置
CN111126103B (zh) * 2018-10-30 2023-09-26 百度在线网络技术(北京)有限公司 用户人生阶段状态的判断方法和装置
CN111192069A (zh) * 2018-11-15 2020-05-22 西安诺瓦星云科技股份有限公司 显示时段评估方法、装置及系统和计算机可读存储介质
CN111192069B (zh) * 2018-11-15 2023-09-15 西安诺瓦星云科技股份有限公司 显示时段评估方法、装置及系统和计算机可读存储介质
CN112291622A (zh) * 2020-10-30 2021-01-29 中国建设银行股份有限公司 用户的喜好上网时间段的确定方法及装置
CN112291622B (zh) * 2020-10-30 2022-05-27 中国建设银行股份有限公司 用户的喜好上网时间段的确定方法及装置

Similar Documents

Publication Publication Date Title
CN106600042A (zh) 一种手机用户上网时段预测方法
CN109902801B (zh) 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
CN110928993B (zh) 基于深度循环神经网络的用户位置预测方法及系统
Amjady et al. Day-ahead electricity price forecasting by modified relief algorithm and hybrid neural network
CN105163326B (zh) 一种基于无线网络话务特征的小区聚类方法和系统
CN108564790A (zh) 一种基于交通流时空相似性的城市短时交通流预测方法
CN108898533A (zh) 人口流动数据的获取方法、装置及计算机可读存储介质
CN109245840A (zh) 认知无线电系统中基于卷积神经网络的频谱预测方法
CN103024762A (zh) 基于业务特征的通信业务预测方法
CN105760213B (zh) 云环境下虚拟机资源利用率的预警系统及方法
CN102034350A (zh) 交通流数据短时预测方法及系统
CN109088742B (zh) 一种业务预测方法及网元设备、计算机可读存储介质
CN109272169A (zh) 交通流量预测方法、装置、计算机设备及存储介质
CN104866922B (zh) 一种用户离网的预测方法及装置
CN108830423A (zh) 一种基于预报域的年径流预测方法
CN109063759A (zh) 一种应用于图片多属性预测的神经网络结构搜索方法
CN110322067A (zh) 基于因子图模型的移动用户位置预测方法
TW200814708A (en) Power save method and system for a mobile device
Oreshkin et al. Efficient delay-tolerant particle filtering
CN113837383B (zh) 模型训练方法、装置、电子设备及存储介质
CN105913654B (zh) 一种智能交通管理系统
Guo et al. Can we achieve better wireless traffic prediction accuracy?
Qian et al. Forecasting short-term taxi demand using boosting-GCRF
CN110167059A (zh) 一种边缘计算场景下基站业务量预测方法
Wang et al. A new time series prediction method based on complex network theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426