CN104217091B - 一种基于历史走势权重的网站访问量预测方法 - Google Patents

一种基于历史走势权重的网站访问量预测方法 Download PDF

Info

Publication number
CN104217091B
CN104217091B CN201310220456.4A CN201310220456A CN104217091B CN 104217091 B CN104217091 B CN 104217091B CN 201310220456 A CN201310220456 A CN 201310220456A CN 104217091 B CN104217091 B CN 104217091B
Authority
CN
China
Prior art keywords
history
tendency
amount
time
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310220456.4A
Other languages
English (en)
Other versions
CN104217091A (zh
Inventor
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cheerbright Technologies Co Ltd
Original Assignee
Beijing Cheerbright Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cheerbright Technologies Co Ltd filed Critical Beijing Cheerbright Technologies Co Ltd
Priority to CN201310220456.4A priority Critical patent/CN104217091B/zh
Publication of CN104217091A publication Critical patent/CN104217091A/zh
Application granted granted Critical
Publication of CN104217091B publication Critical patent/CN104217091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及网站数据统计分析技术领域,具体公开了一种基于历史走势权重的网站访问量预测方法;数据预处理,将访问量取对数,计算历史走势各时间点的方差,计算第i个历史走势对当前走势的回归系数,计算用第i个历史走势估计当前值相关系数的方差,用优化最小化方法估计偏差求解权重,根据权重预测当前走势之后的值,预测结果处理,将预测结果进行指数变换。本发明用已知的当前走势与历史走势进行对比,计算相关系数,再根据每个历史走势去估计当前走势的偏差,用最优化方法选择每个历史走势的权重,把各日期的估计按权重叠加,叠加的结果可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到比较可靠的预测。

Description

一种基于历史走势权重的网站访问量预测方法
技术领域
本发明涉及网站数据统计分析技术领域,尤其是涉及一种基于历史走势权重的网站访问量预测方法。
背景技术
网站访问量是指网站流量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。网页浏览量,也称页面浏览量,英文Page View,简称为PV,是评价网站流量最常用的指标之一。通常用于衡量一个网络新闻频道或网站甚至一条网络新闻的网站流量。监测网站PV的变化趋势、分析其变化原因及进行预测是很多站长定期要做的工作。
在对网站访问量进行预测时,网站每天的访问量走势有一定规律,历史访问量走势对当天的访问量走势的预测有很大的借鉴意义。但不同日期的访问量走势会有明显的差异,如工作日、周末的不同;有些日期具有这些明显不同类型日子的中间特征,如上半天的工作日、企业与政府部门工作休息日期的不同。
在对具有周期性的走势做预测时,有时周期内的走势有一定连贯性,但又不是某种函数关系,不同周期的走势比较相似,周期内、周期间都还有一定随机性。进行这类预测时,历史走势是有很好的参考,但历史走势又有着多样性。如果在周期内对历史走势做线性回归或非线性回归,过于牵强,进行外推时误差会很大。如果在多个周期内对历史走势进行趋势回归,周期间的趋势会放大;且没有很好地利用历史走势这个“经验库”,无法从“经验库”中找到合适的例 子做预测参考。如果采用K近邻近似进行预测,在周围邻居分布不均匀时,估计值偏差会较大。
目前,现有技术中还没有有效的解决办法。
发明内容
本发明所解决的技术问题是提供一种基于历史走势权重的网站访问量预测方法,本发明解决了具有一定连贯性、相似性的周期性走势的预测问题。本发明用已知的当前走势与历史走势进行对比,可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到比较可靠的预测。
为了解决上述技术问题,本发明提供了一种基于历史走势权重的网站访问量预测方法,包括:
S1.a:将所述当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量走势已知,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号,所述时间间隔也称为取样间隔;
S1.b:将所述历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量走势已知,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;
所述S1.a步骤和所述S1.b步骤顺序不分先后;
S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述 j=K+1、……、M;
S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;
S2.2:计算网站浏览量的实际访问量的对数的方差;
σ j 2 = 1 N - 1 Σ i = 1 N ( X ij - X ‾ j ) 2 , 其中所述 X ‾ j = 1 N Σ i = 1 N X ij , 所述j=1、2、……、K;
S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;
其中所述i=1、2、……、N;
S2.4:根据网站浏览量的实际访问量的方差及第i个所述历史同时间段的访问量的对数的回归系数计算第i个所述历史同时间段估计当前访问量的对数的偏差;
s i 2 = 1 K Σ j = 1 K ( ( c i * X ij - y j ) 2 + ( 1 - c i ) 2 * X ij 2 + σ j 2 ) , 其中所述i=1、2、……、N;
S2.5:根据第i个所述历史同时间段估计当前访问量的对数的偏差用优化最小化方法求解第i个所述历史同时间段估计权重;
min 1 K Σ j = 1 K ( Σ i = 1 N w i * X ij - y i ) 2 + Σ i = 1 N w i 2 * s i 2
s . t . Σ i = 1 N w i = 1 - 1 ≤ w i ≤ 1 , i = 1,2 , . . . , N
S2.6:根据权重预测当前时间点之后走势的访问量的对数;
其中所述j=K+1、K+2、……、M;
S2.7:预测结果处理,以a为底数对zj做指数变换,即实际预测结果访问 量为
优选地,所述预测结果处理中所述中所述a的取值与所述数据预处理时以所述a为底数的对数变换的所述a取相同的值。
更加优选地,所述a>0,且所述a≠1。
更加优选地,所述yj中所述j单位为分钟或小时。
更加优选地,所述Xij中所述i单位为天、周或月。
本发明与现有技术相比,具有如下有益效果:
本发明提供了一种基于历史走势权重的网站访问量预测方法,本发明解决了具有一定连贯性、相似性的周期性走势的预测问题。本发明用已知的当前走势与历史走势进行对比,计算相关系数,再根据每个历史走势去估计当前走势的偏差,用最优化方法选择每个历史走势的权重,把各日期的估计按权重叠加,叠加的结果可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到了比较可靠的预测。
附图说明
图1示例性地示出了一种基于历史走势权重的网站访问量预测方法流程图;
图2示例性地示出了实际值与回归的预测值的对比图;
图3示例性地示出了一天的预测值与实际值的预测效果对比图。
具体实施方式
为了更好地理解本发明所解决的技术问题、所提供的技术方案,以下结合附图及实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅用以解释本发明的实施,但并不用于限定本发明。
在优选的实施例中,图1示例性地示出了一种基于历史走势权重的网站访问量预测方法流程;
用某段时间的PV数据说明预测效果,历史数据取29天,每天中拿出连续的36个PV值,已知当前30个PV值,预测后6个PV值。
1、如表1所示:取历史29天中每天连续的36个PV值,时间间隔为每5分钟一个;
表1、历史29天PV值取值表
2、如表2所示,取当前连续的30个PV值,时间间隔为每5分钟一个;
表2、当前PV值取值表
计算方法:
1、对表1和表2中PV值取以10为底的对数;
2、根据表1中历史29天PV值以10为底的对数和当前PV值以10为底的对数计算每天PV值以10为底的对数的方差,结果如表3所示:
表3、根据历史29天计算各时间点PV值取对数的方差结果表
3、根据当前PV值的对数分别与历史29天的PV值的对数计算回归系数,其中当前PV值的对数为因变量,历史29天每天PV值的对数为自变量;回归系数结果如表4所示:
表4、回归系数结果表
4、根据回归系数、各时间点PV值取对数的方差计算历史29天每天估计当前PV值的对数的偏差,结果如表5所示:
表5、每天估计当前PV值的对数的偏差结果表
5、根据历史29天每天估计当前PV值的对数的偏差计算历史29天每天的权重,结果如表6所示:
表6、每天的权重结果表
6、计算预测值,根据权重结果将历史29天PV值的对数求和,生成6个预测值,对6个预测值做以10为底的指数变换,指数变换后的PV值结果如表7所示:
表7、当前时间点后续的6个预测PV值
7、将表7中实际值与指数变换后的预测值画图进行对比,如图2所示为实际PV值与预测PV值对比图,图2中虚线为预测PV值,图2中实线为实际PV值。从图2中可知,实际PV值与预测PV值大体走势相似,因数值取值受限,故连线不够平滑,可大致根据历史走势预测PV值的未来趋势。
8、将每次预测PV值与之后实际发生的PV值做一个对比,将一天24小时的预测连续起来,并将当天后真实的PV值连续起来进行对比,如图3所示为一天的预测PV值与实际PV值对比预测效果图,图3中虚线为预测PV值,图3中实线为实际PV值。从图3中可以得知,预测PV值与实际PV值基本重合,本发明的预测方法预测结果准确,可作为根据历史走势预测PV值的未来趋势的有效手段。
以上通过优选的实施例详细的描述了本发明,但本领域技术人员应该明白,本发明并不局限于以上所述实施例,凡在本发明的基本原理之内,所作的任何修改、组合及等同替换等,均包含在本发明的保护范围之内。

Claims (5)

1.一种基于历史走势权重的网站访问量预测方法,其特征在于,包括:
S1.a:将当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号;
S1.b:将历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;
所述S1.a步骤和所述S1.b步骤顺序不分先后;
S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述j=K+1、……、M;
S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;
S2.2:计算网站浏览量的实际访问量的对数的方差;
其中所述所述j=1、2、……、K;
S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;
其中所述i=1、2、……、N;
S2.4:根据网站浏览量的实际访问量的对数的方差及第i个所述历史同时间段的访问量的对数的回归系数计算第i个所述历史同时间段估计当前访问量的对数的偏差;
其中所述i=1、2、……、N;
S2.5:根据第i个所述历史同时间段估计当前访问量的对数的偏差用优化最小化方法求解第i个所述历史同时间段估计权重;
m i n 1 K Σ j = 1 K ( Σ i = 1 N w i * X i j - y j ) 2 + Σ i = 1 N w i 2 * s i 2
s . t . Σ i = 1 N w i = 1 - 1 ≤ w i ≤ 1 , i = 1 , 2 , ... , N
S2.6:根据权重预测当前时间点之后走势的访问量的对数;
其中所述j=K+1、K+2、……、M;
S2.7:预测结果处理,以a为底数对zj做指数变换,即实际预测结果访问量为
2.根据权利要求1所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述预测结果处理中所述中所述a的取值与所述数据预处理时以所述a为底数的对数变换的所述a取相同的值。
3.根据权利要求2所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述a>0,且所述a≠1。
4.根据权利要求1所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述yj中所述j单位为分钟或小时。
5.根据权利要求1所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述Xij中所述i单位为天、周或月。
CN201310220456.4A 2013-06-05 2013-06-05 一种基于历史走势权重的网站访问量预测方法 Active CN104217091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310220456.4A CN104217091B (zh) 2013-06-05 2013-06-05 一种基于历史走势权重的网站访问量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310220456.4A CN104217091B (zh) 2013-06-05 2013-06-05 一种基于历史走势权重的网站访问量预测方法

Publications (2)

Publication Number Publication Date
CN104217091A CN104217091A (zh) 2014-12-17
CN104217091B true CN104217091B (zh) 2016-12-28

Family

ID=52098576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310220456.4A Active CN104217091B (zh) 2013-06-05 2013-06-05 一种基于历史走势权重的网站访问量预测方法

Country Status (1)

Country Link
CN (1) CN104217091B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105939225B (zh) * 2016-06-23 2019-04-02 微梦创科网络科技(中国)有限公司 一种业务执行的方法及装置
CN110110219B (zh) * 2018-02-02 2022-02-18 北大方正集团有限公司 根据网络行为确定用户偏好的方法及装置
CN108897886B (zh) * 2018-07-09 2019-09-24 掌阅科技股份有限公司 页面展示方法、计算设备及计算机存储介质
CN110968745A (zh) * 2019-11-13 2020-04-07 泰康保险集团股份有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN112990951A (zh) * 2019-12-12 2021-06-18 北京沃东天骏信息技术有限公司 确定条目访问量的方法和装置
CN111210070A (zh) * 2020-01-03 2020-05-29 恩亿科(北京)数据科技有限公司 一种数据分析方法、装置、电子设备及可读取存储介质
CN111275246A (zh) * 2020-01-14 2020-06-12 北京三品仓电子商务科技有限公司 一种基于大数据技术的单品种农产品价格预测方法
CN113158117A (zh) * 2021-04-29 2021-07-23 中国工商银行股份有限公司 一种网站访问量预测方法、装置及设备
CN117171778B (zh) * 2023-11-01 2024-01-23 北京敏行通达信息技术有限公司 一种数据库的访问流量控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101517967A (zh) * 2005-09-19 2009-08-26 谷歌公司 网站的流量预测
WO2010075260A3 (en) * 2008-12-23 2010-10-14 Autotrader.Com, Inc. Computer based systems and methods for managing online display advertising inventory
CN101894316A (zh) * 2010-06-10 2010-11-24 焦点科技股份有限公司 一种国际市场景气状况的监测指数方法及系统
CN103001805A (zh) * 2012-12-17 2013-03-27 重庆邮电大学 基于用户行为分析的web用户流量产生方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129533A1 (en) * 2004-12-15 2006-06-15 Xerox Corporation Personalized web search method
US20070294124A1 (en) * 2006-06-14 2007-12-20 John Charles Crotts Hospitality performance index
US20110010349A1 (en) * 2009-07-10 2011-01-13 Jeffrey Gordon Ellingson Method and device for users of enterprise software products to create, publish and share reviews of enterprise software products

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101517967A (zh) * 2005-09-19 2009-08-26 谷歌公司 网站的流量预测
WO2010075260A3 (en) * 2008-12-23 2010-10-14 Autotrader.Com, Inc. Computer based systems and methods for managing online display advertising inventory
CN101894316A (zh) * 2010-06-10 2010-11-24 焦点科技股份有限公司 一种国际市场景气状况的监测指数方法及系统
CN103001805A (zh) * 2012-12-17 2013-03-27 重庆邮电大学 基于用户行为分析的web用户流量产生方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于话题的BBS论坛的SNA分析;杨勇 等;《四川大学学报(自然科学版)》;20111130;第48卷(第6期);全文 *
网络会展电子商务功能分析———以"网上广交会"网站分析为例;蔡瑞初 等;《电脑知识与技术》;20110831;第7卷(第24期);全文 *

Also Published As

Publication number Publication date
CN104217091A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN104217091B (zh) 一种基于历史走势权重的网站访问量预测方法
Liu et al. Context-aware sequential recommendation
Chan The stochastic volatility in mean model with time-varying parameters: An application to inflation modeling
Vu et al. Continuous-time regression models for longitudinal networks
US10114915B2 (en) Consumer performance index scoring for websites and web-based applications
Farah et al. Bayesian emulation and calibration of a dynamic epidemic model for A/H1N1 influenza
Wang et al. Chaotic time series method combined with particle swarm optimization and trend adjustment for electricity demand forecasting
Feijóo et al. Simulation of correlated wind speeds: A review
CN104915734A (zh) 基于时间序列的商品热度预测方法和系统
CN110020877B (zh) 点击率的预测方法、点击率的确定方法及服务器
RU2592390C2 (ru) Система, способ и устройство для оценки сеансов просмотра
CN106933649A (zh) 基于移动平均和神经网络的虚拟机负载预测方法及系统
Clements et al. Improving real-time estimates of output and inflation gaps with multiple-vintage models
US11429992B2 (en) Systems and methods for dynamic pricing
Yang et al. A pattern fusion model for multi-step-ahead CPU load prediction
Huot et al. A hybrid optimization approach for efficient calibration of computationally intensive hydrological models
Nourikhah et al. Modeling and predicting measured response time of cloud-based web services using long-memory time series
Wang et al. Hydrodynamic landslide displacement prediction using combined extreme learning machine and random search support vector regression model
CN103236013A (zh) 一种基于关键股票集识别的股票市场大盘数据分析方法
Aggarwal et al. Day-ahead price forecasting in Ontario electricity market using variable-segmented support vector machine-based model
CN104462093B (zh) 个人推荐方案
KR20160076330A (ko) 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템
Yu et al. A Bayesian analysis of the correlations among sunspot cycles
Hartmann et al. Bayesian inference for generalized extreme value distributions via Hamiltonian Monte Carlo
Cheriyan et al. A dynamical systems model of price bubbles and cycles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant