CN104217091A - 一种基于历史走势权重的网站访问量预测方法 - Google Patents
一种基于历史走势权重的网站访问量预测方法 Download PDFInfo
- Publication number
- CN104217091A CN104217091A CN201310220456.4A CN201310220456A CN104217091A CN 104217091 A CN104217091 A CN 104217091A CN 201310220456 A CN201310220456 A CN 201310220456A CN 104217091 A CN104217091 A CN 104217091A
- Authority
- CN
- China
- Prior art keywords
- tendency
- time
- historical
- visit capacity
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000011551 log transformation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 abstract 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 230000003203 everyday effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及网站数据统计分析技术领域,具体公开了一种基于历史走势权重的网站访问量预测方法;数据预处理,将访问量取对数,计算历史走势各时间点的方差,计算第i个历史走势对当前走势的回归系数,计算用第i个历史走势估计当前值相关系数的方差,用优化最小化方法估计偏差求解权重,根据权重预测当前走势之后的值,预测结果处理,将预测结果进行指数变换。本发明用已知的当前走势与历史走势进行对比,计算相关系数,再根据每个历史走势去估计当前走势的偏差,用最优化方法选择每个历史走势的权重,把各日期的估计按权重叠加,叠加的结果可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到比较可靠的预测。
Description
技术领域
本发明涉及网站数据统计分析技术领域,尤其是涉及一种基于历史走势权重的网站访问量预测方法。
背景技术
网站访问量是指网站流量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。网页浏览量,也称页面浏览量,英文Page View,简称为PV,是评价网站流量最常用的指标之一。通常用于衡量一个网络新闻频道或网站甚至一条网络新闻的网站流量。监测网站PV的变化趋势、分析其变化原因及进行预测是很多站长定期要做的工作。
在对网站访问量进行预测时,网站每天的访问量走势有一定规律,历史访问量走势对当天的访问量走势的预测有很大的借鉴意义。但不同日期的访问量走势会有明显的差异,如工作日、周末的不同;有些日期具有这些明显不同类型日子的中间特征,如上半天的工作日、企业与政府部门工作休息日期的不同。
在对具有周期性的走势做预测时,有时周期内的走势有一定连贯性,但又不是某种函数关系,不同周期的走势比较相似,周期内、周期间都还有一定随机性。进行这类预测时,历史走势是有很好的参考,但历史走势又有着多样性。如果在周期内对历史走势做线性回归或非线性回归,过于牵强,进行外推时误差会很大。如果在多个周期内对历史走势进行趋势回归,周期间的趋势会放大;且没有很好地利用历史走势这个“经验库”,无法从“经验库”中找到合适的例 子做预测参考。如果采用K近邻近似进行预测,在周围邻居分布不均匀时,估计值偏差会较大。
目前,现有技术中还没有有效的解决办法。
发明内容
本发明所解决的技术问题是提供一种基于历史走势权重的网站访问量预测方法,本发明解决了具有一定连贯性、相似性的周期性走势的预测问题。本发明用已知的当前走势与历史走势进行对比,可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到比较可靠的预测。
为了解决上述技术问题,本发明提供了一种基于历史走势权重的网站访问量预测方法,包括:
S1.a:将所述当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量走势已知,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号,所述时间间隔也称为取样间隔;
S1.b:将所述历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量走势已知,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;
所述S1.a步骤和所述S1.b步骤顺序不分先后;
S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述 j=K+1、……、M;
S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;
S2.2:计算网站浏览量的实际访问量的对数的方差;
S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;
其中所述i=1、2、……、N;
S2.4:根据网站浏览量的实际访问量的方差及第i个所述历史同时间段的访问量的对数的回归系数计算第i个所述历史同时间段估计当前访问量的对数的偏差;
S2.5:根据第i个所述历史同时间段估计当前访问量的对数的偏差用优化最小化方法求解第i个所述历史同时间段估计权重;
S2.6:根据权重预测当前时间点之后走势的访问量的对数;
其中所述j=K+1、K+2、……、M;
S2.7:预测结果处理,以a为底数对zj做指数变换,即实际预测结果访问 量为
优选地,所述预测结果处理中所述中所述a的取值与所述数据预处理时以所述a为底数的对数变换的所述a取相同的值。
更加优选地,所述a>0,且所述a≠1。
更加优选地,所述yj中所述j单位为分钟或小时。
更加优选地,所述Xij中所述i单位为天、周或月。
本发明与现有技术相比,具有如下有益效果:
本发明提供了一种基于历史走势权重的网站访问量预测方法,本发明解决了具有一定连贯性、相似性的周期性走势的预测问题。本发明用已知的当前走势与历史走势进行对比,计算相关系数,再根据每个历史走势去估计当前走势的偏差,用最优化方法选择每个历史走势的权重,把各日期的估计按权重叠加,叠加的结果可以对当前、后续走势进行预测,使综合历史走势估计当前走势的偏差最小,得到了比较可靠的预测。
附图说明
图1示例性地示出了一种基于历史走势权重的网站访问量预测方法流程图;
图2示例性地示出了实际值与回归的预测值的对比图;
图3示例性地示出了一天的预测值与实际值的预测效果对比图。
具体实施方式
为了更好地理解本发明所解决的技术问题、所提供的技术方案,以下结合附图及实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅用以解释本发明的实施,但并不用于限定本发明。
在优选的实施例中,图1示例性地示出了一种基于历史走势权重的网站访问量预测方法流程;
用某段时间的PV数据说明预测效果,历史数据取29天,每天中拿出连续的36个PV值,已知当前30个PV值,预测后6个PV值。
1、如表1所示:取历史29天中每天连续的36个PV值,时间间隔为每5分钟一个;
表1、历史29天PV值取值表
2、如表2所示,取当前连续的30个PV值,时间间隔为每5分钟一个;
表2、当前PV值取值表
计算方法:
1、对表1和表2中PV值取以10为底的对数;
2、根据表1中历史29天PV值以10为底的对数和当前PV值以10为底的对数计算每天PV值以10为底的对数的方差,结果如表3所示:
表3、根据历史29天计算各时间点PV值取对数的方差结果表
3、根据当前PV值的对数分别与历史29天的PV值的对数计算回归系数,其中当前PV值的对数为因变量,历史29天每天PV值的对数为自变量;回归系数结果如表4所示:
表4、回归系数结果表
4、根据回归系数、各时间点PV值取对数的方差计算历史29天每天估计当前PV值的对数的偏差,结果如表5所示:
表5、每天估计当前PV值的对数的偏差结果表
5、根据历史29天每天估计当前PV值的对数的偏差计算历史29天每天的权重,结果如表6所示:
表6、每天的权重结果表
6、计算预测值,根据权重结果将历史29天PV值的对数求和,生成6个预测值,对6个预测值做以10为底的指数变换,指数变换后的PV值结果如表7所示:
表7、当前时间点后续的6个预测PV值
7、将表7中实际值与指数变换后的预测值画图进行对比,如图2所示为实际PV值与预测PV值对比图,图2中虚线为预测PV值,图2中实线为实际PV值。从图2中可知,实际PV值与预测PV值大体走势相似,因数值取值受限,故连线不够平滑,可大致根据历史走势预测PV值的未来趋势。
8、将每次预测PV值与之后实际发生的PV值做一个对比,将一天24小时的预测连续起来,并将当天后真实的PV值连续起来进行对比,如图3所示为一天的预测PV值与实际PV值对比预测效果图,图3中虚线为预测PV值,图3中实线为实际PV值。从图3中可以得知,预测PV值与实际PV值基本重合,本发明的预测方法预测结果准确,可作为根据历史走势预测PV值的未来趋势的有效手段。
以上通过优选的实施例详细的描述了本发明,但本领域技术人员应该明白,本发明并不局限于以上所述实施例,凡在本发明的基本原理之内,所作的任何修改、组合及等同替换等,均包含在本发明的保护范围之内。
Claims (5)
1.一种基于历史走势权重的网站访问量预测方法,其特征在于,包括:
S1.a:将所述当前时间点一段时间的所述访问量进行数据预处理,所述当前时间点一段时间的所述访问量数据预处理结果用符号yj表示,j=1、2、……、K,所述K为自然数,所述yj中所述j为时间段序号,所述时间间隔也称为取样间隔;
S1.b:将所述历史同时间段的所述访问量进行数据预处理,所述历史同时间段的所述访问量数据预处理结果用符号Xij表示,所述i=1、2、……、N,所述N为自然数,每个i为一个周期;所述Xij中所述j=1、2、……、K、K+1、……、M,当所述Xij中所述j取值小于等于K时,所述Xij中所述j与当前走势的所述yj中所述j的取值相同,所述K+1、……、所述M为有历史值且当前尚无实际值需要预测值的时间段序号;
所述S1.a步骤和所述S1.b步骤顺序不分先后;
S2:计算当前时间点之后的走势预测访问量,所述当前时间点之后的所述走势预测访问量未进行预测结果处理的数据用zj符号表示,所述zj中所述j=K+1、……、M;
S2.1:数据预处理,对网站浏览量的实际访问量做以a为底数的对数变换,所述网站浏览量的实际访问量包括所述当前时间点一段时间的访问量走势和所述历史同时间段的访问量走势;
S2.2:计算网站浏览量的实际访问量的对数的方差;
S2.3:根据所述当前时间点一段时间的访问量的对数计算第i个所述历史同时间段的访问量的对数的回归系数;
其中所述i=1、2、……、N;
S2.4:根据网站浏览量的实际访问量的方差及第i个所述历史同时间段的访问量的对数的回归系数计算第i个所述历史同时间段估计当前访问量的对数的偏差;
S2.5:根据第i个所述历史同时间段估计当前访问量的对数的偏差用优化最小化方法求解第i个所述历史同时间段估计权重;
S2.6:根据权重预测当前时间点之后走势的访问量的对数;
其中所述j=K+1、K+2、……、M;
S2.7:预测结果处理,以a为底数对zj做指数变换,即实际预测结果访问量为
2.根据权利要求1所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述预测结果处理中所述中所述a的取值与所述数据预处理时以所述a为底数的对数变换的所述a取相同的值。
3.根据权利要求2所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述a>0,且所述a≠1。
4.根据权利要求1所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述yj中所述j单位为分钟或小时。
5.根据权利要求1所述的基于历史走势权重的网站访问量预测方法,其特征在于,所述Xij中所述i单位为大、周或月。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310220456.4A CN104217091B (zh) | 2013-06-05 | 2013-06-05 | 一种基于历史走势权重的网站访问量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310220456.4A CN104217091B (zh) | 2013-06-05 | 2013-06-05 | 一种基于历史走势权重的网站访问量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217091A true CN104217091A (zh) | 2014-12-17 |
CN104217091B CN104217091B (zh) | 2016-12-28 |
Family
ID=52098576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310220456.4A Active CN104217091B (zh) | 2013-06-05 | 2013-06-05 | 一种基于历史走势权重的网站访问量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217091B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105939225A (zh) * | 2016-06-23 | 2016-09-14 | 微梦创科网络科技(中国)有限公司 | 一种业务执行的方法及装置 |
CN108897886A (zh) * | 2018-07-09 | 2018-11-27 | 掌阅科技股份有限公司 | 页面展示方法、计算设备及计算机存储介质 |
CN110110219A (zh) * | 2018-02-02 | 2019-08-09 | 北大方正集团有限公司 | 根据网络行为确定用户偏好的方法及装置 |
CN110968745A (zh) * | 2019-11-13 | 2020-04-07 | 泰康保险集团股份有限公司 | 数据处理方法、装置、电子设备和计算机可读介质 |
CN111210070A (zh) * | 2020-01-03 | 2020-05-29 | 恩亿科(北京)数据科技有限公司 | 一种数据分析方法、装置、电子设备及可读取存储介质 |
CN111275246A (zh) * | 2020-01-14 | 2020-06-12 | 北京三品仓电子商务科技有限公司 | 一种基于大数据技术的单品种农产品价格预测方法 |
CN112990951A (zh) * | 2019-12-12 | 2021-06-18 | 北京沃东天骏信息技术有限公司 | 确定条目访问量的方法和装置 |
CN113158117A (zh) * | 2021-04-29 | 2021-07-23 | 中国工商银行股份有限公司 | 一种网站访问量预测方法、装置及设备 |
CN113821933A (zh) * | 2021-09-29 | 2021-12-21 | 中国平安人寿保险股份有限公司 | App流量预测方法、装置、计算机设备及存储介质 |
CN117171778A (zh) * | 2023-11-01 | 2023-12-05 | 北京敏行通达信息技术有限公司 | 一种数据库的访问流量控制方法及系统 |
CN118295763A (zh) * | 2024-06-06 | 2024-07-05 | 邯郸鉴晨网络科技有限公司 | 一种网站建设系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060129533A1 (en) * | 2004-12-15 | 2006-06-15 | Xerox Corporation | Personalized web search method |
US20070294124A1 (en) * | 2006-06-14 | 2007-12-20 | John Charles Crotts | Hospitality performance index |
CN101517967A (zh) * | 2005-09-19 | 2009-08-26 | 谷歌公司 | 网站的流量预测 |
WO2010075260A2 (en) * | 2008-12-23 | 2010-07-01 | Autotrader.Com, Inc. | Computer based systems and methods for managing online display advertising inventory |
CN101894316A (zh) * | 2010-06-10 | 2010-11-24 | 焦点科技股份有限公司 | 一种国际市场景气状况的监测指数方法及系统 |
US20110010349A1 (en) * | 2009-07-10 | 2011-01-13 | Jeffrey Gordon Ellingson | Method and device for users of enterprise software products to create, publish and share reviews of enterprise software products |
CN103001805A (zh) * | 2012-12-17 | 2013-03-27 | 重庆邮电大学 | 基于用户行为分析的web用户流量产生方法 |
-
2013
- 2013-06-05 CN CN201310220456.4A patent/CN104217091B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060129533A1 (en) * | 2004-12-15 | 2006-06-15 | Xerox Corporation | Personalized web search method |
CN101517967A (zh) * | 2005-09-19 | 2009-08-26 | 谷歌公司 | 网站的流量预测 |
US20070294124A1 (en) * | 2006-06-14 | 2007-12-20 | John Charles Crotts | Hospitality performance index |
WO2010075260A2 (en) * | 2008-12-23 | 2010-07-01 | Autotrader.Com, Inc. | Computer based systems and methods for managing online display advertising inventory |
WO2010075260A3 (en) * | 2008-12-23 | 2010-10-14 | Autotrader.Com, Inc. | Computer based systems and methods for managing online display advertising inventory |
US20110010349A1 (en) * | 2009-07-10 | 2011-01-13 | Jeffrey Gordon Ellingson | Method and device for users of enterprise software products to create, publish and share reviews of enterprise software products |
CN101894316A (zh) * | 2010-06-10 | 2010-11-24 | 焦点科技股份有限公司 | 一种国际市场景气状况的监测指数方法及系统 |
CN103001805A (zh) * | 2012-12-17 | 2013-03-27 | 重庆邮电大学 | 基于用户行为分析的web用户流量产生方法 |
Non-Patent Citations (2)
Title |
---|
杨勇 等: "基于话题的BBS论坛的SNA分析", 《四川大学学报(自然科学版)》 * |
蔡瑞初 等: "网络会展电子商务功能分析———以"网上广交会"网站分析为例", 《电脑知识与技术》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105939225B (zh) * | 2016-06-23 | 2019-04-02 | 微梦创科网络科技(中国)有限公司 | 一种业务执行的方法及装置 |
CN105939225A (zh) * | 2016-06-23 | 2016-09-14 | 微梦创科网络科技(中国)有限公司 | 一种业务执行的方法及装置 |
CN110110219A (zh) * | 2018-02-02 | 2019-08-09 | 北大方正集团有限公司 | 根据网络行为确定用户偏好的方法及装置 |
CN108897886A (zh) * | 2018-07-09 | 2018-11-27 | 掌阅科技股份有限公司 | 页面展示方法、计算设备及计算机存储介质 |
CN110968745A (zh) * | 2019-11-13 | 2020-04-07 | 泰康保险集团股份有限公司 | 数据处理方法、装置、电子设备和计算机可读介质 |
CN112990951A (zh) * | 2019-12-12 | 2021-06-18 | 北京沃东天骏信息技术有限公司 | 确定条目访问量的方法和装置 |
CN111210070A (zh) * | 2020-01-03 | 2020-05-29 | 恩亿科(北京)数据科技有限公司 | 一种数据分析方法、装置、电子设备及可读取存储介质 |
CN111275246A (zh) * | 2020-01-14 | 2020-06-12 | 北京三品仓电子商务科技有限公司 | 一种基于大数据技术的单品种农产品价格预测方法 |
CN113158117A (zh) * | 2021-04-29 | 2021-07-23 | 中国工商银行股份有限公司 | 一种网站访问量预测方法、装置及设备 |
CN113821933A (zh) * | 2021-09-29 | 2021-12-21 | 中国平安人寿保险股份有限公司 | App流量预测方法、装置、计算机设备及存储介质 |
CN117171778A (zh) * | 2023-11-01 | 2023-12-05 | 北京敏行通达信息技术有限公司 | 一种数据库的访问流量控制方法及系统 |
CN117171778B (zh) * | 2023-11-01 | 2024-01-23 | 北京敏行通达信息技术有限公司 | 一种数据库的访问流量控制方法及系统 |
CN118295763A (zh) * | 2024-06-06 | 2024-07-05 | 邯郸鉴晨网络科技有限公司 | 一种网站建设系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104217091B (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217091A (zh) | 一种基于历史走势权重的网站访问量预测方法 | |
Thibaud et al. | Efficient inference and simulation for elliptical Pareto processes | |
Sun et al. | Collaborative intent prediction with real-time contextual data | |
US20170371757A1 (en) | System monitoring method and apparatus | |
Bardwell et al. | Most recent changepoint detection in panel data | |
Wei et al. | An adaptive-margin support vector regression for short-term traffic flow forecast | |
Mahmoud et al. | An evaluation of the double exponentially weighted moving average control chart | |
Møller et al. | Probabilistic forecasts of wind power generation by stochastic differential equation models | |
Giesecke et al. | Monte Carlo algorithms for default timing problems | |
Yontay et al. | A two‐sided cumulative sum chart for first‐order integer‐valued autoregressive processes of poisson counts | |
Wang et al. | A support vector machine based MSM model for financial short-term volatility forecasting | |
US20230306505A1 (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
Aydoğdu et al. | Computation of the mean value and variance functions in geometric process | |
Perry et al. | First-exit times for compound Poisson processes for some types of positive and negative jumps | |
Luan et al. | Modeling travel time volatility using copula-based Monte Carlo simulation method for probabilistic traffic prediction | |
Migon et al. | Multivariate dynamic regression: modeling and forecasting for intraday electricity load | |
CN108764553B (zh) | 用户规模预测方法、装置及计算机设备 | |
Huang et al. | A class of Markov chain models for average run length computations for autocorrelated processes | |
Chen et al. | Multivariate Cuscore control charts for monitoring the mean vector in autocorrelated processes | |
Lee et al. | Analysis of the MAP/G/1 queue under the Min (N, D)-policy | |
Aggarwal et al. | Day-ahead price forecasting in Ontario electricity market using variable-segmented support vector machine-based model | |
Das et al. | Functional regression-based monitoring of quality of service in hospital emergency departments | |
Fitzenberger et al. | Implementing Box–Cox quantile regression | |
Sakalauskas et al. | Tracing of stock market long term trend by information efficiency measures | |
Sharma et al. | Development of modified Pro-Energy algorithm for future solar irradiance estimation using level and trend factors in time series analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |