CN104899405A - 数据预测方法和系统以及报警方法和系统 - Google Patents

数据预测方法和系统以及报警方法和系统 Download PDF

Info

Publication number
CN104899405A
CN104899405A CN201410077416.3A CN201410077416A CN104899405A CN 104899405 A CN104899405 A CN 104899405A CN 201410077416 A CN201410077416 A CN 201410077416A CN 104899405 A CN104899405 A CN 104899405A
Authority
CN
China
Prior art keywords
data
index
module
date
forecast date
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410077416.3A
Other languages
English (en)
Other versions
CN104899405B (zh
Inventor
卢孔敏
周秀凤
聂强强
康伟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201410077416.3A priority Critical patent/CN104899405B/zh
Publication of CN104899405A publication Critical patent/CN104899405A/zh
Application granted granted Critical
Publication of CN104899405B publication Critical patent/CN104899405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种网站指标的数据预测方法和系统以及报警方法和系统,该数据预测方法包括:采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标的预测数据。本发明能够准确预测出某一预测日期某一指标的预测数据,显著提高了预测的准确性,并且在衡量网站运营状况的多个指标同时满足一定条件时实现报警,使得用户及时地了解到网站运营状况。

Description

数据预测方法和系统以及报警方法和系统
技术领域
本发明涉及一种对网站多种指标的数据预测以及网站的运营状况的衡量,特别涉及一种网站指标的数据预测方法和数据预测系统以及报警方法和报警系统。
背景技术
目前很多网站监控只针对个别指标,且只能发现较为明显的异常,使用的方法也比较单一,比如聚类、箱线图等。现有技术中,针对网站指标例如浏览量的数据预测这一块,许多学者提出众多预测方法,比如利用一般的ARIMA模型(Autoregressive Integrated Moving Average Model,差分自回归移动平均模型),但这一类模型很少考虑季节、节假日等因素对数据预测的影响,所以较为简单的ARIMA模型预测出的数据相对不准确。并且其他很多数据预测模型仅仅停留在理论讨论阶段,由于没有考虑到真实数据的杂乱性,这些数据预测模型很少应用于实际应用中。另外还有类似卡尔曼滤波算法,但此类算法适用于实时数据以及变化比较稳定的数据预测,并不适用于旅游网站(周末数据明显较低)等网站流量的数据预测及监控。
发明内容
本发明要解决的技术问题是为了克服现有技术中对网站指标的数据进行预测的方法有些算法简单,预测出的数据不准确,有些算法无法应用至实际场合中的缺陷,提供一种具有准确预测出网站指标的数据及多种指标出现异常时及时报警的功能的网站指标的数据预测方法和系统以及报警方法和系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种网站指标的数据预测方法,其特点在于,其包括以下步骤:
S1、采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;
S2、将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;
S3、根据该些历史优化数据通过ARIMAX模型(带有输入序列的一般ARIMA模型被称为ARIMAX模型)计算一预测日期该指标的预测数据。
历史数据是某一预测日期的数据预测的基础,例如网站的浏览量历史数据,由于周末或国家法定节假日时浏览网页的用户明显减少,即这些时间的浏览量历史数据明显偏低,这些明显偏低的数据的出现是不可避免的。若是通过未修正的浏览量历史数据进行预测日期的数据预测,则会使得预测出的数据相对不准确,无法精确的反映出预测日期的浏览量,影响预测体系的预测精度。因此在步骤S2中,对历史数据进行了修正。
将修正后的历史优化数据带入ARIMAX模型进而预测出一预测日期某一指标例如浏览量的预测数据,且预测出的该预测数据较为准确,能够相对真实的反映出该预测日期的浏览量情况。
较佳地,在步骤S2中,对于任一时间周期内的任一待修正数据,修正操作包括:
利用公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1≤k≤r;
修正后的数据为该待修正数据与该修正参数的乘积;
在步骤S3之后,包括以下步骤:
S4、判断该预测数据是否需要修正,若是则进入步骤S5,若否则结束流程;
S5、利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1≤m≤s;
S6、该预测日期该指标的实际预测数据为该预测数据与该预测修正参数的商。
较佳地,在步骤S2之后包括以下步骤,设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数,针对任一i:
通过公式计算该第i天对应的平均数,其中,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1≤j≤J;
将历史优化数据yi1至yiJ按照从小到大或从大到小顺序进行排序以形成一数据序列;
当J为奇数时,该第i天对应的中位数Mi为该数据序列中处于中间位置的历史优化数据,当J为偶数时,Mi为该数据序列中处于中间位置的两个历史优化数据的平均值;
计算第一平均值 X ‾ = Σ i = 1 n X i n , 第二平均值 A ‾ = Σ i = 1 n A i n , 第三平均值 M ‾ = Σ i = 1 n M i n ;
计算第一相关性 r 1 = Σ i = 1 n ( X i - X ‾ ) ( A i - A ‾ ) Σ i = 1 n ( X i - X ‾ ) 2 · Σ i = 1 n ( A i - A ‾ ) 2 , 第二相关性并取r1和r2中的较大值作为先验指标xt
在步骤S3中,利用模型Φ(B)Φs(Bs)yt=μ+β1xt+Θ(B)Θs(Bst计算该预测数据,其中,Φ(B)为自回归算子且Φ(B)=1-φ1B-φ2B2-…-φpBp,p为自回归项数,Φs(Bs)为季节性自回归算子且Φs(Bs)=1-φ1Bs2B2s-…-φpBps,Θ(B)为移动平均算子且Θ(B)=1-θ1B-θ2B2-…-θqBq,q为移动平均项数,Θs(Bs)为季节性移动平均算子且Θs(Bs)=1-θ1Bs2B2s-…-θqBqs,yt为该预测数据,μ和β1为预设参数。
其中,预设参数μ和β1均是一种经验值,通过R(R是一套完整的数据处理、计算和制图软件系统)程序不断地训练可以实现对μ和β1的预测。
模型Φ(B)Φs(Bs)yt=μ+β1xt+Θ(B)Θs(Bst是对ARIMAX模型的优化,在ARIMAX模型中加入了影响因子β1xt,将根据平均数计算出的第一相关性和根据中位数计算出的第二相关性进行比较,并将比较出的较大值作为xt带入上述模型。
较佳地,在步骤S2之后包括以下步骤,设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且1≤a≤V:
计算该预测日期所处时间段对应的时间段指数
其中, U为正整数且1≤u≤U,1≤v≤V;
Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所处年份之前的第u年第v个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年各时间段的历史优化数据的总平均值;
在步骤S3中,利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft+Θ(B)Θs(Bst计算该预测数据,其中,β2为预设参数,通过R程序预测出。
模型Φ(B)Φs(Bs)yt=μ+β1xt2ft+Θ(B)Θs(Bst是对ARIMAX模型的进一步优化,在ARIMAX模型中又加入了影响因子β2ft
较佳地,在步骤S2之后包括以下步骤:
判断该预测日期是否为一设定日期,若是则设定日期因子的信号指标gt为1,若否则该信号指标gt为0;
在步骤S3中,利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算该预测数据,其中,β3为预设参数,通过R程序预测出。
模型Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst是对ARIMAX模型的进一步优化,在ARIMAX模型中又加入了影响因子β3gt
较佳地,在步骤S3之后包括以下步骤:
计算该预测日期对应的标准误差则该预测数据的置信区间为[F-βSe,F+βSe],其中W为正整数且1≤w≤W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度;
判断该预测日期该指标的实际数据是否在该置信区间内,若是则输出一表示该指标正常的第一信息,若否则输出一表示该指标异常的第二信息。
较佳地,判断该实际数据是否在[(F-βSe)(1-St1),(F+βSe)(1+St1)]内,若是则输出该第一信息,若否则输出该第二信息,其中,St1为一第一设定阈值。
较佳地,设该指标的现有置信区间为[Ci1,Ci2],判断该实际数据是否同时在[(F-βSe)(1-St2),(F+βSe)(1+St2)]和[Ci1(1-St2),Ci2(1+St2)]外,若是则输出该第二信息,若否则输出该第一信息,其中,St2为一第二设定阈值。
本发明还提供一种报警方法,其特点在于,一预测日期N个指标中每一指标的置信区间均通过上述的数据预测方法实现、每一指标均具有一现有置信区间,判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则输出报警信息;
其中,d和N均为正整数。
较佳地,指标为网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来源浏览率。
较佳地,每一指标的现有置信区间的获取方法为标准差方法、周次规律侦测方法或分位数方法。
本发明还提供一种网站指标的数据预测系统,其特点在于,其包括一分类模块、一修正模块和一第一计算模块;
该分类模块用于采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;
该修正模块用于将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;
该第一计算模块用于根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标的预测数据。
较佳地,该修正模块包括一第二计算模块和一第三计算模块,对于任一时间周期内的任一待修正数据,该第二计算模块用于利用公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1≤k≤r,该第三计算模块用于通过该待修正数据与该修正参数的乘积计算修正后的数据;
该数据预测系统还包括一第一判断模块、一第四计算模块和一第五计算模块,该第一判断模块用于判断该预测数据是否需要修正,若是则调用该第四计算模块;
该第四计算模块用于利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1≤m≤s;
该第五计算模块用于通过该预测数据与该预测修正参数的商计算该预测日期该指标的实际预测数据。
较佳地,该数据预测系统还包括一第六计算模块、一排序模块、一第一赋值模块、一第七计算模块和一第八计算模块,设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数,针对任一i:
该第六计算模块用于通过公式计算该第i天对应的平均数,其中,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1≤j≤J;
该排序模块用于将历史优化数据yi1至yiJ按照从小到大或从大到小顺序进行排序以形成一数据序列;
该第一赋值模块用于在当J为奇数时,将该第i天对应的中位数Mi赋值为该数据序列中处于中间位置的历史优化数据,当J为偶数时,将Mi赋值为该数据序列中处于中间位置的两个历史优化数据的平均值;
该第七计算模块用于计算第一平均值第二平均值第三平均值 M ‾ = Σ i = 1 n M i n ;
该第八计算模块用于计算第一相关性第二相关性并取r1和r2中的较大值作为先验指标xt
该第一计算模块用于利用模型Φ(B)Φs(Bs)yt=μ+β1xt+Θ(B)Θs(Bst计算该预测数据,其中,Φ(B)为自回归算子且Φ(B)=1-φ1B-φ2B2-…-φpBp,p为自回归项数,Φs(Bs)为季节性自回归算子且Φs(Bs)=1-φ1Bs2B2s-…-φpBps,Θ(B)为移动平均算子且Θ(B)=1-θ1B-θ2B2-…-θqBq,q为移动平均项数,Θs(Bs)为季节性移动平均算子且Θs(Bs)=1-θ1Bs2B2s-…-θqBqs,yt为该预测数据,μ和β1为预设参数。
较佳地,该数据预测系统还包括一指数计算模块,设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且1≤a≤V;
该指数计算模块用于计算该预测日期所处时间段对应的时间段指数 f t = F a ‾ F ‾ ;
其中, U为正整数且1≤u≤U,1≤v≤V;
Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所处年份之前的第u年第v个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年各时间段的历史优化数据的总平均值;
该第一计算模块用于利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft+Θ(B)Θs(Bst计算该预测数据,其中,β2为预设参数。
较佳地,该数据预测系统还包括一第二判断模块、一第二赋值模块和一第三赋值模块;
该第二判断模块用于判断该预测日期是否为一设定日期,若是则调用该第二赋值模块,若否则调用该第三赋值模块;
该第二赋值模块用于将设定日期因子的信号指标gt赋值为1;
该第三赋值模块用于将该信号指标gt赋值为0;
该第一计算模块用于利用Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算该预测数据,其中,β3为预设参数。
较佳地,该数据预测系统还包括一误差计算模块、一第四赋值模块、一第三判断模块、一第一输出模块和一第二输出模块;
该误差计算模块用于计算该预测日期对应的标准误差
该第四赋值模块用于将该预测数据的置信区间赋值为[F-βSe,F+βSe],其中W为正整数且1≤w≤W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度;
该第三判断模块用于判断该预测日期该指标的实际数据是否在该置信区间内,若是则调用该第一输出模块输出一表示该指标正常的第一信息,若否则调用该第二输出模块输出一表示该指标异常的第二信息。
较佳地,该第三判断模块用于判断该实际数据是否在[(F-βSe)(1-St1),(F+βSe)(1+St1)]内,若是则调用该第一输出模块输出该第一信息,若否则调用该第二输出模块输出该第二信息,其中,St1为一第一设定阈值。
较佳地,设该指标的现有置信区间为[Ci1,Ci2],该第三判断模块用于判断该实际数据是否同时在[(F-βSe)(1-St2),(F+βSe)(1+St2)]和[Ci1(1-St2),Ci2(1+St2)]外,若是则调用该第二输出模块输出该第二信息,若否则调用该第一输出模块输出该第一信息,其中,St2为一第二设定阈值。
本发明还提供一种报警系统,其特点在于,一预测日期N个指标中每一指标的置信区间均通过上述的数据预测系统实现、每一指标均具有一现有置信区间,该报警系统包括一第四判断模块和一第三输出模块;
该第四判断模块用于判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则调用该第三输出模块输出报警信息;
其中,d和N均为正整数。
较佳地,指标为网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来源浏览率。
较佳地,每一指标的现有置信区间的获取方法为标准差方法、周次规律侦测方法或分位数方法。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明提供一种网站指标的数据预测方法和系统以及报警方法和系统,按照时间周期对历史数据进行分类,将每一时间周期内的历史数据划分为标准数据和待修正数据,再根据标准数据对待修正数据进行修正,然后根据修正后的数据和标准数据通过ARIMAX模型计算出一预测日期某一指标的预测数据。本发明能够准确预测出某一指标的预测数据,显著提高了预测的准确性,并且在衡量网站运营状况的多个指标同时满足一定条件时实现报警,使得用户及时地了解到网站运营状况。
附图说明
图1为本发明实施例1的数据预测方法的流程图。
图2为本发明实施例1的数据预测系统的结构框图。
图3为本发明实施例2的数据预测方法中选取先验指标的操作的流程图。
图4为本发明实施例2在实施例1基础上数据预测系统还包括的部件的结构框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例提供一种网站指标的数据预测方法,从预测本身来看,这是一个复杂的过程,并不仅仅像直观概念中的仅由预测算法决定,网站指标的数据预测包括数据采集、数据分类、数据修正、数据分析、预测算法等在内的复杂问题。该数据预测方法包括以下步骤:
步骤101、采集一预设区域(如上海地区)内的一指标的历史数据,按照时间周期(例如按照周)对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类。
其中,衡量网站运营情况的指标大致有93个,该指标包括网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来源浏览率等。
步骤102、将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据。
在本步骤中,对于任一时间周期内的任一待修正数据,修正操作包括:
利用公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1≤k≤r;
修正后的数据为该待修正数据与该修正参数的乘积。
步骤103、根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标(如浏览量)的预测数据。
步骤104、判断该预测数据是否需要修正,若是则进入步骤105,若否则结束流程。
步骤105、利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1≤m≤s。
步骤106、该预测日期该指标的实际预测数据为该预测数据与该预测修正参数的商。
如图2所示,本实施例还提供一种网站指标的数据预测系统,其包括一分类模块1、一修正模块2、一第一计算模块3、一第一判断模块4、一第四计算模块5和一第五计算模块6。
上述介绍了该数据预测系统包括的部件,下面具体介绍每一部件实现的功能:
该分类模块1用于采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类。
该修正模块2用于将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据。
进一步地,该修正模块2包括一第二计算模块21和一第三计算模块22,对于任一时间周期内的任一待修正数据,该第二计算模块21用于利用公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1≤k≤r,该第三计算模块22用于通过该待修正数据与该修正参数的乘积计算修正后的数据。
该第一计算模块3用于根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标的预测数据。
该第一判断模块4用于判断该预测数据是否需要修正,若是则调用该第四计算模块5。
该第四计算模块5用于利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1≤m≤s。
该第五计算模块6用于通过该预测数据与该预测修正参数的商计算该预测日期该指标的实际预测数据。
下面举一具体的例子来说明本实施例,以使得本领域技术人员更好地理解本发明:
本实施例的数据预测过程分为预测前的预处理过程和预测中的计算过程。
该预处理过程包括:
采集上海地区2011年至2013年携程旅行网的网页的浏览量的历史数据,按照周对该些历史数据进行分类,且每一周内的历史数据按照日期先后顺序分类。分类后的历史数据按照2011年、2012年、2013年进行排序,各年中的历史数据按照第1周至第52周的顺序进行排序,每周中按照周一至周日的顺序进行排列。
将每周的历史数据划分为标准数据和待修正数据,周一至周五的历史数据为标准数据,周六和周日的历史数据为待修正数据,根据周一至周五的历史数据对该周中周六和周日的历史数据进行修正,修正后的周六和周日的历史数据和周一至周五的历史数据构成历史优化数据。
例如,参考表1,其示出了2013年6月3日至2013年6月9日(即2013年第23周的周一至周日)的历史数据,表1中的第一比值分别为周一的历史数据与周六的历史数据间的比值、周二的历史数据与周六的历史数据间的比值、周三的历史数据与周六的历史数据间的比值、周四的历史数据与周六的历史数据间的比值及周五的历史数据与周六的历史数据间的比值;表1中的第二比值分别为周一的历史数据与周日的历史数据间的比值、周二的历史数据与周日的历史数据间的比值、周三的历史数据与周日的历史数据间的比值、周四的历史数据与周日的历史数据间的比值及周五的历史数据与周日的历史数据间的比值。
表1
星期 历史数据 第一比值 第二比值
周一 673129.4 1.53 1.59
周二 663450.7 1.50 1.57
周三 659579.6 1.50 1.56
周四 657915.5 1.49 1.56
周五 631187.1 1.43 1.49
周六 441188
周日 422858
则周六的修正参数=(1.53+1.50+1.50+1.49+1.43)/5=1.49;周日的修正参数=(1.59+1.57+1.56+1.56+1.49)/5=1.55。
周六的历史数据经修正后的数据=441188*1.49=657370.1;周日的历史数据经修正后的数据=422858*1.55=655429.9。
计算过程包括:
在将2011年至2013年历史数据中所有的周六和周日的历史数据进行修正后获得历史优化数据,根据该些历史优化数据通过ARIMAX模型计算一预测日期(如2014年2月20日)该浏览量的预测数据。
预测出某一预测日期的浏览量后,还需判断浏览量的数值是否需要修正,例如若当前的日期为2014年2月19日(周三),预测日期为2014年2月20日(周四),由于周一至周五对应的数据为标准数据,所以无需对预测出的浏览量进行修正。若预测日期为2014年2月22日(周六),由于对历史数据中所有的周六和周日的历史数据进行了修正,所以通过ARIMAX模型计算出的浏览量不准确,还需要对预测出的浏览量进行进一步的修正,具体为:
计算周一的历史数据和周二的历史数据分别与周六的预测数据的比值,计算周三的预测数据、周四的预测数据和周五的预测数据分别与周六的预测数据的比值,将上述计算出的各个比值相加后再除以5则计算出该预测数据的预测修正参数,则修正后的预测数据即实际预测数据为该预测数据与该预测修正参数的商。
实施例2
本实施例的数据预测方法包括实施例1中的数据预测方法的全部内容,本实施例的数据预测系统包括实施例1中的数据预测系统的全部部件和各部件的功能,而且在此基础上本实施例的数据预测方法及系统增加的技术内容及细化的技术内容具体如下:
在步骤102之后包括选取先验指标、计算时间段指数以及设定信号指标的操作,下面对这三种操作进行详细描述,且需要说明的是,这三种操作的先后执行顺序不受本实施例的限制,即先执行这三种操作中任一操作均可。
如图3所示,选取先验指标xt的操作包括以下步骤:
设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数:
对于任一i,包括步骤201-203:
步骤201、通过公式计算该第i天对应的平均数,其中,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1≤j≤J;
步骤202、将历史优化数据yi1至yiJ按照从小到大或从大到小顺序进行排序以形成一数据序列;
步骤203、当J为奇数时,该第i天对应的中位数Mi为该数据序列中处于中间位置的历史优化数据,当J为偶数时,Mi为该数据序列中处于中间位置的两个历史优化数据的平均值;
对于所有i,i为遍历1至n的整数,包括步骤204和205:
步骤204、计算第一平均值第二平均值第三平均值 M ‾ = Σ i = 1 n M i n ;
步骤205、计算第一相关性第二相关性并取r1和r2中的较大值作为先验指标xt
计算时间段指数ft的操作包括以下步骤:
设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且1≤a≤V:
计算该预测日期所处时间段对应的时间段指数
其中, U为正整数且1≤u≤U,1≤v≤V;
Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所处年份之前的第u年第v个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年各时间段的历史优化数据的总平均值。
设定信号指标gt的操作包括以下步骤:
判断该预测日期是否为一设定日期(如法定节假日的日期),若是则设定日期因子的信号指标gt为1,若否则该信号指标gt为0。
在选取先验指标、计算时间段指数以及设定信号指标的操作完成之后,对步骤103中的ARIMAX模型进行优化,即将影响预测数据的多种因素加入至ARIMAX模型中,使得预测出的数据更加准确。具体为:
利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算该预测数据,其中,Φ(B)为自回归算子且Φ(B)=1-φ1B-φ2B2-…-φpBp,p为自回归项数,Φs(Bs)为季节性自回归算子且Φs(Bs)=1-φ1Bs2B2s-…-φpBps,Θ(B)为移动平均算子且Θ(B)=1-θ1B-θ2B2-…-θqBq,q为移动平均项数,Θs(Bs)为季节性移动平均算子且Θs(Bs)=1-θ1Bs2B2s-…-θqBqs,yt为该预测数据,μ、β1、β2和β3为预设参数,通过R程序预测出。
如图4所示,本实施例的数据预测系统还包括一第六计算模块7、一排序模块8、一第一赋值模块9、一第七计算模块10、一第八计算模块11、一指数计算模块12、一第二判断模块13、一第二赋值模块14和一第三赋值模块15。
上述介绍了该数据预测系统除了实施例1包括的部件外还包括的部件,下面具体介绍每一部件实现的功能:
设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数,设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且1≤a≤V;
该第六计算模块7用于通过公式计算该第i天对应的平均数,其中,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1≤j≤J;
该排序模块8用于将历史优化数据yi1至yiJ按照从小到大或从大到小顺序进行排序以形成一数据序列;
该第一赋值模块9用于在当J为奇数时,将该第i天对应的中位数Mi赋值为该数据序列中处于中间位置的历史优化数据,当J为偶数时,将Mi赋值为该数据序列中处于中间位置的两个历史优化数据的平均值;
该第七计算模块10用于计算第一平均值第二平均值 A ‾ = Σ i = 1 n A i n , 第三平均值 M ‾ = Σ i = 1 n M i n ;
该第八计算模块11用于计算第一相关性第二相关性并取r1和r2中的较大值作为先验指标xt
该指数计算模块12用于计算该预测日期所处时间段对应的时间段指数 f t = F a ‾ F ‾ ;
其中, U为正整数且1≤u≤U,1≤v≤V;
Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所处年份之前的第u年第v个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年各时间段的历史优化数据的总平均值;
该第二判断模块13用于判断该预测日期是否为一设定日期,若是则调用该第二赋值模块14,若否则调用该第三赋值模块15;
该第二赋值模块14用于将设定日期因子的信号指标gt赋值为1;
该第三赋值模块15用于将该信号指标gt赋值为0;
该第一计算模块3用于利用Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算该预测数据。
下面举一具体的例子来说明本实施例,以使得本领域技术人员更好地理解本发明:
接着实施例1中的例子,在对2011年至2013年的历史数据进行修正后,进行选取先验指标xt的操作,具体为:
设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至180的整数,通过公式计算该第i天对应的平均数,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据。
例如J=4,预测日期为2014年2月20日,当i=1、j=1时,y11表示该预测日期之前的第1天(即2014年2月19日)所处时间周期之前的第1个时间周期对应日期(即2014年2月12日)的历史优化数据,当i=1、j=2时,y12表示该预测日期之前的第1天所处时间周期之前的第2个时间周期对应日期(即2014年2月5日)的历史优化数据,当i=1、j=3时,y13表示2014年1月29日的历史优化数据,当i=1、j=4时,y14表示2014年1月22日的历史优化数据。则2014年2月19日对应的平均数=(y11+y12+y13+y14)/4。
当i=2、j=1时,y21表示该预测日期之前的第2天(即2014年2月18日)所处时间周期之前的第1个时间周期对应日期(即2014年2月11日)的历史优化数据,当i=2、j=2时,y22表示该预测日期之前的第2天所处时间周期之前的第2个时间周期对应日期(即2014年2月4日)的历史优化数据,当i=2、j=3时,y23表示2014年1月28日的历史优化数据,当i=2、j=4时,y24表示2014年1月21日的历史优化数据。则2014年2月18日对应的平均数=(y21+y22+y23+y24)/4。
同理,该预测日期之前的第3-180天对应的平均数按照上述方法计算,具体过程这里就不再一一赘述。
然后,将历史优化数据yi1至yiJ(例如y11、y12、y13、y14)按照从小到大顺序进行排序以形成一数据序列,其中i为遍历1至180的整数,j为遍历1至4的整数。M1为y11、y12、y13、y14按从小到大顺序形成的数据序列中(如{y12、y14、y13、y12})处于中间位置的两个历史优化数据的平均值,即(y14+y13)/2。
计算第一平均值 X ‾ = Σ i = 1 180 X i 180 , 第二平均值 A ‾ = Σ i = 1 180 A i 180 , 第三平均值 M ‾ = Σ i = 1 180 M i 180 ;
其中,X1为2014年2月19日的历史优化数据,X2为2014年2月18日的历史优化数据,X3为2014年2月17日的历史优化数据,依次类推;A1为2014年2月19日对应的平均数,A2为2014年2月18日对应的平均数,A3为2014年2月17日对应的平均数,依次类推;M1为2014年2月19日对应的中位数,M2为2014年2月18日对应的中位数,M3为2014年2月17日对应的中位数,依次类推。
计算第一相关性 r 1 = Σ i = 1 180 ( X i - X ‾ ) ( A i - A ‾ ) Σ i = 1 180 ( X i - X ‾ ) 2 · Σ i = 1 180 ( A i - A ‾ ) 2 , 第二相关性并取r1和r2中的较大值作为先验指标xt
接着,由于月份不同携程旅行网的网页的浏览量也不同,存在淡旺季现象,例如每年的5月和10月,由于法定节假日的存在,网页的浏览量显著减小(见表2):
表2
月份 历史数据 月份季节指数
1 620506.0 1.114
2 509665.5 0.915
3 553713.2 0.994
4 523567.3 0.940
5 498932.4 0.896
6 551294.8 0.990
7 603726.8 1.084
8 594961.0 1.068
9 585239.4 1.051
10 468442.4 0.841
11 536538.1 0.964
12 635352.5 1.141
该预测日期为2014年2月20日,a=2,V=12,月份季节指数 F a ‾ = Σ u = 1 U F au U , F ‾ = Σ v = 1 V Σ u = 1 U F vu UV .
其中,u=1时,F21为2013年2月的历史优化数据,u=2时,F22为2012年2月的历史优化数据,u=3时,F23为2011年2月的历史优化数据,则2011年至2013年中各年2月的历史优化数据的平均值
v=1、u=1时,F11为2013年1月的历史优化数据,v=1、u=2时,F12为2012年1月的历史优化数据,v=1、u=3时,F13为2011年1月的历史优化数据,v=2、u=1时,F21为2013年2月的历史优化数据,v=2、u=2时,F22为2012年2月的历史优化数据,v=2、u=3时,F23为2011年2月的历史优化数据,以此类推。则2011年至2013年中各年各月的历史优化数据的总平均值 F ‾ = Σ v = 1 12 Σ u = 1 3 F vu 3 × 12 .
接着,判断该预测日期2014年2月20日是否为法定节假日,并判断出2014年2月20日不是法定节假日则gt为0。
最后,利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算2014年2月20日的预测数据yt
实施例3
接着实施例2,在计算出预测数据(具体参见实施例1中步骤101-106)后,计算该预测数据的置信区间以及根据该置信区间判断该指标是否异常,具体步骤包括:
步骤107、计算该预测日期对应的标准误差则该预测数据的置信区间为[F-βSe,F+βSe]。其中,W为正整数且1≤w≤W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度。
步骤108、判断该预测日期该指标的实际数据是否在该置信区间内,若是则输出一表示该指标正常的第一信息,若否则输出一表示该指标异常的第二信息。进一步地,判断该实际数据是否在[(F-βSe)(1-St1),(F+βSe)(1+St1)]内,若是则输出该第一信息,若否则输出该第二信息,其中,St1为一第一设定阈值。
本实施例的数据预测系统还包括一误差计算模块、一第四赋值模块、一第三判断模块、一第一输出模块和一第二输出模块。
该误差计算模块用于计算该预测日期对应的标准误差
该第四赋值模块用于将该预测数据的置信区间赋值为[F-βSe,F+βSe],其中W为正整数且1≤w≤W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度;
该第三判断模块用于判断该预测日期该指标的实际数据是否在该置信区间内,若是则调用该第一输出模块输出一表示该指标正常的第一信息,若否则调用该第二输出模块输出一表示该指标异常的第二信息。进一步地,该第三判断模块用于判断该实际数据是否在[(F-βSe)(1-St1),(F+βSe)(1+St1)]内,若是则调用该第一输出模块输出该第一信息,若否则调用该第二输出模块输出该第二信息,其中,St1为一第一设定阈值。
实施例4
实施例3中的步骤108也可通过以下技术内容实现:
通过现有方法(标准差方法、周次规律侦测方法或分位数方法)获得的该指标的现有置信区间为[Ci1,Ci2],判断该实际数据是否满足既在该置信区间内又在该现有置信区间内,若是则输出该第一信息,若否则进一步判断该实际数据是否同时满足既在[(F-βSe)(1-St2),(F+βSe)(1+St2)]又在[Ci1(1-St2),Ci2(1+St2)]外,若是则输出该第二信息,若否则输出该第一信息,其中,St2为一第二设定阈值。
本实施例数据预测系统包括的第三判断模块与实施例3中的第三判断模块实现的功能不同,具体为:
该第三判断模块用于判断该实际数据是否同时在[(F-βSe)(1-St2),(F+βSe)(1+St2)]和[Ci1(1-St2),Ci2(1+St2)]外,若是则调用该第二输出模块输出该第二信息,若否则调用该第一输出模块输出该第一信息,其中,St2为一第二设定阈值。
实施例5
接着实施例3,本实施例还提供一种报警方法,一预测日期N个指标(例如网页跳出率、转化率、浏览量、网页浏览率)中每一指标的置信区间均通过实施例3所述的数据预测方法实现、每一指标的现有置信区间均通过现有方法实现,判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则输出报警信息;其中,d和N均为正整数。
本实施例还提供一种报警系统,一预测日期N个指标中每一指标的置信区间均通过实施例3所述的数据预测系统实现、每一指标的现有置信区间均通过现有方法实现,该报警系统包括一第四判断模块和一第三输出模块;
该第四判断模块用于判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则调用该第三输出模块输出报警信息;其中,d和N均为正整数。
下面举一具体的例子来说明本实施例,以使得本领域技术人员更好地理解本发明:
接着实施例2中的例子,假设该预测日期2014年2月20日某一指标的预测数据为A,该指标对应的置信区间为[A1,A2],该指标对应的现有置信区间为[C1,C2],第三设定阈值和第四设定阈值相同均为St2,则衡量网站运营状况的93个指标中,若有任意5个或5个以上的指标满足下述条件:A均在[A1,A2]和[C1,C2]外,且|A-A1|>St2或|A-A2|>St2、同时|A-C1|>St2或|A-C2|>St2,则实现报警。
当然,本发明也可以分等级报警,如将报警分为一级报警和二级报警。在一级报警中,第一种技术方案为判断N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间或现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一设定值或与对应的现有置信区间的左区间或右区间的差值的绝对值大于该设定值,若是则实现报警;第二种技术方案为判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值小于一设定值同时与对应的现有置信区间的左区间或右区间的差值的绝对值小于该设定值,若是则实现报警。
在二级报警中,技术方案为判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一设定值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于该设定值,若是则实现报警。
本发明中的各个功能模块均能够在现有的硬件条件下结合现有的软件编程手段加以实现,故在此对其具体实现方法均不做赘述。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (20)

1.一种网站指标的数据预测方法,其特征在于,其包括以下步骤:
S1、采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;
S2、将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;
S3、根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标的预测数据。
2.如权利要求1所述的数据预测方法,其特征在于,在步骤S2中,对于任一时间周期内的任一待修正数据,修正操作包括:
利用公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1≤k≤r;
修正后的数据为该待修正数据与该修正参数的乘积;
在步骤S3之后,包括以下步骤:
S4、判断该预测数据是否需要修正,若是则进入步骤S5,若否则结束流程;
S5、利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1≤m≤s;
S6、该预测日期该指标的实际预测数据为该预测数据与该预测修正参数的商。
3.如权利要求1所述的数据预测方法,其特征在于,在步骤S2之后包括以下步骤,设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数,针对任一i:
通过公式计算该第i天对应的平均数,其中,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1≤j≤J;
将历史优化数据yi1至yiJ按照从小到大或从大到小顺序进行排序以形成一数据序列;
当J为奇数时,该第i天对应的中位数Mi为该数据序列中处于中间位置的历史优化数据,当J为偶数时,Mi为该数据序列中处于中间位置的两个历史优化数据的平均值;
计算第一平均值 X ‾ = Σ i = 1 n X i n , 第二平均值 A ‾ = Σ i = 1 n A i n , 第三平均值 M ‾ = Σ i = 1 n M i n ;
计算第一相关性 r 1 = Σ i = 1 n ( X i - X ‾ ) ( A i - A ‾ ) Σ i = 1 n ( X i - X ‾ ) 2 · Σ i = 1 n ( A i - A ‾ ) 2 , 第二相关性并取r1和r2中的较大值作为先验指标xt
在步骤S3中,利用模型Φ(B)Φs(Bs)yt=μ+β1xt+Θ(B)Θs(Bst计算该预测数据,其中,Φ(B)为自回归算子且Φ(B)=1-φ1B-φ2B2-…-φpBp,p为自回归项数,Φs(Bs)为季节性自回归算子且Φs(Bs)=1-φ1Bs2B2s-…-φpBps,Θ(B)为移动平均算子且Θ(B)=1-θ1B-θ2B2-…-θqBq,q为移动平均项数,Θs(Bs)为季节性移动平均算子且Θs(Bs)=1-θ1Bs2B2s-…-θqBqs,yt为该预测数据,μ和β1为预设参数。
4.如权利要求3所述的数据预测方法,其特征在于,在步骤S2之后包括以下步骤,设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且1≤a≤V:
计算该预测日期所处时间段对应的时间段指数
其中, U为正整数且1≤u≤U,1≤v≤V;
Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所处年份之前的第u年第v个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年各时间段的历史优化数据的总平均值;
在步骤S3中,利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft+Θ(B)Θs(Bst计算该预测数据,其中,β2为预设参数。
5.如权利要求4所述的数据预测方法,其特征在于,在步骤S2之后包括以下步骤:
判断该预测日期是否为一设定日期,若是则设定日期因子的信号指标gt为1,若否则该信号指标gt为0;
在步骤S3中,利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算该预测数据,其中,β3为预设参数。
6.如权利要求1所述的数据预测方法,其特征在于,在步骤S3之后包括以下步骤:
计算该预测日期对应的标准误差则该预测数据的置信区间为[F-βSe,F+βSe],其中W为正整数且1≤w≤W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度;
判断该预测日期该指标的实际数据是否在该置信区间内,若是则输出一表示该指标正常的第一信息,若否则输出一表示该指标异常的第二信息。
7.如权利要求6所述的数据预测方法,其特征在于,判断该实际数据是否在[(F-βSe)(1-St1),(F+βSe)(1+St1)]内,若是则输出该第一信息,若否则输出该第二信息,其中,St1为一第一设定阈值。
8.如权利要求6所述的数据预测方法,其特征在于,设该指标的现有置信区间为[Ci1,Ci2],判断该实际数据是否同时在[(F-βSe)(1-St2),(F+βSe)(1+St2)]和[Ci1(1-St2),Ci2(1+St2)]外,若是则输出该第二信息,若否则输出该第一信息,其中,St2为一第二设定阈值。
9.一种报警方法,其特征在于,一预测日期N个指标中每一指标的置信区间均通过如权利要求6所述的数据预测方法实现、每一指标均具有一现有置信区间,判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则输出报警信息;
其中,d和N均为正整数。
10.如权利要求9所述的报警方法,其特征在于,指标为网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来源浏览率,和/或,每一指标的现有置信区间的获取方法为标准差方法、周次规律侦测方法或分位数方法。
11.一种网站指标的数据预测系统,其特征在于,其包括一分类模块、一修正模块和一第一计算模块;
该分类模块用于采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;
该修正模块用于将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;
该第一计算模块用于根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标的预测数据。
12.如权利要求11所述的数据预测系统,其特征在于,该修正模块包括一第二计算模块和一第三计算模块,对于任一时间周期内的任一待修正数据,该第二计算模块用于利用公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1≤k≤r,该第三计算模块用于通过该待修正数据与该修正参数的乘积计算修正后的数据;
该数据预测系统还包括一第一判断模块、一第四计算模块和一第五计算模块,该第一判断模块用于判断该预测数据是否需要修正,若是则调用该第四计算模块;
该第四计算模块用于利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1≤m≤s;
该第五计算模块用于通过该预测数据与该预测修正参数的商计算该预测日期该指标的实际预测数据。
13.如权利要求11所述的数据预测系统,其特征在于,该数据预测系统还包括一第六计算模块、一排序模块、一第一赋值模块、一第七计算模块和一第八计算模块,设定Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数,对于任一i:
该第六计算模块用于通过公式计算该第i天对应的平均数,其中,yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1≤j≤J;
该排序模块用于将历史优化数据yi1至yiJ按照从小到大或从大到小顺序进行排序以形成一数据序列;
该第一赋值模块用于在当J为奇数时,将该第i天对应的中位数Mi赋值为该数据序列中处于中间位置的历史优化数据,当J为偶数时,将Mi赋值为该数据序列中处于中间位置的两个历史优化数据的平均值;
该第七计算模块用于计算第一平均值第二平均值第三平均值 M ‾ = Σ i = 1 n M i n ;
该第八计算模块用于计算第一相关性第二相关性并取r1和r2中的较大值作为先验指标xt
该第一计算模块用于利用模型Φ(B)Φs(Bs)yt=μ+β1xt+Θ(B)Θs(Bst计算该预测数据,其中,Φ(B)为自回归算子且Φ(B)=1-φ1B-φ2B2-…-φpBp,p为自回归项数,Φs(Bs)为季节性自回归算子且Φs(Bs)=1-φ1Bs2B2s-…-φpBps,Θ(B)为移动平均算子且Θ(B)=1-θ1B-θ2B2-…-θqBq,q为移动平均项数,Θs(Bs)为季节性移动平均算子且Θs(Bs)=1-θ1Bs2B2s-…-θqBqs,yt为该预测数据,μ和β1为预设参数。
14.如权利要求13所述的数据预测系统,其特征在于,该数据预测系统还包括一指数计算模块,设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且1≤a≤V;
该指数计算模块用于计算该预测日期所处时间段对应的时间段指数 f t = F a ‾ F ‾ ;
其中, U为正整数且1≤u≤U,1≤v≤V;
Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所处年份之前的第u年第v个时间段的历史优化数据,为该预测日期所处年份之前的U年中各年各时间段的历史优化数据的总平均值;
该第一计算模块用于利用模型Φ(B)Φs(Bs)yt=μ+β1xt2ft+Θ(B)Θs(Bst计算该预测数据,其中,β2为预设参数。
15.如权利要求14所述的数据预测系统,其特征在于,该数据预测系统还包括一第二判断模块、一第二赋值模块和一第三赋值模块;
该第二判断模块用于判断该预测日期是否为一设定日期,若是则调用该第二赋值模块,若否则调用该第三赋值模块;
该第二赋值模块用于将设定日期因子的信号指标gt赋值为1;
该第三赋值模块用于将该信号指标gt赋值为0;
该第一计算模块用于利用Φ(B)Φs(Bs)yt=μ+β1xt2ft3gt+Θ(B)Θs(Bst计算该预测数据,其中,β3为预设参数。
16.如权利要求11所述的数据预测系统,其特征在于,该数据预测系统还包括一误差计算模块、一第四赋值模块、一第三判断模块、一第一输出模块和一第二输出模块;
该误差计算模块用于计算该预测日期对应的标准误差
该第四赋值模块用于将该预测数据的置信区间赋值为[F-βSe,F+βSe],其中W为正整数且1≤w≤W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度;
该第三判断模块用于判断该预测日期该指标的实际数据是否在该置信区间内,若是则调用该第一输出模块输出一表示该指标正常的第一信息,若否则调用该第二输出模块输出一表示该指标异常的第二信息。
17.如权利要求16所述的数据预测系统,其特征在于,该第三判断模块用于判断该实际数据是否在[(F-βSe)(1-St1),(F+βSe)(1+St1)]内,若是则调用该第一输出模块输出该第一信息,若否则调用该第二输出模块输出该第二信息,其中,St1为一第一设定阈值。
18.如权利要求16所述的数据预测系统,其特征在于,设该指标的现有置信区间为[Ci1,Ci2],该第三判断模块用于判断该实际数据是否同时在[(F-βSe)(1-St2),(F+βSe)(1+St2)]和[Ci1(1-St2),Ci2(1+St2)]外,若是则调用该第二输出模块输出该第二信息,若否则调用该第一输出模块输出该第一信息,其中,St2为一第二设定阈值。
19.一种报警系统,其特征在于,一预测日期N个指标中每一指标的置信区间均通过如权利要求16所述的数据预测系统实现、每一指标均具有一现有置信区间,该报警系统包括一第四判断模块和一第三输出模块;
该第四判断模块用于判断该N个指标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则调用该第三输出模块输出报警信息;
其中,d和N均为正整数。
20.如权利要求19所述的报警系统,其特征在于,指标为网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来源浏览率,和/或,每一指标的现有置信区间的获取方法为标准差方法、周次规律侦测方法或分位数方法。
CN201410077416.3A 2014-03-04 2014-03-04 数据预测方法和系统以及报警方法和系统 Active CN104899405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410077416.3A CN104899405B (zh) 2014-03-04 2014-03-04 数据预测方法和系统以及报警方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410077416.3A CN104899405B (zh) 2014-03-04 2014-03-04 数据预测方法和系统以及报警方法和系统

Publications (2)

Publication Number Publication Date
CN104899405A true CN104899405A (zh) 2015-09-09
CN104899405B CN104899405B (zh) 2019-03-26

Family

ID=54032067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410077416.3A Active CN104899405B (zh) 2014-03-04 2014-03-04 数据预测方法和系统以及报警方法和系统

Country Status (1)

Country Link
CN (1) CN104899405B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512762A (zh) * 2015-12-04 2016-04-20 网易(杭州)网络有限公司 一种基于相关分析的游戏数值投放评估方法及装置
CN106156499A (zh) * 2016-07-04 2016-11-23 山东航天电子技术研究所 一种基于Fourier级数模型的时序数据预测方法
CN106251017A (zh) * 2016-08-02 2016-12-21 北京百度网讯科技有限公司 数据预测方法及装置
CN106503841A (zh) * 2016-10-17 2017-03-15 东软集团股份有限公司 指标阈值的确定方法和装置
CN106547481A (zh) * 2016-09-29 2017-03-29 浙江宇视科技有限公司 一种数据预分配方法和设备
CN108288161A (zh) * 2017-01-10 2018-07-17 第四范式(北京)技术有限公司 基于机器学习来提供预测结果的方法及系统
CN108415818A (zh) * 2018-03-01 2018-08-17 山东大学 一种考虑繁忙程度的大数据平台多服务接口执行时间预测方法
CN109347653A (zh) * 2018-09-07 2019-02-15 阿里巴巴集团控股有限公司 一种指标异常发现方法和装置
CN109412892A (zh) * 2018-10-23 2019-03-01 株洲中车时代电气股份有限公司 一种网络通信质量评估系统及方法
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN109583625A (zh) * 2018-10-19 2019-04-05 顺丰科技有限公司 一种揽件量预测方法、系统、设备及存储介质
CN109784524A (zh) * 2017-11-13 2019-05-21 顺丰科技有限公司 件量预测方法及装置、设备和存储介质
CN109976986A (zh) * 2017-12-28 2019-07-05 阿里巴巴集团控股有限公司 异常设备的检测方法及装置
CN110008049A (zh) * 2019-03-29 2019-07-12 广州接点智能科技有限公司 一种基于互联网平台的数据修正方法、终端设备及介质
CN110020374A (zh) * 2017-12-28 2019-07-16 中国移动通信集团陕西有限公司 一种发布信息的转发量预测方法和装置
CN110068003A (zh) * 2018-01-24 2019-07-30 中国石油天然气股份有限公司 锅炉预警信息的推送方法及装置
CN110825787A (zh) * 2019-11-04 2020-02-21 上海燕汐软件信息科技有限公司 数据提醒方法及装置、电子设备、存储介质
CN111090571A (zh) * 2019-12-18 2020-05-01 中国建设银行股份有限公司 信息系统的维护方法、装置和计算机存储介质
CN111224830A (zh) * 2018-11-23 2020-06-02 中国电信股份有限公司 数据监控方法、装置、物联网网元及计算机可读存储介质
CN111221706A (zh) * 2020-01-06 2020-06-02 北京思特奇信息技术股份有限公司 一种cpu使用率预测方法、系统、介质及设备
CN111311086A (zh) * 2020-02-11 2020-06-19 中国银联股份有限公司 一种容量监控方法、装置及计算机可读存储介质
CN112465658A (zh) * 2020-10-30 2021-03-09 中国石油天然气集团有限公司 自媒体文件用户粘度的确定方法及装置
CN114338429A (zh) * 2021-12-30 2022-04-12 中国工商银行股份有限公司 网络带宽的确定方法、装置及电子设备
CN118091325B (zh) * 2024-04-17 2024-06-25 江苏裕荣光电科技有限公司 一种电缆智能检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645402A (zh) * 2005-01-19 2005-07-27 北京交通大学 一种道路交通流数据质量控制方法与装置
CN101394311A (zh) * 2008-11-12 2009-03-25 北京交通大学 一种基于时间序列的网络舆情预测方法
CN101634991A (zh) * 2009-04-21 2010-01-27 上海申瑞电力科技股份有限公司 数据采集与监视控制系统的遥测数据清洗方法
CN102355381A (zh) * 2011-08-18 2012-02-15 网宿科技股份有限公司 自适应的差分自回归移动平均模型的流量预测方法和系统
CN102622709A (zh) * 2012-03-01 2012-08-01 鑫银国际保理有限公司 确定机票销售应收帐款的方法及系统
US20120310939A1 (en) * 2011-06-06 2012-12-06 Taiyeong Lee Systems And Methods For Clustering Time Series Data Based On Forecast Distributions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645402A (zh) * 2005-01-19 2005-07-27 北京交通大学 一种道路交通流数据质量控制方法与装置
CN101394311A (zh) * 2008-11-12 2009-03-25 北京交通大学 一种基于时间序列的网络舆情预测方法
CN101634991A (zh) * 2009-04-21 2010-01-27 上海申瑞电力科技股份有限公司 数据采集与监视控制系统的遥测数据清洗方法
US20120310939A1 (en) * 2011-06-06 2012-12-06 Taiyeong Lee Systems And Methods For Clustering Time Series Data Based On Forecast Distributions
CN102355381A (zh) * 2011-08-18 2012-02-15 网宿科技股份有限公司 自适应的差分自回归移动平均模型的流量预测方法和系统
CN102622709A (zh) * 2012-03-01 2012-08-01 鑫银国际保理有限公司 确定机票销售应收帐款的方法及系统

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512762A (zh) * 2015-12-04 2016-04-20 网易(杭州)网络有限公司 一种基于相关分析的游戏数值投放评估方法及装置
CN106156499A (zh) * 2016-07-04 2016-11-23 山东航天电子技术研究所 一种基于Fourier级数模型的时序数据预测方法
CN106251017A (zh) * 2016-08-02 2016-12-21 北京百度网讯科技有限公司 数据预测方法及装置
CN106547481A (zh) * 2016-09-29 2017-03-29 浙江宇视科技有限公司 一种数据预分配方法和设备
CN106547481B (zh) * 2016-09-29 2020-04-10 浙江宇视科技有限公司 一种数据预分配方法和设备
CN106503841B (zh) * 2016-10-17 2019-12-13 东软集团股份有限公司 指标阈值的确定方法和装置
CN106503841A (zh) * 2016-10-17 2017-03-15 东软集团股份有限公司 指标阈值的确定方法和装置
CN108288161A (zh) * 2017-01-10 2018-07-17 第四范式(北京)技术有限公司 基于机器学习来提供预测结果的方法及系统
CN109542740B (zh) * 2017-09-22 2022-05-27 阿里巴巴集团控股有限公司 异常检测方法及装置
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN109784524B (zh) * 2017-11-13 2023-06-16 顺丰科技有限公司 件量预测方法及装置、设备和存储介质
CN109784524A (zh) * 2017-11-13 2019-05-21 顺丰科技有限公司 件量预测方法及装置、设备和存储介质
CN110020374B (zh) * 2017-12-28 2021-06-08 中国移动通信集团陕西有限公司 一种发布信息的转发量预测方法和装置
CN110020374A (zh) * 2017-12-28 2019-07-16 中国移动通信集团陕西有限公司 一种发布信息的转发量预测方法和装置
CN109976986A (zh) * 2017-12-28 2019-07-05 阿里巴巴集团控股有限公司 异常设备的检测方法及装置
CN109976986B (zh) * 2017-12-28 2023-12-19 阿里巴巴集团控股有限公司 异常设备的检测方法及装置
CN110068003B (zh) * 2018-01-24 2021-03-30 中国石油天然气股份有限公司 锅炉预警信息的推送方法及装置
CN110068003A (zh) * 2018-01-24 2019-07-30 中国石油天然气股份有限公司 锅炉预警信息的推送方法及装置
CN108415818A (zh) * 2018-03-01 2018-08-17 山东大学 一种考虑繁忙程度的大数据平台多服务接口执行时间预测方法
CN108415818B (zh) * 2018-03-01 2020-03-27 山东大学 一种考虑繁忙程度的大数据平台多服务接口执行时间预测方法
CN109347653B (zh) * 2018-09-07 2021-06-04 创新先进技术有限公司 一种指标异常发现方法和装置
CN109347653A (zh) * 2018-09-07 2019-02-15 阿里巴巴集团控股有限公司 一种指标异常发现方法和装置
CN109583625A (zh) * 2018-10-19 2019-04-05 顺丰科技有限公司 一种揽件量预测方法、系统、设备及存储介质
CN109412892B (zh) * 2018-10-23 2022-03-01 株洲中车时代电气股份有限公司 一种网络通信质量评估系统及方法
CN109412892A (zh) * 2018-10-23 2019-03-01 株洲中车时代电气股份有限公司 一种网络通信质量评估系统及方法
CN111224830A (zh) * 2018-11-23 2020-06-02 中国电信股份有限公司 数据监控方法、装置、物联网网元及计算机可读存储介质
CN110008049A (zh) * 2019-03-29 2019-07-12 广州接点智能科技有限公司 一种基于互联网平台的数据修正方法、终端设备及介质
CN110825787A (zh) * 2019-11-04 2020-02-21 上海燕汐软件信息科技有限公司 数据提醒方法及装置、电子设备、存储介质
CN111090571A (zh) * 2019-12-18 2020-05-01 中国建设银行股份有限公司 信息系统的维护方法、装置和计算机存储介质
CN111090571B (zh) * 2019-12-18 2024-01-23 中国建设银行股份有限公司 信息系统的维护方法、装置和计算机存储介质
CN111221706A (zh) * 2020-01-06 2020-06-02 北京思特奇信息技术股份有限公司 一种cpu使用率预测方法、系统、介质及设备
CN111311086A (zh) * 2020-02-11 2020-06-19 中国银联股份有限公司 一种容量监控方法、装置及计算机可读存储介质
CN111311086B (zh) * 2020-02-11 2024-02-09 中国银联股份有限公司 一种容量监控方法、装置及计算机可读存储介质
CN112465658A (zh) * 2020-10-30 2021-03-09 中国石油天然气集团有限公司 自媒体文件用户粘度的确定方法及装置
CN114338429A (zh) * 2021-12-30 2022-04-12 中国工商银行股份有限公司 网络带宽的确定方法、装置及电子设备
CN114338429B (zh) * 2021-12-30 2024-01-30 中国工商银行股份有限公司 网络带宽的确定方法、装置及电子设备
CN118091325B (zh) * 2024-04-17 2024-06-25 江苏裕荣光电科技有限公司 一种电缆智能检测方法及系统

Also Published As

Publication number Publication date
CN104899405B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN104899405A (zh) 数据预测方法和系统以及报警方法和系统
Shevchenko et al. Multi‐attribute analysis of investments risk alternatives in construction
CN105046953A (zh) 一种短时交通流组合预测方法
CN108647891A (zh) 数据异常归因分析方法及装置
CN105260803A (zh) 一种系统用电量预测方法
CN103177570B (zh) 一种早晚高峰交通拥堵指数的预测方法
CN104156786B (zh) 一种考虑气象多因素影响的非工作日最大日负荷预测系统
CN102867221B (zh) 一种中长期电量预测动态横向修正方法
CN104376716A (zh) 一种基于贝叶斯网络模型的公交时刻表动态生成方法
CN103854068A (zh) 一种居民小区短期负荷预测方法
CN104809525B (zh) 一种用电负荷的预测方法和装置
CN104573947A (zh) 区域智能配电网低压台区综合评价方法
CN102110365A (zh) 基于时空关系的路况预测方法和系统
CN103854518A (zh) 一种航路网络节点时空流量的计算方法
CN106066423A (zh) 一种基于损耗分配嫌疑分析的反窃电分析方法
CN102426674A (zh) 一种基于马尔科夫链的电力系统负荷预测方法
CN105354638A (zh) 一种汽车维修保养费用预测方法及系统
CN103093643A (zh) 一种确定公共停车场泊位数的方法
Zschille Nonparametric measures of returns to scale: an application to German water supply
CN102880915A (zh) 一种基于对热点事件进行关联挖掘的电量预测方法
CN110084439A (zh) 一种基于nesma功能点估算的软件成本度量方法及云系统
Xu et al. DEA evaluation method based on interval intuitionistic Bayesian network and its application in enterprise logistics
CN113537569B (zh) 一种基于权重堆叠决策树的短时公交客流预测方法及系统
CN105260944A (zh) 一种基于lssvm算法与关联规则挖掘的统计线损计算方法
CN106355541A (zh) 一种基于gps数据的出租车打车难易度识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160302

Address after: 200335 Shanghai city Changning District Admiralty Road No. 968 Building No. 16 10 floor

Applicant after: SHANGHAI XIECHENG BUSINESS CO., LTD.

Address before: 200335 Shanghai City, Changning District Fuquan Road No. 99, Ctrip network technology building

Applicant before: Ctrip computer technology (Shanghai) Co., Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant