CN110276491A - 粉丝预测管理方法、装置、计算机设备及存储介质 - Google Patents

粉丝预测管理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110276491A
CN110276491A CN201910548037.0A CN201910548037A CN110276491A CN 110276491 A CN110276491 A CN 110276491A CN 201910548037 A CN201910548037 A CN 201910548037A CN 110276491 A CN110276491 A CN 110276491A
Authority
CN
China
Prior art keywords
bean vermicelli
parameter
value
predicted
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910548037.0A
Other languages
English (en)
Inventor
李琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Rui Yun Technology Co Ltd
Original Assignee
Chongqing Rui Yun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Rui Yun Technology Co Ltd filed Critical Chongqing Rui Yun Technology Co Ltd
Priority to CN201910548037.0A priority Critical patent/CN110276491A/zh
Publication of CN110276491A publication Critical patent/CN110276491A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种粉丝预测管理方法、装置、计算机设备及存储介质,通过获取待预测平台历史各单位时段的粉丝数量参数的原始时间序列,作为建模样本,利用ARIMA模型对未来待预测时段平台的粉丝量进行预测,从而帮助待预测平台的运营管理提供数据参考,达到吸粉以及粉丝效益挖掘转化的目的;并且在模型参数的选择上,利用差分后处于平稳序列的自相关指数以及偏自相关系数的分布情况,快速准确地确定模型自回归项参数的初始值以及移动平均项参数的初始值,进而利用最小信息量准则与贝叶斯信息准则,选择出最优模型,以对待预测时段平台的粉丝量进行预测,极大提高了粉丝量预测精度,几乎与实测数据吻合,为公众号粉丝运营能够事先提供有效参考。

Description

粉丝预测管理方法、装置、计算机设备及存储介质
技术领域
本发明涉及公众号运营管理技术领域,尤其涉及一种粉丝预测管理方法、装置、计算机设备及存储介质。
背景技术
目前针对公众号粉丝运营方面,没有一个有效的方式来监控粉丝量的变化情况,粉丝增长趋势无法有效把控,无法持续提升公众号吸粉能力。从而无法发现潜在粉丝,无法有效挖掘粉丝效益,导致平台价值难以转化。
发明内容
本发明提供的粉丝预测管理方法、装置、计算机设备及存储介质,主要解决的技术问题是:公众号粉丝量变化无法有效把握,无法预先为平台运营提供数据参考。
为解决上述技术问题,本发明提供一种粉丝预测管理方法,包括:
基于待预测平台在历史各单位时段的粉丝数量参数,得到所述粉丝数量参数的原始时间序列,作为建模样本;
对所述原始时间序列做N阶差分运算,并在判断差分后的第一时间序列为平稳序列时,设定ARIMA模型的Integrated结合项参数d的值等于所述N;所述N大于等于1;
计算所述第一时间序列的自相关系数以及偏自相关系数;
基于所述自相关系数的分布情况,确定所述ARIMA模型的AutoRegressive自回归项参数q的初始值;
基于所述偏自相关系数的分布情况,确定所述ARIMA模型的MovingAverage移动平均项参数p的初始值;
对由所述结合项参数d、所述自回归项参数q以及所述移动平均项参数p构成的ARIMA模型进行有效性验证,将显著有效的结合项参数d、自回归项参数q、移动平均项参数p组合构成的ARIMA模型作为候选模型;
利用最小信息量准则与贝叶斯信息准则,从所述候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型;
利用所述最优模型对所述粉丝数量参数的原始时间序列进行预测,以得到所述待预测平台在待预测时段的预测粉丝量,以对所述待预测平台的公众号粉丝运营提供参考数据。
可选的,所述粉丝数量参数包括如下之一:粉丝变化量、粉丝总量、关注粉丝量、取关粉丝量;所述粉丝变化量为所述关注粉丝量与所述取关分析量之差。
可选的,所述单位时段包括如下至少一种:天、周、月、年。
可选的,所述基于所述自相关系数的分布情况,确定所述ARIMA模型的AutoRegressive自回归项参数q的初始值包括:
确定各不同延迟阶数的自相关系数的平均值加减两倍第一标准差的第一数值范围,若判断前R延迟阶数对应的自相关系数在所述第一数值范围之外,且其余延迟阶数对应的自相关系数在所述第一数值范围之内,则确定所述ARIMA模型的AutoRegressive自回归项参数q的初始值包括所述R;所述R大于等于1;所述第一标准差为所述各不同延迟阶数的自相关系数的标准差。
可选的,所述AutoRegressive自回归项参数q的初始值还包括:所述R加减第一设定数值范围之内的值,所述第一设定数值大于等于1。
可选的,所述基于所述偏自相关系数的分布情况,确定所述ARIMA模型的MovingAverage移动平均项参数p的初始值包括:
确定各不同延迟阶数的偏自相关系数的平均值加减两倍第二标准差的第二数值范围,若判断前M延迟阶数对应的偏自相关系数在所述第二数值范围之外,且其余延迟阶数对应的偏自相关系数在所述第二数值范围之内,则确定所述ARIMA模型的MovingAverage移动平均项参数p的初始值包括所述M;所述M大于等于1;所述第二标准差为所述各不同延迟阶数的偏自相关系数的标准差。
可选的,所述MovingAverage移动平均项参数p的初始值还包括:所述M加减第二设定数值范围之内的值,所述第二设定数值大于等于1。
本发明还提供一种粉丝预测管理装置,包括:
样本获取模块,用于基于待预测平台在历史各单位时段的粉丝数量参数,得到所述粉丝数量参数的原始时间序列,作为建模样本;
差分模块,用于对所述原始时间序列做N阶差分运算,并在判断差分后的第一时间序列为平稳序列时,设定ARIMA模型的Integrated结合项参数d的值等于所述N;所述N大于等于1;
计算模块,用于计算所述第一时间序列的自相关系数以及偏自相关系数;
确定模块,用于基于所述自相关系数的分布情况,确定所述ARIMA模型的AutoRegressive自回归项参数q的初始值;以及基于所述偏自相关系数的分布情况,确定所述ARIMA模型的MovingAverage移动平均项参数p的初始值;
有效性验证模块,用于对由所述结合项参数d、所述自回归项参数q以及所述移动平均项参数p构成的ARIMA模型进行有效性验证,将显著有效的结合项参数d、自回归项参数q、移动平均项参数p组合构成的ARIMA模型作为候选模型;
最优筛选模块,用于利用最小信息量准则与贝叶斯信息准则,从所述候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型;
处理模块,用于利用所述最优模型对所述粉丝数量参数的原始时间序列进行预测,以得到所述待预测平台在待预测时段的预测粉丝量,以对所述待预测平台的公众号粉丝运营提供参考数据。
本发明还提供一种计算机设备,包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个程序,以实现如上任一项所述的粉丝预测管理方法的步骤。
本发明还提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的粉丝预测管理方法的步骤。
本发明的有益效果是:
根据本发明提供的粉丝预测管理方法、装置、计算机设备及存储介质,通过获取待预测平台历史各单位时段的粉丝数量参数的原始时间序列,作为建模样本,利用ARIMA模型对未来待预测时段平台的粉丝量进行预测,从而帮助待预测平台的运营管理提供数据参考,达到吸粉以及粉丝效益挖掘转化的目的;并且在模型参数的选择上,利用差分后处于平稳序列的自相关指数以及偏自相关系数的分布情况,快速准确地确定模型自回归项参数q的初始值以及移动平均项参数p的初始值,进而利用最小信息量准则AIC与贝叶斯信息准则BIC,选择出最优模型,以对待预测时段平台的粉丝量进行预测,极大提高了粉丝量预测精度,几乎与实测数据吻合,为公众号粉丝运营能够事先提供有效的参考数据。
附图说明
图1为本发明实施例一的粉丝预测管理方法流程示意图;
图2为本发明实施例一的原始时间序列图;
图3为本发明实施例一的2阶差分时间序列图;
图4为本发明实施例一的2阶差分序列的自相关图;
图5为本发明实施例一的2阶差分序列的偏自相关图;
图6为本发明实施例一的预测结果示意图;
图7为本发明实施例二的粉丝预测管理装置结构示意图;
图8为本发明实施例三的计算机设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
为了解决当前公众号粉丝量变化量无法有效把握,无法预先为平台运营提供数据参考的问题,本发明实施例提供一种粉丝预测管理方法,通过利用ARIMA模型实现对待预测平台在未来待预测时段的粉丝量预测的同时,还通过自相关以及偏自相关系数的分布情况,确定模型参数初始值,利用最小信息量准则(AkaikeInformationCriterion,简称AIC)与贝叶斯信息准则(BayesianInformationCriterion,简称BIC)筛选出最佳模型,使得最终预测结果更加精确。
请参见图1,图1为本实施例提供的粉丝预测管理方法流程示意图,主要包括如下步骤:
S101、基于待预测平台在历史各单位时段的粉丝数量参数,得到粉丝数量参数的原始时间序列,作为建模样本。
单位时段包括如下至少一种:天、周、月、年。
例如,获取历史前两个月每天的粉丝数量,作为建模样本;或者历史前3年每个月的的粉丝数量,作为建模样本。
其中粉丝数量参数包括粉丝变化量、粉丝总量、关注粉丝量、取关粉丝量中的至少一种。粉丝变化量即为关注粉丝量与取关粉丝量之差。
S102、对原始时间序列做N阶差分运算,并在判断差分后的第一时间序列为平稳序列时,设定ARIMA模型的Integrated结合项参数d的值等于N;N大于等于1。
历史各单位时段的粉丝数量,可以形成原始时间序列,按照差分阶数有小到大的顺序,对该原始时间序列做差分运算,筛选出差分后的时间序列为平稳序列时对应所做的差分阶数,作为所选模型的Integrated结合项参数d的值。例如,对原始时间序列首先做1阶差分,确定1阶差分序列是否为平稳序列,如是,则确定d=1;若1阶差分序列不是平稳序列,则对原始时间序列做2阶差分处理,然后判断2阶差分序列是否为平稳序列,如是,则确定d=2;否则,继续做3阶差分,依次类推,直至确定所选模型的Integrated结合项参数d的值。
应当理解,原始时间序列具有随机性,可能自身就是为平稳序列,此时无需做差分处理,即d=0。
S103、计算第一时间序列的自相关系数以及偏自相关系数。
这里,第一时间序列即是做差分处理后的时间序列,可能是做的1阶差分,也可能做的2阶差分等等。
S104、基于自相关系数的分布情况,确定ARIMA模型的AutoRegressive自回归项参数q的初始值。
确定各不同延迟阶数的自相关系数的平均值加减两倍第一标准差的第一数值范围,若判断前R延迟阶数对应的自相关系数在第一数值范围之外,且其余延迟阶数对应的自相关系数在第一数值范围之内,则确定ARIMA模型的AutoRegressive自回归项参数q的初始值包括R;其中R大于等于1;第一标准差为各不同延迟阶数的自相关系数的标准差。
可选的,AutoRegressive自回归项参数q的初始值还包括:R加减第一设定数值范围之内的值,其中第一设定数值大于等于1。例如,R=2,第一设定数值等于1,那么q的取值范围则为[1,3]。
S105、基于偏自相关系数的分布情况,确定ARIMA模型的MovingAverage移动平均项参数p的初始值。
确定各不同延迟阶数的偏自相关系数的平均值加减两倍第二标准差的第二数值范围,若判断前M延迟阶数对应的偏自相关系数在第二数值范围之外,且其余延迟阶数对应的偏自相关系数在第二数值范围之内,则确定ARIMA模型的MovingAverage移动平均项参数p的初始值包括M;其中M大于等于1;第二标准差为各不同延迟阶数的偏自相关系数的标准差。
MovingAverage移动平均项参数p的初始值还包括:M加减第二设定数值范围之内的值,第二设定数值大于等于1。例如,M=3,第二设定数值为1,那么参数p的取值范围则为[2,4]。
应当理解,步骤S104与步骤S105之间无特定执行先后顺序,可以先处理其中任意之一,或者两者并行处理。
S106、对由结合项参数d、自回归项参数q以及移动平均项参数p构成的ARIMA模型进行有效性验证,将显著有效的结合项参数d、自回归项参数q、移动平均项参数p组合构成的ARIMA模型作为候选模型。
以上述q的取值范围为[1,3],p的取值范围为[2,4]为例,另假设d=1,那么ARIMA模型的参数组合包括如下9种组合:
(p,d,q)=(2,1,1)、(2,1,2)、(2,1,3)、(3,1,1)、(3,1,2)、(3,1,3)、(4,1,1)、(4,1,2)、(4,1,3)。
对这9种模型参数组合,可以通过计算显著性水平,然后将各自显著性水平与给定显著性水平进行比较,例如给定显著性水平设定为0.5,当某参数组合模型的显著性水平高于0.5时,确定其显著有效,从而将其作为候选模型。对于不满足显著性要求的模型参数组合,则丢弃。
S107、利用最小信息量准则与贝叶斯信息准则,从所述候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型。
当候选模型参数组合存在多组时,利用最小信息量准则与贝叶斯信息准则,从候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型。当然,如果只有一组候选模型,则可以不用进行最优筛选。
S108、利用最优模型对粉丝数量参数的原始时间序列进行预测,以得到待预测平台在待预测时段的预测粉丝量,以对待预测平台的公众号粉丝运营提供参考数据。
最终,基于最优的ARIMA模型,对待预测平台在未来待预测时段的粉丝量进行预测,提高预测精度,为待预测平台的公众号粉丝运营提供数据参考。
为了更好地理解本发明,下面结合具体的示例进行说明:
从待预测平台采集一段时间的粉丝关注量,以自回归与移动平均思想构建数学模型,本方案采用ARIMA模型,ARIMA模型主要包括如下三个参数:
p表示预测模型中采用的时序数据本身的滞后数,也叫做AR/Auto-Regressive自回归项;
d表示时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项;
q表示预测模型中采用的预测误差的滞后数,也叫做MA/MovingAverage移动平均项。
其中“差分”可做如下理解:假设y表示t时刻的Y的差分,N为时间序列成为平稳时所做的差分次数,y代表时间序列值。
ifN=0,yt=Yt; (公式1)
ifN=1,yt=Yt-Yt-1; (公式2)
ifN=2,yt=(Yt-Yt-1)-(Yt-1-Yt-2)=Yt-2Yt-1+Yt-2; (公式3)
假设p,q,d已知,ARIMA(p,d,q)模型的一般数学形式表示为:
Φ(B)(1-B)dyt=Θ(B)εt; (公式4)
其中B为延迟算子;Φ(B)=1-φ1B-…-φpBp(公式5),Φ(B)为平稳可逆ARMA(p,q)模型的自回归系数多项式;Θ(B)=1-θ1B-…-θqBq(公式6),Θ(B)为平稳可逆ARMA(p,q)模型的移动平滑系数多项式;εt为随机扰动项。
用随机扰动项的线性函数表示则为:
其中Ψ1,Ψ2,…的值由如下等式确定:
Φ(B)(1-B)dΨ(B)=Θ(B); (公式8)
模型应用说明:
所选择时间序列为待预测平台公众号每天的粉丝关注量,即原始时间序列,作为样本,请参见图2。
原始时间序列整体有明显的上升趋势,为非平稳时间序列,所以需要做差分使成为平稳序列。利用R语言做1、2阶差分后,可看到2阶差分后时序图在0的上下波动,成为平稳序列,请参见图3。
2阶差分后序列时序图显示序列在均值附近比较稳定的波动,借助2阶差分后序列自相关系数以及偏自相关系数,进一步考察2阶差分后序列的平稳性。
通过自相关图和偏自相关图确定模型的阶数的方法,参见如下表1:
表1
其中表示任意K阶自相关系数,表示任意k阶偏自相关系数。
但拖尾与截尾的确定在实际操作中有一定的困难,由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的样本自相关系数和偏自相关系数仍然会出现小值振荡。同时,由于平稳时间序列通常都具有短期相关性,随着延迟阶数k→∞,都会衰减至零值附近。这就导致截尾的判断没有明确的标准,可能是相关系数截尾,也可能是相关系数在延迟若干阶后正常衰减到零值附近作拖尾波动,所以在初步定阶之后还要检验多种可能的模型,选择最优模型。
由已经证明的公式得知:
也就是说,该样本自相关系数是总体自相关系数的有偏估计值。当k足够大时,根据平稳序列自相关系数呈负指数衰减,有ρk→0。
根据公式计算样本自相关系数的方差:
当样本容量n充分大时,样本自相关系数近似服从正态分布:
同样,样本偏自相关系数也同样近似服从这个正态分布:
经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有95%的数据,由此可得:
所以可以用2倍标准差来辅助判断自相关与偏自相关系数的拖尾或截尾。
如果样本自相关系数或偏自相关系数,在前R阶明显超过2倍标准差范围,而后几乎95%的自相关系数都落在2倍标准差范围内,而且由非零自相关系数衰减为小值波动的过程非常突然,通常视为自相关系数截尾,截尾数为R。
如果超过5%的样本自相关系数落入2倍标准差之外,或者由显著非零的自相关系数衰减为小值波动的过程比较缓慢或非常连续,这时,通常视为自相关系数拖尾。
判断该时间序列该如何定阶,首先对2阶差分之后的平稳时间序列做自相关图与偏自相关图,请参见图4,图4为2阶差分序列的自相关图,表示的是延迟1→k阶的自相关系数。
求解自相关系数其实就是将一列数据按照滞后数拆成两列数据,再对这两列数据做类似相关系数的操作,具体数学公式为:
其中xi表示原始时间序列,表示原始时间序列的均值;xi+k表示k阶差分之后的时间序列,表示k阶差分之后序列的均值。
请参见图5,图5为2阶差分序列的偏自相关图,表示的是延迟1→k阶的偏自相关系数。
滞后k阶偏自相关系数就是指在给定的2阶差分时间序列加k-1个随机变量xt-1,xt-2…xt-k+1的条件下,或者说剔除了中间k-1个随机变量的干扰之后,xt-k对xt影响的相关度量。
其中
可以看出,序列的ACF图(自相关图)拖尾,并且显示出:除了延迟1阶的自相关系数显著非零,且在2倍标准差范围之外,其他阶数的自相关系数均在2倍标准差范围之内,显示出短期相关性,所以可以认为在1阶差分之后序列平稳;所以可以初步确定q=1。
序列的PACF图(偏自相关图)拖尾,并且显示出:除了延迟2阶的偏自相关系数显著非零,且在2倍标准差范围之外,其他阶数的偏自相关系数均在2倍标准差范围之内,所以可以初步确定p=2。
再结合R语言中的自动定阶函数auto.arima,也是得到p=2,q=1,所以初步确定模型为ARIMA(2,2,1)。
R语言中得到的参数如下:
Coefficients:
则该模型对应的数学表达式为:
(1+0.0319B+0.125B2)(1-B)2Xt=(1+0.9479B)εt
(1-1.9681B+1.0612B2-0.2819B3+0.125B4)Xt=εt+0.9479εt-1
xt=1.9681xt-1-1.0612xt-2+0.2819xt-3-0.125xt-4t+0.9479εt-1; (公式17)
进一步对该模型的参数进行检验,检验时间序列模型参数的方法有很多种,比如矩估计法、极大似然估计(ML)、最小二乘估计(CSS),但矩估计法只用到了p+q个样本自相关系数,观测值序列中的其他信息都被忽略了,所以精度较低。而极大似然估计和最小二乘估计都充分利用了数据分布的信息,包括时间序列的长期趋势、周期、季节等变化因素,两者精度都较高;最小二乘的基本思想是使残差最小,这也是我们所期望的结果,而且极大似然估计还具有估计的一致性、渐近正态性、和渐近有效性等许多优良的统计性质。
为了使估计结果准确且全面,先用矩估计法确定ML,CSS的初始值,然后用ML方法获得估计量的统计性质,判定估计的优劣,进一步用CSS方法得到与观测值的误差最小的估计值,因为经过检验残差大致服从正态分布,所以ML和CSS方法估计的结果一致,则两种方法结合使用能同时获得精度较高的估计量,同时还能通过统计性质判断估计量的优劣。
在对时间序列进行拟合的过程中,创建了多个拟合模型(ARIMA(2,2,1),ARIMA(3,2,1),ARIMA(2,2,2),ARIMA(3,2,2))经过检验,这些模型的参数都显著非零,各阶延迟下LB统计量(LB统计量是检验时间序列是否为白噪声的统计量,原假设:序列是白噪声,备择假设:序列不是白噪声)对应的P值都显著大于0.05(接受原假设),因此认为这几个拟合模型都是显著有效的。
本方案通过引进AIC准则和BIC准则,选择出最优模型进行预测,使预测结果更加准确。
AIC准则:最小信息量准则,指导思想是拟合模型的优劣可以可以从两个方面进行考虑:一个是衡量拟合程序的似然函数值L,另一个是模型中未知参数的个数k。
但是未知参数越多,说明模型中自变量越多,未知的风险越多,而且参数越多,参数估计的难度就越大,估计的精度也就越差。所以一个好的拟合模型应该是拟合精度和未知参数的个数的综合最优配置。AIC函数达到最小的模型被认为是最优模型。
AIC=-2ln(L)+2(k); (公式18)
AIC模型也有一些不足之处,对于一个观察值序列而言,序列越长,相关信息就越分散,要充分的提取其中的有用信息,或者使拟合精度比较高,通常要包括多个自变量的复杂模型。在AIC准则中拟合误差提供的信息要受到样本容量的放大,而参数个数的惩罚因子却和样本容量没有关系,它的权重始终是不变。
因此当样本无穷大时,由AIC准则选择的模型不收敛于真实模型,它通常比真实模型所含有的未知个数要多。
BIC准则:BIC对AIC的改进就是就是将未知参数个数惩罚权重由常数变成样本容量的对数函数,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。
BIC=kln(n)-2ln(L); (公式19)
其中k表示模型中未知参数的个数,n表示样本数量,L为模型的极大似然函数值。
在ARIMA模型中,p,q的选择都是大致的,并不是一个绝对准确的数字,所以要对不同p,q对应的模型进行检验,选择AIC和BIC都最小的模型才为最优模型。各个模型计算结果如下表2所示:
表2
模型 p-value AIC BIC
ARIMA(2,2,1) 0.773 643.65 649.12
ARIMA(3,2,1) 0.9118 644.44 651.28
ARIMA(3,2,2) 0.8017 645.18 653.38
ARIMA(2,2,2) 0.8059 643.19 650.03
根据结果,由AIC和BIC综合最小,可确定该时间序列对应的最优模型,比较可知,ARIMA(2,2,1)是最优模型,最终确定相应参数,对未来半年数据进行预测。
预测结果,可以参见如下表3以及图6所示:
表3
根据预测走势,在最后三个月的实际值与预测值已基本重合,后期预测有较高准确性。并预测在外界因素不变的情况下未来半年粉丝每月增长量,能为运营部门提供趋势变化参考,提前做好推广和营销计划,为持续提高粉丝量的增长做好数据支撑。
根据本发明提供的粉丝预测管理方法、装置、计算机设备及存储介质,通过获取待预测平台历史各单位时段的粉丝数量参数的原始时间序列,作为建模样本,利用ARIMA模型对未来待预测时段平台的粉丝量进行预测,从而帮助待预测平台的运营管理提供数据参考,达到吸粉以及粉丝效益挖掘转化的目的;并且在模型参数的选择上,利用差分后处于平稳序列的自相关指数以及偏自相关系数的分布情况,快速准确地确定模型自回归项参数q的初始值以及移动平均项参数p的初始值,进而利用最小信息量准则AIC与贝叶斯信息准则BIC,选择出最优模型,以对待预测时段平台的粉丝量进行预测,极大提高了粉丝量预测精度,几乎与实测数据吻合,为公众号粉丝运营能够事先提供有效的参考数据。
实施例二:
本实施例在上述实施例一的基础上,提供一种粉丝预测管理装置,用于实现上述实施例一中所述粉丝预测管理方法的步骤,请参见图7,该粉丝预测管理装置70主要包括样本获取模块71、差分模块72、计算模块73、确定模块74、有效性验证模块75、最优筛选模块76、处理模块77:其中
样本获取模块71用于基于待预测平台在历史各单位时段的粉丝数量参数,得到粉丝数量参数的原始时间序列,作为建模样本。
差分模块72用于对原始时间序列做N阶差分运算,并在判断差分后的第一时间序列为平稳序列时,设定ARIMA模型的Integrated结合项参数d的值等于N;N大于等于1。
计算模块73用于计算第一时间序列的自相关系数以及偏自相关系数。
确定模块74用于基于自相关系数的分布情况,确定ARIMA模型的AutoRegressive自回归项参数q的初始值;以及基于偏自相关系数的分布情况,确定ARIMA模型的MovingAverage移动平均项参数p的初始值。
有效性验证模块75用于对由结合项参数d、自回归项参数q以及移动平均项参数p构成的ARIMA模型进行有效性验证,将显著有效的结合项参数d、自回归项参数q、移动平均项参数p组合构成的ARIMA模型作为候选模型。
最优筛选模块76用于利用最小信息量准则与贝叶斯信息准则,从候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型;
处理模块77用于利用最优模型对粉丝数量参数的原始时间序列进行预测,以得到待预测平台在待预测时段的预测粉丝量,以对待预测平台的公众号粉丝运营提供参考数据。
本实施例中,粉丝预测管理装置70可以实施于服务器等计算机设备上,样本获取模块71、差分模块72、计算模块73、确定模块74、有效性验证模块75、最优筛选模块76、处理模块等可以通过CPU(Central Processing Unit,中央处理器)、控制器等实现。
实施例三:
本实施例在上述实施例一和/或实施例二的基础上,提供一种计算机设备,用于实现上述实施例一中所述粉丝预测管理方法的步骤,请参见图8,该计算机设备主要包括处理器81、存储器82及通信总线83:
通信总线83用于实现处理器81和存储器82之间的连接通信;处理器81用于执行存储器82中存储的一个或者多个程序,以实现如实施例一所述的粉丝预测管理方法的步骤。具体请参见上述实施例一的描述,在此不再赘述。
本实施例还提供一种存储介质,该存储介质存储有一个或者多个计算机程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如实施例一中所述的粉丝预测管理方法的步骤。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种粉丝预测管理方法,其特征在于,包括:
基于待预测平台在历史各单位时段的粉丝数量参数,得到所述粉丝数量参数的原始时间序列,作为建模样本;
对所述原始时间序列做N阶差分运算,并在判断差分后的第一时间序列为平稳序列时,设定ARIMA模型的Integrated结合项参数d的值等于所述N;所述N大于等于1;
计算所述第一时间序列的自相关系数以及偏自相关系数;
基于所述自相关系数的分布情况,确定所述ARIMA模型的Auto Regressive自回归项参数q的初始值;
基于所述偏自相关系数的分布情况,确定所述ARIMA模型的Moving Average移动平均项参数p的初始值;
对由所述结合项参数d、所述自回归项参数q以及所述移动平均项参数p构成的ARIMA模型进行有效性验证,将显著有效的结合项参数d、自回归项参数q、移动平均项参数p组合构成的ARIMA模型作为候选模型;
利用最小信息量准则与贝叶斯信息准则,从所述候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型;
利用所述最优模型对所述粉丝数量参数的原始时间序列进行预测,以得到所述待预测平台在待预测时段的预测粉丝量,以对所述待预测平台的公众号粉丝运营提供参考数据。
2.如权利要求1所述的粉丝预测管理方法,其特征在于,所述粉丝数量参数包括如下之一:粉丝变化量、粉丝总量、关注粉丝量、取关粉丝量;所述粉丝变化量为所述关注粉丝量与所述取关分析量之差。
3.如权利要求1所述的粉丝预测管理方法,其特征在于,所述单位时段包括如下至少一种:天、周、月、年。
4.如权利要求1-3任一项所述的粉丝预测管理方法,其特征在于,所述基于所述自相关系数的分布情况,确定所述ARIMA模型的Auto Regressive自回归项参数q的初始值包括:
确定各不同延迟阶数的自相关系数的平均值加减两倍第一标准差的第一数值范围,若判断前R延迟阶数对应的自相关系数在所述第一数值范围之外,且其余延迟阶数对应的自相关系数在所述第一数值范围之内,则确定所述ARIMA模型的Auto Regressive自回归项参数q的初始值包括所述R;所述R大于等于1;所述第一标准差为所述各不同延迟阶数的自相关系数的标准差。
5.如权利要求4所述的粉丝预测管理方法,其特征在于,所述Auto Regressive自回归项参数q的初始值还包括:所述R加减第一设定数值范围之内的值,所述第一设定数值大于等于1。
6.如权利要求1-3任一项所述的粉丝预测管理方法,其特征在于,所述基于所述偏自相关系数的分布情况,确定所述ARIMA模型的Moving Average移动平均项参数p的初始值包括:
确定各不同延迟阶数的偏自相关系数的平均值加减两倍第二标准差的第二数值范围,若判断前M延迟阶数对应的偏自相关系数在所述第二数值范围之外,且其余延迟阶数对应的偏自相关系数在所述第二数值范围之内,则确定所述ARIMA模型的Moving Average移动平均项参数p的初始值包括所述M;所述M大于等于1;所述第二标准差为所述各不同延迟阶数的偏自相关系数的标准差。
7.如权利要求6所述的粉丝预测管理方法,其特征在于,所述Moving Average移动平均项参数p的初始值还包括:所述M加减第二设定数值范围之内的值,所述第二设定数值大于等于1。
8.一种粉丝预测管理装置,其特征在于,包括:
样本获取模块,用于基于待预测平台在历史各单位时段的粉丝数量参数,得到所述粉丝数量参数的原始时间序列,作为建模样本;
差分模块,用于对所述原始时间序列做N阶差分运算,并在判断差分后的第一时间序列为平稳序列时,设定ARIMA模型的Integrated结合项参数d的值等于所述N;所述N大于等于1;
计算模块,用于计算所述第一时间序列的自相关系数以及偏自相关系数;
确定模块,用于基于所述自相关系数的分布情况,确定所述ARIMA模型的AutoRegressive自回归项参数q的初始值;以及基于所述偏自相关系数的分布情况,确定所述ARIMA模型的Moving Average移动平均项参数p的初始值;
有效性验证模块,用于对由所述结合项参数d、所述自回归项参数q以及所述移动平均项参数p构成的ARIMA模型进行有效性验证,将显著有效的结合项参数d、自回归项参数q、移动平均项参数p组合构成的ARIMA模型作为候选模型;
最优筛选模块,用于利用最小信息量准则与贝叶斯信息准则,从所述候选模型中选择最小信息量准则AIC值与贝叶斯信息准则BIC值之和最小的模型,作为最优模型;
处理模块,用于利用所述最优模型对所述粉丝数量参数的原始时间序列进行预测,以得到所述待预测平台在待预测时段的预测粉丝量,以对所述待预测平台的公众号粉丝运营提供参考数据。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个程序,以实现如权利要求1至7中任一项所述的粉丝预测管理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的粉丝预测管理方法的步骤。
CN201910548037.0A 2019-06-24 2019-06-24 粉丝预测管理方法、装置、计算机设备及存储介质 Pending CN110276491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548037.0A CN110276491A (zh) 2019-06-24 2019-06-24 粉丝预测管理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548037.0A CN110276491A (zh) 2019-06-24 2019-06-24 粉丝预测管理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110276491A true CN110276491A (zh) 2019-09-24

Family

ID=67961541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548037.0A Pending CN110276491A (zh) 2019-06-24 2019-06-24 粉丝预测管理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110276491A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851333A (zh) * 2019-11-14 2020-02-28 北京金山云网络技术有限公司 根分区的监控方法、装置和监控服务器
CN111985361A (zh) * 2020-08-05 2020-11-24 武汉大学 小波降噪和emd-arima的电力系统负荷预测方法及系统
CN112508283A (zh) * 2020-12-12 2021-03-16 广东电力信息科技有限公司 一种时间序列模型的构建方法、装置
CN112862195A (zh) * 2021-02-19 2021-05-28 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN113267256A (zh) * 2021-04-14 2021-08-17 国网山东省电力公司济宁供电公司 一种配电线路接点温度预测系统及方法
CN113361745A (zh) * 2021-05-07 2021-09-07 云南电网有限责任公司曲靖供电局 一种配电网物资需求预测方法及系统
CN113935509A (zh) * 2020-07-09 2022-01-14 阿里巴巴集团控股有限公司 预测方法以及装置
CN114756709A (zh) * 2022-03-25 2022-07-15 北京卓越乐享网络科技有限公司 发布者的比对方法、装置、设备、存储介质和程序产品
CN114818393A (zh) * 2022-06-28 2022-07-29 北京芯可鉴科技有限公司 半导体器件失效时刻预测方法、装置、设备及介质
CN114925116A (zh) * 2022-06-01 2022-08-19 中国西安卫星测控中心 一种航天器遥测数据预测方法
CN118309834A (zh) * 2024-03-19 2024-07-09 广州高澜节能技术股份有限公司 一种异常状态的分析方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665185A (zh) * 2017-10-19 2018-02-06 上海大汉三通数据通信有限公司 一种基于短信业务的客户行为分析方法及相关装置
CN107767191A (zh) * 2017-12-05 2018-03-06 广东技术师范学院 一种基于医药大数据预测药品销售趋势的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665185A (zh) * 2017-10-19 2018-02-06 上海大汉三通数据通信有限公司 一种基于短信业务的客户行为分析方法及相关装置
CN107767191A (zh) * 2017-12-05 2018-03-06 广东技术师范学院 一种基于医药大数据预测药品销售趋势的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘颖: ""基于ARIMA模型和神经网络对论文下载量进行预测"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
褚宝增 编著: "《现代数学地质》", 31 August 2014, 中国科学技术出版社 *
魏艳华 等编著: "《统计预测与决策》", 31 May 2014, 西安交通大学出版社 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851333A (zh) * 2019-11-14 2020-02-28 北京金山云网络技术有限公司 根分区的监控方法、装置和监控服务器
CN110851333B (zh) * 2019-11-14 2023-09-01 北京金山云网络技术有限公司 根分区的监控方法、装置和监控服务器
CN113935509A (zh) * 2020-07-09 2022-01-14 阿里巴巴集团控股有限公司 预测方法以及装置
CN111985361A (zh) * 2020-08-05 2020-11-24 武汉大学 小波降噪和emd-arima的电力系统负荷预测方法及系统
CN112508283A (zh) * 2020-12-12 2021-03-16 广东电力信息科技有限公司 一种时间序列模型的构建方法、装置
CN112862195A (zh) * 2021-02-19 2021-05-28 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN112862195B (zh) * 2021-02-19 2023-06-20 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN113267256A (zh) * 2021-04-14 2021-08-17 国网山东省电力公司济宁供电公司 一种配电线路接点温度预测系统及方法
CN113361745A (zh) * 2021-05-07 2021-09-07 云南电网有限责任公司曲靖供电局 一种配电网物资需求预测方法及系统
CN114756709A (zh) * 2022-03-25 2022-07-15 北京卓越乐享网络科技有限公司 发布者的比对方法、装置、设备、存储介质和程序产品
CN114925116A (zh) * 2022-06-01 2022-08-19 中国西安卫星测控中心 一种航天器遥测数据预测方法
CN114818393A (zh) * 2022-06-28 2022-07-29 北京芯可鉴科技有限公司 半导体器件失效时刻预测方法、装置、设备及介质
CN114818393B (zh) * 2022-06-28 2023-04-14 北京芯可鉴科技有限公司 半导体器件失效时刻预测方法、装置、设备及介质
CN118309834A (zh) * 2024-03-19 2024-07-09 广州高澜节能技术股份有限公司 一种异常状态的分析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110276491A (zh) 粉丝预测管理方法、装置、计算机设备及存储介质
Karavias et al. Testing for unit roots in short panels allowing for a structural break
CN105023066B (zh) 一种基于季节调整的业扩报装分析预测系统及方法
CN105205570A (zh) 一种基于季节时序分析的电网售电量预测方法
CN108876021B (zh) 一种中长期径流预报方法及系统
CN111693931A (zh) 智能电能表误差远程计算方法、装置和计算机设备
CN107276070B (zh) 计及一二次调频的发输电系统运行可靠性建模评估方法
CN107767191A (zh) 一种基于医药大数据预测药品销售趋势的方法
CN113837383B (zh) 模型训练方法、装置、电子设备及存储介质
CN104008433A (zh) 基于贝叶斯动态模型的中长期电力负荷预测方法
Liu FDI and employment by industry: A co-integration study
CN108073782A (zh) 一种基于观测窗口均权重粒子滤波的数据同化方法
CN115508770A (zh) 一种基于kl-nb算法的电能表运行状态在线评估方法
CN108111353A (zh) 预付卡剩余流量预测方法、网络终端和存储介质
CN111563236B (zh) 一种短期风速预测方法及装置
CN109599866A (zh) 一种预测辅助的电力系统状态估计方法
CN106022970B (zh) 一种计及分布式电源影响的主动配电网量测配置方法
CN114492923A (zh) 一种长时间尺度功率预测方法
CN109116183B (zh) 谐波模型参数辨识方法、装置、存储介质及电子设备
CN110009161A (zh) 供水预测方法及装置
CN109858693A (zh) 一种面向卫星网络资料申报态势的预测方法
CN113806073A (zh) 一种边缘计算平台算力分配调度方法及系统
CN110175740B (zh) 一种基于Kriging代理模型的场景分析实现方法
CN102254245B (zh) 电力系统调度日计划分时段并行安全稳定校核方法
Zhu N days average volume based ARIMA forecasting model for Shanghai metro passenger flow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190924