CN105701207A - 资源的请求量预测方法、应用推荐方法和装置 - Google Patents
资源的请求量预测方法、应用推荐方法和装置 Download PDFInfo
- Publication number
- CN105701207A CN105701207A CN201610019571.9A CN201610019571A CN105701207A CN 105701207 A CN105701207 A CN 105701207A CN 201610019571 A CN201610019571 A CN 201610019571A CN 105701207 A CN105701207 A CN 105701207A
- Authority
- CN
- China
- Prior art keywords
- resource
- request quantity
- state space
- space model
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005065 mining Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 7
- 230000002354 daily effect Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种资源的请求量预测方法,所述方法包括:获取资源所对应的历史请求量时间序列,在所述历史请求量时间序列中提取设定时间长度的最近历史请求量;根据所述最近历史请求量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;通过构建的所述状态空间模型预测所述资源的未来请求量。此外,还提供了一种与该方法匹配的应用资源推荐方法和装置。上述资源的请求量预测方法、应用推荐方法和装置能够对资源的请求量进行准确预测。
Description
技术领域
本发明涉及互联网应用技术领域,特别涉及一种资源的请求量预测方法、应用推荐方法和装置。
背景技术
随着互联网应用的发展,互联网络中可提供各种资源,用户将通过终端的请求来获取到该资源,例如,该资源可以是各种第三方应用和电影等媒体播放资源。
互联网络大都是通过搭建各种平台的方式来进行相应资源的发布,用户通过终端访问此平台并对所需要的资源进行请求即可以得到该资源,例如,通过请求发起应用资源的下载。
对于任意一种资源而言,将实时记录相应的请求量,以此来衡量此资源的热度,然而,关于此资源潜在请求量的预测问题仍然是一空白,并无法对资源的请求量进行准确预测。
发明内容
基于此,有必要提供一种资源的请求量预测方法,所述方法能够对资源的请求量进行准确预测。
此外,还有必要提供一种应用资源推荐方法,所述方法能够对资源的请求量进行准确预测。
另外,还有必要提供一种资源的请求量预测装置和应用资源推荐装置,所述装置能够对资源的请求量进行准确预测。
为解决上述技术问题,将采用如下技术方案:
一种资源的请求量预测方法,包括:
获取资源所对应的历史请求量时间序列,在所述历史请求量时间序列中提取设定时间长度的最近历史请求量;
根据所述最近历史请求量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
通过构建的所述状态空间模型预测所述资源的未来请求量。
一种应用资源推荐方法,包括:
获取应用获取平台中各应用资源所分别对应的历史下载量时间序列,在所述历史下载量时间序列中提取设定时间长度的最近历史下载量;
根据所述最近历史下载量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
通过构建的所述状态空间模型预测所述应用资源的未来下载量;
按照所述应用资源的未来下载量在所述应用获取平台进行所述应用资源的推荐。
一种资源的请求量预测装置,包括:
目标序列获取模块,用于获取资源所对应的历史请求量时间序列,在所述历史请求量时间序列中提取设定时间长度的最近历史请求量;
估计模块,用于根据所述最近历史请求量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
预测模块,用于通过构建的所述状态空间模型预测所述资源的未来请求量。
一种应用资源推荐装置,包括:
应用的目标序列获取模块,用于获取应用获取平台中各应用资源所分别对应的历史下载量时间序列,在所述历史下载量时间序列中提取设定时间长度的最近历史下载量;
参数估计模块,用于根据所述最近历史下载量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
下载量预测模块,用于通过构建的所述状态空间模型预测所述应用资源的未来下载量;
推荐执行模块,用于按照所述应用资源的未来下载量在所述应用获取平台进行所述应用资源的推荐。
由上述技术方案可知,互联网络中发布的各种资源均有对应的历史请求量时间序列,历史请求量时间序列记录了每日所对应的历史请求量,因此,对于任意资源,都将在历史请求量时间序列中提取设定时间长度的最近历史请求量,根据最近历史请求量进行参数估计得到状态变量和模型参数,由状态变量和模型参数构建状态空间模型,通过构建的状态空间模型预测资源的未来请求量,在此预测中,由于未来请求量是通过历史请求量时间序列和状态空间模型所得到的,并且状态空间模型反映了历史请求量时间序列的变化性,因此,预测得到的未来请求量能够作为资源的请求量的准确预测结果,保证了资源的请求量预测的准确性。
附图说明
图1是本发明实施例提供的一种服务器的结构示意图;
图2是一个实施例中资源的请求量预测方法的流程图;
图3是一个实施例中对历史请求量时间序列进行类型识别的方法流程图;
图4是另一个实施例中资源的请求量预测方法的流程图;
图5是图4中在搜索数据和/或社交数据中为状态空间模型的构建挖掘相关的解释变量时间序列的方法流程图;
图6是图4中通过解释变量时间序列和最近历史请求量之间的相关性运算,在挖掘的解释变量时间序列中选取引入状态空间模型的解释变量时间序列的方法流程图;
图7是一个实施例中一资源的最近历史请求量和一解释变量时间序列的量化关系示意图;
图8是图2中根据最近历史请求量进行参数估计得到状态变量和模型参数,由状态变量和模型参数构建状态空间模型的方法流程图;
图9是一个实施例中应用资源推荐方法的流程图;
图10是一个实施例中应用资源推荐的具体实现示意图;
图11是一个实施例中资源的请求量预测装置的结构示意图;
图12是图11中类别识别模块的结构示意图;
图13是另一个实施例中资源的请求量预测装置的结构示意图;
图14是图13中解释变量挖掘模块的结构示意图;
图15是图13中解释变量选取模块的结构示意图;
图16是图11中估计模块的结构示意图;
图17是一个实施例中应用资源推荐装置的结构示意图。
具体实施方式
体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化,其皆不脱离本发明的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本发明。
如前所述的,根据互联网络中业务的不同,在此业务中发布的资源也各不相同。例如,对于媒体播放业务而言,可通过搭建的媒体资源获取平台来进行媒体资源的发布。
在具体实现中,所发布的资源往往是海量的,虽进行了相应下载量的统计,拥有海量的下载量统计数据,但是由于缺乏未来下载量的准确预测而无法基于大数据而为后续的资源发布提供精准指引。
因此,特提出了一种资源的请求量预测方法。该资源的请求量预测方法由计算机程序实现,与之相对应的,所构建的资源的请求量预测装置则被存储于服务器中,以在服务器中运行,进而实现未来请求量的预测。
图1是本发明实施例提供的一种服务器结构示意图。该服务器100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)110(例如,一个或一个以上处理器)和存储器120,一个或一个以上存储应用程序131或数据133的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器120和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器110可以设置为与存储介质130通信,在服务器100上执行存储介质130中的一系列指令操作。服务器100还可以包括一个或一个以上电源150,一个或一个以上有线或无线网络接口170,一个或一个以上输入输出接口180,和/或,一个或一个以上操作系统135,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
在一个实施例中,具体的,该资源的请求量预测方法如图2所示,包括:
步骤210,获取资源所对应的历史请求量时间序列,在历史请求量时间序列中提取设定时间长度的最近历史请求量。
资源可以是互联网络中发布的任意资源,包括应用资源、媒体资源、虚拟物品资源等。例如,具体可为第三方应用、电影、电视剧、综艺节目等,与之相对应的,该请求量可以是下载量、播放量等。
资源发布之后每日所统计得到的请求量便构成了该资源所对应的历史请求量时间序列,各资源中,随着发布时间的不同,其历史请求量时间序列的时间长度也各不相同。发布较长的资源,历史请求量时间序列的时间长度相对一些新发布的资源要长一些,对于新发布的资源,其历史请求量时间序列相对较短。
任意一资源,都将在其所对应的历史请求量时间序列中提取设定时间长度的最近历史请求量。其中,该设定时间长度用于对未来请求量的预测中输入数据的选取进行控制,设定时间长度的具体数值与输出的未来请求量的时间长度相对应。例如,设定时间长度可以是最近七日,由此所输出的未来请求量将是预测所得到的未来七日的资源请求量。
针对发布的资源,以当前时间为截点在历史请求量时间序列中提取与设定时间长度相符的最近历史请求量,以作为此请求量预测的输入数据。
步骤230,根据最近历史请求量进行参数估计得到状态变量和模型参数,由状态变量和模型参数构建状态空间模型。
状态空间模型包括了多个未知参数,如状态变量和模型参数,因此,需要根据最近历史请求量进行参数估计,以便于构建与资源的请求情况相符的状态空间模型,进而保证后续预测的准确性。
构建所得到的状态空间模型是以最近历史请求量作为历史数据进行建模所得到的,其将输出反映了最近历史请求量动态变化的预测值,即资源的未来请求量。其中,进行参数估计而得到的状态变量将用于描述动态特征。
步骤250,通过构建的状态空间模型预测资源的未来请求量。
由于状态空间模型是以资源的最近历史请求量为基础而构建的,由构建的状态空间模型输出得到资源的未来请求量,例如,在通过一资源的最近七日请求量进行参数估计而构建的状态空间模型中输出该资源未来七日的请求量的预测结果。
通过如上所述的过程,实现了对发布的资源所进行的请求量的预测,并且是在历史请求量时间序列和状态空间模型的配合下实现的,使得所预测得到的未来请求量是在历史请求量时间序列的基础上符合动态发展的变化的,因此有效地保障了预测的准确性,为资源发布中的后续处理提供准确指引。
在一个实施例中,步骤230之前,如上所述的方法还包括:
对历史请求量时间序列进行类型识别,该类型为平稳型或非平稳型。
资源的发布中,所对应的请求量具备随机性,某些资源的每日请求量相对较为平稳,而某些资源的每日请求量常常会出现突发的增长或者突发的下降,因此,需要对历史请求量时间序列进行类型识别,以进一步保证后续预测的准确性。
历史请求量时间序列所对应的类型包括平稳型和非平稳型,其中,平稳型的历史请求量时间序列中记录的每日历史请求量在数值上是平稳的,且变化较为平缓;非平稳型的历史请求量时间序列中记录的每日历史请求量在数值上存在着较大变化。
若识别得到资源所对应的历史请求量时间序列为平稳型,则根据由此历史请求量时间序列提取的最近历史请求量进行参数估计和状态空间模型构建即可进行准确预测。
若识别得到资源所对应的历史请求量时间序列为非平稳型,换而言之,方历史请求量时间序列中的变化非常大,相应的,该资源后续所对应的请求量变化非常大的可能性很高,因此,将额外地引入已知的解释变量时间序列,以此作为辅助进行参数估计和状态空间模型的构建,进而保障预测的准确性。
历史请求量时间序列的识别可通过计算历史请求量时间序列的自相关函数来实现,也可以通过Dickey-Fuller检验变量的算法来实现,还可以通过波动率的运算实现
进一步的,在优选的实施例中,如图3所示,上述对历史请求量时间序列进行类型识别的步骤包括:
步骤301,运算历史请求量时间序列的波动率。
波动率用于衡量历史请求量时间序列中历史请求量的波动程度。在此波动率的运算中,将首先运算历史请求量时间序列中两个历史请求量之间的百分比收益率,即Yt=(Xt+1-Xt)/Xt,其中,Yt为历史请求量之间的百分比,Xt+1为日期为t+1的历史请求量,Xt为日期为t的历史请求量,由此得到历史请求量时间序列所对应的百分比收益率序列。
然后对百分比收益率序列进行标准差的运算,得到历史请求时间序列的波动率。
步骤303,根据波动率和设定的阈值得到历史请求量时间序列的类型为平稳型或非平稳型的类型识别结果。
预先进行阈值的设定,以根据运算得到的波动率和设定的阈值来判定历史请求量时间序列是平稳型还是非平稳型,进而得到相应的类型识别结果。
具体的,根据波动率判断设定的阈值是否小于设定的阈值,若为是,则得到历史请求量时间序列的类型为非平稳型的类型识别结果,若为否,则得到历史请求量时间序列的类型为平稳型的类型识别结果。
其中,阈值所对应的具体数值将是发布的所有资源中控制平稳型和非平稳型的占比来进行设定的。
例如,发布的所有资源可以是第三方应用,请求量为第三方应用的下载量,与之相对应的,针对每一第三方应用所对应的历史请求量时间序列所运算得到的波动率以及一定范围的波动率所对应的第三方应用数量及占比如下表所示:
表1
由此表,可根据平稳型的历史请求量时间序列和非平稳型的历史请求量时间序列之间第三方应用占比的控制需要来设定阈值。例如,控制请求量为10至100的所有第三方应用中历史请求量时间序列为平稳型的占比为61%,请求量为100至1000的所有第三方应用中历史请求量时间序列为平稳型的占比为78%,则所对应的阈值为0.5。
以此类推,根据发布的所有资源中平稳型的历史请求量时间序列和非平稳型的历史请求时时间序列之间资源占比来进行阈值的设定,以使得进行的类型识别与当前的资源发布状况相适应。
通过此过程所进行的历史请求量时间序列的类型识别较为简单,便于实现。
在一个实施例中,历史请求量时间序列的类型为非平稳型,在上述对历史请求时间序列进行类型识别的步骤之后,如图4所示,该方法还包括如下步骤:
步骤410,在搜索数据和/或社交数据中为状态空间模型的构建挖掘相关的解释变量时间序列。
搜索数据是与搜索相关,且基于海量数据所统计得到的数据指标;社交数据则是社交应用中基于海量数据所统计得到的数据指标;例如,搜索数据可以是关键词以及关键词对应的搜索热度,社交数据可以是某一虚拟社交网络中的关键词以及对应的搜索热度。因此,搜索数据和社交数据中包括了大量的文本信息以及对每一文本信息进行统计所得到的数据指标,在优选的实施例中,该数据指标为热度时间序列,即文本信息的每日热度所形成的热度时间序列。
具体的,根据状态空间模型的构建需要,在搜索数据和/或社交数据中包含的文本信息中为状态空间模型进行相关关键词的挖掘,进而以此关键词作为状态空间模型中的解释变量,由此所对应的热度时间序列即为解释变量时间序列。
在搜索数据和/或社交数据中,通过进行信息过滤、文本分类和数据归一化来匹配得到与状态空间模型的构建相关的关键词。
在搜索数据和/或社交数据所挖掘得到的解释变量时间序列大都为多个,因此,需要在挖掘得到的解释变量时间序列中为辅助状态空间模型的准确预测选取最佳的解释变量时间序列。
步骤430,通过解释变量时间序列和最近历史请求量之间的相关性运算,在挖掘的解释变量时间序列中选取引入状态空间模型的解释变量时间序列。
相对任意资源,所都将挖掘得到多个解释变量时间序列,将每一解释变量时间序列与最近历史请求量进行相关性运算,进而通过相关性运算选取最佳的解释变量时间序列。
通过搜索数据和/或社交数据中进行的挖掘以及相关性运算,实现了状态空间模型中辅助参数,即可引入作为解释变量的选取,由此得到与资源相关且最佳的解释变量序列,进而为后续预测的实现提供保证。
进一步的,在一个实施例中,如图5所示,该步骤410包括:
步骤411,在搜索数据和/或社交数据中匹配得到与资源相关的关键词。
搜索数据和/或社交数据中包括了各种各样的文本信息,这些文本信息相对当前进行请求量预测的应用而言,存在着大量的不相关信息以及噪声,因此,需要通过信息过滤、文本分类和数据归一化处理来实现解释变量时间序列的挖掘。
首先,通过信息过滤和文本分类来匹配得到与资源相关的关键词。
例如,对于搜索数据,需要对每日搜索的文本信息进行文本匹配,提取匹配到的与资源相关的关键字,例如,包含资源的名称的关键字,此过程即为信息过滤过程。
在得到与资源相关的关键字之后,由于此关键字在文本上虽与资源相关,例如,包含了资源的名称,但是,此关键字并不一定就是指这一资源,有可能是同名的其它资源。
例如,“花千骨”既可以指的是一个游戏应用,也可以是一同名的小说、电影等。因此,需进行文本分类以筛选出与资源所在类别对应的关键字。
步骤413,根据设定时间长度获取关键词相关的热度时间序列作为构建状态空间模型相关的解释变量时间序列。
在匹配得到资源相关的关键词之后,将根据设定时间长度提取相关的热度时间序列以作为解释变量时间序列。在优选的实施例中,还将对此解释变量时间序列进行数据归一化处理,以方便运算,进而使得解释变量时间序列和最后历史请求量时间长度相同,并且能够映射到同一个数值范围内,例如[0,1]之间。
进一步的,在一个实施例中,步骤430如图6所示,包括:
步骤431,进行解释变量时间序列和最近历史请求量之间的相关性运算,得到解释变量时间序列对应的相关系数和显著性检验值。
在挖掘得到相关的解释变量时间序列之后,需要确定解释变量时间序列与最近历史请求量之间的相关程度,以便于选取最佳的解释变量时间序列。
在优选的实施例中,将采用简单线性回归模型建立最近历史请求量和解释变量时间序列之间的量化关系,以实现相关性运算。具体运算过程如下:
设xt为解释变量时间序列,其中,t=1,2,3,……,n位,yt则对应了最近历史请求量,则
其中,ρxy为相关系数,为解释变量时间序列对应的均值,为最近历史请求量对应的均值,n为时间长度。
步骤433,根据相关系数和显著性检验值在挖掘的解释变量时间序列中选取引入状态空间模型的解释变量时间序列。
随着如上所述的相关性运算,将运算得到相关系数、决定系数和显示性检验值,可根据相关系数和显著性检验值来进行最佳解释变量时间序列的选取。
实际上,对于任一资源而言,其在搜索数据和/或社交数据中的热度将是与其请求量相对应的,例如,对于某一第三方应用而言,其被搜索得越多,则请求下载该第三方应用的数量将越为庞大;对于某一电影而言,其被搜索得越多,或者在虚拟社交网络中搜索或者谈到的越多,则相应的请求播放量越大。
因此,对于资源的请求量预测而言,解释变量时间序列与最近历史请求量相关性越高,则预测效果越好。
例如,图7示出了一资源的最近历史请求量和一解释变量时间序列的量化关系,其进行相关性运算将得到了相关性系数(Correction)、决定系数(R2)和显著性检验值(p-value)由此得到如下表所示的数据;
时间(日) | Correction | R2 | p-value |
0 | 0.5863 | 0.5035 | 8.79e~07 |
1 | 0.7026 | 0.7224 | 5.47e~11 |
2 | 0.3919 | 0.2257 | 0.00393 |
3 | 0.1505 | 0.03345 | 0.301 |
4 | 0.0706 | 0.007423 | 0.634 |
5 | 0.509 | 0.003941 | 0.733 |
表2
相关性系数越高、显示性检验值越小的解释变量时间序列将成为与最近历史请求量最为相关的解释变量时间序列,即最佳的解释变量时间序列。
在一个实例中,步骤230如图8所示,包括:
步骤231,根据最近历史请求量和引入状态空间模型的解释变量时间序列进行递归运算求解得到状态变量和模型参数。
在历史请求量时间序列的类型为非平稳型的情况下,将引入解释变量时间序列,以根据最近历史请求量和解释变量时间序列进行状态空间模型中状态变量和模型参数的求解。
步骤233,使用状态变量和模型参数进行状态空间模型的建模。
完成了参数估计得到状态变量和模型参数时,即可为资源构建状态空间模型,以用于实现资源的请求量预测。
其中,需要说明的是,对于最近历史请求量,通常是由趋势项、周期项和随机噪声项组成的,其中,趋势项表征了资源的请求量的长期特征,周期项表征了资源的请求量的周期性变化。
对于平稳型的历史请求量时间序列而言,由此所建立的状态空间模型如下所示:
yt=ut+st+βTXt+vtvt~N(0,V)
ut=ut-1+δt-1+wutwut~N(0,σ2 u)
δt=δt-1+wδtwδt~N(0,σ2 δ)
st=-st-1-…-st-6+wstwst~N(0,σ2 s)
Xt={x1t,x2t,x3t...xnt}
其中,yt表示已知的最近历史请求量,其方程为观察方程;ut、δt、st为未知的状态变量,其对应的方程为状态方程;并且vt、wut、wδt、wst都服从高斯分布。为模型重要参数。
为便于求解状态变量和模型参数,将上述状态空间模型转换为两个状态方程和观察方程,其中,Gu、Gs为已知的转移矩阵,即
观测方程:
状态方向: 其中,
在此基础上利用最近历史请求量作为训练数据递归运算求解得到状态变量和模型参数。在优选的实施例中,递归运算为卡尔曼滤波算法。
对于平稳型的历史请求量时间序列而言,由此所建立的状态空间模型如下所示:
yt=ut+st+βTXt+vtvt~N(0,V)
ut=ut-1+δt-1+wutwut~N(0,σ2 u)
δt=δt-1+wδtwδt~N(0,σ2 δ)
st=-st-1-…-st-6+wstwst~N(0,σ2 s)
Xt={x1t,x2t,x3t...xnt}
其中,βT为回归系数,Xt为解释变量时间序列。
如前所述的,为便于尔解状态变量和模型参数,将上述状态空间模型转换为两个状态方向和观察方程,其中,Gu、Gs、Gx为已知的转移矩阵,即:
观测方程:
状态方程:
在此基础上将求解得到状态变量和模式参数,进而完成状态空间模型的构建。
在另一个实施例中,如上所述的方法还包括:根据资源的未来请求量进行资源的推荐。
如前所述的,资源的未来请求量将预示了该资源被请求获取的次数,例如,对于第三方应用,则预示了此第三方应用最为可能的下载次数。未来请求量越大,则说明在未来期望获取到此资源的用户越多,因此可将未来请求量大的资源推荐给用户,以便于使得用户能够快速获取到此资源,并且提高了推荐的精准性。
如上所述的过程能够应用于互联网络中各种资源的推荐,从而为互联网络中发布的各种资源进行精准推荐,由此所述形成的资源推荐页面将最大程度地与用户的资源请求意图相符,既提高了用户完成资源请求的速度和效率,又极大地增强了推荐性能。
在一个实施例中,还相应地提供了一种应用资源推荐方法,如图9所示,该方法包括如下步骤:
步骤510,获取应用获取平台中各应用资源所分别对应的历史下载量时间序列,在历史下载量时间序列中提取设定时间长度的最近历史下载量。
步骤530,根据最近历史下载量进行参数估计得到状态变量和模型参数,由状态变量和模型参数构建状态空间模型。
步骤550,通过构建的状态空间模型预测应用资源的未来下载量。
步骤570,按照应用资源的未来下载量在应用获取平台进行应用资源的推荐。
应用资源获取平台用于提供应用资源搜索和推荐服务,并且应用资源获取平台发布了各种应用资源。各终端可通过应用资源获取平台进行任意应用资源的下载。
随着应用资源发布时间的长短,应用资源均有对应时间长度不等的历史下载量时间序列,因此,可根据所需要未来下载量所对应的时间长度在历史下载量时间序列中进行最近历史下载量的提取。例如,若需要预测未来七日的下载量,则对应提取最近七日的历史下载量即可。
以最近历史下载量作为历史数据来进行状态空间模型的参数估计,进而构建状态空间模型。如前所述的,在优选的实施例中,在此之前,对历史下载量时间序列进行类型识别,得到历史下载量时间序列的类型为平稳型或非平稳型的类型识别结果,进而依照此类型识别结果来进行状态空间模型的参数估计。
具体的,如果历史下载时间序列是非平稳型的,将额外地引入解释变量时间序列作为辅助,以保证状态空间模型能够准确反映下载量的动态变化。
在由状态空间模型完成了应用资源的未来下载量预测之后,将按照预测所得到的未来下载量在应用资源获取平台中进行应用资源的推荐。
具体的,将得到应用资源获取平台所发布的应用中,未来下载量最大的若干个应用资源,以对这些应用资源进行推荐,例如,在应用资源获取平台中通过推荐页面对这些应用资源进行显示,也可向终端进行推送相应的推荐消息。
通过应用资源获取平台中依据未来下载量所进行的准确推荐,在提高了推荐准确性的同时,也为终端所进行的应用资源下载提供了较大便利,方便实现应用资源的快速下载。
下面结合一个具体的实施例来详细阐述本发明的方案。如前所述的,本发明的方案可应用于各类资源的预测和推荐中,在本实施例中,将以应用资源为例进行阐述。
如图10所示的,应用资源获取平台中发布的应用资源包括了各种社交应用、游戏应用等。在发布的所有应用资源中,将对每一应用资源获取历史下载量时间序列,并进行类型识别610,以获知历史下载量时间序列是平稳型还是非平稳型。
对于平稳型的历史下载量时间序列,直接进行状态空间模型的参数估计和状态空间模型的构建即可。
另一方面,对于搜索数据和/或社交数据,将由搜索应用和应用获取平台得到搜索数据,由社交应用1和社交应用3得到社交数据,在所得到的搜索数据和社交数据中进行与应用资源相关的关键字挖掘,即完成信息过滤、文本分类和数据归一化处理的过程,以得到解释变量时间序列,即执行步骤620的过程。
通过解释变量时间序列和历史下载量时间序列之间的相关性运算,即步骤630来进行最佳解释变量时间序列的选取,进而在最值的解释变量时间序列的辅助下完成状态空间模型的参数估计和建模。
无论何种类型的历史下载量时间序列,都构建得到相应的状态空间模型640,进而实现未来下载量的预测。
应用资源获取平台中,根据所有应用资源所分别对应的未来下载量进行应用资源的推荐。
在一个实施例中,还相应地提供了一种资源的请求量预测装置,如图11所示,包括目标序列获取模块710、估计模块730和预测模块750,其中:
目标序列获取模块710,用于获取资源所对应的历史请求量时间序列,在历史请求量时间序列中提取设定时间长度的最近历史请求量。
估计模块730,用于根据最近历史请求量进行参数估计得到状态变量和模型参数,由状态变量和模型参数构建状态空间模型。
预测模块750,用于通过构建的状态空间模型预测资源的未来请求量。
在另一个实施例中,该装置还包括类型识别模块,该类型识别模块用于对历史请求量时间序列进行类型识别,类型为平稳型或非平稳型。
进一步的,在本实施例中,类型识别模块800如图12所示,包括波动率运算单元801和结果输出单元803,其中:
波动率运算单元801,用于运算历史请求量时间序列的波动率。
结果输出单元803,用于根据波动率和设定的阈值得到历史请求量时间序列的类型为平稳型或非平稳型的类型识别结果。
在一个实施例中,该类型为非平稳型,如上所述的装置如图13所示,还包括解释变量挖掘模块910和解释变量选取模块930,其中:
解释变量挖掘模块910,用于在搜索数据和或社交数据中为状态空间模型的构建挖掘相关的解释变量时间序列。
解释变量选取模块930,用于通过解释变量时间序列和最近历史请求量之间的相关性运算,在挖掘的解释变量时间序列中选取引入状态空间模型的解释变量时间序列。
进一步的,在本实施例中,解释变量挖掘模块910如图14所示包括匹配单元911和序列获取单元913,其中:
匹配单元911,用于在搜索数据和/或社交数据中匹配得到与资源相关的关键词。
序列获取单元913,用于根据设定时间长度获取关键词相关的热度时间序列作为构建状态空间模型相关的解释时间序列。
进一步的,在本实施例中,如图15所示,解释变量选取模块930包括相关性运算单元931和选择执行单元933,其中:
相关性运算单元931,用于进行解释变量时间序列和最近历史请求量之间的相关性运算,得到解释变量时间序列对应的相关系数和显著性检验值。
选择执行单元933,用于根据相关系数和显著性检验值在挖掘的解释变量时间序列中选取引入状态空间模型的解释变量时间序列。
在一个实施例中,如图16所示,估计模块730包括数值求解单元731和建模执行单元733,其中:
数值求解单元733,用于根据最近历史请求量和引入状态空间模型的解释变量时间序列进行递归运算求解得到状态变量和模型参数。
建模执行单元733,用于使用状态变量和模型参数进行状态空间模型的建模。
在另一个实施例中,如上所述的装置还包括资源推荐模块,该资源推荐模块用于根据资源的未来请求量进行资源的推荐。
在一个实施例中,还相应的提供了一种应用资源推荐装置,如图17所示,该装置包括应用的目标序列获取模块1010、参数估计模块1030、下载量预测模块1050和推荐执行模块1070,其中:
应用的目标序列获取模块1010,用于获取应用获取平台中各应用资源所分别对应的历史下载量时间序列,在历史下载量时间序列中提取设定时间长度的最近历史下载量。
参数估计模块1030,用于根据最近历史下载量进行参数估计得到状态变量和模型参数,由状态变量和模型参数构建状态空间模型。
下载量预测模块1050,用于通过构建的状态空间模型预测应用资源的未来下载量。
推荐执行模块1070,用于按照应用资源的未来下载量在应用获取平台进行应用资源的推荐。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
虽然已参照几个典型实施方式描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施方式不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
Claims (18)
1.一种资源的请求量预测方法,其特征在于,包括:
获取资源所对应的历史请求量时间序列,在所述历史请求量时间序列中提取设定时间长度的最近历史请求量;
根据所述最近历史请求量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
通过构建的所述状态空间模型预测所述资源的未来请求量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述时间序列进行参数估计处到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型的步骤之前,所述方法还包括:
对所述历史请求量时间序列进行类型识别,所述类型为平稳型或非平稳型。
3.根据权利要求2所述的方法,其特征在于,所述对所述历史请求量时间序列进行类型识别的步骤包括:
运算所述历史请求量时间序列的波动率;
根据所述波动率和设定的阈值得到所述历史请求量时间序列的类型为平稳型或非平稳型的类型识别结果。
4.根据权利要求2所述的方法,其特征在于,所述类型为非平稳型,所述对所述历史请求量时间序列进行类型识别的步骤之后,所述方法还包括:
在搜索数据和/或社交数据中为所述状态空间模型的构建挖掘相关的解释变量时间序列;
通过所述解释变量时间序列和所述最近历史请求量之间的相关性运算,在挖掘的所述解释变量时间序列中选取引入所述状态空间模型的解释变量时间序列。
5.根据权利要求4所述的方法,其特征在于,所述在搜索数据和/社交数据中为所述状态空间模型的构建挖掘相关的解释变量时间序列的步骤包括:
在所述搜索数据和/或社交数据中匹配得到与所述资源相关的关键词;
根据设定时间长度获取所述关键词相关的热度时间序列作为构建所述状态空间模型相关的解释变量时间序列。
6.根据权利要求4所述的方法,其特征在于,所述通过所述解释变量时间序列和所述最近历史请求量之间的相关性运算,在挖掘的所述解释变量时间序列中选取引入所述状态空间模型的解释变量时间序列的步骤包括:
进行所述解释变量时间序列和所述最近历史请求量之间的相关性运算,得到所述解释变量时间序列对应的相关系数和显著性检验值;
根据所述相关系数和显著性检验值在挖掘的所述解释变量时间序列中选取引入状态空间模型的解释变量时间序列。
7.根据权利要求4所述的方法,其特征在于,所述根据所述最近历史请求量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型的步骤包括:
根据所述最近历史请求量和引入所述状态空间模型的解释变量时间序列进行递归运算求解得到状态变量和模型参数;
使用所述状态变量和模型参数进行所述状态空间模型的建模。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述资源的未来请求量进行所述资源的推荐。
9.一种应用资源推荐方法,其特征在于,包括:
获取应用获取平台中各应用资源所分别对应的历史下载量时间序列,在所述历史下载量时间序列中提取设定时间长度的最近历史下载量;
根据所述最近历史下载量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
通过构建的所述状态空间模型预测所述应用资源的未来下载量;
按照所述应用资源的未来下载量在所述应用获取平台进行所述应用资源的推荐。
10.一种资源的请求量预测装置,其特征在于,包括:
目标序列获取模块,用于获取资源所对应的历史请求量时间序列,在所述历史请求量时间序列中提取设定时间长度的最近历史请求量;
估计模块,用于根据所述最近历史请求量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
预测模块,用于通过构建的所述状态空间模型预测所述资源的未来请求量。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
类型识别模块,用于对所述历史请求量时间序列进行类型识别,所述类型为平稳型或非平稳型。
12.根据权利要求11所述的装置,其特征在于,所述类型识别模块包括:
波动率运算单元,用于运算历史请求量时间序列的波动率;
结果输出单元,用于根据所述波动率和设定的阈值得到所述历史请求量时间序列的类型为平稳型或非平稳型的类型识别结果。
13.根据权利要求11所述的装置,其特征在于,所述类型为非平稳型,所述装置还包括:
解释变量挖掘模块,用于在搜索数据和/或社交数据中为所述状态空间模型的构建挖掘相关的解释变量时间序列;
解释变量选取模块,用于通过所述解释变量时间序列和所述最近历史请求量之间的相关性运算,在挖掘的所述解释变量时间序列中选取引入所述状态空间模型的解释变量时间序列。
14.根据权利要求13所述的装置,其特征在于,所述解释变量挖掘模块包括:
匹配单元,用于在所述搜索数据和/或社交数据中匹配得到与所述资源相关的关键词;
序列获取单元,用于根据设定时间长度获取所述关键词相关的热度时间序列作为构建所述状态空间模型相关的解释时间序列。
15.根据权利要求13所述的装置,其特征在于,所述解释变量选取模块包括:
相关性运算单元,用于进行所述解释变量时间序列和所述最近历史请求量之间的相关性运算,得到所述解释变量时间序列对应的相关系数和显著性检验值;
选择执行单元,用于根据所述相关系数和显著性检验值在挖掘的所述解释变量时间序列中选取引入状态空间模型的解释变量时间序列。
16.根据权利要求13所述的装置,其特征在于,所述估计模块包括:
数值求解单元,用于根据所述最近历史请求量和引入所述状态空间模型的解释变量时间序列进行递归运算求解得到状态变量和模型参数;
建模执行单元,用于使用所述状态变量和模型参数进行所述状态空间模型的建模。
17.根据权利要求10所述诉装置,其特征在于,所述装置还包括:
资源推荐模块,用于根据所述资源的未来请求量进行所述资源的推荐。
18.一种应用资源推荐装置,其特征在于,包括:
应用的目标序列获取模块,用于获取应用获取平台中各应用资源所分别对应的历史下载量时间序列,在所述历史下载量时间序列中提取设定时间长度的最近历史下载量;
参数估计模块,用于根据所述最近历史下载量进行参数估计得到状态变量和模型参数,由所述状态变量和模型参数构建状态空间模型;
下载量预测模块,用于通过构建的所述状态空间模型预测所述应用资源的未来下载量;
推荐执行模块,用于按照所述应用资源的未来下载量在所述应用获取平台进行所述应用资源的推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610019571.9A CN105701207B (zh) | 2016-01-12 | 2016-01-12 | 资源的请求量预测方法、应用推荐方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610019571.9A CN105701207B (zh) | 2016-01-12 | 2016-01-12 | 资源的请求量预测方法、应用推荐方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701207A true CN105701207A (zh) | 2016-06-22 |
CN105701207B CN105701207B (zh) | 2020-04-24 |
Family
ID=56226231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610019571.9A Active CN105701207B (zh) | 2016-01-12 | 2016-01-12 | 资源的请求量预测方法、应用推荐方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701207B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210028A (zh) * | 2016-07-05 | 2016-12-07 | 广州华多网络科技有限公司 | 一种服务器防止过载的方法、服务器及系统 |
CN108833352A (zh) * | 2018-05-17 | 2018-11-16 | 北京邮电大学 | 一种缓存方法及系统 |
CN113407513A (zh) * | 2020-11-24 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 特征库的调度方法、装置和特征库检索方法、装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100318484A1 (en) * | 2009-06-15 | 2010-12-16 | Bernardo Huberman | Managing online content based on its predicted popularity |
CN103049452A (zh) * | 2011-10-14 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种基于预估下载率进行应用排序的方法与设备 |
CN103235893A (zh) * | 2013-05-06 | 2013-08-07 | 重庆大学 | 一种用户-商品点击率自适应预测装置和预测方法 |
CN105095414A (zh) * | 2015-07-10 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 用于预测网络搜索量的方法和装置 |
-
2016
- 2016-01-12 CN CN201610019571.9A patent/CN105701207B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100318484A1 (en) * | 2009-06-15 | 2010-12-16 | Bernardo Huberman | Managing online content based on its predicted popularity |
CN103049452A (zh) * | 2011-10-14 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种基于预估下载率进行应用排序的方法与设备 |
CN103235893A (zh) * | 2013-05-06 | 2013-08-07 | 重庆大学 | 一种用户-商品点击率自适应预测装置和预测方法 |
CN105095414A (zh) * | 2015-07-10 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 用于预测网络搜索量的方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210028A (zh) * | 2016-07-05 | 2016-12-07 | 广州华多网络科技有限公司 | 一种服务器防止过载的方法、服务器及系统 |
CN106210028B (zh) * | 2016-07-05 | 2019-09-06 | 广州华多网络科技有限公司 | 一种服务器防止过载的方法、服务器及系统 |
CN108833352A (zh) * | 2018-05-17 | 2018-11-16 | 北京邮电大学 | 一种缓存方法及系统 |
CN108833352B (zh) * | 2018-05-17 | 2020-08-11 | 北京邮电大学 | 一种缓存方法及系统 |
CN113407513A (zh) * | 2020-11-24 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 特征库的调度方法、装置和特征库检索方法、装置 |
CN113407513B (zh) * | 2020-11-24 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 特征库的调度方法、装置和特征库检索方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105701207B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7210531B2 (ja) | ニューラルアーキテクチャ検索 | |
CN110366734B (zh) | 优化神经网络架构 | |
US20180046724A1 (en) | Information recommendation method and apparatus, and server | |
CN110245287B (zh) | 分析驱动参与 | |
US8843427B1 (en) | Predictive modeling accuracy | |
CN108304440A (zh) | 游戏推送的方法、装置、计算机设备及存储介质 | |
US20220092416A1 (en) | Neural architecture search through a graph search space | |
CN104731861B (zh) | 多媒体数据推送方法及装置 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
CN108399564B (zh) | 信用评分方法及装置 | |
CN110491124B (zh) | 一种车辆流量预测方法、装置、设备及存储介质 | |
US11023819B2 (en) | Machine-learning models applied to interaction data for facilitating experience-based modifications to interface elements in online environments | |
EP2960849A1 (en) | Method and system for recommending an item to a user | |
CN110663049A (zh) | 神经网络优化器搜索 | |
CN104462383A (zh) | 一种基于用户多种行为反馈的电影推荐方法 | |
CN108205775A (zh) | 一种业务对象的推荐方法、装置和客户端 | |
JP2024503774A (ja) | 融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN111242310A (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
CN105069103A (zh) | App搜索引擎利用用户评论的方法及系统 | |
US20220237516A1 (en) | Data modeling systems and methods | |
CN105701207B (zh) | 资源的请求量预测方法、应用推荐方法和装置 | |
CN115187345A (zh) | 智能家居建材推荐方法、装置、设备及存储介质 | |
CN103617146B (zh) | 一种基于硬件资源消耗的机器学习方法及装置 | |
JP7446359B2 (ja) | 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム | |
CN103729431B (zh) | 具有增减量功能的海量微博数据分布式分类装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |