CN105162643B - 流量预估的方法、装置及计算设备 - Google Patents
流量预估的方法、装置及计算设备 Download PDFInfo
- Publication number
- CN105162643B CN105162643B CN201510386409.6A CN201510386409A CN105162643B CN 105162643 B CN105162643 B CN 105162643B CN 201510386409 A CN201510386409 A CN 201510386409A CN 105162643 B CN105162643 B CN 105162643B
- Authority
- CN
- China
- Prior art keywords
- flow
- sample
- record
- condition
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了流量预测的方法、装置及计算设备。其中流量预估的装置适于驻留在计算设备中。该装置包括:流量预测器、模型生成器和查询处理器。流量预测器适于确定至少一个访问流量稳定的基查询条件,并通过时间序列模型分别预测流量预估序列。模型生成器适于从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数。查询处理器适于获取实时查询条件,从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,统计记录样本中满足实时查询条件的第二样本条数,然后计算实时查询条件对应的第二预估值。
Description
技术领域
本发明涉及互联网领域,尤其涉及流量预估的方法、装置及计算设备。
背景技术
随着互联网尤其是移动互联网的快速发展,人们的生活也越来越多与互联网中各种应用网站紧密联系。而网站的访问量预估对于网站的运营有着重要意义。例如,满足特定条件的UV和PV的流量预估值对于网站运营商的决策和精细化流量运营有着重要意义。特别是在许多应用场景中,流量预估值需要在线上实时计算并应用。例如,根据流量预估值来确定广告的线上分配策略或接受广告的预定等。而基于海量的网站访问记录对未来一段时间的访问量进行预估是一个难题。
现有的流量预估方案一般采用基于模型的方法。在流量预估方案中,通常对需要预测的查询条件通过时间序列模型进行预测,然后将获取的预测数据存储到数据库中。最后,在线上获取到查询条件后,从数据库中查询相应的流量预测数据。然而,基于模型的预估方案无法支持复杂的查询条件。即在查询条件包括多种组合条件时,线下的流量预测会非常麻烦。并且,在线上对预测数据的查询也会耗费大量的时间。另外,基于模型的方法对于流量波动比较大的查询预估准确率较低。
发明内容
为此,本发明提供一种新的流量预估的方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种流量预估的装置。该装置包括流量预测器、模型生成器和查询处理器。流量预测器适于基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型分别预测对应各基查询条件的流量预估序列。模型生成器适于从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数。查询处理器适于获取实时查询条件,从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,统计记录样本中满足实时查询条件的第二样本条数。查询处理器还适于根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值。
可选地,在根据本发明的流量预估的装置中,流量预测器适于根据下述方式基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列:基于网站的访问记录,提取多个流量稳定的分类特征;将所确定的分类特征进行组合以获取至少一个特征组合,每个特征组合为一个基查询条件;根据所述基查询条件对所述访问记录进行分类,以获取对应所述基查询条件的流量统计序列;以及根据所述流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列。
可选地,在根据本发明的流量预估的装置中,流量预测器适于根据下述方式基于网站的访问记录,提取多个流量稳定的分类特征:根据访问记录的一个分类特征对第一预定时间内的访问记录进行分类以获取按照该分类特征进行分类的流量统计;根据该流量统计对该第一预定时间之后的第二预定时间内的流量进行预测,以获取第二预定时间内的流量预测值;以及判断该流量预测值与第二预定时间内的实际流量统计值之差值是否超过阈值,如果该差值没有超过阈值,则选定该分类特征为流量稳定的分类特征。
可选地,在根据本发明的流量预估的装置中,流量预测器适于根据下述方式来根据流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列:根据所述流量统计序列,通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间内的流量预估序列,该流量预估序列包括该第三预定时间内每天的流量预估值。
可选地,在根据本发明的流量预估的装置中,模型生成器适于根据下述方式从网站的访问记录中抽取一个记录样本:对最近的第四预定时间内的访问记录进行随机采样,以获取一个记录样本;以及基于记录样本的特征,将所述记录样本存储为多叉树结构。
可选地,在根据本发明的流量预估的装置中,记录样本的特征包括性别、年龄、省份、城市、车型和投放位置。
可选地,在根据本发明的流量预估的装置中,记录样本的信息包括用户信息和页面信息。模型生成器还适于将记录样本中用户信息和页面信息分开存储。
可选地,在根据本发明的流量预估的装置中,查询处理器适于根据下述方式获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数:在线上获取实时查询条件;将该实时查询条件与所述基查询条件进行匹配判断,以确定对应该实时查询条件的基查询条件;从所对应的基查询条件的流量预估序列中查询第一预估值;查询所对应的基查询条件的第一样本条数;以及统计所述记录样本中满足实时查询条件的第二样本条数。
可选地,在根据本发明的流量预估的装置中,查询处理器适于根据下述方式计算实时查询条件对应的第二预估值Q2:
Q2=N1*N3/N2
其中,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。
根据本发明又一方面,提供一种流量预估的方法。该方法包括下述步骤。基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列。从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数。获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数。以及根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值。
可选地,在根据本发明的流量预估的方法中,基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列的步骤包括:基于网站的访问记录,提取多个流量稳定的分类特征;将所确定的分类特征进行组合以获取至少一个特征组合,每个特征组合为一个基查询条件;根据所述基查询条件对所述访问记录进行分类,以获取对应所述基查询条件的流量统计序列;以及根据所述流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列。
可选地,在根据本发明的流量预估的方法中,基于网站的访问记录,提取多个流量稳定的分类特征的步骤包括:根据访问记录的一个分类特征对第一预定时间内的访问记录进行分类以获取按照该分类特征进行分类的流量统计;根据该流量统计对该第一预定时间之后的第二预定时间内的流量进行预测,以获取第二预定时间内的流量预测值;以及判断该流量预测值与第二预定时间内的实际流量统计值之差值是否超过阈值,如果该差值没有超过阈值,则选定该分类特征为流量稳定的分类特征。
可选地,在根据本发明的流量预估的方法中,根据流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列的步骤包括:根据所述流量统计序列,通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间内的流量预估序列,该流量预估序列包括该第三预定时间内每天的流量预估值。
可选地,在根据本发明的流量预估的方法中,从网站的访问记录中抽取一个记录样本的步骤包括:对最近的第四预定时间内的访问记录进行随机采样,以获取一个记录样本;以及基于记录样本的特征,将所述记录样本存储为多叉树结构。
可选地,在根据本发明的流量预估的方法中,记录样本的特征包括性别、年龄、省份、城市、车型和投放位置。
可选地,在根据本发明的流量预估的方法中,记录样本的信息包括用户信息和页面信息。以及从网站的访问记录中抽取一个记录样本的步骤包括将记录样本中用户信息和页面信息分开存储。
可选地,在根据本发明的流量预估的方法中,获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数的步骤包括:在线上获取实时查询条件;将该实时查询条件与所述基查询条件进行匹配判断,以确定对应该实时查询条件的基查询条件;从所对应基查询条件的流量预估序列中查询第一预估值;查询所对应的基查询条件的第一样本条数;以及统计所述记录样本中满足实时查询条件的第二样本条数。
可选地,在根据本发明的流量预估的方法中,根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值的步骤包括:
根据下述公式计算满足实时查询条件的第二预估值:
Q2=N1*N3/N2
其中,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。
根据本发明又一方面,提供一种计算设备,该计算设备包括根据本发明的流量预估的装置。
根据本发明的流量预估方案在整体上兼顾了准确率和响应速率。该流量预测方案将基查询流量预估在线下完成,从而在实时查询阶段,能够查询任何实时条件对应的基查询数据。这里,基查询数据基于流量稳定的网站记录为基础,能够避免流量波动带来的影响。进一步,流量预估方案能够向线上查询操作提供记录样本,从而在线上快速计算实时查询条件的流量相对于基查询条件的流量比例。流量预估方案中记录样本基于最新的访问记录,从而使得流量比例准确度较高。因此,根据本发明的流量预估装置能够高效率、高准确度的完成流量预估。特别是,在高并发查询任务中,根据本发明的流量预估方案能够快速给出预估结果。另外,根据本发明的流量预估方案在对样本数据存储时,能根据记录样本的特征进行分类排序并存储为多叉树的数据结构,从而能够提高线上查询效率。同时,记录样本中用户特征和页面特征分开存储的方式,也大大节省的记录样本的存储空间。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1是布置为实现根据本发明的流量预估的装置200的示例计算设备100的框图;
图2示出了根据本发明一个实施例的流量预估的装置200的示意图;
图3示出了根据本发明一个实施例中记录样本的结构示意图;
图4示出了根据本发明一个实施例中记录样本的用户特征和页面特征分开存储的示例;
图5示出了根据本发明一个实施例的流量预测方法500的流程图;
图6示出了图5中步骤S510的流程图;
图7示出了图6中步骤S610的流程图;以及
图8示出了图5中步骤S530的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是布置为用于实现根据本发明的流量预估的装置200的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器((μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。应用122可以包括被配置为流量预估的装置200。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
流量预估装置200适于对网站的访问流量进行预估。例如,流量预估装置200对未来3个月的用户访问(UV)或者页面访问(PV)的流量进行预估。一般而言,用于流量预估的原始数据为过去一段时间内的网站访问记录(即网站日志)。驻留有流量预估装置200的计算设备100通常被布置为服务器。计算设备100可以是运行网站核心的应用服务器,也可以是专用于流量预估的专用服务器。另外,对于分布式网站服务器,流量预估装置200的内部模块可以分布在分布式网络的多个服务器上。
图2示出了根据本发明一个实施例的流量预估的装置200的示意图。该流量预估装置200包括流量预测器210、模型生成器220和查询处理器230。
通常,网站访问记录为亿量级。而且,每条访问记录的属性特征非常多,例如访问记录的特征包括年龄、性别、时间段、省份、地区、车型、投放位置等。另外,一个或者多个特征可以组合为一个查询条件。该查询条件可以用于对历史访问记录进行分类并统计访问流量。现有的流量预估方案通常对多个查询条件进行访问流量的统计,然后基于所统计的访问流量对未来一段时间内的流量进行预测。由于访问记录的特征组合非常多,因此现有的流量预估方法无法支持复杂的查询条件的流量预测。并且,由于多种查询条件对应的访问流量波动较大,采用时间序列模型进行预测的结果准确度也较低。
不同于现有的预测方式,根据本发明的流量预测器210适于基于网站的访问记录,确定一个或多个访问流量稳定的查询条件作为基查询条件。这里所说的基查询条件为适于通过时间序列模型预测未来访问流量的查询条件。然后,流量预测器210通过时间序列模型分别预测对应各基查询条件的流量预估序列。这样,流量预测器可以在线下对流量稳定的查询条件进行流量预测,进而向查询处理器提供任一个基查询条件在未来一段时间(例如3个月)的流量预估序列。其中,流量预估序列可以为每天的预估值组成的序列。当然也可以是按照其他标准划分的预估值组成的序列,而这些都应落入本发明的保护范围。
流量预测器210所使用的基查询条件,既可以是已知的流量稳定的查询条件,也可以通过筛选操作而确定的。在根据本发明一个实施例中,流量预测器210首先从网站的访问记录中选取多个流量稳定的分类特征。例如,分类特征为qi。其中,流量预测器210所使用的流量稳定的分类特征可以根据多种可选用的评价标准进行选定。例如,流量预测器210对访问记录的特征进行平稳定检验,以判断一个分类特征是否为流量稳定的分类特征。具体地,流量预测器210根据所要判断的分类特征对第一预定时间(例如3个月)内的访问记录进行分类,以获取按照该分类特征进行分类的流量统计。然后,流量预测器210根据该第一预定时间内流量统计预测第二预定时间(例如第一预定时间之后的1个月)内的流量预测值。最后,流量预测器210判断流量预测值与第二预定时间内的实际流量统计值之差是否超过阈值。如果未超过阈值,则该分类特征为一个流量稳定的分类特征。每个分类特征qi可以是从访问记录中选择的单一特征(例如时间段、城市或省份等),也可以是由单一特征组合成的特征组合。
随后,流量预测器210将分类特征进行多种组合。每个组合为一个基查询条件。例如,基查询条件Q={q1,q2,…}。流量预测器210可以将过去一段时间的访问记录按照基查询条件Q进行分类统计,以获取所查询的基查询条件Q的流量统计序列。最后,流量预测器通过时间序列模型对流量统计序列进行预测,进而获取流量预估序列。这样,流量预测器210在对多个基查询条件进行预测后,能够产生多个流量预估序列的集合。需要说明的是,流量预测器210可以根据具体需要选定适当的时间序列模型。例如,流量预测器210通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间(例如3个月)内的流量预估序列。这样,流量预估序列可以提供流量稳定的流量预估序列,以便从其中获取满足基查询条件的第一预估值(例如,流量预估序列中第m天的流量值)。
模型生成器220,适于从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数。这里每个基查询条件都对应一个第一样本条数。在一个实施例中,模型生成器220适于对最近第四预定时间(例如最近1天)内的访问记录进行随机采样,以获取一个记录样本。然后,模型生成器220遍历该记录样本,计算对应基查询条件的第一样本条数。
为了保证准确性,记录样本的条数一般为上亿条。而为了提高查询处理器230线上查询记录样本的处理速度,模型生成器220适于将记录样本存储为多叉树形式。在一个实施例中,一个基查询条件Q={省份:A,城市:B,广告位:C…}。记录样本的存储方式如图3所示的结构。这样,查询处理器230查询记录样本时,只需要按照多叉树的排序结构查询部分节点,从而提高了查询速度。
另外,一般单个UV会对应多次PV。为了节省存储空间,模型生成器220适于将每一个PV记录的页面信息和用户信息分开存储。如图4所示为记录样本中用户特征和页面特征分开存储的示例。
上文中流量预测器210和模型生成器220都是在线下完成相应操作的。这样,查询处理器230能够基于线下操作所提供数据快速完成流量预估操作。具体地,查询处理器230可以在线上获取到用户需要查询的实时查询条件时,快速确定该实时查询条件对应的基查询条件。在一个实施例中,查询处理器230将实时查询条件和基查询条件进行匹配判断,以确定实时查询条件相关联的基查询条件。其中,实时查询条件为qm,qm∈Qk,Qk为qm最大概率落入的基查询条件。随后,查询处理器230可以从流量预估序列中查询第一预估值。例如,从流量预估序列中查询指定时间段(例如第三预定时间内的第N天)的流量值(即第一预估值)。另外,查询处理器查询相关联的基查询条件在记录样本中的第一样本条数。查询处理器230在模型生成器220所提供的记录样本中统计满足实时查询条件的第二样本条数。随后,查询处理器230能够根据第一预估值、第一样本条数、第二样本条数计算实时查询条件对应的第二预估值。在一个实施例中根据下述公式进行计算:
Q2=N1*N3/N2其中,Q2为第二预估值,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。这里,第一预估值为实时查询条件所属的基查询条件的稳定流量预测,然后通过N3/N2比值计算出记录样本中满足实时查询条件样本相对满足基查询条件的样本条数的流量比例。最后,通过基查询的第一预估值和流量比例对实时查询条件进行流量预估。
根据本发明的流量预估装置在整体上兼顾了准确率和响应速率。该流量预测装置将基查询流量预估在线下完成,从而在实时查询阶段,能够查询任何实时条件对应的基查询数据。这里,基查询数据基于流量稳定的网站记录为基础,能够避免流量波动带来的影响。进一步,流量预估装置能够通过模型生成器向线上查询处理器提供记录样本,从而在线上快速计算实时查询条件的流量相对于基查询条件的流量比例。流量预估装置中记录样本基于最新的访问记录,从而使得流量比例准确度较高。因此,根据本发明的流量预估装置能够高效率、高准确度的完成流量预估。特别是,在高并发查询任务中,能够快速给出预估结果。另外,根据本发明的流量预估装置在对样本数据存储时,能根据记录样本的特征进行分类排序并存储为多叉树的数据结构,从而能够提高线上查询效率。同时,记录样本中用户特征和页面特征分开存储的方式,也大大节省的记录样本的存储空间。
图5示出了根据本发明一个实施例的流量预测方法500的流程图。该方法500适于在计算设备100中执行。
如图5所示,方法500始于步骤S510,基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列。根据本发明一个实施例,步骤S510所执行的操作通过图6所示的流程来实现。
如图6所示,在步骤S610中,基于网站的访问记录,首先提取多个流量稳定的分类特征。随后执行步骤S620,将所确定的分类特征进行组合以获取至少一个特征组合,每个特征组合为一个基查询条件。随后执行步骤S630,根据基查询条件对所述访问记录进行分类,以获取对应基查询条件的流量统计序列。随后执行步骤S640,根据流量统计序列,通过时间序列模型预测对应基查询条件的流量预估序列。
在根据本发明一个实施例中,步骤S610可以通过图7中流程图来执行。
如图7所示,在步骤S710中,根据访问记录的一个分类特征对第一预定时间内的访问记录进行分类以获取按照该分类特征进行分类的流量统计。然后执行步骤S720。在步骤S720中,根据该流量统计对该第一预定时间之后的第二预定时间内的流量进行预测,以获取第二预定时间内的流量预测值。随后,在步骤S730中,判断流量预测值与第二预定时间内的实际流量统计值之差值是否超过阈值,如果该差值没有超过阈值,则选定该分类特征为流量稳定的分类特征。
根据本发明一个实施例,在步骤S640中,根据流量统计序列,通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间内的流量预估序列。其中该流量预估序列包括该第三预定时间内每天的流量预估值。
方法500还包括步骤S520。在步骤S520中,从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数。根据本发明一个实施例,在步骤S520中,首先对最近的第四预定时间内的访问记录进行随机采样,以获取一个记录样本。然后,基于记录样本的特征,将记录样本存储为多叉树结构。步骤S520的实现与图2中模型生成器的实现方式相同,这里不再赘述。这里所说的记录样本的特征为诸如性别、年龄、省份、城市、车型和投放位置等。另外,记录样本的信息通常包括用户信息和页面信息。步骤S520中生成的记录样本可以将用户信息和页面信息分开存储。例如,将记录样本的特征中的用户特征和页面特征分开存储。
随后,方法500执行步骤S530。在步骤S530中,获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数。根据本发明一个实施例,步骤S530可以通过图8所示的流程来实现。
如图8所示,在步骤S810中,在线上获取实时查询条件。随后执行步骤S820,将该实时查询条件与基查询条件进行匹配判断,以确定对应该实时查询条件的基查询条件。在步骤S830中,从所对应的基查询条件的流量预估序列中查询第一预估值。在步骤S840中,查询所对应的基查询条件的第一样本条数。在步骤S850中,统计记录样本中满足实时查询条件的第二样本条数。这里步骤S530更具体的实现与图2中查询处理器的实现相同,这里不再赘述。
随后,方法500进入步骤S540,根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值。根据本发明一个实施例,第二预估值Q2根据下述公式进行计算:
Q2=N1*N3/N2
其中,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。
A11、在根据本发明的流量预估的方法中,所述基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列的步骤包括:基于网站的访问记录,提取多个流量稳定的分类特征;将所确定的分类特征进行组合以获取至少一个特征组合,每个特征组合为一个基查询条件;根据所述基查询条件对所述访问记录进行分类,以获取对应所述基查询条件的流量统计序列;以及根据所述流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列。A12、如A11所述的流量预估的方法,其中,所述基于网站的访问记录,提取多个流量稳定的分类特征的步骤包括:根据访问记录的一个分类特征对第一预定时间内的访问记录进行分类以获取按照该分类特征进行分类的流量统计;根据该流量统计对该第一预定时间之后的第二预定时间内的流量进行预测,以获取第二预定时间内的流量预测值;以及判断该流量预测值与第二预定时间内的实际流量统计值之差值是否超过阈值,如果该差值没有超过阈值,则选定该分类特征为流量稳定的分类特征。A13、如A11或A12所述的流量预估的方法,其中,所述根据流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列的步骤包括:根据所述流量统计序列,通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间内的流量预估序列,该流量预估序列包括该第三预定时间内每天的流量预估值。A14、在根据本发明的流量预估的方法中,所述从网站的访问记录中抽取一个记录样本的步骤包括:对最近的第四预定时间内的访问记录进行随机采样,以获取一个记录样本;以及基于记录样本的特征,将所述记录样本存储为多叉树结构。A15、在根据本发明的流量预估的方法中,所述记录样本的特征包括性别、年龄、省份、城市、车型和投放位置。A16、在根据本发明的流量预估的方法中,所述记录样本的信息包括用户信息和页面信息;以及所述从网站的访问记录中抽取一个记录样本的步骤包括:将记录样本中用户信息和页面信息分开存储。
A17、在根据本发明的流量预估的方法中,获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数的步骤包括:在线上获取实时查询条件;将该实时查询条件与所述基查询条件进行匹配判断,以确定对应该实时查询条件的基查询条件;从所对应基查询条件的流量预估序列中查询第一预估值;查询所对应的基查询条件的第一样本条数;以及统计所述记录样本中满足实时查询条件的第二样本条数。A18、在根据本发明的流量预估的方法中,所述根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值的步骤包括:根据下述公式计算满足实时查询条件的第二预估值:Q2=N1*N3/N2其中,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。A19、一种计算设备,包括根据本发明所述的流量预估的装置。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (15)
1.一种流量预估的装置,适于驻留在计算设备中,该装置包括:
流量预测器,适于基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型分别预测对应各基查询条件的流量预估序列;
模型生成器,适于从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数;
查询处理器,适于获取实时查询条件,从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,统计记录样本中满足实时查询条件的第二样本条数,根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值;
其中,所述流量预测器适于根据下述方式基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列:
基于网站的访问记录,提取多个流量稳定的分类特征;
将所确定的分类特征进行组合以获取至少一个特征组合,每个特征组合为一个基查询条件;
根据所述基查询条件对所述访问记录进行分类,以获取对应所述基查询条件的流量统计序列;
根据所述流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列;
所述查询处理器适于根据下述方式计算实时查询条件对应的第二预估值Q2:
Q2=N1*N3/N2
其中,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。
2.如权利要求1所述的流量预估的装置,其中,所述流量预测器适于根据下述方式基于网站的访问记录,提取多个流量稳定的分类特征:
根据访问记录的一个分类特征对第一预定时间内的访问记录进行分类以获取按照该分类特征进行分类的流量统计;
根据该流量统计对该第一预定时间之后的第二预定时间内的流量进行预测,以获取第二预定时间内的流量预测值;以及
判断该流量预测值与第二预定时间内的实际流量统计值之差值是否超过阈值,如果该差值没有超过阈值,则选定该分类特征为流量稳定的分类特征。
3.如权利要求1所述的流量预估的装置,其中,所述流量预测器适于根据下述方式来根据流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列:
根据所述流量统计序列,通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间内的流量预估序列,该流量预估序列包括该第三预定时间内每天的流量预估值。
4.如权利要求1至3中任一项所述的流量预估的装置,其中,所述模型生成器适于根据下述方式从网站的访问记录中抽取一个记录样本:
对最近的第四预定时间内的访问记录进行随机采样,以获取一个记录样本;以及
基于记录样本的特征,将所述记录样本存储为多叉树结构。
5.如权利要求1-3中任一项所述的流量预估的装置,其中所述记录样本的特征包括性别、年龄、省份、城市、车型和投放位置。
6.如权利要求1-3中任一项所述的流量预估的装置,其中所述记录样本的信息包括用户信息和页面信息;以及
所述模型生成器还适于:将记录样本中用户信息和页面信息分开存储。
7.如权利要求1-3中任一项所述的流量预估的装置,所述查询处理器适于根据下述方式获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数:
在线上获取实时查询条件;
将该实时查询条件与所述基查询条件进行匹配判断,以确定对应该实时查询条件的基查询条件;
从所对应的基查询条件的流量预估序列中查询第一预估值;
查询所对应的基查询条件的第一样本条数;以及
统计所述记录样本中满足实时查询条件的第二样本条数。
8.一种流量预估的方法,适于在计算设备中执行,该方法包括:
基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列;
从网站的访问记录中抽取一个记录样本,以及计算该记录样本中满足基查询条件的第一样本条数;
获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,统计记录样本中满足实时查询条件的第二样本条数;
根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值;
其中,所述基于网站的访问记录,确定至少一个访问流量稳定的基查询条件,并通过时间序列模型预测对应该基查询条件的流量预估序列的步骤包括:
基于网站的访问记录,提取多个流量稳定的分类特征;
将所确定的分类特征进行组合以获取至少一个特征组合,每个特征组合为一个基查询条件;
根据所述基查询条件对所述访问记录进行分类,以获取对应所述基查询条件的流量统计序列;
根据所述流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列;
所述根据第一样本条数、第二样本条数和第一预估值,计算实时查询条件对应的第二预估值的步骤包括:
根据下述公式计算满足实时查询条件的第二预估值:
Q2=N1*N3/N2
其中,N1为第一预估值,N2为第一样本条数,N3为第二样本条数。
9.如权利要求8所述的流量预估的方法,其中,所述基于网站的访问记录,提取多个流量稳定的分类特征的步骤包括:
根据访问记录的一个分类特征对第一预定时间内的访问记录进行分类以获取按照该分类特征进行分类的流量统计;
根据该流量统计对该第一预定时间之后的第二预定时间内的流量进行预测,以获取第二预定时间内的流量预测值;以及
判断该流量预测值与第二预定时间内的实际流量统计值之差值是否超过阈值,如果该差值没有超过阈值,则选定该分类特征为流量稳定的分类特征。
10.如权利要求8所述的流量预估的方法,其中,所述根据流量统计序列,通过时间序列模型预测对应所述基查询条件的流量预估序列的步骤包括:
根据所述流量统计序列,通过Seasonal-ARIMA模型或Holter-Winter季节乘数模型预测未来第三预定时间内的流量预估序列,该流量预估序列包括该第三预定时间内每天的流量预估值。
11.如权利要求8至10中任一项所述的流量预估的方法,其中,所述从网站的访问记录中抽取一个记录样本的步骤包括:
对最近的第四预定时间内的访问记录进行随机采样,以获取一个记录样本;以及
基于记录样本的特征,将所述记录样本存储为多叉树结构。
12.如权利要求8-10中任一项所述的流量预估的方法,其中所述记录样本的特征包括性别、年龄、省份、城市、车型和投放位置。
13.如权利要求8-10中任一项所述的流量预估的方法,其中所述记录样本的信息包括用户信息和页面信息;以及
所述从网站的访问记录中抽取一个记录样本的步骤包括:
将记录样本中用户信息和页面信息分开存储。
14.如权利要求8-10中任一项所述的流量预估的方法,所述获取实时查询条件,并从流量预估序列中查询该实时查询条件对应的基查询条件的第一预估值,和统计记录样本中满足实时查询条件的第二样本条数的步骤包括:
在线上获取实时查询条件;
将该实时查询条件与所述基查询条件进行匹配判断,以确定对应该实时查询条件的基查询条件;
从所对应基查询条件的流量预估序列中查询第一预估值;
查询所对应的基查询条件的第一样本条数;以及
统计所述记录样本中满足实时查询条件的第二样本条数。
15.一种计算设备,包括如权利要求1-7中任一项所述的流量预估的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510386409.6A CN105162643B (zh) | 2015-06-30 | 2015-06-30 | 流量预估的方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510386409.6A CN105162643B (zh) | 2015-06-30 | 2015-06-30 | 流量预估的方法、装置及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105162643A CN105162643A (zh) | 2015-12-16 |
CN105162643B true CN105162643B (zh) | 2018-04-27 |
Family
ID=54803404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510386409.6A Active CN105162643B (zh) | 2015-06-30 | 2015-06-30 | 流量预估的方法、装置及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105162643B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107872329B (zh) * | 2016-09-22 | 2020-10-16 | 阿里巴巴集团控股有限公司 | 一种预估qps的方法和设备 |
CN107679102A (zh) * | 2017-09-12 | 2018-02-09 | 北京小米移动软件有限公司 | 对象访问方法及装置 |
CN111835541B (zh) * | 2019-04-18 | 2021-10-22 | 华为技术有限公司 | 一种流量识别模型老化检测方法、装置、设备及系统 |
CN113781090A (zh) * | 2021-02-24 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 流量预估方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346745A (zh) * | 2010-08-02 | 2012-02-08 | 阿里巴巴集团控股有限公司 | 单词的用户行为数的预测方法和装置 |
CN103246985A (zh) * | 2013-04-26 | 2013-08-14 | 北京亿赞普网络技术有限公司 | 一种广告点击率预测方法及装置 |
CN103345512A (zh) * | 2013-07-06 | 2013-10-09 | 北京品友互动信息技术有限公司 | 一种基于用户属性的网络广告点击率预测方法和装置 |
US8738436B2 (en) * | 2008-09-30 | 2014-05-27 | Yahoo! Inc. | Click through rate prediction system and method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346182A1 (en) * | 2012-06-20 | 2013-12-26 | Yahoo! Inc. | Multimedia features for click prediction of new advertisements |
-
2015
- 2015-06-30 CN CN201510386409.6A patent/CN105162643B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8738436B2 (en) * | 2008-09-30 | 2014-05-27 | Yahoo! Inc. | Click through rate prediction system and method |
CN102346745A (zh) * | 2010-08-02 | 2012-02-08 | 阿里巴巴集团控股有限公司 | 单词的用户行为数的预测方法和装置 |
CN103246985A (zh) * | 2013-04-26 | 2013-08-14 | 北京亿赞普网络技术有限公司 | 一种广告点击率预测方法及装置 |
CN103345512A (zh) * | 2013-07-06 | 2013-10-09 | 北京品友互动信息技术有限公司 | 一种基于用户属性的网络广告点击率预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105162643A (zh) | 2015-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bonfiglio et al. | Assessing the behaviour of non-survey methods for constructing regional input–output tables through a Monte Carlo simulation | |
Xie et al. | Simulating emergent urban form using agent-based modeling: Desakota in the Suzhou-Wuxian region in China | |
Liu et al. | Classification of solar radiation zones and general models for estimating the daily global solar radiation on horizontal surfaces in China | |
US9280618B1 (en) | Systems and methods for control strategy criteria selection | |
CN107451861B (zh) | 一种大数据下用户上网特征识别的方法 | |
CN107689008A (zh) | 一种用户投保行为预测的方法及装置 | |
CN105162643B (zh) | 流量预估的方法、装置及计算设备 | |
KR102340463B1 (ko) | 샘플 가중치 설정방법 및 장치, 전자 기기 | |
CN106202394A (zh) | 文本资讯的推荐方法及系统 | |
CN106844178A (zh) | 预测呈现信息转化率的方法、计算设备、服务器及系统 | |
CN108446944B (zh) | 一种常驻城市的确定方法、装置及电子设备 | |
Hao et al. | A visual analytics approach for peak‐preserving prediction of large seasonal time series | |
US20140372172A1 (en) | Method and computer system to forecast economic time series of a region and computer program thereof | |
CN113837383B (zh) | 模型训练方法、装置、电子设备及存储介质 | |
Wu et al. | A new lot sentencing approach by variables inspection based on process yield | |
Wu | Geographical knowledge diffusion and spatial diversity citation rank | |
Wang et al. | Short‐Term Traffic Volume Forecasting with Asymmetric Loss Based on Enhanced KNN Method | |
CN105740434B (zh) | 网络信息评分方法及装置 | |
Yamamoto | A modified confidence set for the structural break date in linear regression models | |
CN114077912A (zh) | 数据预测方法以及数据预测装置 | |
Li et al. | Evolution of FDI flows in the global network: 2003–2012 | |
US20150302302A1 (en) | Method and device for predicting number of suicides using social information | |
CN106878938A (zh) | 一种信息推送方法、位置定位方法和设备 | |
Zhu et al. | Prediction of consumer repurchase behavior based on LSTM neural network model | |
CN109146316A (zh) | 电力营销稽查方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180914 Address after: 100089 Beijing Haidian District Haidian District Dan Street 3 B block 11, 1110, 1111 rooms. Patentee after: Che Zhi interconnect (Beijing) Technology Co., Ltd. Address before: 300300 Tianjin Binhai New Area Airport International Logistics Area Second Street 1 Enterprise Service Center 311 room. Patentee before: TIANJIN CHESHIJIA TECHNOLOGY CO., LTD. |
|
TR01 | Transfer of patent right |