CN106447094A

CN106447094A - 一种热点内容预测的方法及装置

Info

Publication number: CN106447094A
Application number: CN201610819651.2A
Authority: CN
Inventors: 牛凯; 贺志强; 王荆宁; 刘婉凝
Original assignee: Beijing University of Posts and Telecommunications; CETC 54 Research Institute
Current assignee: Beijing University of Posts and Telecommunications; CETC 54 Research Institute
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2017-02-22

Abstract

本发明实施例公开了一种热点内容预测的方法及装置，应用于数据挖掘的计算机应用技术领域，所述方法包括：获取预设时间段中已知时间序列的热点内容的频数，对热点内容的频数进行等间隔划分，得到N段初始频数子区间，在热点内容的频数在初始频数子区间中、出现的次数达到预设条件时，对初始频数子区间进行划分，得到M段最终频数子区间，根据最终频数子区间与预设的模糊集区间，确定预测时间序列的热点内容的传播趋势；根据传播趋势，通过预测算法，确定预测时间序列的热点内容的预测值。应用本发明实施例能够拟合时间序列的传播趋势，获得精确度更高的预测效果。另外，本发明操作简单，逻辑简洁易懂，通用性好，具有较好的实用化前景。

Description

一种热点内容预测的方法及装置

技术领域

本发明涉及数据挖掘的计算机应用技术领域，特别涉及一种热点内容预测的方法及装置。

背景技术

互联网在最近十多年经历了一个飞速发展的时期，互联网的开放性使其成为人们获取信息的重要渠道，然而互联网每天都会产生海量的信息数据，如何从这些海量数据中提取有用的关键信息已经成为近年来研究的热点。然而，网络用户量庞大，每天会产生数以亿计的数据，其中充斥着广告、炒作等虚假信息，从这些数据中发现热点内容，将热点内容分类并进行传播趋势预测，既能方便人们获取重要信息，同时也能帮助政府进行舆论监控和突发事件监测。

近年来，数据挖掘已经引起信息产业界的极大关注，数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程，使用这些模型和关系可以进行预测或帮助决策者寻找各数据之间的潜在关联，发现被忽略的因素。而现有技术中，如贝叶斯预测方法应用的前提是条件独立性假设，而热点内容预测的时间序列并不具有条件独立性，对网络热点内容时间序列的特殊性，无法实现拟合时间,逻辑较为复杂。

发明内容

本发明实施例的目的在于提供一种热点内容预测的方法及装置，能够针对网络热点内容时间序列的特殊性，能够更好地拟合时间序列，得到热点内容的预测值，并且逻辑简洁易懂。

为达到上述目的，本发明实施例公开了一种热点内容预测的方法，包括：

获取预设时间段中已知时间序列的热点内容的频数，其中，所述预设时间段中还存在所述热点内容的频数未知的预测时间序列；

对所述已知时间序列的所述热点内容的频数进行等间隔划分，得到N段初始频数子区间，其中，所述N为大于1的整数；

在所述热点内容的频数在所述初始频数子区间中、出现的次数达到预设条件时，对所述初始频数子区间进行划分，得到M段最终频数子区间，其中，所述M大于或等于所述N，所述M段最终频数子区间包括：划分的初始频数子区间及未划分的初始频数子区间；

根据所述最终频数子区间与预设的模糊集区间，确定所述预测时间序列的所述热点内容的传播趋势；

根据所述传播趋势，通过预测算法，确定所述预测时间序列的所述热点内容的预测值。

较佳的，所述获取预设时间段中已知时间序列的热点内容的频数，包括：

通过话题标签采集获取所述已知时间序列的热点内容、通过转发采集获取所述已知时间序列的热点内容或通过正则表达式采集获取所述已知时间序列的热点内容，并确定所述热点内容的频数。

较佳的，所述对所述已知时间序列的所述热点内容的频数进行等间隔划分，得到N段初始频数子区间，包括：

获取第一数值、第二数值、所述已知时间序列中热点内容的频数的最小值及所述已知时间序列中热点内容的频数的最大值；

将所述已知时间序列中热点内容的频数的最大值和所述第二数值之和、与所述已知时间序列中热点内容的频数的最小值和所述第一数值之差、之间的差值均分为N段，得到N段初始频数子区间，其中，所述差值为所述N的整数倍，所述N段初始频数子区间分别为：

[d_min-d₁,d_min-d₁+l],[d_min-d₁+l,d_min-d₁+2l],...,[d_max+d₂-l,d_max+d₂]；

其中，所述l＝(d_max+d₂-d_min+d₁)/N，所述d_min为所述已知时间序列中热点内容的频数的最小值，所述d_max为所述已知时间序列中热点内容的频数的最大值，所述d₁为所述第一数值，所述d₂为所述第二数值，所述d₁和d₂为正数，所述N为大于1的整数。

较佳的，所述在所述热点内容的频数在所述初始频数子区间中、出现的次数达到预设条件时，对所述初始频数子区间进行划分，包括：

获取所述热点内容的频数在所述初始频数子区间中、出现的次数的基准范围；

对所述次数由次数多到次数少进行排序，将排序次序的前L项对应的初始频数子区间进行划分，得到最终频数子区间，其中，所述热点内容的频数在所述前L项对应的初始频数子区间中出现的次数大于所述基准范围中的数值，所述L为大于或等于1的整数。

较佳的，所述根据所述最终频数子区间与预设的模糊集区间，确定所述预测时间序列的所述热点内容的传播趋势，包括：

根据公式：g(t)＝f(t)-f(t-1)，确定相邻已知时间序列内所述热点内容的频数差值；

根据公式：h(t)＝g(t)-g(t-1)，确定相邻已知时间序列内所述热点内容的频数差值的变化趋势；

根据{f(t-1)-β|h(t-1)|}，确定所述预测时间序列内所述热点内容的传播趋势；

其中，所述t-1为所述已知时间序列的第一时间段，所述t为所述已知时间序列的所述t-1后面相邻时间段的第二时间段，所述f(t-1)为所述t-1内所述热点内容的频数，所述f(t)为所述t内所述热点内容的频数，所述g(t)为所述t与所述t-1内所述热点内容的频数差值，所述h(t)为所述t与所述t-1内所述热点内容的频数差值的变化趋势，所述h(t-1)为所述t-1与所述t-1前面相邻时间段内所述热点内容的频数差值的变化趋势，所述β为预设常数，β∈{±α,±1/α}，所述α为(0，1)范围内的数值。

较佳的，所述根据{f(t-1)-β|h(t-1)|}，确定所述预测时间序列内所述热点内容的传播趋势，包括：

判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±α}，且

{f(t-1)-β|h(t-1)|}不包含在所述模糊区间内时，其中，β∈{±1/α}，则确定所述传播趋势为预定基本趋势中的下降；

判断{f(t-1)-β|h(t-1)|}包含在所述模糊区间内，其中，β∈{±1/α}，且{f(t-1)-β|h(t-1)|}不包含在所述模糊区间内时，其中，β∈{±α}，则确定所述传播趋势为所述预定基本趋势中的上升；

判断{f(t-1)-β|h(t-1)|}不包含在所述模糊区间内，其中，β∈{±α,±1/α}，则确定所述传播趋势为所述预定基本趋势中的平稳；

判断{f(t-1)-β|h(t-1)|}包含在所述模糊区间内，其中，β∈{±α}，且{f(t-1)-β|h(t-1)|}包含在所述模糊区间内时，其中，β＝1/α和β＝-1/α两数值中只能取一个，则确定所述传播趋势为预定扩展趋势中的略微下降；

判断{f(t-1)-β|h(t-1)|}包含在所述模糊区间内，其中，β∈{±1/α}，且{f(t-1)-β|h(t-1)|}包含在所述模糊区间内时，其中，β＝α和β＝-α两数值中只能取一个，则确定所述传播趋势为所述预定扩展趋势中的略微上升。

较佳的，所述根据所述传播趋势，通过预测算法，确定所述预测时间序列的所述热点内容的预测值，包括：

如果所述传播趋势为所述预定基本趋势，根据所述预定基本趋势的预测算法：V_γ＝S_min+α×(S_max-S_min)，确定所述预定基本趋势中不同传播趋势的所述热点内容的预测值；

其中，所述V_γ为所述预定基本趋势中不同传播趋势的所述热点内容的预测值，所述S_min为当前预测时间序列相邻的前一个时间序列中所述热点内容的频数子区间的下边界，所述S_max为当前预测时间序列相邻的前一个时间序列中所述热点内容的频数子区间的上边界；

所述α₁为所述预定基本趋势中的下降的参数，所述α₂为所述预定基本趋势中的平稳的参数，所述α₃为所述预定基本趋势中的上升的参数，所述γ＝1为所述预定基本趋势中的下降，所述γ＝2为所述预定基本趋势中的平稳，所述γ＝3为所述预定基本趋势中的上升；

如果所述传播趋势为所述预定扩展趋势，则根据所述预定扩展趋势的预测算法：确定所述预定扩展趋势中不同传播趋势的所述热点内容的预测值；

其中，所述V为所述预定扩展趋势中不同传播趋势的所述热点内容的预测值，所述V₁为所述预定基本趋势中的下降的预测值，所述V₂为所述预定基本趋势中的平稳的预测值，所述V₃为所述预定基本趋势中的上升的预测值，所述δ为所述预定基本趋势中的下降的参数，所述μ为所述预定基本趋势中的平稳的参数，所述λ为所述预定基本趋势中的上升的参数，所述δ、所述μ和所述λ取值为[0，1]。

本发明实施例还公开了一种热点内容预测的装置，包括：

数据采集模块，用于获取预设时间段中已知时间序列的热点内容的频数，其中，所述预设时间段中还存在所述热点内容的频数未知的预测时间序列；

初始频数子区间划分模块，用于对所述已知时间序列的所述热点内容的频数进行等间隔划分，得到N段初始频数子区间，其中，所述N为大于1的整数；

最终频数子区间划分模块，用于在所述热点内容的频数在所述初始频数子区间中、出现的次数达到预设条件时，对所述初始频数子区间进行划分，得到M段最终频数子区间，其中，所述M大于或等于所述N，所述M段最终频数子区间包括：划分的初始频数子区间及未划分的初始频数子区间；

传播趋势分析模块，用于根据所述最终频数子区间与预设的模糊集区间，确定所述预测时间序列的所述热点内容的传播趋势；

时间序列预测模块，用于根据所述传播趋势，通过预测算法，确定所述预测时间序列的所述热点内容的预测值。

较佳的，所述数据采集模块进一步用于，通过话题标签采集获取所述已知时间序列的热点内容、通过转发采集获取所述已知时间序列的热点内容或通过正则表达式采集获取所述已知时间序列的热点内容，并确定所述热点内容的频数。

较佳的，所述初始频数子区间划分模块包括：

数值获取子模块，用于获取第一数值、第二数值、所述已知时间序列中热点内容的频数的最小值及所述已知时间序列中热点内容的频数的最大值；

初始频数划分子模块，用于将所述已知时间序列中热点内容的频数的最大值和所述第二数值之和、与所述已知时间序列中热点内容的频数的最小值和所述第一数值之差、之间的差值均分为N段，得到N段初始频数子区间，其中，所述差值为所述N的整数倍，所述N段初始频数子区间分别为：

由上述的技术方案可见，本发明实施例的热点内容预测的方法及装置，通过获取热点内容的频数并对所述热点内容的频数进行划分，得到最终频数子区间，根据预设的模糊集区间，确定所述预测时间序列的所述热点内容的传播趋势，通过预测算法，确定所述预测时间序列的所述热点内容的预测值。应用本发明实施例的热点内容预测的方法及装置，不仅能够拟合时间序列的传播趋势，同时能够获得精确度更高的预测效果。同时，本发明操作简单，逻辑简洁易懂，通用性好，具有较好的实用化前景。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的热点内容预测的方法的流程图；

图2是现有技术中给定隶属度函数的模糊区间的划分表示示意图；

图3是本发明实施例的热点内容预测的装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，图1为本发明实施例的热点内容预测的方法的流程图，包括如下步骤：

步骤101，获取预设时间段中已知时间序列的热点内容的频数，其中，预设时间段中还存在热点内容的频数未知的预测时间序列；

本发明实施例中，预设时间段为，在预测热点内容之前预先设定的时间段，包括已知时间序列和预测时间序列，其中，已知时间序列的热点内容的频数已知，预测时间序列的热点内容的频数未知，需要进行预测。以预设时间段300天为例进行说明，若前200天为已知时间序列，前200天的热点内容的频数已知，则后100天为还未发生的预测时间序列且热点内容的频数未知。

步骤102，对已知时间序列的热点内容的频数进行等间隔划分，得到N段初始频数子区间，其中，N为大于1的整数；

步骤103，在热点内容的频数在初始频数子区间中、出现的次数达到预设条件时，对初始频数子区间进行划分，得到M段最终频数子区间，其中，M大于或等于N，M段最终频数子区间包括：划分的初始频数子区间及未划分的初始频数子区间；

步骤104，根据最终频数子区间与预设的模糊集区间，确定预测时间序列的热点内容的传播趋势；

本步骤中，确定预测时间序列的热点内容的传播趋势，指确定预测时间序列中的每一个时间段的热点内容的传播趋势。以步骤101中的300天为例进行说明，假设每一个时间段为1天，根据前200天预测第201天的热点内容的传播趋势，在预测完成第201天的热点内容的频数之后，根据前201天确定第202天的热点内容的传播趋势。以此类推，直至确定第300天的热点内容的传播趋势。

步骤105，根据传播趋势，通过预测算法，确定预测时间序列的热点内容的预测值。

本步骤与步骤104相结合，确定预测时间序列中的每一个时间段的热点内容的传播趋势和热点内容的预测值。

可见，应用本发明实施例的热点内容预测的方法，通过对热点内容的频数进行划分，得到最终频数子区间，根据最终频数子区间与预设的模糊集区间，确定热点内容的传播趋势；根据预测算法确定热点内容的预测值。本发明实施例不仅能够拟合时间序列的传播趋势，获得精确度更高的预测效果，而且操作简单，逻辑简洁易懂，通用性好，具有较好的实用化前景。

优选地，本发明实施例的热点内容预测的方法中，获取预设时间段中已知时间序列的热点内容的频数，包括：

通过话题标签采集获取已知时间序列的热点内容、通过转发采集获取已知时间序列的热点内容或通过正则表达式采集获取已知时间序列的热点内容，并确定热点内容的频数。

话题标签采集，利用热点内容中用来标注热点内容的标签或热点内容中特征主体对特定网络词语进行标记与爬取。

转发采集，利用网络平台中转发关系爬取同一词语数据。网络用户可以通过转发参与到热点内容的讨论之中。针对原始词语信息，遍历不同转发节点网络，爬取海量相关数据。

正则表达式采集，利用正则表达式构建热点内容语法，提取包含该热点内容语法的网络文本，获取海量相关词语数据。

优选地，本发明实施例的热点内容预测的方法中，对已知时间序列的热点内容的频数进行等间隔划分，得到N段初始频数子区间，包括：

获取第一数值、第二数值、已知时间序列中热点内容的频数的最小值及已知时间序列中热点内容的频数的最大值；

将已知时间序列中热点内容的频数的最大值和第二数值之和、与已知时间序列中热点内容的频数的最小值和第一数值之差、之间的差值均分为N段，得到N段初始频数子区间，其中，N段初始频数子区间分别为：[d_min-d₁,d_min-d₁+l],[d_min-d₁+l,d_min-d₁+2l],...,[d_max+d₂-l,d_max+d₂]；

其中，l＝(d_max+d₂-d_min+d₁)/N，d_min为已知时间序列中热点内容的频数的最小值，d_max为已知时间序列中热点内容的频数的最大值，d₁为第一数值，d₂为第二数值，d₁和d₂为正数，N为大于1的整数。

实际应用中，已知时间序列中热点内容的频数的最大值d_max、已知时间序列中热点内容的频数的最小值d_min和数值N，不是方便计算的整数，计算过程产生的小数不利于频数的划分。根据实际情况，通常选取合适的第一数值d₁和第二数值d₂，且d₁和d₂为正数，使(d_max+d₂-d_min+d₁)/N为方便计算的整数，提高计算效率。

优选地，本发明实施例的热点内容预测的方法中，在热点内容的频数在初始频数子区间中、出现的次数达到预设条件时，对初始频数子区间进行划分，包括：

获取热点内容的频数在初始频数子区间中、出现的次数的基准范围；

本发明实施例中，在初始频数子区间划分完成之后，热点内容的频数在初始频数子区间中、出现的次数是不同的，对于次数较高的需要继续划分，需要根据热点内容的频数在初始频数子区间中、出现的次数设定继续划分的基准范围。

对次数由次数多到次数少进行排序，将排序次序的前L项对应的初始频数子区间进行划分，得到最终频数子区间，其中，热点内容的频数在前L项对应的初始频数子区间中出现的次数大于基准范围中的数值，L为大于或等于1的整数。

实际应用中，热点内容的频数在不同初始频数子区间中出现的次数是不同的，对次数进行降序排列，通常将热点内容的频数在前L项初始频数子区间之外的频数子区间中出现的次数范围作为基准范围，分别对前L项初始频数子区间进行划分，使得热点内容的频数在划分后每一个最终频数子区间中出现的次数接近于基准范围。

优选地，本发明实施例的热点内容预测的方法中，根据最终频数子区间与预设的模糊集区间，确定预测时间序列的热点内容的传播趋势，包括：

根据公式：g(t)＝f(t)-f(t-1)，确定相邻已知时间序列内热点内容的频数差值；

如果g(t)>0，则表示热点内容的频数数值变化为正向变化；

如果g(t)<0，则表示热点内容的频数数值变化为负向变化；

如果g(t)＝0，则表示热点内容的频数数值保持不变。

根据公式：h(t)＝g(t)-g(t-1)，确定相邻已知时间序列内热点内容的频数差值的变化趋势；

如果h(t)>0，则表示热点内容的频数差值变化趋势为上升趋势；

如果h(t)<0，则表示热点内容的频数差值变化趋势为下降趋势；

如果h(t)＝0，则表示热点内容的频数差值变化趋势为保持不变。

根据{f(t-1)-β|h(t-1)|}，确定预测时间序列内热点内容的传播趋势；

其中，t-1为已知时间序列的第一时间段，t为已知时间序列的t-1后面相邻时间段的第二时间段，f(t-1)为t-1内热点内容的频数，f(t)为t内热点内容的频数，g(t)为t与t-1内热点内容的频数差值，h(t)为t与t-1内热点内容的频数差值的变化趋势，h(t-1)为t-1与t-1前面相邻时间段内热点内容的频数差值的变化趋势，β为预设常数，β∈{±α,±1/α}，α为(0，1)范围内的数值。

论域U是有限集，U＝{u₁,u₂,...u_n}，其中u_i为集合元素，U上的任一模糊集A，其隶属函数为{f_A(u_i)}(i＝1,2,...n)，f_A(u_i)∈[0,1]，则模糊集表示为：A＝{f_A(u₁)/u₁,f_A(u₂)/u₂,...,f_A(u_n)/u_n}，

也可以表示为：A＝f_A(u₁)/u₁+f_A(u₂)/u₂+...+f_A(u_n)/u_n，

其中，f_A(u_i)/u_i不是分数，“+”也不表示求和，只有符号意义，它表示点u_i对模糊集A的隶属度是f_A(u_i)，隶属度值选取的范围和大小根据实际应用场景进行调整。

根据场景选取隶属度值，本发明实施例中，选取隶属度值分别为0、0.5、1，则模糊区间的划分表示示意图如图2所示，则各模糊区间分别表示为：

模糊区间的集合构成模糊集区间。

优选地，本发明实施例的热点内容预测的方法中，根据{f(t-1)-β|h(t-1)|}，确定预测时间序列内热点内容的传播趋势，包括：

判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±α}，且

{f(t-1)-β|h(t-1)|}不包含在模糊区间内时，其中，β∈{±1/α}，则确定传播趋势为预定基本趋势中的下降；

判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±1/α}，且{f(t-1)-β|h(t-1)|}不包含在模糊区间内时，其中，β∈{±α}，则确定传播趋势为预定基本趋势中的上升；

判断{f(t-1)-β|h(t-1)|}不包含在模糊区间内，其中，β∈{±α,±1/α}，则确定传播趋势为预定基本趋势中的平稳；

判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±α}，且{f(t-1)-β|h(t-1)|}包含在模糊区间内时，其中，β＝1/α和β＝-1/α两数值中只能取一个，则确定传播趋势为预定扩展趋势中的略微下降；

判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±1/α}，且{f(t-1)-β|h(t-1)|}包含在模糊区间内时，其中，β＝α和β＝-α两数值中只能取一个，则确定传播趋势为预定扩展趋势中的略微上升。

实际应用中，可以根据上升和下降趋势的偏向程度进一步进行扩展趋势的定义和划分。

优选地，本发明实施例的热点内容预测的方法中，根据传播趋势，通过预测算法，确定预测时间序列的热点内容的预测值，包括：

如果传播趋势为预定基本趋势，根据预定基本趋势的预测算法：

V_γ＝S_min+α×(S_max-S_min)，确定预定基本趋势中不同传播趋势的热点内容的预测值；

其中，V_γ为预定基本趋势中不同传播趋势的热点内容的预测值，S_min为当前预测时间序列相邻的前一个时间序列中热点内容的频数子区间的下边界，S_max为当前预测时间序列相邻的前一个时间序列中热点内容的频数子区间的上边界；

α₁为预定基本趋势中的下降的参数，α₂为预定基本趋势中的平稳的参数，α₃为预定基本趋势中的上升的参数，γ＝1为预定基本趋势中的下降，γ＝2为预定基本趋势中的平稳，γ＝3为预定基本趋势中的上升；

如果传播趋势为预定扩展趋势，则根据预定扩展趋势的预测算法：确定预定扩展趋势中不同传播趋势的热点内容的预测值；

其中，V为预定扩展趋势中不同传播趋势的热点内容的预测值，V₁为预定基本趋势中的下降的预测值，V₂为预定基本趋势中的平稳的预测值，V₃为预定基本趋势中的上升的预测值，δ为预定基本趋势中的下降的参数，μ为预定基本趋势中的平稳的参数，λ为预定基本趋势中的上升的参数，δ、μ和λ取值为[0，1]。

实际应用中，α₁、α₂、α₃、δ、μ和λ根据实际场景可进行参数值的选取。以新浪微博热点词语在300天内的传播分析为例进行说明，如果热点词语的传播趋势为预定基本趋势，则可选取α₁＝0.25，α₂＝0.5，α₃＝0.75，如果热点词语的传播趋势为预定扩展趋势中的略微下降，则可选取δ＝0.75，λ＝0.25，μ＝0.5，如果热点词语的传播趋势为略微上升，则可选取δ＝0.25，μ＝0.5，λ＝0.75。

在预测时间序列变为已知时间序列之后，将得到预测时间序列中热点内容的预测值和获取的实际的热点内容的预测值进行比较，结果显示，本发明实施例的热点内容预测的方法，与传统的热点内容预测的方法相比，预测结果更精准。

可见，应用本发明实施例的热点内容预测的方法，不仅能够拟合时间序列的传播趋势，而且能够获得精确度更高的预测效果。同时，本发明操作简单，通用性好，具有较好的实用化前景。

参见图3，图3为本发明实施例的热点内容预测的装置的结构图，与图1所示的流程相对应，包括：

数据采集模块301，用于获取预设时间段中已知时间序列的热点内容的频数，其中，预设时间段中还存在热点内容的频数未知的预测时间序列；

初始频数子区间划分模块302，用于对已知时间序列的热点内容的频数进行等间隔划分，得到N段初始频数子区间，其中，N为大于1的整数；

最终频数子区间划分模块303，用于在热点内容的频数在初始频数子区间中、出现的次数达到预设条件时，对初始频数子区间进行划分，得到M段最终频数子区间，其中，M大于或等于N，M段最终频数子区间包括：划分的初始频数子区间及未划分的初始频数子区间；

传播趋势分析模块304，用于根据最终频数子区间与预设的模糊集区间，确定预测时间序列的热点内容的传播趋势；

时间序列预测模块305，用于根据传播趋势，通过预测算法，确定预测时间序列的热点内容的预测值。

可见，应用本发明实施例的热点内容预测的装置，通过对热点内容的频数进行划分，得到最终频数子区间，根据最终频数子区间与预设的模糊集区间，确定热点内容的传播趋势；根据预测算法确定热点内容的预测值。本发明实施例不仅能够拟合时间序列的传播趋势，获得精确度更高的预测效果，而且操作简单，逻辑简洁易懂，通用性好，具有较好的实用化前景。

需要说明的是，本发明实施例的装置是应用上述热点内容预测的方法的装置，则上述热点内容预测的方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

优选地，本发明实施例的热点内容预测的装置中，数据采集模块进一步用于，通过话题标签采集获取已知时间序列的热点内容、通过转发采集获取已知时间序列的热点内容或通过正则表达式采集获取已知时间序列的热点内容，并确定热点内容的频数。

优选地，本发明实施例的热点内容预测的装置中，初始频数子区间划分模块包括：

数值获取子模块，用于获取第一数值、第二数值、已知时间序列中热点内容的频数的最小值及已知时间序列中热点内容的频数的最大值；

初始频数划分子模块，用于将已知时间序列中热点内容的频数的最大值和第二数值之和、与已知时间序列中热点内容的频数的最小值和第一数值之差、之间的差值均分为N段，得到N段初始频数子区间，其中，N段初始频数子区间分别为：

优选地，本发明实施例的热点内容预测的装置中，最终频数子区间划分模块包括：

基准范围获取子模块，用于获取热点内容的频数在初始频数子区间中、出现的次数的基准范围；

最终频数划分子模块，用于对次数由次数多到次数少进行排序，将排序次序的前L项对应的初始频数子区间进行划分，得到最终频数子区间，其中，热点内容的频数在前L项对应的初始频数子区间中出现的次数大于基准范围中的数值，L为大于或等于1的整数。

优选地，本发明实施例的热点内容预测的装置中，传播趋势分析模块包括：

频数差值子模块，用于根据公式：g(t)＝f(t)-f(t-1)，确定相邻已知时间序列内热点内容的频数差值；

如果g(t)>0，则表示热点内容的频数数值变化为正向变化；

如果g(t)<0，则表示热点内容的频数数值变化为负向变化；

如果g(t)＝0，则表示热点内容的频数数值保持不变。

频数差值变化趋势子模块，用于根据公式：h(t)＝g(t)-g(t-1)，确定相邻已知时间序列内热点内容的频数差值的变化趋势；

传播趋势确定子模块，用于根据{f(t-1)-β|h(t-1)|}，确定预测时间序列内热点内容的传播趋势；

也可以表示为：A＝f_A(u₁)/u₁+f_A(u₂)/u₂+...+f_A(u_n)/u_n，

模糊区间的集合构成模糊集区间。

优选地，本发明实施例的热点内容预测的装置中，传播趋势确定子模块包括：

第一判断单元，用于判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±α}，且{f(t-1)-β|h(t-1)|}不包含在模糊区间内时，其中，β∈{±1/α}，则确定传播趋势为预定基本趋势中的下降；

第二判断单元，用于判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±1/α}，且{f(t-1)-β|h(t-1)|}不包含在模糊区间内时，其中，β∈{±α}，则确定传播趋势为预定基本趋势中的上升；

第三判断单元，用于判断{f(t-1)-β|h(t-1)|}不包含在模糊区间内，其中，β∈{±α,±1/α}，则确定传播趋势为预定基本趋势中的平稳；

第四判断单元，用于判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±α}，且{f(t-1)-β|h(t-1)|}包含在模糊区间内时，其中，β＝1/α和β＝-1/α两数值中只能取一个，则确定传播趋势为预定扩展趋势中的略微下降；

第五判断单元，用于判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±1/α}，且{f(t-1)-β|h(t-1)|}包含在模糊区间内时，其中，β＝α和β＝-α两数值中只能取一个，则确定传播趋势为预定扩展趋势中的略微上升。

优选地，本发明实施例的热点内容预测的装置中，时间序列预测模块包括：

预定基本趋势预测子模块，用于根据预定基本趋势的预测算法，确定预定基本趋势中不同传播趋势的热点内容的预测值，包括：

根据预定基本趋势的预测算法：V_γ＝S_min+α×(S_max-S_min)，确定预定基本趋势中不同传播趋势的热点内容的预测值；

α₁为预定基本趋势中的下降的参数，α₂为预定基本趋势中的平稳的参数，α₃为预定基本趋势中的上升的参数，γ＝1为预定基本趋势中的下降，γ＝2为预定基本趋势中的平稳，γ＝3为预定基本趋势中的上升。

预定扩展趋势预测子模块，用于根据预定扩展趋势的预测算法，确定预定扩展趋势中不同传播趋势的热点内容的预测值，包括：

根据预定扩展趋势的预测算法：确定预定扩展趋势中不同传播趋势的热点内容的预测值；

在预测时间序列变为已知时间序列之后，将得到预测时间序列中热点内容的预测值和获取的实际的热点内容的预测值进行比较，结果显示，本发明实施例的热点内容预测的装置，得到的预测结果更精准。

可见，应用本发明实施例的热点内容预测的装置，不仅能够拟合时间序列的传播趋势，而且能够获得精确度更高的预测效果。同时，本发明操作简单，通用性好，具有较好的实用化前景。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种热点内容预测的方法，其特征在于，包括：

2.根据权利要求1所述的热点内容预测的方法，其特征在于，所述获取预设时间段中已知时间序列的热点内容的频数，包括：

3.根据权利要求1所述的热点内容预测的方法，其特征在于，所述对所述已知时间序列的所述热点内容的频数进行等间隔划分，得到N段初始频数子区间，包括：

4.根据权利要求1所述的热点内容预测的方法，其特征在于，所述在所述热点内容的频数在所述初始频数子区间中、出现的次数达到预设条件时，对所述初始频数子区间进行划分，包括：

5.根据权利要求1所述的热点内容预测的方法，其特征在于，所述根据所述最终频数子区间与预设的模糊集区间，确定所述预测时间序列的所述热点内容的传播趋势，包括：

6.根据权利要求5所述的热点内容预测的方法，其特征在于，所述根据{f(t-1)-β|h(t-1)|}，确定所述预测时间序列内所述热点内容的传播趋势，包括：

判断{f(t-1)-β|h(t-1)|}包含在模糊区间内，其中，β∈{±α}，且

判断{f(t-1)-β|h(t-1)|}包含在所述模糊区间内，其中，β∈{±α}，且

{f(t-1)-β|h(t-1)|}包含在所述模糊区间内时，其中，β＝1/α和β＝-1/α两数值中只能取一个，则确定所述传播趋势为预定扩展趋势中的略微下降；

7.根据权利要求6所述的热点内容预测的方法，其特征在于，所述根据所述传播趋势，通过预测算法，确定所述预测时间序列的所述热点内容的预测值，包括：

如果所述传播趋势为所述预定基本趋势，根据所述预定基本趋势的预测算法：

V_γ＝S_min+α×(S_max-S_min)，确定所述预定基本趋势中不同传播趋势的所述热点内容的预测值；

8.一种热点内容预测的装置，其特征在于，包括：

9.根据权利要求8所述的热点内容预测的装置，其特征在于，所述数据采集模块进一步用于，通过话题标签采集获取所述已知时间序列的热点内容、通过转发采集获取所述已知时间序列的热点内容或通过正则表达式采集获取所述已知时间序列的热点内容，并确定所述热点内容的频数。

10.根据权利要求8所述的热点内容预测的装置，其特征在于，所述初始频数子区间划分模块包括：